CN107515855A - 一种结合表情符的微博情感分析方法和系统 - Google Patents

一种结合表情符的微博情感分析方法和系统 Download PDF

Info

Publication number
CN107515855A
CN107515855A CN201710712458.3A CN201710712458A CN107515855A CN 107515855 A CN107515855 A CN 107515855A CN 201710712458 A CN201710712458 A CN 201710712458A CN 107515855 A CN107515855 A CN 107515855A
Authority
CN
China
Prior art keywords
emoticon
mrow
microblogging
feature
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710712458.3A
Other languages
English (en)
Other versions
CN107515855B (zh
Inventor
姬东鸿
钱涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan Black Tea Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Black Tea Data Technology Co Ltd filed Critical Wuhan Black Tea Data Technology Co Ltd
Priority to CN201710712458.3A priority Critical patent/CN107515855B/zh
Publication of CN107515855A publication Critical patent/CN107515855A/zh
Application granted granted Critical
Publication of CN107515855B publication Critical patent/CN107515855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明自然语言处理领域,尤其涉及一种结合表情符的微博情感分析方法和系统。方法包括以下步骤:获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;采用卷积神经网络方法学习出所述微博文本的第一特征表示;采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示;采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。本发明的方法把文本和表情符看作是两个交互的部分,且利用表情符注意力机制摸拟了表情符对文本的情感产生作用的认知事实,避免了直接把表情符当作模型特征产生的歧义性问题,有助于处理社交媒体中的情感分析问题,提高了情感分析的准确性。

Description

一种结合表情符的微博情感分析方法和系统
技术领域
本发明自然语言处理领域,尤其涉及一种结合表情符的微博情感分析方法和系统。
背景技术
微博已成为人们交流信息、表达情感和观点最重要媒介之一,已有大量的研究工作聚焦于微博文本,如舆情分析,突发事件检测,观点挖掘和情感分析等,其中情感分析是微博研究的基础及重点话题之一。为表达情感和观点,人们在社交媒体如新浪微博、twitter中,使用了大量的表情符号,用于表达用户的情感及观点,因此表情符已被广泛应用于基于社交媒体的情感分析模型中。社会及认知学领域研究认为表情符类似于人类交流中的非言语成份,如面部表情,姿态等,表达交流者之闻的情感,他们认为:在社交媒体中,表情符对文本的情感表达产生最重要影响,甚至能改变文本的情感极性.如下面两个例子:
(1)明天周末。
(2)明天周末。
显然在例子中,文本“明天周末。”是中性情感,但是加上不同的表情符后,其情感极性发生了改变。例子(1)变成负性情感。例子(2)变成正性情感。可以看出:表情符对文本的情感表达起着重要作用,它能改变文本的情感极性。
当前对表情符的使用策略主要包括三种:
第一类策略是大多数研究将表情符看作是一种自然标注。该策略假设表情符独立的表达了用户的情感和观点。因此利用自然标注,解决了人工标注语料不足的问题,但已有研究显示,由于表情符存在歧义,即同一个表情符也可是正性,也可能是负性,因此利用表情符建立的训练语料包含许多噪音,可能会训练模型产生副作用。
第二类策略是将表情符作为文本特征融入到分析模型中。这类策略也没有体现表情符对文本的情感作用。
第三类策略是把表情符和文本看作两个并列的信息源。Hogenboo等人将社交媒体文本分成表情符和文本两部分,然后分别采用不同的模型计算出各自的情感,最后两个情感线性组合得到最终的文本情感。
然而当前的三种使用表情符策略的情感分析模型没有考虑表情符对文本的作用机制。
发明内容
为解决上述技术问题,本发明提供了一种结合表情符的微博情感分析方法和系统。
第一方面,本发明实施例提供了一种结合表情符的微博情感分析方法,包括以下步骤:
步骤1,获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;
步骤2,采用卷积神经网络方法学习出所述微博文本的第一特征表示;
步骤3,采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示;
步骤4,采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。
上述方案的有益效果在于:本发明的微博情感分析方法首先采用卷积神经网络获得微博文本的特征表示,再用表情符注意力机制更新其特征表示,最后进行分类,与现有技术比较,本发明的方法具有以下的有益效果:
(1)本发明的方法首先采用卷积神经网络的方法获取微博文本的特征表示,缓解了采用特征工程导致的复杂性问题;
(2)本发明的方法从一个崭新的角度进行微博文本的情感分析,把文本和表情符看作是两个交互的部分,且利用表情符注意力机制摸拟了表情符对文本的情感产生作用的认知事实,避免了直接把表情符当作模型特征产生的歧义性问题,有助于处理社交媒体中的情感分析问题,提高了情感分析的准确性。
进一步的,所述采用卷积神经网络方法学习出所述微博文本的第一特征表示具体包括以下步骤:
S201,获取所述微博文本的所有单词向量,并形成单词序列为(x1,x2,…,xk),将所述单词序列作为神经网络模型的输入,其中x1,x2,…,xk为所述微博文本的各个单词向量,且Xi∈Rm,表示长度为m的实向量;
S202,在h个连续单词向量上进行以下卷操作:
ct=ReLU(Wf·Xt:t+h-1+bf),并生成特征向量Ct∈Rk,Ct∈Rk表示维度为k的实向量,其中bf为偏置矩阵,Wf∈Rh×m表示宽度为h个单词的过滤器,Xt:t+h-1∈Rh×m表示从t到t+h-1个单词向量所构成的单词矩阵;
S203,将所述特征向量Ct∈Rk通过一个最大池化层得到所述微博文本的第一特征表示Vt∈Rk,所述第一特征表示的维度为K维。
进一步,所述采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示,具体包括以下步骤:
S301,获取所述微博语句的所有表情符向量以及所有表情符向量对所述第一特征表示中第i维特征的作用权重ai,形成作用权重向量a;
S302,采用以下预设公式获取所述第二特征表示:
其中,a表示所述作用权重向量,vt为所述第一特征表示,v′t为所述第二特征表示。
进一步,所述所有表情符向量对所述第一特征表示中的作用权重向量a的计算公式为:
a=Mv
其中v为所述微博语句的表情符表示,其可表示为: 为所述微博语句的每个表情符向量;M∈Rk×m表示表情符对文本的作用矩阵。
进一步,所述采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示,具体包括以下步骤:
S401,将所述第二特征表示作为情感分类特征,并采用预设非线性函数将所述情感分类特征映射到预设目标类别空间的多个预设情感分类上,所述预设非线性函数为dc=tanh(Wcvt'+bc),其中,dc为情感分类映射特征,Wc为线性矩阵,bc为偏移向量;
S402,采用softmax函数计算所述微博语句在每个情感分类上的概率,具体为:
其中,pc为所述微博语句在情感分类c上的预测概率,C为情感分类类别的数量。
进一步,还包括以下步骤:通过随机梯度下降,最小化损失函数,并对所有参数进行学习与更新;
所述损失函数为预测情感分布和实际情感分布之间的交叉熵,所述损失函数具体为:
其中为实际情感分布,当所述微博语句的实际情感为分类c时,其值为1,否则为0;pc为所述微博语句在情感分类c上的预测概率,D表示训练微博集;所述参数包括权重矩阵、偏差矩阵,单词向量、表情符向量。
第二方面,本发明提供了一种结合表情符的微博情感分析系统,包括采集获取、第一学习模块、第二学习模块和结果生成模块,
所述采集模块用于获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;
所述第一学习模块用于采用卷积神经网络方法学习出所述微博文本的第一特征表示;
所述第二学习模块用于采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示;
结果生成模块用于采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。
上述方案的有益技术效果在于:本发明的微博情感分析系统首先通过第一学习模块采集卷积神经网络方法获得微博文本的特征表示,再通过第二学习模块采用表情符注意力机制更新其特征表示,最后进行分类,与现有技术比较,本发明的微博情感分析系统把文本和表情符看作是两个交互的部分,且利用表情符注意力机制摸拟了表情符对文本的情感产生作用的认知事实,避免了直接把表情符当作模型特征产生的歧义性问题,有助于处理社交媒体中的情感分析问题,提高了情感分析的准确性。
进一步,还包括修正模块,所述修正模块用于通过随机梯度下降,最小化损失函数,并对所有参数进行学习与更新;所述损失函数为预测情感分布和实际情感分布之间的交叉熵,所述损失函数具体为:
其中为实际情感分布,当所述微博语句的实际情感为分类c时,其值为1,否则为0;pc为所述微博语句在情感分类c上的预测概率,D表示训练微博集;所述参数包括权重矩阵、偏差矩阵,单词向量、表情符向量。
进一步,所述第一学习模块包括:
第一获取单元,用于获取所述微博文本的所有单词向量,并形成单词序列为(x1,x2,…,xk),将所述单词序列作为神经网络模型的输入,其中x1,x2,…,xk为所述微博文本的各个单词向量,且Xi∈Rm,表示长度为m的实向量;
卷积单元,用于在h个连续单词向量上进行以下卷操作:
ct=ReLU(Wf·Xt:t+h-1+bf),并生成特征向量Ct∈Rk,Ct∈Rk表示维度为k的实向量,其中bf为偏置矩阵,Wf∈Rh×m表示宽度为h个单词的过滤器,Xt:t+h-1∈Rh×m表示从t到t+h-1个单词向量所构成的单词矩阵;
池化单元,用于将所述特征向量Ct∈Rk通过一个最大池化层得到所述微博文本的第一特征表示Vt∈Rk,所述第一特征表示的维度为K维。
进一步,所述第二学习模块包括:
第二获取单元,用于获取所述微博语句的所有表情符向量以及所有表情符向量对所述第一特征表示中第i维特征的作用权重ai,形成作用权重向量a;
第三获取单元,用于采用以下预设公式获取所述第二特征表示:
其中,a表示所述作用权重向量,vt为所述第一特征表示,v′t为所述第二特征表示。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明实施例1提供的一种结合表情符的微博情感分析方法的示意性流程图;
图2为本发明实施例2提供的一种结合表情符的微博情感分析系统的结构性示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定装置结构、接口、技术之类的具体细节,以便透切理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
如图1给出了本发明实施例1提供的一种结合表情符的微博情感分析方法的示意性流程图。如图1所示,方法的执行主体可以是服务器,该方法包括以下步骤:
步骤1,获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;
步骤2,采用卷积神经网络方法学习出所述微博文本的第一特征表示;
步骤3,采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示;
步骤4,采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。
本实施例的微博情感分析方法首先采用卷积神经网络获得微博文本的特征表示,再用表情符注意力机制更新其特征表示,最后进行分类。注意力机制,即Attention机制最早是在视觉图像领域提出来的,通过attention去学习一幅图像中需要处理的部分,每次当前状态都会根据前一个状态学习得到的需要关注处理的位置和当前输入的图像,去处理注意力部分像素,而不是图像的全部像素,而现在注意力机制已经被应用到了更多的领域,比如神经网络机器翻译等等。本发明的方法在具体情感分析过程中,把文本和表情符看作是两个交互的部分,且利用表情符注意力机制摸拟了表情符对文本的情感产生作用的认知事实,即采用了注意力机制得到微博语句中每一个表情符对微博文本的重要程度,避免了直接把表情符当作模型特征产生的歧义性问题,有助于处理社交媒体中的情感分析问题,提高了情感分析的准确性。
以下对实施例1方法的每个步骤进行详细说明。
在一个优选实施例中,所述采用卷积神经网络方法学习出所述微博文本的第一特征表示具体包括以下步骤:
S201,获取所述微博文本的所有单词向量,并形成单词序列为(x1,x2,…,xk),将所述单词序列作为神经网络模型的输入,其中x1,x2,…,xk为所述微博文本的各个单词向量,且Xi∈Rm,表示长度为m的实向量。上述步骤中首先把微博文本中每一个单词映射为一个低维连续向量,比如可以采用文本深度表示模型(如word2vec)将把微博文本中的单词进行表征获得词向量。word2vec是一个将单词转换成向量形式的工具,可以把对文本内容的处理简化为向量空间中的向量运算。
S202,在h个连续单词向量上进行以下卷操作:
ct=ReLU(Wf·Xt:t+h-1+bf),并生成特征向量Ct∈Rk,Ct∈Rk表示维度为k的实向量,其中bf为偏置矩阵,Wf∈Rh×m表示宽度为h个单词的过滤器,Xt:t+h-1∈Rh×m表示从t到t+h-1个单词向量所构成的单词矩阵。上述过程中,每一个卷积操作得到一个标量特征,在长为k的短文本上,卷积操作得到结果为c1:k-h+1。
S203,将所述特征向量Ct∈Rk通过一个最大池化层得到所述微博文本的第一特征表示Vt∈Rk,所述第一特征表示的维度为K维。
上述优选实施例中采用CNN卷积神经网络模型获得微博文本的第一特征表示,在其他实施例中,也可以采用LST卷积神经网络模型获得所述第一特征表示,再次不进行详细说明。
在另一优选实施例中,所述采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示,具体包括以下步骤:
S301,获取所述微博语句的所有表情符向量以及所有表情符向量对所述第一特征表示中第i维特征的作用权重ai,形成作用权重向量a;
S302,采用以下预设公式获取所述第二特征表示:
其中,a表示所述作用权重向量,vt为所述第一特征表示,v′t为所述第二特征表示。上述优选实施例中,所述所有表情符向量对所述第一特征表示中的作用权重向量a的计算公式为:
a=Mv
其中v为所述微博语句的表情符表示,其可表示为: 为所述微博语句的每个表情符向量;M∈Rk×m表示表情符对文本的作用矩阵。
具体实施例中,一个微博语句表示为(T,E),其中T表示为文本,E表示微博中的表情符集(可能包含多个表情符)。首先计算出文本T和表情符集E的低维特征向量表示,文本T的低维特征向量采用上述步骤S201~S203的方法即可得到,表示为vt,其维度为k维。表情符集E的向量表示ve∈Rm,维度为m,其由多个表情符作累加而得,即表情符对特征向量vt的每一维产生一个作用权重,即可得到到第二特征表示v′t
然后采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示,一个优选实施例中具体包括以下步骤:
S401,将所述第二特征表示作为情感分类特征,并采用预设非线性函数将所述情感分类特征映射到预设目标类别空间的多个预设情感分类上,所述预设非线性函数为dc=tanh(Wcvt'+bc),其中,dc为情感分类映射特征,Wc为线性矩阵,bc为偏移向量;
S402,采用softmax函数计算所述微博语句在每个情感分类上的概率,具体为:
其中,pc为所述微博语句在情感分类c上的预测概率,C为情感分类类别的数量。
通过上述方法即可获取上述微博语句的情感分析结果,即获取微博语句属于那一个情感分类类别。
在优选实施例中,上述结合表情符的微博情感分析方法还包括以下步骤:通过随机梯度下降,最小化损失函数,并对所有参数进行学习与更新;
所述损失函数为预测情感分布和实际情感分布之间的交叉熵,所述损失函数具体为:
其中为实际情感分布,当所述微博语句的实际情感为分类c时,其值为1,否则为0;pc为所述微博语句在情感分类c上的预测概率,D表示训练微博集;所述参数包括权重矩阵、偏差矩阵,单词向量、表情符向量。上述优选实施例采用随机梯度下降算法即可对模型中的所有参数进行更新优化。
图2为本发明实施例2提供的一种结合表情符的微博情感分析系统的结构性示意图,如图2所示,包括采集获取、第一学习模块、第二学习模块和结果生成模块,
所述采集模块用于获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;
所述第一学习模块用于采用卷积神经网络方法学习出所述微博文本的第一特征表示;
所述第二学习模块用于采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示;
结果生成模块用于采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。
上述实施例的微博情感分析系统首先通过第一学习模块采集卷积神经网络方法获得微博文本的特征表示,再通过第二学习模块采用表情符注意力机制更新其特征表示,最后进行分类,与现有技术比较,实施例2的微博情感分析系统把文本和表情符看作是两个交互的部分,且利用表情符注意力机制摸拟了表情符对文本的情感产生作用的认知事实,避免了直接把表情符当作模型特征产生的歧义性问题,有助于处理社交媒体中的情感分析问题,提高了情感分析的准确性。
优选实施例中,上述结合表情符的微博情感分析系统还包括修正模块,所述修正模块用于通过随机梯度下降,最小化损失函数,并对所有参数进行学习与更新;所述损失函数为预测情感分布和实际情感分布之间的交叉熵,所述损失函数具体为:
其中为实际情感分布,当所述微博语句的实际情感为分类c时,其值为1,否则为0;pc为所述微博语句在情感分类c上的预测概率,D表示训练微博集;所述参数包括权重矩阵、偏差矩阵,单词向量、表情符向量。
在另一优选实施例中,所述第一学习模块包括:
第一获取单元,用于获取所述微博文本的所有单词向量,并形成单词序列为(x1,x2,…,xk),将所述单词序列作为神经网络模型的输入,其中x1,x2,…,xk为所述微博文本的各个单词向量,且Xi∈Rm,表示长度为m的实向量;
卷积单元,用于在h个连续单词向量上进行以下卷操作:
ct=ReLU(Wf·Xt:t+h-1+bf),并生成特征向量Ct∈Rk,Ct∈Rk表示维度为k的实向量,其中bf为偏置矩阵,Wf∈Rh×m表示宽度为h个单词的过滤器,Xt:t+h-1∈Rh×m表示从t到t+h-1个单词向量所构成的单词矩阵;
池化单元,用于将所述特征向量Ct∈Rk通过一个最大池化层得到所述微博文本的第一特征表示Vt∈Rk,所述第一特征表示的维度为K维。
在另一优选实施例中,所述第二学习模块包括:
第二获取单元,用于获取所述微博语句的所有表情符向量以及所有表情符向量对所述第一特征表示中第i维特征的作用权重ai,形成作用权重向量a;
第三获取单元,用于采用以下预设公式获取所述第二特征表示:
其中,a表示所述作用权重向量,vt为所述第一特征表示,v′t为所述第二特征表示。上述优选实施例中,所述所有表情符向量对所述第一特征表示中的作用权重向量a的计算公式为:
a=Mv
其中v为所述微博语句的表情符表示,其可表示为: 为所述微博语句的每个表情符向量;M∈Rk×m表示表情符对文本的作用矩阵。
在另一优选实施例中,所述结果生成模块包括:
映射单元,用于将所述第二特征表示作为情感分类特征,并采用预设非线性函数将所述情感分类特征映射到预设目标类别空间的多个预设情感分类上,所述预设非线性函数为dc=tanh(Wcvt'+bc),其中,dc为情感分类映射特征,Wc为线性矩阵,bc为偏移向量;
计算单元,用于采用softmax函数计算所述微博语句在每个情感分类上的概率,具体为:
其中,pc为所述微博语句在情感分类c上的预测概率,C为情感分类类别的数量。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种结合表情符的微博情感分析方法,其特征在于,包括以下步骤:
步骤1,获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;
步骤2,采用卷积神经网络方法学习出所述微博文本的第一特征表示;
步骤3,采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示;
步骤4,采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。
2.根据权利要求1所述的结合表情符的微博情感分析方法,其特征在于,所述采用卷积神经网络方法学习出所述微博文本的第一特征表示具体包括以下步骤:
S201,获取所述微博文本的所有单词向量,并形成单词序列为(x1,x2,…,xk),将所述单词序列作为神经网络模型的输入,其中x1,x2,…,xk为所述微博文本的各个单词向量,且xi∈Rm,表示长度为m的实向量;
S202,在h个连续单词向量上进行以下卷操作:
ct=ReLU(Wf·Xt:t+h-1+bf),并生成特征向量Ct∈Rk,Ct∈Rk表示维度为k的实向量,其中bf为偏置矩阵,Wf∈Rh×m表示宽度为h个单词的过滤器,Xt:t+h-1∈Rh×m表示从t到t+h-1个单词向量所构成的单词矩阵;
S203,将所述特征向量Ct∈Rk通过一个最大池化层得到所述微博文本的第一特征表示Vt∈Rk,所述第一特征表示的维度为K维。
3.根据权利要求2所述的结合表情符的微博情感分析方法,其特征在于,所述采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示,具体包括以下步骤:
S301,获取所述微博语句的所有表情符向量以及所有表情符向量对所述第一特征表示中第i维特征的作用权重ai,形成作用权重向量a;
S302,采用以下预设公式获取所述第二特征表示:
<mrow> <msubsup> <mi>v</mi> <mi>t</mi> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <msub> <mi>v</mi> <mi>t</mi> </msub> <mo>&amp;CenterDot;</mo> <mfrac> <mi>a</mi> <mrow> <mo>|</mo> <mi>a</mi> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> </mrow>
其中,a表示所述作用权重向量,vt为所述第一特征表示,v′t为所述第二特征表示。
4.根据权利要求3所述的结合表情符的微博情感分析方法,其特征在于,所述所有表情符向量对所述第一特征表示中的作用权重向量a的计算公式为:
a=Mv
其中v为所述微博语句的表情符表示,其可表示为: 为所述微博语句的每个表情符向量;M∈Rk×m表示表情符对文本的作用矩阵。
5.根据权利要求4所述的结合表情符的微博情感分析方法,其特征在于,所述采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示,具体包括以下步骤:
S401,将所述第二特征表示作为情感分类特征,并采用预设非线性函数将所述情感分类特征映射到预设目标类别空间的多个预设情感分类上,所述预设非线性函数为dc=tanh(Wcvt'+bc),其中,dc为情感分类映射特征,Wc为线性矩阵,bc为偏移向量;
S402,采用softmax函数计算所述微博语句在每个情感分类上的概率,具体为:
<mrow> <msub> <mi>p</mi> <mi>c</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>
其中,pc为所述微博语句在情感分类c上的预测概率,C为情感分类类别的数量。
6.根据权利要求5所述的结合表情符的微博情感分析方法,其特征在于,还包括以下步骤:通过随机梯度下降,最小化损失函数,并对所有参数进行学习与更新;
所述损失函数为预测情感分布和实际情感分布之间的交叉熵,所述损失函数具体为:
<mrow> <mi>L</mi> <mo>=</mo> <mo>-</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>d</mi> <mo>&amp;Element;</mo> <mi>D</mi> </mrow> </munder> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <msubsup> <mi>p</mi> <mi>c</mi> <mi>g</mi> </msubsup> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>c</mi> </msub> <mo>(</mo> <mi>d</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中为实际情感分布,当所述微博语句的实际情感为分类c时,其值为1,否则为0;pc为所述微博语句在情感分类c上的预测概率,D表示训练微博集;所述参数包括权重矩阵、偏差矩阵,单词向量、表情符向量。
7.一种结合表情符的微博情感分析系统,其特征在于,包括采集获取、第一学习模块、第二学习模块和结果生成模块,
所述采集模块用于获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;
所述第一学习模块用于采用卷积神经网络方法学习出所述微博文本的第一特征表示;
所述第二学习模块用于采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示;
所述结果生成模块用于采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。
8.根据权利要求7所述的结合表情符的微博情感分析系统,其特征在于,还包括修正模块,所述修正模块用于通过随机梯度下降,最小化损失函数,并对所有参数进行学习与更新;所述损失函数为预测情感分布和实际情感分布之间的交叉熵,所述损失函数具体为:
<mrow> <mi>L</mi> <mo>=</mo> <mo>-</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>d</mi> <mo>&amp;Element;</mo> <mi>D</mi> </mrow> </munder> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <msubsup> <mi>p</mi> <mi>c</mi> <mi>g</mi> </msubsup> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>c</mi> </msub> <mo>(</mo> <mi>d</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中为实际情感分布,当所述微博语句的实际情感为分类c时,其值为1,否则为0;pc为所述微博语句在情感分类c上的预测概率,D表示训练微博集;所述参数包括权重矩阵、偏差矩阵,单词向量、表情符向量。
9.根据权利要求7或8所述的结合表情符的微博情感分析系统,其特征在于,所述第一学习模块包括:
第一获取单元,用于获取所述微博文本的所有单词向量,并形成单词序列为(x1,x2,…,xk),将所述单词序列作为神经网络模型的输入,其中x1,x2,…,xk为所述微博文本的各个单词向量,且xi∈Rm,表示长度为m的实向量;
卷积单元,用于在h个连续单词向量上进行以下卷操作:
ct=ReLU(Wf·Xt:t+h-1+bf),并生成特征向量Ct∈Rk,Ct∈Rk表示维度为k的实向量,其中bf为偏置矩阵,Wf∈Rh×m表示宽度为h个单词的过滤器,Xt:t+h-1∈Rh×m表示从t到t+h-1个单词向量所构成的单词矩阵;
池化单元,用于将所述特征向量Ct∈Rk通过一个最大池化层得到所述微博文本的第一特征表示Vt∈Rk,所述第一特征表示的维度为K维。
10.根据权利要求9所述的结合表情符的微博情感分析系统,其特征在于,所述第二学习模块包括:
第二获取单元,用于获取所述微博语句的所有表情符向量以及所有表情符向量对所述第一特征表示中第i维特征的作用权重ai,形成作用权重向量a;
第三获取单元,用于采用以下预设公式获取所述第二特征表示:
<mrow> <msubsup> <mi>v</mi> <mi>t</mi> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <msub> <mi>v</mi> <mi>t</mi> </msub> <mo>&amp;CenterDot;</mo> <mfrac> <mi>a</mi> <mrow> <mo>|</mo> <mi>a</mi> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> </mrow>
其中,a表示所述作用权重向量,vt为所述第一特征表示,v′t为所述第二特征表示。
CN201710712458.3A 2017-08-18 2017-08-18 一种结合表情符的微博情感分析方法和系统 Active CN107515855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710712458.3A CN107515855B (zh) 2017-08-18 2017-08-18 一种结合表情符的微博情感分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710712458.3A CN107515855B (zh) 2017-08-18 2017-08-18 一种结合表情符的微博情感分析方法和系统

Publications (2)

Publication Number Publication Date
CN107515855A true CN107515855A (zh) 2017-12-26
CN107515855B CN107515855B (zh) 2021-02-12

Family

ID=60722968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710712458.3A Active CN107515855B (zh) 2017-08-18 2017-08-18 一种结合表情符的微博情感分析方法和系统

Country Status (1)

Country Link
CN (1) CN107515855B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446271A (zh) * 2018-03-07 2018-08-24 中山大学 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN109684478A (zh) * 2018-12-18 2019-04-26 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法及装置、设备和介质
CN110362810A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362808A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362809A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110555104A (zh) * 2018-03-26 2019-12-10 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110851589A (zh) * 2019-08-28 2020-02-28 湖北科技学院 表情符与文本的情感交互机制表示与识别模型建立方法
CN111046137A (zh) * 2019-11-13 2020-04-21 天津大学 一种多维情感倾向性分析方法
CN111046136A (zh) * 2019-11-13 2020-04-21 天津大学 融合表情符号与短文本的多维情感强度值计算方法
CN111767740A (zh) * 2020-06-23 2020-10-13 北京字节跳动网络技术有限公司 音效添加方法和装置、存储介质和电子设备
CN113051916A (zh) * 2021-04-23 2021-06-29 东南大学 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160300135A1 (en) * 2015-04-08 2016-10-13 Pearson Education, Inc. Relativistic sentiment analyzer
CN106340309A (zh) * 2016-08-23 2017-01-18 南京大空翼信息技术有限公司 一种基于深度学习的狗叫情感识别方法及装置
CN106383815A (zh) * 2016-09-20 2017-02-08 清华大学 结合用户和产品信息的神经网络情感分析方法
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160300135A1 (en) * 2015-04-08 2016-10-13 Pearson Education, Inc. Relativistic sentiment analyzer
CN106340309A (zh) * 2016-08-23 2017-01-18 南京大空翼信息技术有限公司 一种基于深度学习的狗叫情感识别方法及装置
CN106383815A (zh) * 2016-09-20 2017-02-08 清华大学 结合用户和产品信息的神经网络情感分析方法
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁斌 等: "基于多注意力卷积神经网络的特定目标情感分析", 《计算机研究与发展》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446271A (zh) * 2018-03-07 2018-08-24 中山大学 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN108446271B (zh) * 2018-03-07 2021-11-26 中山大学 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN110362810A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362808A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362809A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110555104A (zh) * 2018-03-26 2019-12-10 优酷网络技术(北京)有限公司 文本分析方法及装置
WO2020125445A1 (zh) * 2018-12-18 2020-06-25 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法、设备及介质
US11853704B2 (en) 2018-12-18 2023-12-26 Tencent Technology (Shenzhen) Company Limited Classification model training method, classification method, device, and medium
CN109684478A (zh) * 2018-12-18 2019-04-26 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法及装置、设备和介质
CN111339306A (zh) * 2018-12-18 2020-06-26 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法及装置、设备和介质
CN111339306B (zh) * 2018-12-18 2023-05-12 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法及装置、设备和介质
CN110851589A (zh) * 2019-08-28 2020-02-28 湖北科技学院 表情符与文本的情感交互机制表示与识别模型建立方法
CN110851589B (zh) * 2019-08-28 2023-06-23 湖北科技学院 表情符与文本的情感交互机制表示与识别模型建立方法
CN111046136A (zh) * 2019-11-13 2020-04-21 天津大学 融合表情符号与短文本的多维情感强度值计算方法
CN111046137A (zh) * 2019-11-13 2020-04-21 天津大学 一种多维情感倾向性分析方法
CN111767740A (zh) * 2020-06-23 2020-10-13 北京字节跳动网络技术有限公司 音效添加方法和装置、存储介质和电子设备
CN113051916A (zh) * 2021-04-23 2021-06-29 东南大学 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法

Also Published As

Publication number Publication date
CN107515855B (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN107515855A (zh) 一种结合表情符的微博情感分析方法和系统
CN108763326B (zh) 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
Sadr et al. A robust sentiment analysis method based on sequential combination of convolutional and recursive neural networks
CN109145112B (zh) 一种基于全局信息注意力机制的商品评论分类方法
Puri et al. Zero-shot text classification with generative language models
Qian et al. Hierarchical CVAE for fine-grained hate speech classification
Xie et al. Improvement of the fast clustering algorithm improved by-means in the big data
CN109740148A (zh) 一种BiLSTM结合Attention机制的文本情感分析方法
Amplayo et al. Cold-start aware user and product attention for sentiment classification
JP2020523699A (ja) 関心点コピーの生成
Liu et al. HieNN-DWE: A hierarchical neural network with dynamic word embeddings for document level sentiment classification
CN105912576A (zh) 情感分类方法及系统
CN106991085A (zh) 一种实体的简称生成方法及装置
CN105740236A (zh) 结合写作特征和序列特征的中文情感新词识别方法和系统
CN106897254A (zh) 一种网络表示学习方法
Balibrea On problems of Topological Dynamics in non-autonomous discrete systems
CN108388654A (zh) 一种基于转折句语义块划分机制的情感分类方法
CN108388554A (zh) 基于协同过滤注意力机制的文本情感识别系统
CN110096587A (zh) 基于注意力机制的lstm-cnn词嵌入的细粒度情感分类模型
Sadr et al. Improving the performance of text sentiment analysis using deep convolutional neural network integrated with hierarchical attention layer
İnce et al. An application of new method to obtain probability density function of solution of stochastic differential equations
Bozduman et al. Simulation of a homomorphic encryption system
Huang et al. Contribution of improved character embedding and latent posting styles to authorship attribution of short texts
Isaac et al. A conceptual enhancement of lstm using knowledge distillation for hate speech detection
Buenaño-Fernández et al. Using text mining to evaluate student interaction in virtual learning environments

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230227

Address after: 430072 Hubei Province, Wuhan city Wuchang District of Wuhan University Luojiashan

Patentee after: WUHAN University

Address before: Floor 5, building A4, optics valley software park, Hongshan District, Wuhan City, Hubei Province 430000

Patentee before: WUHAN HONGCHA DATA TECHNOLOGY CO.,LTD.