CN107515855B - 一种结合表情符的微博情感分析方法和系统 - Google Patents

一种结合表情符的微博情感分析方法和系统 Download PDF

Info

Publication number
CN107515855B
CN107515855B CN201710712458.3A CN201710712458A CN107515855B CN 107515855 B CN107515855 B CN 107515855B CN 201710712458 A CN201710712458 A CN 201710712458A CN 107515855 B CN107515855 B CN 107515855B
Authority
CN
China
Prior art keywords
microblog
emotion
vector
text
feature representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710712458.3A
Other languages
English (en)
Other versions
CN107515855A (zh
Inventor
姬东鸿
钱涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan Hongcha Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Hongcha Data Technology Co ltd filed Critical Wuhan Hongcha Data Technology Co ltd
Priority to CN201710712458.3A priority Critical patent/CN107515855B/zh
Publication of CN107515855A publication Critical patent/CN107515855A/zh
Application granted granted Critical
Publication of CN107515855B publication Critical patent/CN107515855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明自然语言处理领域,尤其涉及一种结合表情符的微博情感分析方法和系统。方法包括以下步骤:获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;采用卷积神经网络方法学习出所述微博文本的第一特征表示;采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示;采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。本发明的方法把文本和表情符看作是两个交互的部分,且利用表情符注意力机制摸拟了表情符对文本的情感产生作用的认知事实,避免了直接把表情符当作模型特征产生的歧义性问题,有助于处理社交媒体中的情感分析问题,提高了情感分析的准确性。

Description

一种结合表情符的微博情感分析方法和系统
技术领域
本发明自然语言处理领域,尤其涉及一种结合表情符的微博情感分析方法和系统。
背景技术
微博已成为人们交流信息、表达情感和观点最重要媒介之一,已有大量的研究工作聚焦于微博文本,如舆情分析,突发事件检测,观点挖掘和情感分析等,其中情感分析是微博研究的基础及重点话题之一。为表达情感和观点,人们在社交媒体如新浪微博、twitter中,使用了大量的表情符号,用于表达用户的情感及观点,因此表情符已被广泛应用于基于社交媒体的情感分析模型中。社会及认知学领域研究认为表情符类似于人类交流中的非言语成份,如面部表情,姿态等,表达交流者之闻的情感,他们认为:在社交媒体中,表情符对文本的情感表达产生最重要影响,甚至能改变文本的情感极性.如下面两个例子:
(1)明天周末。
Figure BDA0001383009700000011
(2)明天周末。
Figure BDA0001383009700000012
显然在例子中,文本“明天周末。”是中性情感,但是加上不同的表情符后,其情感极性发生了改变。例子(1)变成负性情感。例子(2)变成正性情感。可以看出:表情符对文本的情感表达起着重要作用,它能改变文本的情感极性。
当前对表情符的使用策略主要包括三种:
第一类策略是大多数研究将表情符看作是一种自然标注。该策略假设表情符独立的表达了用户的情感和观点。因此利用自然标注,解决了人工标注语料不足的问题,但已有研究显示,由于表情符存在歧义,即同一个表情符也可是正性,也可能是负性,因此利用表情符建立的训练语料包含许多噪音,可能会训练模型产生副作用。
第二类策略是将表情符作为文本特征融入到分析模型中。这类策略也没有体现表情符对文本的情感作用。
第三类策略是把表情符和文本看作两个并列的信息源。Hogenboo等人将社交媒体文本分成表情符和文本两部分,然后分别采用不同的模型计算出各自的情感,最后两个情感线性组合得到最终的文本情感。
然而当前的三种使用表情符策略的情感分析模型没有考虑表情符对文本的作用机制。
发明内容
为解决上述技术问题,本发明提供了一种结合表情符的微博情感分析方法和系统。
第一方面,本发明实施例提供了一种结合表情符的微博情感分析方法,包括以下步骤:
步骤1,获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;
步骤2,采用卷积神经网络方法学习出所述微博文本的第一特征表示;
步骤3,采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示;
步骤4,采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。
上述方案的有益效果在于:本发明的微博情感分析方法首先采用卷积神经网络获得微博文本的特征表示,再用表情符注意力机制更新其特征表示,最后进行分类,与现有技术比较,本发明的方法具有以下的有益效果:
(1)本发明的方法首先采用卷积神经网络的方法获取微博文本的特征表示,缓解了采用特征工程导致的复杂性问题;
(2)本发明的方法从一个崭新的角度进行微博文本的情感分析,把文本和表情符看作是两个交互的部分,且利用表情符注意力机制摸拟了表情符对文本的情感产生作用的认知事实,避免了直接把表情符当作模型特征产生的歧义性问题,有助于处理社交媒体中的情感分析问题,提高了情感分析的准确性。
进一步的,所述采用卷积神经网络方法学习出所述微博文本的第一特征表示具体包括以下步骤:
S201,获取所述微博文本的所有单词向量,并形成单词序列为(x1,x2,…,xk),将所述单词序列作为神经网络模型的输入,其中x1,x2,…,xk为所述微博文本的各个单词向量,且Xi∈Rm,表示长度为m的实向量;
S202,在h个连续单词向量上进行以下卷操作:
ct=ReLU(Wf·Xt:t+h-1+bf),并生成特征向量Ct∈Rk,Ct∈Rk表示维度为k的实向量,其中bf为偏置矩阵,Wf∈Rh×m表示宽度为h个单词的过滤器,Xt:t+h-1∈Rh×m表示从t到t+h-1个单词向量所构成的单词矩阵;
S203,将所述特征向量Ct∈Rk通过一个最大池化层得到所述微博文本的第一特征表示Vt∈Rk,所述第一特征表示的维度为K维。
进一步,所述采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示,具体包括以下步骤:
S301,获取所述微博语句的所有表情符向量以及所有表情符向量对所述第一特征表示中第i维特征的作用权重ai,形成作用权重向量a;
S302,采用以下预设公式获取所述第二特征表示:
Figure BDA0001383009700000041
其中,a表示所述作用权重向量,vt为所述第一特征表示,v′t为所述第二特征表示。
进一步,所述所有表情符向量对所述第一特征表示中的作用权重向量a的计算公式为:
a=Mv
其中v为所述微博语句的表情符表示,其可表示为:
Figure BDA0001383009700000042
Figure BDA0001383009700000043
为所述微博语句的每个表情符向量;M∈Rk×m表示表情符对文本的作用矩阵。
进一步,所述采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示,具体包括以下步骤:
S401,将所述第二特征表示作为情感分类特征,并采用预设非线性函数将所述情感分类特征映射到预设目标类别空间的多个预设情感分类上,所述预设非线性函数为dc=tanh(Wcvt'+bc),其中,dc为情感分类映射特征,Wc为线性矩阵,bc为偏移向量;
S402,采用softmax函数计算所述微博语句在每个情感分类上的概率,具体为:
Figure BDA0001383009700000044
其中,pc为所述微博语句在情感分类c上的预测概率,C为情感分类类别的数量。
进一步,还包括以下步骤:通过随机梯度下降,最小化损失函数,并对所有参数进行学习与更新;
所述损失函数为预测情感分布和实际情感分布之间的交叉熵,所述损失函数具体为:
Figure BDA0001383009700000051
其中
Figure BDA0001383009700000052
为实际情感分布,当所述微博语句的实际情感为分类c时,其值为1,否则为0;pc为所述微博语句在情感分类c上的预测概率,D表示训练微博集;所述参数包括权重矩阵、偏差矩阵,单词向量、表情符向量。
第二方面,本发明提供了一种结合表情符的微博情感分析系统,包括采集获取、第一学习模块、第二学习模块和结果生成模块,
所述采集模块用于获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;
所述第一学习模块用于采用卷积神经网络方法学习出所述微博文本的第一特征表示;
所述第二学习模块用于采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示;
结果生成模块用于采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。
上述方案的有益技术效果在于:本发明的微博情感分析系统首先通过第一学习模块采集卷积神经网络方法获得微博文本的特征表示,再通过第二学习模块采用表情符注意力机制更新其特征表示,最后进行分类,与现有技术比较,本发明的微博情感分析系统把文本和表情符看作是两个交互的部分,且利用表情符注意力机制摸拟了表情符对文本的情感产生作用的认知事实,避免了直接把表情符当作模型特征产生的歧义性问题,有助于处理社交媒体中的情感分析问题,提高了情感分析的准确性。
进一步,还包括修正模块,所述修正模块用于通过随机梯度下降,最小化损失函数,并对所有参数进行学习与更新;所述损失函数为预测情感分布和实际情感分布之间的交叉熵,所述损失函数具体为:
Figure BDA0001383009700000061
其中
Figure BDA0001383009700000062
为实际情感分布,当所述微博语句的实际情感为分类c时,其值为1,否则为0;pc为所述微博语句在情感分类c上的预测概率,D表示训练微博集;所述参数包括权重矩阵、偏差矩阵,单词向量、表情符向量。
进一步,所述第一学习模块包括:
第一获取单元,用于获取所述微博文本的所有单词向量,并形成单词序列为(x1,x2,…,xk),将所述单词序列作为神经网络模型的输入,其中x1,x2,…,xk为所述微博文本的各个单词向量,且Xi∈Rm,表示长度为m的实向量;
卷积单元,用于在h个连续单词向量上进行以下卷操作:
ct=ReLU(Wf·Xt:t+h-1+bf),并生成特征向量Ct∈Rk,Ct∈Rk表示维度为k的实向量,其中bf为偏置矩阵,Wf∈Rh×m表示宽度为h个单词的过滤器,Xt:t+h-1∈Rh×m表示从t到t+h-1个单词向量所构成的单词矩阵;
池化单元,用于将所述特征向量Ct∈Rk通过一个最大池化层得到所述微博文本的第一特征表示Vt∈Rk,所述第一特征表示的维度为K维。
进一步,所述第二学习模块包括:
第二获取单元,用于获取所述微博语句的所有表情符向量以及所有表情符向量对所述第一特征表示中第i维特征的作用权重ai,形成作用权重向量a;
第三获取单元,用于采用以下预设公式获取所述第二特征表示:
Figure BDA0001383009700000063
其中,a表示所述作用权重向量,vt为所述第一特征表示,v′t为所述第二特征表示。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明实施例1提供的一种结合表情符的微博情感分析方法的示意性流程图;
图2为本发明实施例2提供的一种结合表情符的微博情感分析系统的结构性示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定装置结构、接口、技术之类的具体细节,以便透切理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
如图1给出了本发明实施例1提供的一种结合表情符的微博情感分析方法的示意性流程图。如图1所示,方法的执行主体可以是服务器,该方法包括以下步骤:
步骤1,获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;
步骤2,采用卷积神经网络方法学习出所述微博文本的第一特征表示;
步骤3,采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示;
步骤4,采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。
本实施例的微博情感分析方法首先采用卷积神经网络获得微博文本的特征表示,再用表情符注意力机制更新其特征表示,最后进行分类。注意力机制,即Attention机制最早是在视觉图像领域提出来的,通过attention去学习一幅图像中需要处理的部分,每次当前状态都会根据前一个状态学习得到的需要关注处理的位置和当前输入的图像,去处理注意力部分像素,而不是图像的全部像素,而现在注意力机制已经被应用到了更多的领域,比如神经网络机器翻译等等。本发明的方法在具体情感分析过程中,把文本和表情符看作是两个交互的部分,且利用表情符注意力机制摸拟了表情符对文本的情感产生作用的认知事实,即采用了注意力机制得到微博语句中每一个表情符对微博文本的重要程度,避免了直接把表情符当作模型特征产生的歧义性问题,有助于处理社交媒体中的情感分析问题,提高了情感分析的准确性。
以下对实施例1方法的每个步骤进行详细说明。
在一个优选实施例中,所述采用卷积神经网络方法学习出所述微博文本的第一特征表示具体包括以下步骤:
S201,获取所述微博文本的所有单词向量,并形成单词序列为(x1,x2,…,xk),将所述单词序列作为神经网络模型的输入,其中x1,x2,…,xk为所述微博文本的各个单词向量,且Xi∈Rm,表示长度为m的实向量。上述步骤中首先把微博文本中每一个单词映射为一个低维连续向量,比如可以采用文本深度表示模型(如word2vec)将把微博文本中的单词进行表征获得词向量。word2vec是一个将单词转换成向量形式的工具,可以把对文本内容的处理简化为向量空间中的向量运算。
S202,在h个连续单词向量上进行以下卷操作:
ct=ReLU(Wf·Xt:t+h-1+bf),并生成特征向量Ct∈Rk,Ct∈Rk表示维度为k的实向量,其中bf为偏置矩阵,Wf∈Rh×m表示宽度为h个单词的过滤器,Xt:t+h-1∈Rh×m表示从t到t+h-1个单词向量所构成的单词矩阵。上述过程中,每一个卷积操作得到一个标量特征,在长为k的短文本上,卷积操作得到结果为c1:k-h+1。
S203,将所述特征向量Ct∈Rk通过一个最大池化层得到所述微博文本的第一特征表示Vt∈Rk,所述第一特征表示的维度为K维。
上述优选实施例中采用CNN卷积神经网络模型获得微博文本的第一特征表示,在其他实施例中,也可以采用LST卷积神经网络模型获得所述第一特征表示,再次不进行详细说明。
在另一优选实施例中,所述采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示,具体包括以下步骤:
S301,获取所述微博语句的所有表情符向量以及所有表情符向量对所述第一特征表示中第i维特征的作用权重ai,形成作用权重向量a;
S302,采用以下预设公式获取所述第二特征表示:
Figure BDA0001383009700000091
其中,a表示所述作用权重向量,vt为所述第一特征表示,v′t为所述第二特征表示。上述优选实施例中,所述所有表情符向量对所述第一特征表示中的作用权重向量a的计算公式为:
a=Mv
其中v为所述微博语句的表情符表示,其可表示为:
Figure BDA0001383009700000092
Figure BDA0001383009700000093
为所述微博语句的每个表情符向量;M∈Rk×m表示表情符对文本的作用矩阵。
具体实施例中,一个微博语句表示为(T,E),其中T表示为文本,E表示微博中的表情符集(可能包含多个表情符)。首先计算出文本T和表情符集E的低维特征向量表示,文本T的低维特征向量采用上述步骤S201~S203的方法即可得到,表示为vt,其维度为k维。表情符集E的向量表示ve∈Rm,维度为m,其由多个表情符作累加而得,即
Figure BDA0001383009700000101
表情符对特征向量vt的每一维产生一个作用权重,即可得到到第二特征表示v′t
然后采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示,一个优选实施例中具体包括以下步骤:
S401,将所述第二特征表示作为情感分类特征,并采用预设非线性函数将所述情感分类特征映射到预设目标类别空间的多个预设情感分类上,所述预设非线性函数为dc=tanh(Wcvt'+bc),其中,dc为情感分类映射特征,Wc为线性矩阵,bc为偏移向量;
S402,采用softmax函数计算所述微博语句在每个情感分类上的概率,具体为:
Figure BDA0001383009700000102
其中,pc为所述微博语句在情感分类c上的预测概率,C为情感分类类别的数量。
通过上述方法即可获取上述微博语句的情感分析结果,即获取微博语句属于那一个情感分类类别。
在优选实施例中,上述结合表情符的微博情感分析方法还包括以下步骤:通过随机梯度下降,最小化损失函数,并对所有参数进行学习与更新;
所述损失函数为预测情感分布和实际情感分布之间的交叉熵,所述损失函数具体为:
Figure BDA0001383009700000103
其中
Figure BDA0001383009700000104
为实际情感分布,当所述微博语句的实际情感为分类c时,其值为1,否则为0;pc为所述微博语句在情感分类c上的预测概率,D表示训练微博集;所述参数包括权重矩阵、偏差矩阵,单词向量、表情符向量。上述优选实施例采用随机梯度下降算法即可对模型中的所有参数进行更新优化。
图2为本发明实施例2提供的一种结合表情符的微博情感分析系统的结构性示意图,如图2所示,包括采集获取、第一学习模块、第二学习模块和结果生成模块,
所述采集模块用于获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;
所述第一学习模块用于采用卷积神经网络方法学习出所述微博文本的第一特征表示;
所述第二学习模块用于采用注意力机制使所述至少一个表情符中的每个表情符均对所述第一特征表示进行作用,获取第二特征表示;
结果生成模块用于采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。
上述实施例的微博情感分析系统首先通过第一学习模块采集卷积神经网络方法获得微博文本的特征表示,再通过第二学习模块采用表情符注意力机制更新其特征表示,最后进行分类,与现有技术比较,实施例2的微博情感分析系统把文本和表情符看作是两个交互的部分,且利用表情符注意力机制摸拟了表情符对文本的情感产生作用的认知事实,避免了直接把表情符当作模型特征产生的歧义性问题,有助于处理社交媒体中的情感分析问题,提高了情感分析的准确性。
优选实施例中,上述结合表情符的微博情感分析系统还包括修正模块,所述修正模块用于通过随机梯度下降,最小化损失函数,并对所有参数进行学习与更新;所述损失函数为预测情感分布和实际情感分布之间的交叉熵,所述损失函数具体为:
Figure BDA0001383009700000111
其中
Figure BDA0001383009700000112
为实际情感分布,当所述微博语句的实际情感为分类c时,其值为1,否则为0;pc为所述微博语句在情感分类c上的预测概率,D表示训练微博集;所述参数包括权重矩阵、偏差矩阵,单词向量、表情符向量。
在另一优选实施例中,所述第一学习模块包括:
第一获取单元,用于获取所述微博文本的所有单词向量,并形成单词序列为(x1,x2,…,xk),将所述单词序列作为神经网络模型的输入,其中x1,x2,…,xk为所述微博文本的各个单词向量,且Xi∈Rm,表示长度为m的实向量;
卷积单元,用于在h个连续单词向量上进行以下卷操作:
ct=ReLU(Wf·Xt:t+h-1+bf),并生成特征向量Ct∈Rk,Ct∈Rk表示维度为k的实向量,其中bf为偏置矩阵,Wf∈Rh×m表示宽度为h个单词的过滤器,Xt:t+h-1∈Rh×m表示从t到t+h-1个单词向量所构成的单词矩阵;
池化单元,用于将所述特征向量Ct∈Rk通过一个最大池化层得到所述微博文本的第一特征表示Vt∈Rk,所述第一特征表示的维度为K维。
在另一优选实施例中,所述第二学习模块包括:
第二获取单元,用于获取所述微博语句的所有表情符向量以及所有表情符向量对所述第一特征表示中第i维特征的作用权重ai,形成作用权重向量a;
第三获取单元,用于采用以下预设公式获取所述第二特征表示:
Figure BDA0001383009700000121
其中,a表示所述作用权重向量,vt为所述第一特征表示,v′t为所述第二特征表示。上述优选实施例中,所述所有表情符向量对所述第一特征表示中的作用权重向量a的计算公式为:
a=Mv
其中v为所述微博语句的表情符表示,其可表示为:
Figure BDA0001383009700000122
Figure BDA0001383009700000123
为所述微博语句的每个表情符向量;M∈Rk×m表示表情符对文本的作用矩阵。
在另一优选实施例中,所述结果生成模块包括:
映射单元,用于将所述第二特征表示作为情感分类特征,并采用预设非线性函数将所述情感分类特征映射到预设目标类别空间的多个预设情感分类上,所述预设非线性函数为dc=tanh(Wcvt'+bc),其中,dc为情感分类映射特征,Wc为线性矩阵,bc为偏移向量;
计算单元,用于采用softmax函数计算所述微博语句在每个情感分类上的概率,具体为:
Figure BDA0001383009700000131
其中,pc为所述微博语句在情感分类c上的预测概率,C为情感分类类别的数量。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种结合表情符的微博情感分析方法,其特征在于,包括以下步骤:
步骤1,获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;
步骤2,采用卷积神经网络方法学习出所述微博文本的第一特征表示;
步骤3,获取所述微博语句的所有表情符向量以及所有表情符向量对所述第一特征表示中第i维特征的作用权重ai,形成作用权重向量a,并采用以下预设公式获取第二特征表示:
Figure FDA0002727569570000011
其中,vt为所述第一特征表示,v′t为所述第二特征表示;a为所述作用权重向量,计算公式为:
a=Mv,
Figure FDA0002727569570000012
v为所述微博语句的表情符表示,
Figure FDA0002727569570000013
为所述微博语句的每个表情符向量,M∈Rk×m表示表情符对文本的作用矩阵;
步骤4,采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。
2.根据权利要求1所述的结合表情符的微博情感分析方法,其特征在于,所述采用卷积神经网络方法学习出所述微博文本的第一特征表示具体包括以下步骤:
S201,获取所述微博文本的所有单词向量,并形成单词序列为(x1,x2,…,xk),将所述单词序列作为神经网络模型的输入,其中x1,x2,…,xk为所述微博文本的各个单词向量,且Xi∈Rm,表示长度为m的实向量;
S202,在h个连续单词向量上进行以下卷操作:
ct=ReLU(Wf·Xt:t+h-1+bf),并生成特征向量Ct∈Rk,Ct∈Rk表示维度为k的实向量,其中bf为偏置矩阵,Wf∈Rh×m表示宽度为h个单词的过滤器,Xt:t+h-1∈Rh×m表示从t到t+h-1个单词向量所构成的单词矩阵;
S203,将所述特征向量Ct∈Rk通过一个最大池化层得到所述微博文本的第一特征表示Vt∈Rk,所述第一特征表示的维度为K维。
3.根据权利要求1或2所述的结合表情符的微博情感分析方法,其特征在于,所述采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示,具体包括以下步骤:
S401,将所述第二特征表示作为情感分类特征,并采用预设非线性函数将所述情感分类特征映射到预设目标类别空间的多个预设情感分类上,所述预设非线性函数为dc=tanh(Wcv′t+bc),其中,dc为情感分类映射特征,Wc为线性矩阵,bc为偏移向量;
S402,采用softmax函数计算所述微博语句在每个情感分类上的概率,具体为:
Figure FDA0002727569570000021
其中,pc为所述微博语句在情感分类c上的预测概率,C为情感分类类别的数量。
4.根据权利要求3所述的结合表情符的微博情感分析方法,其特征在于,还包括以下步骤:通过随机梯度下降,最小化损失函数,并对所有参数进行学习与更新;
所述损失函数为预测情感分布和实际情感分布之间的交叉熵,所述损失函数具体为:
Figure FDA0002727569570000022
其中
Figure FDA0002727569570000023
为实际情感分布,当所述微博语句的实际情感为分类c时,其值为1,否则为0;pc为所述微博语句在情感分类c上的预测概率,D表示训练微博集;所述参数包括权重矩阵、偏差矩阵、单词向量和表情符向量。
5.一种结合表情符的微博情感分析系统,其特征在于,包括采集模块、第一学习模块、第二学习模块和结果生成模块,
所述采集模块用于获取待分析的微博语句,所述微博语句包括微博文本和至少一个表情符;
所述第一学习模块用于采用卷积神经网络方法学习出所述微博文本的第一特征表示;
所述第二学习模块包括第二获取单元和第三获取单元,所述第二获取单元用于获取所述微博语句的所有表情符向量以及所有表情符向量对所述第一特征表示中第i维特征的作用权重ai,形成作用权重向量a;
所述第三获取单元用于采用以下预设公式获取第二特征表示:
Figure FDA0002727569570000031
其中,vt为所述第一特征表示,v′t为所述第二特征表示;a为所述作用权重向量,计算公式为:
a=Mv,
Figure FDA0002727569570000032
v为所述微博语句的表情符表示,
Figure FDA0002727569570000033
为所述微博语句的每个表情符向量,M∈Rk×m表示表情符对文本的作用矩阵;
所述结果生成模块用于采用所述第二特征表示获取所述微博语句的情感分类结果并输出显示。
6.根据权利要求5所述的结合表情符的微博情感分析系统,其特征在于,还包括修正模块,所述修正模块用于通过随机梯度下降,最小化损失函数,并对所有参数进行学习与更新;所述损失函数为预测情感分布和实际情感分布之间的交叉熵,所述损失函数具体为:
Figure FDA0002727569570000041
其中
Figure FDA0002727569570000042
为实际情感分布,当所述微博语句的实际情感为分类c时,其值为1,否则为0;pc为所述微博语句在情感分类c上的预测概率,D表示训练微博集;所述参数包括权重矩阵、偏差矩阵,单词向量、表情符向量。
7.根据权利要求5或6所述的结合表情符的微博情感分析系统,其特征在于,所述第一学习模块包括:
第一获取单元,用于获取所述微博文本的所有单词向量,并形成单词序列为(x1,x2,…,xk),将所述单词序列作为神经网络模型的输入,其中x1,x2,…,xk为所述微博文本的各个单词向量,且Xi∈Rm,表示长度为m的实向量;
卷积单元,用于在h个连续单词向量上进行以下卷操作:
ct=ReLU(Wf·Xt:t+h-1+bf),并生成特征向量Ct∈Rk,Ct∈Rk表示维度为k的实向量,其中bf为偏置矩阵,Wf∈Rh×m表示宽度为h个单词的过滤器,Xt:t+h-1∈Rh×m表示从t到t+h-1个单词向量所构成的单词矩阵;
池化单元,用于将所述特征向量Ct∈Rk通过一个最大池化层得到所述微博文本的第一特征表示Vt∈Rk,所述第一特征表示的维度为K维。
CN201710712458.3A 2017-08-18 2017-08-18 一种结合表情符的微博情感分析方法和系统 Active CN107515855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710712458.3A CN107515855B (zh) 2017-08-18 2017-08-18 一种结合表情符的微博情感分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710712458.3A CN107515855B (zh) 2017-08-18 2017-08-18 一种结合表情符的微博情感分析方法和系统

Publications (2)

Publication Number Publication Date
CN107515855A CN107515855A (zh) 2017-12-26
CN107515855B true CN107515855B (zh) 2021-02-12

Family

ID=60722968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710712458.3A Active CN107515855B (zh) 2017-08-18 2017-08-18 一种结合表情符的微博情感分析方法和系统

Country Status (1)

Country Link
CN (1) CN107515855B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446271B (zh) * 2018-03-07 2021-11-26 中山大学 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN110362809B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110362810B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110555104B (zh) * 2018-03-26 2022-06-17 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110362808B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN109684478B (zh) * 2018-12-18 2023-04-07 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法及装置、设备和介质
CN110851589B (zh) * 2019-08-28 2023-06-23 湖北科技学院 表情符与文本的情感交互机制表示与识别模型建立方法
CN111046136A (zh) * 2019-11-13 2020-04-21 天津大学 融合表情符号与短文本的多维情感强度值计算方法
CN111046137A (zh) * 2019-11-13 2020-04-21 天津大学 一种多维情感倾向性分析方法
CN111767740B (zh) * 2020-06-23 2024-10-11 北京字节跳动网络技术有限公司 音效添加方法和装置、存储介质和电子设备
CN113051916B (zh) * 2021-04-23 2022-11-18 东南大学 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336268B1 (en) * 2015-04-08 2016-05-10 Pearson Education, Inc. Relativistic sentiment analyzer
CN106340309B (zh) * 2016-08-23 2019-11-12 上海索洛信息技术有限公司 一种基于深度学习的狗叫情感识别方法及装置
CN106383815B (zh) * 2016-09-20 2019-03-01 清华大学 结合用户和产品信息的神经网络情感分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多注意力卷积神经网络的特定目标情感分析;梁斌 等;《计算机研究与发展》;20170815;基于多注意力卷积神经网络的特定目标情感分析 *
梁斌 等.基于多注意力卷积神经网络的特定目标情感分析.《计算机研究与发展》.2017, *

Also Published As

Publication number Publication date
CN107515855A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN107515855B (zh) 一种结合表情符的微博情感分析方法和系统
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN109844743B (zh) 在自动聊天中生成响应
CN106383815B (zh) 结合用户和产品信息的神经网络情感分析方法
JP6961727B2 (ja) 関心点コピーの生成
CN109992780B (zh) 一种基于深度神经网络特定目标情感分类方法
CN109478204A (zh) 非结构化文本的机器理解
CN108170681A (zh) 文本情感分析方法、系统及计算机可读存储介质
CN107247702A (zh) 一种文本情感分析处理方法和系统
CN108228576B (zh) 文本翻译方法及装置
CN108363743A (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN114818691A (zh) 文章内容的评价方法、装置、设备及介质
Liu et al. HieNN-DWE: A hierarchical neural network with dynamic word embeddings for document level sentiment classification
CN110321918A (zh) 基于微博的舆论机器人系统情感分析和图像标注的方法
CN113392640B (zh) 一种标题确定方法、装置、设备及存储介质
JP2020140692A (ja) 文抽出システム、文抽出方法、及びプログラム
CN114648032B (zh) 语义理解模型的训练方法、装置和计算机设备
CN113704393A (zh) 关键词提取方法、装置、设备及介质
Fu et al. A CNN-LSTM network with attention approach for learning universal sentence representation in embedded system
CN110489552B (zh) 一种微博用户自杀风险检测方法及装置
CN109359308A (zh) 机器翻译方法、装置及可读存储介质
CN111985218A (zh) 一种基于生成对抗网络的司法文书自动校对方法
Huo et al. TERG: topic-aware emotional response generation for chatbot

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230227

Address after: 430072 Hubei Province, Wuhan city Wuchang District of Wuhan University Luojiashan

Patentee after: WUHAN University

Address before: Floor 5, building A4, optics valley software park, Hongshan District, Wuhan City, Hubei Province 430000

Patentee before: WUHAN HONGCHA DATA TECHNOLOGY CO.,LTD.