CN111626050B

CN111626050B - 基于表情词典与情感常识的微博情感分析方法

Info

Publication number: CN111626050B
Application number: CN202010449838.4A
Authority: CN
Inventors: 徐新燕; 张顺香; 朱广丽
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2023-12-12
Anticipated expiration: 2040-05-25
Also published as: CN111626050A

Abstract

本发明提供一种基于表情词典与情感常识的微博情感分析方法。其包括对某一话题下的微博文本数据进行采集、预处理和分词操作；选取高频使用表情构建微博表情词典；抽取ConceptNet语义库的二元搭配，进行情感标注，并用同义词词典进行扩展形成情感常识库；根据表情符号和情感常识的权值计算来对微博进行情感分析等步骤。本发明利用表情词典与情感常识相结合的方式来判定微博的情感分类，在情感分析任务中融合了网络用语和表情符号等显性特征以及情感常识等隐性特征，在很大程度上可以深度挖掘微博文本所要表达的隐含情感，从而提高情感分析的准确性。

Description

基于表情词典与情感常识的微博情感分析方法

技术领域

本发明属于自然语言处理中的文本情感分析技术领域，特别是涉及基于表情词典与情感常识的微博情感分析方法。

背景技术

微博已逐渐成为互联网时代重要的新兴社会网络平台，用户可以通过网页或者客户端，在微博上分享个人生活，发布个人观点，与朋友交流互动。截止到目前为止，微博用户数目已超过3亿人，在海量的微博数据中，包含许多用户带有主观情感倾向性的微博资源。

然而微博独有的原创性、不可预见性等特点，现有的微博情感分析基本从表情符号和网络用词等显性特征来进行情感值的计算，微博文本中隐性情感往往对情感倾向的判断有着重要影响，而隐性情感的表达很大程度上并不含有情感词，需要读者拥有一定的知识背景通过推理来发现一些常识隐晦地传达出的隐藏情感。

发明内容

为了解决上述问题，本发明的目的在于提供基于表情词典与情感常识的微博情感分析方法。

为了达到上述目的，本发明提供的基于表情词典与情感常识的微博情感分析方法包括按顺序进行的下列步骤：

(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作，选取高频使用的表情符号构建微博表情词典；

(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集，过滤含有显式情感的二元情感常识搭配；

(3)二元实体候选集的情感极性计算；

(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展，形成情感常识库；

(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类；

在步骤(1)中，所述的采集指定话题下的微博文本并对文本数据进行预处理和分词操作，选取高频使用的表情符号构建微博表情词典的方法是：对某个话题下的微博文本进行采集，对采集的微博数据进行预处理操作，主要包括去除“#话题#”、“@用户名”、图片、视频以及网页链接等在内的噪声信息；之后利用中科院ICTCLAS分词工具进行分词，最后对高频使用的表情符号进行提取，构建表情词典，人工标注情感强度。

在步骤(2)中，所述的抽取具有明显情感倾向的二元实体作为常识候选集，主要是由于ConceptNet内包含的常识知识绝大多数并不具有情感倾向。

在步骤(3)中，所述的二元实体候选集的情感极性计算，主要是利用义原相似度的均差值来计算。得到情感常识情感倾向的方法包括下列步骤：

1)计算两个词之间的最大相似度：

利用知网义原树中的距离计算义原相似度，从而得出词语的语义相似度，对于2个汉语词语w₁和w₂，如果w₁有n个概念:x₁，x₂，…，x_n，w₂有m个概念:y₁,y₂，…，y_n，规定w₁和w₂的相似度是各个概念的相似度的最大值，即：

S(w₁和w₂)＝max(S(x_i,y_j))i∈(1,n)j∈(1,m) (1)

其中，λ是正可变参数；d(x₁,y₂)表示义原x₁和义原y₂在层次树中的距离；

2)通过义原相似度均差得到词语情感倾向：

对于任意一个词语，可以通过该词语和情感词典中的种子词之间的距离获得其情感倾向值。词语W与情感词典中的每个种子词进行比较得到其正面情感倾向值和负面情感倾向值通过比较它们之间的均差值，最终得到词语W的情感倾向值。词语W的情感倾向计算公式为：

其中，P_i表示正向情感中的一个种子词；N_j表示负向情感中的某一个种子词；

在步骤(4)中，所述的利用哈工大的同义词词林对情感常识的覆盖范围进行扩展方法是：在已标注极性的情感常识中，对两个实体分别进行同义词林替换，将替换的同义词元组扩充到现有的情感常识库中。例如：(“学校”，“放假”)，根据“学校”的同义词“高校”向左扩展可以形成新的情感常识(“高校”，“放假”)，而根据“放假”同义词“休假”向右扩展形成新的情感常识(“学校”，“休假”)。

在步骤(5)中，所述的对于整条微博消息的情感值，需要综合考虑表情符号和微博文本对倾向值结果的影响。微博文本中查找是否有二元情感常识搭配，如果有匹配，则用现有的已标注情感权值的二元情感常识替代微博文本现有的词语搭配来计算微博文本的情感倾向，对上述两部分进行情感倾向值加权处理后计算得到整条微博情感倾向。得到整条微博文本情感倾向的方法包括下列步骤：

1)表情的情感倾向可以通过表情符号的权值大小计算得到，即：

其中，E_i为某一微博消息中第i个表情的情感强度。

2)整条微博消息的情感值倾向公式，即：

当所得的Q值大于0是则该条微博情感倾向为正面，小于0时为负面情感，等于0时为中性。

本发明提供的基于表情词典与情感常识的微博情感分析方法有以下优点：(1)本发明利用显性特征和隐性特征相结合的方法来判定微博消息的情感倾向，运用常识知识，在很大程度上可以深度挖掘微博文本所要表达的隐含情感，从而提高情感分析的准确性。(2)本发明不同于机器学习方法，不需要使用大规模数据进行训练，比较适用于实时数据处理。

附图说明

图1是本发明的流程框架图。

具体实施方式

下面结合附图对本发明提供的基于表情词典与情感常识的微博情感分析方法进行详细说明。

如图1所示，本发明提供的基于表情词典与情感常识的微博情感分析方法包括按顺序进行的下列步骤：

采集指定话题下的微博文本作为本发明的分析对象，对文本数据进行预处理操作，去除对后续情感分析影响甚微的噪声信息，主要包括“#话题#”、“@用户名”、图片、视频以及网页链接等。

然后利用中科院ICTCLAS分词工具进行分词。

之后对高频使用的表情符号进行提取，构建表情情感词典，人工标注情感强度，如表1所示。

表1表情符号词典示例

(3)二元实体候选集的情感极性计算，主要是利用义原相似度的均差值来计算。得到情感常识情感倾向的方法包括下列步骤：

1)计算两个词之间的最大相似度：

S(w₁和w₂)＝max(S(x_i,y_j))i∈(1,n)j∈(1,m) (1)

2)通过义原相似度均差得到词语情感倾向：

其中，P_i表示正向情感中的一个种子词；N_j表示负向情感中的某一个种子词。

(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展，形成情感常识库，在已标注极性的情感常识中，对两个实体分别进行同义词林替换，将替换的同义词元组扩充到现有的情感常识库中。例如：(“学校”，“放假”)，根据“学校”的同义词“高校”向左扩展可以形成新的情感常识(“高校”，“放假”)，而根据“放假”同义词“休假”向右扩展形成新的情感常识(“学校”，“休假”)；

(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类，得到整条微博文本情感倾向的方法包括下列步骤；

其中，E_i为某一微博消息中第i个表情的情感强度。

2)整条微博消息的情感值倾向公式，即：

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.基于表情词典与情感常识的微博情感分析方法，其特征在于：所述的基于表情词典与情感常识的微博情感分析方法，包括如下步骤：

(3)二元实体候选集的情感极性计算，包括利用义原相似度的均差值计算所述二元实体候选集的情感极性，得到情感词语的情感倾向值；

所述利用义原相似度的均差值计算所述二元实体候选集的情感极性，得到情感词语的情感倾向值，具体包括：

针对所述二元实体候选集中任意一个词语，基于知网义原树中的距离计算义原相似度，得出各个词语的语义相似度；将所述各个词语与情感词典中的每个种子词进行比较，得到所述各个词语的正面情感倾向值和负面情感倾向值；通过比较所述各个词语的正面情感倾向值和负面情感倾向值之间的均差值，得到所述各个词语的情感倾向值；

(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类，得到整条微博文本的情感倾向，包括：根据表情符号和所述微博文本对倾向值结果的影响,查找所述微博文本中是否有二元情感常识搭配；

若有，则使用现有的已标注情感权值的二元情感常识替代所述微博文本中现有的词语搭配来计算所述微博文本的情感倾向，对所述表情符号和所述微博文本进行情感倾向值加权处理，得到所述整条微博文本的情感倾向。

2.根据权利要求1所述的一种基于表情词典与情感常识的微博情感分析方法，其特征在于：在步骤(1)中，所述的采集指定话题下的微博文本并对文本数据进行预处理和分词操作，选取高频使用的表情符号构建微博表情词典的方法是：对某个话题下的微博文本进行采集，对采集的微博数据进行预处理操作，主要包括去除“#话题#”、“@用户名”、图片、视频以及网页链接等在内的噪声信息；之后利用中科院ICTCLAS分词工具进行分词，最后对高频使用的表情符号进行提取，构建表情词典，人工标注情感强度。

3.根据权利要求1所述的基于表情词典与情感常识的微博情感分析方法,其特征在于：在步骤(2)中，所述的抽取具有明显情感倾向的二元实体作为常识候选集，主要是由于ConceptNet内包含的常识知识绝大多数并不具有情感倾向。

4.根据权利要求1所述的基于表情词典与情感常识的微博情感分析方法，其特征在于：在步骤(4)中，所述的利用哈工大的同义词词林对情感常识的覆盖范围进行扩展方法是：在已标注极性的情感常识中，对两个实体分别进行同义词林替换，将替换的同义词元组扩充到现有的情感常识库中。