CN113326694B

CN113326694B - 基于情感传播的隐式情感词典生成方法

Info

Publication number: CN113326694B
Application number: CN202110542789.3A
Authority: CN
Inventors: 李显勇; 李齐治; 陈龙齐; 杜亚军; 范永全; 陈晓亮
Original assignee: Xihua University
Current assignee: Xihua University
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2022-09-30
Anticipated expiration: 2041-05-18
Also published as: CN113326694A

Abstract

本发明涉及计算机领域，具体是基于情感传播的隐式情感词典生成方法，包括如下步骤：步骤一、通过网络爬虫技术提取出社交媒体中的文本数据，并对非正式文本数据进行处理，恢复成自然语言；步骤二、通过词法与句法分析将句子构成句法树，将句法树中的名词、动词以及形容词提取出来构建成为完全图；步骤三、在完全图中进行情感传播，当情感传播结束后即可获得隐式情感词典，解决了隐式情感词典的构建通过人工标注数据，耗费人力物力以及时间的问题。

Description

基于情感传播的隐式情感词典生成方法

技术领域

本发明涉及计算机领域，具体是指基于情感传播的隐式情感词典生成方法。

背景技术

现阶段针对隐式情感词典的构建是通过人工标注数据的方式实现，这是一种十分耗费人力物力以及时间的工作。

Stanford CoreNLP是斯坦福大学制作的开源NLP(Natural LanguageProcessing)工具，能够对中文进行词法与句法分析，以及命名实体识别；PolarityRank算法是结合了PageRank算法与Hits算法，通过情感传播，对词语图中情感值进行排名的一种算法；通过引入外部知识，可以更容易的得到初始情感值，减轻人为打标签的负担。

通过将上述三种方法引入隐式情感词典的构建，能够最大程度的解决人工标注耗费人力物力以及时间的问题。

发明内容

基于以上问题，本发明提供了基于情感传播的隐式情感词典生成方法，解决了隐式情感词典的构建通过人工标注数据，耗费人力物力以及时间的问题。

为解决以上技术问题，本发明采用的技术方案如下：

基于情感传播的隐式情感词典生成方法，包括如下步骤：

步骤一、通过网络爬虫技术提取出社交媒体中的文本数据，并对非正式文本数据进行处理，恢复成自然语言，恢复后的文本数据记为S＝{s₁,s₂,s₃,......,s_n}，其中，s_n表示第n个恢复成自然语言的句子；

步骤二、将恢复后的文本数据S＝{s₁,s₂,s₃,......,s_n}构建成为句法树T＝{t₁,t₂,t₃,......,t_n}，其中t_n表示第n个生成的句法树，将句法树中的名词、动词以及形容词提取出来构建成为完全图G＝{G₁,G₂,......,G_n}，其中G_n表示第n个由句法树生成的完全图；

步骤三、在完全图G_n中进行情感传播，当情感传播结束后即可获得隐式情感词典；

所述步骤三具体包括：

步骤31、完全图G_n每个节点的词语称为显示情感词语v_i，引入大连理工情感词典本体为显示情感词语v_i分配初始情感值，其中，预设显示情感词语v_i的情感值为

同时，需要对情感值

作归一化处理；

步骤32、预设完全图g_n中每个节点的显示情感词语v_i有两个情感值

和

其中，

是词语的正向情感值，

是负向情感值，根据大连理工情感词典本体的情感极性，为显示情感词语v_i的两个情感值

和

分配初始情感值；

步骤33、情感传播开始后，计算显示情感词语v_i的传播率、受到邻居节点的影响、错别字与词语错误搭配的情况、情感传播以及情感不传播的情况；

步骤34、每次情感传播后计算情感词语v_i更新后的情感值；

步骤35、当更新后的情感值计算完成后，通过归一化手段获得显示情感词语v_i的最终情感值

步骤36、通过显示情感词语v_i的最终情感值

获得隐式情感词汇的情感极性，从而获得隐式情感词典。

进一步，所述步骤一中，对非正式文本数据进行处理，恢复成自然语言具体包括：

步骤11、清理掉无用信息，无用信息包括社交媒体为文本数据携带的内容、表情符号、非中文内容；

步骤12、将繁体中文转换成简体中文；

步骤13、对句子进行切割；

步骤14、经步骤11～13处理后的文本数据记为S＝{s₁,s₂,s₃,......,s_n}。

进一步，所述步骤二中具体包括如下步骤：

步骤21、利用Stanford CoreNLP软件将S中的句子进行词法与句法分析，构建句法树，句法树包括包含词语、词性以及词语之间的依赖关系；

步骤22、将句法树中的名词、动词以及形容词提取出来，并通过Stanford CoreNLP软件对每个句子s_n进行命名实体识别，清理掉标签为DATE的命名实体，每一个句子s_n提取出的词语记为w_n＝{w₁,w₂,w₃,......,w_m}，其中，w_m表示第m个被提取出的词语；

步骤23、采用python处理图数据的库networkx进行完全图的构建，完全图中节点为提取出的词语w_n，每两个节点间都有边，边权为两个词语在语料库中出现的频率，完全图中所有句子构成语料库。

进一步，所述步骤31中，由于大连理工情感词典本体的情感极性是1,3,5,7,9，采用如下公式对显示情感词语v_i的情感值

进行归一化处理：

进一步，步骤32中，显示情感词语v_i的两个情感值

和

分配初始情感值的分配规则为：

完全图G_n中，如果没有词语出现在大连理工情感词典本体中，则

完全图G_n中，如果情感值为1，则

完全图G_n中，如果情感值为2，则

完全图G_n中，如果情感值为3，则

进一步，所述步骤33具体包括如下：

步骤331、显示情感词语v_i在初始时刻的传播率为

且不传播率为

而任意时刻，传播率与不传播率之和为1，即

步骤332、计算每个节点在某一时刻受到邻居节点的影响，计算公式为：

w_ij＝P(word_i,word_j)；

其中，

表示显示情感词语v_i在t时刻受到邻居节点的影响，w_ij表示词语i和词语j在语料库中的共现频率，

表示词语j在某一时刻的传播率，P(word_i,word_j)表示词语i和词语j在语料库中共现的概率，F(word_i,word_j)表示词语i和词语j在语料库中的共现频率，N表示语料库中所有句子的数量，完全图中所有句子构成语料库；

步骤333、计算每个时刻显示情感词语v_i的情感传播情况

公式如下：

其中，λ用于衡量词语间情感传播的概率，μ用于衡量错别字与词语搭配错误的概率；

计算每个时刻显示情感词语v_i的情感不传播情况

公式如下：

进一步，所述步骤34中，情感传播后正向的情感值为

负向的情感值为

其计算公式为：

其中，

表示该词语以相同的概率将情感传播给它的邻居节点。

进一步，所述步骤35中，归一化公式为：

进一步，所述步骤36中，获得隐式情感词汇的情感极性的公式为：

与现有技术相比，本发明的有益效果是：本发明通过网络爬虫技术与清洗，将非正式文本恢复为语言，并切割为句子，接着结合NLP技术中的词法句法分析以及命名实体识别，有效提取出文本中的名词、动词、形容词，并根据这些词语将句子构建成为了句法树；第三步，我们通过定义的规则将句法树构建成为了句法图，在句法图中进行相关的情感传播，情感传播过程中我们还考虑了传播参数以及词语搭配错误参数用于提高情感传播的准确率，最终我们对获得的词语的情感值进行归一化处理，便获得了我们最终的词典。

附图说明

图1为本实施例的流程图；

图2为本实施例构成的句法图；

图3为本实施例构成的完全图；

图4为本实施例情感传播的示意图。

具体实施方式

下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。

如图1所示的基于情感传播的隐式情感词典生成方法，包括如下步骤：

进一步的是，对非正式文本数据进行处理，恢复成自然语言具体包括：

步骤11、清理掉无用信息，无用信息包括如下：

(1)社交媒体为文本数据携带的内容，例如用户名连接“@username”，回复的内容“回复@username”；

(2)例如颜文字、表情符号等；

(3)非中文内容，例如网络流行语“xswl”；

(4)将话题标签替换为原文文字，例如“#专利”替换成“专利”；

步骤12、将繁体中文转换成简体中文，例如，“我愛中國”转化为“我爱中国”；

步骤13、对句子进行切割，由于社交媒体中用户对于标点符号胡乱使用，所以需要对句子进行切割，以免造成不用句子间的影响，切割的标准为“。”、“.”、“！”、“！”、“？”、“？”，例如“你们听见了吗？那个声音”切割为“你们听见了吗”，“那个声音”；

进一步的是，具体包括如下步骤：

步骤21、利用Stanford CoreNLP软件将S中的句子进行词法与句法分析，构建句法树，句法树包括包含词语、词性以及词语之间的依赖关系，效果图如图2所示；

步骤23、采用python处理图数据的库networkx进行完全图的构建，如图3所示，完全图中节点为提取出的词语w_n，每两个节点间都有边，边权为两个词语在语料库中出现的频率，每个句子s_n构建成的完全图G_i＝(V,E)，其中，V是由词语构成的节点集合，E是边集。

步骤三、在完全图中进行情感传播，当情感传播结束后即可获得隐式情感词典；

进一步的是，步骤三具体包括：

步骤31、通过引入外部知识，例如大连理工情感词汇本体，完全图G_n每个节点的词语称为显示情感词语v_i，引入大连理工情感词典本体为显示情感词语v_i分配初始情感值，其中，预设显示情感词语v_i的情感值为

同时，需要对情感值

作归一化处理，由于大连理工情感词典本体的情感极性是1,3,5,7,9，采用如下公式对显示情感词语v_i的情感值

进行归一化处理：

和

其中，

是词语的正向情感值，

和

分配初始情感值，分配原则如下：

完全图G_n中，如果情感值为1，则

完全图G_n中，如果情感值为2，则

完全图G_n中，如果情感值为3，则

步骤33、情感传播开始后，如图4所示，计算显示情感词语v_i的传播率、受到邻居节点的影响、错别字与词语错误搭配的情况、情感传播以及情感不传播的情况，具体包括如下步骤：

步骤331、当分配初始情感值后，需要对节点间的边权进行赋值，赋值的内容为两节点在语料库中共现的概率，计算公式为：

w_ij＝P(word_i,word_j)，

其中，w_ij表示词语i和词语j在语料库中的共现频率，P(word_i,word_j)表示词语i和词语j在语料库中共现的概率，F(word_i,word_j)表示词语i和词语j在语料库中的共现频率，N表示语料库中所有句子的数量；

步骤332、完成以上工作后，进行情感传播，显示情感词语v_i在初始时刻的传播率为

且不传播率为

而任意时刻，传播率与不传播率之和为1，即

步骤333、计算每个节点在某一时刻受到邻居节点的影响，计算公式为：

其中，

表示显示情感词语v_i在t时刻受到邻居节点的影响；

步骤334、由于考虑到句子中有可能会有错别字与词语搭配错误的情况，特别是在非正式文本中会有词语之间搭配错误使用的情况，所以设置两个参数λ和μ来刻画情感传播率与情感不传播率，因此，计算每个时刻显示情感词语v_i的情感传播情况

公式如下：

计算每个时刻显示情感词语v_i的情感不传播情况

公式如下：

步骤34、每次情感传播后计算情感词语v_i更新后的情感值，具体包括如下：

步骤334主要考虑到传播过程中的平衡，但是还需着重考虑情感的传播过程，情感传播后，显示情感词语v_i能够传播

这么多比例的情感值，以此计算每次情感传播后词语的情感值，情感传播后正向的情感值为

负向的情感值为

其计算公式为：

其中，

表示该词语以相同的概率将情感传播给它的邻居节点。

其中，归一化公式为：

步骤36、通过显示情感词语v_i的最终情感值

获得隐式情感词汇的情感极性，从而获得隐式情感词典，其中，获得隐式情感词汇的情感极性的公式为：

如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.基于情感传播的隐式情感词典生成方法，其特征在于，包括如下步骤：

所述步骤三具体包括：

同时，需要对情感值

作归一化处理；

和

其中，

是词语的正向情感值，

和

分配初始情感值；

所述步骤33具体包括如下：

步骤331、显示情感词语v_i在初始时刻的传播率为

且不传播率为

而任意时刻，传播率与不传播率之和为1，即

w_ij＝P(word_i,word_j)；

其中，

步骤333、计算每个时刻显示情感词语v_i的情感传播情况

公式如下：

计算每个时刻显示情感词语v_i的情感不传播情况

公式如下：

步骤34、每次情感传播后计算情感词语v_i更新后的情感值；

步骤36、通过每个词语v_i的最终情感值

获得该词语的情感词汇的情感极性，提取出其中的隐式词汇，构建成为隐式情感词典。

2.根据权利要求1所述的基于情感传播的隐式情感词典生成方法，其特征在于，所述步骤一中，对非正式文本数据进行处理，恢复成自然语言具体包括：

步骤12、将繁体中文转换成简体中文；

步骤13、对句子进行切割；

3.根据权利要求1所述的基于情感传播的隐式情感词典生成方法，其特征在于，所述步骤二中具体包括如下步骤：

4.根据权利要求1所述的基于情感传播的隐式情感词典生成方法，其特征在于，所述步骤31中，由于大连理工情感词典本体的情感极性是1,3,5,7,9，采用如下公式对显示情感词语v_i的情感值

进行归一化处理：

5.根据权利要求4所述的基于情感传播的隐式情感词典生成方法，其特征在于，步骤32中，显示情感词语v_i的两个情感值

和

分配初始情感值的分配规则为：

完全图G_n中，如果情感值为1，则

完全图G_n中，如果情感值为2，则

完全图G_n中，如果情感值为3，则

6.根据权利要求5所述的基于情感传播的隐式情感词典生成方法，其特征在于，所述步骤34中，情感传播后正向的情感值为

负向的情感值为

其计算公式为：

其中，

表示该词语以相同的概率将情感传播给它的邻居节点。

7.根据权利要求6所述的基于情感传播的隐式情感词典生成方法，其特征在于，所述步骤35中，归一化公式为：

8.根据权利要求7所述的基于情感传播的隐式情感词典生成方法，其特征在于，所述步骤36中，获得隐式情感词汇的情感极性的公式为：