CN107239439A

CN107239439A - 基于word2vec的舆情倾向性分析方法

Info

Publication number: CN107239439A
Application number: CN201710259721.8A
Authority: CN
Inventors: 蒋昌俊; 闫春钢; 王鹏伟; 何良华; 罗裕隽
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2017-10-10

Abstract

本发明提供一种基于word2vec的舆情倾向性分析方法，包括向量训练阶段、关键句提取阶段和倾向性判别阶段，通过提取新闻关键句缩小判别的特征空间，保留与原文主题相关性较大的内容，剔除无用信息，提高舆情倾向性分析的准确率；将深度学习模型word2vec引入舆情倾向性分析，用于比较词与词之间的语义相似度，并通过词向量来比较语义相似度，能较好识别出具有相同情感倾向但不在情感词典中的词语，即使情感词典不够完备也能获得一个较好的分析效果，同时，融合语法规则对关键句的情感倾向性进行加权计算，结合上下文信息，弥补单纯使用词义相似度的局限性，从句子整体分析倾向性，实现了对篇章级的新闻文本的情感倾向性以及情感强度的准确判别。

Description

基于word2vec的舆情倾向性分析方法

技术领域

本发明涉及计算机应用领域，尤其涉及一种基于word2vec的舆情倾向性分析方法。

背景技术

舆情是“舆论情况”的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。新闻在传播的过程中，越来越多的倾向性披露在公众面前，这些正面积极的或负面消极的情感倾向潜移默化地影响着人们对时事动态的看法，影响了舆论的走势。舆情倾向性分析研究正是在这种形势下产生的，旨在通过对新闻文本进行分析，挖掘新闻潜在的倾向性，希望有助于公众了解最新社会动态，获悉时事热点和舆论舆情的最新发展和走势；希望有助于监管部门及时发现社会问题，构建文明和谐的舆论环境；希望有助于公司、企业或机关事业单位的决策者正确把握当前形势并制定相应的策略。

目前主流的新闻搜索引擎都只是针对关键字对新闻进行检索，想要获得新闻的文本倾向性只能通过人工方法自行检索和识别，但每天互联网上更新的新闻数量十分庞大，通过人工进行新闻的倾向性检索耗费大量的人力和物力，而且效率低下。舆情倾向性分析的实质是篇章级文本倾向性分析，由于新闻报道的篇幅较长，其中有些句子和对阐明主题贡献较大，有些和主题关系不大，如果直接将整篇文章进行倾向性分析可能会影响算法的判别效果。

目前，使用最广泛的文档表示方法都是基于词袋模型。词袋模型将文档看成是词的集合，在该集合中，每个词是相互独立的，不考虑词的顺序、语法和语义信息，它将一篇文档表示成与训练词汇集合相同维度的向量，向量中对应位置的值表示该文档中该词出现的次数。词袋模型存在几个主要问题：1)样本空间的维数过高，增加计算的复杂度，易造成“维数灾难”现象；2)词袋模型不考虑词与词之间的语义关系，如“电脑”和“计算机”实际上是同一种东西，但通过词袋模型比较它们的相似度为0，并且现有技术中的评价对象的粒度是词语级的，无法做到篇章级的倾向性判断，因此，亟需一种新的技术手段，能够实现对篇章级的新闻文本的情感倾向性以及情感强度的判别。

发明内容

鉴于以上所述现有技术的缺点，本发明提供一种基于word2vec的舆情倾向性分析方法，以解决上述技术问题，通过以word2vec为基础，抽取新闻文本中的关键句，比较词汇之间的相似度，并结合人工制定的语法规则，首先对每句关键句的情感倾向性进行打分，再通过加权归一化方法实现对新闻文本的情感倾向性以及情感强度的判别。

本发明提供的基于word2vec的舆情倾向性分析方法，包括：

词向量训练阶段：采集新闻数据，通过word2vec深度学习模型对所述新闻数据进行训练，获取词向量训练结果，所述词向量训练结果包括每个词语对应的向量表示；

关键句提取阶段：对所述待分析新闻数据进行预处理，所述预处理至少包括对待分析的整篇新闻数据进行断句和关键字提取，根据词向量训练结果计算待分析新闻数据中分句和关键词的匹配程度，获取与关键字匹配度最高的分句和该篇新闻数据的标题，并将其作为新闻关键句群；

倾向性判别阶段：比较预处理处理后的新闻关键句群中的词语和情感词的相似度，获取待分析新闻数据的情感评分，通过所述情感评分对新闻数据进行倾向性判别。

进一步，通过词向量的余弦距离对词语相似度进行度量，所述词语相似度通过如下公式获取：

其中，A_i表示向量A的第i个分量的值，B_i表示向量B的第i个分量的值，n表示向量长度，θ表示向量A和向量B的夹角。

进一步，所述预处理包括关键词提取处理、断句处理以及对关键句进行分词及去除停用词处理，通过预处理获取每篇新闻数据的关键词、分句和分词结果，并将每句分句由一个词语序列表示。

进一步，所述关键句提取阶段具体包括：对待分析的整篇新闻数据进行断句和关键字提取，计算新闻分句中的每个词语的词语相似度，并获取其与关键词的余弦相似度的最大值，将所述最大值作为词语重要度评分，通过将分句中的所有词语的词语重要度评分进行累加并取平均值作为句子的重要度评分，提取句子的重要度评分中最高的句子以及该篇新闻数据的标题，将其作为新闻关键句群。

进一步，根据语法规则对新闻关键句群的情感倾向进行加权处理，获取新闻关键句群中的关键句的情感值，并根据关键句权重和所述情感值获取待分析新闻全文的情感倾向值，通过所述情感倾向值对待分析新闻全文的倾向性进行判定；所述语法规则包括否定词，关联词、程度副词以及上下文语义信息。

进一步，通过如下公式获取关键句的情感值：

其中，m为由关联词断开的小句数目，senScore为关键句的情感值，β_j为第j个小句的权值；n_j为第j个小句中含有词语的个数，wScore_i为每个词的情感值，α_i为否定词权重，γ_i为程度副词权重；

若第i个词前存在否定词，则α_i为-1，否则为1；

若第i个词有程度副词修饰，根据程度副词表对γ_i赋予不同的权值，默认值为1；

当senScore＞0时，句子具有正面倾向，当senScore＜0时，句子具有负面倾向。

进一步，当具有正面倾向的新闻关键句的数目大于具有负面倾向的新闻关键句的数目时，判定新闻全文的情感倾向为正面倾向，反之，则判断其为负面倾向；

当新闻全文的情感倾向为正面倾向时，通过如下公式获取新闻全文的情感倾向值：

当新闻全文的情感倾向为负面倾向时，通过如下公式获取新闻全文的情感倾向值：

其中，posNum为具有正面倾向的新闻关键句数，negNum为具有负面倾向的新闻关键句数，oreitation Value为新闻全文的情感倾向值。

进一步，预先对词语的正负面性质进行定义，并将定义后的词语作为情感词，根据情感词建立情感词典，通过情感词典对新闻全文的情感正负面进行判定。

进一步，所述词向量训练阶段还包括对待分析新闻数据进行文字转化处理和模型训练；

所述文字转化处理包括将待分析新闻数据转化为标准字符；

所述模型训练包括设置word2vec的训练窗口尺寸、低频词阈值以及词向量空间容量，并将分词处理后的数据输入word2vec，获取各词语对应的词向量。

进一步，对新闻分句中的每个词语，分别计算其与多个关键词的余弦相似度，并取最大值作为对应词语的词语重要度评分。

本发明的有益效果：本发明中的基于word2vec的舆情倾向性分析方法，可以有效的缩小判别的特征空间，保留与原文主题相关性较大的内容，剔除无用信息，提高舆情倾向性分析的准确率，通过word2vec来比较词与词之间的语义相似度，通过词向量来比较语义相似度，能较好识别出具有相同情感倾向但不在情感词典中的词语，即使情感词典不够完备也能获得一个较好的分析效果，另外，通过融合语法规则对关键句的情感倾向性进行加权计算，可以结合上下文信息，弥补单纯使用词义相似度的局限性，从句子整体分析倾向性，实现了对篇章级的新闻文本的情感倾向性以及情感强度的准确判别。

附图说明

图1是本发明实施例的舆情倾向性判别的原理示意图。

图2是本发明实施例的关键句提取流程示意图。

图3是本发明实施例的舆情倾向性判别的流程示意图。

图4是本发明的原理框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1、4所示，本实施例中的基于word2vec的舆情倾向性分析方法，主要包括：

关键句提取阶段：对所述新闻关键句群进行预处理，对待分析的整篇新闻数据进行断句和关键字提取，根据词向量训练结果计算该篇新闻数据中分句和关键词的匹配程度，获取与关键字匹配度最高的分句和该篇新闻数据的标题，并将其作为新闻关键句群；

倾向性判别阶段：比较预处理处理后的新闻关键句群中的词语和情感词的相似度，获取新闻的情感评分，通过所述情感评分对新闻数据进行倾向性判别。

在本实施例中，词向量训练是基于word2vec深度学习模型来实现，可以通过互联网上获取的大量数据为语料进行训练，最终得到每个词语对应的向量表示，词语相似度采用词向量的余弦距离进行度量；新闻关键句提取，首先对整篇新闻报道进行断句和关键词提取，再通过计算新闻分句和新闻关键词的匹配程度，最终提取匹配度最高的若干新闻分句以及标题作为新闻关键句群，通过新闻关键群可以简洁准确的概括新闻所表达的信息；倾向性判别是从关键句出发，对关键句进行分词，去停用词等处理，比较关键句中词语和情感词的相似度，再通过语法规则对判断进行校正，得到每个句子的倾向性评分，最后将关键句评分加权平均，得到新闻的情感评分。

在本实施例中，在倾向性判别阶段之前，首先需要准备情感词典、语法规则和词向量，其中情感词典需要根据所处理领域文本的特点预先对词语的正负面性质进行定义，并将定义后的词语作为情感词，根据情感词建立情感词典，通过情感词典对新闻全文的情感正负面进行判定，语法规则包括否定词，关联词、程度副词以及上下文语义信息等，由于单从词语层面进行倾向性分析相对片面，因此通过上下文语义信息，将语法规则融入基于词向量的倾向性分析，从句子整体把握情感倾向性；词向量训练需要大量的文本作为训练集，可以通过互联网获取的大量新闻数据为语料进行训练，也可以使用中文wiki语料库，最终得到每个词语对应的向量表示。

在本实施例中，所述预处理包括关键词提取处理、断句处理以及对关键句进行分词及去除停用词处理，通过预处理获取每篇新闻数据的关键词、分句和分词结果，并将每句分句由一个词语序列表示，在本实施例中，关键词的提取可以通过Textrank算法从每篇新闻文档中提取10个关键词；由于新闻关键句提取模块将提取文档中的若干句子，因此首先按句号、分号或感叹号等标点符号将文本分割为若干完整句，通过断句处理，可以按句号、分号或感叹号等标点符号将文本分割为若干完整句，对文本进行分词及去停用词处理，得到分词结果，每句分句都由一个词语序列{word₁,word₂,…,word_n}表示，词语序列为句子的分词结果，为后续句子的倾向性分析做准备。

在本实施例中，通过词向量的余弦距离对词语相似度进行度量，得到每个词的n维词向量后词语相似度的计算公式如下：

如图2所示，在本实施例中，新闻关键句提取旨在从长篇文档中提取出对阐明主题贡献较大的句子，剔除与主题无关的信息，为进一步倾向性分析打下基础，由于新闻标题可以极大的反映内容，因此，本实施例将新闻标题也作为新闻关键句之一。关键句提取阶段具体包括：对待分析的整篇新闻数据进行断句和关键字提取，计算新闻分句中的每个词语的词语相似度，并获取其与关键词的余弦相似度的最大值，将最大值作为词语重要度评分，通过将分句中的所有词语的词语重要度评分进行累加并取平均值作为句子的重要度评分，提取句子的重要度评分中最高的句子以及该篇新闻数据的标题，将其作为新闻关键句群。本实施例通过对新闻分句中的每个词语，按公式(1)计算其与10个关键词的余弦相似度并取最大值作为词语重要度评分；将分句中所有词语的重要程度评分累加并取平均值作为句子的重要度评分；提取重要度评分最高的4个句子以及新闻标题共同作为新闻关键句群。

在本实施例中，倾向性判别阶段主要包括判别新闻的情感极性以及计算情感倾向程度值，倾向性判别的主体是新闻关键句群，判别方法以分句中词语和情感词的余弦相似度为基础，融入语法规则对关键句的情感倾向进行加权计算，最后结合关键句权重即可得出全文的情感倾向值，情感倾向值的区间为[-1,1]。如图3所示，倾向性分析步骤如下：

(1)对关键句中的词语，除关联词、否定词以及程度副词外，按公式(1)计算其与情感词的余弦相似度并取最大值作为词语倾向性程度评分；

(2)通过融入语法规则，对词语赋予不同权重，按如下公式对词语倾向值进行累加最终得到每句关键句的情感值；

若第i个词前存在否定词，则α_i为-1，否则为1；

例如关联词“虽然…但是…”将句子分为两个小句，该句所表达的重点应在“但是”之后，因此后一小句的权值比前一小句的大。

(3)判断新闻倾向并计算倾向值：当具有正面倾向的新闻关键句的数目大于具有负面倾向的新闻关键句的数目时，判定新闻全文的情感倾向为正面倾向，反之，则判断其为负面倾向；

下面列举一个具体的实施例进行详细说明：

表1

如表1所示，可以看到关键句抽取算法一共抽取含标题在内的三句句子作为关键句群，在关键句倾向评分中，若检测到语法规则关键词，则对其连接的分句赋予不同的权值再进行词语倾向评分的累加，若没有检测到则直接对词语倾向评分进行累加平均，最终得到整篇新闻的情感倾向性。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于word2vec的舆情倾向性分析方法，其特征在于，包括：

2.根据权利要求1所述的基于word2vec的舆情倾向性分析方法，其特征在于：通过词向量的余弦距离对词语相似度进行度量，所述词语相似度通过如下公式获取：

<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mi>&theta;</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mn>1</mn> <mi>n</mi> </msubsup> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>*</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mn>1</mn> <mi>n</mi> </msubsup> <msubsup> <mi>A</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mn>1</mn> <mi>n</mi> </msubsup> <msubsup> <mi>B</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> </mrow>

3.根据权利要求2所述的基于word2vec的舆情倾向性分析方法，其特征在于：所述预处理包括关键词提取处理、断句处理以及对关键句进行分词及去除停用词处理，通过预处理获取每篇新闻数据的关键词、分句和分词结果，并将每句分句由一个词语序列表示。

4.根据权利要求3所述的基于word2vec的舆情倾向性分析方法，其特征在于：所述关键句提取阶段具体包括：对待分析的整篇新闻数据进行断句和关键字提取，计算新闻分句中的每个词语的词语相似度，并获取其与关键词的余弦相似度的最大值，将所述最大值作为词语重要度评分，通过将分句中的所有词语的词语重要度评分进行累加并取平均值作为句子的重要度评分，提取句子的重要度评分中最高的句子以及该篇新闻数据的标题，将其作为新闻关键句群。

5.根据权利要求4所述的基于word2vec的舆情倾向性分析方法，其特征在于：根据语法规则对新闻关键句群的情感倾向进行加权处理，获取新闻关键句群中的关键句的情感值，并根据关键句权重和所述情感值获取待分析新闻全文的情感倾向值，通过所述情感倾向值对待分析新闻全文的倾向性进行判定；所述语法规则包括否定词，关联词、程度副词以及上下文语义信息。

6.根据权利要求5所述的基于word2vec的舆情倾向性分析方法，其特征在于：

通过如下公式获取关键句的情感值：

<mrow> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>S</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>&beta;</mi> <mi>j</mi> </msub> <mo>*</mo> <mrow> <mo>(</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>j</mi> </msub> </msubsup> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <mo>*</mo> <msub> <mi>&gamma;</mi> <mi>i</mi> </msub> <mo>*</mo> <msub> <mi>wScore</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>n</mi> <mi>j</mi> </msub> </mrow> </mfrac> </mrow>

若第i个词前存在否定词，则α_i为-1，否则为1；

7.根据权利要求6所述的基于word2vec的舆情倾向性分析方法，其特征在于：当具有正面倾向的新闻关键句的数目大于具有负面倾向的新闻关键句的数目时，判定新闻全文的情感倾向为正面倾向，反之，则判断其为负面倾向；

<mrow> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mi>i</mi> <mi>t</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mi>V</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mrow> <mo>&Sigma;</mo> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>S</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> </mrow> <mrow> <mi>p</mi> <mi>o</mi> <mi>s</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> </mrow> </mfrac> <mo>;</mo> </mrow>

<mrow> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mi>i</mi> <mi>t</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mi>V</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mrow> <mo>&Sigma;</mo> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>S</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> </mrow> <mrow> <mi>n</mi> <mi>e</mi> <mi>g</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> </mrow> </mfrac> <mo>.</mo> </mrow>

其中，posNum为具有正面倾向的新闻关键句数，negNum为具有负面倾向的新闻关键句数，oreitationValue为新闻全文的情感倾向值。

8.根据权利要求1-7任一所述的基于word2vec的舆情倾向性分析方法，其特征在于：预先对词语的正负面性质进行定义，并将定义后的词语作为情感词，根据情感词建立情感词典，通过情感词典对新闻全文的情感正负面进行判定。

9.根据权利要求8所述的基于word2vec的舆情倾向性分析方法，其特征在于：所述词向量训练阶段还包括对待分析新闻数据进行文字转化处理和模型训练；

所述文字转化处理包括将待分析新闻数据转化为标准字符；

10.根据权利要求4所述的基于word2vec的舆情倾向性分析方法，其特征在于：对新闻分句中的每个词语，分别计算其与多个关键词的余弦相似度，并取最大值作为对应词语的词语重要度评分。