CN109446404A

CN109446404A - 一种网络舆情的情感极性分析方法和装置

Info

Publication number: CN109446404A
Application number: CN201811003419.7A
Authority: CN
Inventors: 汪自立; 臧冬松; 唐文杰; 康钰于; 聂离乡
Original assignee: China Electronic Import And Export Co Ltd
Current assignee: China Electronic Import And Export Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-03-08
Anticipated expiration: 2038-08-30
Also published as: CN109446404B

Abstract

本发明涉及一种网络舆情的情感极性分析方法和装置。社交媒体情感极性广泛应用于网络舆情监控系统中，但在实际应用中，由于无舆情价值的信息干扰，传统方法存在识别准确率低的问题。本发明通过预先对社交媒体文本进行处理，过滤掉不被公众关注的文本。再通过三种不同预先训练后的模型，提取情感特征值，然后通过一个预先训练后的线性分类器，最终预测文本所属情感类别。在实际运用中，由于能有效过滤无舆情价值信息，并从三个层次抽取文本情感特征，使得本发明在网络舆情情感极性层面上和单个文本情感极性识别精度层面上均有提升。

Description

一种网络舆情的情感极性分析方法和装置

技术领域

本发明涉及自然语言处理领域或者舆情管理技术，尤其涉及一种网络舆情的情感极性分析方法和装置。

背景技术

近几年，随着互联网技术发展，社交媒体作为一种新的情绪表达渠道，已经深入人类生活方式。如国外的Twitter，facebook和国内的微博。目前，网络舆情监控中对情感极性的判别主要方式为：从社交媒体网站获取数据，利用算法对文本进行情感极性判断。

然而，从社交媒体网站获取数据中，大量的社交文本信息并不具有舆情价值，对其分析只会降低效率和降低舆情情感统计的准确度。

此外，传统的情感极性算法大部分仅仅能利用单一层面的特征来计算文本的情感特征，并不能有效利用文本特征。

发明内容

本发明的目的在于提供一种更为准确的网络舆情的情感极性分析方法和装置。

为达到上述目的，本发明提供如下技术方案：

一种网络舆情的情感极性分析方法，包括以下步骤：

对待分析舆情信息进行文本特征提取；

将提取的文本特征输入预先训练好的舆情价值判别模型，输出文本舆情价值的概率；

当舆情价值的概率大于或等于预先设定的阈值则进行下一步，否则将文本标记为不具有舆情价值信息并停止其的情感极性分析；

通过多种预先训练好的情感特征模型从不同层面对文本的情感特征进行抽取；

将抽取的情感特征输入预先训练好的情感极性判别模型，输出情感极性的概率分布，选择最大概率的情感极性作为文本的情感极性。

上述网络舆情的情感极性分析方法，包括两个部分——模型训练和文本极性判断：

模型训练部分包括：

a)收集网络舆情信息作为训练语料；

b)通过对训练语料进行主题特征处理后，通过主题建模算法，训练主题模型；

c)通过对训练语料进行语义特征处理后，通过词嵌入算法，训练词嵌入模型；

d)从语料中选取部分典型的具有舆情价值的文本作为正例集，再选取部分语料作为无标记语料；通过主题特征处理方法对正例语料和无标记语料进行处理后，输入至主题模型中，得到主题特征；通过预先定义的规则，提取规则特征；将规则特征和主题特征组合，通过正例和无标记样本(PU)学习算法，训练舆情价值判别模型；

e)建立情感表情词典、情感词典、情感短语词典、特殊符号词典，根据上面各词典，对训练集进特征提取，得到特征向量，再通过SVM算法，训练基于情感词典的情感特征模型；

f)根据训练语料，建立二元、三元词作为词典，根据词典提取训练集特征向量，通过朴素贝叶斯算法，训练多元词情感特征模型；

g)通过词嵌入模型，提取训练集词向量，利用以下算法计算文档向量：其中表示文档向量，N表示文档中有效的单词数，表示第i词的词向量；将文档向量作为特征，通过softmax回归算法训练语义情感特征模型；

h)将训练语料，分别输入基于情感词典的情感特征模型、多元词情感特征模型和语义情感特征模型，分别得到情感特征F_svm、F_NB、F_softmax，再通过softmax回归算法，训练情感极性判别模型；

在文本极性判断部分，包含以下步骤：

a)将舆情文本通过语义特征处理后，输入预先训练的词嵌入模型，提取文本语义特征；

b)将舆情文本通过主题特征处理后，输入预先训练的主题模型，提取文本主题特征；

c)根据预先定义的规则，提取舆情文本的规则特征。

d)将文本主题特征和规则输入舆情价值判别模型，得到该文本的具有舆情价值的概率；

e)当具有舆情价值概率大于或等于预先设定的阈值则进行下一步，否则则将该条文本标记为不具有舆情价值信息并停止分析；

f)再通过预先训练的基于情感词典的情感特征模型、多元词情感特征模型、语义情感特征模型，计算舆情文本情感特征；

g)将上一步的情感特征，输入预先训练的情感极性判别模型，输出情感极性概率分布，选择最大概率的情感极性作为该文本的情感极性。

其中，所述主题特征处理包括以下步骤：a)特殊字符替换，包括：URL替换、提及替换、表情符号替换、日期替换、数字替换；b)转发文档转换：将转发转换为原文；c)文档去重，包括消息ID去重和完全匹配去重；d)停用词过滤，通过自定义停用词表进行过滤；e)高频词过滤：过滤掉前n个高频词，n为任意正整数；f)低频词过滤：过滤掉词频少于n次的词，n为任意整数；g)最少有效词文档过滤：过滤词数少于n的词的文档，n为任意整数。

其中，所述语义特征处理包括以下步骤：a)特殊字符替换，包括并不限于：URL替换、提及替换、表情符号替换、日期替换、数字替换；b)转发文档转换：将转发转换为原文；c)文档去重；d)过滤掉低于指定单词数的文档。

其中，所述预先定义的规则包括：文本是否存在URL；文本是否存在标签；文本是否存在表情；文本是否存在提及；文本作者是否拥有超过指定数量的粉丝；文本是否被大量转发。

其中，文本满足以下特征之一将被定义为不具有舆情价值：私人性质对话；文本不包含任何公众关心内容，所述公众关心内容包括事件、新闻、实体。

与上面方法对应地，本发明还提供一种网络舆情的情感极性分析装置，其包括：

文本特征提取单元，负责对待分析舆情信息进行文本特征提取；

舆情价值判别单元，负责将提取的文本特征输入预先训练好的舆情价值判别模型，输出文本舆情价值的概率；当舆情价值的概率大于或等于预先设定的阈值则通知情感特征抽取单元进行处理，否则将文本标记为不具有舆情价值信息并停止其的情感极性分析；

情感特征抽取单元，负责通过多种预先训练好的情感特征模型从不同层面对文本的情感特征进行抽取；

情感极性判别单元，负责将抽取的情感特征输入预先训练好的情感极性判别模型，输出情感极性的概率分布，选择最大概率的情感极性作为文本的情感极性。

进一步地，上述装置还包括：

舆情价值判别模型训练单元，负责训练舆情价值判别模型；

情感特征模型训练单元，负责训练情感特征模型；

情感极性判别模型训练单元，负责训练情感极性判别模型。

与现有技术相比，上述技术方案至少具有以下优点：

1、在舆情情感极性统计实践中，很多信息并不被大众所关注(不具有舆情价值)，这部分信息很大程度上会影响舆情系统对当前情感极性的统计。本发明能过滤掉这部分消息，提高舆情系统中情感极性分析的可靠性；

2、在社交媒体中，很多文本使用了不规范词，比如网络用语、错误拼写、新词等。传统方法并不能有效利用这些不规范的单词。本发明在海量舆情语料上建立文档主题模型和语义模型，能有效利用不规范词，提高方法的鲁棒性和情感分析的准确率；

3、相对于传统的方法，本发明通过多个层面提取文本中的情感特征，从而获得更全面的特征信息，进而提高情感极性准确性。

附图说明

图1是非情感特征模型训练流程图。

图2是情感特征模型训练流程图。

图3是本发明方法的实际运用流程图。

具体实施方式

舆情文本信息，如twitter、微博、Facebook的个人状态信息，具有文本简短、语法口语化、错误拼写、网络用语和标签符号等特征。这些特征在一定程度上影响现有的情感极性判别方法的准确性。此外，大部分舆情文本信息本身并不具有舆情价值，这部分信息有个很明显的特点，即文本内容并不为公众所关注，这部分信息影响了舆情系统的情感信息的准确性。基于此，本发明提供了一种网络舆情的情感极性分析的方法，该方法一方面对不具有舆情价值的信息进行过滤，排除了无舆情价值的文本，从而提高了整个舆情系统的情感信息准确性。一方面通过从多种角度来提取舆情文本中的情感特征，从而更加深入的理解文本情感属性。以下对本发明在英文语言环境下的实施过程作进一步的详细说明。

本实施例主要分为两个部分：模型训练和实际运用。

在模型训练部分，可以进一步划分为情感特征模型训练(如图2所示)和非情感特征模型训练(如图1所示)：

下面首先对非情感特征模型训练部分进行详述(图1)：

1.首先通过互联网收集海量与网络舆情相关的语料，主要方式包括：爬虫爬取和网站API收集。爬取网站主要包括：社交媒体网站(如微博、twitter、facebook等)、论坛网站(reddit、百度贴吧等)、新闻网站(independent、腾讯新闻等)、视频网站(YouTube、优酷等)等跟舆情相关网站。爬取内容主要包括：社交媒体网站的状态、论坛网站的讨论内容、新闻网站的评论、视频网站的评论等舆情相关内容。

2.将原始语料经过语义特征处理后，通过词嵌入算法，训练的一个词嵌入模型，该模型能够表示单词的语义信息，所以在图1中表示为语义模型。其中语义特征处理包括以下步骤：a)特殊字符串替换，包括：URL替换为“＝URL＝”；提及替换为“＝MENTION＝”；表情符号根据表情符号映射表进行替换(表2)；b)转发替换为原文本；c)相同文本去重；d)过滤单词少于5个的文档。在词嵌入算法方面，常见的词嵌入算法包括Word2Vec、GloVec、FastText等，本实例选用FastText作为词嵌入算法。在参数方面，本实例采用的是FastText的默认参数。

3.将原始语料经过主题特征处理后，通过主题模型算法，训练一个主题模型。其中主题特征处理包括以下步骤：a)特殊字符串替换，包括：URL替换为“＝URL＝”；提及替换为“＝MENTION＝”；表情符号根据表情符号映射表进行替换；日期替换为“＝DATA＝”；数字替换为“＝NUMBER＝”；b)转发替换为原文本；c)相同文本去重；d)对每个文档过滤掉停用词；e)统计所有文档中的词频，过滤掉前100个高频词和频次少于5次的低频词；f)过滤有效单词少于8个的文档。在主题算法方面，可选择的主题建模方法包括：PLSA、CTM、LDA及其他LDA变种算法。本实例选用LDA算法。在参数设置上，本实例设置topic为300，alpha为0.003，eta为0.003。

4.从原始语料中选取部分有舆情价值的语料作为正例，再选择部分语料作为无标记。两者数量比例为一比一。正例部分选择方法为，官方机构twitter账户所发的推文。无标记部分选择方法为，随机抽取与正例相同数量的原始语料。正例和无标记将作为舆情价值判别模型的训练语料。

5.将步骤4的训练语料经过处理A后，分别进行：a.输入到主题模型获主题特征；b.根据规则提取规则特征；然后将主题特征和规则特征合并为特征A后输入PU算法中，训练舆情价值判别模型。处理A包括特殊字符串替换，包括：URL替换为“＝URL＝”、提及替换为“＝MENTION＝”、表情符号根据表情符号映射表进行替换、日期替换为“＝DATA＝”、数字替换为“＝NUMBER＝”；本实例采用的规则包括：是否含有URL；是否含有表情符号；是否含有提及行为；是否含有标签(hashtag)；关注人数。

6.PU算法部分：设P表示正例样本，U表示未标注样本，x为文本特征向量，y表示是否具有舆情价值，y∈(0,1)，l表示是否被标注，l∈(0,1)；基于以上设定，则有：l＝1时，y＝1；l＝0时，y∈(0,1)。基于以上设定，本实例选用的PU算法可以表示为：a)训练分类器G＝p(l＝1|x)，其中p表示概率；b)计算评估量其中n表示样本总数；c)计算U中各个样本权重d)将P中样本的权重记作1，P中样本权重为w，复制U作为U′，其权重为1；e)将带权重的P、U、U′作为概率分类器的输入，训练分类器H。这样分类器G和H组合构成了舆情价值判别模型。

下面介绍情感特征部分的模型训练(图2)：

1.首先时训练语料的获取；常见的情感极性语料手段主要有两种：第一种是使用公开的情感语料，这种方式成本低，但语料可能不符合现实的应用场景；第二种是人工标注，这种方式能适应应用场景的语言环境，但是高质量的标注成本高。本实例采用的公开语料方案，采用的是SemEval 2013-2017。

2.通过处理B得到特征B；处理B包括：根据情感词典计数积极词数和消极词数(表1)；根据情感表情词典计数积极表情数、消极表情数(表2)；根据情感短句计数积极短句数和消极短句数(表3)；根据否定词词典计数否定词个数；字符″？″的计数；字符″！″的计数；

表1标签符号映射表示例

表情符号	相应字符串	情感属性	表情符号	相应字符串	情感属性
						^^	＝happy＝	积极	T^T	＝sad＝	消极
＝)	＝happy＝	积极	＝(	＝sad＝	消极
						：)	＝happy＝	积极	：(	＝sad＝	消极
：p	＝happy＝	积极	(T_T)	＝sad＝	消极
						：-)	＝happy＝	积极	：-(	＝sad＝	消极

表2情感词典示例表

表3情感短句示例表

3.根据特征B，通过支持向量机算法，训练基于情感词典的情感特征模型；支持向量机核函数在本实例中选择线性核函数；

4.将特征B输入基于情感词典的情感特征模型，得到情感特征B；情感特征B反应了文本在情感词层面上的三种情感权重分布；

5.通过处理C得到特征C；处理C包括：二元词组、三元词组提取；过滤低频词组，该实例选择的过滤次数少于3次的词组；过滤高频词组，该实例中选择过滤前10个高频词组；最终得到的词组作为特征C；

6.根据特征C，通过朴素贝叶斯算法，训练多元词情感特征模型；

7.将特征C输入多元情感特征模型中，得到情感特征C；情感特征C反应了在上下文层面上的三种情感概率分布；

8.通过处理D得到特征D；处理D包括：a)特殊字符串替换，包括：URL替换为“＝URL＝”；提及替换为“＝MENTION＝”；表情符号根据表情符号映射表进行替换；b)输入语义模型得到文档的词向量矩阵；c)将文档的词向量矩阵在词的维度上取平均得到特征D；

9.根据特征D，通过softmax回归算法，训练语义情感特征模型；

10.将特征D输入语义情感特征模型中，得到情感特征D；情感特征D反映了文本在语义层面上的三种情感的概率分布；

11.组合情感特征B、C、D，通过softmax回归算法，训练得到情感极性判别模型；

最后再对实际中的运用进行说明，如图3所示，包括以下步骤：

1.从舆情网站上爬取舆情文本，通过处理A后获取特征A。处理A包括：a)特殊字符串替换，包括：URL替换为“＝URL＝”；提及替换为“＝MENTION＝”；表情符号根据表情符号映射表进行替换；b)根据规则对替换后的文本抽取特征，规则包括：是否含有URL；是否含有表情符号；是否含有提及行为；是否含有标签(hashtag)；关注人数；c)将替换后的文本输入主题模型中，得到文本主题特征；d)将规则特征和主题特征合并成特征A；

2.将特征A输入舆情价值判别模型中，得到文本对于舆情有价值的概率，若概率大于或等于0.5，则该文本有舆情价值，进行后续的情感极性分析；若概率小于0.5，则该文本无价值，不进行后续分析；

3.对有舆情价值的文本，进行处理B，得到特征B；处理B包括：根据情感词典计数积极词数和消极词数；根据情感表情词典计数积极表情数、消极表情数和中性表情数；根据情感短句计数积极短句数和消极短句数；根据否定词词典计数否定词个数；“？”计数；"！"计数；

4.将特征B输入基于情感词典特征模型得到情感特征B；

5.对有舆情价值的文本，进行处理C后，输入多元情感特征模型，得到情感特征C；处理C包括：根据是否存在相应的多元词组情感特征模型中的多元词，生成特征向量；

6.对有舆情价值的文本进行处理D，得到特征D；处理D包括：a)特殊字符串替换，包括：URL替换为“＝URL＝”；提及替换为“＝MENTION＝”；表情符号根据表情符号映射表进行替换；b)输入语义模型得到文档的词向量矩阵；c)将文档的词向量矩阵在词的维度上取平均得到特征C；

7.将特征D输入语义情感特征模型，输出情感特征D；

8.将情感特征B、情感特征C和情感特征D组合，输入情感极性判别模型，输出情感极性；

为进一步说明本发明在情感极性判别上的精度上的提升，我们基于SemEval2013-2017语料，将情感极性判别部分与主流的算法进行对比；测试结果显示(表4)，本发明精度可以达到0.701，效果优于主流方法。

表4算法比较

算法	精度
		SVM	0.636
NB	0.630
		CNN	0.661
LSTM	0.667
		FastText	0.672
本发明	0.701

本发明另一实施例提供一种网络舆情的情感极性分析装置，其包括：

情感极性判别单元，负责将抽取的情感特征输入预先训练好的情感极性判别模型，输出情感极性的概率分布，选择最大概率的情感极性作为文本的情感极性；

舆情价值判别模型训练单元，负责训练舆情价值判别模型；

情感特征模型训练单元，负责训练情感特征模型；

情感极性判别模型训练单元，负责训练情感极性判别模型。

以上所述仅为本发明在英语语言环境下的较佳实施例，并不用以限制本发明在其他语言的应用，凡在本发明的精神和原则之内，所做的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种网络舆情的情感极性分析方法，其特征在于，包括以下步骤：

对待分析舆情信息进行文本特征提取；

2.根据权利要求1所述的方法，其特征在于，所述文本特征提取包括：通过预先训练的词嵌入模型，提取文本语义特征；通过预先训练的主题模型，提取文本主题特征；根据预先定义的规则，提取文本规则特征。

3.根据权利要求2所述的方法，其特征在于，所述词嵌入模型的训练包括以下步骤：a)通过网络爬虫、社交媒体API接口获取海量社交文本作为原始语料；b)将原始语料进行语义特征处理后，通过词嵌入算法进行语义建模；所述词嵌入算法包括以下任何一种：word2vec，GloVe，FastText。

4.根据权利要求3所述的方法，其特征在于，所述语义特征处理包括以下步骤：a)特殊字符替换，包括并不限于：URL替换、提及替换、表情符号替换、日期替换、数字替换；b)转发文档转换：将转发转换为原文；c)文档去重；d)过滤掉低于指定单词数的文档。

5.根据权利要求2所述的方法，其特征在于，所述主题模型的训练包括以下步骤：a)通过网络爬虫、社交网站API接口获取大量社交文本作为原始语料；b)将原始语料进行主题特征处理后，通过主题建模算法进行主题建模；所述主题建模算法包括以下任何一种：PLSA，CTM，LDA及其他LDA变种模型。

6.根据权利要求5所述的方法，其特征在于，所述主题特征处理包括以下步骤：a)特殊字符替换，包括：URL替换、提及替换、表情符号替换、日期替换、数字替换；b)转发文档转换：将转发转换为原文；c)文档去重，包括消息ID去重和完全匹配去重；d)停用词过滤，通过自定义停用词表进行过滤；e)高频词过滤：过滤掉前n个高频词，n为任意正整数；f)低频词过滤：过滤掉词频少于n次的词，n为任意整数；g)最少有效词文档过滤：过滤词数少于n的词的文档，n为任意整数。

7.根据权利要求2所述的方法，其特征在于，所述预先定义的规则包括：文本是否存在URL；文本是否存在标签；文本是否存在表情；文本是否存在提及；文本作者是否拥有超过指定数量的粉丝；文本是否被大量转发。

8.根据权利要求1所述的方法，其特征在于，文本满足以下特征之一将被定义为不具有舆情价值：私人性质对话；文本不包含任何公众关心内容，所述公众关心内容包括事件、新闻、实体。

9.根据权利要求1所述的方法，其特征在于，所述舆情价值判别模型的训练包括以下步骤：通过网络收集正例语料；再随机抽样部分主题模型训练语料作为无标记语料；对正例语料和无标记语料进行主题特征处理；将处理后的语料通过所训练的主题模型和所述预先定义的规则进行特征提取；将所得特征通过正例和无标记样本学习算法训练舆情价值判别模型。

10.根据权利要求1所述的方法，其特征在于，所述情感特征模型包括：基于情感词典的情感特征模型、多元词情感特征模型、语义情感特征模型；所述基于情感词典的情感特征模型的训练包括以下步骤：建立情感表情词典、情感词典、情感短语词典、特殊符号词典；根据建立的各词典，对训练语料进特征提取，得到特征向量；用特征向量和标签，通过SVM算法，训练得到基于情感词典的情感特征模型；

所述多元词情感特征模型的训练包括以下步骤：建立二元、三元词表；根据词表提取训练集特征向量；使用训练集特征向量和相应标签，通过NB算法，训练多元词情感特征模型；

所述语义情感特征模型的训练包括以下步骤：利用词嵌入模型，提取训练语料的语义向量；使用语义向量和相应标签作，通过softmax回归算法，训练语义情感特征模型。

11.根据权利要求1所述的方法，其特征在于，所述情感极性判别模型的训练包括以下步骤：将训练集分别提取相应特征后输入基于情感词典的情感特征模型、多元词情感特征模型、语义情感特征模型中，得到三个模型的情感特征分布，组合成特征向量；使用特征向量和相应标签作，通过softmax回归算法，训练情感极性判别模型；所述情感极性包含：正面情感、负面情感、中性情感。

12.一种网络舆情的情感极性分析装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，还包括：

舆情价值判别模型训练单元，负责训练舆情价值判别模型；

情感特征模型训练单元，负责训练情感特征模型；

情感极性判别模型训练单元，负责训练情感极性判别模型。