CN111831824B

CN111831824B - 一种舆情正负面分类方法

Info

Publication number: CN111831824B
Application number: CN202010687019.3A
Authority: CN
Inventors: 李振; 刘恒; 杜昭慧; 冯一; 徐元义; 魏华; 丁晓强
Original assignee: Minsheng Science And Technology Co ltd
Current assignee: Minsheng Science And Technology Co ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2024-02-09
Anticipated expiration: 2040-07-16
Also published as: CN111831824A

Abstract

本发明涉及一种舆情正负面分类方法，属于信息安全技术领域。该方法包括：目标领域舆情数据采集及预处理，所述舆情数据包括多篇舆情文章；基于BosonNLP情感词典构建目标领域情感词典；通过目标领域情感词典获得舆情文章情感倾向性得分，据此判定正负面舆情文章；利用判定为负面舆情文章的舆情数据构建纠正错分模型；利用纠正错分模型对舆情数据进行正负面分类。

Description

一种舆情正负面分类方法

技术领域

本发明涉及信息安全技术领域，具体涉及一种舆情正负面分类方法。

背景技术

舆情是“舆论情况”的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。

随着互联网的快速发展，网络媒体作为一种新的信息传播形式。网友言论活跃已达到前所未有的程度，不论是国内还是国际重大事件，都能马上形成网上舆论，通过这种网络来表达观点、传播思想，进而产生巨大的舆论压力，达到任何部门、机构都无法忽视的地步。

舆情分析属于文本分类的一种。目前舆情分析主要是通过获取网络上的新闻、社交媒体评论等语料，对其进行正负面分类。一般有两种方式：基于情感词典的舆情分类，基于机器学习的舆情分类。

基于情感词典的舆情分类主要是通过把待分类的语料进行分词，去除停用词后，与情感词典中的正负面词语、否定词语进行比对汇总后，根据最后得分判定正负面。目前公开的情感词典有知网Hownet、清华大学——李军中文褒贬义词典、中国台湾大学情感词典、玻森自然语言处理(BosonNLP)情感词典等。

基于机器学习的舆情分类主要是根据大量已经标记好正负面的语料，提取特征向量，进行训练，获得舆情分类模型。然后根据此模型对需要分析的语料进行预测，最终得到舆情的正负面信息。

舆情语料多为中性、正面信息，负面舆情极少，数据存在严重的偏分布情况。通过对某金融公司半年内的舆情分析，发现中性舆情占比36.5％、正面舆情占比62.7％，而负面舆情只占比0.8％。由于数据的分布不均衡在分类过程中容易出现错分情况，而负面舆情往往是企业比较关注的，需要进行预警，所以区分出准确的负面舆情就更为重要。基于情感词典的方法比较简单，但对词典的要求比较高，模型的泛化能力较弱。对于词典中未覆盖到的文本信息不能准确识别，容易发生错分、漏分的情况，分类效果非常依赖语法规则与所用的情感词典。因而构建针对金融领域的情感词典，就可以更准确的区分舆论情况。运用机器学习对舆情分类需要大量人工标注好的正负面语料，很难收集到匹配的语料库，这样就需要耗费大量人工去打标签。且情感词汇前的否定词要仔细提取，注意双重否定的情况。另外，汉语言的复杂性、语境问题也使得分类结果会产生较大偏差。

发明内容

针对现有技术的不足，为了更准确的判定针对金融方向的舆论情况，本文提出了一种舆情正负面分类方法。通过构建针对目标领域的情感词典、添加双重否定词语提炼方式、结合情感词典与机器学习训练两种方式进行舆情分析，尤其注重对负面舆情的分类，进一步提升了舆情分类的准确度。

根据本发明的第一方面，涉及一种舆情正负面分类方法，所述方法包括：

步骤1：目标领域舆情数据采集及预处理，所述舆情数据包括多篇舆情文章；

步骤2：构建目标领域情感词典；

步骤3：通过目标领域情感词典获得舆情文章情感倾向性得分，据此判定正负面舆情文章；

步骤4：利用判定为负面舆情文章的舆情数据构建纠正错分模型；

步骤5：利用纠正错分模型对舆情数据进行正负面分类。

进一步的，所述步骤1具体包括：

步骤11：爬取目标领域舆情数据；

步骤12：去除标题和URL相同的舆情数据；

步骤13：去除内容相似度高的舆情数据。

进一步的，所述目标领域为金融领域。

进一步的，所述步骤12中，通过对目标领域舆情数据的标题、URL进行md5压缩编码，去除相同的舆情数据。

进一步的，步骤13中，通过计算舆情数据内容的SIM哈希(simhash)值，并计算彼此的编辑距离，去除内容相似度高的舆情数据。

进一步的，所述步骤2具体包括：

步骤21：下载公开的玻森自然语言处理(BosonNLP)情感词典，统计词典中的情感词汇数，计算情感词汇正负面权重的最大最小值、均值；

步骤22：针对目标领域舆情数据进行分词，去除停用词，去重后获得目标领域舆情数据词库；

步骤23：统计目标领域舆情数据词库中未在BosonNLP情感词典中出现的情感词汇，标记为预添加情感词汇库；

步骤24：标记预添加情感词汇库中情感词汇的正负面，包括：中性词、一级积极词汇、二级积极词汇、一级消极词汇、二级消极词汇；

步骤25：将一级积极词汇、二级积极词汇、一级消极词汇、二级消极词汇加入至BosonNLP情感词典，一级词汇赋二倍权重平均值，二级词汇赋权重平均值，由此构建目标领域情感词典。

进一步的，所述步骤3具体包括：

步骤31：针对目标领域舆情数据的舆情文章进行分词，去除停用词，获取文章情感词汇列表；

步骤32：遍历文章情感词汇列表，依据出现的情感词汇从目标领域情感词典中取出对应的情感强度，记为得分值，文章词汇列表中每一个情感词汇得分值累加后得到文章情感倾向性得分；

步骤33：根据文章情感倾向性得分的正负性来判定舆情文章正负类，得分为正则为正面舆情，反之为负面舆情；

步骤34：标记分为负面舆情的舆情数据的真负、假负。

进一步的，步骤32中，如果情感词汇前出现程度词，则分值在原有基础上乘以程度词强度值；如果情感词汇前出现否定词，则分值在原有基础上取反，若前面仍为否定词，否定词作用累加。

进一步的，步骤32中，文章情感倾向性得分计算公式如下：

其中，S_a为文章情感倾向性得分，k为情感词汇前否定词的个数，S_lj为第j个程度副词的权重，S_si为第i个情感词汇的正负面得分。

进一步的，所述步骤4具体包括：

步骤41：把所有判定为负面舆情的舆情数据作为数据集；

步骤42：针对目标领域舆情数据的舆情文章进行分词，去除停用词，获取文章情感词汇列表；

步骤43：利用文本转词向量(Word2Vec)训练得到文本转词向量模型(word2vec.model)；

步骤44：把文章情感词汇列表通过所述文本转词向量模型转成20-500维的词向量，即特征向量；

步骤45：利用极端梯度提升(xgboost)方法进行训练，得到纠正错分模型；

步骤46：通过纠正错分模型，利用测试集进行测试。

进一步的，所述数据集中，70％为训练集，20％为验证集，10％为测试集。

根据本发明的第二方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现根据以上任一方面所述方法的步骤。

根据本发明的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现根据任一方面所述方法的步骤。

本发明的有益效果：

(1)通过构建针对目标领域的情感词典，提升了词典的文本信息覆盖率，能够更准确的识别，减少发生错分、漏分的情况，提高分类效果，使得舆情分类准备率得到了提升。

(2)通过添加双重否定词语提炼方式，减少了只识别到单一否定情况下造成的词语正负面的判断失误问题，使得整篇文章的舆情判断更加精准，提升了分类效果。

(3)通过结合情感词典与机器学习训练两种方式进行舆情分析，尤其注重对负面舆情的分类，减少了数据分布不均衡的情况下分类过程中易出现错分的情况，提升了企业比较关注的负面舆情的识别准确性。真负率得到提升，无需再进行预警前的人工纠错，节省了人力成本。

附图说明

图1示出根据本发明实施例的整体系统结构图；

图2示出根据本发明实施例构建金融情感词典流程图；

图3示出根据本发明实施例通过情感词典对新闻进行舆情分类流程图；

图4示出根据本发明实施例通过机器学习纠正错分流程图流程图；

图5示出根据本发明实施例爬取的金融新闻数据示意图；

图6示出根据本发明实施例的BosonNLP_sentiment_score词典；

图7示出根据本发明实施例的补充金融情感词典；

图8示出根据本发明实施例的否定词词典；

图9示出根据本发明实施例的程度词词典。

具体实施方式

本发明开发了一种针对金融新闻进行舆情分析的方法。通过从简单到复杂设计模型的方式，保证模型的多样化。根据金融新闻构造情感词典，再利用机器学习对分类结果进行纠正，进一步提升检测的准确率，下面将参照附图更详细地描述本公开的示例性实施例。

为了实现上述发明目的，本发明采用的技术方案如下：

本方案主要有5个模块(如下)：数据采集及预处理、构建情感词典、利用情感词典进行舆情分类、通过机器学习纠正错分、实际使用流程。

步骤一：数据采集及预处理。从各种主流财经新闻平台爬取金融方向新闻，对标题、URL、内容进行去重处理。

101从主流财经新闻平台爬取金融方向新闻。

102对对标题、URL进行md5压缩编码，去除相同的新闻。

103计算内容的simhash值，并计算彼此的编辑距离，去除重复的相似度高的新闻。

步骤二：构建金融情感词典。利用公开的BosonNLP情感词典，并加入通过自己从财经新闻语料中获得关键词，构建新的情感词典。

201下载公开的BosonNLP情感词典，统计词典中的词汇数，计算词汇正负面权重的最大最小值、均值。

202对爬取的财经新闻通过jieba进行分词，去除停用词，去重后获得新闻词库。

203统计获取刚生成的新闻词库中未在BosonNLP情感词典中出现的词汇，标记为预添加词汇库。

204人工标记预添加词汇库中词语的正负面，中性词、一级积极词汇、二级积极词汇、一级消极词汇、二级消极词汇。

205把预添加词汇库中的积极/消极词汇加入至原有的BosonNLP情感词典，一级词汇赋二倍权重平均值，二级词汇赋权重平均值。构建新的金融情感词典。

步骤三：通过情感词典对新闻进行舆情分类。加入金融行业词汇，以增加分类中的命中率。不同行业某些词语的词频会有比较大的差别，而这些词有可能是情感分类的关键词之一。根据构建的金融情感词典，及下载的否定词词典、程度副词词典，计算文章情感分值，判定文章舆情正负面。其中，否定词和程度副词会有特殊的判别规则，否定词会导致权值反号，而程度副词则让权值加倍。

301对文章进行jieba分词，并去除停用词，获取文章词汇列表。

302遍历文章词汇列表，依据出现的词汇从情感词典中取出情感强度，记为得分值；如果情感词前出现程度词，则分值在原有基础上乘以程度词强度值；如果情感词前出现否定词，则分值在原有基础上取反，若前面仍为否定词，否定词作用可累加；词汇组中每一个词汇得分值累加后得到文章情感倾向性得分。文章情感倾向性得分计算公式如下：

在BosonNLP情感词典中，包括情感词及其对应的情感分值(情感强度)，以空格分隔。其中负数代表偏负面的词语，非负数代表偏正面的词语，正负的程度可以由数值的大小反应出。如：“最尼玛-6.70400012637”，是负面，强度为6.7。

同时，程度词词典中标记了程度词强度值，如：“百分之百，2”，即程度值为2。

303根据文章情感倾向性得分的正负性来判断文章舆情正负类，得分为正则为正面舆情，反之为负面舆情。

304人工标记分为负面舆情语料的真负、假负。计算真负率：

步骤四：通过机器学习纠正错分。

401把所有判定为负面舆情的新闻作为数据集，其中70％为训练集，20％为验证集，10％为测试集。

402对语料进行jieba分词，并去除停用词，获取文章词汇列表。

403通过把爬取的大量财经新闻分词去停用词后，利用Word2Vec训练得到文本转词向量模型word2vec.model。

404把文章词汇列表通过模型word2vec.model转成300维的词向量，即特征向量。

405利用xgboost进行训练，得到纠正正负面舆情错分的模型。

406通过纠正舆情错分的模型，利用测试集进行测试，即可提升真负率。

步骤五：实际使用模块

501对语料进行分词，去停用词。

502通过构建的情感词典模型判定舆情正负面。

503对初筛的负面新闻，通过xgboost构造的纠正舆情错分的模型近一步预测，最终得到舆情的正负面。

实施例

本发明的整体结构图如图1所示。

本发明公开的一种针对金融领域的舆情分析方法包括以下步骤：

首先从各大金融网站上爬取大量的财经新闻，并对数据进行清洗和预处理，包活一下处理方案：

对标题、URL进行md5压缩编码，去除相同的新闻；

计算内容的simhash值，并计算彼此的编辑距离，去除重复的相似度高的新闻；

转化emoji文字为普通文字，如：转化为':thumbs_up:'；

将连续多个空格替换成逗号；

删除格式异常的特殊符号；

然后采用无监督情感分类方式，即利用爬取的金融新闻对现有的情感词典进行补充，构建更符合金融舆情分析的情感辞典，来对文本进行情感分析。构建金融情感词典流程图如图2所示。筛选出不在BosonNLP情感词典中存在的关键词，人工判断剩余词的正负面，把带有正负面词性的词语加入语料库。且在添加词语时，对情感词进行分级处理，赋予不同的权重。这样就可以既简洁又有针对性的合成情感词典。实施步骤如下：

对爬取的财经新闻通过jieba进行分词；

过滤掉停用词，如标点符号，特殊动词，特殊名词等，构成新的语料库；

筛选出未在BosonNLP情感词典中出现的词语，作为预情感词库；

人工识别词库中词语是否为情感词，分别用两个级别标记真负面词语。情感强烈的词为一级，轻度的情感词为二级；

把筛选出的情感词汇与BosonNLP情感词典中进行结合，组成新的金融领域的情感辞典。一级情感词情感值为二倍的BosonNLP情感词典正/负平均值，二级的情感词情感值为BosonNLP情感词典正/负平均值。

接下来利用情感词典进行舆情分类，即计算情感得分，流程图见图3。在计算时，建设性的考虑到双重否定问题，如：“不得不佩服”，实际为正，负负得正的情况。对情感词前出现的2个词语进行分析，确保分类的正确性。具体实施步骤如下：

获取分词并去除停用词后的语料库；

设置初始舆情分值为0；

从第一个词开始遍历词库；

根据情感词典，判断词语是否为情感词；

若不是情感词，就接着遍历判断下面的词。

若为情感词就需要判断前面一词是否是程度词，若是程度词，该词段的得分就是情感词分值*前一程度词权重。若前面一个词也是程度词，该词段的得分就是情感词分值*前一程度词权重*前二程度词权重；

若为情感词还需要判断前面一词是否是否定词，若是否定词，还需要判断是否为双重否定，即判断再前面的一个词是否也是否定词。若只有一个否定词，该词段的得分就是情感词分值*(-1)。若为双重否定，该词段的得分就是该情感词分值；

情感得分的总分就是每段情感得分的总和；

情感总得分为正，即认为是正面舆情，为负，即认为是负面舆情。

因为语料是财经新闻，文章很长，语句过多，相互交织。利用情感辞典进行分类后，还会存在一些错分情况。所有就需要对结果进一步分类，流程图见图4。对判定为负面的语料进行分析判定出真负、假负，以减少错分率。具体实施步骤如下：

人工标记分为负面舆情语料的真负、假负，其中70％作为训练集，20％为验证集，10％为测试集。

利用Word2Vec训练大量分词去停用词后财经新闻语料，获得文本转词向量模型word2vec.model，词向量设置为300维；

把数据集通过word2vec.model模型转成词向量，作为特征向量；

通过有监督学习，即利用xgboost训练带标签的数据特征，获得舆情纠错模型。

至此，本发明的一种针对金融领域的舆情分析模型就完成了。

实际使用模型进行舆情分类时的步骤如下：

对语料进行分词，去停用词；

通过构建的情感词典模型判定舆情正负面；

对初筛的负面新闻，通过xgboost构造的纠正舆情错分的模型近一步预测。最终得到舆情的正负面。

通过添加过自建针对金融领域的情感词典，在使用情感词典进行分类中添加双重否定词语提炼方式后，分类效果提升了8.2％。一些金融领域的情感词可以被提取出来了，通过双重否定把一些错分成负面新闻的语料，正确的分类出来。通过结合情感词典与机器学习训练两种方式进行舆情分析，真负率提升了15％，无需再进行预警前的人工纠错，节省了人力成本。

Claims

1.一种舆情正负面分类方法，其特征在于，所述方法包括：

步骤2：构建目标领域情感词典，

其中，所述步骤2具体包括：

步骤21：下载公开的玻森自然语言处理情感词典，统计词典中的情感词汇数，计算情感词汇正负面权重的最大最小值、均值；

步骤23：统计目标领域舆情数据词库中未在玻森自然语言处理情感词典中出现的情感词汇，标记为预添加情感词汇库；

步骤25：将一级积极词汇、二级积极词汇、一级消极词汇、二级消极词汇加入至玻森自然语言处理情感词典，一级词汇赋二倍权重平均值，二级词汇赋权重平均值，由此构建目标领域情感词典；

步骤3：通过目标领域情感词典获得舆情文章情感倾向性得分，据此判定正负面舆情文章，其中，所述步骤3具体包括：

步骤32：遍历文章情感词汇列表，依据出现的情感词汇从目标领域情感词典中取出对应的情感强度，记为得分值，文章词汇列表中每一个情感词汇得分值累加后得到文章情感倾向性得分，其中，如果情感词汇前出现程度词，则分值在原有基础上乘以程度词强度值；如果情感词汇前出现否定词，则分值在原有基础上取反，若前面仍为否定词，否定词作用累加；文章情感倾向性得分计算公式如下：

其中，S_a为文章情感倾向性得分，k为情感词汇前否定词的个数，S_lj为第j个程度副词的权重，S_si为第i个情感词汇的正负面得分；

步骤34：标记分为负面舆情的舆情数据的真负、假负；

步骤4：利用判定为负面舆情文章的舆情数据构建纠正错分模型，减少了数据分布不均衡的情况下分类过程中易出现错分的情况，真负率得到提升，其中，所述步骤4具体包括：

步骤41：把所有判定为负面舆情的舆情数据作为数据集；

步骤43：利用文本转词向量训练得到文本转词向量模型；

步骤45：利用极端梯度提升方法进行训练，得到纠正错分模型；

步骤46：通过纠正错分模型，利用测试集进行测试；

步骤5：利用纠正错分模型对舆情数据进行正负面分类。

2.根据权利要求1所述的舆情正负面分类方法，其特征在于，所述步骤1具体包括：

步骤11：爬取目标领域舆情数据；

步骤12：去除标题和URL相同的舆情数据；

步骤13：去除内容相似度高的舆情数据。

3.根据权利要求2所述的舆情正负面分类方法，其特征在于，所述步骤12中，通过对目标领域舆情数据的标题、URL进行md5压缩编码，去除相同的舆情数据；步骤13中，通过计算舆情数据内容的SIM哈希值，并计算彼此的编辑距离，去除内容相似度高的舆情数据。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现根据权利要求1-3中任一项所述的舆情正负面分类方法的步骤。

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现根据权利要求1-3中任一项所述的舆情正负面分类方法的步骤。