CN109359296A

CN109359296A - 舆情情感识别方法、装置及计算机可读存储介质

Info

Publication number: CN109359296A
Application number: CN201811096799.3A
Authority: CN
Inventors: 郑少杰; 蔡远航; 付勇; 林文聪; 范增虎
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-02-19
Anticipated expiration: 2038-09-18
Also published as: CN109359296B

Abstract

本发明公开了一种舆情情感识别方法，包括：采用主题模型算法对同一领域的多个舆情文档进行主题聚类，得到多个主题簇，每一主题簇包括一个或多个文档；对相应主题簇进行正负情感标注，得到带有正负情感标签的文档；将带有正负情感标签的文档作为训练样本，进行情感识别模型训练；基于所述情感识别模型，对待识别的目标舆情文档进行情感识别。本发明还公开了一种舆情情感识别装置及计算机可读存储介质。本发明提升了情感语料的标注效率，降低了舆情情感识别的操作难度。

Description

舆情情感识别方法、装置及计算机可读存储介质

技术领域

本发明涉及情感识别技术领域，尤其涉及一种舆情情感识别方法、装置及计算机可读存储介质。

背景技术

传统的情感分析，通常需要全人工标注大量的正负面情感语料，然后通过情感语料进行训练，以抽取正负面语料中的情感词，最后再基于情感词的分布对一段文本进行情感识别，确认文档的情感偏向，比如该文本属于正向情感(积极的)或者属于负向情感(消极的)。

通常文本舆情的情感对不同行业领域来说，其定义是不一样的，因此，同样的情感语料很难完美的迁移到所有行业领域，因而往往需要针对相应的行业领域生成大量的情感语料，而每一条情感语料的生成都必须经过人工标注，因而需要大量的人力并且还需要相应的专业背景知识，进而影响了情感语料的标注效率，加大了舆情情感识别的操作难度。

发明内容

本发明的主要目的在于提供一种舆情情感识别方法、装置及计算机可读存储介质，旨在解决如何提升情感语料的标注效率，降低舆情情感识别的操作难度的技术问题。

为实现上述目的，本发明提供一种舆情情感识别方法，所述舆情情感识别方法包括：

采用主题模型算法对同一领域的多个舆情文档进行主题聚类，得到多个主题簇，每一主题簇包括一个或多个文档；

对相应主题簇进行正负情感标注，得到带有正负情感标签的文档；

将带有正负情感标签的文档作为训练样本，进行情感识别模型训练；

基于所述情感识别模型，对待识别的目标舆情文档进行情感识别。

可选地，所述对相应主题簇进行正负情感标注包括：

基于预置的情感词典，从所有主题簇中筛选出具有情感倾向的主题簇并进行正负情感标注。

可选地，所述对相应主题簇进行正负情感标注包括：

获取用户指定的主题簇以及主题簇对应的正负情感；

对用户指定的主题簇进行正负情感标注。

可选地，在所述对相应主题簇进行正负情感标注，得到带有正负情感标签的文档的步骤之后还包括：

判断本轮主题聚类进行正负情感标注的主题簇数量以及正负向情感之间主题簇数量比例是否满足形成训练样本的条件；

若是，则停止进行下一轮主题聚类；

若否，则增大进行主题聚类所输出的主题簇数量并继续采用主题模型算法对所述舆情文档进行下一轮主题聚类。

可选地，所述基于所述情感识别模型，对待识别的目标舆情文档进行情感识别包括：

提取待识别的目标舆情文档中的关键句作为文本摘要；

基于所述情感识别模型，对所述文本摘要进行情感识别。

可选地，所述提取待识别的目标舆情文档中的关键句作为文本摘要包括：

对所述目标舆情文档进行分句，得到构成所述目标舆情文档的所有句子；

计算所述目标舆情文档的标题与每一个句子的相似度；

基于所述相似度，对每一个句子进行排序；

通过最大边界相关算法，从排序后的所有或指定数量的句子中选出指定数量的句子；

将选出的句子作为所述目标舆情文档中的关键句，以形成文本摘要。

可选地，所述基于所述情感识别模型，对所述文本摘要进行情感识别包括：

对所述文本摘要进行切词，得到多个单词；

基于切词得到的单词，构建所述文本摘要中各单词对应的词向量；

将所述词向量合并为句向量，并将所述句向量输入所述情感识别模型，以对所述文本摘要进行情感识别。

进一步地，为实现上述目的，本发明还提供一种舆情情感识别装置，所述舆情情感识别装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的舆情情感识别程序，所述舆情情感识别程序被所述处理器执行时实现如上述任一项所述的舆情情感识别方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有舆情情感识别程序，所述舆情情感识别程序被处理器执行时实现如上述任一项所述的舆情情感识别方法的步骤。

本发明采用主题模型算法对同一领域的多个舆情文档进行主题聚类，进而将舆情文档中的所有文档分别聚类到多个主题簇下，每一主题簇包括一个或多个文档，因此对主题簇进行正负情感标注也即相当于对主题簇下的所有文档进行正负情感标注，此外，本发明还进一步以带有正负情感标签的文档作为训练样本进行训练，获得情感识别模型并进行情感识别，因而提升了情感语料的标注效率，进而降低了舆情情感识别的操作难度。

附图说明

图1为本发明舆情情感识别装置实施例方案涉及的设备硬件运行环境的结构示意图；

图2为本发明舆情情感识别方法第一实施例的流程示意图；

图3为本发明舆情情感识别方法第二实施例的流程示意图；

图4为图2中步骤S40的细化流程示意图；

图5为图4中步骤S401的细化流程示意图；

图6为图4中步骤S402的细化流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种舆情情感识别装置。

参照图1，图1为本发明舆情情感识别装置实施例方案涉及的设备硬件运行环境的结构示意图。

如图1所示，舆情情感识别装置可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。需要说明的是，处理器1001采用嵌入式芯片方式安装在舆情情感识别装置内。

本领域技术人员可以理解，图1中示出的舆情情感识别装置的硬件结构并不构成对舆情情感识别装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及舆情情感识别程序。其中，操作系统是管理和控制舆情情感识别装置与软件资源的程序，支持网络通信模块、用户接口模块、舆情情感识别程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的舆情情感识别装置硬件结构中，网络接口1004主要用于连接系统后台，与系统后台进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；舆情情感识别装置通过处理器1001调用存储器1005中存储的舆情情感识别程序，并执行以下操作：

进一步地，舆情情感识别装置通过处理器1001调用存储器1005中存储的舆情情感识别程序，还执行以下操作：

获取用户指定的主题簇以及主题簇对应的正负情感；

对用户指定的主题簇进行正负情感标注。

若是，则停止进行下一轮主题聚类；

提取待识别的目标舆情文档中的关键句作为文本摘要；

基于所述情感识别模型，对所述文本摘要进行情感识别。

计算所述目标舆情文档的标题与每一个句子的相似度；

基于所述相似度，对每一个句子进行排序；

对所述文本摘要进行切词，得到多个单词；

基于上述实施例中舆情情感识别装置的设备硬件运行环境，提出本发明舆情情感识别方法的以下各实施例。

参照图2，图2为本发明舆情情感识别方法第一实施例的流程示意图。本实施例中，所述舆情情感识别方法包括：

步骤S10，采用主题模型算法对同一领域的多个舆情文档进行主题聚类，得到多个主题簇，每一主题簇包括一个或多个文档；

主题模型算法是对文档中隐含主题的一种建模方法，一篇文档的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到的。

本实施例优选采用LDA(Latent Dirichlet allocation，隐含狄利克雷分布)主题模型算法对舆情文档进行主题聚类。一篇文档中包含有一个或多个单词，需要说明的是，本发明中所述的单词具体是指单个的词，可以是外文单词，也可以是中文单词。

主题模型算法会预先对输入的舆情文档进行切词、去停用词等预处理，从而将舆情文档切分为多个单词，然后通过算法运算后输出指定数量的主题簇，每一主题簇包括一个或多个文档，同时还会输出每篇文档的主题概率分布、每个主题下的文档概率分布等数据。

步骤S20，对相应主题簇进行正负情感标注，得到带有正负情感标签的文档；

情感通常可以划分为正向情感(比如表现积极快乐的词)、负向情感(比如表现消极悲观的词)以及中性情感(比如数字、名称等无感情色彩的词)。通过主题聚类所得到的多个主题簇中，某些主题簇具有正向情感倾向，某些主题簇具有负向情感倾向，其他主题簇没有情感倾向。

本实施例中优选仅对具有正负向情感倾向的主题簇进行情感标注，通过对主题簇进行标注，进而可实现对该主题簇下所有文档的情感标注，也即可以得到带有正负情感标签的文档。

本实施例对于对主题簇进行正负情感标注的实现方式不限。

(1)机器自动标注

本实现方式下，无需用户参与标注，舆情情感识别装置可自动完成对主题簇进行正负情感标注。

可选的，所述对相应主题簇进行正负情感标注包括：基于预置的情感词典，从所有主题簇中筛选出具有情感倾向的主题簇并进行正负情感标注。

本可选实施例需要预先提供标注有正负情感标签的大量单词所构成的情感词典，然后将各主题簇中文档单词与情感词典中单词一一进行比对，从而筛选出具有情感倾向的主题簇并进行正负情感标注。如果某一主题簇中文档单词较多，则可只将单词概率排名前N(比如排名前5)的单词与情感词典中单词一一进行比对即可，从而提升情感标注的效率。

(2)用户参与标注

本实现方式下，需要用户参与标注，舆情情感识别装置基于用户提交的数据进行正负情感标注。

可选的，所述对相应主题簇进行正负情感标注包括：获取用户指定的主题簇以及主题簇对应的正负情感；对用户指定的主题簇进行正负情感标注。

本可选实施例中，先由用户人为指定具有情感倾向的主题簇，以及指定这些主题簇的正负情感，然后用户再提交给舆情情感识别装置；舆情情感识别装置则获得待标注的主题簇及其正负情感，进而对用户指定的主题簇进行正负情感标注。

上述两种情感标注方式中，机器自动标注虽然比用户参与标注操作简单、标注效率高，但是标注效果较差，进而会影响到情感识别的准确性。因此，本实施例优选采用人工参与的半自动标注方式对主题簇进行正负情感标注。由于是先对舆情文档进行了主题聚类，因而可大幅降低人工标注的工作量。

例如，某一舆情文档对应有10000个文档，如果采用传统的全人工标注方式，则需要对这10000个文档一一进行标注；而如果采用半自动标注方式，则先对这10000个文档进行主题簇聚类，得到10个主题簇，然后再对这10个主题簇进行标注，则可将标注工作量从100次下降到10次，从而大幅降低了人工标注的工作量，同时也保证了后续正负情感识别的准确性。

步骤S30，将带有正负情感标签的文档作为训练样本，进行情感识别模型训练；

本实施例中，为进行情感识别，需要预先训练出相应的情感识别模型。具体以带有正负情感标签的文档作为训练样本，并采用预设的机器学习算法，进行情感识别模型训练，进而得到相应的情感识别模型。

本实施例对于情感识别模型训练所采用的机器学习算法不限，例如决策树、神经网络、逻辑回归等算法。

步骤S40，基于所述情感识别模型，对待识别的目标舆情文档进行情感识别。

本实施例中，在通过训练获得情感识别模型后，只需将待识别的目标舆情文档输入该情感识别模型，即可输出该目标舆情文档对应的情感，比如为正向情感或者负向情感。

本实施例中，采用主题模型算法对同一领域的多个舆情文档进行主题聚类，进而将舆情文档中的所有文档分别聚类到多个主题簇下，每一主题簇包括一个或多个文档，因此对主题簇进行正负情感标注也即相当于对主题簇下的所有文档进行正负情感标注，此外，本发明还进一步以带有正负情感标签的文档作为训练样本进行训练，获得情感识别模型并进行情感识别，因而提升了情感语料的标注效率，进而降低了舆情情感识别的操作难度。

参照图3，图3为本发明舆情情感识别方法第二实施例的流程示意图。基于上述第一实施例，本实施例中，在上述步骤S20之后还包括：

步骤S50，判断本轮主题聚类进行正负情感标注的主题簇数量以及正负向情感之间主题簇数量比例是否满足形成训练样本的条件；

通常，情感识别模型的情感识别率高低主要与训练样本相关，训练样本越丰富、情感标注越准确，则训练出来的情感识别模型的情感识别率也就越高。因此，本实施例中优选通过多轮主题聚类，从而获得更优的训练样本。

本实施例中优选将进行正负情感标注的主题簇数量以及正负向情感之间主题簇数量比例作为获得更优训练样本的筛选条件。其中，在进行主题聚类的舆情文档不变的前提下，若聚类得到的主题簇数量越多，则训练样本越丰富，同时情感划分地越细，进而情感标注地更为准确。

需要说明的是，情感划分并不是越细越好。例如，一篇舆情文档有10000个文档，可以划分为5个、10个、20个主题簇，若按5个主题簇进行标注，平均每个主题簇有20个文档，则标注的情感划分方式太泛，无法进一步区分；而若按20个主题簇进行标注，平均每个主题簇有5个文档，则标注的情感划分方式太细，难以进行标注；而若按10个主题簇进行标注，平均每个主题簇有10个文档，则标注的情感划分方式相对比较合适。

本实施例对于形成训练样本的条件的具体设置不限，具体根据实际经验进行设置。例如，保证每个主题簇中的文档数量在指定数量范围内，比如10-20个文档；保证正向情感主题簇与负向情感主题簇之间数量比例相对均衡，比如相差10％以内。

步骤S60，若是，则停止进行下一轮主题聚类；若否，则增大进行主题聚类所输出的主题簇数量并继续采用主题模型算法对所述舆情文档进行下一轮主题聚类。

本实施例优选首轮主题聚类采用较小的聚类数进行主题聚类，如果首轮主题聚类进行正负情感标注的主题簇数量以及正负向情感之间主题簇数量比例未满足形成训练样本的条件，则进行下一轮主题聚类并增大聚类数，以便获得更优的训练样本。

本实施例中，通过修改聚类数的方式进行多轮主题聚类，进而获得更丰富且情感标注更准确的训练样本，从而提升情感识别模型的情感识别准确率。

参照图4，图4为图2中步骤S40的细化流程示意图。基于上述第一实施例，本实施例中，上述步骤S40进一步包括：

步骤S401，提取待识别的目标舆情文档中的关键句作为文本摘要；

步骤S402，基于所述情感识别模型，对所述文本摘要进行情感识别。

通常，传统的舆情情感识别都是将舆情文档的标题输入情感识别模型进行情感识别，但仅用标题替代舆情文档本的话，有时存在信息不足的问题，而如果是直接以舆情文档正文进行情感识别的话，则整个舆情文档中存在各种叙述方式，情感识别模型难以抓住焦点，进而影响情感识别准确率。

因此，本实施中优选以目标舆情文档中的关键句作为文本摘要，进而通过文本摘要替代舆情文档进行情感识别。其中，关键句是指能代表舆情文档中情感的句子。

本实施例基于传统舆情情感识别中，以标题或正文为输入进行情感识别而存在识别准确率不高的问题，因此，选择以舆情文档中的关键句作为文本摘要，进而通过文本摘要替代舆情文档进行情感识别，保证了情感识别所需的信息量，同时抓住了舆情文档的焦点，从而可提升情感识别准确率。

参照图5，图5为图4中步骤S401的细化流程示意图。本实施例中，具体通过以下处理流程提取目标舆情文档中的关键句：

步骤S4011，对所述目标舆情文档进行分句，得到构成所述目标舆情文档的所有句子；

本实施例中，在提取目标舆情文档中的关键句之前，需要先对目标舆情文档进行分句，从而获得构成该目标舆情文档的所有句子。

本实施例中优选以句号、分号、感叹号等作为文档中句子的分隔符，通过识别上述分隔符，从而实现舆情文档分句操作。

步骤S4012，计算所述目标舆情文档的标题与每一个句子的相似度；

本实施例优选目标舆情文档带有标题。通常标题是对整篇文档的概述，因而是最能够代表整篇文档内容的，因此，与标题相似度高的句子可以看成是舆情文档中的关键句。

本实施例对于舆情文档中标题与句子之间相似度的计算方式不限。例如采用BM25算法(Best Match25)或余弦相似度算法，求得舆情文档中标题与句子之间相似度。

步骤S4013，基于所述相似度，对每一个句子进行排序；

步骤S4014，通过最大边界相关算法，从排序后的所有或指定数量的句子中选出指定数量的句子；

步骤S4015，将选出的句子作为所述目标舆情文档中的关键句，以形成文本摘要。

本实施例中，通过计算目标舆情文档的标题与每一个句子的相似度，从而获得目标舆情文档中的多个关键句，但考虑到各关键句之间也可能存在相似性，进而导致关键句信息重合而影响作为文本摘要的总信息量。

因此，本实施例中进一步通过最大边界相关算法(Maximal Marginal Relevance，MMR)，剔除排序后的所有句子中存在信息重合的句子，并选出指定数量的句子作为关键句，此时选出的关键句既与标题相关，同时各关键句之间重合信息最少，进而合并后所形成的文本摘要能够保留更多的信息。

参照图6，图6为图4中步骤S402的细化流程示意图。本实施例中，具体通过以下处理流程对文本摘要进行情感识别：

步骤S4021，对所述文本摘要进行切词，得到多个单词；

本实施例中，基于情感识别模型的识别格式要求，需要预先通过切词操作将文本摘要转换为单词。本实施例对于切词的具体处理方式不限。

步骤S4022，基于切词得到的单词，构建所述文本摘要中各单词对应的词向量；

步骤S4023，将所述词向量合并为句向量，并将所述句向量输入所述情感识别模型，以对所述文本摘要进行情感识别。

本实施例中，考虑到文本摘要进行切词后，大幅降低了各单词之间的关联性，为继续保留各单词之间的关联性，从而提升情感识别准确率，因此，本实施例中构建文本摘要中各单词对应的词向量，从而保留各字词(也即切词所形成的单词)之间的关联性。其中，词向量具体用于将自然语言中的字词转为计算机可以理解的稠密向量。

本实施例中，在将词向量输入情感识别模型之前，需要先将各词向量合并为句向量，该句向量对应切词前文本摘要中的句子，然后再将各句向量输入情感识别模型进行情感识别，从而实现对文本摘要进行情感识别。

本实例中，通过构建各单词对应的词向量，从而能够继续保留切词之前各单词之间的关联信息，提升情感识别的准确率。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有舆情情感识别程序，所述舆情情感识别程序被处理器执行时实现如上述任一项实施例中所述的舆情情感识别方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种舆情情感识别方法，其特征在于，所述舆情情感识别方法包括：

2.如权利要求1所述的舆情情感识别方法，其特征在于，所述对相应主题簇进行正负情感标注包括：

3.如权利要求1所述的舆情情感识别方法，其特征在于，所述对相应主题簇进行正负情感标注包括：

获取用户指定的主题簇以及主题簇对应的正负情感；

对用户指定的主题簇进行正负情感标注。

4.如权利要求1-3中任一项所述的舆情情感识别方法，其特征在于，在所述对相应主题簇进行正负情感标注，得到带有正负情感标签的文档的步骤之后还包括：

若是，则停止进行下一轮主题聚类；

5.如权利要求1所述的舆情情感识别方法，其特征在于，所述基于所述情感识别模型，对待识别的目标舆情文档进行情感识别包括：

提取待识别的目标舆情文档中的关键句作为文本摘要；

基于所述情感识别模型，对所述文本摘要进行情感识别。

6.如权利要求5所述的舆情情感识别方法，其特征在于，所述提取待识别的目标舆情文档中的关键句作为文本摘要包括：

计算所述目标舆情文档的标题与每一个句子的相似度；

基于所述相似度，对每一个句子进行排序；

7.如权利要求5或6所述的舆情情感识别方法，其特征在于，所述基于所述情感识别模型，对所述文本摘要进行情感识别包括：

对所述文本摘要进行切词，得到多个单词；

8.一种舆情情感识别装置，其特征在于，所述舆情情感识别装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的舆情情感识别程序，所述舆情情感识别程序被所述处理器执行时实现如权利要求1-7中任一项所述的舆情情感识别方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有舆情情感识别程序，所述舆情情感识别程序被处理器执行时实现如权利要求1-7中任一项所述的舆情情感识别方法的步骤。