CN111046171A

CN111046171A - 一种基于细粒度标注数据的情感判别方法

Info

Publication number: CN111046171A
Application number: CN201910809268.2A
Authority: CN
Inventors: 高正杰; 冯翱; 宋馨宇
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2020-04-21
Anticipated expiration: 2039-08-29
Also published as: CN111046171B

Abstract

本发明涉及一种基于细粒度标注数据的情感判别方法，方法包括：采集财经新闻数据，将新闻数据划分为标注样例集和未标注样例集，通过标注样例集和未标注样例集对第一分类器和第二分类器进行训练，使第一分类器能够筛选出文章中的关键句，第二分类器判别文章的情感倾向，分别得到第一分类器的模型参数和第二分类器的模型参数，将分类结果中置信度高的数据加入到标注样例集中，并利用主动学习理论，从未标注样例集中选出最值得标注的数据C发给人工进行标注，以此循环训练情感判别模型，直到达到分类精度，训练结束，得到判别模型。

Description

一种基于细粒度标注数据的情感判别方法

技术领域

本发明涉及文本处理领域，尤其涉及一种基于细粒度标注数据的情感判别方法。

背景技术

在当前信息过载的时代，新闻生成的速度远超个人能够处理的速度，为保证用户对有效信息的获取，对原始新闻进行适当的特征提取和过滤已成为比较普遍且必需的做法。在对财经新闻用数学模型进行量化处理的时候，新闻的情感倾向(正面/负面/中性)是其中非常重要的属性之一。

对于新闻文本的情感分类有三种思路：基于情感词典的方法、基于机器学习的方法和基于深度学习的方法。

基于情感词典的方法主要是通过构建情感词典以及一系列的规则来判断文本的情感极性；从语言学角度出发，依靠一些已有的情感词典或领域词典以及一系列的规则构建情感分类器。但是对于大量不含明显情感词的新闻，不能进行正确的情感和重要性判别，且词典的维护需要耗费大量的人力物力。以财经新闻领域的财务报表类新闻为例，新闻中通常只出现若干数字，以及“相比去年上升”、“同比减少”等等字样，即使由人工加以判别，也只能根据该领域规则确定其情感倾向和重要性，不能简单地提取关键词特征加以判别。

基于机器学习的方法是通过从文本中筛选出一组具有统计意义的特征，然后利用机器学习的方法构建分类模型，常见的分类模型有朴素贝叶斯、最大熵和支持向量机等；本技术方案需要由领域专家从文本中筛选出一组具有统计意义的特征，然后使用机器学习算法构建分类器判断文本的情感极性。对于不同的数据集，在处理时需要专家选取不同的特征，投入的成本较大，且模型泛化能力差。

由人工基于预先设定的规则，对于部分新闻数据进行篇章级的人工标注，然后使用标注数据训练分类器。无论是传统的机器学习方法还是现在的深度学习方法在足够数量的情况下都可以学习到很好的特征，取得比较高的准确率。但是现有的方法在实际过程中都忽略了一个问题，即财经新闻中只有极少数句子对于情感分类是有效的，大多数句子均为无用信息或噪声信息。在保留大量无用信息和噪声的情况下，要想取得较高的分类准确率，就无疑使标注工作量显著增加。

如何有效提高财经新闻文本情感分类的准确率，以及如何减少人工标注的工作量，则成为了现目前亟待解决的问题。

发明内容

针对现有技术之不足，一种基于细粒度标注数据的情感判别方法，所述方法包括：

步骤1：采集财经领域新闻数据，所述财经领域新闻数据包括不同种类的财经新闻和不同类型的内容；

步骤2：将采集到的新闻数据P分为两部分，包括标注样例集P1和无标注样例集P2，P表示为：

P＝P1∪P2

步骤3：由标注人员按照预先制定好的标注规则，对所述标注样例集P1中的句子标注出情感关键句和非情感关键句，以及对应的文章情感标签T，所述情感关键句和非情感关键句分别构成情感关键句集S和非情感关键句集NS，所述标注样例集P1为训练第一分类器和第二分类器的训练集；

步骤4：利用所述情感关键句集S与非情感关键句集NS中的句子训练第一分类器，所述第一分类器的输入为所述情感关键句集S与非情感关键句集NS中的某个句子，输出为0或1，其中0代表非情感关键句，1代表情感关键句，利用交叉熵公式计算第一分类器的输出与真实值之间的损失函数值loss1，通过反向传播loss1的值更新第一分类器的权重参数，使所述第一分类器学会筛选所述财经领域新闻中的情感关键句子和非情感关键句子，当第一分类器的准确率达到设定的第一准确率阈值时结束训练，保存第一分类器的模型参数W_I；

步骤5：将所述情感关键句集S作为第二分类器的输入，训练第二分类器，利用交叉熵公式计算第二分类器的输出与所述文章情感标签T之间的损失函数值loss2,通过反向传播loss2的值更新第二分类器的权重参数，使所述第二分类器学会根据情感关键句判别文章的情感倾向，当第二分类器的准确率达到设定的第二准确率阈值时结束训练，保存第二分类器的模型参数W_II；

步骤6：利用步骤4训练得到的第一分类器对所述无标注样例集P2中的数据进行情感关键句子筛选；

步骤7：将步骤6得到的情感关键句子输入到步骤5训练得到的第二分类器，对文章情感倾向进行分类，分类结果中得到的置信度大于预设阈值的结果认为和人工标注数据的效果一致，直接作为训练数据加入到所述标注样例集P1中，对于置信度不高的数据则放回所述无标注样例集P2中；

步骤8：利用主动学习中的采样策略从所述无标注样例集P2中选取出最值得标注的句子C，分发给标注人员进行标注，将得到的最终标注结果加入训练集用于后续重新训练第一分类器和第二分类器，通过以下数学表达式选取出最值得标注的句子C：

C＝argmax P2(C|I，W_I，W_II)

argmax表示求使得该函数表达的值最大的时候的C的值，也就是表示从无标注样例集P2中选取出最值得标注的句子C，这些数据在经过人工标注加入训练集后，再次训练第一分类器和第二分类器时能提高这两个分类器的判别精度；

步骤9：不断迭代步骤4、步骤5、步骤6、步骤7和步骤8，当所述第一分类器和所述第二分类器的准确率达到设定的第三准确率阈值后训练结束，得到训练好的情感判别模型。

与现有技术相比，本发明的有益效果在于：

1、在分类效果上，相比于传统基于篇章粗粒度的标注数据进行分类器的训练而言，本技术方案通过两步信息筛选，实现对篇章数据进行句子级别的细化标注后再进行分类器的训练。过滤噪声后的训练数据使得分类器训练所取得的分类精度效果更好，并且所需要的分类数据量也更少。

2、在数据的标注过程中，利用少量由领域专家标注的数据启动模型的训练，在训练过程中，利用半监督的方式以及主动学习的方式不断扩充训练集，然后不断迭代训练模型，使得模型精度不断上升，这一过程所耗费的人力相比传统的数据标注方式所耗费的人力更少。

附图说明

图1是本发明技术方案的信息筛选策略示意图；和

图2是本发明情感判别方法的工作原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明中的细粒度标注数据是指：在传统方法中对篇章进行情感分类时，都是仅仅只标注整篇文章的情感极性标签，在训练情感分类模型时，均是将整篇文章作为模型的输入，文章的情感极性标签作为模型的输出，然后进行模型参数的训练和优化。在本发明技术方案中，不仅标注了整篇文章的情感极性，还标注了决定该文章情感倾向的情感关键语句。在训练情感分类模型时，将文章的情感关键句作为输入，文章的情感极性标签作为输出，从而进行神经网络模型参数的训练和优化。

图1为本发明技术方案的信息筛选策略示意图。图1中分类器I表示第一分类器，分类器II表示第二分类器。

一篇新闻中，以财经新闻为例，有一部分句子描述的是与文章主体相关的，另一部分是不相关的。而对于所要判定情感极性的主体而言，不相关的语句如果存在于训练集中就属于是噪声数据，对于分类器的训练存在着负面影响，所以首先要区分一篇新闻中与主体相关的句子和不相关的句子，这是信息筛选的第一步。在与主体相关的句子中，一部分句子属于是陈述主体的基本属性或其它无任何情感倾向的表达，对于判断主体的情感倾向没有任何帮助，因此在第二步中可以将一篇新闻中与主体相关的语句划分为情感关键句和非情感关键句两种，前者才属于是训练情感分类器和识别情感倾向的关键。根据这样的两步筛选信息的策略，由领域专家标注足够数量的标注数据，包括情感关键句和非情感关键句，以及所属新闻的情感极性，再分别训练第一分类器和第二分类器，使第一分类器其学会区分情感关键句和非情感关键句，使第二分类器学会利用得到的情感关键句预测文章的情感极性。

图2是本发明技术方案的工作原理图，下面结合附图2对本发明提出的情感判别方法进行详细描述，本发明的情感判别方法包括：

步骤1：采集一组未知分类标签的财经领域新闻数据，财经领域新闻数据包括不同种类的财经新闻和不同类型的内容。新闻内容尽可能多样化，覆盖更多不同类型的内容。同时，本发明的情感判别方法也可对其他新闻进行处理。

步骤2：将采集到的新闻数据P随机分为两部分，包括标注样例集P1和无标注样例集P2。

P＝P1∪P2

步骤3：由标注人员按照预先制定好的标注规则，对标注样例集P1中的句子标注出情感关键句和非情感关键句，以及对应的文章情感标签T，情感关键句和非情感关键句分别构成情感关键句集S和非情感关键句集NS。

文章情感标签T的取值包含但不限正面、负面、中性三种情感倾向。对标注样例集标注后得到标注数据集，标注数据集是训练后续第一分类器和第二分类器的基础。标注样例集P1为训练第一分类器和第二分类器的训练集

步骤4：利用情感关键句集S与非情感关键句集NS中的句子训练第一分类器，第一分类器的输入为情感关键句集S与非情感关键句集NS中的某个句子，输出为0或1，其中0代表非情感关键句，1代表情感关键句，利用交叉熵公式计算第一分类器的输出与真实值之间的损失函数值loss1，通过反向传播loss1的值更新第一分类器的权重参数，使第一分类器学会筛选财经领域新闻数据中的情感关键句子和非情感关键句子，当第一分类器的准确率达到设定的第一准确率阈值时结束训练，保存第一分类器的模型参数W_I。

此处的超参数包括：学习率、随机失活、训练轮数、最大序列长度和批处理数据量大小等参数。分类模型包括但不限于：卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)。优选的，本发明的第一准确率阈值设置为80％。

通过筛选采集的财经领域新闻数据中的情感关键句子和非关键句子，使得新闻数据P中的噪声信息可以得到有效排除，更有益于情感分类模型的建立。

步骤5：利用情感关键句集S作为第二分类器的输入，训练第二分类器，利用交叉熵公式计算第二分类器的输出与情感标签T之间的损失函数值loss2,通过反向传播loss2的值更新第二分类器的权重参数，使第二分类器学会根据情感关键句判别文章的情感倾向。当第二分类器的准确率达到设定的第二准确率阈值时结束训练，保存第二分类器的模型参数W_II。

此处的分类器模型包括但不限于：卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)。具体的，根据实际应用需要，本发明的第一准确率阈值和第二准确率阈值可设置为不同的数值，也可设置相同数值。优选的，第一准确率阈值和第二准确率阈值设置为80％。

基于标注样例集P1经过步骤4和步骤5后的训练，得到初步的第一分类器和第二分类器，利用初步训练的第一分类器和第二分类器对无标注样例集P2进行分类处理后，一方面将高置信度数据直接加入训练集，实现对训练数据数量上的扩充；另一方面通过一系列采样策略，找出最值得标注的数据拿给领域专家进行人工标注，然后也加入到训练集中，这相比不依靠策略，完全依靠人工标注来加大训练的数量而言，本技术方案可以依靠更少的标注数据取得更好的分类效果。

步骤6：利用步骤4训练得到的第一分类器对无标注样例集P2中的数据进行情感关键句子筛选。

步骤7：将步骤6得到的情感关键句子输入到步骤5训练得到的第二分类器，对文章情感倾向进行分类，分类结果中得到的置信度大于预设阈值的结果认为和人工标注数据的效果一致，直接作为训练数据加入到标注样例集P1中。优选的，置信度的阈值可以设置为0.9，置信度的取值区间是[0,1]，当分类结果中置信度超过0.9的数据就可以添加到标注样例集P1中。

从而实现带标签的训练数据能在不依靠人工标注的情况下保持不断增多，为后续过程中迭代训练分类器时取得到更好的效果打下基础，对于置信度不高的数据则放回无标注样例集P2中；

步骤8：利用主动学习中的采样策略从无标注样例集P2中选取出最值得标注的句子C，分发给标注人员进行标注，将得到的最终标注结果加入训练集用于后续重新训练第一分类器和第二分类器。通过以下数学表达式选取出最值得标注的句子C：

C＝argmax P2(C|I，W_I，W_II)

Argmax表示求使得该函数表达的值最大的时候的C的值，也就是表示从无标注样例集P2中选取出最值得标注的句子C，这些数据在经过人工标注加入训练集后，再次训练第一分类器和第二分类器时能提高这两个分类器的判别精度。

主动学习中的采样策略包括但不限于：基于不确定的采样策略、基于版本空间缩减的采样略以及基于误差缩减的采样策略等。

优选的，步骤9的第三准确率阈值设置为90％。经过步骤7和8扩充训练集后，准确率应该得到提升，因此此处的准确率阈值应大于步骤4和步骤5设定的准确率阈值。

在本发明技术方案中，标注数据集本身是比较少的数据，步骤7和8实际上是在以相对全部依靠人工标注来说更低成本的一种对训练集进行扩充的方式，所以说也用到了未标注数据集，实现带标注的训练数据能在不依靠人工标注的情况下保持不断增多。

本发明技术方案在解决财经新闻的情感分类问题方面，针对传统的利用粗粒度标注数据进行情感分类器训练，分类器精度不高，且训练对于标注数据的数量需求较高等问题，设计了一种基于细粒度标注数据训练情感判别模型的方法，可以非常有效地过滤掉新闻文本中的噪声数据，从而很好地提高分类的准确率。其次，通过融合主动学习的方式，大大地减少了需要标注的数量，并且确保了训练数据的高平衡性。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种基于细粒度标注数据的情感判别方法，其特征在于，所述方法包括：

步骤2：将采集到的新闻数据P分为两部分，包括标注样例集P1和无标注样例集P2，P的数学表达式为：

P＝P1∪P2

步骤4：利用所述情感关键句集S与非情感关键句集NS中的句子训练第一分类器，所述第一分类器的输入为所述情感关键句集S与非情感关键句集NS中的一个句子，输出为0或1，其中0代表非情感关键句，1代表情感关键句，利用交叉熵公式计算第一分类器的输出与真实值之间的损失函数值loss1，通过反向传播loss1的值更新第一分类器的权重参数，使所述第一分类器学会筛选所述财经领域新闻中的情感关键句子和非情感关键句子，当第一分类器的准确率达到设定的第一准确率阈值时结束训练，保存第一分类器的模型参数W_I；

步骤5：将所述情感关键句集S作为所述第二分类器的输入，训练所述第二分类器，利用交叉熵公式计算第二分类器的输出与所述文章情感标签T之间的损失函数值loss2,通过反向传播loss2的值更新第二分类器的权重参数，使所述第二分类器学会根据情感关键句判别文章的情感倾向，当所述第二分类器的准确率达到设定的第二准确率阈值时结束训练，保存所述第二分类器的模型参数W_II；

步骤6：利用步骤4训练得到的所述第一分类器对所述无标注样例集P2中的数据进行情感关键句子筛选；

步骤7：将步骤6得到的情感关键句子输入到步骤5训练得到的所述第二分类器，对文章情感倾向进行分类，分类结果中得到的置信度大于预设阈值的结果认为和人工标注数据的效果一致，直接作为训练数据加入到所述标注样例集P1中，对于置信度不高的数据则放回所述无标注样例集P2中；

步骤8：利用主动学习中的采样策略从所述无标注样例集P2中选取出最值得标注的句子C，分发给标注人员进行标注，将得到的最终标注结果加入训练集用于后续重新训练所述第一分类器和所述第二分类器，通过以下数学表达式选取出最值得标注的句子C：

C＝argmax P2(C|I，W_I，W_II)

argmax表示求使得该函数表达的值最大的时候的C的值，也就是表示从所述无标注样例集P2中选取出最值得标注的句子C，这些数据在经过人工标注加入训练集后，再次训练所述第一分类器和所述第二分类器时能提高这两个分类器的判别精度；