CN109543038B

CN109543038B - 一种应用于文本数据的情感分析方法

Info

Publication number: CN109543038B
Application number: CN201811400464.6A
Authority: CN
Inventors: 朱仲书
Original assignee: Huaxi Securities Co ltd
Current assignee: Huaxi Securities Co ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2023-06-30
Anticipated expiration: 2038-11-22
Also published as: CN109543038A

Abstract

本发明公开了一种应用于文本数据的情感分析方法，其特征在于，所述方法包括如下步骤：S1：构造若干标记函数，对每条输入文本数据进行情感类别的标注，情感类别分为被划分为三类即负面情感数据类、中性情感数据类、正面情感数据类；S2：定义标记函数的先验概率以及相互关系，标记函数的先验概率用于表示该标记函数输出的情感类别标注的置信度；S3：令待标记的文本数据条数为D，步骤S1中的标记函数综述为N，对每一条文本数据都采用N个标记函数进行标记，得到D*N的标记矩阵Λ；S4：将步骤S2中定义的标记函数先验概率与相互关系，以及步骤S3中得到的标记矩阵Λ作为输入导入到Data Programing算法框架中进行学习，得到输出为文本数据的分类概率。

Description

一种应用于文本数据的情感分析方法

技术领域

本发明涉及一种计算机领域中的数据挖掘技术，具体涉及一种应用于文本数据的情感分析方法。

背景技术

随着移动互联网的快速发展，新闻咨询类的信息也呈现几何式的增长，如何快速的了解某个领域的新闻的整体观点趋势是值得研究的话题，以财经类新闻为例，财经新闻很多时候体现了官方或者机构对某个事件或者行业等的认识，相对用户的观点来说更加客观且可靠，通过分析某个行业板块的新闻的情绪倾向，对于研究者和投资者进行行业分析及投资计划可以做出重要的辅助决策。同时，对于新闻内容的情感分析也可以更加有效的对新闻进行监控和管制，是值得研究的一个方向。

情感分析是根据文本内容判断其情感倾向的技术，现有的实现方式大致可以划分为两类：(1)基于有监督算法的分类技术，如支持向量机、卷积神经网络、循环神经网络等[Kim Y.Convolutional neural networks for sentence classification[J].arXivpreprint arXiv:1408.5882,2014.][Lai S,Xu L,Liu K,et al.RecurrentConvolutional Neural Networks for Text Classification[C]//AAAI.2015,333:2267-2273.]，(2)基于无监督/弱监督算法的分类技术，如基于规则与情感词典的方式、基于情感词向量的方式[李涵昱,钱力,周鹏飞.面向商品评论文本的情感分析与挖掘[J].情报科学,2017,35(1):51-55.][伍星，何中市，黄永文。基于弱监督学习的产品特征抽取[J]。计算机工程，2009,13：199-201][赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848.][]

第(1)类算法的原理是基于有标注的情感分类数据训练分类器模型，并利用该模型预测输入文本的情感类别。算法的优点是准确率高，基于神经网络结构的分类器可以采用端到端的方式进行训练，基本不需要人工提取特征的参与。其缺点主要在于模型的训练需要大量标注数据，这类标注数据的获取存在成本高、周期长等问题。

第(2)类算法主要基于人工预定义规则与统计分析技术实现，也可以结合表示学习方法实现自动特征提取。算法的优点是无需标注数据，可以自动从海量无标记数据中抽取信息实现情感分析功能。其缺点主要在于性能较差，与第(1)类算法相比在准确率和召回率上都有较大差距。

发明内容

本发明所要解决的技术问题是标注数据的获取存在成本高、周期长等问题，性能较差，其算法相比在准确率和召回率上都有较大差距基于自动数据标注系统与分类器算法实现的情感分析技术，旨在克服前述第(1)类算法中标记数据难以获取以及第(2)类算法中性能较低的缺点，目的在于提供一种应用于文本数据的情感分析方法，解决上述的问题。

本发明通过下述技术方案实现：

一种应用于文本数据的情感分析方法，其特征在于，所述方法包括如下步骤：S1：构造若干标记函数，对每条输入文本数据进行情感类别的标注，情感类别分为被划分为三类即负面情感数据类、中性情感数据类、正面情感数据类；S2：定义标记函数的先验概率以及相互关系，标记函数的先验概率用于表示该标记函数输出的情感类别标注的置信度；S3：令待标记的文本数据条数为D，步骤S1中的标记函数条数为N，对每一条文本数据都采用N个标记函数进行标记，得到D*N的标记矩阵Λ；S4：将步骤S2中定义的标记函数先验概率与相互关系，以及步骤S3中得到的标记矩阵Λ作为输入导入到Data Programing算法框架中进行学习，得到输出为文本数据的分类概率；S5：将文本数据的分类概率作为标签，其词向量表示矩阵作为特征，构造神经网络分类器，通过神经网络分类器进行情感分析。

目前，业界并没有类似于ImageNet的大规模公开标注数据集，其主要原因在于自然语言处理任务和图像、语音处理任务不同，其面临的问题非常的多变，相应的数据普适性也较低。另外，公开的数据集以英文居多，专注于中文自然语言处理的数据集更是稀少，很多数据集的规模都仅仅有几百到几千量级。高质量数据集的缺失以及人工标注的高成本严重阻碍了人工智能技术在自然语言处理领域的真正落地与应用。本申请文件采用的文本数据的情感分析，通过将文本数据进行分类，判断其情感类型的方式，能够有效的区别商业运用中的各类信息，为数据分析师，提供准确可靠的市场信息。本申请文件结合金融领域资讯分析的具体应用场景，主要运用Data Programing算法进行数据处理，Data Programing算法以下简称DP算法，基于DP算法对大规模无标记文本数据的分析与挖掘进行了初步研究，并取得了一定效果，DP算法可以认为是集成学习方法的一种，其基本思路是利用各种能够轻易获取但是质量较低的原始数据标签来得到最终的数据标签，原始数据标签的来源可以是多种多样的，如领域专家知识、基于规则的标注、远程监督标注，也可以是利用少量人工标注数据训练的分类模型的预测标签，这些原始标签一般都具有较高的噪音，各标签之间也可能存在大量冲突(即同一条数据根据不同标注方法得到的标签不同)传统的处理方法一般采用投票法或者加权投票法来得到数据的最终标签，其缺点是各类标签的原始权重需要预先指定，权重的少许变化可能就会导致结果的大幅波动，因此，这类方式运用模型架构训练是不可取的，可能造成数据失真。DP算法的处理方式是基于这些原始标签构建生成模型，通过对模型的学习得到最终的标签值与置信度，其中生成模型采用以因子图形式表示的无向概率图模型，在DP算法中，任一条数据的原始标签与真实标签之间，都定义一个因子与之关联，同时还允许用户自定义同一条数据的两个标签之间的关系，包括相似、修正、强化、互斥，这些因子共同构成了模型的因子图。通过在该图上执行标准的图模型的学习算法，便可以得到最终的结果。

进一步地，所述步骤S5包括如下子步骤：a)：将文本数据进行分词、去除停用词、填充或者截断，并利用预定义词向量将文本转换为固定维度的矩阵表示；b)：将分类概率进行离散化，得到数据标签；c)：构造神经网络分类器，将子步骤a)、b)中得到的矩阵表示和数据标签作为神经网络的输入，对模型进行训练；d)：在训练完成后，通过神经网络分类器进行情感分析。

进一步地，所述步骤b)中的数据标签为y∈{-m,-m-1,...0,...m-1,m}，其中m表示情感分类的类别数，步骤b)的离散化方式采用等宽离散方式，即将[0,1]区间等间距划分为2m+1个子区间，分别对应2m+1个标签值，文本的标签即为分类概率所属区间的概率。

进一步地，所述标记函数的形式为：y＝f(x)∈{-m,-m-1,...0,...m-1,m}；其中x表示输入文本数据；y表示对文本数据的标注；m表示情感分类的类别数，值越大表示越接近正面情感，越小则越接近负面情感。

进一步地，所述步骤S1中的情感标注采用文字数据库进行标注，文字数据库包括负面情感数据数据库、中性情感数据数据库、正面情感数据库，其中负面情感数据库和正面情感数据库内存储有对应的关键字，当输入的文字文本数据中包括有两种数据库的关键字时，将文字文本数据标记成对应关键字所在数据库类的数据，若没有对应的关键字，则将文字文本数据标记成为中性情感数据。本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明一种应用于文本数据的情感分析方法，本发明克服了前述第(1)类算法中标记数据难以获取以及第(2)类算法中性能较低的缺点。通过本发明构造情感分析系统无需对大规模无标记数据进行标注，只需人工定义少量标注函数，从而提高系统构建效率。同时标记函数只规定了函数的输入输出，对具体实现方式没有要求，具有良好的普适性，可以根据具体领域进行灵活调整。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明方法流程示意图。

图2为本发明各函数对相应硬件模块的调用和硬件模块的数据走向图。

图3基于CNN的情感分析模型网络结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例一

如图1～2所示，本发明一种应用于文本数据的情感分析方法，其特征在于，所述方法包括如下步骤：S1：构造若干标记函数，对每条输入文本数据进行情感类别的标注，情感类别分为被划分为三类即负面情感数据类、中性情感数据类、正面情感数据类；S2：定义标记函数的先验概率以及相互关系，标记函数的先验概率用于表示该标记函数输出的情感类别标注的置信度；S3：令待标记的文本数据条数为D，步骤S1中的标记函数条数为N，对每一条文本数据都采用N个标记函数进行标记，得到D*N的标记矩阵Λ；S4：将步骤S2中定义的标记函数先验概率与相互关系，以及步骤S3中得到的标记矩阵Λ作为输入导入到DataPrograming算法框架中进行学习，得到输出为文本数据的分类概率；S5：将文本数据的分类概率作为标签，其词向量表示矩阵作为特征，构造神经网络分类器，通过神经网络分类器进行情感分析。

其具体实例为，如对于一篇新闻资讯，自动标注系统将其划分为正面、负面、中性三大类之一，分别用1、-1、0表示。通过对常见股票资讯内容的分析，可以发现只利用新闻标题一般就足以确定整篇资讯的情感。因此在构建标注系统的时候，只考虑资讯标题，忽略正文内容。表1给出了若干典型的资讯标题与对应情感分类：

标题内容	情感分类
		A纸业前三季业绩大幅预增	正面
B股份签近2亿元境外铁塔采购合同	正面
		C影视与D合作发展视频业务	正面
“男人的衣柜”存货太多E公司陷断舍离困境	负面
		F公司广州拿地造车又添谜题前景难料	负面
繁荣之后隐忧显现直播业的十字路口	中性
		本周有9只新股发行	中性
证券业大佬王开国告别海通证券	中性

表1.资讯标题与其情感分类

为了构建自动标注系统，需要实现若干数量的标记函数，其中每个标记函数接受输入数据，并输出-1、0、1三者之一。±1表示标记函数认为输入数据为正类/负类，0表示标记函数无法处理此情形。DP算法对标记函数的具体实现方式没有任何约束，可以基于关键词、基于固定句式，或者更复杂的基于预训练词向量模型等等。这也为我们使用DP算法提供了较大的便利性。

1)在对资讯标题进行筛选、聚类分析其常见形态后，我们定义了以下若干类标记函数：基于标题第一个关键词的情感进行标注

如“XXX公司定增发行失败”会被标记成负面消息，而“XXX公司成功研制锂空气电池”则被标记为正面消息，对于不包含关键词的标题，函数输出为0

2)基于标题最后一个关键词的情感进行标注

该标记函数类似于1)，两者的唯一区别是在标题中出现多个关键词时，采纳关键词的顺序不同。

3)基于标题第一个关键词结合否定前缀词进行标注

与1)相比，该标记函数增加了对否定前缀的考虑，如果标题中出现了否定前缀，那么标记函数的最终标记值与第一个关键词的情感相反。如“XXX公司定增发行不成功”会被标记成负面消息。

4)基于标题最后一个关键词结合否定前缀词进行标注

可类比标记函数3)

5)基于标题全部关键词进行标注

该标记函数会对标题中出现的所关键词的情感做计数。如果正面情感关键词较多，则标记为正面消息；否则标记为负面消息，若两者一样多，则标记为0。

6)基于标题全部关键词结合否定前缀词进行标注

可类比标记函数3)

7)基于标题全部关键词的权重进行标注

可类比标记函数5)，只不过这里不再只对关键词做技术，而是考虑不同关键词的权值大小。关键词权值的计算方法采用分级的方式，即首先选择若干高频词汇做为一级关键词，然后利用预训练词向量寻找二级、三级相似关键词作为补充，关键词的权重随级别增加而指数下降。基于标题全部关键词的权重合否定前缀词进行标注，

基于固定句式进行标注

该标记函数将输入数据与若干预定义固定句式进行匹配，以匹配到的第一个句式的情感作为输出。；如果未能匹配到，则输出0。典型的固定句式如“申请-拒绝”(负面)，“利润-升高”(正面)。

8)基于余弦相似度进行标注

该标记函数需利用少量人工标记数据，其思路是计算输入标题与这些人工标记数据的余弦相似度，取相似度最高的情感分类作为函数输出。可以认为该函数实现了一个KNN分类器，其中K＝1。

此外，根据文本的向量表示方式的不同，该标记函数可以衍生出多种不同的标记函数，如one hot表示、基于词向量求和的表示方式、基于TFIDF值的表示方式等等。

9)基于标题是否出现“ST”进行标注

该标记函数仅对标题中出现“ST”字符的数据标记为-1，其余情况标记为0。

在定义了上述若干类标记函数后，我们还可以根据各标记函数的性质定义他们之间的关系，如该标记函数3)对1)构成“修正”关系。同时，还可以指定各个标记函数的先验置信度，如标记函数9)往往更为可靠，可以赋予其更高的先验置信值，标记函数11)则不太准确，其先验置信值较低。

给出了标记函数、标记函数关系以及先验置信值后，便可以构建生成模型进行训练与测试。下面简述模型训练与测试的具体方法。

具体为模型训练与测试所用到的原始数据来自于从各类财经网站的公开资讯中采集的标题信息，共计464935条。每条标题数据都利用预定义标记函数执行进行打标，这些标记构成式(8)中的Λ。

在模型训练的过程中，所有的数据都输入进模型参与训练，训练结束后，每条数据都会计算得到一个概率值，概率值越接近1则越可能是正面情感，越接近0则越可能是负面情感。

在测试阶段，从所有的数据中随机选取5000条，作为测试数据进行人工打标，得到数据的真实标签。DP算法标注结果通过将这5000条数据的模型输出概率值离散化得到，离散化的方式采取简单的区间划分：概率值小于0.4的，其标签设置为-1；大于0.6的标签值设置为1，其余标签值设置为0。作为对比，我们同时还计算了投票法和利用标签函数先验置信值作为权重的加权投票法得到的数据标签。三种算法的准确率测试结果见表2：

分类算法	准确率
		DP算法	75.53％
投票法	48.82％
		加权投票法	57.61％

表2：三种标注算法的准确率

从测试结果可以看出，利用DP算法对标记函数输出的原始标签进行学习之后，其准确率相比直接拿原始标签做投票或者加权投票分别有了50％和30％左右的提升。

基于DP算法的自动标注系统虽然也可以直接用于情感分析，但是其准确率和泛化性仍然偏低。因此，我们在自动标注系统的基础上，采用CNN构造更高精度的情感分析模型。

本文所采用的神经网络结构见图3，网络主要由词嵌入层以及若干堆叠的多层CNN网络组成，其中每个多层CNN的参数相互独立，词嵌入层的初始化方式是采用预训练词向量；神经网络模型基于TensorFlow库实现，网络结构参数见表3：

参数名称	取值
		堆叠CNN总数	3
单个CNN层数	1
		卷积核维度	三个堆叠CNN分别为256×2、256×3、256×5
词嵌入层维度	256
		输入层维度	32

表3.情感分析模型网络结构参数

实施例二

本实施例在实施例一的基础上进行优化，具体是对模型的训练进行举例，

模型的训练采用Adam算法，初始学习率设置为0.01，drop out概率为0.1。训练数据采用的是全部464935条数据中未经过人工标注的459935条数据，剩余人工标注的5000条数据用于模型测试。

为了对比采用自动标注数据训练模型的效果，我们额外整理了一组数据，并人工做了标注，用这组数据基于相同的CNN网络执行训练和测试，最终结果见表4：

表4.采用人工标注数据与自动标注数据分别训练情感分析模型的准确率对比

通过表4可以看出，虽然自动标注数据的质量(准确率)相比人工标注数据有着一定差距，但是其数量上要远多于人工标注数据，从而在最终的模型准确率上取得了更好的表现。同时还可以发现，神经网络模型相比自动标注系统直接得到的原始数据准确率(75.53％)有了较大提高。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种应用于文本数据的情感分析方法，其特征在于，所述方法包括如下步骤：

S1：接收文本数据，构造若干标记函数，对每条输入文本数据进行情感类别的标注，情感类别分为被划分为三类即负面情感数据类、中性情感数据类、正面情感数据类；

S2：定义标记函数的先验概率以及相互关系，标记函数的先验概率用于表示该标记函数输出的情感类别标注的置信度；

S3：令待标记的文本数据条数为D，步骤S1中的标记函数条数为N，对每一条文本数据都采用N个标记函数进行标记，得到D*N的标记矩阵Λ；

S4：将步骤S2中定义的标记函数先验概率与相互关系，以及步骤S3中得到的标记矩阵Λ作为输入导入到Data Programing算法框架中进行学习，得到输出为文本数据的分类概率；

S5：将文本数据的分类概率作为标签，其词向量表示矩阵作为特征，构造神经网络分类器，通过神经网络分类器进行情感分析。

2.根据权利要求1所述的一种应用于文本数据的情感分析方法，其特征在于，所述步骤S5包括如下子步骤：

a)：将文本数据进行分词、去除停用词、填充或者截断，并利用预定义词向量将文本转换为固定维度的矩阵表示；

b)：将分类概率进行离散化，得到数据标签；

c)：构造神经网络分类器，将子步骤a)、b)中得到的矩阵表示和数据标签作为神经网络的输入，对模型进行训练；

d)：在训练完成后，通过神经网络分类器进行情感分析。

3.根据权利要求2所述的一种应用于文本数据的情感分析方法，其特征在于，所述步骤b)中的数据标签为y∈{-m,-m-1,...0,...m-1,m}，其中m表示情感分类的类别数，步骤b)的离散化方式采用等宽离散方式，即将[0,1]区间等间距划分为2m+1个子区间，分别对应2m+1个标签值，文本的标签即为分类概率所属区间的概率。

4.根据权利要求1所述的一种应用于文本数据的情感分析方法，其特征在于，所述标记函数的形式为：y＝f(x)∈{-m,-m-1,...0,...m-1,m}；

其中x表示输入文本数据；y表示对文本数据的标注；m表示情感分类的类别数，值越大表示越接近正面情感，越小则越接近负面情感。

5.根据权利要求1所述的一种应用于文本数据的情感分析方法，其特征在于，所述步骤S1中的情感标注采用文字数据库进行标注，文字数据库包括负面情感数据数据库、中性情感数据数据库、正面情感数据库，其中负面情感数据库和正面情感数据库内存储有对应的关键字，当输入的文字文本数据中包括有两种数据库的关键字时，将文字文本数据标记成对应关键字所在数据库类的数据，若没有对应的关键字，则将文字文本数据标记成为中性情感数据。