CN108829806A

CN108829806A - 一种跨事件新闻文本情感分析方法

Info

Publication number: CN108829806A
Application number: CN201810578907.4A
Authority: CN
Inventors: 高琰; 杨海洋; 陈白帆; 王艳东; 周玲君
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2018-11-16

Abstract

本发明公开了一种跨事件新闻文本情感分析方法，包括：抓取若干篇用于训练的关于事件A、待分析情感的关于事件B的新闻文本；将事件A的每篇新闻文本的情感倾向进行标记；提取事件A、事件B的新闻文本的TF‑IDF特征以形成文本特征矩阵X_A和X_B；利用迁移成份分析算法将事件A的文本特征矩阵X_A、事件B的文本特征矩阵X_B进行迁移学习，将X_A和X_B映射到高维空间，分别对应得到新的特征矩阵X_A'和X_B'；将人工情感标记进行标签化，形成用于训练的标签集合；将X_A'、X_B'和所述标签集合作为机器学习算法的输入，得到跨事件新闻文本情感分析模型。本发明采用迁移成分分析方法，将两个具有不同分布的事件的新闻文本文档进行迁移学习，可以提高跨事件新闻文本情感分析的准确度。

Description

一种跨事件新闻文本情感分析方法

技术领域

本发明属于自然语言处理技术领域，特别涉及一种跨事件新闻文本情感分析方法。

背景技术

新闻是一种记录与传播信息的文体。政府可以运用新闻传播真理、组织群众、推动工作；企业可以运用新闻宣传企业文化、推销企业产品、扩大社会影响。随着互联网时代的飞速发展，公众论坛、微博、新闻客户端等新媒体发展较快，为公众直接参与舆论形成及传播开辟了广阔的空间。新闻舆论作为传播信息和可以影响群众意识形态的途径，既是信息载体又是一种管理工具。在互联网成为舆论斗争和信息发散最前沿的今天，新闻不止包含了最新事件，也存在大量有用信息。于政府，新闻舆论的监督和控制成为了一项重要任务；于企业，新闻宣传对企业文化传播与推广影响也是一项课题。如何衡量和掌握大量新闻中的关键信息和舆论走向成为了一个难题。

新闻作为一种文体，对人影响最大的就是其包含的情感，它或正面或负面，但很少中立。一篇情感激昂的奥运夺金报道，可以大大提升人们的民族自豪感；而一篇抨击食品安全问题的新闻，也会让人们对某家企业丧失信心。因此，把针对某一事件或个体的大量新闻汇集，分析其情感可以分析出舆论对其的看法。

目前针对新闻类文本的的情感分析方法主要有：基于情感词典的文本情感分析方法、基于机器学习的情感分析方法。

基于情感词典的文本情感分析方法起源于语法规则的文本分析，依赖于专业人士构建的情感词典，如正向情感词词典和负向情感词词典，加以规则来进行情感分类。依据国内外广泛使用的情感词典，Taboada等人提取文中的情感词并加以统计，不仅关注情感词的比重，即正向词比负向词的值，同时也细化到情感的强度计算，将情感强度定义在-5(非常负向)到+5(非常正向)之间。Saif等人提出了SentiCircle方法，将同时出现的情感词加入度量，通过分析不同的文本中出现的上下文情况来确定情感词极性和权重，最终通过强度计算来识别情感。情感词典方法依赖于词典，且词典不适用于所有事件的报道，有失全面性。

基于机器学习的情感分析方法基于多种特征进行建模，目前关于情感分析主要运用的机器学习方法主要有朴素贝叶斯支持向量机(Support VectorMachine，SVM)等。Mohammad等人利用2013年SemEval比赛的数据集训练了一个SVM分类器，将每个文本表示为一个向量，其中包含情感标签、情感词、n-gram等，他们发现利用这些特征进行训练要比利用某单一特征训练效果更好。Asiaee等人提出了一个三层级联分类模型，第一层将文本按话题和兴趣分类，第二层中依据情感进行分类，第三层则按情感词所占比例进行分类。Bao等人检验了不同的预处理方法对文本情感分类的影响，他们测试了网址、否定词、重复词和词根，实验结果表明当网址、否定词和重复词为特征时分类准确率很高，而把所有词和词根都作为特征准确率则很低。机器学习方法需要大量的训练数据，而且其表现依赖于训练数据和测试数据在领域、主题和时限上的相似程度，而新闻文本则依据事件不同表达方式大都不同，用同一个模型对新闻进行自动分析时，往往准确性不高。

发明内容

现有的基于机器学习的跨事件新闻文本情感分析方法准确率不高。本发明的目的在于，针对上述现有技术的不足，提供一种跨事件新闻文本情感分析方法，能够准确分析跨事件新闻文本的情感倾向。

为解决上述技术问题，本发明所采用的技术方案是：

一种跨事件新闻文本情感分析方法，包括：

步骤一，抓取若干篇用于训练的关于事件A的新闻文本、待分析情感的关于事件B的新闻文本；

步骤二，将事件A的每篇新闻文本的情感倾向进行标记；

其特点是还包括：

步骤三，提取事件A的新闻文本的TF-IDF特征以形成事件A的文本特征矩阵X_A，提取事件B的新闻文本的TF-IDF特征以形成事件B的文本特征矩阵X_B；

步骤四，利用迁移成份分析算法将事件A的文本特征矩阵X_A、事件B的文本特征矩阵X_B进行迁移学习，将X_A和X_B映射到高维空间，并使得事件A与事件B的分布之间的距离最小，且映射后X_A和X_B中数据的特征不变；X_A和X_B映射后分别对应得到新的特征矩阵X_A'和X_B'；

步骤五，将情感标记进行标签化，形成用于训练的标签集合；

步骤六，将X_A'、X_B'和所述标签集合作为机器学习算法的输入，得到跨事件新闻文本情感分析模型，利用该模型对事件B的新闻文本进行情感分析。

事件A作为源事件，事件A的新闻报道内容包括大量关于事件A的新闻文本；事件B代表新事件，事件B的新闻报道内容包括从新闻网站上爬虫抓取的关于事件B的新闻文本。

机器学习方法中，不同事件新闻的文本特征分布不同是影响情感分类效果的重要因素。迁移学习假设两个事件间有一些交叉的特征，以最大均值差异作为度量准则，将不同数据的分布差异最小化，即减少其间的差距，或将不同领域的数据特征变换到统一特征空间中，然后用传统的机器学习方法进行分类识别。迁移成分分析(TCA)作为迁移学习的一种算法，具有减小领域间分布差异的特性，因此可以用于分析不同事件新闻的情感特征。

本发明将新闻文本进行分词，利用TF-IDF提取特征，产生新闻的文本向量表示。A事件新闻与B事件新闻的向量由迁移成分分析(TCA)处理，输出全新新闻表示向量X_A'和X_B'，并将全新的文本表示输入到机器学习算法(如SVM)进行文本情感分类。本发明的方法可以解决跨事件新闻情感分析中待预测新事件B新闻样本量小、无标签的问题，降低了人工标记成本，并且取得了明显优于现有机器学习算法的准确率，最终可用于舆论监督和预测。

作为一种优选方式，所述步骤六中，所述机器学习算法为支持向量机方法。

作为一种优选方式，所述步骤三中，首先利用结巴分词对事件A和事件B的新闻文本进行中文分词，再去除事件A和事件B的新闻文本的停用词，最后提取事件A和事件B的新闻文本TF-IDF特征，分别形成X_A和X_B。

作为一种优选方式，所述步骤四中，

首先，假设存在一个映射Ф使得映射后的数据分布P(Ф(X_A))与P(Ф(X_B))之间的差值在设定的范围内(即P(Ф(X_A))≈P(Ф(X_B)))；

然后，求事件A与事件B的分布之间的距离：

dist(X_A',X_B')＝trace(KWW^TKL)＝trace(W^TKLKW)，其中，K为核矩阵，L为系数矩阵，W为中间矩阵，且L中第i行第j列的元素

最后，求解

mintrace(W^TKLKW)+μtrace(W^TW)

s.t.W^TKHKW＝I_m

其中I_m为单位矩阵；得到X_A和X_B映射后分别对应得到新的特征矩阵X_A'和X_B'。

作为一种优选方式，所述步骤五中，所述标签集合表示为L_A＝{e₁,e₂,…,e_n1}，其中n₁为事件A的新闻文本数据集所包含的样本数量，e_i为有关事件A的第i篇新闻文本的情感分类，i＝1，2，...，n₁，e_i的值为1、0或-1。

与现有技术相比，本发明所具有的有益效果为：本发明采用迁移成分分析方法，将两个具有不同分布的事件的新闻文本文档进行迁移学习，得到全新的新闻文本特征表示矩阵，得到数据分布更相近且降维后的特征表示，可以提高跨事件新闻文本情感分析的准确度，对于新发生的新闻事件报道进行抓取后，可以更准确的预测媒体报道对事件的态度，其结果可以帮助舆论管理、商业计划等。

附图说明

图1为本发明一实施例流程图。

图2为迁移成分分析流程图。

具体实施方式

如图1和图2所示，本发明的一实施例包括以下步骤：

步骤一，抓取若干篇用于训练的关于事件A的新闻文本、待分析情感的关于事件B的新闻文本，将每个事件的新闻文本分别合并为一个txt文档；其中事件A作为源事件，事件A的新闻报道内容包括大量关于事件A的新闻文本；事件B代表新事件，事件B的新闻报道内容包括从新闻网站上爬虫抓取的关于事件B的新闻文本。

步骤二，根据文章内容对每条新闻进行情感标记，1表示文章对该事件表达了积极正面的态度，0表示中立，-1则表示消极负面的态度，将每个事件对应的情感标记存入excel表格中，分别形成事件A与事件B的情感标记文本。本事件B表示待预测的新事件的文本，在用于实际应用时并没有情感标记，本次标记为验证本发明的有效性，其中事件A作为训练集，事件B作为测试集。

步骤三，对于每个事件，将每条新闻作为一个元素并最终形成事件的新闻列表。对于每条新闻，利用正则表达式提取正文文字，而后运用结巴分词对其进行分词，同时去除停用词(“了、吧、啊、的”等助词、语气词)，提取事件A的新闻文本的TF-IDF特征以形成事件A的文本特征矩阵X_A，提取事件B的新闻文本的TF-IDF特征以形成事件B的文本特征矩阵X_B。

所述TF-IDF算法具体为：TF为词频，即某个词在文章中的出现次数与文章总词数的比值；IDF为逆文档频率，其计算公式为：

TF-IDF为TF与IDF的乘积，由以上描述可以得出，TF-IDF与一个词在文档中出现的次数成正比，与该词在整个语料库中的出现次数成反比。因此，利用TF-IDF可以很好的表示文档。对于本发明具体实施方式为，将分词后的语料集，提取TF-IDF特征，得到每篇报道的向量，最终形成事件A和事件B的事件文本特征表示X_A和X_B。

步骤四，利用迁移成份分析算法将事件A的文本特征矩阵X_A、事件B的文本特征矩阵X_B进行迁移学习，将X_A和X_B映射到高维空间，并使得事件A与事件B的分布之间的距离最小，且映射后X_A和X_B中数据的特征不变；X_A和X_B映射后分别对应得到新的特征矩阵X_A'和X_B'。

具体地，假设存在一个映射Ф使得映射后的数据分布P(Ф(X_A))≈P(Ф(X_B))，映射后，二者之间的距离可以表示为：

其中，n₁和n₂分别代表事件A和事件B的数据集所包含的新闻报道数量，最小化上述距离公式可得出映射。引入核矩阵K与L：

因此，距离可以改写为：

dist(X_A',X_B')＝trace(KL)-λtrace(K)

其中，trace为矩阵的迹，λ为权衡参数。接下来将K分解为K＝(KK^-1/2)(K^-1/2K)，并降维为最终距离公式转化为：

dist(X_A',X_B')＝trace(KWW^TKL)＝trace(W^TKLKW)

由于在映射过程中需要保持数据的特征，即数据的散度，即C^THC，其中为一个中心化矩阵，为列向量，其元素全部为1，I_n1+n2则为单位矩阵。所以最后优化目标为：

mintrace(W^TKLKW)+μtrace(W^TW)

s.t.W^TKHKW＝I_m

通过计算可得到映射后的样本矩阵X^*＝KWKW，从而得到新的降维的特征矩阵X_A'和X_B'。

步骤五，将步骤二中人工标记好的情感标签从excel中提取，存入数组，作为训练标签，形成用于训练的标签集合。所述标签集合表示为L_A＝{e₁,e₂,…,e_n1}，其中n₁为事件A的新闻文本数据集所包含的样本数量，e_i为有关事件A的第i篇新闻文本的情感分类，e_i的值为1、0或-1。

步骤六，将X_A'、X_B'和所述标签集合作为机器学习算法支持向量机SVM的输入，进行情感分类训练。

SVM是分类算法中应用广泛、效果不错的一类，其原理是找到最优分割面即超平面，使得距离超平面比较近的点能有更大的间距，超平面通过训练集及其类别学习得到，两个超平面之间的距离更大，则分类正确的确信度更高。对于线性可分情况，SVM的最优化目标为：

α_i≥0,i＝1,2,…,N

其中x_i表示新闻文本特征，y_i为对应的情感标签，α_i为拉格朗日乘子。

上述为线性不可分情况，而实际应用中训练样本是线性不可分的，因此，引入惩罚函数P，目标为超平面距离尽量大，误分类的样本点尽量少，由此与上述公式相比，只是约束条件α_i发送变化，变为0≤α_i≤P，其余不变。

而对于本发明中，样本并非线性可分，为了解决此问题，需要将低维空间映射到高维空间从而实现线性可分。因此引入核函数K，最终SVM最优化问题变为：

0≤α_i≤P，i＝1,2,…,N

至此，得到跨事件新闻文本情感分析模型，可利用该模型对事件B的新闻文本进行情感分析。

步骤七，分别利用本发明所述迁移成分分析与SVM结合的跨事件新闻文本情感分析方法、单独使用SVM的方法、传统的朴素贝叶斯方法对事件B的新闻文本进行情感分析，将输出的结果与人工标注的结果比较，并计算准确率。实验结果如下：

表1三种方法所得到的结果与传统方法的准确率比较结果

本实验结果表明，本发明的跨事件情感分析方法与传统方法相比，准确率大大提高，比SVM和朴素贝叶斯算法平均高10个百分点以上，精度达到了81.82％。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是局限性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护范围之内。

Claims

1.一种跨事件新闻文本情感分析方法，包括：

步骤二，将事件A的每篇新闻文本的情感倾向进行标记；

其特征在于，还包括：

2.如权利要求1所述的跨事件新闻文本情感分析方法，其特征在于，所述步骤六中，所述机器学习算法为支持向量机方法。

3.如权利要求1所述的跨事件新闻文本情感分析方法，其特征在于，所述步骤三中，首先利用结巴分词对事件A和事件B的新闻文本进行中文分词，再去除事件A和事件B的新闻文本的停用词，最后提取事件A和事件B的新闻文本TF-IDF特征，分别形成X_A和X_B。

4.如权利要求1所述的跨事件新闻文本情感分析方法，其特征在于，所述步骤四中，

首先，假设存在一个映射Ф使得映射后的数据分布P(Ф(X_A))与P(Ф(X_B))之间的差值在设定的范围内；

然后，求事件A与事件B的分布之间的距离：

最后，求解

min trace(W^TKLKW)+μtrace(W^TW)

s.t.W^TKHKW＝I_m

5.如权利要求1所述的跨事件新闻文本情感分析方法，其特征在于，所述步骤五中，所述标签集合表示为L_A＝{e₁,e₂,…,e_n1}，其中n₁为事件A的新闻文本数据集所包含的样本数量，e_i为有关事件A的第i篇新闻文本的情感分类，i＝1，2，...，n₁，e_i的值为1、0或-1。