CN101714135A

CN101714135A - 一种跨领域文本情感倾向性分析方法

Info

Publication number: CN101714135A
Application number: CN200910242427A
Authority: CN
Inventors: 吴琼; 谭松波; 段洣毅; 程学旗
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2009-12-11
Filing date: 2009-12-11
Publication date: 2010-05-26
Anticipated expiration: 2029-12-11
Also published as: CN101714135B

Abstract

本发明提供一种跨领域文本情感倾向性分析方法，包括下列步骤：1)确定源领域和目标领域中文本与词的初始情感分；2)根据测试文本集和测试词集分别与所有词集和所有文本集的关系建立测试文本集D^U与测试词集W^U和训练词集W^L间的相似矩阵M、测试词集W^U与测试文本集D^U和训练文本集D^L间的相似矩阵N和测试词集W^U与所有词集之间的相似矩阵V中的一个或多个，计算一个或多个相似矩阵的归一化矩阵和邻域矩阵；3)利用所述源领域和目标领域中文本与词的初始情感分和所述一个或多个相似矩阵的邻域矩阵迭代计算测试文本和测试词的情感分并进行归一化。该方法能够大幅提高对新领域的文本进行分类的精度。

Description

一种跨领域文本情感倾向性分析方法

技术领域

本发明涉及模式识别领域，具体涉及一种文本分析方法。

背景技术

近年来，随着互联网快速发展，论坛、博客等网络交流平台不断涌现，人们越来越习惯于在网上发表主观性的言论，这些言论用于表达自己对于日常事件、产品、政策等的观点和看法，这使得网上存在大量带有情感倾向性的文本。那么如何对这些有主观情感的文本进行分类，判断其是正面还是负面，是持支持态度还是反对态度，这就引出了文本分类领域一个重要的研究方向----情感倾向性分析问题。该问题有很多实际应用，成为引起越来越广泛关注的研究问题。

随着信息量的急速增加、新领域的不断涌现，人们需要在越来越多的新领域里进行情感倾向性分析，而在新领域里重新进行人工标注是个费时费力的事情。因此要尽量基于已经标注好的数据对新领域进行分析，这使得跨领域的倾向性分析具有重大意义。

近几年来，研究者们已经在跨领域倾向性分析问题上取得了一些进展。然而，现有的方法和系统往往只根据已标注文本对新领域文本进行倾向性分析，而只根据文本进行倾向性分析是片面的，不能利用词的知识提高倾向性分析的精度，这往往导致精度不高。

因此，需要一个统一的模型框架有机地融合情感词的知识，以提高倾向性分析的精度。

发明内容

本发明要解决的技术问题是提供一种精度高的跨领域文本情感倾向性分析方法。

根据本发明的一个方面，提供了一种跨领域文本情感倾向性分析方法，包括下列步骤：

1)确定源领域和目标领域中文本与词的初始情感分；

2)根据测试文本集和测试词集分别与所有词集和所有文本集的关系建立测试文本集D^U与测试词集W^U和训练词集W^L间的相似矩阵M、测试词集W^U与测试文本集D^U和训练文本集D^L间的相似矩阵N和测试词集W^U与所有词集之间的相似矩阵V中的一个或多个，计算一个或多个相似矩阵的归一化矩阵和邻域矩阵；

3)利用所述源领域和目标领域中文本与词的初始情感分和所述一个或多个相似矩阵的邻域矩阵迭代计算测试文本和测试词的情感分并进行归一化。

在上述方法中，所述步骤2)还包括根据测试文本集和所有文本集的关系建立测试文本集D^U和所有文本集之间的相似矩阵U，并计算所述相似矩阵U的归一化矩阵和邻域矩阵；

所述步骤3)中所述迭代计算测试文本和测试词的情感分还利用所述相似矩阵U的邻域矩阵。

在上述方法中，所述步骤2)中建立所述相似矩阵M和/或N，并计算其归一化矩阵和邻域矩阵的步骤进一步包括：

以测试文本、测试词、训练文本和训练词为结点，测试词和训练词在测试文本和训练文本中的重要性为边的权重建立文本-词情感图，根据所述文本-词情感图建立相似矩阵M和/或N；

将所述相似矩阵M和/或N归一化；

将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵

和/或

由所述矩阵

的元素

在所述相似矩阵M中的列号构成邻域矩阵Mn中的元素Mn_ij，由所述矩阵

的元素在所述相似矩阵N中的列号构成邻域矩阵Nn中的元素Nn_ij。

在上述方法中，所述步骤2)中建立所述相似矩阵V，并计算其归一化矩阵和邻域矩阵的步骤进一步包括：

以测试词和训练词为结点，词间语义相似性为边的权重建立词-词情感图，根据所述词-词情感图建立相似矩阵V；

由所述矩阵

的元素在所述相似矩阵V中的列号构成邻域矩阵Vn中的元素Vn_ij。

在上述方法中，所述词间语义相似性为基于互信息法或隐含语义分析法计算。

在上述方法中，所述步骤2)中建立所述相似矩阵U，并计算其归一化矩阵和邻域矩阵的步骤进一步包括：

以测试文本和训练文本为结点，文本间内容相似度为边的权重建立文本-文本情感图，根据所述文本-文本情感图建立相似矩阵U；

由所述矩阵

的元素

在所述相似矩阵U中的列号构成邻域矩阵Un中的元素Un_ij。

在上述方法中，所述文本间内容相似度为余弦相似度、或基于明氏距离、马氏距离、兰氏距离计算的相似度。

本发明提供的文本情感倾向性分析方法能够大幅提高对新领域的文本进行分类的精度。

附图说明

图1是根据本发明的优选实施例的文本情感倾向性分析方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明一个实施例的文本情感倾向性分析方法进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

事实上，文本的倾向性可以由相关文本以及相关情感词共同确定；反之，情感词的倾向性也同样可以由相关文本以及相关情感词共同确定。以上结论是基于以下两点原因：

1)、与其它持“支持”(“反对”)观点的文本紧密相关的文本也将持“支持”(“反对”)观点；同样，与其它持“支持”(“反对”)观点的词紧密相关的情感词也将持“支持”(“反对”)观点。

2)、包含许多持“支持”(“反对”)观点的词的文本也将持“支持”(“反对”)观点；同样，出现在许多持“支持”(“反对”)观点的文本中的情感词也将持“支持”(“反对”)观点。

基于上述结论，本发明利用源领域的标注文本和标注词对目标领域未标注文本按其倾向性进行分类。

具体地，假设存在两个文本集：测试文本集D^U＝{d₁，...，d_i，...，d_nd}，其中d_i表示第i个测试文本的向量，所有测试文本都没有标签；训练文本集D^L＝{d_nd+1，...，d_j，...，d_nd+md}，其中d_j表示第j个训练文本的向量，每一个训练文本d_j∈D^L(其中j＝nd+1，...，nd+md)都有一个来自类别集C＝{支持，反对}中的标签。假设源领域和目标领域为相关但不相同的领域。同时，假设存在两个词集：测试词集W^U＝{w₁，...，w_nw}是D^U中文本内的词的集合，所有词都没有标签；训练词集W^L＝{w_nw+1，...，w_nw+mw}是D^L中文本内词的集合，每一个词w_j∈W^L(其中j＝nw+1，...，nw+mw)都有一个来自C中的标签。下面将详细描述：根据本发明的一个优选实施例，利用另一个领域的训练数据集D^L和W^L来对测试文本集D^U的每一个文本d_i∈D^U(其中i＝1，...，nd)分配一个C中的标签的详细过程。

对于源领域的标注数据，给每个文本和词分配一个初始得分来表示它们的情感倾向性程度，其中“1”表示“支持”，“-1”表示“反对”。此后，将表示数据的情感倾向性程度的得分称为情感分。对于目标领域数据，本领域的普通技术人员可以理解，可以将初始情感分设为0；也可以基于文本分类算法中的任意一种分类器，诸如原型“Prototype”倾向性分析方法、朴素贝叶斯“

Bayes”方法、支持向量机“SVM”分类器、k-最近邻方法、决策树方法等，利用源领域的标注数据训练，对目标领域数据分类使其具有一个初始情感分。

在文本与词之间存在以下四种关系：

DD-关系：文本间关系，可以采用文本间内容相似性计算。

WW-关系：词间关系，可以采用基于知识的方法或基于语料的方法计算。

DW-关系：文本与词间关系，可以采用词在文本中的相对重要性来计算。

WD-关系：词与文本间关系，可以采用文本对词的相对重要性来计算。

根据本发明的一个具体实施例，将以上各种关系完全融合到一个统一的框架之中。整个过程由两部分构成：情感图生成部分和相互增强部分。在情感图生成部分中，充分利用源领域的标注数据和目标领域的未标注数据，生成三个情感图来反映上述四种关系。在相互增强部分，可以采用随机游走模型来计算目标领域文本和词的情感分，当算法收敛时，所有的测试文本得到其最终情感分，并据此判别测试文本的倾向性。

首先，生成三个情感图来反映上述四种关系。

其中所用到的各符号如表1所示。第一列为关系的名称；第二列为对应于相应关系的相似性矩阵的表示符号；考虑到收敛性，需将相似性矩阵归一化，第三列为矩阵归一化后的矩阵表示符号；为了计算情感分，需要求出文本与词的邻域，第四列为邻域矩阵的表示符号。

表1符号描述

采用以下方式建立一个加权二部图模型作为文本-词情感图来反映文本集D^U和D^L与词集W^U和W^L间的关系，其中该图中的结点可以分成两个不相交的集，使得同一集内的结点不相邻，且该图中的边具有权重。图中每个结点表示D^U和D^L中一个文本或W^L和W^U中一个词；如果词w_j出现在文本d_i中，生成一条从w_j到d_i的边。边的权重wei(d_i，w_j)由词w_j在文本d_i中的相对重要性来计算：

wei (d_{i}, w_{j}) = \frac{{tf}_{w_{j}} \times {idf}_{w_{j}}}{\underset{w &Element; d_{i}}{Σ} {tf}_{w} \times {idf}_{w}} - - - (1)

其中w表示d_i中一个非重复词，tf_w和idf_w分别是文本中词w的词频及逆词频，

和与之类似。

根据上述文本-词情感图，以wei(d_i，w_j)为元素的邻接矩阵M＝[M_ij]_ndx(nw+mw)表示文本集D^U与词集W^U和W^L间的相似矩阵，其前nw列表示D^U和W^U间相似矩阵，后mw列表示D^U和W^L间相似矩阵。该邻接矩阵M表示了文本集D^U与词集W^U或W^L间的关系。

考虑到收敛性，将邻接矩阵M归一化为矩阵

使得中每一行元素的和为1：

为了找出一个文本在W^U和W^L中的邻域(即最相似的词或者文本)，分别对D^U和W^U间相似矩阵以及D^U和W^L间相似矩阵进行降序排序，得到

这也就是说，对(j＝1，...，nw)的每一行进行降序排序，然后对

(j＝nw+1，...，nw+mw)的每一行进行降序排序。因此，对于d_i∈D^U(i＝1，...，nd)，

(j＝1，...，K₁)的相应元素在矩阵

中所在位置的列号表示文本d_i在W^U中的邻居，类似地，

(j＝K₁+1，...，2K₁)的相应元素在矩阵

中所在位置的列号表示文本d_i在W^L中的邻居，邻居个数K₁的取值范围为[0，min(训练词个数，测试词个数)]。使用邻域矩阵

Mn = {[{Mn}_{ij}]}_{nd \times {2 K}_{1}}

来表示D^U在W^U和W^L中的邻居，也就是说Mn_ij为元素在矩阵

中的列号。

类似地，根据上述文本-词情感图，使用邻接矩阵N＝[N_ij]_nwx(nd+md)表示词集W^U与文本集D^U和D^L间的相似矩阵，其前nd列表示W^U和D^U间相似矩阵，后md列表示W^U和D^L间相似矩阵。该矩阵表示词集W^U与文本集D^U或D^L间的关系。每个元素N_ij即为wei(d_j，w_i)。将邻接矩阵N归一化为矩阵

使得

中每一行的和为1。然后分别对

(j＝1，...，nd)的每一行及

(j＝nd+1，...，nd+md)的每一行进行降序排序得到矩阵

最终，使用矩阵

Nn = {[{Nn}_{ij}]}_{nw \times {2 K}_{2}}

来表示W^U在D^U和D^L中的邻居，K₂的取值范围为[0，min(训练文本个数，测试文本个数)]。

建立一个无向图模型作为文本-文本情感图，结点表示D^L和D^U中的文本，边表示文本间的内容相似度。如果两个文本间内容相似度为0，则图中两点间无边，如果不为0，则图中两点间有边，且边的权重即为此内容相似度。

本领域普通技术人员可以理解，文本的内容相似度有多种计算方法，例如利用余弦相似度或者基于诸如明氏“Minkowski”距离、马氏“Mahalanois”距离、兰氏“Lance”距离的某种距离函数计算相似度。在该实施例中，用余弦相似度来计算。使用邻接矩阵U来表示该相似矩阵，其前nd列表示D^U间的相似矩阵，后md列表示D^U和D^L间的相似矩阵。

为保证算法收敛，将邻接矩阵U归一化为矩阵

使得

中每一行的和为1。然后分别对

(j＝1，...，nd)的每一行以及

(j＝nd+1，...，nd+md)的每一行进行降序排序得到

最后，使用矩阵

Un = {[{Un}_{ij}]}_{nd \times 2 K_{3}}

来表示D^U在D^U和D^L中的邻居，K₃的取值范围为[0，min(训练文本个数，测试文本个数)]。

类似于文本-文本情感图，建立一个无向图模型作为词-词情感图来反映词集W^L与W^U间的关系，每个结点表示一个词，边的权重表示词间语义相似性。

可以使用基于语料的方法计算词与词的语义相似性，即利用语料中的信息计算词间的相似性，本领域普通技术人员可以理解，基于语料的方法又分为很多方法，如互信息法、隐含语义分析法等。根据该实施例，采用滑动窗口法计算词的语义相似性。使用邻接矩阵V来表示相似矩阵，其前nw列表示W^U和W^U间的相似矩阵，后mw列表示W^U和W^L间的相似矩阵。同样，将邻接矩阵V归一化为矩阵

使得

中每一行的和为1。然后分别将

(j＝1，...，nw)中的每一行以及

(j＝nw+1，...，nw+mw)中的每一行进行降序排序得到

使用矩阵

Vn = {[{Vn}_{ij}]}_{nw \times {2 K}_{4}}

来表示W^U在W^U和W^L中的邻居，K₄的取值范围为[0，min(训练词个数，测试词个数)]。

本领域普通技术人员可以理解，根据本发明的优选实施例，以上全部四种关系可以全部采用。当然，即使只采用以上四种关系后三种中的1种或多种，也已经利用了词的知识。例如，K₁取0时表示没用到词对文本的促进关系；K₂取0时表示没用到文本对词的促进关系；K₃取0时表示没用到文本间关系；K₄取0时表示没有用到词间关系。K₁、K₂、K₃、K₄不能同时取0。

将根据上述三个情感图表示的四种关系融合在一起来迭代计算情感分，由此得到以下计算公式：

{ds}_{i} = α \times \underset{g &Element; {Un}_{i \cdot}}{Σ} ({\hat{U}}_{ig} \times {ds}_{g}) + β \times \underset{l &Element; {Mn}_{i \cdot}}{Σ} ({\hat{M}}_{il} \times {ws}_{l}) - - - (3)

{ws}_{j} = α \times \underset{g &Element; {Nn}_{j \cdot}}{Σ} ({\hat{N}}_{jg} \times {ds}_{g}) + β \times \underset{l &Element; {Vn}_{j \cdot}}{Σ} ({\hat{V}}_{jl} \times {ws}_{l}) - - - (4)

其中，i·表示矩阵的第i行，j·表示矩阵的第j行；Ds＝{ds₁，...，ds_nd，ds_nd+1，...，ds_nd+md}中的每个元素分别表示D^U和D^L中的文本的情感分；Ws＝{ws₁，...，ws_nw，ws_nw+1，...，ws_nw+mw}中的每个元素分别表示W^U和W^L中的词的情感分；α和β分别表示文本集和词集对最终情感分的贡献大小，其取值范围均为[0，1]，且α+β＝1，α取0时表示没有用到文本间关系以及文本对词的关系；β取0时表示没有用到词对文本的关系以及词间关系。g∈Un_i·表示g是矩阵Un中第i行的一个元素，表示矩阵

中第i行第g列的元素，其他类似符号类推。

为保证算法收敛，算法每迭代一次都需要分别将Ds和Ws根据公式(5)和(6)进行归一化，使得正的情感分之和为1，负的情感分之和为-1。

其中D_neg ^U和D_pos ^U分别表示D^U中倾向性为“反对”的文本集合及“支持”的文本集合；W_neg ^U和W_pos ^U分别表示W^U中倾向性为“反对”的词集合及“支持”的词集合。

根据本发明的优选实施例，完整算法如下所述：

1、初始化d_i∈D^L(i＝nd+1，...，nd+md)的情感分ds_i(当d_i标注为“支持”时情感分初始化为“1”，“反对”时情感分初始化为“-1”)，初始化w_i∈W^L(i＝nw+1，...，nw+mw)的情感分ws_i(当w_i标注为“支持”时情感分初始化为“1”，“反对”时情感分初始化为“-1”)。然后分别将ds_i(i＝nd+1，...，nd+md)和ws_i(i＝nw+1，...，nw+mw)归一化，使得D^L中的文本的正的情感分之和为1，D^L中的文本的负的情感分之和为-1；类似地，归一化ws_i。同时将D^U和W^U中的文本或词的情感分初始化为0。

2、迭代进行下两步直到收敛：

2.1根据下列公式计算ds_i(i＝1，...，nd)并归一化：

{ds}_{i}^{(k)} = α \times \underset{g &Element; {Un}_{i \cdot}}{Σ} ({\hat{U}}_{ig} \times {ds}_{g}^{(k - 1)}) + β \times \underset{l &Element; {Mn}_{i \cdot}}{Σ} ({\hat{M}}_{il} \times {ws}_{i}^{(k - 1)}),

2.2根据下列公式计算ws_j(j＝1，...，nw)并归一化：

{ws}_{j}^{(k)} = α \times \underset{g &Element; {Nn}_{j \cdot}}{Σ} ({\hat{N}}_{jg} \times {ds}_{g}^{(k - 1)}) + β \times \underset{l &Element; {Vn}_{j \cdot}}{Σ} ({\hat{V}}_{jl} \times {ws}_{i}^{(k - 1)}),

其中ds_i ^(k)和ws_j ^(k)分别表示第k次迭代时的情感分ds_i和ws_j。

3、对于每一个测试文本d_i∈D^U(i＝1，...nd)，如果连续两次迭代所计算得到的情感分ds_i∈Ds(i＝1，...，nd)的变化量低于一个给定的阀值，则迭代结束，根据此时的情感分判别每个测试文本的情感倾向性。根据本发明的一个具体实施例，此阀值为0.00001。如果ds_i∈[-1，0]，则将d_i标注为“反对”；如果ds_i∈[0，1]，则将d_i标注为“支持”。

本发明针对如表2所示的三个不同领域(电子、财经、酒店)的文本集进行实验模拟。评价指标采用精度，对比方法采用Prototype倾向性分析方法。

表2：数据集构成

数据集	反对评论数	支持评论数	评论平均长度	词典长度
数据集	反对评论数	支持评论数	评论平均长度	词典长度	电子	554	1,054	121	6,200
财经	683	364	460	13,012	电子	554	1,054	121	6,200
财经	683	364	460	13,012	酒店	2,000	2,000	181	11,336

其中“词典长度”表示数据集中不同词的数量。

实验模拟结果如表3所示，其中电子-＞财经表示在电子领域上进行训练，在财经领域上进行测试，0.6652表示Prototype方法测试结果的精度，也就是采用Prototype方法的正确率，其它类推。实验结果表明本发明的文本情感倾向性分析方法具有较高移植能力。在对新领域测试集进行测试时，本发明的平均精度达到了82.05％，大约比Prototype方法平均高14.2个百分点。

表3实验结果

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。