CN101882136B

CN101882136B - 文本情感倾向性分析方法

Info

Publication number: CN101882136B
Application number: CN200910083522.1A
Authority: CN
Inventors: 吴琼; 谭松波; 程学旗
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2009-05-08
Filing date: 2009-05-08
Publication date: 2015-02-04
Anticipated expiration: 2029-05-08
Also published as: CN101882136A

Abstract

本发明提供一种文本情感倾向性分析方法，包括下列步骤：1)根据训练文本的标签确定测试文本的初始情感分；2)基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化；3)当所述迭代结束时，根据所述计算的结果判别所述测试文本的情感倾向性。本发明提供的文本情感倾向性方法能够大幅提高对新领域的文本进行分类的精度。

Description

文本情感倾向性分析方法

技术领域

本发明涉及模式识别领域，具体涉及一种文本分析方法。

背景技术

论坛、博客等网络交流平台的快速发展使得网上存在大量带有情感倾向性的文本。如何从大规模富含情感信息的文本中快速进行倾向性分析，成为越来越引起广泛关注的研究问题。文本情感倾向性分析研究就是在这样的背景下开展起来的，它就是对整篇文本所体现出的情感进行判断，也就是对文本中的主观信息进行判断。

随着信息量的急速增加、新领域的不断涌现，人们需要在越来越多的新领域里进行倾向性分析，而在新领域里重新进行人工标注是个费时费力的事情。因此要尽量基于已经标注好的数据对新领域进行分析，这使得跨领域的倾向性分析具有重大意义。

文本倾向性分析具有很强的领域依赖性。训练域里有强烈倾向性的词在测试域里不再有强烈倾向性，反之亦然。例如，“便携的”在电子评论里就是一个具有正面倾向性的词，而在酒店评论里就不具有强烈的倾向性。当用来训练分类器的已判断倾向性的集合和待判断倾向性的集合不是同一个领域的时候，例如，已知酒店评论数据集的倾向性需要判断电子评论数据集的倾向性的情况，传统的分类方法的效果就变得很差。

发明内容

本发明目的在于提供一种精度高的文本情感倾向性分析方法。

根据本发明的一个方面，提供了一种文本情感倾向性分析方法，包括下列步骤：

1)根据训练文本的标签确定测试文本的初始情感分；

2)基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化；

3)当所述迭代结束时，根据所述计算的结果判别所述测试文本的情感倾向性。

在上述方法中，所述步骤1)还包括根据训练文本的标签确定训练文本的初始情感分；

所述步骤2)进一步包括：

21)基于所述图排序算法，利用所述训练文本的初始情感分计算所述测试文本的情感分的第一分量；

22)基于所述图排序算法，利用所述测试文本的初始情感分计算所述测试文本的情感分的第二分量；

23)利用所述两个分量迭代计算所述测试文本的情感分并归一化。

在上述方法中，所述步骤21)进一步包括：

以所述测试文本和训练文本为结点、所述训练文本和所述测试文本间的内容相似度为边建立图模型；

根据所述图模型构建联接矩阵并归一化；

将所述归一化的联接矩阵的每一行降序排列；

根据所述降序排列后的联接矩阵的每一行的前K₁个元素对应的训练文本的情感分计算所述测试文本的情感分的第一分量，其中K₁的取值范围为[1，训练文本个数]。

在上述方法中，所述步骤22)进一步包括

以所述测试文本为结点、所有测试文本间的内容相似度为边建立图模型；

根据所述图模型构建联接矩阵并归一化；

将所述归一化的联接矩阵的每一行降序排列；

根据所述降序排列后的联接矩阵的每一行的前K₂个元素对应的测试文本的情感分计算所述测试文本的情感分的第二分量，其中K₂的取值范围为[1，测试文本个数]。

在上述方法中，所述步骤1)包括：根据所述训练文本的标签对所述测试文本进行分类，根据所述分类确定所述测试文本的初始情感分。

本发明提供的文本情感倾向性方法能够大幅提高对新领域的文本进行分类的精度。

附图说明

图1是根据本发明的优选实施例的文本情感倾向性分析方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明一个实施例的文本情感倾向性分析方法进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明利用一个领域的标注文本对另一领域未标注文本按其倾向性进行分类。具体地，假定测试集为D^U＝{d^U ₁，...，d^U _n}，其中d^U _i是第i个测试文本的特征向量，用其表示第i个测试文本，测试文本d^U _i∈D^U(i＝1，...，n)且没有被标注。训练集为D^L＝{d^L ₁，...^dL_m}，其中d^L _j是第j个训练文本的特征向量，用其表示第j个训练文本。训练文本d^L _j∈D^L(j＝1，...，m)且具有一个来自类别集C＝{支持，反对}中的标签。测试集D^U和训练集D^L可以来自相关但不相同的领域。利用训练集D^L对测试集中的每一个测试文本d^U _i∈D^U(i＝1，...，n)分类。

根据本发明的一个具体实施例，将文本的倾向性与图排序算法结合起来，根据训练文本的标签为测试集和训练集中的每一个文本分配一个初始情感分，来表示该文本情感倾向性的程度；然后基于迭代方法利用初始情感分计算测试文本的情感分并归一化；当迭代算法收敛时得到测试文本的最终情感分，并据此判别测试文本的倾向性。

首先为训练集与测试集中每一个文本的情感分赋一个初始值，得到初始情感分向量S⁰＝{s⁰ ₁，...，s⁰ _n，s⁰ _n+1，...，s⁰ _n+m}，其中s⁰ _i(i＝1，...，n)表示测试文本的初始情感分，s⁰ _j(j＝1，...，m)表示训练文本的初始情感分。对于训练文本，它们已经有正确标签，则如果文本具有正面标签，则文本对应的情感分为1，如果文本具有负面标签，它对应的情感分为-1。对于测试文本，基于文本分类算法中的任意一种分类器，诸如原型“Prototype”倾向性分析方法、朴素贝叶斯“Bayes”方法、支持向量机“SVM”分类器、k-最近邻方法、决策树方法等，用训练集训练，对测试文本分类使其具有一个伪标签，此时的分类准确度通常很低，根据此伪标签得到测试文本的情感分的初始值。

然后，根据初始情感分向量S⁰迭代计算测试文本的最终情感分。下面详细介绍根据本发明的一个优选实施例，计算测试文本的最终情感分的过程：

首先根据训练集的情感分计算测试集的情感分的一个分量。

建立一个图模型，结点表示D^L和D^U中的文本，边表示文本间的内容相似度。如果两个文本间内容相似度为0，则图中两结点间无边，如果不为0，则图中两结点间有边且边的权重为该内容相似度。本领域普通技术人员可以理解，文本的内容相似度有多种计算方法，例如利用余弦相似度或者基于诸如明氏“Minkowski”距离、马氏“Mahalanois”距离、兰氏“Lance”距离的某种距离函数计算相似度。在此实施例中利用余弦相似度来计算。根据该图模型构建联接矩阵U，其元素表示测试文本和训练文本间的内容相似度，U＝[U_ij]_n×m定义如下：

U_{ij} = \frac{d_{i}^{U} \cdot d_{j}^{L}}{| | d_{i}^{U} | | \times | | d_{j}^{L} | |}, i = 1, . . ., n, j = 1, . . ., m - - - (1)

其中，用文本的特征向量来表示文本，d^U _i是第i个测试文本的特征向量，d^U _i＝(w_1，i，w_2，i，...，w_p，i)，w_t，i(t＝1，...，p)表示该向量中第t个特征的权重，根据该特征在文本中的词频tf_t来计算。d^L _j与d^U _i类似。

将联接矩阵U归一化为矩阵使得中每一行的和为1：

将的每一行降序排序得到也就是：

{\tilde{U}}_{ij} &GreaterEqual; {\tilde{U}}_{it}

(i＝1，...，n；j，t＝1，...m；t≥j)，以从训练集中找出与该行对应的测试文本最相似的文本集，该文本集包括K₁个训练文本，K₁的取值范围为[1，训练文本个数]。对于d^U _i∈D^U(i＝1，...，n)，(j＝1，...，K)可以示出其在训练域中的K₁个邻居。简化起见，使用矩阵

N = {[N_{ij}]}_{n \times K_{1}}

来表示测试文本在训练域中的邻居，其中N_ij对应于d^U _i的第j个邻居，即

N_{ij} = {\tilde{U}}_{ij} .

本领域普通技术人员可以理解，可以把所有训练文本都作为测试文本在训练域中的邻居，即直接根据矩阵来确定测试文本在训练域中的邻居，而不必对进行降序排序。

用d^U _i的训练域的邻居的情感分来计算其情感分的一个分量，公式如下所示：

{s 1}_{i}^{(k)} = \underset{d_{j}^{L} &Element; N_{i \cdot}}{Σ} ({\hat{U}}_{ij} \times s_{j}^{(k - 1)}), i = 1, . . ., n - - - (3)

其中，N_i·表示矩阵N的第i行，s_j ^(k-1)表示第i个测试文本的第k-1次迭代的情感分，s1_i ^(k)表示第i个测试文本的第k次迭代的情感分的一个分量。

根据测试文本的初始情感分计算测试文本情感分的另一个分量，类似于根据训练文本初始情感分计算。建立另一个图模型，结点表示测试文本，边的权重由它所连接的两个测试文本的余弦相似度来计算。根据该图模型构建联接矩阵V，其元素表示测试文本之间的内容相似度。V＝[V_ij]_n×n定义如下：

同样，将V归一化为然后将的每一行降序排序得到因此得到一个D^U在测试域中的邻居矩阵

M = {[M_{ij}]}_{n \times K_{2}},

其中K₂的的取值范围为[1，测试文本个数]。用d^U _i的测试域的邻居的情感分来计算其情感分的一个分量，与公式3类似，该计算公式如下所示：

{s 2}_{i}^{(k)} = \underset{d_{j}^{U} &Element; M_{i \cdot}}{Σ} ({\hat{V}}_{ij} \times s_{j}^{(k - 1)}), i = 1, . . ., n - - - (5)

其中，M_i·表示矩阵M的第i行，s_j ^(k-1)表示第i个测试文本的第k-1次迭代的情感分，s2_i ^(k)表示第i个测试文本的第k次迭代的情感分的另一个分量。

与测试文本在训练域中的邻居类似，测试文本在测试域中的邻居也可以取除其自身外的所有测试文本，如此则不必对进行降序排序。

根据上述两个分量迭代计算测试文本的情感分：

s_{i}^{(k)} = α \cdot {s 1}_{i}^{(k - 1)} + β \cdot {s 2}_{i}^{(k - 1)},

i＝1，...，n (6)

其中α+β＝1，α和β是分别表示训练域和测试域对测试文本最终情感分的贡献大小的参数，其取值范围均为[0，1]。

为保证算法收敛，算法每迭代一次都需要将测试集的S^(k)归一化，使得正的情感分之和为1，负的情感分之和为-1。

s_{i}^{(k)} = \{\begin{matrix} s_{i}^{(k)} / \underset{j &Element; D_{neg}^{U}}{Σ} (- s_{j}^{(k)}), & if s_{i}^{(k)} < 0 \\ s_{i}^{(k)} / \underset{j &Element; D_{pos}^{U}}{Σ} s_{j}^{(k)}, & if s_{i}^{(k)} > 0 \end{matrix}, i = 1, . . ., n - - - (7)

其中，D^U _neg和D^U _pos分别表示情感分为负和为正的测试文本的集合。

对于每一个测试文本d^U _i∈D^U(i＝1，...n)，如果连续两次迭代所计算得到的情感分s_i的变化量低于一个给定的阀值，则迭代结束，根据此时的情感分判别每个测试文本的情感倾向性。根据本发明的一个具体实施例，此阀值为0.00001。如果情感分大于0，则判别测试文本为支持；如果情感分小于0，则判别测试文本为反对。

上述优选实施例是根据训练文本和测试文本综合计算测试文本的情感分，但是本领域普通技术人员可以理解，也可以只利用训练文本或测试文本来计算测试文本的情感分，即根据公式(3)或(5)来计算测试文本的情感分，并依此来判别测试文本的情感倾向性。

本发明针对如表1所示的三个不同领域(电子评论、财经评论、酒店评论)的文本集进行实验模拟。评价指标采用精度，对比方法采用Prototype倾向性分析方法。

表1文本集构成

文本集	反对评论数	支持评论数	评论平均长度	词典长度
					电子	554	1,054	121	6,200
财经	683	364	460	13,012
					酒店	2,000	2,000	181	11,336

其中“词典长度”表示相对应数据集中不同词的数量。

实验模拟结果如表2所示，其中电子-＞财经表示在电子领域上进行训练，在财经领域上进行测试，0.6652表示Prototype方法测试结果的精度，也就是采样Prototype方法的正确率，其它类推。实验结果表明本发明的文本情感倾向性分析方法具有较高移植能力。在对新领域测试集进行测试时，本发明的平均精度达到了78.8％，大约比Prototype方法高11个百分点。

表2实验结果

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种文本情感倾向性分析方法，包括下列步骤：

1)根据训练文本的标签确定测试文本的初始情感分，以及根据训练文本的标签确定训练文本的初始情感分；

2)基于图排序算法，利用所述训练文本的初始情感分计算所述测试文本的情感分的第一分量；

3)基于图排序算法，利用所述测试文本的初始情感分计算所述测试文本的情感分的第二分量；

4)利用所述两个分量迭代计算所述测试文本的情感分并归一化；

5)当所述迭代结束时，根据所述计算的结果判别所述测试文本的情感倾向性；

所述步骤2)进一步包括：

根据所述图模型构建联接矩阵并归一化；

将所述归一化的联接矩阵的每一行降序排列；

根据所述降序排列后的联接矩阵的每一行的前K₁个元素对应的训练文本的情感分计算所述测试文本的情感分的第一分量，其中K₁的取值范围为[1，训练文本个数]；

所述步骤3)进一步包括

根据所述图模型构建联接矩阵并归一化；

将所述归一化的联接矩阵的每一行降序排列；

2.根据权利要求1所述的方法，其特征在于，所述步骤1)包括：根据所述训练文本的标签对所述测试文本进行分类，根据所述分类确定所述测试文本的初始情感分。