CN101739430A

CN101739430A - 一种基于关键词的文本情感分类器的训练方法和分类方法

Info

Publication number: CN101739430A
Application number: CN200810227105A
Authority: CN
Inventors: 谭松波; 程学旗
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2008-11-21
Filing date: 2008-11-21
Publication date: 2010-06-16
Anticipated expiration: 2028-11-21
Also published as: CN101739430B

Abstract

本发明提供一种基于关键词的文本情感分类器训练方法和分类方法，其中情感分类器训练方法包括下列步骤：1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征；2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W；3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X，在映射空间X·W上训练分类器。根据本发明的文本情感分类方法对新领域的文本进行分类的精度更高。

Description

一种基于关键词的文本情感分类器的训练方法和分类方法

技术领域

本发明涉及模式识别领域，具体涉及一种基于关键词的文本情感分类器的训练方法和应用该分类器进行的文本分类方法。

背景技术

文本情感分类，是指根据对文本的分析确定该文本对某个对象的态度是正面还是负面。现有的文本情感分类方法具有很强的领域或主题依赖性。例如，在教育领域训练的情感分类器在教育领域中表现很好，但是在电影领域或其它领域分类精度就会很差。也就是说，现有的文本情感分类方法在情感挖掘中进行领域移植比较困难。

其客观原因主要有两个方面：首先，不同领域之间的词语空间存在很大差距，例如“便携的”、“快速的”常常出现在笔记本电脑的评论中，但几乎不会出现在房产评论中；其次，一些情感词语的极性也会发生变化，例如，房产评论中的“这套房子的客厅太小，让人感觉有点憋闷”中的“小”是负面的，但手机评论中的“诺基亚N3100非常小，很适合携带”的“小”是正面的。

因此，要想在新领域也取得很好的性能，根据现有技术就不得不为该新领域人工标注一个较大的训练集，并采用这个训练集重新训练一个分类器。但是在实践中，因为这非常耗费精力与时间所以这种做法效率很低，甚至有时不可实现。所以说，研究一种具备移植能力的文本情感分类方法具有重要的现实意义。

发明内容

本发明要解决的技术问题是提供一种具备移植能力的并且精度较高文本情感分类方法。

根据本发明的一个方面，提供了一种基于关键词的文本情感分类器训练方法，包括下列步骤：

1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征；

2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W；

3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X，在映射空间X·W上训练分类器。

所述训练方法中，所述步骤2)包括：

21)根据公式

计算映射向量w_l ^*，其中argmin表示当括号内函数取最小值时的w_l，x_ij表示一个文本向量x_i的第j个分量，Q表示旧领域训练集和新领域测试集内的文本中词语总数，p_l(x_i)表示文本数据x_i中是否出现枢纽特征x_il，其表示为

22)由所述映射向量w_l ^*构成所述矩阵W。

所述训练方法中，所述步骤2)包括：

23)在旧领域训练集和新领域测试集的文本的词语中确定高频领域特征；

24)综合所述高频领域特征，根据公式计算所述映射向量w_l ^*，其中argmin表示当括号内函数取最小值时的w_l，x_ij表示一个文本向量x_i的第j个分量，Q表示旧领域训练集和新领域测试集内的文本中词语总数，p_l(x_i)表示文本数据x_i中是否出现枢纽特征x_il，其表示为δ_j表示分量x_ij在计算映射向量w_l时的权重，其表示为其中所述Z_HFDS表示高频领域特征，η为参数；

22)由所述映射向量w_l ^*构成所述矩阵W。

所述训练方法中，所述步骤2)包括：

25)综合高频领域特征，根据公式计算所述映射向量w_l ^*，

其中argmin表示当括号内函数取最小值时的w_l，x_ij表示一个文本向量x_i的第j个分量，M表示枢纽特征的个数，Q表示旧领域训练集和新领域测试集内的文本中词语总数，p_l(x_i)表示文本数据x_i中是否出现枢纽特征x_il，其表示为

δ_j表示分量x_ij在计算映射向量w_l时的权重，其表示为

其中所述Z_HFDS表示高频领域特征的集合，η为参数λ是参数，||||表示二范数；

22)由所述映射向量w_l ^*构成所述矩阵W。

其中，所述步骤23)包括：

231)根据公式

确定所述高频领域特征，其中β是非零参数，p_o(t)，p_n(t)分别表示特征t在旧领域训练集与新领域测试集中的出现概率。

其中，所述步骤231)中所述p_o(t)根据如下公式计算，

其中N_o和N_n分别表示旧领域训练集与新领域测试集的文本总数，N_o(t)和N_n(t)分别表示特征t在旧领域训练集与新领域测试集中出现的文本数目，α为平滑因子。

其中，所述步骤231)中所述p_n(t)根据如下公式计算，

根据本发明的另一方面，还提供了一种基于关键词的文本情感分类方法，包括：根据上述训练方法所训练的分类器对新领域测试集内的文本进行分类。

本发明的有益效果在于，根据本发明的文本情感分类方法对新领域的文本进行分类的精度较高。

附图说明

图1是根据本发明的优选实施例的基于关键词的文本情感分类方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明一个实施例的基于关键词的文本情感分类方法进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的基本思想是建立一个有效的领域移植模型，该模型能够将旧领域训练集与新领域测试集统一起来训练。不可否认，旧领域与新领域之间存在很大的词语空间差异。但是，另一方面，旧领域与新领域之间还存在一些分布相似、情感倾向一致的情感词，称为“枢纽(pivot)特征”。例如：财经类例子：“招商银行是一家非常优秀的上市公司”，电子类例子：“HpCompaq(商用笔记本)的性能非常优秀”，则“优秀”就可以作为枢纽特征。因此，本发明根据这些″枢纽特征″可以建立一条由旧领域通向新领域的桥梁。

根据上述基本思想，如图1所示，本发明一个实施例的基于关键词的文本情感分类方法的具体流程如下：

首先，在旧领域训练集和新领域测试集内的文本的关键词中，挑选M个枢纽特征，此过程可以人工实现。

优选的，分别在旧领域训练集和新领域测试集的文本的词语中，确定L个高频领域特征(high-frequency domain-specific，HFDS)。其中高频领域特征是指在某个领域频繁出现，但又几乎不含有情感信息的特征，例如教育领域中的“教育”，“高校”，“研究生”等等。通常这些高频领域特征影响其它情感特征的情感表达能力。一个优选的解决办法是降低这些高频领域特征的权重。高频领域特征可以通过如下公式(1)确定：

f_{t} = \log (\max (P_{o} (t), P_{n} (t))) + \log (\frac{\max (P_{o} (t), P_{n} (t))}{\min (P_{o} (t), P_{n} (t)) + β}) - - - (1)

其中β是为了防止出现分母为0的情况而采用的非零参数，在本发明的一个实施例中β＝1.0。本领域技术人员可以理解，如果能够确定该特征t在旧领域训练集和新领域测试集中都曾出现，则在该公式中也可以不采用该参数β。p_o(t)，p_n(t)分别表示特征t在旧领域训练集与新领域测试集中的出现概率：

P_{o} (t) = \frac{(N_{o} (t) + α)}{(N_{o} + 2 \cdot α)} - - - (2)

P_{n} (t) = \frac{(N_{n} (t) + α)}{(N_{n} + 2 \cdot α)} - - - (3)

在公式(2)和公式(3)中，N_o和N_n分别表示旧领域训练集与新领域测试集的文本总数。N_o(t)和N_n(t)分别表示特征t在旧领域训练集与新领域测试集中出现的文本数目，即含有该特征t的文本数目。α为平滑因子，根据本发明的一个具体实施例α＝0.0001。当然，不进行平滑同样可以实现本发明的基本技术目的。

高频领域特征的集合表示为Z_HFDS。

本领域内普通技术人员可以理解，上述公式(1)仅是能够确定高频领域特征的一个例子，也可以对该公式进行适应性修改或采用其它方式确定高频领域特征，只要能体现词频即可。

然后，建立新旧领域之间的桥梁。

依照本发明的一个优选实施例，根据旧领域训练集和新领域测试集内的文本可以利用如下公式(4)计算枢纽特征与文本向量的各个分量的交互关系，即从由旧领域训练集和新领域测试集内的文本共同构成的原始空间向实数空间的线性映射向量w_l ^*：

{w_{l}}^{*} = \arg \min_{w_{l}} (Σ_{i} {(p_{l} (x_{i}) Σ_{j} δ_{j} w_{lj} x_{ij} - 1)}^{2} + λ {| | w_{l} | |}^{2}) l = 1, . . ., M, j = 1, . . ., Q - - - (4)

其中argmin表示当括号内函数取最小值时的w_l，优选的w_l初始值为[1，1，…，1]；x_ij表示一个文本向量x_i的第j个分量；λ是参数，优选取值范围是[0，10]；||||表示二范数；M表示枢纽特征的个数；Q表示旧领域训练集和新领域测试集内的文本中词语总数；p_l(x_i)表示一个二元函数，表示文本数据x_i中是否出现枢纽特征x_il，其形式化表示如下，

其中δ_j表示分量x_ij在计算映射向量w_l时的权重，

其中η的取值范围是[0.1，0.3]。本领域普通技术人员可以理解，如果在之前的步骤中没有确定高频领域特征，则在公式(4)中可以没有δ_j或者δ_j始终为1。该公式也可以不存在λ||w_l||²项，该项存在的意义在于可以使本公式具有较强的鲁棒性，即可以更好地适用于所有领域的文本。

公式(4)计算得到的w_l ^*描述了枢纽特征与文本向量的各个分量的交互关系。如果w_l ^*的第z个分量w_lz ^*是正的，那么表示第l个枢纽特征与文本中第z个分量存在正相关。

由计算得到的w_l ^*构成能够描述各个枢纽特征与文本向量的各个分量的交互关系的矩阵W，即

实质上，w_l ^*实现了文本数据从原始空间向实数空间的线性映射。根据文本的每个枢纽特征得到一个实数值，该实数值作为新特征，于是可以得到M个新特征。根据旧领域训练集中文本的情感标签，对该新特征训练一个分类器，那么该训练所得的分类器将能够在新领域测试集的文本上表现出不错的情感分类性能。该训练分类器及对新领域测试集的文本分类的具体操作如下：

由旧领域训练集和新领域测试集内的所有文本构成矩阵X，即X＝[x₁，x₂，...，x_N]^T，其中N表示旧领域训练集和新领域测试集内的所有文本数之和。X的每行对应一个文本。根据旧领域训练集中文本的情感标签，在映射空间X·W上训练一个新的分类器，其中情感标签标识了文本是正面的还是负面的。根据本发明的一个实施例，采用中心法进行训练，但本领域普通技术人员可以理解，也可以采用其它分类方法进行，例如贝叶斯、支持向量机(SVM)等。训练所得到的分类器为M维。

将训练所得分类器利用相应的分类方法应用到新领域测试集内的文本，即在映射空间X_New·W上对新领域测试集内的文本进行分类，其中X_New是新领域测试集内的所有文本构成矩阵，每一行对应一个文本。

本发明对三个中文情感语料集：教育评论(Edu)、财经评论(Sto)和电脑评论(Comp)进行了实验模拟。教育评论中含有1012篇负面评论与254篇正面评论；财经评论中含有683篇负面评论与364篇正面评论；电脑评论中含有390篇负面评论与544篇正面评论。

在该实施例中枢纽特征设定为30个，高频领域特征设定为200个，η设定为0.1。评价指标采用精度。对比方法采用中心情感分类方法与贝叶斯情感分类方法。

实验模拟结果如表1所示，其中Edu-＞Sto表示在教育评论上进行训练，在财经评论上进行测试，0.6704表示贝叶斯方法测试结果的精度，也就是正确率。其表明本发明的情感分类方法具有较高移植能力。在对新领域测试集进行测试时，本发明的平均精度达到了83.7％，高出中心情感分类方法12个百分点，高出贝叶斯情感分类方法23个百分点。

表1现有技术与本发明的实验结果表

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。