CN101770580B

CN101770580B - 一种跨领域的文本情感分类器的训练方法和分类方法

Info

Publication number: CN101770580B
Application number: CN200910076428.3A
Authority: CN
Inventors: 谭松波; 程学旗
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2009-01-04
Filing date: 2009-01-04
Publication date: 2014-03-12
Anticipated expiration: 2029-01-04
Also published as: CN101770580A

Abstract

本发明提供一种跨领域的文本情感分类器的训练方法，包括下列步骤：1)在源领域和新领域样本的关键词中挑选通用情感特征；2)根据源领域的样本，计算特征w_t属于类别c_k的样本的概率P(t|c_k)，以及类别c_k的概率P(c_k)，进而计算新领域的样本d_i属于类别c_k的概率P(c_k|d_i)；3)基于EM迭代方法训练所述分类器，其中在M步根据源领域和新领域样本以及所述通用情感特征重新计算所述P(t|c_k)和所述P(c_k)，在E步根据重新计算的所述P(t|c_k)和所述P(c_k)重新计算所述P(c_k|d_i)。根据本发明的文本情感分类方法对新领域的文本进行分类的精度较高。

Description

一种跨领域的文本情感分类器的训练方法和分类方法

技术领域

本发明涉及模式识别领域，具体涉及一种跨领域的文本情感分类器的训练方法和应用该分类器进行的文本分类方法。

背景技术

文本情感分类，是指根据对文本的分析确定该文本对某个对象的态度是正面还是负面。现有的文本情感分类方法具有很强的领域或主题依赖性。例如，在教育领域训练的情感分类器在教育领域中表现很好，但是在电影领域或其它领域分类精度就会很差。也就是说，现有的文本情感分类方法在情感挖掘中进行领域移植比较困难。

其客观原因主要有两个方面：首先，不同领域之间的词语空间存在很大差距，例如“便携的”、“快速的”常常出现在笔记本电脑的评论中，但几乎不会出现在房产评论中；其次，一些情感词语的极性也会发生变化，例如，房产评论中的“这套房子的客厅太小，让人感觉有点憋闷”中的“小”是负面的，但手机评论中的“诺基亚N3100非常小，很适合携带”的“小”是正面的。

因此，要想在新领域也取得很好的性能，根据现有技术就不得不为该新领域人工标注一个较大的训练集，并采用这个训练集重新训练一个分类器。但是在实践中，因为这非常耗费精力与时间所以这种做法效率很低，甚至有时不可实现。所以说，研究一种具备移植能力的文本情感分类方法具有重要的现实意义。

发明内容

本发明要解决的技术问题是提供一种跨领域的并且精度较高的文本情感分类方法。

根据本发明的一个方面，提供了一种跨领域的文本情感分类器训练方法，包括下列步骤：

1)在源领域和新领域样本的关键词中挑选通用情感特征；

2)根据源领域的样本，计算特征w_t属于类别c_k的样本的概率P(t|c_k)，以及类别c_k的概率P(c_k)，进而计算新领域的样本d_i属于类别c_k的概率P(c_k|d_i)；

3)基于EM迭代方法训练所述分类器，其中在M步根据源领域和新领域样本以及所述通用情感特征重新计算所述P(t|c_k)和所述P(c_k)，在E步根据重新计算的所述P(t|c_k)和所述P(c_k)重新计算所述P(c_k|d_i)。

其中，上述步骤3)还包括：

判断所述P(c_k|d_i)在此迭代步骤中是否发生改变，如果发生了改变，转M步，如果未发生改变，则存储结果P(t|c_k)。

其中，上述步骤3)的E步包括：

31)根据公式

P (c_{k} | d_{i}) = P (c_{k}) \underset{1 \leq t \leq | V |}{Π} {(P (t | c_{k}))}^{N_{i, t}}

重新计算所述P(c_k|d_i)；其中，|V|表示整个词空间V中所包含的词个数，N_i，t表示样本d_i中特征w_t的出现次数。

其中，所述步骤2)还包括将所述P(c_k|d_i)离散化的步骤；所述步骤3)的所述E步还包括将所述P(c_k|d_i)离散化的步骤。

其中，所述步骤3)的所述M步包括：

32)根据公式

P (c_{k}) = \frac{(1 - λ) \cdot \underset{d_{i} &Element; D^{o}}{Σ} P (c_{k} | d_{i}) + λ \cdot \underset{d_{i} &Element; D^{n}}{Σ} P (c_{k} | d_{i})}{(1 - λ) \cdot | D^{o} | + λ \cdot | D^{n} |}

计算所述P(c_k)；其中λ＝min{δ，τ，1}，τ表示当前迭代步数，δ是控制因子；D^o和Dⁿ分别表示源领域与新领域的样本集合；|D^o|和|Dⁿ|分别表示D^o和Dⁿ中所包含的样本个数。

其中，所述步骤3)的所述M步包括：

33)根据公式

P (t | c_{k}) = \frac{(1 - λ) \cdot (η_{t}^{o} \cdot N_{t, k}^{o}) + λ \cdot (N_{t, k}^{n}) + 1}{(1 - λ) \cdot Σ_{t = 1}^{| V |} (η_{t}^{o} \cdot N_{t, k}^{o}) + λ \cdot Σ_{t = 1}^{| V |} (N_{t, k}^{n}) + | V |}

计算所述P(t|c_k)；其中，λ＝min{δ，τ，1}，τ表示当前迭代步数，δ是控制因子；N_i，t ⁿ表示样本d_i中特征w_t的出现次数且样本d_i属于新领域；N_i，t ^o表示样本d_i中特征w_t的出现次数且样本d_i属于源领域；|V|表示整个词空间V中所包含的词个数；

V_FCE表示挑选出来的通用情感特征。

其中，所述步骤2)的所述计算特征w_t属于类别c_k的样本的概率P(t|c_k)包括根据如下公式计算：

P (t | c_{k}) = \frac{Σ_{i = 1}^{| D^{o} |} N_{i, t}^{o} \cdot P (c_{k} | d_{i}) + 1}{Σ_{t = 1}^{| V |} Σ_{i = 1}^{| D^{o} |} N_{i, t}^{o} \cdot P (c_{k} | d_{i}) + | V |};

其中，|D_o|表示源领域的样本的集合D^o中所包含的样本个数；N_i，t ^o表示样本di中特征w_t的出现次数且样本d_i属于源领域；|V|表示整个词空间V中所包含的词个数。

其中，所述步骤2)的所述计算类别c_k的概率P(c_k)包括根据如下公式计算：

P (c_{k}) = \frac{Σ_{i = 1}^{| D^{o} |} P (c_{k} | d_{i})}{| D^{o} |};

其中，|D^o|表示源领域的样本的集合D^o中所包含的样本个数。

其中，所述步骤1)包括：

11)根据公式

f_{t} = \log (\frac{P_{o} (t) \cdot P_{n} (t)}{| P_{o} (t) - P_{n} (t) | + β}),

确定所述高频领域特征，其中β是非零参数，p_o(t)和p_n(t)分别表示特征w_t在源领域和新领域的样本中的出现概率。

其中，所述步骤11)中所述p_o(t)根据如下公式计算，

P_{o} (t) = \frac{(N_{o} (t) + α)}{(N_{o} + 2 \cdot α)},

其中N_o和N_n分别表示源领域和新领域的样本总数，N_o(t)和N_n(t)分别表示特征w_t在源领域和新领域的样本中出现的样本数目，α为平滑因子。

其中，所述步骤11)中所述p_n(t)根据如下公式计算，

P_{n} (t) = \frac{(N_{n} (t) + α)}{(N_{n} + 2 \cdot α)},

根据本发明的另一方面，还提供了一种跨领域的文本情感分类方法，包括：根据上述训练方法所计算的结果P(t|c_k)对新领域测试集内的文本进行分类。

本发明的有益效果在于，根据本发明的文本情感分类方法对新领域的文本进行分类的精度较高。

附图说明

图1是根据本发明的优选实施例的跨领域的文本情感分类方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明一个实施例的跨领域的文本情感分类方法进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明基本思想是寻找领域之间的通用情感特征，并把通用情感词作为源领域通向新领域的一座桥梁，其中通用情感特征为不但在源领域和新领域频繁出现而且出现频率相似的词语。例如：财经类例子：“招商银行是一家非常优秀的上市公司”，电子类例子：“Hp Compaq(商用笔记本)的性能非常优秀”，则“优秀”就可以作为财经类与电子类之间的“通用情感特征”。然后逐步加大新领域的权重，使分类器模型与新领域达到最佳匹配。本发明即利用了源领域的部分可用信息，又充分吸收了新领域的全部信息。

根据上述基本思想，如图1所示，本发明一个实施例的跨领域的文本情感分类方法的具体流程如下：

首先，在源领域和新领域的样本的关键词中，挑选通用情感特征，此过程可以人工实现，也可以通过计算实现。

优选的，根据本发明的具体实施例依据频繁共现熵(FrequentlyCo-occurring Entropy，FCE)来挑选通用情感特征，即频率共现熵较高的词语即为通用情感特征，其中

f_{t} = \log (\frac{P_{o} (t) \cdot P_{n} (t)}{| P_{o} (t) - P_{n} (t) | + β}) - - - (1)

其中p_o(t)，p_n(t)分别表示特征w_t在源领域与新领域的样本中的出现概率：

P_{o} (t) = \frac{(N_{o} (t) + α)}{(N_{o} + 2 \cdot α)} - - - (2)

P_{n} (t) = \frac{(N_{n} (t) + α)}{(N_{n} + 2 \cdot α)} - - - (3)

在公式(2)和公式(3)中，N_o和N_n分别表示源领域与新领域的样本总数。N_o(t)和N_n(t)分别表示特征w_t在源领域与新领域的样本中出现的样本数目，即含有该特征w_t的样本数目。α为平滑因子，根据本发明的一个具体实施例α＝0.0001。当然，不进行平滑同样可以实现本发明的基本技术目的。

本领域内普通技术人员可以理解，上述公式(1)仅是能够确定通用情感特征的一个例子，也可以对该公式进行适应性修改或采用其它方式确定通用情感特征。例如：β是为了防止出现分母为0的情况而采用的非零参数，在本发明的一个实施例中β＝1.0。本领域技术人员可以理解，如果能够确定该特征w_t在源领域和新领域的样本中出现的概率并非完全相等，则在该公式中也可以不采用该参数β。

然后，根据上述通用情感特征初始化贝叶斯分类器，亦即计算新领域的样本d_i属于类别c_k的概率P(c_k|d_i)的初始值。详细的计算步骤如下：

根据源领域的样本计算特征w_t属于类别c_k的样本的概率P(t|c_k)，以及类别c_k的概率P(c_k)：

P (t | c_{k}) = \frac{Σ_{i = 1}^{| D^{o} |} N_{i, t}^{o} \cdot P (c_{k} | d_{i}) + 1}{Σ_{t = 1}^{| V |} Σ_{i = 1}^{| D^{o} |} N_{i, t}^{o} \cdot P (c_{k} | d_{i}) + | V |} - - - (4)

P (c_{k}) = \frac{Σ_{i = 1}^{| D^{o} |} P (c_{k} | d_{i})}{| D^{o} |} - - - (5)

本领域普通技术人员可以理解，上述公式(4)和(5)仅是可以采用以实现本发明的目的的一个例子，也可以对该公式进行适应性修改或采用其它方式进行计算。例如，|V|是保证分母不为0的参数，可以在其前面添加系数。则公式(4)可以是：

P (t | c_{k}) = \frac{Σ_{i = 1}^{| D^{o} |} N_{i, t}^{o} \cdot P (c_{k} | d_{i}) + 1}{Σ_{t = 1}^{| V |} Σ_{i = 1}^{| D^{o} |} N_{i, t}^{o} \cdot P (c_{k} | d_{i}) + θ | V |} .

P (c_{k} | d_{i}) = P (c_{k}) \underset{1 \leq t \leq | V |}{Π} {(P (t | c_{k}))}^{N_{i, t}} - - - (6)

其中N_i，t表示样本d_i中特征w_t的出现次数。

随后基于EM迭代方法来训练分类器，EM算法是一种公知的迭代算法，在每一次迭代循环过程中交替执行E步和M步两个步骤，当两次迭代之间的参数变化小于预先给定的阈值时算法终止。下述训练分类器的基本思想是对源领域只使用通用情感特征，而对新领域则使用所有特征。随着迭代步数的增加，公式不断增加新领域样本在模型训练中的权重。这样训练出来的分类模型将会与新领域样本达到最大匹配。训练分类器的具体步骤如下：

E步：

P (c_{k} | d_{i}) = P (c_{k}) \underset{1 \leq t \leq | V |}{Π} {(P (t | c_{k}))}^{N_{i, t}} - - - (6)

M步：

P (c_{k}) = \frac{(1 - λ) \cdot \underset{d_{i} &Element; D^{o}}{Σ} P (c_{k} | d_{i}) + λ \cdot \underset{d_{i} &Element; D^{n}}{Σ} P (c_{k} | d_{i})}{(1 - λ) \cdot | D^{o} | + λ \cdot | D^{n} |} - - - (7)

P (t | c_{k}) = \frac{(1 - λ) \cdot (η_{t}^{o} \cdot N_{t, k}^{o}) + λ \cdot (N_{t, k}^{n}) + 1}{(1 - λ) \cdot Σ_{t = 1}^{| V |} (η_{t}^{o} \cdot N_{t, k}^{o}) + λ \cdot Σ_{i = 1}^{| V |} (N_{t, k}^{n}) + | V |} - - - (8)

其中：

N_{t, k}^{o} = \underset{i &Element; D^{o}}{Σ} (N_{i, t}^{o} \cdot P (c_{k} | d_{i}))

N_{t, k}^{n} = \underset{i &Element; D^{n}}{Σ} (N_{i, t}^{n} \cdot P (c_{k} | d_{i}))

λ＝min{δ·τ，1}

其中N_i，t表示样本d_i中特征w_t的出现次数；N_i，t ⁿ表示样本d_i中特征w_t的出现次数且样本d_i属于新领域；D^o和Dⁿ分别表示源领域与新领域的样本集合；N_i，k ^o和N_i，k ⁿ分别表示源领域与新领域的c_k类别的样本中出现特征w_t的概率；λ用来控制新旧两个领域的相对权重；τ表示当前迭代步数；δ是控制因子，其根据本发明的一个实施例取0.2；V_FCE表示挑选出来的通用情感特征。

与公式(4)类似，本领域普通技术人员可以理解，上述公式(6)、(7)和(8)仅是可以采用以实现本发明的目的的一个例子，也可以对该公式进行适应性修改或采用其它方式进行计算。

根据训练所得分类器的P(t|c_k)，利用公式(6)即可计算新领域的文本的P(c_k|d_i)，进行离散化后，该P(c_k|d_i)取值为1所对应的类别即为该文本所述类别。

本发明对三个中文情感语料集：教育评论(Edu)、财经评论(Sto)和电脑评论(Comp)进行了实验模拟。教育评论中含有1012篇负面评论与254篇正面评论；财经评论中含有683篇负面评论与364篇正面评论；电脑评论中含有390篇负面评论与544篇正面评论。

在该实施例中通用情感词设定为200个，δ设定为0.2。评价指标采用精度。对比方法采用贝叶斯情感分类方法。

实验模拟结果如表1所示，其中Edu-＞Sto表示在教育评论上进行训练，在财经评论上进行测试，0.6704表示贝叶斯方法测试结果的精度，也就是采样贝叶斯方法的正确率。实验结果表明本发明的情感分类方法具有较高移植能力。在对新领域测试集进行测试时，本发明的平均精度达到了82.6％，要高出贝叶斯情感分类方法22个百分点。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。