CN101770580B - 一种跨领域的文本情感分类器的训练方法和分类方法 - Google Patents
一种跨领域的文本情感分类器的训练方法和分类方法 Download PDFInfo
- Publication number
- CN101770580B CN101770580B CN200910076428.3A CN200910076428A CN101770580B CN 101770580 B CN101770580 B CN 101770580B CN 200910076428 A CN200910076428 A CN 200910076428A CN 101770580 B CN101770580 B CN 101770580B
- Authority
- CN
- China
- Prior art keywords
- sample
- frontier
- source domain
- centerdot
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种跨领域的文本情感分类器的训练方法,包括下列步骤:1)在源领域和新领域样本的关键词中挑选通用情感特征;2)根据源领域的样本,计算特征wt属于类别ck的样本的概率P(t|ck),以及类别ck的概率P(ck),进而计算新领域的样本di属于类别ck的概率P(ck|di);3)基于EM迭代方法训练所述分类器,其中在M步根据源领域和新领域样本以及所述通用情感特征重新计算所述P(t|ck)和所述P(ck),在E步根据重新计算的所述P(t|ck)和所述P(ck)重新计算所述P(ck|di)。根据本发明的文本情感分类方法对新领域的文本进行分类的精度较高。
Description
技术领域
本发明涉及模式识别领域,具体涉及一种跨领域的文本情感分类器的训练方法和应用该分类器进行的文本分类方法。
背景技术
文本情感分类,是指根据对文本的分析确定该文本对某个对象的态度是正面还是负面。现有的文本情感分类方法具有很强的领域或主题依赖性。例如,在教育领域训练的情感分类器在教育领域中表现很好,但是在电影领域或其它领域分类精度就会很差。也就是说,现有的文本情感分类方法在情感挖掘中进行领域移植比较困难。
其客观原因主要有两个方面:首先,不同领域之间的词语空间存在很大差距,例如“便携的”、“快速的”常常出现在笔记本电脑的评论中,但几乎不会出现在房产评论中;其次,一些情感词语的极性也会发生变化,例如,房产评论中的“这套房子的客厅太小,让人感觉有点憋闷”中的“小”是负面的,但手机评论中的“诺基亚N3100非常小,很适合携带”的“小”是正面的。
因此,要想在新领域也取得很好的性能,根据现有技术就不得不为该新领域人工标注一个较大的训练集,并采用这个训练集重新训练一个分类器。但是在实践中,因为这非常耗费精力与时间所以这种做法效率很低,甚至有时不可实现。所以说,研究一种具备移植能力的文本情感分类方法具有重要的现实意义。
发明内容
本发明要解决的技术问题是提供一种跨领域的并且精度较高的文本情感分类方法。
根据本发明的一个方面,提供了一种跨领域的文本情感分类器训练方法,包括下列步骤:
1)在源领域和新领域样本的关键词中挑选通用情感特征;
2)根据源领域的样本,计算特征wt属于类别ck的样本的概率P(t|ck),以及类别ck的概率P(ck),进而计算新领域的样本di属于类别ck的概率P(ck|di);
3)基于EM迭代方法训练所述分类器,其中在M步根据源领域和新领域样本以及所述通用情感特征重新计算所述P(t|ck)和所述P(ck),在E步根据重新计算的所述P(t|ck)和所述P(ck)重新计算所述P(ck|di)。
其中,上述步骤3)还包括:
判断所述P(ck|di)在此迭代步骤中是否发生改变,如果发生了改变,转M步,如果未发生改变,则存储结果P(t|ck)。
其中,上述步骤3)的E步包括:
31)根据公式 重新计算所述P(ck|di);其中,|V|表示整个词空间V中所包含的词个数,Ni,t表示样本di中特征wt的出现次数。
其中,所述步骤2)还包括将所述P(ck|di)离散化的步骤;所述步骤3)的所述E步还包括将所述P(ck|di)离散化的步骤。
其中,所述步骤3)的所述M步包括:
32)根据公式 计算所述P(ck);其中λ=min{δ,τ,1},τ表示当前迭代步数,δ是控制因子;Do和Dn分别表示源领域与新领域的样本集合;|Do|和|Dn|分别表示Do和Dn中所包含的样本个数。
其中,所述步骤3)的所述M步包括:
33)根据公式 计算所述P(t|ck);其中,λ=min{δ,τ,1},τ表示当前迭代步数,δ是控制因子;Ni,t n表示样本di中特征wt的出现次数且样本di属于新领域;Ni,t o表示样本di中特征wt的出现次数且样本di属于源领域;|V|表示整个词空间V中所包含的词个数;
其中,所述步骤2)的所述计算特征wt属于类别ck的样本的概率P(t|ck)包括根据如下公式计算:
其中,所述步骤2)的所述计算类别ck的概率P(ck)包括根据如下公式计算:
其中,所述步骤1)包括:
11)根据公式 确定所述高频领域特征,其中β是非零参数,po(t)和pn(t)分别表示特征wt在源领域和新领域的样本中的出现概率。
其中,所述步骤11)中所述po(t)根据如下公式计算, 其中No和Nn分别表示源领域和新领域的样本总数,No(t)和Nn(t)分别表示特征wt在源领域和新领域的样本中出现的样本数目,α为平滑因子。
其中,所述步骤11)中所述pn(t)根据如下公式计算, 其中No和Nn分别表示源领域和新领域的样本总数,No(t)和Nn(t)分别表示特征wt在源领域和新领域的样本中出现的样本数目,α为平滑因子。
根据本发明的另一方面,还提供了一种跨领域的文本情感分类方法,包括:根据上述训练方法所计算的结果P(t|ck)对新领域测试集内的文本进行分类。
本发明的有益效果在于,根据本发明的文本情感分类方法对新领域的文本进行分类的精度较高。
附图说明
图1是根据本发明的优选实施例的跨领域的文本情感分类方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的跨领域的文本情感分类方法进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明基本思想是寻找领域之间的通用情感特征,并把通用情感词作为源领域通向新领域的一座桥梁,其中通用情感特征为不但在源领域和新领域频繁出现而且出现频率相似的词语。例如:财经类例子:“招商银行是一家非常优秀的上市公司”,电子类例子:“Hp Compaq(商用笔记本)的性能非常优秀”,则“优秀”就可以作为财经类与电子类之间的“通用情感特征”。然后逐步加大新领域的权重,使分类器模型与新领域达到最佳匹配。本发明即利用了源领域的部分可用信息,又充分吸收了新领域的全部信息。
根据上述基本思想,如图1所示,本发明一个实施例的跨领域的文本情感分类方法的具体流程如下:
首先,在源领域和新领域的样本的关键词中,挑选通用情感特征,此过程可以人工实现,也可以通过计算实现。
优选的,根据本发明的具体实施例依据频繁共现熵(FrequentlyCo-occurring Entropy,FCE)来挑选通用情感特征,即频率共现熵较高的词语即为通用情感特征,其中
其中po(t),pn(t)分别表示特征wt在源领域与新领域的样本中的出现概率:
在公式(2)和公式(3)中,No和Nn分别表示源领域与新领域的样本总数。No(t)和Nn(t)分别表示特征wt在源领域与新领域的样本中出现的样本数目,即含有该特征wt的样本数目。α为平滑因子,根据本发明的一个具体实施例α=0.0001。当然,不进行平滑同样可以实现本发明的基本技术目的。
本领域内普通技术人员可以理解,上述公式(1)仅是能够确定通用情感特征的一个例子,也可以对该公式进行适应性修改或采用其它方式确定通用情感特征。例如:β是为了防止出现分母为0的情况而采用的非零参数,在本发明的一个实施例中β=1.0。本领域技术人员可以理解,如果能够确定该特征wt在源领域和新领域的样本中出现的概率并非完全相等,则在该公式中也可以不采用该参数β。
然后,根据上述通用情感特征初始化贝叶斯分类器,亦即计算新领域的样本di属于类别ck的概率P(ck|di)的初始值。详细的计算步骤如下:
根据源领域的样本计算特征wt属于类别ck的样本的概率P(t|ck),以及类别ck的概率P(ck):
其中,Do表示源领域的样本的集合,|Do|表示Do中所包含的样本个数,Ni,t o表示样本di中特征wt的出现次数且样本di属于源领域,P(ck|di)表示样本di属于类别ck的概率,对于源领域的样本,其或者为1或者为0,V表示整个词空间,|V|表示V中所包含的词个数。
本领域普通技术人员可以理解,上述公式(4)和(5)仅是可以采用以实现本发明的目的的一个例子,也可以对该公式进行适应性修改或采用其它方式进行计算。例如,|V|是保证分母不为0的参数,可以在其前面添加系数。则公式(4)可以是:
随后根据如下公式计算新领域的样本di属于类别ck的概率P(ck|di)的初始值,并进行离散化。离散化具体为取最大值的类别所对应的P(ck|di)赋值为1,而其它类别所对应的P(ck|di)赋值为0,即样本di属于P(ck|di)取最大值的那个类别。本领域技术人员可以理解,在本发明中也可以不进行离散化,认为当P(ck|di)取最大值时其所对应的类别即为样本di所属类别。
其中Ni,t表示样本di中特征wt的出现次数。
随后基于EM迭代方法来训练分类器,EM算法是一种公知的迭代算法,在每一次迭代循环过程中交替执行E步和M步两个步骤,当两次迭代之间的参数变化小于预先给定的阈值时算法终止。下述训练分类器的基本思想是对源领域只使用通用情感特征,而对新领域则使用所有特征。随着迭代步数的增加,公式不断增加新领域样本在模型训练中的权重。这样训练出来的分类模型将会与新领域样本达到最大匹配。训练分类器的具体步骤如下:
根据如下公式(6)、(7)和(8)针对新领域的样本的每个类别循环交替计算EM迭代算法的E步和M步,其中通过在M步中调整控制新旧两个领域的相对权重的因子λ来更新P(ck|di)的值。在E步计算P(ck|di)的数值后,对其进行离散化。如果某E步所计算的P(ck|di)与其上个E步所计算的P(ck|di)的结果不相同,则根据公式(7)、(8)和(6)更新P(ck|di)的值,再进行类似判断;如果某E步所计算的P(ck|di)与其上个E步所计算的P(ck|di)的结果相同,则算法结束,存储训练所得分类器的P(t|ck)。
E步:
M步:
其中:
λ=min{δ·τ,1}
其中Ni,t表示样本di中特征wt的出现次数;Ni,t n表示样本di中特征wt的出现次数且样本di属于新领域;Do和Dn分别表示源领域与新领域的样本集合;Ni,k o和Ni,k n分别表示源领域与新领域的ck类别的样本中出现特征wt的概率;λ用来控制新旧两个领域的相对权重;τ表示当前迭代步数;δ是控制因子,其根据本发明的一个实施例取0.2;VFCE表示挑选出来的通用情感特征。
与公式(4)类似,本领域普通技术人员可以理解,上述公式(6)、(7)和(8)仅是可以采用以实现本发明的目的的一个例子,也可以对该公式进行适应性修改或采用其它方式进行计算。
根据训练所得分类器的P(t|ck),利用公式(6)即可计算新领域的文本的P(ck|di),进行离散化后,该P(ck|di)取值为1所对应的类别即为该文本所述类别。
本发明对三个中文情感语料集:教育评论(Edu)、财经评论(Sto)和电脑评论(Comp)进行了实验模拟。教育评论中含有1012篇负面评论与254篇正面评论;财经评论中含有683篇负面评论与364篇正面评论;电脑评论中含有390篇负面评论与544篇正面评论。
在该实施例中通用情感词设定为200个,δ设定为0.2。评价指标采用精度。对比方法采用贝叶斯情感分类方法。
实验模拟结果如表1所示,其中Edu->Sto表示在教育评论上进行训练,在财经评论上进行测试,0.6704表示贝叶斯方法测试结果的精度,也就是采样贝叶斯方法的正确率。实验结果表明本发明的情感分类方法具有较高移植能力。在对新领域测试集进行测试时,本发明的平均精度达到了82.6%,要高出贝叶斯情感分类方法22个百分点。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
Claims (6)
1.一种跨领域的文本情感分类器的训练方法,包括下列步骤:
1)在源领域和新领域样本的关键词中挑选通用情感特征;所述通用情感特征为在源领域和新领域的文本中频繁出现并且出现频率相似的表达情感的词语;
2)根据源领域的样本,计算特征wt属于类别ck的样本的概率P(t|ck),以及类别ck的概率P(ck),计算公式如下:
其中,|Do|表示源领域的样本的集合Do中所包含的样本个数;表示样本di中特征wt的出现次数且样本di属于源领域;|V|表示整个词空间V中所包含的词个数;P(ck|di)表示样本di属于类别ck的概率,对于源领域的样本,其为1或0;进而计算新领域的样本di属于类别ck的概率P(ck|di),其中,|V|表示整个词空间V中所包含的词个数,Ni,t表示样本di中特征wt的出现次数;所述计算特征wt属于类别ck的样本的概率P(t|ck)包括根据如下公式计算:
3)基于EM迭代方法训练分类器,其中针对新领域的样本的每个类别循环交替计算EM迭代方法的E步和M步,在M步根据源领域和新领域样本以及所述通用情感特征,并通过调整控制新领域和源领域的相对权重的因子λ来重新计算P'(t|ck)和P’(ck),重新计算的 重新计算的其中,λ=min{δ·τ,1},τ表示当前迭代步数,δ是控制因子,表示样本di中特征wt的出现次数且样本di属于新领域,表示样本di中特征wt的出现次数且样本di属于源领域,VFCE表示挑选出来的通用情感特征集,Do和Dn分别表示源领域与新领域的样本集合,|V|表示整个词空间V中所包含的词个数,|Do|和|Dn|分别表示Do和Dn中所包含的样本个数;在E步根据重新计算的P’(t︱ck)和P’(ck)重新计算 ;判断重新计算的P’(ck|di)相较于P(ck|di)是否发生改变,如果发生了改变,将P(ck|di)的值更新为P’(ck|di),转M步继续进行迭代,如果未发生改变,则结束迭代,存储训练所得的分类器结果P'(t|ck)。
2.根据权利要求1所述的训练方法,其特征在于,
所述步骤2)还包括将所述P(ck|di)离散化的步骤;
所述步骤3)还包括将所述P’(ck|di)离散化的步骤。
6.一种跨领域的文本情感分类方法,包括:根据权利要求1所述的训练方法所计算的结果P'(t|ck)对新领域的文本进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910076428.3A CN101770580B (zh) | 2009-01-04 | 2009-01-04 | 一种跨领域的文本情感分类器的训练方法和分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910076428.3A CN101770580B (zh) | 2009-01-04 | 2009-01-04 | 一种跨领域的文本情感分类器的训练方法和分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101770580A CN101770580A (zh) | 2010-07-07 |
CN101770580B true CN101770580B (zh) | 2014-03-12 |
Family
ID=42503432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910076428.3A Active CN101770580B (zh) | 2009-01-04 | 2009-01-04 | 一种跨领域的文本情感分类器的训练方法和分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101770580B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8626682B2 (en) * | 2011-02-22 | 2014-01-07 | Thomson Reuters Global Resources | Automatic data cleaning for machine learning classifiers |
CN102682130B (zh) * | 2012-05-17 | 2013-11-27 | 苏州大学 | 一种文本情感分类方法及系统 |
CN103678356B (zh) * | 2012-09-11 | 2018-05-25 | 北京百度网讯科技有限公司 | 一种用于获取关键词的应用领域属性信息的方法、装置与设备 |
CN104063399B (zh) * | 2013-03-22 | 2017-03-22 | 杭州娄文信息科技有限公司 | 一种自动识别文本所承载的情感概率的方法及系统 |
CN105138538B (zh) * | 2015-07-08 | 2018-08-03 | 清华大学 | 一种面向跨领域知识发现的主题挖掘方法 |
CN107291686B (zh) * | 2016-04-13 | 2020-10-16 | 北京大学 | 情感标识的辨识方法和情感标识的辨识系统 |
CN108694165B (zh) * | 2017-04-10 | 2021-11-09 | 南京理工大学 | 面向产品评论的跨领域对偶情感分析方法 |
CN107967337B (zh) * | 2017-12-05 | 2021-10-15 | 云南大学 | 一种基于情感极性增强语义的跨领域情感分析方法 |
CN108549633B (zh) * | 2018-04-04 | 2021-09-21 | 郑州大学 | 基于概率推理与情感认知的文本细粒度情感生成方法 |
CN108647204B (zh) * | 2018-04-27 | 2021-09-17 | 云南大学 | 一种跨领域情感分析方法 |
CN108763203B (zh) * | 2018-05-18 | 2022-11-11 | 大连民族大学 | 影评情感分析中使用特征词集将影评以特征向量表示的方法 |
CN109308318B (zh) * | 2018-08-14 | 2021-06-04 | 深圳大学 | 跨领域文本情感分类模型的训练方法、装置、设备及介质 |
CN110457470A (zh) * | 2019-07-05 | 2019-11-15 | 深圳壹账通智能科技有限公司 | 一种文本分类模型学习方法及装置 |
-
2009
- 2009-01-04 CN CN200910076428.3A patent/CN101770580B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101770580A (zh) | 2010-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101770580B (zh) | 一种跨领域的文本情感分类器的训练方法和分类方法 | |
CN101739430B (zh) | 一种基于关键词的文本情感分类器的训练方法和分类方法 | |
Tur et al. | Combining active and semi-supervised learning for spoken language understanding | |
CN103049501B (zh) | 基于互信息和条件随机场模型的中文领域术语识别方法 | |
CN101710333B (zh) | 基于遗传算法的网络文本分割方法 | |
Cha et al. | Language modeling by clustering with word embeddings for text readability assessment | |
CN105005589A (zh) | 一种文本分类的方法和装置 | |
CN111160037A (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN101882136B (zh) | 文本情感倾向性分析方法 | |
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN105205124B (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN110008465B (zh) | 句子语义距离的度量方法 | |
CN103154936A (zh) | 用于自动化文本校正的方法和系统 | |
SzymańSki | Comparative analysis of text representation methods using classification | |
CN101714135B (zh) | 一种跨领域文本情感倾向性分析方法 | |
CN103824565A (zh) | 一种基于音符和时值建模的哼唱识谱方法及系统 | |
CN103605729A (zh) | 一种基于局部随机词汇密度模型poi中文文本分类的方法 | |
CN103324664B (zh) | 一种基于傅里叶变换的文档相似判别方法 | |
CN105095222B (zh) | 单元词替换方法、搜索方法及装置 | |
Cao et al. | Combining convolutional neural network and support vector machine for sentiment classification | |
Gao et al. | Pattern-based topic models for information filtering | |
Gu et al. | Enhancing text classification by graph neural networks with multi-granular topic-aware graph | |
CN103020167A (zh) | 一种计算机中文文本分类方法 | |
CN101609672A (zh) | 一种语音识别语义置信特征提取的方法和装置 | |
Li et al. | Personalized text snippet extraction using statistical language models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20100707 Assignee: Branch DNT data Polytron Technologies Inc Assignor: Institute of Computing Technology, Chinese Academy of Sciences Contract record no.: 2018110000033 Denomination of invention: Training method and classification method of cross-field text sentiment classifier Granted publication date: 20140312 License type: Common License Record date: 20180807 |