CN101739430A - 一种基于关键词的文本情感分类器的训练方法和分类方法 - Google Patents
一种基于关键词的文本情感分类器的训练方法和分类方法 Download PDFInfo
- Publication number
- CN101739430A CN101739430A CN200810227105A CN200810227105A CN101739430A CN 101739430 A CN101739430 A CN 101739430A CN 200810227105 A CN200810227105 A CN 200810227105A CN 200810227105 A CN200810227105 A CN 200810227105A CN 101739430 A CN101739430 A CN 101739430A
- Authority
- CN
- China
- Prior art keywords
- text
- frontier
- test set
- old field
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于关键词的文本情感分类器训练方法和分类方法,其中情感分类器训练方法包括下列步骤:1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征;2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W;3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X,在映射空间X·W上训练分类器。根据本发明的文本情感分类方法对新领域的文本进行分类的精度更高。
Description
技术领域
本发明涉及模式识别领域,具体涉及一种基于关键词的文本情感分类器的训练方法和应用该分类器进行的文本分类方法。
背景技术
文本情感分类,是指根据对文本的分析确定该文本对某个对象的态度是正面还是负面。现有的文本情感分类方法具有很强的领域或主题依赖性。例如,在教育领域训练的情感分类器在教育领域中表现很好,但是在电影领域或其它领域分类精度就会很差。也就是说,现有的文本情感分类方法在情感挖掘中进行领域移植比较困难。
其客观原因主要有两个方面:首先,不同领域之间的词语空间存在很大差距,例如“便携的”、“快速的”常常出现在笔记本电脑的评论中,但几乎不会出现在房产评论中;其次,一些情感词语的极性也会发生变化,例如,房产评论中的“这套房子的客厅太小,让人感觉有点憋闷”中的“小”是负面的,但手机评论中的“诺基亚N3100非常小,很适合携带”的“小”是正面的。
因此,要想在新领域也取得很好的性能,根据现有技术就不得不为该新领域人工标注一个较大的训练集,并采用这个训练集重新训练一个分类器。但是在实践中,因为这非常耗费精力与时间所以这种做法效率很低,甚至有时不可实现。所以说,研究一种具备移植能力的文本情感分类方法具有重要的现实意义。
发明内容
本发明要解决的技术问题是提供一种具备移植能力的并且精度较高文本情感分类方法。
根据本发明的一个方面,提供了一种基于关键词的文本情感分类器训练方法,包括下列步骤:
1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征;
2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W;
3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X,在映射空间X·W上训练分类器。
所述训练方法中,所述步骤2)包括:
21)根据公式计算映射向量wl *,其中argmin表示当括号内函数取最小值时的wl,xij表示一个文本向量xi的第j个分量,Q表示旧领域训练集和新领域测试集内的文本中词语总数,pl(xi)表示文本数据xi中是否出现枢纽特征xil,其表示为
22)由所述映射向量wl *构成所述矩阵W。
所述训练方法中,所述步骤2)包括:
23)在旧领域训练集和新领域测试集的文本的词语中确定高频领域特征;
24)综合所述高频领域特征,根据公式计算所述映射向量wl *,其中argmin表示当括号内函数取最小值时的wl,xij表示一个文本向量xi的第j个分量,Q表示旧领域训练集和新领域测试集内的文本中词语总数,pl(xi)表示文本数据xi中是否出现枢纽特征xil,其表示为δj表示分量xij在计算映射向量wl时的权重,其表示为其中所述ZHFDS表示高频领域特征,η为参数;
22)由所述映射向量wl *构成所述矩阵W。
所述训练方法中,所述步骤2)包括:
23)在旧领域训练集和新领域测试集的文本的词语中确定高频领域特征;
25)综合高频领域特征,根据公式计算所述映射向量wl *,
其中argmin表示当括号内函数取最小值时的wl,xij表示一个文本向量xi的第j个分量,M表示枢纽特征的个数,Q表示旧领域训练集和新领域测试集内的文本中词语总数,pl(xi)表示文本数据xi中是否出现枢纽特征xil,其表示为δj表示分量xij在计算映射向量wl时的权重,其表示为其中所述ZHFDS表示高频领域特征的集合,η为参数λ是参数,||||表示二范数;
22)由所述映射向量wl *构成所述矩阵W。
其中,所述步骤23)包括:
其中,所述步骤231)中所述po(t)根据如下公式计算,其中No和Nn分别表示旧领域训练集与新领域测试集的文本总数,No(t)和Nn(t)分别表示特征t在旧领域训练集与新领域测试集中出现的文本数目,α为平滑因子。
其中,所述步骤231)中所述pn(t)根据如下公式计算,其中No和Nn分别表示旧领域训练集与新领域测试集的文本总数,No(t)和Nn(t)分别表示特征t在旧领域训练集与新领域测试集中出现的文本数目,α为平滑因子。
根据本发明的另一方面,还提供了一种基于关键词的文本情感分类方法,包括:根据上述训练方法所训练的分类器对新领域测试集内的文本进行分类。
本发明的有益效果在于,根据本发明的文本情感分类方法对新领域的文本进行分类的精度较高。
附图说明
图1是根据本发明的优选实施例的基于关键词的文本情感分类方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的基于关键词的文本情感分类方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的基本思想是建立一个有效的领域移植模型,该模型能够将旧领域训练集与新领域测试集统一起来训练。不可否认,旧领域与新领域之间存在很大的词语空间差异。但是,另一方面,旧领域与新领域之间还存在一些分布相似、情感倾向一致的情感词,称为“枢纽(pivot)特征”。例如:财经类例子:“招商银行是一家非常优秀的上市公司”,电子类例子:“HpCompaq(商用笔记本)的性能非常优秀”,则“优秀”就可以作为枢纽特征。因此,本发明根据这些″枢纽特征″可以建立一条由旧领域通向新领域的桥梁。
根据上述基本思想,如图1所示,本发明一个实施例的基于关键词的文本情感分类方法的具体流程如下:
首先,在旧领域训练集和新领域测试集内的文本的关键词中,挑选M个枢纽特征,此过程可以人工实现。
优选的,分别在旧领域训练集和新领域测试集的文本的词语中,确定L个高频领域特征(high-frequency domain-specific,HFDS)。其中高频领域特征是指在某个领域频繁出现,但又几乎不含有情感信息的特征,例如教育领域中的“教育”,“高校”,“研究生”等等。通常这些高频领域特征影响其它情感特征的情感表达能力。一个优选的解决办法是降低这些高频领域特征的权重。高频领域特征可以通过如下公式(1)确定:
其中β是为了防止出现分母为0的情况而采用的非零参数,在本发明的一个实施例中β=1.0。本领域技术人员可以理解,如果能够确定该特征t在旧领域训练集和新领域测试集中都曾出现,则在该公式中也可以不采用该参数β。po(t),pn(t)分别表示特征t在旧领域训练集与新领域测试集中的出现概率:
在公式(2)和公式(3)中,No和Nn分别表示旧领域训练集与新领域测试集的文本总数。No(t)和Nn(t)分别表示特征t在旧领域训练集与新领域测试集中出现的文本数目,即含有该特征t的文本数目。α为平滑因子,根据本发明的一个具体实施例α=0.0001。当然,不进行平滑同样可以实现本发明的基本技术目的。
高频领域特征的集合表示为ZHFDS。
本领域内普通技术人员可以理解,上述公式(1)仅是能够确定高频领域特征的一个例子,也可以对该公式进行适应性修改或采用其它方式确定高频领域特征,只要能体现词频即可。
然后,建立新旧领域之间的桥梁。
依照本发明的一个优选实施例,根据旧领域训练集和新领域测试集内的文本可以利用如下公式(4)计算枢纽特征与文本向量的各个分量的交互关系,即从由旧领域训练集和新领域测试集内的文本共同构成的原始空间向实数空间的线性映射向量wl *:
其中argmin表示当括号内函数取最小值时的wl,优选的wl初始值为[1,1,…,1];xij表示一个文本向量xi的第j个分量;λ是参数,优选取值范围是[0,10];||||表示二范数;M表示枢纽特征的个数;Q表示旧领域训练集和新领域测试集内的文本中词语总数;pl(xi)表示一个二元函数,表示文本数据xi中是否出现枢纽特征xil,其形式化表示如下,
其中δj表示分量xij在计算映射向量wl时的权重,
其中η的取值范围是[0.1,0.3]。本领域普通技术人员可以理解,如果在之前的步骤中没有确定高频领域特征,则在公式(4)中可以没有δj或者δj始终为1。该公式也可以不存在λ||wl||2项,该项存在的意义在于可以使本公式具有较强的鲁棒性,即可以更好地适用于所有领域的文本。
公式(4)计算得到的wl *描述了枢纽特征与文本向量的各个分量的交互关系。如果wl *的第z个分量wlz *是正的,那么表示第l个枢纽特征与文本中第z个分量存在正相关。
由计算得到的wl *构成能够描述各个枢纽特征与文本向量的各个分量的交互关系的矩阵W,即
实质上,wl *实现了文本数据从原始空间向实数空间的线性映射。根据文本的每个枢纽特征得到一个实数值,该实数值作为新特征,于是可以得到M个新特征。根据旧领域训练集中文本的情感标签,对该新特征训练一个分类器,那么该训练所得的分类器将能够在新领域测试集的文本上表现出不错的情感分类性能。该训练分类器及对新领域测试集的文本分类的具体操作如下:
由旧领域训练集和新领域测试集内的所有文本构成矩阵X,即X=[x1,x2,...,xN]T,其中N表示旧领域训练集和新领域测试集内的所有文本数之和。X的每行对应一个文本。根据旧领域训练集中文本的情感标签,在映射空间X·W上训练一个新的分类器,其中情感标签标识了文本是正面的还是负面的。根据本发明的一个实施例,采用中心法进行训练,但本领域普通技术人员可以理解,也可以采用其它分类方法进行,例如贝叶斯、支持向量机(SVM)等。训练所得到的分类器为M维。
将训练所得分类器利用相应的分类方法应用到新领域测试集内的文本,即在映射空间XNew·W上对新领域测试集内的文本进行分类,其中XNew是新领域测试集内的所有文本构成矩阵,每一行对应一个文本。
本发明对三个中文情感语料集:教育评论(Edu)、财经评论(Sto)和电脑评论(Comp)进行了实验模拟。教育评论中含有1012篇负面评论与254篇正面评论;财经评论中含有683篇负面评论与364篇正面评论;电脑评论中含有390篇负面评论与544篇正面评论。
在该实施例中枢纽特征设定为30个,高频领域特征设定为200个,η设定为0.1。评价指标采用精度。对比方法采用中心情感分类方法与贝叶斯情感分类方法。
实验模拟结果如表1所示,其中Edu->Sto表示在教育评论上进行训练,在财经评论上进行测试,0.6704表示贝叶斯方法测试结果的精度,也就是正确率。其表明本发明的情感分类方法具有较高移植能力。在对新领域测试集进行测试时,本发明的平均精度达到了83.7%,高出中心情感分类方法12个百分点,高出贝叶斯情感分类方法23个百分点。
表1现有技术与本发明的实验结果表
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
Claims (8)
1.一种基于关键词的文本情感分类器训练方法,包括下列步骤:
1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征;
2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W;
3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X,在映射空间X·W上训练分类器。
4.根据权利要求1所述的训练方法,其特征在于,所述步骤2)包括:
23)在旧领域训练集和新领域测试集的文本的词语中确定高频领域特征;
其中argmin表示当括号内函数取最小值时的wl,xij表示一个文本向量xi的第j个分量,M表示枢纽特征的个数,Q表示旧领域训练集和新领域测试集内的文本中词语总数,pl(xi)表示文本数据xi中是否出现枢纽特征xil,其表示为δj表示分量xij在计算映射向量wl时的权重,其表示为其中所述ZHFDS表示高频领域特征的集合,η为参数λ是参数,||||表示二范数;
22)由所述映射向量wl *构成所述矩阵W。
7.根据权利要求5所述的训练方法,其特征在于,所述步骤231)中所述pn(t)根据如下公式计算,其中No和Nn分别表示旧领域训练集与新领域测试集的文本总数,No(t)和Nn(t)分别表示特征t在旧领域训练集与新领域测试集中出现的文本数目,α为平滑因子。
8.一种基于关键词的文本情感分类方法,包括:根据权利要求1至4任一项所述训练方法所训练的分类器对新领域测试集内的文本进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810227105.5A CN101739430B (zh) | 2008-11-21 | 2008-11-21 | 一种基于关键词的文本情感分类器的训练方法和分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810227105.5A CN101739430B (zh) | 2008-11-21 | 2008-11-21 | 一种基于关键词的文本情感分类器的训练方法和分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101739430A true CN101739430A (zh) | 2010-06-16 |
CN101739430B CN101739430B (zh) | 2015-11-25 |
Family
ID=42462921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810227105.5A Active CN101739430B (zh) | 2008-11-21 | 2008-11-21 | 一种基于关键词的文本情感分类器的训练方法和分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101739430B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289514A (zh) * | 2011-09-07 | 2011-12-21 | 中国科学院计算技术研究所 | 社会标签自动标注的方法以及社会标签自动标注器 |
CN102541838A (zh) * | 2010-12-24 | 2012-07-04 | 日电(中国)有限公司 | 用于优化情感分类器的方法和设备 |
CN102789498A (zh) * | 2012-07-16 | 2012-11-21 | 钱钢 | 基于集成学习的中文评论文本的情感分类方法与系统 |
CN103488623A (zh) * | 2013-09-04 | 2014-01-01 | 中国科学院计算技术研究所 | 多种语言文本数据分类处理方法 |
CN103488782A (zh) * | 2013-09-30 | 2014-01-01 | 华北电力大学 | 一种利用歌词识别音乐情感的方法 |
CN104035996A (zh) * | 2014-06-11 | 2014-09-10 | 华东师范大学 | 基于Deep Learning的领域概念抽取方法 |
CN104809128A (zh) * | 2014-01-26 | 2015-07-29 | 中国科学院声学研究所 | 一种获取语句情感倾向性的方法及系统 |
CN105955959A (zh) * | 2016-05-06 | 2016-09-21 | 深圳大学 | 一种情感分类方法及系统 |
CN109284376A (zh) * | 2018-09-10 | 2019-01-29 | 成都信息工程大学 | 基于领域自适应的跨领域新闻数据情感分析方法 |
WO2019218508A1 (zh) * | 2018-05-16 | 2019-11-21 | 山东科技大学 | 一种基于主题情感联合概率的电子商务虚假评论识别方法 |
CN111523300A (zh) * | 2020-04-14 | 2020-08-11 | 北京精准沟通传媒科技股份有限公司 | 一种车辆综合评价方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127042A (zh) * | 2007-09-21 | 2008-02-20 | 浙江大学 | 一种基于语言模型的情感分类方法 |
-
2008
- 2008-11-21 CN CN200810227105.5A patent/CN101739430B/zh active Active
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102541838A (zh) * | 2010-12-24 | 2012-07-04 | 日电(中国)有限公司 | 用于优化情感分类器的方法和设备 |
CN102541838B (zh) * | 2010-12-24 | 2015-03-11 | 日电(中国)有限公司 | 用于优化情感分类器的方法和设备 |
CN102289514B (zh) * | 2011-09-07 | 2016-03-30 | 中国科学院计算技术研究所 | 社会标签自动标注的方法以及社会标签自动标注器 |
CN102289514A (zh) * | 2011-09-07 | 2011-12-21 | 中国科学院计算技术研究所 | 社会标签自动标注的方法以及社会标签自动标注器 |
CN102789498A (zh) * | 2012-07-16 | 2012-11-21 | 钱钢 | 基于集成学习的中文评论文本的情感分类方法与系统 |
CN102789498B (zh) * | 2012-07-16 | 2014-08-06 | 钱钢 | 基于集成学习的中文评论文本的情感分类方法与系统 |
CN103488623A (zh) * | 2013-09-04 | 2014-01-01 | 中国科学院计算技术研究所 | 多种语言文本数据分类处理方法 |
CN103488782A (zh) * | 2013-09-30 | 2014-01-01 | 华北电力大学 | 一种利用歌词识别音乐情感的方法 |
CN103488782B (zh) * | 2013-09-30 | 2016-07-27 | 华北电力大学 | 一种利用歌词识别音乐情感的方法 |
CN104809128A (zh) * | 2014-01-26 | 2015-07-29 | 中国科学院声学研究所 | 一种获取语句情感倾向性的方法及系统 |
CN104035996A (zh) * | 2014-06-11 | 2014-09-10 | 华东师范大学 | 基于Deep Learning的领域概念抽取方法 |
CN104035996B (zh) * | 2014-06-11 | 2017-06-16 | 华东师范大学 | 基于Deep Learning的领域概念抽取方法 |
CN105955959A (zh) * | 2016-05-06 | 2016-09-21 | 深圳大学 | 一种情感分类方法及系统 |
CN105955959B (zh) * | 2016-05-06 | 2019-04-26 | 深圳大学 | 一种情感分类方法及系统 |
WO2019218508A1 (zh) * | 2018-05-16 | 2019-11-21 | 山东科技大学 | 一种基于主题情感联合概率的电子商务虚假评论识别方法 |
CN109284376A (zh) * | 2018-09-10 | 2019-01-29 | 成都信息工程大学 | 基于领域自适应的跨领域新闻数据情感分析方法 |
CN111523300A (zh) * | 2020-04-14 | 2020-08-11 | 北京精准沟通传媒科技股份有限公司 | 一种车辆综合评价方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101739430B (zh) | 2015-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101739430B (zh) | 一种基于关键词的文本情感分类器的训练方法和分类方法 | |
Tur et al. | Combining active and semi-supervised learning for spoken language understanding | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN111160037B (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN106055538B (zh) | 主题模型和语义分析相结合的文本标签自动抽取方法 | |
CN105260356B (zh) | 基于多任务学习的中文交互文本情感与话题识别方法 | |
McDonald et al. | Structured models for fine-to-coarse sentiment analysis | |
CN104281645B (zh) | 一种基于词汇语义和句法依存的情感关键句识别方法 | |
Li et al. | Structure-aware review mining and summarization | |
CN103150405B (zh) | 一种分类模型建模方法、中文跨文本指代消解方法和系统 | |
CN101770580A (zh) | 一种跨领域的文本情感分类器的训练方法和分类方法 | |
El-Halees | Mining opinions in user-generated contents to improve course evaluation | |
Jalalzai et al. | Heavy-tailed representations, text polarity classification & data augmentation | |
CN110008465B (zh) | 句子语义距离的度量方法 | |
CN103034626A (zh) | 情感分析系统及方法 | |
CN103049501A (zh) | 基于互信息和条件随机场模型的中文领域术语识别方法 | |
CN103049435A (zh) | 文本细粒度情感分析方法及装置 | |
CN104794500A (zh) | 一种tri-training半监督学习方法及装置 | |
CN103473380B (zh) | 一种计算机文本情感分类方法 | |
CN102033950A (zh) | 电子产品命名实体自动识别系统的构建方法及识别方法 | |
CN108376133A (zh) | 基于情感词扩充的短文本情感分类方法 | |
CN102541838A (zh) | 用于优化情感分类器的方法和设备 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
CN107423371A (zh) | 一种文本正负类情感分类方法 | |
CN102323944A (zh) | 基于极性转移规则的情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20100616 Assignee: Branch DNT data Polytron Technologies Inc Assignor: Institute of Computing Technology, Chinese Academy of Sciences Contract record no.: 2018110000033 Denomination of invention: Method for training and classifying text emotion classifiers based on keyword Granted publication date: 20151125 License type: Common License Record date: 20180807 |