CN101882136B - 文本情感倾向性分析方法 - Google Patents
文本情感倾向性分析方法 Download PDFInfo
- Publication number
- CN101882136B CN101882136B CN200910083522.1A CN200910083522A CN101882136B CN 101882136 B CN101882136 B CN 101882136B CN 200910083522 A CN200910083522 A CN 200910083522A CN 101882136 B CN101882136 B CN 101882136B
- Authority
- CN
- China
- Prior art keywords
- text
- emotion
- test
- divide
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本情感倾向性分析方法,包括下列步骤:1)根据训练文本的标签确定测试文本的初始情感分;2)基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化;3)当所述迭代结束时,根据所述计算的结果判别所述测试文本的情感倾向性。本发明提供的文本情感倾向性方法能够大幅提高对新领域的文本进行分类的精度。
Description
技术领域
本发明涉及模式识别领域,具体涉及一种文本分析方法。
背景技术
论坛、博客等网络交流平台的快速发展使得网上存在大量带有情感倾向性的文本。如何从大规模富含情感信息的文本中快速进行倾向性分析,成为越来越引起广泛关注的研究问题。文本情感倾向性分析研究就是在这样的背景下开展起来的,它就是对整篇文本所体现出的情感进行判断,也就是对文本中的主观信息进行判断。
随着信息量的急速增加、新领域的不断涌现,人们需要在越来越多的新领域里进行倾向性分析,而在新领域里重新进行人工标注是个费时费力的事情。因此要尽量基于已经标注好的数据对新领域进行分析,这使得跨领域的倾向性分析具有重大意义。
文本倾向性分析具有很强的领域依赖性。训练域里有强烈倾向性的词在测试域里不再有强烈倾向性,反之亦然。例如,“便携的”在电子评论里就是一个具有正面倾向性的词,而在酒店评论里就不具有强烈的倾向性。当用来训练分类器的已判断倾向性的集合和待判断倾向性的集合不是同一个领域的时候,例如,已知酒店评论数据集的倾向性需要判断电子评论数据集的倾向性的情况,传统的分类方法的效果就变得很差。
发明内容
本发明目的在于提供一种精度高的文本情感倾向性分析方法。
根据本发明的一个方面,提供了一种文本情感倾向性分析方法,包括下列步骤:
1)根据训练文本的标签确定测试文本的初始情感分;
2)基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化;
3)当所述迭代结束时,根据所述计算的结果判别所述测试文本的情感倾向性。
在上述方法中,所述步骤1)还包括根据训练文本的标签确定训练文本的初始情感分;
所述步骤2)进一步包括:
21)基于所述图排序算法,利用所述训练文本的初始情感分计算所述测试文本的情感分的第一分量;
22)基于所述图排序算法,利用所述测试文本的初始情感分计算所述测试文本的情感分的第二分量;
23)利用所述两个分量迭代计算所述测试文本的情感分并归一化。
在上述方法中,所述步骤21)进一步包括:
以所述测试文本和训练文本为结点、所述训练文本和所述测试文本间的内容相似度为边建立图模型;
根据所述图模型构建联接矩阵并归一化;
将所述归一化的联接矩阵的每一行降序排列;
根据所述降序排列后的联接矩阵的每一行的前K1个元素对应的训练文本的情感分计算所述测试文本的情感分的第一分量,其中K1的取值范围为[1,训练文本个数]。
在上述方法中,所述步骤22)进一步包括
以所述测试文本为结点、所有测试文本间的内容相似度为边建立图模型;
根据所述图模型构建联接矩阵并归一化;
将所述归一化的联接矩阵的每一行降序排列;
根据所述降序排列后的联接矩阵的每一行的前K2个元素对应的测试文本的情感分计算所述测试文本的情感分的第二分量,其中K2的取值范围为[1,测试文本个数]。
在上述方法中,所述步骤1)包括:根据所述训练文本的标签对所述测试文本进行分类,根据所述分类确定所述测试文本的初始情感分。
本发明提供的文本情感倾向性方法能够大幅提高对新领域的文本进行分类的精度。
附图说明
图1是根据本发明的优选实施例的文本情感倾向性分析方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的文本情感倾向性分析方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明利用一个领域的标注文本对另一领域未标注文本按其倾向性进行分类。具体地,假定测试集为DU={dU 1,...,dU n},其中dU i是第i个测试文本的特征向量,用其表示第i个测试文本,测试文本dU i∈DU(i=1,...,n)且没有被标注。训练集为DL={dL 1,...dLm},其中dL j是第j个训练文本的特征向量,用其表示第j个训练文本。训练文本dL j∈DL(j=1,...,m)且具有一个来自类别集C={支持,反对}中的标签。测试集DU和训练集DL可以来自相关但不相同的领域。利用训练集DL对测试集中的每一个测试文本dU i∈DU(i=1,...,n)分类。
根据本发明的一个具体实施例,将文本的倾向性与图排序算法结合起来,根据训练文本的标签为测试集和训练集中的每一个文本分配一个初始情感分,来表示该文本情感倾向性的程度;然后基于迭代方法利用初始情感分计算测试文本的情感分并归一化;当迭代算法收敛时得到测试文本的最终情感分,并据此判别测试文本的倾向性。
首先为训练集与测试集中每一个文本的情感分赋一个初始值,得到初始情感分向量S0={s0 1,...,s0 n,s0 n+1,...,s0 n+m},其中s0 i(i=1,...,n)表示测试文本的初始情感分,s0 j(j=1,...,m)表示训练文本的初始情感分。对于训练文本,它们已经有正确标签,则如果文本具有正面标签,则文本对应的情感分为1,如果文本具有负面标签,它对应的情感分为-1。对于测试文本,基于文本分类算法中的任意一种分类器,诸如原型“Prototype”倾向性分析方法、朴素贝叶斯“Bayes”方法、支持向量机“SVM”分类器、k-最近邻方法、决策树方法等,用训练集训练,对测试文本分类使其具有一个伪标签,此时的分类准确度通常很低,根据此伪标签得到测试文本的情感分的初始值。
然后,根据初始情感分向量S0迭代计算测试文本的最终情感分。下面详细介绍根据本发明的一个优选实施例,计算测试文本的最终情感分的过程:
首先根据训练集的情感分计算测试集的情感分的一个分量。
建立一个图模型,结点表示DL和DU中的文本,边表示文本间的内容相似度。如果两个文本间内容相似度为0,则图中两结点间无边,如果不为0,则图中两结点间有边且边的权重为该内容相似度。本领域普通技术人员可以理解,文本的内容相似度有多种计算方法,例如利用余弦相似度或者基于诸如明氏“Minkowski”距离、马氏“Mahalanois”距离、兰氏“Lance”距离的某种距离函数计算相似度。在此实施例中利用余弦相似度来计算。根据该图模型构建联接矩阵U,其元素表示测试文本和训练文本间的内容相似度,U=[Uij]n×m定义如下:
其中,用文本的特征向量来表示文本,dU i是第i个测试文本的特征向量,dU i=(w1,i,w2,i,...,wp,i),wt,i(t=1,...,p)表示该向量中第t个特征的权重,根据该特征在文本中的词频tft来计算。dL j与dU i类似。
将联接矩阵U归一化为矩阵使得中每一行的和为1:
将的每一行降序排序得到也就是: (i=1,...,n;j,t=1,...m;t≥j),以从训练集中找出与该行对应的测试文本最相似的文本集,该文本集包括K1个训练文本,K1的取值范围为[1,训练文本个数]。对于dU i∈DU(i=1,...,n),(j=1,...,K)可以示出其在训练域中的K1个邻居。简化起见,使用矩阵 来表示测试文本在训练域中的邻居,其中Nij对应于dU i的第j个邻居,即
本领域普通技术人员可以理解,可以把所有训练文本都作为测试文本在训练域中的邻居,即直接根据矩阵来确定测试文本在训练域中的邻居,而不必对进行降序排序。
用dU i的训练域的邻居的情感分来计算其情感分的一个分量,公式如下所示:
其中,Ni·表示矩阵N的第i行,sj (k-1)表示第i个测试文本的第k-1次迭代的情感分,s1i (k)表示第i个测试文本的第k次迭代的情感分的一个分量。
根据测试文本的初始情感分计算测试文本情感分的另一个分量,类似于根据训练文本初始情感分计算。建立另一个图模型,结点表示测试文本,边的权重由它所连接的两个测试文本的余弦相似度来计算。根据该图模型构建联接矩阵V,其元素表示测试文本之间的内容相似度。V=[Vij]n×n定义如下:
同样,将V归一化为然后将的每一行降序排序得到因此得到一个DU在测试域中的邻居矩阵 其中K2的的取值范围为[1,测试文本个数]。用dU i的测试域的邻居的情感分来计算其情感分的一个分量,与公式3类似,该计算公式如下所示:
其中,Mi·表示矩阵M的第i行,sj (k-1)表示第i个测试文本的第k-1次迭代的情感分,s2i (k)表示第i个测试文本的第k次迭代的情感分的另一个分量。
与测试文本在训练域中的邻居类似,测试文本在测试域中的邻居也可以取除其自身外的所有测试文本,如此则不必对进行降序排序。
根据上述两个分量迭代计算测试文本的情感分:
其中α+β=1,α和β是分别表示训练域和测试域对测试文本最终情感分的贡献大小的参数,其取值范围均为[0,1]。
为保证算法收敛,算法每迭代一次都需要将测试集的S(k)归一化,使得正的情感分之和为1,负的情感分之和为-1。
其中,DU neg和DU pos分别表示情感分为负和为正的测试文本的集合。
对于每一个测试文本dU i∈DU(i=1,...n),如果连续两次迭代所计算得到的情感分si的变化量低于一个给定的阀值,则迭代结束,根据此时的情感分判别每个测试文本的情感倾向性。根据本发明的一个具体实施例,此阀值为0.00001。如果情感分大于0,则判别测试文本为支持;如果情感分小于0,则判别测试文本为反对。
上述优选实施例是根据训练文本和测试文本综合计算测试文本的情感分,但是本领域普通技术人员可以理解,也可以只利用训练文本或测试文本来计算测试文本的情感分,即根据公式(3)或(5)来计算测试文本的情感分,并依此来判别测试文本的情感倾向性。
本发明针对如表1所示的三个不同领域(电子评论、财经评论、酒店评论)的文本集进行实验模拟。评价指标采用精度,对比方法采用Prototype倾向性分析方法。
表1文本集构成
文本集 | 反对评论数 | 支持评论数 | 评论平均长度 | 词典长度 |
电子 | 554 | 1,054 | 121 | 6,200 |
财经 | 683 | 364 | 460 | 13,012 |
酒店 | 2,000 | 2,000 | 181 | 11,336 |
其中“词典长度”表示相对应数据集中不同词的数量。
实验模拟结果如表2所示,其中电子->财经表示在电子领域上进行训练,在财经领域上进行测试,0.6652表示Prototype方法测试结果的精度,也就是采样Prototype方法的正确率,其它类推。实验结果表明本发明的文本情感倾向性分析方法具有较高移植能力。在对新领域测试集进行测试时,本发明的平均精度达到了78.8%,大约比Prototype方法高11个百分点。
表2实验结果
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
Claims (2)
1.一种文本情感倾向性分析方法,包括下列步骤:
1)根据训练文本的标签确定测试文本的初始情感分,以及根据训练文本的标签确定训练文本的初始情感分;
2)基于图排序算法,利用所述训练文本的初始情感分计算所述测试文本的情感分的第一分量;
3)基于图排序算法,利用所述测试文本的初始情感分计算所述测试文本的情感分的第二分量;
4)利用所述两个分量迭代计算所述测试文本的情感分并归一化;
5)当所述迭代结束时,根据所述计算的结果判别所述测试文本的情感倾向性;
所述步骤2)进一步包括:
以所述测试文本和训练文本为结点、所述训练文本和所述测试文本间的内容相似度为边建立图模型;
根据所述图模型构建联接矩阵并归一化;
将所述归一化的联接矩阵的每一行降序排列;
根据所述降序排列后的联接矩阵的每一行的前K1个元素对应的训练文本的情感分计算所述测试文本的情感分的第一分量,其中K1的取值范围为[1,训练文本个数];
所述步骤3)进一步包括
以所述测试文本为结点、所有测试文本间的内容相似度为边建立图模型;
根据所述图模型构建联接矩阵并归一化;
将所述归一化的联接矩阵的每一行降序排列;
根据所述降序排列后的联接矩阵的每一行的前K2个元素对应的测试文本的情感分计算所述测试文本的情感分的第二分量,其中K2的取值范围为[1,测试文本个数]。
2.根据权利要求1所述的方法,其特征在于,所述步骤1)包括:根据所述训练文本的标签对所述测试文本进行分类,根据所述分类确定所述测试文本的初始情感分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910083522.1A CN101882136B (zh) | 2009-05-08 | 2009-05-08 | 文本情感倾向性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910083522.1A CN101882136B (zh) | 2009-05-08 | 2009-05-08 | 文本情感倾向性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101882136A CN101882136A (zh) | 2010-11-10 |
CN101882136B true CN101882136B (zh) | 2015-02-04 |
Family
ID=43054152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910083522.1A Active CN101882136B (zh) | 2009-05-08 | 2009-05-08 | 文本情感倾向性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101882136B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2745210A4 (en) * | 2011-08-15 | 2014-11-26 | Equal Media Ltd | SYSTEM AND METHOD FOR MANAGING OPINION NETWORKS WITH INTERACTIVE OPINION FLOWS |
CN103106211B (zh) * | 2011-11-11 | 2017-05-03 | 中国移动通信集团广东有限公司 | 客户咨询文本的情感识别方法及装置 |
CN103559176B (zh) * | 2012-10-29 | 2016-08-17 | 中国人民解放军国防科学技术大学 | 微博情感演化分析方法及系统 |
CN103207855B (zh) * | 2013-04-12 | 2019-04-26 | 广东工业大学 | 针对产品评论信息的细粒度情感分析系统及方法 |
CN103473356B (zh) * | 2013-09-26 | 2017-01-25 | 苏州大学 | 一种篇章级情感分类方法及装置 |
CN104809128A (zh) * | 2014-01-26 | 2015-07-29 | 中国科学院声学研究所 | 一种获取语句情感倾向性的方法及系统 |
CN108694165B (zh) * | 2017-04-10 | 2021-11-09 | 南京理工大学 | 面向产品评论的跨领域对偶情感分析方法 |
CN107577665B (zh) * | 2017-09-11 | 2020-11-03 | 电子科技大学 | 文本情感倾向的判别方法 |
CN108647204B (zh) * | 2018-04-27 | 2021-09-17 | 云南大学 | 一种跨领域情感分析方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
-
2009
- 2009-05-08 CN CN200910083522.1A patent/CN101882136B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
Non-Patent Citations (1)
Title |
---|
王索格.基于Web的评论文本情感分类问题研究.《中国博士学位论文全文数据库(电子期刊)》.2009,(第1期),I138-31. * |
Also Published As
Publication number | Publication date |
---|---|
CN101882136A (zh) | 2010-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101882136B (zh) | 文本情感倾向性分析方法 | |
CN103049501B (zh) | 基于互信息和条件随机场模型的中文领域术语识别方法 | |
CN105045812B (zh) | 文本主题的分类方法及系统 | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
CN101710333B (zh) | 基于遗传算法的网络文本分割方法 | |
CN101770580B (zh) | 一种跨领域的文本情感分类器的训练方法和分类方法 | |
CN101714135B (zh) | 一种跨领域文本情感倾向性分析方法 | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
TW201737118A (zh) | 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置 | |
CN103020167B (zh) | 一种计算机中文文本分类方法 | |
CN106372061A (zh) | 基于语义的短文本相似度计算方法 | |
CN103235772A (zh) | 一种文本集人物关系自动提取方法 | |
CN101739430B (zh) | 一种基于关键词的文本情感分类器的训练方法和分类方法 | |
CN111144119B (zh) | 一种改进知识迁移的实体识别方法 | |
CN105205501A (zh) | 一种多分类器联合的弱标注图像对象检测方法 | |
CN100412869C (zh) | 一种改进的基于文档结构的文档相似性度量方法 | |
CN100543735C (zh) | 基于文档结构的文档相似性度量方法 | |
CN110019822B (zh) | 一种少样本关系分类方法及系统 | |
CN110297888A (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
CN104008187A (zh) | 一种基于最小编辑距离的半结构化文本匹配方法 | |
CN105786898B (zh) | 一种领域本体的构建方法和装置 | |
Sebti et al. | A new word sense similarity measure in WordNet | |
CN114139634A (zh) | 一种基于成对标签权重的多标签特征选择方法 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
CN109376790A (zh) | 一种基于渗流分析的二元分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |