CN107577665A - 文本情感倾向的判别方法 - Google Patents

文本情感倾向的判别方法 Download PDF

Info

Publication number
CN107577665A
CN107577665A CN201710812048.6A CN201710812048A CN107577665A CN 107577665 A CN107577665 A CN 107577665A CN 201710812048 A CN201710812048 A CN 201710812048A CN 107577665 A CN107577665 A CN 107577665A
Authority
CN
China
Prior art keywords
sentence
text
discrimination
emotion
digraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710812048.6A
Other languages
English (en)
Other versions
CN107577665B (zh
Inventor
秦科
段贵多
刘贵松
罗光春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201710812048.6A priority Critical patent/CN107577665B/zh
Publication of CN107577665A publication Critical patent/CN107577665A/zh
Application granted granted Critical
Publication of CN107577665B publication Critical patent/CN107577665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本情感倾向的判别方法,包括:A.获得训练语句,并对训练语句赋予类别标签;B.对测试语句进行拆分,并根据类别标签获得拆分后的每条语句的情感倾向得分;C.根据三种特征获得每条语句的初始权重;D.以所述的每条语句为节点、每条语句之间的相似度为边构建无向图;E.根据所述的无向图构建有向图;F.根据有向图和每条语句的初始权重,利用图排序方法迭代计算每条语句的权重值;G.迭代结束后,将所述每条语句的情感倾向得分根据权重值加权求和,获得当前文本的情感倾向值,并以此判断当前文本的情感倾向性。本发明通过对语句拆分,能够有效获得整个文本的情感倾向值,非常明显的提高了文本情感判断和分类的准确度。

Description

文本情感倾向的判别方法
技术领域
本发明涉及数据挖掘和模式识别的方法,具体讲是文本情感倾向的判别方法。
背景技术
随着互联网技术的迅猛发展,人类社交早已不局限于面对面沟通和书信交流。而网络社交媒体因其蓬勃的发展态势,逐步成为当下民众不可或缺的沟通桥梁,也是自由发表意见的交流平台,极大程度上丰富了人类生活。人们通过网络社交媒体发布信息的渠道越来越简便,频率也逐渐增大,随之带来的网络文本数量也呈极速增长趋势。
网络社交媒体中很大部分都是以传播信息为主,并兼容着娱乐、教育、营销等功能。以微博为例,已经从早期的社交平台逐步转变为民众的舆论中心,上面发布着海量的评论信息,是民众对于热点事件所持态度的风向标。不仅如此,越来越多的公众人物通过微博进行营销宣传,甚至一些国家政务机关都使用微博公开或发布信息,这使得微博平台的盛行和传播力度得到了进一步扩展,从而引发文本信息的爆炸式增长。然而,这些文本信息通常都是非结构化数据,不仅内容泛滥、结构不规整、数据量庞大,往往还蕴含着民众的情感倾向。如果单纯地以人力资源对这些海量文本进行整理和分析,无疑是困难且费时的,因此迫切需要一种能够有效处理这些网络文本信息并判别其中蕴含的情感倾向性方法。
文本挖掘与自然语言处理技术密不可分,是当下的研究热点。而文本情感倾向性判别作为文本挖掘的一个分支,以从文本信息中挖掘用户对于热点事件或品牌口碑的情感倾向为目的,在日常生活场景中有着极大的研究意义。对消费者而言,文本情感倾向性判别技术能够提供其他用户对于商品的总体评价,并以此作为购买决策的依据。对企业而言,能够通过文本情感倾向判别技术获得产品在当前市场的口碑走势,从而针对性地对产品进行改善,获得更大的经济效益。作为政府的宏观调控,基于文本情感倾向判别技术能够实现对舆情的实时监控,及时发现群众对于热点事件的情绪及态度,对不利的舆情发展进行干预,为一些突发事件提前做好准备。因此,对文本情感倾向的判断是很有必要并且是有积极意义的。
发明内容
本发明提供了一种文本情感倾向的判别方法,以有效提高文本情感倾向判断的准确性。
本发明的文本情感倾向的判别方法,包括:
A.从语料库中获得训练语句,并对训练语句赋予类别标签;
B.对测试语句进行拆分,并根据训练语句的类别标签获得测试文本拆分后的每条语句的情感倾向得分;
C.根据“情感纯净度”、“关键词特性”和“语句在文本中的位置”三种特征获得所述拆分后的每条语句的初始权重。
情感关键句表达的是文本的整体情感,蕴含的情感相对单一。情感纯净度是指句子情感单一的程度,情感纯净度越高,句子的情感单一程度越高,其情感贡献度越大,作为情感关键句的可能性越大;
由于人们的语言习惯,情感关键句作为奠定文本情感基调的句子,大多使用具有概括性的词语,例如“总而言之”、“总体”等关键词。因此,关键词特性也是计算每条语句初始权重的因素之一;
由于文本往往在开头表达情感,定下情感基调,或在结尾进行总结性的评述。因此,开头语句或者结尾语句都对整个文档的情感有着举足轻重的作用。于是在计算语句的初始权重时,也需要考虑语句位置带来的影响;
D.以所述的每条语句为节点、每条语句之间的相似度为边构建无向图;
E.根据所述的无向图构建有向图,有向图的节点为所述的每条语句,有向图的每条边表示始点到终点转移概率;
F.根据步骤E的有向图和步骤C的每条语句的初始权重,利用图排序方法迭代计算每条语句的权重值;
G.迭代结束后,将所述每条语句的情感倾向得分根据权重值加权求和,获得当前文本的情感倾向值,并以此判断当前文本的情感倾向性。
进一步的,步骤B中通过测试语句中的标点符号对测试语句进行拆分,例如“句号”、“问号”、“叹号”等。
进一步的,步骤B中获得测试文本拆分后的每条语句的情感倾向得分的方法为:先计算测试语句与所有训练语句的余弦相似度,利用KNN算法(K-Nearest Neighbor)获取与测试语句最相似的K条训练语句,然后根据该K条最相似训练语句的类型标签以及对所述的余弦相似度归一化处理后的结果,加权获得测试语句的情感倾向得分。
具体的,步骤D中所述的相似度为每条语句之间的余弦相似度。
进一步的,步骤E中所述的始点到终点的转移概率为:始点与终点的相似度,占始点与其他所有节点相似度之和的比例。
具体的,步骤F中所述的权重值为:通过图排序方法迭代后的以有向图的各节点为终点的各有向边,每条有向边的始点权重与转移概率的乘积之和。
在此基础上,步骤G中,将所述的权重值先进行归一化处理后,在进行加权求和。
本发明的文本情感倾向的判别方法,通过对语句拆分,能够有效获得整个文本的情感倾向值,非常明显的提高了文本情感判断和分类的准确度。
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
附图说明
图1为本发明文本情感倾向的判别方法的流程图。
图2为构建的无向图的示意图。
图3为构建的有向图的示意图。
具体实施方式
如图1所示本发明文本情感倾向的判别方法,包括:
A.从语料库中获得训练语句,获得训练语句集合D={d1,d2,...,dn},并对训练语句赋予类别标签。训练语句集合一般来自比较具有权威性的中文语料库,例如中国科学院计算技术研究所的中文文本分类语料库TanCorp、第二届自然语言处理与中文计算会议(NLP&CC 2013)的中文微博情绪识别数据集等。对训练语句集合中的每条训练语句都赋予一个表示类别的标签C={正面,负面},即代表着类型标签值,正面为“1”,负面为“-1”。
B.当前的测试文本T,通过测试文本T的各测试语句中的标点符号对测试语句进行拆分,例如“句号”、“问号”、“叹号”等,形成测试语句集合V={v1,v2,...,vm}。并根据训练语句的类别标签获得测试文本拆分后的每条语句的情感倾向得分,方法为:先计算测试语句与所有训练语句的余弦相似度,利用KNN算法(K-Nearest Neighbor)获取与测试语句最相似的K条训练语句。以测试语句vi和训练语句dj为例,找出vi和dj出现的所有词语并取并集,设并集中词语的个数为r,统计每个词语在vi和dj中出现的频率,组成vi和dj的词频向量。例如vi的词频向量为(ni1,ni2,...,nir),dj的词频向量为(nj1,nj2,...,njr),则vi和dj之间的余弦相似度计算公式如下:
通过上述方法,能够得出每条测试语句与所有训练语句之间的余弦相似度。
然后对这些余弦相似度计算结果进行排序,根据该K条最相似训练语句的类型标签以及对所述的余弦相似度归一化处理,所有归一化处理后的余弦相似度与对应的训练语句类型标签值的乘积之和即为当前测试语句的情感倾向得分。以测试语句vi为例,vi的情感倾向得分的计算公式如下所示,其中label(dj)表示训练语句dj的类型标签值。
C.计算出每条测试语句的情感得分后,根据“情感纯净度”、“关键词特性”和“语句在文本中的位置”三种特征获得所述拆分后的每条语句的初始权重。以测试语句vi为例,首先将计算vi的“情感纯净度”得分、“关键词特性”得分和“语句在文本中的位置”得分,再对这三项值进行加权求和,并以此结果作为vi的初始权重。
情感关键句表达的是文本的整体情感,蕴含的情感相对单一。情感纯净度是指句子情感单一程度,情感纯净度越高,句子的情感单一程度越高,其情感贡献度越大,因此作为情感关键句的可能性越大。vi的情感纯净度purity(vi)的得分公式为:
其中,|vi|是vi中的词语个数;polarity(w)表示词语w的情感极性,词语的情感极性在情感词典中如果为正面,则polarity(w)为1;如果词语w的情感极性为负面,则polarity(w)为-1。
由于人们的语言习惯,情感关键句作为奠定文本情感基调的子句,大多使用具有概括性的词语,例如“总而言之”、“总体”等关键词。因此,关键词特性也是计算每条语句初始权重的因素之一。vi的关键词特性keyword(vi)的得分公式为:
其中,KW是关键词集,KW={总体、整体、总的、总结、总的来说、总而言之、因此、所以};EKW(w)为指示函数,当词语w∈KW时,EKW(w)为1;当词语时,EKW(w)为0。
在文本信息中,往往在开头表达情感,定下情感基调,或在结尾进行总结性的评述。因此,开头语句或者结尾语句都对整个文档的情感有重要的作用。因此,在计算语句的初始权重时,也会考虑语句位置带来的影响。vi的位置特性position(vi)的得分公式为:
position(vi)=i2-m×i+100
其中,m代表测试文本T所包含的语句总数;i表示测试语句vi是文档中的第i个子句,i∈[1,m];假定文本T中的语句总数都不超过20,为了保证每一个子句的位置得分都为一个非负数,因此添加了常量100。
以上已求得vi的“情感纯净度”得分、“关键词特性”得分和“语句在文本中的位置”得分,因此,再对这三项值进行加权求和,即为vi的初始权重,计算方法如下所示,其中λ1、λ2和λ3为以上三个得分对应的权重值,且λ123=1:
weight(vi)=λ1×purity(vi)+λ2×keyword(vi)+λ3×position(vi)
本实施例中对整个训练语句集合中的每条语句都被赋予了情感的分类标签,并将其中的80%作为训练数据,20%作为测试数据。在对每条测试语句进行初始权重的计算时,选取多组不同比例下的λ1、λ2、λ3权重值进行计算,最终通过在不同比例的λ1、λ2、λ3权重值下,根据测试语句情感分类准确率的高低,选出最适合的三个得分对应的权重值λ1、λ2和λ3
D.以所述的每条语句为节点、每条语句之间的余弦相似度为边构建无向图。如图2所示,以测试语句vi、vi′为例,它们之间的无向边权值以UGEW(vi,vi′)表示,数值为cos(vi,vi′),且UGEW(vi,vi′)=UGEW(vi′,vi)。UGEW表示无向图边权值(Undirected Graph EdgeWeight)。
E.根据所述的无向图构建有向图,有向图的节点为所述的每条语句,有向图的每条边表示始点到终点转移概率。如图3所示。以测试语句vi、vi′为例,vi至vi′的有向边权值以DGEW(vi,vi′)表示,计算方法如下所示,其中DGEW(vi,vi′)≠DGEW(vi′,vi),V表示测试文本T经过语句拆分获得的测试语句集合V={v1,v2,...,vm},DGEW表示有向图边权值(DirectedGraph Edge Weight)。
F.根据步骤E的有向图和步骤C的每条语句的初始权重,通过图排序方法迭代计算每条语句的权重值,直至收敛。收敛时,获得每条语句的最终权重值。每次迭代时,每条语句的权重值是以有向图的各节点(有向图的节点为所述的每条语句)为终点的各有向边,每条有向边的始点权重与转移概率的乘积之和。以测试语句vi为例,其中weightn(vi)表示第n次迭代后vi的权重值,计算公式为:
G.迭代结束后,将所述每条语句的情感倾向得分根据归一化处理后的权重值加权求和,获得当前文本的情感倾向值,并以此判断当前文本的情感倾向性。如果情感倾向值大于0,则判断测试文本T为正面情感;如果情感倾向值小于0,则判断测试文本T为负面情感。假设利用图排序方法迭代计算n次就获得每条语句的权重值,测试文本T的情感倾向值以SO(T)表示,计算公式为:

Claims (7)

1.文本情感倾向的判别方法,其特征包括:
A.从语料库中获得训练语句,并对训练语句赋予类别标签;
B.对测试语句进行拆分,并根据训练语句的类别标签获得测试文本拆分后的每条语句的情感倾向得分;
C.根据“情感纯净度”、“关键词特性”和“语句在文本中的位置”三种特征获得所述拆分后的每条语句的初始权重;
D.以所述的每条语句为节点、每条语句之间的相似度为边构建无向图;
E.根据所述的无向图构建有向图,有向图的节点为所述的每条语句,有向图的每条边表示始点到终点转移概率;
F.根据步骤E的有向图和步骤C的每条语句的初始权重,利用图排序方法迭代计算每条语句的权重值;
G.迭代结束后,将所述每条语句的情感倾向得分根据权重值加权求和,获得当前文本的情感倾向值,并以此判断当前文本的情感倾向性。
2.如权利要求1所述的文本情感倾向的判别方法,其特征为:步骤B中通过测试语句中的标点符号对测试语句进行拆分。
3.如权利要求1所述的文本情感倾向的判别方法,其特征为:步骤B中获得测试文本拆分后的每条语句的情感倾向得分的方法为:先计算测试语句与所有训练语句的余弦相似度,利用KNN算法获取与测试语句最相似的K条训练语句,然后根据该K条最相似训练语句的类型标签以及对所述的余弦相似度归一化处理后的结果,加权获得测试语句的情感倾向得分。
4.如权利要求1所述的文本情感倾向的判别方法,其特征为:步骤D中所述的相似度为每条语句之间的余弦相似度。
5.如权利要求1所述的文本情感倾向的判别方法,其特征为:步骤E中所述的始点到终点的转移概率为:始点与终点的相似度,占始点与其他所有节点相似度之和的比例。
6.如权利要求1所述的文本情感倾向的判别方法,其特征为:步骤F中所述的权重值为:通过图排序方法迭代后的以有向图的各节点为终点的各有向边,每条有向边的始点权重与转移概率的乘积之和。
7.如权利要求1至6之一所述的文本情感倾向的判别方法,其特征为:步骤G中,将所述的权重值先进行归一化处理后,在进行加权求和。
CN201710812048.6A 2017-09-11 2017-09-11 文本情感倾向的判别方法 Active CN107577665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710812048.6A CN107577665B (zh) 2017-09-11 2017-09-11 文本情感倾向的判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710812048.6A CN107577665B (zh) 2017-09-11 2017-09-11 文本情感倾向的判别方法

Publications (2)

Publication Number Publication Date
CN107577665A true CN107577665A (zh) 2018-01-12
CN107577665B CN107577665B (zh) 2020-11-03

Family

ID=61033022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710812048.6A Active CN107577665B (zh) 2017-09-11 2017-09-11 文本情感倾向的判别方法

Country Status (1)

Country Link
CN (1) CN107577665B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228573A (zh) * 2018-03-23 2018-06-29 北京航空航天大学 文本情感分析方法、装置及电子设备
CN109408637A (zh) * 2018-10-15 2019-03-01 苏州慧筑信息科技有限公司 一种自动解析工程清单的方法及系统
CN109783800A (zh) * 2018-12-13 2019-05-21 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109933793A (zh) * 2019-03-15 2019-06-25 腾讯科技(深圳)有限公司 文本极性识别方法、装置、设备及可读存储介质
CN112651211A (zh) * 2020-12-11 2021-04-13 北京大米科技有限公司 标签信息确定方法、装置、服务器及存储介质
CN112860907A (zh) * 2021-04-27 2021-05-28 华南师范大学 一种情感分类方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4073015B2 (ja) * 2003-03-05 2008-04-09 日本電信電話株式会社 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
CN101882136A (zh) * 2009-05-08 2010-11-10 中国科学院计算技术研究所 文本情感倾向性分析方法
CN104252445A (zh) * 2013-06-26 2014-12-31 华为技术有限公司 文档相似度计算方法、近似重复文档检测方法及装置
WO2016125949A1 (ko) * 2015-02-02 2016-08-11 숭실대학교 산학협력단 문서 자동 요약 방법 및 서버

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4073015B2 (ja) * 2003-03-05 2008-04-09 日本電信電話株式会社 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
CN101882136A (zh) * 2009-05-08 2010-11-10 中国科学院计算技术研究所 文本情感倾向性分析方法
CN104252445A (zh) * 2013-06-26 2014-12-31 华为技术有限公司 文档相似度计算方法、近似重复文档检测方法及装置
WO2016125949A1 (ko) * 2015-02-02 2016-08-11 숭실대학교 산학협력단 문서 자동 요약 방법 및 서버

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228573A (zh) * 2018-03-23 2018-06-29 北京航空航天大学 文本情感分析方法、装置及电子设备
CN109408637A (zh) * 2018-10-15 2019-03-01 苏州慧筑信息科技有限公司 一种自动解析工程清单的方法及系统
CN109783800A (zh) * 2018-12-13 2019-05-21 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109783800B (zh) * 2018-12-13 2024-04-12 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109933793A (zh) * 2019-03-15 2019-06-25 腾讯科技(深圳)有限公司 文本极性识别方法、装置、设备及可读存储介质
CN109933793B (zh) * 2019-03-15 2023-01-06 腾讯科技(深圳)有限公司 文本极性识别方法、装置、设备及可读存储介质
CN112651211A (zh) * 2020-12-11 2021-04-13 北京大米科技有限公司 标签信息确定方法、装置、服务器及存储介质
CN112860907A (zh) * 2021-04-27 2021-05-28 华南师范大学 一种情感分类方法及设备
CN112860907B (zh) * 2021-04-27 2021-06-29 华南师范大学 一种情感分类方法及设备

Also Published As

Publication number Publication date
CN107577665B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
Sahu et al. Sentiment analysis of movie reviews: A study on feature selection & classification algorithms
CN107577665A (zh) 文本情感倾向的判别方法
Das et al. An improved text sentiment classification model using TF-IDF and next word negation
Kanakaraj et al. NLP based sentiment analysis on Twitter data using ensemble classifiers
Kanakaraj et al. Performance analysis of Ensemble methods on Twitter sentiment analysis using NLP techniques
Barnaghi et al. Opinion mining and sentiment polarity on twitter and correlation between events and sentiment
Ortega et al. SSA-UO: unsupervised Twitter sentiment analysis
Barbieri et al. Modelling irony in twitter
Pane et al. A multi-lable classification on topics of quranic verses in english translation using multinomial naive bayes
El-Halees Mining opinions in user-generated contents to improve course evaluation
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
Povoda et al. Sentiment analysis based on support vector machine and big data
Dehkharghani et al. Adaptation and use of subjectivity lexicons for domain dependent sentiment classification
Aishwarya et al. A novel adaptable approach for sentiment analysis
Karanasou et al. Scalable and real-time sentiment analysis of twitter data
Gaikwad et al. Multiclass mood classification on Twitter using lexicon dictionary and machine learning algorithms
Le et al. Aspect analysis for opinion mining of Vietnamese text
Fong et al. Sentiment analysis of online news using mallet
Shyamasundar et al. Twitter sentiment analysis with different feature extractors and dimensionality reduction using supervised learning algorithms
CN103473380A (zh) 一种计算机文本情感分类方法
Reddy et al. Profile specific document weighted approach using a new term weighting measure for author profiling
Neshan et al. A combination of machine learning and lexicon based techniques for sentiment analysis
Tembhurnikar et al. Topic detection using BNgram method and sentiment analysis on twitter dataset
Asinthara et al. Categorizing disaster tweets using learning based models for emergency crisis management
Singhi et al. Are poetry and lyrics all that different?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant