CN106202200B - 一种基于固定主题的文本情感倾向性分类方法 - Google Patents
一种基于固定主题的文本情感倾向性分类方法 Download PDFInfo
- Publication number
- CN106202200B CN106202200B CN201610485392.4A CN201610485392A CN106202200B CN 106202200 B CN106202200 B CN 106202200B CN 201610485392 A CN201610485392 A CN 201610485392A CN 106202200 B CN106202200 B CN 106202200B
- Authority
- CN
- China
- Prior art keywords
- theme
- emotional
- symbol
- sentiment orientation
- emotional symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于固定主题的文本情感倾向性分类的方法,属于文本情感倾向性分类领域。首先找出句子的主题,根据主题在本句的位置分成两步分别计算此主题前后的情感倾向,最终再计算出此主题的情感倾向。利用特征情感符号和通用情感词典找出句子中的情感符号;在主题词与情感符号之间找否定词和程度副词并计算其对此情感符号的影响;在情感符号之间找连接关系并计算本主题的情感倾向。本发明能帮助用户得到其他用户对某一产品、服务、事件或人物重要属性的倾向程度,并细分出相关用户对此产品、事件或人物各特征方面的情感倾向。
Description
技术领域
本发明涉及一种基于固定主题的文本情感倾向性分类方法,属于文本情感倾向性分类领域。
背景技术
在网络信息爆炸的时代,如何得到大众对某一事件、产品的观点或看法,即如何从这些评论信息中找出有用的参考数据,是近十几年来国内外相关研究者的重要内容。
目前针对情感倾向性分类主要采用的是基于情感词典和基于大规模语料库的机器学习,而不管是基于词典或是机器学习其关键在于情感词典的质量。利用一个情感词典对不同的主题进行分类,情感词典的质量必然达不到专业的要求并且会大大降低情感分类的速度。由于评论信息对象属性特征的多样性,一个主题中往往两个评论方向都存在,即不同的属性拥有不同的情感倾向。这就需要对主题中存在的属性进行逐一分析,使得对此主题的分类更加详细可靠。
发明内容
本发明的目的在于提出一种针对某一固定主题的情感倾向性分类方法,使针对主题的情感分类更加详细可靠,具体包括以下过程:
首先将句子划分为四种成分,包括主题T、情感符号S、修饰情感符号的程度副词W、修饰情感符号的否定词P;
为主题T建立等式,主题T包括关键词、特征属性和细分特征属性,与主题相关的所有关键词ti可以互相表示:t1=t2=t3=...=ti=...=tn,i∈[1,n];
为关键词ti建立特征属性等式:
ti=A1+A2+A3+...+Ap+...+Am,p∈[1,m];
为Ap建立一个细分特征属性等式:Ap=ap1+ap2+ap3+...+apq+...+apk
apq表示特征属性Ap的细分特征属性,q∈[1,k]。
然后为每一个主题T找出其常用特征情感符号:通过对知网的情感词典、台湾大学的情感词典、大连理工大学的情感词典进行对比找出情感倾向有差别的情感符号,同时按照词频统计方法找出主题T中常用的情感符号,将两者结果叠加作为主题T的特征情感符号,且对所有特征情感符号进行积极和消极的倾向划分。将得到特征情感符号之后的情感词典合并得到通用情感词典。最后对所有积极的情感符号赋值Ds为1,所有消极的情感符号赋值Ds为-1。
再次考虑到不同的程度副词对情感符号的影响不同,需要对程度副词W赋值处理,具体操作为:将程度副词W的程度倾向按照“稍、很、极其”进行分类并赋程度值Dw:“稍”的程度值为1,“很”的程度值为2,“极其”的程度值为3。
按照下面步骤计算并得到句子的情感倾向:
(1)按句子顺序,找出中文文本中第一个主题T1,在主题T1后面从特征情感符号和通用情感词典找出第一个情感符号S1,其情感倾向值为对应的情感符号赋值Ds,没有情感符号则情感倾向值为0并继续查找下一主题;
(2)在第一个主题T1与第一个情感符号S1之间找出所有的否定词P和程度副词W,并记录其位置PID和WID,计算第一个情感符号S1的情感倾向值
①否定词P的个数为偶数时:
②否定词P的个数为奇数时:
其中DS为情感符号的赋值,Dw表示程度副词的赋值,WID为程度副词的位置,PID为离S最近的否定词的位置;
(3)在第一个情感符号S1后面继续查找第二个情感符号S2,按照步骤(4)和(5)计算第二个情感符号S2的情感倾向值并按照两者之间的连接关系计算第一个主题T1后面的情感倾向值,若第一个情感符号S1后面没有其他情感符号则查找下一主题;
①并列关系:第一个主题T1后面的情感倾向值为第一个情感符号S1和第二个情感符号S2的情感倾向值之和;
②转折关系:第一个主题T1后面的情感倾向值为第二个情感符号S2的情感倾向值;
(4)继续顺序查找句子中其他情感符号直至句末或下一个主题词,并按照上述步骤计算出第一个主题T1后总的情感倾向值
(5)查找第一个主题T1前面的情感符号,并按步骤(4)-(7)计算第一个主题T1前面的情感倾向值
(6)计算第一个主题T1的情感倾向值
(7)依次查找其他主题并计算情感倾向值,每一句的情感倾向通过本句中所有主题的情感倾向值之和判断。
本发明的有益效果:与现有情感分类的技术相比,本发明是在确定研究的主题之后再对此主题进行情感分类之前的分析。分析之后得到的情感大词典包括特征情感符号和通用情感词典,整个大词典质量更加可靠,最终的情感分类效率更高,且本发明针对主题的多个属性进行了单独分析,使得分类结果更加详细可靠。
本发明能帮助用户得到其他用户对某一产品、服务、事件或人物重要属性的倾向程度,并细分出相关用户对此产品、事件或人物各特征方面的情感倾向。
附图说明
图1是文本结构图;
图2是句子中主题的情感倾向分析流程图。
具体实施方案
为了更加清楚、方便地描述本发明,下面结合附图及具体实施例对本发明进一步说明。
以一则评论华为荣耀7的短文为例:
华为荣耀7是国产手机中的战斗机。祝愿华为品牌举国产手机大旗,做大、做强民族品牌。荣耀7一到,拆开包装一看,还真是惊艳,并且还真不是一般地惊喜,系统流畅,电池容量大,想不到还带有指纹锁。
分析以上文本,文本中包含下面内容:
句子1:“华为荣耀7是国产手机中的战斗机。”
句子2:“祝愿华为品牌举国产手机大旗,做大、做强民族品牌。”
句子3:“荣耀7一到,拆开包装一看,还真是惊艳,并且还真不是一般地惊喜,系统流畅,电池容量大,想不到还带有指纹锁。”
首先确定关键词:手机=华为荣耀7=荣耀7=华为荣耀7手机 (式1)
手机=运行+屏幕+摄像头+通话+连网+电池+外观+价格+附赠品 (式2)
运行=内存+CPU+系统 (式3)
屏幕=尺寸+分辨率 (式4)
通过对知网的情感词典、台湾大学的情感词典、大连理工大学的情感词典进行对比找出情感倾向有差别的情感符号和按照词频统计方法找出各主题的特殊情感符号,根据式2得到特征属性表1:
表1特征属性表------华为荣耀7
按照式3、式4,分别得细分特征属性表2、表3:
表2细分特征属性表------运行
主题名 | 特征积极情感符号 | 特征消极情感符号 |
内存 | 内存大 | 内存小 |
CPU | 主频高、快 | 慢 |
系统 | 流畅、快 | 反应慢、不好 |
表3细分特征属性表------屏幕
主题名 | 特征积极情感符号 | 特征消极情感符号 |
尺寸 | 屏大 | 屏小 |
分辨率 | 高 | 低 |
可按照所需的实际情况来分类主题的属性和特征情感符号的极性,如用户对属性中的附赠品不需要关注,可以不将此属性归入表中;如需要更全的手机属性可以按照上式继续添加。
第一句中的第一个主题T1=华为荣耀7,在主题T1后面从特征情感符号和通用情感词典找出第一个情感符号S1=战斗机,其情感符号赋值为1,则其情感倾向值为1。
T1与S1之间无程度副词则DW1=0,无否定词,则主题T1的情感倾向值ST1=1。
主题T1所在句子中没有其他情感符号,则第一句的情感倾向值为1,表明此句情感倾向为积极。
第二句没有包含任何主题,所以不相关,在此不做分析。
第三句中的主题T2=荣耀7,T3=系统,T4=电池。
主题T2后的第一个情感符号S2=惊艳,其情感符号赋值Ds2为1,在主题T2与情感符号S2之间找程度副词W=真是,其中DW2=2,无否定词则情感符号S2的情感倾向值
在情感符号S2位置之后找到情感符号S3=惊喜,Ds3=1,情感符号S2与情感符号S3之间修饰情感符号S3的程度副词W=一般,Dw3=1,否定词P=不是,否定词P个数为1,WID=310,PID=309,位置标号第一位为句子序号,后两位为词在本句中的序号,对句子进行分词处理,其中对分词之后的词汇进行标注,序号为00、01、02、03....,则情感符号S3的情感倾向值
情感符号S3与情感符号S2为并列关系,且主题T2前后没有其他情感符号,则主题T2的情感倾向值表明主题T2的情感倾向是积极的。
主题T3后的第一个情感符号S4=流畅,Ds4=1,S4前无程度副词和否定词,则其情感倾向值主题T3前面也没有其他情感符号,因此主题T3的情感倾向值表明主题T3的情感倾向为积极。
主题T4后的第一个情感符号S5=容量大,Ds5=1,S5前无程度副词和否定词,则其情感倾向值主题T4前面也没有其他情感符号,因此主题T4的情感倾向值表明主题T4的情感倾向为积极。
上面结合附图对本发明的具体实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.一种基于固定主题的文本情感倾向性分类方法,其特征在于,包括以下步骤:
步骤(1)划分中文文本中句子的组成成分
将句子划分为四种成分,包括主题T、情感符号S、修饰情感符号的程度副词W、修饰情感符号的否定词P;
步骤(2)建立特征属性等式,找出中文文本中所有主题T;
步骤(3)找出每个主题T常用的特征情感符号和通用情感词典,按照积极和消极为情感符号赋值Ds;
步骤(4)按句子顺序,找出中文文本中第一个主题T1,在主题T1后面从特征情感符号和通用情感词典找出第一个情感符号S1,其情感倾向值为步骤(3)中对应的情感符号赋值Ds,没有情感符号则情感倾向值为0并继续查找下一主题;
步骤(5)在第一个主题T1与第一个情感符号S1之间找出所有的否定词P和程度副词W,并记录其位置PID和WID,计算第一个情感符号S1的情感倾向值
①否定词P的个数为偶数时:
②否定词P的个数为奇数时:
其中DS为情感符号的赋值,Dw表示程度副词的赋值,WID为程度副词的位置,PID为离S最近的否定词的位置;
步骤(6)在第一个情感符号S1后面继续查找第二个情感符号S2,按照步骤(4)和(5)计算第二个情感符号S2的情感倾向值并按照两者之间的连接关系计算第一个主题T1后面的情感倾向值,若第一个情感符号S1后面没有其他情感符号则查找下一主题;
①并列关系:第一个主题T1后面的情感倾向值为第一个情感符号S1和第二个情感符号S2的情感倾向值之和;
②转折关系:第一个主题T1后面的情感倾向值为第二个情感符号S2的情感倾向值;
步骤(7)继续顺序查找句子中其他情感符号直至句末或下一个主题词,并按照步骤(6)计算出第一个主题T1后总的情感倾向值
步骤(8)查找第一个主题T1前面的情感符号,并按步骤(4)-(7)计算第一个主题T1前面的情感倾向值
步骤(9)计算第一个主题T1的情感倾向值
步骤(10)依次查找其他主题并计算情感倾向值,每一句的情感倾向值通过本句中所有主题的情感倾向值之和判断。
2.根据权利要求1所述的基于固定主题的文本情感倾向性分类方法,其特征在于:所述步骤(2)中的主题T包括关键词、特征属性和细分特征属性,
t1=t2=t3=...=ti=...=tn,ti表示与主题T等同的关键词,i∈[1,n];
特征属性等式如下:
ti=A1+A2+A3+...+Ap+...+Am
其中Ap表示与关键词ti相关的特征属性,p∈[1,m];
Ap=ap1+ap2+ap3+...+apq+...+apk
apq表示特征属性Ap的细分特征属性,q∈[1,k]。
3.根据权利要求1所述的基于固定主题的文本情感倾向性分类方法,其特征在于:步骤(3)中针对每个主题T对知网的情感词典、台湾大学的情感词典、大连理工大学的情感词典进行对比找出情感倾向有差别的情感符号,同时按照词频统计方法找出主题T常用的情感符号,将两者的结果叠加作为主题T的特征情感符号,且对所有特征情感符号进行积极和消极的倾向划分;对所有积极的情感符号赋值Ds为1,所有消极的情感符号赋值Ds为-1。
4.根据权利要求1所述的基于固定主题的文本情感倾向性分类方法,其特征在于:所述步骤(5)中将程度副词W的程度倾向按照稍、很、极其进行分类并赋程度值Dw:稍的程度值为1,很的程度值为2,极其的程度值为3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610485392.4A CN106202200B (zh) | 2016-06-28 | 2016-06-28 | 一种基于固定主题的文本情感倾向性分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610485392.4A CN106202200B (zh) | 2016-06-28 | 2016-06-28 | 一种基于固定主题的文本情感倾向性分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202200A CN106202200A (zh) | 2016-12-07 |
CN106202200B true CN106202200B (zh) | 2019-09-27 |
Family
ID=57462009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610485392.4A Active CN106202200B (zh) | 2016-06-28 | 2016-06-28 | 一种基于固定主题的文本情感倾向性分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202200B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547924A (zh) * | 2016-12-09 | 2017-03-29 | 东软集团股份有限公司 | 文本信息的情感分析方法及装置 |
CN110162597A (zh) * | 2019-04-08 | 2019-08-23 | 财付通支付科技有限公司 | 文章数据处理方法、装置、计算机可读介质及电子设备 |
CN111160037B (zh) * | 2019-12-02 | 2021-10-26 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
CN110991167B (zh) * | 2019-12-05 | 2021-10-08 | 北京理工大学 | 一种基于情感层次体系的情感词典构建方法 |
CN111310476B (zh) * | 2020-02-21 | 2021-11-02 | 山东大学 | 一种使用基于方面的情感分析方法的舆情监控方法和系统 |
CN113378576B (zh) * | 2021-05-08 | 2023-05-26 | 重庆航天信息有限公司 | 食品安全数据挖掘方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103123620A (zh) * | 2012-12-11 | 2013-05-29 | 中国互联网新闻中心 | 一种基于命题逻辑的网络文本情感分析方法 |
CN103678278A (zh) * | 2013-12-16 | 2014-03-26 | 中国科学院计算机网络信息中心 | 一种中文文本情感识别方法 |
CN104331394A (zh) * | 2014-08-29 | 2015-02-04 | 南通大学 | 一种基于观点的文本分类方法 |
CN105022725A (zh) * | 2015-07-10 | 2015-11-04 | 河海大学 | 一种应用于金融Web领域的文本情感倾向分析方法 |
CN105069021A (zh) * | 2015-07-15 | 2015-11-18 | 广东石油化工学院 | 基于领域的中文短文本情感分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9201863B2 (en) * | 2009-12-24 | 2015-12-01 | Woodwire, Inc. | Sentiment analysis from social media content |
-
2016
- 2016-06-28 CN CN201610485392.4A patent/CN106202200B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103123620A (zh) * | 2012-12-11 | 2013-05-29 | 中国互联网新闻中心 | 一种基于命题逻辑的网络文本情感分析方法 |
CN103678278A (zh) * | 2013-12-16 | 2014-03-26 | 中国科学院计算机网络信息中心 | 一种中文文本情感识别方法 |
CN104331394A (zh) * | 2014-08-29 | 2015-02-04 | 南通大学 | 一种基于观点的文本分类方法 |
CN105022725A (zh) * | 2015-07-10 | 2015-11-04 | 河海大学 | 一种应用于金融Web领域的文本情感倾向分析方法 |
CN105069021A (zh) * | 2015-07-15 | 2015-11-18 | 广东石油化工学院 | 基于领域的中文短文本情感分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106202200A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202200B (zh) | 一种基于固定主题的文本情感倾向性分类方法 | |
CN107633044B (zh) | 一种基于热点事件的舆情知识图谱构建方法 | |
CN107832286B (zh) | 智能交互方法、设备及存储介质 | |
CN105224640B (zh) | 一种提取观点的方法和设备 | |
CN106953887B (zh) | 一种细粒度电台音频内容个性化组织推荐方法 | |
TWI653542B (zh) | 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置 | |
CN102929873B (zh) | 一种基于情境搜索提取搜索价值词的方法及装置 | |
CN107526800A (zh) | 信息推荐的装置、方法及计算机可读存储介质 | |
CN104516986A (zh) | 一种语句识别方法及装置 | |
US11361759B2 (en) | Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media | |
KR20160055930A (ko) | 연속적인 소셜 커뮤니케이션에 사용되는 콘텐츠를 능동적으로 구성하기 위한 시스템 및 방법 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
CN102929861A (zh) | 一种文本情感指数计算方法和系统 | |
KR20110115543A (ko) | 개체의 유사성을 계산하는 방법 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN109299277A (zh) | 舆情分析方法、服务器及计算机可读存储介质 | |
CN103294663A (zh) | 一种文本连贯性检测方法和装置 | |
CN103218368A (zh) | 一种挖掘热词的方法与装置 | |
Zhang et al. | A paralinguistic approach to speaker diarisation: using age, gender, voice likability and personality traits | |
Monteiro et al. | Design and evaluation of classifier for identifying sign language videos in video sharing sites | |
CN112686035A (zh) | 一种未登录词进行向量化的方法和装置 | |
CN104077320B (zh) | 一种用于生成待发布信息的方法和装置 | |
CN114328798A (zh) | 搜索文本的处理方法、装置、设备、存储介质和程序产品 | |
Prasad | Micro-blogging sentiment analysis using bayesian classification methods | |
CN105512270B (zh) | 一种确定相关对象的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |