CN106202200B

CN106202200B - 一种基于固定主题的文本情感倾向性分类方法

Info

Publication number: CN106202200B
Application number: CN201610485392.4A
Authority: CN
Inventors: 邵玉斌; 王丽霞; 刘彩; 王晨歌; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2019-09-27
Anticipated expiration: 2036-06-28
Also published as: CN106202200A

Abstract

本发明公开了一种基于固定主题的文本情感倾向性分类的方法，属于文本情感倾向性分类领域。首先找出句子的主题，根据主题在本句的位置分成两步分别计算此主题前后的情感倾向，最终再计算出此主题的情感倾向。利用特征情感符号和通用情感词典找出句子中的情感符号；在主题词与情感符号之间找否定词和程度副词并计算其对此情感符号的影响；在情感符号之间找连接关系并计算本主题的情感倾向。本发明能帮助用户得到其他用户对某一产品、服务、事件或人物重要属性的倾向程度，并细分出相关用户对此产品、事件或人物各特征方面的情感倾向。

Description

一种基于固定主题的文本情感倾向性分类方法

技术领域

本发明涉及一种基于固定主题的文本情感倾向性分类方法，属于文本情感倾向性分类领域。

背景技术

在网络信息爆炸的时代，如何得到大众对某一事件、产品的观点或看法，即如何从这些评论信息中找出有用的参考数据，是近十几年来国内外相关研究者的重要内容。

目前针对情感倾向性分类主要采用的是基于情感词典和基于大规模语料库的机器学习，而不管是基于词典或是机器学习其关键在于情感词典的质量。利用一个情感词典对不同的主题进行分类，情感词典的质量必然达不到专业的要求并且会大大降低情感分类的速度。由于评论信息对象属性特征的多样性，一个主题中往往两个评论方向都存在，即不同的属性拥有不同的情感倾向。这就需要对主题中存在的属性进行逐一分析，使得对此主题的分类更加详细可靠。

发明内容

本发明的目的在于提出一种针对某一固定主题的情感倾向性分类方法，使针对主题的情感分类更加详细可靠，具体包括以下过程：

首先将句子划分为四种成分，包括主题T、情感符号S、修饰情感符号的程度副词W、修饰情感符号的否定词P；

为主题T建立等式，主题T包括关键词、特征属性和细分特征属性，与主题相关的所有关键词t_i可以互相表示：t₁＝t₂＝t₃＝...＝t_i＝...＝t_n，i∈[1,n]；

为关键词t_i建立特征属性等式：

t_i＝A₁+A₂+A₃+...+A_p+...+A_m，p∈[1,m]；

为A_p建立一个细分特征属性等式：A_p＝a_p1+a_p2+a_p3+...+a_pq+...+a_pk

a_pq表示特征属性A_p的细分特征属性，q∈[1,k]。

然后为每一个主题T找出其常用特征情感符号：通过对知网的情感词典、台湾大学的情感词典、大连理工大学的情感词典进行对比找出情感倾向有差别的情感符号，同时按照词频统计方法找出主题T中常用的情感符号，将两者结果叠加作为主题T的特征情感符号，且对所有特征情感符号进行积极和消极的倾向划分。将得到特征情感符号之后的情感词典合并得到通用情感词典。最后对所有积极的情感符号赋值D_s为1，所有消极的情感符号赋值D_s为-1。

再次考虑到不同的程度副词对情感符号的影响不同，需要对程度副词W赋值处理，具体操作为：将程度副词W的程度倾向按照“稍、很、极其”进行分类并赋程度值D_w：“稍”的程度值为1，“很”的程度值为2，“极其”的程度值为3。

按照下面步骤计算并得到句子的情感倾向：

(1)按句子顺序，找出中文文本中第一个主题T₁，在主题T₁后面从特征情感符号和通用情感词典找出第一个情感符号S₁，其情感倾向值为对应的情感符号赋值D_s，没有情感符号则情感倾向值为0并继续查找下一主题；

(2)在第一个主题T₁与第一个情感符号S₁之间找出所有的否定词P和程度副词W，并记录其位置P_ID和W_ID，计算第一个情感符号S₁的情感倾向值

①否定词P的个数为偶数时：

②否定词P的个数为奇数时：

其中D_S为情感符号的赋值，D_w表示程度副词的赋值，W_ID为程度副词的位置，P_ID为离S最近的否定词的位置；

(3)在第一个情感符号S₁后面继续查找第二个情感符号S₂，按照步骤(4)和(5)计算第二个情感符号S₂的情感倾向值并按照两者之间的连接关系计算第一个主题T₁后面的情感倾向值，若第一个情感符号S₁后面没有其他情感符号则查找下一主题；

①并列关系：第一个主题T₁后面的情感倾向值为第一个情感符号S₁和第二个情感符号S₂的情感倾向值之和；

②转折关系：第一个主题T₁后面的情感倾向值为第二个情感符号S₂的情感倾向值；

(4)继续顺序查找句子中其他情感符号直至句末或下一个主题词，并按照上述步骤计算出第一个主题T₁后总的情感倾向值

(5)查找第一个主题T₁前面的情感符号，并按步骤(4)-(7)计算第一个主题T₁前面的情感倾向值

(6)计算第一个主题T₁的情感倾向值

(7)依次查找其他主题并计算情感倾向值，每一句的情感倾向通过本句中所有主题的情感倾向值之和判断。

本发明的有益效果：与现有情感分类的技术相比，本发明是在确定研究的主题之后再对此主题进行情感分类之前的分析。分析之后得到的情感大词典包括特征情感符号和通用情感词典，整个大词典质量更加可靠，最终的情感分类效率更高，且本发明针对主题的多个属性进行了单独分析，使得分类结果更加详细可靠。

本发明能帮助用户得到其他用户对某一产品、服务、事件或人物重要属性的倾向程度，并细分出相关用户对此产品、事件或人物各特征方面的情感倾向。

附图说明

图1是文本结构图；

图2是句子中主题的情感倾向分析流程图。

具体实施方案

为了更加清楚、方便地描述本发明，下面结合附图及具体实施例对本发明进一步说明。

以一则评论华为荣耀7的短文为例：

华为荣耀7是国产手机中的战斗机。祝愿华为品牌举国产手机大旗，做大、做强民族品牌。荣耀7一到，拆开包装一看，还真是惊艳，并且还真不是一般地惊喜，系统流畅，电池容量大，想不到还带有指纹锁。

分析以上文本，文本中包含下面内容：

句子1：“华为荣耀7是国产手机中的战斗机。”

句子2：“祝愿华为品牌举国产手机大旗，做大、做强民族品牌。”

句子3：“荣耀7一到，拆开包装一看，还真是惊艳，并且还真不是一般地惊喜，系统流畅，电池容量大，想不到还带有指纹锁。”

首先确定关键词：手机＝华为荣耀7＝荣耀7＝华为荣耀7手机 (式1)

手机＝运行+屏幕+摄像头+通话+连网+电池+外观+价格+附赠品 (式2)

运行＝内存+CPU+系统 (式3)

屏幕＝尺寸+分辨率 (式4)

通过对知网的情感词典、台湾大学的情感词典、大连理工大学的情感词典进行对比找出情感倾向有差别的情感符号和按照词频统计方法找出各主题的特殊情感符号，根据式2得到特征属性表1：

表1特征属性表------华为荣耀7

按照式3、式4，分别得细分特征属性表2、表3：

表2细分特征属性表------运行

主题名	特征积极情感符号	特征消极情感符号
			内存	内存大	内存小
CPU	主频高、快	慢
			系统	流畅、快	反应慢、不好

表3细分特征属性表------屏幕

主题名	特征积极情感符号	特征消极情感符号
			尺寸	屏大	屏小
分辨率	高	低

可按照所需的实际情况来分类主题的属性和特征情感符号的极性，如用户对属性中的附赠品不需要关注，可以不将此属性归入表中；如需要更全的手机属性可以按照上式继续添加。

第一句中的第一个主题T₁＝华为荣耀7，在主题T₁后面从特征情感符号和通用情感词典找出第一个情感符号S₁＝战斗机，其情感符号赋值为1，则其情感倾向值为1。

T₁与S₁之间无程度副词则D_W1＝0，无否定词，则主题T₁的情感倾向值S_T1＝1。

主题T₁所在句子中没有其他情感符号，则第一句的情感倾向值为1，表明此句情感倾向为积极。

第二句没有包含任何主题，所以不相关，在此不做分析。

第三句中的主题T₂＝荣耀7，T₃＝系统，T₄＝电池。

主题T₂后的第一个情感符号S₂＝惊艳，其情感符号赋值Ds₂为1，在主题T₂与情感符号S₂之间找程度副词W＝真是，其中D_W2＝2，无否定词则情感符号S₂的情感倾向值

在情感符号S₂位置之后找到情感符号S₃＝惊喜，Ds₃＝1，情感符号S₂与情感符号S₃之间修饰情感符号S₃的程度副词W＝一般，D_w3＝1，否定词P＝不是，否定词P个数为1，W_ID＝310，P_ID＝309，位置标号第一位为句子序号，后两位为词在本句中的序号，对句子进行分词处理，其中对分词之后的词汇进行标注，序号为00、01、02、03....，则情感符号S₃的情感倾向值

情感符号S₃与情感符号S₂为并列关系，且主题T₂前后没有其他情感符号，则主题T₂的情感倾向值表明主题T₂的情感倾向是积极的。

主题T₃后的第一个情感符号S₄＝流畅，Ds₄＝1，S₄前无程度副词和否定词，则其情感倾向值主题T₃前面也没有其他情感符号，因此主题T₃的情感倾向值表明主题T₃的情感倾向为积极。

主题T₄后的第一个情感符号S₅＝容量大，Ds₅＝1，S₅前无程度副词和否定词，则其情感倾向值主题T₄前面也没有其他情感符号，因此主题T₄的情感倾向值表明主题T₄的情感倾向为积极。

上面结合附图对本发明的具体实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于固定主题的文本情感倾向性分类方法，其特征在于，包括以下步骤：

步骤(1)划分中文文本中句子的组成成分

将句子划分为四种成分，包括主题T、情感符号S、修饰情感符号的程度副词W、修饰情感符号的否定词P；

步骤(2)建立特征属性等式，找出中文文本中所有主题T；

步骤(3)找出每个主题T常用的特征情感符号和通用情感词典，按照积极和消极为情感符号赋值D_s；

步骤(4)按句子顺序，找出中文文本中第一个主题T₁，在主题T₁后面从特征情感符号和通用情感词典找出第一个情感符号S₁，其情感倾向值为步骤(3)中对应的情感符号赋值D_s，没有情感符号则情感倾向值为0并继续查找下一主题；

步骤(5)在第一个主题T₁与第一个情感符号S₁之间找出所有的否定词P和程度副词W，并记录其位置P_ID和W_ID，计算第一个情感符号S₁的情感倾向值

①否定词P的个数为偶数时：

②否定词P的个数为奇数时：

步骤(6)在第一个情感符号S₁后面继续查找第二个情感符号S₂，按照步骤(4)和(5)计算第二个情感符号S₂的情感倾向值并按照两者之间的连接关系计算第一个主题T₁后面的情感倾向值，若第一个情感符号S₁后面没有其他情感符号则查找下一主题；

步骤(7)继续顺序查找句子中其他情感符号直至句末或下一个主题词，并按照步骤(6)计算出第一个主题T₁后总的情感倾向值

步骤(8)查找第一个主题T₁前面的情感符号，并按步骤(4)-(7)计算第一个主题T₁前面的情感倾向值

步骤(9)计算第一个主题T₁的情感倾向值

步骤(10)依次查找其他主题并计算情感倾向值，每一句的情感倾向值通过本句中所有主题的情感倾向值之和判断。

2.根据权利要求1所述的基于固定主题的文本情感倾向性分类方法，其特征在于：所述步骤(2)中的主题T包括关键词、特征属性和细分特征属性，

t₁＝t₂＝t₃＝...＝t_i＝...＝t_n，t_i表示与主题T等同的关键词，i∈[1,n]；

特征属性等式如下：

t_i＝A₁+A₂+A₃+...+A_p+...+A_m

其中A_p表示与关键词t_i相关的特征属性，p∈[1,m]；

A_p＝a_p1+a_p2+a_p3+...+a_pq+...+a_pk

a_pq表示特征属性A_p的细分特征属性，q∈[1,k]。

3.根据权利要求1所述的基于固定主题的文本情感倾向性分类方法，其特征在于：步骤(3)中针对每个主题T对知网的情感词典、台湾大学的情感词典、大连理工大学的情感词典进行对比找出情感倾向有差别的情感符号，同时按照词频统计方法找出主题T常用的情感符号，将两者的结果叠加作为主题T的特征情感符号，且对所有特征情感符号进行积极和消极的倾向划分；对所有积极的情感符号赋值D_s为1，所有消极的情感符号赋值D_s为-1。

4.根据权利要求1所述的基于固定主题的文本情感倾向性分类方法，其特征在于：所述步骤(5)中将程度副词W的程度倾向按照稍、很、极其进行分类并赋程度值D_w：稍的程度值为1，很的程度值为2，极其的程度值为3。