CN103955451A

CN103955451A - 一种判别短文本情感倾向性的方法

Info

Publication number: CN103955451A
Application number: CN201410206702.5A
Authority: CN
Inventors: 陈里波; 胡子扬; 祁点点
Original assignee: BEIJING EUCITA INFORMATION TECHNOLOGIES Co Ltd
Current assignee: BEIJING EUCITA INFORMATION TECHNOLOGIES Co Ltd
Priority date: 2014-05-15
Filing date: 2014-05-15
Publication date: 2014-07-30
Anticipated expiration: 2034-05-15
Also published as: CN103955451B

Abstract

本发明公开一种判别短文本情感倾向性的方法，包括：A、直接从待分析文本中构建情感词典；B、根据情感词典，基于局部依赖关系判断待分析文本的情感极性。本发明的目的是提出一种适用于句法不严谨的文本的，能得到短语搭配的情感极性的可行方案。首先是，本发明提出的自动构建情感词典的方法，不依赖大量外部标注样本，而是直接从待分析数据中构建。从而避免了开放情感词典和领域内容差异可能带来的弊端。其次是，本发明采用局部依存关系分析，可以适用于句子结构不严谨的文本，尤其是短文本，而且本发明的单个特征包含搭配信息，因而可以适用于相同情感标识词在不同上下文搭配中情感极性不同的情形。

Description

一种判别短文本情感倾向性的方法

技术领域

本发明涉及文字处理领域，更具体的说，涉及一种判别短文本情感倾向性的方法。

背景技术

分析大量短文本语义的一种主要技术是情感极性判断，它经常被应用于某种产品、服务、事件的论述内容中。用这种方法来判定人们对该话题的反应是一片痛骂还是拍手称快。对于企业而言，文本信息，尤其是评论性短文本信息的情感极性直接反应了消费者对企业服务的反馈，可用以辅助相关决策人有针对性地做出反应。

为了跟上海量信息的生成速度，通常要使用自动化情感分类方法。用于短文本的情感极性判断的基本方法是：1.参考预制的情感词表，在待分类的文本中查找相应的情感词，并以此为依据确定情感极性或极性概率。2. 依照待分类文本的句法依存关系或共现关系，结合1.结果，判定句子的情感极性或极性概率。3.用标题、或自主选定的观点句为依据，给出篇章的情感极性或极性强度。

专利文献CN103473380A 提出了一种计算机文本情感分类方法，包括以下步骤：使用两种方法表示文本：使用词袋的方法把文本表示为一个由一组特征组成的特征向量；使用图的方法把整个特征空间表示为一个有向无环图，图上的每一个节点为一个特征；用L1-正则化逻辑回归作为特征选择工具进行特征空间降维。用降维后的特征向量和特征空间中的子图作为输入，利用图稀疏化逻辑回归分类器模型为文本分类。这种方法用特征空间上建立的有向无环图避免了以往的词袋方法导致的文本结构信息丢失的问题，可以保存文本的结构信息。同时，L1-正则化逻辑回归可以较好地选出关键特征，提高学习效率。

该方法在传统的从文本到特征空间映射方法的基础上，建立了有向无环图。它所需的两类输入势必大大增加数据的稀疏性，因此也限制该方案只适合在较窄的特定领域内使用；在大范围内，用逻辑回归等模型处理稀疏数据，会较得出有效的分类器。

专利文献CN103440235A 公开了一种基于认知结构模型的文本情感类型识别方法及装置，该方法包括：对于输入的海量开源文本，基于通用语义词典和句法依存关系，采用统计方法自动构建情感维度词典；对所构建的情感维度词典进行求精，求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤；基于求精后得到的高质量的情感维度词典，结合情感认知结构模型中情感维度值与情感类型的对应关系，得到相应的情感类型。这一方案根据种子词能自动构建高精度的情感维度词典，可解释性、使用灵活性及有效性上都有优势。

该基于认知结构模型的文本情感类型识别方法因为能够根据种子词，自动构建情感维度词典，具有一定优势。然而却无法处理情感词与评价对象的不同搭配对于句子级情感倾向性判断所带来的影响。例如，“新买的显示器上就有一个亮点，垃圾！”与“整部剧的亮点是男一号的出色表现。”虽然都用到了“亮点”，但它们的情感倾向却截然相反。

专利文献CN103399916A 提出了一种基于产品特征的互联网评论观点挖掘方法，包括：从互联网上获取产品信息及对应的评论信息；从评论信息中抽取产品特征，并从产品特征中提取出相关联的显式特征评论及隐式特征评论；利用显式特征评论和隐式特征评论在句子粒度上进行情感分类；依据产品特征及对应的情感分类结果生成情感文摘提供给用户。这一方法不仅可以帮助用户节省时间，处理评论中的矛盾信息和发现被评论产品的不足，而且深入挖掘用户评论中针对不同产品特征的情感信息，一方面能给用户的购买提供参考，另一方面也能给生产厂商提供产品的改进建议。

该方法提出的基于产品特征的互联网评论观点挖掘方法，在提取出产品特征对应的显、隐性评论后，仅基于开放情感词典和用户情感表述规则判断句子级别的情感倾向。这个方案一方面，无法处理大量存在的、句法不严谨的网络短文本；另一方面，开放情感词典并不总是能套用在特定产品特征的情感倾向性判定任务中，所以也有CN103440235A 的不足。

专利文献CN201310355704本发明公开了一种文本倾向性分析方法包括步骤：对评论文本进行预处理；识别中文句法的依存关系结构；计算情感词的上下文极性值；完成评价对象和评价词的二元组抽取，确定评价对象间的从属关系；对情感词倾向值加权求和得到句子倾向值，实现句子级倾向性判别；通过句子级极性值的正负，判别评论情感的褒贬倾向；根据极性绝对值大小，判别评论褒贬情感的强弱。这一思路组合情感词典并将领域本体加入文本倾向性分析，提高了情感词极性计算与<评价对象，评价词>二元组抽取的准确率，实现了对论坛商品评论的倾向性分析。

该发明公开的这种文本倾向性分析方法通过对情感词倾向值加权求和得到句子倾向值，再根据该值的正负进一步确定句子的情感极性。这种方案的主要问题在于加权求和法忽略了情感词所处的句法结构、和上下文搭配，这会影响最终情感倾向性判定的准确程度。

在实际应用中，情感分析领域存在内生悖论：如果不采用句法分析，就无法得到评价对象和评价内容的匹配关系，容易因此误判极性；如果采用句法分析，就无法处理大量存在的句法不严谨的网络短文本。如果不采用外部标注样本或情感词典，就无从着手训练情感分类器；如果采用外部标注样本或情感词又无法保证外部数据和待分析数据的相关程度，及可能出现的误判。

发明内容

本发明解决的技术问题是提出一种适用于句法不严谨的文本的，并且能得到短语搭配的情感极性的判别短文本情感倾向性的方法。

本发明的目的是通过以下技术方案来实现的。

本发明的判别短文本情感倾向性的方法，包括：

A、直接从待分析文本中构建情感词典；

B、根据情感词典，基于局部依赖关系判断待分析文本的情感极性。

进一步的，所述步骤A还包括：

A1、收集情感种子词和种子表情，参照开放语义词典和输入法词典，将正极性词及其同义词加入正极性的情感词表里；将其反义词加入负极性的情感词表里；将负极性词及其同义词加入正极性的情感词表里；将其反义词加入负极性的情感词表里；

A2、用网络爬虫搜集包含上述的种子词、种子表情和种子话题的网络短文本，形成候选集；

A3、把候选集里的每一个短文本当作是一个隐马尔科夫链，使用维特比算法求出：对于观测到的数据，概率最大的词性标记序列，并统计分词；

A4、得到了分词结果和词性标注序列之后，将停用词过滤掉（停用词包括但不局限于助词）；

A5、对处理过后的候选集里的短文本，逐一遍历其中是否含有会翻转语义的标识词和句式，若含有，则为其确定否定依存范围及反问依存范围；

A6、计算候选集内所有短文本的情感极性可信度，并按可信度排名。计算公式如下：

其中，为短文本；为情感极性的个数，为匹配到的情感词、表情的个数，为第个匹配到的情感词或表情的频率；

A7、扩充情感词典：设定高精度候选集，选取可信度高于预定阈值的短文本，加入高精度候选集。再从高精度候选集中筛选符合预定规则的高频词；

重复A1～A7，直至结果稳定。

进一步的，所述步骤A7还包括步骤：

用开放句法依存关系算法，计算与情感词典匹配上的情感标识词在短文本里的依存范围，并收录该范围的上一级依存范围内的词，进入候选词典；

计算候选词典里的高频词，选取词频排名次序高于预设的百分比的词填充到所述情感词典中；

如果局部依存关系明确，则在情感词典的该词条中，标记情感词修饰的对象，以此记录词语搭配关系。

进一步的，所述步骤B还包括：

B1、数据预处理——把候选集里的每一个短文本当作是一个隐马尔科夫链，使用维特比算法求出：对于观测到的数据，概率最大的词性标记序列，并统计分词；

B2、数据分流——对仅含有一种情感极性的待分析文本，加入训练数据集；

对含有超过一种情感极性的待分析文本，标记为极性冲突；

对含有未能判断出情感极性的待分析文本，向量化表示，作输入数据；

将构建好的情感词典，作为后置规则置入最大熵模型；

B3、判断情感极性——用含有且仅含有一种情感极性的训练数据训练出的最大熵模型，判断未匹配到情感词的文本，通过带第一后置规则的最大熵模型计算文本情感倾向；对于模型给出的极性概率低于预定阈值的文本，标记其为中立；这样就给出了待分析集合中每个文本标记情感倾向，共有：正向、负向、中立、冲突。

进一步的，所述第一后置规则包括词条，极性，词条归属这个极性的概率，最终计算结果不能跟第一后置规则冲突。

进一步的，如果情感词条含有常与之搭配的评论对象被收录在所述的情感词典中，则在第一后置规则里再叠加一条包含评价对象和情感词的第二后置规则。

进一步的，所述第二后置规则包括词条、该词条修饰的对象，以及该词条跟不同对象组合的短语的情感极性。

借由上述方案，本发明至少具有以下优点：

在实际应用中，情感分析领域存在内生悖论：如果不采用句法分析，就无法得到评价对象和评价内容的匹配关系，容易因此误判极性；如果采用句法分析，就无法处理大量存在的句法不严谨的网络短文本。如果不采用外部标注样本或情感词典，就无从着手训练情感分类器；如果采用外部标注样本或情感词又无法保证外部数据和待分析数据的相关程度，及可能出现的误判本发明的目的是提出兼顾情感极性判断应用中悖论的一种可行方案。首先是，本发明提出的自动构建情感词典的方法，不依赖大量外部标注样本，而是直接从待分析数据中构建。从而避免了开放情感词典和领域内容差异可能带来的弊端。其次是，本发明采用局部依存关系分析，可以适用于句子结构不严谨的文本，尤其是短文本，而且本发明的单个特征包含搭配信息，因而可以适用于相同情感标识词在不同上下文搭配中情感极性不同的情形。

附图说明

图1是本发明实施例判别短文本情感倾向性的方法流程示意图；

图2是本发明实施例判别短文本情感倾向性的原理示意图；

图3是本发明实施例构建情感词典流程示意图；

图4是采用本发明实施例开放句法依存关系处理的效果示意图；

图5是本发明实施例的效果示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

参见图1、2，本发明的判别短文本情感倾向性的方法，包括：

A、直接从待分析文本中构建情感词典；

步骤A——构建情感词典流程包括以下步骤（参见图3）：

A1、构建初始情感词典。基于人工收集的、属于待分析文本的领域的质量较高的极性情感种子词和种子表情，参照开放语义词典和输入法词典，将其同义词和反义词分别加入相应极性的情感词表里。对于微博数据，整理人工收集到的、观点高度一致的热门话题。最终得到的人工情感词典里的种子词、种子话题和种子表情，包含正向和负向两类。

种子词——基于经验，人手动编制少量的词。这些词需要是，“正”极性和“负”极性的典型的、有代表性的词。比如，“正”－高兴，“负”—坑爹。

种子表情——基于经验，人手动编制少量的表情。这些表情需要是，“正”极性和“负”极性的典型的、有代表性的表情。比如，“正”－［哈哈］，“负”—［怒］。

A2、抓取候选集。用网络爬虫搜集包含（1）中种子词、种子表情和种子话题的网络短文本，叫作候选集。

A3、词性标注与分词。把候选集里的每一个短文本当作是一个隐马尔科夫链。使用维特比算法，可以求出，对于观测到的数据，概率最大的词性标记序列。这个过程隐含着分词，比如“天安门”会被标记为“NSB-NSM=NSE”，分别表示“地名开始”、“地名中间”和“地名结尾”。

分词结果和词性标注序列举例：“施暴者/n最/d龌龊/a肮脏/a的/u嘴脸/n!/wp”

A4、去除停用词。得到了分词结果和词性标注序列之后，算法会根据给定的词性列表对分词结果进行过滤，比如会把“的”、“了”等这样的助词过滤掉。

A5、语义翻转。对处理过后的候选集里的短文本，逐一遍历其中是否含有否定词或反义疑问词等，会翻转语义的标识词和句式。若含有，则为其确定否定依存范围、反义疑问依存范围。

每个否定词锁定的否定范围为该否定词到下一个空格或标点，翻转否定范围内的语义极性，以此为依据处理否定、双重否定。

每个反义疑问词的否定范围为该翻译疑问词的到下一个空格或标点处，翻转反义范围内的语义极性，以此为依据处理反义疑问句。

以“难道我没跟你说过我不喜欢他吗？”的处理为例说明：

（1）第一次遍历锁定“难道”是第一个反义疑问词，否定范围为“我没跟你说过我不喜欢他吗”，翻转否定范围内的词“no_我no_没no_跟no_你no_说过no_我no_不no_喜欢no_他no_吗”

（2） “没”是第一个否定词，否定范围为“no_跟no_你no_说过no_我no_不no_喜欢no_他no_吗”，翻转否定范围内的词“跟你说过我不喜欢他吗”；

（3） “不”是第二个否定词，否定范围为“喜欢他吗”，翻转否定范围内的词“no_喜欢no_他no_吗”；

（4）至此，原始文本“难道我没跟你说过我不喜欢他吗？”被处理为“no_我跟你说过我no_喜欢no_他no_吗？”。这里可以看到，翻转后的整句话的情感极性与正向情感词“喜欢”相反，即为负面，与翻转之前的原始语义相同。

A6、计算内所有短文本的情感极性可信度，并按可信度排名。计算公式如下：

其中，为情感极性的个数，为匹配到的情感词、表情的个数，为第个匹配到的情感词或表情的频率。

可信度计算会率先过滤掉情感冲突的样本，例如“艾玛笑死我了，感觉狼叔的爸妈已经气疯了。一个比一个离谱，怒赞～”。接下来，可信度计算还会优先排列多个情感词、表情、话题重复出现的样本，例如“真是越来越TM的让人恶心! [哼] [怒]有病! #强烈谴责无耻的补课行为! [怒]#”。

A7、扩充情感词典。选取可信度高于预定阈值的短文本，加入高精度候选集。再从中筛选符合一定规则的高频词：

a）依据初始词扩充。用开放句法依存关系算法，计算与情感词典匹配上的情感标识词在短文本里的依存范围，并收录该范围的上一级依存范围内的词，进入候选词典。这里仅采用局部依存关系的判断结果，避免对句法不严谨的整句做句法依存关系计算，可能带来的误差。

下面，参见图4，以“看到施暴者最龌龊肮脏的嘴脸”的处理为例说明。假设，初始情感词典里“肮脏”这一个情感词。

从开放句法依存关系处理结果得知：“龌龊”和“肮脏”共同修饰“嘴脸”，同属于名词性短语“＊的嘴脸”的依存范围内。因此，将“龌龊”也收录到候选词典里。而“嘴脸”“施暴者”的依存层次高于情感词“肮脏”，不予收录。这么做可以保证情感词典的高精度。

b）计算候选词典里的高频词，选取词频排名次序高于预设的百分比的词填充到（1）中的情感词典中。

c）如果句法局部依存关系明确，标记情感词修饰的对象，标记在情感词典该词条中。

重复步骤（A1）至步骤（A7），直到情感词典的词汇量的增量收敛，或情感词典的词汇量达到目标大小。

步骤B——判断情感极性。包括以下步骤：

B1数据预处理。

a）词性标注与分词。（同第一（3））把待分析文本集里的每一个短文本当作是一个隐马尔科夫链。使用维特比算法，可以求出，对于观测到的数据，概率最大的词性标记序列。这个过程隐含着分词，比如“天安门”会被标记为“NSB-NSM=NSE”，分别表示“地名开始”、“地名中间”和“地名结尾”。

b）去除停用词。（同第一（4））得到了分词结果和词性标注序列之后，算法会根据给定的词性列表对分词结果进行过滤，比如会把“的”、“了”等这样的助词过滤掉。

B2、数据分流。

遍历待分析文本集里的每一个短文本，如果中含有且仅含有一种情感极性的情感词、表情，标记为该极性情感数据，加入训练数据集。

a)如果中含有超过一种情感极性的情感词、表情，标记为该极性情感数据，标记为极性冲突。

比如，“艾玛笑死我了，感觉狼叔的爸妈已经气疯了。一个比一个离谱，怒赞～”正极性的种子词：“笑”“赞”；负极性的种子词：“气”，“疯”“离谱”，“怒”。两种极性都有，就把这条样本排除掉，不做计算。这种严格的筛选会排除掉大多数情感极性不明确或内部情感极性冲突的文本样本。

b)将上步骤未能判断出情感极性的文本，向量化表示，作输入数据。

c)将第一步中构建好的情感词典，作为第一后置规则置入最大熵模型。若情感词典里的情感词条含有常见评论对象，则在第一后置规则里再叠加一条包含评价对象和情感词的第二后置规则。

本发明用的最大熵模型是原始模型的改进版本。改进之处在于，该模型能手动控制估计模型的目标函数。实际上，最大熵模型的思路是未知的东西统统不做假设，不做预判。此处，通过“后置规则”，将人总结出来的确知的领域知识整合到模型内部去。。最后，规约模型估计出来的参数，必须不跟这些“后置规则”相冲突。

其中，第一后置规则每条都有：词条，极性，词条归属这个极性的概率。例如，“高兴－正”，“赞－正”，“龌龊－负”。上述示例里的词条就是第一步构建出来的那些情感词典里的词。因为第一步构建好的情感词典筛选条件特别严格，精度很高。而且，它们实际上是从待分析的样本集里面找出来的，所以这个情感词典会符合待分析样本的行文习惯、说话风格。不会出现训练数据集和待分析数据集的差异带来的严重影响。所以，可较有信心地作为确知的领域知识设为后置规则。

在构建好的情感词典里面，有些词后面会有它修饰过的对象。例如，在“脏脏”这个词条后面跟了一串它修饰过的对象：“嘴脸”“内心”“世界”“内心”“政治”“空气”“内心”“货”“空气”。发现“内心”和“空气”经常会被“肮脏”修饰，那本发明就可以就在第一后置规则里面再增加第二规则：“肮脏”“内心”－负；“肮脏”“空气”－负。这样做的目的，是为了不让模型因为“内心”这个词可能有的正面情感倾向，影响的“肮脏的内心”这个短语的情感倾向。因为此时模型已经通过训练知道，“肮脏”和“内心”搭配一起用，还是负极性。这样，本方法区分了同个词语，在不同搭配中的情感极性。

B3、判断情感极性。

a) 用含有且仅含有一种情感极性的训练数据训练出的最大熵模型，判断未匹配到情感词的文本，通过带后置规则的最大熵模型计算文本情感倾向。

b) 模型给出的极性概率低于预定阈值的文本，标记为中立。

c) 集合B2中a）、b）的标记结果，给带分析集合中每个文本标记情感倾向。共有：正向、负向、中立、冲突。

本发明的目的是提出兼顾情感极性判断应用中悖论的一种可行方案。首先是，本发明提出的自动构建情感词典的方法，不依赖大量外部标注样本，而是直接从待分析数据中构建。从而避免了开放情感词典和领域内容差异可能带来的弊端。其次是，本发明采用局部依存关系分析，可以适用于句子结构不严谨的文本，尤其是短文本，而且本发明的单个特征包含搭配信息，因而可以适用于相同情感标识词在不同上下文搭配中情感极性不同的情形。

参见图5，以“认识这么萌的妹子，我超开心的。［爱你］”为例，说明情感词典构建过程。假设，初始种子情感表情，包含“［爱你］”；初始种子情感词包含“开心”。根据情感极性可信度计算后被优先。

通过开放的局部依存关系计算得知，“开心”的上一层依存关系范围为“认识这么萌的妹子”。通过词性筛选，取得“认识”“萌”“妹子”三个词加入候选情感词典。候选的情词典迭代求取高频词，最终“萌”作为正向情感词被加入了情感词典。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种判别短文本情感倾向性的方法，包括：

A、直接从待分析文本中构建情感词典；

2. 如权利要求1所述的一种判别短文本情感倾向性的方法，其特征在于，所述步骤A还包括：

A4、得到了分词结果和词性标注序列之后，将停用词过滤掉；

A6、计算候选集内所有短文本的情感极性可信度，并按可信度排名；计算公式如下：

A7、扩充情感词典：设定高精度候选集，选取可信度高于预定阈值的短文本，加入高精度候选集；再从高精度候选集中筛选符合预定规则的高频词；

重复A1～A7，直至结果稳定。

3. 如权利要求2所述的一种判别短文本情感倾向性的方法，其特征在于：所述步骤A7还包括步骤：

4.如权利要求1所述的一种判别短文本情感倾向性的方法，其特征在于，所述步骤B还包括：

对含有超过一种情感极性的待分析文本，标记为极性冲突；

将构建好的情感词典，作为后置规则置入最大熵模型；

5.如权利要求4所述的一种判别短文本情感倾向性的方法，其特征在于，所述第一后置规则包括词条，极性，词条归属这个极性的概率，计算将在此第一后置规则的约束下进行。

6.如权利要求5所述的一种判别短文本情感倾向性的方法，其特征在于，如果情感词条含有常与之搭配的评论对象被收录在所述的情感词典中，则在第一后置规则里再叠加一条包含评价对象和情感词的第二后置规则。

7.如权利要求6所述的一种判别短文本情感倾向性的方法，其特征在于，所述第二后置规则包括词条、该词条修饰的对象，以及该词条跟不同对象组合的短语的情感极性。