CN103744953A

CN103744953A - 一种基于中文文本情感识别的网络热点挖掘方法

Info

Publication number: CN103744953A
Application number: CN201410001471.4A
Authority: CN
Inventors: 杨风雷; 黎建辉; 崔现鹏
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2014-01-02
Filing date: 2014-01-02
Publication date: 2014-04-23

Abstract

本发明公开了一种基于中文文本情感识别的网络热点挖掘方法。本方法为：1）分别构建褒贬义词典、程度词典、否定词典；2）对设定事件文本的句子进行分词处理，得到词语的依存关系和词频；3）根据词频选取主题词，将包含主题词的语句标为主题句；4）对句子中的每一词语，判断其是否出现在该褒贬义词典中确定该词语的情感初值，然后根据该词语的修饰程度词语在程度词典的取值确定该词语的权重、并确定极性，得到该词语的情感值；然后对该句子所有词语的情感值求和得到该句子的情感值；5）将该文本中所有句子的情感值求和，得到该文本的情感状态；6）根据所有文本的情感倾向确定该设定事件是否为热点事件。本发明大大提高热点事件识别的准确率。

Description

一种基于中文文本情感识别的网络热点挖掘方法

技术领域

本发明属于信息技术领域，涉及一种基于中文文本情感识别的网络热点挖掘方法，主要应用于自然语言处理、数据挖掘、信息检索等领域。

背景技术

随着互联网的迅猛发展，用户数目的急剧增加，越来越多的用户乐于在网上分享自己对某事件或产品等的观点或者评价，因此网络之中涌现了大量带有主观情感的信息，获取信息中的观点并加以分析利用以及及时监控网络舆情成为最近的研究重点。对于互联网中海量的中文文本信息，单纯依靠人工处理的方法已经无法达到要求也难以做到及时响应，迫切需要计算机来实现快速获取和分析处理信息，以获取网络热点事件；此类研究逐渐成为一个研究热点，比如专利名称一种从互联网海量信息中发现热点的方法，专利号：200910028939.8；以及专利名称网络热点和舆情的检测方法，专利号：200910308542.4的技术文献，该发明通过搜集指定时间范围内的网络论坛和博客系统的文档、提取本征特征、进行褒贬倾向性分析等步骤，获知网名对热点事件的舆情观点；一种实时多角度网络热点事件分析装置及分析方法，专利号：200910071484.8，其通过网络事件信息采集、网络事件相似度比较、热点事件输出等步骤，可实时发现发布到互联网上的热点事件信息，帮助网络管理人员全面地了解网络热点事件态势。

对网络事件的网页文本信息进行分析时，按照处理文本的粒度的不同分为词语级、语句级和篇章级，按照处理文本的类别不同可分为基于新闻评论的情感分析和基于产品评论的情感分析。Wiebe和Bruce将某些词类（如代词、形容词等）、标点和句子的位置关系作为特征值，设计了针对句子级别的

Bayes分类器。Wiebe在上述基础之上又将某些词性和基于词典语义项作为特征项，显著提高了分类器的分类效果。A.Hassan和D.Radev提出了基于马尔科夫随机游走模型的情感词分析方法，首先构建种子集合，通过语义相似构建候选词和种子词网络，然后通过模型判断候选词的情感极性。该方法融合了词汇之间的语义关系，但是需要构建种子词的集合，并且依赖语义资源。董喜双等人使用HowNet扩展同义词作为特征，借助最大熵模型来预测候选词情感极性，然后采用最小割模型来优化极性判定结果，由于最小割解的不唯一性，难以确定最优解。尽管当前研究取得了较大的成果，由于中文词语词义的多样性以及起步较晚的特点，中文情感分析还存在很大的不足，从而难以准确的确定当前的网络热点事件。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提出了一种基于中文文本情感识别的网络热点挖掘方法。通过计算文章的情感权值来判断情感极性，若情感值>0，则文章反映的是正向的情感；若情感值<0，则为负向的情感；若情感值=0，则为中立客观的情感，根据所有待处理文件内容的情感倾向，确定该指定时间范围内或该指定信息源的热点事件。

本发明的技术方案为：

一种基于中文文本情感识别的网络热点挖掘方法，其步骤为：

1）分别构建包含正向词语和负向词语的褒贬义词典，构建修饰程度词语的程度词典，构建用于确定否定词语的否定词典；

2）利用语法分析工具对指定时间范围内或指定信息源中设定事件的每一待处理语料文本的句子进行分词处理，得到词语的依存关系并统计每个词语的词频；

3）根据词频对分词所得词语排序，选取指定数目的词语作为主题词，将包含主题词的语句标为主题句；

4）对句子中的每一词语，判断其是否出现在该褒贬义词典中确定该词语的情感初值，并根据词语的依存关系确定出该词语的修饰程度词语和否定词语，然后根据确定出的修饰程度词语在所述程度词典的取值确定该词语的权重系数、根据确定出的否定词语数目确定该词语的极性，从而得到该词语的情感值；然后对该句子所有词语的情感值求和得到该句子的情感值；

5）将该待处理语料文本中的所有句子的情感值进行求和，得到该待处理语料文本的情感状态

6）根据所有待处理文件内容的情感倾向确定该设定事件的热度值，如果大于设定阈值，则该事件为热点事件。

进一步的，对该待处理语料文本中的每一句子，根据其在文中的位置赋予一权值系数，将每一句子的情感权值与对应的权值系数相乘，然后求和得到该待处理语料文本的情感状态。

进一步的，句子中的每个词语根据其在句子中的位置设置该词语的位置系数，如果该句子中词语的数目为L，则该句子中第一个词语和最后一个词语的位置系数为2/L，中间的词语为1/L；将词语的位置系数与该词语的当前权重系数之和作为该词语新的权重系数。

进一步的，标题句的权值系数>尾段中句子的权值系数>首段中句子的权值系数>中间段中句子的权值系数。

进一步的，计算每个主题句与标题句的相似度，如果相似度大于设定阈值，则增加该句子的权值系数。

进一步的，计算所述相似度的公式为：

Sim (S, T) = \cos θ = \frac{Σ_{k = 1}^{n} w_{k} (S) \times w_{k} (T)}{\sqrt{Σ_{k = 1}^{n} w_{k}^{2} (S) Σ_{k = 1}^{n} w_{k}^{2} (T)}}

其中S表示当前处理的句子，T表示标题句，w_k:(s)表示句子S中主题词特征值，w_k(T)表示标题句中主题词的特征值。

进一步的，利用语法分析工具识别每一句是否为感叹句，如果句子为感叹句，则增加该句子的权值系数。

进一步的，所述程度词典包括修饰程度为极度、高度、中度和低度的修饰程度词语，每一级的修饰程度词语对应一权重系数。

本发明的方法步骤如下所示。

步骤1：语料预处理

爬取指定时间范围内或指定信息源中设定事件的网页文本信息，对于每一待分析的语料文本，进行分段、分句，借助语法分析工具进行句法分析，对分句后的内容做分词处理。统计每个词语出现的次数，计算词频。

步骤2：构建词典

分别构建包含正向词语和负向词语的词典，构建修饰程度为极度、高度、中度和低度的程度词典，构建包含否定词语的否定词典。

步骤3：确定主题句

对于所有的词语根据其词频由高到低排序，选取指定数目的词语作为主题词，包含主题词的语句称为主题句。

步骤4：计算主题句的情感值

对于句子中的每一个词语，判断词语是否出现在正负向词典中，对句子进行句法分析，判断词语之前是否存在修饰程度词语以及否定词语，获取每一个词语的情感权值，对所有词语的情感权值求和获取整个句子的情感值。

步骤5：计算文章的情感值

对于所有的句子，根据其在文章中的重要性赋予一定的权值系数，获取整个文章的权值，通过权值判断文章的情感状态。

步骤6，计算热点事件

计算所有待处理文件内容的情感倾向得到该设定事件的热度值，如果该热度值大于设定阈值，则该事件为热点事件。

与现有技术相比，本发明的积极效果为：

本发明采用由细粒度到粗粒度的方式获取文章的情感状态，先基于构建的正负向词典赋予词语基础权值，然后根据句法分析的结果判断当前词语之前是否存在修饰词语以及否定词语，赋予情感值系数，之后根据词语在句子中的先后顺序赋予词语位置权值系数，最终获取词语所在句子的情感值。对于每一个句子，根据句子类型的不同赋予不同的权重，计算所有句子的权值，获取文章的情感值，最终得到文章的情感状态，本发明能够大大提高文章情感识别的准确率，准确识别出热点事件。

附图说明

图1语料预处理流程图。

图2计算词语情感值流程图。

图3计算句子情感值流程图。

具体实施方式

下面结合图示详细说明本发明的实现步骤。

1.语料预处理

批量读入需要处理的文本，以篇章为单位进行分段处理，标记每一段的序号以及每一段的文本内容。对于每一段的文本进行分句处理，记录每一句的段序号、句序号，采用语法分析工具进行句法分析，获取句子中词语之间的依存关系。对于每一句的内容进行分词处理，获取每一个词语。借助词性标注工具，识别每一个词语的词性，统计每一个词语在文章中出现的次数，计算每一个词语的词频。

2.构建词典

首先构建包含褒贬义词语的词典，以HowNet中提供的正负向词典为基础，将《汉语褒贬义词语用法词典》中的词语与之合并去除重复词语得到基础词典，借助互联网搜索词库，从基础词典中获取高频词语以及情感鲜明的词语作为种子词语，同时去除掉基础词典中的低频词语。以种子词语为基础，采用SVM进行机器学习扩展种子词语，并将种子词语加入到基础词典中，之后将网络流行词语加入其中，得到最终的褒贬义词典。搜集词语构建包含否定词语的词典。搜集程度修饰词语并构建程度修饰词典，将修饰词语根据修饰的程度划分为极度、高度、中度、轻度四类，极度修饰词如极其、非常，高度修饰词如格外、分外、太，中度修饰词如更加、较为，低度修饰词如稍微、略微等。

3.确定主题句

对篇章中的所有词语根据其词频由高到低排序，通过词性标注结果，只选取名词或者名词性短语，过滤掉停用词，选取一定数目的高频词语作为主题词，包含主题词语的句子称为主题句。

4.计算句子的情感值

对于句子的情感状态采用情感值来判断，遍历句子中的每一个词语判断是否出现在正负向情感词典中，如果出现在正向的情感词典中则词语的权值为+1，如果出现在负向的情感词典中则词语的权值为-1，否则处理下一个词语。获取语料预处理阶段生成的句法结构，判断词语的依存关系，若依存关系中存在程度修饰词语，则根据程度修饰级别赋予权值系数。权值系数是经过前期大量文本的测试而确定，极度修饰词系数为2，高度修饰词系数为1.75，中度修饰词系数为1.5，轻度修饰词系数为0.75。判断当前词语依存关系中是否存在否定词语，若存在则计算否定词语的数目，数目为奇数则情感值的极性取反。经过上述步骤，计算当前词语最终的情感值。句子中每个情感词语因其先后顺序不同，对句子整体的情感值贡献也不同，在此引入词语的位置系数，如果词语的数目为L，则首尾词语的位置系数为2/L，其余词语的位置系数为1/L，即句子第一个词语和最后一个词语的位置系数为2/L，中间的为1/L，计算所有词语的权值之和，获取句子的情感值。

5.计算文章的情感值

文章中的句子因其位置的不同、与主题的紧密程度不同，其重要性也不相同，在计算文章的情感值时需要综合考虑句子的重要性，赋予合适的比例系数。标题句是文章思想的浓缩，首先判断句子是否是标题句，如果是则赋予比例系数2。段首尾中的内容是对文章进行的引领和总结，若句子所在段落是段首，则赋予比例系数1.5，若为段尾，则比例系数为1.75。所有包含主题词语的句子称为主题句，若句子为主题句则赋予比例系数1.5。与标题内容具有较高相似度的句子也需要提升比例系数，需要计算每个主题句与标题句的相似度，在此采用余弦相似度来判断。每个句子以主题词语作为特征属性，对应的词频作为特征值，每一个句子表示为向量空间中的一个向量。计算公式如下所示。

Sim (S, T) = \cos θ = \frac{Σ_{k = 1}^{n} w_{k} (S) \times w_{k} (T)}{\sqrt{Σ_{k = 1}^{n} w_{k}^{2} (S) Σ_{k = 1}^{n} w_{k}^{2} (T)}}

其中S表示当前处理的句子，T表示标题句，w_k(S)表示句子S中主题词特征值，w_k(T)表示标题句中主题词的特征值。在此规定相似度的阈值为0.8，即若句子与标题的相似度余弦值>=0.8则赋予比例系数1.5。

感叹句表示较为强烈的情感色彩，如果句子为感叹句，则赋予比例系数1.75。

计算所有句子最终的情感值之和，获取文章的情感值，如果文章的情感值>0，则文章中体现的是正向积极的情感；如果情感值<0，则文章体现的是负向消极的情感；如果情感值为0，则表示文章中的情感是客观中立的。

步骤6，计算热点事件

本方法在计算语句情感值时充分考虑了词语所处的语言环境、词语之间的依存关系，更符合中文的语法语境，识别结果更加合理。在计算篇章的情感值时充分考虑了句子的重要性，不同类型的语句所表达的情感重要性也不同，前期经过大量的测试，合理的选择了不同语句的情感值系数，情感分析结果更加准确、合理。

Claims

1.一种基于中文文本情感识别的网络热点挖掘方法，其步骤为：

5）将该待处理语料文本中的所有句子的情感值进行求和，得到该待处理语料文本的情感状态；

2.如权利要求1所述的方法，其特征在于对该待处理语料文本中的每一句子，根据其在文中的位置赋予一权值系数，将每一句子的情感权值与对应的权值系数相乘，然后求和得到该待处理语料文本的情感状态。

3.如权利要求2所述的方法，其特征在于句子中的每个词语根据其在句子中的位置设置该词语的位置系数，如果该句子中词语的数目为L，则该句子中第一个词语和最后一个词语的位置系数为2/L，中间的词语为1/L；将词语的位置系数与该词语的当前权重系数之和作为该词语新的权重系数。

4.如权利要求2所述的方法，其特征在于标题句的权值系数>尾段中句子的权值系数>首段中句子的权值系数>中间段中句子的权值系数。

5.如权利要求1或2或3或4所述的方法，其特征在于计算每个主题句与标题句的相似度，如果相似度大于设定阈值，则增加该句子的权值系数。

6.如权利要求5所述的方法，其特征在于计算所述相似度的公式为：

Sim (S, T) = \cos θ = \frac{Σ_{k = 1}^{n} w_{k} (S) \times w_{k} (T)}{\sqrt{Σ_{k = 1}^{n} w_{k}^{2} (S) Σ_{k = 1}^{n} w_{k}^{2} (T)}}

其中S表示当前处理的句子，T表示标题句，w_K(s)表示句子S中主题词特征值，w_k(T)表示标题句中主题词的特征值。

7.如权利要求1所述的方法，其特征在于利用语法分析工具识别每一句是否为感叹句，如果句子为感叹句，则增加该句子的权值系数。

8.如权利要求1所述的方法，其特征在于所述程度词典包括修饰程度为极度、高度、中度和低度的修饰程度词语，每一级的修饰程度词语对应一权重系数。