CN107291689A

CN107291689A - 一种基于大数据中文网络评论语句主题语义倾向的分析方法

Info

Publication number: CN107291689A
Application number: CN201710395947.0A
Authority: CN
Inventors: 林建忙; 王振宇; 周建清; 黄雪意
Original assignee: Wenzhou Lucheng District New Research Institute Of Advanced Technology
Current assignee: Wenzhou Lucheng District New Research Institute Of Advanced Technology
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2017-10-24

Abstract

本发明提出了一种基于大数据中文网络评论语句主题语义倾向的分析方法，其特征在于，所述分析方法包括：主题抽取：对中文网络评论语句进行主题抽取，识别确定其主题术语和领域相关的本体概念；语句预处理：对评论语句进行预处理，分句分词并过滤掉客观性表述，以获取该主题语义分析的情感描述项；情感分析：分析情感描述项的极性以确定该主题的语义倾向。本发明利用本体来抽取语句主题以及它的属性，然后在句法分析的基础上，识别主题和情感描述项之间的关系，从而决定语句中每个主题的极性。

Description

一种基于大数据中文网络评论语句主题语义倾向的分析方法

技术领域

本发明涉及一种基于大数据中文网络评论语句主题语义倾向的分析方法，利用本体来抽取语句主题以及它的属性，然后在句法分析的基础上，识别主题和情感描述项之间的关系，从而决定语句中每个主题的极性。

背景技术

目前，英特网上的信息与日剧增，蕴藏着巨大的信息量。但是，要想在很短的时间内获得人们对于诸如人物、事件、传媒、产品等有价值的评价信息，往往是十分困难的。随着网络的飞速发展，网上的各种各样的文章和言论信息量越来越大，使文本倾向性分析逐渐成为了近几年热门的研究课题。目前，在这个领域中主要有几个主要的研究方向，其中观点提取和词汇倾向性分类为倾向分析核心技术, 文本倾向性分类和主客观分类也是倾向分析研究方向重要分支。而关于情感倾向分析中的研究思路主要为采用机器学习的方法、基于语义的方法和结合语义和机器学习的方法。

文本的情感倾向分析方法中，基于机器学习的方法需要大量的人工标注语料、建立训练样本集和训练分类模型的工作，工作繁重而复杂，而取得的分类效果在部分领域与语义分析的效果差距不大，对于网络文本的准确率和召回率各为86％和85.2％。基于语义的分析方法比较单一，大都基于比较固定的语法模式。其中语义的分析方法中处理最基本的单位是情感词，随着网络文本的多样化，情感词提取并不能达到很高的准确率，对于网络文本的准确率和召回率各为84.2％和84.1％。因此，现有技术中，文本语义倾向分析的方法或多或少都存在准确率和召回率低的问题。

发明内容

基于上述问题，本发明目的在于提供一种基于大数据中文网络评论语句主题语义倾向的分析方法，利用本体来抽取语句主题以及它的属性，然后在句法分析的基础上，识别主题和情感描述项之间的关系，从而决定语句中每个主题的极性。

针对以上问题，提供了如下技术方案：一种基于大数据中文网络评论语句主题语义倾向的分析方法，其特征在于，所述分析方法包括：

主题抽取：对中文网络评论语句进行主题抽取，识别确定其主题术语和领域相关的本体概念；

语句预处理：对评论语句进行预处理，分句分词并过滤掉客观性表述，以获取该主题语义分析的情感描述项；

情感分析：分析情感描述项的极性以确定该主题的语义倾向。

本发明进一步设置为，所述主题抽取具体过程为：提取中文网络评论语句中的特征词，判断其是否存在领域主题术语词词典内，若不存在放弃该特征词，进入下一个特征词的判断过程；如果存在，则对该特征词进行标注，确定其本体概念。

本发明进一步设置为，其特征在于，所述语句预处理具体步骤包括：1）对评论语句进行分词分句；2）筛选掉过滤掉客观性的表述语句；3）获取有价值的情感词或情感词和它的修饰部分的组合。

本发明进一步设置为，所述情感分析为采用主谓结构SBV极性传递算法对情感描述项进行语义分析得到该主题的极性值。

本发明进一步设置为，所述主谓结构SBV极性传递算法具体步骤为：

（1）寻找语句中所有含有SBV结构的关系对；对每个关系对，记主语为subject,谓语为predicate，ModifiedPolarity(predicate) ← PriorPolarity（predicate）；

（2）如果ModifiedPolarity(predicate) ≠ 0

a) 如果谓语是形容词,则TopicPolarity(subject) ←ModifiedPolarity(predicate)；

b) 否则表示谓语为动词,则执行（3）；

c）检查CarOntology以判断该主语是不是主题词,如果主语是主题词,则打上标签(Marked)，对于处理过的情感词，也打上此标签(Marked)；

（3）如果ModifiedPolarity(predicate) ≠ 0，则

a) TopicPolarity (subject) ← ModifiedPolarity (predicate)；

b) 继续查找含有谓语动词predicate的VOB（动宾结构）关系对；如果该关系对含有的名词noun为主题词，则TopicPolarity (noun) ← ModifiedPolarity (predicate)；

否则表示谓语动词没有极性，执行（4）；

（4）找到含有该动词的VOB关系对，

a) 如果宾语是形容词adjective1,则ModifiedPolarity(predicate) ←ModifiedPolarity(adjective1)；

b) 如果宾语是名词noun，则找到含有noun的DE（“的”字结构）关系对；其中，记形容词为adjective2, 则ModifiedPolarity(predicate) ←ModifiedPolarity(adjective2)；

（5）找到含有predicate的ADV（状中结构）关系对；其中，记形容词为adjective3，则ModifiedPolarity(predicate) ← ModifiedPolarity(adjective3)；

（6）TopicPolarity(subject) ← ModifiedPolarity(predicate)；

（7）利用SBV极性传递算法后，

i) 继续查找整个句子，找到没有标记过的主题词，记为UnMarkedTopic；

ii) 找到包含UnMarkedTopic的ATT（定中关系）关系对，对于其中出现的词noun，查找所有包含noun的关系对，直至找到含有情感词adjective4的关系对；

iii) 如果ModifiedPolarity(adjective4) ≠0，则TopicPolarity（UnMarkedTopic）←ModifiedPolarity(adjective4)；

（8）记录以上所有算法(SBV+VOB)步骤中使用过的情感词；查找没有标记过的情感词UnMarkedPolar；如果UnMarkedPolar是一个修饰主题词的前缀，那么在（3）中就已经标记过，所以，UnMarkedPolar不可能是前缀词；因此，继续向前查找最邻近的主题词Topic，将ModifiedPolarity(UnMarkedPolar)作为调整参数，调整Topic的极性，即TopicPolarity（Topic）← ModifiedPolarity(UnMarkedPolar)；

上述算法中，PriorPolarity（predicate）表示谓语的原极性，通过访问极性词词典得到；ModifiedPolarity(predicate)是谓语的修饰极性；TopicPolarity(subject)和TopicPolarity (noun)是主语和宾语分别为主题时的极性。

本发明的有益效果：本发明介绍了一种针对基于大数据中文网络评论语句主题语义倾向的分析方法。该分析方法利用句法分析中的依存关系识别句子的主题、主题与情感描述项关系以及计算主题的极性的解决方案；这种方法在句子比较规范的条件下，可以通过识别依存关系对，找到句子中谓语的极性，然后再传递给主语；同时，通过谓语动词向宾语中的主题词传递极性。对于剩余的主题词，一般只可能出现在定中关系对中。我们只要继续查找定中关系对，就可以找到它的修饰词以确定它的极性。

具体实施方式

下面结合实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一种基于大数据中文网络评论语句主题语义倾向的分析方法，所述分析方法包括：

1）主题抽取：对中文网络评论语句进行主题抽取，识别确定其主题术语和领域相关的本体概念；

上述过程具体为：提取中文网络评论语句中的特征词，判断其是否存在领域主题术语词词典内，若不存在放弃该特征词，进入下一个特征词的判断过程；如果存在，则对该特征词进行标注，确定其本体概念。

2）语句预处理：对评论语句进行预处理，分句分词并过滤掉客观性表述，以获取该主题语义分析的情感描述项；

其中所述语句预处理具体步骤包括：①对评论语句进行分词分句；②筛选掉过滤掉客观性的表述语句；③获取有价值的情感词或情感词和它的修饰部分的组合。

3）情感分析：分析情感描述项的极性以确定该主题的语义倾向。

上述所述情感分析为采用主谓结构SBV极性传递算法对情感描述项进行语义分析得到该主题的极性值。所述主谓结构SBV极性传递算法具体步骤为：

（2）如果ModifiedPolarity(predicate) ≠ 0

b) 否则表示谓语为动词,则执行（3）；

（3）如果ModifiedPolarity(predicate) ≠ 0，则

a) TopicPolarity (subject) ← ModifiedPolarity (predicate)；

否则表示谓语动词没有极性，执行（4）；

（4）找到含有该动词的VOB关系对，

（6）TopicPolarity(subject) ← ModifiedPolarity(predicate)；

（7）利用SBV极性传递算法后，

本发明利用句法分析中的依存关系识别句子的主题、主题与情感描述项关系以及计算主题的极性的解决方案。这种方法在句子比较规范的条件下，可以通过识别依存关系对，找到句子中谓语的极性，然后再传递给主语。同时，通过谓语动词向宾语中的主题词传递极性。对于剩余的主题词，一般只可能出现在定中关系对中。我们只要继续查找定中关系对，就可以找到它的修饰词以确定它的极性。本发明提高了网络话题评论文本的语义倾向分析的准确率和召回率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，上述假设的这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于大数据中文网络评论语句主题语义倾向的分析方法，其特征在于，所述分析方法包括：

2.根据权利要求1所述的一种基于大数据中文网络评论语句主题语义倾向的分析方法，其特征在于，所述主题抽取具体过程为：提取中文网络评论语句中的特征词，判断其是否存在领域主题术语词词典内，若不存在放弃该特征词，进入下一个特征词的判断过程；如果存在，则对该特征词进行标注，确定其本体概念。

3.根据权利要求1或2所述的一种基于大数据中文网络评论语句主题语义倾向的分析方法，其特征在于，所述语句预处理具体步骤包括：1）对评论语句进行分词分句；2）筛选掉过滤掉客观性的表述语句；3）获取有价值的情感词或情感词和它的修饰部分的组合。

4.根据权利要求1所述的一种基于大数据中文网络评论语句主题语义倾向的分析方法，其特征在于，所述情感分析为采用主谓结构SBV极性传递算法对情感描述项进行语义分析得到该主题的极性值。

5.根据权利要求4所述的一种基于大数据中文网络评论语句主题语义倾向的分析方法，其特征在于，所述主谓结构SBV极性传递算法具体步骤为：

（1）寻找语句中所有含有SBV结构的关系对；对每个关系对，记主语为subject,谓语为predicate，ModifiedPolarity(predicate) ←PriorPolarity（predicate）；

（2）如果ModifiedPolarity(predicate) ≠ 0

b) 否则表示谓语为动词,则执行（3）；

（3）如果ModifiedPolarity(predicate) ≠ 0，则

a) TopicPolarity (subject) ← ModifiedPolarity (predicate)；

否则表示谓语动词没有极性，执行（4）；

（4）找到含有该动词的VOB关系对，

b) 如果宾语是名词noun，则找到含有noun的DE（“的”字结构）关系对；其中，记形容词为adjective2, 则ModifiedPolarity(predicate)←ModifiedPolarity(adjective2)；

（6）TopicPolarity(subject) ← ModifiedPolarity(predicate)；

（7）利用SBV极性传递算法后，

（8）记录以上所有算法(SBV+VOB)步骤中使用过的情感词；查找没有标记过的情感词UnMarkedPolar；如果UnMarkedPolar是一个修饰主题词的前缀，那么在（3）中就已经标记过，所以，UnMarkedPolar不可能是前缀词；因此，继续向前查找最邻近的主题词Topic，将ModifiedPolarity(UnMarkedPolar)作为调整参数，调整Topic的极性，即TopicPolarity（Topic）←ModifiedPolarity(UnMarkedPolar)；