CN105912644A

CN105912644A - 一种网络评论产生式摘要方法

Info

Publication number: CN105912644A
Application number: CN201610217911.9A
Authority: CN
Inventors: 刘春阳; 赵志云; 李雄; 庞琳; 张旭; 王萌; 王卿; 张小明
Original assignee: Beihang University; National Computer Network and Information Security Management Center
Current assignee: Beihang University; National Computer Network and Information Security Management Center
Priority date: 2016-04-08
Filing date: 2016-04-08
Publication date: 2016-08-31

Abstract

本发明公开了一种网络评论产生式摘要方法。首先，基于标点符号对评论进行短语分割、分词并标记每个词语的词性，进而基于评论对象参数字典和句法模板过滤掉与评论对象无关的短语；然后，计算短语情感极性强度值，根据评论对象参数的所有短语的情感极性强度值对评论对象参数的重要性进行排序，选取最重要的一部分参数进行摘要生成；最后，针对选取的每个参数，选取一个对该参数最重要的一个评论短语，把选取的所有短语置入到设计好的摘要模板中以生成评论摘要。本发明综合利用了情感分析、词性分析等技术提取有效的用户评论信息，并根据设计好的模板生成摘要，对提高摘要的可读性和准确性有很大帮助。

Description

一种网络评论产生式摘要方法

技术领域

本发明涉及一种网络评论产生式摘要方法，它可以根据定制的模板自动产生网络评论的摘要，适用于Internet信息检索、数据分析。属于数据挖掘、信息检索技术领域。

背景技术

随着互联网尤其是迅速发展，越来越多的网络用户习惯在网上发表评论。例如，社交网络用户对某个事件发表评论；购物网站用户对所购得的产品进行评论，商家根据用户评论改善自己的产品和服务。这些评论同时为其他用户或者消费者提供了参考信息。然而，网络评论数的规模巨大，不同用户从不同方面对评论对象进行评价，有时观点之间甚至存在冲突。其他用户难以阅读完所有评论并从这些评论中总结出具体观点。因此，需要对网络评论自动进行摘要，总结评论中用户对评论对象最关注的一些方面，即评论对象的参数，以及用户对这些参数的主要评价。

传统的摘要主要采用抽取式的方法生成摘要，处理的对象主要是新闻或者文学文章等文档数据，生成的摘要由原文档中抽取出的一部分句子组成，这些句子不进行任何修改。这种方法生成的摘要缺乏结构信息，内容组织较混乱，可读性较差。另外，由于大部分网络评论是短文本，包含的词语非常少，单纯的一个句子难以宏观地反映评论对象的特点。因此，网络评论摘要的生成方法和组织形式亟待改善。需要通过分析整体评论产生一些能够从宏观上反映评论对象不同参数的句子，进而利用定制的模板有效地组织各个生成的句子，提高摘要的可读性。

发明内容

本发明要解决的技术问题：克服现有摘要技术的不足，提供一种网络评论产生式摘要方法。该方法在偏重摘要的基础上，充分考虑了网络评论的特点，提高了摘要的可读性和表达能力。

本发明的技术解决方案：一种网络评论产生式摘要方法，它包括评论短语选取、评论对象参数排序和产生式摘要生成3个部分。评论短语选取部分负责从原始评论数据中选择用户对评论对象进行有效评论的短语，去掉噪音数据。评论对象参数排序部分通过分析评论短语的情感信息，对评论对象的参数进行排序，选择用户评论情感较一致的评论对象参数进行摘要的生成。产生式摘要生成部分对选择的评论对象参数抽取用户的代表性观点短语，根据制定的模板填充评论短语，进而由连接词组合成摘要。

本发明一种网络评论产生式摘要方法，其具体步骤如下：

步骤一：对给定的网络评论语句，基于标点符号拆分成短语，对每个短语进行分词并标记每个词语的词性，利用评论对象参数字典和设计好的句法模板过滤掉无效的短语；

步骤二：利用情感分类和评论中副词的情感强度计算涉及评论对象参数的每条短语的情感极性强度，根据每个评论对象参数的所有评论短语的情感极性强度信息对评论对象参数进行排序，选取评论对象中最重要的一部分参数进行摘要生成；

步骤三：针对步骤二中选取的评论对象的每个参数，根据评论短语情感值以及短语包含的参数特征词出现频率对评论该参数的所有评论短语进行排序，选取排名最靠前的评论短语作为该参数的代表性短语，把选取的所有代表性评论短语置入到设计好的摘要模板中以生成网络评论摘要。

其中，在步骤一中所述的标点符号是中文语言中的标点符号(“，”，“。”，“；”，“？”，“！”)，采用中科院的分词工具ICTCLAS对短语进行分词，评论对象的参数表示用户评论该对象的某一个方面。对于每个参数，在评论中都有一些词语来描述该参数，这些词语称为评论对象参数的特征词语，所有参数的特征词语组成了评论对象参数字典。

其中，步骤一中所描述的评论对象参数是指用户评论该对象的一个方面；无效短语的过滤利用评论对象参数字典来确定每个短语评论的对象参数，每个参数都包含用户用来描述该参数的一些特征词语，这些词语共同组成了评论对象参数字典，评论对象参数及每个参数所包含的特征词由人工构建，根据短语包含的参数特征词来确定其评论对象的那个参数。

其中，步骤一中所描述的无效短语的过滤利用了模板匹配的方法，与给定模板不匹配的短语都被过滤掉，能够对评论对象产生有效评价的短语模板设定为：短语包含一个参数特征词、1到多个形容词，句尾为0个或1个名词，并且短语的词语数小于6个。

其中，在步骤二中所述的情感分类是判断每条短语属于正面情感、负面情感和中立情感中的哪一种情感，然后，再结合短语中修饰情感词的副词来计算短语的情感极性强度，评论对象参数的排序考虑了评论该参数的带有情感的短语占评论该对象所有评论短语的比例、以及评论该参数的具有正负情感两类短语的平均情感极性强度差异值。

其中，步骤二中所描述的评论对象参数排序方法考虑以下因素：(1)评论的情感值，用户给出正面评论的情感值为1，客户给出负面评价的情感值为-1，否则评论的情感值为0；(2)评论对象参数的短语中具有正面或负面情感短语数占该对象评论短语总数的比例；(3)评价对象参数的正负评论短语平均情感极性强度的差异值，情感极性强度由短语情感值和短语包含的情感副词的强度值相乘得到，情感副词的强度值由人工确定。

其中，在步骤三中所述的评论对象参数的短语排序考虑了短语的情感极性强度与评论该参数所有短语的平均情感极性强度的差异值、短语中包含的参数特征词的频率，摘要模板由评论对象的名称、短语占位符号和连接相邻短语的连接词组成。即所描述的短语排序方法考虑了以下因素：(1)短语的情感极性强度与评价该对象参数的所有短语的平均情感极性强度平均值的差异值；(2)短语包含对象参数的特征词在评价该对象参数的所有短语里的出现频率。

步骤三中所描述的摘要生成模板由评论对象的名称、中文连接词和评论短语占位符号组成，生成的摘要由连接词和选取的短语组成，短语的排列顺序与其所评论的对象参数的排列顺序一样，相邻两个短语的情感值具有相同的符号时用并列关系连词连接，相邻的两个短语的情感值具有相反的符号时由转折关系连词连接。

本发明与现有技术相比的优点在于：目前的抽取式摘要生成方法直接从原文中选择一部分句子组成摘要，从而造成句子间逻辑关系不合理，表达的内容不够清晰，另一方面，抽取式摘要方法主要针对长文本数据，利用句子间的相似度进行句子的选择，这种选择方法不适合于网络评论这种短文本、噪音数据众多且情感丰富的数据。本发明提出的一种网络评论产生式摘要针对评论数据特点，结合了用户评论的情感分析，自动生成摘要句子，使摘要的内容能够反映用户对评论对象主要关注的方面，可以提高摘要的可读性以及用户的满意度。

附图说明

图1为网络评论产生式摘要的本发明所述方法流程示意图。

图2为一个手机评论摘要模板例子。

图3为连接词产生过程。

图4为华为手机ascend p7评论摘要。

具体实施方式

下面结合附图及本发明的实施方式对本发明的方法作进一步详细的说明。

如图1所示，本发明一种网络评论产生式摘要方法，具体实现步骤如下：

步骤一：有效评论短语的抽取

产生式摘要用到的数据为网络中用户对某一个事件或者产品发表的评论。每条评论中可能包含很多与所评论的对象无关的短语，这些短语是用户为了赚取积分而随意添加的。另外，每条短语主要针对所评论的对象的某个方面即评论对象参数进行评论。要进行摘要，需要综合用户对评论对象的每个参数的所有评价。因此，需要从每条评论中抽取出对评论对象提出有效评论的短语，并分析该短语评论了该对象的哪个参数，进而减少无效评论短语对摘要的影响。有效评论短语的抽取过程为：

(1)首先按照标点符号(“，”，“。”，“；”，“？”，“！”)对评论语句拆分成短语，然后对短语进行分词，并标记每个词语的词性。

(2)短语评论参数识别：利用手工构建的评论对象参数字典识别每条评论短语涉及评论对象的哪个参数。通常每个评论对象都可以基于不同的参数来反映它的表现或者性能，每个参数都有一些特征词语来描述它，这些词语会出现在用户的评论语句中。评论对象参数词典包括该对象的所有参数以及描述每个参数的特征词语集。表1表示网络评论中，手机作为评论对象的参数词典例子。本发明采用词语匹配的方法来识别短语评论的参数：如果评论短语中包含评论对象某个参数的特征词，则认为该短语评论该对象的这个参数；如果短语不包含任何参数的特征词，则丢弃。

表1手机参数词典

(3)基于模板的评论短语抽取：有效评论短语包含一个参数特征词，参数特征词后包含1或多个形容词，句尾为0个或1个名词，并且短语的词语数小于6个。凡不符合该模板的短语都去掉。

步骤二：基于情感分析的评论对象参数排序

用户评论的情感分析是判断评论是正面、负面和中立这三种情感极性的哪一种。本发明根据评论每一个参数的短语的情感分布情况来对参数进行排序，如果越多的用户对评论对象的同一个参数的评论短语具有同一种情感，那么用户对这个参数越有可能形成一致的观点，即该对象在这一方面是良好还是差。本发明的评论对象参数排序过程为：

(1)情感极性及强度分析：针对对正面、负面和中立三种情感极性分别手工标注一部分评论短语，基于标注好的数据训练一个三分类的SVM情感分类器。然后由训练好的SVM分类器把抽取的有效评论短语进行分类，根据分类结果确定评论短语的情感极性值：如果分到正面类，则情感极性值为1；如果分到负面类，则情感极性值为-1；否则情感极性值为0。另外，用户在发表评论时多用程度副词修饰其评论的情感程度。不同的副词表示的情感强度不一样。表2表示手工构建的一张副词及情感强度值表例子，表中副词后的数字表示情感强度值。一个评论短语的情感极性强度值由其情感极性值乘以包含的副词的情感强度值得到。

表2副词及其情感强度表(数字代表情感强度值，取1,2或3)

极：3

相当：3

老是：2

真：3

太：2

非常：2

一直：2

蛮：1

稍稍：1

特：3

特别：3

实在：2

真心：3

相对：2

明显：2

略微：1

挺：1

稍：1

忒：3

绝对：3

真是：2

偏：2

确实：2

十分：2

刚刚：1

有点：1

稍微：1

真的：3

最：3

的确：2

确实：2

很：2

颇：2

略：1

相对：1

比较：1

(2)评论对象参数排序：对评论对象的所有参数，根据带有情感的评论短语占该评论对象所有评论短语的比例以及参数中正负评论平均情感极性强度的差异值进行排序。评论对象参数中带有情感的评论短语占该对象所有评论短语的比例越高，说明用户对该参数越关注；评论参数的正负情感两类短语的平均情感极性强度差异值越大，说明该参数的评论中一种情感占主导地位，评论对象参数具有该情感表达的特点非常明显，该参数对反映用户对该对象的真实评价具有重要的作用。假设评论对象的所有评论短语数目为Num，参数a的排序值计算公式如下所示：

S c o r e (a) = \frac{p o s N u m (a) + n e g N u m (a)}{N u m} \times | \frac{p o s V a l u e (a)}{p o s N u m (a)} + \frac{n e g V a l u e (a)}{n e g N u m (a)} |

posValue(a)＝∑_{r∈R(a),PS(a,r)＞0}PS(a,r)

negValue(a)＝∑_{r∈R(a),PS(a,r)＜0}PS(a,r)

其中r指评论a的一条短语，posNum(a)和negNum(a)分别指评论参数a为正面情感和负面情感的短语总数，PS(a,r)指在评论r中评价参数a的短语的情感极性强度。评论对象的所有参数按照该公式计算的排序值从大到小排序，最终，选择排名最靠前的5个参数进行摘要的生成。

步骤三：基于模板的产生式摘要生成

对已选择的评论对象参数，从每个参数的评论短语中选择一句最能表达用户观点的短语，进而填充到制定好的模版中产生新的句子，由产生的新句子组成网络评论摘要。本发明的基于模板的产生式摘要生成过程为：

(1)代表性短语的选择：对每个选择的参数，从评论该参数的所有短语中选择一个能够描述大部分用户观点的代表性短语作为组成最终摘要的短语。本发明综合利用短语情感值以及参数特征词出现频率进行短语的选择，对于评论对象参数a中的一个短语r，利用以下公式计算其权重值：

Weight(r)＝exp(-|ps(a,r)-tp(a)|)×ln(Num(word(a,r))+1)

t p (a) = \frac{p o s V a l u e (a) + n e g v a l u e (a)}{p o s N u m (a) + n e g N u m (a)}

其中word(a，r)表示短语r中包含的评论对象参数a的特征词，Num(word(a,r)表示短语r中包含评论对象参数a的特征词在涉及参数a的所有评论里出现的次数。该公式的第一部分exp(.)表示短语的情感极性强度与评论该参数所有短语的平均情感极性强度的差异值，该值越小表明该短语对该参数的描述越重要；公式的第二部分ln(.)考虑了短语中包含的参数特征词的频率，该值越大说明用户对该短语描述的评论对象参数的某个特点越关注。然后，对评论对象所选择的每个参数提取权重值最大的一个短语作为该参数的代表性短语。

(2)摘要生成：对评论对象选择的5个参数，按照每个参数的代表性短语的情感值从正到负进行排列，并填入到模版中相应位置，如图2所示。

短语之间的连接词由相邻两个短语的情感值极性确定，如图3所示。

如果相邻两个短语的情感值相反，则用转折关系连词连接；否则利用并列关系连词连接。针对华为手机一款产品，生成的评论摘要如图4所示。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种网络评论产生式中文摘要生成方法，其特征在于实现步骤如下：

A.包含用户有效评论的短语的抽取：对给定的网络评论语句，基于标点符号拆分成短语，对每个短语进行分词并标记每个词语的词性，利用人工定义的评论对象参数字典和设计好的句法模板过滤掉无效的评论短语；

B.基于情感分析的评论对象参数排序：利用情感分类器和评论中副词的情感强度计算每条涉及评论对象某个参数的短语的情感极性强度，根据评价每个参数的所有评论短语的情感极性强度信息对评论对象参数进行排序，选取最重要的一部分参数进行摘要生成；

C.基于模板产生评论摘要：针对选取的每个参数，根据短语情感值以及参数特征词出现频率对评论该参数的所有评论短语进行排序，选取排名最靠前的评论短语作为该参数的代表性评论短语，把选取的所有代表性评论短语置入到设计好的摘要模板中以生成网络评论摘要。

2.根据权利要求1所述的网络评论产生式中文摘要生成方法，其特征在于：步骤A中所描述的评论对象参数是指用户评论该对象的一个方面；无效短语的过滤利用评论对象参数字典来确定每个短语评论的对象参数，每个参数都包含用户用来描述该参数的一些特征词语，这些词语共同组成了评论对象参数字典，评论对象参数及每个参数所包含的特征词由人工构建，根据短语包含的参数特征词来确定其评论对象的那个参数。

3.根据权利要求1所述的网络评论产生式中文摘要生成方法，其特征在于：步骤A中所描述的无效短语的过滤利用了模板匹配的方法，与给定模板不匹配的短语都被过滤掉，能够对评论对象产生有效评价的短语模板设定为：短语包含一个参数特征词、1到多个形容词，句尾为0个或1个名词，并且短语的词语数小于6个。

4.根据权利要求1所述的网络评论产生式中文摘要生成方法，其特征在于：步骤B中所描述的评论对象参数排序方法考虑以下因素：(1)评论的情感值，用户给出正面评论的情感值为1，客户给出负面评价的情感值为-1，否则评论的情感值为0；(2)评论对象参数的短语中具有正面或负面情感短语数占该对象评论短语总数的比例；(3)评价对象参数的正负评论短语平均情感极性强度的差异值，情感极性强度由短语情感值和短语包含的情感副词的强度值相乘得到，情感副词的强度值由人工确定。

5.根据权利要求1所述的网络评论产生式中文摘要生成方法，其特征在于：步骤C中所描述的短语排序方法考虑了以下因素：(1)短语的情感极性强度与评价该对象参数的所有短语的平均情感极性强度平均值的差异值；(2)短语包含对象参数的特征词在评价该对象参数的所有短语里的出现频率。

6.根据权利要求1所述的网络评论产生式中文摘要生成方法，其特征在于：步骤C中所描述的摘要生成模板由评论对象的名称、中文连接词和评论短语占位符号组成，生成的摘要由连接词和选取的短语组成，短语的排列顺序与其所评论的对象参数的排列顺序一样，相邻两个短语的情感值具有相同的符号时用并列关系连词连接，相邻的两个短语的情感值具有相反的符号时由转折关系连词连接。