CN114429109A

CN114429109A - 基于评论有用性的自动用户评论摘要的方法

Info

Publication number: CN114429109A
Application number: CN202210354868.6A
Authority: CN
Inventors: 高翠芸; 臧婧雅; 王轩; 廖清; 罗文坚; 刘川意
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-05-03
Anticipated expiration: 2042-04-06
Also published as: CN114429109B

Abstract

本发明提供了一种基于评论有用性的自动用户评论摘要的方法，包括依次执行以下步骤：步骤1：预处理；对评论文本进行词形还原；步骤2：评论有用性预测；提取可能会影响评论有用性的特征，用所提取的特征来刻画评论，并使用随机森林分类模型预测评论的有用性；步骤3：基于二元词语的情感‑话题建模；向传统二元词语话题模型中加入情感变量，为评论同时建模话题和情感；步骤4：多要素话题和评论排序。本发明的有益效果是：1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务；2.本发明的方法的话题的排序可以节约开发者的时间。

Description

基于评论有用性的自动用户评论摘要的方法

技术领域

本发明涉及互联网技术领域，尤其涉及基于评论有用性的自动用户评论摘要的方法。

背景技术

应用程序的质量直接影响了用户体验并且关系到开发人员的收益。随着越来越多的应用程序兴起，应用程序开发者面临如何从竞品中脱颖而出的难题。用户评论是用户对应用程序使用过后的反馈。这些评论对应用程序版本更新计划有很大的价值，例如修正主要的漏洞、添加重要的功能等。

用户评论挖掘工作在学术界和工业界都有广泛研究，主要集中在用户评论排序、评论分类、预测用户喜欢/不喜欢的方面特征和识别应用程序突发问题。这些领域大多依赖于预定义的类别和大规模人工标注。然而对于热门应用程序，用户评论日增上万，标注这些评论是否是有信息的很耗时，因此亟需对评论自动摘要。目前评论摘要工作的挑战主要在于用户评论较短且包含大量文本噪音，大约只有30%的评论是有信息价值的，评论中包含很多话题，这些话题难以被预定义。

以往工作忽略了一些重要的评论特征，例如其他用户对某一条评论的支持数。有效利用这些额外特征可以辅助于评论有用性预测，辅助后续的排序摘要任务。此外，并不是所有的话题都需要开发者深入研究，以往的工作忽略了对话题的排序，而话题排序同样可以节约开发者的时间。

发明内容

本发明提供了一种基于评论有用性的自动用户评论摘要的方法，包括依次执行以下步骤：

步骤1：预处理；对评论文本进行词形还原。

步骤2：评论有用性预测；提取可能会影响评论有用性的特征，用所提取的特征来刻画评论，并使用随机森林分类模型预测评论的有用性。

步骤3：基于二元词语的情感-话题建模；向传统二元词语话题模型中加入情感变量，为评论同时建模话题和情感。

步骤4：多要素话题和评论排序。

作为本发明的进一步改进，在所述步骤1中，对评论文本进行词形还原，包括删除重复单词，英文字母转化为小写。

作为本发明的进一步改进，在所述步骤2中，提取的可能会影响评论有用性的特征包括文体特征、可读性特征、词汇特征、情感特征、内容特征。

作为本发明的进一步改进，在所述步骤2中，所述文体特征、可读性特征、词汇特征、情感特征、内容特征具体如下：

作为本发明的进一步改进，在所述步骤3中，还包括执行以下步骤：步骤30：用无监督模型BST同时建模话题和情感。

步骤31：对每一个二元词语b，BST模型建模它在词汇表和情感极性上的话题分布；

步骤32：利用话题得分和评论得分实现对话题和评论联合排序。

作为本发明的进一步改进，在所述步骤30中，包括：

步骤S1：构建一个情感分布

步骤S2：针对每一个情感极性

；

为情感极性

构建一个话题分布

；

步骤S3：对每一个话题

；

为情感极性

和话题

构建一个单词分布

；

步骤S4：对二元词集合

中的每一个二元词语

选择一个情感极性

选择一个话题

对于二元词语中的每一个词

选择一个服从于分布的单词，即

,其中

和

分别代表情感极性和话题。

作为本发明的进一步改进，在所述步骤S31中，每条评论的情感-话题分布计算如下：

其中z,l,r,b分别代表话题、情感、评论和二元词语，

是二元词语b在评论r 中出现的频率；得到评论r 的话题分布

k代表给定情感l下的话题k；

评论r的情感分布

1，2，3分别代表情感负向、中立和正向。

作为本发明的进一步改进，在所述步骤4中，多要素话题排序是对每一个话题

，从话题比重、话题情感、平均打分、新颖度方面计算得分，计算公式如下：

其中

是对每一个话题的评分方面，

是对每一个方面

的权重；

话题z的话题比重计算如下：

其中

是评论集合，

是情感标签；

话题z的话题情感计算如下：

其中

是评论集合，

是情感标签，1,2,3代表负向、中立和正向；

话题z的话平均打分计算如下：

其中

是评论集合，

是用户对评论

的评分；

话题z的新颖度计算如下：

其中

是评论集合，

是评论r发表时间。

作为本发明的进一步改进，在所述步骤1中，评论排序是对每一个评论

，从用户打分，新颖度，情感极性，评论长度，话题方面计算得分，计算公式如下：

其中

是对每一个评论的评分方面，

是对每一个方面

的权重。

评论r的用户打分计算如下：

其中

是用户对评论

的评分；

评论r的新颖度计算如下：

其中

是评论r发表时间；

评论r的情感极性计算如下：

其中1,2,3代表情感负向、中立和正向；

评论r的评论长度计算如下：

其中

是用户评论

中的单词数；

评论r的话题计算如下：

其中

是评论r属于话题z的概率，

是每个话题z的得分。

本发明的有益效果是：1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务；2.本发明的方法的话题的排序可以节约开发者的时间。

附图说明

图1是本发明BST模型图；

图2是本发明方法流程图。

具体实施方式

如图1所示，本发明公开了一种基于评论有用性的自动用户评论摘要的方法，本方法主要包含三个模块：评论有用性预测模块、话题-情感摘要模块和多要素排序模块。评论有用性预测模块用于评价一条评论是否对开发者有用，话题-情感摘要模块将有用的评论按照话题分类并同时预测关联情感，多要素排序模块为每个话题下的评论按照语义代表性排序。

本发明具体步骤如下：

1.预处理

对评论文本进行词形还原，删除重复单词，英文字母转化为小写。

2.评论有用性预测

提取20类可能会对影响评论有用性的特征，如下表：

本方法用以上20维的特征来刻画一条评论，并使用随机森林分类模型预测评论的有用性。

3.基于二元词语的情感-话题建模

本方法提出一个无监督模型BST同时建模话题和情感，算法流程如下，模型图如图1。

BST算法流程：

构建一个情感分布

针对每一个情感极性

:

为情感极性

构建一个话题分布

对每一个话题

：

为情感极性

和话题

构建一个单词分布

对二元词集合

中的每一个二元词语

选择一个情感极性

选择一个话题

对于二元词语中的每一个词

选择一个服从于分布的单词，即

,其中

和

分别代表情感极性和话题。

对每一个二元词语b，BST模型建模它在词汇表和情感极性上的话题分布，每条评论的情感-话题分布计算如下：

其中z,l,r,b分别代表话题、情感、评论和二元词语，

是二元词语b在评论r 中出现的频率。因此我们可以得到评论r 的话题分布

k代表给定情感l下的话题k；

评论r的情感分布

，

1，2，3分别代表情感负向、中立和正向。

4.多要素话题和评论排序

排序分为话题排序和评论排序两个部分。

4.1话题排序是对每一个话题

，从四个方面计算得分：话题比重，话题情感，平均打分，新颖度，计算公式如下：

其中

是对每一个话题的评分方面，

是对每一个方面

的权重。

话题z的话题比重计算如下：

其中

是评论集合，

是情感标签。

话题z的话题情感计算如下：

其中

是评论集合，

是情感标签，1,2,3代表负向、中立和正向。

话题z的话平均打分计算如下：

其中

是评论集合，

是用户对评论

的评分。

话题z的新颖度计算如下：

其中

是评论集合，

是评论r发表时间。

4.2评论排序是对每一个评论

，从五个方面计算得分：用户打分，新颖度，情感极性，评论长度，话题，计算公式如下：

其中

是对每一个评论的评分方面，

是对每一个方面

的权重。

评论r的用户打分计算如下：

其中

是用户对评论

的评分。

评论r的新颖度计算如下：

其中

是评论r发表时间。

评论r的情感极性计算如下：

其中1,2,3代表情感负向、中立和正向。

评论r的评论长度计算如下：

其中

是用户评论

中的单词数。

评论r的话题计算如下：

其中

是评论r属于话题z的概率，

是每个话题z的得分。

利用话题得分

和评论得分

实现对话题和评论联合排序。

本发明的有益效果：1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务；2.本发明的方法的话题的排序可以节约开发者的时间。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于评论有用性的自动用户评论摘要的方法，其特征在于，包括依次执行以下步骤：

步骤1：预处理；对评论文本进行词形还原；

步骤2：评论有用性预测；提取会影响评论有用性的特征，用所提取的特征来刻画评论，并使用随机森林分类模型预测评论的有用性；

步骤3：基于二元词语的情感-话题建模；向传统二元词语话题模型中加入情感变量，为评论同时建模话题和情感；

步骤4：多要素话题和评论排序。

2.根据权利要求1所述的方法，其特征在于，在所述步骤1中，对评论文本进行词形还原，包括删除重复单词，英文字母转化为小写。

3.根据权利要求1所述的方法，其特征在于，在所述步骤2中，提取的会影响评论有用性的特征包括文体特征、可读性特征、词汇特征、情感特征、内容特征。

4.根据权利要求3所述的方法，其特征在于，在所述步骤2中，所述文体特征、可读性特征、词汇特征、情感特征、内容特征具体如下：

特征类别为文体特征，文体特征所对应的特征名称包括：评论长度、句子数、平均句子长度、单字符单词数、双字符单词数、大于2字符单词数，评论长度的含义是评论中的单词数目，句子数的含义是评论中的句子数目，平均句子长度的含义是每句话的平均单词数目，单字符单词数的含义是由一个字符组成的单词所占的百分比，双字符单词数的含义是由两个字符组成的单词所占的百分比，大于2字符单词数的含义是由大于两个字符组成的单词所占的百分比；

特征类别为可读性特征，可读性特征所对应的特征名称包括：难理解的单词数、Flesch、Dale-chall、拼写错误单词数，难理解的单词数的含义是难理解的单词的数目，Flesch的含义是一种量化文本可读性的指标，Flesch=206.835-1.105（单词数/句子数）-84.6（音节数/单词数），Dale-chall的含义是一种量化文本可读性的指标，dale-chall=0.16（难理解单词数/句子数）+0.05（单词数/句子数），拼写错误单词数的含义是拼写错误的单词的数目；

特征类别为词汇特征，词汇特征所对应的特征名称包括：名词数、动词数、形容词数、主观词语数、词汇多样性，名词数的含义是评论中的名词个数，动词数的含义是评论中的动词个数，形容词数的含义是评论中的形容词个数，主观词语数的含义是评论中的主观词语个数，词汇多样性的含义是评论中只出现一次的词语的比例；

特征类别为情感特征，情感特征所对应的特征名称包括：情感极性、情感词数、极端评分，情感极性的含义是正向、负向、中立，极性=（正向单词数-负向单词数）/单词数，情感词数的含义是观点词语的比例，极端评分的含义是与平均打分有差异的评分，极端评分=||评分-平均评分||；

特征类别为内容特征，内容特征所对应的特征名称包括：质量相关的单词数、不确定度、一元文法的词频-逆文档频率，质量相关的单词数的含义是与质量相关的单词数目，不确定度的含义是不确定含义的单词的个数，一元文法的词频-逆文档频率的含义是评论中每个词的词频-逆文档频率。

5.根据权利要求1所述的方法，其特征在于，在所述步骤3中，还包括执行以下步骤：

步骤30：用无监督模型BST同时建模话题和情感；

6.根据权利要求5所述的方法，其特征在于，在所述步骤30中，包括：

步骤S1：构建一个情感分布