CN114429109B - 基于评论有用性的用户评论摘要的方法 - Google Patents
基于评论有用性的用户评论摘要的方法 Download PDFInfo
- Publication number
- CN114429109B CN114429109B CN202210354868.6A CN202210354868A CN114429109B CN 114429109 B CN114429109 B CN 114429109B CN 202210354868 A CN202210354868 A CN 202210354868A CN 114429109 B CN114429109 B CN 114429109B
- Authority
- CN
- China
- Prior art keywords
- comment
- words
- topic
- emotion
- meaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于评论有用性的自动用户评论摘要的方法,包括依次执行以下步骤:步骤1:预处理;对评论文本进行词形还原;步骤2:评论有用性预测;提取可能会影响评论有用性的特征,用所提取的特征来刻画评论,并使用随机森林分类模型预测评论的有用性;步骤3:基于二元词语的情感‑话题建模;向传统二元词语话题模型中加入情感变量,为评论同时建模话题和情感;步骤4:多要素话题和评论排序。本发明的有益效果是:1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务;2.本发明的方法的话题的排序可以节约开发者的时间。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及基于评论有用性的用户评论摘要的方法。
背景技术
应用程序的质量直接影响了用户体验并且关系到开发人员的收益。随着越来越多的应用程序兴起,应用程序开发者面临如何从竞品中脱颖而出的难题。用户评论是用户对应用程序使用过后的反馈。这些评论对应用程序版本更新计划有很大的价值,例如修正主要的漏洞、添加重要的功能等。
用户评论挖掘工作在学术界和工业界都有广泛研究,主要集中在用户评论排序、评论分类、预测用户喜欢/不喜欢的方面特征和识别应用程序突发问题。这些领域大多依赖于预定义的类别和大规模人工标注。然而对于热门应用程序,用户评论日增上万,标注这些评论是否是有信息的很耗时,因此亟需对评论自动摘要。目前评论摘要工作的挑战主要在于用户评论较短且包含大量文本噪音,大约只有30%的评论是有信息价值的,评论中包含很多话题,这些话题难以被预定义。
以往工作忽略了一些重要的评论特征,例如其他用户对某一条评论的支持数。有效利用这些额外特征可以辅助于评论有用性预测,辅助后续的排序摘要任务。此外,并不是所有的话题都需要开发者深入研究,以往的工作忽略了对话题的排序,而话题排序同样可以节约开发者的时间。
发明内容
本发明提供了一种基于评论有用性的用户评论摘要的方法,包括依次执行以下步骤:
步骤1:预处理;对评论文本进行词形还原。
步骤2:评论有用性预测;提取可能会影响评论有用性的特征,用所提取的特征来刻画评论,并使用随机森林分类模型预测评论的有用性。
步骤3:基于二元词语的情感-话题建模;向传统二元词语话题模型中加入情感变量,为评论同时建模话题和情感。
步骤4:多要素话题和评论排序。
作为本发明的进一步改进,在所述步骤1中,对评论文本进行词形还原,包括删除重复单词,英文字母转化为小写。
作为本发明的进一步改进,在所述步骤2中,提取的可能会影响评论有用性的特征包括文体特征、可读性特征、词汇特征、情感特征、内容特征。
作为本发明的进一步改进,在所述步骤2中,所述文体特征、可读性特征、词汇特征、情感特征、内容特征具体如下:
作为本发明的进一步改进,在所述步骤3中,还包括执行以下步骤:步骤30:用无监督模型BST同时建模话题和情感。
步骤31:对每一个二元词语b,BST模型建模它在词汇表和情感极性上的话题分布;
步骤32:利用话题得分和评论得分实现对话题和评论联合排序。
作为本发明的进一步改进,在所述步骤30中,包括:
作为本发明的进一步改进,在所述步骤S31中,每条评论的情感-话题分布计算如下:
评论r的情感分布
其中1,2,3代表情感负向、中立和正向;
本发明的有益效果是:1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务;2.本发明的方法的话题的排序可以节约开发者的时间。
附图说明
图1是本发明BST模型图;
图2是本发明方法流程图。
具体实施方式
如图1所示,本发明公开了一种基于评论有用性的用户评论摘要的方法,本方法主要包含三个模块:评论有用性预测模块、话题-情感摘要模块和多要素排序模块。评论有用性预测模块用于评价一条评论是否对开发者有用,话题-情感摘要模块将有用的评论按照话题分类并同时预测关联情感,多要素排序模块为每个话题下的评论按照语义代表性排序。
本发明具体步骤如下:
1.预处理
对评论文本进行词形还原,删除重复单词,英文字母转化为小写。
2.评论有用性预测
提取20类可能会对影响评论有用性的特征,如下表:
本方法用以上20维的特征来刻画一条评论,并使用随机森林分类模型预测评论的有用性。
3.基于二元词语的情感-话题建模
本方法提出一个无监督模型BST同时建模话题和情感,算法流程如下,模型图如图1。
BST算法流程:
对每一个二元词语b,BST模型建模它在词汇表和情感极性上的话题分布,每条评论的情感-话题分布计算如下:
4.多要素话题和评论排序
排序分为话题排序和评论排序两个部分。
其中1,2,3代表情感负向、中立和正向。
本发明的有益效果:1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务;2.本发明的方法的话题的排序可以节约开发者的时间。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (7)
1.一种基于评论有用性的用户评论摘要的方法,其特征在于,包括依次执行以下步骤:
步骤1:预处理;对评论文本进行词形还原;
步骤2:评论有用性预测;提取会影响评论有用性的特征,用所提取的特征来刻画评论,并使用随机森林分类模型预测评论的有用性;
步骤3:基于二元词语的情感-话题建模;向传统二元词语话题模型中加入情感变量,为评论同时建模话题和情感;
步骤4:多要素话题和评论排序;
在所述步骤3中,还包括执行以下步骤:
步骤30:用无监督模型BST同时建模话题和情感;
步骤31:对每一个二元词语b,BST模型建模它在词汇表和情感极性上的话题分布;
步骤32:利用话题得分和评论得分实现对话题和评论联合排序;
在所述步骤31中,每条评论的情感-话题分布计算如下:
得到评论r 的话题分布
k代表给定情感l下的话题k;
评论r的情感分布
2.根据权利要求1所述的方法,其特征在于,在所述步骤1中,对评论文本进行词形还原,包括删除重复单词,英文字母转化为小写。
3.根据权利要求1所述的方法,其特征在于,在所述步骤2中,提取的会影响评论有用性的特征包括文体特征、可读性特征、词汇特征、情感特征、内容特征。
4.根据权利要求3所述的方法,其特征在于,在所述步骤2中,所述文体特征、可读性特征、词汇特征、情感特征、内容特征具体如下:
特征类别为文体特征,文体特征所对应的特征名称包括:评论长度、句子数、平均句子长度、单字符单词数、双字符单词数、大于2字符单词数,评论长度的含义是评论中的单词数目,句子数的含义是评论中的句子数目,平均句子长度的含义是每句话的平均单词数目,单字符单词数的含义是由一个字符组成的单词所占的百分比,双字符单词数的含义是由两个字符组成的单词所占的百分比,大于2字符单词数的含义是由大于两个字符组成的单词所占的百分比;
特征类别为可读性特征,可读性特征所对应的特征名称包括:难理解的单词数、Flesch、Dale-chall、拼写错误单词数,难理解的单词数的含义是难理解的单词的数目,Flesch的含义是一种量化文本可读性的指标,
Flesch=206.835-1.105(单词数/句子数)-84.6(音节数/单词数),Dale-chall的含义是一种量化文本可读性的指标,dale-chall=0.16(难理解单词数/句子数)+0.05(单词数/句子数),拼写错误单词数的含义是拼写错误的单词的数目;
特征类别为词汇特征,词汇特征所对应的特征名称包括:名词数、动词数、形容词数、主观词语数、词汇多样性,名词数的含义是评论中的名词个数,动词数的含义是评论中的动词个数,形容词数的含义是评论中的形容词个数,主观词语数的含义是评论中的主观词语个数,词汇多样性的含义是评论中只出现一次的词语的比例;
特征类别为情感特征,情感特征所对应的特征名称包括:情感极性、情感词数、极端评分,情感极性的含义是正向、负向、中立,极性=(正向单词数-负向单词数)/单词数,情感词数的含义是观点词语的比例,极端评分的含义是与平均打分有差异的评分,极端评分=||评分-平均评分||;
特征类别为内容特征,内容特征所对应的特征名称包括:质量相关的单词数、不确定度、一元文法的词频-逆文档频率,质量相关的单词数的含义是与质量相关的单词数目,不确定度的含义是不确定含义的单词的个数,一元文法的词频-逆文档频率的含义是评论中每个词的词频-逆文档频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210354868.6A CN114429109B (zh) | 2022-04-06 | 2022-04-06 | 基于评论有用性的用户评论摘要的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210354868.6A CN114429109B (zh) | 2022-04-06 | 2022-04-06 | 基于评论有用性的用户评论摘要的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114429109A CN114429109A (zh) | 2022-05-03 |
CN114429109B true CN114429109B (zh) | 2022-07-19 |
Family
ID=81314413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210354868.6A Active CN114429109B (zh) | 2022-04-06 | 2022-04-06 | 基于评论有用性的用户评论摘要的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114429109B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN108513176A (zh) * | 2017-12-06 | 2018-09-07 | 北京邮电大学 | 一种基于话题模型的社会化视频主题提取系统及方法 |
CN113282704A (zh) * | 2021-05-07 | 2021-08-20 | 天津科技大学 | 一种对评论有用性进行判断和筛选的方法与装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9201863B2 (en) * | 2009-12-24 | 2015-12-01 | Woodwire, Inc. | Sentiment analysis from social media content |
CN104331451B (zh) * | 2014-10-30 | 2017-12-26 | 南京大学 | 一种基于主题的网络用户评论的推荐度评分方法 |
CN108874768B (zh) * | 2018-05-16 | 2019-04-16 | 山东科技大学 | 一种基于主题情感联合概率的电子商务虚假评论识别方法 |
US20190361987A1 (en) * | 2018-05-23 | 2019-11-28 | Ebay Inc. | Apparatus, system and method for analyzing review content |
US11550999B2 (en) * | 2019-11-05 | 2023-01-10 | Paypal, Inc. | Data management using topic modeling |
CN112988981B (zh) * | 2021-05-14 | 2021-10-15 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于遗传算法的自动标注方法 |
-
2022
- 2022-04-06 CN CN202210354868.6A patent/CN114429109B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN108513176A (zh) * | 2017-12-06 | 2018-09-07 | 北京邮电大学 | 一种基于话题模型的社会化视频主题提取系统及方法 |
CN113282704A (zh) * | 2021-05-07 | 2021-08-20 | 天津科技大学 | 一种对评论有用性进行判断和筛选的方法与装置 |
Non-Patent Citations (2)
Title |
---|
Predicting the "helpfulness" of online consumer reviews;Jyoti Prakash Singh et a.;《Journal of Business Research》;20171231;第1-34页 * |
面向网络文本的信息可信度评估方法研究;李璐旸 等;《智能计算机与应用》;20131031;第3卷(第5期);第31-34、38页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114429109A (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10133733B2 (en) | Systems and methods for an autonomous avatar driver | |
Syed et al. | Associating targets with SentiUnits: a step forward in sentiment analysis of Urdu text | |
Suleman et al. | Extending latent semantic analysis to manage its syntactic blindness | |
Wang et al. | A knowledge adoption model based framework for finding helpful user-generated contents in online communities | |
CN111309891B (zh) | 一种阅读机器人进行自动问答的系统及其应用方法 | |
Valsamidis et al. | A framework for opinion mining in blogs for agriculture | |
Amali et al. | Classification of cyberbullying Sinhala language comments on social media | |
Nyaung et al. | Feature Based Summarizing and Ranking from Customer Reviews | |
Guo et al. | Local government debt risk assessment: A deep learning-based perspective | |
Khan et al. | Using Machine Learning Techniques for Subjectivity Analysis based on Lexical and Nonlexical Features. | |
Flor et al. | Text mining and automated scoring | |
CN112711666B (zh) | 期货标签抽取方法及装置 | |
Gutiérrez et al. | Sentiment classification using semantic features extracted from WordNet-based resources | |
Neviarouskaya et al. | Intelligent interface for textual attitude analysis | |
CN114429109B (zh) | 基于评论有用性的用户评论摘要的方法 | |
JP2021140228A (ja) | 広告文自動作成システム | |
Li et al. | Opinion mining of camera reviews based on semantic role labeling | |
Gobin-Rahimbux et al. | KreolStem: A hybrid language-dependent stemmer for Kreol Morisien | |
CN112507115A (zh) | 一种弹幕文本中情感词的分类方法、装置及存储介质 | |
Sahu et al. | An Emotion based Sentiment Analysis on Twitter Dataset | |
Sukma et al. | A Multimodal Discourse Analysis of the Endangered Tigers in WWF Posters | |
Jain et al. | SentiGames-A Game Theoretic Approach To Sentiment Analysis | |
Heamida et al. | Applying sentiment analysis on Arabic comments in sudanese dialect | |
CN111611392B (zh) | 综合多特征和投票策略的教育资源引用分析方法、系统及介质 | |
CN116226677B (zh) | 平行语料构建方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |