CN114429109A - 基于评论有用性的自动用户评论摘要的方法 - Google Patents

基于评论有用性的自动用户评论摘要的方法 Download PDF

Info

Publication number
CN114429109A
CN114429109A CN202210354868.6A CN202210354868A CN114429109A CN 114429109 A CN114429109 A CN 114429109A CN 202210354868 A CN202210354868 A CN 202210354868A CN 114429109 A CN114429109 A CN 114429109A
Authority
CN
China
Prior art keywords
comment
words
topic
emotion
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210354868.6A
Other languages
English (en)
Other versions
CN114429109B (zh
Inventor
高翠芸
臧婧雅
王轩
廖清
罗文坚
刘川意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202210354868.6A priority Critical patent/CN114429109B/zh
Publication of CN114429109A publication Critical patent/CN114429109A/zh
Application granted granted Critical
Publication of CN114429109B publication Critical patent/CN114429109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于评论有用性的自动用户评论摘要的方法,包括依次执行以下步骤:步骤1:预处理;对评论文本进行词形还原;步骤2:评论有用性预测;提取可能会影响评论有用性的特征,用所提取的特征来刻画评论,并使用随机森林分类模型预测评论的有用性;步骤3:基于二元词语的情感‑话题建模;向传统二元词语话题模型中加入情感变量,为评论同时建模话题和情感;步骤4:多要素话题和评论排序。本发明的有益效果是:1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务;2.本发明的方法的话题的排序可以节约开发者的时间。

Description

基于评论有用性的自动用户评论摘要的方法
技术领域
本发明涉及互联网技术领域,尤其涉及基于评论有用性的自动用户评论摘要的方法。
背景技术
应用程序的质量直接影响了用户体验并且关系到开发人员的收益。随着越来越多的应用程序兴起,应用程序开发者面临如何从竞品中脱颖而出的难题。用户评论是用户对应用程序使用过后的反馈。这些评论对应用程序版本更新计划有很大的价值,例如修正主要的漏洞、添加重要的功能等。
用户评论挖掘工作在学术界和工业界都有广泛研究,主要集中在用户评论排序、评论分类、预测用户喜欢/不喜欢的方面特征和识别应用程序突发问题。这些领域大多依赖于预定义的类别和大规模人工标注。然而对于热门应用程序,用户评论日增上万,标注这些评论是否是有信息的很耗时,因此亟需对评论自动摘要。目前评论摘要工作的挑战主要在于用户评论较短且包含大量文本噪音,大约只有30%的评论是有信息价值的,评论中包含很多话题,这些话题难以被预定义。
以往工作忽略了一些重要的评论特征,例如其他用户对某一条评论的支持数。有效利用这些额外特征可以辅助于评论有用性预测,辅助后续的排序摘要任务。此外,并不是所有的话题都需要开发者深入研究,以往的工作忽略了对话题的排序,而话题排序同样可以节约开发者的时间。
发明内容
本发明提供了一种基于评论有用性的自动用户评论摘要的方法,包括依次执行以下步骤:
步骤1:预处理;对评论文本进行词形还原。
步骤2:评论有用性预测;提取可能会影响评论有用性的特征,用所提取的特征来刻画评论,并使用随机森林分类模型预测评论的有用性。
步骤3:基于二元词语的情感-话题建模;向传统二元词语话题模型中加入情感变量,为评论同时建模话题和情感。
步骤4:多要素话题和评论排序。
作为本发明的进一步改进,在所述步骤1中,对评论文本进行词形还原,包括删除重复单词,英文字母转化为小写。
作为本发明的进一步改进,在所述步骤2中,提取的可能会影响评论有用性的特征包括文体特征、可读性特征、词汇特征、情感特征、内容特征。
作为本发明的进一步改进,在所述步骤2中,所述文体特征、可读性特征、词汇特征、情感特征、内容特征具体如下:
Figure 406697DEST_PATH_IMAGE001
Figure 746412DEST_PATH_IMAGE002
Figure 38853DEST_PATH_IMAGE003
作为本发明的进一步改进,在所述步骤3中,还包括执行以下步骤:步骤30:用无监督模型BST同时建模话题和情感。
步骤31:对每一个二元词语b,BST模型建模它在词汇表和情感极性上的话题分布;
步骤32:利用话题得分和评论得分实现对话题和评论联合排序。
作为本发明的进一步改进,在所述步骤30中,包括:
步骤S1:构建一个情感分布
Figure 364792DEST_PATH_IMAGE004
步骤S2:针对每一个情感极性
Figure 793499DEST_PATH_IMAGE005
为情感极性
Figure 553383DEST_PATH_IMAGE005
构建一个话题分布
Figure 67540DEST_PATH_IMAGE006
步骤S3:对每一个话题
Figure 197170DEST_PATH_IMAGE007
为情感极性
Figure 870597DEST_PATH_IMAGE005
和话题
Figure 427481DEST_PATH_IMAGE007
构建一个单词分布
Figure 428935DEST_PATH_IMAGE008
步骤S4:对二元词集合
Figure 972043DEST_PATH_IMAGE009
中的每一个二元词语
Figure 375342DEST_PATH_IMAGE010
选择一个情感极性
Figure 103127DEST_PATH_IMAGE011
选择一个话题
Figure 450931DEST_PATH_IMAGE012
对于二元词语中的每一个词
Figure 656785DEST_PATH_IMAGE013
选择一个服从于分布的单词,即
Figure 914591DEST_PATH_IMAGE014
,其中
Figure 452757DEST_PATH_IMAGE015
Figure 428804DEST_PATH_IMAGE016
分别代表 情感极性和话题。
作为本发明的进一步改进,在所述步骤S31中,每条评论的情感-话题分布计算如下:
Figure 438348DEST_PATH_IMAGE017
Figure 675294DEST_PATH_IMAGE018
Figure 744881DEST_PATH_IMAGE019
其中z,l,r,b分别代表话题、情感、评论和二元词语,
Figure 942644DEST_PATH_IMAGE020
是二元词语b在评论r 中出现的频率;得到评论r 的话题分布
Figure 365667DEST_PATH_IMAGE021
k代表给定情感l下的话题k;
评论r的情感分布
Figure 598065DEST_PATH_IMAGE022
1,2,3分别代表情感负向、中立和正向。
作为本发明的进一步改进,在所述步骤4中,多要素话题排序是对每一个话题
Figure 104133DEST_PATH_IMAGE007
,从 话题比重、话题情感、平均打分、新颖度方面计算得分,计算公式如下:
Figure 913826DEST_PATH_IMAGE023
其中
Figure 265172DEST_PATH_IMAGE024
是对每一个话题的评分方面,
Figure 352077DEST_PATH_IMAGE025
是对每一个方面
Figure 143228DEST_PATH_IMAGE026
的权重;
话题z的话题比重计算如下:
Figure 315583DEST_PATH_IMAGE027
其中
Figure 470621DEST_PATH_IMAGE028
是评论集合,
Figure 802245DEST_PATH_IMAGE029
是情感标签;
话题z的话题情感计算如下:
Figure 650115DEST_PATH_IMAGE030
其中
Figure 44188DEST_PATH_IMAGE028
是评论集合,
Figure 878283DEST_PATH_IMAGE029
是情感标签,1,2,3代表负向、中立和正向;
话题z的话平均打分计算如下:
Figure 674200DEST_PATH_IMAGE031
其中
Figure 692972DEST_PATH_IMAGE028
是评论集合,
Figure 839919DEST_PATH_IMAGE032
是用户对评论
Figure 726973DEST_PATH_IMAGE033
的评分;
话题z的新颖度计算如下:
Figure 642976DEST_PATH_IMAGE034
其中
Figure 567070DEST_PATH_IMAGE028
是评论集合,
Figure 201314DEST_PATH_IMAGE035
是评论r发表时间。
作为本发明的进一步改进,在所述步骤1中,评论排序是对每一个评论
Figure 875746DEST_PATH_IMAGE036
,从用户打 分,新颖度,情感极性,评论长度,话题方面计算得分,计算公式如下:
Figure 646256DEST_PATH_IMAGE037
其中
Figure 741251DEST_PATH_IMAGE038
是对每一个评论的评分方面,
Figure 987425DEST_PATH_IMAGE025
是对每一个方面
Figure 826068DEST_PATH_IMAGE026
的权重。
评论r的用户打分计算如下:
Figure 451084DEST_PATH_IMAGE039
其中
Figure 857926DEST_PATH_IMAGE032
是用户对评论
Figure 201182DEST_PATH_IMAGE033
的评分;
评论r的新颖度计算如下:
Figure 843516DEST_PATH_IMAGE040
其中
Figure 713252DEST_PATH_IMAGE035
是评论r发表时间;
评论r的情感极性计算如下:
Figure 415629DEST_PATH_IMAGE041
Figure 246182DEST_PATH_IMAGE042
Figure 692207DEST_PATH_IMAGE043
其中1,2,3代表情感负向、中立和正向;
评论r的评论长度计算如下:
Figure 400137DEST_PATH_IMAGE044
其中
Figure 273415DEST_PATH_IMAGE045
是用户评论
Figure 591264DEST_PATH_IMAGE033
中的单词数;
评论r的话题计算如下:
Figure 434455DEST_PATH_IMAGE046
其中
Figure 154150DEST_PATH_IMAGE047
是评论r属于话题z的概率,
Figure 198329DEST_PATH_IMAGE048
是每个话题z的得分。
本发明的有益效果是:1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务;2.本发明的方法的话题的排序可以节约开发者的时间。
附图说明
图1是本发明BST模型图;
图2是本发明方法流程图。
具体实施方式
如图1所示,本发明公开了一种基于评论有用性的自动用户评论摘要的方法,本方法主要包含三个模块:评论有用性预测模块、话题-情感摘要模块和多要素排序模块。评论有用性预测模块用于评价一条评论是否对开发者有用,话题-情感摘要模块将有用的评论按照话题分类并同时预测关联情感,多要素排序模块为每个话题下的评论按照语义代表性排序。
本发明具体步骤如下:
1.预处理
对评论文本进行词形还原,删除重复单词,英文字母转化为小写。
2.评论有用性预测
提取20类可能会对影响评论有用性的特征,如下表:
Figure 878840DEST_PATH_IMAGE049
Figure 666668DEST_PATH_IMAGE050
Figure 240869DEST_PATH_IMAGE051
本方法用以上20维的特征来刻画一条评论,并使用随机森林分类模型预测评论的有用性。
3.基于二元词语的情感-话题建模
本方法提出一个无监督模型BST同时建模话题和情感,算法流程如下,模型图如图1。
BST算法流程:
构建一个情感分布
Figure 315004DEST_PATH_IMAGE004
针对每一个情感极性
Figure 341866DEST_PATH_IMAGE005
:
为情感极性
Figure 933384DEST_PATH_IMAGE005
构建一个话题分布
Figure 362091DEST_PATH_IMAGE006
对每一个话题
Figure 856395DEST_PATH_IMAGE007
为情感极性
Figure 636133DEST_PATH_IMAGE005
和话题
Figure 765763DEST_PATH_IMAGE007
构建一个单词分布
Figure 173610DEST_PATH_IMAGE008
对二元词集合
Figure 996073DEST_PATH_IMAGE009
中的每一个二元词语
Figure 997527DEST_PATH_IMAGE010
选择一个情感极性
Figure 540635DEST_PATH_IMAGE011
选择一个话题
Figure 678355DEST_PATH_IMAGE012
对于二元词语中的每一个词
Figure 671719DEST_PATH_IMAGE013
选择一个服从于分布的单词,即
Figure 160469DEST_PATH_IMAGE014
,其中
Figure 756535DEST_PATH_IMAGE015
Figure 14341DEST_PATH_IMAGE016
分别代表 情感极性和话题。
对每一个二元词语b,BST模型建模它在词汇表和情感极性上的话题分布,每条评论的情感-话题分布计算如下:
Figure 913027DEST_PATH_IMAGE017
Figure 14974DEST_PATH_IMAGE018
Figure 24518DEST_PATH_IMAGE019
其中z,l,r,b分别代表话题、情感、评论和二元词语,
Figure 402410DEST_PATH_IMAGE020
是二元词语b在评论r 中出现的频率。因此我们可以得到评论r 的话题分布
Figure 596631DEST_PATH_IMAGE052
k代表给定情感l下的话题k;
评论r的情感分布
Figure 794394DEST_PATH_IMAGE053
1,2,3分别代表情感负向、中立和正向。
4.多要素话题和评论排序
排序分为话题排序和评论排序两个部分。
4.1话题排序是对每一个话题
Figure 607629DEST_PATH_IMAGE007
,从四个方面计算得分:话题比重,话题情感,平均 打分,新颖度,计算公式如下:
Figure 715393DEST_PATH_IMAGE023
其中
Figure 955882DEST_PATH_IMAGE024
是对每一个话题的评分方面,
Figure 640941DEST_PATH_IMAGE025
是对每一个方面
Figure 382501DEST_PATH_IMAGE026
的权重。
话题z的话题比重计算如下:
Figure 469406DEST_PATH_IMAGE027
其中
Figure 880796DEST_PATH_IMAGE028
是评论集合,
Figure 427052DEST_PATH_IMAGE029
是情感标签。
话题z的话题情感计算如下:
Figure 582090DEST_PATH_IMAGE054
其中
Figure 789081DEST_PATH_IMAGE028
是评论集合,
Figure 371372DEST_PATH_IMAGE029
是情感标签,1,2,3代表负向、中立和正向。
话题z的话平均打分计算如下:
Figure 155657DEST_PATH_IMAGE031
其中
Figure 848806DEST_PATH_IMAGE028
是评论集合,
Figure 910303DEST_PATH_IMAGE032
是用户对评论
Figure 804441DEST_PATH_IMAGE033
的评分。
话题z的新颖度计算如下:
Figure 951389DEST_PATH_IMAGE034
其中
Figure 448229DEST_PATH_IMAGE028
是评论集合,
Figure 364232DEST_PATH_IMAGE035
是评论r发表时间。
4.2评论排序是对每一个评论
Figure 412960DEST_PATH_IMAGE036
,从五个方面计算得分:用户打分,新颖度,情感极 性,评论长度,话题,计算公式如下:
Figure 47204DEST_PATH_IMAGE037
其中
Figure 347735DEST_PATH_IMAGE038
是对每一个评论的评分方面,
Figure 492146DEST_PATH_IMAGE025
是对每一个方面
Figure 852720DEST_PATH_IMAGE026
的权重。
评论r的用户打分计算如下:
Figure 974260DEST_PATH_IMAGE039
其中
Figure 671958DEST_PATH_IMAGE032
是用户对评论
Figure 562553DEST_PATH_IMAGE033
的评分。
评论r的新颖度计算如下:
Figure 94029DEST_PATH_IMAGE055
其中
Figure 437285DEST_PATH_IMAGE035
是评论r发表时间。
评论r的情感极性计算如下:
Figure 220565DEST_PATH_IMAGE041
Figure 965667DEST_PATH_IMAGE042
Figure 402465DEST_PATH_IMAGE043
其中1,2,3代表情感负向、中立和正向。
评论r的评论长度计算如下:
Figure 357651DEST_PATH_IMAGE044
其中
Figure 538097DEST_PATH_IMAGE045
是用户评论
Figure 403284DEST_PATH_IMAGE033
中的单词数。
评论r的话题计算如下:
Figure 276563DEST_PATH_IMAGE056
其中
Figure 702734DEST_PATH_IMAGE047
是评论r属于话题z的概率,
Figure 686870DEST_PATH_IMAGE048
是每个话题z的得分。
利用话题得分
Figure 406564DEST_PATH_IMAGE048
和评论得分
Figure 575378DEST_PATH_IMAGE057
实现对话题和评论联合排序。
本发明的有益效果:1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务;2.本发明的方法的话题的排序可以节约开发者的时间。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种基于评论有用性的自动用户评论摘要的方法,其特征在于,包括依次执行以下步骤:
步骤1:预处理;对评论文本进行词形还原;
步骤2:评论有用性预测;提取会影响评论有用性的特征,用所提取的特征来刻画评论,并使用随机森林分类模型预测评论的有用性;
步骤3:基于二元词语的情感-话题建模;向传统二元词语话题模型中加入情感变量,为评论同时建模话题和情感;
步骤4:多要素话题和评论排序。
2.根据权利要求1所述的方法,其特征在于,在所述步骤1中,对评论文本进行词形还原,包括删除重复单词,英文字母转化为小写。
3.根据权利要求1所述的方法,其特征在于,在所述步骤2中,提取的会影响评论有用性的特征包括文体特征、可读性特征、词汇特征、情感特征、内容特征。
4.根据权利要求3所述的方法,其特征在于,在所述步骤2中,所述文体特征、可读性特征、词汇特征、情感特征、内容特征具体如下:
特征类别为文体特征,文体特征所对应的特征名称包括:评论长度、句子数、平均句子长度、单字符单词数、双字符单词数、大于2字符单词数,评论长度的含义是评论中的单词数目,句子数的含义是评论中的句子数目,平均句子长度的含义是每句话的平均单词数目,单字符单词数的含义是由一个字符组成的单词所占的百分比,双字符单词数的含义是由两个字符组成的单词所占的百分比,大于2字符单词数的含义是由大于两个字符组成的单词所占的百分比;
特征类别为可读性特征,可读性特征所对应的特征名称包括:难理解的单词数、Flesch、Dale-chall、拼写错误单词数,难理解的单词数的含义是难理解的单词的数目,Flesch的含义是一种量化文本可读性的指标,Flesch=206.835-1.105(单词数/句子数)-84.6(音节数/单词数),Dale-chall的含义是一种量化文本可读性的指标,dale-chall=0.16(难理解单词数/句子数)+0.05(单词数/句子数),拼写错误单词数的含义是拼写错误的单词的数目;
特征类别为词汇特征,词汇特征所对应的特征名称包括:名词数、动词数、形容词数、主观词语数、词汇多样性,名词数的含义是评论中的名词个数,动词数的含义是评论中的动词个数,形容词数的含义是评论中的形容词个数,主观词语数的含义是评论中的主观词语个数,词汇多样性的含义是评论中只出现一次的词语的比例;
特征类别为情感特征,情感特征所对应的特征名称包括:情感极性、情感词数、极端评分,情感极性的含义是正向、负向、中立,极性=(正向单词数-负向单词数)/单词数,情感词数的含义是观点词语的比例,极端评分的含义是与平均打分有差异的评分,极端评分=||评分-平均评分||;
特征类别为内容特征,内容特征所对应的特征名称包括:质量相关的单词数、不确定度、一元文法的词频-逆文档频率,质量相关的单词数的含义是与质量相关的单词数目,不确定度的含义是不确定含义的单词的个数,一元文法的词频-逆文档频率的含义是评论中每个词的词频-逆文档频率。
5.根据权利要求1所述的方法,其特征在于,在所述步骤3中,还包括执行以下步骤:
步骤30:用无监督模型BST同时建模话题和情感;
步骤31:对每一个二元词语b,BST模型建模它在词汇表和情感极性上的话题分布;
步骤32:利用话题得分和评论得分实现对话题和评论联合排序。
6.根据权利要求5所述的方法,其特征在于,在所述步骤30中,包括:
步骤S1:构建一个情感分布
Figure 197766DEST_PATH_IMAGE001
步骤S2:针对每一个情感极性
Figure 255851DEST_PATH_IMAGE002
为情感极性
Figure 409490DEST_PATH_IMAGE002
构建一个话题分布
Figure 680065DEST_PATH_IMAGE003
步骤S3:对每一个话题
Figure 760017DEST_PATH_IMAGE004
为情感极性
Figure 569097DEST_PATH_IMAGE002
和话题
Figure 210032DEST_PATH_IMAGE004
构建一个单词分布
Figure 284298DEST_PATH_IMAGE005
步骤S4:对二元词集合
Figure 218756DEST_PATH_IMAGE006
中的每一个二元词语
Figure 848671DEST_PATH_IMAGE007
选择一个情感极性
Figure 478367DEST_PATH_IMAGE008
选择一个话题
Figure 589280DEST_PATH_IMAGE009
对于二元词语中的每一个词
Figure 988031DEST_PATH_IMAGE010
选择一个服从于分布的单词,即
Figure 60286DEST_PATH_IMAGE011
,其中
Figure 177278DEST_PATH_IMAGE012
Figure 826303DEST_PATH_IMAGE013
分别代表情感极 性和话题。
7.根据权利要求5所述的方法,其特征在于,在所述步骤S31中,每条评论的情感-话题分布计算如下:
Figure 345140DEST_PATH_IMAGE014
Figure 340294DEST_PATH_IMAGE015
Figure 85528DEST_PATH_IMAGE016
其中z,l,r,b分别代表话题、情感、评论和二元词语,
Figure 538244DEST_PATH_IMAGE017
是二元词语b在评论r中出现 的频率;得到评论r 的话题分布
Figure 177166DEST_PATH_IMAGE018
k代表给定情感l下的话题k;
评论r的情感分布
Figure 325644DEST_PATH_IMAGE019
1,2,3分别代表情感负向、中立和正向。
8.根据权利要求1所述的方法,其特征在于,在所述步骤4中,多要素话题排序是对每一 个话题
Figure 479545DEST_PATH_IMAGE004
,从话题比重、话题情感、平均打分、新颖度方面计算得分,计算公式如下:
Figure 1531DEST_PATH_IMAGE020
其中
Figure 229381DEST_PATH_IMAGE021
是对每一个话题的评分方面,
Figure 683847DEST_PATH_IMAGE022
是对每一个方面
Figure 262727DEST_PATH_IMAGE023
的权重;
话题z的话题比重计算如下:
Figure 57245DEST_PATH_IMAGE024
其中
Figure 670760DEST_PATH_IMAGE025
是评论集合,
Figure 426620DEST_PATH_IMAGE026
是情感标签;
话题z的话题情感计算如下:
Figure 227217DEST_PATH_IMAGE027
其中
Figure 717104DEST_PATH_IMAGE025
是评论集合,
Figure 418081DEST_PATH_IMAGE026
是情感标签,1,2,3代表负向、中立和正向;
话题z的话平均打分计算如下:
Figure 843378DEST_PATH_IMAGE028
其中
Figure 626876DEST_PATH_IMAGE025
是评论集合,
Figure 530241DEST_PATH_IMAGE029
是用户对评论
Figure 351304DEST_PATH_IMAGE030
的评分;
话题z的新颖度计算如下:
Figure 557289DEST_PATH_IMAGE031
其中
Figure 833943DEST_PATH_IMAGE025
是评论集合,
Figure 868895DEST_PATH_IMAGE032
是评论r发表时间。
9.根据权利要求1所述的方法,其特征在于,在所述步骤1中,评论排序是对每一个评论
Figure 810044DEST_PATH_IMAGE033
,从用户打分,新颖度,情感极性,评论长度,话题方面计算得分,计算公式如下:
Figure 45984DEST_PATH_IMAGE034
其中
Figure 945020DEST_PATH_IMAGE035
是对每一个评论的评分方面,
Figure 190188DEST_PATH_IMAGE022
是对每一个方面
Figure 720264DEST_PATH_IMAGE023
的权重;
评论r的用户打分计算如下:
Figure 127106DEST_PATH_IMAGE036
其中
Figure 112773DEST_PATH_IMAGE029
是用户对评论
Figure 161632DEST_PATH_IMAGE030
的评分;
评论r的新颖度计算如下:
Figure 811794DEST_PATH_IMAGE037
其中
Figure 655116DEST_PATH_IMAGE032
是评论r发表时间;
评论r的情感极性计算如下:
Figure 411236DEST_PATH_IMAGE038
Figure 998206DEST_PATH_IMAGE039
Figure 502875DEST_PATH_IMAGE040
其中1,2,3代表情感负向、中立和正向;
评论r的评论长度计算如下:
Figure 251519DEST_PATH_IMAGE041
其中
Figure 477357DEST_PATH_IMAGE042
是用户评论
Figure 71281DEST_PATH_IMAGE030
中的单词数;
评论r的话题计算如下:
Figure 164877DEST_PATH_IMAGE043
其中
Figure 615581DEST_PATH_IMAGE044
是评论r属于话题z的概率,
Figure 791697DEST_PATH_IMAGE045
是每个话题z的得分。
CN202210354868.6A 2022-04-06 2022-04-06 基于评论有用性的用户评论摘要的方法 Active CN114429109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210354868.6A CN114429109B (zh) 2022-04-06 2022-04-06 基于评论有用性的用户评论摘要的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210354868.6A CN114429109B (zh) 2022-04-06 2022-04-06 基于评论有用性的用户评论摘要的方法

Publications (2)

Publication Number Publication Date
CN114429109A true CN114429109A (zh) 2022-05-03
CN114429109B CN114429109B (zh) 2022-07-19

Family

ID=81314413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210354868.6A Active CN114429109B (zh) 2022-04-06 2022-04-06 基于评论有用性的用户评论摘要的方法

Country Status (1)

Country Link
CN (1) CN114429109B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120101808A1 (en) * 2009-12-24 2012-04-26 Minh Duong-Van Sentiment analysis from social media content
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN104331451A (zh) * 2014-10-30 2015-02-04 南京大学 一种基于主题的网络用户评论的推荐度评分方法
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取系统及方法
US20190361987A1 (en) * 2018-05-23 2019-11-28 Ebay Inc. Apparatus, system and method for analyzing review content
US20210027016A1 (en) * 2018-05-16 2021-01-28 Shandong University Of Science And Technology Method for detecting deceptive e-commerce reviews based on sentiment-topic joint probability
US20210133286A1 (en) * 2019-11-05 2021-05-06 Paypal, Inc. Data management using topic modeling
CN112988981A (zh) * 2021-05-14 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于遗传算法的自动标注方法
CN113282704A (zh) * 2021-05-07 2021-08-20 天津科技大学 一种对评论有用性进行判断和筛选的方法与装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120101808A1 (en) * 2009-12-24 2012-04-26 Minh Duong-Van Sentiment analysis from social media content
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN104331451A (zh) * 2014-10-30 2015-02-04 南京大学 一种基于主题的网络用户评论的推荐度评分方法
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取系统及方法
US20210027016A1 (en) * 2018-05-16 2021-01-28 Shandong University Of Science And Technology Method for detecting deceptive e-commerce reviews based on sentiment-topic joint probability
US20190361987A1 (en) * 2018-05-23 2019-11-28 Ebay Inc. Apparatus, system and method for analyzing review content
US20210133286A1 (en) * 2019-11-05 2021-05-06 Paypal, Inc. Data management using topic modeling
CN113282704A (zh) * 2021-05-07 2021-08-20 天津科技大学 一种对评论有用性进行判断和筛选的方法与装置
CN112988981A (zh) * 2021-05-14 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于遗传算法的自动标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JYOTI PRAKASH SINGH ET A.: "Predicting the "helpfulness" of online consumer reviews", 《JOURNAL OF BUSINESS RESEARCH》 *
李璐旸 等: "面向网络文本的信息可信度评估方法研究", 《智能计算机与应用》 *

Also Published As

Publication number Publication date
CN114429109B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
Ignatow et al. Text mining: A guidebook for the social sciences
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
Adedoyin-Olowe et al. A survey of data mining techniques for social media analysis
Syed et al. Associating targets with SentiUnits: a step forward in sentiment analysis of Urdu text
Suleman et al. Extending latent semantic analysis to manage its syntactic blindness
Sun et al. Pre-processing online financial text for sentiment classification: A natural language processing approach
CN111309891B (zh) 一种阅读机器人进行自动问答的系统及其应用方法
Stahl et al. A survey of data mining techniques for social network analysis
Nyaung et al. Feature Based Summarizing and Ranking from Customer Reviews
Shariaty et al. Fine-grained opinion mining using conditional random fields
CN112711666B (zh) 期货标签抽取方法及装置
Flor et al. Text mining and automated scoring
Hassan Designing a flexible system for automatic detection of categorical student sentiment polarity using machine learning
Gutiérrez et al. Sentiment classification using semantic features extracted from WordNet-based resources
JP2021140228A (ja) 広告文自動作成システム
Li et al. Opinion mining of camera reviews based on semantic role labeling
CN114429109B (zh) 基于评论有用性的用户评论摘要的方法
Girju et al. Support vector machines applied to the classification of semantic relations in nominalized noun phrases
CN112507115A (zh) 一种弹幕文本中情感词的分类方法、装置及存储介质
Sahu et al. An Emotion based Sentiment Analysis on Twitter Dataset
Flett et al. Applying taxonomies through auto-classification
Jain et al. SentiGames-A Game Theoretic Approach To Sentiment Analysis
Sukma et al. A Multimodal Discourse Analysis of the Endangered Tigers in WWF Posters
Wu et al. On the Integration of Deep Learning and Fuzzy Methods for Aspect-based Sentiment Analysis
Ishchukova et al. Algorithms for Automated Sentiment Analysis of Posts in Social Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant