CN114429109B - 基于评论有用性的用户评论摘要的方法 - Google Patents

基于评论有用性的用户评论摘要的方法 Download PDF

Info

Publication number
CN114429109B
CN114429109B CN202210354868.6A CN202210354868A CN114429109B CN 114429109 B CN114429109 B CN 114429109B CN 202210354868 A CN202210354868 A CN 202210354868A CN 114429109 B CN114429109 B CN 114429109B
Authority
CN
China
Prior art keywords
comment
words
topic
emotion
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210354868.6A
Other languages
English (en)
Other versions
CN114429109A (zh
Inventor
高翠芸
臧婧雅
王轩
廖清
罗文坚
刘川意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202210354868.6A priority Critical patent/CN114429109B/zh
Publication of CN114429109A publication Critical patent/CN114429109A/zh
Application granted granted Critical
Publication of CN114429109B publication Critical patent/CN114429109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于评论有用性的自动用户评论摘要的方法,包括依次执行以下步骤:步骤1:预处理;对评论文本进行词形还原;步骤2:评论有用性预测;提取可能会影响评论有用性的特征,用所提取的特征来刻画评论,并使用随机森林分类模型预测评论的有用性;步骤3:基于二元词语的情感‑话题建模;向传统二元词语话题模型中加入情感变量,为评论同时建模话题和情感;步骤4:多要素话题和评论排序。本发明的有益效果是:1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务;2.本发明的方法的话题的排序可以节约开发者的时间。

Description

基于评论有用性的用户评论摘要的方法
技术领域
本发明涉及互联网技术领域,尤其涉及基于评论有用性的用户评论摘要的方法。
背景技术
应用程序的质量直接影响了用户体验并且关系到开发人员的收益。随着越来越多的应用程序兴起,应用程序开发者面临如何从竞品中脱颖而出的难题。用户评论是用户对应用程序使用过后的反馈。这些评论对应用程序版本更新计划有很大的价值,例如修正主要的漏洞、添加重要的功能等。
用户评论挖掘工作在学术界和工业界都有广泛研究,主要集中在用户评论排序、评论分类、预测用户喜欢/不喜欢的方面特征和识别应用程序突发问题。这些领域大多依赖于预定义的类别和大规模人工标注。然而对于热门应用程序,用户评论日增上万,标注这些评论是否是有信息的很耗时,因此亟需对评论自动摘要。目前评论摘要工作的挑战主要在于用户评论较短且包含大量文本噪音,大约只有30%的评论是有信息价值的,评论中包含很多话题,这些话题难以被预定义。
以往工作忽略了一些重要的评论特征,例如其他用户对某一条评论的支持数。有效利用这些额外特征可以辅助于评论有用性预测,辅助后续的排序摘要任务。此外,并不是所有的话题都需要开发者深入研究,以往的工作忽略了对话题的排序,而话题排序同样可以节约开发者的时间。
发明内容
本发明提供了一种基于评论有用性的用户评论摘要的方法,包括依次执行以下步骤:
步骤1:预处理;对评论文本进行词形还原。
步骤2:评论有用性预测;提取可能会影响评论有用性的特征,用所提取的特征来刻画评论,并使用随机森林分类模型预测评论的有用性。
步骤3:基于二元词语的情感-话题建模;向传统二元词语话题模型中加入情感变量,为评论同时建模话题和情感。
步骤4:多要素话题和评论排序。
作为本发明的进一步改进,在所述步骤1中,对评论文本进行词形还原,包括删除重复单词,英文字母转化为小写。
作为本发明的进一步改进,在所述步骤2中,提取的可能会影响评论有用性的特征包括文体特征、可读性特征、词汇特征、情感特征、内容特征。
作为本发明的进一步改进,在所述步骤2中,所述文体特征、可读性特征、词汇特征、情感特征、内容特征具体如下:
Figure 593258DEST_PATH_IMAGE001
作为本发明的进一步改进,在所述步骤3中,还包括执行以下步骤:步骤30:用无监督模型BST同时建模话题和情感。
步骤31:对每一个二元词语b,BST模型建模它在词汇表和情感极性上的话题分布;
步骤32:利用话题得分和评论得分实现对话题和评论联合排序。
作为本发明的进一步改进,在所述步骤30中,包括:
步骤S1:构建一个情感分布
Figure 182502DEST_PATH_IMAGE002
步骤S2:针对每一个情感极性
Figure 227819DEST_PATH_IMAGE003
为情感极性
Figure 324826DEST_PATH_IMAGE003
构建一个话题分布
Figure 608039DEST_PATH_IMAGE004
步骤S3:对每一个话题
Figure 696081DEST_PATH_IMAGE005
为情感极性
Figure 166377DEST_PATH_IMAGE003
和话题
Figure 630856DEST_PATH_IMAGE005
构建一个单词分布
Figure 502997DEST_PATH_IMAGE006
步骤S4:对二元词集合
Figure 965202DEST_PATH_IMAGE007
中的每一个二元词语
Figure 985111DEST_PATH_IMAGE008
选择一个情感极性
Figure 925385DEST_PATH_IMAGE009
选择一个话题
Figure 917612DEST_PATH_IMAGE010
对于二元词语中的每一个词
Figure 613036DEST_PATH_IMAGE011
选择一个服从于分布的单词,即
Figure 323503DEST_PATH_IMAGE012
,其中
Figure 566003DEST_PATH_IMAGE013
Figure 412736DEST_PATH_IMAGE014
分别代表 情感极性和话题。
作为本发明的进一步改进,在所述步骤S31中,每条评论的情感-话题分布计算如下:
Figure 216744DEST_PATH_IMAGE015
Figure 414507DEST_PATH_IMAGE016
Figure 758901DEST_PATH_IMAGE017
其中z,l,r,b分别代表话题、情感、评论和二元词语,
Figure 460141DEST_PATH_IMAGE018
是二元词语b在评论r 中出现的频率;得到评论r 的话题分布
Figure 700629DEST_PATH_IMAGE019
Figure 916847DEST_PATH_IMAGE020
评论r的情感分布
Figure 268194DEST_PATH_IMAGE021
Figure 823940DEST_PATH_IMAGE022
作为本发明的进一步改进,在所述步骤4中,多要素话题排序是对每一个话题
Figure 32067DEST_PATH_IMAGE005
,从 话题比重、话题情感、平均打分、新颖度方面计算得分,计算公式如下:
Figure 437379DEST_PATH_IMAGE023
其中
Figure 61258DEST_PATH_IMAGE024
是对每一个话题的评分方面,
Figure 799407DEST_PATH_IMAGE025
是对每一个方面
Figure 116119DEST_PATH_IMAGE026
的权重;
话题z的话题比重计算如下:
Figure 306929DEST_PATH_IMAGE027
其中
Figure 78DEST_PATH_IMAGE028
是评论集合,
Figure 264837DEST_PATH_IMAGE029
是情感标签;
话题z的话题情感计算如下:
Figure 814767DEST_PATH_IMAGE030
其中是评论集合,
Figure 696136DEST_PATH_IMAGE029
是情感标签,1,2,3代表负向、中立和正向;
话题z的话平均打分计算如下:
Figure 927397DEST_PATH_IMAGE031
其中
Figure 374559DEST_PATH_IMAGE028
是评论集合,
Figure 33073DEST_PATH_IMAGE032
是用户对评论
Figure 634694DEST_PATH_IMAGE033
的评分;
话题z的新颖度计算如下:
Figure 466383DEST_PATH_IMAGE034
其中
Figure 971314DEST_PATH_IMAGE028
是评论集合,
Figure 800730DEST_PATH_IMAGE035
是评论r发表时间。
作为本发明的进一步改进,在所述步骤1中,评论排序是对每一个评论
Figure 453428DEST_PATH_IMAGE036
,从用户打 分,新颖度,情感极性,评论长度,话题方面计算得分,计算公式如下:
Figure 26492DEST_PATH_IMAGE037
其中
Figure 385929DEST_PATH_IMAGE038
是对每一个评论的评分方面,
Figure 448563DEST_PATH_IMAGE025
是对每一个方面
Figure 260661DEST_PATH_IMAGE026
的权重。
评论r的用户打分计算如下:
Figure 699733DEST_PATH_IMAGE039
其中
Figure 179256DEST_PATH_IMAGE032
是用户对评论
Figure 350474DEST_PATH_IMAGE033
的评分;
评论r的新颖度计算如下:
Figure 712185DEST_PATH_IMAGE040
其中
Figure 391166DEST_PATH_IMAGE035
是评论r发表时间;
评论r的情感极性计算如下:
Figure 459616DEST_PATH_IMAGE041
Figure 864053DEST_PATH_IMAGE042
Figure 916322DEST_PATH_IMAGE043
其中1,2,3代表情感负向、中立和正向;
评论r的评论长度计算如下:
Figure 369300DEST_PATH_IMAGE044
其中
Figure 620153DEST_PATH_IMAGE045
是用户评论
Figure 133174DEST_PATH_IMAGE033
中的单词数;
评论r的话题计算如下:
Figure 672740DEST_PATH_IMAGE046
其中
Figure 991726DEST_PATH_IMAGE047
是评论r属于话题z的概率,
Figure 300347DEST_PATH_IMAGE048
是每个话题z的得分。
本发明的有益效果是:1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务;2.本发明的方法的话题的排序可以节约开发者的时间。
附图说明
图1是本发明BST模型图;
图2是本发明方法流程图。
具体实施方式
如图1所示,本发明公开了一种基于评论有用性的用户评论摘要的方法,本方法主要包含三个模块:评论有用性预测模块、话题-情感摘要模块和多要素排序模块。评论有用性预测模块用于评价一条评论是否对开发者有用,话题-情感摘要模块将有用的评论按照话题分类并同时预测关联情感,多要素排序模块为每个话题下的评论按照语义代表性排序。
本发明具体步骤如下:
1.预处理
对评论文本进行词形还原,删除重复单词,英文字母转化为小写。
2.评论有用性预测
提取20类可能会对影响评论有用性的特征,如下表:
Figure 984269DEST_PATH_IMAGE001
本方法用以上20维的特征来刻画一条评论,并使用随机森林分类模型预测评论的有用性。
3.基于二元词语的情感-话题建模
本方法提出一个无监督模型BST同时建模话题和情感,算法流程如下,模型图如图1。
BST算法流程:
构建一个情感分布
Figure 542290DEST_PATH_IMAGE002
针对每一个情感极性
Figure 101185DEST_PATH_IMAGE003
:
为情感极性
Figure 264313DEST_PATH_IMAGE003
构建一个话题分布
Figure 384716DEST_PATH_IMAGE004
对每一个话题
Figure 898874DEST_PATH_IMAGE005
为情感极性
Figure 762924DEST_PATH_IMAGE003
和话题
Figure 577297DEST_PATH_IMAGE005
构建一个单词分布
Figure 868601DEST_PATH_IMAGE006
对二元词集合
Figure 604476DEST_PATH_IMAGE007
中的每一个二元词语
Figure 68955DEST_PATH_IMAGE008
选择一个情感极性
Figure 675517DEST_PATH_IMAGE009
选择一个话题
Figure 200039DEST_PATH_IMAGE010
对于二元词语中的每一个词
Figure 945183DEST_PATH_IMAGE011
选择一个服从于分布的单词,即
Figure 885457DEST_PATH_IMAGE012
,其中
Figure 674421DEST_PATH_IMAGE013
Figure 307528DEST_PATH_IMAGE014
分别代表 情感极性和话题。
对每一个二元词语b,BST模型建模它在词汇表和情感极性上的话题分布,每条评论的情感-话题分布计算如下:
Figure 752416DEST_PATH_IMAGE015
Figure 558698DEST_PATH_IMAGE016
Figure 405431DEST_PATH_IMAGE017
其中z,l,r,b分别代表话题、情感、评论和二元词语,
Figure 209439DEST_PATH_IMAGE018
是二元词语b在评论r 中出现的频率。因此我们可以得到评论r 的话题分布
Figure 203940DEST_PATH_IMAGE049
评论r的情感分布
Figure 751596DEST_PATH_IMAGE050
Figure 452836DEST_PATH_IMAGE051
4.多要素话题和评论排序
排序分为话题排序和评论排序两个部分。
4.1话题排序是对每一个话题
Figure 224482DEST_PATH_IMAGE005
,从四个方面计算得分:话题比重,话题情感,平均 打分,新颖度,计算公式如下:
Figure 408077DEST_PATH_IMAGE023
其中
Figure 493845DEST_PATH_IMAGE024
是对每一个话题的评分方面,
Figure 315170DEST_PATH_IMAGE025
是对每一个方面
Figure 523297DEST_PATH_IMAGE026
的权重。
话题z的话题比重计算如下:
Figure 430074DEST_PATH_IMAGE027
其中
Figure 53953DEST_PATH_IMAGE028
是评论集合,
Figure 792102DEST_PATH_IMAGE029
是情感标签。
话题z的话题情感计算如下:
Figure 108814DEST_PATH_IMAGE030
其中是评论集合,
Figure 237307DEST_PATH_IMAGE029
是情感标签,1,2,3代表负向、中立和正向。
话题z的话平均打分计算如下:
Figure 727194DEST_PATH_IMAGE031
其中
Figure 257532DEST_PATH_IMAGE028
是评论集合,
Figure 807462DEST_PATH_IMAGE032
是用户对评论
Figure 187366DEST_PATH_IMAGE033
的评分。
话题z的新颖度计算如下:
Figure 153048DEST_PATH_IMAGE034
其中
Figure 803472DEST_PATH_IMAGE028
是评论集合,
Figure 524303DEST_PATH_IMAGE035
是评论r发表时间。
4.2评论排序是对每一个评论
Figure 627389DEST_PATH_IMAGE036
,从五个方面计算得分:用户打分,新颖度,情感极 性,评论长度,话题,计算公式如下:
Figure 459078DEST_PATH_IMAGE037
其中是对每一个评论的评分方面,
Figure 964009DEST_PATH_IMAGE025
是对每一个方面的权重。
评论r的用户打分计算如下:
Figure 793425DEST_PATH_IMAGE039
其中
Figure 446123DEST_PATH_IMAGE032
是用户对评论
Figure 19187DEST_PATH_IMAGE033
的评分。
评论r的新颖度计算如下:
Figure 378624DEST_PATH_IMAGE040
其中
Figure 441258DEST_PATH_IMAGE035
是评论r发表时间。
评论r的情感极性计算如下:
Figure 751891DEST_PATH_IMAGE041
Figure 394225DEST_PATH_IMAGE042
Figure 670486DEST_PATH_IMAGE043
其中1,2,3代表情感负向、中立和正向。
评论r的评论长度计算如下:
Figure 841704DEST_PATH_IMAGE044
其中
Figure 203415DEST_PATH_IMAGE045
是用户评论
Figure 118282DEST_PATH_IMAGE033
中的单词数。
评论r的话题计算如下:
Figure 452311DEST_PATH_IMAGE046
其中
Figure 856748DEST_PATH_IMAGE047
是评论r属于话题z的概率,
Figure 909017DEST_PATH_IMAGE048
是每个话题z的得分。
利用话题得分
Figure 361995DEST_PATH_IMAGE048
和评论得分
Figure 612848DEST_PATH_IMAGE052
实现对话题和评论联合排序。
本发明的有益效果:1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务;2.本发明的方法的话题的排序可以节约开发者的时间。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种基于评论有用性的用户评论摘要的方法,其特征在于,包括依次执行以下步骤:
步骤1:预处理;对评论文本进行词形还原;
步骤2:评论有用性预测;提取会影响评论有用性的特征,用所提取的特征来刻画评论,并使用随机森林分类模型预测评论的有用性;
步骤3:基于二元词语的情感-话题建模;向传统二元词语话题模型中加入情感变量,为评论同时建模话题和情感;
步骤4:多要素话题和评论排序;
在所述步骤3中,还包括执行以下步骤:
步骤30:用无监督模型BST同时建模话题和情感;
步骤31:对每一个二元词语b,BST模型建模它在词汇表和情感极性上的话题分布;
步骤32:利用话题得分和评论得分实现对话题和评论联合排序;
在所述步骤31中,每条评论的情感-话题分布计算如下:
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE006
其中z,l,r,b分别代表话题、情感、评论和二元词语,
Figure DEST_PATH_IMAGE008
是二元词语b在评论r中出现的频率;
得到评论r 的话题分布
Figure DEST_PATH_IMAGE010
k代表给定情感l下的话题k;
评论r的情感分布
Figure DEST_PATH_IMAGE014
, 1,2,3分别代表情感负向、中立和正向。
2.根据权利要求1所述的方法,其特征在于,在所述步骤1中,对评论文本进行词形还原,包括删除重复单词,英文字母转化为小写。
3.根据权利要求1所述的方法,其特征在于,在所述步骤2中,提取的会影响评论有用性的特征包括文体特征、可读性特征、词汇特征、情感特征、内容特征。
4.根据权利要求3所述的方法,其特征在于,在所述步骤2中,所述文体特征、可读性特征、词汇特征、情感特征、内容特征具体如下:
特征类别为文体特征,文体特征所对应的特征名称包括:评论长度、句子数、平均句子长度、单字符单词数、双字符单词数、大于2字符单词数,评论长度的含义是评论中的单词数目,句子数的含义是评论中的句子数目,平均句子长度的含义是每句话的平均单词数目,单字符单词数的含义是由一个字符组成的单词所占的百分比,双字符单词数的含义是由两个字符组成的单词所占的百分比,大于2字符单词数的含义是由大于两个字符组成的单词所占的百分比;
特征类别为可读性特征,可读性特征所对应的特征名称包括:难理解的单词数、Flesch、Dale-chall、拼写错误单词数,难理解的单词数的含义是难理解的单词的数目,Flesch的含义是一种量化文本可读性的指标,
Flesch=206.835-1.105(单词数/句子数)-84.6(音节数/单词数),Dale-chall的含义是一种量化文本可读性的指标,dale-chall=0.16(难理解单词数/句子数)+0.05(单词数/句子数),拼写错误单词数的含义是拼写错误的单词的数目;
特征类别为词汇特征,词汇特征所对应的特征名称包括:名词数、动词数、形容词数、主观词语数、词汇多样性,名词数的含义是评论中的名词个数,动词数的含义是评论中的动词个数,形容词数的含义是评论中的形容词个数,主观词语数的含义是评论中的主观词语个数,词汇多样性的含义是评论中只出现一次的词语的比例;
特征类别为情感特征,情感特征所对应的特征名称包括:情感极性、情感词数、极端评分,情感极性的含义是正向、负向、中立,极性=(正向单词数-负向单词数)/单词数,情感词数的含义是观点词语的比例,极端评分的含义是与平均打分有差异的评分,极端评分=||评分-平均评分||;
特征类别为内容特征,内容特征所对应的特征名称包括:质量相关的单词数、不确定度、一元文法的词频-逆文档频率,质量相关的单词数的含义是与质量相关的单词数目,不确定度的含义是不确定含义的单词的个数,一元文法的词频-逆文档频率的含义是评论中每个词的词频-逆文档频率。
5.根据权利要求1所述的方法,其特征在于,在所述步骤30中,包括:
步骤S1:构建一个情感分布
Figure DEST_PATH_IMAGE018
步骤S2:针对每一个情感极性
Figure DEST_PATH_IMAGE020
为情感极性
Figure 54180DEST_PATH_IMAGE020
构建一个话题分布
Figure DEST_PATH_IMAGE022
步骤S3:对每一个话题
Figure DEST_PATH_IMAGE024
为情感极性
Figure 564796DEST_PATH_IMAGE020
和话题
Figure 610112DEST_PATH_IMAGE024
构建一个单词分布
Figure DEST_PATH_IMAGE026
步骤S4:对二元词集合
Figure DEST_PATH_IMAGE028
中的每一个二元词语
Figure DEST_PATH_IMAGE030
选择一个情感极性
Figure DEST_PATH_IMAGE032
选择一个话题
Figure DEST_PATH_IMAGE034
对于二元词语中的每一个词
Figure DEST_PATH_IMAGE036
选择一个服从于分布的单词,即
Figure DEST_PATH_IMAGE038
,其中
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
分别代表情感极性和话题。
6.根据权利要求1所述的方法,其特征在于,在所述步骤4中,多要素话题排序是对每一个话题
Figure 284283DEST_PATH_IMAGE024
,从话题比重、话题情感、平均打分、新颖度方面计算得分,计算公式如下:
Figure DEST_PATH_IMAGE044
其中
Figure DEST_PATH_IMAGE046
是对每一个话题的评分方面,
Figure DEST_PATH_IMAGE048
是对每一个方面
Figure DEST_PATH_IMAGE050
的权重;
话题z的话题比重计算如下:
Figure DEST_PATH_IMAGE052
其中
Figure DEST_PATH_IMAGE054
是评论集合,
Figure DEST_PATH_IMAGE056
是情感;
话题z的话题情感计算如下:
Figure DEST_PATH_IMAGE058
其中
Figure 177284DEST_PATH_IMAGE054
是评论集合,
Figure 265325DEST_PATH_IMAGE056
i是情感标签,1,2,3代表负向、中立和正向;
话题z的话平均打分计算如下:
Figure DEST_PATH_IMAGE060
其中
Figure 636088DEST_PATH_IMAGE054
是评论集合,
Figure DEST_PATH_IMAGE062
是用户对评论
Figure DEST_PATH_IMAGE064
的评分;
话题z的新颖度计算如下:
Figure DEST_PATH_IMAGE066
其中
Figure 225201DEST_PATH_IMAGE054
是评论集合,
Figure DEST_PATH_IMAGE068
是评论r发表时间。
7.根据权利要求6所述的方法,其特征在于,在所述步骤1中,评论排序是对每一个评论
Figure DEST_PATH_IMAGE070
,从用户打分,新颖度,情感极性,评论长度,话题方面计算得分,计算公式如下:
Figure DEST_PATH_IMAGE072
其中
Figure DEST_PATH_IMAGE074
是对每一个评论的评分方面,
Figure 51337DEST_PATH_IMAGE048
是对每一个方面
Figure 310280DEST_PATH_IMAGE050
的权重;
评论r的用户打分计算如下:
Figure DEST_PATH_IMAGE076
其中
Figure 658085DEST_PATH_IMAGE062
是用户对评论
Figure 159211DEST_PATH_IMAGE064
的评分;
评论r的新颖度计算如下:
Figure DEST_PATH_IMAGE078
其中
Figure 10492DEST_PATH_IMAGE068
是评论r发表时间;
评论r的情感极性计算如下:
Figure DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE084
其中1,2,3代表情感负向、中立和正向;
评论r的评论长度计算如下:
Figure DEST_PATH_IMAGE086
其中
Figure DEST_PATH_IMAGE088
是用户评论
Figure 456648DEST_PATH_IMAGE064
中的单词数;
评论r的话题计算如下:
Figure DEST_PATH_IMAGE090
其中
Figure DEST_PATH_IMAGE092
是评论r属于话题z的概率,
Figure DEST_PATH_IMAGE094
是每个话题z的得分。
CN202210354868.6A 2022-04-06 2022-04-06 基于评论有用性的用户评论摘要的方法 Active CN114429109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210354868.6A CN114429109B (zh) 2022-04-06 2022-04-06 基于评论有用性的用户评论摘要的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210354868.6A CN114429109B (zh) 2022-04-06 2022-04-06 基于评论有用性的用户评论摘要的方法

Publications (2)

Publication Number Publication Date
CN114429109A CN114429109A (zh) 2022-05-03
CN114429109B true CN114429109B (zh) 2022-07-19

Family

ID=81314413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210354868.6A Active CN114429109B (zh) 2022-04-06 2022-04-06 基于评论有用性的用户评论摘要的方法

Country Status (1)

Country Link
CN (1) CN114429109B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取系统及方法
CN113282704A (zh) * 2021-05-07 2021-08-20 天津科技大学 一种对评论有用性进行判断和筛选的方法与装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9201863B2 (en) * 2009-12-24 2015-12-01 Woodwire, Inc. Sentiment analysis from social media content
CN104331451B (zh) * 2014-10-30 2017-12-26 南京大学 一种基于主题的网络用户评论的推荐度评分方法
CN108874768B (zh) * 2018-05-16 2019-04-16 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
US20190361987A1 (en) * 2018-05-23 2019-11-28 Ebay Inc. Apparatus, system and method for analyzing review content
US11550999B2 (en) * 2019-11-05 2023-01-10 Paypal, Inc. Data management using topic modeling
CN112988981B (zh) * 2021-05-14 2021-10-15 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于遗传算法的自动标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取系统及方法
CN113282704A (zh) * 2021-05-07 2021-08-20 天津科技大学 一种对评论有用性进行判断和筛选的方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Predicting the "helpfulness" of online consumer reviews;Jyoti Prakash Singh et a.;《Journal of Business Research》;20171231;第1-34页 *
面向网络文本的信息可信度评估方法研究;李璐旸 等;《智能计算机与应用》;20131031;第3卷(第5期);第31-34、38页 *

Also Published As

Publication number Publication date
CN114429109A (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
US10133733B2 (en) Systems and methods for an autonomous avatar driver
Syed et al. Associating targets with SentiUnits: a step forward in sentiment analysis of Urdu text
Suleman et al. Extending latent semantic analysis to manage its syntactic blindness
Wang et al. A knowledge adoption model based framework for finding helpful user-generated contents in online communities
CN111309891B (zh) 一种阅读机器人进行自动问答的系统及其应用方法
Valsamidis et al. A framework for opinion mining in blogs for agriculture
Amali et al. Classification of cyberbullying Sinhala language comments on social media
Nyaung et al. Feature Based Summarizing and Ranking from Customer Reviews
Guo et al. Local government debt risk assessment: A deep learning-based perspective
Khan et al. Using Machine Learning Techniques for Subjectivity Analysis based on Lexical and Nonlexical Features.
Flor et al. Text mining and automated scoring
CN112711666B (zh) 期货标签抽取方法及装置
Gutiérrez et al. Sentiment classification using semantic features extracted from WordNet-based resources
Neviarouskaya et al. Intelligent interface for textual attitude analysis
CN114429109B (zh) 基于评论有用性的用户评论摘要的方法
JP2021140228A (ja) 広告文自動作成システム
Li et al. Opinion mining of camera reviews based on semantic role labeling
Gobin-Rahimbux et al. KreolStem: A hybrid language-dependent stemmer for Kreol Morisien
CN112507115A (zh) 一种弹幕文本中情感词的分类方法、装置及存储介质
Sahu et al. An Emotion based Sentiment Analysis on Twitter Dataset
Sukma et al. A Multimodal Discourse Analysis of the Endangered Tigers in WWF Posters
Jain et al. SentiGames-A Game Theoretic Approach To Sentiment Analysis
Heamida et al. Applying sentiment analysis on Arabic comments in sudanese dialect
CN111611392B (zh) 综合多特征和投票策略的教育资源引用分析方法、系统及介质
CN116226677B (zh) 平行语料构建方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant