CN110827118A - 一种自动分析应用商店中用户评论并推荐给开发者的方法 - Google Patents

一种自动分析应用商店中用户评论并推荐给开发者的方法 Download PDF

Info

Publication number
CN110827118A
CN110827118A CN201910990557.7A CN201910990557A CN110827118A CN 110827118 A CN110827118 A CN 110827118A CN 201910990557 A CN201910990557 A CN 201910990557A CN 110827118 A CN110827118 A CN 110827118A
Authority
CN
China
Prior art keywords
user
comment
recommending
comments
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910990557.7A
Other languages
English (en)
Inventor
陈世展
刘朋立
薛霄
肖建茂
冯志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910990557.7A priority Critical patent/CN110827118A/zh
Publication of CN110827118A publication Critical patent/CN110827118A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种自动分析应用商店中用户评论并推荐给开发者的方法,其技术特点是:收集用户评论数据并进行预处理;对用户评论进行意图分类并建立分类模型;对各个意图分类下的用户评论进行主题分类;将各个主题分类下用户评论进行句子聚类并计算聚类的中心位置;建立评价用户评论优先级的机制并据此计算用户评论综合得分并推荐给软件开发者。本发明通过评论信息进行意图分类、主题分类、句子聚类并结合时序及情感分析来对评论进行处理,得到系统推荐返回的热点top‑k评论,为开发者提供有参考价值的评论内容,从而对应用的开发与维护提供参考,有效地减少了开发者冗余信息的摄入,提升了用户体验,具有分析内容准确可靠、使用方便等特点。

Description

一种自动分析应用商店中用户评论并推荐给开发者的方法
技术领域
本发明属于数据挖掘技术领域,尤其是一种自动分析应用商店中用户评论并推荐给开发者的方法。
背景技术
随着移动互联网和web2.0的繁荣发展,移动应用已经渗透到我们生活中的方方面面,我们的衣食住行都离不开移动应用。应用商店提供了大量的应用程序,应用开发者如果想保持自己的产品具有竞争力,就必须了解用户的需求和用户使用的体验以便改进应用软件。用户可以在应用商店下载、安装应用软件,同时他们也可以在应用商店提交他们对应用程序的使用反馈。
由于应用程序的开发周期相对较短,开发者可以通过用户的评论了解不同用户的不同的需求及用户在使用过程中遇到的问题,从而有针对性的对app进行更新和维护。这些反馈信息可以作为用户和开发者进行沟通的一个重要渠道。但是对于比较流行的应用程序而言,其每天会收到数万条的评论,其中有大量的信息对于开发者是没有价值的。如果这些评论全部需要人工来阅读的话,会消耗大量的人力物力。在这种情况下,如何自动地提取评论中的有效信息变得尤为重要。因此,挖掘评论中的对开发者有用的信息并将热点评论信息推荐给开发者成为软件开发中面临的一个重要问题。
经检索发现,目前现有的一些挖掘用户评论的方法是将用户评论进行分类,结合文本分析、自然语言处理等技术来实现对应用评论进行分类,或将评论分为功能性信息和非功能性信息,或将评论分为用户需求、功能缺陷、功能体验等,这些工作虽然将评论分成不同的类别,但实际都是过滤对开发者没有价值的评论,虽然这些方法能从冗余的评论中提取有效的信息,然而对于一些流行的应用来说,由于评论数较多,分类后的评论仍然是混乱的,并不能直观地为开发者提供有效的建议;另外一些工作在分类的基础上考虑时间和评论长度等因素,将评论分成不同的优先级,然而这种方法只考虑评论文本而未考虑应用商店其他的属性信息,比如评论对用户的有用数,这个指标表达了其他用户对评论的认可度,这时对用户的评论划分优先级会出现问题。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提供一种设计合理、准确可靠且使用方便的自动分析应用商店中用户评论并推荐给开发者的方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种自动分析应用商店中用户评论并推荐给开发者的方法,包括以下步骤:
步骤1、收集用户评论数据并进行预处理;
步骤2、对用户评论进行意图分类并建立分类模型;
步骤3、对各个意图分类下的用户评论进行主题分类;
步骤4、将各个主题分类下用户评论进行句子聚类并计算聚类的中心位置;
步骤5、建立评价用户评论优先级的机制并据此计算用户评论综合得分并推荐给软件开发者。
进一步,所述步骤1采用混淆字典wordmapper对用户评论数据进行预处理。
进一步,所述步骤2首先将意图分类为和app更新与维护方面相关的如下五种类型:信息搜寻、信息给予、功能请求、问题发现和其他,然后使用BERT模型对数据进行训练并得到分类模型。
进一步,所述步骤3的具体实现方法为:首先采用LDA算法对评论进行主题建模,然后,取出对主题贡献率最高的前二十个词作为主题词,将其进行word2vec向量化处理,最后将这些向量进行加权求和,其权重为对主题的贡献率,进而得到每个主题的中心。
进一步,所述步骤4的具体实现方法为:首先将句子进行向量化处理,然后用DBSCAN聚类算法将向量化之后的句子进行聚类,将语义相似的句子聚集在一起并计算聚类中心点。
进一步,所述步骤5建立评价用户评论优先级的机制是依据如下五个方面的因素:用户意图的重要性、用户情感、用户评论时间、评论句子长度和有帮助数量。
进一步,在意图重要性的因素中,意图分类中最重要的是问题发现和功能请求,其次是信息给予和信息搜寻类别。
进一步,在用户情感的因素中,根据用户的情感变化,得到用户在使用app中的情感曲线,出现波谷的前后各一天的评论的权重设置为其他时段的2倍。
进一步,在用户评论时间的因素中,用户的评论的时间距离现在越近,推荐时占的权重越大;在评论句子长度的因素中,评论句子长度越长,推荐时占的权重越大;在有帮助数量因素中,有帮助数越多,推荐时占的权重越大。
本发明的优点和积极效果是:
本发明设计合理,其通过评论信息进行意图分类、主题分类、句子聚类并结合时序及情感分析来对评论进行处理,得到系统推荐返回的热点top-k评论,为开发者提供有参考价值的评论内容,从而对应用的开发与维护提供参考,有效地减少了开发者冗余信息的摄入,提升了用户体验,具有分析内容准确可靠、使用方便等特点。
附图说明
图1为本发明的总体结构图;
图2为本发明中使用的wordmapper字典的部分数据;
图3为本发明中使用的BERT方法分类示意图;
图4为本发明中使用聚类后的示意图;
图5为本发明中的用户评论波动示意图。
具体实施方式
以下结合附图对本发明的实施做进一步详述。
一种自动分析应用商店中用户评论并推荐给开发者的方法,如图1所示,包括以下步骤:
步骤1、收集用户评论数据并进行预处理。
在本步骤中,由于用户通过网络提交的评论一般包含许多噪声数据,例如,拼错的单词、非英文的单词等,这些会影响对数据处理的结果,因此,需要对收集到的评论数据进行数据预处理。
在进行预处理时,创建一个混淆字典wordmapper,其中包含了在评论中常见的拼写错误的单词及其校正后的单词,利用该字典将常见的容易写错的单词进行校正。混淆字典wordmapper的部分内容如图2所示。
步骤2、对用户评论进行意图分类,分类成和app更新与维护方面相关的种类。
在本步骤中,根据用户评论的意图进行分类,在本实施例中,将评论分为信息搜寻、信息给予、功能请求、问题发现和其他五大类,然后使用BERT模型对数据进行训练,得到分类模型。
步骤3、对各个意图分类下的用户评论进行主题分类,从而提高评论的内聚性。
在本步骤中,将评论分成句子粒度,将句子进行向量化表示并进行分类,如图3所示,具体方法为:首先采用LDA算法对评论进行主题建模,然后,取出对主题贡献率最高的前二十个词作为主题词,将其进行word2vec向量化处理,最后将这些向量进行加权求和,其权重为对主题的贡献率,得到每个主题的中心。
进行主题分类后,当有新的句子加入时,我们通过比较该句子到哪个主题中心的距离最近,便将其划归到该主题下。
步骤4、将各个主题分类下用户评论进行句子聚类,并计算聚类的中心位置。
在本步骤中,首先将句子进行向量化处理,然后用DBSCAN聚类算法将向量化之后的句子进行聚类,将语义相似的句子聚集在一起并计算聚类中心点,最后计算出距离聚类中心点,最近的句子将其作为该聚类的表示。聚类结果如图4所示。
步骤5、建立评价用户评论优先级的机制并据此计算用户评论综合得分并推荐给软件开发者。
在本步骤中,需要找到一种合适方式来对挖掘得到的用户评论信息推荐给开发者。对于开发者来说,他们更希望有一种方法:(1)很容易的获取到用户评论的有用信息。(2)正确的理解需要完成的维护任务。(3)哪一个方面的内容是用户最关注的且希望修复的。
为了解决这个问题,本发明制定了一种评价用户评论优先级机制,从而为开发者推荐合理且高效的用户需求建议。建立优先级机制时,需要考虑如下五个方面的因素。
(1)用户意图的重要性:意图分类中最重要的是问题发现和功能请求,因为这更有可能是和APP维护相关的内容,这对于开发者更加重要,其次是信息给予和信息搜寻类别,值得注意的是,由于开发者只关心功能性的评论,所以,意图分类中的其他类别评论我们并不考虑进行评论的优先级排序。
(2)用户情感:用户通常会及时通过评论来表达使用app的即时体验,这些评论信息可以表达用户真实的情感,比如当app出现隐私安全时,用户的情感一般为抱怨,此时表达的是负面的情绪,当app出现新功能是,用户表达的情感一般为正面的,此时的情感得分越高。情感得分越高或者越低(即情感出现波峰或者波谷时),此时更能反映用户的真实意图,如图5所示。我们根据用户的情感变化,得到用户在使用app中的情感曲线,当用户的评论在波谷(即负面情绪集中)时,我们认为此时用户所提出的反馈应该更加具有重要性,我们将出现波谷的前后各一天的评论的权重设置为其他时段的2倍。
(3)用户评论时间:用户的评论的时间距离现在越近,对开发者重要性越大。
(4)评论句子长度:评论句子长度越长,通常越能表达用户的意图信息。
(5)有帮助数量:有帮助数越多,说明越多用户认可该评论观点,推荐时占的权重越大。
最后,计算每个聚类的综合得分,根据最后的得分高低进行排序,得到top-k个热点评论并将top-k评论推荐给开发者。
本发明未述及之处适用于现有技术。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (9)

1.一种自动分析应用商店中用户评论并推荐给开发者的方法,其特征在于包括以下步骤:
步骤1、收集用户评论数据并进行预处理;
步骤2、对用户评论进行意图分类并建立分类模型;
步骤3、对各个意图分类下的用户评论进行主题分类;
步骤4、将各个主题分类下用户评论进行句子聚类并计算聚类的中心位置;
步骤5、建立评价用户评论优先级的机制并据此计算用户评论综合得分并推荐给软件开发者。
2.根据权利要求1所述的一种自动分析应用商店中用户评论并推荐给开发者的方法,其特征在于:所述步骤1采用混淆字典wordmapper对用户评论数据进行预处理。
3.根据权利要求1所述的一种自动分析应用商店中用户评论并推荐给开发者的方法,其特征在于:所述步骤2首先将意图分类为和app更新与维护方面相关的如下五种类型:信息搜寻、信息给予、功能请求、问题发现和其他,然后使用BERT模型对数据进行训练并得到分类模型。
4.根据权利要求1所述的一种自动分析应用商店中用户评论并推荐给开发者的方法,其特征在于:所述步骤3的具体实现方法为:首先采用LDA算法对评论进行主题建模,然后,取出对主题贡献率最高的前二十个词作为主题词,将其进行word2vec向量化处理,最后将这些向量进行加权求和,其权重为对主题的贡献率,进而得到每个主题的中心。
5.根据权利要求1所述的一种自动分析应用商店中用户评论并推荐给开发者的方法,其特征在于:所述步骤4的具体实现方法为:首先将句子进行向量化处理,然后用DBSCAN聚类算法将向量化之后的句子进行聚类,将语义相似的句子聚集在一起并计算聚类中心点。
6.根据权利要求1所述的一种自动分析应用商店中用户评论并推荐给开发者的方法,其特征在于:所述步骤5建立评价用户评论优先级的机制是依据如下五个方面的因素:用户意图的重要性、用户情感、用户评论时间、评论句子长度和有帮助数量。
7.根据权利要求6所述的一种自动分析应用商店中用户评论并推荐给开发者的方法,其特征在于:在意图重要性的因素中,意图分类中最重要的是问题发现和功能请求,其次是信息给予和信息搜寻类别。
8.根据权利要求6所述的一种自动分析应用商店中用户评论并推荐给开发者的方法,其特征在于:在用户情感的因素中,根据用户的情感变化,得到用户在使用app中的情感曲线,出现波谷的前后各一天的评论的权重设置为其他时段的2倍。
9.根据权利要求6所述的一种自动分析应用商店中用户评论并推荐给开发者的方法,其特征在于:在用户评论时间的因素中,用户的评论的时间距离现在越近,推荐时占的权重越大;
在评论句子长度的因素中,评论句子长度越长,推荐时占的权重越大;在有帮助数量因素中,有帮助数越多,推荐时占的权重越大。
CN201910990557.7A 2019-10-18 2019-10-18 一种自动分析应用商店中用户评论并推荐给开发者的方法 Pending CN110827118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910990557.7A CN110827118A (zh) 2019-10-18 2019-10-18 一种自动分析应用商店中用户评论并推荐给开发者的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910990557.7A CN110827118A (zh) 2019-10-18 2019-10-18 一种自动分析应用商店中用户评论并推荐给开发者的方法

Publications (1)

Publication Number Publication Date
CN110827118A true CN110827118A (zh) 2020-02-21

Family

ID=69549510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910990557.7A Pending CN110827118A (zh) 2019-10-18 2019-10-18 一种自动分析应用商店中用户评论并推荐给开发者的方法

Country Status (1)

Country Link
CN (1) CN110827118A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666413A (zh) * 2020-06-09 2020-09-15 重庆邮电大学 基于评论者可信赖度回归预测的商品评论推荐方法
CN112464052A (zh) * 2020-12-22 2021-03-09 游艺星际(北京)科技有限公司 反馈信息的处理方法、显示方法、装置及电子设备
CN112672202A (zh) * 2020-12-28 2021-04-16 广州博冠信息科技有限公司 弹幕处理方法、设备和存储介质
CN113239701A (zh) * 2021-05-07 2021-08-10 京东数字科技控股股份有限公司 数据分析处理方法和装置
CN113781180A (zh) * 2021-09-16 2021-12-10 湖北天天数链技术有限公司 一种物品推荐方法、装置、电子设备及存储介质
CN114741088A (zh) * 2022-04-15 2022-07-12 天津大学 一种基于用户评论和开发者智慧的App源代码链接方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391984A (zh) * 2014-12-11 2015-03-04 南京大学 一种中英文混合的网络用户评论的推荐度评分方法
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
CN109710841A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 评论推荐方法和装置
CN110321562A (zh) * 2019-06-28 2019-10-11 广州探迹科技有限公司 一种基于bert的短文本匹配方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391984A (zh) * 2014-12-11 2015-03-04 南京大学 一种中英文混合的网络用户评论的推荐度评分方法
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
CN109710841A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 评论推荐方法和装置
CN110321562A (zh) * 2019-06-28 2019-10-11 广州探迹科技有限公司 一种基于bert的短文本匹配方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱晓霞;宋嘉欣;孟建芳;: "基于主题―情感挖掘模型的微博评论情感分类研究" *
陈琪等: ""一种基于支持向量机和主题模型的评论分析方法"" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666413A (zh) * 2020-06-09 2020-09-15 重庆邮电大学 基于评论者可信赖度回归预测的商品评论推荐方法
CN112464052A (zh) * 2020-12-22 2021-03-09 游艺星际(北京)科技有限公司 反馈信息的处理方法、显示方法、装置及电子设备
CN112672202A (zh) * 2020-12-28 2021-04-16 广州博冠信息科技有限公司 弹幕处理方法、设备和存储介质
CN113239701A (zh) * 2021-05-07 2021-08-10 京东数字科技控股股份有限公司 数据分析处理方法和装置
CN113781180A (zh) * 2021-09-16 2021-12-10 湖北天天数链技术有限公司 一种物品推荐方法、装置、电子设备及存储介质
CN113781180B (zh) * 2021-09-16 2024-09-06 湖北天天数链技术有限公司 一种物品推荐方法、装置、电子设备及存储介质
CN114741088A (zh) * 2022-04-15 2022-07-12 天津大学 一种基于用户评论和开发者智慧的App源代码链接方法

Similar Documents

Publication Publication Date Title
CN110827118A (zh) 一种自动分析应用商店中用户评论并推荐给开发者的方法
CN111144723B (zh) 人岗匹配推荐方法及系统、存储介质
CN105740228B (zh) 一种互联网舆情分析方法及系统
CN110020422B (zh) 特征词的确定方法、装置和服务器
US9268766B2 (en) Phrase-based data classification system
US11972360B2 (en) Utilizing machine learning models to automatically generate contextual insights and actions based on legal regulations
CN110413780A (zh) 文本情感分析方法、装置、存储介质及电子设备
WO2018040068A1 (zh) 基于知识图谱的语意分析系统及方法
US20150286707A1 (en) Distributed clustering with outlier detection
CN105069103B (zh) App搜索引擎利用用户评论的方法及系统
CN111105209A (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN105378731A (zh) 从被回答问题关联语料库/语料值
US11354608B2 (en) Organization analysis platform for workforce recommendations
KR101953190B1 (ko) 복잡한 양자 또는 다자 상대방 관계를 탐색하기 위해 이용되는 다차원 재귀적 학습 과정 및 시스템
US20180285362A1 (en) Scoring mechanism for discovery of extremist content
CN110188291B (zh) 基于代理日志的文档处理
CN110334180B (zh) 一种基于评论数据的移动应用安全性评估方法
CN110781204A (zh) 目标对象的标识信息确定方法、装置、设备及存储介质
CN111447575A (zh) 短信息推送方法、装置、设备及存储介质
Li et al. Automatic Classification of Review Comments in Pull-based Development Model.
CN109783638A (zh) 一种基于半监督学习的用户评论聚类方法
CN114138977A (zh) 日志处理方法、装置、计算机设备和存储介质
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN113870998A (zh) 问诊方法、装置、电子设备和存储介质
US11216730B2 (en) Utilizing machine learning to perform a merger and optimization operation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200221

RJ01 Rejection of invention patent application after publication