CN105488206B - 一种基于众包的安卓应用演化推荐方法 - Google Patents

一种基于众包的安卓应用演化推荐方法 Download PDF

Info

Publication number
CN105488206B
CN105488206B CN201510916068.9A CN201510916068A CN105488206B CN 105488206 B CN105488206 B CN 105488206B CN 201510916068 A CN201510916068 A CN 201510916068A CN 105488206 B CN105488206 B CN 105488206B
Authority
CN
China
Prior art keywords
feature
app
emotion
comment
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510916068.9A
Other languages
English (en)
Other versions
CN105488206A (zh
Inventor
孙小兵
夏海婷
李斌
李云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN201510916068.9A priority Critical patent/CN105488206B/zh
Publication of CN105488206A publication Critical patent/CN105488206A/zh
Application granted granted Critical
Publication of CN105488206B publication Critical patent/CN105488206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于众包的安卓应用演化推荐方法。本发明提取用户对该应用的评论,基于AR‑MINER工具,对有用的用户评论中词语进行预处理,基于情感‑方面‑地区模型进行分析,得到关于用户的特征诉求并提取,计算特征诉求中关键字出现的频率进行概率计算,找出关心的特征以及要求,提取同类APP的特征,利用LDA主题模型产生特征关键字,找出共有特征,利用SAR模型的概率值以及特征出现频率概率值,结合Top‑n在线推荐算法推荐出n个最优的修改意见,进行排序推荐。本发明克服了没有考虑交互性的缺陷。本发明提取了市场中同类软件的情感‑方面‑地区用户评论,据此推荐可更好地保障APP保持市场竞争力。

Description

一种基于众包的安卓应用演化推荐方法
技术领域
本发明属于软件维护领域,特别涉及一种基于众包的安卓应用演化推荐方法。
背景技术
Android系统的开放性使其在很短的时间内迅速发展,成为全球市场占有率首位的智能移动终端操作系统。它的使用涵盖了智能手机、平板电脑、电视机顶盒以及其他嵌入式便携电子设备。随之而来的是App的迅速发展,近年来,Android市场的App以一种不可控制的速度增长着,用户对于高质量的App的需求也不断增加,而且Android应用的演化和升级速度比传统的软件来的更快,开发者如何能够满足广大用户的需求,仅仅依靠开发团队的创新,或者基于代码本身的结构改进,已经不能在App市场中脱颖而出,为此,如何从市场和用户的角度提供更高效的修改推荐,来帮助开发者及时修改以及发布新的版本是每个Android应用开发商比较关心的问题。
在本发明作出之前,已经有的推荐方法如基于用户的协同过滤技术(CF),基于评估分数的矩阵分解推荐技术(GEFM)等,类似于这样推荐的技术有的只考虑了单个因素,有的考虑的因素不全面。例如CF技术没有考虑到地理信息,他的思想只是根据相似性进行推荐,最终还是会蜕变成搜索算法。GEFM技术最佳但是推荐仍没有考虑到交互性,它是一种对传统的矩阵分解的SVD方法的一种优化,效果好但是仍然没有考虑交互性,在App更新发展的过程中,用户与产品的交互如果缺少考虑,我们更新后的产品再应用到用户中的效果将大大降低。
发明内容
本发明的目的就在于克服上述缺陷,研制一种基于众包的安卓应用演化推荐方法。
本发明的技术方案是:
一种基于众包的安卓应用演化推荐方法,其步骤在于:
步骤1)首先从移动应用市场的某个Android应用中提取用户对该应用的评论,然后基于AR-MINER工具,过滤无用的评论,得到有用的用户评论集;
步骤2)使用自然语言预处理技术对有用的用户评论中的词语进行预处理,去除一些无用的词语;
步骤3)基于情感-方面-地区模型,对评论中的情感,方面,地区进行分析,得到关于用户感情,方面以及地区的有效评论的特征诉求;
步骤4)提取多数用户对App的特征诉求,根据步骤3)中获得的有效的评论特征诉求,计算特征诉求中关键字出现的频率并进行概率计算,找出其中多数人评论中关心的特征以及要求;
步骤5)针对与当前APP同类的其他App,根据同类App的特征描述进行分析,利用LDA主题模型产生特征关键字,通过计算其关键字的出现频率值,找出多数App共有的特征;
步骤6)排序,综合情感,方面,地区,多数用户对App的特征诉求,利用SAR模型的概率值以及特征出现频率概率值,结合Top-n在线推荐算法推荐出n个最优的修改意见;进行同类App推荐时,通过同类App的特征关键字根据步骤5)中特征关键字概率进行排序推荐。
其特征在于步骤1)中,通过爬取应用商店里面我们所需要修改的App的所有评论,基于AR-MINER工具,检索出所有有用的评论。
其特征在于步骤2)中使用NLP技术的预处理过程:
a)托肯化:去除标点符号,去除数字;
b)去除停用词、连词、修饰词。
其特征在于步骤3)中对于用户评论中情感,地区,特征的提取:
a)情感:通过预定义的情感集,语义分析器判断出句子的极性,语义分析器包括预先定义的一些关于情感的词语,极性分为good和not good两种,这里主要取包含not good情感的评论;
b)地区:通过基于坐标的K-means算法,通过聚类过程得出评论中的用户地理位置,取出这些用户需求的地理位置;
c)方面:通过基于句子层次的K-means算法,给每个句子一个相关的方面,最后获取所有评论中的用户对于信息点的感受。
其特征在于步骤4)中获取多数用户对App的特征诉求,通过计算步骤3)中关键字出现的频率:
(相同关键字出现的频率)/关键字总数。
其特征在于步骤5)提取同类App的特征:通过对同类App的特征描述进行LDA主题分析,LDA是用来挖掘语义的,提取主题的一个模型并给每个描述的句子一个主题,并且通过分析大多数同类App的特征,通过公式计算其特征关键字出现的概率,推荐时我们根据其频率大小进行排序推荐,
(相同关键字出现的频率)/关键字总数。
其特征在于步骤6)的排序:若开发者选择从用户评论进行排序,综合情感,方面,地区,多数用户对App的特征诉求,将情感-方面-地区模型中的推荐概率计算和关键字出现频率计算以及同类App的特征概率结合起来:
p1指SAR模型的推荐概率:
即表示用户u在情感,方面,地区这三方面不喜欢APP t的概率;其中,t,s_,u,r,a,ct分别代表APP,负面情感,用户,地区,APP的方面以及APP的种类;
p2指关键字出现频率:
(相同关键字出现的频率)/关键字总数
最终我们根据线性关系相结合:
p=αp1+βp2
(α,β是输入参数权重)。
本发明的优点和效果在于提出了一种基于Android应用生态系统演化的App维护推荐模型,可以向Android开发者作出关于App修改分析的有效推荐,提高APP应用演化的质量和效率。主要有以下一些优点:
(1)考虑了情感的因素,我们从用户情感出发,目前的推荐修改技术很多,但是还没有从用户情感出发的,本发明从用户情感出发,会更加贴近用户的真实感受。
(2)考虑了地区的因素,地区在App发展中也起到可观的作用,而这一因素常常被人忽视,因此我们的技术扣住了地区,更加高效分析了App评论。
(3)考虑了市场的因素,App最终的发展状况是根据市场情况来判断的,因此我们的技术提取了市场中同类软件的用户评论,这样的推荐可更好地保障APP保持市场竞争力。
附图说明
图1——本发明的总体流程示意图。
图2——提取的部分用户评论示意图。
图3——AR-MINER过滤后的用户评论示意图。
图4——过滤后的评论初始化后的结果示意图。
图5——SAR分析过后的评论示意图。
图6——同类App的特征提取示意图。
图7——根据用户评论排序后推荐的结果示意图。
图8——本发明根据同类App特征排序后推荐的结果示意图。
具体实施方式
本发明的技术思路是:
本发明提出user-review-app-developer,即从用户出发,研究用户的评论,应用到app本身中去,推荐给开发者进行修改。我们从用户情感,方面,地区出发,考虑用户的因素;另外,也考虑同类型软件的功能和评论,考虑了市场的因素。这种综合各个方面的分析更有利于促进开发者高效率更新,充分利用了用户评论的价值和市场的价值。
下面根据附图进一步说明本发明。
步骤1)我们首先从移动应用市场的Android应用中提取用户对该应用的评论,然后基于AR-MINER工具,将评论分为有用和无用的两类,我们主要选择有用的评论。我们此处所举的例子为“知乎”,在图(2)中,比如我们提取的两个评论,“经常一刷就是一晚上啊”和“什么鬼啊”,AR-MINER将会过滤掉这两个评论,而像“虚拟键盘去掉就好了”和“不知道為什麽個人簡介無法改性别”这两个评论,我们将会保留。最终处理的结果如图(3),经过AR-MINER处理后,我们获得用户的有用的评论集,方便了后面的处理过程。
步骤2)预处理如上过滤后的评论中没用的词语。我们使用自然语言预处理技术(NLP)的托肯化和去除停用词(stopping)技术来去除无用的词语。a)托肯化:去除标点符号(比如“@”,“?”),去除数字(比如“1”,“23”)等。b)去除停用词(stopping):去除中文停用词,比如语气词“啊”,“唉”;连词“并且”,“不但”;修饰词“很”,“基本”,“几乎”等。在图(4)中我们可以看到预处理后的结果,两步操作之后,我们获得了预处理后的文档。
步骤3)基于情感-方面-地区模型(SAR模型)对评论中的情感,方面,地区进行分析,得到关于用户感情,方面以及地区的有效评论的特征诉求,主要过程有:a)情感我们通过预定义的情感集,通过语义分析器判断出句子极性,这里我们主要取包含不好的情感的评论。b)地区我们主要通过基于坐标的K-means算法,通过聚类过程判断在某个地区是否有相关App。c)方面我们通过基于句子层次的K-means算法,给每个句子一个相关的方面,最后获取所有评论中的用户对于信息点的感受。我们在对预处理后的结果进行SAR分析后,结果见图(5),这形成了我们做出修改推荐的基础。
步骤4)提取多数用户对App的特征诉求。我们根据步骤(3)中获得的有效的评论特征诉求,我们通过计算特征诉求中关键字出现的频率进行概率计算,找出其中多数人评论中关心的特征以及要求。
(相同关键字出现的频率)/关键字总数
步骤5)针对与当前APP同类的其他App,我们根据同类App的特征描述进行分析,利用LDA主题模型产生特征关键字,通过计算其关键字的出现频率值,找出多数App共有的特征。我们在知乎所在的类别社交里面选择了部分同类的App描述进行分析,并计算出了概率,结果如图(6)所示,我们选择了易信,陌陌,Google+分析出了他们的特征,方便开发者从同类App这一方面进行修改。
(相同关键字出现的频率)/关键字总数
步骤6)排序。综合情感,方面,地区,多数用户对App的特征诉求以及同类App的特征,我们利用SAR模型的概率值以及特征出现频率概率值,结合Top-n在线推荐算法对其排序,将SAR模型中的推荐概率计算和关键字出现频率计算以及同类App的特征概率结合起来。
p1指SAR模型的推荐概率:
即表示用户u在情感,方面,地区这三方面不喜欢APP t的概率。其中,t,s_,u,r,a,ct分别代表APP,负面情感,用户,地区,APP的方面以及APP的种类。
p2指关键字出现频率:
(相同关键字出现的频率)/关键字总数
p=αp1+βp2
(α,β是输入参数权重)
Top-n推荐算法是根据一定的规则进行排序,得到所需的数据。我们主要是根据上述概率大小进行排序,得出最优的n个数据进行推荐,形成最终的修改建议,根据上述概率的排序,我们的最终结果见图(7),我们根据SAR模型的概率值以及特征出现频率概率值进行的最终排序使得“知乎”的用户评论特征得到了有效的推荐。
另一方面,若开发者选择根据同类App的特征进行排序,我们根据社交一类App的描述进行分析,最终呈现的结果如图(8),可以看到同类App的需求较多的特征也可以用来向开发者推荐。

Claims (7)

1.一种基于众包的安卓应用演化推荐方法,其步骤如下:
步骤1)首先从移动应用市场的某个Android应用中提取用户对该应用的评论,然后基于AR-MINER工具,过滤无用的评论,得到有用的用户评论集;
步骤2)使用自然语言预处理技术对有用的用户评论中的词语进行预处理,去除一些无用的词语;
步骤3)基于情感-方面-地区模型,对评论中的情感,方面,地区进行分析,得到关于用户感情,方面以及地区的有效评论的特征诉求;
步骤4)提取多数用户对App的特征诉求,根据步骤3)中获得的有效的评论特征诉求,计算特征诉求中关键字出现的频率并进行概率计算,找出其中多数人评论中关心的特征以及要求;
步骤5)针对与当前APP同类的其他App,根据同类App的特征描述进行分析,利用LDA主题模型产生特征关键字,通过计算其关键字的出现频率值,找出多数App共有的特征;
步骤6)排序,综合情感,方面,地区,多数用户对App的特征诉求,利用SAR模型的概率值以及特征出现频率概率值,结合Top-n在线推荐算法推荐出n个最优的修改意见;进行同类App推荐时,通过同类App的特征关键字根据步骤5)中特征关键字概率进行排序推荐。
2.根据权利要求1所述的一种基于众包的安卓应用演化推荐方法,其特征在于步骤1)中,通过爬取应用商店里面我们所需要修改的App的所有评论,基于AR-MINER工具,检索出所有有用的评论。
3.根据权利要求1所述的一种基于众包的安卓应用演化推荐方法,其特征在于步骤2)中使用NLP技术的预处理过程:
a)托肯化:去除标点符号,去除数字;
b)去除停用词、连词、修饰词。
4.根据权利要求1所述的一种基于众包的安卓应用演化推荐方法,其特征在于步骤3)中对于用户评论中情感,地区,特征的提取:
a)情感:通过预定义的情感集,语义分析器判断出句子的极性,语义分析器包括预先定义的一些关于情感的词语,极性分为good和not good两种,这里取包含not good情感的评论;
b)地区:通过基于坐标的K-means算法,通过聚类过程得出评论中的用户地理位置,取出这些用户需求的地理位置;
c)方面:通过基于句子层次的K-means算法,给每个句子一个相关的方面,最后获取所有评论中的用户对于信息点的感受。
5.根据权利要求1所述的一种基于众包的安卓应用演化推荐方法,其特征在于步骤4)中获取多数用户对App的特征诉求,通过公式计算步骤3)中关键字出现的频率:
6.根据权利要求1所述的一种基于众包的安卓应用演化推荐方法,其特征在于步骤5)提取同类App的特征:通过对同类App的特征描述进行LDA主题分析,LDA是用来挖掘语义的,提取主题的一个模型并给每个描述的句子一个主题,并且通过分析大多数同类App的特征,通过公式计算其特征关键字出现的概率,推荐时我们根据其频率大小进行排序推荐,
7.根据权利要求1所述的一种基于众包的安卓应用演化推荐方法,其特征在于步骤6)的排序:若开发者选择从用户评论进行排序,综合情感,方面,地区,多数用户对App的特征诉求,将情感-方面-地区模型中的推荐概率计算和关键字出现频率计算以及同类App的特征概率结合起来:
p1指SAR模型的推荐概率:
即表示用户u在情感,方面,地区这三方面不喜欢APP t的概率;其中,t,s_,u,r,a,ct分别代表APP,负面情感,用户,地区,APP的方面以及APP的种类;
p2指关键字出现频率:
最终我们根据线性关系相结合:
p=αp1+βp2
α,β是输入参数权重。
CN201510916068.9A 2015-12-09 2015-12-09 一种基于众包的安卓应用演化推荐方法 Active CN105488206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510916068.9A CN105488206B (zh) 2015-12-09 2015-12-09 一种基于众包的安卓应用演化推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510916068.9A CN105488206B (zh) 2015-12-09 2015-12-09 一种基于众包的安卓应用演化推荐方法

Publications (2)

Publication Number Publication Date
CN105488206A CN105488206A (zh) 2016-04-13
CN105488206B true CN105488206B (zh) 2019-03-26

Family

ID=55675181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510916068.9A Active CN105488206B (zh) 2015-12-09 2015-12-09 一种基于众包的安卓应用演化推荐方法

Country Status (1)

Country Link
CN (1) CN105488206B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893609B (zh) * 2016-04-26 2019-09-24 南通大学 一种基于加权混合的移动app推荐方法
CN107704868B (zh) * 2017-08-29 2020-06-16 重庆邮电大学 基于移动应用使用行为的用户分群聚类方法
CN107944912B (zh) * 2017-11-20 2021-01-26 合肥工业大学 基于在线用户评论的区域化产品感知挖掘方法和系统
CN109254983B (zh) * 2018-09-19 2021-07-13 九江学院 一种众包TOP-k查询中的降低成本方法
CN113495942B (zh) * 2020-04-01 2022-07-05 百度在线网络技术(北京)有限公司 推送信息的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
KR20140047405A (ko) * 2012-10-12 2014-04-22 주식회사 엘지유플러스 외부 인터페이스 관련 앱 리스트 제공 방법 및 장치
CN104537080A (zh) * 2014-12-31 2015-04-22 北京畅游天下网络技术有限公司 资讯推荐方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
KR20140047405A (ko) * 2012-10-12 2014-04-22 주식회사 엘지유플러스 외부 인터페이스 관련 앱 리스트 제공 방법 및 장치
CN104537080A (zh) * 2014-12-31 2015-04-22 北京畅游天下网络技术有限公司 资讯推荐方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SAR: A sentiment-aspect-region model for user preference analysis in geo-tagged reviews;Kaiqi Zhao 等;《2015 IEEE 31st International Conference on Data Engineering (ICDE)》;20150417;675-686 *

Also Published As

Publication number Publication date
CN105488206A (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN110717339B (zh) 语义表示模型的处理方法、装置、电子设备及存储介质
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
CN105488206B (zh) 一种基于众包的安卓应用演化推荐方法
CN110909548B (zh) 中文命名实体识别方法、装置及计算机可读存储介质
US10277946B2 (en) Methods and systems for aggregation and organization of multimedia data acquired from a plurality of sources
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN108959383A (zh) 网络舆情的分析方法、装置及计算机可读存储介质
CN105357586A (zh) 视频弹幕过滤方法及装置
CN113536793A (zh) 一种实体识别方法、装置、设备以及存储介质
CN103123624B (zh) 确定中心词的方法及装置、搜索方法及装置
CN106355446B (zh) 一种网络和手机游戏的广告推荐系统
CN103425710A (zh) 一种基于主题的搜索方法和装置
CN104572958A (zh) 一种基于事件抽取的敏感信息监控方法
CN104850617B (zh) 短文本处理方法及装置
CN104598535A (zh) 一种基于最大熵的事件抽取方法
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
CN103038764A (zh) 用于关键字提取的方法
CN111309910A (zh) 文本信息挖掘方法及装置
US20140058984A1 (en) Information processing device, information processing method, program for information processing device, and recording medium
CN107885785A (zh) 文本情感分析方法和装置
CN106815253B (zh) 一种基于混合数据类型数据的挖掘方法
CN106537387A (zh) 检索/存储与事件相关联的图像
CN111428503A (zh) 同名人物的识别处理方法及处理装置
CN102609424A (zh) 评价信息抽取方法和设备
CN107688621B (zh) 一种文案的优化方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant