CN105488206A - 一种基于众包的安卓应用演化推荐方法 - Google Patents
一种基于众包的安卓应用演化推荐方法 Download PDFInfo
- Publication number
- CN105488206A CN105488206A CN201510916068.9A CN201510916068A CN105488206A CN 105488206 A CN105488206 A CN 105488206A CN 201510916068 A CN201510916068 A CN 201510916068A CN 105488206 A CN105488206 A CN 105488206A
- Authority
- CN
- China
- Prior art keywords
- feature
- app
- emotion
- comment
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于众包的安卓应用演化推荐方法。本发明提取用户对该应用的评论,基于AR-MINER工具,对有用的用户评论中词语进行预处理,基于情感-方面-地区模型进行分析,得到关于用户的特征诉求并提取,计算特征诉求中关键字出现的频率进行概率计算,找出关心的特征以及要求,提取同类APP的特征,利用LDA主题模型产生特征关键字,找出共有特征,利用SAR模型的概率值以及特征出现频率概率值,结合Top-n在线推荐算法推荐出n个最优的修改意见,进行排序推荐。本发明克服了没有考虑交互性的缺陷。本发明提取了市场中同类软件的情感-方面-地区用户评论,据此推荐可更好地保障APP保持市场竞争力。
Description
技术领域
本发明属于软件维护领域,特别涉及一种基于众包的安卓应用演化推荐方法。
背景技术
Android系统的开放性使其在很短的时间内迅速发展,成为全球市场占有率首位的智能移动终端操作系统。它的使用涵盖了智能手机、平板电脑、电视机顶盒以及其他嵌入式便携电子设备。随之而来的是App的迅速发展,近年来,Android市场的App以一种不可控制的速度增长着,用户对于高质量的App的需求也不断增加,而且Android应用的演化和升级速度比传统的软件来的更快,开发者如何能够满足广大用户的需求,仅仅依靠开发团队的创新,或者基于代码本身的结构改进,已经不能在App市场中脱颖而出,为此,如何从市场和用户的角度提供更高效的修改推荐,来帮助开发者及时修改以及发布新的版本是每个Android应用开发商比较关心的问题。
在本发明作出之前,已经有的推荐方法如基于用户的协同过滤技术(CF),基于评估分数的矩阵分解推荐技术(GEFM)等,类似于这样推荐的技术有的只考虑了单个因素,有的考虑的因素不全面。例如CF技术没有考虑到地理信息,他的思想只是根据相似性进行推荐,最终还是会蜕变成搜索算法。GEFM技术最佳但是推荐仍没有考虑到交互性,它是一种对传统的矩阵分解的SVD方法的一种优化,效果好但是仍然没有考虑交互性,在App更新发展的过程中,用户与产品的交互如果缺少考虑,我们更新后的产品再应用到用户中的效果将大大降低。
发明内容
本发明的目的就在于克服上述缺陷,研制一种基于众包的安卓应用演化推荐方法。
本发明的技术方案是:
一种基于众包的安卓应用演化推荐方法,其步骤在于:
步骤1)首先从移动应用市场的某个Android应用中提取用户对该应用的评论,然后基于AR-MINER工具,过滤无用的评论,得到有用的用户评论集;
步骤2)使用自然语言预处理技术对有用的用户评论中的词语进行预处理,去除一些无用的词语;
步骤3)基于情感-方面-地区模型,对评论中的情感,方面,地区进行分析,得到关于用户感情,方面以及地区的有效评论的特征诉求;
步骤4)提取多数用户对App的特征诉求,根据步骤3)中获得的有效的评论特征诉求,计算特征诉求中关键字出现的频率并进行概率计算,找出其中多数人评论中关心的特征以及要求;
步骤5)针对与当前APP同类的其他App,根据同类App的特征描述进行分析,利用LDA主题模型产生特征关键字,通过计算其关键字的出现频率值,找出多数App共有的特征;
步骤6)排序,综合情感,方面,地区,多数用户对App的特征诉求,利用SAR模型的概率值以及特征出现频率概率值,结合Top-n在线推荐算法推荐出n个最优的修改意见;进行同类App推荐时,通过同类App的特征关键字根据步骤5)中特征关键字概率进行排序推荐。
其特征在于步骤1)中,通过爬取应用商店里面我们所需要修改的App的所有评论,基于AR-MINER工具,检索出所有有用的评论。
其特征在于步骤2)中使用NLP技术的预处理过程:
a)托肯化:去除标点符号,去除数字;
b)去除停用词、连词、修饰词。
其特征在于步骤3)中对于用户评论中情感,地区,特征的提取:
a)情感:通过预定义的情感集,语义分析器判断出句子的极性,语义分析器包括预先定义的一些关于情感的词语,极性分为good和notgood两种,这里主要取包含notgood情感的评论;
b)地区:通过基于坐标的K-means算法,通过聚类过程得出评论中的用户地理位置,取出这些用户需求的地理位置;
c)方面:通过基于句子层次的K-means算法,给每个句子一个相关的方面,最后获取所有评论中的用户对于信息点的感受。
其特征在于步骤4)中获取多数用户对App的特征诉求,通过计算步骤3)中关键字出现的频率:
其特征在于步骤5)提取同类App的特征:通过对同类App的特征描述进行LDA主题分析,LDA是用来挖掘语义的,提取主题的一个模型并给每个描述的句子一个主题,并且通过分析大多数同类App的特征,通过公式计算其特征关键字出现的概率,推荐时我们根据其频率大小进行排序推荐,
其特征在于步骤6)的排序:若开发者选择从用户评论进行排序,综合情感,方面,地区,多数用户对App的特征诉求,将情感-方面-地区模型中的推荐概率计算和关键字出现频率计算以及同类App的特征概率结合起来:
p1指SAR模型的推荐概率:
即表示用户u在情感,方面,地区这三方面不喜欢APPt的概率;其中,t,s_,u,r,a,ct分别代表APP,负面情感,用户,地区,APP的方面以及APP的种类;
p2指关键字出现频率:
最终我们根据线性关系相结合:
p=αp1+βp2
(α,β是输入参数权重)。
本发明的优点和效果在于提出了一种基于Android应用生态系统演化的App维护推荐模型,可以向Android开发者作出关于App修改分析的有效推荐,提高APP应用演化的质量和效率。主要有以下一些优点:
(1)考虑了情感的因素,我们从用户情感出发,目前的推荐修改技术很多,但是还没有从用户情感出发的,本发明从用户情感出发,会更加贴近用户的真实感受。
(2)考虑了地区的因素,地区在App发展中也起到可观的作用,而这一因素常常被人忽视,因此我们的技术扣住了地区,更加高效分析了App评论。
(3)考虑了市场的因素,App最终的发展状况是根据市场情况来判断的,因此我们的技术提取了市场中同类软件的用户评论,这样的推荐可更好地保障APP保持市场竞争力。
附图说明
图1——本发明的总体流程示意图。
图2——提取的部分用户评论示意图。
图3——AR-MINER过滤后的用户评论示意图。
图4——过滤后的评论初始化后的结果示意图。
图5——SAR分析过后的评论示意图。
图6——同类App的特征提取示意图。
图7——根据用户评论排序后推荐的结果示意图。
图8——本发明根据同类App特征排序后推荐的结果示意图。
具体实施方式
本发明的技术思路是:
本发明提出user-review-app-developer,即从用户出发,研究用户的评论,应用到app本身中去,推荐给开发者进行修改。我们从用户情感,方面,地区出发,考虑用户的因素;另外,也考虑同类型软件的功能和评论,考虑了市场的因素。这种综合各个方面的分析更有利于促进开发者高效率更新,充分利用了用户评论的价值和市场的价值。
下面根据附图进一步说明本发明。
步骤1)我们首先从移动应用市场的Android应用中提取用户对该应用的评论,然后基于AR-MINER工具,将评论分为有用和无用的两类,我们主要选择有用的评论。我们此处所举的例子为“知乎”,在图(2)中,比如我们提取的两个评论,“经常一刷就是一晚上啊”和“什么鬼啊”,AR-MINER将会过滤掉这两个评论,而像“虚拟键盘去掉就好了”和“不知道為什麽個人簡介無法改性别”这两个评论,我们将会保留。最终处理的结果如图(3),经过AR-MINER处理后,我们获得用户的有用的评论集,方便了后面的处理过程。
步骤2)预处理如上过滤后的评论中没用的词语。我们使用自然语言预处理技术(NLP)的托肯化和去除停用词(stopping)技术来去除无用的词语。a)托肯化:去除标点符号(比如“”,“?”),去除数字(比如“1”,“23”)等。b)去除停用词(stopping):去除中文停用词,比如语气词“啊”,“唉”;连词“并且”,“不但”;修饰词“很”,“基本”,“几乎”等。在图(4)中我们可以看到预处理后的结果,两步操作之后,我们获得了预处理后的文档。
步骤3)基于情感-方面-地区模型(SAR模型)对评论中的情感,方面,地区进行分析,得到关于用户感情,方面以及地区的有效评论的特征诉求,主要过程有:a)情感我们通过预定义的情感集,通过语义分析器判断出句子极性,这里我们主要取包含不好的情感的评论。b)地区我们主要通过基于坐标的K-means算法,通过聚类过程判断在某个地区是否有相关App。c)方面我们通过基于句子层次的K-means算法,给每个句子一个相关的方面,最后获取所有评论中的用户对于信息点的感受。我们在对预处理后的结果进行SAR分析后,结果见图(5),这形成了我们做出修改推荐的基础。
步骤4)提取多数用户对App的特征诉求。我们根据步骤(3)中获得的有效的评论特征诉求,我们通过计算特征诉求中关键字出现的频率进行概率计算,找出其中多数人评论中关心的特征以及要求。
步骤5)针对与当前APP同类的其他App,我们根据同类App的特征描述进行分析,利用LDA主题模型产生特征关键字,通过计算其关键字的出现频率值,找出多数App共有的特征。我们在知乎所在的类别社交里面选择了部分同类的App描述进行分析,并计算出了概率,结果如图(6)所示,我们选择了易信,陌陌,Google+分析出了他们的特征,方便开发者从同类App这一方面进行修改。
步骤6)排序。综合情感,方面,地区,多数用户对App的特征诉求以及同类App的特征,我们利用SAR模型的概率值以及特征出现频率概率值,结合Top-n在线推荐算法对其排序,将SAR模型中的推荐概率计算和关键字出现频率计算以及同类App的特征概率结合起来。
p1指SAR模型的推荐概率:
即表示用户u在情感,方面,地区这三方面不喜欢APPt的概率。其中,t,s_,u,r,a,ct分别代表APP,负面情感,用户,地区,APP的方面以及APP的种类。
p2指关键字出现频率:
p=αp1+βp2
(α,β是输入参数权重)
Top-n推荐算法是根据一定的规则进行排序,得到所需的数据。我们主要是根据上述概率大小进行排序,得出最优的n个数据进行推荐,形成最终的修改建议,根据上述概率的排序,我们的最终结果见图(7),我们根据SAR模型的概率值以及特征出现频率概率值进行的最终排序使得“知乎”的用户评论特征得到了有效的推荐。
另一方面,若开发者选择根据同类App的特征进行排序,我们根据社交一类App的描述进行分析,最终呈现的结果如图(8),可以看到同类App的需求较多的特征也可以用来向开发者推荐。
Claims (7)
1.一种基于众包的安卓应用演化推荐方法,其步骤如下:
步骤1)首先从移动应用市场的某个Android应用中提取用户对该应用的评论,然后基于AR-MINER工具,过滤无用的评论,得到有用的用户评论集;
步骤2)使用自然语言预处理技术对有用的用户评论中的词语进行预处理,去除一些无用的词语;
步骤3)基于情感-方面-地区模型,对评论中的情感,方面,地区进行分析,得到关于用户感情,方面以及地区的有效评论的特征诉求;
步骤4)提取多数用户对App的特征诉求,根据步骤3)中获得的有效的评论特征诉求,计算特征诉求中关键字出现的频率并进行概率计算,找出其中多数人评论中关心的特征以及要求;
步骤5)针对与当前APP同类的其他App,根据同类App的特征描述进行分析,利用LDA主题模型产生特征关键字,通过计算其关键字的出现频率值,找出多数App共有的特征;
步骤6)排序,综合情感,方面,地区,多数用户对App的特征诉求,利用SAR模型的概率值以及特征出现频率概率值,结合Top-n在线推荐算法推荐出n个最优的修改意见;进行同类App推荐时,通过同类App的特征关键字根据步骤5)中特征关键字概率进行排序推荐。
2.根据权利要求1所述的一种基于众包的安卓应用演化推荐方法,其特征在于步骤1)中,通过爬取应用商店里面我们所需要修改的App的所有评论,基于AR-MINER工具,检索出所有有用的评论。
3.根据权利要求1所述的一种基于众包的安卓应用演化推荐方法,其特征在于步骤2)中使用NLP技术的预处理过程:
a)托肯化:去除标点符号,去除数字;
b)去除停用词、连词、修饰词。
4.根据权利要求1所述的一种基于众包的安卓应用演化推荐方法,其特征在于步骤3)中对于用户评论中情感,地区,特征的提取:
a)情感:通过预定义的情感集,语义分析器判断出句子的极性,语义分析器包括预先定义的一些关于情感的词语,极性分为good和notgood两种,这里主要取包含notgood情感的评论;
b)地区:通过基于坐标的K-means算法,通过聚类过程得出评论中的用户地理位置,取出这些用户需求的地理位置;
c)方面:通过基于句子层次的K-means算法,给每个句子一个相关的方面,最后获取所有评论中的用户对于信息点的感受。
5.根据权利要求1所述的一种基于众包的安卓应用演化推荐方法,其特征在于步骤4)中获取多数用户对App的特征诉求,通过计算步骤3)中关键字出现的频率:
。
6.根据权利要求1所述的一种基于众包的安卓应用演化推荐方法,其特征在于步骤5)提取同类App的特征:通过对同类App的特征描述进行LDA主题分析,LDA是用来挖掘语义的,提取主题的一个模型并给每个描述的句子一个主题,并且通过分析大多数同类App的特征,通过公式计算其特征关键字出现的概率,推荐时我们根据其频率大小进行排序推荐,
。
7.根据权利要求1所述的一种基于众包的安卓应用演化推荐方法,其特征在于步骤6)的排序:若开发者选择从用户评论进行排序,综合情感,方面,地区,多数用户对App的特征诉求,将情感-方面-地区模型中的推荐概率计算和关键字出现频率计算以及同类App的特征概率结合起来:
p1指SAR模型的推荐概率:
即表示用户u在情感,方面,地区这三方面不喜欢APPt的概率;其中,t,s_,u,r,a,ct分别代表APP,负面情感,用户,地区,APP的方面以及APP的种类;
p2指关键字出现频率:
最终我们根据线性关系相结合:
P=αp1+βp2
(α,β是输入参数权重)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510916068.9A CN105488206B (zh) | 2015-12-09 | 2015-12-09 | 一种基于众包的安卓应用演化推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510916068.9A CN105488206B (zh) | 2015-12-09 | 2015-12-09 | 一种基于众包的安卓应用演化推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105488206A true CN105488206A (zh) | 2016-04-13 |
CN105488206B CN105488206B (zh) | 2019-03-26 |
Family
ID=55675181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510916068.9A Active CN105488206B (zh) | 2015-12-09 | 2015-12-09 | 一种基于众包的安卓应用演化推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105488206B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893609A (zh) * | 2016-04-26 | 2016-08-24 | 南通大学 | 一种基于加权混合的移动app推荐方法 |
CN107704868A (zh) * | 2017-08-29 | 2018-02-16 | 重庆邮电大学 | 基于移动应用使用行为的用户分群聚类方法 |
CN107944912A (zh) * | 2017-11-20 | 2018-04-20 | 合肥工业大学 | 基于在线用户评论的区域化产品感知挖掘方法和系统 |
CN109254983A (zh) * | 2018-09-19 | 2019-01-22 | 九江学院 | 一种众包TOP-k查询中的降低成本方法 |
CN113495942A (zh) * | 2020-04-01 | 2021-10-12 | 百度在线网络技术(北京)有限公司 | 推送信息的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
KR20140047405A (ko) * | 2012-10-12 | 2014-04-22 | 주식회사 엘지유플러스 | 외부 인터페이스 관련 앱 리스트 제공 방법 및 장치 |
CN104537080A (zh) * | 2014-12-31 | 2015-04-22 | 北京畅游天下网络技术有限公司 | 资讯推荐方法和系统 |
-
2015
- 2015-12-09 CN CN201510916068.9A patent/CN105488206B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
KR20140047405A (ko) * | 2012-10-12 | 2014-04-22 | 주식회사 엘지유플러스 | 외부 인터페이스 관련 앱 리스트 제공 방법 및 장치 |
CN104537080A (zh) * | 2014-12-31 | 2015-04-22 | 北京畅游天下网络技术有限公司 | 资讯推荐方法和系统 |
Non-Patent Citations (1)
Title |
---|
KAIQI ZHAO 等: "SAR: A sentiment-aspect-region model for user preference analysis in geo-tagged reviews", 《2015 IEEE 31ST INTERNATIONAL CONFERENCE ON DATA ENGINEERING (ICDE)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893609A (zh) * | 2016-04-26 | 2016-08-24 | 南通大学 | 一种基于加权混合的移动app推荐方法 |
CN107704868A (zh) * | 2017-08-29 | 2018-02-16 | 重庆邮电大学 | 基于移动应用使用行为的用户分群聚类方法 |
CN107944912A (zh) * | 2017-11-20 | 2018-04-20 | 合肥工业大学 | 基于在线用户评论的区域化产品感知挖掘方法和系统 |
CN107944912B (zh) * | 2017-11-20 | 2021-01-26 | 合肥工业大学 | 基于在线用户评论的区域化产品感知挖掘方法和系统 |
CN109254983A (zh) * | 2018-09-19 | 2019-01-22 | 九江学院 | 一种众包TOP-k查询中的降低成本方法 |
CN109254983B (zh) * | 2018-09-19 | 2021-07-13 | 九江学院 | 一种众包TOP-k查询中的降低成本方法 |
CN113495942A (zh) * | 2020-04-01 | 2021-10-12 | 百度在线网络技术(北京)有限公司 | 推送信息的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105488206B (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009228B (zh) | 一种内容标签的设置方法、装置及存储介质 | |
US20190243850A1 (en) | Perspective data analysis and management | |
CN111753198A (zh) | 信息推荐方法和装置、以及电子设备和可读存储介质 | |
CN107704503A (zh) | 用户关键词提取装置、方法及计算机可读存储介质 | |
KR101660106B1 (ko) | 비정형 문화관광 데이터 수집 및 정형화를 통한 맞춤형 문화관광 콘텐츠 추천 시스템 및 방법 | |
CN105488206A (zh) | 一种基于众包的安卓应用演化推荐方法 | |
KR102179890B1 (ko) | 텍스트 데이터 수집 및 분석을 위한 시스템 | |
CA3053081A1 (en) | Utilizing machine learning models to automatically generate contextual insights and actions based on legal regulations | |
CN104111925B (zh) | 项目推荐方法和装置 | |
US20150317390A1 (en) | Computer-implemented systems and methods for taxonomy development | |
CN107301199A (zh) | 一种数据标签生成方法和装置 | |
CN109189931A (zh) | 一种目标语句的筛选方法及装置 | |
Coelho et al. | Building Machine Learning Systems with Python: Explore machine learning and deep learning techniques for building intelligent systems using scikit-learn and TensorFlow | |
CN109325146A (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
US20130246463A1 (en) | Prediction and isolation of patterns across datasets | |
CN103927299A (zh) | 输入法中候选语句的提供方法、输入内容推荐方法和装置 | |
US10042913B2 (en) | Perspective data analysis and management | |
Richetti et al. | Declarative process mining: Reducing discovered models complexity by pre-processing event logs | |
Alharbi et al. | Identifying comparative opinions in Arabic text in social media using machine learning techniques | |
CN103150331A (zh) | 一种提供搜索引擎标签的方法和装置 | |
CN110209875A (zh) | 用户内容画像确定方法、访问对象推荐方法和相关装置 | |
JP2016218512A (ja) | 情報処理装置及び情報処理プログラム | |
CN116797195A (zh) | 工单处理方法、装置、计算机设备和计算机可读存储介质 | |
Govindarajan | Integrating AI and Machine Learning into Product Development Processes | |
Peng et al. | An approach of extracting feature requests from app reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |