CN105787662A - 基于属性的移动应用软件性能预测方法 - Google Patents

基于属性的移动应用软件性能预测方法 Download PDF

Info

Publication number
CN105787662A
CN105787662A CN201610104757.4A CN201610104757A CN105787662A CN 105787662 A CN105787662 A CN 105787662A CN 201610104757 A CN201610104757 A CN 201610104757A CN 105787662 A CN105787662 A CN 105787662A
Authority
CN
China
Prior art keywords
application
word
attribute
information
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610104757.4A
Other languages
English (en)
Inventor
於志文
弋飞
郭斌
王柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201610104757.4A priority Critical patent/CN105787662A/zh
Publication of CN105787662A publication Critical patent/CN105787662A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Abstract

本发明公开了一种基于属性的移动应用软件性能预测方法,用于解决现有移动应用软件性能预测方法实用性差的技术问题。技术方案是使用网络爬虫程序采集商用软件应用属性信息,基于采集到的软件应用属性信息提取不同的属性标签,对每个应用构建基于词频‑逆文档频率方法的内在特征向量,处理已有的用户评论信息,提取评论中负面评论的内容并排序选择出现次数较高的词语作为负面评论关键词,根据负面评论与应用属性的关系,构建负面关键词与应用属性标签的关系矩阵,利用关键词与应用特征向量的关系矩阵推导出利用关键词表示的应用外部特性,结合应用的内在特性和外部特性,使用决策树分类器,对应用的性能好坏进行分类学习并预测。实用性强。

Description

基于属性的移动应用软件性能预测方法
技术领域
本发明涉及一种移动应用软件性能预测方法,特别涉及一种基于属性的移动应用软件性能预测方法。
背景技术
随着智能手机的广泛使用,运行在手机端的各类移动应用丰富了人们的日常生活。作为手机软件的发布平台,各类移动应用市场(例如:Google Play,Apple Store和豌豆荚等)受到了大量用户的关注。用户能够在这些平台上对相关软件进行评论或提出反馈意见,这些信息能够帮助软件开发人员改进应用的设计,进而适应用户的需求。然而,由于软件开发人员的素质差别以及针对用户反馈的响应速度,造成了移动应用质量的参差不齐,大量应用并不能够得到用户的认可,如何设计能够得到用户好评的软件,提升移动应用软件性能成为了开发者所面临的关键问题。发表在国际会议KDD2013的一篇文章《Why people hate your App:Making sense of user feedback in amobile app store》介绍了如何利用用户的评论信息来发现软件存在的问题,并向开发人员提供参考意见的方法。该文献的主要研究方法步骤为:1.搜集用户关于移动应用软件的打分与评论信息,2.使用回归模型对评论中的词语与打分信息进行建模并挖掘词语的情感倾向,3.使用主题建模方法按照时间历史顺序对应用软件的评论进行分析,获得以时间为刻度的用户评论主题动态变化特征,4.基于前两步的用户感情倾向与评论主题的分析结果,构建全局的应用发展趋势,进而为开发者提供软件改进的方向和参考信息。然而,上述分析过程与方法存在一个最主要的问题:所有的分析结果都依赖于应用软件的历史评论数据,无法对不存在评论信息或评论信息量少的应用软件进行分析,除此之外,上述方法没有结合软件自身的属性信息与评论数据进行深入分析,无法为开发人员提供基于软件属性特征的改进思路与参考信息。
发明内容
为了克服现有移动应用软件性能预测方法实用性差的不足,本发明提供一种基于属性的移动应用软件性能预测方法。该方法使用网络爬虫程序采集目标应用商店内软件应用属性信息,基于采集到的软件应用属性信息,提取不同的属性标签,对每个应用构建基于词频-逆文档频率方法的内在特征向量,处理已有的用户评论信息,提取评论中负面评论的内容并排序选择出现次数较高的词语作为负面评论关键词,根据负面评论与应用属性的关系,构建负面关键词与应用属性标签的关系矩阵,利用关键词与应用特征向量的关系矩阵推导出利用关键词表示的应用外部特性,结合应用的内在特性和外部特性,使用决策树分类器,对应用的性能好坏进行分类学习并预测。本发明解决了背景技术无法对不存在评论信息或评论信息量少的应用软件进行分析的技术问题,实用性强。
本发明解决其技术问题所采用的技术方案:一种基于属性的移动应用软件性能预测方法,其特点是包括以下步骤:
步骤一、使用网络爬虫程序采集目标应用商店内软件应用属性信息,其中包括软件分类信息和软件自身调用系统权限信息,并采集已有的用户评论信息。
步骤二、基于采集到的应用属性信息,提取不同的属性标签。
步骤三、针对不同的应用,根据其包含的属性标签,利用词频-逆文档频率方法构建内在特征向量;
内在特征向量由公式(1)给出,
IFj=<Ttag1,j,Ttag2,j,......,Ttagn,j> (1)
其中,Ttagi,j表示第j个应用中,第i个属性标签的词频-逆文档频率的数值大小,Ttagi,j由公式(2)给出,
Ttagi,j=tfi,j×idfi (2)
其中,tfi,j是指第i属性标签出现的频率,idfi表示的是第i个属性标签的逆文档频率,idfi由公式(3)给出,
idf i = log 2 | D | | { j : t i &Element; IF j } | - - - ( 3 )
其中,|D|表示所有的应用数量,|{j:ti∈IFj}|表示包含有第i个属性标签的应用数量。
步骤四、通过使用中文分词工具,将用户的评论语句划分为互相独立的词语,并收集差评中各个词语出现的频数,按照词语出现次数进行排序,提取评论中负面评论的内容并排序选择出现次数较高的词语作为负面评论关键词。公式(4)给出了每个关键词负面影响力大小的度量,
NF i = freq i M a x k = 1 m ( freq k ) &times; exp ( 1 - i ) - - - ( 4 )
其中,freqi表示排序为第i个关键词出现的总频数,表示的是前m个关键词中出现频数的最大值,同时假设词语的负面影响力呈指数衰减,进而加入了指数衰减因子exp(1-i)。
步骤五、根据负面评论与应用属性的关系,构建负面关键词与应用属性标签的关系矩阵,利用关键词与应用特征向量的关系矩阵推导出利用关键词表示的应用外部特征向量。所述关系矩阵由m行关键词乘以n列属性信息组成。针对每条信息和其对应的应用,如果负面评论中包含第i个关键词,并且应用属性具有第j个属性,就对关系矩阵中第<i,j>个元素加一,直到遍历完所有评论信息。在关系矩阵构建完成后,应用的外部特征向量由公式(5)给出,
EFi=<NF1×p(word1),......,NFm×p(wordm)> (5)
其中,NFj表示第j个负面关键词的影响力大小,其通过公式(4)计算得到;p(wordj)表示为针对该应用第j关键词可能出现的概率,p(wordj)值的大小通过公式(6)计算得到,
p ( word j ) = &Sigma; k = 1 n tag k &times; p ( word j , tag k ) - - - ( 6 )
其中,tagk是该应用第k个属性标签的词频-逆文档频率值大小,通过公式(1)获取,p(wordj,tagk)表示第j个关键词对于第k个属性标签出现的条件概率,通过构建的关系矩阵计算获取。
步骤六、结合应用的内在特征向量和外部特征向量,使用决策树分类器,对应用的性能好坏进行分类学习并预测。
本发明的有益效果是:该方法使用网络爬虫程序采集目标应用商店内软件应用属性信息,基于采集到的软件应用属性信息,提取不同的属性标签,对每个应用构建基于词频-逆文档频率方法的内在特征向量,处理已有的用户评论信息,提取评论中负面评论的内容并排序选择出现次数较高的词语作为负面评论关键词,根据负面评论与应用属性的关系,构建负面关键词与应用属性标签的关系矩阵,利用关键词与应用特征向量的关系矩阵推导出利用关键词表示的应用外部特性,结合应用的内在特性和外部特性,使用决策树分类器,对应用的性能好坏进行分类学习并预测。本发明解决了背景技术无法对不存在评论信息或评论信息量少的应用软件进行分析的技术问题,实用性强。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明基于属性的移动应用软件性能预测方法的流程图。
具体实施方式
参照图1。本发明基于属性的移动应用软件性能预测方法具体步骤如下:
步骤1,基于网络爬虫对目标应用商店内应用的数据进行采集;
该数据包含应用的名称、应用的属性信息、用户关于应用的评论等信息。其中,应用的属性信息主要由应用的类别和应用调用系统的权限两部分构成,这些数据是本发明中用于分析应用好评度的基础信息。用户关于应用的评论主要分为好评、差评以及情感倾向未知这三类信息。
步骤2,基于采集到的数据获取不同的属性标签信息;
为了更简洁的表示一个应用的内在特性,本实施例对采集到的属性信息进行整理,并提取出共计348个不同的属性标签,进而每个应用可以被表示为一个348维的特征向量。
步骤3,针对不同的应用,根据其包含的属性标签,利用词频-逆文档频率方法构建内在特征向量;
由于每个应用所具有的属性标签的不同以及每个标签对于每个应用具有着不同的权重,本发明中依照词频-逆文档频率方法对应用的属性标签进行计算,最终建立应用的内在特征向量,由公式(1)给出,
IFj=<Ttag1,j,Ttag2,j,......,Ttagn,j> (1)
其中,Ttagi,j表示第j个应用中,第i个属性标签的词频-逆文档频率的数值大小,由公式(2)给出,
Ttagi,j=tfi,j×idfi (2)
其中,tfi,j是指第i属性标签出现的频率,idfi表示的是第i个属性标签的逆文档频率,由公式(3)给出,
idf i = log 2 | D | | { j : t i &Element; IF j } | - - - ( 3 )
其中,|D|表示所有的应用数量,|{j:ti∈IFj}|表示包含有第i个属性标签的应用数量。
步骤4,基于采集到的数据获取用户负面评论的关键词;
通过使用中文分词工具,将用户的评论语句划分为互相独立的词语,并收集差评中各个词语出现的频数,按照词语出现次数进行排序,本实施例选择频数大于1000的共97个差评词语作为负面评论的关键词,同时,按照公式(4)给出了每个关键词负面影响力大小的度量,
NF i = freq i M a x k = 1 m ( freq k ) &times; exp ( 1 - i ) - - - ( 4 )
其中,freqi表示排序为第i个关键词出现的总频数,表示的是前m个关键词中出现频数的最大值,同时假设词语的负面影响力呈指数衰减,进而加入了指数衰减因子exp(1-i)。
步骤5,构建关键词与属性标签的关系矩阵,根据关系矩阵构建应用的外部特征向量;
应用获取的评论信息取决于应用所具有的怎样的属性信息,进而,本方法将关键词与应用的属性标签进行联系,建立二者的关系矩阵,该矩阵由m行关键词乘以n列属性信息组成。具体而言,针对每条信息和其对应的应用,如果该评论中包含第i个关键词,并且该应用具有第j个属性,算法就对关系矩阵中第<i,j>个元素加一,直到遍历完所有评论信息。在关系矩阵构建完成后,应用的外部特征向量由公式(5)给出,
EFi=<NF1×p(word1),......,NFm×p(wordm)> (5)
其中,NFj表示第j个负面关键词的影响力大小,其通过公式(4)计算得到;p(wordj)表示为针对该应用第j关键词可能出现的概率,该值的大小通过公式(6)计算得到,
p ( word j ) = &Sigma; k = 1 n tag k &times; p ( word j , tag k ) - - - ( 6 )
其中,tagk是该应用第k个属性标签的词频-逆文档频率值大小,通过公式(1)获取,p(wordj,tagk)表示第j个关键词对于第k个属性标签出现的条件概率,其通过构建的关系矩阵计算获取。
步骤6,结合应用内在特征和外部特征向量,使用决策树分类器对应用的性能好坏进行预测分析;
根据步骤3以及步骤5获取的应用内在和外部特征向量,使用决策树对应用的性能好坏进行预测分析。具体上,本步骤通过应用评论数据中好评数量所占的比例对应用的好评度进行度量,并根据该值是否大于0.6、0.8或0.9对数据集中所有的应用进行标记,将实验数据划分为三组集合,以应用的内在和外部特征向量为输入,应用是否收到好评为输出,使用决策树对不同组数据进行检验和分析。
本发明提出了一种基于属性的移动应用软件性能预测方法,与现有的应用优缺点分析方法相比,本方法能够针对不存在评论信息或评论信息量少的应用软件进行分析,在应用发布伊始为开发人员提供数据分析,并结合应用自身的属性特征,为开发者提供更加直观的反馈信息,有助于帮助开发人员更加迅速地了解自身应用的利弊,为应用功能的改进提供更大的便利性。

Claims (1)

1.一种基于属性的移动应用软件性能预测方法,其特征在于包括以下步骤:
步骤一、使用网络爬虫程序采集目标应用商店内软件应用属性信息,其中包括软件分类信息和软件自身调用系统权限信息,并采集已有的用户评论信息;
步骤二、基于采集到的应用属性信息,提取不同的属性标签;
步骤三、针对不同的应用,根据其包含的属性标签,利用词频-逆文档频率方法构建内在特征向量;
内在特征向量由公式(1)给出,
IFj=<Ttag1,j,Ttag2,j,......,Ttagn,j> (1)
其中,Ttagi,j表示第j个应用中,第i个属性标签的词频-逆文档频率的数值大小,Ttagi,j由公式(2)给出,
Ttagi,j=tfi,j×idfi (2)
其中,tfi,j是指第i属性标签出现的频率,idfi表示的是第i个属性标签的逆文档频率,idfi由公式(3)给出,
idf i = log 2 | D | | { j : t i &Element; IF j } | - - - ( 3 )
其中,|D|表示所有的应用数量,|{j:ti∈IFj}|表示包含有第i个属性标签的应用数量;
步骤四、通过使用中文分词工具,将用户的评论语句划分为互相独立的词语,并收集差评中各个词语出现的频数,按照词语出现次数进行排序,提取评论中负面评论的内容并排序选择出现次数较高的词语作为负面评论关键词;公式(4)给出了每个关键词负面影响力大小的度量,
NF i = freq i M a x k = 1 m ( freq k ) &times; exp ( 1 - i ) - - - ( 4 )
其中,freqi表示排序为第i个关键词出现的总频数,表示的是前m个关键词中出现频数的最大值,同时假设词语的负面影响力呈指数衰减,进而加入了指数衰减因子exp(1-i);
步骤五、根据负面评论与应用属性的关系,构建负面关键词与应用属性标签的关系矩阵,利用关键词与应用特征向量的关系矩阵推导出利用关键词表示的应用外部特征向量;所述关系矩阵由m行关键词乘以n列属性信息组成;针对每条信息和其对应的应用,如果负面评论中包含第i个关键词,并且应用属性具有第j个属性,就对关系矩阵中第<i,j>个元素加一,直到遍历完所有评论信息;在关系矩阵构建完成后,应用的外部特征向量由公式(5)给出,
EFi=<NF1×p(word1),......,NFm×p(wordm)> (5)
其中,NFj表示第j个负面关键词的影响力大小,其通过公式(4)计算得到;p(wordj)表示为针对该应用第j关键词可能出现的概率,p(wordj)值的大小通过公式(6)计算得到,
p ( word j ) = &Sigma; k = 1 n tag k &times; p ( word j , tag k ) - - - ( 6 )
其中,tagk是该应用第k个属性标签的词频-逆文档频率值大小,p(wordj,tagk)表示第j个关键词对于第k个属性标签出现的条件概率,通过构建的关系矩阵计算获取;
步骤六、结合应用的内在特征向量和外部特征向量,使用决策树分类器,对应用的性能好坏进行分类学习并预测。
CN201610104757.4A 2016-02-25 2016-02-25 基于属性的移动应用软件性能预测方法 Pending CN105787662A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610104757.4A CN105787662A (zh) 2016-02-25 2016-02-25 基于属性的移动应用软件性能预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610104757.4A CN105787662A (zh) 2016-02-25 2016-02-25 基于属性的移动应用软件性能预测方法

Publications (1)

Publication Number Publication Date
CN105787662A true CN105787662A (zh) 2016-07-20

Family

ID=56403710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610104757.4A Pending CN105787662A (zh) 2016-02-25 2016-02-25 基于属性的移动应用软件性能预测方法

Country Status (1)

Country Link
CN (1) CN105787662A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239694A (zh) * 2017-05-27 2017-10-10 武汉大学 一种基于用户评论的Android应用权限推理方法及装置
CN107844992A (zh) * 2017-10-31 2018-03-27 广东欧珀移动通信有限公司 评论信息处理方法、装置、终端设备及存储介质
CN108520012A (zh) * 2018-03-21 2018-09-11 北京航空航天大学 基于机器学习的移动互联网用户评论挖掘方法
CN109637642A (zh) * 2018-12-04 2019-04-16 平安医疗健康管理股份有限公司 医疗机构透析水平的考核方法、装置、设备及存储介质
CN109740156A (zh) * 2018-12-28 2019-05-10 北京金山安全软件有限公司 反馈信息处理方法、装置、电子设备及存储介质
CN109871243A (zh) * 2019-02-22 2019-06-11 苏州迈荣祥信息科技有限公司 智能终端多应用软件控制方法与系统
CN110263329A (zh) * 2019-05-22 2019-09-20 深圳壹账通智能科技有限公司 软件产品测评处理方法、装置、计算机设备及存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239694A (zh) * 2017-05-27 2017-10-10 武汉大学 一种基于用户评论的Android应用权限推理方法及装置
CN107239694B (zh) * 2017-05-27 2020-03-10 武汉大学 一种基于用户评论的Android应用权限推理方法及装置
CN107844992A (zh) * 2017-10-31 2018-03-27 广东欧珀移动通信有限公司 评论信息处理方法、装置、终端设备及存储介质
CN108520012A (zh) * 2018-03-21 2018-09-11 北京航空航天大学 基于机器学习的移动互联网用户评论挖掘方法
CN108520012B (zh) * 2018-03-21 2022-02-18 北京航空航天大学 基于机器学习的移动互联网用户评论挖掘方法
CN109637642A (zh) * 2018-12-04 2019-04-16 平安医疗健康管理股份有限公司 医疗机构透析水平的考核方法、装置、设备及存储介质
CN109637642B (zh) * 2018-12-04 2022-08-19 深圳平安医疗健康科技服务有限公司 医疗机构透析水平的考核方法、装置、设备及存储介质
CN109740156A (zh) * 2018-12-28 2019-05-10 北京金山安全软件有限公司 反馈信息处理方法、装置、电子设备及存储介质
CN109740156B (zh) * 2018-12-28 2023-08-04 北京金山安全软件有限公司 反馈信息处理方法、装置、电子设备及存储介质
CN109871243B (zh) * 2019-02-22 2021-12-21 山东诺蓝信息科技有限公司 智能终端多应用软件控制方法与系统
CN109871243A (zh) * 2019-02-22 2019-06-11 苏州迈荣祥信息科技有限公司 智能终端多应用软件控制方法与系统
WO2020233309A1 (zh) * 2019-05-22 2020-11-26 深圳壹账通智能科技有限公司 软件产品测评处理方法、装置、计算机设备及存储介质
CN110263329A (zh) * 2019-05-22 2019-09-20 深圳壹账通智能科技有限公司 软件产品测评处理方法、装置、计算机设备及存储介质
CN110263329B (zh) * 2019-05-22 2022-09-09 深圳壹账通智能科技有限公司 软件产品测评处理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN105787662A (zh) 基于属性的移动应用软件性能预测方法
CN103729359B (zh) 一种推荐搜索词的方法及系统
Gloor et al. Web science 2.0: Identifying trends through semantic social network analysis
CN107526807B (zh) 信息推荐方法及装置
Mitrović et al. Networks and emotion-driven user communities at popular blogs
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN113704451B (zh) 一种电力用户诉求筛选方法、系统、电子设备和存储介质
CN103218436B (zh) 一种融合用户类别标签的相似问题检索方法及装置
CN106649760A (zh) 基于深度问答的提问型搜索词搜索方法及装置
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN104090936B (zh) 一种基于超图排序的新闻推荐方法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN102955813B (zh) 一种信息搜索方法和系统
CN107562947A (zh) 一种移动时空感知下动态即时推荐服务模型建立方法
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
Yang et al. A decision method for online purchases considering dynamic information preference based on sentiment orientation classification and discrete DIFWA operators
CN107392782A (zh) 基于word2Vec的社团构建方法、装置及计算机处理设备
CN104484336A (zh) 一种中文评论分析方法及其系统
CN105868347A (zh) 一种基于多步聚类的重名消歧方法
Wenzhen Personalized music recommendation algorithm based on hybrid collaborative filtering technology
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
KR20130103249A (ko) 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
Arai et al. Predicting quality of answer in collaborative Q/A community
Wegrzyn-Wolska et al. Tweets mining for French presidential election

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160720

RJ01 Rejection of invention patent application after publication