CN116844724A - 一种基于因子分析技术的app健康程度评估方法 - Google Patents

一种基于因子分析技术的app健康程度评估方法 Download PDF

Info

Publication number
CN116844724A
CN116844724A CN202310893289.3A CN202310893289A CN116844724A CN 116844724 A CN116844724 A CN 116844724A CN 202310893289 A CN202310893289 A CN 202310893289A CN 116844724 A CN116844724 A CN 116844724A
Authority
CN
China
Prior art keywords
health
factor
factor analysis
indexes
app
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310893289.3A
Other languages
English (en)
Inventor
吴化尧
龚楠雅
钮鑫涛
聂长海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202310893289.3A priority Critical patent/CN116844724A/zh
Publication of CN116844724A publication Critical patent/CN116844724A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于因子分析技术的APP健康程度评估方法,包括以下步骤:步骤S1、建立健康度指标体系,获取健康度指标值,所述健康度指标体系包括用户评论指标、开发者指标和应用商店指标;步骤S2、建立健康度因子分析模型;步骤S3、验证健康度因子分析模型;步骤S4、运用健康度因子分析模型。本申请能够更准确地对健康度指标进行多标签分类,然后通过因子分析的统计检验,从众多指标中计算出APP的健康度分数,不仅可以得出不同APP的每月健康度指标及总分数的排名表,还可以自动生成每个APP在一段设定的时间内的健康度分数趋势变化图,帮助开发者更好的决策。

Description

一种基于因子分析技术的APP健康程度评估方法
技术领域
本发明涉及软件工程技术领域,尤其涉及一种基于因子分析技术的APP健康程度评估方法。
背景技术
移动应用市场有大量的观测数据,如用户评论、版本更新日志等,但这些信息的数据量巨大,很难在短时间内挖掘和测量出有效信息,因此目前定性分析较多,缺少定量分析技术。与此同时,从软件指标的角度来评价移动应用的整体质量是非常困难的,不能简单地进行汇总统计,而是需要进一步探索指标之间的潜在关系。
Jiang等人在第14届全国计算机支持的协同工作与社会计算学术会议提出了OSS(open-source software)健康模型,该模型以开源平台GitHub数据为基础,使用与项目健康密切相关的基本指标作为输入。然后,通过因子分析得到六个新的合成公因子。这些指标可以用来计算项目的整体健康度得分。但本申请发明人在实现本申请实施例中实用新型技术方案的过程中,发现上述技术至少存在如下问题:上述方法生成的因子分析模型只能用于同一时间段的所有开源项目得分排名,缺少对单个项目的指导性意见,实用性较低。
发明内容
本发明的目的是提供一种基于因子分析技术的APP健康程度评估方法,以解决背景技术中提到的技术问题,本发明的目的是通过以下技术方案实现的:
一种基于因子分析技术的APP健康程度评估方法,包括以下步骤:
步骤S1、建立健康度指标体系,获取健康度指标值,所述健康度指标体系包括用户评论指标、开发者指标和应用商店指标;
步骤S2、建立健康度因子分析模型;
步骤S3、验证健康度因子分析模型;
步骤S4、运用健康度因子分析模型。
进一步地,步骤S1中用户评论指标的获取包括以下步骤:
步骤S11、用户评论预处理:将非正式的混合词汇处理为易于理解的常用词汇;
步骤S12、多标签分类:使用ALBERT+TextCNN分类器将经步骤S11预处理后的用户评论进行多标签分类。
进一步地,步骤S2包括以下步骤:
步骤S21、对步骤S1获取的健康度指标值进行KMO和Bartlett检验,判断是否适合作因子分析,若适合进行因子分析,则执行步骤S22;
步骤S22、计算相关系数矩阵和协方差矩阵,得到总方差解释矩阵,确定公因子的数量;
步骤S23、使用主成分分析的方法来计算出因子载荷矩阵,使用最大方差法旋转因子载荷矩阵,确定公因子的成分;
步骤S24、使用系数矩阵的倒数乘以因子载荷矩阵来计算得分系数矩阵,得分系数乘以指标值得到每一个公因子的分数;
步骤S25、公因子的分数加权并求和,得到最终的健康度分数:
式中:Ft是某t个公因子,βt是第t个公因子的权重。
进一步地,步骤S3选用具有两个以上指标的公因子验证健康度因子分析模型的聚合效度和区分效度,其中,聚合效度的计算公式如下:
AVE=(∑λ2)/sn
CR=(∑λ)2/((∑λ)2+∑δ)
式中,AVE为平均方差提取值,为因子载荷,sn为该因子的测量指标个数,CR为组合信度,δ为残差,当AVE值大于0.50且CR值大于0.70则说明聚合效度良好;
区分效度的检验采用Pearson相关系数与AVE平方根比较,当AVE平方根大于Pearson相关系数值,则说明区分效度良好。
本申请实施例提供的技术方案,至少具有如下技术效果或优点:
本申请能够更准确地对健康度指标进行多标签分类,然后通过因子分析的统计检验,从众多指标中计算出APP的健康度分数,不仅可以得出不同APP的每月健康度指标及总分数的排名表,还可以自动生成每个APP在一段设定的时间内的健康度分数趋势变化图,由此可以帮助开发者更好的决策,根据不同的app健康状况因地制宜确认版本更新方案,并且能够通过验证性因子分析的步骤证明模型是有效的。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本申请实施例工作流程图;
图2为本申请实施例健康度指标体系;
图3为本申请实施例健康度指标体系数据集;
图4本申请实施例因子分析模型建立流程图;
图5为本申请实施例APP健康度变化图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图和具体实施方式对上述技术方案进行详细的说明,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示的一种基于因子分析技术的APP健康程度评估方法,包括以下步骤:
步骤S1、建立健康度指标体系,获取健康度指标值;
步骤S2、采用factor_analyzer库建立健康度因子分析模型;
步骤S3、验证健康度因子分析模型;
步骤S4、运用健康度因子分析模型。
如图2所示,健康度指标体系包括应用商店指标、开发者指标和用户评论指标:
应用商店指标包括下载量指标和榜单排名指标,本申请选择与IOS 14App Store中公布的实时排名一致的排名数据作为我们的榜单排名指标,然后计算一个应用在一段时间内被所有用户下载的次数来获得下载指标。
开发者指标包括版本发布数指标和版本更新长度指标,版本发布数指的是在一段时期内,开发者发布一个应用版本的次数;版本更新长度是指在版本更新日志中用来描述每个版本中更新的功能内容的字数。
用户评论指标包括功能评估、功能bug报告、GUI、引导教程、兼容、性能、安全、账户、内容、广告和通知、反馈和支持、竞品分析、请求和建议、版本、其他和用户评论数量,用户论指标的获取包括以下步骤:
步骤S11、用户评论预处理:由于用户评论与应用描述不同,不仅篇幅较短,而且往往包含很多非正式的混合词汇,因此对于每条用户评论,需要将非正式的混合词汇处理为易于理解的常用词汇:
用户评论预处理的方法为:
首先删除所有中英文以外的字符,如特殊符号如@、%、*等,以避免这些字符对后续处理产生干扰;然后删除以http://、url开头的地址信息;最后,结合用户评论的口语化和娱乐化特点,采用关键词替换的方式,将评论中可能包含的网络流行语替换为基于百度网络流行语词库的语义相近、易于理解的常用词。
步骤S12、多标签分类:使用ALBERT+TextCNN分类器将经步骤S11预处理后的用户评论进行多标签分类。
在获得预处理的数据集后,需要将用户评论分类到相应的用户类别。对于评论的多标签分类,本申请采用ALBERT+TextCNN分类器以提高短文分类任务的准确性和效率。
本文将用户评论所属的多个评论类别问题转化为多标签分类问题。模型输出层采用sigmiod激活函数对每个评论类别标签完成自监督训练,利用交叉熵机制向下反向传播到TextCNN,迭代更新TextCNN模型的超参数。为防止模型过拟合,在标签预测的两层全连接神经网络中,连接第一个全连接层,完成一次dropout,保持向量维度不变,再输入到第二个全连接层输出每个评论类别标签的预测概率。
如图3所示,通过爬虫或者下载的方式获取APP 36个月内20个指标的数据集,每行对应APP每一个月的20个指标数据值,每列对应20个指标在不同月份的指标数据值。
如图4所示,步骤S2包括以下步骤:
步骤S21、对步骤S1获取的健康度指标值进行KMO和Bartlett检验,判断是否适合作因子分析,若适合进行因子分析,则执行步骤S22;
KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。KMO值越接近1越适合做因子分析,高于0.8也比较适合,0.6比较一般,低于0.5不适合做因子分析;Bartiett球度检验的统计量是根据相关系数矩阵的行列式得到的,Bartiett球度检验的概率值小于显著性水平(0.05)时拒绝无效假设,拒绝无效假设意味着做因子分析是有关联的。
从factor_analyzer库导入calculate_kmo,calculate_Bartle-tt_sphericity两个包计算检验值,KMO和BARTLETT检验的结果如表1所示,表明了上述数据值是十分适合进行因子分析建模的。
表1 KMO和BARTLETT检验的结果
步骤S22、计算相关系数矩阵和协方差矩阵,得到总方差解释矩阵,确定公因子的数量;
从factor_analyzer库导入FactorAnalyzer包,计算相关系数矩阵和协方差矩阵,绘制出碎石图来展示公因子的方差权重和累计解释方差值,以达到80%以上的贡献率。当碎石图折线由陡峭突然变得平稳时,陡峭到平稳对应的因子个数即为公因子的个数。
步骤S23、使用主成分分析的方法来计算出因子载荷矩阵,使用最大方差法旋转因子载荷矩阵,确定公因子的成分;
从factor_analyzer库导入FactorAnalyzer包生成旋转矩阵,使用主成分分析的方法来计算出因子载荷矩阵,使用最大方差法旋转因子载荷矩阵。
步骤S24、使用系数矩阵的倒数乘以因子载荷矩阵来计算得分系数矩阵,得分系数乘以指标值得到每一个公因子的分数;
从numpy库导入mat、inv、dot函数,mat、inv函数得到系数矩阵,然后用dot函数将系数矩阵的倒数乘以因子载荷矩阵得到得分系数矩阵,最后用dot函数计算得分系数乘指标值得到公因子分数。
步骤S25、公因子的分数加权并求和,得到最终的健康度分数:
式中:Ft是某t个公因子,βt是第t个公因子的权重。
步骤S3、验证健康度因子分析模型;
由于验证性因子分析中每个因子需要测试的最小指标数是两个,为了达到更好的测试效果,本申请实施例选用具有两个以上指标的公因子验证健康度因子分析模型的聚合效度和区分效度,其中,聚合效度的计算公式如下:
AVE=(∑λ2)/sn
CR=(∑λ)2/((∑λ)2+∑δ)
式中,AVE为平均方差提取值,为因子载荷,sn为该因子的测量指标个数,CR为组合信度,δ为残差,当AVE值大于0.50且CR值大于0.70则说明聚合效度良好;
区分效度的检验采用Pearson相关系数与AVE平方根比较,当AVE平方根大于Pearson相关系数值,则说明区分效度良好。
模型Ave和CR指标的结果如图表2所示,Pearson相关系数与AVE平方根如表3所示。
表2模型Ave和CR指标的结果
因子 AVE CR
F1 0.618 0.889
F2 0.587 0.877
F3 0.656 0.792
F4 0.559 0.717
表3 Pearson相关系数与AVE平方根
因子 F1 F2 F3 F4
F1 0.786
F2 0.779 0.766
F3 0.723 0.777 0.810
F4 0.697 0.741 0.665 0.748
表明从统计学上来看本申请实施例的因子分析模型有很好的聚合效度和区分效度,可以挖掘潜在的有效信息。
步骤S4、运用健康度因子分析模型。
如图5所示,通过检验后,用画图程序得出APP每月健康度指标及总分数的排名表,并且自动生成APP在一段设定的时间内的健康度分数百分制趋势变化图。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
本申请能够更准确地对健康度指标进行多标签分类,然后通过因子分析的统计检验,从众多指标中计算出APP的健康度分数,不仅可以得出不同APP的每月健康度指标及总分数的排名表,还可以自动生成每个APP在一段设定的时间内的健康度分数趋势变化图,由此可以帮助开发者更好的决策,根据不同的app健康状况因地制宜确认版本更新方案,并且能够通过验证性因子分析的步骤证明模型是有效的。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于因子分析技术的APP健康程度评估方法,其特征在于,包括以下步骤:
步骤S1、建立健康度指标体系,获取健康度指标值,所述健康度指标体系包括用户评论指标、开发者指标和应用商店指标;
步骤S2、建立健康度因子分析模型;
步骤S3、验证健康度因子分析模型;
步骤S4、运用健康度因子分析模型。
2.根据权利要求1所述的一种基于因子分析技术的APP健康程度评估方法,其特征在于,步骤S1中用户评论指标的获取包括以下步骤:
步骤S11、用户评论预处理:将非正式的混合词汇处理为易于理解的常用词汇;
步骤S12、多标签分类:使用ALBERT+TextCNN分类器将经步骤S11预处理后的用户评论进行多标签分类。
3.根据权利要求1所述的一种基于因子分析技术的APP健康程度评估方法,其特征在于,步骤S2包括以下步骤:
步骤S21、对步骤S1获取的健康度指标值进行KMO和Bartlett检验,判断是否适合作因子分析,若适合进行因子分析,则执行步骤S22;
步骤S22、计算相关系数矩阵和协方差矩阵,得到总方差解释矩阵,确定公因子的数量;
步骤S23、使用主成分分析的方法来计算出因子载荷矩阵,使用最大方差法旋转因子载荷矩阵,确定公因子的成分;
步骤S24、使用系数矩阵的倒数乘以因子载荷矩阵来计算得分系数矩阵,得分系数乘以指标值得到每一个公因子的分数;
步骤S25、公因子的分数加权并求和,得到最终的健康度分数:
式中:Ft是某t个公因子,βt是第t个公因子的权重。
4.根据权利要求1所述的一种基于因子分析技术的APP健康程度评估方法,其特征在于,步骤S3选用具有两个以上指标的公因子验证健康度因子分析模型的聚合效度和区分效度,其中,聚合效度的计算公式如下:
AVE=(∑λ2)/sn
CR=(∑λ)2/((∑λ)2+∑δ)
式中,AVE为平均方差提取值,λ为因子载荷,sn为该因子的测量指标个数,CR为组合信度,δ为残差,当AVE值大于0.50且CR值大于0.70则说明聚合效度良好;
区分效度的检验采用Pearson相关系数与AVE平方根比较,当AVE平方根大于Pearson相关系数值,则说明区分效度良好。
CN202310893289.3A 2023-07-20 2023-07-20 一种基于因子分析技术的app健康程度评估方法 Pending CN116844724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310893289.3A CN116844724A (zh) 2023-07-20 2023-07-20 一种基于因子分析技术的app健康程度评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310893289.3A CN116844724A (zh) 2023-07-20 2023-07-20 一种基于因子分析技术的app健康程度评估方法

Publications (1)

Publication Number Publication Date
CN116844724A true CN116844724A (zh) 2023-10-03

Family

ID=88165125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310893289.3A Pending CN116844724A (zh) 2023-07-20 2023-07-20 一种基于因子分析技术的app健康程度评估方法

Country Status (1)

Country Link
CN (1) CN116844724A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117592821A (zh) * 2024-01-18 2024-02-23 之江实验室 基于因子分析的公共算力平台体验设计评估系统和方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117592821A (zh) * 2024-01-18 2024-02-23 之江实验室 基于因子分析的公共算力平台体验设计评估系统和方法
CN117592821B (zh) * 2024-01-18 2024-05-10 之江实验室 基于因子分析的公共算力平台体验设计评估系统和方法

Similar Documents

Publication Publication Date Title
Guzman et al. Ensemble methods for app review classification: An approach for software evolution (n)
Wang et al. Images don’t lie: Duplicate crowdtesting reports detection with screenshot information
US20230289665A1 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
US11709875B2 (en) Prioritizing survey text responses
US20220300820A1 (en) Ann-based program testing method, testing system and application
CN110033284A (zh) 房源验真方法、装置、设备及存储介质
US9213543B2 (en) Software internationalization estimation model
CN116844724A (zh) 一种基于因子分析技术的app健康程度评估方法
Ampatzoglou et al. Reusability index: A measure for assessing software assets reusability
Paine et al. The effectiveness of journals as arbiters of scientific impact
CN115375177A (zh) 用户价值评估方法、装置、电子设备及存储介质
Herraiz et al. Impact of installation counts on perceived quality: A case study on debian
Awichanirost et al. Analyzing the effects of sessions on unique visitors and unique page views with google analytics: A case study of a Tourism Website in Thailand
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
Srisopha et al. Learning features that predict developer responses for ios app store reviews
CN112131354B (zh) 答案筛选方法、装置、终端设备和计算机可读存储介质
Gezici et al. Neural sentiment analysis of user reviews to predict user ratings
CN113191681A (zh) 网点选址方法、装置、电子设备及可读存储介质
Gil Gómez Towards efficient vehicle dynamics development: From subjective assessments to objective metrics, from physical to virtual testing
CN112434862A (zh) 上市企业财务困境预测方法及装置
Klosterman Data Science Projects with Python: A case study approach to gaining valuable insights from real data with machine learning
US20220277270A1 (en) Methods and systems for creating software ecosystem activity score from multiple sources
CN111859146B (zh) 信息挖掘方法、装置及电子设备
CN111143220B (zh) 一种软件测试的训练系统及方法
Chang et al. Validating halstead metrics for scratch program using process data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination