CN116844724A

CN116844724A - 一种基于因子分析技术的app健康程度评估方法

Info

Publication number: CN116844724A
Application number: CN202310893289.3A
Authority: CN
Inventors: 吴化尧; 龚楠雅; 钮鑫涛; 聂长海
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-03

Abstract

本发明公开了一种基于因子分析技术的APP健康程度评估方法，包括以下步骤：步骤S1、建立健康度指标体系，获取健康度指标值，所述健康度指标体系包括用户评论指标、开发者指标和应用商店指标；步骤S2、建立健康度因子分析模型；步骤S3、验证健康度因子分析模型；步骤S4、运用健康度因子分析模型。本申请能够更准确地对健康度指标进行多标签分类，然后通过因子分析的统计检验，从众多指标中计算出APP的健康度分数，不仅可以得出不同APP的每月健康度指标及总分数的排名表，还可以自动生成每个APP在一段设定的时间内的健康度分数趋势变化图，帮助开发者更好的决策。

Description

一种基于因子分析技术的APP健康程度评估方法

技术领域

本发明涉及软件工程技术领域，尤其涉及一种基于因子分析技术的APP健康程度评估方法。

背景技术

移动应用市场有大量的观测数据，如用户评论、版本更新日志等，但这些信息的数据量巨大，很难在短时间内挖掘和测量出有效信息，因此目前定性分析较多，缺少定量分析技术。与此同时，从软件指标的角度来评价移动应用的整体质量是非常困难的，不能简单地进行汇总统计，而是需要进一步探索指标之间的潜在关系。

Jiang等人在第14届全国计算机支持的协同工作与社会计算学术会议提出了OSS(open-source software)健康模型，该模型以开源平台GitHub数据为基础，使用与项目健康密切相关的基本指标作为输入。然后，通过因子分析得到六个新的合成公因子。这些指标可以用来计算项目的整体健康度得分。但本申请发明人在实现本申请实施例中实用新型技术方案的过程中，发现上述技术至少存在如下问题：上述方法生成的因子分析模型只能用于同一时间段的所有开源项目得分排名，缺少对单个项目的指导性意见，实用性较低。

发明内容

本发明的目的是提供一种基于因子分析技术的APP健康程度评估方法，以解决背景技术中提到的技术问题，本发明的目的是通过以下技术方案实现的：

一种基于因子分析技术的APP健康程度评估方法，包括以下步骤：

步骤S1、建立健康度指标体系，获取健康度指标值，所述健康度指标体系包括用户评论指标、开发者指标和应用商店指标；

步骤S2、建立健康度因子分析模型；

步骤S3、验证健康度因子分析模型；

步骤S4、运用健康度因子分析模型。

进一步地，步骤S1中用户评论指标的获取包括以下步骤：

步骤S11、用户评论预处理：将非正式的混合词汇处理为易于理解的常用词汇；

步骤S12、多标签分类：使用ALBERT+TextCNN分类器将经步骤S11预处理后的用户评论进行多标签分类。

进一步地，步骤S2包括以下步骤：

步骤S21、对步骤S1获取的健康度指标值进行KMO和Bartlett检验，判断是否适合作因子分析，若适合进行因子分析，则执行步骤S22；

步骤S22、计算相关系数矩阵和协方差矩阵，得到总方差解释矩阵，确定公因子的数量；

步骤S23、使用主成分分析的方法来计算出因子载荷矩阵，使用最大方差法旋转因子载荷矩阵，确定公因子的成分；

步骤S24、使用系数矩阵的倒数乘以因子载荷矩阵来计算得分系数矩阵,得分系数乘以指标值得到每一个公因子的分数；

步骤S25、公因子的分数加权并求和，得到最终的健康度分数：

式中：Ft是某t个公因子，βt是第t个公因子的权重。

进一步地，步骤S3选用具有两个以上指标的公因子验证健康度因子分析模型的聚合效度和区分效度，其中，聚合效度的计算公式如下：

AVE＝(∑λ²)/sn

CR＝(∑λ)²/((∑λ)²+∑δ)

式中，AVE为平均方差提取值，为因子载荷，sn为该因子的测量指标个数，CR为组合信度，δ为残差，当AVE值大于0.50且CR值大于0.70则说明聚合效度良好；

区分效度的检验采用Pearson相关系数与AVE平方根比较，当AVE平方根大于Pearson相关系数值，则说明区分效度良好。

本申请实施例提供的技术方案，至少具有如下技术效果或优点：

本申请能够更准确地对健康度指标进行多标签分类，然后通过因子分析的统计检验，从众多指标中计算出APP的健康度分数，不仅可以得出不同APP的每月健康度指标及总分数的排名表，还可以自动生成每个APP在一段设定的时间内的健康度分数趋势变化图，由此可以帮助开发者更好的决策，根据不同的app健康状况因地制宜确认版本更新方案，并且能够通过验证性因子分析的步骤证明模型是有效的。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本申请实施例工作流程图；

图2为本申请实施例健康度指标体系；

图3为本申请实施例健康度指标体系数据集；

图4本申请实施例因子分析模型建立流程图；

图5为本申请实施例APP健康度变化图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图和具体实施方式对上述技术方案进行详细的说明，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示的一种基于因子分析技术的APP健康程度评估方法，包括以下步骤：

步骤S1、建立健康度指标体系，获取健康度指标值；

步骤S2、采用factor_analyzer库建立健康度因子分析模型；

步骤S3、验证健康度因子分析模型；

步骤S4、运用健康度因子分析模型。

如图2所示，健康度指标体系包括应用商店指标、开发者指标和用户评论指标：

应用商店指标包括下载量指标和榜单排名指标，本申请选择与IOS 14App Store中公布的实时排名一致的排名数据作为我们的榜单排名指标，然后计算一个应用在一段时间内被所有用户下载的次数来获得下载指标。

开发者指标包括版本发布数指标和版本更新长度指标，版本发布数指的是在一段时期内，开发者发布一个应用版本的次数；版本更新长度是指在版本更新日志中用来描述每个版本中更新的功能内容的字数。

用户评论指标包括功能评估、功能bug报告、GUI、引导教程、兼容、性能、安全、账户、内容、广告和通知、反馈和支持、竞品分析、请求和建议、版本、其他和用户评论数量，用户论指标的获取包括以下步骤：

步骤S11、用户评论预处理：由于用户评论与应用描述不同，不仅篇幅较短，而且往往包含很多非正式的混合词汇，因此对于每条用户评论，需要将非正式的混合词汇处理为易于理解的常用词汇：

用户评论预处理的方法为：

首先删除所有中英文以外的字符，如特殊符号如@、％、*等，以避免这些字符对后续处理产生干扰；然后删除以http://、url开头的地址信息；最后，结合用户评论的口语化和娱乐化特点，采用关键词替换的方式，将评论中可能包含的网络流行语替换为基于百度网络流行语词库的语义相近、易于理解的常用词。

在获得预处理的数据集后，需要将用户评论分类到相应的用户类别。对于评论的多标签分类，本申请采用ALBERT+TextCNN分类器以提高短文分类任务的准确性和效率。

本文将用户评论所属的多个评论类别问题转化为多标签分类问题。模型输出层采用sigmiod激活函数对每个评论类别标签完成自监督训练，利用交叉熵机制向下反向传播到TextCNN，迭代更新TextCNN模型的超参数。为防止模型过拟合，在标签预测的两层全连接神经网络中，连接第一个全连接层，完成一次dropout，保持向量维度不变，再输入到第二个全连接层输出每个评论类别标签的预测概率。

如图3所示，通过爬虫或者下载的方式获取APP 36个月内20个指标的数据集，每行对应APP每一个月的20个指标数据值，每列对应20个指标在不同月份的指标数据值。

如图4所示，步骤S2包括以下步骤：

KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。KMO值越接近1越适合做因子分析，高于0.8也比较适合，0.6比较一般，低于0.5不适合做因子分析；Bartiett球度检验的统计量是根据相关系数矩阵的行列式得到的,Bartiett球度检验的概率值小于显著性水平(0.05)时拒绝无效假设，拒绝无效假设意味着做因子分析是有关联的。

从factor_analyzer库导入calculate_kmo,calculate_Bartle-tt_sphericity两个包计算检验值，KMO和BARTLETT检验的结果如表1所示，表明了上述数据值是十分适合进行因子分析建模的。

表1 KMO和BARTLETT检验的结果

从factor_analyzer库导入FactorAnalyzer包，计算相关系数矩阵和协方差矩阵，绘制出碎石图来展示公因子的方差权重和累计解释方差值，以达到80％以上的贡献率。当碎石图折线由陡峭突然变得平稳时，陡峭到平稳对应的因子个数即为公因子的个数。

从factor_analyzer库导入FactorAnalyzer包生成旋转矩阵，使用主成分分析的方法来计算出因子载荷矩阵，使用最大方差法旋转因子载荷矩阵。

从numpy库导入mat、inv、dot函数，mat、inv函数得到系数矩阵，然后用dot函数将系数矩阵的倒数乘以因子载荷矩阵得到得分系数矩阵，最后用dot函数计算得分系数乘指标值得到公因子分数。

式中：Ft是某t个公因子，βt是第t个公因子的权重。

步骤S3、验证健康度因子分析模型；

由于验证性因子分析中每个因子需要测试的最小指标数是两个，为了达到更好的测试效果，本申请实施例选用具有两个以上指标的公因子验证健康度因子分析模型的聚合效度和区分效度，其中，聚合效度的计算公式如下：

AVE＝(∑λ²)/sn

CR＝(∑λ)²/((∑λ)²+∑δ)

模型Ave和CR指标的结果如图表2所示，Pearson相关系数与AVE平方根如表3所示。

表2模型Ave和CR指标的结果

因子	AVE	CR
			F1	0.618	0.889
F2	0.587	0.877
			F3	0.656	0.792
F4	0.559	0.717

表3 Pearson相关系数与AVE平方根

因子	F1	F2	F3	F4
					F1	0.786
F2	0.779	0.766
					F3	0.723	0.777	0.810
F4	0.697	0.741	0.665	0.748

表明从统计学上来看本申请实施例的因子分析模型有很好的聚合效度和区分效度，可以挖掘潜在的有效信息。

步骤S4、运用健康度因子分析模型。

如图5所示，通过检验后，用画图程序得出APP每月健康度指标及总分数的排名表，并且自动生成APP在一段设定的时间内的健康度分数百分制趋势变化图。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于因子分析技术的APP健康程度评估方法，其特征在于，包括以下步骤：

步骤S2、建立健康度因子分析模型；

步骤S3、验证健康度因子分析模型；

步骤S4、运用健康度因子分析模型。

2.根据权利要求1所述的一种基于因子分析技术的APP健康程度评估方法，其特征在于，步骤S1中用户评论指标的获取包括以下步骤：

3.根据权利要求1所述的一种基于因子分析技术的APP健康程度评估方法，其特征在于，步骤S2包括以下步骤：

式中：F_t是某t个公因子，β_t是第t个公因子的权重。

4.根据权利要求1所述的一种基于因子分析技术的APP健康程度评估方法，其特征在于，步骤S3选用具有两个以上指标的公因子验证健康度因子分析模型的聚合效度和区分效度，其中，聚合效度的计算公式如下：

AVE＝(∑λ²)/sn

CR＝(∑λ)²/((∑λ)²+∑δ)

式中，AVE为平均方差提取值，λ为因子载荷，sn为该因子的测量指标个数，CR为组合信度，δ为残差，当AVE值大于0.50且CR值大于0.70则说明聚合效度良好；