CN116909901B

CN116909901B - 基于富样本径向投影可信聚类的软件性能可视评价方法

Info

Publication number: CN116909901B
Application number: CN202310887404.6A
Authority: CN
Inventors: 程锦; 叶虎强; 谭建荣; 刘振宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2024-04-05
Anticipated expiration: 2043-07-19
Also published as: CN116909901A

Abstract

本发明公开了一种基于富样本径向投影可信聚类的软件性能可视评价方法。将富样本条件下的数据集进行标准化处理，通过有界概率变量建立各性能指标的数学描述并计算其可信度，从而获得软件性能二级指标可信得分。将各软件性能二级指标可信得分整合为一系列二级性能指标可信得分向量构成的多维度数据点，通过受力平衡原理确定各多维数据点的径向投影坐标，生成Radviz图，对其进行聚类分析，获得软件性能评价结果。该方法充分利用已有富样本测试数据，并考虑了通过自动化测试获得的性能测试数据的波动，结合可视化技术进行软件性能评价，结果直观可信。

Description

基于富样本径向投影可信聚类的软件性能可视评价方法

技术领域

本发明涉及软件性能评价领域，尤其涉及一种基于富样本径向投影可信聚类的软件性能可视评价方法。

背景技术

软件性能优劣往往是用户在多款功能相似的软件中选择适用工具时需考虑的重要因素。软件性能指标数据往往需通过测试获得，受测试环境不确定性的影响，即使采用相同的测试工具和测试用例对同一款软件进行多次重复测试所得的同一性能指标值也往往存在一定的波动。软件性能响应数据包括执行各类性能测试用例时所需的响应时间、内存占用量等不同类型，各类数据具有不同的量纲和不同的数量级，其值难以直接反映软件性能的优劣。此外，现有基于纯数学运算处理的软件性能评价方法不够直观。

发明内容

现有基于测试数据的软件性能评价方法没有考虑大量重复测试所得不确定性测试数据数学描述方式对评价结果可信度的影响，且不够直观。本发明的目的在于提供一种基于富样本径向投影可信聚类的软件性能可视评价方法，该方法针对样本量充足的软件性能指标测试数据建立各性能指标的有界概率描述并计算其可信度，从而利用富样本数据获得性能指标的可信得分，进而通过径向投影生成Radviz图并进行聚类分析，直观获得软件性能的评价结果。

本发明的目的是通过以下技术方案来实现的：一种基于富样本径向投影可信聚类的软件性能可视评价方法，包括如下步骤：

S1：确定软件性能评价指标集，包括性能一级指标Pr_i,1≤i≤I_Pr及其下属的性能二级指标Pr_ij,1≤j≤J_i，其中，I_Pr为性能一级指标个数，J_i为性能一级指标Pr_i下的性能二级指标个数；

S2：执行N次测试，获取各性能二级指标的原始测试数据，并进行标准化处理得到标准化数据；

S3：将软件性能评价指标的标准化数据n＝1,2,…,N整合为对应的样本集样本集中的最小值和最大值分别为/>和/>计算获得样本集/>的均值为方差为/>将均值和方差在区间/>内进行线性变换得到/>进而获得广义贝塔分布的形状参数/>与/>为设一个概率不确定性变量/>其广义贝塔分布的有界概率密度函数为：

其中Γ(·)是伽马函数；获取此概率密度变量的期望表示性能二级指标得分，标准差/>表示性能二级指标得分的不确定性，性能二级指标的不确定度为可信度为/>

S4：将各性能二级指标得分与可信度相乘，获得富样本条件下基于有界概率变量描述的软件性能二级指标可信得分

S5：假设有M款软件进行比较，每款软件的性能二级指标可信得分为Ex_m,k,1≤m≤M,1≤k≤K，其中K为所有一级指标对应的二级指标的个数之和，即将Ex_m,k,1≤m≤M,1≤k≤K整合为一个包含各款软件所有性能二级指标可信得分的二维数据矩阵E_M×K，E_M×K中的每一行E_m＝(Ex_m,1,...,Ex_m,K),1≤m≤M为第m个软件性能二级指标可信得分向量构成的K维数据点，包含该款软件所对应的所有性能二级指标可信得分；对于K维数据点E_m＝(Ex_m,1,...,Ex_m,K)，其第k,1≤k≤K维度的值Ex_m,k即为第k个弹簧的弹性系数，每个弹簧一端的端点按顺序从与x轴正方向的夹角为0度时开始逆时针均匀分布于单位圆圆周上，将每个端点在圆周上的位置点与圆心连线，每个指标的角度θ_k定义为该连线与x轴正方向的夹角，各端点R_k的坐标为(cosθ_k,sinθ_k)，另一端固定在同一个平衡位置点P_m上，根据受力平衡原理，标量化计算点P_m的坐标(x_m,y_m)，即径向投影点坐标为

S6：对二维数据矩阵E_M×K中的所有数据点进行径向投影计算对应坐标，得到Radviz图；

S7：对通过径向投影获得的Radviz图进行聚类分析，直观获得软件性能可视评价结果。

进一步地，步骤S2中，对性能二级指标Pr_ij的总共N个原始测试数据中的第n个数据样本若Pr_ij为效益型指标，即/>越大反映对应的软件性能越好，则标准化数据若Pr_ij为成本型指标，即/>越大反映对应的软件性能越差，则标准化数据/>其中/>和/>分别为所有参与测试的软件的同一性能二级指标Pr_ij对应的响应数据最大值和最小值。

本发明的有益效果在于：

(1)利用有界概率变量来描述富样本条件下软件性能指标的不确定性，进而计算各性能指标的可信度，从而在性能指标量化过程中充分考虑了软件性能富样本测试数据中所蕴含的概率不确定性的影响，获得了基于有界概率变量的软件性能指标可信得分。

(2)利用软件性能指标的可信得分，通过基于受力平衡的径向投影生成了Radviz图，能够直观地反映不同软件性能指标的相似度，进而直观地分析比较不同软件性能的优劣。

附图说明

下面结合附图和实施例对本发明进一步说明：

图1是本发明方法的流程图；

图2是本发明实施例提供的三款三维CAD软件富样本测试数据径向可信投影生成的Radviz图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提出的基于富样本径向投影可信聚类的软件性能可视评价方法，具体包括如下步骤：

S1：确定软件性能评价指标集，包括性能一级指标Pr_i(1≤i≤I_Pr)及其下属的性能二级指标Pr_ij(1≤j≤J_i)，其中，I_Pr为性能一级指标个数，J_i(1≤i≤I_Pr)为性能一级指标Pr_i下的性能二级指标个数；

S3：将软件性能评价指标的标准化数据(n＝1,2,…,N)整合为对应的样本集样本集中的最小值和最大值分别为/>和/>计算获得样本集/>的均值为方差为/>将均值和方差在区间/>内进行线性变换得到/>进而获得广义贝塔分布的形状参数/>与/>为设一个概率不确定性变量/>其广义贝塔分布的有界概率密度函数为：

S4：将各性能二级指标得分与可信度相乘，获得富样本条件下基于有界概率变量描述的考虑指标可信度的软件性能二级指标可信得分

S5：假设有M款软件进行比较，每款软件的性能二级指标可信得分为Ex_m,k,1≤m≤M,1≤k≤K，其中K为所有一级指标对应的二级指标的个数之和，即将Ex_m,k,1≤m≤M,1≤k≤K整合为一个包含各款软件所有性能二级指标可信得分的二维数据矩阵E_M×K，E_M×K中的每一行E_m＝(Ex_m,1,...,Ex_m,K),(1≤m≤M)为第m个软件性能二级指标可信得分向量构成的K维数据点，包含该款软件所对应的所有性能二级指标可信得分；对于K维数据点E_m＝(Ex_m,1,...,Ex_m,K),(1≤m≤M)，其第k,1≤k≤K维度的值Ex_m,k即为第k个弹簧的弹性系数，每个弹簧一端的端点按顺序从与x轴正方向的夹角为0度时开始逆时针均匀分布于单位圆圆周上，将每个端点在圆周上的位置点与圆心连线，每个指标的角度θ_k定义为该连线与x轴正方向的夹角，各端点R_k的坐标为(cosθ_k,sinθ_k)，另一端固定在同一个平衡位置点P_m上，根据受力平衡原理，标量化计算点P_m的坐标(x_m,y_m)，即径向投影点坐标为

以下结合附图和实例对本发明作进一步说明。

参见图1，针对富样本条件下三维CAD软件性能的可视评价，选择三维建模、布尔运算、模型加载、装配设计、尺寸标注、工程图设计作为六个性能一级指标，各一级指标又由一系列具体二级指标组成，每个二级指标使用3个较为复杂的模型作为测试用例，通过自动化测试工具获得各性能二级指标的响应数据。各层级性能评价指标如表1所示。

表1三维CAD软件性能评价指标

通过自动化测试工具分别得到CATIA、ZW3D、KM3DCAD三款软件(分别用A、B、C表示)的测试数据，其中CATIA(A)是对标软件。三款软件的每个二级指标重复测试50组数据，其中CATIA软件的所有预处理后的标准化数据如表2所示。

表2CATIA软件50组测试数据标准化后的结果

依据标准化数据建立有界概率密度函数，用期望表示指标得分，用标准差/>表示指标得分的不确定度，并计算三维CAD软件性能二级指标的可信度/>其中CATIA软件的性能二级指标得分及可信度如表3所示。进而将可信度与对应二级指标得分相乘，获得A、B、C三款软件考虑可信度的二级指标可信得分/>具体如表4所示。

表3CATIA软件基于有界概率不确定性描述的性能二级指标得分及可信度

表4A、B、C三款软件考虑可信度的性能二级指标可信得分

将表4中A、B、C三款软件的各自考虑可信度的二级指标可信得分排为一行，得到一个3×14大小的矩阵，每一行作为一个性能二级指标可信得分向量构成的十四维度数据点。每个数据点有14个特征(即二级指标)，其在单位圆上的位置及三角函数如表5所示。通过基于受力平衡的径向投影获得各个数据点的二维坐标值，具体数据如表6所示。不同软件各二级指标对应圆上各弹簧固定端，得到三款三维CAD软件性能测试数据考虑可信度的Radviz图，见图2。

表5各二级指标角度及其三角函数值

表6三款软件所有数据点在二维平面中的坐标

数据点标号	x	y
			A	0.173	-0.033
B	0.200	0.044
			C	-0.195	-0.285

分析图2中的Radviz图，可以很明显地观察到，B软件对应的数据点在二维平面上的投影相比于C软件对应的数据点在二维平面上的投影更加靠近对标软件A对应的数据点在二维平面上的投影，即B软件和A软件数据点间的距离更近，其性能更加接近，B软件性能优于C软件。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.基于富样本径向投影可信聚类的软件性能可视评价方法，其特征在于，包括如下步骤：

S2：执行N次测试，获取各性能二级指标的原始测试数据，并进行标准化处理得到标准化数据；对性能二级指标Pr_ij的总共N个原始测试数据中的第n个数据样本若Pr_ij为效益型指标，即/>越大反映对应的软件性能越好，则标准化数据/>若Pr_ij为成本型指标，即/>越大反映对应的软件性能越差，则标准化数据其中/>和/>分别为所有参与测试的软件的同一性能二级指标Pr_ij对应的响应数据最大值和最小值；

S3：将软件性能评价指标的标准化数据整合为对应的样本集/>样本集中的最小值和最大值分别为/>和/>计算获得样本集/>的均值为/>方差为/>将均值和方差在区间/>内进行线性变换得到进而获得广义贝塔分布的形状参数/>与/>为设一个概率不确定性变量/>其广义贝塔分布的有界概率密度函数为：