CN117076293B

CN117076293B - 基于贫样本层次可信聚类热力图的软件性能可视评价方法

Info

Publication number: CN117076293B
Application number: CN202310887394.6A
Authority: CN
Inventors: 程锦; 叶虎强; 谭建荣; 刘振宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2024-04-05
Anticipated expiration: 2043-07-19
Also published as: CN117076293A

Abstract

本发明公开了一种基于贫样本层次可信聚类热力图的软件性能可视评价方法。将贫样本条件下的数据集进行标准化处理，通过区间数建立各性能指标的数学描述并计算其可信度，从而获得软件性能二级指标可信得分。将各软件性能二级指标可信得分整合为一系列可信得分向量，通过欧式距离计算两个可信得分向量间的相似度，根据离差平方和最小增量原则选取最相似的两个向量进行类间合并。当所有向量归为一类时，得到层次聚类热力图，对其进行聚类分析，获得软件性能评价结果。提出的方法考虑了样本数据量较少情况下通过自动化测试获得的性能数据的波动，运用可视化技术实现对软件性能的评价，结果直观可信。

Description

基于贫样本层次可信聚类热力图的软件性能可视评价方法

技术领域

本发明涉及软件性能评价领域，尤其涉及一种基于贫样本层次可信聚类热力图的软件性能可视评价方法。

背景技术

软件性能优劣往往是用户在多款功能相似的软件中选择适用工具时需考虑的重要因素。软件性能指标数据往往需通过测试获得，受测试环境不确定性的影响，即使采用相同的测试工具和测试用例对同一款软件进行多次重复测试所得的同一性能指标值也往往存在一定的波动。软件性能响应数据包括执行各类性能测试用例时所需的响应时间、内存占用量等不同类型，各类数据具有不同的量纲和不同的数量级，其值难以直接反映软件性能的优劣。此外，现有基于纯数学运算处理的软件性能评价方法不够直观。

发明内容

现有基于测试数据的软件性能评价方法没有考虑若干次重复测试所得不确定性测试数据数学描述方式对评价结果可信度的影响，且不够直观。本发明的目的在于提供一种基于贫样本层次可信聚类热力图的软件性能可视评价方法，该方法针对样本较少的性能测试数据建立各性能指标的区间描述并计算其可信度，从而利用贫样本数据获得性能指标的可信得分，进而通过绘制层次可信聚类热力图直观呈现性能测试数据中所蕴含的软件性能优劣信息。

本发明的目的是通过以下技术方案来实现的：一种基于贫样本层次可信聚类热力图的软件性能可视评价方法，包括如下步骤：

S1：确定软件性能评价指标集，包括性能一级指标Pp_i,1≤i≤I_Pp及其下属的性能二级指标Pp_ij,1≤j≤J_i，其中，I_Pp为性能一级指标个数，J_i为性能一级指标Pp_i下的性能二级指标个数；

S2：执行N次测试，获取各性能二级指标的原始测试数据，并进行标准化处理得到标准化数据；

S3：依据性能评价指标的一系列标准化数据n＝1,2,…,N建立区间数其中/> 获取中点/>表示性能二级指标得分，宽度/>表示性能二级指标得分的不确定性，性能二级指标的不确定度为/>可信度为/>

S4：将各性能二级指标得分与可信度相乘，获得贫样本条件下基于区间数描述的软件性能二级指标可信得分

S5：假设有M款软件进行比较，每款软件的性能二级指标可信得分为I_m,k,1≤m≤M,1≤k≤K，其中K为所有一级指标对应的二级指标的个数之和，即将I_m,k,1≤m≤M,1≤k≤K整合为一个包含各款软件所有性能二级指标可信得分的二维数据矩阵Ι_M×K，Ι_M×K中的每一行I_m＝(I_m,1,...,I_m,K),1≤m≤M为第m款软件所有性能二级指标可信得分构成的性能二级指标可信得分向量；从Ι_M×K中选取任意两个性能二级指标可信得分向量和/>1≤m₁,m₂≤M,m₁≠m₂，计算其欧式距离进而计算其相似度/>

S6：初始时，两个性能二级指标可信得分向量和均各自组成一个单独的簇，分别为簇m₁和簇m₂，当这两簇合并时，离差平方和增量/>其中/>和/>分别为簇m₁和簇m₂中向量的个数，/>和/>分别为簇m₁和簇m₂的中心向量；

计算所有两簇合并可能下的离差平方和增量，选取离差平方和增量最小的合并情况，将对应的两簇合并为一个新簇，其他簇保持不变，为旧簇；

S7：重新计算新簇和旧簇组成的簇集合中任意两个簇间的相似度；

S8：重复S6和S7，直到所有性能二级指标可信得分向量归为一簇，获得层次可信聚类后的热力图；

S9：对层次可信聚类热力图进行聚类分析，直观获得软件性能可视评价结果。

进一步地，步骤S2中，对性能二级指标Pp_ij的总共N个原始测试数据中的第n个数据样本若Pp_ij为效益型指标，即/>越大反映对应的软件性能越好，则标准化数据若Pp_ij为成本型指标，即/>越大反映对应的软件性能越差，则标准化数据/>其中/>和/>分别为所有参与测试的软件的同一性能二级指标Pp_ij对应的响应数据最大值和最小值。

本发明的有益效果是：

(1)利用区间数来描述贫样本条件下软件性能指标的不确定性，进而计算各性能指标的可信度，在性能指标量化过程中充分考虑了软件性能测试数据中所蕴含的区间不确定性的影响，获得了基于区间数的软件性能指标可信得分。

(2)利用软件性能指标的可信得分构造了层次聚类热力图，能够直观地反映不同软件各类别性能指标的相似度，进而直观地分析软件各类性能的优劣，克服了现有侧重于通过数学建模与运算获得软件性能评分的方法过于抽象的不足。

附图说明

下面结合附图和实施例对本发明进一步说明：

图1是本发明方法的流程图；

图2是本发明实施例提供的三款三维CAD软件贫样本测试数据生成的层次可信聚类热力图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提出的基于贫样本层次可信聚类热力图的软件性能可视评价方法，具体包括如下步骤：

S1：确定软件性能评价指标集，包括性能一级指标Pp_i(1≤i≤I_Pp)及其下属的性能二级指标Pp_ij(1≤j≤J_i)，其中，I_Pp为性能一级指标个数，J_i(1≤i≤I_Pp)为性能一级指标Pp_i下的性能二级指标个数；

S3：依据性能评价指标的一系列标准化数据建立区间数其中/> 获取中点/>表示性能二级指标得分，宽度/>表示性能二级指标得分的不确定性，性能二级指标的不确定度为/>可信度为/>

S4：将各性能二级指标得分与可信度相乘，获得贫样本条件下基于区间数描述的考虑指标可信度的软件性能二级指标得分

S5：假设有M款软件进行比较，每款软件的性能二级指标可信得分为I_m,k,1≤m≤M,1≤k≤K，其中K为所有一级指标对应的二级指标的个数之和，即将I_m,k,1≤m≤M,1≤k≤K整合为一个包含各款软件所有性能二级指标可信得分的二维数据矩阵Ι_M×K，Ι_M×K中的每一行I_m＝(I_m,1,...,I_m,K),(1≤m≤M)为第m款软件所有性能二级指标可信得分构成的性能二级指标可信得分向量；从Ι_M×K中选取任意两个性能二级指标可信得分向量和/>1≤m₁,m₂≤M,m₁≠m₂，计算其欧式距离进而计算其相似度/>

S6：初始时，两个性能二级指标可信得分向量和均各自组成一个单独的簇，分别为簇m₁和簇m₂，当这两簇合并时，离差平方和增量/>(/>和/>分别为簇m₁和簇m₂中向量的个数，和/>分别为簇m₁和簇m₂的中心向量)；

以下结合附图和实例对本发明作进一步说明。

参见图1，针对贫样本条件下三维CAD软件性能的可视评价，选择三维建模、布尔运算、模型加载、装配设计、尺寸标注、工程图设计作为三维CAD软件六个性能一级指标，各一级指标又由一系列具体二级指标组成，每个二级指标使用3个较为复杂的模型作为测试用例，通过自动化测试工具获得各性能二级指标的响应数据。各层级性能评价指标如表1所示。

表1三维CAD软件性能评价指标

通过自动化测试工具分别得到CATIA、ZW3D、KM3DCAD三款软件(分别用A、B、C表示)的测试数据，其中CATIA(A)是对标软件。三款软件的每个二级指标重复测试15组数据，其中CATIA软件的所有预处理后的标准化数据如表2所示。

表2CATIA软件15组测试数据标准化后的结果

依据标准化数据建立区间数，用区间数中点表示指标得分，用区间数宽度/>表示指标得分的不确定性，并计算三维CAD软件性能二级指标的可信度/>其中CATIA软件的性能二级指标得分及可信度如表3所示。进而将可信度与对应二级指标得分相乘，获得A、B、C三款软件考虑可信度的二级指标可信得分/>具体如表4所示。

表3CATIA软件基于区间数不确定性描述的性能二级指标得分及可信度

表4A、B、C三款软件考虑可信度的性能二级指标得分

将表4中A、B、C三款软件的各自考虑可信度的二级指标可信得分排为一行，得到一个3×14大小的矩阵，每一行作为一个性能二级指标可信得分向量，遍历可能的每两个向量组合，计算其欧式距离，进而计算对应的软件性能的相似度，遍历完后获得相似度矩阵。此时为初始状态，从中可以找到任意两个向量对应的软件性能之间的相似度值。

根据离差平方和增量最小方法，计算可能的每两个向量组合情况下的离差平方和增量，找到最小增量，其对应的两向量组合执行本次簇类合并操作，合并为一个新簇，其他簇保持不变，为旧簇。然后重新计算新簇和旧簇组成的簇集合中任意两个簇间的相似度，再通过离差平方和增量最小方法重新找到最小增量情况，进而进行类合并。重复上述步骤，直到所有性能二级指标可信得分向量归为一簇，迭代完成，通过编程建模获得热力图，如图2所示。

分析图2中左侧的谱系图，可以很直接地观察到，A软件对应测试数据组成的簇与B软件对应测试数据组成的簇先聚为一类，合并后的类才会与C软件对应测试数据组成的簇聚为一类。对于这种情况，不需要进行聚类情况计数判断，可以直接得到B软件与A软件性能更相近的结论，即B软件性能优于C软件。此外，通过热力图颜色深度与集中情况，可以大致得到B软件的Pp₁₁、Pp₁₂、Pp₁₄、Pp₂₂、Pp₃₂、Pp₄₂、Pp₅₂、Pp₆₂性能指标优于C软件。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.基于贫样本层次可信聚类热力图的软件性能可视评价方法，其特征在于，包括如下步骤：

S2：执行N次测试，获取各性能二级指标的原始测试数据，并进行标准化处理得到标准化数据；对性能二级指标Pp_ij的总共N个原始测试数据中的第n个数据样本若Pp_ij为效益型指标，即/>越大反映对应的软件性能越好，则标准化数据/>若Pp_ij为成本型指标，即/>越大反映对应的软件性能越差，则标准化数据其中/>和/>分别为所有参与测试的软件的同一性能二级指标Pp_ij对应的响应数据最大值和最小值；

S3：依据性能评价指标的一系列标准化数据建立区间数其中/> 获取中点/>表示性能二级指标得分，宽度/>表示性能二级指标得分的不确定性，性能二级指标的不确定度为/>可信度为

S6：初始时，两个性能二级指标可信得分向量和/>均各自组成一个单独的簇，分别为簇m₁和簇m₂，当这两簇合并时，离差平方和增量其中/>和/>分别为簇m₁和簇m₂中向量的个数，/>和/>分别为簇m₁和簇m₂的中心向量；