CN117076293B - 基于贫样本层次可信聚类热力图的软件性能可视评价方法 - Google Patents

基于贫样本层次可信聚类热力图的软件性能可视评价方法 Download PDF

Info

Publication number
CN117076293B
CN117076293B CN202310887394.6A CN202310887394A CN117076293B CN 117076293 B CN117076293 B CN 117076293B CN 202310887394 A CN202310887394 A CN 202310887394A CN 117076293 B CN117076293 B CN 117076293B
Authority
CN
China
Prior art keywords
performance
index
software
cluster
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310887394.6A
Other languages
English (en)
Other versions
CN117076293A (zh
Inventor
程锦
叶虎强
谭建荣
刘振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310887394.6A priority Critical patent/CN117076293B/zh
Publication of CN117076293A publication Critical patent/CN117076293A/zh
Application granted granted Critical
Publication of CN117076293B publication Critical patent/CN117076293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于贫样本层次可信聚类热力图的软件性能可视评价方法。将贫样本条件下的数据集进行标准化处理,通过区间数建立各性能指标的数学描述并计算其可信度,从而获得软件性能二级指标可信得分。将各软件性能二级指标可信得分整合为一系列可信得分向量,通过欧式距离计算两个可信得分向量间的相似度,根据离差平方和最小增量原则选取最相似的两个向量进行类间合并。当所有向量归为一类时,得到层次聚类热力图,对其进行聚类分析,获得软件性能评价结果。提出的方法考虑了样本数据量较少情况下通过自动化测试获得的性能数据的波动,运用可视化技术实现对软件性能的评价,结果直观可信。

Description

基于贫样本层次可信聚类热力图的软件性能可视评价方法
技术领域
本发明涉及软件性能评价领域,尤其涉及一种基于贫样本层次可信聚类热力图的软件性能可视评价方法。
背景技术
软件性能优劣往往是用户在多款功能相似的软件中选择适用工具时需考虑的重要因素。软件性能指标数据往往需通过测试获得,受测试环境不确定性的影响,即使采用相同的测试工具和测试用例对同一款软件进行多次重复测试所得的同一性能指标值也往往存在一定的波动。软件性能响应数据包括执行各类性能测试用例时所需的响应时间、内存占用量等不同类型,各类数据具有不同的量纲和不同的数量级,其值难以直接反映软件性能的优劣。此外,现有基于纯数学运算处理的软件性能评价方法不够直观。
发明内容
现有基于测试数据的软件性能评价方法没有考虑若干次重复测试所得不确定性测试数据数学描述方式对评价结果可信度的影响,且不够直观。本发明的目的在于提供一种基于贫样本层次可信聚类热力图的软件性能可视评价方法,该方法针对样本较少的性能测试数据建立各性能指标的区间描述并计算其可信度,从而利用贫样本数据获得性能指标的可信得分,进而通过绘制层次可信聚类热力图直观呈现性能测试数据中所蕴含的软件性能优劣信息。
本发明的目的是通过以下技术方案来实现的:一种基于贫样本层次可信聚类热力图的软件性能可视评价方法,包括如下步骤:
S1:确定软件性能评价指标集,包括性能一级指标Ppi,1≤i≤IPp及其下属的性能二级指标Ppij,1≤j≤Ji,其中,IPp为性能一级指标个数,Ji为性能一级指标Ppi下的性能二级指标个数;
S2:执行N次测试,获取各性能二级指标的原始测试数据,并进行标准化处理得到标准化数据;
S3:依据性能评价指标的一系列标准化数据n=1,2,…,N建立区间数其中/> 获取中点/>表示性能二级指标得分,宽度/>表示性能二级指标得分的不确定性,性能二级指标的不确定度为/>可信度为/>
S4:将各性能二级指标得分与可信度相乘,获得贫样本条件下基于区间数描述的软件性能二级指标可信得分
S5:假设有M款软件进行比较,每款软件的性能二级指标可信得分为Im,k,1≤m≤M,1≤k≤K,其中K为所有一级指标对应的二级指标的个数之和,即将Im,k,1≤m≤M,1≤k≤K整合为一个包含各款软件所有性能二级指标可信得分的二维数据矩阵ΙM×K,ΙM×K中的每一行Im=(Im,1,...,Im,K),1≤m≤M为第m款软件所有性能二级指标可信得分构成的性能二级指标可信得分向量;从ΙM×K中选取任意两个性能二级指标可信得分向量和/>1≤m1,m2≤M,m1≠m2,计算其欧式距离进而计算其相似度/>
S6:初始时,两个性能二级指标可信得分向量均各自组成一个单独的簇,分别为簇m1和簇m2,当这两簇合并时,离差平方和增量/>其中/>和/>分别为簇m1和簇m2中向量的个数,/>和/>分别为簇m1和簇m2的中心向量;
计算所有两簇合并可能下的离差平方和增量,选取离差平方和增量最小的合并情况,将对应的两簇合并为一个新簇,其他簇保持不变,为旧簇;
S7:重新计算新簇和旧簇组成的簇集合中任意两个簇间的相似度;
S8:重复S6和S7,直到所有性能二级指标可信得分向量归为一簇,获得层次可信聚类后的热力图;
S9:对层次可信聚类热力图进行聚类分析,直观获得软件性能可视评价结果。
进一步地,步骤S2中,对性能二级指标Ppij的总共N个原始测试数据中的第n个数据样本若Ppij为效益型指标,即/>越大反映对应的软件性能越好,则标准化数据若Ppij为成本型指标,即/>越大反映对应的软件性能越差,则标准化数据/>其中/>和/>分别为所有参与测试的软件的同一性能二级指标Ppij对应的响应数据最大值和最小值。
本发明的有益效果是:
(1)利用区间数来描述贫样本条件下软件性能指标的不确定性,进而计算各性能指标的可信度,在性能指标量化过程中充分考虑了软件性能测试数据中所蕴含的区间不确定性的影响,获得了基于区间数的软件性能指标可信得分。
(2)利用软件性能指标的可信得分构造了层次聚类热力图,能够直观地反映不同软件各类别性能指标的相似度,进而直观地分析软件各类性能的优劣,克服了现有侧重于通过数学建模与运算获得软件性能评分的方法过于抽象的不足。
附图说明
下面结合附图和实施例对本发明进一步说明:
图1是本发明方法的流程图;
图2是本发明实施例提供的三款三维CAD软件贫样本测试数据生成的层次可信聚类热力图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提出的基于贫样本层次可信聚类热力图的软件性能可视评价方法,具体包括如下步骤:
S1:确定软件性能评价指标集,包括性能一级指标Ppi(1≤i≤IPp)及其下属的性能二级指标Ppij(1≤j≤Ji),其中,IPp为性能一级指标个数,Ji(1≤i≤IPp)为性能一级指标Ppi下的性能二级指标个数;
S2:执行N次测试,获取各性能二级指标的原始测试数据,并进行标准化处理得到标准化数据;
S3:依据性能评价指标的一系列标准化数据建立区间数其中/> 获取中点/>表示性能二级指标得分,宽度/>表示性能二级指标得分的不确定性,性能二级指标的不确定度为/>可信度为/>
S4:将各性能二级指标得分与可信度相乘,获得贫样本条件下基于区间数描述的考虑指标可信度的软件性能二级指标得分
S5:假设有M款软件进行比较,每款软件的性能二级指标可信得分为Im,k,1≤m≤M,1≤k≤K,其中K为所有一级指标对应的二级指标的个数之和,即将Im,k,1≤m≤M,1≤k≤K整合为一个包含各款软件所有性能二级指标可信得分的二维数据矩阵ΙM×K,ΙM×K中的每一行Im=(Im,1,...,Im,K),(1≤m≤M)为第m款软件所有性能二级指标可信得分构成的性能二级指标可信得分向量;从ΙM×K中选取任意两个性能二级指标可信得分向量和/>1≤m1,m2≤M,m1≠m2,计算其欧式距离进而计算其相似度/>
S6:初始时,两个性能二级指标可信得分向量均各自组成一个单独的簇,分别为簇m1和簇m2,当这两簇合并时,离差平方和增量/>(/>和/>分别为簇m1和簇m2中向量的个数,和/>分别为簇m1和簇m2的中心向量);
计算所有两簇合并可能下的离差平方和增量,选取离差平方和增量最小的合并情况,将对应的两簇合并为一个新簇,其他簇保持不变,为旧簇;
S7:重新计算新簇和旧簇组成的簇集合中任意两个簇间的相似度;
S8:重复S6和S7,直到所有性能二级指标可信得分向量归为一簇,获得层次可信聚类后的热力图;
S9:对层次可信聚类热力图进行聚类分析,直观获得软件性能可视评价结果。
进一步地,步骤S2中,对性能二级指标Ppij的总共N个原始测试数据中的第n个数据样本若Ppij为效益型指标,即/>越大反映对应的软件性能越好,则标准化数据若Ppij为成本型指标,即/>越大反映对应的软件性能越差,则标准化数据/>其中/>和/>分别为所有参与测试的软件的同一性能二级指标Ppij对应的响应数据最大值和最小值。
以下结合附图和实例对本发明作进一步说明。
参见图1,针对贫样本条件下三维CAD软件性能的可视评价,选择三维建模、布尔运算、模型加载、装配设计、尺寸标注、工程图设计作为三维CAD软件六个性能一级指标,各一级指标又由一系列具体二级指标组成,每个二级指标使用3个较为复杂的模型作为测试用例,通过自动化测试工具获得各性能二级指标的响应数据。各层级性能评价指标如表1所示。
表1三维CAD软件性能评价指标
通过自动化测试工具分别得到CATIA、ZW3D、KM3DCAD三款软件(分别用A、B、C表示)的测试数据,其中CATIA(A)是对标软件。三款软件的每个二级指标重复测试15组数据,其中CATIA软件的所有预处理后的标准化数据如表2所示。
表2CATIA软件15组测试数据标准化后的结果
依据标准化数据建立区间数,用区间数中点表示指标得分,用区间数宽度/>表示指标得分的不确定性,并计算三维CAD软件性能二级指标的可信度/>其中CATIA软件的性能二级指标得分及可信度如表3所示。进而将可信度与对应二级指标得分相乘,获得A、B、C三款软件考虑可信度的二级指标可信得分/>具体如表4所示。
表3CATIA软件基于区间数不确定性描述的性能二级指标得分及可信度
表4A、B、C三款软件考虑可信度的性能二级指标得分
将表4中A、B、C三款软件的各自考虑可信度的二级指标可信得分排为一行,得到一个3×14大小的矩阵,每一行作为一个性能二级指标可信得分向量,遍历可能的每两个向量组合,计算其欧式距离,进而计算对应的软件性能的相似度,遍历完后获得相似度矩阵。此时为初始状态,从中可以找到任意两个向量对应的软件性能之间的相似度值。
根据离差平方和增量最小方法,计算可能的每两个向量组合情况下的离差平方和增量,找到最小增量,其对应的两向量组合执行本次簇类合并操作,合并为一个新簇,其他簇保持不变,为旧簇。然后重新计算新簇和旧簇组成的簇集合中任意两个簇间的相似度,再通过离差平方和增量最小方法重新找到最小增量情况,进而进行类合并。重复上述步骤,直到所有性能二级指标可信得分向量归为一簇,迭代完成,通过编程建模获得热力图,如图2所示。
分析图2中左侧的谱系图,可以很直接地观察到,A软件对应测试数据组成的簇与B软件对应测试数据组成的簇先聚为一类,合并后的类才会与C软件对应测试数据组成的簇聚为一类。对于这种情况,不需要进行聚类情况计数判断,可以直接得到B软件与A软件性能更相近的结论,即B软件性能优于C软件。此外,通过热力图颜色深度与集中情况,可以大致得到B软件的Pp11、Pp12、Pp14、Pp22、Pp32、Pp42、Pp52、Pp62性能指标优于C软件。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims (1)

1.基于贫样本层次可信聚类热力图的软件性能可视评价方法,其特征在于,包括如下步骤:
S1:确定软件性能评价指标集,包括性能一级指标Ppi,1≤i≤IPp及其下属的性能二级指标Ppij,1≤j≤Ji,其中,IPp为性能一级指标个数,Ji为性能一级指标Ppi下的性能二级指标个数;
S2:执行N次测试,获取各性能二级指标的原始测试数据,并进行标准化处理得到标准化数据;对性能二级指标Ppij的总共N个原始测试数据中的第n个数据样本若Ppij为效益型指标,即/>越大反映对应的软件性能越好,则标准化数据/>若Ppij为成本型指标,即/>越大反映对应的软件性能越差,则标准化数据其中/>和/>分别为所有参与测试的软件的同一性能二级指标Ppij对应的响应数据最大值和最小值;
S3:依据性能评价指标的一系列标准化数据建立区间数其中/> 获取中点/>表示性能二级指标得分,宽度/>表示性能二级指标得分的不确定性,性能二级指标的不确定度为/>可信度为
S4:将各性能二级指标得分与可信度相乘,获得贫样本条件下基于区间数描述的软件性能二级指标可信得分
S5:假设有M款软件进行比较,每款软件的性能二级指标可信得分为Im,k,1≤m≤M,1≤k≤K,其中K为所有一级指标对应的二级指标的个数之和,即将Im,k,1≤m≤M,1≤k≤K整合为一个包含各款软件所有性能二级指标可信得分的二维数据矩阵ΙM×K,ΙM×K中的每一行Im=(Im,1,...,Im,K),1≤m≤M为第m款软件所有性能二级指标可信得分构成的性能二级指标可信得分向量;从ΙM×K中选取任意两个性能二级指标可信得分向量和/>1≤m1,m2≤M,m1≠m2,计算其欧式距离进而计算其相似度/>
S6:初始时,两个性能二级指标可信得分向量和/>均各自组成一个单独的簇,分别为簇m1和簇m2,当这两簇合并时,离差平方和增量其中/>和/>分别为簇m1和簇m2中向量的个数,/>和/>分别为簇m1和簇m2的中心向量;
计算所有两簇合并可能下的离差平方和增量,选取离差平方和增量最小的合并情况,将对应的两簇合并为一个新簇,其他簇保持不变,为旧簇;
S7:重新计算新簇和旧簇组成的簇集合中任意两个簇间的相似度;
S8:重复S6和S7,直到所有性能二级指标可信得分向量归为一簇,获得层次可信聚类后的热力图;
S9:对层次可信聚类热力图进行聚类分析,直观获得软件性能可视评价结果。
CN202310887394.6A 2023-07-19 2023-07-19 基于贫样本层次可信聚类热力图的软件性能可视评价方法 Active CN117076293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310887394.6A CN117076293B (zh) 2023-07-19 2023-07-19 基于贫样本层次可信聚类热力图的软件性能可视评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310887394.6A CN117076293B (zh) 2023-07-19 2023-07-19 基于贫样本层次可信聚类热力图的软件性能可视评价方法

Publications (2)

Publication Number Publication Date
CN117076293A CN117076293A (zh) 2023-11-17
CN117076293B true CN117076293B (zh) 2024-04-05

Family

ID=88714285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310887394.6A Active CN117076293B (zh) 2023-07-19 2023-07-19 基于贫样本层次可信聚类热力图的软件性能可视评价方法

Country Status (1)

Country Link
CN (1) CN117076293B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490412A (zh) * 2022-02-14 2022-05-13 浙江大学 基于自减逆向云发生器的三维cad软件性能度量方法及装置
CN114491699A (zh) * 2022-02-14 2022-05-13 浙江大学 基于拓展区间数的三维cad软件易用性量化方法及装置
CN114510519A (zh) * 2022-01-25 2022-05-17 北京航天云路有限公司 一种基于工业大数据模型的可视化分析方法及系统
CN116909901A (zh) * 2023-07-19 2023-10-20 浙江大学 基于富样本径向投影可信聚类的软件性能可视评价方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040210661A1 (en) * 2003-01-14 2004-10-21 Thompson Mark Gregory Systems and methods of profiling, matching and optimizing performance of large networks of individuals

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510519A (zh) * 2022-01-25 2022-05-17 北京航天云路有限公司 一种基于工业大数据模型的可视化分析方法及系统
CN114490412A (zh) * 2022-02-14 2022-05-13 浙江大学 基于自减逆向云发生器的三维cad软件性能度量方法及装置
CN114491699A (zh) * 2022-02-14 2022-05-13 浙江大学 基于拓展区间数的三维cad软件易用性量化方法及装置
CN116909901A (zh) * 2023-07-19 2023-10-20 浙江大学 基于富样本径向投影可信聚类的软件性能可视评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multiobjective optimization of injection molding parameters based on soft computing and variable complexity method;Jin Cheng等;The International Journal of Advanced Manufacturing Technology;全文 *
基于RBF神经网络的构造煤多分类研究;吴善杰;中国优秀硕士学位论文全文数据库 (工程科技Ⅰ辑);B021-622 *

Also Published As

Publication number Publication date
CN117076293A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN104756106B (zh) 表征数据存储系统中的数据源
CN108229588B (zh) 一种基于深度学习的机器学习识别方法
CN108304328B (zh) 一种众包测试报告的文本描述生成方法、系统及装置
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN114281809B (zh) 一种多源异构数据清洗方法及装置
CN111581092A (zh) 仿真测试数据的生成方法、计算机设备及存储介质
Olea A practical primer on geostatistics
CN110544047A (zh) 一种不良数据辨识方法
Felde et al. A comparison of novel and traditional numerical methods for the analysis of modern pollen assemblages from major vegetation–landform types
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN116909901B (zh) 基于富样本径向投影可信聚类的软件性能可视评价方法
Bruzzese et al. DESPOTA: DEndrogram slicing through a pemutation test approach
CN114386466A (zh) 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法
CN108229692B (zh) 一种基于双重对比学习的机器学习识别方法
CN117076293B (zh) 基于贫样本层次可信聚类热力图的软件性能可视评价方法
CN117078077A (zh) 一种高速公路路域的生态脆弱性评价方法
Coppa et al. The bimodality of the 10k zCOSMOS-bright galaxies up to z~ 1: a new statistical and portable classification based on optical galaxy properties
CN112200272B (zh) 业务分类方法及装置
WO2022183019A1 (en) Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact
CN113792141A (zh) 基于协方差度量因子的特征选择方法
CN114185785A (zh) 面向深度神经网络的自然语言处理模型测试用例约简方法
Keskin et al. Cohort fertility heterogeneity during the fertility decline period in Turkey
CN115902814B (zh) 基于信息空间度量的目标识别模型性能评估方法和装置
CN116596386B (zh) 一种工程建设项目可行性分析评估方法
Xia et al. Software Module Clustering Using the Hierarchical Clustering Combination Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant