CN107957944B

CN107957944B - 面向用户数据覆盖率的测试用例自动生成方法

Info

Publication number: CN107957944B
Application number: CN201711195641.7A
Authority: CN
Inventors: 温盈盈; 尹建伟; 吴朝晖; 邓水光; 李莹
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2020-08-25
Anticipated expiration: 2037-11-24
Also published as: CN107957944A

Abstract

本发明公开了一种面向用户数据覆盖率的自动生成测试用例的方法，包括：(1)获得某软件产品的用户使用数据，组成数据集D_origin，并清洗所述数据集D_origin得到数据集D_clean；(2)采用机器学习方法处理所述数据集D_clean，获得测试用例集TC；(3)利用所述测试用例集TC对所述某软件产品进行测试，修复已经出现的漏洞，重复测试直至无严重漏洞，并将修复后的某软件产品重新投入使用；(4)记录重新投入使用的某软件产品的用户使用数据，组成数据集D_add，合并所述数据集D_add和所述数据集D_origin，得到作为下一轮测试用的数据集D_origin’。该方法可以提高测试过程的效率。

Description

面向用户数据覆盖率的测试用例自动生成方法

技术领域

本发明属于数据处理领域，具体涉及一种面向用户数据覆盖率的自动生成测试用例的方法。

背景技术

测试是软件开发过程中必不可少的环节，对软件质量度量的一种方式，用以判断软件实际的运行结果是否与预期的一致。测试用例是测试步骤中的关键元素。测试用例作为被测试程序的输入，用以观察程序的表现和结果，由此发现程序中的错误和缺陷。

测试用例的生成，长期以来依靠软件测试人员的经验和专业素养产生，手工完成。近期测试用例自动生成算法逐渐获得了许多研究者的关注，并产生了大量的成果。测试用例自动生成算法，从程序本身的结构出发，使生成出的测试用例能够最大限度地覆盖程序分支，从而尽量排除每个代码块中的漏洞。目前，生成算法追求的目的，除了算法本身的效率之外，将注意力集中在程序结构本身的正确性上。

但是每个代码块的使用频率不尽相同，如果将测试力度平均分配到每个代码块中，那么难以集中精力发现软件中用户常用代码块的漏洞。用户使用软件时，最常使用的部分，如果出现程序漏洞，将会极大影响用户的体验，以及软件产品的质量。从程序分支覆盖程度的传统评价指标出发，无法考虑到用户的实际使用情况。目前，尚未有从用户实际使用的角度出发，进行测试用例自动生成的方法发明。

发明内容

针对传统测试用例自动生成方法中，只考虑程序结构，未考虑用户实际使用情况的不足，本发明提出了一种面向用户数据覆盖率的自动生成测试用例的方法。

面向用户数据覆盖率的自动生成测试用例的方法，包括以下步骤：

(1)获得某软件产品的用户使用数据，组成数据集D_origin，并清洗所述数据集D_origin得到数据集D_clean；

(2)采用机器学习方法处理所述数据集D_clean，获得测试用例集TC；

(3)利用所述测试用例集TC对所述某软件产品进行测试，修复已经出现的漏洞，重复测试直至无严重漏洞，并将修复后的某软件产品重新投入使用；

(4)记录重新投入使用的某软件产品的用户使用数据，组成数据集D_add，合并所述数据集D_add和所述数据集D_origin，得到作为下一轮测试用的数据集D_origin’。

作为优选，所述清洗所述数据集D_origin得到数据集D_clean包括：

判断所述数据集D_origin中数据量是否足够，

若是，直接删除掉所述数据集D_origin中的异常数据，得到所述数据集D_clean；

若否，对所述数据集D_origin中的重复数据、关键字段缺失数据进行初步清洗，并格式规整初步清洗完的数据，获得所述数据集D_clean。

作为优选，所述步骤(2)包括：

(2-1)基于所述数据集D_clean中的N个数据特征，将所述数据集D_clean映射到N个数据特征上，组成数据特征集P＝{P_i，1≤i≤N}，并获得每个数据特征上数据的映射值，P_i表示第i个数据特征；

(2-2)根据数据特征P_i上的数据分布特点，确定所述数据特征P_i上数据划分的数量k_i，并采用聚类算法对所述数据特征P_i上数据自动聚类成k_i类，

(2-3)基于自动分类结果，将所述数据特征P_i上数据划分成k_i类，每类数据用C_i,j表示，并基于C_i,j中包含数据实例的个数，为C_i,j赋予权重W_i,j，其中，1≤j≤k_i；

(2-4)计算C_i,j包括的数据的均值，将所述均值作为C_i,j的代表性中心点O_i,j；

(2-5)将N个数据特征上的所有代表中心点O_i,j进行交叉合成，获得多个测试用例取值组合；

(2-6)根据权重W_i,j计算每个测试用例取值组合的综合权重，选取综合权重排在前50％～75％大的测试用例取值组合组成测试用例集TC。

聚类是一个把数据对象集划分成多个组或簇的过程，使得簇内的对象具有很高的相似性，但与其他簇中的对象很不相似。聚类是一种数据挖掘工具，有多种不同的算法可供选择，可以根据实际的数据特点进行具体算法的选择。

作为优选，所述权重W_i,j的计算过程为：

统计所述数据集D_clean中数据实例的个数N_total，统计C_i,j中包含数据实例的个数n_i,j，则权重W_i,j为：

在步骤(2-5)中，将N个数据特征上的所有代表中心点O_i,j进行交叉合成的过程，将每个数据特征的可能取值限定为数据特征的代表性点的值，共k_i种取值，一个测试用例包含N个数据特征，每个数据特征的取值，从k_i种中选取，共可生成k₁×k₂×…×k_N种不同取值组合的测试用例。

在步骤(2-6)中，每个测试用例取值组合的综合权重的计算中，将每个测试用例取值组合包含的所有代表中心点O_i,j对应C_i,j的权重W_ij相乘，获得该测试用例取值组合的综合权重，综合权重越大的取值组合，说明其出现的可能性较大，需要成为重点的测试对象。生成出最具代表性的测试用例，在有限测试资源的情况下，提高对实际使用情况的覆盖率。

本发明具有的有益效果为：

充分利用实际使用产品所产生的数据，从使用数据的角度出发，通过人工智能的方式生成测试用例，改变现有测试用例针对程序覆盖率而非用户实际使用模块覆盖的现状。以数据覆盖率作为全新的测试用例生成标准，提升测试过程的效率和针对性。为产品的测试方式带来革新。

附图说明

图1是本发明实施例提供的面向用户数据覆盖率的自动生成测试用例的方法的流程框图；

图2是本发明实施例提供的使用机器学习分析生成测试用例的详细方法流程图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本实施例利用机器学习算法，提出了一种通过对用户实际使用产品的数据进行自动分析，生成测试用例，用以提高测试过程效率的方法。

图1是本发明实施例提供的面向用户数据覆盖率的自动生成测试用例的方法的流程框图。参见图1，本实施例提供的方法包括以下步骤：

S101，获得某软件产品的用户使用数据，组成数据集D_origin，并清洗所述数据集D_origin得到数据集D_clean。

本步骤中，清洗所述数据集D_origin得到数据集D_clean的具体过程为：

判断所述数据集D_origin中数据量是否足够，

S102，采用机器学习方法处理所述数据集D_clean，获得测试用例集TC。

S102的具体过程如图2所示，参见图2，该步骤具体包括：

S201，基于所述数据集D_clean中的N个数据特征，将所述数据集D_clean映射到N个数据特征上，每个数据特征对应一个数据维度，组成数据特征集P＝{P_i，1≤i≤N}，并获得每个数据特征上数据的映射值，P_i表示第i个数据特征，也表示第i维数据；

S202，根据数据特征P_i上的数据分布特点，确定所述数据特征P_i上数据划分的数量k_i，并采用聚类算法对所述数据特征P_i上数据自动聚类成k_i类，

S203，基于自动分类结果，将所述数据特征P_i上数据划分成k_i类，每类数据用C_i,j表示，并基于C_i,j中包含数据实例的个数，为C_i,j赋予权重W_i,j，其中，1≤j≤k_i；

本步骤中，所述权重W_i,j的计算过程为：

S204，计算C_i,j包括的数据的均值，将所述均值作为C_i,j的代表性中心点O_i,j；

S205，将N个数据特征上的所有代表中心点O_i,j进行交叉合成，获得多个测试用例取值组合；

S206，根据权重W_i,j计算每个测试用例取值组合的综合权重，按照从大道小的顺序排列综合权重，并选取综合权重排在前50％～75％(本实施例选60％)的测试用例取值组合组成测试用例集TC；

本步骤中，将每个测试用例取值组合包含的所有代表中心点O_i,j对应C_i,j的权重W_ij相乘，获得该测试用例取值组合的综合权重，综合权重越大的取值组合，说明其出现的可能性较大，需要成为重点的测试对象。生成出最具代表性的测试用例，在有限测试资源的情况下，提高对实际使用情况的覆盖率。

S103，利用所述测试用例集TC对所述某软件产品进行测试，修复已经出现的漏洞，重复测试直至无严重漏洞，并将修复后的某软件产品重新投入使用；

S104，记录重新投入使用的某软件产品的用户使用数据，组成数据集D_add，合并所述数据集D_add和所述数据集D_origin，得到作为下一轮测试用的数据集D_origin’。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向用户数据覆盖率的自动生成测试用例的方法，包括以下步骤：

(2)采用机器学习方法处理所述数据集D_clean，获得测试用例集TC，具体包括：

(2-6)根据权重W_i,j计算每个测试用例取值组合的综合权重，选取综合权重排在前50％～75％大的测试用例取值组合组成测试用例集TC；

所述权重W_i,j的计算过程为：

所述综合权重的获取过程为：

将每个测试用例取值组合包含的所有代表中心点O_i,j对应C_i,j的权重W_ij相乘，获得该测试用例取值组合的综合权重；

2.如权利要求1所述的面向用户数据覆盖率的自动生成测试用例的方法，其特征在于，所述清洗所述数据集D_origin得到数据集D_clean包括：

判断所述数据集D_origin中数据量是否足够，