CN104281525B

CN104281525B - 一种缺陷数据分析方法及利用其缩减软件测试项目的方法

Info

Publication number: CN104281525B
Application number: CN201410589991.1A
Authority: CN
Inventors: 万琳; 王钦钊; 范秋灵; 李小龙; 张威
Original assignee: Academy of Armored Forces Engineering of PLA
Current assignee: Academy of Armored Forces Engineering of PLA
Priority date: 2014-10-28
Filing date: 2014-10-28
Publication date: 2016-12-07
Anticipated expiration: 2034-10-28
Also published as: CN104281525A

Abstract

本发明提供了一种缺陷数据分析方法及利用其缩减软件测试项目的方法。本发明的缺陷数据分析方法包括缺陷数据向量空间模型构建、缺陷数据相似度计算、缺陷数据离散化编码、数据矩阵简化、染色体集合获取及负关联关系提取等步骤。该方法解决了现有负关联关系分析方法不成熟、效率低、可信度不高的难题，不需要频繁地对数据库的访问，只需要一次对数据库的访问即可完成整个分析过程。基于该分析方法，本发明还提供了缩减软件测试项目的方法，通过对负关联关系的分析，能够有效帮助测试人员筛选出与缺陷无关的测试项目，进而提高软件测试的效率。

Description

一种缺陷数据分析方法及利用其缩减软件测试项目的方法

技术领域

本发明涉及数据分析领域，具体涉及缺陷数据分析方法和利用缺陷数据分析来缩减测试工作量的方法。

背景技术

软件测试技术飞速发展，各测评机构通过大量的测试任务，已积累了海量高维度、高复杂性的软件缺陷数据。充分利用这些历史缺陷数据，分析它们之间的关联关系，可以有效指导后续的软件测试工作，提高测试效率、降低测试成本。

目前，关于软件缺陷数据间关联关系的分析方法中大多数是研究正关联关系的，如：Apriori算法及其改进算法、基于遗传算法的关联规则挖掘方法、基于神经网络的关联规则挖掘方法等。这些用于挖掘正关联规则的研究方法已经比较成熟，且简洁高效，挖掘效果较好。然而，此类正关联规则分析方法只能发现那些高频率、强关联的显示模式，形如X→Y的蕴含式，实际数据库中还有很多低频率、强关联的隐式模式，形如的蕴含式，即负关联关系。负关联关系可以揭示数据集中哪些项目不可能一起发生或者较少一起发生，对于软件测试工作同样具有重要的指导意义，上述基于正关联关系的分析方法无法针对此类关联关系进行挖掘。

较少的负关联关系研究方法中，其基本思路均为：首先搜索数据库中所有的频繁项集，然后根据兴趣度、相关系数等客观度量标准从频繁项集中挖掘负关联规则，此类方法在搜索频繁项集时需要频繁扫描数据库以获得候选项集的支持度，因此挖掘效率较低，且仅仅依靠支持度-置信度框架约束频繁项集会造成候选项集过多，导致负项目的频繁项集数量爆炸问题，从而产生过多冗余规则，使得挖掘出来的负关联关系可信度不高。

发明内容

本发明要解决的技术问题是提供一种用于分析软件缺陷数据之间的负关联关系的方法，解决了现有负关联关系分析方法不成熟、效率低、可信度不高的难题。并且，本发明利用该缺陷数据分析方法能够缩减软件测试项目，以便提高软件测试效率。

具体而言，本发明提供了一种软件缺陷数据分析方法，其特征在于，包括以下步骤：

步骤1、读取软件缺陷数据库，从软件缺陷数据库中提取软件缺陷的相关特征属性，并分别将这些特征属性进行离散化编码，建立软件缺陷数据向量空间模型；

步骤2、根据软件缺陷数据的向量空间模型，引入模糊等价矩阵计算不同软件缺陷数据之间的相似度，并且，提取相似度值介于预定的上、下边界阈值之间的相关缺陷数据作为分析对象，对于每个分析对象，形成负关联规则的初始前件和后件；

步骤3、将所述步骤2获得的相关缺陷数据离散化编码，并创建数据矩阵；

步骤4、简化数据矩阵；

步骤5、根据简化的数据矩阵生成初始染色体种群，进行遗传操作，获得具有强关联关系的染色体集合；

步骤6、根据预定的支持度和置信度的阈值，对步骤5中所获得的染色体集合中的每个染色体进行判断，以便从所述染色体集合中提取出各软件缺陷的负关联关系。

在一种优选实现方式中，计算软件缺陷数据之间的相似度的步骤包括：

对所述向量空间模型进行归一化处理；

构建模糊相似矩阵；

将所述模糊相似矩阵改造为模糊等价矩阵。

在另一种优选实现方式中，所述步骤4中的简化是根据频繁项集的性质及负关联规则的定义进行的。

在另一种优选实现方式中，所述步骤5包括根据负关联关系的特点设计适应度函数、选择算子、交叉算子、变异算子。

在另一种优选实现方式中，所述步骤4中的简化是基于频繁项阈值而进行的。

在另一种优选实现方式中，在遗传操作中，所选择的适应度函数为：

其中，N为软件配置项的个数，φ表示相关度，p_XY、表示四种关联形式的发生次数，X表示规则前件中的缺陷，Y表示规则后件的缺陷，P_X+表示规则前件X发生的次数，即为P_XY与之和，P_+Y表示规则后件Y发生的次数，即为P_XY与之和。

另一方面，本发明提供一种利用软件缺陷数据分析缩减软件测试项目的方法，所述方法包括：

利用根据权利要求1所述的方法对软件缺陷库中的数据进行分析并提取出负关联规则；

根据提取结果调整后续测试工作，删减不易发生缺陷测试项的测试方案及用例，具体调整过程包括：

(1)对于形式的负关联规则，当X缺陷所在测试项完成且X缺陷发生时，则删减针对Y缺陷测试项的用例；

(2)对于形式的负关联规则，当X缺陷所在测试项完成且未发生X缺陷时，则删减针对Y缺陷测试项的用例；

(3)对于形式的负关联规则，当X缺陷所在测试项完成且未发生X缺陷时，应增强针对Y缺陷测试项的用例，

其中，X表示所提取的负关联规则中规则前件的缺陷，Y表示规则后件的缺陷。

本发明所提到的初始后件指的是任意一个待分析缺陷，初始前件指的是与待分析缺陷的相关缺陷或相关缺陷集。

本发明的有益效果是：由于数据矩阵只需一次扫描数据库即可将全部数据的频繁项特征映射到矩阵中，后续分析只需进行矩阵操作即可，无需多次扫描数据库，因此，本发明采用基于数据矩阵的方法进行负关联关系提取，有效解决了其他方法需要频繁扫描数据库、效率低的缺点。同时通过改进的遗传算法，在支持度-置信度框架基础之上增加了相关度φ_XY作为评价依据并动态调整其阈值，有效剔除冗余信息，一定程度上缩小了负关联规则的数量规模，加快收敛速度，提高了负关联关系提取的效率及准确率。

附图说明

图1为本发明的缺陷数据分析方法的示例性流程图；

图2为染色体前点交叉示意图；

图3染色体变异示意图。

具体实施方式

下面结合对一款普通的信息化管理软件进行测试所得的缺陷数据，对本发明的具体实施方式进行详述。

该信息化软件系统由综合计划管理软件、人员管理软件、维修业务管理软件等9个配置项构成，共同完成信息化管理的组织、计划、协调等业务工作。各配置项在功能和结构上有一定的相似性，只是针对的对象有所不同，这使得该软件的测试缺陷数据之间存在一定的关联性。在对软件进行大量测试之后，通常的信息化软件系统往往都具有软件缺陷数据库。在本实施例中，主要通过软件缺陷数据库获得软件缺陷数据。

软件缺陷例如可以包括：功能测试缺陷“录入功能错”、“查询功能错”等；边界测试缺陷“维修率录入无边界限制”、“型号录入无边界限制”等；性能测试缺陷“提取时间超时”“入库时间超时”等；安全性测试缺陷“删除无警示”等。

图1示出了本发明的方法的示例性流程，下面结合图1进行详细描述。

一、向量空间模型构建

分析缺陷数据间关联关系的第一步是要提取软件缺陷数据的相关特征属性，并进行抽象化编码，建立软件缺陷数据的向量空间模型。

抽象化编码方法如下：根据软件特征属性V_p的不同取值类型，进行对应的编码：

·若V_p的取值是有限的、离散的，且0<|V_p|<∞，则将这些取值分别编码为“1”，“2”，……；

·若V_p的取值是连续的或者无限的，则采用等距离划分方法将这些取值划分为有限个区间，并分别编码为“1”，“2”，……；

·若某项目取值为空或者某事务不包含该项目，则编码为“0”。

本实例中提取了“缺陷名称”、“缺陷类型”、“缺陷级别”、“测试类型”、“测试项”、“测试优先级”、“需求来源”7个特征属性并对每一属性的取值依次编码(在实际应用中，缺陷的种类和取值编码方式是可以根据需要具体选择的，这里不做限定)。则各缺陷数据对应的属性编码如表1所示：

表1软件缺陷数据属性编码表

据表1建立缺陷数据向量空间模型如下：

其中，v表示缺陷，p表示缺陷的特征属性，模型中的元素表示特征属性的抽象化编码值。

二、缺陷数据相似度计算

在建立缺陷数据向量空间模型之后，第二步是利用模糊等价矩阵计算不同缺陷数据之间的相似度，以获得相关缺陷集。具体计算方法如下：

(1)数据归一化

为了避免后续数据处理过程中某一维或某几维数据差异过大对计算精度的影响，加快程序的收敛速度，首先需要对向量空间模型D进行归一化处理，即在不改变原始数据属性特征的前提下，将样本数据的取值空间收缩到[0，1]。归一化方法如公式2所示：

s_{i j} = \frac{d_{i j} - {d_{j}}^{\min}}{{d_{j}}^{\max} {d_{j}}^{\min}} - - - (2)

其中d_j ^min为矩阵D第j列元素的最小值，d_j ^max为矩阵D第j列元素的最大值。

以式1中的缺陷数据向量空间模型为例，对其归一化后得到归一化矩阵S：

S = (\begin{matrix} 0.0000 & 0.0000 & 1.0000 & 0.0000 & 0.0000 & 1.0000 & 0.0000 \\ 0.0033 & 1.0000 & 0.5000 & 0.6667 & 0.0008 & 0.0000 & 0.0513 \\ 0.0065 & 1.0000 & 0.5000 & 0.5000 & 0.0015 & 0.0000 & 0.0513 \\ 0.0098 & 1.0000 & 0.5000 & 1.0000 & 0.0023 & 0.0000 & 0.0256 \\ 0.0131 & 1.0000 & 0.0000 & 0.8333 & 0.0030 & 0.0000 & 0.0128 \\ ... & ... & ... & ... & ... & ... & ... \\ 0.9967 & 1.0000 & 1.0000 & 0.3333 & 1.0000 & 1.0000 & 1.0000 \\ 1.0000 & 1.0000 & 1.0000 & 0.3333 & 1.0000 & 1.0000 & 1.0000 \end{matrix}) - - - (3)

(2)模糊相似矩阵

模糊相似矩阵是用于存储不同数据之间相似度的m维对称矩阵，取值范围为[0,1]，本发明中利用它来计算软件缺陷数据之间的相似度。对归一化矩阵S用最小最大法按照如下方式可建立模糊相似矩阵：

其中，i＝1,2,…,m，j＝1,2,…,m，m为矩阵的行数，n为矩阵的列数。

以式3中的归一化矩阵为例，本发明建立的模糊相似矩阵为：

R = (\begin{matrix} 1.0000 & 0.4375 & 0.4242 & 0.4118 & 0.3939 & ... & 0.0088 & 0.0088 \\ 0.4375 & 1.0000 & 0.9063 & 0.7222 & 0.6216 & ... & 0.0155 & 0.0155 \\ 0.4242 & 0.9063 & 1.0000 & 0.7500 & 0.6486 & ... & 0.0166 & 0.0166 \\ 0.4118 & 0.7222 & 0.7500 & 1.0000 & 0.8235 & ... & 0.0155 & 0.0154 \\ 0.3939 & 0.6216 & 0.6486 & 0.8235 & 1.0000 & ... & 0.0149 & 0.0149 \\ ... & ... & ... & ... & ... & ... & ... & ... \\ 0.0088 & 0.0155 & 0.0166 & 0.0155 & 0.0149 & ... & 1.0000 & 0.9994 \\ 0.0088 & 0.0155 & 0.0166 & 0.0154 & 0.0149 & ... & 0.9994 & 1.0000 \end{matrix}) - - - (5)

(3)模糊等价矩阵

上述方法获得的是模糊相似矩阵，不满足传递性，不能如实反映原始数据的关联特征，因此，还需要将矩阵R改造成模糊等价矩阵T。在本方法中，采用传递闭包法建立模糊等价矩阵T，即按照最短路径原则通过T不断自乘的方法寻求两个变量之间的密切关系。具体处理过程是：将T不断自乘，直到满足T^2k＝T^k＝T为止，这样便建立了模糊等价矩阵T。

以式5为例，本发明基于其所建立的模糊等价矩阵为：

T = (\begin{matrix} 1.0000 & 0.4375 & 0.4375 & 0.4375 & 0.4375 & ... & 0.0166 & 0.0166 \\ 0.4375 & 1.0000 & 0.9063 & 0.7500 & 0.7500 & ... & 0.0166 & 0.0166 \\ 0.4375 & 0.9063 & 1.0000 & 0.7500 & 0.7500 & ... & 0.0166 & 0.0166 \\ 0.4375 & 0.7500 & 0.7500 & 1.0000 & 0.8235 & ... & 0.0166 & 0.0166 \\ 0.4375 & 0.7500 & 0.7500 & 0.8235 & 1.0000 & ... & 0.0166 & 0.0166 \\ ... & ... & ... & ... & ... & ... & ... & ... \\ 0.0166 & 0.0166 & 0.0166 & 0.0166 & 0.0166 & ... & 1.0000 & 0.9994 \\ 0.0166 & 0.0166 & 0.0166 & 0.0166 & 0.0166 & ... & 0.9994 & 1.0000 \end{matrix}) - - - (6)

由此矩阵可知任一缺陷与其他缺陷的相似度，设定上、下阈值即可提取出待分析缺陷的相关缺陷集。本实例中在设定上阈值为1，下阈值为0.8情况下，提取出的一个相关缺陷集如表2所示：

表2相关缺陷集示例

其中缺陷1～10均为缺陷11的相关缺陷，因此，令缺陷11为关联规则后件，其相关缺陷集1～10作为规则的初始前件集。

三、建立数据矩阵

第三步是要对上一步提取出的相关缺陷数据进行抽象化编码，通过编码就可将原始复杂多样的缺陷数据转换为可挖掘的离散化抽象数据，并基于抽象化编码的数据建立数据矩阵，编码方法同第一步。

本实例中各软件配置项与提取缺陷的关系如表3所示：

表3软件配置项与提取缺陷关系表

抽象编码后如表4所示：

表4软件缺陷数据编码表

其中，规则前件X和规则后件Y中的非零元素表示软件缺陷数据的抽象化编码值，“0”表示该配置项中不包含该缺陷。

按如下方式构建数据矩阵：

对矩阵A的每一个元素{a_ij}进行如下定义：

其中，m为矩阵A的行数，m＝N+1，N为软件配置项的个数，n为矩阵的列数，n＝d+1，d为软件缺陷数据的个数，i＝1,2,3,…m，j＝1,2,3,…n，p_ij为编码表中对应位置的取值，num函数用于计算矩阵元素a_ij所在行或者所在列非零元素的个数。矩阵的最后一行表示各个缺陷在数据库中出现的次数，最后一列表示每个配置项包含的缺陷数，其余的每行表示一个软件配置项，每列表示一个缺陷数据。

依据表4构建的数据矩阵A为：

A = (\begin{matrix} 0 & 2 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ 1 & 0 & 3 & 0 & 5 & 6 & 0 & 8 & 0 & 0 & 0 & 5 \\ 1 & 0 & 3 & 0 & 5 & 6 & 0 & 0 & 0 & 0 & 11 & 5 \\ 1 & 0 & 3 & 0 & 5 & 0 & 0 & 0 & 0 & 10 & 0 & 4 \\ 0 & 2 & 3 & 0 & 0 & 6 & 0 & 8 & 0 & 0 & 11 & 5 \\ 1 & 0 & 3 & 0 & 5 & 6 & 0 & 0 & 0 & 0 & 0 & 4 \\ 1 & 0 & 3 & 0 & 5 & 6 & 0 & 0 & 9 & 0 & 0 & 5 \\ 1 & 0 & 3 & 4 & 5 & 0 & 7 & 0 & 0 & 0 & 0 & 5 \\ 1 & 0 & 0 & 4 & 0 & 0 & 0 & 0 & 9 & 10 & 11 & 5 \\ 7 & 2 & 7 & 2 & 6 & 5 & 1 & 2 & 2 & 2 & 3 & 0 \end{matrix}) - - - (8)

四、对数据矩阵进行简化

·列简化

列简化是依据频繁项集的性质及其推论删除数据矩阵中的非频繁项。具体实施方法为：

根据给定的支持度阈值minsup，计算频繁项集出现的最少次数l，公式为：

l＝ceiling(minsup×N) (9)

其中N为配置项总数，ceiling(x)函数用于计算不小于变量x的最小正整数。

将公式9的计算结果l依次与矩阵A的最后一行元素a_mj进行比较，若a_mj<l，则表示第j列缺陷的出现次数小于频繁项集的最少出现次数，因此其为非频繁项集，故删除矩阵的第j列。化简完成后删除用于计算缺陷出现次数的矩阵的最后一行。

·行简化

依据负关联规则的定义，每一条负关联规则都必须包括规则前件和规则后件，则规则的研究对象的个数至少为2。因此，可以删除仅包含一个缺陷的配置项，即删除矩阵最后一列中值为“1”的行。化简完成后删除用于计算配置项所含缺陷数的矩阵的最后一列。

设支持度阈值minsup＝0.2，l＝ceiling(0.2×9)＝2，则数据矩阵A经过简化后的数据矩阵B为：

B = (\begin{matrix} 1 & 0 & 3 & 0 & 5 & 6 & 8 & 0 & 0 & 0 \\ 1 & 0 & 3 & 0 & 5 & 6 & 0 & 0 & 0 & 1 \\ 1 & 0 & 3 & 0 & 5 & 0 & 0 & 0 & 10 & 0 \\ 0 & 2 & 3 & 0 & 0 & 6 & 8 & 0 & 0 & 11 \\ 1 & 0 & 3 & 0 & 5 & 6 & 0 & 0 & 0 & 0 \\ 1 & 0 & 3 & 0 & 5 & 6 & 0 & 9 & 0 & 0 \\ 1 & 0 & 3 & 4 & 5 & 0 & 0 & 0 & 0 & 0 \\ 1 & 0 & 0 & 4 & 0 & 0 & 0 & 9 & 10 & 11 \end{matrix}) - - - (10)

五、进行遗传操作，获取相关染色体集合。

获取具有强关联关系的规则集合。由于遗传算法应用领域的不同，本发明根据负关联规则的特性重新设计了遗传算法的编码方式、初始种群生成、适应度函数及遗传算子。

(1)染色体编码

简化的数据矩阵保留了原始数据的关联特点，故遗传算法的初始种群即可由数据矩阵直接对应而来，方法如下：

将数据矩阵的每个行向量编为一条染色体，每条染色体代表一条规则，每个基因对应一个软件缺陷数据，0表示该缺陷数据空缺，“1，2，……”表示该缺陷数据的编码，则种群规模为简化矩阵B的行数M。

(2)遗传算子设计

a.选择算子

对于缺陷数据而言，两个适应度高的个体不一定会繁衍出优秀的个体，甚至有可能会破坏原本适应性很高的个体，因此，在本发明中，选择算子采用最优生存法则，即保留适应度值大于临界值的个体，直接遗传到下一代，从而避免最优个体被遗传操作破坏。

b.交叉算子

本发明采用单点交叉算子，具体执行过程为：选取两个个体，随机设定某一个基因后的位置为交叉点；根据一定的交叉概率p_c，在各自的交叉点前或后互相交换双方的部分染色体，从而产生两个新的个体。

以染色体1030568000和100400091011为例，设定染色体的第5位为交叉点，交换这两条染色体交叉点前的基因，如图2所示：

前点交叉操作后产生的新染色体为：1004568000和103000091011。

c.变异算子

基因变异时，若该基因所在位对应的取值只有0和1，那么变异策略一般为0变为1，1变为0。虽然本发明中的每个基因所对应的值不是只有0和1，但由编码规则可知，实际上其取值只可能为两种情况，一种为0，一种为其对应的非0项目属性编码值，因此设计变异算子为：“0”值变异为该基因位对应的项目属性编码值，非0值变异为0。

以染色体1030568000为例，其变异过程如图3所示。

d.适应度函数构造

适应度函数选取的好坏直接影响着最终的挖掘结果。常规关联规则的相关性衡量指标是相关度φ，计算公式为：

φ = \frac{f_{11} f_{00} - f_{01} f_{10}}{\sqrt{f_{+} f_{+ 1} f_{0 +} f_{+ 0}}} - - - (11)

其中，f表示项目出现在一个事务中的频度。本发明依据负关联规则特征对其计算方法进行改进：以四种关联形式的发生次数p_XY、 (X表示规则前件中的缺陷，Y表示规则后件中的缺陷，p_XY表示X和Y同时发生、表示X和Y均不发生、表示X不发生Y发生、表示X发生Y不发生)代替f₁₁、f₀₀、f₀₁、f₁₀，并考虑计算的简便性对公式11进行变形消除和项，得到如下适应度函数：

对于负关联规则而言，当φ_XY≤-0.5时，说明X和Y强相关；当-0.5<φ_XY≤-0.3时，说明X和Y中等相关；当-0.3<φ_XY≤-0.1时，说明X和Y弱相关；当φ_XY<-0.1时，说明X和Y几乎不相关。每代遗传时选择φ_XY≤-0.3的优良个体进行子代生成。

本例中，对染色体{1000500000}而言，N＝9，X＝{1,5}，Y＝{11}，P_XY＝1，P_X+＝6，P_+Y＝3，则其相关性：

φ_{X Y} = \frac{9 \times 1 - 6 \times 3}{\sqrt{6 \times (9 - 6) \times 3 \times (9 - 3)}} = - 0.5

由此可知，该染色体负关联强相关，为优质染色体。

表4所示的软件缺陷数据经过第五步的遗传操作之后，获得的强关联规则集合为：

{1030500000,1030000000,0030500000,1000500000,000400001011,000400091011,02000080011,00040009011}

六、负关联关系提取

虽然经过第五步的遗传操作之后，获取了所有具有强关联关系的项目规则，但是对于负关联来说，有可能是的任何一种形式，而仅仅通过染色体无法分辨规则中哪些项目是“正”，哪些项目是“负”，因此，本发明的第六步工作就是对上一步产生的强关联规则集中的染色体逐一进行评价并提取出具体形式的负关联规则。

由负关联规则定义可知，当给定置信度阈值minconf和支持度阈值minsup时，若满足且或或即可判定该规则为相应形式的负关联规则。通过调整置信度阈值minconf和支持度阈值minsup可以确定所提取负关联规则所表示关联关系的发生概率，如果设定minconf＝1，则提取出的负关联关系一定发生。

本例中，选取强关联规则集中的染色体1030500000为例，设minconf＝0.2，minsup＝0.8。根据置信度公式13、公式14、公式15和支持度公式16：

s(X)＝σ(X)/N (16)

其中，σ(X)为支持度计数，表示项目X在事务库中出现的次数；N为事务总个数，s(X)为支持度，c(X→Y)为置信度。

计算得：

①则可提取负关联规则

②则不可提取负关联规则

③则不可提取负关联规则

最终依据第六步所述方法对集合中的所有染色体进行计算后，提取出的负关联规则集为：

该负关联规则集可说明以下结果：

在测试过程中，如果测试人员发现存在缺陷1、缺陷3、缺陷5时，则缺陷11很有可能是不存在的。对照缺陷的描述分析可知，如果在对软件进行边界测试时，发现存在缺陷1、3、5，即某个录入选项没有进行合理的边界限制，那么，在进行录入功能测试时，录入合法的信息是不会发生问题的，据此可以适当缩减功能测试的工作。

具体而言，在利用上述方法对软件缺陷库中的数据进行分析并提取出负关联规则之后，根据提取结果调整后续测试工作，删减不易发生缺陷测试项的测试方案及用例，具体调整过程包括：

(1)对于形式的负关联规则，当X缺陷所在测试项完成且X缺陷发生时，则可删减针对Y缺陷测试项的用例。

例如：当边界测试中发现“修复率参数录入边界无限制”缺陷(X)，由负关联规则获知功能测试中的“修复率参数合法录入”(Y)不会发生缺陷，则“修复率参数合法录入”功能对应的测试用例均可删减。

(2)对于形式的负关联规则，当X缺陷所在测试项完成且未发生X缺陷时，则可删减针对Y缺陷测试项的用例。

例如：当功能测试中的“干部查询”和“职工查询”测试项完成且未发现缺陷(X)，由负关联规则获知功能测试中的“全体人员查询”(Y)不会发生缺陷，则“全体人员查询”功能对应的测试用例均可删减。

(3)对于形式的负关联规则，当X缺陷所在测试项完成且未发生X缺陷时，应增强针对Y缺陷测试项的用例。

例如：当性能测试中的“提取共享数据正确性”测试项完成且未发现“共享数据正确性不达标”缺陷(X)，由负关联规则获知性能测试中的“提取共享数据时间性能超时”缺陷(Y)发生概率较大，则应强化执行“提取共享数据时间”性能对应的测试用例。

因此，可以看出，利用上面的缺陷数据分析方法，可以用于缩减软件测试项目。

虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述，本领域技术人员应该理解，上述实施例仅仅是对本发明的示意性实现方式的解释，并非对本发明包含范围的限定。实施例中的细节并不构成对本发明范围的限制，在不背离本发明的精神和范围的情况下，任何基于本发明技术方案的等效变换、简单替换等显而易见的改变，均落在本发明保护范围之内。

Claims

1.一种软件缺陷数据分析方法，其特征在于，包括以下步骤：

步骤4、简化数据矩阵；

2.根据权利要求1所述的软件缺陷数据分析方法，其特征在于，计算软件缺陷数据之间的相似度的步骤包括：

对所述向量空间模型进行归一化处理；

构建模糊相似矩阵；

将所述模糊相似矩阵改造为模糊等价矩阵。

3.根据权利要求1所述的软件缺陷数据分析方法，其特征在于，所述步骤4中的简化是根据频繁项集的性质及负关联规则的定义进行的。

4.根据权利要求1所述的软件缺陷数据分析方法，其特征在于，所述步骤5包括根据负关联关系的特点设计适应度函数、选择算子、交叉算子、变异算子。

5.根据权利要求1所述的软件缺陷数据分析方法，其特征在于，所述步骤4中的简化是基于频繁项阈值而进行的。

6.一种利用软件缺陷数据分析缩减软件测试项目的方法，所述方法包括：

利用权利要求1所述的方法对软件缺陷库中的数据进行分析并提取出负关联规则；