CN108446711B

CN108446711B - 一种基于迁移学习的软件缺陷预测方法

Info

Publication number: CN108446711B
Application number: CN201810101265.9A
Authority: CN
Inventors: 张洋洋; 荆晓远; 吴飞; 孙莹
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2022-04-22
Anticipated expiration: 2038-02-01
Also published as: CN108446711A

Abstract

本发明公开了一种基于迁移学习的软件缺陷预测方法，该方法利用降维迁移学习的思想，综合考虑不同项目数据样本之间概率分布以及条件概率分布，在源项目和目标项目之间建立一个新的特征表示，在一个新的空间中最小化二者之间的差异，训练出一个新的分类器，进而实现迁移学习。算法首先采用了一种不同分布之间的距离度量方式，最大均方差异来量化源数据和目标数据之间的分布差异和条件分布差异，通过最小化这种度量来获得一个模型，通过这个模型映射过后的训练数据和测试数据几乎具有相同的概率分布和条件概率分布；然后就可以采用传统的机器学习算法对测试数据进行分类。

Description

一种基于迁移学习的软件缺陷预测方法

技术领域

本发明涉及软件工程技术领域，特别是一种基于迁移学习的软件缺陷预测方法。

背景技术

在过去30年里，软件缺陷预测逐步变为了一个意义重大的研究方向，致力于估计一个软件系统西立面到底有多少的保留缺陷。软件缺陷预测能够在系统开发初期，及时准确的预测软件模块是否包含缺陷，合理分配测试资源，针对性的对缺陷模块进行分析以提高产品质量。近年来，随着统计学习和机器学习技术的发展及其出色的预测性能，基于统计学习方法和机器学习方法的软件缺陷预测方法逐渐被研究者采用，并且成为主流的缺陷预测技术。

然而这些分类技术通常都会面临一个问题：当需要对新的项目进行缺陷预测的时候，所拥有的的训练样本过少，难以训练正确的模型。另一方面，一类项目通常含有大量的相似项目，这些相似项目训练的软件缺陷预测模型又不能直接用来预测。假设我们已经训练了大量的C++编写的项目的缺陷分类器，而目前又有一个新的Java项目，通常的做法是在当前项目下利用有限的样本标记重新训练分类器，但是这种方式忽略了项目之间的相关性，尽管项目的语言不同，其内部的程序设计架构和算法机理一样，因此项目之间有很强的相关性，如果利用这种相关性进行迁移训练，将会大大缩小模型所需的样本数。

跨公司软件缺陷预测问题不同于传统的及其学习问题，它的训练数据和测试数据属于不同的分布。为了解决这个问题，Turhan等使用一种最近邻滤波器自从源数据中选择与测试数据相似的数据作为训练数据。这种方法的缺点是：样本选择过程中丢弃掉的不相似数据也会导致其中所包含的的有用信息被丢弃掉。Zimmermann等使用决策树帮助项目管理者进行跨工程预测前对精确度，召回率和准确度进行估计。但是，从已有的跨工程预测性能来看，这种方法不能够产生较好的预测结果。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于迁移学习的软件缺陷预测方法，本发明方法充分考虑源数据和目标数据之间的分布差异和条件分布差异，度量并最小化它们后采用传统及其学习分类，相比较其他方法取得了更好的缺陷预测准确率。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种基于迁移学习的软件缺陷预测方法，包括以下步骤：

步骤1、使用主成分分析法PCA做数据重构，得到最优的低维特征表示Z；

步骤2、计算步骤1中低维特征表示Z中训练数据和测试数据之间的均值之差，通过最小化目标数据和源数据之间的概率分布距离以及条件概率分布距离训练得到一个适配矩阵A；

步骤3、将目标数据和源数据都通过适配矩阵A进行映射，映射过后的特征空间上训练数据和测试数据具有相同的特征分布；

步骤4、在步骤3映射过后得到的特征空间上进行机器学习，对测试数据进行分类预测。

作为本发明所述的一种基于迁移学习的软件缺陷预测方法进一步优化方案，步骤1具体如下：使用

作为输入数据的矩阵，数据集X包括测试数据和训练数据，x_i表示训练数据第i个样本，1≤i≤n，

表示a×d实数空间，a是测试数据和训练数据的总数量，d是每个样本的维度，

代表中心矩阵，a＝n+m且Q表示大小为a×a的全1矩阵，n表示训练数据数量，m表示测试数据数量，I为大小是a×a的单位矩阵；PCA学习的目标就是找到一个适配矩阵

以最大化以下问题；

表示d×k的实数空间，k是一个小于a的参数；

tr(·)表示矩阵的迹，上标T表示转置，XHX^TA＝AΦ，

表示k×k实数空间；其中，φ₁,...,φ_k是前k个最大的特征值，Φ就是由φ₁,...,φ_k作为对角线元素所构造的矩阵，除对角线外其他元素为0；然后得到最优的低维特征表示Z：Z＝[z₁,...,z_a]＝A^TX。

作为本发明所述的一种基于迁移学习的软件缺陷预测方法进一步优化方案，步骤2中通过最小化目标数据和源数据之间的概率分布距离以及条件概率分布距离训练得到一个适配矩阵；具体如下：

2.1)最小化目标数据和源数据之间的概率分布距离定义为：

x_j表示训练数据第j个样本，M₀就是MMD矩阵，并且通过下列公式来计算：

(M₀)_ij表示M₀矩阵在第i行第j列的元素，L表示训练数据，V表示测试数据，t_i,t_j分别表示测试数据中第i和第j个样本；

2.2)最小化目标数据和源数据之间的条件概率分布距离；

通过修改MMD来度量两种条件分布之间的距离：

其中，n^(c)表示训练数据中类别为c的样本个数，L^(c)表示在训练数据中属于类别c的所有样本点，V^(c)表示在测试数据属于类别c的所有样本点，v_j表示测试数据中第j个样本，m^(c)表示测试数据中类别为c的样本个数；因此改进的MMD矩阵M_c通过下列公式来计算：

(M_c)_ij表示矩阵M_c在第i行第j列的元素；

2.3)将最小化目标数据和源数据之间的概率分布距离以及条件概率分布距离的目标任务整合起来，最终的到总的优化目标：

其中，λ是一个正则化参数，C代表输入数据中所有的类别数，

表示矩阵A的F范数，对于非线性问题，考虑核映射：ψ:x→ψ(x)，ψ表示核函数，x表示自变量，ψ(x)表示对自变量x的一个映射，核矩阵

表示大小为a×a的实数空间；上述优化问题转化为：

其中，K代表核映射矩阵；从而最终得到适配矩阵A。

作为本发明所述的一种基于迁移学习的软件缺陷预测方法进一步优化方案，步骤2中采用最大平均差异MMD作为距离度量方法来计算训练数据和测试数据之间的均值之差。

作为本发明所述的一种基于迁移学习的软件缺陷预测方法进一步优化方案，步骤1中Z是一种新的特征表示。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明方法充分考虑源数据和目标数据之间的分布差异和条件分布差异，度量并最小化它们后采用传统及其学习分类，相比较其他方法取得了更好的缺陷预测准确率。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

不同于以上方法，本发明针对新项目需要每次重新训练预测分类器的问题，提出一种成为基于联合概率分布匹配特征映射(Joint Distribution Based Feature Map,JDBFM)的软件缺陷预测方法。该方法利用降维迁移学习的思想，综合考虑不同项目数据样本之间概率分布以及条件概率分布，在源项目和目标项目之间建立一个新的特征表示，在一个新的空间中最小化二者之间的差异，训练出一个新的分类器，进而实现迁移学习。

图1是本发明的方法流程图，方法包括以下步骤：

步骤1，使用主成分分析法(PCA)做数据重构，得到最优的低维特征表示。

步骤2，使用最大均方差异(MMD)做为距离度量，最小化源数据和目标数据之间的分布距离和条件分布距离来训练模型，得到一个适配矩阵。

步骤3，通过得到的适配矩阵分别对源数据和目标数据进行映射。

步骤4，在映射过后的数据上进行传统的机器学习分类。

为说明本算法的优越性，将JDBFM算法与两种较早提出的算法TNB和NN-filter进行比较。分别在AEEEM和ReLink数据库上进行试验。

本发明采用召回率、精确度和F-measure值来评估模型的预测效果。这些度量基于表1示的混淆矩阵。

表1混淆矩阵

	预测为有缺陷	预测为无缺陷
			真实有缺陷	A	B
真实无缺陷	C	D

召回率(recall)是正确预测缺陷模块数与真实有缺陷数模块数比值，一般来说其值越高越好。计算公式如下：

精确度(precision)就是正确预测缺陷模块数与预测缺陷模块数的比值，一般来说其值越高越好。计算公式如下：

由于高的召回率往往要以低精确度为代价，反之亦然。因此，可以使用F-measure将召回率和精确度综合起来进行评价。F-measure召回率和查准率的调和平均数，值越高性能越好，计算公式如下：

在要做实验的3个算法中，对于NN-filter算法，每个测试数据都要从训练数据中选择k个最近邻的样本构成训练数据集来训练软件缺陷预测模型，本发明选取k＝10。而本发明提出的算法JDBFM中有两个参数需要设置：子空间基数k和正则项系数λ，在下列数据集上的实验中证实了在一个很大的参数返回内实验可以得到一个相对稳定的效果。本次我们设置k＝100，λ＝1.0。表2是ReLink数据集上6组跨项目软件缺陷预测F-measure值对比，表3是EEM数据集上6组跨项目软件缺陷预测F-measure值对比。

表2ReLink数据集上6组跨项目软件缺陷预测F-measure值对比

Train->test	NN-filter	TNB	JDBFM
				ZXing->Safe	0.4596	0.5189	0.5210
ZXing->Apache	0.5201	0.5562	0.5572
				Safe->ZXing	0.3306	0.3053	0.3329
Safe->Apache	0.4685	0.5620	0.5878
				Apache->ZXing	0.3589	0.4120	0.4123
Apache->Safe	0.6712	0.7112	0.7351
				Average	0.4681	0.5109	0.5243

表3EEEM数据集上6组跨项目软件缺陷预测F-measure值对比

通过以上实验结果可以看出，NN-filter算法所获得的实验结果F-measure值较TNB和JDBFM算法都要低一些，这是因为，NN-filter算法在构建软件缺陷预测模型的时候要熊训练集中选择出测试数据样本中的每一个样本对应的训练集中k个最近邻的数据样本，而训练样本中的其他数据被丢弃掉了，而被丢弃掉的这些样本中可能也含有很多对软件缺陷预测模型很有用的信息，进而影响了最后的准确率。对于TNB算法和本发明所提出的JDBFM算法相比，由于JDBFM算法既考虑了训练数据样本和测试数据样本之间分布，又考虑了源和目标数据的条件概率分布，分别最小化两种分布之间的MMD距离，将源数据和目标数据映射到了另外一种特征表示，在这种特征表示中源数据和目标数据特征分布几乎是一致的，因而在这个特证空间中采取传统分类算法取得了很好的效果。实验结果也证明，我们所构建出的软件缺陷模型的F-measure值均优于TNB算法，验证了JDBFM算法优于TNB算法。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。