CN110515836B

CN110515836B - 一种面向软件缺陷预测的加权朴素贝叶斯方法

Info

Publication number: CN110515836B
Application number: CN201910700517.4A
Authority: CN
Inventors: 王兴起; 王赛; 魏丹; 陈滨; 邵艳利; 王大全
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2023-08-11
Anticipated expiration: 2039-07-31
Also published as: CN110515836A

Abstract

本发明公开了一种面向软件缺陷预测的加权朴素贝叶斯方法，现有技术中朴素贝叶斯方法没有考虑到训练集数据与测试集数据之间的相似性对预测结果的影响。已有的朴素贝叶斯的改进方法没有考虑到某一特征值在该特征属性中所占的概率大小的影响，所计算的相似性不够准确，因此对样本权重计算不够精确，会影响分类效果的准确性。本发明所提出的一种面向软件缺陷预测的加权朴素贝叶斯方法能够根据训练集样本与测试集样本的相似度为训练集样本加权，并且能够考虑到某一特征值在该特征属性中所占的概率大小的影响。因此，本发明可以提高朴素贝叶斯的预测性能。

Description

一种面向软件缺陷预测的加权朴素贝叶斯方法

技术领域

本发明是对朴素贝叶斯的一种优化处理方法，旨在使用该技术后的朴素贝叶斯在进行软件缺陷预测时能够取得更加准确的分类预测效果，具体涉及一种面向软件缺陷预测的加权朴素贝叶斯方法。

背景技术

软件缺陷预测是软件开发中非常重要的环节，能够减少软件开发中的常见缺陷，降低开发成本。软件缺陷预测也是近年来软件工程中最活跃的研究问题之一。其中分类器的性能会严重影响软件缺陷预测的准确性。

缺陷预测最常用的分类器之一是朴素贝叶斯，尽管朴素贝叶斯比较简单，但是通常比更复杂的分类模型表现更好。然而，训练集所有样本对构建模型的贡献往往是不同的，与测试集样本相似性越高的样本构建的预测模型更加准确。朴素贝叶斯并没有考虑到训练集与测试集样本相似性对缺陷预测性能的影响，因此，本发明对朴素贝叶斯做出改进，根据训练集与测试集样本特征值的相似性，对训练集样本进行加权，高相似性的样本被赋予了更高的权重，然后在加权的训练样本上建立朴素贝叶斯模型，本发明称其为加权朴素贝叶斯方法。

发明内容

本发明针对朴素贝叶斯提出了一种改进的加权朴素贝叶斯方法，该方法根据训练集样本与测试集样本的相似度，对训练集样本加权，高相似性的样本权重更大。在加权的基础上建立加权朴素贝叶斯模型。

本发明具体包括以下步骤：

步骤1)对于测试集的每个特征列，求出该特征列各个的特征值以及每个特征值出现的次数。

用list存放每个特征的特征值及其出现次数的元组：

list＝[dict₁，dict₂，...，dict_k]

其中，dict_j＝{<key₁，value₁>，<key₂，value₂>，...，<key_m，value_m>}；

k表示特征个数；

m表示测试集第j个特征中不同特征值的个数；

dict_j表示测试集第j个特征的特征值及其出现次数的元组；

key_p表示测试集某列特征的特征值；

value_p表示key_p在该特征列出现的次数。

步骤2)计算训练集样本每个特征值在测试集同一特征列所占的概率。

其中，dict_j表示测试集第j个特征的特征值及其出现次数的元组；key_p表示某列特征的特征值；value_p表示key_p在该特征列出现的次数；

dict_j.key_p表示第j个特征中的第p个特征值；

count表示测试集样本个数；

a_ij表示训练集第i个样本的第j个特征。

步骤3)计算训练集每个样本与测试集样本的相似度，并把相似度作为每个样本的权重。相似度的计算方法为训练集样本每个特征值在测试集同一特征列所占的概率之和。计算公式为：

其中，n表示训练集样本的个数；

k表示特征的个数；

w_i表示训练集第i个样本的权重；

步骤4)基于加权的训练样本建立加权朴素贝叶斯分类器。

4-1.计算先验概率。c类的加权先验概率可以重新写为：

其中，w_i为训练样本i的权重；

c_i为训练样本i类属值；

n为训练样本总个数；

n_c为总类别数。在缺陷预测模型中n＝2。

δ(x，y)是指示函数。如果x＝y，则δ(x，y)＝1；若x≠y，则δ(x，y)＝0。对于类c，相同类的训练数据的样本越多，先验概率越大。

4-2.计算条件概率。根据样本加权方法，第j个特征a_j的条件概率为：

其中，a_ij为第i个训练样本中的第j个特征的值；

n_j是第j个特征的不同值的数量。

4-3.计算测试集中样本u有无缺陷的概率，从而判断测试集样本的类别c(u)。若样本u的有缺陷概率大于无缺陷概率，则视样本u的类别为有缺陷；否则，视为无缺陷。公式如下：

本发明的有益效果：

1、该技术考虑到训练集样本与测试集样本的相似性对分类性能的影响，为高相似性的训练集样本赋予更高的权重，因此能够提高分类器的预测性能。

2、在对训练集样本的加权过程中，考虑到了某一特征值在该特征中所占的概率大小的影响，因此权重计算方法更加准确。

附图说明

图1方法流程图

具体实施方式

下面根据一个简单的例子对本发明进行详细说明。本发明的整体流程图如附图1所示，具体步骤如下：

步骤3)计算训练集每个样本与测试集样本的相似度，并把相似度作为每个样本的权重。

步骤4)基于加权的训练样本建立加权朴素贝叶斯分类器。

进一步，假设训练集有五个样本，分别为{{2,3,6，1}，{1,4,5,1}，{3,2,6，-1}，{4,3,4，-1}，{2,4,6，-1}}，其中前三列为三个特征，最后一列是标签列。1表示有缺陷，-1表示无缺陷。测试集有四个样本，分别为{u₁＝{1，3，5}，u₂＝{2，3，4}，u₃＝{1，4，5}，u₄＝{2，3，5}}。

在步骤1中，对于测试集的每个特征列，求出该特征列各个的特征值以及每个特征值出现的次数。用list存放每个特征的特征值及其出现次数的元组：

list＝[dict₁，dict₂，...，dict_k]

其中，dict_i＝{<key₁，value₁>，<key₂，value₂>，...，<key_n，value_m>}；

因此，dict₁＝{<1，2>，<2，2>}

dict₂＝{<3，3>，<4，1>}

dict₃＝{<4，1>，<5，3>}

list＝[dict₁，dict₂，dict₃]

进一步，在步骤2中，计算训练集样本每个特征值在测试集同一特征列所占的概率。

其中，count表示测试集样本个数；

a_ij表示训练集第i个样本的第j个特征

因此，

h(a₁₁)＝0.5；h(a₁₂)＝0.75；h(a₁₃)＝0；

h(a₂₁)＝0.5；h(a₂₂)＝0.25；h(a₂₃)＝0.75；

h(a₃₁)＝0；h(a₃₂)＝0；h(a₃₃)＝0；

h(a₄₁)＝0；h(a₄₂)＝0.75；h(a₄₃)＝0.25；

h(a₅₁)＝0.5；h(a₅₂)＝0.25；h(a₅₃)＝0；

进一步，在步骤3中，计算训练集每个样本与测试集样本的相似度，并把相似度作为每个样本的权重。相似度的计算方法为训练集样本每个特征值在测试集同一特征列所占的概率之和。计算公式为：

其中，n表示训练集样本的个数；

w_i表示第i个样本的权重；

因此，w₁＝0.5+0.75+0＝1.25

w₂＝0.5+0.25+0.75＝1.5

w₃＝0+0+0＝0

w₄＝0+0.75+0.25＝1

w₅＝0.5+0.25+0＝0.75

进一步，在步骤4中，基于加权的训练样本建立加权朴素贝叶斯分类器。对于测试样本{1，3，5}，求其类标签。

4-1.计算先验概率。c类的加权先验概率可以重新写为：

其中，w_i为训练样本i的权重；

c_i为训练样本i类属值；

n为训练样本总个数；

n_c为总类别数。在预测模型中n＝2。

因此，n_c＝2；P(1)＝0.58，P(2)＝0.42

其中，a_ij为第i个训练样本中的第j个特征的值；

n_j是第j个特征的不同值的数量。

因此，n₁＝4；n₂＝3；n₃＝3；

P(a₁＝1|1)＝0.37；P(a₂＝3|1)＝0.39；P(a₃＝5|1)＝0.43；

P(a₁＝1|-1)＝0.17；P(a₂＝3|-1)＝0.42；P(a₃＝5|-1)＝0.21；

4-3.计算测试集中样本u有无缺陷的概率，从而判断测试集样本的类别。若样本u的有缺陷概率大于无缺陷概率，则视样本u的类别为有缺陷；否则，视为无缺陷。公式如下：

因此，P(1|u₁)＝0.93；P(-1|u₁)＝0.07

因此，测试集样本u₁＝{1，3，5}的类标签为1。

Claims

1.一种面向软件缺陷预测的加权朴素贝叶斯方法，其特征在于包括如下步骤：

步骤1)收集软件缺陷样本，构建测试集与训练集；对于测试集的每个特征列，求出该特征列各个的特征值以及每个特征值出现的次数；用list存放测试集每个特征的特征值及其出现次数的元组，用HashMap来存储每个特征值及其出现次数：

list＝[dict₁,dict₂,…,dict_k]

其中，dict_j＝{<key₁,value₁>,<key₂,value₂>,…,<key_m,value_m>}；

k表示特征个数；

m表示测试集第j个特征中不同特征值的个数；

dict_j表示测试集第j个特征的特征值及其出现次数的元组；

key_p表示测试集某列特征的特征值；

value_p表示key_p在该特征列出现的次数；

步骤2)计算训练集样本每个特征值在测试集同一特征列所占的概率h(a_ij)；

其中，dict_j.key_p表示第j个特征中的第p个特征值；count表示测试集样本个数；

a_ij表示训练集第i个样本的第j个特征

步骤3)计算训练集每个样本与测试集样本的相似度，并把相似度作为每个样本的权重；

相似度的计算方法为训练集样本每个特征值在测试集同一特征列所占的概率之和；计算公式为：

其中，n表示训练集样本的个数；

k表示特征的个数；

w_i表示训练集第i个样本的权重；

步骤4)基于加权的训练样本建立加权朴素贝叶斯分类器，判断测试集样本的类别，具体步骤如下：

4-1.计算先验概率；将c类的加权先验概率重新写为：

其中，w_i为训练样本i的权重；

c_i为训练样本i类属值；

n为训练样本总个数；

n_c为总类别数；在预测模型中n＝2；

δ(x,y)是指示函数；如果x＝y，则δ(x,y)＝1；若x≠y，则δ(x,y)＝0；对于类c，相同类的训练数据的样本越多，先验概率越大；

4-2.计算条件概率；根据样本加权方法，第j个特征a_j的条件概率为：

其中，a_ij为第i个训练样本中的第j个特征的值；

n_j是第j个特征的不同值的数量；

4-3.计算测试集中样本u有无缺陷的概率，从而判断测试集样本的类别c(u)；若样本u的有缺陷概率大于无缺陷概率，则视样本u的类别为有缺陷；否则，视为无缺陷；类别c(u)公式如下：