CN111737107A

CN111737107A - 一种基于异质信息网络的重复缺陷报告检测方法

Info

Publication number: CN111737107A
Application number: CN202010413134.1A
Authority: CN
Inventors: 肖冠平; 郑征; 杜晓婷
Original assignee: Nanjing University of Aeronautics and Astronautics; Beihang University
Current assignee: Nanjing University of Aeronautics and Astronautics; Beihang University
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-10-02
Anticipated expiration: 2040-05-15
Also published as: CN111737107B

Abstract

本发明公开了一种基于异质信息网络的重复缺陷报告检测方法，包括以下步骤：(1)缺陷报告异质信息网络建立；(2)缺陷报告异质信息网络表示学习；(3)缺陷报告文本语义表示学习；(4)缺陷报告组识别；(5)重复和非重复缺陷报告对生成；(6)训练、验证和测试数据生成；(7)重复缺陷报告检测模型建立；(8)重复缺陷报告检测模型训练；(9)重复缺陷报告检测。本发明通过建立缺陷报告异质信息网络，利用网络表示学习方法对网络中缺陷报告之间隐含的语义关系进行学习，进而构建重复缺陷报告检测模型，与单独使用缺陷报告文本信息的信息检索方法相比，本发明提高了重复缺陷报告的检测准确率。

Description

一种基于异质信息网络的重复缺陷报告检测方法

技术领域

本发明属于软件工程中重复缺陷报告自动检测技术领域，具体涉及一种基于异质信息网络的重复缺陷报告检测方法。

背景技术

缺陷追踪系统，例如Bugzilla和Jira，不可避免地会出现重复缺陷报告问题。不同用户可能会报告相同失效现象的缺陷，导致开发者重复讨论和识别这些相同的缺陷，带来不必要的维护代价。为了检测重复缺陷报告，传统方法依赖基于信息检索方法(information retrieval，IR)计算的文本相似度，例如术语频率-逆文档频率(TF-IDF)，来检测重复缺陷报告。然而，随着缺陷追踪系统加入了实时检测(just-in-time，JIT)功能，在面对加入JIT功能后的重复缺陷报告时，基于文本相似性的传统方法的有效性发生了下降。这是因为缺陷追踪系统在加入JIT功能后，当用户/开发者在缺陷报告提交页面标题框中输入文字时，该技术能够给出可能的重复缺陷报告。因此，在提交缺陷报告的第一步就减少了出现重复的可能性。

虽然JIT功能通过避免一些文本高度相似的缺陷报告，在一定程度上提高了缺陷报告的质量，但是缺陷追踪系统中仍然存在大量的重复缺陷报告。这些重复缺陷报告更多地呈现出语义关系相似性，而不是文本相似性。因而基于文本相似性技术的传统信息检索方法难以检测这些重复缺陷报告。另一方面，当前的JIT 功能仅利用缺陷报告的标题文本来检测重复缺陷报告，而不考虑缺陷报告中与所报告缺陷有关的丰富的异质属性信息，例如产品、组件、版本、严重性和修复优先级。因此，即使加入了JIT功能，缺陷追踪系统中仍然存在大量的重复缺陷报告。为了弥补传统重复缺陷报告检测方法的不足，本发明提出了一种基于异质信息网络的重复缺陷报告检测方法。

发明内容

发明目的：本发明提出一种基于异质信息网络的重复缺陷报告检测方法，可以充分利用缺陷报告中异质属性之间不同的关系类型，提高重复缺陷报告的检测准确率。

技术方案：本发明提出一种基于异质信息网络的重复缺陷报告检测方法，具体包括以下步骤：

(1)从缺陷报告文件中提取结构化的异质属性当作节点，根据异质属性节点之间的关系构建缺陷报告异质信息网络；

(2)对建立的缺陷报告异质信息网络进行网络表示学习，得到每个属性节点的向量表示；

(3)从缺陷报告文件中提取文本信息并进行预处理，然后使用大量的无标签的缺陷报告文本信息训练缺陷报告文本语义模型，得到缺陷报告文本中每个单词的向量表示；

(4)从缺陷仓库中识别缺陷报告组，同一个缺陷报告组中的缺陷报告描述相同的失效现象；

(5)从步骤(4)中识别的缺陷报告组中生成重复和非重复缺陷报告对数据；并将该数据划分成训练、验证和测试数据；

(6)将步骤(2)、(3)中的得到的异质属性节点向量和文本单词向量分别用于表示缺陷报告的结构化特征和非结构化特征，用于构建重复缺陷报告检测模型；

(7)使用步骤(5)中得到的训练和验证数据对步骤(6)建立的重复缺陷报告检测模型进行训练；

(8)使用步骤(7)中训练得到的重复缺陷报告检测模型对测试数据进行自动检测，得到重复缺陷报告的检测结果。

进一步地，所述步骤(1)包括以下步骤：

(11)从缺陷报告文件中提取六类异质属性当作节点，即缺陷报告标识号 BID、产品PRO、组件COM、版本VER、严重性SEV和修复优先级PRI；

(12)将六类属性节点建立连边：

每个缺陷报告记录一个位于特定软件项目功能组件的缺陷，分别使用L和 L^-1来表示缺陷报告和组件之间的关系R1，即

和

每个组件属于一个产品，分别使用B和B^-1来表示组件和产品之间的关系R2，即

和

描述一个缺陷出现在一个具体的版本，使用O和O^-1来表示缺陷报告与版本之间的关系R3，即

和

每个缺陷报告都有一个开发者处理的优先级，分别使用H和H^-1来表示缺陷报告与修复优先级之间的关系R4，即

和

每个缺陷报告都会对用户有一定程度的严重性影响，分别使用I和I^-1来表示缺陷报告与严重性之间的关系R5，即

和

进一步地，步骤(3)中所述的预处理包括单词分割、停用词删除和单词标准化。

进一步地，所述步骤(4)包括以下步骤：

(41)给定一个项目的所有缺陷报告BR，生成一个重复关系网络 G_br(V_br,E_br)，对于每一个缺陷报告br，分别在id_br和resolution_br中记录它的标识号ID和解决状态；如果它的解决状态为“重复”，那么将该缺陷报告中记录的dup_id，即该缺陷报告所重复的缺陷报告的标识号，提取出来并记录到 ids_dup；然后将一条边(id_br,id_dup)加入到E_br中；一个重复缺陷报告可能记录了超过一个的dup_id或者没有记录dup_id，如果没有记录dup_id，该缺陷报告将从数据集中丢弃；如果缺陷报告的解决状态不是“重复”，那么将该缺陷报告的id_br加入到V_br中；当缺陷报告BR中所有的缺陷报告都遍历完后，得到重复关系网络G_br；

(42)建立一个空字典来存储缺陷报告组Group_bug(master,duplicates)，然后识别重复关系网络G_br中所有的弱连通子图SubGraphs；对于每一个弱连通子图

如果该子图只有一个节点，则该缺陷报告不是重复缺陷报告，并且该缺陷报告自身组成了一个缺陷报告组，即将该缺陷报告的id_br记录在主缺陷报告master中，而将Group_bug[master]设为空，如果弱连通子图

有超过一个节点，那么存在两种情况：

不存在回环或者存在回环，对于不存在回环的情况，将节点出度为0的缺陷报告id_br作为主缺陷报告 master；如果子图

存在回环，则将回环节点中最早提交的缺陷报告id_br作为主缺陷报告master；

不存在回环或者存在回环，与主缺陷报告master属于相同缺陷报告组的其他缺陷报告Group_bug[master]均为子图 V_sub除去master后的节点集合V_sub-{id_br}。

进一步地，所述步骤(6)包括以下步骤：

(65)将缺陷报告的结构化特征使用多层感知器网络进行嵌入；

(66)将缺陷报告的非结构化特征使用循环神经网络进行嵌入；

(67)嵌入后的结构化特征和非结构化特征使用多层感知器网络进行融合，用于表示缺陷报告的向量；

(68)模型输出缺陷报告对的相似度。

进一步地，所述步骤(7)的实现过程如下：

得到模型输出的缺陷报告对相似度结果后，将相似度结果与缺陷报告对标签输入至损失函数，得到损失函数值，判断该损失函数的值是否小于设定的阈值；若否，则根据损失函数的值调整检测模型的训练参数，并再次用训练和验证数据对检测模型进行训练，直至模型输出的相似度结果与缺陷报告对标签的损失值小于设定的阈值为止，并将最后的检测模型作为最终的重复缺陷报告检测模型。

有益效果：与现有技术相比，本发明的有益效果：本发明充分利用了缺陷报告中异质属性之间不同的关系类型，通过异质信息网络表示学习对网络中缺陷报告之间的语义关系进行学习，与单独使用缺陷报告文本数据相比，提高了重复缺陷报告的检测准确率。

附图说明

图1为本发明的流程图；

图2为基于异质信息网络的重复缺陷报告检测模型结构框架图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

重复缺陷报告检测：重复缺陷报告是指缺陷仓库中重复提交的描述相同失效现象的报告。当缺陷仓库维护人员检测出新提交的缺陷报告与已存在的缺陷报告重复时，新提交的缺陷报告的解决状态(resolution)会标记为重复(DUPLICATE)。此外，标记为重复的缺陷报告，其dup_id将记录该缺陷报告重复的缺陷报告ID。通常情况下，根据dup_id可以将描述相同缺陷的所有缺陷报告归为同一个缺陷报告组。在每个缺陷报告组中，所有重复缺陷报告都指向的那个缺陷报告称为主缺陷报告(master)。如果新提交的缺陷报告没有识别出与现有缺陷报告重复，那么该缺陷报告就是主缺陷报告并且组成了新的缺陷报告组。当获得所有的缺陷报告组后，可以生成重复和非重复缺陷报告对。然后，重复缺陷报告的检测问题就可以重构为简单的二分预测问题。当出现新提交的缺陷报告时，可以和所有主缺陷报告组成缺陷报告对，然后用已经训练好的预测模型来预测这些缺陷报告对中的缺陷报告是否重复。

缺陷报告异质信息网络：在缺陷报告异质信息网络G＝(V,E)中，每个节点v∈V属于一个特定的属性类型τ(v)∈A，每个边e∈E属于一个特定的关系类型φ(e)∈R。其中，网络模式T_G＝(A,R)是定义在属性类型映射函数τ：V→A和关系类型映射函数φ：E→R的一个有向图，是异质信息网络G的元描述。而元路径

之间的一个复合关系R＝R₁·R₂·…R_l，其中·表示关系的复合运算符。给定缺陷报告异质信息网络G，网络表示学习是为了学习一个节点关系映射函数

其中d＜＜|V|。

如图1所示，本发明提出一种基于异质信息网络的重复缺陷报告检测方法，其具体实施步骤如下：

步骤1：缺陷报告异质信息网络建立，从缺陷报告文件中提取结构化的异质属性当作节点，根据异质属性节点之间的关系构建缺陷报告异质信息网络。

首先，从缺陷报告文件中提取六类异质属性当作节点，即缺陷报告标识号 BID、产品PRO、组件COM、版本VER、严重性SEV和修复优先级PRI。

其次，对这六类属性节点按照以下五种关系类型建立连边：

关系R1(缺陷-组件)：每个缺陷报告记录了一个位于特定软件项目功能组件的缺陷。分别使用L和L^-1来表示缺陷报告和组件之间的关系，即

和

关系R2(组件-产品)：每个组件属于一个产品。分别使用B和B^-1来表示组件和产品之间的关系，即

和

关系R3(缺陷-版本)：为了描述一个缺陷出现在一个具体的版本，使用O 和O^-1来表示缺陷报告与版本之间的关系，即

和

关系R4(缺陷-修复优先级)：每个缺陷报告都有一个开发者处理的优先级。分别使用H和H^-1来表示缺陷报告与修复优先级之间的关系，即

和

关系R5(缺陷-严重性)：每个缺陷报告都会对用户有一定程度的严重性影响。分别使用I和I^-1来表示缺陷报告与严重性之间的关系，即

和

步骤2：缺陷报告异质信息网络表示学习，对建立的缺陷报告异质信息网络进行网络表示学习，得到每个属性节点的向量表示。

使用异质信息网络表示学习方法HIN2Vec对建立的缺陷报告异质信息网络进行表示学习，得到每个属性节点的向量表示。

步骤3：从缺陷报告文件中提取文本信息并进行预处理，其中，预处理包括单词分割、停用词删除和单词标准化。然后使用大量的无标签的缺陷报告文本信息训练缺陷报告文本语义模型，得到缺陷报告文本中每个单词的向量表示。

缺陷报告文本语义通过使用Word2Vec工具中的Skip-Gram模型进行学习，得到缺陷报告中每个单词的向量表示。

步骤4：缺陷报告组识别，从缺陷仓库中识别缺陷报告组，同一个缺陷报告组中的缺陷报告描述相同的失效现象。

缺陷报告组的识别算法包含以下步骤：

(1)给定一个项目的所有缺陷报告BR，缺陷报告组识别算法首先生成一个重复关系网络G_br(V_br,E_br)。对于每一个缺陷报告br，分别在id_br和 resolution_br中记录它的标识号ID和解决状态。如果它的解决状态为“重复”，那么将该缺陷报告中记录的dup_id(即该缺陷报告所重复的缺陷报告的标识号)提取出来并记录到ids_dup。然后将一条边(id_br,id_dup)加入到E_br中。需要注意的是，一个重复缺陷报告可能记录了超过一个的dup_id或者没有记录 dup_id。对于第二种情况，该缺陷报告将从数据集中丢弃。此外，如果缺陷报告的解决状态不是“重复”，那么将该缺陷报告的id_br加入到V_br中。当缺陷报告BR中所有的缺陷报告都遍历完后，得到重复关系网络G_br。

(2)建立一个空字典来存储缺陷报告组Group_bug(master,duplicates)，然后识别重复关系网络G_br中所有的弱连通子图SubGraphs。对于每一个弱连通子图

如果该子图只有一个节点，则该缺陷报告不是重复缺陷报告，并且该缺陷报告自身组成了一个缺陷报告组，即将该缺陷报告的id_br记录在主缺陷报告master中，而将Group_bug[master]设为空。如果弱连通子图

有超过一个节点，那么存在两种情况：

不存在回环或者存在回环。对于不存在回环的情况，将节点出度为0的缺陷报告id_br作为主缺陷报告 master。如果子图

存在回环，则将回环节点中最早提交的缺陷报告id_br作为主缺陷报告master。在这两种情况下，与主缺陷报告master属于相同缺陷报告组的其他缺陷报告Group_bug[master]均为子图V_su_b除去master后的节点集合V_sub-{id_br}。

缺陷报告组的识别算法伪代码如下：

数据：缺陷报告

结果：缺陷报告组Group_bug(master,duplicates

步骤5：重复和非重复缺陷报告对生成，从步骤4中识别的缺陷报告组中生成重复和非重复缺陷报告对数据，并将数据划分成训练、验证和测试数据。

重复和非重复缺陷报告对的生成方法是：对于重复缺陷报告对，将每个缺陷报告组中的缺陷报告两两组合作为重复缺陷报告对；对于非重复缺陷报告对，将每个缺陷报告组的主缺陷报告两两组合作为非重复缺陷报告对。从所有重复和非重复缺陷报告对中分别随机且不重复地选择一定比值的缺陷报告对作为重复和非重复缺陷报告对数据。可将重复缺陷报告对与非重复缺陷报告对的数量比值设定为1:1。将训练、验证和测试数据占所有数据的比例分别为0.64、0.16和0.2。

步骤6：重复缺陷报告检测模型建立，将步骤2、步骤3中的得到的异质属性节点向量和文本单词向量分别用于表示缺陷报告的结构化特征和非结构化特征，用于构建重复缺陷报告检测模型。

重复缺陷报告检测模型的构建方法是：缺陷报告的结构化特征使用多层感知器网络进行嵌入、缺陷报告的非结构化特征使用循环神经网络进行嵌入；嵌入后的结构化特征和非结构化特征使用多层感知器网络进行融合，用于表示缺陷报告的向量；模型输出缺陷报告对的相似度。

对于结构化特征，本发明将BID、PRO、COM、VER、SEV和PRI六类结构化特征映射到有HIN2Vec方法学习得到的d₁维向量

其中i分别为BID、PRO、COM、VER、SEV和PRI。然后将者六个特征向量连接为一个完整的结构化向量，表示为H＝[h_BID,h_PRO，h_COM,h_VER,h_SEV,h_PRI]，

由于H没有严格的顺序要求，它简单地由一个多层感知器进行嵌入，表示为 MLP_S：

h＝tanh(W^HH)

其中，H表示连接后的结构化特征向量，

是MLP_S中可训练的参数矩阵(k₁是MLP_S隐含单元数量)，tanh是MLP_S中使用的激活函数，而

是最后的结构化矩阵。

对于非结构化特征，缺陷报告的文本信息使用循环神经网络(RNN)来进行序列嵌入。给定缺陷报告的标题

其中x_i是一个长度为 N_T橘子的单词token。本发明使用RNN嵌入每个单词token(表示为RNN_NS)：

其中，

是由Word2Vec从缺陷报告文本学习得到的单词的嵌入向量，

是i时刻的隐含状态(n是RNN_NS中隐含的单元数量)，

是两个向量的连接运算，

是RNN_NS中可训练的参数矩阵，tanh是激活函数。非结构化特征最终嵌入为n维向量

最后，本发明使用一个多层感知器(表示为MLP_F)将结构化特征h和非结构化特征t融合为一个向量：

b＝tanh(W^B[h,t])

其中，

表示两个向量的连接运算，

是MLP_F中可训练的参数矩阵(k₂是MLP_F隐含单元数量)，而tanh是MLP_F中使用的激活函数。一个缺陷报告最后的嵌入向量由输出向量

表示。

当得到缺陷报告的向量表示后，本发明设计相似度模块对两个缺陷报告之间的相似度进行测量，使用曼哈顿距离作为相似度测量方法：

S(b₁,b₂)＝exp(-||b₁-b₂||₁),S∈[0,1]

其中，b₁和b₂分别表示两个缺陷报告的向量，而exp(·)用于在0和1 之间标准化曼哈顿距离。

步骤7：重复缺陷报告检测模型训练，使用步骤5中得到的训练和验证数据对步骤7建立的重复缺陷报告检测模型进行训练。

重复缺陷报告检测模型的训练过程是：得到模型输出的缺陷报告对相似度结果后，将相似度结果与缺陷报告对标签输入至损失函数，得到损失函数值，判断该损失函数的值是否小于设定的阈值。若否，则根据损失函数的值调整检测模型的训练参数，并再次用训练和验证数据对检测模型进行训练，直至模型输出的相似度结果与缺陷报告对标签的损失值小于设定的阈值为止，并将最后的检测模型作为最终的重复缺陷报告检测模型。

通过构建缺陷报告对实例＜B₁,B₂>来训练重复缺陷报告检测模型。如果缺陷报告B₁和缺陷报告B₂互为重复报告，那么该实例的标签y为1；否则，为 0。在模型训练过程中，将重复缺陷报告检测模型输出的相似度作为预测标签以及缺陷报告对实例标签作为真值输入到二元交叉熵损失函数：

其中，θ表示模型参数，y表示实例真值标签，

表示预测的标签(即曼哈顿距离相似度)。此外，模型使用Adadelta方法和梯度限幅进行参数优化。当损失函数的值小于设定的阈值，例如阈值设置成0.1时，模型训练停止。

步骤8：重复缺陷报告检测，使用步骤7中训练得到的重复缺陷报告检测模型对测试数据进行自动检测，得到重复缺陷报告的检测结果。

以上内容对本发明所述基于异质信息网络的重复缺陷报告检测方法进行了详细的说明，但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说，在不背离本发明的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims

1.一种基于异质信息网络的重复缺陷报告检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于异质信息网络的重复缺陷报告检测方法，其特征在于，所述步骤(1)包括以下步骤：

(11)从缺陷报告文件中提取六类异质属性当作节点，即缺陷报告标识号BID、产品PRO、组件COM、版本VER、严重性SEV和修复优先级PRI；

(12)将六类属性节点建立连边：

每个缺陷报告记录一个位于特定软件项目功能组件的缺陷，分别使用L和L^-1来表示缺陷报告和组件之间的关系R1，即

和

和

和

和

和

3.根据权利要求1所述的一种基于异质信息网络的重复缺陷报告检测方法，其特征在于，步骤(3)中所述的预处理包括单词分割、停用词删除和单词标准化。

4.根据权利要求1所述的一种基于异质信息网络的重复缺陷报告检测方法，其特征在于，所述步骤(4)包括以下步骤：

(41)给定一个项目的所有缺陷报告BR，生成一个重复关系网络G_br(V_br,E_br)，对于每一个缺陷报告br，分别在id_br和resolution_br中记录它的标识号ID和解决状态；如果它的解决状态为“重复”，那么将该缺陷报告中记录的dup_id，即该缺陷报告所重复的缺陷报告的标识号，提取出来并记录到ids_dup；然后将一条边(id_br,id_dup)加入到E_br中；一个重复缺陷报告可能记录了超过一个的dup_id或者没有记录dup_id，如果没有记录dup_id，该缺陷报告将从数据集中丢弃；如果缺陷报告的解决状态不是“重复”，那么将该缺陷报告的id_br加入到V_br中；当缺陷报告BR中所有的缺陷报告都遍历完后，得到重复关系网络G_br；

有超过一个节点，那么存在两种情况：

不存在回环或者存在回环，对于不存在回环的情况，将节点出度为0的缺陷报告id_br作为主缺陷报告master；如果子图

不存在回环或者存在回环，与主缺陷报告master属于相同缺陷报告组的其他缺陷报告Group_bug[master]均为子图V_sub除去master后的节点集合V_sub-{id_br}。

5.根据权利要求1所述的一种基于异质信息网络的重复缺陷报告检测方法，其特征在于，所述步骤(6)包括以下步骤：

(61)将缺陷报告的结构化特征使用多层感知器网络进行嵌入；

(62)将缺陷报告的非结构化特征使用循环神经网络进行嵌入；

(63)嵌入后的结构化特征和非结构化特征使用多层感知器网络进行融合，用于表示缺陷报告的向量；

(64)模型输出缺陷报告对的相似度。

6.根据权利要求1所述的一种基于异质信息网络的重复缺陷报告检测方法，其特征在于，所述步骤(7)的实现过程如下：