CN113138920A

CN113138920A - 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置

Info

Publication number: CN113138920A
Application number: CN202110424579.4A
Authority: CN
Inventors: 杨立; 徐文文; 江华禧; 左春; 梁赓
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-20
Anticipated expiration: 2041-04-20
Also published as: CN113138920B

Abstract

本发明公开了一种基于知识图谱与语义角色标注的软件缺陷报告分派方法，包括：获取待分派软件缺陷报告中的文本数据；对文本数据进行语义角色标注，得到语义角色标注向量表示；利用知识图谱对文本数据注入知识，得到文本向量表示；拼接归一化后的语义角色标注向量表示与文本向量表示，得到待分派软件缺陷报告的向量表示，软件缺陷报告分派结果。本发明使用预训练语言模型对缺陷报自动分类，提高了缺陷分派的准确性，通过外部知识和明确的结构化语义信息的引入，提升了模型的文本表示能力；将知识和语义标注信息分开处理，并采取拼接的方式融合，具有较高的解耦性。

Description

基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置

技术领域

本发明涉及一种基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置，属于计算机技术应用领域。

背景技术

随着软件的复杂度越来越高，软件维护也面临着巨大挑战。为了提高软件维护的效率，缺陷跟踪系统BTS(Bug Tracking System)被广泛应用于缺陷管理。在BTS中每个缺陷被描述成具有规范格式的缺陷报告，包含缺陷重复出现的描述信息以及缺陷的状态更新信息等。当开发者或用户发现缺陷后，便可以在BTS中创建相应的缺陷报告并进行提交，一旦该缺陷报告被确认，它就开始了其生命周期，直至最后被修复而关闭。在这个过程中，缺陷分派是指将一个新的缺陷报告分配给一个合适的开发者进行修复的活动。在大型开发项目中会不断有新的缺陷报告涌入并积累。截止2017年，Eclipse、Mozilla项目上提交的缺陷报告分别超过了50、138万个，使用人工的方法来分派这样大规模项目的缺陷报告不但耗时耗力，而且容易造成报告的重新分派。

近年来，基于机器学习的软件缺陷报告自动分派方法已取代人工分配方法，减少了缺陷修复所耗费的人力和时间成本。已有的缺陷自动分派方法主要分为3类：基于文本分类的方法、基于再分配图的方法以及混合方法。其中，基于文本分类的自动分派方法已成为主流技术，其主要思路是从已修复的缺陷报告中学习表征缺陷与修复者之间关系的文本特征，再针对新的缺陷报告预测可能的开发者。并且随着深度学习在自然语言处理(naturallanguage processing，NLP)领域的成功应用，研究者也尝试利用了一些深度学习技术来进一步提高缺陷自动分派的准确率。

然而，在这些方法中常用的循环神经网络(recurrent neural network，RNN)和卷积神经网络(convolutional neural network，CNN)存在一定的局限性。一方面，RNN能捕捉文本的序列信息，但难以具备高效的并行计算能力，并且其总体上类似于一个马尔可夫决策过程，较难以提取全局信息；另一方面，CNN利用卷积核捕捉文本的局部信息来构建特征，但容易丢失文本的序列信息。近年来，在NLP领域，Google团队提出的完全基于注意力机制的Transformer模型带来了强于RNN、CNN的文本特征抽取能力。基于Transformer之上，研究者又提出了一类深层次的预训练语言模型，如BERT(Pre-training of DeepBidirectional Transformers for Language Understanding)，但该类模型通常是通过几个简单的任务来训练模型，以掌握词或句子共现信息，所以模型在文本表示上仍存在知识与语义方面的不足。类比人类阅读文章，往往不仅仅依赖字词本身的含义，还会结合一定的常识和句式结构来理解句子的表达的含义。实际上，适当的外部知识能够帮助模型获取文本的有关背景信息，使得模型能够更深入的理解文本。如对于“Cannot enter username bycopying”这样一条缺陷报告中的文本，如果能在“username”这个实体中注入“used login”这样的知识，这条报告就更可能被准确的分派到负责登录相关的开发者手中。另一方面，结构化语义信息能够帮助模型从句法结构的角度理解文本，进而能让模型的文本表示更为完整，比如语义角色标注信息，能够标注句子中谓词相关的论元(语义角色)，如施事、受事、时间和位置等，而这些也正是缺陷报告分派时作为依据的关键信息。

总的来说，虽然深度学习已经初步用于软件缺陷自动分派的工作，但现有工作使用的特征抽取模型的性能较为有限，并且没用考虑引入外部知识和结构化语义信息来增强模型的文本表示的能力，进而提高缺陷报告分派的准确率。

发明内容

本发明解决的技术问题：克服现有技术的不足，提供一种基于知识图谱以及语义角色标注的软件缺陷报告分派方法及装置，具有分派准确度高，易升级的优点，能够对于高速发展的预训练语言模型进行兼容。

本发明解决其技术问题所采用的技术方案是：

一种基于知识图谱与语义角色标注的软件缺陷报告分派方法，其步骤包括：

1)获取待分派软件缺陷报告中的文本数据；

2)对文本数据进行语义角色标注，获取对应的标注数据，并对标注数据进行向量化，得到语义角色标注向量表示；

3)利用知识图谱对文本数据注入知识，并通过已训练的语言模型，得到文本向量表示；

4)拼接归一化后的语义角色标注向量表示与文本向量表示，得到待分派软件缺陷报告的向量表示；

5)根据待分派软件缺陷报告的向量表示，获取软件缺陷报告分派结果。

进一步地，获取文本数据的方法包括：拼接待分派软件缺陷报告中的描述与评论文本。

进一步地，获取标注数据的方法包括：基于双向长短期记忆神经网络以及条件随机场的语义角色标注方法。

进一步地，通过以下步骤得到语义角色标注向量表示：

1)建立一个映射字典，将英文标注映射成对应的数字，得到标注数据的向量表示；

2)将标注数据的向量表示进行拼接，并通过双向长短记忆神经网络和全连接层神经网络，得到语义角色标注向量表示。

进一步地，知识图谱包括：已公开的通用领域知识图谱及专业领域知识图谱、或根据业务需求构建的知识图谱。

进一步地，所述语言模型包括：BERT模型。

进一步地，所述BERT模型包括：谷歌开源的bert-base-uncased模型。

进一步地，通过以下步骤得到文本向量表示：

1)对文本数据进行分词，并依次在知识图谱中查找每个词对应的三元组；

2)使用基于BERT模型的文本编码工具，对文本数据和三元组分别进行编码，得到固定长度的句子向量与三元组向量；

3)利用余弦相似度，计算句子向量与各三元组向量的相似度，并将相似度最高的三元组向量对应的三元组，作为背景知识注入到文本数据中，得到注入知识的文本数据；

4)将注入知识的文本数据输入BERT模型，得到文本向量表示。

进一步地，所述三元组包括：<登录信息、注册信息、网络术语>。

进一步地，利用一缺陷报告模型，得到软件缺陷报告分派结果，其中通过以下步骤得到缺陷报告模型：

1)从待分派软件缺陷报告所在项目的缺陷跟踪系统中，搜集历史缺陷报告，并对历史缺陷报告中的文本内容进行预处理，生成缺陷报告数据集，获取缺陷报告数据集中的各样本文本数据及相应的类别标签；

2)对各样本文本数据进行语义角色标注，得到对应的样本标注数据，并对各样本标注数据进行向量化，得到样本语义角色标注向量表示；

3)利用知识图谱对各样本文本数据注入知识，并通过预训练语言模型，得到样本文本向量表示；

4)拼接样本语义角色标注向量表示与对应的样本文本向量表示，得到样本向量表示；

5)将各样本向量迭代输入一线性分类器，通过预测相应的类别标签，更新BERT模型与线性分类器的参数以及最优化任务的目标，得到已训练的语言模型及缺陷报告模型。

进一步地，所述预处理包括：去除停用词、去除数字、去除非字母、提取词干和删除修复次数少于设定阈值的开发者对应的数据。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

本发明与现有技术相比，其显著优点为：

1)本发明使用预训练语言模型对缺陷报自动分类，预训练语言模型具有能够自动进行特征表达的能力，省去了繁杂的人工特征工程，且提高了缺陷分派的准确性；

2)本发明提出了融合知识和结构化语义信息的新型预训练语言模型，通过外部知识和明确的结构化语义信息的引入，进一步提升了模型的文本表示能力；

3)本发明提出的方法将知识和语义标注信息分开处理，并采取拼接的方式融合，具有较高的解耦性，便于该框架迁移不同的基于注意力机制的预训练语言模型，对预训练语义模型飞速发展的现状有较好的适应性，利于框架的升级。

附图说明

图1是本发明缺陷报告自动分派方法的总体流程图。

图2是缺陷报告实例。

图3为融合知识与语义的预训练语言模型的框架图。

图4是知识筛选示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰明了，以下结合附图说明，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的软件缺陷报告分派方法，其流程图如图1所示，包括以下步骤：

步骤1：从项目所在的缺陷跟踪系统中，搜集历史缺陷报告，并对文本内容进行预处理生成缺陷报告数据集；

步骤2：对文本数据进行语义角色标注，得到对应的标注数据，并进行向量化；

步骤3：利用知识图谱对文本数据注入知识，并通过预训练语言模型(BERT)得到文本的向量表示，进一步的，将文本和标注的向量表示进行拼接，得到既包含知识也包含语义的文本向量表示；

步骤4：构建缺陷报告分派预测模型，即利用一个线性分类器，将步骤3中得到的向量表示作为输入，来预测对应的类别；

步骤5：针对输入的新的缺陷报告，执行步骤(2)、(3)，得到该缺陷报告所对应的向量，然后输入第四步所构建的缺陷报告模型，得到最适合修复该缺陷的修复者列表。

实施例1：以图2所示缺陷报告#1000为例，分析缺陷报告自动分派方法，具体步骤如下：

步骤1：从项目所在的缺陷跟踪系统获取得到历史缺陷报告，并对文本内容进行预处理构建缺陷报告数据集，具体步骤如下：

步骤11：如图2所示，从缺陷报告中提取描述和评论文本信息，即Description、Comment 1、Comment 2、Comment 3对应的文本，将这些文本依次进行拼接；

步骤12：然后对拼接后文本进行分词，去除停用词，去除数字与非字母，提取词干。最后将历史修复活动中最后一位开发人员作为类别标签，最终得到文本数据为：“Cannotenter username by copying……(为了便于说明，本文用省略号代替了评论的相关文本)”；

步骤13：删除修复次数少于10次的开发者对应的数据，避免长尾数据的影响；

步骤14：对数据集进行随机排序，并将数据按照7：3的比例分成训练集和测试集。

步骤2：对文本数据进行语义角色标注，得到对应的标注数据，并进行向量化，具体步骤如下：

步骤21：使用基于双向长短期记忆神经网络以及条件随机场的语义角色标注方法，获取文本特征数据的语义角色标注数据，如图3所示，“Cannot enter username bycopying(无法通过复制输入用户名)”包含两个谓词，所以对应有两条语义角色标注；

步骤22：建立一个映射字典，将英文缩写形式的语义角色标注映射成相应的数字，得到标注数据的向量表示；

步骤23：将向量形式的标注数据进行拼接，并通过双向长短记忆神经网络和全连接层神经网络得到一个20维的向量，作为最终的语义角色标注的向量表示。

步骤3：利用知识图谱对文本数据注入知识，并通过预训练语言模型(BERT)得到文本的向量表示，进一步的，将文本和标注的向量表示进行拼接，得到既包含知识也包含语义的文本向量表示，具体步骤如下：

步骤31：加载现有的通用领域的知识图谱(如已公开的一些通用领域知识图谱，以及部分专业领域的知识图谱)；

步骤32：对文本数据进行分词，并依次在知识图谱中查找每个词对应的三元组<登录信息、注册信息、网络术语>，如图3所示，实体“username”对应着“username-for-loggingin”、“username-for-registration”和“username-is-network term”三条三元组，这三条三元组可以看作实体“username”不同的背景知识；

步骤33：使用基于BERT模型的文本编码工具，对文本数据和三元组进行编码，即将长度不一的三元组或句子映射到固定长度的向量。进一步计算三元组向量与句子向量的余弦相似度，选择相关程度最高的三元组作为背景知识嵌入到文本数据中，如图4所示，最终计算出“for logging in”为实体“username”最相关的知识，并直接嵌入文本中。假设输入的句子是s，s中的某个实体对应的某一条知识为K，句子和知识的相关程度得分可以形式化为：

(K_e，s_e)＝bert_embedding(K，s)

其中，K_e和s_e分别是K和s的向量表示，n是向量表示的维度；

步骤34：加载预训练语言模型BERT，这里具体选用的是谷歌开源的bert-base-uncased模型。

步骤35：将注入了知识的文本数据通过BERT的嵌入层和编码层，得到文本数据的向量表示。期间为了避免外部知识对文本数据的句子结构带来影响，模型进行注意力机制计算时，需要保证外部知识只能参与对应的实体的注意力计算；

步骤36：将文本和标注的向量表示分别进行归一化，然后进行拼接，得到既包含知识也包含语义的文本向量表示。

步骤4：构建缺陷报告分派预测模型，即利用一个线性分类器，将步骤3中得到的向量表示作为输入，来预测对应的类别，具体步骤如下：

步骤41：将步骤3最终得到的向量表示通过一个多层的线性分类器，并经过Dropout处理；

步骤42：基于步骤1得到数据，对模型进行训练，预测文本向量对应的标签，更新BERT模型以及分类器的参数，最优化任务的目标；

步骤43：对模型超参数进行调优，如线性分类器的层数，Dropout的参数等，并在测试集上对模型进行预测准确率的评估，最后保存最优的模型。

步骤5：针对输入的新的缺陷报告，执行步骤(2)、(3)，得到该缺陷报告所对应的向量，然后输入至步骤4所保存的缺陷报告模型，得到最适合修复该缺陷的修复者列表。

为说明本发明的性能优势，本发明使用线性判别、CNN、RNN分类预测模型作为基准进行了比较实验。为了使得结果的客观和标准，本实验的基准模型直接采用了AllenNLP框架中封装好的各个分类预测方法进行实验，并使用同样的随机种子，将缺陷报告数据按照7：3的比例分为训练集和测试集。经过3次重复实验并将结果求和平均后，其中线性判别分类方法预测准确率为46.4％，RNN预测准确率为64.8％，CNN的预测准确率为67.5％，本发明提出的一种基于BERT、知识图谱及语义角色标注的软件缺陷报告分派方法预测准确率最高，为70.2％，较基准模型中最优的CNN模型的预测准确率要高出2.7％。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱与语义角色标注的软件缺陷报告分派方法，其步骤包括：

1)获取待分派软件缺陷报告中的文本数据；

2.如权利要求1所述的方法，其特征在于，获取文本数据的方法包括：拼接待分派软件缺陷报告中的描述与评论文本；获取标注数据的方法包括：基于双向长短期记忆神经网络以及条件随机场的语义角色标注方法。

3.如权利要求1所述的方法，其特征在于，通过以下步骤得到语义角色标注向量表示：

4.如权利要求1所述的方法，其特征在于，知识图谱包括：已公开的通用领域知识图谱及专业领域知识图谱、或根据业务需求构建的知识图谱。

5.如权利要求1所述的方法，其特征在于，所述语言模型包括：BERT模型；所述BERT模型包括：谷歌开源的bert-base-uncased模型。

6.如权利要求5所述的方法，其特征在于，通过以下步骤得到文本向量表示：

4)将注入知识的文本数据输入BERT模型，得到文本向量表示。

7.如权利要求6所述的方法，其特征在于，所述三元组包括：<登录信息、注册信息、网络术语>。

8.如权利要求1所述的方法，其特征在于，利用一缺陷报告模型，得到软件缺陷报告分派结果，其中通过以下步骤得到缺陷报告模型：

5)将各样本向量迭代输入一线性分类器，通过预测相应的类别标签，更新预训练的模型与线性分类器的参数以及最优化任务的目标，得到已训练的语言模型及缺陷报告模型。

9.如权利要求8所述的方法，其特征在于，所述预处理包括：去除停用词、去除数字、去除非字母、提取词干和删除修复次数少于设定阈值的开发者对应的数据。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-9中任一所述方法。