CN107832781A

CN107832781A - 一种面向多源数据的软件缺陷表示学习方法

Info

Publication number: CN107832781A
Application number: CN201710973976.0A
Authority: CN
Inventors: 李斌; 周澄; 孙小兵
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2017-10-18
Filing date: 2017-10-18
Publication date: 2018-03-23
Anticipated expiration: 2037-10-18
Also published as: CN107832781B

Abstract

本发明涉及一种面向多源数据的软件缺陷表示学习方法。本发明对多源数据处理并形成缺陷数据集，从中选取训练集、测试集，选用word2vec对缺陷数据集进行词向量学习后经过聚类得到相似词及相似度并作为命名实体识别技术的特征输入，经过领域命名实体识别，选择出现最多的为关键命名实体，采用实体共现分析技术对关键命名实体进行共现分析，缺陷描述由词的组合转换为共现实体对和分布实体的集合，实现软件缺陷表示，最终将缺陷描述表示成一个特征向量。本发明克服了没有就软件缺陷本身的结构特征进行分析的缺陷。本发明利用词向量技术处理文本，结合多源数据，提取软件缺陷命名实体，分析共现实体对，从知识的角度对软件缺陷进行表示。

Description

一种面向多源数据的软件缺陷表示学习方法

技术领域

本发明属于软件工程领域，特别涉及一种面向多源数据的软件缺陷表示学习方法。

背景技术

缺陷修复是软件维护过程中的重要组成部分。近年来，随着软件项目的规模扩张和复杂度提升，在软件开发过程中出现了大量的缺陷，如何准确高效地解决这些缺陷已成为具有相当挑战性的工作。例如在目前缺陷修复推荐工作中，主要是通过提取新缺陷的关键词，与历史缺陷库中缺陷报告的关键词进行匹配，按照匹配度高低进行排序进行推荐，这种关键词-关键词推荐割裂了缺陷的整体语义结构。同时目前在线软件社区发展迅速，除了开源的缺陷跟踪系统缺陷库记录大量的缺陷报告，软件项目托管平台(GitHub等)存储许多开源项目实时更新的缺陷修复描述及评论，IT技术问答网站(Stack Overflow，SegmentFault等)也包含有许多与缺陷相关的问答信息，这些多源信息都能为bug修复提供参考，但是数据繁杂、结构各异，需求者很难立时全面准确地获取到相关信息。针对以上问题，本发明提出一种基于命名实体与词向量相结合的软件缺陷表示方法，能从知识的角度对软件缺陷进行表示，并且更好地利用文本的语法、语义信息，充分挖掘词与上下文的关系。

在本发明作出之前，目前，已有一些工作用来分析软件缺陷的分布特征。如Lin等人对三个开源项目进行统计，从缺陷来源、影响和组件三个不同方面软件缺陷进行分类，并进一步探讨语义性缺陷和内存性缺陷的分布比例和发展趋势，但并没有就软件缺陷本身的结构特征进行分析。也有一些工作完成了对整体软件环境领域的实体抽取，如Ye等人通过CRF++模型、布朗聚类技术对Stack Overflow网站中的软件问答数据进行命名实体的识别，缺乏针对性。

本发明针对软件缺陷这一专业领域，提出了实体识别、共现关系抽取、缺陷描述知识表示的完整方法。

发明内容

本发明技术方法是：

一种面向多源数据的软件缺陷表示学习方法，其主要技术特征在于如下步骤：

(1)缺陷数据准备；收集缺陷库中的数据，提取缺陷报告中的标题、描述、评论；收集问答网站中与缺陷相关的数据，提取问题、答案、评论、标签，收集在线词典、其他软件专业源中与缺陷相关的专业数据，包括wikipedia、官方API、GitHub；对上述三种来源的数据进行自然语言处理，如分词、词根还原、去掉停用词等，形成缺陷数据集；

(2)命名实体抽取；从缺陷数据中选取一定量缺陷报告作为待标注集训练命名实体识别模型；定义软件缺陷领域的16种实体类型，分别为core、GUI、Network、I/O、Driver、File System、Hardware、Language、API、Standard、Platform、Framework、Defect test、Mobile、common adjective、commom verb，对待标注集进行实体标记形成专业语料库，并随机分为训练集和测试集；对缺陷数据集中所有数据进行词向量训练、聚类，给出相似词及相似度并提取特征，选用命名实体识别模型对训练集进行训练；在选定的测试集上进行交叉验证得到软件缺陷实体标注器，对缺陷数据集进行实体抽取；

(3)命名实体共现；经过领域命名实体识别，选择出现最多的为关键命名实体，分析命名实体联系的紧密程度；计算命名实体对的共现频度、相对距离、共文档率，综合三个数值形成共现值，根据共现值进行排序，给定阀值选取阀值之上的实体对作为共现实体对，通过相似词对共现实体对进行扩展得到共现实体对集；

(4)软件缺陷表示；对软件缺陷描述进行实体识别，对识别出的实体进行TF-IDF即词频-逆文档频率加权平均计算，去除重复实体，抽取共现实体对，缺陷描述由词的组合转换为共现实体对和分布实体的集合；共现实体对的特征向量表示由构成该实体对的实体对应的词向量合并而成，TF-IDF值为构成该实体对的实体TF-IDF值平均值；综合实体的向量和TF-IDF值计算该实体的本地向量，对缺陷描述中所有实体的本地向量进行求和平均计算，最终将缺陷描述表示成一个特征向量。

本发明的优点和效果在于针对软件缺陷这一专业领域，提出了实体识别、共现关系抽取、缺陷描述知识表示的完整方法。即利用词向量技术处理文本，结合多源数据，提取软件缺陷命名实体，分析共现实体对，从知识的角度对软件缺陷进行表示。具体说，主要有如下一些优点：

(1)知识表示：本发明不是直接对缺陷报告提取关键词，而是从知识的角度对软件缺陷进行表示，并且更好地利用文本的语法、语义信息，充分挖掘词与上下文的关系。

①本发明中首度提出了软件缺陷命名实体识别的概念，通过对大量多项目缺陷报告数据进行标注软件缺陷语料库，训练软件缺陷命名实体标注器。

②鉴于软件缺陷描述的语法结构，在定义命名实体类别时，单独考虑了常用形容词、常用动词这两种词性的单独实体类别，这两类实体和其他名词类实体搭配的实体对很多已经成为缺陷描述的常规描述写法，本发明通过对实体共现的统计分析，挖掘出这些共现实体对，并通过相似词扩展，形成了一系列的共现实体对集，通过几个紧密联系的命名实体就可以得到软件缺陷的核心内容，另外，通过命名实体共现，可以扩展搜索推荐查询结果，为缺陷修复提供更多所需信息。

③考虑到目前大量移动空间性软件的出现，本发明特殊定义Mobile类型实体，为移动型软件缺陷的研究打下基础。

④本发明面向多源数据，而不只局限于缺陷跟踪系统缺陷库。软件项目托管平台(GitHub等)存储许多开源项目实时更新的缺陷修复描述及评论，IT技术问答网站(StackOverflow，SegmentFault等)也包含有许多与缺陷相关的问答信息，这些多源信息都可以参照本发明提出的方法进行分析，得到统一的表示结果。

(2)词向量表示：本发明针对软件缺陷这一专业领域，通过词向量学习提出了缺陷描述整体知识表示的方法。Word Embedding，中文译称“词向量”，这种表示法的优点在于可以让相似的词在距离上更为接近，能体现出词与词之间、词与上下文之间的相关性，从而反映词之间的依赖关系。本发明使用词向量学习赋予每个实体向量，在此基础上定义共现实体对、缺陷描述的特征向量表示方法，将非结构化的自然语言文本转化为机器学习算法可以理解的形式，为软件缺陷修复用户层面的实际应用研究打下基础。

附图说明

图1——本发明流程示意图。

图2——本发明软件缺陷表示流程示意图。

图3——本发明中抽取的Mozilla项目Fixed缺陷报告列表示意图。

图4——本发明中抽取的一个缺陷报告截图。

图5——本发明中软件缺陷使用word2vec训练的vector格式模型：bug.en.text.vector截图。

具体实施方式

本发明的技术思路是：

先对多源数据进行预处理，形成统一的缺陷数据集。从数据集中选取部分状态为fixed的缺陷报告进行标注形成语料库，其中一部分构成训练集，另一部分构成测试集。使用命名实体识别技术对训练集进行训练，选用word2vec对缺陷数据集进行词向量学习后经过聚类得到相似词及相似度并作为命名实体识别技术的特征输入，最后对测试集进行交叉检验得到知识实体标注器。经过领域命名实体识别，选择出现最多的为关键命名实体，采用实体共现分析技术对关键命名实体进行共现分析，分析后的实体对作为共现实体对，通过相似词对共现实体对进行扩展得到共现实体对集。对软件缺陷描述进行实体识别，对识别出的实体进行TF-IDF加权平均计算，去除重复实体，抽取共现实体对，缺陷描述由词的组合转换为共现实体对和分布实体的集合。综合实体(实体对)的向量和TF-IDF值计算该实体(对)的本地向量，最终将缺陷描述表示成一个特征向量。

下面具体说明本发明。

如图1-2所示，其步骤如下：

步骤1).收集4个开源软件项目的缺陷报告，考虑到缺陷数据的准确性，如图3所示，均提取状态为fixed的缺陷报告。从每个缺陷报告中提取标题、描述、评论、产品、组件，评论可以有效帮助甄别缺陷的来源，如图4所示，收集的报告数量分布如表1所示。

表1 4个项目提取缺陷报告数量分布表

software	Fixed BR	Sampled BR	Sampling Data
				Mozilla	124K	1000	2017.9
Apache	10K	450	2017.9
				Eclipse	21K	300	2017.9
Linux	3.7K	350	2017.9
				Total	158.7K	2100

选取Stack Overflow中含有bug、defect关键词的问答数据，提取问题、答案、评论、标签。另外收集在线词典、其他软件专业源中与缺陷相关的专业数据，包括wikipedia、官方API、GitHub。对上述三种来源的数据进行自然语言处理，如分词、词根还原、去掉停用词等，整理成txt文档，形成缺陷数据集。

步骤2).使用实体标注工具从数据集中随机选取部分状态为fixed的缺陷报告进行标注形成语料库，其中一部分构成训练集，其余部分构成测试集。从组件、专用名词、其他用词三方面分析，定义软件缺陷领域的16种实体类型，具体类型、标注标签和实例如表2所示。

表2 bug-specific Entity Categories

具体采用三标记法定义实体标签，标记释义如表3所示。

表3 三标记释义表

下面给出一个标注实例，如表4所示。加粗标记的部分即为对应的实体标记。

表4 完全标注数据对照表

选用word2vec对缺陷数据集进行词向量学习后经过聚类得到相似词及相似度并作为命名实体识别模型的特征输入，最后对测试集进行交叉检验从而得到了算法知识实体标注器。

步骤3).经过领域命名实体识别，选择出现最多的为关键命名实体，采用实体共现分析技术对关键命名实体进行共现分析，计算命名实体对的共现频度、相对距离、共文档率，综合三个数值形成共现值，根据共现值进行排序，给定阀值选取阀值之上的实体对作为共现实体对，通过相似词对共现实体对进行扩展得到共现实体对集。共现实体对实例如表5所示：

表5 部分实体共现值排序结果示意表

步骤4).经过预处理，每个软件缺陷转化为文档D可以表示为词的集合，其中t代表文档中的一个词，n为文档中词的个数：

D＝(t₁，t₂，…，t_n)

经过领域命名实体识别，由词表示的文档可以转换为由命名实体表示的文档D：D＝(NE₁，NE₂，…，NE_m)

其中NE表示命名实体，m表示命名实体个数，m＜＜n，可能有重复的实体。经过步骤2)在bug数据集上进行了深度学习，每个实体可以表示成维度为d，维度数为k的词向量模型：

Vec(NE)＝(d₁，d₂，…，d_k)

对文档中识别出的每个命名实体对应的词向量进行TF-IDF(TF-IDF与实体在文档中的出现次数成正比，与该实体在整个缺陷数据库中的出现次数成反比)计算，实体NE_i在文档D_s中的TF-IDF值表示为：

tfidf(NE_i，D_s)

去除重复实体，抽取共现实体对，缺陷描述由词的组合转换为共现实体对和分布实体(除实体对之外的独立实体)的集合D：

D＝((NE₁，NE₂)，(NE₃，NE₄)，…，NE_m-1，NE_m)

共现实体对的特征向量表示由构成该实体对的实体对应的词向量合并而成，TF-IDF值为构成该实体对的实体TF-IDF值平均值：

Vec(NE_i，NE_j)＝Vec(NE_i)+Vec(NE_j)

tfidf((NE_i，NE_j)，D_s)＝(tfidf(NE_i，D_s)+tfidf(NE_j，D_s))/2

综合实体(实体对)的向量和TF-IDF值计算该实体(对)的本地向量。对缺陷描述中所有实体(对)的本地向量进行求和平均计算，最终将缺陷描述表示成一个特征向量，下面公式中I表示共现实体对的个数，m-2I表示分布实体的个数，特征向量模型如图5所示。

Claims

1.一种面向多源数据的软件缺陷表示学习方法，其特征在于如下步骤：

(2)命名实体抽取；从缺陷数据中选取一定量缺陷报告作为待标注集训练命名实体识别模型；定义软件缺陷领域的16种实体类型，分别为core、GUI、Network、I/O、Driver、FileSystem、Hardware、Language、API、Standard、Platform、Framework、Defect test、Mobile、common adjective、commom verb，对待标注集进行实体标记形成专业语料库，并随机分为训练集和测试集；对缺陷数据集中所有数据进行词向量训练、聚类，给出相似词及相似度并提取特征，选用命名实体识别模型对训练集进行训练；在选定的测试集上进行交叉验证得到软件缺陷实体标注器，对缺陷数据集进行实体抽取；