CN109492113B

CN109492113B - 一种面向软件缺陷知识的实体、关系联合抽取方法

Info

Publication number: CN109492113B
Application number: CN201811306356.2A
Authority: CN
Inventors: 李斌; 陈定山; 周澄; 孙小兵
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2022-05-13
Anticipated expiration: 2038-11-05
Also published as: CN109492113A; WO2020093761A1; US20210240603A1; US11169912B2

Abstract

本发明公开了一种面向软件缺陷知识的实体、关系联合抽取方法，包括以下步骤：首先采集开源缺陷库的文本数据，并对所述文本数据进行预处理，获得缺陷文本数据语料库；然后从缺陷文本数据语料库提取描述缺陷的语句S，对S进行处理并作为后续的输入语句；之后构建基于转移系统的实体、关系联合抽取模型；然后结合建立的基于转移系统的实体、关系联合抽取模型，获取上述输入语句对应的实体集合E以及关系集合R；最后将实体集合E以及关系集合R输出，完成实体、关系的联合抽取。本发明可以将缺陷实体抽取和关系识别这两个子任务紧密联系起来，最终抽取出缺陷文本的关键信息，帮助软件开发者快速、高效的了解缺陷信息以完成缺陷修复。

Description

一种面向软件缺陷知识的实体、关系联合抽取方法

技术领域

本发明属于软件维护领域，特别是一种面向软件缺陷知识的实体、关系联合抽取方法。

背景技术

缺陷修复是软件维护过程中的重要组成部分。随着大数据时代的到来，互联网中的文本数据急剧增加。同样的,软件项目的规模也随之扩张以及复杂度有了大幅度提升,在软件开发过程中出现了大量的缺陷，如何准确高效地处理和解决这些缺陷已成为目前主要的工作。这些海量的文本一方面蕴含了丰富的知识，另一方面也夹杂了巨大的冗余信息。因此，我们需要思考如何在这些非结构化的文本数据中高效、精准地抽取出实体及它们之间的关系以形成结构化的知识，帮助人们了快速获取关键性的信息。

针对互联网中存在的大量缺陷报告进行实体关系的联合抽取，抽取出缺陷的关键信息，帮助软件开发者快速、高效的了解缺陷信息，并完成修复。目前主要有两种方法广泛的被应用与实体和关系的抽取任务，一种是实体关系依次抽取的串联式抽取，另一种是实体关系联合式抽取的。串联式方法把这一任务分解为两个不同的子任务，即命名实体识别和关系识别。传统的命名实体识别模型是线性统计模型，例如隐马尔科夫模型HMM和条件随机场CRF模型。最近一些神经网络结构也被成功应用到命名实体识别中，这被当做是序列标注任务。已有的关系识别方法也可以被分为基于手工构造特征的方法和神经网络方法。这种分开来处理的方式比较简单，而且各个模块都比较灵活。但是这种方法忽视了两个任务之间的联系，实体识别的结果可能会影响关系的抽取。不同于传统的串联式的方法，联合抽取是用一个模型来抽取实体和关系。联合学习一词并不是一个最近才出现的术语，在自然语言处理领域，很早就有研究者使用基于传统机器学习的联合模型来对一些有着密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习，分词和词性标注联合学习等等。将这种方式应用到实体识别和关系抽取上可以有效的整合实体和关系信息，并且达到一个很好的效果。联合抽取实体和关系使用的是单个模型。大多数联合式方法是基于特征来实现的，最近开始大量使用基于LSTM的模型能够减少人工工作。但是这种方法基于特征来实现的，并且非常依赖其他可能会引入误差的自然语言处理工具。所以，目前为了减少人工抽取特征工作，提出基于神经网络的端到端模型来联合抽取实体和关系。端到端模型是把输入句子映射一个有意义向量中然后再生成一个序列。它被广泛应用于机器翻译和序列标注任务。大多数方法都使用双向LSTM对输入句子进行编码，但是解码方法总是不同的。例如，使用一个CRF层解码标签序列，同时应用LSTM层来产生标签序列。尽管这些模型能够在同一个模型当中共享实体抽取和关系抽取的参数，但是实体和关系抽取是分开进行的而且容易产生冗余信息。

发明内容

本发明所要解决的技术问题在于结合软件缺陷领域数据的相关特征，提供一种面向软件缺陷知识的实体、关系联合抽取方法。

实现本发明目的的技术解决方案为：一种面向软件缺陷知识的实体、关系联合抽取方法，包括以下步骤：

步骤1、采集开源缺陷库的文本数据，并对所述文本数据进行预处理，获得缺陷文本数据语料库；

步骤2、从步骤1中获得的缺陷文本数据语料库提取描述缺陷的语句S，之后对S进行处理并作为步骤4的输入语句；

步骤3、构建基于转移系统的实体、关系联合抽取模型；

步骤4、结合步骤3建立的基于转移系统的实体、关系联合抽取模型，获取步骤2所述输入语句对应的实体集合E以及关系集合R；

步骤5、将步骤4获得的实体集合E以及关系集合R输出，完成实体、关系的联合抽取。

本发明与现有技术相比，其显著优点为：1)本发明提出的联合抽取方法，不仅能够发现缺陷语句中潜在的实体本身以及实体和关系、关系和关系之间的联系，还能够避免串联式抽取缺陷关系三元组所出现的错误传播；2)本发明中通过由arc‐eager算法形成的一套转化规则，并经过一系列的转移动作，将实体识别和关系抽取联合任务通过一个有向图来表示，并使用基于转移的方法直接生成该有向图，保证的任务的连贯性和一致性；3)本发明中通过有向图的设计，可以使得实体和实体之间不再是一对一的关系，以此可应对复杂的缺陷文本数据；4)本发明通过基于转移的方法将句子的解码过程建模为一个转移序列的构造过程，能够通过学习准确的预测下一步的转移动作，生成有效的动作序列，识别出有效的实体弧和关系弧，构造出输入缺陷语句的有向图。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明面向软件缺陷知识的实体、关系联合抽取方法的流程图。

图2为本发明中实体、关系联合抽取模型图。

图3为本发明实施例中抽取的bug1368216缺陷报告截图。

图4为本发明实施例中bug1368216标题的输出有向图。

具体实施方式

结合图1，本发明一种面向软件缺陷知识的实体、关系联合抽取方法，包括以下步骤：

步骤1、采集开源缺陷库的文本数据，并对文本数据进行预处理，获得缺陷文本数据语料库。

其中，文本数据包括缺陷报告中的标题、描述、评论以及问答网站中的问题、答案。

其中，对文本数据进行预处理，获得缺陷文本数据语料库具体为：

利用自然语言处理工具对文本数据进行预处理，并将预处理后的相关文本数据以文本的形式存储，由此获得缺陷文本数据语料库；预处理包括文本提取、分词、词性标注、词形还原。

步骤2、从步骤1中获得的缺陷文本数据语料库提取描述缺陷的语句S，之后对S进行处理并作为步骤4的输入语句。其中，描述缺陷的语句S具体为：

S＝{w₁,w₂,w₃,…,w_n}

式中，w_i为句子序列S中第i个单词，i＝1,2,…,n。

其中，对S进行处理具体为：

步骤2‐1、对S进行Word Embedding处理。对某一词w_i,用一个二维向量来表示：w_i和

每个词可以表示为：

步骤2‐2、对步骤2‐1处理后的S进行Bi‐LSTM编码处理。其中Bi‐LSTM用于使用两个单独的LSTM层在两个方向上处理序列：forward LSTM和backward LSTM，X＝(x₁,x₂,x₃,…,x_n)作为输入。forward LSTM依次编码词序列即由x₁→x_n,记为

backward LSTM逆向编码序列即由x_n→x₁,记为

用

表示词w_i的编码信息。最终对S进行处理输出为H_s＝{h₁,h₂,h₃,…,h_n}，式中，

步骤3、构建基于转移系统的实体、关系联合抽取模型，具体为：

步骤3-1、确定所要构建基于转移系统的实体、关系联合抽取模型的初始转移状态T₀；

步骤3-2、确定步骤3-1的初始转移状态T₀对应的最佳转移动作，并对初始转移状态T₀执行该最佳转移动作，获得下一时刻的转移状态；

步骤3-3、确定下一时刻的转移状态对应的最佳转移动作，并对该下一时刻的转移状态执行该最佳转移动作，以此循环直至达到终止转移状态T_n，从而完成基于转移系统的实体、关系联合抽取模型的建立。

其中，转移状态通过基于LSTM的方法进行表示，所用公式为:

T＝(σ,δ,e,β,R,E)

式中，σ为存储已生成实体的栈；δ为存储从σ临时弹出且之后被重新压入σ的实体的过渡栈；e为存储正在被处理的部分实体块的栈；β为存储未处理单词的缓冲区；R为关系集合；E为实体集合；

初始转移状态T₀为β为非空，σ,δ,e,R,E均为空的转移状态，具体为：

式中，m为未处理单词的个数；

终止转移状态T_n为β与e为空时的转移状态，具体为：

T_n＝(σ,δ,[],[],R,E)。

其中，转移动作具体为：利用arc‐eager算法形成的转移策略生成有向图，该转移策略根据有向图的特征包括两类转移动作：

1)实体生成动作，用于生成实体弧；

2)关系生成动作，用于生成关系弧。

本发明根据实体和关系设计出10种转移动作，其中关系弧7种，实体3种，具体描述见下表1：

表1转移动作的具体描述

确定转移状态对应的最佳转移动作，具体为：

结合基于贪心搜索的arc-standard算法和softmax函数确定转移状态对应的最佳转移动作。结合图2：

(1)假设在t时刻下基于转移系统的实体、关系联合抽取模型的转移状态为：

m_t＝max{0,Z}

式中，Z＝W[σ_t；δ_t；a_t；β_t；e_t]+d，W为参数矩阵，σ_t,δ_t,a_t,β_t,e_t分别为σ,δ,A,β,e在t时刻的状态表示，d为神经网络中的偏执项；

(2)通过softmax函数求取t时刻某一个转移动作a_t的概率为：

式中，a_t为t时刻的转移动作，

为转移动作a_t的嵌入表示的列向量，

为转移动作a_t对应的偏执项，m_t为t时刻模型的状态即模型做出的所有决策的信息的编码集合；A(S,B)存储当前状态时可以采取的有效动作集合,a′为集合A中的某一个转移动作，g_a′为转移动作a′的嵌入表示的列向量,T为转置；

则转移动作序列a的概率为：

式中，|a|为转移动作序列a中转移动作的个数；

(3)重复执行上述(2)，求取所有转移动作序列的概率，之后将概率最大的转移动作序列作为t时刻转移状态对应的最佳的转移动作。

步骤4、根据步骤3建立的基于转移系统的实体、关系联合抽取模型过程中获得的一系列最佳转移动作，对步骤2输入语句进行一系列的转移动作，由此获得输入语句对应的实体集合E以及关系集合R。其中，实体集合E为：

E＝{(e_i,e_j,r)}

式中，1≤i≤j≤n，r为自定义的软件缺陷的实体类型，e_i、e_j均为实体；r包括core、GUI、Network、I/O、Driver、File System、Hardware、Language、API、Standard、Platform、Framework、Defect test、Mobile、common adjective、common verb；

关系集合R为：

R＝{(e_i,e_j,l)}

式中，1≤i≤j≤n，l为自定义的缺陷关系属性标签，e_i、e_j均为实体；l具体如表2：

表2自定义的缺陷关系属性标签

关系属性名	关系属性特征	描述说明
			兄弟关系	传递性、对称性	拥有的类及属性源自同一个父类
同一关系	传递性、对称性	具有相同的含义，对同一知识的不同表示
			包含关系	包含性	涉及另一实体的内容，如概念、性质等
对立关系	反对称性	两者不应同时存在，相互排斥
			继承关系	互逆自反性	存在某种父子关系，子继承父的关系属性
说明关系	说明性	实体A是对实体B是形容、操作(动词、形容词)
			因果关系	依赖性	实体A是实体B结论的原因
语义相关	传递性、对称性	实体A和实体B之间存在语义上的联系

下面结合实施例对本发明作进一步详细的说明。

实施例

结合图1，本发明基于面向软件缺陷知识的实体关系联合抽取方法，包括以下步骤：

步骤1、采集开源缺陷库的缺陷报告，并从缺陷报告中提取其中的所有文本信息如标题、描述和评论，之后将上述文本数据进行预处理：语句切分、分词和词性标注，最终获得缺陷语料库。本实施例中获取数据源的缺陷报告如图3所示。

步骤2、从步骤1中获得的缺陷文本数据语料库提取描述缺陷的语句S。本实施例从图3中的bug report得到的第一个句子S1：“Python code in browser should followflake8 convention.”，S1经过步骤1预处理结果为：“Python NNP code NN in IN browserNN should MD follow VB flake8NNP convention NN”，然后将该结果经过wordembedding表示和Bi-LSTM层编码处理，最终将其作为模型的输入。

步骤3、构建基于转移系统的实体、关系联合抽取模型。本实施例定义的具体的转移动作如表1，缺陷关系类型如表2。

步骤4、结合步骤3建立的基于转移系统的实体、关系联合抽取模型。对于缺陷语料库中的步骤2得到的输入句子S 1,首先确定其初始转移状态T₀:

此时存储未处理单词的缓冲栈β＝[Python code in browser should follow flake8convention]，之后对β进行中的单词依次处理。本实施例中，模型执行过程如下：(1)首先，python₁通过Gen‐Shift转移动作从β进入e；(2)code₂也通过Gen‐Shift转移动作从β进入e；(3)实体块python₁_code₂通过转移动作Gen‐Ner(y)为其并打上实体标签(python₁，code₂，LA)，并将python₁重新压入β；(4)实体python₁通过转移动作No‐Shift重新压入栈σ；(5)in₃通过动作O‐Delete，从β弹出；(6)browser₄通过Gen‐Shift从β进入e；(7)之后通过Gen‐Ner(y)动作为browser₄自身并打上实体标签(browser₄，browser₄，NW)，并将browser₄重新压入β；(8)通过Right_r‐Shift，将browser₄压入栈σ并产生一条由python₁指向browser₄的关系弧(python₁,browser₄,be_in)；(9)should₅通过O‐Delete动作，从β弹出；(10)follow₆通过O‐Delete动作，从β弹出；(11)flake8₇通过Gen‐Shift转移动作从β进入e；(12)其次convention₈也通过Gen‐Shift转移动作从β进入e；(13)实体块flake8_convention₈通过转移动作Gen‐Ner(y)为实体并打上实体标签(flake8₇，convention₈，SD)，并将convention₈重新压入β；(14)通过No‐Pass,将browser₄放入栈δ的顶端；(15)通过No‐Pass,将python₁放入栈δ的顶端；(16)最终通过Right_r‐Pass，将convention₈压入栈σ并产生一条由python₁指向convention₈的关系弧(code₂,browser₄,be_in)。最终达到终止转移状态得到具体实体集合E以及关系集合R。本实施例具体转移过程如下表3所示。

表3具体转移过程

步骤5、将步骤4获得的实体集合E以及关系集合R输出，完成实体、关系的联合抽取。本实施例有向图具体输出结果如图4所示，其中包含了3个实体以及2个关系。图中实心箭头表示实体自身关系以描述实体自身的类型，如python就是我们前面分类过的Language类实体。空心箭头表示的是实体和另外一个实体的关系，如Python_code与browser之间的关系是语义类关系，抽取出谓词为be_in。最终，识别出该缺陷的实体集合E＝{(Python,code,LA),(browser,browser,NW),(flake8,convention,SD)}以及关系集合R＝{(Python_code,browser,be_in),(Python_code,flake8_convention,should_follow)}。

本发明的方法以预先定义的缺陷关系类型为中心，通过语义、基于转移的依存解析策略和Bi‐LSTM神经网络方法直接对缺陷实体关系构成的关系三元组进行联合建模，这一方法可以将缺陷实体抽取和关系识别这两个子任务紧密联系起来，最终抽取出缺陷文本的关键信息，帮助软件开发者快速、高效的了解缺陷信息以完成缺陷修复。

Claims

1.一种面向软件缺陷知识的实体、关系联合抽取方法，其特征在于，包括以下步骤：

步骤3、构建基于转移系统的实体、关系联合抽取模型；具体为：

步骤3-2、确定步骤3-1所述的初始转移状态T₀对应的最佳转移动作，并对初始转移状态T₀执行该最佳转移动作，获得下一时刻的转移状态；

步骤3-3、确定下一时刻的转移状态对应的最佳转移动作，并对该下一时刻的转移状态执行该最佳转移动作，以此循环直至达到终止转移状态T_n，从而完成基于转移系统的实体、关系联合抽取模型的建立；

其中，所述转移状态通过基于LSTM的方法进行表示，所用公式为:

T＝(σ,δ,e,β,R,E)

所述初始转移状态T₀为β为非空，σ,δ,e,R,E均为空的转移状态，具体为：

式中，m为未处理单词的个数；

所述终止转移状态T_n为β与e为空时的转移状态，具体为：

T_n＝(σ,δ,[],[]，R,E)

步骤3-1～步骤3-3所述的转移动作具体为：

利用arc-eager算法形成的转移策略生成有向图，该转移策略根据有向图的特征包括两类转移动作：

1)实体生成动作，用于生成实体弧；

2)关系生成动作，用于生成关系弧；

2.根据权利要求1所述的面向软件缺陷知识的实体、关系联合抽取方法，其特征在于，步骤1所述文本数据包括缺陷报告中的标题、描述、评论以及问答网站中的问题、答案。

3.根据权利要求1所述的面向软件缺陷知识的实体、关系联合抽取方法，其特征在于，步骤1中所述对文本数据进行预处理，获得缺陷文本数据语料库具体为：

利用自然语言处理工具对所述文本数据进行预处理，并将预处理后的相关文本数据以文本的形式存储，由此获得缺陷文本数据语料库；所述预处理包括文本提取、分词、词性标注、词形还原。

4.根据权利要求1所述的面向软件缺陷知识的实体、关系联合抽取方法，其特征在于，步骤2所述描述缺陷的语句S具体为：

S＝{w₁,w₂,w₃,…,w_n}

式中，w_i为句子序列S中第i个单词，i＝1,2,…,n。

5.根据权利要求1所述的面向软件缺陷知识的实体、关系联合抽取方法，其特征在于，步骤2所述对S进行处理具体为：

步骤2-1、对S进行Word Embedding处理；

步骤2-2、对步骤2-1处理后的S进行Bi-LSTM编码处理。

6.根据权利要求1所述的面向软件缺陷知识的实体、关系联合抽取方法，其特征在于，步骤3-2～步骤3-3中所述确定转移状态对应的最佳转移动作，具体为：结合基于贪心搜索的arc-standard算法和softmax函数确定转移状态对应的最佳转移动作，具体为：

m_t＝max{0,Z}

(2)通过softmax函数求取t时刻某一个转移动作a_t的概率为：

式中，a_t为t时刻的转移动作，

为转移动作a_t的嵌入表示的列向量，

为转移动作a_t对应的偏执项，m_t为t时刻模型的状态即模型做出的所有决策的信息的编码集合；A(S,B)存储当前状态时采取的有效动作集合,a′为集合A中的某一个转移动作，g_a′为转移动作a′的嵌入表示的列向量,T为转置；

则转移动作序列a的概率为：

式中，|a|为转移动作序列a中转移动作的个数；

7.根据权利要求6所述的面向软件缺陷知识的实体、关系联合抽取方法，其特征在于，步骤4所述结合步骤3建立的基于转移系统的实体、关系联合抽取模型，确定步骤2所述输入语句对应的实体集合E以及关系集合R具体为：

根据步骤3建立的基于转移系统的实体、关系联合抽取模型过程中获得的一系列最佳转移动作，对步骤2所述输入语句进行所述一系列的转移动作，由此获得输入语句对应的实体集合E以及关系集合R。

8.根据权利要求4或7所述的面向软件缺陷知识的实体、关系联合抽取方法，其特征在于，步骤4获得的所述实体集合E为：

E＝{(e_i,e_j,r)}

所述关系集合R为：

R＝{(e_i,e_j,l)}

式中，1≤i≤j≤n，l为自定义的缺陷关系属性标签，e_i、e_j均为实体；l具体如下表2：

表2自定义的缺陷关系属性标签

关系属性名关系属性特征描述说明兄弟关系传递性、对称性拥有的类及属性源自同一个父类同一关系传递性、对称性具有相同的含义，对同一知识的不同表示包含关系包含性涉及另一实体的内容对立关系反对称性两者不应同时存在，相互排斥继承关系互逆自反性存在某种父子关系，子继承父的关系属性说明关系说明性实体A是对实体B是形容、操作因果关系依赖性实体A是实体B结论的原因语义相关传递性、对称性实体A和实体B之间存在语义上的联系

。