CN112307170A

CN112307170A - 关系抽取模型的训练方法、关系抽取方法、设备及介质

Info

Publication number: CN112307170A
Application number: CN202011199788.5A
Authority: CN
Inventors: 王旭仁; 江钧; 汪秋云; 杨杰; 姜政伟; 刘宝旭
Original assignee: Capital Normal University; Institute of Information Engineering of CAS
Current assignee: Capital Normal University; Institute of Information Engineering of CAS
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-02-02

Abstract

本发明提供一种关系抽取模型的训练方法、关系抽取方法、设备及介质，涉及威胁情报关系处理技术领域。该方法包括：对数据集中每个文本语料中的多个句子实例进行特征处理，得到每个句子实例的初始特征；通过特征转换器对初始特征进行转换，得到每个句子实例的句子特征；通过句子实例选择器，根据每个句子实例的句子特征，从多个句子实例中选择目标句子实例；通过关系分类器对目标句子实例进行关系分类，得到目标句子实例的实体关系分类结果；根据实体关系分类结果和预先标注实体关系，对句子实例选择器和关系分类器的参数进行训练优化，得到目标关系抽取模型。本发明通过优化关系抽取模型，提高模型的关系分类精度。

Description

关系抽取模型的训练方法、关系抽取方法、设备及介质

技术领域

本发明涉及威胁情报关系处理技术领域，具体而言，涉及一种关系抽取模型的训练方法、关系抽取方法、设备及介质。

背景技术

伴随着互联网的迅猛发展，针对组织和公司的威胁和变体源源不断。不仅政府和公共部门临着前所未有的网络攻击，基础设施遭受黑客攻击，而且个人和企业也容易受到网络攻击，造成隐私、财务和经济等各方面的持续威胁。逐渐升级的APT(AdvancedPersistent Threat，高级持续性威胁) 攻击手法使原先的威胁应对措施很难解决实质性网络威胁。因此，网络空间安全机构正在寻求各种手段增加威胁情报数据的知识库，从而更好地为安全团队提供最新的攻击手段和威胁解决方案的开发。对威胁情报进行收集，分析和深度研究，以动态扩展的威胁解决方案来应对攻击者的入侵。

在现有的威胁情报的实体关系提取方法中，多采用传统的依赖人工和规则的实体关系提取方法，对句子特征的提取不够完整，对噪音数据的过滤不够充分，使得威胁情报的实体关系提取的准确率比较低。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种关系抽取模型的训练方法、关系抽取方法、设备及介质，以便快速识别威胁情报中实体之间的关系，并提高实体关系提取的准确率。

为实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种关系抽取模型的训练方法，所述关系抽取模型包括：特征转换器、句子实例选择器和关系分类器，所述方法包括：

对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理，得到每个句子实例的初始特征；其中，所述关系抽取数据集包括：多个文本语料，每个句子实例为预先标注有实体关系的威胁情报文本；

通过所述特征转换器，对所述每个句子实例的初始特征进行特征转换，得到所述每个句子实例的句子特征；

通过所述句子实例选择器，根据所述每个句子实例的句子特征，从所述多个句子实例中选择目标句子实例；

通过所述关系分类器对所述目标句子实例进行关系分类，得到所述目标句子实例的实体关系分类结果；

根据所述实体关系分类结果和预先标注的实体关系，对所述句子实例选择器和所述关系分类器的参数进行训练优化，得到目标关系抽取模型，所述目标关系抽取模型包括：训练优化后的所述句子实例选择器和训练优化后的关系分类器。

具体的，所述对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理之前，所述方法还包括：

根据预先构建的威胁情报的实体关系知识库，采用远程监督方法，对多个威胁情报文本进行实体关系的远程监督标注，得到所述多个句子实例。

具体的，所述根据预先构建的威胁情报的实体关系知识库，采用远程监督方法，对多个威胁情报文本进行实体关系的远程监督标注，得到所述多个句子实例之前，所述方法还包括：

根据预先确定的威胁情报的实体关系列表，从开源结构化数据中构建所述实体关系知识库；其中，每个威胁情报文本为非结构化的威胁情报文本。

具体的，所述根据预先确定的威胁情报的实体关系列表，从开源结构化数据中构建所述实体关系知识库之前，所述方法还包括：

根据预先获取的开源威胁情报报告以及预设的威胁情报实体规范，确定威胁情报实体关系；

根据所述威胁情报实体关系进行筛选，并根据筛选后的所述威胁情报实体关系，构建所述威胁情报的实体关系列表。

具体的，所述多个句子实例的初始特征包括：词向量、位置向量和实体类型向量；

所述对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理，得到每个句子实例的初始特征，包括：

采用预设的词向量语言模型，对所述每个句子实例进行特征处理，得到所述每个句子实例的词向量；

根据所述每个句子实例中每个词与所述每个句子实例中实体的相对距离，得到所述每个句子实例的位置向量；

采用预设的标注方法，对所述每个句子实例中的实体类型进行标注，得到所述每个句子实例中的实体类型向量。

具体的，所述采用预设的标注方法，对所述每个句子实例中的实体类型进行标注，得到所述每个句子实例中的实体类型向量，包括：

采用所述标注方法，对所述每个句子实例中各个词是否属于预设的实体类型，以及属于所述预设的实体类型时，对应词在所述每个句子实例中的相对位置进行标注，得到所述每个句子实例中的实体类型向量。

具体的，所述实体关系分类结果表示为：识别到的实体关系，所述预先标注的实体关系表示为：预设实体关系的标注信息；

所述根据所述实体关系分类结果，和预先标注的实体关系，对所述句子实例选择器和所述关系分类器的参数进行训练优化，得到目标关系抽取模型，包括：

根据所述识别到的实体关系，和所述预设实体关系的标注信息，采用预设的反馈函数计算所述目标句子实例的质量指标；

根据所述质量指标，计算所述句子实例选择器对应的策略函数的调整误差；

根据所述调整误差，对所述策略函数的参数进行调整，使得所述句子实例选择器基于参数调整后的所述策略函数进行句子实例的选择。

第二方面，本发明实施例还提供了一种关系抽取方法，应用于关系抽取模型，所述关系抽取模型包括：特征转换器、句子实例选择器和关系分类器，所述方法包括：

对待识别文本中的多个句子实例进行特征处理，得到每个句子实例的初始特征；

对所述每个句子实例的初始特征进行特征转换，得到所述每个句子实例的句子特征；

通过所述关系分类器对所述目标句子实例进行关系分类，得到所述待识别文本的实体关系分类结果。

第三方面，本发明实施例还提供一种关系抽取模块的训练装置，包括：

样本特征处理模块，用于对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理，得到每个句子实例的初始特征；其中，所述关系抽取数据集包括：多个文本语料，所述每个句子实例为预先标注有实体关系的威胁情报文本；

样本特征转换模块，用于对所述每个句子实例的初始特征进行特征转换，得到所述每个句子实例的句子特征；

样本句子实例选择模块，用于根据所述每个句子实例的句子特征，从所述多个句子实例中选择目标句子实例；

样本关系分类模块，用于对所述目标句子实例进行关系分类，得到所述目标句子实例的实体关系分类结果；

句子实例选择优化模块，用于根据所述实体关系分类结果和预先标注的实体关系，对所述句子实例选择器和所述关系分类器的参数进行训练优化，得到目标关系抽取模型，所述目标关系抽取模型包括：训练优化后的所述句子实例选择器和训练优化后的关系分类器。

进一步的，该关系抽取模型的训练装置还包括：在样本特征处理模块之前设置的远程监督标注模块，用于根据预先构建的威胁情报的实体关系知识库，采用远程监督方法，对多个威胁情报文本进行实体关系的远程监督标注，得到所述多个句子实例。

进一步的，该关系抽取模型的训练装置还包括：在远程监督标注模块之前设置的知识库构建模块，用于根据预先确定的威胁情报的实体关系列表，从开源结构化数据中构建所述实体关系知识库。

进一步的，该关系抽取模型的训练装置还包括：在知识库构建模块之前设置的关系列表构建模块，用于根据预先获取的开源威胁情报报告以及预设的威胁情报实体规范，确定威胁情报实体关系；根据所述威胁情报实体关系进行筛选，并根据筛选后的所述威胁情报实体关系，构建所述威胁情报的实体关系列表。

进一步的，所述每个句子实例的初始特征包括：词向量、位置向量和实体类型向量；样本特征处理模块还包括：

词向量处理模块，用于采用预设的词向量语言模型，对所述每个句子实例进行特征处理，得到所述每个句子实例的词向量；

位置向量处理模块，根据所述每个句子实例中每个词与所述每个句子实例中实体的相对距离，得到所述每个句子实例的位置向量；

实体类型向量处理模块，用于采用预设的标注方法，对所述每个句子实例中的实体类型进行标注，得到所述每个句子实例中的实体类型向量。

在一种更具体的实施方式中，实体类型向量处理模块具体用于采用所述预设的标注方法，对所述每个句子实例中各个词是否属于预设的实体类型，以及属于所述预设的实体类型时，对应词在所述每个句子实例中的相对位置进行标注，得到所述每个句子实例中的实体类型向量。

在一种更具体的实施方式中，句子实例选择优化模块包括：

第一计算模块，用于根据所述识别到的实体关系，和所述预设实体关系的标注信息，采用预设的反馈函数计算所述目标句子实例的质量指标；

第二计算模块，用于根据所述质量指标，计算所述句子实例选择器对应的策略函数的调整误差；

参数调整模块，用于根据所述调整误差，对所述策略函数的参数进行调整，使得所述句子实例选择器基于参数调整后的所述策略函数进行句子实例的选择。

第四方面，本发明实施例还提供一种关系抽取装置，包括：

特征处理模块，用于对待识别文本中的多个句子实例进行特征处理，得到每个句子实例的初始特征；

特征转换模块，用于对所述每个句子实例的初始特征进行转换，得到所述每个句子实例的句子特征；

句子实例选择模块，用于通过所述句子实例选择器，根据所述每个句子实例的句子特征，从所述多个句子实例中选择目标句子实例；

关系分类模块，用于通过所述关系分类器对所述目标句子实例进行关系分类，得到所述目标句子实例的实体关系分类结果。

第五方面，本发明实施例还提供一种计算机设备，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述关系抽取方法。

第六方面，本发明实施例还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被读取并执行时，实现上述关系抽取方法。

本发明的有益效果是：

本发明实施例提供的一种关系抽取模型的训练方法，由句子实例选择器和关系分类器共同构成关系抽取模型，通过对关系抽取数据集中的文本语料进行特征处理，将每个文本语料以特征向量的形式表示，通过句子实例选择器对文本语料进行选择，将选中的目标句子实例送入关系分类器，得到文本语料的实体关系分类结果，根据该结果和预先标注的实体关系，对句子实例选择器和关系分类器进行参数的训练优化，得到目标关系抽取模型。通过对比预先标注的实体关系和通过关系抽取模型得到实体关系分类结果，对模型进行优化，使得模型的关系分类结果更为准确，提高模型的关系分类精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种关系抽取模型的训练方法的流程示意图；

图2示出了本发明实施例提供的一种关系抽取模型的结构示意图；

图3为本发明实施例提供的第一种关系抽取模型的训练方法的流程示意图；

图4为本发明实施例提供的第二种关系抽取模型的训练方法的流程示意图；

图5为本发明实施例提供的第三种关系抽取模型的训练方法的流程示意图；

图6为本发明实施例提供的一种关系抽取方法的流程示意图；

图7为本发明实施例提供的一种关系抽取模型的训练装置的结构示意图；

图8为本发明实施例提供的一种关系抽取装置的结构示意图；

图9为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为构建最优的关系抽取模型，以实现对威胁情报中的实体关系的抽取，本发明实施例提供了下述多种可能的实现方式。如下结合附图对进行示例的解释说明。

需要指出的是，本发明所提供的关系抽取方法，可由安装并运行有威胁情报关系抽取应用的计算机设备实现，该计算机设备可以为服务器，可以为客户端设备，本发明不对此进行限制。

图1为本发明实施例提供的一种关系抽取模型的训练方法的流程示意图；该关系抽取模型包括特征转换器、句子实例选择器和关系分类器，其中，句子实例选择器为基于强化学习的句子实例选择器，关系分类器为基于卷积神经网络的关系分类器。如图1所示，该方法包括：

S10：对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理，得到每个句子实例的初始特征。

其中，关系抽取数据集包括：多个文本语料，每个句子实例为预先标注有实体关系的威胁情报文本，威胁情报文本包含有一对实体，那么该预先标注的实体关系则可包括：一对实体之间的实体关系，一对实体之间的实体关系实际为实体的语义关系。实体可以是威胁情报实体，即威胁情报文本中的实体对象等。

具体的，每个句子实例中具有一对实体，且预先标注有一对实体的实体关系，那么在对每个句子实例进行特征处理实际为对每个句子实例中的一对实体、预先标注的一对实体的一个实体关系，以及该每个句子实例中实体之外的文本内容，分别进行特征向量表示，得到每个句子的特征。如此，每个句子实例的特征即可包括：每个句子实例的一对实体的特征向量，每个实体关系的特征向量，以及一对实体之外的文本内容的特征向量。

S20：通过特征转换器，对每个句子实例的初始特征进行特征转换，得到每个句子实例的句子特征。

具体的，每个句子实例的特征为：每个句子实例中一对实体、一个实体关系，以及一个实体之外的文本内容的特征向量。

示例的，特征转换器可以为采用分段卷积神经网络模型，可包括输入向量层、卷积层、池化层，具体转换过程如下：

1)输入向量层：

假设每个句子实例的长度为s，输入向量层可得到s×d维的特征矩阵；

2)卷积层：

假设卷积核的宽为ω(滑动窗口)，长为d(预设的特征向量维度)，那么卷积核的大小为w＝ω*d，设滑动步长为1。输入向量层可得到q＝s*d维的特征矩阵，卷积操作就是每滑动一次，就用卷积核w与特征矩阵q的 ω长度的向量做点积，得到一个数值。

c_j＝w*q_j-ω+1:j

j为卷积核在句子实例的特征矩阵上滑动的位置，卷积完成后会得到长度为(s+ω-1)的向量c_j。

为了得到更丰富的特征，使用n个卷积核w＝{w₁,w₂,...,w_n}，i个卷积核滑动一次得到的数值为：

c_ij＝w_iq_j-ω+1:j(1≤i≤n)

最终，卷积操作完成后会输出一个矩阵c：

{c₁,c₂,…c_n}∈R^n*(s+ω-1)

3)池化层：

把每个卷积核得到的向量c_i按两个实体为边界进行分段，得到三部分 {c_i1,c_i2,c_i3}，继而进行分段池化，分段最大池化也就是分别取每个部分的最大值：

p_ij＝max(c_ij)1≤i≤n,1≤j≤3

那么对于每个卷积核得到的向量c_i，都能得到一个3维的向量p_i。把n 个卷积核经过池化后的向量p_i拼接成一个向量p_1:n，长度为3n。

最后用预设的激活函数如tanh激活函数进行非线性处理，得到最终输出的多个句子实例的特征向量：

g＝tanh(p_1:n)

S30：通过句子实例选择器，根据每个句子实例的句子特征，从所述多个句子实例中选择目标句子实例。

句子实例选择器采用强化学习的方式进行句子实例选择。每个文本语料中的多个句子实例为预先标注有实体关系的威胁情报文本，在可能的实现方式中，通过句子实例选择器根据预先标注的实体关系将多个句子实例进行分包，将多个句子实例集合X＝{x₁,x₂,...,x_n}划分为N个包，表示为 B＝{B¹,B²,...,B^N}，每个包中Bⁱ(1≤i≤N)包含的句子实例为实体关系相同的句子实例。分包之后，句子实例选择器每次从一个包中抽取一个句子实例，将该抽取的句子实例的特征向量输入句子实例选择器中预设策略函数，通过该预设策略函数进行计算，得到该抽取的句子的动作指示信息，基于该动作指示信息判断抽取的句子是否为目标句子实例。

其中，该抽取的句子实例的特征可以包括：该抽取的句子实例中的实体的特征、该抽取的句子实例中的实体关系的特征，以及该抽取的句子实例中的实体之外的文本内容的特征。

若该动作指示信息为选中动作指示值，如1，则可确定该抽取的句子实例为该目标句子实例，若该动作指示信息为未选中动作指示值，如0，则可确定该抽取的句子实例不为该目标句子实例。

若为目标句子实例，则将选中的目标句子实例输入至关系分类器，而未被选中的句子实例可进行丢弃。

示例的，上述句子实例选择器为强化学习实例选择器，在采用该句子实例选择器进行句子实例选择之前，预先定义了该句子实例选择器的状态(State)，动作(Action)，反馈(Reward)。

其中，状态s_i代表当前抽取句子实例，已选择句子实例和已选择句子实例的实体。在句子实例选择器中，可采用连续函数

来表示状态，该连续函数

输出即为：当前抽取句子实例，已选择句子实例和已选择句子实例的实体的特征向量表示。其中，当前抽取句子实例的特征向量通过分段卷积神经网络模型中获得；已选择句子实例的特征向量表示为：每个已选择句子实例的特征向量的平均值。

在初始状态下，当前抽取句子实例为从一个包中第一次抽取的句子实例，已选择句子实例和已选择句子实例的实体为空，如果当前抽取句子实例被选中，则在下一次抽取时作为已选择句子实例。在对一个包进行多次句子实例抽取后，已选择句子实例的特征向量为所有被选中的句子实例的平均特征向量，已选择句子实例的实体向量为所有被选中的句子实例的实体向量的组合。

每个句子实例会绑定一个动作a_i，动作a_i的取值为{0,1}，其分别表示抽取的句子实例是否选中，若动作a_i的取值为0，则可用于指示抽取的句子实例未被选中，若动作a_i的取值为1，则可用于指示抽取的句子实例被选中。根据策略函数π_θ(s_i,a_i)进行计算抽取的句子实例被选中和未被选中的概率，如果抽取的句子实例被选中的概率大，则选中该句子实例；如果抽取的句子实例未被选中的概率大，则不选中该句子实例，将该句子实例抛弃，其中θ是需要学习的参数，θ＝{W,b}，W为预设的权重，b为预设的偏置。

其中，σ是Sigmoid函数。

反馈函数r(s_i)是衡量已选择句子实例质量的指标。每轮句子实例选择是针对一个包中的句子实例进行抽取，当一轮句子实例选择完毕后，预先建立的关系抽取模型会输出一个反馈值，采用上一轮句子实例选择完毕后的反馈值和之前所有轮次句子实例选择完毕后的平均反馈值对反馈函数进行优化。

S40：通过关系分类器对目标句子实例进行关系分类，得到目标句子实例的实体关系分类结果。

通过句子实例选择器选择出目标句子实例后，由句子实例选择器可将该目标句子实例的特征向量传输至关系分类器，使得关系分类器通过该目标句子实例的特征进行计算，得到目标句子实例的实体关系分类结果。该实体关系分类结果可以为从目标句子实例中识别的实体关系，也可以为从目标句子实例中识别到的实体关系是否属于预设实体关系的指示信息。

其中，目标句子实体的特征为该目标句子实例中的实体、以及该目标句子实例中的实体关系和该目标句子实例中的实体外的其它文本内容的特征组合。

S50：根据实体关系分类结果和预先标注的实体关系，对句子实例选择器和关系分类器的参数进行训练优化，得到目标关系抽取模型。

若实体关系分类结果所指示的关系分类器所识别出的每个目标句子实例的实体关系与预设实体关系不一致，则说明句子实例选择器和关系分类器存在误差，可对句子实例选择器和关系分类器的参数进行训练优化。若实体关系分类结果所指示的关系分类器所识别出的每个目标句子实例的实体关系与预设实体关系一致，则完成对句子实例选择器和关系分类器的训练优化，得到目标关系抽取模型。目标关系抽取模型包括：训练优化后的句子实例选择器和训练优化后的关系分类器。

在对句子实例选择器和关系分类器的参数进行训练优化的过程中，随机初始化句子实例选择器的参数和关系分类器中卷积神经网络模型的参数；预训练卷积神经网络模型并进行参数优化后，固定卷积神经网络模型的参数，预训练句子实例选择器并进行参数优化，之后再联合训练卷积神经网络模型和句子实例选择器，即将句子实例选择器基于强化学习算法选择后的句子实例输送到关系分类器中进行分类，关系分类器将计算得到的反馈值输入到反馈函数，对句子实例选择器进行优化，从而优化句子实例选择器下一轮次的句子实例选择。

图2示出了本发明实施例提供的一种关系抽取模型的结构示意图，包括特征转换器10、句子实例选择器20和关系分类器30，以便于理解上述特征转换器10、句子实例选择器20和关系分类器30的工作过程。

本发明实施例，通过对文本语料中的多个句子实例进行特征处理，通过特征转换器将每个句子实例的特征转换为每个句子实例的句子特征，句子实例选择器基于每个句子实例的句子特征，从多个句子实例中选择目标句子实例，将选中的目标句子实例送入关系分类器，由关系分类器进行实体关系的识别，得到目标句子实例的实体关系分类结果，根据该结果和预先标注的实体关系，对句子实例选择器和关系分类器进行参数的训练优化，得到目标关系抽取模型。

本发明实施例通过对比预先标注的实体关系和通过关系抽取模型得到实体关系分类结果，对模型进行优化，使得模型的关系分类结果更为准确，提高模型的关系分类精度，从而提高模型的实体关系的抽取的准确度。

在上述图1所示的关系抽取模型的训练方法的基础上，本发明实施例还提供一种关系抽取模型的训练方法。在上述S10之前，该关系抽取模型还包括：

根据预先构建的威胁情报的实体关系知识库，采用远程监督方法，对多个威胁情报文本进行实体关系的远程监督标注，得到多个句子实例。

具体的，根据现有的威胁情报的实体和实体关系，构建实体关系知识库，该实体关系知识库中包含多个三元组，每个三元组包括一对实体和一个实体关系。远程监督方法为借助外部知识库为数据提供标签，在本申请实施例中，采用远程监督方法，借助实体关系知识库对多个威胁情报文本的实体关系进行标注，得到多个句子实例。

在本申请实施例中，由于远程监督方法是对具有同一对实体的所有威胁情报文本标注为对应的实体关系，但并不是所有具有同一对实体的威胁情报文本都具有相同的实体关系，因此还需要对经过远程监督方法进行标注的实体关系进行人工校验，得到多个句子实例。

在本申请实施例中，采用远程监督方法对多个威胁情报文本的实体关系进行标注，相对于传统的人工进行实体关系标注，提高了实体关系标注的效率，且通过二次人工校验，确保实体关系标注的准确率。

进一步的，在根据预先构建的威胁情报的实体关系知识库，采用远程监督方法，对多个威胁情报文本进行实体关系的远程监督标注，得到多个文本语料之前，该关系抽取方法还包括：

根据预先确定的威胁情报的实体关系列表，从开源结构化数据中构建实体关系知识库。

具体的，对现有的威胁情报中的实体和实体关系进行分析，构建实体关系列表，实体关系列表中包含多组实体和实体关系，例如，可以为表1 所示的包括黑客组织、样本文件、安全团队等为实体的威胁情报的实体关系列表。

表1实体关系列表

根据威胁情报的实体关系列表，采用开源的结构化数据对非结构化的威胁情报文本进行结构化处理，构建实体关系知识库，例如，可以为表2 所示的包含黑客组织、样本文件、安全团队和其它威胁情报实体的实体关系知识库。该实体关系知识库为知识库三元组，三元组包括头实体、尾实体和关系标签。

表2实体关系知识库

头实体	尾实体	关系标签
			黑客组织1	国家1	R1
黑客组织2	国家2	R1
			黑客组织3	国家3	R2
黑客组织4	行业	R3
			黑客组织5	用户1	R5
黑客组织5	攻击方法1	R6
			黑客组织6	攻击工具1	R7
黑客组织7	漏洞1	R8
			黑客组织8	时间1	R9
黑客组织9	时间2	R10
			…	…	…

在本申请实施例中，每个威胁情报文本为非结构化的威胁情报文本，通过远程监督方法，采用结构化的实体关系知识库对具有非结构化的威胁情报文本标注对应的实体关系标签，得到多个句子实例。

假设一对实体在实体关系知识库中存在实体关系，则所有包含这对实体的句子实例都将表达这种实体关系，但由于具有同一对实体的句子实例并非都具有这种实体关系，由此会产生大量弱标签数据。如表1所示，当头实体是“黑客组织”，尾实体是“国家或地区”，实体关系可能是“组织背景”或“目标国家或地区”。因此，需要使用结构化的实体关系知识库作为监督源，通过远程监督方法对威胁情报文本进行标注。例如，语料库中的句子实例S包含实体关系知识库(e₁,e₂,r)中的两个实体e₁,e₂，便假设这两个实体之间存在关系r，然后将(e₁,e₂,r)加入候选集合。最终，以实体关系知识库作为监督源，通过远程监督方法对这两个实体e₁,e₂打标签得到预先标注的实体关系，再通过安全人员进行人工标注校验工作。

本发明实施例通过开源结构化数据构建实体关系知识库，对非结构化的威胁情报文本进行远程监督标注，得到多个句子实例；以实体关系知识库作为远程监督方法的监督源，以使远程监督方法对威胁情报文本中的实体关系的标注结果更为准确，便于对关系抽取模型的优化。

进一步的，图3为本发明实施例提供的一种关系抽取模型的训练方法的流程示意图；如图3所示，在根据预先确定的威胁情报的实体关系列表，从开源结构化数据中构建实体关系知识库之前，该关系抽取模型的训练方法还包括：

S1：根据预先获取的开源威胁情报报告以及预设的威胁情报实体规范，确定威胁情报实体关系。

具体的，预先获取的开源威胁情报报告为公开的广泛阅读的威胁情报报告，预设的威胁情报实体规范，例如可以为网络威胁信息规范，根据开源威胁情报报告和威胁情报实体规范，定义威胁情报文本中每对实体之间的实体关系。

S2：根据威胁情报实体关系进行筛选，并根据筛选后的威胁情报实体关系，构建威胁情报实体关系列表。

具体的，对上述定义的实体关系进行筛选，将数量较少的没有训练意义实体关系进行剔除，保留数量较多的实体关系构建为威胁情报实体关系列表。

本申请实施例通过对数量较少的没有训练意义的实体关系进行剔除，用数量较多的实体关系构建实体关系列表，便于关系抽取模型的训练。

进一步的，图4为本发明实施例提供的一种关系抽取模型的训练方法的流程示意图；每个句子实例的初始特征包括：词向量、位置向量和实体类型；如图4所示，上述S10包括：

S11：采用预设的词向量语言模型，对每个句子实例进行特征处理，得到每个句子实例的词向量。

具体的，每个文本语料为多个句子实例的集合，每个句子实例均是由多个词语构成的，对每个句子实例的多个词语进行特征处理，获取多个词语之间的上下文关系，在本申请实施例中，预设的词向量语言模型，例如，可以为word2vec词向量语言模型，将每个句子实例中的每个词语都转换为 d维向量，将每个句子实例中的每个词语的d维向量进行组合，得到每个句子实例的词向量。

S12：根据每个句子实例中每个词与每个句子实例中实体的相对距离，得到每个句子实例的位置向量。

具体的，为了突出每个句子实例中的一对实体在每个句子实例中的相对位置，将每个句子实例中每个词和一对实体的相对位置以特征的形式进行表示，例如，本发明实施例采用位置嵌入，将每个句子实例中的每个词和一对实体的相对距离拼接为d维向量作为每个句子实例的位置向量。

例如：文本语料为：…FireEye reported that A1 had been using the B1…，其中，FireEye和A1为一对实体，则词reported与实体FireEye的相对距离为1，词reported和实体A1的相对距离为-2。

S13：采用预设的标注方法，对每个句子实例中的实体类型进行标注，得到每个句子实例中的实体类型向量。

具体的，实体具有多种类型，例如，实体类型可以为组织背景、目标国家或地区、目标行业等，采用预设的标注方法，对每个句子实例中的实体按照预设的实体类型进行标注，并将每个句子实例的实体类型在每个文本语料中的全部实体类型中的权重以d维向量的形式表示，作为每个句子实例的实体类型向量。

本发明实施例通过对每个句子实例进行特征处理，将文本语料中的每个句子实例以词向量、位置向量和实体类型向量的形式进行表示，以使每个句子实例具有特征向量，便于在句子实例选择和关系分类中对句子实例的特征进行计算，有利于关系抽取模型的优化。

进一步的，上述S13包括：

采用预设的标注方法，对所述每个句子实例中各个词是否属于预设的实体类型，以及属于所述预设的实体类型时，对应词在所述每个句子实例中的相对位置进行标注，得到所述每个句子实例中的实体类型向量。

在本申请实施例中，预设的标注方法，例如，可以为BIO标注方法，即将每个实体标注为“B-X”、“I-X”或“O”，其中，“B-X”表示该词语属于X类型且该词语位于所在片段中的开始位置，“I-X”表示该词语属于X类型且该词语位于所在片段中的中间位置或末尾位置，“O”表示该词语不属于任何类型。

例如，文本语料中的一个句子实例为：The contents of the decoy PDF is ajob descriptions with the South Area Air Force.，用BIO标注方法对samfile(样本文件)、Tarregion(地区)、Industry(行业)进行标识，则该句子实例对应的BIO标注为如下：

The O contents O of O the O decoy B-samfile PDF I-samfile is O a Ojob O descriptions O with O the O South B-TarRegionAreaI-TarRegionAirB-IndustryForceI-Industry.O

将每个句子实例中的实体类型在每个文本语料的全部实体类型中的权重作为该句子的实体类型向量，该实体类型向量可以为d维向量。

进一步的，实体关系分类结果表示为：识别到的实体关系，预先标注的实体关系表示为：预设实体关系的标注信息。图5为本发明实施例提供的一种关系抽取模型的训练方法的流程示意图，如图5所述，上述S50包括：

S51：根据识别到的实体关系，和预设实体关系的标注信息，采用预设的反馈函数计算目标句子实例的质量指标。

具体的，识别到的实体关系为通过关系分类器得到的关于目标句子实例中的两个实体属于哪种关系的实体关系分类结果，预设实体关系的标注信息为在进行关系抽取模型的训练前，对每个文本语料中的每个句子实例的实体关系进行了标注。如果识别到的实体关系和预设实体关系的标注信息相同，则表示通过关系抽取模型得到的实体关系分类结果与预设实体关系一致，该关系抽取模型能正确抽取实体关系。

在本申请实施例中，关系分类器具体分类过程如下：

非线性层：通过注意力机制对从每个包中选择的目标句子实例赋予不同的权重，以充分利用句子实例的信息。

首先定义参数如下：

l_i:句子向量和上下文特征的相关度；

A：对角矩阵，为随机初始化的对角矩阵；

e：实体上下文特征向量，为对句子实例进行词向量处理时得到的实体向量；

x_i：目标句子实例的向量；

S：目标句子实例集的向量；

o_r：关系和句子实例权重相关度；

r：实体关系向量表达，在本发明实施例中，为表2实体关系知识库中的关系标签的向量表达。

首先计算目标句子实例的向量x_i与实体向量e的相关度：

l_i＝x_iAe

得到相关度矩阵，用来作为目标句子实例权重的计算参数：

k为实体可能存在的实体关系的数量，例如为表2实体关系知识库中的关系标签的数量。

通过目标句子实例权重加权得到目标句子实例集的向量表达：

S＝Σ_ix_iα_i

然后引入实体关系和目标句子实例集的相关度表示，即加入实体关系的注意力机制，计算得到每个目标句子实例集的标签，如标注的实体关系的向量：

o_r＝rS+b

b为随机偏置值。

softmax分类层：通过softmax分类层输出目标句子集标签的概率，即为目标句子集的实体关系的预测概率：

根据每个目标句子实例的实体与多个实体关系标签对应的概率，输出最大概率值对应的实体关系标签。

如果输出的实体关系标签与预先标注的实体关系标签不一致，则表示需要对关系抽取模型进行进一步的优化。将关系分类器得到的指示实体关系标签与预设实体标签是否一致的关系预测F1值输入至预设的反馈函数 r(s_i)，计算句子实例选择器选择的目标句子实例的质量指标，具体为：

其中，r(s_i|B)为奖励期望值，用于指示目标句子实例的质量，

为上一轮选定的目标句子实例集合，为B(所有句子实例)的子集，

表示上一轮所选目标句子实例集合的关系预测F1值，

为目标句子实例集合在之前训练轮次的平均F1值，给予K的取值为0.75。

F1值用于对正确率和召回率进行整体评价，F1值＝正确率*召回率*2/ (正确率+召回率)，正确率＝识别出的正确实体关系数/识别出的实体关系数，召回率＝识别出的正确实体关系数/句子实例集合中的实体关系数。

当累计奖励期望值

达到最大时，对表示关系抽取模型已到达最优，之后如果再对关系抽取模型的参数进行调整，该累计奖励期望值会减小。

上述公式的含义为：在对包B＝{B¹,B²,...,B^N}中的每个包中已选择的句子实例进行关系分类后，在开始下一轮的句子实例选择前，即状态S_|B|+1处得到一个延迟奖励，其他状态的奖励设置为0。

S52：根据质量指标，计算句子实例选择器对应的策略函数的调整误差。

示例的，为计算句子实例选择器对应的策略函数的调整误差，需要引入价值函数，价值函数的定义如下：

Q_ω(s,a)＝φ(s_i)^Tω

其中，φ(s_i)为每个包初始选择的句子实例的特征向量，φ(s_i')为每个包所有句子实例选择完成后的目标句子实例集合的特征向量，将这两个向量输入至上述价值函数中，得到Q_ω(s_i)和Q_ω(s_i')，计算TD(Temporal-Difference，时序差分)误差作为策略函数和价值函数的调整误差，其计算公式为：

δ＝r+γQ_ω(s_i')-Q_ω(s_i)

则价值函数的参数ω的更新公式如下：

ω＝ω+βδφ(s,a)

β为预先设置的训练步长。

S53：根据调整误差，对策略函数的参数进行调整，使得句子实例选择器基于参数调整后的策略函数进行句子实例的选择。

具体的，策略函数的参数调整公式如下：

α为预先设置的训练步长。

经过参数调整后的句子实例选择器再对包里的句子实例进行句子实例的选择。

综上所述，本发明实施例提供一种关系抽取模型的训练方法，由句子实例选择器和关系分类器共同构成关系抽取模型，通过对关系抽取数据集中的文本语料进行特征处理，将每个文本语料以特征向量的形式表示，通过句子实例选择器对文本语料进行选择，将选中的目标句子实例送入关系分类器，得到文本语料的实体关系分类结果，根据该结果和预先标注的实体关系，对句子实例选择器和关系分类器进行参数的训练优化，得到目标关系抽取模型。通过对比预先标注的实体关系和通过关系抽取模型得到实体关系分类结果，对模型进行优化，使得模型的关系分类结果更为准确，提高模型的关系分类精度。

在上述任一所示的关系抽取模型的训练方法的基础上，本发明实施例还提供一种应用上述关系抽取模型的关系抽取方法，该关系抽取模型包括：句子实例选择器和关系分类器。图6为本发明实施例提供的一种关系抽取方法的流程示意图，如图6所示，该关系抽取方法包括：

S60：对待识别文本中的多个句子实例进行特征处理，得到每个句子实例的初始特征。

S70：对每个句子实例的初始特征进行转换，得到每个句子实例的句子特征。

S80：通过句子实例选择器，根据每个句子实例的句子特征，从多个句子实例中选择目标句子实例。

S90：通过关系分类器对目标句子实例进行关系分类，得到目标句子实例的实体关系分类结果。

本发明实施例提供的一种关系抽取方法，应用于关系抽取模型，该关系抽取模型包括句子实例选择器和关系分类器，对待识别的威胁情报文本进行特征处理后，通过经过优化的句子实例选择器选择具有威胁情报实体的目标句子实例，并将选中的目标句子实例送入关系分类器，即可得到该目标句子实例中威胁情报实体的实体关系。通过该关系抽取模型，实现对威胁情报实体关系的抽取，提高威胁情报实体关系抽取的效率和准确率。

为验证本发明所用的DRL-ET-PCNN-ATT(Depth Reinforcement Learning-EntityType-Piecewise Convolutional Neural Networks-Attention)关系抽取模型在威胁情报关系抽取上的效果，本发明与通用关系抽取模型 CNN，PCNN，RL-CNN进行对比。在关系分类器中，采用多实例学习的方法，将训练文本分为若干个包，包含两个实体的所有句子实例划分到一个包中，即每个包为一个句子实例集，本发明对包内部的句子实例的处理方式进行了对比，共有4种方式，分别是ATT，AVE，ONE，CROSS_MAX， ATT是本发明所采用的按照句子实例和实体关系的相关度计算句子权重， AVE是一个包中所对应的所有句子实例的权重看成一样，即对向量取平均值；ONE是取包中置信度最高的句子实例的向量作为输入计算； CROSS_MAX对包内部的句子实例进行instance-max-pooling操作，即直接对句子实例嵌入向量的每一维度取最大值。将三元组和句子实例转化为字典格式输入上述模型进行训练和测试，其准确率，召回率和F1值如表3所示。

表3各模型在四种包处理方式上的实验结果

通过分析表3的实验结果，可以看出本发明所采用RL-ET-PCNN-ATT 模型的准确率最高，达到了92.31％，召回率达到了83.24％，在包处理同样使用ATT方法的基础上，与关系抽取领域的CNN/PCNN/RL-CNN模型相比，准确率分别提升了16.77％，5.88％和4.97％，召回率分别提升了16.39％， 2.83％和4.49％，可见本发明采用模型更充分利用了实体关系的信息，缓解了远程监督的噪音数据。

为更充分验证本发明所用模型在关系提取上的优势，将本发明模型在同样使用ATT方法的基础上，在NYT-10数据集上进行实验，与关系抽取领域的CNN/PCNN/RL-CNN模型进行对比，得到表4所示的实验结果。

表4各模型在NYT数据集上的实验结果

模型	ACCURACY	AUC	F1
				CNN+ATT	0.6723	0.6345	0.6520
PCNN+ATT	0.7232	0.7276	0.7254
				RL－CNN+ATT	0.7556	0.7251	0.7400
DRL－ET－PCNN+ATT	0.7742	0.7534	0.7637

如表4所示，准确率分别提升了10.19％，5.1％，1.86％，召回率分别提升了11.89％，2.58％，2.83％，可见本发明所采用的关系抽取模型在公用数据集NYT-10上，与其他CNN模型相比，具有较好的抽取效果。

本发明实施例还提供一种关系抽取模型的训练装置，图7为本发明实施例的一种关系抽取模型的训练装置的结构示意图，如图7所示，该关系抽取模型的训练装置包括：

样本特征处理模块100，用于对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理，得到每个句子实例的初始特征；其中，关系抽取数据集包括：多个文本语料，每个句子实例为预先标注有实体关系的威胁情报文本。

样本特征转换模块200，用于对每个句子实例的初始特征进行特征转换，得到每个句子实例的句子特征。

样本句子实例选择模块300，用于根据每个句子实例的句子特征，从多个句子实例中选择目标句子实例。

样本关系分类模块400，用于对目标句子实例进行关系分类，得到目标句子实例的实体关系分类结果。

句子实例选择优化模块500，用于根据实体关系分类结果和预先标注的实体关系，对句子实例选择器和关系分类器的参数进行训练优化，得到目标关系抽取模型，目标关系抽取模型包括：训练优化后的句子实例选择器和训练优化后的关系分类器。

进一步的，该关系抽取模型的训练装置还包括：在样本特征处理模块 100之前设置的远程监督标注装置，用于根据预先构建的威胁情报的实体关系知识库，采用远程监督方法，对多个威胁情报文本进行实体关系的远程监督标注，得到多个句子实例。

进一步的，该关系抽取模型的训练装置还包括：在远程监督标注装置之前设置的知识库构建模块，用于根据预先确定的威胁情报的实体关系列表，从开源结构化数据中构建实体关系知识库。

进一步的，该关系抽取模型的训练装置还包括：在知识库构建模块之前设置的关系列表构建模块，用于根据预先获取的开源威胁情报报告以及预设的威胁情报实体规范，确定威胁情报实体关系；根据所述威胁情报实体关系进行筛选，并根据筛选后的威胁情报实体关系，构建威胁情报实体关系列表。

在一种更具体的实施方式中，每个句子实例的特征包括：词向量、位置向量和实体类型向量，样本特征处理模块100还包括：

词向量处理模块，用于采用预设的词向量语言模型，对每个句子实例进行特征处理，得到每个句子实例的词向量。

位置向量处理模块，用于根据没给句子实例中每个词与每个句子实例中实体的相对距离，得到每个句子实例的位置向量。

实体类型向量处理模块，用于采用预设的标注方法，对每个句子实例中的实体类型进行标注，得到每个句子实例中的实体类型向量。

在一种更具体的实施方式中，实体类型向量处理模块具体用于采用预设的标注方法，对每个句子实例中各个词是否属于预设的实体类型，以及属于预设的实体类型时，对应词在每个句子实例中的相对位置进行标注，得到每个句子实例中的实体类型向量。

在一种更具体的实施方式中，句子实例选择优化模块500包括：

第一计算模块，用于根据识别到的实体关系，和预设实体关系的标注信息，采用预设的反馈函数计算目标句子实例的质量指标。

第二计算模块，用于根据质量指标，计算句子实例选择器对应的策略函数的调整误差。

参数调整模块，用于根据调整误差，对策略函数的参数进行调整，使得句子实例选择器基于参数调整后的策略函数进行句子实例的选择。

本发明实施例还提供一种关系抽取装置，图8为本发明实施例提供的一种关系抽取装置的结构示意图，如图8所示，该关系抽取装置包括：

特征处理模块600，用于对待识别文本中的多个句子实例进行特征处理，得到每个句子实例的初始特征。

特征转换模块700，用于对每个句子实例的初始特征进行转换，得到每个句子实例的句子特征；

句子实例选择模块800，用于通过所述句子实例选择器，根据每个句子实例的句子特征，从多个句子实例中选择目标句子实例。

关系分类模块900，用于通过关系分类器对目标句子实例进行关系分类，得到目标句子实例的实体关系分类结果。

上述关系抽取模块的训练装置以及关系抽取装置可以直接用搭建深度学习环境的服务器或计算机设备来实施，结合相应的威胁情报语料，实现威胁情报关系提取。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称 FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图9为本发明实施例提供的计算机设备的结构示意图，该计算机设备 1000包括：存储器1001、处理器1002。存储器1001和处理器1002通过总线连接。

存储器1001用存储有处理器1002可执行的计算机程序，处理器1002 调用存储器1001存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种存储介质，存储介质上存储有计算机程序，该程序在被处理器执行时用于执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文： Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种关系抽取模型的训练方法，其特征在于，所述关系抽取模型包括：特征转换器、句子实例选择器和关系分类器，所述方法包括：

2.根据权利要求1所述的训练方法，其特征在于，所述对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理之前，所述方法还包括：

3.根据权利要求2所述的训练方法，其特征在于，所述根据预先构建的威胁情报的实体关系知识库，采用远程监督方法，对多个威胁情报文本进行实体关系的远程监督标注，得到所述多个句子实例之前，所述方法还包括：

4.根据权利要求3所述的训练方法，其特征在于，所述根据预先确定的威胁情报的实体关系列表，从开源结构化数据中构建所述实体关系知识库之前，所述方法还包括：

5.根据权利要求1所述的训练方法，其特征在于，所述每个句子实例的初始特征包括：词向量、位置向量和实体类型向量；

6.根据权利要求5所述的训练方法，其特征在于，所述采用预设的标注方法，对所述每个句子实例中的实体类型进行标注，得到所述每个句子实例中的实体类型向量，包括：

采用所述预设的标注方法，对所述每个句子实例中各个词是否属于预设的实体类型，以及属于所述预设的实体类型时，对应词在所述每个句子实例中的相对位置进行标注，得到所述每个句子实例中的实体类型向量。

7.根据权利要求1-6中任一所述的训练方法，其特征在于，所述实体关系分类结果表示为：识别到的实体关系，所述预先标注的实体关系表示为：预设实体关系的标注信息；

8.一种关系抽取方法，其特征在于，应用于关系抽取模型，所述关系抽取模型包括：特征转换器、句子实例选择器和关系分类器，所述方法包括：

对所述每个句子实例的初始特征进行转换，得到所述每个句子实例的句子特征；

通过所述关系分类器对所述目标句子实例进行关系分类，得到所述目标句子实例的实体关系分类结果。

9.一种计算机设备，其特征在于，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求8所述的关系抽取方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被读取并执行时，实现上述权利要求8所述的关系抽取方法。