CN113705237A

CN113705237A - 融合关系短语知识的关系抽取方法、装置和电子设备

Info

Publication number: CN113705237A
Application number: CN202110881415.4A
Authority: CN
Inventors: 侯磊; 吕志亨; 李涓子; 张鹏; 唐杰; 许斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-11-26

Abstract

本发明提供一种融合关系短语知识的关系抽取方法、装置和电子设备，包括：确定待抽取关系语句，以及该语句中的待抽取关系的两个实体的位置信息；将所述待抽取关系语句和所述位置信息输入抽取模型，输出所述两个实体的关系类型；其中，所述抽取模型是基于样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的，所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络。本发明提供的方法、装置和电子设备，实现了融合关系短语的语义信息到关系类型中，提高了语句中关系类型抽取的准确率。

Description

融合关系短语知识的关系抽取方法、装置和电子设备

技术领域

本发明涉及关系抽取技术领域，尤其涉及一种融合关系短语知识的关系抽取方法、装置和电子设备。

背景技术

关系抽取任务的目的是分类文本中给定实体之间的关系。例如，给定一个句子“Larry Page was the chief executive officer of Google Inc.”，以及句子中的头实体Google Inc.、尾实体Larry Page，关系抽取任务要求分类出两者之间的关系是org:top_members/employee。可以通过抽取关系得到事实三元组(Google Inc.,org:top_members/employee,Larry Page)。关系抽取得到的事实知识能够用来构建知识图谱，以及用于各种下游任务，如问答、对话或搜索引擎等。

随着深度学习的发展，神经关系抽取模型取得了有竞争力的结果。卷积神经网络首先被用于关系抽取中来得到句子的关系嵌入。PA-LSTM使用BiLSTM来建模单词序列，提出位置相关的注意力机制来增加句子中与关系分类相关部分的权重。Att-BLSTM等使用注意力机制来筛选出与关系表达相关的单词，提升了模型的性能以及可解释性。MTB把预训练模型BERT引入到关系抽取任务中，并且提出了关系抽取任务上的预训练方法MTB，在有监督、少样本关系抽取上都取得了显著的提升。相比于传统的模板匹配或人工构造特征的关系抽取方法，神经关系抽取模型能够更好地捕捉上下文中的关系表达，能够更好地泛化到不同领域和风格的文本。

虽然神经关系抽取模型已经显著推进了关系抽取，最近的一些工作展示了融合外部知识能够进一步提升模型的表现。一些已有的方法把依存句法知识融入到神经关系抽取模型中，使模型能够学习单词之间的非局部依赖，并帮助去除一些与关系分类无关的噪音，显著提升了模型的性能。ERNIE和KnowBert等把知识库中的实体知识融入到预训练模型中，最终的表示包含了词法、句法信息以及知识库中的实体信息，进一步提升了预训练模型在关系抽取上的表现。这些工作都表明，结合外部的句法知识或事实知识，对于关系抽取任务是有益的。

之前融合知识的方法很少关注于关系相关的知识，例如关系短语等，关系仅作为分类标签，缺乏语义信息。从人直观理解的角度，句子中关系类别的判断主要依赖于关系在句子中的直接表达，即关系短语。关系短语对于关系抽取任务是至关重要的。如果知道关系的通常表述方式，那么对于新的关系表达，可以根据是否与通常的表述接近来推理出关系类别。

现有的知识库(如Freebase、Wikidata、XLORE等)中只有有限的关系相关的知识，关系短语无法从知识库中直接获得。例如Wikidata中仅包含关系的描述及别名。另外，关系抽取任务中的关系集合可能是独立于知识库来定义的，与知识库中已有的关系不能够很好地对应。人工归纳总结能够得到高质量的关系短语，但难以覆盖关系多样的表达以及扩展到大规模的情况。因此，需要自动化的方法来得到关系的关系短语知识。

因此，如何避免现有的基于抽取模型的关系抽取技术中缺乏对关系语义信息的考虑仅考虑关系作为分类标签的意义，导致训练出的抽取模型表现不佳，抽取关系结果的准确率低，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明提供一种融合关系短语知识的关系抽取方法、装置和电子设备，用以解决现有的基于抽取模型的关系抽取技术中缺乏对关系语义信息的考虑仅考虑关系作为分类标签的意义，导致训练出的抽取模型表现不佳，抽取关系结果的准确率低的问题。

本发明提供一种融合关系短语知识的关系抽取方法，包括：

确定待抽取关系语句，以及该语句中的待抽取关系的两个实体的位置信息；

将所述待抽取关系语句和所述位置信息输入抽取模型，输出所述两个实体的关系类型；

其中，所述抽取模型是基于样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的，所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络。

根据本发明提供的一种融合关系短语知识的关系抽取方法，所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络，具体包括：

所述抽取模型的训练过程中，

语句编码器用于将输入的样本语句、对应的样本头尾实体位置进行编码，得到包含头尾实体位置信息的样本语句向量，并输出至关系短语类别分类网络；

协同切割关系短语表示网络用于将输入的任意两个采样的样本语句组成的键值句查询句对进行编码，得到所述键值句的关系短语表示向量，并输出至关系记忆网络；

所述关系记忆网络用于对输入的所述关系短语表示进行聚类表示，得到聚类后关系短语表示向量更新关系记忆网络中的参数，并将所述更新后关系记忆网络输出至所述关系短语类别分类网络；

所述关系短语类别分类网络用于基于所述样本语句向量和所述更新后关系记忆网络确定抽取关系类型的概率分布；

所述抽取关系类型的概率分布和所述聚类后关系短语表示向量用于构建所述抽取模型训练时的损失函数。

根据本发明提供的一种融合关系短语知识的关系抽取方法，所述得到所述键值句的关系短语表示向量，并输出至关系记忆网络之前，还包括：

将所述键值句在所有查询句样本下得到的关系短语表示向量进行求平均，得到去噪后的关系短语表示向量，以供输出至所述关系记忆网络。

根据本发明提供的一种融合关系短语知识的关系抽取方法，所述语句编码器用于将输入的样本语句、对应的样本头尾实体位置进行编码，得到包含头尾实体位置信息的样本语句向量，具体包括：

所述语句编码器用于，

基于预设规则将输入的样本语句划分为标记token序列，所述标记token序列在头头尾实体位置分别插入有头头实体开始token和头头实体结束token，以及尾实体开始token和尾实体结束token；

将所述标记token序列输入BERT网络结构的语句编码器，输出样本语句向量。

根据本发明提供的一种融合关系短语知识的关系抽取方法，所述协同切割关系短语表示网络用于将输入的任意两个采样的样本语句组成的键值句查询句对进行编码，得到所述键值句的关系短语表示向量，具体包括：

所述协同切割关系短语表示网络用于，

所述协同切割关系短语表示网络将输入的任意两个样本语句组成的键值句查询句对基于注意力机制进行编码，得到所述键值句的关系短语表示向量。

根据本发明提供的一种融合关系短语知识的关系抽取方法，所述关系短语类别分类网络用于基于所述样本语句向量和所述更新后关系记忆网络确定抽取关系类型的概率分布，具体包括：

所述关系短语类别分类网络用于，

基于注意力机制计算样本语句中的每个token与所述更新后关系记忆网络中的每个关系类型的记忆模块中键值的注意力分数；

基于注意力分数确定样本语句的关系类型匹配特征，将所述关系类型匹配特征与所述样本语句向量中的头尾实体开始位置特征进行拼接，得到样本语句关系相关的嵌入表示向量；

基于样本语句所有关系相关的嵌入表示向量确定样本语句中所有抽取关系类型的概率分布。

根据本发明提供的一种融合关系短语知识的关系抽取方法，所述抽取关系类型的概率分布和所述聚类后关系短语表示向量用于构建所述抽取模型训练时的损失函数，具体包括：

所述抽取模型训练时的损失函数包括关系记忆网络损失项和抽取关系类型分类损失项；

其中，所述抽取关系类型分类损失项基于交叉熵损失规则对所述样本语句中所有抽取关系类型的概率分布进行处理构建，所述关系记忆网络损失项基于关系短语表示向量和关系记忆网络更新过程中的聚类中心的余弦相似度求和构建。

本发明还提供一种融合关系短语知识的关系抽取装置，包括：

确定单元，用于确定待抽取关系语句，以及该语句中的待抽取关系的两个实体的位置信息；

抽取单元，用于将所述待抽取关系语句和所述位置信息输入抽取模型，输出所述两个实体的关系类型；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的融合关系短语知识的关系抽取方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的融合关系短语知识的关系抽取方法的步骤。

本发明提供的融合关系短语知识的关系抽取方法、装置和电子设备，通过基于样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的抽取模型对待抽取关系语句中指定的头尾实体进行关系抽取，其中，抽取模型训练时包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络，所述协同切割关系短语表示网络对关系类型的各种关系表达短语进行了自动化获取，解决了手工构建关系短语费时费力的问题，而且还对各种关系表达短语进行了归纳总结得到高质量的关系短语的向量表达，然后通过关系记忆网络中的关系类型的聚类进一步对关系短语向量的表示进行归纳总结，扩展关系在自然语言中多样的表达，最后的关系短语类别分类网络基于综合整理得到的所有关系短语形式对应的最终嵌入表示向量构建的关系记忆网络和语句编码器输出的样本语句向量进行融合得到样本语句对应的各关系类型的概率分布，抽取模型中的协同切割关系短语表示网络和关系记忆网络这两个网络两次对关系短语信息进行归纳总结提炼，融合得到最终的多样表达的关系语句的最终嵌入式表示向量，用于参与关系短语类别分类网络的计算。因此，本发明提供的方法、装置和电子设备，实现了融合关系短语的语义信息到关系类型中，提高了语句中关系类型抽取的准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种融合关系短语知识的关系抽取方法的流程示意图；

图2为本发明提供的融合关系短语知识的关系抽取装置的结构示意图；

图3为本发明提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有的基于抽取模型的关系抽取技术中普遍存在由于缺乏对关系语义信息的考虑仅考虑关系作为分类标签的意义，导致训练出的抽取模型表现不佳，抽取关系结果的准确率低的问题。下面结合图1描述本发明的一种融合关系短语知识的关系抽取方法。图1为本发明提供的一种融合关系短语知识的关系抽取方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待抽取关系语句，以及该语句中的待抽取关系的两个实体的位置信息。

具体地，在描述本实施例的方案前，先给出关系抽取任务的形式化定义。关系抽取的基础是已知待抽取关系语句以及待抽取关系语句中需要确定关系的两个实体，即给定一个句子S＝{x₁,x₂,…,x_n}以及其中两个实体的位置<x_i,…,x_j>和<x_k,…,x_l>，其中，句子S中任一x_i表示句子中的任一字符(若语言为英文，则该字符也可以替换成token，即以预设规则将英文句子以字符、子词、前缀、后缀或单词进行划分得到的最小单位)，关系抽取任务要求对文本中所述两个实体之间的关系类型进行识别。关系抽取任务会预先定义实体间关系的集合

抽取任务仅关注于集合中的关系而忽略其他可能在文本中表达的关系。关系集合通常包含一个特殊关系N/A，表示两个实体之间没有关系，或关系不属于集合

中的任意非N/A关系。

因此，需要进行关系抽取任务的施行时，第一步就是先确定需要进行抽取关系的待抽取关系语句，以及待抽取关系语句中需要提取关系类型的具体两个实体，这两个实体分为头实体和尾实体，头实体相较于尾实体先出现在待抽取关系语句中。如果头实体是主语，尾实体是宾语，需要提取的就是上述主宾之间的谓语关系类型，例如待抽取关系语句“A教授任职于B大学”、“A教授受聘于B大学”、“A教授任教于B大学”和“A教授在B大学工作”，若认定上述4个待抽取关系语句中需要提取的两实体都是“A教授”和“B大学”，那么提取出的关系类型都是任职关系、受聘关系或工作地点关系，此处也可以看出抽取出的同一关系类型的待抽取关系语句中的关系短语可以是多种，“任职于”、“受聘于”、“任教于”和“在……工作”四个关系短语都属于同一关系类型，即任职工作的关系。在待抽取关系语句中，通过头尾实体的位置信息来标识头尾实体，两个实体的位置<x_i,…,x_j>和<x_k,…,x_l>，通常使用头实体的起始位置字符x_i和结束位置字符x_j，以及尾实体的起始位置字符x_k和结束位置字符x_l进行标识。

步骤120，将所述待抽取关系语句和所述位置信息输入抽取模型，输出所述两个实体的关系类型；

具体地，在步骤110确定的待抽取关系语句，以及该语句中的待抽取关系的两个实体的位置信息的基础上，将所述待抽取关系语句和两个实体的位置信息输入预先训练好的抽取模型，输出所述两个实体的关系类型。其中，所述抽取模型是基于大量的样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的，如此可以保证训练完成后抽取模型的准确率，而抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络，其中，所述协同切割关系短语表示网络、所述关系记忆网络和所述关系短语类别分类网络依次连接，所述语句编码器的输出端连接所述关系短语类别分类网络的输入端。所述抽取模型从功能上可以被称为关系短语增强的关系记忆网络模型，首先通过句子编码器得到句子中token上下文相关的表示。这里，token表示句子中的字符、子词或单词。然后在协同切割关系短语表示网络使用句子协同切割来从表示相同关系的句子中得到关系短语表示得到对大量同一关系类型的不同表现形式的关系短语的初步归纳总结。接着，在关系记忆网络介绍关系记忆网络以及如何使用句子协同切割得到的关系短语表示来更新关系记忆，使用了聚类的方式进一步对关系短语的归纳总结，得到同一关系类型下特性更相似的各关系短语的完整嵌入表示向量。最后，在关系短语类别分类网络根据句子上下文相关的文本表示与关系记忆，得到关系嵌入并通过分类器得到关系类别。

本发明提供的方法，通过基于样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的抽取模型对待抽取关系语句中指定的头尾实体进行关系抽取，其中，抽取模型训练时包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络，所述协同切割关系短语表示网络对关系类型的各种关系表达短语进行了自动化获取，解决了手工构建关系短语费时费力的问题，而且还对各种关系表达短语进行了归纳总结得到高质量的关系短语的向量表达，然后通过关系记忆网络中的关系类型的聚类进一步对关系短语向量的表示进行归纳总结，扩展关系在自然语言中多样的表达，最后的关系短语类别分类网络基于综合整理得到的所有关系短语形式对应的最终嵌入表示向量构建的关系记忆网络和语句编码器输出的样本语句向量进行融合得到样本语句对应的各关系类型的概率分布，抽取模型中的协同切割关系短语表示网络和关系记忆网络这两个网络两次对关系短语信息进行归纳总结提炼，融合得到最终的多样表达的关系语句的最终嵌入式表示向量，用于参与关系短语类别分类网络的计算。因此，本发明提供的方法，实现了融合关系短语的语义信息到关系类型中，提高了语句中关系类型抽取的准确率。

基于上述实施例，该方法中，所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络，具体包括：

所述抽取模型的训练过程中，

具体地，抽取模型的训练过程中，对模型训练时网络结构中的语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络分别进行的处理操作进行说明。

所述语句编码器将待抽取关系语句结合其中需要抽取关系的具体两实体的位置信息一起进行编码，得到待抽取关系语句上下文相关的token表示向量序列

其中，d是待抽取关系语句中任一token表示向量的维度。

所述协同切割关系短语表示网络用于将同一关系类型的多种表达形式得到的关系短语进行初步的归纳总结，得到每个关系短语的初步向量表示。关系短语是实体关系在文本中的直接表达，正确识别关系短语对关系抽取任务是非常重要的。由于观察到大规模文本中的关系表达有一定的冗余性，同样的关系短语可能会多次用于表达相同的实体关系，即使表达相同关系的句子有不同的关系短语，这些不同的关系短语在语义上也可能比较相近；因此，假设表达相同关系的句子中语义接近的部分更可能是关系短语，基于此假设，本实施例提出了句子协同切割的方法来从大规模表示相同关系的句子中抽取出语义接近的部分作为关系短语表示，所得到的关系短语表示后续用于更新关系记忆中的键值，对关系短语表示进行进一步的归纳总结。由于从关系的句子集合中采样一些句子，提取出其中语义接近的部分作为关系短语，因此首先对任意两个句子进行协同切割，得到句子对之间语义接近的部分作为关系短语，再综合多个句子对得到最终的结果。

现有技术中将关系抽取任务看作简单的分类，关系仅作为分类标签，缺乏语义信息。为了引入关系的语义信息，本发明提出了关系记忆网络来表示关系短语相关的知识。由于自然语言的表达具有多样性，同一种关系类型在文本中会由多个不同的关系短语来表达。不同关系短语在语义上有时并不接近，仅用一个向量表示无法覆盖同一关系类型的多个不同的关系短语。此处提出的所述关系记忆网络使用

来表示关系的语义信息。对于关系集合中的关系

其关系记忆

包含K个d维的键值，每个键值存储不同的关系短语表示。相对于仅把关系作为分类标签的做法，关系记忆网络能够表示多种不同的关系语义，能够通过更好地识别实体之间的关系短语来分类关系；关系记忆网络对输入的所述关系短语表示进行聚类表示，得到聚类后关系短语表示向量更新关系记忆网络中的参数，输出所述更新后关系记忆网络至所述关系短语类别分类网络。

所述关系短语类别分类网络根据句子编码器的输出H＝[h₁,…,h_n]＝BERT(S)以及关系记忆M来得到句子嵌入，用于后续的关系分类。匹配句子S和关系记忆M，来得到句子是否包含对应关系短语的匹配特征。关系短语类别分类网络输出的是待抽取关系语句的各抽取关系类型的概率分布。

训练过程中的最后一步即比较预测结果和参考标签之间的误差，以该误差反向传播对网络结构中的待学习参数进行逐轮次调整。该误差的表述形式为损失函数，网络结构中的待学习参数包括语句编码器中的待调网络参数、协同切割关系短语表示网络中的待调网络参数、关系记忆网络中的待调网络参数和关系短语类别分类网络中的待调网络参数。

基于上述实施例，该方法中，所述得到所述键值句的关系短语表示向量，并输出至关系记忆网络之前，还包括：

具体地，记查询句键值句句子对之间的协同切割过程为c＝co-segment(K,Q)，其中，

为协同切割后的关系短语表示向量，

分别为查询句键值句句子对中的键值句和查询句首先分别经过句子编码器来得到每个token的语义表示得到两个句子的上下文相关的表示向量序列。

更具体地，首先对输入句子进行编码得到

然后通过句子对之间的协同切割得到，

其中

表示句子

作为键值句子，

作为查询句子时得到的关系短语表示，也即

和

中语义相近部分的表示。

在一些情况下，

和

可能有其他非关系短语的重合部分，使得协同切割向量

中包含非关系短语的信息；因此，综合多个句子

对同一个句子

协同切割的结果，来减少噪音句子对协同切割的影响；以图模型的视角看，采样得到的N个句子构建成一个全连接的图，图的结点为句子，边是句子对协同切割后的关系短语表示。一个句子结点通过从其周围结点收集关系短语表示信息来得到最终的表示。对于句子

使用平均池化来收集其他所有N-1个句子对其协同切割的结果，得到最终关系短语的表示：

上述公式即将所述键值句i在所有查询句样本j下得到的关系短语表示向量

进行求平均，以达到去噪功能。

基于上述实施例，该方法中，所述语句编码器用于将输入的样本语句、对应的样本头尾实体位置进行编码，得到包含头尾实体位置信息的样本语句向量，具体包括：

所述语句编码器用于，

基于预设规则将输入的样本语句划分为标记token序列，所述标记token序列在头尾实体位置分别插入有头实体开始token和头实体结束token，以及尾实体开始token和尾实体结束token；

具体地，为了得到上下文相关的句子表示，本实施例使用预训练模型BERT来对句子进行编码。预训练模型中蕴含着句法知识及实体相关的知识，能够更好地对token的语义进行表示；为了指示句子中实体所在的位置，在头尾实体两侧分别加特殊的标记token。此处对于token的划分进行举例说明，例如单词antiwar，不同token分割规则下的划分结果可能不同，例如，可能划分成2个token：anti和war，也可能划分成3个token：an、ti和war，而本实施例中的token划分规则是预训练模型BERT自带已经预先设定好的。对于一个包含n个token的句子S＝{x₁,x₂,…,x_n}，头尾实体分别为<x_i,…,x_j>和<x_k,…,x_l>，则句子编码器的输入为，[x₁,…,[E1_start],x_i,…,x_j,[E1_end],…,[E2_start],x_k,…,x_l,[E2_end],…,x_n]

其中，[E1_start],[E1_end]分别是头实体的开始和结束token，[E2_start],[E2_end]分别表示尾实体的开始和结束。通过句子编码器BERT之后，

[h₁,…,h_n]＝BERT([x₁,…,x_n])

得到上下文相关的token表示

其中d是token表示的维度。

基于上述实施例，该方法中，所述协同切割关系短语表示网络用于将输入的任意两个采样的样本语句组成的键值句查询句对进行编码，得到所述键值句的关系短语表示向量，具体包括：

所述协同切割关系短语表示网络用于，

具体地，对于任意句子对，把两个句子分别看作键值S_key和查询S_query，键值句子S_key类比于键值序列，查询句子S_query用来查询键值序列中与其语义接近的部分作为关系短语表示。两个句子首先分别经过句子编码器来得到每个token的语义表示，

得到两个句子的上下文相关的表示

其中n,m分别表示S_key和S_query中token的数量。注意这里的句子编码器BERT_coseg与上文介绍的语句编码器中的BERT相互独立，不共享参数，上文介绍的语句编码器中包括需要学习的待调参数，协同切割关系短语表示网络中的BERT_coseg的参数为预先设定，无需学习。

使用缩放的点积注意力来计算键值和查询句子中token之间的注意力分数，

其中

是两个句子之间的注意力分数矩阵，

两个线性变换矩阵分别把查询和键值句子转换到不同的空间来计算注意力，且W^K和W^Q为需要学习的待调参数矩阵，对于任意token

和

如果它们在语义上比较接近，那么其注意力分数S_ij的值比较大，反之则比较小。那么，如果两个token都是关系短语，那么它们的注意力分数S_ij则会比较大。

受attention-over-attention工作的启发，发现查询句子S_query中既有关系短语，也有一些与实体关系无关的噪音，S_query中的token对于关系短语的提取并不是同等重要的。通过注意力分数S来计算得到查询句子token的权重。具体地，每个键值句子token对所有查询token进行独立打分，与对应的键值token语义接近的查询token会获得较高的分数。再对所有键值token的打分取平均后得到最终查询token的权重α。

其中，

m是查询句子S_query中token的数量，权重较高的查询token在键值句子S_key中有对应的匹配，其作为关系短语的可能性更高，因此α可以用来表示查询句子中关系短语的概率分布。

查询句子中的关系短语对于提取键值句子中的关系短语是更重要的，因此应该更关注于分布α中概率值较大的部分。根据查询句子中关系短语的分布α对注意力分数矩阵S的各列进行加权，得到键值句子中关系短语的概率分布，

其中

n是键值句子中token的数量。使用查询句子关系短语的分布α进行加权能够增加注意力分数矩阵S中关系短语的注意力分数，减少噪音的影响，使得分布β更接近于真实的关系短语分布。

根据键值句子中关系短语的分布β，得到协同切割后的关系短语表示，

c＝βK

其中，

记以上句子对之间的协同切割过程为c＝co-segment(K,Q)。

基于上述实施例，该方法中，所述关系短语类别分类网络用于基于所述样本语句向量和所述更新后关系记忆网络确定抽取关系类型的概率分布，具体包括：

所述关系短语类别分类网络用于，

基于样本语句所有关系相关的嵌入表示向量样本语句关系相关的嵌入表示向量确定样本语句中所有抽取关系类型的概率分布。

具体地，本实施例根据语句编码器的输出H＝[h₁,…,h_n]＝BERT(S)以及关系记忆M来得到句子嵌入，用于后续的关系分类。匹配句子S和关系记忆，来得到句子是否包含对应关系短语的匹配特征。具体地，本发明使用缩放的点积注意力来计算句子中每个token与每个关系r的记忆模块M^(r)中键值的注意力分数，

其中，

n是句子S中token的数目。

分别把句子表示和关系记忆转换到不同的空间来计算注意力。

取句子中所有token对关系记忆注意力的平均作为两者的匹配特征，即

其中，

可以指示句子和某个关系的关系记忆是否匹配，进而帮助关系分类的判别。与MTB方法类似，拼接头尾实体开始标记的表示以及句子与关系记忆的匹配特征，得到最终的句子嵌入为，

其中

是向量拼接符。注意到句子嵌入h^(r)是关系相关的，即同一个句子在不同关系下有不同的表示。

为了得到句子关系分类的概率分布，计算其关系相关的嵌入与关系向量之间的点积，

其中，

是分类器中不同关系的向量表示。

基于上述实施例，该方法中，所述抽取关系类型的概率分布和所述聚类后关系短语表示向量用于构建所述抽取模型训练时的损失函数，具体包括：

其中，所述抽取关系类型分类损失项基于交叉熵损失规则对所述样本语句中所有抽取关系类型的概率分布进行处理构建，所述关系记忆网络损失项基于预设语料库确定的关系短语表示向量和关系记忆网络更新过程中的聚类中心的余弦相似度求和构建。

具体地，此处对关系记忆网络的处理过程进行补充说明，对于关系r，堆叠采样的N个句子的关系短语表示，得到协同切割后的关系短语为

所有关系协同切割后的关系短语

用于后续的关系记忆的更新。

现有技术中把关系抽取任务看作简单的分类，关系仅作为分类标签，缺乏语义信息。为了引入关系的语义信息，本实施例提出了关系记忆网络来表示关系短语相关的知识。由于自然语言的表达具有多样性，同一个关系在文本中会由多个不同的关系短语来表达。不同关系短语在语义上有时并不接近，仅用一个向量表示无法覆盖多个不同的关系短语。提出的关系记忆网络使用

来表示关系的语义信息。对于关系集合中的关系

其关系记忆

包含K个d维的键值，每个键值存储不同的关系短语表示。相对于仅把关系作为分类标签的做法，关系记忆网络能够表示多种不同的关系语义，能够通过更好地识别实体之间的关系短语来分类关系。

为了把关系短语存储在关系记忆模块中，对于关系

使用协同切割后的关系短语R^(r)来更新对应的关系记忆网络M^(r)。把R^(r)看作采样的关系短语样本点，M^(r)中的键值看作关系短语的聚类中心。对于关系短语

使用余弦相似度来找到它在M^(r)中的聚类中心。计算

与M^(r)中每个键值

的余弦相似度，选择相似度最高的键值作为其聚类中心。

让关系记忆中聚类中心的键值

与采样的关系短语

尽可能接近。与之前直接把向量存入记忆网络不同的是，仅使用计算的梯度来更新关系记忆。借助关系短语与聚类中心的余弦相似度来得到关系记忆网络的损失，

优化此关系记忆网络损失项会使得关系记忆中的键值更接近于采样的关系短语，相当于把关系短语写入了关系记忆中。这使得更新后的关系记忆网络能够存储更多的关系短语，能够更好地处理关系在自然语言中多样的表达。

根据前文内容所述，得到了对所述样本语句中所有抽取关系类型的概率分布的公式如下：

其中，

是分类器中不同关系的向量表示。

基于上面最后一个公式，使用交叉熵损失来作为关系分类任务的优化目标，得到抽取关系类型分类损失项的公式如下：

其中，

表示大量样本语句组成的训练集，r_i是训练集样本语句S_i对应的关系类型标注。此处需要说明的是，所述大量样本语句组成的训练集

即前文所述的预设语料库，而所述预设语料库也是用于训练抽取模型的样本语句组成的训练数据集的数据源。为了在训练时同时优化句子编码器和关系记忆表示，本发明所提供的抽取模型的最终损失通过如下公式表示，

其中，λ用来调整关系分类损失及关系记忆表示损失之间的权重。

本发明针对已有的关系抽取模型较少关注于关系相关的知识，关系仅作为分类标签，缺乏语义信息的问题，提出融合关系短语知识的关系记忆网络模型RELMEM作为抽取模型。对每个关系，使用关系记忆来存储对应的关系短语知识，关系记忆的多个键值可存储语义不同的关系短语表示。本发明也提出使用句子协同切割的方法来得到关系短语表示，用于更新关系记忆，通过匹配句子关系表达和关系记忆，模型利用关系短语知识，得到匹配特征用于关系分类。借助关系记忆中包含的关系表达知识，模型可以更好地应对多样的关系表达，同时也具有较好的可解释性。最后，还在两个公开的大规模关系抽取数据集TACRED和Wiki80上进行了实验，结果显示本发明提出的抽取模型超过了基线模型，证明了抽取模型融合关系短语知识的有效性。通过选取协同切割中注意力分数较高的token进行分析，得到的实验结果表明协同切割方法能够较好地提取出关系短语，具有较好的可解释性；另外，也分析了抽取模型提升较多的关系，发现提升较多的关系有更多样的关系短语表示，这表明抽取模型能够更好地应对关系表达的多样性。

下面对本发明提供的融合关系短语知识的关系抽取装置进行描述，下文描述的融合关系短语知识的关系抽取装置与上文描述的一种融合关系短语知识的关系抽取方法可相互对应参照。

图2为本发明提供的融合关系短语知识的关系抽取装置的结构示意图，如图2所示，融合关系短语知识的关系抽取装置包括确定单元210和抽取单元220，其中，

所述确定单元210，用于确定待抽取关系语句，以及该语句中的待抽取关系的两个实体的位置信息；

所述抽取单元220，用于将所述待抽取关系语句和所述位置信息输入抽取模型，输出所述两个实体的关系类型；

本发明提供的融合关系短语知识的关系抽取装置，通过基于样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的抽取模型对待抽取关系语句中指定的头尾实体进行关系抽取，其中，抽取模型训练时包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络，所述协同切割关系短语表示网络对关系类型的各种关系表达短语进行了自动化获取，解决了手工构建关系短语费时费力的问题，而且还对各种关系表达短语进行了归纳总结得到高质量的关系短语的向量表达，然后通过关系记忆网络中的关系类型的聚类进一步对关系短语向量的表示进行归纳总结，扩展关系在自然语言中多样的表达，最后的关系短语类别分类网络基于综合整理得到的所有关系短语形式对应的最终嵌入表示向量构建的关系记忆网络和语句编码器输出的样本语句向量进行融合得到样本语句对应的各关系类型的概率分布，抽取模型中的协同切割关系短语表示网络和关系记忆网络这两个网络两次对关系短语信息进行归纳总结提炼，融合得到最终的多样表达的关系语句的最终嵌入式表示向量，用于参与关系短语类别分类网络的计算。因此，本发明提供的装置，实现了融合关系短语的语义信息到关系类型中，提高了语句中关系类型抽取的准确率。

在上述实施例的基础上，该融合关系短语知识的关系抽取装置中，所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络，具体包括：

所述抽取模型的训练过程中，

在上述实施例的基础上，该融合关系短语知识的关系抽取装置中，所述得到所述键值句的关系短语表示向量，并输出至关系记忆网络之前，还包括：

在上述实施例的基础上，该融合关系短语知识的关系抽取装置中，所述语句编码器用于将输入的样本语句、对应的样本头尾实体位置进行编码，得到包含头尾实体位置信息的样本语句向量，具体包括：

所述语句编码器用于，

在上述实施例的基础上，该融合关系短语知识的关系抽取装置中，所述协同切割关系短语表示网络用于将输入的任意两个采样的样本语句组成的键值句查询句对进行编码，得到所述键值句的关系短语表示向量，具体包括：

所述协同切割关系短语表示网络用于，

在上述实施例的基础上，该融合关系短语知识的关系抽取装置中，所述关系短语类别分类网络用于基于所述样本语句向量和所述更新后关系记忆网络确定抽取关系类型的概率分布，具体包括：

所述关系短语类别分类网络用于，

在上述实施例的基础上，该融合关系短语知识的关系抽取装置中，所述抽取关系类型的概率分布和所述聚类后关系短语表示向量用于构建所述抽取模型训练时的损失函数，具体包括：

图3为本发明提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行融合关系短语知识的关系抽取方法，该方法包括：确定待抽取关系语句，以及该语句中的待抽取关系的两个实体的位置信息；将所述待抽取关系语句和所述位置信息输入抽取模型，输出所述两个实体的关系类型；其中，所述抽取模型是基于样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的，所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的融合关系短语知识的关系抽取方法，该方法包括：确定待抽取关系语句，以及该语句中的待抽取关系的两个实体的位置信息；将所述待抽取关系语句和所述位置信息输入抽取模型，输出所述两个实体的关系类型；其中，所述抽取模型是基于样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的，所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的融合关系短语知识的关系抽取方法，该方法包括：确定待抽取关系语句，以及该语句中的待抽取关系的两个实体的位置信息；将所述待抽取关系语句和所述位置信息输入抽取模型，输出所述两个实体的关系类型；其中，所述抽取模型是基于样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的，所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络。

以上所描述的服务器实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种融合关系短语知识的关系抽取方法，其特征在于，包括：

2.根据权利要求1所述的融合关系短语知识的关系抽取方法，其特征在于，所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络，具体包括：

所述抽取模型的训练过程中，

3.根据权利要求2所述的融合关系短语知识的关系抽取方法，其特征在于，所述得到所述键值句的关系短语表示向量，并输出至关系记忆网络之前，还包括：

4.根据权利要求2或3所述的融合关系短语知识的关系抽取方法，其特征在于，所述语句编码器用于将输入的样本语句、对应的样本头尾实体位置进行编码，得到包含头尾实体位置信息的样本语句向量，具体包括：

所述语句编码器用于，

5.根据权利要求2或3所述的融合关系短语知识的关系抽取方法，其特征在于，所述协同切割关系短语表示网络用于将输入的任意两个采样的样本语句组成的键值句查询句对进行编码，得到所述键值句的关系短语表示向量，具体包括：

所述协同切割关系短语表示网络用于，

6.根据权利要求2或3所述的融合关系短语知识的关系抽取方法，其特征在于，所述关系短语类别分类网络用于基于所述样本语句向量和所述更新后关系记忆网络确定抽取关系类型的概率分布，具体包括：

所述关系短语类别分类网络用于，

7.根据权利要求6所述的融合关系短语知识的关系抽取方法，其特征在于，所述抽取关系类型的概率分布和所述聚类后关系短语表示向量用于构建所述抽取模型训练时的损失函数，具体包括：

8.一种融合关系短语知识的关系抽取装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的融合关系短语知识的关系抽取方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的融合关系短语知识的关系抽取方法的步骤。