CN115081452B

CN115081452B - 一种实体关系的抽取方法

Info

Publication number: CN115081452B
Application number: CN202211002675.0A
Authority: CN
Inventors: 李璐; 段荣成; 秦瑶; 张畅; 张凯; 韩立立; 黄威
Original assignee: China Shipbuilding It Corp ltd; MILITARY SECRECY QUALIFICATION CERTIFICATION CENTER
Current assignee: China Shipbuilding It Corp ltd; MILITARY SECRECY QUALIFICATION CERTIFICATION CENTER
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-11-01
Anticipated expiration: 2042-08-22
Also published as: CN115081452A

Abstract

本申请属于自然语言处理领域，具体提供了一种实体关系的抽取方法。该方法包括：利用BERT模型对待抽取的文本数据进行编码，获得所述文本数据的向量化表示；其中，所述文本数据包括至少一个句子；基于所述文本数据的向量化表示，利用实体关系抽取模型获取所述文本数据中单词对存在特定关系的概率；其中，所述实体关系抽取模型基于多头注意力机制和知识蒸馏构建。基于本申请提供的技术方案，可以提高实体关系抽取的精确性。

Description

一种实体关系的抽取方法

技术领域

本申请涉及自然语言处理领域，特别是指一种实体关系的抽取方法。

背景技术

随着自然语言处理领域的发展和网络信息的飞速发展，实体关系抽取成为信息抽取热门分支。实体关系抽取是从非结构化的文本中抽取出实体对及其参与的关系类别，并组织成结构化的关系三元组。实体关系抽取任务强调同时完成实体识别和关系识别两个子任务。实体识别任务即识别出文本中参与关系的实体对；关系识别任务即识别出实体对参与的具体关系类型。

现有的实体关系抽取方法仅关注实体对参与的关系类别，而忽略了各关系类别之间的相关性以及各关系三元组之间的相关性，从而造成抽取的实体关系偏离真实分布，进而导致准确率较低、召回率较低等问题。

发明内容

鉴于现有技术的以上问题，本申请提供一种实体关系的抽取方法，可以提高实体关系抽取的精确性。

为达到上述目的，本申请第一方面提供一种实体关系的抽取方法，包括：利用BERT模型对待抽取的文本数据进行编码，获得所述文本数据的向量化表示；其中，所述文本数据包括至少一个句子；基于所述文本数据的向量化表示，利用实体关系抽取模型获取所述文本数据中单词对存在特定关系的概率；其中，所述实体关系抽取模型基于多头注意力机制和知识蒸馏构建。

由上，通过多头注意力机制构建的实体关系抽取模型，可以实现独立对实体关系的抽取，不会受到其他任务的干扰，从而提高实体关系抽取的精确性。另外，通过知识蒸馏的训练方法，随着训练周期的增加，实体关系抽取模型会逐渐学习到单词对语义关联程度的连续分布，增强了其泛化能力。

作为第一方面的一种可能的实现方式，所述实体关系抽取模型还用于获取所述文本数据中单词对的各单词作为头实体的位置信息、以及所述文本数据中单词对的各单词作为尾实体的位置信息；其中，所述位置信息包括开始位置信息和结束位置信息。

由上，该实体关系抽取模型不仅可以输出实体关系的概率，还可以输出头实体和尾实体的位置信息，便于用于对其分析。

作为第一方面的一种可能的实现方式，所述BERT模型的训练过程包括：获取第一训练样本数据，所述第一训练样本数据包括未标注的文本数据，所述文本数据包括至少一个句子；根据所述第一训练样本数据对所述BERT模型进行基于自监督学习的训练，更新所述BERT模型的参数，以获得所述BERT模型。

由上，提供了一种BERT模型预训练的方式，通过上述预训练可以获得BERT模型。

作为第一方面的一种可能的实现方式，所述实体关系抽取模型的训练过程包括：获取第二训练样本数据；所述第二训练样本数据包括文本数据的向量化表示、所述文本数据中单词对之间存在特定关系的独热硬标签、所述文本数据中单词对的各单词作为头实体的位置信息标签、以及所述文本数据中单词对的各单词作为尾实体的位置信息标签；根据所述第二训练样本数据对教师模型进行训练，更新所述教师模型的参数，以获得所述教师模型；根据所述第二训练样本数据对所述教师模型进行知识蒸馏，获得学生模型，并将所述学生模型作为所述实体关系抽取模型。

由上，提供了实体关系抽取模型的训练过程，首先训练出教师模型，然后利用教师模型来指导学生模型，从而使获得的学生模型泛化能力更强。

作为第一方面的一种可能的实现方式，所述根据所述第二训练样本数据对教师模型进行训练，更新所述教师模型的参数，以获得所述教师模型，包括：将所述第二训练样本数据中的所述文本数据的向量化表示输入至注意力头部；对于每个注意力头部，分别进行三次线性变换生成query矩阵、key矩阵和value矩阵；其中，所述query矩阵用于表示所述文本数据中各单词作为头实体所对应的尾实体信息，所述key矩阵用于表示所述文本数据中各单词作为尾实体对应的头实体信息，所述value矩阵用于表示所述文本数据中各单词所在的关系三元组中头实体的信息和尾实体的信息；根据所述query矩阵和所述key矩阵确定所述文本数据中单词对存在特定关系的概率，并将所述概率作为所述教师模型的第一输出。

作为第一方面的一种可能的实现方式，所述根据所述query矩阵和所述key矩阵确定所述文本数据中单词对存在特定关系的概率，包括：按下式确定所述概率：

其中，

为单词i和单词j存在特定关系的概率，

为激活函数，

为单词i作为头实体对应的尾实体信息，

为单词j作为尾实体对应的头实体信息，

为

的向量维度，其中，

的向量维度与

的向量维度相同。

作为第一方面的一种可能的实现方式，还包括：根据所述文本数据中单词对存在特定关系的概率和所述value矩阵确定所述文本数据中单词对中各单词的注意力文本表征；根据所述各单词的注意力文本表征和所述文本数据的向量化表示确定门函数；根据所述门函数确定所述各单词作为头实体的位置信息、以及所述各单词作为尾实体的位置信息，并将所述位置信息作为所述教师模型的第二输出。

作为第一方面的一种可能的实现方式，所述根据所述各单词的注意力文本表征和所述文本数据的向量化表示确定门函数，包括：按下式确定所述门函数：

其中，

为门函数，

为单词i的注意力文本表征，

为单词i的词向量，

为激活函数，

为所述各单词的注意力文本表征和所述文本数据的向量化表示的门转换矩阵。

作为第一方面的一种可能的实现方式，还包括：

所述教师模型训练时的最小优化目标按下式确定：

其中，

为单词i和单词j存在特定关系的概率,

为单词i和单词j在特定关系上的监督信号，

为最小优化目标，r为第r个关系类型，R为关系类型总数，n为输入的文本数据长度。

作为第一方面的一种可能的实现方式，所述根据所述第二训练样板数据对所述教师模型进行知识蒸馏，获得学生模型，包括：

按下式确定所述知识蒸馏的蒸馏标签：

其中，

为软化程度，

，e为自然常数，T为训练周期，

为教师模型的输出，

为所述文本数据中单词对之间存在特定关系的独热硬标签，

为蒸馏标签。

本申请的这些和其它方面在以下(多个)实施例的描述中会更加简明易懂。

附图说明

图1为本申请实施例提供的一种实体关系的抽取方法的流程图；

图2为本申请实施例提供的BERT模型的训练方法的流程图；

图3为本申请实施例提供的关系抽取模型的训练方法的流程图；

图4为本申请实施例提供的一种实体关系的抽取装置的结构化示意图；

图5为本申请实施例提供的一种电子设备的结构示意图；

图6为本申请实施例提供的另外一种电子设备的结构示意图。

具体实施方式

说明书和权利要求书中的词语“第一、第二、第三等”或模块A、模块B、模块C等类似用语，仅用于区别类似的对象，不代表针对对象的特定排序，可以理解地，在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在以下的描述中，所涉及的表示步骤的标号，如S110、S120……等，并不表示一定会按此步骤执行，在允许的情况下可以互换前后步骤的顺序，或同时执行。

说明书和权利要求书中使用的术语“包括”不应解释为限制于其后列出的内容；它不排除其它的元件或步骤。因此，其应当诠释为指定所提到的所述特征、整体、步骤或部件的存在，但并不排除存在或添加一个或更多其它特征、整体、步骤或部件及其组群。因此，表述“包括装置A和B的设备”不应局限为仅由部件A和B组成的设备。

本说明书中提到的“一个实施例”或“实施例”意味着与该实施例结合描述的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在本说明书各处出现的用语“在一个实施例中”或“在实施例中”并不一定都指同一实施例，但可以指同一实施例。此外，在一个或多个实施例中，能够以任何适当的方式组合各特定特征、结构或特性，如从本公开对本领域的普通技术人员显而易见的那样。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。如有不一致，以本说明书中所说明的含义或者根据本说明书中记载的内容得出的含义为准。另外，本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请具体实施方式进行进一步详细说明之前，对本申请实施例中涉及的名词和属于，以及其在本申请中相应的用途\作用\功能等进行说明，本申请实施例中涉及的名词和术语适用于如下的解释：

1）实体关系抽取：指从描述关系信息的文本数据中抽取出用户感兴趣的关系三元组并以结构化的形式展现。

2）关系三元组：指具体的关系信息，包括头实体、尾实体和关系类别，其结构化为<头实体，关系类别，尾实体>。例如：<张三，出生地，北京>，则此时头实体为张三，尾实体为北京，二者间的关系类别是出生地关系类别。

3）实体识别：旨在识别出参与关系的头实体和尾实体。

4）关系识别：旨在识别出头实体和尾实体所参与的关系类别。

下面结合各图，对本申请实施例提供的一种实体关系的抽取方法进行详细说明。

如图1所示为本申请实施例提供的一种实体关系的抽取方法的流程图。该方法的实现过程主要包括步骤S110-S120，下面对各个步骤依次进行介绍。

S110：利用BERT模型对待抽取的文本数据进行编码，获得所述文本数据的向量化表示，其中，所述文本数据包括至少一个句子。

BERT模型的全称为Bidirectional Encoder Representations fromTransformers，即双向的Transformers结构，是一个常用的语言表示模型。BERT模型在自然语言方面的特征提取能力显著强于RNN和CNN，可以很好的提取句子中的语义特征，进而得到更好的语义表示。Transformer是一个完全依赖自注意力机制计算输入和输出的表示，而不使用序列对齐的递归神经网络或卷积神经网络的模型。

其中，所述编码包括：通过词序列W={w₁,…,w_n-1,w_n}表示各句子中的单词，然后对词序列W={w₁,…,w_n-1,w_n}进行词向量转换，则得到该句子的向量化表示集合H={h₁,…,h_n-1,h_n}。

在句子的向量化表示集合H中，各个词向量均包含三个部分：Token Embedding（词嵌入）、Segment Embedding（句子嵌入）、Position Embedding（位置嵌入）。其中TokenEmbedding可以使用Word Piece嵌入；Segment Embedding标识单词所在句子的序号，例如，在对BERT模型预训练的过程中，每次输入一个句子，该句子中所有单词的序号全部为1，则表示上述单词属于同一句子；Position Embedding标识单词的位置信息，每个位置随机初始化一个向量，假如模型训练最终把单词对应的三个Embedding叠加，即形成实体关系抽取模型的输入。

S120：基于所述文本数据的向量化表示，利用实体关系抽取模型获取所述文本数据中单词对存在特定关系的概率。例如，单词对为张三和北京，特定关系为出生地、求学地、工作地等。

另外，该实体关系抽取模型还可以基于文本数据的向量化表示获取所述文本数据中头实体和尾实体的位置信息，该位置信息包括开始位置和结束位置。

具体的，将步骤S110获得的文本数据的向量化表示作为实体关系抽取模型的输入，获得所述实体关系抽取模型的输出，即：文本数据中单词对存在特定关系的概率、文本数据中单词对的各单词作为头实体的开始位置、文本数据中单词对的各单词作为头实体的结束位置、文本数据中单词对的各单词作为尾实体的开始位置、以及文本数据中单词对的各单词作为尾实体的结束位置。

下面详细介绍BERT模型和实体关系抽取模型的训练过程。

首先介绍BERT模型的训练过程。

如图2所示，该BERT模型的训练过程包括步骤S210-S220，下面对各个步骤依次进行介绍。

S210：获取第一训练样本数据。

在本实施例中，该第一训练样本数据包括未标注的文本数据，所述文本数据包括至少一个句子。

S220：根据第一训练样本数据对BERT模型进行基于自监督学习的训练，更新BERT模型的参数，以获得BERT模型。

在BERT模型中，隐藏层最后一层为单词的向量化表示。

由于BERT模型采用了双向的Transformers结构，使得训练出的结构可以反映单词与句子中其它单词的语义关系，能够体现出单词的多义性，从而可以获得更好的向量化表示。

接下来介绍关系抽取模型的训练过程。

如图3所示，该关系抽取模型的训练过程包括步骤S310-S330，下面对各个步骤依次进行介绍。

该关系抽取模型是基于多头注意力机制和知识蒸馏构建的。其中，多头注意力机制是用若干个注意力头部对应不同的关系类别，即每个注意力头部对应一种特定的关系类别。注意力头部相对编码层输出独立，从而可以避免因某些关系三元组识别失败而影响其他关系三元组的识别。而且，多头注意力机制相比于常规的序列预测，可以实现并行运算，从而极大的提高运算效率。通过多头注意力机制训练得到教师模型，然后通过知识蒸馏的方式训练得到学生模型作为关系抽取模型。

S310：获取第二训练样本数据。

在本实施例中，第二训练样本数据包括文本数据的向量化表示、文本数据中单词对之间存在特定关系的独热硬标签、文本数据中单词对的各单词作为头实体的位置信息标签、以及文本数据中单词对的各单词作为尾实体的位置信息标签。

其中，该独热硬标签表示单词对是否存在该特定关系的标签。一般来说，独热硬标签只能是1或者0，1则表示单词对存在该特定关系，0则表示单词对不存在该特定关系。例如：文本数据为张三工作在北京，抽取出的单词对为<张三，北京>，对该单词对打标签时，则出生地标签为0，工作地标签为1。通过独热硬标签可以体现单词对实际参与的具体关系类型。

作为一种可选的实现方式，可以按下式确定独热硬标签：

其中，i和j表示单词的标号，h表示头实体，t表示尾实体，

表示头实体和尾实体之间存在特定关系的独热硬标签。由该公式可知，独热硬标签满足离散的0、1分布。

在本实施例中，该位置信息标签包括开始位置信息的标签和结束位置信息的标签。即：第二训练样本数据中需要包括文本数据中单词对的各单词作为头实体的开始位置标签、结束位置标签、以及文本数据中单词对的各单词作为尾实体的开始位置标签、结束位置标签。

S320：根据第二训练样本数据对教师模型进行训练，更新所述教师模型的参数，以获得所述教师模型。训练教师模型的过程包括训练教师模型第一输出的过程和训练教师模型第二输出的过程。

下面首先介绍训练教师模型第一输出的过程，该过程包括步骤S321a-S323a。

S321a：将第二训练样本数据中的文本数据的向量化表示并列输入至各个注意力头部中。

S322a：对于每个注意力头部内部，分别实施三次线性变换生成query矩阵、key矩阵和value矩阵。

query矩阵用于表示文本数据中各个单词作为头实体所对应的尾实体信息。作为一种可选的实现方式，该尾实体信息中可以包括尾实体标识等。

key矩阵用于表示文本数据中各单词作为尾实体所对应的头实体信息。作为一种可选的实现方式，该头实体信息中可以包括头实体标识等。

value矩阵用于表示所述文本数据中各单词所在的关系三元组中头实体的信息和尾实体信息。

S323a：根据query矩阵和key矩阵确定所述文本数据中单词对存在特定关系的概率，并将所述概率作为教师模型的第一输出。

作为一种实现方式，首先将query矩阵和key矩阵相乘可以得到注意力分数，然后对注意力分数进行归一化处理即可得到单词对存在特定关系的概率。具体的，可以按下式确定所述概率：

其中，

为单词i和单词j存在特定关系的概率，

为激活函数sigmoid，

为query矩阵中的元素，即单词i作为头实体对应的尾实体信息，

为key矩阵中的元素，即单词j作为尾实体对应的头实体信息，

为

和

的向量维度。

在本实施例中，该单词对存在特定关系的概率训练时，最小优化目标可以按下式确定：

其中，

为单词i和单词j存在特定关系的概率,

为单词i和单词j在特定关系上的监督信号，

为最小优化目标，r为第r个关系类型，R为关系类型总数，n为输入的文本数据的长度。

然后介绍训练教师模型第二输出的过程，该过程包括步骤S324b-S326b。

S324b：根据文本数据中单词对存在特定关系的概率和步骤S322a中获得的value矩阵确定所述文本数据中单词对中各单词的注意力文本表征。

作为一种实现方式，可以按下式确定单词i的注意力文本表征：

其中，

为文本数据中单词i的注意力文本表征，

为单词i和单词j存在特定关系的概率，i和j分别为单词的标号，n为输入的文本数据的长度，

为value矩阵中的元素，表示单词j所在的关系三元组中头实体的信息和尾实体的信息。

S325b：根据所述各单词的注意力文本表征和所述文本数据的向量化表示确定门函数。

具体的：基于步骤S324b得到的文本数据中单词对中各单词的注意力文本表征和第二训练样本数据中的文本数据的向量化表示计算获得门函数。

作为一种实现方式，可以按下式确定门函数：

其中，

为门函数，

为单词i的注意力文本表征，

为单词i的词向量，

为激活函数，

S326b：根据所述门函数确定所述各单词作为头实体的位置信息、以及所述各单词作为尾实体的位置信息，并将所述位置信息作为所述教师模型的第二输出。

具体的，基于门函数对各单词的注意力文本表征和所述文本数据的向量化表示进行加权计算，从而生成单词的实体表征。然后基于该单词的实体表征，利用Sigmoid分类器获得各单词作为头实体的位置信息、以及所述各单词作为尾实体的位置信息。该位置信息包括开始位置信息和结束位置信息。即：本步骤的第二输出具体包括各单词作为头实体的开始位置、各单词作为头实体的结束位置、各单词作为尾实体的开始位置、以及各单词作为尾实体的结束位置。

S330：根据所述第二训练样本数据对所述教师模型进行知识蒸馏，获得学生模型，并将所述学生模型作为所述实体关系抽取模型。

在本实施例中，基于教师模型生成贴近真实语义的关系软标签，并将第二训练样本数据中的独热硬标签作为监督信号，对教师模型进行知识蒸馏，从而获得学生模型。

其中，软标签与硬标签相对，硬标签满足0、1的分散分布，而软标签则满足0-1中任意值的分布。

在本实施例中，该知识蒸馏为动态的知识蒸馏，即蒸馏程度随着训练周期的增多而增加，通过教师模型先逐渐学习识别单词对实际参与的具体关系，然后转为学习单词对真实的语义关联程度（即单词对存在特定关系的概率）。

在本步骤中，学生模型的训练过程采用有监督学习，其监督信号使用蒸馏标签。作为一种实现方式，该蒸馏标签可以按下式确定：

其中，

为软化程度，

，e为自然常数，T为训练周期，

为教师模型的输出，

为所述文本数据中单词对之间存在特定关系的独热硬标签，

为蒸馏标签。

通过本申请实施例所提供的实体关系的抽取方法，在实体关系抽取模型的训练过程中，通过query矩阵和key矩阵得到注意力分数，进一步对注意力分数进行处理得到单词对存在特定关系的概率，这种获得单词对存在特定关系的概率的方法可以独立进行，不会受到其他任务的干扰，从而提高实体关系抽取的精确性。另外，通过动态知识蒸馏的训练方法，随着训练周期的增加，实体关系抽取模型会逐渐学习到单词对语义关联程度的连续分布，增强了其泛化能力。

本申请的另一实施例提供一种实体关系的抽取装置，该装置可以由软件系统实现，也可以由硬件设备实现，还可以由软件系统和硬件设备结合来实现。

应理解，图4仅是示例性地展示了一种实体关系的抽取装置的一种结构化示意图，本申请并不限定对该实体关系的抽取装置中功能模块的划分。如图4所示，该实体关系的抽取装置40可以在逻辑上分成多个模块，每个模块可以具有不同的功能，每个模块的功能由可以电子设备中的处理器读取并执行存储器中的指令来实现。示例性的，该实体关系的抽取装置40包括编码模块410和关系抽取模块420。

在一种可选的实现方式中，该实体关系的抽取装置40用于执行图1示出的步骤S110-S120中描述的内容。具体的，可以为：编码模块410，用于利用BERT模型对待抽取的文本数据进行编码，获得所述文本数据的向量化表示；其中，所述文本数据包括至少一个句子。关系抽取模块420用于基于所述文本数据的向量化表示，利用实体关系抽取模型获取所述文本数据中单词对存在特定关系的概率；其中，所述实体关系抽取模型基于多头注意力机制和知识蒸馏构建。

本申请实施例还提供一种计算设备，包括处理器，以及存储器。存储器上存储有程序指令，程序指令当被处理器执行时使得处理器执行图1-图3对应的实施例的方法，或其中的各可选实施例。

图5是本申请实施例提供的一种计算设备900的结构性示意性图。该计算设备900包括：处理器910、存储器920。

应理解，图5中所示的计算设备900中还可包括通信接口930，可以用于与其他设备之间进行通信。

其中，该处理器910可以与存储器920连接。该存储器920可以用于存储该程序代码和数据。因此，该存储器920可以是处理器910内部的存储单元，也可以是与处理器910独立的外部存储单元，还可以是包括处理器910内部的存储单元和与处理器910独立的外部存储单元的部件。

可选的，计算设备900还可以包括总线。其中，存储器920、通信接口930可以通过总线与处理器910连接。总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

应理解，在本申请实施例中，该处理器910可以采用中央处理单元(CentralProcessing Unit，CPU)。该处理器还可以是其它通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门矩阵(Field Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。或者该处理器910采用一个或多个集成电路，用于执行相关程序，以实现本申请实施例所提供的技术方案。

该存储器920可以包括只读存储器和随机存取存储器，并向处理器910提供指令和数据。处理器910的一部分还可以包括非易失性随机存取存储器。例如，处理器910还可以存储设备类型的信息。

在计算设备900运行时，所述处理器910执行所述存储器920中的计算机执行指令执行上述方法的操作步骤。

应理解，根据本申请实施例的计算设备900可以对应于执行根据本申请各实施例的方法中的相应主体，并且计算设备900中的各个模块的上述和其它操作和/或功能分别为了实现本实施例各方法的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了另外一种计算设备，如图6所示为该实施例提供的另一种计算设备1000的结构性示意性图，包括：处理器1010，以及接口电路1020，其中，处理器1010通过接口电路1020访问存储器，存储器存储有程序指令，程序指令当被处理器执行时使得处理器执行图1-图3对应的实施例的方法。另外，该计算设备还可包括通信接口、总线等，具体可参见图5所示的实施例中的介绍，不再赘述。示例性的，该接口电路1020可以为CAN总线或者LIN总线。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行一种实体关系的抽取方法，该方法包括上述各个实施例所描述的方案中的至少之一。

本申请实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括、但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本申请的较佳实施例及所运用的技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请的构思的情况下，还可以包括更多其他等效实施例，均属于本申请的保护范畴。

Claims

1.一种实体关系的抽取方法，其特征在于，包括：

利用BERT模型对待抽取的文本数据进行编码，获得所述文本数据的向量化表示；其中，所述文本数据包括至少一个句子；

基于所述文本数据的向量化表示，利用实体关系抽取模型获取所述文本数据中单词对存在特定关系的概率；其中，所述实体关系抽取模型基于多头注意力机制和知识蒸馏构建；

所述实体关系抽取模型还用于获取所述文本数据中单词对的各单词作为头实体的位置信息、以及所述文本数据中单词对的各单词作为尾实体的位置信息；

其中，所述位置信息包括开始位置信息和结束位置信息；

所述BERT模型的训练过程包括：

获取第一训练样本数据，所述第一训练样本数据包括未标注的文本数据，所述文本数据包括至少一个句子；

根据所述第一训练样本数据对所述BERT模型进行基于自监督学习的训练，更新所述BERT模型的参数，以获得所述BERT模型；

所述实体关系抽取模型的训练过程包括：

获取第二训练样本数据；所述第二训练样本数据包括文本数据的向量化表示、所述文本数据中单词对之间存在特定关系的独热硬标签、所述文本数据中单词对的各单词作为头实体的位置信息标签、以及所述文本数据中单词对的各单词作为尾实体的位置信息标签；

根据所述第二训练样本数据对教师模型进行训练，更新所述教师模型的参数，以获得所述教师模型；

根据所述第二训练样本数据对所述教师模型进行知识蒸馏，获得学生模型，并将所述学生模型作为所述实体关系抽取模型；

所述根据所述第二训练样本数据对教师模型进行训练，更新所述教师模型的参数，以获得所述教师模型，包括：

将所述第二训练样本数据中的所述文本数据的向量化表示输入至注意力头部；

对于每个注意力头部，分别进行三次线性变换生成query矩阵、key矩阵和value矩阵；其中，所述query矩阵用于表示所述文本数据中各单词作为头实体所对应的尾实体信息，所述key矩阵用于表示所述文本数据中各单词作为尾实体对应的头实体信息，所述value矩阵用于表示所述文本数据中各单词所在的关系三元组中头实体信息和尾实体信息；

根据所述query矩阵和所述key矩阵确定所述文本数据中单词对存在特定关系的概率，并将所述概率作为所述教师模型的第一输出；

所述根据所述query矩阵和所述key矩阵确定所述文本数据中单词对存在特定关系的概率，包括：

按下式确定所述概率：