CN116757190B

CN116757190B - 一种基于双向树型标注方法的实体关系联合抽取方法

Info

Publication number: CN116757190B
Application number: CN202311022054.3A
Authority: CN
Inventors: 杨莉; 王平; 周颖; 郑茜子; 陈超阳; 罗旭坤
Original assignee: Peking University; Peking University First Hospital
Current assignee: Peking University; Peking University First Hospital
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-10-20
Anticipated expiration: 2043-08-15
Also published as: CN116757190A

Abstract

本发明涉及智能医疗领域的知识图谱的自动化构建，更具体地，涉及一种基于双向树型标注方法的实体关系联合抽取方法。包括：获取待预测文本；将所述待预测文本中的关系与预定义关系类型集合匹配；当匹配结果为是时，将所述待预测文本输入全监督模块中，得到待预测文本中的每个词的标注序列；当匹配结果为否时，将所述待预测文本和少量对应关系的标注样本分别输入小样本模块中，得到待预测文本中的每个词的标注序列；基于所述待预测文本中的每个词的标注序列还原出待预测文本的关系结构图，并抽取关系结构图中的三元组集合。本申请在不增加过多标注数量和时间开销的情况下，提高抽取的准确率和召回率。

Description

一种基于双向树型标注方法的实体关系联合抽取方法

技术领域

本发明涉及智能医疗领域的知识图谱的自动化构建，更具体地，涉及一种基于双向树型标注方法的实体关系联合抽取方法、系统、设备及可读存储介质。

背景技术

在当前大数据时代的背景下，医疗领域中各种医学信息和数据爆炸式增长，而随着社会健康意识的不断提高，医疗信息如疾病信息、药物相互作用信息等的挖掘和利用引起了全社会广泛关注。因此，从互联网中海量的医疗文本（如电子病历、药品说明书等）中提炼出结构化的医疗实体及关系三元组，构建高质量、有价值的医疗领域知识图谱，是充分利用互联网医疗数据、挖掘医疗信息价值的基础条件，是推进医学智能化的关键。

为完成知识图谱的自动化构建，专家们进行了多方面的技术研究，其中实体关系联合抽取技术便是最受关注的一种。实体关系联合抽取的主要任务是对于一段非结构化文本，通过一个系统同时输出由实体和关系类型组成的关系三元组（实体1，关系类型，实体2）集合。当前医学实体关系联合抽取任务面临着三元组准确率和召回率低、耗时过长、且相关医学关系类型缺乏人工标注的训练样本等问题。

2017年，中国科学院的郑孙聪提出了一种解决方案（《ACL》2017 P1227–1236）：使用一种全新的由三个子部分组成的序列标注方法对句子中的三元组实体进行标注，结合LSTM神经网络对句子中的实体和关系进行同时预测。这种标注方法存在的问题是无法表示多个三元组中存在同一个实体的情况，因而降低了三元组的准确率和召回率，且只能抽取预先定义的关系类型的三元组。

发明内容

为解决上述问题，提出一种基于双向树型标注方法的实体关系联合抽取方法、系统、设备及可读存储介质，用以在不增加过多标注数量和时间开销的情况下，提高三元组抽取的准确率和召回率，且能够基于少量标注样本对预测文本进行未定义关系类型的三元组抽取。

本申请公开了一种基于双向树型标注方法的实体关系联合抽取方法，所述方法步骤包括：

S1：获取待预测文本；

S2：将所述待预测文本中的关系与预定义关系类型集合匹配；

S31：当匹配结果为是时，将所述待预测文本输入全监督模块中，所述全监督模块将输入的待预测文本中每个词通过编码器编码为词向量，再通过解码器生成每个词对应的预定义标签的概率分布，得到待预测文本中的每个词的标注序列；

S32：当匹配结果为否时，将所述待预测文本和少量对应关系的标注样本分别输入编码器中，得到每个词的词向量，计算输入的待预测文本和所述标注样本中词向量的距离，距离最小的标注样本词的标注作为待预测文本中的每个词的标注序列；

S4：基于所述待预测文本中的每个词的标注序列还原出待预测文本的关系结构图，并抽取关系结构图中的三元组集合。

进一步，获取待预测文本后抽取待预测文本中的关系或关系三元组，将所述待预测文本中的关系与预定义关系类型集合匹配；所述预定义关系类型集合是基于训练文本生成双向树型标注序列中的关系类型的集合，所述具体包括以下子步骤：

S21：成组，抽取训练文本的实体和关系的三元组，根据关系类型进行分组，得到若干个关系类型互不相同的关系图；

S22：关系图-树，将所述步骤S21中得到的关系图转化为前向二叉树和后向二叉树，具体的，依据实体在训练文本中出现的次序依次考察两个实体在关系图中是否存在关系，得到关系图的前向生成森林和后向生成森林，并进一步转化为前向二叉树和后向二叉树；

S23：树-标注，根据所述步骤S22中得到的二叉树为所述训练文本中的每个词生成标签，得到所述训练文本的关系，具体的，每个词的标签包含二叉树中节点四个部分的信息：词在文本中的位置；词所在节点与父节点所连边信息；词所在节点与左孩子所连边信息；词所在节点与右孩子所连边信息。

进一步，所述全监督模块中编码器采用BERT编码器，解码器采用Bi-LSTM层和多个全连接层，所述S31具体包括以下子步骤：

S311：待预测文本中每个词通过BERT编码器编码映射为对应的向量表示矩阵；

S312：向量表示经过Bi-LSTM层得到待预测文本的前向隐层向量和后向隐层向量，将它们合并为整体隐层向量；

S313：将待预测文本整体隐层向量矩阵输入到多个全连接层中，分别得出每个词对应到每个标签各个部分的概率，得到待预测文本中的每个词的标注序列。

进一步，在步骤S311中为所述待预测文本中每个词添加词性信息；具体的，待预测文本中的某个词通过BERT编码器编码映射为对应的向量表示/>，/>包含了字符/>，则/>的向量表示为：

其中，表示输入文本/>经过BERT编码器后第/>个词的向量表示；/>表示可学习的字符级嵌入矩阵，而/>表示字符/>的向量表示；/>表示可学习的词性嵌入矩阵，而/>表示/>的词性向量表示。

进一步，所述全监督模块为采用人工标注的标签的训练集训练好的全监督深度学习模型，所述模型在训练中对交叉熵损失进行加权操作，以增加模型训练时对关系相关标签的关注度，其标注序列中部分的交叉熵损失如下：

其中，表示文本长度；/>表示词/>在部分/>的标注；而/>为一个二值函数，“O”表示不属于任何三元组的词，当输入标注为“O”时取1，否则取0；/>和/>分别表示文本中第/>个词在部分/>的真实标签和预测标签概率；/>为平衡非“O”标签和“O”标签的权重。

进一步，所述S32具体包括以下子步骤：

S321：调用词典接口对所述待预测文本的释义进行查询，并从中提取关系描述，将关系描述分别与输入的待预测文本和少量对应关系的标注样本中的文本组合后输入BERT编码器中，得到输入的待预测文本和标注样本中的文本中每个词的隐向量；

S322：对于双向树型标注的每个部分分别进行处理，将S321所得隐向量输入对应着该标注部分的线性变换层，得到每个词对应着每个部分标注序列的隐向量；

S323：对于步骤S322所得的待预测文本每个部分标注序列的隐向量，将其与少量对应关系的标注样本中对应部分的每个词的隐向量进行欧氏距离的计算，得到一个距离矩阵；

S324：距离最小的标注样本词的标注作为待预测文本中的每个词的标注序列。

进一步，所述S4具体包括以下子步骤：

S41: 基于所述待预测文本中的每个词的标注序列得到每个词的标签，对于每种关系类型，根据词的标签进行匹配组合，构建出预测文本的前、后向二叉树；

S42: 得到的前、后向二叉树依据“左孩子右兄弟”表示法的逆向思想还原为前、后向生成森林，然后分别遍历前、后向生成森林得到前、后向三元组集合。

本申请公开了一种基于双向树型标注方法的实体关系联合抽取系统，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于双向树型标注方法的实体关系联合抽取方法步骤。

本申请公开了一种基于双向树型标注方法的实体关系联合抽取系统，包括：

获取模块，用于获取待预测文本；

匹配模块，用于将所述待预测文本中的关系与预定义关系类型集合匹配；

全监督模块，当匹配结果为是时，用于将所述待预测文本输入全监督模块中，所述全监督模块将输入的待预测文本中每个词通过编码器编码为词向量，再通过解码器生成每个词对应的预定义标签的概率分布，得到待预测文本中的每个词的标注序列；

小样本模块，当匹配结果为否时，用于将所述待预测文本和少量对应关系的标注样本分别输入编码器中，得到每个词的词向量，计算输入的待预测文本和所述标注样本中词向量的距离，距离最小的标注样本词的标注作为待预测文本中的每个词的标注序列；

后处理模块，用于基于所述待预测文本中的每个词的标注序列还原出待预测文本的关系结构图，并抽取关系结构图中的三元组集合。

本申请公开了一种基于双向树型标注方法的实体关系联合抽取设备，包括：存储器和处理器；所述存储器用于存储程序指令；所述处理器用于调用程序指令，当程序指令被执行时实现上述的基于双向树型标注方法的实体关系联合抽取方法步骤。

本申请公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于双向树型标注方法的实体关系联合抽取方法步骤。

本申请的优点：

1.本申请提供了一种基于不同关系类型选择全监督模块或小样本模块不同方法标注序列，对符合预定义关系类型采用全监督模块预测标注序列、对未定义关系类型采用小样本模块预测标注序列，上述联合抽取系统更充分地利用了句子中的语义信息，提高了联合抽取结果的准确率和召回率，减少了实现高性能抽取所需要的标签数，节省了预测的时间开销；

2.本申请所做的双向树型序列标注方法，基于实体存在关系进行两次转化，通过转化分别得到前向生成森林和后向生成森林，并进一步转化为前向二叉树和后向二叉树，然后根据二叉树的四个部分的节点信息实现标注（前 4+后 4 形成环形信息），是基于关系复杂度的考量，增强了算法的通用性；

3.发明人考虑到关系三元组中的实体多为名词，故而在全监督模块中为输入文本的各个词添加词性信息，此外在模型训练过程中，由于与关系三元组相关的标签在标注序列中是稀疏的，在全监督模块为“O”标签和其他标签的交叉熵损失进行加权操作，以加强模型训练时对关系相关标签的关注度；

4.发明人考虑到在小样本模块中，少量标注文本的标注序列可能无法包含所有的标签故而，通过对标签原型向量的更新来解决，从而实现为待预测文本匹配得到某个未定义关系类型相关的最优标注序列。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的一种基于双向树型标注方法的实体关系联合抽取方法示意流程图；

图2是本发明实施例提供的一种基于双向树型标注方法的实体关系联合抽取系统示意图；

图3是本发明实施例提供的一种基于双向树型标注方法的实体关系联合抽取设备示意图；

图4是本发明实施例提供的一种双向树型标注方法实施例图；

图5是本发明实施例提供的一种全监督模块神经网络结构图；

图6是本发明实施例提供的一种小样本模块流程图；

图7是本发明实施例提供的一基于双向树型标注方法的实体关系联合抽取系统预测及训练流程图；

图8是本发明实施例提供的一种对医疗文本进行关系抽取的部分样例；

图9是一种本发明实施例生成的一个Neo4j图数据库的部分数据展示样例。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种基于双向树型标注方法的实体关系联合抽取方法示意流程图，所述方法步骤包括：

S1：获取待预测文本；

在一个实施例中，获取待预测文本后抽取待预测文本中的关系或关系三元组，可采用基于规则的关系抽取、基于有监督关系抽取等常见的关系抽取方法。

关系抽取（RE）是信息抽取的基本任务之一，是从非结构化文本中提取实体之间的关系。依据实体是否在文本中被标记，关系抽取方法可分为联合抽取和流水线式抽取，联合抽取是指从文本中完成实体识别和关系分类任务，流水线式抽取是指先使用实体识别模型识别文本中的实体对，然后判断实体对的关系。一个完整的流水线式关系抽取系统包括：命名实体识别、实体链接和关系分类。关系抽取包括基于规则的关系抽取、基于有监督关系抽取等。基于规则的关系抽取可以是基于触发词模式的关系抽取或基于依存关系的抽取；基于有监督关系抽取是指有监督神经网络方法，采用深度学习方法在大规模有监督数据集上训练模型。

示例性的说明本申请中文本、字符、词和实体的关系，例如待预测文本为：病毒基因为单负链RNA，基于分词工具进行分词得到：病/毒/基/因/为/单/负/链/RNA，一个单位是一个词或一个token；实体是由1个或多个词组成，如病毒基因；一个词由1个或多个字符组成，词向量：一个token用一个向量表示；一个字符是最小的单位。

在一个实施例中，将待预测文本和预定义关系类型集合直接基于文字匹配。可选的，采用常见的分词工具对所述待预测文本进行分词，然后和和预定义关系类型集合直接基于词匹配。

在一个实施例中，所述预定义关系类型集合是基于训练文本生成双向树型标注序列中的关系类型的集合，所述双向树型标注序列的标注方法具体包括以下子步骤：

S23：树-标注，根据所述步骤S22中得到的二叉树为所述训练文本中的每个词生成标签，得到所述训练文本的关系，具体的，每个词的标签包含二叉树中节点四个部分的信息：词在实体中的位置；词所在节点与父节点所连边信息；词所在节点与左孩子所连边信息；词所在节点与右孩子所连边信息。

在一个实施例中，基于上述双向树型标注序列的标注方法对所述全监督模块或下样本模块模型训练时的训练集样本进行标注，得到样本的标注标签进行人工校验，并进行模型训练。

在一个实施例中，基于训练集样本生成双向树型标注序列信息包括含前后二叉树中节点四个部分的信息（8）、词长度、关系类型，所述预定义关系类型集合只是关系类型的集合。

在一个具体实施例中，文本为“阿奇霉素是抗生素，一种杀菌剂，不能与卡马西平合用”，其中包含的三元组有：（阿奇霉素，属于，抗生素）、（阿奇霉素，属于，杀菌剂）、（抗生素，属于，杀菌剂）和（阿奇霉素，禁止合用，卡马西平）。假定关系类型“属于”在预定义的关系类型集合中，而关系类型“禁止合用”不在预定义集合中。所述预定义关系类型集合是基于训练文本中的关系三元组标注为训练文本生成双向树型标注序列，所述双向树型标注序列的标注方法具体包括以下子步骤：步骤一，对于训练文本中的一个句子，将标注的实体和关系的三元组依据关系类型进行分组，关系类型相同的三元组被划分到同一个关系图中。本实施例中的三个关系类型为“属于”的三元组被划分到同一个名为“属于”的关系图中。若还存在其他关系类型的一个三元组（如“禁止合用”等），会创建一个新的关系图，将其加入到该关系图中。步骤二，对于步骤一中得到的每个关系图，将其转化为一棵前向二叉树和一棵后向二叉树。对于本实施例中步骤一得到的名为“属于”的关系图，模块对其进行两步转换得到最终的前向二叉树和后向二叉树。第一步，将关系图转化为前、后向生成森林。从前至后遍历实例句子，依次考察实体对（阿奇霉素，抗生素）、（阿奇霉素，杀菌剂）和（抗生素，杀菌剂）在关系图中是否存在关系，若存在，将实体对和相应关系加入前向生成森林中。当考察至第三个实体对时，虽然其在关系图中存在关系，但如果在当前的前向生成森林中加入对应关系，会使生成森林含有环，这与树的定义矛盾，故不进行关系加入操作。后向生成森林的生成操作与前向生成森林基本相同，但是遍历顺序由“从前至后”变为了“从后至前”。第二步，将前、后向生成森林转化为前、后向二叉树。对于本实施例中的前、后生成树，模块基于“左孩子右兄弟”（LCRS）表示法将它们分别转化为前、后向二叉树（箭头方向不变）。例如，对于本实施例中的前向生成森林，由于“抗生素”是“阿奇霉素”的第一个孩子节点，故在前向二叉树中“抗生素”是“阿奇霉素”的左孩子节点；由于“杀菌剂”是“抗生素”的相邻兄弟节点，故在前向二叉树中“杀菌剂”是“抗生素”的右孩子节点。步骤三，对于步骤三得到的每棵二叉树T，根据二叉树为输入句子中的每个词生成预定义标签。每个词的标签包含T中四个部分的信息：词在实体中的位置；词所在节点父节点所连边的信息（左孩子/右孩子，实体1/实体2）；词所在节点与左孩子所连边信息（实体1/实体2）；词所在节点与右孩子所连边信息（实体1/实体2）。各种信息的表示方法为：词在实体中的位置按照“BIES”（Begin，Inside，End，Single）的模式表示；左孩子用“L”表示，右孩子用“R”表示；实体1为三元组中第一个实体，用“1”表示；实体2为三元组中第二个实体，用“2”表示；“O”表示不属于任何三元组的词；“NULL”表示该词所在节点无相应的孩子节点；“Root”表示该词所在节点在二叉树中为根节点。例如在本实施例中，基于前向二叉树，词“生”前向标注四部分的由来为：“生”在实体“抗生素”的中间位置，故部分1的标签为“B”；“抗生素”是其父节点“阿奇霉素”的左子树，且为第二个实体（由箭头方向指示），故部分2的标签为“（L，2）”；“抗生素”无左孩子节点，故部分3的标签为“NULL”；“抗生素”存在右孩子节点，且为第一个实体，故部分4的标签为“1”，具体见图4。

在一个实施例中，所述全监督模块中编码器采用BERT编码器，解码器采用Bi-LSTM层和多个全连接层，所述S31具体包括以下子步骤：

S311：待预测文本中每个词通过BERT编码器编码映射为对应的向量表示矩阵V；优选的，为所述待预测文本中每个词添加词性信息，具体的，待预测文本中的某个词通过BERT编码器编码映射为对应的向量表示/>，/>包含了字符/>，则/>的向量表示为：

其中，表示输入文本/>经过BERT编码器后第/>个词的向量表示；/>表示可学习的字符级嵌入矩阵，而/>表示字符/>的向量表示；/>表示可学习的词性嵌入矩阵，而/>表示/>的词性向量表示；

S313：将待预测文本整体隐层向量矩阵H输入到多个全连接层中，分别得出每个词对应到每个标签各个部分的概率，得到待预测文本中的每个词的标注序列。

在一个实施例中，全监督模块训练阶段使用的训练集文本是基于双向树型标注序列的标注方法对所述全监督模块的训练集样本进行标注，得到文本的标注标签进行人工校验，作为训练集标注序列。标注序列信息包括含前后二叉树中节点四个部分的信息、词长度、关系类型。全监督模块训练阶段生成的预测标注序列和人工校验的标注序列（或标签）进行比对，生成损失函数，优化模型，得到训练好的全监督模块。

全监督模块是一个为输入待预测文本预测某个预定义关系类型的双向树型标注序列的神经网络模型。本模块能够准确高效地从输入的待预测文本中识别出训练集中包含的标注序列。结合图5的神经网络结构图，全监督模块的具体步骤为：

步骤一，将输入文本中的每个词通过预训练好的编码层映射为对应的向量表示矩阵，输入句子长度统一为预先定义好的n，对于长度小于n的句子使用填充词进行补充，对于长度大于n的句子则对其进行截断操作。需要注意的是，由于医学文本数据存在着通用词典不包含的专有名词，本发明基于若干大型词典（如中文的全医药学大辞典和英文的韦氏医学词典）对BERT编码器的嵌入层进行扩展，以实现对医学专有名词的编码。此外，考虑到关系三元组中的实体多为名词，本模块使用SpaCy工具为输入文本的各个词添加词性信息。具体来说，对于输入文本中的某个词/>，记/>包含了字符/>，则/>的向量表示如下：

步骤二，将每个词的向量表示输入到Bi-LSTM层中，得到句子的前向隐层向量和后向隐层向量，并将它们合并为整体隐层向量。对于句子中第个词，其经过Bi-LSTM层后得到隐层向量/>的计算公式为：

其中表示一个LSTM单元的运算；/>和/>由第一个式子算出，分别表示第/>个词的前向隐层向量和后向隐层向量。之后，将基于Bi-LSTM层得到的句子隐状态矩阵/>输入到多个全连接层中，进行softmax操作后分别得出每个词对应到每个标签各个部分（本发明将双向树型标注序列分为8个部分，即前向序列的4个部分和后向序列的四个部分）的概率（一个部分对应一个全连接层）。

步骤三，对于训练阶段，模型计算每个训练批次的含偏置权重的交叉熵损失函数，通过反向传播更新网络参数。每种关系类型损失函数的计算方式都相同，总体的损失是每种关系类型损失函数的和。需要注意的是，由于与关系三元组相关的标签在标注序列中是稀疏的，本模块为“O”标签和其他标签的交叉熵损失进行加权操作，以加强模型训练时对关系相关标签的关注度。形式化地说，对于一个训练样本，其序列标注中部分的交叉熵损失如下：

其中，表示文本长度；/>表示词/>在部分/>的标注；而/>为一个二值函数，当输入标注为“O”时取1，否则取0；/>和/>分别表示文本中第/>个词在部分/>的真实标签和预测标签概率；/>为平衡非“O”标签和“O”标签的权重。对于预测阶段，模型基于步骤二中每个词对应到每个标签8个部分的概率，得到每个词概率最大的双向树型标注，并最终生成标注序列，并在后处理模块中进行关系三元组的提取。

在一个实施例中，所述S32具体包括以下子步骤：

在一个实施例中，所述S32具体还包括以下子步骤：

S325：采用步骤S322所得隐向量对少量对应关系的标注样本中的原型向量进行更新，具体为：对属于同一标签的词隐向量计算平均表示，并用原始原型向量与该平均表示加权求和得到更新后的原型向量；若少量对应关系的标注文本中没有属于某个标签的词，则采用更新后的原型向量与待预测文本的隐向量进行欧氏距离的计算；

在一个实施例中，小样本模块训练阶段训练集中的输入文本和标注样本是基于双向树型标注序列的标注方法对所述训练集样本进行标注，得到文本的标注标签进行人工校验，作为训练集标注序列。标注序列信息包括含前后二叉树中节点四个部分的信息、词长度、关系类型。小样本模块训练阶段生成的预测标注序列和人工校验的标注序列（或标签）进行比对，生成损失函数，优化模型，得到训练好的小样本。

在一个具体实施例中，结合图6的流程图，S32的具体步骤为：

步骤一，对于未定义的关系类型，本模块自动调用词典接口对其释义进行查询，并从中提取一个简洁明了的关系描述。将关系描述分别与输入文本和少量标注样本（本文假定标注样本数为1，样本的文本词数为）中的文本组合后输入BERT编码器中，得到输入文本和标注文本中每个词的隐向量。在某个样本中，输入文本/>对应于特定关系描述/>的嵌入矩阵/>的计算过程如下式：

其中，表示BERT编码器，/>和/>为特殊词，分别表示输入编码器的起始词和两段文本的连接词。

步骤二，双向树型标注序列的长度为，且每个长度为/>的部分包含了不同信息，于是本模块针对序列标注的8个不同部分分别进行处理。对于双向树型标注的每个部分，本模块将步骤一所得隐向量输入对应着该标注部分的线性变换层，得到每个词对应着每个部分标注的隐向量。具体来说，记序列标注/>中第/>部分的第/>个位置为/>，则/>所对应的隐状态/>由下式得到：

其中，和/>分别表示线性变换操作的权重矩阵和偏置向量，/>表示文本/>中第/>个词的嵌入向量。该步骤得到的输入文本和标注文本的隐向量能够输入步骤三进行距离矩阵计算，且标注文本的隐向量能够输入步骤四进行标签原型向量的更新。

步骤三，对于步骤二所得的输入文本每个标注序列部分的隐向量，本模块将其与标注文本中对应部分的每个词位置的隐向量进行欧氏距离的计算，最终得到一个维度为的距离矩阵。其中/>为输入文本的词数，/>为标注文本的词数。具体来说，对于输入文本标注序列的第/>部分，距离矩阵/>的计算方式为：

其中，表示对两个隐状态向量矩阵的逐向量计算欧氏距离的操作，/>和/>分别表示输入文本/>与标注文本/>分别经过BERT编码器和部分/>对应的线性变换层后输出的隐状态矩阵。该距离矩阵被输入步骤五进行最小化操作。

步骤四，采用步骤二所得的对应某个部分的词隐向量对标签原型向量进行更新。由于标注文本的标注序列可能无法包含所有的标签，如在图3的句子实例中，文本最终得到的部分1的标注序列包含了B、I、E、O四个标签，但不包含S标签。于是，本模块为这五个标签分别随机初始化了一个原型向量，并在获得标注样本的词隐向量时对其进行更新，以辅助步骤五的操作。更新的策略为：对属于同一标签的词隐向量计算平均表示，并用原始原型向量与该平均表示加权求和得到新的原型向量。具体来说，在某次训练迭代中，对于标注序列部分/>中的某个标签/>，其原型向量/>的更新方式为：

其中，为更新中新信息加入的权重，而/>则是历史信息的保留权重；/>表示上一轮训练迭代时/>的原型向量；/>表示在部分/>中标签为/>的词序号集合，/>表示该集合的大小；/>则表示标注文本/>经过BERT编码器和部分/>对应的线性变换层后第/>个词位置的隐状态向量。

步骤五，对于输入文本中的每个词，在步骤三所得的每个序列标注部分对应的距离矩阵中找到与每个标签的最近距离。若标注文本中没有属于某个标签的词，则采用步骤四所得的该标签原型向量与该输入文本词的欧氏距离作为最近距离。对于输入文本的某个标注位置，其与标签/>的最近距离记为/> 。于是，在训练阶段，本模块采用交叉熵损失缩小词与真实标注的距离，增大词与错误标注的距离，部分/>的损失函数如下式所示：

其中，表示标注序列部分/>的标签集合，而/>为该集合的大小；/>表示训练阶段标注位置/>的真实标签的独热编码表示，而/>为该表示在标签/>处的取值（0或1）。在预测阶段，本模块选取与该词距离最小的标签作为该词的标签，并最终生成标注序列。具体地说，对于输入文本的某个标注位置/>，其最终标注/>的预测可由下式形式化定义：

最终，本模块为输入文本匹配得到某个未定义关系类型相关的最优标注序列，并在后处理模块中进行关系三元组的提取。

在一个实施例中，所述S4具体包括以下子步骤：

S41: 基于所述待预测文本中的每个词的标注序列得到每个词的标签，对于每种关系类型，根据词的标签进行匹配组合，构建出预测文本实体的前、后向二叉树；

S42: 得到的前、后向二叉树依据“左孩子右兄弟”表示法的逆向思想还原为前、后向生成森林，然后分别遍历前、后向生成森林得到前、后向三元组集合。所述三元组集合为实体、实体间关系的三元组集合。

在一个具体实施例中，S4的具体步骤为：

步骤一，对于每种关系类型，根据词的标签进行匹配组合，构建出关系二叉树。对于前向标签，模块首先根据标签部分1是否为“Root”找到二叉树的根节点，然后基于从根开始递归地匹配当前节点标签部分3和部分4与未加入森林的节点标签部分2，若匹配成功，则将新节点加入树中，否则继续进行下一个寻找操作。节点的匹配需要考虑关系二叉树中父子间的左右匹配关系及三元组实体的位置关系，如下表1所示。

表1

只有4种当前节点标签和匹配节点标签的组合能够进行成功的匹配。若当前节点能够匹配超过1个节点，则优先挑选在句中位于当前节点之后的最近匹配节点加入树中。对于后向标签的操作与前向标签基本相同，不同的是：若当前节点能够匹配超过1个节点，则优先挑选在句中位于当前节点之前的最近匹配节点加入树中。

步骤二，将步骤一得到的前、后向二叉树依据“左孩子右兄弟”表示法的逆向思想还原为前、后向生成森林，然后分别遍历前、后向生成森林得到前、后向三元组集合。对前向三元组集合和后向三元组集合进行并集操作，得到某种关系类型的三元组集合。最后，对所有关系类型的三元组集合进行并集操作，得到最后的三元组集合。

通过这个基于双向树型标注方法的实体关系联合抽取系统，便可以准确高效地抽取出文本中的预定义和未定义关系类型的实体关系三元组。当前，本系统基于若干公开的通用领域数据集和医学领域数据集进行迭代训练，并应用于医疗数据库、药品说明书和医疗信息网站的半结构化和非结构化数据的实体关系联合抽取任务。

在一个具体实施例中，采用本申请提供的方法及系统基于若干公开的通用领域数据集和医学领域数据集进行迭代训练，并应用于医疗数据库、药品说明书和医疗信息网站的半结构化和非结构化数据的实体关系联合抽取任务。图8展示了本系统对医疗文本进行关系抽取的部分样例。表2展示了本申请提供的方法及系统在八个规模较大的医学知识图谱的实体关系统计数据，结果显示采用本申请提供的方法能够有效的提取实体及实体关系。此外，采用本申请提供的方法及系统在不同来源的医疗文本上的关系抽取结果被分别构建为不同模式的医学知识图谱，医学知识图谱被存储于Neo4j图数据库中，图9是基于本申请生成的一个Neo4j图数据库的部分数据展示样例。

表2 八个规模较大的医学知识图谱的实体关系统计数据

图2是本发明实施例提供的一种基于双向树型标注方法的实体关系联合抽取系统，包括：

获取模块，用于获取待预测文本；

进一步，所述系统还包括预处理模块，用于基于训练文本中的关系三元组标注为训练文本生成双向树型标注序列。

所述预处理模块的的主要内容为全监督模块和/或小样本模块模型训练时对训练样本中进行序列标注为训练文本生成双向树型标注序列。

所述全监督模块的主要内容是一个为输入待预测文本预测某个预定义关系类型的双向树型标注序列的神经网络模型。本模块能够准确高效地从输入的待预测文本中识别出训练集中包含的标注序列。

所述小样本模块的主要内容是一个为输入的待预测文本预测某个未定义关系类型的双向树型标注序列的神经网络模型。本模块在通用领域关系抽取数据集或某些医学领域数据集上训练后便能够将其中的关系抽取通用知识迁移至未定义关系类型的关系抽取任务，借助若干标注样本便可实现针对新关系类型的标注序列，无需额外构建该未定义关系类型的大型已标注或无标注训练数据集。

所述后处理模块的主要内容是将全监督模块或小样本模块的标注序列进行解码，重构文本中的关系结构图，完成三元组的抽取。

一种基于双向树型标注方法的实体关系联合抽取系统，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于双向树型标注方法的实体关系联合抽取方法步骤。

图3是本发明实施例提供的一种基于双向树型标注方法的实体关系联合抽取预测设备，包括：存储器和处理器；所述存储器用于存储程序指令；所述处理器用于调用程序指令，当程序指令被执行时实现上述的基于双向树型标注方法的实体关系联合抽取方法步骤。

本发明的一个目的在于提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于双向树型标注方法的实体关系联合抽取方法步骤。

本验证实施例的验证结果表明，为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种计算机设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于双向树型标注方法的实体关系联合抽取方法，其特征在于，所述方法步骤包括：

S1：获取待预测文本；

S2：将所述待预测文本中的关系与预定义关系类型集合匹配，所述预定义关系类型集合是基于训练文本生成双向树型标注序列中的关系类型的集合，具体包括以下子步骤：

S23：树-标注，根据所述步骤S22中得到的二叉树为所述训练文本中的每个词生成标签，得到训练文本生成双向树型标注序列，所述标注序列中的关系类型为预定义关系类型集合，具体的，每个词的标签包含二叉树中节点四个部分的信息：词在实体中的位置；词所在节点与父节点所连边信息；词所在节点与左孩子所连边信息；词所在节点与右孩子所连边信息；

S31：当匹配结果为是时，将所述待预测文本输入全监督模块中，所述全监督模块将输入的待预测文本中每个词通过编码器编码为词向量，再通过解码器生成每个词对应的预定义标签的概率分布，得到待预测文本中的每个词的标注序列；为所述待预测文本中每个词添加词性信息，具体的，待预测文本中的某个词通过BERT编码器编码映射为对应的向量表示/>，/>包含了字符/>，则/>的向量表示为：

S32：当匹配结果为否时，将所述待预测文本和少量对应关系的标注样本分别输入编码器中，得到每个词的词向量，计算输入的待预测文本和所述标注样本中词向量的距离，距离最小的标注样本词的标注作为待预测文本中的每个词的标注序列；具体包括以下子步骤：

S322：对于双向树型标注的每个部分分别进行处理，将S321所得隐向量输入对应着标注部分的线性变换层，得到每个词对应着每个部分标注序列的隐向量；

S324：距离最小的标注样本词的标注作为待预测文本中的每个词的标注序列；

S4：基于所述待预测文本中的每个词的标注序列还原出待预测文本的关系结构图，并抽取关系结构图中的三元组集合；具体包括以下子步骤：

2.根据权利要求1所述的基于双向树型标注方法的实体关系联合抽取方法，其特征在于，所述全监督模块中编码器采用BERT编码器，解码器采用Bi-LSTM层和多个全连接层，所述S31具体包括以下子步骤：

S311：待预测文本中每个词通过BERT编码器编码映射为对应的向量表示矩阵V；

3.根据权利要求1所述的基于双向树型标注方法的实体关系联合抽取方法，其特征在于，采用步骤S322所得隐向量对少量对应关系的标注样本中的原型向量进行更新，具体为：对属于同一标签的词隐向量计算平均表示，并用原始原型向量与该平均表示加权求和得到更新后的原型向量。

4.一种基于双向树型标注方法的实体关系联合抽取系统，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-3任意一项所述的基于双向树型标注方法的实体关系联合抽取方法步骤。

5.一种基于双向树型标注方法的实体关系联合抽取设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用程序指令，当程序指令被执行时实现权利要求1-3任意一项所述的基于双向树型标注方法的实体关系联合抽取方法步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-3任意一项所述的基于双向树型标注方法的实体关系联合抽取方法步骤。