CN109710928B

CN109710928B - 非结构化文本的实体关系抽取方法及装置

Info

Publication number: CN109710928B
Application number: CN201811542904.1A
Authority: CN
Inventors: 席梦隆
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2022-08-19
Anticipated expiration: 2038-12-17
Also published as: CN109710928A

Abstract

本公开涉及一种非结构化文本的实体关系抽取方法及装置，该方法包括：对非结构化文本中的目标语句进行命名实体识别以确定所述目标语句中的命名实体，并获取所述目标语句包含的命名实体两两之间的关系类型；建立所述目标语句的完满二叉树；将所述完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量；根据所述关系类型和合成后的n维特征向量来训练模型；使用训练后的模型来抽取目标非结构化文本的关系类型，由此，无需依靠用户的经验，训练的模型更加合适，从而使得抽取的关系类型更加准确，另外，还能够使得分词对应的特征向量在网络中的计算和转化更加易于理解，增强了模型的效果，便于用户理解。

Description

非结构化文本的实体关系抽取方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种非结构化文本的实体关系抽取方法及装置。

背景技术

电子病历用于记录诸如病人诉求、检测结果、诊断信息、服用药物以及不良反应等的医疗信息。电子病历的实体关系可以用于诸如相似病历推荐、辅助推荐诊断等的医疗处理中。

相关技术中，用户需要根据经验总结特征工程，根据该特征工程训练各种分类模型，并且使用训练后的分类模型来抽取电子病历的实体关系。由于前述相关技术需要依靠用户的经验，因此局限性较大，并且如果用户总结的特征工程出错，则训练后的模型可能不合适，由此导致提取的实体关系不适当。

发明内容

有鉴于此，本公开提出了一种非结构化文本的实体关系抽取方法及装置。

根据本公开的一方面，提供了一种非结构化文本的实体关系抽取方法，所述方法包括：

对非结构化文本中的目标语句进行命名实体识别以确定所述目标语句中的命名实体，并获取所述目标语句包含的命名实体两两之间的关系类型；

建立所述目标语句的完满二叉树，所述完满二叉树的叶子节点中包括以组成所述命名实体的分词为值的叶子节点；

将所述完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量；

根据所述关系类型和合成后的n维特征向量来训练模型；

使用训练后的模型来抽取目标非结构化文本的关系类型。

根据本公开的另一方面，提供了一种非结构化文本的实体关系抽取装置，所述装置包括：

处理模块，用于对非结构化文本中的目标语句进行命名实体识别以确定所述目标语句中的命名实体，并获取所述目标语句包含的命名实体两两之间的关系类型；

建立模块，用于建立所述目标语句的完满二叉树，所述完满二叉树的叶子节点中包括以组成所述命名实体的分词为值的叶子节点；

合成模块，用于将所述完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量；

训练模块，用于根据所述关系类型和合成后的n维特征向量来训练模型；

抽取模块，用于使用训练后的模型来抽取目标非结构化文本的关系类型。

本公开的实施例提供的技术方案可以包括以下有益效果：获取非结构化文本的目标语句中的命名实体和命名实体两两之间的关系类型，建立该目标语句的完满二叉树并且将完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量，使用所获取的关系类型和合成后的n维特征向量来训练模型并且使用训练后的模型来抽取目标非结构化文本的关系类型，由此，无需依靠用户的经验，训练的模型更加合适，从而使得抽取的关系类型更加准确。

另外，相比于现有技术直接使用所有叶子节点对应的特征向量来训练模型，本实施例将所有叶子节点对应的特征向量合成为一个总的特征向量、并使用该总的特征向量来训练模型，由此能够使得分词对应的特征向量在网络中的计算和转化更加易于理解，增强了模型的效果，便于用户理解。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1是根据一示例性实施例示出的一种非结构化文本的实体关系抽取方法的流程图。

图2是根据一示例性实施例示出的一种电子病历的实体关系的手工标注结果示意图。

图3是根据图2所示的语句所建立的句法树。

图4是图3所示的句法树转换得到的完满二叉树。

图5是根据一示例性实施例示出的一种非结构化文本的实体关系抽取装置的框图。

图6是根据一示例性实施例示出的一种用于非结构化文本的实体关系抽取的装置的硬件结构框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1是根据一示例性实施例示出的一种非结构化文本的实体关系抽取方法的流程图。如图1所示，该抽取方法可以包括如下步骤。

在步骤S110中，对非结构化文本中的目标语句进行命名实体识别以确定目标语句中的命名实体，并获取目标语句包含的命名实体两两之间的关系类型。

本实施例中，非结构化文本是不方便用数据库二维逻辑来表现的任何数据，换言之，非结构化文本是无组织地驻留于数据库外部的任何数据，其包括但不限于文本、音频、图像/图形和视频等。为便于说明，本实施例以电子病历为例进行说明。

电子病历由多条语句组成，每条语句由多个分词组成。多个分词中的类型属于特定类型的分词组成的短语为命名实体，该特定类型为电子病历的命名实体的类型，其包括但不限于治疗、症状、检查、疾病和疾病诊断。每条语句可以包括一个或多个实体关系。也就是说，实体关系以语句为单位。其中，每个实体关系对应一对命名实体。命名实体两两之间的关系类型可称为实体关系。表1示出与命名实体的类型对应的实体关系的类型。

表1电子病历的实体关系的类型

其中，上述表1中的“关系大类”表示不同类型的命名实体之间的关系，上述表1中的“关系小类”表示各关系大类的细分。示例性地，如上述表1所示，根据电子病历的命名实体的类型，将电子病历的实体关系划分为治疗与疾病的关系、治疗与症状的关系、检查与疾病的关系、检查与症状的关系、疾病和症状的关系、以及疾病与疾病诊断的关系这六大类，每一大类所包括的小类可以参见上述表1所示，在此不再赘述。

在一种实现方式中，可以通过条件随机场、有监督的机器学习、或无监督的机器学习等方式，对电子病历的目标语句进行命名实体识别以确定目标语句中的命名实体。

在确定目标语句中的命名实体之后，用户可以根据所确定的命名实体来查找上述表1，将与所确定的命名实体相对应的实体关系确定为该目标语句的关系类型，并且向该目标语句手工标注所确定的关系类型。图2是根据一示例性实施例示出的一种电子病历的实体关系的手工标注结果示意图。

示例性的，对于图2中的第一行语句“目前患者白细胞较低，给予升白细胞应用。”，该语句所包括的分词为“目前”、“患者”、“白细胞”、“较低”、“，”、“给予”、“升”、“白细胞”、“应用”以及“。”，其中，由于“白细胞”、“较低”以及“升”的类型均属于电子病历的命名实体的类型，因此分词“白细胞”和分词“较低”组成的短语“白细胞较低”为命名实体，并且分词“升”和分词“白细胞”组成的短语“升白细胞”为命名实体，根据一对命名实体“白细胞较低”和“升白细胞”查找表1可知，该语句的实体关系为TrAS，手工标注该语句的关系类型为TrAS。

在步骤S120中，建立所述目标语句的完满二叉树，所述完满二叉树的叶子节点中包括以组成所述命名实体的分词为值的叶子节点。

本实施例中，完满二叉树是所有非叶子节点的度都是2的二叉树，完满二叉树的根节点为步骤S110中所获取的关系类型，完满二叉树的所有非叶子节点为“-1”，完满二叉树的叶子节点包括步骤S110中所确定的所有命名实体。可选的，完满二叉树的叶子节点还可以包括语句中除步骤S110中所确定的未组成命名实体的一部分分词。其中，完满二叉树除了叶子节点以外，其它每个节点(包括非叶子节点和根节点)都有且仅有两个向下的分支(即，这些节点的度是2)。

在一种实现方式中，上述步骤S120可以包括：

对所述目标语句进行句法分析，建立所述目标语句对应的句法树；

保留所述句法树中与所述命名实体相关联的树结构；

将所述树结构转换为完满二叉树。

本实施例中，可以根据目标语句建立句法树；将所建立的句法树中与命名实体不相关的树结构剔除(即，剔除不包括命名实体的树结构)，仅保留与命名实体相关的树结构；将该树结构转换为完满二叉树。示例性的，可以通过句法分析工具对目标语句进行句法分析来建立目标语句对应的句法树，换言之，将目标语句输入句法分析工具，句法分析工具的输出即为目标语句对应的句法树。句法树的叶子节点以目标语句中的分词为值，并且句法树中的其它节点(即非叶子节点和根节点)为分词和短语的词性信息。句法树中位置最接近的至少两个分词组成一个短语，所组成的短语再与其它分词和/或短语组成整个语句。句法分析工具例如为Stanford Parser。

示例性的，可以将图2中的第一行语句输入至Stanford Parser，Stanford Parser的输出为图3所示的句法树。如图3所示，句法树中的叶子节点包括“目前”、“患者”、“白细胞”、“较低”、“，”、“给予”、“升”、“白细胞”、“应用”以及“。”。分词“目前”和“患者”组成短语A“目前患者”；分词“白细胞”和“较低”组成短语B“白细胞较低”；分词“升”、“白细胞”和“应用”组成短语C“升白细胞应用”；短语A和B再与分词“，”组成短语D“目前患者白细胞较低，”；分词“给予”与短语C组成短语E“给予升白细胞应用”；短语E与分词“。”组成短语F“给予升白细胞应用。”；短语D和F构成整个语句“目前患者白细胞较低，给予升白细胞应用。”。

可以通过现有的算法将句法树转换为完满二叉树。示例性的，可以剔除不包括所获取的命名实体的树结构，将包括三个以上的叶子节点的子树拆分为仅包括两个叶子节点的子树，并且将子树的根节点与剩余的叶子节点中的一个叶子节点组成一个子树，依此类推，直至每个子树仅有两个分支并且转换后的完满二叉树包括所获取的所有命名实体。

图4是由图3所示的句法树转换得到的完满二叉树。如图4所示，该完满二叉树的根节点为TrAS，并且每个子树仅有两个分支，叶子节点包括“白细胞”、“较低”、“，”、“给予”、“升”、“白细胞”、“应用”，其中“白细胞”、“较低”以及“升”为组成所获取的命名实体的分词。

在步骤S130中，将所述完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量。

本实施例中，可以将完满二叉树的所有叶子节点映射到同一个向量空间，使得每一个叶子节点具有对应的唯一的特征向量，其中所有叶子节点对应的特征向量的维度相同，均为n。按照完满二叉树自底向上递归地进行叶子节点对应的特征向量之间的合成，从而将所有叶子节点对应的特征向量合成为一个总的特征向量。该总的特征向量的维度与各叶子节点对应的特征向量的维度相同，也为n。

对特征向量进行合成所使用的合成公式如下：

其中，A和B初始为单位矩阵，W和W_M均为参数矩阵并且W，W_M∈R^n*2n。

在一种实现方式中，上述步骤S130可以包括：

按照所述完满二叉树的层自底向上，对每层中的属于一个子树的两个叶子节点各自对应的n维特征向量进行合成，以得到该子树的根节点对应的n维特征向量，直至将所述完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量。

以下以图4所示的完满二叉树为例进行说明。

根据图4中的完满二叉树中的短语“白细胞较低，”和“给予升白细胞应用”将该完满二叉树分为左侧和右侧。针对完满二叉树的左侧，其包含“白细胞”、“较低”以及“，”这三个叶子节点，并且将这三个叶子节点映射到同一个向量空间，得到“白细胞”、“较低”以及“，”这三个叶子节点分别对应的特征向量为维度均为n的向量a、向量b和向量c。

由于完满二叉树的左侧的最底层为叶子节点“白细胞”和“较低”，因此使用公式p₁＝f(Ba，Ab)，P₁＝f_M(A，B)对“白细胞”对应的向量a和“较低”对应的向量b进行合成，合成结果为向量p₁，向量p₁表示短语“白细胞较低”，并且向量p₁的维度也是n，因此向量p₁和向量a和b处于同一个向量空间。

由于完满二叉树的左侧的最底层的上一层为叶子节点“，”和非叶子节点“-1”，并且非叶子节点“-1”具有叶子节点“白细胞”和“较低”，因此使用公式p₂＝f(Cp₁，P₁c)，P₂＝f_M(P₁，C)对短语“白细胞较低”对应的向量p₁和“，”对应的向量c进行合成，合成结果为向量p₂，向量p₂表示短语“白细胞较低，”，并且向量p₂的维度也是n，因此向量p₂、p₁、a以及b处于同一个向量空间。

以下使用简单示例演示上述运算过程：

假设向量a、b和c均为3维向量，单位矩阵A、B和C均为3维单位矩阵，参数矩阵W和W_M均为3*6矩阵，并且a、b、c、A、B、C、W和W_M的取值分别如下所示：

因此，可以计算出：

假设g为非线性激活函数，例如g为tanh函数，则

同理，

因此，计算得到的向量p₂和p₁均为3维向量，由于向量a和b也均为3维向量，因此向量p₂和p₁与向量a和b处于同一个向量空间。

由此，针对图4中的完满二叉树的左侧的所有叶子节点，从该左侧自底向上递归地进行所有叶子节点对应的特征向量的合成，最终将左侧的所有叶子节点合成为向量p₂。

类似地，针对图4中的完满二叉树的右侧的所有叶子节点，从该右侧自底向上递归地进行所有叶子节点(“给予”、“升”、“白细胞”、“应用”)对应的特征向量的合成，最终将右侧的所有叶子节点合成为向量p₅，向量p₅表示短语“给予升白细胞应用”，并且向量p₅的维度也是n，因此向量p₅和p₂处于同一个向量空间。

使用上述公式对向量p₅和p₂进行合成，合成结果为p₆，p₆即为对完满二叉树的所有叶子节点各自对应的n维特征向量进行合成所得到的一个n维特征向量，p₆表示语句“白细胞较低，给予升白细胞应用”。

在步骤S140中，根据所述关系类型和合成后的n维特征向量来训练模型。

本实施例中，由于已经获取了关系类型，并且已经得到合成后的n维特征向量，因此将合成后的n维特征向量作为模型的输入并且将关系类型作为模型的输出来训练模型以调整模型的参数，直至将模型的参数调整为适当的值为止。

在步骤S150中，使用训练后的模型来抽取目标非结构化文本的关系类型。

本实施例中，由于步骤S140中已经训练好模型，因此可以使用步骤S140中训练好的模型来抽取目标非结构化文本(即，待抽取实体关系的非结构化文本)的关系类型。

在一种实现方式中，上述步骤S150可以包括：

通过对所述目标非结构化文本中的待抽取语句进行命名实体识别以确定所述待抽取语句中的命名实体；

建立所述待抽取语句的完满二叉树；

将所述待抽取语句的完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量，并将该n维特征向量输入至所述训练后的模型，所述训练后的模型所输出的结果为所述目标非结构化文本的关系类型。

本实施例的非结构化文本的实体关系抽取方法，获取非结构化文本的目标语句中的命名实体和命名实体两两之间的关系类型，建立该目标语句的完满二叉树并且将完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量，使用所获取的关系类型和合成后的n维特征向量来训练模型并且使用训练后的模型来抽取目标非结构化文本的关系类型，由此，无需依靠用户的经验，训练的模型更加合适，从而使得抽取的关系类型更加准确。

在一种实现方式中，上述抽取方法还包括：

获取所述目标语句包含的命名实体两两之间的距离；

根据所述距离和所述命名实体的类型构建3维特征向量；

向所述合成后的n维特征向量添加所述3维特征向量，得到(n+3)维特征向量，

上述步骤S140包括：根据所述关系类型以及所述(n+3)维特征向量来训练模型。

本实施例中，构建的3维特征向量包括两个命名实体在目标语句中的距离(即，命名实体两两之间的距离)、一个命名实体的类型对应的数值、另一个命名实体的类型对应的数值。其中，命名实体两两之间的距离表示两个命名实体之间存在的分词的数量，可以将命名实体的类型转化为离散的数值。

示例性的，假设命名实体“白细胞较低”和“升白细胞”之间存在“，”和“给予”这两个分词，则命名实体“白细胞较低”和“升白细胞”之间的距离为2，假设实体的类型包括治疗、症状、检查、疾病和疾病诊断这5类，则可以将这5个类型分别转化为离散值1、2、3、4、5，因此，构建的3维特征向量是[2，1，2]。对于(n+3)维特征向量，其前n维是p6，后3维是[2，1，2]。

相比于根据关系类型以及合成后的n维特征向量来训练模型，根据关系类型以及(n+3)维特征向量来训练模型能够更精确地调整模型的参数，从而使得抽取的关系类型更加准确。

图5是根据一示例性实施例示出的一种非结构化文本的实体关系抽取装置的框图。如图5所示，该装置可以包括处理模块510、建立模块520、合成模块530、训练模块540和抽取模块550。

处理模块510用于对非结构化文本中的目标语句进行命名实体识别以确定所述目标语句中的命名实体，并获取所述目标语句包含的命名实体两两之间的关系类型。

建立模块520与处理模块510连接，用于建立所述目标语句的完满二叉树，所述完满二叉树的叶子节点中包括以组成所述命名实体的分词为值的叶子节点。

合成模块530与建立模块520连接，用于将所述完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量。

训练模块540与处理模块510和合成模块530连接，用于根据所述关系类型和合成后的n维特征向量来训练模型；

抽取模块550与训练模块540连接，用于使用训练后的模型来抽取目标非结构化文本的关系类型。

在一种可能的实现方式中，所述合成模块530被配置为：

在一种可能的实现方式中，所述建立模块520被配置为：

保留所述句法树中与所述命名实体相关联的树结构；

将所述树结构转换为完满二叉树。

在一种可能的实现方式中，还包括：

获取模块(未示出)，用于获取所述目标语句包含的命名实体两两之间的距离；

构建模块(未示出)，用于根据所述距离和所述命名实体的类型构建3维特征向量；

添加模块(未示出)，用于向所述合成后的n维特征向量添加所述3维特征向量，得到(n+3)维特征向量，

所述训练模块540被配置为：

根据所述关系类型以及所述(n+3)维特征向量来训练模型。

在一种可能的实现方式中，所述抽取模块550被配置为：

建立所述待抽取语句的完满二叉树；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于非结构化文本的实体关系抽取的装置的硬件结构框图。参照图6，该装置900可包括处理器901、存储有机器可执行指令的机器可读存储介质902。处理器901与机器可读存储介质902可经由系统总线903通信。并且，处理器901通过读取机器可读存储介质902中与非结构化文本的实体关系抽取逻辑对应的机器可执行指令以执行上文所述的非结构化文本的实体关系抽取方法。

本文中提到的机器可读存储介质902可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种非结构化文本的实体关系抽取方法，其特征在于，所述方法包括：

根据所述关系类型和合成后的n维特征向量来训练模型；

使用训练后的模型来抽取目标非结构化文本的关系类型，

其中，将所述完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量，包括：

按照所述完满二叉树的层自底向上，对每层中的属于一个子树的两个叶子节点各自对应的n维特征向量进行合成，以得到该子树的根节点对应的n维特征向量，直至将所述完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量，

其中，使用训练后的模型来抽取目标非结构化文本的关系类型，包括：

建立所述待抽取语句的完满二叉树；

2.根据权利要求1所述的方法，其特征在于，建立所述目标语句的完满二叉树，包括：

保留所述句法树中与所述命名实体相关联的树结构；

将所述树结构转换为完满二叉树。

3.根据权利要求1或2所述的方法，其特征在于，还包括：

获取所述目标语句包含的命名实体两两之间的距离；

根据所述距离和所述命名实体的类型构建3维特征向量；

根据所述关系类型以及合成后的n维特征向量来训练模型，包括：

根据所述关系类型以及所述(n+3)维特征向量来训练模型。

4.一种非结构化文本的实体关系抽取装置，其特征在于，所述装置包括：

抽取模块，用于使用训练后的模型来抽取目标非结构化文本的关系类型，

其中，所述合成模块被配置为：

其中，所述抽取模块被配置为：

建立所述待抽取语句的完满二叉树；

5.根据权利要求4所述的装置，其特征在于，所述建立模块被配置为：

保留所述句法树中与所述命名实体相关联的树结构；

将所述树结构转换为完满二叉树。

6.根据权利要求4或5所述的装置，其特征在于，还包括：

获取模块，用于获取所述目标语句包含的命名实体两两之间的距离；

构建模块，用于根据所述距离和所述命名实体的类型构建3维特征向量；

添加模块，用于向所述合成后的n维特征向量添加所述3维特征向量，得到(n+3)维特征向量，

所述训练模块被配置为：

根据所述关系类型以及所述(n+3)维特征向量来训练模型。