CN114861663A

CN114861663A - 一种实体关系联合抽取方法

Info

Publication number: CN114861663A
Application number: CN202210388465.3A
Authority: CN
Inventors: 涂俊雄; 高阳; 方建文
Original assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Current assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-08-05

Abstract

本发明提出了一种实体关系联合抽取方法，属于人工智能和医疗电子信息技术的交叉技术领域。通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取，生成结构化结果报告。该发明提高了医务人员解读非结构化文本病历、报告的效率，通过解决信息抽取过程中不能同时进行实体命名识别以及关系抽取的痛点问题，帮助进行高级医疗决策支持。

Description

一种实体关系联合抽取方法

技术领域

本发明涉及人工智能和医疗电子信息技术的交叉技术领域，特别涉及一种实体关系联合抽取方法。

背景技术

随着医疗健康服务不断朝着智能化方向发展，机器学习在医疗领域的应用开始成为人工智能时代的研究热点之一。非结构化医疗文档是放射科医生对影像表现的描述与总结，蕴含大量对病灶的描述。从非结构化医疗文本中提取这些重要信息，能够更好地服务于临床决策、数据挖掘等各类临床信息系统，从而减轻专业医师的工作量。

目前计算机难以从这些不规则的非结构化医疗文本数据中直接提取有价值的信息，从而无法利用ElasticSearch等搜索引擎进一步对数据进行挖掘分析。因此，如何从医学影像报告中自动、高效地提取所需信息，形成结构化的数据，并建立文本描述和影像病灶的关联，是目前智能医疗服务进程中的重要挑战之一。

发明内容

发明目的：提出一种实体关系联合抽取方法，以解决现有技术存在的上述问题。通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取，生成结构化结果报告。不仅提高了医务人员解读非结构化文本病历、报告的效率，还通过解决信息抽取过程中不能和关系进行联合抽取的痛点问题，帮助进行高级医疗决策支持。

技术方案：第一方面，提出了一种实体关系联合抽取方法，该方法具体包括以下步骤：

S1、确定需要进行关系分类与命名实体识别任务的非结构化医疗文本，并分割为训练集文本和测试集文本；

S2、通过训练集文本对命名实体与关系联合抽取框架模型进行训练，从而得到优化；

S3、将测试集文本作为命名实体与关系联合抽取框架模型的输入，送入训练优化后的命名实体与关系联合抽取框架模型中进行计算得出测试集文本的实体识别以及关系分类结果。

其中，步骤S2.1还包括：

S2.1、通过训练集寻找潜在的实体集合

；

S2.2、确定实体集合

中各个实体的类型；

S2.3、确定实体对集合

以及其代表的关系类型；

S2.4、对命名实体与关系联合抽取框架模型进行优化。

在第一方面的一些可实现方式中，步骤S2.1具体包括以下步骤：

S2.1.1、将训练集文本作为输入，输入到命名实体与关系联合抽取框架模型中；过预训练模型BERT对原始输入序列

进行计算，获得文本中的隐特征向量序列

，以及句特征向量cls；并通过两个不同的Sigmoid分类器对每个token进行二分类，得到序列中每个位置分别对应头token与尾token分类标注结果的条件概率

和

，其中分类器计算结果大于0.5的被分为1，小于等于0.5的被分类为0；相关表达式为：

式中，

与

一一对应，

表示

的嵌入向量，表示

的嵌入向量，

表示为

的嵌入向量；

表示文本中所有位置对应的隐特征向量，其中任意一个位置的隐特征向量为

；条件概率表达式中分母部分的e是指自然常数；

表示头token分类的线性变换矩阵；

表示尾token分类的线性变换矩阵；

步骤S2.1.2、根据边界预测模块输出的表示每个token是头token的二分类结果以及表示一个尾token的二分类结果，进一步确定潜在的实体集合

。通过将所有头token分类为1的token以及所有尾token分类为1的token两两组合，将所有组合中尾token位置小于头token位置的组合筛除，并将所有组合中两个token位置所包围的span所代表的实体加入同一个集合，得到最终的

。

在第一方面的一些可实现方式中，步骤S2.2的具体内容为：

S2.2.1、对于实体集合

中的每个实体

，从上下文特征序列

中提取出其Span中所有token对应的特征序列

，对实体特征序列进行MaxPooling操作，然后通过与句特征向量cls进行Concat操作，得到实体分类器输入的特征向量

，最后通过Softmax分类器计算得到每个Span所代表的实体属于第k类实体标签的条件概率

：

式中

表示实体

所代表span中每个token的隐特征向量；

表示第k类实体类别的线性变换向量。

S2.2.2、根据条件概念

，将条件概率结果最大的类别作为该实体的最终类别。

在第一方面的一些可实现方式中，S2.3的具体内容为：

S2.3.1、将实体集合

中的实体两两配对，每对实体中头token位置更小的实体被称为左实体，头token位置更大的实体被称为右实体，如果左实体与右实体存在重叠部分，则将该实体对丢弃，剩下的实体对构成实体配对集合

。

S2.3.2、每个实体配对集合

中的实体配对

两个实体之间的token序列构成了该实体对的上下文序列

，其对应的隐特征序列为

，对以上隐特征序列进行MaxPooling操作，得到了该实体对的上下文特征

；表达式为：

式中，

表示在原始文本序列中位于实体对

的左实体与右实体中间的token序列；

中每个特征向量与

中的每个token一一对应。

S2.3.3、以实体配对集合

中的每个实体对的左实体特征向量

以及右实体特征向量

，以及其对应的上下文特征

作为输入送入到实体关系识别框架模型的关系预测模块中，通过Concat操作将

、

和

三者进行连接，然后将Concat后的结果输入到Softmax关系分类器当中，得到该特征向量对应不同关系类型的条件概率

，表达式为：

式中，

表示实体对

中左实体在步骤S2.4中得到的特征向量；

表示实体对

中右实体在步骤S2.4中得到的特征向量。

S2.3.4、根据确定的真实实体标注序列以及关系分类、推理得到的实体分类结果以及推理得到的关系分类结果计算模型推理的损失

；其表达式为：

式中，

与

代表二元交叉熵损失；

与

代表实体分类与关系分类过程中产生的交叉熵损失；N代表文本序列S的长度，k代表实体种类数量，r代表关系种类数量；

代表真实的第i类标签类别在所有类别中的占比；

代表推理得到的第i类别标签在所有标签的占比；

S2.3.5、基于模型的损失

，通过反向传播更新模型参数；

S2.3.6、重复步骤现有步骤，对模型进行多轮训练并保留多轮训练后的最优模型并保存。

在第一方面的一些可实现方式中，训练集文本与测试集文本的数量比例为：4:1。

有益效果：本发明提出了一种实体关系联合抽取方法，通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取，生成结构化结果报告，提高了医务人员解读非结构化文本病历、报告的效率，通过解决信息抽取过程中不能和关系进行联合抽取的痛点问题，帮助进行高级医疗决策支持。

同时，本申请方案可以计算文本中各单词的的标识信息，以此寻找到文本内容中的潜在实体，还可以通过一系列的公式计算求得各实体的所述实体类型，因此本申请可以提供更加准确、丰富的实体识别信息。

另一方面，本申请方案可以通过计算边界预测模块的损失

以及

和实体分类模块的损失

，还有关系分类模块的损失

，最后求和作为整个命名实体与关系联合抽取框架模型的损失，以此进行优化，进而使对实体的识别更加准确。

附图说明

图1为本发明对文本实体进行识别的整体流程示意图。

图2为本发明命名实体与关系联合抽取框架模型进行实体识别的流程示意图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

在一个实施例中，提出一种实体关系联合抽取方法，该方法具体包括以下步骤：

步骤1、确定进行命名实体识别和关系分类任务的非结构化医疗文本，并按4:1的比例进行分割，构建训练集文本和测试集文本；

步骤2、构建命名实体与关系联合抽取框架模型；

步骤3、采用参数优化的方式，对框架模型进行训练；

步骤4、采用训练好的框架模型进行实体关系联合抽取分析，获取测试集文本的实体识别以及关系分类结果。

其中，步骤4的分析过程具体包括：

步骤4.1、加载训练阶段记录的命名实体与关系联合抽取框架模型；

步骤4.2、命名实体与关系联合抽取框架模型接收测试集文本；

步骤4.3、分析测试集文本，并将测试集中分类概率超过阈值的实体作为分析结果进行输出。

在进一步的实施例中，步骤2中构建命名实体与关系联合抽取框架模型的具体步骤如下：

步骤2.1、构建内容输入模块；

具体的，该模块用于确定命名实体类型，对非结构化医疗文本进行0-1形式的头token以及尾token的序列标注，并确定输入文本最大长度等其他特殊约束；其次，针对中文词表中所有的字，基于在大规模数据集上进行预训练的BERT模型进行字向量采集，采集的字向量以文件形式进行存储；同时用于对标注文本内容进行字向量映射，并将其作为本模块内容进行输出。

步骤2.2、构建边界预测模块；

具体的，该模块首先初始化一个BERT模型作为特征提取网络，随后初始化两个Sigmoid及其线性变换矩阵，用于接收本模块BERT模型的输出，并输出句子中每个Token的序列标注类型。

步骤2.3、构建实体分类模块；

具体的，该模块用于初始化一个Softmax及其线性变换矩阵用于接收目标实体的特征，并计算该目标实体属于当前实体类型的概率。

步骤2.4、构建关系分类模块；

具体的，该模块用于初始化一个Softmax及其线性变换矩阵用于接收目标实体对的特征，并计算该目标实体对属于当前关系类型的概率。

步骤2.5、整合构建好的功能模块，获取最终的命名实体与关系联合抽取框架模型；

具体的，针对内容输入模块与边界预测模块，两者通过内容输入模块输出的嵌入向量序列

相连结；对于边界预测模块与实体分类模块，两者通过边界预测模块的输出的潜在实体集合

相连结，即作为边界预测模块输出的每个实体及其Span对应的隐特征向量序列

，作为实体分类模块的输入将两个模块进行组合；对于实体分类模块与关系分类模块，两者通过实体分类模块输出的潜在实体对集合

相连结，

中每个实体对对应的三个隐向量

、

和

作为关系分类模块输入的一部分，将两个模块进行组合。

在进一步的实施例中，为了提高模型的分析性能，步骤3中采用优化模型参数的方式对其进行性能训练，具体步骤如下：

步骤3.1、基于划分好的训练集文本，将其作为输入数据传输至命名实体与关系联合抽取框架模型中。

具体的，训练集文本包括：原始文本序列

、原始文本中的实体集合

和关系集合

；其中

表示文本中的各个单词，也即文本中的各个token。

表示各个实体，以及对应实体所在的位置信息，即

中的任意一个实体

，其包含有一个二元组

；

表示第i个实体

的开始位置，

表示第i个实体

的结束位置，该二元组被称为span，第i个实体对应的实体span即为

；表示文本中存在的关系，每个关系包含存在关联的两个实体及其关系类型。

步骤3.2、命名实体与关系联合抽取框架模型中的内容输入模块接收训练集文本，并将原始文本序列

映射为原始输入序列

，同时根据文本中的实体集合

对文本中的实体进行两次0-1形式标注。其中，

与

一一对应，

表示

的嵌入向量，

表示

的嵌入向量，

表示为

的嵌入向量。

具体的，第一次标注头实体位置，如果第i个位置的token是某个实体的第一个token，则将该位置标注为1，反之，将其标注为0，按照预设的标注需求对原始文本序列S进行标注，从而获得0-1标注序列

，使得每个实体中的每个单词均具有对应的标识。第二次标注尾实体位置，如果第i个位置的token是某个实体的结尾，则将该位置标注为1，反之，将其标注为0，按照预设的标注需求，对原始文本序列S进行标注，从而获得0-1的标注序列

，其表示为：

，使得每个实体中的每个单词均有对应的标识。表达式中，

表示每个实体中各个单词经过头token标注后的标签信息，取值为0或1；

表示每个实体中各个单词经过尾token标注后的标签信息，取值为0或1。

步骤3.3、命名实体与关系联合抽取框架模型中的边界预测模块接收原始输入序列

，通过预训练模型BERT计算输出文本中隐特征向量序列

以及句特征向量cls，完后通过两个不同的Sigmoid分类器对每个token进行二分类，得到序列中每个位置分别对应头token与尾token分类标注结果的条件概率

以及

，其中分类器计算结果大于0.5的被分为1，小于等于0.5的被分类为0。对应数据获取的表达式为：

式中，

表示头token分类的线性变换矩阵；

表示尾token分类的线性变换矩阵。

步骤3.4、根据边界预测模块输出的表示每个token是头token的二分类结果以及表示一个尾token的二分类结果，进一步确定潜在的实体集合

。

具体的，将所有头token分类为1的token以及所有尾token分类为1的token两两组合，将所有组合中尾token位置小于头token位置的组合筛除，并将所有组合中两个token位置所包围的span所代表的实体加入同一个集合，得到最终的

。

步骤3.5、对于实体集合

中的每个实体

，从上下文特征序列

中提取出其Span中所有token对应的特征序列

，对实体特征序列进行MaxPooling操作，然后通过与句特征向量cls进行Concat操作，得到实体分类器输入的特征向量

，表达式为：

式中

表示实体

所代表span中每个token的隐特征向量；

表示第k类实体类别的线性变换向量；

步骤3.6、根据条件概念

，将条件概率结果最大的类别作为该实体的最终类别。

步骤3.7、将实体集合

。

步骤3.8、每个实体配对集合

中的实体配对

两个实体之间的token序列构成了该实体对的上下文序列

，其对应的隐特征序列为

；

式中，

表示在原始文本序列中位于实体对

的左实体与右实体中间的token序列；

中每个特征向量与

中的每个token一一对应。

步骤3.9、以实体配对集合

中的每个实体对的左实体特征向量

以及右实体特征向量

，以及其对应的上下文特征

、

和

。

步骤3.10、利用条件概率

取条件概率结果最大的关系类别作为该实体对中两个实体的最终关系类别。

步骤3.11、根据步骤3.1、步骤3.2中确定的真实实体标注序列以及关系分类、步骤3.5中推理得到的实体分类结果以及步骤3.10中推理得到的关系分类结果计算模型推理的损失

；

具体的，

与

代表边界预测模块中的二元交叉熵损失，

与

代表实体分类与关系分类过程中产生的交叉熵损失，对应表达式为：

式中，N代表文本序列S的长度，k代表实体种类数量，r代表关系种类数量；

代表真实的第i类标签类别在所有类别中的占比；

代表推理得到的第i类别标签在所有标签的占比；

步骤3.12、基于模型的损失

，通过反向传播更新模型参数；

步骤3.13、重复上述步骤，对模型进行多轮训练并保留多轮训练后的最优模型并保存。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种实体关系联合抽取方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种实体关系联合抽取方法，其特征在于，所述训练集文本与测试集文本的数量比例为：4:1。

3.根据权利要求1所述的一种实体关系联合抽取方法，其特征在于，所述步骤S1划分的训练集文本包括：原始文本序列

、原始文本中的实体集合

和关系集合

；

其中，

表示文本中的各个单词；

表示各个实体，以及对应实体所在的位置信息；

表示文本中存在的关系，每个关系包含存在关联的两个实体及其关系类型。

4.根据权利要求3所述的一种实体关系联合抽取方法，其特征在于，所述步骤S1划分训练集文本和测试集文本后，还包括以下步骤：

步骤S1.1、将训练集文本作为输入，输入到命名实体与关系联合抽取框架模型中；

步骤S1.2、命名实体与关系联合抽取框架模型接收到训练集文本后，基于原始文本中的实体集合，采用两次0-1形式标注，对文本中的实体集合进行标注。

5.根据权利要求4所述的一种实体关系联合抽取方法，其特征在于，两次0-1形式标注包括：第一次标注和第二次标注；

所述第一次标注用于标注头实体位置，当第i个位置的token是某个实体的第一个token，那么该位置被标注为1；反之，标注为0，从而获得0-1标注序列

；

所述第二次标注用于标注尾实体位置，当第i个位置的token是某个实体的结尾，则将该位置标注为1，反之，将其标注为0，从而获得0-1标注序列

；

表达式中，

6.根据权利要求3所述的一种实体关系联合抽取方法，其特征在于，为提高命名实体与关系联合抽取框架模型的性能，步骤S2采用参数优化的方式，对框架模型进行训练；

进一步的，训练过程包括以下步骤：

步骤S2.1、命名实体与关系联合抽取框架模型接收训练集文本数据，并将原始文本序列

映射为原始输入序列

；式中，

与

一一对应，

表示

的嵌入向量，

表示

的嵌入向量，

表示为

的嵌入向量；

步骤S2.2、通过预训练模型BERT对原始输入序列

进行计算，获得文本中的隐特征向量序列

和

式中，

与

一一对应，

表示

的嵌入向量，

表示

的嵌入向量，

表示为

的嵌入向量；

；条件概率表达式中分母部分的e是指自然常数；

表示头token分类的线性变换矩阵；

表示尾token分类的线性变换矩阵；

步骤S2.3、输出表示每个token是头token的二分类结果，以及表示一个尾token的二分类结果，并确定潜在的实体集合

；

步骤S2.4、对于实体集合

中的每个实体

，从上下文特征序列

中提取出其Span中所有token对应的特征序列

：

式中

表示实体

所代表span中每个token的隐特征向量；

表示第k类实体类别的线性变换向量；

步骤S2.5、根据条件概念

，将条件概率结果最大的类别作为该实体的最终类别；

步骤S2.6、将实体集合

；

步骤S2.7、每个实体配对集合

中的实体配对

两个实体之间的token序列构成了该实体对的上下文序列

，其对应的隐特征序列为

；表达式为：

式中，

表示在原始文本序列中位于实体对

的左实体与右实体中间的token序列；

中每个特征向量与

中的每个token一一对应；

步骤S2.8、以实体配对集合

中的每个实体对的左实体特征向量

以及右实体特征向量

，以及其对应的上下文特征

、

和

，表达式为：

式中，

表示实体对

中左实体在步骤S2.4中得到的特征向量；

表示实体对

中右实体在步骤S2.4中得到的特征向量；

步骤S2.9、利用条件概率

取条件概率结果最大的关系类别作为该实体对中两个实体的最终关系类别；

步骤S2.10、根据步骤S2.1、步骤S2.2中确定的真实实体标注序列以及关系分类、步骤S2.5中推理得到的实体分类结果以及步骤S2.9中推理得到的关系分类结果计算模型推理的损失

；其表达式为：

式中，

与

代表二元交叉熵损失；

与

代表真实的第i类标签类别在所有类别中的占比；

代表推理得到的第i类别标签在所有标签的占比；

步骤S2.11、基于模型的损失

，通过反向传播更新模型参数；

步骤S2.12、重复步骤S2.1到步骤S2.11，对模型进行多轮训练并保留多轮训练后的最优模型并保存。

7.根据权利要求6所述的一种实体关系联合抽取方法，其特征在于，确定潜在的实体集合

的步骤具体为：

将步骤S2.2中所有头token分类为1的token以及所有尾token分类为1的token两两组合，将所有组合中尾token位置小于头token位置的组合筛除，并将所有组合中两个token位置所包围的span所代表的实体加入同一个集合，得到最终的

。