CN117116408A

CN117116408A - 一种面向电子病历解析的关系抽取方法

Info

Publication number: CN117116408A
Application number: CN202311384445.XA
Authority: CN
Inventors: 黄文体; 何雨; 陈嘉懿; 尹卓英
Original assignee: Hunan University of Science and Technology
Current assignee: Hunan University of Science and Technology
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2023-11-24
Anticipated expiration: 2043-10-25
Also published as: CN117116408B

Abstract

本发明公开了一种面向电子病历解析的关系抽取方法，包括如下步骤：步骤S1，训练教师模型：分别将句子袋级数据和句子级数据输入教师模型进行训练，计算教师知识，采用反向传播方法训练教师模型，更新教师模型参数，完成教师模型的训练；步骤S2，训练学生模型：将句子级数据输入学生模型进行训练，采用反向传播方法和教师模型监督两种结合训练学生模型，更新学生模型参数，完成学生模型的训练；步骤S3，进行关系抽取：基于教师模型和学生模型构建多级知识蒸馏关系抽取模型，实现关系抽取。优点是，本发明采用句子级数据和句子袋级数据分别进行句级训练和袋级训练，并构建了多层级知识蒸馏监督获取教师知识，保证了教师知识的准确性和精确性。

Description

一种面向电子病历解析的关系抽取方法

技术领域

本发明涉及深度学习技术领域，具体涉及一种面向电子病历解析的关系抽取方法。

背景技术

随着医疗信息化、医疗智能化的不断发展，海量的医疗数据、医学知识被不断的积累和迭代，对医学数据的理解和利用越来越重要。电子病历档案是构建智慧医疗体系的重要基石，它记录了患者的诊断和治疗全过程信息（包括患者基本信息、病程记录、检验检查结果、手术记录、护理记录、医嘱等），能够显著提高医生之间的信息交换，让医生可以全面了解患者病史，而不仅是当次就诊时的快照式概述，从而做出快速准确的诊断。

知识图谱作为人类知识信息的一种智能化、结构化的存储与表示方式，具有表达能力强、拓展性好等特点，很快被引入到海量医疗数据的管理与应用中，并形成了一套完整的基于知识图谱的医疗大数据技术体系，即通过知识图谱构建技术整合多源异构的医疗数据，将复杂的非结构化医疗数据转换为结构化的知识形式存储在知识图谱的格式化框架中。

关系抽取作为医学知识图谱构建过程中的核心任务，需要通过实体识别和关系抽取两个子任务，将结构化或非结构化的医学知识转化为结构化的三元组形式，以方便计算机对知识进行理解和处理。然而，医疗文本往往呈现出实体描述性文本长度较长，语义结构复杂等特点，例如“hereditary nonpolyposis colorectal cancer syndrome（遗传性非息肉病结直肠癌综合症）”。为了准确表述医学实体之间的关系，常常使用复杂句式表示其含义。而目前的关系抽取方法难以解析并捕获包含大量结构复杂且句子长度偏长的医疗文本语义。此外，医学知识专业性强、复杂度高、标注成本高，现有的知识抽取模型难以适应医学知识的复杂性，且难以为基于机器学习模型的医学人工智能提供足够的标注数据，严重制约了医疗知识图谱的自动化构建效率。

综上所述，急需一种面向电子病历解析的关系抽取方法以解决现有技术中存在的问题。

发明内容

本发明目的在于提供一种面向电子病历解析的关系抽取方法，具体技术方案如下：

一种面向电子病历解析的关系抽取方法，其特征在于，包括如下步骤：

步骤S1，训练教师模型：分别将句子袋级数据和句子级数据输入教师模型，基于自适应温度和注意力组合机制得到袋级教师模型预测和句级教师模型预测，以多层级知识蒸馏监督计算教师知识；以袋级教师模型预测和远程监督标签计算教师模型总损失，基于教师模型总损失和反向传播方法训练教师模型，更新教师模型参数，完成教师模型的训练；

步骤S2，训练学生模型：将句子级数据输入学生模型，基于自适应温度和教师知识得到句级学生模型预测，基于句级学生模型预测以及袋级教师模型预测中的教师知识计算知识蒸馏损失，以知识蒸馏损失和学生模型交叉熵损失计算得到学生模型总损失，基于学生模型总损失和反向传播方法训练学生模型，更新学生模型参数，完成学生模型的训练；

步骤S3，进行关系抽取：基于步骤S1中的教师模型和步骤S2中的学生模型构建多级知识蒸馏关系抽取模型，利用所述多级知识蒸馏关系抽取模型对输入的数据进行关系抽取；

教师模型总损失的表达式如下：

；

其中，表示教师模型总损失，/>是数据集中包含的句子袋数量；/>表示袋级的远程监督标签，/>；/>表示关系的个数，/>表示袋级教师模型预测；

采用库勒贝克-莱布勒散度作为学生模型的知识蒸馏损失，知识蒸馏损失的表达式如下：

；

其中，表示学生模型和教师模型的库勒贝克-莱布勒散度；/>为数据集中的句子数量；/>表示学生模型的预测，/>，/>表示句子的软化标签；/>表示教师知识；

学生模型总损失的表达式如下：

；

其中，表示权重超参数；/>表示学生模型交叉熵损失。

优选的，所述句子袋级数据为多个句子级数据组合成的一个矩阵。

优选的，注意组合机制的表达式如下：

；

其中，表示袋级教师模型预测；/>表示教师知识，，/>表示第/>个句子袋的软化标签；/>表示第/>个句子袋中所有句子的向量矩阵，/>，/>表示第/>个句子的向量矩阵；表示softmax函数；/>表示将/>转化成形状为/>的各句子的权重的可学习的转换操作。

优选的，所述教师知识的表达式如下：

；

其中，表示用于控制袋级教师模型预测和句级教师模型预测的重要性权重的超参数，/>。

优选的，softmax函数的表达式如下：

；

其中，表示第/>个句子的软预测，/>表示第/>个句子的logit向量，/>表示第/>个句子的自适应温度。

优选的，自适应温度的计算表达式如下：

；

其中，表示超参数，/>；/>表示关系的个数，/>表示第/>个句子的熵，/>表示双曲正切函数。

优选的，熵的计算表达式如下：

；

其中，表示不软化的第/>个关系的概率。

应用本发明的技术方案，具有以下有益效果：

（1）本发明提出的关系抽取方法采用句子级数据和句子袋级数据分别进行句级训练和袋级训练，并构建了多层级的知识蒸馏监督方法获取教师知识，其中句级别的训练保证了本发明方法对样本的充分学习，使得教师知识具有精确性，而基于注意力组合机制的袋级训练保证本发明方法不会因为单个错误样本而导致学习到偏见的知识，不同级别的结合保证了教师知识的准确性和精确性。

（2）本发明提出的关系抽取方法采用自适应温度控制标签软化方向和程度，本发明中的自适应温度计算方法可以将较低的温度分配给熵值较高的预测，实现了灵活软化的能力，当预测不平均时候使标签软化，当预测趋向于平均时使标签硬化。本发明提出的关系抽取方法能够根据预测的分布确认标签应该软化或硬化，避免传达错误或者偏见的知识。另外，本发明考虑到了温度硬化的可能性，硬化标签使得预测的分布变平，软化标签则不会向学生模型传达有意义的信息。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例中关系抽取方法的步骤流程图；

图2是本发明优选实施例中多级知识蒸馏关系抽取模型的模型示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明。

实施例：

参见图1，一种面向电子病历解析的关系抽取方法，包括如下步骤：

步骤S1，训练教师模型：分别将句子袋级数据和句子级数据输入教师模型，基于自适应温度和注意力组合机制得到袋级教师模型预测和句级教师模型预测，以多层级知识蒸馏监督计算教师知识；以袋级教师模型预测和远程监督标签计算教师模型总损失，基于教师模型总损失和反向传播方法训练教师模型，更新教师模型参数，完成教师模型的训练。

需要说明的是，所述句子袋级数据为多个句子级数据组合成的一个矩阵。在本实施例中，所述句子级数据为电子病历数据进行预处理得到，具体过程是：对于电子病历预料中的每一个句子，在提及的医学头实体和尾实体之前分别加上tokens[h]和[t]，在提及的医学头实体和尾实体之后分别加上tokens[/h]和[/t]。

步骤S2，训练学生模型：将句子级数据输入学生模型，基于自适应温度和多层级的教师知识得到句级学生模型预测，基于句级学生模型预测以及袋级教师模型预测中的教师知识计算知识蒸馏损失，以知识蒸馏损失和学生模型交叉熵损失计算得到学生模型总损失，基于学生模型总损失和反向传播方法训练学生模型，更新学生模型参数，完成学生模型的训练。需要说明的是，本实施例中的教师知识采用采用多层级的知识蒸馏监督方法获取，其中句级别的训练保证了模型对样本的充分学习，使得教师知识具有精确性，而基于注意力组合机制的句子袋训练保证模型整体不会因为单个错误样本而导致学习到偏见的知识，不同级别的结合保证了教师知识的准确性和精确性。

进一步地，本实施例中训练教师模型和学生模型的注意力组合机制相同，本实施例中以教师模型的注意组合机制为例进行说明，所述注意组合机制的表达式如下：

；

教师知识可表示为：

；

其中，表示用于控制袋级教师模型预测和句级教师模型预测的重要性权重的超参数，/>。本实施例提出的方法通过袋级训练缓解噪声句子的干扰，进而为了保留句级训练软预测的精确性，因此用于学生模型的教师知识是用多层级的方法获取的，以保证教师知识的准确性和精确性。

进一步地，本实施例中引入了一种可学习的和基于熵的方法来计算自适应温度，其目的是为每个句子生成自适应温度，并控制软化的程度，具有自适应温度的softmax函数的表达式如下：

；

进一步地，自适应温度决定了句子软化的方向和程度，自适应温度的计算表达式如下：

；

进一步地，对于每一个句子，本实施例中通过CNN、PCNN或者ATT-BiLSTM神经网络算法生成句子的逻辑向量，将句子生成的逻辑向量进行计算，得到每个句子的熵，熵的计算表达式如下：

；

其中，表示不软化的第/>个关系的概率。本实施例中的自适应温度可以将较低的温度分配给熵值较高的预测，需要说明的是，当/>=1时，具有温度的软max函数与原始的软max函数相同，并且当/>>1（或/>< 1）时，它倾向于软化或硬化预测。因此，本实施例中的自适应温度实现了灵活软化的能力，更具体地说，当预测太不均匀时使标签软化，当预测太平均时使标签硬化。

进一步地，教师模型总损失的表达式如下：

；

其中，表示教师模型总损失，/>是数据集中包含的句子袋数量；/>表示袋级的远程监督标签，/>。

进一步地，采用库勒贝克-莱布勒散度作为学生模型的知识蒸馏损失，知识蒸馏损失的表达式如下：

；

其中，表示学生模型和教师模型的库勒贝克-莱布勒散度；/>为数据集中的句子数量；/>表示学生模型的预测，/>，/>表示句子的软化标签。

进一步地，学生模型总损失的表达式如下：

；

其中，表示权重超参数；/>表示学生模型交叉熵损失。

步骤S3，进行关系抽取：基于步骤S1中的教师模型和步骤S2中的学生模型构建如图2所示的多级知识蒸馏关系抽取模型，利用所述多级知识蒸馏关系抽取模型对输入的电子病历数据进行关系抽取。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向电子病历解析的关系抽取方法，其特征在于，包括如下步骤：

教师模型总损失的表达式如下：

；

其中，表示学生模型和教师模型的库勒贝克-莱布勒散度；/>为数据集中的句子数量；/>表示学生模型的预测，/>，/>表示句子的软化标签；表示教师知识；

学生模型总损失的表达式如下：

；

其中，表示权重超参数；/>表示学生模型交叉熵损失。

2.根据权利要求1所述的关系抽取方法，其特征在于，所述句子袋级数据为多个句子级数据组合成的一个矩阵。

3.根据权利要求2所述的关系抽取方法，其特征在于，注意组合机制的表达式如下：

；

其中，表示袋级教师模型预测；/>表示教师知识，/>，表示第/>个句子袋的软化标签；/>表示第/>个句子袋中所有句子的向量矩阵，，/>表示第/>个句子的向量矩阵；/>表示softmax函数；表示将/>转化成形状为/>的各句子的权重的可学习的转换操作。

4.根据权利要求3所述的关系抽取方法，其特征在于，所述教师知识的表达式如下：

；

其中，表示用于控制袋级教师模型预测和句级教师模型预测的重要性权重的超参数，。

5.根据权利要求4所述的关系抽取方法，其特征在于，softmax函数的表达式如下：

；

6.根据权利要求5所述的关系抽取方法，其特征在于，自适应温度的计算表达式如下：

；

其中，表示超参数，/>；/>表示关系的个数，/>表示第/>个句子的熵，表示双曲正切函数。

7.根据权利要求6所述的关系抽取方法，其特征在于，熵的计算表达式如下：

；

其中，表示不软化的第/>个关系的概率。