CN112542222B

CN112542222B - 基于深度学习的中文电子病历实体及关系联合抽取方法

Info

Publication number: CN112542222B
Application number: CN202011516382.5A
Authority: CN
Inventors: 高琰; 刘正涛; 王艳东; 郭昊强
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2024-02-02
Anticipated expiration: 2040-12-21
Also published as: CN112542222A

Abstract

本发明公开了一种基于深度学习的中文电子病历实体及关系联合抽取方法，包括：1，预处理得到语句序列特征的每个字对应的特征向量X；2，将待抽取的关系用三元组表示为(s,r,o)；将X作为实体抽取层网络的输入，预测获得实体subject的实体信息；3，将X和实体信息拼接作为自注意力机制的key和value，获取注意力权重α，将α和1‑α分别作为权重，以加权求和的方式得到两者结合的信息向量；4，基于信息向量获得实体object的首尾位置和关系类别r；5，基于三元组(s,r,o)，根据实体subject的实体类别和关系类别r，得到实体object的实体类别。本发明对关系重叠和单句多关系的识别效果良好，解决了实体信息和编码信息的自适应结合问题，能够准确有效地联合抽取中文电子病历中的实体及关系。

Description

基于深度学习的中文电子病历实体及关系联合抽取方法

技术领域

本发明属于自然语言处理领域，特别涉及一种基于深度学习的中文电子病历实体及关系联合抽取方法。

背景技术

电子病历是对患者病情信息的一种记录，充分利用电子病历可以提高医疗质量和效率，降低医疗风险和差错。电子病历中，有很多实体及对应的关系，比如疾病和药物、身体部位和病症相关的关系，充分抽取和利用这些关系有着重要的医学研究价值。但从数量庞大的电子病历中抽取实体及对应的关系需要耗费大量的人力和时间，因此，准确有效地抽取医学文本中的实体及关系对医学价值利用有着重要的意义。

基于深度学习的实体及关系联合抽取模型一般是基于序列编码器以及相关变体来提取语句特征，然后再使用不同的策略学习实体和关系，从而实现实体和关系的联合抽取。

Miwa等人提出了基于序列和树结构的LSTMs实体和关系联合抽取方法，使用序列和树结构分别提取实体和关系，但是这两个任务的编码方式并不是共享，而且是先抽取所有实体，然后进行关系抽取，并不是完全同步进行。另外，由于树结构比较依赖外部NLP工具，这样NLP工具产生的误差也会传递到实体关系抽取任务中。

Zheng等人提出了一种新的实体关系标注方案，将实体关系联合抽取转化成序列标注问题，再使用BI-LSTM为编码，嵌入层为字向量，解码过程使用单向LSTM，获取签序列信息，实现实体和关系的联合抽取。该方法虽然将实体关系抽取简化为了序列标注问题，但是其标注方式不适用于关系重叠的情况，即一个实体与多类实体同时含有关系。

针对关系抽取模型中处理关系重叠问题的局限性，Su等人设计了一种层次化二元标注的框架来应对这个问题。这个框架将三元组的抽取任务建模为三个级别的问题，从而能够更好地解决三元组重叠的问题。其核心观点就是不再将关系抽取的过程看作实体对的离散标签，而是将其看作两个实体的映射关系。给定一个三元组(s,r,o)，其中，s为subject，表示三元组的第一个实体；o为object，表示三元组的第二个实体；r表示第一个实体和第二个实体的关系类别。框架分为3层任务计算，第一层预测出来subject标签，第二层根据预测出来的subject标签预测object，第三层通过预测出来的s和o预测两个实体的关系类别。但是，其忽略了实体类别信息，在预测第一个实体的起始和结尾部分时，没有区分实体类别，相当于将所有关系中的第一个实体归为一个类别。另外，在使用第一个实体和编码层信息预测第二个实体时，只是将两者信息相加，进一步影响关系抽取的结果。

在此背景下，研究一种基于层次多元标签，且能自适应地结合实体信息和编码信息的中文电子病历实体及关系联合抽取的方法尤为重要。

发明内容

本发明的目的在于，针对现有方法中对关系重叠和单句多关系的识别效果不佳、实体信息和编码信息不能自适应结合的问题，提供一种基于深度学习的中文电子病历实体及关系联合抽取方法，对关系重叠和单句多关系的识别效果良好，解决了实体信息和编码信息的自适应结合问题，能够更加准确有效地联合抽取中文电子病历中的实体及关系。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于深度学习的中文电子病历实体及关系联合抽取方法，其特点是包括以下步骤：

步骤1，预处理电子病历中的文本语料，将电子病历分句分字，并对获得的语句进行编码，提取得到语句序列特征的每个字对应的特征向量X；

步骤2，将待抽取的关系用三元组表示为(s,r,o)，其中s为subject并代表三元组的第一个实体，o为object并代表三元组的第二个实体，r代表实体subject和实体object的关系类别；将步骤1获得的特征向量X作为实体抽取层网络的输入，预测获得语句序列中的实体subject的实体信息，其中实体subject的实体信息包括实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别；

步骤3，将步骤1所得的特征向量X和步骤2所得的实体信息进行拼接，作为自注意力机制的key和value，获取注意力权重α，将α和1-α分别作为特征向量X和实体信息的权重，以加权求和的方式得到特征向量X和实体信息两者结合的信息向量；

步骤4，基于步骤3获得的特征向量，获得语句序列中的实体object的起始位置、实体object的结尾位置和关系类别r；

步骤5，基于三元组(s,r,o)，根据步骤2获得的实体subject的实体类别和步骤4获得的关系类别r，得到实体object的实体类别。

作为一种优选方式，所述步骤1中，对电子病历分句时，在单句语句的起始位置处添加用于表示整个句子的特征的字符串[CLS]，在单句语句的结尾位置处添加用于表示单句语句的分割点的字符串[CLS]。

作为一种优选方式，使用BERT模型作为编码器对语句进行编码。

作为一种优选方式，所述步骤2中，将步骤1获得的字向量X作为实体抽取层网络的输入后：

首先，求得语句序列中的每个字为实体subject的起始位置且实体类别为实体subject选定实体类别的概率P^s_start，求得语句序列中的每个字为实体subject的结尾位置且实体类别为实体subject选定实体类别的概率P^s_end；

然后，设定实体subject起始位置的概率阈值为s_start、实体subject结尾位置的概率阈值为s_end；找出P^s_start中所有大于s_start的值，得到对应的实体subject的起始位置和起始位置实体类别；找出P^s_end中所有大于s_end的值，得到对应的实体subject的结尾位置和结尾位置实体类别；

最后，根据实体subject的起始位置和起始位置实体类别，找出大于并最接近该实体subject的起始位置且结尾位置实体类别与起始位置实体类别一致的实体subject的结尾位置，即得到实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别。

作为一种优选方式，P^s_start的计算公式为：P^s_start＝σ(W^s_startx+b^s_start)；

P^s_end的计算公式为：P^s_end＝σ(W^s_endx+b^s_end)；

其中，P^s_start和P^s_end均表示大小为n×m_e的概率矩阵，其中n表示语句序列的长度，m_e表示实体subject的实体类别数量，P^s_start中第i行第j列的元素表示语句序列中第i个字为实体subject的起始位置且实体类别为yⁱ的概率，P^s_end中第i行第j列的元素表示语句序列中第i个字为实体subject的结尾位置且实体类别为yⁱ的概率；σ为激活函数sigmod；W^s_start为指针在实体subject起始位置的权重矩阵；W^s_end为指针在实体subject结尾位置的权重矩阵；b^s_start为实体subject在起始位置的偏置；b^s_end为实体subject在结尾位置的偏置。

作为一种优选方式，所述步骤3中，使用神经网络的方式获取注意力权重α的过程包括：

首先，将向量V_k和编码层向量X进行拼接，得到[X；V_k]，其中V_k表示已抽取的实体subject的向量表达；k表示实体subject的位置；

然后，利用下述公式获得中间变量O：O＝tanh(W_O[X；V_k]+b_O)，其中，W_O为V_k和X拼接后的权重矩阵，b_O为与W_O对应的偏置量；

最后，利用下述公式获得注意力权重α：α＝σ(W_α·O+b_α)，其中，W_α为注意力权重矩阵，b_α为与W_α对应的偏置量。

作为一种优选方式，所述步骤3中，基于下述公式，利用α将实体subject的实体信息和字向量X结合，得到特征向量V：V＝α·X+(1-α)·V_k。

作为一种优选方式，所述步骤4包括：

首先，求得语句序列中的每个字为实体object的起始位置且实体object与实体subject两个实体之间的关系类别为选定关系类别的概率P^o_start，求得语句序列中的每个字为实体object的结尾位置且实体object与实体subject两个实体之间的关系类别为选定关系类别的概率p^o_end；

然后，设定实体object起始位置的概率阈值为o_start、实体object结尾位置的概率阈值为o_end；找出P^o_start中所有大于o_start的值，得到对应的实体object的起始位置和起始位置关系类别；找出p^o_end中所有大于o_end的值，得到对应的实体object的结尾位置和结尾位置关系类别；

最后，根据实体object的起始位置和起始位置关系类别，找出大于并最接近该实体object的起始位置且结尾位置关系类别与起始位置关系类别一致的实体object的结尾位置，即得到实体object的起始位置、实体object的结尾位置和关系类别r。

优选地，P^o_start的计算公式为：P^o_start＝σ(W^o_start·V+b^o_start)；

p^o_end的计算公式为：P^o_end＝σ(W^o_end·V+b^o_end)；

其中，P^o_start和p^o_end均表示大小为n×m_r的概率矩阵，其中n表示语句序列的长度，m_r表示实体object的实体类别数量，P^o_start中第i行第j列的元素表示语句序列中第i个字为实体object的起始位置且实体object与实体subject两个实体之间的关系类别为rⁱ的概率，p^o_end中第i行第j列的元素/>表示语句序列中第i个字为实体object的结尾位置且实体object与实体subject两个实体之间的关系类别为rⁱ的概率；σ为激活函数sigmod；W^o_start为指针在实体object起始位置的权重矩阵；W^o_end为指针在实体object结尾位置的权重矩阵；b^o_start为实体object在起始位置的偏置；b^o_end为实体object在结尾位置的偏置。

与现有技术相比，本发明对关系重叠和单句多关系的识别效果良好，解决了实体信息和编码信息的自适应结合问题，能够更加准确有效地联合抽取中文电子病历中的实体及关系。

具体实施方式

以使用句子“颈软无抵抗，无颈静脉怒张，甲状腺无肿大”为例进行抽取，本发明基于深度学习的中文电子病历实体及关系联合抽取方法包括以下步骤：

步骤1，预处理电子病历中的文本语料，将电子病历分句分字，在单句语句的起始位置处添加用于表示整个句子的特征的字符串[CLS]，在单句语句的结尾位置处添加用于表示单句语句的分割点的字符串[CLS]。语句变成“[CLS]颈软无抵抗，无颈静脉怒张，甲状腺肿大[SEP]”。使用BERT模型作为编码器对语句进行编码，提取得到语句序列特征的每个字对应的特征向量X。

步骤2，将待抽取的关系用三元组表示为(s,r,o)，其中s为subject并代表三元组的第一个实体，o为object并代表三元组的第二个实体，r代表实体subject和实体object的关系类别。将步骤1获得的特征向量X作为实体抽取层网络的输入，预测获得语句序列中的实体subject的实体信息，其中实体subject的实体信息包括实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别。

具体地，所述步骤2中，将步骤1获得的字向量X作为实体抽取层网络的输入后：

首先，求得语句序列中的每个字为实体subject的起始位置且实体类别为实体subject选定实体类别的概率P^s_start，求得语句序列中的每个字为实体subject的结尾位置且实体类别为实体subject选定实体类别的概率P^s_end。

P^s_start的计算公式为：P^s_start＝σ(W^s_startx+b^s_start)；

P^s_end的计算公式为：P^s_end＝σ(W^s_endx+b^s_end)；

其中，P^s_start和P^s_end均表示大小为n×m_e的概率矩阵，其中n表示语句序列的长度，即语句中字的个数，m_e表示实体subject的实体类别数量，P^s_start中第i行第j列的元素表示语句序列中第i个字为实体subject的起始位置且实体类别为yⁱ的概率，P^s_end中第i行第j列的元素/>表示语句序列中第i个字为实体subject的结尾位置且实体类别为yⁱ的概率；σ为激活函数sigmod，该函数将输出控制在0-1范围内，从而实现二分类，即0或者1；W^s_start为指针在实体subject起始位置的权重矩阵；W^s_end为指针在实体subject结尾位置的权重矩阵；b^s_start为实体subject在起始位置的偏置；b^s_end为实体subject在结尾位置的偏置。

最后，根据实体subject的起始位置和起始位置实体类别，找出大于并最接近该实体subject的起始位置且结尾位置实体类别与起始位置实体类别一致的实体subject的结尾位置，即得到实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别。比如本实例“颈软无抵抗，无颈静脉怒张，甲状腺无肿大”中，实体subject有“颈”，“颈静脉”和“甲状腺”，首尾位置分别为(0，0)，(7，9)和(13，15)，实体subject实体类别分别为身体部位，身体部位和身体部位。

步骤3，将步骤1所得的特征向量X和步骤2所得的实体信息进行拼接，作为自注意力机制的key和value，使用神经网络的方式获取注意力权重α，将α和1-α分别作为特征向量X和实体信息的权重，以加权求和的方式得到特征向量X和实体信息两者结合的信息向量。

所述步骤3中，使用神经网络的方式获取注意力权重α的过程包括：

首先，将向量V_k和编码层向量X进行拼接，得到[X；V_k]，其中V_k表示已抽取的实体subject的向量表达，即起始位置和结尾位置指针特征向量的和；k表示实体subject的位置；

然后，通过特征变换和tanh激活方式获得中间变量O，计算公式为：O＝tanh(W_O[X；V_k]+b_O)，其中，W_O为V_k和X拼接后的权重矩阵，b_O为与W_O对应的偏置量。

最后，对中间变量O进一步特征变换，使用sigmod激活函数，得到注意力权重α，α被控制在0-1范围内，从而实现门控的效果，计算公式为：α＝σ(W_α·O+b_α)，其中，W_α为注意力权重矩阵，b_α为与W_α对应的偏置量。

所述步骤3中，基于下述公式，利用注意力权重α将实体subject的实体信息和字向量X结合，得到特征向量V：V＝α·X+(1-α)·V_k。

步骤4，基于步骤3获得的信息向量，预测获得语句序列中的实体object的起始位置、实体object的结尾位置和关系类别r；

具体地，所述步骤4包括：

首先，求得语句序列中的每个字为实体object的起始位置且实体object与实体subject两个实体之间的关系类别为选定关系类别的概率P^o_start，求得语句序列中的每个字为实体object的结尾位置且实体object与实体subject两个实体之间的关系类别为选定关系类别的概率p^o_end。

P^o_start的计算公式为：P^o_start＝σ(W^o_start·V+b^o_start)；

p^o_end的计算公式为：P^o_end＝σ(W^o_end·V+b^o_end)；

其中，P^o_start和p^o_end均表示大小为n×m_r的概率矩阵，其中n表示语句序列的长度，m_r表示实体object的实体类别数量，P^o_start中第i行第j列的元素表示语句序列中第i个字为实体object的起始位置且实体object与实体subject两个实体之间的关系类别为rⁱ的概率，p^o_end中第i行第j列的元素/>表示语句序列中第i个字为实体object的结尾位置且实体object与实体subject两个实体之间的关系类别为rⁱ的概率；σ为激活函数sigmod，将输入控制在0-1范围内，从而实现二分类，即0或者1；W^o_start为指针在实体object起始位置的权重矩阵；W^o_end为指针在实体object结尾位置的权重矩阵；b^o_start为实体object在起始位置的偏置；b^o_end为实体object在结尾位置的偏置。

最后，根据实体object的起始位置和起始位置关系类别，找出大于并最接近该实体object的起始位置且结尾位置关系类别与起始位置关系类别一致的实体object的结尾位置，即得到实体object的起始位置、实体object的结尾位置和关系类别r。比如本实例“颈软无抵抗，无颈静脉怒张，甲状腺无肿大”中，实体object有“抵抗”，“怒张”和“肿大”，首尾位置分别为(3，4)，(10，11)和(16，17)，关系类别r分别为BrSy(身体部位与医学发现)，BrSy和BrSy。

步骤5，由于三元组中实体类别和关系一一对应且唯一，基于三元组(s,r,o)，根据步骤2获得的实体subject的实体类别和步骤4获得的关系类别r，得到实体object的实体类别。本实例中，得到实体object“抵抗”，“怒张”和“肿大”的实体类别分别为医学发现，医学发现和医学发现。

上面对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是局限性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护范围之内。

Claims

1.一种基于深度学习的中文电子病历实体及关系联合抽取方法，其特征在于，包括以下步骤：

步骤5，基于三元组(s,r,o)，根据步骤2获得的实体subject的实体类别和步骤4获得的关系类别r，得到实体object的实体类别；

所述步骤1中，对电子病历分句时，在单句语句的起始位置处添加用于表示整个句子的特征的字符串[CLS]，在单句语句的结尾位置处添加用于表示单句语句的分割点的字符串[CLS]；

所述步骤2中，将步骤1获得的字向量X作为实体抽取层网络的输入后：

最后，根据实体subject的起始位置和起始位置实体类别，找出大于并最接近该实体subject的起始位置且结尾位置实体类别与起始位置实体类别一致的实体subject的结尾位置，即得到实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别；

P^s_start的计算公式为：P^s_start＝σ(W^s_startx+b^s_start)；

P^s_end的计算公式为：P^s_end＝σ(W^s_endx+b^s_end)；

其中，P^s_start和P^s_end均表示大小为n×m_e的概率矩阵，其中n表示语句序列的长度，m_e表示实体subject的实体类别数量，P^s_start中第i行第j列的元素表示语句序列中第i个字为实体subject的起始位置且实体类别为yⁱ的概率，P^s_end中第i行第j列的元素/>表示语句序列中第i个字为实体subject的结尾位置且实体类别为yⁱ的概率；σ为激活函数sigmod；W^s_start为指针在实体subject起始位置的权重矩阵；W^s_end为指针在实体subject结尾位置的权重矩阵；b^s_start为实体subject在起始位置的偏置；b^s_end为实体subject在结尾位置的偏置；

最后，利用下述公式获得注意力权重α：α＝σ(W_α·O+b_α)，其中，W_α为注意力权重矩阵，b_α为与W_α对应的偏置量；

所述步骤3中，基于下述公式，利用α将实体subject的实体信息和字向量X结合，得到特征向量V：V＝α·X+(1-α)·V_k；

所述步骤4包括：

最后，根据实体object的起始位置和起始位置关系类别，找出大于并最接近该实体object的起始位置且结尾位置关系类别与起始位置关系类别一致的实体object的结尾位置，即得到实体object的起始位置、实体object的结尾位置和关系类别r；

P^o_start的计算公式为：P^o_start＝σ(W^o_start·V+b^o_start)；

p^o_end的计算公式为：P^o_end＝σ(W^o_end·V+b^o_end)；

2.如权利要求1所述的基于深度学习的中文电子病历实体及关系联合抽取方法，其特征在于，使用BERT模型作为编码器对语句进行编码。