CN112820411A

CN112820411A - 医学关系提取方法及装置

Info

Publication number: CN112820411A
Application number: CN202110109117.3A
Authority: CN
Inventors: 俞声; 林毓聪
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-18
Anticipated expiration: 2041-01-27
Also published as: CN112820411B

Abstract

本发明公开一种医学关系提取方法及装置，包括以下步骤：从医学电子病历中统计设定时间窗口中医学概念对出现的次数，获得医学概念对中两个医学概念向量；利用两个医学概念与知识库匹配，获得两个医学概念之间的关联关系，从而构建关系概念三元组；根据所述关系概念三元组从医学文本集中挖掘得到多个概念语句；构建训练样本集，训练样本集包括正样本和负样本，每个样本结构是由关系概念三元组、两个医学概念向量、概念语句构成；利用训练样本集训练融合模型，获得训练后的融合模型；利用训练后的融合模型进行医学关系提取。本发明可以源源不断地挖掘医学概念之间的关系。引入章节标题构成概念语句，增加了有效训练样。

Description

医学关系提取方法及装置

技术领域

本发明涉及一种信息技术领域，尤其涉及一种考虑医学文本与医学电子病历的医学关系提取方法及装置。

背景技术

近年来，已经出现了很多用于关系挖掘的模型，包括方式匹配和机器学习。随着深度学习的飞速发展，研究者在关系提取中开始使用神经网络模型，将词嵌入和位置嵌入的向量作为输入，并使用了递归神经网络。最初在机器翻译中使用的句子级注意力机制现在也应用于关系提取，以自动捕获重要的单词和语句，成为了模型中的必要机制。但是，这些有监督的模型缺乏实际医疗关系数据作为训练。由于人工标记的成本高昂，神经网络没有足够的样本语句，因此远程监督被提出用以解决此问题。远监督是指如果一个语句包含具有已知关系的任何一对实体，则该语句必当代表完全相同的关系。应用远监督时，首先通过半结构化或手动方法提取实体关系，然后获得包含这些实体对的语句。在该假设下，可以将此类语句标记为两个实体之间的关系，然后将其用于训练模型。

尽管远监督有助于减轻训练数据的缺乏问题，但是仍然存在一些缺点。首先该假设降低了模型提取更多有用信息的能力。如果将共指消歧方法应用于识别实体的代词，则可以部分改善语句的多样性。但是，这些方法仍然具有不可忽略的错误，可能会损害样本的质量。当涉及到网页和教科书中的文本时，仅使用共指消歧还不足以弥补信息的丢失。例如，“2型糖尿病”词条中的“症状还可能包括饥饿感增加，感到疲倦和无法治愈的疼痛”，该语句包含2型糖尿病可能引起何种症状的信息，但没有2型糖尿病本身的名称或其任何参考。

在实际医学关系挖掘时，往往有人工提取方式和自动提取方式。人工提取的方式耗时费力，且难以及时对新关系进行自动更新。而采用自动提取方式，又可以分为规则匹配方法与模型匹配方法。如果是采用规则匹配的方法，获取到的关系和医学知识的涵盖面和准确率均有明显不足。而若是希望用机器学习或深度学习进行自动关系提取时，并没有现存的可供目标关系挖掘的训练集与模型的存在，因此无法对目标关系进行快速与并行的挖掘。所以能够有方案做到类似的事，但是无法达到该发明的准确性、及时性和广泛性。

发明内容

本发明提出了一套医学知识挖掘的技术，能够大规模的从医学文本中海量挖掘包含医学知识的文本。医学电子病历中蕴含着医生对疾病的认知和判断，而电子病历与自由文本是两种非同源的数据形式，因此能够在医学关系提取工作中相互补充，本发明设计并验证了从医学百科、医学论文和教科书中挖掘高质量实体关系的完整工作流。因此，本发明在建立和丰富医学关系方面非常有帮助。

本发明的技术方案如下：

一种医学关系提取方法，包括以下步骤：

从医学电子病历中统计设定时间窗口中医学概念对出现的次数，获得医学概念对中两个医学概念向量，所述医学概念对是指同时出现在同一设定时间窗口中的两个医学概念；

利用所述两个医学概念与知识库匹配，获得两个医学概念之间的关联关系，从而构建关系概念三元组；

根据所述关系概念三元组从医学文本集中挖掘得到多个概念语句；

构建训练样本集，所述训练样本集包括正样本和负样本，每个样本结构是由所述关系概念三元组、所述两个医学概念向量、概念语句构成；

利用所述训练样本集训练融合模型，获得训练后的融合模型；

利用所述训练后的融合模型进行医学关系提取。

可选地，所述融合模型包括并列的线性层和关系概念三元组模块，以及连接在后面的Softmax全连接层，所述关系概念三元组模块包括依次连接的BioBERT深度学习编码器和句子级注意力机制层，

所述两个医学概念向量经过线性层压缩获得第一编码，

所述关系概念三元组的所述多个概念语句输入BioBERT深度学习编码器获得各个概念语句的向量，各个概念语句的向量经过句子级注意力机制层进行加权，获得关系概念三元组的向量编码作为第二编码，所述第一编码和第二编码拼接后输入到Softmax全连接层，并将Softmax全连接层输出的两个医学概念向量之间的关系判断与关系概念三元组进行比对，从而训练融合模型。

可选地，所述根据所述关系概念三元组从医学文本集中挖掘得到多个概念语句，包括：

利用所述关系概念三元组到医学文本集的每个文章中去抽取每个语句与该语句所在文章标题的集合中包含该关系概念三元组中的两个医学概念的语句，如果语句中包含两个医学概念，则将该语句作为概念语句，如果语句中仅包含有一个医学概念，则将该语句所在的文章的标题与语句拼接共同作为概念语句。

可选地，所述句子级注意力机制层对关系概念三元组的各概念语句的向量进行加权，从而获得关系概念三元组的向量编码的公式如下：

α_EP＝softmax(R^Tv_EP),

r＝Rα_EP

其中r_i为关系概念三元组对应的概念语句的向量；

α_EP为句子级注意力机制的自学习权重向量；

softmax()是归一化指数函数；

v_EP是可训练的权重向量；

r为关系概念三元组的向量编码。

可选地，所述负样本的生成方式包括：

用不同的关系概念三元组对应的概念语句替换正样本的概念语句，并将该正样本的两个医学概念用目标类型的医学概念替换。

可选地，所述负样本的生成方式包括：

通过训练好的词嵌入加权平均模型计算选取与正样本的向量夹角最小的潜在负样本作为负样本。

可选地，所述获得两个医学概念向量的方法包括：

从医学电子病历中统计设定时间窗口中医学概念对出现的次数形成共现矩阵，根据所述共现矩阵获得互信息矩阵，所述互信息矩阵是医学概念对的共现次数除以医学概念对中的每个医学概念各自在该设定时间窗口中出现的次数并取对数函数，并对所述互信息矩阵做SVD矩阵分解，获得医学概念向量。

可选地，所述医学电子病历指的是含有病人问诊时间、病史描述、检查与诊断信息的自由文本数据。

可选地，所述医学概念对包括以下三种关联关系中的一种：导致、被导致、鉴别诊断。

本发明还提供一种医学关系提取装置，包括：

医学概念向量获取模块，用于从医学电子病历中统计设定时间窗口中医学概念对出现的次数，获得医学概念对中两个医学概念向量，所述医学概念对是指同时出现在同一设定时间窗口中的两个医学概念；

三元组构建模块，用于利用所述两个医学概念与知识库匹配，获得两个医学概念之间的关联关系，从而构建关系概念三元组；

概念语句挖掘模块，用于根据所述关系概念三元组从医学文本集中挖掘得到多个概念语句；

训练样本集构建模块，用于构建训练样本集，所述训练样本集包括正样本和负样本，每个样本结构是由所述关系概念三元组、所述两个医学概念向量、概念语句构成；

训练模块，用于利用所述训练样本集训练融合模型，获得训练后的融合模型；

提取模块，用于利用所述训练后的融合模型进行医学关系提取。

本发明具有以下有益效果：

1.本申请提供了一套自动进行数据挖掘与医学关系提取构建的流程，从医学电子病历中自动提取医学概念向量，并利用医学概念向量获得大量的训练样本，通过训练样本训练融合模型，在经过训练后进行医学实体关系提取，解决了传统医学关系提取中需要耗费大量人工标注训练样本的问题，源源不断地挖掘医学概念之间的关系。

2.打破了原有的远监督假设，即一个语句含有两个医学概念，通过引入章节标题构成概念语句，增加了大量有效的训练样本，大幅度提升了模型性能。

3.在融合模型中加入了医学电子病历对医学概念的医学概念向量表示，增强了对医学关系的推理能力。

附图说明

通过结合下面附图对其实施例进行描述，本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1是表示本发明实施例的医学关系提取方法的流程示意图；

图2是表示本发明实施例的融合模型的结构示意图；

具体实施方式

下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

医学关系提取是指从文本中提取出两个医学概念以及其关联关系，如图1所示，本实施例的医学关系提取方法包括以下步骤：

S1，从医学电子病历中统计设定时间窗口中医学概念对出现的次数，形成共现矩阵，所述医学概念对是指同时出现在同一设定时间窗口中的医学概念，所述共现矩阵中是医学概念对在所述设定时间窗口中出现的次数。根据所述共现矩阵获得互信息矩阵，所述互信息矩阵是医学概念对的共现次数除以医学概念对中的每个医学概念各自在该设定时间窗口中出现的次数并取对数函数。并对所述互信息矩阵做SVD矩阵分解，获得医学概念对中两个医学概念对应的特征向量(即医学概念向量)W。

SVD(PMI)＝U_dΣ_dV_d

其中PMI(w，c)是共现矩阵；

#w)指医学概念w的出现频率；

#(c)，是指医学概念c的出现频率；

n_word与n_pairs分别为总医学概念数与总医学概念对数。最后通过SVD对PMI矩阵进行分解后，获得的医学概念向量为W。

其中，

是对角阵；

U_d是左奇异正交阵；

V_d是右奇异正交阵；

W是医学概念对对应的医学概念向量。

其中，医学电子病历指的是含有病人问诊时间、病史描述、检查与诊断信息的自由文本数据。

首先要从医学电子病历中识别出关键的医学概念，可以是通过医学词典等方式来识别。然后采用同一病人的设定时间窗口(例如30天)沿医学电子病历的时序数据滑动，统计设定时间窗口内共同出现的医学概念对的数量，例如“糖尿病”概念与“体重减少”概念在5000个设定时间窗口内出现过，例如“高血压”概念与“肥胖”概念在300个设定时间窗口内出现过，“糖尿病”与“体重减少”概念形成医学概念对，“高血压”概念与“肥胖”概念形成医学概念对。将这些概念对对应出现的次数形成共现矩阵。

将共现矩阵求出互信息矩阵，其中两个概念的互信息为概念间的共现次数除以两个概念自己出现的次数并取对数函数，再将互信息矩阵进行SVD矩阵分解，从而获得该医学概念对的两个医学概念向量k1，k2。对互信息矩阵进行SVD分解所获得的医学概念向量能够在高维空间中表示不同概念之间的相近程度。例如糖尿病的症状概念会离糖尿病概念更近，而糖尿病和痔疮由于没有太多关系，所以将会离得更远。

S2，对于每个医学概念对，利用其两个医学概念向量与知识库匹配，识别获得两个医学概念向量之间的关联关系，从而构建其关系概念三元组。知识库可以是UMLS(一体化医学语言系统)，通过与知识库匹配，获得两个医学概念向量之间的关联关系，从而构建关系概念三元组。

两个医学概念之间可以是具有三种关联关系中的一种，例如两个医学概念是疾病A、疾病B，三种关联关系包括“导致”(疾病A导致疾病B)、“被导致”(疾病A被疾病B导致)和“鉴别诊断”(疾病A与疾病B具有相似的症状，需要进一步的检查才能区分和诊治)。

在Medscape,Mayo Clinic,MSD Manual,Wikipedia,UpToDate等医学网站中，往往有针对疾病的系列症状与鉴别诊断关系的逐点罗列。该发明的具体实施部分主要考虑三种关系，即“导致”(疾病A导致疾病B)、“被导致”(疾病A被疾病B导致)和“鉴别诊断”(疾病A与疾病B具有相似的症状，需要进一步的检查才能区分和诊治)，但并不限于此三种关系，还可以是例如“治疗”(疾病A采用药物C)。如下表1是Medscape网站对类风湿性关节炎症状的罗列。因此只需要识别出其章节结构(症状)，以及文章标题(类风湿性关节炎)以及关键点后的医学概念，即可构建类风湿性关节炎对应的症状关系概念三元组:[类风湿性关节炎,导致,关节肿胀]，[类风湿性关节炎,导致,关节疼痛]，[类风湿性关节炎,导致,关节摩擦音]，[类风湿性关节炎,导致,晨僵]。

类风湿性关节炎症状有哪些？这是类风湿性关节炎患者最想了解的问题，如何判断自己是否已经患上了类风湿性关节炎，其表现症状有：

1、关节肿胀：凡受累的关节均可出现肿胀，关节肿胀提示炎症较重。典型的表现为关节周围均匀性肿大，例如近端指间关节的梭形肿胀。

2、关节疼痛：绝大多数患者是以关节肿胀开始发病的。肿胀是由于关节腔内渗出液增多及关节周围软组织炎症改变而致，表现为关节周围均匀性肿大，手指近端指关节的梭形肿胀是类风湿患者的典型症状之一。

3、关节摩擦音：类风湿的关节炎症期，运动关节时检查者的手常可感到细小的捻发音或有握雪感，以肘、膝关节为典型，此表明关节存在炎症。有的关节炎症消退后，活动关节可以听到或触到嘎嗒声响，这在指和膝关节、髋关节最明显，可能是类风湿伴有骨质增生所致。

4、晨僵：95％以上的患者有关节晨僵。晨僵是指病变关节在夜间静止不动后，，晨起时出现较长时间的受累关节僵硬和活动受限。

S3，对于每个医学概念对，根据其关系概念三元组从医学文本集中挖掘得到对应的概念语句。

具体的，所述医学文本集中包含有大量的医学方面的文章，利用关系概念三元组到每个文章中去抽取每个语句与文章标题的集合中具有该关系概念三元组中的两个医学概念的语句，如果语句中包含两个医学概念，则将该语句作为概念语句，如果语句中仅包含有一个医学概念，则将该语句所在的文章的标题拼接在语句前面共同作为概念语句。

具体说，从医学文本集中能够被抽取出来的语句分为两种情况：(1)关系概念三元组中的两个医学概念都出现在语句中；(2)语句中有一个医学概念，文章标题包含另一个医学概念。这是对远监督假设的扩展，能够利用文本信息大幅度提升训练数据的数量。将含有医学概念的文章标题直接拼接在语句前面。实验表明，这种方式覆盖的医学概念对是常规方法的约3倍，语句为常规方法的2倍。

在获取到系列的初始关系概念三元组后，通过扩展后的远监督方式在海量的医学文本中搜索三元组对应的语句作为正样本。挖掘包含医学信息的自由文本语料，例如从百科网站和Medscape(一个医学网站)寻找已有的医学关系，借助UMLS知识库做概念识别，然后将其作为训练用的医学关系三元组。其中，医学概念以UMLS知识库中定义的Disorder(疾病)类为主，包括常见的疾病和症状。接下来，在所有能收集到的医学文本中寻找包含两个医学概念的句子，其中包括了超过1000万篇的论文，超过10万个医学网站以及累计超过8000页的医学教科书。表1展示了挖掘出的医学概念和句子样本数量统计，可以看出本发明的数据挖掘方法能够获取足量的关系概念三元组及其对应的富含医学知识的训练语句。

表1

S4，构建训练样本集，所述训练样本集包括正样本和负样本，样本结构可以是由三部分构成：关系概念三元组、从S1提取的两个医学概念对应的医学概念向量、概念语句。

负样本包括两种生成方式，第一种方式为用不同的关系概念三元组对应的概念语句替换正样本的概念语句，并将正样本的两个概念用目标类型的概念所替换(如目标关系是疾病-疾病关系，于是可以用疾病与药物关系中的药物概念随机替换成一个疾病概念即可得到目标关系的负样本)。

例如，正样本是{[类风湿性关节炎,导致,关节疼痛],[类风湿性关节炎，关节疼痛],[关节疼痛是类风湿关节炎最常见的症状，受累关节以近端指间关节、掌指关节、腕、肘、肩、膝和足趾关节最为多见。]}

用[治疗糖尿病的药品是非常多的,而糖尿病患者们并不能够随意的使用药物,应该在服用之前充分了解这些药物的成分和适应症,副作用等注意事项,而磺酰脲类都是得到了人们认可的药物,对于身体正常的人们来说都是可以服用的]替换其中的概念语句。并将其中的“关节疼痛”替换为“塞来昔布”。

则生成的负样本为{[类风湿性关节炎,导致,关节疼痛],[类风湿性关节炎，塞来昔布],[治疗糖尿病的药品是非常多的,而糖尿病患者们并不能够随意的使用药物,应该在服用之前充分了解这些药物的成分和适应症,副作用等注意事项,而磺酰脲类都是得到了人们认可的药物,对于身体正常的人们来说都是可以服用的]}。

第二种方式为寻找最像正样本的潜在负样本，具体做法是通过已经训练好的词嵌入加权平均模型(例如Word2Vec)计算负样本的向量表示，最后取那些与正样本的向量夹角最小的负样本作为第二类负样本，正负样本的比例约为1:1。

S5，利用所述训练样本集训练融合模型，所述融合模型包括并列的医学概念向量模块和关系概念三元组模块，以及连接在其后的Softmax全连接层，对于每个医学概念对，其医学概念向量经过医学概念向量模块获得第一编码，关系概念三元组模块包括依次连接的BioBERT深度学习编码器和句子级注意力机制，对于每个医学概念对，将其关系概念三元组所有对应的概念语句输入经过预训练的BioBERT深度学习编码器，对各概念语句分别进行编码，并最终获得各个概念语句的向量表示。将各个概念语句的向量采用句子级注意力机制进行自动加权，获得与关系概念三元组对应的第二编码。将所述第一编码和第二编码拼接后输入到Softmax全连接层，进行关系判断与分类的训练，也就是对于每个医学概念对，其中的两个医学概念向量具有的关联关系是什么(即上述三种关联关系)的判断。经过训练的融合模型即可以用于从海量医学文本中提取医学概念以及其关联关系。深度学习模型的反向传播算法可以通过减小训练集的损失而更新待训练参数，最终收敛到稳定的结果。然后就可以利用训练好的融合模型来从大量文本中提取医学关系。

如图2所示，k1，k2是两个医学概念向量，T1至Tk表示文章标题的标识，S1至Sn表示概念语句的标识，A1至Am表示段落的标识。输入到BioBERT深度学习编码器，获得该概念语句的向量表示。[CLS]表示该特征用于分类模型，[SEP]表示分句符号。

通过句子级注意力机制对关系概念三元组对应的概念语句的向量进行加权，从而获得关系概念三元组的概念语句的向量编码r。具体如下公式所述，

α_EP＝softmax(R^Tv_EP),

r＝Rα_EP,

其中r_i为三元组对应的概念语句的向量，n_s为概念语句的个数，v_EP是一个可以被训练的权重向量，最终通过softmax函数进行归一化后即可获得α_EP，为句子级注意力机制的自学习权重向量。最终r为该三元组的向量编码。

深度学习的超参数设置如下：

表2

通过在测试集上进行通用模型与其他基准模型的测试，可以看出本发明提出的模型具有良好的关系提取效果。表3展示了本发明的模型和基线模型的预测结果对比。三个数据集的正样本均一致，其中数据集1和数据集2分别是第一类负样本与第二类负样本构建的数据集，数据集3是随机混合一半的一类和二类负样本构建的混合数据集。可以看出，朴素贝叶斯、支持向量机、卷积神经网络和普通递归神经网络等基线模型相比提出的模型g.相比，在各个数据集上的准确率有超过10个百分点的差异，在正样本准确率上更是超过20个百分点的差异。而相比BERT模型与BERT结合概念嵌入的模型相比，本发明提出的模型依旧取得了最佳的关系分类准确率与正样本准确率，从而可以看出本发明是个具有高准确率的关系挖掘模型。

表3

本发明还提供一种医学关系提取装置，本发明的医学关系提取装置可以安装于电子设备中。所述电子设备可以包括处理器、存储器，还可以包括存储在所述存储器中并可在所述处理器上运行的计算机程序。其中，所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述处理器是所述电子设备的控制核心，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器内的程序或者模块，以及调用存储在所述存储器内的数据，以执行电子设备的各种功能和处理数据。

根据实现的功能，所述医学关系提取装置可以包括医学概念向量获取模块、三元组构建模块、概念语句挖掘模块、训练样本集构建模块、训练模块、提取模块。本发明所述模块是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块的功能如下：

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种医学关系提取方法，其特征在于，包括以下步骤：

利用所述训练后的融合模型进行医学关系提取。

2.根据权利要求1所述的医学关系提取方法，其特征在于，

所述融合模型包括并列的线性层和关系概念三元组模块，以及连接在后面的Softmax全连接层，所述关系概念三元组模块包括依次连接的BioBERT深度学习编码器和句子级注意力机制层，

所述两个医学概念向量经过线性层压缩获得第一编码，

3.根据权利要求1所述的医学关系提取方法，其特征在于，所述根据所述关系概念三元组从医学文本集中挖掘得到多个概念语句，包括：

4.根据权利要求2所述的医学关系提取方法，其特征在于，

所述句子级注意力机制层对关系概念三元组的各概念语句的向量进行加权，从而获得关系概念三元组的向量编码的公式如下：

α_EP＝softmax(R^Tv_EP),

r＝Rα_EP

其中r_i为关系概念三元组对应的概念语句的向量；

α_EP为句子级注意力机制的自学习权重向量；

softmax()是归一化指数函数；

v_EP是可训练的权重向量；

r为关系概念三元组的向量编码。

5.根据权利要求1所述的医学关系提取方法，其特征在于，所述负样本的生成方式包括：

6.根据权利要求1所述的医学关系提取方法，其特征在于，所述负样本的生成方式包括：

7.根据权利要求1所述的医学关系提取方法，其特征在于，所述获得两个医学概念向量的方法包括：

8.根据权利要求1所述的医学关系提取方法，其特征在于，

所述医学电子病历指的是含有病人问诊时间、病史描述、检查与诊断信息的自由文本数据。

9.根据权利要求1所述的医学关系提取方法，其特征在于，所述医学概念对包括以下三种关联关系中的一种：导致、被导致、鉴别诊断。

10.一种医学关系提取装置，其特征在于，包括：