CN113553440A

CN113553440A - 一种基于层次推理的医学实体关系抽取方法

Info

Publication number: CN113553440A
Application number: CN202110709798.7A
Authority: CN
Inventors: 段鹏飞; 熊晨薇; 熊盛武; 尹娇柔
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-10-26
Anticipated expiration: 2041-06-25
Also published as: CN113553440B

Abstract

本发明提供了一种基于层次推理的医学实体关系抽取方法，是通过基于层次推理的实体关系抽取模型来提取新冠肺炎相关实体关系三元组的方法，首先，利用远程监督将已有知识库与相关文献进行对齐，构建了COVID‑19实体关系抽取数据集；然后，基于门控卷积和膨胀卷积，构建了从不同维度来提取上下文信息的特征提取器；最终，基于层次推理机制，利用不同粒度的文档信息来对文本进行实体关系抽取，提升了文档级实体关系抽取模型的准确率。本发明的有益效果是：抽取新冠肺炎相关数据的实体关系，可以为后续研究任务如知识图谱、问答系统等提供基础，为进一步对新冠肺炎的防治工作提供基础。

Description

一种基于层次推理的医学实体关系抽取方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及文档级关系抽取，尤其涉及一种基于层次推理的医学实体关系抽取方法。

背景技术

文档级关系抽取的方法，基本上可以分为两大类：基于序列的模型和基于图的模型。基于序列的模型利用神经网络来层次化建模实体、句子和文档信息从而推理出文档中的实体关系，而基于图的模型则利用图的思想来对文档中的语义信息进行重新建模，如何更加高效地构建基于文档的图网络以及如何对图网络进行推理是该类方法提升的关键。

然而现有技术的方法，由于没有很好地融合文本中信息从而导致抽取效果不佳。

发明内容

本发明提出一种基于层次推理的医学实体关系抽取方法，用于解决或者至少部分解决现有技术中由于没有很好地融合文本中信息从而导致抽取效果不佳的技术问题。

为了解决上述技术问题，本发明提供了一种基于层次推理的医学实体关系抽取方法，包括：

S1：获取训练语料，训练语料为医学数据集；

S2：构建实体关系抽取模型，实体关系抽取模型包括嵌入模块、特征提取模块、实体层推理模块、句子层推理模块、文档层推理模块以及关系分类模块，其中，嵌入模块用于分别获取输入文本的句子层嵌入表示和实体层嵌入表示，特征提取模块用于采用门控膨胀卷积网络进行特征特征提取，实体层推理模块用于融合实体信息、实体类型信息和共指信息对实体进行表示，将双线性变换和迁移约束应用在多个子空间的目标实体对获得实体层推理信息，句子层推理模块用于引入注意力机制来计算每个句子所提供的信息量权重，将句子的单词表示形式进行融合得到句子向量，然后融合实体层推理信息得到句子层推理信息，文档层推理模块用于在句子层推理信息的基础上构建一个门控膨胀卷积网络，并引入注意力机制得到文档层推理信息，关系分类模块用于将实体层推理信息与文档层推理信息进行融合，得到实体关系的类别；

S3：利用获取的训练语料对实体关系抽取模型进行训练，使用交叉熵作为损失函数，利用Adam优化器来更新模型的参数，得到训练好的实体关系抽取模型；

S4：利用训练好的实体关系抽取模型对输入文本的实体关系进行抽取。

在一种实施方式中，步骤S1包括：

S1.1：构建以新冠肺炎疾病为中心的实体关系类型体系；

S1.2：爬取新冠肺炎相关文献语料；

S1.3：利用医学知识库中的三元组与新冠肺炎语料进行实体对齐；

S1.4：利用基于双数组字典树的方法对实体对齐后的语料进行自动标注，得到新冠肺炎实体关系抽取语料库，将其作为训练语料。

在一种实施方式中，步骤S2中嵌入模块，采用预训练模型BioBERT得到具有上下文信息的词向量表示，词向量表示与位置特征表示作为句子层嵌入表示，利用Glove得到包含实体信息和实体类型信息的实体类型向量和包含共指信息的共指向量，作为实体层嵌入表示。

在一种实施方式中，步骤S2中句子层推理模块的处理过程包括：

将词向量表示与位置特征表示结合输入到特征提取模块中，得到隐藏层的特征向量表示

其中，h_jt表示第j个句子中的第t个单词的隐藏层的特征向量，DGConv表示特征提取模块中门控膨胀卷积神经网络的运算过程，w_jt表示第j个句子中的第t个单词的词向量，

与

分别为头实体与尾实体的位置向量特征表示；

将隐藏层向量

输入到一个一层的多层感知器MLP中，计算公式为：

其中，

表示维度为d的实体域，tanh为多层感知器的激活函数，W_w，b_w， u_w为学习参数，

表示u_w的转置，L表示句子总数，T_j表示第j句的单词总数；

根据单词与目标实体的相关性获得单词的权重，计算公式为：

其中，exp表示以e为底的指数函数，α_jt表示多层感知器的输出，下方分母的含义为对整句中所有词向量的MLP输出的以e为底的指数函数结果求和；

通过将单词的隐层向量加权求和得到句子向量S_j，

S_j＝∑_tα_jth_jt

上式中，右侧表示对整句中所有词向量的权重与隐藏层向量的乘积求和。

在一种实施方式中，门控膨胀卷积网络的膨胀卷积的形式化公式为：

其中，f为输入，w为卷积核，t为卷积核的大小，p为卷积的下限值，q为卷积的上限值，l为膨胀率，左侧公式(f*lw)[t]为f与w的膨胀率为l的卷积，右侧为该膨胀卷积的标准展开形式，f[t-l*p]是第t-l*p个输入值，w[p]是卷积核大小为p时的值。

在一种实施方式中，关系分类模块中，采用sigmoid函数计算每个关系的概率，计算公式如下：

其中W_r和b_r分别为线性变换的权重矩阵和偏差，I_e和I_d分别为实体层推理信息与文档层推理信息，

表示权重矩阵与I_e和I_d上下拼接组成的向量做矩阵相乘,然后再加上偏差b_r后得到的结果作为sigmoid函数的输入，右侧的整个结果为计算得到的头实体w_h与尾实体w_t的关系为r的概率P(r|w_h,w_t)。

在一种实施方式中，交叉熵用以度量预测值与真实标签的差异性，并将其作为损失函数来计算模型损失，损失函数为：

其中n是样本个数，y_r∈{0,1}是标签为r的真值，p_r是标签为r的预测值，右侧公式的前两项即为预测概率为p_r、真值为y_r时的交叉熵损失函数，另外，右侧第三项是L2正则化项：在对模型进行训练时，引入L2正则化来避免模型出现过拟合的情况，其中λ为正则项超参数，w为各层网络的权重值矩阵，n为样本个数。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的基于层次推理的医学实体关系抽取方法，构建了基于层次推理的实体关系抽取模型，可以从不同维度来提取上下文信息，并分别从不同粒度进行文档信息的提取，通过实体层推理模块于融合实体信息和共指信息对实体进行表示，将双线性变换和迁移约束应用在多个子空间的目标实体对获得实体层推理信息，句子层推理模块引入注意力机制来计算每个句子所提供的信息量权重，将句子的单词表示形式进行融合得到句子向量，然后融合实体层推理信息得到句子层推理信息，文档层推理模块在句子层推理信息的基础上构建一个门控膨胀卷积网络，并引入注意力机制得到文档层推理信息，关系分类模块用于将实体层推理信息与文档层推理信息进行融合，得到实体关系的类别；从而改善了实体抽取效果，提升了文档级实体关系抽取模型的准确率。在具体应用中，可以为后续研究任务如知识图谱、问答系统等提供基础，为进一步对新冠肺炎的防治工作提供基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于层次推理的实体关系抽取方法的整体框架图；

图2为本发明实施例中基于层次推理的实体关系抽取方法工作流程图；

图3为本发明实施例中基于层次推理的实体关系抽取模型的工作流程图；

图4为本发明实施例中膨胀卷积的特征提取过程示意图；

图5为本发明实施例中引入门控单元与残差结构后的膨胀卷积特征提取过程示意图；

图6为本发明实施例中基于Attention的句子级表示；

图7为本发明实施例中基于上下文感知的文档级推理信息表示。

具体实施方式

本发明提供了一种基于层次推理的医学实体关系抽取方法，用以改善现有技术中对于实体关系抽取效果不佳的技术问题。

本发明的主要构思如下：

第一：抽取训练语料。首先提出以新冠肺炎疾病为中心的实体关系类型，然后借鉴远程监督的思想，利用字典树算法将医学知识库中的三元组知识与无标注文本进行实体对齐来得到新冠肺炎实体关系抽取训练语料。

第二：基于层次推理和门控膨胀卷积的实体关系抽取方法。提出了基于门控膨胀卷积神经网络和上下文感知推理机制的实体关系抽取模型。首先，用基于门控膨胀卷积的特征提取方法，从多个维度同时对特征进行提取；其次，通过融合实体信息、实体类型信息与共指信息来对实体进行表示；最后，采用层次化的分析与联合推理的方法，将不同粒度的信息综合起来，来最终预测实体间关系。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于层次推理的实体关系抽取方法，包括：

S1：获取训练语料，训练语料为医学数据集；

具体来说，图1为本发明实施例中基于层次推理的实体关系抽取方法的整体框架图；特征提取模块采用门控膨胀卷积网络进行不同粒度特征的提取。

在一种实施方式中，步骤S1包括：

S1.1：构建以新冠肺炎疾病为中心的实体关系类型体系；

S1.2：爬取新冠肺炎相关文献语料；

具体实施过程中，本发明首先提出以新冠肺炎疾病为中心的实体关系类型，然后将医学知识库中的三元组知识与无标注文本进行实体对齐来得到新冠肺炎实体关系抽取训练语料。

现有的公开医疗知识库中不包含与新冠肺疾病的相关症状、诊断方式与治疗方式。因此归纳整理了与新冠肺炎相关的症状实体、诊断实体、治疗实体。其中， CTD知识库中有标注的存在治疗关系的疾病实体与化学药物实体三元组，因此将其归类为治疗(疾病-治疗)关系，但是疾病不仅仅与药物之间存在治疗关系，与治疗方式也存在“疾病-治疗”关系，因此归纳总结了新冠肺炎疾病的治疗方式，并将其归类在“疾病-治疗”关系中。

考虑文献语料为英文，并且由于不同的实体在不同的研究文献中会有不同的表达方式，因此利用医学词典、MESH等工具收集整理了新冠肺炎疾病相关实体的同义词表达，为后续的标注工作做准备。

基于远程监督的思想，用医学知识库CTD中的三元组与无标注的新冠肺炎文献文本进行实体对齐。同样基于远程监督的假设，为了提高语料自动标注的效率，减少资源消耗，利用基于双数组字典树的方法对语料库进行自动标注，然后可以通过预训练模型BioBERT得到具有上下文信息的词向量表示。

图1中，左上方方框对应步骤S2～S3，得到了训练好的实体关系抽取模型，左下方方框对应步骤S1，具体为训练语料的获取。右方方框对应步骤S4为模型的具体应用。

图2则从数据集(训练集)构建和实体关系抽取两方面对基于层次图例的实体关系抽取流程进行了介绍。

图3为本发明实施例中基于层次推理的实体关系抽取模型的工作流程图，整体来说，首先，从多个维度同时对特征进行提取(句子层和实体层)；其次，通过融合实体信息、实体类型信息与共指信息来对实体进行表示；最后，将不同粒度的信息综合起来，来最终预测实体间关系。

其中，实体层推理模块中，实体信息包括：manoalide、maytenonic acid等、实体类型信息包括疾病、症状等，共指信息包括COVID-19与Corona Virus Disease 2019等。

具体来说，嵌入层中，实体层嵌入用Glove模型为特征词模型，利用Glove 得到实体类型向量、共指向量，与BioBERT模型预训练出的每个单词的词向量一起，拼接作为特征提取模块的输入。句子级嵌入主要分为词向量和位置向量的拼接。本申请发明人通过大量研究工作发现语料库文本中位置信息是有一定价值的，因此加入位置信息是一个有效的特征。对于包含n个单词的文本

假设文本中字w_i与实体对(头实体w_h，尾实体w_t)相对距离分别为

例如句子“Fever is a common symptom of COVID-19.”中，单词“symptom”相对于实体对(Fever，COVID-19)的相对距离为(3，-1)。然后，随机化位置矩阵，将相对位置乘以位置矩阵就可以得到最终的位置向量。则最终的位置嵌入向量可以表示为：

其中函数o(·)是将字符的相对位置转换为one-hot表示，W^pos表示可学习的位置矩阵，位置向量维度为d^pos。最终得到位置特征表示为

与

分别为头实体与尾实体的位置向量特征表示；

将隐藏层向量

输入到一个一层的多层感知器MLP中，计算公式为：

其中，

表示u_w的转置，L表示句子总数，T_j表示第j句的单词总数；

通过将单词的隐层向量加权求和得到句子向量S_j，

S_j＝∑_tα_jth_jt

具体来说，句子层推理模块：引入注意力机制来计算每个句子所提供的信息量(单词)权重，将这些单词表示形式进行融合得到句子向量，然后融合实体的推理信息得到句子级别的推理信息。在获取句子层次的推理信息时，首先对句子级特征进行注意力池化操作，使得模型能够为提供较高信息量的单词分配较高的权重，而为其他单词有选择地分配较低的权重。

如图6所示，对于句子级嵌入层，假设文本D中包含L句话，其中W_jt表示第j个句子中的第t个单词，结合位置特征输入到门控膨胀卷积神经网络特征提取器DGCNN中可以得到隐藏层的特征向量表示。

根据单词与目标实体的相关性获得单词的权重，即通过衡量“哪些单词与目标实体更具有相关性”来得到单词的不同权重。

在文档层推理模块中，首先在句子层推理信息I_s的基础上构建了一个门控膨胀卷积网络，由于文档中不同的句子具有不同的信息性，为此再次引入了注意力机制，使得模型能够区分较为重要的句子级推理信息，从而得到文档级的推理信息I_d。如图7所示是基于上下文感知的文档级推理信息表示。其具体的推理过程同句子级推理模块的过程相似，在此不再赘述。

具体来说，在不增加模型参数的情况下，为了使得CNN模型能够捕捉到更远的距离信息，借鉴膨胀卷积的思想，本发明将其应用在对文本的特征提取过程中如图4所示。与传统卷积相反，膨胀卷积的内核中存在洞，洞的大小为膨胀率。

普通卷积神经网络在第三层时，每个节点只能捕捉到前后共6个输入，而在膨胀卷积在第三层时则能捕捉到前后14个输入。为了保证信息的完整性，膨胀卷积网络的底层不进行膨胀，上层按照指数增长来提高膨胀率，因此按照“尽量不重不漏”的原则。

为了获得更全局的信息，需要构建一个多层的膨胀卷积网络，然而随着层数的增加，会面临着梯度消失的问题，门控卷积的思想是设计一个带有门控单元的卷积神经网络，并将其封装成残差块进行堆叠，降低梯度消失的风险，从而保证整个网络可以被有效的更新。加上门控单元的卷积网络保证了提取的上下文特征具有时序性，而膨胀卷积可以获取长距离信息，增加模型感受野，引入门控单元与残差结构后的膨胀卷积特征提取过程如图5所示，I和O分别表示输入文本与特征输出，σ表示为sigmoid函数。

具体来说，在最后的关系分类模型中，为了更好地集成不同粒度的推理信息，将实体级别推理信息与文档级别推理信息融合在一起，并使用sigmoid函数来计算每个关系的概率。

作为优选，由于Adam优化器的超参数具有很好的解释性并且参数调整幅度较小，因此利用Adam优化器来更新参数。

本发明提供的是一种通过基于层次推理的实体关系抽取模型来提取新冠肺炎相关实体关系三元组的方法，首先，利用远程监督将已有知识库与相关文献进行对齐，构建了COVID-19实体关系抽取数据集；然后，基于门控卷积和膨胀卷积，构建了从不同维度来提取上下文信息的特征提取器；最终，基于层次推理机制，利用不同粒度的文档信息来对文本进行实体关系抽取，提升了文档级实体关系抽取模型的准确率。在具体应用过程中，通过本发明抽取的新冠肺炎相关数据的实体关系，可以为后续研究任务如知识图谱、问答系统等提供基础，为进一步对新冠肺炎的防治工作提供基础。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。