CN116521888A

CN116521888A - 一种基于DocRE模型进行医疗长文档跨句关系抽取方法

Info

Publication number: CN116521888A
Application number: CN202310270857.4A
Authority: CN
Inventors: 张怡; 章永
Original assignee: Mabo Shanghai Health Technology Co ltd
Current assignee: Mabo Shanghai Health Technology Co ltd
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-08-01

Abstract

本发明提供了一种基于DocRE模型进行医疗长文档跨句关系抽取方法，其特征在于，包括把文档级关系抽取的所有三元组用实体级关系矩阵表示，在这个基础之上，创新性地提出DocRE模型，将文档级关系抽取任务类比于计算机视觉中的语义分割任务；DocRE模型利用编码器模块捕获实体的上下文信息，并采用U‑shaped分割模块在Image‑style特征图上利用卷积、上采样、下采样可以很好的建立起三元组之间的关联，以此捕获三元组之间的全局相互依赖性，通过预测实体级关系矩阵来捕获local和global信息以增强文档级关系抽取效果；本发明相对于过去的关系抽取方法主要将注意力集中于抽取单个实体对在某个句子内反映的关系，DocRE模型考虑到全局相互依赖性，使用更多文本信息增强文档级关系抽取效果。

Description

一种基于DocRE模型进行医疗长文档跨句关系抽取方法

技术领域

本发明涉及关系抽取技术领域，具体涉及一种医疗长文本的关系抽取方法，具体地说是一种基于DocRE模型进行医疗长文档跨句关系抽取方法。

背景技术

医疗知识图谱构建离不开大量的三元组，而三元组的获取有一项就是关系抽取。关系抽取是信息抽取领域中的重要任务之一，目的在于抽取文本中的实体对，以及识别实体对之间的语义关系。存在于海量医疗文本中的知识体系网络，可以为其他NLP技术(实体链接，query解析，问答系统，信息检索等)提供可解释性的先验知识(知识表示)和推理。过去的关系抽取方法主要将注意力集中于抽取单个实体对在某个句子内反映的关系，然而单句关系抽取在实践中受到不可避免的限制：在真实场景如医疗中，有许多关系事实是蕴含在文档中不同句子的实体对中的，且文档中的多个实体之间，往往存在复杂的相互关系。

例如：在临床上病人发生关节脱位和骨折后,所导致的原因都是由于受到了直接外力或者间接外力而产生的。而且病人在发生损伤后会共同感觉在受伤部位,有较重的、明显的针刺样疼痛或者刀割样疼痛,局部肿胀明显,有皮下淤青,局部压痛阳性,叩击痛阳性,而且关节部位会出现功能障碍。可以通过拍摄x光片,就能够做出明确诊断。

考虑句子级别关系抽取，我们可以找到(直接外力-因果关系-关节脱位)、(直接外力-因果关系-骨折)、(间接外力-因果关系-关节脱位)、(间接外力-因果关系-骨折)三元组,实体在同一个句子中的出现，这种句内关系相对容易识别；考虑文档级别关系抽取的话，可以抽取出(关节脱位-症状-皮下淤青)、(关节脱位-症状-关节部位会出现功能障碍)等多个三元组关系，该文档相关实体并没有出现在同一个句子中并且需要长距离依赖，抽取过程需要对文档中的多个句子进行阅读和推理，这显然超出了句子级关系抽取方法的能力范围。因此，有必要将关系抽取从句子级别推进到文档级别。

但现有技术中，大部分文档级别的实体关系横跨多个句子，关系抽取模型要捕捉更长的上下文信息；同一文档中包含大量实体，文档级别关系抽取需要同时抽取所有实体间的关系，文档级别关系抽取的样本类别属于长尾分布；所以由于文档级别的数据标注任务较难，现有的数据集中人工标注的训练数据十分有限，大量的训练数据为远程监督的训练数据，而远程监督的数据中存在大量的噪音，限制模型的训练。

发明内容

本发明的目的在于提出一种基于DocRE模型进行医疗长文档跨句关系抽取方法，该方法考虑到相关实体并没有出现在同一个句子中并且需要长距离依赖，抽取过程需要对文档中的多个句子进行阅读，以解决由于文档级别的数据标注任务较难，现有的数据集中人工标注的训练数据十分有限，大量的训练数据为远程监督的训练数据，而远程监督的数据中存在大量的噪音，限制模型的训练的问题。

为实现上述目的，本发明提供以下技术方案：

一种基于DocRE模型进行医疗长文档跨句关系抽取方法，包括把文档级关系抽取的所有三元组(知识图谱的一种通用表示方式，包含实体、实体之间的关系，三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等)用实体级关系矩阵表示，在这个基础之上，创新性地提出DocRE模型，将文档级关系抽取任务类比于计算机视觉中的语义分割任务(结合了图像分类、目标检测和图像分割，通过一定的方法将图像分割成具有一定语义含义的区域块，并识别出每个区域块的语义类别，实现从底层到高层的语义推理过程，最终得到一幅具有逐像素语义标注的分割图像)；DocRE模型利用编码器模块捕获实体的上下文信息，并采用U-shaped分割模块在Image-style特征图上利用卷积、上采样、下采样可以很好的建立起三元组之间的关联，以此捕获三元组之间的全局相互依赖性，通过预测实体级关系矩阵来捕获local和global信息以增强文档级关系抽取效果；具体通过以下步骤实现：

S1、非结构化的医学文本收集，医学文本具体包括：医学教材每一个自然段落，临床实践中每种疾病下的主题，电子病历数据中的主诉、现病史、鉴别诊断等；

S2、从非结构化医学文本中找出医学实体，并确定实体对关系事实，比如条件关系、因果关系、合并症关系等；

S3、三元组关系抽取视为Sequence-To-Sequence的任务，对实体和关系之间的交叉依赖进行建模；将输入文本定义为源目标序列，将输出三元组定义为目标序列；

S4、将实体级关系矩阵F∈R^N*N*D作为Dchannel图像，我们在F中将文档级关系预测作为像素级掩码，其中N是从所有数据集样本中计算出的最大的实体数量；

S5、使用实体级关系矩阵Y表示e_s和e_o，使用前馈神经网络映射称为隐藏表示z，然后，通过双线性函数获得实体之间关系预测的概率；

S6、由于观察到关系抽取存在不平衡关系分布(即许多实体对具有NA的关系)，引入了一种平衡的softmax方法进行训练。

所述步骤S3中源目标序列仅由输入句子的标记组成，具体内容如下所示：

[CLS]在心率规整的情况下，脉搏的频率与心率是一样的，成年人的脉搏一般在60-100次之间，大部分在70-80次之间，怀孕后的女性由于生理性贫血的影响以及循环血量增加使心脏的负担加重，可能会使心率相对加快；[SEP]

目标序列则由特殊标记”<e>”和”</e>”分隔的每个实体/关系的三元组；如下：

生理性贫血的影响<e>心脏的负担加重</e>因果关系，循环血量增加<e>心脏的负担加重</e>因果关系心脏的负担加重<e>心率相对加快</e>因果关系；

H＝[h₁,h₂,...,h_L]＝Encodeer([x₁,x₂,...,x_L])

F(e_s,e_o)＝W₂Hα^(s,o)

对于具体公式来说：第一个公式表示采用BERT等预训练模型作为编码器获取实体与关系的嵌入embedding，即每一个单词得向量表示；x_i是构成文档d的token，h_i是对应的embedding；

第二个公式因为有些文件的长度超过512，于是利用动态窗口对整个文件进行编码；对不同窗口的重叠标记的嵌入进行平均，以获得最终的表示，文中采用的方法为最大池化的平滑：logsumexppooling，以获得最后的实体嵌入e_i；这种池化操作好处是积累了实体在文件中所有出现位置的信号；

需要根据实体与实体之间的相关性来计算实体层面的关系矩阵，对于矩阵中的每个实体，两两之间的相关性由一维特征向量F(e_s,e_o)捕获，文章提出两种计算相关性的策略：

第三个公式和第四个公式：基于实体感知的注意力机制和仿生变换的策略来获得特相关性征向量，其中α^(s,o)表示实体感知注意力的注意力权重，H是文档嵌入，K是transformer模型头部的数量。

所述步骤S4具体包括以下内容：

将实体级关系矩阵F∈R^N*N*D作为Dchannel图像，我们在F中将文档级关系预测作为像素级掩码，其中N是从所有数据集样本中计算出的最大的实体数量；具体来说，N是实体的最大数量，从所有数据集样本中统计；为此，我们利用了U-Net，这是计算机视觉中一个著名的语义分割模型；模块形成u形分割结构，其中包含两个下采样块和两个具有跳跃连接的上采样块；一方面，每个下采样块有两个后续的maxpooling和独立的卷积模块；在每个下采样块中，通道数量增加一倍；实体级关系矩阵中的分割区域为实体对之间的关系共现；u形分割结构可以促进接受域类比中实体对之间的信息交换向隐式推理转变；具体来说，CNN和下采样块可以扩大当前实体对嵌入F(e_s,e_o)的接受域，从而为表示学习提供丰富的全局信息；另一方面，该模型有两个上采样块和一个后续的反卷积神经网络和两个独立的卷积模块；与下采样不同，每个上采样块的信道数减半，可以将聚合的信息分布到每个像素上；

最后，我们结合编码模块和U-shaped分割模块来捕获局部和全局信息Y，如下所示:

Y＝U(W₃F)

Y属于F∈R^N*N*D是实体级关系矩阵，U为U-shape分割模块。

所述步骤S5具体通过以下内容计算：

Z_s＝tanh(W_se_s+Y_s,o)

Z_o＝tanh(W_oe_o+Y_s,o)

P(r|e_s,e_o)＝σ(z_sW_rz_o+b_r)

Y_s,o是实体对(s,o)在矩阵Y的表示,使用前馈神经网络将它们映射到隐藏表示z，就是下面的Z_s和Z_o，然后，通过双线性函数获得实体对之间关系预测的概率表示公式P。

所述步骤S6中训练方法具体如下所示：

该训练方法受到了计算机视觉中的circle loss的启发；具体来说，我们引入了一个额外的类别S₀，希望目标类别的分数都大于S₀，而非目标类别的分数都小于S₀：

与现有技术相比，本发明有益效果如下：

本发明考虑到文档级别关系抽取需要考虑上下文信息，把文档级抽取的三元组表示成实体关系矩阵，基于语义分割的思想，提出使用CNN+UNet组合而成的DocRE模型进行文档级别关系抽取；这种方法相对于过去的关系抽取方法主要将注意力集中于抽取单个实体对在某个句子内反映的关系，DocRE模型考虑到全局相互依赖性，使用更多文本信息增强文档级关系抽取效果。

附图说明

图1为本发明的模型架构图；

图2为CNN卷积神经网络的架构；

图3为UNET模型示意图。

具体实施方式

为阐明技术问题、技术方案、实施过程及性能展示，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释。本发明，并不用于限定本发明。以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

实施例1

如图1所示，本发明把文档级关系抽取任务看作语义分割来求解，给出了如何将CNN+UNet模型组合进行文档级关系抽取的解决方案，能有效得理解局部上下文和全局相互依赖性，在同等数量医疗文档中，会抽取出比句子级别关系抽取更多的的三元组，为我们构建医疗知识图谱提供更多信息。

CNN的全称是"Convolutional Neural Network"(卷积神经网络)。CNN是一种人工神经网络，CNN的结构可以分为3层：1、卷积层(Convolutional Layer)-主要作用是提取特征。2、池化层(Max Pooling Layer)-主要作用是下采样(downsampling)，而不会损坏识别结果。3、全连接层(Fully Connected Layer)-主要作用是分类。

UNET模型是一个语义分割模型，其主要执行过程与其它语义分割模型类似，首先利用卷积进行下采样，然后提取出一层又一层的特征，利用这一层又一层的特征，其再进行上采样，最后得出一个每个像素点对应其种类的图像。

如图2所示，关于CNN卷积神经网络的架构：

卷积层(Convolutional layer)：卷积层由多个卷积单元组成，每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算主要为了提取图像的特征，随着卷积层的增加，多层网络可以提取更为复杂的图像特征。

线性整流(Rectified Linear Units layer,ReLU layer)：主要指的是激活函数运算(Activation function)使用线性整流的ReLu函数(Rectified Linear Units,ReLU)。

池化层(Pooling layer)：在卷积之后图像的维度特征依然很多，将特征矩阵分割成几个单个区块，取其最大值或平均值，起到了降维的作用。

全连接层(Fully-Connected layer)：把所有局部特征以及各通道的特征矩阵结合变为向量代表，计算最后每一类的得分。

如图3所示，关于UNET模型：

Unet网络的主要结构包括了编码器、解码器、瓶颈层三个部分。

编码器部分：包括了三个程序块。每个程序块都包括3*3的卷积(使用Relu激活函数)，步幅为2的2*2的池化层。每个程序块处理后，特征图逐步缩小。

瓶颈层部分：包含了两个3*3的卷积层。

解码器部分：与编码器部分对称，也包括三个程序块，每个程序块包括步幅为2的2*2的上采样操作，然后与编码部分进行特征映射级联(concatenate)，最后通过两个3*3的卷积(使用Relu激活函数)。最终输出层包含一个1*1的卷积层，其后紧跟sigmoid激活函数，生成二维断层概率图像。

一种基于DocRE模型进行医疗长文档跨句关系抽取方法，包括把文档级关系抽取的所有三元组用实体级关系矩阵表示，在这个基础之上，创新性地提出DocRE模型，将文档级关系抽取任务类比于计算机视觉中的语义分割任务；DocRE模型利用编码器模块捕获实体的上下文信息，并采用U-shaped分割模块在Image-style特征图上利用卷积、上采样、下采样可以很好的建立起三元组之间的关联，以此捕获三元组之间的全局相互依赖性，通过预测实体级关系矩阵来捕获local和global信息以增强文档级关系抽取效果；具体通过以下步骤实现：

H＝[h₁,h₂,...,h_L]＝Encodeer([x₁,x₂,...,x_L])

F(e_s,e_o)＝W₂Hα^(s,o)

所述步骤S4具体包括以下内容：

Y＝U(W₃F)

Y属于F∈R^N*N*D是实体级关系矩阵，U为U-shape分割模块。

所述步骤S5具体通过以下内容计算：

Z_s＝tanh(W_se_s+Y_s,o)

Z_o＝tanh(W_oe_o+Y_s,o)

P(r|e_s,e_o)＝σ(z_sW_rz_o+b_r)

所述步骤S6中训练方法具体如下所示：

为了验证模型的效果，在从医学教材，电子病历抽出来的数据集上，分别采用DocRE模型跟没有语义分割模型做实体关系抽取实验，结果发现没有语义分割的模型性能显著下降，这说明了语义分割模块在文档级关系抽取模型中是有效的。

同时，发现对比模型中有语义分割模块和没有语义分割模块的实验结果，我们发现随着实体的个数越多，它们之间的性能差异越大。这也说明，在实体个数很多的文档中，建模全局的实体三元组之间的关联，对于文档级的关系抽取是有一定帮助的。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于DocRE模型进行医疗长文档跨句关系抽取方法，其特征在于，包括把文档级关系抽取的所有三元组用实体级关系矩阵表示，在这个基础之上，创新性地提出DocRE模型，将文档级关系抽取任务类比于计算机视觉中的语义分割任务；DocRE模型利用编码器模块捕获实体的上下文信息，并采用U-shaped分割模块在Image-style特征图上利用卷积、上采样、下采样可以很好的建立起三元组之间的关联，以此捕获三元组之间的全局相互依赖性，通过预测实体级关系矩阵来捕获local和global信息以增强文档级关系抽取效果；具体通过以下步骤实现：

2.根据权利要求1所述的一种基于DocRE模型进行医疗长文档跨句关系抽取方法，其特征在于，所述步骤S3中源目标序列仅由输入句子的标记组成，具体内容如下所示：

H＝[h₁,h₂,...,h_L]＝Encodeer([x₁,x₂,...,x_L])

F(e_s，e_o)＝W₂Hα^(s，o)

对于具体公式来说：第一个公式表示采用BERT等预训练模型作为编码器获取实体与关系的嵌入embedding，即每一个单词得向量表示；x_i是构成文档d的词语，h_i是对应的embedding；

第二个公式因为有些文件的长度超过512，于是利用动态窗口对整个文件进行编码；对不同窗口的重叠标记的嵌入进行平均，以获得最终的表示，文中采用的方法为最大池化的平滑版本，以获得最后的实体嵌入e_i；这种池化操作好处是积累了实体在文件中所有出现位置的信号；

需要根据实体与实体之间的相关性来计算实体层面的关系矩阵，对于矩阵中的每个实体，两两之间的相关性由一维特征向量F(e_s,e_o)捕获；

3.根据权利要求1所述的一种基于DocRE模型进行医疗长文档跨句关系抽取方法，其特征在于，所述步骤S4具体包括以下内容：

将实体级关系矩阵F∈R^N*N*D作为Dchannel图像，我们在F中将文档级关系预测作为像素级掩码，其中N是从所有数据集样本中计算出的最大的实体数量；具体来说，N是实体的最大数量，从所有数据集样本中统计；为此，我们利用了U-Net，这是计算机视觉中一个著名的语义分割模型；模块形成u形分割结构，其中包含两个下采样块和两个具有跳跃连接的上采样块；一方面，每个下采样块有两个后续的max pooling和独立的卷积模块；在每个下采样块中，通道数量增加一倍；实体级关系矩阵中的分割区域为实体对之间的关系共现；u形分割结构可以促进接受域类比中实体对之间的信息交换向隐式推理转变；具体来说，CNN和下采样块可以扩大当前实体对嵌入F(e_s,e_o)的接受域，从而为表示学习提供丰富的全局信息；另一方面，该模型有两个上采样块和一个后续的反卷积神经网络和两个独立的卷积模块；与下采样不同，每个上采样块的信道数减半，可以将聚合的信息分布到每个像素上；

Y＝U(W₃F)

Y属于F∈R^N*N*D是实体级关系矩阵，U为U-shape分割模块。

4.根据权利要求1所述的一种基于DocRE模型进行医疗长文档跨句关系抽取方法，其特征在于，所述步骤S5具体通过以下内容计算：

z_s＝tanh(W_se_s+Y_s，o)

Z_o＝tanh(W_oe_o+Y_s，o)

P(r|e_s，e_o)＝σ(z_sW_rz_o+b_r)

5.根据权利要求1所述的一种基于DocRE模型进行医疗长文档跨句关系抽取方法，其特征在于，所述步骤S6中训练方法具体如下所示：

具体来说，我们引入了一个额外的类别S₀，希望目标类别的分数都大于S₀，而非目标类别的分数都小于S₀：