CN116521888A - 一种基于DocRE模型进行医疗长文档跨句关系抽取方法 - Google Patents
一种基于DocRE模型进行医疗长文档跨句关系抽取方法 Download PDFInfo
- Publication number
- CN116521888A CN116521888A CN202310270857.4A CN202310270857A CN116521888A CN 116521888 A CN116521888 A CN 116521888A CN 202310270857 A CN202310270857 A CN 202310270857A CN 116521888 A CN116521888 A CN 116521888A
- Authority
- CN
- China
- Prior art keywords
- entity
- relation
- level
- document
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 230000000694 effects Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 230000001364 causal effect Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 239000008280 blood Substances 0.000 claims description 7
- 210000004369 blood Anatomy 0.000 claims description 7
- 208000007502 anemia Diseases 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 4
- 230000008901 benefit Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 4
- 230000003592 biomimetic effect Effects 0.000 claims description 3
- 238000003748 differential diagnosis Methods 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims 1
- 230000004913 activation Effects 0.000 description 5
- 206010023204 Joint dislocation Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 230000004064 dysfunction Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007920 subcutaneous administration Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000032912 Local swelling Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种基于DocRE模型进行医疗长文档跨句关系抽取方法,其特征在于,包括把文档级关系抽取的所有三元组用实体级关系矩阵表示,在这个基础之上,创新性地提出DocRE模型,将文档级关系抽取任务类比于计算机视觉中的语义分割任务;DocRE模型利用编码器模块捕获实体的上下文信息,并采用U‑shaped分割模块在Image‑style特征图上利用卷积、上采样、下采样可以很好的建立起三元组之间的关联,以此捕获三元组之间的全局相互依赖性,通过预测实体级关系矩阵来捕获local和global信息以增强文档级关系抽取效果;本发明相对于过去的关系抽取方法主要将注意力集中于抽取单个实体对在某个句子内反映的关系,DocRE模型考虑到全局相互依赖性,使用更多文本信息增强文档级关系抽取效果。
Description
技术领域
本发明涉及关系抽取技术领域,具体涉及一种医疗长文本的关系抽取方法,具体地说是一种基于DocRE模型进行医疗长文档跨句关系抽取方法。
背景技术
医疗知识图谱构建离不开大量的三元组,而三元组的获取有一项就是关系抽取。关系抽取是信息抽取领域中的重要任务之一,目的在于抽取文本中的实体对,以及识别实体对之间的语义关系。存在于海量医疗文本中的知识体系网络,可以为其他NLP技术(实体链接,query解析,问答系统,信息检索等)提供可解释性的先验知识(知识表示)和推理。过去的关系抽取方法主要将注意力集中于抽取单个实体对在某个句子内反映的关系,然而单句关系抽取在实践中受到不可避免的限制:在真实场景如医疗中,有许多关系事实是蕴含在文档中不同句子的实体对中的,且文档中的多个实体之间,往往存在复杂的相互关系。
例如:在临床上病人发生关节脱位和骨折后,所导致的原因都是由于受到了直接外力或者间接外力而产生的。而且病人在发生损伤后会共同感觉在受伤部位,有较重的、明显的针刺样疼痛或者刀割样疼痛,局部肿胀明显,有皮下淤青,局部压痛阳性,叩击痛阳性,而且关节部位会出现功能障碍。可以通过拍摄x光片,就能够做出明确诊断。
考虑句子级别关系抽取,我们可以找到(直接外力-因果关系-关节脱位)、(直接外力-因果关系-骨折)、(间接外力-因果关系-关节脱位)、(间接外力-因果关系-骨折)三元组,实体在同一个句子中的出现,这种句内关系相对容易识别;考虑文档级别关系抽取的话,可以抽取出(关节脱位-症状-皮下淤青)、(关节脱位-症状-关节部位会出现功能障碍)等多个三元组关系,该文档相关实体并没有出现在同一个句子中并且需要长距离依赖,抽取过程需要对文档中的多个句子进行阅读和推理,这显然超出了句子级关系抽取方法的能力范围。因此,有必要将关系抽取从句子级别推进到文档级别。
但现有技术中,大部分文档级别的实体关系横跨多个句子,关系抽取模型要捕捉更长的上下文信息;同一文档中包含大量实体,文档级别关系抽取需要同时抽取所有实体间的关系,文档级别关系抽取的样本类别属于长尾分布;所以由于文档级别的数据标注任务较难,现有的数据集中人工标注的训练数据十分有限,大量的训练数据为远程监督的训练数据,而远程监督的数据中存在大量的噪音,限制模型的训练。
发明内容
本发明的目的在于提出一种基于DocRE模型进行医疗长文档跨句关系抽取方法,该方法考虑到相关实体并没有出现在同一个句子中并且需要长距离依赖,抽取过程需要对文档中的多个句子进行阅读,以解决由于文档级别的数据标注任务较难,现有的数据集中人工标注的训练数据十分有限,大量的训练数据为远程监督的训练数据,而远程监督的数据中存在大量的噪音,限制模型的训练的问题。
为实现上述目的,本发明提供以下技术方案:
一种基于DocRE模型进行医疗长文档跨句关系抽取方法,包括把文档级关系抽取的所有三元组(知识图谱的一种通用表示方式,包含实体、实体之间的关系,三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等)用实体级关系矩阵表示,在这个基础之上,创新性地提出DocRE模型,将文档级关系抽取任务类比于计算机视觉中的语义分割任务(结合了图像分类、目标检测和图像分割,通过一定的方法将图像分割成具有一定语义含义的区域块,并识别出每个区域块的语义类别,实现从底层到高层的语义推理过程,最终得到一幅具有逐像素语义标注的分割图像);DocRE模型利用编码器模块捕获实体的上下文信息,并采用U-shaped分割模块在Image-style特征图上利用卷积、上采样、下采样可以很好的建立起三元组之间的关联,以此捕获三元组之间的全局相互依赖性,通过预测实体级关系矩阵来捕获local和global信息以增强文档级关系抽取效果;具体通过以下步骤实现:
S1、非结构化的医学文本收集,医学文本具体包括:医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等;
S2、从非结构化医学文本中找出医学实体,并确定实体对关系事实,比如条件关系、因果关系、合并症关系等;
S3、三元组关系抽取视为Sequence-To-Sequence的任务,对实体和关系之间的交叉依赖进行建模;将输入文本定义为源目标序列,将输出三元组定义为目标序列;
S4、将实体级关系矩阵F∈RN*N*D作为Dchannel图像,我们在F中将文档级关系预测作为像素级掩码,其中N是从所有数据集样本中计算出的最大的实体数量;
S5、使用实体级关系矩阵Y表示es和eo,使用前馈神经网络映射称为隐藏表示z,然后,通过双线性函数获得实体之间关系预测的概率;
S6、由于观察到关系抽取存在不平衡关系分布(即许多实体对具有NA的关系),引入了一种平衡的softmax方法进行训练。
所述步骤S3中源目标序列仅由输入句子的标记组成,具体内容如下所示:
[CLS]在心率规整的情况下,脉搏的频率与心率是一样的,成年人的脉搏一般在60-100次之间,大部分在70-80次之间,怀孕后的女性由于生理性贫血的影响以及循环血量增加使心脏的负担加重,可能会使心率相对加快;[SEP]
目标序列则由特殊标记”<e>”和”</e>”分隔的每个实体/关系的三元组;如下:
生理性贫血的影响<e>心脏的负担加重</e>因果关系,循环血量增加<e>心脏的负担加重</e>因果关系心脏的负担加重<e>心率相对加快</e>因果关系;
H=[h1,h2,...,hL]=Encodeer([x1,x2,...,xL])
F(es,eo)=W2Hα(s,o)
对于具体公式来说:第一个公式表示采用BERT等预训练模型作为编码器获取实体与关系的嵌入embedding,即每一个单词得向量表示;xi是构成文档d的token,hi是对应的embedding;
第二个公式因为有些文件的长度超过512,于是利用动态窗口对整个文件进行编码;对不同窗口的重叠标记的嵌入进行平均,以获得最终的表示,文中采用的方法为最大池化的平滑:logsumexppooling,以获得最后的实体嵌入ei;这种池化操作好处是积累了实体在文件中所有出现位置的信号;
需要根据实体与实体之间的相关性来计算实体层面的关系矩阵,对于矩阵中的每个实体,两两之间的相关性由一维特征向量F(es,eo)捕获,文章提出两种计算相关性的策略:
第三个公式和第四个公式:基于实体感知的注意力机制和仿生变换的策略来获得特相关性征向量,其中α(s,o)表示实体感知注意力的注意力权重,H是文档嵌入,K是transformer模型头部的数量。
所述步骤S4具体包括以下内容:
将实体级关系矩阵F∈RN*N*D作为Dchannel图像,我们在F中将文档级关系预测作为像素级掩码,其中N是从所有数据集样本中计算出的最大的实体数量;具体来说,N是实体的最大数量,从所有数据集样本中统计;为此,我们利用了U-Net,这是计算机视觉中一个著名的语义分割模型;模块形成u形分割结构,其中包含两个下采样块和两个具有跳跃连接的上采样块;一方面,每个下采样块有两个后续的maxpooling和独立的卷积模块;在每个下采样块中,通道数量增加一倍;实体级关系矩阵中的分割区域为实体对之间的关系共现;u形分割结构可以促进接受域类比中实体对之间的信息交换向隐式推理转变;具体来说,CNN和下采样块可以扩大当前实体对嵌入F(es,eo)的接受域,从而为表示学习提供丰富的全局信息;另一方面,该模型有两个上采样块和一个后续的反卷积神经网络和两个独立的卷积模块;与下采样不同,每个上采样块的信道数减半,可以将聚合的信息分布到每个像素上;
最后,我们结合编码模块和U-shaped分割模块来捕获局部和全局信息Y,如下所示:
Y=U(W3F)
Y属于F∈RN*N*D是实体级关系矩阵,U为U-shape分割模块。
所述步骤S5具体通过以下内容计算:
Zs=tanh(Wses+Ys,o)
Zo=tanh(Woeo+Ys,o)
P(r|es,eo)=σ(zsWrzo+br)
Ys,o是实体对(s,o)在矩阵Y的表示,使用前馈神经网络将它们映射到隐藏表示z,就是下面的Zs和Zo,然后,通过双线性函数获得实体对之间关系预测的概率表示公式P。
所述步骤S6中训练方法具体如下所示:
该训练方法受到了计算机视觉中的circle loss的启发;具体来说,我们引入了一个额外的类别S0,希望目标类别的分数都大于S0,而非目标类别的分数都小于S0:
与现有技术相比,本发明有益效果如下:
本发明考虑到文档级别关系抽取需要考虑上下文信息,把文档级抽取的三元组表示成实体关系矩阵,基于语义分割的思想,提出使用CNN+UNet组合而成的DocRE模型进行文档级别关系抽取;这种方法相对于过去的关系抽取方法主要将注意力集中于抽取单个实体对在某个句子内反映的关系,DocRE模型考虑到全局相互依赖性,使用更多文本信息增强文档级关系抽取效果。
附图说明
图1为本发明的模型架构图;
图2为CNN卷积神经网络的架构;
图3为UNET模型示意图。
具体实施方式
为阐明技术问题、技术方案、实施过程及性能展示,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释。本发明,并不用于限定本发明。以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
实施例1
如图1所示,本发明把文档级关系抽取任务看作语义分割来求解,给出了如何将CNN+UNet模型组合进行文档级关系抽取的解决方案,能有效得理解局部上下文和全局相互依赖性,在同等数量医疗文档中,会抽取出比句子级别关系抽取更多的的三元组,为我们构建医疗知识图谱提供更多信息。
CNN的全称是"Convolutional Neural Network"(卷积神经网络)。CNN是一种人工神经网络,CNN的结构可以分为3层:1、卷积层(Convolutional Layer)-主要作用是提取特征。2、池化层(Max Pooling Layer)-主要作用是下采样(downsampling),而不会损坏识别结果。3、全连接层(Fully Connected Layer)-主要作用是分类。
UNET模型是一个语义分割模型,其主要执行过程与其它语义分割模型类似,首先利用卷积进行下采样,然后提取出一层又一层的特征,利用这一层又一层的特征,其再进行上采样,最后得出一个每个像素点对应其种类的图像。
如图2所示,关于CNN卷积神经网络的架构:
卷积层(Convolutional layer):卷积层由多个卷积单元组成,每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算主要为了提取图像的特征,随着卷积层的增加,多层网络可以提取更为复杂的图像特征。
线性整流(Rectified Linear Units layer,ReLU layer):主要指的是激活函数运算(Activation function)使用线性整流的ReLu函数(Rectified Linear Units,ReLU)。
池化层(Pooling layer):在卷积之后图像的维度特征依然很多,将特征矩阵分割成几个单个区块,取其最大值或平均值,起到了降维的作用。
全连接层(Fully-Connected layer):把所有局部特征以及各通道的特征矩阵结合变为向量代表,计算最后每一类的得分。
如图3所示,关于UNET模型:
Unet网络的主要结构包括了编码器、解码器、瓶颈层三个部分。
编码器部分:包括了三个程序块。每个程序块都包括3*3的卷积(使用Relu激活函数),步幅为2的2*2的池化层。每个程序块处理后,特征图逐步缩小。
瓶颈层部分:包含了两个3*3的卷积层。
解码器部分:与编码器部分对称,也包括三个程序块,每个程序块包括步幅为2的2*2的上采样操作,然后与编码部分进行特征映射级联(concatenate),最后通过两个3*3的卷积(使用Relu激活函数)。最终输出层包含一个1*1的卷积层,其后紧跟sigmoid激活函数,生成二维断层概率图像。
一种基于DocRE模型进行医疗长文档跨句关系抽取方法,包括把文档级关系抽取的所有三元组用实体级关系矩阵表示,在这个基础之上,创新性地提出DocRE模型,将文档级关系抽取任务类比于计算机视觉中的语义分割任务;DocRE模型利用编码器模块捕获实体的上下文信息,并采用U-shaped分割模块在Image-style特征图上利用卷积、上采样、下采样可以很好的建立起三元组之间的关联,以此捕获三元组之间的全局相互依赖性,通过预测实体级关系矩阵来捕获local和global信息以增强文档级关系抽取效果;具体通过以下步骤实现:
S1、非结构化的医学文本收集,医学文本具体包括:医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等;
S2、从非结构化医学文本中找出医学实体,并确定实体对关系事实,比如条件关系、因果关系、合并症关系等;
S3、三元组关系抽取视为Sequence-To-Sequence的任务,对实体和关系之间的交叉依赖进行建模;将输入文本定义为源目标序列,将输出三元组定义为目标序列;
S4、将实体级关系矩阵F∈RN*N*D作为Dchannel图像,我们在F中将文档级关系预测作为像素级掩码,其中N是从所有数据集样本中计算出的最大的实体数量;
S5、使用实体级关系矩阵Y表示es和eo,使用前馈神经网络映射称为隐藏表示z,然后,通过双线性函数获得实体之间关系预测的概率;
S6、由于观察到关系抽取存在不平衡关系分布(即许多实体对具有NA的关系),引入了一种平衡的softmax方法进行训练。
所述步骤S3中源目标序列仅由输入句子的标记组成,具体内容如下所示:
[CLS]在心率规整的情况下,脉搏的频率与心率是一样的,成年人的脉搏一般在60-100次之间,大部分在70-80次之间,怀孕后的女性由于生理性贫血的影响以及循环血量增加使心脏的负担加重,可能会使心率相对加快;[SEP]
目标序列则由特殊标记”<e>”和”</e>”分隔的每个实体/关系的三元组;如下:
生理性贫血的影响<e>心脏的负担加重</e>因果关系,循环血量增加<e>心脏的负担加重</e>因果关系心脏的负担加重<e>心率相对加快</e>因果关系;
H=[h1,h2,...,hL]=Encodeer([x1,x2,...,xL])
F(es,eo)=W2Hα(s,o)
对于具体公式来说:第一个公式表示采用BERT等预训练模型作为编码器获取实体与关系的嵌入embedding,即每一个单词得向量表示;xi是构成文档d的token,hi是对应的embedding;
第二个公式因为有些文件的长度超过512,于是利用动态窗口对整个文件进行编码;对不同窗口的重叠标记的嵌入进行平均,以获得最终的表示,文中采用的方法为最大池化的平滑:logsumexppooling,以获得最后的实体嵌入ei;这种池化操作好处是积累了实体在文件中所有出现位置的信号;
需要根据实体与实体之间的相关性来计算实体层面的关系矩阵,对于矩阵中的每个实体,两两之间的相关性由一维特征向量F(es,eo)捕获,文章提出两种计算相关性的策略:
第三个公式和第四个公式:基于实体感知的注意力机制和仿生变换的策略来获得特相关性征向量,其中α(s,o)表示实体感知注意力的注意力权重,H是文档嵌入,K是transformer模型头部的数量。
所述步骤S4具体包括以下内容:
将实体级关系矩阵F∈RN*N*D作为Dchannel图像,我们在F中将文档级关系预测作为像素级掩码,其中N是从所有数据集样本中计算出的最大的实体数量;具体来说,N是实体的最大数量,从所有数据集样本中统计;为此,我们利用了U-Net,这是计算机视觉中一个著名的语义分割模型;模块形成u形分割结构,其中包含两个下采样块和两个具有跳跃连接的上采样块;一方面,每个下采样块有两个后续的maxpooling和独立的卷积模块;在每个下采样块中,通道数量增加一倍;实体级关系矩阵中的分割区域为实体对之间的关系共现;u形分割结构可以促进接受域类比中实体对之间的信息交换向隐式推理转变;具体来说,CNN和下采样块可以扩大当前实体对嵌入F(es,eo)的接受域,从而为表示学习提供丰富的全局信息;另一方面,该模型有两个上采样块和一个后续的反卷积神经网络和两个独立的卷积模块;与下采样不同,每个上采样块的信道数减半,可以将聚合的信息分布到每个像素上;
最后,我们结合编码模块和U-shaped分割模块来捕获局部和全局信息Y,如下所示:
Y=U(W3F)
Y属于F∈RN*N*D是实体级关系矩阵,U为U-shape分割模块。
所述步骤S5具体通过以下内容计算:
Zs=tanh(Wses+Ys,o)
Zo=tanh(Woeo+Ys,o)
P(r|es,eo)=σ(zsWrzo+br)
Ys,o是实体对(s,o)在矩阵Y的表示,使用前馈神经网络将它们映射到隐藏表示z,就是下面的Zs和Zo,然后,通过双线性函数获得实体对之间关系预测的概率表示公式P。
所述步骤S6中训练方法具体如下所示:
该训练方法受到了计算机视觉中的circle loss的启发;具体来说,我们引入了一个额外的类别S0,希望目标类别的分数都大于S0,而非目标类别的分数都小于S0:
为了验证模型的效果,在从医学教材,电子病历抽出来的数据集上,分别采用DocRE模型跟没有语义分割模型做实体关系抽取实验,结果发现没有语义分割的模型性能显著下降,这说明了语义分割模块在文档级关系抽取模型中是有效的。
同时,发现对比模型中有语义分割模块和没有语义分割模块的实验结果,我们发现随着实体的个数越多,它们之间的性能差异越大。这也说明,在实体个数很多的文档中,建模全局的实体三元组之间的关联,对于文档级的关系抽取是有一定帮助的。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种基于DocRE模型进行医疗长文档跨句关系抽取方法,其特征在于,包括把文档级关系抽取的所有三元组用实体级关系矩阵表示,在这个基础之上,创新性地提出DocRE模型,将文档级关系抽取任务类比于计算机视觉中的语义分割任务;DocRE模型利用编码器模块捕获实体的上下文信息,并采用U-shaped分割模块在Image-style特征图上利用卷积、上采样、下采样可以很好的建立起三元组之间的关联,以此捕获三元组之间的全局相互依赖性,通过预测实体级关系矩阵来捕获local和global信息以增强文档级关系抽取效果;具体通过以下步骤实现:
S1、非结构化的医学文本收集,医学文本具体包括:医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等;
S2、从非结构化医学文本中找出医学实体,并确定实体对关系事实,比如条件关系、因果关系、合并症关系等;
S3、三元组关系抽取视为Sequence-To-Sequence的任务,对实体和关系之间的交叉依赖进行建模;将输入文本定义为源目标序列,将输出三元组定义为目标序列;
S4、将实体级关系矩阵F∈RN*N*D作为Dchannel图像,我们在F中将文档级关系预测作为像素级掩码,其中N是从所有数据集样本中计算出的最大的实体数量;
S5、使用实体级关系矩阵Y表示es和eo,使用前馈神经网络映射称为隐藏表示z,然后,通过双线性函数获得实体之间关系预测的概率;
S6、由于观察到关系抽取存在不平衡关系分布(即许多实体对具有NA的关系),引入了一种平衡的softmax方法进行训练。
2.根据权利要求1所述的一种基于DocRE模型进行医疗长文档跨句关系抽取方法,其特征在于,所述步骤S3中源目标序列仅由输入句子的标记组成,具体内容如下所示:
[CLS]在心率规整的情况下,脉搏的频率与心率是一样的,成年人的脉搏一般在60-100次之间,大部分在70-80次之间,怀孕后的女性由于生理性贫血的影响以及循环血量增加使心脏的负担加重,可能会使心率相对加快;[SEP]
目标序列则由特殊标记”<e>”和”</e>”分隔的每个实体/关系的三元组;如下:
生理性贫血的影响<e>心脏的负担加重</e>因果关系,循环血量增加<e>心脏的负担加重</e>因果关系心脏的负担加重<e>心率相对加快</e>因果关系;
H=[h1,h2,...,hL]=Encodeer([x1,x2,...,xL])
F(es,eo)=W2Hα(s,o)
对于具体公式来说:第一个公式表示采用BERT等预训练模型作为编码器获取实体与关系的嵌入embedding,即每一个单词得向量表示;xi是构成文档d的词语,hi是对应的embedding;
第二个公式因为有些文件的长度超过512,于是利用动态窗口对整个文件进行编码;对不同窗口的重叠标记的嵌入进行平均,以获得最终的表示,文中采用的方法为最大池化的平滑版本,以获得最后的实体嵌入ei;这种池化操作好处是积累了实体在文件中所有出现位置的信号;
需要根据实体与实体之间的相关性来计算实体层面的关系矩阵,对于矩阵中的每个实体,两两之间的相关性由一维特征向量F(es,eo)捕获;
第三个公式和第四个公式:基于实体感知的注意力机制和仿生变换的策略来获得特相关性征向量,其中α(s,o)表示实体感知注意力的注意力权重,H是文档嵌入,K是transformer模型头部的数量。
3.根据权利要求1所述的一种基于DocRE模型进行医疗长文档跨句关系抽取方法,其特征在于,所述步骤S4具体包括以下内容:
将实体级关系矩阵F∈RN*N*D作为Dchannel图像,我们在F中将文档级关系预测作为像素级掩码,其中N是从所有数据集样本中计算出的最大的实体数量;具体来说,N是实体的最大数量,从所有数据集样本中统计;为此,我们利用了U-Net,这是计算机视觉中一个著名的语义分割模型;模块形成u形分割结构,其中包含两个下采样块和两个具有跳跃连接的上采样块;一方面,每个下采样块有两个后续的max pooling和独立的卷积模块;在每个下采样块中,通道数量增加一倍;实体级关系矩阵中的分割区域为实体对之间的关系共现;u形分割结构可以促进接受域类比中实体对之间的信息交换向隐式推理转变;具体来说,CNN和下采样块可以扩大当前实体对嵌入F(es,eo)的接受域,从而为表示学习提供丰富的全局信息;另一方面,该模型有两个上采样块和一个后续的反卷积神经网络和两个独立的卷积模块;与下采样不同,每个上采样块的信道数减半,可以将聚合的信息分布到每个像素上;
最后,我们结合编码模块和U-shaped分割模块来捕获局部和全局信息Y,如下所示:
Y=U(W3F)
Y属于F∈RN*N*D是实体级关系矩阵,U为U-shape分割模块。
4.根据权利要求1所述的一种基于DocRE模型进行医疗长文档跨句关系抽取方法,其特征在于,所述步骤S5具体通过以下内容计算:
zs=tanh(Wses+Ys,o)
Zo=tanh(Woeo+Ys,o)
P(r|es,eo)=σ(zsWrzo+br)
Ys,o是实体对(s,o)在矩阵Y的表示,使用前馈神经网络将它们映射到隐藏表示z,就是下面的Zs和Zo,然后,通过双线性函数获得实体对之间关系预测的概率表示公式P。
5.根据权利要求1所述的一种基于DocRE模型进行医疗长文档跨句关系抽取方法,其特征在于,所述步骤S6中训练方法具体如下所示:
具体来说,我们引入了一个额外的类别S0,希望目标类别的分数都大于S0,而非目标类别的分数都小于S0:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310270857.4A CN116521888A (zh) | 2023-03-20 | 2023-03-20 | 一种基于DocRE模型进行医疗长文档跨句关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310270857.4A CN116521888A (zh) | 2023-03-20 | 2023-03-20 | 一种基于DocRE模型进行医疗长文档跨句关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116521888A true CN116521888A (zh) | 2023-08-01 |
Family
ID=87398353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310270857.4A Pending CN116521888A (zh) | 2023-03-20 | 2023-03-20 | 一种基于DocRE模型进行医疗长文档跨句关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116521888A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100169309A1 (en) * | 2008-12-30 | 2010-07-01 | Barrett Leslie A | System, Method, and Apparatus for Information Extraction of Textual Documents |
CN114861645A (zh) * | 2022-04-28 | 2022-08-05 | 浙江大学 | 一种基于长尾数据分布的文档级关系抽取方法 |
CN115081392A (zh) * | 2022-05-30 | 2022-09-20 | 福州数据技术研究院有限公司 | 一种基于邻接矩阵的文档级别关系抽取方法和存储设备 |
CN115269857A (zh) * | 2022-04-28 | 2022-11-01 | 东北林业大学 | 一种基于文档关系抽取的知识图谱构建方法和装置 |
CN115392256A (zh) * | 2022-08-29 | 2022-11-25 | 重庆师范大学 | 一种基于语义分割的药物不良事件关系抽取方法 |
CN115392236A (zh) * | 2022-09-23 | 2022-11-25 | 北京师范大学 | 一种文档级关系抽取方法、系统、设备及存储介质 |
-
2023
- 2023-03-20 CN CN202310270857.4A patent/CN116521888A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100169309A1 (en) * | 2008-12-30 | 2010-07-01 | Barrett Leslie A | System, Method, and Apparatus for Information Extraction of Textual Documents |
CN114861645A (zh) * | 2022-04-28 | 2022-08-05 | 浙江大学 | 一种基于长尾数据分布的文档级关系抽取方法 |
CN115269857A (zh) * | 2022-04-28 | 2022-11-01 | 东北林业大学 | 一种基于文档关系抽取的知识图谱构建方法和装置 |
CN115081392A (zh) * | 2022-05-30 | 2022-09-20 | 福州数据技术研究院有限公司 | 一种基于邻接矩阵的文档级别关系抽取方法和存储设备 |
CN115392256A (zh) * | 2022-08-29 | 2022-11-25 | 重庆师范大学 | 一种基于语义分割的药物不良事件关系抽取方法 |
CN115392236A (zh) * | 2022-09-23 | 2022-11-25 | 北京师范大学 | 一种文档级关系抽取方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11861829B2 (en) | Deep learning based medical image detection method and related device | |
CN107016438B (zh) | 一种基于中医辨证人工神经网络算法模型的系统 | |
CN109471895A (zh) | 电子病历表型抽取、表型名称规范化方法及系统 | |
CN113707307A (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN116129141B (zh) | 医学数据处理方法、装置、设备、介质和计算机程序产品 | |
CN114512228A (zh) | 一种中医疾病辅助诊断系统、设备及存储介质 | |
CN114782384B (zh) | 一种基于半监督方法的心脏腔室图像分割方法及装置 | |
CN111859938B (zh) | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 | |
CN114708952B (zh) | 一种图像标注方法、装置、存储介质和电子设备 | |
CN114220516A (zh) | 一种基于层级循环神经网络解码的脑ct医学报告生成方法 | |
Du et al. | Segmentation and visualization of left atrium through a unified deep learning framework | |
Li et al. | Wound segmentation network based on location information enhancement | |
CN116737924A (zh) | 一种医疗文本数据处理方法及装置 | |
CN116258685A (zh) | 全局和局部特征同时提取与融合的多器官分割方法及装置 | |
Pan et al. | Muvam: A multi-view attention-based model for medical visual question answering | |
CN113538444A (zh) | 一种基于空洞卷积的并行空间金字塔模型图像分割方法 | |
CN111128390B (zh) | 一种基于骨科症状特征选取的文本处理方法 | |
CN113704481A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
CN112581431A (zh) | 一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法 | |
CN116630964A (zh) | 一种基于离散小波注意力网络的食品图像分割方法 | |
Shen et al. | Deta-net: A dual encoder network with text-guided attention mechanism for skin-lesions segmentation | |
CN116521888A (zh) | 一种基于DocRE模型进行医疗长文档跨句关系抽取方法 | |
CN113836926A (zh) | 电子病历命名实体识别方法、电子设备及存储介质 | |
Kakumani et al. | Segmentation of Cell Nuclei in Microscopy Images using Modified ResUNet | |
Zhang et al. | Nucleus image segmentation method based on GAN network and FCN model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |