CN117094308A - 一种结直肠癌病理文本关系抽取方法 - Google Patents
一种结直肠癌病理文本关系抽取方法 Download PDFInfo
- Publication number
- CN117094308A CN117094308A CN202311076463.1A CN202311076463A CN117094308A CN 117094308 A CN117094308 A CN 117094308A CN 202311076463 A CN202311076463 A CN 202311076463A CN 117094308 A CN117094308 A CN 117094308A
- Authority
- CN
- China
- Prior art keywords
- feature
- extraction
- relation
- features
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 84
- 206010009944 Colon cancer Diseases 0.000 title claims abstract description 34
- 208000001333 Colorectal Neoplasms Diseases 0.000 title claims abstract description 34
- 230000001575 pathological effect Effects 0.000 title claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 19
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 15
- FPIPGXGPPPQFEQ-OVSJKPMPSA-N all-trans-retinol Chemical compound OC\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C FPIPGXGPPPQFEQ-OVSJKPMPSA-N 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 230000007170 pathology Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 239000011717 all-trans-retinol Substances 0.000 claims description 6
- 235000019169 all-trans-retinol Nutrition 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000011282 treatment Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000001364 causal effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 238000010827 pathological analysis Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种结直肠癌病理文本关系抽取方法,包括以下步骤:S1:对文本进行双流特征提取;S2:对提取到的双流特征进行基于特征分解的多任务提取,得到主客体和关系;S3:利用提取到的主客体和关系用三仿射机制进行三元组对齐。本发明使用双流特征提取、多任务分解的病理文本关系抽取和根据三仿射得分来生成三元组,解决了三元组的提取准确率低、未考虑关系和主客体之间特征的独立性和关联性和没有进一步地考虑关系与主客体之间的信息交互的问题。
Description
技术领域
本发明涉及医学文本关系抽取领域,更具体地,涉及一种结直肠癌病理文本关系抽取方法、系统及存储介质。
背景技术
关系抽取在知识图谱和自动知识库的构建中起到重要作用,在生物医学领域,电子健康记录系统的广泛应用导致涵盖表型描述和患者治疗的EHR呈指数增长。而本专利针对的数据集基于电子健康报告中的病理取材和诊断文本开展的,旨在准确识别生物医学概念和知识,从中提取需要的关系,为医生的观察诊断提供实例支持,也为患者治疗提供有效的决策支持。
结直肠癌病理文本数据是通过病理诊断获取,涉及到多个环节,地区医院医生的差异性;再加上医学本身的特殊性,整体上文本数据不规范。病理诊断的流程为临床医生从患者身体某个部位切取部分组织送至病理中心进行诊断,病理中心对送检的组织进行取材-包埋-制片后,通过观察染色的切片做出病理诊断。每一例标本从临床医院到病理中心产生的。在这些数据中,送检部位由临床医院录入,但各医院录入文字风格等都不是统一的,属于非结构化数据。目前在医学文本关系抽取领域中,关系抽取的难点主要是文本中存在的关系复杂,密度大,但基本无歧义,指代情况明显,上下文信息没有固定模式,overlapping(重叠嵌套)现象普遍存在。
由于上述的结直肠癌病理文本关系抽取特点,在医疗文本数据中进行关系抽取,必须对医疗文本数据有一定的认识和分析,即如何能充分利用和挖掘句子中潜在的信息,并对这些特征信息进行相应的处理。同时,由于相关检测部位特殊性和不同的病理发病概率不同,就会出现医学数据集中常见的长尾现象,此属于数据不均衡的问题。
对于现有技术,例如CN20221 1593075.6,一种面向糖尿病文本的实体关系抽取方法,该方法使用的是基于关系来同时抽取主客体,用基于关系的注意力机制计算特定关系下单词的权重,虽然进行了关系和实体的一定交互,但主客体之间没有进行相互之间的信息交互,而在医学生物数据集中主客体之间是由科学的精确定义出具有的较强关系,这中信息的缺失会对三元组的提取尤其是实体提取的准确率加大难度;且该方法重点关注文本中每个词在特定关系下的权重,并利用权重相加得到特定关系下的句子表示,但未对实体嵌套问题进行相应的处理。例如CN202110142037.8,一种医学实体关系联合抽取方法,该方法从文本的增强语义向量表征的角度出发,并没有进一步地考虑关系与主客体之间的信息交互,缺少关系引导的主客体抽取将会存在大量的token pair提取冗余,进一步影响抽取性能。
发明内容
本发明为克服上述现有技术所述对三元组的提取准确率低、未对实体嵌套问题进行相应的处理和没有进一步地考虑关系与主客体之间的信息交互的缺陷,提供一种结直肠癌病理文本关系抽取方法、系统及存储介质。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种结直肠癌病理文本关系抽取方法,包括以下步骤:
S1:对文本进行双流特征提取;
S2:对提取到的双流特征进行基于特征分解的多任务提取,得到主客体和关系;
S3:利用提取到的主客体和关系用三仿射机制进行三元组对齐。
进一步的,步骤S1所述对文本进行双流特征提取,首先构造句法特征,然后利用句法特征与膨胀卷积得到句子的语义特征,最后拼接句法特征和语义特征。
进一步的,所述首先构造句法特征,然后利用句法特征与膨胀卷积得到句子的语义特征,最后拼接句法特征和语义特征,具体过程为:
利用句法依存树来构造句法特征;对原始输入文本使用stanfordcoreNLP工具构造句法依存树,生成邻接矩阵,并将token间的距离信息融入到邻接矩阵中,具体为对于邻接矩阵中不为零的元素进行下列操作:
其中aij表示邻接矩阵中第i行第j列的元素,表示原始句子中第i个字符与第j个字符的连接情况,maxlen是预定义好的模型所能处理的最大句子长度;
然后用GCN图卷积方法生成句法特征
其中为邻接矩阵的归一化,/>为第l层的GCN所输出的第i个token的句法依赖特征,Wl-1是l-1层的权重,bl是第l层的偏置项,σ是ReLU激活函数,ReLU表示整流线性单元;
采用深度膨胀卷积和交叉注意力的方式提取句子的语义特征;首先借助TCN中膨胀非因果卷积的残差结构来构造深度膨胀卷积,其中TCN表示时间卷积神经网络;其中每个残差块由膨胀卷积、特征权重重标定、权值归一化、整流线性单元(ReLU)和用于正则化的dropout组成;其中特征权重重标定通过全局平均池化得到长度为hidden_size的向量,对这个向量加两个FC层,FC层表示前馈层,做非线性映射;最后输出的向量,能够表示token维度特征的重要性程度,然后与膨胀卷积后得到的特征进行scale得到权重重标定的语义特征,然后利用句法特征与膨胀卷积提取到的语义特征进行交叉注意力:
其中为第l层的GCN输出,/>为第l层的残差块的输出,WQ,WK,WV分别为计算QC,KC,VC的权重,QC,KC,Vx为注意力中对应的Q,K,V参数,Q,K,V为注意力公式中的设定参数,dk为语义特征的维数;
最终能够得到提取后的特征M={m1,......,mn};接着采用token间的多头自注意力来进一步提取得到语义特征
Hsem=([head1,......headk])W
其中是多头注意力中第k个头对应的Q,K,V的权重,W为结合多个注意力头的特征权重;
对句法特征和语义特征进行平均池化得到和/>使用句首的CLS来分别对句法特征和语义特征进行条件层归一化后进行拼接,得到最终的特征r=[Hsyn′,Hsem′]:
其中γ1=W1hcls+b1, hcls表示句首CLS的embedding,CLS表示句首的token,W1,W2分别是对hcls的线性映射以得到γ1,λ1,代表线性映射的权重,b1,b2分别为计算γ1,λ1的偏置项,CLN表示conditional layer normalize,即条件层归一化;
同理也可得最终的语义特征为
进一步的,步骤S2所述对提取到的双流特征进行基于特征分解的多任务提取,得到主客体和关系,首先进行特征分解,然后融合共享特征,最后进行三元组各部分提取。
进一步的,所述首先进行特征分解,然后融合共享特征,最后进行三元组各部分提取,具体过程为:
将三元组提取任务先建模为基于特征分解的多任务学习;首先为三个任务构造三个模块对,每一对模块中存在两个特征提取器,一个负责抽取任务间可共享信息,一个负责抽取任务特有特征信息;同时,引入正交约束条件来使模块对的表达的信息表征相关性降低;正交约束Lorth如下:
其中为任务特有特征信息,/>为共享信息;
接着使用孪生网络来进一步提炼更好的共享特征,设置余弦相似度损失函数Lsiam来约束孪生网络生成的共享特征;
其中,Lsiam设置为
其中vi,vj为经过孪生网络后的共享特征向量;
对于主客体抽取,联合polyloss作为损失函数,能够根据任务调整ε的值和处理某些实体数量较少的问题,主体或客体的损失函数Ls/o如下:
其中为经过bert编码得到的token表示,/>为融合后的共享信息表示,上式的各项W为各个特征乘以的可被训练的权重,b则为偏置项,/>为第i个token的真实实体标签,LCE为交叉熵损失函数,N为token的总数,/>表示第i个token是一个主体或客体开头的概率,Wstart1代表计算/>时给/>的权重,/>表示/>或/>
同理,对于关系抽取,使用polyloss来应对长尾关系数量的问题,来计算提取关系任务的损失函数Lr:
其中r为关系类型总数,ri为TransE获取的关系embedding,表示在句子中提取到第i个关系的概率,Wr1代表计算/>时给ri的一个权重。
进一步的,构造辅助任务,具体过程为:
用任务特有信息来直接预测该任务,并通过与真实标签的损失值来更新任务特有模块权重Laul:
其中为任务特有特征信息经过多层感知器来预测任务的概率,yk为真实标签,Lk设置为交叉熵损失函数。
进一步的,使用共享感知学习机制修改模块的学习率,具体过程为:
设计共享感知学习机制来修改共享特征融合模块和句法语义特征提取模块的学习率εi:
其中ε为模型初始过程中设置的学习率,m为该模块被其他多少个模块所利用的数量,f(m)为将m映射为一个大于1的数。
进一步的,步骤S3所述利用提取到的主客体和关系用三仿射机制进行三元组对齐,具体过程为:
利用提取到的主客体和关系用三仿射机制进行三元组对齐:
Lalin=-log(TriAff)
根据计算出来的得分设置相应的阈值判断是否提取该三元组,其中u代表提取到的主体特征,v为提取到的客体特征,r为提取到的关系特征,将u,v,r分别经过不同的MLP层得到对应的W为三仿射中的权重,×1表示爱因斯坦约定求和符号;
最终模型的损失函数设置为L=α1Lorth+α2Laul+α3Lsima+Ls/o+Lr+α4Lalin;其中α1、α2、α3、α4是平衡各项损失函数的超参数。
本发明第二方面提供了一种结直肠癌病理文本关系抽取系统,该系统包括:存储器、处理器,所述存储器中包括一种结直肠癌病理文本关系抽取方法程序,所述一种结直肠癌病理文本关系抽取方法程序被所述处理器执行时实现如下步骤:
S1:对文本进行双流特征提取;
S2:对提取到的双流特征进行基于特征分解的多任务提取,得到主客体和关系;
S3:利用提取到的主客体和关系用三仿射机制进行三元组对齐。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括结直肠癌病理文本关系抽取方法程序,所述结直肠癌病理文本关系抽取方法程序被处理器执行时,实现所述的一种结直肠癌病理文本关系抽取方法的步骤。
与现有技术相比,本发明技术方案的有益效果是:
本发明对文本进行双流特征提取,充分提取到原始句子所包含丰富的信息,并能够根据句子本身来对特征进行选择自适应融合;对提取到的双流特征进行基于特征分解的多任务提取,得到主客体和关系,更好地利用特定任务特征和共享特征,对比以前实体和关系抽取工作联合抽取的方法,有效地减少了不同抽取任务之间的噪声;利用提取到的主客体和关系用三仿射机制进行三元组对齐,使用三仿射机制来对提取到的主客体和关系进行高阶融合,三者的信息得到更充分的交互,以提高生成正确三元组的性能。
附图说明
图1为本发明实施例提供的一种结直肠癌病理文本关系抽取方法流程图。
图2为本发明实施例提供的关系抽取架构图。
图3为本发明实施例提供的双流特征构建模块图。
图4为本发明实施例提供的特征分解多任务提取模块图。
图5为本发明实施例提供的深层膨胀卷积网络架构图图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1、图2所示,本发明提供了一种结直肠癌病理文本关系抽取方法,包括以下步骤:
S1:对文本进行双流特征提取。
利用句法依存树来构造句法特征。对原始输入文本使用stanfordcoreNLP工具构造句法依存树,生成邻接矩阵,并将token间的距离信息融入到邻接矩阵中,具体为对于邻接矩阵中不为零的元素进行下列操作:
其中aij表示邻接矩阵中第i行第j列的元素,表示原始句子中第i个字符与第j个字符的连接情况,maxlen是预定义好的模型所能处理的最大句子长度。
然后用GCN图卷积方法生成句法特征
其中为邻接矩阵的归一化,/>为第l层的GCN所输出的第i个token的句法依赖特征,Wl-1是l-1层的权重,bl是第l层的偏置项,σ是ReLU激活函数,ReLU表示整流线性单元。
接着要提取句子的语义特征,如图3所示,采用深度膨胀卷积和交叉注意力的方式来进行。首先借助TCN中膨胀非因果卷积的残差结构来构造深度膨胀卷积,其中TCN表示时间卷积神经网络。如图5所示,其中每个残差块由膨胀卷积、特征权重重标定、权值归一化、整流线性单元(ReLU)和用于正则化的dropout组成。其中特征权重重标定通过全局平均池化得到长度为hidden_size的向量,对这个向量加两个FC层,FC层表示前馈层,做非线性映射。最后输出的向量,能够表示token维度特征的重要性程度,然后与膨胀卷积后得到的特征进行scale得到权重重标定的语义特征,然后利用句法特征与膨胀卷积提取到的语义特征进行交叉注意力:
其中为第l层的GCN输出,/>为第l层的残差块的输出,WQ,WK,WV分别为计算QC,KC,VC的权重,QC,KC,VC为注意力中对应的Q,K,V参数,Q,K,V为注意力公式中的设定参数,dk为语义特征的维数。
最终能够得到提取后的特征表示M={m1,......,mn}。接着为了能够使得每个token之间都能存在信息交互,采用token间的多头自注意力来进一步提取得到语义特征
Hsem=([head1,......headk])W
其中是多头注意力中第k个头对应的Q,K,V的权重,W
为结合多个注意力头的特征权重。
对上述两个特征进行average pooling得到和/>average pooling表示平均池化,由于上述提取出来的两个特征会在特征数值上存在数量级差异,应用句首的CLS来分别对句法特征和语义特征进行conditional layer normalize后进行拼接,conditionallayer normalize表示条件层归一化,得到最终的特征表示r=[Hsyn′,Hsem′]:
其中γ1=W1hcls+b1, hcls表示句首CLS的embedding,CLS表示句首的token,W1,W2分别是对hcls的线性映射以得到γ1,λ1,代表线性映射的权重,b1,b2分别为计算γ1,λ1的偏置项,CLN表示conditional layer normalize,即条件层归一化。
同理也可得最终的语义特征为
S2:对提取到的双流特征进行基于特征分解的多任务提取,得到主客体和关系。
在经过上述句法和语义特征构造后,在三元组提取任务中,每一个组成部分都应有属于自己的特征,同时三个组成部分之间也存在联系,即存在一些共享特征。为此,将三元组提取任务先建模为基于特征分解的多任务学习,该模块结构如图4所示。首先为三个任务构造三个模块对,每一对模块中存在两个特征提取器,一个负责抽取任务间可共享信息,一个负责抽取任务特有特征信息。同时,为了使模块对的信息互补,引入正交约束条件来使模块对的表达的信息表征相关性降低。正交约束Lorth如下:
其中为任务特有特征信息,/>为共享信息。同时为了分辨不同的任务特有信息,构造辅助任务来帮助识别,具体为用任务特有信息来直接预测该任务,并通过与真实标签的损失值来更新任务特有模块权重Laul:
其中为任务特有特征信息经过多层感知器来预测任务的概率,yk为真实标签,Lk设置为交叉熵损失函数。
接着为了融合产生的共享特征,这些共享特征中会存在噪声,使用孪生网络来进一步提炼更好的共享特征,使用孪生网络里权重共享的作用是为了提炼出这些共享特征中所共有的特征,达到减少三个共享特征中不相关的信息,设置余弦相似度损失函数Lsiam来约束孪生网络生成的共享特征;
其中,Lsiam设置为
其中vi,vj为经过孪生网络后的共享特征向量。
同时,观察到共享特征融合模块和句法语义特征提取模块中的参数将接收来自每个提取任务参数的反向传播梯度。因此,这两个模块的收敛速度将与其他提取模块有很大的不同,为此设计共享感知学习机制来修改模块的学习率εi:
其中ε为模型初始过程中设置的学习率,m为该模块被其他多少个模块所利用的数量,在这里定义共享特征融合模块和句法语义特征提取模块中的m为3,f(m)为将m映射为一个大于1的数,此处可直接设置为f(m)=m。
最后使用任务特有特征和融合后的共享特征来进行三元组各部分提取:
对于主客体抽取,联合polyloss作为损失函数,能够根据任务调整ε的值和处理某些实体数量较少的问题,主体或客体的损失函数Ls/o如下:
其中为经过bert编码得到的token表示,/>为融合后的共享信息表示,上式的各项W为各个特征乘以的可被训练的权重,b则为偏置项,/>为第i个token的真实实体标签,LCE为交叉熵损失函数,N为token的总数,/>表示第i个token是一个主体或客体开头的概率,Wstart1代表计算/>时给/>的权重,/>表示/>或/>
同理,对于关系抽取,使用polyloss来应对长尾关系数量的问题,来计算提取关系任务的损失函数Lr:
其中r为关系类型总数,ri为TransE获取的关系embedding,能够从三元组知识图中学习领域知识信息,起到知识推理的作用,表示在句子中提取到第i个关系的概率,Wr1代表计算/>时给ri的一个权重。
S3:利用提取到的主客体和关系用三仿射机制进行三元组对齐。
完成上述的三部分分别提取后,利用提取到的主客体和关系用三仿射机制进行三元组对齐:
Lalin=-log(TriAff)
根据计算出来的得分设置相应的阈值判断是否提取该三元组,其中u代表提取到的主体特征,v为提取到的客体特征,r为提取到的关系特征,将u,v,r分别经过不同的MLP层得到对应的W为三仿射中的权重,×1表示爱因斯坦约定求和符号。
最终模型的损失函数设置为L=α1Lotrh+α2Laul+α3Lsima+Ls/o+Lr+α4Lalin。其中α1、α2、α3、α4是平衡各项损失函数的超参数。
本发明第二方面提供了一种结直肠癌病理文本关系抽取系统,该系统包括:存储器、处理器,所述存储器中包括一种结直肠癌病理文本关系抽取方法程序,所述一种结直肠癌病理文本关系抽取方法程序被所述处理器执行时实现如下步骤:
S1:对文本进行双流特征提取;
S2:对提取到的双流特征进行基于特征分解的多任务提取,得到主客体和关系;
S3:利用提取到的主客体和关系用三仿射机制进行三元组对齐。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括结直肠癌病理文本关系抽取方法程序,所述结直肠癌病理文本关系抽取方法程序被处理器执行时,实现所述的一种结直肠癌病理文本关系抽取方法的步骤。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种结直肠癌病理文本关系抽取方法,其特征在于,包括以下步骤:
S1:对文本进行双流特征提取;
S2:对提取到的双流特征进行基于特征分解的多任务提取,得到主客体和关系;
S3:利用提取到的主客体和关系用三仿射机制进行三元组对齐。
2.根据权利要求1所述的一种结直肠癌病理文本关系抽取方法,其特征在于,步骤S1所述对文本进行双流特征提取,首先构造句法特征,然后利用句法特征与膨胀卷积得到句子的语义特征,最后拼接句法特征和语义特征。
3.根据权利要求2所述的一种结直肠癌病理文本关系抽取方法,其特征在于,所述首先构造句法特征,然后利用句法特征与膨胀卷积得到句子的语义特征,最后拼接句法特征和语义特征,具体过程为:
利用句法依存树来构造句法特征;对原始输入文本使用stanfordcoreNLP工具构造句法依存树,生成邻接矩阵,并将token间的距离信息融入到邻接矩阵中,具体为对于邻接矩阵中不为零的元素进行下列操作:
其中aij表示邻接矩阵中第i行第j列的元素,表示原始句子中第i个字符与第j个字符的连接情况,maxlen是预定义好的模型所能处理的最大句子长度;
然后用GCN图卷积方法生成句法特征
其中为邻接矩阵的归一化,/>为第l层的GCN所输出的第i个token的句法依赖特征,Wl -1是l-1层的权重,bl是第l层的偏置项,σ是ReLU激活函数,ReLU表示整流线性单元;
采用深度膨胀卷积和交叉注意力的方式提取句子的语义特征;首先借助TCN中膨胀非因果卷积的残差结构来构造深度膨胀卷积,其中TCN表示时间卷积神经网络;其中每个残差块由膨胀卷积、特征权重重标定、权值归一化、整流线性单元和用于正则化的dropout组成;其中特征权重重标定通过全局平均池化得到长度为hidden_size的向量,对这个向量加两个FC层,FC层表示前馈层,做非线性映射;最后输出的向量,能够表示token维度特征的重要性程度,然后与膨胀卷积后得到的特征进行scale得到权重重标定的语义特征,然后利用句法特征与膨胀卷积提取到的语义特征进行交叉注意力:
其中为第l层的GCN输出,/>为第l层的残差块的输出,WQ,WK,WV分别为计算QC,KC,VC的权重,QC,KC,VC为注意力中对应的Q,K,V参数,Q,K,V为注意力公式中的设定参数,dk为语义特征的维数;
最终能够得到提取后的特征M={m1,……,mn};接着采用token间的多头自注意力来进一步提取得到语义特征
Hsem=([head1,……headk])W
其中是多头注意力中第k个头对应的Q,K,V的权重,W
为结合多个注意力头的特征权重;
对句法特征和语义特征进行平均池化得到和/>使用句首的CLS来分别对句法特征和语义特征进行条件层归一化后进行拼接,得到最终的特征r=[Hsyn',Hsem']:
其中γ1=W1hcls+b1,λ1=W2hcls+b2,
hcls表示句首CLS的embedding,CLS表示句首的token,W1,W2分别是对hcls的线性映射以得到γ1,λ1,代表线性映射的权重,b1,b2分别为计算γ1,λ1的偏置项,CLN表示conditional layer normalize,即条件层归一化;
同理也可得最终的语义特征为
4.根据权利要求1所述的一种结直肠癌病理文本关系抽取方法,其特征在于,步骤S2所述对提取到的双流特征进行基于特征分解的多任务提取,得到主客体和关系,首先进行特征分解,然后融合共享特征,最后进行三元组各部分提取。
5.根据权利要求4所述的一种结直肠癌病理文本关系抽取方法,其特征在于,所述首先进行特征分解,然后融合共享特征,最后进行三元组各部分提取,具体过程为:
将三元组提取任务先建模为基于特征分解的多任务学习;首先为三个任务构造三个模块对,每一对模块中存在两个特征提取器,一个负责抽取任务间可共享信息,一个负责抽取任务特有特征信息;同时,引入正交约束条件来使模块对的表达的信息表征相关性降低;正交约束Lorth如下:
其中为任务特有特征信息,/>为共享信息;
接着使用孪生网络来进一步提炼更好的共享特征,设置余弦相似度损失函数Lsiam来约束孪生网络生成的共享特征;
其中,Lsiam设置为
其中vi,vj为经过孪生网络后的共享特征向量;
对于主客体抽取,联合polyloss作为损失函数,能够根据任务调整ε的值和处理某些实体数量较少的问题,主体或客体的损失函数Ls/o如下:
其中为经过bert编码得到的token表示,/>为融合后的共享信息表示,上式的各项W为各个特征乘以的可被训练的权重,b则为偏置项,/>为第i个token的真实实体标签,LCE为交叉熵损失函数,N为token的总数,/>表示第i个token是一个主体或客体开头的概率,Wstart1代表计算/>时给/>的权重,/>表示/>或/>
同理,对于关系抽取,使用polyloss来应对长尾关系数量的问题,来计算提取关系任务的损失函数Lr:
其中r为关系类型总数,ri为TransE获取的关系embedding,表示在句子中提取到第i个关系的概率,Wr1代表计算/>时给ri的一个权重。
6.根据权利要求4所述的一种结直肠癌病理文本关系抽取方法,其特征在于,构造辅助任务,具体过程为:
用任务特有信息来直接预测该任务,并通过与真实标签的损失值来更新任务特有模块权重Laul:
其中为任务特有特征信息经过多层感知器来预测任务的概率,yk为真实标签,Lk设置为交叉熵损失函数。
7.根据权利要求4所述的一种结直肠癌病理文本关系抽取方法,其特征在于,使用共享感知学习机制修改模块的学习率,具体过程为:
设计共享感知学习机制来修改共享特征融合模块和句法语义特征提取模块的学习率εi:
其中ε为模型初始过程中设置的学习率,m为该模块被其他多少个模块所利用的数量,f(m)为将m映射为一个大于1的数。
8.根据权利要求1所述的一种结直肠癌病理文本关系抽取方法,其特征在于,步骤S3所述利用提取到的主客体和关系用三仿射机制进行三元组对齐,具体过程为:
利用提取到的主客体和关系用三仿射机制进行三元组对齐:
Lalin=-log(TriAff)
根据计算出来的得分设置相应的阈值判断是否提取该三元组,其中u代表提取到的主体特征,v为提取到的客体特征,r为提取到的关系特征,将u,v,r分别经过不同的MLP层得到对应的W为三仿射中的权重,×1表示爱因斯坦约定求和符号;
最终模型的损失函数设置为L=α1Lorth+α2Laul+α3Lsima+Ls/o+Lr+α4Lalin;其中α1、α2、α3、α4是平衡各项损失函数的超参数。
9.一种结直肠癌病理文本关系抽取系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种结直肠癌病理文本关系抽取方法程序,所述一种结直肠癌病理文本关系抽取方法程序被所述处理器执行时实现如下步骤:
S1:对文本进行双流特征提取;
S2:对提取到的双流特征进行基于特征分解的多任务提取,得到主客体和关系;
S3:利用提取到的主客体和关系用三仿射机制进行三元组对齐。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括结直肠癌病理文本关系抽取方法程序,所述结直肠癌病理文本关系抽取方法程序被处理器执行时,实现如权利要求1至8中任一项所述的一种结直肠癌病理文本关系抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311076463.1A CN117094308A (zh) | 2023-08-24 | 2023-08-24 | 一种结直肠癌病理文本关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311076463.1A CN117094308A (zh) | 2023-08-24 | 2023-08-24 | 一种结直肠癌病理文本关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117094308A true CN117094308A (zh) | 2023-11-21 |
Family
ID=88769564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311076463.1A Pending CN117094308A (zh) | 2023-08-24 | 2023-08-24 | 一种结直肠癌病理文本关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117094308A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351324A (zh) * | 2023-12-04 | 2024-01-05 | 支付宝(杭州)信息技术有限公司 | 通过神经网络模型进行文档图像处理的方法及装置 |
-
2023
- 2023-08-24 CN CN202311076463.1A patent/CN117094308A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351324A (zh) * | 2023-12-04 | 2024-01-05 | 支付宝(杭州)信息技术有限公司 | 通过神经网络模型进行文档图像处理的方法及装置 |
CN117351324B (zh) * | 2023-12-04 | 2024-03-01 | 支付宝(杭州)信息技术有限公司 | 通过神经网络模型进行文档图像处理的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444259B (zh) | 基于实体关系标注策略的中医电子病历实体关系提取方法 | |
Alzubi et al. | Paraphrase identification using collaborative adversarial networks | |
Levakov et al. | Mapping individual differences across brain network structure to function and behavior with connectome embedding | |
CN113707307A (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN117094308A (zh) | 一种结直肠癌病理文本关系抽取方法 | |
Chen et al. | Named entity recognition of Chinese electronic medical records based on a hybrid neural network and medical MC-BERT | |
CN110750642A (zh) | 一种基于cnn的中文关系分类方法及系统 | |
CN117577254A (zh) | 医疗领域语言模型构建及电子病历文本结构化方法、系统 | |
Huang et al. | Automatic surgery and anesthesia emergence Duration prediction using artificial neural Networks | |
CN115910263A (zh) | 基于知识图谱的pet/ct影像报告结论辅助生成方法及装置 | |
Zhao et al. | Knowledge guided feature aggregation for the prediction of chronic obstructive pulmonary disease with Chinese EMRs | |
CN114612535A (zh) | 基于偏微分对抗学习的图像配准方法、系统、设备和介质 | |
Zhang et al. | Research on named entity recognition of chinese electronic medical records based on multi-head attention mechanism and character-word information fusion | |
Lu et al. | Leverage multiple real-world data sources in single-arm medical device clinical studies | |
Niu et al. | Deep multi-modal intermediate fusion of clinical record and time series data in mortality prediction | |
CN114398497A (zh) | 一种信息生成方法、装置、设备及存储介质 | |
Chen et al. | Breast cancer classification with electronic medical records using hierarchical attention bidirectional networks | |
CN117524460A (zh) | 基于混合多模态数据和图卷积神经网络的疾病预测系统 | |
Lin et al. | Automatic knowledge discovery in lecturing videos via deep representation | |
Daradkeh et al. | Lifelong machine learning for topic modeling based on hellinger distance | |
CN116030271A (zh) | 一种基于深度学习和双模态数据的抑郁情绪预测系统 | |
Bagwan et al. | Artificially intelligent health chatbot using deep learning | |
Hossen et al. | ICEAP: An advanced fine-grained image captioning network with enhanced attribute predictor | |
Chen et al. | Automatic surgery duration prediction using artificial neural networks | |
CN114003684A (zh) | 一种基于开放世界假设的医疗信息关系预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |