CN117094308A

CN117094308A - 一种结直肠癌病理文本关系抽取方法

Info

Publication number: CN117094308A
Application number: CN202311076463.1A
Authority: CN
Inventors: 蔡念; 罗智浩; 李石山; 田寅峰; 王晗; 陈传文
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-11-21

Abstract

本发明公开了一种结直肠癌病理文本关系抽取方法，包括以下步骤：S1：对文本进行双流特征提取；S2：对提取到的双流特征进行基于特征分解的多任务提取，得到主客体和关系；S3：利用提取到的主客体和关系用三仿射机制进行三元组对齐。本发明使用双流特征提取、多任务分解的病理文本关系抽取和根据三仿射得分来生成三元组，解决了三元组的提取准确率低、未考虑关系和主客体之间特征的独立性和关联性和没有进一步地考虑关系与主客体之间的信息交互的问题。

Description

一种结直肠癌病理文本关系抽取方法

技术领域

本发明涉及医学文本关系抽取领域，更具体地，涉及一种结直肠癌病理文本关系抽取方法、系统及存储介质。

背景技术

关系抽取在知识图谱和自动知识库的构建中起到重要作用，在生物医学领域，电子健康记录系统的广泛应用导致涵盖表型描述和患者治疗的EHR呈指数增长。而本专利针对的数据集基于电子健康报告中的病理取材和诊断文本开展的，旨在准确识别生物医学概念和知识，从中提取需要的关系，为医生的观察诊断提供实例支持，也为患者治疗提供有效的决策支持。

结直肠癌病理文本数据是通过病理诊断获取，涉及到多个环节，地区医院医生的差异性；再加上医学本身的特殊性，整体上文本数据不规范。病理诊断的流程为临床医生从患者身体某个部位切取部分组织送至病理中心进行诊断，病理中心对送检的组织进行取材-包埋-制片后，通过观察染色的切片做出病理诊断。每一例标本从临床医院到病理中心产生的。在这些数据中，送检部位由临床医院录入，但各医院录入文字风格等都不是统一的，属于非结构化数据。目前在医学文本关系抽取领域中，关系抽取的难点主要是文本中存在的关系复杂，密度大，但基本无歧义，指代情况明显，上下文信息没有固定模式，overlapping(重叠嵌套)现象普遍存在。

由于上述的结直肠癌病理文本关系抽取特点，在医疗文本数据中进行关系抽取，必须对医疗文本数据有一定的认识和分析，即如何能充分利用和挖掘句子中潜在的信息，并对这些特征信息进行相应的处理。同时，由于相关检测部位特殊性和不同的病理发病概率不同，就会出现医学数据集中常见的长尾现象，此属于数据不均衡的问题。

对于现有技术，例如CN20221 1593075.6，一种面向糖尿病文本的实体关系抽取方法，该方法使用的是基于关系来同时抽取主客体，用基于关系的注意力机制计算特定关系下单词的权重，虽然进行了关系和实体的一定交互，但主客体之间没有进行相互之间的信息交互，而在医学生物数据集中主客体之间是由科学的精确定义出具有的较强关系，这中信息的缺失会对三元组的提取尤其是实体提取的准确率加大难度；且该方法重点关注文本中每个词在特定关系下的权重，并利用权重相加得到特定关系下的句子表示，但未对实体嵌套问题进行相应的处理。例如CN202110142037.8，一种医学实体关系联合抽取方法，该方法从文本的增强语义向量表征的角度出发，并没有进一步地考虑关系与主客体之间的信息交互，缺少关系引导的主客体抽取将会存在大量的token pair提取冗余，进一步影响抽取性能。

发明内容

本发明为克服上述现有技术所述对三元组的提取准确率低、未对实体嵌套问题进行相应的处理和没有进一步地考虑关系与主客体之间的信息交互的缺陷，提供一种结直肠癌病理文本关系抽取方法、系统及存储介质。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

本发明第一方面提供了一种结直肠癌病理文本关系抽取方法，包括以下步骤：

S1：对文本进行双流特征提取；

S2：对提取到的双流特征进行基于特征分解的多任务提取，得到主客体和关系；

S3：利用提取到的主客体和关系用三仿射机制进行三元组对齐。

进一步的，步骤S1所述对文本进行双流特征提取，首先构造句法特征，然后利用句法特征与膨胀卷积得到句子的语义特征，最后拼接句法特征和语义特征。

进一步的，所述首先构造句法特征，然后利用句法特征与膨胀卷积得到句子的语义特征，最后拼接句法特征和语义特征，具体过程为：

利用句法依存树来构造句法特征；对原始输入文本使用stanfordcoreNLP工具构造句法依存树，生成邻接矩阵，并将token间的距离信息融入到邻接矩阵中，具体为对于邻接矩阵中不为零的元素进行下列操作：

其中a_ij表示邻接矩阵中第i行第j列的元素，表示原始句子中第i个字符与第j个字符的连接情况，maxlen是预定义好的模型所能处理的最大句子长度；

然后用GCN图卷积方法生成句法特征

其中为邻接矩阵的归一化，/>为第l层的GCN所输出的第i个token的句法依赖特征，W^l-1是l-1层的权重，b^l是第l层的偏置项，σ是ReLU激活函数，ReLU表示整流线性单元；

采用深度膨胀卷积和交叉注意力的方式提取句子的语义特征；首先借助TCN中膨胀非因果卷积的残差结构来构造深度膨胀卷积，其中TCN表示时间卷积神经网络；其中每个残差块由膨胀卷积、特征权重重标定、权值归一化、整流线性单元(ReLU)和用于正则化的dropout组成；其中特征权重重标定通过全局平均池化得到长度为hidden_size的向量，对这个向量加两个FC层，FC层表示前馈层，做非线性映射；最后输出的向量，能够表示token维度特征的重要性程度，然后与膨胀卷积后得到的特征进行scale得到权重重标定的语义特征，然后利用句法特征与膨胀卷积提取到的语义特征进行交叉注意力：

其中为第l层的GCN输出，/>为第l层的残差块的输出，W^Q，W^K，W^V分别为计算Q_C，K_C，V_C的权重，Q_C，K_C，Vx为注意力中对应的Q，K，V参数，Q，K，V为注意力公式中的设定参数，d_k为语义特征的维数；

最终能够得到提取后的特征M＝{m₁，......，m_n}；接着采用token间的多头自注意力来进一步提取得到语义特征

H^sem＝([head₁，......head_k])W

其中是多头注意力中第k个头对应的Q，K，V的权重，W为结合多个注意力头的特征权重；

对句法特征和语义特征进行平均池化得到和/>使用句首的CLS来分别对句法特征和语义特征进行条件层归一化后进行拼接，得到最终的特征r＝[H^syn′，H^sem′]：

其中γ₁＝W₁h_cls+b₁， h_cls表示句首CLS的embedding，CLS表示句首的token，W₁，W₂分别是对h_cls的线性映射以得到γ₁，λ₁，代表线性映射的权重，b₁，b₂分别为计算γ₁，λ₁的偏置项，CLN表示conditional layer normalize，即条件层归一化；

同理也可得最终的语义特征为

进一步的，步骤S2所述对提取到的双流特征进行基于特征分解的多任务提取，得到主客体和关系，首先进行特征分解，然后融合共享特征，最后进行三元组各部分提取。

进一步的，所述首先进行特征分解，然后融合共享特征，最后进行三元组各部分提取，具体过程为：

将三元组提取任务先建模为基于特征分解的多任务学习；首先为三个任务构造三个模块对，每一对模块中存在两个特征提取器，一个负责抽取任务间可共享信息，一个负责抽取任务特有特征信息；同时，引入正交约束条件来使模块对的表达的信息表征相关性降低；正交约束L_orth如下：

其中为任务特有特征信息，/>为共享信息；

接着使用孪生网络来进一步提炼更好的共享特征，设置余弦相似度损失函数L_siam来约束孪生网络生成的共享特征；

其中，L_siam设置为

其中v_i，v_j为经过孪生网络后的共享特征向量；

对于主客体抽取，联合polyloss作为损失函数，能够根据任务调整ε的值和处理某些实体数量较少的问题，主体或客体的损失函数L_s/o如下：

其中为经过bert编码得到的token表示，/>为融合后的共享信息表示，上式的各项W为各个特征乘以的可被训练的权重，b则为偏置项，/>为第i个token的真实实体标签，L_CE为交叉熵损失函数，N为token的总数，/>表示第i个token是一个主体或客体开头的概率，W_start1代表计算/>时给/>的权重，/>表示/>或/>

同理，对于关系抽取，使用polyloss来应对长尾关系数量的问题，来计算提取关系任务的损失函数L_r：

其中r为关系类型总数，r_i为TransE获取的关系embedding，表示在句子中提取到第i个关系的概率，W_r1代表计算/>时给r_i的一个权重。

进一步的，构造辅助任务，具体过程为：

用任务特有信息来直接预测该任务，并通过与真实标签的损失值来更新任务特有模块权重L_aul：

其中为任务特有特征信息经过多层感知器来预测任务的概率，y_k为真实标签，L_k设置为交叉熵损失函数。

进一步的，使用共享感知学习机制修改模块的学习率，具体过程为：

设计共享感知学习机制来修改共享特征融合模块和句法语义特征提取模块的学习率ε_i：

其中ε为模型初始过程中设置的学习率，m为该模块被其他多少个模块所利用的数量，f(m)为将m映射为一个大于1的数。

进一步的，步骤S3所述利用提取到的主客体和关系用三仿射机制进行三元组对齐，具体过程为：

利用提取到的主客体和关系用三仿射机制进行三元组对齐：

L_alin＝-log(TriAff)

根据计算出来的得分设置相应的阈值判断是否提取该三元组，其中u代表提取到的主体特征，v为提取到的客体特征，r为提取到的关系特征，将u，v，r分别经过不同的MLP层得到对应的W为三仿射中的权重，×₁表示爱因斯坦约定求和符号；

最终模型的损失函数设置为L＝α₁L_orth+α₂L_aul+α₃L_sima+L_s/o+L_r+α₄L_alin；其中α₁、α₂、α₃、α₄是平衡各项损失函数的超参数。

本发明第二方面提供了一种结直肠癌病理文本关系抽取系统，该系统包括：存储器、处理器，所述存储器中包括一种结直肠癌病理文本关系抽取方法程序，所述一种结直肠癌病理文本关系抽取方法程序被所述处理器执行时实现如下步骤：

S1：对文本进行双流特征提取；

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括结直肠癌病理文本关系抽取方法程序，所述结直肠癌病理文本关系抽取方法程序被处理器执行时，实现所述的一种结直肠癌病理文本关系抽取方法的步骤。

与现有技术相比，本发明技术方案的有益效果是：

本发明对文本进行双流特征提取，充分提取到原始句子所包含丰富的信息，并能够根据句子本身来对特征进行选择自适应融合；对提取到的双流特征进行基于特征分解的多任务提取，得到主客体和关系，更好地利用特定任务特征和共享特征，对比以前实体和关系抽取工作联合抽取的方法，有效地减少了不同抽取任务之间的噪声；利用提取到的主客体和关系用三仿射机制进行三元组对齐，使用三仿射机制来对提取到的主客体和关系进行高阶融合，三者的信息得到更充分的交互，以提高生成正确三元组的性能。

附图说明

图1为本发明实施例提供的一种结直肠癌病理文本关系抽取方法流程图。

图2为本发明实施例提供的关系抽取架构图。

图3为本发明实施例提供的双流特征构建模块图。

图4为本发明实施例提供的特征分解多任务提取模块图。

图5为本发明实施例提供的深层膨胀卷积网络架构图图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

如图1、图2所示，本发明提供了一种结直肠癌病理文本关系抽取方法，包括以下步骤：

S1：对文本进行双流特征提取。

利用句法依存树来构造句法特征。对原始输入文本使用stanfordcoreNLP工具构造句法依存树，生成邻接矩阵，并将token间的距离信息融入到邻接矩阵中，具体为对于邻接矩阵中不为零的元素进行下列操作：

其中a_ij表示邻接矩阵中第i行第j列的元素，表示原始句子中第i个字符与第j个字符的连接情况，maxlen是预定义好的模型所能处理的最大句子长度。

然后用GCN图卷积方法生成句法特征

其中为邻接矩阵的归一化，/>为第l层的GCN所输出的第i个token的句法依赖特征，W^l-1是l-1层的权重，b^l是第l层的偏置项，σ是ReLU激活函数，ReLU表示整流线性单元。

接着要提取句子的语义特征，如图3所示，采用深度膨胀卷积和交叉注意力的方式来进行。首先借助TCN中膨胀非因果卷积的残差结构来构造深度膨胀卷积，其中TCN表示时间卷积神经网络。如图5所示，其中每个残差块由膨胀卷积、特征权重重标定、权值归一化、整流线性单元(ReLU)和用于正则化的dropout组成。其中特征权重重标定通过全局平均池化得到长度为hidden_size的向量，对这个向量加两个FC层，FC层表示前馈层，做非线性映射。最后输出的向量，能够表示token维度特征的重要性程度，然后与膨胀卷积后得到的特征进行scale得到权重重标定的语义特征，然后利用句法特征与膨胀卷积提取到的语义特征进行交叉注意力：

其中为第l层的GCN输出，/>为第l层的残差块的输出，W^Q，W^K，W^V分别为计算Q_C，K_C，V_C的权重，Q_C，K_C，V_C为注意力中对应的Q，K，V参数，Q，K，V为注意力公式中的设定参数，d_k为语义特征的维数。

最终能够得到提取后的特征表示M＝{m₁，......，m_n}。接着为了能够使得每个token之间都能存在信息交互，采用token间的多头自注意力来进一步提取得到语义特征

H^sem＝([head₁，......head_k])W

其中是多头注意力中第k个头对应的Q，K，V的权重，W

为结合多个注意力头的特征权重。

对上述两个特征进行average pooling得到和/>average pooling表示平均池化，由于上述提取出来的两个特征会在特征数值上存在数量级差异，应用句首的CLS来分别对句法特征和语义特征进行conditional layer normalize后进行拼接，conditionallayer normalize表示条件层归一化，得到最终的特征表示r＝[H^syn′，H^sem′]：

其中γ₁＝W₁h_cls+b₁， h_cls表示句首CLS的embedding，CLS表示句首的token，W₁，W₂分别是对h_cls的线性映射以得到γ₁，λ₁，代表线性映射的权重，b₁，b₂分别为计算γ₁，λ₁的偏置项，CLN表示conditional layer normalize，即条件层归一化。

同理也可得最终的语义特征为

S2：对提取到的双流特征进行基于特征分解的多任务提取，得到主客体和关系。

在经过上述句法和语义特征构造后，在三元组提取任务中，每一个组成部分都应有属于自己的特征，同时三个组成部分之间也存在联系，即存在一些共享特征。为此，将三元组提取任务先建模为基于特征分解的多任务学习，该模块结构如图4所示。首先为三个任务构造三个模块对，每一对模块中存在两个特征提取器，一个负责抽取任务间可共享信息，一个负责抽取任务特有特征信息。同时，为了使模块对的信息互补，引入正交约束条件来使模块对的表达的信息表征相关性降低。正交约束L_orth如下：

其中为任务特有特征信息，/>为共享信息。同时为了分辨不同的任务特有信息，构造辅助任务来帮助识别，具体为用任务特有信息来直接预测该任务，并通过与真实标签的损失值来更新任务特有模块权重L_aul：

接着为了融合产生的共享特征，这些共享特征中会存在噪声，使用孪生网络来进一步提炼更好的共享特征，使用孪生网络里权重共享的作用是为了提炼出这些共享特征中所共有的特征，达到减少三个共享特征中不相关的信息，设置余弦相似度损失函数L_siam来约束孪生网络生成的共享特征；

其中，L_siam设置为

其中v_i，v_j为经过孪生网络后的共享特征向量。

同时，观察到共享特征融合模块和句法语义特征提取模块中的参数将接收来自每个提取任务参数的反向传播梯度。因此，这两个模块的收敛速度将与其他提取模块有很大的不同，为此设计共享感知学习机制来修改模块的学习率ε_i：

其中ε为模型初始过程中设置的学习率，m为该模块被其他多少个模块所利用的数量，在这里定义共享特征融合模块和句法语义特征提取模块中的m为3，f(m)为将m映射为一个大于1的数，此处可直接设置为f(m)＝m。

最后使用任务特有特征和融合后的共享特征来进行三元组各部分提取：

其中r为关系类型总数，r_i为TransE获取的关系embedding，能够从三元组知识图中学习领域知识信息，起到知识推理的作用，表示在句子中提取到第i个关系的概率，W_r1代表计算/>时给r_i的一个权重。

完成上述的三部分分别提取后，利用提取到的主客体和关系用三仿射机制进行三元组对齐：

L_alin＝-log(TriAff)

根据计算出来的得分设置相应的阈值判断是否提取该三元组，其中u代表提取到的主体特征，v为提取到的客体特征，r为提取到的关系特征，将u，v，r分别经过不同的MLP层得到对应的W为三仿射中的权重，×₁表示爱因斯坦约定求和符号。

最终模型的损失函数设置为L＝α₁L_otrh+α₂L_aul+α₃L_sima+L_s/o+L_r+α₄L_alin。其中α₁、α₂、α₃、α₄是平衡各项损失函数的超参数。

S1：对文本进行双流特征提取；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种结直肠癌病理文本关系抽取方法，其特征在于，包括以下步骤：

S1：对文本进行双流特征提取；

2.根据权利要求1所述的一种结直肠癌病理文本关系抽取方法，其特征在于，步骤S1所述对文本进行双流特征提取，首先构造句法特征，然后利用句法特征与膨胀卷积得到句子的语义特征，最后拼接句法特征和语义特征。

3.根据权利要求2所述的一种结直肠癌病理文本关系抽取方法，其特征在于，所述首先构造句法特征，然后利用句法特征与膨胀卷积得到句子的语义特征，最后拼接句法特征和语义特征，具体过程为：

然后用GCN图卷积方法生成句法特征

其中为邻接矩阵的归一化，/>为第l层的GCN所输出的第i个token的句法依赖特征，W^l ^-1是l-1层的权重，b^l是第l层的偏置项，σ是ReLU激活函数，ReLU表示整流线性单元；

采用深度膨胀卷积和交叉注意力的方式提取句子的语义特征；首先借助TCN中膨胀非因果卷积的残差结构来构造深度膨胀卷积，其中TCN表示时间卷积神经网络；其中每个残差块由膨胀卷积、特征权重重标定、权值归一化、整流线性单元和用于正则化的dropout组成；其中特征权重重标定通过全局平均池化得到长度为hidden_size的向量，对这个向量加两个FC层，FC层表示前馈层，做非线性映射；最后输出的向量，能够表示token维度特征的重要性程度，然后与膨胀卷积后得到的特征进行scale得到权重重标定的语义特征，然后利用句法特征与膨胀卷积提取到的语义特征进行交叉注意力：

其中为第l层的GCN输出，/>为第l层的残差块的输出,W^Q,W^K,W^V分别为计算Q_C,K_C,V_C的权重，Q_C,K_C,V_C为注意力中对应的Q,K,V参数，Q,K,V为注意力公式中的设定参数，d_k为语义特征的维数；

最终能够得到提取后的特征M＝{m₁,……,m_n}；接着采用token间的多头自注意力来进一步提取得到语义特征

H^sem＝([head₁,……head_k])W

其中是多头注意力中第k个头对应的Q,K,V的权重，W

为结合多个注意力头的特征权重；

对句法特征和语义特征进行平均池化得到和/>使用句首的CLS来分别对句法特征和语义特征进行条件层归一化后进行拼接，得到最终的特征r＝[H^syn'，H^sem']：

其中γ₁＝W₁h_cls+b₁,λ₁＝W₂h_cls+b₂,

h_cls表示句首CLS的embedding，CLS表示句首的token，W₁,W₂分别是对h_cls的线性映射以得到γ₁,λ₁，代表线性映射的权重，b₁,b₂分别为计算γ₁,λ₁的偏置项，CLN表示conditional layer normalize，即条件层归一化；

同理也可得最终的语义特征为

4.根据权利要求1所述的一种结直肠癌病理文本关系抽取方法，其特征在于，步骤S2所述对提取到的双流特征进行基于特征分解的多任务提取，得到主客体和关系，首先进行特征分解，然后融合共享特征，最后进行三元组各部分提取。

5.根据权利要求4所述的一种结直肠癌病理文本关系抽取方法，其特征在于，所述首先进行特征分解，然后融合共享特征，最后进行三元组各部分提取，具体过程为：

其中为任务特有特征信息，/>为共享信息；

其中，L_siam设置为

其中v_i，v_j为经过孪生网络后的共享特征向量；

6.根据权利要求4所述的一种结直肠癌病理文本关系抽取方法，其特征在于，构造辅助任务，具体过程为：

7.根据权利要求4所述的一种结直肠癌病理文本关系抽取方法，其特征在于，使用共享感知学习机制修改模块的学习率，具体过程为：

8.根据权利要求1所述的一种结直肠癌病理文本关系抽取方法，其特征在于，步骤S3所述利用提取到的主客体和关系用三仿射机制进行三元组对齐，具体过程为：

利用提取到的主客体和关系用三仿射机制进行三元组对齐：

L_alin＝-log(TriAff)

根据计算出来的得分设置相应的阈值判断是否提取该三元组，其中u代表提取到的主体特征，v为提取到的客体特征，r为提取到的关系特征，将u,v,r分别经过不同的MLP层得到对应的W为三仿射中的权重，×₁表示爱因斯坦约定求和符号；

9.一种结直肠癌病理文本关系抽取系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括一种结直肠癌病理文本关系抽取方法程序，所述一种结直肠癌病理文本关系抽取方法程序被所述处理器执行时实现如下步骤：

S1：对文本进行双流特征提取；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括结直肠癌病理文本关系抽取方法程序，所述结直肠癌病理文本关系抽取方法程序被处理器执行时，实现如权利要求1至8中任一项所述的一种结直肠癌病理文本关系抽取方法的步骤。