CN114841151B

CN114841151B - 基于分解-重组策略的医学文本实体关系联合抽取方法

Info

Publication number: CN114841151B
Application number: CN202210777344.8A
Authority: CN
Inventors: 朱强; 洪铖; 刘军平; 王帮超; 罗瑞奇
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-11-18
Anticipated expiration: 2042-07-04
Also published as: CN114841151A

Abstract

本发明具体涉及一种基于分解‑重组策略的医学文本实体关系联合抽取方法。本方法将医学文本实体关系抽取任务分解成实体标记、关系分类和重组匹配三个子模块，具体包括S1：对医学文本进行数据预处理；S2：将处理后的数据输入预训练模型编码器，输出包含语义信息的词向量；S3：将词向量输入到基于跨度的实体标记模块，抽取出医学文本中的所有头实体和尾实体；S4：将词向量输入到关系分类模块，抽取出所有可能存在的关系，同时利用焦点损失函数缓解关系样本分布失衡问题；S5：将抽取出的头实体和关系进行重组，利用自注意力机制匹配相应尾实体，解决三元组实体重叠问题。经过实验证明，本方法能有效提高医学文本数据中实体关系三元组的抽取效果。

Description

基于分解-重组策略的医学文本实体关系联合抽取方法

技术领域

本发明属于医学文本数据分析领域，具体涉及一种基于分解-重组策略的医学文本实体关系联合抽取方法。

背景技术

人工智能领域中的自然语言处理技术近年来在医学领域得到了广泛的应用。其中，在医学文本中进行信息抽取是大量研究人员关注的方向。医学实体关系抽取是医学文本信息抽取的子任务之一，其目标是从大量非结构化医学文本中抽取出实体及实体之间的关系，并以三元组（头实体，关系，尾实体）的形式表示，例如医学文本“E. coli usuallylives in the gut.”中存在三元组（E. coli, lives in, gut）。医学实体关系抽取在医学知识图谱的构建和补全、医学文本挖掘等方面都具有非常重要的作用。

医学实体关系抽取有实体识别和关系抽取两个子任务。传统的医学实体关系抽取模型大多采用基于流水线（pipeline）的方法，即对实体识别和关系抽取分别建模，依次完成两项子任务。但流水线方法存在一些不足：首先，分别建模将导致两个子任务相互独立，忽略了任务之间的联系；其次，两个模型之间存在错误累积，即实体识别中的错误实体将传播到关系抽取模型中，进而影响关系抽取的效果；最后，大量不存在关系的实体也被输入到关系抽取模型中，从而产生大量冗余实体。为了解决流水线方法中存在的问题，研究人员提出将两个子任务进行统一建模的医学实体关系联合抽取方法。

研究发现，医学实体关系抽取任务中的实体重叠问题和关系样本分布失衡问题严重影响着医学三元组的抽取效果。实体重叠问题是指单个实体存在于多个三元组中，根据重叠情况可分为正常、单实体重叠和实体对完全重叠，具体如图3所示。关系样本分布失衡问题是指医学文本数据中，不同关系类型的数量差别巨大，导致经过训练后的模型对数量少的关系抽取能力较弱，进而影响最终的抽取效果。

发明内容

本发明的目的在于：为了解决医学实体关系抽取任务中的实体重叠和关系样本分布失衡问题，提出一种基于分解-重组策略的医学文本实体关系联合抽取方法。本发明采用的技术方案如下：

步骤S1，对医学文本数据进行数据预处理操作，以获得可供模型训练的医学文本数据；

步骤S2，将经过文本预处理后得到的句子输入到编码器，获取包含句子的特征的词向量序列；

步骤S3，将包含语义信息的词向量序列输入到基于跨度的实体标记模块，用于提取文本中的头实体和尾实体，并采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置；

步骤S4，为了获取句子中实体之间存在的关系，将编码器输出的词向量输入到关系分类模块，接着对所有关系类型进行预测，从而提取出序列中所有可能存在的关系；

步骤S5，为了解决实体重叠问题，将实体标记模块中获取的每一个头实体，与关系分类模块中获取的每一种关系进行两两重组，获得所有可能成为三元组的头实体和关系组合；接着，将每个组合的头实体和关系的特征相结合，再使用Self-Attention机制获得所有尾实体的相关性特征，以匹配最相关尾实体的起始位置，从而获得该三元组中的尾实体，最终完成医学实体关系三元组的抽取工作。

进一步的，步骤S1中所述预训练包括对医学文本句子进行分句与分词。

进一步的，步骤S2中选择利用了大量医学文本训练的BioBERT预训练模型作为编码器，对于输入长度为n的句子，经过编码器后得到包含语义信息的词向量序列X:{x ₁ , x ₂ ,…,x _n }。

进一步的，步骤S3的具体实现方式如下；

S31：将步骤2中得到的词向量序列X输入到实体标记模块，用于提取文本中的头实体和尾实体，对于输入词向量序列X中第i个位置的表示x _i，利用一个二分类器预测x _i为实体起始位置和结束位置的概率；

S32：如果概率超过阈值，则对应x _i将会被标记1，否则将被标记为0；采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置，具体公式表示为：

其中，p _i ^start和p _i ^end分别表示x _i为实体起始位置和结束位置的概率，W _start和W _end为可训练的权重，b _start和b _end为偏差，激活函数为sigmoid函数；

S33：基于跨度实体标记模块通过以下似然函数确定实体e的跨度，实体e表示头实体或尾实体；

其中，n表示输入词向量序列的长度，start和end分别表示实体的开始位置和结束位置，y _i ^t是x _i为起始位置或结束位置的标记，即实体的开始位置和结束位置的真实值，开始位置和结束位置用1标记，其他位置用0标记；θ={W _start ，b _start ，W _end ，b _end }表示可训练权重和偏差的集合，t的值可取start或end，当取值为start时，表示预测当前实体的起始位置；当取值为end时，表示预测当前实体的结束位置；当y _i ^t=1时，I{y _i ^t=1}的值为1，否则为0；当y _i ^t=0时，I{y _i ^t=0}的值为1，否则为0；

S34：基于跨度的实体标记模块利用以下损失函数进行训练；

其中，n表示输入词向量序列的长度，θ={W _start ，b _start ，W _end ，b _end }表示可训练权重和偏差的集合，X为输入序列，p _θ(e|x)为实体e的跨度；

S35：将提取出来的所有头实体和尾实体分别表示为M _sub和M _obj。

进一步的，步骤4的具体实现方式如下；

S41：将编码器的输出词向量输入到关系分类模块，接着对所有关系类型进行概率预测，从而提取出序列X中所有可能存在的关系，具体公式表示为：

其中，X为编码器输出的词向量序列，W _rel和b _rel为可训练的权重和偏差，激活函数为sigmoid函数；

S42：对于关系样本分布均衡的数据集，关系分类模块使用以下交叉熵损失函数：

其中，n表示输入词向量序列的长度，r _i表示所有关系中的第i种关系的概率，y _i表示该文本中关系类型的真实值；

在关系样本分布失衡的数据集上，使用焦点损失（Focal Loss）函数代替交叉熵损失函数，作为关系分类模块的损失函数：

其中，n表示输入词向量序列的长度，r _i表示所有关系中的第i种关系的概率，y _i表示该文本中关系类型的真实值，γ为可调节参数；

S43：将抽取出的关系表示为M _rel。

进一步的，步骤5的具体实现方式如下；

S51：将从实体标记模块中获取的M _sub中的每一个头实体，与从关系分类模块中获取的M _rel中的每一种关系进行两两重组，获得所有可能成为三元组的头实体和关系的组合；

S52：将每个组合的头实体和关系的特征相结合；

S53：使用Self-Attention机制获得M _obj中所有尾实体的相关性特征；

S54：使用一个类似于实体标记模块中的二分类器来预测尾实体起始位置的概率，具体公式为：

其中，A _i为输入词向量序列X中第i个词的注意力特征，该注意力特征为利用Self-Attention机制获得的尾实体相关性特征，p _i ^start为X中第i个词为尾实体起始位置的概率，W _att和b _att均为可训练的权重和偏差；

S55：获得尾实体起始位置的概率后，再与实体标记模块中的M _obj进行匹配，若起始位置相同，则该尾实体即为这个头实体和关系组合的尾实体，完成医学文本三元组的抽取任务。

进一步的，S52的具体实现方式如下；

设置组合为{s₁,r₁}，其中，s₁表示头实体，r₁表示关系，首先，利用基于跨度的实体标记模块中获取到的s₁起始位置信息和结束位置信息，通过映射操作将s₁表示为张量v_s1；

为了能结合s₁和r₁的特征，将r₁映射到与v_s1维度相同的张量中，通过全连接层以获得关系r₁的特征张量v_r1；

将v_s1和v_r1相加，从而达到结合s₁和r₁特征的目的。

进一步的，步骤S5中Self-Attention机制通过最小化以下损失函数来训练模型；

其中，n表示输入词向量序列的长度，当y _i=1时，II{y _i=1}的值为1，否则为0；当y _i=0时，II{y _i=0}的值为1，否则为0。

本发明具有以下有益效果：

本文提出的基于分解-重组策略的医学文本实体关系联合抽取方法能够有效解决医学文本中的实体重叠问题，使得医学文本中大量的重叠三元组也能够被详尽的提取出来，避免了实体关系三元组的遗漏。同时，对于关系样本数量分布失衡的医学文本，本方法能够在不影响大比例关系类型提取效果的前提下，有效提高小比例关系类型的提取效果。本方法能够有效提高医学文本实体关系三元组的抽取效果。

附图说明

图1为本发明实施例的流程图。

图2为本发明实施例的模型图。

图3为实体重叠的三种类型示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，但不用于限定本发明。

参照图1，本发明提供一种基于分解-重组策略的医学文本实体关系联合抽取方法，包括步骤：

S1:对医学文本数据进行数据预处理操作，具体包括医学文本的分句和分词等操作，以获得可供模型训练的医学文本数据。

S2：将经过文本预处理后得到的句子输入到编码器，目的是获取包含句子特征的词向量序列。由于不同领域的文本数据有其各自的特点，因此对于医学领域数据集，选择利用了大量医学文本训练的BioBERT预训练模型作为编码器。该编码器能够将医学文本中的每个词编码成包含上下文语义信息的词向量，这些词向量作为后续医学实体关系三元组抽取工作的基础。

S3：将包含语义信息的词向量输入到基于跨度的实体标记模块，用于提取文本中的头实体和尾实体。该基于跨度的实体标记模块由激活函数为Softmax的二分类器组成，该分类器用于获取每种跨度的起始位置为实体起始位置的概率；若概率超过阈值，则认为此位置就是实体的起始位置，预测结束位置的方法与预测起始位置的方法类似。本文方法采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置。

S4：为了获取句子中实体之间存在的关系，将BioBERT预训练模型输出的词向量输入到关系分类模块，接着对所有关系类型进行预测，从而提取出序列中所有可能存在的关系。关系分类模块使用激活函数为Softmax的分类器预测所有关系的概率，对概率超过阈值的关系类型进行保留。

S5：为了解决实体重叠问题，本方法将基于跨度的实体标记模块中获取的每一个头实体，与关系分类模块中获取的每一种关系进行两两重组，使所有可能成为三元组的头实体和关系都被考虑在内。接着，将每个组合的头实体和关系的特征相结合，再使用Self-Attention机制获得所有尾实体的相关性特征，以匹配最相关尾实体的起始位置，从而获得该三元组中的尾实体，最终完成医学实体关系三元组的抽取工作。具体的，假设输入长度为n的医学文本句子：

本实施例中，步骤S1具体为：

将医学文本句子进行分句分词等数据预处理，以获得可供模型训练的医学文本数据。

本实施例中，步骤S2具体为：

将经过文本预处理后得到的句子输入到预训练模型BioBERT进行编码。对于输入长度为n的句子，经过预训练模型后得到包含语义信息的词向量序列X:{x ₁ ,x ₂ ,…,x _n }。

本实施例中，步骤S3具体为：

S31：将X输入到基于跨度的实体标记模块，用于提取文本中的头实体和尾实体。对于输入序列X中第i个位置的表示x _i，利用一个二分类器预测x _i为实体起始位置和结束位置的概率。

S32：如果概率超过阈值，则对应x _i将会被标记1，否则将被标记为0。本文方法采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置。

S33：基于跨度实体标记模块通过以下似然函数确定实体e（包括头实体和尾实体，头实体和尾实体的预测方式相同）的跨度：

其中，n表示输入序列的长度，start和end分别表示实体的开始位置和结束位置。y _i ^t是x _i为起始位置或结束位置的0/1标记，即实体的开始位置和结束位置的真实值，开始位置和结束位置用1标记，其他位置用0标记。θ={W _start ，b _start ，W _end ，b _end }表示可训练权重和偏差的集合。t的值可取start或end，当取值为start时，表示预测当前实体的起始位置；当取值为end时，表示预测当前实体的结束位置。当y _i ^t=1时，I{y _i ^t=1}的值为1，否则为0；当y _i ^t=0时，I{y _i ^t=0}的值为1，否则为0。

S34：基于跨度的实体标记模块利用以下损失函数训练模型

其中，n表示输入序列的长度，θ={W _start ，b _start ，W _end ，b _end }表示可训练权重和偏差的集合，X为输入序列，p _θ(e|x)为实体e的跨度。

本实施例中，步骤S4具体为：

S41：将预训练模型的输出词向量序列输入到关系分类模块，接着对所有关系类型进行预测，从而提取出序列X中所有可能存在的关系，具体公式如下：

其中，X为预训练模型的输出，W _rel和b _rel为可训练的权重和偏差，激活函数为sigmoid函数。

其中，n表示输入序列的长度，r _i表示所有关系中的第i种关系的概率，y _i表示该文本中关系类型的真实值。

其中，n表示输入序列的长度，r _i表示所有关系中的第i种关系的概率，y _i表示该文本中关系类型的真实值，γ为可调节参数。

S43：将抽取出的关系表示为M _rel。

在本实施例中，步骤S5具体为：

S51：将从基于跨度的实体标记模块中获取的M _sub中的每一个头实体，与从关系分类模块中获取的M _rel中的每一种关系进行两两重组，使所有可能成为三元组的头实体和关系都被考虑在内。

S52：输入序列X中存在M _sub ={s₁,s₂,s₃}，表示存在3个头实体；存在M _rel ={r₁,r₂}，表示存在2种关系。经过重组后存在6种头实体和关系的组合：{s₁,r₁}{s₂,r₁}{s₃,r₁}{s₁,r₂}{s₂,r₂}{s₃,r₂}。

S53：以组合{s₁,r₁}为例：首先，利用基于跨度的实体标记模块中获取到的s₁起始位置信息和结束位置信息，通过映射操作将s₁表示为张量v_s1。

S54：为了能结合s₁和r₁的特征，需要将r₁映射到与v_s1维度相同的张量中，通过全连接层以获得关系r₁的特征张量v_r1。

S55：将v_s1和v_r1相加，从而达到结合s₁和r₁特征的目的。然后，使用Self-Attention机制获得尾实体的相关性特征A。

S56：使用一个类似于基于跨度的实体标记模块中的二分类器来预测尾实体起始位置的概率，具体公式如下：

其中，A _i为输入序列X中第i个词的注意力特征，该注意力特征为利用Self-Attention机制获得的尾实体相关性特征。p _i ^start为X中第i个词为尾实体起始位置的概率，W _att和b _att均为可训练的权重和偏差。

S57：Self-Attention机制中最后通过最小化以下损失函数来训练模型：

其中，n表示输入序列的长度，当y _i=1时，II{y _i=1}的值为1，否则为0；当y _i=0时，II{y _i=0}的值为1，否则为0。

S56：将头实体、关系和尾实体以医学三元组的形式输出，最终完成医学文本实体关系三元组的抽取工作。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于分解-重组策略的医学文本实体关系联合抽取方法，包括以下步骤：

步骤S3，将包含语义信息的词向量序列输入到基于跨度的实体标记模块，用于提取文本中的头实体和尾实体，并采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置，定义两个集合M _sub和M _obj，分别用于存放预测出的头实体和尾实体；

步骤S4，为了获取句子中实体之间存在的关系，将编码器输出的词向量输入到关系分类模块，接着对所有关系类型进行预测，从而提取出序列中所有可能存在的关系，定义集合M _rel，用于存放提取出的关系；

步骤S5，为了解决实体重叠问题，将实体标记模块中获取的每一个头实体，与关系分类模块中获取的每一种关系进行两两重组，获得所有可能成为三元组的头实体和关系组合；接着，将每个组合的头实体和关系的特征相结合，再使用Self-Attention机制获得所有尾实体的相关性特征，以匹配最相关尾实体的起始位置，从而获得该三元组中的尾实体，最终完成医学实体关系三元组的抽取工作；

步骤S5的具体实现方式如下；

S52：将每个组合的头实体和关系的特征相结合；

S52的具体实现方式如下；

将v_s1和v_r1相加，从而达到结合s₁和r₁特征的目的；

2.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法，其特征在于：步骤S1中预训练包括对医学文本句子进行分句与分词。

3.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法，其特征在于：步骤S2中选择利用了大量医学文本训练的BioBERT预训练模型作为编码器，对于输入长度为n的句子，经过编码器后得到包含语义信息的词向量序列X:{x ₁ ,x ₂ ,…,x _n }。

4.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法，其特征在于：步骤S3的具体实现方式如下；

S31：将步骤S2中得到的词向量序列X输入到实体标记模块，用于提取文本中的头实体和尾实体，对于输入词向量序列X中第i个位置的表示x _i，利用一个二分类器预测x _i为实体起始位置和结束位置的概率；

S34：基于跨度的实体标记模块利用以下损失函数进行训练；

其中，n表示输入词向量序列的长度，θ={W _start ，b _start ，W _end ，b _end }表示可训练权重和偏差的集合，X为输入序列，p _θ(e|X)为实体e的跨度的概率，其中p _θ ^start(e|X)表示实体起始位置概率，p _θ ^end(e|X)表示实体结束位置概率；

5.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法，其特征在于：步骤S4的具体实现方式如下；

S43：将抽取出的关系表示为M _rel。

6.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法，其特征在于：步骤S5中Self-Attention机制通过最小化以下损失函数来训练模型；