CN112883738A

CN112883738A - 基于神经网络和自注意力机制的医学实体关系抽取方法

Info

Publication number: CN112883738A
Application number: CN202110316876.7A
Authority: CN
Inventors: 李天瑞; 张世豪; 贾真; 杜圣东; 滕飞
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-06-01

Abstract

本发明公开了一种基于神经网络和自注意力机制的医学实体关系抽取方法，该方法包括：利用向量表示技术将医学文本语句向量化；利用双向长短期记忆网络学习医学文本语句的上下文信息和浅层语义特征；利用多通道自注意力机制学习医学文本语句的深层次全局语义特征；利用卷积神经网络学习医学文本语句的局部短语特征；将全局信息和局部信息进行拼接，用其进行关系判定，得到预测标签。本发明在“recurrent+CNN”网络框架的基础上引入多通道自注意力机制，可以同时捕获语句的上下文信息、局部信息和全局信息，从而对医学文本的语义特征进行深入挖掘，从多个方面深度、完整地表示语句的语义特征，从而提高关系抽取的效果。

Description

基于神经网络和自注意力机制的医学实体关系抽取方法

技术领域

本发明属于自然语言处理技术领域，特别是一种基于神经网络和自注意力机制的医学实体关系抽取方法。

背景技术

随着医学信息化的推进，医学领域已经积累了海量的非结构化文本数据，这其中包含了大量有价值的信息。如何从这些医学文本中挖掘出有效的信息并加以存储管理，以构建大规模、高质量的医学知识图谱，对医学信息化的发展具有重大意义，也是自然语言处理领域的研究热点。实体关系抽取作为医学文本结构化信息抽取的核心任务之一，旨在从非结构化文本中自动地抽取出实体对之间的语义关系，从而提取出有效的语义信息。

传统的医学实体关系抽取方法包括基于规则的方法、基于特征向量的方法和基于核函数的方法。基于规则的方法使用句子分析工具来识别文本中的句法元素，然后根据这些元素构建模式规则，并根据规则进行关系抽取。基于特征向量的方法主要是根据特征向量的相似度训练支持向量机、最大熵、条件随机场等机器学习模型进行关系抽取。基于核函数的方法通过设计特定核函数来计算句子之间的相似度，根据相似度进行关系的分类。这些方法虽然都取得了一定的效果，但需要依赖人工设计的规则或特征，从而使得模型的性能取决于人工手动设计的规则或特征的质量。近年来，随着深度学习的发展，以神经网络为主的方法被应用到关系抽取任务中，并取得了很多研究成果。该方法不依赖人工设计特征，完全由神经网络自动学习相关的所有特征。

目前，以卷积神经网络和循环神经网络为代表的深度学习方法在医学实体关系抽取任务上取得了突破。卷积神经网络能够捕获语句中的局部信息，但忽略了全局信息的作用。循环神经网络可以有效学习文本序列的上下文依赖关系，但无法挖掘句法和语义层面的特征。以循环神经网络和卷积神经网络相结合的“recurrent+CNN”网络框架是医学实体关系抽取任务中的主流基准模型，可以同时捕获语句的上下文信息和局部信息。因医学领域的特殊性，医学文本存在实体分布密度较高、语句长度分布不均等现象，使得“recurrent+CNN”网络框架无法深入挖掘医学文本语句的语义特征，并且不能处理过长的医学语句的长距离依赖问题。基于此，本发明采用一种基于神经网络和自注意力机制的关系抽取模型BLSTM-MCatt-CNN，该模型采用“recurrent+CNN”网络框架，其中的recurrent利用BLSTM来捕获医学文本语句的上下文信息和浅层语义特征，利用CNN捕获医学文本语句的局部短语特征，并结合多通道自注意力机制捕获医学文本语句的全局信息，对医学文本的语义特征进行深入挖掘，同时能有效地捕获长距离依赖。

发明内容

为了解决医学文本存在实体分布密度较高、语句长度分布不均等导致的抽取效果不佳的问题，本发明提出了一种基于神经网络和自注意力机制的关系抽取模型。该模型利用BLSTM来捕获医学文本语句的上下文信息和浅层语义特征，利用CNN捕获医学文本语句的局部短语特征，并结合多通道自注意力机制捕获医学文本语句的全局信息，对医学文本的语义特征进行深入挖掘，同时处理长距离依赖。

基于神经网络和自注意力机制的医学实体关系抽取方法，包括以下步骤：

步骤1：将含有两个实体的医学文本语句序列X向量化，得到输入特征向量W，具体为：

1.1字向量：将长度为n的语句序列X＝(x₁，x₂，...，x_n)中的字x_i转换成一个低维的稠密实值向量

字的字向量由字嵌入矩阵W_char中的一个向量编码表示，W_char的维度为|V|×d^char，其中|V|是固定大小的输入字表，d^char是字向量的维度；其中，i∈[1，2，...，n]；

1.2位置向量：对于语句序列X中的字x_i，计算其到实体的距离：

其中，p_i表示字x_i在语句序列X中的位置，

表示实体e^j在语句序列X中的位置；将字x_i与两个实体的距离映射到位置特征空间上一个随机初始化的位置向量上，维度为d^p；字x_i包含两个位置向量

1.3将字向量和位置向量拼接起来，获得字xi的特征向量

维度为d＝d^char+2d^p；

1.4将医学文本语句的输入特征向量表示为W＝(w₁，w₂，...，w_n)；

步骤2：利用双向长短期记忆网络BLSTM从输入特征向量W中学习到医学文本语句的上下文信息和浅层语义特征，得到句子向量H，具体为：

所述BLSTM由一个前向LSTM网络和一个后向LSTM网络组合而成；所述前向LSTM网络和后向LSTM网络均通过设置输入门i、遗忘门f和输出门o来控制信息流，并结合细胞状态c实现对历史信息的更新、取舍和存储；其中，前向LSTM网络的信息流包括当前时刻t的输入信息w_t、前一时刻LSTM的隐藏层状态h_t-1和前一时刻细胞状态c_t-1；

t时刻输入门i_t和遗忘门f_t的计算方式为：

其中σ(·)代表sigmoid函数，

表示哈达玛(Hadamard)乘积，W_wi、W_hi、W_ci为输入门中需要学习的权重矩阵，b_i为输入门的偏置向量，W_wf、W_hf、W_cf为遗忘门中需要学习的权重矩阵，b_f为遗忘门的偏置向量；

之后，获得当前时刻t的细胞状态c_t，其计算方式为：

其中tanh(·)代表双曲正切函数，W_wc、W_hc为当前细胞状态中需要学习的权重矩阵，b_c为当前细胞状态中的偏置向量；

接着，得到t时刻的输出门o_t：

其中，W_wo、W_ho、W_co为输出门中需要学习的权重矩阵，b_o为输出门的偏置向量；

最后，通过将非线性变换后的当前时刻细胞状态c_t与输出门o_t进行哈达玛乘积操作，得到当前时刻LSTM的隐藏层状态输出

所述前向LSTM网络用于学习医学文本语句的上文信息；

所述后向LSTM网络的信息流包括当前时刻t的输入信息w_t、后一时刻LSTM的隐藏层状态h_t+1和后一时刻细胞状态c_t+1，计算方式与前向LSTM网络相同，用于学习医学文本语句的下文信息；

BLSTM通过将前向LSTM网络和后向LSTM网络的隐藏层状态输出进行拼接，得到句子向量H＝(h₁，h₂，...，h_n)，其中在t时刻BLSTM的隐藏层输出为：

其中

和

分别表示前向LSTM网络和后向LSTM网络在t时刻的隐藏层状态输出；步骤3：利用多通道自注意力机制，从句子向量H中学习到医学文本语句的深层次全局语义特征，得到句子的全局特征向量M，具体为：

对句子向量H做多组字向量的注意力权重计算，获得多通道的自注意力权重矩阵向量表示A：

A＝softmax(W_s2tanh(W_s1H^T))；

其中W_s1是维度为d_a×2u的权重矩阵，u表示前向LSTM网络或后向LSTM网络的隐藏层神经元个数，W_s2是维度为r×d_a的权重矩阵，r表示自注意力机制的通道数；

句子向量H根据多通道自注意力权重A做加权求和得到语句的全局特征向量M：

M＝AH；

步骤4：利用卷积神经网络CNN，从句子向量H中学习到医学文本语句的局部短语特征，得到句子的局部特征向量C，具体为：

对句子向量H＝(h₁，h₂，…h_n)，使用最大池化从句子的多个短语中提取最大值，计算方式如下：

其中p_i表示第i个长度为f₁的短语中的最大值，p表示整个句子最大池化后的输出向量，f₁表示用于池化的滤波器的长度，n表示输入句子的长度；

接着，对池化层的输出p进行卷积操作，获取句子中每个短语部分的局部特征；卷积层的计算方式如下：

其中w_c表示卷积层的权重向量，b_c表示卷积层的偏置项，f表示ReLU激活函数，f₂表示卷积层滤波器的长度，如果卷积层滤波器的个数为n_c，，则通过卷积层得到一个维度为n_c×(n-f₁-f₂+2)的输出矩阵H_c；

在卷积层后进行第二次最大池化，得到语句的局部特征向量C：

步骤5：将句子的全局特征向量M和局部特征向量C进行拼接，用其进行关系判定，得到预测标签，具体为：

将全局特征向量M和局部特征向量C进行拼接得到最终的句子输出向量x，然后输入到全连接层；

采用由k个节点组成的全连接层从向量x中获取分类器，k对应关系类型的数量，然后应用softmax分类器来获得每个关系标签的条件概率，并获得预测关系

p(y|x)＝softmax(W_ox+b_o)；

其中W_o和b_o是权重参数和偏置参数。

与现有技术相比，本发明的有益效果为：

在“recurrent+CNN”网络框架的基础上引入多通道自注意力机制，可以同时捕获语句的上下文信息、局部信息和全局信息，从而对医学文本的语义特征进行深入挖掘，从多个方面深度、完整地表示语句的语义特征，从而提高关系抽取的效果。

附图说明

图1为本发明中实体关系抽取模型结构示意图。

图2为本发明中的多通道自注意力机制的结构示意图。

图3为本发明中的多通道自注意力机制的注意力计算示意图。

具体实施方式

具体实施步骤如下所示：

步骤1：利用向量表示技术将医学文本语句向量化，得到输入特征向量；

对于含有两个实体的医学文本语句，使用字符特征和字相对于实体的位置特征对输入的医学文本语句中的每个字进行信息表征，并利用向量化技术将每个字的字符特征和位置特征映射为低维的稠密实值向量；

(1)字向量：将长度为n的语句序列X＝(x₁，x₂，...，x_n)中的字x_i转换成一个低维的稠密实值向量

(2)位置向量：对于语句序列X中的字x_i，计算其到实体的距离：

其中，p_i表示字x_i在语句序列X中的位置，

表示实体e^j在语句序列X中的位置；

随后，将字x_i与两个实体的距离映射到位置特征空间上一个随机初始化的位置向量上，维度为d^p，字x_i包含两个位置向量

将字向量和位置向量拼接起来，获得字x_i的特征向量

维度为d＝d^char+2d^p；

这样一来，医学文本语句的输入特征向量可以表示为W＝(w₁，w₂，...，w_n)；

步骤2：利用双向长短期记忆网络BLSTM从输入特征向量中学习到医学文本语句的上下文信息和浅层语义特征，得到句子向量；

文本数据可以被视为具有前后依赖关系的序列数据，LSTM作为循环神经网络的一个变种，可以捕获数据的上下文依赖特征，适合处理序列数据；

BLSTM通过将一个前向LSTM网络和一个后向LSTM网络组合来学习文本语句的上下文信息；前向LSTM网络和后向LSTM网络均通过设置输入门i、遗忘门f和输出门o来控制信息流，并结合细胞状态c实现对历史信息的更新、取舍和存储；其中，前向LSTM网络的信息流包括当前时刻t的输入信息w_t、前一时刻LSTM的隐藏层状态h_t-1和前一时刻细胞状态c_t-1；

t时刻输入门i_r和遗忘门f_t的计算方式为：

其中σ(·)代表sigmoid函数，ο表示哈达玛(Hadamard)乘积，W_wi、W_hi、W_ci为输入门中需要学习的权重矩阵，b_i为输入门的偏置向量，W_wf、W_hf、W_cf为遗忘门中需要学习的权重矩阵，b_f为遗忘门的偏置向量；

之后，获得当前时刻t的细胞状态c_t，其计算方式为：

接着，得到t时刻的输出门o_t：

最后，通过将非线性变换后的当前细胞状态c_t与输出门o_t进行哈达玛乘积操作，得到当前时刻LSTM的隐藏层状态输出

前向LSTM网络用于学习医学文本语句的上文信息，而后向LSTM网络用于学习医学文本语句的下文信息，其信息流包括当前时刻t的输入信息w_t、后一时刻LSTM的隐藏层状态h_t+1和后一时刻细胞状态c_t+1，计算方式与前向LSTM网络相同；

BLSTM通过将前向LSTM网络和后向LSTM网络的隐藏层状态输出进行拼接，得到句子向量H＝(h₁，h₂，…，h_n)，其中在t时刻BLSTM的隐藏层输出为：

其中

和

分别表示前向LSTM网络和后向LSTM网络在t时刻的隐藏层状态输出；步骤3：利用多通道自注意力机制，从句子向量中学习到医学文本语句的深层次全局语义特征，得到句子的全局特征向量；

传统的自注意力机制将句子中的每个字和该句子中的所有字进行注意力权重的计算，得到一组注意力权重向量，从而学习句子内部字之间的长距离依赖关系，并捕获句子的全局结构特征；然而，这种自注意力机制所得到的权重向量通常只能表示句子的某一个方面，而医学文本具有实体分布密度较高的特点，因此一个句子可能存在多个方面共同构成句子的整体语义；若对句子进行多次注意力权重计算，则能得到多组不同的注意力权重向量，从而可以从多个方面完整地表示语句，这就是多通道自注意力机制，其结构如图2所示；因此，本发明采用多通道自注意力机制来捕获句子级别的多语义全局信息，对医学文本的语义特征进行深入挖掘；同时，考虑到医学文本语句的长度分布不均，自注意力机制可以有效地捕获长距离依赖；

如图3所示，对步骤2中BLSTM网络输出的句子向量H做多组字向量的注意力权重计算，获得多通道的自注意力权重矩阵向量表示A：

A＝softmax(W_s2tanh(W_s1H^T))

其中W_s1是维度为d_a×2u的权重矩阵，u表示前向LSTM网络或后向LSTM网络的隐藏层神经元个数，W_s2是维度为r×d_a的权重矩阵，r表示自注意力机制的通道数，不同的通道可以从不同方面表示语句的语义信息；

BLSTM网络输出的句子向量H根据多通道自注意力权重A做加权求和得到语句的全局特征向量M：

M＝AH

步骤4：利用CNN从句子向量中学习到医学文本语句的局部短语特征，得到句子的局部特征向量；

在大多数情况下，一个句子中的某些字符对整个句子的表达可能并不重要；因此，本发明使用最大池化从句子的多个短语中提取最重要的特征，计算方式如下：

接着，对池化层的输出p进行卷积操作，获取句子中每个短语部分的局部特征。卷积层的计算方式如下：

其中w_c表示卷积层的权重向量，b_c表示卷积层的偏置项，f表示ReLU激活函数，f₂表示卷积层滤波器的长度，如果卷积滤波器的个数为n_c，则通过卷积层可以得到一个维度为n_c×(n-f₁-f₂+2)的输出矩阵H_c；

为了获得整个句子的固定长度的特征，我们在卷积层后进行第二次最大池化，得到语句的局部特征向量C：

步骤5：将句子的全局特征向量和局部特征向量进行拼接，用其进行关系判定，得到预测标签。

将步骤3多通道自注意力层获得的全局特征向量M和步骤4CNN层获得的局部特征向量C进行拼接，得到最终的句子输出向量x，然后输入到全连接层；

p(y|x)＝softmax(W_ox+b_o)

其中W_o和b_o是权重参数和偏置参数。

为了验证本发明的有效性，本发明在CHIP2020的评测任务二：中文医学实体关系抽取的数据集上与6个医学领域实体关系抽取模型进行了对比实验，6个对比模型如下：

(1)CNN模型：利用具有最大池化的CNN模型进行关系抽取。

(2)BLSTM和ABLSTM模型：利用双向LSTM模型获取语句的上下文信息，再分别结合最大池化和注意力池化进行关系抽取。

(3)CRNN-max和CRNN-att：结合BLSTM和CNN以学习文本语句的上下文信息和局部信息，并分别在最后使用最大池化和注意力池化进行关系抽取。

(4)CBGRU：结合CNN和双向门控循环单元网络BGRU学习文本语句的局部信息和上下文信息来进行关系抽取。

评价指标采用精确率(precision，P)、召回率(Recall，R)及F1值(F1-score)，设r_m为预设关系集合R＝(r₁，r₂，...，r_k)中的一个关系类型，其中m∈[1，2，...，k]，将给定的标注结果作为真实关系标签，计算公式如下：

其中TP_m表示模型预测的关系类型为r_m且真实类型也为r_m的样本数量，FP_m表示预测类型为r_m但真实类型不为r_m的样本数量，FN_m表示预测类型不为r_m但真实类型为r_m的样本数量，TP_m+FP_m表示预测类型为r_m的样本数量，TP_m+FN_m表示真实类型为r_m的样本数量。

然后，采用加权平均的方式计算模型整体的精确率、召回率和F1值，以此作为模型整体的评价指标。加权平均的计算方式为：将各关系类型的精确率、召回率、F1值与对应的关系标签在样本中的比例相乘，然后将所有关系类型相加，具体的计算公式如下：

其中W_m为第m类关系类型在样本中所占的比例。实验结果如表1所示：

表1实验结果

实验结果表明，本发明提出的BLSTM-MCatt-CNN模型比所有的对比模型的效果都要好，在精确率、召回率和F1值上都取得了最好的效果。

Claims

1.基于神经网络和自注意力机制的医学实体关系抽取方法，其特征在于，包括以下步骤：

其中，p_i表示字x_i在语句序列X中的位置，

1.3将字向量和位置向量拼接起来，获得字x_i的特征向量

维度为d＝d^char+2d^p；

1.4将医学文本语句的输入特征向量表示为W＝(w₁w₂，...，w_n)；

t时刻输入门i_t和遗忘门f_t的计算方式为：

其中σ(·)代表sigmoid函数，

之后，获得当前时刻t的细胞状态c_t，其计算方式为：

接着，得到t时刻的输出门o_t：

所述前向LSTM网络用于学习医学文本语句的上文信息；

其中

和

A＝softmax(W_s2tanh(W_s1H^T))；

M＝AH；

对句子向量H＝(h₁,h₂，...，h_n)，使用最大池化从句子的多个短语中提取最大值，计算方式如下：

其中w_c表示卷积层的权重向量，b_c表示卷积层的偏置项，f表示ReLU激活函数，f₂表示卷积层滤波器的长度，如果卷积层滤波器的个数为n_c，则通过卷积层得到一个维度为n_c×(n-f₁-f₂+2)的输出矩阵H_c；

p(y|x)＝softmax(W_ox+b_o)；

其中W_o和b_o是权重参数和偏置参数。