CN113033207B

CN113033207B - 基于逐层感知机制的生物医学嵌套类型实体识别方法

Info

Publication number: CN113033207B
Application number: CN202110373760.7A
Authority: CN
Inventors: 申德荣; 胡宇; 聂铁铮; 寇月; 于戈
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2023-08-29
Anticipated expiration: 2041-04-07
Also published as: CN113033207A

Abstract

本发明提供一种基于逐层感知机制的生物医学嵌套类型实体识别方法，涉及数据挖掘和自然语言处理技术领域。该方法包括基于向量模式的生物医学文本表示、基于循环神经网络的隐藏特征编码与解码、基于多任务逐层感知机制的嵌套类型实体识别。步骤1为生物医学文本表示步骤，利用一位编码法和预训练特征向量对文本单词构建字符特征和语义特征。步骤2为隐藏特征提取，利用循环神经网络和RELU激活函数对初始特征进行隐藏信息发现、编码与解码。步骤3为多任务逐层感知机制，利用归一化函数在步骤2基础上，识别简单实体，通过迭代组合方法，逐层感知识别嵌套类型实体。本发明可以对生物医学文本中的嵌套类型实体进行识别提取，并取得较好的效果。

Description

基于逐层感知机制的生物医学嵌套类型实体识别方法

技术领域

本发明涉及数据挖掘和自然语言处理技术领域，尤其涉及一种基于逐层感知机制的生物医学嵌套类型实体识别方法。

背景技术

生物医学命名实体识别是在原始文本中识别生物医学命名实体的任务。生物医学命名实体的一个重要特点是使用嵌套实体名称。耦合的实体组成结构，由于其实体边界难以准确划定，降低了数据可理解性，给语义发现、信息检索等多个下游任务带来巨大挑战。生物医学实体识别作为文本理解的重要前置技术，通过挖掘实体及其上下文数据特征，以标识引用同一真实世界概念的数据实例，从而消除歧义、增强语义。

作为文本理解的重要前置步骤，传统的生物医学实体识别方法通常采用两种方式：(1)字符串匹配与规则发现方法，即是以专家定义的规则，从人工维护的生物医学领域专业词典中发现并抽取相关的生物医学实体。其主要方法是由专家解析文本的构成规则，并通过比对目标词项和生物医学词典，通过发现词典中类似的术语单元以识别相关实体。(2)采用统计机器学习方法，结合生物医学文本数据的特点训练模型，进行实体识别。其本质是将生物医学实体识别看做是词项的多分类问题。

然而，当前实际应用中出现的大量复杂数据结构，传统的生物医学实体识别技术无法进行较好的处理。其中一个重要的数据结构是嵌套类型实体，基于多任务多粒度的逐层感知机制可以较好地分析处理该类型实体。例如，部分实体名称可能局部或全部覆盖另外一部分实体名称，人工维护的生物医学词典由于更新不具有实时性，对新出现的实体名称可能并未纳入，统计机器学习模型仅依赖于词序列的概率分布，其主要关注词的共现现象，在方法上并未对文本结构进行更深入的处理，因而无法有效分析复杂实体的构成规则。为了有效地分析处理该类型实体，生物医学实体识别方法应当在较少地依赖于人工知识的前提下，有效地对构成实体的各种规则进行更精细地分析与处理。

相对于识别简单结构的实体数据，嵌套类型实体识别需要额外具备以下两个能力：(1)交互构成的嵌套类型实体的解耦合能力。给定两个交互构成的生物医学实体(e_i,e_j)，(e_i,e_j)可能是局部或全部重叠，嵌套类型实体识别方法，相比于传统的实体识别方法，应完整地识别出每一个具有完备语义的实体构成单元。(2)每个独立实体的识别能力。如果该实体是独立实体，即不与其它任一实体耦合，嵌套类型实体识别方法应当与传统的实体识别方法具有相同的识别能力。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于逐层感知机制的生物医学嵌套类型实体识别方法，可以对生物医学文本中的嵌套类型实体进行识别提取。

为解决上述技术问题，本发明所采取的技术方案是：

一种基于逐层感知机制的生物医学嵌套类型实体识别方法，包括以下步骤：

步骤1：生物医学文本表示；

利用向量模式对实体及其上下文进行描述，构建文本中每一个单词的字符特征和语义特征：采用一位有效编码法对构成文本单词的每一个字符进行编码，采用文本嵌入预训练向量对构成文本单词的语义特征进行编码；由每一个单词的字符特征编码和语义特征编码所描述的文本作为初始文本表示；

所述一位有效编码法是指，采用n个状态位分别对构成文本单词的n个字符进行编码，索引当前字符的状态位赋值为1，其余位置赋值为0；

所述文本嵌入预训练向量是指，在语料库中，基于单词及其邻近单词在预设滑动窗口范围内的共现统计量，根据文本语言模型框架，映射到文本向量空间并生成词向量，构成的包含所有单词的查询表；

步骤2：生物医学数据隐藏特征提取；

设计两个模型；模型1是深度与文本长度相同的循环神经网络；模型2是由与模型1参数结构相同的循环神经网络，并堆叠RELU激活函数构成；采用模型1作为数据编码器，在步骤1获得的初始文本表示的基础上抽取数据的高级特征，并对数据的隐藏特征进行编码；采用模型2作为数据解码器，对编码后的隐藏特征进行解码；

步骤3：多任务模式的逐层感知实体识别；

以步骤2获得的数据隐藏特征为基础，采用由最小粒度实体识别到复杂的嵌套类型实体识别的模式，以多任务多粒度逐层感知识别的方式，识别嵌套类型生物医学实体；最小粒度实体即由单个单词所表示的实体，复杂的嵌套类型实体即由多于一个单词所构成的嵌套实体；

将数据隐藏特征向量输入归一化函数，依据归一化函数输出值，得到最小粒度实体识别的预测值，并根据最小粒度实体识别的预测值设置并调整判定阈值，得到最小粒度实体识别结果；

对得到的最小粒度实体识别结果，依次进行配对组合，并将所有的配对组合结果输入归一化函数，依据归一化函数输出值，得到嵌套实体识别的预测值，并根据嵌套实体识别的预测值设置并调整判定阈值，得到嵌套实体识别结果。

采用上述技术方案所产生的有益效果在于：本发明提供的基于逐层感知机制的生物医学嵌套类型实体识别方法，可以对生物医学文本中的嵌套类型实体进行识别提取，并取得较好的效果，相对于其它生物医学实体识别方法，准确率均有10％以上提高。

附图说明

图1为本发明实施例提供的基于逐层感知机制的生物医学嵌套类型实体识别方法总体流程图；

图2为本发明实施例提供的测试结果图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例的方法如下所述。

步骤1：生物医学文本表示。本步骤利用文本词项的字符特征和语义特征，生成文本词项的向量化表示。给定，词汇表V包含组成生物医学文本的所有单词，单词w是由字符表C中的字符组成的，句子S表示为单词序列(w₁,w₂,...,w_T)，其第t个单词w_t表示为字符序列(c_t ¹,c_t ²,c_t ³,...,c_t ^N)，t＝1,2,…,T，其中c_t ⁿ是字符表C中的元素，n＝1,2,…,N；N是单词w_t所含字符数量，T是句子S所含单词数量。本步骤包括以下两个子步骤：

步骤1.1：字符特征表示。为组成词汇表中所有单词的字符构建一位有效编码，输入字的初始编码是通过规定字符表C(其长度表示为|C|)，并使用1-of-C编码来量化每个字符：

char(w_t)＝W^chEMB*I^c

其中，char(w_t)是单词w_t的字符特征表示，W^chEMB∈R^|C|*|C|表示字符表的一位有效编码矩阵表示，其每一行对应于字符表中相应字符的one-hot向量。I^c∈R^|C|*N的第n列是从字符表中索引的第n个字符的一位有效编码向量表示。

word2vector嵌入只需从大型语料库上训练的单词嵌入的查找表中检索。使用描述当前单词在字典中位置的向量与嵌入矩阵的乘积即可将单词w_t转换为其单词级嵌入：

S_t ^w2v＝W^w2vEMB*v_t

其中，S_t ^w2v表示单词w_t的语义特征表示，v_t是|V|-维向量，在词汇表中索引单词w_t处值为1，在所有其他位置值为0。

综上，单词w_t由语义嵌入和字符嵌入连接生成，其被描述为：w_t：x_t＝[S_t ^w2v,char(w_t)]。

步骤2.生物医学数据隐藏特征提取。输入向量由步骤1生成的单词特征向量连接构成特征矩X＝(x₁,x₂,...,x_T)。本步骤的主要目的是提取生物医学实体数据隐藏特征，包括以下两个子步骤。

步骤2.1：数据编码过程。编码器层将输入语句X＝(x₁,x₂,...,x_T)的每一个单词w_t的特征向量x_t转换为隐藏特征向量h_t。本实施例采取前向卷积神经网络有序读取输入序列，并计算前向隐藏状态序列。反向卷积神经网络以相反的顺序读取序列，计算对应的反向隐藏状态序列。每个隐藏状态h_t是通过串联前向隐藏状态和后向隐藏状态来表示的：

h_t～EncoderRNN(h_t-1,x_t)

其中，h_t是编码层第t时刻的隐藏状态。

步骤2.2：数据解码过程。解码层是给定根据隐藏状态序列生成的向量h_t和已经预测的前序状态(y₁,y₂，…，y_t-1)标签，对序列中的第t个输出状态y_t进行解码并预测。解码器第t个输出状态y_t和第t个隐藏状态s_t表示为：

y_t＝DecoderRNN(s_t,y_t-1,h_t)

s_t＝f(h_t,s_t-1,y_t-1)

其中，DecoderRNN(*)表示作为解码器层的双向RNN模型，其是一个非线性多层函数。s_t为递归神经网络解码层的第t个隐藏状态，模型通过结合编码层隐藏状态h_t生成输出y_t。

步骤3：采用多任务模式的逐层感知识别。本步骤采用由最小粒度实体识别到复杂的嵌套类型实体识别的模式，以多任务多粒度逐层感知识别的方式，识别嵌套类型生物医学实体。

步骤3.1：简单实体识别。对于每一个输出y_t，采用SoftMax函数进行分类，得到其是否属于一个实体的判定。

步骤3.2：嵌套实体识别。根据简单实体识别的结果，对每一个识别出的简单实体进行组合，进而继续采用SoftMax函数进行分类，并重复交替进行步骤3.1和步骤3.2过程，直到识别出所有的嵌套实体。

本实施例选取两种最新提出的算法作为对比测试，如图2所示，测试结果显示，本发明在准确率上均有10％以上的提高。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于逐层感知机制的生物医学嵌套类型实体识别方法，其特征在于：包括以下步骤：

步骤1：生物医学文本表示；

步骤2：生物医学数据隐藏特征提取；

设计两个模型；模型1是深度与文本长度相同的循环神经网络；模型2是由与模型1参数结构相同的循环神经网络，并堆叠RELU激活函数构成；采用模型1作为数据编码器，将步骤1获得的初始文本表示的每一个单词的特征向量转换为隐藏特征向量；采取前向卷积神经网络有序读取输入序列，并计算前向隐藏状态序列；反向卷积神经网络以相反的顺序读取序列，计算对应的反向隐藏状态序列；每个隐藏状态通过串联前向隐藏状态和后向隐藏状态来表示；采用模型2作为数据解码器，给定根据隐藏状态序列生成的隐藏特征向量和已经预测的前序状态标签，对序列中的下一个输出状态进行解码并预测；

步骤3：多任务模式的逐层感知实体识别；

以步骤2获得的数据隐藏特征为基础，采用由最小粒度实体识别到复杂的嵌套类型实体识别的模式，以多任务多粒度逐层感知识别的方式，识别嵌套类型生物医学实体，具体如下：

对得到的最小粒度实体识别结果，依次进行配对组合，并将所有的配对组合结果输入归一化函数，依据归一化函数输出值，得到嵌套实体识别的预测值，并根据嵌套实体识别的预测值设置并调整判定阈值，得到嵌套实体识别结果；

最小粒度实体即由单个单词所表示的实体，复杂的嵌套类型实体即由多于一个单词所构成的嵌套实体。

2.根据权利要求1所述的基于逐层感知机制的生物医学嵌套类型实体识别方法，其特征在于：所述一位有效编码法是指，采用n个状态位分别对构成文本单词的n个字符进行编码，索引当前字符的状态位赋值为1，其余位置赋值为0。

3.根据权利要求1或2所述的基于逐层感知机制的生物医学嵌套类型实体识别方法，其特征在于：所述文本嵌入预训练向量是指，在语料库中，基于单词及其邻近单词在预设滑动窗口范围内的共现统计量，根据文本语言模型框架，映射到文本向量空间并生成词向量，构成的包含所有单词的查询表。