CN115238698A

CN115238698A - 生物医疗命名实体识别方法及系统

Info

Publication number: CN115238698A
Application number: CN202210969322.1A
Authority: CN
Inventors: 徐卫志; 张晓冉; 赵雅倩; 陆佃杰; 张桂娟; 于惠; 龙开放; 孙胤泰; 钟诚; 李瑞琪
Original assignee: Shandong Mass Institute Of Information Technology; Shandong Normal University
Current assignee: Shandong Mass Institute Of Information Technology; Shandong Normal University
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-10-25

Abstract

本发明公开了生物医疗命名实体识别方法及系统；获取待识别的生物医疗语句；将生物医疗语句划分为生物医疗词汇、生物医疗字符；将生物医疗语句、生物医疗词汇和生物医疗字符，均输入到训练后的生物医疗命名实体识别模型中，输出生物医疗命名实体识别结果；训练后的模型，对生物医疗语句、生物医疗词汇和生物医疗字符，分别提取出字符的词嵌入特征、字符的偏旁特征、字符的部首特征、语法特征；将特征进行拼接处理得到第一拼接特征；对第一拼接特征进行自注意力机制处理得到处理后的第一拼接特征；将笔画特征与处理后的第一拼接特征进行拼接处理得到第二拼接特征；将第二拼接特征进行编码处理和解码处理得到生物医疗命名实体识别标签。

Description

生物医疗命名实体识别方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是涉及生物医疗命名实体识别方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

命名实体识别(Named Entity Recognition,NER)是自然语言处理中的一个重要任务，它的主要功能是识别出文本中的具有特定意义的实体，在特定领域根据需求识别出实体类别。例如在医疗领域命名实体识别主要识别患者的姓名、家庭地址、身体部位、症状、治疗方法等。

命名实体一般指的是文本中具有特定意义或指代性强的实体，通常包括两部分：识别实体的边界和确定实体的类型。因此实体范围很广泛，在各自领域中需要的文本名词都可以称为实体。

生物医疗命名实体识别(Biomedical Named Entity Recognition)的主要任务是在生物医疗领域文本中识别出基因、疾病、化学药品等命名实体。但这些实体通常由很长的词汇组成，每个实体有多个变体名称，组成实体的数字和字母可能表示不同的含义，因此，相较于普通领域的实体识别，生物医疗命名实体识别更加困难。

命名实体识别的研究方法主要包括基于规则和词典的方法、基于传统机器学习的方法、基于深度学习的方法和基于多任务学习的方法。基于规则和字典的方法过度依赖初始数据库的建立，只能适用于特定领域的实体识别，导致应用领域过于片面。传统机器学习的方法是基于大规模标记数据集，主要包括监督学习、半监督学习和无监督学习。但是传统监督学习方法需要花费大量时间进行设计特征，而这些特征决定模型的性能。

发明内容

为了解决现有技术的不足，本发明提供了生物医疗命名实体识别方法及系统；该方法可以更加准确地识别生物医疗命名实体，改善医疗信息。

第一方面，本发明提供了生物医疗命名实体识别方法；

生物医疗命名实体识别方法，包括：

获取待识别的生物医疗语句；将生物医疗语句划分为生物医疗词汇、生物医疗字符；

将生物医疗语句、生物医疗词汇和生物医疗字符，均输入到训练后的生物医疗命名实体识别模型中，输出生物医疗命名实体识别结果；

其中，所述训练后的生物医疗命名实体识别模型，其工作原理包括：对生物医疗语句、生物医疗词汇和生物医疗字符，分别提取出字符的词嵌入特征、字符的偏旁特征、字符的部首特征、语法特征；将字符的词嵌入特征、字符的偏旁特征、字符的部首特征、语法特征进行拼接处理，得到第一拼接特征；然后，对第一拼接特征进行自注意力机制处理，得到处理后的第一拼接特征；将笔画特征与处理后的第一拼接特征进行拼接处理，得到第二拼接特征；将第二拼接特征进行编码处理和解码处理，得到生物医疗命名实体识别标签。

第二方面，本发明提供了生物医疗命名实体识别系统；

生物医疗命名实体识别系统，包括：

获取模块，其被配置为：获取待识别的生物医疗语句；将生物医疗语句划分为生物医疗词汇、生物医疗字符；

识别模块，其被配置为：将生物医疗语句、生物医疗词汇和生物医疗字符，均输入到训练后的生物医疗命名实体识别模型中，输出生物医疗命名实体识别结果；

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

能充分提取出生物医疗实体的特征；通过准确提取的特征进一步有效地识别生物医疗命名实体；能够有效地改善医疗信息。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一的命名实体识别模型结构图；

图2为实施例一的预训练语言模型、自注意力机制(Self-Attention)和Bi-GRU连接关系示意图；

图3(a)-图3(c)为实施例一的每个字符所得到的3-gram,4-gram,5-gram；

图4为实施例一的长短时记忆网络LSTM内部结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

深度学习通过自动检索单词和字符特征，避免了繁琐的特征工程，因此基于深度学习的方法被广泛应用于命名实体识别中。其中基于循环神经网络的模型是命名实体识别的一般标准。循环神经网络(Recurrent Neural Network,RNN)能够捕捉句子的上下文信息，擅长序列任务，但只能保留近期信息，因此又提出了长短期记忆模型(Long-Short TermMemory,LST)和双向长短期记忆模型(Bidirectional Long Short-Term Memory,Bi-LSTM)，来保留双向的历史信息。

实施例一

本实施例提供了生物医疗命名实体识别方法；

如图1所示，生物医疗命名实体识别方法，包括：

S101：获取待识别的生物医疗语句；将生物医疗语句划分为生物医疗词汇、生物医疗字符；

S102：将生物医疗语句、生物医疗词汇和生物医疗字符，均输入到训练后的生物医疗命名实体识别模型中，输出生物医疗命名实体识别结果；

进一步地，所述将生物医疗语句划分为生物医疗词汇，是基于词典的方式或字符串匹配的方式来划分的。

进一步地，所述将生物医疗语句划分为生物医疗字符，是基于字符串匹配的方式进行划分的。

进一步地，所述对生物医疗语句、生物医疗词汇和生物医疗字符，分别提取出字符的词嵌入特征、字符的偏旁特征、字符的部首特征、语法特征；具体包括：

对生物医疗词汇进行词嵌入特征提取，提取出字符的词嵌入特征；

对生物医疗字符进行偏旁和部首特征提取，提取出字符的偏旁和部首特征；

对生物医疗语句进行语法特征提取，提取出语法特征；

对生物医疗字符进行笔画特征提取，提取出笔画特征。

进一步地，所述训练后的生物医疗命名实体识别模型，其网络结构包括：

并列的四条支路；

其中，第一条支路为预训练语言模型BioBERT，预训练语言模型BioBERT的输入端用于输入生物医疗词汇，预训练语言模型BioBERT的输出端用于输出字符的嵌入特征；预训练语言模型BioBERT的输出端与第一拼接单元的输入端连接；

其中，第二条支路为卷积神经网络CNN，卷积神经网络CNN的输入端用于输入对生物医疗字符的映射信息，卷积神经网络CNN的输出端用于输出字符的偏旁和部首特征；卷积神经网络CNN的输出端与与第一拼接单元的输入端连接；

其中，第三条支路为语言模型N-Gram，语言模型N-Gram的输入端用于输入生物医疗语句，语言模型N-Gram的输出端用于输出语法特征；语言模型N-Gram的输出端与第一自注意力机制层的输入端连接，第一自注意力机制层的输出端与第一拼接单元的输入端连接；

其中，所述第一拼接单元的输出端与第二自注意力机制层的输入端连接；

其中，第四条支路为长短期记忆模型LSTM，长短期记忆模型LSTM的输入端用于输入生物医疗字符，长短期记忆模型LSTM的输出端用于输出笔画特征；长短期记忆模型LSTM的输出端和第二自注意力机制层的输出端均与第二拼接单元的输入端连接；

第二拼接单元的输出端与Bi-GRU的输入端连接；Bi-GRU的输出端与条件随机场模型CRF的输入端连接；条件随机场模型CRF的输出端用于输出生物医疗命名实体的识别标签。

进一步地，所述训练后的生物医疗命名实体识别模型，其训练过程包括：

构建训练集；所述训练集为已知生物医疗命名实体识别标签的生物医疗语句；

将训练集输入到生物医疗命名实体识别模型中，对生物医疗命名实体识别模型进行训练，当损失函数达到最小值，或者迭代次数超过设定次数时，停止训练，得到训练后的生物医疗命名实体识别模型。

进一步地，所述对生物医疗词汇进行词嵌入特征提取，提取出字符的词嵌入特征；具体包括：

采用预训练语言模型BioBERT，对生物医疗词汇进行词嵌入特征提取，提取出字符的词嵌入特征。

示例性地，所述预训练语言模型BioBERT，是利用已有的大量医疗文献知识训练出来的，输入序列的每个字符通过BioBERT模型处理得到相应的输出c_i(i＝1、2、3....)。因为BioBERT是一种动态的词嵌入，它能够通过微调的方法去动态的调整每个字符的词嵌入。故它比word2vec和glove这种静态的词嵌入表示字符的方式要好。

进一步地，所述对生物医疗字符进行偏旁和部首特征提取，提取出字符的偏旁和部首特征；具体包括：

利用汉字字符特征提取工具char_featurizer，对输入序列的每个字符进行偏旁或部首的提取，得到偏旁或部首的信息；

将偏旁或部首的信息映射为偏旁或部首的向量；

将偏旁或部首的向量，通过卷积神经网络CNN进行特征提取，提取出字符的偏旁和部首特征。

示例性地，所述对生物医疗字符进行偏旁和部首特征提取，提取出字符的偏旁和部首特征；具体包括：

利用汉字字符特征提取工具char_featurizer对输入序列的每个字符进行偏旁、部首的提取。例如，给定一个字符“氨”，通过汉字字符特征提取工具对该字符进行部首拆解，可拆解为“气”，“安”，将得到的偏旁、部首信息映射为特征向量，然后送入卷积神经网络(CNN)进行特征提取，从而得到每个字符的偏旁、部首的表征信息r_i(i＝1、2、3…)。具体计算公式如下：

其中，b是偏差项，f(x)是激活函数，输入序列表示为：X＝[x₁,x₂,…,x_s]，其中s表示偏旁、部首的个数，x_t∈R^d为第t个偏旁、部首的d维特征向量，x_t:t+k-1为偏旁、部首x_t，x_t+1,…,x_t+k-1的拼接，w∈R^k×d是卷积核。

进一步地，所述对生物医疗语句进行语法特征提取，提取出语法特征；具体包括：

采用语言模型N-Gram，对生物医疗语句进行分词处理；

对分词处理结果，采用第一自注意力机制进行语法特征提取，提取出语法特征。

示例性地，所述对生物医疗语句进行语法特征提取，提取出语法特征；具体包括：

利用n-gram语法模型(n＝3,4,5)对生物医疗文本句子进行分词处理，然后每个字符所得到的3-gram,4-gram,5-gram知识利用自注意力机制进行处理，如图3(a)-图3(c)所示，得到b_i(i＝1、2、3…)。

进一步地，所述对生物医疗字符进行笔画特征提取，提取出笔画特征；具体包括：

采用长短期记忆模型LSTM，对生物医疗语句进行笔画特征提取，提取出笔画特征。

如图4所示，对给定序列的每个字符，获取每个字符的笔画信息，然后分别将每个字符的笔画信息通过长短时记忆网络(LSTM)处理得到对应的输出值h_i(i＝1、2、3…)，取h_i的算数平均值：

对给定序列的每个字符，获取每个字符的笔画信息，是根据笔画顺序一步一步拆解得到汉字的笔画。

LSTM模型主要由输入门、遗忘门、输出门三部分组成，LSTM层的相关计算公式如下：

x_t＝σ(W_s·x_t+U_s·h_t-1+b_s) (3)

m_t＝σ(W_m·x_t+U_m·h_t-1+b_m) (4)

n_t＝σ(W_n·x_t+U_n·h_t-1+b_n) (5)

公式中，σ是sigmoid激活函数，s_t是输入门，m_t是遗忘门，n_t输出门，C_t是记忆单元，h_t表示t时刻的隐藏层输出值，W、U和b为神经网络训练过程中的参数，

为点积运算，x_t代表t时刻网络的输入值。

进一步地，所述将字符的词嵌入特征、字符的偏旁特征、字符的部首特征、语法特征进行拼接处理，得到第一拼接特征；其中，拼接采用串联的方式进行拼接。

示例性地，把r_i，b_i，c_i进行拼接得到

进一步地，所述对第一拼接特征进行自注意力机制处理，得到处理后的第一拼接特征；具体包括：

自注意力机制通过将输入信息映射到不同空间，得到由查询向量query、键向量key和值向量value分别组成的三个矩阵Q(Query)、K(Key)和V(Value)。

首先计算Q和K之间的点积，再除以

得到Q与K的相关权重矩阵系数；

然后利用softmax函数将得到的相关权重矩阵系数归一化；

最后再将归一化结果乘以矩阵V，得到自注意力当前节点的向量序列表示a_i(i＝1、2、3…)。

具体计算公式如下：

其中Q、K、V是同一输入经过不同的线性变换得到的向量分别组成的矩阵，D_k为查询向量和键向量之间的维度，softmax(·)是按列进行归一化的激活函数。

示例性地，将

输入到自注意力机制(Self-Attention)进行处理。

进一步地，所述将笔画特征与处理后的第一拼接特征进行拼接处理，得到第二拼接特征；具体包括：其中，拼接采用串联的方式进行拼接。

示例性地，将s_i与a_i进行拼接得到

进一步地，所述将第二拼接特征进行编码处理和解码处理，得到生物医疗命名实体识别标签；具体包括：

将第二拼接特征输入到Bi-GRU中，进行编码处理；

将编码处理结果输入到条件随机场模型CRF中，输出生物医疗命名实体识别标签。

示例性地，所述将第二拼接特征进行编码处理和解码处理，得到生物医疗命名实体识别标签；具体包括：

将

送入Bi-GRU网络进行处理。处理的结果信息再用CRF进行解码，并对每个字符打上对应的标签。

在双向GRU网络中，包括一个正向传播的隐藏层和一个反向传播的隐藏层，其中输入层分别与前向传递网络和反向传递网络相连接，两个方向的隐藏层状态都会传递到输出层，因此输出信息中同时包含输入序列的正向信息和反向信息。GRU具体计算公式如下：

r_t＝σ(W_r·[h_t-1,x_t]) (9)

z_t＝σ(W_z·[h_t-1,x_t]) (10)

其中，x_t为输入数据，h_t为GRU单元的输出，r_t,z_t分别为t时刻的重置门与更新门，σ为Sigmoid函数，W_r,W_Z,W_h分别为重置门、更新门以及候选隐藏状态的权重矩阵，

为t时刻的候选状态。

该方法主要包括五个部分，如图2所示，第一部分通过生物医疗领域的预训练语言模型(BioBERT)对生物医疗词汇进行预处理。第二部分是获取每个字符的偏旁、部首信息并使用卷积神经网络(CNN)来获取语义表征。第三部分是将生物医疗文本句子进行n-gram分词处理，再将n-gram特征与用BioBERT获得的字符的词嵌入以及CNN获得的偏旁部首特征进行拼接。然后，送到自注意力机制(Self-Attention)进行处理。第四部分将每个字符的笔画信息通过长短时记忆网络(LSTM)处理。第五部分是将笔画特征s_i与自注意力机制获得权重系数a_i进行拼接，再送到Bi-GRU处理，将输出结果进行CRF层解码并打上对应的标签。

实施例二

本实施例提供了生物医疗命名实体识别系统；

生物医疗命名实体识别系统，包括：

此处需要说明的是，上述获取模块和识别模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.生物医疗命名实体识别方法，其特征是，包括：

2.如权利要求1所述的生物医疗命名实体识别方法，其特征是，所述对生物医疗语句、生物医疗词汇和生物医疗字符，分别提取出字符的词嵌入特征、字符的偏旁特征、字符的部首特征、语法特征；具体包括：

对生物医疗语句进行语法特征提取，提取出语法特征；

对生物医疗字符进行笔画特征提取，提取出笔画特征。

3.如权利要求1所述的生物医疗命名实体识别方法，其特征是，所述训练后的生物医疗命名实体识别模型，其网络结构包括：

并列的四条支路；

4.如权利要求1所述的生物医疗命名实体识别方法，其特征是，所述训练后的生物医疗命名实体识别模型，其训练过程包括：

5.如权利要求2所述的生物医疗命名实体识别方法，其特征是，所述对生物医疗词汇进行词嵌入特征提取，提取出字符的词嵌入特征；具体包括：

采用预训练语言模型BioBERT，对生物医疗词汇进行词嵌入特征提取，提取出字符的词嵌入特征；

所述对生物医疗语句进行语法特征提取，提取出语法特征；具体包括：

采用语言模型N-Gram，对生物医疗语句进行分词处理；

对分词处理结果，采用第一自注意力机制进行语法特征提取，提取出语法特征；

所述对生物医疗字符进行笔画特征提取，提取出笔画特征；具体包括：

采用长短期记忆模型LSTM，对生物医疗语句进行笔画特征提取，提取出笔画特征；

所述将字符的词嵌入特征、字符的偏旁特征、字符的部首特征、语法特征进行拼接处理，得到第一拼接特征；其中，拼接采用串联的方式进行拼接。

6.如权利要求2所述的生物医疗命名实体识别方法，其特征是，所述对生物医疗字符进行偏旁和部首特征提取，提取出字符的偏旁和部首特征；具体包括：

将偏旁或部首的信息映射为偏旁或部首的向量；

7.如权利要求1所述的生物医疗命名实体识别方法，其特征是，所述对第一拼接特征进行自注意力机制处理，得到处理后的第一拼接特征；具体包括：

自注意力机制通过将输入信息映射到不同空间，得到由查询向量query、键向量key和值向量value分别组成的三个矩阵Q、K和V；

首先计算Q和K之间的点积，再除以

得到Q与K的相关权重矩阵系数；

然后利用softmax函数将得到的相关权重矩阵系数归一化；

最后再将归一化结果乘以矩阵V，得到自注意力当前节点的向量序列表示；

所述将第二拼接特征进行编码处理和解码处理，得到生物医疗命名实体识别标签；具体包括：

将第二拼接特征输入到Bi-GRU中，进行编码处理；

8.生物医疗命名实体识别系统，其特征是，包括：

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。