CN113488196B

CN113488196B - 一种药品说明书文本命名实体识别建模方法

Info

Publication number: CN113488196B
Application number: CN202110855063.5A
Authority: CN
Inventors: 李天瑞; 廖雄; 贾真; 罗威
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2023-04-07
Anticipated expiration: 2041-07-26
Also published as: CN113488196A

Abstract

本发明公开了一种药品说明书文本命名实体识别建模方法，包括步骤：使用BERT模型将药品说明书文本语句序列向量化，得到带有上下文信息及文本语义信息的特征向量；使用双向长短期记忆网络BiLSTM从特征向量中学习到药品说明书文本的上下文信息，得到隐藏向量；使用全连接层FC将隐层向量进行降维，得到标签特征向量；利用条件随机场CRF对标签特征向量进行解码，得到语句序列最终的输出序列。本发明还对BERT模型为微调进行了微调。本发明通过BERT‑BiLSTM‑CRF模型构建药品说明书文本中命名实体向量的识别模型，实现了针对多源药品说明书的命名实体识别。对BERT模型进行微调，提升了BERT‑BiLSTM‑CRF模型在药品说明书文本命名实体识别任务上的效果，使得通过模型处理得到的数据更具有可靠性。

Description

一种药品说明书文本命名实体识别建模方法

技术领域

本发明涉及自然语言处理技术领域，特别是一种药品说明书文本命名实体识别建模方法。

背景技术

命名实体识别(Named Entity Recognition,NER)是信息抽取中重要的基础任务，旨在抽取非结构化文本中的命名实体(文本中具有特定意义的实体)，抽取结果中包含命名实体在文本中的位置以及其所属的实体类别。NER任务的应用范围十分广泛，除了在知识图谱的构建上，还在语义角色标注、自动问答和机器翻译等任务上有着重要影响。

为缓解我国医疗产业监管的压力，构建大规模医疗知识图谱十分有必要。其中构建知识图谱的数据来源于网络药品说明书、文献药品说明书等不同方面，现今的命名实体识别技术在这类具有领域特点的多源数据之上表现并不突出。

发明内容

本发明的目的是给出一种药品说明书文本命名实体识别建模方法。

实现本发明目的的技术方案如下：

一种药品说明书文本命名实体识别建模方法，包括：

步骤1：使用BERT模型将药品说明书文本语句序列S＝(x₁,x₂,...,x_n)向量化，得到带有上下文信息及文本语义信息的特征向量W＝(w₁,w₂,...,w_n)；其中，w_i是语句序列S中文字x_i上下文相关的动态特征向量，其维度为d；i∈{1,2,3,...,n}；

步骤2：使用双向长短期记忆网络BiLSTM从特征向量W中学习到药品说明书文本的上下文信息，得到隐藏向量H，具体为：

所述BiLSTM分别由一个前向LSTM网络和一个后向LSTM网络从特征向量W中学习药品说明书文本的上文信息和下文信息，得到其隐藏层状态输出

和

其中，

和

分别表示前向LSTM网络和后向LSTM网络在t时刻的隐藏层状态输出，t∈{1,2,3,...,n}；

BiLSTM通过将前向LSTM网络和后向LSTM网络的隐藏层状态输出拼接得到语句的隐藏向量H＝(h₁,h₂,...,h_n)，其中在t时刻的隐藏层状态输出为：

h_t的维度为d_h；

步骤3：使用全连接层FC将隐层向量H进行降维，得到标签特征向量M＝H·W_FC+B_FC；其中，W_FC和B_FC分别为全连接层FC的权重矩阵和偏置向量，W_FC的维度为d_h×d_l，B_FC的维度为d_l，d_l为实体标签的数量；所述实体标签是对语句序列的文字的标注；

步骤4：利用条件随机场CRF对标签特征向量M进行解码，得到语句序列S最终的输出序列Y^*，具体为：

通过得到的语句的标签特征向量M＝(m₁,m₂,...,m_n)，计算可能的输出标签序列Y的条件概率：

p(Y|M)＝CRF(M,Y)；其中Y∈Y_S，Y_S表示语句序列S所有可能的输出标签序列集合；

将条件概率最大的输出标签序列Y^*作为语句序列S最终的输出序列：

Y^*＝argmaxP(Y|M)。

进一步的技术方案，所述BERT模型为微调后的BERT模型；所述微调后的BERT模型通过以下步骤建模，再经训练后得到；

步骤1：使用BERT模型将药品说明书文本语句序列X＝(x₁,x₂,…,x_m)向量化，得到带有上下文信息及文本语义信息的特征向量W_FT＝(w₁,w₂,...,w_m)；其中w_j是语句序列X中文字x_j上下文相关的动态特征向量，其维度为d；j∈{1,2,3,......,m}；

步骤2：使用全连接层FC将特征向量W_FT进行降维，得到标签特征向量

其中，

和

分别为全连接层FC的权重矩阵和偏置向量，

的维度为d×d_l，

的维度为d_l，d_l为实体标签的数量；所述实体标签是对语句序列的文字的标注；

步骤3：将标签特征向量M_FT输入到Softmax网络，得到语句序列X的标签预测信息L：

L＝softmax(M_FT)＝(l₁,l₂,...,l_n)，其中l_i表示语句序列X中文字x_j对应的标签的归一化概率值；

步骤4：使用交叉熵函数计算标签预测信息L和真实标签L_T之间的损失值，使用反向传播算法迭代更新BERT模型的权重直至损失值收敛，得到微调后的BERT模型。

相对于现有技术，本发明的有益效果在于，

1、通过BERT-BiLSTM-CRF模型构建药品说明书文本中命名实体向量的识别模型，实现了针对多源药品说明书的命名实体识别，减少了药品说明书文本命名实体识别的人力成本，为大规模医学知识图谱的建立提供基础。

2、通过使用药品说明书文本数据在命名实体识别任务上对BERT模型进行微调，提升了BERT-BiLSTM-CRF模型在药品说明书文本命名实体识别任务上的效果，使得通过模型处理得到的数据更具有可靠性。

附图说明

图1为药品说明书文本命名实体识别模型结构示意图。

图2为微调BERT模型结构示意图。

图3为LSTM神经网络结构示意图。

具体实施方式

下面结合附图对本发明进一步说明。

如图1，一种药品说明书文本命名实体识别建模方法，包括：

步骤1：使用BERT模型将药品说明书文本语句向量化，得到输入语句的向量化表示：

将长度为n的药品说明书文本语句序列S＝(x₁,x₂,...,x_n)同步输入到BERT模型中，得到带有上下文信息及文本语义信息的特征向量W＝(w₁,w₂,...,w_n)；其中，w_i是语句序列S中文字x_i上下文相关的动态特征向量，其维度为d；其中i∈{1,2,3,...,n}。

于是，得到药品说明书文本语句序列的向量化表示W＝(w₁,w₂,...,w_n)。

步骤2：使用双向长短期记忆网络BiLSTM从输入语句的向量化表示中学习到药品说明书文本的上下文信息，得到语句隐藏向量：

LSTM通过控制输入门、遗忘门和输出门来解决语句的长期依赖问题，在命名实体识别等序列标注任务中表现良好。BiLSTM通过将一个前向LSTM网络和一个后向LSTM网络组合来学习文本语句的上下文信息；前向LSTM网络和后向LSTM网络均通过设置遗忘门f_t、输入门i_t和输出门o_t来控制信息流，实现对历史信息的更新、取舍和存储。

其中，前向LSTM网络的信息流包括当前时刻t的输入信息w_t、前一时刻LSTM的隐藏层状态输出h_t-1和候选状态输出c_t-1；

t时刻遗忘门计算公式：f_t＝σ(W_fw_t+U_fh_t-1+b_f)；

t时刻输入门计算公式：i_t＝σ(W_iw_t+U_ih_t-1+b_i)；

t时刻输出门计算公式：o_t＝σ(W_ow_t+U_oh_t-1+b_o)；

σ(·)代表sigmoid函数

W_f、U_f为遗忘门中需要学习的权重矩阵，b_f为遗忘门的偏置向量，W_i、U_i为输入门中需要学习的权重矩阵，b_i为输入门的偏置向量，W_o、U_o为输出门中需要学习的权重矩阵，b_o为输出门的偏置向量。

候选神经元按照双曲正切函数

对输出进行[-1,1]的归一化，候选神经元计算公式

整个BiLSTM神经元的学习信息计算公式为：

t时刻隐藏层的输出为：h_t＝o_t·tanh(c_t)。

前向LSTM网络用于学习药品说明书文本语句的上文信息，而后向LSTM网络用于学习药品说明书文本语句的下文信息，其信息流包括当前时刻t的输入信息w_t、下一时刻LSTM的隐藏层状态输出h_t+1和候选状态输出c_t+1，计算方式与前向LSTM网络相同。

其中

和

分别表示前向GRU网络和后向GRU网络在t时刻的隐藏层状态输出，h_t的维度为d_h。

步骤3：使用全连接层FC将语句隐藏向量进行降维，得到标签特征向量：

全连接层FC由权重矩阵W_FC和偏置向量B_FC构成；

标签特征向量M＝H·W_FC+B_FC；

其中，W_FC的维度为d_h×d_l，B_FC的维度为d_l，d_l为实体标签的数量；实体标签是对语句序列的文字的标注。图1中采用了一种常用实体标注的方式，B-drug为“药物”实体的起始字符标注，I-drug表示该汉字是“药物”实体的中间字符和结束字符；“O”表示该汉字不在命名实体当中。

步骤4：使用条件随机场CRF对标签特征向量进行解码，得到语句序列最终的输出序列：

由于命名实体本身的字与字之间具有一定的依赖性，其需要结合前后的标签才能更加准确的预测出来。例如，对于一个由多个字符组成的实体而言，其每一个字符的标签中关于实体类别的标签应是一致的，同时，每个实体首字应具有独特的一种标签。BiLSTM由于其对序列的预测是独立进行的，会产生标签偏置的问题。因此，在BiLSTM后面接一个CRF来对标签序列进行联合解码是现今序列预测任务的常用方式。

具体地，通过得到的语句的标签特征向量M＝(m₁,m₂,...,m_n)，计算可能的输出标签序列Y的条件概率，具体公式如下：

S(M,Y)＝∑_i,kλ_kt_k(y_i-1,y_i,m,i)+∑_i,lμ_ls_l(y_i,m,i)；

其中t_k和s_l都为特征函数，t_k是状态特征函数，用于提取状态序列的特征，其当前时刻的状态y_i依赖于前一时刻的状态y_i-1的影响；s_l是转移特征函数，用于提取观测序列的特征，其当前时刻的状态y_i会受当前时刻的观测m_i的影响。特征函数只能取值0或者1，当某个特征满足时取1，不满足时则取0。λ_k、μ_l分别是两个特征函数的权重，用于衡量当前特征的重要程度。Y_S表示输入序列S所有可能的输出标签序列。

最后，将条件概率最大的输出标签序列Y^*作为语句序列S最终的输出序列：

Y^*＝argmaxP(Y|M)。

如图2，微调BERT的具体步骤如下：

将长度为n的药品说明书文本语句序列X＝(x₁,x₂,...,x_m)同步输入到BERT模型中，得到带有上下文信息及文本语义信息的特征向量W_FT＝(w₁,w₂,...,w_m)；其中，w_j是语句序列S中文字x_j上下文相关的动态特征向量，其维度为d；其中j∈{1,2,3,......,m}；

于是，得到药品说明书文本语句序列的向量化表示W_FT＝(w₁,w₂,...,w_m)。

步骤2：用全连接层FC将语句隐藏向量进行降维，得到标签特征向量：

全连接层FC由权重矩阵

和偏置向量

构成；

标签特征向量

其中，

的维度为d×d_l，

的维度为d_l，d_l为实体标签的数量；实体标签是对语句序列的文字的标注。实体标签和用于药品说明书文本命名实体识别建模的标签相同。

步骤3：将标签特征向量输入到Softmax网络，得到语句序列的标签预测信息：

标签预测信息

其中M_FT ⁱ表示标签特征向量M_FT的第i维，l_i表示语句序列X中文字x_j对应的标签的归一化概率值。

步骤4：使用交叉熵函数计算标签预测信息和真实标签之间的损失值,然后使用反向传播算法迭代更新BERT模型的权重直至损失值收敛，得到微调后的BERT模型：

损失值loss的计算公式为：

其中真实标签L_T、预测标签L和实体标签的数量d_l具有如下关系：

|L_T|＝|L|＝d_l；

其中L_Ti表示真实标签L_T的第i维，其取值为0或1；L_i表示真实标签L的第i维。

微调BERT建模后，经过训练，即可用于药品说明书文本命名实体识别建模。