CN114692636B

CN114692636B - 一种基于关系分类与序列标注的嵌套命名实体识别方法

Info

Publication number: CN114692636B
Application number: CN202210229940.2A
Authority: CN
Inventors: 刘峰; 方军武; 殷莉; 卢苗
Original assignee: Haitai Medical Information System Co ltd
Current assignee: Haitai Medical Information System Co ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2023-11-03
Anticipated expiration: 2042-03-09
Also published as: CN114692636A

Abstract

本发明提供一种基于关系分类与序列标注的嵌套命名实体识别方法；通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取，生成结构化结果报告；该发明提高了医务人员解读非结构化文本病历、报告的效率，通过解决信息抽取过程中嵌套实体命名识别的痛点问题，帮助进行高级医疗决策支持。

Description

一种基于关系分类与序列标注的嵌套命名实体识别方法

技术领域

本发明涉及人工智能和医疗电子信息技术的交叉技术领域，特别涉及一种基于关系分类与序列标注的嵌套命名实体识别方法。

背景技术

随着医疗健康服务不断朝着智能化方向发展，机器学习在医疗领域的应用开始成为人工智能时代的研究热点之一。非结构化医疗文档是放射科医生对影像表现的描述与总结，蕴含大量对病灶的描述。从非结构化医疗文本中提取这些重要信息，能够更好地服务于临床决策、数据挖掘等各类临床信息系统，从而减轻专业医师的工作量。目前计算机难以从这些不规则的非结构化医疗文本数据中直接提取有价值的信息，从而无法利用ElasticSearch等搜索引擎进一步对数据进行挖掘分析。因此，如何从医学影像报告中自动、高效地提取所需信息，形成结构化的数据，并建立文本描述和影像病灶的关联，是目前智能医疗服务进程中的重要挑战之一。

嵌套实体识别是实体命名识别中一个子问题,使用CRF等传统标注方法无法对嵌套实体进行区分，因此存在一定的局限性。

本发明提供了一种基于关系分类与序列标注的嵌套命名实体识别方法。该发明提高了医务人员解读非结构化文本病历、报告的效率，通过解决信息抽取过程中嵌套实体命名识别的痛点问题，帮助进行高级医疗决策支持。

发明内容

本发明针对现有技术中的不足，提供一种基于关系分类与序列标注的嵌套命名实体识别方法；本申请综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取，生成结构化结果报告。该发明提高了医务人员解读非结构化文本病历、报告的效率，通过解决信息抽取过程中嵌套实体命名识别的痛点问题，帮助进行高级医疗决策支持。

为实现上述目的，本发明采用以下技术方案：

一种基于关系分类与序列标注的嵌套命名实体识别方法，包括以下步骤：

S1、确定需要进行嵌套命名实体识别任务的非结构化医疗文本，并分割为训练集文本和测试集文本；

S2、通过训练集文本，基于关系分类与序列标注的嵌套命名实体识别框架模型对训练集文本内容中的潜在实体进行识别训练，并对嵌套命名实体识别框架模型进行优化；具体包括：

S2.1、通过训练集寻找潜在的实体集合S_e；

S2.2、确定实体集合S_e中各个实体的类型；

S2.3、对嵌套命名实体识别框架模型进行优化；

S3、将测试集文本作为嵌套命名实体识别框架模型的输入，送入训练优化后的嵌套命名实体识别框架模型中进行计算得出测试集文本的实体识别结果。

为优化上述技术方案，采取的具体措施还包括：

进一步地，所述步骤S2.1的具体内容为：

S2.1.1、将训练集文本作为输入，送到嵌套命名实体识别框架模型中；其中所述训练集文本包括：原始文本序列S＝(w₁，w₂，...w_n)，以及文本中的实体集合L_e＝(p₁，p₂，...，p_m)；

式中，w₁，w₂，...w_n中均表示为文本中的各个单词，也即表示为文本中的各个token；p₁，p₂，...，p_m分别表示为各个实体，其中包含有对应实体所在的位置信息，即L_e中的任意一个实体p_i，其包含有一个二元组＜w_{i_head}，w_{i_tail}＞，w_{i_head}表示第i个实体p_i的开始位置单词，w_{i_tail}表示第i个实体p_i的结束位置单词，以一个单词作为开始位置，以另外一个单词作为结束位置进而组合成的第i个实体p_i，其中开始位置的单词记为头Token，结束位置的单词记为尾Token；

S2.1.2、训练集文本输入至嵌套命名实体识别框架模型的内容输入模块中，将原始文本序列S映射为原始输入序列M_e＝(e₁，e₂，...e_n)，同时根据实体集合L_e对其中实体的各个单词进行BIOE形式标注，使得每个实体中的每个单词均有对应的标识，其中任意一个单词的标识都属于标签集合L_b；

式中，e₁，e₂，...e_n中的每一个元素均与w₁，w₂，...w_n相对应，e₁表示为w₁的嵌入向量，e₂表示为w₂的嵌入向量，e_n表示为w_n的嵌入向量；标签集合L_b包含标识B、I、O、E中的所有类型；

S2.1.3、将原始输入序列M_e送入到嵌套命名实体识别框架模型的边界预测模块中，通过Bi-LSTM模型计算输出文本中隐特征向量序列M_he＝(he₁，he₂，...，he_n)，然后通过前馈神经网络FFNN以文本序列S中当前第i个token：w_i的位置隐特征向量he_i作为输入，计算文本内容中每个Token与标签集合L_b中的标识l联合概率分布以及计算文本序列S中第i个Token：w_i属于标识l的条件概率分布p(w_i＝l|S)；然后取条件概率最高的标识作为当前位置单词标识的输出，以此边界预测模块输出文本中所有各单词位置的标识信息；其中：

对于隐特征向量序列M_he＝(he₁，he₂，...，he_n)，其中文本中任意一个单词位置he_i对应的隐特征向量计算公式如下：

式中，he₁，he₂，...，he_n表示文本中所有位置对应的隐特征向量；表示后向LSTM模型的计算结果，该后向LSTM模型输入为当前第i个位置的嵌入向量e_i以及上一个元素e_i-1的隐特征向量he_i-1；同样的，/>表示前向LSTM模型的计算结果，该后向LSTM模型输入为当前第i个位置的嵌入向量e_i以及后一个元素e_i+1的隐特征向量he_i+1；最后将两个模型的输入进行Concat操作进行连接，得到本位置的隐特征向量he_i；

对于计算文本序列S中第i个Token：w_i属于标识l的条件概率分布p(w_i＝l|S)的计算公式如下：

φ(l，w_i)＝W_x·FFNN(he_i)

式中，he₁，he₂，...，he_n均表示文本中所有位置对应的隐特征向量，其文本中任意一个位置的隐特征向量为he_i；FFNN(he_i)是指前馈神经网络FFNN以当前第i个Token：w_i的位置隐特征向量he_i作为输入；W_x为联合分布概率计算过程中的权重矩阵；exp()为以自然常数为底的指数函数；标识l是指当前判断的标识，其属于B、I、O、E标识中的任意一类；标识l′的含义是泛指的标识，其属于标识B、I、O、E中的任意一类；

S2.1.4、根据边界预测模块输出的文本中个单词的标识信息，边界预测模块通过由表示一个实体开始位置的标识B和表示一个实体结束位置的标识E，进一步确定潜在的实体集合S_e。

进一步地，所述步骤S2.2的具体内容为：

S2.2.1、将隐特征向量序列M_he和原始输入序列M_e针对每个Token进行Concat操作得到上下文特征序列M_hr＝(hr₁，hr₂，...，hr_n)；

式中，hr₁，hr₂，...，hr_n与原始输入序列M_e中的e₁，e₂，...e_n一一对应，即hr₁表示第1个元素e₁的上下文向量，hr₂表示第2个元素e₂的上下文向量，hr_n表示第n个元素e_n的上下文向量；其中e₁，e₂，...e_n中任意一个元素e_i对应的上下文向量为hr_i：

式中，表示后向LSTM模型的计算结果，该后向LSTM模型输入为当前第i个位置的嵌入向量e_i以及上一个元素e_i-1的上下文向量hr_i-1；同样的，表示前向LSTM模型的计算结果，该前向LSTM模型输入为当前第i个位置的嵌入向量e_i以及后一个元素e_i+1的上下文向量hr_i+1；最后将两个模型的输入进行Concat操作进行连接，得到本位置的上下文向量hr_i；

S2.2.2、对于实体集合S_e中的每个实体，从上下文特征序列M_hr中提取出对应的hr_i，并通过两个不同的线性映射将对应的hr_i映射为向量，即每个Token被重新映射到表示头Token的空间和尾Token的空间当中；并将分类标识为B的Token以及分类标识为E的Token所对应的上下文隐向量/>作为整个实体集合S_e的特征，通过线性组合输入到用于构建实体分类的模型当中，最终输出实体集合S_e中的各实体针对不同类型的概率p(r_k|w_i，w_j)；并通过设置阈值，使实体针对某一类型概率高于阈值，则将该类型作为对应实体的最终类型；同时计算每种类型最终作为输出结果的概率p(r_k ^(i，j)|w_i，w_j)；

其中：

M_i ^head＝W_hhr_i+b_h

M_i ^tail＝W_thr_i+b_t

i∈[1，N]

式中，W_h和W_t分别为两个线性映射的权重矩阵，b_h和b_t分别为两个线性映射的偏置，i代表Token的位置，其处于1到序列最大长度N的区间内；

其中：

式中，w_i是指文本序列S中第i个单词，w_j是指文本序列S中第j个单词，p(r_k|w_i，w_j)表示以w_i作为头Token以及将w_j作为尾Token的实体属于第k类实体标签的条件概率，p(r_k ⁽ⁱ ^，j)|w_i，w_j)表示w_i作为头Token以及将w_j作为尾Token的实体属于第k类实体标签作为输出结果的概率；s_k(i，j)代表区间[i，j]的实体属于第k类实体标签的分数，且具体计算公式为：i，j∈[1，N]；k∈[1，M]，式中，N表示序列最大长度的区间，M代表实体类型的数量，w_k对应第k类实体的权重矩阵，tanh()指双曲正切函数；k是指当前判断的实体类型，其属于[1，M]中的任意一类，k，的含义是泛指的实体类型，其属于[1，M]中的任意一类。

进一步地，所述步骤S2.3的具体内容为：

S2.3.1、分别计算边界预测模块的损失L_bd和实体分类模块的损失L_ec，并求和作为整个嵌套命名实体识别框架模型的损失其中：

式中，用于判断标签l是否为真实标签，为真则输出1，否则输出-1；用于判断当前实体的类型是否分类正确，分类正确则输出1否则输出0；

S2.3.2、基于模型的损失通过反向传播更新嵌套命名实体识别框架模型进行优化。

进一步地，重复步骤S2.1.2-步骤S2.3.2，对嵌套命名实体识别框架模型进行多轮训练并保留多轮训练后的最优模型并保存。

进一步地，所述训练集文本与测试集文本的数量比例为：4∶1。

本发明的有益效果是：

1、该发明提高了医务人员解读非结构化文本病历、报告的效率，通过解决信息抽取过程中嵌套实体命名识别的痛点问题，帮助进行高级医疗决策支持。

2、本申请方案可以计算文本中各单词的的标识信息，以此寻找到文本内容中的潜在实体；同时还可以通过一系列的公式计算求得各实体的所述实体类型；因此可以提供更加准确、丰富的实体识别信息。

3、本申请方案可以通过计算边界预测模块的损失L_bd和实体分类模块的损失L_ec，并求和作为整个嵌套命名实体识别框架模型的损失，以此进行优化，进而使对实体的识别更加准确。

附图说明

图1是本发明对文本实体进行识别的整体流程示意图。

图2是本发明嵌套命名实体识别框架模型进行实体识别的流程示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

参考图1-图2。本申请的主要方案如下：

步骤一、确定进行嵌套命名实体识别任务的非结构化医疗文本，并按4∶1的比例进行分割，构建训练集文本和测试集文本；

步骤二、构建基于关系分类与序列标注的嵌套命名实体识别框架；

步骤三、模型训练阶段，对模型参数进行训练优化；

步骤四、模型推理阶段：1、将测试集文本作为输入，加载训练阶段记录的模型文件，送到训练好的基于关系分类与序列标注的嵌套命名实体识别框架中。2、利用框架模型进行计算，将测试集中分类概率超过阈值的实体进行输出。

其中，步骤三的具体内容包括：

步骤1、将训练集文本作为输入，送到基于关系分类与序列标注的嵌套命名实体识别框架中。其中训练集文本包含以下部分，即原始文本序列S＝(w₁，w₂，...w_n)以及文中的标注实体集合L_e＝(p₁，p₂，...，p_m)，其中p_i为第i个标注实体的头Token和尾Token组成的二元组<w_{i_head}，w_{i_tail}>。

步骤2、文本首先通过内容输入模块，被映射为文本最原始的输入序列M_e＝(e₁，e₂，...e_n)，其中M_e中每个元素e_i被称为w_i的嵌入向量，通常e_i分布在一个d维的向量空间，即e_i∈R^d。同时按照标注实体集合对文本进行BIOE形式的标注，得到BIOE标注序列P_real＝(p_real，1，p_real，2，...，p_real，n)，其中每个标注都属于BIOE的标签集合L_b。例如p_real，1指对第一个单词做出的标注，标注的内容可能为B、I、O、E；L_b是一个集合，里面的内容是只有四种，即B、I、O、E。

步骤3、映射得到的原始输入序列M_e被送入边界预测模块，通过Bi-LSTM计算输出文本中隐特征向量序列M_he＝(he₁，he₂，...，he_n)，其中每个位置对应的隐特征向量计算公式如下：

其中表示后向LSTM模型的计算结果，该模型输入为当前第i个位置的嵌入向量e_i以及上一个元素的隐特征向量he_i-1。同样的，/>表示前向LSTM模型的计算结果，该模型输入为当前第i个位置的嵌入向量e_i以及后一个元素的隐特征向量he_i+1。最后将两个模型的输入进行Concat操作进行连接，得到本位置的隐特征向量he_i。

然后通过前馈神经网络FFNN(he_i)以当前第i个位置的隐特征向量he_i作为输入，计算每个Token与BIOE标识集合L_b中的标签l联合概率分布其中W_x为联合分布概率计算过程中的权重矩阵，文本序列S中第i个的Token属于BIOE标识l的条件概率分布p(w_i＝l|S)可以表示为以下形式，其中exp为以自然常数为底的指数函数，取条件概率最高BIOE标签作为当前位置的输出，即边界预测模块的输出。

φ(l，w_j)＝W_x·FFNN(he_i)

其中，是指计算当前单词w_i其标注为l的概率，如果l＝B即代表当前单词被标注为B的概率。公式中的分母部分标识当前单词w_i属于各标签的“概率”求和，然后再在分子部分计算在w_i被标注为l的的条件下的″概率″值，然后分子分母相除，得到条件概率；取条件概率最高的那种标注作为当前位置的输出，比如B；l和l′都是代表B、I、O、E中的一种，但是由于公式的分母部分需进行求和，故做了区分。

步骤4、隐特征向量序列M_he和原始输入序列M_e针对每个Token进行Concat操作得到上下文特征序列M_hr＝(hr₁，hr₂，...，hr_n)，并以其为Bi-LSTM模型的输入重新提取特征，其中第i个元素对应的上下文向量为hr_i。

步骤5、边界预测模块输出的标识B代表一个实体的起始位置，E代表一个实体的结束位置，故根据边界预测模块的输出能够确定潜在的实体集合S_e。

步骤6、对于实体集合S_e中的每个实体E_i，从M_hr中提取出hr_i，通过两个不同的线性映射为向量，即每个Token被重新映射到表示头Token的空间和尾Token的空间当中，其中W_h和W_t分别为两个线性映射的权重矩阵，b_h和b_t分别为两个线性映射的偏置，i代表Token的位置，处于1到序列最大长度N的区间内。

M_i ^head＝W_hhr_i+b_h

M_i ^tail＝W_thr_i+b_t

i∈[1，N]

以分类表示为B的Token与分类表示为E的Token的上下文隐向量作为整个实体的特征，通过线性组合输入到构建实体分类模块的注意力模型中，最终输出各实体针对不同类型的概率。并对概率排序，并设定阈值，高于阈值的类型作为最终的实体类型输出，其中s_k(i，j)代表区间[训的实体属于第k类实体标签的分数，w_k对应第k类实体的权重矩阵，M代表实体类型数量，tanh指双曲正切函数。

i，j∈[1，N]；k∈[1，M]

p(r_k|w_i，w_j)代表w_i以及w_j作为头尾Token的实体属于第k类实体标签的条件概率，代表w_i以及w_j作为头尾Token的实体以第k类实体标签进行输出的概率。

步骤7、分别计算边界预测模块的损失L_bd和实体分类模块的损失L_ec，并求和作为整个模型的损失：

其中Lbd为采用负对数似然函数作为损失，其中用于判断标签l是否为真实标签p_real，i，为真则输出1，否则输出-1。/>用于判断当前实体是否分类正确，分类正确则输出1否则输出0。

步骤8、基于自适应矩估计算法最小化模型损失，并通过反向传播更新模型参数。

步骤9、多次重复步骤2到步骤8整个过程，对模型进行多轮训练保留多轮训练后的最优模型，作为文件进行保存。

其中，步骤二中框架构建过程包括如下步骤：

步骤1、构建内容输入模块：1、确定命名实体类型，并对非结构化医疗文本进行BIOE形式的序列标注，并确定输入文本最大长度等其他特殊约束；2、针对中文词表中所有的字，基于在大规模数据集上进行预训练的BERT模型进行字向量采集，采集的字向量以文件形式进行存储；3、对标注文本内容进行字向量映射，并作为本模块内容进行输出。

步骤2、构建边界预测模块：1、初始化一个双向长时记忆网络(Bi-LSTM)作为特征提取网络2、初始化一个前馈神经网络(FFNN)用于接收本模块Bi-LSTM模型的输出，并输出句子中每个Token的序列标注类型。

步骤3、构建实体分类模块：1、初始化一个双向长时记忆网络(Bi-LSTM)作为目标短语特征提取网络。2、初始化两个前馈神经网络作为短语特征的映射网络，用于将头尾Token的特征映射到两个空间中，最终通过线性求和来构造目标短语特征。3、为每个命名实体类型初始化一个注意力网络A_k，用于接收目标短语的特征，并计算该组目标短语属于当前实体类型的概率。

步骤4、框架进行整体组合。1、对于边界构建模块与实体分类模块，两者通过边界预测模块的Bi-LSTM输出的隐特征向量序列M_h相连结，即作为边界预测模块输出的H，作为实体分类模块的输入将两个模块进行组合。2、对于内容输入模块和其他模块，内容输入模块的输出，即文本原始向量映射序列M_e，作为其他模块的输入将内容输入模块与其他模块进行组合。

另外，对文中的一些概念进行补充，实体的概念：是指文本中具有特定意义的实体，例如人名、地名、机构等；token的概念即单词的概念；BIOE标注：即包含有B、I、O、E四种标识的标注方式；实体的类型有很多，例如人名、地名、机构名都属于不同的类型。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于关系分类与序列标注的嵌套命名实体识别方法，其特征在于，包括以下步骤：

S2.1、通过训练集寻找潜在的实体集合S_e；

S2.2、确定实体集合S_e中各个实体的类型；

S2.3、对嵌套命名实体识别框架模型进行优化；

S3、将测试集文本作为嵌套命名实体识别框架模型的输入，送入训练优化后的嵌套命名实体识别框架模型中进行计算得出测试集文本的实体识别结果；

所述步骤S2.1的具体内容为：

式中，w₁，w₂，...w_n中均表示为文本中的各个单词，也即表示为文本中的各个token；p₁，p₂，...，p_m分别表示为各个实体，其中包含有对应实体所在的位置信息，即L_e中的任意一个实体p_i，其包含有一个二元组<w_{i_head}，w_{i_tail}>，w_{i_head}表示第i个实体p_i的开始位置单词，w_{i_tail}表示第i个实体p_i的结束位置单词，以一个单词作为开始位置，以另外一个单词作为结束位置进而组合成的第i个实体p_i，其中开始位置的单词记为头Token，结束位置的单词记为尾Token；

φ(l，w_i)＝W_x·FFNN(he_i)

S2.1.4、根据边界预测模块输出的文本中个单词的标识信息，边界预测模块通过由表示一个实体开始位置的标识B和表示一个实体结束位置的标识E，进一步确定潜在的实体集合S_e；

所述步骤S2.2的具体内容为：

式中，表示后向LSTM模型的计算结果，该后向LSTM模型输入为当前第i个位置的嵌入向量e_i以及上一个元素e_i-1的上下文向量hr_i-1；同样的，/>表示前向LSTM模型的计算结果，该前向LSTM模型输入为当前第i个位置的嵌入向量e_i以及后一个元素e_i+1的上下文向量hr_i+1；最后将两个模型的输入进行Concat操作进行连接，得到本位置的上下文向量hr_i；

S2.2.2、对于实体集合S_e中的每个实体，从上下文特征序列M_hr中提取出对应的hr_i，并通过两个不同的线性映射将对应的hr_i映射为向量，即每个Token被重新映射到表示头Token的空间和尾Token的空间当中；并将分类标识为B的Token以及分类标识为E的Token所对应的上下文隐向量/>作为整个实体集合S_e的特征，通过线性组合输入到用于构建实体分类的模型当中，最终输出实体集合S_e中的各实体针对不同类型的概率p(r_k|w_i，w_j)；并通过设置阈值，使实体针对某一类型概率高于阈值，则将该类型作为对应实体的最终类型；同时计算每种类型最终作为输出结果的概率p(r_k ^(i,j)|w_i，w_j)；

其中：

式中，w_i是指文本序列S中第i个单词，w_j是指文本序列S中第j个单词，p(r_k|w_i，w_j)表示以w_i作为头Token以及将w_j作为尾Token的实体属于第k类实体标签的条件概率，p(r_k ^(i，j)|w_i，w_j)表示w_i作为头Token以及将w_j作为尾Token的实体属于第k类实体标签作为输出结果的概率；s_k(i，j)代表区间[i，j]的实体属于第k类实体标签的分数，且具体计算公式为：

式中，N表示序列最大长度的区间，M代表实体类型的数量，w_k对应第k类实体的权重矩阵，tanh()指双曲正切函数；k是指当前判断的实体类型，其属于[1，M]中的任意一类，k′的含义是泛指的实体类型，其属于[1，M]中的任意一类。

2.根据权利要求1所述的一种基于关系分类与序列标注的嵌套命名实体识别方法，其特征在于，所述步骤S2.3的具体内容为：

3.根据权利要求2所述的一种基于关系分类与序列标注的嵌套命名实体识别方法，其特征在于，重复步骤S2.1.2-步骤S2.3.2，对嵌套命名实体识别框架模型进行多轮训练并保留多轮训练后的最优模型并保存。

4.根据权利要求1所述的一种基于关系分类与序列标注的嵌套命名实体识别方法，其特征在于，所述训练集文本与测试集文本的数量比例为：4：1。