CN115630649B

CN115630649B - 一种基于生成模型的医学中文命名实体识别方法

Info

Publication number: CN115630649B
Application number: CN202211470749.3A
Authority: CN
Inventors: 郭永安; 吴杰; 钱琪杰; 王宇翱
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-06-30
Anticipated expiration: 2042-11-23
Also published as: CN115630649A

Abstract

本发明属于数据处理领域，公开了一种基于生成模型的医学中文命名实体识别方法，该生成模型包括对抗训练模块和私有任务模块，其中所述对抗训练模块由一个Shared BiLSTM生成器、一个Self‑Attention机制和一个CNN判别器组成，该医疗领域中文命名实体识别方法采用Lattice LSTM动态框架，动态的改变LSTM的结构以充分利用词与词之间的序列关系，克服了非结构化中文医学命名实体文本的局限性；采用对抗式训练的动态架构学习中文CNER任务和CWS任务的共同特征，提取医学文本中特定的信息，将实体与实体之间、实体与非实体之间的边界区分开来，实现中文医学命名实体的有效识别。

Description

一种基于生成模型的医学中文命名实体识别方法

技术领域

本发明属于数据处理领域，涉及面向医学命名实体识别的技术应用，具体的说是涉及一种基于生成模型的医疗领域中文命名实体识别方法。

背景技术

命名实体识别(NER)是自然语言处理(NLP)的一项核心任务，旨在从非结构化文本中识别潜在实体及其类别。作为许多自然语言处理(NLP)下游任务如关系提取、信息检索的重要组成部分，命名实体识别(NER)一直是自然语言处理(NLP)界的一个热点问题。

最近命名实体识别(NER)的研究更加关注特定领域，例如医疗领域，该领域复杂且需要外部领域的专业知识。医学领域的命名实体识别(Clinical Named EntityRecognition，CNER)旨在检测电子健康记录(HER)中的医疗实体，是进一步医学文本挖掘的一个重要步骤。

命名实体识别(NER)方法大致分为三类：基于规则和基于字典的方法、基于规则的方法和基于深度学习的方法，针对上述医学领域命名实体识别(CNER) 任务中存在的问题，现有技术方案存在以下问题：

1、基于词典的方法的基本思想是通过字符串模糊查找或者完全匹配的方法，但是随着新的实体名称不断涌现，词典的质量与大小有局限性；

2、基于规则的方法的基本思想是通过实体名称自身的特征和短语的常见搭配，来人为的指定一些规则，扩充规则集合，但是需要耗费巨大的人力资源和时间成本，规则一般只在某个特定的领域内有效，进行人工迁移的代价高，且规则移植性不强；

3、采用深度学习的方法是通过不断地优化模型训练，训练的模型在测试评估时表现出较好的性能。目前应用较多的模型有隐马尔可夫模型(HMM)、支持向量机(SVM)、最大熵马尔可夫模型(MEMM)、条件随机场模型(CRF)等，其中， CRF能对邻近标签对预测序列的影响问题进行有效地处理，所以在实体识别中应用较多且效果不错。

目前，最先进的英语NER方法是基于条件随机场的双向长短时记忆 (BiLSTM-CRF)方法，该方法将字符嵌入和单词嵌入作为输入，大量基于BiLSTM-CRF的模型已被广泛研究使用到英文CNER当中，如药品不良反应识别、文献级疾病等。

然而，中文CNER面临以下挑战：(1)一些实体因使用不标准的缩写或首字母缩写导致不能被识别出来；(2)同一实体的多种表现导致识别容易出错；(3) 中文缺乏有效的边界，语法比其他语言复杂。双向长短时记忆(BiLSTM-CRF) 的模型不能充分利用中文临床信息，基于词的分词算法容易出现分词错误，而基于字符的分词算法会遗漏词级信息，这对中文CNER影响很大。

考虑到上述中文的复杂性，目前较先进的中文NER方法是采用新的基于条件随机场的中文NER格结构LSTM(lattice LSTM-CRF)方法，该模型是一种基于字符的模型，具有相应的加权单词信息，优于基于单词和基于字符的LSTM基线模型，在多个数据集上实现了较先进的性能。

然而，上述所有这些NER任务都只使用已标记的样本来最大化性能，而忽略了未标记的样本。事实上，由于医学领域知识来注释样本的成本很高，大量的医学样本在生物医学领域是没有注释的；同时，由于隐私、道德和高度专业化的限制，带标注的中文医学NER数据很难获得且通常规模很小，这将导致收集到的特征过少，模型容易受到海量未标记数据的干扰，导致医学中文命名实体识别性能较差。因此，设计一个可提高医学领域海量未标记中文命名实体识别准确率的方法具有重要意义。

发明内容

为了解决现有技术中医学领域海量未标记中文命名实体识别性能差的缺陷，本发明提供了一种基于生成模型的医学中文命名实体识别方法，实现中文医学命名实体的有效识别。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种基于生成模型的医学中文命名实体识别方法，该生成模型包括对抗训练模块和私有任务模块，其中所述对抗训练模块由一个Shared BiLSTM生成器、一个Self-Attention机制和一个CNN判别器组成，具体的，所述医学中文命名实体识别方法包括如下步骤：

步骤1：处理医疗中文命名实体语料库中的句子，将每个句子进行分类，形成两种数据集，分别用于对应的子任务，所述两种数据集分别为用于对抗训练模块的数据集和用于私有任务模块的数据集，

步骤2：将用于对抗训练模块的数据集中的句子与用于私有任务模块的数据集中的句子对齐，用于对抗训练模块和私有任务训练模块的数据集中相同且对齐的句子构成句子对，每个所述句子对被输入到所述生成模型中。

用于对抗训练的数据集和用于私有任务的数据集是相同的，均包含一个 CNER数据集以及一个CWS数据集，设CNER数据集中的一个字符为c_i，则包含在CNER数据集中的一个句子表示为t＝(c₁,c₂,c₃,c₄,…,c_n)，所述CNER数据集表示为C_CNER＝(t₁,t₂,t₃,t₄,…,t_q)，设CWS数据集中的一个字符为c'_i,，则包含在CWS数据集中的一个句子表示为t'＝(c'₁,c'₂,c'₃,c'₄,…,c'_n)，所述CWS数据集可以表示为C_CWS＝(t'₁,t'₂,t'₃,t'₄,…,t'_q)，其中n表示一个句子中所含字符数，q表示一个数据集中所含句子数，其中句子对被输入到所述生成模型中包括以下步骤：

步骤2-1：将所述句子对中的来自对抗训练的数据集的句子输入到对抗训练模块中，实现中文CNER任务的字符{c₁,c₂,c₃,…,c_n}和CWS任务的字符 {c'₁,c'₂,c'₃,c'₄,…,c'_n}交替作为输入字符序列{s₁,s₂,s₃,…,s_n}输入对抗训练模块中，

步骤2-2：将所述句子对中的来自私有任务数据集的句子输入到相应的私有任务模块，实现来自中文CNER数据集中的句子字符{c₁,c₂,c₃,…,c_n}输入至中文CNER模块以及来自CWS数据集中的句子字符{c'₁,c'₂,c'₃,c'₄,…,c'_n}输入至CWS 模块；

步骤3：输入对抗训练模块的字符序列，经过字嵌入转换为字向量，在字嵌入训练过程中，将中文医学文本作为神经网络的训练数据，经过神经网络训练后输出包含字的语义信息向量，所述字嵌入训练过程将每个字从高维空间嵌入至低维的连续向量空间，形成一个稠密向量，用于大数量级的中文医学文本表示。在此步骤中，字嵌入采用的是字的word2vec分布式表示法，所述word2vec分布式表示是一种简单的神经网络，属于一种维度大小相对较低的稠密向量表示，其将所有信息分布式表示在稠密向量的各维度上且各维度都是实数。

步骤4：将步骤3得到的字向量作为所述对抗训练模块中的Shared BiLSTM 生成器的输入，所述Shared BiLSTM生成器采用从左到右的策略进行文本生成并合并字符序列两边的信息，输出BiLSTM隐藏层的状态，其输出过程包括如下步骤：

步骤4-1：将输入的正序列输入到Shared BiLSTM生成器的前向神经网络，得到包含上文信息的前向隐藏向量

具体计算过程为为/>

其中x_t表示字向量，/>

表示t-1时刻LSTM的隐藏向量输出

步骤4-2：再将输入的逆序列输入到Shared BiLSTM生成器的后向神经网络，得到包含下文信息的后向隐藏向量

具体计算过程为/>

其中，/>

表示t+1时刻LSTM的隐藏向量输出；

步骤4-3：合并前向隐藏向量和后向隐藏向量得到隐藏状态输出h_t，具体计算过程为

其中/>

表示拼接运算。

其中：所述Shared BiLSTM生成器接收来自中文CNER任务和CWS任务的字符嵌入，使用BiLSTM模型合并字符序列两边的信息，分别从正向的正序列以及相反方向的逆序列学习医学文本信息，输出前向、后向隐藏层向量，充分集成上下文信息，学习训练集中实体和非实体的关系，生成隐藏状态；

其中：所述Self-Attention机制显式学习句子中任意两个字符之间的依赖关系，捕获句子的内部结构信息，根据文本中句子的权值有选择的输出中间结果。

所述Self-Attention机制在处理大量输入信息的过程中，获取需要重点关注的目标区域并对该目标区域投入更多关注，从中筛选出更多和目标特征相关的高价值输入信息，而忽视其他无关的信息，提高模型的训练效率。

其中：所述CNN判别器由一个最大池层和一个Softmax层组成，CNN判别器接收Self-Attention机制的输出并判断Shared BiLSTM生成器生成数据的数据来源，将来自中文CNER任务的输入发送至独立的中文CNER任务进行处理，将来自CWS任务的输入发送至CWS任务进行单独处理。

步骤5：利用对抗训练模块中的Self-Attention机制从Shared BiLSTM生成器的隐藏向量状态信息中获取句子不同的关键信息，并对这些信息赋予不同的实体特征权重，通过提取与整合得到固定大小的有用词向量，对抗训练模型进行批量计算；

步骤6：使用对抗训练模块中的CNN判别器区分句子来自哪个私有任务数据集，其中，所述私有任务模块的数据集为中文CNER任务模块数据集或CWS 任务模块数据集。

具体的，私有任务判别包括如下步骤：

步骤6-1：将步骤5中对抗训练模块中的Self-Attention机制计算出的实体特征权重送到CNN判别器中的最大池化层进行非极大值消除处理，去除冗余信息，压缩实体特性，降低上层Softmax层的计算复杂度；

步骤6-2：CNN判别器中的Softmax函数将输出概率限制在0-1之间，采用 Softmax函数将最大池化层清洗过的实体特征权重数值映射到输入医学文本来自中文CNER任务的概率分数；

步骤6-3：根据步骤6-2得到的概率分数，鉴别所嵌入字符序列所属任务类型，输出判别结果。

步骤7：根据步骤6中CNN判别器的判别结果跳转至相应的中文CNER任务模块数据集或CWS任务模块数据集执行相应的任务，如果所述CNN判别器判断输出来自中文CNER任务模块数据集，则将Self-Attention机制的输出发送给独立CNER任务进行后续处理并输出医学文本句子序列标注结果，如果中文 CNER任务模块数据集判断输出来自CWS任务模块数据集，则将Self-Attention 机制的输出发送给独立CWS任务。

在步骤7中CNN判别器的判别结果跳转至相应的中文CNER任务模块数据集执行中文CNER任务的具体过程包括如下步骤：

步骤7-1-1：将步骤2-2的中文CNER数据集中的句子字符{c₁,c₂,c₃,…,c_n} 送入Lattice LSTM模型中进行处理；

步骤7-1-2：所述Lattice LSTM模型对输入字符序列以及所有匹配字典的潜在单词进行编码，生成隐藏状态h_i，

生成隐藏状态h_i的具体过程为：

步骤7-1-2-1：将中文CNER数据集中的句子字符{c₁,c₂,c₃,…,c_n}的所有字符子序列储存在单元储存器

中；

步骤7-1-2-2：将子序列和与词典D^w进行词序列匹配，对每个单元字符匹配信息流循环路径；

步骤7-1-2-3：对每个单元字符匹配到的潜在词按照词长度进行排序；

步骤7-1-2-4：将当前字符向量和当前字与词典匹配到的潜在词均输入至Lattice LSTM模型中分别计算字级和词级的LSTM单元中的相关状态；

步骤7-1-2-5：采用归一化的方法为每个单元字符、潜在词分配权重，衡量对应输入信息的重要程度；

步骤7-1-2-6：将步骤7-1-2-4计算出的当前各个输入源的相关状态与步骤 7-1-2-5计算出的对应权重进行加权求和，得到最终的字符结果；

步骤7-1-2-7：采用Lattice LSTM模型中的字级输出门来控制字符结果的输出程度，输出最后的隐藏层隐藏状态。

步骤7-1-3：采用中文CNER模块中的Self-Attention机制提取中文CNER任务数据集中Lattice LSTM生成的关键特征并整合CWS任务模块以及对抗训练模块中的BiLSTM生成器生成的编码信息，生成隐藏状态h'_i；

步骤7-1-4：结合步骤7-1-3所得隐藏状态之间的相关性，利用条件随机场模型CRF学习相邻关系来模拟标签之间的顺序关系，解码最终的序列标签以确保预测标签的合法性；

步骤7-1-5：将步骤7-1-4的中文医学文预测标签结果输出至中文CNER结果集。

本发明的进一步改进在于：根据步骤7中CNN判别器的判别结果跳转至相应的CWS任务模块数据集执行CWS任务的具体过程包括如下步骤：

步骤7-2-1：将步骤2-2的CWS数据集中的句子字符{c'₁,c'₂,c'₃,c'₄,…,c'_n}送入Bi-LSTM模型中进行处理；

步骤7-2-2：所述Bi-LSTM模型对输入字符序列进行编码，生成隐藏状态h_j；

步骤7-2-3：采用CWS私有任务练模块中的Self-Attention机制提取Bi-LSTM 生成的关键特征并整合对抗训练模块的Bi-LSTM生成器生成隐藏状态h″_j，具体包括如下步骤：

步骤7-2-3-1：将步骤7-2-2的隐藏状态h_j引入Self-Attention机制，将CWS 私有任务中Bi-LSTM模型生成的隐藏向量状态以及对抗训练模块Shared BiLSTM生成器生成的隐藏向量状态输入至对应的SA-1、SA-2自注意力神经网络；

步骤7-2-3-2：将SA-1、SA-2自注意力神经网络的输出反馈给第三个自注意力神经网络SA-3进行信息整合，得到一个输入句子的整体隐藏状态h″_j。

步骤7-2-4：结合所述步骤7-2-3所得的隐藏状态h″_j之间的相关性，利用条件随机场模型CRF学习相邻关系来模拟标签之间的顺序关系，解码最终的序列标签以确保预测标签的合法性；

步骤7-2-5：通过不断的重复步骤7-2-1-步骤7-2-4，在CWS任务模块数据集上训练并选取在数据集的开发集上进行CWS任务时F1值最大的模型进行保存。

中文CNER任务的核心结构是使用LatticeLSTM-CRF模型来克服 BiLSTM-CRF的分词算法易出现分词错误以及词级信息遗漏问题。模型引入 LatticeLSTM层，充分利用临床医疗信息，整合词级信息和字符级信息。

所述CWS任务与中文CNER任务类似，使用BiLSTM-CRF模型实现将EHR 中文本类型的句子分为单词，分词任务与中文CNER任务进行联合训练，引入额外信息，有利于直接从主任务中学习到难以提取出的词边界特征。

通过上述对抗式训练模块，实现从未标注的医学样本数据集中提取出共同特征，最大化中文CNER的性能，最终利用高质量的生成数据来扩大训练集，达到提高中文医学命名实体识别性能的目的。

本发明的有益效果：

本发明采用Lattice LSTM动态框架，动态的改变LSTM的结构以充分利用字与词之间的序列关系，克服了非结构化中文医学命名实体文本的局限性；

本发明采用对抗式训练的动态架构学习中文CNER任务和CWS任务的共同特征，提取医学文本中特定的信息，将实体与实体之间、实体与非实体之间的边界区分开来，实现中文医学命名实体的有效识别。

附图说明

图1为基于生成模型的医疗领域中文命名实体识别流程框图。

图2为基于生成模型的医疗领域中文命名实体识别模型整体架构图。

图3为本发明的基于生成模型GAN的对抗式训练架构图。

图4为本发明的Lattice LSTM动态框架网格结构图。

图5为本发明的中文CNER模型网格结构图。

图6为本发明的CWS模型网格结构图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。此外，为简化图式起见，一些习知惯用的结构与组件在图式中将以简单的示意的方式绘示之。

如图1、图2和图3所示，本发明是一种基于生成模型的医学中文命名实体识别方法，该生成模型包括对抗训练模块和私有任务模块，

其中：对抗训练模块由一个Shared BiLSTM生成器、一个Self-Attention机制和一个CNN判别器组成，学习和训练医学领域中文命名实体的特征，提供医学中文命名实体的边界信息。

Shared BiLSTM生成器学习到的结果称为共同特征，共同特征包括任务共享词边界，有利于中文CNER任务识别医学中文命名实体边界，所述Shared BiLSTM生成器接收来自中文CNER任务和CWS任务的字符嵌入，使用BiLSTM 模型合并字符序列两边的信息，分别从正向的正序列以及相反方向的逆序列学习医学文本信息，输出前向、后向隐藏层向量，充分集成上下文信息，学习训练集中实体和非实体的关系，生成隐藏状态，通过不断的对抗性训练，Shared BiLSTM生成器会提取出CNN判别器无法区分的共同特征。

所述Self-Attention机制显式学习句子中任意两个字符之间的依赖关系，捕获句子的内部结构信息，根据文本中句子的权值有选择的输出中间结果。

所述CNN判别器由一个最大池层和一个Softmax层组成，CNN判别器接收 Self-Attention机制的输出并判断Shared BiLSTM生成器生成数据的数据来源，将来自中文CNER任务的输入发送至独立的中文CNER任务进行处理，将来自 CWS任务的输入发送至CWS任务进行单独处理。

CNN判别器的最大池层消除非极大值，去除冗余信息，对特征进行压缩，降低上层Softmax层的计算复杂度。

Softmax层将最大池层的输出结果通过Softmax函数将数值映射为区间[0～1] 内并且输出能归一化到和为1。

Softmax函数是一种将数值转换为概率的标准映射方法，激活函数使用 softmax使鉴别器输出医学文本来自中文CNER任务的概率。

设计一个损失函数来优化目标，降低两个任务的预测差异，训练使得中文医疗数据集的损失函数最小化，优化函数表示为：

其中，s'^k是任务k的共享BiLSTM生成器之后的自关注层的输出；θ_d是鉴别器的参数；K是任务数；D(s'^k；θ_d)是鉴别器的输出，将其视为softmax函数；θ_s是共享BiLSTM生成器的可训练参数，T_k是训练句子的数量。

其中：所述私有任务模块的数据集为中文CNER任务模块数据集或CWS任务模块数据集。

对抗训练模块基于GAN生成模型，将其优化成一种极大极小博弈问题， SharedBiLSTM生成器尽可能提取中文CNER任务模块数据集和CWS任务模块数据集中的医学文本句子的共同特征，使CNN判别器难以区分医学文本来自哪个任务。

通过上述对抗训练模块，实现从未标注的医学样本样本数据集中提取出共同特征，最大化中文CNER的性能，最终利用高质量的生成数据来扩大训练集，达到提高中文医学命名实体识别性能的目的。

具体的，所述医学中文命名实体识别方法包括如下步骤：

步骤1：处理医疗中文命名实体语料库中的句子，将每个句子进行分类，形成两种数据集，分别用于对应的子任务，所述两种数据集分别为用于对抗训练模块的数据集和用于私有任务模块的数据集。

所述用于对抗训练的数据集和用于私有任务的数据集是相同的，均包含一个CNER数据集以及一个CWS数据集，设CNER数据集中的一个字符为c_i，则包含在CNER数据集中的一个句子表示为t＝(c₁,c₂,c₃,c₄,…,c_n)，所述CNER数据集表示为C_CNER＝(t₁,t₂,t₃,t₄,…,t_q)，设CWS数据集中的一个字符为c'_i,，则包含在CWS数据集中的一个句子表示为t'＝(c'₁,c'₂,c'₃,c'₄,…,c'_n)，所述CWS数据集可以表示为C_CWS＝(t'₁,t'₂,t'₃,t'₄,…,t'_q)，其中n表示一个句子中所含字符数，q表示一个数据集中所含句子数。

其中，句子对被输入到所述生成模型中包括以下步骤：

步骤2-1：将句子对中的来自对抗训练的数据集的句子输入到对抗训练模块中，实现中文CNER任务的字符{c₁,c₂,c₃,…,c_n}和CWS任务的字符 {c'₁,c'₂,c'₃,c'₄,…,c'_n}交替作为输入字符序列{s₁,s₂,s₃,…,s_n}输入对抗训练模块中；

步骤2-2：将所述句子对中的来自私有任务数据集的句子输入到相应的私有任务模块，实现来自中文CNER数据集中的句子字符{c₁,c₂,c₃,…,c_n}输入至中文CNER模块以及来自CWS数据集中的句子字符{c'₁,c'₂,c'₃,c'₄,…,c'_n}输入至CWS 模块。

步骤3：输入对抗训练模块的字符序列{s₁,s₂,s₃,…,s_n}，经过字嵌入转换为字向量表示形式{x₁,x₂,x₃,…,x_n}，所述字嵌入采用的是字的word2vec分布式表示法，所述word2vec分布式表示是一种简单的神经网络，属于一种维度大小相对较低的稠密向量表示，其将所有信息分布式表示在稠密向量的各维度上且各维度都是实数。在word2vec字嵌入训练过程中，将中文医学文本作为神经网络的训练数据，经过神经网络训练后输出包含字的语义信息向量，所述字嵌入训练过程将每个字从高维空间嵌入至低维的连续向量空间，形成一个稠密向量，用于大数量级的中文医学文本表示；

步骤4：将步骤3得到的字向量作为对抗训练模块中的Shared BiLSTM生成器的输入，Shared BiLSTM生成器采用从左到右的策略进行文本生成并合并字符序列两边的信息，输出BiLSTM隐藏层的状态，其中，BiLSTM隐藏层的状态的输出过程包括如下步骤：

具体计算过程为为/>

其中x_t表示字向量，/>

表示t-1时刻LSTM的隐藏向量输出

具体计算过程为/>

其中，/>

表示t+1时刻LSTM的隐藏向量输出；

其中/>

表示拼接运算。如，给定中文医学文本“重度感冒患者容易出现支气管哮喘”，Shared BiLSTM模块正向学习句子获得重要信息“支气管哮喘”，同时Shared BiLSTM模型会反方向重新学习该句子获得“重度感冒”的重要信息，最后BiLSTM模型充分集成上下文信息，输出前向和后向隐藏层向量的合并隐藏向量信息“支气管哮喘”和“重度感冒”。

步骤5：利用对抗训练模块中的Self-Attention机制从Shared BiLSTM生成器的隐藏向量状态信息中获取句子不同的关键信息，并对这些信息赋予不同的实体特征权重，通过提取与整合得到固定大小的有用词向量，对抗训练模型进行批量计算。Self-Attention机制在处理大量输入信息的过程中，获取需要重点关注的目标区域并对该目标区域投入更多关注，从中筛选出更多和目标特征相关的高价值输入信息，而忽视其他无关的信息，提高模型的训练效率。

步骤6：使用对抗训练模块中的CNN判别器区分句子来自哪个私有任务数据集，具体的判别方法包括如下步骤：

步骤7：根据步骤6中CNN判别器的判别结果跳转至相应的中文CNER任务模块数据集或CWS任务模块数据集执行相应的任务，如果所述CNN判别器判断输出来自中文CNER任务模块数据集，则将Self-Attention机制的输出发送给独立CNER任务进行后续处理并输出医学文本句子序列标注结果，如果中文 CNER任务模块数据集判断输出来自CWS任务模块数据集，则将Self-Attention 机制的输出发送给独立CWS任务。假设先训练中文CNER任务，再训练CWS 任务。

具体包括如下步骤：

步骤7-1：根据CNN判别器中判别出的中文CNER任务，执行中文CNER 任务训练，其中，中文CNER任务训练包括以下分步骤：

步骤7-1-2：所述Lattice LSTM模型对输入字符序列以及所有匹配字典的潜在单词进行编码，生成隐藏状态h_i。

Lattice LSTM编码生成的隐藏状态生成如图4所示，具体包括如下过程：

步骤7-1-2-1：将中文CNER数据集中的句子字符{c₁,c₂,c₃,…,c_n}的所有字符子序列储存在单元储存器，表示为字符

中；

步骤7-1-2-3：每个字符

中有不止一条信息流的循环路径，对每个单元字符匹配到的潜在词/>

按照词长度进行排序，其中b、e分别表示词的开始字和结束字的索引；

步骤7-1-2-4：将当前字符

和当前字与词典匹配到的潜在词均输入至LatticeLSTM模型中分别计算字级和词级的LSTM单元中的相关状态，；

步骤7-1-2-5：采用归一化的方法为每个单元字符

潜在词/>

分配权重，衡量对应输入信息的重要程度；

步骤7-1-2-6：将步骤7-1-2-4计算出的当前各个输入源的相关状态与步骤 7-1-2-5计算出的对应权重进行加权求和，得到最终的字符

结果；

步骤7-1-2-7：采用Lattice LSTM模型中的字级输出门来控制当前字符

结果的输出程度，输出最后的隐藏层隐藏状态h_i。

步骤7-1-3：采用中文CNER任务模块中的Self-Attention机制提取中文CNER 任务数据集中Lattice LSTM生成的关键特征并整合CWS任务模块以及对抗训练模块中的BiLSTM生成器生成的特征信息，生成隐藏状态，其中生成隐藏状态如图2所示，具体包括如下步骤：

步骤7-1-3-1：将步骤7-1-2-7的隐藏层隐藏状态h_i引入Self-Attention机制，将Lattice LSTM模型生成的隐藏状态、对抗训练模块Shared BiLSTM模型生成的隐藏向量状态以及CWS私有任务中BiLSTM生成器生成的隐藏向量状态输入至中文CNER任务模块中对应的SA-1、SA-2、SA-3自注意力神经网络；

步骤7-1-3-2：将SA-1、SA-2、SA-3自注意力神经网络的输出反馈给中文 CNER任务模块中第四个自注意力神经网络SA-4进行信息整合，得到一个输入句子的整体隐藏状态h'_i。

步骤7-1-4：结合步骤7-1-3-2所得隐藏状态h'_i之间的相关性，利用条件随机场模型CRF学习相邻关系来模拟标签之间的顺序关系，解码最终的序列标签以确保预测标签的合法性。

其中，条件随机场模型CRF是一种判别式的概率无向图模型，常用于序列标注问题，如对文字序列进行词性标注，即对文本句子中的每个字标注诸如“名词”、“动词”、“形容词”等这样的词性标签，CRF就可以根据语法规则考虑到这样的依赖关系，对当前字打上合适的词性标签。

而标注方法则采用BIO(Begin，Inside，Outside)标签约束法，将CRF层目标预测句子X＝{x₁,x₂,x₃,…,x_n}中的每一个标记x_i进行BIO标记，得到最终医疗领域的标签输出Y＝{y₁,y₂,y₃,…,y_n}，句子中标签实体例子如表1所示，其中 B-s代表实体症状的开始，I-s代表实体症状的内部，B-d代表实体疾病disease 的开始，I-d代表实体疾病disease的内部，B-p代表实体人物person的开始，I-p 代表实体人物person的内部，O代表外部实体。

表1句子中的BIO标签实体

步骤7-1-5：将步骤7-1-4的中文医学文本预测标签结果输出至中文CNER 结果集，CNER模块的整体模型如图5所示。

步骤7-2：根据CNN判别器中判别出的CWS任务，执行CWS任务训练。

其中，所述CWS任务训练包括以下步骤：

步骤7-2-2：所述Bi-LSTM模型对输入字符序列进行编码，生成隐藏状态h_j。

其中，所述Bi-LSTM编码生成的隐藏状态过程与步骤4所述对抗训练模块中SharedBiLSTM生成器的编码生成隐藏状态结果过程类似，具体为：

将步骤7-2-1中输入字符作为CWS任务模块中的Bi-LSTM的输入，Bi-LSTM 采用从左到右的策略进行文本生成并合并字符序列两边的信息，输出Bi-LSTM 隐藏层的状态，其中，Bi-LSTM隐藏层的状态的输出过程包括如下步骤：

步骤7-2-2-1：将输入的正序列输入到Bi-LSTM的前向神经网络，得到包含上文信息的前向隐藏向量

具体计算过程为为/>

其中c'_j表示输入字符向量，

表示j-1时刻LSTM的隐藏向量输出

步骤7-2-2-2：再将输入的逆序列输入到Bi-LSTM的后向神经网络，得到包含下文信息的后向隐藏向量

具体计算过程为/>

其中，/>

表示j+1时刻LSTM的隐藏向量输出；

步骤7-2-2-3：合并前向隐藏向量和后向隐藏向量得到隐藏状态输出h_j，具体计算过程为

其中/>

表示拼接运算。

步骤7-2-3：采用CWS任务模块中的Self-Attention机制提取提取Bi-LSTM 生成的关键特征并整合对抗训练模块中的BiLSTM生成器生成的特征信息，生成隐藏状态h″_j，具体的，生成隐藏状态h″_j包括如下步骤：

步骤7-2-3-1：将步骤7-2-2的隐藏状态hj引入Self-Attention机制，将CWS 私有任务中Bi-LSTM模型生成的隐藏向量状态以及对抗训练模块Shared BiLSTM生成器生成的隐藏向量状态分别输入至CWS任务模块对应的SA-1、 SA-2自注意力神经网络；

步骤7-2-3-2：将SA-1、SA-2自注意力神经网络的输出反馈给CWS任务模块第三个自注意力神经网络SA-3进行信息整合，得到一个输入句子的整体隐藏状态h″_j。

步骤7-2-4：结合所述步骤7-2-3-2所得的隐藏状态h″_j之间的相关性，利用条件随机场模型CRF学习相邻关系来模拟标签之间的顺序关系，解码最终的序列标签以确保预测标签的合法性。

所述条件随机场模型CRF考虑到标签之间的依赖关系，使用条件随机场模型CRF来得到最终的实体预测结果，而不是直接使用Bi-LSTM的输出结果。条件随机场模型CRF可以向最后一个预测标签添加一些标注方法加以约束，确保预测标签合法。

所提到的标注方法采用BMES标签(Begin，Mediate，End，Single)约束预测句子中的每一个标记，将CWS任务中条件随机场模型CRF预测句子中的每一个标记进行BMES标记，得到最终医疗领域的中文单词分词输出，具体BMES 标签实体例子如下表2：

表2句子中的BMES标签实体

步骤7-2-5：通过不断的重复步骤7-2-1到步骤7-2-4，在CWS任务模块数据集上训练并选取在CWS任务模块数据集的开发集上进行CWS任务时F1值最大的模型进行保存。所述CWS任务模块数据集分为三部分：训练集、开发集、测试集。训练集用于训练模型，开发集用于优化模型参数，测试集用于最终测试模型性能，所以在CWS数据集上训练并选取在开发集上进行CWS任务时F值最大的模型进行保存。CWS任务模块的整体模型如图6所示。

本发明关注的是CNER任务，仅CNER任务才会执行步骤7.1输出医学句子序列标注结果，步骤7.2CWS任务没有输出结果，所以CNN任务鉴别器将来自 CNER任务的输入作为正确的结果，将来自CWS的输入作为错误的结果并修改 Shared BiLSTM生成器的参数实现模型调优。

该实施例中的步骤4到步骤6中由Shared BiLSTM生成器以及CNN任务鉴别器组成的对抗训练框架模型可增加一个损失函数来优化目标，降低对中文 CNER以及CWS任务的预测差异，通过对抗式训练实现中文医疗数据集的损失函数最小化。优化函数可以表示为：

其中，s'^k是任务k的共享BiLSTM模型之后的自关注层的输出；θ_d是鉴别器的参数；K是任务数，D(s'^k；θ_d)是CNN任务鉴别器的输出，将其视为softmax 函数；_θs是共享BiLSTM模型的可训练参数，T_k是训练句子的数量。

所述对抗损失L_adv是一个极小极大公式，在模型训练过程中，最大化max部分通过不断更新CNN任务鉴别器中的参数θ_d，使得CNN任务鉴别器最大可能地正确识别出SharedBiLSTM生成器的输入特征来自哪个任务；而最小化min 部分通过不断更新Shared BiLSTM生成器网络中的共享模型参数θ_s，尽可能让 Shared BiLSTM生成器产生的两个任务的隐藏特征分布趋于一致，利用Shared BiLSTM生成器和CNN任务鉴别器之间的起到对抗的作用，最终达到目标状态： CNN任务鉴别器无法根据共享BiLSTM层学习到的特征来判别任务，此时，Shared BiLSTM生成器的输出就较好地融合了NER和CWS的特征。

所述Shared BiLSTM生成器学习到的融合了NER和CWS的特征称为共同特征，共同特征包括任务共享词边界，有利于医学中文命名实体边界的识别，提高中文CNER任务的准确率。

步骤1到步骤6会随着两个任务数据集中大量字符序列交替嵌入以及不断进行对抗式训练，Shared BiLSTM生成器将使得生成CNN判别器无法区分输入字符序列来自哪一个任务，因此可以跳过本实施例中的步骤6，直接执行步骤7.1，将Shared BiLSTM生成器学习到的公共特征输入到中文CNER模块中进行识别处理，提高医学中文命名实体识别速率。

本发明在训练阶段，中文CNER任务以及CWS任务是轮流进行的，每次迭代都依次从{CNER，CWS}中选择一个任务执行，然后从当前所选的任务数据集中抽取一批训练样本来更新参数，并采用Adam算法优化最终的损失函数。

生成模型最终的损失函数是中文CNER模块、CWS模块以及对抗训练模块的损失加权和，具体可以表示为：

L＝L_CNER·I(x)+L_CWS·(1-I(x))+λL_adv

其中，λ是超参数，L_CNER和L_CWS分别是中文CNER任务和CWS任务在各自 CRF层的损失函数，I(x)是一个0/1函数，用于指示当前输入数据来自于CNER 数据集或者CWS数据集：当输入数据来自CNER识别任务的训练样本时，I(x) 取1；相反，输入数据来自CWS任务训练样本时，I(x)取0。

所述Adam算法是深度学习中常用的优化算法，善于处理凸优化问题，适合解决含大规模训练数据和参数的优化问题，可以代替经典的随机梯度下降法来更有效地更新网络权重。Adam算法根据该实施例最终损失函数对对应私有任务模块中的每个参数的梯度一阶矩和二阶矩进行估计，使用指数加权移动平均计算，使每个参数的梯度的特征缩放不变，解决在参数空间迭代过程中的高噪声和梯度稀释等问题，滤除Lattice LSTM动态框架引入词信息而导致的一些噪声信息。

本发明的实体识别方法采用Lattice LSTM动态框架，动态的改变LSTM的结构以充分利用词语词之间的序列关系，克服了非结构化中文医学命名实体文本的局限性；采用对抗式训练的动态架构学习中文CNER任务和CWS任务的共同特征，提取医学文本中特定的信息，将实体与实体之间、实体与非实体之间的边界区分开来，实现中文医学命名实体的有效识别。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于生成模型的医学中文命名实体识别方法，其特征在于：所述生成模型包括对抗训练模块和私有任务模块，其中所述对抗训练模块由一个Shared BiLSTM生成器、一个Self-Attention机制和一个CNN判别器组成，具体的，所述医学中文命名实体识别方法包括如下步骤：

步骤1：处理医疗中文命名实体语料库中的句子，将每个句子进行分类，形成两种数据集，用于对抗训练模块的数据集和用于私有任务模块的数据集；

步骤2：将用于对抗训练模块的数据集中的句子与用于私有任务模块的数据集中的句子对齐，用于对抗训练模块和私有任务模块的数据集中相同且对齐的句子构成句子对，每个所述句子对被输入到所述生成模型中；

步骤3：输入对抗训练模块的字符序列，经过word2vec字嵌入转换为字向量，在word2vec字嵌入训练过程中，将中文医学文本作为神经网络的训练数据，经过神经网络训练后输出包含字的语义信息向量，word2vec字嵌入训练过程将每个字从高维空间嵌入至低维的连续向量空间，形成一个稠密向量，用于大数量级的中文医学文本表示；

步骤4：将步骤3得到的字向量作为所述对抗训练模块中的Shared BiLSTM生成器的输入，所述Shared BiLSTM生成器采用从左到右的策略进行文本生成并合并字符序列两边的信息，输出BiLSTM隐藏层的状态；

步骤5：利用对抗训练模块中的Self-Attention机制从Shared BiLSTM生成器的隐藏向量状态信息中获取句子不同的关键信息，并对这些信息赋予不同的实体特征权重，通过提取与整合得到固定大小的有用词向量，对抗训练模块进行批量计算；

步骤6：使用对抗训练模块中的CNN判别器区分句子来自哪个私有任务模块数据集，其中，所述私有任务模块的数据集为中文CNER任务模块数据集或CWS任务模块数据集；

步骤7：根据步骤6中CNN判别器的判别结果跳转至相应的中文CNER任务模块数据集或CWS任务模块数据集执行相应的任务，如果所述CNN判别器判断输出来自中文CNER任务模块数据集，则将Self-Attention机制的输出发送给独立CNER任务进行后续处理并输出医学文本句子序列标注结果，如果CNN判别器判断输出来自CWS任务模块数据集，则将Self-Attention机制的输出发送给独立CWS任务；其中：

所述用于对抗训练模块的数据集和用于私有任务模块的数据集是相同的，均包含一个CNER数据集以及一个CWS数据集，设CNER数据集中的一个字符为c_i，则包含在CNER数据集中的一个句子表示为t＝(c₁,c₂,c₃,c₄,…,c_n)，所述CNER数据集表示为C_CNER＝(t₁,t₂,t₃,t₄,…,t_q)，设CWS数据集中的一个字符为c′_i，则包含在CWS数据集中的一个句子表示为t′＝(c′₁,c′₂,c′₃,c′₄,…,c′_n)，所述CWS数据集表示为C_CWS＝(t′₁,t′₂,t′₃,t′₄,…,t′_q)，其中n表示一个句子中所含字符数，q表示一个数据集中所含句子数；

所述句子对被输入到所述生成模型中包括以下步骤：

步骤2-1：将所述句子对中的来自对抗训练模块的数据集的句子输入到对抗训练模块中，实现中文CNER任务的字符{c₁,c₂,c₃,…,c_n}和CWS任务的字符{c′₁,c′₂,c′₃,c′₄,…,c′_n}交替作为输入字符序列{s₁,s₂,s₃,…,s_n}输入对抗训练模块中；

步骤2-2：将所述句子对中的来自私有任务模块数据集的句子输入到相应的私有任务模块，实现来自中文CNER数据集中的句子字符{c₁,c₂,c₃,…,c_n}输入至中文CNER任务模块以及来自CWS任务模块数据集中的句子字符{c′₁,c′₂,c′₃,c′₄,…,c′_n}输入至CWS任务模块；

所述步骤7中CNN判别器的判别结果跳转至相应的中文CNER任务模块数据集执行中文CNER任务的具体过程包括如下步骤：

步骤7-1-1：将步骤2-2的中文CNER数据集中的句子字符{c₁,c₂,c₃,…,c_n}送入LatticeLSTM模型中进行处理；

步骤7-1-2：所述Lattice LSTM模型对输入字符序列以及所有匹配字典的潜在单词进行编码，生成隐藏状态h_i；

步骤7-1-3：采用中文CNER任务模块中的Self-Attention机制提取中文CNER任务模块数据集中Lattice LSTM模型生成的关键特征并整合CWS任务模块以及对抗训练模块中的Shared BiLSTM生成器生成的特征信息，生成隐藏状态h′_i；

步骤7-1-4：结合步骤7-1-3所得隐藏状态之间的相关性，利用条件随机场模型CRF学习相邻关系来模拟标签之间的顺序关系，解码最终的序列标签以确保预测标签的正确性；

步骤7-1-5：将步骤7-1-4的中文医学文本预测标签结果输出至中文CNER结果集。

2.根据权利要求1所述一种基于生成模型的医学中文命名实体识别方法，其特征在于：在所述7-1-2中，所述Lattice LSTM模型进行编码，生成隐藏状态h_i的具体过程为：

中；

步骤7-1-2-2：将字符子序列和与词典D^w进行词序列匹配，对每个单元字符匹配信息流循环路径；

步骤7-1-2-4：将当前字符向量和当前字与词典匹配到的潜在词均输入至LatticeLSTM模型中分别计算字级和词级的LSTM单元中的相关状态；

步骤7-1-2-6：将步骤7-1-2-4计算出的当前各个输入源的相关状态与步骤7-1-2-5计算出的对应权重进行加权求和，得到最终的字符结果；

3.根据权利要求2所述一种基于生成模型的医学中文命名实体识别方法，其特征在于：根据步骤7中CNN判别器的判别结果跳转至相应的CWS任务模块数据集执行CWS任务的具体过程包括如下步骤：

步骤7-2-1：将步骤2-2的CWS数据集中的句子字符{c′₁,c′₂,c′₃,c′₄,…,c′_n}送入Bi-LSTM模型中进行处理；

步骤7-2-3：采用CWS任务模块中的Self-Attention机制提取Bi-LSTM模型生成的关键特征并整合对抗训练模块中Shared BiLSTM生成器生成的特征信息，生成隐藏状态h_j″；

步骤7-2-4：结合所述步骤7-2-3所得的隐藏状态h_j″之间的相关性，利用条件随机场模型CRF学习相邻关系来模拟标签之间的顺序关系，解码最终的序列标签以确保预测标签的正确性；

步骤7-2-5：在CWS任务模块数据集上训练并选取在CWS任务模块数据集的开发集上进行CWS任务时将F1值最大的模型进行保存。

4.根据权利要求3所述一种基于生成模型的医学中文命名实体识别方法，其特征在于：在所述步骤7-2-3中，采用Self-Attention机制，生成隐藏状态h_j″具体包括如下步骤：

步骤7-2-3-1：将步骤7-2-2的隐藏状态h_j引入Self-Attention机制，将CWS私有任务中Bi-LSTM模型生成的隐藏向量状态以及对抗训练模块Shared BiLSTM生成器生成的隐藏向量状态输入至对应的SA-1、SA-2自注意力神经网络；

步骤7-2-3-2：将SA-1、SA-2自注意力神经网络的输出反馈给第三个自注意力神经网络SA-3进行信息整合，得到一个输入句子的整体隐藏状态h_j″。

5.根据权利要求1所述一种基于生成模型的医学中文命名实体识别方法，其特征在于：所述Shared BiLSTM生成器接收来自中文CNER任务和CWS任务的字符嵌入，使用BiLSTM模型合并字符序列两边的信息，分别从正向的正序列以及相反方向的逆序列学习医学文本信息，输出前向、后向隐藏层向量，充分集成上下文信息，学习训练集中实体和非实体的关系，生成隐藏状态；

所述Self-Attention机制显式学习句子中任意两个字符之间的依赖关系，捕获句子的内部结构信息，根据文本中句子的权值有选择的输出中间结果；

所述CNN判别器由一个最大池化层和一个Softmax层组成，CNN判别器接收Self-Attention机制的输出并判断Shared BiLSTM生成器生成数据的数据来源，将来自中文CNER任务的输入发送至独立的中文CNER任务进行处理，将来自CWS任务的输入发送至CWS任务进行单独处理。

6.根据权利要求5所述一种基于生成模型的医学中文命名实体识别方法，其特征在于：步骤4中，BiLSTM隐藏层的状态的输出过程包括如下步骤：