CN112151183A

CN112151183A - 一种基于Lattice LSTM模型的中文电子病历的实体识别方法

Info

Publication number: CN112151183A
Application number: CN202011011399.5A
Authority: CN
Inventors: 费若岚; 高俊波
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-29

Abstract

本发明公开了一种基于Lattice LSTM模型的中文电子病历的实体识别方法，包括以下步骤：步骤1：对电子病历数据进行特征向量训练，获得电子病历数据的特征向量；步骤2：基于双向Lattice LSTM编码模型，对所述特征向量进行双向特征向量编码，获得电子病历数据的输出状态序列；步骤3：基于CRF模型的转移特征性，对所述输出状态序列进行标注概率排序，获得实体识别的结果，完成实体识别。此发明解决了传统中文电子病历命名实体识别存在的不足，通过Lattice LSTM模型利用了显性的词信息，使用BERT预训练语言模型融合了字的上下文相关表示，表征字的多义性，引入医学领域的外部词典资源，不仅提升了模型的识别效果，对未登录词也有一定的发现能力。

Description

一种基于Lattice LSTM模型的中文电子病历的实体识别方法

技术领域

本发明涉及命名实体识别技术领域，具体涉及一种基于Lattice LSTM模型的中文电子病历的实体识别方法。

背景技术

随着医疗信息的快速发展，电子医疗记录也呈现爆发式增长。大规模的电子病历记录了患者的整个医疗过程，包含患者大量的诊疗信息，是临床医学研究的重要数据来源。电子病历命名实体识别是利用计算机自动从非结构化的临床医学文本中识别并抽取与医学相关的命名实体对象，如身体部位、疾病、症状等，这些命名实体为后续医学系统构建和相关研究鉴定了工作基础。

但是，对于中文电子病历的命名实体识别，由于临床电子病历中存在较多的未登录词，给中文分词造成了很大的误差，而分词错误很大程度上影响了命名实体的识别效果。同时，由于医生的个人书写习惯，电子病历文本没有统一规范的书写格式，对于各种症状、药物等的缩写形式增加了电子病历命名实体的识别难度。

目前中文电子病历命名实体识别流行的方法主要分为：基于机器学习的方法和基于深度学习的方法。基于机器学习的方法主要包括隐马尔可夫模型(HMM)、最大熵(ME)、条件随机场(CRF)，该方法将命名实体识别任务看成是一个序列标注任务，给输入句子中的每一个词语标注相应的标签，根据标签确定实体的边界位置和类型。缺点是对特征选取的质量要求较高，无法解决文本中的长依赖问题，而且无法识别未登录词。

因此，研究学者将深度学习应用到命名实体识别任务中，在英文领域效果最好的命名实体识别(NER)是BiLSTM-CRF模型，由于中英文语言特征的差异，中文文本没有类似英文文本中空格之类的标识符，中文实体识别首先要对文本进行分词，而中文电子病历中存在非常多的专业医学术语，会产生大量的分词错误从而导致在NER上的误差累加。而单纯的基于字符向量的BiLSTM-CRF模型会导致拆开很多并不该拆开的词语，从而丢失词语本来的内在信息。

基于以上存在问题，本发明考虑使用BiLSTM-CRF改进后的模型，即基于字向量的Lattice LSTM网格模型作为该发明的神经网络基模型。同时在中文电子病历的不同部分，医疗实体的类别属性有所差异，进行命名实体标注时存在分类的模糊问题，无法判断某些命名实体之间的界限。常见的有表示症状的实体经常会出现在疾病实体名中。面对这样的问题，本发明考虑在基模型的基础上结合医学领域的外部词典对多义词的多种意义进行建模，以减轻多义词的歧义，从而提高实体识别的效果。

发明内容

本发明的目的是提供一种基于Lattice LSTM模型的中文电子病历的实体识别方法。此方法旨在解决传统中文电子病历命名实体识别存在的不足，通过Lattice LSTM模型利用了显性的词信息，使用BERT预训练语言模型融合了字的上下文相关表示，表征字的多义性，引入医学领域的外部词典资源，不仅提升模型的识别效果，对未登录词也有一定的发现能力。

为达到上述目的，本发明提供了一种基于Lattice LSTM模型的中文电子病历的实体识别方法，包括以下步骤：

步骤1：对电子病历数据进行特征向量训练，获得电子病历数据的特征向量；

步骤2：基于双向Lattice LSTM编码模型，对电子病历数据的特征向量进行双向特征向量编码，获得电子病历数据的输出状态序列；

步骤3：基于CRF模型的转移特征性，对输出状态序列进行标注概率排序，获得实体识别的结果，完成实体识别。

最优选的，特征向量训练包括以下步骤：

步骤1.1：构建包含普通文本和医学专业词汇的词典组合；

步骤1.2：对所述电子病历数据进行预处理，获得预处理后的电子病历数据；

步骤1.3：基于BERT预训练语言模型，对所述预处理后的电子病历数据进行字向量训练，获得字向量训练后的具有对应字向量的电子病历数据的字特征向量；

步骤1.4：根据所述词典组合与所述预处理后的电子病历数据中的字词序列，进行词向量训练，获得所述电子病历数据向量中每个字词序列的词特征向量；

步骤1.5：将字特征向量与所述词特征向量进行特征融合，获得所述电子病历数据的特征向量。

最优选的，构建词典组合包括以下步骤：

步骤1.1.1：分别获取中文维基百科语料和医学分词词典；

步骤1.1.2：基于Word2Vec预训练语言模型，对中文维基百科语料进行jieba分词训练，获得维基百科词向量；

步骤1.1.3：对所述医学分词词典进行改善分词训练，获得医学分词词向量；

步骤1.1.4：将所述维基百科词向量与所述医学分词词向量进行词典组合，获得包含普通文本和医学专业词汇的词典组合。

最优选的，预处理包括以下步骤：

步骤1.2.1：对所述电子病历数据进行去隐私化处理，获得去除病人隐私信息的去隐私病例数据；

步骤1.2.2：对所述去隐私病例数据进行残句处理，获得处理后的电子病例数据；

步骤1.2.3：基于正则匹配方法，对所述处理后的电子病历数据进行过滤清洗，获得过滤后的电子病历数据；

步骤1.2.4：对所述过滤后的电子病历数据进行数据标注，获得预处理后的电子病历数据。

最优选的，残句处理包括补齐隐私病例数据中的缺失语句、删除隐私病例数据中的错误语句、以及对隐私病例数据中过长的语句进行分句。

最优选的，字向量训练包括以下步骤：

步骤1.3.1：读取将所述预处理后的电子病历数据中的字符序列；

步骤1.3.2：所述BERT预训练语言模型将所述字词序列一一进行字符映射，获得所述BERT预训练语言模型的词输入向量；

步骤1.3.3：对所述词输入向量进行特征训练，输出所述字特征向量。

最优选的，双向特征向量编码包括以下步骤：

步骤2.1：基于sigmoid激活函数和Lattice LSTM编码模型，对电子病历数据的特征向量进行字向量编码，获得电子病历数据的字输出向量；

步骤2.2：基于Lattice LSTM编码模型，对电子病历数据的特征向量进行词向量编码，获得电子病历数据的词输出向量；

步骤2.3：根据所述词输出向量和所述电子病历数据的特征向量，进行特征向量融合，获得电子病历数据的更新特征向量；

步骤2.4：基于Lattice LSTM编码模型，对所述更新特征向量和电子病历数据的特征向量，分别进行隐藏层单向编码和反向编码，分别获得电子病历数据的单向特征向量和反向特征向量；

步骤2.5：将所述单向特征向量与所述反向特征向量进行向量拼接，获得所述电子病历数据的双向特征向量，从而计算出所述电子病历数据的输出状态序列H。

最优选的，字向量编码包括以下步骤：

步骤2.1.1：基于sigmoid激活函数和Lattice LSTM编码模型，对特征向量中的字特征向量进行编码，获得每个索引位置的输入门、每个索引位置的遗忘门、每个索引位置的输出门和每个索引位置的候选值；

步骤2.1.2：根据所述每个索引位置的输入门、每个索引位置的遗忘门和每个索引位置的候选值，计算每个索引位置的记忆单元；

步骤2.1.3：根据每个索引位置的输出门和所述每个索引位置的记忆单元，计算出电子病历数据的每个索引位置的字输出向量。

最优选的，特征向量融合包括以下步骤：

步骤2.3.1：将电子病历数据的特征向量与所述词输出向量进行向量融合，获得词输出向量的门控单元；

步骤2.3.2：根据所述词输出向量的门控单元和电子病历数据的特征向量，分别进行字粒度信息和词粒度信息的归一化权重计算，分别获得每个索引位置的字粒度权重和每个索引位置的词粒度权重；

步骤2.3.3：根据所述每个索引位置的字粒度权重和每个索引位置的词粒度权重，对所述电子病历数据的词输出向量和电子病历数据的特征向量进行向量更新，计算出每个索引位置的更新特征向量。

最优选的，标注概率排序包括以下步骤：

步骤3.1：对所述输出状态序列进行实体序列标注，获得输出状态序列中字句标签的概率；

步骤3.2：基于维特比算法，计算所述输出状态序列中每字句的概率最大的标注序列，作为实体识别的结果，完成实体识别。

运用此发明，解决了传统中文电子病历命名实体识别存在的不足，通过LatticeLSTM模型利用了显性的词信息，使用BERT预训练语言模型融合了字的上下文相关表示，表征字的多义性，引入医学领域的外部词典资源，不仅提升了模型的识别效果，对未登录词也有一定的发现能力。

相对于现有技术，本发明具有以下有益效果：

1、本发明提供的实体识别方法，采用Lattice LSTM模型，利用上下文中词语的潜在语义信息，有效地避免了分词带来的传播误差。

2、本发明提供的实体识别方法，基于BERT语言模型预训练字向量，可以充分学习语料的字符级、词级、句子级及句间关系特征，为输入文本的每个字词生成基于当前语境上下文的动态词嵌入向量，解决了传统词嵌入方法将不同语境中的同一单词映射到相同语义空间的问题，提升了语义消歧能力。

3、本发明提供的实体识别方法，利用医学相关的外部词典可以强化神经网络对各类命名实体的认知能力，从而弥补在实验数据规模上的不足，同时可以缓解一词多义的问题。

附图说明

图1为本发明提供的实体识别方法流程图；

图2为本发明提供的BERT预训练语言模型的结构示意图；

图3为本发明提供的Lattice LSTM模型的结构示意图。

具体实施方式

以下结合附图通过具体实施例对本发明作进一步的描述，这些实施例仅用于说明本发明，并不是对本发明保护范围的限制。

本发明提供了一种基于Lattice LSTM模型的中文电子病历的实体识别方法，如图1所示，包括以下步骤：

步骤1：获取中文的电子病历数据，并对所述电子病历数据进行特征向量训练，获得电子病历数据的特征向量。

其中，所述特征向量训练包括以下步骤：

步骤1.1：构建包含普通文本和医学专业词汇的词典组合D；其中，构建所述词典组合包括以下步骤：

步骤1.1.1：分别获取中文维基百科语料和北京大学开放数据平台的医学分词词典；

步骤1.1.2：基于Word2Vec预训练语言模型，对中文维基百科语料进行结巴(jieba)分词训练，获得维基百科词向量；

步骤1.1.3：对所述医学分词词典进行改善分词训练，获得医学分词词向量；在本实施例中，改善分词训练包括以下步骤：

步骤1.1.3.1、由于医学分词词典包括疾病、症状、检查、药物、手术治疗5个类别，由于该医学词典和本发明所述的实体类别不完全一致，因此需要稍微的修改该医学分词词典。

步骤1.1.3.2、根据医学知识可知，药物也属于某些疾病的治疗手段，因此可以将医学词典中的药物和手术治疗归为本发明的所述的治疗(TREATMENT)这一实体类别。

步骤1.1.3.3、该医学分词词典中并没有身体部位这一类别，本发明通过将语料数据中已标注的身体部位这一实体类别组合成身体部位的部分词典，就此本发明所需要医学分词词典构建完成。

步骤1.1.3.4、将上述构建完成的医学分词词典特征用一个二值化向量表示，设定c_i与w之间的映射关系：

w＝c₁c₂...c_k，1≤i≤k。dict为预先定义的字典，当w∈dict时，有c_i∈dict。定义如下词典特征描述函数，不同的值表示一个字c不同的词典特征状态：

则字c的词典向量表示表示为[b₁(c),b₂(c),b₃(c),b₄(c),b₅(c)]。

步骤1.1.4：将所述维基百科词向量与所述医学分词词向量进行词典组合，获得包含普通文本和医学专业词汇的词典组合D。

步骤1.2：对所述电子病历数据进行预处理，获得预处理后的电子病历数据。

其中，其中，所述预处理包括以下步骤：

步骤1.2.1：对所述电子病历数据进行去隐私化处理，获得去除病人隐私信息的去隐私病例数据，以保证病人的个人信息不被泄露。

步骤1.2.2：去隐私病例数据会存在语句不通顺或过长的问题，会导致去隐私病例数据中的语句失去原本意义；对所述去隐私病例数据进行残句处理，获得处理后的电子病例数据。

其中，残句处理包括补齐所述隐私病例数据中的缺失语句、删除所述隐私病例数据中的错误语句、以及对所述隐私病例数据中过长的语句进行分句。

步骤1.2.3：基于正则匹配方法，对所述处理后的电子病历数据进行过滤清洗，将所述处理后的电子病历数据中的非文本内容过滤掉，获得过滤后的电子病历数据。

在本实施例中，将处理后的原始医学文本数据和对应的标注数据，采用BIO标注体系，转换为程序能够识别的格式。BIO标注体系包含11种实体标签分别如下：O、B-SIGNS、I-SIGNS、B-CHECK、I-CHECK、B-DISEASE、I-DISEASE、B-TREATMENT、I-TREATMENT、B-BODY、I-BODY，(即包括非实体、症状和体征、检查和检验、疾病和诊断、治疗、身体部位)，其中O表示非实体，B-表示实体的开始，I-表示实体的中间部分。

例如，“双侧瞳孔正大等圆，对光反射灵敏。”其标注后的结果为：“双B-BODY、侧I-BODY、瞳I-BODY、孔I-BODY、正B-SIGNS、大I-SIGNS、等I-SIGNS、圆I-SIGNS、，O、对B-CHECK、光I-CHECK、反I-CHECK、射I-CHECK、灵O、，敏O、。O”

还需要将实体标签转化为数字形式，即{"O":0,"B-SIGNS":1,"I-SIGNS":2,"B-CHECK":3,"I-CHECK":4,"B-DISEASE":5,"I-DISEASE":6,"B-TREATMENT":7,"I-TREATMENT":8,"B-BODY":9,"I-BODY":10}。

步骤1.3：传统的Word2Vec预训练语言模型进行训练产生的词向量为单纯的上下文无关的静态向量，无法根据上下文很好地表示字词的多义性，故选用BERT预训练语言模型；相较于传统的Word2Vec预训练语言模型，BERT预训练语言模型的泛化能力更强；基于BERT预训练语言模型，对所述预处理后的电子病历数据进行字向量训练，获得字向量训练后的具有对应字向量的电子病历数据的字特征向量

其中，所述字向量训练包括以下步骤：

步骤1.3.1：所述BERT预训练语言模型读取将所述预处理后的电子病历数据中的字符序列；所述预处理后的电子病历数据中的字符序列为s，且满足：

s＝[c₁,c₂,c₃,…c_n]

其中，c_j表示字符序列中第j个字，且j＝1,2,3,…,n；

步骤1.3.2：所述BERT预训练语言模型通过词向量(Token Embedding)、句向量(Segment Embedding)和位置向量(Position Embedding)三个向量，将所述字词序列s中的每个字c_j一一进行字符映射，获得所述BERT预训练语言模型的词输入向量E₁...E_N，N为输入字词序列s的长度；

步骤1.3.3：如图2所示，所述BERT预训练语言模型采用双向特征抽取器(Transformer)作为编码器，对所述词输入向量E₁...E_N进行特征训练，输出根据上下文不同而不断变化的动态第j个字的字特征向量

c为字特征向量标志。

其中，模型训练是通过掩码(mask)语料中15％的token左右，同时进行Transformer编码操作，使得所述词输入向量E₁...E_N中的每个字符均融合左右两边的信息，而并非简单的从左至右或从右至左进行编码操作，从而获得电子病历数据的字特征向量

步骤1.4：根据所述词典组合D与所述预处理后的电子病历数据中的字词序列s，进行词向量训练，获得所述电子病历数据向量中每个字词序列w_b,e从开始字索引b至结束字索引e中第w个字(索引位置)的词特征向量

w为词特征向量标志，b为字词开始匹配位置的开始字索引，e为字词结束匹配位置的结束字索引。

步骤1.5：将BERT预训练语言模型语言训练后的电子病历数据向量中的字特征向量

与所述电子病历数据向量中每个字词序列w_b,e的词特征向量

进行特征融合，获得所述电子病历数据的特征向量。

步骤2：Lattice LSTM编码模型为基于字符的LSTM-CRF模型改进后的优化模型，在LSTM-CRF模型的基础上加入了新的词序列信息和用于控制信息流的附加门。

基于双向Lattice LSTM编码模型，对所述电子病历数据的特征向量进行双向特征向量编码，获得电子病历数据的输出状态序列H。

其中，所述双向特征向量编码包括以下步骤：

步骤2.1：当输入的电子病历数据的特征向量中的字符在词典中不存在任何以它结尾的词时，Lattice LSTM模型中单元的传递就会和正常的长短时记忆模型一样；

基于sigmoid激活函数和Lattice LSTM编码模型，对电子病历数据的特征向量中的字特征向量

进行字向量编码，获得电子病历数据的第j个字(索引位置)的字输出向量

其中，所述字向量编码包括以下步骤：

步骤2.1.1：基于sigmoid激活函数和Lattice LSTM编码模型中的tanh层，对第j个字的字特征向量

进行编码，获得第j个索引位置的输入门

第j个索引位置的遗忘门

第j个索引位置的输出门

和第j个索引位置的候选值

且满足：

其中，W^cT和b^c均为Lattice LSTM编码模型参数，σ为sigmoid激活函数，tanh为双曲线正切激活函数；

为第j-1个字的字输出向量；

步骤2.1.2：根据所述第j个索引位置的输入门

控制的当前信息、第j个索引位置的遗忘门

控制的历史信息和第j个索引位置的候选值

计算

第j个索引位置的记忆单元

且满足：

其中，

为第j-1个索引位置的记忆单元；

步骤2.1.3：根据所述第j个索引位置的输出门

和所述第j个索引位置的记忆单元

计算出第j个索引位置的字输出向量

且满足：

步骤2.2：基于Lattice LSTM编码模型，对电子病历数据的特征向量中的词特征向量

进行词向量编码，获得电子病历数据的从开始字索引b至结束字索引e中第w个字(索引位置)的词输出向量

且满足：

其中，

为从开始字索引b至结束字索引e的一系列字词序列s中第w-1个索引位置的词输出向量；

和b^w均为Lattice LSTM编码模型参数；

和

分别为字词序列s中开始字索引b在字符BiLSTM模型中输出的隐藏信息和全局信息；

为从开始字索引b至结束字索引e的一系列字词序列s中第w个索引位置的输入门；

为从开始字索引b至结束字索引e的一系列字词序列s中第w个索引位置的遗忘门。

同时，上述从开始字索引b至结束字索引e的一系列字词序列s中第w个索引位置的输入门

和第w个索引位置的遗忘门

与上述步骤2.1.1中基于sigmoid激活函数计算的第j个索引位置的输入门

和第j个索引位置的遗忘门

计算方法一致，在此不做赘述。

而且，该模型实际上是一个基于字向量的模型，实体标签仅存于字级别，因此词单元结构上不用考虑输出门。步骤2.3：根据从开始字索引b至结束字索引e中第w个字(索引位置)的词输出向量

和第j个字的字特征向量

进行特征向量融合，获得第j个字(索引位置)的更新特征向量

其中，所述特征向量融合包括以下步骤：

步骤2.3.1：将电子病历数据中字词序列s中结束字索引e处的字特征向量

与电子病历数据的从开始字索引b至结束字索引e中第w个索引位置的词输出向量

进行向量融合，获得控制从开始字索引b至结束字索引e的一系列字词序列s中每个索引位置的词输出向量

的贡献的门控单元

且满足：

其中，

和b^l均为Lattice LSTM编码模型参数。

如图3所示，对于每一个隐含层的记忆单元

计算会受到多路径信息流的影响；在本实施例中，“慢性阻塞性肺疾病肺源性心脏病”这句话中第一个“病”(索引位置为8)字匹配对应的词语有“肺疾病”和“疾病”，即“病”这个字符的门控单元

的计算会受到字特征向量

和门控单元

以及上一隐含层输出的影响。

步骤2.3.2：根据从开始字索引b至结束字索引e的门控单元

和第j个索引位置的输入门

分别进行字粒度信息和词粒度信息的归一化权重计算，分别获得第j个字(索引位置)的字粒度权重

和从开始字索引b至结束字索引为j的词粒度权重

且分别满足：

其中，

为从开始字索引b至结束字索引为j的门控单元；

为从开始字索引b′至结束字索引为j的门控单元；

为在词典组合D中匹配到的从开始字索引b″至结束字索引为j的词集合。

步骤2.3.3：根据所述第j个字(索引位置)的字粒度权重

和从开始字索引b至结束字索引为j的词粒度权重

对所述电子病历数据的从开始字索引b至结束字索引j中第w个字(索引位置)的词输出向量

和第j个索引位置的候选值

进行向量更新，计算出第j个字(索引位置)的更新特征向量

且满足：

其中，D为词典组合。

步骤2.4：基于Lattice LSTM编码模型，对所述第j个字(索引位置)的更新特征向量

和基于sigmoid激活函数计算获得的第j个字的字特征向量

中的所述第j个索引位置的输出门

分别进行隐藏层的单向编码和反向编码，分别获得电子病历数据的第t个句子的单向特征向量

和第t个句子的反向特征向量；

其中，所述第t个句子的单向特征向量

满足：

步骤2.5：将所述电子病历数据中第t个句子的单向特征向量

与所述电子病历数据中第t个句子的反向特征向量

进行向量拼接，获得所述电子病历数据的第t个句子的双向特征向量h_t，从而计算出所述电子病历数据的输出状态序列H；

所述电子病历数据的第t个句子的双向特征向量h_t满足：

所述电子病历数据的输出状态序列H满足：

H＝{h₁,h₂,...,h_n}。

步骤3：基于CRF模型的转移特征性，对输出状态序列H进行标注概率排序，获得实体识别的结果，完成实体识别。

其中，所述标注概率排序包括以下步骤：

步骤3.1：将所述输出状态序列H输入所述CRF模型中，对所述输出状态序列H中的每个字符进行实体序列标注，获得字句标签的概率P(y|s)，且满足：

其中，y＇表示输出的任意标签序列，

是模型针对每个l_i的权重参数，

是从l_i-1到l_i的偏置项；h′_i为待标记的句子对应的向量；y为概率最大的标签序列；

步骤3.2：基于维特比算法，计算所述输出状态序列H中每字句的概率最大的标注序列，作为实体识别的结果，完成实体识别。

本发明的工作原理：

对电子病历数据进行特征向量训练，获得电子病历数据的特征向量；基于双向Lattice LSTM编码模型，对所述特征向量进行双向特征向量编码，获得电子病历数据的输出状态序列；基于CRF模型的转移特征性，对所述输出状态序列进行标注概率排序，获得实体识别的结果，完成实体识别。

综上所述，本发明一种基于Lattice LSTM模型的中文电子病历的实体识别方法，解决了传统中文电子病历命名实体识别存在的不足，通过Lattice LSTM模型利用了显性的词信息，使用BERT预训练语言模型融合了字的上下文相关表示，表征字的多义性，引入医学领域的外部词典资源，不仅提升了模型的识别效果，对未登录词也有一定的发现能力。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于Lattice LSTM模型的中文电子病历的实体识别方法，其特征在于，包括以下步骤：

步骤2：基于双向Lattice LSTM编码模型，对所述特征向量进行双向特征向量编码，获得电子病历数据的输出状态序列；

步骤3：基于CRF模型的转移特征性，对所述输出状态序列进行标注概率排序，获得实体识别的结果，完成实体识别。

2.如权利要求1所述的基于Lattice LSTM模型的中文电子病历的实体识别方法，其特征在于，所述特征向量训练包括以下步骤：

步骤1.1：构建包含普通文本和医学专业词汇的词典组合；

步骤1.3：基于BERT预训练语言模型，对所述预处理后的电子病历数据进行字向量训练，获得电子病历数据的字特征向量；

步骤1.4：根据所述词典组合与所述字词序列，进行词向量训练，获得所述电子病历数据的词特征向量；

步骤1.5：将所述字特征向量与所述词特征向量进行特征融合，获得所述电子病历数据的特征向量。

3.如权利要求2所述的基于Lattice LSTM模型的中文电子病历的实体识别方法，其特征在于，所述构建词典组合包括以下步骤：

步骤1.1.1：分别获取中文维基百科语料和医学分词词典；

步骤1.1.4：将所述维基百科词向量与所述医学分词词向量进行词典组合，获得所述词典组合。

4.如权利要求2所述的基于Lattice LSTM模型的中文电子病历的实体识别方法，其特征在于，所述预处理包括以下步骤：

5.如权利要求4所述的基于Lattice LSTM模型的中文电子病历的实体识别方法，其特征在于，所述残句处理包括补齐隐私病例数据中的缺失语句、删除隐私病例数据中的错误语句、以及对隐私病例数据中过长的语句进行分句。

6.如权利要求2所述的基于Lattice LSTM模型的中文电子病历的实体识别方法，其特征在于，所述字向量训练包括以下步骤：

步骤1.3.2：所述BERT预训练语言模型将所述字符序列一一进行字符映射，获得所述BERT预训练语言模型的词输入向量；

7.如权利要求1所述的基于Lattice LSTM模型的中文电子病历的实体识别方法，其特征在于，所述双向特征向量编码包括以下步骤：

步骤2.1：基于sigmoid激活函数和Lattice LSTM编码模型，对所述特征向量进行字向量编码，获得电子病历数据的字输出向量；

步骤2.2：基于Lattice LSTM编码模型，对所述特征向量进行词向量编码，获得电子病历数据的词输出向量；

步骤2.3：根据所述词输出向量和所述特征向量，进行特征向量融合，获得电子病历数据的更新特征向量；

步骤2.4：基于Lattice LSTM编码模型，对所述更新特征向量和所述特征向量分别进行隐藏层单向编码和反向编码，分别获得电子病历数据的单向特征向量和反向特征向量；

步骤2.5：将所述单向特征向量与所述反向特征向量进行向量拼接，获得所述电子病历数据的双向特征向量，从而计算出所述电子病历数据的输出状态序列。

8.如权利要求7所述的基于Lattice LSTM模型的中文电子病历的实体识别方法，其特征在于，所述字向量编码包括以下步骤：

步骤2.1.1：基于sigmoid激活函数和Lattice LSTM编码模型，对所述特征向量进行编码，获得每个索引位置的输入门、每个索引位置的遗忘门、每个索引位置的输出门和每个索引位置的候选值；

步骤2.1.3：根据所述每个索引位置的输出门和所述每个索引位置的记忆单元，计算出每个索引位置的所述字输出向量。

9.如权利要求7所述的基于Lattice LSTM模型的中文电子病历的实体识别方法，其特征在于，所述特征向量融合包括以下步骤：

步骤2.3.1：将所述特征向量与所述词输出向量进行向量融合，获得所述词输出向量的门控单元；

步骤2.3.2：根据所述门控单元和所述特征向量，分别进行字粒度信息和词粒度信息的归一化权重计算，分别获得每个索引位置的字粒度权重和每个索引位置的词粒度权重；

步骤2.3.3：根据所述每个索引位置的字粒度权重和所述每个索引位置的词粒度权重，对所述词输出向量和所述特征向量进行向量更新，计算出每个索引位置的所述更新特征向量。

10.如权利要求1所述的基于Lattice LSTM模型的中文电子病历的实体识别方法，其特征在于，所述标注概率排序包括以下步骤：

步骤3.1：对所述输出状态序列进行实体序列标注，获得输出状态序列中句子标签的概率；

步骤3.2：基于维特比算法，计算所述输出状态序列中每句话的概率最大的标注序列，作为实体识别的结果，完成实体识别。