CN112151183A - 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 - Google Patents

一种基于Lattice LSTM模型的中文电子病历的实体识别方法 Download PDF

Info

Publication number
CN112151183A
CN112151183A CN202011011399.5A CN202011011399A CN112151183A CN 112151183 A CN112151183 A CN 112151183A CN 202011011399 A CN202011011399 A CN 202011011399A CN 112151183 A CN112151183 A CN 112151183A
Authority
CN
China
Prior art keywords
word
electronic medical
medical record
vector
record data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011011399.5A
Other languages
English (en)
Inventor
费若岚
高俊波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202011011399.5A priority Critical patent/CN112151183A/zh
Publication of CN112151183A publication Critical patent/CN112151183A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于Lattice LSTM模型的中文电子病历的实体识别方法,包括以下步骤:步骤1:对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;步骤2:基于双向Lattice LSTM编码模型,对所述特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;步骤3:基于CRF模型的转移特征性,对所述输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。此发明解决了传统中文电子病历命名实体识别存在的不足,通过Lattice LSTM模型利用了显性的词信息,使用BERT预训练语言模型融合了字的上下文相关表示,表征字的多义性,引入医学领域的外部词典资源,不仅提升了模型的识别效果,对未登录词也有一定的发现能力。

Description

一种基于Lattice LSTM模型的中文电子病历的实体识别方法
技术领域
本发明涉及命名实体识别技术领域,具体涉及一种基于Lattice LSTM模型的中文电子病历的实体识别方法。
背景技术
随着医疗信息的快速发展,电子医疗记录也呈现爆发式增长。大规模的电子病历记录了患者的整个医疗过程,包含患者大量的诊疗信息,是临床医学研究的重要数据来源。电子病历命名实体识别是利用计算机自动从非结构化的临床医学文本中识别并抽取与医学相关的命名实体对象,如身体部位、疾病、症状等,这些命名实体为后续医学系统构建和相关研究鉴定了工作基础。
但是,对于中文电子病历的命名实体识别,由于临床电子病历中存在较多的未登录词,给中文分词造成了很大的误差,而分词错误很大程度上影响了命名实体的识别效果。同时,由于医生的个人书写习惯,电子病历文本没有统一规范的书写格式,对于各种症状、药物等的缩写形式增加了电子病历命名实体的识别难度。
目前中文电子病历命名实体识别流行的方法主要分为:基于机器学习的方法和基于深度学习的方法。基于机器学习的方法主要包括隐马尔可夫模型(HMM)、最大熵(ME)、条件随机场(CRF),该方法将命名实体识别任务看成是一个序列标注任务,给输入句子中的每一个词语标注相应的标签,根据标签确定实体的边界位置和类型。缺点是对特征选取的质量要求较高,无法解决文本中的长依赖问题,而且无法识别未登录词。
因此,研究学者将深度学习应用到命名实体识别任务中,在英文领域效果最好的命名实体识别(NER)是BiLSTM-CRF模型,由于中英文语言特征的差异,中文文本没有类似英文文本中空格之类的标识符,中文实体识别首先要对文本进行分词,而中文电子病历中存在非常多的专业医学术语,会产生大量的分词错误从而导致在NER上的误差累加。而单纯的基于字符向量的BiLSTM-CRF模型会导致拆开很多并不该拆开的词语,从而丢失词语本来的内在信息。
基于以上存在问题,本发明考虑使用BiLSTM-CRF改进后的模型,即基于字向量的Lattice LSTM网格模型作为该发明的神经网络基模型。同时在中文电子病历的不同部分,医疗实体的类别属性有所差异,进行命名实体标注时存在分类的模糊问题,无法判断某些命名实体之间的界限。常见的有表示症状的实体经常会出现在疾病实体名中。面对这样的问题,本发明考虑在基模型的基础上结合医学领域的外部词典对多义词的多种意义进行建模,以减轻多义词的歧义,从而提高实体识别的效果。
发明内容
本发明的目的是提供一种基于Lattice LSTM模型的中文电子病历的实体识别方法。此方法旨在解决传统中文电子病历命名实体识别存在的不足,通过Lattice LSTM模型利用了显性的词信息,使用BERT预训练语言模型融合了字的上下文相关表示,表征字的多义性,引入医学领域的外部词典资源,不仅提升模型的识别效果,对未登录词也有一定的发现能力。
为达到上述目的,本发明提供了一种基于Lattice LSTM模型的中文电子病历的实体识别方法,包括以下步骤:
步骤1:对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;
步骤2:基于双向Lattice LSTM编码模型,对电子病历数据的特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;
步骤3:基于CRF模型的转移特征性,对输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。
最优选的,特征向量训练包括以下步骤:
步骤1.1:构建包含普通文本和医学专业词汇的词典组合;
步骤1.2:对所述电子病历数据进行预处理,获得预处理后的电子病历数据;
步骤1.3:基于BERT预训练语言模型,对所述预处理后的电子病历数据进行字向量训练,获得字向量训练后的具有对应字向量的电子病历数据的字特征向量;
步骤1.4:根据所述词典组合与所述预处理后的电子病历数据中的字词序列,进行词向量训练,获得所述电子病历数据向量中每个字词序列的词特征向量;
步骤1.5:将字特征向量与所述词特征向量进行特征融合,获得所述电子病历数据的特征向量。
最优选的,构建词典组合包括以下步骤:
步骤1.1.1:分别获取中文维基百科语料和医学分词词典;
步骤1.1.2:基于Word2Vec预训练语言模型,对中文维基百科语料进行jieba分词训练,获得维基百科词向量;
步骤1.1.3:对所述医学分词词典进行改善分词训练,获得医学分词词向量;
步骤1.1.4:将所述维基百科词向量与所述医学分词词向量进行词典组合,获得包含普通文本和医学专业词汇的词典组合。
最优选的,预处理包括以下步骤:
步骤1.2.1:对所述电子病历数据进行去隐私化处理,获得去除病人隐私信息的去隐私病例数据;
步骤1.2.2:对所述去隐私病例数据进行残句处理,获得处理后的电子病例数据;
步骤1.2.3:基于正则匹配方法,对所述处理后的电子病历数据进行过滤清洗,获得过滤后的电子病历数据;
步骤1.2.4:对所述过滤后的电子病历数据进行数据标注,获得预处理后的电子病历数据。
最优选的,残句处理包括补齐隐私病例数据中的缺失语句、删除隐私病例数据中的错误语句、以及对隐私病例数据中过长的语句进行分句。
最优选的,字向量训练包括以下步骤:
步骤1.3.1:读取将所述预处理后的电子病历数据中的字符序列;
步骤1.3.2:所述BERT预训练语言模型将所述字词序列一一进行字符映射,获得所述BERT预训练语言模型的词输入向量;
步骤1.3.3:对所述词输入向量进行特征训练,输出所述字特征向量。
最优选的,双向特征向量编码包括以下步骤:
步骤2.1:基于sigmoid激活函数和Lattice LSTM编码模型,对电子病历数据的特征向量进行字向量编码,获得电子病历数据的字输出向量;
步骤2.2:基于Lattice LSTM编码模型,对电子病历数据的特征向量进行词向量编码,获得电子病历数据的词输出向量;
步骤2.3:根据所述词输出向量和所述电子病历数据的特征向量,进行特征向量融合,获得电子病历数据的更新特征向量;
步骤2.4:基于Lattice LSTM编码模型,对所述更新特征向量和电子病历数据的特征向量,分别进行隐藏层单向编码和反向编码,分别获得电子病历数据的单向特征向量和反向特征向量;
步骤2.5:将所述单向特征向量与所述反向特征向量进行向量拼接,获得所述电子病历数据的双向特征向量,从而计算出所述电子病历数据的输出状态序列H。
最优选的,字向量编码包括以下步骤:
步骤2.1.1:基于sigmoid激活函数和Lattice LSTM编码模型,对特征向量中的字特征向量进行编码,获得每个索引位置的输入门、每个索引位置的遗忘门、每个索引位置的输出门和每个索引位置的候选值;
步骤2.1.2:根据所述每个索引位置的输入门、每个索引位置的遗忘门和每个索引位置的候选值,计算每个索引位置的记忆单元;
步骤2.1.3:根据每个索引位置的输出门和所述每个索引位置的记忆单元,计算出电子病历数据的每个索引位置的字输出向量。
最优选的,特征向量融合包括以下步骤:
步骤2.3.1:将电子病历数据的特征向量与所述词输出向量进行向量融合,获得词输出向量的门控单元;
步骤2.3.2:根据所述词输出向量的门控单元和电子病历数据的特征向量,分别进行字粒度信息和词粒度信息的归一化权重计算,分别获得每个索引位置的字粒度权重和每个索引位置的词粒度权重;
步骤2.3.3:根据所述每个索引位置的字粒度权重和每个索引位置的词粒度权重,对所述电子病历数据的词输出向量和电子病历数据的特征向量进行向量更新,计算出每个索引位置的更新特征向量。
最优选的,标注概率排序包括以下步骤:
步骤3.1:对所述输出状态序列进行实体序列标注,获得输出状态序列中字句标签的概率;
步骤3.2:基于维特比算法,计算所述输出状态序列中每字句的概率最大的标注序列,作为实体识别的结果,完成实体识别。
运用此发明,解决了传统中文电子病历命名实体识别存在的不足,通过LatticeLSTM模型利用了显性的词信息,使用BERT预训练语言模型融合了字的上下文相关表示,表征字的多义性,引入医学领域的外部词典资源,不仅提升了模型的识别效果,对未登录词也有一定的发现能力。
相对于现有技术,本发明具有以下有益效果:
1、本发明提供的实体识别方法,采用Lattice LSTM模型,利用上下文中词语的潜在语义信息,有效地避免了分词带来的传播误差。
2、本发明提供的实体识别方法,基于BERT语言模型预训练字向量,可以充分学习语料的字符级、词级、句子级及句间关系特征,为输入文本的每个字词生成基于当前语境上下文的动态词嵌入向量,解决了传统词嵌入方法将不同语境中的同一单词映射到相同语义空间的问题,提升了语义消歧能力。
3、本发明提供的实体识别方法,利用医学相关的外部词典可以强化神经网络对各类命名实体的认知能力,从而弥补在实验数据规模上的不足,同时可以缓解一词多义的问题。
附图说明
图1为本发明提供的实体识别方法流程图;
图2为本发明提供的BERT预训练语言模型的结构示意图;
图3为本发明提供的Lattice LSTM模型的结构示意图。
具体实施方式
以下结合附图通过具体实施例对本发明作进一步的描述,这些实施例仅用于说明本发明,并不是对本发明保护范围的限制。
本发明提供了一种基于Lattice LSTM模型的中文电子病历的实体识别方法,如图1所示,包括以下步骤:
步骤1:获取中文的电子病历数据,并对所述电子病历数据进行特征向量训练,获得电子病历数据的特征向量。
其中,所述特征向量训练包括以下步骤:
步骤1.1:构建包含普通文本和医学专业词汇的词典组合D;其中,构建所述词典组合包括以下步骤:
步骤1.1.1:分别获取中文维基百科语料和北京大学开放数据平台的医学分词词典;
步骤1.1.2:基于Word2Vec预训练语言模型,对中文维基百科语料进行结巴(jieba)分词训练,获得维基百科词向量;
步骤1.1.3:对所述医学分词词典进行改善分词训练,获得医学分词词向量;在本实施例中,改善分词训练包括以下步骤:
步骤1.1.3.1、由于医学分词词典包括疾病、症状、检查、药物、手术治疗5个类别,由于该医学词典和本发明所述的实体类别不完全一致,因此需要稍微的修改该医学分词词典。
步骤1.1.3.2、根据医学知识可知,药物也属于某些疾病的治疗手段,因此可以将医学词典中的药物和手术治疗归为本发明的所述的治疗(TREATMENT)这一实体类别。
步骤1.1.3.3、该医学分词词典中并没有身体部位这一类别,本发明通过将语料数据中已标注的身体部位这一实体类别组合成身体部位的部分词典,就此本发明所需要医学分词词典构建完成。
步骤1.1.3.4、将上述构建完成的医学分词词典特征用一个二值化向量表示,设定ci与w之间的映射关系:
Figure BDA0002697673650000061
w=c1c2...ck,1≤i≤k。dict为预先定义的字典,当w∈dict时,有ci∈dict。定义如下词典特征描述函数,不同的值表示一个字c不同的词典特征状态:
Figure BDA0002697673650000062
则字c的词典向量表示表示为[b1(c),b2(c),b3(c),b4(c),b5(c)]。
步骤1.1.4:将所述维基百科词向量与所述医学分词词向量进行词典组合,获得包含普通文本和医学专业词汇的词典组合D。
步骤1.2:对所述电子病历数据进行预处理,获得预处理后的电子病历数据。
其中,其中,所述预处理包括以下步骤:
步骤1.2.1:对所述电子病历数据进行去隐私化处理,获得去除病人隐私信息的去隐私病例数据,以保证病人的个人信息不被泄露。
步骤1.2.2:去隐私病例数据会存在语句不通顺或过长的问题,会导致去隐私病例数据中的语句失去原本意义;对所述去隐私病例数据进行残句处理,获得处理后的电子病例数据。
其中,残句处理包括补齐所述隐私病例数据中的缺失语句、删除所述隐私病例数据中的错误语句、以及对所述隐私病例数据中过长的语句进行分句。
步骤1.2.3:基于正则匹配方法,对所述处理后的电子病历数据进行过滤清洗,将所述处理后的电子病历数据中的非文本内容过滤掉,获得过滤后的电子病历数据。
步骤1.2.4:对所述过滤后的电子病历数据进行数据标注,获得预处理后的电子病历数据。
在本实施例中,将处理后的原始医学文本数据和对应的标注数据,采用BIO标注体系,转换为程序能够识别的格式。BIO标注体系包含11种实体标签分别如下:O、B-SIGNS、I-SIGNS、B-CHECK、I-CHECK、B-DISEASE、I-DISEASE、B-TREATMENT、I-TREATMENT、B-BODY、I-BODY,(即包括非实体、症状和体征、检查和检验、疾病和诊断、治疗、身体部位),其中O表示非实体,B-表示实体的开始,I-表示实体的中间部分。
例如,“双侧瞳孔正大等圆,对光反射灵敏。”其标注后的结果为:“双B-BODY、侧I-BODY、瞳I-BODY、孔I-BODY、正B-SIGNS、大I-SIGNS、等I-SIGNS、圆I-SIGNS、,O、对B-CHECK、光I-CHECK、反I-CHECK、射I-CHECK、灵O、,敏O、。O”
还需要将实体标签转化为数字形式,即{"O":0,"B-SIGNS":1,"I-SIGNS":2,"B-CHECK":3,"I-CHECK":4,"B-DISEASE":5,"I-DISEASE":6,"B-TREATMENT":7,"I-TREATMENT":8,"B-BODY":9,"I-BODY":10}。
步骤1.3:传统的Word2Vec预训练语言模型进行训练产生的词向量为单纯的上下文无关的静态向量,无法根据上下文很好地表示字词的多义性,故选用BERT预训练语言模型;相较于传统的Word2Vec预训练语言模型,BERT预训练语言模型的泛化能力更强;基于BERT预训练语言模型,对所述预处理后的电子病历数据进行字向量训练,获得字向量训练后的具有对应字向量的电子病历数据的字特征向量
Figure BDA0002697673650000071
其中,所述字向量训练包括以下步骤:
步骤1.3.1:所述BERT预训练语言模型读取将所述预处理后的电子病历数据中的字符序列;所述预处理后的电子病历数据中的字符序列为s,且满足:
s=[c1,c2,c3,…cn]
其中,cj表示字符序列中第j个字,且j=1,2,3,…,n;
步骤1.3.2:所述BERT预训练语言模型通过词向量(Token Embedding)、句向量(Segment Embedding)和位置向量(Position Embedding)三个向量,将所述字词序列s中的每个字cj一一进行字符映射,获得所述BERT预训练语言模型的词输入向量E1...EN,N为输入字词序列s的长度;
步骤1.3.3:如图2所示,所述BERT预训练语言模型采用双向特征抽取器(Transformer)作为编码器,对所述词输入向量E1...EN进行特征训练,输出根据上下文不同而不断变化的动态第j个字的字特征向量
Figure BDA0002697673650000081
c为字特征向量标志。
其中,模型训练是通过掩码(mask)语料中15%的token左右,同时进行Transformer编码操作,使得所述词输入向量E1...EN中的每个字符均融合左右两边的信息,而并非简单的从左至右或从右至左进行编码操作,从而获得电子病历数据的字特征向量
Figure BDA0002697673650000082
步骤1.4:根据所述词典组合D与所述预处理后的电子病历数据中的字词序列s,进行词向量训练,获得所述电子病历数据向量中每个字词序列wb,e从开始字索引b至结束字索引e中第w个字(索引位置)的词特征向量
Figure BDA0002697673650000083
w为词特征向量标志,b为字词开始匹配位置的开始字索引,e为字词结束匹配位置的结束字索引。
步骤1.5:将BERT预训练语言模型语言训练后的电子病历数据向量中的字特征向量
Figure BDA0002697673650000084
与所述电子病历数据向量中每个字词序列wb,e的词特征向量
Figure BDA0002697673650000085
进行特征融合,获得所述电子病历数据的特征向量。
步骤2:Lattice LSTM编码模型为基于字符的LSTM-CRF模型改进后的优化模型,在LSTM-CRF模型的基础上加入了新的词序列信息和用于控制信息流的附加门。
基于双向Lattice LSTM编码模型,对所述电子病历数据的特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列H。
其中,所述双向特征向量编码包括以下步骤:
步骤2.1:当输入的电子病历数据的特征向量中的字符在词典中不存在任何以它结尾的词时,Lattice LSTM模型中单元的传递就会和正常的长短时记忆模型一样;
基于sigmoid激活函数和Lattice LSTM编码模型,对电子病历数据的特征向量中的字特征向量
Figure BDA0002697673650000091
进行字向量编码,获得电子病历数据的第j个字(索引位置)的字输出向量
Figure BDA0002697673650000092
其中,所述字向量编码包括以下步骤:
步骤2.1.1:基于sigmoid激活函数和Lattice LSTM编码模型中的tanh层,对第j个字的字特征向量
Figure BDA0002697673650000093
进行编码,获得第j个索引位置的输入门
Figure BDA0002697673650000094
第j个索引位置的遗忘门
Figure BDA0002697673650000095
第j个索引位置的输出门
Figure BDA0002697673650000096
和第j个索引位置的候选值
Figure BDA0002697673650000097
且满足:
Figure BDA0002697673650000098
其中,WcT和bc均为Lattice LSTM编码模型参数,σ为sigmoid激活函数,tanh为双曲线正切激活函数;
Figure BDA0002697673650000099
为第j-1个字的字输出向量;
步骤2.1.2:根据所述第j个索引位置的输入门
Figure BDA00026976736500000910
控制的当前信息、第j个索引位置的遗忘门
Figure BDA00026976736500000911
控制的历史信息和第j个索引位置的候选值
Figure BDA00026976736500000912
计算
第j个索引位置的记忆单元
Figure BDA00026976736500000913
且满足:
Figure BDA00026976736500000914
其中,
Figure BDA00026976736500000915
为第j-1个索引位置的记忆单元;
步骤2.1.3:根据所述第j个索引位置的输出门
Figure BDA00026976736500000916
和所述第j个索引位置的记忆单元
Figure BDA00026976736500000917
计算出第j个索引位置的字输出向量
Figure BDA00026976736500000918
且满足:
Figure BDA00026976736500000919
步骤2.2:基于Lattice LSTM编码模型,对电子病历数据的特征向量中的词特征向量
Figure BDA00026976736500000920
进行词向量编码,获得电子病历数据的从开始字索引b至结束字索引e中第w个字(索引位置)的词输出向量
Figure BDA00026976736500000921
且满足:
Figure BDA0002697673650000101
Figure BDA0002697673650000102
其中,
Figure BDA0002697673650000103
为从开始字索引b至结束字索引e的一系列字词序列s中第w-1个索引位置的词输出向量;
Figure BDA0002697673650000104
和bw均为Lattice LSTM编码模型参数;
Figure BDA0002697673650000105
Figure BDA0002697673650000106
分别为字词序列s中开始字索引b在字符BiLSTM模型中输出的隐藏信息和全局信息;
Figure BDA0002697673650000107
为从开始字索引b至结束字索引e的一系列字词序列s中第w个索引位置的输入门;
Figure BDA0002697673650000108
为从开始字索引b至结束字索引e的一系列字词序列s中第w个索引位置的遗忘门。
同时,上述从开始字索引b至结束字索引e的一系列字词序列s中第w个索引位置的输入门
Figure BDA0002697673650000109
和第w个索引位置的遗忘门
Figure BDA00026976736500001010
与上述步骤2.1.1中基于sigmoid激活函数计算的第j个索引位置的输入门
Figure BDA00026976736500001011
和第j个索引位置的遗忘门
Figure BDA00026976736500001012
计算方法一致,在此不做赘述。
而且,该模型实际上是一个基于字向量的模型,实体标签仅存于字级别,因此词单元结构上不用考虑输出门。步骤2.3:根据从开始字索引b至结束字索引e中第w个字(索引位置)的词输出向量
Figure BDA00026976736500001013
和第j个字的字特征向量
Figure BDA00026976736500001014
进行特征向量融合,获得第j个字(索引位置)的更新特征向量
Figure BDA00026976736500001015
其中,所述特征向量融合包括以下步骤:
步骤2.3.1:将电子病历数据中字词序列s中结束字索引e处的字特征向量
Figure BDA00026976736500001016
与电子病历数据的从开始字索引b至结束字索引e中第w个索引位置的词输出向量
Figure BDA00026976736500001017
进行向量融合,获得控制从开始字索引b至结束字索引e的一系列字词序列s中每个索引位置的词输出向量
Figure BDA00026976736500001018
的贡献的门控单元
Figure BDA00026976736500001019
且满足:
Figure BDA00026976736500001020
其中,
Figure BDA00026976736500001021
和bl均为Lattice LSTM编码模型参数。
如图3所示,对于每一个隐含层的记忆单元
Figure BDA00026976736500001022
计算会受到多路径信息流的影响;在本实施例中,“慢性阻塞性肺疾病肺源性心脏病”这句话中第一个“病”(索引位置为8)字匹配对应的词语有“肺疾病”和“疾病”,即“病”这个字符的门控单元
Figure BDA0002697673650000111
的计算会受到字特征向量
Figure BDA0002697673650000112
和门控单元
Figure BDA0002697673650000113
以及上一隐含层输出的影响。
步骤2.3.2:根据从开始字索引b至结束字索引e的门控单元
Figure BDA0002697673650000114
和第j个索引位置的输入门
Figure BDA0002697673650000115
分别进行字粒度信息和词粒度信息的归一化权重计算,分别获得第j个字(索引位置)的字粒度权重
Figure BDA0002697673650000116
和从开始字索引b至结束字索引为j的词粒度权重
Figure BDA0002697673650000117
且分别满足:
Figure BDA0002697673650000118
Figure BDA0002697673650000119
其中,
Figure BDA00026976736500001110
为从开始字索引b至结束字索引为j的门控单元;
Figure BDA00026976736500001111
为从开始字索引b′至结束字索引为j的门控单元;
Figure BDA00026976736500001112
为在词典组合D中匹配到的从开始字索引b″至结束字索引为j的词集合。
步骤2.3.3:根据所述第j个字(索引位置)的字粒度权重
Figure BDA00026976736500001113
和从开始字索引b至结束字索引为j的词粒度权重
Figure BDA00026976736500001114
对所述电子病历数据的从开始字索引b至结束字索引j中第w个字(索引位置)的词输出向量
Figure BDA00026976736500001115
和第j个索引位置的候选值
Figure BDA00026976736500001116
进行向量更新,计算出第j个字(索引位置)的更新特征向量
Figure BDA00026976736500001117
且满足:
Figure BDA00026976736500001118
其中,D为词典组合。
步骤2.4:基于Lattice LSTM编码模型,对所述第j个字(索引位置)的更新特征向量
Figure BDA00026976736500001119
和基于sigmoid激活函数计算获得的第j个字的字特征向量
Figure BDA00026976736500001120
中的所述第j个索引位置的输出门
Figure BDA00026976736500001121
分别进行隐藏层的单向编码和反向编码,分别获得电子病历数据的第t个句子的单向特征向量
Figure BDA00026976736500001122
和第t个句子的反向特征向量;
其中,所述第t个句子的单向特征向量
Figure BDA00026976736500001123
满足:
Figure BDA00026976736500001124
步骤2.5:将所述电子病历数据中第t个句子的单向特征向量
Figure BDA0002697673650000121
与所述电子病历数据中第t个句子的反向特征向量
Figure BDA0002697673650000122
进行向量拼接,获得所述电子病历数据的第t个句子的双向特征向量ht,从而计算出所述电子病历数据的输出状态序列H;
所述电子病历数据的第t个句子的双向特征向量ht满足:
Figure BDA0002697673650000123
所述电子病历数据的输出状态序列H满足:
H={h1,h2,...,hn}。
步骤3:基于CRF模型的转移特征性,对输出状态序列H进行标注概率排序,获得实体识别的结果,完成实体识别。
其中,所述标注概率排序包括以下步骤:
步骤3.1:将所述输出状态序列H输入所述CRF模型中,对所述输出状态序列H中的每个字符进行实体序列标注,获得字句标签的概率P(y|s),且满足:
Figure BDA0002697673650000124
其中,y'表示输出的任意标签序列,
Figure BDA0002697673650000125
是模型针对每个li的权重参数,
Figure BDA0002697673650000126
是从li-1到li的偏置项;h′i为待标记的句子对应的向量;y为概率最大的标签序列;
步骤3.2:基于维特比算法,计算所述输出状态序列H中每字句的概率最大的标注序列,作为实体识别的结果,完成实体识别。
本发明的工作原理:
对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;基于双向Lattice LSTM编码模型,对所述特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;基于CRF模型的转移特征性,对所述输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。
综上所述,本发明一种基于Lattice LSTM模型的中文电子病历的实体识别方法,解决了传统中文电子病历命名实体识别存在的不足,通过Lattice LSTM模型利用了显性的词信息,使用BERT预训练语言模型融合了字的上下文相关表示,表征字的多义性,引入医学领域的外部词典资源,不仅提升了模型的识别效果,对未登录词也有一定的发现能力。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (10)

1.一种基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,包括以下步骤:
步骤1:对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;
步骤2:基于双向Lattice LSTM编码模型,对所述特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;
步骤3:基于CRF模型的转移特征性,对所述输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。
2.如权利要求1所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述特征向量训练包括以下步骤:
步骤1.1:构建包含普通文本和医学专业词汇的词典组合;
步骤1.2:对所述电子病历数据进行预处理,获得预处理后的电子病历数据;
步骤1.3:基于BERT预训练语言模型,对所述预处理后的电子病历数据进行字向量训练,获得电子病历数据的字特征向量;
步骤1.4:根据所述词典组合与所述字词序列,进行词向量训练,获得所述电子病历数据的词特征向量;
步骤1.5:将所述字特征向量与所述词特征向量进行特征融合,获得所述电子病历数据的特征向量。
3.如权利要求2所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述构建词典组合包括以下步骤:
步骤1.1.1:分别获取中文维基百科语料和医学分词词典;
步骤1.1.2:基于Word2Vec预训练语言模型,对中文维基百科语料进行jieba分词训练,获得维基百科词向量;
步骤1.1.3:对所述医学分词词典进行改善分词训练,获得医学分词词向量;
步骤1.1.4:将所述维基百科词向量与所述医学分词词向量进行词典组合,获得所述词典组合。
4.如权利要求2所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述预处理包括以下步骤:
步骤1.2.1:对所述电子病历数据进行去隐私化处理,获得去除病人隐私信息的去隐私病例数据;
步骤1.2.2:对所述去隐私病例数据进行残句处理,获得处理后的电子病例数据;
步骤1.2.3:基于正则匹配方法,对所述处理后的电子病历数据进行过滤清洗,获得过滤后的电子病历数据;
步骤1.2.4:对所述过滤后的电子病历数据进行数据标注,获得预处理后的电子病历数据。
5.如权利要求4所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述残句处理包括补齐隐私病例数据中的缺失语句、删除隐私病例数据中的错误语句、以及对隐私病例数据中过长的语句进行分句。
6.如权利要求2所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述字向量训练包括以下步骤:
步骤1.3.1:读取将所述预处理后的电子病历数据中的字符序列;
步骤1.3.2:所述BERT预训练语言模型将所述字符序列一一进行字符映射,获得所述BERT预训练语言模型的词输入向量;
步骤1.3.3:对所述词输入向量进行特征训练,输出所述字特征向量。
7.如权利要求1所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述双向特征向量编码包括以下步骤:
步骤2.1:基于sigmoid激活函数和Lattice LSTM编码模型,对所述特征向量进行字向量编码,获得电子病历数据的字输出向量;
步骤2.2:基于Lattice LSTM编码模型,对所述特征向量进行词向量编码,获得电子病历数据的词输出向量;
步骤2.3:根据所述词输出向量和所述特征向量,进行特征向量融合,获得电子病历数据的更新特征向量;
步骤2.4:基于Lattice LSTM编码模型,对所述更新特征向量和所述特征向量分别进行隐藏层单向编码和反向编码,分别获得电子病历数据的单向特征向量和反向特征向量;
步骤2.5:将所述单向特征向量与所述反向特征向量进行向量拼接,获得所述电子病历数据的双向特征向量,从而计算出所述电子病历数据的输出状态序列。
8.如权利要求7所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述字向量编码包括以下步骤:
步骤2.1.1:基于sigmoid激活函数和Lattice LSTM编码模型,对所述特征向量进行编码,获得每个索引位置的输入门、每个索引位置的遗忘门、每个索引位置的输出门和每个索引位置的候选值;
步骤2.1.2:根据所述每个索引位置的输入门、每个索引位置的遗忘门和每个索引位置的候选值,计算每个索引位置的记忆单元;
步骤2.1.3:根据所述每个索引位置的输出门和所述每个索引位置的记忆单元,计算出每个索引位置的所述字输出向量。
9.如权利要求7所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述特征向量融合包括以下步骤:
步骤2.3.1:将所述特征向量与所述词输出向量进行向量融合,获得所述词输出向量的门控单元;
步骤2.3.2:根据所述门控单元和所述特征向量,分别进行字粒度信息和词粒度信息的归一化权重计算,分别获得每个索引位置的字粒度权重和每个索引位置的词粒度权重;
步骤2.3.3:根据所述每个索引位置的字粒度权重和所述每个索引位置的词粒度权重,对所述词输出向量和所述特征向量进行向量更新,计算出每个索引位置的所述更新特征向量。
10.如权利要求1所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述标注概率排序包括以下步骤:
步骤3.1:对所述输出状态序列进行实体序列标注,获得输出状态序列中句子标签的概率;
步骤3.2:基于维特比算法,计算所述输出状态序列中每句话的概率最大的标注序列,作为实体识别的结果,完成实体识别。
CN202011011399.5A 2020-09-23 2020-09-23 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 Pending CN112151183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011011399.5A CN112151183A (zh) 2020-09-23 2020-09-23 一种基于Lattice LSTM模型的中文电子病历的实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011011399.5A CN112151183A (zh) 2020-09-23 2020-09-23 一种基于Lattice LSTM模型的中文电子病历的实体识别方法

Publications (1)

Publication Number Publication Date
CN112151183A true CN112151183A (zh) 2020-12-29

Family

ID=73897913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011011399.5A Pending CN112151183A (zh) 2020-09-23 2020-09-23 一种基于Lattice LSTM模型的中文电子病历的实体识别方法

Country Status (1)

Country Link
CN (1) CN112151183A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699241A (zh) * 2021-01-04 2021-04-23 山东众阳健康科技集团有限公司 一种可追溯的病历分类方法
CN112732863A (zh) * 2021-01-15 2021-04-30 清华大学 电子病历标准化切分方法
CN113191150A (zh) * 2021-05-21 2021-07-30 山东省人工智能研究院 一种多特征融合的中文医疗文本命名实体识别方法
CN113407672A (zh) * 2021-06-22 2021-09-17 珠海格力电器股份有限公司 一种命名实体识别方法、装置、存储介质及电子设备
CN115238701A (zh) * 2022-09-21 2022-10-25 北京融信数联科技有限公司 基于子词级别适应器的多领域命名实体识别方法和系统
CN115630649A (zh) * 2022-11-23 2023-01-20 南京邮电大学 一种基于生成模型的医学中文命名实体识别方法
CN117195877A (zh) * 2023-11-06 2023-12-08 中南大学 一种电子病历的词向量生成方法、系统、设备及存储介质
CN117316372A (zh) * 2023-11-30 2023-12-29 天津大学 一种基于深度学习的耳疾电子病历解析方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150032443A1 (en) * 2013-07-25 2015-01-29 Yael Karov Self-learning statistical natural language processing for automatic production of virtual personal assistants
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN110008469A (zh) * 2019-03-19 2019-07-12 桂林电子科技大学 一种多层次命名实体识别方法
CN111326226A (zh) * 2020-02-14 2020-06-23 腾讯科技(深圳)有限公司 电子病历的解析处理及显示方法、装置、设备及存储介质
CN111428502A (zh) * 2020-02-19 2020-07-17 中科世通亨奇(北京)科技有限公司 一种面向军事语料的命名实体标注方法
CN111476031A (zh) * 2020-03-11 2020-07-31 重庆邮电大学 一种基于Lattice-LSTM的改进中文命名实体识别方法
CN111523320A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种基于深度学习的中文病案分词方法
JP2020135342A (ja) * 2019-02-19 2020-08-31 国立大学法人 筑波大学 言語処理装置、言語処理方法、およびプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150032443A1 (en) * 2013-07-25 2015-01-29 Yael Karov Self-learning statistical natural language processing for automatic production of virtual personal assistants
JP2020135342A (ja) * 2019-02-19 2020-08-31 国立大学法人 筑波大学 言語処理装置、言語処理方法、およびプログラム
CN110008469A (zh) * 2019-03-19 2019-07-12 桂林电子科技大学 一种多层次命名实体识别方法
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN111326226A (zh) * 2020-02-14 2020-06-23 腾讯科技(深圳)有限公司 电子病历的解析处理及显示方法、装置、设备及存储介质
CN111428502A (zh) * 2020-02-19 2020-07-17 中科世通亨奇(北京)科技有限公司 一种面向军事语料的命名实体标注方法
CN111476031A (zh) * 2020-03-11 2020-07-31 重庆邮电大学 一种基于Lattice-LSTM的改进中文命名实体识别方法
CN111523320A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种基于深度学习的中文病案分词方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
成于思;施云涛;: "面向专业领域的中文分词方法", 计算机工程与应用, vol. 54, no. 17, 15 September 2018 (2018-09-15), pages 30 - 34 *
李灵芳;杨佳琦;李宝山;杜永兴;胡伟健;: "基于BERT的中文电子病历命名实体识别", 内蒙古科技大学学报, no. 01, 15 March 2020 (2020-03-15) *
李纲;潘荣清;毛进;操玉杰;: "整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别", 现代情报, no. 04, 30 March 2020 (2020-03-30) *
潘璀然;王青华;汤步洲;姜磊;黄勋;王理;: "基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别", 第二军医大学学报, no. 05, 20 May 2019 (2019-05-20) *
王一鸣: "文本实体识别算法研究及其在特定领域的应用", 中国优秀硕士学位论文, no. 7, 15 July 2020 (2020-07-15), pages 138 - 1593 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699241B (zh) * 2021-01-04 2022-08-26 山东众阳健康科技集团有限公司 一种可追溯的病历分类方法
CN112699241A (zh) * 2021-01-04 2021-04-23 山东众阳健康科技集团有限公司 一种可追溯的病历分类方法
CN112732863B (zh) * 2021-01-15 2022-12-23 清华大学 电子病历标准化切分方法
CN112732863A (zh) * 2021-01-15 2021-04-30 清华大学 电子病历标准化切分方法
CN113191150A (zh) * 2021-05-21 2021-07-30 山东省人工智能研究院 一种多特征融合的中文医疗文本命名实体识别方法
CN113191150B (zh) * 2021-05-21 2022-02-25 山东省人工智能研究院 一种多特征融合的中文医疗文本命名实体识别方法
WO2022242074A1 (zh) * 2021-05-21 2022-11-24 山东省人工智能研究院 一种多特征融合的中文医疗文本命名实体识别方法
CN113407672A (zh) * 2021-06-22 2021-09-17 珠海格力电器股份有限公司 一种命名实体识别方法、装置、存储介质及电子设备
CN115238701A (zh) * 2022-09-21 2022-10-25 北京融信数联科技有限公司 基于子词级别适应器的多领域命名实体识别方法和系统
CN115630649A (zh) * 2022-11-23 2023-01-20 南京邮电大学 一种基于生成模型的医学中文命名实体识别方法
CN117195877A (zh) * 2023-11-06 2023-12-08 中南大学 一种电子病历的词向量生成方法、系统、设备及存储介质
CN117195877B (zh) * 2023-11-06 2024-01-30 中南大学 一种电子病历的词向量生成方法、系统、设备及存储介质
CN117316372A (zh) * 2023-11-30 2023-12-29 天津大学 一种基于深度学习的耳疾电子病历解析方法
CN117316372B (zh) * 2023-11-30 2024-04-09 天津大学 一种基于深度学习的耳疾电子病历解析方法

Similar Documents

Publication Publication Date Title
CN112151183A (zh) 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
CN111613339B (zh) 一种基于深度学习的相似病历查找方法与系统
CN111709243B (zh) 一种基于深度学习的知识抽取方法与装置
CN110335653B (zh) 基于openEHR病历格式的非标准病历解析方法
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
WO2023029502A1 (zh) 基于问诊会话构建用户画像的方法、装置、设备和介质
CN111950283B (zh) 面向大规模医疗文本挖掘的中文分词和命名实体识别系统
Rizvi et al. Optical character recognition system for Nastalique Urdu-like script languages using supervised learning
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
CN115859914A (zh) 基于病历语义理解的诊断icd自动编码方法及系统
Hsu et al. Multi-label classification of ICD coding using deep learning
Adduru et al. Towards Dataset Creation And Establishing Baselines for Sentence-level Neural Clinical Paraphrase Generation and Simplification.
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
Sidnyaev et al. Formal grammar theory in recognition methods of unknown objects
Zhang et al. Research on named entity recognition of chinese electronic medical records based on multi-head attention mechanism and character-word information fusion
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及系统
Siddalingappa et al. Bi-directional long short term memory using recurrent neural network for biological entity recognition
CN116341557A (zh) 一种糖尿病医学文本命名实体识别方法
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN116227594A (zh) 面向多源数据的医疗行业高可信度知识图谱的构建方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114582449A (zh) 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination