CN112151183A - 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 - Google Patents
一种基于Lattice LSTM模型的中文电子病历的实体识别方法 Download PDFInfo
- Publication number
- CN112151183A CN112151183A CN202011011399.5A CN202011011399A CN112151183A CN 112151183 A CN112151183 A CN 112151183A CN 202011011399 A CN202011011399 A CN 202011011399A CN 112151183 A CN112151183 A CN 112151183A
- Authority
- CN
- China
- Prior art keywords
- word
- electronic medical
- medical record
- vector
- record data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 186
- 238000012549 training Methods 0.000 claims abstract description 57
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 238000012546 transfer Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims description 30
- 230000004927 fusion Effects 0.000 claims description 12
- 238000011282 treatment Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 230000002441 reversible effect Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 230000007547 defect Effects 0.000 abstract description 6
- 201000010099 disease Diseases 0.000 description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 12
- 239000003814 drug Substances 0.000 description 5
- 229940079593 drug Drugs 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 1
- 201000006306 Cor pulmonale Diseases 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 208000004186 Pulmonary Heart Disease Diseases 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000000968 medical method and process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于Lattice LSTM模型的中文电子病历的实体识别方法,包括以下步骤:步骤1:对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;步骤2:基于双向Lattice LSTM编码模型,对所述特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;步骤3:基于CRF模型的转移特征性,对所述输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。此发明解决了传统中文电子病历命名实体识别存在的不足,通过Lattice LSTM模型利用了显性的词信息,使用BERT预训练语言模型融合了字的上下文相关表示,表征字的多义性,引入医学领域的外部词典资源,不仅提升了模型的识别效果,对未登录词也有一定的发现能力。
Description
技术领域
本发明涉及命名实体识别技术领域,具体涉及一种基于Lattice LSTM模型的中文电子病历的实体识别方法。
背景技术
随着医疗信息的快速发展,电子医疗记录也呈现爆发式增长。大规模的电子病历记录了患者的整个医疗过程,包含患者大量的诊疗信息,是临床医学研究的重要数据来源。电子病历命名实体识别是利用计算机自动从非结构化的临床医学文本中识别并抽取与医学相关的命名实体对象,如身体部位、疾病、症状等,这些命名实体为后续医学系统构建和相关研究鉴定了工作基础。
但是,对于中文电子病历的命名实体识别,由于临床电子病历中存在较多的未登录词,给中文分词造成了很大的误差,而分词错误很大程度上影响了命名实体的识别效果。同时,由于医生的个人书写习惯,电子病历文本没有统一规范的书写格式,对于各种症状、药物等的缩写形式增加了电子病历命名实体的识别难度。
目前中文电子病历命名实体识别流行的方法主要分为:基于机器学习的方法和基于深度学习的方法。基于机器学习的方法主要包括隐马尔可夫模型(HMM)、最大熵(ME)、条件随机场(CRF),该方法将命名实体识别任务看成是一个序列标注任务,给输入句子中的每一个词语标注相应的标签,根据标签确定实体的边界位置和类型。缺点是对特征选取的质量要求较高,无法解决文本中的长依赖问题,而且无法识别未登录词。
因此,研究学者将深度学习应用到命名实体识别任务中,在英文领域效果最好的命名实体识别(NER)是BiLSTM-CRF模型,由于中英文语言特征的差异,中文文本没有类似英文文本中空格之类的标识符,中文实体识别首先要对文本进行分词,而中文电子病历中存在非常多的专业医学术语,会产生大量的分词错误从而导致在NER上的误差累加。而单纯的基于字符向量的BiLSTM-CRF模型会导致拆开很多并不该拆开的词语,从而丢失词语本来的内在信息。
基于以上存在问题,本发明考虑使用BiLSTM-CRF改进后的模型,即基于字向量的Lattice LSTM网格模型作为该发明的神经网络基模型。同时在中文电子病历的不同部分,医疗实体的类别属性有所差异,进行命名实体标注时存在分类的模糊问题,无法判断某些命名实体之间的界限。常见的有表示症状的实体经常会出现在疾病实体名中。面对这样的问题,本发明考虑在基模型的基础上结合医学领域的外部词典对多义词的多种意义进行建模,以减轻多义词的歧义,从而提高实体识别的效果。
发明内容
本发明的目的是提供一种基于Lattice LSTM模型的中文电子病历的实体识别方法。此方法旨在解决传统中文电子病历命名实体识别存在的不足,通过Lattice LSTM模型利用了显性的词信息,使用BERT预训练语言模型融合了字的上下文相关表示,表征字的多义性,引入医学领域的外部词典资源,不仅提升模型的识别效果,对未登录词也有一定的发现能力。
为达到上述目的,本发明提供了一种基于Lattice LSTM模型的中文电子病历的实体识别方法,包括以下步骤:
步骤1:对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;
步骤2:基于双向Lattice LSTM编码模型,对电子病历数据的特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;
步骤3:基于CRF模型的转移特征性,对输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。
最优选的,特征向量训练包括以下步骤:
步骤1.1:构建包含普通文本和医学专业词汇的词典组合;
步骤1.2:对所述电子病历数据进行预处理,获得预处理后的电子病历数据;
步骤1.3:基于BERT预训练语言模型,对所述预处理后的电子病历数据进行字向量训练,获得字向量训练后的具有对应字向量的电子病历数据的字特征向量;
步骤1.4:根据所述词典组合与所述预处理后的电子病历数据中的字词序列,进行词向量训练,获得所述电子病历数据向量中每个字词序列的词特征向量;
步骤1.5:将字特征向量与所述词特征向量进行特征融合,获得所述电子病历数据的特征向量。
最优选的,构建词典组合包括以下步骤:
步骤1.1.1:分别获取中文维基百科语料和医学分词词典;
步骤1.1.2:基于Word2Vec预训练语言模型,对中文维基百科语料进行jieba分词训练,获得维基百科词向量;
步骤1.1.3:对所述医学分词词典进行改善分词训练,获得医学分词词向量;
步骤1.1.4:将所述维基百科词向量与所述医学分词词向量进行词典组合,获得包含普通文本和医学专业词汇的词典组合。
最优选的,预处理包括以下步骤:
步骤1.2.1:对所述电子病历数据进行去隐私化处理,获得去除病人隐私信息的去隐私病例数据;
步骤1.2.2:对所述去隐私病例数据进行残句处理,获得处理后的电子病例数据;
步骤1.2.3:基于正则匹配方法,对所述处理后的电子病历数据进行过滤清洗,获得过滤后的电子病历数据;
步骤1.2.4:对所述过滤后的电子病历数据进行数据标注,获得预处理后的电子病历数据。
最优选的,残句处理包括补齐隐私病例数据中的缺失语句、删除隐私病例数据中的错误语句、以及对隐私病例数据中过长的语句进行分句。
最优选的,字向量训练包括以下步骤:
步骤1.3.1:读取将所述预处理后的电子病历数据中的字符序列;
步骤1.3.2:所述BERT预训练语言模型将所述字词序列一一进行字符映射,获得所述BERT预训练语言模型的词输入向量;
步骤1.3.3:对所述词输入向量进行特征训练,输出所述字特征向量。
最优选的,双向特征向量编码包括以下步骤:
步骤2.1:基于sigmoid激活函数和Lattice LSTM编码模型,对电子病历数据的特征向量进行字向量编码,获得电子病历数据的字输出向量;
步骤2.2:基于Lattice LSTM编码模型,对电子病历数据的特征向量进行词向量编码,获得电子病历数据的词输出向量;
步骤2.3:根据所述词输出向量和所述电子病历数据的特征向量,进行特征向量融合,获得电子病历数据的更新特征向量;
步骤2.4:基于Lattice LSTM编码模型,对所述更新特征向量和电子病历数据的特征向量,分别进行隐藏层单向编码和反向编码,分别获得电子病历数据的单向特征向量和反向特征向量;
步骤2.5:将所述单向特征向量与所述反向特征向量进行向量拼接,获得所述电子病历数据的双向特征向量,从而计算出所述电子病历数据的输出状态序列H。
最优选的,字向量编码包括以下步骤:
步骤2.1.1:基于sigmoid激活函数和Lattice LSTM编码模型,对特征向量中的字特征向量进行编码,获得每个索引位置的输入门、每个索引位置的遗忘门、每个索引位置的输出门和每个索引位置的候选值;
步骤2.1.2:根据所述每个索引位置的输入门、每个索引位置的遗忘门和每个索引位置的候选值,计算每个索引位置的记忆单元;
步骤2.1.3:根据每个索引位置的输出门和所述每个索引位置的记忆单元,计算出电子病历数据的每个索引位置的字输出向量。
最优选的,特征向量融合包括以下步骤:
步骤2.3.1:将电子病历数据的特征向量与所述词输出向量进行向量融合,获得词输出向量的门控单元;
步骤2.3.2:根据所述词输出向量的门控单元和电子病历数据的特征向量,分别进行字粒度信息和词粒度信息的归一化权重计算,分别获得每个索引位置的字粒度权重和每个索引位置的词粒度权重;
步骤2.3.3:根据所述每个索引位置的字粒度权重和每个索引位置的词粒度权重,对所述电子病历数据的词输出向量和电子病历数据的特征向量进行向量更新,计算出每个索引位置的更新特征向量。
最优选的,标注概率排序包括以下步骤:
步骤3.1:对所述输出状态序列进行实体序列标注,获得输出状态序列中字句标签的概率;
步骤3.2:基于维特比算法,计算所述输出状态序列中每字句的概率最大的标注序列,作为实体识别的结果,完成实体识别。
运用此发明,解决了传统中文电子病历命名实体识别存在的不足,通过LatticeLSTM模型利用了显性的词信息,使用BERT预训练语言模型融合了字的上下文相关表示,表征字的多义性,引入医学领域的外部词典资源,不仅提升了模型的识别效果,对未登录词也有一定的发现能力。
相对于现有技术,本发明具有以下有益效果:
1、本发明提供的实体识别方法,采用Lattice LSTM模型,利用上下文中词语的潜在语义信息,有效地避免了分词带来的传播误差。
2、本发明提供的实体识别方法,基于BERT语言模型预训练字向量,可以充分学习语料的字符级、词级、句子级及句间关系特征,为输入文本的每个字词生成基于当前语境上下文的动态词嵌入向量,解决了传统词嵌入方法将不同语境中的同一单词映射到相同语义空间的问题,提升了语义消歧能力。
3、本发明提供的实体识别方法,利用医学相关的外部词典可以强化神经网络对各类命名实体的认知能力,从而弥补在实验数据规模上的不足,同时可以缓解一词多义的问题。
附图说明
图1为本发明提供的实体识别方法流程图;
图2为本发明提供的BERT预训练语言模型的结构示意图;
图3为本发明提供的Lattice LSTM模型的结构示意图。
具体实施方式
以下结合附图通过具体实施例对本发明作进一步的描述,这些实施例仅用于说明本发明,并不是对本发明保护范围的限制。
本发明提供了一种基于Lattice LSTM模型的中文电子病历的实体识别方法,如图1所示,包括以下步骤:
步骤1:获取中文的电子病历数据,并对所述电子病历数据进行特征向量训练,获得电子病历数据的特征向量。
其中,所述特征向量训练包括以下步骤:
步骤1.1:构建包含普通文本和医学专业词汇的词典组合D;其中,构建所述词典组合包括以下步骤:
步骤1.1.1:分别获取中文维基百科语料和北京大学开放数据平台的医学分词词典;
步骤1.1.2:基于Word2Vec预训练语言模型,对中文维基百科语料进行结巴(jieba)分词训练,获得维基百科词向量;
步骤1.1.3:对所述医学分词词典进行改善分词训练,获得医学分词词向量;在本实施例中,改善分词训练包括以下步骤:
步骤1.1.3.1、由于医学分词词典包括疾病、症状、检查、药物、手术治疗5个类别,由于该医学词典和本发明所述的实体类别不完全一致,因此需要稍微的修改该医学分词词典。
步骤1.1.3.2、根据医学知识可知,药物也属于某些疾病的治疗手段,因此可以将医学词典中的药物和手术治疗归为本发明的所述的治疗(TREATMENT)这一实体类别。
步骤1.1.3.3、该医学分词词典中并没有身体部位这一类别,本发明通过将语料数据中已标注的身体部位这一实体类别组合成身体部位的部分词典,就此本发明所需要医学分词词典构建完成。
步骤1.1.3.4、将上述构建完成的医学分词词典特征用一个二值化向量表示,设定ci与w之间的映射关系:w=c1c2...ck,1≤i≤k。dict为预先定义的字典,当w∈dict时,有ci∈dict。定义如下词典特征描述函数,不同的值表示一个字c不同的词典特征状态:
则字c的词典向量表示表示为[b1(c),b2(c),b3(c),b4(c),b5(c)]。
步骤1.1.4:将所述维基百科词向量与所述医学分词词向量进行词典组合,获得包含普通文本和医学专业词汇的词典组合D。
步骤1.2:对所述电子病历数据进行预处理,获得预处理后的电子病历数据。
其中,其中,所述预处理包括以下步骤:
步骤1.2.1:对所述电子病历数据进行去隐私化处理,获得去除病人隐私信息的去隐私病例数据,以保证病人的个人信息不被泄露。
步骤1.2.2:去隐私病例数据会存在语句不通顺或过长的问题,会导致去隐私病例数据中的语句失去原本意义;对所述去隐私病例数据进行残句处理,获得处理后的电子病例数据。
其中,残句处理包括补齐所述隐私病例数据中的缺失语句、删除所述隐私病例数据中的错误语句、以及对所述隐私病例数据中过长的语句进行分句。
步骤1.2.3:基于正则匹配方法,对所述处理后的电子病历数据进行过滤清洗,将所述处理后的电子病历数据中的非文本内容过滤掉,获得过滤后的电子病历数据。
步骤1.2.4:对所述过滤后的电子病历数据进行数据标注,获得预处理后的电子病历数据。
在本实施例中,将处理后的原始医学文本数据和对应的标注数据,采用BIO标注体系,转换为程序能够识别的格式。BIO标注体系包含11种实体标签分别如下:O、B-SIGNS、I-SIGNS、B-CHECK、I-CHECK、B-DISEASE、I-DISEASE、B-TREATMENT、I-TREATMENT、B-BODY、I-BODY,(即包括非实体、症状和体征、检查和检验、疾病和诊断、治疗、身体部位),其中O表示非实体,B-表示实体的开始,I-表示实体的中间部分。
例如,“双侧瞳孔正大等圆,对光反射灵敏。”其标注后的结果为:“双B-BODY、侧I-BODY、瞳I-BODY、孔I-BODY、正B-SIGNS、大I-SIGNS、等I-SIGNS、圆I-SIGNS、,O、对B-CHECK、光I-CHECK、反I-CHECK、射I-CHECK、灵O、,敏O、。O”
还需要将实体标签转化为数字形式,即{"O":0,"B-SIGNS":1,"I-SIGNS":2,"B-CHECK":3,"I-CHECK":4,"B-DISEASE":5,"I-DISEASE":6,"B-TREATMENT":7,"I-TREATMENT":8,"B-BODY":9,"I-BODY":10}。
步骤1.3:传统的Word2Vec预训练语言模型进行训练产生的词向量为单纯的上下文无关的静态向量,无法根据上下文很好地表示字词的多义性,故选用BERT预训练语言模型;相较于传统的Word2Vec预训练语言模型,BERT预训练语言模型的泛化能力更强;基于BERT预训练语言模型,对所述预处理后的电子病历数据进行字向量训练,获得字向量训练后的具有对应字向量的电子病历数据的字特征向量
其中,所述字向量训练包括以下步骤:
步骤1.3.1:所述BERT预训练语言模型读取将所述预处理后的电子病历数据中的字符序列;所述预处理后的电子病历数据中的字符序列为s,且满足:
s=[c1,c2,c3,…cn]
其中,cj表示字符序列中第j个字,且j=1,2,3,…,n;
步骤1.3.2:所述BERT预训练语言模型通过词向量(Token Embedding)、句向量(Segment Embedding)和位置向量(Position Embedding)三个向量,将所述字词序列s中的每个字cj一一进行字符映射,获得所述BERT预训练语言模型的词输入向量E1...EN,N为输入字词序列s的长度;
步骤1.3.3:如图2所示,所述BERT预训练语言模型采用双向特征抽取器(Transformer)作为编码器,对所述词输入向量E1...EN进行特征训练,输出根据上下文不同而不断变化的动态第j个字的字特征向量c为字特征向量标志。
其中,模型训练是通过掩码(mask)语料中15%的token左右,同时进行Transformer编码操作,使得所述词输入向量E1...EN中的每个字符均融合左右两边的信息,而并非简单的从左至右或从右至左进行编码操作,从而获得电子病历数据的字特征向量
步骤1.4:根据所述词典组合D与所述预处理后的电子病历数据中的字词序列s,进行词向量训练,获得所述电子病历数据向量中每个字词序列wb,e从开始字索引b至结束字索引e中第w个字(索引位置)的词特征向量w为词特征向量标志,b为字词开始匹配位置的开始字索引,e为字词结束匹配位置的结束字索引。
步骤2:Lattice LSTM编码模型为基于字符的LSTM-CRF模型改进后的优化模型,在LSTM-CRF模型的基础上加入了新的词序列信息和用于控制信息流的附加门。
基于双向Lattice LSTM编码模型,对所述电子病历数据的特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列H。
其中,所述双向特征向量编码包括以下步骤:
步骤2.1:当输入的电子病历数据的特征向量中的字符在词典中不存在任何以它结尾的词时,Lattice LSTM模型中单元的传递就会和正常的长短时记忆模型一样;
其中,所述字向量编码包括以下步骤:
步骤2.1.1:基于sigmoid激活函数和Lattice LSTM编码模型中的tanh层,对第j个字的字特征向量进行编码,获得第j个索引位置的输入门第j个索引位置的遗忘门第j个索引位置的输出门和第j个索引位置的候选值且满足:
其中,为从开始字索引b至结束字索引e的一系列字词序列s中第w-1个索引位置的词输出向量;和bw均为Lattice LSTM编码模型参数;和分别为字词序列s中开始字索引b在字符BiLSTM模型中输出的隐藏信息和全局信息;为从开始字索引b至结束字索引e的一系列字词序列s中第w个索引位置的输入门;为从开始字索引b至结束字索引e的一系列字词序列s中第w个索引位置的遗忘门。
同时,上述从开始字索引b至结束字索引e的一系列字词序列s中第w个索引位置的输入门和第w个索引位置的遗忘门与上述步骤2.1.1中基于sigmoid激活函数计算的第j个索引位置的输入门和第j个索引位置的遗忘门计算方法一致,在此不做赘述。
而且,该模型实际上是一个基于字向量的模型,实体标签仅存于字级别,因此词单元结构上不用考虑输出门。步骤2.3:根据从开始字索引b至结束字索引e中第w个字(索引位置)的词输出向量和第j个字的字特征向量进行特征向量融合,获得第j个字(索引位置)的更新特征向量
其中,所述特征向量融合包括以下步骤:
步骤2.3.1:将电子病历数据中字词序列s中结束字索引e处的字特征向量与电子病历数据的从开始字索引b至结束字索引e中第w个索引位置的词输出向量进行向量融合,获得控制从开始字索引b至结束字索引e的一系列字词序列s中每个索引位置的词输出向量的贡献的门控单元且满足:
如图3所示,对于每一个隐含层的记忆单元计算会受到多路径信息流的影响;在本实施例中,“慢性阻塞性肺疾病肺源性心脏病”这句话中第一个“病”(索引位置为8)字匹配对应的词语有“肺疾病”和“疾病”,即“病”这个字符的门控单元的计算会受到字特征向量和门控单元以及上一隐含层输出的影响。
步骤2.3.2:根据从开始字索引b至结束字索引e的门控单元和第j个索引位置的输入门分别进行字粒度信息和词粒度信息的归一化权重计算,分别获得第j个字(索引位置)的字粒度权重和从开始字索引b至结束字索引为j的词粒度权重且分别满足:
步骤2.3.3:根据所述第j个字(索引位置)的字粒度权重和从开始字索引b至结束字索引为j的词粒度权重对所述电子病历数据的从开始字索引b至结束字索引j中第w个字(索引位置)的词输出向量和第j个索引位置的候选值进行向量更新,计算出第j个字(索引位置)的更新特征向量且满足:
其中,D为词典组合。
步骤2.4:基于Lattice LSTM编码模型,对所述第j个字(索引位置)的更新特征向量和基于sigmoid激活函数计算获得的第j个字的字特征向量中的所述第j个索引位置的输出门分别进行隐藏层的单向编码和反向编码,分别获得电子病历数据的第t个句子的单向特征向量和第t个句子的反向特征向量;
步骤2.5:将所述电子病历数据中第t个句子的单向特征向量与所述电子病历数据中第t个句子的反向特征向量进行向量拼接,获得所述电子病历数据的第t个句子的双向特征向量ht,从而计算出所述电子病历数据的输出状态序列H;
所述电子病历数据的第t个句子的双向特征向量ht满足:
所述电子病历数据的输出状态序列H满足:
H={h1,h2,...,hn}。
步骤3:基于CRF模型的转移特征性,对输出状态序列H进行标注概率排序,获得实体识别的结果,完成实体识别。
其中,所述标注概率排序包括以下步骤:
步骤3.1:将所述输出状态序列H输入所述CRF模型中,对所述输出状态序列H中的每个字符进行实体序列标注,获得字句标签的概率P(y|s),且满足:
步骤3.2:基于维特比算法,计算所述输出状态序列H中每字句的概率最大的标注序列,作为实体识别的结果,完成实体识别。
本发明的工作原理:
对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;基于双向Lattice LSTM编码模型,对所述特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;基于CRF模型的转移特征性,对所述输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。
综上所述,本发明一种基于Lattice LSTM模型的中文电子病历的实体识别方法,解决了传统中文电子病历命名实体识别存在的不足,通过Lattice LSTM模型利用了显性的词信息,使用BERT预训练语言模型融合了字的上下文相关表示,表征字的多义性,引入医学领域的外部词典资源,不仅提升了模型的识别效果,对未登录词也有一定的发现能力。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (10)
1.一种基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,包括以下步骤:
步骤1:对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;
步骤2:基于双向Lattice LSTM编码模型,对所述特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;
步骤3:基于CRF模型的转移特征性,对所述输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。
2.如权利要求1所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述特征向量训练包括以下步骤:
步骤1.1:构建包含普通文本和医学专业词汇的词典组合;
步骤1.2:对所述电子病历数据进行预处理,获得预处理后的电子病历数据;
步骤1.3:基于BERT预训练语言模型,对所述预处理后的电子病历数据进行字向量训练,获得电子病历数据的字特征向量;
步骤1.4:根据所述词典组合与所述字词序列,进行词向量训练,获得所述电子病历数据的词特征向量;
步骤1.5:将所述字特征向量与所述词特征向量进行特征融合,获得所述电子病历数据的特征向量。
3.如权利要求2所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述构建词典组合包括以下步骤:
步骤1.1.1:分别获取中文维基百科语料和医学分词词典;
步骤1.1.2:基于Word2Vec预训练语言模型,对中文维基百科语料进行jieba分词训练,获得维基百科词向量;
步骤1.1.3:对所述医学分词词典进行改善分词训练,获得医学分词词向量;
步骤1.1.4:将所述维基百科词向量与所述医学分词词向量进行词典组合,获得所述词典组合。
4.如权利要求2所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述预处理包括以下步骤:
步骤1.2.1:对所述电子病历数据进行去隐私化处理,获得去除病人隐私信息的去隐私病例数据;
步骤1.2.2:对所述去隐私病例数据进行残句处理,获得处理后的电子病例数据;
步骤1.2.3:基于正则匹配方法,对所述处理后的电子病历数据进行过滤清洗,获得过滤后的电子病历数据;
步骤1.2.4:对所述过滤后的电子病历数据进行数据标注,获得预处理后的电子病历数据。
5.如权利要求4所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述残句处理包括补齐隐私病例数据中的缺失语句、删除隐私病例数据中的错误语句、以及对隐私病例数据中过长的语句进行分句。
6.如权利要求2所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述字向量训练包括以下步骤:
步骤1.3.1:读取将所述预处理后的电子病历数据中的字符序列;
步骤1.3.2:所述BERT预训练语言模型将所述字符序列一一进行字符映射,获得所述BERT预训练语言模型的词输入向量;
步骤1.3.3:对所述词输入向量进行特征训练,输出所述字特征向量。
7.如权利要求1所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述双向特征向量编码包括以下步骤:
步骤2.1:基于sigmoid激活函数和Lattice LSTM编码模型,对所述特征向量进行字向量编码,获得电子病历数据的字输出向量;
步骤2.2:基于Lattice LSTM编码模型,对所述特征向量进行词向量编码,获得电子病历数据的词输出向量;
步骤2.3:根据所述词输出向量和所述特征向量,进行特征向量融合,获得电子病历数据的更新特征向量;
步骤2.4:基于Lattice LSTM编码模型,对所述更新特征向量和所述特征向量分别进行隐藏层单向编码和反向编码,分别获得电子病历数据的单向特征向量和反向特征向量;
步骤2.5:将所述单向特征向量与所述反向特征向量进行向量拼接,获得所述电子病历数据的双向特征向量,从而计算出所述电子病历数据的输出状态序列。
8.如权利要求7所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述字向量编码包括以下步骤:
步骤2.1.1:基于sigmoid激活函数和Lattice LSTM编码模型,对所述特征向量进行编码,获得每个索引位置的输入门、每个索引位置的遗忘门、每个索引位置的输出门和每个索引位置的候选值;
步骤2.1.2:根据所述每个索引位置的输入门、每个索引位置的遗忘门和每个索引位置的候选值,计算每个索引位置的记忆单元;
步骤2.1.3:根据所述每个索引位置的输出门和所述每个索引位置的记忆单元,计算出每个索引位置的所述字输出向量。
9.如权利要求7所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述特征向量融合包括以下步骤:
步骤2.3.1:将所述特征向量与所述词输出向量进行向量融合,获得所述词输出向量的门控单元;
步骤2.3.2:根据所述门控单元和所述特征向量,分别进行字粒度信息和词粒度信息的归一化权重计算,分别获得每个索引位置的字粒度权重和每个索引位置的词粒度权重;
步骤2.3.3:根据所述每个索引位置的字粒度权重和所述每个索引位置的词粒度权重,对所述词输出向量和所述特征向量进行向量更新,计算出每个索引位置的所述更新特征向量。
10.如权利要求1所述的基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,所述标注概率排序包括以下步骤:
步骤3.1:对所述输出状态序列进行实体序列标注,获得输出状态序列中句子标签的概率;
步骤3.2:基于维特比算法,计算所述输出状态序列中每句话的概率最大的标注序列,作为实体识别的结果,完成实体识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011011399.5A CN112151183A (zh) | 2020-09-23 | 2020-09-23 | 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011011399.5A CN112151183A (zh) | 2020-09-23 | 2020-09-23 | 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112151183A true CN112151183A (zh) | 2020-12-29 |
Family
ID=73897913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011011399.5A Pending CN112151183A (zh) | 2020-09-23 | 2020-09-23 | 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151183A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699241A (zh) * | 2021-01-04 | 2021-04-23 | 山东众阳健康科技集团有限公司 | 一种可追溯的病历分类方法 |
CN112732863A (zh) * | 2021-01-15 | 2021-04-30 | 清华大学 | 电子病历标准化切分方法 |
CN113191150A (zh) * | 2021-05-21 | 2021-07-30 | 山东省人工智能研究院 | 一种多特征融合的中文医疗文本命名实体识别方法 |
CN113407672A (zh) * | 2021-06-22 | 2021-09-17 | 珠海格力电器股份有限公司 | 一种命名实体识别方法、装置、存储介质及电子设备 |
CN115238701A (zh) * | 2022-09-21 | 2022-10-25 | 北京融信数联科技有限公司 | 基于子词级别适应器的多领域命名实体识别方法和系统 |
CN115630649A (zh) * | 2022-11-23 | 2023-01-20 | 南京邮电大学 | 一种基于生成模型的医学中文命名实体识别方法 |
CN117195877A (zh) * | 2023-11-06 | 2023-12-08 | 中南大学 | 一种电子病历的词向量生成方法、系统、设备及存储介质 |
CN117316372A (zh) * | 2023-11-30 | 2023-12-29 | 天津大学 | 一种基于深度学习的耳疾电子病历解析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150032443A1 (en) * | 2013-07-25 | 2015-01-29 | Yael Karov | Self-learning statistical natural language processing for automatic production of virtual personal assistants |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN110008469A (zh) * | 2019-03-19 | 2019-07-12 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
CN111326226A (zh) * | 2020-02-14 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 电子病历的解析处理及显示方法、装置、设备及存储介质 |
CN111428502A (zh) * | 2020-02-19 | 2020-07-17 | 中科世通亨奇(北京)科技有限公司 | 一种面向军事语料的命名实体标注方法 |
CN111476031A (zh) * | 2020-03-11 | 2020-07-31 | 重庆邮电大学 | 一种基于Lattice-LSTM的改进中文命名实体识别方法 |
CN111523320A (zh) * | 2020-04-20 | 2020-08-11 | 电子科技大学 | 一种基于深度学习的中文病案分词方法 |
JP2020135342A (ja) * | 2019-02-19 | 2020-08-31 | 国立大学法人 筑波大学 | 言語処理装置、言語処理方法、およびプログラム |
-
2020
- 2020-09-23 CN CN202011011399.5A patent/CN112151183A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150032443A1 (en) * | 2013-07-25 | 2015-01-29 | Yael Karov | Self-learning statistical natural language processing for automatic production of virtual personal assistants |
JP2020135342A (ja) * | 2019-02-19 | 2020-08-31 | 国立大学法人 筑波大学 | 言語処理装置、言語処理方法、およびプログラム |
CN110008469A (zh) * | 2019-03-19 | 2019-07-12 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN111326226A (zh) * | 2020-02-14 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 电子病历的解析处理及显示方法、装置、设备及存储介质 |
CN111428502A (zh) * | 2020-02-19 | 2020-07-17 | 中科世通亨奇(北京)科技有限公司 | 一种面向军事语料的命名实体标注方法 |
CN111476031A (zh) * | 2020-03-11 | 2020-07-31 | 重庆邮电大学 | 一种基于Lattice-LSTM的改进中文命名实体识别方法 |
CN111523320A (zh) * | 2020-04-20 | 2020-08-11 | 电子科技大学 | 一种基于深度学习的中文病案分词方法 |
Non-Patent Citations (5)
Title |
---|
成于思;施云涛;: "面向专业领域的中文分词方法", 计算机工程与应用, vol. 54, no. 17, 15 September 2018 (2018-09-15), pages 30 - 34 * |
李灵芳;杨佳琦;李宝山;杜永兴;胡伟健;: "基于BERT的中文电子病历命名实体识别", 内蒙古科技大学学报, no. 01, 15 March 2020 (2020-03-15) * |
李纲;潘荣清;毛进;操玉杰;: "整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别", 现代情报, no. 04, 30 March 2020 (2020-03-30) * |
潘璀然;王青华;汤步洲;姜磊;黄勋;王理;: "基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别", 第二军医大学学报, no. 05, 20 May 2019 (2019-05-20) * |
王一鸣: "文本实体识别算法研究及其在特定领域的应用", 中国优秀硕士学位论文, no. 7, 15 July 2020 (2020-07-15), pages 138 - 1593 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699241B (zh) * | 2021-01-04 | 2022-08-26 | 山东众阳健康科技集团有限公司 | 一种可追溯的病历分类方法 |
CN112699241A (zh) * | 2021-01-04 | 2021-04-23 | 山东众阳健康科技集团有限公司 | 一种可追溯的病历分类方法 |
CN112732863B (zh) * | 2021-01-15 | 2022-12-23 | 清华大学 | 电子病历标准化切分方法 |
CN112732863A (zh) * | 2021-01-15 | 2021-04-30 | 清华大学 | 电子病历标准化切分方法 |
CN113191150A (zh) * | 2021-05-21 | 2021-07-30 | 山东省人工智能研究院 | 一种多特征融合的中文医疗文本命名实体识别方法 |
CN113191150B (zh) * | 2021-05-21 | 2022-02-25 | 山东省人工智能研究院 | 一种多特征融合的中文医疗文本命名实体识别方法 |
WO2022242074A1 (zh) * | 2021-05-21 | 2022-11-24 | 山东省人工智能研究院 | 一种多特征融合的中文医疗文本命名实体识别方法 |
CN113407672A (zh) * | 2021-06-22 | 2021-09-17 | 珠海格力电器股份有限公司 | 一种命名实体识别方法、装置、存储介质及电子设备 |
CN115238701A (zh) * | 2022-09-21 | 2022-10-25 | 北京融信数联科技有限公司 | 基于子词级别适应器的多领域命名实体识别方法和系统 |
CN115630649A (zh) * | 2022-11-23 | 2023-01-20 | 南京邮电大学 | 一种基于生成模型的医学中文命名实体识别方法 |
CN117195877A (zh) * | 2023-11-06 | 2023-12-08 | 中南大学 | 一种电子病历的词向量生成方法、系统、设备及存储介质 |
CN117195877B (zh) * | 2023-11-06 | 2024-01-30 | 中南大学 | 一种电子病历的词向量生成方法、系统、设备及存储介质 |
CN117316372A (zh) * | 2023-11-30 | 2023-12-29 | 天津大学 | 一种基于深度学习的耳疾电子病历解析方法 |
CN117316372B (zh) * | 2023-11-30 | 2024-04-09 | 天津大学 | 一种基于深度学习的耳疾电子病历解析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112151183A (zh) | 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 | |
CN111613339B (zh) | 一种基于深度学习的相似病历查找方法与系统 | |
CN111709243B (zh) | 一种基于深度学习的知识抽取方法与装置 | |
CN110335653B (zh) | 基于openEHR病历格式的非标准病历解析方法 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN106844351B (zh) | 一种面向多数据源的医疗机构组织类实体识别方法及装置 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
WO2023029502A1 (zh) | 基于问诊会话构建用户画像的方法、装置、设备和介质 | |
CN111950283B (zh) | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 | |
Rizvi et al. | Optical character recognition system for Nastalique Urdu-like script languages using supervised learning | |
CN113707339B (zh) | 一种多源异质数据库间概念对齐与内容互译方法及系统 | |
CN115859914A (zh) | 基于病历语义理解的诊断icd自动编码方法及系统 | |
Hsu et al. | Multi-label classification of ICD coding using deep learning | |
Adduru et al. | Towards Dataset Creation And Establishing Baselines for Sentence-level Neural Clinical Paraphrase Generation and Simplification. | |
CN115545021A (zh) | 一种基于深度学习的临床术语识别方法与装置 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
Sidnyaev et al. | Formal grammar theory in recognition methods of unknown objects | |
Zhang et al. | Research on named entity recognition of chinese electronic medical records based on multi-head attention mechanism and character-word information fusion | |
CN117152770A (zh) | 一种面向手写输入的书写能力智能评测方法及系统 | |
Siddalingappa et al. | Bi-directional long short term memory using recurrent neural network for biological entity recognition | |
CN116341557A (zh) | 一种糖尿病医学文本命名实体识别方法 | |
CN116108840A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN116227594A (zh) | 面向多源数据的医疗行业高可信度知识图谱的构建方法 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN114582449A (zh) | 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |