CN112949308A - 基于功能结构的中文电子病历命名实体识别方法及系统 - Google Patents
基于功能结构的中文电子病历命名实体识别方法及系统 Download PDFInfo
- Publication number
- CN112949308A CN112949308A CN202110212911.0A CN202110212911A CN112949308A CN 112949308 A CN112949308 A CN 112949308A CN 202110212911 A CN202110212911 A CN 202110212911A CN 112949308 A CN112949308 A CN 112949308A
- Authority
- CN
- China
- Prior art keywords
- electronic medical
- functional structure
- medical record
- entity
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000002372 labelling Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 230000000694 effects Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000003745 diagnosis Methods 0.000 claims description 20
- 238000011282 treatment Methods 0.000 claims description 20
- 208000028659 discharge Diseases 0.000 claims description 17
- 239000003814 drug Substances 0.000 claims description 12
- 201000010099 disease Diseases 0.000 claims description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 11
- 229940079593 drug Drugs 0.000 claims description 11
- 208000024891 symptom Diseases 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 239000000470 constituent Substances 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000005065 mining Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 235000016709 nutrition Nutrition 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 206010000060 Abdominal distension Diseases 0.000 description 1
- 206010013700 Drug hypersensitivity Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 208000025865 Ulcer Diseases 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 208000024330 bloating Diseases 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 201000005311 drug allergy Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 230000023597 hemostasis Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000009206 nuclear medicine Methods 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- DWAFYCQODLXJNR-BNTLRKBRSA-L oxaliplatin Chemical compound O1C(=O)C(=O)O[Pt]11N[C@@H]2CCCC[C@H]2N1 DWAFYCQODLXJNR-BNTLRKBRSA-L 0.000 description 1
- 229960001756 oxaliplatin Drugs 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- WFWLQNSHRPWKFK-ZCFIWIBFSA-N tegafur Chemical compound O=C1NC(=O)C(F)=CN1[C@@H]1OCCC1 WFWLQNSHRPWKFK-ZCFIWIBFSA-N 0.000 description 1
- 229960001674 tegafur Drugs 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 231100000397 ulcer Toxicity 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于功能结构的中文电子病历命名实体识别方法及系统,该方法包括以下步骤:获取电子病历数据,对电子病历数据进行结构化处理;依据功能结构,对结构化的数据进行内容抽取;对抽取的各功能结构内容进行人工标注,并分为训练集和测试集;利用各功能结构下的训练集训练BiLSTM‑CRF模型;通过测试集验证各模型效果并对模型进行调优,最后利用模型对未标注文本进行命名实体识别。本发明将中文电子病历文本的内容结构及其功能内涵作为医疗命名实体标注和识别的基本依据,创新了医疗实体标注策略,结合深度神经网络和统计机器学习方法实现了医疗命名实体识别,提高医疗命名实体识别的准确度,为电子病历术语规范化和后续文本挖掘工作提供参考。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于功能结构的中文电子病历命名实体识别方法及系统。
背景技术
电子病历作为患者人口统计学信息诊断、实验室测试结果、药物处方和临床记录的重要载体,蕴含着丰富的医疗信息与专家知识,日益成为文本挖掘领域的研究热点。而进行中文电子病历文本研究,首要解决的基础性工作就是医疗实体识别。医疗实体是医疗文本中用于描述患者详细病情、症状、用药和治疗情况等的概念;医疗实体识别,即自动识别和分类病例中的医疗实体,为分词、向量化等后续文本处理工作打下基础。
已有的命名实体识别方法主要包括基于规则的方法、基于词典的方法、统计机器学习方法和深度学习方法。其中基于BiLSTM-CRF的深度学习模型是应用于电子病历命名实体识别的主流模型,该模型依靠BiLSTM层实现上下文特征提取,再由CRF层从所有可能的标记路径解码出最优预测集。该方法考虑了上下文语境,从而有效提升了命名实体识别准确度。但值得注意的是,区别于一般性中文文本,电子病历具有一定的结构化或模块化特征,语言模式化也较强,不同模块内的同一词汇、术语或实体代表了不同的语义内涵或功能作用。而已有的实体识别方法大多忽略了上述特征,降低了命名实体识别的语义准确性,因此需要针对中文电子病历的特点对命名实体识别方法加以改进与应用。
发明内容
本发明的目的在于,提供一种基于功能结构的中文电子病历命名实体识别方法及系统,从电子病历的内容模块、功能结构入手,改进医疗实体标注的策略与框架,弥补当前电子病历命名实体识别研究中对电子病历领域特性考虑不足的问题,有效保留实体蕴含的功能结构信息,进一步提升面向临床电子病历的命名实体识别模型的效果。
本发明提供一种基于功能结构的中文电子病历命名实体识别方法,包括以下步骤:
S1、获取电子病历数据,对电子病历数据进行结构化处理;
S2、依据功能结构,对结构化的数据进行内容抽取;
S3、对抽取的各功能结构内容进行人工标注,并分为训练集和测试集;
S4、利用各功能结构下的训练集训练BiLSTM-CRF模型;
S5、通过测试集验证各模型效果并对模型进行调优,最后利用模型对未标注文本进行命名实体识别。
进一步地,电子病历数据为电子病历中的临床住院记录,包括入院情况、入院诊断、治疗经过、出院情况和出院诊断。
进一步地,步骤S2包括:
S21、确定功能结构,包括入院情况、入院诊断、治疗经过、出院情况和出院诊断五个模块;
S22、根据模块对结构化的电子病历数据进行内容抽取。
进一步地,步骤S3中,采用YEDDA标注工具进行人工标注,将实体类型信息和实体边界信息组合形成完整的标注体系,将识别任务转化为字粒度的标记。
进一步地,实体类型包括:症状(SYMPTOM)、身体部位(BODY)、化验和检查(TEST&
&EXAMINATION)、疾病(DISEASE)、体征(SIGN)、治疗(TREATMENT)、药物(DRUG)。
进一步地,实体边界界定采用BIO标注模式,其定义如下:B表示实体首部字,I表示实体内部字,O表示非实体构成字。
进一步地,步骤S4包括:
S41、加载字向量表,获得语料中每个字符的字向量表示,生成训练用的字向量矩阵;
S42、将字向量矩阵作为模型输入,通过BiLSTM层实现上下文信息特征提取,经tanh层输出字符对应各标签的置信度;
S43、利用CRF层在所有可能标记路径中解码出最优标记集。
进一步地,S51、将测试集对应的原始文本输入到模型进行预测,输出对应的标签预测
结果;
S52、对比预测结果与测试集人工标注结果,计算正确率、召回率、F值三个指标;
S53、根据F值结果调优BiLSTM-CRF模型参数;
S54、将调优后的模型应用到未标注数据样本上实现命名实体的自动识别。
进一步地,该方法还包括步骤:
S6、对电子病历各功能结构下文本字符及其标签进行实体合并和统计,构建出电子病历功能结构下的命名实体集。
本发明还提供一种实现上述基于功能结构的中文电子病历命名实体识别方法的系统,包括:
数据获取模块,用于获取电子病历数据,对电子病历数据进行结构化处理;
内容抽取模块,用于依据功能结构,对结构化的数据进行内容抽取;
人工标注模块,用于对抽取的各功能结构内容进行人工标注,并分为训练集和测试集;
模型训练模块,用于利用各功能结构下的训练集训练BiLSTM-CRF模型;
实体识别模块,用于通过测试集验证各模型效果并对模型进行调优,最后利用模型对未标注文本进行命名实体识别。
本发明的有益效果是:本发明的基于功能结构的中文电子病历命名实体识别方法及系统,将中文电子病历文本的内容结构及其功能内涵作为医疗命名实体标注和识别的基本依据,创新了医疗实体标注策略,结合深度神经网络和统计机器学习方法实现了医疗命名实体识别,提高医疗命名实体识别的准确度,同时实现了医疗实体信息语义增强,系统的构建也有助于探究电子病历术语组成,为电子病历术语规范化和后续文本挖掘工作提供了参考。
附图说明
图1是本发明的基于功能结构的中文电子病历命名实体识别方法的流程图。
图2是本发明实施例的中文电子病历命名实体识别方法过程图。
图3是本发明的BiLSTM-CRF模型及其输入输出的示意图。
图4是本发明的基于功能结构的中文电子病历命名实体识别系统示意图。
具体实施方式
下面将结合附图对本发明作进一步的说明:
本发明属于医疗与计算机技术交叉领域,提供一种基于功能结构的中文电子病历命名实体识别方法及系统。该方法及系统将中文电子病历文本的内容结构及其功能内涵作为医疗命名实体标注和识别的基本依据,创新了医疗实体标注策略,结合深度神经网络和统计机器学习方法实现了医疗命名实体识别,提高了医疗命名实体识别的准确度,增强了医疗实体信息的语义;构建的电子病历命名识别系统可高效实现医疗实体自动识别,为该领域专家的病历撰写、药物发现、疾病规律总结等提供参考。
本发明实施例的基于功能结构的中文电子病历命名实体识别方法,如图1和2所示,包括但不限于以下步骤:
S1、从医院电子病历系统中获取电子病历原始数据,使用Python等编程语言进行结构化处理并存为excel表格。电子病历指来源于医院电子病历系统的临床住院记录,应包括但不限于入院情况、入院诊断、治疗经过、出院情况、出院诊断等诊疗信息,可利用excel进行归纳整理,使每个患者形成一行记录。
S2、确定需要研究的文本功能结构模块,使用Python等编程语言抽取各模块下一定数量的病例内容作为实验数据,依次存为txt文件。
S3、确定标注策略,使用标注工具对S2中抽取的内容进行人工标注,标注完成后划分训练集与测试集。
S4、使用S3中获得的各模块训练集训练BiLSTM-CRF模型。
S5、使用S3中各模块测试集验证相应模块下模型的效果并调优,使用模型实现未标注文本的命名实体识别任务并构建命名实体集。
具体来说,步骤S2旨在抽取用于实验的文本数据,先确定待研究的文本功能结构,再根据功能结构抽取内容作为研究语料。具体包括但不限于以下步骤:
S21、确定病历文本模块,如入院情况、入院诊断、治疗经过、出院情况、出院诊断五个模块,则根据模块对上述结构化文档进行内容抽取;
S22、设置研究病例数,在模块内容基础上进一步抽取用于训练测试的文本内容。
在本实施例中,文本功能结构的选取原则主要是要选择富含患者诊疗信息的结构,包括但不限于入院情况、入院诊断、治疗经过、出院情况、出院诊断五个模块,随后对上述结构化文档进行内容抽取,分为待标注数据和未标注数据,为保证模型效果和避免训练时间过长,待标注数据量可设置为2000条左右。
在本实施例中,如表1所示,选取的入院情况、入院诊断、治疗经过、出院情况、出院诊断五个模块的内涵功能有:
表1中文电子病历的主要内容模块及其内涵功能
具体来说,步骤S3中,确定标注策略并据此进行人工标注,对标注后的文档划分训练集、测试集。
在本实施例中,步骤S3确定的命名实体类型包括症状(SYMPTOM)、身体部位(BODY)、化验和检查(TEST&&EXAMINATION)、疾病(DISEASE)、体征(SIGN)、治疗(TREATMENT)、药物(DRUG)七个类型,针对中文临床电子病历领域命名实体,具体分类如下:
症状类(SYMPTOM):患者主观描述症状,位于患者主诉中,包括但不限于腹痛、呕吐、腹胀等。
身体部位(BODY):身体的解剖学部位或器官,包括但不限于腹、胃、肝等。
化验和检查(TEST&&EXAMINATION):化验主要指血粪尿实验室化验指标,检查要指影像学、核医学等结果,包括但不限于T(体温)、胃镜、CT等。
疾病(DISEASE):各类疾病医学名词及缩写,位于患者既往疾病史及入院诊断和出院诊断中,包括但不限于胃癌、溃疡、高血压等。
体征(SIGN):体格检查来发现身体客观异常表现,包括但不限于压痛、反跳痛、呼吸等。
治疗(TREATMENT):止血、营养支持以及特殊手术名称,包括但不限于化疗、手术、营养等。
药物(DRUG):药物名称,位于既往史、药物过敏史以及治疗经过中,包括但不限于奥沙利铂、替吉奥、维康达等。
在本实施例的该步骤中,为提高模型对词边界的识别能力,步骤S3中采用BIO标注模式对医疗实体进行边界界定;BIO标注模型定义如下:B表示实体首部字;I体内部字;O表示非实体构成字。
在本实施例的该步骤中,将类型信息(SYMPTOM,BODY……)和边界信息(B,I,O)组合形成完整的标注体系,将识别任务转化为字粒度的标记,结合步骤S2实施例选取的5个模块,依次记文本所在结构为1、2、……、5,具体标记示例如表2:
表2医疗命名实体识别标注编码
在本实施例的该步骤中,基于标注工具YEDDA使用上述标注策略对各结构下待标注文本进行医疗实体标注。
在本实施例的该步骤中,标注完成的结果按比例划分训练集与测试集,比例的选取一般为训练:测试在2:1-5:1间即可。
具体来说,如图3所示,在步骤S4中,使用各模块下训练集,依次对BiLSTM-CRF模型进行训练,包括但不限于以下步骤:
步骤S41、加载通用字向量表,并使用样本数据到字向量中查表,生成训练用的字向量矩阵;
步骤S42、将字向量矩阵作为embedding层输入,经过Bi-LSTM层进行编码,实现上下文信息特征提取,经tanh层输出字符对应各标签的置信度;
步骤S43、引入CRF层,在上一层输出的所有可能标记路径中解码出最优标记集,即CRF层中加入对Bi-LSTM层输出字的标签之间顺序性的考虑,实现句子级的标签约束。
在本实施例的该步骤中,模型训练会生成各结构模块下对应的模型,可记为bilstm_crf_model_1、bilstm_crf_model_2、……、bilstm_crf_model_5。
具体来说,在步骤S5中,利用测试集对步骤S4中训练生成的BiLSTM-CRF模型进行效果验证,并实现对未标注语料的标注,包括但不限于以下步骤:
S51、将测试集对应的原始文本输入模型进行预测,输出对应的标签预测结果;
S52、使用Python代码对比预测结果与测试集人工标注结果,计算正确率、召回率、F值三个评价指标;
S53、根据F值结果,判断是否返回步骤S4调优BiLSTM-CRF模型参数;
在本实施例的该步骤中,若F值小于90%,则调整BiLSTM-CRF模型中迭代次数、输入字符长度等参数,不断调整直至验证结果达最优。
S54、将调优后的模型应用到未标注数据样本上实现命名实体的自动识别,对电子病历各结构下文本字符及其标签进行实体合并和统计,构建出电子病历功能结构下的命名实体集。
在本实施例的该步骤中,实体集的形式可展现如表3:
表3入院情况实体集
本发明还提供一种实现上述基于功能结构的中文电子病历命名实体识别方法的基于功能结构的中文电子病历命名实体识别系统,如图4所示,包括:
数据获取模块101,用于获取电子病历数据,对电子病历数据进行结构化处理。
内容抽取模块102,用于依据功能结构,对结构化的数据进行内容抽取;上传电子病历原始excel文件后,用户可根据需求填写待识别的文本结构(即excel表的列名)。
人工标注模块103,用于对抽取的各功能结构内容进行人工标注,并分为训练集和测试集;可以调用YEDDA这一标注接口,方便使用提供好的标注策略对文本处理模块生成的训练集进行标注。
模型训练模块104,用于利用各功能结构下的训练集训练BiLSTM-CRF模型。
实体识别模块105,用于通过测试集验证各模型效果并对模型进行调优,最后利用模型对未标注文本进行命名实体识别;模型训练中利用标注数据训练模型,系统可以将模型准确度直观反馈给用户,用户可据此进行调参来优化模型。
实体集模块106,用于对电子病历各功能结构下文本字符及其标签进行实体合并和统计,构建出电子病历功能结构下的命名实体集。用户上传测试集数据,平台将根据训练得到的模型进行测试数据的自动标注,自动生成实体集。
本领域的技术人员容易理解,以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于功能结构的中文电子病历命名实体识别方法,其特征在于,包括以下步骤:
S1、获取电子病历数据,对电子病历数据进行结构化处理;
S2、依据功能结构,对结构化的数据进行内容抽取;
S3、对抽取的各功能结构内容进行人工标注,并分为训练集和测试集;
S4、利用各功能结构下的训练集训练BiLSTM-CRF模型;
S5、通过测试集验证各模型效果并对模型进行调优,最后利用模型对未标注文本进行命名实体识别。
2.根据权利要求1所述的基于功能结构的中文电子病历命名实体识别方法,其特征在于,电子病历数据为电子病历中的临床住院记录,包括入院情况、入院诊断、治疗经过、出院情况和出院诊断。
3.根据权利要求1所述的基于功能结构的中文电子病历命名实体识别方法,其特征在于,步骤S2包括:
S21、确定功能结构,包括入院情况、入院诊断、治疗经过、出院情况和出院诊断五个模块;
S22、根据模块对结构化的电子病历数据进行内容抽取。
4.根据权利要求1所述的基于功能结构的中文电子病历命名实体识别方法,其特征在于,步骤S3中,采用YEDDA标注工具进行人工标注,将实体类型信息和实体边界信息组合形成完整的标注体系,将识别任务转化为字粒度的标记。
5.根据权利要求4所述的基于功能结构的中文电子病历命名实体识别方法,其特征在于,实体类型包括:症状(SYMPTOM)、身体部位(BODY)、化验和检查(TEST&&EXAMINATION)、疾病(DISEASE)、体征(SIGN)、治疗(TREATMENT)、药物(DRUG)。
6.根据权利要求4所述的基于功能结构的中文电子病历命名实体识别方法,其特征在于,实体边界界定采用BIO标注模式,其定义如下:B表示实体首部字,I表示实体内部字,O表示非实体构成字。
7.根据权利要求1所述的基于功能结构的中文电子病历命名实体识别方法,其特征在于,步骤S4包括:
S41、加载字向量表,获得语料中每个字符的字向量表示,生成训练用的字向量矩阵;
S42、将字向量矩阵作为模型输入,通过BiLSTM层实现上下文信息特征提取,经tanh层输出字符对应各标签的置信度;
S43、利用CRF层在所有可能标记路径中解码出最优标记集。
8.根据权利要求1所述的基于功能结构的中文电子病历命名实体识别方法,其特征在于,
S51、将测试集对应的原始文本输入到模型进行预测,输出对应的标签预测结果;
S52、对比预测结果与测试集人工标注结果,计算正确率、召回率、F值三个指标;
S53、根据F值结果调优BiLSTM-CRF模型参数;
S54、将调优后的模型应用到未标注数据样本上实现命名实体的自动识别。
9.根据权利要求1-8中任一项所述的基于功能结构的中文电子病历命名实体识别方法,其特征在于,该方法还包括步骤:
S6、对电子病历各功能结构下文本字符及其标签进行实体合并和统计,构建出电子病历功能结构下的命名实体集。
10.一种基于功能结构的中文电子病历命名实体识别系统,其特征在于,包括:
数据获取模块,用于获取电子病历数据,对电子病历数据进行结构化处理;
内容抽取模块,用于依据功能结构,对结构化的数据进行内容抽取;
人工标注模块,用于对抽取的各功能结构内容进行人工标注,并分为训练集和测试集;
模型训练模块,用于利用各功能结构下的训练集训练BiLSTM-CRF模型;
实体识别模块,用于通过测试集验证各模型效果并对模型进行调优,最后利用模型对未标注文本进行命名实体识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110212911.0A CN112949308A (zh) | 2021-02-25 | 2021-02-25 | 基于功能结构的中文电子病历命名实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110212911.0A CN112949308A (zh) | 2021-02-25 | 2021-02-25 | 基于功能结构的中文电子病历命名实体识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112949308A true CN112949308A (zh) | 2021-06-11 |
Family
ID=76246231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110212911.0A Pending CN112949308A (zh) | 2021-02-25 | 2021-02-25 | 基于功能结构的中文电子病历命名实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949308A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688632A (zh) * | 2021-08-17 | 2021-11-23 | 中国人民解放军海军军医大学 | 一种提取疾病预后协变量的结构化数据的方法及系统 |
CN113722476A (zh) * | 2021-07-30 | 2021-11-30 | 的卢技术有限公司 | 一种基于深度学习的简历信息提取方法及系统 |
CN114330349A (zh) * | 2022-01-05 | 2022-04-12 | 北京航空航天大学 | 一种特定领域命名实体识别方法 |
CN117116407A (zh) * | 2023-10-23 | 2023-11-24 | 之江实验室 | 基于电子病历的患者画像生成方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170193197A1 (en) * | 2015-12-30 | 2017-07-06 | Dhristi Inc. | System and method for automatic unstructured data analysis from medical records |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN111291210A (zh) * | 2020-01-14 | 2020-06-16 | 广州视源电子科技股份有限公司 | 图像素材库生成方法、图像素材推荐方法及相关装置 |
CN111507109A (zh) * | 2019-01-14 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 电子病历的命名实体识别方法及装置 |
CN112101028A (zh) * | 2020-08-17 | 2020-12-18 | 淮阴工学院 | 一种多特征双向门控领域专家实体抽取方法及系统 |
-
2021
- 2021-02-25 CN CN202110212911.0A patent/CN112949308A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170193197A1 (en) * | 2015-12-30 | 2017-07-06 | Dhristi Inc. | System and method for automatic unstructured data analysis from medical records |
CN111507109A (zh) * | 2019-01-14 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 电子病历的命名实体识别方法及装置 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN111291210A (zh) * | 2020-01-14 | 2020-06-16 | 广州视源电子科技股份有限公司 | 图像素材库生成方法、图像素材推荐方法及相关装置 |
CN112101028A (zh) * | 2020-08-17 | 2020-12-18 | 淮阴工学院 | 一种多特征双向门控领域专家实体抽取方法及系统 |
Non-Patent Citations (3)
Title |
---|
刘忠宝等: "基于章节段落的学术文献结构功能识别方法研究", 《文献与数据学报》, vol. 2, no. 3, pages 37 - 47 * |
吴骋等: "中文电子病历多层次信息抽取方法的探索", 《中国数字医学》, vol. 15, no. 06, pages 29 - 31 * |
秦成磊等: "基于层次注意力网络模型的学术文本结构功能识别", 《数据分析与知识发现》, vol. 4, no. 11, pages 26 - 42 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722476A (zh) * | 2021-07-30 | 2021-11-30 | 的卢技术有限公司 | 一种基于深度学习的简历信息提取方法及系统 |
CN113688632A (zh) * | 2021-08-17 | 2021-11-23 | 中国人民解放军海军军医大学 | 一种提取疾病预后协变量的结构化数据的方法及系统 |
CN114330349A (zh) * | 2022-01-05 | 2022-04-12 | 北京航空航天大学 | 一种特定领域命名实体识别方法 |
CN117116407A (zh) * | 2023-10-23 | 2023-11-24 | 之江实验室 | 基于电子病历的患者画像生成方法、装置及存储介质 |
CN117116407B (zh) * | 2023-10-23 | 2024-02-23 | 之江实验室 | 基于电子病历的患者画像生成方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949308A (zh) | 基于功能结构的中文电子病历命名实体识别方法及系统 | |
CN109670179B (zh) | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 | |
Roberts et al. | Building a semantically annotated corpus of clinical texts | |
Tutubalina et al. | Combination of deep recurrent neural networks and conditional random fields for extracting adverse drug reactions from user reviews | |
Yu et al. | Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN | |
CN112597774B (zh) | 中文医疗命名实体识别方法、系统、存储介质和设备 | |
CN110705293A (zh) | 基于预训练语言模型的电子病历文本命名实体识别方法 | |
CN110222201A (zh) | 一种专病知识图谱构建方法及装置 | |
CN112487202B (zh) | 融合知识图谱与bert的中文医学命名实体识别方法、装置 | |
CN108509419B (zh) | 中医药古籍文献分词和词性标引方法及系统 | |
CN111048167B (zh) | 一种层级式病例结构化方法及系统 | |
Chen et al. | Automatic ICD-10 coding and training system: deep neural network based on supervised learning | |
CN109273062A (zh) | Icd智能辅助编码系统 | |
EP3994629A1 (en) | Medical record searching with transmittable machine learning | |
CN105138829B (zh) | 一种中文诊疗信息的自然语言处理方法及系统 | |
WO2008085857A2 (en) | Processing text with domain-specific spreading activation methods | |
CN106909783A (zh) | 一种基于时间线的病历文本医学知识发现方法 | |
US11393589B2 (en) | Methods and systems for an artificial intelligence support network for vibrant constitutional guidance | |
CN105184053A (zh) | 一种中文医疗服务项目信息的自动编码方法及系统 | |
CN116682553A (zh) | 一种融合知识与患者表示的诊断推荐系统 | |
Bardhan et al. | Drugehrqa: A question answering dataset on structured and unstructured electronic health records for medicine related queries | |
Wang et al. | Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
Tran et al. | Scaling out and evaluation of obsecan, an automated section annotator for semi-structured clinical documents, on a large VA clinical corpus | |
US20050033608A1 (en) | Homoeopathic analysis and synthesis software |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |