CN109166608A - 电子病历信息提取方法、装置和设备 - Google Patents
电子病历信息提取方法、装置和设备 Download PDFInfo
- Publication number
- CN109166608A CN109166608A CN201811084818.0A CN201811084818A CN109166608A CN 109166608 A CN109166608 A CN 109166608A CN 201811084818 A CN201811084818 A CN 201811084818A CN 109166608 A CN109166608 A CN 109166608A
- Authority
- CN
- China
- Prior art keywords
- participle
- electronic health
- health record
- training
- crf model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供了一种电子病历信息提取方法、装置和设备,涉及数据处理技术领域,其中,本申请提供的电子病历信息提取方法、装置和设备,对待处理电子病历进行分词和词性标注处理,得到各分词的词性;根据各分词的词性,采用特征模板分别对各分词进行上下文特征提取,得到各分词的上下文特征;根据各分词的上下文特征,采用BIEO标注方式分别对各分词进行命名实体标注,得到各分词的命名实体标注信息;根据各分词的命名实体标注信息,从待处理电子病历中提取出命名实体,使自由无序的电子病历得以进行规范得整理和记录,有利于参考者快速查阅。
Description
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种电子病历信息提取方法、装置和设备。
背景技术
电子病历是在医疗活动过程中产生的重要临床信息资源,包含了大量与患者健康状况密切相关的医疗知识,从电子病历中抽取有用的信息将大大推动医疗事业的发展。电子病历记录了患者的疾病和症状、治疗过程和治疗效果,这些信息是重要的临床证据,为临床决策支持、循证医学实践和疾病监控等提供支持,从而提高医疗服务质量。
由于目前大部分电子病历主要是医生根据自己的语言习惯对疾病问诊和治疗过程的记录,因此,现有的电子病历大都属于自由文本数据,不利于参考者进行快速查阅。
发明内容
有鉴于此,本申请的目的在于提供一种电子病历信息提取方法、装置和设备,可以提取出电子病历中的有效信息,保存至病历数据库中,使电子病历信息结构化,有利于参考者快速查阅。
为了实现上述目的,本申请采用的技术方案如下:
第一方面,本申请提供了一种电子病历信息提取方法,应用于加载有训练完成的CRF模型的设备,所述训练完成的CRF模型为预先采用电子病历训练语料依次对不同参数下的CRF模型进行训练,并采用电子病历测试语料对训练后的CRF模型进行测试,直至测试结果满足预设测试指标时得到的模型;所述方法包括:
对待处理电子病历进行分词和词性标注处理,得到各分词的词性;
根据各分词的词性,采用特征模板分别对各分词进行上下文特征提取,得到各分词的上下文特征,其中,一个分词的上下文特征与该一个分词的词性,该一个分词之前和/或之后的关联分词的词性相关联;
根据各分词的上下文特征,采用BIEO标注方式分别对各分词进行命名实体标注,得到各分词的命名实体标注信息;
根据各分词的命名实体标注信息,从所述待处理电子病历中提取出命名实体,其中,所述命名实体的类别至少包括以下任意一种或组合:疾病类、疾病诊断分类、症状类、检查类和治疗类。
第二方面,本申请提供了一种电子病历信息提取装置,应用于加载有训练完成的CRF模型的设备,所述训练完成的CRF模型为预先采用电子病历训练语料依次对不同参数下的CRF模型进行训练,并采用电子病历测试语料对训练后的CRF模型进行测试,直至测试结果满足预设测试指标时得到的模型;所述装置包括:
词性标注模块,用于对待处理电子病历进行分词和词性标注处理,得到各分词的词性;
特征提取模块,用于根据各分词的词性,采用特征模板分别对各分词进行上下文特征提取,得到各分词的上下文特征,其中,一个分词的上下文特征与该一个分词的词性,该一个分词之前和/或之后的关联分词的词性相关联;
实体标注模块,用于根据各分词的上下文特征,采用BIEO标注方式分别对各分词进行命名实体标注,得到各分词的命名实体标注信息;
命名实体提取模块,用于根据各分词的命名实体标注信息,从所述待处理电子病历中提取出命名实体,其中,所述命名实体的类别至少包括以下任意一种或组合:疾病类、疾病诊断分类、症状类、检查类和治疗类。
第三方面,本申请实施方式提供了一种电子病历信息提取设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述方法。
第四方面,本申请实施方式提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现上述方法。
上述电子病历信息提取方法、装置、设备和机器可读存储介质,对待处理电子病历进行分词和词性标注处理,得到各分词的词性;根据各分词的词性,采用特征模板分别对各分词进行上下文特征提取,得到各分词的上下文特征;根据各分词的上下文特征,采用BIEO标注方式分别对各分词进行命名实体标注,得到各分词的命名实体标注信息;根据各分词的命名实体标注信息,从待处理电子病历中提取出命名实体,使自由无序的电子病历得以进行规范得整理和记录,有利于参考者快速查阅。
本申请的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本申请的上述技术即可得知。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施方式提供的一种CRF模型的训练过程的流程图;
图2为本申请实施方式提供的一种特征模板的示意图;
图3为本申请实施方式提供的不同训练参数下CRF模型的效果图;
图4为本申请实施方式提供的一种电子病历信息提取方法的流程图;
图5为本申请实施方式提供的一种电子病历信息提取装置的结构框图;
图6为本申请实施方式提供的另一种电子病历信息提取装置的结构框图;
图7为本申请实施方式提供的一种电子病历信息提取设备的结构示意图。
具体实施方式
为使本申请实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
信息技术的迅猛发展推动了医院信息化建设,信息化系统的普及带来了海量的医疗数据,其中电子病历受到广泛关注。电子病历是在医疗活动过程中产生的重要临床信息资源,包含了大量与患者健康状况密切相关的医疗知识,从电子病历中抽取有用的信息将大大推动医疗事业的发展。
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息。海量的电子病历数据堪称医疗领域的大数据,蕴含了大量的医疗知识和患者的健康信息。电子病历数据不应只是封存在病历档案室里,而应得到有效利用。如何利用电子病历数据支持生物医学研究和临床研究,是医学信息学和转化医学的重要研究内容。
病历电子化使得大规模电子病历的自动分析成为可能,由于电子病历记录了患者的疾病和症状、治疗过程和治疗效果等信息,而这些信息是重要的临床证据,自动从电子病历中抽取这些信息能够更加高效、精确地收集证据,辅助决策。电子病历已经成为循证医学实践的源数据之一。
针对现有技术中属于自由文本数据的电子病历不便于查阅的缺陷,本申请实施方式提供了一种电子病历信息提取方法、装置和设备。以下首先对本申请实施方式提供的电子病历信息提取方法进行详细介绍。
实际应用中,在采用加载有训练完成的CRF(Conditional Random Field,条件随机场)模型的设备对待处理电子病历进行信息提取之前,需要采用已标注好的电子病历训练语料和电子病历测试语料对CRF模型进行训练,那么,本申请实施例中CRF模型的训练过程如图1所示,包括如下步骤:
步骤S102,对电子病历训练语料进行分词和词性标注,并根据预设的命名实体标注规范,标注电子病历训练语料。
电子病历训练语料可以是半结构化文本数据的电子病历,也可以是非结构化文本数据的电子病历。电子病历训练语料中还可能同时包括半结构化文本数据的电子病历和非结构化文本数据的电子病历。
考虑到目前电子病历主要包括两类,门诊病历和住院病历。门诊病历通常较短,包含的信息较少,也缺乏对患者治疗情况的跟踪。住院病历记录了患者的入院、诊断和治疗等过程,在病历数据中信息最全面。由于自由文本(半结构化文本,非结构化文本)数据方便表达概念以及事件等,是临床治疗过程的主要记录形式,因此,住院病历中包含有大量的自由文本数据。例如,住院病历主要包括出院小结、病程记录、病历小结、医患沟通记录、医患协议等自由文本数据。出院小结是对患者治疗过程和治疗效果的总结;病程记录主要是阶段性记录患者临床表现、经历的检查和治疗等医疗活动过程;主诉、现病史和病历小结的内容都包含在出院小结和病程记录里;超声报告只涉及单项检查,检查结果也包含在病程记录里;医患沟通是医务人员就治疗的风险告知患者及家属;医患协议主要是患者应遵守的纪律等。其中,出院小结和病程记录是电子病历中最重要的两类自由文本数据,包含的信息较为全面,可以作为电子病历训练语料使用。
在对电子病历训练语料进行命名实体标注时,首先需要对电子病历训练语料进行分词和词性标注处理,然后再根据预设的实体标注规范对电子病历训练语料中各命名实体进行标注处理。
实际应用中,由于电子病历中的很多疾病名称是由多个名词连接组成的,疾病症状通常出现在动词之后,因此,可以根据电子病历中各分词的词性和各分词的上下文特征,对各分词进行命名实体标注。
当然,可以使用分词工具(如,jieba分词工具)对待处理电子病历进行分词和词性标注处理。分词工具采用指定的分词规范对待处理电子病历进行分词,识别各分词的词性,并进行词性标注处理。词性主要包括名词、动词、副词等20多种。指定的分词规范可以是《中文电子病历分词规范》或其它满足需要的分词规范。考虑到医院等医疗机构的电子病历目前都是人工输入的,每个医疗人员的用词习惯与专业的标准名词可能有差异,导致指定的分词规范中的关键词词语可能覆盖不全,本申请实施方式还可以将用户自定义的关键词,加入指定的分词规范中。
预设的实体标注规范可以在医生的指导和参与下设定,实体标注规范中定义有命名实体的类别和命名实体标注方式。
例如,命名实体的类别可以包括以下任意一种或组合:疾病类,疾病诊断分类,症状类,检查类和治疗类。采用BIEO标注方式分别对各分词进行命名实体标注。
BIEO标注方式中的BIEO是Begin(开头),Intermediate(中间),End(结尾),Other(其它)四个单词的首字母。BIEO标注方式即标注出各个分词属于某一个命名实体的开头、中间或结尾,或者属于其它。BIEO标注方式中的命名实体标注信息主要包括B、I、E、O四种。其含义如表1所示。
表1
命名实体的类别至少包括以下任意一种或组合:疾病类、疾病诊断分类、症状类、检查类和治疗类。可选的,疾病类(disease)的命名实体标注可以定义为disease、disease-B、disease-I、disease-E;疾病诊断分类(disease_type)的命名实体标注可以定义为disease_type、disease_type-B、disease_type-I、disease_type-E;症状类(symptom)的命名实体标注可以定义为symptom、symptom-B、symptom-I、symptom-E;检查类(test)的命名实体标注可以定义为test、test-B、test-I、test-E;治疗类(treatment)的命名实体标注可以定义为treatment、treatment-B、treatment-I、treatment-E。
譬如,如果电子病历中的一个疾病名称被分割为两个分词,如“腹部包块”被分割为“腹部”和“包块”,根据分词的上下文特征可以确定“腹部”为疾病类的第一个分词,“包块”为疾病类的最后一个分词。则分词“腹部”的命名实体标注信息为“disease-B”,分词“包块”的命名实体标注信息为“disease-E”。如果电子病历中的一个疾病名称就是一个分词,则该分词的命名实体标注信息可以为“disease”。
示例性地,实体标注规范可以如表2所示。其中的标注集是基于命名实体的类别和命名实体标注方式定义的。
表2
其中,disease类命名实体是疾病,泛指导致患者处于非健康状态的原因(不包括不良生活习惯),或者医生根据患者的身体状况做出的诊断,疾病是可以治愈或改善的。
disease_type类命名实体是疾病诊断分类,一般紧跟在一个具体的疾病之后,是疾病的一个具体分类,比如“高血压,极高危组”中的“极高危组”。
symptom类命名实体是疾病的表现,在本实施例中称为症状,泛指疾病导致的不适或异常感觉和显式表达的异常检查结果,虽然这两类症状都是疾病的表现,但又明显不同,因此症状细分为两个子类:自诉症状和异常检查结果。
test类命名命名实体是检查手段,在本实施例中简称为检查,泛指为了得到更多的由疾病导致的异常表现以支持诊断而采取的检查设备、检查程序、检查项目等。
treatment类名实体是治疗手段,在本实施例中简称为治疗,泛指为了治愈疾病、缓解或者改善症状而给予患者的药物、手术等。
示例性的,参阅表3所示,本申请实施例中,标注好的训练语料数据格式,第1列为对电子病历训练语料进行分词处理后得到的各分词,第二列为对个分词进行词性标注后得到各分词的词性,第三行为根据预设的命名实体标注规范对各分词进行命名实体标注后,得到各分词的命名实体标注信息。
例如,对于电子病历中的语句“因发现腹部包块1年余入院。查体:心肺听诊无异常”,使用分词工具对其进行分词和词性标注处理,可以得到表3中的第一列和第二列。其中,“p”表示介词,“v”表示动词,“n”表示名词,“m”表示数量词等等。
表3
步骤S104,选择特征模板,并设置CRF模型的参数c和f的初始值。
CRF模型的训练也是通过训练CRF++开源工具实现的,在对CRF模型进行训练之前,需要先选择一个特征模板,可选的,从CRF模型自身提供的多种特征模板中选择一个合适的特征模块,用于生成各分词的上下文特征,例如,CRF模型提供的Unigram一元模板。
下面以Unigram一元模板为例进行说明,如图2所示,假设待分析的训练语料是:我是中国人(下标:-2,-1,0,1,2),考虑的当前位置为:“中”。图2中的特征模板的含义为:
U00-U04特征模板:表示某个位置的分词与当前位置的分词之间的关系,比如说U00指的是“我”与“中”之间的关系。
U05-U07特征模板:表示某三个位置的分词与当前位置的分词之间的关系,比如说U05指的是“我”、“是”、“中”与“中”之间的关系。
U08-U09特征模板:表示某两个位置的分词与当前位置的分词之间的关系,比如说U08-指的是“是”、“中”与“中”之间的关系。
通过CRF模型中的特征模块,可以得出分词“腹部”的上下文特征包括:分词“腹部”的词性为名词,分词“腹部”之前一个位置的分词为动词,分词“腹部”之后一个位置的分词为名词。
CRF模型是一个在给定输入节点条件下计算输出节点条件概率的无向图模型,表示在给定需要标记的观察序列条件下,计算整个标记序列的联合概率分布。对于指定的节点输入值,它能计算指定节点输出值的条件概率,其训练目标是配置合适的参数c和f,使得条件概率最大化。其中,参数c用于调整过拟合和欠拟合之间的平衡度,参数f用于选择电子病历训练样本中至少出现指定次数的特征。在训练之前,先将CRF模型的参数c和f设置为初始值。
步骤S106,采用标注后的电子病历训练语料对CRF模型进行训练,得到训练后的CRF模型,并采用电子病历测试语料对训练后的CRF模型进行测试,得到测试结果。
采用标注后的电子病历训练语料对CRF模型进行一轮训练后,采用电子病历测试语料测试训练后的CRF模型是否满足测试指标。电子病历测试语料为根据实体标注规范进行标注的电子病历。
步骤S108,判断测试结果是否满足预设的测试指标;如果否,执行步骤S110;如果是,执行步骤S112。
CRF模型的测试指标主要包括准确率P、召回率R和F值,其中,准确率P是正确识别的结果占所有识别结果的比例;召回率R是正确识别的结果占所有正确结果的比例。F值是召回率和准确率的加权几何平均值,用于综合评价CRF模型的性能,F值的计算公式如下:
其中,β是召回率和准确率的相对权重。当β等于1时,召回率和准确率两者同样重要。当β大于1时,准确率更重要一些。当β小于1时,召回率更重要一些。在本申请实施例中,β的取值可以为1。
可选地,本申请实施例中的预设测试指标可以包括以下指标中的任意一个或组合:准确率大于等于第一设定阈值,召回率大于等于第二设定阈值和F值大于等于第三阈值。
步骤S110,调整参数c和/或f值,返回执行步骤S106。
如果对CRF模型的测试结果不满足预设的测试指标,则调整参数c的值、或调整参数f的值,或调整参数c的值和参数f的值。调整后,返回步骤S106,重复执行上述训练过程和测试过程。
步骤S112,将此次训练后得到的CRF模型作为训练完成的CRF模型。
如果对CRF模型的测试结果满足预设的测试指标,则将此次训练后得到的CRF模型作为训练完成的CRF模型。
图3示出了不同训练参数下CRF模型的效果,如图3所示,c的取值范围在1.3至1.7之间,f的取值范围在2和4之间时,CRF模型的准确率和召回率都比较高。优选地,c的取值可以是1.5,f的取值可以是3。
本申请实施例中,在确定CRF模型训练完成后,即可采用加载有训练完成的CRF模型的设备对待处理电子病历进行信息提取。
具体的,参阅图4所示,本申请实施方式提供的一种电子病历信息提取方法的流程图。该方法应用于加载有训练完成的CRF模型的设备,所述训练完成的CRF模型为预先采用电子病历训练语料依次对不同参数下的CRF模型进行训练,并采用电子病历测试语料对训练后的CRF模型进行测试,直至测试结果满足预设测试指标时得到的模型。如图4所示,该方法包括如下步骤:
步骤S402,对待处理电子病历进行分词和词性标注处理,得到各分词的词性。
本申请实施例中,待处理电子病历主要为半结构化文本数据和/或非结构化文本数据的电子病历,如门诊病历或住院病历等。门诊病历通常较短,包含信息较少,也缺乏对患者治疗情况的跟踪,因而,目前电子病历信息抽取的研究对象大多是住院病历,并且只限于住院病历中自由文本数据的挖掘。
具体的,将待处理电子输入CRF模型中,CRF模型会对待处理电子病历中的文本数据进行分词处理,得到各分词,并对分词处理得到的各分词进行词性标注处理,得到各分词的词性。
例如,假设待处理电子病历中包括“因发现腹部包块1年余入院。查体:心肺听诊无异常”的自由文本数据,则可以采用上述分词和词性标注步骤进行分词和词性标注处理。具体的,首先,对“因发现腹部包块1年余入院。查体:心肺听诊无异常”进行分词处理,得到各分词(如表3所示的第一列),然后,对各分次进行词性标注处理,得到各分词的词性(如表3所示的第二列)。
步骤S404,根据各分词的词性,采用特征模板分别对各分词进行上下文特征提取,得到各分词的上下文特征。
具体的,采用CRF模型中的Unigram一元模板生成各分词的上下文特征。
其中,一个分词的上下文特征与该一个分词的词性,该一个分词之前和/或之后的关联分词的词性相关联。
步骤S406,根据各分词的上下文特征,采用BIEO标注方式分别对各分词进行命名实体标注,得到各分词的命名实体标注信息。
例如,进一步的,对“因发现腹部包块1年余入院。查体:心肺听诊无异常”进行命名实体标注,则得到各分词的命名实体标注信息(如表3所示的第三列)。
步骤S408,根据各分词的命名实体标注信息,从待处理电子病历中提取出命名实体。
例如,如表3所示的各分词的命名实体标注信息中,分词“腹部”的命名实体标注信息为“disease-B”,是命名实体(疾病类)的第一个分词,分词“包块”的命名实体标注信息为“disease-E”,是命名实体(疾病类)的最后一个分词,那么,即可提取出命名实体(如“腹部包块”)进行结构化存储。
这样使得自由无序的电子病历得以进行规范得整理和记录,以便于参考者进行查阅。例如,可以将提取出的命名实体存储至病历数据库中,病历数据库用于存储结构化的电子病历信息,即按照命名实体的类别保存每份电子病历的命名实体。
上述电子病历信息提取方法,对待处理电子病历进行分词和词性标注处理,得到各分词的词性;根据各分词的词性,采用CRF模型中的特征模板分别对各分词进行上下文特征提取,得到各分词的上下文特征;根据各分词的上下文特征,采用BIEO标注方式分别对各分词进行命名实体标注,得到各分词的命名实体标注信息;根据各分词的命名实体标注信息,从待处理电子病历中提取出命名实体,使自由无序的电子病历信息结构化,有利于参考者快速查阅,为临床决策支持、循证医学实践和疾病监控等提供支持,从而提高医疗服务质量。
与上述方法实施方式相对应地,本申请实施方式还提供了一种电子病历信息提取装置,应用于加载有训练完成的CRF模型的设备,所述训练完成的CRF模型为预先采用电子病历训练语料依次对不同参数下的CRF模型进行训练,并采用电子病历测试语料对训练后的CRF模型进行测试,直至测试结果满足预设测试指标时得到的模型。如图5所示,该装置包括:
词性标注模块51,用于对待处理电子病历进行分词和词性标注处理,得到各分词的词性;所述待处理电子病历为半结构化文本数据和/或非结构化文本数据的电子病历;
特征提取模块52,用于根据各分词的词性,采用CRF模型中的特征模板分别对各分词进行上下文特征提取,得到各分词的上下文特征,其中,一个分词的上下文特征与该一个分词的词性,该一个分词之前和/或之后的关联分词的词性相关联;所述特征模板为Unigram一元模板;
实体标注模块53,用于根据各分词的上下文特征,采用BIEO标注方式分别对各分词进行命名实体标注,得到各分词的命名实体标注信息;
实体提取模块54,用于根据各分词的命名实体标注信息,从所述待处理电子病历中提取出命名实体,其中,所述命名实体的类别至少包括以下任意一种或组合:疾病类、疾病诊断分类、症状类、检查类和治疗类。
在一可选的实施方式中,如图6所示,上述装置还包括模型训练模块61。模型训练模块61可以用于:对电子病历训练语料进行分词和词性标注,并根据预设的实体标注规范,标注电子病历训练语料,所述实体标注规范定义有命名实体的类别和命名实体标注方式;选择特征模板,并设置CRF模型的参数c和f的初始值;采用标注后的电子病历训练语料对CRF模型进行训练,得到训练后的CRF模型,并采用电子病历测试语料对训练后的CRF模型进行测试,得到测试结果;若测试结果不满足预设测试指标,则调整参数c和/或f值,再次执行上述训练和测试过程;若测试结果满足预设测试指标,则将此次训练后得到的CRF模型作为训练完成的CRF模型。
其中,参数c的取值范围在1.3至1.7之间,参数f的取值范围在2至4之间。预设测试指标包括以下指标中的任意一个或组合:准确率大于等于第一设定阈值,召回率大于等于第二设定阈值和F值大于等于第三阈值。
进一步地,本申请实施方式还提供了一种电子病历信息提取设备,图7为该设备的结构示意图,如图7所示,该设备包括处理器71和存储器72;其中,存储器72用于存储一条或多条计算机指令,一条或多条计算机指令被处理器执行,以实现上述电子病历信息提取方法。图7所示的设备还包括总线73,处理器71和存储器72通过总线73连接。
其中,存储器72可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。总线73可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器71可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器71中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器71可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器72,处理器71读取存储器72中的信息,结合其硬件完成前述实施方式的方法的步骤。
本申请实施方式还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述电子病历信息提取方法,具体实现可参见方法实施方式,在此不再赘述。
需要说明的是,上述各实施方式均采用递进的方式描述,每个实施方式重点说明的都是与其他实施方式的不同之处,各个实施方式之间相同相似的部分互相参见即可。
本申请实施方式所提供的电子病历信息提取方法、装置和设备,其实现原理及产生的技术效果和前述方法实施方式相同,为简要描述,装置实施方式部分未提及之处,可参考前述方法实施方式中相应内容。
最后应说明的是:以上所述实施方式,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施方式对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施方式所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施方式技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (11)
1.一种电子病历信息提取方法,其特征在于,应用于加载有训练完成的CRF模型的设备,所述训练完成的CRF模型为预先采用电子病历训练语料依次对不同参数下的CRF模型进行训练,并采用电子病历测试语料对训练后的CRF模型进行测试,直至测试结果满足预设测试指标时得到的模型;所述方法包括:
对待处理电子病历进行分词和词性标注处理,得到各分词的词性;
根据各分词的词性,采用特征模板分别对各分词进行上下文特征提取,得到各分词的上下文特征,其中,一个分词的上下文特征与该一个分词的词性,该一个分词之前和/或之后的关联分词的词性相关联;
根据各分词的上下文特征,采用BIEO标注方式分别对各分词进行命名实体标注,得到各分词的命名实体标注信息;
根据各分词的命名实体标注信息,从所述待处理电子病历中提取出命名实体,其中,所述命名实体的类别至少包括以下任意一种或组合:疾病类、疾病诊断分类、症状类、检查类和治疗类。
2.根据权利要求1所述的方法,其特征在于,所述采用电子病历训练语料依次对不同参数下的CRF模型进行训练,并采用电子病历测试语料对训练后的CRF模型进行测试,直至测试结果满足预设测试指标的步骤包括:
对电子病历训练语料进行分词和词性标注,并根据预设的实体标注规范,标注电子病历训练语料,所述实体标注规范定义有命名实体的类别和命名实体标注方式;
选择特征模板,并设置CRF模型的参数c和f的初始值;
采用标注后的电子病历训练语料对CRF模型进行训练,得到训练后的CRF模型,并采用电子病历测试语料对训练后的CRF模型进行测试,得到测试结果;
若测试结果不满足预设测试指标,则调整参数c和/或f值,再次执行上述训练和测试过程;
若测试结果满足预设测试指标,则将此次训练后得到的CRF模型作为训练完成的CRF模型。
3.根据权利要求2所述的方法,其特征在于,参数c的取值范围在1.3至1.7之间,参数f的取值范围在2至4之间。
4.根据权利要求2或3所述的方法,其特征在于,所述预设测试指标包括以下指标中的任意一个或组合:准确率大于等于第一设定阈值,召回率大于等于第二设定阈值和F值大于等于第三阈值。
5.根据权利要求1所述的方法,其特征在于,所述待处理电子病历为半结构化文本数据和/或非结构化文本数据的电子病历;
所述特征模板为Unigram一元模板。
6.一种电子病历信息提取装置,其特征在于,应用于加载有训练完成的CRF模型的设备,所述训练完成的CRF模型为预先采用电子病历训练语料依次对不同参数下的CRF模型进行训练,并采用电子病历测试语料对训练后的CRF模型进行测试,直至测试结果满足预设测试指标时得到的模型;所述装置包括:
词性标注模块,用于对待处理电子病历进行分词和词性标注处理,得到各分词的词性;
特征提取模块,用于根据各分词的词性,采用特征模板分别对各分词进行上下文特征提取,得到各分词的上下文特征,其中,一个分词的上下文特征与该一个分词的词性,该一个分词之前和/或之后的关联分词的词性相关联;
实体标注模块,用于根据各分词的上下文特征,采用BIEO标注方式分别对各分词进行命名实体标注,得到各分词的命名实体标注信息;
命名实体提取模块,用于根据各分词的命名实体标注信息,从所述待处理电子病历中提取出命名实体,其中,所述命名实体的类别至少包括以下任意一种或组合:疾病类、疾病诊断分类、症状类、检查类和治疗类。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括模型训练模块,用于:
对电子病历训练语料进行分词和词性标注,并根据预设的实体标注规范,标注电子病历训练语料,所述实体标注规范定义有命名实体的类别和命名实体标注方式;
选择特征模板,并设置CRF模型的参数c和f的初始值;
采用标注后的电子病历训练语料对CRF模型进行训练,得到训练后的CRF模型,并采用电子病历测试语料对训练后的CRF模型进行测试,得到测试结果;
若测试结果不满足预设测试指标,则调整参数c和/或f值,再次执行上述训练和测试过程;
若测试结果满足预设测试指标,则将此次训练后得到的CRF模型作为训练完成的CRF模型。
8.根据权利要求7所述的装置,其特征在于,所述预设测试指标包括以下指标中的任意一个或组合:准确率大于等于第一设定阈值,召回率大于等于第二设定阈值和F值大于等于第三阈值。
9.根据权利要求6所述的装置,其特征在于,所述待处理电子病历为半结构化文本数据和/或非结构化文本数据的电子病历;
所述特征模板为Unigram一元模板。
10.一种电子病历信息提取设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至5中任一项所述的方法。
11.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811084818.0A CN109166608A (zh) | 2018-09-17 | 2018-09-17 | 电子病历信息提取方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811084818.0A CN109166608A (zh) | 2018-09-17 | 2018-09-17 | 电子病历信息提取方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109166608A true CN109166608A (zh) | 2019-01-08 |
Family
ID=64879571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811084818.0A Pending CN109166608A (zh) | 2018-09-17 | 2018-09-17 | 电子病历信息提取方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109166608A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840275A (zh) * | 2019-01-31 | 2019-06-04 | 北京嘉和美康信息技术有限公司 | 一种医疗搜索语句的处理方法、装置和设备 |
CN109859813A (zh) * | 2019-01-30 | 2019-06-07 | 新华三大数据技术有限公司 | 一种实体修饰词识别方法及装置 |
CN110414395A (zh) * | 2019-07-18 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 内容识别方法、装置、服务器及存储介质 |
CN110472037A (zh) * | 2019-08-21 | 2019-11-19 | 北京大学第三医院(北京大学第三临床医学院) | 一种医学文献的指标和数值的提取方法及系统 |
CN110516241A (zh) * | 2019-08-26 | 2019-11-29 | 北京三快在线科技有限公司 | 地理地址解析方法、装置、可读存储介质及电子设备 |
CN111177309A (zh) * | 2019-12-05 | 2020-05-19 | 宁波紫冬认知信息科技有限公司 | 病历数据的处理方法及装置 |
CN111724873A (zh) * | 2020-06-18 | 2020-09-29 | 北京嘉和海森健康科技有限公司 | 一种数据处理方法及装置 |
CN112069821A (zh) * | 2020-09-10 | 2020-12-11 | 北京明略昭辉科技有限公司 | 一种命名实体的提取方法、装置、电子设备及存储介质 |
CN112151186A (zh) * | 2020-10-05 | 2020-12-29 | 河南大学 | 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统 |
CN112860842A (zh) * | 2021-03-05 | 2021-05-28 | 联仁健康医疗大数据科技股份有限公司 | 病历标注方法、装置及存储介质 |
CN112992301A (zh) * | 2019-12-02 | 2021-06-18 | 金色熊猫有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN113436745A (zh) * | 2021-06-30 | 2021-09-24 | 四川大学华西医院 | 一种基于数据库分析的人工智能辅助诊断方法 |
CN113553852A (zh) * | 2021-08-31 | 2021-10-26 | 浪潮通用软件有限公司 | 一种基于神经网络的合同信息提取方法、系统和存储介质 |
CN113679348A (zh) * | 2021-08-26 | 2021-11-23 | 平安国际智慧城市科技股份有限公司 | 血糖预测方法、血糖预测装置、设备及存储介质 |
CN114334049A (zh) * | 2020-12-31 | 2022-04-12 | 中电云脑(天津)科技有限公司 | 一种电子病历结构化处理方法和装置及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
CN107480131A (zh) * | 2017-07-25 | 2017-12-15 | 李姣 | 中文电子病历症状语义提取方法及其系统 |
CN107527073A (zh) * | 2017-09-05 | 2017-12-29 | 中南大学 | 电子病历中命名实体的识别方法 |
CN107807917A (zh) * | 2017-09-27 | 2018-03-16 | 风变科技(深圳)有限公司 | 文本内容提取方法、装置、系统及存储介质 |
CN107832296A (zh) * | 2017-11-09 | 2018-03-23 | 南京邮电大学 | 一种基于条件随机场的电信领域命名实体识别方法 |
US20180089382A1 (en) * | 2016-09-28 | 2018-03-29 | International Business Machines Corporation | Container-Based Knowledge Graphs for Determining Entity Relations in Non-Narrative Text |
CN108491472A (zh) * | 2018-03-07 | 2018-09-04 | 新博卓畅技术(北京)有限公司 | 一种基于crf++分词构建医疗特征库的方法和系统 |
CN108538395A (zh) * | 2018-04-02 | 2018-09-14 | 上海市儿童医院 | 一种通用的医疗专病数据系统的构建方法 |
CN108549639A (zh) * | 2018-04-20 | 2018-09-18 | 山东管理学院 | 基于多特征模板修正的中医医案命名识别方法及系统 |
-
2018
- 2018-09-17 CN CN201811084818.0A patent/CN109166608A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
US20180089382A1 (en) * | 2016-09-28 | 2018-03-29 | International Business Machines Corporation | Container-Based Knowledge Graphs for Determining Entity Relations in Non-Narrative Text |
CN107480131A (zh) * | 2017-07-25 | 2017-12-15 | 李姣 | 中文电子病历症状语义提取方法及其系统 |
CN107527073A (zh) * | 2017-09-05 | 2017-12-29 | 中南大学 | 电子病历中命名实体的识别方法 |
CN107807917A (zh) * | 2017-09-27 | 2018-03-16 | 风变科技(深圳)有限公司 | 文本内容提取方法、装置、系统及存储介质 |
CN107832296A (zh) * | 2017-11-09 | 2018-03-23 | 南京邮电大学 | 一种基于条件随机场的电信领域命名实体识别方法 |
CN108491472A (zh) * | 2018-03-07 | 2018-09-04 | 新博卓畅技术(北京)有限公司 | 一种基于crf++分词构建医疗特征库的方法和系统 |
CN108538395A (zh) * | 2018-04-02 | 2018-09-14 | 上海市儿童医院 | 一种通用的医疗专病数据系统的构建方法 |
CN108549639A (zh) * | 2018-04-20 | 2018-09-18 | 山东管理学院 | 基于多特征模板修正的中医医案命名识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
邹杰利: "基于条件随机场的中文图书主题自动标引研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859813A (zh) * | 2019-01-30 | 2019-06-07 | 新华三大数据技术有限公司 | 一种实体修饰词识别方法及装置 |
CN109840275A (zh) * | 2019-01-31 | 2019-06-04 | 北京嘉和美康信息技术有限公司 | 一种医疗搜索语句的处理方法、装置和设备 |
CN109840275B (zh) * | 2019-01-31 | 2021-08-17 | 北京嘉和海森健康科技有限公司 | 一种医疗搜索语句的处理方法、装置和设备 |
CN110414395A (zh) * | 2019-07-18 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 内容识别方法、装置、服务器及存储介质 |
CN110414395B (zh) * | 2019-07-18 | 2022-08-02 | 北京字节跳动网络技术有限公司 | 内容识别方法、装置、服务器及存储介质 |
CN110472037A (zh) * | 2019-08-21 | 2019-11-19 | 北京大学第三医院(北京大学第三临床医学院) | 一种医学文献的指标和数值的提取方法及系统 |
CN110516241A (zh) * | 2019-08-26 | 2019-11-29 | 北京三快在线科技有限公司 | 地理地址解析方法、装置、可读存储介质及电子设备 |
CN112992301A (zh) * | 2019-12-02 | 2021-06-18 | 金色熊猫有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN112992301B (zh) * | 2019-12-02 | 2024-03-29 | 金色熊猫有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN111177309A (zh) * | 2019-12-05 | 2020-05-19 | 宁波紫冬认知信息科技有限公司 | 病历数据的处理方法及装置 |
CN111177309B (zh) * | 2019-12-05 | 2024-04-12 | 宁波紫冬认知信息科技有限公司 | 病历数据的处理方法及装置 |
CN111724873A (zh) * | 2020-06-18 | 2020-09-29 | 北京嘉和海森健康科技有限公司 | 一种数据处理方法及装置 |
CN111724873B (zh) * | 2020-06-18 | 2024-01-09 | 北京嘉和海森健康科技有限公司 | 一种数据处理方法及装置 |
CN112069821A (zh) * | 2020-09-10 | 2020-12-11 | 北京明略昭辉科技有限公司 | 一种命名实体的提取方法、装置、电子设备及存储介质 |
CN112151186A (zh) * | 2020-10-05 | 2020-12-29 | 河南大学 | 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统 |
CN114334049B (zh) * | 2020-12-31 | 2024-06-07 | 中电云脑(天津)科技有限公司 | 一种电子病历结构化处理方法和装置及设备 |
CN114334049A (zh) * | 2020-12-31 | 2022-04-12 | 中电云脑(天津)科技有限公司 | 一种电子病历结构化处理方法和装置及设备 |
CN112860842A (zh) * | 2021-03-05 | 2021-05-28 | 联仁健康医疗大数据科技股份有限公司 | 病历标注方法、装置及存储介质 |
CN113436745A (zh) * | 2021-06-30 | 2021-09-24 | 四川大学华西医院 | 一种基于数据库分析的人工智能辅助诊断方法 |
CN113679348B (zh) * | 2021-08-26 | 2024-02-06 | 深圳平安智慧医健科技有限公司 | 血糖预测方法、血糖预测装置、设备及存储介质 |
CN113679348A (zh) * | 2021-08-26 | 2021-11-23 | 平安国际智慧城市科技股份有限公司 | 血糖预测方法、血糖预测装置、设备及存储介质 |
CN113553852B (zh) * | 2021-08-31 | 2023-06-20 | 浪潮通用软件有限公司 | 一种基于神经网络的合同信息提取方法、系统和存储介质 |
CN113553852A (zh) * | 2021-08-31 | 2021-10-26 | 浪潮通用软件有限公司 | 一种基于神经网络的合同信息提取方法、系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109166608A (zh) | 电子病历信息提取方法、装置和设备 | |
Juhn et al. | Artificial intelligence approaches using natural language processing to advance EHR-based clinical research | |
CN108319605B (zh) | 医学检查数据的结构化处理方法及系统 | |
Meystre et al. | Natural language processing to extract medical problems from electronic clinical documents: performance evaluation | |
Dalianis et al. | HEALTH BANK-A Workbench for Data Science Applications in Healthcare. | |
Qenam et al. | Text simplification using consumer health vocabulary to generate patient-centered radiology reporting: translation and evaluation | |
CN110827941B (zh) | 电子病历信息校正方法及系统 | |
JP7304960B2 (ja) | 健康情報に基づく予後スコア | |
JP6907831B2 (ja) | コンテキストベースの患者類似性の方法及び装置 | |
CN110069779B (zh) | 医疗文本的症状实体识别方法及相关装置 | |
JP2017174405A (ja) | オープンデータ及び臨床医の入力を用いて患者の治療リスクを評価するシステム及び方法 | |
CN110033859A (zh) | 评估患者的医学检查结果的方法、系统、程序和存储介质 | |
JP2017174404A (ja) | オープンデータ及び臨床医の入力を用いて患者のリスクを評価するシステム及び方法 | |
Velupillai et al. | Identifying suicidal adolescents from mental health records using natural language processing | |
US10847261B1 (en) | Methods and systems for prioritizing comprehensive diagnoses | |
CN111274400B (zh) | 一种医学术语系统的构建方法、装置、设备及存储介质 | |
CN112541066A (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
Lindvall et al. | Deep learning for cancer symptoms monitoring on the basis of electronic health record unstructured clinical notes | |
Miller et al. | Natural language processing of radiology reports to detect complications of ischemic stroke | |
Wang et al. | Leveraging weak supervision to perform named entity recognition in electronic health records progress notes to identify the ophthalmology exam | |
JP2022504508A (ja) | モデル支援型事象予測のためのシステム及び方法 | |
CN110377698B (zh) | 基于阅读理解的任务处理方法及装置、设备及可读介质 | |
Ryu et al. | Natural language processing of serum protein electrophoresis reports in the Veterans Affairs health care system | |
Perotte et al. | Characterization of Electronic Health Record Documentation Shortcuts: Does the use of dotphrases increase efficiency in the Emergency Department? | |
JP2021524097A (ja) | 異種医用データの優先順位付け及び提示のためのシステム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190108 |