CN113204942A - 病案编码方法、装置、终端设备及可读存储介质 - Google Patents
病案编码方法、装置、终端设备及可读存储介质 Download PDFInfo
- Publication number
- CN113204942A CN113204942A CN202110410511.0A CN202110410511A CN113204942A CN 113204942 A CN113204942 A CN 113204942A CN 202110410511 A CN202110410511 A CN 202110410511A CN 113204942 A CN113204942 A CN 113204942A
- Authority
- CN
- China
- Prior art keywords
- entity
- medical record
- target
- entities
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 99
- 238000012549 training Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 17
- 201000010099 disease Diseases 0.000 claims description 16
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000007787 solid Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请适用于计算机技术领域,提供了一种病案编码方法、装置、终端设备及可读存储介质。病案编码方法包括:获取待编码病案;将所述待编码病案输入预先建立的实体抽取模型,输出所述待编码病案中包含的实体,得到目标实体;其中,所述实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型;获取病案编码字典库,所述病案编码字典库中包括多个实体,以及每个所述实体对应的规范ICD编码;将所述目标实体与所述病案编码字典库中的实体进行匹配,确定所述目标实体对应的规范ICD编码。本申请提供的病案编码方法提高了病案编码的准确性。
Description
技术领域
本申请属于计算机技术领域,尤其涉及一种病案编码方法、装置、终端设备及可读存储介质。
背景技术
随着医药卫生体制改革的深入,医院中多项工作均需要依照疾病类别进行区分和统计,而病案编码是疾病分类的重要体现。因此,规范和高质量的病案编码显得尤其重要。
传统技术中,病案编码多由人工进行编码。病案编码人员通过病案首页中的主要诊断、其它诊断、门诊急诊诊断、损伤与中毒的外部原因和病理诊断等信息,依据标准代码表和编码规则,以诊断名称为线索,结合病历信息,确定疾病对应的疾病编码项,生成病案编码。
然而,人工进行病案编码容易出现高码低编、编码漏编或低码高编等现象,病案编码准确性较差。
发明内容
本申请提供一种病案编码方法、装置、终端设备及可读存储介质,可以解决病案编码准确性差的问题。
第一方面,本申请实施例提供了一种病案编码方法,包括:
获取待编码病案;
将所述待编码病案输入预先建立的实体抽取模型,输出所述待编码病案中包含的实体,得到目标实体;其中,所述实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型;
获取病案编码字典库,所述病案编码字典库中包括多个实体,以及每个所述实体对应的规范ICD编码;
将所述目标实体与所述病案编码字典库中的实体进行匹配,确定所述目标实体对应的规范ICD编码。
在其中一个实施例中,所述将所述待编码病案输入预先建立的实体抽取模型,输出所述待编码病案中包含的目标实体,包括:
将所述待编码病案输入所述实体字典抽取模型,输出至少一个第一目标实体,以及每个所述第一目标实体在所述待编码病案中的第一位置信息;
将所述待编码病案输入所述命名实体识别模型,输出至少一个第二目标实体,以及每个所述第二目标实体在所述待编码病案中的第二位置信息;
确定是否存在与各个所述第一位置信息相同的重叠第二位置信息;
若存在,则舍弃所述重叠第二位置信息对应的第二目标实体,将剩余的第二目标实体和各个所述第一目标实体作为所述目标实体。
在其中一个实施例中,所述方法还包括:
若不存在,则将各个所述第二目标实体和各个所述第一目标实体作为所述目标实体。
在其中一个实施例中,所述方法还包括:
基于所述病案编码字典库构建所述实体字典抽取模型;
构建所述命名实体识别模型;
将所述实体字典抽取模型和所述命名实体识别模型进行融合,得到所述实体抽取模型。
在其中一个实施例中,所述构建所述命名实体识别模型,包括:
获取训练语料;
基于所述训练语料对初始命名实体识别模型进行训练,得到所述命名实体识别模型。
在其中一个实施例中,所述获取训练语料包括:
获取样本病案;
将所述样本病案输入所述实体字典抽取模型,输出所述样本病案中包含的实体,得到样本实体;
对所述样本实体进行标注修正,得到所述训练语料。
在其中一个实施例中,所述获取病案编码字典库,包括:
基于分类标准信息建立所述病案编码字典库,所述分类标准信息包括疾病分类标准信息和手术分类标准信息中的至少一种。
第二方面,本申请实施例提供了一种病案编码装置,包括:
第一获取模块,用于获取待编码病案;
抽取模块,用于将所述待编码病案输入预先建立的实体抽取模型,输出所述待编码病案中包含的实体,得到目标实体;其中,所述实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型;
第二获取模块,用于获取病案编码字典库,所述病案编码字典库中包括多个实体,以及每个所述实体对应的规范ICD编码;
匹配模块,用于将所述目标实体与所述病案编码字典库中的实体进行匹配,确定所述目标实体对应的规范ICD编码。
第三方面,本申请实施例提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的病案编码方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的病案编码方法。
本申请提供的病案编码方法、装置、终端设备及可读存储介质,通过获取病案编码,将待编码病案输入预先建立的实体抽取模型,输出目标实体。通过获取病案编码字典库,将目标实体与病案编码字典库中的实体进行匹配,确定目标实体对应的规范ICD编码。本申请实施例提供的病案编码方法、装置、终端设备及可读存储介质,能够实现自动实现病案编码,无需人工进行病案编码,不仅提高了病案编码的效率,而且提高了病案编码的准确性。同时,本实施例中,实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型,所以实体抽取模型对目标实体抽取时,覆盖范围广,适应能力强,且抽取结果准确性高,避免目标实体的漏抽取和错抽取,因而能够有效避免病案编码时编码漏编、编码错编的情况,进一步提高了病案编码的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的病案编码方法所适用于的终端结构示意图;
图2是本申请一实施例提供的病案编码方法的流程示意图;
图3是本申请另一实施例提供的病案编码方法的流程示意图;
图4是本申请一实施例提供的病案编码装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请实施例中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
可以理解,本申请所使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请实施例提供的病案编码方法,可以应用于终端设备。示例性的,图1为本申请一实施例提供的终端设备的结构示意图。如图1所示,终端设备可以包括:处理器10、存储器11以及存储在存储器11中并可在处理器10上运行的计算机程序12,处理器10执行计算机程序12时可以实现本申请实施例提供的病案编码方法。其中,本申请实施例对处理器10、存储器11的数量和类型不做限定。
其中,本申请实施例对终端设备1的类型不做限定。例如,可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。
本申请实施例提供的病案编码方法,可以包括但不限于与智慧医疗大数据分析应用平台相结合,具体的应用和实现方法可以如下:
1、病案编码的纠正与补全:将本申请实施例提供的方法集成至智慧医疗大数据分析应用平台。通过智慧医疗大数据分析应用平台输入关键词,向用户返回规范标准的病案名称列表及对应的规范国际疾病分类(International Classification of Diseases,ICD)编码(以下均称为规范ICD编码),使用户基于返回的病案名称列表进行原始病案编码的纠正和补全。本申请实施例提供的方法为智慧医疗大数据分析应用平台提供智能编码引擎支撑。
2、病案内容审核:将本申请实施例提供的方法与各个医院的电子病历系统对接,对电子病历进行内容抽取和解析,基于解析生成的病案编码,对病案内容进行审核。本申请实施例提供的方法能够实现电子病案智能编码映射。
下面将结合附图,对本申请中的技术方案进行详细描述。需要说明,在不冲突的情况下,本申请中不同的技术特征之间可以相互结合。
图2示出了本申请提供的病案编码方法的示意性流程图。如图2所示,本实施例提供的病案编码方法,可以包括:
S201、获取待编码病案。
待编码病案是指需要进行编码的病案,其中,病案包括但不限于电子病历、病案首页、诊断信息、手术记录、病理检测结果,或者描述病情的文本信息等。待编码病案中包括实体,其中,实体也即病案实体,是指表征疾病的信息。实体可以包括手术实体、诊断实体等。
S202、将待编码病案输入预先建立的实体抽取模型,输出待编码病案中包含的实体,得到目标实体。其中,实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别(Named Entity Recognition,NER)模型融合后得到的模型。
本实施例中,实体抽取模型用于从待编码病案中抽取实体。实体抽取模型根据实体字典抽取模型和命名实体识别模型融合得到。在一个具体的实施例中,实体字典抽取模型和命名实体识别模型分别对待编码病案进行抽取和识别,得到相对应的抽取结果,进一步将两种抽取结果进行融合处理,得到目标实体。对两种抽取结果的融合处理包括但不限于对有冲突的抽取结果的处理,对重复的抽取结果的去重等。可选的,实体抽取模型输出的结果除目标实体外,还可以进一步包括目标实体在待编码病案中的位置信息、以及目标实体对应的原文内容等。
可选的,实体抽取模型可以通过最大逆向匹配算法从待编码病案中抽取实体。可选的,命名实体识别模型可以为基于变换的双向编码表征(Bidirectional EncoderRepresentation from Transformers,BERT)、双向长短记忆网络(Bidirectional LongShort-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)模型,即BERT-BiLSTM-CRF模型。需要说明的是,本申请实施例对于实体抽取模型、命名实体识别模型的具体结构、算法等不做任何限定,只要能够实现其功能即可。
可以理解,实体字典抽取模型在目标实体抽取时,准确度较高但是覆盖范围较窄。而命名实体识别模型在目标实体抽取时,覆盖范围较广,适应能力强,对于包含拼写错误、错别字等问题的目标实体也能较好的识别,但准确度相对实体字典抽取模型低。本实施例中,将实体字典抽取模型和命名实体识别模型融合,得到的实体抽取模型对目标实体抽取时,覆盖范围广,适应能力强,且抽取结果准确性高。
S203、获取病案编码字典库,病案编码字典库中包括多个实体,以及每个实体对应的规范ICD编码。
病案编码字典库中包括的多个实体为规范、标准的实体,每个实体均有对应的规范ICD编码。可选的,病案编码字典库中还可以包括每个实体对应的类型等。
S204、将目标实体与病案编码字典库中实体进行匹配,确定目标实体对应的规范ICD编码。
可选的,可以分别计算目标实体与病案编码字典库中的各个实体的编辑距离,根据编辑距离计算目标实体与病案编码字典库中各个实体的相似度,取相似度最高的实体作为最佳匹配实体。获取最佳匹配实体对应的规范ICD编码,得到目标实体对应的规范ICD编码。
进一步的,可以将目标实体对应的规范ICD编码、目标实体对应的病案编码字典库中的标准实体、病案类型、目标实体对应的原文内容、目标实体在待编码病案中的位置信息以及匹配度等多项内容通过接口返回。其中,匹配度是指目标实体与该目标实体对应的病案编码字典库中的标准实体的匹配度。
本实施例中,通过获取病案编码,将待编码病案输入预先建立的实体抽取模型,输出目标实体。通过获取病案编码字典库,将目标实体与病案编码字典库中的实体进行匹配,确定目标实体对应的规范ICD编码。本实施例提供的方法能够实现病案编码,无需人工进行病案编码,不仅提高了病案编码的效率,而且提高了病案编码的准确性。同时,本实施例中,实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型,所以实体抽取模型对目标实体抽取时,覆盖范围广,适应能力强,且抽取结果准确性高,避免目标实体的漏抽取和错抽取,因而能够有效避免病案编码时编码漏编、编码错编的情况,进一步提高了病案编码的准确性。
图3为一个实施例中,将待编码病案输入预先建立的实体抽取模型,输出所述待编码病案中包含的目标实体的一种可能的实现方式,如图3所示,S202包括:
S301、将待编码病案输入实体字典抽取模型,输出至少一个第一目标实体,以及每个第一目标实体在待编码病案中的第一位置信息。
S302、将待编码病案输入命名实体识别模型,输出至少一个第二目标实体,以及每个第二目标实体在待编码病案中的第二位置信息。
S303、确定是否存在与各个第一位置信息相同的重叠第二位置信息;
若存在,则执行S304、舍弃重叠第二位置信息对应的第二目标实体,将剩余的第二目标实体和各个第一目标实体作为上述目标实体。
若不存在,则执行S305、将各个第二目标实体和各个第一目标实体作为上述目标实体。
本实施例中,实体字典抽取模型对待编码病案抽取的结果包括第一目标实体和第一目标实体在待编码病案中的位置信息,即第一位置信息。命名实体识别模型对待编码病案的识别结果包括第二目标实体和第二目标实体在待编码病案中的位置信息,即第二位置信息。可以理解,第一目标实体和第二目标实体的数量可以为1个,也可以为多个。第一目标实体和第二目标实体对应的位置信息可能相同,也可能不相同。当所有的第一目标实体均与各个第二目标实体在待编码病案中的位置信息不同时,直接将所有的第一目标实体和第二目标实体作为最终的抽取结果。当第一目标实体与第二目标实体在待编码病案中的位置信息相同时,则该位置信息对应的抽取结果以实体字典抽取模型的抽取结果(第一目标实体)为准。
具体的,可以分别判断每个第二位置信息是否与各个第一位置信息相同,若不存在与某一个第一位置信息相同的第二位置信息,则直接将所有的第一目标实体和所有的第二目标实体作为最终的目标实体。若存在与某一个第一位置信息相同的第二位置信息,该第二位置信息命名为重叠第二位置信息。将重叠第二位置信息对应的第二目标实体舍弃,剩余的第二目标实体和所有的第一目标实体作为最终的目标实体。如此,不仅能够去除实体抽取模型和命名实体识别模型抽取结果中的重复内容,而且能够保证在两种模型抽取结果不同时,以实体抽取模型的抽取结果为准,由于实体抽取模型的抽取结果较为准确,因此这样能够提高目标实体抽取的准确性,从而提高病案编码的准确性。
在一个实施例中,步骤S203、获取病案编码字典库包括:
基于分类标准信息建立病案编码字典库,其中,分类标准信息包括疾病分类标准信息和手术分类标准信息中的一种。
分类标准信息是指对病案进行分类的标准或规定,可以为国际分类标准,也可以是国家分类标准,还可以是行业分类标准。疾病分类标准信息是用于对疾病类型进行分类的标准或规定。手术分类标准信息是用于对手术类型进行分类的标准或规定。在一个具体的实施例中,疾病分类标准信息可以为ICD10,手术分类标准信息可以为ICD9,即,基于ICD10和ICD9建立病案编码字典库。
本实施例中,基于分类标准信息建立病案编码字典库能够提高病案编码字典库的准确性,从而提高病案编码准确性。
在一个实施例中,病案编码方法还进一步包括建立实体抽取模型的过程,具体的,所述方法还包括:基于病案编码字典库构建实体字典抽取模型;构建命名实体识别模型;将实体字典抽取模型和命名实体识别模型进行融合,得到实体抽取模型。
可选的,构建命名实体识别模型可以通过以下方式实现:获取训练语料;基于训练语料对初始命名实体识别模型进行训练,得到命名实体识别模型。具体的,可以通过获取样本病案,将样本病案输入上述实体字典抽取模型进行预识别,得到样本病案中包含的实体,得到样本实体。对该样本实体进行标注修正,得到训练语料。可选的,可以使用人工标注工具对样本实体进行标注和修正,删除虚警部分,修正编码或类型错误,补充漏标实体,得到最终的训练语料。其中,虚警部分是指将非实体的内容错误的标注为实体的部分。当然,也可以使用其他标注和修正方式对样本实体进行标注修正,得到训练语料。本申请实施例对于标注和修正的具体实现方式不做任何限定,只要能够实现其功能即可。
本实施例中,通过将样本病案输入实体字典抽取模型,提高得到的样本实体的准确性,同时,对样本实体进行标注修正,进一步提高得到的训练语料的准确性。如此,基于准确的训练语料训练得到的命名实体识别模型的识别准确度更高,模型稳定性也更高,从而提高了病案编码的准确性。
以下对病案编码方法的整体过程进行说明,该方法可以包括:
1)建立病案编码字典库
基于分类标准信息建立病案编码字典库,其中,分类标准信息包括疾病分类标准信息和手术分类标准信息中的一种;病案编码字典库中包括多个实体,以及每个实体对应的规范ICD编码。
2)构建实体字典库
基于病案编码字典库构建实体字典抽取模型。
3)构建命名实体识别模型
获取样本病案,将样本病案输入上述实体字典抽取模型进行预识别,得到样本病案中包含的实体,得到样本实体;对该样本实体进行标注修正,得到训练语料;基于训练语料对初始命名实体识别模型进行训练,得到命名实体识别模型。
4)模型融合
将实体字典抽取模型和命名实体识别模型进行融合,得到实体抽取模型。
5)实体识别
获取待编码病案;将待编码病案输入预先建立的实体抽取模型,输出待编码病案中包含的实体,得到目标实体。
具体的:将待编码病案输入实体字典抽取模型,输出至少一个第一目标实体,以及每个第一目标实体在待编码病案中的第一位置信息;
将待编码病案输入命名实体识别模型,输出至少一个第二目标实体,以及每个第二目标实体在待编码病案中的第二位置信息;
确定是否存在与各个第一位置信息相同的重叠第二位置信息;
若存在,则舍弃重叠第二位置信息对应的第二目标实体,将剩余的第二目标实体和各个第一目标实体作为上述目标实体;
若不存在,则将各个第二目标实体和各个第一目标实体作为上述目标实体。
6)实体匹配
将目标实体与病案编码字典库中实体进行匹配,确定目标实体对应的规范ICD编码。
图4示出了本申请实施例提供的病案编码装置的结构框图。如图4所示,本实施例提供的病案编码装置,可以包括:
第一获取模块410,用于获取待编码病案;
抽取模块420,用于将所述待编码病案输入预先建立的实体抽取模型,输出所述待编码病案中包含的实体,得到目标实体;其中,所述实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型;
第二获取模块430,用于获取病案编码字典库,所述病案编码字典库中包括多个实体,以及每个所述实体对应的规范ICD编码;
匹配模块440,用于将所述目标实体与所述病案编码字典库中的实体进行匹配,确定所述目标实体对应的规范ICD编码。
在一个实施例中,抽取模块420具体用于将所述待编码病案输入所述实体字典抽取模型,输出至少一个第一目标实体,以及每个所述第一目标实体在所述待编码病案中的第一位置信息;将所述待编码病案输入所述命名实体识别模型,输出至少一个第二目标实体,以及每个所述第二目标实体在所述待编码病案中的第二位置信息;确定是否存在与各个所述第一位置信息相同的重叠第二位置信息;若存在,则舍弃所述重叠第二位置信息对应的第二目标实体,将剩余的第二目标实体和各个所述第一目标实体作为所述目标实体。
在一个实施例中,抽取模块420还用于若不存在,则将各个所述第二目标实体和各个所述第一目标实体作为所述目标实体。
在一个实施例中,病案编码装置还包括模型建立模块450,用于基于所述病案编码字典库构建所述实体字典抽取模型;构建所述命名实体识别模型;将所述实体字典抽取模型和所述命名实体识别模型进行融合,得到所述实体抽取模型。
在一个实施例中,模型建立模块450具体用于获取训练语料;基于所述训练语料对初始命名实体识别模型进行训练,得到所述命名实体识别模型。
在一个实施例中,模型建立模块450还用于获取样本病案;将所述样本病案输入所述实体字典抽取模型,输出所述样本病案中包含的实体,得到样本实体;对所述样本实体进行标注修正,得到所述训练语料。
在一个实施例中,第二获取模块430具体用于基于分类标准信息建立所述病案编码字典库,所述分类标准信息包括疾病分类标准信息和手术分类标准信息中的至少一种。
本实施例提供的病案编码装置,用于执行本申请方法实施例提供的病案编码方法,技术原理和技术效果相似,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种终端设备,例如图1所示,该终端设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述任意方法实施例中的步骤。
本领域技术人员可以理解,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种病案编码方法,其特征在于,包括:
获取待编码病案;
将所述待编码病案输入预先建立的实体抽取模型,输出所述待编码病案中包含的实体,得到目标实体;其中,所述实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型;
获取病案编码字典库,所述病案编码字典库中包括多个实体,以及每个所述实体对应的规范ICD编码;
将所述目标实体与所述病案编码字典库中的实体进行匹配,确定所述目标实体对应的规范ICD编码。
2.根据权利要求1所述的方法,其特征在于,所述将所述待编码病案输入预先建立的实体抽取模型,输出所述待编码病案中包含的目标实体,包括:
将所述待编码病案输入所述实体字典抽取模型,输出至少一个第一目标实体,以及每个所述第一目标实体在所述待编码病案中的第一位置信息;
将所述待编码病案输入所述命名实体识别模型,输出至少一个第二目标实体,以及每个所述第二目标实体在所述待编码病案中的第二位置信息;
确定是否存在与各个所述第一位置信息相同的重叠第二位置信息;
若存在,则舍弃所述重叠第二位置信息对应的第二目标实体,将剩余的第二目标实体和各个所述第一目标实体作为所述目标实体。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若不存在,则将各个所述第二目标实体和各个所述第一目标实体作为所述目标实体。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述病案编码字典库构建所述实体字典抽取模型;
构建所述命名实体识别模型;
将所述实体字典抽取模型和所述命名实体识别模型进行融合,得到所述实体抽取模型。
5.根据权利要求4所述的方法,其特征在于,所述构建所述命名实体识别模型,包括:
获取训练语料;
基于所述训练语料对初始命名实体识别模型进行训练,得到所述命名实体识别模型。
6.根据权利要求5所述的方法,其特征在于,所述获取训练语料包括:
获取样本病案;
将所述样本病案输入所述实体字典抽取模型,输出所述样本病案中包含的实体,得到样本实体;
对所述样本实体进行标注修正,得到所述训练语料。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述获取病案编码字典库,包括:
基于分类标准信息建立所述病案编码字典库,所述分类标准信息包括疾病分类标准信息和手术分类标准信息中的至少一种。
8.一种病案编码装置,其特征在于,包括:
第一获取模块,用于获取待编码病案;
抽取模块,用于将所述待编码病案输入预先建立的实体抽取模型,输出所述待编码病案中包含的实体,得到目标实体;其中,所述实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型;
第二获取模块,用于获取病案编码字典库,所述病案编码字典库中包括多个实体,以及每个所述实体对应的规范ICD编码;
匹配模块,用于将所述目标实体与所述病案编码字典库中的实体进行匹配,确定所述目标实体对应的规范ICD编码。
9.一种终端设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110410511.0A CN113204942A (zh) | 2021-04-16 | 2021-04-16 | 病案编码方法、装置、终端设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110410511.0A CN113204942A (zh) | 2021-04-16 | 2021-04-16 | 病案编码方法、装置、终端设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113204942A true CN113204942A (zh) | 2021-08-03 |
Family
ID=77027241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110410511.0A Pending CN113204942A (zh) | 2021-04-16 | 2021-04-16 | 病案编码方法、装置、终端设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204942A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658720A (zh) * | 2021-08-23 | 2021-11-16 | 中国医学科学院北京协和医院 | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 |
CN114005544A (zh) * | 2021-11-12 | 2022-02-01 | 广东省实验动物监测所 | 一种人类疾病动物模型资源的数据管理方法和系统 |
CN116453637A (zh) * | 2023-03-20 | 2023-07-18 | 杭州市卫生健康事业发展中心 | 一种基于区域大数据的健康数据治理方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180046764A1 (en) * | 2016-08-10 | 2018-02-15 | Talix, Inc. | Health information system for searching, analyzing and annotating patient data |
CN109785959A (zh) * | 2018-12-14 | 2019-05-21 | 平安医疗健康管理股份有限公司 | 一种疾病编码方法和装置 |
CN110660459A (zh) * | 2019-08-30 | 2020-01-07 | 腾讯科技(深圳)有限公司 | 用于病案质控的方法、装置、服务器以及存储介质 |
CN111210916A (zh) * | 2019-12-23 | 2020-05-29 | 望海康信(北京)科技股份公司 | 病案首页编码方法及系统 |
CN112001177A (zh) * | 2020-08-24 | 2020-11-27 | 浪潮云信息技术股份公司 | 融合深度学习与规则的电子病历命名实体识别方法及系统 |
CN112599214A (zh) * | 2021-03-04 | 2021-04-02 | 中译语通科技股份有限公司 | 从电子病历中提取出icd编码的方法及系统 |
-
2021
- 2021-04-16 CN CN202110410511.0A patent/CN113204942A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180046764A1 (en) * | 2016-08-10 | 2018-02-15 | Talix, Inc. | Health information system for searching, analyzing and annotating patient data |
CN109785959A (zh) * | 2018-12-14 | 2019-05-21 | 平安医疗健康管理股份有限公司 | 一种疾病编码方法和装置 |
CN110660459A (zh) * | 2019-08-30 | 2020-01-07 | 腾讯科技(深圳)有限公司 | 用于病案质控的方法、装置、服务器以及存储介质 |
CN111210916A (zh) * | 2019-12-23 | 2020-05-29 | 望海康信(北京)科技股份公司 | 病案首页编码方法及系统 |
CN112001177A (zh) * | 2020-08-24 | 2020-11-27 | 浪潮云信息技术股份公司 | 融合深度学习与规则的电子病历命名实体识别方法及系统 |
CN112599214A (zh) * | 2021-03-04 | 2021-04-02 | 中译语通科技股份有限公司 | 从电子病历中提取出icd编码的方法及系统 |
Non-Patent Citations (3)
Title |
---|
李纲;潘荣清;毛进;操玉杰;: "整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别", 现代情报, no. 04, 30 March 2020 (2020-03-30) * |
李飞;朱艳辉;王天吉;徐啸;冀相冰;: "基于医疗类别的电子病历命名实体识别研究", 湖南工业大学学报, no. 04, 16 July 2018 (2018-07-16) * |
龙光宇;徐云;: "CRF与词典相结合的疾病命名实体识别", 微型机与应用, no. 21, 10 November 2017 (2017-11-10) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658720A (zh) * | 2021-08-23 | 2021-11-16 | 中国医学科学院北京协和医院 | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 |
CN114005544A (zh) * | 2021-11-12 | 2022-02-01 | 广东省实验动物监测所 | 一种人类疾病动物模型资源的数据管理方法和系统 |
CN116453637A (zh) * | 2023-03-20 | 2023-07-18 | 杭州市卫生健康事业发展中心 | 一种基于区域大数据的健康数据治理方法和系统 |
CN116453637B (zh) * | 2023-03-20 | 2023-11-07 | 杭州市卫生健康事业发展中心 | 一种基于区域大数据的健康数据治理方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408631B (zh) | 药品数据处理方法、装置、计算机设备和存储介质 | |
CN110021439B (zh) | 基于机器学习的医疗数据分类方法、装置和计算机设备 | |
CN113204942A (zh) | 病案编码方法、装置、终端设备及可读存储介质 | |
CN112365987B (zh) | 诊断数据异常检测方法、装置、计算机设备及存储介质 | |
CN107833603B (zh) | 电子病历文档分类方法、装置、电子设备及存储介质 | |
CN107609163B (zh) | 医学知识图谱的生成方法、存储介质及服务器 | |
CN109783617B (zh) | 用于答复问题的模型训练方法、装置、设备及存储介质 | |
CN108090068B (zh) | 医院数据库中的表的分类方法及装置 | |
CN110674319A (zh) | 标签确定方法、装置、计算机设备及存储介质 | |
CN111445968A (zh) | 电子病历查询方法、装置、计算机设备和存储介质 | |
CN108427702B (zh) | 目标文档获取方法及应用服务器 | |
CN113707303A (zh) | 基于知识图谱的医疗问题解答方法、装置、设备及介质 | |
CN112151141A (zh) | 医疗数据处理方法、装置、计算机设备和存储介质 | |
WO2022068160A1 (zh) | 基于人工智能的重症问诊数据识别方法、装置、设备及介质 | |
CN111435364B (zh) | 电子病历质检方法和装置 | |
CN112035610A (zh) | 医疗领域问答对的生成方法、装置、计算机设备和介质 | |
CN110752027B (zh) | 电子病历数据推送方法、装置、计算机设备和存储介质 | |
CN114358001A (zh) | 诊断结果的标准化方法及其相关装置、设备和存储介质 | |
CN111221876A (zh) | 数据降维处理方法、装置、计算机设备和存储介质 | |
CN113707304B (zh) | 分诊数据处理方法、装置、设备及存储介质 | |
CN109509102B (zh) | 理赔决策方法、装置、计算机设备和存储介质 | |
CN111429991B (zh) | 药品预测方法、装置、计算机设备及存储介质 | |
CN113724830A (zh) | 基于人工智能的用药风险检测方法及相关设备 | |
CN111383726A (zh) | 电子病历数据处理方法、装置、电子设备及可读介质 | |
CN113241193A (zh) | 药物推荐模型训练方法、推荐方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |