CN113658720A - 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 - Google Patents
匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113658720A CN113658720A CN202110967570.8A CN202110967570A CN113658720A CN 113658720 A CN113658720 A CN 113658720A CN 202110967570 A CN202110967570 A CN 202110967570A CN 113658720 A CN113658720 A CN 113658720A
- Authority
- CN
- China
- Prior art keywords
- diagnosis name
- name
- diagnosis
- processed
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003745 diagnosis Methods 0.000 claims abstract description 332
- 238000002372 labelling Methods 0.000 claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims description 43
- 238000013507 mapping Methods 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 12
- 238000003759 clinical diagnosis Methods 0.000 abstract description 9
- 201000010099 disease Diseases 0.000 description 24
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 24
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000009966 trimming Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 206010015037 epilepsy Diseases 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 208000006454 hepatitis Diseases 0.000 description 2
- 231100000283 hepatitis Toxicity 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000002223 abdominal aortic aneurysm Diseases 0.000 description 1
- 210000000702 aorta abdominal Anatomy 0.000 description 1
- 208000007474 aortic aneurysm Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了匹配诊断名称和ICD编码的方法、装置、电子设备和存储介质,方法包括:获取待处理诊断名称;对待处理诊断名称进行序列标注,以将待处理诊断名称切分成多个字段并确定每个字段对应的实体类型;基于多个字段以及每个字段对应的实体类型,在查找树中寻找与待处理诊断名称匹配的标准诊断名称;将匹配到的标准诊断名称对应的ICD编码作为待处理诊断名称的ICD编码。本申请实施例中提供的技术方案,能够提高临床诊断名称和ICD编码匹配工作的工作效率。
Description
技术领域
本发明涉及医疗数据处理技术领域,更具体地,涉及一种匹配诊断名称和ICD编码的方法、装置、电子设备和存储介质。
背景技术
临床疾病诊断名称的标准化是疾病分类和实施疾病诊断相关分组(DiagnosisRelated Groups,DRG)的基础。在疾病诊断名称标准化需要将临床诊断名称与国际疾病分类(International Classification of Diseases,ICD)系统中的ICD编码进行匹配。但是目前主要的实现方式是直接将医生给出的临床诊断名称与ICD文件的社保版进行匹配对照,匹配成功的获取编码。但是由于医生的书写习惯不同,疾病诊断名称过粗或过细,同一种疾病各专科书写要求不同等等原因,导致该方案匹配度往往不高,后续人工修整耗费大量的人力、时间成本,工作效率较低。
发明内容
本申请实施例提供一种匹配诊断名称和ICD编码的方法、装置、电子设备及存储介质,以提高疾病诊断名称标准化过程中临床诊断名称和ICD编码匹配工作的工作效率。
第一方面,本申请一实施例提供了一种匹配诊断名称和ICD编码的方法,包括:
获取待处理诊断名称;
对所述待处理诊断名称进行序列标注,以将所述待处理诊断名称切分成多个字段并确定每个字段对应的实体类型;
基于所述多个字段以及每个字段对应的实体类型,在查找树中寻找与所述待处理诊断名称匹配的标准诊断名称;其中,所述查找树包括多个层,每一层对应一种实体类型,每层中的每个节点代表切分字段集合中的一个字段,所述切分字段集合包括对标准诊断名称进行切分后获得的字段,属于同一个标准诊断名称的各字段对应的节点之间相连接;
将匹配到的标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码。
可选地,所述获取待处理诊断名称,包括:
从病历数据中获取原始诊断名称;
根据预设的同义词映射表获得与所述原始诊断名称对应的映射诊断名称;其中所述同义词映射表包括标准诊断名称所使用的标准用词和各标准用词对应的同义词之间的映射关系;
将获得的映射诊断名称作为待处理诊断名称。
可选地,所述方法还包括:
若基于所述多个字段以及每个字段对应的实体类型,在查找树中未寻找到与所述待处理诊断名称匹配的标准诊断名称,则基于所述多个字段中部分实体类型对应的字段,在查找树中寻找与所述待处理诊断名称匹配的标准诊断名称。
可选地,在所述查找树中,距离根节点最近的一层所对应的实体类型为诊断原子名称。
可选地,所述方法还包括:
若基于所述查找树未匹配到标准诊断名称,则从所述查找树中获取与所述待处理诊断名称相似度最高的候选标准诊断名称;
输出进行人工判断的提示信息,所述提示信息包括所述候选标准诊断名称和所述待处理诊断名称;
若人工判断结果为所述候选标准诊断名称与所述待处理诊断名称匹配,则将所述候选标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码。
可选地,所述方法还包括:若人工判断结果为所述候选标准诊断名称与所述待处理诊断名称匹配,将所述候选标准诊断名称和所述待处理诊断名称作为一组同义词,添加到所述同义词映射表中。
可选地,所述从所述查找树中获取与所述待处理诊断名称相似度最高的候选标准诊断名称,具体包括:
从所述查找树中,获取与所述待处理诊断名称重合节点个数最多的标准诊断名称作为第一候选标准诊断名称;
若所述第一候选诊断名称的个数为一个,则将所述第一候选标准诊断名称作为所述候选标准诊断名称;
若所述第一候选诊断名称的个数为多个,则分别计算每个第一候选诊断名称与所述待处理诊断名称的编辑距离,将最小编辑距离对应的第一候选诊断名称作为所述候选标准诊断名称。
第二方面,本申请一实施例提供了一种匹配诊断名称和ICD编码的装置,包括:
获取单元,用于获取待处理诊断名称;
序列标注单元,用于对所述待处理诊断名称进行序列标注,以将所述待处理诊断名称切分成多个字段并确定每个字段对应的实体类型;
匹配单元,用于基于所述多个字段以及每个字段对应的实体类型,在查找树中寻找与所述待处理诊断名称匹配的标准诊断名称;其中,所述查找树包括多个层,每一层对应一种实体类型,每层中的每个节点代表切分字段集合中的一个字段,所述切分字段集合包括对标准诊断名称进行切分后获得的字段,属于同一个标准诊断名称的各字段对应的节点之间通过连线连接;
ICD编码获取单元;用于将匹配到的标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码。
第三方面,本申请一实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一种方法的步骤。
第四方面,本申请一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。
本申请实施例提供的技术方案,对待处理诊断名称进行序列标注,从而将待处理诊断名称进行切分多个字段并获得每个字段对应的实体类型,采用切分得到的多个字段和对应的实体类型在预设的查找树种寻找与待处理诊断名称匹配的标准诊断名称,将匹配到的标准诊断名称的ICD编码作为待处理诊断名称的ICD编码;其中预设的查找树是利用序列标注对标准诊断名称进行处理获得的切分字段以及字段对应的实体类型构建得到的。通过对待处理诊断名称进行序列标注可以实现将待处理诊断名称和标准诊断名称的逐字段进行匹配,减少人工的参与,提高工作效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1示出了根据本发明一个实施例的匹配诊断名称和ICD编码的方法的流程图。
图2示出了根据本发明一个实施例的BiLSTM-CRF算法的处理过程示意图。
图3示出了根据本发明另一个实施例的查找树的结构示意图。
图4示出了根据本发明一个实施例的本发明一个实施例中的匹配诊断名称和ICD编码的装置结构示意图;
图5示出了根据本发明另一个实施例中的一种计算机设备的内部结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
国际疾病分类(international Classification of diseases,ICD):是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统。ICD是WHO制定的国际统一的疾病分类方法,它根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合,并用编码的方法来表示的系统。目前全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》,仍保留了ICD的简称,并被统称为ICD-10。
标准诊断名称:指的是在ICD系统赋予疾病的疾病名称。
ICD编码:指的是ICD系统中与疾病名称对应的编码,其中每个疾病名称对应一个ICD编码。
查找树:指的是树,树是一种数据结构,它是由n(n>=1)个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。它具有以下的特点:每个节点有零个或多个子节点;没有父节点的节点称为根节点;每一个非根节点有且只有一个父节点;除了根节点外,每个子节点可以分为多个不相交的子树。
自然语言处理(Natural Language Processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向;它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
序列标注:是NLP中一个重要的任务,可用于解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识别、关系抽取等。序列标注常用的模型和算法包括:HMM(隐马尔可夫模型)、CRF(条件随机场)、BiLSTM-CRF、Lattice-LSTM-CRF和BERT-CRF等。
命名实体识别(Named Entity Recognition,NER):命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER指的是从非结构化的输入文本中抽取出上述实体,并且可以按照需求识别出更多其他类别的实体。
编辑距离:英文全称为Minimum Edit Distance或Levenshtein Distance,是针对两个字符串的差异程度的量化和量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。
下面介绍本申请实施例的设计思想。
临床疾病诊断名称的标准化是是疾病分类和实施DRG的基础,申请人对传统技术进行分析发现,在传统技术中一般是直接将医生给出的临床诊断名称与ICD文件的社保版进行匹配对照,匹配成功的获取编码,如果匹配不成功则需要人工进行修整。但是传统技术中的方案存在匹配度不高,人工修整工作量大,工作效率交底的技术问题。因此亟需一种能够提高临床诊断名称和ICD编码匹配度,从而减少后续人工修整工作,提高工作效率的技术方案。鉴于此,申请人考虑对待处理诊断名称进行序列标注,从而将待处理诊断名称切分成多个字段并确定每个字段对应的实体类型;然后基于多个字段以及每个字段对应的实体类型,在预设的查找树中寻找与待处理诊断名称匹配的标准诊断名称;最后将匹配到的标准诊断名称对应的ICD编码作为待处理诊断名称的ICD编码。在本申请中查找树是根据对标准诊断名称切分和进行实体类别划分后得到的,查找树包括多个层,每一层对应一种实体类型,每层中的每个节点代表切分字段集合中的一个字段,切分字段集合包括对标准诊断名称进行切分后获得的字段,属于同一个标准诊断名称的各字段对应的节点之间相连接。通过对待处理诊断名称进行序列标注,从而在按照实体类型分层的查找树中,根据待处理诊断名称的各个字段所属的实体类型进行逐层匹配,因此可以提高待处理诊断名称和标准诊断名称的匹配准确度,同时提高待处理诊断名称和ICD编码的匹配效率。
在介绍完本申请实施的设计思想后,下面对本申请实施的技术方案能够使用给的应用场景做一些简单的介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
为进一步说明本申请实施例提供的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
在一个实施例中,如图1所示,提供了一种匹配诊断名称和ICD编码的方法的流程图,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤101,获取待处理诊断名称。
在本发明实施例中,待处理诊断名称为任意需要进行标准化处理的诊断名称。待处理诊断名称可以来自于一个病例对应的各种诊疗信息,例如可以来自于病历、出院记录、手术记录过程等。上述诊疗信息可以是手写版本的,通过OCR或人工阅读的方法从上述信息中获取待匹配诊断名称;上述诊疗信息还可以是电子版本的,例如可以是电子病历,可以是采用标准接口或者RPA技术从医院的管理系统中获取待匹配的诊断名称。
在一个具体实施例中,待处理诊断名称来自于病案首页数据,病案首页(PatientDischarge Summary)是病人一次住院过程所产生的信息的摘要或概括,包括疾病诊断、手术、操作、输血、治疗结果、住院总费用、费用类别和费用支付方式等。
步骤102,对所述待处理诊断名称进行序列标注,以将所述待处理诊断名称切分成多个字段并确定每个字段对应的实体类型。
在本发明实施例中,对待处理诊断名称进行序列标注,从而将待处理诊断名称切分成多个字段并确定每个字段对应的实体类型。在本发明实施例中,对待处理诊断名称进行序列标注本质上是对其进行命名实体的识别,从而后续匹配过程依据不同字段对应的实体类型进行匹配。
步骤103,基于所述多个字段以及每个字段对应的实体类型,在查找树中寻找与所述待处理诊断名称匹配的标准诊断名称;其中,所述查找树包括多个层,每一层对应一种实体类型,每层中的每个节点代表切分字段集合中的一个字段,所述切分字段集合包括对标准诊断名称进行切分后获得的字段,属于同一个标准诊断名称的各字段对应的节点之间相连接。
在本发明实施例中,查找树是利用ICD文件中的标准诊断名称构建的,其中ICD文件可以是最新通用版本的ICD文件,例如目前常用的是ICD-10文件。
步骤104,将匹配到的标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码。
在本发明实施例中,通过在包括标准诊断名称和ICD编码映射关系的文件中进行查找,获得匹配到的标准诊断名称对应的ICD编码。在一个实施例中,包括标准诊断名称和ICD编码映射关系的文件可以为标准诊断名称表,在该表中标准诊断名称和ICD编码一一对应设置。
在一个实施例中,步骤103中的查找树的构建方法如下:将每个标准诊断名称输入到预设的序列标准模型中,获得每个标准诊断名称对应的切分结果,所述切分结果包括多个切分字段和每个切分字段对应的实体类型;利用切分结果构建包括多个层的查找树,每个层对应一种实体类型,每个层中的每个节点对应切分结果种的一个切分字段,其中属于同一个标准诊断名称的切分字段对应的节点之间相连接。基于上述方式构建的查找树,可降低标准诊断名称的存储量,且在匹配时按实体类型逐层匹配的方式,一方面可以提高匹配准确度,另一方面可以降低匹配次数,进而提高匹配效率。
在一个具体实施例中,对标准诊断名称进行序列标注将其分为不同的字段,并且识别每个字段对应得实体类型,具体的实体类型和对应的标识如表1所示。
表1
在一个实施例中,步骤102中的序列标注是将待处理诊断名称输入到预设的序列标注模型中完成的。步骤103中对标准诊断名称进行切分也是在预设的序列标注模型中完成的。
在一个实施例中,预设的序列标注模型采用的是BiLSTM-CRF算法。BiLSTM-CRF算法的处理过程如图2所示,如图2所示,对于一个诊断名称来说,在一个具体实施例中,序列标注的具体过程包括:将标准诊断名称输入到BiLSTM的输入层,经过embedding层将每个词汇或者字符映射为一个词向量或者字符向量,然后传入前向和后向的双向LSTM层,获得诊断名称的前向和后向向量,接着将前向和后向向量进行拼接作为当前词汇或字符的隐藏状态向量。双向LSTM层输出为每个字对应每种标签的得分,一个标签包括BIO标注和实体类型,其中B表示命名实体的开头,I表示命名实体剩余部分,O表示不属于实体部分,具体可参考图2中的示例。通过CRF模型对LSTM层的输出加以约束,从而确定每个字对应的标签。然后根据每个字对应的B、I、O标签,切分出多个实体,并获得每个实体对应的实体类型,输出最终的切分结果。如图2所示,标准诊断名称“腹主动脉瘤”经过序列标注模型后的切分结果为:“腹主动脉”的实体类型对应的标识为“BODY”,“瘤”的实体类型对应的标识为“ATOM”。
在一个实施例中,可统计每种实体类型包含的不同切分字段的数量,其中相同的切分字段仅统计一次,基于每种实体类型对应的不同切分字段的数量,确定查找树中每层节点对应的实体类型。例如,实体类型包含的不同切分字段的数量越多,实体类型对应的层越靠近查找树的根节点,因此,查找树中与根节点相邻的层对应包含不同切分字段的数量最多的实体类型。这样的设置方式可以减少节点数目,从而减小查找树占用的物理空间。
图3为本发明一个实施例中的查找树的示意图,该示意图只起到示意作用,主要目的是为了本领域技术人员可以更好的理解本申请,并不限定为本发明实施例中的查找树的实际结构。在图3所示的实施例中,诊断原子名称这一实体类型包含的不同切分字段的数量最多,因此将最靠近根节点的一层对应的实体类型设置为诊断原子名称(ATOM)。
在本发明实施例中,诊断原子名称一般位于诊断名称的结尾,即对应于切分结果中的最后一个字段。
在一个实施例中,步骤101具体包括以下步骤:从病历数据中获取原始诊断名称;根据预设的同义词映射表获得与所述原始诊断名称对应的映射诊断名称;其中所述同义词映射表包括标准诊断名称所使用的标准用词和各标准用词对应的同义词之间的映射关系;将获得的映射诊断名称作为待处理诊断名称。
在本发明实施例中,病历数据可以是入院记录、出院记录、手术记录过程或者病案首页数据等。同义词映射表中存储的标准用词可以是一个完整的标准诊断名称,也可以是标准诊断名称中的部分字段。当在同义词映射表中找到原始诊断名称对应的标准诊断名称时,可直接将原始诊断名称替换为该标准诊断名称;当在同义词映射表中无法找到对应的标准诊断名称时,可以对原始诊断名称中的部分字段用同义词进行替换,以获得映射诊断名称。因此,经过同义词映射表处理后得到的映射诊断名称可能是标准诊断名称也可能不是标准诊断名称。例如通过同义词映射表应映射后,“羊角风”被映射为“癫痫”,“乙肝”被映射为“乙型肝炎”;“肺CA”中的“CA”被映射为“癌”(有很多医生会把“癌”写称“CA或ca”)。
本发明实施例中,通过设置同义词映射表对原始诊断名称进行映射处理,可以将一些不规范的撰写方式进行规范和统一,同时部分常见的与标准诊断名称的同义词通过该同义词映射表之后映射为标准诊断名称,提高了后续匹配的成功率。
在一个实施例中,匹配诊断名称和ICD编码的方法还包括步骤:若基于所述多个字段以及每个字段对应的实体类型,在查找树中未寻找到与所述待处理诊断名称匹配的标准诊断名称,则基于所述多个字段中部分实体类型对应的字段,在查找树中寻找与所述待处理诊断名称匹配的标准诊断名称。其中可以忽略的部分实体类型包括:程度词、伴随词和方位词中的一个或多个。在实际应用中,可根据实体类型对诊断名称表达的实际内容的影响度来区分忽略顺序的,例如,程度词对于诊断名称影响最小,方位词影响最大,则可以先忽略程度词,基于剩余的其它类型的字段进行匹配,如果还是没有匹配到合适的标准诊断名称,则忽略程度词和伴随词后进行匹配,若依然没有匹配到合适的标准诊断名称,则忽略程度词、伴随词和方位词后进行匹配。通过忽略部分重要性较低的实体类型,进一步提高待处理诊断名称和ICD编码之间的匹配成功率。
在一个实施例中,匹配诊断名称和ICD编码的方法还包括步骤:若基于所述查找树未匹配到标准诊断名称,则从所述查找树中获取与所述待处理诊断名称相似度最高的候选标准诊断名称;输出进行人工判断的提示信息,所述提示信息包括所述候选标准诊断名称和所述待处理诊断名称;若人工判断结果为所述候选标准诊断名称与所述待处理诊断名称匹配,则将所述候选标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码。在本发明实施例中,对于在步骤103中没有匹配到标准诊断名称的待处理诊断名称来说,通过输出与待处理诊断名称相似度的候选诊断名称并输出人工判断的提示信息,增加人工判断的步骤可以进一步提高匹配成功率和匹配的准确度,并且由于在查找树查找到了与待处理诊断名称相似度最高的候选标准诊断名称,缩小人工判断的范围,从而降低了人工判断的难度,提高工作效率。
在一个实施例中,步骤所述查找树中获取与所述待处理诊断名称相似度最高的候选标准诊断名称,具体包括:从所述查找树中,获取与所述待处理诊断名称重合节点个数最多的标准诊断名称作为第一候选标准诊断名称;若所述第一候选诊断名称的个数为一个,则将所述第一候选标准诊断名称作为所述候选标准诊断名称;若所述第一候选诊断名称的个数为多个,则分别计算每个第一候选诊断名称与所述待处理诊断名称的编辑距离,将最小编辑距离对应的第一候选诊断名称作为所述候选标准诊断名称。
本发明实施例中,通过获取到查找树中与待处理诊断名称最接近的第一候选诊断名称之后,再从所有第一候选诊断名称中获取与待处理诊断名获取候选诊断名称。分步骤进行候选诊断名称的筛选可以很好地保证候选诊断名称与待处理诊断名称具有较高地相似度。
在一个实施例中,若人工判断结果为所述候选标准诊断名称与所述待处理诊断名称匹配,将所述候选标准诊断名称和所述待处理诊断名称作为一组同义词,添加到所述同义词映射表中。本发明实施例通过人工判断匹配的候选标准诊断名称与待处理诊断名称添加到同义词映射表中,使得随着技术方案的使用,扩充了同义词映射表的内容,并且这中扩充是基于实际临床诊断名称来来进行的,使得下次再对同样的诊断名称进行处理时,再同义词映射表之后便可转化为标准诊断名称,降低了候选匹配的难度,同时减少后续人工介入,提高系统的智能化程度。
在一个实施例中,在步骤102前还包括步骤:根据所述待处理诊断名称与ICD编码表中的标准诊断名称进行第一次匹配,若第一次匹配成功则返回匹配到的标准诊断名称对应的ICD编码,其中所述ICD编码表包括多个标准诊断名称和每个标准诊断名称对应的ICD编码;若第一次匹配失败,则采用步骤102至步骤104进行处理。通过设置在ICD编码表中标准诊断名称进行匹配,如果可以匹配可以省略后续步骤102至步骤104,提高技术方案的匹配效率。
在一个实施例中,步骤104中,将匹配到的标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码,具体来说可以是根据标准诊断名称从ICD编码表进行查找获得对应的ICD编码。
图4为本发明一个实施例中的匹配诊断名称和ICD编码的装置的结构示意图,如图4所示,该装置包括:
获取单元401,用于获取待处理诊断名称;
序列标注单元402,用于对所述待处理诊断名称进行序列标注,以将所述待处理诊断名称切分成多个字段并确定每个字段对应的实体类型;
匹配单元403,用于基于所述多个字段以及每个字段对应的实体类型,在查找树中寻找与所述待处理诊断名称匹配的标准诊断名称;其中,所述查找树包括多个层,每一层对应一种实体类型,每层中的每个节点代表切分字段集合中的一个字段,所述切分字段集合包括对标准诊断名称进行切分后获得的字段,属于同一个标准诊断名称的各字段对应的节点之间通过连线连接;
ICD编码获取单元404;用于将匹配到的标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码。
在一个实施例中,获取单元401具体用于:从病历数据中获取原始诊断名称;根据预设的同义词映射表获得与所述原始诊断名称对应的映射诊断名称;其中所述同义词映射表包括标准诊断名称所使用的标准用词和各标准用词对应的同义词之间的映射关系;将获得的映射诊断名称作为待处理诊断名称。
在一个实施例中,匹配单元403具体还用于:若基于所述多个字段以及每个字段对应的实体类型,在查找树中未寻找到与所述待处理诊断名称匹配的标准诊断名称,则基于所述多个字段中部分实体类型对应的字段,在查找树中寻找与所述待处理诊断名称匹配的标准诊断名称。
在一个实施例中,匹配单元403具体还用于:若基于所述查找树未匹配到标准诊断名称,则从所述查找树中获取与所述待处理诊断名称相似度最高的候选标准诊断名称;输出进行人工判断的提示信息,所述提示信息包括所述候选标准诊断名称和所述待处理诊断名称;若人工判断结果为所述候选标准诊断名称与所述待处理诊断名称匹配,则将所述候选标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码。
在一个实施例中,匹配单元403具体还用于:若人工判断结果为所述候选标准诊断名称与所述待处理诊断名称匹配,将所述候选标准诊断名称和所述待处理诊断名称作为一组同义词,添加到所述同义词映射表中。
在一个实施例中,匹配单元403用于从所述查找树中获取与所述待处理诊断名称相似度最高的候选标准诊断名称时,具体还用于:从所述查找树中,获取与所述待处理诊断名称重合节点个数最多的标准诊断名称作为第一候选标准诊断名称;若所述第一候选诊断名称的个数为一个,则将所述第一候选标准诊断名称作为所述候选标准诊断名称;若所述第一候选诊断名称的个数为多个,则分别计算每个第一候选诊断名称与所述待处理诊断名称的编辑距离,将最小编辑距离对应的第一候选诊断名称作为所述候选标准诊断名称。
关于一种匹配诊断名称和ICD编码的装置的具体限定可以参见上文中对于匹配诊断名称和ICD编码的方法的限定,在此不再赘述。上述装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个单元对应的操作。
在本发明实施例中,提供了一种电子设备,该电子设备可以为计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于表型的基因优先级排序方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待处理诊断名称;
对所述待处理诊断名称进行序列标注,以将所述待处理诊断名称切分成多个字段并确定每个字段对应的实体类型;
基于所述多个字段以及每个字段对应的实体类型,在查找树中寻找与所述待处理诊断名称匹配的标准诊断名称;其中,所述查找树包括多个层,每一层对应一种实体类型,每层中的每个节点代表切分字段集合中的一个字段,所述切分字段集合包括对标准诊断名称进行切分后获得的字段,属于同一个标准诊断名称的各字段对应的节点之间通过连线连接;
将匹配到的标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码。
本实施例中的电子设备具体来说可以为一种计算机设备。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理诊断名称;
对所述待处理诊断名称进行序列标注,以将所述待处理诊断名称切分成多个字段并确定每个字段对应的实体类型;
基于所述多个字段以及每个字段对应的实体类型,在查找树中寻找与所述待处理诊断名称匹配的标准诊断名称;其中,所述查找树包括多个层,每一层对应一种实体类型,每层中的每个节点代表切分字段集合中的一个字段,所述切分字段集合包括对标准诊断名称进行切分后获得的字段,属于同一个标准诊断名称的各字段对应的节点之间通过连线连接;
将匹配到的标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种匹配诊断名称和ICD编码的方法,其特征在于,包括:
获取待处理诊断名称;
对所述待处理诊断名称进行序列标注,以将所述待处理诊断名称切分成多个字段并确定每个字段对应的实体类型;
基于所述多个字段以及每个字段对应的实体类型,在查找树中寻找与所述待处理诊断名称匹配的标准诊断名称;其中,所述查找树包括多个层,每一层对应一种实体类型,每层中的每个节点代表切分字段集合中的一个字段,所述切分字段集合包括对标准诊断名称进行切分后获得的字段,属于同一个标准诊断名称的各字段对应的节点之间通过连线相连接;
将匹配到的标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理诊断名称,包括:
从病例历数据中获取原始诊断名称;
根据预设的同义词映射表获得与所述原始诊断名称对应的映射诊断名称;其中所述同义词映射表包括标准诊断名称所使用的标准用词和各标准用词对应的同义词之间的映射关系;
将获得的映射诊断名称作为待处理诊断名称。
3.根据权利要求1所述得方法,其特征在于,还包括:
若基于所述多个字段以及每个字段对应的实体类型,在查找树中未寻找到与所述待处理诊断名称匹配的标准诊断名称,则基于所述多个字段中部分实体类型对应的字段,在查找树中寻找与所述待处理诊断名称匹配的标准诊断名称。
4.根据权利要求1所述的方法,其特征在于,在所述查找树中,距离根节点最近的一层所对应的实体类型为诊断原子名称。
5.根据权利要求2或3所述的方法,其特征在于,还包括:
若基于所述查找树未匹配到标准诊断名称,则从所述查找树中获取与所述待处理诊断名称相似度最高的候选标准诊断名称;
输出进行人工判断的提示信息,所述提示信息包括所述候选标准诊断名称和所述待处理诊断名称;
若人工判断结果为所述候选标准诊断名称与所述待处理诊断名称匹配,则将所述候选标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码。
6.根据权利要求5所述的方法,其特征在于,还包括:
若人工判断结果为所述候选标准诊断名称与所述待处理诊断名称匹配,将所述候选标准诊断名称和所述待处理诊断名称作为一组同义词,添加到所述同义词映射表中。
7.根据权利要求5所述的方法,其特征在于,所述从所述查找树中获取与所述待处理诊断名称相似度最高的候选标准诊断名称,具体包括:
从所述查找树中,获取与所述待处理诊断名称重合节点个数最多的标准诊断名称作为第一候选标准诊断名称;
若所述第一候选诊断名称的个数为一个,则将所述第一候选标准诊断名称作为所述候选标准诊断名称;
若所述第一候选诊断名称的个数为多个,则分别计算每个第一候选诊断名称与所述待处理诊断名称的编辑距离,将最小编辑距离对应的第一候选诊断名称作为所述候选标准诊断名称。
8.一种匹配诊断名称和ICD编码的装置,其特征在于,包括:
获取单元,用于获取待处理诊断名称;
序列标注单元,用于对所述待处理诊断名称进行序列标注,以将所述待处理诊断名称切分成多个字段并确定每个字段对应的实体类型;
匹配单元,用于基于所述多个字段以及每个字段对应的实体类型,在查找树中寻找与所述待处理诊断名称匹配的标准诊断名称;其中,所述查找树包括多个层,每一层对应一种实体类型,每层中的每个节点代表切分字段集合中的一个字段,所述切分字段集合包括对标准诊断名称进行切分后获得的字段,属于同一个标准诊断名称的各字段对应的节点之间通过连线连接;
ICD编码获取单元;用于将匹配到的标准诊断名称对应的ICD编码作为所述待处理诊断名称的ICD编码。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110967570.8A CN113658720A (zh) | 2021-08-23 | 2021-08-23 | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110967570.8A CN113658720A (zh) | 2021-08-23 | 2021-08-23 | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113658720A true CN113658720A (zh) | 2021-11-16 |
Family
ID=78492062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110967570.8A Pending CN113658720A (zh) | 2021-08-23 | 2021-08-23 | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113658720A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880430A (zh) * | 2022-05-10 | 2022-08-09 | 马上消费金融股份有限公司 | 名称处理方法及装置 |
CN115964472A (zh) * | 2021-12-03 | 2023-04-14 | 奥码哈(杭州)医疗科技有限公司 | 一种icd编码方法、icd编码查询方法、编码系统和查询系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701221A (zh) * | 2016-01-15 | 2016-06-22 | 陈杰 | 分级映射各种同义但不同标准的术语的方法 |
CN111581987A (zh) * | 2020-04-13 | 2020-08-25 | 广州天鹏计算机科技有限公司 | 疾病分类编码识别方法、装置及存储介质 |
CN112149414A (zh) * | 2020-09-23 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 文本相似度确定方法、装置、设备及存储介质 |
CN112687399A (zh) * | 2020-12-11 | 2021-04-20 | 江苏省人民医院(南京医科大学第一附属医院) | 一种基于人工智能信息化的传染病监测与预警系统 |
CN113204942A (zh) * | 2021-04-16 | 2021-08-03 | 中译语通科技股份有限公司 | 病案编码方法、装置、终端设备及可读存储介质 |
CN113282689A (zh) * | 2021-07-22 | 2021-08-20 | 药渡经纬信息科技(北京)有限公司 | 基于领域知识图谱的检索方法、装置和搜索引擎 |
-
2021
- 2021-08-23 CN CN202110967570.8A patent/CN113658720A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701221A (zh) * | 2016-01-15 | 2016-06-22 | 陈杰 | 分级映射各种同义但不同标准的术语的方法 |
CN111581987A (zh) * | 2020-04-13 | 2020-08-25 | 广州天鹏计算机科技有限公司 | 疾病分类编码识别方法、装置及存储介质 |
CN112149414A (zh) * | 2020-09-23 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 文本相似度确定方法、装置、设备及存储介质 |
CN112687399A (zh) * | 2020-12-11 | 2021-04-20 | 江苏省人民医院(南京医科大学第一附属医院) | 一种基于人工智能信息化的传染病监测与预警系统 |
CN113204942A (zh) * | 2021-04-16 | 2021-08-03 | 中译语通科技股份有限公司 | 病案编码方法、装置、终端设备及可读存储介质 |
CN113282689A (zh) * | 2021-07-22 | 2021-08-20 | 药渡经纬信息科技(北京)有限公司 | 基于领域知识图谱的检索方法、装置和搜索引擎 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964472A (zh) * | 2021-12-03 | 2023-04-14 | 奥码哈(杭州)医疗科技有限公司 | 一种icd编码方法、icd编码查询方法、编码系统和查询系统 |
CN114880430A (zh) * | 2022-05-10 | 2022-08-09 | 马上消费金融股份有限公司 | 名称处理方法及装置 |
CN114880430B (zh) * | 2022-05-10 | 2023-07-18 | 马上消费金融股份有限公司 | 名称处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929420B2 (en) | Structured report data from a medical text report | |
Wu et al. | Comparison of chest radiograph interpretations by artificial intelligence algorithm vs radiology residents | |
CN105069124B (zh) | 一种自动化的国际疾病分类编码方法及系统 | |
CN109192255B (zh) | 病历结构化方法 | |
CN105184053B (zh) | 一种中文医疗服务项目信息的自动编码方法及系统 | |
CN108804423B (zh) | 医疗文本特征提取与自动匹配方法和系统 | |
CN116682553B (zh) | 一种融合知识与患者表示的诊断推荐系统 | |
CN109478419B (zh) | 结构化和叙述性报告中的显著发现代码的自动识别 | |
CN112256828A (zh) | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 | |
WO2015114485A1 (en) | A context sensitive medical data entry system | |
EP4026047A1 (en) | Automated information extraction and enrichment in pathology report using natural language processing | |
CN112883157B (zh) | 一种多源异构医疗数据的标准化方法及装置 | |
JP7437386B2 (ja) | 医療記録を分類する方法 | |
CN113658720A (zh) | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 | |
CN112885478A (zh) | 医疗文献的检索方法、装置、电子设备及存储介质 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
Dai et al. | Grantextractor: Accurate grant support information extraction from biomedical fulltext based on bi-lstm-crf | |
CN116737879A (zh) | 知识库查询方法、装置、电子设备及存储介质 | |
CN110609910A (zh) | 医学知识图谱构建方法及装置、存储介质和电子设备 | |
CN113704415A (zh) | 医学文本的向量表示生成方法和装置 | |
WO2014130287A1 (en) | Method and system for propagating labels to patient encounter data | |
CN113343680B (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
CN117542467B (zh) | 基于患者数据的专病标准数据库自动构建方法 | |
CN116737945B (zh) | 一种患者emr知识图谱映射方法 | |
CN110060749B (zh) | 基于sev-sdg-cnn的电子病历智能诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |