CN111026841A - 一种基于检索和深度学习的自动编码方法及装置 - Google Patents

一种基于检索和深度学习的自动编码方法及装置 Download PDF

Info

Publication number
CN111026841A
CN111026841A CN201911179734.XA CN201911179734A CN111026841A CN 111026841 A CN111026841 A CN 111026841A CN 201911179734 A CN201911179734 A CN 201911179734A CN 111026841 A CN111026841 A CN 111026841A
Authority
CN
China
Prior art keywords
disease
diagnosis
icd
medical record
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911179734.XA
Other languages
English (en)
Other versions
CN111026841B (zh
Inventor
史亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201911179734.XA priority Critical patent/CN111026841B/zh
Publication of CN111026841A publication Critical patent/CN111026841A/zh
Application granted granted Critical
Publication of CN111026841B publication Critical patent/CN111026841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于检索和深度学习的自动编码方法及装置,用以基于电子病历得到标准的诊断编码。所述方法包括:根据目标病历获取疾病诊断数据和疾病对齐模型;通过检索确定与所述疾病诊断数据相似度排名最高的预设数目个疾病名称;根据所述疾病对齐模型计算所述预设数目个疾病名称中与所述诊断数据相似度最高的疾病名称;确定与所述诊断数据相似度最高的疾病名称为标准疾病名称;确定所述标准疾病名称对应的ICD‑10临床2.0版疾病编码为所述目标病历的诊断编码。采用本发明所公开的方案,实现了基于病历自动进行编码,得到标准编码,并且,由于本申请是先通过检索优化过滤候选集,然后再深度学习,因此,提高了分类准确率,进而提升了编码准确率。

Description

一种基于检索和深度学习的自动编码方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及一种基于检索和深度学习的自动编码方法及装置。
背景技术
国际疾病分类(International Classification of Diseases,ICD),是WHO制定的国际统一的疾病分类方法,其根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合,并用编码的方法来表示的系统。全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》,仍保留了ICD的简称,并被统称为ICD-10。
为了适应不同语言的国家的检索需求,该系统需要通过ICD-10编码进行检索,而通常情况下,电子病历中给出的诊断结果中,并不是与ICD-10一致的标准疾病名称,因此,根本无法得到标准的诊断编码,因此,如何基于电子病历自动进行编码,以得到标准的诊断编码,是一亟待解决的技术问题。
发明内容
本发明提供一种基于检索和深度学习的自动编码方法及装置,用以基于电子病历得到标准的诊断编码。
本发明提供一种基于检索和深度学习的自动编码方法,包括:
根据目标病历获取疾病诊断数据和疾病对齐模型;
通过检索确定与所述疾病诊断数据相似度排名最高的预设数目个疾病名称;
根据所述疾病对齐模型计算所述预设数目个疾病名称中与所述诊断数据相似度最高的疾病名称;
确定与所述诊断数据相似度最高的疾病名称为标准疾病名称;
确定所述标准疾病名称对应的ICD-10临床2.0版疾病编码为所述目标病历的诊断编码。
本实施例的有益效果在于:根据目标病历疾病诊断数据和疾病对齐模型,然后通过检索确定与疾病诊断数据相似度排名最高的预设数目个疾病名称,根据所述疾病对齐模型计算所述预设数目个疾病名称中与所述诊断数据相似度最高的疾病名称,从而只保留与疾病诊断数据相似度排名最高疾病名称,对候选集进行优化过滤之后再进行深度学习,从而实现了基于病历自动进行编码,得到标准编码,并且,由于本申请是先通过检索优化过滤候选集,然后再深度学习,因此,提高了分类准确率,进而提升了编码准确率。
在一个实施例中,所述根据目标病历获取疾病诊断数据,包括:
获取目标病历中的出院诊断的内容;
根据目标病历对应的不同医院的出院格式从所述目标病历中的出院诊断的内容中提取疾病诊断数据。
在一个实施例中,所述根据目标病历获取疾病对齐模型,包括:
抽取所述目标病历中的出院诊断和对应的首页诊断;
根据所述出院诊断和对应的首页诊断构建疾病对齐模型标注样本集;
根据构建的疾病对齐模型标注样本集确定疾病对齐模型。
在一个实施例中,所述通过检索确定与所述疾病诊断数据相似度排名最高的预设数目个疾病名称,包括:
根据预设算法对ICD-10临床2.0版知识库进行检索,以得到与所述疾病诊断数据相似度大于预设相似度的预设数目个疾病名称。
在一个实施例中,所述根据预设算法对ICD-10临床2.0版知识库进行检索,以得到与所述疾病诊断数据相似度大于预设相似度的预设数目个疾病名称,包括:
通过如下公式计算每个疾病名称与所述疾病诊断数据的最终相似度分值:
Figure BDA0002290929350000031
其中,qi表示对疾病诊断数据Q进行分词后的元素,f(qi,D)表示qi在ICD-10疾病D中的词频,|D|表示疾病D包含词语个数,avgdl表示所有ICD-10疾病名称平均包含的词语个数,k1和b表示可以自由调节的参数,默认的,k∈[1.2,2 0],b=0.75;score(D,Q)为最终的相似度分值;IDF表示逆文本频率指数;其中,IDF基于如下方式进行计算;
Figure BDA0002290929350000032
其中,IDFi表示第i个词的逆文本频率指数,N是ICD-10临床2.0版知识库中疾病D的总数,n(qi)表示包含诊断第i个词的ICD-10疾病D的数量。
本发明还提供一种基于检索和深度学习的自动编码装置,包括:
获取模块,用于根据目标病历获取疾病诊断数据和疾病对齐模型;
第一确定模块,用于确定与所述疾病诊断数据相似度排名最高的预设数目个疾病名称;
计算模块,用于根据所述疾病对齐模型计算所述预设数目个疾病名称中与所述诊断数据相似度最高的疾病名称;
第二确定模块,用于确定与所述诊断数据相似度最高的疾病名称为标准疾病名称;
第三确定模块,用于确定所述标准疾病名称对应的ICD-10临床2.0版疾病编码为诊断的编码。
在一个实施例中,所述获取模块,包括:
获取子模块,用于获取目标病历中的出院诊断的内容;
提取子模块,用于根据目标病历对应的不同医院的出院格式从所述目标病历中的出院诊断的内容中提取疾病诊断数据。
在一个实施例中,获取模块,包括:
抽取子模块,用于抽取所述目标病历中的出院诊断和对应的首页诊断;
构建子模块,用于根据所述出院诊断和对应的首页诊断构建疾病对齐模型标注样本集;
确定子模块,用于根据构建的疾病对齐模型标注样本集确定疾病对齐模型。
在一个实施例中,所述第一确定模块,包括:
检索子模块,用于根据预设算法对ICD-10临床2.0版知识库进行检索,以得到与所述疾病诊断数据相似度大于预设相似度的预设数目个疾病名称。
在一个实施例中,所述检索子模块,用于通过如下公式计算每个疾病名称与所述疾病诊断数据的最终相似度分值:
Figure BDA0002290929350000041
其中,qi表示对疾病诊断数据Q进行分词后的元素,f(qi,D)表示qi在ICD-10疾病D中的词频,|D|表示疾病D包含词语个数,avgdl表示所有ICD-10疾病名称平均包含的词语个数,k1和b表示可以自由调节的参数,默认的,k∈[1.2,2 0],b=0.75;score(D,Q)为最终的相似度分值;IDF表示逆文本频率指数;其中,IDF基于如下方式进行计算;
Figure BDA0002290929350000042
其中,IDFi表示第i个词的逆文本频率指数,N是ICD-10临床2.0版知识库中疾病D的总数,n(qi)表示包含诊断第i个词的ICD-10疾病D的数量。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一实施例中一种基于检索和深度学习的自动编码方法的流程图;
图2为本发明一实施例中一种基于检索和深度学习的自动编码方法的流程图;
图3为本发明一实施例中一种基于检索和深度学习的自动编码装置的框图;
图4为本发明一实施例中一种基于检索和深度学习的自动编码装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明一实施例中一种基于检索和深度学习的自动编码方法的流程图,如图1所示,该方法可被实施为以下步骤S11-S15:
在步骤S11中,根据目标病历获取疾病诊断数据和疾病对齐模型;
在步骤S12中,通过检索确定与疾病诊断数据相似度排名最高的预设数目个疾病名称;
在步骤S13中,根据疾病对齐模型计算预设数目个疾病名称中与诊断数据相似度最高的疾病名称;
在步骤S14中,确定与诊断数据相似度最高的疾病名称为标准疾病名称;
在步骤S15中,确定标准疾病名称对应的ICD-10临床2.0版疾病编码为目标病历的诊断编码。
本实施例中,根据目标病历获取疾病诊断数据和疾病对齐模型;通过检索确定与疾病诊断数据相似度排名最高的预设数目个疾病名称;根据疾病对齐模型计算预设数目个疾病名称中与诊断数据相似度最高的疾病名称;确定与诊断数据相似度最高的疾病名称为标准疾病名称;确定标准疾病名称对应的ICD-10临床2.0版疾病编码为目标病历的诊断编码。
举例而言,从病历的出院诊断的内容中,获得疾病诊断数据;依据不同医院的出院诊断格式进行诊断提取。若格式为结构化,则直接提取;若格式为非结构化文本,即一个文本包含多个疾病,对文本进行文本预处理,拆分出多个疾病诊断数据。对疾病诊断在ICD-10临床2.0版知识库中检索最近似的X个疾病名称。抽取病历中的出院诊断内容和对应的首页诊断构建疾病对齐模型标注样本集。
构建标注样本集正例。出院诊断和对应的首页诊断作为正例样本;
构建标注样本集负例。出院诊断为样本对的一个疾病名称,出院诊断对应的首页诊断编码所对应的亚目下的其他任意非首页诊断编码所对应的疾病名称作为样本对的另外一个疾病名称。两个疾病名称合在一起作为负例样本。
对上述标注样本集随机选择70%作为训练集,剩余30%作为测试集,模型可以采用深度学习预训练模型Bert。测试结果中,若F1值大于阈值,例如,大于0.6,则选择训练好的模型作为疾病对齐模型。其中,F1为模型的精确率和召回率的调和平均数最大值为1,最小值为0;基于训练得到的疾病对齐模型对疾病诊断数据和检索出的X个疾病名称计算相似度,相似度最大的ICD-10疾病名称作为诊断的标准ICD-10疾病名称;将ICD-10标准疾病名称对应的ICD-10临床2.0版疾病编码作为诊断的编码。
本实施例的有益效果在于:根据目标病历疾病诊断数据和疾病对齐模型,然后通过检索确定与疾病诊断数据相似度排名最高的预设数目个疾病名称,根据疾病对齐模型计算预设数目个疾病名称中与诊断数据相似度最高的疾病名称,从而只保留与疾病诊断数据相似度排名最高疾病名称,对候选集进行优化过滤之后再进行深度学习,从而实现了基于病历自动进行编码,得到标准编码,并且,由于本申请是先通过检索优化过滤候选集,然后再深度学习,因此,提高了分类准确率,进而提升了编码准确率。
在一个实施例中,上述步骤S11可被实施为如下步骤A1-A2:
在步骤A1中,获取目标病历中的出院诊断的内容;
在步骤A2中,根据目标病历对应的不同医院的出院格式从目标病历中的出院诊断的内容中提取疾病诊断数据。
本实施例中,获取目标病历中的出院诊断的内容,然后依据不同医院的出院诊断格式进行诊断提取。若格式为结构化,则直接提取;若格式为非结构化文本,即一个文本包含多个疾病,对文本进行文本预处理,拆分出多个疾病诊断。
在一个实施例中,如图2所示,上述步骤S11可被实施为如下步骤S21-S23:
在步骤S21中,抽取目标病历中的出院诊断和对应的首页诊断;
在步骤S22中,根据出院诊断和对应的首页诊断构建疾病对齐模型标注样本集;
在步骤S23中,根据构建的疾病对齐模型标注样本集确定疾病对齐模型。
举例而言,抽取病历中的出院诊断和对应的首页诊断构建疾病对齐模型标注样本集。
构建标注样本集正例。出院诊断和对应的首页诊断作为正例样本
构建标注样本集负例。出院诊断为样本对的一个疾病名称,出院诊断对应的首页诊断编码所对应的亚目下的其他任意非首页诊断编码所对应的疾病名称作为样本对的另外一个疾病名称。两个疾病名称合在一起作为负例样本。
负例样本举例:
出院诊断:左锁骨骨折
首页诊断:S42.000锁骨骨折
亚目:S42.0
亚目下临床2.0版本疾病编码:
S42.000 锁骨骨折
S42.000x011 锁骨胸骨端骨折
S42.000x021 锁骨干骨折
S42.000x031 锁骨肩峰端骨折
S42.000x091 锁骨多发性骨折
S42.010 开放性锁骨骨折
可以选择的负例样本如下:
左锁骨骨折 锁骨胸骨端骨折
左锁骨骨折 锁骨干骨折
左锁骨骨折 锁骨肩峰端骨折
左锁骨骨折 锁骨多发性骨折
左锁骨骨折 开放性锁骨骨折
对标注样本集随机选择70%作为训练集,剩余30%作为测试集,模型采用深度学习预训练模型Bert。测试结果若F1值大于阈值,则选择训练好的模型作为疾病对齐模型。
在一个实施例中,上述步骤S12可被实施为如下步骤,包括:
根据预设算法对ICD-10临床2.0版知识库进行检索,以得到与疾病诊断数据相似度大于预设相似度的预设数目个疾病名称。
在一个实施例中,根据预设算法对ICD-10临床2.0版知识库进行检索,以得到与疾病诊断数据相似度大于预设相似度的预设数目个疾病名称,包括:
通过如下公式计算每个疾病名称与疾病诊断数据的最终相似度分值:
Figure BDA0002290929350000081
其中,qi表示对疾病诊断数据Q进行分词后的元素,f(qi,D)表示qi在ICD-10疾病D中的词频,|D|表示疾病D包含词语个数,avgdI表示所有ICD-10疾病名称平均包含的词语个数,k1和b表示可以自由调节的参数,默认的,k∈[1.2,2 0],b=0.75;score(D,Q)为最终的相似度分值;IDF表示逆文本频率指数;其中,IDF基于如下方式进行计算;
Figure BDA0002290929350000091
其中,IDFi表示第i个词的逆文本频率指数,N是ICD-10临床2.0版知识库中疾病D的总数,n(qi)表示包含诊断第i个词的ICD-10疾病D的数量。
图3为本发明一实施例中一种基于检索和深度学习的自动编码装置的框图,如图3所示,该装置可包括如下模块:
获取模块31,用于根据目标病历获取疾病诊断数据和疾病对齐模型;
第一确定模块32,用于确定与疾病诊断数据相似度排名最高的预设数目个疾病名称;
计算模块33,用于根据疾病对齐模型计算预设数目个疾病名称中与诊断数据相似度最高的疾病名称;
第二确定模块34,用于确定与诊断数据相似度最高的疾病名称为标准疾病名称;
第三确定模块35,用于确定标准疾病名称对应的ICD-10临床2.0版疾病编码为诊断的编码。
在一个实施例中,如图4所示,获取模块31,包括:
获取子模块41,用于获取目标病历中的出院诊断的内容;
提取子模块42,用于根据目标病历对应的不同医院的出院格式从目标病历中的出院诊断的内容中提取疾病诊断数据。
在一个实施例中,获取模块,包括:
抽取子模块,用于抽取目标病历中的出院诊断和对应的首页诊断;
构建子模块,用于根据出院诊断和对应的首页诊断构建疾病对齐模型标注样本集;
确定子模块,用于根据构建的疾病对齐模型标注样本集确定疾病对齐模型。
在一个实施例中,第一确定模块,包括:
检索子模块,用于根据预设算法对ICD-10临床2.0版知识库进行检索,以得到与疾病诊断数据相似度大于预设相似度的预设数目个疾病名称;
在一个实施例中,检索子模块,用于通过如下公式计算每个疾病名称与疾病诊断数据的最终相似度分值:
Figure BDA0002290929350000101
其中,qi表示对疾病诊断数据Q进行分词后的元素,f(qi,D)表示qi在ICD-10疾病D中的词频,|D|表示疾病D包含词语个数,avgdl表示所有ICD-10疾病名称平均包含的词语个数,k1和b表示可以自由调节的参数,默认的,k∈[1.2,20],b=0.75;score(D,Q)为最终的相似度分值;IDF表示逆文本频率指数;其中,IDF基于如下方式进行计算;
Figure BDA0002290929350000102
其中,IDFi表示第i个词的逆文本频率指数,N是ICD-10临床2.0版知识库中疾病D的总数,n(qi)表示包含诊断第i个词的ICD-10疾病D的数量。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于检索和深度学习的自动编码方法,其特征在于,包括:
根据目标病历获取疾病诊断数据和疾病对齐模型;
通过检索确定与所述疾病诊断数据相似度排名最高的预设数目个疾病名称;
根据所述疾病对齐模型计算所述预设数目个疾病名称中与所述诊断数据相似度最高的疾病名称;
确定与所述诊断数据相似度最高的疾病名称为标准疾病名称;
确定所述标准疾病名称对应的ICD-10临床2.0版疾病编码为所述目标病历的诊断编码。
2.如权利要求1所述的方法,其特征在于,所述根据目标病历获取疾病诊断数据,包括:
获取目标病历中的出院诊断的内容;
根据目标病历对应的不同医院的出院格式从所述目标病历中的出院诊断的内容中提取疾病诊断数据。
3.如权利要求1所述的方法,其特征在于,所述根据目标病历获取疾病对齐模型,包括:
抽取所述目标病历中的出院诊断和对应的首页诊断;
根据所述出院诊断和对应的首页诊断构建疾病对齐模型标注样本集;
根据构建的疾病对齐模型标注样本集确定疾病对齐模型。
4.如权利要求1-3任意一项所述的方法,其特征在于,所述通过检索确定与所述疾病诊断数据相似度排名最高的预设数目个疾病名称,包括:
根据预设算法对ICD-10临床2.0版知识库进行检索,以得到与所述疾病诊断数据相似度大于预设相似度的预设数目个疾病名称。
5.如权利要求4所述的方法,其特征在于,所述根据预设算法对ICD-10临床2.0版知识库进行检索,以得到与所述疾病诊断数据相似度大于预设相似度的预设数目个疾病名称,包括:
通过如下公式计算每个疾病名称与所述疾病诊断数据的最终相似度分值:
Figure FDA0002290929340000021
其中,qi表示对疾病诊断数据Q进行分词后的元素,f(qi,D)表示qi在ICD-10疾病D中的词频,|D|表示疾病D包含词语个数,avgdl表示所有ICD-10疾病名称平均包含的词语个数,k1和b表示可以自由调节的参数,默认的,k∈[1.2,2.0],b=0.75;score(D,Q)为最终的相似度分值;IDF表示逆文本频率指数;其中,IDF基于如下方式进行计算;
Figure FDA0002290929340000022
其中,IDFi表示第i个词的逆文本频率指数,N是ICD-10临床2.0版知识库中疾病D的总数,n(qi)表示包含诊断第i个词的ICD-10疾病D的数量。
6.一种基于检索和深度学习的自动编码装置,其特征在于,包括:
获取模块,用于根据目标病历获取疾病诊断数据和疾病对齐模型;
第一确定模块,用于确定与所述疾病诊断数据相似度排名最高的预设数目个疾病名称;
计算模块,用于根据所述疾病对齐模型计算所述预设数目个疾病名称中与所述诊断数据相似度最高的疾病名称;
第二确定模块,用于确定与所述诊断数据相似度最高的疾病名称为标准疾病名称;
第三确定模块,用于确定所述标准疾病名称对应的ICD-10临床2.0版疾病编码为诊断的编码。
7.如权利要求6所述的装置,其特征在于,所述获取模块,包括:
获取子模块,用于获取目标病历中的出院诊断的内容;
提取子模块,用于根据目标病历对应的不同医院的出院格式从所述目标病历中的出院诊断的内容中提取疾病诊断数据。
8.如权利要求6所述的装置,其特征在于,获取模块,包括:
抽取子模块,用于抽取所述目标病历中的出院诊断和对应的首页诊断;
构建子模块,用于根据所述出院诊断和对应的首页诊断构建疾病对齐模型标注样本集;
确定子模块,用于根据构建的疾病对齐模型标注样本集确定疾病对齐模型。
9.如权利要求6-8任意一项所述的装置,其特征在于,所述第一确定模块,包括:
检索子模块,用于根据预设算法对ICD-10临床2.0版知识库进行检索,以得到与所述疾病诊断数据相似度大于预设相似度的预设数目个疾病名称。
10.如权利要求9所述的装置,其特征在于,所述检索子模块,用于通过如下公式计算每个疾病名称与所述疾病诊断数据的最终相似度分值:
Figure FDA0002290929340000031
其中,qi表示对疾病诊断数据Q进行分词后的元素,f(qi,D)表示qi在ICD-10疾病D中的词频,|D|表示疾病D包含词语个数,avgdl表示所有ICD-10疾病名称平均包含的词语个数,k1和b表示可以自由调节的参数,默认的,k∈[1.2,20],b=0.75;score(D,Q)为最终的相似度分值;IDF表示逆文本频率指数;其中,IDF基于如下方式进行计算;
Figure FDA0002290929340000032
其中,IDFi表示第i个词的逆文本频率指数,N是ICD-10临床2.0版知识库中疾病D的总数,n(qi)表示包含诊断第i个词的ICD-10疾病D的数量。
CN201911179734.XA 2019-11-27 2019-11-27 一种基于检索和深度学习的自动编码方法及装置 Active CN111026841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911179734.XA CN111026841B (zh) 2019-11-27 2019-11-27 一种基于检索和深度学习的自动编码方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911179734.XA CN111026841B (zh) 2019-11-27 2019-11-27 一种基于检索和深度学习的自动编码方法及装置

Publications (2)

Publication Number Publication Date
CN111026841A true CN111026841A (zh) 2020-04-17
CN111026841B CN111026841B (zh) 2023-04-18

Family

ID=70202523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911179734.XA Active CN111026841B (zh) 2019-11-27 2019-11-27 一种基于检索和深度学习的自动编码方法及装置

Country Status (1)

Country Link
CN (1) CN111026841B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540468A (zh) * 2020-04-21 2020-08-14 重庆大学 一种诊断原因可视化的icd自动编码方法与系统
CN111640517A (zh) * 2020-05-27 2020-09-08 医渡云(北京)技术有限公司 病历编码方法、装置、存储介质及电子设备
CN111883223A (zh) * 2020-06-11 2020-11-03 国家卫生健康委科学技术研究所 患者样本数据中结构变异的报告解读方法及系统
CN112434756A (zh) * 2020-12-15 2021-03-02 杭州依图医疗技术有限公司 医学数据的训练方法、处理方法、装置及存储介质
CN112768083A (zh) * 2021-03-18 2021-05-07 汤学民 一种基于历史病历的初步诊断生成系统、方法及设备
CN112836512A (zh) * 2021-01-27 2021-05-25 山东众阳健康科技集团有限公司 基于自然语义处理和知识图谱的icd-11编码检索方法
CN113436730A (zh) * 2021-07-14 2021-09-24 山大地纬软件股份有限公司 一种医院疾病诊断分类自动编码的方法及系统
CN113744870A (zh) * 2021-09-14 2021-12-03 中国医学科学院阜外医院 一种病案首页主要诊断预测系统及方法
CN114388085A (zh) * 2021-11-23 2022-04-22 皖南医学院第一附属医院(皖南医学院弋矶山医院) 一种基于病案的实时智能辅助icd编码方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016022438A1 (en) * 2014-08-08 2016-02-11 Icahn School Of Medicine At Mount Sinai Automatic disease diagnoses using longitudinal medical record data
CN109065157A (zh) * 2018-08-01 2018-12-21 中国人民解放军第二军医大学 一种疾病诊断标准化编码推荐列表确定方法及系统
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、系统、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016022438A1 (en) * 2014-08-08 2016-02-11 Icahn School Of Medicine At Mount Sinai Automatic disease diagnoses using longitudinal medical record data
CN109065157A (zh) * 2018-08-01 2018-12-21 中国人民解放军第二军医大学 一种疾病诊断标准化编码推荐列表确定方法及系统
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、系统、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李清香;李松兴;陈海燕;郑勇强;莫新颖;邓玉萍;: "ICD-10在电子病历系统中的应用分析" *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540468A (zh) * 2020-04-21 2020-08-14 重庆大学 一种诊断原因可视化的icd自动编码方法与系统
CN111540468B (zh) * 2020-04-21 2023-05-16 重庆大学 一种诊断原因可视化的icd自动编码方法与系统
CN111640517A (zh) * 2020-05-27 2020-09-08 医渡云(北京)技术有限公司 病历编码方法、装置、存储介质及电子设备
CN111883223A (zh) * 2020-06-11 2020-11-03 国家卫生健康委科学技术研究所 患者样本数据中结构变异的报告解读方法及系统
CN112434756A (zh) * 2020-12-15 2021-03-02 杭州依图医疗技术有限公司 医学数据的训练方法、处理方法、装置及存储介质
CN112836512A (zh) * 2021-01-27 2021-05-25 山东众阳健康科技集团有限公司 基于自然语义处理和知识图谱的icd-11编码检索方法
CN112836512B (zh) * 2021-01-27 2022-07-19 山东众阳健康科技集团有限公司 基于自然语义处理和知识图谱的icd-11编码检索方法
CN112768083A (zh) * 2021-03-18 2021-05-07 汤学民 一种基于历史病历的初步诊断生成系统、方法及设备
CN113436730A (zh) * 2021-07-14 2021-09-24 山大地纬软件股份有限公司 一种医院疾病诊断分类自动编码的方法及系统
CN113744870A (zh) * 2021-09-14 2021-12-03 中国医学科学院阜外医院 一种病案首页主要诊断预测系统及方法
CN113744870B (zh) * 2021-09-14 2023-06-27 中国医学科学院阜外医院 一种病案首页主要诊断预测系统及方法
CN114388085A (zh) * 2021-11-23 2022-04-22 皖南医学院第一附属医院(皖南医学院弋矶山医院) 一种基于病案的实时智能辅助icd编码方法及系统

Also Published As

Publication number Publication date
CN111026841B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111026841B (zh) 一种基于检索和深度学习的自动编码方法及装置
US10818397B2 (en) Clinical content analytics engine
CN112365987B (zh) 诊断数据异常检测方法、装置、计算机设备及存储介质
US20220044812A1 (en) Automated generation of structured patient data record
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
EP3879475A1 (en) Method of classifying medical documents
US10593431B1 (en) Methods and systems for causative chaining of prognostic label classifications
US11222031B1 (en) Determining terminologies for entities based on word embeddings
CN113724848A (zh) 基于人工智能的医疗资源推荐方法、装置、服务器及介质
US11915827B2 (en) Methods and systems for classification to prognostic labels
US20180032676A1 (en) Method and system for context-sensitive assessment of clinical findings
US20200293528A1 (en) Systems and methods for automatically generating structured output documents based on structural rules
CN113779179B (zh) 一种基于深度学习和知识图谱的icd智能编码的方法
CN108920661B (zh) 国际疾病分类标记方法、装置、计算机设备及存储介质
CN112017744A (zh) 电子病例自动生成方法、装置、设备及存储介质
CN112560400A (zh) 医学数据的处理方法、装置及存储介质
CN113886716A (zh) 食品安全突发事件的应急处置推荐方法及系统
US20140046694A1 (en) Systems and methods for synoptic element structured reporting
CN111785383A (zh) 数据处理方法及相关设备
CN111210884A (zh) 一种临床医疗数据采集方法、装置、介质及设备
CN111180060B (zh) 一种疾病诊断自动编码方法及装置
CN112154512B (zh) 用于异构医学数据的优先级排序和呈现的系统和方法
CN115458138A (zh) 一种dip预分组推荐方法、装置、设备和存储介质
US20230072155A1 (en) Method and system for incorporating patient information
CN113626591A (zh) 一种基于文本分类的电子病历数据质量评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant