CN113593709B - 一种疾病编码方法、系统、可读存储介质及装置 - Google Patents

一种疾病编码方法、系统、可读存储介质及装置 Download PDF

Info

Publication number
CN113593709B
CN113593709B CN202110869109.9A CN202110869109A CN113593709B CN 113593709 B CN113593709 B CN 113593709B CN 202110869109 A CN202110869109 A CN 202110869109A CN 113593709 B CN113593709 B CN 113593709B
Authority
CN
China
Prior art keywords
target
clinical
character
term concept
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110869109.9A
Other languages
English (en)
Other versions
CN113593709A (zh
Inventor
江先汉
魏凌云
吕晨
章莹
徐书羿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110869109.9A priority Critical patent/CN113593709B/zh
Publication of CN113593709A publication Critical patent/CN113593709A/zh
Application granted granted Critical
Publication of CN113593709B publication Critical patent/CN113593709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires

Abstract

本发明公开了一种疾病编码方法、系统、可读存储介质及装置,涉及医疗信息学技术领域,本发明先通过临床医学知识图谱确定目标临床诊断文本信息对应的目标临床术语概念,接着通过疾病分类知识图谱确定目标临床术语概念在国际疾病分类ICD下的4位亚目编码,再通过目标分类器确定目标临床术语概念在目标4位亚目编码下的6位细目编码;本发明依据ICD分类层次、分类规则进行分类,从而提高分类准确度。

Description

一种疾病编码方法、系统、可读存储介质及装置
技术领域
本发明涉及医疗信息学技术领域,特别是涉及一种疾病编码方法、系统、可读存储介质及装置。
背景技术
近年来,国内医疗技术领域与国际上的交流日趋频繁,而统一的疾病分类标准使卫生专业人员能够以一种通用语言来交换世界各地的卫生信息。国际疾病分类(International Classification ofDiseases,ICD),是世界卫生组织制定的用编码的方法来表示疾病分类的标准,是医学信息化以及医疗技术广泛交流的基础。同时疾病分类对于医疗教学科研、医学数据统计、医疗质量评价、医疗经费控制等多个方面具有重要的指导意义。
目前,在疾病医疗数据分类过程中,由于6位细目编码的内容比较多,若由分类器根据疾病信息直接进行6位细目编码分类,则会存在目标临床诊断文本信息与6位细目编码直接进行语义匹配时的准确度低的缺陷,进而会导致分类准确度过低的问题。
发明内容
本发明的目的是提供一种疾病编码方法、系统、可读存储介质及装置,以达到提高分类准确度的目的。
为实现上述目的,本发明提供了如下方案:
一种疾病编码方法,包括:
获取目标临床诊断文本信息;
确定所述目标临床诊断文本信息在临床医学知识图谱中对应的目标临床术语概念;所述临床医学知识图谱包括多个临床术语概念,以及不同所述临床术语概念之间的关联关系;
基于疾病分类知识图谱,确定所述目标临床术语概念在国际疾病分类ICD下的4位亚目编码;所述疾病分类知识图谱包括根据WHO疾病分类定义形成的多个分类实体,以及不同所述分类实体之间的关联关系;所述分类实体至少包括临床医疗数据与4位亚目编码之间的映射关系;所述临床医疗数据至少包括临床术语概念;确定的4位亚目编码为目标4位亚目编码;
将所述目标临床术语概念的特征向量输入到目标分类器内,以确定所述目标临床术语概念在目标4位亚目编码下的6位细目编码;其中,所述目标分类器是与所述目标4位亚目编码对应的分类器;所述目标分类器通过多组第一训练数据训练得到的;所述第一训练数据包括临床术语概念的特征向量以及对应的类别标签;任一类别标签为所述目标4位亚目编码下的6位细目编码。
可选的,所述确定所述目标临床诊断文本信息在临床医学知识图谱中对应的目标临床术语概念,具体包括:
将所述目标临床诊断文本信息与临床医学知识图谱中的各临床术语概念进行深度语义匹配;匹配成功的临床术语概念为所述目标临床术语概念。
可选的,所述将所述目标临床诊断文本信息与临床医学知识图谱中的各临床术语概念进行深度语义匹配,具体包括:
构建字符级匹配矩阵;所述字符级匹配矩阵中任一位置的元素为:第一字符嵌入向量与第二字符嵌入向量之间的相似度;所述第一字符嵌入向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的字符嵌入向量;所述第二字符嵌入向量为标定临床术语概念在所述任一位置上的字符所对应的字符嵌入向量;所述标定临床术语概念为所述临床医学知识图谱中的任意临床术语概念;
构建词级匹配矩阵;所述词级匹配矩阵中任一位置的元素为:第一词嵌入向量与第二词嵌入向量之间的相似度;所述第一词嵌入向量为所述目标临床诊断文本信息在所述任一位置上的字符所属词的词嵌入向量;所述第二词嵌入向量为所述标定临床术语概念在所述任一位置上的字符所属词的词嵌入向量;
构建句子级匹配矩阵;所述句子级匹配矩阵中任一位置的元素为:第一句子级特征向量与第二句子级特征向量之间的相似度;所述第一句子级特征向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的句子级特征向量;所述第二字符嵌入向量为所述标定临床术语概念在所述任一位置上的字符所对应的句子级特征向量;
将所述标定临床术语概念对应的所述字符级匹配矩阵、所述词级匹配矩阵和所述句子级匹配矩阵输入到机器学习模型中,以得到所述目标临床诊断文本信息与所述标定临床术语概念的相似程度值;所述机器学习模型通过多组第二训练数据训练得到的;每一组所述第二训练数据包括:匹配矩阵集合以及对应的相似程度值标签;所述匹配矩阵集合包括字符级匹配矩阵、词级匹配矩阵和句子级匹配矩阵;
在机器学习模型训练过程中,自动调整字符级匹配矩阵的权重向量、句子级匹配矩阵的权重向量和句子级匹配矩阵的权重向量,以使所述机器学习模型输出的相似程度值与相似程度值标签之间的误差小于设定阈值;
其中,匹配成功的临床术语概念为:最大相似程度值对应的标定临床术语概念。
可选的,所述构建句子级匹配矩阵,具体包括:
获取所述目标临床诊断文本信息对应的补充信息;所述补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种;
在所述目标临床术语概念中融入所述补充信息,得到目标字符序列;
在所述标定临床术语概念中融入所述补充信息,得到标定字符序列;
将所述目标字符序列输入到Bi-LSTM网络模型,以得到所述目标临床术语概念中每个字符所对应的句子级特征向量;
将所述标定字符序列输入到Bi-LSTM网络模型,以得到所述标定临床术语概念中每个字符所对应的句子级特征向量;
计算所述第一句子级特征向量与所述第二句子级特征向量之间的相似度,以得到句子级匹配矩阵。
可选的,所述临床医疗数据还包括与临床术语概念对应的标准补充信息;
所述基于疾病分类知识图谱,确定所述目标临床术语概念在国际疾病分类ICD下的4位亚目编码,具体包括:
基于目标映射规则,提供所述目标临床术语概念对应的补充信息输入模板;所述目标映射规则与所述目标临床术语概念相对应;所述目标映射规则包括目标临床术语概念、补充信息输入模板以及信息补录限定条件;
接收通过所述补充信息输入模板输入的补充信息;所述输入的补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种;
判断所述输入的补充信息是否符合所述信息补录限定条件;
若是,将所述目标临床术语概念与所述分类实体中的临床术语概念相匹配,同时,将所述输入的补充信息与同一分类实体中的标准补充信息相匹配;
若否,则将所述目标临床术语概念与各所述分类实体相匹配;
其中,匹配成功的分类实体中的4位亚目编码为所述目标4位亚目编码。
可选的,所述目标临床术语概念对应的特征向量包括多个子向量,所述多个子向量分别为所述目标临床术语概念的词向量、所述目标临床术语概念的文本向量、所述目标临床术语概念的同义词的文本向量、所述目标临床术语概念对应的补充信息的文本向量;所述补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种;所述同义词通过所述临床医学知识图谱确定。
一种疾病编码系统,包括:
获取模块,用于获取目标临床诊断文本信息;
目标临床术语概念确定模块,用于确定所述目标临床诊断文本信息在临床医学知识图谱中对应的目标临床术语概念;所述临床医学知识图谱包括多个临床术语概念,以及不同所述临床术语概念之间的关联关系;
4位亚目编码确定模块,用于基于疾病分类知识图谱,确定所述目标临床术语概念在国际疾病分类ICD下的4位亚目编码;所述疾病分类知识图谱包括根据WHO疾病分类定义形成的多个分类实体,以及不同所述分类实体之间的关联关系;所述分类实体至少包括临床医疗数据与4位亚目编码之间的映射关系;所述临床医疗数据至少包括临床术语概念;确定的4位亚目编码为目标4位亚目编码;
6位细目编码确定模块,用于将所述目标临床术语概念的特征向量输入到目标分类器内,以确定所述目标临床术语概念在目标4位亚目编码下的6位细目编码;其中,所述目标分类器是与所述目标4位亚目编码对应的分类器;所述目标分类器通过多组第一训练数据训练得到的;所述第一训练数据包括临床术语概念的特征向量以及对应的类别标签;任一类别标签为所述目标4位亚目编码下的6位细目编码。
可选的,所述目标临床术语概念确定模块,具体包括:
语义匹配单元,用于将所述目标临床诊断文本信息与临床医学知识图谱中的各临床术语概念进行深度语义匹配;匹配成功的临床术语概念为所述目标临床术语概念。
可选的,所述语义匹配单元,具体包括:
字符级匹配矩阵构建子单元,用于构建字符级匹配矩阵;所述字符级匹配矩阵中任一位置的元素为:第一字符嵌入向量与第二字符嵌入向量之间的相似度;所述第一字符嵌入向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的字符嵌入向量;所述第二字符嵌入向量为标定临床术语概念在所述任一位置上的字符所对应的字符嵌入向量;所述标定临床术语概念为所述临床医学知识图谱中的任意临床术语概念;
词级匹配矩阵构建子单元,用于构建词级匹配矩阵;所述词级匹配矩阵中任一位置的元素为:第一词嵌入向量与第二词嵌入向量之间的相似度;所述第一词嵌入向量为所述目标临床诊断文本信息在所述任一位置上的字符所属词的词嵌入向量;所述第二词嵌入向量为所述标定临床术语概念在所述任一位置上的字符所属词的词嵌入向量;
句子级匹配矩阵构建子单元,用于构建句子级匹配矩阵;所述句子级匹配矩阵中任一位置的元素为:第一句子级特征向量与第二句子级特征向量之间的相似度;所述第一句子级特征向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的句子级特征向量;所述第二字符嵌入向量为所述标定临床术语概念在所述任一位置上的字符所对应的句子级特征向量;
相似程度值计算子单元,用于将所述标定临床术语概念对应的所述字符级匹配矩阵、所述词级匹配矩阵和所述句子级匹配矩阵输入到机器学习模型中,以得到所述目标临床诊断文本信息与所述标定临床术语概念的相似程度值;所述机器学习模型通过多组第二训练数据训练得到的;每一组所述第二训练数据包括:匹配矩阵集合以及对应的相似程度值标签;所述匹配矩阵集合包括字符级匹配矩阵、词级匹配矩阵和句子级匹配矩阵;
在机器学习模型训练过程中,自动调整字符级匹配矩阵的权重向量、句子级匹配矩阵的权重向量和句子级匹配矩阵的权重向量,以使所述机器学习模型输出的相似程度值与相似程度值标签之间的误差小于设定阈值;
其中,匹配成功的临床术语概念为:最大相似程度值对应的标定临床术语概念。
可选的,所述临床医疗数据还包括与临床术语概念对应的标准补充信息;所述4位亚目编码确定模块,具体包括:
补充信息输入模板确定单元,用于基于目标映射规则,提供所述目标临床术语概念对应的补充信息输入模板;所述目标映射规则与所述目标临床术语概念相对应;所述目标映射规则包括目标临床术语概念、补充信息输入模板以及信息补录限定条件;
补充信息接收单元,用于接收通过所述补充信息输入模板输入的补充信息;所述输入的补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种;
判断单元,用于判断所述输入的补充信息是否符合所述信息补录限定条件;
4位亚目编码第一确定单元,用于当所述输入的补充信息符合所述信息补录限定条件时,将所述目标临床术语概念与所述分类实体中的临床术语概念相匹配,同时,将所述输入的补充信息与同一分类实体中的标准补充信息相匹配;
4位亚目编码第二确定单元,用于将所述目标临床术语概念与各所述分类实体相匹配;
其中,匹配成功的分类实体中的4位亚目编码为所述目标4位亚目编码。
一种可读存储介质,所述可读存储介质中存储有指令,当所述指令被执行时,实现疾病编码方法。
一种疾病编码装置,包括处理器和存储器;其中,所述存储器用于存储计算机执行指令;当所述处理器运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以实现疾病编码方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种疾病编码方法、系统、可读存储介质及装置,能够对医生录入的临床诊断文本信息(即目标临床诊断文本信息),给出对应的ICD下的4位亚目编码和6位细目编码。依次包括步骤:先通过临床医学知识图谱确定目标临床诊断文本信息对应的目标临床术语概念,接着通过疾病分类知识图谱确定目标临床术语概念在国际疾病分类ICD下的4位亚目编码,再通过目标分类器确定目标临床术语概念在目标4位亚目编码下的6位细目编码,与将目标临床诊断文本信息直接进行6位细目编码相比,本发明通过ICD分类层次、分类规则,避免了目标临床诊断文本信息与6位细目编码直接进行语义匹配时的准确度过低的风险,进而提高了分类准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明疾病编码系统的示例性结构示意图;
图2为本发明疾病编码系统的一种示例性应用场景图;
图3为本发明疾病编码方法的一种示例性流程图;
图4为本发明目标临床术语概念确定方法的一种示例性流程图;
图5为本发明疾病编码装置的一种示例性结构图;
图6为本发明疾病编码方法的整体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了引用和清楚起见,下文中使用的技术名词、简写或缩写总结如下:
ICD:International Classification ofDiseases,国际疾病分类;
ICD-10:为现行的国际疾病分类的第十次修改版;
知识图谱:是定义准确的术语概念表,这些术语概念之间具有特定的关系,将术语概念中的知识系统地组织起来,让知识更加容易被机器理解和处理,并为数据搜索、挖掘、分析等提供便利,为人工智能的实现提供知识基础。
本发明涉及到的知识图谱主要针对临床医学和疾病分类领域,进一步包括临床医学知识图谱和疾病分类知识图谱。其中:临床医学知识图谱是通过自动抽取和人工审核的形式,形成具有临床所见、操作、观测特性的术语概念实体和关联关系。疾病分类知识图谱是根据WHO疾病分类定义形成的分类实体和关系。临床医学知识图谱和疾病分类知识图谱为实体进行映射连接提供知识基础。
本发明实施例提供了一种疾病编码方法、系统、可读存储介质及装置,以减少匹配次数,提高分类效率。
请参见图1,上述疾病编码系统包括:获取模块1、目标临床术语概念确定模块2、4位亚目编码确定模块3和6位细目编码确定模块4。
在本发明其他实施例中,仍请参见图1,上述疾病编码系统还可包括:数据库5;该数据库5存储有临床医学知识图谱、疾病分类知识图谱以及训练好的分类器中的至少一种。或者,数据库5可用于存储分类器的训练数据。
后续将结合疾病编码方法对上述各模块的作用进行进一步的介绍。
上述疾病编码系统中的各模块可以软件或组件的形式部署于同一服务器(例如疾病编码服务器)或服务器集群上,或者,上述疾病编码系统所包含的各模块可分别为独立的服务器或服务器集群,或者,上述疾病编码系统中的多个模块的功能由同一服务器或服务器集群完成,示例性的,获取模块1和目标临床术语概念确定模块2由同一服务器或服务器集群完成,本领域技术人员可根据需求,设计任意两个或两个以上模块的功能由同一服务器或服务器集群完成,在此不作赘述。
图2示出了上述疾病编码系统的一种示例性应用场景:获取模块1(图2中的数据采集服务器)可采集目标临床诊断文本信息,后续介绍的补充信息也可由获取模块1采集等,目标临床术语概念确定模块2(图2中的语音匹配服务器)可确定目标临床诊断文本信息在临床医学知识图谱中对应的目标临床术语概念;4位亚目编码确定模块3和6位细目编码确定模块4(图2中的编码服务器),可基于目标临床术语概念确定目标临床术语概念在ICD 4位亚目编码下的6位细目编码。
进一步的,数据采集服务器可位于内网(例如私有云、医院服务网)中,其他服务器可位于互联网中。
或者,在其他应用场景下,数据采集服务器及其他服务器可均位于互联网中,作为服务器侧。由客户端向数据采集服务器提供数据(例如目标临床诊断文本信息、补充信息等)。
客户端示例性的可为浏览器,在智能终端中安装的APP软件,在计算机终端安装的客户端软件等等。此时,数据采集服务器作为web服务器,是前端(前台),负责与客户端进行信息交互,其他服务器为后端服务器负责提供分类服务。
或者,在其他应用场景下,上述各服务器可均位于内网中。
下面将基于上述共性介绍,对本发明实施例做进一步详细说明。
图3示出了由上述疾病编码系统所执行的疾病编码方法的一种示例性流程,包括:
S1:获取目标临床诊断文本信息。
步骤S1可由前述的获取模块1执行。
其中,目标临床诊断文本信息为医生录入的临床诊断文本信息。
在一个示例中,临床诊断文本信息可以为阑尾炎、肺炎、新生儿黄疸等简单文本信息。
S2:确定所述目标临床诊断文本信息在临床医学知识图谱中对应的目标临床术语概念。
所述临床医学知识图谱包括多个临床术语概念,以及不同所述临床术语概念之间的关联关系。其中,临床术语概念为节点或实体,关联关系为节点或实体间的线。
步骤S2可由前述的目标临床术语概念确定模块2执行。
在一个示例中,步骤S2具体为:将所述目标临床诊断文本信息与临床医学知识图谱中的各临床术语概念进行深度语义匹配。
匹配成功的临床术语概念即为所述目标临床术语概念。
深度语义匹配的具体实施过程将在后续的实施例中加以详细介绍。
S3:基于疾病分类知识图谱,确定所述目标临床术语概念在国际疾病分类ICD下的4位亚目编码。
所述疾病分类知识图谱包括根据WHO疾病分类定义形成的多个分类实体,以及不同所述分类实体之间的关联关系;所述分类实体至少包括临床医疗数据与4位亚目编码之间的映射关系;确定的4位亚目编码为目标4位亚目编码;
步骤S3可由前述的4位亚目编码确定模块3执行。
4位亚目编码确定模块3可至少将目标临床术语概念与各分类实体中的临床医疗数据进行匹配,根据匹配成功的分类实体中的映射关系,可确定出目标4位亚目编码。
为进行匹配,分类实体中的临床医疗数据至少包括临床术语概念。
在一个示例中,ICD可以为现行的ICD-10。
S4:将所述目标临床术语概念的特征向量输入到目标分类器内,以确定所述目标临床术语概念在目标4位亚目编码下的6位细目编码。
其中,所述目标分类器是与所述目标4位亚目编码对应的分类器;所述目标分类器通过多组第一训练数据训练得到的;所述第一训练数据包括临床术语概念的特征向量以及对应的类别标签;任一类别标签为所述目标4位亚目编码下的6位细目编码。
步骤S4可由前述的6位细目编码确定模块4执行。
疾病编码系统可自动执行上述疾病编码方法。具体的,每次获取目标临床诊断文本信息(即步骤S1)后,疾病编码系统就会自动执行上述疾病编码方法中的后续步骤S2-S4。
需要说明的是,在疾病医疗数据分类过程中,是由分类器根据疾病信息直接进行6位细目编码分类,这种方式会导致分类准确度过低的问题。
而在本发明实施例中,先通过临床医学知识图谱确定目标临床诊断文本信息对应的目标临床术语概念,接着通过疾病分类知识图谱确定目标临床术语概念在国际疾病分类ICD下的4位亚目编码,再通过目标分类器确定目标临床术语概念在目标4位亚目编码下的6位细目编码,与将目标临床诊断文本信息直接进行6位细目编码相比,本发明通过两级语义匹配,两级筛选,避免了目标临床诊断文本信息与6位细目编码直接进行语义匹配时的准确度过低的风险,进而提高了分类准确度。
此外,与将目标临床诊断文本信息直接进行6位细目编码相比,其分类相对较少,举例来讲,假定共有M个4位亚目编码(a1-am),任一亚目编码(以ai表示)下的6位细目编码的个数为bi,则采用直接进行6位细目编码的方式,其匹配次数为bi,而采用本实施例的方案,假定目标4位亚目编码为a3,则其所进行的匹配次数最大为M+b3,与之相比,其匹配次数大大减小,进而提高了疾病编码在实际应用场景中的分类效率。
下面将对确定所述目标临床诊断文本信息在临床医学知识图谱中对应的目标临床术语概念进行更为详细的介绍。
在本实施例中,目标临床诊断文本信息与临床术语概念之间的深度语义匹配设计为包括:字符、词和句子3个层级的语义匹配。请参见图4,其示例性得包括如下步骤:
S21:构建字符级匹配矩阵。
所述字符级匹配矩阵中任一位置的元素为:第一字符嵌入向量与第二字符嵌入向量之间的相似度;所述第一字符嵌入向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的字符嵌入向量;所述第二字符嵌入向量为标定临床术语概念在所述任一位置上的字符所对应的字符嵌入向量;所述标定临床术语概念为所述临床医学知识图谱中的任意临床术语概念。
S22:构建词级匹配矩阵。
所述词级匹配矩阵中任一位置的元素为:第一词嵌入向量与第二词嵌入向量之间的相似度;所述第一词嵌入向量为所述目标临床诊断文本信息在所述任一位置上的字符所属词的词嵌入向量;所述第二词嵌入向量为所述标定临床术语概念在所述任一位置上的字符所属词的词嵌入向量。
S23:构建句子级匹配矩阵。
所述句子级匹配矩阵中任一位置的元素为:第一句子级特征向量与第二句子级特征向量之间的相似度;所述第一句子级特征向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的句子级特征向量;所述第二字符嵌入向量为所述标定临床术语概念在所述任一位置上的字符所对应的句子级特征向量。
S24:将所述标定临床术语概念对应的所述字符级匹配矩阵、所述词级匹配矩阵和所述句子级匹配矩阵输入到机器学习模型中,以得到所述目标临床诊断文本信息与所述标定临床术语概念的相似程度值。
所述机器学习模型通过多组第二训练数据训练得到的;每一组所述第二训练数据包括:匹配矩阵集合以及对应的相似程度值标签;所述匹配矩阵集合包括字符级匹配矩阵、词级匹配矩阵和句子级匹配矩阵。
在机器学习模型训练过程中,自动调整字符级匹配矩阵的权重向量、句子级匹配矩阵的权重向量和句子级匹配矩阵的权重向量,以使所述机器学习模型输出的相似程度值与相似程度值标签之间的误差小于设定阈值。
其中,匹配成功的临床术语概念为:最大相似程度值对应的标定临床术语概念。
在一个示例中,上述描述的相似度可以为余弦相似度。
下面将句子级匹配矩阵的构建过程进行更为详细的介绍,具体如下:
步骤A:获取所述目标临床诊断文本信息对应的补充信息。
在一个示例中,上述描述的构建句子级匹配矩阵的目标是融合补充信息。所述补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种。
步骤B:在所述目标临床术语概念中融入所述补充信息,得到目标字符序列。
步骤C:在所述标定临床术语概念中融入所述补充信息,得到标定字符序列。
步骤D:将所述目标字符序列输入到Bi-LSTM网络模型,以得到所述目标临床术语概念中每个字符所对应的句子级特征向量;
步骤E:将所述标定字符序列输入到Bi-LSTM网络模型,以得到所述标定临床术语概念中每个字符所对应的句子级特征向量;
步骤F:计算第一句子级特征向量与第二句子级特征向量之间的相似度;
步骤G:基于第一句子级特征向量与第二句子级特征向量之间的相似度,构建句子级匹配矩阵。
前述提及了补充信息,上述补充信息除可用于句子级匹配矩阵的构建外,还可应用于确定目标4位亚目编码。
与之对应,前述临床医疗数据的还可包括与临床术语概念对应的标准补充信息。
下面将对基于疾病分类知识图谱,确定所述目标临床术语概念在国际疾病分类ICD下的4位亚目编码进行更为详细的介绍,其具体如下:
步骤a:基于目标映射规则,提供所述目标临床术语概念对应的补充信息输入模板;所述目标映射规则与所述目标临床术语概念相对应;所述目标映射规则包括目标临床术语概念、补充信息输入模板以及信息补录限定条件。
步骤b:接收通过所述补充信息输入模板输入的补充信息;所述输入的补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种。
步骤c:判断所述输入的补充信息是否符合所述信息补录限定条件。
步骤d:若是,将所述目标临床术语概念与所述分类实体中的临床术语概念相匹配,同时,将所述输入的补充信息与同一分类实体中的标准补充信息相匹配。
在判断为是的情况下,匹配成功指:分类实体中的临床术语概念与所述目标临床术语概念匹配成功,并且,分类实体中的标准补充信息与输入的补充信息匹配成功。
步骤e:若否,则将所述目标临床术语概念与各所述分类实体相匹配。
其中,匹配成功的分类实体中的4位亚目编码为所述目标4位亚目编码。
例如,当输入目标临床诊断文本信息为“肿瘤”(C00-D49)时,提示用户输入“病理组织学结果”,从而获得ICD形态学编码。
例如,当目标临床术语概念为先天性肝肿大,输出4位亚目编码为Q44.7肝的其他先天性畸形。若基于映射规则,会提示用户是否存在“先天性梅毒性肝肿大”情况,若是则4位亚目编码为A52.7——其他有症状性晚期梅毒及K77.0分类于他处的传染病和寄生虫病引起的肝疾患。显然映射规则,提示补充疾病情况的细化信息,以获得更准确的4位亚目编码。
映射规则是依据分类规则制定的,确定依据临床术语概念输入的补充信息是否符合信息补录限定条件的规则,计算结果为“true”或“false”。
映射规则的语法表示为IF ID|FULLY SPECIFIED NAME|[=VALUE],评估是否存在一个或多个临床情况,或获取更多患者信息,保证映射至更精准的4位亚目编码。例如,若输入患者发病年龄,符合映射规则及其值(IF ID|临床情况的发生年龄|<=28.0years),则运算结果评估为“true”。其中,IF表示如果,ID表示临床术语概念ID,FULLY SPECIFIED NAME表示临床术语概念,VALUE一般为限定值或true。
其中,目标临床术语概念对应的特征向量包括多个子向量,所述多个子向量分别为所述目标临床术语概念的词向量、所述目标临床术语概念的文本向量、所述目标临床术语概念的同义词的文本向量、所述目标临床术语概念对应的补充信息的文本向量;所述补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种;所述同义词通过所述临床医学知识图谱确定。
目标临床术语概念的词向量计算过程为,首先将目标临床术语概念内的每个词看做一个字符序列,Bi-LSTM网络模型将该字符序列内每个字的嵌入表示作为输入,得到该词的字级别向量表示;然后将该词的词嵌入向量表示与字级别向量表示联接起来,作为该词的词向量表示。
目标临床术语概念的文本向量计算过程为:首先将该目标临床术语概念的文本描述看做一个词序列,Bi-LSTM网络模型将该词序列内每个词的向量表示作为输入,得到文本向量表示。
目标临床术语概念的同义词的文本向量计算过程:在临床医学知识图谱内找到该目标临床术语概念的同义词,计算这些同义词的文本向量。
临床补充信息的嵌入表示:对患者的年龄,性别这些离散数据,采用随机初始化的方法,得到患者的年龄嵌入表示以及性别嵌入表示。
上下文的文本向量表示:将出院小结看做该目标临床术语概念的上下文信息,计算该上下文信息的文本向量表示。
下面介绍疾病编码系统。
图1示出了上述疾病编码系统的一种示例性结构,包括:
获取模块1,用于获取目标临床诊断文本信息。
具体细节请参见本文前述记载,在此不作赘述。
目标临床术语概念确定模块2,用于确定所述目标临床诊断文本信息在临床医学知识图谱中对应的目标临床术语概念;所述临床医学知识图谱包括多个临床术语概念,以及不同所述临床术语概念之间的关联关系。
其中,目标临床术语概念确定模块2,具体包括:
语义匹配单元,用于将所述目标临床诊断文本信息与临床医学知识图谱中的各临床术语概念进行深度语义匹配;匹配成功的临床术语概念为所述目标临床术语概念。
在一个示例中,所述语义匹配单元,具体包括:
字符级匹配矩阵构建子单元,用于构建字符级匹配矩阵;所述字符级匹配矩阵中任一位置的元素为:第一字符嵌入向量与第二字符嵌入向量之间的相似度;所述第一字符嵌入向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的字符嵌入向量;所述第二字符嵌入向量为标定临床术语概念在所述任一位置上的字符所对应的字符嵌入向量;所述标定临床术语概念为所述临床医学知识图谱中的任意临床术语概念。
词级匹配矩阵构建子单元,用于构建词级匹配矩阵;所述词级匹配矩阵中任一位置的元素为:第一词嵌入向量与第二词嵌入向量之间的相似度;所述第一词嵌入向量为所述目标临床诊断文本信息在所述任一位置上的字符所属词的词嵌入向量;所述第二词嵌入向量为所述标定临床术语概念在所述任一位置上的字符所属词的词嵌入向量。
句子级匹配矩阵构建子单元,用于构建句子级匹配矩阵;所述句子级匹配矩阵中任一位置的元素为:第一句子级特征向量与第二句子级特征向量之间的相似度;所述第一句子级特征向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的句子级特征向量;所述第二字符嵌入向量为所述标定临床术语概念在所述任一位置上的字符所对应的句子级特征向量。
相似程度值计算子单元,用于将所述标定临床术语概念对应的所述字符级匹配矩阵、所述词级匹配矩阵和所述句子级匹配矩阵输入到机器学习模型中,以得到所述目标临床诊断文本信息与所述标定临床术语概念的相似程度值;所述机器学习模型通过多组第二训练数据训练得到的;每一组所述第二训练数据包括:匹配矩阵集合以及对应的相似程度值标签;所述匹配矩阵集合包括字符级匹配矩阵、词级匹配矩阵和句子级匹配矩阵。
在机器学习模型训练过程中,自动调整字符级匹配矩阵的权重向量、句子级匹配矩阵的权重向量和句子级匹配矩阵的权重向量,以使所述机器学习模型输出的相似程度值与相似程度值标签之间的误差小于设定阈值。
其中,匹配成功的临床术语概念为:最大相似程度值对应的标定临床术语概念。
在一个示例中,所述句子级匹配矩阵构建子单元,进一步用于:
获取所述目标临床诊断文本信息对应的补充信息;所述补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种。
在所述目标临床术语概念中融入所述补充信息,得到目标字符序列。
在所述标定临床术语概念中融入所述补充信息,得到标定字符序列。
将所述目标字符序列输入到Bi-LSTM网络模型,以得到所述目标临床术语概念中每个字符所对应的句子级特征向量。
将所述标定字符序列输入到Bi-LSTM网络模型,以得到所述标定临床术语概念中每个字符所对应的句子级特征向量。
计算所述第一句子级特征向量与所述第二句子级特征向量之间的相似度,以得到句子级匹配矩阵。
所述第一句子级特征向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的句子级特征向量;所述第二字符嵌入向量为所述标定临床术语概念在所述任一位置上的字符所对应的句子级特征向量。
其它细节请参见本文前述记载,在此不作赘述。
4位亚目编码确定模块3,用于基于疾病分类知识图谱,确定所述目标临床术语概念在国际疾病分类ICD下的4位亚目编码;所述疾病分类知识图谱包括根据WHO疾病分类定义形成的多个分类实体,以及不同所述分类实体之间的关联关系;所述分类实体至少包括临床医疗数据与4位亚目编码之间的映射关系;所述临床医疗数据至少包括临床术语概念;确定的4位亚目编码为目标4位亚目编码。
其中,所述临床医疗数据还包括与临床术语概念对应的标准补充信息;4位亚目编码确定模块3,具体包括:
补充信息输入模板确定单元,用于基于目标映射规则,提供所述目标临床术语概念对应的补充信息输入模板;所述目标映射规则与所述目标临床术语概念相对应;所述目标映射规则包括目标临床术语概念、补充信息输入模板以及信息补录限定条件。
补充信息接收单元,用于接收通过所述补充信息输入模板输入的补充信息;所述输入的补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种。
判断单元,用于判断所述输入的补充信息是否符合所述信息补录限定条件。
4位亚目编码第一确定单元,用于当所述输入的补充信息符合所述信息补录限定条件时,将所述目标临床术语概念与所述分类实体中的临床术语概念相匹配,同时,将所述输入的补充信息与同一分类实体中的标准补充信息相匹配。
4位亚目编码第二确定单元,用于将所述目标临床术语概念与各所述分类实体相匹配。
其中,匹配成功的分类实体中的4位亚目编码为所述目标4位亚目编码。
其它细节请参见本文前述记载,在此不作赘述。
6位细目编码确定模块4,用于将所述目标临床术语概念的特征向量输入到目标分类器内,以确定所述目标临床术语概念在目标4位亚目编码下的6位细目编码;其中,所述目标分类器是与所述目标4位亚目编码对应的分类器;所述目标分类器通过多组第一训练数据训练得到的;所述第一训练数据包括临床术语概念的特征向量以及对应的类别标签;任一类别标签为所述目标4位亚目编码下的6位细目编码。
所述目标临床术语概念对应的特征向量包括多个子向量,所述多个子向量分别为所述目标临床术语概念的词向量、所述目标临床术语概念的文本向量、所述目标临床术语概念的同义词的文本向量、所述目标临床术语概念对应的补充信息的文本向量;所述补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种;所述同义词通过所述临床医学知识图谱确定。
具体细节请参见本文前述记载,在此不作赘述。
图5示出了上述实施例中疾病编码系统的一种可能的硬件结构示意图,包括:总线、处理器501、存储器502、通信接口503、输入设备504和输出设备505。处理器501、存储器502、通信接口503、输入设备504和输出设备505通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器501可以是通用处理器,例如通用中央处理器(CPU)、网络处理器(NetworkProcessor,简称NP)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路,还可以是数字信号处理器(DSP)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器502中保存有执行本发明技术方案的程序或脚本,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。脚本则通常以文本(如ASCII)保存,只在被调用时进行解释或编译。
输入设备504可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、语音输入装置、触摸屏等。
输出设备505可包括允许输出信息给用户的装置,例如显示屏等。
通信接口503可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器501通过执行存储器502中所存放的程序以及调用其他设备,可实现上述实施例提供的疾病编码方法。
此外,图5所示的疾病编码系统各模块的功能,可由前述的处理器501执行存储器502中所存放的程序以及调用其他设备实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及模型步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在上述实施例中,存储器502存储的供处理器501执行的指令可以以计算机程序产品的形式实现。计算机程序产品可以是事先写入在存储器502中,也可以是以软件形式下载并安装在存储器502中。
计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid statedisk,SSD)等。
当计算机指令被执行时,实现本文前述记载的疾病编码方法。
图6为本发明技术方案的整体流程图,与现有的技术相比,本发明具有以下的优势:
1、与将目标临床诊断文本信息直接进行6位细目编码相比,本发明先通过临床医学知识图谱确定目标临床诊断文本信息对应的目标临床术语概念,接着通过疾病分类知识图谱确定目标临床术语概念在国际疾病分类ICD下的4位亚目编码,再通过目标分类器确定目标临床术语概念在目标4位亚目编码下的6位细目编码,即本发明依据ICD分类层次、分类规则进行分类,从而提高分类准确率。
2、本发明采用深度学习算法,融合了丰富的临床语义信息以及补充信息,并在此过程中融合临床知识图谱来计算临床术语概念的向量表示,提供了分类精度,达到了更好的效果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种疾病编码方法,其特征在于,包括:
获取目标临床诊断文本信息;
确定所述目标临床诊断文本信息在临床医学知识图谱中对应的目标临床术语概念;所述临床医学知识图谱包括多个临床术语概念,以及不同所述临床术语概念之间的关联关系;
基于疾病分类知识图谱,确定所述目标临床术语概念在国际疾病分类ICD下的4位亚目编码;所述疾病分类知识图谱包括根据WHO疾病分类定义形成的多个分类实体,以及不同所述分类实体之间的关联关系;所述分类实体至少包括临床医疗数据与4位亚目编码之间的映射关系;所述临床医疗数据至少包括临床术语概念;确定的4位亚目编码为目标4位亚目编码;
将所述目标临床术语概念的特征向量输入到目标分类器内,以确定所述目标临床术语概念在目标4位亚目编码下的6位细目编码;其中,所述目标分类器是与所述目标4位亚目编码对应的分类器;所述目标分类器通过多组第一训练数据训练得到的;所述第一训练数据包括临床术语概念的特征向量以及对应的类别标签;任一类别标签为所述目标4位亚目编码下的6位细目编码;所述目标临床术语概念对应的特征向量包括多个子向量,所述多个子向量分别为所述目标临床术语概念的词向量、所述目标临床术语概念的文本向量、所述目标临床术语概念的同义词的文本向量、所述目标临床术语概念对应的补充信息的文本向量;所述补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种;所述同义词通过所述临床医学知识图谱确定;
所述临床医疗数据还包括与临床术语概念对应的标准补充信息;
所述基于疾病分类知识图谱,确定所述目标临床术语概念在国际疾病分类ICD下的4位亚目编码,具体包括:
基于目标映射规则,提供所述目标临床术语概念对应的补充信息输入模板;所述目标映射规则与所述目标临床术语概念相对应;所述目标映射规则包括目标临床术语概念、补充信息输入模板以及信息补录限定条件;
接收通过所述补充信息输入模板输入的补充信息;所述输入的补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种;
判断所述输入的补充信息是否符合所述信息补录限定条件;
若是,将所述目标临床术语概念与所述分类实体中的临床术语概念相匹配,同时,将所述输入的补充信息与同一分类实体中的标准补充信息相匹配;
若否,则将所述目标临床术语概念与各所述分类实体相匹配;
其中,匹配成功的分类实体中的4位亚目编码为所述目标4位亚目编码。
2.根据权利要求1所述的一种疾病编码方法,其特征在于,所述确定所述目标临床诊断文本信息在临床医学知识图谱中对应的目标临床术语概念,具体包括:
将所述目标临床诊断文本信息与临床医学知识图谱中的各临床术语概念进行深度语义匹配;匹配成功的临床术语概念为所述目标临床术语概念。
3.根据权利要求2所述的一种疾病编码方法,其特征在于,所述将所述目标临床诊断文本信息与临床医学知识图谱中的各临床术语概念进行深度语义匹配,具体包括:
构建字符级匹配矩阵;所述字符级匹配矩阵中任一位置的元素为:第一字符嵌入向量与第二字符嵌入向量之间的相似度;所述第一字符嵌入向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的字符嵌入向量;所述第二字符嵌入向量为标定临床术语概念在所述任一位置上的字符所对应的字符嵌入向量;所述标定临床术语概念为所述临床医学知识图谱中的任意临床术语概念;
构建词级匹配矩阵;所述词级匹配矩阵中任一位置的元素为:第一词嵌入向量与第二词嵌入向量之间的相似度;所述第一词嵌入向量为所述目标临床诊断文本信息在所述任一位置上的字符所属词的词嵌入向量;所述第二词嵌入向量为所述标定临床术语概念在所述任一位置上的字符所属词的词嵌入向量;
构建句子级匹配矩阵;所述句子级匹配矩阵中任一位置的元素为:第一句子级特征向量与第二句子级特征向量之间的相似度;所述第一句子级特征向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的句子级特征向量;所述第二字符嵌入向量为所述标定临床术语概念在所述任一位置上的字符所对应的句子级特征向量;
将所述标定临床术语概念对应的所述字符级匹配矩阵、所述词级匹配矩阵和所述句子级匹配矩阵输入到机器学习模型中,以得到所述目标临床诊断文本信息与所述标定临床术语概念的相似程度值;所述机器学习模型通过多组第二训练数据训练得到的;每一组所述第二训练数据包括:匹配矩阵集合以及对应的相似程度值标签;所述匹配矩阵集合包括字符级匹配矩阵、词级匹配矩阵和句子级匹配矩阵;
在机器学习模型训练过程中,自动调整字符级匹配矩阵的权重向量、句子级匹配矩阵的权重向量和句子级匹配矩阵的权重向量,以使所述机器学习模型输出的相似程度值与相似程度值标签之间的误差小于设定阈值;
其中,匹配成功的临床术语概念为:最大相似程度值对应的标定临床术语概念。
4.根据权利要求3所述的一种疾病编码方法,其特征在于,所述构建句子级匹配矩阵,具体包括:
获取所述目标临床诊断文本信息对应的补充信息;所述补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种;
在所述目标临床术语概念中融入所述补充信息,得到目标字符序列;
在所述标定临床术语概念中融入所述补充信息,得到标定字符序列;
将所述目标字符序列输入到Bi-LSTM网络模型,以得到所述目标临床术语概念中每个字符所对应的句子级特征向量;
将所述标定字符序列输入到Bi-LSTM网络模型,以得到所述标定临床术语概念中每个字符所对应的句子级特征向量;
计算所述第一句子级特征向量与所述第二句子级特征向量之间的相似度,以得到句子级匹配矩阵。
5.一种疾病编码系统,其特征在于,包括:
获取模块,用于获取目标临床诊断文本信息;
目标临床术语概念确定模块,用于确定所述目标临床诊断文本信息在临床医学知识图谱中对应的目标临床术语概念;所述临床医学知识图谱包括多个临床术语概念,以及不同所述临床术语概念之间的关联关系;
4位亚目编码确定模块,用于基于疾病分类知识图谱,确定所述目标临床术语概念在国际疾病分类ICD下的4位亚目编码;所述疾病分类知识图谱包括根据WHO疾病分类定义形成的多个分类实体,以及不同所述分类实体之间的关联关系;所述分类实体至少包括临床医疗数据与4位亚目编码之间的映射关系;所述临床医疗数据至少包括临床术语概念;确定的4位亚目编码为目标4位亚目编码;
6位细目编码确定模块,用于将所述目标临床术语概念的特征向量输入到目标分类器内,以确定所述目标临床术语概念在目标4位亚目编码下的6位细目编码;其中,所述目标分类器是与所述目标4位亚目编码对应的分类器;所述目标分类器通过多组第一训练数据训练得到的;所述第一训练数据包括临床术语概念的特征向量以及对应的类别标签;任一类别标签为所述目标4位亚目编码下的6位细目编码;所述目标临床术语概念对应的特征向量包括多个子向量,所述多个子向量分别为所述目标临床术语概念的词向量、所述目标临床术语概念的文本向量、所述目标临床术语概念的同义词的文本向量、所述目标临床术语概念对应的补充信息的文本向量;所述补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种;所述同义词通过所述临床医学知识图谱确定;
所述临床医疗数据还包括与临床术语概念对应的标准补充信息;所述4位亚目编码确定模块,具体包括:
补充信息输入模板确定单元,用于基于目标映射规则,提供所述目标临床术语概念对应的补充信息输入模板;所述目标映射规则与所述目标临床术语概念相对应;所述目标映射规则包括目标临床术语概念、补充信息输入模板以及信息补录限定条件;
补充信息接收单元,用于接收通过所述补充信息输入模板输入的补充信息;所述输入的补充信息包括疾病细化信息、出院小结信息和疾病患者基本信息中的至少一种;
判断单元,用于判断所述输入的补充信息是否符合所述信息补录限定条件;
4位亚目编码第一确定单元,用于当所述输入的补充信息符合所述信息补录限定条件时,将所述目标临床术语概念与所述分类实体中的临床术语概念相匹配,同时,将所述输入的补充信息与同一分类实体中的标准补充信息相匹配;
4位亚目编码第二确定单元,用于将所述目标临床术语概念与各所述分类实体相匹配;
其中,匹配成功的分类实体中的4位亚目编码为所述目标4位亚目编码。
6.根据权利要求5所述的一种疾病编码系统,其特征在于,所述目标临床术语概念确定模块,具体包括:
语义匹配单元,用于将所述目标临床诊断文本信息与临床医学知识图谱中的各临床术语概念进行深度语义匹配;匹配成功的临床术语概念为所述目标临床术语概念。
7.根据权利要求6所述的一种疾病编码系统,其特征在于,所述语义匹配单元,具体包括:
字符级匹配矩阵构建子单元,用于构建字符级匹配矩阵;所述字符级匹配矩阵中任一位置的元素为:第一字符嵌入向量与第二字符嵌入向量之间的相似度;所述第一字符嵌入向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的字符嵌入向量;所述第二字符嵌入向量为标定临床术语概念在所述任一位置上的字符所对应的字符嵌入向量;所述标定临床术语概念为所述临床医学知识图谱中的任意临床术语概念;
词级匹配矩阵构建子单元,用于构建词级匹配矩阵;所述词级匹配矩阵中任一位置的元素为:第一词嵌入向量与第二词嵌入向量之间的相似度;所述第一词嵌入向量为所述目标临床诊断文本信息在所述任一位置上的字符所属词的词嵌入向量;所述第二词嵌入向量为所述标定临床术语概念在所述任一位置上的字符所属词的词嵌入向量;
句子级匹配矩阵构建子单元,用于构建句子级匹配矩阵;所述句子级匹配矩阵中任一位置的元素为:第一句子级特征向量与第二句子级特征向量之间的相似度;所述第一句子级特征向量为所述目标临床诊断文本信息在所述任一位置上的字符所对应的句子级特征向量;所述第二字符嵌入向量为所述标定临床术语概念在所述任一位置上的字符所对应的句子级特征向量;
相似程度值计算子单元,用于将所述标定临床术语概念对应的所述字符级匹配矩阵、所述词级匹配矩阵和所述句子级匹配矩阵输入到机器学习模型中,以得到所述目标临床诊断文本信息与所述标定临床术语概念的相似程度值;所述机器学习模型通过多组第二训练数据训练得到的;每一组所述第二训练数据包括:匹配矩阵集合以及对应的相似程度值标签;所述匹配矩阵集合包括字符级匹配矩阵、词级匹配矩阵和句子级匹配矩阵;
在机器学习模型训练过程中,自动调整字符级匹配矩阵的权重向量、句子级匹配矩阵的权重向量和句子级匹配矩阵的权重向量,以使所述机器学习模型输出的相似程度值与相似程度值标签之间的误差小于设定阈值;
其中,匹配成功的临床术语概念为:最大相似程度值对应的标定临床术语概念。
8.一种可读存储介质,其特征在于,所述可读存储介质中存储有指令,当所述指令被执行时,实现如权利要求1-5任一项所述的疾病编码方法。
9.一种疾病编码装置,其特征在于,包括处理器和存储器;其中,所述存储器用于存储计算机执行指令;当所述处理器运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以实现如权利要求1-4任一项所述的疾病编码方法。
CN202110869109.9A 2021-07-30 2021-07-30 一种疾病编码方法、系统、可读存储介质及装置 Active CN113593709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110869109.9A CN113593709B (zh) 2021-07-30 2021-07-30 一种疾病编码方法、系统、可读存储介质及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110869109.9A CN113593709B (zh) 2021-07-30 2021-07-30 一种疾病编码方法、系统、可读存储介质及装置

Publications (2)

Publication Number Publication Date
CN113593709A CN113593709A (zh) 2021-11-02
CN113593709B true CN113593709B (zh) 2022-09-30

Family

ID=78252318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110869109.9A Active CN113593709B (zh) 2021-07-30 2021-07-30 一种疾病编码方法、系统、可读存储介质及装置

Country Status (1)

Country Link
CN (1) CN113593709B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115964472A (zh) * 2021-12-03 2023-04-14 奥码哈(杭州)医疗科技有限公司 一种icd编码方法、icd编码查询方法、编码系统和查询系统
CN114974602A (zh) * 2022-05-26 2022-08-30 山东大学 一种基于对比学习的诊断编码方法及系统
CN116884630A (zh) * 2023-09-06 2023-10-13 深圳达实旗云健康科技有限公司 一种提高疾病自动编码效率的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法
CN111274373A (zh) * 2020-01-16 2020-06-12 山东大学 一种基于知识图谱的电子病历问答方法及系统
CN112214995A (zh) * 2019-07-09 2021-01-12 百度(美国)有限责任公司 用于同义词预测的分层多任务术语嵌入学习
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10360507B2 (en) * 2016-09-22 2019-07-23 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
CN107577826B (zh) * 2017-10-25 2018-05-15 山东众阳软件有限公司 基于原始诊断数据的疾病分类编码方法及系统
CN110660459A (zh) * 2019-08-30 2020-01-07 腾讯科技(深圳)有限公司 用于病案质控的方法、装置、服务器以及存储介质
CN111310438B (zh) * 2020-02-20 2021-06-08 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN111814463B (zh) * 2020-08-24 2020-12-15 望海康信(北京)科技股份公司 国际疾病分类编码推荐方法、系统及相应设备和存储介质
CN112837765B (zh) * 2021-01-12 2023-01-20 山东众阳健康科技集团有限公司 一种用于疾病诊断的自动编码方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法
CN112214995A (zh) * 2019-07-09 2021-01-12 百度(美国)有限责任公司 用于同义词预测的分层多任务术语嵌入学习
CN111274373A (zh) * 2020-01-16 2020-06-12 山东大学 一种基于知识图谱的电子病历问答方法及系统
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
电子病历中命名实体的智能识别;叶枫等;《中国生物医学工程学报》;20110430;第30卷(第02期);第256-262页 *

Also Published As

Publication number Publication date
CN113593709A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN113593709B (zh) 一种疾病编码方法、系统、可读存储介质及装置
CN111339774B (zh) 文本的实体关系抽取方法和模型训练方法
JP6929971B2 (ja) 自然言語クエリのデータベースクエリへのニューラルネットワークに基づく翻訳
US11232365B2 (en) Digital assistant platform
US10572822B2 (en) Modular memoization, tracking and train-data management of feature extraction
US10417240B2 (en) Identifying potential patient candidates for clinical trials
CN108091372B (zh) 医疗字段映射校验方法及装置
CN111128391B (zh) 一种信息处理设备、方法和存储介质
CN111159220B (zh) 用于输出结构化查询语句的方法和装置
CN112541056A (zh) 医学术语标准化方法、装置、电子设备及存储介质
CN111090641A (zh) 数据处理方法及装置、电子设备、存储介质
CN115374771A (zh) 文本标签确定方法及装置
CN117149998B (zh) 基于多目标优化的智能就诊推荐方法及系统
CN111259664A (zh) 医学文本信息的确定方法、装置、设备及存储介质
CN116932774A (zh) 一种知识图谱的构建方法、装置、设备及存储介质
CN111640517B (zh) 病历编码方法、装置、存储介质及电子设备
CN109712680B (zh) 基于hl7 规范的医疗数据生成方法及系统
WO2021098876A1 (zh) 一种基于知识图谱的问答方法及装置
US11842165B2 (en) Context-based image tag translation
CN117390170B (zh) 数据标准的对标方法、装置、电子设备和可读存储介质
CN117009532B (zh) 语义类型识别方法、装置、计算机可读介质及电子设备
CN114708965B (zh) 诊断推荐方法及装置、电子设备和存储介质
CN114765072A (zh) 用于数据处理的方法、设备和介质
CN114329163A (zh) 基于知识图谱的舆情监测分析方法、装置、设备和介质
CN117409916A (zh) 基于人工智能的数据管理方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant