CN116230146A - 数据处理方法、icd编码模型的训练方法及相关设备 - Google Patents
数据处理方法、icd编码模型的训练方法及相关设备 Download PDFInfo
- Publication number
- CN116230146A CN116230146A CN202211228635.8A CN202211228635A CN116230146A CN 116230146 A CN116230146 A CN 116230146A CN 202211228635 A CN202211228635 A CN 202211228635A CN 116230146 A CN116230146 A CN 116230146A
- Authority
- CN
- China
- Prior art keywords
- target
- historical
- medical record
- vector
- icd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本申请公开了一种数据处理方法、ICD编码模型的训练方法及相关设备,用于解决相关技术中存在的ICD编码的获取效率低和准确性低的问题。数据处理方法包括:从目标对象的线上病历数据中获取目标对象的生理特征数据,并通过ICD编码模型的决策树模块对生理特征数据进行嵌入处理得到第一表示向量;从目标对象的线下病历数据中获取与目标对象的临床表现相关的目标词语,并通过ICD编码模型的文本编码模块对目标词语进行嵌入处理得到第二表示向量;通过ICD编码模型的注意力处理模块基于注意力机制将第一表示向量和第二表示向量融合为多模态表示向量,并基于多模态表示向量对目标对象进行分类识别,得到第一目标ICD编码。
Description
技术领域
本申请涉及医疗信息处理技术领域,尤其涉及一种数据处理方法、ICD编码模型的训练方法及相关设备。
背景技术
国际疾病分类(International Classification of Diseases,ICD)是根据疾病的某些特征,按照一定的规则和分类的方法,将各种疾病按某些既定的标准分门别类地归纳在一起。ICD编码是将疾病和有关健康问题的原始资料加工成为信息的重要工具,更易于对数据进行贮存、检索和分析等。ICD编码可用于在患者出院时更新患者的电子健康记录(Electronic Health Record,EHR)。因此,ICD编码的准确性和效率对电子健康记录的更新过程有着直接影响。
目前在进行ICD编码的过程中,主要是将ICD编码制定为多标签文档分类任务,使用临床记录文本作为模型输入,使用多标签分类器编码,并通过词嵌入技术和神经网络学习文本特征。但是,由于ICD编码是一个多标签文档分类任务,因此需要针对多种ICD编码分别设计相应的特征选择方法,这样不仅增加技术实施的复杂性,还影响编码效率;另外,由于临床记录文本具有噪音和模糊性,比如门冬胰岛素(Insulin Aspart)和甘精胰岛素(Insulin Glargine)等多种类型的胰岛素通常在注释中的记录相同,不同临床记录文本存在写作风格和缩写多义等问题,因而从临床医疗文本中很难提取出影响ICD编码的决定性信息,进而影响ICD编码的准确性,最终影响EHR的准确性。
发明内容
本申请实施例的目的提供一种数据处理方法、ICD编码模型的训练方法及相关设备,用于解决相关技术中存在的ICD编码的获取效率低和准确性低的问题。
为了实现上述目的,本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种数据处理方法,包括:
获取目标对象的病历数据并将所述病历数据输入训练后的ICD编码模型,所述病历数据包括线上病历数据和线下病历数据,所述线上病历数据为结构化存储的用于表示所述目标对象的生理特征的数据,所述线下病历数据为用于表示所述目标对象的临床表现的数据,所述训练后的ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
从所述线上病历数据中获取所述目标对象的生理特征数据,并通过所述决策树模块对所述目标对象的生理特征数据进行嵌入处理,得到第一表示向量;
从所述线下病历数据中获取与所述目标对象的临床表现相关的目标词语,并通过所述文本编码模块对所述目标词语进行嵌入处理,得到第二表示向量;
通过所述注意力处理模块基于注意力机制将所述第一表示向量和所述第二表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述目标对象进行分类识别,得到用于表示所述目标对象对应的疾病种类的第一目标ICD编码。
通过本申请实施例提供的数据处理方法,考虑到目标对象的线上病历数据是基于结构化存储的用于表示目标对象的生理特征的数据,其可以提供更多有利于ICD编码的决定性信息,在用于表示目标对象的临床表现的线上病历数据的基础上,结合目标对象的线上病历数据对目标对象进行分类识别,可以弥补线下病历数据中的噪音和模糊性对决定性信息提取的影响,有利于提高分类识别的准确性,得到能够准确表示目标对象对应的疾病种类的第一目标ICD编码;由于线上病历数据和线下病历数据各自的数据类型不同,且线上病历数据是包含多种数据类型的异构数据,通过在ICD编码模型中增设文本编码模块、决策树模块以及注意力处理模块,由决策树模块从线上病历数据中获取目标对象的生理特征数据并对生理特征数据进行嵌入处理,得到的第一表示向量能够准确表示目标对象的生理特征,并且,对线上病历数据的嵌入处理几乎不需要数据准备,也不需要针对多种ICD编码设计相应的特征选择方法,有利于降低技术实施的复杂性,提高编码效率;由文本编码模块对从线下病历数据中获取与目标对象的临床表现相关的目标词语并对目标词语进行嵌入处理,所得的第二表示向量能够准确表示目标对象的临床表现特征;接着,通过注意力处理模块基于注意力机制将第一表示向量和第二表示向量进行融合,使得目标对象的生理特征和临床表现特征能够融合到统一的多模态表示向量中;进一步,基于多模态表示向量对目标对象进行分类识别,有利于从线上医疗数据和线下医疗数据中获取更丰富的重要信息,提高分类识别准确性,从而提高第一目标ICD编码的准确性。
第二方面,本申请实施例提供一种ICD编码模型的训练方法,包括:
获取历史对象的历史病历数据和历史ICD编码,并将所述历史病历数据输入ICD编码模型,所述历史ICD编码用于表示所述历史对象对应的实际疾病种类,所述历史病历数据包括历史线上病历数据和历史线下病历数据,所述历史线上病历数据为结构化存储的用于表示所述历史对象的生理特征的数据,所述历史线下病历数据为用于表示所述历史对象的临床表现的数据,所述ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
从所述历史线上病历数据中获取所述历史对象的生理特征数据,并通过所述决策树模块对所述历史对象的生理特征数据进行嵌入处理,得到第三表示向量;
从所述历史线下病历数据中获取与所述历史对象的临床表现相关的历史词语,并通过所述文本编码模块对所述历史词语进行嵌入表示,得到第四表示向量;
通过所述注意力处理模块基于注意力机制将所述第三表示向量和所述第四表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述历史对象进行分类识别,得到用于表示所述历史对象对应的预测疾病种类的第二目标ICD编码;
基于所述历史对象的历史ICD编码及所述第二目标ICD编码,调整所述ICD编码模型的模型参数,得到如第一方面所述的训练后的ICD编码模型。
通过本申请实施例提供的ICD编码模型的训练方法,考虑到历史对象的线上病历数据是基于结构化存储的用于表示历史对象的生理特征的数据,其可以提供更多有利于ICD编码的决定性信息,在用于表示历史对象的临床表现的历史线下病历数据的基础上,结合历史线上病历数据对历史对象进行分类识别,可以弥补历史线下病历数据中的噪音和模糊性对决定性信息提取的影响,有利于提高分类识别的准确性,得到能够准确表示历史对象对应的预测疾病种类的第二目标ICD编码;由于线上病历数据和线下病历数据各自的数据类型不同,且历史线上病历数据是包含多种数据类型的异构数据,通过在ICD编码模型中增设文本编码模块、决策树模块以及注意力处理模块,由决策树模块从线上病历数据中获取目标对象的生理特征数据并对生理特征数据进行嵌入处理,得到的第三表示向量能够准确表示历史对象的生理特征,并且,对历史线上病历数据的嵌入处理几乎不需要数据准备,也不需要针对多种ICD编码设计相应的特征选择方法,有利于降低技术实施的复杂性,提高编码效率;由文本编码模块对从历史线下病历数据中获取与历史对象的临床表现相关的历史词语并对历史词语进行嵌入处理,所得的第四表示向量能够准确表示历史对象的临床表现特征;接着,通过注意力处理模块基于注意力机制将第三表示向量和第四表示向量进行融合,使得历史对象的生理特征和临床表现特征能够融合到统一的多模态表示向量中;进一步,基于多模态表示向量对历史对象进行分类识别,得到用于表示历史对象对应的预测疾病种类的第二目标ICD编码预测,并基于历史对象的第二目标ICD编码和历史ICD编码调整ICD编码模型的模型参数,有利于ICD编码模型从历史对象的历史线上病历数据和历史线下病历数据中学习和掌握更丰富的重要信息,更准确地对历史对象进行分类识别而得到相应的ICD编码,从而有利于提高ICD编码模型的预测准确性。
第三方面,本申请实施例提供一种数据处理装置,包括:
第一获取单元,用于获取目标对象的病历数据并将所述病历数据输入训练后的ICD编码模型,所述病历数据包括线上病历数据和线下病历数据,所述线上病历数据为结构化存储的用于表示所述目标对象的生理特征的数据,所述线下病历数据为用于表示所述目标对象的临床表现的数据,所述训练后的ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
第一嵌入单元,用于从所述线上病历数据中获取所述目标对象的生理特征数据,并通过所述决策树模块对所述目标对象的生理特征数据进行嵌入处理,得到第一表示向量;
第二嵌入单元,用于从所述线下病历数据中获取与所述目标对象的临床表现相关的目标词语,并通过所述文本编码模块对所述目标词语进行嵌入处理,得到第二表示向量;
第一分类单元,用于通过所述注意力处理模块基于注意力机制将所述第一表示向量和所述第二表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述目标对象进行分类识别,得到用于表示所述目标对象对应的疾病种类的第一目标ICD编码。
第四方面,本申请实施例提供一种ICD编码模型的训练装置,包括:
第二获取单元,用于获取历史对象的历史病历数据和历史ICD编码,并将所述历史病历数据输入ICD编码模型,所述历史ICD编码用于表示所述历史对象对应的实际疾病种类,所述历史病历数据包括历史线上病历数据和历史线下病历数据,所述历史线上病历数据为结构化存储的用于表示所述历史对象的生理特征的数据,所述历史线下病历数据为用于表示所述历史对象的临床表现的数据,所述ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
第三嵌入单元,用于从所述历史线上病历数据中获取所述历史对象的生理特征数据,并通过所述决策树模块对所述历史对象的生理特征数据进行嵌入处理,得到第三表示向量;
第四嵌入单元,用于从所述历史线下病历数据中获取与所述历史对象的临床表现相关的历史词语,并通过所述文本编码模块对所述历史词语进行嵌入表示,得到第四表示向量;
第二分类单元,用于通过所述注意力处理模块基于注意力机制将所述第三表示向量和所述第四表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述历史对象进行分类识别,得到用于表示所述历史对象对应的预测疾病种类的第二目标ICD编码;
调整单元,用于基于所述历史对象的历史ICD编码及所述第二目标ICD编码,调整所述ICD编码模型的模型参数,得到如第一方面所述的训练后的ICD编码模型。
第五方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的数据处理方法;或者,所述处理器被配置为执行所述指令,以实现如第二方面所述的ICD编码模型的训练方法。
第六方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的数据处理方法;或者,使得电子设备能够执行如第二方面所述的ICD编码模型的训练方法。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请的一个或多个实施例提供的数据处理方法所适用的应用场景的示意图;
图2为本申请的一个实施例提供的一种数据处理方法的流程示意图;
图3为本申请的一个实施例提供的一种目标对象的分类识别过程的示意图;
图4为本申请的一个实施例提供的一种决策树的结构示意图;
图5为本申请的一个实施例提供的一种多模态注意力子模块的结构示意图;
图6为本申请的一个实施例提供的一种分类子模型的结构示意图;
图7为本申请的一个实施例提供的一种ICD编码模型的训练方法的流程示意图;
图8为本申请的一个实施例提供的一种ICD编码模型的训练方法的过程示意图;
图9为本申请的一个实施例提供的一种数据处理装置的结构示意图;
图10为本申请的一个实施例提供的一种ICD编码模型的训练装置的结构示意图;
图11为本申请的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
如前文所述,目前在进行ICD编码的过程中,主要是将ICD编码制定为多标签文档分类任务,使用临床记录文本作为模型输入,使用多标签分类器编码,并通过词嵌入技术和神经网络学习文本特征。但是,由于ICD编码是一个多标签文档分类任务,因此需要针对多种ICD编码分别设计相应的特征选择方法,这样不仅增加技术实施的复杂性,还影响编码效率;另外,由于临床记录文本具有噪音和模糊性,比如门冬胰岛素(Insulin Aspart)和甘精胰岛素(Insulin Glargine)等多种类型的胰岛素通常在注释中的记录相同,不同临床记录文本存在写作风格和缩写多义等问题,因而从临床医疗文本中很难提取出影响ICD编码的决定性信息,进而影响ICD编码的准确性,最终影响EHR的准确性。
有鉴于此,本申请实施例旨在提出一种数据处理方法,考虑到目标对象的线上病历数据是基于结构化存储的用于表示目标对象的生理特征的数据,其可以提供更多有利于ICD编码的决定性信息,在用于表示目标对象的临床表现的线上病历数据的基础上,结合目标对象的线上病历数据对目标对象进行分类识别,可以弥补线下病历数据中的噪音和模糊性对决定性信息提取的影响,有利于提高分类识别的准确性,得到能够准确表示目标对象对应的疾病种类的第一目标ICD编码;由于线上病历数据和线下病历数据各自的数据类型不同,且线上病历数据是包含多种数据类型的异构数据,通过在ICD编码模型中增设文本编码模块、决策树模块以及注意力处理模块,由决策树模块从线上病历数据中获取目标对象的生理特征数据并对生理特征数据进行嵌入处理,得到的第一表示向量能够准确表示目标对象的生理特征,并且,对线上病历数据的嵌入处理几乎不需要数据准备,也不需要针对多种ICD编码设计相应的特征选择方法,有利于降低技术实施的复杂性,提高编码效率;由文本编码模块对从线下病历数据中获取与目标对象的临床表现相关的目标词语并对目标词语进行嵌入处理,所得的第二表示向量能够准确表示目标对象的临床表现特征;接着,通过注意力处理模块基于注意力机制将第一表示向量和第二表示向量进行融合,使得目标对象的生理特征和临床表现特征能够融合到统一的多模态表示向量中;进一步,基于多模态表示向量对目标对象进行分类识别,有利于从线上医疗数据和线下医疗数据中获取更丰富的重要信息,提高分类识别准确性,从而提高第一目标ICD编码的准确性。
本申请实施例还提出一种ICD编码模型的训练方法,考虑到历史对象的线上病历数据是基于结构化存储的用于表示历史对象的生理特征的数据,其可以提供更多有利于ICD编码的决定性信息,在用于表示历史对象的临床表现的历史线下病历数据的基础上,结合历史线上病历数据对历史对象进行分类识别,可以弥补历史线下病历数据中的噪音和模糊性对决定性信息提取的影响,有利于提高分类识别的准确性,得到能够准确表示历史对象对应的预测疾病种类的第二目标ICD编码;由于线上病历数据和线下病历数据各自的数据类型不同,且历史线上病历数据是包含多种数据类型的异构数据,通过在ICD编码模型中增设文本编码模块、决策树模块以及注意力处理模块,由决策树模块从线上病历数据中获取目标对象的生理特征数据并对生理特征数据进行嵌入处理,得到的第三表示向量能够准确表示历史对象的生理特征,并且,对历史线上病历数据的嵌入处理几乎不需要数据准备,也不需要针对多种ICD编码设计相应的特征选择方法,有利于降低技术实施的复杂性,提高编码效率;由文本编码模块对从历史线下病历数据中获取与历史对象的临床表现相关的历史词语并对历史词语进行嵌入处理,所得的第四表示向量能够准确表示历史对象的临床表现特征;接着,通过注意力处理模块基于注意力机制将第三表示向量和第四表示向量进行融合,使得历史对象的生理特征和临床表现特征能够融合到统一的多模态表示向量中;进一步,基于多模态表示向量对历史对象进行分类识别,得到用于表示历史对象对应的预测疾病种类的第二目标ICD编码预测,并基于历史对象的第二目标ICD编码和历史ICD编码调整ICD编码模型的模型参数,有利于ICD编码模型从历史对象的历史线上病历数据和历史线下病历数据中学习和掌握更丰富的重要信息,更准确地对历史对象进行分类识别而得到相应的ICD编码,从而有利于提高ICD编码模型的预测准确性。
应理解,本申请实施例提供的数据处理方法和ICD编码模型的训练方法,均可以由电子设备或安装在电子设备中的软件执行。此处所谓的电子设备可以包括终端设备,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等;或者,电子设备还可以包括服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
以下结合附图,详细说明本申请各实施例提供的技术方案。
本申请的一个或多个实施例提供的数据处理方法可应用于图1所示的场景中。如图1所示,该场景可以包括医疗信息处理终端1和服务端2。
其中,医疗信息处理终端1是指能够用于处理医疗信息的终端。医疗信息处理终端1可以例如包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能手表等中的至少一种。
服务端2是指用于处理医疗信息的服务端设备。服务端2与医疗信息处理终端1之间通信连接以实现数据交互,例如服务端2与医疗信息处理终端1之间可通过医院的局域网等通信连接。服务端2可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器,等等。
服务端2存储有多个对象的电子健康记录。在需要对某个对象的电子健康记录进行更新时,治疗医生可将该对象的病历数据输入医疗信息处理终端1,由医疗信息处理终端1将该对象的病历数据发送给服务端2。
服务端2则基于该对象的病历数据对该对象进行分类识别,得到用于表示该对象对应的疾病种类的ICD编码,之后基于得到的ICD编码对该对象的电子健康记录进行更新。进一步,该对象的电子健康记录可用于开具该患者对应的住院账单、临床统计等。
本申请的一个或多个实施例提供的数据处理方法将详细描述基于对象的病历数据对对象进行分类识别的具体实现过程。本申请的一个或多个实施例提供的ICD编码模型的训练方法将详细描述对对象进行分类识别的过程中所使用的ICD编码模型进行训练的具体实现过程。
请参见图2,为本申请的一个实施例提供的一种数据处理方法的流程示意图,该方法可以包括如下步骤:
S202,获取目标对象的病历数据并将病历数据输入训练后的ICD编码模型。
其中,目标对象的病历数据包括目标对象的线上病历数据和线下病历数据。
其中,目标对象是指需要进行分类识别的对象,比如医院档案中记录的需要进行分类识别的患者等。目标对象的线下病历数据为用于表示目标对象的临床表现的数据,比如是指医生对目标对象进行诊疗的过程中撰写的、用于反映目标对象的病情的临床记录文本。
目标对象的线上病历数据为结构化存储的用于表示目标对象的生理特征的数据。示例地,目标对象的线上病历数据可以包括传感器采集的目标对象的生理数据和医疗记录等,其中,目标对象的生理数据可以例如包括但不限于表示目标对象的常规生命特征等的图表数据、实验室事件数据(比如实验室测量的目标对象的血液pH值等)、微生物学事件数据(比如目标对象的生物体测试信息等);目标对象的医疗记录可以例如包括但不限于目标对象的基本信息(比如性别、出生日期等)、目标对象的入院信息(比如入院时间等)、医生为目标对象开具的处方数据(比如与订单条目相关的药物、药物的通用序列号)等。这些数据可以从多个维度表示目标对象的生理特征,且这些数据可以以表格等形式结构化存储于电子设备中。
考虑到目标对象的线下病历数据具有一定的噪音和模糊性,影响对目标对象的分类识别准确性,而目标对象的线上病历数据可以提供更多有利于ICD编码的决定性信息,在目标对象的线下病历数据的基础上,结合目标对象的线上病历数据,可以弥补线下病历数据中的噪音和模糊性对决定性信息提取的影响,有利于提高分类识别的准确性。
本申请实施例中,训练后的ICD编码模型是指能够对目标对象进行分类识别以得到相应的CID编码的模型。由于线上病历数据和线下病历数据各自的数据类型不同,且线上病历数据是包含多种数据类型的异构数据,为了使这两类病历数据能够有效融合在一起,从而从中获取更丰富的、有利于对目标对象进行分类识别的重要信息,如图3所示,上述训练后的ICD编码模型可以包括决策树模块、文本编码模块和注意力处理模块。
其中,决策树模块能够对结构化存储的数据进行嵌入处理(Embedding),将结构化存储的数据转化为向量的形式。文本编码模块能够对文本数据进行嵌入处理,将文本数据转化为向量的形式。由于这两种向量的维度可能存在差异,注意力处理模块中引入了注意力机制(Attention),其能够基于注意力机制将决策树模块输出的向量和文本编码模块输出的向量融合到统一的多模态表示向量,进一步基于多模态表示向量进行分类识别以得到相应的CID编码的模型。
S204,从线上病历数据中获取目标对象的生理特征数据,并通过决策树模块对目标对象的生理特征数据进行嵌入处理,得到第一表示向量。
其中,目标对象的生理特征数据是指用于表示目标对象的生理特征的数据,比如上述生理数据和医疗记录等。具体而言,目标对象的生理特征数据可以包括目标对象在多种生理特征分别对应的特征值。
在上述S204中,可从线上病例数据中获取所有能够表示目标对象的生理特征的数据,并将这些数据按照数据类型进行相应的数据处理后填入相应的表格中,由此即可得到目标对象的生理特征数据。
示例地,对于时间序列类型的线上病历数据,比如围术期生命体征信号(Perioperative Vital Sign Signals),可计算这类数据的平均值、最大值和最小值等中的至少一种,然后将计算结果写入相应的表格中,由此得到目标对象在该生理特征对应的特征值;又如,对于多值垂直数据类型的线上病历数据,比如医院为目标患者开具的处方数据,可将其转换为二进制向量后写入相应的表格中,由此得到目标对象在该生理特征对应的特征值;再如,对于单个水平数据类型的线上病历数据,则可直接其写入相应的表格中,由此得到目标对象在该生理特征对应的特征值,等等。
其中,对目标对象的生理特征数据进行嵌入处理是指将目标对象的生理特征数据转换为相应维度的向量,得到用于表示目标对象的生理特征的第一表示向量。
本申请实施例中,对目标对象的生理特征数据进行嵌入处理可通过多种方式实现。
在一种可选的实现方式中,考虑到线上病历数据是包含多种数据类型的异构数据,而决策树自身具有的结构化特点有利于将异构数据统一,为了使得到的第一表示向量能够准确表示目标对象的生理特征,以及避免针对多种ICD编码设计不同的特征选择方法,以降低技术实施的复杂性,提高分类识别效率,在上述S204中,通过决策树模块对目标对象的生理特征数据进行嵌入处理,得到第一表示向量,可以包括如下步骤:
S2041,获取决策树模块中每个决策树的树表示向量和每个叶子节点的叶子表示向量。
其中,决策树模块包括多个决策树,每个决策树对应一个候选ICD编码,且每个决策树包括多个非叶子节点和多个叶子节点。每个候选ICD编码表示一种疾病种类。每个非叶子节点表示一种生理特征及该生理特征对应的阈值,每个叶子节点表示目标对象是否命中所属的决策树对应的候选ICD编码,也即目标对象是否与该候选ICD编码表示的疾病种类对应。
示例地,图4示出了一种决策树的示例,其中,矩形框表示非叶子节点,圆形框表示叶子节点。在该决策树中,非叶子节点[f1:x1]是根节点(也即第一级非叶子节点),其表示生理特征f1及该生理特征对应的阈值x1,非叶子节点[f2:x2]表示生理特征f2及该生理特征对应的阈值x2,非叶子节点[f3:x3]表示生理特征f3及该生理特征对应的阈值x3;从左往右起,第一个叶子节点表示命中候选ICD编码1,第二个叶子节点表示未命中ICD编码1,第三个叶子节点表示候选ICD编码1,第四个叶子节点表示未命中ICD编码1。这些非叶子节点与叶子节点之间的映射关系为:若f1≤x1,则跳转至非叶子节点[f2:x2],若f2≤x2,则跳转至第一个叶子节点,若f2>x2,则跳转至第二个叶子节点,也即若目标对象在生理特征f1对应的特征值≤x1且在生理特征f2对应的特征值≤x2,则确定目标对象命中候选ICD编码1(或者说目标对象具有与候选ICD编码1表示的疾病种类),若目标对象在生理特征f1对应的特征值≤x1且在生理特征f2对应的特征值>x2,则确定目标对象未命中候选ICD编码1(或者说目标对象不具有与候选ICD编码1表示的疾病种类);若f1>x1,则跳转至非叶子节点[f3:x3],若f3≤x3,则跳转至第三个叶子节点,若f3>x3,则跳转至第四个叶子节点,也即若目标对象在生理特征f1对应的特征值>x1且在生理特征f3对应的特征值≤x3,则确定目标对象命中候选ICD编码1(或者说目标对象具有与候选ICD编码1表示的疾病种类),若目标对象在生理特征f1对应的特征值>x1且在生理特征f3对应的特征值>x3,则确定目标对象未命中候选ICD编码1(或者说目标对象不具有与候选ICD编码1表示的疾病种类)。
对于每个决策树而言,该决策树的树表示向量用于表示从对应的决策树上的多个非叶子节点到多个叶子节点之间的映射关系;该决策树上每个叶子节点的叶子表示向量用于表示该叶子节点的节点特征,其中,叶子节点的节点特征可以包括但不限于所属的决策树的索引值、该叶子节点的索引值以及该叶子节点表示的内容等。需要说明的是,每个决策树的树表示特征是在ICD编码模型的训练过程中对决策树模块的模块参数进行调整得到的,这部分内容将在后文针对ICD编码模型的训练过程进行详细说明。
S2042,基于每个决策树的树表示向量,构建第一目标树表示向量。
具体而言,在得到每个决策树的树表示向量之后,可将每个决策树的树表示向量嵌入到一个维度为dt×|K|的向量空间中,得到第一目标树表示向量其中,dt表示每个决策树的树表示向量的维度,|K|表示决策树模块包含的决策树数量。由此,第一目标树表示向量即可表示决策树模块中所有决策树各自的多个非叶子节点与叶子节点之间的映射关系。
S2043,基于每个决策树上多个非叶子节点分别表示的多个非叶子节点与多个叶子节点之间的映射关系,从每个决策树的多个叶子节点中确定目标对象在每个决策树上命中的第一目标叶子节点。
具体而言,对于每个决策树而言,可从该决策树上的第一级非叶子节点起,将目标对象在第一级非叶子节点表示的生理特征对应的特征值与该生理特征对应的阈值进行比对,确定目标对象命中的第二级非叶子节点;接着,将目标对象在第二级非叶子节点表示的生理特征对应的特征值与该生理特征对应的阈值进行比对,确定目标对象命中的下一级非叶子节点;以此类推,由此可以确定目标对象命中的叶子节点。
示例地,以图4所示的决策树为例,若目标对象在特征值在生理特征f1对应的特征值>x1且在生理特征f3对应的特征值>x3,则可以确定标对象命中第三个叶子节点。
S2044,基于目标对象在多个决策树上分别命中的第一目标叶子节点的叶子表示向量,构建第一目标叶子表示向量。
具体而言,在确定出目标对象在多个决策树上分别命中的第一目标叶子节点之后,可将这些第一目标叶子节点的叶子表示向量p=[Q1(x),Q2(x),Q3(x),…,Q|K|(x)]嵌入到一个维度为dl×|K|的向量空间中,得到第一目标叶子表示向量其中,dl表示每个第一目标叶子节点的叶子表示向量的维度,|K|表示决策树模块包含的决策树数量,Qj(x)表示第j个决策树上的第一目标叶子节点的叶子表示向量,j为整数,且1≤j≤|K|。
由此,第一目标叶子表示向量即可表示目标对象在上述多个决策树中命中的叶子节点的节点特征。
S2045,将第一目标树表示向量和第一目标叶子表示向量作为第一表示向量。
也就是说,第一表示向量包括第一目标树表示向量和第一目标叶子表示向量。
本申请实施例在此示出了上述S204中对目标对象的生理特征数据进行嵌入处理的一种具体实现方式。当然,应理解,上述S204中对目标对象的生理特征数据进行嵌入处理也可以采用本领域常用的各种技术手段实现,例如分别对目标对象在每种生理特征对应的特征值嵌入为相应的向量后,在将多种生理特征分别对应的向量进行融合等,本申请实施例对此不作限定。
S206,从线下病历数据中获取与目标对象的临床表现相关的目标词语,并通过文本编码模块对目标词语进行嵌入处理,得到第二表示向量。
具体而言,可对线下病历数据进行文本解析,从中提取出线下病历数据中与目标对象的临床表现相关的目标词语,例如包括但不限于咳嗽、发烧、头痛、四肢无力、打喷嚏、皮肤瘙痒等。
对目标词语进行嵌入处理是指获取目标词语的语义信息并将目标词语的语义信息以向量的形式进行表示。第二表示向量用于表示目标对象的临床表现特征。其中,第二表示向量可以包括线下病历数据中的多个目标词语对应的词表示向量。对于每个目标词语而言,该目标词语的对应的词表示向量是指用于表示该目标词语的语义的向量。
在一种可选的实现方式中,为了使第二表示向量能够准确表示目标对象的临床表现特征,在上述S206中,通过所述文本编码模块对所述目标词语进行嵌入处理,得到第二表示向量,可以包括如下步骤:
S2061,将线下病历数据中每个目标词语映射到第三预设向量空间,得到每个目标词语的词向量。
其中,第三预设向量空间用于表示线下病历数据中每个目标词语的向量空间。
S2062,通过文本编码模块基于每个目标词语的词向量及其关联的其他目标词语的词向量,对每个目标词语进行词嵌入,得到每个目标词语对应的词表示向量。
其中,词嵌入(Word Embedding)是指将一种维度(比如高维度)的向量嵌入到另一种维度(比如低维度)的向量空间中,得到另一种维度的向量。
示例地,假设线下病历数据包含N个目标词语首先对于每个目标词语wi,将该目标词语wi映射到维度为de的第三预设向量空间,得到该目标词语的词向量ei;然后,将N个目标词语的词向量嵌入到词向量矩阵E中,得到E=[e1,e2,e3,...,eN];接着,针对每个目标词语,通过文本编码模块从词向量矩阵E中获取与该目标词语相关联的其他目标词语的词向量中,以及从其他目标词语的词向量中获取该目标词语的上下文信息,并基于该目标词语及其上下文信息,对该目标词语的词向量进行词嵌入,得到该目标词语对应的词表示向量。
实际应用中,文本编码模块可以采用本领域常用的各种具有嵌入处理能力的模型,例如层双向语言表示(Bidirectional Encoder Representation from Transformers,BERT)模型、长短期记忆网络(Long Short-Term Memory,LSTM)、双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)等,具体可根据实际需要进行选择,本申请实施例对此不作限定。
优选地,为了更好地捕获线下病历数据中每个目标词语的上下文信息而更准确地对每个目标词语的词向量进行嵌入处理,文本编码模块可以采用BiLSTM,其由前向LSTM与后向LSTM组合而成,两者在自然语言处理任务中常用于建模上下文信息。在本申请实施例中,BiLSTM可将线下病历数据中每个目标词语的词向量的前向输出(也即前向LSTM基于每个目标词语的词向量输出的结果)和后向输出(也即后向LSTM基于每个目标词语的词向量输出的结果)进行拼接处理,得到每个目标词语的词表示向量。
示例地,每个目标词语的词表示向量可通过如下公式(1)和公式(2)确定:
其中,表示第l个目标词语的前向输出,/>表示第l个目标词语的后向输出,e1:i表示第1~i个目标词语的词向量;H表示第二表示向量,/>表示第2个目标词语的前向输出,表示第2个目标词语的后向输出,/>表示第N个目标词语的前向输出,/>表示第N个目标词语的后向输出,/>表示拼接处理。
本申请实施例在此示出了上述S206中对目标词语进行嵌入处理的一种具体实现方式。当然,应理解,上述S206中对目标词语进行嵌入处理也可以采用本领域常用的各种技术手段实现,本申请实施例对此不作限定。
S208,通过注意力处理模块基于注意力机制将第一表示向量和第二表示向量融合为多模态表示向量,并基于多模态表示向量对目标对象进行分类识别,得到用于表示目标对象对应的疾病种类的第一目标ICD编码。
注意力机制是指从大量信息中筛选出少量重要信息,并聚焦于这些重要信息上,忽略大多不重要的信息。在本申请实施例中,由于第二表示向量中包含的信息大多是分散的、零碎的,注意力处理模块主要是基于注意力机制学习第二表示向量中的重要信息,利用第一表示向量包含的重要信息对第二表示向量包含的信息进行补充,通过将第一表示向量与第二表示向量进行融合,不仅可以对第一表示向量起到语义增强作用,还使得融合得到的多模态表示向量将目标对象的临床表现特征和生理特征有效地融合在一起而包含了更丰富的重要信息,进而有利于对目标对象进行准确分类识别。
注意力处理模块可以具有任意适当的结构,具体可根据实际需要进行设置,本申请实施例对此不作限定。可选地,为了实现线下病历数据与线上病历数据各自包含的重要信息的有效融合和统一,以便提高对目标对象进行分类识别的准确性,如图3所示,注意力处理模块可以包括多模态注意力子模块和分类子模块。
相应地,上述S208可以包括如下步骤:
S2081,通过多模态注意力子模块基于注意力机制对第一目标树表示向量、第一目标叶子表示向量以及第二表示向量进行融合,得到多模态表示向量。
实际应用中,多模态注意力子模块可以采用任意适当的、引入注意力机制的融合网络,具体结构可根据实际需要进行设置,本申请实施例对此不作限定。
可选地,为了使第一表示向量和第二表示向量包含的重要信息能够更好地融合到统一的多模态表示向量中,如图5所示,第二表示向量包括线下病历数据中的多个目标词语对应的词表示向量,多模态注意力子模块可以包括第一融合层、第二融合层和第三融合层。在此情况下,上述S281具体可实现为:通过第一融合层将第二表示向量中每个目标词语对应的词表示向量投影至第一预设向量空间,得到每个目标词语对应的投影向量,并基于每个目标词语对应的投影向量与第一目标树表示向量之间的外积,确定每个目标词语对应的注意力权重,其中,每个目标词语对应的注意力权重表示该目标词语与对目标对象进行的分类识别处理之间的相关程度,第一预设向量空间为融合每个目标词语对应的投影向量和第一目标树表示向量的向量空间;通过第二融合层确定每个目标词语对应的注意力权重与第一目标叶子表示向量之间的乘积,作为每个目标词语对应的候选表示向量;通过第三融合层对每个目标词语对应的候选表示向量和词表示向量进行拼接,得到每个目标词语对应的融合表示向量,也即多模态表示向量包括线下病历数据中的多个目标词语分别对应的融合表示向量。
更为具体地,如图5所示,在第一融合层中,可基于第一预设激活函数,将每个目标词语对应的投影向量与第一目标树表示向量之间的外积映射为数值,得到每个目标词语对应的注意力权重。
示例地,对于文本表示向量H中的第i个目标词语的词表示向量(dh表示词表示向量的维度),通过可学习参数/>将该词表示向量投影到维度为dt第一预设向量空间/>得到该目标词语对应的投影向量qi=Wqhi,其中,/>接着,基于第一预设映射函数softmax,对该目标词语对应的投影向量/>与第一目标树表示向量(K表示决策树模块包含的决策树数量)之间的外积映射为数值,得到该目标词语对应的注意力权重αi,也即αi=softmax(TTqi),其中,TT表示第一目标树表示向量的转置。
最后,在第三融合层中,对第i个目标词语对应的候选表示向量和词表示向量/>进行拼接之后投影再进行线性投影处理,即可得到第i个目标词语对应的融合表示向量mi,也即mi=W0[hi||si],其中,/>是一个可学习的参数,||表示拼接处理。进一步,将线下病历数据中所有目标词语对应的融合表示向量拼接形成多模态表示向量M,也即/>在得到多模态表示向量M之后,将该多模态表示向量M输入上述分类子模块,由分类子模块从该多模态表示向量M中学习和获取更丰富的重要信息并对目标对象进行分类预测,即可得到第一目标ICD编码。
S2082,通过分类子模块基于多模态表示向量对目标对象进行分类识别,得到第一目标ICD编码。
实际应用中,分类子模块可以采用任意适当的、具有预测能力的网络,具体结构可根据实际需要进行设置,本申请实施例对此不作限定。
可选地,为了提高分类识别的准确性,如图6所示,分类子模块可以包括激活层、线性层和非线性层。相应地,上述S2082具体可实现为:通过激活层基于第二预设映射函数将多模态表示向量映射到第二预设向量空间,得到预编码表示向量,其中,第二预设向量空间为用于表示目标对象对应的疾病种类的向量空间;通过线性层对预编码表示向量进行线性变换,得到线性编码表示向量;通过非线性层基于预设非线性变换函数对线性编码表示向量进行变换处理,得到第一目标ICD编码。
示例地,沿用上述模态表示向量M的示例,在激活层中,通过第二预设激活函数softmax,对可学习参数矩阵与多模态表示向量M的外积映射处理,得到候选编码表示向量A,也即A=softmax(MU);然后将该后选编码表示向量的转置AT与可学习参数矩阵之间的外积,作为预编码表示向量V,也即V=ATU。接着,在线性层中,通过对该预编码表示向量V进行线性变换,得到线性编码表示向量/>最后,在非线性层中,利用Sigmoid函数(一种非线性变换函数)对该线性编码表示向量进行非线性变换,输出结果/>该结果/>用于表示目标对象在多个候选ICD编码分别对应的预测概率,也即/>其中,/>表示目标对象在第j个候选ICD编码对应的预测概率,j为整数且1≤j≤n,n表示上述多个候选ICD编码的数量;若目标对象在某个候选ICD编码对应的预测概率大于或等于预设概率阈值,则表明目标对象对应的第一目标ICD编码包括该候选ICD编码;若目标对象在某个候选ICD编码对应的预测概率小于预设概率阈值,则表明目标对象对应的第一目标ICD编码不包括该候选ICD编码。
本申请实施例在此示出了上述分类子模块的一种结构。当然,应理解,上述分类子模块也可以采用本领域常用的其他结构,比如分类子模块可以包括全连接层等,本申请实施例对此不作限定。
本申请实施例中,目标对象对应的第一目标ICD编码可用于更新目标对象的电子健康记录。具体而言,目标对象的电子健康记录中记录有目标对象已患有的疾病种类对应的ICD编码等信息。在得到目标对象对应的第一目标ICD编码之后,可以将第一目标ICD编码写入目标对象的电子健康记录中。当然,可以理解的是,还可以将目标对象的病历数据和目标对象对应的第一目标ICD编码关联后一并写入目标对象的电子健康记录中。
通过本申请的一个或多个实施例提供的数据处理方法,考虑到目标对象的线上病历数据是基于结构化存储的用于表示目标对象的生理特征的数据,其可以提供更多有利于ICD编码的决定性信息,在用于表示目标对象的临床表现的线上病历数据的基础上,结合目标对象的线上病历数据对目标对象进行分类识别,可以弥补线下病历数据中的噪音和模糊性对决定性信息提取的影响,有利于提高分类识别的准确性,得到能够准确表示目标对象对应的疾病种类的第一目标ICD编码;由于线上病历数据和线下病历数据各自的数据类型不同,且线上病历数据是包含多种数据类型的异构数据,通过在ICD编码模型中增设文本编码模块、决策树模块以及注意力处理模块,由决策树模块从线上病历数据中获取目标对象的生理特征数据并对生理特征数据进行嵌入处理,得到的第一表示向量能够准确表示目标对象的生理特征,并且,对线上病历数据的嵌入处理几乎不需要数据准备,也不需要针对多种ICD编码设计相应的特征选择方法,有利于降低技术实施的复杂性,提高编码效率;由文本编码模块对从线下病历数据中获取与目标对象的临床表现相关的目标词语并对目标词语进行嵌入处理,所得的第二表示向量能够准确表示目标对象的临床表现特征;接着,通过注意力处理模块基于注意力机制将第一表示向量和第二表示向量进行融合,使得目标对象的生理特征和临床表现特征能够融合到统一的多模态表示向量中;进一步,基于多模态表示向量对目标对象进行分类识别,有利于从线上医疗数据和线下医疗数据中获取更丰富的重要信息,提高分类识别准确性,从而提高第一目标ICD编码的准确性。
本申请实施例还提供一种ICD编码模型的训练方法,用于训练具有ICD编码预测能力的ICD编码模型,训练出的ICD编码模型可应用于上述本申请的一个或多个实施例提供的数据处理方法中。
请参见图7,为本申请的一个实施例提供的一种ICD编码模型的训练方法的流程示意图,该方法可以包括如下步骤:
S702,获取历史对象的历史病历数据和历史ICD编码,并将历史病历数据输入ICD编码模型。
其中,历史对象的历史病历数据包括历史对象的历史线上病历数据和历史线下病历数据。历史线上病历数据为结构化存储的用于表示历史对象的生理特征的数据。历史线下病历数据为用于表示历史对象的临床表现的数据。
其中,ICD编码模型包括决策树模块、文本编码模块和注意力处理模块。
其中,历史ICD编码用于表示历史对象对应的实际疾病种类。
上述S702的具体实现过程与上述图1所示实施例中S202的具体实现方式类似,可参见前文对S202的详细说明,在此不再赘述。
S704,从历史线上病例数据中获取历史对象的生理特征数据,并通过决策树模块对历史对象的生理特征数据进行嵌入处理,得到第三表示向量。
在一种可选的实现方式中,上述S704可以包括如下步骤:
S7041,获取决策树模块中与当前训练轮次对应的多个决策树、每个决策树的树表示向量以及每个决策树上的多个叶子节点各自的叶子表示向量。
其中,每个决策树对应一个候选ICD编码,每个决策树包括多个非叶子节点和多个叶子节点,每个非叶子节点表示一种生理特征及其对应的阈值,每个叶子节点表示历史对象是否命中所属的决策树对应的候选ICD编码;树表示向量用于表示对应的决策树上的多个非叶子节点与多个叶子节点之间的映射关系,叶子表示向量用于表示对应的叶子节点的节点特征,其中,叶子节点的节点特征可以包括但不限于所属的决策树的索引值、该叶子节点的索引值以及该叶子节点表示的内容等。
具体而言,若当前训练轮次为第一个训练轮次,则上述S741具体可实现为:基于预设决策树生成算法、历史对象在多种生理特征分别对应的特征值和历史对象的历史ICD编码,构建多个决策树;基于每个决策树上的多个非叶子节点与多个叶子节点之间的映射关系,构建每个决策树对应的树表示向量;基于每个叶子节点的节点特征对每个叶子节点进行嵌入处理,得到每个叶子节点的叶子表示向量,其中,节点特征包括对应的叶子节点所属的决策树的索引值、对应的叶子节点的索引值以及对应的叶子节点表示的内容。
其中,预设决策树生成算法可以采用本领域常用的各种决策树生成算法,比如CLS算法、ID3算法、C4.5算法、CART算法等。通过决策树生成算法生成的决策树可用于表示从输入到输出的一种映射关系。
更为具体地,在本申请实施例中,在第一个训练轮次中,可将历史对象在多种生理特征分别对应的特征值作为输入,将历史对象的历史ICD编码作为输出,基于上述任一种决策树生成算法,构建出多个候选ICD编码各自对应的决策树,每个决策树则用于表示从输入的生理特征数据到对应的候选ICD编码之间的映射关系。
更为具体地,对于构建出的每个决策树,可将该决策树上的多个非叶子节点与多个叶子节点之间的映射关系Qi用一个初始向量进行表示,得到该决策树对应的树表示向量,所有决策树对应的树表示向量构成一个可学习的参数矩阵E1;然后,对于该决策树上的每个叶子节点,将该叶子节点的节点特征用另一个初始向量表示,得到每个叶子节点的叶子表示向量,所有叶子节点的叶子表示向量构成另一个可学习的参数矩阵E2。
上述可学习的参数矩阵E1和E2可作为决策树模块的模块参数,在ICD编码模型的训练过程中被不断调整,直至ICD编码模型满足预设训练停止条件为止。也就是说,在第一个训练轮次对ICD编码模型的模型参数进行调整之后,可从调整之后的参数矩阵E1中获取每个决策树的树表示向量,作为每个决策树在第二个训练轮次对应的树表示向量,以及从调整之后的参数矩阵E2中获取每个叶子节点的叶子表示向量,作为每个叶子节点在第二个训练轮次对应的树表示向量;以此类推,在第二个训练轮次对ICD编码模型的模型参数进行调整之后,可从调整之后的参数矩阵E1中获取每个决策树的树表示向量,作为每个决策树在第三个训练轮次对应的树表示向量,以及从调整之后的参数矩阵E2中获取每个叶子节点的叶子表示向量,作为每个叶子节点在第三个训练轮次对应的树表示向量,等等。
S7042,基于多个决策树中每个决策树的树表示向量,构建第二目标树表示向量。
上述S742的具体实现方式与上述S242的具体实现方式类似,具体可参见前文对S242的详细说明,不再赘述。
S7043,基于每个决策树上多个非叶子节点分别表示的生理特征及其对应的阈值、历史对象在多个非叶子节点分别表示的生理特征对应的特征值以及每个决策树上的多个非叶子节点与多个叶子节点之间的映射关系,从每个决策树的多个叶子节点中确定历史对象在所述每个决策树上命中的第二目标叶子节点。
上述S743的具体实现方式与上述S243的具体实现方式类似,具体可参见前文对S242的详细说明,不再赘述。
S7044,基于目标对象在多个决策树上分别命中的第二目标叶子节点的叶子表示向量,构建第二目标叶子表示向量。
上述S744的具体实现方式与上述S244的具体实现方式类似,具体可参见前文对S244的详细说明,不再赘述。
S7045,将第二目标树表示向量和第二目标叶子表示向量作为第三表示向量。
也就是说,第三表示向量包括第二目标树表示向量和第二目标叶子表示向量。
上述S704的具体实现过程与上述图1所示实施例中S204的具体实现方式类似,可参见前文对S204的详细说明,在此不再赘述。
S706,从历史线下病历数据中获取与历史对象的临床表现相关的历史词语,并通过文本编码模块对历史词语进行嵌入处理,得到第四表示向量。
上述S706的具体实现过程与上述图1所示实施例中S206的具体实现方式类似,可参见前文对S206的详细说明,在此不再赘述。
S708,通过注意力处理模块基于注意力机制将第三表示向量和第四表示向量融合为多模态表示向量,并基于多模态表示向量对历史对象进行分类识别,得到用于表示历史对象对应的预测疾病种类的第二目标ICD编码。
上述S708的具体实现过程与上述图1所示实施例中S208的具体实现方式类似,可参见前文对S208的详细说明,在此不再赘述。
S710,基于所述历史对象的历史ICD编码及所述第二目标ICD编码,调整所述ICD编码模型的模型参数,得到训练后的ICD编码模型。
其中,ICD编码模型的模型参数包括决策树模块、文本编码模块以及注意力处理模块各自的模块参数。
具体地,对于ICD编码模型中每个组成模块而言,其模块参数可以包括该模块包含的各网络层中的节点(如神经元)的数量、不同网络层中的节点之间的连接关系及连接边权重、各网络层中的节点对应的偏置等。对于决策树模块而言,其模块参数还可以包括参数矩阵E1和E2等。
在一种可选的实现方式中,为了使ICD编码模型能够基于历史对象的历史ICD编码,从历史对象的历史线下病历数据及历史线上病例数据中充分学习对分类识别起到决定性作用的重要信息,从而提高ICD编码模型的学习效果,训练得到具有高准确率的ICD编码模型,上述S710具体可实现为:基于预设损失函数、历史对象对应的第二目标ICD编码及历史ICD编码,确定ICD编码模型的预测损失,其中,ICD编码模型的预测损失用于表示历史对象的第二目标ICD编码与历史ICD编码之间的差异;进一步,基于ICD编码模型的预测损失调整ICD编码模型的模型参数。
实际应用中,预设损失函数可采用本领域常用的各种损失函数,具体可根据实际需要进行选择,本申请实施例对此不作限定。示例地,预设损失函数可采用如下公式(3)所示的二分类交叉熵损失函数。
其中,Loss表示ICD编码模型的预测损失;表示历史对象在第j个候选ICD编码对应的预测概率,j为整数且1≤j≤|G|,|G|表示ICD编码的数量;yj表示历史对象在第j个候选ICD编码对应的历史概率,若该历史概率大于或等于预设概率阈值,则表示第二目标ICD编码包括第j个候选ICD编码,否则,则表示第二目标ICD编码不包括第j个候选ICD编码。
另外,如图8所示,对于ICD编码模型的模型参数的调整,可采用反向传播算法,依次调整注意力处理模块、决策树模块以及文本表示模块各自的模块参数。
需要说明的是,上述过程仅为一次模型参数调整过程。实际应用中,可能需要对语言表示模型的模型参数进行多次调整,也即可重复执行上述S704至S710多次,直至调整模型参数后的ICD编码模型满足预设训练停止条件。其中,预设训练停止条件可根据实际需要进行设置,本申请实施例对此不作限定。示例地,预设训练停止条件可以包括调整次数达到预设次数阈值或者ICD编码模型的预测损失小于预设损失阈值,等等。
通过本申请的一个或多个实施例提供的ICD编码模型的训练方法,考虑到历史对象的线上病历数据是基于结构化存储的用于表示历史对象的生理特征的数据,其可以提供更多有利于ICD编码的决定性信息,在用于表示历史对象的临床表现的历史线下病历数据的基础上,结合历史线上病历数据对历史对象进行分类识别,可以弥补历史线下病历数据中的噪音和模糊性对决定性信息提取的影响,有利于提高分类识别的准确性,得到能够准确表示历史对象对应的预测疾病种类的第二目标ICD编码;由于线上病历数据和线下病历数据各自的数据类型不同,且历史线上病历数据是包含多种数据类型的异构数据,通过在ICD编码模型中增设文本编码模块、决策树模块以及注意力处理模块,由决策树模块从线上病历数据中获取目标对象的生理特征数据并对生理特征数据进行嵌入处理,得到的第三表示向量能够准确表示历史对象的生理特征,并且,对历史线上病历数据的嵌入处理几乎不需要数据准备,也不需要针对多种ICD编码设计相应的特征选择方法,有利于降低技术实施的复杂性,提高编码效率;由文本编码模块对从历史线下病历数据中获取与历史对象的临床表现相关的历史词语并对历史词语进行嵌入处理,所得的第四表示向量能够准确表示历史对象的临床表现特征;接着,通过注意力处理模块基于注意力机制将第三表示向量和第四表示向量进行融合,使得历史对象的生理特征和临床表现特征能够融合到统一的多模态表示向量中;进一步,基于多模态表示向量对历史对象进行分类识别,得到用于表示历史对象对应的预测疾病种类的第二目标ICD编码预测,并基于历史对象的第二目标ICD编码和历史ICD编码调整ICD编码模型的模型参数,有利于ICD编码模型从历史对象的历史线上病历数据和历史线下病历数据中学习和掌握更丰富的重要信息,更准确地对历史对象进行分类识别而得到相应的ICD编码,从而有利于提高ICD编码模型的预测准确性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
此外,与上述图2所示的数据处理方法相对应地,本申请实施例还提供一种数据处理装置。请参考图9,为本申请的一个实施例提供的一种数据处理装置的结构示意图,该装置900可以包括:
第一获取单元910,用于获取目标对象的病历数据并将所述病历数据输入训练后的ICD编码模型,所述病历数据包括线上病历数据和线下病历数据,所述线上病历数据为结构化存储的用于表示所述目标对象的生理特征的数据,所述线下病历数据为用于表示所述目标对象的临床表现的数据,所述训练后的ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
第一嵌入单元920,用于从所述线上病历数据中获取所述目标对象的生理特征数据,并通过所述决策树模块对所述目标对象的生理特征数据进行嵌入处理,得到第一表示向量;
第二嵌入单元930,用于从所述线下病历数据中获取与所述目标对象的临床表现相关的目标词语,并通过所述文本编码模块对所述目标词语进行嵌入处理,得到第二表示向量;
第一分类单元940,用于通过所述注意力处理模块基于注意力机制将所述第一表示向量和所述第二表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述目标对象进行分类识别,得到用于表示所述目标对象对应的疾病种类的第一目标ICD编码。
可选地,所述线上病历数据包括所述目标对象在多种生理特征分别对应的特征值;
所述决策树模块包括多个决策树,所述每个决策树对应一个候选ICD编码,且所述每个决策树包括多个非叶子节点和多个叶子节点,每个非叶子节点表示一种生理特征及其对应的阈值,每个叶子节点表示所述目标对象是否命中所属的决策树对应的候选ICD编码;
所述第一嵌入单元,通过所述决策树模块对所述目标对象的生理特征数据进行嵌入处理,得到第一表示向量,包括:
获取所述多个决策树中每个决策树的树表示向量和每个叶子节点的叶子表示向量,其中,所述树表示向量用于表示对应的决策树上的多个非叶子节点与多个叶子节点之间的映射关系,所述叶子表示向量用于表示对应的叶子节点的节点特征;
基于所述多个决策树中每个决策树的树表示向量,构建第一目标树表示向量;
基于所述每个决策树上多个非叶子节点分别表示的生理特征及其对应的阈值、所述目标对象在所述多个非叶子节点分别表示的生理特征对应的特征值以及所述每个决策树上的多个非叶子节点与多个叶子节点之间的映射关系,从所述每个决策树的多个叶子节点中确定所述目标对象在所述每个决策树上命中的第一目标叶子节点;
基于所述目标对象在所述多个决策树上分别命中的第一目标叶子节点的叶子表示向量,构建第一目标叶子表示向量;
将所述第一目标树表示向量和所述第一目标叶子表示向量作为所述第一表示向量。
可选地,所述注意力处理模块包括多模态注意力子模块和分类子模块;
所述第一分类单元具体用于:
通过所述多模态注意力子模块基于注意力机制对所述第一目标树表示向量、所述第一目标叶子表示向量以及所述第二表示向量进行融合,得到所述多模态表示向量;
通过所述分类子模块基于所述多模态表示向量对所述目标对象进行分类识别,得到所述第一目标ICD编码。
可选地,所述第二表示向量包括所述线下病历数据中的多个目标词语对应的词表示向量;所述多模态表示向量包括所述多个目标词语分别对应的融合表示向量;
所述多模态注意力子模块包括第一融合层、第二融合层和第三融合层;
所述第一分类单元,通过所述多模态注意力子模块基于注意力机制对所述第一目标树表示向量、所述第一目标叶子表示向量以及所述第二表示向量进行融合,得到所述多模态表示向量,包括:
通过所述第一融合层将所述第二表示向量中每个目标词语对应的词表示向量投影至第一预设向量空间得到所述每个目标词语对应的投影向量,并基于所述每个目标词语对应的投影向量与所述第一目标树表示向量之间的外积,确定所述每个目标词语对应的注意力权重,所述注意力权重用于表示所对应的目标词语与对所述目标对象进行的分类识别处理之间的相关程度,所述第一预设向量空间为用于融合所述每个目标词语对应的投影向量和所述第一目标树表示向量的向量空间;
通过所述第二融合层确定所述每个目标词语对应的注意力权重与所述第一目标叶子表示向量之间的乘积,作为所述每个目标词语对应的候选表示向量;
通过所述第三融合层对所述每个目标词语对应的候选表示向量及词表示向量进行拼接,得到所述每个目标词语对应的融合表示向量。
可选地,所述第一分类单元,基于所述每个目标词语对应的投影向量与所述第一目标树表示向量之间的外积,确定所述每个目标词语对应的注意力权重,包括:
基于第一预设映射函数,将所述每个目标词语对应的投影向量与所述第一目标树表示向量之间的外积映射为数值,得到所述每个目标词语对应的注意力权重。
可选地,所述分类子模块包括:激活层、线性层和非线性层;
所述第一分类单元,通过所述分类子模块基于所述多模态表示向量对所述目标对象进行分类识别,得到所述第一目标ICD编码,包括:
通过所述激活层基于第二预设映射函数将所述多模态表示向量映射到第二预设向量空间,得到预编码表示向量,所述第二预设向量空间为用于表示所述目标对象对应的疾病种类的向量空间;
通过所述线性层对所述预编码表示向量进行线性变换,得到线性编码表示向量;
通过所述非线性层基于预设非线性变换函数对所述线性编码表示向量进行变换处理,得到所述第一目标ICD编码。
可选地,所述第二表示向量包括所述线下病历数据中的多个目标词语对应的词表示向量;
所述第二嵌入单元,通过所述文本编码模块对所述目标词语进行嵌入处理,得到第二表示向量,包括:
将所述线下病历数据中每个目标词语映射到第三预设向量空间,得到所述每个目标词语的词向量,所述第三预设向量空间用于表示所述每个目标词语的向量空间;
通过所述文本编码模块基于所述每个目标词语的词向量及其关联的其他目标词语的词向量,对所述每个目标词语进行词嵌入,得到所述每个目标词语对应的词表示向量。
显然,本申请实施例提供的数据处理装置能够作为图2所示的数据处理方法的执行主体,例如图2所示的数据处理方法中,步骤S202可由图9所示的数据处理装置中的第一获取单元执行,步骤S204可由图9所示的数据处理装置中的第一嵌入单元执行,步骤S206可由图9所示的数据处理装置中的第二嵌入单元执行,步骤S208可由图9所示的数据处理装置中的第一分类单元执行。
根据本申请的另一个实施例,图9所示数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,数据处理装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CentralProcessing Unit,CPU)、随机存取存储介质(Random Access Memory,RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图2所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图9中所示的数据处理装置,以及来实现本申请实施例的数据处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。
此外,与上述图7所示的ICD编码模型的训练方法相对应地,本申请实施例还提供一种ICD编码模型的训练装置。请参考图10,为本申请的一个实施例提供的一种ICD编码模型的训练装置的结构示意图,该装置1000可以包括:
第二获取单元1010,用于获取历史对象的历史病历数据和历史ICD编码,并将所述历史病历数据输入ICD编码模型,所述历史ICD编码用于表示所述历史对象对应的实际疾病种类,所述历史病历数据包括历史线上病历数据和历史线下病历数据,所述历史线上病历数据为结构化存储的用于表示所述历史对象的生理特征的数据,所述历史线下病历数据为用于表示所述历史对象的临床表现的数据,所述ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
第三嵌入单元1020,用于从所述历史线上病历数据中获取所述历史对象的生理特征数据,并通过所述决策树模块对所述历史对象的生理特征数据进行嵌入处理,得到第三表示向量;
第四嵌入单元1030,用于从所述历史线下病历数据中获取与所述历史对象的临床表现相关的历史词语,并通过所述文本编码模块对所述历史词语进行嵌入处理,得到第四表示向量;
第二分类单元1040,用于通过所述注意力处理模块基于注意力机制将所述第三表示向量和所述第四表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述历史对象进行分类识别,得到用于表示所述历史对象对应的预测疾病种类的第二目标ICD编码;
调整单元1050,用于基于所述历史对象的历史ICD编码及所述第二目标ICD编码,调整所述ICD编码模型的模型参数,得到如本申请实施例提供的数据处理方法中所述的训练后的ICD编码模型。
可选地,所述历史线上病历数据包括所述历史对象在多种生理特征分别对应的特征值;
所述第三嵌入单元,通过所述决策树模块对所述历史对象的生理特征数据进行嵌入处理,得到第三表示向量,包括:
获取所述决策树模块中与当前训练轮次对应的多个决策树、每个决策树的树表示向量以及每个决策树上的多个叶子节点各自的叶子表示向量,其中,所述每个决策树对应一个候选ICD编码,每个决策树包括多个非叶子节点和多个叶子节点,每个非叶子节点表示一种生理特征及其对应的阈值,每个叶子节点表示所述历史对象是否命中所属的决策树对应的候选ICD编码;所述树表示向量用于表示对应的决策树上的多个非叶子节点与多个叶子节点之间的映射关系,所述叶子表示向量用于表示对应的叶子节点的节点特征;
基于所述多个决策树中每个决策树的树表示向量,构建第二目标树表示向量;
基于所述每个决策树上多个非叶子节点分别表示的生理特征及其对应的阈值、所述历史对象在所述多个非叶子节点分别表示的生理特征对应的特征值以及所述每个决策树上的多个非叶子节点与多个叶子节点之间的映射关系,从所述每个决策树的多个叶子节点中确定所述历史对象在所述每个决策树上命中的第二目标叶子节点;
基于所述目标对象在所述多个决策树上分别命中的第二目标叶子节点的叶子表示向量,构建第二目标叶子表示向量;
将所述第二目标树表示向量和所述第二目标叶子表示向量作为所述第三表示向量。
可选地,若当前训练轮次为第一个训练轮次,则所述第三嵌入单元通过如下方式获取所述决策树模块中与当前训练轮次对应的多个决策树、每个决策树的树表示向量以及每个决策树上的多个叶子节点各自的叶子表示向量:
基于预设决策树生成算法、所述历史对象在多种生理特征分别对应的特征值和所述历史对象的历史ICD编码,构建多个决策树;
基于所述每个决策树上的多个非叶子节点与多个叶子节点之间的映射关系,构建所述每个决策树对应的树表示向量;
基于所述每个叶子节点的节点特征对所述每个叶子节点进行嵌入处理,得到所述每个叶子节点的叶子表示向量,其中,所述节点特征包括对应的叶子节点所属的决策树的索引值、对应的叶子节点的索引值以及对应的叶子节点表示的内容。
显然,本申请实施例提供的ICD编码模型的训练装置能够作为图7所示的ICD编码模型的训练方法的执行主体,例如图7所示的ICD编码模型的训练方法中,步骤S702可由图10所示的ICD编码模型的训练装置中的第二获取单元执行,步骤S704可由图10所示的ICD编码模型的训练装置中的第三嵌入单元执行,步骤S706可由图10所示的ICD编码模型的训练装置中的第四嵌入单元执行,步骤S708可由图10所示的ICD编码模型的训练装置中的第二分类单元执行,步骤S710可由图10所示的ICD编码模型的训练装置中的调整单元执行。
根据本申请的另一个实施例,图10所示ICD编码模型的训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,ICD编码模型的训练装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CentralProcessing Unit,CPU)、随机存取存储介质(Random Access Memory,RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图7所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图10中所示的ICD编码模型的训练装置,以及来实现本申请实施例的ICD编码模型的训练方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。
图11是本申请的一个实施例电子设备的结构示意图。请参考图11,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据处理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取目标对象的病历数据并将所述病历数据输入训练后的ICD编码模型,所述病历数据包括线上病历数据和线下病历数据,所述线上病历数据为结构化存储的用于表示所述目标对象的生理特征的数据,所述线下病历数据为用于表示所述目标对象的临床表现的数据,所述训练后的ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
从所述线上病历数据中获取所述目标对象的生理特征数据,并通过所述决策树模块对所述目标对象的生理特征数据进行嵌入处理,得到第一表示向量;
从所述线下病历数据中获取与所述目标对象的临床表现相关的目标词语,并通过所述文本编码模块对所述目标词语进行嵌入处理,得到第二表示向量;
通过所述注意力处理模块基于注意力机制将所述第一表示向量和所述第二表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述目标对象进行分类识别,得到用于表示所述目标对象对应的疾病种类的第一目标ICD编码。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成ICD编码模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取历史对象的历史病历数据和历史ICD编码,并将所述历史病历数据输入ICD编码模型,所述历史ICD编码用于表示所述历史对象对应的实际疾病种类,所述历史病历数据包括历史线上病历数据和历史线下病历数据,所述历史线上病历数据为结构化存储的用于表示所述历史对象的生理特征的数据,所述历史线下病历数据为用于表示所述历史对象的临床表现的数据,所述ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
从所述历史线上病历数据中获取所述历史对象的生理特征数据,并通过所述决策树模块对所述历史对象的生理特征数据进行嵌入处理,得到第三表示向量;
从所述历史线下病历数据中获取与所述历史对象的临床表现相关的历史词语,并通过所述文本编码模块对所述历史词语进行嵌入处理,得到第四表示向量;
通过所述注意力处理模块基于注意力机制将所述第三表示向量和所述第四表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述历史对象进行分类识别,得到用于表示所述历史对象对应的预测疾病种类的第二目标ICD编码;
基于所述历史对象的历史ICD编码及所述第二目标ICD编码,调整所述ICD编码模型的模型参数,得到如本申请实施例提供的数据处理方法中所述的训练后的ICD编码模型。
上述如本申请图2所示实施例揭示的数据处理装置执行的方法或者上述如本申请图7所示实施例揭示的ICD编码模型的训练装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图2的数据处理方法,并实现数据处理装置在图2所示实施例的功能,或者,该电子设备还可执行图7的ICD编码模型的训练方法,并实现ICD编码模型的训练装置在图7所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图2所示实施例的数据处理方法,并具体用于执行以下操作:
获取目标对象的病历数据并将所述病历数据输入训练后的ICD编码模型,所述病历数据包括线上病历数据和线下病历数据,所述线上病历数据为结构化存储的用于表示所述目标对象的生理特征的数据,所述线下病历数据为用于表示所述目标对象的临床表现的数据,所述训练后的ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
从所述线上病历数据中获取所述目标对象的生理特征数据,并通过所述决策树模块对所述目标对象的生理特征数据进行嵌入处理,得到第一表示向量;
从所述线下病历数据中获取与所述目标对象的临床表现相关的目标词语,并通过所述文本编码模块对所述目标词语进行嵌入处理,得到第二表示向量;
通过所述注意力处理模块基于注意力机制将所述第一表示向量和所述第二表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述目标对象进行分类识别,得到用于表示所述目标对象对应的疾病种类的第一目标ICD编码。
或者,本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图7所示实施例的ICD编码模型的训练方法,并具体用于执行以下操作:
获取历史对象的历史病历数据和历史ICD编码,并将所述历史病历数据输入ICD编码模型,所述历史ICD编码用于表示所述历史对象对应的实际疾病种类,所述历史病历数据包括历史线上病历数据和历史线下病历数据,所述历史线上病历数据为结构化存储的用于表示所述历史对象的生理特征的数据,所述历史线下病历数据为用于表示所述历史对象的临床表现的数据,所述ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
从所述历史线上病历数据中获取所述历史对象的生理特征数据,并通过所述决策树模块对所述历史对象的生理特征数据进行嵌入处理,得到第三表示向量;
从所述历史线下病历数据中获取与所述历史对象的临床表现相关的历史词语,并通过所述文本编码模块对所述历史词语进行嵌入处理,得到第四表示向量;
通过所述注意力处理模块基于注意力机制将所述第三表示向量和所述第四表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述历史对象进行分类识别,得到用于表示所述历史对象对应的预测疾病种类的第二目标ICD编码;
基于所述历史对象的历史ICD编码及所述第二目标ICD编码,调整所述ICD编码模型的模型参数,得到如本申请实施例提供的数据处理方法中所述的训练后的ICD编码模型。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (14)
1.一种数据处理方法,其特征在于,包括:
获取目标对象的病历数据并将所述病历数据输入训练后的ICD编码模型,所述病历数据包括线上病历数据和线下病历数据,所述线上病历数据为结构化存储的用于表示所述目标对象的生理特征的数据,所述线下病历数据为用于表示所述目标对象的临床表现的数据,所述训练后的ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
从所述线上病历数据中获取所述目标对象的生理特征数据,并通过所述决策树模块对所述目标对象的生理特征数据进行嵌入处理,得到第一表示向量;
从所述线下病历数据中获取与所述目标对象的临床表现相关的目标词语,并通过所述文本编码模块对所述目标词语进行嵌入处理,得到第二表示向量;
通过所述注意力处理模块基于注意力机制将所述第一表示向量和所述第二表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述目标对象进行分类识别,得到用于表示所述目标对象对应的疾病种类的第一目标ICD编码。
2.根据权利要求1所述的方法,其特征在于,所述线上病历数据包括所述目标对象在多种生理特征分别对应的特征值;
所述决策树模块包括多个决策树,所述每个决策树对应一个候选ICD编码,且所述每个决策树包括多个非叶子节点和多个叶子节点,每个非叶子节点表示一种生理特征及其对应的阈值,每个叶子节点表示所述目标对象是否命中所属的决策树对应的候选ICD编码;
所述通过所述决策树模块对所述目标对象的生理特征数据进行嵌入处理,得到第一表示向量,包括:
获取所述多个决策树中每个决策树的树表示向量和每个叶子节点的叶子表示向量,其中,所述树表示向量用于表示对应的决策树上的多个非叶子节点与多个叶子节点之间的映射关系,所述叶子表示向量用于表示对应的叶子节点的节点特征;
基于所述多个决策树中每个决策树的树表示向量,构建第一目标树表示向量;
基于所述每个决策树上多个非叶子节点分别表示的生理特征及其对应的阈值、所述目标对象在所述多个非叶子节点分别表示的生理特征对应的特征值以及所述每个决策树上的多个非叶子节点与多个叶子节点之间的映射关系,从所述每个决策树的多个叶子节点中确定所述目标对象在所述每个决策树上命中的第一目标叶子节点;
基于所述目标对象在所述多个决策树上分别命中的第一目标叶子节点的叶子表示向量,构建第一目标叶子表示向量;
将所述第一目标树表示向量和所述第一目标叶子表示向量作为所述第一表示向量。
3.根据权利要求2所述的方法,其特征在于,所述注意力处理模块包括多模态注意力子模块和分类子模块;
所述通过所述注意力处理模块基于注意力机制将所述第一表示向量和所述第二表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述目标对象进行分类识别,得到用于表示所述目标对象对应的疾病种类的第一目标ICD编码,包括:
通过所述多模态注意力子模块基于注意力机制对所述第一目标树表示向量、所述第一目标叶子表示向量以及所述第二表示向量进行融合,得到所述多模态表示向量;
通过所述分类子模块基于所述多模态表示向量对所述目标对象进行分类识别,得到所述第一目标ICD编码。
4.根据权利要求3所述的方法,其特征在于,所述第二表示向量包括所述线下病历数据中的多个目标词语对应的词表示向量;所述多模态表示向量包括所述多个目标词语分别对应的融合表示向量;
所述多模态注意力子模块包括第一融合层、第二融合层和第三融合层;
所述通过所述多模态注意力子模块基于注意力机制对所述第一目标树表示向量、所述第一目标叶子表示向量以及所述第二表示向量进行融合,得到所述多模态表示向量,包括:
通过所述第一融合层将所述第二表示向量中每个目标词语对应的词表示向量投影至第一预设向量空间得到所述每个目标词语对应的投影向量,并基于所述每个目标词语对应的投影向量与所述第一目标树表示向量之间的外积,确定所述每个目标词语对应的注意力权重,所述注意力权重用于表示所对应的目标词语与对所述目标对象进行的分类识别处理之间的相关程度,所述第一预设向量空间为用于融合所述每个目标词语对应的投影向量和所述第一目标树表示向量的向量空间;
通过所述第二融合层确定所述每个目标词语对应的注意力权重与所述第一目标叶子表示向量之间的乘积,作为所述每个目标词语对应的候选表示向量;
通过所述第三融合层对所述每个目标词语对应的候选表示向量及词表示向量进行拼接,得到所述每个目标词语对应的融合表示向量。
5.根据权利要求4所述的方法,其特征在于,所述基于所述每个目标词语对应的投影向量与所述第一目标树表示向量之间的外积,确定所述每个目标词语对应的注意力权重,包括:
基于第一预设映射函数,将所述每个目标词语对应的投影向量与所述第一目标树表示向量之间的外积映射为数值,得到所述每个目标词语对应的注意力权重。
6.根据权利要求3所述的方法,其特征在于,所述分类子模块包括:激活层、线性层和非线性层;
所述通过所述分类子模块基于所述多模态表示向量对所述目标对象进行分类识别,得到所述第一目标ICD编码,包括:
通过所述激活层基于第二预设映射函数将所述多模态表示向量映射到第二预设向量空间,得到预编码表示向量,所述第二预设向量空间为用于表示所述目标对象对应的疾病种类的向量空间;
通过所述线性层对所述预编码表示向量进行线性变换,得到线性编码表示向量;
通过所述非线性层基于预设非线性变换函数对所述线性编码表示向量进行变换处理,得到所述第一目标ICD编码。
7.根据权利要求1所述的方法,其特征在于,所述第二表示向量包括所述线下病历数据中的多个目标词语对应的词表示向量;
所述通过所述文本编码模块对所述目标词语进行嵌入处理,得到第二表示向量,包括:
将所述线下病历数据中每个目标词语映射到第三预设向量空间,得到所述每个目标词语的词向量,所述第三预设向量空间用于表示所述每个目标词语的向量空间;
通过所述文本编码模块基于所述每个目标词语的词向量及其关联的其他目标词语的词向量,对所述每个目标词语进行词嵌入,得到所述每个目标词语对应的词表示向量。
8.一种ICD编码模型的训练方法,其特征在于,包括:
获取历史对象的历史病历数据和历史ICD编码,并将所述历史病历数据输入ICD编码模型,所述历史ICD编码用于表示所述历史对象对应的实际疾病种类,所述历史病历数据包括历史线上病历数据和历史线下病历数据,所述历史线上病历数据为结构化存储的用于表示所述历史对象的生理特征的数据,所述历史线下病历数据为用于表示所述历史对象的临床表现的数据,所述ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
从所述历史线上病历数据中获取所述历史对象的生理特征数据,并通过所述决策树模块对所述历史对象的生理特征数据进行嵌入处理,得到第三表示向量;
从所述历史线下病历数据中获取与所述历史对象的临床表现相关的历史词语,并通过所述文本编码模块对所述历史词语进行嵌入处理,得到第四表示向量;
通过所述注意力处理模块基于注意力机制将所述第三表示向量和所述第四表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述历史对象进行分类识别,得到用于表示所述历史对象对应的预测疾病种类的第二目标ICD编码;
基于所述历史对象的历史ICD编码及所述第二目标ICD编码,调整所述ICD编码模型的模型参数,得到如权利要求1-7任一项所述的训练后的ICD编码模型。
9.根据权利要求8所述的方法,其特征在于,所述历史线上病历数据包括所述历史对象在多种生理特征分别对应的特征值;
所述通过所述决策树模块对所述历史对象的生理特征数据进行嵌入处理,得到第三表示向量,包括:
获取所述决策树模块中与当前训练轮次对应的多个决策树、每个决策树的树表示向量以及每个决策树上的多个叶子节点各自的叶子表示向量,其中,所述每个决策树对应一个候选ICD编码,每个决策树包括多个非叶子节点和多个叶子节点,每个非叶子节点表示一种生理特征及其对应的阈值,每个叶子节点表示所述历史对象是否命中所属的决策树对应的候选ICD编码;所述树表示向量用于表示对应的决策树上的多个非叶子节点与多个叶子节点之间的映射关系,所述叶子表示向量用于表示对应的叶子节点的节点特征;
基于所述多个决策树中每个决策树的树表示向量,构建第二目标树表示向量;
基于所述每个决策树上多个非叶子节点分别表示的生理特征及其对应的阈值、所述历史对象在所述多个非叶子节点分别表示的生理特征对应的特征值以及所述每个决策树上的多个非叶子节点与多个叶子节点之间的映射关系,从所述每个决策树的多个叶子节点中确定所述历史对象在所述每个决策树上命中的第二目标叶子节点;
基于所述目标对象在所述多个决策树上分别命中的第二目标叶子节点的叶子表示向量,构建第二目标叶子表示向量;
将所述第二目标树表示向量和所述第二目标叶子表示向量作为所述第三表示向量。
10.根据权利要求9所述的方法,其特征在于,若当前训练轮次为第一个训练轮次,则所述获取所述决策树模块中与当前训练轮次对应的多个决策树、每个决策树的树表示向量以及每个决策树上的多个叶子节点各自的叶子表示向量,包括:
基于预设决策树生成算法、所述历史对象在多种生理特征分别对应的特征值和所述历史对象的历史ICD编码,构建多个决策树;
基于所述每个决策树上的多个非叶子节点与多个叶子节点之间的映射关系,构建所述每个决策树对应的树表示向量;
基于所述每个叶子节点的节点特征对所述每个叶子节点进行嵌入处理,得到所述每个叶子节点的叶子表示向量,其中,所述节点特征包括对应的叶子节点所属的决策树的索引值、对应的叶子节点的索引值以及对应的叶子节点表示的内容。
11.一种数据处理装置,其特征在于,包括:
第一获取单元,用于获取目标对象的病历数据并将所述病历数据输入训练后的ICD编码模型,所述病历数据包括线上病历数据和线下病历数据,所述线上病历数据为结构化存储的用于表示所述目标对象的生理特征的数据,所述线下病历数据为用于表示所述目标对象的临床表现的数据,所述训练后的ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
第一嵌入单元,用于从所述线上病历数据中获取所述目标对象的生理特征数据,并通过所述决策树模块对所述目标对象的生理特征数据进行嵌入处理,得到第一表示向量;
第二嵌入单元,用于从所述线下病历数据中获取与所述目标对象的临床表现相关的目标词语,并通过所述文本编码模块对所述目标词语进行嵌入处理,得到第二表示向量;
第一分类单元,用于通过所述注意力处理模块基于注意力机制将所述第一表示向量和所述第二表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述目标对象进行分类识别,得到用于表示所述目标对象对应的疾病种类的第一目标ICD编码。
12.一种ICD编码模型的训练装置,其特征在于,包括:
第二获取单元,用于获取历史对象的历史病历数据和历史ICD编码,并将所述历史病历数据输入ICD编码模型,所述历史ICD编码用于表示所述历史对象对应的实际疾病种类,所述历史病历数据包括历史线上病历数据和历史线下病历数据,所述历史线上病历数据为结构化存储的用于表示所述历史对象的生理特征的数据,所述历史线下病历数据为用于表示所述历史对象的临床表现的数据,所述ICD编码模型包括决策树模块、文本编码模块和注意力处理模块;
第三嵌入单元,用于从所述历史线上病历数据中获取所述历史对象的生理特征数据,并通过所述决策树模块对所述历史对象的生理特征数据进行嵌入处理,得到第三表示向量;
第四嵌入单元,用于从所述历史线下病历数据中获取与所述历史对象的临床表现相关的历史词语,并通过所述文本编码模块对所述历史词语进行嵌入表示,得到第四表示向量;
第二分类单元,用于通过所述注意力处理模块基于注意力机制将所述第三表示向量和所述第四表示向量融合为多模态表示向量,并基于所述多模态表示向量对所述历史对象进行分类识别,得到用于表示所述历史对象对应的预测疾病种类的第二目标ICD编码;
调整单元,用于基于所述历史对象的历史ICD编码及所述第二目标ICD编码,调整所述ICD编码模型的模型参数,得到如权利要求1-7任一项所述的训练后的ICD编码模型。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的数据处理方法;或者,所述处理器被配置为执行所述指令,以实现如权利要求8至10中任一项所述的ICD编码模型的训练方法。
14.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的数据处理方法;或者,使得电子设备能够执行如权利要求8至10中任一项所述的ICD编码模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211228635.8A CN116230146A (zh) | 2022-10-09 | 2022-10-09 | 数据处理方法、icd编码模型的训练方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211228635.8A CN116230146A (zh) | 2022-10-09 | 2022-10-09 | 数据处理方法、icd编码模型的训练方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116230146A true CN116230146A (zh) | 2023-06-06 |
Family
ID=86585999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211228635.8A Pending CN116230146A (zh) | 2022-10-09 | 2022-10-09 | 数据处理方法、icd编码模型的训练方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116230146A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117637092A (zh) * | 2024-01-24 | 2024-03-01 | 创智和宇信息技术股份有限公司 | 一种基于人工智能模型的病历预编码方法及装置 |
-
2022
- 2022-10-09 CN CN202211228635.8A patent/CN116230146A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117637092A (zh) * | 2024-01-24 | 2024-03-01 | 创智和宇信息技术股份有限公司 | 一种基于人工智能模型的病历预编码方法及装置 |
CN117637092B (zh) * | 2024-01-24 | 2024-04-23 | 创智和宇信息技术股份有限公司 | 一种基于人工智能模型的病历预编码方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020228376A1 (zh) | 文本处理方法、模型训练方法和装置 | |
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN112069302B (zh) | 会话意图识别模型的训练方法、会话意图识别方法及装置 | |
JP5235666B2 (ja) | 選択されたセグメントのビット平面表現を用いた連想マトリックス法、システムおよびコンピュータプログラム製品 | |
CN112883149B (zh) | 一种自然语言处理方法以及装置 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN112580352B (zh) | 关键词提取方法、装置和设备及计算机存储介质 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN112861522B (zh) | 基于双重注意力机制的方面级情感分析方法、系统及模型 | |
CN108536735B (zh) | 基于多通道自编码器的多模态词汇表示方法与系统 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
US20230120631A1 (en) | Neural network model training method, apparatus, and device, image classification method, apparatus, and device, and text translation method, apparatus, and device | |
CN113505193A (zh) | 一种数据处理方法及相关设备 | |
CN115146068B (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN116432019A (zh) | 一种数据处理方法及相关设备 | |
CN116230146A (zh) | 数据处理方法、icd编码模型的训练方法及相关设备 | |
CN116308738B (zh) | 一种模型训练的方法、业务风控的方法及装置 | |
CN114764865A (zh) | 数据分类模型训练方法、数据分类方法和装置 | |
CN117437317A (zh) | 图像生成方法、装置、电子设备、存储介质和程序产品 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN111581929A (zh) | 基于表格的文本生成方法及相关装置 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN115861995A (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN115169333A (zh) | 文本的实体识别方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |