CN117079825A - 一种疾病发生概率预测方法及疾病发生概率确定系统 - Google Patents

一种疾病发生概率预测方法及疾病发生概率确定系统 Download PDF

Info

Publication number
CN117079825A
CN117079825A CN202310647910.8A CN202310647910A CN117079825A CN 117079825 A CN117079825 A CN 117079825A CN 202310647910 A CN202310647910 A CN 202310647910A CN 117079825 A CN117079825 A CN 117079825A
Authority
CN
China
Prior art keywords
occurrence probability
data
modal
disease
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310647910.8A
Other languages
English (en)
Other versions
CN117079825B (zh
Inventor
� 赵
赵帅
刁晓林
袁靖
邢运
郭丛丛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuwai Hospital of CAMS and PUMC
Original Assignee
Fuwai Hospital of CAMS and PUMC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuwai Hospital of CAMS and PUMC filed Critical Fuwai Hospital of CAMS and PUMC
Priority to CN202310647910.8A priority Critical patent/CN117079825B/zh
Publication of CN117079825A publication Critical patent/CN117079825A/zh
Application granted granted Critical
Publication of CN117079825B publication Critical patent/CN117079825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

一种疾病发生概率预测方法及疾病发生概率确定系统,涉及人工智能技术领域。在该方法中,获取患者的实时医疗数据;对患者的实时医疗数据进行预处理得到待分析医疗数据;将待分析医疗数据输入待预测疾病对应的预设疾病发生概率预测模型;预设疾病发生概率预测模型包括若干个模态编码器、若干个门控单元以及若干个分类器;调用与待分析医疗数据内包含的模态特征匹配的编码器、模态缺失情况对应的门控单元和分类器,进行预测得到待预测疾病的疾病发生概率值。实施本申请提供的技术方案,能够当患者临床检测的医疗数据不全面时,准确地预测得到患者潜在疾病的发生概率。

Description

一种疾病发生概率预测方法及疾病发生概率确定系统
技术领域
本申请涉及人工智能技术领域,具体涉及一种疾病发生概率预测方法及疾病发生概率确定系统。
背景技术
目前,在患者住院期间及早发现患者的潜在疾病发生的概率变得越来越重要,及早发现患者可能罹患的疾病并及时地采取相应治疗,可以有效提高患者疾病治愈的概率。
传统的疾病发生概率预测是通过构建预测模型,对患者临床检测的医疗数据进行分析,判断患者潜在疾病发生的概率。但在实际预测疾病发生的概率时,由于患者临床检测的医疗数据并不全面,导致传统的预测模型在预测该类型患者时,得到的疾病发生概率准确程度较低。
因此,发明人认为亟需一种疾病发生概率预测方法及疾病发生概率确定系统。
发明内容
本申请提供了一种疾病发生概率预测方法及疾病发生概率确定系统,能够当患者临床检测的医疗数据不全面时,准确地预测得到患者潜在疾病的发生概率。
第一方面,本申请提供了一种疾病发生概率预测方法,所述方法包括:获取患者的实时医疗数据,所述实时医疗数据包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3三种模态特征中的一种或多种;对所述患者的实时医疗数据进行预处理得到待分析医疗数据;将所述待分析医疗数据输入待预测疾病对应的预设疾病发生概率预测模型;所述预设疾病发生概率预测模型包括若干个模态编码器、若干个门控单元以及若干个分类器,其中,每个模态编码器对应一种模态特征,每个门控单元对应一种模态缺失情况,分类器与门控单元一一对应;调用与所述待分析医疗数据内包含的模态特征匹配的编码器、所述模态缺失情况对应的门控单元和分类器,进行预测得到所述待预测疾病的疾病发生概率值。
可选的,在所述将所述待分析医疗数据输入待预测疾病对应的预设疾病发生概率预测模型之前,方法还包括:获取患者历史医疗数据和患者标签;基于所述患者历史医疗数据和所述患者标签,构建基础数据集;对所述基础数据集进行预处理,得到预处理后的数据集;基于所述预处理后的数据集,枚举N种多模态数据特征缺失的情况,创建N种任务;根据枚举结果对所述预处理后的数据集进行划分,得到与所述N种任务对应的N个训练集{X1,X2,...Xi,...,XN},i∈[1,N];所述训练集Xi中包含若干个样本,每个所述样本包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3三种模态特征中的一种或多种;将所述N个训练集输入预设的疾病发生概率预测模型框架;所述预设的疾病发生概率预测模型框架中包括模态编码器、门控单元以及分类器;将每个所述训练集中的所述样本的模态特征通过对应的模态编码器进行编码,得到模态编码器输出x;将N个训练集分别通过与其对应的门控单元G ={G1,G2,...GN},并基于注意力机制计算得到影响权重w;将所述影响权重w和所述模态编码器输出x加权求和得到任务输出向量;将所述任务输出向量分别通过与其任务对应的分类器F ={F1,F2,...FN},得到所述预设疾病发生概率预测模型。
可选的,所述枚举N种多模态数据特征缺失的情况,创建N种任务,具体包括:创建第一种任务,得到第一训练集X1;所述第一训练集X1包括多个样本,每个样本包括所述结构化数据特征x1、所述医疗文本特征x2以及所述医疗影像特征x3;创建第二种任务,得到第二训练集X2;所述第二训练集X2包括多个样本,每个样本包括所述结构化数据特征x1和所述医疗文本特征x2;创建第i种任务,得到第i训练集Xi;所述第i训练集Xi包括多个样本,每个样本包括所述结构化数据特征x1、所述医疗文本特征x2、所述医疗影像特征x3的一种或多种;创建第N种任务,得到第N训练集XN;所述第N训练集XN包括多个样本,每个样本包括所述结构化数据特征x1、所述医疗文本特征x2、所述医疗影像特征x3的其中一种。
可选的,所述将每个训练集中的所述样本的模态特征通过对应预设的模态编码器进行编码,具体包括:对训练集Xi中的结构化数据特征x1采用多层感知机进行编码;对训练集Xi中的医疗文本特征x2采用多视角卷积神经网络进行编码;对训练集Xi中的医疗影像特征x3采用残差神经网络进行编码。
可选的,通过以下方式确定所述影响权重w;wj=Gj(x), j∈[1,N]其中,N为所述任务的个数,wj为第j种所述任务对应的所述门控单元计算出的所述影响权重,x为所述模态编码器输出且x={x1',x2',x3'},x1'为经过所述模态编码器编码后的所述结构化数据特征,x2'为经过所述模态编码器编码后的所述医疗文本特征,x3'为经过所述模态编码器编码后的所述医疗影像特征,Gj为第j种任务对应的门控单元。
可选的,通过以下方式确定所述疾病发生概率预测模型;yj=Fj(wj○x), j∈[1,N];其中,N为所述任务的个数,Fj为第j种所述任务对应的分类器,wj为第j种所述任务对应的所述门控单元计算出的所述影响权重,○代表所述影响权重w和所述模态编码器输出x的点积,yj为第j种所述任务的预测结果。
可选的,在所述进行预测得到所述待预测疾病的疾病发生概率值之后,方法还包括:当所述疾病发生概率值大于预设疾病发生概率值时,输出高风险预警提示信息。
在本申请的第二方面提供了一种疾病发生概率确定系统,所述系统包括:第一获取模块、第一预处理模块以及第一处理模块;所述第一获取模块,用于获取患者的实时医疗数据;所述第一预处理模块,用于对所述患者的实时医疗数据进行预处理得到待分析医疗数据;所述第一处理模块,用于将所述待分析医疗数据输入待预测疾病对应的预设疾病发生概率预测模型;还用于调用与所述待分析医疗数据内包含的模态特征匹配的编码器、模态缺失情况对应的门控单元和分类器,进行预测得到所述待预测疾病的疾病发生概率值。
可选的,所述系统还包括:第二获取模块、第二处理模块、第二预处理模块、枚举模块、数据划分模块以及模型训练模块;所述第二获取模块,用于获取患者历史医疗数据和患者标签;所述第二处理模块,用于基于所述患者历史医疗数据和所述患者标签,构建基础数据集;所述第二预处理模块,用于对所述基础数据集进行预处理,得到预处理后的数据集;所述枚举模块,用于基于所述预处理后的数据集,枚举N种多模态数据特征缺失的情况,创建N种任务;所述数据划分模块,用于根据枚举结果对所述预处理后的数据集进行划分,得到与所述N种任务对应的N个训练集{X1,X2,...Xi,...,XN},i∈[1,N],Xi中包含多个样本,每个样本包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3三种模态特征中的一种或多种;所述模型训练模块,用于基于所述N个训练集,通过对应的模态编码器、门控单元以及分类器进行训练,得到预设疾病发生概率预测模型。
可选的,所述系统还包括:辅助决策模块;所述辅助决策模块,用于当所述疾病发生概率值大于预设疾病发生概率值时,输出高风险预警提示信息。
在本申请的第三方面提供了一种电子设备,包括处理器、存储器、用户接口及网络接口,所述存储器用于存储指令,所述用户接口和网络接口用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如本申请第一方面任意一项所述的方法。
在本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如本申请第一方面任意一项所述的方法的计算机程序。
综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明采用预设的疾病发生概率预测模型,该模型采用了若干模态编码器、若干门控单元、若干分类器,其中模态编码器对应一种模态特征,每个门控单元对应一种模态缺失情况,分类器与门控单元一一对应,通过调用与所述待分析医疗数据内包含的模态特征匹配的编码器、所述模态缺失情况对应的门控单元和分类器,能够适用于模态缺失的场景,从而更高效、准确地对患者疾病发生的概率进行评估。进一步的,在构建疾病发生概率预测模型的训练集时枚举N种多模态数据特征缺失的情况,使得疾病发生概率预测模型更具普适性;将训练集X中的多模态数据特征分别通过对应的预设编码器模型进行编码,充分考虑每种多模态数据特征的数据特点,通过预设编码器模型进行编码处理后的数据更加精确;将N个训练集通过每种任务对应的门控单元,门控单元可以给予训练集中,每个样本包括的有用的多模态数据特征更多的权重,降低不重要的多模态数据特征的权重;因此可以有效地提升疾病发生概率预测模型的准确性和鲁棒性。另外,本申请将获取得到的患者的实时医疗数据进行预处理,提高结构化数据、医疗文本以及医疗影像的精确度,降低将结构化数据、医疗文本以及医疗影像输入至预设疾病发生概率预测模型得到的疾病风险概率产生误差的概率;由于医生预测疾病发生风险的标准并不统一,不同医生有不同的预测标准,因此通过预设疾病发生概率预测模型可以确立统一的疾病风险预测标准,减少医生判断患者疾病风险产生误差的概率。
附图说明
图1是本申请实施例提供的一种疾病发生概率预测方法的流程示意图;
图2是本申请实施例提供的一种疾病发生概率预测方法的预设疾病发生概率预测模型构建的阶段示意图;
图3是本申请实施例公开的一种疾病发生概率确定系统的结构示意图之一;
图4是本申请实施例公开的一种疾病发生概率确定系统的结构示意图之二;
图5是本申请实施例的公开的一种电子设备的结构示意图。
附图标记说明:1、第一获取模块;2、第一预处理模块;3、第一处理模块; 4、第二获取模块;5、第二处理模块;6、第二预处理模块;7、枚举模块;8、数据划分模块;9、模型训练模块;10、辅助决策模块;500、电子设备;501、处理器;502、通信总线;503、用户接口;504、网络接口;505、存储器。
实施方式
为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
在本申请实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请提供了一种疾病发生概率预测方法,参照图1,图1是本申请实施例公开的一种疾病发生概率预测方法的流程示意图。该疾病发生概率预测方法应用于疾病发生概率确定系统,包括步骤S101至步骤S104,上述步骤如下:
步骤S101:获取患者的实时医疗数据,实时医疗数据包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3三种模态特征中的一种或多种。
在上述步骤中,疾病发生概率确定系统获取患者的实时医疗数据,实时医疗数据包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3三种模态特征中的一种或多种。
具体来说,在本技术方案中,通过疾病发生概率确定系统采集患者的初始实时医疗数据,初始实时医疗数据为多模态的数据,多模态的数据包括结构化数据、医疗文本以及医疗影像三种模态数据,其中结构化数据为化验结果或测量指标等数据信息;医疗文本为医生开具的诊断结果等文本信息;医疗影像为超声影像、CT影像等影像信息,从结构化数据、医疗文本以及医疗影像中提取特征得到结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3,将结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3组成实时医疗数据。
其中,结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3均包含若干个子特征。例如结构化数据特征x1包含的子特征包括但不限于血液检测数据特征、尿液检测数据特征;医疗文本特征x2包含的子特征包括但不限于现病史特征、超声检测结果特征、CT检测结果特征;医疗影像特征x3包含的子特征包括但不限于胸片影像图片特征、心脏超声图片特征。
步骤S102:对患者的实时医疗数据进行预处理得到待分析医疗数据。
在上述步骤中,疾病发生概率确定系统对患者的实时医疗数据进行预处理得到待分析医疗数据。
具体来说,在本技术方案中,疾病发生概率确定系统对结构化数据特征x1采用拟合结果填充和众数填充中的一种或两种方法进行预处理;对医疗文本特征x2进行文本预处理;医疗影像特征x3进行标准化处理。
拟合结果填充是指基于已有的数据训练回归模型,预测目标为缺失数据列,输入为其他数据列。举例来说,假设数据分为A、B、C共3个特征,其中B特征存在缺失。首先取A、B、C都不缺失的数据训练回归模型,将A、C为输入,得到回归模型预测值作为B的填充值。众数填充是指数据中出现次数最多的值作为填充值。举例来说,针对任一特征,10条数据中有1条空值,其他9条数据中8个值为0,1个值为4,则填充值为0。在本技术方案中,例如在血液检查中,包含红细胞、白细胞、血小板三个结构化数据子特征,其中血小板特征存在缺失。采用拟合结果填充的方式,首先使用红细胞、白细胞、血小板三个特征完整的数据训练回归模型,将需要补全的数据中的红细胞和白细胞的特征作为输入值,得到血小板的填充值。对医疗文本特征x2采用文本噪声剔除处理,即剔除文本中的乱码和不规则符号,如半角/全角转换,/n/t等换行符;疾病发生概率确定系统将对医疗影像特征x3采用标准化处理,即对医疗影像如X光、彩超等影像采用公式(像素值-像素值均值)/像素值标准差进行处理。
步骤S103:将待分析医疗数据输入待预测疾病对应的预设疾病发生概率预测模型;预设疾病发生概率预测模型包括若干个模态编码器、若干个门控单元以及若干个分类器,其中,每个模态编码器对应一种模态特征,每个门控单元对应一种模态缺失情况,分类器与门控单元一一对应。
在上述步骤中,疾病发生概率确定系统将待分析医疗数据输入待预测疾病对应的预设疾病发生概率预测模型。
具体来说,在本技术方案中,预设疾病发生概率预测模型包括若干个模态编码器、门控单元以及分类器。其中模态编码器是一种神经网络结构,用于将输入特征映射到高维特征空间;其中每个模态特征都有其特定的编码器,在本技术方案中模态特征则为结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3。模态编码器输出得到经过编码后的模态特征。
门控单元是一种用于神经网络中的信息筛选和控制的技术,其作用在于通过学习到的参数来控制信息的流动和筛选。例如,在本技术方案中,门控单元可以决定实时医疗数据中哪种模态特征是对预测该种疾病风险的概率是有用的,给予有用的多模态特征更多的权重,对于没用的模态特征则可以忽略,降低不重要的多模态特征的权重。每种门控单元忽略的模态特征不同,即每种门控单元对应一种模态特征缺失的情况,举例来说:在处理缺失的模态特征时,可以使用一种称为遗忘门的特殊门控单元。遗忘门可以选择性地忽略输入数据中缺失的特征,并将它们视为零值,以便在后续层次中处理其他特征;或者另一种处理缺失特征的方法是使用门控循环单元(GRU)或长短时记忆(LSTM)等递归神经网络,这些模型使用一种称为“输入门”的门控单元,该单元可以选择性地将缺失的特征视为零,以便在后续层次中处理其他特征。在本申请中不对每种门控单元对应一种模态特征缺失的情况的方法进行具体限定。需要说明的是,输入门控单元的是模态编码器输出值;门控单元输出得到的是该模态编码器输出值对应的任务的输出向量。
分类器是一种用于机器学习中的模型,它的主要作用是将输入数据分为不同的类别。选择与其对应的门控单元计算每个模态对预测结果的影响权重,损失计算时枚举所有可能的模态组合,并利用多任务机制适配模态缺失的场景,从而有效解决了模态缺失问题。
步骤S104:调用与待分析医疗数据内包含的模态特征匹配的编码器、模态缺失情况对应的门控单元和分类器,进行预测得到待预测疾病的疾病发生概率值。
在上述步骤中,疾病发生概率确定系统调用与待分析医疗数据内包含的模态特征匹配的编码器、模态缺失情况对应的门控单元和分类器,进行预测得到待预测疾病的疾病发生概率值。
具体来说,在本技术方案中,调用与实时医疗数据模态缺失情况匹配的编码器、门控单元、分类器进行预测即为由预设疾病发生概率预测模型判断模态缺失情况,将实时医疗数据输入模态编码器,每个模态编码器对应一种模态特征,输出模态编码器输出值,与模态缺失情况对应的门控单元接收模态编码器输出值,输出实时医疗数据对应的任务输出向量,实时医疗数据对应的任务输出向量经与门控单元对应的分类器,得到待预测疾病的疾病发生概率值。
需要说明的是,不同任务通过疾病发生概率预测模型得到的预测结果在临床上含义均相同,均为疾病发生概率值。
在一种可能的实施方式中,在步骤S103之前还包括如下步骤:
获取患者历史医疗数据和患者标签。
在上述步骤中,疾病发生概率确定系统获取患者历史医疗数据和患者标签。
具体来说,在本技术方案中,患者历史医疗数据即患者过往住院时检测的医疗数据。患者标签即在获取患者医疗数据后,疾病发生概率确定系统根据患者标签确定患者是否罹患某种疾病,并通过患者标签确定疾病发生概率预测模型的预测目标以及预测终点。
基于患者历史医疗数据和患者标签,构建基础数据集。
在上述步骤中,疾病发生概率确定系统基于患者历史医疗数据和患者标签,构建基础数据集。
对基础数据集进行预处理,得到预处理后的数据集。
在上述步骤中,疾病发生概率确定系统对基础数据集进行预处理,得到预处理后的数据集。
具体来说,在本技术方案中,预处理即对结构化数据特征x1进行空值处理,空值处理包括拟合结果填充和众数填充中的一种或两种;对医疗文本特征x2进行文本预处理;对医疗影像特征x3进行标准化处理。具体的预处理方法在前述实施例对患者的实时医疗数据进行预处理得到待分析医疗数据中进行了描述,故在此不再赘述。
基于预处理后的数据集,枚举N种多模态数据特征缺失的情况,创建N种任务。
在上述步骤中,疾病发生概率确定系统将基于预处理后的数据集,枚举N种多模态数据特征缺失的情况,创建N种任务。
具体来说,在本技术方案中,枚举出N种多模态数据特征缺失的情况,可以使构建出的疾病发生概率预测模型更具普适性。
根据枚举结果对预处理后的数据集进行划分,得到与N种任务对应的N个训练集{X1,X2,...Xi,...,XN},i∈[1,N];训练集Xi中包含若干个样本,每个样本包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3三种模态特征中的一种或多种。
在上述步骤中,疾病发生概率确定系统将根据枚举结果对预处理后的数据集进行划分,得到与N种任务对应的N个训练集{X1,X2,...Xi,...,XN},i∈[1,N]。
具体来说,在本技术方案中,训练集Xi包含多个患者的多模态样本。
将N个训练集输入预设的疾病发生概率预测模型框架;预设的疾病发生概率预测模型框架中包括模态编码器、门控单元以及分类器。
在上述步骤中,疾病发生概率确定系统将N个训练集输入预设的疾病发生概率预测模型框架。
具体来说,在本技术方案中,预设疾病发生概率预测模型框架包括若干个模态编码器、若干个门控单元以及若干个分类器,其中每个模态编码器对应一种模态特征,门控单元、分类器与训练集一一对应。
将每个训练集中的样本的模态特征通过对应的模态编码器进行编码,得到模态编码器输出x。
在上述步骤中,疾病发生概率确定系统将每个训练集中的样本的模态特征通过对应的模态编码器进行编码,每个模态编码器对一种模态特征进行编码,再将编码后的模态特征组合得到模态编码器输出x。
将N个训练集分别通过与其对应的门控单元G ={G1,G2,...GN},并基于注意力机制计算得到影响权重w。
在上述步骤中,疾病发生概率确定系统将N个训练集分别通过与其对应的门控单元,并基于注意力机制计算得到影响权重w。
具体来说,在本技术方案中,影响权重是指每个模态特征对于预测结果的重要程度。权重越高,该模态特征对预测结果的影响就越大。基于注意力机制计算得到影响权重w将在后续实施例中进行详细说明。
将影响权重w和模态编码器输出x加权求和得到任务输出向量。
具体来说,在本技术方案中,设任务输出向量为t,则任务输出向量由以下公式确定:t=w1x1'+w2x2'+...wnxn';其中x1'、x2'……xn'是各个模态编码器的输出;w1、w2……wn是对应的影响权重。这个公式可以看作是将不同模态的信息进行融合,并根据它们的重要性进行加权平均。
将任务输出向量分别通过与其任务对应的分类器F ={F1,F2,...FN},得到疾病发生概率预测模型。
在上述步骤中,疾病发生概率确定系统将任务输出向量通过每种任务对应的分类器,得到疾病发生概率预测模型。
具体来说,将任务输出向量分别通过与其任务对应的分类器F ={F1,F2,...FN},得到疾病发生概率预测模型的步骤将在后续实施例中进行详细说明。
通过采用上述实施例所描述的技术方案,在构建疾病发生概率预测模型时枚举N种多模态数据特征缺失的情况,使得疾病发生概率预测模型更具普适性;将训练集X中的多模态数据特征分别通过对应的预设编码器模型进行编码,充分考虑每种多模态数据特征的数据特点,通过预设编码器模型进行编码处理后的数据更加精确;将N个训练集通过每种任务对应的门控单元,门控单元可以给予训练集中,每个样本包括的有用的多模态数据特征更多的权重,降低不重要的多模态数据特征的权重;因此可以有效地提升疾病发生概率预测模型的准确性和鲁棒性。
在一种可能的实施方式中,其中基于预处理后的患者的实时医疗数据,枚举N种多模态数据特征缺失的情况,创建N种任务具体包括以下步骤:
创建第一种任务,得到第一训练集X1;第一训练集X1包括多个样本,每个样本包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3
具体来说,在本技术方案中,第一训练集X1包括多个患者的多模态样本,该类多模态样本中,包含结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3,即患者的多模态样本中的特征完整。
创建第二种任务,得到第二训练集X2;第二训练集X2包括多个样本,每个样本包括结构化数据特征x1和医疗文本特征x2
具体来说,在本技术方案中,创建第二种任务只包括结构化数据特征x1和医疗文本特征x2,不包括医疗影像特征x3。即患者的多模态样本中存在医疗影像特征x3缺失。
创建第i种任务,得到第i训练集Xi;第i训练集Xi包括多个样本,每个样本包括结构化数据特征x1、医疗文本特征x2、医疗影像特征x3的一种或多种。
具体来说,在本技术方案中,创建第i种任务为包括结构化数据特征x1、医疗文本特征x2、医疗影像特征x3的一种或多种。
创建第N种任务,得到第N训练集XN;第N训练集XN包括多个样本,每个样本包括结构化数据特征x1、医疗文本特征x2、医疗影像特征x3的其中一种。
具体来说,在本技术方案中,举例来说,创建第N种任务得到的第N训练集XN中只包括结构化数据特征x1、医疗文本特征x2、医疗影像特征x3的其中一种。
在一种可能的实施方式中,将每个训练集中的样本的模态特征通过对应的模态编码器进行编码具体包括以下步骤:对训练集Xi中的结构化数据特征x1采用多层感知机(MLP)进行训练;对训练集Xi中的医疗文本特征x2采用多视角卷积神经网络(MultiResCNN)进行训练;对训练集Xi中的医疗影像特征x3采用残差神经网络(ResNet)进行训练。
具体来说,由于每种特征的特点不同,因此选用每种特征适合的模型进行训练,可以使多模态特征在进行模型训练后输出的模型输出值k更加准确。其中多层感知机能更好地解决非线性问题,多层感知机可以通过训练权值参数来学习非线性函数;多层感知机具有较好的泛化能力,多层感知机可以很好地适应新的数据,这使得它对于新的数据具有较好的泛化能力;且多层感知机的训练方式灵活,多层感知机可以使用不同的优化算法和损失函数来训练。因此结构化数据特征x1适合采用多层感知机进行编码。考虑到医疗文本的模块化表达特性,本方案选用CNN系的模型编码医疗文本,重点选用多视角卷积神经网络队医疗文本特征x2进行训练。考虑到医疗影像的图像特点,且残差神经网络在处理图像分类、检测问题上效果优异,因此选用残差神经网络对医疗影像的特征x3进行训练。
需要说明的是,本实施例中,多层感知机、多视角卷积神经网络以及残差神经网络分别存在于三个模态编码器中。若第i数据集Xi中没有医疗文本特征x2,则第i数据集Xi无需通过多视角卷积神经网络进行训练。
通过采用上述实施例所描述的技术方案,由于结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3的特点均不相同,因此每种模态特征选用适合其特点的模态编码器进行训练,可以使多模态特征在进行模型训练后输出的模型输出值更加准确。
在一种可能的实施方式中,通过以下方式确定影响权重w;wj=Gj(x), j∈[1,N]其中,N为任务的个数,wj为第j种任务对应的门控单元计算出的影响权重,x为模态编码器输出且x={x1',x2',x3'},x1'为经过模态编码器编码后的结构化数据特征,x2'为经过模态编码器编码后的医疗文本特征,x3'为经过模态编码器编码后的医疗影像特征,Gj为第j种任务对应的门控单元。
在上述步骤中,疾病发生概率确定系统将多模态数据特征通过每种任务对应的门控单元,得到影响权重w。
具体来说,在本技术方案中,影响权重w为不同的多模态数据特征在该疾病标签下对疾病预测结果产生影响的占比值。门控单元为线性注意力机制,其用于控制多模态数据特征通过的比例。举例来说,在获取患者的疾病检测数据特征时,其中结构化数据特征x1包括体温特征和心率特征。如果疾病发生概率预测模型的预测目标是判断患者是否发烧,那么在疾病发生概率预测模型中更关注的是患者的体温特征,这个时候心率特征在判断患者是否发烧时无法起到决定性作用。因此门控单元需要降低心率特征通过的比例,提高体温特征通过的比例。
需要说明的是,x={x1',x2',x3'}中的包含x1',x2',以及x3'中的一种或多种。
在一种可能的实施方式中,通过以下方式确定所述疾病发生概率预测模型;yj=Fj(wj○x), j∈[1,N];其中,N为任务的个数,Fj为第j种任务对应的分类器,wj为第j种任务对应的门控单元计算出的影响权重,○代表影响权重w和模态编码器输出x的点积,yj为第j种任务的预测结果。
具体来说,在本技术方案中,将影响权重w和模态编码器输出x点乘后得到任务输出向量,再将任务输出向量通过每种任务对应的分类器F ={F1,F2,...FN},得到对应的分类结果;再将各个分类结果采用投票法、层次模型等方法进行综合,得到最终的疾病发生概率预测模型。常见的综合方法包括:投票法:对于每个样本,各个分类器给出一个分类结果,最终的分类结果是多数分类器的结果。加权投票法:给不同的分类器赋予不同的权重,最终的分类结果是各个分类器结果的加权和。级联分类器:将多个分类器串联起来,每个分类器负责对前一个分类器的错误进行纠正。Stacking方法:将各个分类器的分类结果作为输入,再训练一个元分类器来综合这些分类结果。Bagging方法:将训练数据分成若干个子集,分别训练不同的分类器,最终的分类结果是各个分类器的平均或加权平均。在具体应用时,需要根据数据集和任务的特点选择合适的综合方法。例如,在一些多类别不平衡的问题中,加权投票法和级联分类器可能会比投票法效果更好,因此在本技术方案中不对综合方法进行具体限定。
在一种可能的实施方式中,在步骤S104之后还包括如下步骤:
当疾病发生概率值大于预设疾病发生概率值时,输出高风险预警提示信息。
在上述步骤中,疾病发生概率确定系统在判断当疾病发生概率值大于预设疾病发生概率值时,输出高风险预警提示信息。
具体来说,在本技术方案中,当疾病发生概率确定系统判断疾病风险概率大于预设疾病发生概率值时,将输出高风险预警提示信息。一种可能的方式即为发送预警提示信息给临床医生智能终端,其中临床医生智能终端包括临床医生所使用的电脑、手机、平板等。临床医生可以通过查看智能终端的预警提示信息,再人工介入判断患者的患病风险并对患者进行相应治疗。当疾病风险概率小于或等于预设疾病发生概率值时,疾病发生概率确定系统将在预设时间段后再次获取患者的相关检测数据,并判断疾病风险概率是否大于预设疾病发生概率值。其中不同疾病对应的预设疾病发生概率值与预设时间段均不同。
举例来说,在预测AKI风险时,完整的患者疾病检测数据特征包括结构化数据特征x1:术前最近一次肌酐值;医疗文本特征x2:患者检查后的医疗文本;医疗影像特征x3:各类医疗影像图片。
患者A和患者B存在疾病检测数据特征缺失。其中,患者A的疾病检测数据特征未包括医疗影像特征x3,包括以下内容:结构化数据特征x1包括:术前最近一次肌酐值200umol/L;医疗文本特征x2包括:现病史有糖尿病,超声文本内容为:肝脏大小形态正常,胰腺大小形态正常;CT文本内容:冠状动脉多发钙化灶。术后6小时获取得到肌酐值为220umol/L。疾病发生概率预测模型预测该患者AKI风险概率为0.6,该类型疾病的风险概率阈值设为0.5,那么则向临床医生输出该患者AKI高风险预警提示,提示临床医生需要根据疾病风险概率进行综合判断。
患者B的疾病检测数据特征未包括医疗文本特征x2,包括以下内容:结构化数据特征x1包括:术前肌酐值最近一次肌酐值70umol/L;医疗影像特征x3包括:胸片影像图片和心脏超声图片;术后6小时后肌酐为80umol/L。术后6小时疾病发生概率预测模型预测该患者AKI风险概率为0.4,此时疾病发生概率确定系统不向临床医生发送提示信息。在术后12小时,再次获取患者的结构化数据特征x1,此时患者的肌酐值上升至95umol/L,疾病发生概率预测模型此时预测该患者AKI风险概率为0.6,那么向临床输出该患者AKI高风险预警提示,提示临床医生需要根据疾病风险概率进行综合判断。该患者在术后30小时,获取患者的结构化数据特征x1,此时患者的肌酐值升至150umol/L,疾病发生概率预测模型此时预测该患者AKI风险概率为0.8,同时结合患者的实际患病特征符合改善全球肾脏病预后组织(KDIGO)对AKI的认定,因此此时该名患者被确诊为AKI。
通过采用上述实施例所描述的技术方案,当疾病风险概率大于预设疾病发生概率值时,输出高风险预警提示信息给临床医生作为参考,以使临床医生及时对病人进行相对应的治疗,有效提高患者疾病治愈的概率。
为了更好地理解本技术方案,参照图2,其示出了本申请实施方式提供的一种疾病发生概率预测方法的预设疾病发生概率预测模型构建的阶段示意图。
本申请还提供了一种疾病发生概率确定系统,参照图3,其示出了本申请实施例提供的一种疾病发生概率确定系统的结构示意图之一。系统包括:第一获取模块1、第一预处理模块2以及第一处理模块3;第一获取模块1,用于获取患者的实时医疗数据;第一预处理模块2,用于对患者的实时医疗数据进行预处理得到待分析医疗数据;第一处理模块3,用于将待分析医疗数据输入待预测疾病对应的预设疾病发生概率预测模型;还用于调用与待分析医疗数据内包含的模态特征匹配的编码器、模态缺失情况对应的门控单元和分类器,进行预测得到待预测疾病的疾病发生概率值。
在一种可能的实施方式中,参照图4,其示出了本申请实施例提供的一种疾病发生概率确定系统的结构示意图之二。系统还包括:第二获取模块4、第二处理模块5、第二预处理模块6、枚举模块7、数据划分模块8以及模型训练模块9;第二获取模块4,用于获取患者历史医疗数据和患者标签;第二处理模块5,用于基于患者历史医疗数据和患者标签,构建基础数据集;第二预处理模块6,用于对基础数据集进行预处理,得到预处理后的数据集;枚举模块7,用于基于预处理后的数据集,枚举N种多模态数据特征缺失的情况,创建N种任务;数据划分模块8,用于根据枚举结果对预处理后的数据集进行划分,得到与N种任务对应的N个训练集{X1,X2,...Xi,...,XN},i∈[1,N],Xi中包含多个样本,每个样本包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3三种模态特征中的一种或多种;模型训练模块9,用于基于N个训练集,通过对应的模态编码器、门控单元以及分类器进行训练,得到预设疾病发生概率预测模型。
具体来说,枚举模块7用于基于预处理后的数据集,枚举N种多模态数据特征缺失的情况,创建N种任务,其中创建第一种任务,得到第一训练集X1;第一训练集X1包括多个样本,每个样本包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3;还用于创建第二种任务,得到第二训练集X2;第二训练集X2包括多个样本,每个样本包括结构化数据特征x1和医疗文本特征x2;还用于创建第i种任务,得到第i训练集Xi;第i训练集Xi包括多个样本,每个样本包括结构化数据特征x1、医疗文本特征x2、医疗影像特征x3的一种或多种;还用于创建第N种任务,得到第N训练集XN;第N训练集XN包括多个样本,每个样本包括结构化数据特征x1、医疗文本特征x2、医疗影像特征x3的其中一种。
数据划分模块8,接收到枚举模块7发来的枚举结果,对预处理后的数据集进行划分,得到与N种任务对应的N个训练集{X1,X2,...Xi,...,XN},i∈[1,N],Xi中包含多个样本,每个样本包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3三种模态特征中的一种或多种。
模型训练模块9用于基于N个训练集,通过对应的模态编码器、门控单元以及分类器进行训练,得到预设疾病发生概率预测模型。训练步骤在之前的疾病发生概率预测模型中已做说明,不再赘述。
需要说明的是,上述实施例中的第二获取模块4、第二处理模块5、第二预处理模块6、枚举模块7、数据划分模块8以及模型训练模块9均为本申请疾病发生概率确定系统的一部分,其可以应用于第一处理模块之前,用于构建预设疾病发生概率预测模型。
在一种可能的实施方式中,参照图3,系统还包括:辅助决策模块10;辅助决策模块10,用于当疾病发生概率值大于预设疾病发生概率值时,输出高风险预警提示信息。
需要说明的是:上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置和方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请还公开一种电子设备。参照图5,图5是本申请实施例的公开的一种电子设备的结构示意图。该电子设备500可以包括:至少一个处理器501,至少一个网络接口504,用户接口503,存储器505,至少一个通信总线502。
其中,通信总线502用于实现这些组件之间的连接通信。
其中,用户接口503可以包括显示屏(Display)、摄像头(Camera),可选用户接口503还可以包括标准的有线接口、无线接口。
其中,网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器501可以包括一个或者多个处理核心。处理器501利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器505内的指令、程序、代码集或指令集,以及调用存储在存储器505内的数据,执行服务器的各种功能和处理数据。可选的,处理器501可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器501可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器501中,单独通过一块芯片进行实现。
其中,存储器505可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器505包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器505可用于存储指令、程序、代码、代码集或指令集。存储器505可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。参照图5,作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及一种应用程序。
在图5所示的电子设备500中,用户接口503主要用于为用户提供输入的接口,获取用户输入的数据;而处理器501可以用于调用存储器505中存储一种应用程序,当由一个或多个处理器501执行时,使得电子设备500执行如上述实施例中一个或多个的方法。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几种实施方式中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。
本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

Claims (12)

1.一种疾病发生概率预测方法,其特征在于,所述方法包括:
获取患者的实时医疗数据,所述实时医疗数据包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3三种模态特征中的一种或多种;
对所述患者的实时医疗数据进行预处理得到待分析医疗数据;
将所述待分析医疗数据输入待预测疾病对应的预设疾病发生概率预测模型;所述预设疾病发生概率预测模型包括若干个模态编码器、若干个门控单元以及若干个分类器,其中,每个模态编码器对应一种模态特征,每个门控单元对应一种模态缺失情况,分类器与门控单元一一对应;
调用与所述待分析医疗数据内包含的模态特征匹配的编码器、所述模态缺失情况对应的门控单元和分类器,进行预测得到所述待预测疾病的疾病发生概率值。
2.根据权利要求1所述的一种疾病发生概率预测方法,其特征在于,在所述将所述待分析医疗数据输入待预测疾病对应的预设疾病发生概率预测模型之前,方法还包括:
获取患者历史医疗数据和患者标签;
基于所述患者历史医疗数据和所述患者标签,构建基础数据集;
对所述基础数据集进行预处理,得到预处理后的数据集;
基于所述预处理后的数据集,枚举N种多模态数据特征缺失的情况,创建N种任务;
根据枚举结果对所述预处理后的数据集进行划分,得到与所述N种任务对应的N个训练集{X1,X2,...Xi,...,XN},i∈[1,N];所述训练集Xi中包含若干个样本,每个所述样本包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3三种模态特征中的一种或多种;
将所述N个训练集输入预设的疾病发生概率预测模型框架;所述预设的疾病发生概率预测模型框架中包括模态编码器、门控单元以及分类器;
将每个所述训练集中的所述样本的模态特征通过对应的模态编码器进行编码,得到模态编码器输出x;
将N个训练集分别通过与其对应的门控单元G ={G1,G2,...GN},并基于注意力机制计算得到影响权重w;
将所述影响权重w和所述模态编码器输出x加权求和得到任务输出向量;
将所述任务输出向量分别通过与其任务对应的分类器F ={F1,F2,...FN},得到所述预设疾病发生概率预测模型。
3.根据权利要求2所述的一种疾病发生概率预测方法,其特征在于,所述枚举N种多模态数据特征缺失的情况,创建N种任务,具体包括:
创建第一种任务,得到第一训练集X1;所述第一训练集X1包括多个样本,每个样本包括所述结构化数据特征x1、所述医疗文本特征x2以及所述医疗影像特征x3
创建第二种任务,得到第二训练集X2;所述第二训练集X2包括多个样本,每个样本包括所述结构化数据特征x1和所述医疗文本特征x2
创建第i种任务,得到第i训练集Xi;所述第i训练集Xi包括多个样本,每个样本包括所述结构化数据特征x1、所述医疗文本特征x2、所述医疗影像特征x3的一种或多种;
创建第N种任务,得到第N训练集XN;所述第N训练集XN包括多个样本,每个样本包括所述结构化数据特征x1、所述医疗文本特征x2、所述医疗影像特征x3的其中一种。
4.根据权利要求2所述的一种疾病发生概率预测方法,其特征在于,所述将每个所述训练集中的所述样本的模态特征通过对应的模态编码器进行编码,具体包括:
对训练集Xi中的结构化数据特征x1采用多层感知机进行编码;
对训练集Xi中的医疗文本特征x2采用多视角卷积神经网络进行编码;
对训练集Xi中的医疗影像特征x3采用残差神经网络进行编码。
5.根据权利要求2所述的一种疾病发生概率预测方法,其特征在于,通过以下方式确定所述影响权重w;
wj=Gj(x), j∈[1,N]
其中,N为所述任务的个数,wj为第j种所述任务对应的所述门控单元计算出的所述影响权重,x为所述模态编码器输出且x={x1',x2',x3'},x1'为经过所述模态编码器编码后的所述结构化数据特征,x2'为经过所述模态编码器编码后的所述医疗文本特征,x3'为经过所述模态编码器编码后的所述医疗影像特征,Gj为第j种任务对应的门控单元。
6.根据权利要求5所述的一种疾病发生概率预测方法,其特征在于,通过以下方式确定所述疾病发生概率预测模型;
yj=Fj(wj○x), j∈[1,N]
其中,N为所述任务的个数,Fj为第j种所述任务对应的分类器,wj为第j种所述任务对应的所述门控单元计算出的所述影响权重,○代表所述影响权重w和所述模态编码器输出x的点积,yj为第j种所述任务的预测结果。
7.根据权利要求1所述的一种疾病发生概率预测方法,其特征在于,在所述进行预测得到所述待预测疾病的疾病发生概率值之后,方法还包括:
当所述疾病发生概率值大于预设疾病发生概率值时,输出高风险预警提示信息。
8.一种疾病发生概率确定系统,其特征在于,所述系统包括:第一获取模块(1)、第一预处理模块(2)以及第一处理模块(3);
所述第一获取模块(1),用于获取患者的实时医疗数据;
所述第一预处理模块(2),用于对所述患者的实时医疗数据进行预处理得到待分析医疗数据;
所述第一处理模块(3),用于将所述待分析医疗数据输入待预测疾病对应的预设疾病发生概率预测模型;还用于调用与所述待分析医疗数据内包含的模态特征匹配的编码器、模态缺失情况对应的门控单元和分类器,进行预测得到所述待预测疾病的疾病发生概率值。
9.根据权利要求8所述的一种疾病发生概率确定系统,其特征在于,所述系统还包括:第二获取模块(4)、第二处理模块(5)、第二预处理模块(6)、枚举模块(7)、数据划分模块(8)以及模型训练模块(9);
所述第二获取模块(4),用于获取患者历史医疗数据和患者标签;
所述第二处理模块(5),用于基于所述患者历史医疗数据和所述患者标签,构建基础数据集;
所述第二预处理模块(6),用于对所述基础数据集进行预处理,得到预处理后的数据集;
所述枚举模块(7),用于基于所述预处理后的数据集,枚举N种多模态数据特征缺失的情况,创建N种任务;
所述数据划分模块(8),用于根据枚举结果对所述预处理后的数据集进行划分,得到与所述N种任务对应的N个训练集{X1,X2,...Xi,...,XN},i∈[1,N];Xi中包含多个样本,每个样本包括结构化数据特征x1、医疗文本特征x2以及医疗影像特征x3三种模态特征中的一种或多种;
所述模型训练模块(9),用于基于所述N个训练集,通过对应的模态编码器、门控单元以及分类器进行训练,得到预设疾病发生概率预测模型。
10.根据权利要求9所述的疾病发生概率确定系统,其特征在于,还包括辅助决策模块(10);
所述辅助决策模块(10),用于当所述疾病发生概率值大于预设疾病发生概率值时,输出高风险预警提示信息。
11.一种电子设备,其特征在于,包括处理器(501)、存储器(505)、用户接口(503)及网络接口(504),所述存储器(505)用于存储指令,所述用户接口(503)和网络接口(504)用于给其他设备通信,所述处理器(501)用于执行所述存储器(505)中存储的指令,以使所述电子设备(500)执行如权利要求1-7任意一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1-7任意一项所述的方法步骤。
CN202310647910.8A 2023-06-02 2023-06-02 一种疾病发生概率预测方法及疾病发生概率确定系统 Active CN117079825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310647910.8A CN117079825B (zh) 2023-06-02 2023-06-02 一种疾病发生概率预测方法及疾病发生概率确定系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310647910.8A CN117079825B (zh) 2023-06-02 2023-06-02 一种疾病发生概率预测方法及疾病发生概率确定系统

Publications (2)

Publication Number Publication Date
CN117079825A true CN117079825A (zh) 2023-11-17
CN117079825B CN117079825B (zh) 2024-01-19

Family

ID=88718160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310647910.8A Active CN117079825B (zh) 2023-06-02 2023-06-02 一种疾病发生概率预测方法及疾病发生概率确定系统

Country Status (1)

Country Link
CN (1) CN117079825B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060036619A1 (en) * 2004-08-09 2006-02-16 Oren Fuerst Method for accessing and analyzing medically related information from multiple sources collected into one or more databases for deriving illness probability and/or for generating alerts for the detection of emergency events relating to disease management including HIV and SARS, and for syndromic surveillance of infectious disease and for predicting risk of adverse events to one or more drugs
AU2006346804A1 (en) * 2005-12-14 2008-02-07 Cold Spring Harbor Laboratory Methods for assessing probabilistic measures of clinical outcome using genomic profiling
US20180144103A1 (en) * 2016-11-23 2018-05-24 Selvas Ai Inc. Method and apparatus for predicting probability of outbreak of disease
KR20180058466A (ko) * 2016-11-24 2018-06-01 주식회사 셀바스에이아이 질환 발병 확률 예측 모델 학습 방법 및 장치
CN111081379A (zh) * 2019-12-02 2020-04-28 中南大学 一种疾病概率决策方法及其系统
CN111968750A (zh) * 2020-10-23 2020-11-20 平安科技(深圳)有限公司 一种服务器、数据处理方法、装置及可读存储介质
CN112633601A (zh) * 2020-12-31 2021-04-09 天津开心生活科技有限公司 疾病事件发生概率的预测方法、装置、设备及计算机介质
CN114360732A (zh) * 2022-01-12 2022-04-15 平安科技(深圳)有限公司 医疗数据分析方法、装置、电子设备及存储介质
CN115270718A (zh) * 2022-07-26 2022-11-01 中国医学科学院阜外医院 一种疾病编码的自动编目方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060036619A1 (en) * 2004-08-09 2006-02-16 Oren Fuerst Method for accessing and analyzing medically related information from multiple sources collected into one or more databases for deriving illness probability and/or for generating alerts for the detection of emergency events relating to disease management including HIV and SARS, and for syndromic surveillance of infectious disease and for predicting risk of adverse events to one or more drugs
AU2006346804A1 (en) * 2005-12-14 2008-02-07 Cold Spring Harbor Laboratory Methods for assessing probabilistic measures of clinical outcome using genomic profiling
US20180144103A1 (en) * 2016-11-23 2018-05-24 Selvas Ai Inc. Method and apparatus for predicting probability of outbreak of disease
KR20180058466A (ko) * 2016-11-24 2018-06-01 주식회사 셀바스에이아이 질환 발병 확률 예측 모델 학습 방법 및 장치
CN111081379A (zh) * 2019-12-02 2020-04-28 中南大学 一种疾病概率决策方法及其系统
CN111968750A (zh) * 2020-10-23 2020-11-20 平安科技(深圳)有限公司 一种服务器、数据处理方法、装置及可读存储介质
CN112633601A (zh) * 2020-12-31 2021-04-09 天津开心生活科技有限公司 疾病事件发生概率的预测方法、装置、设备及计算机介质
CN114360732A (zh) * 2022-01-12 2022-04-15 平安科技(深圳)有限公司 医疗数据分析方法、装置、电子设备及存储介质
CN115270718A (zh) * 2022-07-26 2022-11-01 中国医学科学院阜外医院 一种疾病编码的自动编目方法及系统

Also Published As

Publication number Publication date
CN117079825B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
Madani et al. Fast and accurate view classification of echocardiograms using deep learning
Brattain et al. Machine learning for medical ultrasound: status, methods, and future opportunities
KR101884609B1 (ko) 모듈화된 강화학습을 통한 질병 진단 시스템
US11507822B2 (en) Scalable artificial intelligence model generation systems and methods for healthcare
JP2023502983A (ja) 心臓のビデオを使用して患者のエンドポイントの予測を強化するためのディープニューラルネットワークのためのシステムおよび方法
El Asnaoui Design ensemble deep learning model for pneumonia disease classification
KR102225894B1 (ko) 딥 어텐션 네트워크를 이용하여 환자 의료 기록으로부터 질병 예후를 예측하는 방법 및 시스템
CN109949280B (zh) 图像处理方法、装置、设备存储介质及生长发育评估系统
CN114298234B (zh) 脑部医学影像分类方法、装置、计算机设备和存储介质
US11361435B2 (en) Processing fundus images using machine learning models to generate blood-related predictions
CN115907026A (zh) 用于联邦学习的隐私保护数据策管
Teo et al. Discovering the predictive value of clinical notes: machine learning analysis with text representation
Saraf et al. Deep learning challenges in medical imaging
Teo et al. Current trends in readmission prediction: an overview of approaches
WO2022231970A1 (en) Data diversity visualization and quantification for machine learning models
CN117079825B (zh) 一种疾病发生概率预测方法及疾病发生概率确定系统
CN112699907B (zh) 数据融合的方法、装置和设备
Razzaq et al. An overview of deep learning applications in precocious puberty and thyroid dysfunction
CN113066531B (zh) 风险预测方法、装置、计算机设备及存储介质
KR102624616B1 (ko) Dxa 스캔 이미지 및 임상 공변량에 기초하여 학습된 딥러닝 모델을 이용한 골다공증 위험도 예측 방법 및 장치
Senapati et al. Wrist Crack Classification Using Deep Learning and X-Ray Imaging
US20230178244A1 (en) Two-tiered machine learning generation of birth risk score
Abubakar et al. IoT-Enabled Machine Learning for Enhanced Diagnosis of Diabetes and Heart Disease in Resource-Limited Settings
Blagojević et al. A Review of the Application of Artificial Intelligence in Medicine: From Data to Personalised Models
CN116386877B (zh) 一种肺动脉高压发生概率的确认方法、辅助决策系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant