CN116525117A - 一种面向数据分布漂移检测与自适应的临床风险预测系统 - Google Patents
一种面向数据分布漂移检测与自适应的临床风险预测系统 Download PDFInfo
- Publication number
- CN116525117A CN116525117A CN202310809676.4A CN202310809676A CN116525117A CN 116525117 A CN116525117 A CN 116525117A CN 202310809676 A CN202310809676 A CN 202310809676A CN 116525117 A CN116525117 A CN 116525117A
- Authority
- CN
- China
- Prior art keywords
- data
- clinical
- risk prediction
- drift detection
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 76
- 238000003759 clinical diagnosis Methods 0.000 claims abstract description 87
- 238000013058 risk prediction model Methods 0.000 claims abstract description 80
- 230000002776 aggregation Effects 0.000 claims abstract description 9
- 238000004220 aggregation Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 18
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000003745 diagnosis Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 239000003814 drug Substances 0.000 claims description 4
- 229940079593 drug Drugs 0.000 claims description 3
- 238000009533 lab test Methods 0.000 claims description 3
- 230000007170 pathology Effects 0.000 claims 1
- 238000001356 surgical procedure Methods 0.000 claims 1
- 230000004931 aggregating effect Effects 0.000 abstract 1
- 206010009944 Colon cancer Diseases 0.000 description 12
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 6
- 206010028980 Neoplasm Diseases 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004393 prognosis Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 206010033307 Overweight Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010339 medical test Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pathology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种面向数据分布漂移检测与自适应的临床风险预测系统,包括:中心服务器和节点;中心服务器包括第一漂移检测模块和模型聚合模块;节点包括数据采集模块、第二漂移检测模块和模型更新模块;数据采集模块用于获取患者临床诊疗数据;第一漂移检测模块和第二漂移检测模块根据新/旧患者临床诊疗数据集是否来源于同一数据分布判定患者临床诊疗数据分布是否发生了漂移;当患者临床诊疗数据分布发生漂移时,训练本地临床风险预测模型,将其参数上传至中心服务器,对各个模型参数进行聚合,得到更新后的临床风险预测模型,并下发至各节点进行部署;将新患者临床诊疗数据输入至更新后的临床风险预测模型,得到临床风险预测结果。
Description
技术领域
本发明属于医疗健康信息技术领域,尤其涉及一种面向数据分布漂移检测与自适应的临床风险预测系统。
背景技术
在临床风险预测应用场景中,随着时间的推移,人口统计、疾病流行、临床实践和医疗保健系统作为一个整体可能会发生变化,数据的分布随时间发生不可预测的变化,使在旧数据集上建立的模型不再适用于新的数据。这意味着基于单中心静态截面数据的临床风险预测模型可能会过时或不适用于其他机构,导致预测结果不再准确。其次,临床风险预测模型应用于临床实践会改变临床决策和干预措施,导致新数据的结果分布和预测因子-结果关联关系变化,从而导致临床风险预测模型性能快速衰退。因此,临床风险预测模型在经过一段时间后,就要重新训练和部署。
尤其在肿瘤患者的预后风险预测场景,随着肿瘤检测手段进步、生物标记物发现、治疗方式改进,肿瘤患者的临床诊疗数据特征和临床观察结局分布在不断发生变化。这些因素促使用于肿瘤预后风险评估的临床风险预测模型进行必要的、及时的更新。
常用的模型自适应更新方法包括模型重训练、不同时间窗口的模型集成和增量学习三种。模型重训练需要消耗大量的计算资源和建模时间。不同时间窗口的模型集成需要维护一个模型池,对新数据同时进行打分,会消耗大量的计算资源。增量学习方法则存在灾难性遗忘现象,即随着时间的推移,模型使用最新的数据进行更新,新获得的数据往往会抹去之前学习到的模式。此外,模型重训练、模型集成和增量学习三种方式都需要指定固定的时间进行模型更新,可能会出现以下两种情况:
1. 更新时间间隔过小,没有累积到足够多具有差异分布的新数据,导致本次模型更新结果与上次结果相近,浪费系统计算资源;
2. 更新时间间隔过大,累积的新数据过多,导致模型更新滞后,新数据预测效果不佳。
因此,亟需提出一种临床风险预测系统,克服数据漂移带来的临床风险预测不准确。
发明内容
针对现有技术不足,本发明提供了一种面向数据分布漂移检测与自适应的临床风险预测系统。
根据本发明实施例的第一方面,提供了一种面向数据分布漂移检测与自适应的临床风险预测系统,所述系统包括中心服务器和若干个节点;
中心服务器包括:第一漂移检测模块和模型聚合模块;
节点包括:数据采集模块、第二漂移检测模块和模型更新模块;
数据采集模块,用于获取患者临床诊疗数据;
第一漂移检测模块和第二漂移检测模块,根据新患者临床诊疗数据集与初始患者临床诊疗数据集是否来源于同一数据分布判定患者临床诊疗数据是否发生了漂移;
当患者临床诊疗数据分布发生漂移时,通过模型更新模块训练本地临床风险预测模型,将训练好的本地临床风险预测模型的参数上传至中心服务器,通过模型聚合模块对各个节点的本地临床风险预测模型的参数进行聚合,得到更新后的临床风险预测模型,并下发至各节点进行部署;将新患者临床诊疗数据输入至更新后的临床风险预测模型,得到临床风险预测结果。
根据本发明实施例的第二方面,提供了一种面向数据分布漂移检测与自适应的临床风险预测装置,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的面向数据分布漂移检测与自适应的临床风险预测系统。
根据本发明实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的面向数据分布漂移检测与自适应的临床风险预测系统。
与现有技术相比,本发明的有益效果为:
(1)本发明将节点配置为只与中心服务器通信,各节点之间不通讯;同时,各节点只将本地临床风险预测模型的参数上传至中心服务器,不将原始患者临床诊疗数据集上传至中心服务器,使得本发明在数据安全和隐私保护前提下进行多中心的数据分布漂移检测与多中心的临床风险预测模型更新。
(2)本发明在临床风险预测模型的训练过程中,基于新患者临床诊疗数据集与初始患者临床诊疗数据集的相似性确定模型参数相似性约束在损失函数中的权重。同时,模型参数相似性约束提炼旧模型中的知识,避免了模型更新中的灾难性遗忘现象,保持临床风险预测的准确性。
(3)本发明在系统中有新患者临床诊疗数据产生时,进行及时的数据分布漂移检测。如果检测到了数据分布漂移,就对临床风险预测模型进行更新,如果没有检测到数据分布漂移,则保存数据用于下一次的数据分布漂移检测和临床风险预测模型更新。使得本发明可以在自动检测到数据分布漂移后,进行临床风险预测模型的更新,不需要为临床风险预测模型的更新预设时间间隔,提高临床风险预测的准确率,可以在实现及时的临床风险预测模型更新的前提下,有效减少计算资源的浪费。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种面向数据分布漂移检测与自适应的临床风险预测系统的示意图;
图2为本发明实施例提供的判定患者临床诊疗数据分布是否发生漂移的示意图;
图3为本发明实施例提供的多中心的临床风险预测模型更新的示意图;
图4为本发明实施例提供的一种面向数据分布漂移检测与自适应的临床风险预测装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
如图1所示,本发明实施例提供了一种面向数据分布漂移检测与自适应的临床风险预测系统,所述系统包括:中心服务器和若干个与其通讯的节点;
中心服务器包括:第一漂移检测模块和模型聚合模块。
节点包括:数据采集模块、第二漂移检测模块和模型更新模块。
数据采集模块,用于获取并存储患者临床诊疗数据。所述患者临床诊疗数据包括患者的人口统计学信息、就诊信息、诊断、实验室检验、医学检查、手术、用药和随访信息;
第一漂移检测模块和第二漂移检测模块,根据新患者临床诊疗数据集与初始患者临床诊疗数据集是否来源于同一数据分布判定患者临床诊疗数据是否发生了漂移。
当患者临床诊疗数据分布发生漂移时,通过模型更新模块训练本地临床风险预测模型,将训练好的本地临床风险预测模型的参数上传至中心服务器,通过模型聚合模块对各个节点的本地临床风险预测模型的参数进行聚合,得到更新后的临床风险预测模型,并下发至各节点进行部署;将新患者临床诊疗数据输入至更新后的临床风险预测模型,得到临床风险预测结果。
需要说明的是,各个节点利用本地临床风险预测模型推断新患者临床诊疗数据的临床风险,其原始患者临床诊疗数据不能离开该节点。中心服务器负责检测患者临床诊疗数据分布随时间的变化和更新临床风险预测模型。各个节点只能与中心服务器进行通信,彼此之间不能通信。使得本发明在数据安全和隐私保护前提下进行多中心的数据分布漂移检测与多中心的临床风险预测模型更新。
所述面向数据分布漂移检测与自适应的临床风险预测系统还包括:部署在中心服务器上的第一通信模块和部署在节点上的第二通讯模块。
在初始时刻,每个节点/>都有初始患者临床诊疗数据集(/>,/>),其中,/>为时刻的数据特征,/>为/>时刻的数据标签,/>,/>,/>为节点/>在/>时刻的样本量,/>为数据的特征数量。节点/>上的模型更新模块基于初始患者临床诊疗数据特征/>和对应的标签/>训练一个本地临床风险预测模型/>。所述数据特征包括患者人口统计学、就诊、诊断、实验室检验、医学检验、手术、用药和随访等多源多维度信息,数据标签可以是患者是否出现心血管疾病等疾病。所述临床风险预测模型为全连接神经网络。
进一步地,如图2所示,第一漂移检测模块和第二漂移检测模块,根据新患者临床诊疗数据集与初始患者临床诊疗数据集是否来源于同一数据分布判定患者临床诊疗数据分布是否发生了漂移包括:
假设本发明实施例提供的面向数据分布漂移检测与自适应的临床风险预测系统中存在个节点。以节点/>为例,阐述判定患者临床诊疗数据分布是否发生漂移的过程,/>。
第二漂移检测模块计算节点在时刻/>的数据质心/>,/>。其中,数据质心每一维度的特征取值都是由初始患者临床诊疗数据集/>每一维度的特征计算得到。如果初始患者临床诊疗数据集/>中的特征是分类变量,则使用初始患者临床诊疗数据集/>中特征的众数作为数据质心/>对应特征的特征取值。如果初始患者临床诊疗数据集/>中的特征是连续变量,根据临床专家知识,确定使用初始患者临床诊疗数据集/>中特征的中位数或者平均数作为数据质心/>对应特征的特征取值。
各个节点将本地计算得到的数据质心发给中心服务器。
中心服务器上的第一漂移检测模块根据各节点上传的数据质心获取时刻的全局数据质心矩阵/>,/>。并通过第一通信模块将全局数据质心矩阵/>下发至各节点。
在节点上,第二漂移检测模块计算初始患者临床诊疗数据集/>中每条数据到所有数据质心的第一距离之和,得到节点距离最大值/>和节点距离最小值/>,并上传至中心服务器。在本实例中,采用加权的欧氏距离计算初始患者临床诊疗数据集中每条数据到所有数据质心的第一距离之和。由于每个特征对临床风险预测模型具有不同的重要性,因此临床诊疗数据距离的计算必须考虑不同特征的相对重要性。本发明根据临床专家知识,将对临床风险预测具有重要作用的临床病理特征和治疗方案作为高权重特征,进行距离计算。
中心服务器上的第一漂移检测模块比较各个节点的最大值和最小值后,得到时刻的全局最大值/>和最小值/>,并通过中心服务器上的第一通信模块下发给各个节点。
当节点上有新患者临床诊疗数据集/>产生时,第二漂移检测模块需要判断新患者临床诊疗数据集/>是否与初始患者临床诊疗数据集/>来源于同一数据分布。具体地,第二漂移检测模块计算新患者临床诊疗数据集/>到所有数据质心的第二距离之和/>;当第二距离之和大于全局距离最大值,或第二距离之和小于全局距离最小值(即/>或),则判定新患者临床诊疗数据集与初始患者临床诊疗数据集不是来源于同一数据分布,患者临床诊疗数据分布发生了漂移。
需要说明的是,若患者临床诊疗数据分布未发生漂移,则临床风险预测模型不需要更新;若患者临床诊疗数据分布发生漂移,则临床风险预测模型需要更新。临床风险预测模型更新后,系统进入下一个更新周期,并处于下个更新周期的初始时刻。此时,节点上的所有患者临床诊疗数据都为该节点的初始患者临床诊疗数据集。
进一步地,如图3所示,当患者临床诊疗数据分布发生漂移时,通过模型更新模块训练本地临床风险预测模型,将训练好的本地临床风险预测模型的参数上传至中心服务器,通过模型聚合模块对各个节点的本地临床风险预测模型的参数进行聚合,得到更新后的临床风险预测模型,并下发至各节点进行部署;将新患者临床诊疗数据输入至更新后的临床风险预测模型,得到临床风险预测结果;包括:
其中,通过模型更新模块训练本地临床风险预测模型包括:
模型更新模块基于第一损失函数训练本地临床风险预测模型;其中,第一损失函数为第二损失函数/>与第三损失函数/>之和;第三损失函数/>为权重调整系数/>与模型参数相似性约束项/>的乘积;第二损失函数/>为当前时刻所有患者临床诊疗数据集对应的数据标签/>和本地临床风险预测模型预测概率/>之间的对数损失函数;权重调整系数/>基于初始患者临床诊疗数据集和当前时刻所有患者临床诊疗数据集的相似度确定。
具体地,第一损失函数的表达式如下:
式中,为基于节点/>上/>时刻的初始患者临床诊疗数据集/>训练的本地临床风险预测模型的参数,/>为基于节点/>上当前时刻的所有患者临床诊疗数据集/>训练的本地临床风险预测模型的参数。
进一步地,权重调整系数基于初始患者临床诊疗数据集和当前时刻所有患者临
床诊疗数据集的相似度确定,表达式如下:
式中,为权重调整系数,/>为节点/>在/>时刻的初始患者临床诊疗数据集/>中每条数据/>到/>个数据质心的距离之和,/>为节点/>在/>时刻的初始患者临床诊疗数据集的样本量,/>为节点/>在当前时刻的所有患者临床诊疗数据集/>中每条数据/>到/>个数据质心的距离之和,/>为节点/>在当前时刻的所有患者临床诊疗数据集/>的样本量。
进一步地,模型参数相似性约束项为第一模型参数与第二模型参数间的距离;第一模型参数为基于节点上/>时刻的初始患者临床诊疗数据集/>训练的本地临床风险预测模型的参数;第二模型参数为基于节点/>上当前时刻的所有患者临床诊疗数据集/>训练的本地临床风险预测模型的参数。表达式如下:
各节点将训练好的本地临床风险预测模型的参数通过第二通讯模块上传至中心服务器,中心服务器收到本地临床风险预测模型/>后,删除节点/>提供的本地临床风险预测模型旧版参数/>,通过模型聚合模块把各个节点的本地临床风险预测模型/>与其他节点的本地临床风险预测模型提供的旧版参数通过加权平均方式进行聚合,得到更新后的临床风险预测模型/>,并下发至各节点进行部署。
各个节点在接收更新后的临床风险预测模型后,进行临床风险预测模型部署,将新患者临床诊疗数据输入至更新后的临床风险预测模型/>,得到临床风险预测结果。
实施例1:
本实施例面向肿瘤预后风险评估场景,进一步详细阐述面向数据分布漂移检测与自适应的临床风险预测系统。
A医院、B医院和C医院作为节点参与本地临床风险预测模型的构建和应用,一个独立的中心服务器D负责与三家医院进行通信。三家医院各自负责收集各自医院内的结直肠癌患者临床诊疗数据,所述结直肠癌患者临床诊疗数据包括年龄、性别、疾病诊断、并发症、血常规、尿常规、手术记录、药物使用记录、生存时间和生存状态等。
A医院、B医院和C医院分别利用各自医院收集的结直肠癌患者临床诊疗数据,基于全连接神经网络构建本地临床风险预测模型,得到本地临床风险预测模型,/>和/>。三家医院分别把本地临床风险预测模型上传到中心服务器D。中心服务器D把三个本地临床风险预测模型的参数进行聚合,得到临床风险预测模型。然后,中心服务器D把临床风险预测模型发给三家医院。三家医院在本地部署临床风险预测模型,并利用其对患者的预后风险进行预测。
在临床风险预测系统应用过程中,三家医院会持续收集最新的结直肠癌患者临床诊疗数据。中心服务器上的第一漂移检测模块和部署在节点上的第二漂移检测模块会负责协同检测结直肠癌患者临床诊疗数据分布是否发生漂移。包括:
第二漂移检测模块计算数据质心并上传至中心服务器。
第一漂移检测模块根据各节点上传的数据质心获取全局数据质心矩阵,并下发至各节点。
第二漂移检测模块计算初始患者临床诊疗数据集中每条数据到所有数据质心的第一距离之和,得到节点距离最大值和节点距离最小值,并上传至中心服务器。
第一漂移检测模块根据各节点上传的节点距离最大值和节点距离最小值,得到全局距离最大值和全局距离最小值。
当节点上有新结直肠癌患者临床诊疗数据产生时,第二漂移检测模块计算新结直肠癌患者临床诊疗数据到所有数据质心的第二距离之和;当第二距离之和大于全局距离最大值,或第二距离之和小于全局距离最小值,则新结直肠癌患者临床诊疗数据与初始结直肠癌患者临床诊疗数据不是来源于同一数据分布,患者结直肠癌患者临床诊疗数据分布发生了漂移。
如果结直肠癌患者临床诊疗数据分布未发生漂移,则临床风险预测模型不需要更新;如果结直肠癌患者临床诊疗数据分布发生漂移,则临床风险预测模型需要更新。
临床风险预测模型的更新在数据集相似性和模型参数相似性约束下进行,包括:
通过节点上的模型更新模块基于第一损失函数训练本地临床风险预测模型;其中,第一损失函数为第二损失函数与第三损失函数之和;第三损失函数为权重调整系数与模型参数相似性约束项的乘积;第二损失函数为当前时刻所有患者临床诊疗数据集对应的数据标签和本地临床风险预测模型预测概率之间的对数损失函数;权重调整系数基于初始患者临床诊疗数据集和当前时刻所有患者临床诊疗数据集的相似度确定。
与前述面向数据分布漂移检测与自适应的临床风险预测系统的实施例相对应,本发明还提供了面向数据分布漂移检测与自适应的临床风险预测装置的实施例。
参见图4,本发明实施例提供的一种面向数据分布漂移检测与自适应的临床风险预测装置,包括一个或多个处理器,用于实现上述实施例中的面向数据分布漂移检测与自适应的临床风险预测系统。
本发明面向数据分布漂移检测与自适应的临床风险预测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明面向数据分布漂移检测与自适应的临床风险预测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的面向数据分布漂移检测与自适应的临床风险预测系统。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (10)
1.一种面向数据分布漂移检测与自适应的临床风险预测系统,其特征在于,所述系统包括中心服务器和若干个节点;
中心服务器包括:第一漂移检测模块和模型聚合模块;
节点包括:数据采集模块、第二漂移检测模块和模型更新模块;
数据采集模块,用于获取患者临床诊疗数据;
第一漂移检测模块和第二漂移检测模块,根据新患者临床诊疗数据集与初始患者临床诊疗数据集是否来源于同一数据分布判定患者临床诊疗数据是否发生了漂移;
当患者临床诊疗数据分布发生漂移时,通过模型更新模块训练本地临床风险预测模型,将训练好的本地临床风险预测模型的参数上传至中心服务器,通过模型聚合模块对各个节点的本地临床风险预测模型的参数进行聚合,得到更新后的临床风险预测模型,并下发至各节点进行部署;将新患者临床诊疗数据输入至更新后的临床风险预测模型,得到临床风险预测结果。
2.根据权利要求1所述面向数据分布漂移检测与自适应的临床风险预测系统,其特征在于,第一漂移检测模块和第二漂移检测模块,根据新患者临床诊疗数据集与初始患者临床诊疗数据集是否来源于同一数据分布判定患者临床诊疗数据分布是否发生了漂移包括:
第二漂移检测模块计算数据质心并上传至中心服务器;
第一漂移检测模块根据各节点上传的数据质心获取全局数据质心矩阵,并下发至各节点;
第二漂移检测模块计算初始患者临床诊疗数据集中每条数据到所有数据质心的第一距离之和,得到节点距离最大值和节点距离最小值,并上传至中心服务器;
第一漂移检测模块根据各节点上传的节点距离最大值和节点距离最小值,得到全局距离最大值和全局距离最小值;
当节点上有新患者临床诊疗数据集产生时,第二漂移检测模块计算新患者临床诊疗数据集到所有数据质心的第二距离之和;当第二距离之和大于全局距离最大值,或第二距离之和小于全局距离最小值,则新患者临床诊疗数据集与初始患者临床诊疗数据集不是来源于同一数据分布,患者临床诊疗数据分布发生了漂移。
3.根据权利要求2所述面向数据分布漂移检测与自适应的临床风险预测系统,其特征在于,第二漂移检测模块计算数据质心包括:
数据质心每一维度的特征取值由初始患者临床诊疗数据集每一维度的特征计算得到;
当初始患者临床诊疗数据集中的特征是分类变量,使用初始患者临床诊疗数据集中特征的众数作为数据质心对应特征的特征取值;
当初始患者临床诊疗数据集中的特征是连续变量,使用初始患者临床诊疗数据集中特征的中位数或平均数作为数据质心对应特征的特征取值。
4.根据权利要求2所述面向数据分布漂移检测与自适应的临床风险预测系统,其特征在于,第二漂移检测模块计算初始患者临床诊疗数据集中每条数据到所有数据质心的第一距离之和包括:
采用加权的欧氏距离计算初始患者临床诊疗数据集中每条数据到所有数据质心的第一距离之和。
5.根据权利要求3所述面向数据分布漂移检测与自适应的临床风险预测系统,其特征在于,患者临床诊疗数据集中的特征为包括人口统计学、就诊信息、诊断、病理特征、实验室检验、医学检查、手术、用药和随访信息在内的多源多维度信息。
6.根据权利要求1所述面向数据分布漂移检测与自适应的临床风险预测系统,其特征在于,当患者临床诊疗数据分布发生漂移时,通过模型更新模块训练本地临床风险预测模型包括:
模型更新模块基于第一损失函数训练本地临床风险预测模型;
其中,第一损失函数为第二损失函数与第三损失函数之和;第三损失函数为权重调整系数与模型参数相似性约束项的乘积;
第二损失函数为当前时刻所有患者临床诊疗数据集对应的数据标签和本地临床风险预测模型预测概率之间的对数损失函数;
权重调整系数基于初始患者临床诊疗数据集和当前时刻所有患者临床诊疗数据集的相似度确定。
7.根据权利要求6所述面向数据分布漂移检测与自适应的临床风险预测系统,其特征在于,权重调整系数基于初始患者临床诊疗数据集和当前时刻所有患者临床诊疗数据集的相似度确定,表达式如下:
;
式中,为权重调整系数,/>为节点/>在/>时刻的初始患者临床诊疗数据集/>中每条数据/>到/>个数据质心的距离之和,/>为节点/>在/>时刻的初始患者临床诊疗数据集/>的样本量,/>为节点/>在当前时刻的所有患者临床诊疗数据集/>中每条数据/>到/>个数据质心的距离之和,/>为节点/>在当前时刻的所有患者临床诊疗数据集/>的样本量。
8.根据权利要求6所述面向数据分布漂移检测与自适应的临床风险预测系统,其特征在于,模型参数相似性约束项为第一模型参数与第二模型参数间的距离;
第一模型参数为基于节点上/>时刻的初始患者临床诊疗数据集/>训练的本地临床风险预测模型的参数;
第二模型参数为基于节点上当前时刻的所有患者临床诊疗数据集/>训练的本地临床风险预测模型的参数。
9.一种面向数据分布漂移检测与自适应的临床风险预测装置,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-8任一项所述的面向数据分布漂移检测与自适应的临床风险预测系统。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的面向数据分布漂移检测与自适应的临床风险预测系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310809676.4A CN116525117B (zh) | 2023-07-04 | 2023-07-04 | 一种面向数据分布漂移检测与自适应的临床风险预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310809676.4A CN116525117B (zh) | 2023-07-04 | 2023-07-04 | 一种面向数据分布漂移检测与自适应的临床风险预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116525117A true CN116525117A (zh) | 2023-08-01 |
CN116525117B CN116525117B (zh) | 2023-10-10 |
Family
ID=87398042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310809676.4A Active CN116525117B (zh) | 2023-07-04 | 2023-07-04 | 一种面向数据分布漂移检测与自适应的临床风险预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116525117B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116978570A (zh) * | 2023-09-25 | 2023-10-31 | 之江实验室 | 一种在线实时患者危重程度评估及生命体征参数预测系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465626A (zh) * | 2020-11-24 | 2021-03-09 | 平安科技(深圳)有限公司 | 基于客户端分类聚合的联合风险评估方法及相关设备 |
CN112559784A (zh) * | 2020-11-02 | 2021-03-26 | 浙江智慧视频安防创新中心有限公司 | 基于增量学习的图像分类方法及系统 |
CN113420888A (zh) * | 2021-06-03 | 2021-09-21 | 中国石油大学(华东) | 一种基于泛化域自适应的无监督联邦学习方法 |
US20210365478A1 (en) * | 2020-05-19 | 2021-11-25 | Hewlett Packard Enterprise Development Lp | Updating data models to manage data driftand outliers |
US20210390455A1 (en) * | 2020-06-11 | 2021-12-16 | DataRobot, Inc. | Systems and methods for managing machine learning models |
CN114895656A (zh) * | 2022-06-20 | 2022-08-12 | 河海大学常州校区 | 一种自适应触发增量学习的工业物联网设备故障诊断系统 |
CN115587217A (zh) * | 2022-10-17 | 2023-01-10 | 西北工业大学 | 一种多终端视频检测模型在线重训练方法 |
-
2023
- 2023-07-04 CN CN202310809676.4A patent/CN116525117B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210365478A1 (en) * | 2020-05-19 | 2021-11-25 | Hewlett Packard Enterprise Development Lp | Updating data models to manage data driftand outliers |
US20210390455A1 (en) * | 2020-06-11 | 2021-12-16 | DataRobot, Inc. | Systems and methods for managing machine learning models |
CN112559784A (zh) * | 2020-11-02 | 2021-03-26 | 浙江智慧视频安防创新中心有限公司 | 基于增量学习的图像分类方法及系统 |
CN112465626A (zh) * | 2020-11-24 | 2021-03-09 | 平安科技(深圳)有限公司 | 基于客户端分类聚合的联合风险评估方法及相关设备 |
CN113420888A (zh) * | 2021-06-03 | 2021-09-21 | 中国石油大学(华东) | 一种基于泛化域自适应的无监督联邦学习方法 |
CN114895656A (zh) * | 2022-06-20 | 2022-08-12 | 河海大学常州校区 | 一种自适应触发增量学习的工业物联网设备故障诊断系统 |
CN115587217A (zh) * | 2022-10-17 | 2023-01-10 | 西北工业大学 | 一种多终端视频检测模型在线重训练方法 |
Non-Patent Citations (2)
Title |
---|
张育培;柴玉梅;王黎明;: "基于鞅的数据流概念漂移检测方法", 小型微型计算机系统, no. 08, pages 77 - 82 * |
蔡静颖;张永;: "基于马氏距离的模糊c-均值增量学习算法", 牡丹江师范学院学报(自然科学版), no. 01, pages 4 - 6 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116978570A (zh) * | 2023-09-25 | 2023-10-31 | 之江实验室 | 一种在线实时患者危重程度评估及生命体征参数预测系统 |
CN116978570B (zh) * | 2023-09-25 | 2024-02-06 | 之江实验室 | 一种在线实时患者危重程度评估及生命体征参数预测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116525117B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240144105A1 (en) | Computer based object detection within a video or image | |
CN109659033B (zh) | 一种基于循环神经网络的慢性疾病病情变化事件预测装置 | |
EP3309793A1 (en) | Controlling a device based on log and sensor data | |
JP2021525411A (ja) | 先を見越した健康監視及び管理のための個別化されたデバイス推奨 | |
WO2021059607A1 (ja) | 機械学習システムおよび方法、統合サーバ、情報処理装置、プログラムならびに推論モデルの作成方法 | |
US11529105B2 (en) | Digital twin updating | |
CN116525117B (zh) | 一种面向数据分布漂移检测与自适应的临床风险预测系统 | |
US11531851B2 (en) | Sequential minimal optimization algorithm for learning using partially available privileged information | |
Stoean et al. | Ensemble of classifiers for length of stay prediction in colorectal cancer | |
US20220391760A1 (en) | Combining model outputs into a combined model output | |
Neloy et al. | Machine learning based health prediction system using IBM cloud as PaaS | |
Pradhan et al. | Optimizing CNN‐LSTM hybrid classifier using HCA for biomedical image classification | |
Shirazi et al. | Deep learning in the healthcare industry: theory and applications | |
GB2578325A (en) | Computer based object detection within a video or image | |
AU2024204390A1 (en) | Computer based object detection within a video or image | |
Sampath et al. | Ensemble Nonlinear Machine Learning Model for Chronic Kidney Diseases Prediction | |
Shaheen et al. | Classification of images of skin lesion using deep learning | |
WO2023148145A1 (en) | System for forecasting a mental state of a subject and method | |
Mohapatra et al. | Automated invasive cervical cancer disease detection at early stage through deep learning | |
Arefeen et al. | Glysim: Modeling and simulating glycemic response for behavioral lifestyle interventions | |
US20230015122A1 (en) | Aortic stenosis classification | |
Türk et al. | Machine learning of kidney tumors and diagnosis and classification by deep learning methods | |
Rajmohan et al. | G-Sep: A deep learning algorithm for detection of long-term sepsis using bidirectional gated recurrent unit | |
Sundharamurthy et al. | Cloud‐based onboard prediction and diagnosis of diabetic retinopathy | |
CN113470808A (zh) | 一种人工智能预测谵妄的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |