CN114913982A - 基于对比学习的终末期肾病并发症风险预测系统 - Google Patents
基于对比学习的终末期肾病并发症风险预测系统 Download PDFInfo
- Publication number
- CN114913982A CN114913982A CN202210838416.5A CN202210838416A CN114913982A CN 114913982 A CN114913982 A CN 114913982A CN 202210838416 A CN202210838416 A CN 202210838416A CN 114913982 A CN114913982 A CN 114913982A
- Authority
- CN
- China
- Prior art keywords
- complication
- data
- characterization
- risk prediction
- amplification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000020832 chronic kidney disease Diseases 0.000 title claims abstract description 34
- 208000028208 end stage renal disease Diseases 0.000 title claims abstract description 34
- 201000000523 end stage renal failure Diseases 0.000 title claims abstract description 34
- 238000012512 characterization method Methods 0.000 claims abstract description 98
- 230000003321 amplification Effects 0.000 claims abstract description 80
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 80
- 238000013058 risk prediction model Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000012544 monitoring process Methods 0.000 claims abstract description 15
- 208000017169 kidney disease Diseases 0.000 claims abstract description 14
- 238000002360 preparation method Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 62
- 230000004927 fusion Effects 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 33
- 238000010276 construction Methods 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 17
- 238000011524 similarity measure Methods 0.000 claims description 12
- 230000000052 comparative effect Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 11
- 230000003068 static effect Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000008030 elimination Effects 0.000 claims description 8
- 238000003379 elimination reaction Methods 0.000 claims description 8
- 239000003814 drug Substances 0.000 claims description 6
- 229940079593 drug Drugs 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 230000002526 effect on cardiovascular system Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 238000003556 assay Methods 0.000 description 4
- 230000036772 blood pressure Effects 0.000 description 4
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- PNNCWTXUWKENPE-UHFFFAOYSA-N [N].NC(N)=O Chemical compound [N].NC(N)=O PNNCWTXUWKENPE-UHFFFAOYSA-N 0.000 description 2
- 229940109239 creatinine Drugs 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000001631 haemodialysis Methods 0.000 description 2
- 230000000322 hemodialysis Effects 0.000 description 2
- 238000011866 long-term treatment Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002792 vascular Effects 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000502 dialysis Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000035488 systolic blood pressure Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
Abstract
本发明公开了一种基于对比学习的终末期肾病并发症风险预测系统,包括终末期肾病数据准备模块,用于利用医院电子信息系统和日常监测设备提取患者的结构化数据,并对所述结构化数据处理得到扩增结构化数据;并发症风险预测模块,用于构建并发症表征学习模型和并发症风险预测模型,将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征,并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。本发明基于倾向性得分匹配与SMOTE结合,进行数据扩增和正负样本匹配,以扩增结构化的终末期肾病数据,并解决正负样本不均衡的问题;从多个角度防止特征崩溃现象,获得更好的表征效果,从而提高模型性能。
Description
技术领域
本发明涉及一种医疗健康信息技术领域,尤其涉及一种基于对比学习的终末期肾病并发症风险预测系统。
背景技术
终末期肾病病程长,在长期的治疗过程中可能发生多种并发疾病,包括血管通路感染、高血压、冠心病、失眠、抑郁等,严重影响患者生存质量。因此,对终末期肾病并发症进行风险预测及早期干预十分必要。在长期的治疗过程中,医院电子信息系统随时间积累了大量的结构化医疗数据,包含了多维度、多尺度的临床特征以及多种类的结局事件标签。真实场景下的临床数据面临结构复杂、正负样本不均衡、部分类别样本量较少的问题,难以直接应用现有的机器学习方法获得有效的预测结果。当今对比学习已经广泛应用于各个领域,通过对比式的学习架构学习表征从而提升整体模型性能,但是将其应用于终末期肾病并发症风险预测仍然面临一些问题。一方面传统对比学习容易发生特征崩溃问题。自监督式的对比学习的一个弊端在于没有正负样例的修正,非常容易把所有输入映射到同一向量,从而发生特征崩溃问题。即使引入标签数据进行监督学习,虽然嵌入向量不会完全崩溃,但它们仍有可能会沿着特定的维度崩溃,这导致嵌入向量只能在较低维度的子空间中有效。另一方面,传统对比学习面向图像数据和文本数据,其数据扩增方法(如图像的翻转、变色、缩放等操作)并不适用于结构化的医疗数据。
本专利旨在克服现有技术的不足,针对终末期肾病场景下的复杂数据难以融合处理以及标签不均衡等问题,提出一种基于对比学习的终末期肾病并发症风险预测系统,构建终末期肾病并发症风险预测系统,为临床决策提供准确、有效的决策支持。
发明内容
本发明的目的在于提供一种基于对比学习的终末期肾病并发症风险预测系统,解决了现有技术中终末期肾病场景下的复杂数据难以融合处理以及标签不均衡的问题。
本发明采用的技术方案如下:
一种基于对比学习的终末期肾病并发症风险预测系统,包括:
终末期肾病数据准备模块,用于利用医院电子信息系统和日常监测设备提取患者的结构化数据,并对所述结构化数据处理得到扩增结构化数据;
并发症风险预测模块,用于构建并发症表征学习模型和并发症风险预测模型,将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征,并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
进一步地,所述终末期肾病数据准备模块具体包括:
数据获取单元,用于利用医院电子信息系统和日常监测设备提取结构化数据;
数据清洗单元,用于对所述结构化数据进行缺失值处理、错误值的检测、重复数据的消除和/或不一致性的消除操作,得到静态数据、一维时序数据和二维时序数据;
数据融合单元,用于对所述一维时序数据和所述二维时序数据分别采用一维卷积、二维卷积操作得到的一维压缩数据和所述静态数据进行拼接后得到原始融合特征;
数据扩增单元,用于将所述原始融合特征采用倾向性得分匹配与SMOTE相结合的数据扩增方法,得到扩增结构化数据。
进一步地,所述结构化数据包括人口统计学数据、手术数据、用药数据、化验数据、诊断数据和日常监测数据。
进一步地,所述数据扩增单元具体包括:
融合特征组件:用于将发生终末期肾病并发症的患者作为正样本,未发生终末期肾病并发症的患者作为负样本,以所述原始融合特征来表示正样本和负样本,将所述正样本和所述负样本的原始融合特征进行归一化操作,得到融合特征;
倾向性评分组件:用于任意选取所述融合特征的一个维度作为干预变量,所述融合特征的其余维度作为协变量集,通过损失函数优化,得到倾向性评分;
匹配组件:用于所有所述正样本构成正样本全集,所有所述负样本构成负样本全集,所述正样本全集基于所述倾向性评分匹配所述负样本全集中的负样本子集;
正样本扩增组件:用于对所述正样本全集通过SMOTE算法获得扩增正样本,所述正样本全集和所述扩增正样本构成正样本扩增集;
负样本扩增组件:用于对所述负样本子集通过SMOTE算法获得扩增负样本,所述负样本子集和所述扩增负样本构成负样本扩增集;
扩增组件:用于将所述正样本扩增集和所述负样本扩增集共同构成扩增结构化数据。
进一步地,所述并发症风险预测模块具体包括:
并发症表征学习模型构建单元:用于构建并发症表征学习模型;
并发症风险预测模型构建单元:用于构建并发症风险预测模型;
并发症表征学习单元:用于对所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征;
风险预测单元:用于将所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
进一步地,所述并发症表征学习模型构建单元具体包括:
并发症表征学习模型定义组件:用于构建网络结构和总损失函数;
并发症表征学习模型优化组件:用于通过梯度下降法对所述网络结构中的参数进行优化,使得总损失函数达到收敛,完成并发症表征学习模型的构建。
进一步地,所述并发症表征学习模型定义组件具体包括:
参数定义块:用于定义网络结构的超参数,包括编码器和投影器;
特征归一块:用于将所述扩增结构化数据成对的输入至所述编码器,得到初始的并发症表征,所述初始的并发症表征通过所述投影器得到对比表征,所述对比表征经过特征归一化操作得到归一化表征;
总损失定义块:用于利用归一化表征、协方差项、方差项、类别相似度量项和扩增相似度量项构建总损失函数。
进一步地,所述并发症风险预测模型构建单元具体包括:
并发症风险预测模型定义组件:用于定义终末期肾病并发症风险预测网络的网络结构,并选择所述终末期肾病并发症风险预测网络的激活函数和损失函数、优化方法;
并发症风险预测模型优化组件:用于利用优化方法对所述并发症风险预测网络进行训练,完成并发症风险预测模型的构建。
本发明的有益效果是:
1、提出基于倾向性得分的数据扩增和正负样本匹配的方法,以扩增结构化的终末期肾病数据,并解决正负样本不均衡的问题。
2、提出分层对比的学习架构,针对扩增数据、同类别数据、不同类别数据在不同层次进行相似性比较,使用协方差项、方差项、类别相似度量项、扩增相似度量项构建对比损失函数,以更全面的视角从多个角度防止特征崩溃现象,获得好的表征效果,从而提高模型性能。
3、传统倾向性评分匹配方法仅能处理二分类变量,本发明改进了倾向性评分的损失优化方法,使其可以处理连续值的变量。
附图说明
图1为本发明一种基于对比学习的终末期肾病并发症风险预测系统示意图;
图2为本发明一种基于对比学习的终末期肾病并发症风险预测方法流程图;
图3为本发明实施例终末期肾病数据准备模块示意图;
图4为本发明实施例并发症风险预测模块示意图。
具体实施方式
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,一种基于对比学习的终末期肾病并发症风险预测系统,包括:
终末期肾病数据准备模块,用于利用医院电子信息系统和日常监测设备提取患者的结构化数据,并对所述结构化数据处理得到扩增结构化数据;
并发症风险预测模块,用于构建并发症表征学习模型和并发症风险预测模型,将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征,并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
所述终末期肾病数据准备模块具体包括:
数据获取单元,用于利用医院电子信息系统和日常监测设备提取结构化数据;
数据清洗单元,用于对所述结构化数据进行缺失值处理、错误值的检测、重复数据的消除和/或不一致性的消除操作,得到静态数据、一维时序数据和二维时序数据;
数据融合单元,用于对所述一维时序数据和所述二维时序数据分别采用一维卷积、二维卷积操作得到的一维压缩数据和所述静态数据进行拼接后得到原始融合特征;
数据扩增单元,用于将所述原始融合特征采用倾向性得分匹配与SMOTE相结合的数据扩增方法,得到扩增结构化数据。
所述结构化数据包括人口统计学数据、手术数据、用药数据、化验数据、诊断数据和日常监测数据。
所述数据扩增单元具体包括:
融合特征组件:用于将发生终末期肾病并发症的患者作为正样本,未发生终末期肾病并发症的患者作为负样本,以所述原始融合特征来表示正样本和负样本,将所述正样本和所述负样本的原始融合特征进行归一化操作,得到融合特征;
倾向性评分组件:用于任意选取所述融合特征的一个维度作为干预变量,所述融合特征的其余维度作为协变量集,通过损失函数优化,得到倾向性评分;
匹配组件:用于所有所述正样本构成正样本全集,所有所述负样本构成负样本全集,所述正样本全集基于所述倾向性评分匹配所述负样本全集中的负样本子集;
正样本扩增组件:用于对所述正样本全集通过SMOTE算法获得扩增正样本,所述正样本全集和所述扩增正样本构成正样本扩增集;
负样本扩增组件:用于对所述负样本子集通过SMOTE算法获得扩增负样本,所述负样本子集和所述扩增负样本构成负样本扩增集;
扩增组件:用于将所述正样本扩增集和所述负样本扩增集共同构成扩增结构化数据。
所述并发症风险预测模块具体包括:
并发症表征学习模型构建单元:用于构建并发症表征学习模型;
并发症风险预测模型构建单元:用于构建并发症风险预测模型;
并发症表征学习单元:用于对所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征;
风险预测单元:用于将所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
所述并发症表征学习模型构建单元具体包括:
并发症表征学习模型定义组件:用于构建网络结构和总损失函数;
并发症表征学习模型优化组件:用于通过梯度下降法对所述网络结构中的参数进行优化,使得总损失函数达到收敛,完成并发症表征学习模型的构建。
所述并发症表征学习模型定义组件具体包括:
参数定义块:用于定义网络结构的超参数,包括编码器和投影器;
特征归一块:用于将所述扩增结构化数据成对的输入至所述编码器,得到初始的并发症表征,所述初始的并发症表征通过所述投影器得到对比表征,所述对比表征经过特征归一化操作得到归一化表征;
总损失定义块:用于利用归一化表征、协方差项、方差项、类别相似度量项和扩增相似度量项构建总损失函数。
所述并发症风险预测模型构建单元具体包括:
并发症风险预测模型定义组件:用于定义终末期肾病并发症风险预测网络的网络结构,并选择所述终末期肾病并发症风险预测网络的激活函数和损失函数、优化方法;
并发症风险预测模型优化组件:用于利用优化方法对所述并发症风险预测网络进行训练,完成并发症风险预测模型的构建。
参见图2,一种基于对比学习的终末期肾病并发症风险预测方法,包括以下步骤:
步骤S1:利用医院电子信息系统和日常监测设备通过终末期肾病数据准备模块提取患者的结构化数据,并对所述结构化数据处理得到扩增结构化数据;
步骤S2:通过并发症风险预测模块构建并发症表征学习模型和并发症风险预测模型,将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征,并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
实施例:
参见图3,终末期肾病数据准备模块,用于利用医院电子信息系统和日常监测设备提取患者的结构化数据,并对所述结构化数据处理得到扩增结构化数据;
数据获取单元,用于利用医院电子信息系统和日常监测设备提取结构化数据;所述结构化数据包括人口统计学数据、手术数据、用药数据、化验数据、诊断数据和日常监测数据;人口统计学数据:性别、年龄、民族、地区;手术数据:主要是血管通路手术信息;用药数据:透析方案、并发症用药等;化验数据:肌酐、尿素氮等;诊断数据:并发症;日常监测数据:血压、体重等。
数据清洗单元,用于对所述结构化数据进行缺失值处理、错误值的检测、重复数据的消除和/或不一致性的消除操作,得到静态数据、一维时序数据和二维时序数据;数据清洗单元主要筛除不符合常理的脏数据。以血压数据为例,首先筛除包含特殊字符的血压数据。其次,筛除收缩压超过250mmHg或小于60mmHg的数据。
数据融合单元,用于对所述一维时序数据和所述二维时序数据分别采用一维卷积、二维卷积操作得到的一维压缩数据和所述静态数据进行拼接后得到原始融合特征;
数据融合单元主要融合多维度、多尺度的临床结构化数据特征,将之规整为统一结构,方便后续方法使用。结构化数据主要包括性别、年龄等静态数据,肌酐、尿素氮等一维时序数据,以及血压(单次血液透析过程内部、多次血液透析过程之间两个时间维度)等二维时序数据。
数据扩增单元,用于将所述原始融合特征采用倾向性得分匹配与SMOTE相结合的数据扩增方法,得到扩增结构化数据;数据扩增单元主要用于增加样本多样性并解决正负样本不均衡的问题。本发明采用倾向性得分匹配与SMOTE相结合的数据扩增方法,以扩增结构化的终末期肾病数据,并解决正负样本不均衡的问题。
融合特征组件:用于将发生终末期肾病并发症的患者作为正样本,未发生终末期肾病并发症的患者作为负样本,以所述原始融合特征来表示正样本和负样本,将所述正样本和所述负样本的原始融合特征进行归一化操作,得到融合特征;本实施例具体利用发生心血管并发症的患者作为正样本,未发生心血管并发症的患者作为负样本;
对所述正样本和所述负样本进行0-1归一化操作,归一化后样本x的融合特征为
倾向性评分组件:用于任意选取所述融合特征的一个维度作为干预变量,所述融合特征的其余维度作为协变量集,通过损失函数优化,得到倾向性评分;
匹配组件:用于所有所述正样本构成正样本全集,所有所述负样本构成负样本全集,所述正样本全集基于所述倾向性评分匹配所述负样本全集中的负样本子集;
所有所述正样本构成正样本全集记作;所有所述负样本构成负样本全集记作。选择任意所述正样本,所述正样本的融合特征表示为。选择任意特征b作为所述正样本 的干预变量 ,则所述正样本的倾向性评分为 ,基于倾向性评分匹配合适的负样本 ,负样本的融合特征表示为,使得 ,其中 。基于以上匹配方法,匹配选取与正样本全集匹配的负样本子集 。
正样本扩增组件:用于对所述正样本全集通过SMOTE算法获得扩增正样本,所述正样本全集和所述扩增正样本构成正样本扩增集;
在正样本全集中选取与正样本 马氏距离d最近的u个相似样本、、···、。其中样本 与样本 的马氏距离 ,其中 是协方差矩阵,。基于SMOTE算法获得u个扩增正样本 、、···、。扩增正样本 的融合特征表示为( ,,···, ),其中。正样本全集及其扩增正样本构成正样本扩增集。
负样本扩增组件:用于对所述负样本子集通过SMOTE算法获得扩增负样本,所述负样本子集和所述扩增负样本构成负样本扩增集;
负样本 ,在负样本全集中选取与负样本马氏距离d最近的u个相似负样本、、···、。其中负样本与样本的马氏距离,其中 是协方差矩阵,。基于SMOTE算法获得u个扩增负样本 、、···、。扩增负样本的融合特征表示为( ,,···, ),其中 。负样本子集 及其扩增负样本构成负样本扩增集。
扩增组件:用于将所述正样本扩增集和所述负样本扩增集共同构成扩增结构化数据。
参见图4,并发症风险预测模块,用于构建并发症表征学习模型和并发症风险预测模型,将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征,并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
并发症表征学习模型构建单元:用于构建并发症表征学习模型;
并发症表征学习模型定义组件:用于构建网络结构和总损失函数;
将扩增结构化数据成对的输入编码器 ,得到初始的并发症表征,初始的并发症表征经过投影器得到对比表征,对比表征经过特征归一化操作F-norm得到归一化表征。其中 是对比表征Z特征维度的均值, 是对比表征Z特征维度的标准差。
总损失定义块:用于利用归一化表征、协方差项、方差项、类别相似度量项和扩增相似度量项构建总损失函数;
其中N为随机抽样一个批次的正样本量,由于每个正样本匹配一个负样本且各自扩增u个样本, 为扩增后一个批次的样本量,其中包含扩增样本、同类别样本和不同类别样本。对 个样本随机成对抽样构成上文所述成对扩增结构化数据(X,X’)。本发明令 , 。 作为超参数由网格搜索获得最优解。
其中,类别相似度量项度量了整个批次样本成对输入的类别相似性。具体公式为
其中 表示向量 的模, 表示向量 的模, 表示样本i与j之间的余弦距离,表示样本i与k之间的余弦距离。 仅在 时为1,否则为0。表示样本i的类别标签, 表示该终末期肾病患者发生心血管并发症,表示该终末期肾病患者未发生心血管并发症,同理,表示样本i与j同类别。仅在时为1,否则为0; 仅在 时为1,否则为0;仅在 时为1,否则为0。作为损失项,约束同类样本(,,式中分子)的余弦相似度尽可能大,不同类样本(,,式中分母)的余弦相似度尽可能小。
式中 表示样本i的扩增标签,表示样本i和样本j由同一个样本扩增得到, 表示样本i和样本j由不同样本扩增得到。 作为损失项,约束扩增样本( ,,式中分子)的余弦相似度尽可能大,非扩增样本(,,式中分母)的余弦相似度尽可能小。本发明结合类别相似度量项以及扩增相似度量项 ,使得同类别样本在表征空间尽可能近,不同类别样本在表征空间尽可能远离,在此基础之上使扩增样本在表征空间进一步靠近,非扩增样本在表征空间远离,从而达到减少特征崩溃的目的。
并发症表征学习模型优化组件:用于通过梯度下降法对所述网络结构中的参数进行优化,使得总损失函数达到收敛,完成并发症表征学习模型的构建;
通过对比总损失函数L训练编码器 及投影器 ,(以预测心血管并发症为例)目标是获得终末期肾病患者心血管并发症发生相关的对比表征,使得同类别的表征靠近,不同类别的表征远离,扩增样本的表征靠近,非扩增样本表征远离。优化方法可选梯度下降adam法等。
并发症风险预测模型构建单元:用于构建并发症风险预测模型;
并发症风险预测模型定义组件:用于定义终末期肾病并发症风险预测网络的网络结构,并选择所述终末期肾病并发症风险预测网络的激活函数和损失函数、优化方法;
并发症风险预测模型优化组件:用于利用优化方法对所述并发症风险预测网络进行训练,完成并发症风险预测模型的构建。
选择终末期肾病并发症风险预测网络 全连接层的激活函数为relu,输出层的激活函数为sigmoid,损失函数为交叉熵损失函数,优化方法为adam法;利用优化方法adam法对所述并发症风险预测网络的权值参数进行训练,完成并发症风险预测模型的构建。
并发症表征学习单元:用于对所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征;
风险预测单元:用于将所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
以终末期肾病心血管并发症预测为例,样本分批次输入模型。一个批次的样本包含N个正样本(发生心血管并发症)及其uN个扩增正样本,以及匹配的N个负样本及uN个扩增负样本,总计2N(u+1)个样本。标签y=1表示发生心血管并发症,y=0表示未发生心血管并发症。输出为终末期肾病患者发生心血管并发症的概率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于对比学习的终末期肾病并发症风险预测系统,其特征在于,包括:
终末期肾病数据准备模块,用于利用医院电子信息系统和日常监测设备提取患者的结构化数据,并对所述结构化数据处理得到扩增结构化数据;
并发症风险预测模块,用于构建并发症表征学习模型和并发症风险预测模型,将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征,并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
2.如权利要求1所述的一种基于对比学习的终末期肾病并发症风险预测系统,其特征在于,所述终末期肾病数据准备模块具体包括:
数据获取单元,用于利用医院电子信息系统和日常监测设备提取结构化数据;
数据清洗单元,用于对所述结构化数据进行缺失值处理、错误值的检测、重复数据的消除和/或不一致性的消除操作,得到静态数据、一维时序数据和二维时序数据;
数据融合单元,用于对所述一维时序数据和所述二维时序数据分别采用一维卷积、二维卷积操作得到的一维压缩数据和所述静态数据进行拼接后得到原始融合特征;
数据扩增单元,用于将所述原始融合特征采用倾向性得分匹配与SMOTE相结合的数据扩增方法,得到扩增结构化数据。
3.如权利要求1所述的一种基于对比学习的终末期肾病并发症风险预测系统,其特征在于,所述结构化数据包括人口统计学数据、手术数据、用药数据、化验数据、诊断数据和日常监测数据。
4.如权利要求2所述的一种基于对比学习的终末期肾病并发症风险预测系统,其特征在于,所述数据扩增单元具体包括:
融合特征组件:用于将发生终末期肾病并发症的患者作为正样本,未发生终末期肾病并发症的患者作为负样本,以所述原始融合特征来表示正样本和负样本,将所述正样本和所述负样本的原始融合特征进行归一化操作,得到融合特征;
倾向性评分组件:用于任意选取所述融合特征的一个维度作为干预变量,所述融合特征的其余维度作为协变量集,通过损失函数优化,得到倾向性评分;
匹配组件:用于所有所述正样本构成正样本全集,所有所述负样本构成负样本全集,所述正样本全集基于所述倾向性评分匹配所述负样本全集中的负样本子集;
正样本扩增组件:用于对所述正样本全集通过SMOTE算法获得扩增正样本,所述正样本全集和所述扩增正样本构成正样本扩增集;
负样本扩增组件:用于对所述负样本子集通过SMOTE算法获得扩增负样本,所述负样本子集和所述扩增负样本构成负样本扩增集;
扩增组件:用于将所述正样本扩增集和所述负样本扩增集共同构成扩增结构化数据。
5.如权利要求1所述的一种基于对比学习的终末期肾病并发症风险预测系统,其特征在于,所述并发症风险预测模块具体包括:
并发症表征学习模型构建单元:用于构建并发症表征学习模型;
并发症风险预测模型构建单元:用于构建并发症风险预测模型;
并发症表征学习单元:用于对所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征;
风险预测单元:用于将所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
6.如权利要求5所述的一种基于对比学习的终末期肾病并发症风险预测系统,其特征在于,所述并发症表征学习模型构建单元具体包括:
并发症表征学习模型定义组件:用于构建网络结构和总损失函数;
并发症表征学习模型优化组件:用于通过梯度下降法对所述网络结构中的参数进行优化,使得总损失函数达到收敛,完成并发症表征学习模型的构建。
7.如权利要求6所述的一种基于对比学习的终末期肾病并发症风险预测系统,其特征在于,所述并发症表征学习模型定义组件具体包括:
参数定义块:用于定义网络结构的超参数,包括编码器和投影器;
特征归一块:用于将所述扩增结构化数据成对的输入至所述编码器,得到初始的并发症表征,所述初始的并发症表征通过所述投影器得到对比表征,所述对比表征经过特征归一化操作得到归一化表征;
总损失定义块:用于利用归一化表征、协方差项、方差项、类别相似度量项和扩增相似度量项构建总损失函数。
8.如权利要求5所述的一种基于对比学习的终末期肾病并发症风险预测系统,其特征在于,所述并发症风险预测模型构建单元具体包括:
并发症风险预测模型定义组件:用于定义终末期肾病并发症风险预测网络的网络结构,并选择所述终末期肾病并发症风险预测网络的激活函数和损失函数、优化方法;
并发症风险预测模型优化组件:用于利用优化方法对所述并发症风险预测网络进行训练,完成并发症风险预测模型的构建。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210838416.5A CN114913982B (zh) | 2022-07-18 | 2022-07-18 | 基于对比学习的终末期肾病并发症风险预测系统 |
US18/352,216 US11875882B1 (en) | 2022-07-18 | 2023-07-13 | System for predicting end-stage renal disease complication risk based on contrastive learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210838416.5A CN114913982B (zh) | 2022-07-18 | 2022-07-18 | 基于对比学习的终末期肾病并发症风险预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114913982A true CN114913982A (zh) | 2022-08-16 |
CN114913982B CN114913982B (zh) | 2022-10-11 |
Family
ID=82772050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210838416.5A Active CN114913982B (zh) | 2022-07-18 | 2022-07-18 | 基于对比学习的终末期肾病并发症风险预测系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11875882B1 (zh) |
CN (1) | CN114913982B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115719647A (zh) * | 2023-01-09 | 2023-02-28 | 之江实验室 | 融合主动学习和对比学习的血透并发心血管疾病预测系统 |
CN115798711A (zh) * | 2022-12-22 | 2023-03-14 | 之江实验室 | 基于反事实对比学习的慢性肾病诊疗决策支持系统 |
CN116364290A (zh) * | 2023-06-02 | 2023-06-30 | 之江实验室 | 基于多视图对齐的血透表征识别与并发症风险预测系统 |
CN116612886A (zh) * | 2023-05-06 | 2023-08-18 | 广东省人民医院 | 一种脑卒中早期辅助诊断方法、系统、装置及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080146893A1 (en) * | 2006-12-13 | 2008-06-19 | Advanced Brain Monitoring, Inc. | Apnea risk evaluation system - automated prediction of risk for perioperative complications |
CN110827993A (zh) * | 2019-11-21 | 2020-02-21 | 北京航空航天大学 | 基于集成学习的早期死亡风险评估模型建立方法及装置 |
WO2020223434A1 (en) * | 2019-04-30 | 2020-11-05 | The Trustees Of Columbia University In The City Of New York | Classifying neurological disease status using deep learning |
CN111933284A (zh) * | 2020-09-27 | 2020-11-13 | 平安科技(深圳)有限公司 | 一种并发症风险预测系统、方法、装置、设备及介质 |
CN112036515A (zh) * | 2020-11-04 | 2020-12-04 | 北京淇瑀信息科技有限公司 | 基于smote算法的过采样方法、装置和电子设备 |
CN112508580A (zh) * | 2021-02-03 | 2021-03-16 | 北京淇瑀信息科技有限公司 | 基于拒绝推断方法的模型构建方法、装置和电子设备 |
CN112530594A (zh) * | 2021-02-08 | 2021-03-19 | 之江实验室 | 一种基于卷积生存网络的血透并发症长期风险预测系统 |
CN113178258A (zh) * | 2021-04-28 | 2021-07-27 | 青岛百洋智能科技股份有限公司 | 外科手术术前风险评估方法及系统 |
CN114386454A (zh) * | 2021-12-09 | 2022-04-22 | 首都医科大学附属北京友谊医院 | 基于信号混合策略的医疗时序信号数据处理方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10978176B2 (en) * | 2018-06-29 | 2021-04-13 | pulseData Inc. | Machine learning systems and methods for predicting risk of renal function decline |
US11610679B1 (en) * | 2020-04-20 | 2023-03-21 | Health at Scale Corporation | Prediction and prevention of medical events using machine-learning algorithms |
-
2022
- 2022-07-18 CN CN202210838416.5A patent/CN114913982B/zh active Active
-
2023
- 2023-07-13 US US18/352,216 patent/US11875882B1/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080146893A1 (en) * | 2006-12-13 | 2008-06-19 | Advanced Brain Monitoring, Inc. | Apnea risk evaluation system - automated prediction of risk for perioperative complications |
WO2020223434A1 (en) * | 2019-04-30 | 2020-11-05 | The Trustees Of Columbia University In The City Of New York | Classifying neurological disease status using deep learning |
CN110827993A (zh) * | 2019-11-21 | 2020-02-21 | 北京航空航天大学 | 基于集成学习的早期死亡风险评估模型建立方法及装置 |
CN111933284A (zh) * | 2020-09-27 | 2020-11-13 | 平安科技(深圳)有限公司 | 一种并发症风险预测系统、方法、装置、设备及介质 |
CN112036515A (zh) * | 2020-11-04 | 2020-12-04 | 北京淇瑀信息科技有限公司 | 基于smote算法的过采样方法、装置和电子设备 |
CN112508580A (zh) * | 2021-02-03 | 2021-03-16 | 北京淇瑀信息科技有限公司 | 基于拒绝推断方法的模型构建方法、装置和电子设备 |
CN112530594A (zh) * | 2021-02-08 | 2021-03-19 | 之江实验室 | 一种基于卷积生存网络的血透并发症长期风险预测系统 |
CN113178258A (zh) * | 2021-04-28 | 2021-07-27 | 青岛百洋智能科技股份有限公司 | 外科手术术前风险评估方法及系统 |
CN114386454A (zh) * | 2021-12-09 | 2022-04-22 | 首都医科大学附属北京友谊医院 | 基于信号混合策略的医疗时序信号数据处理方法 |
Non-Patent Citations (2)
Title |
---|
THAI-HOANG PHAM: "Cardiac Complication Risk Profiling for Cancer Survivors via Multi-View Multi-Task Learning", 《2021 IEEE INTERNATIONAL CONFERENCE ON DATA MINING (ICDM)》 * |
文朝晖等: "糖尿病终末期肾病长期血液透析预后因素的Cox模型分析", 《现代医院》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115798711A (zh) * | 2022-12-22 | 2023-03-14 | 之江实验室 | 基于反事实对比学习的慢性肾病诊疗决策支持系统 |
CN115798711B (zh) * | 2022-12-22 | 2023-08-29 | 之江实验室 | 基于反事实对比学习的慢性肾病诊疗决策支持系统 |
CN115719647A (zh) * | 2023-01-09 | 2023-02-28 | 之江实验室 | 融合主动学习和对比学习的血透并发心血管疾病预测系统 |
CN116612886A (zh) * | 2023-05-06 | 2023-08-18 | 广东省人民医院 | 一种脑卒中早期辅助诊断方法、系统、装置及存储介质 |
CN116364290A (zh) * | 2023-06-02 | 2023-06-30 | 之江实验室 | 基于多视图对齐的血透表征识别与并发症风险预测系统 |
CN116364290B (zh) * | 2023-06-02 | 2023-09-08 | 之江实验室 | 基于多视图对齐的血透表征识别与并发症风险预测系统 |
Also Published As
Publication number | Publication date |
---|---|
US11875882B1 (en) | 2024-01-16 |
CN114913982B (zh) | 2022-10-11 |
US20240021312A1 (en) | 2024-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114913982B (zh) | 基于对比学习的终末期肾病并发症风险预测系统 | |
Pereira et al. | COVID-19 identification in chest X-ray images on flat and hierarchical classification scenarios | |
Cervantes-Sanchez et al. | Automatic segmentation of coronary arteries in X-ray angiograms using multiscale analysis and artificial neural networks | |
Feng et al. | Deep manifold preserving autoencoder for classifying breast cancer histopathological images | |
Hassan et al. | Plant disease identification using shallow convolutional neural network | |
Roy et al. | Computer aided breast cancer detection using ensembling of texture and statistical image features | |
Mohanty et al. | Using deep learning architectures for detection and classification of diabetic retinopathy | |
Guo et al. | Interstitial lung disease classification using improved DenseNet | |
CN116364299B (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
Estiri et al. | Semi-supervised encoding for outlier detection in clinical observation data | |
WO2021008601A1 (zh) | 一种医学数据的检验方法 | |
Mavrogiorgou et al. | A catalogue of machine learning algorithms for healthcare risk predictions | |
Das et al. | Automated classification of retinal OCT images using a deep multi-scale fusion CNN | |
CN111986814A (zh) | 一种红斑狼疮患者的狼疮性肾炎预测模型的建模方法 | |
Botros et al. | Cnn and svm-based models for the detection of heart failure using electrocardiogram signals | |
Huang et al. | Predicting CT-based coronary artery disease using vascular biomarkers derived from fundus photographs with a graph convolutional neural network | |
Mayrose et al. | Machine learning-based detection of dengue from blood smear images utilizing platelet and lymphocyte characteristics | |
Tirado-Martin et al. | BioECG: Improving ECG biometrics with deep learning and enhanced datasets | |
CN114528419A (zh) | 一种中医智能病案推荐方法及推荐系统 | |
Yildirim et al. | Automatic classification of particles in the urine sediment test with the developed artificial intelligence-based hybrid model | |
Ataky et al. | Multiscale analysis for improving texture classification | |
Akinniyi et al. | Multi-stage classification of retinal OCT using multi-scale ensemble deep architecture | |
Rivera-Romero et al. | Optimal image characterization for in-bed posture classification by using SVM algorithm | |
He et al. | Research on Retinal Vessel Segmentation Algorithm Based on a Modified U-Shaped Network | |
Shivanna et al. | IoMT-based automated diagnosis of autoimmune diseases using multistage classification scheme for sustainable smart cities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |