CN117409978A - 一种疾病预测模型构建方法、系统、装置及可读存储介质 - Google Patents
一种疾病预测模型构建方法、系统、装置及可读存储介质 Download PDFInfo
- Publication number
- CN117409978A CN117409978A CN202311723646.8A CN202311723646A CN117409978A CN 117409978 A CN117409978 A CN 117409978A CN 202311723646 A CN202311723646 A CN 202311723646A CN 117409978 A CN117409978 A CN 117409978A
- Authority
- CN
- China
- Prior art keywords
- patient
- overtime
- prediction model
- disease prediction
- disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 89
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 89
- 238000010276 construction Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000009467 reduction Effects 0.000 claims abstract description 15
- 238000011282 treatment Methods 0.000 claims abstract description 14
- 238000012847 principal component analysis method Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 206010025482 malaise Diseases 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000000513 principal component analysis Methods 0.000 claims description 2
- 238000011946 reduction process Methods 0.000 claims 1
- 238000011161 development Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000003745 diagnosis Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000036541 health Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 1
- 208000037919 acquired disease Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提出的一种疾病预测模型构建方法、系统、装置及可读存储介质,属于人工智能技术领域。所述方法包括:采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络;引入朴素贝叶斯模型计算生活作息对患病风险的影响,并将其作为增强图的节点扰动概率;引入图对比学习框架构建疾病预测模型。本发明强化了模型对图数据结构关键特征的捕获能力,提高了预测准确率,并增强了模型对新数据的适应性;采用朴素贝叶斯模型增加了疾病预测模型的可解释性,能够更好地适应智能医疗快速发展的需求。
Description
技术领域
本发明涉及人工智能技术领域,更具体的说是涉及一种疾病预测模型构建方法、系统、装置及可读存储介质。
背景技术
当前,伴随着物联网、人工智能等新一代信息技术在医疗领域渗透与应用,医疗健康数据量呈现前所未有的指数级增长。基因组学、生物标志物、电子健康记录以及可穿戴设备的数据都成为了洞察患者健康状况、辅助诊断并推动医疗服务智能化的宝贵资产。随着机器学习技术的应用,对这些海量数据进行挖掘已成为可能,根据患者历史医疗健康数据建模疾病进程,预测患者患病的可能性,从而实现早期预警和干预,已引起医学界、计算机科学界的重点关注。
传统的疾病诊断过程是一个高度依赖于医生个人知识和经验的系统,这种方法在一定程度上受限于医生的主观经验和直觉,而且在面对疑难杂症时可能效率低下,诊断周期长。
相对而言,机器学习尤其是深度学习的出现,为疾病诊断提供了一种新的视角。深度学习模型,特别是构建在大数据基础上的模型,能够快速处理庞大和复杂的数据集,通过训练,这些模型可以识别和学习数据中的模式和关联,从而提供快速准确的辅助诊断建议。在临床实践中,更多的深度学习模型被用来构建疾病诊断预测模型,提供诊断辅助信息,帮助医生在诊断和治疗策略选择中作出更加明智的决定。但是,大多数利用机器学习构建的疾病预测模型往往缺乏透明度和解释性,这对于医疗领域的接受度和信任度构成挑战。
发明内容
针对以上问题,本发明的目的在于提供一种疾病预测模型构建方法、系统、装置及可读存储介质,强化了模型对图数据结构关键特征的捕获能力,提高了预测准确率,并增强了模型对新数据的适应性;采用朴素贝叶斯模型增加了疾病预测模型的可解释性,能够更好地适应智能医疗快速发展的需求。
本发明为实现上述目的,通过以下技术方案实现:一种疾病预测模型构建方法,包括:
采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络图;
利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率;利用节点扰动生成加班增强图和不加班增强图/>;将生成的两个增强图/>和/>作为图对比学习框架的输入,并进行对比学习;
利用图神经网络学习原图、加班增强图和不加班增强图/>的节点表示,进而在图对比学习训练过程中引入对比损失函数对构建的疾病预测模型进行预训练,以捕捉患者之间潜在的共性特征。
进一步,所述采用PCA主成分分析法对临床指标数据进行降维处理包括:
利用标准化处理公式将临床指标特征转换为标准特征/>,并生成数据矩阵Z;标准化处理公式为:
其中,为第i个患者的临床指标特征,/>是特征值/>的均值,/>是特征值/>的标准差;
相应的,协方差矩阵中的元素可计算为:
其中,n为样本数量,是矩阵Z中第i个样本的第j个特征值,/>是第j个特征的平均值;/>是矩阵Z中第i个样本的第k个特征值,/>是第k个特征的平均值;
根据如下公式对协方差矩阵的特征进行分解:
其中,是协方差矩阵/>的特征向量,/>是对应的特征值;
在分解后的特征在中,选择最大的k个特征值及其对应的特征向量A1,A2,...,Ak,构成投影矩阵H=[A1,A2,...,Ak];
根据公式将原始临床数据I通过投影矩阵H转换到新的特征空间;
其中,X是降维后的临床指标数据矩阵,每一行是原始数据在主成分空间中的表示。
进一步,所述构建患者共病网络图,包括:
融合患者历史患病数据以及降维后的临床指标特征X,构建患者共病网络图;
定义第i个患者的历史患病情况为,其表示患者患过某种疾病;
具有N个患者的共病网络图可表示为无向图={/>,/>, X},其中,节点集/>表示N个患者集合,特征集X表示降维后的临床指标特征集,边集/>表示患者相关关系,若存在 ,则
其中,vi表示第i个患者,vj表示第j个患者,Ci表示第i个患者的历史患病情况,Cj表示第j个患者的历史患病情况,当 =1时,表示两个患者患有至少一种相同的疾病。
进一步,所述利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率,包括:
定义每位患者的生活作息为;其中,k=1或2,k=1时代表加班,k=2时代表不加班;
选择N个患者构建的原始患者共病网络图={/>,/>, X},计算原图中患者生活作息对患病风险的影响;
根据训练集分别计算原图={/>,/>, X}中生活作息先验概率P(Dk)和不考虑生活作息情况下患病情况的先验概率P(Ci);
已知患病情况下生活作息的条件概率为P(Dk│Ci),在朴素贝叶斯中,假设特征独立,则利用贝叶斯公式获得后验概率为:
其中,后验概率P(Ci│Dk)表示在观察某个患者加班或者不加班的情况下,该患者患病的概率。
进一步,所述利用节点扰动生成增强图和/>,包括:
基于加班增加患病风险的假设,利用患者P(Ci│D1)表示加班情况下患病的概率作为节点扰动的选择机制;通过选择邻域节点集中n个P(Ci│D1)较大的节点,增强患者共病网络图在加班情况下的表征,以生成增强图;
利用P(Ci│D2)表示不加班情况下患者的概率作为节点扰动的选择机制;通过删除n个P(Ci│D2)较大的节点,增强患者共病网络在不加班情况下的表征,以生成增强图。
相应的,本发明还公开了一种疾病预测模型构建系统,包括:
网络构建模块,配置用于采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络图;
扰动概率生成模块,配置用于利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率;利用节点扰动生成加班增强图和不加班增强图/>;将生成的两个增强图/>和/>作为图对比学习框架的输入,并进行对比学习;
模型构建模块,配置用于利用图神经网络学习原图、加班增强图和不加班增强图/>的节点表示,进而在图对比学习训练过程中引入对比损失函数对构建的疾病预测模型进行预训练,以捕捉患者之间潜在的共性特征。
相应的,本发明公开了一种疾病预测模型构建装置,包括:
存储器,用于存储疾病预测模型构建程序;
处理器,用于执行所述疾病预测模型构建程序时实现如上文任一项所述疾病预测模型构建方法的步骤。
相应的,本发明公开了一种可读存储介质,所述可读存储介质上存储有疾病预测模型构建程序,所述疾病预测模型构建程序被处理器执行时实现如上文任一项所述疾病预测模型构建方法的步骤。
对比现有技术,本发明有益效果在于:本发明公开了一种疾病预测模型构建方法、系统、装置及可读存储介质,通过引入基于朴素贝叶斯模型的节点扰动机制,专注于评估患者的生活作息(加班、不加班)对患病概率的影响,从而生成多样的增强图样本,增强模型的泛化能力和可解释性;利用图对比学习框架,训练图神经网络处理扰动样本,挖掘样本的深层特征,以此构建一个可靠的疾病预测模型。本发明所构建的基本预测模型,能够深入挖掘患者医疗健康数据的内在联系,捕捉患者之间潜在的共性特征,提高了编码器学习患者表征的能力。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明具体实施方式的方法流程图;
图2是本发明具体实施方式的系统结构图。
图中,1、网络构建模块;2、扰动概率生成模块;3、模型构建模块。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,本实施例提供了一种疾病预测模型构建方法,包括如下步骤:
S1:采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络图。
作为示例的,利用英国生物银行统计的患者数据构建患者疾病关联图,其中包括5000位患者历史患糖尿病、心脏病、高血压的数据、250种临床指标数据、3种生活作息方式(加班、不加班)。首先采用PCA主成分分析法对250种临床指标数据进行降维处理,从而得到每位患者的3个主要特征,进而构建患者共病网络。
S2:引入朴素贝叶斯模型计算生活作息对患病风险的影响,并将其作为增强图的节点扰动概率。
根据现有研究表明,不规律的生活作息会增加患病风险,因此,我们提出加班增加患病风险的假设。基于此,为了增加模型的可解释性以及预测准确度,我们引入朴素贝叶斯模型计算生活作息(加班、不加班)对患病风险的影响,并将其作为增强图的节点扰动概率。
S3:引入图对比学习框架构建疾病预测模型。
具体的,利用图神经网络(GNN)学习原图和增强图的节点表示,进而在图对比学习训练过程中引入对比损失函数对模型进行预训练,深入挖掘患者医疗健康数据的内在联系,捕捉患者之间潜在的共性特征,提高编码器学习患者表征的能力
在具体实施方式中,图1所示实施例中的步骤S1,还包括但不限于有如下步骤:
S101:利用PCA主成分分析法处理临床指标数据。
本步骤的具体过程如下:
数据标准化。对于第i个患者的临床指标特征,标准化处理公式为:
其中,是特征值/>的均值,/>是特征值/>的标准差。
如果Z是标准化后的数据矩阵,协方差矩阵中的元素可计算为:
其中,n为样本数量,是矩阵Z中第i个样本的第j个特征值,/>是第j个特征的平均值;/>是矩阵Z中第i个样本的第k个特征值,/>是第k个特征的平均值。
协方差矩阵的特征分解公式为:
其中,是协方差矩阵/>的特征向量,/>是对应的特征值。
选择最大的k个特征值及其对应的特征向量A1,A2,...,Ak。投影矩阵H的列由选择的特征向量构成,H=[A1,A2,...,Ak]。
最后,原始临床数据I通过投影矩阵H转换到新的特征空间:
其中,X是降维后的临床指标数据矩阵,每一行是原始数据在主成分空间中的表示。
S102:构建患者共病网络图。
本步骤的具体流程如下:
融合患者历史患病数据以及降维后的临床指标特征X,构建患者共病网络图。
定义第i个患者的历史患病情况为,其表示患者患过某种疾病;具有N个患者的共病网络图可表示为无向图/>={/>,/>, X},其中,节点集/>表示N个患者集合,特征集X表示降维后的临床指标特征集,边集/>表示患者相关关系,若存在/> ,则
其中,vi表示第i个患者,vj表示第j个患者,Ci表示第i个患者的历史患病情况,Cj表示第j个患者的历史患病情况,当 =1时,表示两个患者患有至少一种相同的疾病。
在具体实施方式中,图1所示实施例中的步骤S2,还包括但不限于有如下步骤:
S201: 利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率。
首先,定义每位患者的生活作息为,选择N个患者构建的原始患者共病网络图/>={/>,/>, X},计算原图中患者生活作息对患病风险的影响。
然后,根据训练集分别计算原图={/>,/>, X}中生活作息(加班、不加班)先验概率P(Dk)和不考虑生活作息情况下患病情况的先验概率P(Ci)。
此时,已知患病情况下生活作息的条件概率为P(Dk│Ci),在朴素贝叶斯中,常假设特征独立,则利用贝叶斯公式获得后验概率为:
其中,后验概率P(Ci│Dk)表示在观察某个患者加班(或者不加班)的情况下,该患者患病的概率。
S202:利用节点扰动生成增强图和/>。
节点增加生成增强图。基于加班增加患病风险的假设,利用患者P(Ci│D1)表示加班情况下患病的概率作为节点扰动的选择机制,此时,选择邻域节点集中n个P(Ci│D1)较大的节点,增强患者共病网络图在加班情况下的表征。
节点删除生成增强图。利用P(Ci│D2)表示不加班情况下患者的概率作为节点扰动的选择机制。此时,删除n个P(Ci│D2)较大的节点,增强患者共病网络在不加班情况下的表征。
S203:生成的两个增强图和/>作为图对比学习框架的输入进行对比学习。
在具体实施方式中,图1所示实施例中的步骤S3,还包括但不限于有如下步骤:
S301: 对于给定图使用数据增强生成两个视图作为正样本对,满足:,其/>中是基于原始图/>条件下的增强图。
其中,k=1,2。
S302:基于GNN的自编码器用于提取图级别的向量表示/>,/>。
具体来说:
令增强图,其中/>作为特征矩阵,/>为节点/>的N维属性向量。考虑k层GNN/>,则第k层的传播表示为:
其中,k是网络层数,n是第k层中的节点数,是第k-1层中的节点数,/>是顶点在第 k 层的嵌入,N(n)是与/>相邻的顶点集合,/>和是 GNN 层的组成函数。
S303:在k层传播之后,两个增强图的输出嵌入通过 READOUT 函数汇总在嵌入测层上。
然后采用两层感知器(MLP)进行图级下游回归任务:
S304:将增广表示映射到一个计算对比损失的潜在空间。
具体的,定义对比损失函数来强制最大化正样本对/>,/>之间的一致性。利用NT-Xent损失函数训练模型。
其中,/>是余弦相似度函数,/>表示第负样本对,/>表示温度参数。通过最小化损失函数,识别出相似患者的共性,保留不相似患者的判别信息,更好地学习患者表征。
需要特别说明的是,图对比学习模型通过自监督学习方法,以一种可解释的方式捕捉图结构数据的复杂性,并将其转化为有意义的特征表示。这些表示不仅丰富了图的信息内容,而且增强了模型对下游任务的预测能力。此外,图对比学习模型包含了一系列的数据增强技术,例如,节点扰动、边扰动、属性扰动等,这些技术通过生成图的多个变体来增强学习过程,而这些变体在保持图结构核心属性不变的同时,提供了一致性的视图。这种一致性是模型学习过程的关键,因为它强化了特征的泛化能力,并帮助解释模型如何识别和区分图中的不同模式。
由此可见,本发明提供了一种疾病预测模型构建方法,针对现有大多数利用机器学习构建的疾病预测模型往往缺乏透明度和解释性,利用医疗健康数据建模可解释性的疾病进展模式,构建了能够预测患者未来的健康状况的疾病预测模型,为辅助医生诊断决策提供帮助。首先,通过整合患者多源数据,包括历史疾病诊断数据和临床指标数据构建患者共病网络;再引入基于朴素贝叶斯模型的节点扰动机制,专注于评估患者的生活作息(加班、不加班)对患病概率的影响,从而生成多样的增强图样本;最后利用这些样本训练图神经网络,该网络在对比学习框架内优化,挖掘经扰动样本的深层特征,以此构建一个可靠的疾病预测模型。本方法强化了模型对图数据结构关键特征的捕获能力,提高了预测准确率,并增强了模型对新数据的适应性;同时本方法采用朴素贝叶斯模型增加了疾病预测模型的可解释性,能够更好地适应智能医疗快速发展的需求。
参见图2所示,本发明还公开了一种疾病预测模型构建系统,包括:网络构建模块1、扰动概率生成模块2和模型构建模块3。
网络构建模块1,配置用于采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络图。
扰动概率生成模块2,配置用于引入朴素贝叶斯模型计算生活作息对患病风险的影响,并将其作为增强图的节点扰动概率。
模型构建模块3,配置用于引入图对比学习框架构建疾病预测模型。
本实施例的疾病预测模型构建系统的具体实施方式与上述疾病预测模型构建方法的具体实施方式基本一致,在此不再赘述。
本发明还公开了一种疾病预测模型构建装置,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的疾病预测模型构建程序时实现如上文任一项所述疾病预测模型构建方法的步骤。
进一步的,本实施例中的疾病预测模型构建装置,还可以包括:
输入接口,用于获取外界导入的疾病预测模型构建程序,并将获取到的疾病预测模型构建程序保存至所述存储器中,还可以用于获取外界终端设备传输的各种指令和参数,并传输至处理器中,以便处理器利用上述各种指令和参数展开相应的处理。本实施例中,所述输入接口具体可以包括但不限于USB接口、串行接口、语音输入接口、指纹输入接口、硬盘读取接口等。
输出接口,用于将处理器产生的各种数据输出至与其相连的终端设备,以便于与输出接口相连的其他终端设备能够获取到处理器产生的各种数据。本实施例中,所述输出接口具体可以包括但不限于USB接口、串行接口等。
通讯单元,用于在疾病预测模型构建装置和外部服务器之间建立远程通讯连接,以便于疾病预测模型构建装置能够将镜像文件挂载到外部服务器中。本实施例中,通讯单元具体可以包括但不限于基于无线通讯技术或有线通讯技术的远程通讯单元。
键盘,用于获取用户通过实时敲击键帽而输入的各种参数数据或指令。
显示器,用于运行疾病预测模型构建过程的相关信息进行实时显示。
鼠标,可以用于协助用户输入数据并简化用户的操作。
本发明还公开了一种可读存储介质,这里所说的可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM或技术领域内所公知的任意其他形式的存储介质。可读存储介质中存储有疾病预测模型构建程序,所述疾病预测模型构建程序被处理器执行时实现如上文任一项所述疾病预测模型构建方法的步骤。
综上所述,本发明强化了模型对图数据结构关键特征的捕获能力,提高了预测准确率,并增强了模型对新数据的适应性;采用朴素贝叶斯模型增加了疾病预测模型的可解释性,能够更好地适应智能医疗快速发展的需求。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的系统相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。
同理,在本发明各个实施例中的各处理单元可以集成在一个功能模块中,也可以是各个处理单元物理存在,也可以两个或两个以上处理单元集成在一个功能模块中。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的疾病预测模型构建方法、系统、装置及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (8)
1.一种疾病预测模型构建方法,其特征在于,包括:
采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络图;
利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率;利用节点扰动生成加班增强图和不加班增强图/>;将生成的两个增强图 />和/>作为图对比学习框架的输入,并进行对比学习;
利用图神经网络学习原图、加班增强图和不加班增强图/>的节点表示,进而在图对比学习训练过程中引入对比损失函数对构建的疾病预测模型进行预训练,以捕捉患者之间潜在的共性特征。
2.根据权利要求1所述的疾病预测模型构建方法,其特征在于,所述采用PCA主成分分析法对临床指标数据进行降维处理包括:
利用标准化处理公式将临床指标特征转换为标准特征/>,并生成数据矩阵Z;标准化处理公式为:
其中,为第i个患者的临床指标特征,/>是特征值/>的均值,/>是特征值/>的标准差;
相应的,协方差矩阵中的元素可计算为:
其中,n为样本数量,是矩阵Z中第i个样本的第j个特征值,/>是第j个特征的平均值;/>是矩阵Z中第i个样本的第k个特征值,/>是第k个特征的平均值;
根据如下公式对协方差矩阵的特征进行分解:
其中,是协方差矩阵/>的特征向量,/>是对应的特征值;
在分解后的特征在中,选择最大的k个特征值及其对应的特征向量A1,A2,...,Ak,构成投影矩阵H=[A1,A2,...,Ak];
根据公式将原始临床数据I通过投影矩阵H转换到新的特征空间;
其中,X是降维后的临床指标数据矩阵,每一行是原始数据在主成分空间中的表示。
3.根据权利要求2所述的疾病预测模型构建方法,其特征在于,所述构建患者共病网络图,包括:
融合患者历史患病数据以及降维后的临床指标特征X,构建患者共病网络图;
定义第i个患者的历史患病情况为,其表示患者患过某种疾病;
具有N个患者的共病网络图可表示为无向图={/>,/>, X},其中,节点集/>表示N个患者集合,特征集X表示降维后的临床指标特征集,边集/>表示患者相关关系,若存在/> ,则
其中,vi表示第i个患者,vj表示第j个患者,Ci表示第i个患者的历史患病情况,Cj表示第j个患者的历史患病情况,当 =1时,表示两个患者患有至少一种相同的疾病。
4.根据权利要求3所述的疾病预测模型构建方法,其特征在于,所述利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率,包括:
定义每位患者的生活作息为;其中,k=1或2,k=1时代表加班,k=2时代表不加班;
选择N个患者构建的原始患者共病网络图={/>,/>, X},计算原图中患者生活作息对患病风险的影响;
根据训练集分别计算原图={/>,/>, X}中生活作息先验概率P(Dk)和不考虑生活作息情况下患病情况的先验概率P(Ci);
已知患病情况下生活作息的条件概率为P(Dk│Ci),在朴素贝叶斯中,假设特征独立,则利用贝叶斯公式获得后验概率为:
其中,后验概率P(Ci│Dk)表示在观察某个患者加班或者不加班的情况下,该患者患病的概率。
5.根据权利要求4所述的疾病预测模型构建方法,其特征在于,所述利用节点扰动生成增强图和/>,包括:
基于加班增加患病风险的假设,利用患者P(Ci│D1)表示加班情况下患病的概率作为节点扰动的选择机制;通过选择邻域节点集中n个P(Ci│D1)较大的节点,增强患者共病网络图在加班情况下的表征,以生成增强图;
利用P(Ci│D2)表示不加班情况下患者的概率作为节点扰动的选择机制;通过删除n个P(Ci│D2)较大的节点,增强患者共病网络在不加班情况下的表征,以生成增强图。
6.一种疾病预测模型构建系统,其特征在于,包括:
网络构建模块,配置用于采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络图;
扰动概率生成模块,配置用于利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率;利用节点扰动生成加班增强图和不加班增强图/>;将生成的两个增强图 />和/>作为图对比学习框架的输入,并进行对比学习;
模型构建模块,配置用于利用图神经网络学习原图、加班增强图和不加班增强图/>的节点表示,进而在图对比学习训练过程中引入对比损失函数对构建的疾病预测模型进行预训练,以捕捉患者之间潜在的共性特征。
7.一种疾病预测模型构建装置,其特征在于,包括:
存储器,用于存储疾病预测模型构建程序;
处理器,用于执行所述疾病预测模型构建程序时实现如权利要求1至5任一项权利要求所述的疾病预测模型构建方法的步骤。
8.一种可读存储介质,其特征在于:所述可读存储介质上存储有疾病预测模型构建程序,所述疾病预测模型构建程序被处理器执行时实现如权利要求1至5任一项权利要求所述的疾病预测模型构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311723646.8A CN117409978B (zh) | 2023-12-15 | 2023-12-15 | 一种疾病预测模型构建方法、系统、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311723646.8A CN117409978B (zh) | 2023-12-15 | 2023-12-15 | 一种疾病预测模型构建方法、系统、装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117409978A true CN117409978A (zh) | 2024-01-16 |
CN117409978B CN117409978B (zh) | 2024-04-19 |
Family
ID=89492957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311723646.8A Active CN117409978B (zh) | 2023-12-15 | 2023-12-15 | 一种疾病预测模型构建方法、系统、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409978B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016168354A1 (en) * | 2015-04-13 | 2016-10-20 | uBiome, Inc. | Method and system for microbiome-derived diagnostics and therapeutics for conditions associated with microbiome functional features |
CN108624682A (zh) * | 2017-03-24 | 2018-10-09 | 达易特基因科技股份有限公司 | 罹癌风险评估方法 |
CN109033747A (zh) * | 2018-07-20 | 2018-12-18 | 福建师范大学福清分校 | 一种基于pls多扰动集成基因选择及肿瘤特异基因子集的识别方法 |
CN109300017A (zh) * | 2018-10-27 | 2019-02-01 | 平安科技(深圳)有限公司 | 基于数据分析的保单推荐方法、装置、服务器及存储介质 |
US20190191988A1 (en) * | 2016-09-02 | 2019-06-27 | Spect Inc. | Screening method for automated detection of vision-degenerative diseases from color fundus images |
CN110634557A (zh) * | 2019-08-23 | 2019-12-31 | 广东省智能制造研究所 | 一种基于深度神经网络的医护资源辅助调配方法及系统 |
CN115705922A (zh) * | 2021-08-13 | 2023-02-17 | 佛山市顺德区美的电热电器制造有限公司 | 健康管理方法及其装置和烹饪器具 |
CN116072298A (zh) * | 2023-04-06 | 2023-05-05 | 之江实验室 | 一种基于层级标记分布学习的疾病预测系统 |
CN116364274A (zh) * | 2023-03-16 | 2023-06-30 | 山西医科大学 | 基于因果推断和动态集成多标签的疾病预测方法及系统 |
CN116797817A (zh) * | 2023-04-17 | 2023-09-22 | 北京工商大学 | 基于自监督图卷积模型的自闭症疾病预测技术 |
-
2023
- 2023-12-15 CN CN202311723646.8A patent/CN117409978B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016168354A1 (en) * | 2015-04-13 | 2016-10-20 | uBiome, Inc. | Method and system for microbiome-derived diagnostics and therapeutics for conditions associated with microbiome functional features |
US20190191988A1 (en) * | 2016-09-02 | 2019-06-27 | Spect Inc. | Screening method for automated detection of vision-degenerative diseases from color fundus images |
CN108624682A (zh) * | 2017-03-24 | 2018-10-09 | 达易特基因科技股份有限公司 | 罹癌风险评估方法 |
CN109033747A (zh) * | 2018-07-20 | 2018-12-18 | 福建师范大学福清分校 | 一种基于pls多扰动集成基因选择及肿瘤特异基因子集的识别方法 |
CN109300017A (zh) * | 2018-10-27 | 2019-02-01 | 平安科技(深圳)有限公司 | 基于数据分析的保单推荐方法、装置、服务器及存储介质 |
CN110634557A (zh) * | 2019-08-23 | 2019-12-31 | 广东省智能制造研究所 | 一种基于深度神经网络的医护资源辅助调配方法及系统 |
CN115705922A (zh) * | 2021-08-13 | 2023-02-17 | 佛山市顺德区美的电热电器制造有限公司 | 健康管理方法及其装置和烹饪器具 |
CN116364274A (zh) * | 2023-03-16 | 2023-06-30 | 山西医科大学 | 基于因果推断和动态集成多标签的疾病预测方法及系统 |
CN116072298A (zh) * | 2023-04-06 | 2023-05-05 | 之江实验室 | 一种基于层级标记分布学习的疾病预测系统 |
CN116797817A (zh) * | 2023-04-17 | 2023-09-22 | 北京工商大学 | 基于自监督图卷积模型的自闭症疾病预测技术 |
Non-Patent Citations (1)
Title |
---|
张蔚基: "基于知识图谱的医疗自诊系统", 中国优秀硕士学位论文全文数据库 (医药卫生科技辑), no. 12, 15 December 2022 (2022-12-15), pages 054 - 44 * |
Also Published As
Publication number | Publication date |
---|---|
CN117409978B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11257579B2 (en) | Systems and methods for managing autoimmune conditions, disorders and diseases | |
CN117253614B (zh) | 基于大数据分析的糖尿病风险预警方法 | |
CN111666477A (zh) | 一种数据处理方法、装置、智能设备及介质 | |
CN117457217B (zh) | 一种糖尿病肾病风险评估方法及系统 | |
Moreira et al. | Evolutionary radial basis function network for gestational diabetes data analytics | |
CN113673244B (zh) | 医疗文本处理方法、装置、计算机设备和存储介质 | |
CN102405473A (zh) | 医护点动作医疗系统和方法 | |
US11670421B2 (en) | Method and system enabling digital biomarker data integration and analysis for clinical treatment impact | |
CN116386869A (zh) | 一种基于多变量的病情危重程度评估方法 | |
CN118098482B (zh) | 基于5g技术的智慧医疗管理系统及方法 | |
CN116611546A (zh) | 基于知识图谱的目标研究区域滑坡预测方法及系统 | |
CN117457192A (zh) | 智能远程诊断方法及系统 | |
CN117012380A (zh) | 事件预估方法、装置、设备、存储介质及程序产品 | |
Ampavathi | Research challenges and future directions towards medical data processing | |
CN114783601A (zh) | 一种生理数据的分析方法、装置、电子设备和存储介质 | |
Shukla et al. | Optimization assisted bidirectional gated recurrent unit for healthcare monitoring system in big-data | |
CN117727467A (zh) | 基于大数据的护理临床决策支持系统及方法 | |
Chauhan et al. | Predictive modeling and web-based tool for cervical cancer risk assessment: A comparative study of machine learning models | |
JP2024061599A (ja) | 階層図ニューラルネットワークに基づく疾患診療過程異常識別システム | |
CN117409978B (zh) | 一种疾病预测模型构建方法、系统、装置及可读存储介质 | |
CN116543917A (zh) | 一种针对异构时间序列数据的信息挖掘方法 | |
CN116798653A (zh) | 药物相互作用预测方法、装置、电子设备及存储介质 | |
CN115719625A (zh) | 融合知识图谱和深度学习的糖尿病预测方法及系统 | |
JP2021189093A (ja) | 自己免疫性水疱症の診断装置 | |
de Oliveira | Predictive modeling of patient pathways using process mining and deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |