CN117409978B - 一种疾病预测模型构建方法、系统、装置及可读存储介质 - Google Patents

一种疾病预测模型构建方法、系统、装置及可读存储介质 Download PDF

Info

Publication number
CN117409978B
CN117409978B CN202311723646.8A CN202311723646A CN117409978B CN 117409978 B CN117409978 B CN 117409978B CN 202311723646 A CN202311723646 A CN 202311723646A CN 117409978 B CN117409978 B CN 117409978B
Authority
CN
China
Prior art keywords
patient
overtime
disease
probability
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311723646.8A
Other languages
English (en)
Other versions
CN117409978A (zh
Inventor
余楷
杨文雅
邹赛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN202311723646.8A priority Critical patent/CN117409978B/zh
Publication of CN117409978A publication Critical patent/CN117409978A/zh
Application granted granted Critical
Publication of CN117409978B publication Critical patent/CN117409978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提出的一种疾病预测模型构建方法、系统、装置及可读存储介质,属于人工智能技术领域。所述方法包括:采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络;引入朴素贝叶斯模型计算生活作息对患病风险的影响,并将其作为增强图的节点扰动概率;引入图对比学习框架构建疾病预测模型。本发明强化了模型对图数据结构关键特征的捕获能力,提高了预测准确率,并增强了模型对新数据的适应性;采用朴素贝叶斯模型增加了疾病预测模型的可解释性,能够更好地适应智能医疗快速发展的需求。

Description

一种疾病预测模型构建方法、系统、装置及可读存储介质
技术领域
本发明涉及人工智能技术领域,更具体的说是涉及一种疾病预测模型构建方法、系统、装置及可读存储介质。
背景技术
当前,伴随着物联网、人工智能等新一代信息技术在医疗领域渗透与应用,医疗健康数据量呈现前所未有的指数级增长。基因组学、生物标志物、电子健康记录以及可穿戴设备的数据都成为了洞察患者健康状况、辅助诊断并推动医疗服务智能化的宝贵资产。随着机器学习技术的应用,对这些海量数据进行挖掘已成为可能,根据患者历史医疗健康数据建模疾病进程,预测患者患病的可能性,从而实现早期预警和干预,已引起医学界、计算机科学界的重点关注。
传统的疾病诊断过程是一个高度依赖于医生个人知识和经验的系统,这种方法在一定程度上受限于医生的主观经验和直觉,而且在面对疑难杂症时可能效率低下,诊断周期长。
相对而言,机器学习尤其是深度学习的出现,为疾病诊断提供了一种新的视角。深度学习模型,特别是构建在大数据基础上的模型,能够快速处理庞大和复杂的数据集,通过训练,这些模型可以识别和学习数据中的模式和关联,从而提供快速准确的辅助诊断建议。在临床实践中,更多的深度学习模型被用来构建疾病诊断预测模型,提供诊断辅助信息,帮助医生在诊断和治疗策略选择中作出更加明智的决定。但是,大多数利用机器学习构建的疾病预测模型往往缺乏透明度和解释性,这对于医疗领域的接受度和信任度构成挑战。
发明内容
针对以上问题,本发明的目的在于提供一种疾病预测模型构建方法、系统、装置及可读存储介质,强化了模型对图数据结构关键特征的捕获能力,提高了预测准确率,并增强了模型对新数据的适应性;采用朴素贝叶斯模型增加了疾病预测模型的可解释性,能够更好地适应智能医疗快速发展的需求。
本发明为实现上述目的,通过以下技术方案实现:一种疾病预测模型构建方法,包括:
采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络图;
利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率;利用节点扰动生成加班增强图和不加班增强图/>;将生成的两个增强图/>和/>作为图对比学习框架的输入,并进行对比学习;
利用图神经网络学习原图、加班增强图和不加班增强图/>的节点表示,进而在图对比学习训练过程中引入对比损失函数对构建的疾病预测模型进行预训练,以捕捉患者之间潜在的共性特征。
进一步,所述采用PCA主成分分析法对临床指标数据进行降维处理包括:
利用标准化处理公式将临床指标特征转换为标准特征/>,并生成数据矩阵Z;标准化处理公式为:
其中,为第i个患者的临床指标特征,/>是特征值/>的均值,/>是特征值/>的标准差;
相应的,协方差矩阵中的元素可计算为:
其中,n为样本数量,是矩阵Z中第i个样本的第j个特征值,/>是第j个特征的平均值;/>是矩阵Z中第i个样本的第k个特征值,/>是第k个特征的平均值;
根据如下公式对协方差矩阵的特征进行分解:
其中,是协方差矩阵/>的特征向量,/>是对应的特征值;
在分解后的特征在中,选择最大的k个特征值及其对应的特征向量A1,A2,...,Ak,构成投影矩阵H=[A1,A2,...,Ak];
根据公式将原始临床数据I通过投影矩阵H转换到新的特征空间;
其中,X是降维后的临床指标数据矩阵,每一行是原始数据在主成分空间中的表示。
进一步,所述构建患者共病网络图,包括:
融合患者历史患病数据以及降维后的临床指标特征X,构建患者共病网络图
定义第i个患者的历史患病情况为,其表示患者患过某种疾病;
具有N个患者的共病网络图可表示为无向图={/>,/>, X},其中,节点集/>表示N个患者集合,特征集X表示降维后的临床指标特征集,边集/>表示患者相关关系,若存在 ,则
其中,vi表示第i个患者,vj表示第j个患者,Ci表示第i个患者的历史患病情况,Cj表示第j个患者的历史患病情况,当 =1时,表示两个患者患有至少一种相同的疾病。
进一步,所述利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率,包括:
定义每位患者的生活作息为;其中,k=1或2,k=1时代表加班,k=2时代表不加班;
选择N个患者构建的原始患者共病网络图={/>,/>, X},计算原图中患者生活作息对患病风险的影响;
根据训练集分别计算原图={/>,/>, X}中生活作息先验概率P(Dk)和不考虑生活作息情况下患病情况的先验概率P(Ci);
已知患病情况下生活作息的条件概率为P(Dk│Ci),在朴素贝叶斯中,假设特征独立,则利用贝叶斯公式获得后验概率为:
其中,后验概率P(Ci│Dk)表示在观察某个患者加班或者不加班的情况下,该患者患病的概率。
进一步,所述利用节点扰动生成增强图和/>,包括:
基于加班增加患病风险的假设,利用患者P(Ci│D1)表示加班情况下患病的概率作为节点扰动的选择机制;通过选择邻域节点集中n个P(Ci│D1)较大的节点,增强患者共病网络图在加班情况下的表征,以生成增强图
利用P(Ci│D2)表示不加班情况下患者的概率作为节点扰动的选择机制;通过删除n个P(Ci│D2)较大的节点,增强患者共病网络在不加班情况下的表征,以生成增强图
相应的,本发明还公开了一种疾病预测模型构建系统,包括:
网络构建模块,配置用于采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络图;
扰动概率生成模块,配置用于利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率;利用节点扰动生成加班增强图和不加班增强图/>;将生成的两个增强图/>和/>作为图对比学习框架的输入,并进行对比学习;
模型构建模块,配置用于利用图神经网络学习原图、加班增强图和不加班增强图/>的节点表示,进而在图对比学习训练过程中引入对比损失函数对构建的疾病预测模型进行预训练,以捕捉患者之间潜在的共性特征。
相应的,本发明公开了一种疾病预测模型构建装置,包括:
存储器,用于存储疾病预测模型构建程序;
处理器,用于执行所述疾病预测模型构建程序时实现如上文任一项所述疾病预测模型构建方法的步骤。
相应的,本发明公开了一种可读存储介质,所述可读存储介质上存储有疾病预测模型构建程序,所述疾病预测模型构建程序被处理器执行时实现如上文任一项所述疾病预测模型构建方法的步骤。
对比现有技术,本发明有益效果在于:本发明公开了一种疾病预测模型构建方法、系统、装置及可读存储介质,通过引入基于朴素贝叶斯模型的节点扰动机制,专注于评估患者的生活作息(加班、不加班)对患病概率的影响,从而生成多样的增强图样本,增强模型的泛化能力和可解释性;利用图对比学习框架,训练图神经网络处理扰动样本,挖掘样本的深层特征,以此构建一个可靠的疾病预测模型。本发明所构建的基本预测模型,能够深入挖掘患者医疗健康数据的内在联系,捕捉患者之间潜在的共性特征,提高了编码器学习患者表征的能力。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明具体实施方式的方法流程图;
图2是本发明具体实施方式的系统结构图。
图中,1、网络构建模块;2、扰动概率生成模块;3、模型构建模块。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,本实施例提供了一种疾病预测模型构建方法,包括如下步骤:
S1:采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络图。
作为示例的,利用英国生物银行统计的患者数据构建患者疾病关联图,其中包括5000位患者历史患糖尿病、心脏病、高血压的数据、250种临床指标数据、3种生活作息方式(加班、不加班)。首先采用PCA主成分分析法对250种临床指标数据进行降维处理,从而得到每位患者的3个主要特征,进而构建患者共病网络。
S2:引入朴素贝叶斯模型计算生活作息对患病风险的影响,并将其作为增强图的节点扰动概率。
根据现有研究表明,不规律的生活作息会增加患病风险,因此,我们提出加班增加患病风险的假设。基于此,为了增加模型的可解释性以及预测准确度,我们引入朴素贝叶斯模型计算生活作息(加班、不加班)对患病风险的影响,并将其作为增强图的节点扰动概率。
S3:引入图对比学习框架构建疾病预测模型。
具体的,利用图神经网络(GNN)学习原图和增强图的节点表示,进而在图对比学习训练过程中引入对比损失函数对模型进行预训练,深入挖掘患者医疗健康数据的内在联系,捕捉患者之间潜在的共性特征,提高编码器学习患者表征的能力
在具体实施方式中,图1所示实施例中的步骤S1,还包括但不限于有如下步骤:
S101:利用PCA主成分分析法处理临床指标数据。
本步骤的具体过程如下:
数据标准化。对于第i个患者的临床指标特征,标准化处理公式为:
其中,是特征值/>的均值,/>是特征值/>的标准差。
如果Z是标准化后的数据矩阵,协方差矩阵中的元素可计算为:
其中,n为样本数量,是矩阵Z中第i个样本的第j个特征值,/>是第j个特征的平均值;/>是矩阵Z中第i个样本的第k个特征值,/>是第k个特征的平均值。
协方差矩阵的特征分解公式为:
其中,是协方差矩阵/>的特征向量,/>是对应的特征值。
选择最大的k个特征值及其对应的特征向量A1,A2,...,Ak。投影矩阵H的列由选择的特征向量构成,H=[A1,A2,...,Ak]。
最后,原始临床数据I通过投影矩阵H转换到新的特征空间:
其中,X是降维后的临床指标数据矩阵,每一行是原始数据在主成分空间中的表示。
S102:构建患者共病网络图。
本步骤的具体流程如下:
融合患者历史患病数据以及降维后的临床指标特征X,构建患者共病网络图
定义第i个患者的历史患病情况为,其表示患者患过某种疾病;具有N个患者的共病网络图可表示为无向图/>={/>,/>, X},其中,节点集/>表示N个患者集合,特征集X表示降维后的临床指标特征集,边集/>表示患者相关关系,若存在/> ,则
其中,vi表示第i个患者,vj表示第j个患者,Ci表示第i个患者的历史患病情况,Cj表示第j个患者的历史患病情况,当 =1时,表示两个患者患有至少一种相同的疾病。
在具体实施方式中,图1所示实施例中的步骤S2,还包括但不限于有如下步骤:
S201: 利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率。
首先,定义每位患者的生活作息为,选择N个患者构建的原始患者共病网络图/>={/>,/>, X},计算原图中患者生活作息对患病风险的影响。
然后,根据训练集分别计算原图={/>,/>, X}中生活作息(加班、不加班)先验概率P(Dk)和不考虑生活作息情况下患病情况的先验概率P(Ci)。
此时,已知患病情况下生活作息的条件概率为P(Dk│Ci),在朴素贝叶斯中,常假设特征独立,则利用贝叶斯公式获得后验概率为:
其中,后验概率P(Ci│Dk)表示在观察某个患者加班(或者不加班)的情况下,该患者患病的概率。
S202:利用节点扰动生成增强图和/>
节点增加生成增强图。基于加班增加患病风险的假设,利用患者P(Ci│D1)表示加班情况下患病的概率作为节点扰动的选择机制,此时,选择邻域节点集中n个P(Ci│D1)较大的节点,增强患者共病网络图在加班情况下的表征。
节点删除生成增强图。利用P(Ci│D2)表示不加班情况下患者的概率作为节点扰动的选择机制。此时,删除n个P(Ci│D2)较大的节点,增强患者共病网络在不加班情况下的表征。
S203:生成的两个增强图和/>作为图对比学习框架的输入进行对比学习。
在具体实施方式中,图1所示实施例中的步骤S3,还包括但不限于有如下步骤:
S301: 对于给定图使用数据增强生成两个视图作为正样本对,满足:,其/>中是基于原始图/>条件下的增强图。
其中,k=1,2。
S302:基于GNN的自编码器用于提取图级别的向量表示/>,/>
具体来说:
令增强图,其中/>作为特征矩阵,/>为节点的N维属性向量。考虑k层GNN/>,则第k层的传播表示为:
其中,k是网络层数,n是第k层中的节点数,是第k-1层中的节点数,/>是顶点在第 k 层的嵌入,N(n)是与/>相邻的顶点集合,/>是 GNN 层的组成函数。
S303:在k层传播之后,两个增强图的输出嵌入通过 READOUT 函数汇总在嵌入测层上。
然后采用两层感知器(MLP)进行图级下游回归任务:
S304:将增广表示映射到一个计算对比损失的潜在空间。
具体的,定义对比损失函数来强制最大化正样本对/>,/>之间的一致性。利用NT-Xent损失函数训练模型。
其中,/>是余弦相似度函数,/>表示第负样本对,/>表示温度参数。通过最小化损失函数,识别出相似患者的共性,保留不相似患者的判别信息,更好地学习患者表征。
需要特别说明的是,图对比学习模型通过自监督学习方法,以一种可解释的方式捕捉图结构数据的复杂性,并将其转化为有意义的特征表示。这些表示不仅丰富了图的信息内容,而且增强了模型对下游任务的预测能力。此外,图对比学习模型包含了一系列的数据增强技术,例如,节点扰动、边扰动、属性扰动等,这些技术通过生成图的多个变体来增强学习过程,而这些变体在保持图结构核心属性不变的同时,提供了一致性的视图。这种一致性是模型学习过程的关键,因为它强化了特征的泛化能力,并帮助解释模型如何识别和区分图中的不同模式。
由此可见,本发明提供了一种疾病预测模型构建方法,针对现有大多数利用机器学习构建的疾病预测模型往往缺乏透明度和解释性,利用医疗健康数据建模可解释性的疾病进展模式,构建了能够预测患者未来的健康状况的疾病预测模型,为辅助医生诊断决策提供帮助。首先,通过整合患者多源数据,包括历史疾病诊断数据和临床指标数据构建患者共病网络;再引入基于朴素贝叶斯模型的节点扰动机制,专注于评估患者的生活作息(加班、不加班)对患病概率的影响,从而生成多样的增强图样本;最后利用这些样本训练图神经网络,该网络在对比学习框架内优化,挖掘经扰动样本的深层特征,以此构建一个可靠的疾病预测模型。本方法强化了模型对图数据结构关键特征的捕获能力,提高了预测准确率,并增强了模型对新数据的适应性;同时本方法采用朴素贝叶斯模型增加了疾病预测模型的可解释性,能够更好地适应智能医疗快速发展的需求。
参见图2所示,本发明还公开了一种疾病预测模型构建系统,包括:网络构建模块1、扰动概率生成模块2和模型构建模块3。
网络构建模块1,配置用于采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络图。
扰动概率生成模块2,配置用于引入朴素贝叶斯模型计算生活作息对患病风险的影响,并将其作为增强图的节点扰动概率。
模型构建模块3,配置用于引入图对比学习框架构建疾病预测模型。
本实施例的疾病预测模型构建系统的具体实施方式与上述疾病预测模型构建方法的具体实施方式基本一致,在此不再赘述。
本发明还公开了一种疾病预测模型构建装置,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的疾病预测模型构建程序时实现如上文任一项所述疾病预测模型构建方法的步骤。
进一步的,本实施例中的疾病预测模型构建装置,还可以包括:
输入接口,用于获取外界导入的疾病预测模型构建程序,并将获取到的疾病预测模型构建程序保存至所述存储器中,还可以用于获取外界终端设备传输的各种指令和参数,并传输至处理器中,以便处理器利用上述各种指令和参数展开相应的处理。本实施例中,所述输入接口具体可以包括但不限于USB接口、串行接口、语音输入接口、指纹输入接口、硬盘读取接口等。
输出接口,用于将处理器产生的各种数据输出至与其相连的终端设备,以便于与输出接口相连的其他终端设备能够获取到处理器产生的各种数据。本实施例中,所述输出接口具体可以包括但不限于USB接口、串行接口等。
通讯单元,用于在疾病预测模型构建装置和外部服务器之间建立远程通讯连接,以便于疾病预测模型构建装置能够将镜像文件挂载到外部服务器中。本实施例中,通讯单元具体可以包括但不限于基于无线通讯技术或有线通讯技术的远程通讯单元。
键盘,用于获取用户通过实时敲击键帽而输入的各种参数数据或指令。
显示器,用于运行疾病预测模型构建过程的相关信息进行实时显示。
鼠标,可以用于协助用户输入数据并简化用户的操作。
本发明还公开了一种可读存储介质,这里所说的可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM或技术领域内所公知的任意其他形式的存储介质。可读存储介质中存储有疾病预测模型构建程序,所述疾病预测模型构建程序被处理器执行时实现如上文任一项所述疾病预测模型构建方法的步骤。
综上所述,本发明强化了模型对图数据结构关键特征的捕获能力,提高了预测准确率,并增强了模型对新数据的适应性;采用朴素贝叶斯模型增加了疾病预测模型的可解释性,能够更好地适应智能医疗快速发展的需求。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的系统相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。
同理,在本发明各个实施例中的各处理单元可以集成在一个功能模块中,也可以是各个处理单元物理存在,也可以两个或两个以上处理单元集成在一个功能模块中。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的疾病预测模型构建方法、系统、装置及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (4)

1.一种疾病预测模型构建方法,其特征在于,包括:
采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络图;
利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率;利用节点扰动生成加班增强图和不加班增强图/>将生成的两个增强图/>和/>作为图对比学习框架的输入,并进行对比学习;
利用图神经网络学习原图、加班增强图和不加班增强图/>的节点表示,进而在图对比学习训练过程中引入对比损失函数对构建的疾病预测模型进行预训练,以捕捉患者之间潜在的共性特征;
所述采用PCA主成分分析法对临床指标数据进行降维处理包括:
利用标准化处理公式将临床指标特征Ii转换为标准特征Zi,并生成数据矩阵Z;标准化处理公式为:
其中,Ii为第i个患者的临床指标特征,μi是特征值Ii的均值,σi是特征值Ii的标准差;
相应的,协方差矩阵中的元素可计算为:
其中,n为样本数量,Zij是矩阵Z中第i个样本的第j个特征值,是第j个特征的平均值;Zik是矩阵Z中第i个样本的第k个特征值,/>是第k个特征的平均值;
根据如下公式对协方差矩阵的特征进行分解:
∑A=λA
其中,A是协方差矩阵Σ的特征向量,λ是对应的特征值;
在分解后的特征中,选择最大的k个特征值λ12,...,λk及其对应的特征向量A1,A2,...,Ak,构成投影矩阵H=[A1,A2,...,Ak];
根据公式X=ZH将原始临床数据I通过投影矩阵H转换到新的特征空间;
其中,X是降维后的临床指标数据矩阵,每一行是原始数据在主成分空间中的表示;
所述构建患者共病网络图,包括:
融合患者历史患病数据以及降维后的临床指标特征X,构建患者共病网络图
定义第i个患者的历史患病情况为Ci,其表示患者患过某种疾病;
具有N个患者的共病网络图可表示为无向图其中,节点集/>表示N个患者集合,特征集X表示降维后的临床指标特征集,边集ε表示患者相关关系,若存在vi,
其中,vi表示第i个患者,vj表示第j个患者,Ci表示第i个患者的历史患病情况,Cj表示第j个患者的历史患病情况,当时,表示两个患者患有至少一种相同的疾病;
所述利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率,包括:
定义每位患者的生活作息为Dk;其中,k=1或2,k=1时代表加班,k=2时代表不加班;
选择N个患者构建的原始患者共病网络图计算原图中患者生活作息对患病风险的影响;
根据训练集分别计算原图中生活作息先验概率P(Dk)和不考虑生活作息情况下患病情况的先验概率P(Ci);
已知患病情况下生活作息的条件概率为P(Dk│Ci),在朴素贝叶斯中,假设特征独立,则利用贝叶斯公式获得后验概率为:
其中,后验概率P(Ci│Dk)表示在观察某个患者加班或者不加班的情况下,该患者患病的概率;
所述利用节点扰动生成增强图和/>包括:
基于加班增加患病风险的假设,利用患者P(Ci│D1)表示加班情况下患病的概率作为节点扰动的选择机制;通过选择邻域节点集中n个P(Ci│D1)较大的节点,增强患者共病网络图在加班情况下的表征,以生成增强图
利用P(Ci│D2)表示不加班情况下患者的概率作为节点扰动的选择机制;通过删除n个P(Ci│D2)较大的节点,增强患者共病网络在不加班情况下的表征,以生成增强图
2.一种疾病预测模型构建系统,其特征在于,包括:
网络构建模块,配置用于采用PCA主成分分析法对临床指标数据进行降维处理,从而得到每位患者的临床指标特征,进而构建患者共病网络图;
扰动概率生成模块,配置用于利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率;利用节点扰动生成加班增强图和不加班增强图/>将生成的两个增强图/>作为图对比学习框架的输入,并进行对比学习;
模型构建模块,配置用于利用图神经网络学习原图、加班增强图和不加班增强图/>的节点表示,进而在图对比学习训练过程中引入对比损失函数对构建的疾病预测模型进行预训练,以捕捉患者之间潜在的共性特征;
所述采用PCA主成分分析法对临床指标数据进行降维处理包括:
利用标准化处理公式将临床指标特征Ii转换为标准特征Zi,并生成数据矩阵Z;标准化处理公式为:
其中,Ii为第i个患者的临床指标特征,μi是特征值Ii的均值,σi是特征值Ii的标准差;
相应的,协方差矩阵中的元素可计算为:
其中,n为样本数量,Zij是矩阵Z中第i个样本的第j个特征值,是第j个特征的平均值;Zik是矩阵Z中第i个样本的第k个特征值,/>是第k个特征的平均值;
根据如下公式对协方差矩阵的特征进行分解:
∑A=λA
其中,A是协方差矩阵∑的特征向量,λ是对应的特征值;
在分解后的特征中,选择最大的k个特征值λ12,...,λk及其对应的特征向量A1,A2,...,Ak,构成投影矩阵H=[A1,A2,...,Ak];
根据公式X=ZH将原始临床数据I通过投影矩阵H转换到新的特征空间;
其中,X是降维后的临床指标数据矩阵,每一行是原始数据在主成分空间中的表示;
所述构建患者共病网络图,包括:
融合患者历史患病数据以及降维后的临床指标特征X,构建患者共病网络图
定义第i个患者的历史患病情况为Ci,其表示患者患过某种疾病;
具有N个患者的共病网络图可表示为无向图其中,节点集/>表示N个患者集合,特征集X表示降维后的临床指标特征集,边集ε表示患者相关关系,若存在vi,
其中,vi表示第i个患者,vj表示第j个患者,Ci表示第i个患者的历史患病情况,Cj表示第j个患者的历史患病情况,当时,表示两个患者患有至少一种相同的疾病;
所述利用朴素贝叶斯模型分别计算加班、不加班对患病的影响概率,包括:
定义每位患者的生活作息为Dk;其中,k=1或2,k=1时代表加班,k=2时代表不加班;
选择N个患者构建的原始患者共病网络图计算原图中患者生活作息对患病风险的影响;
根据训练集分别计算原图中生活作息先验概率P(Dk)和不考虑生活作息情况下患病情况的先验概率P(Ci);
已知患病情况下生活作息的条件概率为P(Dk│Ci),在朴素贝叶斯中,假设特征独立,则利用贝叶斯公式获得后验概率为:
其中,后验概率P(Ci│Dk)表示在观察某个患者加班或者不加班的情况下,该患者患病的概率;
所述利用节点扰动生成增强图和/>包括:
基于加班增加患病风险的假设,利用患者P(Ci│D1)表示加班情况下患病的概率作为节点扰动的选择机制;通过选择邻域节点集中n个P(Ci│D1)较大的节点,增强患者共病网络图在加班情况下的表征,以生成增强图
利用P(Ci│D2)表示不加班情况下患者的概率作为节点扰动的选择机制;通过删除n个P(Ci│D2)较大的节点,增强患者共病网络在不加班情况下的表征,以生成增强图
3.一种疾病预测模型构建装置,其特征在于,包括:
存储器,用于存储疾病预测模型构建程序;
处理器,用于执行所述疾病预测模型构建程序时实现如权利要求1所述的疾病预测模型构建方法的步骤。
4.一种可读存储介质,其特征在于:所述可读存储介质上存储有疾病预测模型构建程序,所述疾病预测模型构建程序被处理器执行时实现如权利要求1所述的疾病预测模型构建方法的步骤。
CN202311723646.8A 2023-12-15 2023-12-15 一种疾病预测模型构建方法、系统、装置及可读存储介质 Active CN117409978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311723646.8A CN117409978B (zh) 2023-12-15 2023-12-15 一种疾病预测模型构建方法、系统、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311723646.8A CN117409978B (zh) 2023-12-15 2023-12-15 一种疾病预测模型构建方法、系统、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN117409978A CN117409978A (zh) 2024-01-16
CN117409978B true CN117409978B (zh) 2024-04-19

Family

ID=89492957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311723646.8A Active CN117409978B (zh) 2023-12-15 2023-12-15 一种疾病预测模型构建方法、系统、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN117409978B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016168354A1 (en) * 2015-04-13 2016-10-20 uBiome, Inc. Method and system for microbiome-derived diagnostics and therapeutics for conditions associated with microbiome functional features
CN108624682A (zh) * 2017-03-24 2018-10-09 达易特基因科技股份有限公司 罹癌风险评估方法
CN109033747A (zh) * 2018-07-20 2018-12-18 福建师范大学福清分校 一种基于pls多扰动集成基因选择及肿瘤特异基因子集的识别方法
CN109300017A (zh) * 2018-10-27 2019-02-01 平安科技(深圳)有限公司 基于数据分析的保单推荐方法、装置、服务器及存储介质
CN110634557A (zh) * 2019-08-23 2019-12-31 广东省智能制造研究所 一种基于深度神经网络的医护资源辅助调配方法及系统
CN115705922A (zh) * 2021-08-13 2023-02-17 佛山市顺德区美的电热电器制造有限公司 健康管理方法及其装置和烹饪器具
CN116072298A (zh) * 2023-04-06 2023-05-05 之江实验室 一种基于层级标记分布学习的疾病预测系统
CN116364274A (zh) * 2023-03-16 2023-06-30 山西医科大学 基于因果推断和动态集成多标签的疾病预测方法及系统
CN116797817A (zh) * 2023-04-17 2023-09-22 北京工商大学 基于自监督图卷积模型的自闭症疾病预测技术

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018045363A1 (en) * 2016-09-02 2018-03-08 Gargeya Rishab Screening method for automated detection of vision-degenerative diseases from color fundus images

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016168354A1 (en) * 2015-04-13 2016-10-20 uBiome, Inc. Method and system for microbiome-derived diagnostics and therapeutics for conditions associated with microbiome functional features
CN108624682A (zh) * 2017-03-24 2018-10-09 达易特基因科技股份有限公司 罹癌风险评估方法
CN109033747A (zh) * 2018-07-20 2018-12-18 福建师范大学福清分校 一种基于pls多扰动集成基因选择及肿瘤特异基因子集的识别方法
CN109300017A (zh) * 2018-10-27 2019-02-01 平安科技(深圳)有限公司 基于数据分析的保单推荐方法、装置、服务器及存储介质
CN110634557A (zh) * 2019-08-23 2019-12-31 广东省智能制造研究所 一种基于深度神经网络的医护资源辅助调配方法及系统
CN115705922A (zh) * 2021-08-13 2023-02-17 佛山市顺德区美的电热电器制造有限公司 健康管理方法及其装置和烹饪器具
CN116364274A (zh) * 2023-03-16 2023-06-30 山西医科大学 基于因果推断和动态集成多标签的疾病预测方法及系统
CN116072298A (zh) * 2023-04-06 2023-05-05 之江实验室 一种基于层级标记分布学习的疾病预测系统
CN116797817A (zh) * 2023-04-17 2023-09-22 北京工商大学 基于自监督图卷积模型的自闭症疾病预测技术

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于知识图谱的医疗自诊系统;张蔚基;中国优秀硕士学位论文全文数据库 (医药卫生科技辑);20221215(第12期);E054-44 *

Also Published As

Publication number Publication date
CN117409978A (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
US20230120282A1 (en) Systems and methods for managing autoimmune conditions, disorders and diseases
WO2023077603A1 (zh) 一种异常脑连接预测系统、方法、装置及可读存储介质
KR20220064395A (ko) 이미지들 및 전문 지식으로부터 피부 상태들을 수집하고 식별하기 위한 시스템
CN104572583B (zh) 用于数据致密化的方法和系统
CN117253614B (zh) 基于大数据分析的糖尿病风险预警方法
US11670421B2 (en) Method and system enabling digital biomarker data integration and analysis for clinical treatment impact
CN113673244B (zh) 医疗文本处理方法、装置、计算机设备和存储介质
CN111008957A (zh) 医疗信息处理方法和装置
CN116611546B (zh) 基于知识图谱的目标研究区域滑坡预测方法及系统
CN115579141A (zh) 一种可解释疾病风险预测模型构建方法以及疾病风险预测装置
CN114783601A (zh) 一种生理数据的分析方法、装置、电子设备和存储介质
Sampath et al. Ensemble Nonlinear Machine Learning Model for Chronic Kidney Diseases Prediction
CN114191665A (zh) 机械通气过程中人机异步现象的分类方法和分类装置
CN114330482A (zh) 一种数据处理方法、装置及计算机可读存储介质
Ampavathi Research challenges and future directions towards medical data processing
CN117409978B (zh) 一种疾病预测模型构建方法、系统、装置及可读存储介质
CN116403728A (zh) 医疗就诊数据的数据处理装置和相关设备
CN116092668A (zh) 一种融合多元异构数据的心衰患者再入院预测方法
CN117012380A (zh) 事件预估方法、装置、设备、存储介质及程序产品
CN115719625A (zh) 融合知识图谱和深度学习的糖尿病预测方法及系统
CN113658688A (zh) 基于无分词深度学习的临床决策支持方法
CN114724630B (zh) 用于预测蛋白质翻译后修饰位点的深度学习方法
CN113658713B (zh) 传染趋势预测方法、装置、设备及存储介质
CN116344042B (zh) 基于多模态分析的认知储备干预提升方法及系统
Dirigeant Hugo De Oliveira

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant