CN116631641B - 一种集成自适应相似患者图的疾病预测装置 - Google Patents
一种集成自适应相似患者图的疾病预测装置 Download PDFInfo
- Publication number
- CN116631641B CN116631641B CN202310898736.4A CN202310898736A CN116631641B CN 116631641 B CN116631641 B CN 116631641B CN 202310898736 A CN202310898736 A CN 202310898736A CN 116631641 B CN116631641 B CN 116631641B
- Authority
- CN
- China
- Prior art keywords
- patient
- samples
- similar patient
- training
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 73
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 73
- 238000010586 diagram Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 100
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 43
- 239000000523 sample Substances 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 22
- 230000003044 adaptive effect Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 239000013610 patient sample Substances 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 4
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 2
- 230000010485 coping Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 235000002020 sage Nutrition 0.000 description 2
- 206010027476 Metastases Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010056342 Pulmonary mass Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种集成自适应相似患者图的疾病预测装置,先构建多个平衡的训练子集,然后训练相似患者图构建学习器,自动生成每个训练子集的最佳患者关联关系,再利用图神经网络算法共享关联患者之间的信息生成群体深度隐藏特征,在得到的群体深度隐藏特征上再进行一次患者关联关系和群体深度隐藏特征学习,最后针对新的患者,利用训练好的模型自动将其添加到多个训练子集中并自动生成与其他样本的关联关系和深度隐藏特征,用于疾病预测,可解决现有疾病预测装置处理不平衡数据时性能下降和无法有效共享患者之间信息的问题。
Description
技术领域
本发明涉及医疗数据挖掘技术领域,特别涉及疾病预测方面,具体涉及一种集成自适应相似患者图的疾病预测装置。
背景技术
疾病数据是典型的不平衡数据,例如发生疾病的患者与健康人群,恶性肺结节与良性肺结节,发生淋巴结转移的患者与未发生淋巴结转移的患者等等,往往是极度不平衡的。这一不平衡数据的特点,使得传统经典机器学习算法在训练时产生偏倚,难以发挥其预测效能。
针对不平衡问题,常用重采样方法、代价敏感方法、集成方法等来克服。然而,这些现有方法通常将每个样本单独处理,并未利用不同样本之间的相互关系,无法学习到代表相关群体的深度隐藏表征(Doppalapudi S, Qiu R G, Badr Y. Lung cancer survivalperiod prediction and understanding: Deep learning approaches[J].International Journal of Medical Informatics, 2021, 148: 104371.)。
图神经网络算法可以很好的共享相关联患者之间的信息,学习到更为有效的群体隐藏特征。然而,真实临床数据中并不包含患者之间的关联信息,利用患者特征计算患者之间相似度来构建患者之间关联关系是一种常用方法,利用参数自动学习患者关联关系是另一种方法。但上述方法通常会将阳性样本与阴性样本关联,特别是在数据极度不平衡时,使得一个阳性样本与大量阴性样本关联,在利用图神经网络共享关联节点信息时,使得阳性样本信息被阴性样本信息淹没,从而表现出性能下降的特点(Lian J, Deng J, Hui E S,et al. Early stage NSCLS patients’ prognostic prediction with multi-information using transformer and graph neural network model[J]. Elife, 2022,11: e80547.)。
基于上述背景,为了有效缓解患者数据不平衡性对模型带来的影响,同时能够共享相关患者之间的信息,从而实现更为精准的疾病预测,是亟需解决的重要技术问题。
发明内容
针对上述技术问题以及本领域存在的不足之处,本发明提供了一种集成自适应相似患者图的疾病预测装置,先构建多个平衡的训练子集,然后训练相似患者图构建学习器,自动生成每个训练子集的最佳患者关联关系,再利用图神经网络算法共享关联患者之间的信息生成群体深度隐藏特征,在得到的群体深度隐藏特征上再进行一次患者关联关系和群体深度隐藏特征学习,最后针对新的患者,利用训练好的模型自动将其添加到多个训练子集中并自动生成与其他样本的关联关系和深度隐藏特征,用于疾病预测,可解决现有疾病预测装置处理不平衡数据时性能下降和无法有效共享患者之间信息的问题。
一种集成自适应相似患者图的疾病预测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现以下步骤:
以患者临床数据为原始输入数据,构建多个平衡的训练子集;
构建预测模型,包括用于构建各训练子集相应的相似患者图结构的第一图结构学习器,用于计算各训练子集相应的相似患者图结构中各节点的隐藏特征的第一层图神经网络,用于构建针对各节点的隐藏特征的相似患者图结构的第二图结构学习器,用于计算针对各节点的隐藏特征的相似患者图结构中各节点的新一层隐藏特征的第二层图神经网络,以及用于将新一层隐藏特征映射转换为各疾病类别的预测结果的预测网络;
构建损失函数,包括各疾病类别的预测结果的交叉熵损失,以及各相似患者图结构的正则化约束损失之和;
基于损失函数对预测模型进行参数优化;
利用优化的预测模型进行疾病预测。
在一实施例中,所述的集成自适应相似患者图的疾病预测装置,各训练子集中的样本数量相同,且各训练子集中阳性样本数量与阴性样本数量相同。
在一实施例中,所述的集成自适应相似患者图的疾病预测装置,第一图结构学习器计算各训练子集中每对样本之间的相似度并进行阈值划分和归一化处理得到各训练子集相应的相似患者图结构。
所述的集成自适应相似患者图的疾病预测装置,第一层图神经网络算法可为图卷积网络(GCN)、图注意力网络(GAT)或GraphSAGE。
在一实施例中,所述的集成自适应相似患者图的疾病预测装置,第二图结构学习器计算各训练子集中每对样本隐藏特征之间的相似度并进行阈值划分和归一化处理得到针对各节点的隐藏特征的相似患者图结构。
所述的集成自适应相似患者图的疾病预测装置,第二层图神经网络算法可为图卷积网络(GCN)、图注意力网络(GAT)或GraphSAGE。
作为优选,所述的集成自适应相似患者图的疾病预测装置,各相似患者图结构的正则化约束损失包括计算每个相似患者图结构中相同疾病类别标签的样本之间权重之和。
进一步的,各相似患者图结构的正则化约束损失还可包括平滑每个相似患者图结构中相连的两个样本之间的特征值,以及保证每个相似患者图结构矩阵为非零矩阵和无异常值。
在一实施例中,所述的集成自适应相似患者图的疾病预测装置,在各训练子集中引入待测患者临床数据,利用优化的预测模型进行疾病预测,并将所有预测结果集成平均作为最终的预测结果。
本发明还提供了一种集成自适应相似患者图的疾病预测装置,包括:
数据获取单元,用于以患者临床数据为原始输入数据,构建多个平衡的训练子集;
模型构建单元,用于构建预测模型,包括用于构建各训练子集相应的相似患者图结构的第一图结构学习器,用于计算各训练子集相应的相似患者图结构中各节点的隐藏特征的第一层图神经网络,用于构建针对各节点的隐藏特征的相似患者图结构的第二图结构学习器,用于计算针对各节点的隐藏特征的相似患者图结构中各节点的新一层隐藏特征的第二层图神经网络,以及用于将新一层隐藏特征映射转换为各疾病类别的预测结果的预测网络;
损失函数构建单元,用于构建损失函数,包括各疾病类别的预测结果的交叉熵损失,以及各相似患者图结构的正则化约束损失之和;
训练单元,用于基于损失函数对预测模型进行参数优化;
应用单元,用于利用优化的预测模型进行疾病预测。
本发明所述的集成自适应相似患者图的疾病预测装置中,所述将新一层隐藏特征映射转换为各疾病类别的预测结果的具体方式可以为通过一层全连接层进行映射并利用softmax函数转换为各疾病类别的概率预测结果。
本发明与现有技术相比,有益效果有:
首先,可利用随机采样从原始训练集中生成多个平衡的训练子集,然后利用图结构学习器生成每个训练子集中样本关联关系,其中所包含的图结构正则化项可使得相同标签的样本权重更高,避免不同标签样本关联导致群体隐藏特征失效,利用图神经网络共享关联样本信息生成深度群体隐藏特征,用于模型训练。在测试阶段,首先将测试样本添加到所有训练子集中,再利用训练好的图结构学习器自动学习包含了测试样本的数据集的关联关系,并利用训练好的图神经网络自动生成测试样本的深度群体特征,用于样本的预测,最终将所有训练子集上的测试样本预测结果集成平均作为最终的预测结果。通过本发明的疾病预测装置,可有效应对患者不平衡数据以及传统图网络方法的带来的负面影响,实现更为精准的疾病预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明具体实施方式中提供的一种集成自适应相似患者图的疾病预测装置的结构示意图。
图2为本发明具体实施方式中提供的一种集成自适应相似患者图的疾病预测方法流程框图。
图3为本发明具体实施方式中提供的一种集成自适应相似患者图的疾病预测方法流程示意图。
图4为本发明具体实施方式中提供的一种集成自适应相似患者图的疾病预测装置的另一结构示意图。
图5为本发明具体实施方式中提供的一种集成自适应相似患者图的疾病预测装置中模型构建单元构建的模型组成示意图。
具体实施方式
下面结合附图及具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。
集成学习是应对数据不平衡问题的有效方法,通过构建多个平衡的数据子集,可加强少数样本在最终预测结果中所发挥的比重,从而缓解多数样本占据主导地位使得模型性能下降的问题。图神经网络可以共享关联样本之间的信息,生成深度群体隐藏特征,利用参数自动学习样本之间的图关系,可以解决医疗数据中样本之间关系缺失的问题。因此,结合集成学习和自适应相似患者图方法,可以在较好应对数据不平衡问题的同时,充分共享相似患者特征,从而生成更为有效的群体隐藏特征用于疾病预测。
基于此,为了实现更为有效的疾病预测,本发明提供了一种集成自适应相似患者图的疾病预测装置,参见图1,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现如图2、图3所示的方法和流程,包括步骤:
S101,针对不平衡的患者临床数据训练集,其中阳性样本个数为a,阴性样本个数为b,且b远大于a。设置集成模型中基分类器个数为N,构建N个平衡的训练子集,每个训练子集的阳性样本由训练集中的a个阳性样本组成,阴性样本从训练集中b个阴性样本随机选取a个组成,构建好的每个训练子集均由2a个样本组成。
具体执行时,从多数的阴性样本数据中采样时,可采用又放回的采样,也可采用无放回的采样。
S102,针对步骤S101构建好的训练子集,利用图结构学习器1,计算每个训练子集样本之间的相似度,构建相似患者图结构。具体地,图结构学习器1由m个权重向量组成,每个权重向量的维度与原始输入数据(即患者临床数据x i ,i为1,2,...,2a)的维度相同。利用上述m个权重向量,通过/>计算各训练子集中每对样本(x i ,x j )之间的相似度,其中/>为元素相乘,i、j分别为1,2,...,2a。在得到每对样本的相似度之后,可以得到样本相似矩阵,由于样本相似矩阵中元素的数值在[-1,1]之间,将其中小于非负数阈值ɛ的值设置为0。对于进行上述阈值划分处理后的样本相似矩阵Ax,利用/>进行归一化处理,其中Dx是Ax的度矩阵。针对所有训练子集,得到对应的N个相似矩阵/>。
S103,根据步骤S102得到关于原始输入数据x i 的相似患者图结构后,利用第一层图神经网络算法共享每个训练子集中节点原始输入数据之间信息,计算每个节点的隐藏特征。
具体的,采用的第一层图神经网络算法为GCN、GAT、GraphSAGE。
S104,根据步骤S103得到的隐藏特征,利用图结构学习器2,构建基于节点隐藏特征的相似患者图结构。具体地,图结构学习器2同样由m个权重向量组成,且每个权重向量与隐藏特征的维度相同。利用上述m个权重向量,通过来计算每对样本隐藏特征(/>,/>)之间的相似度,i、j分别为1,2,...,2a,从而得到针对隐藏特征的样本相似矩阵;同样利用非负阈值ɛ对针对隐藏特征的样本相似矩阵Ah元素值进行截断,并利用/>对Ah进行归一化,其中Dh是Ah的度矩阵。针对所有训练子集,得到对应的N个相似矩阵/>。
S105,根据步骤S104得到针对各个节点隐藏特征的相似患者图结构,利用第二层图神经网络算法共享每个训练子集中节点隐藏特征之间信息,计算每个节点的新一层隐藏特征;利用每个节点的新一层隐藏特征作为输入,利用一层全连接FC将其映射为与疾病类别相同的逻辑值,并利用softmax函数转换为每种疾病类别概率值,其中C为类别数。
具体的,采用的第二层图神经网络算法为GCN、GAT、GraphSAGE。
S106,根据步骤S105得到的疾病类别概率预测结果,首先利用交叉熵损失计算每个训练子集中样本的损失,如下所示:
其中,C为疾病类别数,2a为每个训练子集中的样本数,N为训练子集的个数,为训练子集中第i位患者针对第c类疾病的真实标签,/>为相应的预测结果。
S107,根据步骤S102,S104得到的各个训练子集的相似患者图结构和,首先利用如下公式:/>
计算每个相似患者图结构矩阵中,相同疾病类别标签的样本之间权重之和,其中A表示相似患者图结构矩阵,Y表示A对应的训练子集中样本的疾病类别标签,⊕为异或运算,i和j的取值为1到2a,表示该训练子集中患者样本的序号,A i,j 表示相似患者图结构矩阵中第i行第j列的值,代表患者i和患者j之间的相似度,y i 、y j 表示患者i和患者j的真实预后标签。利用计算相似患者图结构矩阵的值并求和,可以在最优化的时候,倾向于将标签不同的样本之间的权重降低。
此外,利用如下公式:
来使得相连的两个样本之间的特征值变化会比较平滑,其中A表示相似患者图结构矩阵,X表示A对应的训练子集中样本的临床数据,i和j的取值为1到2a,表示该训练子集中患者样本的序号,A i,j 表示相似患者图结构矩阵中第i行第j列的值,代表患者i和患者j之间的相似度,x i 、x j 表示患者i和患者j分别对应的临床数据向量。
然后,利用如下公式:
保证A为非零矩阵和无异常值,其中1为元素全为1的向量,1 T 为1的转置,A为相似患者图结构矩阵,表示A的Frobenius范数的平方。
将上述约束综合作为:
其中,α≥0,优选α>0,β≥0,γ≥0,δ≥0。利用Lossreg(A,X,Y)可以计算相似患者图结构A对应的约束损失。
针对和/>每个相似患者图结构,均利用公式Lossreg(A,X,Y)计算约束损失并求和,作为最终的正则化损失Lossreg。
S108,根据步骤S106和S107得到的两个损失Lossce和Lossreg,最终的损失函数Loss= Lossce+ σLossreg,其中σ≥0,优选σ>0。通过误差反向传播更新各图结构学习器和各图神经网络参数,直到模型收敛。
S109,在测试阶段,将测试样本添加到每个训练子集当中。
S110,根据步骤S101至S108训练好的模型,利用训练好的图结构学习器1自动生成包好了测试样本的训练子集的图结构;然后利用图神经网络1学习得到测试样本及各个训练子集样本的深度群体隐藏特征;然后利用图结构学习器2学习深度隐藏特征的图结构;再利用图神经网络2学习得到测试样本的新一层深度隐藏特征,并利用全连接层得到预测结果。
S111,根据步骤S110得到的每个训练子集中测试样本的预测结果,将所有结果集成平均,为最终的预测结果。
上述集成自适应相似患者图的疾病预测装置中,存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现如图2、图3所示的方法和流程。
本发明还提供了一种如图4所示的集成自适应相似患者图的疾病预测装置400,同样能实现上述如图2、图3所示的方法和流程,具体包括:
数据获取单元401,用于以患者临床数据为原始输入数据,构建多个平衡的训练子集;
模型构建单元402,用于构建预测模型,参见图5,包括用于构建各训练子集相应的相似患者图结构的第一图结构学习器410,用于计算各训练子集相应的相似患者图结构中各节点的隐藏特征的第一层图神经网络411,用于构建针对各节点的隐藏特征的相似患者图结构的第二图结构学习器412,用于计算针对各节点的隐藏特征的相似患者图结构中各节点的新一层隐藏特征的第二层图神经网络413,以及用于将新一层隐藏特征映射转换为各疾病类别的预测结果的预测网络414;
损失函数构建单元403,用于构建损失函数,包括各疾病类别的预测结果的交叉熵损失,以及各相似患者图结构的正则化约束损失之和;
训练单元404,用于基于损失函数对预测模型进行参数优化;
应用单元405,用于利用优化的预测模型进行疾病预测。
需要说明的是,上述具体实施方式提供的集成自适应相似患者图的疾病预测装置在执行上述如图2、图3所示的方法和流程时,应以上述各功能单元的划分进行举例说明,可以根据需要将上述功能分配由不同的功能单元完成,即在终端或服务器的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的集成自适应相似患者图的疾病预测装置与其执行的方法流程实施例属于同一构思,其具体实现过程详见上文如图2、图3所示的方法和流程介绍,这里不再赘述。
利用上述本发明的集成自适应相似患者图的疾病预测装置,进行集成自适应相似患者图的疾病预测实验,以验证方法的效果。实验例中,实验室数据为肺癌患者是否发生淋巴结转移,实验数据为人口统计学数据、肿瘤标志物、既往病史、CT报告等等。利用患者术后病理报告中记录的淋巴结转移情况作为终点事件。实验例中选取了逻辑回归、随机森林、支持向量机、多层感知机,并配合SMOTE过采样方法作为基线方法。此外,在本发明装置执行的方法中,我们将Lossreg(A,X,Y)计算公式中的α也置为0作为对比,以探究的有效性。实验采用10重交叉验证将数据集划分为10个数据集,其中每1重数据作为测试集,其余9重作为训练集。采用受试者工作特征曲线下面积AUC和平均正确率AP作为性能评价指标。实验结果如表1所示。从表中能够看到,本发明装置所执行的方法(表1中集成自适应相似患者图(α≠0)),相较于传统的机器学习方法、重采样方法以及集成方法,均取得更好的预测效果;同时,通过在正则化项中添加/>,可进一步提升模型性能。
表1
总而言之,本发明先利用随机采样从原始训练集中生成多个平衡的训练子集,然后利用图结构学习器生成每个训练子集中样本关联关系,其中所包含的图结构正则化项可使得相同标签的样本权重更高,避免不同标签样本关联导致群体隐藏特征失效,利用图神经网络共享关联样本信息生成深度群体隐藏特征,然后通过全连接层进行疾病预测,并利用交叉熵损失和图结构正则化约束指导模型参数训练更新直到收敛。在测试阶段,首先将测试样本添加到所有训练子集中,再利用训练好的图结构学习器自动生成包含了测试样本的数据集的关联关系,并利用训练好的图神经网络自动生成测试样本的深度群体隐藏特征用于样本的预测,最终将所有训练子集上的测试样本预测结果集成平均作为最终的预测结果。通过上述过程,可有效应对患者不平衡数据以及传统图网络方法的带来的负面影响,实现更为精准的疾病预测。
此外应理解,在阅读了本发明的上述描述内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
Claims (4)
1.一种集成自适应相似患者图的疾病预测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,其特征在于,处理器执行计算机程序时实现以下步骤:
以患者临床数据为原始输入数据,构建多个平衡的训练子集;各训练子集中的样本数量相同,且各训练子集中阳性样本数量与阴性样本数量相同;
构建预测模型,包括用于构建各训练子集相应的相似患者图结构的第一图结构学习器,用于计算各训练子集相应的相似患者图结构中各节点的隐藏特征的第一层图神经网络,用于构建针对各节点的隐藏特征的相似患者图结构的第二图结构学习器,用于计算针对各节点的隐藏特征的相似患者图结构中各节点的新一层隐藏特征的第二层图神经网络,以及用于将新一层隐藏特征映射转换为各疾病类别的预测结果的预测网络;
第一图结构学习器计算各训练子集中每对样本之间的相似度并进行阈值划分和归一化处理得到各训练子集相应的相似患者图结构;第一图结构学习器由m个权重向量组成,每个权重向量的维度与原始输入数据的维度相同;利用上述m个权重向量,通过/>计算各训练子集中每对样本(x i ,x j )之间的相似度,其中/>为元素相乘,i、j分别为1,2,...,2a,a为训练子集中阳性样本数量;在得到每对样本的相似度之后,得到样本相似矩阵,将其中小于非负数阈值ɛ的值设置为0,对于进行上述阈值划分处理后的样本相似矩阵Ax,利用/>进行归一化处理,其中Dx是Ax的度矩阵;针对所有训练子集,得到对应的N个相似矩阵/>;
第二图结构学习器计算各训练子集中每对样本隐藏特征之间的相似度并进行阈值划分和归一化处理得到针对各节点的隐藏特征的相似患者图结构;第二图结构学习器由m个权重向量组成,且每个权重向量与隐藏特征的维度相同;利用上述m个权重向量,通过/>来计算每对样本隐藏特征(/>,/>)之间的相似度,其中/>为元素相乘,i、j分别为1,2,...,2a,a为训练子集中阳性样本数量,从而得到针对隐藏特征的样本相似矩阵;同样利用非负阈值ɛ对针对隐藏特征的样本相似矩阵Ah元素值进行截断,并利用/>对Ah进行归一化,其中Dh是Ah的度矩阵;针对所有训练子集,得到对应的N个相似矩阵/>;
构建损失函数Loss,包括各疾病类别的预测结果的交叉熵损失Lossce,以及各相似患者图结构的正则化约束损失Lossreg之和;Loss = Lossce + σLossreg,其中σ>0;
各相似患者图结构的正则化约束损失包括计算每个相似患者图结构中相同疾病类别标签的样本之间权重之和/>,平滑每个相似患者图结构中相连的两个样本之间的特征值/>,以及保证每个相似患者图结构矩阵为非零矩阵/>和无异常值/>;
,其中,α>0,β≥0,γ≥0,δ≥0;
,其中A表示相似患者图结构矩阵,Y表示A对应的训练子集中样本的疾病类别标签,⊕为异或运算,i和j的取值为1到2a,表示该训练子集中患者样本的序号,A i,j 表示相似患者图结构矩阵中第i行第j列的值,代表患者i和患者j之间的相似度,y i 、y j 表示患者i和患者j的真实预后标签;
,其中A表示相似患者图结构矩阵,X表示A对应的训练子集中样本的临床数据,i和j的取值为1到2a,表示该训练子集中患者样本的序号,A i,j 表示相似患者图结构矩阵中第i行第j列的值,代表患者i和患者j之间的相似度,x i 、x j 表示患者i和患者j分别对应的临床数据向量;
,/>,其中1为元素全为1的向量,1 T 为1的转置,A为相似患者图结构矩阵,表示A的Frobenius范数的平方;
基于损失函数对预测模型进行参数优化;
在各训练子集中引入待测患者临床数据,利用优化的预测模型进行疾病预测,并将所有预测结果集成平均作为最终的预测结果。
2.根据权利要求1所述的集成自适应相似患者图的疾病预测装置,其特征在于,第一层图神经网络算法为GCN、GAT或GraphSAGE。
3.根据权利要求1所述的集成自适应相似患者图的疾病预测装置,其特征在于,第二层图神经网络算法为GCN、GAT或GraphSAGE。
4.一种集成自适应相似患者图的疾病预测装置,其特征在于,包括:
数据获取单元,用于以患者临床数据为原始输入数据,构建多个平衡的训练子集;各训练子集中的样本数量相同,且各训练子集中阳性样本数量与阴性样本数量相同;
模型构建单元,用于构建预测模型,包括用于构建各训练子集相应的相似患者图结构的第一图结构学习器,用于计算各训练子集相应的相似患者图结构中各节点的隐藏特征的第一层图神经网络,用于构建针对各节点的隐藏特征的相似患者图结构的第二图结构学习器,用于计算针对各节点的隐藏特征的相似患者图结构中各节点的新一层隐藏特征的第二层图神经网络,以及用于将新一层隐藏特征映射转换为各疾病类别的预测结果的预测网络;
第一图结构学习器计算各训练子集中每对样本之间的相似度并进行阈值划分和归一化处理得到各训练子集相应的相似患者图结构;第一图结构学习器由m个权重向量组成,每个权重向量的维度与原始输入数据的维度相同;利用上述m个权重向量,通过/>计算各训练子集中每对样本(x i ,x j )之间的相似度,其中/>为元素相乘,i、j分别为1,2,...,2a,a为训练子集中阳性样本数量;在得到每对样本的相似度之后,得到样本相似矩阵,将其中小于非负数阈值ɛ的值设置为0,对于进行上述阈值划分处理后的样本相似矩阵Ax,利用/>进行归一化处理,其中Dx是Ax的度矩阵;针对所有训练子集,得到对应的N个相似矩阵/>;
第二图结构学习器计算各训练子集中每对样本隐藏特征之间的相似度并进行阈值划分和归一化处理得到针对各节点的隐藏特征的相似患者图结构;第二图结构学习器由m个权重向量组成,且每个权重向量与隐藏特征的维度相同;利用上述m个权重向量,通过/>来计算每对样本隐藏特征(/>,/>)之间的相似度,其中/>为元素相乘,i、j分别为1,2,...,2a,a为训练子集中阳性样本数量,从而得到针对隐藏特征的样本相似矩阵;同样利用非负阈值ɛ对针对隐藏特征的样本相似矩阵Ah元素值进行截断,并利用/>对Ah进行归一化,其中Dh是Ah的度矩阵;针对所有训练子集,得到对应的N个相似矩阵/>;
损失函数构建单元,用于构建损失函数Loss,包括各疾病类别的预测结果的交叉熵损失Lossce,以及各相似患者图结构的正则化约束损失Lossreg之和;Loss = Lossce + σLossreg,其中σ>0;
各相似患者图结构的正则化约束损失包括计算每个相似患者图结构中相同疾病类别标签的样本之间权重之和/>,平滑每个相似患者图结构中相连的两个样本之间的特征值/>,以及保证每个相似患者图结构矩阵为非零矩阵/>和无异常值/>;
,其中,α>0,β≥0,γ≥0,δ≥0;
,其中A表示相似患者图结构矩阵,Y表示A对应的训练子集中样本的疾病类别标签,⊕为异或运算,i和j的取值为1到2a,表示该训练子集中患者样本的序号,A i,j 表示相似患者图结构矩阵中第i行第j列的值,代表患者i和患者j之间的相似度,y i 、y j 表示患者i和患者j的真实预后标签;
,其中A表示相似患者图结构矩阵,X表示A对应的训练子集中样本的临床数据,i和j的取值为1到2a,表示该训练子集中患者样本的序号,A i,j 表示相似患者图结构矩阵中第i行第j列的值,代表患者i和患者j之间的相似度,x i 、x j 表示患者i和患者j分别对应的临床数据向量;
,/>,其中1为元素全为1的向量,1 T 为1的转置,A为相似患者图结构矩阵,表示A的Frobenius范数的平方;
训练单元,用于基于损失函数对预测模型进行参数优化;
应用单元,用于在各训练子集中引入待测患者临床数据,利用优化的预测模型进行疾病预测,并将所有预测结果集成平均作为最终的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310898736.4A CN116631641B (zh) | 2023-07-21 | 2023-07-21 | 一种集成自适应相似患者图的疾病预测装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310898736.4A CN116631641B (zh) | 2023-07-21 | 2023-07-21 | 一种集成自适应相似患者图的疾病预测装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116631641A CN116631641A (zh) | 2023-08-22 |
CN116631641B true CN116631641B (zh) | 2023-12-22 |
Family
ID=87638582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310898736.4A Active CN116631641B (zh) | 2023-07-21 | 2023-07-21 | 一种集成自适应相似患者图的疾病预测装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631641B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509982A (zh) * | 2018-03-12 | 2018-09-07 | 昆明理工大学 | 一种处理二分类不平衡医学数据的方法 |
CN113990495A (zh) * | 2021-12-27 | 2022-01-28 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN115393269A (zh) * | 2022-07-13 | 2022-11-25 | 中国科学院大学 | 一种基于多模态影像数据的可扩展多层级图神经网络模型 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860769A (zh) * | 2020-06-16 | 2020-10-30 | 北京百度网讯科技有限公司 | 预训练图神经网络的方法以及装置 |
US20230206029A1 (en) * | 2021-12-27 | 2023-06-29 | International Business Machines Corporation | Graph Neural Network Ensemble Learning |
-
2023
- 2023-07-21 CN CN202310898736.4A patent/CN116631641B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509982A (zh) * | 2018-03-12 | 2018-09-07 | 昆明理工大学 | 一种处理二分类不平衡医学数据的方法 |
CN113990495A (zh) * | 2021-12-27 | 2022-01-28 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
WO2023124190A1 (zh) * | 2021-12-27 | 2023-07-06 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN115393269A (zh) * | 2022-07-13 | 2022-11-25 | 中国科学院大学 | 一种基于多模态影像数据的可扩展多层级图神经网络模型 |
Non-Patent Citations (3)
Title |
---|
A novel ensemble method for classifying imbalanced data;zhongbin sun 等;《Pattern Recognition》;第48卷(第5期);摘要 * |
Early stage NSCLS patients’ prognostic prediction with multi-information using transformer and graph neural network model;Jie Lian 等;《eLife》(第11期);第4-11页,方法与结果部分 * |
Lung cancer survival period prediction and understanding: Deep learning approaches;Shreyesh Doppalapudi 等;《International Journal of Medical Informatics》;第148卷;第1-12页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116631641A (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lucca et al. | CC-integrals: Choquet-like copula-based aggregation functions and its application in fuzzy rule-based classification systems | |
Wang et al. | A selective review on random survival forests for high dimensional data | |
US20160026917A1 (en) | Ranking of random batches to identify predictive features | |
Chen et al. | Inference on the order of a normal mixture | |
CN111899882B (zh) | 一种预测癌症的方法及系统 | |
WO2023217290A1 (zh) | 基于图神经网络的基因表型预测 | |
CN110119540B (zh) | 一种用于生存风险分析的多输出梯度提升树建模方法 | |
Liu et al. | Predicting breast cancer recurrence and metastasis risk by integrating color and texture features of histopathological images and machine learning technologies | |
Zhou et al. | Personal credit default prediction model based on convolution neural network | |
Chekouo et al. | Bayesian integrative analysis and prediction with application to atherosclerosis cardiovascular disease | |
Rong et al. | Diagnostic classification of lung cancer using deep transfer learning technology and multi‐omics data | |
Peng et al. | Improving drug response prediction based on two-space graph convolution | |
Gopakumar et al. | Stabilizing high-dimensional prediction models using feature graphs | |
Herbinger et al. | Repid: Regional effect plots with implicit interaction detection | |
Xie et al. | Promotion time cure rate model with a neural network estimated nonparametric component | |
Badré et al. | LINA: A linearizing neural network architecture for accurate first-order and second-order interpretations | |
CN116631641B (zh) | 一种集成自适应相似患者图的疾病预测装置 | |
Wilson et al. | Fenchel duality of Cox partial likelihood with an application in survival kernel learning | |
Özkan et al. | Effect of data preprocessing on ensemble learning for classification in disease diagnosis | |
Bodinier et al. | Automated calibration of consensus weighted distance-based clustering approaches using sharp | |
Chen et al. | A new class of mixture models for differential gene expression in DNA microarray data | |
US10192642B2 (en) | System and method for determining an association of at least one biological feature with a medical condition | |
CN117912570B (zh) | 一种基于基因共表达网络的分类特征确定方法及系统 | |
Wu et al. | Association testing for binary trees—A Markov branching process approach | |
Wolock et al. | Nonparametric variable importance for time-to-event outcomes with application to prediction of HIV infection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |