CN114999630A - 基于多源数据融合的肝移植受者预后预测装置 - Google Patents

基于多源数据融合的肝移植受者预后预测装置 Download PDF

Info

Publication number
CN114999630A
CN114999630A CN202210636049.0A CN202210636049A CN114999630A CN 114999630 A CN114999630 A CN 114999630A CN 202210636049 A CN202210636049 A CN 202210636049A CN 114999630 A CN114999630 A CN 114999630A
Authority
CN
China
Prior art keywords
data
tumor
feature
representation
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210636049.0A
Other languages
English (en)
Inventor
吴健
欧阳振球
徐红霞
应豪超
冯芮苇
黄博
程奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210636049.0A priority Critical patent/CN114999630A/zh
Publication of CN114999630A publication Critical patent/CN114999630A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于多源数据融合的肝移植受者预后预测装置,多源数据融合能够充分整合肝移植受者的影像学、肿瘤标志物、肿瘤免疫组化和肿瘤多组学等多源数据信息,相比现有的肝移植受者表征方式,能够容纳更多数据域的生物信息,同时也充分考虑肝移植受者在多源数据层面其反应的信息之间的潜在联系;提出的基于多源数据融合的肝移植受者预后预测模型,在高效提取个体特异性的多源数据的同时,能够充分考虑不同数据源之间的一致性与互补性,以全方面地考虑肝移植受者的病情,从而实现更加精准的肝移植受者预后预测。

Description

基于多源数据融合的肝移植受者预后预测装置
技术领域
本发明属于肝移植受者预后检测与评价技术领域,具体涉及一种基于多源数据融合的肝移植受者预后预测装置。
背景技术
肝癌是一种全身性疾病,肝癌发展到一定阶段,肿瘤细胞可能转移到其他器官(肺部、骨骼、脑等)。进行肝移植前,现阶段的检查检测不到,术后因免疫抑制状态,潜伏在其他器官的微病灶可能导致肝癌复发。不少研究者在这一问题上做出了很多努力和贡献,尝试进行术后受者的胸部、上腹部CT、肿瘤多组学数据或肿瘤标志物AFP表达的分析对患者进行预后是否好转的预测。
近年来,深度学习技术在各行各业迅猛发展,结合深度学习技术进行医疗辅助成为了越来越多的人努力的目标和方向。如何利用深度学习探究肝移植受者的多源数据域之间可能存在的联系以实现更加精准的肝移植受者预后预测,将是一项令人期待的工作。
具体来看,对于每个术后受者,从不同数据域的检测得到的数据均隐含着两种语义信息:一致性信息,即不同数据域的数据共享的一致的语义信息,可以体现为共享一个语义特征空间;互补性信息,即一个数据域的数据包含了其他数据域所缺乏的信息,可以利用多个数据域之间的互补信息来增强模型。如何引入深度学习模型充分利用每个术后受者其多源数据域数据来实现更高效的特征提取并充分挖掘不同数据域之间一致性和互补性,以综合多数据域的信息更加全面地表述肝移植术后受者对象的疾病情况,从而能够实现更加精准的肝移植受者预后预测。
专利文献CN113140318A公开了一种基于深度学习的肝移植术后肺部感染风险预测方法,包括:,S1-建立数据集:S2-定制神经网络模型;通过精心选择术前、术中及术后的综合数据,包括一般资料、临床特征、实验室检验、影像学检查和麻醉记录,合理处理数据缺失、错漏等问题,构建完备的数据集,按照数据集的规模定义合适的神经网络分类模型,通过迭代训练直至神经网络收敛,得到的分类模型能够对新病例的预期寿命进行较准确的预测,针对不同情况采取不同治疗措施;该方法虽然利用深度学习技术实现对肝移植术后肺部感染预测模型的构建和评估,由于没有结合病理相关数据进行预测,移植后的其他一些风险,如是否排斥并不清楚,即不能实现对移植后免疫情况的预测。
发明内容
鉴于上述,本发明目的是提供一种基于多源数据的肝移植受者预后预测装置,以解决以往单源检测得到的数据不足以反应肝移植受者全面信息或者未同时考虑多源数据的一致性和互补性而导致移植受者预后预测准确性差的问题。
为实现上述发明目的,实施例提供的一种基于多源数据融合的肝移植受者预后预测装置,包括:
包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述存储器中存有参数优化后的预后预测模型,所述预后预测模型包括影像学特征提取模块、多组学特征提取模块、肿瘤特征离散化模块、肿瘤离散特征提取模块、特征融合模块、预测模块;
所述处理器执行所述计算机程序时实现以下步骤:
获取肝移植受者的影像学数据、肿瘤标志物表达量、肿瘤免疫组化表达量和肿瘤多组学数据,并将肿瘤多组学数据表征为细胞系多关系图;
利用预后预测模型进行预后预测,包括:利用影像学特征提取模块对影像学数据进行特征提取以输出影像学数据表征;利用多组学特征提取模块对细胞系多关系图进行特征提取以输出多组学数据表征;利用肿瘤特征离散化模块对肿瘤标志物表达量和肿瘤免疫组化表达量进行离散化处理,以得到肿瘤离散特征;利用肿瘤离散特征提取模块对肿瘤离散特征进行特征提取以输出肿瘤离散数据表征;利用特征融合模块对影像学数据表征、多组学数据表征以及肿瘤离散数据表征进行融合处理,以输出多源数据一致性表征和多源数据交互性表征;利用预测模块对多源数据一致性表征和多源数据交互性表征进行预测计算以输出预后预测结果。
在一个实施例中,所述肿瘤多组学数据包括基因组学数据、蛋白组学数据、代谢组学数据,将肿瘤多组学数据表征为细胞系多关系图,包括:
以基因作为结点,并以基因组学数据作为结点特征,依据基因组学数据确定的基因之间的相关性、根据蛋白组学数据确定的基因之间的蛋白相互作用、根据代谢组学数据确定的基因之间的代谢通路信息构建结点之间的连边,依此构建细胞系多关系图。
在一个实施例中,所述影像学特征提取模块采用基于ResNet为核的LSTM架构模型,将影像学数据构建成图像批次序列后,利用ResNet提取图像批次序列的图像特征序列,然后利用LSTM对图像特征序列进行特征提取以得到影像学数据表征。
在一个实施例中,所述多组学特征提取模块采用基于Graclus层次化池化的图卷积神经网络结构,即利用每层图卷积神经网络对细胞系多关系图进行特征提取后,利用Graclus池化层对特征提取后的细胞系多关系图进行粗化得到粗化后的细胞系多关系图,将粗化后的细胞系多关系图中每个结点特征连接一起作为多组学数据表征。
在一个实施例中,所述基于Graclus层次化池化的图卷积神经网络结构包括至少3层GATv2图卷积层,每个GATv2图卷积层包括图卷积操作和Graclus池化操作,利用图卷积操作对输入的粗化后细胞系多关系图对应的多种结点特征、多种边组成的矩阵进行卷积运算以更新结点特征后,再利用Graclus池化操作将经过图卷积操作得到的细胞系多关系图进行粗化处理以更新图结构和结点特征,得到粗化后细胞系多关系图;将最后的粗化后细胞系多关系图中的结点特征进行连接操作以进行全局池化,得到多组学数据表征。
在一个实施例中,所述肿瘤特征离散化模块采用XGboost模型,利用XGboost模型分别对输入的肿瘤标志物表达量和肿瘤免疫组化表达量进行离散化处理,以输出肿瘤离散特征,肿瘤标志物表达量对应的肿瘤离散特征属于一种特征域,肿瘤免疫组化表达量对应的肿瘤离散特征属于另外一种特征域。
在一个实施例中,所述肿瘤离散特征提取模块包括Embedding层和基于Cross网络的特征交叉层,并引入特征域感知,利用特征域感知和Embedding层将不同特征域的肿瘤离散数据特征分别转换为对应特征域下的嵌入特征,并将不同特征域的嵌入特征连接为一个特征向量,接着利用多层特征交叉层对特征向量进行特征交叉,以得到肿瘤离散数据表征。
在一个实施例中,所述特征融合模块包括多源数据一致性融合模块、多源数据互补性融合模块,所述多源数据一致性融合模块对输入的影像学数据表征、多组学数据表征以及肿瘤离散数据表征采用权重不同的域适应的映射头分别进行特征映射,得到三种数据域对应的三种数据表征,通过将三种数据表征中两两数据表征之间的互信息之和最大化保证每种数据域对应数据表征的一致性,进而得到每种数据域的一致性表征,三种数据域一致性表征求和组成多源数据一致性表征,其中,数据域包括影像学数据域、多组学数据域、肿瘤离散数据域;
所述多源数据互补性融合模块对输入的影像学数据表征、多组学数据表征以及肿瘤离散数据表征采用权重不同的域适应的映射头分别进行特征映射,得到三种数据域对应的三种数据表征,通过将三种数据表征中两两数据表征之间的互信息之和最小化保证每种数据域对应数据表征的互补性,进而得到每种数据域的互补性表征,三种数据域互补性表征连接组成多源数据互补性表征。
在一个实施例中,所述预后预测模型的参数优化过程,包括:
首先,获取样本数据,并以肝移植受者病情是否好转作为样本数据的真值标签,其中,样本数据包括肝移植受者的影像学数据、肿瘤标志物表达量、肿瘤免疫组化表达量和肿瘤多组学数据;
然后,利用肿瘤标志物表达量、肿瘤免疫组化表达量并以真值标签进行监督的情况下,对肿瘤特征离散化模块进行预训练,以优化肿瘤特征离散化模块的参数;
最后,固定肿瘤特征离散化模块的参数不同,并构建总损失,利用样本数据并以真值标签进行监督的情况下,优化预后预测模型中影像学特征提取模块、多组学特征提取模块、肿瘤离散特征提取模块、特征融合模块以及预测模块的参数;
其中,总损失包括为预测损失、一致性损失以及交互性损失的加权求和;预测损失为预测模块输出的预后预测结果与真值标签的交叉熵;一致性损失为多源数据一致性表征的信息熵;交互性损失为多源数据交互性表征的信息熵。
为实现上述发明目的,实施例还提供了一种基于多源数据融合的肝移植受者预后预测装置,包括:
获取单元,用于获取肝移植受者的影像学数据、肿瘤标志物表达量、肿瘤免疫组化表达量和肿瘤多组学数据;
表征单元,用于将肿瘤多组学数据表征为细胞系多关系图;
预测单元,用于利用预后预测模型进行预后预测。
与现有技术相比,本发明具有的有益效果至少包括:
多源数据融合能够充分整合肝移植受者的影像学数据、肿瘤标志物表达量、肿瘤免疫组化表达量和肿瘤多组学数据等多源数据信息,相比现有的肝移植受者表征方式,能够容纳更多数据域的生物信息,同时也充分考虑肝移植受者在多源数据层面其反应的信息之间的潜在联系;本发明提出的基于多源数据融合的预后预测模型,在高效提取个体特异性的多源数据的同时,能够充分考虑不同数据源之间的一致性与互补性,以全方面地考虑肝移植受者的病情,从而实现更加精准的肝移植受者预后预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的预后预测模型的结构示意图;
图2是实施例提供的利用预后预测模型进行肝移植受者预后预测的流程图;
图3是实施例提供的基于多源数据融合的肝移植受者预后预测装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为实现对肝移植受者预后预测的准确性,实施例提供了一种基于多源数据融合的预后预测模型,该预后预测模型可用于对肝移植受者的预后预测。
图1是实施例提供的预后预测模型的结构示意图。如图1所示,实施例提供的预后预测模型包括影像学特征提取模块、多组学特征提取模块、肿瘤特征离散化模块、肿瘤离散特征提取模块、特征融合模块、预测模块。
实施例中,影像学特征提取模块用于对影像学数据进行特征提取以输出影像学数据表征。可选地,影像学特征提取模块采用基于ResNet为核的LSTM架构模型,接收肝移植受者的影像学数据,通过由上至下的图像分割方法对影像学数据进行分割并构建成一个图像批次(patch)序列,利用ResNet提取图像patch序列的图像特征序列,然后利用LSTM对图像特征序列进行特征提取以得到影像学数据表征La
实施例中,多组学特征提取模块用于对细胞系多关系图进行特征提取以输出多组学数据表征。可选地,多组学特征提取模块采用基于Graclus层次化池化的图卷积神经网络结构,即利用每层图卷积神经网络对细胞系多关系图进行特征提取后,利用Graclus池化层对特征提取后的细胞系多关系图进行粗化得到粗化后的细胞系多关系图,将粗化后的细胞系多关系图中每个结点特征连接一起作为多组学数据表征。
其中,细胞系多关系图基于肿瘤多组学构建,其中,肿瘤多组学数据包括基因组学数据、蛋白组学数据、代谢组学数据,在构建细胞系多关系图时,将肿瘤多组学数据表征为细胞系多关系图的结点特征和多种边的特征,即以基因作为细胞系多关系图的结点,并以基因组学数据作为结点特征,依据基因组学数据确定的基因之间的相关性、根据蛋白组学数据确定的基因之间的蛋白相互作用、根据代谢组学数据确定的基因之间的代谢通路信息构建结点之间的连边,依此构建细胞系多关系图。
在一个可能的实施方式中,多组学特征提取模块采用的基于Graclus层次化池化的图卷积神经网络结构包括至少3层GATv2图卷积层,每个GATv2图卷积层包括图卷积操作和Graclus池化操作,利用GATv2图卷积层进行特征提取的过程包括:利用图卷积操作对输入的粗化后细胞系多关系图对应的多种结点特征、多种边组成的矩阵进行卷积运算以更新结点特征后,再利用Graclus池化操作将经过图卷积操作得到的细胞系多关系图进行粗化处理以更新图结构和结点特征,得到粗化后细胞系多关系图;将最后的粗化后细胞系多关系图中的结点特征进行连接操作以进行全局池化,得到多组学数据表征Lb
实施例中,肿瘤特征离散化模块用于对肿瘤标志物表达量和肿瘤免疫组化表达量进行离散化处理,以得到肿瘤离散特征。可选地,肿瘤特征离散化模块采用XGboost模型,利用XGboost模型分别对输入的肿瘤标志物表达量和肿瘤免疫组化表达量进行离散化处理,以输出非线性的肿瘤离散特征,其中,肿瘤标志物表达量对应的肿瘤离散特征属于一种特征域,肿瘤免疫组化表达量对应的肿瘤离散特征属于另外一种特征域。
实施例中,肿瘤离散特征提取模块用于对肿瘤离散特征进行特征提取以输出肿瘤离散数据表征。可选地,肿瘤离散特征提取模块包括Embedding层和基于Cross网络的特征交叉层,并引入特征域感知,利用特征域感知和Embedding层将不同特征域的肿瘤离散数据特征分别转换为对应特征域下的嵌入特征(Embeddings),并将不同特征域的嵌入特征连接为一个特征向量,接着利用多层特征交叉层对特征向量进行特征交叉,以得到肿瘤离散数据表征Lc
实施例中,特征融合模块用于对影像学数据表征、多组学数据表征以及肿瘤离散数据表征进行融合处理,以输出多源数据一致性表征和多源数据交互性表征。可选地,特征融合模块包括多源数据一致性融合模块、多源数据互补性融合模块,多源数据一致性融合模块对输入的影像学数据表征La、多组学数据表征Lb以及肿瘤离散数据表征Lc采用权重不同的域适应的映射头分别进行特征映射,得到三种数据域(影像学数据域、多组学数据域、肿瘤离散数据域)对应的三种数据表征,计算两两数据表征之间的互信息,以得到三种互信息,并以通过将三种数据表征中两两数据表征之间的互信息之和(三种互信息之和)最大化保证每种数据域对应数据表征的一致性,进而得到每种数据域的一致性表征,三种数据域一致性表征求和组成多源数据一致性表征。
多源数据互补性融合模块对输入的影像学数据表征La、多组学数据表征Lb以及肿瘤离散数据表征Lc采用权重不同的域适应的映射头分别进行特征映射,得到三种数据域对应的三种数据表征,通过将三种数据表征中两两数据表征之间的互信息之和(三种互信息之和)最小化保证每种数据域对应数据表征的互补性,进而得到每种数据域的互补性表征,三种数据域互补性表征连接组成多源数据互补性表征。
实施例中,预测模块用于对多源数据一致性表征和多源数据交互性表征进行预测计算以输出预后预测结果。可选地,预测模块可以采用全连接网络,即利用全连接网络对多源数据一致性表征和多源数据交互性表征的拼接结果进行预测计算以得到预后预测结果。
上述构建的预后预测模型在被应用于肝移植受者预后预测之前,还需要进行参数优化,具体地,参数优化包括:
(a)获取样本数据,并以肝移植受者病情是否好转作为样本数据的真值标签。
实施例中,样本数据包括肝移植受者的影像学数据、肿瘤标志物表达量、肿瘤免疫组化表达量和肿瘤多组学数据,其中,肿瘤多组学数据包括基因组学数据、蛋白组学数据、代谢组学数据。
实施例中,样本数据来自于临床肝移植受者的多源数据,例如:采集肝移植受者预后的血液样本进行多组学的数据分析,其中基因组学数据包括基因表达量、拷贝数变异情况和基因突变情况;STRING数据集记录人类基因/蛋白之间相互作用,GSEA数据集记录人类代谢组学信息通路的代谢组学信息;受者预后进行CT检测获得肝脏部位的影像学数据;活性检测受者的肿瘤样本,进行免疫组织化学实验得到肿瘤分期、恶良等情况;检测肿瘤标志物表达量。
实施例中,还按照上述方式将样本数据中的肿瘤多组学数据表征成细胞系多关系图。
(b)利用肿瘤标志物表达量、肿瘤免疫组化表达量并以真值标签进行监督的情况下,对肿瘤特征离散化模块进行预训练,以优化肿瘤特征离散化模块的参数。
实施例中,将肿瘤标志物表达量、肿瘤免疫组化表达量同时输入至肿瘤特征离散化模块中,分别得到对应的肝移植受者病情好转的预测概率,并分别计算与真值标签的交叉熵,以作为损失函数来更新肿瘤特征离散化模块的参数。随后,可使用预训练后的肿瘤特征离散化模块将肿瘤标志物表达量、肿瘤免疫组化表达量分别离散化为其对应的非线性肿瘤离散化特征。
(c)固定肿瘤特征离散化模块的参数不同,并构建总损失,利用样本数据并以真值标签进行监督的情况下,优化预后预测模型中影像学特征提取模块、多组学特征提取模块、肿瘤离散特征提取模块、特征融合模块以及预测模块的参数。
具体地,在实施例中,以肝移植受者的影像学数据、肿瘤标志物表达量、肿瘤免疫组化表达量和肿瘤多组学数据作为样本数据,以肝移植受者病情是否好转作为真值标签,对预后预测模型进行参数优化。在参数优化过程中,将多源数据一致性表征Ld和多源数据交互性表征Le结合输至预测模块,输出表示肝移植受者病况(好转/为好转)的预后预测结果。通过计算不同数据域的一致性表征的信息熵得到一致性损失,计算不同数据域的互补性表征的信息熵作为互补性损失,通过预测模块输出的预后预测结果与真值标签的交叉熵作为预测损失,使用按权求和一致性损失、互补性损失以及预测损失得到总损失,利用总损失更新影像学特征提取模块、多组学特征提取模块、肿瘤离散特征提取模块、特征融合模块以及预测模块的参数。
上述构建的预后预测模型,在高效提取个体特异性的多源数据的同时,能够充分考虑不同数据源之间的一致性与互补性,以全方面地考虑肝移植受者的病情,从而实现更加精准的肝移植受者预后预测。
实施例中,基于上述构建的预后预测模型,还提供了一种基于多源数据融合的肝移植受者预后预测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行所述计算机程序时实现基于多源数据融合的肝移植受者预后预测过程,具体包括以下步骤:
210,获取肝移植受者的影像学数据、肿瘤标志物表达量、肿瘤免疫组化表达量和肿瘤多组学数据;
220,将肿瘤多组学数据表征为细胞系多关系图。
步骤120中将肿瘤多组学数据表征为细胞系多关系图的方式与上述构建预后预测模型阶段记载的方式相同,此处不再赘述。
230,利用预后预测模型进行预后预测。
具体地,利用预后预测模型进行预后预测包括:利用影像学特征提取模块对影像学数据进行特征提取以输出影像学数据表征La;利用多组学特征提取模块对细胞系多关系图进行特征提取以输出多组学数据表征Lb;利用肿瘤特征离散化模块对肿瘤标志物表达量和肿瘤免疫组化表达量进行离散化处理,以得到肿瘤离散特征;利用肿瘤离散特征提取模块对肿瘤离散特征进行特征提取以输出肿瘤离散数据表征Lc;利用特征融合模块对影像学数据表征La、多组学数据表征Lb以及肿瘤离散数据表征Lc进行融合处理,以输出多源数据一致性表征Ld和多源数据交互性表征Le;利用预测模块对多源数据一致性表征Ld和多源数据交互性表征Le进行预测计算以输出预后预测结果。
实际应用中,存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现基于多源数据融合的肝移植受者预后预测步骤。
基于上述构建的预后预测模型,实施例还提供了一种基于多源数据融合的肝移植受者预后预测装置,如图3所示,包括:
获取单元310,用于获取肝移植受者的影像学数据、肿瘤标志物表达量、肿瘤免疫组化表达量和肿瘤多组学数据。
表征单元320,用于将肿瘤多组学数据表征为细胞系多关系图。
预测单元330,用于利用预后预测模型进行预后预测。
具体地,利用影像学特征提取模块对影像学数据进行特征提取以输出影像学数据表征La;利用多组学特征提取模块对细胞系多关系图进行特征提取以输出多组学数据表征Lb;利用肿瘤特征离散化模块对肿瘤标志物表达量和肿瘤免疫组化表达量进行离散化处理,以得到肿瘤离散特征;利用肿瘤离散特征提取模块对肿瘤离散特征进行特征提取以输出肿瘤离散数据表征Lc;利用特征融合模块对影像学数据表征La、多组学数据表征Lb以及肿瘤离散数据表征Lc进行融合处理,以输出多源数据一致性表征Ld和多源数据交互性表征Le;利用预测模块对多源数据一致性表征Ld和多源数据交互性表征Le进行预测计算以输出预后预测结果。
需要说明的是,上述实施例提供的基于多源数据融合的肝移植受者预后预测装置在进行肝移植受者预后预测时,应以上述各功能单元的划分进行举例说明,可以根据需要将上述功能分配由不同的功能单元完成,即在终端或服务器的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。
上述实施例提供的基于多源数据融合的肝移植受者预后预测装置,多源数据融合能够充分整合肝移植受者的影像学、肿瘤标志物、肿瘤免疫组化和肿瘤多组学等多源数据信息,相比现有的肝移植受者表征方式,能够容纳更多数据域的生物信息,同时也充分考虑肝移植受者在多源数据层面其反应的信息之间的潜在联系,进而使得肝移植受者预后预测结果更加准确。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于多源数据融合的肝移植受者预后预测装置,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述存储器中存有参数优化后的预后预测模型,所述预后预测模型包括影像学特征提取模块、多组学特征提取模块、肿瘤特征离散化模块、肿瘤离散特征提取模块、特征融合模块、预测模块;
所述处理器执行所述计算机程序时实现以下步骤:
获取肝移植受者的影像学数据、肿瘤标志物表达量、肿瘤免疫组化表达量和肿瘤多组学数据,并将肿瘤多组学数据表征为细胞系多关系图;
利用预后预测模型进行预后预测,包括:利用影像学特征提取模块对影像学数据进行特征提取以输出影像学数据表征;利用多组学特征提取模块对细胞系多关系图进行特征提取以输出多组学数据表征;利用肿瘤特征离散化模块对肿瘤标志物表达量和肿瘤免疫组化表达量进行离散化处理,以得到肿瘤离散特征;利用肿瘤离散特征提取模块对肿瘤离散特征进行特征提取以输出肿瘤离散数据表征;利用特征融合模块对影像学数据表征、多组学数据表征以及肿瘤离散数据表征进行融合处理,以输出多源数据一致性表征和多源数据交互性表征;利用预测模块对多源数据一致性表征和多源数据交互性表征进行预测计算以输出预后预测结果。
2.根据权利要求1所述的基于多源数据融合的肝移植受者预后预测装置,其特征在于,所述肿瘤多组学数据包括基因组学数据、蛋白组学数据、代谢组学数据,将肿瘤多组学数据表征为细胞系多关系图,包括:
以基因作为结点,并以基因组学数据作为结点特征,依据基因组学数据确定的基因之间的相关性、根据蛋白组学数据确定的基因之间的蛋白相互作用、根据代谢组学数据确定的基因之间的代谢通路信息构建结点之间的连边,依此构建细胞系多关系图。
3.根据权利要求1所述的基于多源数据融合的肝移植受者预后预测装置,其特征在于,所述影像学特征提取模块采用基于ResNet为核的LSTM架构模型,将影像学数据构建成图像批次序列后,利用ResNet提取图像批次序列的图像特征序列,然后利用LSTM对图像特征序列进行特征提取以得到影像学数据表征。
4.根据权利要求1所述的基于多源数据融合的肝移植受者预后预测装置,其特征在于,所述多组学特征提取模块采用基于Graclus层次化池化的图卷积神经网络结构,即利用每层图卷积神经网络对细胞系多关系图进行特征提取后,利用Graclus池化层对特征提取后的细胞系多关系图进行粗化得到粗化后的细胞系多关系图,将粗化后的细胞系多关系图中每个结点特征连接一起作为多组学数据表征。
5.根据权利要求1所述的基于多源数据融合的肝移植受者预后预测装置,其特征在于,所述基于Graclus层次化池化的图卷积神经网络结构包括至少3层GATv2图卷积层,每个GATv2图卷积层包括图卷积操作和Graclus池化操作,利用图卷积操作对输入的粗化后细胞系多关系图对应的多种结点特征、多种边组成的矩阵进行卷积运算以更新结点特征后,再利用Graclus池化操作将经过图卷积操作得到的细胞系多关系图进行粗化处理以更新图结构和结点特征,得到粗化后细胞系多关系图;将最后的粗化后细胞系多关系图中的结点特征进行连接操作以进行全局池化,得到多组学数据表征。
6.根据权利要求1所述的基于多源数据融合的肝移植受者预后预测装置,其特征在于,所述肿瘤特征离散化模块采用XGboost模型,利用XGboost模型分别对输入的肿瘤标志物表达量和肿瘤免疫组化表达量进行离散化处理,以输出肿瘤离散特征,肿瘤标志物表达量对应的肿瘤离散特征属于一种特征域,肿瘤免疫组化表达量对应的肿瘤离散特征属于另外一种特征域;
所述肿瘤离散特征提取模块包括Embedding层和基于Cross网络的特征交叉层,并引入特征域感知,利用特征域感知和Embedding层将不同特征域的肿瘤离散数据特征分别转换为对应特征域下的嵌入特征,并将不同特征域的嵌入特征连接为一个特征向量,接着利用多层特征交叉层对特征向量进行特征交叉,以得到肿瘤离散数据表征。
7.根据权利要求1所述的基于多源数据融合的肝移植受者预后预测装置,其特征在于,所述特征融合模块包括多源数据一致性融合模块、多源数据互补性融合模块,所述多源数据一致性融合模块对输入的影像学数据表征、多组学数据表征以及肿瘤离散数据表征采用权重不同的域适应的映射头分别进行特征映射,得到三种数据域对应的三种数据表征,通过将三种数据表征中两两数据表征之间的互信息之和最大化保证每种数据域对应数据表征的一致性,进而得到每种数据域的一致性表征,三种数据域一致性表征求和组成多源数据一致性表征,其中,数据域包括影像学数据域、多组学数据域、肿瘤离散数据域;
所述多源数据互补性融合模块对输入的影像学数据表征、多组学数据表征以及肿瘤离散数据表征采用权重不同的域适应的映射头分别进行特征映射,得到三种数据域对应的三种数据表征,通过将三种数据表征中两两数据表征之间的互信息之和最小化保证每种数据域对应数据表征的互补性,进而得到每种数据域的互补性表征,三种数据域互补性表征连接组成多源数据互补性表征。
8.根据权利要求1所述的基于多源数据融合的肝移植受者预后预测装置,其特征在于,所述预后预测模型的参数优化过程,包括:
首先,获取样本数据,并以肝移植受者病情是否好转作为样本数据的真值标签,其中,样本数据包括肝移植受者的影像学数据、肿瘤标志物表达量、肿瘤免疫组化表达量和肿瘤多组学数据;
然后,利用肿瘤标志物表达量、肿瘤免疫组化表达量并以真值标签进行监督的情况下,对肿瘤特征离散化模块进行预训练,以优化肿瘤特征离散化模块的参数;
最后,固定肿瘤特征离散化模块的参数不同,并构建总损失,利用样本数据并以真值标签进行监督的情况下,优化预后预测模型中影像学特征提取模块、多组学特征提取模块、肿瘤离散特征提取模块、特征融合模块以及预测模块的参数;
其中,总损失包括为预测损失、一致性损失以及交互性损失的加权求和;预测损失为预测模块输出的预后预测结果与真值标签的交叉熵;一致性损失为多源数据一致性表征的信息熵;交互性损失为多源数据交互性表征的信息熵。
9.一种基于多源数据融合的肝移植受者预后预测装置,其特征在于,包括:
获取单元,用于获取肝移植受者的影像学数据、肿瘤标志物表达量、肿瘤免疫组化表达量和肿瘤多组学数据;
表征单元,用于将肿瘤多组学数据表征为细胞系多关系图;
预测单元,用于利用预后预测模型进行预后预测,包括:利用影像学特征提取模块对影像学数据进行特征提取以输出影像学数据表征;利用多组学特征提取模块对细胞系多关系图进行特征提取以输出多组学数据表征;利用肿瘤特征离散化模块对肿瘤标志物表达量和肿瘤免疫组化表达量进行离散化处理,以得到肿瘤离散特征;利用肿瘤离散特征提取模块对肿瘤离散特征进行特征提取以输出肿瘤离散数据表征;利用特征融合模块对影像学数据表征、多组学数据表征以及肿瘤离散数据表征进行融合处理,以输出多源数据一致性表征和多源数据交互性表征;利用预测模块对多源数据一致性表征和多源数据交互性表征进行预测计算以输出预后预测结果。
CN202210636049.0A 2022-06-07 2022-06-07 基于多源数据融合的肝移植受者预后预测装置 Pending CN114999630A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210636049.0A CN114999630A (zh) 2022-06-07 2022-06-07 基于多源数据融合的肝移植受者预后预测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210636049.0A CN114999630A (zh) 2022-06-07 2022-06-07 基于多源数据融合的肝移植受者预后预测装置

Publications (1)

Publication Number Publication Date
CN114999630A true CN114999630A (zh) 2022-09-02

Family

ID=83032202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210636049.0A Pending CN114999630A (zh) 2022-06-07 2022-06-07 基于多源数据融合的肝移植受者预后预测装置

Country Status (1)

Country Link
CN (1) CN114999630A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110509A (zh) * 2022-11-15 2023-05-12 浙江大学 基于组学一致性预训练的药物敏感性预测方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110509A (zh) * 2022-11-15 2023-05-12 浙江大学 基于组学一致性预训练的药物敏感性预测方法和装置
CN116110509B (zh) * 2022-11-15 2023-08-04 浙江大学 基于组学一致性预训练的药物敏感性预测方法和装置

Similar Documents

Publication Publication Date Title
US20220367053A1 (en) Multimodal fusion for diagnosis, prognosis, and therapeutic response prediction
CN112364880B (zh) 基于图神经网络的组学数据处理方法、装置、设备及介质
Wang et al. SolidBin: improving metagenome binning with semi-supervised normalized cut
CN113782089B (zh) 基于多组学数据融合的药物敏感性预测方法和装置
Rajaraman et al. Improved semantic segmentation of tuberculosis—consistent findings in chest x-rays using augmented training of modality-specific u-net models with weak localizations
CN114255886B (zh) 基于多组学相似度引导的药物敏感性预测方法和装置
Azuaje et al. Connecting histopathology imaging and proteomics in kidney cancer through machine learning
Ghoniem et al. Multi-modal evolutionary deep learning model for ovarian cancer diagnosis
CN114398983A (zh) 分类预测方法、装置、设备、存储介质及计算机程序产品
CN112543934A (zh) 一种确定异常程度的方法、相应的计算机可读介质和分布式癌症分析系统
CN114999630A (zh) 基于多源数据融合的肝移植受者预后预测装置
CN114649097A (zh) 一种基于图神经网络及组学信息的药物功效预测方法
WO2023025956A1 (en) Method and system for deconvolution of bulk rna-sequencing data
Wekesa et al. A review of multi-omics data integration through deep learning approaches for disease diagnosis, prognosis, and treatment
Sharma et al. System-wide pollution of biomedical data: consequence of the search for hub genes of hepatocellular carcinoma without spatiotemporal consideration
AlGhamdi et al. Al-biruni Earth radius optimization with transfer learning based histopathological image analysis for lung and colon cancer detection
Aziz et al. A novel hybrid approach for classifying osteosarcoma using deep feature extraction and multilayer perceptron
Kowald et al. Transfer learning of clinical outcomes from preclinical molecular data, principles and perspectives
CN115631847B (zh) 基于多组学特征的早期肺癌诊断系统、存储介质及设备
CN114664382B (zh) 多组学联合分析方法、装置及计算设备
Olarte et al. Automatic identification algorithm of equivalent electrochemical circuit based on electroscopic impedance data for a lead acid battery
CN116978464A (zh) 数据处理方法、装置、设备以及介质
CN114565919B (zh) 基于数字病理图像的肿瘤微环境空间关系建模系统与方法
Wartmann et al. Bias-invariant RNA-sequencing metadata annotation
González Calabozo et al. Gene Expression Array Exploration Using-Formal Concept Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination