CN111028939B - 一种基于深度学习的多组学智能诊断系统 - Google Patents

一种基于深度学习的多组学智能诊断系统 Download PDF

Info

Publication number
CN111028939B
CN111028939B CN201911116750.4A CN201911116750A CN111028939B CN 111028939 B CN111028939 B CN 111028939B CN 201911116750 A CN201911116750 A CN 201911116750A CN 111028939 B CN111028939 B CN 111028939B
Authority
CN
China
Prior art keywords
omics
data
module
diagnosis
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911116750.4A
Other languages
English (en)
Other versions
CN111028939A (zh
Inventor
董守斌
谭凯文
胡金龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911116750.4A priority Critical patent/CN111028939B/zh
Publication of CN111028939A publication Critical patent/CN111028939A/zh
Application granted granted Critical
Publication of CN111028939B publication Critical patent/CN111028939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的多组学智能诊断系统,包括:数据导入模块,用于加载多组学数据和临床数据,并对数据进行预处理;样本相似性模块,用于构建多组学样本相似性矩阵;智能诊断训练模块,利用自动编码器进行特征表示,利用多视图注意力机制神经网络进行多组学特征融合,并将样本相似性模块结果整合到训练过程中,最终得到最优诊断模型;智能诊断预测模块,用于依据多组学数据进行智能诊断,并提供结果解释。本发明将深度学习技术与多组学数据结合,提供疾病的诊断结果及其可解释性,从而形成一种基于深度学习的多组学智能诊断系统,提升疾病诊断能力,提供诊断结果可解释性。

Description

一种基于深度学习的多组学智能诊断系统
技术领域
本发明涉及深度学习和生物医学的技术领域,尤其是指一种基于深度学习的多组学智能诊断系统。
背景技术
随着新一代基因测序技术的发展,各类组学测序成本急剧下降,大量组学数据得以生成。传统疾病诊断系统中常对单个组学数据进行统计分析,但单个组学无法全方位描述疾病,因而同时考虑多种组学数据是疾病诊断的新趋势。但不同组学间存在异构且互补的信息,因此如何基于多组学数据进行疾病诊断是亟待解决的一个课题。
目前多组学诊断系统主要分为三类:1)基于统计方法的系统:计算CDDS值,将CDDS值与预存的CDDS基准值进行对比,从而进行疾病预测。2)基于传统机器学习方法的系统:利用贝叶斯模型或贝叶斯网络,集成学习、多核学习、多视图矩阵分解等方法对多组学数据建模并做出预测。3)基于深度学习方法的系统:将多组学视为多个模态,各组学分别设计神经网络进行初步处理,随后设计整合网络融合多组学并做出预测。总体而言,现有的多组学疾病诊断系统大都将各组学视为独立部分进行前序处理,后续多组学融合部分也只考虑简单融合。这意味着目前的系统无法充分捕获组学间的异构与互补特性,从而导致疾病诊断准确率低的问题。另一方面,目前的系统大都不具备结果可解释性,无法对模型所作决策提供证据支持。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于深度学习的多组学智能诊断系统,突破传统单组学系统信息源单一的局限性,充分捕获多组学间的异构与互补特性,从而增强疾病的智能诊断能力,同时,为诊断结果提供了一定程度的可解释性说明,增强了诊断结果的可信度。
为实现上述目的,本发明所提供的技术方案为:一种基于深度学习的多组学智能诊断系统,包括:
数据导入模块,用于加载多组学数据和临床数据,并对数据进行预处理;
样本相似性模块,用于构建多组学样本相似性矩阵,利用相似性网络融合技术融合样本在不同组学下的相似性;
智能诊断训练模块,利用自动编码器将样本在不同组学下的表示转换为相应的向量形式,利用多视图注意力机制神经网络进行多组学特征融合,并将样本相似性模块结果整合到智能诊断训练过程中,最终得到最优诊断模型;
智能诊断预测模块,用于依据多组学数据进行疾病智能诊断,并提供诊断结果的解释。
所述数据导入模块包括数据加载模块、数据预处理模块,其中:
所述数据加载模块从本地读取多组学和临床数据,包括CSV、RData、xlsx格式,其中,多组学数据包括基因组学、转录组学、蛋白质组学、表观基因组学以及影像组学,临床数据包括生存时间、复发时间;
所述数据预处理模块用于提取多组学共享的样本、针对非影像组学去除空缺特征数超过20%的样本、去除空缺样本数超过20%的特征、均值填补空缺值、去除低均值和低方差特征、去除离群特征、数据归一化,针对影像数据则使用pyradiomics工具包提取特征。
所述样本相似性模块,用于构建多组学样本相似性矩阵,利用相似性网络融合技术融合样本在不同组学下的相似性,包括以下步骤:
1)基于核函数分别构建各组学的单组学样本相似性矩阵:
Figure BDA0002274282290000031
Figure BDA0002274282290000032
其中,F(v)为组学v的单组学样本相似性矩阵,S(v)为组学v的样本距离矩阵,ρ(v)(·)为组学v中的样本距离度量方法;
Figure BDA0002274282290000033
是尺度参数,用于调整距离尺度,与距离度量方法ρ(v)(·)相关;μ(v)是组学v的超参数,i,j,h为样本编号,
Figure BDA0002274282290000034
为组学v下样本i的表示;
2)基于相似性网络融合方法融合各组学的单组学样本相似性矩阵,构建多组学样本相似性矩阵:
首先,通过K最近邻方法计算各组学的局部单组学样本相似性矩阵:
Figure BDA0002274282290000035
其中,L(v)为组学v的局部单组学样本相似性矩阵,
Figure BDA0002274282290000036
为组学v中
Figure BDA0002274282290000037
的K个邻居的集合;
然后,进行迭代融合:
Figure BDA0002274282290000038
Figure BDA0002274282290000039
其中,F为多组学样本相似性矩阵,W为总的多组学类型数量。
所述智能诊断训练模块包括特征表示模块、多组学融合预测模块,其中:
所述特征表示模块,用于对样本进行特征表示,利用自动编码器将样本在不同组学下的表示转换为相应的向量形式,包括以下步骤:
1)对每个组学分别使用编码器Encoder(·)进行编码:
H(v)=Encoder(M(v)(v))
其中,
Figure BDA0002274282290000041
为组学v的样本-特征矩阵,v={1,2,..,W},W为组学总数,N表示样本数,p(v)表示组学v的特征数,
Figure BDA0002274282290000042
为组学v的表征,Θ(v)为组学v对应编码器的参数,编码器由3层的全连接神经网络组成,第一层为输入层,节点个数为p(v),第二层节点个数为
Figure BDA0002274282290000043
缺省值为1000,第三层为表征层,节点个数为
Figure BDA0002274282290000044
缺省值为100,激活函数均为ReLU;
2)对每个组学分别使用解码器Decoder(·)进行解码:
Figure BDA0002274282290000045
其中,
Figure BDA0002274282290000046
为组学v的重构表征,Ψ(v)为组学v对应编码器的参数,解码器由2层的全连接神经网络组成,第一层为H(v),第二层为重构层
Figure BDA0002274282290000047
激活函数为ReLU;
所述多组学融合预测模块,利用多视图注意力机制神经网络进行多组学特征融合,并将样本相似性模块结果整合到智能诊断训练过程中,最终训练得到最优诊断模型,包括以下步骤:
1)每个组学对应一个独立的神经网络输入层,且以特征表示模块中步骤1)生成的组学的表征作为具体的输入向量;
2)使用注意力机制计算组学v相对于组学i的权重a(v)(i)
Figure BDA0002274282290000048
其中,H(v)为组学v的表征,H(i)为组学i的表征,H(j)为组学j的表征,W为组学总数;
3)依据上述权重计算加权后的组学v的表征
Figure BDA0002274282290000051
Figure BDA0002274282290000052
4)通过求平均融合各组学表征,得到多组学融合表示O:
Figure BDA0002274282290000053
5)依据上述所得多组学融合表示O进行预测;
6)模型损失函数L为:
Figure BDA0002274282290000054
其中,Y为真实诊断结果,
Figure BDA0002274282290000055
为系统诊断结果,loss(·)为分类损失函数,M(v)为组学v的样本-特征矩阵,
Figure BDA0002274282290000056
为组学v的重构表示矩阵,W为组学总数,
Figure BDA0002274282290000057
为Frobenius范数,H(v)为组学v的表征,F为多组学样本相似性矩阵,tr(·)表示矩阵的迹,α,β为超参数;
7)使用反向传播训练模型,得到最优智能诊断模型。
所述智能诊断预测模块,用于依据多组学数据进行疾病智能诊断,并提供诊断结果的解释,包含以下步骤:
1)使用数据导入模块中的数据加载模块加载多组学数据,使用数据预处理模块处理多组学数据;
2)经过步骤1)处理后的多组学数据输入由智能诊断训练模块训练出的最优诊断模型中进行疾病诊断;
3)提取上述步骤2)中最优诊断模型的注意力机制求出的组学v相对于组学i的权重a(v)(i),然后求和
Figure BDA0002274282290000058
作为当前预测结果下的组学v的重要性度量,从而对诊断结果赋予可解释性,其中W为组学总数。
本发明与现有技术相比,具有如下优点与有益效果:
1、通过深度学习方法挖掘各组学互补特性,增强了智能诊断系统的准确性。
2、对疾病预测结果赋予一定程度的可解释性,有利于医疗人员了解结果的形成原理,也有助于结果的进一步验证工作。
3、将分子水平多种基因数据与影像组学相结合,有利于进一步揭示疾病病理。
附图说明
图1为本发明系统各个模块的关系示意图。
图2为本发明系统训练和预测的流程图。
图3为本发明系统所使用自动编码器的结构示意图。
图4为本发明系统所使用多视图注意力机制神经网络结构示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的基于深度学习的多组学智能诊断系统,是使用Python语言开发的可在Windows设备上运行的多组学智能诊断系统,系统各模块间关系如图1所示,系统训练和预测的流程图如图2所示。它包括有:
数据导入模块,用于加载多组学数据和临床数据,并对数据进行预处理;
样本相似性模块,用于构建多组学样本相似性矩阵,利用样本相似性融合技术融合样本在不同组学下的相似性;
智能诊断训练模块,利用自动编码器将样本在不同组学下的表示转换为相应的向量形式,利用多视图注意力机制神经网络进行多组学特征融合,并将样本相似性模块结果整合到智能诊断过程中,最终训练得到最优的智能诊断模型;
智能诊断预测模块,用于依据多组学数据进行疾病智能诊断,并提供诊断结果的解释。
所述数据导入模块包括数据加载模块、数据预处理模块,其中:
所述数据加载模块从本地读取CSV、RData、xlsx等格式的肝癌数据,即肝癌多组学数据和肝癌临床数据,其中肝癌的多组学数据包括五个组学:基因组学、转录组学、蛋白质组学、表观基因组学以及影像组学,肝癌临床数据包括生存时间等;
所述数据预处理模块用于提取肝癌中多组学共享的样本、针对肝癌数据中的非影像组学去除空缺特征数超过20%的样本、去除空缺样本数超过20%的特征、均值填补空缺值、去除低均值和低方差特征、去除离群特征、数据归一化,针对肝癌的影像数据则使用pyradiomics工具包提取特征。
所述样本相似性模块,用于构建肝癌中多组学样本相似性矩阵,利用样本相似性融合技术融合样本在不同组学下的相似性,包括以下步骤:
1)基于核函数分别构建各组学的单组学样本相似性矩阵:
Figure BDA0002274282290000071
Figure BDA0002274282290000072
其中F(v)为组学v的单组学样本相似性矩阵,S(v)为组学v的样本距离矩阵,ρ(v)(·)为组学v中的样本距离度量方法,例如欧式距离,
Figure BDA0002274282290000073
是尺度参数用于调整距离尺度,通常与距离度量方法ρ(v)(·)相关,μ(v)是组学v的超参数,i,j,h为肝癌样本编号,
Figure BDA0002274282290000074
为组学v下样本i的表示;
2)基于相似性网络融合(SNF)方法融合各组学的单组学样本相似性矩阵,构建肝癌的多组学样本相似性矩阵:
首先,通过K最近邻方法计算各组学的局部单组学样本相似性矩阵:
Figure BDA0002274282290000081
其中L(v)为组学v的局部单组学样本相似性矩阵,
Figure BDA0002274282290000082
为组学v中
Figure BDA0002274282290000083
的K个邻居的集合;
然后,进行迭代融合:
Figure BDA0002274282290000084
Figure BDA0002274282290000085
其中F为肝癌的多组学样本相似性矩阵,W为总的多组学类型数量,在肝癌中W=5。
所述智能诊断训练模块包括特征表示模块、多组学融合预测模块,其中:
所述特征表示模块,用于对肝癌样本进行特征表示,如图3所示,利用自动编码器模型将肝癌样本在不同组学下的表示转换为相应的向量形式,包括以下步骤:
1)对每个组学分别使用编码器Encoder(·)进行编码:
H(v)=Encoder(M(v)(v))
其中
Figure BDA0002274282290000086
为组学v的样本-特征矩阵,v={1,2,..,W},W为组学总数,N表示样本数,p(v)表示组学v的特征数,
Figure BDA0002274282290000087
为组学v的表征,Θ(v)为组学v对应编码器的参数,编码器由3层的全连接神经网络组成,第一层为输入层,节点个数为p(v),第二层节点个数为
Figure BDA0002274282290000091
缺省值为1000,第三层为表征层,节点个数为
Figure BDA0002274282290000092
缺省值为100,激活函数均为ReLU;
2)对每个组学分别使用解码器Decoder(·)进行解码:
Figure BDA0002274282290000093
其中
Figure BDA0002274282290000094
为组学v的重构表征,Ψ(v)为组学v对应编码器的参数,解码器由2层的全连接神经网络组成,第一层为H(v),第二层为重构层
Figure BDA0002274282290000095
激活函数为ReLU;
所述多组学融合预测模块,如图4所示,利用多视图注意力机制神经网络进行多组学特征融合,并将肝癌的样本相似性模块结果整合到智能诊断训练过程中,最终训练得到肝癌生存的最优诊断模型,包括以下步骤:
1)每个组学对应一个独立的神经网络输入层且以特征表示模块中步骤1)生成的组学的表征作为具体的输入向量;
2)使用注意力机制计算组学v相对于组学i的权重a(v)(i)
Figure BDA0002274282290000096
其中H(v)为组学v的表征,H(i)为组学i的表征,H(j)为组学j的表征,W为组学总数;
3)依据上述权重计算加权后的组学v的表征
Figure BDA0002274282290000097
Figure BDA0002274282290000098
4)通过求平均融合各组学表征,得到多组学融合表示:
Figure BDA0002274282290000099
5)依据上述所得多组学融合表示O进行疾病预测。
6)模型损失函数L为:
Figure BDA0002274282290000101
Y为真实的肝癌患者生存时间,Y为系统诊断肝癌患者生存时间,loss(·)为分类损失函数,M(v)为组学v的样本-特征矩阵,
Figure BDA0002274282290000102
为组学v的重构表示矩阵,W为组学总数,
Figure BDA0002274282290000103
为Frobenius范数,H(v)为组学v的表征,F为多组学样本相似性矩阵,tr(·)表示矩阵的迹,α,β为超参数;
7)使用反向传播训练模型,得到关于肝癌患者生存时间的最优智能诊断模型。
所述智能诊断预测模块,用于依据肝癌的多组学数据进行疾病智能诊断,并提供诊断结果的解释,包含以下步骤:
1)使用数据导入模块中的数据加载模块加载新的肝癌多组学数据,使用数据预处理模块处理新的肝癌多组学数据;
2)经过步骤1)处理后的多组学数据将输入由智能诊断训练模块训练出的关于肝癌患者生存时间的最优智能诊断模型中进行疾病诊断,即预测新的肝癌患者的生存时间;
3)提取上述步骤2)中最优诊断模型的注意力机制求出的组学v相对于组学i的权重a(v)(i),然后求和
Figure BDA0002274282290000104
作为当前预测结果下的组学v的重要性度量,从而对诊断结果赋予可解释性,其中W为组学总数。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.一种基于深度学习的多组学智能诊断系统,其特征在于,包括:
数据导入模块,用于加载多组学数据和临床数据,并对数据进行预处理;其中,多组学数据包括基因组学、转录组学、蛋白质组学、表观基因组学以及影像组学;
样本相似性模块,用于构建多组学样本相似性矩阵,利用相似性网络融合技术融合样本在不同组学下的相似性,包括以下步骤:
1)基于核函数分别构建各组学的单组学样本相似性矩阵:
Figure FDA0004034625040000011
Figure FDA0004034625040000012
其中,F(v)为组学v的单组学样本相似性矩阵,S(v)为组学v的样本距离矩阵,ρ(v)(·)为组学v中的样本距离度量方法;
Figure FDA0004034625040000013
是尺度参数,用于调整距离尺度,与距离度量方法ρ(v)(·)相关;μ(v)是组学v的超参数,i,j,h为样本编号,
Figure FDA0004034625040000014
为组学v下样本i的表示;
2)基于相似性网络融合方法融合各组学的单组学样本相似性矩阵,构建多组学样本相似性矩阵:
首先,通过K最近邻方法计算各组学的局部单组学样本相似性矩阵:
Figure FDA0004034625040000015
其中,L(v)为组学v的局部单组学样本相似性矩阵,
Figure FDA0004034625040000016
为组学v中
Figure FDA0004034625040000017
的K个邻居的集合;
然后,进行迭代融合:
Figure FDA0004034625040000021
Figure FDA0004034625040000022
其中,F为多组学样本相似性矩阵,W为总的多组学类型数量;
智能诊断训练模块,利用自动编码器将样本在不同组学下的表示转换为相应的向量形式,利用多视图注意力机制神经网络进行多组学特征融合,并将样本相似性模块结果整合到智能诊断训练过程中,最终得到最优诊断模型;
智能诊断预测模块,用于依据多组学数据进行疾病智能诊断,并提供诊断结果的解释。
2.根据权利要求1所述的一种基于深度学习的多组学智能诊断系统,其特征在于:所述数据导入模块包括数据加载模块、数据预处理模块,其中:
所述数据加载模块从本地读取多组学和临床数据,包括CSV、RData、xlsx格式,其中,临床数据包括生存时间、复发时间;
所述数据预处理模块用于提取多组学共享的样本、针对非影像组学去除空缺特征数超过20%的样本、去除空缺样本数超过20%的特征、均值填补空缺值、去除低均值和低方差特征、去除离群特征、数据归一化,针对影像数据则使用pyradiomics工具包提取特征。
3.根据权利要求1所述的一种基于深度学习的多组学智能诊断系统,其特征在于:所述智能诊断训练模块包括特征表示模块、多组学融合预测模块,其中:
所述特征表示模块,用于对样本进行特征表示,利用自动编码器将样本在不同组学下的表示转换为相应的向量形式,包括以下步骤:
1)对每个组学分别使用编码器Encoder(·)进行编码:
Figure FDA0004034625040000031
其中,
Figure FDA0004034625040000032
为组学v的样本-特征矩阵,v={1,2,..,W},W为组学总数,N表示样本数,p(v)表示组学v的特征数,
Figure FDA0004034625040000033
为组学v的表征,Θ(v)为组学v对应编码器的参数,编码器由3层的全连接神经网络组成,第一层为输入层,节点个数为p(v),第二层节点个数为
Figure FDA0004034625040000034
缺省值为1000,第三层为表征层,节点个数为
Figure FDA0004034625040000035
缺省值为100,激活函数均为ReLU;
2)对每个组学分别使用解码器Decoder(·)进行解码:
Figure FDA0004034625040000036
其中,
Figure FDA0004034625040000037
为组学v的重构表征,Ψ(v)为组学v对应编码器的参数,解码器由2层的全连接神经网络组成,第一层为H(v),第二层为重构层
Figure FDA0004034625040000038
激活函数为ReLU;
所述多组学融合预测模块,利用多视图注意力机制神经网络进行多组学特征融合,并将样本相似性模块结果整合到智能诊断训练过程中,最终训练得到最优诊断模型,包括以下步骤:
1)每个组学对应一个独立的神经网络输入层,且以特征表示模块中步骤1)生成的组学的表征作为具体的输入向量;
2)使用注意力机制计算组学v相对于组学i的权重a(v)(i)
Figure FDA0004034625040000039
其中,H(v)为组学v的表征,H(i)为组学i的表征,H(j)为组学j的表征,W为组学总数;
3)依据上述权重计算加权后的组学v的表征
Figure FDA0004034625040000041
Figure FDA0004034625040000042
4)通过求平均融合各组学表征,得到多组学融合表示O:
Figure FDA0004034625040000043
5)依据上述所得多组学融合表示O进行预测;
6)模型损失函数L为:
Figure FDA0004034625040000044
其中,Y为真实诊断结果,
Figure FDA0004034625040000045
为系统诊断结果,loss(·)为分类损失函数,M(v)为组学v的样本-特征矩阵,
Figure FDA0004034625040000046
为组学v的重构表示矩阵,W为组学总数,
Figure FDA0004034625040000047
为Frobenius范数,H(v)为组学v的表征,F为多组学样本相似性矩阵,tr(·)表示矩阵的迹,α,β为超参数;
7)使用反向传播训练模型,得到最优智能诊断模型。
4.根据权利要求1所述的一种基于深度学习的多组学智能诊断系统,其特征在于:所述智能诊断预测模块,用于依据多组学数据进行疾病智能诊断,并提供诊断结果的解释,包含以下步骤:
1)使用数据导入模块中的数据加载模块加载多组学数据,使用数据预处理模块处理多组学数据;
2)经过步骤1)处理后的多组学数据输入由智能诊断训练模块训练出的最优诊断模型中进行疾病诊断;
3)提取上述步骤2)中最优诊断模型的注意力机制求出的组学v相对于组学i的权重a(v)(i),然后求和
Figure FDA0004034625040000048
作为当前预测结果下的组学v的重要性度量,从而对诊断结果赋予可解释性,其中W为组学总数。
CN201911116750.4A 2019-11-15 2019-11-15 一种基于深度学习的多组学智能诊断系统 Active CN111028939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911116750.4A CN111028939B (zh) 2019-11-15 2019-11-15 一种基于深度学习的多组学智能诊断系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911116750.4A CN111028939B (zh) 2019-11-15 2019-11-15 一种基于深度学习的多组学智能诊断系统

Publications (2)

Publication Number Publication Date
CN111028939A CN111028939A (zh) 2020-04-17
CN111028939B true CN111028939B (zh) 2023-03-31

Family

ID=70200227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911116750.4A Active CN111028939B (zh) 2019-11-15 2019-11-15 一种基于深度学习的多组学智能诊断系统

Country Status (1)

Country Link
CN (1) CN111028939B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597423B (zh) * 2020-05-22 2021-03-19 吉林大学 一种文本分类模型可解释性方法的性能评价方法及装置
CN112364880B (zh) * 2020-11-30 2022-06-14 腾讯科技(深圳)有限公司 基于图神经网络的组学数据处理方法、装置、设备及介质
CN112908420B (zh) * 2020-12-02 2023-07-04 中山大学 一种基于去噪网络正则化的多组学数据整合方法及系统
CN112687327B (zh) * 2020-12-28 2024-04-12 中山依数科技有限公司 一种基于多任务和多模态的癌症生存分析系统
CN113838570B (zh) * 2021-08-31 2024-04-26 华中科技大学 一种基于深度学习的宫颈癌自洽分型方法和系统
CN114927162B (zh) * 2022-05-19 2024-06-14 大连理工大学 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN115064266B (zh) * 2022-07-21 2024-04-26 山东大学 基于不完整多组学数据的癌症诊断系统、设备及介质
CN115631847B (zh) * 2022-10-19 2023-07-14 哈尔滨工业大学 基于多组学特征的早期肺癌诊断系统、存储介质及设备
CN115641955B (zh) * 2022-10-19 2023-06-20 哈尔滨工业大学 基于深度学习的胃癌分期判别系统及存储介质
CN118016283B (zh) * 2024-04-09 2024-06-28 北京科技大学 基于可解释的乳腺癌新辅助化疗pCR预测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110187A (zh) * 2009-12-28 2011-06-29 清华大学 一种基于pca和人工免疫系统的流程工业混合故障诊断方法和系统
CN107833629A (zh) * 2017-10-25 2018-03-23 厦门大学 基于深度学习的辅助诊断方法及系统
WO2018209932A1 (zh) * 2017-05-17 2018-11-22 清华大学 多量化深度二值特征学习方法及装置
CN109119156A (zh) * 2018-07-09 2019-01-01 河南艾玛医疗科技有限公司 一种基于bp神经网络的医疗诊断系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110187A (zh) * 2009-12-28 2011-06-29 清华大学 一种基于pca和人工免疫系统的流程工业混合故障诊断方法和系统
WO2018209932A1 (zh) * 2017-05-17 2018-11-22 清华大学 多量化深度二值特征学习方法及装置
CN107833629A (zh) * 2017-10-25 2018-03-23 厦门大学 基于深度学习的辅助诊断方法及系统
CN109119156A (zh) * 2018-07-09 2019-01-01 河南艾玛医疗科技有限公司 一种基于bp神经网络的医疗诊断系统

Also Published As

Publication number Publication date
CN111028939A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN111028939B (zh) 一种基于深度学习的多组学智能诊断系统
CN110188836B (zh) 一种基于变分自编码器的脑功能网络分类方法
Quan et al. NeuroGPS-Tree: automatic reconstruction of large-scale neuronal populations with dense neurites
CN113724880A (zh) 一种异常脑连接预测系统、方法、装置及可读存储介质
CN112687327B (zh) 一种基于多任务和多模态的癌症生存分析系统
EP3767551A1 (en) Inspection system, image recognition system, recognition system, discriminator generation system, and learning data generation device
Ji et al. Learning temporal action proposals with fewer labels
CN113196312B (zh) 模型生成装置、模型生成方法、模型生成程序、模型生成系统、检查系统以及监视系统
Zhang et al. Jointly analyzing Alzheimer's disease related structure-function using deep cross-model attention network
CN114530222B (zh) 一种基于多组学和影像数据融合的癌症患者分类系统
CN114862838A (zh) 基于无监督学习的缺陷检测方法及设备
Gundersen et al. End-to-end training of deep probabilistic CCA on paired biomedical observations
CN114360030A (zh) 一种基于卷积神经网络的人脸识别方法
CN109145944B (zh) 一种基于纵向三维图像深度学习特征的分类方法
CN113160190A (zh) 一种接触网紧固件异常检测方法、设备、检测装置及存储介质
CN113642255B (zh) 基于多尺度卷积循环神经网络的光伏发电功率预测方法
CN114694178A (zh) 基于Faster-RCNN算法的电力作业中安全帽监测方法及系统
CN112613494B (zh) 基于深度对抗网络的电力线路监控异常识别方法及系统
CN115561243A (zh) 锂电池制备中极片质量监测系统及其方法
CN114139624A (zh) 一种基于集成模型挖掘时间序列数据相似性信息的方法
CN114565919B (zh) 基于数字病理图像的肿瘤微环境空间关系建模系统与方法
Lee et al. MorphNet predicts cell morphology from single-cell gene expression
JP2019139651A (ja) 未知の複数次元のベクトルデータ群をクラス分類するプログラム、装置及び方法
CN108846327B (zh) 一种色素痣与黑素瘤的智能判别系统及方法
CN116543154A (zh) 一种基于多层次语义特征的医学影像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant