CN116956138A - 一种基于多模态学习的影像基因融合分类方法 - Google Patents
一种基于多模态学习的影像基因融合分类方法 Download PDFInfo
- Publication number
- CN116956138A CN116956138A CN202310950132.XA CN202310950132A CN116956138A CN 116956138 A CN116956138 A CN 116956138A CN 202310950132 A CN202310950132 A CN 202310950132A CN 116956138 A CN116956138 A CN 116956138A
- Authority
- CN
- China
- Prior art keywords
- representing
- subject
- image
- gene
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 190
- 230000004927 fusion Effects 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000014509 gene expression Effects 0.000 claims abstract description 114
- 238000013145 classification model Methods 0.000 claims abstract description 81
- 238000000605 extraction Methods 0.000 claims description 44
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 239000003607 modifier Substances 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 2
- 230000002068 genetic effect Effects 0.000 description 14
- 238000001514 detection method Methods 0.000 description 10
- 108700028369 Alleles Proteins 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 6
- 238000002595 magnetic resonance imaging Methods 0.000 description 6
- 210000004556 brain Anatomy 0.000 description 5
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 208000024827 Alzheimer disease Diseases 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000001364 causal effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003925 brain function Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002610 neuroimaging Methods 0.000 description 2
- 230000000926 neurological effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000014644 Brain disease Diseases 0.000 description 1
- 241001653634 Russula vesca Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 210000003765 sex chromosome Anatomy 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/30—Assessment of water resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请适用于多模态学习技术领域,提供了一种基于多模态学习的影像基因融合分类方法。通过获取受试者的磁共振影像、基因表达信息以及基因序列信息;构建影像基因融合分类模型;依次将每个受试者的磁共振影像、基因表达信息以及基因序列信息输入影像基因融合分类模型,并计算影像基因融合分类模型的损失值;根据损失值,对影像基因融合分类模型进行反向传播,直至影像基因融合分类模型收敛,得到训练后的影像基因融合分类模型;将待分类者的磁共振影像、原始基因表达信息以及原始基因序列信息输入训练后的影像基因融合分类模型,得到待分类者的分类结果。本申请能够提高影像基因融合分类方法的准确度。
Description
技术领域
本申请属于多模态学习技术领域,尤其涉及一种基于多模态学习的影像基因融合分类方法。
背景技术
随着数据采集技术的进步,磁共振成像(MRI,Magnetic Resonance Imaging)、脑电图(EEG,Electroencephalogram)、单核苷酸多态性(SNP,Single NucleotidePolymorphism)、基因表达(GE,Gene Expression)以及认知、情绪和社会表现等量表数据和年龄、性别等越来越多地数据都被认为能够为医学研究提供有效参考。目前影像遗传数据融合发明已经成为了一大研究热点,国内外研究者也开展了一系列的影响遗传数据融合研究,并取得了一定的成果。这些研究通过数据融合、决策融合或表征融合来进行多模态学习。然而,一方面,数据融合会造成一定的信息损失,很难在不同的任务中推广,并且在面对异构数据(如影像遗传数据)时有更多的局限性。另一方面,决策融合通常无法进行不同视角之间的联合学习,容易造成信息冗余。从表征的角度出发的多模态学习发明更能利用不同模态之间的关联关系,比如通过生成对抗网络,知识蒸馏,超图,和注意力。因此,对于具有异质性影像遗传数据,表征融合是最常应用于进行融合的多模态发明。
影像数据能够反映样本主要表现,遗传数据能够揭示表型的微观成因。随着基因测序和神经成像等数据采集技术的快速发展,医学领域积累了大量的影像遗传数据,影像遗传数据的融合研究日益成为研究热点。一方面,影像遗传数据可以通过数据融合提供比单一模态更丰富的表示信息。另一方面,由于基因决定性状,微观影响宏观,影像和遗传数据能够通过模态间一致性约束优化表征。在过去的多模态研究中,探索影像和遗传数据之间的关系越来越受到研究人员的关注。然而,现有的基于遗传成像数据的多模态发明很少考虑不同模态数据之间相关性的差异,并忽略了这一问题对模型的影响,导致现有的影像基因融合分类方法的分类准确度较低。
发明内容
本申请提供了一种基于多模态学习的影像基因融合分类方法,可以解决现有的影像基因融合分类方法的分类准确度较低的问题。
本申请提供了一种基于多模态学习的影像基因融合分类方法,包括:
获取N个受试者的磁共振影像、原始基因表达信息以及原始基因序列信息;
构建影像基因融合分类模型;影像基因融合分类模型包括第一特征提取模块、第二特征提取模块、特征融合模块以及分类模块,第一特征提取模块用于对磁共振影像进行特征提取,得到每个受试者对应的宏观特征,第二特征提取模块根据原始基因表达信息和原始基因序列信息,提取每个受试者对应的微观特征,特征融合模块用于对微观特征和宏观特征进行非对称流形对齐,得到融合特征,分类模块用于对融合特征进行分类;
依次将每个受试者的磁共振影像、原始基因表达信息以及原始基因序列信息输入影像基因融合分类模型,并计算影像基因融合分类模型的损失值;
根据损失值,对影像基因融合分类模型进行反向传播,直至影像基因融合分类模型收敛,得到训练后的影像基因融合分类模型;
将待分类者的磁共振影像、原始基因表达信息以及原始基因序列信息输入训练后的影像基因融合分类模型,得到待分类者的分类结果。
可选的,第一特征提取模块的接收端接收磁共振影像,第一特征提取模块的输出端链接特征融合模块的第一输入端,第二特征提取模块的第一输入端接收原始基因表达信息,第二特征提取模块第二输入端接收原始基因序列信息,第二特征提取模块的输出端连接特征融合模块的第二输入端,特征融合模块的输出端连接分类模块的输入端,分类模块的输出端输出分类结果。
可选的,根据原始基因表达信息和原始基因序列信息,提取每个受试者对应的微观特征,包括:
确定各原始基因表达信息之间的线性关系,并根据线性关系构建基因关联网络;基因关联网络用于描述每个受试者与所有受试者之间的原始基因表达信息差异;
根据基因关联网络,确定每个受试者的预测基因表达信息,并根据预测基因表达信息和原始基因表达信息,构建表达偏差矩阵;表达偏差矩阵用于衡量每个受试者的预测基因表达信息和该受试者原始基因表达信息之间的差异;
根据表达偏差矩阵、原始基因表达信息以及原始基因序列信息,得到每个受试者对应的微观数据;
利用改进后的图卷积神经网络对微观数据进行特征提取,得到每个受试者对应的微观特征。
可选的,确定各原始基因表达信息之间的线性关系,并根据线性关系构建基因关联网络,包括:
通过计算公式
得到线性关系其中,/>表示第i个受试者的原始基因表达信息与其他受试者的原始基因表达信息之间的线性关系,i=1,2,...,N,Ej表示第j个受试者的原始基因表达信息构成的向量,j=1,2,...,N,j≠i,Wij表示线性关系的斜率,Bij表示线性关系的偏置;
通过计算公式
得到基因关联网络(W,B);其中,(W,B)表示关联网络中线性函数的斜率和偏置,(w,b)表示参数(W,B)的搜索空间,Ei表示第i个受试者的原始基因表达信息构成的向量。
可选的,表达偏差矩阵的表达式如下
E′i=Cij×(IEi-(WEi+B))
其中,E'i表示第i个受试者的表达偏差矩阵,Cij表示第i个受试者的原始基因表达信息与其他受试者的原始基因表达信息之间的线性关系的可信度,(WEi+B)表示第i个受试者的预测基因表达信息,I表示单位矩阵,Cov(Ei,Ej)表示变量Ei和Ej的协方差,Var(Ei)表示变量Ei的方差,Var(Ej)表示变量Ei的方差。
可选的,根据表达偏差矩阵、原始基因表达信息以及原始基因序列信息,得到每个受试者对应的微观数据,包括:
通过计算公式
Gi=[Gi1,Gi2,Gi3…GiK]
Gij=fsnp(Sij×Mj)+fge(Eij)
得到微观数据Gi;其中,Gi表示第i个受试者的微观数据,fsnp(·)表示原始基因序列信息的编码层,Sij表示第i个受试者的第j个基因的原始序列信息,Mj表示序列修饰符,用于增强原始基因表达信息和原始基因序列信息,fge(·)表示,E'ij表示第i个受试者的第j个基因的表达偏差向量。
可选的,利用改进后的图卷积神经网络对微观数据进行特征提取,得到每个受试者对应的微观特征,包括:
通过计算公式
得到微观特征其中,/>表示第i个受试者的微观数据在图卷积神经网络第l+1层输出的微观特征,σ表示非线性激活函数,/>表示第i个受试者的微观数据在图卷积神经网络第l层输出的微观特征,/>表示当前受试者与全部训练集受试者的第l层邻接关系,邻接关系是受试者特征之间的相似度,/>表示全部训练集受试者的第l层输出的微观特征,Wl表示对特征进行线性变换的参数矩阵。
可选的,对微观特征和宏观特征进行非对称流形对齐,得到融合特征,包括:
通过计算公式得到融合特征/>其中,/>表示经过非对称流形对齐后的融合特征,非对称流形对齐表示自适应调节梯度大小,fm(·)表示第m种模态的特征提取器,gm(·)表示第m种模态的分类器,/>表示第i个受试者的第m种模态的数据,/>表示第j个受试者的第m种模态的数据,yi表示第i个受试者的真实标签,yj表示第j个受试者的真实标签。
可选的,损失值的表达式如下:
LTotal=LG+LM+LCE
LCE=-(yilog(pi)+(1-yi)log(1-pi))
其中,LTotal表示损失值,LG表示图结构学习损失,LM表示流形对齐损失,LCE表示交叉熵分类损失,dij表示第i个受试者和第j个受试者之间的类别距离,类别距离用于确认两个不同受试者是否属于同一类别,dij=|yi-yj|,aij表示第i个受试者和第j个受试者之间的邻接关系,邻接关系表示受试者特征之间的相似度,相似的受试者被认为具有邻接关系,pT表示一可学习的向量,用于对不同的特征进行加权,/>表示第n种模态下第i个样本与第j个样本之间的流形距离,Dm表示第m种模态下第i个样本与第j个样本之间的流形距离,yi表示第i个样本的真实标签,pi表示第i个样本的分类概率。
可选的,根据损失值,对影像基因融合分类模型进行反向传播,直至影像基因融合分类模型收敛,得到训练后的影像基因融合分类模型,包括:
步骤i,根据损失值对影像基因融合分类模型进行反向传播,得到新影像基因融合分类模型;
步骤ii,计算新影像基因融合分类模型对应的新损失值,并判断新损失值是否小于等于预设损失阈值;
步骤iii,若新损失值小于等于预设损失阈值,则确定新影像基因融合分类模型已经收敛,并将新影像基因融合分类模型作为训练后的影像基因融合分类模型;否则,确定新影像基因融合分类模型未收敛,将新影像基因融合分类模型作为步骤i中的影像基因融合分类模型,返回执行步骤i。
本申请的上述方案有如下的有益效果:
本申请提供的基于多模态学习的影像基因融合分类方法,通过构建影像基因融合分类模型,该影像基因融合分类模型的第一特征提取模块能够根据原始基因表达信息和原始基因序列信息,提取每个受试者对应的微观特征,充分考虑了基因序列信息的变异与基因表达信息的变化之间存在的因果关系,使提取的微观特征更加准确,从而有效提高影像基因融合分类方法的分类准确度;该影像基因融合分类模型通过特征融合模块对微观特征和宏观特征进行非对称流形对齐,能够避免噪声对流形对齐的影响,提高融合特征的准确性,从而有效提高影像基因融合分类方法的分类准确度;通过计算影像基因融合分类模型的损失值,并根据损失值对该模型进行更新,能够进一步提高影像基因融合分类模型的精确度,从而提高影像基因融合分类方法的分类准确度。
本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的基于多模态学习的影像基因融合分类方法的流程图;
图2为本申请一实施例中影像基因融合分类模型的结构示意图;
图3为本申请一实施例提供的改进的图卷积神经网络的示意图;
图4为本申请一实施例提供的基因关联网络的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
针对目前影像基因融合分类方法的分类准确度较低的问题,本申请提供了一种基于多模态学习的影像基因融合分类方法,通过构建影像基因融合分类模型,该影像基因融合分类模型的第一特征提取模块能够根据原始基因表达信息和原始基因序列信息,提取每个受试者对应的微观特征,充分考虑了基因序列信息的变异与基因表达信息的变化之间存在的因果关系,使提取的微观特征更加准确,从而有效提高影像基因融合分类方法的分类准确度;该影像基因融合分类模型通过特征融合模块对微观特征和宏观特征进行非对称流形对齐,能够避免噪声对流形对齐的影响,提高融合特征的准确性,从而有效提高影像基因融合分类方法的分类准确度;通过计算影像基因融合分类模型的损失值,并根据损失值对该模型进行更新,能够进一步提高影像基因融合分类模型的精确度,从而提高影像基因融合分类方法的分类准确度。
如图1所示,本申请提供的基于多模态学习的影像基因融合分类方法,包括以下步骤:
步骤11,获取N个受试者的磁共振影像、原始基因表达信息以及原始基因序列信息,磁共振影像是受试者的3D脑影像,原始基因表达信息是一些基因的在外周血中的表达产物含量,原始序列数据是这些基因的测序数据,其中包含基因相应位点的变异信息,这些基因是与大脑功能和结构相关的特定基因。
示例性的,在本申请的一实施例中,可从阿尔茨海默症神经影像学倡议标准数据库(一种公开数据库)中获取阿尔茨海默症患者的磁共振图像,原始基因表达信息以及原始基因序列信息,以此作为后续分类模型的训练集,能够将待分类者分类为阿尔茨海默症患者和非阿尔茨海默症患者。
需要说明的是,在获取磁共振影像、原始基因表达信息以及原始基因序列信息后,还需对其进行数据预处理,具体如下:
针对磁共振影像,首先,采用线性图像配准工具(FLIRT,FMRIB’s Linear ImageRegistration Tool)将原始磁共振影像从转换到标准空间MNI空间。MNI(MontrealNeurological Institute)是由Montreal Neurological Institute根据正常人大脑的MRI数据建立的标准坐标系统。然后,大脑提取工具(BET,Brain Extraction Tool)进行颅骨去除,该工具能够保留样本中磁共振图像数据中的大脑部分,并将其余器官、组织等去除。最后,将磁共振图像的体素平均值和标准差分别设置为0和1。
针对原始基因序列信息,采集的原始基因序列信息往往存在大量的无关数据、噪声大、数据缺失率高并且可能存在数据错误,因此,在本申请的一实施例中,使用Plink软件包(一种免费、开源的全基因组关联分析工具集)对原始基因序列信息进行缺失率检测、亲缘关系检测、哈代温伯格平衡检验、次等位基因频率计算以及筛选和位点编码。缺失率检测包含针对受试者的检测和针对位点的检测,针对受试者的检测目的是排除位点缺失较多的受试者,针对位点的检测目的是排除受试者在同一位点数据缺失较多。性别检测能够检测测序数据中的性染色体数据与临床信息中包含的性别信息是否符合。亲缘关系检测计算了受试者测序数据之间的相似程度,并将其定义为亲缘系数,来反映两个受试者之间的间亲缘关系,并对亲缘系数大于0.8的样本对中的样本进行随机剔除。哈代-温伯格平衡定律也称遗传平衡定律,它能够判断受试者群体是否处于遗传平衡状态,或者说长时间内基因频率会处于稳定。在给定的受试者群体中,第二常见的基因型称为次等位基因,其出现的频率就称为次等位基因频率。当次等位基因频率比较小的时候,大部分受试者都是相同的基因型,这意味着该基因可能并不是相关基因,因此把次等位基因频率小于0.01的位点进行筛除。最后一个步骤是对每个位点进行编码,具体来说就是不含次等位基因的纯合子编码为0,有一个次等位基因的杂合子编码为1,有两个次等位基因的纯合子编码为2。
步骤12,构建影像基因融合分类模型。
上述影像基因融合分类模型包括第一特征提取模块、第二特征提取模块、特征融合模块以及分类模块,第一特征提取模块用于根据原始基因表达信息和原始基因序列信息,提取每个受试者对应的微观特征,第二特征提取模块用于对磁共振影像进行特征提取,得到每个受试者对应的宏观特征,特征融合模块用于对微观特征和宏观特征进行非对称流形对齐,得到融合特征,分类模块用于对融合特征进行分类。如图2所示,上述各模块的连接关系如下:
第一特征提取模块(如图2中21所示)的接收端接收磁共振影像,第一特征提取模块的输出端链接特征融合模块的第一输入端,第二特征提取模块(如图2中22所示)的第一输入端接收原始基因表达信息,第二特征提取模块第二输入端接收原始基因序列信息(例如单核苷酸多态性),第二特征提取模块的输出端连接特征融合模块(如图2中23所示)的第二输入端,特征融合模块的输出端连接分类模块(如图2中24所示)的输入端,分类模块的输出端输出分类结果。
示例性的,第一特征提取模块的网络结构为残差网络,其包括多个残差块,多个残差块之间依次连接,每个残差块中包括多个卷积层和多个池化层。第一特征提取模块对磁共振影像进行特征提取,得到每个受试者对应的宏观特征的具体过程为:
通过计算公式ml=Hl(ml-1)+ml-1,得到每个受试者对应的宏观特征ml,其中,ml表示第l个残差块提取的宏观特征,Hl(·)表示第l个残差块执行特征提取,ml-1第l-1个残差块提取的宏观特征。
第二特征提取模块的网络结构为图卷积神经网络,其包括多个组间图卷积层,组间图卷积层表示一种动态的图结构学习,表示在每一层图卷积前都构建一次邻接矩阵,该矩阵中的第i行j列的元素表示第i个和第j个受试者之间是否有邻接关系。构建组间图卷积层能够避免传统图卷积存在的数据泄露问题、泛化误差大、信息利用补充的问题。传统图卷积Gl+1=σ(AGlWl)需要全体受试者参与图卷积运算,由于Gl无法在训练阶段区分测试集,造成了测试集数据泄露的问题。此外,由于每次优化不同的受试者,反向传播的梯度服从的分布为分布的方差不为0可以使得训练的模型具有更好的繁华能力。
步骤13,依次将每个受试者的磁共振影像、原始基因表达信息以及原始基因序列信息输入影像基因融合分类模型,并计算影像基因融合分类模型的损失值。
具体的,损失值的表达式如下:
LTotal=LG+LM+LCE
LCE=-(yilog(pi)+(1-yi)log(1-pi))
其中,LTotal表示损失值,LG表示图结构学习损失,LM表示流形对齐损失,LCE表示交叉熵分类损失,dij表示第i个受试者和第j个受试者之间的类别距离,类别距离用于确认两个不同受试者是否属于同一类别,dij=|yi-yj|,aij表示第i个受试者和第j个受试者之间的邻接关系,邻接关系表示受试者特征之间的相似度,相似的受试者被认为具有邻接关系,pT表示一可学习的向量,用于对不同的特征进行加权,/>表示第n种模态下第i个样本与第j个样本之间的流形距离,Dm表示第m种模态下第i个样本与第j个样本之间的流形距离,yi表示第i个样本的真实标签,pi表示第i个样本的分类概率。
步骤14,根据损失值,对影像基因融合分类模型进行反向传播,直至影像基因融合分类模型收敛,得到训练后的影像基因融合分类模型。
具体的,包括以下步骤:
步骤i,根据损失值对影像基因融合分类模型进行反向传播,得到新影像基因融合分类模型;
步骤ii,计算新影像基因融合分类模型对应的新损失值,并判断新损失值是否小于等于预设损失阈值;
步骤iii,若新损失值小于等于预设损失阈值,则确定新影像基因融合分类模型已经收敛,并将新影像基因融合分类模型作为训练后的影像基因融合分类模型;否则,确定新影像基因融合分类模型未收敛,将新影像基因融合分类模型作为步骤i中的影像基因融合分类模型,返回执行步骤i。
步骤15,将待分类者的磁共振影像、原始基因表达信息以及原始基因序列信息输入训练后的影像基因融合分类模型,经过训练完成的序列表达融合模块和影像和基因特征提取模块,得到影像分类特征和基因分类特征,将串联的影响基因特征经过最后的由全连接层组成的分类器,得到待分类者的分类结果,分类认为一般可以与大脑功能和结构相关,比如老年人/年轻人、脑疾病患者/健康人。
下面对第二特征提取模块根据原始基因表达信息和原始基因序列信息,提取每个受试者对应的微观特征的过程,进行示例性说明。
具体包括以下操作:
步骤a,确定各原始基因表达信息之间的线性关系,并根据线性关系构建基因关联网络。
上述基因关联网络用于描述每个受试者与所有受试者之间的原始基因表达信息差异。
具体的,通过计算公式
得到线性关系其中,/>表示第i个受试者的原始基因表达信息与其他受试者的原始基因表达信息之间的线性关系,i=1,2,...,N,Ej表示第j个受试者的原始基因表达信息构成的向量,j=1,2,...,N,j≠i,Wij表示线性关系的斜率,Bij表示线性关系的偏置;
通过计算公式
得到基因关联网络(W,B);其中,(W,B)表示基因关联网络中的斜率和偏置,(w,b)表示(W,B)的搜索空间,Ei表示第i个受试者的原始基因表达信息构成的向量,示例如图4所示。
步骤b,根据基因关联网络,确定每个受试者的预测基因表达信息,并根据预测基因表达信息和原始基因表达信息,构建表达偏差矩阵。
表达偏差矩阵用于衡量每个受试者的预测基因表达信息和该受试者原始基因表达信息之间的差异。
具体的,表达偏差矩阵的表达式如下
E′i=Cij×(IEi-(WEi+B))
其中,E'i表示第i个受试者的表达偏差矩阵,Cij表示第i个受试者的原始基因表达信息与其他受试者的原始基因表达信息之间的线性关系的可信度,(WEi+B)表示第i个受试者的预测基因表达信息,I表示单位矩阵,Cov(Ei,Ej)表示变量Ei和Ej的协方差,Var(Ei)表示变量Ei的方差,Var(Ej)表示变量Ei的方差。
步骤c,根据表达偏差矩阵、原始基因表达信息以及原始基因序列信息,得到每个受试者对应的微观数据。
具体的,通过计算公式
Gi=[Gi1,Gi2,Gi3…GiK]
Gij=fsnp(Sij×Mj)+fge(Eij)
得到微观数据Gi。
其中,Gi表示第i个受试者的微观数据,fsnp(·)表示原始基因序列信息的编码层,Sij表示第i个受试者的第j个基因的原始序列信息,Mj表示序列修饰符,用于增强原始基因表达信息和原始基因序列信息,fge(·)表示,E'ij表示第i个受试者的第j个基因的表达偏差向量。
步骤d,利用改进后的图卷积神经网络对微观数据进行特征提取,得到每个受试者对应的微观特征。传统图卷积Gl+1=σ(AGlWl)需要全体受试者参与图卷积运算,由于Gl无法在训练阶段区分测试集,造成了测试集数据泄露的问题。此外,由于每次优化不同的受试者,反向传播的梯度服从的分布为分布的方差不为0可以使得训练的模型具有更好的繁华能力。
需要说明的是,图卷积神经网络的性能对于初始图的质量很敏感,而原始的原始基因表达信息和原始基因序列信息中通常包含大量与分类任务无关的噪声。而且,随着特征在图卷积过程中进一步编码和降维,在多个图卷积层中使用同一个图结构可能引起特征与图结构不匹配的问题,并进一步降低图卷积的效率。
有鉴于此,本申请采用了动态的图结构学习,在每一层图卷积前都会进行一次图构建。具体的,对样本(磁共振影像、原始基因表达信息以及原始基因序列信息)进行分组,包含样本池(Pool)和当前批(Batch)两个组,然后对这两个组中的样本关系进行自适应建模,最后通过建模的样本之间的邻接关系进行信息聚合。
示例性的,通过计算公式
得到微观特征其中,/>表示第i个受试者的微观数据在图卷积神经网络第l+1层输出的微观特征,σ表示非线性激活函数,/>表示第i个受试者的微观数据在图卷积神经网络第l层输出的微观特征,/>表示当前受试者与全部训练集受试者的第l层邻接关系,邻接关系是受试者特征之间的相似度,/>表示全部训练集受试者的第l层输出的微观特征,Wl表示对特征进行线性变换的参数矩阵。
下面对融合模块对微观特征和宏观特征进行非对称流形对齐,得到融合特征的过程进行示例性说明。
具体的,通过计算公式得到融合特征其中,/>表示经过非对称流形对齐后的融合特征,非对称流形对齐表示自适应调节梯度大小,fm(·)表示第m种模态的特征提取器,gm(·)表示第m种模态的分类器,/>表示第i个受试者的第m种模态的数据,/>表示第j个受试者的第m种模态的数据,yi表示第i个受试者的真实标签,yj表示第j个受试者的真实标签。
需要说明的是,当通过表征得到的距离与通过标签计算的距离相同正负的时候,标签距离表示不同样本之间在类别空间中的距离,通过表征得到的距离表示在特征空间中的距离,在分类任务中,前者是真实距离,后者则应通过学习来拟合前者,它的偏导函数是反之,则是/>这意味着通过表征得到的距离与标签得到的距离更接近的时候梯度更小。如此一来,能够有效解决不同视角(微观和宏观)表征的强弱差异,造成的相关性更低的表征分类损失更大,类别距离与预测距离差距也更大,影响分类准确度的问题。
可见,本申请提供的基于多模态学习的影像基因融合分类方法,通过构建影像基因融合分类模型,该影像基因融合分类模型的第一特征提取模块能够根据原始基因表达信息和原始基因序列信息,提取每个受试者对应的微观特征,充分考虑了基因序列信息的变异与基因表达信息的变化之间存在的因果关系,使提取的微观特征更加准确,从而有效提高影像基因融合分类方法的分类准确度;该影像基因融合分类模型通过特征融合模块对微观特征和宏观特征进行非对称流形对齐,能够避免噪声对流形对齐的影响,提高融合特征的准确性,从而有效提高影像基因融合分类方法的分类准确度;通过计算影像基因融合分类模型的损失值,并根据损失值对该模型进行更新,能够进一步提高影像基因融合分类模型的精确度,从而提高影像基因融合分类方法的分类准确度。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种基于多模态学习的影像基因融合分类方法,其特征在于,包括:
获取N个受试者的磁共振影像、原始基因表达信息以及原始基因序列信息;
构建影像基因融合分类模型;所述影像基因融合分类模型包括第一特征提取模块、第二特征提取模块、特征融合模块以及分类模块,所述第一特征提取模块用于对所述磁共振影像进行特征提取,得到每个受试者对应的宏观特征,所述第二特征提取模块根据所述原始基因表达信息和所述原始基因序列信息,提取每个受试者对应的微观特征,所述特征融合模块用于对所述微观特征和所述宏观特征进行非对称流形对齐,得到融合特征,所述分类模块用于对所述融合特征进行分类;
依次将每个受试者的磁共振影像、原始基因表达信息以及原始基因序列信息输入所述影像基因融合分类模型,并计算所述影像基因融合分类模型的损失值;
根据所述损失值,对所述影像基因融合分类模型进行反向传播,直至所述影像基因融合分类模型收敛,得到训练后的影像基因融合分类模型;
将待分类者的磁共振影像、原始基因表达信息以及原始基因序列信息输入所述训练后的影像基因融合分类模型,得到所述待分类者的分类结果。
2.根据权利要求1所述的影像基因融合分类方法,其特征在于,所述第一特征提取模块的接收端接收磁共振影像,所述第一特征提取模块的输出端链接所述特征融合模块的第一输入端,所述第二特征提取模块的第一输入端接收原始基因表达信息,所述第二特征提取模块第二输入端接收原始基因序列信息,所述第二特征提取模块的输出端连接所述特征融合模块的第二输入端,所述特征融合模块的输出端连接所述分类模块的输入端,所述分类模块的输出端输出分类结果。
3.根据权利要求1所述的影像基因融合分类方法,其特征在于,所述根据所述原始基因表达信息和所述原始基因序列信息,提取每个受试者对应的微观特征,包括:
确定各原始基因表达信息之间的线性关系,并根据所述线性关系构建基因关联网络;所述基因关联网络用于描述每个受试者与所有受试者之间的原始基因表达信息差异;
根据所述基因关联网络,确定每个受试者的预测基因表达信息,并根据所述预测基因表达信息和所述原始基因表达信息,构建表达偏差矩阵;所述表达偏差矩阵用于衡量每个受试者的预测基因表达信息和该受试者原始基因表达信息之间的差异;
根据所述表达偏差矩阵、所述原始基因表达信息以及所述原始基因序列信息,得到每个受试者对应的微观数据;
利用改进后的图卷积神经网络对所述微观数据进行特征提取,得到每个受试者对应的微观特征。
4.根据权利要求3所述的影像基因融合分类方法,其特征在于,所述确定各原始基因表达信息之间的线性关系,并根据所述线性关系构建基因关联网络,包括:
通过计算公式
得到所述线性关系其中,/>表示第i个受试者的原始基因表达信息与其他受试者的原始基因表达信息之间的线性关系,i=1,2,...,N,Ej表示第j个受试者的原始基因表达信息构成的向量,j=1,2,...,N,j≠i,Wij表示所述线性关系的斜率,Bij表示所述线性关系的偏置;
通过计算公式
得到所述基因关联网络(W,B);其中,(W,B)表示关联网络中线性函数的斜率和偏置,(w,b)表示参数(W,B)的搜索空间,Ei表示第i个受试者的原始基因表达信息构成的向量。
5.根据权利要求4所述的影像基因融合分类方法,其特征在于,所述表达偏差矩阵的表达式如下
E′i=Cij×(IEi-(WEi+B))
其中,E′i表示第i个受试者的表达偏差矩阵,Cij表示第i个受试者的原始基因表达信息与其他受试者的原始基因表达信息之间的线性关系的可信度,(WEi+B)表示第i个受试者的预测基因表达信息,I表示单位矩阵,Cov(Ei,Ej)表示变量Ei和Ej的协方差,Var(Ei)表示变量Ei的方差,Var(Ej)表示变量Ei的方差。
6.根据权利要求5所述的影像基因融合分类方法,其特征在于,所述根据所述表达偏差矩阵、所述原始基因表达信息以及所述原始基因序列信息,得到每个受试者对应的微观数据,包括:
通过计算公式
Gi=[Gi1,Gi2,Gi3…GiK]
Gij=fsnp(Sij×Mj)+fge(E′ij)
得到所述微观数据Gi;其中,Gi表示第i个受试者的微观数据,fsnp(·)表示原始基因序列信息的编码层,Sij表示第i个受试者的第j个基因的原始序列信息,Mj表示序列修饰符,用于增强所述原始基因表达信息和所述原始基因序列信息,fge(·)表示原始基因表达信息的编码层,E′ij表示第i个受试者的第j个基因的表达偏差向量。
7.根据权利要求6所述的影像基因融合分类方法,其特征在于,所述利用改进后的图卷积神经网络对所述微观数据进行特征提取,得到每个受试者对应的微观特征,包括:
通过计算公式
得到所述微观特征其中,/>表示第i个受试者的微观数据在图卷积神经网络第l+1层输出的微观特征,σ表示非线性激活函数,/>表示第i个受试者的微观数据在图卷积神经网络第l层输出的微观特征,/>表示当前受试者与全部训练集受试者的第l层邻接关系,邻接关系是受试者特征之间的相似度,/>表示全部训练集受试者的第l层输出的微观特征,Wl表示对特征进行线性变换的参数矩阵。
8.根据权利要求7所述的影像基因融合分类方法,其特征在于,所述对所述微观特征和所述宏观特征进行非对称流形对齐,得到融合特征,包括:
通过计算公式得到所述融合特征/>其中,/>表示经过非对称流形对齐后的融合特征,所述非对称流形对齐表示自适应调节梯度大小,fm(·)表示第m种模态的特征提取器,gm(·)表示第m种模态的分类器,/>表示第i个受试者的第m种模态的数据,/>表示第j个受试者的第m种模态的数据,yi表示第i个受试者的真实标签,yj表示第j个受试者的真实标签。
9.根据权利要求7所述的影像基因融合分类方法,其特征在于,所述损失值的表达式如下:
LTotal=LG+LM+LCE
LCE=-(yilog(pi)+(1-yi)log(1-pi))
其中,LTotal表示所述损失值,LG表示图结构学习损失,LM表示流形对齐损失,LCE表示交叉熵分类损失,dij表示第i个受试者和第j个受试者之间的类别距离,所述类别距离用于确认两个不同受试者是否属于同一类别,dij=|yi-yj|,aij表示第i个受试者和第j个受试者之间的邻接关系,邻接关系表示受试者特征之间的相似度,相似的受试者被认为具有邻接关系,pT表示一可学习的向量,用于对不同的特征进行加权,/>表示第n种模态下第i个样本与第j个样本之间的流形距离,Dm表示第m种模态下第i个样本与第j个样本之间的流形距离,yi表示第i个样本的真实标签,pi表示第i个样本的分类概率。
10.根据权利要求9所述的影像基因融合分类方法,其特征在于,所述根据所述损失值,对所述影像基因融合分类模型进行反向传播,直至所述影像基因融合分类模型收敛,得到训练后的影像基因融合分类模型,包括:
步骤i,根据所述损失值对所述影像基因融合分类模型进行反向传播,得到新影像基因融合分类模型;
步骤ii,计算所述新影像基因融合分类模型对应的新损失值,并判断所述新损失值是否小于等于预设损失阈值;
步骤iii,若所述新损失值小于等于预设损失阈值,则确定所述新影像基因融合分类模型已经收敛,并将所述新影像基因融合分类模型作为所述训练后的影像基因融合分类模型;否则,确定所述新影像基因融合分类模型未收敛,将所述新影像基因融合分类模型作为所述步骤i中的所述影像基因融合分类模型,返回执行步骤i。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310950132.XA CN116956138A (zh) | 2023-07-31 | 2023-07-31 | 一种基于多模态学习的影像基因融合分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310950132.XA CN116956138A (zh) | 2023-07-31 | 2023-07-31 | 一种基于多模态学习的影像基因融合分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116956138A true CN116956138A (zh) | 2023-10-27 |
Family
ID=88454503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310950132.XA Pending CN116956138A (zh) | 2023-07-31 | 2023-07-31 | 一种基于多模态学习的影像基因融合分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116956138A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349714A (zh) * | 2023-12-06 | 2024-01-05 | 中南大学 | 阿尔茨海默症医学图像的分类方法、系统、设备及介质 |
-
2023
- 2023-07-31 CN CN202310950132.XA patent/CN116956138A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349714A (zh) * | 2023-12-06 | 2024-01-05 | 中南大学 | 阿尔茨海默症医学图像的分类方法、系统、设备及介质 |
CN117349714B (zh) * | 2023-12-06 | 2024-02-13 | 中南大学 | 阿尔茨海默症医学图像的分类方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dias et al. | Artificial intelligence in clinical and genomic diagnostics | |
CN111488914B (zh) | 一种基于多任务学习的阿尔茨海默症分类及预测系统 | |
CN110021364B (zh) | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 | |
CN109528197B (zh) | 基于脑功能图谱进行精神疾病的个体化预测方法和系统 | |
US7133856B2 (en) | Binary tree for complex supervised learning | |
Dimitriadis et al. | Improving the reliability of network metrics in structural brain networks by integrating different network weighting strategies into a single graph | |
CN108109140A (zh) | 基于深度学习的低级别脑胶质瘤柠檬酸脱氢酶无损预测方法及系统 | |
US20230222311A1 (en) | Generating machine learning models using genetic data | |
Doan et al. | SONNET: A self-guided ordinal regression neural network for segmentation and classification of nuclei in large-scale multi-tissue histology images | |
CN107358014A (zh) | 一种生理数据的临床前处理方法及系统 | |
WO2015173435A1 (en) | Method for predicting a phenotype from a genotype | |
CN112884754A (zh) | 一种多模态阿尔兹海默症医学图像识别分类方法和系统 | |
CN113160974B (zh) | 一种基于超图聚类的精神疾病生物型发掘方法 | |
Bi et al. | Detecting risk gene and pathogenic brain region in EMCI using a novel GERF algorithm based on brain imaging and genetic data | |
CN116956138A (zh) | 一种基于多模态学习的影像基因融合分类方法 | |
CN115496953A (zh) | 基于时空图卷积的脑网络分类方法 | |
Thangavel et al. | EAD-DNN: Early Alzheimer's disease prediction using deep neural networks | |
Mukherji et al. | Recent landscape of deep learning intervention and consecutive clustering on biomedical diagnosis | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
US20230010202A1 (en) | Handwriting recognition pipelines for genealogical records | |
Wang et al. | Detecting genetic associations with brain imaging phenotypes in Alzheimer’s disease via a novel structured KCCA approach | |
Xie et al. | INTEGRATIVE NETWORK LEARNING FOR MULTI-MODALITY BIOMARKER DATA | |
Jaganathan et al. | Modelling an effectual feature selection approach for predicting down syndrome using machine learning approaches | |
CN113096828B (zh) | 基于癌症基因组大数据核心算法的诊断、预测以及大健康管理平台 | |
CN117079821B (zh) | 一种患者住院事件预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |