CN112908420B - 一种基于去噪网络正则化的多组学数据整合方法及系统 - Google Patents

一种基于去噪网络正则化的多组学数据整合方法及系统 Download PDF

Info

Publication number
CN112908420B
CN112908420B CN202011393211.8A CN202011393211A CN112908420B CN 112908420 B CN112908420 B CN 112908420B CN 202011393211 A CN202011393211 A CN 202011393211A CN 112908420 B CN112908420 B CN 112908420B
Authority
CN
China
Prior art keywords
matrix
data
objective function
sample
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011393211.8A
Other languages
English (en)
Other versions
CN112908420A (zh
Inventor
王伟文
戴道清
张曦文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011393211.8A priority Critical patent/CN112908420B/zh
Publication of CN112908420A publication Critical patent/CN112908420A/zh
Application granted granted Critical
Publication of CN112908420B publication Critical patent/CN112908420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于去噪网络正则化的多组学数据整合方法及系统,所述方法包括:对多组学数据进行数据预处理,删除空值数量大于设定值的特征;将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;计算融合相似性矩阵的拉普拉斯矩阵,由拉普拉斯矩阵构建正则项,并将其与初步目标函数结合得到最终目标函数;利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。本发明减轻了噪声影响同时消除了各组学数据特异性信号的影响。

Description

一种基于去噪网络正则化的多组学数据整合方法及系统
技术领域
本发明涉及生物信息技术领域,更具体地,涉及一种基于去噪网络正则化的多组学数据整合方法及系统。
背景技术
随着测序技术的快速发展,大量的高通量测序数据得以积累,这些测序数据包括基因表达水平、甲基化水平、微小核糖核酸(miRNA)表达水平、基因拷贝变异数等,它们从基因组学、转录组学、蛋白组学等多组学的角度,多方位地描述了癌症在分子水平的表现及相应的生物过程。深入了解多组学数据,挖掘不同组学数据之间的联系,对揭示癌症的机理,探索针对性的治疗手段具有十分重要的意义。但是,如何有效地整合多组学数据,从中抽取具有临床意义的信息,是一个十分具有挑战性的问题。其原因有二。多组学数据通常是小样本、高维度,理论上属于欠定问题,小样本导致模型的推广能力弱,高维度存在大量的信息冗余,传统的数据分析技术并不能有效解决这类问题,这是原因之一。另一方面,不同组学数据之间,同质性和特异性同时存在,同质性反映不同组学数据之间的联系,特异性体现各组学数据自身的独特信息,这一对矛盾给挖掘多组学数据一致性信息造成障碍,这是原因之二。
针对上述两个挑战,研究人员提出了不同解决方法。这些方法中,基于非负矩阵分解框架的技术因其优越性而备受关注。首先,非负矩阵分解将组学数据分解为样本空间表示和特征空间表示两个部分,使得分析同时能够从样本和特征的角度考虑,具有较好的解释能力。此外,非负矩阵分解方法要求满足非负矩阵约束,有利于挖掘异构数据中的共同模式,即多组学数据中的一致性信息。这些方法中,与本发明最接近的技术方案主要有以下几种:
1、基于联合非负矩阵分解的多组学数据整合方法(Zhang S,Liu CC,Li W,ShenH, Laird PW,Zhou XJ.Discovery of multi-dimensional modules by integrativeanalysis of cancer genomic data.Nucleic Acids Res 2012;40(19):9379-9391.)。该方法将各组学数据分别作非负矩阵分解,将数据矩阵分解为样本空间表示和特征空间表示的乘积,同时要求不同组学的数据矩阵共享同一个样本空间表示。
2、与联合非负矩阵分解类似,将数据矩阵分解为样本空间表示和特征空间表示的乘积(Hellton KH,Thoresen M.Integrative clustering of high-dimensional datawith joint and individual clusters.Biostatistics 2016;17(3):537-548.),不同之处在于,各组学的数据矩阵有其自身独特的样本空间表示,但要求这些独特的样本空间表示满足一致性约束,即它们均接近一个相同一致性样本表示。实验数据表明,这些方法能够有效地整合多组学数据。但它们依然存在一些缺陷。其一,受测序技术、处理手段等因素的影响,组学数据矩阵不可避免地受到噪声的影响,而上述方法并没有直接考虑组学数据的噪声水平。其二,它们或忽视组学数据的特异性这一作为学习多组学数据一致性样本表示不利因素,或在模型中引入更多的变量来描述该因素,使得模型更为复杂,进而导致求解上的困难。
发明内容
本发明为克服上述现有技术中组学数据整合时受噪声影响较大、忽视组学数据特异性信号影响的缺陷,提供一种基于去噪网络正则化的多组学数据整合方法及系统。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种基于去噪网络正则化的多组学数据整合方法,包括以下步骤:
S1:对多组学数据进行数据预处理,删除空值数量大于设定值的特征。
S2:将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;
S3:利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;
S4:计算融合相似性矩阵的拉普拉斯矩阵,由拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
S5:利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
进一步地,若组学数据的特征数量大于2000,则将组学数据按照方差从大到小排序,选取前2000个组学数据。
进一步地,将组学数据表达矩阵进行带误差项的非负矩阵分解具体过程为:将组学数据表达矩阵Dv分解为样本空间表示和特征空间表示的乘积,以及一个误差项Ev,表达式为:
Dv=XZv+Ev,v=1,2,...,V, (1)
其中
Figure RE-GDA0003027696230000031
为样本的一致性表示,为不同组学数据类型所共有,每一行表示一个样本的低维嵌入,/>
Figure RE-GDA0003027696230000032
为组学数据类型v的特征空间表示,每一列对应特征的低维嵌入,d为用户设定的超参数。
进一步地,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数, 初步目标函数表达式为:
Figure RE-GDA0003027696230000033
(2)式中约束条件保证X和Zv的非负性,初步目标函数中F范数定义为
Figure RE-GDA0003027696230000034
L1范数定义为/>
Figure RE-GDA0003027696230000035
L2,1范数定义为/>
Figure RE-GDA0003027696230000036
进一步地,利用预处理后的组学数据构建样本相似性矩阵具体过程为:在组学数据类型v中,定义样本i,j之间的相似性定义为:
Figure RE-GDA0003027696230000037
其中,
Figure RE-GDA0003027696230000038
表示两个样本之间的欧氏距离,μ为用户自定义参数,其取值范围为0.3到0.8;εi,j定义为
Figure RE-GDA0003027696230000039
其中
Figure RE-GDA0003027696230000041
为与样本i相似性最高的K个样本所构成的集合,/>
Figure RE-GDA0003027696230000042
Figure RE-GDA0003027696230000043
与/>
Figure RE-GDA0003027696230000044
中所有样本的欧氏距离的平均值。
进一步地,相似性矩阵的去噪过程为:
利用局部邻域信息规范化相似矩阵得到Sv,其中Sv的元素定义为:
Figure RE-GDA0003027696230000045
定义转移矩阵T,
Figure RE-GDA0003027696230000046
去噪相似性矩阵
Figure RE-GDA0003027696230000047
由(5)式计算得到,
Figure RE-GDA0003027696230000048
其中I为N×N阶的单位矩阵,α为去噪过程的权重系数。
进一步地,得到融合相似性矩阵的过程为:
根据去噪相似性矩阵
Figure RE-GDA0003027696230000049
将样本i的K最近邻域更新为/>
Figure RE-GDA00030276962300000410
将去噪相似性矩阵
Figure RE-GDA00030276962300000411
在局部邻域上做规范化,
Figure RE-GDA00030276962300000412
Figure RE-GDA00030276962300000413
再次规范化
Figure RE-GDA00030276962300000414
使用交叉扩散迭代更新相似性矩阵,迭代更新如下,
Figure RE-GDA0003027696230000051
迭代初始值取
Figure RE-GDA0003027696230000052
T表示迭代次数,融合相似性矩阵计算公式为:
Figure RE-GDA0003027696230000053
进一步地,计算融合相似性矩阵的拉普拉斯矩阵表示式为:
Lc=Dc-Wc
其中Dc为N×N阶对角矩阵,对角元素
Figure RE-GDA0003027696230000054
去噪网络的正则项定义为trace(XTLcX),其中trace(·)为矩阵的求迹运算。
进一步地,由拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数,利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示,最终目标函数的表达式为:
Figure RE-GDA0003027696230000055
其中β和γ为用户定义的超参数;
利用交替方向临近梯度法迭代求解X,
Figure RE-GDA0003027696230000056
(a)、固定
Figure RE-GDA0003027696230000057
求解X
Figure RE-GDA0003027696230000058
其中
Figure RE-GDA0003027696230000059
Figure RE-GDA0003027696230000061
(b)、固定X,
Figure RE-GDA0003027696230000062
求解/>
Figure RE-GDA0003027696230000063
Figure RE-GDA0003027696230000064
其中
h(Zv)=-2XT(Dv-XZv-Ev),
Figure RE-GDA0003027696230000065
(c)、固定X,
Figure RE-GDA0003027696230000066
求解/>
Figure RE-GDA0003027696230000067
Figure RE-GDA0003027696230000068
(9)-(11)式中,||·||1和||·||2,1的邻近算子具有显式解;具体地,
Figure RE-GDA0003027696230000069
⊙表示矩阵元素对应位置乘积;
Figure RE-GDA00030276962300000610
X*的每一列定义为
Figure RE-GDA00030276962300000611
本发明第二方面提供了一种基于去噪网络正则化的多组学数据整合系统,所述系统包括数据预处理模块,初步目标函数建立模块,融合相似性矩阵构建模块、最终目标函数建立模块、最终目标函数求解模块,
所述数据预处理模块用于对多组学数据进行数据预处理,删除空值数量大于设定值的特征;
所述初步目标函数建立模块用于将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;
所述融合相似性矩阵构建模块利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;
所述最终目标函数建立模块用于计算融合相似性矩阵的拉普拉斯矩阵,由拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
所述最终目标函数求解模块利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过对组学数据表达矩阵进行带误差项的非负矩阵分解,并使用稀疏优化构建初步目标函数减轻了噪声影响,通过去噪及网络正则化消除了各组学数据特异性信号的影响。
附图说明
图1为本发明的方法流程图。
图2为本发明实施例提供一种模拟数据示意图。
图3为本发明实施例提供一种模拟数据验证实验效果对比图。
图4为本发明实施例各类病人生存曲线图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
在一个具体的实施例中,给定N个样本V种不同类型的组学数据表达矩阵
Figure RE-GDA0003027696230000071
pv表示第v种组学数据的特征数量,表达矩阵Dv第i行Dv(i,:)表示样本i在组学数据类型v中pv个特征的取值,每一个样本可以对应一个癌症病人。
如图1所示,本发明第一方面提供了一种基于去噪网络正则化的多组学数据整合方法,包括以下步骤:
S1:对多组学数据进行数据预处理,删除空值数量大于设定值的特征。
在一个具体实施例中,所述设定值为20%,即在各组学数据中,删除空值数量超过20%的特征,余下空值使用0补全;
S2:将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;
S3:利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;
S4:计算融合相似性矩阵的拉普拉斯矩阵,由拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
S5:利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
进一步地,若组学数据的特征数量大于2000,则将组学数据按照方差从大到小排序,选取前2000个组学数据。
进一步地,将组学数据表达矩阵进行带误差项的非负矩阵分解具体过程为:将组学数据表达矩阵Dv分解为样本空间表示和特征空间表示的乘积,以及一个误差项Ev,表达式为:
Dv=XZv+Ev,v=1,2,...,V, (1)
其中
Figure RE-GDA0003027696230000081
为样本的一致性表示,为不同组学数据类型所共有,每一行表示一个样本的低维嵌入,/>
Figure RE-GDA0003027696230000082
为组学数据类型v的特征空间表示,每一列对应特征的低维嵌入,d为用户设定的超参数。
进一步地,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数, 初步目标函数表达式为:
Figure RE-GDA0003027696230000083
(2)式中约束条件保证X和Zv的非负性,初步目标函数中F范数定义为
Figure RE-GDA0003027696230000091
L1范数定义为/>
Figure RE-GDA0003027696230000092
L2,1范数定义为
Figure RE-GDA0003027696230000093
进一步地,利用预处理后的组学数据构建样本相似性矩阵具体过程为:在组学数据类型v中,定义样本i,j之间的相似性定义为:
Figure RE-GDA0003027696230000094
其中,
Figure RE-GDA0003027696230000095
表示两个样本之间的欧氏距离,μ为用户自定义参数,其取值范围为0.3到0.8;εi,j定义为:
Figure RE-GDA0003027696230000096
其中
Figure RE-GDA0003027696230000097
为与样本i相似性最高的K个样本所构成的集合,/>
Figure RE-GDA0003027696230000098
为/>
Figure RE-GDA0003027696230000099
与/>
Figure RE-GDA00030276962300000910
中所有样本的欧氏距离的平均值。
进一步地,相似性矩阵的去噪过程为:
利用局部邻域信息规范化相似矩阵得到Sv,其中Sv的元素定义为:
Figure RE-GDA00030276962300000911
定义转移矩阵T,
Figure RE-GDA00030276962300000912
去噪相似性矩阵
Figure RE-GDA00030276962300000913
由(5)式计算得到,
Figure RE-GDA0003027696230000101
其中I为N×N阶的单位矩阵,α为去噪过程的权重系数,在一个具体的实施过程中α可以取值为0.5。
进一步地,得到融合相似性矩阵的过程为:
根据去噪相似性矩阵
Figure RE-GDA0003027696230000102
将样本i的K最近邻域更新为/>
Figure RE-GDA0003027696230000103
将去噪相似性矩阵
Figure RE-GDA0003027696230000104
在局部邻域上做规范化,
Figure RE-GDA0003027696230000105
Figure RE-GDA0003027696230000106
再次规范化
Figure RE-GDA0003027696230000107
使用交叉扩散迭代更新相似性矩阵,迭代更新如下,
Figure RE-GDA0003027696230000108
迭代初始值取
Figure RE-GDA0003027696230000109
T表示迭代次数,在一个具体的实施例中T可以取值 20,融合相似性矩阵/>
Figure RE-GDA00030276962300001010
进一步地,计算融合相似性矩阵的拉普拉斯矩阵表示式为:
Lc=Dc-Wc
其中Dc为N×N阶对角矩阵,对角元素
Figure RE-GDA00030276962300001011
去噪网络的正则项定义为trace(XTLcX),其中trace(·)为矩阵的求迹运算。
进一步地,将拉普拉斯矩阵与初步目标函数结合得到最终目标函数,利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性,目标函数的表达式为:
Figure RE-GDA0003027696230000111
其中β和γ为用户定义的超参数;
利用交替方向临近梯度法迭代求解X,
Figure RE-GDA0003027696230000112
(a)、固定
Figure RE-GDA0003027696230000113
求解X
Figure RE-GDA0003027696230000114
其中
Figure RE-GDA0003027696230000115
Figure RE-GDA0003027696230000116
(b)、固定X,
Figure RE-GDA0003027696230000117
求解/>
Figure RE-GDA0003027696230000118
Figure RE-GDA0003027696230000119
其中
h(Zv)=-2XT(Dv-XZv-Ev),
Figure RE-GDA00030276962300001110
(c)、固定X,
Figure RE-GDA00030276962300001111
求解/>
Figure RE-GDA00030276962300001112
Figure RE-GDA00030276962300001113
(9)-(11)式中,||·||1和||·||2,1的邻近算子具有显式解;具体地,
Figure RE-GDA0003027696230000121
⊙表示矩阵元素对应位置乘积;
Figure RE-GDA0003027696230000122
X*的每一列定义为
Figure RE-GDA0003027696230000123
本发明第二方面提供了一种基于去噪网络正则化的多组学数据整合系统,所述系统包括数据预处理模块,初步目标函数建立模块,融合相似性矩阵构建模块、最终目标函数建立模块、最终目标函数求解模块,
所述数据预处理模块用于对多组学数据进行数据预处理,删除空值数量大于设定值的特征;
所述初步目标函数建立模块用于将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;
所述融合相似性矩阵构建模块利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;
所述最终目标函数建立模块用于计算融合相似性矩阵的拉普拉斯矩阵,利用拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
所述最终目标函数求解模块利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
验证与分析
本实施例首先在模拟数据上证实本发明能有效接消除噪声和特异性信号的影响,揭示多个数据矩阵的一致性结构。接下来,再将通过两个实际数据集验证本发明能有效整合多组学数据,从中抽取与生存相关的信息。
(1)模拟数据验证
为评价本发明给出的基于去噪网络正则化的多组学数据整合方法(DeFusion) 的有效性,我们首先使用模拟数据验证本发明是否有效揭示不同类型数据隐含的一致性信息。模拟数据包含三个数据矩阵,这三个数据矩阵存在三个一致的分块结构,同时包含特异性的部分。模拟数据样本数量N=90,三个数据矩阵的特征数量分别为p1=120,p2=210,p3=2100。使用本发明学习得到的一致性样本表示X进行K均值聚类,使用规范化互信息(normalized mutual information,NMI)评价聚类结果与实际分块结构的一致性,该指标越高越能说明X能够捕捉到不同数据类型的一致性结构。在不同的噪声水平下,分别重复30次实验。对比结果如图3所示,其中(A)表示高信噪比实验结果、(B)中信噪比下的实验结果、(C)低信噪比下的实验结果。DeFusion-NE为本发明的变体,即去掉算法流程中的去噪操作;DeFusion-E为本发明的另一个变体,即去掉算法流程中非负矩阵分解的误差项。模拟数据的对比结果 DeFusion>DeFusion-NE>DeFusion-E,说明去噪操作和误差项的必要性。其他对比方法分别为整合非负矩阵分解(Integrative Non-negative MatrixFactorization,iNMF)、联合非负矩阵分解(Joint Non-negative Matrix Factorization,jNMF)、多视图非负矩阵分解(Multi-view Non-negative Matrix Factorization,MultiNMF),相似网络融合(Similarity Network Fusion,SNF)。
(2)肝癌数据验证
为验证本发明是否能有效从多组学数据中抽取生存相关信息,我们将其应用于实际的肝癌数据。该数据集包括276个病人的60482个信使RNA(mRNA)的表达水平、1881个微小RNA(miRNA)的表达水平和25977个基因位点的甲基化水平(DNA methylation)。我们使用多组学数据一致性表示作为比例风险回归模型(Cox Proportional Hazards model)的输入预测病人的生存风险,使用一致性指数 (Harrell’s C-index)评价预测的准确率。表1给出10次3重交叉验证中测试集的一致性指数均值和标准差,本发明涉及的超参数d、β和γ由网格搜索,通过训练集中最优一致性指数确定,参数范数设定d∈{2,3,4,5,6,7},β∈{0.1,1,5,10},γ∈{0.01,0.1,1,1,10,100},外循环迭代次数Touter=600,内循环迭代次数Tinner=10。
表1肝癌病人生存风险预测一致性指数表
iNMF jNMF MultiNMF SNF DeFusion
肝癌数据 0.74±0.06 0.71±0.06 0.73±0.06 0.71±0.05 0.78±0.05
(3)外源肝癌数据GSE14520验证
同时我们使用上述最优超参数对应一致性样本表示X进行K均值聚类,聚 类数量与参数d一致。各类病人的生存曲线如图4(A)所示,其中类型3病 人的生存风险显著高于其他类型的病人。图4中p值为log-rank检验值,衡量生 存曲线差异是否显著,(A)肝癌数据集中各类患者生存曲线;(B)GSE14520两类病人生存曲 线。故我们将类型3的病人作为高风险组,余下类别的病人作为低风险组,利 用R软件包limma做高风险-低分析差异表达分析,分别筛选出20个上调基因 和20个下调基因共40个基因。我们使用一个外源肝癌数据集GSE14520,该数 据集包含242个病人的mRNA表达谱,上述40个差异表达基因中,有12个基因在GSE14520中出现,相应的基因见表2,其中斜体加粗为GS14520中找到的12个基 因。我们使用这12个基因对GSE14520中的病人进行K均值聚类,聚类数目设 为2,这两类病人生存曲线如图4(B)所示,两者具有显著生存差异。
表2高风险-低风险组差异表达基因top 20
Figure RE-GDA0003027696230000141
上述结果表明,本发明能有效整合多组学数据,从中抽取生存相关的一致性样本表示。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于去噪网络正则化的多组学数据整合方法,其特征在于,包括以下步骤:
S1:对多组学数据进行数据预处理,删除空值数量大于设定值的特征;
S2:将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;将组学数据表达矩阵进行带误差项的非负矩阵分解具体过程为:将组学数据表达矩阵Dv分解为样本空间表示和特征空间表示的乘积,以及一个误差项Ev,表达式为:
Dv=XZv+Ev,v=1,2,...,V, (1)
其中
Figure FDA0004257313730000011
为样本的一致性表示,为不同组学数据类型所共有,每一行表示一个样本的低维嵌入,/>
Figure FDA0004257313730000012
为组学数据类型v的特征空间表示,每一列对应特征的低维嵌入,d为用户设定的超参数;
对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数,初步目标函数表达式为:
Figure FDA0004257313730000013
(2)式中约束条件保证X和Zv的非负性,初步目标函数中F范数定义为
Figure FDA0004257313730000014
L1范数定义为/>
Figure FDA0004257313730000015
L2,1范数定义为/>
Figure FDA0004257313730000016
S3:利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;利用预处理后的组学数据构建样本相似性矩阵具体过程为:
在组学数据类型v中,定义样本i,j之间的相似性定义为:
Figure FDA0004257313730000021
其中,
Figure FDA0004257313730000022
表示两个样本之间的欧氏距离,μ为用户自定义参数,其取值范围为0.3到0.8;εi,j定义为
Figure FDA0004257313730000023
其中
Figure FDA0004257313730000024
为与样本i相似性最高的K个样本所构成的集合,/>
Figure FDA0004257313730000025
为/>
Figure FDA0004257313730000026
与/>
Figure FDA0004257313730000027
中所有样本的欧氏距离的平均值;
S4:计算融合相似性矩阵的拉普拉斯矩阵,利用拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
S5:利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
2.根据权利要求1所述的一种基于去噪网络正则化的多组学数据整合方法,其特征在于,若组学数据的特征数量大于2000,则将组学数据按照方差从大到小排序,选取前2000个组学数据。
3.根据权利要求1所述的一种基于去噪网络正则化的多组学数据整合方法,其特征在于,相似性矩阵的去噪过程为:
利用局部邻域信息规范化相似矩阵得到Sv,其中Sv的元素定义为:
Figure FDA0004257313730000028
定义转移矩阵T,
Figure FDA0004257313730000031
去噪相似性矩阵
Figure FDA0004257313730000032
由(5)式计算得到,
Figure FDA0004257313730000033
其中I为N×N阶的单位矩阵,α为去噪过程中的权重系数。
4.根据权利要求3所述的一种基于去噪网络正则化的多组学数据整合方法,其特征在于,得到融合相似性矩阵的过程为:
根据去噪相似性矩阵
Figure FDA0004257313730000034
将样本i的K最近邻域更新为/>
Figure FDA0004257313730000035
将去噪相似性矩阵/>
Figure FDA0004257313730000036
在局部邻域上做规范化,
Figure FDA0004257313730000037
Figure FDA0004257313730000038
再次规范化
Figure FDA0004257313730000039
使用交叉扩散迭代更新相似性矩阵,迭代更新如下,
Figure FDA00042573137300000310
迭代初始值取
Figure FDA00042573137300000311
T表示迭代次数,融合相似性矩阵计算公式为
Figure FDA00042573137300000312
5.根据权利要求4所述的一种基于去噪网络正则化的多组学数据整合方法,其特征在于,计算融合相似性矩阵的拉普拉斯矩阵表示式为:
Lc=Dc-Wc
其中Dc为N×N阶对角矩阵,对角元素
Figure FDA0004257313730000041
去噪网络的正则项定义为trace(XTLcX),其中trace(·)为矩阵的求迹运算。
6.根据权利要求5所述的一种基于去噪网络正则化的多组学数据整合方法,其特征在于,由拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数,利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示,最终目标函数的表达式为:
Figure FDA0004257313730000042
其中β和γ为用户定义的超参数;
利用交替方向临近梯度法迭代求解X,
Figure FDA0004257313730000043
(1)固定
Figure FDA0004257313730000044
求解X
Figure FDA0004257313730000045
其中
Figure FDA0004257313730000046
Figure FDA0004257313730000047
(2)固定X,
Figure FDA0004257313730000048
求解/>
Figure FDA0004257313730000049
Figure FDA00042573137300000410
其中
h(Zv)=-2XT(Dv-XZv-Ev),
Figure FDA0004257313730000059
(3)固定X,
Figure FDA0004257313730000051
求解/>
Figure FDA0004257313730000052
Figure FDA0004257313730000053
(9)-(11)式中,||·||1和||·||2,1的邻近算子具有显式解,具体为:
Figure FDA0004257313730000054
⊙表示矩阵元素对应位置乘积;
Figure FDA0004257313730000055
X*的每一列定义为
Figure FDA0004257313730000056
7.一种基于去噪网络正则化的多组学数据整合系统,其特征在于,所述系统包括数据预处理模块,初步目标函数建立模块,融合相似性矩阵构建模块、目最终标函数建立模块、最终目标函数求解模块,
所述数据预处理模块用于对多组学数据进行数据预处理,删除空值数量大于设定值的特征;
所述初步目标函数建立模块用于将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;将组学数据表达矩阵进行带误差项的非负矩阵分解具体过程为:
将组学数据表达矩阵Dv分解为样本空间表示和特征空间表示的乘积,以及一个误差项Ev,表达式为:
Dv=XZv+Ev,v=1,2,...,V, (1)
其中
Figure FDA0004257313730000057
为样本的一致性表示,为不同组学数据类型所共有,每一行表示一个样本的低维嵌入,/>
Figure FDA0004257313730000058
为组学数据类型v的特征空间表示,每一列对应特征的低维嵌入,d为用户设定的超参数;
对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数,初步目标函数表达式为:
Figure FDA0004257313730000061
(2)式中约束条件保证X和Zv的非负性,初步目标函数中F范数定义为
Figure FDA0004257313730000062
L1范数定义为/>
Figure FDA0004257313730000063
L2,1范数定义为
Figure FDA0004257313730000064
所述融合相似性矩阵构建模块利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;利用预处理后的组学数据构建样本相似性矩阵具体过程为:
在组学数据类型v中,定义样本i,j之间的相似性定义为:
Figure FDA0004257313730000065
其中,
Figure FDA0004257313730000066
表示两个样本之间的欧氏距离,μ为用户自定义参数,其取值范围为0.3到0.8;εi,j定义为
Figure FDA0004257313730000067
其中
Figure FDA0004257313730000068
为与样本i相似性最高的K个样本所构成的集合,/>
Figure FDA0004257313730000071
为/>
Figure FDA0004257313730000072
与/>
Figure FDA0004257313730000073
中所有样本的欧氏距离的平均值;
所述最终目标函数建立模块用于计算融合相似性矩阵的拉普拉斯矩阵,由拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
所述最终目标函数求解模块利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
CN202011393211.8A 2020-12-02 2020-12-02 一种基于去噪网络正则化的多组学数据整合方法及系统 Active CN112908420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011393211.8A CN112908420B (zh) 2020-12-02 2020-12-02 一种基于去噪网络正则化的多组学数据整合方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011393211.8A CN112908420B (zh) 2020-12-02 2020-12-02 一种基于去噪网络正则化的多组学数据整合方法及系统

Publications (2)

Publication Number Publication Date
CN112908420A CN112908420A (zh) 2021-06-04
CN112908420B true CN112908420B (zh) 2023-07-04

Family

ID=76111379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011393211.8A Active CN112908420B (zh) 2020-12-02 2020-12-02 一种基于去噪网络正则化的多组学数据整合方法及系统

Country Status (1)

Country Link
CN (1) CN112908420B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279740A (zh) * 2015-11-17 2016-01-27 华东交通大学 一种基于稀疏正则化的图像去噪方法
CN105894469A (zh) * 2016-03-31 2016-08-24 福州大学 基于外部块自编码学习和内部块聚类的去噪方法
CN106169180A (zh) * 2016-07-13 2016-11-30 桂林电子科技大学 一种基于组的非局部稀疏表示加性噪声去除方法
CN108776812A (zh) * 2018-05-31 2018-11-09 西安电子科技大学 基于非负矩阵分解和多样-一致性的多视图聚类方法
CN110826635A (zh) * 2019-11-12 2020-02-21 曲阜师范大学 基于整合非负矩阵分解的样本聚类和特征识别方法
CN111028939A (zh) * 2019-11-15 2020-04-17 华南理工大学 一种基于深度学习的多组学智能诊断系统
CN111223528A (zh) * 2020-01-08 2020-06-02 华南理工大学 一种多组学数据聚类方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279740A (zh) * 2015-11-17 2016-01-27 华东交通大学 一种基于稀疏正则化的图像去噪方法
CN105894469A (zh) * 2016-03-31 2016-08-24 福州大学 基于外部块自编码学习和内部块聚类的去噪方法
CN106169180A (zh) * 2016-07-13 2016-11-30 桂林电子科技大学 一种基于组的非局部稀疏表示加性噪声去除方法
CN108776812A (zh) * 2018-05-31 2018-11-09 西安电子科技大学 基于非负矩阵分解和多样-一致性的多视图聚类方法
CN110826635A (zh) * 2019-11-12 2020-02-21 曲阜师范大学 基于整合非负矩阵分解的样本聚类和特征识别方法
CN111028939A (zh) * 2019-11-15 2020-04-17 华南理工大学 一种基于深度学习的多组学智能诊断系统
CN111223528A (zh) * 2020-01-08 2020-06-02 华南理工大学 一种多组学数据聚类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
项目计算机辅助受理的研究方向与关键词――2012年度受理情况与2013年度注意事项;马惠珠;宋朝晖;季飞;侯嘉;熊小芸;;电子与信息学报(第01期);第1-2页 *

Also Published As

Publication number Publication date
CN112908420A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
Tang et al. Recent advances of deep learning in bioinformatics and computational biology
CN109994200B (zh) 一种基于相似度融合的多组学癌症数据整合分析方法
Van Dijk et al. Recovering gene interactions from single-cell data using data diffusion
CN111564183B (zh) 融合基因本体和神经网络的单细胞测序数据降维方法
CN113362888A (zh) 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质
Cheng et al. DGCyTOF: Deep learning with graphic cluster visualization to predict cell types of single cell mass cytometry data
Zhang et al. A new graph autoencoder-based consensus-guided model for scRNA-seq cell type detection
Baldwin et al. Computational, integrative, and comparative methods for the elucidation of genetic coexpression networks
Shi et al. Multi-view subspace clustering analysis for aggregating multiple heterogeneous omics data
Kundu et al. Efficient Bayesian regularization for graphical model selection
Zeng et al. Couple coc+: an information-theoretic co-clustering-based transfer learning framework for the integrative analysis of single-cell genomic data
CN112908420B (zh) 一种基于去噪网络正则化的多组学数据整合方法及系统
Ouyang et al. Predicting multiple types of associations between miRNAs and diseases based on graph regularized weighted tensor decomposition
Barrera et al. An environment for knowledge discovery in biology
Babichev et al. Technique of gene expression profiles selection based on SOTA clustering algorithm using statistical criteria and Shannon entropy
CN114141306B (zh) 基于基因相互作用模式优化图表示的远处转移识别方法
CN113421614A (zh) 一种基于张量分解的lncRNA-疾病关联预测方法
CN112768001A (zh) 一种基于流形学习和主曲线的单细胞轨迹推断方法
Xu et al. SPACEL: characterizing spatial transcriptome architectures by deep-learning
Shukla et al. Application of deep learning in biological big data analysis
Liu et al. miRNA-disease associations prediction based on neural tensor decomposition
Govek et al. CAJAL: A general framework for the combined morphometric, transcriptomic, and physiological analysis of cells using metric geometry
Wang Machine Learning Approaches for Extracting Biological Insights from Heterogeneous Omics Data
Ma et al. Cell-type composition analysis of scRNA-seq data with deep convolution neural network
Abou El-Naga et al. Consensus Nature Inspired Clustering of Single-Cell RNA-Sequencing Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant