CN112908420A - 一种基于去噪网络正则化的多组学数据整合方法及系统 - Google Patents
一种基于去噪网络正则化的多组学数据整合方法及系统 Download PDFInfo
- Publication number
- CN112908420A CN112908420A CN202011393211.8A CN202011393211A CN112908420A CN 112908420 A CN112908420 A CN 112908420A CN 202011393211 A CN202011393211 A CN 202011393211A CN 112908420 A CN112908420 A CN 112908420A
- Authority
- CN
- China
- Prior art keywords
- matrix
- data
- objective function
- omics data
- omics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000010354 integration Effects 0.000 title claims description 12
- 239000011159 matrix material Substances 0.000 claims abstract description 157
- 230000014509 gene expression Effects 0.000 claims abstract description 48
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 239000000126 substance Substances 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 12
- 238000013459 approach Methods 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims description 16
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000009792 diffusion process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 43
- 230000004083 survival effect Effects 0.000 description 14
- 108090000623 proteins and genes Proteins 0.000 description 10
- 201000007270 liver cancer Diseases 0.000 description 6
- 208000014018 liver neoplasm Diseases 0.000 description 6
- 206010028980 Neoplasm Diseases 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 108700011259 MicroRNAs Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013502 data validation Methods 0.000 description 2
- 230000011987 methylation Effects 0.000 description 2
- 238000007069 methylation reaction Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000007067 DNA methylation Effects 0.000 description 1
- 238000012351 Integrated analysis Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000001325 log-rank test Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 229920002477 rna polymer Polymers 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Epidemiology (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于去噪网络正则化的多组学数据整合方法及系统,所述方法包括:对多组学数据进行数据预处理,删除空值数量大于设定值的特征;将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;计算融合相似性矩阵的拉普拉斯矩阵,由拉普拉斯矩阵构建正则项,并将其与初步目标函数结合得到最终目标函数;利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。本发明减轻了噪声影响同时消除了各组学数据特异性信号的影响。
Description
技术领域
本发明涉及生物信息技术领域,更具体地,涉及一种基于去噪网络正则化的多组学数据整合方法及系统。
背景技术
随着测序技术的快速发展,大量的高通量测序数据得以积累,这些测序数据包括基因表达水平、甲基化水平、微小核糖核酸(miRNA)表达水平、基因拷贝变异数等,它们从基因组学、转录组学、蛋白组学等多组学的角度,多方位地描述了癌症在分子水平的表现及相应的生物过程。深入了解多组学数据,挖掘不同组学数据之间的联系,对揭示癌症的机理,探索针对性的治疗手段具有十分重要的意义。但是,如何有效地整合多组学数据,从中抽取具有临床意义的信息,是一个十分具有挑战性的问题。其原因有二。多组学数据通常是小样本、高维度,理论上属于欠定问题,小样本导致模型的推广能力弱,高维度存在大量的信息冗余,传统的数据分析技术并不能有效解决这类问题,这是原因之一。另一方面,不同组学数据之间,同质性和特异性同时存在,同质性反映不同组学数据之间的联系,特异性体现各组学数据自身的独特信息,这一对矛盾给挖掘多组学数据一致性信息造成障碍,这是原因之二。
针对上述两个挑战,研究人员提出了不同解决方法。这些方法中,基于非负矩阵分解框架的技术因其优越性而备受关注。首先,非负矩阵分解将组学数据分解为样本空间表示和特征空间表示两个部分,使得分析同时能够从样本和特征的角度考虑,具有较好的解释能力。此外,非负矩阵分解方法要求满足非负矩阵约束,有利于挖掘异构数据中的共同模式,即多组学数据中的一致性信息。这些方法中,与本发明最接近的技术方案主要有以下几种:
1、基于联合非负矩阵分解的多组学数据整合方法(Zhang S,Liu CC,Li W,ShenH, Laird PW,Zhou XJ.Discovery of multi-dimensional modules by integrativeanalysis of cancer genomic data.Nucleic Acids Res 2012;40(19):9379-9391.)。该方法将各组学数据分别作非负矩阵分解,将数据矩阵分解为样本空间表示和特征空间表示的乘积,同时要求不同组学的数据矩阵共享同一个样本空间表示。
2、与联合非负矩阵分解类似,将数据矩阵分解为样本空间表示和特征空间表示的乘积(Hellton KH,Thoresen M.Integrative clustering of high-dimensional datawith joint and individual clusters.Biostatistics 2016;17(3):537-548.),不同之处在于,各组学的数据矩阵有其自身独特的样本空间表示,但要求这些独特的样本空间表示满足一致性约束,即它们均接近一个相同一致性样本表示。实验数据表明,这些方法能够有效地整合多组学数据。但它们依然存在一些缺陷。其一,受测序技术、处理手段等因素的影响,组学数据矩阵不可避免地受到噪声的影响,而上述方法并没有直接考虑组学数据的噪声水平。其二,它们或忽视组学数据的特异性这一作为学习多组学数据一致性样本表示不利因素,或在模型中引入更多的变量来描述该因素,使得模型更为复杂,进而导致求解上的困难。
发明内容
本发明为克服上述现有技术中组学数据整合时受噪声影响较大、忽视组学数据特异性信号影响的缺陷,提供一种基于去噪网络正则化的多组学数据整合方法及系统。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种基于去噪网络正则化的多组学数据整合方法,包括以下步骤:
S1:对多组学数据进行数据预处理,删除空值数量大于设定值的特征。
S2:将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;
S3:利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;
S4:计算融合相似性矩阵的拉普拉斯矩阵,由拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
S5:利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
进一步地,若组学数据的特征数量大于2000,则将组学数据按照方差从大到小排序,选取前2000个组学数据。
进一步地,将组学数据表达矩阵进行带误差项的非负矩阵分解具体过程为:将组学数据表达矩阵Dv分解为样本空间表示和特征空间表示的乘积,以及一个误差项Ev,表达式为:
Dv=XZv+Ev,v=1,2,...,V, (1)
进一步地,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数, 初步目标函数表达式为:
进一步地,利用预处理后的组学数据构建样本相似性矩阵具体过程为:在组学数据类型v中,定义样本i,j之间的相似性定义为:
进一步地,相似性矩阵的去噪过程为:
利用局部邻域信息规范化相似矩阵得到Sv,其中Sv的元素定义为:
定义转移矩阵T,
其中I为N×N阶的单位矩阵,α为去噪过程的权重系数。
进一步地,得到融合相似性矩阵的过程为:
使用交叉扩散迭代更新相似性矩阵,迭代更新如下,
进一步地,计算融合相似性矩阵的拉普拉斯矩阵表示式为:
Lc=Dc-Wc,
进一步地,由拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数,利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示,最终目标函数的表达式为:
其中β和γ为用户定义的超参数;
其中
其中
h(Zv)=-2XT(Dv-XZv-Ev),
(9)-(11)式中,||·||1和||·||2,1的邻近算子具有显式解;具体地,
⊙表示矩阵元素对应位置乘积;
X*的每一列定义为
本发明第二方面提供了一种基于去噪网络正则化的多组学数据整合系统,所述系统包括数据预处理模块,初步目标函数建立模块,融合相似性矩阵构建模块、最终目标函数建立模块、最终目标函数求解模块,
所述数据预处理模块用于对多组学数据进行数据预处理,删除空值数量大于设定值的特征;
所述初步目标函数建立模块用于将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;
所述融合相似性矩阵构建模块利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;
所述最终目标函数建立模块用于计算融合相似性矩阵的拉普拉斯矩阵,由拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
所述最终目标函数求解模块利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过对组学数据表达矩阵进行带误差项的非负矩阵分解,并使用稀疏优化构建初步目标函数减轻了噪声影响,通过去噪及网络正则化消除了各组学数据特异性信号的影响。
附图说明
图1为本发明的方法流程图。
图2为本发明实施例提供一种模拟数据示意图。
图3为本发明实施例提供一种模拟数据验证实验效果对比图。
图4为本发明实施例各类病人生存曲线图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
在一个具体的实施例中,给定N个样本V种不同类型的组学数据表达矩阵pv表示第v种组学数据的特征数量,表达矩阵Dv第i行Dv(i,:)表示样本i在组学数据类型v中pv个特征的取值,每一个样本可以对应一个癌症病人。
如图1所示,本发明第一方面提供了一种基于去噪网络正则化的多组学数据整合方法,包括以下步骤:
S1:对多组学数据进行数据预处理,删除空值数量大于设定值的特征。
在一个具体实施例中,所述设定值为20%,即在各组学数据中,删除空值数量超过20%的特征,余下空值使用0补全;
S2:将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;
S3:利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;
S4:计算融合相似性矩阵的拉普拉斯矩阵,由拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
S5:利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
进一步地,若组学数据的特征数量大于2000,则将组学数据按照方差从大到小排序,选取前2000个组学数据。
进一步地,将组学数据表达矩阵进行带误差项的非负矩阵分解具体过程为:将组学数据表达矩阵Dv分解为样本空间表示和特征空间表示的乘积,以及一个误差项Ev,表达式为:
Dv=XZv+Ev,v=1,2,...,V, (1)
进一步地,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数, 初步目标函数表达式为:
进一步地,利用预处理后的组学数据构建样本相似性矩阵具体过程为:在组学数据类型v中,定义样本i,j之间的相似性定义为:
进一步地,相似性矩阵的去噪过程为:
利用局部邻域信息规范化相似矩阵得到Sv,其中Sv的元素定义为:
定义转移矩阵T,
其中I为N×N阶的单位矩阵,α为去噪过程的权重系数,在一个具体的实施过程中α可以取值为0.5。
进一步地,得到融合相似性矩阵的过程为:
使用交叉扩散迭代更新相似性矩阵,迭代更新如下,
进一步地,计算融合相似性矩阵的拉普拉斯矩阵表示式为:
Lc=Dc-Wc,
进一步地,将拉普拉斯矩阵与初步目标函数结合得到最终目标函数,利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性,目标函数的表达式为:
其中β和γ为用户定义的超参数;
其中
其中
h(Zv)=-2XT(Dv-XZv-Ev),
(9)-(11)式中,||·||1和||·||2,1的邻近算子具有显式解;具体地,
⊙表示矩阵元素对应位置乘积;
X*的每一列定义为
本发明第二方面提供了一种基于去噪网络正则化的多组学数据整合系统,所述系统包括数据预处理模块,初步目标函数建立模块,融合相似性矩阵构建模块、最终目标函数建立模块、最终目标函数求解模块,
所述数据预处理模块用于对多组学数据进行数据预处理,删除空值数量大于设定值的特征;
所述初步目标函数建立模块用于将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;
所述融合相似性矩阵构建模块利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;
所述最终目标函数建立模块用于计算融合相似性矩阵的拉普拉斯矩阵,利用拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
所述最终目标函数求解模块利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
验证与分析
本实施例首先在模拟数据上证实本发明能有效接消除噪声和特异性信号的影响,揭示多个数据矩阵的一致性结构。接下来,再将通过两个实际数据集验证本发明能有效整合多组学数据,从中抽取与生存相关的信息。
(1)模拟数据验证
为评价本发明给出的基于去噪网络正则化的多组学数据整合方法(DeFusion) 的有效性,我们首先使用模拟数据验证本发明是否有效揭示不同类型数据隐含的一致性信息。模拟数据包含三个数据矩阵,这三个数据矩阵存在三个一致的分块结构,同时包含特异性的部分。模拟数据样本数量N=90,三个数据矩阵的特征数量分别为p1=120,p2=210,p3=2100。使用本发明学习得到的一致性样本表示X进行K均值聚类,使用规范化互信息(normalized mutual information,NMI)评价聚类结果与实际分块结构的一致性,该指标越高越能说明X能够捕捉到不同数据类型的一致性结构。在不同的噪声水平下,分别重复30次实验。对比结果如图3所示,其中(A)表示高信噪比实验结果、(B)中信噪比下的实验结果、(C)低信噪比下的实验结果。DeFusion-NE为本发明的变体,即去掉算法流程中的去噪操作;DeFusion-E为本发明的另一个变体,即去掉算法流程中非负矩阵分解的误差项。模拟数据的对比结果 DeFusion>DeFusion-NE>DeFusion-E,说明去噪操作和误差项的必要性。其他对比方法分别为整合非负矩阵分解(Integrative Non-negative MatrixFactorization,iNMF)、联合非负矩阵分解(Joint Non-negative Matrix Factorization,jNMF)、多视图非负矩阵分解(Multi-view Non-negative Matrix Factorization,MultiNMF),相似网络融合(Similarity Network Fusion,SNF)。
(2)肝癌数据验证
为验证本发明是否能有效从多组学数据中抽取生存相关信息,我们将其应用于实际的肝癌数据。该数据集包括276个病人的60482个信使RNA(mRNA)的表达水平、1881个微小RNA(miRNA)的表达水平和25977个基因位点的甲基化水平(DNA methylation)。我们使用多组学数据一致性表示作为比例风险回归模型(Cox Proportional Hazards model)的输入预测病人的生存风险,使用一致性指数 (Harrell’s C-index)评价预测的准确率。表1给出10次3重交叉验证中测试集的一致性指数均值和标准差,本发明涉及的超参数d、β和γ由网格搜索,通过训练集中最优一致性指数确定,参数范数设定d∈{2,3,4,5,6,7},β∈{0.1,1,5,10},γ∈{0.01,0.1,1,1,10,100},外循环迭代次数Touter=600,内循环迭代次数Tinner=10。
表1肝癌病人生存风险预测一致性指数表
iNMF | jNMF | MultiNMF | SNF | DeFusion | |
肝癌数据 | 0.74±0.06 | 0.71±0.06 | 0.73±0.06 | 0.71±0.05 | 0.78±0.05 |
(3)外源肝癌数据GSE14520验证
同时我们使用上述最优超参数对应一致性样本表示X进行K均值聚类,聚 类数量与参数d一致。各类病人的生存曲线如图4(A)所示,其中类型3病 人的生存风险显著高于其他类型的病人。图4中p值为log-rank检验值,衡量生 存曲线差异是否显著,(A)肝癌数据集中各类患者生存曲线;(B)GSE14520两类病人生存曲 线。故我们将类型3的病人作为高风险组,余下类别的病人作为低风险组,利 用R软件包limma做高风险-低分析差异表达分析,分别筛选出20个上调基因 和20个下调基因共40个基因。我们使用一个外源肝癌数据集GSE14520,该数 据集包含242个病人的mRNA表达谱,上述40个差异表达基因中,有12个基因在GSE14520中出现,相应的基因见表2,其中斜体加粗为GS14520中找到的12个基 因。我们使用这12个基因对GSE14520中的病人进行K均值聚类,聚类数目设 为2,这两类病人生存曲线如图4(B)所示,两者具有显著生存差异。
表2高风险-低风险组差异表达基因top 20
上述结果表明,本发明能有效整合多组学数据,从中抽取生存相关的一致性样本表示。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于去噪网络正则化的多组学数据整合方法,其特征在于,包括以下步骤:
S1:对多组学数据进行数据预处理,删除空值数量大于设定值的特征;
S2:将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;
S3:利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;
S4:计算融合相似性矩阵的拉普拉斯矩阵,利用拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
S5:利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
2.根据权利要求1所述的一种基于去噪网络正则化的多组学数据整合方法,其特征在于,若组学数据的特征数量大于2000,则将组学数据按照方差从大到小排序,选取前2000个组学数据。
9.根据权利要求8所述的一种基于去噪网络正则化的多组学数据整合方法,其特征在于,由拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数,利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示,最终目标函数的表达式为:
s.t.X≥0,Zv≥0,v=1,2,...,V.
其中β和γ为用户定义的超参数;
其中
其中
h(Zv)=-2XT(Dv-XZv-Ev),
(9)-(11)式中,||·||1和||·||2,1的邻近算子具有显式解,具体为:
⊙表示矩阵元素对应位置乘积;
X*的每一列定义为
10.一种基于去噪网络正则化的多组学数据整合系统,其特征在于,所述系统包括数据预处理模块,初步目标函数建立模块,融合相似性矩阵构建模块、目最终标函数建立模块、最终目标函数求解模块,
所述数据预处理模块用于对多组学数据进行数据预处理,删除空值数量大于设定值的特征;
所述初步目标函数建立模块用于将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;
所述融合相似性矩阵构建模块利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;
所述最终目标函数建立模块用于计算融合相似性矩阵的拉普拉斯矩阵,由拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
所述最终目标函数求解模块利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011393211.8A CN112908420B (zh) | 2020-12-02 | 2020-12-02 | 一种基于去噪网络正则化的多组学数据整合方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011393211.8A CN112908420B (zh) | 2020-12-02 | 2020-12-02 | 一种基于去噪网络正则化的多组学数据整合方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112908420A true CN112908420A (zh) | 2021-06-04 |
CN112908420B CN112908420B (zh) | 2023-07-04 |
Family
ID=76111379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011393211.8A Active CN112908420B (zh) | 2020-12-02 | 2020-12-02 | 一种基于去噪网络正则化的多组学数据整合方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908420B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279740A (zh) * | 2015-11-17 | 2016-01-27 | 华东交通大学 | 一种基于稀疏正则化的图像去噪方法 |
CN105894469A (zh) * | 2016-03-31 | 2016-08-24 | 福州大学 | 基于外部块自编码学习和内部块聚类的去噪方法 |
CN106169180A (zh) * | 2016-07-13 | 2016-11-30 | 桂林电子科技大学 | 一种基于组的非局部稀疏表示加性噪声去除方法 |
CN108776812A (zh) * | 2018-05-31 | 2018-11-09 | 西安电子科技大学 | 基于非负矩阵分解和多样-一致性的多视图聚类方法 |
CN110826635A (zh) * | 2019-11-12 | 2020-02-21 | 曲阜师范大学 | 基于整合非负矩阵分解的样本聚类和特征识别方法 |
CN111028939A (zh) * | 2019-11-15 | 2020-04-17 | 华南理工大学 | 一种基于深度学习的多组学智能诊断系统 |
CN111223528A (zh) * | 2020-01-08 | 2020-06-02 | 华南理工大学 | 一种多组学数据聚类方法及装置 |
-
2020
- 2020-12-02 CN CN202011393211.8A patent/CN112908420B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279740A (zh) * | 2015-11-17 | 2016-01-27 | 华东交通大学 | 一种基于稀疏正则化的图像去噪方法 |
CN105894469A (zh) * | 2016-03-31 | 2016-08-24 | 福州大学 | 基于外部块自编码学习和内部块聚类的去噪方法 |
CN106169180A (zh) * | 2016-07-13 | 2016-11-30 | 桂林电子科技大学 | 一种基于组的非局部稀疏表示加性噪声去除方法 |
CN108776812A (zh) * | 2018-05-31 | 2018-11-09 | 西安电子科技大学 | 基于非负矩阵分解和多样-一致性的多视图聚类方法 |
CN110826635A (zh) * | 2019-11-12 | 2020-02-21 | 曲阜师范大学 | 基于整合非负矩阵分解的样本聚类和特征识别方法 |
CN111028939A (zh) * | 2019-11-15 | 2020-04-17 | 华南理工大学 | 一种基于深度学习的多组学智能诊断系统 |
CN111223528A (zh) * | 2020-01-08 | 2020-06-02 | 华南理工大学 | 一种多组学数据聚类方法及装置 |
Non-Patent Citations (1)
Title |
---|
马惠珠;宋朝晖;季飞;侯嘉;熊小芸;: "项目计算机辅助受理的研究方向与关键词――2012年度受理情况与2013年度注意事项", 电子与信息学报, no. 01, pages 1 - 2 * |
Also Published As
Publication number | Publication date |
---|---|
CN112908420B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109994200B (zh) | 一种基于相似度融合的多组学癌症数据整合分析方法 | |
EP3619653B1 (en) | Deep learning-based variant classifier | |
Tang et al. | Recent advances of deep learning in bioinformatics and computational biology | |
Koumakis | Deep learning models in genomics; are we there yet? | |
EP3622523B1 (en) | Semi-supervised learning for training an ensemble of deep convolutional neural networks | |
CN111564183B (zh) | 融合基因本体和神经网络的单细胞测序数据降维方法 | |
CN112086199B (zh) | 基于多组学数据的肝癌数据处理系统 | |
Shi et al. | Multi-view subspace clustering analysis for aggregating multiple heterogeneous omics data | |
Kundu et al. | Efficient Bayesian regularization for graphical model selection | |
Li et al. | GCAEMDA: Predicting miRNA-disease associations via graph convolutional autoencoder | |
Sun et al. | Two stages biclustering with three populations | |
Toh et al. | System for automatically inferring a genetic netwerk from expression profiles | |
CN113421614A (zh) | 一种基于张量分解的lncRNA-疾病关联预测方法 | |
Gao et al. | A new method based on matrix completion and non-negative matrix factorization for predicting disease-associated miRNAs | |
CN112908420A (zh) | 一种基于去噪网络正则化的多组学数据整合方法及系统 | |
CN116631512A (zh) | 基于深度分解机的piRNA与疾病关联关系预测方法 | |
CN114141306B (zh) | 基于基因相互作用模式优化图表示的远处转移识别方法 | |
US20210324465A1 (en) | Systems and methods for analyzing and aggregating open chromatin signatures at single cell resolution | |
Zhou et al. | Predicting pseudogene–miRNA associations based on feature fusion and graph auto-encoder | |
CN115295156A (zh) | 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 | |
Liu et al. | miRNA-disease associations prediction based on neural tensor decomposition | |
Li et al. | A comparative study for identifying the chromosome-wide spatial clusters from high-throughput chromatin conformation capture data | |
Liu et al. | Tensor product graph diffusion based on nonlinear fusion of multi-source information to predict circRNA-disease associations | |
Lan et al. | Predicting microRNA-environmental factor interactions based on bi-random walk and multi-label learning | |
CN116721702A (zh) | 基于网络传播的个性化癌症驱动基因识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |