CN112908420A

CN112908420A - 一种基于去噪网络正则化的多组学数据整合方法及系统

Info

Publication number: CN112908420A
Application number: CN202011393211.8A
Authority: CN
Inventors: 王伟文; 戴道清; 张曦文
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-06-04
Anticipated expiration: 2040-12-02
Also published as: CN112908420B

Abstract

本发明公开了一种基于去噪网络正则化的多组学数据整合方法及系统，所述方法包括：对多组学数据进行数据预处理，删除空值数量大于设定值的特征；将预处理后的组学数据构建为组学数据表达矩阵，将组学数据表达矩阵进行带误差项的非负矩阵分解，对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数；利用预处理后的组学数据构建样本相似性矩阵，对样本相似性矩阵去噪后融合得到融合相似性矩阵；计算融合相似性矩阵的拉普拉斯矩阵，由拉普拉斯矩阵构建正则项，并将其与初步目标函数结合得到最终目标函数；利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。本发明减轻了噪声影响同时消除了各组学数据特异性信号的影响。

Description

一种基于去噪网络正则化的多组学数据整合方法及系统

技术领域

本发明涉及生物信息技术领域，更具体地，涉及一种基于去噪网络正则化的多组学数据整合方法及系统。

背景技术

随着测序技术的快速发展，大量的高通量测序数据得以积累，这些测序数据包括基因表达水平、甲基化水平、微小核糖核酸(miRNA)表达水平、基因拷贝变异数等，它们从基因组学、转录组学、蛋白组学等多组学的角度，多方位地描述了癌症在分子水平的表现及相应的生物过程。深入了解多组学数据，挖掘不同组学数据之间的联系，对揭示癌症的机理，探索针对性的治疗手段具有十分重要的意义。但是，如何有效地整合多组学数据，从中抽取具有临床意义的信息，是一个十分具有挑战性的问题。其原因有二。多组学数据通常是小样本、高维度，理论上属于欠定问题，小样本导致模型的推广能力弱，高维度存在大量的信息冗余，传统的数据分析技术并不能有效解决这类问题，这是原因之一。另一方面，不同组学数据之间，同质性和特异性同时存在，同质性反映不同组学数据之间的联系，特异性体现各组学数据自身的独特信息，这一对矛盾给挖掘多组学数据一致性信息造成障碍，这是原因之二。

针对上述两个挑战，研究人员提出了不同解决方法。这些方法中，基于非负矩阵分解框架的技术因其优越性而备受关注。首先，非负矩阵分解将组学数据分解为样本空间表示和特征空间表示两个部分，使得分析同时能够从样本和特征的角度考虑，具有较好的解释能力。此外，非负矩阵分解方法要求满足非负矩阵约束，有利于挖掘异构数据中的共同模式，即多组学数据中的一致性信息。这些方法中，与本发明最接近的技术方案主要有以下几种：

1、基于联合非负矩阵分解的多组学数据整合方法(Zhang S,Liu CC,Li W,ShenH, Laird PW,Zhou XJ.Discovery of multi-dimensional modules by integrativeanalysis of cancer genomic data.Nucleic Acids Res 2012；40(19):9379-9391.)。该方法将各组学数据分别作非负矩阵分解，将数据矩阵分解为样本空间表示和特征空间表示的乘积，同时要求不同组学的数据矩阵共享同一个样本空间表示。

2、与联合非负矩阵分解类似，将数据矩阵分解为样本空间表示和特征空间表示的乘积(Hellton KH,Thoresen M.Integrative clustering of high-dimensional datawith joint and individual clusters.Biostatistics 2016；17(3):537-548.)，不同之处在于，各组学的数据矩阵有其自身独特的样本空间表示，但要求这些独特的样本空间表示满足一致性约束，即它们均接近一个相同一致性样本表示。实验数据表明，这些方法能够有效地整合多组学数据。但它们依然存在一些缺陷。其一，受测序技术、处理手段等因素的影响，组学数据矩阵不可避免地受到噪声的影响，而上述方法并没有直接考虑组学数据的噪声水平。其二，它们或忽视组学数据的特异性这一作为学习多组学数据一致性样本表示不利因素，或在模型中引入更多的变量来描述该因素，使得模型更为复杂，进而导致求解上的困难。

发明内容

本发明为克服上述现有技术中组学数据整合时受噪声影响较大、忽视组学数据特异性信号影响的缺陷，提供一种基于去噪网络正则化的多组学数据整合方法及系统。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

本发明第一方面提供了一种基于去噪网络正则化的多组学数据整合方法，包括以下步骤：

S1：对多组学数据进行数据预处理，删除空值数量大于设定值的特征。

S2：将预处理后的组学数据构建为组学数据表达矩阵，将组学数据表达矩阵进行带误差项的非负矩阵分解，对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数；

S3：利用预处理后的组学数据构建样本相似性矩阵，对样本相似性矩阵去噪后融合得到融合相似性矩阵；

S4：计算融合相似性矩阵的拉普拉斯矩阵，由拉普拉斯矩阵构建正则项，并将构建的正则项与初步目标函数结合得到最终目标函数；

S5：利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。

进一步地，若组学数据的特征数量大于2000，则将组学数据按照方差从大到小排序，选取前2000个组学数据。

进一步地，将组学数据表达矩阵进行带误差项的非负矩阵分解具体过程为：将组学数据表达矩阵D^v分解为样本空间表示和特征空间表示的乘积，以及一个误差项E^v，表达式为:

D^v＝XZ^v+E^v,v＝1,2,...,V, (1)

其中

为样本的一致性表示，为不同组学数据类型所共有，每一行表示一个样本的低维嵌入，

为组学数据类型v的特征空间表示，每一列对应特征的低维嵌入,d为用户设定的超参数。

进一步地，对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数, 初步目标函数表达式为：

(2)式中约束条件保证X和Z^v的非负性，初步目标函数中F范数定义为

L₁范数定义为

L_2,1范数定义为

进一步地，利用预处理后的组学数据构建样本相似性矩阵具体过程为：在组学数据类型v中，定义样本i,j之间的相似性定义为：

其中，

表示两个样本之间的欧氏距离，μ为用户自定义参数，其取值范围为0.3到0.8；ε_i,j定义为

其中

为与样本i相似性最高的K个样本所构成的集合，

为

与

中所有样本的欧氏距离的平均值。

进一步地，相似性矩阵的去噪过程为：

利用局部邻域信息规范化相似矩阵得到S^v，其中S^v的元素定义为：

定义转移矩阵T，

去噪相似性矩阵

由(5)式计算得到，

其中I为N×N阶的单位矩阵，α为去噪过程的权重系数。

进一步地，得到融合相似性矩阵的过程为：

根据去噪相似性矩阵

将样本i的K最近邻域更新为

将去噪相似性矩阵

在局部邻域上做规范化，

将

再次规范化

使用交叉扩散迭代更新相似性矩阵，迭代更新如下，

迭代初始值取

T表示迭代次数，融合相似性矩阵计算公式为：

进一步地，计算融合相似性矩阵的拉普拉斯矩阵表示式为：

L^c＝D^c-W^c，

其中D^c为N×N阶对角矩阵，对角元素

去噪网络的正则项定义为trace(X^TL^cX)，其中trace(·)为矩阵的求迹运算。

进一步地，由拉普拉斯矩阵构建正则项，并将构建的正则项与初步目标函数结合得到最终目标函数，利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示，最终目标函数的表达式为：

其中β和γ为用户定义的超参数；

利用交替方向临近梯度法迭代求解X,

(a)、固定

求解X

其中

(b)、固定X，

求解

其中

h(Z^v)＝-2X^T(D^v-XZ^v-E^v),

(c)、固定X，

求解

(9)-(11)式中，||·||₁和||·||_2,1的邻近算子具有显式解；具体地，

⊙表示矩阵元素对应位置乘积；

X^*的每一列定义为

本发明第二方面提供了一种基于去噪网络正则化的多组学数据整合系统，所述系统包括数据预处理模块，初步目标函数建立模块，融合相似性矩阵构建模块、最终目标函数建立模块、最终目标函数求解模块，

所述数据预处理模块用于对多组学数据进行数据预处理，删除空值数量大于设定值的特征；

所述初步目标函数建立模块用于将预处理后的组学数据构建为组学数据表达矩阵，将组学数据表达矩阵进行带误差项的非负矩阵分解，对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数；

所述融合相似性矩阵构建模块利用预处理后的组学数据构建样本相似性矩阵，对样本相似性矩阵去噪后融合得到融合相似性矩阵；

所述最终目标函数建立模块用于计算融合相似性矩阵的拉普拉斯矩阵，由拉普拉斯矩阵构建正则项，并将构建的正则项与初步目标函数结合得到最终目标函数；

所述最终目标函数求解模块利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过对组学数据表达矩阵进行带误差项的非负矩阵分解，并使用稀疏优化构建初步目标函数减轻了噪声影响，通过去噪及网络正则化消除了各组学数据特异性信号的影响。

附图说明

图1为本发明的方法流程图。

图2为本发明实施例提供一种模拟数据示意图。

图3为本发明实施例提供一种模拟数据验证实验效果对比图。

图4为本发明实施例各类病人生存曲线图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

在一个具体的实施例中，给定N个样本V种不同类型的组学数据表达矩阵

p_v表示第v种组学数据的特征数量，表达矩阵D^v第i行D^v(i,:)表示样本i在组学数据类型v中p_v个特征的取值，每一个样本可以对应一个癌症病人。

如图1所示，本发明第一方面提供了一种基于去噪网络正则化的多组学数据整合方法，包括以下步骤：

在一个具体实施例中，所述设定值为20％，即在各组学数据中，删除空值数量超过20％的特征，余下空值使用0补全；

D^v＝XZ^v+E^v,v＝1,2,...,V, (1)

其中

L₁范数定义为

L_2,1范数定义为

其中，

表示两个样本之间的欧氏距离，μ为用户自定义参数，其取值范围为0.3到0.8；ε_i,j定义为：

其中

为与样本i相似性最高的K个样本所构成的集合，

为

与

中所有样本的欧氏距离的平均值。

进一步地，相似性矩阵的去噪过程为：

定义转移矩阵T，

去噪相似性矩阵

由(5)式计算得到，

其中I为N×N阶的单位矩阵，α为去噪过程的权重系数，在一个具体的实施过程中α可以取值为0.5。

进一步地，得到融合相似性矩阵的过程为：

根据去噪相似性矩阵

将样本i的K最近邻域更新为

将去噪相似性矩阵

在局部邻域上做规范化，

将

再次规范化

使用交叉扩散迭代更新相似性矩阵，迭代更新如下，

迭代初始值取

T表示迭代次数，在一个具体的实施例中T可以取值 20，融合相似性矩阵

进一步地，计算融合相似性矩阵的拉普拉斯矩阵表示式为：

L^c＝D^c-W^c，

其中D^c为N×N阶对角矩阵，对角元素

进一步地，将拉普拉斯矩阵与初步目标函数结合得到最终目标函数，利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性，目标函数的表达式为：

其中β和γ为用户定义的超参数；

利用交替方向临近梯度法迭代求解X,

(a)、固定

求解X

其中

(b)、固定X，

求解

其中

h(Z^v)＝-2X^T(D^v-XZ^v-E^v),

(c)、固定X，

求解

⊙表示矩阵元素对应位置乘积；

X^*的每一列定义为

所述最终目标函数建立模块用于计算融合相似性矩阵的拉普拉斯矩阵，利用拉普拉斯矩阵构建正则项，并将构建的正则项与初步目标函数结合得到最终目标函数；

验证与分析

本实施例首先在模拟数据上证实本发明能有效接消除噪声和特异性信号的影响，揭示多个数据矩阵的一致性结构。接下来，再将通过两个实际数据集验证本发明能有效整合多组学数据，从中抽取与生存相关的信息。

(1)模拟数据验证

为评价本发明给出的基于去噪网络正则化的多组学数据整合方法(DeFusion) 的有效性，我们首先使用模拟数据验证本发明是否有效揭示不同类型数据隐含的一致性信息。模拟数据包含三个数据矩阵，这三个数据矩阵存在三个一致的分块结构，同时包含特异性的部分。模拟数据样本数量N＝90，三个数据矩阵的特征数量分别为p₁＝120，p₂＝210，p₃＝2100。使用本发明学习得到的一致性样本表示X进行K均值聚类，使用规范化互信息(normalized mutual information,NMI)评价聚类结果与实际分块结构的一致性,该指标越高越能说明X能够捕捉到不同数据类型的一致性结构。在不同的噪声水平下，分别重复30次实验。对比结果如图3所示，其中(A)表示高信噪比实验结果、(B)中信噪比下的实验结果、(C)低信噪比下的实验结果。DeFusion-NE为本发明的变体，即去掉算法流程中的去噪操作；DeFusion-E为本发明的另一个变体，即去掉算法流程中非负矩阵分解的误差项。模拟数据的对比结果 DeFusion>DeFusion-NE>DeFusion-E,说明去噪操作和误差项的必要性。其他对比方法分别为整合非负矩阵分解(Integrative Non-negative MatrixFactorization,iNMF)、联合非负矩阵分解(Joint Non-negative Matrix Factorization,jNMF)、多视图非负矩阵分解(Multi-view Non-negative Matrix Factorization,MultiNMF),相似网络融合(Similarity Network Fusion,SNF)。

(2)肝癌数据验证

为验证本发明是否能有效从多组学数据中抽取生存相关信息，我们将其应用于实际的肝癌数据。该数据集包括276个病人的60482个信使RNA(mRNA)的表达水平、1881个微小RNA(miRNA)的表达水平和25977个基因位点的甲基化水平(DNA methylation)。我们使用多组学数据一致性表示作为比例风险回归模型(Cox Proportional Hazards model)的输入预测病人的生存风险，使用一致性指数 (Harrell’s C-index)评价预测的准确率。表1给出10次3重交叉验证中测试集的一致性指数均值和标准差，本发明涉及的超参数d、β和γ由网格搜索，通过训练集中最优一致性指数确定，参数范数设定d∈{2,3,4,5,6,7}，β∈{0.1,1,5,10}，γ∈{0.01,0.1,1，1,10,100}，外循环迭代次数T_outer＝600，内循环迭代次数T_inner＝10。

表1肝癌病人生存风险预测一致性指数表

	iNMF	jNMF	MultiNMF	SNF	DeFusion
						肝癌数据	0.74±0.06	0.71±0.06	0.73±0.06	0.71±0.05	0.78±0.05

(3)外源肝癌数据GSE14520验证

同时我们使用上述最优超参数对应一致性样本表示X进行K均值聚类，聚类数量与参数d一致。各类病人的生存曲线如图4(A)所示，其中类型3病人的生存风险显著高于其他类型的病人。图4中p值为log-rank检验值，衡量生存曲线差异是否显著，(A)肝癌数据集中各类患者生存曲线；(B)GSE14520两类病人生存曲线。故我们将类型3的病人作为高风险组，余下类别的病人作为低风险组，利用R软件包limma做高风险-低分析差异表达分析，分别筛选出20个上调基因和20个下调基因共40个基因。我们使用一个外源肝癌数据集GSE14520,该数据集包含242个病人的mRNA表达谱，上述40个差异表达基因中，有12个基因在GSE14520中出现，相应的基因见表2，其中斜体加粗为GS14520中找到的12个基因。我们使用这12个基因对GSE14520中的病人进行K均值聚类，聚类数目设为2，这两类病人生存曲线如图4(B)所示，两者具有显著生存差异。

表2高风险-低风险组差异表达基因top 20

上述结果表明，本发明能有效整合多组学数据，从中抽取生存相关的一致性样本表示。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。