CN111816259A

CN111816259A - 基于网络表示学习的不完整多组学数据集成方法

Info

Publication number: CN111816259A
Application number: CN202010644047.7A
Authority: CN
Inventors: 高琳; 许晗; 段然; 黄明凤; 宋阔
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-23
Anticipated expiration: 2040-07-07
Also published as: CN111816259B

Abstract

本发明提出了一种基于网络表示学习的不完整多组学数据集成方法，用于解决现有技术无法利用所有缺失部分组学数据的样本的问题。实现步骤为，获取不完整多组学数据；构建基于组学x_i的相似性网络A_i；生成节点序列的集合C；定义目标函数L；根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果。本发明根据不同组学对样本构建相似性网络，并通过在多个相似性网络上的交替地随机游走采样样本序列来融合不同网络的信息，最后根据随机游走得到的序列将样本嵌入到低维向量空间中。本发明在网络表示学习中通过随机游走策略来捕捉样本之间的相似性，解决了现有技术无法利用所有缺失部分组学数据的样本的问题。

Description

基于网络表示学习的不完整多组学数据集成方法

技术领域

本发明属于数据挖掘技术领域，涉及一种多组学数据集成方法，具体涉及一种基于网络表示学习的不完整多组学数据集成方法。

背景技术

随着基因测序等生物分子技术的飞速发展，TCGA、ICGC等数据库收集了大量癌症样本的不同组学数据(例如，基因组、表观组、转录组、蛋白组等)。由于癌症的发生和发展通常涉及多个组学层面的失调，与单组学数据分析相比，同时分析多个组学数据能够以系统生物学的视角理解癌症。癌症亚型识别、生存风险预测、癌症样本可视化等各个癌症研究领域，均依赖于多组学数据集成方法的特征提取和信息融合的能力。因此，需要一种集成多组学数据的有效信息的方法。

在2014年，Wang Bo等人在Nature Methods期刊第11卷第3期发表了论文“Similarity Network Fusion for Aggregating Data Types on a Genomic Scale”，该方法基于网络中的信息扩散理论，将由多组学产生的多个相似性网络融合为一个相似性网络，从而集成了多组学中的有效信息，集成结果为样本的相似性网络。

然而，在TCGA、ICGC等数据库中，癌症样本通常并不是拥有所有组学的数据(例如，在TCGA中的乳腺癌BRCA的数据中，1093个样本有mRNA表达特征，756个样本有microRNA表达特征，791个样本有甲基化特征，其中，同时拥有三个组学特征的样本只有624个)，传统方法在集成多组学数据前需要对缺失组学的样本进行补值或过滤。缺失部分组学数据的样本的特点是在某些组学的上万维特征同时缺失，在这种情况下补值算法的性能通常较差，进而影响多组学数据集成方法的特征提取能力。由于癌症的组学数据中通常样本数远少于特征数，过滤大量的样本会降低多组学数据集成方法的统计能力，并且会在下游任务中增加假阳性发现的风险。因此，需要一种在集成多组学数据时能够利用缺失部分组学数据的样本的方法，这样的方法也称为不完整多组学数据集成方法。

在2019年Rappoport Nimrod和Shamir Ron在Bioinformatics期刊第35卷第18期发表了论文“NEMO:Cancer Subtyping by Integration of Partial Multi-omic Data”，该方法通过平均在不同相似性网络中可观测到的相似性的方式来整合多组学数据的信息，得到的集成结果为样本的相似性网络。然而，该方法有较严格的基本假设：要求任意一对样本至少在同一个的组学中同时出现。这使得当存在两个样本测量的组学数据没有交集时，该方法无法处理。

根据以上叙述，对多组学数据集成分析的问题而言，通常存在癌症样本量过少的问题，传统多组学数据集成方法在使用前需要过滤缺失部分组学的样本，而针对不完整多组学数据集成的现有技术NEMO仍然无法利用所有缺失部分组学数据的样本。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于网络表示学习的不完整多组学数据集成方法，旨在解决现有技术无法利用所有缺失部分组学数据的样本的问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取不完整多组学数据：

从TCGA数据库中获取包括样本集合F和组学集合X的不完整多组学数据U，F＝{f_j|1≤j≤N}，X＝{x_i|1≤i≤M}，其中，f_j表示第j个样本，N表示样本的数量，N≥2，x_i表示第i个包含n_i个样本，且每个样本包含m_i个特征的组学，M表示组学的个数，M≥1；

(2)构建基于组学x_i的相似性网络A_i：

(2a)设x_i中第x个样本和第y个样本分别为f_a和f_b，将f_a和f_b组成样本对(f_a,f_b)，并根据各样本在组学x_i的特征，计算f_a和f_b之间的欧式距离d_i(f_a,f_b)，其中，1≤x≤n_i，1≤y≤n_i；

(2b)根据组学x_i中f_a与其它n_i-1个样本的欧氏距离d_i(f_a,·)，以及f_b与其它n_i-1个样本的欧氏距离d_i(·,f_b)，对(f_a,f_b)的参数δ_i(f_a,f_b)进行估计：

其中，

表示d_i(f_a,·)中距离f_a最近的前k个样本的集合，

表示d_i(·,f_b)中距离f_b最近的前k个样本的集合，

和

分别表示

和

中的任意样本，1≤k≤n_i；

(2c)根据δ_i(f_a,f_b)计算f_a与f_b的相似性s_i(f_a,f_b)：

其中，exp(·)表示以自然常数为底数的幂运算；

(2d)根据组学x_i中f_a与其它n_i-1个样本之间的相似性s_i(f_a,·)，计算f_a到f_b的局部转移概率p_i(f_a,f_b)，并将p_i(f_a,f_b)放入转移概率矩阵P_i中的(x,y)位置，其中，转移概率矩阵P_i为n_i×n_i的矩阵，p_i(f_a,f_b)的计算公式为：

其中，

表示s_i(f_a,·)中与f_a最相似的前k个样本的集合，f_z表示

中的任意样本；

(2e)根据概率转移矩阵P_i，计算相似性矩阵Q_i，并以f_a和f_b为节点，以Q_i中f_a与f_b的相似性q_i(f_a,f_b)为边，构建基于组学x_i的有权无向的相似性网络A_i，则M个相似性网络组成的相似性网络集合为A＝{A_i|1≤i≤M}，其中Q_i的计算公式为：

其中，(·)ⁿ表示矩阵的n次方，n≥1，(·)^T表示矩阵转置；

(3)生成节点序列的集合C：

从每个节点f_j出发，在相似性网络集合A中的M个相似性网络中进行γ次路径长度为l的随机游走，得到N×γ个序列的集合C，其中，从每个节点出发的序列为γ条，每个序列的长度为l，l≥3；

(4)定义目标函数L：

(4a)设每个节点f_j的嵌入空间向量为w_j，辅助向量为θ_j，其中，θ_j和w_j均为d维向量，d＞1；

(4b)设任意窗口包含的样本序列片段

则定义正样本集合

其中，3≤2c+1≤l；

(4c)设负样本集合为

其中，β＞0；

(4d)根据pos和neg，定义基于窗口win的目标函数L：

其中，log(·)表示以自然常数为底数的对数，∪表示集合的并，f_e表示集合pos和集合neg的并集pos∪neg中的任意样本，

σ(·)为Sigmoid函数，

表示向量

和向量θ_e的内积；

(5)根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果：

(5a)统计每个节点f_j在集合C中出现的频率fq_j；

(5b)定义在任意序列上从左向右滑动的滑动窗口，窗口的长度为2c+1，步长为1，滑动次数为l-2c-1；

(5c)初始化每个节点f_j的嵌入空间向量w_j和辅助向量θ_j为随机噪声，设在集合C中已抽取的序列个数为ns，初始化ns为0；

(5d)从C中无放回地随机抽取一个序列seq，初始化iter为0，其中，iter为滑动窗口在序列seq上已滑动的次数；

(5e)根据当前窗口内包含的序列片段

计算目标函数L_ns,iter的值，其中，L_ns,iter表示基于第ns个序列中的第iter个滑动窗口的目标函数；

(5f)根据目标函数L_ns,iter，采用梯度下降法对neg和pos中每个节点f_e的辅助向量θ_e进行更新，并对样本

的嵌入空间向量

进行更新；

(5g)判断iter＝l-2c-1是否成立，若是，则得到处理完ns+1个序列后的节点f_j的嵌入空间向量w_j和辅助向量为θ_j，否则，令iter＝iter+1，并执行步骤(5e)；

(5h)判断ns＝N×γ是否成立，若是，则得到每个节点f_j的低维向量表示w_j，即，不完整多组学数据集成结果，否则，令ns＝ns+1，并执行步骤(5d)。

本发明与现有技术相比，具有如下优点：

1.本发明通过在多个相似性网络上交替地随机游走，将多个相似性网络中的拓扑结构信息融合到序列中，然后将节点嵌入到低维向量空间中，在两个样本没有任何公共的组学数据的情况下，它们之间的相似性仍然可以由它们分别所在的相似性网络中的其他节点为媒介通过随机游走的信息传递而得到，与现有技术相比，能够利用所有缺失部分组学数据的样本。

2.本发明在多个相似性网络上交替地随机游走的过程中，每一步游走只需要当前所选中的相似性网络中的边的权重，而无需比较不同相似性网络中边的权重，提取的潜在特征更合理，解决了不同相似性网络中边权的分布和数值尺度不同对集成方法带来影响的问题，与现有技术相比，降低了下游任务中假阳性发现的潜在风险。

3.本发明在将样本嵌入到低维向量空间的步骤中，采用了滑动窗口的策略，能够在集成时考虑到样本在相似性网络中的高阶相似性。与现有技术直接平均根据不同组学计算的相似性的策略相比，在集成后的低维向量空间中能够保留更丰富的样本相似性信息，进而提升癌症亚型识别、样本可视化等下游任务的效果。

4.本发明通过将多组学的信息融合后嵌入到低维向量空间的方案，得到样本的低维向量表示，由于目前针对向量空间的可视化技术更丰富，与现有技术相比，集成结果可以方便地进行可视化。

附图说明

图1为本发明的实现流程图；

图2为本发明的集成结果的T-SNE可视化图；

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤：

步骤1)获取不完整多组学数据：

在本实施例中，使用的数据为经过Rappoport Nimrod等人预处理的TCGA中的肾透明细胞癌KIRC的三个组学数据，分别为基因表达数据(533个样本，20531个特征)，DNA甲基化数据(319个样本，5000个特征)，microRNA表达数据(257个样本，1046个特征)，总样本数为534。因此，M为3，n₁为533，n₂为319，n₃为257，m₁为20531，m₂为5000，m₃为1046，N为534。该数据集的下载链接为http://acgt.cs.tau.ac.il/multi_omic_benchmark/download.html。

步骤2)构建基于组学x_i的相似性网络A_i：

步骤2a)设x_i中第x个样本和第y个样本分别为f_a和f_b，将f_a和f_b组成样本对(f_a,f_b)，并根据各样本在组学x_i的特征，计算f_a和f_b之间的欧式距离d_i(f_a,f_b)，其中，1≤x≤n_i，1≤y≤n_i；

f_a和f_b之间的欧式距离d_i(f_a,f_b)，计算公式为：

其中，

和

分别表示样本f_a和样本f_b在组学x_i中的第

个特征。

步骤2b)根据组学x_i中f_a与其它n_i-1个样本的欧氏距离d_i(f_a,·)，以及f_b与其它n_i-1个样本的欧氏距离d_i(·,f_b)，对(f_a,f_b)的参数δ_i(f_a,f_b)进行估计：

其中，

表示d_i(f_a,·)中距离f_a最近的前k个样本的集合，

表示d_i(·,f_b)中距离f_b最近的前k个样本的集合，

和

分别表示

和

中的任意样本，1≤k≤n_i；

k的取值范围原则上是1到n_i中的任意整数，但由于k的含义是划分局部邻居的阈值，在区间[10,40)中取值时效果比较好，因此本实例中取k为20。

步骤2c)根据δ_i(f_a,f_b)计算f_a与f_b的相似性s_i(f_a,f_b)：

其中，exp(·)表示以自然常数为底数的幂运算；

由于高斯核的普适性和通用性，本发明使用高斯核度量f_a与f_b的基于组学x_i的相似性s_i(f_a,f_b)。受到多核学习的启发，空间中的样本分布的局部密度不同，整个空间中样本的密度不同，度量样本之间的相似性时不使用统一的核函数，在步骤2b)中根据f_a与f_b所在局部空间的样本平均距离和f_a与f_b估计高斯核的方差参数δ_i(f_a,f_b)。

步骤2d)根据组学x_i中f_a与其它n_i-1个样本之间的相似性s_i(f_a,·)，计算f_a到f_b的局部转移概率p_i(f_a,f_b)，并将p_i(f_a,f_b)放入转移概率矩阵P_i中的(x,y)位置，其中，转移概率矩阵P_i为n_i×n_i的矩阵，p_i(f_a,f_b)的计算公式为：

其中，

表示s_i(f_a,·)中与f_a最相似的前k个样本的集合，f_z表示

中的任意样本；

步骤2e)根据概率转移矩阵P_i，计算相似性矩阵Q_i，并以f_a和f_b为节点，以Q_i中f_a与f_b的相似性q_i(f_a,f_b)为边，构建基于组学x_i的有权无向的相似性网络A_i，则M个相似性网络组成的相似性网络集合为A＝{A_i|1≤i≤M}，其中Q_i的计算公式为：

其中，(·)ⁿ表示矩阵的n次方，n≥1，(·)^T表示矩阵转置；

受流型学习启发，在高维空间中的样本点通常分布于非线性低维流型上，在局部空间的流型表面可以近似为欧式空间，而对距离较远的样本直接使用基于欧式距离的高斯核相似性不能很好地度量样本之间的相似性。因此，本发明将局部相似性转化为局部转移概率，然后通过转移概率矩阵的n次方估计由流型表面的样本传播而得到的相似性度量。由于概率转移矩阵通常满足不可约性和非周期性，因此当n足够大时，Pⁿ会趋于收敛。简单起见，在本实例中将n设置为32。

步骤3)生成节点序列的集合C：

步骤3a)初始化序列seq为空，当前节点cur为f_j，其中，seq表示从节点f_j出发的通过随机游走产生的一条节点的序列；

步骤3b)将当前节点cur加入到序列seq的末尾；

步骤3c)以均匀概率分布从A中包含当前节点的网络中随机选择一个网络，得到当前网络；

步骤3d)在当前网络中与当前节点cur相连的所有节点中，以与当前节点cur连边的权重为概率分布，随机选择一个节点f_r，并更新当前节点cur为f_r；

步骤3e)判断|seq|＝l是否成立，若是，则得到一条从节点f_u出发的包含l个节点的序列，否则，执行步骤3a2)，其中，|seq|表示序列seq的长度；

本发明的核心步骤是步骤3)，该步骤通过固定长度的、在多个网络中跳转的随机游走方式将多个相似性网络中的样本相似性转化为样本在同一个序列的局部范围内的共现概率。并且通过该步骤得到了缺失了某些组学特征的样本与其他样本之间的相似性(以共现概率的形式隐含在序列的集合中)。序列的长度l设置为20，从每个节点出发的序列个数γ设置为100，γ的值设置的越大，嵌入空间中保留的网络拓扑信息越多，但运行时间也会相应增加。

步骤4)定义目标函数L：

步骤4a)设每个节点f_j的嵌入空间向量为w_j，辅助向量为θ_j，其中，θ_j和w_j均为d维向量，d＞1；

步骤4b)设任意窗口包含的样本序列片段

则定义正样本集合

其中，3≤2c+1≤l；

步骤4c)设负样本集合为

其中，β＞0；

步骤4d)根据pos和neg，定义基于窗口win的目标函数L：

σ(·)为Sigmoid函数，

表示向量

和向量θ_e的内积；

该目标函数的目的是求解一个从将网络中节点到低维向量的映射，该映射通过最大化在步骤3)中的集合C中的序列上的窗口内的样本共现概率信息来在低维空间中保留样本之间的相似性。

步骤5)根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果：

步骤5a)统计每个节点f_j在集合C中出现的频率fq_j；

计算公式为：

其中，I(·)为指示函数，seq_t为序列seq中的第t个节点。

步骤5b)定义在任意序列上从左向右滑动的滑动窗口，窗口的长度为2c+1，步长为1，滑动次数为l-2c-1；

步骤5c)初始化每个节点f_j的嵌入空间向量w_j和辅助向量θ_j为随机噪声，设在集合C中已抽取的序列个数为ns，初始化ns为0；

其随机噪声采用Python语言中的第三方库NumPy所包含的random_normal函数生成。

步骤5d)从C中无放回地随机抽取一个序列seq，初始化iter为0，其中，iter为滑动窗口在序列seq上已滑动的次数；

步骤5e)根据当前窗口内包含的序列片段

窗口的长度一般设置为小于序列长度并且大于3的奇数，在本实例中设置为9。

步骤5f)根据目标函数L_ns,iter，采用梯度下降法对neg和pos中每个节点f_e的辅助向量θ_e进行更新，并对样本

的嵌入空间向量

进行更新；

更新公式为：

其中，η为学习率，η＞0。

梯度下降是指，在每一步中通过对目标函数L_ns,iter求偏导得到每个参数向量的梯度，然后将每个参数在空间中向负梯度方向进行更新，更新的步长称为学习率η，通常设置0.001。

步骤5g)判断iter＝l-2c-1是否成立，若是，则得到处理完ns+1个序列后的节点f_j的嵌入空间向量w_j和辅助向量为θ_j，否则，令iter＝iter+1，并执行步骤5e)；

步骤5h)判断ns＝N×γ是否成立，若是，则得到每个节点f_j的低维向量表示w_j，即，不完整多组学数据集成结果，否则，令ns＝ns+1，并执行步骤5d)。

以下结合附图和具体实施例，对本发明作进一步详细描述，需要说明的是本发明保护的客体不属于疾病的诊断与治疗方法，也不属于智力活动规则。

1、仿真条件和内容：

在本仿真实验中，使用的计算机内存为8G，CPU为intel(R)Core(TM)i7-9700F，操作系统为Windows 10，本发明所使用的软件环境为Python 3.6，现有方法所使用的软件环境为Rstudio。实验数据采用Rappoport Nimrod和Shamir Ron在2018年发表在NucleicAcids Research期刊上的综述论文“Multi-omic and multi-view clusteringalgorithms:review and cancer benchmark”中所公开的肾透明细胞癌KIRC的多组学数据，其中包含基因表达数据(533个样本)，DNA甲基化数据(319个样本)，microRNA表达数据(257个样本)。选用该数据的原因是，一方面该数据在高水平期刊的综述中用于对比不同数据集成方法性能，另一方面，该数据集是不完整多组学数据集，能够更好地说明本发明的优点。由于现有方法NEMO的严格假设，而该多组学数据不满足现有方法NEMO的基本假设，因此，在本实验中，运行NEMO前先将缺失组学的样本过滤掉，仅保留完整的多组学数据。由于本发明的优点1，本实验直接在该不完整多组学数据上应用本发明的方法。在与聚类有关的仿真实验中，在本发明的集成结果上使用的K均值聚类算法，而在现有方法NEMO的集成结果上，采用的谱聚类算法，这是由于本发明的集成结果是在向量空间中的表示，而现有方法NEMO的集成结果是相似性矩阵的形式。K均值算法是在向量空间中常用的聚类算法，而谱聚类是在相似性矩阵上常用的聚类算法。由于癌症亚型没有所谓的真正的“类别个数”，设置类别个数多，则可以研究更细节的结构，设置类别个数少可以研究总体上的结构，即使是在已经有充分研究的癌症上，样本集合也不一定由所有癌症亚型组成。因此，在与聚类有关的仿真一和仿真二中，聚类个数从2到9依次遍历。仿真三是对本发明的集成结果可视化的实验。

仿真一：分别运行本发明的方法和现有方法NEMO，在各自的集成结果上对癌症样本进行聚类，聚类的个数从2到9进行遍历。比较聚类结果所识别的癌症亚型之间是否有显著的生存风险差异，生存风险差异的度量使用对数秩检验(log-rank test)的P值，为了方便统计，本实验对每个结果均记录-log₁₀P，其中，P值小于0.05等价于-log₁₀P大于1.301。

仿真二：分别运行本发明的方法和现有方法，在各自的集成结果上对癌症样本进行聚类，聚类的个数从2到9进行遍历。比较聚类结果所识别的癌症亚型是否能够显著的富集到样本的年龄、性别、T分期、M分期、N分期、癌症发展阶段等六个重要的临床信息。对于离散型临床变量，本实验通过卡方检验的-log₁₀P是否大于1.301来判断癌症亚型识别结果是否显著富集于该临床信息。对连续型临床变量，本实验通过克鲁斯卡尔-沃利斯检验的-log₁₀P是否大于1.301来判断癌症亚型识别结果是否显著富集于该临床信息。

仿真三：使用T-SNE算法将本发明在KIRC上的集成结果从100维降到2维，并在直角坐标系中进行可视化，其中，T-SNE是一个常用的可视化算法。

2、仿真结果分析：

表1在不同聚类个数时对数秩检验的-log₁₀P

从表1可以看出，本发明通过对缺失部分组学的样本的利用，提取出了有效的潜在特征信息，与现有方法相比，可以发现有更显著的生存风险差异的癌症亚型。

表2在聚类个数不同时显著富集的临床参数个数

聚类个数	现有技术	本发明
			2	3	1
3	2	3
			4	2	4
5	3	3
			6	1	4
7	1	4
			8	1	4
9	2	3
			平均值	1.875	3.25
最大值	3	4

从表2可以看出，在8个不同的聚类个数下，本发明的临床参数富集个数仅在聚类个数为2时低于现有技术的结果，在聚类个数为5时等于现有技术的结果，而在其他聚类个数下本发明的结果均好于现有技术。从所有聚类个数情况下指标的平均值和最大值来看，本发明也明显比现有技术表现的更好。

图2为本发明的集成结果的可视化效果，从该图可以看出，本发明的集成结果可以很好的捕捉到基于不完整多组学数据的样本之间的关系，不同结构之间的样本距离较远，联系松散，同一结构中的样本距离较近，联系紧密。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。