CN109994200A

CN109994200A - 一种基于相似度融合的多组学癌症数据整合分析方法

Info

Publication number: CN109994200A
Application number: CN201910174117.4A
Authority: CN
Inventors: 蔡宏民; 徐傲丹
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2019-07-09
Anticipated expiration: 2039-03-08
Also published as: CN109994200B

Abstract

本发明公开了一种基于相似度融合的多组学癌症数据整合分析方法，该方法包括计算局部相似度网络、多个局部相似度网络融合、根据全局相似度网络进行分型、根据全局相似度网络回溯原始的数据源中的特征四个步骤。对比当前技术，本发明通过对逐步递进的相似度网络连接路径建模，实现了多个相似度网络的融合算法，相比于现有技术能够刻画更为复杂的网络结构，具有更高的精确度和更好的稳定性。通过一致性交替乘子法实现了网络融合模型的快速求解。本发明不仅将整合的全局相似度网络运用于癌症患者的分型，得到预后显著差异的患者分型，并且结合了一种多集群特征选择方法辅助进行关键靶点特征的筛选，选出的特征有望成为潜在的生物标记物。

Description

一种基于相似度融合的多组学癌症数据整合分析方法

技术领域

本发明涉及生物信息的技术领域，尤其是指一种基于相似度融合的多组学癌症数据整合分析方法。

背景技术

在目前的临床医疗实践中，癌症往往是根据其组织来源以及病理学特征进行分型治疗。然而随着测序技术以及人类基因组研究的发展，大量研究表明肿瘤在分子级别的病理系统能够良好表征其发生特性及发展阶段。肿瘤发生发展的过程往往伴随着由体细胞基因突变、表观遗传学变化、个体差异和环境影响造成的基因组变异，传统的基于单个基因组数据的分析很难捕捉到所有生物过程的异质性，并清晰区分表型。因此，基于多组学数据(如基因表达，miRNA表达，DNA甲基化等)整合的数据分析能够弥补单一数据的信息缺失，矫正单一数据收集过程中的错误信息，为癌症分子级分析提供全面的视角，极大地推动肿瘤精准医学的发展。

尽管在全球范围的各个癌症测序项目的推动下积累了海量的癌症多组学数据集，包括肿瘤中体细胞突变的目录(COSMIC)，国际癌症基因组协会(ICGC)和癌症基因图谱(TCGA)等数据库，有效地整合多组学数据仍然是一项巨大的挑战。近年来有关多组学数据整合的方法主要分为三种思路1)基于隐变量表达的方法2)基于概率模型的方法3)基于网络结构的方法。其中基于隐变量表达的方法假设不同的组学数据之间存在若干公共的隐藏变量，从而将不同数据集中的高维特征映射到一个公共的低维空间上。例如iCluster+建立了隐变量与观测值之间的正则化回归模型，联合非负矩阵分解(jNMF)通过矩阵分解的方法寻找多个数据集所公有的特征空间等。然而该类方法在不同组学数据的维度和尺度差异过大时难以找到一个公共的映射，并且隐变量也缺乏对应的生物学意义。基于概率模型的整合方法主要是假设不同组学、不同分型的患者分别服从不同的先验概率分布，估计其混合之后的分布情况。例如贝塔-高斯混合模型分别用贝塔分布以及高斯分布拟合基因表达数据和蛋白-DNA关联概率并将其整合到同一个概率混合模型中。但是高维数据的混合概率模型需要估计的参数过多，当样本数量远小于特征数量时会出现过拟合的情况，影响估计精度。基于网络结构的方法使用图论基础构建每个数据来源的内部网络结构，并根据信息传播理论进行不同数据源的信息传递与交换。例如相似度网络融合(SNF)为每个单一数据集构建相似度网络，并迭代更新每一个相似度网络最终实现多个数据集的融合。基于网络的方法主要问题是对于网络结构和传递路径的建模简单无法刻画多组学数据的复杂网络结构，并且没有提供将融合后结果反馈到原始的组学数据的方法。因此对于维度高，噪音大，分布各异的癌症多组学数据，仍然缺乏高效精准鲁棒性高的整合方法用以癌症分子层面的分析。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于相似度融合的多组学癌症数据整合分析方法，能够实现对于癌症患者的多组学数据(基因表达，miRNA表达，DNA甲基化等)的全面整合，对癌症患者作出预后差异显著的分型，并且依据分型结果定位原始数据特征，寻找有预后价值的生物标志物。

为实现上述目的，本发明所提供的技术方案为：一种基于相似度融合的多组学癌症数据整合分析方法，该方法通过对给定的癌症多组学数据进行预处理，构建每个数据源的局部相似度网络；进而将多个局部相似度网络的融合问题定义为不同路径度量下多个相似度网络的一致性约束问题，并且建模为一个优化问题，使用一致性交替乘子法(Consensus ADMM)将优化目标分解成一系列子问题进行求解；融合后的全局相似度网络结合基于谱聚类的一致性聚类方法，实现对患者的分型；最后使用多集群特征选择方法(MCFS)从患者分型回溯原始的数据源中的特征；其具体包括以下步骤：

1)对于数据进行预处理，构建每个数据源对应的局部相似度网络；

2)通过优化模型进行相似度网络的融合，得到一个全局的相似度网络；

3)基于全局相似度网络进行样本的分型；

4)根据分型结果回溯原始数据中的特征。

在步骤1)中，要保证数据分析的质量，首先需要对于数据集进行数据清洗、数据标准化和特征选择，其次需要进行相似度的计算和表示，具体如下：

数据清洗：对于数据中的空值进行处理，缺失超过20％以上的样本或特征直接删除，低于20％的采用K最近邻插补方法补全；

数据标准化：对于数据采用Z-score规范化，取消由量纲不同引起的误差，加速后续优化流程；

特征选择：对于维度超过十万的数据集进行方差特征筛选，选择方差大于预设阈值的特征，去除冗余数据，加速计算；

相似度度量以及局部相似度矩阵的构建：首先，采用指数高斯核定义不同数据源中样本的相似度矩阵，公式如下：

其中，W为所求的相似度矩阵，W(i,j)代表矩阵W第i行第j列的元素，x_i与x_j分别表示样本i与样本j的特征向量，d(x_i,x_j)代表样本i与样本j之间的欧式距离，参数ρ是比例常数用以控制指数衰减速度，ξ_i,j用来矫正度量误差：

其中，N_i与N_j分别是样本i与样本j的邻居节点的集合，μ(d(x_i,N_i))表示样本i与其邻居之间距离的均值，μ(d(x_j,N_j))表示样本i与其邻居之间距离的均值；

对于上述的相似度矩阵只保留每个样本与其最近邻(最近邻数目等于样本数目除以6)的信息形成每个数据源的局部相似度矩阵：

其中，S为所求的局部相似度矩阵，S(i,j)代表矩阵S第i行第j列的元素，N_i是样本i的邻居节点的集合，变量k用来遍历样本i的邻居节点集合，W(i,k)表示W矩阵第i行第k列的元素。

在步骤2)中，进行不同源数据的相似度网络的融合，包括以下步骤：

2.1)建立优化模型

假设有C个不同组学的数据源，根据步骤1)生成了对应的局部相似度矩阵S_i(i∈1,...,C)，希望计算得到全局的相似度矩阵W，为此基于不同路径度量下的各个数据源的一致性约束设计了如下的优化目标函数：

其中，C为数据源的数量，W为全局的相似度矩阵，Ω_i为一个和W同纬度的矩阵，Ω_i中对应S_i中不为0的位置的值为1其他位置为0，S_i代表i个来源的局部相似度矩阵，S_j代表j个来源的局部相似度,||||_F代表矩阵的Frobenius范数，*为矩阵Hadamard积即矩阵元素对应相乘，α和β是衡量不同路径下的约束的权重的参数，由人工设定；

2.2)模型求解

使用一致性交替乘子法(Consensus-ADMM)对于上述优化目标进行求解，通过引入变量W₁,...,W_C，将优化目标改写成：

subject to

W_i＝W,i＝1,...,C

其中W_i为引用的中间变量，通过改写，能够使用ADMM的可分特性将问题改为处理C个子问题，进行迭代求解每一次迭代过程中的目标变为：

其中，t为迭代次数，λ为拉格朗日系数，W_i ^(t)表示第t次迭代中变量W_i的值，W_i ^(t-1)表示第t-1次迭代中变量W_i的值，为t次迭代过程中的对偶变量，为t-1次迭代过程中的对偶变量，W^(t-1)为t-1次迭代过程后求出的全局相似度矩阵W的值，在每一次迭代后计算出W_i ^(t-1),i＝1,2,...C然后令

W^(t)即为t次迭代所求得的全局相似度矩阵W，每个子问题都是可导的凸函数所以计算W_i ^(t)按照如下公式：

其中，I是一个n×n全一矩阵，n为样本数量；重复上述迭代过程直至收敛即得到了步骤2.1)优化过程的解，收敛条件为两次迭代优化目标的差异小于10^-6。

在步骤3)中，使用传统的谱聚类算法结合一致性聚类对于步骤2)求出的全局相似度矩阵进行聚类，以得到稳定的样本分型，其包括以下步骤：

3.1)谱聚类：通过输入的全局相似度矩阵W计算其拉普拉斯矩阵L，L＝D-W，其中D为对角矩阵，对角线上的元素W矩阵中对应行或列的和，对于L做归一化计算其前K个最小特征对应的特征向量形成特征矩阵，对于特征矩阵做kmeans聚类得到聚类结果；

3.2)聚类数目选择：通过聚类结果的轮廓系数进行衡量，对于每一个样本i，其轮廓系数S(i)计算公式如下：

其中，a(i)为样本i到同簇其他样本的平均距离，b(i)为到其他簇所有样本的平均距离，最终选择所有样本的轮廓系数均值最接近1的聚类数量；

3.3)一致性聚类：使用步骤3.1)的谱聚类算法进行50次聚类得到50次的划分形成划分矩阵后，运用谱聚类得到最终的聚类结果；

在步骤4)中，使用多集群特征选择方法(MCFS)通过全局相似度矩阵W按照上述谱聚类的做法得到特征向量矩阵后，特征向量反馈到原始数据的问题能够转换为一个一范数正则项的回归问题，根据回归得到的系数向量计算该特征的权重最终实现特征选择，回归模型如下:

其中，y_k为第k个特征向量，X代表源数据矩阵，X^T代表X的转置，α_k是一个长度等于源数据矩阵特征的向量，即第k个特征向量对应的回归系数，||||代表向量的二范数即各个元素平方之和再开根号，||代表向量的一范数即各个元素绝对值之和，随后计算特征的MCFS分数α_k,j即为α_k的第j个元素。将所有特征的MCFS分数降序排列根据设定的阈值进行特征选择。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明通过对逐步递进的相似度网络连接路径建模，对于不同数据源相似度网络的一致性进行约束，实现了多个相似度网络的融合算法，相比于现有技术能够刻画更为复杂的网络结构具有更高的精确度和更好的稳定性。

2、本发明通过一致性交替乘子法实现了网络融合模型的快速求解，算法能够在小于30次的迭代后收敛。

3、本发明不仅将整合的全局相似度网络运用于癌症患者的分型，得到预后显著差异的患者分型，并且结合了一种多集群特征选择方法辅助进行关键靶点特征的筛选，选出的特征有望成为潜在的生物标记物。

附图说明

图1为本发明方法概要设计图。

图2为实施例的实施流程图。

图3为本发明中模型求解流程图。

图4为实施例中全局相似度矩阵的聚类结果热图。

图5为实施例中聚类结果的生存曲线及生存分析Log-rank检验的pvalue图。

图6为实施例中筛选的全部靶点基因的通路分析情况图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例使用公开癌症数据集TCGA中的宫颈癌项目(CESC)数据对本发明方法进行评测，将不同分型患者的作为评估指标，本实例的概要设计如图1所示，实施流程如图2所示，实现基于相似度融合的相似度融合的多组学癌症数据整合分析方法的具体流程如下：

步骤1、获取TCGA数据库中宫颈癌项目同一批样本的基因表达数据，甲基化数据，和miRNA数据，本实例中初始收集了292例宫颈癌患者的数据。

步骤2、数据清洗：对于数据中的空值进行处理，超过20％以上的样本或特征直接删除，低于20％的采用K最近邻插补方法补全。经过数据清洗后样本数量剩余284例，基因表达数据含有20118个基因的表达信息，甲基化数据包含396065甲基化位点，miRNA数据包含885个miRNA位点。

步骤3、数据标准化：对于数据采用Z-score规范化，取消由量纲不同引起的误差，加速后续优化流程。

步骤4、特征选择：对于维度超过十万的数据集进行方差特征筛选，选择方差大于阈值的特征，去除冗余数据，加速计算。对于甲基化数据进行筛选保留了1000个甲基化位点的信息，用于后续分析。

步骤5、相似度度量以及局部相似度矩阵的构建：首先采用指数高斯核定义不同数据源中样本的相似度矩阵，具体公式如下：

其中，N_i与N_j分别是样本i与样本j的邻居节点的集合，μ(d(x_i,N_i))表示样本i与其邻居之间距离的均值,μ(d(x_j,N_j))表示样本i与其邻居之间距离的均值。对于上述的相似度矩阵只保留每个样本与其最近邻(最近邻数目等于样本数目除以6)的信息形成每个数据源的局部相似度矩阵：

其中，S为所求的局部相似度矩阵，S(i,j)代表矩阵S第i行第j列的元素，其中N_i是样本i的邻居节点的集合，变量k用来遍历样本i的邻居节点集合，W(i,k)表示W矩阵第i行第k列的元素。

步骤6、对于输入的三个组学数据对应的S₁,S₂,S₃进行相似度网络融合的建模，建立如下优化目标：

其中，W为全局的相似度矩阵，Ω_i为一个和W同纬度的矩阵，Ω_i中对应S_i中不为0的位置的值为1其他位置为0，S_i代表i个来源的局部相似度矩阵，S_j代表j个来源的局部相似度,|| ||_F代表矩阵的Frobenius范数，*为矩阵Hadamard积即矩阵元素对应相乘，α和β是衡量不同路径下的约束的权重的参数，设定α＝0.5,β＝0.25。

步骤7、引进中间变量W1,W2,W3并随机初始化，将优化目标改写成如下形式：

subject to

W_i＝W,i＝1,...,C

其中W_i为引用的中间变量。

步骤8、通过改写，我们可以使用ADMM的可分特性将问题改为处理3个子问题，进行迭代求解每一次迭代过程中的目标变为

其中，t为迭代次数，λ为拉格朗日系数，W_i ^(t)表示第t次迭代中变量W_i的值，W_i ^(t-1)表示第t-1次迭代中变量W_i的值，为t次迭代过程中的对偶变量，为t-1次迭代过程中的对偶变量，W^(t-1)为t-1次迭代过程后求出的全局相似度矩阵W的值。

步骤9、根据如下公式更新W_i ^(t)

其中I是一个n×n全一矩阵，n为样本数量。

步骤10、计算出W₁ ^(t-1),然后更新W^(t)

步骤11、计算W^(t)-W^(t-1)是否小于10^-6，若是则进行下一步，若不是则重复步骤9-10，整体求解过程如图3所示。

步骤12、谱聚类：通过输入的全局相似度矩阵W计算其拉普拉斯矩阵L,L＝D-W，其中D为对角矩阵，对角线上的元素W矩阵中对应行或列的和，对于L做归一化计算其前K个最小特征对应的特征向量形成特征矩阵，对于特征矩阵做kmeans聚类得到聚类结果。

步骤13、聚类数目选择：通过聚类结果的轮廓系数进行衡量，对于每一个样本i，其轮廓系数S(i)计算公式如下：

其中，a(i)即样本i到同簇其他样本的平均距离，b(i)为到其他簇所有样本的平均距离。最终选择所有样本的轮廓系数均值最接近1的聚类数量。

本实例中最终选择的聚类数目为3。

步骤14、一致性聚类：使用步骤13的谱聚类算法进行50次聚类，得到50次的划分，形成划分矩阵后运用谱聚类得到最终的聚类结果。

步骤15、使用多集群特征选择方法(MCFS)通过全局相似度矩阵W按照上述谱聚类的做法得到特征向量矩阵后，特征向量反馈到原始数据的问题可以转换为一个一范数正则项的回归问题，根据回归得到的系数向量计算该特征的权重最终实现特征选择。回归模型如下:

其中，y_k为第k个特征向量，X代表源数据矩阵X^T代表X的转置，α_k是长度等于源数据矩阵特征的向量，即第k个特征向量对应的回归系数，|| ||代表向量的二范数即各个元素平方之和再开根号，||代表向量的一范数即各个元素绝对值之和。随后我们计算特征的MCFS分数将所有特征的MCFS分数降序排列根据设定的阈值进行特征选择。

本实例对每个数据源选择了前15个特征。

为了评估本发明方法的精确度和优越性对于本实例中的聚类结果进行了聚类质量的评估，如图4是本实例中全局相似度矩阵的热图，具有明晰的分块结构。

为了评估本发明方法的精确度和优越性对于本实例中的聚类结果进行了预后差异性的评估，如图5是本实例聚类结果的生存曲线及不同组间生存情况pvalue,Pvalue<0.05说明不同聚类结果间生存时间存在显著差异。

为了评估本发明方法的精确度和优越性对于本实例中的关键靶点特征进行了预后差异性的评估，对于筛选出的45个关键靶点特征运用kmeans聚类后对分组结果进行生存分析，最终结果有17个特征的Log-rank检验pvalue<0.05，包括5个基因，6个甲基化位点，6个miRNA位点。

为了评估本发明方法的精确度和优越性对于本实例中的关键靶点特征进行了生物功能分析，使用的是KEGG通路分析。如图6是对于筛选出的全部靶点基因的通路分析情况。靶点基因共定位在46个通路，图中给出了最为显著富集的15个通路，横轴表示富集倍数(Fold.Enrichment)，纵轴从上到下依次为黑色素瘤(Melanoma)、蛋白激酶信号通路(AMPKsignaling pathway)、背腹轴形成(Dorso-ventral axis formation)、胰腺癌(Pancreatic)、乙型肝炎(Heoatitis B)、结直肠癌(Colorectal cancer)、HTLV-I病毒感染(HTLV-I infection)、慢性骨髓白血病(Chronic myeloid leukemia)、粘合斑(Focaladhesion)、膀胱癌(Bladder cancer)、PI3K信号通路(PI3K-Akt signaling pathway)、前列腺癌(Prostate cancer)、FoxO信号通路(FoxO signaling pathway)、癌症中的微RNA(MicroRNAs in cancer)、癌症通路(Pathways in cancer)，点的大小表示富集于此通路的基因数量(Count)，可以看出筛选的靶点基因主要富集于与癌症相关的通路。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于相似度融合的多组学癌症数据整合分析方法，其特征在于：该方法通过对给定的癌症多组学数据进行预处理，构建每个数据源的局部相似度网络；进而将多个局部相似度网络的融合问题定义为不同路径度量下多个相似度网络的一致性约束问题，并且建模为一个优化问题，使用一致性交替乘子法将优化目标分解成一系列子问题进行求解；融合后的全局相似度网络结合基于谱聚类的一致性聚类方法，实现对患者的分型；最后使用多集群特征选择方法从患者分型回溯原始的数据源中的特征；其具体包括以下步骤：

3)基于全局相似度网络进行样本的分型；

4)根据分型结果回溯原始数据中的特征。

2.根据权利要求1所述的一种基于相似度融合的多组学癌症数据整合分析方法，其特征在于：在步骤1)中，要保证数据分析的质量，首先需要对于数据集进行数据清洗、数据标准化和特征选择，其次需要进行相似度的计算和表示，具体如下：

对于上述的相似度矩阵只保留每个样本与其最近邻的信息形成每个数据源的局部相似度矩阵：

3.根据权利要求1所述的一种基于相似度融合的多组学癌症数据整合分析方法，其特征在于：在步骤2)中，进行不同源数据的相似度网络的融合，包括以下步骤：

2.1)建立优化模型

2.2)模型求解

使用一致性交替乘子法ADMM对于上述优化目标进行求解，通过引入变量W₁,...,W_C，将优化目标改写成：

subjectto

W_i＝W,i＝1,...,C

其中，W_i为引用的中间变量，通过改写，能够使用ADMM的可分特性将问题改为处理C个子问题，进行迭代求解每一次迭代过程中的目标变为：

4.根据权利要求1所述的一种基于相似度融合的多组学癌症数据整合分析方法，其特征在于：在步骤3)中，使用传统的谱聚类算法结合一致性聚类对于步骤2)求出的全局相似度矩阵进行聚类，以得到稳定的样本分型，其包括以下步骤：

在步骤4)中，使用多集群特征选择方法MCFS通过全局相似度矩阵W按照上述谱聚类的做法得到特征向量矩阵后，特征向量反馈到原始数据的问题能够转换为一个一范数正则项的回归问题，根据回归得到的系数向量计算该特征的权重最终实现特征选择，回归模型如下:

其中，y_k为第k个特征向量，X代表源数据矩阵，X^T代表X的转置，α_k是长度等于源数据矩阵特征的向量，即第k个特征向量对应的回归系数，||||代表向量的二范数即各个元素平方之和再开根号，||代表向量的一范数即各个元素绝对值之和，随后计算特征的MCFS分数α_k,j即为α_k的第j个元素；将所有特征的MCFS分数降序排列根据设定的阈值进行特征选择。