CN109994200B - 一种基于相似度融合的多组学癌症数据整合分析方法 - Google Patents

一种基于相似度融合的多组学癌症数据整合分析方法 Download PDF

Info

Publication number
CN109994200B
CN109994200B CN201910174117.4A CN201910174117A CN109994200B CN 109994200 B CN109994200 B CN 109994200B CN 201910174117 A CN201910174117 A CN 201910174117A CN 109994200 B CN109994200 B CN 109994200B
Authority
CN
China
Prior art keywords
matrix
data
similarity
clustering
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910174117.4A
Other languages
English (en)
Other versions
CN109994200A (zh
Inventor
蔡宏民
徐傲丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910174117.4A priority Critical patent/CN109994200B/zh
Publication of CN109994200A publication Critical patent/CN109994200A/zh
Application granted granted Critical
Publication of CN109994200B publication Critical patent/CN109994200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于相似度融合的多组学癌症数据整合分析方法,该方法包括计算局部相似度网络、多个局部相似度网络融合、根据全局相似度网络进行分型、根据全局相似度网络回溯原始的数据源中的特征四个步骤。对比当前技术,本发明通过对逐步递进的相似度网络连接路径建模,实现了多个相似度网络的融合算法,相比于现有技术能够刻画更为复杂的网络结构,具有更高的精确度和更好的稳定性。通过一致性交替乘子法实现了网络融合模型的快速求解。本发明不仅将整合的全局相似度网络运用于癌症患者的分型,得到预后显著差异的患者分型,并且结合了一种多集群特征选择方法辅助进行关键靶点特征的筛选,选出的特征有望成为潜在的生物标记物。

Description

一种基于相似度融合的多组学癌症数据整合分析方法
技术领域
本发明涉及生物信息的技术领域,尤其是指一种基于相似度融合的多组学癌症数据整合分析方法。
背景技术
在目前的临床医疗实践中,癌症往往是根据其组织来源以及病理学特征进行分型治疗。然而随着测序技术以及人类基因组研究的发展,大量研究表明肿瘤在分子级别的病理系统能够良好表征其发生特性及发展阶段。肿瘤发生发展的过程往往伴随着由体细胞基因突变、表观遗传学变化、个体差异和环境影响造成的基因组变异,传统的基于单个基因组数据的分析很难捕捉到所有生物过程的异质性,并清晰区分表型。因此,基于多组学数据(如基因表达,miRNA表达,DNA甲基化等)整合的数据分析能够弥补单一数据的信息缺失,矫正单一数据收集过程中的错误信息,为癌症分子级分析提供全面的视角,极大地推动肿瘤精准医学的发展。
尽管在全球范围的各个癌症测序项目的推动下积累了海量的癌症多组学数据集,包括肿瘤中体细胞突变的目录(COSMIC),国际癌症基因组协会(ICGC)和癌症基因图谱(TCGA)等数据库,有效地整合多组学数据仍然是一项巨大的挑战。近年来有关多组学数据整合的方法主要分为三种思路1)基于隐变量表达的方法2)基于概率模型的方法3)基于网络结构的方法。其中基于隐变量表达的方法假设不同的组学数据之间存在若干公共的隐藏变量,从而将不同数据集中的高维特征映射到一个公共的低维空间上。例如iCluster+建立了隐变量与观测值之间的正则化回归模型,联合非负矩阵分解(jNMF)通过矩阵分解的方法寻找多个数据集所公有的特征空间等。然而该类方法在不同组学数据的维度和尺度差异过大时难以找到一个公共的映射,并且隐变量也缺乏对应的生物学意义。基于概率模型的整合方法主要是假设不同组学、不同分型的患者分别服从不同的先验概率分布,估计其混合之后的分布情况。例如贝塔-高斯混合模型分别用贝塔分布以及高斯分布拟合基因表达数据和蛋白-DNA关联概率并将其整合到同一个概率混合模型中。但是高维数据的混合概率模型需要估计的参数过多,当样本数量远小于特征数量时会出现过拟合的情况,影响估计精度。基于网络结构的方法使用图论基础构建每个数据来源的内部网络结构,并根据信息传播理论进行不同数据源的信息传递与交换。例如相似度网络融合(SNF)为每个单一数据集构建相似度网络,并迭代更新每一个相似度网络最终实现多个数据集的融合。基于网络的方法主要问题是对于网络结构和传递路径的建模简单无法刻画多组学数据的复杂网络结构,并且没有提供将融合后结果反馈到原始的组学数据的方法。因此对于维度高,噪音大,分布各异的癌症多组学数据,仍然缺乏高效精准鲁棒性高的整合方法用以癌症分子层面的分析。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于相似度融合的多组学癌症数据整合分析方法,能够实现对于癌症患者的多组学数据(基因表达,miRNA表达,DNA甲基化等)的全面整合,对癌症患者作出预后差异显著的分型,并且依据分型结果定位原始数据特征,寻找有预后价值的生物标志物。
为实现上述目的,本发明所提供的技术方案为:一种基于相似度融合的多组学癌症数据整合分析方法,该方法通过对给定的癌症多组学数据进行预处理,构建每个数据源的局部相似度网络;进而将多个局部相似度网络的融合问题定义为不同路径度量下多个相似度网络的一致性约束问题,并且建模为一个优化问题,使用一致性交替乘子法(Consensus ADMM)将优化目标分解成一系列子问题进行求解;融合后的全局相似度网络结合基于谱聚类的一致性聚类方法,实现对患者的分型;最后使用多集群特征选择方法(MCFS)从患者分型回溯原始的数据源中的特征;其具体包括以下步骤:
1)对于数据进行预处理,构建每个数据源对应的局部相似度网络;
2)通过优化模型进行相似度网络的融合,得到一个全局的相似度网络;
3)基于全局相似度网络进行样本的分型;
4)根据分型结果回溯原始数据中的特征。
在步骤1)中,要保证数据分析的质量,首先需要对于数据集进行数据清洗、数据标准化和特征选择,其次需要进行相似度的计算和表示,具体如下:
数据清洗:对于数据中的空值进行处理,缺失超过20%以上的样本或特征直接删除,低于20%的采用K最近邻插补方法补全;
数据标准化:对于数据采用Z-score规范化,取消由量纲不同引起的误差,加速后续优化流程;
特征选择:对于维度超过十万的数据集进行方差特征筛选,选择方差大于预设阈值的特征,去除冗余数据,加速计算;
相似度度量以及局部相似度矩阵的构建:首先,采用指数高斯核定义不同数据源中样本的相似度矩阵,公式如下:
Figure BDA0001988981380000031
其中,W为所求的相似度矩阵,W(i,j)代表矩阵W第i行第j列的元素,xi与xj分别表示样本i与样本j的特征向量,d(xi,xj)代表样本i与样本j之间的欧式距离,参数ρ是比例常数用以控制指数衰减速度,ξi,j用来矫正度量误差:
Figure BDA0001988981380000041
其中,Ni与Nj分别是样本i与样本j的邻居节点的集合,μ(d(xi,Ni))表示样本i与其邻居之间距离的均值,μ(d(xj,Nj))表示样本i与其邻居之间距离的均值;
对于上述的相似度矩阵只保留每个样本与其最近邻(最近邻数目等于样本数目除以6)的信息形成每个数据源的局部相似度矩阵:
Figure BDA0001988981380000042
其中,S为所求的局部相似度矩阵,S(i,j)代表矩阵S第i行第j列的元素,Ni是样本i的邻居节点的集合,变量k用来遍历样本i的邻居节点集合,W(i,k)表示W矩阵第i行第k列的元素。
在步骤2)中,进行不同源数据的相似度网络的融合,包括以下步骤:
2.1)建立优化模型
假设有C个不同组学的数据源,根据步骤1)生成了对应的局部相似度矩阵Si(i∈1,...,C),希望计算得到全局的相似度矩阵W,为此基于不同路径度量下的各个数据源的一致性约束设计了如下的优化目标函数:
Figure BDA0001988981380000043
其中,C为数据源的数量,W为全局的相似度矩阵,Ωi为一个和W同纬度的矩阵,Ωi中对应Si中不为0的位置的值为1其他位置为0,Si代表i个来源的局部相似度矩阵,Sj代表j个来源的局部相似度,||||F代表矩阵的Frobenius范数,*为矩阵Hadamard积即矩阵元素对应相乘,α和β是衡量不同路径下的约束的权重的参数,由人工设定;
2.2)模型求解
使用一致性交替乘子法(Consensus-ADMM)对于上述优化目标进行求解,通过引入变量W1,...,WC,将优化目标改写成:
Figure BDA0001988981380000051
subject to
Wi=W,i=1,...,C
其中Wi为引用的中间变量,通过改写,能够使用ADMM的可分特性将问题改为处理C个子问题,进行迭代求解每一次迭代过程中的目标变为:
Figure BDA0001988981380000052
Figure BDA0001988981380000053
其中,t为迭代次数,λ为拉格朗日系数,Wi (t)表示第t次迭代中变量Wi的值,Wi (t-1)表示第t-1次迭代中变量Wi的值,
Figure BDA0001988981380000054
为t次迭代过程中的对偶变量,
Figure BDA0001988981380000055
为t-1次迭代过程中的对偶变量,W(t-1)为t-1次迭代过程后求出的全局相似度矩阵W的值,在每一次迭代后计算出Wi (t-1),i=1,2,...C然后令
Figure BDA0001988981380000056
W(t)即为t次迭代所求得的全局相似度矩阵W,每个子问题都是可导的凸函数所以计算Wi (t)按照如下公式:
Figure BDA0001988981380000057
其中,I是一个n×n全一矩阵,n为样本数量;重复上述迭代过程直至收敛即得到了步骤2.1)优化过程的解,收敛条件为两次迭代优化目标的差异小于10-6
在步骤3)中,使用传统的谱聚类算法结合一致性聚类对于步骤2)求出的全局相似度矩阵进行聚类,以得到稳定的样本分型,其包括以下步骤:
3.1)谱聚类:通过输入的全局相似度矩阵W计算其拉普拉斯矩阵L,L=D-W,其中D为对角矩阵,对角线上的元素W矩阵中对应行或列的和,对于L做归一化
Figure BDA0001988981380000061
计算其前K个最小特征对应的特征向量形成特征矩阵,对于特征矩阵做kmeans聚类得到聚类结果;
3.2)聚类数目选择:通过聚类结果的轮廓系数进行衡量,对于每一个样本i,其轮廓系数S(i)计算公式如下:
Figure BDA0001988981380000062
其中,a(i)为样本i到同簇其他样本的平均距离,b(i)为到其他簇所有样本的平均距离,最终选择所有样本的轮廓系数均值最接近1的聚类数量;
3.3)一致性聚类:使用步骤3.1)的谱聚类算法进行50次聚类得到50次的划分形成划分矩阵后,运用谱聚类得到最终的聚类结果;
在步骤4)中,使用多集群特征选择方法(MCFS)通过全局相似度矩阵W按照上述谱聚类的做法得到特征向量矩阵后,特征向量反馈到原始数据的问题能够转换为一个一范数正则项的回归问题,根据回归得到的系数向量计算该特征的权重最终实现特征选择,回归模型如下:
Figure BDA0001988981380000063
其中,yk为第k个特征向量,X代表源数据矩阵,XT代表X的转置,αk是一个长度等于源数据矩阵特征的向量,即第k个特征向量对应的回归系数,||||代表向量的二范数即各个元素平方之和再开根号,||代表向量的一范数即各个元素绝对值之和,随后计算特征的MCFS分数
Figure BDA0001988981380000064
αk,j即为αk的第j个元素。将所有特征的MCFS分数降序排列根据设定的阈值进行特征选择。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明通过对逐步递进的相似度网络连接路径建模,对于不同数据源相似度网络的一致性进行约束,实现了多个相似度网络的融合算法,相比于现有技术能够刻画更为复杂的网络结构具有更高的精确度和更好的稳定性。
2、本发明通过一致性交替乘子法实现了网络融合模型的快速求解,算法能够在小于30次的迭代后收敛。
3、本发明不仅将整合的全局相似度网络运用于癌症患者的分型,得到预后显著差异的患者分型,并且结合了一种多集群特征选择方法辅助进行关键靶点特征的筛选,选出的特征有望成为潜在的生物标记物。
附图说明
图1为本发明方法概要设计图。
图2为实施例的实施流程图。
图3为本发明中模型求解流程图。
图4为实施例中全局相似度矩阵的聚类结果热图。
图5为实施例中聚类结果的生存曲线及生存分析Log-rank检验的pvalue图。
图6为实施例中筛选的全部靶点基因的通路分析情况图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例使用公开癌症数据集TCGA中的宫颈癌项目(CESC)数据对本发明方法进行评测,将不同分型患者的作为评估指标,本实例的概要设计如图1所示,实施流程如图2所示,实现基于相似度融合的相似度融合的多组学癌症数据整合分析方法的具体流程如下:
步骤1、获取TCGA数据库中宫颈癌项目同一批样本的基因表达数据,甲基化数据,和miRNA数据,本实例中初始收集了292例宫颈癌患者的数据。
步骤2、数据清洗:对于数据中的空值进行处理,超过20%以上的样本或特征直接删除,低于20%的采用K最近邻插补方法补全。经过数据清洗后样本数量剩余284例,基因表达数据含有20118个基因的表达信息,甲基化数据包含396065甲基化位点,miRNA数据包含885个miRNA位点。
步骤3、数据标准化:对于数据采用Z-score规范化,取消由量纲不同引起的误差,加速后续优化流程。
步骤4、特征选择:对于维度超过十万的数据集进行方差特征筛选,选择方差大于阈值的特征,去除冗余数据,加速计算。对于甲基化数据进行筛选保留了1000个甲基化位点的信息,用于后续分析。
步骤5、相似度度量以及局部相似度矩阵的构建:首先采用指数高斯核定义不同数据源中样本的相似度矩阵,具体公式如下:
Figure BDA0001988981380000081
其中,W为所求的相似度矩阵,W(i,j)代表矩阵W第i行第j列的元素,xi与xj分别表示样本i与样本j的特征向量,d(xi,xj)代表样本i与样本j之间的欧式距离,参数ρ是比例常数用以控制指数衰减速度,ξi,j用来矫正度量误差:
Figure BDA0001988981380000082
其中,Ni与Nj分别是样本i与样本j的邻居节点的集合,μ(d(xi,Ni))表示样本i与其邻居之间距离的均值,μ(d(xj,Nj))表示样本i与其邻居之间距离的均值。对于上述的相似度矩阵只保留每个样本与其最近邻(最近邻数目等于样本数目除以6)的信息形成每个数据源的局部相似度矩阵:
Figure BDA0001988981380000091
其中,S为所求的局部相似度矩阵,S(i,j)代表矩阵S第i行第j列的元素,其中Ni是样本i的邻居节点的集合,变量k用来遍历样本i的邻居节点集合,W(i,k)表示W矩阵第i行第k列的元素。
步骤6、对于输入的三个组学数据对应的S1,S2,S3进行相似度网络融合的建模,建立如下优化目标:
Figure BDA0001988981380000092
其中,W为全局的相似度矩阵,Ωi为一个和W同纬度的矩阵,Ωi中对应Si中不为0的位置的值为1其他位置为0,Si代表i个来源的局部相似度矩阵,Sj代表j个来源的局部相似度,|| ||F代表矩阵的Frobenius范数,*为矩阵Hadamard积即矩阵元素对应相乘,α和β是衡量不同路径下的约束的权重的参数,设定α=0.5,β=0.25。
步骤7、引进中间变量W1,W2,W3并随机初始化,将优化目标改写成如下形式:
Figure BDA0001988981380000093
subject to
Wi=W,i=1,...,C
其中Wi为引用的中间变量。
步骤8、通过改写,我们可以使用ADMM的可分特性将问题改为处理3个子问题,进行迭代求解每一次迭代过程中的目标变为
Figure BDA0001988981380000101
Figure BDA0001988981380000102
其中,t为迭代次数,λ为拉格朗日系数,Wi (t)表示第t次迭代中变量Wi的值,Wi (t-1)表示第t-1次迭代中变量Wi的值,
Figure BDA0001988981380000103
为t次迭代过程中的对偶变量,
Figure BDA0001988981380000104
为t-1次迭代过程中的对偶变量,W(t-1)为t-1次迭代过程后求出的全局相似度矩阵W的值。
步骤9、根据如下公式更新Wi (t)
Figure BDA0001988981380000105
其中I是一个n×n全一矩阵,n为样本数量。
步骤10、计算出W1 (t-1),
Figure BDA0001988981380000109
然后更新W(t)
Figure BDA0001988981380000106
步骤11、计算W(t)-W(t-1)是否小于10-6,若是则进行下一步,若不是则重复步骤9-10,整体求解过程如图3所示。
步骤12、谱聚类:通过输入的全局相似度矩阵W计算其拉普拉斯矩阵L,L=D-W,其中D为对角矩阵,对角线上的元素W矩阵中对应行或列的和,对于L做归一化
Figure BDA0001988981380000107
计算其前K个最小特征对应的特征向量形成特征矩阵,对于特征矩阵做kmeans聚类得到聚类结果。
步骤13、聚类数目选择:通过聚类结果的轮廓系数进行衡量,对于每一个样本i,其轮廓系数S(i)计算公式如下:
Figure BDA0001988981380000108
其中,a(i)即样本i到同簇其他样本的平均距离,b(i)为到其他簇所有样本的平均距离。最终选择所有样本的轮廓系数均值最接近1的聚类数量。
本实例中最终选择的聚类数目为3。
步骤14、一致性聚类:使用步骤13的谱聚类算法进行50次聚类,得到50次的划分,形成划分矩阵后运用谱聚类得到最终的聚类结果。
步骤15、使用多集群特征选择方法(MCFS)通过全局相似度矩阵W按照上述谱聚类的做法得到特征向量矩阵后,特征向量反馈到原始数据的问题可以转换为一个一范数正则项的回归问题,根据回归得到的系数向量计算该特征的权重最终实现特征选择。回归模型如下:
Figure BDA0001988981380000111
其中,yk为第k个特征向量,X代表源数据矩阵XT代表X的转置,αk是长度等于源数据矩阵特征的向量,即第k个特征向量对应的回归系数,|| ||代表向量的二范数即各个元素平方之和再开根号,||代表向量的一范数即各个元素绝对值之和。随后我们计算特征的MCFS分数
Figure BDA0001988981380000112
将所有特征的MCFS分数降序排列根据设定的阈值进行特征选择。
本实例对每个数据源选择了前15个特征。
为了评估本发明方法的精确度和优越性对于本实例中的聚类结果进行了聚类质量的评估,如图4是本实例中全局相似度矩阵的热图,具有明晰的分块结构。
为了评估本发明方法的精确度和优越性对于本实例中的聚类结果进行了预后差异性的评估,如图5是本实例聚类结果的生存曲线及不同组间生存情况pvalue,Pvalue<0.05说明不同聚类结果间生存时间存在显著差异。
为了评估本发明方法的精确度和优越性对于本实例中的关键靶点特征进行了预后差异性的评估,对于筛选出的45个关键靶点特征运用kmeans聚类后对分组结果进行生存分析,最终结果有17个特征的Log-rank检验pvalue<0.05,包括5个基因,6个甲基化位点,6个miRNA位点。
为了评估本发明方法的精确度和优越性对于本实例中的关键靶点特征进行了生物功能分析,使用的是KEGG通路分析。如图6是对于筛选出的全部靶点基因的通路分析情况。靶点基因共定位在46个通路,图中给出了最为显著富集的15个通路,横轴表示富集倍数(Fold.Enrichment),纵轴从上到下依次为黑色素瘤(Melanoma)、蛋白激酶信号通路(AMPKsignaling pathway)、背腹轴形成(Dorso-ventral axis formation)、胰腺癌(Pancreatic)、乙型肝炎(Heoatitis B)、结直肠癌(Colorectal cancer)、HTLV-I病毒感染(HTLV-I infection)、慢性骨髓白血病(Chronic myeloid leukemia)、粘合斑(Focaladhesion)、膀胱癌(Bladder cancer)、PI3K信号通路(PI3K-Akt signaling pathway)、前列腺癌(Prostate cancer)、FoxO信号通路(FoxO signaling pathway)、癌症中的微RNA(MicroRNAs in cancer)、癌症通路(Pathways in cancer),点的大小表示富集于此通路的基因数量(Count),可以看出筛选的靶点基因主要富集于与癌症相关的通路。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (1)

1.一种基于相似度融合的多组学癌症数据整合分析方法,其特征在于:该方法通过对给定的癌症多组学数据进行预处理,构建每个数据源的局部相似度网络;进而将多个局部相似度网络的融合问题定义为不同路径度量下多个相似度网络的一致性约束问题,并且建模为一个优化问题,使用一致性交替乘子法将优化目标分解成一系列子问题进行求解;融合后的全局相似度网络结合基于谱聚类的一致性聚类方法,实现对患者的分型;最后使用多集群特征选择方法从患者分型回溯原始的数据源中的特征;其具体包括以下步骤:
1)对于数据进行预处理,构建每个数据源对应的局部相似度网络;
要保证数据分析的质量,首先需要对于数据集进行数据清洗、数据标准化和特征选择,其次需要进行相似度的计算和表示,具体如下:
数据清洗:对于数据中的空值进行处理,缺失超过20%以上的样本或特征直接删除,低于20%的采用K最近邻插补方法补全;
数据标准化:对于数据采用Z-score规范化,取消由量纲不同引起的误差,加速后续优化流程;
特征选择:对于维度超过十万的数据集进行方差特征筛选,选择方差大于预设阈值的特征,去除冗余数据,加速计算;
相似度度量以及局部相似度矩阵的构建:首先,采用指数高斯核定义不同数据源中样本的相似度矩阵,公式如下:
Figure FDA0002781452580000011
其中,W为所求的相似度矩阵,W(i,j)代表矩阵W第i行第j列的元素,xi与xj分别表示样本i与样本j的特征向量,d(xi,xj)代表样本i与样本j之间的欧式距离,参数ρ是比例常数用以控制指数衰减速度,ξi,j用来矫正度量误差:
Figure FDA0002781452580000021
其中,Ni与Nj分别是样本i与样本j的邻居节点的集合,μ(d(xi,Ni))表示样本i与其邻居之间距离的均值,μ(d(xj,Nj))表示样本i与其邻居之间距离的均值;
对于上述的相似度矩阵只保留每个样本与其最近邻的信息形成每个数据源的局部相似度矩阵:
Figure FDA0002781452580000022
其中,S为所求的局部相似度矩阵,S(i,j)代表矩阵S第i行第j列的元素,Ni是样本i的邻居节点的集合,变量k用来遍历样本i的邻居节点集合,W(i,k)表示W矩阵第i行第k列的元素;
2)通过优化模型进行相似度网络的融合,得到一个全局的相似度网络;进行不同源数据的相似度网络的融合,包括以下步骤:
2.1)建立优化模型
假设有C个不同组学的数据源,根据步骤1)生成了对应的局部相似度矩阵Si(i∈1,...,C),希望计算得到全局的相似度矩阵W,为此基于不同路径度量下的各个数据源的一致性约束设计了如下的优化目标函数:
Figure FDA0002781452580000023
其中,C为数据源的数量,W为全局的相似度矩阵,Ωi为一个和W同纬度的矩阵,Ωi中对应Si中不为0的位置的值为1其他位置为0,Si代表i个来源的局部相似度矩阵,Sj代表j个来源的局部相似度,|| ||F代表矩阵的Frobenius范数,*为矩阵Hadamard积即矩阵元素对应相乘,α和β是衡量不同路径下的约束的权重的参数,由人工设定;
2.2)模型求解
使用一致性交替乘子法ADMM对于上述优化目标进行求解,通过引入变量W1,...,WC,将优化目标改写成:
Figure FDA0002781452580000031
subject to
Wi=W,i=1,...,C
其中,Wi为引用的中间变量,通过改写,能够使用ADMM的可分特性将问题改为处理C个子问题,进行迭代求解每一次迭代过程中的目标变为:
Figure FDA0002781452580000032
Figure FDA0002781452580000033
其中,t为迭代次数,λ为拉格朗日系数,Wi (t)表示第t次迭代中变量Wi的值,Wi (t-1)表示第t-1次迭代中变量Wi的值,
Figure FDA0002781452580000034
为t次迭代过程中的对偶变量,
Figure FDA0002781452580000035
为t-1次迭代过程中的对偶变量,W(t-1)为t-1次迭代过程后求出的全局相似度矩阵W的值,在每一次迭代后计算出Wi (t-1),i=1,2,...C然后令
Figure FDA0002781452580000036
W(t)即为t次迭代所求得的全局相似度矩阵W,每个子问题都是可导的凸函数所以计算Wi (t)按照如下公式:
Figure FDA0002781452580000041
其中,I是一个n×n全一矩阵,n为样本数量;重复上述迭代过程直至收敛即得到了步骤2.1)优化过程的解,收敛条件为两次迭代优化目标的差异小于10-6
3)基于全局相似度网络进行样本的分型;
使用传统的谱聚类算法结合一致性聚类对步骤2)求出的全局相似度矩阵进行聚类,以得到稳定的样本分型,其包括以下步骤:
3.1)谱聚类:通过输入的全局相似度矩阵W计算其拉普拉斯矩阵L,L=D-W,其中D为对角矩阵,对角线上的元素W矩阵中对应行或列的和,对于L做归一化
Figure FDA0002781452580000042
计算其前K个最小特征对应的特征向量形成特征矩阵,对于特征矩阵做kmeans聚类得到聚类结果;
3.2)聚类数目选择:通过聚类结果的轮廓系数进行衡量,对于每一个样本i,其轮廓系数S(i)计算公式如下:
Figure FDA0002781452580000043
其中,a(i)为样本i到同簇其他样本的平均距离,b(i)为到其他簇所有样本的平均距离,最终选择所有样本的轮廓系数均值最接近1的聚类数量;
3.3)一致性聚类:使用步骤3.1)的谱聚类算法进行50次聚类得到50次的划分形成划分矩阵后,运用谱聚类得到最终的聚类结果;
4)根据分型结果回溯原始数据中的特征;
使用多集群特征选择方法MCFS通过全局相似度矩阵W按照上述谱聚类的做法得到特征向量矩阵后,特征向量反馈到原始数据的问题能够转换为一个一范数正则项的回归问题,根据回归得到的系数向量计算该特征的权重最终实现特征选择,回归模型如下:
Figure FDA0002781452580000051
其中,yk为第k个特征向量,X代表源数据矩阵,XT代表X的转置,αk是长度等于源数据矩阵特征的向量,即第k个特征向量对应的回归系数,|| ||代表向量的二范数即各个元素平方之和再开根号,| |代表向量的一范数即各个元素绝对值之和,随后计算特征的MCFS分数
Figure FDA0002781452580000052
αk,j即为αk的第j个元素;将所有特征的MCFS分数降序排列根据设定的阈值进行特征选择。
CN201910174117.4A 2019-03-08 2019-03-08 一种基于相似度融合的多组学癌症数据整合分析方法 Active CN109994200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910174117.4A CN109994200B (zh) 2019-03-08 2019-03-08 一种基于相似度融合的多组学癌症数据整合分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910174117.4A CN109994200B (zh) 2019-03-08 2019-03-08 一种基于相似度融合的多组学癌症数据整合分析方法

Publications (2)

Publication Number Publication Date
CN109994200A CN109994200A (zh) 2019-07-09
CN109994200B true CN109994200B (zh) 2021-01-19

Family

ID=67129504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910174117.4A Active CN109994200B (zh) 2019-03-08 2019-03-08 一种基于相似度融合的多组学癌症数据整合分析方法

Country Status (1)

Country Link
CN (1) CN109994200B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532304B (zh) * 2019-09-06 2020-11-24 京东城市(北京)数字科技有限公司 数据处理方法及装置、计算机可读存储介质以及电子设备
CN111161882A (zh) * 2019-12-04 2020-05-15 深圳先进技术研究院 一种基于深度神经网络的乳腺癌生存期预测方法
CN111223528B (zh) * 2020-01-08 2023-04-18 华南理工大学 一种多组学数据聚类方法及装置
CN111785325B (zh) * 2020-06-23 2021-10-22 西北工业大学 互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法
CN111816259B (zh) * 2020-07-07 2024-02-09 西安电子科技大学 基于网络表示学习的不完整多组学数据集成方法
CN112190269B (zh) * 2020-12-04 2024-03-12 兰州大学 基于多源脑电数据融合的抑郁症辅助识别模型构建方法
CN112687327B (zh) * 2020-12-28 2024-04-12 中山依数科技有限公司 一种基于多任务和多模态的癌症生存分析系统
CN113192556B (zh) * 2021-03-17 2022-04-26 西北工业大学 基于小样本的多组学数据中基因型与表型关联分析方法
CN113035281A (zh) * 2021-05-24 2021-06-25 浙江中科华知科技股份有限公司 医疗数据的处理方法及装置
CN113450872B (zh) * 2021-07-02 2022-12-02 南昌大学 磷酸化位点特异激酶的预测方法
CN113470829A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 用户画像生成方法、装置、设备及存储介质
CN114741378A (zh) * 2022-04-06 2022-07-12 广西师范大学 一种多数据源旅游目的地的数据中台系统及其方法
CN115018456B (zh) * 2022-06-01 2023-06-20 常州机电职业技术学院 一种隐蔽工程跟踪审计的数据融合系统及其方法
WO2024021037A1 (zh) * 2022-07-29 2024-02-01 京东方科技集团股份有限公司 疾病分析方法、疾病分析模型的训练方法及装置
CN116741397B (zh) * 2023-08-15 2023-11-03 数据空间研究院 基于多组学数据融合的癌症分型方法、系统及存储介质
CN117807461B (zh) * 2024-02-26 2024-04-26 中国计量科学研究院 一种基于大数据的威士忌酒产地溯源方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023026A (zh) * 2015-08-18 2015-11-04 苏州大学张家港工业技术研究院 一种基于非负矩阵分解的半监督聚类方法及系统
CN106529165A (zh) * 2016-10-28 2017-03-22 合肥工业大学 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法
CN108509771A (zh) * 2018-03-27 2018-09-07 华南理工大学 一种基于稀疏匹配的多组学数据关联关系发现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023026A (zh) * 2015-08-18 2015-11-04 苏州大学张家港工业技术研究院 一种基于非负矩阵分解的半监督聚类方法及系统
CN106529165A (zh) * 2016-10-28 2017-03-22 合肥工业大学 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法
CN108509771A (zh) * 2018-03-27 2018-09-07 华南理工大学 一种基于稀疏匹配的多组学数据关联关系发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Similarity network fusion for aggregating data types on a genomic scale;bo wang等;《nature methods》;20140326;第11卷(第3期);第333-第339页 *
Unsupervised feature selection for multi-cluster data;Deng Cai等;《Proceedings of the 16h ACM SIFKDD international conference on knowledgye discovery and data mining》;20100730;第333-第342页 *

Also Published As

Publication number Publication date
CN109994200A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN109994200B (zh) 一种基于相似度融合的多组学癌症数据整合分析方法
Yang et al. Subtype-GAN: a deep learning approach for integrative cancer subtyping of multi-omics data
Gabasova et al. Clusternomics: Integrative context-dependent clustering for heterogeneous datasets
CN112232413A (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
Bhadra et al. Identification of multiview gene modules using mutual information-based hypograph mining
CN116741397B (zh) 基于多组学数据融合的癌症分型方法、系统及存储介质
CN108804876A (zh) 用于计算癌症样本纯度和染色体倍性的方法和装置
CN110010195A (zh) 一种探测单核苷酸突变的方法及装置
CN111223528B (zh) 一种多组学数据聚类方法及装置
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
Sun et al. Multi-view biclustering for genotype-phenotype association studies of complex diseases
Roman et al. Automated deconvolution of structured mixtures from heterogeneous tumor genomic data
CN115620808A (zh) 基于改进Cox模型的癌症基因预后筛选方法及系统
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
Serra et al. Data integration in genomics and systems biology
CN111816259A (zh) 基于网络表示学习的不完整多组学数据集成方法
Paul A feature weighting-assisted approach for cancer subtypes identification from paired expression profiles
CN112908420B (zh) 一种基于去噪网络正则化的多组学数据整合方法及系统
Zhai et al. Two‐sample test with g‐modeling and its applications
Wong et al. Computational Systems Bioinformatics-Methods And Biomedical Applications
Matsuda et al. Scaling Method for Batch Effect Correction of Gene Expression Data Based on Spectral Clustering
Ogundijo Bayesian Inference for Genomic Data Analysis
Jha A nonparametric bayesian method for clustering of high-dimensional mixed dataset
Wang et al. A comparison of fuzzy clustering approaches for quantification of microarray gene expression
Xing et al. High-dimensional sparse structured input-output models, with applications to gwas

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant