CN109994200A - 一种基于相似度融合的多组学癌症数据整合分析方法 - Google Patents
一种基于相似度融合的多组学癌症数据整合分析方法 Download PDFInfo
- Publication number
- CN109994200A CN109994200A CN201910174117.4A CN201910174117A CN109994200A CN 109994200 A CN109994200 A CN 109994200A CN 201910174117 A CN201910174117 A CN 201910174117A CN 109994200 A CN109994200 A CN 109994200A
- Authority
- CN
- China
- Prior art keywords
- data
- similarity
- matrix
- sample
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于相似度融合的多组学癌症数据整合分析方法,该方法包括计算局部相似度网络、多个局部相似度网络融合、根据全局相似度网络进行分型、根据全局相似度网络回溯原始的数据源中的特征四个步骤。对比当前技术,本发明通过对逐步递进的相似度网络连接路径建模,实现了多个相似度网络的融合算法,相比于现有技术能够刻画更为复杂的网络结构,具有更高的精确度和更好的稳定性。通过一致性交替乘子法实现了网络融合模型的快速求解。本发明不仅将整合的全局相似度网络运用于癌症患者的分型,得到预后显著差异的患者分型,并且结合了一种多集群特征选择方法辅助进行关键靶点特征的筛选,选出的特征有望成为潜在的生物标记物。
Description
技术领域
本发明涉及生物信息的技术领域,尤其是指一种基于相似度融合的多组学癌症数据整合分析方法。
背景技术
在目前的临床医疗实践中,癌症往往是根据其组织来源以及病理学特征进行分型治疗。然而随着测序技术以及人类基因组研究的发展,大量研究表明肿瘤在分子级别的病理系统能够良好表征其发生特性及发展阶段。肿瘤发生发展的过程往往伴随着由体细胞基因突变、表观遗传学变化、个体差异和环境影响造成的基因组变异,传统的基于单个基因组数据的分析很难捕捉到所有生物过程的异质性,并清晰区分表型。因此,基于多组学数据(如基因表达,miRNA表达,DNA甲基化等)整合的数据分析能够弥补单一数据的信息缺失,矫正单一数据收集过程中的错误信息,为癌症分子级分析提供全面的视角,极大地推动肿瘤精准医学的发展。
尽管在全球范围的各个癌症测序项目的推动下积累了海量的癌症多组学数据集,包括肿瘤中体细胞突变的目录(COSMIC),国际癌症基因组协会(ICGC)和癌症基因图谱(TCGA)等数据库,有效地整合多组学数据仍然是一项巨大的挑战。近年来有关多组学数据整合的方法主要分为三种思路1)基于隐变量表达的方法2)基于概率模型的方法3)基于网络结构的方法。其中基于隐变量表达的方法假设不同的组学数据之间存在若干公共的隐藏变量,从而将不同数据集中的高维特征映射到一个公共的低维空间上。例如iCluster+建立了隐变量与观测值之间的正则化回归模型,联合非负矩阵分解(jNMF)通过矩阵分解的方法寻找多个数据集所公有的特征空间等。然而该类方法在不同组学数据的维度和尺度差异过大时难以找到一个公共的映射,并且隐变量也缺乏对应的生物学意义。基于概率模型的整合方法主要是假设不同组学、不同分型的患者分别服从不同的先验概率分布,估计其混合之后的分布情况。例如贝塔-高斯混合模型分别用贝塔分布以及高斯分布拟合基因表达数据和蛋白-DNA关联概率并将其整合到同一个概率混合模型中。但是高维数据的混合概率模型需要估计的参数过多,当样本数量远小于特征数量时会出现过拟合的情况,影响估计精度。基于网络结构的方法使用图论基础构建每个数据来源的内部网络结构,并根据信息传播理论进行不同数据源的信息传递与交换。例如相似度网络融合(SNF)为每个单一数据集构建相似度网络,并迭代更新每一个相似度网络最终实现多个数据集的融合。基于网络的方法主要问题是对于网络结构和传递路径的建模简单无法刻画多组学数据的复杂网络结构,并且没有提供将融合后结果反馈到原始的组学数据的方法。因此对于维度高,噪音大,分布各异的癌症多组学数据,仍然缺乏高效精准鲁棒性高的整合方法用以癌症分子层面的分析。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于相似度融合的多组学癌症数据整合分析方法,能够实现对于癌症患者的多组学数据(基因表达,miRNA表达,DNA甲基化等)的全面整合,对癌症患者作出预后差异显著的分型,并且依据分型结果定位原始数据特征,寻找有预后价值的生物标志物。
为实现上述目的,本发明所提供的技术方案为:一种基于相似度融合的多组学癌症数据整合分析方法,该方法通过对给定的癌症多组学数据进行预处理,构建每个数据源的局部相似度网络;进而将多个局部相似度网络的融合问题定义为不同路径度量下多个相似度网络的一致性约束问题,并且建模为一个优化问题,使用一致性交替乘子法(Consensus ADMM)将优化目标分解成一系列子问题进行求解;融合后的全局相似度网络结合基于谱聚类的一致性聚类方法,实现对患者的分型;最后使用多集群特征选择方法(MCFS)从患者分型回溯原始的数据源中的特征;其具体包括以下步骤:
1)对于数据进行预处理,构建每个数据源对应的局部相似度网络;
2)通过优化模型进行相似度网络的融合,得到一个全局的相似度网络;
3)基于全局相似度网络进行样本的分型;
4)根据分型结果回溯原始数据中的特征。
在步骤1)中,要保证数据分析的质量,首先需要对于数据集进行数据清洗、数据标准化和特征选择,其次需要进行相似度的计算和表示,具体如下:
数据清洗:对于数据中的空值进行处理,缺失超过20%以上的样本或特征直接删除,低于20%的采用K最近邻插补方法补全;
数据标准化:对于数据采用Z-score规范化,取消由量纲不同引起的误差,加速后续优化流程;
特征选择:对于维度超过十万的数据集进行方差特征筛选,选择方差大于预设阈值的特征,去除冗余数据,加速计算;
相似度度量以及局部相似度矩阵的构建:首先,采用指数高斯核定义不同数据源中样本的相似度矩阵,公式如下:
其中,W为所求的相似度矩阵,W(i,j)代表矩阵W第i行第j列的元素,xi与xj分别表示样本i与样本j的特征向量,d(xi,xj)代表样本i与样本j之间的欧式距离,参数ρ是比例常数用以控制指数衰减速度,ξi,j用来矫正度量误差:
其中,Ni与Nj分别是样本i与样本j的邻居节点的集合,μ(d(xi,Ni))表示样本i与其邻居之间距离的均值,μ(d(xj,Nj))表示样本i与其邻居之间距离的均值;
对于上述的相似度矩阵只保留每个样本与其最近邻(最近邻数目等于样本数目除以6)的信息形成每个数据源的局部相似度矩阵:
其中,S为所求的局部相似度矩阵,S(i,j)代表矩阵S第i行第j列的元素,Ni是样本i的邻居节点的集合,变量k用来遍历样本i的邻居节点集合,W(i,k)表示W矩阵第i行第k列的元素。
在步骤2)中,进行不同源数据的相似度网络的融合,包括以下步骤:
2.1)建立优化模型
假设有C个不同组学的数据源,根据步骤1)生成了对应的局部相似度矩阵Si(i∈1,...,C),希望计算得到全局的相似度矩阵W,为此基于不同路径度量下的各个数据源的一致性约束设计了如下的优化目标函数:
其中,C为数据源的数量,W为全局的相似度矩阵,Ωi为一个和W同纬度的矩阵,Ωi中对应Si中不为0的位置的值为1其他位置为0,Si代表i个来源的局部相似度矩阵,Sj代表j个来源的局部相似度,||||F代表矩阵的Frobenius范数,*为矩阵Hadamard积即矩阵元素对应相乘,α和β是衡量不同路径下的约束的权重的参数,由人工设定;
2.2)模型求解
使用一致性交替乘子法(Consensus-ADMM)对于上述优化目标进行求解,通过引入变量W1,...,WC,将优化目标改写成:
subject to
Wi=W,i=1,...,C
其中Wi为引用的中间变量,通过改写,能够使用ADMM的可分特性将问题改为处理C个子问题,进行迭代求解每一次迭代过程中的目标变为:
其中,t为迭代次数,λ为拉格朗日系数,Wi (t)表示第t次迭代中变量Wi的值,Wi (t-1)表示第t-1次迭代中变量Wi的值,为t次迭代过程中的对偶变量,为t-1次迭代过程中的对偶变量,W(t-1)为t-1次迭代过程后求出的全局相似度矩阵W的值,在每一次迭代后计算出Wi (t-1),i=1,2,...C然后令
W(t)即为t次迭代所求得的全局相似度矩阵W,每个子问题都是可导的凸函数所以计算Wi (t)按照如下公式:
其中,I是一个n×n全一矩阵,n为样本数量;重复上述迭代过程直至收敛即得到了步骤2.1)优化过程的解,收敛条件为两次迭代优化目标的差异小于10-6。
在步骤3)中,使用传统的谱聚类算法结合一致性聚类对于步骤2)求出的全局相似度矩阵进行聚类,以得到稳定的样本分型,其包括以下步骤:
3.1)谱聚类:通过输入的全局相似度矩阵W计算其拉普拉斯矩阵L,L=D-W,其中D为对角矩阵,对角线上的元素W矩阵中对应行或列的和,对于L做归一化计算其前K个最小特征对应的特征向量形成特征矩阵,对于特征矩阵做kmeans聚类得到聚类结果;
3.2)聚类数目选择:通过聚类结果的轮廓系数进行衡量,对于每一个样本i,其轮廓系数S(i)计算公式如下:
其中,a(i)为样本i到同簇其他样本的平均距离,b(i)为到其他簇所有样本的平均距离,最终选择所有样本的轮廓系数均值最接近1的聚类数量;
3.3)一致性聚类:使用步骤3.1)的谱聚类算法进行50次聚类得到50次的划分形成划分矩阵后,运用谱聚类得到最终的聚类结果;
在步骤4)中,使用多集群特征选择方法(MCFS)通过全局相似度矩阵W按照上述谱聚类的做法得到特征向量矩阵后,特征向量反馈到原始数据的问题能够转换为一个一范数正则项的回归问题,根据回归得到的系数向量计算该特征的权重最终实现特征选择,回归模型如下:
其中,yk为第k个特征向量,X代表源数据矩阵,XT代表X的转置,αk是一个长度等于源数据矩阵特征的向量,即第k个特征向量对应的回归系数,||||代表向量的二范数即各个元素平方之和再开根号,||代表向量的一范数即各个元素绝对值之和,随后计算特征的MCFS分数αk,j即为αk的第j个元素。将所有特征的MCFS分数降序排列根据设定的阈值进行特征选择。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明通过对逐步递进的相似度网络连接路径建模,对于不同数据源相似度网络的一致性进行约束,实现了多个相似度网络的融合算法,相比于现有技术能够刻画更为复杂的网络结构具有更高的精确度和更好的稳定性。
2、本发明通过一致性交替乘子法实现了网络融合模型的快速求解,算法能够在小于30次的迭代后收敛。
3、本发明不仅将整合的全局相似度网络运用于癌症患者的分型,得到预后显著差异的患者分型,并且结合了一种多集群特征选择方法辅助进行关键靶点特征的筛选,选出的特征有望成为潜在的生物标记物。
附图说明
图1为本发明方法概要设计图。
图2为实施例的实施流程图。
图3为本发明中模型求解流程图。
图4为实施例中全局相似度矩阵的聚类结果热图。
图5为实施例中聚类结果的生存曲线及生存分析Log-rank检验的pvalue图。
图6为实施例中筛选的全部靶点基因的通路分析情况图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例使用公开癌症数据集TCGA中的宫颈癌项目(CESC)数据对本发明方法进行评测,将不同分型患者的作为评估指标,本实例的概要设计如图1所示,实施流程如图2所示,实现基于相似度融合的相似度融合的多组学癌症数据整合分析方法的具体流程如下:
步骤1、获取TCGA数据库中宫颈癌项目同一批样本的基因表达数据,甲基化数据,和miRNA数据,本实例中初始收集了292例宫颈癌患者的数据。
步骤2、数据清洗:对于数据中的空值进行处理,超过20%以上的样本或特征直接删除,低于20%的采用K最近邻插补方法补全。经过数据清洗后样本数量剩余284例,基因表达数据含有20118个基因的表达信息,甲基化数据包含396065甲基化位点,miRNA数据包含885个miRNA位点。
步骤3、数据标准化:对于数据采用Z-score规范化,取消由量纲不同引起的误差,加速后续优化流程。
步骤4、特征选择:对于维度超过十万的数据集进行方差特征筛选,选择方差大于阈值的特征,去除冗余数据,加速计算。对于甲基化数据进行筛选保留了1000个甲基化位点的信息,用于后续分析。
步骤5、相似度度量以及局部相似度矩阵的构建:首先采用指数高斯核定义不同数据源中样本的相似度矩阵,具体公式如下:
其中,W为所求的相似度矩阵,W(i,j)代表矩阵W第i行第j列的元素,xi与xj分别表示样本i与样本j的特征向量,d(xi,xj)代表样本i与样本j之间的欧式距离,参数ρ是比例常数用以控制指数衰减速度,ξi,j用来矫正度量误差:
其中,Ni与Nj分别是样本i与样本j的邻居节点的集合,μ(d(xi,Ni))表示样本i与其邻居之间距离的均值,μ(d(xj,Nj))表示样本i与其邻居之间距离的均值。对于上述的相似度矩阵只保留每个样本与其最近邻(最近邻数目等于样本数目除以6)的信息形成每个数据源的局部相似度矩阵:
其中,S为所求的局部相似度矩阵,S(i,j)代表矩阵S第i行第j列的元素,其中Ni是样本i的邻居节点的集合,变量k用来遍历样本i的邻居节点集合,W(i,k)表示W矩阵第i行第k列的元素。
步骤6、对于输入的三个组学数据对应的S1,S2,S3进行相似度网络融合的建模,建立如下优化目标:
其中,W为全局的相似度矩阵,Ωi为一个和W同纬度的矩阵,Ωi中对应Si中不为0的位置的值为1其他位置为0,Si代表i个来源的局部相似度矩阵,Sj代表j个来源的局部相似度,|| ||F代表矩阵的Frobenius范数,*为矩阵Hadamard积即矩阵元素对应相乘,α和β是衡量不同路径下的约束的权重的参数,设定α=0.5,β=0.25。
步骤7、引进中间变量W1,W2,W3并随机初始化,将优化目标改写成如下形式:
subject to
Wi=W,i=1,...,C
其中Wi为引用的中间变量。
步骤8、通过改写,我们可以使用ADMM的可分特性将问题改为处理3个子问题,进行迭代求解每一次迭代过程中的目标变为
其中,t为迭代次数,λ为拉格朗日系数,Wi (t)表示第t次迭代中变量Wi的值,Wi (t-1)表示第t-1次迭代中变量Wi的值,为t次迭代过程中的对偶变量,为t-1次迭代过程中的对偶变量,W(t-1)为t-1次迭代过程后求出的全局相似度矩阵W的值。
步骤9、根据如下公式更新Wi (t)
其中I是一个n×n全一矩阵,n为样本数量。
步骤10、计算出W1 (t-1),然后更新W(t)
步骤11、计算W(t)-W(t-1)是否小于10-6,若是则进行下一步,若不是则重复步骤9-10,整体求解过程如图3所示。
步骤12、谱聚类:通过输入的全局相似度矩阵W计算其拉普拉斯矩阵L,L=D-W,其中D为对角矩阵,对角线上的元素W矩阵中对应行或列的和,对于L做归一化计算其前K个最小特征对应的特征向量形成特征矩阵,对于特征矩阵做kmeans聚类得到聚类结果。
步骤13、聚类数目选择:通过聚类结果的轮廓系数进行衡量,对于每一个样本i,其轮廓系数S(i)计算公式如下:
其中,a(i)即样本i到同簇其他样本的平均距离,b(i)为到其他簇所有样本的平均距离。最终选择所有样本的轮廓系数均值最接近1的聚类数量。
本实例中最终选择的聚类数目为3。
步骤14、一致性聚类:使用步骤13的谱聚类算法进行50次聚类,得到50次的划分,形成划分矩阵后运用谱聚类得到最终的聚类结果。
步骤15、使用多集群特征选择方法(MCFS)通过全局相似度矩阵W按照上述谱聚类的做法得到特征向量矩阵后,特征向量反馈到原始数据的问题可以转换为一个一范数正则项的回归问题,根据回归得到的系数向量计算该特征的权重最终实现特征选择。回归模型如下:
其中,yk为第k个特征向量,X代表源数据矩阵XT代表X的转置,αk是长度等于源数据矩阵特征的向量,即第k个特征向量对应的回归系数,|| ||代表向量的二范数即各个元素平方之和再开根号,||代表向量的一范数即各个元素绝对值之和。随后我们计算特征的MCFS分数将所有特征的MCFS分数降序排列根据设定的阈值进行特征选择。
本实例对每个数据源选择了前15个特征。
为了评估本发明方法的精确度和优越性对于本实例中的聚类结果进行了聚类质量的评估,如图4是本实例中全局相似度矩阵的热图,具有明晰的分块结构。
为了评估本发明方法的精确度和优越性对于本实例中的聚类结果进行了预后差异性的评估,如图5是本实例聚类结果的生存曲线及不同组间生存情况pvalue,Pvalue<0.05说明不同聚类结果间生存时间存在显著差异。
为了评估本发明方法的精确度和优越性对于本实例中的关键靶点特征进行了预后差异性的评估,对于筛选出的45个关键靶点特征运用kmeans聚类后对分组结果进行生存分析,最终结果有17个特征的Log-rank检验pvalue<0.05,包括5个基因,6个甲基化位点,6个miRNA位点。
为了评估本发明方法的精确度和优越性对于本实例中的关键靶点特征进行了生物功能分析,使用的是KEGG通路分析。如图6是对于筛选出的全部靶点基因的通路分析情况。靶点基因共定位在46个通路,图中给出了最为显著富集的15个通路,横轴表示富集倍数(Fold.Enrichment),纵轴从上到下依次为黑色素瘤(Melanoma)、蛋白激酶信号通路(AMPKsignaling pathway)、背腹轴形成(Dorso-ventral axis formation)、胰腺癌(Pancreatic)、乙型肝炎(Heoatitis B)、结直肠癌(Colorectal cancer)、HTLV-I病毒感染(HTLV-I infection)、慢性骨髓白血病(Chronic myeloid leukemia)、粘合斑(Focaladhesion)、膀胱癌(Bladder cancer)、PI3K信号通路(PI3K-Akt signaling pathway)、前列腺癌(Prostate cancer)、FoxO信号通路(FoxO signaling pathway)、癌症中的微RNA(MicroRNAs in cancer)、癌症通路(Pathways in cancer),点的大小表示富集于此通路的基因数量(Count),可以看出筛选的靶点基因主要富集于与癌症相关的通路。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (4)
1.一种基于相似度融合的多组学癌症数据整合分析方法,其特征在于:该方法通过对给定的癌症多组学数据进行预处理,构建每个数据源的局部相似度网络;进而将多个局部相似度网络的融合问题定义为不同路径度量下多个相似度网络的一致性约束问题,并且建模为一个优化问题,使用一致性交替乘子法将优化目标分解成一系列子问题进行求解;融合后的全局相似度网络结合基于谱聚类的一致性聚类方法,实现对患者的分型;最后使用多集群特征选择方法从患者分型回溯原始的数据源中的特征;其具体包括以下步骤:
1)对于数据进行预处理,构建每个数据源对应的局部相似度网络;
2)通过优化模型进行相似度网络的融合,得到一个全局的相似度网络;
3)基于全局相似度网络进行样本的分型;
4)根据分型结果回溯原始数据中的特征。
2.根据权利要求1所述的一种基于相似度融合的多组学癌症数据整合分析方法,其特征在于:在步骤1)中,要保证数据分析的质量,首先需要对于数据集进行数据清洗、数据标准化和特征选择,其次需要进行相似度的计算和表示,具体如下:
数据清洗:对于数据中的空值进行处理,缺失超过20%以上的样本或特征直接删除,低于20%的采用K最近邻插补方法补全;
数据标准化:对于数据采用Z-score规范化,取消由量纲不同引起的误差,加速后续优化流程;
特征选择:对于维度超过十万的数据集进行方差特征筛选,选择方差大于预设阈值的特征,去除冗余数据,加速计算;
相似度度量以及局部相似度矩阵的构建:首先,采用指数高斯核定义不同数据源中样本的相似度矩阵,公式如下:
其中,W为所求的相似度矩阵,W(i,j)代表矩阵W第i行第j列的元素,xi与xj分别表示样本i与样本j的特征向量,d(xi,xj)代表样本i与样本j之间的欧式距离,参数ρ是比例常数用以控制指数衰减速度,ξi,j用来矫正度量误差:
其中,Ni与Nj分别是样本i与样本j的邻居节点的集合,μ(d(xi,Ni))表示样本i与其邻居之间距离的均值,μ(d(xj,Nj))表示样本i与其邻居之间距离的均值;
对于上述的相似度矩阵只保留每个样本与其最近邻的信息形成每个数据源的局部相似度矩阵:
其中,S为所求的局部相似度矩阵,S(i,j)代表矩阵S第i行第j列的元素,Ni是样本i的邻居节点的集合,变量k用来遍历样本i的邻居节点集合,W(i,k)表示W矩阵第i行第k列的元素。
3.根据权利要求1所述的一种基于相似度融合的多组学癌症数据整合分析方法,其特征在于:在步骤2)中,进行不同源数据的相似度网络的融合,包括以下步骤:
2.1)建立优化模型
假设有C个不同组学的数据源,根据步骤1)生成了对应的局部相似度矩阵Si(i∈1,...,C),希望计算得到全局的相似度矩阵W,为此基于不同路径度量下的各个数据源的一致性约束设计了如下的优化目标函数:
其中,C为数据源的数量,W为全局的相似度矩阵,Ωi为一个和W同纬度的矩阵,Ωi中对应Si中不为0的位置的值为1其他位置为0,Si代表i个来源的局部相似度矩阵,Sj代表j个来源的局部相似度,||||F代表矩阵的Frobenius范数,*为矩阵Hadamard积即矩阵元素对应相乘,α和β是衡量不同路径下的约束的权重的参数,由人工设定;
2.2)模型求解
使用一致性交替乘子法ADMM对于上述优化目标进行求解,通过引入变量W1,...,WC,将优化目标改写成:
subjectto
Wi=W,i=1,...,C
其中,Wi为引用的中间变量,通过改写,能够使用ADMM的可分特性将问题改为处理C个子问题,进行迭代求解每一次迭代过程中的目标变为:
其中,t为迭代次数,λ为拉格朗日系数,Wi (t)表示第t次迭代中变量Wi的值,Wi (t-1)表示第t-1次迭代中变量Wi的值,为t次迭代过程中的对偶变量,为t-1次迭代过程中的对偶变量,W(t-1)为t-1次迭代过程后求出的全局相似度矩阵W的值,在每一次迭代后计算出Wi (t-1),i=1,2,...C然后令
W(t)即为t次迭代所求得的全局相似度矩阵W,每个子问题都是可导的凸函数所以计算Wi (t)按照如下公式:
其中,I是一个n×n全一矩阵,n为样本数量;重复上述迭代过程直至收敛即得到了步骤2.1)优化过程的解,收敛条件为两次迭代优化目标的差异小于10-6。
4.根据权利要求1所述的一种基于相似度融合的多组学癌症数据整合分析方法,其特征在于:在步骤3)中,使用传统的谱聚类算法结合一致性聚类对于步骤2)求出的全局相似度矩阵进行聚类,以得到稳定的样本分型,其包括以下步骤:
3.1)谱聚类:通过输入的全局相似度矩阵W计算其拉普拉斯矩阵L,L=D-W,其中D为对角矩阵,对角线上的元素W矩阵中对应行或列的和,对于L做归一化计算其前K个最小特征对应的特征向量形成特征矩阵,对于特征矩阵做kmeans聚类得到聚类结果;
3.2)聚类数目选择:通过聚类结果的轮廓系数进行衡量,对于每一个样本i,其轮廓系数S(i)计算公式如下:
其中,a(i)为样本i到同簇其他样本的平均距离,b(i)为到其他簇所有样本的平均距离,最终选择所有样本的轮廓系数均值最接近1的聚类数量;
3.3)一致性聚类:使用步骤3.1)的谱聚类算法进行50次聚类得到50次的划分形成划分矩阵后,运用谱聚类得到最终的聚类结果;
在步骤4)中,使用多集群特征选择方法MCFS通过全局相似度矩阵W按照上述谱聚类的做法得到特征向量矩阵后,特征向量反馈到原始数据的问题能够转换为一个一范数正则项的回归问题,根据回归得到的系数向量计算该特征的权重最终实现特征选择,回归模型如下:
其中,yk为第k个特征向量,X代表源数据矩阵,XT代表X的转置,αk是长度等于源数据矩阵特征的向量,即第k个特征向量对应的回归系数,||||代表向量的二范数即各个元素平方之和再开根号,||代表向量的一范数即各个元素绝对值之和,随后计算特征的MCFS分数αk,j即为αk的第j个元素;将所有特征的MCFS分数降序排列根据设定的阈值进行特征选择。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910174117.4A CN109994200B (zh) | 2019-03-08 | 2019-03-08 | 一种基于相似度融合的多组学癌症数据整合分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910174117.4A CN109994200B (zh) | 2019-03-08 | 2019-03-08 | 一种基于相似度融合的多组学癌症数据整合分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109994200A true CN109994200A (zh) | 2019-07-09 |
CN109994200B CN109994200B (zh) | 2021-01-19 |
Family
ID=67129504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910174117.4A Active CN109994200B (zh) | 2019-03-08 | 2019-03-08 | 一种基于相似度融合的多组学癌症数据整合分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109994200B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532304A (zh) * | 2019-09-06 | 2019-12-03 | 京东城市(北京)数字科技有限公司 | 数据处理方法及装置、计算机可读存储介质以及电子设备 |
CN111161882A (zh) * | 2019-12-04 | 2020-05-15 | 深圳先进技术研究院 | 一种基于深度神经网络的乳腺癌生存期预测方法 |
CN111223528A (zh) * | 2020-01-08 | 2020-06-02 | 华南理工大学 | 一种多组学数据聚类方法及装置 |
CN111785325A (zh) * | 2020-06-23 | 2020-10-16 | 西北工业大学 | 互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法 |
CN111816259A (zh) * | 2020-07-07 | 2020-10-23 | 西安电子科技大学 | 基于网络表示学习的不完整多组学数据集成方法 |
CN112190269A (zh) * | 2020-12-04 | 2021-01-08 | 兰州大学 | 基于多源脑电数据融合的抑郁症辅助识别模型构建方法 |
CN112687327A (zh) * | 2020-12-28 | 2021-04-20 | 中山依数科技有限公司 | 一种基于多任务和多模态的癌症生存分析系统 |
CN113035281A (zh) * | 2021-05-24 | 2021-06-25 | 浙江中科华知科技股份有限公司 | 医疗数据的处理方法及装置 |
CN113192556A (zh) * | 2021-03-17 | 2021-07-30 | 西北工业大学 | 基于小样本的多组学数据中基因型与表型关联分析方法 |
CN113450872A (zh) * | 2021-07-02 | 2021-09-28 | 南昌大学 | 磷酸化位点特异激酶的预测方法 |
CN113470829A (zh) * | 2021-07-23 | 2021-10-01 | 平安科技(深圳)有限公司 | 用户画像生成方法、装置、设备及存储介质 |
CN114741378A (zh) * | 2022-04-06 | 2022-07-12 | 广西师范大学 | 一种多数据源旅游目的地的数据中台系统及其方法 |
CN115018456A (zh) * | 2022-06-01 | 2022-09-06 | 常州机电职业技术学院 | 一种隐蔽工程跟踪审计的数据融合系统及其方法 |
CN116741397A (zh) * | 2023-08-15 | 2023-09-12 | 数据空间研究院 | 基于多组学数据融合的癌症分型方法、系统及存储介质 |
WO2024021037A1 (zh) * | 2022-07-29 | 2024-02-01 | 京东方科技集团股份有限公司 | 疾病分析方法、疾病分析模型的训练方法及装置 |
CN117807461A (zh) * | 2024-02-26 | 2024-04-02 | 中国计量科学研究院 | 一种基于大数据的威士忌酒产地溯源方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105023026A (zh) * | 2015-08-18 | 2015-11-04 | 苏州大学张家港工业技术研究院 | 一种基于非负矩阵分解的半监督聚类方法及系统 |
CN106529165A (zh) * | 2016-10-28 | 2017-03-22 | 合肥工业大学 | 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法 |
CN108509771A (zh) * | 2018-03-27 | 2018-09-07 | 华南理工大学 | 一种基于稀疏匹配的多组学数据关联关系发现方法 |
-
2019
- 2019-03-08 CN CN201910174117.4A patent/CN109994200B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105023026A (zh) * | 2015-08-18 | 2015-11-04 | 苏州大学张家港工业技术研究院 | 一种基于非负矩阵分解的半监督聚类方法及系统 |
CN106529165A (zh) * | 2016-10-28 | 2017-03-22 | 合肥工业大学 | 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法 |
CN108509771A (zh) * | 2018-03-27 | 2018-09-07 | 华南理工大学 | 一种基于稀疏匹配的多组学数据关联关系发现方法 |
Non-Patent Citations (2)
Title |
---|
BO WANG等: "Similarity network fusion for aggregating data types on a genomic scale", 《NATURE METHODS》 * |
DENG CAI等: "Unsupervised feature selection for multi-cluster data", 《PROCEEDINGS OF THE 16H ACM SIFKDD INTERNATIONAL CONFERENCE ON KNOWLEDGYE DISCOVERY AND DATA MINING》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532304A (zh) * | 2019-09-06 | 2019-12-03 | 京东城市(北京)数字科技有限公司 | 数据处理方法及装置、计算机可读存储介质以及电子设备 |
CN111161882A (zh) * | 2019-12-04 | 2020-05-15 | 深圳先进技术研究院 | 一种基于深度神经网络的乳腺癌生存期预测方法 |
CN111223528A (zh) * | 2020-01-08 | 2020-06-02 | 华南理工大学 | 一种多组学数据聚类方法及装置 |
CN111223528B (zh) * | 2020-01-08 | 2023-04-18 | 华南理工大学 | 一种多组学数据聚类方法及装置 |
CN111785325A (zh) * | 2020-06-23 | 2020-10-16 | 西北工业大学 | 互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法 |
CN111785325B (zh) * | 2020-06-23 | 2021-10-22 | 西北工业大学 | 互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法 |
CN111816259A (zh) * | 2020-07-07 | 2020-10-23 | 西安电子科技大学 | 基于网络表示学习的不完整多组学数据集成方法 |
CN111816259B (zh) * | 2020-07-07 | 2024-02-09 | 西安电子科技大学 | 基于网络表示学习的不完整多组学数据集成方法 |
CN112190269A (zh) * | 2020-12-04 | 2021-01-08 | 兰州大学 | 基于多源脑电数据融合的抑郁症辅助识别模型构建方法 |
CN112190269B (zh) * | 2020-12-04 | 2024-03-12 | 兰州大学 | 基于多源脑电数据融合的抑郁症辅助识别模型构建方法 |
CN112687327A (zh) * | 2020-12-28 | 2021-04-20 | 中山依数科技有限公司 | 一种基于多任务和多模态的癌症生存分析系统 |
CN112687327B (zh) * | 2020-12-28 | 2024-04-12 | 中山依数科技有限公司 | 一种基于多任务和多模态的癌症生存分析系统 |
CN113192556B (zh) * | 2021-03-17 | 2022-04-26 | 西北工业大学 | 基于小样本的多组学数据中基因型与表型关联分析方法 |
CN113192556A (zh) * | 2021-03-17 | 2021-07-30 | 西北工业大学 | 基于小样本的多组学数据中基因型与表型关联分析方法 |
CN113035281A (zh) * | 2021-05-24 | 2021-06-25 | 浙江中科华知科技股份有限公司 | 医疗数据的处理方法及装置 |
CN113450872A (zh) * | 2021-07-02 | 2021-09-28 | 南昌大学 | 磷酸化位点特异激酶的预测方法 |
CN113450872B (zh) * | 2021-07-02 | 2022-12-02 | 南昌大学 | 磷酸化位点特异激酶的预测方法 |
CN113470829A (zh) * | 2021-07-23 | 2021-10-01 | 平安科技(深圳)有限公司 | 用户画像生成方法、装置、设备及存储介质 |
CN114741378A (zh) * | 2022-04-06 | 2022-07-12 | 广西师范大学 | 一种多数据源旅游目的地的数据中台系统及其方法 |
CN115018456B (zh) * | 2022-06-01 | 2023-06-20 | 常州机电职业技术学院 | 一种隐蔽工程跟踪审计的数据融合系统及其方法 |
CN115018456A (zh) * | 2022-06-01 | 2022-09-06 | 常州机电职业技术学院 | 一种隐蔽工程跟踪审计的数据融合系统及其方法 |
WO2024021037A1 (zh) * | 2022-07-29 | 2024-02-01 | 京东方科技集团股份有限公司 | 疾病分析方法、疾病分析模型的训练方法及装置 |
CN116741397A (zh) * | 2023-08-15 | 2023-09-12 | 数据空间研究院 | 基于多组学数据融合的癌症分型方法、系统及存储介质 |
CN116741397B (zh) * | 2023-08-15 | 2023-11-03 | 数据空间研究院 | 基于多组学数据融合的癌症分型方法、系统及存储介质 |
CN117807461A (zh) * | 2024-02-26 | 2024-04-02 | 中国计量科学研究院 | 一种基于大数据的威士忌酒产地溯源方法及系统 |
CN117807461B (zh) * | 2024-02-26 | 2024-04-26 | 中国计量科学研究院 | 一种基于大数据的威士忌酒产地溯源方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109994200B (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109994200A (zh) | 一种基于相似度融合的多组学癌症数据整合分析方法 | |
Yang et al. | Subtype-GAN: a deep learning approach for integrative cancer subtyping of multi-omics data | |
CN104008165B (zh) | 一种基于网络拓扑结构和节点属性的社团检测方法 | |
CN105740651B (zh) | 一种特定癌症差异表达基因调控网络的构建方法 | |
CN108595916B (zh) | 基于生成对抗网络的基因表达全谱推断方法 | |
Riester et al. | A differentiation-based phylogeny of cancer subtypes | |
CN107301328B (zh) | 基于数据流聚类的癌症亚型精准发现与演化分析方法 | |
CN110473592A (zh) | 基于图卷积网络的有监督的多视角人类协同致死基因预测方法 | |
Hu et al. | Measuring the significance of community structure in complex networks | |
CN111223528B (zh) | 一种多组学数据聚类方法及装置 | |
CN110010195A (zh) | 一种探测单核苷酸突变的方法及装置 | |
CN106845536A (zh) | 一种基于图像缩放的并行聚类方法 | |
Rabier et al. | On the inference of complex phylogenetic networks by Markov Chain Monte-Carlo | |
CN108846261A (zh) | 基于可视图算法的基因表达时序数据分类方法 | |
Yuan et al. | SOTIP is a versatile method for microenvironment modeling with spatial omics data | |
CN113192556B (zh) | 基于小样本的多组学数据中基因型与表型关联分析方法 | |
CN109101783B (zh) | 一种基于概率模型的癌症网络标志物确定方法及系统 | |
Sun et al. | Multi-view biclustering for genotype-phenotype association studies of complex diseases | |
Jeng et al. | Gene expression analysis of combined RNA-seq experiments using a receiver operating characteristic calibrated procedure | |
Tu et al. | Joint reconstruction of multiple gene networks by simultaneously capturing inter-tumor and intra-tumor heterogeneity | |
George et al. | Selecting a separable parametric spatiotemporal covariance structure for longitudinal imaging data | |
WO2021142625A1 (zh) | 基于单细胞转录组测序数据预测细胞空间关系的方法 | |
CN110739028A (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
Paul | A feature weighting-assisted approach for cancer subtypes identification from paired expression profiles | |
Wu et al. | Association testing for binary trees—A Markov branching process approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |