CN111816259A - 基于网络表示学习的不完整多组学数据集成方法 - Google Patents
基于网络表示学习的不完整多组学数据集成方法 Download PDFInfo
- Publication number
- CN111816259A CN111816259A CN202010644047.7A CN202010644047A CN111816259A CN 111816259 A CN111816259 A CN 111816259A CN 202010644047 A CN202010644047 A CN 202010644047A CN 111816259 A CN111816259 A CN 111816259A
- Authority
- CN
- China
- Prior art keywords
- node
- omics
- samples
- similarity
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010354 integration Effects 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 47
- 230000006870 function Effects 0.000 claims abstract description 26
- 238000010276 construction Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 23
- 239000000126 substance Substances 0.000 claims description 22
- 230000007704 transition Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000005295 random walk Methods 0.000 claims description 9
- 239000012634 fragment Substances 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000006386 neutralization reaction Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 abstract 1
- 206010028980 Neoplasm Diseases 0.000 description 20
- 201000011510 cancer Diseases 0.000 description 20
- 238000004088 simulation Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000012800 visualization Methods 0.000 description 5
- 230000004083 survival effect Effects 0.000 description 4
- 108700011259 MicroRNAs Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 239000002679 microRNA Substances 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 208000030808 Clear cell renal carcinoma Diseases 0.000 description 2
- 230000007067 DNA methylation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000001325 log-rank test Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 208000006265 Renal cell carcinoma Diseases 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- DSKJPMWIHSOYEA-UHFFFAOYSA-N bupirimate Chemical compound CCCCC1=C(C)N=C(NCC)N=C1OS(=O)(=O)N(C)C DSKJPMWIHSOYEA-UHFFFAOYSA-N 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 206010073251 clear cell renal cell carcinoma Diseases 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003831 deregulation Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Probability & Statistics with Applications (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于网络表示学习的不完整多组学数据集成方法,用于解决现有技术无法利用所有缺失部分组学数据的样本的问题。实现步骤为,获取不完整多组学数据;构建基于组学xi的相似性网络Ai;生成节点序列的集合C;定义目标函数L;根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果。本发明根据不同组学对样本构建相似性网络,并通过在多个相似性网络上的交替地随机游走采样样本序列来融合不同网络的信息,最后根据随机游走得到的序列将样本嵌入到低维向量空间中。本发明在网络表示学习中通过随机游走策略来捕捉样本之间的相似性,解决了现有技术无法利用所有缺失部分组学数据的样本的问题。
Description
技术领域
本发明属于数据挖掘技术领域,涉及一种多组学数据集成方法,具体涉及一种基于网络表示学习的不完整多组学数据集成方法。
背景技术
随着基因测序等生物分子技术的飞速发展,TCGA、ICGC等数据库收集了大量癌症样本的不同组学数据(例如,基因组、表观组、转录组、蛋白组等)。由于癌症的发生和发展通常涉及多个组学层面的失调,与单组学数据分析相比,同时分析多个组学数据能够以系统生物学的视角理解癌症。癌症亚型识别、生存风险预测、癌症样本可视化等各个癌症研究领域,均依赖于多组学数据集成方法的特征提取和信息融合的能力。因此,需要一种集成多组学数据的有效信息的方法。
在2014年,Wang Bo等人在Nature Methods期刊第11卷第3期发表了论文“Similarity Network Fusion for Aggregating Data Types on a Genomic Scale”,该方法基于网络中的信息扩散理论,将由多组学产生的多个相似性网络融合为一个相似性网络,从而集成了多组学中的有效信息,集成结果为样本的相似性网络。
然而,在TCGA、ICGC等数据库中,癌症样本通常并不是拥有所有组学的数据(例如,在TCGA中的乳腺癌BRCA的数据中,1093个样本有mRNA表达特征,756个样本有microRNA表达特征,791个样本有甲基化特征,其中,同时拥有三个组学特征的样本只有624个),传统方法在集成多组学数据前需要对缺失组学的样本进行补值或过滤。缺失部分组学数据的样本的特点是在某些组学的上万维特征同时缺失,在这种情况下补值算法的性能通常较差,进而影响多组学数据集成方法的特征提取能力。由于癌症的组学数据中通常样本数远少于特征数,过滤大量的样本会降低多组学数据集成方法的统计能力,并且会在下游任务中增加假阳性发现的风险。因此,需要一种在集成多组学数据时能够利用缺失部分组学数据的样本的方法,这样的方法也称为不完整多组学数据集成方法。
在2019年Rappoport Nimrod和Shamir Ron在Bioinformatics期刊第35卷第18期发表了论文“NEMO:Cancer Subtyping by Integration of Partial Multi-omic Data”,该方法通过平均在不同相似性网络中可观测到的相似性的方式来整合多组学数据的信息,得到的集成结果为样本的相似性网络。然而,该方法有较严格的基本假设:要求任意一对样本至少在同一个的组学中同时出现。这使得当存在两个样本测量的组学数据没有交集时,该方法无法处理。
根据以上叙述,对多组学数据集成分析的问题而言,通常存在癌症样本量过少的问题,传统多组学数据集成方法在使用前需要过滤缺失部分组学的样本,而针对不完整多组学数据集成的现有技术NEMO仍然无法利用所有缺失部分组学数据的样本。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于网络表示学习的不完整多组学数据集成方法,旨在解决现有技术无法利用所有缺失部分组学数据的样本的问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取不完整多组学数据:
从TCGA数据库中获取包括样本集合F和组学集合X的不完整多组学数据U,F={fj|1≤j≤N},X={xi|1≤i≤M},其中,fj表示第j个样本,N表示样本的数量,N≥2,xi表示第i个包含ni个样本,且每个样本包含mi个特征的组学,M表示组学的个数,M≥1;
(2)构建基于组学xi的相似性网络Ai:
(2a)设xi中第x个样本和第y个样本分别为fa和fb,将fa和fb组成样本对(fa,fb),并根据各样本在组学xi的特征,计算fa和fb之间的欧式距离di(fa,fb),其中,1≤x≤ni,1≤y≤ni;
(2b)根据组学xi中fa与其它ni-1个样本的欧氏距离di(fa,·),以及fb与其它ni-1个样本的欧氏距离di(·,fb),对(fa,fb)的参数δi(fa,fb)进行估计:
(2c)根据δi(fa,fb)计算fa与fb的相似性si(fa,fb):
其中,exp(·)表示以自然常数为底数的幂运算;
(2d)根据组学xi中fa与其它ni-1个样本之间的相似性si(fa,·),计算fa到fb的局部转移概率pi(fa,fb),并将pi(fa,fb)放入转移概率矩阵Pi中的(x,y)位置,其中,转移概率矩阵Pi为ni×ni的矩阵,pi(fa,fb)的计算公式为:
(2e)根据概率转移矩阵Pi,计算相似性矩阵Qi,并以fa和fb为节点,以Qi中fa与fb的相似性qi(fa,fb)为边,构建基于组学xi的有权无向的相似性网络Ai,则M个相似性网络组成的相似性网络集合为A={Ai|1≤i≤M},其中Qi的计算公式为:
其中,(·)n表示矩阵的n次方,n≥1,(·)T表示矩阵转置;
(3)生成节点序列的集合C:
从每个节点fj出发,在相似性网络集合A中的M个相似性网络中进行γ次路径长度为l的随机游走,得到N×γ个序列的集合C,其中,从每个节点出发的序列为γ条,每个序列的长度为l,l≥3;
(4)定义目标函数L:
(4a)设每个节点fj的嵌入空间向量为wj,辅助向量为θj,其中,θj和wj均为d维向量,d>1;
(4d)根据pos和neg,定义基于窗口win的目标函数L:
(5)根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果:
(5a)统计每个节点fj在集合C中出现的频率fqj;
(5b)定义在任意序列上从左向右滑动的滑动窗口,窗口的长度为2c+1,步长为1,滑动次数为l-2c-1;
(5c)初始化每个节点fj的嵌入空间向量wj和辅助向量θj为随机噪声,设在集合C中已抽取的序列个数为ns,初始化ns为0;
(5d)从C中无放回地随机抽取一个序列seq,初始化iter为0,其中,iter为滑动窗口在序列seq上已滑动的次数;
(5g)判断iter=l-2c-1是否成立,若是,则得到处理完ns+1个序列后的节点fj的嵌入空间向量wj和辅助向量为θj,否则,令iter=iter+1,并执行步骤(5e);
(5h)判断ns=N×γ是否成立,若是,则得到每个节点fj的低维向量表示wj,即,不完整多组学数据集成结果,否则,令ns=ns+1,并执行步骤(5d)。
本发明与现有技术相比,具有如下优点:
1.本发明通过在多个相似性网络上交替地随机游走,将多个相似性网络中的拓扑结构信息融合到序列中,然后将节点嵌入到低维向量空间中,在两个样本没有任何公共的组学数据的情况下,它们之间的相似性仍然可以由它们分别所在的相似性网络中的其他节点为媒介通过随机游走的信息传递而得到,与现有技术相比,能够利用所有缺失部分组学数据的样本。
2.本发明在多个相似性网络上交替地随机游走的过程中,每一步游走只需要当前所选中的相似性网络中的边的权重,而无需比较不同相似性网络中边的权重,提取的潜在特征更合理,解决了不同相似性网络中边权的分布和数值尺度不同对集成方法带来影响的问题,与现有技术相比,降低了下游任务中假阳性发现的潜在风险。
3.本发明在将样本嵌入到低维向量空间的步骤中,采用了滑动窗口的策略,能够在集成时考虑到样本在相似性网络中的高阶相似性。与现有技术直接平均根据不同组学计算的相似性的策略相比,在集成后的低维向量空间中能够保留更丰富的样本相似性信息,进而提升癌症亚型识别、样本可视化等下游任务的效果。
4.本发明通过将多组学的信息融合后嵌入到低维向量空间的方案,得到样本的低维向量表示,由于目前针对向量空间的可视化技术更丰富,与现有技术相比,集成结果可以方便地进行可视化。
附图说明
图1为本发明的实现流程图;
图2为本发明的集成结果的T-SNE可视化图;
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明包括如下步骤:
步骤1)获取不完整多组学数据:
从TCGA数据库中获取包括样本集合F和组学集合X的不完整多组学数据U,F={fj|1≤j≤N},X={xi|1≤i≤M},其中,fj表示第j个样本,N表示样本的数量,N≥2,xi表示第i个包含ni个样本,且每个样本包含mi个特征的组学,M表示组学的个数,M≥1;
在本实施例中,使用的数据为经过Rappoport Nimrod等人预处理的TCGA中的肾透明细胞癌KIRC的三个组学数据,分别为基因表达数据(533个样本,20531个特征),DNA甲基化数据(319个样本,5000个特征),microRNA表达数据(257个样本,1046个特征),总样本数为534。因此,M为3,n1为533,n2为319,n3为257,m1为20531,m2为5000,m3为1046,N为534。该数据集的下载链接为http://acgt.cs.tau.ac.il/multi_omic_benchmark/download.html。
步骤2)构建基于组学xi的相似性网络Ai:
步骤2a)设xi中第x个样本和第y个样本分别为fa和fb,将fa和fb组成样本对(fa,fb),并根据各样本在组学xi的特征,计算fa和fb之间的欧式距离di(fa,fb),其中,1≤x≤ni,1≤y≤ni;
fa和fb之间的欧式距离di(fa,fb),计算公式为:
步骤2b)根据组学xi中fa与其它ni-1个样本的欧氏距离di(fa,·),以及fb与其它ni-1个样本的欧氏距离di(·,fb),对(fa,fb)的参数δi(fa,fb)进行估计:
k的取值范围原则上是1到ni中的任意整数,但由于k的含义是划分局部邻居的阈值,在区间[10,40)中取值时效果比较好,因此本实例中取k为20。
步骤2c)根据δi(fa,fb)计算fa与fb的相似性si(fa,fb):
其中,exp(·)表示以自然常数为底数的幂运算;
由于高斯核的普适性和通用性,本发明使用高斯核度量fa与fb的基于组学xi的相似性si(fa,fb)。受到多核学习的启发,空间中的样本分布的局部密度不同,整个空间中样本的密度不同,度量样本之间的相似性时不使用统一的核函数,在步骤2b)中根据fa与fb所在局部空间的样本平均距离和fa与fb估计高斯核的方差参数δi(fa,fb)。
步骤2d)根据组学xi中fa与其它ni-1个样本之间的相似性si(fa,·),计算fa到fb的局部转移概率pi(fa,fb),并将pi(fa,fb)放入转移概率矩阵Pi中的(x,y)位置,其中,转移概率矩阵Pi为ni×ni的矩阵,pi(fa,fb)的计算公式为:
步骤2e)根据概率转移矩阵Pi,计算相似性矩阵Qi,并以fa和fb为节点,以Qi中fa与fb的相似性qi(fa,fb)为边,构建基于组学xi的有权无向的相似性网络Ai,则M个相似性网络组成的相似性网络集合为A={Ai|1≤i≤M},其中Qi的计算公式为:
其中,(·)n表示矩阵的n次方,n≥1,(·)T表示矩阵转置;
受流型学习启发,在高维空间中的样本点通常分布于非线性低维流型上,在局部空间的流型表面可以近似为欧式空间,而对距离较远的样本直接使用基于欧式距离的高斯核相似性不能很好地度量样本之间的相似性。因此,本发明将局部相似性转化为局部转移概率,然后通过转移概率矩阵的n次方估计由流型表面的样本传播而得到的相似性度量。由于概率转移矩阵通常满足不可约性和非周期性,因此当n足够大时,Pn会趋于收敛。简单起见,在本实例中将n设置为32。
步骤3)生成节点序列的集合C:
从每个节点fj出发,在相似性网络集合A中的M个相似性网络中进行γ次路径长度为l的随机游走,得到N×γ个序列的集合C,其中,从每个节点出发的序列为γ条,每个序列的长度为l,l≥3;
步骤3a)初始化序列seq为空,当前节点cur为fj,其中,seq表示从节点fj出发的通过随机游走产生的一条节点的序列;
步骤3b)将当前节点cur加入到序列seq的末尾;
步骤3c)以均匀概率分布从A中包含当前节点的网络中随机选择一个网络,得到当前网络;
步骤3d)在当前网络中与当前节点cur相连的所有节点中,以与当前节点cur连边的权重为概率分布,随机选择一个节点fr,并更新当前节点cur为fr;
步骤3e)判断|seq|=l是否成立,若是,则得到一条从节点fu出发的包含l个节点的序列,否则,执行步骤3a2),其中,|seq|表示序列seq的长度;
本发明的核心步骤是步骤3),该步骤通过固定长度的、在多个网络中跳转的随机游走方式将多个相似性网络中的样本相似性转化为样本在同一个序列的局部范围内的共现概率。并且通过该步骤得到了缺失了某些组学特征的样本与其他样本之间的相似性(以共现概率的形式隐含在序列的集合中)。序列的长度l设置为20,从每个节点出发的序列个数γ设置为100,γ的值设置的越大,嵌入空间中保留的网络拓扑信息越多,但运行时间也会相应增加。
步骤4)定义目标函数L:
步骤4a)设每个节点fj的嵌入空间向量为wj,辅助向量为θj,其中,θj和wj均为d维向量,d>1;
步骤4d)根据pos和neg,定义基于窗口win的目标函数L:
该目标函数的目的是求解一个从将网络中节点到低维向量的映射,该映射通过最大化在步骤3)中的集合C中的序列上的窗口内的样本共现概率信息来在低维空间中保留样本之间的相似性。
步骤5)根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果:
步骤5a)统计每个节点fj在集合C中出现的频率fqj;
计算公式为:
其中,I(·)为指示函数,seqt为序列seq中的第t个节点。
步骤5b)定义在任意序列上从左向右滑动的滑动窗口,窗口的长度为2c+1,步长为1,滑动次数为l-2c-1;
步骤5c)初始化每个节点fj的嵌入空间向量wj和辅助向量θj为随机噪声,设在集合C中已抽取的序列个数为ns,初始化ns为0;
其随机噪声采用Python语言中的第三方库NumPy所包含的random_normal函数生成。
步骤5d)从C中无放回地随机抽取一个序列seq,初始化iter为0,其中,iter为滑动窗口在序列seq上已滑动的次数;
窗口的长度一般设置为小于序列长度并且大于3的奇数,在本实例中设置为9。
更新公式为:
其中,η为学习率,η>0。
梯度下降是指,在每一步中通过对目标函数Lns,iter求偏导得到每个参数向量的梯度,然后将每个参数在空间中向负梯度方向进行更新,更新的步长称为学习率η,通常设置0.001。
步骤5g)判断iter=l-2c-1是否成立,若是,则得到处理完ns+1个序列后的节点fj的嵌入空间向量wj和辅助向量为θj,否则,令iter=iter+1,并执行步骤5e);
步骤5h)判断ns=N×γ是否成立,若是,则得到每个节点fj的低维向量表示wj,即,不完整多组学数据集成结果,否则,令ns=ns+1,并执行步骤5d)。
以下结合附图和具体实施例,对本发明作进一步详细描述,需要说明的是本发明保护的客体不属于疾病的诊断与治疗方法,也不属于智力活动规则。
1、仿真条件和内容:
在本仿真实验中,使用的计算机内存为8G,CPU为intel(R)Core(TM)i7-9700F,操作系统为Windows 10,本发明所使用的软件环境为Python 3.6,现有方法所使用的软件环境为Rstudio。实验数据采用Rappoport Nimrod和Shamir Ron在2018年发表在NucleicAcids Research期刊上的综述论文“Multi-omic and multi-view clusteringalgorithms:review and cancer benchmark”中所公开的肾透明细胞癌KIRC的多组学数据,其中包含基因表达数据(533个样本),DNA甲基化数据(319个样本),microRNA表达数据(257个样本)。选用该数据的原因是,一方面该数据在高水平期刊的综述中用于对比不同数据集成方法性能,另一方面,该数据集是不完整多组学数据集,能够更好地说明本发明的优点。由于现有方法NEMO的严格假设,而该多组学数据不满足现有方法NEMO的基本假设,因此,在本实验中,运行NEMO前先将缺失组学的样本过滤掉,仅保留完整的多组学数据。由于本发明的优点1,本实验直接在该不完整多组学数据上应用本发明的方法。在与聚类有关的仿真实验中,在本发明的集成结果上使用的K均值聚类算法,而在现有方法NEMO的集成结果上,采用的谱聚类算法,这是由于本发明的集成结果是在向量空间中的表示,而现有方法NEMO的集成结果是相似性矩阵的形式。K均值算法是在向量空间中常用的聚类算法,而谱聚类是在相似性矩阵上常用的聚类算法。由于癌症亚型没有所谓的真正的“类别个数”,设置类别个数多,则可以研究更细节的结构,设置类别个数少可以研究总体上的结构,即使是在已经有充分研究的癌症上,样本集合也不一定由所有癌症亚型组成。因此,在与聚类有关的仿真一和仿真二中,聚类个数从2到9依次遍历。仿真三是对本发明的集成结果可视化的实验。
仿真一:分别运行本发明的方法和现有方法NEMO,在各自的集成结果上对癌症样本进行聚类,聚类的个数从2到9进行遍历。比较聚类结果所识别的癌症亚型之间是否有显著的生存风险差异,生存风险差异的度量使用对数秩检验(log-rank test)的P值,为了方便统计,本实验对每个结果均记录-log10P,其中,P值小于0.05等价于-log10P大于1.301。
仿真二:分别运行本发明的方法和现有方法,在各自的集成结果上对癌症样本进行聚类,聚类的个数从2到9进行遍历。比较聚类结果所识别的癌症亚型是否能够显著的富集到样本的年龄、性别、T分期、M分期、N分期、癌症发展阶段等六个重要的临床信息。对于离散型临床变量,本实验通过卡方检验的-log10P是否大于1.301来判断癌症亚型识别结果是否显著富集于该临床信息。对连续型临床变量,本实验通过克鲁斯卡尔-沃利斯检验的-log10P是否大于1.301来判断癌症亚型识别结果是否显著富集于该临床信息。
仿真三:使用T-SNE算法将本发明在KIRC上的集成结果从100维降到2维,并在直角坐标系中进行可视化,其中,T-SNE是一个常用的可视化算法。
2、仿真结果分析:
表1在不同聚类个数时对数秩检验的-log10P
从表1可以看出,本发明通过对缺失部分组学的样本的利用,提取出了有效的潜在特征信息,与现有方法相比,可以发现有更显著的生存风险差异的癌症亚型。
表2在聚类个数不同时显著富集的临床参数个数
聚类个数 | 现有技术 | 本发明 |
2 | 3 | 1 |
3 | 2 | 3 |
4 | 2 | 4 |
5 | 3 | 3 |
6 | 1 | 4 |
7 | 1 | 4 |
8 | 1 | 4 |
9 | 2 | 3 |
平均值 | 1.875 | 3.25 |
最大值 | 3 | 4 |
从表2可以看出,在8个不同的聚类个数下,本发明的临床参数富集个数仅在聚类个数为2时低于现有技术的结果,在聚类个数为5时等于现有技术的结果,而在其他聚类个数下本发明的结果均好于现有技术。从所有聚类个数情况下指标的平均值和最大值来看,本发明也明显比现有技术表现的更好。
图2为本发明的集成结果的可视化效果,从该图可以看出,本发明的集成结果可以很好的捕捉到基于不完整多组学数据的样本之间的关系,不同结构之间的样本距离较远,联系松散,同一结构中的样本距离较近,联系紧密。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (6)
1.一种基于网络表示学习的不完整多组学数据集成方法,其特征在于,包括如下步骤:
(1)获取不完整多组学数据:
从TCGA数据库中获取包括样本集合F和组学集合X的不完整多组学数据U,F={fj|1≤j≤N},X={xi|1≤i≤M},其中,fj表示第j个样本,N表示样本的数量,N≥2,xi表示第i个包含ni个样本,且每个样本包含mi个特征的组学,M表示组学的个数,M≥1;
(2)构建基于组学xi的相似性网络Ai:
(2a)设xi中第x个样本和第y个样本分别为fa和fb,将fa和fb组成样本对(fa,fb),并根据各样本在组学xi的特征,计算fa和fb之间的欧式距离di(fa,fb),其中,1≤x≤ni,1≤y≤ni;
(2b)根据组学xi中fa与其它ni-1个样本的欧氏距离di(fa,·),以及fb与其它ni-1个样本的欧氏距离di(·,fb),对(fa,fb)的参数δi(fa,fb)进行估计:
(2c)根据δi(fa,fb)计算fa与fb的相似性si(fa,fb):
其中,exp(·)表示以自然常数为底数的幂运算;
(2d)根据组学xi中fa与其它ni-1个样本之间的相似性si(fa,·),计算fa到fb的局部转移概率pi(fa,fb),并将pi(fa,fb)放入转移概率矩阵Pi中的(x,y)位置,其中,转移概率矩阵Pi为ni×ni的矩阵,pi(fa,fb)的计算公式为:
(2e)根据概率转移矩阵Pi,计算相似性矩阵Qi,并以fa和fb为节点,以Qi中fa与fb的相似性qi(fa,fb)为边,构建基于组学xi的有权无向的相似性网络Ai,则M个相似性网络组成的相似性网络集合为A={Ai|1≤i≤M},其中Qi的计算公式为:
其中,(·)n表示矩阵的n次方,n≥1,(·)T表示矩阵转置;
(3)生成节点序列的集合C:
从每个节点fj出发,在相似性网络集合A中的M个相似性网络中进行γ次路径长度为l的随机游走,得到N×γ个序列的集合C,其中,从每个节点出发的序列为γ条,每个序列的长度为l,l≥3;
(4)定义目标函数L:
(4a)设每个节点fj的嵌入空间向量为wj,辅助向量为θj,其中,θj和wj均为d维向量,d>1;
(4d)根据pos和neg,定义基于窗口win的目标函数L:
(5)根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果:
(5a)统计每个节点fj在集合C中出现的频率fqj;
(5b)定义在任意序列上从左向右滑动的滑动窗口,窗口的长度为2c+1,步长为1,滑动次数为l-2c-1;
(5c)初始化每个节点fj的嵌入空间向量wj和辅助向量θj为随机噪声,设在集合C中已抽取的序列个数为ns,初始化ns为0;
(5d)从C中无放回地随机抽取一个序列seq,初始化iter为0,其中,iter为滑动窗口在序列seq上已滑动的次数;
(5g)判断iter=l-2c-1是否成立,若是,则得到处理完ns+1个序列后的节点fj的嵌入空间向量wj和辅助向量为θj,否则,令iter=iter+1,并执行步骤(5e);
(5h)判断ns=N×γ是否成立,若是,则得到每个节点fj的低维向量表示wj,即,不完整多组学数据集成结果,否则,令ns=ns+1,并执行步骤(5d)。
3.根据权利要求1所述的基于网络表示学习的不完整多组学数据集成方法,其特征在于,步骤(3)中所述的从每个节点fj出发,在相似性网络集合A中的M个相似性网络中进行γ次路径长度为l的随机游走,随机游走的具体步骤为:
(3a)初始化序列seq为空,当前节点cur为fj,其中,seq表示从节点fj出发的通过随机游走产生的一条节点的序列;
(3b)将当前节点cur加入到序列seq的末尾;
(3c)以均匀概率分布从A中包含当前节点的网络中随机选择一个网络,得到当前网络;
(3d)在当前网络中与当前节点cur相连的所有节点中,以与当前节点cur连边的权重为概率分布,随机选择一个节点fr,并更新当前节点cur为fr;
(3e)判断|seq|=l是否成立,若是,则得到一条从节点fu出发的包含l个节点的序列,否则,执行步骤(3a2),其中,|seq|表示序列seq的长度;
5.根据权利要求1所述的基于网络表示学习的不完整多组学数据集成方法,其特征在于,步骤(5f)中所述的初始化每个节点fj的嵌入空间向量wj和辅助向量θj为随机噪声,其随机噪声采用Python语言中的第三方库NumPy所包含的random_normal函数生成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010644047.7A CN111816259B (zh) | 2020-07-07 | 2020-07-07 | 基于网络表示学习的不完整多组学数据集成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010644047.7A CN111816259B (zh) | 2020-07-07 | 2020-07-07 | 基于网络表示学习的不完整多组学数据集成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111816259A true CN111816259A (zh) | 2020-10-23 |
CN111816259B CN111816259B (zh) | 2024-02-09 |
Family
ID=72841796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010644047.7A Active CN111816259B (zh) | 2020-07-07 | 2020-07-07 | 基于网络表示学习的不完整多组学数据集成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111816259B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115064266A (zh) * | 2022-07-21 | 2022-09-16 | 山东大学 | 基于不完整多组学数据的癌症诊断系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109994200A (zh) * | 2019-03-08 | 2019-07-09 | 华南理工大学 | 一种基于相似度融合的多组学癌症数据整合分析方法 |
CN110246550A (zh) * | 2019-06-12 | 2019-09-17 | 西安电子科技大学 | 基于药物相似性网络数据的药物组合预测方法 |
WO2020113673A1 (zh) * | 2018-12-07 | 2020-06-11 | 深圳先进技术研究院 | 一种基于多组学集成的癌症亚型分类方法 |
CN111325326A (zh) * | 2020-02-21 | 2020-06-23 | 北京工业大学 | 一种基于异质网络表示学习的链路预测方法 |
-
2020
- 2020-07-07 CN CN202010644047.7A patent/CN111816259B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020113673A1 (zh) * | 2018-12-07 | 2020-06-11 | 深圳先进技术研究院 | 一种基于多组学集成的癌症亚型分类方法 |
CN109994200A (zh) * | 2019-03-08 | 2019-07-09 | 华南理工大学 | 一种基于相似度融合的多组学癌症数据整合分析方法 |
CN110246550A (zh) * | 2019-06-12 | 2019-09-17 | 西安电子科技大学 | 基于药物相似性网络数据的药物组合预测方法 |
CN111325326A (zh) * | 2020-02-21 | 2020-06-23 | 北京工业大学 | 一种基于异质网络表示学习的链路预测方法 |
Non-Patent Citations (2)
Title |
---|
刘思;刘海;陈启买;贺超波;: "基于网络表示学习与随机游走的链路预测算法", 计算机应用, no. 08 * |
张媛媛;王子琪;寇传华;: "基于多源数据融合的复杂疾病建模方法研究", 数学建模及其应用, no. 04 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115064266A (zh) * | 2022-07-21 | 2022-09-16 | 山东大学 | 基于不完整多组学数据的癌症诊断系统 |
CN115064266B (zh) * | 2022-07-21 | 2024-04-26 | 山东大学 | 基于不完整多组学数据的癌症诊断系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111816259B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109994200B (zh) | 一种基于相似度融合的多组学癌症数据整合分析方法 | |
Archer et al. | Empirical characterization of random forest variable importance measures | |
CN111899882B (zh) | 一种预测癌症的方法及系统 | |
US20030224344A1 (en) | Method and system for clustering data | |
US20230222311A1 (en) | Generating machine learning models using genetic data | |
Wang et al. | imDC: an ensemble learning method for imbalanced classification with miRNA data | |
CN114424287A (zh) | 单细胞rna-seq数据处理 | |
Daoudi et al. | Parallel diffrential evolution clustering algorithm based on mapreduce | |
CN110782948A (zh) | 基于约束概率矩阵分解方法预测miRNA与疾病的潜在关联 | |
Shi et al. | Sparse discriminant analysis for breast cancer biomarker identification and classification | |
CN115798598A (zh) | 一种基于超图的miRNA-疾病关联预测模型及方法 | |
Filosi et al. | Stability indicators in network reconstruction | |
Babichev et al. | An effectiveness evaluation of information technology of gene expression profiles processing for gene networks reconstruction | |
CN109192246B (zh) | 检测染色体拷贝数异常的方法、装置和存储介质 | |
CN111816259B (zh) | 基于网络表示学习的不完整多组学数据集成方法 | |
Elkhani et al. | Membrane computing inspired feature selection model for microarray cancer data | |
Wu | On biological validity indices for soft clustering algorithms for gene expression data | |
CN110739028B (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
Li et al. | Frequent pattern discovery in multiple biological networks: Patterns and algorithms | |
Wang et al. | The graph-guided group lasso for genome-wide association studies | |
CN110517724A (zh) | 利用单细胞转录和基因敲除数据推断基因调控网络的方法 | |
Nagi et al. | Cluster analysis of cancer data using semantic similarity, sequence similarity and biological measures | |
Sevugapandi et al. | Classification algorithm for Gene Expression Graph and Manhattan Distance | |
Duan et al. | Similarity network fusion based on local scaling affinity construction | |
Sîrbu et al. | Dynamic clustering of gene expression data using a fuzzy approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |