CN111816259A - 基于网络表示学习的不完整多组学数据集成方法 - Google Patents

基于网络表示学习的不完整多组学数据集成方法 Download PDF

Info

Publication number
CN111816259A
CN111816259A CN202010644047.7A CN202010644047A CN111816259A CN 111816259 A CN111816259 A CN 111816259A CN 202010644047 A CN202010644047 A CN 202010644047A CN 111816259 A CN111816259 A CN 111816259A
Authority
CN
China
Prior art keywords
node
omics
samples
similarity
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010644047.7A
Other languages
English (en)
Other versions
CN111816259B (zh
Inventor
高琳
许晗
段然
黄明凤
宋阔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010644047.7A priority Critical patent/CN111816259B/zh
Publication of CN111816259A publication Critical patent/CN111816259A/zh
Application granted granted Critical
Publication of CN111816259B publication Critical patent/CN111816259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于网络表示学习的不完整多组学数据集成方法,用于解决现有技术无法利用所有缺失部分组学数据的样本的问题。实现步骤为,获取不完整多组学数据;构建基于组学xi的相似性网络Ai;生成节点序列的集合C;定义目标函数L;根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果。本发明根据不同组学对样本构建相似性网络,并通过在多个相似性网络上的交替地随机游走采样样本序列来融合不同网络的信息,最后根据随机游走得到的序列将样本嵌入到低维向量空间中。本发明在网络表示学习中通过随机游走策略来捕捉样本之间的相似性,解决了现有技术无法利用所有缺失部分组学数据的样本的问题。

Description

基于网络表示学习的不完整多组学数据集成方法
技术领域
本发明属于数据挖掘技术领域,涉及一种多组学数据集成方法,具体涉及一种基于网络表示学习的不完整多组学数据集成方法。
背景技术
随着基因测序等生物分子技术的飞速发展,TCGA、ICGC等数据库收集了大量癌症样本的不同组学数据(例如,基因组、表观组、转录组、蛋白组等)。由于癌症的发生和发展通常涉及多个组学层面的失调,与单组学数据分析相比,同时分析多个组学数据能够以系统生物学的视角理解癌症。癌症亚型识别、生存风险预测、癌症样本可视化等各个癌症研究领域,均依赖于多组学数据集成方法的特征提取和信息融合的能力。因此,需要一种集成多组学数据的有效信息的方法。
在2014年,Wang Bo等人在Nature Methods期刊第11卷第3期发表了论文“Similarity Network Fusion for Aggregating Data Types on a Genomic Scale”,该方法基于网络中的信息扩散理论,将由多组学产生的多个相似性网络融合为一个相似性网络,从而集成了多组学中的有效信息,集成结果为样本的相似性网络。
然而,在TCGA、ICGC等数据库中,癌症样本通常并不是拥有所有组学的数据(例如,在TCGA中的乳腺癌BRCA的数据中,1093个样本有mRNA表达特征,756个样本有microRNA表达特征,791个样本有甲基化特征,其中,同时拥有三个组学特征的样本只有624个),传统方法在集成多组学数据前需要对缺失组学的样本进行补值或过滤。缺失部分组学数据的样本的特点是在某些组学的上万维特征同时缺失,在这种情况下补值算法的性能通常较差,进而影响多组学数据集成方法的特征提取能力。由于癌症的组学数据中通常样本数远少于特征数,过滤大量的样本会降低多组学数据集成方法的统计能力,并且会在下游任务中增加假阳性发现的风险。因此,需要一种在集成多组学数据时能够利用缺失部分组学数据的样本的方法,这样的方法也称为不完整多组学数据集成方法。
在2019年Rappoport Nimrod和Shamir Ron在Bioinformatics期刊第35卷第18期发表了论文“NEMO:Cancer Subtyping by Integration of Partial Multi-omic Data”,该方法通过平均在不同相似性网络中可观测到的相似性的方式来整合多组学数据的信息,得到的集成结果为样本的相似性网络。然而,该方法有较严格的基本假设:要求任意一对样本至少在同一个的组学中同时出现。这使得当存在两个样本测量的组学数据没有交集时,该方法无法处理。
根据以上叙述,对多组学数据集成分析的问题而言,通常存在癌症样本量过少的问题,传统多组学数据集成方法在使用前需要过滤缺失部分组学的样本,而针对不完整多组学数据集成的现有技术NEMO仍然无法利用所有缺失部分组学数据的样本。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于网络表示学习的不完整多组学数据集成方法,旨在解决现有技术无法利用所有缺失部分组学数据的样本的问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取不完整多组学数据:
从TCGA数据库中获取包括样本集合F和组学集合X的不完整多组学数据U,F={fj|1≤j≤N},X={xi|1≤i≤M},其中,fj表示第j个样本,N表示样本的数量,N≥2,xi表示第i个包含ni个样本,且每个样本包含mi个特征的组学,M表示组学的个数,M≥1;
(2)构建基于组学xi的相似性网络Ai
(2a)设xi中第x个样本和第y个样本分别为fa和fb,将fa和fb组成样本对(fa,fb),并根据各样本在组学xi的特征,计算fa和fb之间的欧式距离di(fa,fb),其中,1≤x≤ni,1≤y≤ni
(2b)根据组学xi中fa与其它ni-1个样本的欧氏距离di(fa,·),以及fb与其它ni-1个样本的欧氏距离di(·,fb),对(fa,fb)的参数δi(fa,fb)进行估计:
Figure BDA0002572459440000021
其中,
Figure BDA0002572459440000031
表示di(fa,·)中距离fa最近的前k个样本的集合,
Figure BDA0002572459440000032
表示di(·,fb)中距离fb最近的前k个样本的集合,
Figure BDA0002572459440000033
Figure BDA0002572459440000034
分别表示
Figure BDA0002572459440000035
Figure BDA0002572459440000036
中的任意样本,1≤k≤ni
(2c)根据δi(fa,fb)计算fa与fb的相似性si(fa,fb):
Figure BDA0002572459440000037
其中,exp(·)表示以自然常数为底数的幂运算;
(2d)根据组学xi中fa与其它ni-1个样本之间的相似性si(fa,·),计算fa到fb的局部转移概率pi(fa,fb),并将pi(fa,fb)放入转移概率矩阵Pi中的(x,y)位置,其中,转移概率矩阵Pi为ni×ni的矩阵,pi(fa,fb)的计算公式为:
Figure BDA0002572459440000038
其中,
Figure BDA0002572459440000039
表示si(fa,·)中与fa最相似的前k个样本的集合,fz表示
Figure BDA00025724594400000310
中的任意样本;
(2e)根据概率转移矩阵Pi,计算相似性矩阵Qi,并以fa和fb为节点,以Qi中fa与fb的相似性qi(fa,fb)为边,构建基于组学xi的有权无向的相似性网络Ai,则M个相似性网络组成的相似性网络集合为A={Ai|1≤i≤M},其中Qi的计算公式为:
Figure BDA00025724594400000311
其中,(·)n表示矩阵的n次方,n≥1,(·)T表示矩阵转置;
(3)生成节点序列的集合C:
从每个节点fj出发,在相似性网络集合A中的M个相似性网络中进行γ次路径长度为l的随机游走,得到N×γ个序列的集合C,其中,从每个节点出发的序列为γ条,每个序列的长度为l,l≥3;
(4)定义目标函数L:
(4a)设每个节点fj的嵌入空间向量为wj,辅助向量为θj,其中,θj和wj均为d维向量,d>1;
(4b)设任意窗口包含的样本序列片段
Figure BDA0002572459440000041
则定义正样本集合
Figure BDA0002572459440000042
其中,3≤2c+1≤l;
(4c)设负样本集合为
Figure BDA0002572459440000043
其中,β>0;
(4d)根据pos和neg,定义基于窗口win的目标函数L:
Figure BDA0002572459440000044
其中,log(·)表示以自然常数为底数的对数,∪表示集合的并,fe表示集合pos和集合neg的并集pos∪neg中的任意样本,
Figure BDA0002572459440000045
σ(·)为Sigmoid函数,
Figure BDA0002572459440000046
表示向量
Figure BDA0002572459440000047
和向量θe的内积;
(5)根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果:
(5a)统计每个节点fj在集合C中出现的频率fqj
(5b)定义在任意序列上从左向右滑动的滑动窗口,窗口的长度为2c+1,步长为1,滑动次数为l-2c-1;
(5c)初始化每个节点fj的嵌入空间向量wj和辅助向量θj为随机噪声,设在集合C中已抽取的序列个数为ns,初始化ns为0;
(5d)从C中无放回地随机抽取一个序列seq,初始化iter为0,其中,iter为滑动窗口在序列seq上已滑动的次数;
(5e)根据当前窗口内包含的序列片段
Figure BDA0002572459440000048
计算目标函数Lns,iter的值,其中,Lns,iter表示基于第ns个序列中的第iter个滑动窗口的目标函数;
(5f)根据目标函数Lns,iter,采用梯度下降法对neg和pos中每个节点fe的辅助向量θe进行更新,并对样本
Figure BDA0002572459440000051
的嵌入空间向量
Figure BDA0002572459440000052
进行更新;
(5g)判断iter=l-2c-1是否成立,若是,则得到处理完ns+1个序列后的节点fj的嵌入空间向量wj和辅助向量为θj,否则,令iter=iter+1,并执行步骤(5e);
(5h)判断ns=N×γ是否成立,若是,则得到每个节点fj的低维向量表示wj,即,不完整多组学数据集成结果,否则,令ns=ns+1,并执行步骤(5d)。
本发明与现有技术相比,具有如下优点:
1.本发明通过在多个相似性网络上交替地随机游走,将多个相似性网络中的拓扑结构信息融合到序列中,然后将节点嵌入到低维向量空间中,在两个样本没有任何公共的组学数据的情况下,它们之间的相似性仍然可以由它们分别所在的相似性网络中的其他节点为媒介通过随机游走的信息传递而得到,与现有技术相比,能够利用所有缺失部分组学数据的样本。
2.本发明在多个相似性网络上交替地随机游走的过程中,每一步游走只需要当前所选中的相似性网络中的边的权重,而无需比较不同相似性网络中边的权重,提取的潜在特征更合理,解决了不同相似性网络中边权的分布和数值尺度不同对集成方法带来影响的问题,与现有技术相比,降低了下游任务中假阳性发现的潜在风险。
3.本发明在将样本嵌入到低维向量空间的步骤中,采用了滑动窗口的策略,能够在集成时考虑到样本在相似性网络中的高阶相似性。与现有技术直接平均根据不同组学计算的相似性的策略相比,在集成后的低维向量空间中能够保留更丰富的样本相似性信息,进而提升癌症亚型识别、样本可视化等下游任务的效果。
4.本发明通过将多组学的信息融合后嵌入到低维向量空间的方案,得到样本的低维向量表示,由于目前针对向量空间的可视化技术更丰富,与现有技术相比,集成结果可以方便地进行可视化。
附图说明
图1为本发明的实现流程图;
图2为本发明的集成结果的T-SNE可视化图;
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明包括如下步骤:
步骤1)获取不完整多组学数据:
从TCGA数据库中获取包括样本集合F和组学集合X的不完整多组学数据U,F={fj|1≤j≤N},X={xi|1≤i≤M},其中,fj表示第j个样本,N表示样本的数量,N≥2,xi表示第i个包含ni个样本,且每个样本包含mi个特征的组学,M表示组学的个数,M≥1;
在本实施例中,使用的数据为经过Rappoport Nimrod等人预处理的TCGA中的肾透明细胞癌KIRC的三个组学数据,分别为基因表达数据(533个样本,20531个特征),DNA甲基化数据(319个样本,5000个特征),microRNA表达数据(257个样本,1046个特征),总样本数为534。因此,M为3,n1为533,n2为319,n3为257,m1为20531,m2为5000,m3为1046,N为534。该数据集的下载链接为http://acgt.cs.tau.ac.il/multi_omic_benchmark/download.html。
步骤2)构建基于组学xi的相似性网络Ai
步骤2a)设xi中第x个样本和第y个样本分别为fa和fb,将fa和fb组成样本对(fa,fb),并根据各样本在组学xi的特征,计算fa和fb之间的欧式距离di(fa,fb),其中,1≤x≤ni,1≤y≤ni
fa和fb之间的欧式距离di(fa,fb),计算公式为:
Figure BDA0002572459440000061
其中,
Figure BDA0002572459440000062
Figure BDA0002572459440000063
分别表示样本fa和样本fb在组学xi中的第
Figure BDA0002572459440000064
个特征。
步骤2b)根据组学xi中fa与其它ni-1个样本的欧氏距离di(fa,·),以及fb与其它ni-1个样本的欧氏距离di(·,fb),对(fa,fb)的参数δi(fa,fb)进行估计:
Figure BDA0002572459440000071
其中,
Figure BDA0002572459440000072
表示di(fa,·)中距离fa最近的前k个样本的集合,
Figure BDA0002572459440000073
表示di(·,fb)中距离fb最近的前k个样本的集合,
Figure BDA0002572459440000074
Figure BDA0002572459440000075
分别表示
Figure BDA0002572459440000076
Figure BDA0002572459440000077
中的任意样本,1≤k≤ni
k的取值范围原则上是1到ni中的任意整数,但由于k的含义是划分局部邻居的阈值,在区间[10,40)中取值时效果比较好,因此本实例中取k为20。
步骤2c)根据δi(fa,fb)计算fa与fb的相似性si(fa,fb):
Figure BDA0002572459440000078
其中,exp(·)表示以自然常数为底数的幂运算;
由于高斯核的普适性和通用性,本发明使用高斯核度量fa与fb的基于组学xi的相似性si(fa,fb)。受到多核学习的启发,空间中的样本分布的局部密度不同,整个空间中样本的密度不同,度量样本之间的相似性时不使用统一的核函数,在步骤2b)中根据fa与fb所在局部空间的样本平均距离和fa与fb估计高斯核的方差参数δi(fa,fb)。
步骤2d)根据组学xi中fa与其它ni-1个样本之间的相似性si(fa,·),计算fa到fb的局部转移概率pi(fa,fb),并将pi(fa,fb)放入转移概率矩阵Pi中的(x,y)位置,其中,转移概率矩阵Pi为ni×ni的矩阵,pi(fa,fb)的计算公式为:
Figure BDA0002572459440000079
其中,
Figure BDA00025724594400000710
表示si(fa,·)中与fa最相似的前k个样本的集合,fz表示
Figure BDA0002572459440000081
中的任意样本;
步骤2e)根据概率转移矩阵Pi,计算相似性矩阵Qi,并以fa和fb为节点,以Qi中fa与fb的相似性qi(fa,fb)为边,构建基于组学xi的有权无向的相似性网络Ai,则M个相似性网络组成的相似性网络集合为A={Ai|1≤i≤M},其中Qi的计算公式为:
Figure BDA0002572459440000082
其中,(·)n表示矩阵的n次方,n≥1,(·)T表示矩阵转置;
受流型学习启发,在高维空间中的样本点通常分布于非线性低维流型上,在局部空间的流型表面可以近似为欧式空间,而对距离较远的样本直接使用基于欧式距离的高斯核相似性不能很好地度量样本之间的相似性。因此,本发明将局部相似性转化为局部转移概率,然后通过转移概率矩阵的n次方估计由流型表面的样本传播而得到的相似性度量。由于概率转移矩阵通常满足不可约性和非周期性,因此当n足够大时,Pn会趋于收敛。简单起见,在本实例中将n设置为32。
步骤3)生成节点序列的集合C:
从每个节点fj出发,在相似性网络集合A中的M个相似性网络中进行γ次路径长度为l的随机游走,得到N×γ个序列的集合C,其中,从每个节点出发的序列为γ条,每个序列的长度为l,l≥3;
步骤3a)初始化序列seq为空,当前节点cur为fj,其中,seq表示从节点fj出发的通过随机游走产生的一条节点的序列;
步骤3b)将当前节点cur加入到序列seq的末尾;
步骤3c)以均匀概率分布从A中包含当前节点的网络中随机选择一个网络,得到当前网络;
步骤3d)在当前网络中与当前节点cur相连的所有节点中,以与当前节点cur连边的权重为概率分布,随机选择一个节点fr,并更新当前节点cur为fr
步骤3e)判断|seq|=l是否成立,若是,则得到一条从节点fu出发的包含l个节点的序列,否则,执行步骤3a2),其中,|seq|表示序列seq的长度;
本发明的核心步骤是步骤3),该步骤通过固定长度的、在多个网络中跳转的随机游走方式将多个相似性网络中的样本相似性转化为样本在同一个序列的局部范围内的共现概率。并且通过该步骤得到了缺失了某些组学特征的样本与其他样本之间的相似性(以共现概率的形式隐含在序列的集合中)。序列的长度l设置为20,从每个节点出发的序列个数γ设置为100,γ的值设置的越大,嵌入空间中保留的网络拓扑信息越多,但运行时间也会相应增加。
步骤4)定义目标函数L:
步骤4a)设每个节点fj的嵌入空间向量为wj,辅助向量为θj,其中,θj和wj均为d维向量,d>1;
步骤4b)设任意窗口包含的样本序列片段
Figure BDA0002572459440000091
则定义正样本集合
Figure BDA0002572459440000092
其中,3≤2c+1≤l;
步骤4c)设负样本集合为
Figure BDA0002572459440000093
其中,β>0;
步骤4d)根据pos和neg,定义基于窗口win的目标函数L:
Figure BDA0002572459440000094
其中,log(·)表示以自然常数为底数的对数,∪表示集合的并,fe表示集合pos和集合neg的并集pos∪neg中的任意样本,
Figure BDA0002572459440000095
σ(·)为Sigmoid函数,
Figure BDA0002572459440000096
表示向量
Figure BDA0002572459440000097
和向量θe的内积;
该目标函数的目的是求解一个从将网络中节点到低维向量的映射,该映射通过最大化在步骤3)中的集合C中的序列上的窗口内的样本共现概率信息来在低维空间中保留样本之间的相似性。
步骤5)根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果:
步骤5a)统计每个节点fj在集合C中出现的频率fqj
计算公式为:
Figure BDA0002572459440000101
其中,I(·)为指示函数,seqt为序列seq中的第t个节点。
步骤5b)定义在任意序列上从左向右滑动的滑动窗口,窗口的长度为2c+1,步长为1,滑动次数为l-2c-1;
步骤5c)初始化每个节点fj的嵌入空间向量wj和辅助向量θj为随机噪声,设在集合C中已抽取的序列个数为ns,初始化ns为0;
其随机噪声采用Python语言中的第三方库NumPy所包含的random_normal函数生成。
步骤5d)从C中无放回地随机抽取一个序列seq,初始化iter为0,其中,iter为滑动窗口在序列seq上已滑动的次数;
步骤5e)根据当前窗口内包含的序列片段
Figure BDA0002572459440000102
计算目标函数Lns,iter的值,其中,Lns,iter表示基于第ns个序列中的第iter个滑动窗口的目标函数;
窗口的长度一般设置为小于序列长度并且大于3的奇数,在本实例中设置为9。
步骤5f)根据目标函数Lns,iter,采用梯度下降法对neg和pos中每个节点fe的辅助向量θe进行更新,并对样本
Figure BDA0002572459440000103
的嵌入空间向量
Figure BDA0002572459440000104
进行更新;
更新公式为:
Figure BDA0002572459440000105
Figure BDA0002572459440000106
其中,η为学习率,η>0。
梯度下降是指,在每一步中通过对目标函数Lns,iter求偏导得到每个参数向量的梯度,然后将每个参数在空间中向负梯度方向进行更新,更新的步长称为学习率η,通常设置0.001。
步骤5g)判断iter=l-2c-1是否成立,若是,则得到处理完ns+1个序列后的节点fj的嵌入空间向量wj和辅助向量为θj,否则,令iter=iter+1,并执行步骤5e);
步骤5h)判断ns=N×γ是否成立,若是,则得到每个节点fj的低维向量表示wj,即,不完整多组学数据集成结果,否则,令ns=ns+1,并执行步骤5d)。
以下结合附图和具体实施例,对本发明作进一步详细描述,需要说明的是本发明保护的客体不属于疾病的诊断与治疗方法,也不属于智力活动规则。
1、仿真条件和内容:
在本仿真实验中,使用的计算机内存为8G,CPU为intel(R)Core(TM)i7-9700F,操作系统为Windows 10,本发明所使用的软件环境为Python 3.6,现有方法所使用的软件环境为Rstudio。实验数据采用Rappoport Nimrod和Shamir Ron在2018年发表在NucleicAcids Research期刊上的综述论文“Multi-omic and multi-view clusteringalgorithms:review and cancer benchmark”中所公开的肾透明细胞癌KIRC的多组学数据,其中包含基因表达数据(533个样本),DNA甲基化数据(319个样本),microRNA表达数据(257个样本)。选用该数据的原因是,一方面该数据在高水平期刊的综述中用于对比不同数据集成方法性能,另一方面,该数据集是不完整多组学数据集,能够更好地说明本发明的优点。由于现有方法NEMO的严格假设,而该多组学数据不满足现有方法NEMO的基本假设,因此,在本实验中,运行NEMO前先将缺失组学的样本过滤掉,仅保留完整的多组学数据。由于本发明的优点1,本实验直接在该不完整多组学数据上应用本发明的方法。在与聚类有关的仿真实验中,在本发明的集成结果上使用的K均值聚类算法,而在现有方法NEMO的集成结果上,采用的谱聚类算法,这是由于本发明的集成结果是在向量空间中的表示,而现有方法NEMO的集成结果是相似性矩阵的形式。K均值算法是在向量空间中常用的聚类算法,而谱聚类是在相似性矩阵上常用的聚类算法。由于癌症亚型没有所谓的真正的“类别个数”,设置类别个数多,则可以研究更细节的结构,设置类别个数少可以研究总体上的结构,即使是在已经有充分研究的癌症上,样本集合也不一定由所有癌症亚型组成。因此,在与聚类有关的仿真一和仿真二中,聚类个数从2到9依次遍历。仿真三是对本发明的集成结果可视化的实验。
仿真一:分别运行本发明的方法和现有方法NEMO,在各自的集成结果上对癌症样本进行聚类,聚类的个数从2到9进行遍历。比较聚类结果所识别的癌症亚型之间是否有显著的生存风险差异,生存风险差异的度量使用对数秩检验(log-rank test)的P值,为了方便统计,本实验对每个结果均记录-log10P,其中,P值小于0.05等价于-log10P大于1.301。
仿真二:分别运行本发明的方法和现有方法,在各自的集成结果上对癌症样本进行聚类,聚类的个数从2到9进行遍历。比较聚类结果所识别的癌症亚型是否能够显著的富集到样本的年龄、性别、T分期、M分期、N分期、癌症发展阶段等六个重要的临床信息。对于离散型临床变量,本实验通过卡方检验的-log10P是否大于1.301来判断癌症亚型识别结果是否显著富集于该临床信息。对连续型临床变量,本实验通过克鲁斯卡尔-沃利斯检验的-log10P是否大于1.301来判断癌症亚型识别结果是否显著富集于该临床信息。
仿真三:使用T-SNE算法将本发明在KIRC上的集成结果从100维降到2维,并在直角坐标系中进行可视化,其中,T-SNE是一个常用的可视化算法。
2、仿真结果分析:
表1在不同聚类个数时对数秩检验的-log10P
Figure BDA0002572459440000121
Figure BDA0002572459440000131
从表1可以看出,本发明通过对缺失部分组学的样本的利用,提取出了有效的潜在特征信息,与现有方法相比,可以发现有更显著的生存风险差异的癌症亚型。
表2在聚类个数不同时显著富集的临床参数个数
聚类个数 现有技术 本发明
2 3 1
3 2 3
4 2 4
5 3 3
6 1 4
7 1 4
8 1 4
9 2 3
平均值 1.875 3.25
最大值 3 4
从表2可以看出,在8个不同的聚类个数下,本发明的临床参数富集个数仅在聚类个数为2时低于现有技术的结果,在聚类个数为5时等于现有技术的结果,而在其他聚类个数下本发明的结果均好于现有技术。从所有聚类个数情况下指标的平均值和最大值来看,本发明也明显比现有技术表现的更好。
图2为本发明的集成结果的可视化效果,从该图可以看出,本发明的集成结果可以很好的捕捉到基于不完整多组学数据的样本之间的关系,不同结构之间的样本距离较远,联系松散,同一结构中的样本距离较近,联系紧密。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (6)

1.一种基于网络表示学习的不完整多组学数据集成方法,其特征在于,包括如下步骤:
(1)获取不完整多组学数据:
从TCGA数据库中获取包括样本集合F和组学集合X的不完整多组学数据U,F={fj|1≤j≤N},X={xi|1≤i≤M},其中,fj表示第j个样本,N表示样本的数量,N≥2,xi表示第i个包含ni个样本,且每个样本包含mi个特征的组学,M表示组学的个数,M≥1;
(2)构建基于组学xi的相似性网络Ai
(2a)设xi中第x个样本和第y个样本分别为fa和fb,将fa和fb组成样本对(fa,fb),并根据各样本在组学xi的特征,计算fa和fb之间的欧式距离di(fa,fb),其中,1≤x≤ni,1≤y≤ni
(2b)根据组学xi中fa与其它ni-1个样本的欧氏距离di(fa,·),以及fb与其它ni-1个样本的欧氏距离di(·,fb),对(fa,fb)的参数δi(fa,fb)进行估计:
Figure FDA0002572459430000011
其中,
Figure FDA0002572459430000012
表示di(fa,·)中距离fa最近的前k个样本的集合,
Figure FDA0002572459430000013
表示di(·,fb)中距离fb最近的前k个样本的集合,
Figure FDA0002572459430000014
Figure FDA0002572459430000015
分别表示
Figure FDA0002572459430000016
Figure FDA0002572459430000017
中的任意样本,1≤k≤ni
(2c)根据δi(fa,fb)计算fa与fb的相似性si(fa,fb):
Figure FDA0002572459430000018
其中,exp(·)表示以自然常数为底数的幂运算;
(2d)根据组学xi中fa与其它ni-1个样本之间的相似性si(fa,·),计算fa到fb的局部转移概率pi(fa,fb),并将pi(fa,fb)放入转移概率矩阵Pi中的(x,y)位置,其中,转移概率矩阵Pi为ni×ni的矩阵,pi(fa,fb)的计算公式为:
Figure FDA0002572459430000021
其中,
Figure FDA0002572459430000022
表示si(fa,·)中与fa最相似的前k个样本的集合,fz表示
Figure FDA0002572459430000023
中的任意样本;
(2e)根据概率转移矩阵Pi,计算相似性矩阵Qi,并以fa和fb为节点,以Qi中fa与fb的相似性qi(fa,fb)为边,构建基于组学xi的有权无向的相似性网络Ai,则M个相似性网络组成的相似性网络集合为A={Ai|1≤i≤M},其中Qi的计算公式为:
Figure FDA0002572459430000024
其中,(·)n表示矩阵的n次方,n≥1,(·)T表示矩阵转置;
(3)生成节点序列的集合C:
从每个节点fj出发,在相似性网络集合A中的M个相似性网络中进行γ次路径长度为l的随机游走,得到N×γ个序列的集合C,其中,从每个节点出发的序列为γ条,每个序列的长度为l,l≥3;
(4)定义目标函数L:
(4a)设每个节点fj的嵌入空间向量为wj,辅助向量为θj,其中,θj和wj均为d维向量,d>1;
(4b)设任意窗口包含的样本序列片段
Figure FDA0002572459430000025
则定义正样本集合
Figure FDA0002572459430000026
其中,3≤2c+1≤l;
(4c)设负样本集合为
Figure FDA0002572459430000027
其中,β>0;
(4d)根据pos和neg,定义基于窗口win的目标函数L:
Figure FDA0002572459430000031
其中,log(·)表示以自然常数为底数的对数,∪表示集合的并,fe表示集合pos和集合neg的并集pos∪neg中的任意样本,
Figure FDA0002572459430000032
σ(·)为Sigmoid函数,
Figure FDA0002572459430000033
表示向量
Figure FDA0002572459430000034
和向量θe的内积;
(5)根据所有序列的集合C,获取基于网络表示学习的不完整多组学数据的集成结果:
(5a)统计每个节点fj在集合C中出现的频率fqj
(5b)定义在任意序列上从左向右滑动的滑动窗口,窗口的长度为2c+1,步长为1,滑动次数为l-2c-1;
(5c)初始化每个节点fj的嵌入空间向量wj和辅助向量θj为随机噪声,设在集合C中已抽取的序列个数为ns,初始化ns为0;
(5d)从C中无放回地随机抽取一个序列seq,初始化iter为0,其中,iter为滑动窗口在序列seq上已滑动的次数;
(5e)根据当前窗口内包含的序列片段
Figure FDA0002572459430000035
计算目标函数Lns,iter的值,其中,Lns,iter表示基于第ns个序列中的第iter个滑动窗口的目标函数;
(5f)根据目标函数Lns,iter,采用梯度下降法对neg和pos中每个节点fe的辅助向量θe进行更新,并对样本
Figure FDA0002572459430000036
的嵌入空间向量
Figure FDA0002572459430000037
进行更新;
(5g)判断iter=l-2c-1是否成立,若是,则得到处理完ns+1个序列后的节点fj的嵌入空间向量wj和辅助向量为θj,否则,令iter=iter+1,并执行步骤(5e);
(5h)判断ns=N×γ是否成立,若是,则得到每个节点fj的低维向量表示wj,即,不完整多组学数据集成结果,否则,令ns=ns+1,并执行步骤(5d)。
2.根据权利要求1所述的基于网络表示学习的不完整多组学数据集成方法,其特征在于,步骤(2a)中所述的fa和fb之间的欧式距离di(fa,fb),计算公式为:
Figure FDA0002572459430000041
其中,
Figure FDA0002572459430000042
Figure FDA0002572459430000043
分别表示样本fa和样本fb在组学xi中的第
Figure FDA0002572459430000044
个特征。
3.根据权利要求1所述的基于网络表示学习的不完整多组学数据集成方法,其特征在于,步骤(3)中所述的从每个节点fj出发,在相似性网络集合A中的M个相似性网络中进行γ次路径长度为l的随机游走,随机游走的具体步骤为:
(3a)初始化序列seq为空,当前节点cur为fj,其中,seq表示从节点fj出发的通过随机游走产生的一条节点的序列;
(3b)将当前节点cur加入到序列seq的末尾;
(3c)以均匀概率分布从A中包含当前节点的网络中随机选择一个网络,得到当前网络;
(3d)在当前网络中与当前节点cur相连的所有节点中,以与当前节点cur连边的权重为概率分布,随机选择一个节点fr,并更新当前节点cur为fr
(3e)判断|seq|=l是否成立,若是,则得到一条从节点fu出发的包含l个节点的序列,否则,执行步骤(3a2),其中,|seq|表示序列seq的长度;
4.根据权利要求1所述的基于网络表示学习的不完整多组学数据集成方法,其特征在于,步骤(4d)中所述的统计每个节点fj在集合C中出现的频率fqj,计算公式为:
Figure FDA0002572459430000045
其中,I(·)为指示函数,seqt为序列seq中的第t个节点。
5.根据权利要求1所述的基于网络表示学习的不完整多组学数据集成方法,其特征在于,步骤(5f)中所述的初始化每个节点fj的嵌入空间向量wj和辅助向量θj为随机噪声,其随机噪声采用Python语言中的第三方库NumPy所包含的random_normal函数生成。
6.根据权利要求1所述的基于网络表示学习的不完整多组学数据集成方法,其特征在于,步骤(5f)中所述的采用梯度下降法对neg和pos中每个节点fe的参数向量θe进行更新,并对样本
Figure FDA0002572459430000051
的参数向量
Figure FDA0002572459430000052
进行更新,更新公式为:
Figure FDA0002572459430000053
Figure FDA0002572459430000054
其中,η为学习率,η>0。
CN202010644047.7A 2020-07-07 2020-07-07 基于网络表示学习的不完整多组学数据集成方法 Active CN111816259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010644047.7A CN111816259B (zh) 2020-07-07 2020-07-07 基于网络表示学习的不完整多组学数据集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010644047.7A CN111816259B (zh) 2020-07-07 2020-07-07 基于网络表示学习的不完整多组学数据集成方法

Publications (2)

Publication Number Publication Date
CN111816259A true CN111816259A (zh) 2020-10-23
CN111816259B CN111816259B (zh) 2024-02-09

Family

ID=72841796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010644047.7A Active CN111816259B (zh) 2020-07-07 2020-07-07 基于网络表示学习的不完整多组学数据集成方法

Country Status (1)

Country Link
CN (1) CN111816259B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064266A (zh) * 2022-07-21 2022-09-16 山东大学 基于不完整多组学数据的癌症诊断系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109994200A (zh) * 2019-03-08 2019-07-09 华南理工大学 一种基于相似度融合的多组学癌症数据整合分析方法
CN110246550A (zh) * 2019-06-12 2019-09-17 西安电子科技大学 基于药物相似性网络数据的药物组合预测方法
WO2020113673A1 (zh) * 2018-12-07 2020-06-11 深圳先进技术研究院 一种基于多组学集成的癌症亚型分类方法
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020113673A1 (zh) * 2018-12-07 2020-06-11 深圳先进技术研究院 一种基于多组学集成的癌症亚型分类方法
CN109994200A (zh) * 2019-03-08 2019-07-09 华南理工大学 一种基于相似度融合的多组学癌症数据整合分析方法
CN110246550A (zh) * 2019-06-12 2019-09-17 西安电子科技大学 基于药物相似性网络数据的药物组合预测方法
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘思;刘海;陈启买;贺超波;: "基于网络表示学习与随机游走的链路预测算法", 计算机应用, no. 08 *
张媛媛;王子琪;寇传华;: "基于多源数据融合的复杂疾病建模方法研究", 数学建模及其应用, no. 04 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064266A (zh) * 2022-07-21 2022-09-16 山东大学 基于不完整多组学数据的癌症诊断系统
CN115064266B (zh) * 2022-07-21 2024-04-26 山东大学 基于不完整多组学数据的癌症诊断系统、设备及介质

Also Published As

Publication number Publication date
CN111816259B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN109994200B (zh) 一种基于相似度融合的多组学癌症数据整合分析方法
Archer et al. Empirical characterization of random forest variable importance measures
CN111899882B (zh) 一种预测癌症的方法及系统
US20030224344A1 (en) Method and system for clustering data
US20230222311A1 (en) Generating machine learning models using genetic data
Wang et al. imDC: an ensemble learning method for imbalanced classification with miRNA data
CN114424287A (zh) 单细胞rna-seq数据处理
Daoudi et al. Parallel diffrential evolution clustering algorithm based on mapreduce
CN110782948A (zh) 基于约束概率矩阵分解方法预测miRNA与疾病的潜在关联
Shi et al. Sparse discriminant analysis for breast cancer biomarker identification and classification
CN115798598A (zh) 一种基于超图的miRNA-疾病关联预测模型及方法
Filosi et al. Stability indicators in network reconstruction
Babichev et al. An effectiveness evaluation of information technology of gene expression profiles processing for gene networks reconstruction
CN109192246B (zh) 检测染色体拷贝数异常的方法、装置和存储介质
CN111816259B (zh) 基于网络表示学习的不完整多组学数据集成方法
Elkhani et al. Membrane computing inspired feature selection model for microarray cancer data
Wu On biological validity indices for soft clustering algorithms for gene expression data
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
Li et al. Frequent pattern discovery in multiple biological networks: Patterns and algorithms
Wang et al. The graph-guided group lasso for genome-wide association studies
CN110517724A (zh) 利用单细胞转录和基因敲除数据推断基因调控网络的方法
Nagi et al. Cluster analysis of cancer data using semantic similarity, sequence similarity and biological measures
Sevugapandi et al. Classification algorithm for Gene Expression Graph and Manhattan Distance
Duan et al. Similarity network fusion based on local scaling affinity construction
Sîrbu et al. Dynamic clustering of gene expression data using a fuzzy approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant