CN111785325B - 互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法 - Google Patents

互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法 Download PDF

Info

Publication number
CN111785325B
CN111785325B CN202010583114.9A CN202010583114A CN111785325B CN 111785325 B CN111785325 B CN 111785325B CN 202010583114 A CN202010583114 A CN 202010583114A CN 111785325 B CN111785325 B CN 111785325B
Authority
CN
China
Prior art keywords
gene
matrix
sample
value
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010583114.9A
Other languages
English (en)
Other versions
CN111785325A (zh
Inventor
习佳宁
黄庆华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010583114.9A priority Critical patent/CN111785325B/zh
Publication of CN111785325A publication Critical patent/CN111785325A/zh
Application granted granted Critical
Publication of CN111785325B publication Critical patent/CN111785325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Primary Health Care (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法。首先,获取癌症基因组变异数据与基因互作关系网络;然后,采用矩阵化模型对癌症的异质性进行描述,并通过互斥性约束矩阵分解对异质性癌症的样本参数进行差异化估计;接着,构建联合关联互作网络正则化的互斥性约束矩阵分解优化函数,并通过迭代求解对局部样本中的受互作影响驱动基因参数进行修正;最后,采用离群值检验方法识别驱动基因。本发明能够解决癌症样本的参数差异化估计与受互作影响局部样本驱动基因的有效识别问题,实现从异质性癌症样本的基因变异数据中识别出在局部样本发生变异的驱动基因。

Description

互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法
技术领域
本发明属生物信息学、基因组数据挖掘技术领域,具体涉及一种互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法。
背景技术
癌症是一种高发恶性疾病,主要由驱动基因的变异所导致。但在癌症基因组中,存在大量与癌变无关的伴随性变异,对判别驱动基因造成严重混淆。由于驱动基因变异比伴随性变异更倾向于在多例样本中同时发生,现有研究主要通过癌症样本的基因变异数据,将驱动基因视为多例样本中的高频变异基因,并通过考察基因变异率的统计显著性,寻找多样本中显著高频变异的驱动基因。如Lawrence等人在文献"Lawrence S,Stojanov P,Polak P,et al.Mutational heterogeneity in cancer and the search for newcancer-associated genes[J].Nature,2013,499(7457):214"中提出了一种基于各基因背景变异率修正的变异频率统计检验方法,以识别癌症样本中显著高频变异的基因。Kumar等人则在文献"Kumar D,Swamidass J,Bose R.Unsupervised detection of cancerdriver mutations with parsimony-guided learning[J].Nature genetics,2016,48(10):1288"中对驱动基因预测进一步采用精简化约束,以减少识别中的假阳性结果。然而,由于癌症还具有肿瘤异质性,即不同样本的变异驱动基因存在较大差异,加剧了驱动基因在局部样本分布的复杂性。对于具有肿瘤异质性的癌症,由于不同样本中的变异驱动基因差别较大,导致仅在局部样本中的变异驱动基因相对于全体样本呈现的变异率较低。尽管现有研究在异质性癌症各样本的亚类已知时,可对各类样本内的高变异率基因分别进行识别,但在样本类型缺失时则无法区分具有差异性的各局部样本,因而无法识别异质性癌症的局部样本驱动基因。
由于驱动基因还可受其他变异基因的互作影响而发生异常,相关研究还将变异率作为各基因的功能异常影响力,通过基因互作关系传播进行建模,以筛选结果中受影响程度较高的驱动基因。如Raphael等人在文献"Leiserson D,Vandin F,Wu H,et al. Pan-cancer network analysis identifies combinations of rare somatic mutationsacross pathways and protein complexes[J].Nature genetics,2015,47(2):106"中将基因变异频率作为影响力,通过基因相互作用关系对影响力进行传播,并将传播后得分作为各基因受相互作用的影响程度,以识别癌症样本共有的关联性驱动基因。由于上述传播会对大量未变异基因造成影响,进而导致预测结果的假阳性问题,对此Cho等人在文献"ChoA,Shim E,Kim E,et al.MUFFINN:cancer gene discovery via network analysis ofsomatic mutation data[J].Genome biology,2016,17(1):129"中仅允许高频变异基因对直接相互作用基因产生影响,通过限制传播过程以避免多级传播所造成的识别误判。为在统计显著性层面过滤无关基因,Horn等人在文献"Horn H,Lawrence S,Chouinard R,etal. NetSig:network-based discovery from cancer genomes[J].Nature methods,2018,15(1): 61"中通过相互作用关系对高频变异基因影响力进行显著性描述,进而提升共有关联性驱动基因的预测率。然而,上述基于互作关系传播的研究仅考虑了基因变异率在全体样本层面的影响,仍然无法考察基因互作关系对局部样本造成的影响。对于异质性癌症,由于在建模中基因互作关系对局部样本的影响缺失,导致受基因互作影响的驱动基因在局部样本漏检。
综上,目前研究存在以下问题:1)异质性癌症的样本类型缺失情况时,发生变异的驱动基因在不同样本差异较大,导致其在全体样本间的变异率较低而难以有效识别; 2)现有方法均以基因在全体样本的变异频率作为标准,但在异质性癌症中,受基因互作影响的驱动基因会在局部样本发生漏检。因此,由于缺少对样本类型缺失时的癌症样本差异化方法思路,对受互作影响的局部样本驱动基因漏检问题认识不足,制约了异质性癌症的致病机理与临床诊疗研究发展。
发明内容
为了克服现有技术的不足,本发明提供一种互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法。首先,获取癌症基因组变异数据与基因互作关系网络;然后,采用矩阵化模型对癌症的异质性进行描述,并通过互斥性约束矩阵分解对异质性癌症的样本参数进行差异化估计;接着,构建联合关联互作网络正则化的互斥性约束矩阵分解优化函数,并通过迭代求解对局部样本中的受互作影响驱动基因参数进行修正;最后,采用离群值检验方法识别驱动基因。本发明能够解决癌症样本的参数差异化估计与受互作影响局部样本驱动基因的有效识别问题,实现从异质性癌症样本的基因变异数据中识别出在局部样本发生变异的驱动基因。
一种互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法,其特征在于步骤如下:
步骤1:获取癌症基因组变异数据与基因互作关系网络,通过基因注释数据库对基因名进行ID统一化;
步骤2:根据所输入的癌症样本中各个基因是否发生变异的情况,将各样本构建为0/1向量,向量的元素为各基因是否变异的0/1取值,并拼接所有0/1向量构成变异矩阵X=[xij]m×n,其中,m为样本个数,n为基因个数,i=1,2,…,m,j=1,2,…,n,xij为矩阵X 中第i行第j列元素,若第i个样本的第j个基因存在变异则xij值为1,否则值为0;
步骤3:对所输入的m个样本和n个基因,设置空矩阵U=[uik]m×r和V=[vjk]n×r,其中,r为给定的参数维数,满足r<<m,n,矩阵U记为样本参数矩阵,其每一个元素记为样本参数,uik表示第i个样本在r元空间的第k个参数,矩阵V记为基因参数矩阵,其每一个元素记为基因参数,vjk表示第j个基因在r元空间的第k个参数,k为r元空间的各维度参数的索引,k=1,2,…,r;
步骤4:求解如下互斥性约束的矩阵分解模型,得到矩阵U和V中的样本参数和基因参数:
Figure GDA0003113705350000031
Figure GDA0003113705350000032
且当k≠l时,
Figure GDA0003113705350000033
其中,l表示当前正在对r元空间的第l个参数进行考察,l=1,2,…,r,ε为可调阈值,取值范围为(0,0.1];
步骤5:按下式计算得到基因参数的图拉普拉斯正则化项RegY(V):
Figure GDA0003113705350000034
其中,Y表示基因之间相互作用关系所组成的集合,Y={(s,j)|s与j存在互作关系}, s和j分别代表第s个基因和第j个基因,(s,j)表示两个存在相互关系的基因所组成的基因对;vs为矩阵V中的第s行,vj为矩阵V中的第j行;I为示性函数,
Figure GDA0003113705350000035
为示性函数中的元素,如果基因互作网络中的基因s与基因j存在邻边,则
Figure GDA0003113705350000036
取值为1,否则
Figure GDA0003113705350000037
取值为0;
迭代求解以下联合图拉普拉斯正则化项的矩阵分解优化函数,得到融合基因互作网络的样本参数矩阵U′和基因参数矩阵V′:
Figure GDA0003113705350000041
s.t.diag(U′TU′)=I,U′≥0,(U′TU′-I)≤ε,且(U′TU′-I)≥-ε
其中,λ表示正则化项的调谐参数,取值为大于零的实数;ε表示元素值均为ε的矩阵;
步骤6:对于步骤5所得的矩阵U′,将其第k列元素最大值的索引所对应的样本作为第k组亚群的局部样本,k=1,2,…,r,得到所有r个组亚群的局部样本;
步骤7:对r组亚群的具备样本,分别采用离群值检验方法进行驱动基因检测,得到每组局部样本所对应的原假设分布,具体为:
首先,对于r组亚群中的第k组亚群,k=1,2,…,r,选取第k组亚群的局部样本在变异矩阵X中所对应的行,构成第k组亚群所对应的第k个子矩阵,并采用重启动的随机游走算法,利用基因互作关系集合Y对第k个子矩阵进行随机游走处理;然后,对随机游走得到的游走后矩阵进行随机重排,再将重排后的矩阵中的所有1×n维的行向量进行相加,加和后的1×n维向量为n个基因的分布水平采样,向量中n个维度的取值代表n个基因在本次采样的分布水平,重复此过程10000次,得到10000次n个基因的采样结果,将n个基因的10000次采样结果取值,对n个基因分布构建n个取值频次分布图,作为第k组亚群的局部样本的n个基因所分别对应的n个原假设分布;
步骤8:在第k组局部样本的n个原假设分布中,第j个基因所对应的原假设分布为n个原假设分布中的第j个原假设分布,将基因参数矩阵V′中的元素v′jk值,与第 j个原假设分布的横坐标进行比对,将分布函数比对位置的右侧面积作为检验p值,通过Benjamini-Hochberg错误发现率矫正算法对检验p值进行错误发现率矫正,得到矫正后的p值,如果矫正后的p值小于0.05,则认为第j个基因是第k组局部样本的驱动基因,令j的取值从1取到n,k的取值从1取到r,按前述过程进行处理,则可以得到每一个基因是否为所有局部样本的驱动基因的识别结果。
本发明的有益效果是:1)针对异质性癌症的样本在基因组变异层面存在的较大差异,在样本类型缺失情况下,通过对癌症样本参数进行差异化估计,解决异质性癌症的样本难以区分问题。2)针对受基因互作影响驱动基因在局部样本的漏检问题,通过将基因互作关系对驱动基因参数进行正则化,实现基因参数在互作影响层面的关联性桥接,提升对局部样本驱动基因识别性能。
附图说明
图1是本发明的互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法,其具体实现过程如下:
步骤1:通过The Cancer Genome Atlas(TCGA)和International Cancer GenomeConsortium(ICGC)等数据库获取癌症基因变异数据。从STRING相互作用数据库收集基因互作关系网络的数据。通过基因注释数据库Database for Annotation, Visualization andIntegrated Discovery(DAVID)对基因名进行ID统一化,以消除不同来源数据中基因的同物异名现象。
步骤2:采用矩阵化模型对癌症的异质性进行描述,矩阵的行与列分别描述差异性局部样本及其相应驱动基因。通过多元参数对不同局部样本进行描述,参数取值的差异代表各局部样本间存在的区别,以有效量化样本的差异性。具体为:根据所输入的癌症样本中各个基因是否发生变异的情况,将各样本构建为0/1向量,向量的元素为各基因是否变异的0/1取值,并拼接所有0/1向量构成变异矩阵X=[xij]m×n,其中, m为样本个数,n为基因个数,i=1,2,…,m,j=1,2,…,n,xij为矩阵X中第i行j列元素,若第i个样本的第j个基因存在变异则xij值为1,否则值为0。
步骤3:采用多元参数描述基因在局部样本的异常程度,以反映异质性癌症各局部样本的驱动基因,记为样本参数和基因参数。即对所输入的m个样本和n个基因,设置空矩阵U=[uik]m×r和V=[vjk]n×r,其中,r为用户自定的参数维数,在给定时需满足 r<<m,n,矩阵U记为样本参数矩阵,其每一个元素记为样本参数,uik表示第i个样本在 r元空间的第k个参数,矩阵V记为基因参数矩阵,其每一个元素记为基因参数,vjk表示第j个基因在r元空间的第k个参数,k=1,2,…,r。
步骤4:采用互斥性约束矩阵分解对变异数据的低维参数进行估计,以保障不同局部样本的差异性:
Figure GDA0003113705350000051
其中,l表示当前正在对r元空间的第l个参数进行考察,k为r元空间的各维度参数的索引,ε为一个用户可调的阈值,可取值范围为(0,0.1]。
上式通过将协方差限制在较小取值的方式实现互斥性约束,从而突显基因组变异区别较大的不同局部样本,以对异质性癌症的样本参数进行差异化估计。在估计结果中,样本参数与基因参数通过矩阵乘法表示可近似重建基因变异的原始数据矩阵,其中各行描述基因变异层面的样本间区别,各列则表示各基因在局部样本的异常程度。
步骤5:将基因互作网络中各基因是否存在邻边的关系,通过示性函数I进行表示,即基因s与基因j如果存在邻边则IY(s,j)取值为1,否则IY(s,j)取值为0。根据基因在互作网络中的关联关系,采用图拉普拉斯方法对各基因参数的距离进行正则化:
Figure GDA0003113705350000061
其中,RegY(V)即为基因参数的图拉普拉斯正则化项。Y表示基因之间相互作用关系所组成的集合,即Y={(s,j)|s与j存在互作关系},此处s和j分别代表第s个和第j 个基因,(s,j)表示两个存在相互关系的基因所组成的基因对。vs为矩阵V中的第s 行,vj为矩阵V中的第j行。
上式可反映在各局部样本的基因参数关于互作网络的关联程度。通过将关联性桥接的正则化项,与样本参数和基因参数进行联合估计,构建以下联合关联互作网络正则化的互斥性约束矩阵分解优化函数:
Figure GDA0003113705350000062
s.t.diag(U′TU′)=I,U′≥0,(U′TU′-I)≤ε,且(U′TU′-I)≥-ε
其中X=[xij]m×n,Y={(s,j)|s与j存在互作关系},U′=[u′ik]m×r,V′=[v′jk]n×r.
其中,λ表示正则化项的调谐参数,由用户自定,取值为大于零的实数。ε表示元素值均为ε的矩阵。
通过对上式进行迭代求解,存在互作关系的局部样本基因参数距离逐渐邻近,从而对局部样本中的受互作影响驱动基因参数进行修正。
步骤6:上述最终所得的用于反映局部样本指示关系的样本参数矩阵U′,将其第 k列元素最大值的索引所对应的样本作为第k组亚群的局部样本,k=1,2,…,r,得到所有r个组亚群的局部样本;
步骤7:对r组亚群的具备样本,分别采用离群值检验方法进行驱动基因检测,得到每组局部样本所对应的原假设分布,具体为:
首先,对于r组亚群中的第k组亚群,选取第k组亚群的局部样本在变异矩阵X 中所对应的行,重新构成第k组亚群所对应的第k个子矩阵。采用重启动的随机游走算法,利用基因互作关系集合Y对第k个子矩阵进行随机游走处理,然后,对随机游走得到的游走后矩阵进行随机重排,再将重排后的矩阵中的所有1×n维的行向量进行相加,加和后的1×n维向量则为n个基因的分布水平采样,向量中n个维度的取值代表这n个基因再本次采样的分布水平。将上述随机重排采样重复10000次,得到10000 次全体n个基因的采样结果,将n个基因的10000次采样结果取值,对n个基因分布构建n个取值频次分布图,作为第k组亚群的局部样本的n个基因所分别对应的n个原假设分布
步骤8:在第k组局部样本的n个原假设分布中,第j个基因所对应的原假设分布为n个原假设分布中的第j个原假设分布。将基因参数矩阵V′中的元素v′jk值,与第 j个原假设分布的横坐标进行比对,将分布函数比对位置的右侧面积作为检验p值。通过Benjamini-Hochberg错误发现率矫正算法对检验p值进行错误发现率矫正,得到矫正后的p值,如果矫正后的p值小于0.05,则认为第j个基因是第k组局部样本的驱动基因,令j的取值从1取到n,k的取值从1取到r,按上述过程进行处理,则可以得到每一个基因是否为所有局部样本的驱动基因的识别结果。

Claims (1)

1.一种互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法,其特征在于步骤如下:
步骤1:获取癌症基因组变异数据与基因互作关系网络,通过基因注释数据库对基因名进行ID统一化;
步骤2:根据所输入的癌症样本中各个基因是否发生变异的情况,将各样本构建为0/1向量,向量的元素为各基因是否变异的0/1取值,并拼接所有0/1向量构成变异矩阵X=[xij]m×n,其中,m为样本个数,n为基因个数,i=1,2,…,m,j=1,2,…,n,xij为矩阵X中第i行第j列元素,若第i个样本的第j个基因存在变异则xij值为1,否则值为0;
步骤3:对所输入的m个样本和n个基因,设置空矩阵U=[uik]m×r和V=[vjk]n×r,其中,r为给定的参数维数,满足r<<m,n,矩阵U记为样本参数矩阵,其每一个元素记为样本参数,uik表示第i个样本在r元空间的第k个参数,矩阵V记为基因参数矩阵,其每一个元素记为基因参数,vjk表示第j个基因在r元空间的第k个参数,k为r元空间的各维度参数的索引,k=1,2,…,r;
步骤4:求解如下互斥性约束的矩阵分解模型,得到矩阵U和V中的样本参数和基因参数:
Figure FDA0003113705340000011
Figure FDA0003113705340000012
且当k≠l时,
Figure FDA0003113705340000013
其中,l表示当前正在对r元空间的第l个参数进行考察,l=1,2,…,r,ε为可调阈值,取值范围为(0,0.1];
步骤5:按下式计算得到基因参数的图拉普拉斯正则化项RegY(V):
Figure FDA0003113705340000014
其中,Y表示基因之间相互作用关系所组成的集合,Y={(s,j)|s与j存在互作关系},s和j分别代表第s个基因和第j个基因,(s,j)表示两个存在相互关系的基因所组成的基因对;vs为矩阵V中的第s行,vj为矩阵V中的第j行;I为示性函数,
Figure FDA0003113705340000015
为示性函数中的元素,如果基因互作网络中的基因s与基因j存在邻边,则
Figure FDA0003113705340000016
取值为1,否则
Figure FDA0003113705340000017
取值为0;
迭代求解以下联合图拉普拉斯正则化项的矩阵分解优化函数,得到融合基因互作网络的样本参数矩阵U′和基因参数矩阵V′:
Figure FDA0003113705340000021
s.t.diag(U′TU′)=I,U′≥0,(U′TU′-I)≤ε,且(U′TU′-I)≥-ε
其中,λ表示正则化项的调谐参数,取值为大于零的实数;ε表示元素值均为ε的矩阵;
步骤6:对于步骤5所得的矩阵U′,将其第k列元素最大值的索引所对应的样本作为第k组亚群的局部样本,k=1,2,…,r,得到所有r个组亚群的局部样本;
步骤7:对r组亚群的具备样本,分别采用离群值检验方法进行驱动基因检测,得到每组局部样本所对应的原假设分布,具体为:
首先,对于r组亚群中的第k组亚群,k=1,2,…,r,选取第k组亚群的局部样本在变异矩阵X中所对应的行,构成第k组亚群所对应的第k个子矩阵,并采用重启动的随机游走算法,利用基因互作关系集合Y对第k个子矩阵进行随机游走处理;然后,对随机游走得到的游走后矩阵进行随机重排,再将重排后的矩阵中的所有1×n维的行向量进行相加,加和后的1×n维向量为n个基因的分布水平采样,向量中n个维度的取值代表n个基因在本次采样的分布水平,重复此过程10000次,得到10000次n个基因的采样结果,将n个基因的10000次采样结果取值,对n个基因分布构建n个取值频次分布图,作为第k组亚群的局部样本的n个基因所分别对应的n个原假设分布;
步骤8:在第k组局部样本的n个原假设分布中,第j个基因所对应的原假设分布为n个原假设分布中的第j个原假设分布,将基因参数矩阵V′中的元素v′jk值,与第j个原假设分布的横坐标进行比对,将分布函数比对位置的右侧面积作为检验p值,通过Benjamini-Hochberg错误发现率矫正算法对检验p值进行错误发现率矫正,得到矫正后的p值,如果矫正后的p值小于0.05,则认为第j个基因是第k组局部样本的驱动基因,令j的取值从1取到n,k的取值从1取到r,按前述过程进行处理,则可以得到每一个基因是否为所有局部样本的驱动基因的识别结果。
CN202010583114.9A 2020-06-23 2020-06-23 互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法 Active CN111785325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010583114.9A CN111785325B (zh) 2020-06-23 2020-06-23 互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010583114.9A CN111785325B (zh) 2020-06-23 2020-06-23 互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法

Publications (2)

Publication Number Publication Date
CN111785325A CN111785325A (zh) 2020-10-16
CN111785325B true CN111785325B (zh) 2021-10-22

Family

ID=72757259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010583114.9A Active CN111785325B (zh) 2020-06-23 2020-06-23 互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法

Country Status (1)

Country Link
CN (1) CN111785325B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115101130B (zh) * 2022-06-30 2024-06-14 山东大学 一种基于网络对抗学习的单细胞数据插补方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016261A (zh) * 2017-04-11 2017-08-04 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN108090328A (zh) * 2017-12-31 2018-05-29 浙江大学 一种基于机器学习和多种统计学原理的癌症驱动基因鉴定方法
WO2018119411A1 (en) * 2016-12-23 2018-06-28 Trustees Of Boston University Classification of diffuse large b-cell lymphoma
CN108320807A (zh) * 2018-01-18 2018-07-24 中山大学 一种鼻咽癌人工智能辅助诊疗决策云系统
CN109994200A (zh) * 2019-03-08 2019-07-09 华南理工大学 一种基于相似度融合的多组学癌症数据整合分析方法
CN110189795A (zh) * 2019-05-05 2019-08-30 西安电子科技大学 一种基于子空间学习的亚群特异性驱动基因检测方法
CN111243664A (zh) * 2020-03-26 2020-06-05 北京泛生子基因科技有限公司 一种基于高通量测序的基因变异检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160378915A1 (en) * 2015-03-24 2016-12-29 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Multi-Scale, Annotation-Independent Detection of Functionally-Diverse Units of Recurrent Genomic Alteration

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018119411A1 (en) * 2016-12-23 2018-06-28 Trustees Of Boston University Classification of diffuse large b-cell lymphoma
CN107016261A (zh) * 2017-04-11 2017-08-04 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN108090328A (zh) * 2017-12-31 2018-05-29 浙江大学 一种基于机器学习和多种统计学原理的癌症驱动基因鉴定方法
CN108320807A (zh) * 2018-01-18 2018-07-24 中山大学 一种鼻咽癌人工智能辅助诊疗决策云系统
CN109994200A (zh) * 2019-03-08 2019-07-09 华南理工大学 一种基于相似度融合的多组学癌症数据整合分析方法
CN110189795A (zh) * 2019-05-05 2019-08-30 西安电子科技大学 一种基于子空间学习的亚群特异性驱动基因检测方法
CN111243664A (zh) * 2020-03-26 2020-06-05 北京泛生子基因科技有限公司 一种基于高通量测序的基因变异检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A gene interaction network-based method to measure the common and heterogeneous mechanisms of gynecological cancer;MINGYUAN WANG.et.;《MOLECULAR MEDICINE REPORTS》;20180503;第18卷(第1期);第230-242页 *
A novel unsupervised learning model for detecting driver genes from pan-cancer data through matrix tri-factorization framework with pairwise similarities constraints;Jianing Xi.et.;《Neurocomputing》;20180320;第296卷;第64-73页 *
Inferring subgroup specific driver genes from heterogeneous cancer samples via subspace learning with subgroup indication;Jianing Xi.et.;《Bioinformatics》;20191031;第36卷(第6期);第1855-1863页 *
基于高阶路径相似度网络的融合模型及多组学数据整合分析方法;徐傲丹;《中国优秀硕士学位论文全文数据库 基础科学辑》;20200215(第2期);第A002-126页 *

Also Published As

Publication number Publication date
CN111785325A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
AU2022268283B2 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
You et al. Artificial intelligence in cancer target identification and drug discovery
Cooke et al. A unified haplotype-based method for accurate and comprehensive variant calling
Morton et al. Multi-level analysis of the gut–brain axis shows autism spectrum disorder-associated molecular and microbial profiles
US9141913B2 (en) Categorization and filtering of scientific data
US20120197533A1 (en) Identifying rearrangements in a sequenced genome
US20030009295A1 (en) System and method for retrieving and using gene expression data from multiple sources
Féraud et al. Statistical treatment of 2D NMR COSY spectra in metabolomics: data preparation, clustering-based evaluation of the metabolomic informative content and comparison with 1 H-NMR
CN107025384A (zh) 一种复杂数据预测模型的构建方法
Armananzas et al. Peakbin selection in mass spectrometry data using a consensus approach with estimation of distribution algorithms
Rahnenführer et al. Statistical analysis of high-dimensional biomedical data: a gentle introduction to analytical goals, common approaches and challenges
CN113555062A (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
CN111785325B (zh) 互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法
Krysiak-Baltyn et al. Compass: a hybrid method for clinical and biobank data mining
CN113192556B (zh) 基于小样本的多组学数据中基因型与表型关联分析方法
Schikora-Tamarit et al. Recent gene selection and drug resistance underscore clinical adaptation across Candida species
Cao et al. A unified sparse representation for sequence variant identification for complex traits
Zhang et al. Data mining methods in Omics-based biomarker discovery
CN109887543B (zh) 一种低甲基化水平的差异甲基化位点识别方法
Melograna et al. Edge and modular significance assessment in individual-specific networks
Orlenko et al. Improving the interpretability of random forest models of genetic association in the presence of non-additive interactions
Deshpande A model to predict the phenotype for copy number variants of uncertain significance
Moore et al. KmerAperture: Retaining k-mer synteny for alignment-free extraction of core and accessory differences between bacterial genomes
Moussouni et al. Cleaning, integrating, and warehousing genomic data from biomedical resources
Montalbán Casafont Multidimensional framework for analysing next-generation sequencing data in a clinical diagnostic environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant