CN112509636B - 一种肿瘤基因组拷贝数变异特征模式识别方法及其应用 - Google Patents
一种肿瘤基因组拷贝数变异特征模式识别方法及其应用 Download PDFInfo
- Publication number
- CN112509636B CN112509636B CN202011516653.7A CN202011516653A CN112509636B CN 112509636 B CN112509636 B CN 112509636B CN 202011516653 A CN202011516653 A CN 202011516653A CN 112509636 B CN112509636 B CN 112509636B
- Authority
- CN
- China
- Prior art keywords
- copy number
- number variation
- tumor
- sample
- variation characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 132
- 238000012567 pattern recognition method Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 39
- 238000004393 prognosis Methods 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 239000012634 fragment Substances 0.000 claims description 25
- 210000000349 chromosome Anatomy 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 15
- 210000001519 tissue Anatomy 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 13
- 230000004083 survival effect Effects 0.000 claims description 11
- 238000001712 DNA sequencing Methods 0.000 claims description 9
- 238000007621 cluster analysis Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 6
- 238000007482 whole exome sequencing Methods 0.000 claims description 5
- 238000001963 scanning near-field photolithography Methods 0.000 claims description 3
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims 3
- 230000010355 oscillation Effects 0.000 claims 1
- 238000003745 diagnosis Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 108090000623 proteins and genes Proteins 0.000 abstract description 2
- 206010060862 Prostate cancer Diseases 0.000 description 21
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 21
- 201000011510 cancer Diseases 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000037429 base substitution Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000392 somatic effect Effects 0.000 description 2
- 206010027476 Metastases Diseases 0.000 description 1
- 101100272680 Paracentrotus lividus BP10 gene Proteins 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000011712 cell development Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002703 mutagenesis Methods 0.000 description 1
- 231100000350 mutagenesis Toxicity 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明涉及的是一种肿瘤基因组拷贝数变异特征模式识别方法及其应用,属于基因诊断技术领域。本发明对肿瘤基因组拷贝数变异的特征进行了系统的分类,具体提取了8类肿瘤基因组拷贝数变异特征的80个数值,利用非负矩阵分解算法抽取肿瘤样本的拷贝数变异特征模式,然后依据拷贝数变异特征模式对肿瘤进行分型,从而能够实现对肿瘤临床预后的精准预测。
Description
技术领域
本发明涉及一种肿瘤基因组拷贝数变异特征模式识别方法及其应用,属于基因诊断技术领域。
背景技术
癌症主要是由体细胞基因组DNA的变异引起的。根据基因组变异的大小和特征,这些与癌症相关的DNA变异可分为以下四种类型:单碱基取代(single base substitution,SBS),小片段插入和缺失(insertion/deletion,INDEL),结构改变(包括易位/倒位)以及拷贝数变异(copy number alteration)。体细胞DNA的拷贝数变异在癌症中极为普遍,并且报道是多种类型癌症进展的重要驱动力。基因组DNA变异的特征模式是重复出现的基因组模式,是癌细胞发展过程中积累的诱变过程的印记。拷贝数变异特征模式反映了,在癌症发展过程中特异性内源或外源性突变事件引起的重复拷贝数变异模式。单碱基变异的特征模式已在不同类型的癌症中有着广泛的研究。拷贝数变异是多种癌症发生发展的重要驱动力,但是,研究拷贝数变异特征模式的实用工具依然缺乏,目前也没有通过研究拷贝数变异特征模式对肿瘤进行精准分型和预后预测的报道。恶性肿瘤的分型以及预后的精准预测依然是目前未解决的医学难题。
发明内容
本发明所要解决的技术问题是:怎样识别肿瘤基因组拷贝数变异特征模式及其应用的技术问题。
为了解决上述问题,本发明提供了一种肿瘤基因组拷贝数变异特征模式识别方法,包括如下步骤:
步骤1:提取肿瘤样本以及正常对照组织的基因组DNA并测序;
步骤2:分析上述测序的数据,获得肿瘤样本的绝对拷贝数信息;
步骤3:记录肿瘤样本的拷贝数变异特征的数值;
步骤4:利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式。
优选地,所述步骤1中测序的方法为高通量全外显子组测序、全基因组测序或SNP芯片分析。
优选地,所述步骤2中分析的方法为采用Facet分析软件或Sequenza软件。
优选地,所述步骤3中的拷贝数变异特征包括每10Mb的断点数BP10MB、每个染色体臂的断点数BPArm、DNA片段的绝对拷贝数CN、相邻DNA片段之间的拷贝数差异CNCP、震荡拷贝数片段的长度OsCN、基于log10的拷贝数片段大小SS、占拷贝数变异50%的最小染色体数NC50和每条染色体的拷贝数变异程度BoChr;所述拷贝数变异特征的数值为80个。
本发明还提供了所述的一种肿瘤基因组拷贝数变异特征模式识别方法的应用。
优选地,所述的一种肿瘤基因组拷贝数变异特征模式识别方法的应用包括在肿瘤预后预测中的应用。
基于上述的肿瘤基因组拷贝数变异特征模式识别方法从肿瘤样本中提取到的拷贝数变异特征模式,采用聚类分析,对肿瘤样本进行分型;利用Cox生存分析,对不同的肿瘤类型进行预后预测。
本发明还提供了一种计算机程序产品,包含存储计算机程序的非暂时性可读存储器,所述计算机程序在计算机上运行时执行以下步骤:
步骤1:分析肿瘤样本以及正常对照组织的DNA测序结果,获得肿瘤样本的绝对拷贝数信息;
步骤2:记录肿瘤样本的拷贝数变异特征的数值;
步骤3:利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式。
优选地,上述计算机程序产品的计算机程序在执行完步骤3之后,继续执行以下步骤:
步骤4:利用聚类分析,依据所述步骤3中抽取到的肿瘤样本的具体拷贝数变异特征模式,对肿瘤进行分型;
步骤5:利用Cox生存分析,对不同的肿瘤类型进行预后预测。
本发明还提供了一种具有处理器的计算机,所述处理器配置成:
分析肿瘤样本以及正常对照组织的DNA测序结果,获得肿瘤样本的绝对拷贝数信息;记录肿瘤样本的拷贝数变异特征的数值;利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式。
优选地,上述具有处理器的计算机的处理器配置成:
分析肿瘤样本以及正常对照组织的DNA测序结果,获得肿瘤样本的绝对拷贝数信息;记录肿瘤样本的拷贝数变异特征的数值;利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式;利用聚类分析,依据肿瘤样本的具体拷贝数变异特征模式,对肿瘤进行分型;利用Cox生存分析,对不同的肿瘤类型进行预后预测。
与现有技术相比,本发明的有益效果在于:
1.本发明的一种肿瘤基因组拷贝数变异特征模式识别方法可以提取到肿瘤病人基因组的拷贝数变异(copy number alteration)特征模式,从而提取到肿瘤预后预测的基因组学标志物,其在肿瘤的早期筛查、辅助诊断、预后判断、疗效评价、复发和转移监测中具有重要意义;
2.依据本发明的一种肿瘤基因组拷贝数变异特征模式识别方法可以对肿瘤进行分型,从而实现对肿瘤临床预后的精准预测,为临床上开发新的治疗手段和新药研发提供了参考依据。
附图说明
图1为前列腺癌拷贝数变异特征识别流程;
图2中的a为前列腺癌中提取的5种拷贝数变异特征模式,b为前列腺癌中代表性肿瘤样本的基因组拷贝数图谱;
图3为前列腺癌依据拷贝数变异特征模式分为5种类型,每种类型富集一种拷贝数变异特征模式;
图4为前列腺癌拷贝数变异特征模式与病人临床预后预测的结果示意图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
本发明提供了一种肿瘤基因组拷贝数变异特征模式识别方法,包括如下步骤:
步骤1:提取肿瘤样本以及正常对照组织的基因组DNA并测序;
步骤2:分析上述测序结果,获得肿瘤样本的绝对拷贝数信息;
步骤3:记录肿瘤样本的拷贝数变异特征的数值;
步骤4:利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式。
优选地,所述步骤1中测序的方法为高通量全外显子组测序、全基因组测序或SNP芯片分析。
优选地,所述步骤2中分析的方法为采用Facet分析软件或Sequenza软件。
优选地,所述步骤3中的拷贝数变异特征包括每10Mb的断点数BP10MB、每个染色体臂的断点数BPArm、DNA片段的绝对拷贝数CN、相邻DNA片段之间的拷贝数差异CNCP、震荡拷贝数片段的长度OsCN、基于log10的拷贝数片段大小SS、占拷贝数变异50%的最小染色体数NC50和每条染色体的拷贝数变异程度BoChr;所述拷贝数变异特征的数值为80个。
本发明所述的一种肿瘤基因组拷贝数变异特征模式识别方法的应用。
优选地,所述的一种肿瘤基因组拷贝数变异特征模式识别方法的应用包括在肿瘤预后预测中的应用。
基于上述的肿瘤基因组拷贝数变异特征模式识别方法从肿瘤样本中提取到的拷贝数变异特征模式,采用聚类分析,对肿瘤样本进行分型;利用Cox生存分析,对不同的肿瘤类型进行预后预测。
本发明还提供了一种计算机程序产品,包含存储计算机程序的非暂时性可读存储器,所述计算机程序在计算机上运行时执行以下步骤:
步骤1:分析肿瘤样本以及正常对照组织的DNA测序结果,获得肿瘤样本的绝对拷贝数信息;
步骤2:记录肿瘤样本的拷贝数变异特征的数值;
步骤3:利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式。
优选地,上述计算机程序产品的计算机程序在执行完步骤3之后,继续执行以下步骤:
步骤4:利用聚类分析,依据所述步骤3中抽取到的肿瘤样本的具体拷贝数变异特征模式,对肿瘤进行分型;
步骤5:利用Cox生存分析,对不同的肿瘤类型进行预后预测。
本发明还提供了一种具有处理器的计算机,所述处理器配置成:
分析肿瘤样本以及正常对照组织的DNA测序结果,获得肿瘤样本的绝对拷贝数信息;记录肿瘤样本的拷贝数变异特征的数值;利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式。
优选地,上述具有处理器的计算机的处理器配置成:
分析肿瘤样本以及正常对照组织的DNA测序结果,获得肿瘤样本的绝对拷贝数信息;记录肿瘤样本的拷贝数变异特征的数值;利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式;利用聚类分析,依据肿瘤样本的具体拷贝数变异特征模式,对肿瘤进行分型;利用Cox生存分析,对不同的肿瘤类型进行预后预测。
实施例1
前列腺癌基因组拷贝数变异特征模式识别方法,包括如下步骤:
1)从dbGap公共数据库提取前列腺癌基因组的高通量全外显子组测序(WholeExome Sequencing,WES)结果,总共有937对肿瘤和正常对照组织;
2)利用Sequenza软件,从上述WES测序结果中提取每个肿瘤样本的绝对拷贝数信息;
3)记录拷贝数变异特征的数值,拷贝数变异特征识别流程如图1所示。每个肿瘤计算了8类拷贝数变异特征:每10Mb的断点数(命名为BP10MB);每个染色体臂的断点数(称为BPArm);DNA片段的绝对拷贝数(名为CN);相邻DNA片段之间的拷贝数差异(称为CNCP);震荡拷贝数片段的长度(称为OsCN);基于log10的拷贝数片段大小(名为SS);占拷贝数变异50%的最小染色体数(称为NC50);每条染色体的拷贝数变异程度(称为BoChr)。拷贝数变异的特征数值大部分是离散值,其余是范围值,总共有80个拷贝数变异特征数值,如表1所示。根据上述拷贝数变异特征的定义,对每个肿瘤样本生成一个拷贝数变异成分矩阵,该矩阵有80行,每行代表一个拷贝数变异特征在每个具体肿瘤里面的数值;
表1拷贝数变异特征的数值
4)提取每个肿瘤样本的拷贝数变异特征模式,利用非负矩阵分解(non-negativematrix factorization,NMF)算法抽取每个肿瘤样本的具体拷贝数变异特征模式。NMF算法将步骤3得到的样本拷贝数变异特征矩阵分解为拷贝数变异特征模式矩阵,和样本变异特征模式活性矩阵的乘积,样本变异特征模式的活性表示具体拷贝数变异特征模式相对其他变异模式在肿瘤中的贡献比例。从973对前列腺癌组织中共提取到5个拷贝数变异特征模式,如图2所示。
前列腺癌基因组拷贝数变异特征模式识别方法在前列腺癌预后预测中的应用,具体方法为:
1)利用聚类分析,依据上述提取到的5个拷贝数变异特征模式,将前列腺癌分为5种类型,每种类型的前列腺癌选择性地富集一种拷贝数变异特征模式,分型结果如图3所示。
2)利用Cox生存分析,检测不同拷贝数变异特征模式的肿瘤类型(CN-Sig1,CN-Sig2,CN-Sig3,CN-Sig4,CN-Sig5)对前列腺癌预后的影响,发现CN-sig 2与较差的生存预后显著相关,而CN-sig5与改进的生存预后显著,详细结果如图4所示。
实施例1的前列腺癌基因组拷贝数变异特征模式识别方法及其前列腺癌预后预测的方法可以在计算机系统中实现,所述计算机系统包括用于实现所述实施例1的方法的硬件、软件和数据存储器。例如,计算机系统包括处理器,输入装置,输出装置和数据存储器。所述处理器配置成实现实施例1的前列腺癌基因组拷贝数变异特征模式识别方法或前列腺癌预后预测的方法。计算机系统具有监视器以提供视觉输出显示(例如,在处理过程中显示输出结果)。数据存储器可以包括RAM,磁盘驱动器或其他计算机可读介质。计算机系统可以包括通过网络连接并且能够通过该网络彼此通信的多个计算设备。
实施例1的前列腺癌基因组拷贝数变异特征模式识别方法及其前列腺癌预后预测的方法还可以作为计算机程序或承载计算机程序的计算机程序产品或计算机可读介质提供,该计算机程序在计算机上运行时被安排来执行所述实施例1的前列腺癌基因组拷贝数变异特征模式识别方法或前列腺癌预后预测的方法。所述计算机可读介质包括但不限于可由计算机或计算机系统直接读取和访问的任何非暂时性媒介或介质。所述介质可以包括但不限于磁存储介质,例如软盘、硬盘存储介质和磁带;光存储介质,如光盘或CD-ROM;电子存储介质如存储器,包括RAM、ROM和闪存;以及上述的存储介质的组合,例如磁/光存储介质。
以上实施例仅为本发明的优选实施例,并非对本发明任何形式上和实质上的限制,应当指出,对于本技术领域的普通技术人员,在不脱离本发明的前提下,还将可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
Claims (8)
1.一种肿瘤基因组拷贝数变异特征模式识别方法,其特征在于,包括如下步骤:
步骤1:提取肿瘤样本以及正常对照组织的基因组DNA并测序;
步骤2:分析上述测序结果,获得肿瘤样本的绝对拷贝数信息;
步骤3:记录肿瘤样本的拷贝数变异特征的数值;所述拷贝数变异特征包括每10Mb的断点数BP10MB、每个染色体臂的断点数BPArm、DNA片段的绝对拷贝数CN、相邻DNA片段之间的拷贝数差异CNCP、震荡拷贝数片段的长度OsCN、基于log10的拷贝数片段大小SS、占拷贝数变异50%的最小染色体数NC50和每条染色体的拷贝数变异程度BoChr;根据所述拷贝数变异特征的定义,对每个肿瘤样本生成一个拷贝数变异成分矩阵,该矩阵有80行,每行代表一个拷贝数变异特征在每个具体肿瘤里面的数值;
步骤4:利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式;非负矩阵分解算法将步骤3得到的样本拷贝数变异特征矩阵分解为拷贝数变异特征模式矩阵,和样本变异特征模式活性矩阵的乘积,样本变异特征模式的活性表示具体拷贝数变异特征模式相对其他变异模式在肿瘤中的贡献比例。
2.如权利要求1所述的一种肿瘤基因组拷贝数变异特征模式识别方法,其特征在于,所述步骤1中测序的方法为高通量全外显子组测序、全基因组测序或SNP芯片分析。
3.如权利要求1所述的一种肿瘤基因组拷贝数变异特征模式识别方法,其特征在于,所述步骤2中分析的方法为采用Facet分析软件或Sequenza软件。
4.权利要求1~3中任意一项所述的一种肿瘤基因组拷贝数变异特征模式识别方法的应用,其特征在于,包括在肿瘤预后预测中的应用。
5.一种计算机存储介质,其包含计算机程序,所述计算机程序在计算机上运行时执行以下步骤:
步骤1:分析肿瘤样本以及正常对照组织的DNA测序结果,获得肿瘤样本的绝对拷贝数信息;
步骤2:记录肿瘤样本的拷贝数变异特征的数值;所述拷贝数变异特征包括每10Mb的断点数BP10MB、每个染色体臂的断点数BPArm、DNA片段的绝对拷贝数CN、相邻DNA片段之间的拷贝数差异CNCP、震荡拷贝数片段的长度OsCN、基于log10的拷贝数片段大小SS、占拷贝数变异50%的最小染色体数NC50和每条染色体的拷贝数变异程度BoChr;根据所述拷贝数变异特征的定义,对每个肿瘤样本生成一个拷贝数变异成分矩阵,该矩阵有80行,每行代表一个拷贝数变异特征在每个具体肿瘤里面的数值;
步骤3:利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式;非负矩阵分解算法将步骤3得到的样本拷贝数变异特征矩阵分解为拷贝数变异特征模式矩阵,和样本变异特征模式活性矩阵的乘积,样本变异特征模式的活性表示具体拷贝数变异特征模式相对其他变异模式在肿瘤中的贡献比例。
6.如权利要求5所述的一种计算机存储介质,其特征在于,所述计算机程序在执行完步骤3之后,继续执行以下步骤:
步骤4:利用聚类分析,依据所述步骤3中抽取到的肿瘤样本的具体拷贝数变异特征模式,对肿瘤进行分型;
步骤5:利用Cox生存分析,对不同的肿瘤类型进行预后预测。
7.一种具有处理器的计算机,其特征在于,所述处理器配置成:
分析肿瘤样本以及正常对照组织的DNA测序结果,获得肿瘤样本的绝对拷贝数信息;
记录肿瘤样本的拷贝数变异特征的数值;其中,所述拷贝数变异特征包括每10Mb的断点数BP10MB、每个染色体臂的断点数BPArm、DNA片段的绝对拷贝数CN、相邻DNA片段之间的拷贝数差异CNCP、震荡拷贝数片段的长度OsCN、基于log10的拷贝数片段大小SS、占拷贝数变异50%的最小染色体数NC50和每条染色体的拷贝数变异程度BoChr;根据所述拷贝数变异特征的定义,对每个肿瘤样本生成一个拷贝数变异成分矩阵,该矩阵有80行,每行代表一个拷贝数变异特征在每个具体肿瘤里面的数值;
利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式;非负矩阵分解算法将上述得到的样本拷贝数变异特征矩阵分解为拷贝数变异特征模式矩阵,和样本变异特征模式活性矩阵的乘积,样本变异特征模式的活性表示具体拷贝数变异特征模式相对其他变异模式在肿瘤中的贡献比例。
8.如权利要求7所述的一种具有处理器的计算机,其特征在于,所述处理器配置成:
分析肿瘤样本以及正常对照组织的DNA测序结果,获得肿瘤样本的绝对拷贝数信息;记录肿瘤样本的拷贝数变异特征的数值;利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式;利用聚类分析,依据肿瘤样本的具体拷贝数变异特征模式,对肿瘤进行分型;利用Cox生存分析,对不同的肿瘤类型进行预后预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011516653.7A CN112509636B (zh) | 2020-12-21 | 2020-12-21 | 一种肿瘤基因组拷贝数变异特征模式识别方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011516653.7A CN112509636B (zh) | 2020-12-21 | 2020-12-21 | 一种肿瘤基因组拷贝数变异特征模式识别方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112509636A CN112509636A (zh) | 2021-03-16 |
CN112509636B true CN112509636B (zh) | 2024-03-15 |
Family
ID=74921809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011516653.7A Active CN112509636B (zh) | 2020-12-21 | 2020-12-21 | 一种肿瘤基因组拷贝数变异特征模式识别方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112509636B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766428B (zh) * | 2021-04-08 | 2021-07-02 | 臻和(北京)生物科技有限公司 | 肿瘤分子分型方法及装置、终端设备及可读存储介质 |
CN113571130B (zh) * | 2021-07-23 | 2023-08-18 | 上海科技大学 | 一种简洁全面的拷贝数变异模式识别方法及其应用 |
CN115148287B (zh) * | 2022-09-01 | 2024-05-31 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 基因焦点扩增分型模型的构建方法及肿瘤样本的分型方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010051318A2 (en) * | 2008-10-31 | 2010-05-06 | Abbott Laboratories | Genomic classification of colorectal cancer based on patterns of gene copy number alterations |
WO2017211947A1 (en) * | 2016-06-08 | 2017-12-14 | Cancer Research Technology Limited | Chemosensitivity predictive biomarkers |
CN110468207A (zh) * | 2019-09-02 | 2019-11-19 | 北京师范大学 | 基于Taqman低密度芯片的胶质瘤EM/PM分子分型方法及其应用 |
CN111402951A (zh) * | 2020-03-17 | 2020-07-10 | 至本医疗科技(上海)有限公司 | 拷贝数变异预测方法、装置、计算机设备和存储介质 |
CN111785322A (zh) * | 2019-12-30 | 2020-10-16 | 杭州慕谷基因科技有限公司 | 一种结肠腺癌基因组变异与肿瘤进化关系的研究方法 |
CN111968701A (zh) * | 2020-08-27 | 2020-11-20 | 北京吉因加科技有限公司 | 检测指定基因组区域体细胞拷贝数变异的方法和装置 |
-
2020
- 2020-12-21 CN CN202011516653.7A patent/CN112509636B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010051318A2 (en) * | 2008-10-31 | 2010-05-06 | Abbott Laboratories | Genomic classification of colorectal cancer based on patterns of gene copy number alterations |
CN102203787A (zh) * | 2008-10-31 | 2011-09-28 | 雅培制药有限公司 | 基于基因拷贝数改变的模式的结肠直肠癌的基因组分类 |
WO2017211947A1 (en) * | 2016-06-08 | 2017-12-14 | Cancer Research Technology Limited | Chemosensitivity predictive biomarkers |
CN110468207A (zh) * | 2019-09-02 | 2019-11-19 | 北京师范大学 | 基于Taqman低密度芯片的胶质瘤EM/PM分子分型方法及其应用 |
CN111785322A (zh) * | 2019-12-30 | 2020-10-16 | 杭州慕谷基因科技有限公司 | 一种结肠腺癌基因组变异与肿瘤进化关系的研究方法 |
CN111402951A (zh) * | 2020-03-17 | 2020-07-10 | 至本医疗科技(上海)有限公司 | 拷贝数变异预测方法、装置、计算机设备和存储介质 |
CN111968701A (zh) * | 2020-08-27 | 2020-11-20 | 北京吉因加科技有限公司 | 检测指定基因组区域体细胞拷贝数变异的方法和装置 |
Non-Patent Citations (2)
Title |
---|
Junbo Duan,et al.Detection of common copy number variation with application to population clustering from next generation sequencing data.《IEEE Xplore》.2012,全文. * |
用于样本聚类和网络分析的整合鲁棒结构化NMF模型;张晓宁;孔祥真;罗传文;刘金星;;应用科学学报(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112509636A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112509636B (zh) | 一种肿瘤基因组拷贝数变异特征模式识别方法及其应用 | |
Shannon et al. | Analyzing microarray data using cluster analysis | |
Kilpinen et al. | Systematic bioinformatic analysis of expression levels of 17,330 human genes across 9,783 samples from 175 types of healthy and pathological tissues | |
Smith et al. | Using quality scores and longer reads improves accuracy of Solexa read mapping | |
CN109219666A (zh) | 癌症的突变标签 | |
CN108038352B (zh) | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 | |
EP4016533B1 (en) | Method and apparatus for machine learning based identification of structural variants in cancer genomes | |
CN109219853A (zh) | 检测样品中的突变特征的方法 | |
WO2018064547A1 (en) | Methods for classifying somatic variations | |
CN102203789B (zh) | 基于基因拷贝数改变的模式的恶性黑色素瘤的基因组分类 | |
Marko et al. | Why is there a lack of consensus on molecular subgroups of glioblastoma? Understanding the nature of biological and statistical variability in glioblastoma expression data | |
Toh et al. | Genetic risk score for ovarian cancer based on chromosomal-scale length variation | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
WO2024140881A1 (zh) | 胎儿dna浓度的确定方法及装置 | |
US12020777B1 (en) | Cancer diagnostic tool using cancer genomic signatures to determine cancer type | |
CN113035275B (zh) | 结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法 | |
WO2020131872A1 (en) | Determination of a physiological condition with nucleic acid fragment endpoints | |
KR102404947B1 (ko) | 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치 | |
CN110819700A (zh) | 一种构建肺部小结节计算机辅助检测模型的方法 | |
Fu et al. | Mapping morphological shape as a high-dimensional functional curve | |
CN113035274A (zh) | 一种基于nmf的肿瘤基因点突变的特征图谱提取算法 | |
Maskery et al. | Co-occurrence analysis for discovery of novel breast cancer pathology patterns | |
WO2021042237A1 (zh) | 获得细胞内确定性事件的方法及电子设备 | |
WO2021042236A1 (zh) | 疾病治疗管理因素特征自动预测方法及电子设备 | |
Johannessen et al. | TIN: an R package for transcriptome instability analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |