CN110289047B - 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统 - Google Patents

基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统 Download PDF

Info

Publication number
CN110289047B
CN110289047B CN201910407581.3A CN201910407581A CN110289047B CN 110289047 B CN110289047 B CN 110289047B CN 201910407581 A CN201910407581 A CN 201910407581A CN 110289047 B CN110289047 B CN 110289047B
Authority
CN
China
Prior art keywords
copy number
readcounts
sample
tumor purity
ploidy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910407581.3A
Other languages
English (en)
Other versions
CN110289047A (zh
Inventor
袁细国
李喆
张军英
杨利英
习佳宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910407581.3A priority Critical patent/CN110289047B/zh
Publication of CN110289047A publication Critical patent/CN110289047A/zh
Application granted granted Critical
Publication of CN110289047B publication Critical patent/CN110289047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于基因组测序技术领域,公开了一种基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统;利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件;使用拷贝数变异检测方法对预处理好的数据样本进行实验,产生检测结果;根据拷贝数检测结果,提取出其中变异为Loss类型的结果,使用聚类方法分析各个Loss情况的倍体,倍体情况记录作为下一步预测肿瘤纯度的输入;采用无监督的机器学习方法进行肿瘤纯度的预测;利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值,计算出癌细胞的readcounts值,根据样本倍体计算出绝对拷贝数。本发明通过仿真数据的测试,可以发现本发明的测试结果相对于其它方法来说更为准确。

Description

基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统
技术领域
本发明属于基因组测序技术领域,尤其涉及一种基于测序数据的肿瘤纯度及绝对拷贝数预测方法。
背景技术
目前,可以提供肿瘤纯度预测的方法大多局限于SNParray所产生的数据,ABSOLUTE可以从低覆盖度的全基因组测序数据样本中进行肿瘤纯度的预测,可以称之为评估肿瘤纯度最常用的方法之一,也是比较接近本方案的现有方法,其方法同样利用了肿瘤样本的CNV信息来对肿瘤纯度进行估计,但由于肿瘤样本的复杂性,其方法同时结合了SNV的信息去进行肿瘤纯度的估计才能达到一定的准确度,但是本方法仅使用了肿瘤样本的CNV信息就可以达到很高的准确率,从操作难度和数据要求上都降低了一定的难度,在进一步的研究中,本方法还从肿瘤纯度出发进一步还原了样本绝对拷贝数的信息,这也是ABSOLUTE方法所没有涉及的,并且,本方法是采用python语言所编写的,相比ABSOLUTE方法使用R语言编写,适用人群更加广泛,便于理解。
新一代测序(NGS)技术彻底改变了癌症基因组的研究。癌症基因组通常以广泛的体细胞拷贝数变异(CNA)为特征,其中基因组片段被删除或重复一次或多次,目前已经提出了许多方法从测序数据中发现拷贝数变化,其大多数方法旨在鉴定肿瘤基因组中区段的相对拷贝数而非绝对拷贝数;然而,从肿瘤样品获得的reads通常由正常细胞和肿瘤细胞的混合物组成,因此在正确推断绝对拷贝数这项工作中,肿瘤纯度的估计是其所必需的。
拷贝数变异(CNA)是基因组中一种重要的变异现象,是一种大小介于1kb至3Mb的DNA片段的变异,主要表现为Gain和Loss两种状态,是由于在染色体复制过程中,部分基因片段被多复制或者少拷贝几次,并且拷贝数变异与人类的许多疾病都息息相关。
肿瘤纯度不仅影响基因组中不同区段的拷贝数变化,还影响这些区段中等位基因频率的分布。在新一代测序数据中,这两种类型的信息可以根据映射到每个片段的reads总数和在不同位点匹配B-等位基因的reads频率(B-等位基因频率)来概括。根据拷贝数变化情况和B-等位基因频率信息的使用,现有方法可大致分为两类:
1、在体细胞突变位点使用B-等位基因频率(BAF)来估计肿瘤纯度,比如PurityEst和PurBayes方法,假如样本的肿瘤纯度为100%,则其体细胞突变位点的B-等位基因频率(BAF)大概为0.5,正常细胞的混入将会导致这些位点中的B-等位基因频率(BAF)下降;
2、依赖拷贝数变化来估计肿瘤纯度,比如CNAnorm,THetA和ABSOLUTE方法,首先,直接从观察到的相对拷贝数文件中(如果允许的话也可以使用点突变的信息)来联合估计肿瘤纯度和倍体,其次,由于一个单样本无法完全确定这种联合估计,会使用大量的不同样本来帮忙解决这种模糊问题。
基于测序数据(NGS)的CNV检测方法主要分为两类:基于双端映射(PEM)的方法和基于覆盖深度(DOC)的方法。
基于PEM的方法使用双端读段,基因组样本中的双端读段被映射到参考基因组,然后样本和参考序列这两端之间的距离分别被计算出来,如果这两个距离区别很大,就可以证明样本中存在插入(insertion)或者删除(deletion)。
基于DOC的方法在CNV检测中更常用,它首先跟踪读段与参考序列中非重叠窗口或滑动窗口的映射情况,然后形成read count或者read depth数据,根据此类数据,从统计角度分析拷贝数变异的存在。
综上所述,现有技术存在的问题是:
(1)通过使用B-等位基因频率(BAF)信息进行预测的方法比较依赖体细胞突变位点的检测,但由于其检测方法不够准确,其中包含的假阳性结果可能严重影响对肿瘤纯度的估计。
(2)依赖于拷贝数变化估计肿瘤纯度的方法受到所谓“可识别性问题”的严重阻碍,其中肿瘤纯度和倍性的不同组合也可以同样良好的解释观察到的数据。
解决上述技术问题的难度:
首先,针对第一个问题,利用SNV信息进行肿瘤纯度预测的方法局限于SNV的检测方法,受其检测方法的准确度影响,要解决这个问题,只能开发出准确率更高的SNV检测方法,其难度可想而知;
其次,相比而言,依赖于拷贝数变化进行肿瘤纯度预测的方法同样受制于CNV的检测方法,再加上倍体和肿瘤纯度联合估计所造成的模糊问题并非仅靠简单的多样本来解决,多样本从一定意义上只是增添结果的准确性和可信度,并不能决定结果的走向。
解决上述技术问题的意义:
众所周知,获取的肿瘤组织中往往包含一定数量的正常细胞,其混入会对后续各种基因组分析造成不利影响,进一步在临床中也会对病人的病情分析产生不好的作用,因此如果能解决上述问题或者能另辟新径准确估计其中正常细胞的比例,将会对后期一些基因组分析产生很大的帮助,比如本方法就在准确预测出肿瘤纯度的基础上进一步还原出CNV检测过程中的绝对拷贝数信息。
发明内容
针对现有技术存在的问题,本发明提供了一种基于测序数据的肿瘤纯度及绝对拷贝数预测方法。
本发明是这样实现的,一种基于测序数据的肿瘤纯度及绝对拷贝数预测系统,所述基于测序数据的肿瘤纯度及绝对拷贝数预测系统包括:
readepth文件生成模块,用于利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件;
拷贝数变异检测模块,用于使用拷贝数变异检测方法对预处理好的数据样本进行实验,产生检测结果;
倍体情况分析模块,用于根据拷贝数检测结果,提取出其中变异为Loss类型的结果,使用聚类方法分析各个Loss情况的倍体,倍体情况记录作为下一步预测肿瘤纯度的输入;
肿瘤纯度的预测模块,用于采用无监督的机器学习方法进行肿瘤纯度的预测;
绝对拷贝数计算模块,用于利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值,计算出癌细胞的readcounts值,根据样本倍体计算出绝对拷贝数。
进一步,所述肿瘤纯度及绝对拷贝数预测系统进一步包括:
数据的预处理模块,用于利用bwa和samtools生信软件对原始fastq测序数列进行一系列的处理生成样本的readepth文件,其中包含了样本中每个位点的readcounts值,可供下一步拷贝数变异检测使用。
进一步,所述肿瘤纯度的预测模块采用无监督的机器学习方法进行肿瘤纯度的预测;每个样本最后的检测结果可理解为观察到的样本readcounts值,但由于样本是正常细胞和癌细胞的混合体,所以这项值可以通过样本中癌细胞和正常细胞分别含有的readcounts值进行加权得到,上一步已经得出癌细胞的倍体情况,再结合正常细胞的readcounts值,通过迭代的方式寻找给定肿瘤纯度下所计算的样本的readcounts值与检测到的readcounts值的误差值,令误差值最小的肿瘤纯度及为所预测到的肿瘤纯度。
本发明的另一目的在于提供一种基于测序数据的肿瘤纯度及绝对拷贝数预测方法,所述基于测序数据的肿瘤纯度及绝对拷贝数预测方法包括:
第一步,利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件,首先利用bwa的比对命令生成测序数据的常用格式bam文件,然后利用samtools的mpileup命令从bam文件中提取出样本的readcounts信息从而生成readepth文件;
第二步,使用拷贝数变异检测方法对预处理好的数据样本进行实验,即将上一步所生成的readdepth文件和对应的reference序列作为拷贝数变异检测方法的输入,调整参数运行方法即可得出结果,采用的CNV检测方法是一种基于孤立森林算法所研究出的方法(由于拷贝数变异检测方法并非本发明的内容,原理不作过多涉及),准确率相比来说较高,产生CNV检测结果,包含变异片段的始终位置,长度,变异类型,初步预估的拷贝数;
第三步,根据拷贝数的检测结果,提取出其中变异为Loss类型的结果,采用k-means聚类方法对所有loss变异类型的readcounts数据进行分类,具体过程是将样本中所有loss变异类型区段的readcounts值作为一组一维数据,根据其数值的分布情况将其进行不同类型的标记,比如二倍体的loss类型会分成两种情况hemiloss和homoloss,在此会被标记为1和0,,即为各个Loss类型的倍体情况,将其记录下来作为下一步预测肿瘤纯度的输入;
第四步,采用无监督的机器学习方法进行肿瘤纯度的预测,根据各个Loss变异类型的倍体情况以及CNV检测过程中所得到的正常细胞的readcounts数据,对肿瘤纯度进行一定合理范围内的上下迭代,通过计算该肿瘤纯度下的误差值(拷贝数检测过程中得到的样本片段readcounts值和根据该肿瘤纯度计算(具体计算原理见下一步)的readcounts值的差异值)进行最佳拟合,误差最小的肿瘤纯度即为预测到的肿瘤纯度;
第五步,利用预测到的肿瘤纯度p以及拷贝数检测得到的样本片段readcounts值RDseg,再结合CNV检测过程中所得到的正常细胞的readcounts数据RDnor,计算出片段中癌细胞的readcounts值RDreal,然后根据样本倍体计算出绝对拷贝数CNreal,具体计算过程可根据下列公式得出:
RDreal=(RDseg-RDnor*(1-p))/p
CNreal=ploidy*(RDreal/RDnor)
进一步,所述第一步的readepth文件包含样本中每个位点的readcounts值。
进一步,所述第四步的采用无监督的机器学习方法进行肿瘤纯度的预测具体包括;得出癌细胞的倍体情况,再结合正常细胞的readcounts值,通过迭代的方式寻找给定肿瘤纯度下所计算的样本的readcounts值与检测到的readcounts值的误差值,令误差值最小的肿瘤纯度及为所预测到的肿瘤纯度。
综上所述,本发明的优点及积极效果为:
本发明提供了一种简单而稳健的算法,从测序数据中推断肿瘤细胞的纯度和绝对拷贝数;通过聚类将拷贝数检测结果中的Loss情况进行倍性分类,确定之后通过拷贝数检测结果和倍性分类结果就能比较准确的估计出肿瘤纯度。
本发明能够解决现有方法预测肿瘤纯度不够准确的问题、传统实验技术估计肿瘤纯度成本太过昂贵和耗时的问题以及现有拷贝数检测方法主要预测相对拷贝数而非绝对拷贝数的问题。本发明的操作简单,本发明只需要拷贝数检测后的readcounts结果文件和一个正常细胞的readcounts值即可完成检测,同时,首先通过ART软件对样本fastq序列和参考序列fasta进行reads的划分,然后使用seqtk从fastq序列(肿瘤细胞)和fasta序列(正常细胞)提取不同比例的reads进行混合,生成所需要的固定肿瘤纯度的肿瘤样本,通过上述仿真数据的测试,可以发现本发明的测试结果相对于其它方法来说更为准确。
综上所述,下面简单给出本发明和现有的肿瘤纯度预测方法ichorCNA分别对肿瘤纯度为0.4,0.6和0.8的仿真数据进行预测的结果,每组仿真数据共50个样本;对比结果如下:
Figure BDA0002061743730000061
附图说明
图1是本发明实施例提供的基于测序数据的肿瘤纯度及绝对拷贝数预测方法流程图。
图2是本发明实施例提供的基于测序数据的肿瘤纯度及绝对拷贝数预测方法实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明通过提取拷贝数变异检测结果中Loss情况进行倍性分类,更好地预测肿瘤纯度;在技术上使用一种迭代式的无监督机器学习方法,可以灵活的计算出准确的肿瘤纯度值。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于测序数据的肿瘤纯度及绝对拷贝数预测方法包括以下步骤:
S101:利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件;
S102:使用拷贝数变异检测方法对预处理好的数据样本进行实验,产生检测结果;
S103:根据拷贝数检测结果,提取出其中变异为Loss类型的结果,使用聚类方法分析各个Loss情况的倍体,倍体情况记录作为下一步预测肿瘤纯度的输入;
S104:采用无监督的机器学习方法进行肿瘤纯度的预测;
S105:利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值,计算出癌细胞的readcounts值,可命名为绝对readcounts值,根据样本倍体计算出绝对拷贝数。
下面结合附图对本发明的应用原理作进一步的描述。
如图2所示,本发明实施例提供的基于测序数据的肿瘤纯度及绝对拷贝数预测方法包括以下步骤:
(1)数据的预处理;
利用bwa和samtools生信软件对原始fastq测序数列进行一系列的处理生成样本的readepth文件,其中包含了样本中每个位点的readcounts值,可供下一步拷贝数变异检测使用。
(2)拷贝数变异检测;
使用之前参与研究的一种拷贝数变异检测方法对预处理好的数据样本进行实验,产生其检测结果。
(3)将检测结果的Loss结果提取出来进行聚类;
根据拷贝数检测结果,提取出其中变异为Loss类型的结果,使用聚类方法分析各个Loss情况的倍体,将其倍体情况记录作为下一步预测肿瘤纯度的输入。
(4)采用无监督的机器学习方法进行肿瘤纯度的预测;
每个样本最后的检测结果可理解为观察到的样本readcounts值,但由于样本是正常细胞和癌细胞的混合体,所以这项值可以通过样本中癌细胞和正常细胞分别含有的readcounts值进行加权得到,上一步已经得出癌细胞的倍体情况,再结合正常细胞的readcounts值,通过迭代的方式寻找给定肿瘤纯度下所计算的样本的readcounts值与检测到的readcounts值的误差值,令误差值最小的肿瘤纯度及为所预测到的肿瘤纯度。
(5)推断绝对拷贝数;
利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值,计算出癌细胞的readcounts值,可命名为绝对readcounts值,然后根据样本倍体计算出绝对拷贝数。
下面给出本发明分别对0.2,0.4和0.8仿真数据绝对拷贝数的检测结果,最后一列给出的是其仿真数据的groundtruth信息,可以看出来本发明所预测出的绝对拷贝数具有较高的还原度;
Figure BDA0002061743730000091
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于测序数据的肿瘤纯度及绝对拷贝数预测系统,其特征在于,所述基于测序数据的肿瘤纯度及绝对拷贝数预测系统包括:
readepth文件生成模块,用于利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件;
拷贝数变异检测模块,用于使用拷贝数变异检测方法对预处理好的数据样本进行实验,产生检测结果;
倍体情况分析模块,用于根据拷贝数检测结果,提取出其中变异为Loss类型的结果,使用聚类方法分析各个Loss情况的倍体,倍体情况记录作为下一步预测肿瘤纯度的输入;
肿瘤纯度的预测模块,用于采用无监督的机器学习方法进行肿瘤纯度的预测;
绝对拷贝数计算模块,用于利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值,计算出癌细胞的readcounts值,根据样本倍体计算出绝对拷贝数。
2.如权利要求1所述的基于测序数据的肿瘤纯度及绝对拷贝数预测系统,其特征在于,所述肿瘤纯度及绝对拷贝数预测系统进一步包括:
数据的预处理模块,用于利用bwa和samtools生信软件对原始fastq测序数列进行一系列的处理生成样本的readepth文件,其中包含了样本中每个位点的readcounts值,可供下一步拷贝数变异检测使用。
3.如权利要求1所述的基于测序数据的肿瘤纯度及绝对拷贝数预测系统,其特征在于,所述肿瘤纯度的预测模块采用无监督的机器学习方法进行肿瘤纯度的预测;每个样本最后的检测结果可理解为观察到的样本readcounts值,但由于样本是正常细胞和癌细胞的混合体,所以这项值能够通过样本中癌细胞和正常细胞分别含有的readcounts值进行加权得到,上一步已经得出癌细胞的倍体情况,再结合正常细胞的readcounts值,通过迭代的方式寻找给定肿瘤纯度下所计算的样本的readcounts值与检测到的readcounts值的误差值,令误差值最小的肿瘤纯度及为所预测到的肿瘤纯度。
4.一种利用权利要求1-3任意一项所述系统的基于测序数据的肿瘤纯度及绝对拷贝数预测方法,其特征在于,所述基于测序数据的肿瘤纯度及绝对拷贝数预测方法包括:
第一步,利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件;
第二步,使用拷贝数变异检测方法对预处理好的数据样本进行实验,产生检测结果;
第三步,根据拷贝数检测结果,提取出其中变异为Loss类型的结果,使用聚类方法分析各个Loss情况的倍体,倍体情况记录作为下一步预测肿瘤纯度的输入;
第四步,采用无监督的机器学习方法进行肿瘤纯度的预测;
第五步,利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值,计算出癌细胞的readcounts值,根据样本倍体计算出绝对拷贝数。
5.如权利要求4所述的基于测序数据的肿瘤纯度及绝对拷贝数预测方法,其特征在于,推断绝对拷贝数的方法进一步包括以下步骤:
(1)数据的预处理;
利用bwa和samtools生信软件对原始fastq测序数列进行一系列的处理生成样本的readepth文件,其中包含了样本中每个位点的readcounts值,可供下一步拷贝数变异检测使用;
(2)拷贝数变异检测;
使用之前参与研究且已公开的一种拷贝数变异检测方法的CNV_IFTV对预处理好的数据样本进行实验,产生其检测结果;
(3)将检测结果的Loss结果提取出来进行聚类;
根据拷贝数检测结果,提取出其中变异为Loss类型的结果,使用聚类方法分析各个Loss情况的倍体,将其倍体情况记录作为下一步预测肿瘤纯度的输入;
(4)采用无监督的机器学习方法进行肿瘤纯度的预测;
每个样本最后的检测结果可理解为观察到的样本readcounts值,但由于样本是正常细胞和癌细胞的混合体,所以这项值能够通过样本中癌细胞和正常细胞分别含有的readcounts值进行加权得到,上一步已经得出癌细胞的倍体情况,再结合正常细胞的readcounts值,通过迭代的方式寻找给定肿瘤纯度下所计算的样本的readcounts值与检测到的readcounts值的误差值,令误差值最小的肿瘤纯度及为所预测到的肿瘤纯度;
(5)推断绝对拷贝数;
利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值,计算出癌细胞的readcounts值,可命名为绝对readcounts值,然后根据样本倍体计算出绝对拷贝数。
6.如权利要求4所述的基于测序数据的肿瘤纯度及绝对拷贝数预测方法,其特征在于,所述第一步的readepth文件包含样本中每个位点的readcounts值。
7.如权利要求4所述的基于测序数据的肿瘤纯度及绝对拷贝数预测方法,其特征在于,所述第四步的采用无监督的机器学习方法进行肿瘤纯度的预测具体包括;得出癌细胞的倍体情况,再结合正常细胞的readcounts值,通过迭代的方式寻找给定肿瘤纯度下所计算的样本的readcounts值与检测到的readcounts值的误差值,令误差值最小的肿瘤纯度及为所预测到的肿瘤纯度。
8.如权利要求4所述的基于测序数据的肿瘤纯度及绝对拷贝数预测方法,其特征在于,第五步中,计算出片段中癌细胞的readcounts值RDreal,然后根据样本倍体计算出绝对拷贝数CNreal,具体计算过程可根据下列公式得出:
RDreal=(RDseg-RDnor*(1-p))/p
CNreal=ploidy*(RDreal/RDnor)。
CN201910407581.3A 2019-05-15 2019-05-15 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统 Active CN110289047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910407581.3A CN110289047B (zh) 2019-05-15 2019-05-15 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910407581.3A CN110289047B (zh) 2019-05-15 2019-05-15 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统

Publications (2)

Publication Number Publication Date
CN110289047A CN110289047A (zh) 2019-09-27
CN110289047B true CN110289047B (zh) 2021-06-01

Family

ID=68002379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910407581.3A Active CN110289047B (zh) 2019-05-15 2019-05-15 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统

Country Status (1)

Country Link
CN (1) CN110289047B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895959B (zh) * 2019-11-08 2022-05-20 至本医疗科技(上海)有限公司 基因拷贝数评估方法、装置、系统以及计算机可读介质
CN112216344A (zh) * 2020-09-05 2021-01-12 西安翻译学院 肿瘤纯度和平均倍体信息的预测方法、系统、存储介质
CN113571130B (zh) * 2021-07-23 2023-08-18 上海科技大学 一种简洁全面的拷贝数变异模式识别方法及其应用
CN113990389B (zh) * 2021-12-27 2022-04-22 北京优迅医疗器械有限公司 推断肿瘤纯度和倍性的方法和装置
CN115404275B (zh) * 2022-08-17 2023-07-11 中山大学·深圳 一种基于纳米孔测序技术评估肿瘤纯度的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102409088A (zh) * 2011-09-22 2012-04-11 郭奇伟 一种基因拷贝数变异的检测方法
WO2018090298A2 (en) * 2016-11-17 2018-05-24 Genomicare Biotechnology (Shanghai) Co. Ltd. Systems and methods for monitoring lifelong tumor evolution
CN108154007A (zh) * 2017-11-28 2018-06-12 西安电子科技大学 基于单肿瘤样本拷贝数变异及缺失类型检测方法、计算机
CN108733975A (zh) * 2018-03-29 2018-11-02 深圳裕策生物科技有限公司 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质
WO2019066421A2 (ko) * 2017-09-27 2019-04-04 이화여자대학교 산학협력단 Dna 복제수 변이 기반의 암 종 예측 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106676178B (zh) * 2017-01-19 2020-03-24 北京吉因加科技有限公司 一种评估肿瘤异质性的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102409088A (zh) * 2011-09-22 2012-04-11 郭奇伟 一种基因拷贝数变异的检测方法
WO2018090298A2 (en) * 2016-11-17 2018-05-24 Genomicare Biotechnology (Shanghai) Co. Ltd. Systems and methods for monitoring lifelong tumor evolution
WO2019066421A2 (ko) * 2017-09-27 2019-04-04 이화여자대학교 산학협력단 Dna 복제수 변이 기반의 암 종 예측 방법
CN108154007A (zh) * 2017-11-28 2018-06-12 西安电子科技大学 基于单肿瘤样本拷贝数变异及缺失类型检测方法、计算机
CN108733975A (zh) * 2018-03-29 2018-11-02 深圳裕策生物科技有限公司 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARMS-PCR反应中不同长度扩增子对肿瘤组织表皮生长因子受体基因突变检测的影响;胡荣君 等;《现代免疫学》;20160630(第6期);第476-481页 *
Detection of Significant Copy Number Variations From Multiple Samples in Next-Generation Sequencing Data;Xiguo, Yuan, Junying, et al;《IEEE Transactions on Nanobioscience》;20171231;第12-20页 *
非小细胞肺癌组织中表皮生长因子受体基因突变与拷贝数之间的相关性以及与患者临床病理特征之间的关系;李喆 等;《中华肿瘤杂志》;20110930(第9期);第666-670页 *

Also Published As

Publication number Publication date
CN110289047A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110289047B (zh) 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统
Fu et al. Pan-cancer computational histopathology reveals mutations, tumor composition and prognosis
Shafi et al. A survey of the approaches for identifying differential methylation using bisulfite sequencing data
Gusmao et al. Analysis of computational footprinting methods for DNase sequencing experiments
Hansen et al. BSmooth: from whole genome bisulfite sequencing reads to differentially methylated regions
CN108292326B (zh) 用于识别功能性患者特异性体细胞畸变的整合方法和系统
Kim et al. rSW-seq: algorithm for detection of copy number alterations in deep sequencing data
Li et al. Machine learning for lung cancer diagnosis, treatment, and prognosis
Park et al. Spatial omics technologies at multimodal and single cell/subcellular level
CN112951418B (zh) 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质
Liu et al. DeepTL-Ubi: a novel deep transfer learning method for effectively predicting ubiquitination sites of multiple species
US20230343410A1 (en) Methods for predicting transcription factor activity
CN116741397B (zh) 基于多组学数据融合的癌症分型方法、系统及存储介质
CA3204451A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
Ramakrishnan et al. epiAneufinder identifies copy number alterations from single-cell ATAC-seq data
KR102543757B1 (ko) 이종 플랫폼의 dna 메틸레이션 데이터를 이용한 암의 예후 예측용 바이오마커 발굴 방법 및 장치
CN115066503A (zh) 使用批量测序数据指导单细胞测序数据的分析
Lin et al. Evaluation of classical statistical methods for analyzing bs-seq data
Sharan et al. A motif-based framework for recognizing sequence families
CN114078567A (zh) 一种基于cfDNA的肿瘤负荷检测装置及检测方法
Saghapour et al. Prediction of metastasis in advanced colorectal carcinomas using CGH data
Haque et al. Detection of copy number variations from NGS data by using an adaptive kernel density estimation-based outlier factor
Becker et al. TensorSV: structural variation inference using tensors and variable topology neural networks
WO2023181370A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Zhang et al. CNV-PCC: An efficient method for detecting copy number variations from next-generation sequencing data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant