CN110289047B

CN110289047B - 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统

Info

Publication number: CN110289047B
Application number: CN201910407581.3A
Authority: CN
Inventors: 袁细国; 李喆; 张军英; 杨利英; 习佳宁
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2021-06-01
Anticipated expiration: 2039-05-15
Also published as: CN110289047A

Abstract

本发明属于基因组测序技术领域，公开了一种基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统；利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件；使用拷贝数变异检测方法对预处理好的数据样本进行实验，产生检测结果；根据拷贝数检测结果，提取出其中变异为Loss类型的结果，使用聚类方法分析各个Loss情况的倍体，倍体情况记录作为下一步预测肿瘤纯度的输入；采用无监督的机器学习方法进行肿瘤纯度的预测；利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值，计算出癌细胞的readcounts值，根据样本倍体计算出绝对拷贝数。本发明通过仿真数据的测试，可以发现本发明的测试结果相对于其它方法来说更为准确。

Description

基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统

技术领域

本发明属于基因组测序技术领域，尤其涉及一种基于测序数据的肿瘤纯度及绝对拷贝数预测方法。

背景技术

目前，可以提供肿瘤纯度预测的方法大多局限于SNParray所产生的数据，ABSOLUTE可以从低覆盖度的全基因组测序数据样本中进行肿瘤纯度的预测，可以称之为评估肿瘤纯度最常用的方法之一，也是比较接近本方案的现有方法，其方法同样利用了肿瘤样本的CNV信息来对肿瘤纯度进行估计，但由于肿瘤样本的复杂性，其方法同时结合了SNV的信息去进行肿瘤纯度的估计才能达到一定的准确度，但是本方法仅使用了肿瘤样本的CNV信息就可以达到很高的准确率，从操作难度和数据要求上都降低了一定的难度，在进一步的研究中，本方法还从肿瘤纯度出发进一步还原了样本绝对拷贝数的信息，这也是ABSOLUTE方法所没有涉及的，并且，本方法是采用python语言所编写的，相比ABSOLUTE方法使用R语言编写，适用人群更加广泛，便于理解。

新一代测序(NGS)技术彻底改变了癌症基因组的研究。癌症基因组通常以广泛的体细胞拷贝数变异(CNA)为特征，其中基因组片段被删除或重复一次或多次，目前已经提出了许多方法从测序数据中发现拷贝数变化，其大多数方法旨在鉴定肿瘤基因组中区段的相对拷贝数而非绝对拷贝数；然而，从肿瘤样品获得的reads通常由正常细胞和肿瘤细胞的混合物组成，因此在正确推断绝对拷贝数这项工作中，肿瘤纯度的估计是其所必需的。

拷贝数变异(CNA)是基因组中一种重要的变异现象，是一种大小介于1kb至3Mb的DNA片段的变异，主要表现为Gain和Loss两种状态，是由于在染色体复制过程中，部分基因片段被多复制或者少拷贝几次，并且拷贝数变异与人类的许多疾病都息息相关。

肿瘤纯度不仅影响基因组中不同区段的拷贝数变化，还影响这些区段中等位基因频率的分布。在新一代测序数据中，这两种类型的信息可以根据映射到每个片段的reads总数和在不同位点匹配B-等位基因的reads频率(B-等位基因频率)来概括。根据拷贝数变化情况和B-等位基因频率信息的使用，现有方法可大致分为两类：

1、在体细胞突变位点使用B-等位基因频率(BAF)来估计肿瘤纯度，比如PurityEst和PurBayes方法，假如样本的肿瘤纯度为100％，则其体细胞突变位点的B-等位基因频率(BAF)大概为0.5，正常细胞的混入将会导致这些位点中的B-等位基因频率(BAF)下降；

2、依赖拷贝数变化来估计肿瘤纯度，比如CNAnorm，THetA和ABSOLUTE方法，首先，直接从观察到的相对拷贝数文件中(如果允许的话也可以使用点突变的信息)来联合估计肿瘤纯度和倍体，其次，由于一个单样本无法完全确定这种联合估计，会使用大量的不同样本来帮忙解决这种模糊问题。

基于测序数据(NGS)的CNV检测方法主要分为两类：基于双端映射(PEM)的方法和基于覆盖深度(DOC)的方法。

基于PEM的方法使用双端读段，基因组样本中的双端读段被映射到参考基因组，然后样本和参考序列这两端之间的距离分别被计算出来，如果这两个距离区别很大，就可以证明样本中存在插入(insertion)或者删除(deletion)。

基于DOC的方法在CNV检测中更常用，它首先跟踪读段与参考序列中非重叠窗口或滑动窗口的映射情况，然后形成read count或者read depth数据，根据此类数据，从统计角度分析拷贝数变异的存在。

综上所述，现有技术存在的问题是：

(1)通过使用B-等位基因频率(BAF)信息进行预测的方法比较依赖体细胞突变位点的检测，但由于其检测方法不够准确，其中包含的假阳性结果可能严重影响对肿瘤纯度的估计。

(2)依赖于拷贝数变化估计肿瘤纯度的方法受到所谓“可识别性问题”的严重阻碍，其中肿瘤纯度和倍性的不同组合也可以同样良好的解释观察到的数据。

解决上述技术问题的难度：

首先，针对第一个问题，利用SNV信息进行肿瘤纯度预测的方法局限于SNV的检测方法，受其检测方法的准确度影响，要解决这个问题，只能开发出准确率更高的SNV检测方法，其难度可想而知；

其次，相比而言，依赖于拷贝数变化进行肿瘤纯度预测的方法同样受制于CNV的检测方法，再加上倍体和肿瘤纯度联合估计所造成的模糊问题并非仅靠简单的多样本来解决，多样本从一定意义上只是增添结果的准确性和可信度，并不能决定结果的走向。

解决上述技术问题的意义：

众所周知，获取的肿瘤组织中往往包含一定数量的正常细胞，其混入会对后续各种基因组分析造成不利影响，进一步在临床中也会对病人的病情分析产生不好的作用，因此如果能解决上述问题或者能另辟新径准确估计其中正常细胞的比例，将会对后期一些基因组分析产生很大的帮助，比如本方法就在准确预测出肿瘤纯度的基础上进一步还原出CNV检测过程中的绝对拷贝数信息。

发明内容

针对现有技术存在的问题，本发明提供了一种基于测序数据的肿瘤纯度及绝对拷贝数预测方法。

本发明是这样实现的，一种基于测序数据的肿瘤纯度及绝对拷贝数预测系统，所述基于测序数据的肿瘤纯度及绝对拷贝数预测系统包括：

readepth文件生成模块，用于利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件；

拷贝数变异检测模块，用于使用拷贝数变异检测方法对预处理好的数据样本进行实验，产生检测结果；

倍体情况分析模块，用于根据拷贝数检测结果，提取出其中变异为Loss类型的结果，使用聚类方法分析各个Loss情况的倍体，倍体情况记录作为下一步预测肿瘤纯度的输入；

肿瘤纯度的预测模块，用于采用无监督的机器学习方法进行肿瘤纯度的预测；

绝对拷贝数计算模块，用于利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值，计算出癌细胞的readcounts值，根据样本倍体计算出绝对拷贝数。

进一步，所述肿瘤纯度及绝对拷贝数预测系统进一步包括：

数据的预处理模块，用于利用bwa和samtools生信软件对原始fastq测序数列进行一系列的处理生成样本的readepth文件，其中包含了样本中每个位点的readcounts值，可供下一步拷贝数变异检测使用。

进一步，所述肿瘤纯度的预测模块采用无监督的机器学习方法进行肿瘤纯度的预测；每个样本最后的检测结果可理解为观察到的样本readcounts值，但由于样本是正常细胞和癌细胞的混合体，所以这项值可以通过样本中癌细胞和正常细胞分别含有的readcounts值进行加权得到，上一步已经得出癌细胞的倍体情况，再结合正常细胞的readcounts值，通过迭代的方式寻找给定肿瘤纯度下所计算的样本的readcounts值与检测到的readcounts值的误差值，令误差值最小的肿瘤纯度及为所预测到的肿瘤纯度。

本发明的另一目的在于提供一种基于测序数据的肿瘤纯度及绝对拷贝数预测方法，所述基于测序数据的肿瘤纯度及绝对拷贝数预测方法包括：

第一步，利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件，首先利用bwa的比对命令生成测序数据的常用格式bam文件，然后利用samtools的mpileup命令从bam文件中提取出样本的readcounts信息从而生成readepth文件；

第二步，使用拷贝数变异检测方法对预处理好的数据样本进行实验，即将上一步所生成的readdepth文件和对应的reference序列作为拷贝数变异检测方法的输入，调整参数运行方法即可得出结果，采用的CNV检测方法是一种基于孤立森林算法所研究出的方法(由于拷贝数变异检测方法并非本发明的内容，原理不作过多涉及)，准确率相比来说较高，产生CNV检测结果，包含变异片段的始终位置，长度，变异类型，初步预估的拷贝数；

第三步，根据拷贝数的检测结果，提取出其中变异为Loss类型的结果，采用k-means聚类方法对所有loss变异类型的readcounts数据进行分类，具体过程是将样本中所有loss变异类型区段的readcounts值作为一组一维数据，根据其数值的分布情况将其进行不同类型的标记，比如二倍体的loss类型会分成两种情况hemiloss和homoloss，在此会被标记为1和0，,即为各个Loss类型的倍体情况，将其记录下来作为下一步预测肿瘤纯度的输入；

第四步，采用无监督的机器学习方法进行肿瘤纯度的预测，根据各个Loss变异类型的倍体情况以及CNV检测过程中所得到的正常细胞的readcounts数据，对肿瘤纯度进行一定合理范围内的上下迭代，通过计算该肿瘤纯度下的误差值(拷贝数检测过程中得到的样本片段readcounts值和根据该肿瘤纯度计算(具体计算原理见下一步)的readcounts值的差异值)进行最佳拟合，误差最小的肿瘤纯度即为预测到的肿瘤纯度；

第五步，利用预测到的肿瘤纯度p以及拷贝数检测得到的样本片段readcounts值RD_seg，再结合CNV检测过程中所得到的正常细胞的readcounts数据RD_nor，计算出片段中癌细胞的readcounts值RD_real，然后根据样本倍体计算出绝对拷贝数CN_real，具体计算过程可根据下列公式得出：

RD_real＝(RD_seg-RD_nor*(1-p))/p

CN_real＝ploidy*(RD_real/RD_nor)

进一步，所述第一步的readepth文件包含样本中每个位点的readcounts值。

进一步，所述第四步的采用无监督的机器学习方法进行肿瘤纯度的预测具体包括；得出癌细胞的倍体情况，再结合正常细胞的readcounts值，通过迭代的方式寻找给定肿瘤纯度下所计算的样本的readcounts值与检测到的readcounts值的误差值，令误差值最小的肿瘤纯度及为所预测到的肿瘤纯度。

综上所述，本发明的优点及积极效果为：

本发明提供了一种简单而稳健的算法，从测序数据中推断肿瘤细胞的纯度和绝对拷贝数；通过聚类将拷贝数检测结果中的Loss情况进行倍性分类，确定之后通过拷贝数检测结果和倍性分类结果就能比较准确的估计出肿瘤纯度。

本发明能够解决现有方法预测肿瘤纯度不够准确的问题、传统实验技术估计肿瘤纯度成本太过昂贵和耗时的问题以及现有拷贝数检测方法主要预测相对拷贝数而非绝对拷贝数的问题。本发明的操作简单，本发明只需要拷贝数检测后的readcounts结果文件和一个正常细胞的readcounts值即可完成检测，同时，首先通过ART软件对样本fastq序列和参考序列fasta进行reads的划分，然后使用seqtk从fastq序列(肿瘤细胞)和fasta序列(正常细胞)提取不同比例的reads进行混合，生成所需要的固定肿瘤纯度的肿瘤样本，通过上述仿真数据的测试，可以发现本发明的测试结果相对于其它方法来说更为准确。

综上所述，下面简单给出本发明和现有的肿瘤纯度预测方法ichorCNA分别对肿瘤纯度为0.4，0.6和0.8的仿真数据进行预测的结果，每组仿真数据共50个样本；对比结果如下：

附图说明

图1是本发明实施例提供的基于测序数据的肿瘤纯度及绝对拷贝数预测方法流程图。

图2是本发明实施例提供的基于测序数据的肿瘤纯度及绝对拷贝数预测方法实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明通过提取拷贝数变异检测结果中Loss情况进行倍性分类，更好地预测肿瘤纯度；在技术上使用一种迭代式的无监督机器学习方法，可以灵活的计算出准确的肿瘤纯度值。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于测序数据的肿瘤纯度及绝对拷贝数预测方法包括以下步骤：

S101：利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件；

S102：使用拷贝数变异检测方法对预处理好的数据样本进行实验，产生检测结果；

S103：根据拷贝数检测结果，提取出其中变异为Loss类型的结果，使用聚类方法分析各个Loss情况的倍体，倍体情况记录作为下一步预测肿瘤纯度的输入；

S104：采用无监督的机器学习方法进行肿瘤纯度的预测；

S105：利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值，计算出癌细胞的readcounts值，可命名为绝对readcounts值，根据样本倍体计算出绝对拷贝数。

下面结合附图对本发明的应用原理作进一步的描述。

如图2所示，本发明实施例提供的基于测序数据的肿瘤纯度及绝对拷贝数预测方法包括以下步骤：

(1)数据的预处理；

利用bwa和samtools生信软件对原始fastq测序数列进行一系列的处理生成样本的readepth文件，其中包含了样本中每个位点的readcounts值，可供下一步拷贝数变异检测使用。

(2)拷贝数变异检测；

使用之前参与研究的一种拷贝数变异检测方法对预处理好的数据样本进行实验，产生其检测结果。

(3)将检测结果的Loss结果提取出来进行聚类；

根据拷贝数检测结果，提取出其中变异为Loss类型的结果，使用聚类方法分析各个Loss情况的倍体，将其倍体情况记录作为下一步预测肿瘤纯度的输入。

(4)采用无监督的机器学习方法进行肿瘤纯度的预测；

每个样本最后的检测结果可理解为观察到的样本readcounts值，但由于样本是正常细胞和癌细胞的混合体，所以这项值可以通过样本中癌细胞和正常细胞分别含有的readcounts值进行加权得到，上一步已经得出癌细胞的倍体情况，再结合正常细胞的readcounts值，通过迭代的方式寻找给定肿瘤纯度下所计算的样本的readcounts值与检测到的readcounts值的误差值，令误差值最小的肿瘤纯度及为所预测到的肿瘤纯度。

(5)推断绝对拷贝数；

利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值，计算出癌细胞的readcounts值，可命名为绝对readcounts值，然后根据样本倍体计算出绝对拷贝数。

下面给出本发明分别对0.2,0.4和0.8仿真数据绝对拷贝数的检测结果，最后一列给出的是其仿真数据的groundtruth信息，可以看出来本发明所预测出的绝对拷贝数具有较高的还原度；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于测序数据的肿瘤纯度及绝对拷贝数预测系统，其特征在于，所述基于测序数据的肿瘤纯度及绝对拷贝数预测系统包括：

2.如权利要求1所述的基于测序数据的肿瘤纯度及绝对拷贝数预测系统，其特征在于，所述肿瘤纯度及绝对拷贝数预测系统进一步包括：

3.如权利要求1所述的基于测序数据的肿瘤纯度及绝对拷贝数预测系统，其特征在于，所述肿瘤纯度的预测模块采用无监督的机器学习方法进行肿瘤纯度的预测；每个样本最后的检测结果可理解为观察到的样本readcounts值，但由于样本是正常细胞和癌细胞的混合体，所以这项值能够通过样本中癌细胞和正常细胞分别含有的readcounts值进行加权得到，上一步已经得出癌细胞的倍体情况，再结合正常细胞的readcounts值，通过迭代的方式寻找给定肿瘤纯度下所计算的样本的readcounts值与检测到的readcounts值的误差值，令误差值最小的肿瘤纯度及为所预测到的肿瘤纯度。

4.一种利用权利要求1-3任意一项所述系统的基于测序数据的肿瘤纯度及绝对拷贝数预测方法，其特征在于，所述基于测序数据的肿瘤纯度及绝对拷贝数预测方法包括：

第一步，利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件；

第二步，使用拷贝数变异检测方法对预处理好的数据样本进行实验，产生检测结果；

第三步，根据拷贝数检测结果，提取出其中变异为Loss类型的结果，使用聚类方法分析各个Loss情况的倍体，倍体情况记录作为下一步预测肿瘤纯度的输入；

第四步，采用无监督的机器学习方法进行肿瘤纯度的预测；

第五步，利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值，计算出癌细胞的readcounts值，根据样本倍体计算出绝对拷贝数。

5.如权利要求4所述的基于测序数据的肿瘤纯度及绝对拷贝数预测方法，其特征在于，推断绝对拷贝数的方法进一步包括以下步骤：

(1)数据的预处理；

利用bwa和samtools生信软件对原始fastq测序数列进行一系列的处理生成样本的readepth文件，其中包含了样本中每个位点的readcounts值，可供下一步拷贝数变异检测使用；

(2)拷贝数变异检测；

使用之前参与研究且已公开的一种拷贝数变异检测方法的CNV_IFTV对预处理好的数据样本进行实验，产生其检测结果；

(3)将检测结果的Loss结果提取出来进行聚类；

根据拷贝数检测结果，提取出其中变异为Loss类型的结果，使用聚类方法分析各个Loss情况的倍体，将其倍体情况记录作为下一步预测肿瘤纯度的输入；

(4)采用无监督的机器学习方法进行肿瘤纯度的预测；

每个样本最后的检测结果可理解为观察到的样本readcounts值，但由于样本是正常细胞和癌细胞的混合体，所以这项值能够通过样本中癌细胞和正常细胞分别含有的readcounts值进行加权得到，上一步已经得出癌细胞的倍体情况，再结合正常细胞的readcounts值，通过迭代的方式寻找给定肿瘤纯度下所计算的样本的readcounts值与检测到的readcounts值的误差值，令误差值最小的肿瘤纯度及为所预测到的肿瘤纯度；

(5)推断绝对拷贝数；

6.如权利要求4所述的基于测序数据的肿瘤纯度及绝对拷贝数预测方法，其特征在于，所述第一步的readepth文件包含样本中每个位点的readcounts值。

7.如权利要求4所述的基于测序数据的肿瘤纯度及绝对拷贝数预测方法，其特征在于，所述第四步的采用无监督的机器学习方法进行肿瘤纯度的预测具体包括；得出癌细胞的倍体情况，再结合正常细胞的readcounts值，通过迭代的方式寻找给定肿瘤纯度下所计算的样本的readcounts值与检测到的readcounts值的误差值，令误差值最小的肿瘤纯度及为所预测到的肿瘤纯度。

8.如权利要求4所述的基于测序数据的肿瘤纯度及绝对拷贝数预测方法，其特征在于，第五步中，计算出片段中癌细胞的readcounts值RD_real，然后根据样本倍体计算出绝对拷贝数CN_real，具体计算过程可根据下列公式得出：

RD_real＝(RD_seg-RD_nor*(1-p))/p

CN_real＝ploidy*(RD_real/RD_nor)。