CN105653896A

CN105653896A - 高通量测序突变检测结果验证方法

Info

Publication number: CN105653896A
Application number: CN201610046809.7A
Authority: CN
Inventors: 陈威; 张静波
Original assignee: BEIJING SAN VALLEY TONGCHUANG SCIENCE & TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: Beijing Shenggu Zhihui Medical Institute Co ltd
Priority date: 2016-01-22
Filing date: 2016-01-22
Publication date: 2016-06-08
Anticipated expiration: 2036-01-22
Also published as: CN105653896B

Abstract

本发明提供了高通量测序突变检测结果的验证方法以及利用高通量测序结果进行突变查找的方法，所述方法结合数学计算和统计公式，通过计算感兴趣的单个位点的特定碱基取代的突变频率，来确定高通量测序样本中是否存在感兴趣的单个位点的特定碱基取代，通过计算感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的变异系数，来确定是否存在感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代。

Description

高通量测序突变检测结果验证方法

技术领域

本发明涉及高通量测序突变检测结果验证方法。

背景技术

恶性肿瘤是威胁人类健康的主要疾病之一，也是全球发病和死亡的主要原因。根据世界卫生组织公布的数据表明，2012年约有1400万新发癌症病例和820万例癌症相关死亡。根据全国肿瘤登记中心发布的2012年数据，中国每年新增病例约350万，约占全球发病的五分之一；癌症死亡人数约为250万，约占全球癌症死亡人数的四分之一。尽管我国在肿瘤的手术、化学药物治疗、放射治疗和生物治疗技术都取得了很大的进展，但人口基数大使我国成为世界上癌症死亡数最高的国家。

肿瘤本质上是基因病。肿瘤的发生、发展、转移、恶化都与基因突变有着密切联系。肿瘤的发生是各种遗传和环境的致癌因素引起的基因突变和多种突变长期积累的结果。突变的发生和积累导致了原癌基因的激活和抑癌基因的失活，进而引起DNA损伤修复和(或)细胞周期和(或)编程性死亡机制的失调，继而引起细胞的转化。转化的细胞在与正常体细胞生存竞争的过程中，不断进化，最终变成具有无限增殖潜力的癌细胞，从而导致肿瘤的发生。在癌细胞克隆性的无限扩增过程中，其中一些克隆会获得新的附加突变，选择性地形成具有不同特点的亚克隆(异质化)，从而获得浸润和转移的能力。

近年来，随着生物医药技术的不断发展，以及“精准医学”概念的提出，癌症的治疗观念正在发生着由非特异性转变为个体化的根本性转变。该模式根据癌症患者的个体信息，提供个性化的高效治疗方案。更有益于节省费用、减少对病人的毒副作用和提高疗效。高通量测序技术的兴起以及测序成本的大幅降低为个体化医疗的实现提供了极大的便利。通过对癌症患者活检样本提取的DNA进行测序及后续生物信息分析，就可快速得出全面、准确的患者突变信息。根据突变信息对患者进行分组，进行针对性的治疗及疗效评估。

从测序数据到病人突变的信息的获得基本可通过序列比对和突变查找两个步骤实现。为了充分挖掘测序数据中的变异信息，科学家开发了很多比对软件和变异检测软件，并将他们组合成各种分析流程。一个典型的流程包含比对软件和变异检测软件：其中比对软件将测序结果比对到参考基因组上；突变检测软件把鉴定出的突变位点进行基因型分配。目前最常用的突变查找软件包括SAMtools、glftools,、GATK和Atlas2。例如与IonTorrent半导体测序系统配套的突变查找软件VariantCallerv3.0是基于GATK的。已有研究表明GATK软件具有相对最高的重新发现率和特异性，且其Ti/Tv比值也最接近3.02的理想值，在高通量测序数据分析上相对其他三个软件具有明显的优势。尽管如此，GATK软件在突变查找上仍然存在一些漏检和假阳性现象。

发明内容

本发明提供了高通量测序突变检测结果的验证方法和利用高通量测序结果进行突变查找的方法，所述方法结合数学计算和统计公式，能够给出准确而全面的突变查找结果，并能够对高通量测序突变检测结果中感兴趣突变进行突变频率的计算和真实性的验证，。本发明的方法可以有效避免现有的数据分析方法中可能存在的漏检和假阳性现象。

本发明利用下述三个公式中的一个或多个，对高通量测序突变检测结果中的感兴趣突变进行验证，或者在高通量测序结果的基础上进行突变查找：

公式a：

f r e q (s n p) = \frac{m u t_r e a d s}{cov_r e a d s}

公式b：

f r e q (d e l / m n p) = \frac{Σ_{i = 1}^{m} \frac{d e l / m n p_{reads}_{i}}{cov_{reads}_{i}}}{m}

公式c：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

在公式a中，mut_reads是高通量测序结果中所述感兴趣的单个位点的特定碱基取代的reads数，cov_reads是高通量测序结果中所述单个位点的覆盖度(coverage)。

在公式b中，del/mnp_reads_i是高通量测序结果中所述感兴趣的连续位点的碱基缺失中第i个位点上碱基缺失的reads数，或所述感兴趣的连续位点的特定碱基取代中第i个位点上特定碱基取代的reads数；cov_reads_i是高通量测序结果中所述的第i个位点相应的覆盖度(coverage)；m是高通量测序结果中所述感兴趣的连续位点的碱基缺失中的突变位点总数，或所述感兴趣的连续位点的特定碱基取代的突变位点总数。

在公式c中，std(del/mnp_reads)是高通量测序结果中感兴趣的连续位点的碱基缺失中所有位点上碱基缺失的reads数的标准差，或感兴趣的连续位点的特定碱基取代中所有位点上的特定碱基取代的reads数的标准差；ave(del/mnp_reads)是高通量测序结果中感兴趣的连续位点的碱基缺失中所有位点上碱基缺失的reads数的平均值，或感兴趣的连续位点的特定碱基取代中所有位点上的特定碱基取代的reads数的平均值；CV(del/mnp)为变异系数。

其中公式a用于确定感兴趣的单个位点的特定碱基取代是否存在，并且如果存在的话，计算所述特定碱基取代的突变频率。如果freq(snp)≥0.5％，则存在所述感兴趣的单个位点的特定碱基取代，且其突变频率等于计算得到的freq(snp)的值。

其中公式b用于计算感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的突变频率，同时也可以验证感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代是否存在。如果freq(del/mnp)≥0.5％，则可能存在所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，且其突变频率等于计算得到的freq(del/mnp)的值。如果freq(del/mnp)<0.5％，则不存在所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代。

其中公式c用于确定感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代是否真实存在。如果变异系数CV(del/mnp)<15％，则所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代可能是真实存在的，如果变异系数CV(del/mnp)≥15％，则所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代不存在。

将公式b和公式c结合可以准确确定所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代是否存在。当freq(del/mnp)≥0.5％且变异系数CV(del/mnp)<15％时，可以确定所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代是真实存在的。

运用变异系数来确定感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代是否真实存在的原理是：对于已知或常见的连续位点的碱基缺失或连续位点的碱基取代，在进行二代高通量测序时，若所测的DNA样品存在所述类型的突变，则该突变区域内包含的各个位点所测出的缺失或被取代的reads数在绝大部分情况下应是相同或相近的，即这些位点的缺失或取代的突变频率应该基本一致，因此可以通过计算这些各个位点上reads数的离散程度来评估它们的一致性或相近度，如果它们的离散程度过大，则说明这些位点的缺失或取代的reads数可能为随机引进的测序错误，或者仅存在某单个位点的缺失或取代；而如果它们的离散程度较小，则说明该段区域位点可能确实存在统一的缺失或取代情况，可以进一步进行计算或验证。CV值又称变异系数，统计学通常使用CV值来评估离散程度，在统计学领域中，一般认为当CV值大于15％时说明该系列数据的离散程度过大，而当CV值小于15％时则认为该系列数据的离散程度在可接受范围内。

因此，利用上述公式a、b和/或c可以确定高通量测序样本中是否存在感兴趣的单个位点的特定碱基取代、感兴趣的连续位点的碱基缺失、和/或感兴趣的连续位点的特定碱基取代，或者对高通量测序突变检测结果中这些突变的存在或不存在的真实性进行验证。

因此，本发明的一方面提供高通量测序突变检测结果的验证方法，包括对所述突变检测结果中感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的检测结果进行验证，所述方法包括：

(1)对于所述突变检测结果中确定为存在的感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，按照下述公式计算所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的变异系数：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

其中：

std(del/mnp_reads)是高通量测序结果中所述感兴趣的连续位点的碱基缺失中所有位点上碱基缺失的reads数的标准差，或所述感兴趣的连续位点的特定碱基取代中所有位点上的特定碱基取代的reads数的标准差，

ave(del/mnp_reads)是高通量测序结果中所述感兴趣的连续位点的碱基缺失中所有位点上碱基缺失的reads数的平均值，或所述感兴趣的连续位点的特定碱基取代中所有位点上的特定碱基取代的reads数的平均值；

如果CV(del/mnp)<15％，则所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代真实存在，如果CV(del/mnp)≥15％，则所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代不存在。

在一些实施方案中，本发明的高通量测序突变检测结果的验证方法包括验证突变检测结果中确定为不存在的感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代在高通量测序样本中是否存在的步骤，该步骤可以是先计算突变频率再验证变异系数，也可以是先计算变异系数再验证突变频率。

先计算突变频率再验证变异系数的步骤是：

(2)对于所述突变检测结果中确定为不存在的感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，按照下述公式计算所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的突变频率：

f r e q (d e l / m n p) = \frac{Σ_{i = 1}^{m} \frac{d e l / m n p_{reads}_{i}}{cov_{reads}_{i}}}{m}

其中：

del/mnp_reads_i是高通量测序结果中所述感兴趣的连续位点的碱基缺失中第i个位点上碱基缺失的reads数，或所述感兴趣的连续位点的特定碱基取代中第i个位点上特定碱基取代的reads数，

cov_reads_i是高通量测序结果中所述的第i个位点相应的覆盖度(coverage)，

m是高通量测序结果中所述感兴趣的连续位点的碱基缺失中的突变位点总数，或所述感兴趣的连续位点的特定碱基取代的突变位点总数；

如果freq(del/mnp)<0.5％，则所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代不存在，如果freq(del/mnp)≥0.5％，则按下述步骤对所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代进行进一步验证：

按照下述公式计算所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的变异系数：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

其中：

如果CV(del/mnp)<15％，则所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代存在，其突变频率为上述计算得到的freq(del/mnp)的值；如果CV(del/mnp)≥15％，则所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代不存在。

先计算变异系数再验证突变频率的步骤是：

(2)按照下述公式计算所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的变异系数：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

其中：

如果CV(del/mnp)≥15％，则所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代不存在；如果CV(del/mnp)<15％，则对按下述步骤对所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代进行进一步验证；

按照下述公式计算所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的突变频率：

f r e q (d e l / m n p) = \frac{Σ_{i = 1}^{m} \frac{d e l / m n p_{reads}_{i}}{cov_{reads}_{i}}}{m}

其中：

如果freq(del/mnp)<0.5％，则所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代不存在，如果freq(del/mnp)≥0.5％，则所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代存在，其突变频率为计算得到的freq(del/mnp)的值。

上述的步骤(1)和步骤(2)可以任意顺序进行，即，可以先验证突变检测结果中确定为存在的感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，再验证突变检测结果中确定为不存在的感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代；也可以先验证突变检测结果中确定为不存在的感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，再验证突变检测结果中确定为存在的感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代。

在另一些实施方案中，本发明的高通量测序突变检测结果的验证方法还包括验证突变检测结果中确定为不存在的感兴趣的单个位点的特定碱基取代在高通量测序样本中是否存在的步骤：

(3)对于所述突变检测结果中确定为不存在的感兴趣的单个位点的特定碱基取代，按照下述公式计算所述感兴趣的单个位点的特定碱基取代的突变频率：

f r e q (s n p) = \frac{m u t_r e a d s}{cov_r e a d s}

其中mut_reads是高通量测序结果中所述感兴趣的单个位点的特定碱基取代的reads数，cov_reads是高通量测序结果中所述单个位点的覆盖度(coverage)；

如果freq(snp)≥0.5％，则所述感兴趣的单个位点的特定碱基取代存在，且其突变频率等于计算所得的freq(snp)的值；

本发明的高通量测序突变检测结果的验证方法可以包括上述步骤(1)、步骤(2)和步骤(3)中的任意一个、任意两个或三个步骤。具体来说，本发明的高通量测序突变检测结果的验证方法可以仅包括上述步骤(1)或步骤(2)，也可以同时包括步骤(1)和步骤(2)，还可以在包括上述步骤(1)或步骤(2)的基础上进一步包括步骤(3)，还可以同时包括步骤(1)、步骤(2)和步骤(3)。当包括多个步骤的时候，所述多个步骤之间的顺序没有限制，可以任意顺序进行。

本发明的另一方面提供利用高通量测序结果进行突变查找的方法，包括确定高通量测序样本中是否存在感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的步骤。其中，可以先计算突变频率再验证变异系数，也可以是先计算变异系数再验证突变频率。

先计算突变频率再验证变异系数的步骤：

(1)对于感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，按照下述公式计算所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的突变频率：

f r e q (d e l / m n p) = \frac{Σ_{i = 1}^{m} \frac{d e l / m n p_{reads}_{i}}{cov_{reads}_{i}}}{m}

其中：

如果freq(del/mnp)<0.5％，则不存在所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，如果freq(del/mnp)≥0.5％，则按下述步骤对所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代进行进一步验证：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

其中：

如果CV(del/mnp)<15％，则存在所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代，其突变频率为上述计算得到的freq(del/mnp)的值；如果CV(del/mnp)≥15％，则不存在所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代。

先计算变异系数再验证突变频率的步骤是：

(1)对于感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，按照下述公式计算所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的变异系数：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

其中：

如果CV(del/mnp)≥15％，则不存在所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代；如果CV(del/mnp)<15％，则对按下述步骤对所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代进行进一步验证；

f r e q (d e l / m n p) = \frac{Σ_{i = 1}^{m} \frac{d e l / m n p_{reads}_{i}}{cov_{reads}_{i}}}{m}

其中：

如果freq(del/mnp)<0.5％，则不存在所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，如果freq(del/mnp)≥0.5％，则存在所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，其突变频率为计算得到的freq(del/mnp)的值。

在进一步的实施方案中，该利用高通量测序结果进行突变查找的方法进一步包括确定高通量测序样本中是否存在感兴趣的单个位点的特定碱基取代的步骤：

(2)对于感兴趣的单个位点的特定碱基取代，按照下述公式计算所述感兴趣的单个位点的特定碱基取代的突变频率：

f r e q (s n p) = \frac{m u t_r e a d s}{cov_r e a d s}

如果freq(snp)≥0.5％，则存在所述感兴趣的单个位点的特定碱基取代，且其突变频率等于freq(snp)；

本发明的利用高通量测序结果进行突变查找的方法可以包括上述步骤(1)和步骤(2)中的任意一个步骤或两个步骤。具体来说，本发明的利用高通量测序结果进行突变查找的方法可以仅包括上述步骤(1)，也可以同时包括步骤(1)和步骤(2)。当包括多个步骤的时候，所述多个步骤之间的顺序没有限制，可以任意顺序进行。

根据本发明，高通量测序是指本领域已知的任何高通量测序技术，包括但不限于利用IonTorrent或Illumina测序平台进行的高通量测序。

根据本发明，对DNA进行高通量测序之后获得高通量测序结果，该高通量测序结果包括高通量测序文库中每一片段上的每一个位点的测序信息，所述测序信息通常包括所述每一个位点的覆盖度(Coverage)、所述每一个位点上分别为A、C、G、T或缺失的reads等。其中每一个位点上分别为A、C、G、T或缺失的reads的总和等于该位点的覆盖度。

根据本发明，高通量测序突变检测结果是指对高通量测序结果进行数据分析以查找突变获得的结果。所述数据分析例如可以是将高通量测序结果与参考基因组序列进行比对，然后确定每一个突变的突变位点和突变类型(例如插入、取代和/或缺失)，并计算突变频率。通过比对可以得到高通量测序文库中每一片段上的每一个位点在染色体上的位置信息和所述每一个位点的参考碱基信息，所述参考碱基是指例如参考基因组序列中在相应于该位点的位置上的碱基，将这些信息与高通量测序结果结合并加以分析可以获得有关每一个突变的突变位点、突变类型和突变频率的信息。高通量测序突变检测结果例如可以包括通过比对查找到的每一个突变的突变位点、突变类型和每一个突变的突变频率，所述突变类型包括单个碱基(即单个位点)和多个连续碱基(即连续位点)的插入、取代和/或缺失等。所述高通量测序突变检测结果可以利用任何适用于高通量测序的数据分析方法获得，例如可以使用任何合适的数据分析和序列比对软件获得突变检测结果，包括但不限于VariantCaller。

应当理解，高通量测序突变检测结果除了包括某些感兴趣突变存在的信息之外，还包括某些感兴趣突变不存在的信息，例如在高通量测序突变检测结果中，对这些检测为不存在的感兴趣突变报告其突变频率为0。因此，利用本发明方法对高通量测序突变检测结果的验证，不仅包括对所述检测结果中报告为存在的感兴趣突变的验证，还包括对所述检测结果中报告为不存在的感兴趣突变的验证。此外，应当理解，在现有的高通量测序突变检测结果中，报告某些感兴趣突变的突变频率为0仅仅意味着所使用的数据分析方法认为它们不是真正的突变，并不意味着在高通量测序结果中这些感兴趣突变的突变频率实际上为0，在高通量测序结果中这些感兴趣突变仍然具有一定的突变频率，但是其突变频率较低，所使用的数据分析方法认为它们不是真正的突变，因此统一报告其突变频率为0。

本发明中，连续位点是指2个或2个以上的连续碱基的位点，例如2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个或更多个连续碱基的位点。

本发明中，连续位点的碱基缺失、连续位点的特定碱基取代或单个位点的特定碱基取代都可被称为“突变”。“感兴趣的”突变也可称为热点突变，是本领域中所关心的与健康情况相关的突变。感兴趣的突变可以是新发现的突变或是已经被报道过的突变，通常与疾病相关，例如与疾病的诊断和/或治疗相关。

根据本发明，连续位点的碱基缺失也可以被称为连续多点缺失，是指相对于参考基因组序列，在所述连续位点上，全部碱基都缺失，而该连续位点两侧的位点上的碱基不改变。连续位点的特定碱基取代也可以被称为连续多点取代，是相对于参考基因组序列，在所述连续位点上，每一个碱基都被另一个特定的碱基取代，且取代后的碱基的长度与原始碱基的长度相同，即等同长度的连续位点的特定碱基取代，同时该连续位点两侧的位点上的碱基不改变。单个位点的特定碱基取代也可以被称为单点取代，是指相对于参考基因组序列，所述单个位点上的碱基被另一个特定的碱基取代，而该单个位点两侧的位点上的碱基不改变。

因此，根据本发明，感兴趣的连续位点的碱基缺失、感兴趣的连续位点的特定碱基取代或感兴趣的单个位点的特定碱基取代是指新发现的或已被报道过的连续位点的碱基缺失、连续位点的特定碱基取代或单个位点的特定碱基取代，其常常与疾病相关，例如与疾病的诊断和/或治疗相关，在本文中又被称为热点突变。对DNA上的任一位点代来说，通常可能存在三种碱基取代，即其碱基可能被另外三种碱基取代，根据本发明，“特定碱基取代”或“特定的碱基取代”是指在某位点上的碱基被特定的碱基取代，所述位点可以是单个位点，特定取代例如可以是G被T取代、G被C取代、C被T取代、C被A取代、A被G取代等，所述位点还可以是连续位点，所述取代例如可以是GG被TT取代等。所述“特定碱基取代”或“特定的碱基取代”常常与疾病相关，例如与疾病的诊断和/或治疗相关。

本发明中，“变异系数”、“标准差”、“平均值”均为统计学中使用的标准术语，其含义和计算方法都是本领域技术人员众所周知的，

本发明中，术语“碱基缺失的reads数”是指在某个位点上，相对于该位点的参考碱基，测序结果为“缺失(Deletions)”的reads数；术语“特定碱基取代的reads数”是指在某个特定位点上，相对于该位点的参考碱基，测序结果为改变为另一特定碱基的reads数。

“突变频率”是相对于特定类型的突变而言的，同一位点上的不同类型突变的突变频率可能是不同的，不同位点上的相同类型突变的突变频率也可能是不同的，例如，对于某一特定位点来说，相对于参考碱基，发生碱基缺失的突变频率与改变为另一特定碱基的突变频率可能是不同的，改变为另一特定碱基的突变频率与改变为不同的另一特定碱基的突变频率也可能是不同的。

在本发明中，“碱基”与“核苷酸”的含义相同且可互换使用，指组成DNA序列的单元，在DNA序列中，每一位点上的碱基(或核苷酸)通常为A、T、C或G，还可以是其它可能的碱基。

通过本发明的方法，可以对已有的高通量测序突变检测结果进行进一步的验证以得到更加准确的突变信息。准确的突变检测信息，无论是对病人的分组还是个性化靶向药物的选择和治疗过程中的动态疗效检测都具有至关重要的作用。

附图说明

图1是1253号肺癌组织样品中第7号染色体第55242465至55242479号碱基的Sanger测序结果，上图为正向序列，下图为反向序列。

实施例

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施例并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例1

一、确定高通量测序突变检测的灵敏度

设计野生型质粒与突变型质粒，突变型质粒包含六个常用突变位点，将两种质粒按比例混合成突变频率为0.5％的质粒标准品，然后采用IonTorrent平台对该标准品及野生型质粒进行建库并测序，每个样品重复三次，对测序的原始数据进行统计，结果如表1所示，其中显示了各样品在上述突变位点上的突变频率。

表1标准品质粒和野生型质粒测序结果

采用t检验对突变型和野生型中各突变位点所测出的频率进行差异性分析，结果显示p值为1.849×10^-15，达到显著差异，由此证明高通量测序可以准确地测出0.5％水平的突变频率，因此，在本发明中，当高通量测序结果中单个位点的特定碱基取代的突变频率超过0.5％时，可以认为存在该突变。

实施例2

一、获得高通量测序的突变查找结果

对从编号为1253的肺癌患者提取的cfDNA进行IonTorrent测序，并用IonTorrent测序平台配套的VariantCallerv3.0查找突变信息，所查找到的EGFR基因中的突变情况如表2所示。

表2编号1253的肺癌患者的cfDNA的EGFR基因突变信息

Chrom

Position

GeneSym

Type

mutInfo

exon

cds_mut_syntax

aa_mut_syntax

COSM

VarFreq

Coverage

chr7

55242455

EGFR

SNP

T＞C

19

c.2225T＞C

p.V742A

13183

4.06％

1108

chr7

55242470

EGFR

SNP

T＞C

19

c.2240T＞C

p.L747S

26704

2.69％

930

chr7

55249054

EGFR

SNP

C＞T

20

c.2351C＞T

p.S784F

13189

2.08％

240

chr7

55259515

EGFR

SNP

T＞G

21

c.2573T＞G

p.L858R

6224

28.64％

2818

二、对热点突变进行验证

使用下述公式b和c对于表2中未给出的7号染色体55242465-55242479位置上可能存在的AAGGAATTAAGAGAA缺失的热点突变进行验证：

公式b：

公式c：

7号染色体55242465-55242479位置上高通量测序结果的数据如表3所示：

表37号染色体55242465-55242479位置上高通量测序结果的原始数据

Position	Target ID	Ref	Cov	A Reads	C Reads	G Reads	T Reads	Deletions
									55242465	AMPL388035696	G	1137	0	0	1043	0	94
55242466	AMPL388035696	G	1136	0	0	995	0	141
									55242467	AMPL388035696	A	1136	993	0	0	0	143
55242468	AMPL388035696	A	1136	993	0	2	0	141
									55242469	AMPL388035696	T	1136	0	25	0	969	142
55242470	AMPL388035696	T	1135	0	25	0	941	169
									55242471	AMPL388035696	A	1135	966	0	0	0	169
55242472	AMPL388035696	A	1134	963	0	2	0	169
									55242473	AMPL388035696	G	1133	0	0	964	0	169
55242474	AMPL388035696	A	1132	963	0	1	0	168
									55242475	AMPL388035696	G	1132	1	1	962	0	168
55242476	AMPL388035696	A	1131	963	0	0	0	168
									55242477	AMPL388035696	A	1131	960	0	3	0	168
55242478	AMPL388035696	G	1131	0	0	961	1	169
									55242479	AMPL388035696	C	1131	0	962	0	0	169

根据公式b计算其freq(del)＝13.8％。

根据公式c，std(del_reads)＝21.1，ave(del_reads)＝156.5，计算得CV(del)＝13.5％，因此该连续多点缺失真实存在。

三、用Sanger测序法对该热点突变进行验证

对于该测序样本，通过“金标准”Sanger法验证上述7号染色体55242465-55242479位置上的连续缺失的热点突变是否真实存在，结果如图1所示。图1是1253号肺癌组织样品中第7号染色体第55242465至55242479号碱基的Sanger测序结果，上图为正向序列，下图为反向序列,从中可以看出，样品DNA的箭头所示部分存在明显的连续的碱基缺失的情况，这与本发明的验证结果一致。

实施例3

一、获得高通量测序的突变查找结果

对从肺癌患者提取的cfDNA进行IonTorrent测序，并用IonTorrent测序平台配套的VariantCallerv3.0查找突变信息，所查找到的所有突变信息汇总如表4所示，共包括涉及三个基因(PIK3CA、EGFR、KRAS)的9个位点的突变。VariantCallerv3.0软件对于其它位点皆报突变频率为0。

表4VariantCallerv3.0查找到的突变信息

二、对热点突变进行验证

使用下述公式a和b对突变查找结果中未给出的热点突变进行验证：

公式a：

f r e q (s n p) = \frac{m u t_r e a d s}{cov_r e a d s}

公式b：

f r e q (d e l / m n p) = \frac{Σ_{i = 1}^{m} \frac{d e l / m n p_{reads}_{i}}{cov_{reads}_{i}}}{m}

(1)对于3号染色体178936091位置上可能存在的G到A的热点突变，VariantCallerv3.0软件报突变频率为0，查找其高通量测序结果的原始数据，如表5所示。

表53号染色体178936091位点的高通量测序结果原始数据

其中该位点的参考碱基是G。该位点的覆盖度(Cov_reads)是22987，测序结果是A的Reads数(mut_reads)是148，根据公式a，该位点上存在G到A的点突变，突变频率freq(snp)为148/22987＝0.64％>0.5％，即存在该突变。

(2)对于7号染色体55241706-55241707位置上可能存在的GG到TT的多点突变，VariantCallerv3.0软件报突变频率为0，查找其高通量测序结果的原始数据，如表6所示。

表67号染色体55241706和55241707位点的高通量测序结果原始数据

Chrom	Position	Target ID	Ref	Cov	A Reads	C Reads	G Reads	T Reads	Deletions
										chr7	55241706	CHP2_EGFR_4	G	39304	27	1	39053	1354	216
chr7	55241707	CHP2_EGFR_4	G	39266	23	18	37671	1554	0

其中这两个位点的参考碱基均为G。7号染色体55241706位点的覆盖度(Cov_reads)是39304，测序结果是T的Reads数(del/mnp_reads)是1354；7号染色体55241707位点的覆盖度(Cov_reads)是39266，测序结果是T的Reads数(del/mnp_reads)是1554。

根据公式b，突变频率freq(mnp)＝(1354/39304+1554/39266)/2＝0.037＝3.7％，其真实性待验证。

(3)对于3号染色体178936082位置上可能存在的G到A的热点突变，其高通量测序结果的原始数据如表7所示。

表73号染色体178936082位点的高通量测序结果原始数据

Ch rom

Position

Target ID

Ref

Cov

A Reads

C Reads

G Reads

T Reads

Deletions

chr3

178936082

CHP2_PIK3CA_7

G

22967

139

5

22797

12

14

其中该位点的参考碱基是G，覆盖度(Cov_reads)是22967，测序结果是A的Reads数(mut_reads)是139，根据公式a计算其freq(snp)＝0.61％>0.5％，即存在该突变。

(4)对于7号染色体55242463-55242477位置上可能存在的AAGGAATTAAGAGAA缺失的热点突变，VariantCallerv3.0软件报突变频率为0，查找其高通量测序结果的原始数据，如表8所示。

表87号染色体55242463-55242477位点的高通量测序结果原始数据

Position	Target ID	Ref	Cov	A Reads	C Reads	G Reads	T Reads	Deletions
									55242463	CHP2_EGFR_5	A	19156	19085	8	40	3	852
55242464	CHP2_EGFR_5	A	19156	19119	8	26	2	699
									55242465	CHP2_EGFR_5	G	19107	30	0	19049	1	842
55242466	CHP2_EGFR_5	G	19104	35	1	19063	0	610
									55242467	CHP2_EGFR_5	A	19101	19009	0	46	4	814
55242468	CHP2_EGFR_5	A	19094	19072	0	13	6	660
									55242469	CHP2_EGFR_5	T	19095	3	7	0	19074	925
55242470	CHP2_EGFR_5	T	19093	6	9	0	19074	616
									55242471	CHP2_EGFR_5	A	19091	19059	1	14	2	831
55242472	CHP2_EGFR_5	A	19091	19050	2	32	5	714
									55242473	CHP2_EGFR_5	G	19083	4	0	19076	0	803
55242474	CHP2_EGFR_5	A	19069	19022	2	38	5	796
									55242475	CHP2_EGFR_5	G	19063	1	0	19060	0	944
55242476	CHP2_EGFR_5	A	19061	19001	2	37	0	782
									55242477	CHP2_EGFR_5	A	19059	18978	1	77	1	617

根据公式b计算该突变的突变频率freq(del)＝4.02％，其真实性待验证。

(5)对于12号染色体25398285位置上可能存在的C到T的热点突变，其高通量测序结果的原始数据如表9所示。

表912号染色体25398285位点的高通量测序结果原始数据

Chrom

Position

Target ID

Ref

Cov

A Reads

C Reads

G Reads

T Reads

Deletions

chr12

25398285

CHP2_KRAS_1

C

12612

624

11652

1

335

0

该位点的覆盖度(Cov_reads)是12612，测序结果是T的Reads数(mut_reads)是335，根据公式a计算其freq(snp)＝2.66％>0.5％，即存在该突变。

三、用变异系数对热点突变中的连续多点缺失和连续多点取代进行验证

然后，使用下述公式c对上述突变查找结果中的连续多点缺失和连续多点取代热点突变进行验证：

公式c：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

(1)对于7号染色体55241706-55241707位置上的GG到TT的多点突变，CV(mnp)＝std(mnp_reads)/ave(mnp_reads)＝9.7％<15％，因此该连续多点取代真实存在。

(2)对于7号染色体55242463-55242477位置上的AAGGAATTAAGAGAA缺失的突变，std(del_reads)＝104.40，ave(del_reads)＝767，CV(del)＝104.40/767＝0.136＝13.6％<15％，因此该连续多点缺失真实存在。

(3)对于VariantCallerv3.0查找到的12号染色体25398280-25398281位置上的GC到AT的多点突变(参见表2)，其高通量测序结果的原始数据如表10所示。

表1012号染色体上25398280-25398281位点的高通量测序结果原始数据

Chrom	Position	TargetID	Ref	Cov	A Reads	C Reads	G Reads	G Reads	Deletions
										chr12	25398280	CHP2_KRAS_1	G	12639	16	2	12617	2	2
CHr12	25398281	CHP2_KRAS_1	C	12637	1	12020	0	605	11

CV(mnp)＝std(16-605)/ave(16-605)＝1.341＝134.1％>15％，因此该连续多点取代并非真实存在。

四、获得验证结果

因此，运用本发明方法进行验证后得到的所有突变信息如表11所示。

表11运用本发明方法验证后得到的所有突变信息

其中与IonTorrent测序平台配套的VariantCallerv3.0查找到的突变信息(表2)相比，增加了3个单点取代、1个多点取代和1个多点缺失，减少了一个多点取代，增加的突变信息如表11中斜体所示。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.高通量测序突变检测结果的验证方法，包括对所述突变检测结果中感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的检测结果进行验证，所述方法包括：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

其中：

2.权利要求1的验证方法，还包括验证突变检测结果中确定为不存在的感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代在高通量测序样本中是否存在的步骤：

f r e q (d e l / m n p) = \frac{Σ_{i = 1}^{m} \frac{d e l / m n p_{reads}_{i}}{cov_{reads}_{i}}}{m}

其中：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

其中：

如果CV(del/mnp)<15％，则所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代存在，其突变频率为上述计算得到的freq(del/mnp)的值；如果CV(del/mnp)≥15％，则所述感兴趣的连续位点的碱基缺失或所述感兴趣的连续位点的特定碱基取代不存在；

其中步骤(1)和步骤(2)可以任意顺序进行。

3.权利要求1的验证方法，还包括验证突变检测结果中确定为不存在的感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代在高通量测序样本中是否存在的步骤：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

其中：

f r e q (d e l / m n p) = \frac{Σ_{i = 1}^{m} \frac{d e l / m n p_{reads}_{i}}{cov_{reads}_{i}}}{m}

其中：

如果freq(del/mnp)<0.5％，则所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代不存在，如果freq(del/mnp)≥0.5％，则所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代存在，其突变频率为计算得到的freq(del/mnp)的值；

其中步骤(1)和步骤(2)可以任意顺序进行。

4.权利要求1-3任一项的验证方法，还包括验证突变检测结果中确定为不存在的感兴趣的单个位点的特定碱基取代在高通量测序样本中是否存在的步骤：

f r e q (s n p) = \frac{m u t_r e a d s}{cov_r e a d s}

其中步骤(1)、(2)和/或(3)可以任意顺序进行。

5.高通量测序突变检测结果的验证方法，包括对所述突变检测结果中感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的检测结果进行验证，所述方法包括：

(1)对于所述突变检测结果中确定为不存在的感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，按照下述公式计算所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的突变频率：

f r e q (d e l / m n p) = \frac{Σ_{i = 1}^{m} \frac{d e l / m n p_{reads}_{i}}{cov_{reads}_{i}}}{m}

其中：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

其中：

6.高通量测序突变检测结果的验证方法，包括对所述突变检测结果中感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的检测结果进行验证，所述方法包括：

(1)按照下述公式计算所述感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代的变异系数：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

其中：

f r e q (d e l / m n p) = \frac{Σ_{i = 1}^{m} \frac{d e l / m n p_{reads}_{i}}{cov_{reads}_{i}}}{m}

其中：

7.权利要求5或6的验证方法，还包括验证突变检测结果中确定为不存在的感兴趣的单个位点的特定碱基取代在高通量测序样本中是否存在的步骤：

(2)对于所述突变检测结果中确定为不存在的感兴趣的单个位点的特定碱基取代，按照下述公式计算所述感兴趣的单个位点的特定碱基取代的突变频率：

f r e q (s n p) = \frac{m u t_r e a d s}{cov_r e a d s}

如果freq(snp)>0.5％，则存在所述感兴趣的单个位点的特定碱基取代，且其突变频率等于freq(snp)；

其中步骤(1)和步骤(2)可以任意顺序进行。

8.利用高通量测序结果进行突变查找的方法，包括确定高通量测序样本中是否存在感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，所述方法包括：

f r e q (d e l / m n p) = \frac{Σ_{i = 1}^{m} \frac{d e l / m n p_{reads}_{i}}{cov_{reads}_{i}}}{m}

其中：

C V (d e l / m n p) = \frac{s t d (d e l / m n p_r e a d s)}{a v e (d e l / m n p_r e a d s)}

其中：

9.利用高通量测序结果进行突变查找的方法，包括确定高通量测序样本中是否存在感兴趣的连续位点的碱基缺失或感兴趣的连续位点的特定碱基取代，所述方法包括：

C V (d e l / m n p) = \frac{s t d (d e l / m e l_r e a d s)}{a v e (d e l / m n p_r e a d s)}

其中：

f r e q (d e l / m n p) = \frac{Σ_{i = 1}^{m} \frac{d e l / m n p_{reads}_{i}}{cov_{reads}_{i}}}{m}

其中：

10.权利要求8或9的方法，进一步包括确定高通量测序样本中是否存在感兴趣的单个位点的特定碱基取代的步骤：

f r e q (s n p) = \frac{m u t_r e a d s}{cov_r e a d s}

其中步骤(1)和步骤(2)可以任意顺序进行。

11.权利要求1-10任一项的方法，其中连续位点是指2个或2个以上的连续碱基的位点。