CN105574365B

CN105574365B - 高通量测序突变检测结果的统计学验证方法

Info

Publication number: CN105574365B
Application number: CN201610046810.XA
Authority: CN
Inventors: 刘志源; 张静波; 陈威
Original assignee: BEIJING SAN VALLEY TONGCHUANG SCIENCE & TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: Beijing Shenggu Zhihui Medical Institute Co ltd
Priority date: 2016-01-22
Filing date: 2016-01-22
Publication date: 2018-10-26
Anticipated expiration: 2036-01-22
Also published as: CN105574365A

Abstract

本发明涉及高通量测序突变检测结果的验证方法，所述方法包括，首先建立感兴趣突变的阴性背景突变频率库，基于该阴性背景突变频率库，通过Z检验来验证高通量测序突变检测结果中单核苷酸取代类型的突变检测结果，通过卡方检验来验证高通量测序突变检测结果中连续多核苷酸缺失类型的突变检测结果。本发明方法可以实现对高通量测序突变检测结果的零成本验证，并且具有较高的正确性和灵敏度。

Description

高通量测序突变检测结果的统计学验证方法

技术领域

本发明涉及高通量测序突变检测结果的验证方法。

背景技术

恶性肿瘤是威胁人类健康的主要疾病之一，也是全球发病和死亡的主要原因。根据世界卫生组织公布的数据表明，2012年约有1400万新发癌症病例和820万例癌症相关死亡。据全球癌症统计数据显示，肺癌死亡率位于男性相关癌症的首位，在发达国家的女性相关癌症死亡率，则超越了乳腺癌跃居第一。肺癌分为小细胞肺癌(SCLC)和非小细胞肺癌(NSCLC)。基因突变是肺癌的发生、发展、恶化的关键因素。肺癌的发生是各种环境的和遗传的致癌因素引起的基因突变和多种突变长期积累的结果。突变的发生和积累导致了原癌基因的激活和抑癌基因的失活，进而引起DNA损伤修复和(或)细胞周期和(或)编程性死亡机制的失调，继而引起细胞的转化。转化的细胞在与正常体细胞生存竞争的过程中，不断进化，最终变成具有无限增殖潜力的癌细胞，从而导致肿瘤的发生。在癌细胞成克隆性的无限扩增过程中，其中一些克隆会获得新的附加突变，选择性地形成具有不同特点的亚克隆(异质化)，从而获得浸润和转移的能力。目前，已确认的与肺癌相关的突变基因包括K-RAS、EGFR、HER2、MEK、p16、p53、ALK、ROS1、RET等。

近年来，随着生物医药技术的不断发展，以及“精准医学”概念的提出，癌症的治疗观念正在发生着由非特异性转变为个体化的根本性转变。该模式根据癌症患者的个体信息，提供个性化的高效治疗方案。高通量测序技术的兴起以及测序成本的大幅降低为个体化医疗的实现提供了极大的便利，已开始广泛应用于肿瘤组织的基因突变位点检测。通过对癌症患者活检样本提取的DNA进行测序及后续生物信息分析，就可快速得到患者的突变信息，根据突变信息对患者进行分组，进行针对性的治疗及疗效评估。据2014美版NCCN记载，EGFR、BRAF、KRAS、PIK3CA等基因上的突变信息，可协助医生选择易瑞沙和特罗凯等靶向药物的有效非小细胞型肺癌人群进行个体化治疗。因此，准确的突变检测信息，无论是对非小细胞肺癌患者的分组还是个性化靶向药物的选择和治疗过程中的动态疗效检测都具有至关重要的作用。只有这样，才能真正有益于病人节省费用、减少毒副作用以及提高治疗效率。

高通量测序技术为DNA的测序提供了便利，对高通量测序结果进行数据分析可以获得DNA的突变信息，但这种通过数据分析获得的DNA突变信息的准确性还有待提高，通常需要进行进一步验证，目前用验证高通量测序检出(即通过对高通量测序结果进行数据分析获得)突变的主要方法是Sanger测序和多重PCR。尽管单个位点的验证费用不高，但如果一次性检测位点较多且检测频繁则成本较高。

发明内容

本发明涉及高通量测序突变检测结果的验证方法，所述方法包括，首先建立特定疾病患者DNA阴性突变背景库，通过Z检验来验证单核苷酸取代类型的突变检测结果，通过卡方检验来验证插入和缺失类型的突变检测结果。

根据本发明的一个方面，提供感兴趣突变的高通量测序突变检测结果的验证方法，所述方法包括以下步骤：

(1)建立感兴趣突变的阴性背景突变频率库：对来自多个参考样本的白细胞的DNA进行测序，获得白细胞DNA中感兴趣突变中每一个位点i上的特定突变的突变频率；对于每一个位点i上的特定突变，将突变频率低于5‰的所有参考样本作为一个集合，计算该集合中该特定突变的平均突变频率(μ_i0)和平均突变频率的标准差(σ_i0)，由此获得一组或多组数据，每组数据分别来自于每个集合，每组数据包括一个位点i上的特定突变的位置和突变类型、平均突变频率(μ_i0)和平均突变频率的标准差(σ_i0)等信息，所述一组或多组数据构成所述感兴趣突变的阴性背景突变频率库。

根据本发明，“感兴趣突变”是指与特定疾病相关的DNA的特定位点上的特定突变。所述“相关”是指该突变与该特定疾病之间存在一定程度的关联，例如该突变可以是该特定疾病的致病因子、或者可以是该特定疾病致病过程中的某一个环节中的因素、或者可以是与该特定疾病的致病没有直接关系、但是随特定疾病的发生而变化的突变，等等。感兴趣突变可以来源于之前的文献报道、和/或自己的研究发现。所述阴性背景突变频率库涉及的感兴趣突变可以是一个或多个感兴趣突变，多个感兴趣突变的数量可以是大于1个，例如2个或更多个、3个或更多个、4个或更多个、5个或更多个，甚至可以是10个或更多个、50个或更多个、100个或更多个、200个或更多个、500个或更多个、1000个或更多个、2000个或更多个、或3000个或更多个。在一个实施方案中，所述阴性背景突变频率库涉及的感兴趣突变的总数是2855个。

根据本发明，所述“感兴趣突变”包括单核苷酸取代(snp)、连续多核苷酸缺失。所述“位点i上的特定突变”在感兴趣突变为单核苷酸取代的情况下是指该突变位点上的特定取代，在感兴趣突变为连续多核苷酸缺失的情况下是指该突变中每个突变位点上的核苷酸缺失。在本发明中，“核苷酸”和“碱基”可以互换使用。

根据本发明，连续多碱基缺失或连续多核苷酸缺失是指2个或2个以上，例如2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个或更多个连续碱基或连续核苷酸的缺失。

在一些实施方案中，所述特定疾病是癌症。在更进一步的实施方案中，所述癌症是肺癌，优选非小细胞肺癌。

在本发明中，“参考样本”是可以是来源于健康者和/或患病者的白细胞。优选所述患病者不包括患有与白细胞基因突变相关的疾病的患者。

根据本发明，这里的“测序”是指高通量测序，可以利用本领域已知的任何高通量测序技术，包括但不限于利用Ion Torrent或Illumina测序平台进行的高通量测序。

本发明人在对癌症患者进行高通量测序突变检测的过程中发现，对于那些与疾病相关的热点突变(即感兴趣突变)，虽然某些样本的检测结果是阴性，但在这些样本中对于这些热点突变仍然具有一定的突变频率，虽然该突变频率很低，这意味着这些热点突变存在一定的背景突变频率。因此本发明提出了这样的方法：首先确定热点突变的背景突变频率范围(即建立感兴趣突变的阴性背景突变频率库)，在得到待测样本的热点突变高通量测序检测结果之后，通过检测它的突变频率是否在背景图片频率范围内，来验证它属于背景，还是真正的突变。由此建立了对高通量测序突变检测结果的统计学验证方法。确定热点突变的背景突变频率范围时，所使用的参考样本应当是对于所述热点突变为阴性的样本，在本发明中，使用白细胞作为参考样本，这是因为白细胞对于癌症的热点突变来说通常是阴性的，例如对于肺癌患者来说，患病部位的癌细胞可能具有特定突变，但该患者的白细胞并不会具有这些特定突变，因此可以使用健康者或患病者的白细胞作为参考样本。优选所述患病者不包括患有与白细胞基因突变相关的疾病的患者。

根据本发明的方法，由于每个参考样本的白细胞DNA在每个位点上的突变情况各不相同，因此对于感兴趣突变的每一个位点上的特定突变的集合，样本量n_i可能是不同的。

根据本发明，用于感兴趣突变的阴性突变背景库的参考样本的数量没有特别限制，只要能使每一个集合中的样本量具有统计学意义。优选地，用于建立感兴趣突变的阴性突变背景库的参考样本数量为50或更多，更优选为100或更多，更优选为500或更多，更优选为1000或更多，更优选为2000或更多。

(2)验证：对于高通量测序突变检测结果中snp类型的感兴趣突变的检测结果，利用高通量测序结果中该突变的突变频率(μ_i)，以及所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的平均突变频率(μ_i0)和标准差(σ_i0)，通过Ζ检验进行验证；和/或对于高通量测序突变检测结果中连续多碱基缺失类型的感兴趣突变的检测结果，利用高通量测序结果中该连续多碱基缺失类型的感兴趣突变的每一个位点上的缺失突变的突变频率(μ_i)，以及所述感兴趣突变的阴性背景突变频率库中对应于该连续多碱基缺失类型的感兴趣突变的每一个位点上的缺失突变的平均突变频率(μ_i0)和标准差(σ_i0)，通过卡方检验进行验证；

由此验证高通量测序突变检测结果中对于上述感兴趣突变的检测结果是否正确。

在一个实施方案中，通过Ζ检验对该snp类型的感兴趣突变进行验证包括：对snp类型的感兴趣突变，根据下式a计算Ζ值：

式a：

其中，μ_i为高通量测序结果中对应于该snp类型的感兴趣突变的突变频率，μ_i0为所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的平均突变频率，σ_i0为所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的平均突变频率的标准差，n_i为所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的集合的参考样本量；

如果计算得到的Ζ值小于临界Ζ值，则该高通量测序样本中的该snp类型的感兴趣突变属于背景点，验证结果为该高通量测序样本不存在该突变；如果计算得到的Ζ值大于等于临界Ζ值，则该高通量测序样本中的该snp类型的感兴趣突变不属于背景点，验证结果为该高通量测序样本存在该突变。

在优选的实施方案中，临界Ζ值为显著性水平α＝0.05时的Ζ值，即1.65。

在另一个实施方案中，通过卡方检验对该连续多碱基缺失类型的感兴趣突变进行验证包括对连续多碱基缺失类型的感兴趣突变，通过下式b计算χ²值：

式b：

其中，μ_i为高通量测序结果中对应于所述连续多碱基缺失中第i个缺失位点的缺失突变的突变频率，μ_i0为所述感兴趣突变的阴性背景突变频率库中对应于所述连续多碱基缺失中第i个缺失位点的缺失突变的平均突变频率，σ_i0为所述感兴趣突变的阴性背景突变频率库中对应于所述连续多碱基缺失中第i个缺失位点的缺失突变的平均突变频率的标准差，m是所述连续多碱基缺失中缺失位点的总数；

如果计算得到的χ²值小于临界χ²值，则该高通量测序样本中的该连续多碱基缺失类型的感兴趣突变属于背景点，验证结果为该高通量测序样本不存在该突变；如果计算得到的χ²值大于等于临界χ²值，则该高通量测序样本中的该连续多碱基缺失类型的感兴趣突变不属于背景点，验证结果为该高通量测序样本存在该突变。

在优选的实施方案中，临界χ²值为显著性水平α＝0.05时的χ²值，即5.99。

根据本发明，高通量测序是指本领域已知的任何高通量测序技术，包括但不限于利用Ion Torrent或Illumina测序平台进行的高通量测序。

根据本发明，对DNA进行高通量测序之后获得高通量测序结果，该高通量测序结果包括高通量测序文库中每一片段上的每一个位点的测序信息，所述测序信息通常包括所述每一个位点的覆盖度(Coverage)、所述每一个位点上分别为A、C、G、T或缺失的reads等。其中每一个位点上分别为A、C、G、T或缺失的reads的总和等于该位点的覆盖度。

根据本发明，高通量测序突变检测结果是指对高通量测序样本的测序结果进行数据分析以查找突变获得的结果。所述数据分析例如可以是将高通量测序结果与参考基因组序列进行比对，然后确定每一个突变的突变位点和突变类型(例如插入、取代和/或缺失)，并计算突变频率。通过比对可以得到高通量测序文库中每一片段上的每一个核苷酸位点在染色体上的位置信息和所述每一个核苷酸位点的参考核苷酸信息，所述参考核苷酸是指例如参考基因组序列中在相应于该位点的位置上的核苷酸，将这些信息与高通量测序结果结合并加以分析可以获得有关每一个突变的突变位点、突变类型和突变频率的信息。高通量测序突变检测结果例如可以包括通过比对查找到的每一个突变的突变位点、突变类型和每一个突变的突变频率，所述突变类型包括单核苷酸(即单个位点)的缺失或取代、多个连续核苷酸(即连续位点)的缺失或取代、单核苷酸的插入、多个核苷酸的插入(即多个连续核苷酸的插入)等。所述高通量测序突变检测结果可以利用任何适用于高通量测序的数据分析方法获得，例如可以使用任何合适的数据分析和序列比对软件获得突变检测结果。

应当理解，高通量测序突变检测结果除了包括有关存在的某些感兴趣突变的信息之外，还包括有关某些感兴趣突变不存在的信息，例如在高通量测序突变检测结果中，对这些检测为不存在的感兴趣突变报告其突变频率为0。因此，利用本发明方法对高通量测序突变检测结果的验证，不仅包括对所述检测结果中报告为存在的感兴趣突变的验证，还包括对所述检测结果中报告为不存在的感兴趣突变的验证。此外，应当理解，在现有的高通量测序突变检测结果中，报告某些感兴趣突变的突变频率为0仅仅意味着所使用的数据分析方法认为它们不是真正的突变，并不意味着在高通量测序结果中这些感兴趣突变的突变频率实际上为0，在高通量测序结果中这些感兴趣突变仍然具有一定的突变频率，但是其突变频率较低，所使用的数据分析方法认为它们不是真正的突变，因此统一报告其突变频率为0。

利用本发明的方法，可以实现对高通量测序突变检测结果中的snp(单核苷酸取代)和连续多核苷酸缺失突变的零成本验证，其验证结果具有较高的正确性和灵敏度。

附图说明

图1是Sanger测序验证L2348样本EGFR突变结果。

实施例

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施例并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

一、建立针对热点突变的阴性背景突变频率库

针对已知的2855个热点突变(分布在50个与多种癌症密切相关的基因中)，在IonTorrent测序平台上对随机的2000例非小细胞型肺癌患者外周血样本中的白细胞的DNA进行高通量测序和数据分析，确定每个样本中的白细胞DNA中每个热点突变的突变频率。

对于每一个snp类型的热点突变，收集该snp突变上的突变频率低于5‰的所有样本作为一个集合，计算该集合中所有样本的该snp热点突变的平均突变频率和平均突变频率的标准差；对于每一个连续多核苷酸缺失类型的热点突变中的每一个突变位点上的缺失突变，收集该位点上突变频率低于5‰的所有样本作为一个集合，计算该集合中所有样本在该位点上的缺失突变的平均突变频率和平均突变频率的标准差；综合上述针对snp热点突变的数据和针对连续多核苷酸缺失热点突变的数据，获得多组数据，每组数据分别来自于一个集合，每组数据包括一个位点上的特定突变的位置和突变类型、平均突变频率和平均突变频率的标准差等，由所述多组数据组成针对上述2855个热点突变的阴性背景突变频率库。

在建立针对热点突变的阴性背景突变频率库时，为了尽量避免样品污染和测序误差影响结果，首先确定高通量测序检出突变的阈值。设计野生型质粒与突变型质粒，突变型质粒包含六个常用突变位点，将两种质粒按比例混合成突变频率为0.5％的质粒标准品，然后采用Ion Torrent平台对该标准品及野生型质粒进行建库并测序，每个样品重复三次，对测序的原始数据进行统计，结果如表1所示，其中显示了各样品在上述突变位点上的突变频率。

表1标准品质粒和野生型质粒测序结果

采用t检验对突变型和野生型中各突变位点所测出的频率进行差异性分析，结果显示p值为1.849x 10^-15，达到显著差异，由此证明高通量测序可以准确地测出0.5％水平的突变频率，因此，当高通量测序结果中单个位点的特定碱基取代的突变频率超过0.5％时，可以认为存在该突变。

因此，基于上述实验，为了确保所检测到的每一个突变信息都属于“背景突变”，对于每个样本中的白细胞DNA中每个位点的任何突变，仅考虑突变频率低于5‰的突变。

二、对高通量测序检出的突变进行验证。

对从20例非小细胞肺癌外周血获得的cfDNA进行Ion Torrent测序，并用IonTorrent测序平台配套的软件对EGFR上的热点突变进行查找，在4例样本(L2201、L2197、L2171和L2162)中共检测出两种突变，即55242465-55242482位连续多核苷酸缺失突变及在55259515点的单核苷酸取代突变(见表2)，其他16例样本均为EGFR突变阴性，且阳性样本均通过Sanger测序证明为阳性突变。

表2 EGFR突变阳性的样本信息

接下来，对上述20例样本在中上述三种突变的检测结果进行统计学验证。

在所上述构建的阴性背景突变频率库中查找到如表3所示的信息：

表3阴性背景突变频率库中热点突变位点信息

位置	突变类型	突变信息	平均突变频率μ_i0	标准差σ_i0	样本量n_i
						chr7:55242465	del	G>-	0.185％	0.218％	160
chr7:55242466	del	G>-	0.129％	0.249％	160
						chr7:55242467	del	A>-	1.172％	1.141％	160
chr7:55242468	del	A>-	0.102％	0.262％	160
						chr7:55242469	del	T>-	0.181％	0.302％	160
chr7:55242470	del	T>-	0.096％	0.260％	160
						chr7:55242471	del	A>-	0.171％	0.266％	160
chr7:55242472	del	A>-	0.093％	0.260％	160
						chr7:55242473	del	G>-	0.090％	0.262％	160
chr7:55242474	del	A>-	0.091％	0.265％	160
						chr7:55242475	del	G>-	0.085％	0.256％	160
chr7:55242476	del	A>-	0.190％	0.271％	160
						chr7:55242477	del	A>-	0.089％	0.258％	160
chr7:55242478	del	G>-	0.090％	0.258％	160
						chr7:55242479	del	C>-	0.121％	0.256％	160
chr7:55242480	del	A>-	0.191％	0.188％	160
						chr7:55242481	del	A>-	0.018％	0.091％	160
chr7:55242482	del	C>-	0.017％	0.091％	160
						chr7:55259515	snp	T>G	0.415％	2.818％	160

对于20例样本中chr7:55259515的T>G的snp突变采用Ζ检验，按照下式a计算Ζ值：

式a：

如果计算所得的Ζ值小于1.65，则不存在该突变，如果计算所得的Ζ值大于等于1.65，则存在该突变。

对于20例样本中55242465-55242482位的GGAATTAAGAGAAGCAAC>-连续多核苷酸缺失突变，采用卡方检验，按照下式b计算χ²值：

式b：

如果计算所得的χ²值小于5.99，则不存在该突变，如果计算所得的χ²值大于等于5.99，则存在该突变。

计算结果如表4所示。

表4 20例样本的EGFR突变的统计学验证结果

*验证结果与高通量测序分析结果不一致

由表4结果可见，除样本L2348之外，其余19例样本验证结果均与原高通量测序分析结果相同。原高通量测序分析结果显示样本L2348无EGFR突变，而经本发明方法验证样本L2348在chr7:55259515具有T>G的snp突变。对该样本进行Sanger测序验证，结果显示该样本为EGFR突变阳性(具体为在七号染色体的55259515位置上具有T>G的突变)(参见图1)，与本发明方法验证结果一致。

应当理解的是，本发明的上述具体实施例仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.高通量测序样本的高通量测序突变检测结果的验证方法，所述方法包括以下步骤：

(1)建立感兴趣突变的阴性背景突变频率库：对来自多个参考样本的白细胞的DNA进行测序，获得白细胞DNA中感兴趣突变中每一个位点上的特定突变的突变频率；对于位点i上的特定突变，将突变频率低于5‰的所有参考样本作为一个集合，计算该集合中该特定突变的平均突变频率μ_i0和平均突变频率的标准差σ_i0，由此获得一组或多组数据，每组数据分别来自于每个集合，每组数据包括一个位点i上的特定突变的位置和突变类型、平均突变频率μ_i0和平均突变频率的标准差σ_i0的信息，所述一组或多组数据构成所述感兴趣突变的阴性背景突变频率库；

(2)验证：

对于所述高通量测序突变检测结果中单碱基取代类型的感兴趣突变的检测结果，利用高通量测序结果中该突变的突变频率μ_i，以及所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的平均突变频率μ_i0和标准差σ_i0，通过Z检验进行验证；和/或

对于所述高通量测序突变检测结果中连续多碱基缺失类型的感兴趣突变的检测结果，利用高通量测序结果中该连续多碱基缺失类型的感兴趣突变的每一个位点上的缺失突变的突变频率μ_i，以及所述感兴趣突变的阴性背景突变频率库中对应于该连续多碱基缺失类型的感兴趣突变的每一个位点上的缺失突变的平均突变频率μ_i0和标准差σ_i0，通过卡方检验进行验证；

2.根据权利要求1所述的验证方法，步骤(2)中通过Z检验对该单碱基取代类型的感兴趣突变进行验证包括：对单碱基取代类型的感兴趣突变，根据下式a计算Z值：

式a：

其中，μ_i为高通量测序结果中对应于该单碱基取代类型的感兴趣突变的突变频率，μ_i0为所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的平均突变频率，σ_i0为所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的平均突变频率的标准差，n_i为所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的集合的参考样本量；

如果计算得到的Z值小于临界Z值，则该高通量测序样本中的该单碱基取代类型的感兴趣突变属于背景点，验证结果为该高通量测序样本不存在该突变；如果计算得到的Z值大于等于临界Z值，则该高通量测序样本中的该单碱基取代类型的感兴趣突变不属于背景点，验证结果为该高通量测序样本存在该突变。

3.根据权利要求2所述的验证方法，所述临界Z值为1.65。

4.根据权利要求1所述的验证方法，步骤(2)中通过卡方检验对该连续多碱基缺失类型的感兴趣突变进行验证包括对连续多碱基缺失类型的感兴趣突变，通过下式b计算χ²值：

式b：

5.根据权利要求4所述的验证方法，所述临界χ²值为5.99。