CN106233291A

CN106233291A - 高通量测序应用中的变体分析

Info

Publication number: CN106233291A
Application number: CN201580009709.0A
Authority: CN
Inventors: 普哈米拉·阿里亚特; 李查理
Original assignee: Bella Medical Singapore Pte Ltd
Current assignee: Wei (shanghai) Biological Technology Co Ltd
Priority date: 2014-02-20
Filing date: 2015-02-19
Publication date: 2016-12-14
Also published as: US20170109471A1; GB201402996D0; WO2015125106A1; AU2015220448A1; JP2017512324A; EP3108394A1

Abstract

本发明涉及确定、鉴别、检测和标注样品中怀疑的核酸序列的方法。具体地，本发明所述的方法允许标注存在于样品中的核酸变体。所述方法基于在得自样品的核酸的高通量测序中获得的数据。本发明还涉及能够执行适合于运行各个计算机软件的本发明的方法和装置的计算机程序。

Description

高通量测序应用中的变体分析

本发明涉及诊断应用，优选地使用高通量测序的临床诊断领域中的方法和产品。所述方法使得能够确定是否存在野生型核酸序列及其变体，以及定量野生型和/或变体核酸序列的频率。本发明还允许改善的方法，所述方法检测与野生型氨基酸序列相比时，变体核酸序列编码包含修饰的氨基酸残基的氨基酸序列的发生和/或频率。

背景技术

在临床诊断领域中，确切知晓给定靶标序列，例如，疾病相关核酸序列(例如，致癌基因或来源于病原体的核酸)是否存在可以是重要的。此外，知晓某些靶标核酸序列的出现频率有时也是重要的。

近年来，已很大程度使用了依赖PCR的检测目的核酸序列的方法来检测靶标核酸。然而，存在一些情况，其中在靶标核酸检测中PCR不足够准确，例如，当应检测存在于不同变体中的核酸时，如参与癌症发展的基因或者作为野生型序列变体存在的来源于病毒的基因。KRAS是涉及多种不同人癌症发展的基因的实例。KRAS基因以多种同种型存在，其特征为基因的一些不同位置处的核酸突变。这些核酸突变(它们中的大多数为单核苷酸突变(SNP))可以导致编码不同于野生型氨基酸残基的氨基酸残基的核苷酸密码子改变。就其活化状态或其受某些药物抑制的可能性而言，这些突变可以与蛋白质表型变化有关。

为了提供另一个实例，已知某些病毒，如HCV或HIV以大量基因型存在。在核酸序列水平和氨基酸序列水平上，这些基因型两两之间彼此不同。对于某些治疗应用，重要的是知晓病毒基因型，这是因为病毒蛋白质中的突变可与对抗病毒药物的敏感性或耐受性的改变有关，例如，在HIV感染个体的高活性抗反转录病毒疗法(HAART)中使用的干扰素或药物，所述疗法包括病毒蛋白酶抑制剂或病毒反转录酶抑制剂的施用。

当从样品(例如，临床样品)分离并通过PCR分析核酸时，所述方法的灵敏性有时不足以检测不同的核酸序列。特别是在多路PCR方法中的引物二聚作用，引物或探针与不同的或到目前为止未知的同种型的不充分结合，以及检测靶标序列的所有已知核酸同种型的大量材料(例如，引物和探针)，这在诊断应用中造成了问题。此外，建立和实施大量PCR反应来鉴别众多不同的核酸序列的成本和工作是耗时、费力且易出错的。

当使用高通量测序(也称为“下一代测序”(NGS))时，可以克服这些缺点。由于测序方法自动化、待测序样品制备和数据分析方面的进步，NGS逐渐可靠且更便宜。NGS在相对短的时间内提供了大量测序数据。此外，NGS使得能够高精度检测不同的核酸序列同种型。当使用NGS分析核酸时，对多次覆盖目的靶标序列的多个先前扩增的靶标序列进行测序。例如，当靶标核酸为病毒基因时，首先(例如)使用PCR扩增分离自样品的核酸，并且对多个所获得的PCR-序列测序。

当以一些靶标核酸序列的同种型共扩增的方式选择进行PCR的寡核苷酸时，扩增产物还含有多个不同的同种型。PCR产物的测序不仅将使得能够确定扩增的核酸序列的同一性，而且它还将使得能够确定特定目的序列是否存在。最后，测序还允许确定样品中一种或多种不同的核酸同种型的出现频率。

例如，当样品含有5％的同种型A、30％的同种型B和65％的野生型核酸序列(C)时，基于NGS的分析将不仅提供得自样品的核酸序列的相关信息。NGS还将允许确定所述核酸存在于样品中的频率百分比。这种信息可以在(例如)为从其获得临床样品的患者选择正确疗法中是重要的。

然而，在所获得的核酸序列信息的正确分析中仍存在问题。如前所述，NGS提供了不同长度的数千个序列读数、可以含有部分非编码核酸序列片段的序列和至今未知的序列，例如，包含新的单或多核苷酸突变、插入、缺失等的序列。因此，对于正确且有效分析所得数据、比对片段、排除不相关信息以及识别相关和新的核酸序列同种型而不是作为假象忽视它们仍然存在需求。

NGS基本上由四个步骤组成：

*样品材料的采集、核酸的分离和纯化；

*产生模板，例如，双链DNA，反转录RNA以获得cDNA，提供包含DNA片段化的测序文库，大小选择和寡核苷酸衔接子(oligonucleotide adapter)的连接。根据所使用的NGS技术，直接对文库测序(单分子模板)或者在测序前克隆扩增；

*在并行测序反应(例如焦磷酸测序、离子半导体测序等)中对先前生成的测序文库进行测序；

*测序后数据分析。

根据Rizzo和Buck(Key Principles and Clinical Applications of"NextGeneration"DNA sequencing,Cancer Prev Res(Phila),2012Jul；5(7):887-900)，NGS的一个重要限制是需要分析大量数据。由于NGS反应产生了百万碱基至十亿碱基范围内的序列数据集，因此在测序、数据跟踪、存储和质量控制的所有阶段，分析需要高度精细的信息技术。Rizzo和Buck(如上)将这些广泛的数据采集能力描述为将基因组研究中的瓶颈从数据采集转换至数据分析和解释。NGS机器以如此快速的速度产生数据，使得对于能够分析这些数据集的分析方法存在持续的需求。一般地，在测序平台上通过专有软件进行初始分析(也称为“碱基调用”)。碱基调用后，将测序数据与参考基因组(如果可用)进行比对或者进行从头装配(Rizzo和Buck，同上)。序列对比和装配是使用正在开发的新方法的计算研究的活跃领域(Flieek and Bimey,Sense from sequence reads:methods for alignment andassembly.Nat Methods 2009；6:S6-12)。一旦将序列与参考基因组进行比对，则需要分析数据。来源于NGS实验的序列数据的质量和数量将最终确定下游分析可以如何广泛和准确。

定性地，不同NGS平台之间单个碱基调用的错误率是不同的。所有NGS平台为每个单独碱基调用提供了置信度得分，从而当挖掘它们的序列数据时，使得研究人员能够使用不同质量的过滤器。定量地，可以通过测序“覆盖度”的量度评价序列数据的量。(Rizzo和Buck，如上)。如本文所使用的，序列覆盖度(也称为“深度”)是指给定实验中碱基对测序的平均次数。定性地，不平均的序列覆盖度也可以干扰序列变体的分析。具有不均匀读数分布的深度测序样品仍可以留下大部分未测序或正在测序的基因组，并且这些区域的分析将不能鉴别序列变化，如单核苷酸多态性(SNP)、点突变或结构变体，这是因为这些位置将是未测序的或将受测序错误的干扰(Rizzo和Buck，同上)。最终，覆盖度深度、分布和序列质量决定了可以从每个测序实验获取什么信息。

为了发现结构变体(例如，插入、缺失、移位)，使用当前(第二代)平台的完整人基因组序列的准确鉴别需要约20×至30×的序列覆盖度以克服不平均的读数分布和测序错误(Thompson JF,Milos PM,The properties and applications of single-moleculeDNA sequencing Genome Biol.2011；12(2):217.doi:10.1186/gb-2011-12-2-217)。

以上表明通过NGS测序方法获得的数据的分析是关键问题。本发明涉及分析这种数据的方法，特别是在目的核酸，例如核酸序列的特定同种型的存在与否的检测中分析这种数据的方法。因此，可以在与基因(例如，致癌基因)的特定同种型的存在有关或与病原体基因(所述病原体可以与某些疾病的存在和严重性有关，例如，与某些抗生素耐受性有关的金黄色葡萄球菌(S.aureus)基因)的存在有关的某些疾病或病症的诊断中使用本发明所述的方法。此外，本发明所述的方法使得能够检测先前未知的核酸序列同种型。本发明所述的方法还允许以高可靠性和准确度鉴别样品是否含有编码与野生型序列相比具有变化的氨基酸序列的核酸序列同种型。本发明所述的方法还涉及因此所评价的数据的治疗应用，例如，根据对分析结果的解释，给定患者是否可以用特定药物治疗。例如，如果测序数据分析结果是发现氨基酸残基突变，则医师可以基于该发现进行后续治疗，即给定氨基酸突变的存在或不存在可以表明使用特定药物的治疗是否会成功(例如，参考Genentech的专利)。此外，如果作为测序数据分析的结果确认了病毒基因型(例如，HCV或HIV)的存在与否，则负责医师可以决定特定病毒抑制药物(例如，γ干扰素、RT-抑制剂、蛋白酶-抑制剂等)是否可以以合理的成功预期使用。本发明为上述工作提供了解决方法。将在详细说明中解释本发明的其它方面。

具体实施方式

除非上下文中明确规定，否则如本说明书和权利要求中所使用的，单数形式的“一个”也包括相应的复数形式。

在本发明的上下文中，术语“约”表示本领域技术人员将会理解的、仍然确保相关特征的技术效果的准确度间隔。该术语通常表示与指定数值±10％，并且优选地±5％的偏差。

需要理解术语“包括”不是限制性的。出于本发明的目的，术语“由…组成”应认为是术语“包括”的优选实施方式。如果在下文中将组定义为包括至少某些实施方式，则这还意味着涵盖了优选地仅由这些实施方式组成的组。

如本文所使用的术语“检测存在”应理解为“检测存在或不存在”。如在本发明申请所主张的方法中所提及的，怀疑待分析样品包含含有指示病原体存在的共有核酸序列(其还可以被称为靶标序列)的核酸。

在本发明的上下文中，“靶标序列”的表述是指(例如)对病原体特异的基因组区域。可选地，所述靶标序列可以是致癌基因，或者它可以是在疾病中作用已知的基因。例如，存在涉及对某些炎症、自体免疫疾病或者代谢疾病或病症易患感性的突变。

作为应确定其存在和靶标序列的病原体的实例，可以提及丙型肝炎病毒。在本发明所述的方法中，考虑存在不止一个HCV的核酸序列变体，即不止一个所述病原体的基因型、亚型或株。例如，HCV的NS5B基因组区域使得能够鉴别样品中HCV的存在。然而，存在该基因组区域的一些基因型和亚型，即尽管所述基因组区域包含指示全部HCV基因型的共有序列，但是这些个别基因型和亚型具有不同的核酸序列或者所述核酸序列的变体。在根据本发明所述的方法中分析的重要的靶标核酸是病毒的或微生物的，例如，影响感染过程、微生物毒力和/或病原性，和/或对抗病毒药物、抗生素等的耐受性的细菌基因。

在本发明的上下文中，术语“核酸”是指处于单链或双链形式的天然存在的脱氧核糖核苷酸或者核糖核苷酸聚合物。所述核酸可以具体地为双链DNA和单链RNA。

如本文所使用的术语“序列”是指脱氧核糖核苷酸或核糖核苷酸聚合物中碱基的顺序出现，其中脱氧核糖核苷酸聚合物中存在的碱基选自A、T、G和C，并且核糖核苷酸聚合物中存在的碱基选自A、U、G和C。因此，脱氧核糖核苷酸聚合物中碱基序列可以是(例如)GGAAGCAAGCCT，而核糖核苷酸聚合物中碱基序列可以是(例如)GGAAUCGAU。

如本文所使用的，术语“样品”是指来自任何人或兽医受试者的可以测试包含靶标序列的核酸的存在的任何生物样品。所述样品可以包括得自任何器官的组织，如(例如)肺组织；和得自任何器官的液体，如(例如)血液、血浆、血清、淋巴液、关节液、脑脊髓液、羊膜水、羊膜脐血、泪、唾液和鼻咽清洗液。如上所列，样品还可以来源于身体的特定区域，例如，呼吸道；来自呼吸道的样品包括喉拭子、喉清洗液、鼻拭子和来自下呼吸道的样品。

具体地，样品可以来源于人或兽医受试者。因此，“患者”可以是人或兽医受试者。如果提及“临床样品”，则这表示该样品来自于怀疑被具有包含靶标序列的核酸的病原体感染的患者。

如本文所使用的，术语“扩增”是指酶介导的程序，其能够产生数十亿的核酸靶标的拷贝。本领域中已知的酶介导的靶标扩增程序的实例包括PCR。使用(例如)(RT-)PCR的基因组区域的扩增和使用本发明所述的方法的扩增产物的测序以及后续分析使得能够确定获得扩增核酸的样品中是否存在靶标核酸的特定基因突变(其可以是已知或未知的)或野生型。

Mullis等人在美国专利No.4,683,195中以及Mullis在美国专利No.4,683,202中首先描述了“PCR反应”用于DNA的扩增，并且“PCR反应”对本领域那些技术人员是熟知的。在PCR技术中，将DNA样品在溶液中与下列物质混合：摩尔过量的制备为与DNA双链体的每条链的3'端互补的至少两种寡核苷酸引物(参见上文，正向和反向引物)；摩尔过量的核苷酸碱基(即，dNTP)；和热稳定性DNA聚合酶(优选地Taq聚合酶)，其催化从寡核苷酸引物和dNTP形成DNA；在引物中，至少一个是正向引物，其将以5'至3'方向与变性DNA分析物的一条链(在上述定义中，非有义链)的3'端结合，并且另一个为反向引物，其将以3'至5'方向与变性DNA分析物的另一条链(在上述定义中，有义链)的5'端结合。将溶液加热至约94-96℃以使双链DNA变性为单链DNA。当溶液冷却并达到所谓的退火温度时，引物结合至分开的链，并且DNA聚合酶通过将dNTP加入到引物中来催化分析物的新链。当重复该过程并且将从引物合成的延伸产物与它们的互补物分离时，每个延伸产物用作从另一个引物合成的互补延伸产物的模板。由于每次循环后扩增序列加倍，因此在将该过程重复几小时后可以达到巨大的理论扩增拷贝数；因此，可以在相对短的时间段内使用PCR扩增极少量的DNA。

当PCR反应的起始材料为RNA时，通过反转录从RNA合成了互补DNA(“cDNA”)。然后，使用如上所述的PCR方案扩增所得的cDNA。作为反转录病毒中发现的酶，反转录酶是本领域那些技术人员已知的，其可以从作为模板的mRNA序列合成DNA的互补单链。用于扩增RNA产物的PCR被称为反转录酶PCR或者“RT-PCR”。

在如本文所使用的高通量测序的上下文中，可以使用Ion AmpliSeq法(Lifetechnologies,Inc.)进行从样品提取的核酸的扩增，Ion AmpliSeq法是可以引用的高通量测序(或者下一代测序)领域中技术专家已知的。当然，还可能使用用于来源于样品的核酸扩增的其它方法。随后使用本文所公开的方法和装置分析所获得的序列信息。

在本文中以分子生物学中的常规含义使用术语“测序”。从而确定核酸序列中准确的碱基顺序出现。

在本文中分别以分子生物学和肿瘤学中的常规含义使用术语“致癌基因”。因此，存在(例如)在基因中已知的突变，其使得“正常或野生型”基因具有致癌性，即引起癌症的；这方面的实例为使激酶具有组成型活性从而持续发出特定信号(例如，诱导生长信号)并起始相应过程的突变。如本文所使用的“致癌基因”还可以涉及也会导致引起癌症情况的染色体内或染色体间易位。在本发明背景中所使用的方法中，优选地靶向在人中导致或参与癌症发展或瘤形成的致癌基因。更具体地，所述方法适合于参与癌症对特定药物发展出抗药性的核酸变体的检测、确定和标注。因此，本发明所述的方法使得能够确定和标注致癌基因的序列变体。该信息可以形成治疗医师的治疗决策的基础，例如，施用对所分析样品的患者(即所靶向和研究的核酸所来源的患者)是否具有任何临床益处。

如本文所使用的术语“病原体”以其最广泛的含义使用。因此，病原体可以是任何类型的细菌、古菌、原生菌(protozoum)、真菌和病毒。明确提及病毒落入如本文所使用的“微生物”的定义内。

基因组变体定义为测序样品和参考基因组之间的任何差异。然而，本发明所述的方法适合于鉴别、检测小规模变体，如单核苷酸多态性(SNP)、多核苷酸多态性(MNP)和小的(～<500bp)插入和缺失。

根据个体中存在的具体的基因组变体，多种药物(例如，癌症药物)可以具有不同的反应。因此，在进行任何治疗之前，优选地测试可以影响药物反应的特定突变(变体)。

COSMIC(癌症中体细胞突变的目录)代表了包含癌症特异性突变的最大的这种数据库。然而，由于药物反应通常与蛋白质变化有关，因此以蛋白质变化和编码序列，而不是基因组变化标注数据库(如COSMIC)。因此，重要的问题是用COSMIC数据标注基因组变体。

这尤其是由于一些COSMIC标注的蛋白质变化可以在编码序列空间中横跨多个相邻的碱基对或密码子的事实。由于单个密码子可以横跨两个外显子，因此编码序列空间中的两个相邻的碱基对实际上可能在基因组空间中相隔几百个碱基对。此外，一些突变可以是另一种突变的子集或超集。

例如，在与皮肤癌有关的基因BRAF中的突变V600E中(蛋白质序列中位置600处的氨基酸“V”替换为氨基酸“E”)，编码序列位置1799中的参考碱基“T”突变为碱基“A”。(这在密码子空间中标注为c.1799T>A)。然而，存在另一种已知的突变V600K(c.l798_1799GT>AA)，这在位置1798处的G变为A并且位置1799处的T变为A时发生。第一种情况事实上是第二种情况的子集。然而，当标注突变时，需要将两种情况严格分开，这是因为具有突变V600E的患者可能需要用与用于治疗具有V600K的患者的药物不同的药物进行治疗。

还注意到有可能存在一些标注的突变，其中两个突变位置不严格相邻。例如。可以存在c.1797_1799AGT>CGA的情况。位置1798未突变并且将不会被变体调用者(variantcaller)挑选。另一种可能的困难是编码序列1798和1799中的两个碱基位置实际上处于两个不同的外显子中，并且因此在基因组序列中可能相距数百个碱基。

在所有SNP标注方法或计算机程序，例如，本发明的那些之前有两个步骤。首先，绘图程序(如BWA或TMAP)对参考基因组绘制测序读数。第二，变体调用者程序(如GATK或Torrent Variant Caller)使用该绘制信息来调用样品中的变体。本发明中，变体可以是参考基因组和样品基因组之间任何小规模的差异，如单核苷酸多态性(SNP)、多核苷酸多态性(MNP)或小的插入和缺失。

变体调用者的结果通常作为VCF(变体调用者格式)文件提供。它列出了参考基因组中观察到变体的所有位置以及每个变体的相关信息总结(参考序列、变体序列、序列读数No.等)。该VCF文件是所有变体标注程序的起点。

然而，通过从VCF文件开始(并且忽略先前的信息)，变体标注程序可能会丢失关键信息。变体调用者程序在它们如何对待相邻变体方面是不同的。它们中的大多数将单个调用每个位置，并且将不会考虑一些变体可能一起发生的事实。存在将所有相邻变体分组为单个超集，但不会考虑其中这些分组的突变中仅有1个发生的一些情况(读数部分/样品部分)的事实的程序。此外，如果两个突变相隔(一个或两个碱基或者在不同的外显子的情况下数百个碱基)，则变体调用程序不会将这些调用在一起分组。

鉴别多个SNP调用内这种共发生的仅有的可靠方法是返回查阅原始读数序列。本发明的方法和计算机工具使用VCF文件和原始绘图输出两者来将所有SNP和MNP重新分组并准确报告哪个突变组合一起发生以及所感知的突变率(样品内出现的百分比)。由于采用了两步法，首先在基因组空间中，然后在编码序列空间中，因此本发明所述的方法还能够将基因组空间中相距较远，但在编码序列和蛋白质空间中相近或相邻的变体归类。

其它已有的SNP标注程序，如SnpEff或SNP-nexus(http://www.snp-nexus.org/)不会返回查阅原始绘图数据，并因此受VCF文件所提供的信息的限制。

因此，在一个方面，本发明涉及包括以下步骤的方法：

a)提供目的区域的基因组位置(例如，扩增子测序中的扩增子区)；

b)使用适合于序列对比的软件(例如，TMAP、BWA)提供绘制的BAM文件，和使用适合于样品变体调用的软件(例如，Torrent Variant Caller、GATK)提供VCF格式的基因组变体列表；

c)过滤在所提供的VCF中，但不在所提供的目的区域的基因组位置内的变体调用；

d)从所提供的VCF和绘制的BAM文件中的变体调用列表中确定共发生和互相排斥的突变；

e)确定突变(包括内含子内的突变)的编码DNA序列和氨基酸变化；

f)用COSMIC数据库标注突变。

因此，本发明所述方法的一个目的是将给定的变体/变体组与可能的cosmic标注相匹配，这是因为通过它们的cosmic标注提及了大部分可作用的靶标(actionabletargets)。可作用的靶标是编码改变的氨基酸序列的靶标核酸序列的变体，其中所述改变导致产生了目的表型，例如，对给定药物更耐受或敏感的致癌基因所编码的多肽中的突变。因此，本发明所述方法采取了使对给定变体可以发现cosmic标注的机会最大化的方法。出于这个目的，最初在基因组水平将每个变体与cosmic条目相比较。cosmic VCF文件列出了所有cosmic条目以及它们相应的基因组变体。如果任何样品变体与cosmic VCF条目相匹配，则用该cosmic条目标注该样品变体。如果在基因组水平没有发现cosmic匹配条目，则将每个突变转化为编码氨基酸，本发明的方法包括以下步骤，其中在基因/编码序列改变水平对cosmic匹配进行搜索。以下说明了整个过程。

本发明所述的方法满足多个目的中的至少一个。考虑到存在一系列基因组变化，所述方法：

i.过滤出与给定分析不相关的变化；

ii.确定给定临近位置中哪个变体共发生；

iii.对包含已知靶标序列的数据库(例如，COSMIC)复核每个变体；

iv.用在所述包含已知靶标序列和/或鉴别新变体的数据库中存在的各自信息标注序列；

v.当变体影响靶标基因的编码序列时，预测编码序列变化和氨基酸变化；

vi.如果存在于列表中，将每个变体对一系列预定靶标变体进行比较并标注。

本发明涉及确定样品中靶标核酸序列或目的核酸序列的存在的方法。在优选的方面，所述方法是包含各自算法的分析程序。此外，本发明涉及包含适合于实施本发明方法的软件的装置(例如，仪器)。

在另一个方面，以上确定样品中靶标核酸序列或目的核酸序列的存在的方法的特征在于核酸序列的测序后分析，其中所述分析包括得自所述样品的核酸序列中变体的检测和/或定量。

具体地，本发明所述的方法使得能够确定样品中核酸序列的存在，其中当与包含作为参考的至少一种野生型核酸序列的核酸序列相比时，所述核酸序列包括至少一个变体核苷酸。

此外，本发明所述的方法使得能够确定得自样品的核酸序列的存在，其中所述序列可以与至少野生型核酸序列相比较并且可以与当与所述野生型(例如，与某些表型(如药物敏感性或耐受性等)有关的致癌基因、病毒基因)相比时包括至少一个变体核苷酸的所述野生型序列的变体相比较。

在上述方法的一些方面，所述变体核酸编码与目的表型(例如，对某些药物(例如，抗癌药、抗菌药或病毒抑制药等)的敏感性或耐受性提高或降低)有关的突变体多肽。可以从已知的药物，例如，小分子、抗生素、蛋白酶抑制剂、反转录酶抑制剂、细胞-信号分子，如干扰素、抗体等中选择这些药物。

本发明所述的方法按照或包含高通量测序(也称为下一代测序)所需的步骤。在优选的实施方式中，本发明包括离子半导体测序，例如，如Ion Torrent的专利技术所提供的。

在NGS程序开始时，需要获得怀疑含有目的核酸(即靶标核酸)的样品。可以使用本领域中已知的方法从样品提取核酸。优选地，在(半)自动系统中进行核酸提取。

此外，在本发明所述的方法之前的或者包含本发明所述的方法的NGS程序中，提供了目的区域(例如，扩增子区)的基因组位置。

在本发明所述方法的其它方面，所述区域的基因组位置被称为引物结合位点的位置(即它们的等同物)。所述引物限定了目的靶标区域。该信息用作包含计算机程序的分析方法的输入，这是因为由于它目前可以具体集中于分析目的区域内调用的变体，因此它加速了程序。此外，在本发明所述的方法中，对于每个靶标区域(扩增子)，所述算法对靶标基因转录本确定了哪个碱基处于外显子区域、内含子区域和基因间区域。本发明的方法、计算机程序和包含这些程序或执行本发明所述方法的装置可以包括NGS步骤或按照实际的NGS步骤。

因此，本发明的方法和装置包括使用以VCF格式的形式提供变体调用的软件(例如，Torrent Variant Caller，GAT)的步骤。随后，本发明的方法(或计算机程序)基于初始测序数据和外部数据库源分析了这些变体调用以提供更准确的结果。

在另外的步骤中，本发明所述的方法包括提供绘制谱图的BAM文件。该文件具有用于储存序列数据的二进制格式。BAM文件(.bam)是SAM文件的二进制形式。SAM文件(.sam)是处于人可读格式的含有序列比对数据的制表符分隔的文本文件。在http://samtools.sourceforge.net/SAMv1.pdf中描述了两者的说明。

本发明的方法还可以包括以下步骤，其中将不位于目的基因组区域(或靶标序列)中的以VCF格式提供的变体调用过滤掉。

本发明的方法或计算机程序包括在以VCF和/或绘制谱图的BAM文件中提供的变体调用列表中确定共发生和互相排斥的突变的步骤。在本发明的方法中，共发生的突变是在相同细胞中发生的多核苷酸多态性(MNP)。互相排斥的突变是不在相同细胞中发生的临近的单核苷酸多态性(SNP)。

例如，当将以下序列用作参考序列时，下划线的核苷酸tg是其中变体可以发生的那些。

1)cagtcgatcgatcgactgcgattgtgtgctagcatgcatcgatcgaga

出于说明的目的，据推测在NGS运行中获得了以下9个读数，并以粗体大写字母突出显示了变体：

1)cagtcgatcgatcgactgcgattgtgctagcatgcatcgatcgaga

2)cagtcgatcgatcgactgcgattgtgctagcatgcatcgatcgaga

3)cagtcgatcgatcgactgcgattgtgctagcatgcatcgatcgaga

4)cagtcgatcgatcgactgcgatgtgtgctagcatgcatcgatcgaga

5)cagtcgatcgatcgactgcgatgtgtgctagcatgcatcgatcgaga

6)cagtcgatcgatcgactgcgatgtgtgctagcatgcatcgatcgaga

7)cagtcgatcgatcgactgcgatttgtgctagcatgcatcgatcgaga

8)cagtcgatcgatcgactgcgatttgtgctagcatgcatcgatcgaga

9)cagtcgatcgatcgactgcgatttgtgctagcatgcatcgatcgaga

前3个读数1)至3)表明“AC”是一起发生的MNP。接下来的3个读数4)至6)表明还存在独自发生的“A”SNP。最后3个读数7)至9)表明还存在独自发生的“C”SNP。因此，“A”SNP的发生与“C”SNP互相排斥。在本领域已知的程序中，例如，在Ion Torrent Variant Caller中，此处的细节丢失，并且给出了具有9个读数支持的总结的变体调用结果“AC”。在本发明的方法中，给出了所有9个读数的详细内容，即“AC”-3个读数、“A”-3个读数和“C”-3个读数。

本发明所述的方法还可以包括确定由于核酸序列中变体所造成的编码DNA序列和氨基酸的变化。本发明所述的方法还可以包括以下步骤，其使得能够确定不同外显子上存在的核苷酸变体所编码的氨基酸序列中的突变。也就是说，当在不同外显子中存在变体时，在这些外显子之间剪接出内含子之后，编码的氨基酸可以突变，例如，当一个内含子的最后一个核苷酸和另一个内含子的第一个核苷酸突变时。当剪接出外显子时，两个变体核苷酸在核苷酸序列中是相邻的并且可以在编码的多肽中编码不同的氨基酸残基。可以在本发明所述的方法中确定氨基酸序列中和编码的核苷酸序列中的这些变化，这在本申请人已知的用于确定变体的任何方法中均非如此。更详细地，由于在一些基因组靶标序列中存在内含子和外显子，因此两个碱基在基因组地址不相邻，但在编码序列位置相邻是有可能的。图1说明了这种情况。其中，用箭头标记的两个碱基在基因组中相距较远，但是由于它们被内含子隔开，因此在编码空间中，它们是相邻的并且可以处于相同的密码子或相邻的密码子内。因此，当将突变归为一组时，应相对于编码序列位置(当在编码区内时)进行，这是因为它可以影响相同或相邻的密码子。

因此，当与不能标注在氨基酸序列中导致突变的变体的方法相比时，本文所提供的方法具有优势。与本发明所述的方法相反，现有技术方法包括两个不同的步骤。第一步涉及变体调用，而第二步是标注步骤。在那些方法中，标注程序不存取(或者不使用)底层测序数据。因此，这些方法不能确定两个变体是否共发生(不考虑它们是否在两个不同的外显子中彼此紧邻)。现有技术方法将完全如变体调用者所报告的来处理突变。变体调用者方法通常将一起报告相邻的变体。然而，如果变体相隔较大距离(例如，当它们处于两个不同的外显子中时)，现有技术的变体调用者方法将分别报告它们(因为它未使用基因/外显子数据)。

现有技术方法的最终结果是它们分别标注了两个不同的外显子中的两个突变，并因此忽略了它们的综合影响。

通过检查底层测序数据以确定横跨两个外显子的两个突变是否相关，并且如果相关，则将它们一起标注，本发明所述的方法防止了上述错误。

本发明所述的方法用数据库(例如，COSMIC)标注变体。本发明所述的方法还可以包括提供在变体分析中所获得的结果的报告。与COSMIC ID不匹配的任何变体将被认为是新的变体并且按照原样报告(无COSMIC标注)。因此，本发明所述的方法不仅涉及确定得自样品的核酸中的靶标序列的序列的方法，而且还涉及靶标核酸的新的变体的鉴别。在这两种情况下，所述方法还可以提供得自样品的核酸的氨基酸序列。鉴别或确定靶标序列的新的核酸变体的序列的方法将有助于辅助治疗医师做出治疗决策。此外，靶标序列的新的变体的鉴别和标注可以帮助开发特异性药物，例如，靶向所编码的变体多肽的抗体。例如，当新的变体核酸序列编码突变氨基酸序列时，可以产生抗所述突变多肽的特异性抗体，例如，中和抗体、封闭抗体等。此外，根据对所编码的新多肽的认识，可以使用本领域中已知的方法确定所述多肽中的结构变化。多肽结构的认识可以帮助设计影响所编码的多肽的功能的小分子，例如，如药物伊马替尼的情况，其选择性阻断多个酪氨酸激酶中的ATP-结合位点。

在本发明确定和/或标注和/或鉴别变体的方法中，数据输入包括：

a)VCF格式的基因组变体列表；

b)用于制备变体调用的绘制谱图的BAM文件(分类和索引)；

c)含有在实验(例如，NGS运行)中获得的测序数据的“测定文件”，其中所述测定文件含有每个扩增子的基因组位置及其序列的相关信息、靶标基因列表以及它们的外显子或外显子-内含子-结构的相关信息和转录本序列(来自ensembl/COSMIC所使用的)、实验中靶向的突变列表(如果适用，具有cosmic ID、编码序列变化、氨基酸变化)；

d)COSMIC VCF文件，其中所述COSMIC VCF文件对于每个VCF条目含有变体条目(以VCF格式)，所述条目用编码序列和氨基酸变化标注(应注意COSMIC文件可以从COSMIC ftp站点(ftp://ngs.sanger.ac.uk/production/cosmic/)下载)。

以上步骤c)中提及的Ensembl是欧洲生物信息学学会(European BioinformaticsInstitute)和韦尔科姆基金会桑格学院研究所(Wellcome Trust Sanger Institute)之间的联合科学项目，它是在1999年针对临近完成的人类基因组计划展开的。Ensembl是用于基因组信息检索的一些熟知的基因组浏览器中的一种(http://www.ensembl.org/index.html)。

在上述项目b)中，分类命令基于其在参考中的位置对BAM文件分类，如通过其比对所确定的。索引命令产生了使得能够在(分类)SAM或BAM文件中快速查找数据的新的索引文件。BAM文件含有测序试验产生的读数的比对信息。比对得自对参考基因组绘制读数图谱。

在以下实施例中更详细地解释了本发明。

实施例1

1)过滤变体

本发明所述的方法的第一步是而过滤掉不落入扩增子区域的变体，因为这些调用不可靠，例如，对于任何后续分析，不考虑不完全包含在扩增子区域内的所有变体。因此，如果变体的一部分在扩增子区之外，则过滤掉整个变体。

2)变体分组

以下是进行分组的原因。大部分已知的变体调用程序在每个碱基分别调用变体。例如，如果变体调用者可以产生以下输出，

Pos l A至T(50％)

Pos 2C至G(50％)

当以这种方式提供数据时，不清楚两个突变在单个细胞中是否共发生。可能两个突变是互相排斥的，或者50％的样品是野生型，而其余的含有突变Pos 1-2AC至TG。由于该信息对确定cosmic标注是至关重要的，因此在与COSMIC数据库匹配之前，本发明所述的方法将共发生的变体分组在一起。

对于分组，仅考虑SNP和MNP(多核苷酸多态性)。彼此临近(在基因组位置或在编码序列位置)的所有这些变体形成了可能的组。对于每个可能的组，提取跨过所有变体位置的所有序列读数。例如，假设检测到以下3个变体：

X＝Pos 1A至T(11％)

Y＝Pos 1A至C(21％)

Z＝Pos 2T至G(41％)

基于显示出变体的每个组合的读数的个数，填写下表(表1)。注意当对读数计数时，仅考虑在变体位置的最小phred得分为17的读数。

表1-变体分布的实例(总读数：1000)

表1显示50％的样品为野生型(否/否/否)，而其它组合以不同频率发生。当目标为最小5％的检测阈值时，过滤掉任何以小于5％的频率发生的组合。基于上表，本发明所述的方法确定在以下分组中发生的变体：X、YZ、Z。替代报告如上所列的变体(X＝Pos 1A至T等)，如下所示以准确描绘它们用于在下游分析中使用的共发生的形式报告变体。应注意忽略以1％频率发生的变体组合。

Pos l A至T(10％)

Pos 1-2AT至CG(20％)

Pos 2T至G(50％)

最初，通过程序Phred发展出Phred质量得分以帮助人类基因组计划中的DNA测序的自动化。在自动微量测序仪(automated sequencer traces)中，将Phred质量得分分配给每个核苷酸碱基调用。Phred质量得分已广泛接受用于表征DNA序列的质量，并且它可以用于比较不同测序方法的效力。将Phred质量得分Q定义为与碱基调用错误概率P对数相关的性质。

Q＝-10log₁₀P

或

P = 10^{\frac{- Q}{10}}

例如，如果Phred将质量得分30分配给碱基，则该碱基不正确调用的机会为1/1000。最常用的方法是以20和以上的质量得分计数碱基。Phred质量得分的高准确度使它们成为评价序列质量的理想工具。这如表2所示(Phred质量得分与错误概率对数相关)。

3)确定CDS/AA变化

对于编码区内的SNP和MNP，通过本发明所述的方法推断编码序列变化和氨基酸序列变化。通过突变起作用前后编码序列的简单比较来确定编码序列(CDS)变化。通过比较具有CDS变化的区域中密码子的变化来确定氨基酸(AA)变化。为了尽可能遵守COSMIC表示法，除非它们侧接了具有AA变化的密码子，否则仅列出具有氨基酸变化(非沉默)的密码子。

4)标注Cosmic信息

一旦将共发生变体分组并获得了所得变体调用，则针对COSMIC VCF文件中的条目比较每个变体的碱基对变化。如果可以在COSMIC VCF文件中找到匹配条目(匹配条目定义为具有相同基因组位置、参考碱基和替代碱基的条目)，则用匹配的COSMIC ID标注变体。为了保持与COSMIC数据库的一致性，从COSMIC条目复制CDS变化和氨基酸(AA)变化，而不是根据基因组变化推断。

此外，有可能不同的基因组突变可以导致相同的净效果(因此，导致相同的氨基酸变化)。

例如，在以下序列中，

TTAGTGGAAGCC

AGTGGA(TTAGCC)或TGGAAG(TTAGCC)的缺失将导致产生相同序列(TTAGCC)。然而，在COSMIC中可以将两种缺失认为是两个不同的突变，并用不同的COSMIC ID标注。但是在变体调用期间，仅在以上两个候选中的一个中报告突变。在这种情况下，优选地列出可以导致相同“净”基因组变化的所有其它COSMIC突变。为了有利于这种情况，引入了另外的步骤。

对于每个报告的突变，在侧接基因组区域中构建了“净效果”(例如：TTAGTGGAAGCC中AGTGGA的缺失导致产生了TTAGCC)。类似地，在数据库中构建了每个COSMIC突变的“净效果”。将具有与所讨论的突变相同的净效果的任何Cosmic突变报告为所述突变可能的COSMIC标注。单个报告的突变可以具有多个COSMIC标注。

根据基因名称和CDS变化，针对Cosmic数据库再次标注报告的突变。将基因名称和CDS变化与报告的突变相匹配的任何Cosmic突变标注到该突变。

5)用靶标列表标注

针对预定靶标变体列表比较每个处理的变体。如果其COSMIC ID存在于靶标列表中或者如果可以在列表中找到具有相同基因名称和CDS变化的靶标条目，则将变体认为是“靶标”。

与COSMIC ID不匹配的任何变体将被认为是新的变体并且按照原样报告(无COSMIC标注)。

Claims

1.标注怀疑存在于样品中的核酸序列中变体的方法，其包括以下步骤：

a)选择至少一个目的核酸序列，

b)使用分离的核酸来提供测序模板，

c)所述模板的高通量测序；

d)提供包含可能的参考序列的数据库，

e)将核酸序列中的核苷酸变体分组以确定共发生和互相排斥的突变，

f)使用序列数据库标注步骤e)中鉴别的变体。

2.根据权利要求1所述的方法，其中d)中所提及的数据库包含对应于所述目的核酸的野生型序列，并且任选地还包含所述野生型序列的变体。

3.根据权利要求1和2所述的方法，其中所述数据库为COSMIC数据库。

4.根据权利要求1-3中任一项所述的方法，还包括确定基因组和编码DNA序列。

5.根据权利要求1-4中任一项所述的方法，还包括在单一步骤中确定基因组和编码DNA序列。

6.根据权利要求1-5中任一项所述的方法，还包括过滤掉落入扩增子区域以外的变体。

7.根据权利要求1-6中任一项所述的方法，还包括确定编码的氨基酸序列。

8.鉴别怀疑存在于样品中的核酸序列中变体的方法，其包括以下步骤：

a)选择至少一个目的核酸序列，

b)使用分离的核酸来提供测序模板，

c)所述模板的高通量测序；

d)提供包含可能的参考序列的数据库，

e)将核酸序列中的核苷酸变体分组以确定共发生和互相排斥突变，

f)使用序列数据库标注步骤e)中鉴别的变体。

9.根据权利要求8所述的方法，其中d)中所提及的数据库包含对应于所述目的核酸的野生型序列，并且任选地还包含所述野生型序列的变体。

10.根据权利要求8和9中任一项所述的方法，其中所述数据库为COSMIC数据库。

11.根据权利要求8-10中任一项所述的方法，还包括确定基因组和编码DNA序列。

12.根据权利要求8-11中任一项所述的方法，还包括在单一步骤中确定基因组和编码DNA序列。

13.根据权利要求8-12中任一项所述的方法，还包括过滤掉落入扩增子区域以外的变体。

14.根据权利要求8-13中任一项所述的方法，还包括确定所述编码的氨基酸序列。

15.根据权利要求8-14中任一项所述的方法，其中所述鉴别的变体选自单核苷酸突变(SNP)、多核苷酸突变、横跨内含子的核苷酸密码子编码的突变、插入和缺失。

16.根据权利要求1-15中任一项所述的方法，还包括诊断疾病的步骤。

17.根据权利要求1-16中任一项所述的方法，其中所述疾病为传染病或肿瘤病。

18.根据权利要求1-17中任一项所述的方法，还包括为其样品被分析的受试者选择治疗性治疗。

19.根据权利要求18所述的方法，其中根据变体靶标核酸存在结果选择治疗性治疗。

20.根据权利要求1-19中任一项所述的方法，其中所述样品是临床样品。

21.确定样品中核酸同种型存在或不存在(频率)的方法，其包括以下步骤：

a)选择至少一个目的核酸序列，

b)使用分离的核酸来提供测序模板，

c)所述模板的高通量测序；

d)提供包含可能的参考序列的数据库，

f)使用序列数据库标注步骤e)中鉴别的变体。

22.定量样品中核酸序列同种型的方法，其包括以下步骤：

a)选择至少一个目的核酸序列，

b)使用分离的核酸来提供测序模板，

c)所述模板的高通量测序；

d)提供包含可能的参考序列的数据库，

f)使用序列数据库标注步骤e)中鉴别的变体。

23.检测样品中核酸序列变体的方法，其包括以下步骤：

a)选择至少一个目的核酸序列，

b)使用分离的核酸来提供测序模板，

c)所述模板的高通量测序；

d)提供包含可能的参考序列的数据库，

f)使用序列数据库标注步骤e)中鉴别的变体。

24.根据权利要求21-23中任一项所述的方法，其中与参考野生型核酸序列相比，所述变体具有至少一个单核苷酸变化。

25.根据权利要求21-24中任一项所述的方法，其中与参考野生型核酸序列相比，所述变体具有至少2个核苷酸变化。

26.根据权利要求21-25中任一项所述的方法，其中与参考野生型核酸序列相比，所述变体具有多个核苷酸变化。

27.根据权利要求21-26中任一项所述的方法，其中所述变体编码氨基酸序列，所述氨基酸序列与野生型氨基酸序列相比包含至少一个修饰的氨基酸残基。

28.根据权利要求21-27中任一项所述的方法，其中所述变体编码氨基酸序列，所述氨基酸序列与野生型氨基酸序列相比包含至少一个修饰的氨基酸残基，并且其中所述氨基酸修饰导致对药物敏感性或反应性的改变。

29.根据权利要求21-28中任一项所述的方法，其中所述药物选自抗癌药、抗病毒药或抗细菌药。

30.包含实施根据权利要求1-29中任一项所述的方法的步骤的软件路径的软件产品。

31.能够读取和执行根据权利要求30所述的软件中定义的方法步骤的装置。

32.根据权利要求31所述的装置，其中所述装置能够执行根据权利要求30所述的软件中提供的方法步骤。