CN103975329B

CN103975329B - 一种基因分析方法及装置

Info

Publication number: CN103975329B
Application number: CN201280060150.0A
Authority: CN
Inventors: S·库马尔; R·辛格; B·查克拉巴蒂
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2011-12-08
Filing date: 2012-12-03
Publication date: 2018-06-26
Anticipated expiration: 2032-12-03
Also published as: US20140336999A1; EP2748749A2; JP2015501987A; BR112014013562A2; US10607719B2; JP6141310B2; EP2602734A1; IN2014CN04568A; CN103975329A; WO2013084133A2; WO2013084133A3; BR112014013562A8

Abstract

一种非暂态存储介质存储包括比对测序读数的组装基因序列。一种电子处理设备配置为执行包括以下的操作：识别组装基因序列中的可能的变异；计算针对组装基因序列的读数的至少一个读数属性的值；以及，以包含可能的变异的组装基因序列的测序读数的至少一个读数属性的计算值满足接受标准的条件下调入可能的变异。所述电子处理设备还可以被配置为基于非随机选择标准选择组装基因序列的至少一个区域进行验证。

Description

一种基因分析方法及装置

技术领域

下文涉及基因分析技术，并且涉及对该基因分析技术的应用，诸如，医疗技术、兽医技术、肿瘤学技术等。

背景技术

基因分析应用于很多医疗和兽医领域当中，诸如，肿瘤学以及各种基因相关疾病。通常，执行临床研究以识别基因变异，所述基因变异的存在与特定的肿瘤或疾病存在关联。作为说明性范例，这样的变异可以包括：单核甘酸多态(SNP)；插入或缺失(indel)；拷贝数变异(CNV)；染色体畸变或重排；等等。

基因分析通常涉及以下操作。从患者采集组织样本，对其进行处理并将其加载到测序装置当中，所述装置生成表示通常具有大约几十到几百个碱基(base)的长度的基因序列的短部分的测序“读数”。对所述测序读数进行过滤，以丢弃重复读数，并且去除具有不可接受的低覆盖度和/或不可接受的低碱基质量的任何读数，例如，按照phred碱基质量分数对其进行测量。一般采用低于20的phred分数作为丢弃读数的标准。其余读数被组装，以生成比对的基因序列。所述组装能够是基于测序读数的重叠部分的比对而重新做的，或者能够基于测序读数到参考序列的映射，同时允许某一百分比(例如，5-10％)的碱基失配。通过将经组装的基因序列与参考序列(有可能是与基于映射的组装当中使用的相同的参考序列)进行比较而检测出变异，并且对经组装的基因序列进行注解，以识别变异及其临床意义(其中可获得变异疾病相关信息)。执行验证，以检测/表征测序或计算误差(如果有的话)。生成描述基因分析的输出的医疗报告。优选地用不熟知基因的治疗医生能够容易地理解的说法来书写医疗报告，并且其应当包括与验证结果有关的信息。

这样的分析当中的关键操作是变异识别或“调入(calling)”。这是这样一项操作，其中，对检测到的变异进行评估，以识别所述变异是否实际存在于患者的基因组中，或者反而是测序和/或组装处理当中的伪像或其中的误差。通常，基于核苷酸碱基质量和覆盖度执行变异调入。通常通过phred 之类的质量分数来测量碱基质量。就Sanger测序而言，通过计算序列碱基的参数(诸如，峰形和分辨率)，并将这些值与根据经验开发的查找表格进行比较而从谱图数据中计算phred质量分数。phred分数通常被认为与不正确地调入碱基的概率对数相关。例如，Q＝20的phred分数(Q)对应于99％的碱基调入准确度，而Q＝30对应于99.9％的准确度，Q＝40对应于99.99％的准确度，等等。覆盖度是读数的数量的度量标准，经常以倍数的形式来表达覆盖度。例如，8×的覆盖度表示平均而言，在测序期间对核甘酸读取八次。一般而言，由于覆盖度指示冗余度，较高的覆盖度对应于较高的读数可靠性。

所谓的“下一代”测序(NGS)方案采用并行处理技术，其以数量级增强吞吐量。常规的phred分数计算一般不适用于NGS技术，但是大部分 NGS平台生成可与从谱图数据中计算的常规phred分数进行比较或者换算的“phred类”碱基质量分数。但是，一般认为其比旧有技术(诸如，Sanger 测序)的可靠性低。为了增强NGS的可靠性，通常使用诸如Sanger测序、外显子捕获、基因分型(genotyping)阵列等的技术来验证输出。由于针对 NGS和这些较早技术的不同的吞吐量尺度，因而通常要对(大得多的)NGS 输出的几个随机选定的目标部分执行验证。

NGS的高吞吐量使得其对于临床应用颇具吸引力。然而，由于医疗处置决定基于临床NGS结果，临床应用还要求高可靠性。因而，与较早的技术相比，NGS的较低的可靠性使得NGS难以应用于临床环境中。

Y.Shen等人；Genome Research,vol.20,no.2,2010年2月1日，第 273-280页涉及一种SNP发现方法，以采用逻辑回归方法和标准分数来从下一代重测序数据中评估变异等位基因概率，以解释系统测序误差。

Matukumalli L.K.等人；BMC Bioinformatics,BioMed Central,London, GB,Vol.7,No.1,2006年1月6日，第1至9页涉及一种SNP发现中的机器学习。基于决策树已经采用特定的机器学习程序。据报道，ML程序基于一系列特征(诸如，序列深度、变异类型和碱基频率)来创建分类器。

下文设想了克服上述限制以及其他限制的改进的装置和方法。

发明内容

根据一个方面，一种方法包括：在包括比对的测序读数的组装基因序列内识别可能的变异；计算用于组装基因序列的测序读数的多个读数属性的值；以及，在包括可能的变异的组装基因序列的测序读数的多个读数属性的计算值满足接受标准的条件下调入可能的变异；其中，通过电子数据处理设备执行所述识别、计算和调入。使用在针对包括所述可能的变异的所述读数的所述多个读数属性的计算值上操作的分类器，将所述可能的变异分类为接受或拒绝。只有在所述可能的变异被分类为接受的情况下才调入所述可能的变异；其中，使用采用F-分数的支持向量机分类来执行分类。

根据另一方面，一种装置包括非暂态存储介质和电子处理设备，所述非暂态存储介质存储包括比对测序读数的组装基因序列，所述电子处理设备被配置为执行以下操作，包括：识别组装基因序列中的可能的变异；计算针对组装基因序列的读数的多个读数属性的值；以及，在针对包括可能的变异的组装基因序列的测序读数的多个读数属性的计算值满足接受标准的情况下调入可能的变异。使用在针对包括所述可能的变异的所述读数的所述多个读数属性的计算值上操作的分类器，将所述可能的变异分类为接受或拒绝。只有在所述可能的变异被分类为接受的情况下才调入所述可能的变异；其中，使用采用F-分数的支持向量机分类来执行分类。

一个优点在于更加准确的变异调入。

另一个优点在于变异调入当中的更大的平台独立性。

另一个优点在于与基因分析相关的验证。

通过阅读以下详细说明，很多其他优点和益处对于本领域技术人员而言将变得显而易见。

附图说明

本发明可以采取各种部件和部件布置，以及各种过程操作和过程操作的布置。附图仅仅出于对图示优选实施例的目的，不应被解释为限制本发明。

图1以图解方式示出了文中所述的基因分析系统。

图2以图解方式示出了由图1的系统适当执行的基因分析方法。

图3以图解方式示出了适当地替代图2的变异调入的备选变异调入方法。

图4以图解方式示出了具有由三聚体形成的两个环的探针的例子。

图5描绘除了文中公开的实验的对比顶部(top)特征的准确度与数量。

图6以图解方式示出了在下一代测序(NGS)处理期间的信息流，连同以粗线椭圆示出的用于选择验证区域以验证NGS结果的点。

具体实施方式

采用碱基质量分数和覆盖度的组装的变异调入通常是有效的。然而，这里应当认识到这一方案存在一些缺陷。碱基质量分数和覆盖度均依赖于测序平台和比对算法，因而为一个实验室开发的依赖于这一方案的基因测试可能难以转移到另一实验室。此外，测序误差倾向于传播到变异调入当中，因为即使(可能的)多碱基变异中的错误地调入了单个碱基能够导致错误的变异调入。因而，变异调入误差率会显著高于由phred(或其他碱基质量)分数预测的碱基调入误差率。例如，在一项研究当中，针对各种下一代测序(NGS)平台的大于99.97％的测序准确度转化成了低于99％的变异调入准确度，对于某些测序平台，降至了95％以下。Harismendy等人, “Evaluation of next generation sequencing platformsfor population targeted sequencing studies,”Genome Biology vol.10:R32(2009)。

增大覆盖度通常将减少变异调入误差。然而，增大覆盖度耗费时间，而且会导致更高的试剂成本，而且不会将变异调入误差率降到可接受的水平。例如，在一项研究中，采用NGS的SNP调入的误差率在覆盖度为20 ×的情况下甚至也是相当大的。Wang等人的“Thediploid genome sequence of an Asian individual”,Nature vo.456pages60-65(2008)。在不局限于任何具体的工作原理的情况下，我们怀疑在一些情况下，其可以是无法通过更高的覆盖度去除的系统误差的结果，和/或通过基因序列上的高覆盖度可变性导致一些序列部分所具有的实际覆盖度显著低于整个基因序列的报告 (统计)覆盖度。参考Harismendy等人的文献。此外，较高的覆盖度转化为更长的测序和比对时间，其能够降低NGS的速度优点。随机选定的目标的验证也会无法检测到未被选定作为验证目标的NGS序列区域内的变异调入问题。

在这些问题的认识当中，本领域中已知通过与诸如Sanger测序(“黄金标准”)、外显子组捕获、基因分型阵列等生成可比较数据的更为可靠(但更慢)的技术进行比较而采用对NGS输出的验证。由于针对NGS和这些其他技术的不同吞吐量尺度，因而较慢的验证技术通常是对NGS输出的几个随机选定的目标部分执行的。然而，这样的随机验证会容易遗漏NGS测序中的显著误差，并且因而无法检测到错误的变异调入。

文中公开了改进的变异调入技术，其采用对含有可能的变异的基础测序读数的性质的评估。这一方案利用了这样的事实，即，测序读数是测序仪的实际(即原始)输出。希望所读取的物理DNA或RNA链在测序期间具有结构和热力学稳定性。还希望读数具有落在针对接受分析的读数类型的典型数值范围内的属性。如果针对包括可能的变异的基因序列的读数计算的读数属性指示那些读数高度不稳定，或者背离了典型数值范围，则那些读数有可能是错误的(即，含有误差)。相应地，那些可疑读数中含有的可能的变异也可以是错误的。所公开的方案的另一个好处在于，通过采用分类器结合多个读数属性，能够在分类器的训练过程中对变异调入进行调谐。

文中还公开了验证过程中的改进。文中公开了采用非随机标准来选择验证区域，而不是使用随机选择NGS输出的区域进行验证，所述非随机标准提高了所述验证检测到NGS输出中的相关误差(如果存在的话)的可能性。例如，可以基于误差可能性量度、或基于作为功能区域的区域(因而具有已知的临床重要性)、或基于具有低重复性量度的区域(利用了在很多生物学基因序列中常常发生重复)或者基于具有群体特异性的区域(这些区域通常更可能被错误地调入为变异)等等来选择验证区域。

参考图1，患者4在样体提取实验室6中接受组织样本提取，以生成样本，通过基因组实验室8对该样本进行处理，从而对所述样本的DNA和/ 或RNA进行提取、测序和分析。例如，采样实验室6可以从对象4提取来自恶性病变的组织样本，任选地连同从患者4的其他位置提取的正常组织样本。作为一些其他说明性范例，样本提取可以包括采用活检针或其他介入式器械的活检过程、拔下头发样本以获得含有DNA的毛囊、使用皮下针抽取血液等。图1示出了说明性提取的组织样本10。应当注意，尽管图示性实施例是在临床应用下针对患者4实施的，但是在其他应用中，可以从而非人类对象(诸如，兽医对象、生态学研究对象等)中提取组织样本。还应当指出，在图示性图1中，样本10是通过图示性小瓶表示的；然而，应当理解，样本10通常可以采取适于已经采样的组织类型的任何形式，并且可以由针对该组织类型的任何适当容器或支撑物来容纳或支撑。例如，样本10可以是流体样本、表皮样本(例如，通过口腔棉拭获得的，并且被放置到无菌载玻片或其他适当表面上的)等等。

在基因组实验室8中，通过测序仪装置14对组织样本10进行处理，以生成测序读数。测序仪装置14优选是下一代测序(NGS)装置，并且可以是商用测序装置，诸如，可从美国加利福尼亚圣地亚哥的Illumina、美国马萨诸塞州剑桥的Knome、美国康奈提格州吉尔福德的Ion Torrent公司或者其他NGS系统供应商处获得；然而，也可以设想非商业性的或者定制的测序仪。通过过滤模块16对由测序仪14生成的测序读数进行过滤，以去除复制读数，并丢弃具有低于20的phred分数(或者低于另一选定的碱基质量分数阈值)的读数。由序列组装模块18对剩余序列读数进行组装，以生成基因序列，所述基因序列以序列比对/映射(SAM)格式、等效二进制数(例如，BAM)格式或者其他适当格式被存储到比对文件20内，该文件被存储在非暂态存储介质中，诸如，硬盘或其他磁介质、光盘或其他磁介质、随机存取存储器(RAM)、闪速存储器或其他电子存储介质等。所述SAM或BAM格式保存各个测序读数，并且包括指定所述读数如何形成组装基因序列的其他数据。由组装模块18执行的组装能够是测序读数的重叠部分的重新比对，或者能够是测序读数与参考序列22的映射，同时允许某一百分比(例如，5-10％)的碱基失配。在后一种情况下，例如，在人类患者4的说明性情况中，参考序列22能够是人类基因组的标准参考序列。

在一些实施例中，被存储在比对文件20中的组装基因序列是全基因组序列(WGS)。文中采用的“全基因组序列”或WGS(本领域也被称为“完全”、“完整”或“整个”基因组序列)或者类似的措辞应当被理解为涵盖对象的相当多但未必是全部的基因组。在本领域中，术语“全基因组序列”或WGS用于指代对象的近乎全部的基因组，诸如，在某些用途中至少是全部的95％。在其他实施例中，所述基因序列可以表示比WGS少的基因材料，例如，表示单个染色体或者染色体的部分。由于测序仪14采用高吞吐量的下一代测序(NGS)，因而所述基因序列通常很长，例如，包括数百、数千、数万乃至更多的碱基对(bp)的连续或者近乎连续的序列。因而，所述基因序列不是通常用于具有基因特异性技术(诸如，单核甘酸多态 (SNP)基因分型)的目标“序列”类型，对于这样的技术而言，通常覆盖基因组的不到0.1％。所述基因序列可以表示DAN(单链或双链)或者 RNA。DNA和RNA之间的显著区别在于DNA包括碱基腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)的序列；而RNA则包括碱基腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和尿嘧啶(U)的序列。换言之，在RNA中由尿嘧啶(U)碱基替代DNA的胸腺嘧啶(T)碱基。

变异调入和注释模块24将基因序列与参考序列22进行比较，例如，所述参考序列22可以是在人类基因组的文献中报告的标准参考序列。如果组装采用映射，则组装和变异调入通常使用相同的参考序列22，如图1中所示。然而，也可以设想对于组装和变异调入分别使用不同的参考序列。组装基因序列与参考序列22的比较实现了对可能的变异(也就是说，接受分析的基因序列的位置不同于参考序列22)的检测。如文中所公开的，基于含有可能的变异的读数的属性来“调入”可能的变异(也就是说，出于临床的目的被接受为实际变异)。

为了确保准确度，验证区域选择模块26基于非随机选择标准来选择用于验证的区域。通过适当的验证技术对选择的验证区域进行验证，所述技术是通过诸如说明性Sanger测序设施28的适当系统实施的。(尽管在图1 中Sanger测序设施28被示为基因组实验室8的一部分，但是可以设想将样本发送到不同的实验室，以对由选择模块26选择的验证区域进行验证)。基于组装、注释和验证的基因序列，临床评估/报告模块30以适于由监督患者4的治疗的医生查看的格式来生成临床报告。例如，生成的报告可以识别与特定类型的癌症相关的经调入的变异，或者可以强调疾病/变异相关性(或者强调没有这样的相关性，如果是这种情况的话)。

包括读数过滤模块16、序列组装模块18、变异调入/注释模块24和验证区域选择模块26的各种处理部件是通过说明性的计算机C或另一电子数据处理设备(诸如台式计算机、笔记本电脑、网络服务器等)适当体现的。临床评估/报告模块30也可以通过计算机C或另一电子数据处理设备适当体现，尽管报告的某些方面(诸如，面向治疗医生的汇总报告的书写)可以人工或者半人工执行，例如，由基因组实验室8雇佣的实验室技术人员执行。尽管说明性图1示出了通过单个说明性计算机C体现的处理部件16、 18、24、26、30，但是备选地可以设想采用不同的计算机来体现这些处理部件。例如，在一些实施例中，可以通过与测序仪14集成的计算机或其他电子数据处理设备体现过滤模块16和序列组装模块18；而其余的组装后处理、验证和报告部件24、26、30则可以通过独立计算机或者与测序仪装置通信的网络服务器来体现。

此外，可以将模块16、22、26、30执行的处理的各种实施例实际体现为存储指令的非暂态介质(未示出)，所述指令可由电子数据处理设备(例如计算机C)执行，以执行所公开的处理。例如，这样的非暂态存储介质可以包括硬盘或其他磁存储介质、光盘或其他光学存储介质、闪速存储器、随机存取存储器(RAM)、只读存储器(ROM)或者其他电子存储介质等。

继续参考图1，并且进一步参考图2，将描述图1的系统的操作。在操作40中，从测序装置14中获得测序读数。在操作42中，读数评估/过滤模块16丢弃碱基质量分数过低(例如，在一些实施例中具有低于20的phred 分数)的读数。操作42可以任选地执行其他过滤操作，诸如，去除复制读数。在操作44中，序列组装模块18组装剩余的读数，以生成被存储到比对文件20中的经比对的基因序列。所述组装可以是基于与参考序列的映射重新做的，或者可以是这些的组装(例如，在参考序列提供覆盖度的位置使用映射，在别处采用重新比对)。通常可以“剩下”一些测序读数，并且这些未经比对的读数被丢弃，或连同指示其未经比对的状态的适当注释被存储到比对文件20内。

在操作46中，在经比对的基因序列中识别感兴趣区域。可以通过各种方式识别这些区域，例如，基于区域的已知功能或者基于感兴趣的变异在该区域内的可能的存在。尽管选择感兴趣区域做进一步的分析增强了效率(尤其是在经比对的基因序列为WGS时)，但是也可以设想操作46选择整个经比对的基因序列作为感兴趣区域。另一方面，感兴趣区域可以小到单个碱基位置，所述位置是在临床研究中已经被识别为是与疾病相关的单核苷酸变异(SNV)的潜在位置的位置。

在操作50中，针对符合(一个或多个)感兴趣区域的读数计算读数属性。如果测序读数与感兴趣区域重叠、含有感兴趣区域或者被感兴趣区域包括，则所述测序读数“符合”感兴趣区域。例如，读数属性可以是热力学性质、结构性质、碱基组成性质等等。稍后将在文中阐述各种例子。在操作52中，丢弃所计算的读数属性不满足接受标准的测序读数。在操作54 中，对剩余读数(也就是说对通过了读数接受标准的读数)执行变异调入。可以通过将对经比对的基因序列与参考序列22进行逐碱基对的比较(就双链DNA而言，或者就单链DNA或RNA而言进行逐碱基的比较)而系统地识别变异。这是一种识别变异的综合方案，但是其可能具有计算密集性，并且可能产生很多识别的不具有已知疾病关联的变异。或者，在一些实施例中，参考序列24包括指示已知的疾病关联变异的位置(以及任选的组成) 的注释，并且操作54依次检查每一这样的带有注释的已知变异。一些示范性的类型的变异包括：单核甘酸变异(SNV，又称为单核甘酸多态，即， SNP)、插入或缺失(即，indel)、复制数量变异(CNV)、结构变异(SV)、存在或者缺少甲基化作用(与参考序列24相比)等等。其可能比逐碱基方案更快，而且此外，所识别的变异通常具有已知疾病关联。也可以采用这些方案的组装。

所述注释可以包括将与参考序列24存在偏差的碱基(或bp)子序列识别为变异，也可以任选对变异做出有关类型(例如，SNV、CNV、SV等) 的标示。任选地，所述注释还包括采用疾病关联性对变异进行标示，如果这样的信息在参考序列24中可得的话。

继续参考图2，在操作60中，验证区域选择模块26选择经比对的基因序列的区域进行验证。操作60不采用随机选择标准，而是采用非随机选择标准，所述标准被设计为选择含有变异，具有功能性，或者格外关乎验证的区域。在操作62中，对选定的区域进行验证，例如，通过图1的Sanger 测序设施28进行验证。

通过图1的变异调入和注释模块24适当地执行操作46、50、52、54。在图2的方案中，在操作46中选择感兴趣区域，并且首先在操作50、52 中参照接受准则对符合这些区域的测序读数进行测试。因而，在操作54只对通过了过滤50、52的读数进行研究，以识别和调入变异。一般可以立即调入在操作54中识别的变异，因为其已经通过了碱基/覆盖度标准(通过经过图1的过滤器)以及读数接受过滤(通过经过“二遍”操作50、52)。其以组装基因序列的包括可能的变异且满足接受标准的测序读数的读数属性的计算值为条件实现了调入可能的变异的目的。但是，在这种方案中，一些读数尽管不含有任何可能的变异，还是对其进行了测试(也可能将其丢弃)。

参考图3，在图1的变异调入和注释模块24的替代操作中，首先在操作70中识别可能的变异。在这一点上，仅采用碱基质量和覆盖度过滤出可能的变异(通过图1的读数评估/过滤模块16的操作)。在识别可能的变异之后，在操作72中识别含有变异的测序读数。仅针对含有可能的变异的那些读数计算读数属性。在示范性的图3中，这些包括：操作74计算探头区域的读数的序列和组成参数(也就是说针对那些含有可能的变异的读数)；操作76计算探头区域的读数的热力学或能量参数；操作78计算探头区域的读数的生物物理学或二级结构参数。稍后将在文中描述操作74、76、78 的例子。在判决操作80中，使在操作74、76、78中计算的属性与接受标准进行比较，如果满足这些标准，那么变异调入/注释模块24在操作82中出于医疗目的将可能的变异识别为实际变异，并做出适当的注释。图3的方案在计算上可能更有效率，因为操作74、76、78、80只对含有可能的变异的读数进行处理。但是，如果有很多未能通过“二遍”过滤操作74、76、 78、80的可能的变异，那么图2的操作50、52、54的方案可能更有效率。

操作80(图3)与操作52(图2)的区别在于，操作52滤除可能错误的读数，而操作80判断是否识别可能的变异(实际上，滤除可能错误的可能的变异)。在操作80的一种适当的方案中，按照与操作52中相同的方式过滤出含有可能的变异的读数，这时只有在剩余读数的数量超过调入所述可能的变异的指定最低覆盖度(即，读数的数量满足接受标准)的情况下，才调入所述的可能的变异。

在操作52(图2)或操作80(图3)中采用的接受标准是以各种读数属性的值为基础的。在示范性的图3中，计算其值的区域属性包括：序列和组成参数74，例如，核甘酸频率、GC钳、连续碱基的最大长度等等；诸如焓、熵、堆积能量、DNA变性温度或能量、双链体稳定性破坏能量等的热力学或能量属性76；诸如二聚体形成、交叉二聚体形成、发夹环形成、可弯曲性、弯曲劲度等的生物物理学和二级结构参数78。在操作80(或者图2的操作52)中，使这些读数属性的计算值与接受标准进行比较。只有在还通过了这一二遍接受试验(除了图1的模块16提供的“头遍”碱基质量/覆盖度过滤之外)的情况下，过程流才真正地抵达了操作82(或者图2 中的操作54)，在该点上可以调入可能的变异并对其注释。

在下文中描述了一些适当的读数属性的一些示范性例子。这些都是作为示范性例子提供的，也可以设想采用额外的、更少的或者其他的读数属性。

一些适当的热力学或序列组成读数属性如下。可以基于(i)读数中的腺嘌呤(A)和胸腺嘧啶(T)碱基的总数的计数值以及(ii)读数中的鸟嘌呤(G)和胞嘧啶(C)碱基的数量的计数值计算不利碱基对组成读数属性值。(对于RNA而言，采用尿嘧啶，即“U”替代了胸腺嘧啶)。在典型的人类DNA或RNA材料中，GC计数值与AT(或AU)计数值的比值应当为40-60％左右。可以采用的额外组成读数属性是出现在处于读数当中的任何位置的一行内的单一种类的碱基的数量。例如，在一些实施例中，属性是行内的A或T碱基的数量，如果这一值大于(例如)六，那么接受该读数。这样的高数量的重复碱基在人类DNA/RNA序列中是不寻常的，建议其为错误测序的结果，其使得该区域(以及其内包括的可能的变异)不可信赖，因而排除对该可能的变异的调入。

熔解温度(T_m)均匀性是一个适当的热力学读数属性。针对该参数的近似值能够将计算为：

T_m＝2(A+T)+4(G+C) (1)

通过下式给出了针对该参数的更加精确的值：

其中，ΔH和ΔS是标准的焓和熵，C₁和C₂是单互补链的初始浓度，R 是通用气体常数。

另一个适当的读数属性是GC钳，其为两引物的3'端处的相继的鸟嘌呤(G)和胞嘧啶(C)碱基的数量。GC钳对于具有目标DNA的复合体的形成很重要。

在低聚核苷酸探针(probe)的稳定性的确定方面起着重要作用的适当热力学读数属性是：堆积能量；螺旋桨式扭转；可弯曲性；双链体稳定性自由能；以及DNA变性。二核苷酸碱基堆积能量表示DNA的部分解堆积的容易程度。高值表示不稳定区域，因而将具有计算的高堆积能量的读数滤除。具有低双链体稳定性自由能含量的区域将比具有高热力学能含量的区域更加稳定。而且，如果该值过高，则其可以指示应当将该读数滤除。具有低DNA变性值的DNA区域比具有较高值的区域更可能变性。因而，这里可以采用过低的DNA变性值滤除读数。

二核苷酸螺旋桨式扭转是螺旋的柔性值。低值表示更高的柔性。具有高可弯曲性值的部分比具有低值的区域更可弯曲。三核甙酸可弯曲性模型模仿了DNA朝向大沟的可弯曲性。不易于将这些参数的值就读数是有效读数的可能性而言确定为是“好”还是“坏”。但是，通过采用这些属性作为特征输入到分类器内，并针对带有标签的数据(即，被标示为“好”或“坏”的读数)对所述分类器加以训练，能够针对这些读数参数对所述分类器进行有用的训练。

某些影响探针的稳定性的其他因素是与低聚核苷酸的内部稳定性相关的因素。通常引物的稳定的5'端点和不稳定的3'端点通过减少针对未知目标的误引动(priming)而给出了最佳结果。可以通过低3'稳定性避免可能触发DNA合成的双链体形成，5'端也必须配对，以形成稳定的双链体。最佳端子ΔG～8.5kcal/mol；其变动降低了引动效率。而且，可以采用分类器训练优化相对于这些参数的接受标准。

一些供接受标准之用的适当生物物理学和二级结构读数属性包括与发夹环形成、双链体稳定性破坏能量、DNA弯曲劲度、二聚体/交叉二聚体形成和自我互补性相关的属性。将依次对其解说。

就发夹环形成而言，一般可容许具有-2kcal/mol的ΔG的3'端发夹结构和具有-3kcal/mol的ΔG的内部发夹结构。与此相关的一个适当的读数属性是未形成由三聚体(下文中的“SS特征1”)或四聚体(下文中的“SS特征2”)形成的环的核苷酸的数量。另一个与发夹环相关的读数属性是具有由三聚体(下文的“SS特征3”)和四聚体(下文中的“SS特征4”)形成的环的最长序列的长度。

参考图4，其示出了具有两个由三聚体形成的环的探针的例子。按照 a+b+c计算图4的SS特征1的值，同时按照max(a；b；c)计算SS特征3的值。具有高双链体稳定性破坏能量的值的区域将比具有较低能量值的区域更加稳定。参考Breslauer KJ,Frank R,H,Marky LA,“Predicting DNA duplex stability from the base sequence”,Proc NatlAcad Sci U S A.1986 Jun；83(11):3746-50。DNA弯曲劲度的高值对应于更具刚性的DNA区域，而低值则对应于更容易弯曲的区域。参考Sivolob AV,Khrapunov SN, “Translationalpositioning of nucleosomes on DNA:the role of sequence-dependent isotropicDNA bending stiffness”,J Mol Biol.1995Apr 14；247(5):918-31。

二聚体/交叉二聚体形成能够被表征为如下读数属性。在低聚核苷酸与杂交成目标DNA相比更易于形组成子间二聚体时，它们降低了成品率。一般容许具有-5kcal/mol的ΔG的3'端自二聚体和具有-6kcal/mol的ΔG的内部自二聚体。探针自互补性的适当测度是低于7bp的回文分数。

在下文中将描述一些实际执行的实验。

全基因组测序的执行如下。借助Illumina标准双端低聚糖(oligos)采用NEBNextDNA样本Prep Master Mix Set1构建用于WGS的双端库。通过多次运行生成Illumina115碱基对双端读数数据。由WGS生成了总共 1267651634个双端读数。采用Illumina流水线v1.5/v1.6对数据进行处理，从而进行碱基调入。采用被配置为允许在30bp种子中存在两个失配的 Burrows Wheelers Aligner(BWA)使通过Illumina过滤的读数与人类参考基因组组装(UCSC Hg19)比对(Li等，2009)。将复制读数对去除，以对抗在样本制备过程中生成的PCR伪像。在全基因组组装之后经过映射的碱基的平均覆盖度为～28×。

使用最低SNV质量分数20和最低读数深度20×，以SAM工具执行比对后SNV调入(Li等，2009)。去除紧密靠近插入/缺失变异(indel)的 SNV、具有过量的读数深度的区域内的SNV以及在10碱基对窗口内具有多个SNV调入的区域内的SNV。针对全基因组总共调入了3291501个SNV。之后，选择SNV的列表，并提取多个热力学参数。还采用Sanger双重脱氧毛细测序法随机选择SNV进行验证。

读数之后被分类为两个类别：(1)类别1，其中，来自WGS和Sanger 测序的基因型调入是匹配的；(2)类别2，其中，来自WGS和Sanger测序的基因型调入不匹配。之后在该处对读数进行特征提取、选择和分类。特征提取提取出如前所述的碱基组成、热力学和二级结构特征。特征选择采用了支持向量机排序(ranked)特征提取(SVM RFE)和最近邻排序特征 (NNRF)。在探针的各个区域内总共提取了3219个特征并对其进行分析，包括处于探针中央的3'端和5'端。尔后，对它们应用分类法，以区分探针的好坏。

支持向量机(SVM)已经被用于各种分类目的。它们将数据映射至在类别之间提供更好的隔离的较高维的空间内，并找到提供最大裕度的超平面。给出在两类中的训练向量x^k∈Rⁿ,k＝1,…,m和标签向量y∈R^m，从而使得y^k∈{1,-1}，SVM解决优化问题：

其条件为：

y_k(w^Tφ(x_k)+b)≥1-ξ_k (4)

并且

ξ_k≥0,k＝1,...,m (5),

其中，通过核函数φ在较高维空间内表示所述训练数据，C是针对训练误差的惩罚参数。对于任何测试向量x而言，决策函数为：

f(x)＝sgn(w^Tφ(x)+b) (6).

采用准确度测度执行特征选择。必须对从探针计算的特征进行最佳选择，从而得到更好的分类器。所述特征中的一些有可能会使分类器的性能劣化。实验中采用的策略是识别顶部特征，并采用它们训练和测试分类器。 F-分数提供了一种方便的表达，其中，可以基于特征在探针好坏方面的辨别力对特征排序。在给定了训练向量x^k∈Rⁿ，k＝1,…,m的情况下，如果好坏探针的数量分别是n+和n-，则第i个特征的F-分数被计算为：

其中，符号分别是完整探针数据集、好探针数据集和坏探针数据集的的第i个特征的均值。是第k个好探针的第i个特征，是第k个坏探针的第i个特征。分子指示好探针集合和坏探针集合之间的区别，分母指示两个集合的每个中的一个。F-分数值越高表明该特征越具有区别性。

从类别1和2两者的读数中计算总共3219个特征。在计算针对所述特征的F-分数值之前将所述特征按比例换算到范围0到1内。实验表明，顶部特征在整个数据集内发生变化。在大部分情况下，预计是具有优先权的 (在先前经验的基础上)特征的那些特征来自顶部特征列表。表1示出了针对各种数据集识别的前十项特征。应当指出，探针的长度在这些数据集内存在变化，而且对于较短的探针而言，所述特征中的一些可能是不相关的。但是，应当指出，在针对各种数据集识别的顶部特征之间存在一定的重叠。

表1——针对得到了肯定验证结果和否定验证结果的读数识别的顶部特征

所述实验中的采用F-分数的SVM分类是如下完成的。对特征的F-分数值进行降序排序，并通过使顶部特征的数量按照步长n(通常取10)递增而采用它们对SVM分类器进行训练。可以针对测试数据对分类器进行评估，由此获得准确度，继而在所述准确度的基础上选择顶部特征的数量。最佳特征集合是得到最高分类准确度的集合。

图5标绘出了针对一个这样的数据集获得的对比顶部特征数量的准确度。SNV形成不同的类别表现出了良好的隔离度，而且是用于确定由一组来自WGS数据集的读数生成的SNV的准确度的良好指标。

在上述实验中，采用Sanger双重脱氧毛细测序法随机选择SNV进行验证。如参考图1的验证区域选择模块26所讨论的，文中公开了采用非随机选择标准选择要进行验证的区域。

参考图6，其以图解方式示出了提取目标区域进行验证的步骤和检验点。图6示出了具有用于选择验证区域以验证粗线椭圆内示出的NGS结果的点的信息流。在用于验证的带宽/资源(例如，图1的Sanger测序设施的吞吐量)的基础上，可以在每一步骤或检验点处选择一定数量的目标区域。用于选择验证区域的选择标准可以包括：基于错误可能性量度对区域做出的选择，其目的在于验证任何具有高误差可能性的区域；基于作为功能区域(即，基因组内的功能区域)的区域的选择；基于低碱基重复量度对区域做出的选择，其目的在于验证显著缺少重复区域的区域；基于作为群体特异性区域(即，具有群体特异性信息，可能将其错误地检测为基因变异) 的区域的选择；基于含有至少一个指示变异的注释的区域的选择；具有不同结构特征的区域；等等。

表2——被选择为进行验证的SNP(s*＝链；B＝WGS碱基调入)

Chr

hg19开始

hg19结束

rsid

hg18开始

s*

样本

参考

Cov

B

chr15

28705279

28705280

rs7163702

26500067

+

V16

C

52

C

chr17

16287670

16287671

rs41447048

16228395

+

V16

A

37

A

chr19

22841788

22841789

rs2957833

22633628

+

V16

t

32

T

chr19

54781843

54781844

rs4022330

59473655

+

V16

C

5

C

chr6

2547684

2547685

rs10456057

2492683

+

V16

A

68

A

chr6

2641546

2641547

rs2596437

2586545

+

V16

A

39

A

表2、3和4提供了基于前述非随机标准选择出来进行验证的目标单核甘酸多态(SNP)、indel和结构变异(SV)区域的例子。

表3——所选择的进行验证的indel

表4——所选择的进行验证的SV

已经参考优选实施例描述了本发明。显然，在阅读了理解了前述详细说明的情况下，本领域技术人员可以认识到对其的修改和变化。应当将本发明解释为包括所有这样的修改和变化，只要它们在所附权利要求或其等价要件的范围之内。

Claims

1.一种基因分析方法，包括：

在包括比对测序读数的组装基因序列中识别可能的变异；

计算针对所述组装基因序列的测序读数的多个读数属性的值；以及

在针对包括所述可能的变异的所述组装基因序列的测序读数的至少一个读数属性的计算值满足接受标准的条件下调入所述可能的变异；

其中，使用在针对包括所述可能的变异的所述读数的所述多个读数属性的计算值上操作的分类器，将所述可能的变异分类为接受或拒绝；并且其中，只有在所述可能的变异被分类为接受的情况下才调入所述可能的变异，以滤除可能错误的可能的变异；其中，使用采用F-分数的支持向量机分类来执行分类；

其中，通过电子数据处理设备执行所述识别、计算和调入。

2.根据权利要求1所述的基因分析方法，其中，所述至少一个读数属性包括至少一个碱基组成属性。

3.根据权利要求1所述的基因分析方法，其中，所述至少一个读数属性包括至少一个热力学属性。

4.根据权利要求1所述的基因分析方法，其中，所述至少一个读数属性包括至少一个能量属性，其中，所述能量属性指示读数稳定性。

5.根据权利要求1所述的基因分析方法，其中，所述至少一个读数属性包括至少一个二级结构属性。

6.根据权利要求1-5中的任一项所述的基因分析方法，还包括：

对一组测序读数进行组装，以生成所述组装基因序列；

其中，不满足碱基质量分数和覆盖度标准的测序读数被丢弃，并且不被包括在所述组装基因序列中；并且

其中，所述组装基因序列包括全基因组序列。

7.一种基因分析装置，包括：

用于在包括比对测序读数的组装基因序列中识别可能的变异的单元；

用于计算针对所述组装基因序列的测序读数的多个读数属性的值的单元；以及

用于在针对包括所述可能的变异的所述组装基因序列的测序读数的至少一个读数属性的计算值满足接受标准的条件下调入所述可能的变异的单元；

其中，通过电子数据处理设备执行用于识别的单元、用于计算的单元和用于调入的单元。

8.根据权利要求7所述的基因分析装置，其中，所述至少一个读数属性包括至少一个碱基组成属性。

9.根据权利要求7所述的基因分析装置，其中，所述至少一个读数属性包括至少一个热力学属性。

10.根据权利要求7所述的基因分析装置，其中，所述至少一个读数属性包括至少一个能量属性，其中，所述能量属性指示读数稳定性。

11.根据权利要求7所述的基因分析装置，其中，所述至少一个读数属性包括至少一个二级结构属性。

12.根据权利要求7-11中的任一项所述的基因分析装置，还包括：

用于对一组测序读数进行组装以生成所述组装基因序列的单元；

其中，所述组装基因序列包括全基因组序列。

13.一种基因分析装置，包括：

非暂态存储介质，其存储包括比对测序读数的组装基因序列；以及

电子处理设备，其被配置为执行包括以下的操作：

识别所述组装基因序列中的可能的变异；

计算针对所述组装基因序列的读数的多个读数属性的值；以及

其中，使用在针对包括所述可能的变异的所述读数的所述多个读数属性的计算值上操作的分类器，将所述可能的变异分类为接受或拒绝；并且其中，只有在所述可能的变异被分类为接受的情况下才调入所述可能的变异，以滤除可能错误的可能的变异；其中，使用采用F-分数的支持向量机分类来执行分类。

14.根据权利要求13所述的基因分析装置，其中，所述至少一个读数属性包括从由下述内容构成的集合中选择的至少一个读数属性：碱基组成属性、热力学属性、能量属性和二级结构属性。

15.一种非暂态存储介质，其存储能够由电子数据处理设备执行的指令，以执行根据权利要求1-6中的任一项所述的方法。