CN113767438A - 使用均聚物折叠测序读段改进对齐 - Google Patents

使用均聚物折叠测序读段改进对齐 Download PDF

Info

Publication number
CN113767438A
CN113767438A CN202080030040.4A CN202080030040A CN113767438A CN 113767438 A CN113767438 A CN 113767438A CN 202080030040 A CN202080030040 A CN 202080030040A CN 113767438 A CN113767438 A CN 113767438A
Authority
CN
China
Prior art keywords
reads
homopolymer
sequence
hcs
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080030040.4A
Other languages
English (en)
Inventor
R·格罗思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pacific Biosciences of California Inc
Original Assignee
Pacific Biosciences of California Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pacific Biosciences of California Inc filed Critical Pacific Biosciences of California Inc
Publication of CN113767438A publication Critical patent/CN113767438A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

本公开提供了用于解析长且高度相似但不相同的基因组区域以提高组装质量,尤其是多倍体基因组的组装质量的方法、组合物和计算机实施的过程等等。本公开的方面涉及使用均聚物折叠序列读段的精确字符串匹配来确定两个序列是否重叠并因此代表相同的基因组区域(例如,多倍体基因组中的相同单倍型)或序列是否代表不同的基因组区域。

Description

使用均聚物折叠测序读段改进对齐
相关申请的交叉引用
本申请要求于2019年2月28日提交的美国临时专利申请62/812,191的优先权,出于所有目的,将其公开内容通过引用整体并入本文。
背景技术
基因组序列组装是指通过将每条染色体破碎成更小的基因组片段的过程确定每个基因组染色体的核苷酸序列,将每条基因组片段的核苷酸序列“读取”而使片段序列成为读段序列,然后组装读段序列。组装需要多拷贝的基因组DNA。这些多拷贝可以从来自同一生物体的多个细胞中获得(假设具有相同的基因组DNA),或者通过复制(例如,PCR扩增)包含在单个细胞中的基因组获得。当相同的基因组基因座被两个不同的片段覆盖时,这两个片段被称为“重叠”。重叠片段的核苷酸序列也重叠,因为它们共享一个共同的子序列。如果重叠片段共享的共同子序列在基因组中唯一出现,则可以从这些片段的读段中检测这些片段之间的重叠。在这种情况下,如果两个读段也共享一个共同的核苷酸序列,该核苷酸序列延伸到每个读段的一端,则可以正确推断这两个读段来自一对重叠的基因组片段。可以通过叠加共同序列来“重叠”两个读段。可以形成图结构,其中顶点(读段)通过“重叠”读段之间的边连接。每条边代表两个读段来自包含相同基因组基因座的基因组片段的断言。在有效组装中,每个连接的组件代表来自同一染色体的重叠基因组片段。可以通过对齐读段、叠加读段中对应于基因组中相同位置的位置,由每个连接的组件形成重叠群(contig)。在没有读段错误的情况下,可以正确确定每个位置的核苷酸身份。考虑到读段错误,每个基因组位置上许多重叠读段的“堆积”允许使用冗余将草拟组装打磨到高度一致的准确性以抑制读段错误。
虽然组装过程在概念上简单,但在整个基因组中正确的重叠检测已被证明是困难的,特别是对于包含长重复序列区域的基因组。组装从根本上受到从其读段中检测重叠基因组片段的准确性的限制。当来自两个不同基因座的读段被错误地识别为来自同一基因座时,出现假阳性重叠错误。当两个不同的基因座具有相同或几乎相同序列的长区域时,可能出现假阳性。当来自重叠基因组片段的读段被错误地识别为来自不同基因座时,出现假阴性重叠错误。当读段错误掩盖了重叠基因组片段共享的共同核苷酸序列时,可能出现假阴性。两种类型的重叠错误,如果不随后纠正,都导致组装错误。假阳性重叠会导致染色体融合,或者更常见的是重复元素的扩展或折叠。假阴性错误,尤其是系统错误,可能导致组装中断,其中单个染色体由多个不相交的重叠群表示,这可能伴随着重叠群边界的一些基因座的丢失。
本公开尤其解决了单倍体和多倍体基因组中高度相似但不相同的序列的存在对基因组组装带来的挑战。
发明内容
本公开提供了用于解析长且高度相似但不相同的基因组区域以提高组装质量,尤其是多倍体基因组的组装质量的方法、组合物和计算机实施的过程等等。在基本层面上,这包括确定两个序列是否重叠,即序列是否代表相同的基因组区域——在多倍体基因组中该区域的相同单倍型——或者序列是否代表不同的基因组区域——或不同的单倍型。
本公开的方面包括用于组装基因组或基因组区域的方法,该方法包括:从感兴趣的基因组获得基因组片段的多个序列读段;为所述多个序列读段中的每一个生成均聚物折叠序列(HCS)和相应的均聚物编码序列(HES);生成HCS读段的后缀/前缀精确字符串匹配,其中所述精确字符串匹配的长度等于或大于最小长度;通过移除多个HCS读段中的每一个的不是与另一个HCS读段的后缀/前缀精确字符串匹配的一部分的任何核苷酸,生成修整的HCS读段;从修整的HCS读段生成第一有向重叠图;识别第二有向重叠图中的连接的组件;为每个所述连接的组件生成多序列对齐,其中每个修整的HCS读段中的位置用连续的整数值标记,以便为任何两个修整的HCS读段中的对齐位置分配相同的整数值;基于所述多序列对齐从第二有向重叠图中修剪合并节点;通过在修整的HCS读段的多序列对齐中的每个对齐位置连接碱基调用(basecall),生成均聚物折叠的共有序列;为均聚物折叠的共有序列中的每个位置关联均聚物长度的向量,其中:(i)所述向量中的元素数量是在多序列对齐中覆盖该位置的修整的HCS读段的数量,以及(ii)所述向量的每个分量是在该位置处在相应HES中均聚物的长度;为所述均聚物折叠的共有序列中的每个位置分配共有均聚物长度作为与该位置相关的均聚物长度的向量的分量的中值的底(floor);并且用由该位置的N个连续核苷酸拷贝形成的均聚物串替换均聚物折叠的共有序列中的每个位置,其中N是为该位置计算的指定的共有均聚物长度,以生成均聚物扩展的共有序列,从而组装感兴趣的基因组或基因组的基因组区域。
在某些实施例中,在生成HCS读段之前,该方法进一步包括生成多个序列读段中的每一个的反向互补序列。
在某些实施例中,重叠区域的最小长度为0.5kb至10kb。在某些实施例中,重叠区域的最小长度为5kb至8kb。在某些实施例中,重叠区域的最小长度为6kb至7kb。在某些实施例中,最小长度是HCS读段的平均长度的至少一半。
在某些实施例中,多个序列读段在单分子合成测序反应中生成。在某些实施例中,单分子合成测序反应是单分子实时
Figure BDA0003312265260000021
测序反应。在某些实施例中,多个序列读段在单分子纳米孔测序反应中生成。
在某些实施例中,多个序列读段是多个单分子共有序列(SMCS)。在某些实施例中,SMCS由至少8个子读段生成。在某些实施例中,子读段在单分子测序反应中从串联多核苷酸底物生成。在某些实施例中,子读段在单分子合成测序反应中生成。在某些实施例中,子读段在基于单分子纳米孔的测序反应中生成。在某些实施例中,子读段在单分子合成测序反应中从环状或拓扑环状多核苷酸底物生成。
在某些实施例中,感兴趣的基因组是人类基因组。
在某些实施例中,当基因组样品包含多个不同的基因组时,该方法还包括为多个不同的基因组生成组装件。在某些实施例中,样品是包含多个微生物基因组的宏基因组样品。
在某些实施例中,未放置到连接组件中的HCS被放置到用于验证组装中的变体调用的储箱(holding bin)中。
在某些实施例中,在生成HCS之前,预先选择多个序列读段以映射到一个或多个感兴趣的基因组区域。在某些实施例中,预先选择映射是通过低严格性序列相似性搜索进行的。在某些实施例中,一个或多个感兴趣的基因组区域包括彼此具有高序列相似性的第一和第二基因组基因座。在某些实施例中,为第一和第二基因组基因座生成单独的共有序列。在某些实施例中,一个或多个感兴趣的基因组区域包含具有高度重复区域的基因组基因座。
在某些实施例中,该方法是一种用于从头基因组组装的方法。在某些实施例中,从头基因组组装是多倍体基因组的完全或部分单倍型解析组装。
本公开的方面包括用于确定共有序列的系统,包括:存储器;输入/输出;以及耦合到所述存储器的处理器,其中所述系统被配置为:从感兴趣的基因组接收基因组片段的多个序列读段;为所述多个序列读段中的每一个生成均聚物折叠序列(HCS)和相应的均聚物编码序列(HES);生成HCS读段的后缀/前缀精确字符串匹配,其中所述精确字符串匹配的长度等于或大于最小长度;通过移除多个HCS读段中的每一个的不是与另一个HCS读段的后缀/前缀精确字符串匹配的一部分的任何核苷酸,生成修整的HCS读段;从修整的HCS读段生成第一有向重叠图;识别第二有向重叠图中的连接的组件;为每个所述连接的组件生成多序列对齐,其中每个修整的HCS读段中的位置用连续的整数值标记,以便为任何两个修整的HCS读段中的对齐位置分配相同的整数值;基于所述多序列对齐从第二有向重叠图中修剪合并节点;通过在修整的HCS读段的多序列对齐中的每个对齐位置连接碱基调用,生成均聚物折叠的共有序列;为均聚物折叠的共有序列中的每个位置关联均聚物长度的向量,其中:(i)所述向量中的元素数量是在多序列对齐中覆盖该位置的修整的HCS读段的数量,以及(ii)所述向量的每个分量是在该位置处在相应HES中均聚物的长度;为所述均聚物折叠的共有序列中的每个位置分配共有均聚物长度作为与该位置相关的均聚物长度的向量的分量的中值的底;并且用由该位置的N个连续核苷酸拷贝形成的均聚物串替换均聚物折叠的共有序列中的每个位置,其中N是为该位置计算的指定的共有均聚物长度,以生成均聚物扩展的共有序列;以及将所述均聚物扩展的共有序列提供给用户,从而组装感兴趣的基因组或基因组的基因组区域。
在某些实施例中,该系统还被配置为执行根据上述任一实施例的方法并将该方法的结果输出给用户。
附图说明
图1显示了从
Figure BDA0003312265260000041
多核苷酸底物(两端带有发夹衔接子的双链多核苷酸)生成SMCS读段的过程的示意图。
图2显示了两个重叠基因组片段和源自这些基因组片段的两个读段的实例,这些片段共享一个共同子序列。
图3显示了来自不同基因座的两个基因组片段以及来自这些片段的两个读段的对齐的实例,这些片段共享一个共同子序列。
图4显示了源自包含串联重复序列的基因组片段的两个读段以及这些读段的两个对齐。
图5显示了二倍体基因组、来自2号染色体的母本拷贝的两个基因组片段,以及来自这些片段的两个读段的对齐。
图6显示了源自2号染色体的父本和母本拷贝的两个基因组片段以及源自这些片段的两个读段的对齐。
图7显示了两个重叠的基因组片段和来自这些片段的两对读段。第一对没有错误,但第二对中的第二读段包含均聚物缺失。
图8说明了信号—两个高度相似的序列之间的生物学变异,通常是单核苷酸变异—和噪声、读段错误之间的近似正交性,所述错误混淆重叠基因组片段的识别,其通常是均聚物插入缺失(indel)。
图9显示了两个重叠的基因组片段、源自这些片段的两个读段,其第二个包含均聚物缺失,以及源自读段的均聚物折叠序列的对齐。
图10显示了如何可以通过均聚物折叠来“完善”被均聚物破坏的读段的实例。读段的均聚物折叠序列与从中获得读段的基因组片段的均聚物折叠序列相匹配,从而掩盖了读段中的插入缺失错误。
图11显示了过滤掉均聚物插入缺失错误以识别一对重叠读段并避免与来自不同等位基因的高度相似基因组片段的读段错误重叠的实例。
图12显示了精确字符串匹配和“完美”读段之间的多序列对齐的示意图。
图13、图14和图15显示了使用HCS将SMCS分成单倍型、为单倍型调用共有序列、为共有序列中均聚物区域调用共有序列长度以生成均聚物扩展的共识序列、以及通过与参考基因组比较调用纯合子和杂合变体的算法工作流程,其中在某些情况下先前排除的HCS可用于变体调用验证。
图16显示了纯合区域如何可以诱导两种不同的单倍型不期望的合并为单个连接组件,即可以分离单倍型,但在此过程中,单倍型被分解为较小的单倍群(haplotig),在没有完全跨越纯合区域的SMCS读段的情况下无法解析其连接性。移除合并节点(即,节点C)的过程在本文中有时被称为“修剪(pruning)”。
图17显示跨纯合区域的SMCS读段如何解析单倍型。这也是一个修剪过程。移除合并节点(即,节点C)的过程在本文中有时被称为“修剪”。
图18显示了SMCS读段长度的直方图、源自这些读段的HCS的长度,以及每个HCS的长度与派生它的SMCS读段的比率。
图19显示了来自SMN2的单个单倍型的11个均聚物折叠的SMCS读段的多序列对齐。
图20显示了51个均聚物折叠的SMCS读段的多序列对齐,其中合并了SMN1的两个单倍型。
图21显示了映射到人类基因组参考GrCh38中SMN1和SMN2序列的100个SMCS读段的二倍体组装。
具体实施方式
本公开尤其提供了用于解析长且高度相似但不相同的基因组序列以改进基因组组装质量,尤其是多倍体基因组的组装质量的改进方法。通常,该过程包括过滤掉混淆基因组组装的主要形式的测序错误,并执行已过滤读段的精确字符串匹配,以防止来自不同基因座或不同单倍型的高度相似基因组片段的读段的重叠。
定义
术语“基因组片段”在本文中用于指从细胞中提取并从其所在的染色体断裂的单链或双链DNA分子,或替代地,通过复制(例如,PCR或线性扩增)形成的此类分子的拷贝。基因组片段由基因组基因座识别——它在染色体中的原始位置、它的核苷酸序列,以及在多倍体基因组中的单倍型。当两个基因组片段共享一个共同的基因组基因座并且在多倍体基因组中属于相同的单倍型时,这两个基因组片段是“重叠的”。重叠基因组片段的核苷酸序列也是重叠的;也就是说,两个核苷酸序列共享一个共同的子序列,对应于重叠基因组片段共享的基因组基因座。然而,反之则不然。序列共享一个共同子序列的两个基因组片段不一定“重叠”,因为共同子序列可能出现在两个不同的基因组基因座,或者在多倍体基因组中,在相同的基因座但在不同的单倍型中。基因组片段可以源自用户所需的任何来源(例如,任何动物、植物、真菌、单细胞生物等)。在一些情况下,多核苷酸底物的文库可以源自多种不同的生物体,例如多种不同的人类样品或包含不同生物体的混合物的宏基因组样品。基因组片段可以是扩增过程(例如,通过PCR或线性扩增)、天然/未扩增的多核苷酸或两者的组合的产物(例如,多核苷酸底物具有扩增基因组片段和非扩增基因组片段或者具有天然链和通过扩增产生的互补链的感兴趣的双链区域)。不打算在这方面进行限制。
术语“多核苷酸底物”在本文中用于指包括基因组片段(或其拷贝)的多核苷酸,其形式可以通过测序平台进行测序,而不管所使用的测序平台如何。在某些实施例中,多核苷酸底物除了有助于获得和/或分析基因组片段的序列的基因组片段(例如,合成的或以其他方式工程化的序列和/或功能部分)之外还包括功能结构域。此类功能域的实例包括但不限于以下一项或多项:引物结合位点、马达蛋白的结合位点(例如,如在某些纳米孔测序技术中所采用的)、捕获引物结合位点、捕获部分(例如,胆固醇、生物素、亲和素/链霉亲和素等)、测序引物结合位点、条形码、注册序列、独特的分子标识符、可检测标记或任何其他方便的序列或部分。这种额外的序列和部分可以通过将衔接子连接到基因组片段来提供,例如通过连接、扩增等,如本领域中通常进行的。用于感兴趣的基因组片段例如全基因组的多核苷酸底物的文库在本领域中常规生成和分析。
本公开使用术语“感兴趣区域”来指代所公开的方法也可以应用于的整个基因组的子集。例如,“感兴趣区域”可以包括一个或多个基因作为连续块或多个块。不打算在这方面进行限制。
本公开使用术语“单分子共有序列”(SMCS)来指通过分析基因组片段的多个序列读段获得的共有序列。基因组片段的每个完整序列读段,其不包括侧翼衔接子多核苷酸的任何序列,在本文中称为“子读段”。由于多核苷酸底物的构造和/或所采用的测序技术的差异,感兴趣区域的一组子读段可以包括(i)仅多核苷酸的单链或(ii)多核苷酸的两条互补链的子读段。例如,需要序列数据的多核苷酸底物可能包括基因组片段的多个线性头对尾拷贝,当测序时,其提供一组子读段,每个拷贝一个,代表相同的原始基因组片段(例如,通过包含基因组片段的环状多核苷酸的滚环扩增产生的串联多核苷酸底物)。相反,当使用长读段合成测序方法对两端带有发夹衔接子的双链基因组片段进行测序时(例如,
Figure BDA0003312265260000061
测序中使用的
Figure BDA0003312265260000063
多核苷酸底物在结构上呈线性但拓扑上呈环状),产生了一组子读段,其包括双链基因组片段的正向链及其互补反向链的子读段。可以分析正向和反向链子读段以生成基因组片段的共有序列。需要注意,潜在的测序方法不一定确定是否获得了仅单链或互补链的子读段。例如,
Figure BDA0003312265260000062
多核苷酸的滚环扩增可以产生线性多核苷酸底物,当使用纳米孔测序技术进行测序时,其将返回两条互补链的子读段。此外,使用合成测序方法测序的包含基因组片段(拓扑结构与细菌质粒相似)的结构上环状双链多核苷酸底物将返回基因组片段的仅一条链的子读段。
图1提供了如何在
Figure BDA0003312265260000071
测序反应中从
Figure BDA0003312265260000072
多核苷酸底物生成SMCS读段的示意图。在图1顶部,显示了具有双链DNA基因组片段和两个末端发夹衔接子的
Figure BDA0003312265260000073
多核苷酸底物。虽然只显示了一种多核苷酸底物,但应该清楚,
Figure BDA0003312265260000074
文库包含一群具有相同一般结构和各种不同且通常重叠的基因组片段的
Figure BDA0003312265260000075
多核苷酸底物。这种多核苷酸底物在一定条件下与测序引物和聚合酶结合,形成能够合成核酸的三元复合物。三元复合物在合成测序
Figure BDA0003312265260000076
测序反应(Pacific Biosciences of California,Inc.)中进行测序,其中每个碱基的添加记录在单个长测序读段中。因为多核苷酸底物是拓扑环状的,一旦聚合酶第一次穿过整个多核苷酸底物,它就进入滚环扩增(RCA)。单个长测序读段的整个长度称为“聚合酶读段”,并且包括源自基因组片段和衔接子二者多次通过的所有序列数据。聚合酶读段中基因组片段两条链的每个子读段通过去除衔接子序列来识别。图1中的每个子读段都按其生成顺序进行标记。(注意,子读段11仍在生成中)。鉴于
Figure BDA00033122652600000710
多核苷酸底物的拓扑结构,奇数子读段(即子读段1、3、5、7、9和11)代表源自多核苷酸底物中双链基因组片段的一条链的序列,而偶数子读段(即子读段2、4、6、8和10)代表源自多核苷酸底物中双链基因组片段的另一条互补链的序列。子读段1到8在图1中对齐以强调该点(其中子读段9的开头被对齐,因为聚合酶将合成链从多核苷酸底物上置换)。在获取子读段的数据后,生成多核苷酸底物中基因组片段的SMCS读段。SMCS读段的质量值(QV)取决于聚合酶读段的准确性和用于生成SMCS的子读段数量。目前,在
Figure BDA0003312265260000077
测序平台上由10个子读段生成的SMCS实现了QV30(参见Wenger,A.等人2019年1月13日“Highly-accurate long-readsequencing improves variant detection and assembly of a human genome”BioRxiv,doi.org/10.1101/519025中的图1b;出于所有目的,特此通过引用整体并入本文)。
如上所述,使用单分子测序平台产生基因组片段的SMCS的任何方法均可用于本文公开的组装方法。因此,术语SMCS可用于使用任何单分子测序平台获得的数据,例如,在Pacific Biosciences的单分子实时
Figure BDA0003312265260000079
测序中
Figure BDA0003312265260000078
多核苷酸底物的测序,在例如来自Oxford Nanopore Technologies、Genia等纳米孔测序平台中使用的基因组片段,或任何其他方便的单分子测序平台。例如,SMCS读段可以使用来自基于纳米孔的单分子测序数据的子读段生成,用于由基因组片段的多个拷贝形成的串联体(例如,如Volden等人,PNAS2018,v115(39),p.9726-9731“Improving nanopore read accuracy with theR2C2method enables the sequencing of highly multiplexed full-length single-cell cDNA”中所述,其通过引用整体并入本文)或具有独特分子标识符(UMI)的多核苷酸底物。不打算在这方面进行限制。因此,从单个基因组片段或其拷贝/多个拷贝的多个子读段的单分子测序数据生成的任何共有序列都包含在该术语中。对于
Figure BDA0003312265260000082
测序,SMCS表示使用从单个
Figure BDA0003312265260000081
多核苷酸底物获取的子读段确定的共有序列,该子读段在测序芯片中的单个零模式波导(ZMW)中测序(如上文图1所述)。对于纳米孔测序平台,SMCS代表使用子读段确定的共有序列,所述子读段来自在单个纳米孔中测序的单个原始基因组片段,例如,包含连接的互补链和/或源自单个原始基因组片段的重复的单个多核苷酸底物(如上所述的“串联体”),或来自多个纳米孔,例如,在多个不同纳米孔中测序的相同原始基因组片段的单独拷贝,其中例如每个拷贝用UMI标记。对于单分子测序平台和方法的示例,参见以下美国专利和美国专利申请公开,其各自通过引用并入本文:US8324914、US2013/0244340、US2015/0119259、US2010/0196203、US2011/0229877、US2016/0162634、US7315019、US2009/0087850和US2018/0023134。
如本文所用,术语“均聚物折叠序列”或“HCS”是指衍生自亲本序列的序列,其中亲本序列中多个连续相同核苷酸的每个实例被相同类型的单个核苷酸替换。例如,多核苷酸序列AATGGGCCG的HCS是ATGCG。因此,“均聚物折叠”、“折叠均聚物”等用于描述从亲本序列(非HCS)创建HCS的过程。
“均聚物插入缺失错误”是指一种测序错误,其中在序列读段中插入或删除了与读段中相邻且正确的核苷酸相同的核苷酸。例如,在正确读段是单个G时将错误的G插入到正确G旁边的序列读段中,从而导致GG读段,是均聚物插入缺失错误。作为另一个例子,从4个G长序列中删除一个G,从而导致GGG读段而不是正确的GGGG读段,也是均聚物插入缺失错误。均聚物插入缺失错误可以插入或删除多于一个与读段中相邻且正确的核苷酸相同的核苷酸,例如2、3或4个核苷酸的均聚物插入缺失。如本文所述,原始序列读段中的均聚物插入缺失错误通过形成相应的HCS(即,均聚物折叠)的过程过滤掉。因此,均聚物折叠将包含均聚物插入缺失错误的测序读段(即不同于其来源的基因组片段的测序读段)转化为与序列从其来源的基因组片段的HCS相同的序列(HCS)。
“完美”序列读段是其均聚物折叠序列(HCS)与从其来源的基因组片段的HCS相同的序列读段。序列读段中均聚物中的插入缺失错误被均聚物折叠掩盖。如果序列读段中唯一的错误是均聚物插入缺失,则读段因均聚物折叠而完善。
基因组组装问题
如上所述,基因组组装依赖于源自不同基因组片段的序列读段的正确重叠。当来自两个独立基因组片段的序列读段共享一个共同的核苷酸序列时,该共同的核苷酸序列延伸到每个读段的一端(进行“燕尾”对齐),则可以正确推断这两个读段来自一对重叠的基因组片段。因此,可以通过叠加该共同序列来重叠两个测序读段。图2提供了简单的图,显示了来自包含相同基因座的单倍体基因组(显示在顶部小图中)的染色体的两个基因组片段(第二小图中的A和B)如何重叠。在该图中,基因组片段A包括来自染色体2(Chr2:123000-133000)的核苷酸123000至133000,而基因组片段B包括来自染色体2(Chr2:127000-137000)的核苷酸127000至137000。这些基因组片段都包含核苷酸127000至1333000(基因座Chr2:127000-133000)。因此,当对这些基因组片段进行测序时(下小图中的序列a和b),它们各自的序列读段将包含一个共同的重叠子序列,即Chr2的序列:127000-133000,这使得它们可以在基因组组装过程中叠加。
当两个基因组片段的共同子序列在基因组中仅出现一次时,可以从这些片段的序列读段中正确推断出基因组片段之间的重叠(如图2所示)。然而,由于基因组通常包含许多重复元素,其中相同或高度相似的序列出现在基因组中的多个不同基因座处,因此基因组组装过程可能被混淆。例如,许多重复元素(甚至那些不相同的元素)共享如此高的序列相似性,以至于它们的差异不容易从它们的测序读段中检测到。此外,重复序列的长连续区域,例如5个碱基序列的长段,会导致组装错误。因此,共享一个共同序列的序列读段必然源自同一基因座引起的基因组片段的基本假设可能会因重复元素而变得无效。因此,检测在一对读段之间共享的相同(或几乎相同)序列区域对于两个读段代表重叠基因组片段是必要的,但这还不够。
串联重复和散布重复是特别麻烦的区域,其可能导致组装中的错误或中断。串联重复包括重复序列基序的多个连续拷贝,而散布重复包括出现在基因组中两个或多个不相邻位置的序列。图3显示了散布重复如何对基因组组装产生负面影响的一个例子。图3中的上小图显示了包含相同核苷酸子序列但源自基因组中不同基因座的基因组片段。具体而言,基因组片段A以子序列127000-133000(从上游某处开始)结束,基因组片段C以相同的子序列257000-263000(在下游某处结束)开始。这些基因组片段的序列读段(下小图中的a和c)可以在这个相同的子序列区域中重叠。然而,这种重叠会导致对潜在基因组的错误推断。具体而言,这种重叠导致基因组组装中核苷酸1330001至262999的缺失。图4显示了串联重复如何对基因组组装产生负面影响的一个例子。在该图中,基因组片段D和E包括串联重复序列中的一个共同子序列,该重复序列共有4个相同核苷酸序列的拷贝,跨越核苷酸124000-136000。这些基因组片段的序列读段(下小图中的d和e)可以对齐,以便删除一个重复,从而折叠了重复区域(中小图)或以便添加一个重复,从而扩大了重复区域(下小图)。
串联重复和散布重复的生物学起源通常是一个或多个重复事件,之后是进化分歧——突变在后代中的独立积累。当两个不同的基因座共享相同的序列时,只有当至少有一个读段完全跨越共同序列的每次出现时,才可能正确组装。在这种情况下,可以使用共同序列侧翼的序列来区分基因座。更常见的是,基因组包含重复元素,这些重复元素最初是由在祖先生物中多次重复或插入相同元素而产生的,但这些元素经历了多代的突变,导致它们之间的序列差异。在读取基因组片段时没有测序错误的情况下,将检测到基因组片段之间的差异,从而可以区分不同的基因座。
在散布重复中,一个重复侧翼的区域与第二个重复侧翼的相应区域具有低相似性。因此,有可能构建连续组装,其将散布重复与在重复内重叠的两个读段桥接,其中重叠读段之一从散布重复的上游开始,而第二读段从散布重复向下游延伸。在串联重复区域由重复基序的相同拷贝组成的情况下,连续组装需要读段以完全跨越整个串联重复块,因为锚定在串联重复块相对侧的两个读段之间的正确配准无法确定。具体来说,将串联重复块与来自相反侧的两个读段桥连起来,而不是用单个读段完全跨越该区域,会导致串联重复区域中重复单元数量的扩展或折叠(如图4所示)。
除了在不同基因座出现重复元素的问题外,多倍体基因组中也存在纯合性问题,该多倍体基因组包含每条染色体的多个同源拷贝。这在图5的顶部小图中表示,父系染色体由♂表示,母系染色体由♀表示。人类基因组是高度纯合二倍体基因组的一个例子,同源染色体之间的差异小于0.1%。多倍体基因组的期望组装是一组重叠群,其中每个重叠群代表完整的染色体,而每个同源染色体由不同的重叠群代表。如图5中显示,基因组片段A和B包括来自母本染色体2的共同基因座127000-133300。它们各自的序列读段a和b因此包括该共享母本基因组基因座的共同子序列,即基因座127000-133000的序列。这些序列读段的重叠(显示在底部小图中)准确地反映了潜在的基因组结构。
在给定的基因座上,两个等位基因,即两个不同的同源染色体上的同源基因座,如果它们在该基因座上具有相同的序列,则称它们是纯合的。如图6所示,基因组片段A和C包括染色体2中的纯合基因座:母本染色体2的核苷酸127000-133000和父本染色体的核苷酸127000-133000。它们各自的序列读段a和c因此包括该纯合基因组基因座的共同子序列,即母本和父本染色体的基因座127000-133000的序列。这些序列读段的重叠(显示在底部小图中)并不准确反映潜在的基因组结构。这种错误的重叠可能导致组装错误,其在该基因座处合并母本和父本重叠群或使它们断喙。正确的二倍体组装不仅需要确定两个读段是否来自同一基因组基因座,还需要确定它们是否来自该基因座的相同单倍型。共享一个共同序列的读段来自同一等位基因引起的基因组片段的假设可能会因纯合区域而变得无效。当共同序列相同时,组装受限于重复元素的长度和相对于读段长度的纯合基因座。需要长读段来跨越两个单倍型相同的长区域,延伸到单倍型之间有足够变异的区域以轻松区分它们。
区分高度相似、不同序列的能力不仅取决于这些序列的长度,还取决于相似程度。噪声读段可能需要很长,才能完全跨越基因组中长距离延伸的中等相似性区域。然而,如果准确度足以区分只有中等相似性的中间区域,那么只有中等长度的高度准确读段也可以通过跨越相同序列的许多较短区域来组装同一区域,从而锚定读段的两端。
当两个读段的准确性如此之高以至于读段之间的差异的数量显著高于预期的读段错误数量时,可以区分由两个不同但高度相似的序列产生的读段。但是,也可以通过检查两个读段之间的差异类型来确定两个读段来自具有甚至更高相似性的不同核苷酸序列的基因组片段。例如,许多长读平台中的读段错误主要是插入缺失。例如,在图7中,当分析基因组片段A和B的无错误读段a和b时,它们正确重叠(右上小图),而当分析无错误序列读段a和含错误序列读段b*时,b*中的均聚物缺失错误(即从“TT”均聚物中去除“T”)导致本应重叠的读段未能重叠(基于它们源自染色体2中重叠基因组片段A和B的事实)。与这种主要形式的序列读段错误相反,两个高度相似的基因组基因座或杂合等位基因之间的真实(或生物学)差异通常是单核苷酸替换。因此,如果一对读段之间的唯一差异是均聚物插入缺失,则可以推断读段来自具有相同序列的基因组片段,并且差异是序列读段错误。相反,如果一对读段之间的唯一差异是单核苷酸替换,则可以推断读段来自高度相似但不重叠的基因组片段,例如来自不同等位基因的基因组片段。在极端情况下,我们可以将源自仅在一个位置不同的基因组片段的两个读段分离为它们不同的单倍型(即,两个读段相差一个单核苷酸变异,或SNV)。
噪声过滤:真正的生物变异vs.测序读段错误
噪声过滤的一个重要方面是识别和利用信号和噪声在某些坐标空间中基本上处于正交方向的情况。关于基因组组装过程,我们正在考虑的信号是重复序列元件或单倍型(例如,SNV)之间的真实生物学变异,而噪声是测序读段错误(例如,均聚物插入缺失)。
这些信号和噪声向量之间的关系如图8所示。在该图中,显示了代表信号和噪声的两个近似正交的向量,其中信号向量代表生物学差异,其可用于识别何时两个基因组片段不重叠,因此属于不同的基因组基因座和/或单倍型(在此情况下是SNV),噪声向量代表序列读段错误,其阻止识别重叠的两个基因组片段,因此属于相同的基因组基因座和/或单倍型(在这种情况下是均聚物插入缺失)。在基因组中,属于不同单倍型和/或不同基因组基因座的高度相似序列之间的大部分生物学差异是单核苷酸变异(SNV)。在许多测序平台中,读段错误主要是均聚物插入缺失(参见Wenger,A.等人2019年1月13日“Highly-accuratelong-read sequencing improves variant detection and assembly of a humangenome”BioRxiv,doi.org/10.1101/519025中的表1;出于所有目的,特此通过引用整体并入本文)。相比之下,可能被误认为生物SNV的核苷酸替换错误相对较少。生物学变异和读段错误之间的差异为过滤提供了机会。该图中所描绘的信号和噪声之间的近似正交性意味着可以在不显著降低信号强度的情况下抑制噪声。
组装过程包括寻找形成长燕尾对齐的读段(R1,R2)对,其中R1的后缀与R2的前缀对齐,反之亦然。长度超过定义阈值和某些序列相似性的对齐被假定为真正的重叠并用于组装。当读段没有错误(即没有噪音)时,后缀和前缀的对齐是精确字符串匹配。Gusfield等人(Gusfield,Dan、Gad M.Landau和Baruch Schieber."An efficient algorithm for theall pairs suffix-prefix problem."Information Processing Letters 41.4(1992):181-185;特此通过引用整体并入本文)描述了一种使用后缀树的算法,该算法解决所有对后缀-前缀问题,其时间复杂度在输入的总和(即,读段长度的总和)和输出的总和(即读段数的平方)中是线性的。由于检测读段之间的成对重叠被认为是基因组组装中的限速步骤,因此加速该步骤的方法导致显著更快的组装。
我们使用典型人类基因组中单倍型之间充分表征的差异作为生物学变异模型(“信号”)。人类基因组由大约30亿个位置组成,其中父系和母系染色体上的同源序列对齐。对于变异率的这种粗略分析,我们忽略了男性性染色体(X和Y)的差异。在一个典型的人中,大约有300万个单核苷酸变异(SNV;一个核苷酸替换另一个核苷酸)和大约30万个插入和缺失变异(插入缺失)。SNV和插入缺失的相应比率为1比1000和1比10,000(参见Chaisson,Mark JP等人“Multi-platform discovery of haplotype-resolved structuralvariation in human genomes.”bioRxiv(2018):193144;特此通过引用整体并入本文)。
当从一组测序读段组装基因组或基因组区域时,重要的是当一个读段的前缀和第二个读段的后缀来自同一基因组片段时将两个读段重叠(“燕尾”重叠)。为了防止在两个不同基因组片段中出现相同序列(即来自基因组中不同位置的序列彼此相同)的读段的虚假燕尾重叠,重叠长度可以设置为超过所有(或大多数)这样的相同基因组片段的长度,例如大约1,000到大约7,000个核苷酸。需要注意的是,重叠长度参数的调整可以由用户完成,以解决已知与正在测序的基因组和/或正在使用的测序平台相关的特定问题,并因此,预期重叠长度没有严格的阈值。一般来说,增加最小重叠长度参数会增加重叠检测的特异性,同时降低灵敏度。以更高的灵敏度(即,以更低的最小重叠长度)形成的组装具有更高的连续性,但可能导致连接源自非重叠基因组片段的两个读段。此外,即使正确确定了序列读段的重叠(即,它不是序列读段错误的结果),来自不同单倍型但本身不重叠的两个读段仍然可能和与两个单倍型共享的纯合区域重叠的第三读段连接。例如,具有纯合后缀区域的两个读段都可以与相同的第三读段重叠,第三读段的前缀包括该纯合区域的全部或部分。在这种情况下,两个不同的单倍型可能不期望地合并为一个连接的组件。幸运的是,这些合并通常可以在组装过程的后续步骤中解决,例如,通过修剪第三读段的连接组件以破坏这种单倍型合并。
在本文描述的基因组组装方法中,我们希望避免重叠不共享足够长度的相同连续子序列的两个测序读段。测序读段之间的任何差异表明这两个读段源自包含不同、非重叠基因组片段的多核苷酸底物,其或者是基因组的不同区域,或者来自同一区域的不同单倍型。在任何一种情况下,不正确地重叠此类测序读段都会在组装例如二倍体组装中引入错误。
在某些情况下,两个独立的基因组片段,即出现在基因组中不同位置或在同一基因座上为不同单倍型的基因组片段,可能在超过用于对重叠测序读段进行评分的长度阈值的长度上相同。当此类基因组片段出现在不同的基因组位置时,源自这些基因组片段的测序读段的错误重叠会导致组装错误。当此类基因组片段出现在相同基因组位置的不同单倍型中时,源自这些单倍型的测序读段的错误重叠会导致两个单倍型合并,从而导致组装中连续相位块的结束(相位块是基因组组装中的单倍型序列是可分离的区域,例如,母本和父本序列被解析)。无法确定被纯合块中断的两个不同相位块的相对相位。在没有比提供的读段长度更长的尺度上的附加信息的情况下,无法避免由相同序列引起的错误重叠。
我们当前的目标是以高灵敏度和特异性检测两个基因组片段之间的最小可能序列差异,即在两个序列读段(例如,两个SMCS读段)内的单个替换或插入缺失。
过滤掉噪音(即测序读段错误)可以成功检测潜在的生物学变异并防止上述的组装和共有错误的类型。由此产生的组装更准确、更连续,并且在连续相位块的长度和一致性准确性方面都具有改进的单倍型分辨率。
在许多测序平台中,均聚物插入缺失带来了明显的挑战。考虑包含五个连续A(即AAAAA)的基因组序列。如果在读段中无法区分5个A的位置,则有五种方式生成读段序列AAAA,即通过删除五个A中的任意一个。类似地,有六种方式生成读段序列AAAAAA,即在第一个A之前、最后一个A之后或任意两个A之间插入A。因为插入缺失的简并性随着均聚物的长度线性增加,单遍错误率也随着均聚物长度的增加而增加。
均聚物的共有序列(例如,SMCS读段)特别容易出错,因为与非均聚物插入缺失错误(例如,取代)相比,这些区域的单遍错误率较高。因此,共有读段中的错误分布明显偏向于均聚物插入缺失,远离其他类型的错误。均聚物插入缺失错误作为共有序列读段中的主要错误类型的富集随着均聚物区域的长度和用于生成共有性的读段数量增加。对于SMCS读段,子读段的数量越多,均聚物插入缺失错误占总序列错误的比例就越高。例如,在通过Pacific Biosciences的
Figure BDA0003312265260000131
核酸测序仪器由10个子读段形成的SMCS读段中,大约99%的错误是均聚物插入缺失。
均聚物插入缺失错误的普遍性意味着需要高的读段覆盖率(单分子和多分子读段的组合)才能可靠地确定长均聚物的长度。然而,SMCS读段错误集中在单个通道中(即均聚物插入缺失)为基因组组装过程中的噪声过滤提供了机会。
回想一下,人类基因组中的单倍型变异是90%SNV和10%插入缺失。这些的大约四分之一发生在均聚物中。因此,只有少数真正的人类单倍型变异(信号)是均聚物插入缺失。因此,当我们观察到两个对齐读段(例如SMCS读段)仅在均聚物区域的插入缺失上有所不同时,差异很可能是读段错误(噪声)并且读段来自相同的基因组片段。
此性质为抑制读段错误(噪声)以揭示细微的生物序列变异(信号)的方法提供了基础。具体而言,本文所述的序列对齐方法通过在对齐之前将序列读段中的均聚物串减少到相同类型的单个碱基(称为均聚物折叠)来消除均聚物插入缺失错误的混淆作用。仅因均聚物插入缺失而不同的读段在均聚物折叠后变得相同,并且可以通过精确的字符串匹配进行配对。例如,在图9中,右上小图(与图7相同)中显示的读段a和b*可以通过首先将它们转换为其均聚物折叠形式来正确地重叠,这掩盖了b*中的均聚物插入缺失错误(参见图8中的右下小图)。由于高度偏斜的错误分布(主要是均聚物插入缺失),在均聚物折叠后在其大部分长度(例如,100、200、300、400、500、750、1000、2000、3000、4000、5000个碱基或更多)上通过精确串匹配对齐的序列读段被假定来自相同的基因组片段并重叠。许多这样的精确序列重叠的组合形成了草拟组装的基础。
在当前的多倍体基因组组装过程中,草拟组装经过“打磨”以解决对齐的读段的多序列对齐中的不一致,从而为每个单倍型产生共有序列。在许多情况下,打磨多倍体基因组组装涉及将读段划分为单倍型,然后为每个划分调用共有序列的迭代过程。
与此迭代打磨过程相反,由本文所述的重叠均聚物折叠读段的精确串匹配产生的草拟组装在很大程度上已经是单倍型解析的,除了未被单个序列读段跨越的长纯合区域可能导致单倍型合并之外。在本文所述的基于精确串匹配的方法中,通过移除完全落在所有对齐位置一致的重叠区域内的序列读段形成不同的单倍型块(即,对于序列读段中的每个位置,如果在这些位置只有一个在所有重叠读段中代表的碱基,则移除该读段)。一旦移除了这些读段,在单倍型块中的每个位置,属于该单倍型的所有读段在该位置具有相同的核苷酸。因此,对于二倍体基因组,基因组区域最多应该有两个单倍型块。在这一点上,每个单倍型块的共有是微不足道的,因为通过其构建,映射到相同单倍型的均聚物折叠读段在每个对齐位置都一致。因此,每个单元型的均聚物折叠共有序列是通过简单地读取每个对齐位置的一致碱基调用来确定的。因此,在形成多个单倍型块的基因组区域中,这一过程导致每个不同单倍型的共有序列,根据定义,这些单倍型在一个或多个位置不同。对于中断单倍型块的基因组纯合区域,因为没有单个序列读段跨越整个纯合区域,来自两种单倍型的读段产生单一一致的共有序列。
在将基因组分成杂合和纯合区域,并为每个纯合区域和相位块中的每个单倍型分配共有的均聚物折叠序列后,剩下的就是生成完整的多倍体组装,通过对单倍型解析的均聚物长度达成共有调用重新扩展均聚物折叠序列。如本文所述,当每个序列读段被折叠时,其均聚物的长度被记录。对于每个均聚物,使用给定单倍型的对齐读段中该均聚物的长度集来确定共有的长度调用(此过程的实例如下所述)。
如本文别处指出的,本公开的方面采用单分子共有序列(SMCS)读段,其通过获得源自单个原始多核苷酸片段(例如,单个基因组片段)的多个单独读段并将它们组合以形成该原始多核苷酸片段的单一共有序列而形成。与多分子共有(其中对来自不同原始多核苷酸片段的读段进行对齐和分析)一样,用于生成SMCS的多个读段中的冗余提供了抑制读段噪声(即测序错误)的机制。与多分子共有不同,用于形成SMCS读段的多个读段已知来自相同的原始多核苷酸片段,因此消除了映射错误的可能性。这允许SMCS读段在与其他SMCS读段重叠之前被“打磨”到高精度。SMCS读段的高精度可能足以区分源自相互不同但高度相似的基因组片段的序列,它们无法通过较低精度的单遍读取进行区分。
SMCS读段中的错误是衍生它们的单遍读取中的错误的直接结果。在插入缺失是主要错误类型(在单遍读取中)的平台中,插入缺失也将是SMCS读段中的主要错误类型。在单遍读取中出现频率较低的错误类型(例如,替换)往往会从SMCS读段中快速“清除”。通常,随着子读段数量的增加,每种类型的单遍错误都会从SMCS读段中呈指数级清除。决定SMCS读段中特定错误类型发生率的指数因子是单遍读取中该错误类型的发生率。因此,当比较SMCS读段中的错误率时,各种类型的单遍读段错误率的变化会被放大。
计算机实施的分析
在此呈现的方法的方面可以全部或部分地体现为软件,该软件记录在用于计算机(或计算机系统)中的固定介质上。计算机可以是具有至少一个处理器(例如,CPU等)、存储器、输入/输出(I/O)和数据储存库的任何电子设备。CPU、存储器、I/O和数据储存库可以通过一个或多个系统总线连接,或者使用任何类型的通信连接进行连接。计算机还可包括用于有线和/或无线通信的网络接口。在一个实施例中,计算机可以包括个人计算机(例如,台式机、膝上型计算机、平板电脑等)、服务器、客户端计算机或可穿戴设备。在另一个实施例中,计算机可以包括用于与远程数据应用交互的任何类型的信息设备,并且可以包括诸如支持互联网的电视、手机等设备。
处理器控制计算机的操作并且可以从存储器和/或数据储存库读取信息(例如,指令和/或数据)并相应地执行指令以实现示例性实施例。术语处理器旨在包括一个处理器、多个处理器或一个或多个具有多个内核的处理器。
例如,I/O可以包括任何类型的输入设备,例如键盘、鼠标、麦克风等,以及任何类型的输出设备,例如监视器和打印机。在计算机包括服务器的实施例中,输出设备可以耦合到本地客户端计算机。
一般而言,本公开提供了计算机实施的方法,其采用均聚物折叠序列(HCS)来改进对齐序列、确定共有序列、将序列映射到参考和/或序列组装过程,例如在基因组的从头组装中。如上文所定义,HCS是源自亲本序列的序列,其中亲本序列中多个连续相同核苷酸的每个实例被相同类型的单个核苷酸替换。例如,多核苷酸序列AATGGGCCG的HCS是ATGCG。需要注意的是,每个HCS都存储了每个折叠均聚物的长度,因此该信息不会丢失。这些存储的均聚物长度用于下游分析,例如,进行单倍型解析的共有均聚物长度调用,以完善草拟基因组组装。
如本文所述,当应用于主要类型的测序错误是均聚物插入缺失错误的测序平台时,均聚物折叠允许极大地改进序列分析。如上文所定义,均聚物插入缺失错误是插入或删除与测序读段中相邻且正确的核苷酸相同的核苷酸的错误。将均聚物折叠应用于包含均聚物插入缺失错误的测序读段和与其进行比较的参考序列(或衍生它的多核苷酸底物序列)导致序列之间的完美匹配。换句话说,均聚物插入缺失错误被掩盖,因此不会对序列对齐算法产生负面影响。此外,多个测序读段的均聚物折叠允许使用精确字符串匹配的计算机实施的重叠群和基因组组装,而不是依赖相似性阈值或短k聚体种子(例如,k<30)和链接的精确匹配的容错算法。
此处详述的均聚物折叠/精确串匹配方法与k聚体匹配方法的区别如下。在目前的实践中,k聚体匹配用于识别两个读段共享的短共同子序列,其可能是两个读段之间重叠区域的一部分。然而,即使对齐区域包含两个读段之间的序列差异,即,在序列中在鉴定的完美的k聚体匹配的区域之间的差异,这两个读段可以被判断为重叠(即,将来源于重叠的基因组片段)。因此,k聚体匹配是容错的。相比之下,精确字符串匹配是不容错的,因此不仅仅是如当前采用较长k值进行的k聚体匹配。相反,精确字符串匹配仅在两个读段之间的重叠区域相同时,即在整个重叠区域中读段之间没有差异时,才判断两个读段重叠。由于精确串匹配不容错,精确串匹配确定重叠比k聚体匹配具有更高的特异性。此外,由于它不容错,因此均聚物折叠序列的精确字符串匹配可显著加快对齐、共有和组装过程(如下所述)。此外,对于SMCS读段和其中均聚物插入缺失是主要错误类型的其他读段类型(例如,纳米孔测序),精确字符串匹配具有更高的灵敏度和特异性,可用于识别从中获得一对读段的基因组序列之间的真正重叠。
在本公开的一些实施例中,所采用的序列读段是单分子共有序列(SMCS)读段,其可以源自其中可能产生SMCS读段的任何测序平台,例如
Figure BDA0003312265260000173
测序平台和纳米孔测序平台。一般而言,SMCS读段是通过分析多个单遍序列读段产生的共有序列,所述多个单遍序列读段从相同的原始多核苷酸底物分子衍生,例如,通过由原始多核苷酸底物的重复测序(如
Figure BDA0003312265260000171
测序)或通过对原始多核苷酸底物的多个拷贝测序(如同在通过滚环扩增或其他方式使用纳米孔测序产生的测序线性串联体中)。(参见,例如图1及其上面的描述。)注意,在
Figure BDA0003312265260000172
测序应用中对串联体进行测序可以通过生成
Figure BDA0003312265260000175
多核苷酸底物,每个多核苷酸底物都包括源自单个多核苷酸底物的串联体,和/或通过生成多个
Figure BDA0003312265260000174
多核苷酸底物,其每个包括来自相同原始多核苷酸底物的拷贝。此外,可以使用某些纳米孔测序方法对拓扑环状多核苷酸底物进行测序,例如该技术来自Genia,现在是Roche的一部分(参见Fuller等,2016,PNAS113(19):5233-8,在此通过引用将其全部并入本文)。因此不打算在这方面进行限制。
此处应注意,虽然描述了SMCS读段用于主题方法,但本文所述的方法不限于SMCS读段。实际上,本文所述的方法适用于均聚物插入缺失错误是显著或主要序列读段错误类型并因此是基因组组装的混杂问题的任何序列读段,包括单遍序列读段。不打算在这方面进行限制。
当前用于读段映射和对齐的算法涉及基于检测序列之间的一个或多个完美k聚体匹配的快速筛选步骤,然后是动态编程步骤以找到最佳序列对齐。快速筛选步骤涉及特异性和灵敏度之间的权衡,该权衡通过k的选择、k聚体的长度进行调节。k值越大,两个序列随机重叠的可能性就越小。k值越小,测序读段错误就越不可能掩盖与正确目标(即读段源自的基因座或源自同一基因座的另一个读段)的匹配。减少测序读段与其目标(例如,其他测序读段、参考序列等)之间的差异数量意味着可以使用更大的k值而不会失去对正确匹配的敏感性。然而,如上所述,当前的k聚体对齐算法是容错的,因此需要某种形式的打磨才能达成序列读段重叠区域的共有,这些区域可包括对齐的k聚体区域之外的序列差异。
动态编程是一种在与序列长度乘积成比例的时间内探索两个序列之间所有对齐的方法。如果序列没有错误,则可以在与较长序列的长度成比例的时间(即线性时间)中找到对齐。通过将序列读段的HCS分类为无错误,例如,SMCS读段的HCS,我们可以通过要求精确的字符串匹配来对齐序列(而不是使用当前的k聚体匹配)来利用动态编程的这一特征。
测序数据中的信号和噪声并非完全“正交”。例如,虽然测序平台中的绝大多数读段错误(噪音)是均聚物插入缺失,但偶尔也会有基因组片段具有生物均聚物插入缺失差异(信号)的情况,例如,来自基因组基因座上的第一个单倍型的基因组片段将与同一基因组基因座上的第二个单倍型的基因组片段的不同之处在于均聚物序列的长度。根据我们目前对人类基因组的了解,具有99.9%相似性的两个5kb基因组片段的序列平均将相差大约五个核苷酸替换和大约0.5个插入缺失。对于插入缺失,0.5个插入缺失中的约0.4个出现在均聚物外,0.5个插入缺失中的约0.1个出现在均聚物内。当5kb重叠区域没有取代差异、在均聚物外没有插入缺失以及没有一个或多个均聚物插入缺失时,两个SMCS读段之间出现错误的5kb重叠。因此,即使导出SMCS读段的基因组片段高度相似,SMCS读段之间5kb的错误重叠也极不可能。绝大多数错误重叠导致无法识别杂合变异,从而导致相位块折叠,这种情况最常发生在编码区之外。导致基因组错误组装的错误重叠可能发生在重复区域内,其中大量重复元素具有非常高的序列相似性,例如着丝粒,但除此之外极不可能发生。即便如此,检测基因组片段之间的单碱基差异(最常见的是替代)的能力大大提高了高度纯合基因组(例如人类基因组)中相位块的平均长度。
在某些实施例中,本公开利用可以从长读段测序技术产生的长SMCS读段(例如,10-15kb或更长)的独特性质,例如产生50kb、75kb、100kb、150kb或更长的那些。具体而言,长读段长度导致能够从约10-15kb长度的原始多核苷酸底物获得大量子读段(例如,4、5、6、7、8、9或10个子读段或更多),其可用于生成准确度为99%到99.99%或更高的SMCS读段。在一些实施例中,根据本公开分析的多核苷酸底物源自基因组DNA样品,其中在一些情况下基因组DNA样品来自多倍体生物,例如植物、真菌、动物或人类基因组。在其他情况下,样品是包含多种不同微生物例如细菌、原生动物、酵母或其他单细胞生物的宏基因组样品。这些SMCS读段大大减少了非均聚物插入缺失错误,包括替换错误(将一个碱基更改为不同碱基的错误,例如,将多核苷酸底物序列AGCTG读取为AGATG)和插入或删除与两个相邻的碱基不同的核苷酸碱基的插入缺失错误(例如,将多核苷酸底物AGCTG读取为ATGCTG或ACTG)。对于
Figure BDA0003312265260000181
测序,我们发现所有类型的错误都随着遍数呈指数减少。
基于上面的讨论,很明显SMCS读段中的大多数错误(例如,从约4-10个子读段或更多中产生)是均聚物插入缺失。因为大多数生物变异是单核苷酸变异(一个碱基替换另一个),SMCS读段错误类型与真正的生物变异显示出非常低的重叠。因此,通过均聚物折叠去除SMCS读段中的均聚物插入缺失(从而产生HCS读段)优先去除基于测序平台的错误,同时留下真正的生物变异。因此,过滤掉这些错误将改进许多下游序列分析算法,从映射和对齐到从头基因组组装。一旦HCS读段的任何所需下游对齐完成,每个HCS读段的折叠均聚物可以扩展(基于它们在原始SMCS读段中的长度)。然后可以分析SMCS读段的扩展均聚物区域以确定每个不同位置的共有长度。然后可以将这些共有均聚物长度加回到从使用HCS读段的过程中产生的任何共有序列(例如,组装、对齐和/或任何产生的共有序列)。
下面的图和它们的描述意在举例说明本文公开的方法的某些实施例而不意在限制。例如,虽然下面的描述涉及来自SMCS读段的HCS,但可以采用来自单遍序列读段的HCS,其中均聚物插入缺失错误是主要或显著的错误类型。
图11显示了在过滤掉均聚物插入缺失后对齐SMCS读段对的实例,这代表了绝大多数测序错误。阴影块代表均聚物插入缺失错误,这是SMCS中的主要错误类型。SMCS3中的实心块代表单核苷酸变异(SNV),它将SMCS3识别为源自与SMCS1和SMCS2不同的单倍型。均聚物插入缺失错误被均聚物折叠掩盖,并在确定两个读段是否来自同一单倍型时被忽略。由于SMCS1和SMCS2之间的唯一区别是均聚物插入缺失,并且均聚物插入缺失被假定为组装重叠步骤期间的读段错误,因此假定SMCS1和SMCS2源自相同的单倍型(相同的基因组片段)。相反,单核苷酸取代差异被认为是单倍型之间真正的生物学差异。
图12显示了由SMCS读段的成对精确字符串匹配形成的多序列对齐的玩具实例。成对精确字符串匹配可以简单地用整数偏移量来表征。多序列对齐通常非常复杂,对于来自相同单倍型的精确字符串匹配读段来说是微不足道的。精确字符串匹配是可传递的,而偏移量是可加的。
图13至15显示了序列分析管道的一个实施例,该流程采用均聚物折叠和精确对齐映射将SMCS读段分离成单倍型。虽然这些图描绘了二倍体基因组(例如,人类基因组)的单倍型分离,但该分析管道适用于需要将SMCS读段分离成源自相同原始基因组/多核苷酸底物的序列组的任何序列分析,例如,在宏基因组序列分析中。该分析管道还处理具有更高倍性的基因组,例如四倍体(n=4)、六倍体(n=6)或八倍体(n=8)。不打算在这方面进行限制。
在图13中管道的第1步中,选择映射到参考基因组特定区域的SMCS读段。这一步不是算法的必要特征,但在此处被用来构建一个规模有限的问题,即高度相似的SMN1和SMN2基因座的单倍型解析组装,允许容易理解算法效用的演示。这种初始映射可以相对较低的严格性进行,以最大限度地增加用于下游分析的SMCS读段的数量,因为在组装过程中很容易过滤掉错误映射到该区域的读段。一个或多个区域可以由用户选择,例如,与表型(例如,疾病表型)相关联或预测将相关联的区域。一旦选择/获得映射到感兴趣区域(或多个感兴趣区域)的SMCS读段子集(在图13中表示为“杂乱无章的SMCS读段堆”),它们将转换为HCS读段并进行到具有严格过滤的“全部对全部”的成对对齐,如本文所述(图13中的步骤2)。例如,可以过滤对齐,使得对齐区域是(1)平均序列读段长度的至少1/4到1/2的长度(或预测跨越所研究基因组中纯合区域的阈值最小长度,例如,~1kb到~5kb),以及(2)一个读段的后缀和另一个读段的前缀之间的精确匹配。步骤2右侧的对齐符合这些标准,并在步骤3中进行处理,对齐区域用朝右的箭头表示。所有不符合这些标准的成对对齐都将被丢弃或放置在储罐中。包含除均聚物插入缺失以外的任何读段错误的SMCS读段将不会与其他读段形成精确的字符串匹配,并且也将被放置在储罐中。步骤2左边的对齐被放置在储罐中,因为它在对齐区域中有多个不匹配(用“*”表示)。在步骤3中使用重叠布局算法比较和分离满足此过滤要求的所有成对对齐的对齐区域(由箭头表示),其中在其各自的对齐区域中具有精确重叠的成对对齐被分离到相同的组(或单倍型,如图13中;单倍型1和2)。属于不同单倍型的读段是通过将读段和读段之间的对齐分别视为图中的顶点和边,并找到该图的连接组件来确定的。在这种情况下,一对读段之间的每个对齐表明两个读段可能属于同一单倍型,但也提供了读段起始位置之间的相对偏移,这将需要排列序列匹配的相应位置。这些成对偏移可用于沿共同坐标轴布置一组连接的读段,如步骤3所示。在这种情况下,每个小图都包含一组属于同一单倍型的读段。因此,在多序列对齐中的任何给定位置,覆盖该位置的所有读段在该位置具有相同的碱基调用。不与形成成对对齐的任何其他区域重叠的形成成对对齐的区域被放置到储罐中。这些孤儿成对对齐区域可能来自在步骤1中错误地映射到感兴趣区域的SMCS读段和/或可能来自多核苷酸污染物或样品制备人工制品的SMCS读段(例如,来自初始基因组DNA样品的无意混合或在样品制备过程中产生嵌合多核苷酸底物和/或扩增产物等)。将成对对齐(和/或它们的SMCS读段)放入储罐的标准可由用户确定,并且可以基于对基因组样品的已知信息,例如,宏基因组样品中生物体的倍性或预期数量,样品制备细节等。通过这种方式,可以根据成对对齐中观察到的差异按单倍型对读段进行分组。
如图14所示,然后为每个单元型或重叠序列组生成共有序列(步骤4)。单倍型的共有序列是通过读取序列中每个位置的碱基调用来确定的。这里的共有序列代表每个单倍型/组的均聚物折叠的共有序列。从HCS生成共有序列后,可以在步骤5中扩展均聚物折叠区域以生成均聚物扩展的共有序列。该过程包括附接在每次读取的每个折叠位置处观察和记录的均聚物长度,将一组对齐的均聚物折叠读段(HCS)转换为一组对齐的均聚物扩展读段(HES)。注意,保留这些读段的对齐,因为我们“扩展”了每个均聚物,不是通过一串重复的核苷酸来表示均聚物,而是作为碱基调用和重复编号。例如,4个A的均聚物由“A4”而不是“AAAA”表示(在步骤5中的顶部HES读段)。图14的右小图显示了多序列对齐中的两个位置,其中读段中的(扩展的)均聚物长度不一致。在这个例子中,为了在这些位置形成均聚物长度调用,我们找到了中位数的底。我们采用中位数的底,因为共有的均聚物长度必须是整数值。我们选择底而不是顶(ceiling),因为较短的均聚物出现得比较长的均聚物更频繁。通过调用均聚物折叠共有序列中每个位置的均聚物长度,我们形成了均聚物扩展共有序列的运行长度编码表示。现在,我们将每个运行长度编码的均聚物扩展为一串重复的核苷酸,例如,将“A4”转化为“AAAA”,以产生最终的均聚物扩展的共有序列,如图14所示。
均聚物扩展的一个例子包括以下。首先,均聚物长度的向量与均聚物折叠序列中的每个位置相关联,其中(i)向量中的元素数量是多序列对齐中覆盖该位置的修剪HCS的数量,以及(ii)向量的每个分量是在HCS中该位置的原始读段中观察到的均聚物长度。例如,在图14中,HCS中位置2的“A”核苷酸的向量来自于HES中的相应位置,因此为:4、4、4、4、3、4。接下来,均聚物折叠序列中每个位置的共有均聚物长度被计算为与该位置相关的均聚物长度向量的分量的中值的底,例如,源自HES中的相应位置的长度的中值的底。在图14中,该值为4,因为系列3、4、4、4、4、4的中值的底为4。最后,均聚物折叠序列中的每个位置都被相同核苷酸的均聚物串N替换,其中N是针对该位置计算的共有均聚物长度。
如图15所示,一旦在步骤5中调用均聚物扩展的共有序列,则在步骤6中将这些共有序列与基因组参考序列(例如,用于选择初始SMCS读段的基因组域)进行比较,以调用任何杂合变体(表示为1、2和3)和/或纯合变体(表示为4)。在一些实施例中,如果共有序列中存在低覆盖区域,则可以使用储罐中的读段来确认变体的调用。这在图15中显示为来自储罐中HCS读段中变体3的虚线箭头,该储罐支持在单倍型2共有中调用变体3。注意,变体位置可出现在均聚物区域中,因为它们已被扩展。通过扩展均聚物区域来分析储罐中的读段也可能有助于确定共有的均聚物长度,如果这有益处的话。
完善的读段,例如其错误被均聚物折叠(如上定义)完全掩盖的SMCS读段,通过与其他完善读段的精确字符串匹配参与二倍体组装。当衍生一个读段的多核苷酸底物HCS的前缀是衍生另一个读段的多核苷酸底物HCS的后缀时,两个完美的读段在组装过程中重叠,形成完美的燕尾对齐。这种对齐是产生准确的基因组组装所需要的。
因此,为了保持基因组组装的准确性,我们希望从参与组装过程中排除尚未完善的读段。只有当两个SMCS的HCS完全匹配时才在两个SMCS之间形成重叠的要求具有排除许多带有未通过均聚物折叠掩盖的错误的读段的效果。除了罕见的巧合外,在两个末端附近包含(未屏蔽)错误的读段将与任何其他读段不完全匹配。
但是,我们还必须考虑具有单个(未屏蔽)错误的读段情况。粗略地说,这样的读段有一个完善的一半,其将与其他完善的读段重叠,但另一半带有错误,将不与其他读段重叠。该读段保留在分析中,因为它与完美读段形成了完美的燕尾组装。一种可能的结果是这样的读段将终止组装中的重叠群,因为读段的只有一侧形成完美的燕尾对齐。另一种可能是这种读段将导致“刺(spur)”,它类似于独特的单倍型变体,其形成分支,与其他完善的读段分开。
为了避免在对齐过程中包含这种类型的非完美SMCS读段的不利影响,我们在组装的布局步骤之前通过修剪读段末端处的无法与任何其他读段重叠的任何位置来从此类SMCS读段中移除这些错误。这种质量控制步骤确保用于组装过程的所有碱基在该位置由至少两个单独的SMCS读段表示。在阈值重叠长度是平均读段长度的至少一半的实施例中,未被至少一个重叠覆盖的位置可能位于读段的末端。
在布局步骤(例如,图13中的步骤3)之前,我们首先生成一个图,其表示读段之间的成对重叠。每个读段由图中的顶点表示。一对读段之间的每个重叠由相应顶点之间的边表示。在理想情况下,图的连接组件将代表一条染色体(例如,基因组的一种单倍型)。在二倍体基因组中,每个父系染色体都有一个组件,每个母系染色体都有一个组件。不同的染色体将由不同的连接组件表示。
然而,在许多情况下,由于组装中的片段化,染色体由多个连接组件表示。片段化可能是由系统和/或随机覆盖丢失引起的,留下一些未被任何读段覆盖的位置。在当前公开的算法中,一个位置处的组装的连续性要求该位置被至少两个完善的SMCS读段覆盖。
除了片段化之外,连接的组件可能代表来自多个染色体的片段的合并。最常见的是,合并的连接组件是由两个或多个单倍型共享的纯合区域引起的。例如,如图16所示,读段A和读段B属于不同的单倍型,包含一个或多个单倍型不同的位置(由“x”位置表示),因此不重叠。然而,读段A和读段B都与第三个读段C重叠。A和C之间的重叠仅包含纯合位置,即其中两个单倍型具有相同序列的位置。同样,B和C之间的重叠仅包含纯合位置。在这种情况下,属于不同单倍型的读段A和B通过它们与基因组纯合区域中的读段C的相互重叠合并到相同的连接组件中。在图16中,在位置“y”处变化的读段D和E以类似方式与读段C的另一端重叠。因此,读段C只包含基因组中该基因座的纯合位置;它既不包含x也不包含y。
在图16中这种对齐方案导致标记为“合并的单倍型”的图。通过移除表示仅包含纯合位置的重叠的边(例如,通过从图中移除节点C)来诱导连接组件的子图来分离这种合并的单倍型(或“连接组件”)。这个过程称为修剪。例如,A和C以及B和C之间的重叠将被移除,D和C以及E和C之间的重叠也将被移除。如果没有包含位置x和y二者的SMCS读段,那么移除读段C将图形分成四个连接的组件,如“分离但未解析的单倍型”框中所示。对于二倍体基因组,这对同源单倍型有两种可能的布局:1)A通过C连接到D,B通过C连接到E(如图16的右上角布局所示);或2)A通过C连接到E,B通过C连接到D(如图16的右下方布局所示)。因此,侧翼解析的单倍型区域之间的纯合区域诱导了单倍群断裂,而不是重叠群断裂(即,无法解析单倍型,但通过该区域的重叠群仍然完整)。
图17显示了与图16中描述的情况相关的情况,不同处是序列读段的集合(显示在左上)包括读段F和G,其每一个跨越位置x和y,即跨越纯合区域。这些读段可用于解析两种单倍型。如果F与读段A和D重叠(意味着它在位置x和y处包含与读段A和D相同的变体)并且读段G与读段B和E重叠(意味着它在位置x和y处包括与读段B和E相同的变体),则移除连接到与读段C相关联的顶点的边(即修剪)会产生一个具有两个连接组件的图,一个用于每个连续的单倍型(如右边所示)。
实例:SMN1/SMN2基因组区域
在以下实例中,根据本公开的一个实施例分析运动神经元1和2基因座(SMN1和SMN2)的存活。SMN1和SMN2是染色体5q13上500kb反向复制的一部分,SMN1是端粒拷贝,SMN2是着丝粒拷贝。这些基因编码相同的蛋白质SMN。这个重复区域包含至少四个基因和重复元素,使其易于重排和缺失。序列的重复性和复杂性也导致难以确定该基因组区域的组织。端粒拷贝SMN1的突变与脊髓性肌萎缩症(也称为Werdnig-Hoffmann病或Kugelberg-Welander病)有关;着丝粒拷贝SMN2的突变不导致疾病。着丝粒拷贝可能是端粒拷贝突变引起的疾病的调节剂。SMN1和SMN2中的突变导致胚胎死亡。两个基因之间的关键序列差异是外显子7中的单个核苷酸,它被认为是外显子剪接增强子。端粒和着丝粒拷贝的9个外显子在历史上被指定为外显子1、2a、2b和3-8。认为基因转换事件可能涉及两个基因,导致每个基因的拷贝数不同。该基因编码的蛋白质定位于细胞质和细胞核。在细胞核内,蛋白质定位于称为宝石的亚核体,在含有高浓度小核糖核蛋白(snRNP)的卷曲体附近发现亚核体。这种蛋白质与蛋白质如SIP1和GEMIN4形成异聚复合物,并且还与已知参与snRNP生物发生的几种蛋白质相互作用,如hnRNP U蛋白和小核仁RNA结合蛋白。已经描述了编码不同同种型的两种转录变体。
图18到20显示了来自一组SMCS读段的SMN1和SMN2区域的二倍体组装的初步结果。图21显示了最终结果。下面更详细地描述数据和组装过程。
我们首先从以13.5kb为中心的窄带(+/-1kb)片段中获得人类基因组(HG002)DNASMCS读段(这些读段在Wenger,A.等人2019年1月13日“Highly-accurate long-readsequencing improves variant detection and assembly of a human genome”BioRxiv,doi.org/10.1101/519025中描述;出于所有目的,特此通过引用整体并入本文)。我们使用了这些读段的一个子集,它们在相对较低的严格性下用minimap2映射到SMN1或SMN2(有些可能映射到两者,因为它们的序列相似性非常高)。为该分析选择的SMN映射的SMCS读段长度的直方图显示在图18的左上角小图中。这导致选择了154个SMCS读段。
接下来,我们制作了每个SMCS读段的反向补充拷贝,形成一组308个SMCS读段。注意,SMCS读段的初始集合代表来自基因组两条链的基因组片段的读段。如果一个片段与另一个片段的反向互补重叠,我们认为两个基因组片段是“重叠的”。通过为每个读段制作两个“镜像”拷贝,我们将从读段的集合中形成两个镜像组装。基因组参考(任意)代表两条链之一,因此我们保留与参考链相对应的组装。然后,我们为每个SMCS读段生成了均聚物折叠序列(HCS)。HCS长度的直方图显示在图18的左下方小图中。HCS的平均长度为9.5kb。HCS和SMCS长度之间比率的直方图显示在图18的右侧小图中。均聚物折叠将大部分SMCS读段减少到其原始长度的69-70%。为了进行比较,通过随机独立绘制四个具有相等概率的字母生成的字符串的折叠会将字符串减少到其原始长度的75%。接下来,我们对这308个SMCS读段进行了全部对全部的成对对齐。在读段对之间形成总共494个对齐。如果一个读段的后缀与另一个读段的前缀相同,并且这个共同子序列的长度长于最小重叠长度,则一对读段在它们之间具有对齐。在这里,我们选择了6kb的最小重叠长度,这个值刚好超过集合中最长HCS的一半。然后根据它们的连通性将这些候选对齐分成组。对于这一步,对齐的读段被表示为图表,其中读段是顶点,对齐是有向边。后缀与另一个读段的前缀匹配的读段指向该有向边。
由308个读段之间的494个对齐引起的图在200个读段之间有十二个连接的组件——六对组件,其中该对的成员是彼此的镜像。其他108个读段是单例读段,其不与任何其他读段重叠。最有可能的是,这些单例读段未能与其他读段重叠,因为它们被一个或多个读段错误破坏。因为我们选择的最小重叠大于任何HCS长度的一半,读段中点的单个读段错误将导致读段无法与任何其他读段重叠——也就是说,除了极不可能的是另一个读段在6000个或更多位置相同,这些位置中的任何一个都不包含错误,除了在完全相同位置的完全相同类型的一个以外。更常见的是,读段两端的读段错误将其从基于精确字符串匹配的重叠读段构建的组装过程中排除。
确定图的连接组件的过程还会生成每个组件内读段的布局。组件是通过从任意读段进行广度优先遍历并为该读段分配任意坐标值零而形成的。遍历中新到达的每个读段的前缀与已经到达的读段的后缀匹配,因此每个新读段的坐标至少与已经属于遍历的读段一样大。当来自新读段的遍历触及已分配给组件的读段时,两个组件被合并。新触及的组件中所有读段的坐标都增加了固定的偏移量,使得合并后的组件中的坐标自洽。图19的上小图显示了组件3的布局,该组件由来自SMCS读段的11个HCS组成。此布局覆盖大约20kb,但修整后只有17,577个碱基。从四个HCS(箭头)末端延伸的稍粗的线显示了被修整的读段区域,因为这些区域不与集合中的任何其他HCS重叠,很可能是因为读段错误。这些修整过的碱基对组装没有贡献。布局中左右两端未由至少2个HCS读段(仅由其中一个HCS读段覆盖)表示的位置被修整,并且不用于形成共有序列。图19的底部小图显示了由HCS布局引起的多序列对齐中的变体碱基调用数量。在这种情况下,在被至少两个读段覆盖的每个对齐位置(即,不包括修整区域),覆盖该位置的每个读段都具有相同的碱基调用。读段为共有序列中的每个碱基调用提供了一致的共有序列。描述这种多序列对齐的另一种方法是,每个组成HCS是均聚物折叠的共有序列的正确(精确)子串。图19底部小图中的变体曲线中的零值对应于仅由读段的修整区域覆盖的位置。
与图19所示的情况相反,图20显示了包含两个合并单倍型的连接组件。在图20中,54个HCS形成连接组件,其在修整前跨越近40kb。图20的底部图中显示的该组件的变体曲线表明,虽然该位置的所有读段之间的大多数位置是一致的,但某些位置包含不一致的读段。在每个不一致的位置,读段可以分为两组,其由它们在该位置包含的碱基调用定义。这两组代表两个不同的单倍型。三个读段(图20顶部图中的浅灰色,箭头)负责合并这两个单倍型。这三个读段中的每一个都与属于不同单倍型的一对读段重叠。这是因为每个读段的重叠区域具有两个单倍型共有的序列而发生。在识别出所有合并单倍型的读段后,我们将它们从图中移除,重新计算连接组件并生成两个新的单倍型解析的连接组件。
图21显示了最终的二倍体组装,其中代表每个连接组件的共有序列映射到出现在人类基因组参考GrCh38中的SMN1和SMN2的序列。在组装过程之前,大多数单独的SMCS读段无法可靠地映射到SMN1或SMN2,因为参考序列之间的相似性高于SMCS读段与任一参考序列之间的相似性。尽管SMCS读段具有高准确性,但从中获得SMCS读段的基因组片段本身是源自SMN1基因座还是SMN2基因座仍是模棱两可的。即使是SMCS读段的均聚物折叠,消除了大多数读段错误,也没有解决大多数读段的这种模棱两可。图21中显示的映射是可能的,只是因为外显子7和8中的几个核苷酸将SMN1与SMN2区分开来。这使我们能够将有限数量的读段映射到正确的基因座,但仅限于该区域。然而,因为我们有二倍体组装,这些“可映射”读段与属于同一单倍型的其他读段的连接将整个单倍群锚定在正确的基因座上。SMCS读段和参考之间标记的变体位置允许我们在两个基因座的整个长度上进行变体调用。这些变体在多个对齐读段中的一致性提供了这些变体调用正确性的有力证据。在许多位置,杂合变异很明显,可以清楚地识别出两个单倍型。
SMN1和SMN2基因座因其高度相似性和高纯合性而难以组装。在最近从这些读段获得的高质量组装中,当前的组装者无法将读段映射到来自SMN1或SMN2的任何外显子。[这在Wenger等人的图2c中指出,其中将SMN1和SMN2外显子列为0%可映射(Wenger,A.等人2019年1月13日“Highly-accurate long-read sequencing improves variant detection andassembly of a human genome”BioRxiv,doi.org/10.1101/519025;出于所有目的,特此通过引用整体并入本文)]。
对相关领域的普通技术人员而言将显而易见的是,在不脱离本发明或其任何实施例的范围的情况下,可以对本文描述的方法和组合物做出其它合适的修改和调整。在现在已经详细描述了本发明的情况下,通过参考以下实例将更清楚地理解本发明,所述实例仅出于说明的目的包含在本文中并且不旨在限制本发明。
虽然为了清楚和理解的目的已经对上述发明进行了一些详细的描述,但本领域技术人员通过阅读本公开内容将清楚,在不脱离本发明的真实范围的情况下,可以在形式和细节上进行各种改变。例如,上述所有技术和设备可以以各种组合使用。本申请中引用的所有出版物、专利、专利申请和/或其他文件出于所有目的通过引用整体并入,其程度如同每个单独的出版物、专利、专利申请和/或其他文件被单个和单独指出为了所有目的通过引用并入一样。

Claims (28)

1.一种组装基因组或基因组区域的方法,所述方法包括:
从感兴趣的基因组中获得基因组片段的多个序列读段;
为所述多个序列读段中的每一个生成均聚物折叠序列(HCS)和相应的均聚物编码序列(HES);
生成HCS读段的后缀/前缀精确字符串匹配,其中所述精确字符串匹配的长度等于或大于最小长度;
通过移除多个HCS读段中的每一个的任何核苷酸生成修整的HCS读段,所述核苷酸不是与另一个HCS读段的后缀/前缀精确字符串匹配的一部分;
从修整的HCS读段生成第一个有向重叠图;
识别第二个有向重叠图中的连接组件;
为每个所述连接组件生成多序列对齐,其中每个修整的HCS读段中的位置用连续的整数值标记,以便为任何两个修整的HCS读段中的对齐位置分配相同的整数值;
基于所述多序列对齐从第二个有向重叠图中修剪合并节点;
通过在所述修整的HCS读段的所述多序列对齐中的每个对齐位置连接碱基调用,生成均聚物折叠的共有序列;
为所述均聚物折叠的共有序列中的每个位置关联均聚物长度的向量,其中:
(i)所述向量中元素的数量是覆盖所述多序列对齐中该位置的修整的HCS读段的数量,以及
(ii)所述向量的每个分量是该位置处对应HES中均聚物的长度;
为所述均聚物折叠的共有序列中的每个位置分配共有均聚物长度作为与该位置相关的均聚物长度的向量的分量的中值的底;和
用由该位置处的N个连续核苷酸拷贝形成的均聚物串替换所述均聚物折叠的共有序列中的每个位置,其中N是为该位置计算的分配的共有均聚物长度,以生成均聚物扩展的共有序列,从而组装基因组或感兴趣基因组的基因组区域。
2.根据权利要求1所述的方法,在生成HCS读段之前,所述方法进一步包括生成多个序列读段中的每一个的反向互补序列。
3.根据权利要求1或2所述的方法,其中所述重叠区域的最小长度为0.5kb至10kb。
4.根据权利要求3所述的方法,其中所述重叠区域的最小长度为5kb至8kb。
5.根据权利要求4所述的方法,其中所述重叠区域的最小长度为6kb至7kb。
6.根据权利要求1所述的方法,其中所述最小长度是所述HCS读段的平均长度的长度的至少一半。
7.根据权利要求1至6中任一项所述的方法,其中所述多个序列读段在单分子合成测序反应中生成。
8.根据权利要求7所述的方法,其中所述单分子合成测序反应是单分子实时(SMRT)测序反应。
9.根据权利要求1至6中任一项所述的方法,其中所述多个序列读段在单分子纳米孔测序反应中生成。
10.根据权利要求1至6中任一项所述的方法,其中所述多个序列读段是多个单分子共有序列(SMCS)。
11.根据权利要求10所述的方法,其中所述SMCS从至少8个子读段生成。
12.根据权利要求11所述的方法,其中所述子读段在单分子测序反应中从串联多核苷酸底物生成。
13.根据权利要求12所述的方法,其中所述子读段在单分子合成测序反应中生成。
14.根据权利要求12所述的方法,其中所述子读段在单分子基于纳米孔的测序反应中生成。
15.根据权利要求11所述的方法,其中所述子读段在单分子合成测序反应中从环状或拓扑环状多核苷酸底物生成。
16.根据权利要求1至15中任一项所述的方法,其中所述感兴趣的基因组是人类基因组。
17.根据权利要求1至16中任一项所述的方法,其中所述基因组样品包含多个不同的基因组,所述方法还包括为多个不同的基因组生成组装件。
18.根据权利要求17所述的方法,其中所述样品是包含多个微生物基因组的宏基因组样品。
19.根据任一前述权利要求所述的方法,其中未放置到连接组件中的HCS被放置到用于验证组装中的变体调用的保持箱中。
20.根据权利要求1至19中任一项所述的方法,其中在生成HCS之前,预先选择多个序列读段以映射到一个或多个感兴趣的基因组区域。
21.根据权利要求20所述的方法,其中预先选择映射是通过低严格性序列相似性搜索进行的。
22.根据权利要求20或21所述的方法,其中所述一个或多个感兴趣的基因组区域包括彼此具有高序列相似性的第一和第二基因组基因座。
23.根据权利要求22所述的方法,其中为第一和第二基因组基因座生成单独的共有序列。
24.根据权利要求20或21所述的方法,其中所述一个或多个感兴趣的基因组区域包含具有高度重复区域的基因组基因座。
25.根据权利要求1至24中任一项所述的方法,其中所述方法是用于从头基因组组装的方法。
26.根据权利要求25所述的方法,其中所述从头基因组组装是多倍体基因组的完全或部分单倍型解析组装。
27.一种用于组装基因组或基因组区域的系统,包括:
存储器;
输入/输出;和
耦合到所述存储器的处理器,其中所述系统被配置为:
从感兴趣的基因组中接收基因组片段的多个序列读段;
为所述多个序列读段中的每一个生成均聚物折叠序列(HCS)和相应的均聚物编码序列(HES);
生成HCS读段的后缀/前缀精确字符串匹配,其中所述精确字符串匹配的长度等于或大于最小长度;
通过移除多个HCS读段中的每一个的任何核苷酸生成修整的HCS读段,所述核苷酸不是与另一个HCS读段的后缀/前缀精确字符串匹配的一部分;
从修整的HCS读段生成第一个有向重叠图;
识别第二个有向重叠图中的连接组件;
为每个所述连接组件生成多序列对齐,其中每个修整的HCS读段中的位置用连续的整数值标记,以便为任何两个修整的HCS读段中的对齐位置分配相同的整数值;
基于所述多序列对齐从第二个有向重叠图中修剪合并节点;
通过在所述修整的HCS读段的所述多序列对齐中的每个对齐位置连接碱基调用,生成均聚物折叠的共有序列;
为所述均聚物折叠的共有序列中的每个位置关联均聚物长度的向量,其中:
(i)所述向量中元素的数量是覆盖所述多序列对齐中该位置的修整的HCS读段的数量,以及
(ii)所述向量的每个分量是该位置处对应HES中均聚物的长度;
为所述均聚物折叠的共有序列中的每个位置分配共有均聚物长度作为与该位置相关的均聚物长度的向量的分量的中值的底;和
用由该位置处的N个连续核苷酸拷贝形成的均聚物串替换所述均聚物折叠的共有序列中的每个位置,其中N是为该位置计算的分配的共有均聚物长度,以生成均聚物扩展的共有序列;
向用户提供所述均聚物扩展的共有序列,从而组装基因组或感兴趣基因组的基因组区域。
28.根据权利要求27所述的系统,还被配置为执行根据权利要求2至26中任一项所述的方法并将所述方法的结果输出给用户。
CN202080030040.4A 2019-02-28 2020-02-19 使用均聚物折叠测序读段改进对齐 Pending CN113767438A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962812191P 2019-02-28 2019-02-28
US62/812,191 2019-02-28
PCT/US2020/018764 WO2020176301A1 (en) 2019-02-28 2020-02-19 Improved alignment using homopolymer-collapsed sequencing reads

Publications (1)

Publication Number Publication Date
CN113767438A true CN113767438A (zh) 2021-12-07

Family

ID=72239801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080030040.4A Pending CN113767438A (zh) 2019-02-28 2020-02-19 使用均聚物折叠测序读段改进对齐

Country Status (5)

Country Link
US (1) US20200395098A1 (zh)
EP (1) EP3931833A4 (zh)
CN (1) CN113767438A (zh)
CA (1) CA3131682A1 (zh)
WO (1) WO2020176301A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115810395A (zh) * 2022-12-05 2023-03-17 武汉贝纳科技有限公司 一种基于高通量测序动植物基因组t2t组装方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008513782A (ja) 2004-09-17 2008-05-01 パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド 分子解析のための装置及び方法
US7424371B2 (en) * 2004-12-21 2008-09-09 Helicos Biosciences Corporation Nucleic acid analysis
DK2122344T3 (da) 2007-02-20 2019-07-15 Oxford Nanopore Tech Ltd Lipiddobbeltlags-sensorsystem
US7960116B2 (en) 2007-09-28 2011-06-14 Pacific Biosciences Of California, Inc. Nucleic acid sequencing methods and systems
CN103695530B (zh) 2008-07-07 2016-05-25 牛津纳米孔技术有限公司 酶-孔构建体
WO2010075570A2 (en) * 2008-12-24 2010-07-01 New York University Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assemble
US8324914B2 (en) 2010-02-08 2012-12-04 Genia Technologies, Inc. Systems and methods for characterizing a molecule
US9165109B2 (en) * 2010-02-24 2015-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
WO2013041878A1 (en) 2011-09-23 2013-03-28 Oxford Nanopore Technologies Limited Analysis of a polymer comprising polymer units
CN107828877A (zh) 2012-01-20 2018-03-23 吉尼亚科技公司 基于纳米孔的分子检测与测序
EP2864502B1 (en) 2012-06-20 2019-10-23 The Trustees of Columbia University in the City of New York Nucleic acid sequencing by nanopore detection of tag molecules
US10777301B2 (en) * 2012-07-13 2020-09-15 Pacific Biosciences For California, Inc. Hierarchical genome assembly method using single long insert library
US10711300B2 (en) 2016-07-22 2020-07-14 Pacific Biosciences Of California, Inc. Methods and compositions for delivery of molecules and complexes to reaction sites
AU2018210188B2 (en) * 2017-01-18 2023-11-09 Illumina, Inc. Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115810395A (zh) * 2022-12-05 2023-03-17 武汉贝纳科技有限公司 一种基于高通量测序动植物基因组t2t组装方法
CN115810395B (zh) * 2022-12-05 2023-09-26 武汉贝纳科技有限公司 一种基于高通量测序动植物基因组t2t组装方法

Also Published As

Publication number Publication date
CA3131682A1 (en) 2020-09-03
WO2020176301A1 (en) 2020-09-03
EP3931833A4 (en) 2022-11-30
US20200395098A1 (en) 2020-12-17
EP3931833A1 (en) 2022-01-05

Similar Documents

Publication Publication Date Title
Rautiainen et al. Telomere-to-telomere assembly of diploid chromosomes with Verkko
Rhie et al. Towards complete and error-free genome assemblies of all vertebrate species
US20210317518A1 (en) Sequencing controls
US10777301B2 (en) Hierarchical genome assembly method using single long insert library
Bzikadze et al. Automated assembly of centromeres from ultra-long error-prone reads
Sundquist et al. Whole-genome sequencing and assembly with high-throughput, short-read technologies
CN108350495B (zh) 对分隔长片段序列进行组装的方法和装置
JP6664575B2 (ja) 核酸分子数計測法
Thomson et al. Developing markers for multilocus phylogenetics in non-model organisms: a test case with turtles
US20210375397A1 (en) Methods and systems for determining fusion events
Lozier et al. Population genomics of divergence among extreme and intermediate color forms in a polymorphic insect
Bickhart et al. Generation of lineage-resolved complete metagenome-assembled genomes by precision phasing
Alleva et al. Cataloging human PRDM9 allelic variation using long-read sequencing reveals PRDM9 population specificity and two distinct groupings of related alleles
Kuster et al. ngsComposer: an automated pipeline for empirically based NGS data quality filtering
Ford et al. Genotyping and copy number analysis of immunoglobin heavy chain variable genes using long reads
CN113767438A (zh) 使用均聚物折叠测序读段改进对齐
WO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
US20200013484A1 (en) Machine learning variant source assignment
Farrell Expanding the horizons of next generation sequencing with RUFUS
Sloan et al. Disentangling associated genomes
Ikegami et al. MicroSEC: Sequence error filtering pipeline for formalin-fixed and paraffin-embedded samples
Baaijens De novo approaches to haplotype-aware genome assembly
Löber Development of Bioinformatic Tools for Retroviral Analysis from High Throughput Sequence Data
Dierckxsens TARGETED ORGANELLE GENOME ASSEMBLY AND HETEROPLASMY DETECTION
Chen Comprehensive Characterization of Structural Variations Using Long-Read Sequencing Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination