CN117062917A - 具有衔接子二聚体检测的核酸文库测序技术 - Google Patents

具有衔接子二聚体检测的核酸文库测序技术 Download PDF

Info

Publication number
CN117062917A
CN117062917A CN202280024912.5A CN202280024912A CN117062917A CN 117062917 A CN117062917 A CN 117062917A CN 202280024912 A CN202280024912 A CN 202280024912A CN 117062917 A CN117062917 A CN 117062917A
Authority
CN
China
Prior art keywords
sequencing
nucleic acid
adapter
library
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280024912.5A
Other languages
English (en)
Inventor
C·圣马丁
I·瑞叟伦杰托维
A·萨博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Cambridge Ltd
Original Assignee
Inmair Cambridge Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Cambridge Ltd filed Critical Inmair Cambridge Ltd
Publication of CN117062917A publication Critical patent/CN117062917A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/501Ligase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/125Allele specific primer extension

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明描述了具有文库质量控制指标的文库测序技术。序列数据使用与核酸测序文库的片段中的共同衔接子序列互补的测序引物。该测序引物在与片段插入物的连接处排除了该共同衔接子序列的3'末端核苷酸。这种排除避免了该测序文库中存在的任何衔接子二聚体中的错配区,并且该序列数据包括衔接子二聚体序列数据,其用于生成该质量控制指标。

Description

具有衔接子二聚体检测的核酸文库测序技术
相关申请的交叉引用
本申请要求于2021年3月31日提交的名称为“NUCLEIC ACID LIBRARY SEQUENCINGTECHNIQUES WITH ADAPTER DIMER DETECTION”的美国临时申请号63/168,762的优先权和权益,其公开内容全文据此以引用方式并入本文以用于所有目的。
背景技术
所公开的技术整体涉及核酸测序技术。特别地,所公开的技术涉及用于核酸测序的测序工作流程,其包括在文库制备期间形成的衔接子二聚体的检测和/或表征。
本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
用于下一代测序的样品制备(例如文库制备)可涉及将核酸(诸如基因组DNA或双链cDNA(从RNA制备))片段化成更小的片段,随后将官能化衔接子序列添加到片段的链上。此类衔接子可以包括用于测序反应的DNA聚合酶的引发位点、限制性位点和用于捕获、扩增、检测、寻址和转录启动子的结构域。在某些技术中,通过连接将衔接子添加到核酸片段的末端以产生在两端具有衔接子的片段。
通过将衔接子连接到模板核酸片段的末端来制备核酸片段文库的一个缺点是衔接子二聚体的形成。衔接子二聚体是通过两个衔接子直接连接到彼此从而使得它们不包含作为插入物的中间模板核酸片段而形成的不期望的副产物。在一些测序技术中,当扩增文库(例如作为测序工作流程的一部分)时,存在于核酸片段文库中的衔接子二聚体被扩增。由于衔接子二聚体通常小于文库中包含的片段,因此它们能够以更快的速率扩增和积累,因此用不代表样品的衔接子二聚体读段污染了测序结果。在其他技术中,衔接子二聚体不被扩增和/或测序,因为衔接子二聚体是在衔接子二聚体和与衔接子互补的测序引物之间具有错配的情况下形成的。某些测序聚合酶将不耐受错配,并且因此将不会扩增或测序衔接子二聚体。然而,即使当衔接子二聚体没有被测序时,文库中衔接子二聚体的存在也可以导致较低质量的测序结果。在簇阵列的情况下,如果大量簇群被衔接子二聚体占据并且因此没有样品DNA序列,则从有限大小的碎片获得较低密度的有意义的插入物序列数据。因此,制备具有低水平衔接子二聚体的文库在多核苷酸的测序中是有利的,特别是当此类过程是高通量时。本文描述了用于评估存在于核酸片段文库中的衔接子二聚体的技术,以促进对来自此类文库的核酸测序的改进。
发明内容
在一个实施方案中,本公开涉及表征核酸文库的方法,该方法包括以下步骤:使用测序引物对核酸文库进行测序以生成代表该核酸文库的片段和衔接子二聚体测序数据的样品测序数据,其中该核酸文库的单独片段包括侧接有第一衔接子的样品插入物;其中该核酸文库的单独衔接子二聚体包括在连接处直接连接到彼此的第二衔接子,其中该第一衔接子和该第二衔接子具有相同序列,其中该测序引物与该相同序列的一部分相同,并且其中该单独衔接子二聚体在该连接处包括错配区,并且其中当结合至该单独衔接子二聚体的链时,该测序引物具有3'末端,即该连接处的5';以及基于该衔接子二聚体测序数据确定该核酸文库的质量指标。
在另一个实施方案中,本公开涉及表征核酸文库的方法,该方法包括以下步骤:在测序装置处接收多个核酸文库的池的测序运行是衔接子二聚体质量控制测序运行的输入;使用测序引物使该测序装置从该池生成序列数据,该测序引物与该多个核酸文库的片段中的共同衔接子序列互补,并且在与片段插入物的连接处排除该共同衔接子序列的3'末端核苷酸;计算每个单独核酸文库的质量指标,其中该质量指标包括每个单独核酸文库中衔接子二聚体的百分比;以及识别该多个核酸文库中具有高于规格限制的衔接子二聚体百分比的核酸文库子集。
在另一个实施方案中,本公开涉及一种测序装置,该测序装置包括在其上装载有多个核酸文库的池的流通池和与该多个核酸文库的片段中的共同衔接子序列互补并且在与片段插入物的连接处排除该共同衔接子序列的3'末端核苷酸的测序引物。该测序装置还包括计算机,该计算机被编程为:接收该池的测序运行是衔接子二聚体质量控制测序运行的输入;使用该测序引物使该测序装置从该池生成序列数据;计算每个单独核酸文库的质量指标以确定每个单独核酸文库中衔接子二聚体的百分比;以及识别该多个核酸文库中具有高于规格限制的衔接子二聚体百分比的核酸文库子集
呈现前述描述以使得能够制造和使用所公开的技术。对所公开的具体实施的各种修改将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。所公开的技术的范围由所附权利要求限定。
附图说明
当参考附图阅读以下详细描述时将更好地理解本发明的这些和其他特征、方面和优点,其中在整个附图中相同的字符表示相同的部件,其中:
图1是根据本公开的各方面的用于制备核酸文库的方法的示意图;
图2是根据本公开的各方面的用于从核酸文库生成测序读段的方法的示意图;
图3是相对于片段衔接子和插入物的测序引物位置的示意图;
图4是根据本公开的各方面的用于制备核酸文库的方法的示意图;
图5是根据本公开的各方面的从核酸文库生成测序读段的方法的示意图;
图6是根据本公开的各方面的核酸测序工作流程的示意图;
图7示出根据本公开的各方面的再平衡核酸文库的测序结果;
图8示出根据本公开的各方面的再平衡核酸文库的测序结果;
图9示出根据本公开的各方面,使用测序的衔接子二聚体的质量指标与相同样品的PCR结果之间的示例性比较;并且
图10是根据本技术配置成采集测序数据的测序装置的框图。
具体实施方式
呈现以下讨论以使得本领域的任何技术人员能够实现和使用所公开的技术,并且在特定应用及其要求的上下文中提供以下讨论。对所公开的具体实施的各种修改对于本领域的技术人员而言将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。
用于下游处理和分析(诸如用于核酸测序)的文库制备通常涉及将核酸(例如,基因组DNA)片段化以生成随后被扩增和测序的片段(例如,核酸片段)。单独依靠定量技术(诸如定量PCR(Q-PCR))以测量文库制备的模板收率不能给出关于文库的质量的信息,并且不能提供标准化的质量指标,该标准化的质量指标估计正确的插入物大小的存在、文库的测序和成簇性能、和/或污染物或过度表示的序列(诸如衔接子二聚体)的存在。
使用测序的质量控制是识别文库具有任何潜在问题的有力方法。本文提供了基于代表文库片段以及衔接子二聚体的测序数据生成文库质量指标的测序工作流程。在一个实施方案中,质量指标可以包括测序性能(例如,Q30评分)、%衔接子二聚体、插入物大小、每样品收率(DNA浓度)、%重复、比对读段的数目和成簇性能(通过过滤器的%簇和%占用)中的一者或多者。所公开的技术提供了优于其他技术的改进,其通过观察文库中非规定大小元件的存在来识别衔接子插入物大小和衔接子二聚体的百分比,但其不使用衔接子二聚体序列数据。
所公开的技术使用通过设计指导的方法选择的测序引物,并且其生成代表特定测序文库制备中存在的衔接子二聚体的测序数据。该衔接子二聚体序列数据被识别并作为输入提供给单独测序文库的质量指标。在一个实施方案中,质量指标可以依次被用于指导文库标准化或再平衡步骤。所公开的技术与使用测序引物的测序工作流程相反,该测序引物当与衔接子二聚体杂交时,在引物的3'末端核苷酸与衔接子二聚体之间具有由含插入物的片段与衔接子二聚体之间的序列差异引起的错配。当使用针对错配具有低耐受性的聚合酶(例如,严格的或错配不耐受聚合酶)时,错配阻止衔接子二聚体被测序。因此,从包括衔接子二聚体的文库采集的测序数据不包括可如本文所提供被表征的任何衔接子二聚体测序读段。然而,即使衔接子二聚体不在此类测序数据中表示,它们的存在仍然可以与差的文库质量指标相关联。此外,使用错配不耐受聚合酶是期望从样品核酸生成准确的测序结果。因此,所公开的技术允许基于测序数据的测序文库中的衔接子二聚体的表征,并且还使用错配不耐受聚合酶生成此类数据。
图1是来自样品核酸12的文库制备技术的示意图。根据合适的片段化技术,诸如超声处理、酶处理等,将样品核酸12片段化以生成核酸插入物14。如本文通常所公开,将生成的插入物14连接到衔接子16,以生成包括衔接子末端连接的片段22的测序文库20,该衔接子末端连接的片段通常具有衔接子-插入物-衔接子布置。即,插入物14侧接有衔接子16。测序文库20的片段22可以在它们的5'末端共享共同序列并且在它们的3'末端共享共同序列。即,共同序列来自共同衔接子16,其可以全部是相同类型或相同序列,并且可以以适当方向连接到插入物14的末端。
此外,测序文库20可以包括衔接子二聚体26,其是直接连接到彼此并且不包括中间插入物14的衔接子16。衔接子二聚体26是测序文库20的污染物或不期望的元件。
一旦制备好,测序文库20就被提供给测序平台以从存在于测序文库20中的衔接子二聚体生成测序数据,该测序数据可用于改进测序结果或驱动清除、再平衡或可以用于生成样品核酸12的改进的测序数据的其他富集步骤。单独测序文库20的质量可以与起始样品核酸12的质量、样品核酸12的浓度、执行文库制备工作流程步骤中的操作者可变性、试剂质量、衔接子浓度等相关。因此,不同的文库20可以具有相对于彼此不同的质量。所公开的技术生成特定于相应的单独文库20的质量指标。
图2是配对末端测序的示意图,该配对末端测序可以用测序文库20并且使用生成衔接子二聚体测序信息的测序引物来执行。应当理解,所公开的技术可以附加地或另选地用于单端测序运行。此外,虽然图2示出同时存在的正向链和反向链的测序引物,但是应当理解,配对末端测序步骤是连续执行的以生成测序数据,并且序列索引的附加测序步骤也可以连续执行。
测序可以在基底30诸如碎片、流通池或固体基底上执行。在其他实施方案中,测序可在珠上执行。基底30包括样品片段22的固定的正向链32和反向链34。链32、34可以是通过桥式扩增形成的簇的一部分,使得基底30上的每个簇或位点代表来源于样品12的单个插入物14。与基底上的不同位置相关联的不同位点具有带有不同插入物14的捕获的不同样品片段22。链32、34两者侧接有衔接子序列。如所示,衔接子序列是衔接子16的单链版本,使得正向链的5'衔接子位于反向链上的衔接子的3',反之亦然。因此,每条链上的5'序列和3'序列可以是可区分的。衔接子序列可以包括捕获区40、44,其允许被固定在基底30上的捕获寡核苷酸捕获。衔接子序列还包括引物区42、46。
来自衔接子二聚体26的正向链50和反向链52也经由捕获区40、44被捕获在基底30上。引物区40、44直接连接到彼此。作为测序工作流程的一部分,通过从与引物区46互补并且结合到此引物区的测序引物延伸,对含插入物的正向链32和衔接子二聚体正向链50进行测序。如所示,读段1引物60被设计成避免位于衔接子二聚体26的连接处或二聚化位置处的错配区56。即,错配区56是或包括第一衔接子16和第二衔接子16连接彼此的位置。读段1引物60具有位于错配区56的5'的3'末端。在一个实施方案中,错配区56是单核苷酸,是2个至3个核苷酸,或2个至10个核苷酸。生成错配区是因为二聚化过程引起衔接子二聚体26中相对于样品片段22的不同序列,这反映在从文库20生成的链中。在链32、34中没有错配区56,因为插入物14在衔接子16的相应的末端处被连接。
生成衔接子二聚体测序信息的设计指导的测序引物包括读段1引物60。因为常规引物61包括错配区56,常规引物不能从衔接子链50延伸并且生成测序数据。因此,基于不同的3'核苷酸,读段1引物60至少可区分于常规测序引物。在一个实施方案中,读段1引物60是常规引物61的截短版本,其不包括最后的3'核苷酸但包括所有其他的核苷酸。在一个实施方案中,读段1引物60是常规引物61(图2)的位移版本,其不包括最后的3'核苷酸。
读段1引物60可以是选自一组潜在引物的单个引物序列,如所示,其避开错配区56。在一个实施方案中,读段1引物60被设计成具有3'末端,当与正向链32杂交时,该3'末端从靠近插入物14的位置(例如在插入物14的10个核苷酸内)延伸。在一个实施方案中,读段1引物60从插入物14的三个核苷酸内的位置延伸。附加地或另选地,读段1引物60可以被设计成避免或不包括衔接子16的其他官能区,诸如索引区、条形码区和/或捕获区44。读段1引物60的长度可以在18个核苷酸和24个核苷酸之间。在一个实施方案中,与正向链32的引物区46互补的读段1引物60与反向链34上的引物区42的序列至少50%、至少75%或至少95%相同。
在配对末端实施方案中,测序引物还包括读段2引物62。因为常规引物63包括错配区56,常规引物不能从衔接子链52延伸并且生成测序数据。因此,基于不同的3'核苷酸,读段2引物62至少可区分于常规测序引物。读段2引物62具有位于错配区56的5'的3'末端。在一个实施方案中,读段2引物62是常规引物63的截短版本,其不包括最后的3'核苷酸但包括所有其他的核苷酸。在一个实施方案中,读段2引物62是常规引物63的位移版本,其不包括最后的3'核苷酸并且在5'方向上位移一个核苷酸。读段2引物62可以是选自一组潜在引物的单个引物序列,如所示,其避开错配区56。在一个实施方案中,读段2引物62被设计成具有3'末端,当与反向链34杂交时,该3'末端从靠近插入物14的位置(例如在插入物14的10个核苷酸内)延伸。在一个实施方案中,读段2引物62从插入物14的三个核苷酸内的位置延伸。附加地或另选地,读段2引物62可以被设计成避免或不包括衔接子16的其他官能区,诸如索引区、条形码区和/或捕获区40。读段2引物62的长度可以在18个核苷酸和24个核苷酸之间。在一个实施方案中,与反向链34的引物区42互补的读段2引物62与正向链32上的引物区46的序列至少50%、至少75%或至少95%相同。
图3是读段1引物60和读段2引物62在衔接子16中的位置以及相对于插入物14的位置的示意图。引物60对应于图3中以N示出的片段22上的区域80,对应于插入物14和衔接子16之间的接口处的核苷酸。在一个实施方案中,提供了具有衔接子二聚体能力的测序引物,其具有如下序列:
读段1引物60:
在引物区80和5'中包含15个至25个核苷酸但不包含衔接子16的末端3'核苷酸N的序列。在一个实施方案中,末端核苷酸N是“T”。
读段2引物62:
在引物区82中包含15个至20个核苷酸但不包含插入物14的核苷酸3'的序列。在一个实施方案中,末端核苷酸N是“A”。
读段1引物60和读段2引物62靠近,但在一个实施方案中,与插入物14间隔一个核苷酸,使得在插入物14内生成的序列信息最大化。
图4示出使用分叉衔接子并且可以结合所公开的技术使用的示例性文库制备工作流程100。尽管仅示出一个双链片段101,但是可在工作流程中同时制备样品的数千至数百万个片段。通过物理方法进行的DNA片段化产生异质末端,包括3'突出端、5'突出端和平端的混合物。突出端将具有不同的长度并且末端可以被磷酸化或可以不被磷酸化。从操作的片段化基因组DNA获得的双链DNA片段的示例显示为片段101。片段101具有在左端的3'突出端和在右端显示的5'突出端两者。如果DNA片段是通过物理方法产生的,则工作流程继续执行末端修复操作102,其产生具有5'-磷酸化末端的平端片段。在一些具体实施中,该步骤使用T4 DNA聚合酶和克列诺酶将从片段化产生的突出端转化为平端。这些酶的3'至5'核酸外切酶活性去除3'突出端,并且5'至3'聚合酶活性填充5'突出端。此外,该反应中的T4多核苷酸激酶使DNA片段的5'末端磷酸化。片段104是末端修复的平端产物的示例。
末端修复后,工作流程100继续对片段的3'末端进行腺苷酸化(步骤106),其也被称为A-加尾或dA-加尾,因为单个dATP被添加到平端片段的3'末端以防止它们在衔接子连接反应期间连接到彼此。双链分子110显示具有带3'-dA突出端和5'-磷酸末端的平端的A尾片段。两个测序衔接子116中的每一个测序衔接子的3'末端上的单个‘T’核苷酸提供与插入物的每一个末端上的3'-dA突出端互补的突出端,用于将两个衔接子连接到插入物。在一个实施方案中,读段1引物60和读段2引物排除单个“T”核苷酸。
在腺苷酸化3'末端后,工作流程100继续将寡核苷酸(例如衔接子116)连接(步骤112)到片段110的两个末端。衔接子116可以包括用于识别多重反应中的单独样品的索引序列。P5和P7'寡核苷酸在多重反应的所有样品中是共同的或通用的衔接子,并且与结合至Illumina测序平台的流通池的表面的扩增引物互补,并且也被称为扩增引物结合位点。它们允许衔接子-插入物-衔接子文库经历桥式扩增。在各种具体实施中可以使用衔接子和测序平台的其他设计。衔接子116还包括针对读段1和读段2的两个序列引物结合序列。其他测序引物结合序列可以包括在用于不同反应(例如,索引读段)的衔接子中。
在一个实施方案中,所公开的技术可以用于使用iSeq100在Truseq PCR-FREE文库制备(Illumina,Inc.)中检测衔接子二聚体。在该方案中使用定制配方和引物以使得能够在iSeq(Illumina,Inc.)上进行该衔接子二聚体检测。iSeq DNA测序聚合酶pol812(SED IDNO:1),当读段引物的最后的核苷酸(T)与衔接子二聚体的第一个可读核苷酸(C)之间存在错配(T-C)时,其不能测序衔接子二聚体,如图5中所示。即,图4中的读段1引物不包括在预期的读段1引物60(图2)的组中,而是常规引物61。因此,本文提供了在SBS3(读段1引物)的末端没有“T”的定制读段1引物。本文还提供了末端没有“T”的SBS12(读段2引物)。这些引物可用于检测衔接子二聚体。尽管此处描述的衔接子和测序方法是基于Illumina平台,但可以使用其他衔接子和测序技术来代替Illumina平台或作为补充。
所公开的技术可以用于使用某些测序平台(诸如使用错配不耐受聚合酶的iSeq平台、NextSeq平台和/或NovaSeq(Illumina,Inc.))对文库进行定性、再平衡、标准化和定量。如本文提供的,错配不耐受聚合酶的示例在SEQ ID NO:1中公开,并且在本文中也称为Pol812聚合酶。可以结合所公开的技术使用的其他错配不耐受或高保真聚合酶包括pfu聚合酶或Q5聚合酶。然而,应当理解,其他测序聚合酶可以结合所公开的技术使用,包括相对错配耐受的测序聚合酶。即,因为公开的技术提供避免衔接子二聚体错配的引物,所以更广泛种类的测序聚合酶能够生成如本文提供的衔接子二聚体测序数据。
图6是根据所公开的实施方案的iSeq平台的示例性测序工作流程,其自动生成用于测序文库的质量指标。工作流程在文库制备工作流程之后启动(例如,如图1中和图4中所示)。制备的文库可以以1:1池化,推荐体积为每样品1μL。可基于DNA浓度的测量(诸如Illumina Qubit技术)来执行稀释,并且基于DNA浓度将文库池化至适当的浓度。然而,在一个实施方案中,从衔接子二聚体测序数据生成的DNA浓度估计或其他质量指标可以代替直接DNA测量,诸如经由Qubit的测量。这通过消除耗时的DNA测量步骤提供了加速工作流程的益处。此外,采集衔接子二聚体测序数据发生在文库的测序期间,使得所公开的质量指标不向工作流程添加时间并且可以减少工作流程的总时间。因此,所公开的技术允许更有效地操作测序装置。
读段1引物60和读段2引物62的定制引物序列可以如下:
具有衔接子二聚体能力的测序引物,诸如包括序列SEQ ID NO:2和SEQ ID NO:3、SEQ ID NO:4和SEQ ID NO:5、SEQ ID NO:6和SEQ ID NO:7的引物,或包括读段1引物和读段2引物的这些序列的其他组合,可以被添加到测序底物,例如流通池。当使用这些引物时,测序装置可被编程为根据衔接子二聚体指标模式进行操作,该模式基于指示使用的是具有衔接子二聚体能力的测序引物的输入。当使用常规引物时,选择不提供这些指标的不同操作模式。应当理解,这些引物序列是示例性的,也可以使用基于其他衔接子序列的其他引物。在其他示例中,引物序列基于用于其他Illumina技术或其他NGS测序技术的读段1和读段2测序引物对。
一旦测序运行完成运行,其将自动生成一个或多个质量指标报告,该质量指标报告被提供给计算机(图10)。测序运行可以是多重运行,其中将来自不同来源的多个不同文库池化在一起。然而,不同的文库共享结合到本文公开的测序引物的某些共同衔接子序列。衔接子还可以包括在样品之间变化的序列,例如不同的索引,其用于将特定的测序读段分配给原始样品或文库。质量指标可以是特定于特定样品的,并且与该样品的索引相关联。此外,标准化方案将允许用户标准化整个板。
通过应用以下公式计算每个样品的文库浓度:
样品1[DNA](nM)=%多路分解(样品1)*iSeqQCPool[DNA](nM)
因此,所生成的质量控制指标(诸如相同模板)也可用于计算每个样品所需的样品和重悬浮缓冲液(RSB)的体积以在给定体积和浓度下使板标准化。目标标准化浓度(nM)和总标准化体积(μL)可经由用户输入来录入。在以下示例中,录入2.5nM的目标浓度和20μL的目标总体积。
实施例:描述了用iSeqQC运行的示例性无PCR 450文库(NA12878gDNA)。用于定性TSPF450文库的指标在下表(表1)中列出并解释。%簇PF、%占用和%Q30碱基规格基于由Illumina发布的iSeq规格表。插入物大小规格基于期望的插入物大小。其余指标基于先前用优质文库(全部在Novaseq6000中相对于规格进行测试)执行的6次TS无PCR 2×151iSeqQC运行。
表1:质量控制规格值:所有规格值均基于6次TSPF450 2×151iSeqQC运行。这些运 行中使用的文库是优质文库(由Novaseq确认)。通过使用以下公式计算规格:规格=平均值 ±3*标准偏差(±3σ)。LSL:规格下限;HSL:规格上限
下面是5个不同样品的质量控制示例性分析的结果。样品1、2、3和4通过了所有HSL和LSL。样品5未通过%PF、%占用、%重复、%衔接子二聚体、%比对碱基和%GC含量(对于读段1和读段2)。该样品QC失败是由于1%衔接子二聚体加标到池中,因此预期失败。
表2:基于规格的质量控制结果
如所证实的,对来自加标样品的测序读段的分析高于GC含量的规格,因为测序读段反映了比期望数目更高的从衔接子二聚体生成的测序读段。衔接子二聚体是合成的DNA,其GC含量在人源DNA的典型值之外。因此,根据所公开的技术用指示高于期望的GC含量的测序数据分析的测序文库可以是高衔接子二聚体存在的特征。与指示高衔接子二聚体存在的其他质量指标一起,文库可被识别为质量控制失败。如还证实的,即使在具有高衔接子二聚体存在的文库中,某些指标(诸如插入物大小)也没有被标记或在规格限制之外。
本文提供了测序工作流程,其检测例如序列、衔接子二聚体,并且提供该信息作为至质量控制分析的输入。为了证明该工作流程检测衔接子二聚体的效率,使用不同加标%衔接子二聚体运行PF450文库。实验总结示于下表(表3)中。
加标到文库中的%衔接子二聚体 重复数(n)* %衔接子二聚体(次级指标)
0%(对照) 2 0.5
0.1% 2 12.2
2% 2 12
5% 2 27.6
10% 2 68.6
表3:衔接子二聚体实验总结
结果确定iSeqQC工作流程可检测衔接子二聚体,并且这种检测在非常低的浓度下是灵敏的。
如果在池化步骤中以不相等的浓度组合文库,则可能引起某些文库相对于其他文库的偏倚表示。表示不足可能需要附加的测序,而过度表示可导致浪费的测序能力。具有大量衔接子二聚体的文库可似乎具有足够浓度的DNA。然而,该浓度可以测量衔接子二聚体的存在而不是包含片段的存在,并且因此可以夸大来自样品的DNA的DNA浓度。衔接子二聚体测序结果的评估可用于识别多重反应中文库的子集,其中衔接子二聚体的百分比未通过质量控制。此类文库可以被提供给清除步骤和/或可以被再平衡,并且可以被识别为所公开的技术的一部分。清除步骤可以包括凝胶或大小分离以从文库中分离出衔接子二聚体。然而,因为清除步骤是耗时的,通过质量指标结合采集测序数据运行文库可以允许一些文库避免仅基于预测序分析(例如,片段大小数据)不必要地经历清除。
所公开的技术的另一个方面是生成的指标改进了再平衡文库,其中跨所有索引的计数数目的变异系数(CV)<10%。相等的索引表示可防止样品在测序期间由于低收率而失败。然而,因为衔接子二聚体包括可例如在第一索引读段或第二索引读段中表示的索引序列,所以每个索引序列的文库平衡对于具有高衔接子二聚体浓度的样品将不是准确的。因此,基于直接来自衔接子二聚体的索引读段,样品表示将在仅基于索引的池中人为地高或过度表示,因为一些%多路分解来自衔接子二聚体而不是文库本身。不正确平衡的样品可能随后以差的覆盖率测序。
这是高通量工作流程的最常见失败类型,并且导致周转时间的延迟并且增加测序成本。由于低收率而失败的样品将需要重新测序,并且在一些情况下,文库制备需要重新制备,导致更多的延迟并且增加文库制备成本。iSeq QC工作流程允许控制索引表示,节省未来测序时间和成本。使用%多路分解值文库可以在板上再平衡。
在下图中,存在基于计算的%多路分解值再平衡/标准化的文库的示例。%CV非常低(<10%),这意味着%多路分解值与DNA浓度高度相关并且可用于再平衡和标准化文库。如图8中所示,将24个样品再平衡并且池化以产生具有不同复杂性的2个不同文库池:6plex(A1)和24plex(A2)。两个池的%CV值分别为7.52%和9.5%。如图9中所示,使用24-plex的文库制备来创建3-plex的池,每个样品具有不同的%多路分解样品。文库1和文库2具有来自%多路分解样品(%读段样品)的0% CV。文库3具有来自预期%多路分解样品(%读段样品)的6.8% CV。使用相同的概念,可如本文所提供计算样品中的每个样品的浓度。这些浓度值可用于将整个板标准化为样品浓度和体积。
执行从iSeqQC生成的浓度值和来自Q-PCR(Roche LightCycler 480,KK4953试剂盒)的浓度之间的比较。图9示出iSeq DNA浓度预测值和Q-PCR DNA浓度之间的%CV的分布。%CV平均值为3.4%,这表明检测到的Q-PCR DNA浓度和iSeq DNA浓度值之间存在高相关性。这些结果显示,使用iSeq QC%多路分解计算的DNA浓度与Q-PCR DNA浓度值具有高相关性。
所公开的质量控制文库步骤的具体实施允许丢弃或修改任何差性能的文库,以防止花费时间和金钱来在较大并且相对昂贵的测序平台中对该文库进行测序。差性能的文库可经受清除步骤,该清除步骤去除衔接子二聚体。然而,表现良好的文库不需要经受此类步骤,因此节省了通过质量控制指标的文库的时间。
在一些实施方案中,所公开的技术用于生成核酸测序文库(例如文库20)或DNA片段文库。生成的文库可在如本文提供的测序反应中使用。图10是测序装置160的示意图,该测序装置可以结合所公开的实施方案使用,用于使用如本文提供的索引技术从分配给单独样品的索引的核酸采集测序数据(例如,测序读段、读段1、读段2、索引读段、索引读段1、索引读段2、多样品测序数据)。测序装置160可以根据任何测序技术来实现,诸如结合了美国专利公开号2007/0166705、2006/0188901、2006/0240439、2006/0281109、2005/0100900、美国专利号7,057,026、WO 05/065814、WO 06/064199、WO 07/010,251中所述的边合成边测序的方法的测序技术,这些专利的公开内容全文以引用方式并入本文。另选地,可以在测序装置160中使用边连接边测序技术。此类技术使用DNA连接酶掺入寡核苷酸并且识别此类寡核苷酸的掺入,并且描述于美国专利号6,969,488;美国专利号6,172,218;和美国专利号6,306,597;这些专利的公开内容全文以引用方式并入本文。一些实施方案可以利用纳米孔测序,由此样品核酸链或从样品核酸外切移除的核苷酸穿过纳米孔。随着样品核酸或核苷酸穿过纳米孔,可通过测量孔的电导率的波动来识别每种类型的碱基(美国专利号7,001,792,Soni&Meller,Clin.Chem.53,1996-2001(2007);Healy,Nanomed.2,459-481(2007);以及Cockroft等人,J.Am.Chem.Soc.130,818-820(2008),这些文献的公开内容全文以引用方式并入本文)。又一些实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如,基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT,Life Technologies子公司)商购获得的电检测器和相关技术或在US 2009/0026082A1、US2009/0127589 A1、US2010/0137143 A1或US 2010/0282617A1中所述的测序方法和系统,这些文献中的每一篇均以引用方式全文并入本文。特定实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可以通过带有荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用或者利用零模式波导来检测核苷酸掺入,如例如以下文献中所述:Levene等人,Science 299,682-686(2003);Lundquist等人,Opt.Lett.33,1026-1028(2008);Korlach等人,Proc.Natl.Acad.Sci.USA 105,1176-1181(2008),这些文献的公开内容全文以引用方式并入本文。其他合适的替代技术包括例如荧光原位测序(FISSEQ)和大规模并行签名测序(MPSS)。在特定实施方案中,测序装置160可以是来自Illumina(La Jolla,CA)的iSeq。在其他实施方案中,测序装置160可以被配置成使用CMOS传感器操作,该CMOS传感器具有在光电二极管上制造的纳米阱,使得DNA沉积与每个光电二极管一对一地对准。
测序装置160可以是“单通道”检测装置,其中对于任何给定图像仅四个核苷酸中的两个被标记并且是可检测的。例如,胸腺嘧啶可以具有永久的荧光标记,而腺嘌呤以可分离的形式使用相同的荧光标记。鸟嘌呤可以是永久黑暗的,并且胞嘧啶可以最初是黑暗的,但能够在循环期间具有添加的标记。因此,每个循环可以涉及初始图像和第二图像,其中染料从任何腺嘌呤裂解并且添加到任何胞嘧啶,使得在初始图像中仅胸腺嘧啶和腺嘌呤是可检测的,但在第二图像中仅胸腺嘧啶和胞嘧啶是可检测的。通过两个图像为黑暗的任何碱基是鸟嘌呤,并且通过两个图像可检测的任何碱基是胸腺嘧啶。在第一图像中可检测但在第二图像中不可检测的碱基是腺嘌呤,并且在第一图像中不可检测但在第二图像中可检测的碱基是胞嘧啶。通过组合来自初始图像和第二图像的信息,能够使用单通道来区分所有四种碱基。在其他实施方案中,测序装置160可以是“双通道”检测装置。
在所描绘的实施方案中,测序装置160包括单独的样品基底162,例如流通池或测序盒,以及相关联的计算机164。然而,如上所述,这些可以实现为单个装置。在所描绘的实施方案中,可以将生物样品装载到基底162中,该基底被成像以生成序列数据。例如,与生物样品相互作用的试剂响应于由成像模块172生成的激发束而以特定波长发荧光,并且由此返回辐射用于成像。例如,荧光组分可由荧光标记的核酸生成,该荧光标记的核酸与组分的互补分子或与使用聚合酶掺入寡核苷酸中的荧光标记的核苷酸杂交。如本领域技术人员将理解的,激发样品的染料的波长和其发荧光的波长将取决于特定染料的吸收和发射光谱。此类返回的辐射可以通过引导光学器件传播回来。该向后束通常可被导向成像模块172的检测光学器件,其可以是相机或其他光学检测器。
成像模块检测光学器件可以基于任何合适的技术,并且可以是例如带电耦合装置(CCD)传感器,其基于影响装置中的位置的光子生成像素化图像数据。然而,应理解,也可以使用各种其他检测器中的任一种,包括但不限于被配置用于时间延迟积分(TDI)操作的检测器阵列、互补金属氧化物半导体(CMOS)检测器、雪崩光电二极管(APD)检测器、Geiger模式光子计数器或任何其他合适的检测器。TDI模式检测可以与线扫描耦合,如美国专利号7,329,860中所述,该专利以引用方式并入本文。其他可用的检测器在例如本文先前在各种核酸测序方法的上下文中提供的参考文献中有所描述。
成像模块172可以处于处理器控制下(例如,经由处理器174),并且还可以包括I/O控件176、内部总线78、非易失性存储器180、RAM 82和使得存储器能够存储可执行指令的任何其他存储器结构,以及可以类似于关于图10所描述的那些的其他合适的硬件部件。此外,相关联的计算机164还可以包括处理器184、I/O控件186、通信模块84和包括RAM 188和非易失性存储器190的存储器架构,使得存储器架构能够存储可执行指令192。硬件部件可以由内部总线194链接,该内部总线也可以链接到显示器196。在测序装置160被实现为一体装置的实施方案中,可以消除某些冗余硬件元件。
处理器184可以被编程为根据本文提供的技术基于一个或多个相关联索引序列将单独的测序读段分配给样品。在特定实施方案中,测序装置160可以被配置成基于由成像模块172采集的图像数据,生成包括单独簇的序列读段的测序数据,其中每个序列读段与基底170上的特定位置相关联。每个序列读段可以来自包含插入物的片段或者可以来自存在于测序文库中的衔接子二聚体。测序数据包括测序读段的每个碱基的碱基调用。此外,基于图像数据,即使对于串联执行的测序读段,单独读段也可经由图像数据链接到相同位置,并且因此链接到相同的模板链。以此方式,索引测序读段可以在分配给原始样品之前与插入序列的测序读段相关联。处理器184还可以被编程为在将测序读段分配给样品之后对对应于特定样品的插入物的序列执行下游分析。
此外,测序装置160可以生成如本文所提供的质量指标并且生成与所公开的质量指标相关的报告、通知和/或数据。
所公开的技术可以用于对从样品核酸(例如样品核酸12)制备的核酸文库进行测序。“样品核酸”可源于任何体内或体外来源,包括源于一种或多种细胞、组织、器官或生物体(无论是活体还是非活体)或源于任何生物或环境来源(例如,水、空气、土壤)。例如,在一些实施方案中,样品核酸包括真核和/或原核dsDNA或由其组成,其来源于或源于人、动物、植物、真菌(例如,霉菌或酵母)、细菌、病毒、类病毒、支原体或其他微生物。在一些实施方案中,样品核酸包括基因组DNA、亚基因组DNA、染色体DNA(例如,来自分离的染色体或染色体的一部分,例如,来自染色体的一个或多个基因或基因座)、线粒体DNA、叶绿体DNA、质粒或其他附加体衍生的DNA(或其中包含的重组DNA)或双链cDNA或由这些组成,该双链cDNA通过使用RNA依赖性DNA聚合酶或逆转录酶逆转录RNA以生成第一链cDNA,然后延伸与第一链cDNA退火的引物以生成dsDNA来制备。在一些实施方案中,样品核酸包括在核酸分子中或由核酸分子制备的多个dsDNA分子(例如,在基因组DNA或cDNA中或由基因组DNA或cDNA制备的多个dsDNA分子,该基因组DNA或cDNA由在生物来源(例如,细胞、组织、器官、生物体)或环境来源(例如,水、空气、土壤、唾液、痰、尿液、粪便)中或来自该生物来源或环境来源的RNA制备)。在一些实施方案中,样品核酸来自体外来源。例如,在一些实施方案中,样品核酸包括dsDNA或由其组成,该dsDNA由单链DNA(ssDNA)或由单链或双链RNA在体外制备(例如,使用本领域已知的方法,诸如使用合适的DNA依赖性和/或RNA依赖性DNA聚合酶(逆转录酶)进行引物延伸)。在一些实施方案中,样品核酸包括dsDNA或由其组成,该dsDNA是使用本领域已知的任何方法由一个或多个双链或单链DNA或RNA分子的全部或一部分制备的,方法包括用于如下操作的方法:DNA或RNA扩增(例如,PCR或逆转录酶-PCR(RT-PCR)、转录介导的扩增方法,其中对一个或多个核酸分子的全部或一部分进行扩增);将一个或多个核酸分子的全部或一部分分子克隆到随后在合适的宿主细胞中复制的质粒、F黏粒、BAC或其他载体中;或通过杂交捕获一个或多个核酸分子,诸如通过与阵列或微阵列上的DNA探针杂交。
该书面描述使用示例以公开本发明,包括最佳模式,并且还使得本领域的任何技术人员能够实践本发明,包括制造和使用任何设备或系统以及执行任何结合的方法。本发明的可取得专利的范围由权利要求限定,并且可以包括本领域的技术人员想到的其他示例。如果此类其他示例具有与权利要求的字面语言无差异的结构元件,或者如果它们包括与权利要求的字面语言无实质差异的等同结构元件,则这些其他示例旨在落入权利要求的范围内。
<210> SEQ ID 1
<211> 775
<212> PRT
<213> 热球菌属(Thermococcus sp.) 9 N-7 (聚合酶(Polymerase) 812, pol812)
<400> 1
Met Ile Leu Asp Thr Asp Tyr Ile Thr Glu Asn Gly Lys Pro Val Ile
1 5 10 15
Arg Val Phe Lys Lys Glu Asn Gly Glu Phe Lys Ile Glu Tyr Asp Arg
20 25 30
Thr Phe Glu Pro Tyr Phe Tyr Ala Leu Leu Lys Asp Asp Ser Ala Ile
35 40 45
Glu Asp Val Lys Lys Val Thr Ala Lys Arg His Gly Thr Val Val Lys
50 55 60
Val Lys Arg Ala Glu Lys Val Gln Lys Lys Phe Leu Gly Arg Pro Ile
65 70 75 80
Glu Val Trp Lys Leu Tyr Phe Asn His Pro Gln Asp Val Pro Ala Ile
85 90 95
Arg Asp Arg Ile Arg Ala His Pro Ala Val Val Asp Ile Tyr Glu Tyr
100 105 110
Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Ile Pro
115 120 125
Ala Glu Gly Asp Glu Glu Leu Thr Met Leu Ala Phe Ala Ile Ala Thr
130 135 140
Leu Tyr His Glu Gly Glu Glu Phe Gly Thr Gly Pro Ile Leu Met Ile
145 150 155 160
Ser Tyr Ala Asp Gly Ser Glu Ala Arg Val Ile Thr Trp Lys Lys Ile
165 170 175
Asp Leu Pro Tyr Val Asp Val Val Ser Thr Glu Lys Glu Met Ile Lys
180 185 190
Arg Phe Leu Arg Val Val Arg Glu Lys Asp Pro Asp Val Leu Ile Thr
195 200 205
Tyr Asn Gly Asp Asn Phe Asp Phe Ala Tyr Leu Lys Lys Arg Ser Glu
210 215 220
Glu Leu Gly Ile Lys Phe Thr Leu Gly Arg Asp Gly Ser Glu Pro Lys
225 230 235 240
Ile Gln Arg Met Gly Asp Arg Phe Ala Val Glu Val Lys Gly Arg Ile
245 250 255
His Phe Asp Leu Tyr Pro Val Ile Arg Arg Thr Ile Asn Leu Pro Thr
260 265 270
Tyr Thr Leu Glu Ala Val Tyr Glu Ala Val Phe Gly Lys Pro Lys Glu
275 280 285
Lys Val Tyr Ala Glu Glu Ile Ala Gln Ala Trp Glu Ser Gly Glu Gly
290 295 300
Leu Glu Arg Val Ala Arg Tyr Ser Met Glu Asp Ala Lys Val Thr Tyr
305 310 315 320
Glu Leu Gly Arg Glu Phe Phe Pro Met Glu Ala Gln Leu Ser Arg Leu
325 330 335
Ile Gly Gln Ser Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu
340 345 350
Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Lys Arg Asn Glu Leu Ala
355 360 365
Pro Asn Lys Pro Asp Glu Arg Glu Leu Ala Arg Arg Arg Gly Gly Tyr
370 375 380
Ala Gly Gly Tyr Val Lys Glu Pro Glu Arg Gly Leu Trp Asp Asn Ile
385 390 395 400
Val Tyr Leu Asp Phe Arg Ser Ala Ala Ile Ser Ile Ile Ile Thr His
405 410 415
Asn Val Ser Pro Asp Thr Leu Asn Arg Glu Gly Cys Lys Glu Tyr Asp
420 425 430
Val Ala Pro Glu Val Gly His Lys Phe Cys Lys Asp Phe Pro Gly Phe
435 440 445
Ile Pro Ser Leu Leu Gly Asp Leu Leu Glu Glu Arg Gln Lys Ile Lys
450 455 460
Arg Lys Met Lys Ala Thr Val Asp Pro Leu Glu Lys Lys Leu Leu Asp
465 470 475 480
Tyr Arg Gln Arg Val Ile Lys Ile Leu Ala Asn Ser Phe Tyr Gly Tyr
485 490 495
Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu Ser
500 505 510
Val Thr Ala Trp Gly Arg Glu Tyr Ile Glu Met Val Ile Arg Glu Leu
515 520 525
Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly Leu
530 535 540
His Ala Thr Ile Pro Gly Ala Asp Ala Glu Thr Val Lys Lys Lys Ala
545 550 555 560
Lys Glu Phe Leu Lys Tyr Ile Asn Pro Lys Leu Pro Gly Leu Leu Glu
565 570 575
Leu Glu Tyr Glu Gly Phe Tyr Val Arg Gly Phe Phe Val Thr Lys Lys
580 585 590
Lys Tyr Ala Val Ile Asp Glu Glu Gly Lys Ile Thr Thr Arg Gly Leu
595 600 605
Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln Ala
610 615 620
Arg Val Leu Glu Ala Ile Leu Lys His Gly Asp Val Glu Glu Ala Val
625 630 635 640
Arg Ile Val Lys Glu Val Thr Glu Lys Leu Ser Lys Tyr Glu Val Pro
645 650 655
Pro Glu Lys Leu Val Ile His Glu Gln Ile Thr Arg Asp Leu Arg Asp
660 665 670
Tyr Lys Ala Thr Gly Pro His Val Ala Val Ala Lys Arg Leu Ala Ala
675 680 685
Arg Gly Val Lys Ile Arg Pro Gly Thr Val Ile Ser Tyr Ile Val Leu
690 695 700
Lys Gly Ser Gly Arg Ile Gly Asp Arg Ala Ile Pro Ala Asp Glu Phe
705 710 715 720
Asp Pro Thr Lys His Arg Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn Gln
725 730 735
Val Leu Pro Ala Val Glu Arg Ile Leu Lys Ala Phe Gly Tyr Arg Lys
740 745 750
Glu Asp Leu Arg Tyr Gln Lys Thr Lys Gln Val Gly Leu Gly Ala Trp
755 760 765
Leu Lys Val Lys Gly Lys Lys
770 775

Claims (23)

1.一种表征核酸文库的方法,所述方法包括:
使用测序引物对核酸文库进行测序以生成代表所述核酸文库的片段和衔接子二聚体测序数据的样品测序数据,其中所述核酸文库的单独片段包括侧接有第一衔接子的样品插入物;其中所述核酸文库的单独衔接子二聚体包括在连接处直接连接到彼此的第二衔接子,其中所述第一衔接子和所述第二衔接子具有相同序列,其中所述测序引物与所述相同序列的一部分相同,并且其中所述单独衔接子二聚体在所述连接处包括错配区,并且其中当结合至所述单独衔接子二聚体的链时,所述测序引物具有3'末端,即所述连接处的5';以及
基于所述衔接子二聚体测序数据确定所述核酸文库的质量指标。
2.根据权利要求1所述的方法,其中对所述核酸文库进行测序包括使用错配不耐受聚合酶。
3.根据权利要求2所述的方法,其中所述错配不耐受聚合酶是具有SEQ ID NO:1的序列的聚合酶。
4.根据权利要求2所述的方法,其中所述错配不耐受聚合酶是pol812。
5.根据权利要求1所述的方法,所述方法包括接收所述核酸文库被测序以生成所述质量指标的输入;以及选择生成所述质量指标的测序装置的操作模式。
6.根据权利要求1所述的方法,其中所述测序引物具有SEQ ID NO:2的序列。
7.根据权利要求6所述的方法,其中所述测序引物不具有SEQ ID NO:2的任何核苷酸3'。
8.根据权利要求1所述的方法,其中所述测序引物具有SEQ ID NO:3的序列。
9.根据权利要求8所述的方法,其中所述测序引物不具有SEQ ID NO:3的任何核苷酸3'。
10.根据权利要求1所述的方法,其中对所述核酸文库进行测序包括使用附加测序引物,其中所述测序引物用于对所述单独片段的第一链进行测序,并且其中所述附加测序引物用于对所述单独片段的反向链进行测序。
11.根据权利要求1所述的方法,其中对所述核酸文库进行测序包括使用附加测序引物,其中所述附加测序引物与所述相同序列的不同部分相同。
12.根据权利要求1所述的方法,其中所述测序引物与所述第一衔接子上的与所述样品插入物间隔至少一个核苷酸的位置互补。
13.根据权利要求12所述的方法,其中所述测序引物与所述第一衔接子上的与所述样品插入物间隔一至三个核苷酸的位置互补。
14.一种表征核酸文库的方法,所述方法包括:
在测序装置处接收多个核酸文库的池的测序运行是衔接子二聚体质量控制测序运行的输入;
使用测序引物使所述测序装置从所述池生成序列数据,所述测序引物与所述多个核酸文库的片段中的共同衔接子序列互补,并且在与片段插入物的连接处排除所述共同衔接子序列的3'末端核苷酸;
计算每个单独核酸文库的质量指标,其中所述质量指标包括每个单独核酸文库中衔接子二聚体的百分比;以及
识别所述多个核酸文库中具有高于规格限制的衔接子二聚体百分比的核酸文库子集。
15.根据权利要求14所述的方法,其中所述测序引物在所述多个核酸文库的所述片段中的片段插入物的3个核苷酸5'内终止。
16.根据权利要求14所述的方法,其中所述测序运行是配对末端测序运行,并且其中所述序列数据是使用附加测序引物生成的。
17.根据权利要求14所述的方法,其中所述共同衔接子序列的所述3'末端核苷酸是T。
18.根据权利要求14所述的方法,其中所述质量指标还包括重复读段的百分比,其中重复读段百分比规格上限是10%。
19.根据权利要求14所述的方法,所述方法包括再平衡所识别的子集中的核酸文库。
20.根据权利要求14所述的方法,所述方法包括基于所述质量指标估计所述多个核酸文库中的每个核酸文库的DNA浓度,其中所述质量指标还包括%变异系数。
21.一种测序装置,所述测序装置包括:
在其上装载有多个核酸文库的池的流通池和与所述多个核酸文库的片段中的共同衔接子序列互补并且在与片段插入物的连接处排除所述共同衔接子序列的3'末端核苷酸的测序引物;
计算机,所述计算机被编程为:
接收所述池的测序运行是衔接子二聚体质量控制测序运行的输入;
使用所述测序引物使所述测序装置从所述池生成序列数据;
计算每个单独核酸文库的质量指标以确定每个单独核酸文库中衔接子二聚体的百分比;并且
识别所述多个核酸文库中具有高于规格限制的衔接子二聚体百分比的核酸文库子集。
22.根据权利要求21所述的测序装置,所述测序装置包括显示器,所述显示器显示所识别的子集和所述质量指标。
23.根据权利要求21所述的测序装置,其中所述计算机被编程为生成与所识别的子集相关的通知。
CN202280024912.5A 2021-03-31 2022-03-31 具有衔接子二聚体检测的核酸文库测序技术 Pending CN117062917A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163168762P 2021-03-31 2021-03-31
US63/168762 2021-03-31
PCT/EP2022/058598 WO2022207804A1 (en) 2021-03-31 2022-03-31 Nucleic acid library sequencing techniques with adapter dimer detection

Publications (1)

Publication Number Publication Date
CN117062917A true CN117062917A (zh) 2023-11-14

Family

ID=81308419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280024912.5A Pending CN117062917A (zh) 2021-03-31 2022-03-31 具有衔接子二聚体检测的核酸文库测序技术

Country Status (9)

Country Link
EP (1) EP4314338A1 (zh)
JP (1) JP2024512122A (zh)
KR (1) KR20230165273A (zh)
CN (1) CN117062917A (zh)
AU (1) AU2022249734A1 (zh)
BR (1) BR112023019154A2 (zh)
CA (1) CA3214206A1 (zh)
IL (1) IL307159A (zh)
WO (1) WO2022207804A1 (zh)

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
ATE545710T1 (de) 1997-04-01 2012-03-15 Illumina Cambridge Ltd Verfahren zur vervielfältigung von nukleinsäuren
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
GB2395954A (en) 2002-08-23 2004-06-09 Solexa Ltd Modified nucleotides
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP3673986A1 (en) 2004-01-07 2020-07-01 Illumina Cambridge Limited Improvements in or relating to molecular arrays
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
WO2006120433A1 (en) 2005-05-10 2006-11-16 Solexa Limited Improved polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
WO2008015396A2 (en) * 2006-07-31 2008-02-07 Solexa Limited Method of library preparation avoiding the formation of adaptor dimers
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
EP2677308B1 (en) 2006-12-14 2017-04-26 Life Technologies Corporation Method for fabricating large scale FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
CN111465705B (zh) * 2017-06-28 2024-01-26 新英格兰生物实验室公司 用于去除和/或检测具有错配的核苷酸的核酸的方法
US11851650B2 (en) * 2017-09-28 2023-12-26 Grail, Llc Enrichment of short nucleic acid fragments in sequencing library preparation
EP3947723A1 (en) * 2019-04-05 2022-02-09 Claret Bioscience, LLC Methods and compositions for analyzing nucleic acid

Also Published As

Publication number Publication date
JP2024512122A (ja) 2024-03-18
WO2022207804A1 (en) 2022-10-06
IL307159A (en) 2023-11-01
KR20230165273A (ko) 2023-12-05
BR112023019154A2 (pt) 2023-10-17
EP4314338A1 (en) 2024-02-07
CA3214206A1 (en) 2022-10-06
AU2022249734A1 (en) 2023-09-28

Similar Documents

Publication Publication Date Title
US11891600B2 (en) Nucleic acid indexing techniques
RU2752700C2 (ru) Способы и композиции для днк-профилирования
AU2021269294B2 (en) Validation methods and systems for sequence variant calls
KR102295723B1 (ko) 서열분석 기술의 표적외 포획 감소
EP3279339B1 (en) Method for determining gene state of fetus
US20180355418A1 (en) Chromosome number determination method
US20180355433A1 (en) Chromosome number determination method
CN117062917A (zh) 具有衔接子二聚体检测的核酸文库测序技术
Urmanov et al. ANALYSIS OF THE EVOLUTION OF TECHNOLOGIES FOR DETERMINING THE NUCLEOTIDE SEQUENCE OF A DNA MOLECULE
Smith et al. Dual indexed design of in-Drop single-cell RNA-seq libraries improves sequencing quality and throughput

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination