CN110872610A

CN110872610A - 构建靶序列的测序文库的方法

Info

Publication number: CN110872610A
Application number: CN201911207127.XA
Authority: CN
Inventors: 王寅; 李林蔚; 柳焱; 孙福明; 王柯; 张媛媛; 茹兰兰
Original assignee: Fujian Herui Gene Technology Co Ltd
Current assignee: Fujian Herui Gene Technology Co ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-10
Anticipated expiration: 2039-11-29
Also published as: CN112877403B; CN110872610B; CN112877403A

Abstract

本发明涉及高通量核酸测序，和更具体地，构建靶序列的测序文库的方法和相应的试剂盒。

Description

构建靶序列的测序文库的方法

技术领域

背景技术

通过高效富集靶序列来构建针对靶序列的测序文库，能够有效降低测序成本、提高测序深度。对于通常需要高深度测序的应用，如体细胞突变检测，靶序列富集性能(如捕获效率)是决定方法灵敏度和特异性的主要因素。

目前常用的靶序列测序方法主要为基于核酸探针的液相杂交捕获法。现有技术方法可以包括如下主要步骤：1)对片段化DNA进行末端修复，用接头(包含测序仪桥接锚定序列(如适用于Illumina平台的P5/P7序列)、索引(index)序列、独特分子识别码(UniqueMolecular Identifier，UMI)序列(或称分子条形码/二维码，Molecular Barcode，MBC)等)连接片段化DNA以引入UMI、索引序列和引物扩增区域，用对应于引物扩增区域的引物进行第一轮扩增，由此构建完整的全基因组文库；2)使用核酸探针对完整的全基因组文库进行杂交和捕获，然后用相同引物进行第二轮扩增，以富集待测靶序列，由此产生用于靶序列的高通量测序的测序文库。

或者，现有技术方法可以包括如下主要步骤：1)对片段化DNA进行末端修复，采用带有UMI的截短型接头连接片段化DNA以引入UMI，2)再用带有测序仪桥接锚定序列和索引序列的引物进行第一轮扩增以引入测序仪桥接锚定序列和索引序列，由此构建完整的全基因组文库；和3)使用核酸探针对完整的全基因组文库进行杂交和捕获，然后进行第二轮扩增，以富集待测靶序列，由此产生用于靶序列的高通量测序的测序文库。该过程例如如图1所示。

然而这样的方法存在以下缺陷：完整的全基因组测序文库的成员的两端的接头的总长度(例如，从图1所示P5/P7至UMI的长度)通常为约60-80个核苷酸，携带具有这样长的接头的文库成员在被捕获的过程中互相结合(或称“互搭”)而形成复合物，从而显著降低靶序列的比例，导致捕获效率降低。

为了解决常规靶序列测序方法中由于文库成员的接头互搭而导致捕获效率降低的问题，通常在捕获过程中的探针杂交阶段添加接头封闭剂，其是通过采用特殊设计和修饰的、可以与接头序列高效结合的DNA，来抑制接头互搭(例如如图2所示)。但是由于接头封闭剂需要特殊设计和修饰且需要较高浓度来实现封闭效果，因此产生了相当高的检测成本。

因此，本领域需要具有高捕获效率和低检测成本的新的文库构建方法来进行靶序列测序。

发明内容

本发明通过提供新的构建靶序列的测序文库的方法满足了上述需要。更具体地，本发明人发现，通过从核酸片段构建特定架构的中间文库，然后从中间文库捕获携带靶序列的中间文库成员，再用引物补全并扩增中间文库成员以构建可用于靶序列的高通量测序的测序文库，本发明的方法在未使用现有技术方法所需的接头封闭剂的情况下，成功地以与现有技术方法相比维持或改善的捕获效率构建了测序文库，从而消除了现有技术方法对接头封闭剂的需要，由此降低了检测成本。

在一个方面，本发明提供了一种构建靶序列的测序文库的方法，其包括：

(a)将接头添加至核酸片段的5’端和3’端以获得添加有接头的核酸片段；任选地，所述核酸片段是通过对核酸进行片段化而获得；

所述接头在5’-3’方向上依次包含公用序列、任选的单分子条码、和任选的间隔序列；

(b)

(i)所述添加有接头的核酸片段与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为16-40个核苷酸的核苷酸序列，所述添加有接头的核酸片段直接用于捕获而没有扩增；或者

(ii)使用第一扩增上游引物和第一扩增下游引物，扩增所述添加有接头的核酸片段，以获得第一扩增子，所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为16-40个核苷酸的核苷酸序列，所述第一扩增上游引物的部分或全部序列与所述公用序列或其互补序列的部分或全部序列足够互补以实现对所述添加有接头的核酸片段的扩增，所述第一扩增下游引物的部分或全部序列与所述公用序列或其互补序列的部分或全部序列足够互补以实现对所述添加有接头的核酸片段的扩增；

(c)从所述添加有接头的核酸片段或所述第一扩增子捕获靶核酸片段而不使用接头封闭剂；

(d)使用第二扩增上游引物和第二扩增下游引物，扩增捕获的靶核酸片段，以获得第二扩增子作为测序文库的成员，由此构建所述测序文库，

所述第二扩增上游引物在5’-3’方向上依次包含上游测序仪桥接锚定序列、任选的索引序列、和上游测序序列，

所述第二扩增下游引物在5’-3’方向上依次包含下游测序仪桥接锚定序列、任选的索引序列、和下游测序序列，

所述公用序列或其互补序列的序列和所述第一扩增上游引物的序列各自是所述上游测序序列的序列的部分或全部，

所述公用序列或其互补序列的序列和所述第一扩增下游引物的序列各自是所述下游测序序列的序列的部分或全部。

在另一个方面，本发明提供了一种用于构建靶序列的测序文库的试剂盒，其包括：

(a)接头，所述接头能够被添加至核酸片段的5’端和3’端以获得添加有接头的核酸片段；任选地，所述核酸片段是通过对核酸进行片段化而获得；

(b)

(ii)第一扩增上游引物和第一扩增下游引物，所述第一扩增上游引物和第一扩增下游引物能够用于扩增所述添加有接头的核酸片段，以获得第一扩增子，所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为16-40个核苷酸的核苷酸序列，所述第一扩增上游引物的部分或全部序列与所述公用序列或其互补序列的部分或全部序列足够互补以实现对所述添加有接头的核酸片段的扩增，所述第一扩增下游引物的部分或全部序列与所述公用序列或其互补序列的部分或全部序列足够互补以实现对所述添加有接头的核酸片段的扩增；

(c)捕获试剂，所述捕获试剂能够用于从所述添加有接头的核酸片段或所述第一扩增子捕获靶核酸片段而不使用接头封闭剂；

(d)第二扩增上游引物和第二扩增下游引物，所述第二扩增上游引物和第二扩增下游引物能够用于扩增捕获的靶核酸片段，以获得第二扩增子作为测序文库的成员，由此构建所述测序文库，

所述公用序列或其互补序列的序列和所述第一扩增下游引物的序列各自是所述下游测序序列的序列的部分或全部；

其中所述试剂盒不包括接头封闭剂。

在又一个方面，本发明提供了试剂用于制备用于构建靶序列的测序文库的试剂盒的用途，所述试剂包括：

(b)

其中所述试剂不包括接头封闭剂。

附图说明

图1.现有技术靶序列测序方法的示意图。

图2.现有技术在杂交阶段添加接头封闭剂来抑制接头互搭的示意图。

图3.本发明的接头不加封闭剂的文库构建，IDT商品化长接头对照加上封闭剂的文库构建，和IDT商品化长接头对照不加封闭剂的文库构建之间的比较。

图4.本发明的各种长度的接头不加封闭剂的文库构建，长接头对照不加封闭剂的文库构建，以及IDT商品化长接头对照加上封闭剂的文库构建(CK)之间的比较。

图5.在临床应用中进行验证，本发明的接头不加封闭的文库构建与IDT商品化接头加上封闭剂的文库构建之间的比较。

图6.本发明的相同长度、不同核苷酸组成的接头不加封闭剂的文库构建之间的比较。

具体实施方式

通过阅读以下详细描述和所附权利要求，这些和其它方面、特征和优点对于本领域普通技术人员将变得显而易见。为了避免疑问，本发明的一个方面的任何特征都可以用于本发明的任何其它方面。词语“包含”旨在表示“包括”，但不一定是“由...组成”或“由...构成”。换句话说，所列出的步骤或选项不需要是穷举性的。应注意，以下描述中给出的实施例旨在阐明本发明，而非旨在使本发明限于这些实施例本身。类似地，除非另有说明，否则所有百分比均为重量/重量百分比。除非是在工作实施例和比较实施例中，或者是在另外明确指出的情况下，否则本说明书中表示材料量或反应条件、材料物理性质和/或用途的所有数字都应理解为由词语“约”修饰。以“x至y”的形式表示的数值范围应理解为包括x和y。当针对特定特征以“x至y”的形式描述多个优选范围时，应理解还预期组合不同端点的所有范围。换句话说，在规定值的任何范围时，任何特定的上限值可以与任何特定的下限值相关联。最后，通过不定冠词“一个/种(a/an)”指代要素并不排除存在多于一个/种要素的可能性，除非上下文明确要求只有一个/种要素。因此，不定冠词“一个/种(a/an)”通常表示“至少一个/种”。

在公开关于本发明的特定方面(例如本发明的方法)的特征时，这样的公开也被认为适用于本发明的任何其他方面(例如本发明的试剂盒和用途)，并作出必要的修正。

(b)

更具体地，本发明提供了一种构建靶序列的测序文库的方法。该方法包括以下步骤。

首先，将接头添加至核酸片段的5’端和3’端以获得添加有接头的核酸片段。

在一些实施方式中，核酸片段可以是通过对核酸进行片段化而获得。可用于核酸的片段化的酶是本领域已知的。核酸可以是游离核酸，例如来自于体液，如血液、淋巴、关节滑液、脑脊液等等。核酸也可以是从来自组织的细胞中，例如通过裂解细胞，提取的基因组核酸，例如健康组织或疾病组织，如肿瘤。例如，核酸可以是基因组DNA，线粒体DNA，长片段PCR产物，长片段染色质免疫共沉淀DNA，RNA反转录产物cDNA，或循环肿瘤DNA(ctDNA)。可用于裂解细胞的酶是本领域已知的，并且可以是Proteinase K或其他蛋白酶或其混合物。核酸片段的长度可以在具有选自以下的端点的范围内：50、100、150、200、250、300、350、400、450、500、550、和600个核苷酸。例如，在一些实施方式中，核酸片段的长度可以在100-600个核苷酸的范围内。

如本文所用，“接头(adaptor)”是指用于添加至待测序的核酸片段，例如通过连接，如T-A连接，或者通过插入，如通过转座酶转座插入，以用于后续文库构建的单链或双链或部分双链(例如，Y型)的序列。通常，文库的制备需要将接头添加至核酸片段的末端，使得能够通过测序仪对所述核酸片段进行测序。在将接头添加至核酸片段时，接头通常被随机添加至核酸片段的5’端和/或3’端。

接头可以是具有功能性末端的单链核酸分子，其添加方式可以根据核酸片段的特征而不同，包括1)将接头连接至具有预先存在的突出端的核酸片段，例如将具有3’端的T突出端的接头通过T-A突出端互补而连接至具有3’端的A突出端的核酸片段；和2)将接头通过特殊功能修饰连接至平末端双链核酸片段或单链核酸片段。连接至核酸片段的单链接头可以通过互补来补齐其互补链，从而获得相应的双链接头。

接头也可以是双链核酸分子，例如两条单链核酸分子通过退火等方法形成的具有功能性末端的双链核酸分子，所述两条单链核酸分子可以彼此完全互补或部分互补。双链接头可以具有单链部分，例如由两条部分互补的单链核酸分子退火形成的Y型接头，其具有一个双链部分和两个单链部分。

接头也可以是在初始状态下为单链，其中在单链中引入特殊碱基如尿嘧啶，以形成封闭结构，如发夹，并在单链的两端均添加至双链核酸片段的一端后通过酶如糖基化酶降解所述特殊碱基以打开所述封闭结构，从而在最终状态下为双链的核酸分子。

在一些实施方式中，接头可以是单链接头或双链接头。在一些实施方式中，双链接头可以是双链Y型接头。

在一些实施方式中，接头的长度可以为10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个核苷酸。如本文所用，接头的“长度”在接头为单链时是指单链接头的长度，而在接头(最终)为双链时是指双链中较长链的长度。例如，在一些实施方式中，接头可以为双链接头，其中一条链的长度可以为16，20，24，31，34，37或40个核苷酸，且另一条链的长度可以为15，19，23，30，33，36或39个核苷酸，则认为接头的长度为16，20，24，31，34，37或40个核苷酸。

在一些实施方式中，接头的长度可以是在具有选自以下的端点的范围内：10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个核苷酸。例如，在一些实施方式中，接头的长度可以是在16-40个核苷酸，16-37个核苷酸，16-34个核苷酸，20-37个核苷酸，20-34个核苷酸，20-31个核苷酸，20-24个核苷酸，或24-31个核苷酸的范围内。例如，在一些实施方式中，接头的长度可以为16，20，24，31，34，37或40个核苷酸。在一些实施方式中，接头可以是双链接头，并且接头的一条链的长度与接头的另一条链的长度可以相差1、2、3、4或5个核苷酸，优选1个核苷酸。在一些实施方式中，接头可以是双链接头，并且接头的一条链的长度与接头的另一条链的长度可以相差接头的一条链的间隔序列，例如T的长度，例如1个核苷酸。例如，在一些实施方式中，接头可以为双链接头，其中一条链的长度可以为16，20，24，31，34，37或40个核苷酸，且另一条链的长度可以为15，19，23，30，33，36或39个核苷酸。

在一些实施方式中，接头可以在5’-3’方向上依次包含公用序列、任选的单分子条码、和任选的间隔序列；或者由它们组成。在一些优选实施方式中，接头可以不含索引序列和测序仪桥接锚定序列。

如本文所用，“公用序列”是指后续步骤中使用的引物与接头特异性结合进行扩增(例如PCR)的序列。

如本文所用，“单分子条码(single molecular barcode，SMB)”是指一段独特的核苷酸序列，其可以位于接头上以添加至待测序的核酸片段，从而独特地标记该核酸片段。一个核酸片段可以在添加有接头后，携带一个或两个或更多个可以相同或不同的单分子条码。

在一些实施方式中，可以存在来自单一样本的多种核酸片段或来自多个样本的多种核酸片段，相应产生多种添加有接头的核酸片段。这样的多种添加有接头的核酸片段可以混合在一起以进行后续程序。多种核酸片段之间可以由于添加有单分子条码而彼此区分。

在获得测序数据后，可以通过识别该单分子条码来独特地识别相应的核酸片段，或者独特地识别样本来源。例如，在处理来自两位患者的核酸样本时，用两组单分子条码来分别标记核酸样本，然后混合以构建一个测序文库，进行一次高通量测序，在获得测序数据后，通过识别这两组单分子条码来区分两个核酸样本。在一些实施方式中，单分子条码序列可以被按照碱基均匀性原则划分为单分子条码组，每组中的任一单分子条码均与任意另一组内的任一单分子条码不同。单分子条码在本领域中有时又称为独特分子识别码(UniqueMolecular Identifier，UMI)或分子条形码/二维码(Molecular Barcode，MBC)。

如本文所用，“间隔(spacer)序列”是指两个核苷酸功能区之间的序列。在一些实施方式中，间隔序列可以存在。在一些实施方式中，间隔序列可以不存在。间隔序列的长度可以为1、2、3、4、5、6、7或8个核苷酸。例如，间隔序列可以是T。在一些实施方式中，间隔序列是用于接头与核酸片段之间的连接，例如T-A连接。

如本文所用，“索引(index)序列”是本领域公知用于二代测序的功能序列，常用于依靠其序列来识别样本来源。例如，在处理来自两位患者的核酸样本时，用两种索引序列来分别标记核酸样本，然后混合以构建一个测序文库，进行一次高通量测序，在获得测序数据后，通过识别这两种索引序列来区分两个核酸样本。

如本文所用，“测序仪桥接锚定序列”是本领域公知用于二代测序的功能序列，其与测序仪的流动池的表面锚定用于桥式扩增。例如，对于常用的Illumina平台，测序仪桥接锚定序列通常指P5/P7序列，其具体序列是本领域公知的。本发明的方法可以应用于各种二代高通量测序平台，例如：Illumina公司的HiSeq/MiSeq/MiniSeq/MySeq/NovaSeq测序平台、Thermo Fisher公司的PGM/Proton测序平台，等等。

在一些实施方式中，单分子条码的长度可以足以实现核酸片段的独特识别。在一些实施方式中，单分子条码的长度可以是在具有选自以下的端点的范围内：2、3、4、5、6、7、8、9、10、11、12、13和14个核苷酸。例如，在一些实施方式中，单分子条码的长度可以是在2-8个核苷酸，2-7个核苷酸，6-8个核苷酸，或6-7个核苷酸的范围内，例如2，6，7，或8个核苷酸。

在一些实施方式中，公用序列的长度可以足以实现后续扩增。在一些实施方式中，公用序列的长度可以是在具有选自以下的端点的范围内：10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40个核苷酸。例如，在一些实施方式中，公用序列的长度可以是在13-31个核苷酸，13-28个核苷酸，13-25个核苷酸，13-23个核苷酸，13-17个核苷酸，或17-23个核苷酸的范围内，例如13，17，23，25，28，或31个核苷酸。

给定长度的接头中的单分子条码(如有)和公用序列各自的长度可以出于各种目的作出调整，条件是单分子条码(如有)和公用序列各自的长度足以实现其功能。例如，在给定长度为20个核苷酸的接头中，可以的是接头具有6个核苷酸长度的单分子条码、13个核苷酸长度的公用序列以及1个核苷酸长度的间隔序列(如T)；同样可以的是，为了测量较少量的待测核酸片段，接头具有4个核苷酸长度的单分子条码、15个核苷酸长度的公用序列以及1个核苷酸长度的间隔序列(如T)。

其次，在制备了添加有接头的核酸片段后，准备进行靶核酸片段的捕获。由于从其获得待测序的核酸片段的样品各不相同，准备工作也有所不同。

在一些情况下，样品中的核酸片段浓度较高，因此添加有接头的核酸片段可以直接用于捕获而不必扩增。在这样的情况下，添加有接头的核酸片段与核酸片段相比在核酸片段的5’端和3’端分别向外延伸长度各自独立地为16-40个核苷酸的核苷酸序列，所述添加有接头的核酸片段直接用于捕获而没有扩增。如果存在多种核酸片段，则相应存在多种添加有接头的核酸片段。一种或多种添加有接头的核酸片段充当中间文库或称预文库。从一个或多个样品分别制备的一个或多个预文库可以混合在一起进行捕获，也可以各自单独进行捕获。

在另一些情况下，样品中的核酸片段浓度较低，因此需要对添加有接头的核酸片段进行扩增以有效进行后续捕获。在这样的情况下，使用第一扩增上游引物和第一扩增下游引物，扩增添加有接头的核酸片段，以获得第一扩增子，所述第一扩增子与核酸片段相比在核酸片段的5’端和3’端分别向外延伸长度各自独立地为16-40个核苷酸的核苷酸序列。如果存在多种核酸片段，则相应存在多种第一扩增子。一种或多种第一扩增子充当中间文库或称预文库。从一个或多个样品分别制备的一个或多个预文库可以混合在一起进行捕获，也可以各自单独进行捕获。

在一些实施方式中，添加有接头的核酸片段或第一扩增子与核酸片段相比在核酸片段的5’端和3’端分别向外延伸的核苷酸片段的长度可以各自独立地为10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个核苷酸。在一些实施方式中，添加有接头的核酸片段或第一扩增子与核酸片段相比在核酸片段的5’端和3’端分别向外延伸的核苷酸片段的长度可以各自独立地是在具有选自以下的端点的范围内：10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个核苷酸。例如，在一些实施方式中，添加有接头的核酸片段或第一扩增子与核酸片段相比在核酸片段的5’端和3’端分别向外延伸的核苷酸片段的长度可以各自独立地是在16-40个核苷酸，16-37个核苷酸，16-34个核苷酸，20-37个核苷酸，20-34个核苷酸，20-31个核苷酸，20-24个核苷酸，或24-31个核苷酸的范围内。例如，在一些实施方式中，添加有接头的核酸片段或第一扩增子与核酸片段相比在核酸片段的5’端和3’端分别向外延伸的核苷酸片段的长度可以各自独立地为16，20，24，31，34，37或40个核苷酸。

添加有接头的核酸片段所含有的、来自于接头的公用序列或其互补序列的部分或全部可以构成用于第一扩增上游/下游引物对添加有接头的核酸片段的扩增的引物结合部分。

在一些实施方式中，第一扩增上游引物的部分或全部序列可以与公用序列或其互补序列的部分或全部序列足够互补以实现对添加有接头的核酸片段的扩增。在一些实施方式中，第一扩增下游引物的部分或全部序列可以与公用序列或其互补序列的部分或全部序列足够互补以实现对添加有接头的核酸片段的扩增。

在一些实施方式中，第一扩增上游引物和第一扩增下游引物的长度可以足以与公用序列或其互补序列结合并扩增添加有接头的核酸片段。在一些实施方式中，第一扩增上游引物和第一扩增下游引物的长度可以各自独立地在具有选自以下的端点的范围内：10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40个核苷酸。在一些实施方式中，第一扩增上游引物和第一扩增下游引物的长度可以各自独立地为14-28个核苷酸，14-26个核苷酸，16-24个核苷酸，或16-22个核苷酸，例如16个核苷酸或22个核苷酸。

在一些实施方式中，第一扩增上游引物可以不含索引序列和测序仪桥接锚定序列。在一些实施方式中，第一扩增下游引物可以不含索引序列和测序仪桥接锚定序列。

在一些实施方式中，第一扩增上游引物的5’端和/或3’端可以与接头的5’端/或3’端平齐或不平齐。在一些实施方式中，第一扩增下游引物的5’端和/或3’端可以与接头的5’端和/或3’端平齐或不平齐。“平齐”意味着两个序列在末端对齐，各自都没有突出的核苷酸。“不平齐”意味着两个序列在末端不对齐，两者之一具有突出的核苷酸。

在一些实施方式中，第一扩增上游引物的5’端和/或3’端可以与接头的5’端/或3’端相差1、2、3、4、5、6、7、8、9或10个核苷酸。在一些实施方式中，第一扩增下游引物的5’端和/或3’端可以与接头的5’端和/或3’端相差1、2、3、4、5、6、7、8、9或10个核苷酸。这意味着两个序列在末端不对齐，其中之一有突出的1、2、3、4、5、6、7、8、9或10个核苷酸。

扩增可以是PCR扩增。PCR扩增是本领域熟知的。可以采用一种或多种热稳定聚合酶进行PCR扩增。热稳定聚合酶可以选自：LA-Taq，rTaq，Phusion，Deep Vent，Deep Vent(exo-)，Gold 360，Platinum Taq，KAPA 2G Robust和Q5聚合酶。

第三，从添加有接头的核酸片段或第一扩增子捕获靶核酸片段而不使用接头封闭剂。

如前所述，现有技术方法通常是先构建完整的全基因组文库，即，所得文库成员已经包含了测序仪的高通量测序所需的功能区序列(如测序仪桥接锚定序列、索引序列、独特分子识别码等)，然后使用核酸探针对完整的全基因组文库进行杂交和捕获，以构建用于测序仪的高通量测序的捕获文库。而由于这样连接至待测序的核酸片段的接头片段的长度因为需要携带测序仪的高通量测序所需的功能区序列(如测序仪桥接锚定序列、索引序列、独特分子识别码等)而通常较长，导致了文库成员的互搭现象的出现，降低了捕获效率，因而需要采用较为昂贵的接头封闭剂来减少文库成员互搭，改善捕获效率。

相比之下，本发明的方法是从核酸片段构建中间文库，然后从中间文库捕获携带靶序列的中间文库成员(即，靶核酸片段)。中间文库的成员可以不含测序所需的功能区序列，例如可以不含测序仪桥接锚定序列和/或索引序列，因而可以具有较短的长度。因此，在对中间文库成员进行捕获时，很少或没有互搭现象出现，从而消除了现有技术对接头封闭剂的需要。

捕获靶核酸序列的技术是本领域熟知的，可以例如采用核酸探针进行。

最后，使用引物补全和扩增中间文库成员以构建测序文库用于在测序仪上进行高通量测序。使用第二扩增上游引物和第二扩增下游引物，扩增靶核酸片段，以获得第二扩增子作为测序文库的成员，由此构建测序文库。第二扩增子具有测序仪的高通量测序所需的功能区序列。

在一些实施方式中，第二扩增上游引物可以在5’-3’方向上依次包含上游测序仪桥接锚定序列、任选的索引序列、和上游测序序列；或者由它们组成。

在一些实施方式中，第二扩增下游引物可以在5’-3’方向上依次包含下游测序仪桥接锚定序列、任选的索引序列、和下游测序序列；或者由它们组成。

本发明的方法可以应用于各种二代高通量测序平台，例如：Illumina公司的HiSeq/MiSeq/MiniSeq/MySeq/NovaSeq测序平台、Thermo Fisher公司的PGM/Proton测序平台，等等。因此，可以采用适用于各种平台的测序仪桥接锚定序列。例如，可以采用适用于适用于Illumina平台的P5/P7序列。

在一些实施方式中，索引序列可以存在或不存在。这可以根据样本的类型和/或数量来决定。

在一些实施方式中，索引序列可以相同或不同。这可以根据样本的类型和/或数量来决定。

在一些实施方式中，可以针对不同的中间文库，采用含有不同索引序列的第二扩增上游引物和/或第二扩增下游引物进行扩增。

在一些实施方式中，公用序列或其互补序列的序列和第一扩增上游引物的序列可以各自是上游测序序列的序列的部分或全部。换句话说，公用序列或其互补序列的序列和第一扩增上游引物的序列可以各自与上游测序序列的部分或全部序列相同。

在一些实施方式中，公用序列或其互补序列的序列和第一扩增下游引物的序列可以各自是下游测序序列的序列的部分或全部。换句话说，公用序列或其互补序列的序列和第一扩增下游引物的序列可以各自与下游测序序列的部分或全部序列相同。

本发明的方法在未使用现有技术方法所需的接头封闭剂的情况下，成功地以与现有技术方法相比维持或改善的捕获效率构建了测序文库，从而消除了现有技术方法对接头封闭剂的需要，由此降低了检测成本。

如本文所用，术语“捕获效率”旨在涵盖对捕获的评价的多个方面，包括但不限于以下参数：

(a)中靶率：是指目标区域中靶向获得的碱基数占原始有效测序下机数据中碱基总数的比率。此值越高说明捕获靶序列的效率越高，可分析的有效数据越多。

(b)覆盖度：是指目标区域中靶向获得的测序深度大于0X的碱基数占预设目标区碱基数的比率。此值越高说明捕获目标区域中被覆盖的效率越高，可分析的有效数据越多。

(c)冗余度：是指镜像复制出的分子个数占总分子个数的比率，镜像复制指测序获得的数据中起点、终点和序列完全相同的分子的多次复制。单位质量的DNA中，中靶率越低，势必造成中靶部分中比例低的分子在测序数据中更容易减少或者缺失，即中靶部分的分子多样性降低，冗余度受到影响。

(d)稳定性：采用重复之间的标准差来衡量离散程度。本文中的稳定性采用正向误差线表示，误差线正向越短说明稳定性越好。

(b)

其中所述试剂盒不包括接头封闭剂。

(b)

其中所述试剂不包括接头封闭剂。

在根据本发明的方法的上下文中优选的方面也适用于在根据本发明的试剂盒和用途的上下文中的优选方面，加以必要的改变。

本发明提供了以下项目：

项目1.一种构建靶序列的测序文库的方法，其包括：

(b)

项目2.根据项目1所述的方法，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为16-37个核苷酸的核苷酸序列。

项目3.根据项目1所述的方法，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为16-34个核苷酸的核苷酸序列。

项目4.根据项目1所述的方法，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为20-37个核苷酸的核苷酸序列。

项目5.根据项目1所述的方法，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为20-34个核苷酸的核苷酸序列。

项目6.根据项目1所述的方法，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为20-31个核苷酸的核苷酸序列。

项目7.根据项目1所述的方法，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为24个核苷酸的核苷酸序列。

项目8.根据项目1-7中任一项所述的方法，其中所述单分子条码的长度为2-12个核苷酸。

项目9.根据项目1-7中任一项所述的方法，其中所述公用序列的长度为13-31个核苷酸。

项目10.根据项目1-7中任一项所述的方法，其中所述接头是单链接头或双链接头；任选地，所述双链接头是双链Y型接头。

项目11.根据项目1-7中任一项所述的方法，其中所述第一扩增上游引物的5’端和/或3’端与所述接头的5’端/或3’端平齐或不平齐；和/或

其中所述第一扩增下游引物的5’端和/或3’端与所述接头的5’端和/或3’端平齐或不平齐。

项目12.根据项目1-7中任一项所述的方法，其中：

(1)所述核酸片段来自于单一样本；或者

(2)所述核酸片段来自于多个样本，且所述接头包含所述单分子条码。

项目13.根据项目1-7中任一项所述的方法，其中所述接头不含索引序列和测序仪桥接锚定序列。

项目14.根据项目1-7中任一项所述的方法，其中所述第一扩增上游引物和所述第一扩增下游引物各自独立地不含索引序列和测序仪桥接锚定序列。

项目15.一种用于构建靶序列的测序文库的试剂盒，其包括：

(b)

其中所述试剂盒不包括接头封闭剂。

项目16.根据项目15所述的试剂盒，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为16-37个核苷酸的核苷酸序列。

项目17.根据项目15所述的试剂盒，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为16-34个核苷酸的核苷酸序列。

项目18.根据项目15所述的试剂盒，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为20-37个核苷酸的核苷酸序列。

项目19.根据项目15所述的试剂盒，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为20-34个核苷酸的核苷酸序列。

项目20.根据项目15所述的试剂盒，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为20-31个核苷酸的核苷酸序列。

项目21.根据项目15所述的试剂盒，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为24个核苷酸的核苷酸序列。

项目22.根据项目15-21中任一项所述的试剂盒，其中所述单分子条码的长度为2-12个核苷酸。

项目23.根据项目15-21中任一项所述的试剂盒，其中所述公用序列的长度为13-31个核苷酸。

项目24.根据项目15-21中任一项所述的试剂盒，其中所述接头是单链接头或双链接头；任选地，所述双链接头是双链Y型接头。

项目25.根据项目15-21中任一项所述的试剂盒，其中所述第一扩增上游引物的5’端和/或3’端与所述接头的5’端/或3’端平齐或不平齐；和/或

项目26.根据项目15-21中任一项所述的试剂盒，其中：

(1)所述核酸片段来自于单一样本；或者

项目27.根据项目15-21中任一项所述的试剂盒，其中所述接头不含索引序列和测序仪桥接锚定序列。

项目28.根据项目15-21中任一项所述的试剂盒，其中所述第一扩增上游引物和所述第一扩增下游引物各自独立地不含索引序列和测序仪桥接锚定序列。

项目29.试剂用于制备用于构建靶序列的测序文库的试剂盒的用途，所述试剂包括：

(b)

其中所述试剂不包括接头封闭剂。

项目30.根据项目29所述的用途，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为16-37个核苷酸的核苷酸序列。

项目31.根据项目29所述的用途，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为16-34个核苷酸的核苷酸序列。

项目32.根据项目29所述的用途，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为20-37个核苷酸的核苷酸序列。

项目33.根据项目29所述的用途，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为20-34个核苷酸的核苷酸序列。

项目34.根据项目29所述的用途，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为20-31个核苷酸的核苷酸序列。

项目35.根据项目29所述的用途，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为24个核苷酸的核苷酸序列。

项目36.根据项目29-35中任一项所述的用途，其中所述单分子条码的长度为2-12个核苷酸。

项目37.根据项目29-35中任一项所述的用途，其中所述公用序列的长度为13-31个核苷酸。

项目38.根据项目29-35中任一项所述的用途，其中所述接头是单链接头或双链接头；任选地，所述双链接头是双链Y型接头。

项目39.根据项目29-35中任一项所述的用途，其中所述第一扩增上游引物的5’端和/或3’端与所述接头的5’端/或3’端平齐或不平齐；和/或

项目40.根据项目29-35中任一项所述的用途，其中：

(1)所述核酸片段来自于单一样本；或者

项目41.根据项目29-35中任一项所述的用途，其中所述接头不含索引序列和测序仪桥接锚定序列。

项目42.根据项目29-35中任一项所述的用途，其中所述第一扩增上游引物和所述第一扩增下游引物各自独立地不含索引序列和测序仪桥接锚定序列。

现将通过以下非限制性实施例说明本发明。除非另有说明，否则实验数据均为一式两份的平行试验的平均值。

实施例

方法

(1)DNA片段化和末端修复

a)按照表1在PCR仪(型号T100，生产厂家Bio-Rad)上设置修复程序，热盖温度为75℃，反应体积为25μL，运行并暂停。

b)使用Qiagen的5X WGS Fragmentation Mix(货号Y9410L)，取样本DNA 100ng置于PCR管中，根据样本DNA的体积向其中加入buffer EB(Qiagen,货号19086)至17.5μL，然后按照表2所示例的依次加入各组分。轻弹混匀，离心5秒钟，轻弹PCR管去除气泡，再离心5秒钟，放入暂停的PCR仪中，运行表1程序，以制备末端修复的样本DNA片段。

表1

反应温度	反应时间
		32℃	22min(100ng)
65℃	30min
		4℃	暂停

表2

组分	加样量
		10X Fragmentation Buffer	2.5μl
5X WGS Fragmentation Mix	5.0μl
		样本DNA	50ng
Buffer EB	补齐至25μL
		反应终体积	25μL

(2)连接接头

a)在PCR仪上按照表3设置连接程序，反应体积为50μL，运行并暂停。

表3

反应温度	反应时间
		20℃	15min
4℃	暂停

b)使用Qiagen的WGS Ligase(货号L6030-W-L)按照表4所示例的依次加入各组分，充分混匀，离心5秒钟，轻弹去除气泡，再离心5秒钟，放入暂停的PCR仪中，运行表3程序，以制备连接有接头的DNA片段。

表4

组分	加样量
		末端修复的样本DNA片段	25μL
Buffer EB	9μl
		5x WGS Ligase buffer	10μL
接头(10μM)	3μL
		WGS Ligase	5μL
反应终体积	50μL

c)注意：对每份样品使用带有不同单分子条码的接头，避免同一批次操作重复使用同种接头。

(3)连接产物纯化

a)使用纯化磁珠进行纯化。纯化前，将磁珠从4℃冰箱取出，颠倒混匀，室温平衡30分钟。取50μL连接产物与100μL(2*)磁珠混合于1.5ml EP管中，手指轻弹混匀或者振荡混匀，短暂离心3秒，室温放置5-10分钟。

b)将EP管放置于磁力架上，吸附5分钟，用移液器吸弃上清，注意不要吸取到磁珠。

c)在磁力架上，沿远离磁珠的一侧向EP管中缓慢加入200μL清洗液，轻轻晃动磁力架，避免磁珠散落，用移液器吸弃上清，注意不要吸取到磁珠。

d)重复c)步骤。

e)从磁力架上取下EP管，短暂离心3秒，再次放到磁力架上，用10μL的移液器吸弃全部上清，打开管盖，室温放置5分钟。

f)从磁力架上取下EP管，加入25μL DNase/RNase-Free去离子水(天根，货号RT121)，用手轻弹混匀洗脱液与磁珠，室温放置10分钟。

g)将EP管放置于磁力架上，吸附1分钟，吸取23μL上清于新PCR管中,此上清即为连接后纯化产物。

(4)第一轮扩增

a)将连接后纯化产物放回冰上；在PCR仪上按表5设置PCR程序，热盖温度为105℃，反应体积为50μL，运行并暂停：

表5

b)使用来自Roche-KAPA的KAPA热启动HiFi高保真酶ReadyMix(货号KK2602)，按照表6所示例的依次加入各组分，充分混匀，离心5秒钟，轻弹去除气泡，再离心5秒钟，放入暂停的PCR仪中，运行表5程序，以制备第一轮扩增产物(即，第一扩增子)。

表6

组分	加样量
		连接有接头的DNA片段	23μL
第一轮扩增引物(μM)	2μL
		KAPA HiFi HotStart ReadyMix	25μL
总体积	50μL

(5)第一轮扩增产物的纯化和浓度测定

a)使用纯化磁珠进行纯化。纯化前，将磁珠从4℃冰箱取出，颠倒混匀，室温平衡30分钟。取50μL第一轮扩增产物(第一扩增子)与75μL(1.5*)磁珠混合于1.5ml EP管中，手指轻弹混匀或者振荡混匀，短暂离心3秒，室温放置5-10分钟。

d)重复c)步骤。

f)从磁力架上取下EP管，加入35μL DNase/RNase-Free去离子水(天根，货号RT121)，用手轻弹混匀洗脱液与磁珠，室温放置10分钟。

g)将EP管放置于磁力架上，吸附1分钟，吸取33μL上清于新EP管中,此上清即为预文库纯化产物。

h)取1μl上清，使用Qubit dsDNA HS Assay Kit(Invitrogen,货号Q32851)和Qubit^TM4 Fluorometer(Invitrogen,货号Q33226)浓度测定仪，测定上清中的第一扩增子浓度。

i)采用片段质检设备进行片段质检，如安捷伦4200TapeStation FragmentAnalyzer，对第一扩增子进行质检。第一扩增子的长度为样本片段的长度+两端接头的长度。第一扩增子可立即用于下一步实验或置于-20±5℃条件下保存。

(6)含生物素探针的杂交

a)在PCR仪上分别设置表7程序，运行并暂停：

表7

b)根据每个样本的第一扩增子浓度，计算每个样本取500ng的体积，将第一轮扩增产物加入新的PCR管A中，一个PCR管中可放置1-8个带不同分子条码的样本，用马克笔做好标记，使用来自IDT的xGen Hybridization and Wash Kit，Box1,Box2(货号1080584)，按照表8所示例的依次加入各组分，离心5秒钟，轻弹去除气泡，再离心5秒钟，将PCR管打开管盖放入真空浓缩仪中，运行45℃浓缩程序，直至没有液体的干燥状态。

表8

c)在文库浓缩期间，将杂交液(来源于IDT的xGen Hybridization and Wash Kit，Box1,Box2(货号1080584))和按需设计的含生物素探针在冰上解冻，按照表9所示例的依次在PCR管B中加入各组分，轻度涡旋混匀，离心5秒钟，轻弹去除气泡，再离心5秒钟。

表9

d)将17μl PCR管B中的混合液转移至浓缩成干燥状态的PCR管A中(注意加入时，移液器吸头不要触碰管底，可在管壁1/2处加入)，室温静置5min，轻度涡旋或手指轻弹混匀，离心5秒钟，去除气泡，再离心5秒钟，放入PCR仪中运行表7设置的杂交程序，进行过夜杂交反应，以使含生物素探针与靶标分子杂交。

(7)用链酶亲和素磁珠捕获与含生物素探针杂交的靶标分子

a)配制buffer，杂交反应结束前1h，将来源于IDT的xGen Hybridization andWash Kit，Box1,Box2(货号1080584)中的捕获磁珠Dynabeads Streptavidin M270取出室温平衡30min，其他组分室温解冻，按表10将洗杂液稀释成1x工作液(以一个样品为例，样本较多时可根据实际损耗情况配制mix)，将配制好的1x Wash Buffer I取100μl分装于0.2mlPCR管中，1x Stringent Wash Buffer取300ul分装于3个0.2ml PCR管中(每管100ul)，分装好的1x Wash Buffer I，1x Stringent Wash Buffer随后置于65℃平衡15min左右，剩余的Wash Buffer I，Wash Buffer II和Wash Buffer III置于室温待用。

表10

b)在PCR仪上设置PCR程序，热盖温度为70℃，反应体积为40μL，运行并暂停：

表11

反应温度	反应时间
		65℃	45min
65℃	暂停

c)将经平衡的Dynabeads StreptavidinM270涡旋15秒后取每样品50μl加入PCR管中；每PCR管中加入每样品100μl的1x Bead Wash Buffer(来源于IDT的xGenHybridization and Wash Kit，Box1,Box2(货号1080584))涡旋混匀，并置于磁力架上1min至溶液澄清，移除上清,此操作共进行3次，最后一次弃上清后离心5秒，并置于磁力架上1min，移除残余液体；立即加入每样品17μl的磁珠重悬buffer(来源于IDT的xGenHybridization and Wash Kit，Box1,Box2(货号1080584))(按表9配制磁珠重悬buffer，其中组分中含生物素探针替换为DNase/RNase-Free去离子水(天根，货号RT121))，离心5秒钟，轻度涡旋混匀，去除气泡，再离心5秒钟，放入PCR仪中运行表10程序，以使链酶亲和素磁珠与与含生物素探针杂交的靶标分子结合，之后迅速进行下一步反应。

d)打开PCR仪盖，打开PCR管盖，但不停止运行程序，将65℃预热重悬磁珠混合液吹吸5次后，迅速加入PCR管中，吹吸混匀，快速短暂离心后，运行表10中的程序，每隔15min，用20μl低吸附枪头吹吸10次或轻微涡旋保证磁珠成悬浮状态，每次混匀后短暂离心去除气泡。

e)65℃洗杂，在45min孵育后的PCR管中加入65℃预热的1x Wash Buffer I(来源于IDT的xGen Hybridization and Wash Kit，Box1,Box2(货号1080584))150μl，用70μl低吸附枪头吹吸10次后置于磁力架上1min至溶液澄清，移除上清；快速加入150μl 65℃预热的1x Stringent Wash Buffer(来源于IDT的xGen Hybridization and Wash Kit，Box1,Box2(货号1080584))，用50μl低吸附枪头吹吸10次，置于65℃恒温金属浴(厂家金银杏生物科技(北京)有限公司，型号H203-100C)上，65℃孵育5min，置于磁力架上1min至溶液澄清，移除上清，重复步骤一次；

f)室温洗杂，将PCR管从磁力架上取下，加入150μl室温放置的1x Wash Buffer I(来源于IDT的xGen Hybridization and Wash Kit，Box1,Box2(货号1080584))，保持涡旋30s，停止30s，再次涡旋30s，离心后置于磁力架上1min至溶液澄清，移除上清；将PCR管从磁力架上取下，加入150μl室温放置的1x Wash Buffer II，保持涡旋30s，停止30s，再次涡旋30s，离心后置于磁力架上1min至溶液澄清，移除上清；将PCR管从磁力架上取下，加入150μl室温放置的1x Wash Buffer III(来源于IDT的xGen Hybridization and Wash Kit，Box1,Box2(货号1080584))，保持涡旋30s，停止30s，再次涡旋30s，离心后置于磁力架上1min至溶液澄清，移除上清，并再次离心后置于磁力架上以彻底移除残留的洗杂液；将PCR管从磁力架上取下，加入23μl DNase/RNase-Free去离子水，吹吸混匀离心后待用。此时PCR管中存在磁珠和悬浮液两者，注意不要上磁力架移除磁珠，而是带着磁珠进行下一步反应。

(8)捕获后的第二轮扩增及纯化

a)在PCR仪上设置扩增程序，热盖温度为105℃，反应体积为55μL，运行并暂停，循环数可根据不同含生物素探针调整：

表12

b)按表12所示例的依次加入各组分后充分混匀，离心5秒钟，轻弹去除气泡，再离心5秒钟，放入暂停的PCR仪中，运行表11程序以制备第二轮扩增产物。

表13

c)扩增产物纯化：使用AMPure XP纯化磁珠对第二轮扩增产物进行纯化。纯化前，将磁珠从4℃冰箱取出，颠倒混匀，室温平衡30分钟。将50μL扩增产物与75μL磁珠混合于PCR管中，手指轻弹混匀或者振荡混匀，短暂离心3秒，室温放置8分钟。将样品放置于磁力架上，吸附5分钟，用移液器吸弃上清，注意不要吸取到磁珠。在磁力架上，沿远离磁珠的一侧缓慢加入150μL 80％无水乙醇，轻轻晃动磁力架，避免磁珠散落，用移液器吸弃上清，注意不要吸取到磁珠。重复用150μL 80％无水乙醇清洗一次。从磁力架上取下PCR板，短暂离心3秒，再次放到磁力架上，用10μL的移液器吸弃全部上清，打开管盖，室温放置5分钟。从磁力架上取下PCR板，加入40μL Buffer EB(Qiagen货号19086)，充分涡旋1min，轻微离心后室温放置8分钟。将PCR板放置于磁力架上，吸附1分钟，吸取58μL上清于新的1.5ml EP管中，获得测序文库。

(9)测序文库的质控及测序，测序文库经过实时荧光定量PCR检测，样品≥5nM，方可进行下一步的上机测序。如不能立即进行下一步实验，可将测序文库置于-20℃±5℃条件下保存，一个月内安排上机测序。测序文库的片段长度等于样本片段的长度+两端全长测序序列的长度。在测序平台上对测序文库进行测序。

(10)分析测序数据，如靶序列在一定测序深度下的覆盖度，中靶率等。

实施例1：本发明的接头不加封闭剂的文库构建(C)，IDT商品化长接头对照加上封闭剂的文库构建(K)，IDT商品化接头对照加上封闭剂的文库构建(M)，IDT商品化长接头对照不加封闭剂的文库构建(J1)，和IDT商品化接头对照不加封闭剂的文库构建(J2)之间的比较

样本：稀释至一定突变比例的商品化肿瘤突变标准品(菁良基因，肿瘤SNV 5％gDNA标准品，货号GWOGTM1003)。

靶标：400K，包含肿瘤相关86个基因(IDT合成120nt 5端修饰生物素的探针池)。

接头：(1)本发明的接头(31个核苷酸)(实施例C，序列参见序列表)；(2)从IDT购买的商品化长接头对照(xGen Dual index with UMI Adapter)(对于比较例K和J1相同，IDT未公开序列)；和(3)从IDT购买的商品化接头对照(Duplex Seq Adapter(对于比较例M和J2相同，IDT未公开序列)。

第一轮扩增：对于本发明的接头，制备中间文库(或称预文库)。对于从IDT购买的商品化长接头对照，所构建的已经是完整的全基因组文库。相应引物序列参见序列表。

捕获：实施例C和比较例J1和J2中不加入封闭剂。比较例K和M中加入封闭剂，来源于IDT的xGen Universal Blockers-TS Mix，货号1075475。

第二轮扩增：制备测序文库(或称终文库)，相应引物序列参见序列表。注意对于IDT商品化接头比较例(M和J2)，第二轮扩增与第一轮扩增一样是在捕获之前进行，以在捕获之前获得完整的全基因组文库。

结果：

按照前文方法部分所述进行测序，结果如图3所示。使用不加封闭剂的本发明方法(C，82％)，与使用IDT商品化长接头对照且加入封闭剂的对比方法(K，75％)相比，中靶率提升7％；与使用IDT商品化长接头对照且不加封闭剂的对比方法(J1，30％)相比，中靶率提升52％；与使用IDT商品化接头对照且加入封闭剂的对比方法(M，74％)相比，中靶率提升8％；与使用IDT商品化接头对照且不加封闭剂的对比方法(J2，30％)相比，中靶率提升52％。可见，根据本发明的文库构建方法消除了现有技术方法对封闭剂的需要，由此降低了检测成本，而且甚至还提高了中靶率。

实施例2：本发明的各种长度的接头不加封闭剂的文库构建，长接头对照不加封闭剂的文库构建，以及IDT商品化长接头对照加上封闭剂的文库构建(CK)之间的比较。

样本：与实施例1相同。

靶标：与实施例1相同。

接头：(1)本发明的各种长度的接头(16个核苷酸，20个核苷酸，24个核苷酸，31个核苷酸，34个核苷酸，37个核苷酸，40个核苷酸)；(2)本发明人根据Illumina平台自行设计的长接头对照(62个核苷酸)；和(3)从IDT购买的商品化长接头对照(与实施例1相同)(CK)。接头序列参见序列表。

第一轮扩增：对于本发明的各种长度的接头，制备中间文库(或称预文库)。对于自行设计的长接头(62个核苷酸)和从IDT购买的商品化长接头两者，所构建的已经是完整的全基因组文库。相应引物序列参见序列表。

捕获：采用本发明的各种长度的接头的实施例中不加入接头封闭剂；采用62个核苷酸长接头对照的比较例中不加入接头封闭剂；采用从IDT购买的商品化接头对照的比较例(CK)中加入接头封闭剂。

第二轮扩增：制备测序文库(或称终文库)，相应引物序列参见序列表。

结果：

按照前文方法部分所述进行测序，结果如图4所示。本发明的接头在16-40个核苷酸长度范围(65.5-84.9％)内在不使用接头封闭剂的情况下实现了与使用IDT商品化长接头和接头封闭剂的比较例(CK，74.6％)可比较的中靶率，甚至在20-31个核苷酸长度范围(81.4-84.9％)内实现了更高的中靶率，这与实施例1一致。而当接头长度达到62个核苷酸时，如果不加接头封闭剂，则中靶率很低(48.9％)。这些结果表明根据本发明的文库构建方法的中靶率是由捕获对象(如直接用于捕获的添加有接头的核酸片段或者第一扩增子)与核酸片段相比在核酸片段的5’端和3’端向外延伸的长度决定。本发明的各种长度的接头还验证了各种长度的单分子条码的成功使用。

实施例3：在临床应用中进行验证，本发明的接头不加封闭的文库构建与IDT商品化接头加上封闭剂的文库构建之间的比较。

样本：来源于共建实验室的临床肿瘤新鲜组织样本(12例)

靶标：39M全外显子组，来源于IDT xGen Exome Research Panel v1.0，货号1056115。

接头：(1)本发明的接头(31个核苷酸)；和(2)从IDT购买的商品化长接头对照(与实施例1相同)。接头序列参见序列表。

捕获：采用本发明的接头的实施例中不加入接头封闭剂；采用从IDT购买的商品化接头对照的比较例中加入接头封闭剂。

结果：

按照前文方法部分所述进行测序，结果如图5所示。在应用于临床样本时，本发明的文库构建方法与现有技术相比，消除了对接头封闭剂的需要，而且中靶率提升3.54％，冗余度下降2.88％，覆盖度基本相同，且重复12次的稳定性较现有技术更好。

实施例4：本发明的相同长度、不同核苷酸组成的接头不加封闭剂的文库构建之间的比较。

样本：与实施例1相同。

靶标：与实施例1相同。

接头：本发明的两种相同长度(31个核苷酸)、不同核苷酸组成的接头C(与实施例1相同)和D。接头序列参见序列表。

第一轮扩增：制备中间文库(或称预文库)。相应引物序列参见序列表。

捕获：不加入接头封闭剂。

结果：

按照前文方法部分所述进行测序，结果如图6所示。本发明的相同长度、不同核苷酸组成的接头获得了非常相似的中靶率(82.3％vs.82.7％)，表明接头核苷酸组成基本上不影响中靶率。

实施例5：检测方法的经济学分析

采用实施例3中的临床样本的建库成本进行检测方法的经济学分析。12例样本按照1个捕获文库杂交4个样本的方式进行杂交，成本下降14.72％。12例样本按照1个捕获文库杂交1个样本的方式进行杂交，成本下降15.96％。

表14：现有技术(IDT方法)建库主要试剂

^a：新加坡元；^b：美元。

表15：本发明建库主要试剂

^a：新加坡元；^b：美元。

表16：成本比较

	1个捕获文库杂交4个样本	成本下降
			现有技术(IDT方法)	7790.23
本发明	6687.10	14.16％
				1个捕获文库杂交1个样本	成本下降
现有技术(IDT方法)	26296.49
			本发明	21739.98	17.33％

前述实施例和实施方式的描述应当视为是说明，而非限制由权利要求限定的本发明。如将容易理解的，在不脱离如权利要求中所阐述的本发明的情况下，可以利用上述特征的许多变化和组合。这样的变化不被视为脱离本发明的精神和范围，并且所有这样的变化旨在包括在所附权利要求的范围内。

序列表

N代表单分子条码序列，n代表索引序列。

Claims

1.一种构建靶序列的测序文库的方法，其包括：

(b)

(i)所述添加有接头的核酸片段与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为20-31个核苷酸的核苷酸序列，所述添加有接头的核酸片段直接用于捕获而没有扩增；或者

(ii)使用第一扩增上游引物和第一扩增下游引物，扩增所述添加有接头的核酸片段，以获得第一扩增子，所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为20-31个核苷酸的核苷酸序列，所述第一扩增上游引物的部分或全部序列与所述公用序列或其互补序列的部分或全部序列足够互补以实现对所述添加有接头的核酸片段的扩增，所述第一扩增下游引物的部分或全部序列与所述公用序列或其互补序列的部分或全部序列足够互补以实现对所述添加有接头的核酸片段的扩增；

2.根据权利要求1所述的方法，其中所述添加有接头的核酸片段或所述第一扩增子与所述核酸片段相比在所述核酸片段的5’端和3’端分别向外延伸长度各自独立地为24个核苷酸的核苷酸序列。

3.根据权利要求1或2所述的方法，其中所述单分子条码的长度为2-12个核苷酸。

4.根据权利要求1或2所述的方法，其中所述公用序列的长度为13-31个核苷酸。

5.根据权利要求1或2所述的方法，其中所述接头是单链接头或双链接头；任选地，所述双链接头是双链Y型接头。

6.根据权利要求1或2所述的方法，其中所述第一扩增上游引物的5’端和/或3’端与所述接头的5’端/或3’端平齐或不平齐；和/或

7.根据权利要求1或2所述的方法，其中：

(1)所述核酸片段来自于单一样本；或者

8.根据权利要求1或2所述的方法，其中所述接头不含索引序列和测序仪桥接锚定序列。

9.根据权利要求1或2所述的方法，其中所述第一扩增上游引物和所述第一扩增下游引物各自独立地不含索引序列和测序仪桥接锚定序列。