CN108300716A

CN108300716A - 接头元件、其应用和基于不对称多重pcr进行靶向测序文库构建的方法

Info

Publication number: CN108300716A
Application number: CN201810013177.3A
Authority: CN
Inventors: 吴启家; 王洋; 周宇
Original assignee: Wuhan Kang Test Technology Co Ltd
Current assignee: Wuhan Kang Test Technology Co Ltd
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2018-07-20
Anticipated expiration: 2038-01-05
Also published as: CN108300716B

Abstract

本发明公开了一种接头元件、其应用和基于不对称多重PCR进行靶向测序文库构建的方法。其中，该接头元件由第一核苷酸链S和第二核苷酸链AS退火形成的DNA双链，包括第一通用序列区、链分子标签区以及随机分子标签序列区，其中第一通用序列区和随机分子标签序列区为Watson‑Crick碱基配对区，链分子标签区为碱基不配对或非Watson‑Crick配对区，其中第一核苷酸链S 3’末端悬T，第二核苷酸链AS 5’末端磷酸化修饰。应用本发明的接头元件(又称为接头)，可以完全去除扩增和测序错误，从而对样品中的低频核酸变异(包括取代、插入、缺失、融合和拷贝数变异)进行高灵敏的检测。

Description

接头元件、其应用和基于不对称多重PCR进行靶向测序文库构建的方法

技术领域

本发明涉及生物技术领域，具体而言，涉及一种接头元件、其应用和基于不对称多重PCR进行靶向测序文库构建的方法。

背景技术

基因突变是癌症的主要特征之一，目前大部分的小分子靶向药物都是针对特定的基因突变设计的。因此，对肿瘤样本的突变情况进行检测，是目前疾病分型、治疗方案制定的重要手段。为制定更准确的治疗方案，需要更全面的获取肿瘤DNA的突变情况，高通量测序成为目前肿瘤组织DNA突变检测的主要手段。

用于高通量测序检测的高保真的DNA聚合酶的错误率约为1/10⁶，而illumina测序平台的测序错误率约为1/1000，由于无法区分PCR/测序错误引入的假阳性突变和真实突变，低于5％的突变无法进行检测。因此在不进行纠错的情况下，二代测序可以对含量在5％以上的突变进行检测。达到这个分辨率通常需要数千倍的覆盖度。因此成本上无法对全基因组进行检测，只能对特定的区域/位点进行靶向测序检测。

液态活检相对于组织活检具有取样方便、克服癌症组织异质性等优点。但肿瘤DNA在血液中的含量远远低于组织中的含量，通常低于1％，甚至千分之一及以下的水平。为达到1/1000的检测灵敏度，通常需要数万倍的覆盖度，因此PCR/测序错误就变得更为显著。因此在不对PCR/测序错误进行过滤的情况下，高通量测序手段无法直接用于液态活检，循环肿瘤DNA(ctDNA)的检测。

近年来，通过数字标签(UID)对测序结果进行纠错，大大降低了测序的错误率，使得检测灵敏度达到1/1000甚至以下的水平，从而使得在血液中对肿瘤DNA的检测成为可能，大大加速了突变检测在临床上的应用。

目前用于外周血游离DNA检测的靶向测序技术，主要有两大技术类型，多重PCR(如safeseqS、anchored mμltiplex PCR等)和液相捕获(如CAPP-seq和duplex sequencing)。液相捕获靶向测序技术使用数字标签+双链标记的纠错方法，可以完全过滤由DNA损伤、PCR和测序过程中引入的所有类型的错误，可以避免所有的假阳性，因而是最为准确的靶向测序方法。而多重PCR靶向测序技术，目前只使用数字标签进行纠错，只能过滤掉PCR后期引入的错误和测序错误，对于由于DNA损伤和PCR早期引入的错误无法识别，因而准确性不如液相捕获的靶向测序技术，且检测结果有存在假阳性的可能。

但从临床适用性上来讲，基于多重PCR的靶向测序技术又有基于液相捕获的靶向测序技术无法企及的优点，如流程简单易用、速度快、灵活性高、成本低。因此，如果能提高基于多重PCR的靶向测序技术的准确性，完全过滤掉假阳性，将极大促进液态活检肿瘤DNA突变检测在临床上的应用。因此，发展出一种高保真、无假阳性，同时又具备多重PCR的临床易用性的方法非常有必要。

发明内容

本发明旨在提供一种接头元件、其应用和基于不对称多重PCR进行靶向测序文库构建的方法，以降低基于多重PCR的靶向测序的假阳性。

为了实现上述目的，根据本发明的一个方面，提供了一种接头元件。该接头元件由第一核苷酸链S和第二核苷酸链AS退火形成的DNA双链，包括第一通用序列区、链分子标签区以及随机分子标签序列区，其中第一通用序列区和随机分子标签序列区为Watson-Crick碱基配对区，链分子标签区为碱基不配对或非Watson-Crick配对区，其中第一核苷酸链S3’末端悬T，第二核苷酸链AS 5’末端磷酸化修饰。

进一步地，接头元件还包括第二通用序列区，以第一核苷酸链S 5’到3’端为方向参照，接头元件包括依次连接的第一通用序列区、链分子标签区、第二通用序列区以及随机分子标签序列区。

进一步地，链分子标签区包括第一核苷酸链S的正链分子标签和第二核苷酸链AS的负链分子标签，正链分子标签和负链分子标签核苷酸个数相同或不同。

进一步地，正链分子标签和负链分子标签长度分别为2～10个碱基，为随机或固定碱基；当为随机碱基时。

进一步地，随机分子标签序列区为长度为7～10bp的随机碱基对。

进一步地，第一通用序列区为和illumina/Life文库PCR引物的识别序列。

进一步地，第一核苷酸链S的序列为SEQ ID NO：1：5’-GTTCAGAGTTCTACAGTCCGACGATCMMMMGGTGANNNNNNNT-3’，其中，GTTCAGAGTTCTACAGTCCGACGATC为illumina PCR引物识别的第一通用序列区；MMMM为正链分子标签，GGTGA为第二通用序列区，NNNNNNN为随机分子标签序列区；

第二核苷酸链AS的序列为SEQ ID NO：2：5’-PO₄-NNNNNNNTCACCYYYYGATCGTCGGACTGTAGAACTCTGAAC-NH₂-3’，其中，PO₄表示磷酸化修饰，NH₂表示氨基封闭，NNNNNN表示与第一核苷酸链S的随机分子标签序列区配对的随机分子标签序列区，TCACC为与第一核苷酸链S的第二通用序列区配对的第二通用序列区，YYYY为负链分子标签，与正链分子标签不配对，GATCGTCGGACTGTAGAACTCTGAAC为与第一核苷酸链S的第一通用序列区配对的第一通用序列区。

进一步地，第二核苷酸链AS的3’添加单链序列区，单链序列区为不干扰接头元件配对的核苷酸单链序列；优选为M13通用引物序列。

根据本发明的另一方面，提供了一种上述任一种的接头元件在基于不对称多重PCR进行靶向测序文库构建中的应用。

根据本发明的再一方面，提供了一种基于不对称多重PCR进行靶向测序文库构建的方法。该方法包括以下步骤：1)将双链DNA进行平末端修复、5’末端磷酸化和3’末端加碱基A；2)在步骤1)得到的DNA片段两端分别连接上述任一种接头元件；3)以步骤2)连接产物为模板，以仅与第二核苷酸链AS互补配对的序列为引物进行合成互补链；4)以步骤3)的扩增产物为模板，使用带有公共序列的基因特异性引物对目标区域进行线性扩增；以及5)使用与第一核苷酸链S的第一通用序列区相同序列的引物和与带有公共序列的基因特异性引物中公共序列相同的引物进行PCR指数扩增，即得靶向测序文库。

进一步地，步骤3)具体包括：以步骤2)连接产物为模板，使用与第二核苷酸链AS的单链序列区互补的引物引导进行PCR线性扩增；

优选的，步骤4)中的带有公共序列的基因特异性引物从5’端到3’端包含公共序列区和基因特异性引物区，优选的，公共序列为illumina/Life文库PCR引物的识别序列；

优选的，基因特异性引物区为与靶基因序列配对的核苷酸序列，优选的，长度为18～30nt；

任选的，步骤1)中，双链DNA由DNA样本进行片段化处理得到；

任选的，双链DNA直接从血液或体液中纯化，不经片段化处理得到；

任选的，片段化为利用物理或化学方法，对DNA样本进行随机打断；进一步优选的，使用超声波物理破碎或酶切反应进行片段化；

优选的，平末端修复是利用T4DNA聚合酶完成的；

优选的，磷酸化是用T4多核苷酸激酶进行的；

优选的，3’末端加碱基A是利用无3’-5’外切酶活性的Klenow聚合酶进行的；

优选的，步骤2)中连接反应是用T4DNA连接酶完成的；

任选的，步骤3)和/或步骤4)中采用DNA聚合酶完成，更优选的，所述DNA聚合酶为KAPA2G Robust HSDNA聚合酶。

应用本发明的接头元件(又称为接头)，可以完全去除扩增和测序错误，从而对样品中的低频核酸变异(包括取代、插入、缺失、融合和拷贝数变异)进行高灵敏的检测。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明一实施方式的接头元件结构示意图；以及

图2示出了根据本发明另一实施方式的接头元件结构示意图；

图3示出了本发明的接头元件的测序纠错原理示意图；

图4示出了根据本发明一实施方式的基于不对称多重PCR进行靶向测序文库构建的流程示意图；

图5示出了实施例1的建库结果电泳检测图；

图6示出了实施例1的覆盖度稳定性检测结果图；

图7示出了实施例2的建库结果电泳检测图；

图8示出了实施例2的标准品灵敏度验证结果图；

图9示出了实施例2的覆盖度稳定性检测结果图；

图10示出了实施例2的覆盖度均一性检测结果图；

图11示出了实施例2的拷贝数误差范围；以及

图12示出了实施例2的不同含量变异检测的重复性。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

靶向测序，多重PCR具有速度快、成本低、灵活性高等诸多应用优势，但目前多重PCR的靶向测序技术无法还原DNA双链，因而无法过滤DNA损伤引起的突变和PCR早期引入的突变，因此存在一定的假阳性。针对该技术问题，本发明的发明人提出了下列技术方案。

根据本发明一种典型的实施方式，提供一种接头元件。该接头元件由第一核苷酸链S和第二核苷酸链AS退火形成的DNA双链，包括第一通用序列区、链分子标签区以及随机分子标签序列区，其中第一通用序列区和随机分子标签序列区为Watson-Crick碱基配对区，链分子标签区为碱基不配对或非Watson-Crick配对区，其中第一核苷酸链S 3’末端悬T，第二核苷酸链AS 5’末端磷酸化修饰。

本发明的接头元件除了具有目前普遍使用随机分子标签之外，还包含了可以识别正链和负链的标签。通过本发明的接头元件对待检测DNA进行标记之后，通过单轮扩增以负链为模板合成带有负链标记的正链分子。后续的PCR以正链为模板进行扩增时，可根据正链和负链标签对同一DNA分子的正链分子和负链分子进行区分。在对测序获得的序列进行分析时，通过保留来源于同一个DNA分子，同时在正链上出现、又同时在负链上出现的突变，就可以过滤掉所有的扩增错误和测序错误，以及由于DNA损伤等引起的错误和PCR早期引入的错误，从而去掉所有的假阳性。

采用本发明的接头元件，第一次在多重PCR技术平台实现了正负链矫正的纠错方式，彻底去除了假阳性。而且本发明在具备流程简单、速度快、成本低等多重PCR的优势的同时，完全去除了假阳性，彻底解决了多重PCR靶向测序不准确的问题。

优选的，接头元件还包括第二通用序列区，以第一核苷酸链S 5’到3’端为方向参照，接头元件包括依次连接的第一通用序列区、链分子标签区、第二通用序列区以及随机分子标签序列区。具有此种结构的接头元件结构稳定，使用效果较佳。

根据本发明一种典型的实施方式，链分子标签区包括第一核苷酸链S的正链分子标签和第二核苷酸链AS的负链分子标签，正链分子标签和负链分子标签核苷酸个数相同或不同。

根据本发明一种典型的实施方式，如图1所示，接头元件由第一核苷酸链S和第二核苷酸链AS退火形成的DNA双链，其中，第一核苷酸链S 5’到3’端为方向参照包括依次连接的第一通用序列区1、正链分子标签2、第二通用序列区3以及随机分子标签序列4和3’末端悬T，第二核苷酸链AS 3’到5’端为方向参照包括依次连接的第一通用序列区9、负链分子标签8、第二通用序列区7以及随机分子标签序列6，其中，第一核苷酸链S的第一通用序列区1与第二核苷酸链AS的第一通用序列区9互补配对，第一核苷酸链S的第二通用序列区3与第二核苷酸链AS的第二通用序列区7互补配对，随机分子标签序列4和随机分子标签序列6互补配对，正链分子标签和负链分子标签不配对或非Watson-Crick配对。

根据本发明一种典型的实施方式，正链分子标签和负链分子标签长度分别为2～10个碱基，为随机或固定碱基。

根据本发明一种典型的实施方式，随机分子标签序列区为长度为7～10bp的随机碱基对。

优选的，第一通用序列区为和illumina/Life文库PCR引物的识别序列，方便后续的测序与操作。

更优选的，第一核苷酸链S的序列为SEQ ID NO：1：5’-GTTCAGAGTTCTACAGTCCGACGATCMMMMGGTGANNNNNNNT-3’，其中，GTTCAGAGTTCTACAGTCCGACGATC为illumina PCR引物识别的第一通用序列区；MMMM为正链分子标签，GGTGA为第二通用序列区，NNNNNNN为随机分子标签序列区；第二核苷酸链AS的序列为SEQ ID NO：2：5’-PO₄-NNNNNNNTCACCYYYYGATCGTCGGACTGTAGAACTCTGAAC-NH₂-3’，其中，PO₄表示磷酸化修饰，NH₂表示氨基封闭，NNNNNN表示与第一核苷酸链S的随机分子标签序列区配对的随机分子标签序列区，TCACC为与第一核苷酸链S的第二通用序列区配对的第二通用序列区，YYYY为负链分子标签，与正链分子标签不配对，GATCGTCGGACTGTAGAACTCTGAAC为与第一核苷酸链S的第一通用序列区配对的第一通用序列区。

进一步优选的，第二核苷酸链AS的3’添加单链序列区，单链序列区为不干扰接头元件配对的核苷酸单链序列；优选为M13通用引物序列。如此能够方便高效的进行以负链为模板合成带有负链标记的正链分子的线性扩增。

根据本发明一种典型的实施方式，如图2所示，接头元件由第一核苷酸链S和第二核苷酸链AS退火形成的DNA双链，其中，第一核苷酸链S 5’到3’端为方向参照包括依次连接的第一通用序列区1、正链分子标签2、第二通用序列区3以及随机分子标签序列4和3’末端悬T，第二核苷酸链AS 3’到5’端为方向参照包括依次连接的第一通用序列区9、负链分子标签8、第二通用序列区7以及随机分子标签序列6，其中，第一核苷酸链S的第一通用序列区1与第二核苷酸链AS的第一通用序列区9互补配对，第一核苷酸链S的第二通用序列区3与第二核苷酸链AS的第二通用序列区7互补配对，随机分子标签序列4和随机分子标签序列6互补配对，正链分子标签和负链分子标签不配对或非Watson-Crick配对，第二核苷酸链AS的3’添加单链序列区10。

根据本发明一种典型的实施方式，提供一种接头元件在基于不对称多重PCR进行靶向测序文库构建中的应用。

根据本发明一种典型的实施方式，提供一种基于不对称多重PCR进行靶向测序文库构建的方法。该方法包括以下步骤：1)将双链DNA进行平末端修复、5’末端磷酸化和3’末端加碱基A；2)在步骤1)得到的DNA片段两端分别连接上述任一种接头元件；3)以步骤2)连接产物为模板，以仅与第二核苷酸链AS互补配对的序列为引物进行互补链的合成；4)以步骤3)的扩增产物为模板，使用带有公共序列的基因特异性引物对目标区域进行线性扩增；以及5)使用与第一核苷酸链S的第一通用序列区相同序列的引物和与带有公共序列的基因特异性引物中公共序列相同的引物进行PCR指数扩增，即得靶向测序文库。

本发明的接头元件除了具有目前普遍使用随机分子标签之外，还包含了可以识别正链和负链的标签。通过本发明的接头元件对待检测DNA进行标记之后，通过单轮扩增以负链为模板合成带有负链标记的正链分子。后续的PCR以正链为模板进行扩增时，可根据正链和负链标签对同一DNA分子的正链分子和负链分子进行区分。在对测序获得的序列进行分析时，通过保留来源于同一个DNA分子，同时在正链上出现、又同时在负链上出现的突变，就可以过滤掉所有的扩增错误和测序错误，以及由于DNA损伤等引起的错误和PCR早期引入的错误，从而去掉所有的假阳性，具体原理参见图3,根据本发明一种典型的实施方式，一种基于不对称多重PCR进行靶向测序文库构建的方法流程参见图4。

优选的，步骤3)具体包括：以步骤2)连接产物为模板，使用与第二核苷酸链AS的单链序列区互补的引物引导进行PCR线性扩增；

任选的，步骤1)中，双链DNA由DNA样本进行片段化处理得到；

优选的，平末端修复是利用T4DNA聚合酶完成的；

优选的，磷酸化是用T4多核苷酸激酶进行的；

优选的，步骤2)中连接反应是用T4DNA连接酶完成的；

任选的，步骤3)和/或步骤4)中采用DNA聚合酶完成，更优选的，DNA聚合酶为KAPA2GRobust HS DNA聚合酶。

下面将结合实施例进一步说明本发明的有益效果。除非特别说明，以下实施例中所使用的技术均为领域内技术人员已知的常规技术，所使用的仪器及试剂等，均为本领域内技术人员可以常规购买获得。

基于不对称多重PCR的目标区域富集技术的主要步骤包括：序列查找和引物设计，接头连接，PCR线性扩增，PCR指数扩增。

具体地：序列查找和引物设计，首先针对每个靶标区域或者靶标位点，在位点的3’端100～150bp处设计引物，共20个左右碱基，Tm值设定在60℃左右，GC含量40％～60％，引物5’端包含一段通用接头序列，该序列能够与建库引物配对；

使用primer 3在线软件完成位点引物的设计，并根据需要人工在设计引物的5’或者3’端添加通用引物序列，目标序列来源于NCBI公布的序列；

接头连接，将样本DNA打断成几百bp小片段(cfDNA无需打断)，在连接酶的作用下，在含待测目标区域DNA片段两端加上能够区分不同样本和正负链的通用引物接头；

上述DNA片段可以是任何来源的包含待测目标区域的DNA片段，包括但不限于用于液体活检的cfDNA片段；

DNA文库制备。

实施例1

本实施例采用Horizon discovery公司的HD780cfDNA mμltiplex标准品进行测试。该标准品共有4个样品，包含不同含量的三种类型的变异(插入、缺失和点突变)共8个，如下表1所示。

表1

本实施例具体操作步骤如下：

1.DNA末端修复和磷酸化

取HD780标准品DNA 40纳克，加入1微升10×NEBNext末端修复缓冲液，1微升NEBNext末端修复酶，用无菌水补足到总体积10微升。将上述混合物20℃孵育30分钟；反应完毕后加入10微升的Ampure XP磁珠，吸打10次混匀，室温放置10分钟；置磁力架5分钟，移除上清；样品保持在磁力架上，小心加入200微升80％乙醇，室温静置30秒；移除上清，重复洗涤一次；开盖干燥5分钟；加入15微升水洗脱。

2.DNA末端加A反应

在上一步洗脱的DNA中，加入2微升10×NEB缓冲液2，2微升NEBNext Klenow exo-，1微升10毫摩尔脱氧三磷酸腺苷酸，并用无菌水补足到总体积20微升。将上述混合物37℃孵育30分钟；加入20微升Ampure XP磁珠，吸打10次混匀，室温放置10分钟；置磁力架5分钟，移除上清；样品保持在磁力架上，小心加入200微升80％乙醇，室温静置30秒；移除上清，重复洗涤一次；开盖干燥5分钟；加入15微升去离子水洗脱。

3.接头连接

本实施例中使用的接头(也称作接头元件)序列如下：(本实施例中的序列从左到右为5’端至3’端，“//”示修饰基团，“NH₂”示氨基修饰，”PO₄”为磷酸化修饰，斜体下划线示正/负链分子标签，下划线N为随机分子标签序列区：

第一核苷酸链S(SEQ ID NO：3)：

第二核苷酸链AS(SEQ ID NO：4)：

在上一步洗脱的DNA中，加入10微升平末端连接酶2×混合物(NEB，M0367S/L)，1微升S/AS，并用水补足到总体积20微升。将上述混合物25℃反应10分钟；加入20微升AmpureXP磁珠，吸打10次混匀，室温放置10分钟；置磁力架5分钟，移除上清；样品保持在磁力架上，小心加入200微升80％乙醇，室温静置30秒；移除上清，重复洗涤一次；开盖干燥5分钟；加入30微升去离子水洗脱。

4.目标区域进行扩增

引物1序列如下(SEQ ID NO：5)：GTTCAGAGTTCTACAGTCCGACGATC

本实施例使用的基因特异性引物序列(引物2)如下表2：

表2

EGFR_5R(SEQ ID NO：6)	GCCTTGGCACCCGAGAATTCCACTGAGGTTCAGAGCCATGGA
		EGFR_6R(SEQ ID NO：7)	GCCTTGGCACCCGAGAATTCCACGGACATAGTCCAGGAGGCA
EGFR_8R(SEQ ID NO：8)	GCCTTGGCACCCGAGAATTCCAGCATGTGTTAAACAATACAGCTAGTG
		KRAS_1R(SEQ ID NO：9)	GCCTTGGCACCCGAGAATTCCAAGGCCTGCTGAAAATGACTGAATATAA
NRAS_1R(SEQ ID NO：10)	GCCTTGGCACCCGAGAATTCCAGTTCTTGCTGGTGTGAAATGACTG
		NRAS_2R(SEQ ID NO：11)	GCCTTGGCACCCGAGAATTCCACACCCCCAGGATTCTTACAGAAAA
PIK3CA_7R(SEQ ID NO：12)	GCCTTGGCACCCGAGAATTCCAGCACTTACCTGTGACTCCATAGAAA

将上述引物等物质的量混合得到引物2，稀释到10μm。

在上一步洗脱的DNA中，加入1微升DNA聚合酶(KAPA2G Robust HS(KK5515))，8微升5×缓冲液，1微升10毫摩尔脱氧三磷酸核苷酸混合物(dNTP，RR006A)，1微升10毫摩尔引物1，1微升10毫摩尔表2引物2，并用水补足到40微升。将上述混合物执行以下程序：1)95℃孵育3分钟；2)95℃孵育30秒，60℃孵育30秒；72℃孵育30秒，20个循环；3)72℃孵育5分钟。加入40微升磁珠(Ampure XP)，吸打10次混匀，室温放置10分钟；置磁力架5分钟，移除上清；样品保持在磁力架上，小心加入200微升80％乙醇，室温静置30秒；移除上清，重复洗涤一次；开盖干燥5分钟；加入15微升去离子水洗脱。

5.文库扩增

本实施例所用引物序列如下(本实施例中的序列从左到右为5’端至3’端)：

引物3(SEQ ID NO：13)：

AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAGTCCGA

引物4(SEQ ID NO：14)：

CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA

在上一步洗脱的DNA中，加入1微升DNA聚合酶(KAPA2G Robust HS(KK5515))，8微升5×缓冲液，1微升10毫摩尔脱氧三磷酸核苷酸混合物(dNTP，RR006A)，1微升10毫摩尔引物3，1微升10毫摩尔引物4，并用水补足到40微升。将上述混合物执行以下程序：1)95℃孵育3分钟；2)95℃孵育30秒，60℃孵育30秒；72℃孵育30秒，15个循环；3)72℃孵育5分钟。加入40微升磁珠(Ampure XP)，吸打10次混匀，室温放置10分钟；置磁力架5分钟，移除上清；样品保持在磁力架上，小心加入200微升80％乙醇，室温静置30秒；移除上清，重复洗涤一次；开盖干燥5分钟；加入15微升去离子水洗脱。

6.高通量测序

将上一步纯化好的文库，按照illumina Nextseq500的操作步骤，进行高通量测序。

7.数据分析

测序数据进行如下处理：

1)使用Trimmatic工具对数据进行过滤，去除低质量的碱基和接头序列、PCR引物序列；

2)使用cutadapt工具从原始数据中提取分子标签和链标签；

3)使用BWA将读段比对到参考基因组上；

4)根据读段在基因组上的起始位置和终止位置，获得比对到目标区域的读段，进行下游分析；

5)将比对到目标区域的读段，根据起始位置、终止位置和分子标签，去除PCR扩增重复，获得每一个分子的数目；

6)对起始位置、终止位置和分子标签完全相同的DNA分子，作为同一来源的DNA分子，根据正链标签和负链标签，还原扩增前DNA分子及其序列；

7)使用Varscan2对所有独立来源的DNA分子序列和参考基因组序列进行比较，获得体细胞变异，并计算变异的等位基因频率。

9.结果及分析

1)从图5得电泳图可以看出，本实施例中文库得到了有效扩增，文库大小在280bp左右，插入片段长度为170bp左右，为ctDNA的平均长度。

2)建库覆盖度等信息见表3：

表3

从表3可以看出，本发明方法对靶向区域的富集效果好，上靶率全部在60％以上且样品间差异很小，一致性很好(62.54％～64.28％)；本发明方法的模板使用率达到了45％以上，与基于捕获的靶向富集方法接近；检测到的DNA分子，25％以上被同时检测到了正链和负链，这个比例远远高于基于捕获的靶向测序方法如duplex sequencing和CAPP-seq2(～10％)。

3)检测到的突变见表4：

表4

表4数据显示，本发明的方法对标准品中不同含量、不同类型的突变，都进行了有效的检出，对于0.1％含量的变异DNA分子可以得到有效检出，且检出的频率与掺入的频率非常一致。对于含量在1％以上的变异，全部(16/16)可以同时检测到变异分子的正链DNA和负链DNA；对于含量为0.1％的变异，超过半数也可以同时检测到变异分子的正链DNA和负链DNA(5/8)。

4)从图6可以看出，本发明方法对靶向区域的富集效果很均一，在平均约2000×的有效覆盖度下，所有位点覆盖度超过500×。四次实验中，每一个位点的覆盖度都很稳定，平均误差为15％。

实施例2

本实施例采用Horizon discovery公司的HD780cfDNA mμLtiplex标准品进行测试。该标准品共有4个样品，包含不同含量的三种类型的变异(插入、缺失和点突变)共8个，如表1所示(同实施例1)。

本实施例具体操作步骤如下：

1.DNA末端修复和磷酸化

2.DNA末端加A反应

3.接头连接

本实施例中使用的接头(也称作接头元件)序列如下：(本实施例中的序列从左到右为5’端至3’端，“//”示修饰基团，“NH₂”示氨基修饰，“PO₄”为磷酸化修饰斜体下划线示正/负链分子标签，下划线N为随机分子标签序列区：

第一核苷酸链S(SEQ ID NO：15)：

第二核苷酸链AS(SEQ ID NO：16)：

在上一步洗脱的DNA中，加入10微升平末端连接酶2×混合物(NEB，M0367S/L)，1微升S/AS，并用水补足到总体积20微升。将上述混合物25℃反应10分钟；加入20微升AmpureXP磁珠，吸打10次混匀，室温放置10分钟；置磁力架5分钟，移除上清；样品保持在磁力架上，小心加入200微升80％乙醇，室温静置30秒；移除上清，重复洗涤一次；开盖干燥5分钟；加入30微升去离子水洗脱。；

4.第二链合成

引物5序列如下(SEQ ID NO：17)：CAGCACTGACCCTTTTGGGACCGC

在上一步洗脱的DNA中，加入1微升DNA聚合酶(KAPA2G Robust HS(KK5515))，8微升5×缓冲液，1微升10毫摩尔脱氧三磷酸核苷酸混合物(dNTP，RR006A)，1微升10毫摩尔引物5，并用水补足到40微升。将上述混合物95℃孵育3分钟，60℃孵育3分钟；72℃孵育5分钟。加入20微升磁珠(Ampure XP)，吸打10次混匀，室温放置10分钟；置磁力架5分钟，移除上清；样品保持在磁力架上，小心加入200微升80％乙醇，室温静置30秒；移除上清，重复洗涤一次；开盖干燥5分钟；加入15微升去离子水洗脱；

5.基因特异性引物线性扩增

本实施例使用的基因特异性引物序列如下表2(同实施例1)。

将上述引物等物质的量混合得到引物2，稀释到10μm。

在上一步洗脱的DNA中，加入1微升DNA聚合酶(KAPA2G Robust HS(KK5515))，8微升5×缓冲液，1微升10毫摩尔脱氧三磷酸核苷酸混合物(dNTP，RR006A)，1微升10毫摩尔表2引物2，并用水补足到40微升。将上述混合物执行以下程序：1)95℃孵育3分钟；2)95℃孵育30秒，60℃孵育30秒；72℃孵育30秒，20个循环；3)72℃孵育5分钟。加入40微升磁珠(AmpureXP)，吸打10次混匀，室温放置10分钟；置磁力架5分钟，移除上清；样品保持在磁力架上，小心加入200微升80％乙醇，室温静置30秒；移除上清，重复洗涤一次；开盖干燥5分钟；加入15微升去离子水洗脱。

6.文库扩增

本实施例所用引物序列如下(本实施例中的序列从左到右为5’端至3’端，同实施例1)：

引物3(SEQ ID NO：13)：

AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAGTCCGA

引物4(SEQ ID NO：14)：

CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA

7.高通量测序

8.数据分析

测序数据进行如下处理：

1)使用Trimmatic工具对数据进行过滤，去除低质量的碱基和接头序列、PCR引物序列。

2)使用cutadapt工具从原始数据中提取分子标签和链标签；

3)使用BWA将读段比对到参考基因组上

9.结果及分析

1)从图7得电泳图可以看出，本实施例中文库得到了有效扩增，文库大小在280bp左右，插入片段长度为170bp左右，为ctDNA的平均长度。

2)建库覆盖度等信息见表5：

表5

从表5可以看出，本发明方法对靶向区域的富集效果好，上靶率全部在80％以上且样品间差异很小，一致性很好(80.4％～81.42％)；本发明方法的模板使用率达到了40％以上，与基于捕获的靶向富集方法接近；本发明检测到的DNA分子，有接近30％(27.93-28.31)被同时检测到了正链和负链，这个比例远远高于基于捕获的靶向测序方法如duplexsequencing和CAPP-seq2(～10％)。

3)检测到的突变见表6：

表6

表6和图8表明，本发明的方法，对标准品中不同含量、不同类型的突变，都进行了有效的检出，对于0.1％含量的变异DNA分子可以得到有效检出，且检出的频率与掺入的频率非常一致。对于含量在1％以上的变异，绝大多数(15/16)可以同时检测到变异分子的正链DNA和负链DNA；对于含量为0.1％的变异，超过半数也可以同时检测到变异分子的正链DNA和负链DNA(5/8)。

4)从图9和图10可以发现，本发明方法对靶向区域的富集效果很均一，在平均约2000×的有效覆盖度下，所有位点覆盖度超过500×。

从图9和图11可以发现，四次实验中，每一个位点的覆盖度都很稳定，平均误差为2.5％，对于不同覆盖度的变异，在四次独立的实验中非常稳定，误差很小。

图12说明不同含量的变异(variant allele fraction,VAF)位点，在四次重复的检测中都可以稳定的被检测出来，每一个位点的含量在不同的检测中都非常稳定，变化很小，并且这种稳定性不受变异位点的含量的影响，从0.1％到70％都表现的非常稳定。

实施例1和实施例2的对比发现，通过实施例2中增加第二链合成、基因特异性引物线性扩增等步骤，可以发现文库的上靶率得到了有效提高(从60％到80％)；具有双链支持的DNA分子数目也略有提高(从25％到约30％)。同时，靶向区域覆盖度在不同实验间更加稳定，差异在2.5％左右。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：

本发明公开的用于多重PCR建库的接头结构除了具有目前普遍使用分子标签之外，还包含了可以识别正链和负链的标签，通过本发明公布的接头结构对待检测DNA进行标记之后，通过单轮扩增以负链为模板合成第带有负链标记的正链分子，后续的PCR以正链为模板进行扩增时，可根据正链和负链标签对同一DNA分子的正链分子和负链分子进行区分。在对测序获得的序列进行分析时，通过保留来源于同一个DNA分子，同时在正链上出现、又同时在负链上出现的突变，就可以过滤掉所有的扩增错误和测序错误，以及由于DNA损伤等引起的错误和PCR早期引入的错误，从而去掉所有的假阳性。

本发明公开的方法，第一次在多重PCR技术平台实现了正负链矫正的纠错方式，彻底去除了假阳性。因此，本发明在具备流程简单、速度快、成本低等多重PCR的优势的同时，完全去除了假阳性，彻底解决了多重PCR靶向测序不准确的问题。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

序列表

<110> 武汉康测科技有限公司

<120> 接头元件、其应用和基于不对称多重PCR进行靶向测序文库构建的方法

<130> PN81815WHKC

<141> 2018-01-05

<160> 17

<170> SIPOSequenceListing 1.0

<210> 1

<211> 43

<212> DNA

<213> Artificial Sequence

<220>

<221> STS

<222> (27)..(30)

<223> 正链分子标签

<220>

<221> unsure

<222> (36)..(42)

<223> 随机分子标签序列

<220>

<221> misc_feature

<222> (36)..(36)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (37)..(37)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (38)..(38)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (39)..(39)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (40)..(40)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (41)..(41)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (42)..(42)

<223> n is a, c, g, t or u

<400> 1

gttcagagtt ctacagtccg acgatcmmmm ggtgannnnn nnt 43

<210> 2

<211> 42

<212> DNA

<213> Artificial Sequence

<220>

<221> unsure

<222> (1)..(7)

<223> 随机分子标签序列

<220>

<221> STS

<222> (13)..(16)

<223> 负链分子标签

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (2)..(2)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (3)..(3)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (4)..(4)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (5)..(5)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (6)..(6)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (7)..(7)

<223> n is a, c, g, t or u

<400> 2

nnnnnnntca ccyyyygatc gtcggactgt agaactctga ac 42

<210> 3

<211> 43

<212> DNA

<213> Artificial Sequence

<220>

<221> STS

<222> (27)..(30)

<223> 正链分子标签

<220>

<221> unsure

<222> (36)..(42)

<223> 随机分子标签序列

<220>

<221> misc_feature

<222> (36)..(36)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (37)..(37)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (38)..(38)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (39)..(39)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (40)..(40)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (41)..(41)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (42)..(42)

<223> n is a, c, g, t or u

<400> 3

gttcagagtt ctacagtccg acgatcaaaa ggtgannnnn nnt 43

<210> 4

<211> 42

<212> DNA

<213> Artificial Sequence

<220>

<221> unsure

<222> (1)..(7)

<223> 随机分子标签序列

<220>

<221> STS

<222> (13)..(16)

<223> 负链分子标签

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (2)..(2)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (3)..(3)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (4)..(4)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (5)..(5)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (6)..(6)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (7)..(7)

<223> n is a, c, g, t or u

<400> 4

nnnnnnntca ccccccgatc gtcggactgt agaactctga ac 42

<210> 5

<211> 26

<212> DNA

<213> Artificial Sequence

<220>

<221> primer_bind

<222> (1)..(26)

<223> 引物1

<400> 5

gttcagagtt ctacagtccg acgatc 26

<210> 6

<211> 42

<212> DNA

<213> Artificial Sequence

<220>

<221> primer_bind

<222> (1)..(42)

<223> EGFR_5R

<400> 6

gccttggcac ccgagaattc cactgaggtt cagagccatg ga 42

<210> 7

<211> 42

<212> DNA

<213> Artificial Sequence

<220>

<221> primer_bind

<222> (1)..(42)

<223> EGFR_6R

<400> 7

gccttggcac ccgagaattc cacggacata gtccaggagg ca 42

<210> 8

<211> 48

<212> DNA

<213> Artificial Sequence

<220>

<221> primer_bind

<222> (1)..(48)

<223> EGFR_8R

<400> 8

gccttggcac ccgagaattc cagcatgtgt taaacaatac agctagtg 48

<210> 9

<211> 49

<212> DNA

<213> Artificial Sequence

<220>

<221> primer_bind

<222> (1)..(49)

<223> KRAS_1R

<400> 9

gccttggcac ccgagaattc caaggcctgc tgaaaatgac tgaatataa 49

<210> 10

<211> 46

<212> DNA

<213> Artificial Sequence

<220>

<221> primer_bind

<222> (1)..(46)

<223> NRAS_1R

<400> 10

gccttggcac ccgagaattc cagttcttgc tggtgtgaaa tgactg 46

<210> 11

<211> 46

<212> DNA

<213> Artificial Sequence

<220>

<221> primer_bind

<222> (1)..(46)

<223> NRAS_2R

<400> 11

gccttggcac ccgagaattc cacaccccca ggattcttac agaaaa 46

<210> 12

<211> 47

<212> DNA

<213> Artificial Sequence

<220>

<221> primer_bind

<222> (1)..(47)

<223> PIK3CA_7R

<400> 12

gccttggcac ccgagaattc cagcacttac ctgtgactcc atagaaa 47

<210> 13

<211> 50

<212> DNA

<213> Artificial Sequence

<220>

<221> primer_bind

<222> (1)..(50)

<223> 引物3

<400> 13

aatgatacgg cgaccaccga gatctacacg ttcagagttc tacagtccga 50

<210> 14

<211> 63

<212> DNA

<213> Artificial Sequence

<220>

<221> primer_bind

<222> (1)..(63)

<223> 引物4

<400> 14

caagcagaag acggcatacg agatcgtgat gtgactggag ttccttggca cccgagaatt 60

cca 63

<210> 15

<211> 43

<212> DNA

<213> Artificial Sequence

<220>

<221> STS

<222> (27)..(30)

<223> 正链分子标签

<220>

<221> unsure

<222> (36)..(42)

<223> 随机分子标签序列

<220>

<221> misc_feature

<222> (36)..(36)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (37)..(37)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (38)..(38)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (39)..(39)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (40)..(40)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (41)..(41)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (42)..(42)

<223> n is a, c, g, t or u

<400> 15

gttcagagtt ctacagtccg acgatcaaaa ggtgannnnn nnt 43

<210> 16

<211> 67

<212> DNA

<213> Artificial Sequence

<220>

<221> unsure

<222> (1)..(7)

<223> 随机分子标签序列

<220>

<221> STS

<222> (13)..(16)

<223> 负链分子标签

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (2)..(2)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (3)..(3)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (4)..(4)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (5)..(5)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (6)..(6)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (7)..(7)

<223> n is a, c, g, t or u

<220>

<221> misc_feature

<222> (43)..(43)

<223> n is a, c, g, t or u

<400> 16

nnnnnnntca ccccccgatc gtcggactgt agaactctga acngcggtcc caaaagggtc 60

agtgctg 67

<210> 17

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<221> primer_bind

<222> (1)..(24)

<223> 引物5

<400> 17

cagcactgac ccttttggga ccgc 24

Claims

1.一种接头元件，其特征在于，由第一核苷酸链S和第二核苷酸链AS退火形成的DNA双链，包括第一通用序列区、链分子标签区以及随机分子标签序列区，其中所述第一通用序列区和所述随机分子标签序列区为Watson-Crick碱基配对区，所述链分子标签区为碱基不配对或非Watson-Crick配对区，其中所述第一核苷酸链S 3’末端悬T，所述第二核苷酸链AS5’末端磷酸化修饰。

2.根据权利要求1所述的接头元件，其特征在于，所述接头元件还包括第二通用序列区，以所述第一核苷酸链S 5’到3’端为方向参照，所述接头元件包括依次连接的所述第一通用序列区、所述链分子标签区、所述第二通用序列区以及所述随机分子标签序列区。

3.根据权利要求1所述的接头元件，其特征在于，所述链分子标签区包括所述第一核苷酸链S的正链分子标签和所述第二核苷酸链AS的负链分子标签，所述正链分子标签和所述负链分子标签核苷酸个数相同或不同。

4.根据权利要求3所述的接头元件，其特征在于，所述正链分子标签和所述负链分子标签长度分别为2～10个碱基，为随机或固定碱基。

5.根据权利要求1所述的接头元件，其特征在于，所述随机分子标签序列区为长度为7～10bp的随机碱基对。

6.根据权利要求2所述的接头元件，其特征在于，所述第一通用序列区为和illumina/Life文库PCR引物的识别序列。

7.根据权利要求6所述的接头元件，其特征在于，所述第一核苷酸链S的序列为SEQ IDNO：1：5’-GTTCAGAGTTCTACAGTCCGACGATCMMMMGGTGANNNNNNNT-3’，其中，GTTCAGAGTTCTACAGTCCGACGATC为illumina PCR引物识别的第一通用序列区；MMMM为正链分子标签，GGTGA为第二通用序列区，NNNNNNN为随机分子标签序列区；

所述第二核苷酸链AS的序列为SEQ ID NO：2：5’-PO₄-NNNNNNNTCACCYYYYGATCGTCGGACTGTAGAACTCTGAAC-NH₂-3’，其中，PO₄表示磷酸化修饰，NH₂表示氨基封闭，NNNNNN表示与所述第一核苷酸链S的随机分子标签序列区配对的随机分子标签序列区，TCACC为与所述第一核苷酸链S的第二通用序列区配对的第二通用序列区，YYYY为负链分子标签，与正链分子标签不配对，GATCGTCGGACTGTAGAACTCTGAAC为与所述第一核苷酸链S的第一通用序列区配对的第一通用序列区。

8.根据权利要求1所述的接头元件，其特征在于，所述第二核苷酸链AS的3’添加单链序列区，所述单链序列区为不干扰所述接头元件配对的核苷酸单链序列；优选为M13通用引物序列。

9.一种如权利要求1至8中任一项所述的接头元件在基于不对称多重PCR进行靶向测序文库构建中的应用。

10.一种基于不对称多重PCR进行靶向测序文库构建的方法，其特征在于，包括以下步骤：

1)将双链DNA进行平末端修复、5’末端磷酸化和3’末端加碱基A；

2)在所述步骤1)得到的DNA片段两端分别连接如权利要求1至8中任一项所述的接头元件；

3)以所述步骤2)连接产物为模板，以仅与第二核苷酸链AS互补配对的序列为引物进行合成互补链；

4)以所述步骤3)的扩增产物为模板，使用带有公共序列的基因特异性引物对目标区域进行线性扩增；以及

5)使用与第一核苷酸链S的第一通用序列区相同序列的引物和与所述带有公共序列的基因特异性引物中公共序列相同的引物进行PCR指数扩增，即得靶向测序文库。

11.根据权利要求10所述的方法，其特征在于，所述步骤3)具体包括：以所述步骤2)连接产物为模板，使用与所述第二核苷酸链AS的单链序列区互补的引物引导进行PCR线性扩增；

优选的，所述步骤4)中的带有公共序列的基因特异性引物从5’端到3’端包含公共序列区和基因特异性引物区，优选的，所述公共序列为illumina/Life文库PCR引物的识别序列；

优选的，所述基因特异性引物区为与靶基因序列配对的核苷酸序列，优选的，长度为18～30nt；

任选的，所述步骤1)中，所述双链DNA由DNA样本进行片段化处理得到；

任选的，所述双链DNA直接从血液或体液中纯化，不经片段化处理得到；

任选的，所述片段化为利用物理或化学方法，对DNA样本进行随机打断；进一步优选的，使用超声波物理破碎或酶切反应进行所述片段化；

优选的，所述平末端修复是利用T4DNA聚合酶完成的；

优选的，所述磷酸化是用T4多核苷酸激酶进行的；

优选的，所述3’末端加碱基A是利用无3’-5’外切酶活性的Klenow聚合酶进行的；

优选的，所述步骤2)中连接反应是用T4DNA连接酶完成的；

任选的，所述步骤3)和/或所述步骤4)中采用DNA聚合酶完成，更优选的，所述聚合酶为KAPA2G Robust HS DNA聚合酶。