CN113913495A

CN113913495A - Duplex UMI接头及测序方法

Info

Publication number: CN113913495A
Application number: CN202111263987.2A
Authority: CN
Inventors: 韩弥朋; 许青; 陈雪; 刘鹤; 苏琳
Original assignee: Wuxi Zhenhe Biotechnology Co ltd; Zhenhe Beijing Biotechnology Co ltd
Current assignee: Wuxi Zhenhe Biotechnology Co ltd; Zhenhe Beijing Biotechnology Co ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-11
Anticipated expiration: 2041-10-28
Also published as: CN113913495B

Abstract

本发明涉及生物技术领域，尤其涉及Duplex UMI接头及测序方法。本发明提供的固定的Duplex UMI接头设计可以在生信分析时进行UMI错误校正，提高原始DNA分子计数时的准确性；并且，针对该接头建立了一套快速的质检方法，可以不进行杂交的步骤，从而大大缩短检测周期。

Description

Duplex UMI接头及测序方法

技术领域

本发明涉及生物技术领域，尤其涉及Duplex UMI接头及测序方法。

背景技术

ctDNA是肿瘤细胞在坏死、凋亡后释放的一种游离DNA（cfDNA），在血液中的半衰期短，可以实时反映肿瘤的动态变化。目前用于ctDNA液体活检的技术主要有ARMS-PCR、数字PCR（ddPCR）和第二代测序（NGS）。NGS能同时检测多个基因的多种不同变异形式，是应用最广泛的的基因检测技术。但由于NGS的实验流程技术较为复杂，在文库构建、目标区域捕获及测序过程中不可避免的会引入一些扩增和测序的错误，这些错误我们把它们叫做背景噪音，而ctDNA检测往往突变频率较低，受到背景噪音干扰较大，来自ctDNA样本中的低频突变往往淹没在背景噪音之中，造成假阴性或假阳性结果，这就限制了ctDNA检测的灵敏度和特异性。

为了提高ctDNA检测的灵敏性和特异性，在检测的引物中设计了接头，即DuplexUMI（Duplex Unique Molecular indentifier）。DuplexUMI能够对PCR或者测序过程中随机出现的错误碱基进行校正，在生信分析时只保留样本中真实的突变。但目前市面上的Duplex UMI序列大多数由随机序列组成，这样就无法评价厂家合成的准确性；厂家纯化时可能由于纯化柱的原因导致两种UMI相互污染，但随机序列的合成方式也无法区分；无论是Illumina还是MGI平台的测序仪，其测序错误率均在0.1%左右，随机序列的合成方式也无法识别测序错误的reads；而且随机序列合成时存在连续的重复碱基合成效率低下、测序质量值也偏低的问题。

发明内容

有鉴于此，本发明要解决的技术问题在于提供更进一步提高检测准确性的DuplexUMI接头及测序的方法。

本发明提供的Duplex UMI接头，每组64个接头，每个接头内保持碱基平衡；

每个接头序列中连续重复≤2碱基，任意两个接头序列的编辑距离≥2；

每组包括：

16个长度为6nt的接头，其3’末端碱基为AG或AC、

16个长度为6nt的接头，其3’ 末端碱基为TG或TC、

16个长度为5nt的接头，其3’ 末端碱基为C

16个长度为5nt的接头，其3’ 末端碱基为G。

本发明提供的Duplex UMI接头中，每组64个接头的核酸序列分别为：CTAGTG、AAGATC、TGCCAG、GCCAAC、ATCCTG、GTGCTG、GCTATC、ACTAAC、AGTATC、CCTCAG、CGGTAC、TGATAC、TCTGTG、AGCAAC、GGAATC、TCCTTC、GTACAG、TCAGAG、GCTGAG、CGCGTG、GAGCAG、CTGTTC、TGAGTG、TTGCAG、GACCTG、GCCGTG、CCGAAC、TAACTG、AACCAG、TATTAC、AACGTG、CACTAC、GACTG、CTGGC、TGTGG、TCAAC、TTCTG、GCAAG、TGTAC、GCTTC、AGATG、TTACC、CGTTG、CCACG、TTAAG、AATTG、AGCCG、AAGCG、GATAG、CTATC、CAAGC、CTTAG、ACGGC、ATGCC、ATTGG、TTGTC、CACAC、CGACC、GACGC、TATGC、TGGCG、GGCAC、GTGAG和TATCG。

本发明还提供了Genecast UMI接头，其包括：64个接头1和64个接头2，

接头1的结构为框架1-（N）xT；接头2的结构为（N）x-框架2；

（N）x为本发明所述的Duplex UMI接头。

本发明实施例中，

框架1的序列为:

5’-GTCTTCCTAAGACCGCTTGGCCTCCGACTT-3’,

或为5’-TTGTCTTCCTAAGACCGCTTGGCCTCCGACTT-3’；

框架2的序列为:

5’- AAGTCGGATCGTAGCCATGTCGTTCTGTGAGCCAAGGAGT-3’，

或为5’-AAGTCGGATCGTAGCCATGTCGTTCTGTGAGCCAAGGAGTTG-3’。

所述的Genecast UMI接头的制备方法中，

制备体系包括：框架1、框架2、本发明所述的Duplex UMI接头中任意一种、退火缓冲液、EB缓冲液；

所述退火缓冲液包括水和50 mmol/L Tris·Cl、5 mmol/L EDTA和250 mmol/LNaCl；

其制备程序包括：

热盖温度105℃，95℃ 保持4min，

0.1℃/s降温至90℃，90℃保持2min；

0.1℃/s降温至85℃，85℃保持2min；

0.1℃/s降温至80℃，80℃保持2min；

0.1℃/s降温至75℃，75℃保持2min；

0.1℃/s降温至70℃，70℃保持2min；

0.1℃/s降温至65℃，65℃保持2min；

0.1℃/s降温至60℃，60℃保持2min；

0.1℃/s降温至55℃，55℃保持2min；

0.1℃/s降温至50℃，50℃保持2min；

0.1℃/s降温至45℃，45℃保持2min；

0.1℃/s降温至40℃，40℃保持2min；

0.1℃/s降温至35℃，35℃保持2min；

0.1℃/s降温至30℃，30℃保持2min；

0.1℃/s降温至25℃，25℃保持2min；

4℃保存。

本发明所述的Genecast UMI接头在测序文库构建中的应用。

本发明还提供了一种测序文库的构建方法，其以本发明所述的Genecast UMI接头构建文库。

一些实施例中所述的构建方法包括：

将ctDNA进行末端修复加A后与所述的接头连接，然后进行文库构建，所得产物经纯化获得文库。

本发明中，在所述文库构建后，还包括杂交、洗脱、文库扩增的步骤。

本发明还提供了一种测序方法，其将所述构建方法获得的文库，上机检测。

本发明提供的固定的Duplex UMI接头设计可以在生信分析时进行UMI错误校正，提高原始DNA分子计数时的准确性；并且，针对该接头建立了一套快速的质检方法，可以不进行杂交的步骤，从而大大缩短检测周期。

附图说明

图1示普通AT连接示意图；

图2示GenecastDuplexUMI的CG校正设计；

图3示GenecastDuplexUMI制备产物的2100图；

图4示CN113005121A的DuplexUMI制备产物的2100图；

图5示CN109988819A的 DuplexUMI制备产物的2100图；

图6示三种接头对两个临床人类CtDNA样本进行检测后的duplex reads数据比较；

图7示三种接头对两个临床人类CtDNA样本进行检测后的simplex reads数据比较；

图8示三种接头对两个临床人类CtDNA样本进行检测后的singleton reads数据比较；

图9示三种接头对两个临床人类CtDNA样本进行检测后的dcsV数据比较；

图10示实施例2检测后，结果中64种UMI占数据量的比例；

图11示实施例3和实施例4检测用时比较；

图12示实施例3和实施例4检测结果比较。

具体实施方式

本发明提供了Duplex UMI接头及测序方法，本领域技术人员可以借鉴本文内容，适当改进工艺参数实现。特别需要指出的是，所有类似的替换和改动对本领域技术人员来说是显而易见的，它们都被视为包括在本发明。本发明的方法及应用已经通过较佳实施例进行了描述，相关人员明显能在不脱离本发明内容、精神和范围内对本文的方法和应用进行改动或适当变更与组合，来实现和应用本发明技术。

除非另有定义，本文使用的所有科技术语具有本领域普通技术人员所理解的相同含义。关于本领域的定义及术语，专业人员具体可参考Current Protocols in MolecularBiology（Ausubel）。氨基酸残基的缩写是本领域中所用的指代20个常用L-氨基酸之一的标准3字母和/或1字母代码。

本发明所述测序的原理参见Newman A M, Lovejoy A F, Klass D M, et al.Integrated digital error suppression for improved detection of circulatingtumor DNA[J]. Nature biotechnology, 2016, 34(5): 547-555.为了提高测序的准确性和灵敏度，在测序所使用的接头的两端添加本发明所述的接头。本发明所述DuplexUMI接头不同于现有技术中采用的随机接头，其能够有效规避在序列合成过程中、PCR扩增过程中或测序仪测序过程中引入的错误。因此，能够避免随机接头导致的非特异性检测，减少假阳性报出。

并且，此前Duplex UMI和插入片段的连接大部分都用的AT连接，少数用的平末端连接。普通AT连接如图1所示，连接产物经过PCR富集后在测序时，测到AT连接位置时，该位置的碱基均为A/T，导致碱基不平衡。碱基的极度不平衡会导致该位置上的测序质量的下降，进而影响整条reads的QC结果。为解决该问题，本发明在3’最末端碱基是A或T的32个接头后面再额外添加C或G，正如图2所示，连接产物经过PCR富集后在测序时，测到AT连接位置时，该位置的碱基为A/T/C/G，碱基平衡。

本发明中，所述碱基平衡是指在一个接头位置内，其A、T、C、G碱基数量相似，例如，在接头的第一个碱基位置上，A、T、C、G碱基在64组接头1中占比分别是21.9%、29.7%、23.4%、25.0%。具体如下表：

本发明所述Genecast UMI接头为构建文库采用的接头，其中框架部分包括框架1和框架2。在文库的构建过程中，可选择可以选用的各种骨架构建接头。本发明实施例中，框架序列的设计可以有多种：

框架1的序列为：

5’-TTGTCTTCCTAAGACCGCTTGGCCTCCGACTT-3’

或者5’-GTCTTCCTAAGACCGCTTGGCCTCCGACTT-3’，

其中5’-TTGTCTTCCTAAGACCGCTTGGCCTCCGACTT-3’是表3中用的框架序列，其与CN202110450556.0专利中通用接头序列1一致；

框架2的序列为：

5’-AAGTCGGATCGTAGCCATGTCGTTCTGTGAGCCAAGGAGTTG-3’或者5’-AAGTCGGATCGTAGCCATGTCGTTCTGTGAGCCAAGGAGT-3’，

其中5’-AAGTCGGATCGTAGCCATGTCGTTCTGTGAGCCAAGGAGTTG-3’是表3中用的框架序列；

本发明所述Genecast UMI接头的构建方法是使框架与本发明所述的Duplex UMI接头连接。

制备Genecast UMI接头的体系中包括框架1、框架2、Genecast UMI接头中任意一种，退火缓冲液和EB缓冲液。共构建64个反应体系，在这样的反应体系中，框架1和框架2退火到一起，最终形成，制备获得64种Genecast UMI接头。

本发明所述的文库是用于二代测序的文库。在文库的构建过程中，样品可在末端修复、接头连接后，可仅进行文库构建后，便获得测序文库。也可在PER PCR后，将该产物纯化、分选、杂交、洗脱，然后进行文库扩增。

本发明采用的试材皆为普通市售品，皆可于市场购得。下面结合实施例，进一步阐述本发明：

实施例1 Genecast UMI接头制备

1.1根据以下原则进行5nt UMI设计和筛选：①要求连续重复≤2碱基；②要求任意两个序列的编辑距离≥2；③每组64条序列，其中32个序列最后一个碱基是A或T，另外32个序列最后一个碱基是G或C；④ 5nt的每一个位置都是碱基平衡，即A/C/T/G占比应在25%±5%。设计结果如表1。

表1 5nt UMI设计结果

1.2为解决AT连接导致碱基不平衡的问题，在最后一次碱基是A或T的32个序列后面再额外加C/G，设计原则：⑤3’末端互补的序列加相同的C或者G。经此处理后的设计结果如表2。

表2 解决碱基平衡后的5nt UMI设计结果

1.3 根据MGI测序平台的序列特点，我们将其中：

通用框架序列1设计为：

GTCTTCCTAAGACCGCTTGGCCTCCGACTT（SEQ ID NO:1）-(N)xT，

将通用框架序列2设计为：

(N)x-AAGTCGGATCGTAGCCATGTCGTTCTGTGAGCCAAGGAGT（SEQ ID NO:2）。

其中x=5或6。

将UMI序列和与框架序列进行组装，得到本次合成的Genecast UMI序列。

表3 其中一种框架的Genecast UMI接头序列

1.4 Duplex UMI 制备

按照下表配置5× 退火buffer：

表4 5×退火buffer配制

按照下面的反应体系制备接头退火体系：

表5 接头退火反应体系

按照下面程序设置PCR进行接头退火：

表6 退火程序

将64种退火后的接头取等量进行混合。

对比例1

根据专利CN 113005121A记载合成接头。“所述分子标签的长度为6～12bp，优选为8～10bp；优选所述分子标签为随机合成的A、T、G和C碱基组成的序列”。

对比例2

根据专利CN109988819A的发明内容记载合成接头。其包含：核心序列；随机序列(N)n，N为随机序列，共n个”。

实施例2 人类CtDNA检测

取ctDNA（人类血浆样品经提取获得）进行带样检建库，详细建库方法包括：

1 末端修复加A

取30ng ctDNA，提前配制反应酶及缓冲液，补水至总体积为60μL，混匀后于PCR仪中20℃孵育30分钟，65℃孵育30分钟。反应体系如下：

2 连接反应

向末端修复&加A后的混合液1中依次加入如下试剂，混匀后，于PCR仪中20℃孵育15分钟。

3 连接后纯化：将连接产物用0.8×磁珠进行纯化，并用22μL 水溶解。

4 文库构建：按下列要求依次加入试剂配制混合液于PCR管中。

混匀液体并盖好PCR管盖，短暂离心收集液体。

将配制好的混合液置于PCR仪，按以下反应程序扩增：

5 文库纯化与分选

将PrePCR产物用0.5×磁珠纯化，并用100μL水溶解。

6 杂交与洗脱

采用IDT的捕获Panel和洗杂试剂进行杂交和洗脱操作。

7 文库扩增

按如下组方配制混合液。

将混合液与杂交洗脱产物进行混匀，充分涡旋混匀，短暂离心，总体积为50uL。按以下反应程序扩增：

备注：循环数取决于杂交捕获panel

8捕获后文库纯化：取1.2×磁珠进行纯化，并用22μL 水溶解。

9 上机和生信分析：文库上MGI测序平台，并用生信流程进行分析。

实施例3 Phix DNA 检测

采用实施例1制备获得的接头，对Phix细菌 DNA进行检测，检测方法与实施例2相同。以如下序列模拟Phix细菌 DNA：

正义链序列为：

CAAGCTAGAGTTCAACTGTCGTAACGCTATTCACTTCAACCTAGTGTGCGAA，

反义链序列为：

TCGCACACTAGGTTGAAGTGAATAGCGTTACGACAGTTGAACTCTAGCTTGA。

实施例4 Phix DNA 快速检测

在针对Duplex UMI进行快速检测时，可以不进行杂交捕获的步骤，从而节省时间。

1 连接反应：

取30ng Phix DNA，依次加入如下试剂，混匀后，于PCR仪中20℃孵育15分钟。

2 连接后纯化

将连接产物用0.8×磁珠进行纯化，并用22μL 水溶解。

3 PrePCR

按下列要求依次加入试剂配制混合液于PCR管中。

混匀液体并盖好PCR管盖，短暂离心收集液体。

将配制好的混合液置于PCR仪，按以下反应程序扩增：

4 文库纯化与分选

将PrePCR产物用0.5×磁珠纯化，并用100μL水溶解。

5上机和生信分析

文库上MGI测序平台，并用生信流程进行分析。

Phix序列的引物可以使快速检的方法突破index不冲突的限制，可以和同样index的文库一起上机。数据拆分时拿Phix细菌序列将快速检的数据单独拆分出来即可。

效果分析

一、接头制备效率检测

对实施例1和对比例1~2制备获得的接头进行鉴定，如图3所示，GenecastGenecastDuplexUMI其只有单一主峰，说明其制备效率很高；而图4~5所示为现有技术中两种随机接头的构建后的检测图谱，图4有4个主峰，特别是38bp的主峰说明其制备效率低，存在较多未退火成功的接头；图5也说明V其制备效率低，且主峰最高的是88bp，说明接头可能存在互搭的情况。

二、对实施例1和对比例1~2三种接头构建获得文库的检测效果进行比较：

1、Duplex数据比较

对duplex reads、simplex reads和singleton reads的统计方法，参照FgBio(http://fulcrumgenomics.github.io/fgbio/) 。将相同样本分别用实施例1接头、对比例1和对比例2进行建库/上机，然后将下机数据截取相同数据量后进行分析，分析结果如图6~8。如图6所示，实施例1接头的duplex reads数据远超对比例1~2的接头。如图7所示，实施例1接头的simplex reads数据比对比例1~2接头更低。如图8所示，实施例1接头的singletonreads数据比对比例1~2更低。

2、dcsV数据比较

dcsV指有DNA双链支持的突变。dcsV越高，说明Duplex UMI性能越好。

dcsV统计方法参照Vardict（https://github.com/AstraZeneca-NGS/VarDict）或samtools（http://www.htslib.org/）。

结果如图9所示，结果显示，实施例1的结构比对比例1~2的性能更强。

三、对实施例1制得接头的性能进行检测

1、统计实施例1制得接头在测序中占数据量的比例，结果如图10，结果表明，64组UMI的数据占总数据量的99.53%，说明该接头测序获得数据的准确性高。

2、对实施例2中以实施例1制得接头进行建库、捕获、上机检测获得的结果进行生信分析，结果如表7：

表7临床样本生信分析结果

对该样品进行数字PCR定值，其定值结果如下：

表8临床样本数字PCR定值

结果表明，实施例1制备的Genecast UMI接头可以检测0.05%的SNV/Indel突变。

四、对实施例3建库方法和实施例4建库方法进行比较

比较实施例3和实施例4建库方法所用时长，结果如图11，如图所示，实施例4的建库方法比实施例3大大缩短了实验操作的时间。对二者的生信分析结果进行比较，结果如图12，如图所示，实施例3和实施例4的测序结果完全一致。说明，实施例4的建库方法比实施例3的方法缩短了时间，且保持了良好的测序效果，因此采用本发明提供的接头，在快速质检Duplex UMI时，“可以不进行捕获步骤”。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

序列表

<110> 臻和（北京）生物科技有限公司；无锡臻和生物科技有限公司

<120> Duplex UMI接头及测序方法

<130> MP21021371

<160> 2

<170> SIPOSequenceListing 1.0

<210> 1

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

gtcttcctaa gaccgcttgg cctccgactt 30

<210> 2

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

aagtcggatc gtagccatgt cgttctgtga gccaaggagt 40

Claims

1.Duplex UMI接头，其特征在于，

每组64个接头，每个接头内保持碱基平衡；

每组包括：

16个长度为6nt的接头，其3’末端碱基为AG或AC、

16个长度为6nt的接头，其3’ 末端碱基为TG或TC、

16个长度为5nt的接头，其3’ 末端碱基为C

16个长度为5nt的接头，其3’ 末端碱基为G。

2.根据权利要求1所述的Duplex UMI接头，其特征在于，64个接头的核酸序列分别为：CTAGTG、AAGATC、TGCCAG、GCCAAC、ATCCTG、GTGCTG、GCTATC、ACTAAC、AGTATC、CCTCAG、CGGTAC、TGATAC、TCTGTG、AGCAAC、GGAATC、TCCTTC、GTACAG、TCAGAG、GCTGAG、CGCGTG、GAGCAG、CTGTTC、TGAGTG、TTGCAG、GACCTG、GCCGTG、CCGAAC、TAACTG、AACCAG、TATTAC、AACGTG、CACTAC、GACTG、CTGGC、TGTGG、TCAAC、TTCTG、GCAAG、TGTAC、GCTTC、AGATG、TTACC、CGTTG、CCACG、TTAAG、AATTG、AGCCG、AAGCG、GATAG、CTATC、CAAGC、CTTAG、ACGGC、ATGCC、ATTGG、TTGTC、CACAC、CGACC、GACGC、TATGC、TGGCG、GGCAC、GTGAG和TATCG。

3.Genecast UMI接头，其特征在于，包括：64个接头1和64个接头2，

接头1的结构为框架1-（N）xT；接头2的结构为（N）x-框架2；

（N）x为权利要求1或2中所述的Duplex UMI接头。

4.根据权利要求3所述的Genecast UMI接头，其特征在于，