CN113981056A

CN113981056A - 基于已知标签的内参进行高通量测序的方法

Info

Publication number: CN113981056A
Application number: CN202111422884.6A
Authority: CN
Inventors: 蒋析文; 梁志坤; 王琳; 吴轶兰
Original assignee: Guangzhou Da'an Gene Co ltd
Current assignee: Guangzhou Da'an Gene Co ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-01-28
Also published as: WO2023092872A1

Abstract

本申请实施例属于高通量测序技术领域，涉及一种基于已知标签的内参进行高通量测序的方法，包括：生成随机的DNA序列，并在所述DNA序列两端添加含有已知标签的单端接头DNA序列，获得内参序列，基于所述内参序列合成测序质控序列；通过所述测序质控序列对待测样本文库进行高通量测序，获得测序数据；对所述测序数据进行结果分析，获得所述待测样本文库的样本错误分配率，结束所述高通量测序。本申请能够通过内参监控测序过程中标签跳跃的情况。

Description

基于已知标签的内参进行高通量测序的方法

技术领域

本申请涉及高通量测序技术领域，尤其涉及基于已知标签的内参进行高通量测序的方法。

背景技术

随着基因组学技术的发展，高通量测序技术(NGS)越来越广泛应用于感染性疾病防控，如医院感染性疾病爆发的调查，未知病原体的鉴定，检测病原体耐药基因突变；肿瘤的早期诊断以及精准治疗(如肺癌、乳腺癌、胃肠道肿瘤、黑色素瘤等)，如肿瘤个体化治疗相关的驱动基因突变检测，肿瘤基因组学研究，探索肿瘤异质性、耐药性和肿瘤克隆进化过程及机制；遗传病的早期筛查和诊断，如遗传病诊断、新生儿筛查、产前筛查、植入前筛查等领域，如遗传性耳聋、无创产筛，并且朝着快捷、经济的方向飞速发展。所谓高通量测序，即就是同时对数以万计的DNA分子进行测序，这也就意味着更多的样本混合上机，通常是在文库制备中通过接头(Y型接头、U型接头、平端接头、泡形接头)或PCR扩增引入标签(barcode或者index)来区分每个样本。

研究发现，基于ExAmp(排他性扩增)的测序平台，例如HiSeq 3000/4000、HiSeq XTen以及NovaSeq，混样上机测序会出现标签错误分配(即标签跳跃)问题，样本错误分配率超过1％，且对于PCR-free文库，标签跳跃(index hooping)比例可高达6％。即使采用繁琐的nonconbinatorial dual index方案来解决这个问题，index污染率也只能降低0.08％。

2018年6月，深圳华大相关科研人员使用三种主要的文库制备方法研究了DNB测序平台的标签跳跃(index hooping)的问题。BGISEQ测序仪利用独特的DNA纳米球(DNB)技术，基于滚环复制(RCR)进行文库扩增，这种线性扩增可以避免常规PCR带来的错误累积。基于DNB的NGS应用仅使用单个标签(index)就实现了0.0001％至0.0004％低样本错误分配率。此外，用水代替DNA，加入标签(index)，增加空白对照，DNB测序平台发生错误匹配的概率为36million reads分之一，即0.0000028％。对于PCR-free文库，污染率平均约为0.0004％。

虽然相比illuminat平台，华大平台的标签(index)错配率更小，但都存在标签跳跃(index hooping)的问题。更为关键的是，难以监控到标签跳跃(index hooping)的情况。

发明内容

本申请实施例的目的在于提出一种基于已知标签的内参进行高通量测序的方法，能够通过内参监控测序过程中标签跳跃的情况。

为了解决上述技术问题，本申请实施例提供一种基于已知标签的内参进行高通量测序的方法，采用了如下所述的技术方案：

一种基于已知标签的内参进行高通量测序的方法，包括下述步骤：

生成随机的DNA序列，并在所述DNA序列两端添加含有已知标签的单端接头DNA序列，获得内参序列，基于所述内参序列合成测序质控序列；

通过所述测序质控序列对待测样本文库进行高通量测序，获得测序数据；

对所述测序数据进行结果分析，获得所述待测样本文库的样本错误分配率，结束所述高通量测序。

进一步的，所述基于所述内参序列合成测序质控序列的步骤包括：

将所述内参序列克隆至puc57载体中，获得所述测序质控序列。

进一步的，所述通过所述测序质控序列对待测样本文库进行高通量测序，获得测序数据的步骤包括：

通过指定的PCR扩增引物扩增所述测序质控序列，获得目标测序质控序列；

通过所述目标测序质控序列对所述待测样本文库进行高通量测序，获得所述测序数据。

进一步的，所述通过所述目标测序质控序列对所述待测样本文库进行高通量测序，获得所述测序数据的步骤包括：

确定添加所述目标测序质控序列的量，获得添加量，并将所述目标测序质控序列根据所述添加量加入所述待测样本文库中，获得混合文库；

对所述混合文库进行高通量测序操作，获得所述测序数据。

进一步的，所述生成随机的DNA序列的步骤包括：

生成的所述随机的DNA序列的大小为所述待测样本文库的样本片段的大小减去两个所述单端接头DNA序列的大小。

进一步的，所述随机的DNA序列为噬菌体序列或植源型病原体序列，其中，所述噬菌体序列和所述植源型病原体序列均为非致病病原体的基因序列。

进一步的，所述生成随机的DNA序列的步骤包括：

通过特异物种的筛选算法，选择反向病毒的序列；

将选择的序列切割成预设大小，并比对病原数据库和宿主数据库，若病原数据库和宿主数据库中不存在选择的所述序列，则所述序列作为所述随机的DNA序列。

进一步的，所述通过指定的PCR扩增引物扩增所述测序质控序列，获得目标测序质控序列的步骤包括：

PCR扩增的反应体系包括：测序质控序列、buffer、dNTP、DNA聚合酶、混合的PCR扩展引物以及ddH2O。

进一步的，在所述通过指定的PCR扩增引物扩增所述测序质控序列，获得目标测序质控序列的步骤之后，还包括：

通过琼脂糖凝胶电泳检测扩增产物是否与预期一致。

进一步的，所述通过琼脂糖凝胶电泳检测扩增产物是否与预期一致的步骤包括：

配置琼脂糖凝胶，向所述琼脂糖凝胶中加样，并通过电泳仪进行电泳实验，获得电泳结果图像；

根据电泳结果图像判断条带位置是否符合预期。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请通过含有已知标签的内参序列能够有效监控到标签跳跃(index hooping)的情况，通过数据来反应标签跳跃(index hooping)，帮助实验人员去分析原因，从而调整实验方案。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请的基于已知标签的内参进行高通量测序的方法的一个实施例的流程图；

图2是本申请的对测序质控序列进行一代测序的结果示意图；

图3是本申请的对测序质控序列进行一代测序的另一结果示意图；

图4是本申请的对测序质控序列进行一代测序的另一结果示意图；

图5是本申请的对测序质控序列进行一代测序的另一结果示意图；

图6是本申请的对扩增后的测序质控序列的电泳结果示意图；

图7a是本申请对对扩增后的测序质控序列的Qsep分析结果示意图；

图7b是本申请对对扩增后的测序质控序列的Qsep分析另一结果示意图；

图7c是本申请对对扩增后的测序质控序列的Qsep分析另一结果示意图；

图7d是本申请对对扩增后的测序质控序列的Qsep分析另一结果示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

以下的实施例便于更好地理解本申请，但并不限定本申请。下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的实验材料，如无特殊说明，均为自常规生化试剂商店购买得到的。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

继续参考图1，示出了根据本申请的基于已知标签的内参进行高通量测序的方法的一个实施例的流程图。所述的基于已知标签的内参进行高通量测序的方法，包括以下步骤：

S1：生成随机的DNA序列，并在所述DNA序列两端添加含有已知标签的单端接头DNA序列，获得内参序列，基于所述内参序列合成测序质控序列；

S2：通过所述测序质控序列对待测样本文库进行高通量测序，获得测序数据；

S3：对所述测序数据进行结果分析，获得所述待测样本文库的样本错误分配率，结束所述高通量测序。

在本实施例中，单端接头序列为华大集团提供的含有已知标签的单端接头序列。通过所述测序质控序列对待测样本文库进行高通量测序的操作中使用的测序平台为华大集团制造的测序仪，进行MGI2000测序。本申请通过具有已知标签的内参序列能够监控到标签跳跃(index hooping)的情况，通过数据来反应标签跳跃(index hooping)，进而能够帮助实验人员分析原因，调整实验方案。

需要说明的是，本申请中的特定的单端接头序列包括但不限于华大集团提供的单端接头序列，使用的测序平台包括但不限于华大集团制造的测序仪。还可以是illumina公司提供的接头序列以及illumina公司制造的对应的测序仪。

一、随机的DNA序列的生成与筛选：

具体的，所述生成随机的DNA序列的步骤包括：

通过特异物种的筛选算法，选择反向病毒的序列；

在本实施例中，随机序列的筛选过程为：使用特异物种的筛选算法，直接选择了反向病毒的序列，然后使用jellyfish将选择的序列切成150bp，用blastn比对病原数据库和宿主数据库后，若比对不上宿主和任一物种，该序列就作为随机序列。

本申请生成的随机序列的的片段大小为待测样本文库中片段的大小减去两个所述单端接头序列的大小。即可知根据随机序列生成的内参序列的片段大小是根据待测样本文库中片段的大小来确定的。例如，本申请中的待测样本文库中片段的大小约为250bp，此时，随机序列的片段大小设定为150bp，在该随机序列的两端添加特定的单端接头序列，获得的内参序列的片段大小即为246bp。所述随机序列为非致病病原体的基因序列。所述随机序列为噬菌体序列或植源型病原体序列，其中，所述噬菌体序列和所述植源型病原体序列均为非致病病原体的基因序列。

二、测序质控序列的合成：添加华大单端接头，并克隆至puc57载体中。

所述基于所述内参序列合成测序质控序列的步骤包括：

将所述内参序列克隆至puc57载体中，合成所述测序质控序列。

1、测序质控序列(即内参序列质粒)的合成：

由生工生物工程(上海)股份有限公司合成表1中的序列CS0002、CS0003、CS0004、CS0005。

表1测序质控序列汇总表

其中，在CS0002中，gaacgacatggctacgatccgactt、aagtcggaggccaagcggtcttaggaagacaataggtccgatcaactccttggctcaca表示单端接头序列，taggtccgat表示已知的标签(Barcode)的序列(10bp)。

在CS0003中，gaacgacatggctacgatccgact、aagtcggaggccaagcggtcttaggaagacaaggacggaatccaactccttggctcaca表示单端接头序列，GGACGGAATC表示已知的标签的序列。

在CS0004中，gaacgacatggctacgatccgactt、aagtcggaggccaagcggtcttaggaagacaacttactgccgcaactccttggctcaca表示单端接头序列，CTTACTGCCG表示已知的标签的序列。

在CS0005中，gaacgacatggctacgatccgactt、aagtcggaggccaagcggtcttaggaagacaaacctaattgacaactccttggctcaca表示单端接头序列，ACCTAATTGA表示已知的标签的序列。

2、对测序质控序列(即内参序列质粒)进行一代测序的鉴定：

测序结果如图2、图3、图4以及图5所示，图2为对测序质控序列(CS0002)进行一代测序的结果示意图。图3为对测序质控序列(CS0003)进行一代测序的结果示意图。图4为对测序质控序列(CS0004)进行一代测序的结果示意图。图5为对测序质控序列(CS0005)进行一代测序的结果示意图。

从图2至图5的测序峰图看出，一代测序结果质量良好，说明质粒构建成功，能够继续后续实验。

3、扩增测序质控序列(即内参序列质粒)：

通过指定的PCR扩增引物扩增所述测序质控序列，获得目标测序质控序列。

1)溶解质粒，取60ng按以下反应体系和反应程序进行扩增，扩增出含华大单Barcode的序列。

表2标准文库扩增反应体系和反应程序

2)琼脂糖电泳

通过琼脂糖凝胶电泳检测扩增产物是否与预期一致。具体包括：配置琼脂糖凝胶，向所述琼脂糖凝胶中加样，并通过电泳仪进行电泳实验，获得电泳结果图像；根据电泳结果图像判断条带位置是否符合预期。

将1.2g琼脂糖加入100ml 1X TAE电泳缓冲液中，摇匀。在微波炉中加热至琼脂糖完全溶解。冷却至60℃后，加入6ulGelred荧光染料，并摇匀。

将溶解的琼脂糖加入插好梳子的制胶板中，室温冷却凝固。

将凝胶置入电泳槽中，加1X TAE电泳缓冲液至页面覆盖凝胶1-2mm，小心垂直向上拔出梳子。

用移液器吸取2ul的PCR扩增产物于封口膜上，再加2ul的3x Loading Buffer，混匀后，小心加入点样孔，在最后一个孔加上6ul DNA marker(天根的DL2000)。

打开电源开关，调节电压至150v，电泳时间30min，可见溴酚蓝条带由负极向正极移动。

电泳完成后使用Biorad凝胶成像仪成像，保存图片，扩增后(纯化后)的电泳结果图片如图6所示，图6为本申请的电泳结果示意图。从图6可以看出，扩增产物纯化后，条带单一，条带位置在250bp左右，与预期一致。

3)Qsep分析

对2)中获得的PCR扩增后产物使用Qubit进行浓度测定，CS0002、CS0003、CS0004、CS0005浓度分别为：12.5、14.7、21.6、19.2ng/ul。

将样本浓度稀释至Qsep 100建议的上机浓度(1-2ng/ul)，然后按照Qsep100使用说明书进行片段大小的分析。获得结果如图7a-图7d所示，图7a-图7d为本申请对PCR扩增产物进行Qsep分析结果示意图，图7a-图7d依次为：CS0002、CS003、CS0004、CS0005。从图7a-图7d可以看出，片段CS0002、CS003、CS0004、CS0005的片段大小在200-300bp之间，符合预期，说明测序质控序列扩增成功，可进行后续的上机测试。

4、目标测序质控序列与正常文库一起参与测序MGI200测序

确定添加所述目标测序质控序列的量，获得添加量，并将所述目标测序质控序列根据所述添加量加入所述待测样本文库中，获得混合文库；对所述混合文库进行高通量测序操作，获得所述测序数据。

1)文库Pooling(文库汇集)：根据所述添加量，把扩增纯化后的目标测序质控序列与4种标准文库等量混合成混合文库，重新定量检测混合文库的浓度。

2)环化：

参照华大环化试剂盒使用说明书进行(货号：1000005259，试剂盒版本号：V2.0)。

3)DNB制备和上机测序

参照华大MGISEQ-200FCL SE50说明书进行DNB制备和上机测序。

5、下机的数据分析

所述对所述测序数据进行结果分析，获得样本错误分配率的步骤包括：

基于所述测序数据进行统计，获得总测序序列数、已知标签的内参序列的序列数和病原特异检出序列数；基于所述总测序序列数、所述已知标签的内参序列的序列数和所述病原特异检出序列数确定所述样本错误分配率。其中，所述待测样本文库为病原文库。

获得下机测序结果后(fq.gz文件)，进行数据过滤，具体为：去掉低质量数据，接头，人源宿主等。一方面使用bwa比对工具将测序数据与原已知序列进行比对，另一方面使用实验室自研的病原分析流程进行分析，结果如表3所示：

表3-1测序质控上机测序结果

表3-2测序质控上机测序结果

从表3-1和表3-2结果可以看出，每个测序质控的病原分析结果中都或多或少分到一些病原的reads(读长，高通量测序中一个反应获得的测序序列)数，说明这一批数据中存在标签跳跃(index hooping)的问题，每次跳跃(hooping)的病原与每次一起混和(pooling)的样本有关。这也说明测序质控可以作为一个监控标签跳跃(index hooping)的指标。如果跳跃(hooping)到的物种与临床致病病原有关，也可以为解读人员提供一个参考信息，使临床结果更加准确。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

序列表

<110> 广州达安基因股份有限公司

<120> 基于已知标签的内参进行高通量测序的方法

<160> 5

<210> 1

<211> 234

<212> DNA

<213> 人工合成

<400> 1

gaacgacatg gctacgatcc gacttcctgg gtgagcatca ggggcgatac gttcacatcc 60

cggaggacct cgaagcacaa cgccaggact gcgaagatcc acgaaatcac gaaacagcac 120

gacattgaag gttggactga tccagttgct gggtatgtat ggatataagt tcatcaagtc 180

ggaggccaag cggtcttagg aagacaatag gtccgatcaa ctccttggct caca 234

<210> 2

<211> 234

<212> DNA

<213> 人工合成

<400> 2

gaacgacatg gctacgatcc gacttagaat gaagtgggca cagttaagat ctaataaaac 60

gtggaaacag tcttgacggg ctacgatcag agcgggacat cagtaactaa tagccagtct 120

cgtgcgaccg taaccaagac gctcaccgta ataaccagga ggagtaacgg cggggaagtc 180

ggaggccaag cggtcttagg aagacaagga cggaatccaa ctccttggct caca 234

<210> 3

<211> 234

<212> DNA

<213> 人工合成

<400> 3

gaacgacatg gctacgatcc gacttcctgg gtgagcatca ggggcgatac gttcacatcc 60

cggaggacct cgaagcacaa cgccaggact gcgaagatcc acgaaatcac gaaacagcac 120

gacattgaag gttggactga tccagttgct gggtatgtat ggatataagt tcatcaagtc 180

ggaggccaag cggtcttagg aagacaatag gtccgatcaa ctccttggct caca 234

<210> 4

<211> 234

<212> DNA

<213> 人工合成

<400> 4

gaacgacatg gctacgatcc gacttttggt gttgttcatt ttacgaactg cacttgtaca 60

tttattacgg cgaacgaatt atcagtcccg aactgtaata ctgactgtaa gttagttact 120

aggagtaaat tgcgtgagta taatggtaac tacgtcatgc tggactgtgt taccgaagtc 180

ggaggccaag cggtcttagg aagacaactt actgccgcaa ctccttggct caca 234

<210> 5

<211> 234

<212> DNA

<213> 人工合成

<400> 5

gaacgacatg gctacgatcc gacttgagga accagttcct catacatacg tttacttaat 60

gacagactcc cttatacgtg ttaacgttaa tctcttagtg ttagtgagag taaagttata 120

tggtcattag ataatagagg gatgataaaa tgtgaatcat cgagagacga tttctaagtc 180

ggaggccaag cggtcttagg aagacaaacc taattgacaa ctccttggct caca 234

Claims

1.一种基于已知标签的内参进行高通量测序的方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于已知标签的内参进行高通量测序的方法，其特征在于，所述基于所述内参序列合成测序质控序列的步骤包括：

3.根据权利要求2所述的基于已知标签的内参进行高通量测序的方法，其特征在于，所述通过所述测序质控序列对待测样本文库进行高通量测序，获得测序数据的步骤包括：

4.根据权利要求3所述的基于已知标签的内参进行高通量测序的方法，其特征在于，所述通过所述目标测序质控序列对所述待测样本文库进行高通量测序，获得所述测序数据的步骤包括：

对所述混合文库进行高通量测序操作，获得所述测序数据。

5.根据权利要求1所述的基于已知标签的内参进行高通量测序的方法，其特征在于，所述生成随机的DNA序列的步骤包括：

6.根据权利要求1所述的基于已知标签的内参进行高通量测序的方法，其特征在于，所述随机的DNA序列为噬菌体序列或植源型病原体序列，其中，所述噬菌体序列和所述植源型病原体序列均为非致病病原体的基因序列。

7.根据权利要求1所述的基于已知标签的内参进行高通量测序的方法，其特征在于，所述生成随机的DNA序列的步骤包括：

通过特异物种的筛选算法，选择反向病毒的序列；

8.根据权利要求3所述的基于已知标签的内参进行高通量测序的方法，其特征在于，所述通过指定的PCR扩增引物扩增所述测序质控序列，获得目标测序质控序列的步骤包括：

9.根据权利要求3所述的基于已知标签的内参进行高通量测序的方法，其特征在于，在所述通过指定的PCR扩增引物扩增所述测序质控序列，获得目标测序质控序列的步骤之后，还包括：

通过琼脂糖凝胶电泳检测扩增产物是否与预期一致。

10.根据权利要求1所述的基于已知标签的内参进行高通量测序的方法，其特征在于，所述通过琼脂糖凝胶电泳检测扩增产物是否与预期一致的步骤包括：

根据电泳结果图像判断条带位置是否符合预期。