CN113957123A

CN113957123A - 一种构建和检测含有独特双端文库标签组合的gDNA文库的方法

Info

Publication number: CN113957123A
Application number: CN202111090137.7A
Authority: CN
Inventors: 张之宏; 罗健; 汉雨生
Original assignee: Guangzhou Burning Rock Dx Co ltd
Current assignee: Guangzhou Burning Rock Dx Co ltd
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2022-01-21
Also published as: CN109517882A; CN109517882B

Abstract

本发明提供一种构建和检测含有独特双端文库标签组合的gDNA文库的方法，属于生物检测技术领域，该gDNA文库的构建方法包括以下步骤：(1)将gDNA标准品稀释后进行gDNA片段化；(2)将片段化的gDNA进行末端修复；(3)将末端修复的gDNA的片段的两端分别与预制接头连接，并将连接产物纯化；(4)对纯化后的连接产物进行文库扩增，并对扩增后的文库进行纯化，构建得到带有独特文库标签组合的gDNA文库。本发明构建的gDNA文库含有独特双端文库标签，能够有效避免由于标签引物之间的交叉污染而导致样本间错误分配，更适合文库准确测序的需求。

Description

一种构建和检测含有独特双端文库标签组合的gDNA文库的方法

本申请是申请日为2018年11月09日、申请号为201811337895.2、名称为“一种用于检测独特双端文库标签组合的质控方法及应用”的中国发明专利申请的分案。

技术领域

本发明属于生物检测技术领域，尤其涉及一种构建和检测含有独特双端文库标签组合的gDNA文库的方法。

背景技术

随着高通量技术的迅速发展，测序仪的通量越来越大，早先利用物理隔断方法例如分道(Lane)式流动槽(Flow Cell)区分不同测序文库的方法已经不适用。多重文库测序(Multiplex Sequencing)被广泛应用于二代测序的各个领域。多重文库测序的关键则是文库标签(Index)。文库标签是在NGS(Next Generation Sequecing)文库制备中，对每个样本进行特殊序列标记，用于区分不同来源DNA的特异序列，一般长度为4～12碱基长度。在高通量测序过程中，被不同已知标签序列标记的文库经混合后进行测序反应，文库的插入片段以及标签被顺序读出并转换为碱基。在接下来的分析过程中，软件利用预期的标签序列对测序结果进行分类，将测序结果拆分进不同的样本。

在多重测序过程中，如果发生了文库序列错误分配，原本不属于某文库的序列就会被错误的归类。这类错误分配的发生对于某些应用将带来错误的分析结果。举例来说，当取自癌症患者的组织样本的文库与取自良性肿瘤患者的组织样本的文库共同进行测序，如果有部分癌症组织样本的序列被错分到良性肿瘤组织样本中，导致良性肿瘤患者的检测报告显示为恶性肿瘤，导致诊断错误。

有很多原因可以导致文库序列被错误分配。常见的包括以下几种：1)文库制备过程中的交叉污染，2)标签引物生产过程中的交叉污染，3)多重文库在流动槽进行成簇反应时发生的交叉反应，以及4)由于簇密度过大等原因导致的光学偏差等。

适用于二代测序文库标签引物往往长度为50～70碱基，一般而言需要纯化以保证全长引物的纯度。然而，纯化本身由于需要切胶回收或者过柱，往往会导致更多的交叉污染。以HPLC(高效液相色谱)而言，纯化柱对标签引物的吸附以及重复使用会不可避免的带来交叉污染。虽然这类污染可以通过在两个不同标签引物过柱纯化间进行空样洗脱或者无关样本洗脱来减少残余污染，这仍然不能完全避免交叉污染。根据经验，前后两次纯化会残留0.5％～5％的前一个标签引物到后一个标签引物中。

由于NGS的高通量所带来的高敏感性，标签引物的质检需要非常灵敏的方法以用于检测低至千分之一甚至万分之一的可能污染。另外由于标签引物之间的序列非常相似，常规的方法例如qPCR无论从灵敏度还是特异性上都不适合用于检测污染。一般常规的方法仍然是使用NGS平台进行质检，但常规的方法对于每条Lane最多只能检测一条目标标签引物，这样而言使质检成本变得高不可攀。

因此，有必要设计出一种新型的独特双端文库标签组合的质控方法，以提检测效率。

发明内容

本发明目的在于克服现有技术存在的不足，而提供一种用于检测独特双端Index组合的质控方法及应用，其能提高文库标签的检测效率，更适合文库准确测序的需求。

为实现上述目的，本发明采取的技术方案为：一种用于检测独特双端文库标签组合的质控方法，其包括以下步骤：

S1)以文库标签标准品与gDNA标准品为原料，构建带有独特双端文库标签组合的gDNA文库，将构建好的文库进行上机测序，并读取文库标签序列；

S2)对文库标签序列进行第一次质控分析，质控分析的指标包括以下几项：最大的单侧标签污染占比≤2.5％，最大的标签组合污染占比≤0.01％，每组标签样本序列条数≥5000条，所有标签组合混合占比方差系数≤0.5，综合序列通过率≥97％，每组标签样本序列占比≥0.2/文库标签组合对数，单侧大于1％污染的标签占比应≤10％；

S3)若步骤S2)质控分析显示指标不符合，则重新合成不符合质控要求的文库标签；按照步骤S1)方法，以重新合成的文库标签、第一次质控分析符合要求的文库标签和gDNA为原料，构建带有独特双端文库标签组合的gDNA文库，将构建好的文库重新进行上机测序，并读取文库标签序列；

S4)对文库标签序列进行第二次质控分析，直至所有文库标签符合质控分析的指标；

在质控分析的参数中，所述独特双端文库标签组合均由上游文库标签和下游文库标签组成，所述上游文库标签统称为IG5，IG5包含为A和B；所述下游文库标签统称为IG7，IG7包含a和b；匹配且正确的独特双端文库标签组合为A-a以及B-b；不匹配的独特双端文库标签组合为A-b，以及B-a；每个测序反应后通过分析可以得到以上组合各自的序列条数；

所述单侧标签污染占比为组内标签之间发生的交叉污染比例，且污染只可能发生在组内，即IG5组内或/和IG7组内发生污染；

当IG7的a在生产过程中未发生任何交叉污染，对IG5的A而言，其中含有B的污染占比＝含有B-a的序列条数/所有含有a的序列条数，

当IG5的A在生产过程中未发生任何交叉污染，对IG7的a而言，其中含有b的污染占比＝含有A-b序列条数/所有含有A的序列条数；

当B污染A且b污染a，则B-b标签组合污染占比＝(含有B-a的序列条数/所有含有a的序列条数)×(含有A-b序列条数/所有含有A的序列条数)；

当IG7的b在生产过程中未发生任何交叉污染，对IG5的B而言，其中含有A的污染占比＝含有A-b的序列条数/所有含有b的序列条数，

当IG5的B在生产过程中未发生任何交叉污染，对IG7的b而言，其中含有a的污染占比＝含有B-a序列条数/所有含有B的序列条数；

当A污染B且a污染b，则A-a标签组合污染占比＝(含有A-b的序列条数/所有含有b的序列条数)×(含有B-a序列条数/所有含有B的序列条数)；

所述每组标签样本序列条数为通过系统过滤后的每组正确配对序列条数，即含有A-a的序列条数或含有B-b的序列条数；

所述所有标签组合混合占比方差系数为通过系统过滤后的每组正确配对序列条数在通过系统过滤后的总配对正确序列条数中比例的方差系数；

所述综合序列通过率为测序反应后通过系统过滤后的正确配对且有效序列的总条数占通过系统过滤后所有序列总条数的比例；

所述每组标签样本序列占比为通过系统过滤后的每组正确配对的序列条数占通过系统过滤后总序列的比例；

所述单侧大于1％污染的标签占比为：上游文库标签内，污染比例大于1％的文库标签数占总文库标签数的比例；以及，下游文库标签内，污染比例大于1％文库标签数占总文库标签数的比例。

作为上述技术方案的改进，所述步骤S1)依次包括以下步骤：gDNA标准品准备，gDNA片段化，末端修复，接头连接，接头连接产物纯化，文库扩增，扩增文库的纯化，纯化文库的质检，纯化文库片段大小的检测和文库上机测序。

作为上述技术方案的改进，所述独特双端文库标签组合由IG5组和IG7组组成，IG5和IG7各自组内的文库标签的汉明距离≥3，IG5和IG7组间的文库标签的序列汉明距离≥2。

作为上述技术方案的进一步改进，文库标签通过高效液相色谱法进行纯化以及通过质谱分析确认分子量，要求纯度≥85％。

作为上述技术方案的改进，所述独特双端文库标签组合由96对文库标签组成，即IG5组内有96个上游文库标签，IG7组内有96个下游文库标签，一一对应；每组标签样本序列占比则相应调整为≥0.2％。

作为上述技术方案的改进，所述独特双端文库标签组合由48对文库标签组成，即IG5组内有48个上游文库标签，IG7组内有48个下游文库标签，一一对应；每组标签样本序列占比则相应调整为≥0.4％。

作为上述技术方案的改进，当独特双端文库标签组合由192对文库标签组成，即IG5组内有192个上游文库标签，IG7组内有192下游文库标签，一一对应，每组标签样本序列占比则相应调整为≥0.1％。

作为上述技术方案的改进，当独特双端文库标签组合由288对文库标签组成，即IG5组内有288个上游文库标签，IG7组内有288下游文库标签，一一对应，每组标签样本序列占比则相应调整为≥0.07％。

作为上述技术方案的改进，当独特双端文库标签组合由384对文库标签组成，即IG5组内有384个上游文库标签，IG7组内有384下游文库标签，一一对应，每组标签样本序列占比则相应调整为≥0.05％。

另外，本发明还提供所述的质控方法在样本序列测定中应用。

本发明的有益效果在于：本发明提供一种用于检测独特双端文库标签组合的质控方法及应用，该质控方法能高效检测出文库标签的交叉污染，且成本相对较低，更能适合样本序列的高通量测定。

附图说明

图1显示实施例1中第一次模拟的质控结果；

图2显示实施例1中第二次模拟的质控结果；

图3显示实施例2的IG5端第一次质控分析的结果；

图4为实施例2的IG7端第一次质控分析的污染占比热点图，图4中有96对标签引物，横坐标从左至右依次为IG5A01～IG5A12、IG5B01～IG5B12、IG5C01～IG5C12直至IG5H01～IG5H12，纵坐标从上至下依次为IG7A01～IG7A12、IG7B01～IG7B12、IG7C01～IG7C12直至IG7H01～IG7H12；图中椭圆圈出的点表示为不符合要求的标签引物；以下类似；

图5为实施例2的IG5端第一次质控分析的污染占比热点图；

图6为实施例2的IG7和IG5端第一次质控分析的污染占比的分布图；

图7显示实施例2中IG7端的两次质控分析的稳定性对比结果；

图8显示实施例2中IG5端的两次质控分析的稳定性对比结果；

图9显示实施例3的IG5端第一次质控分析的结果；

图10为实施例3的IG7端第一次质控分析的污染占比热点图；

图11为实施例3的IG5端第一次质控分析的污染占比热点图；

图12为实施例3的IG7和IG5端第一次质控分析的污染占比的分布图。

具体实施方式

为更好地说明本发明的目的、技术方案和优点，下面将结合具体实施例和附图对本发明作进一步说明。

另外，需要说明的是在本申发明说明书中，Index、文库标签和标签引物表示同一个意思；在每组标签样本序列占比的计算中，0.2/文库标签组合对数的结果保留一个非零的数字(并四舍五入)。

独特双端文库标签在防交叉污染导致样本污染的原理

在NGS领域，为了区分同一个测序反应下的不同样本，在建库过程中给不同样品加上特定的“标签”(Index)，以便在后续数据分析时可以将不同样品数据分开。随着测序仪通量的不断提高，更多的样本被拼凑到同一个流动槽道(Lane)中测序，对Index的数量和区分度提出更高的要求。另外，Illumina HiSeqX/4000和NovaSeq都采用了不同于其他Illumina测序仪的成簇方法，文献报道其有更高的Index交叉污染风险。传统单端Index引物只依据一端进行数据拆分，发生污染时很容易将数据错分。采用独特双端Index引物可以最大程度避免由于Index交叉污染带来的样本污染风险，保证产品的稳定可靠性。独特双端Index引物由于依靠独特的双端配对Index进行数据拆分，为测序序列增加了“双保险”，发生污染的大部分序列会被丢弃。表1则比较了单端，组合双端以及独特双端Index策略对Index交叉污染的容忍度。

表1

通过NGS方法对独特双端Index引物进行高通量污染质检原理

由于使用了独特双端Index，每个样本都被Index标记2次，这样一来对单端标记的引物间交叉污染容忍度大大上升。举例而言，如果2对Index单侧污染的比例均为1％，实际导致的样本错分污染风险为1％×1％＝0.01％。这种容忍度也大大减轻了Index引物合成与纯化的压力，使制造成本进一步得到控制。

利用独特双端Index的优势，本发明提供了一种简单可行的利用NGS检测标签引物交叉污染的质控方法。其基本原理基于观测非期望的双端Index组合在整个测序结果中的占比从而估计出可能发生的最大交叉污染可能性以及涉及到的Index，从而避免由于Index引物之间的交叉污染而导致的样本间错误分配。

举例说明，四个文库被分别标记为A+a，B+b，C+c，D+d。因此在进行序列分析时，只有上述4种组合被认为是合法组合。以组合A+b为例，因为理论上只有A会和a配对，如果观测到了A+b组合有两种可能性：1)标签引物b进入了引物a，这里定义S为含该种Index的序列个数，估算污染比例为S_(A+b)/S_A；2)引物A进入了引物B，估算污染比例为S_(A+b)/S_b。需要指出的是，该计算方法的前提在于同类别Index比如A/B/C/D内不含有任何非同类别的Index例如a/b/c/d。另外估算模型只考虑了简单的一对一污染模式，而不是多重污染等复杂情况。另外该计算方法只是预估了最大的污染可能性并且没有能力判断污染的方向性，事实上任何一种单向的污染事件发生后，例如“A进入B”的事件，都会被检测成“A进入B”或者“b进入a”两种可能性。根据该计算模型，我们可以估计出独特组合双端Index文库A+a在多重测序内的被其他引物的最大组合污染风险为：

然而由于我们期望的组合只有A+a，B+b，C+c，D+d四种，实际上的有效最大污染风险可以计算为：

在实际应用例子里，我们对48对或96对Index引物分别进行PCR操作标记Index到文库，然后混合在一起进行常规MiSeq测序。测序后分析直接调用分析脚本对96×6＝9216种序列组合进行分析，寻找非正常组合的比例以及计算各自的污染占比。

Index上机测序

1、gDNA标准品制备

1)48plex Index进行质检需要500ng gDNA标准品，96plex Index进行质检需要1000ng gDNA标准品；

2)取50μl 1×IDTE Buffer，加入到新的1.5ml Eppendorf LoBind管中，再向管中加入对应体积的gDNA标准品：48plex Index板检测，gDNA标准品加入体积为2μl；96plexIndex板检测，gDNA标准品加入体积为4μl；后涡旋混匀10～15s，后短暂离心使溶液回到管底；

3)将标准品稀释品转移至Covaris MicroTΜBE管中，补充1×IDTE Buffer至50μl，后进行后续的DNA片段化操作。

2、gDNA片段化

使用Covaris M220仪器将DNA打断到170～200bp的片段，打断完成后，将CovarisMicroTube管取出，离心使液体回到管底。

3、末端修复，3’端加A

1)试剂准备：打开KAPA Hyper Prep 96reaction Kit，取出以下2管置于冰上融化；

2)在新的1.5ml Eppendorf LoBind管中，冰上配制末端修复和加A反应体系混匀液，手指轻弹3～5次，上下颠倒混匀2～3次，离心机离心1～3s；反应体系的配置如表2所示；

3)吸取60μl混匀液分装入4个(48plex Index板)或8个(96plex Index板)0.2ml平盖PCR管中，离心机短暂离心1～3s；

4)放入PCR仪中，进行以下操作：85℃热盖，20℃30min，65℃30min，4℃保存，2h内进入下一步。

表2

4、接头连接，将加完A的DNA双链片段两端与预制接头(含有T粘性末端)连接

1)在新1.5ml Eppendorf LoBind管中，冰上配制接头连接反应体系混匀液，手指轻弹3～5次，上下颠倒混匀2～3次，离心机离心1～3秒；反应体系的配置如表3示；

2)吸取50μl混匀液加入上述0.2ml管中(48plex Index板共4管，96plex Index板共8管)，移液器上下吹打5次混匀，离心1～3s；

3)在PCR仪运行以下程序：20℃15min，70℃10min，4℃保存(85℃热盖)。

表3

5、连接产物的纯化，去除接头二聚体和未连接接头等其他成分

1)上下颠倒2～3次，涡旋混匀5～10s回复室温的SPB磁珠，使其均一化；取1.5ml离心管，按连接反应体系和磁珠体积1：0.8比例，先后加入均一化的磁珠和加接头产物；具体策略如下：磁珠为352μl、接头产物为440μl，4管合并为1管纯化，共1管；磁珠为2×352μl、接头产物为2×440μl，4管合并为1管纯化，共2管(96plex Index)；加入后涡旋混匀，旋转孵育5min，短暂离心；

2)将离心管置于磁力架，等待溶液澄清；将离心管置于磁力架上不动，打开管盖，小心吸走澄清上清，避免碰到磁珠；

3)管仍置于磁力架上，每管加入500μL新鲜配制的75％乙醇，等待1min使磁珠充分沉淀，期间沿水平方向缓慢旋转离心管1圈，吸走乙醇；复此步骤1次；

4)离心1～3s，将离心管重新放回磁力架静置30s，使用移液器除净残留乙醇，保持管盖开启；室温3min使磁珠干燥，每管中加入500μl EB溶液，充分吹打混匀，室温孵育2min；将离心管置于磁力架2min直至溶液澄清，使用移液器移取490μl上清，转移至新的Eppendorf LoBind 1.5ml离心管中(96plex Index板，两管在洗脱后合并为1管)，冰上备用。

6、文库扩增，扩增已经连接完接头的文库

1)在5ml Eppendorf LoBind管(或者15ml离心管)中准备相应体积反应体系混匀液(冰上配制)，手指轻弹3～5次，上下颠倒混匀2～3次，竖直静置0.5～1min；反应体系的配置如表4所示；

2)将配制好的反应体系混合液平均分配到8连管中，每次均分体积为138μl(96Index pair Plate(refer part2#)检测，需要进行两次平均分配：142μl+132μl)；

3)将反应体系混合液分装入新的48孔板(48plex Index)或者96PCR板(96plexIndex)，分装体积为22.5μl/孔；

4)从IDP板中取出2.5μl Index(加入到上述分装好的反应体系混合液48孔板或者96孔PCR板中，反复吹打混匀2～3次，并封膜；甩板机离心1000rpm，1min(反应体积25μl)；置于PCR仪上运行，运行程序如表5所示。

表4

表5

7、扩增的文库纯化，去除引物二聚体及反应体系

1)将SPB磁珠上下颠倒2～3次，在VORTEX最大转速下混匀5～10s，使其均一化；

2)吸取相应的SPB磁珠到加样槽中，每个样本加入20μl SPB磁珠(样本:磁珠＝1：0.8)：48个样本则在加样槽中加入1440μl左右磁珠，96个样本则在加样槽中加入2880μL左右磁珠；

3)从PCR仪上取出48孔板，1000rpm 3s，小心撕去贴膜；从加样槽中吸取20μl SPB磁珠加入到48孔板/96孔PCR板中，上下吹打10次；

4)48孔板/96孔PCR板贴膜，短暂离心1000rpm 3s，置于室温5min；48孔板/96孔PCR板置于96孔磁力架上，待溶液澄清；弃膜，吸取上清45μl，丢弃；

5)48孔板/96孔PCR板仍置于磁力架上,在样本孔中加入200μl新鲜配制的75％乙醇；在磁力架上静置48孔板/96孔PCR板使磁珠充分浸洗，待1min，弃乙醇；重复此步骤1次；

6)将48孔板/96孔PCR板静置在磁力架上30s，并除净残留乙醇；将48孔板/96孔PCR板从磁力架上取下，置于PCR板架上室温2min，使磁珠干燥；在48孔板/96孔PCR板中加入14μl EB，盖上八连管盖，涡旋5s左右，短暂离心1000rpm 3s；

7)将48孔板置于室温孵育2min，弃膜，将48孔板置于磁力架2min，直至溶液澄清；移取上清8μL至新的48孔板/96孔PCR板中，勿吸磁珠；

8)将每一列文库转移到同一新的0.2ml 8连管中，再将0.2ml 8连管中文库转移至同一新的1.5ml Eppendorf LoBind管，合并为pooling文库，Vortex混匀并离心；将混匀后的纯化文库取出20μl至一新的1.5ml Eppendorf LoBind管，再加入180μl EB，反复吹打5～6次，将文库预先稀释10倍为后续检测做准备。

8、纯化文库的质检

使用

dsDNA HS(High Sensitivity)Assay Kit(Thermo Fisher)测量稀释后的文库浓度，并换算回预文库浓度；文库浓度界于9～60ng/μl之间，且Labchip结果正常，则文库构建部分合格，可进行后续的Miseq上机；若不能达到要求则需要重新进行文库制备。

9、纯化的文库片段大小检测(Library QC)

使用The LabChip DNA High Sensitivity Reagent kit(Perkin Elmer)对稀释后的文库进行检测；合格的文库片段主峰在350～500bp，无明显小片段在10～150bp区间。

10、文库上机策略(Miseq Run)

1)将纯化好的文库根据QC的检测浓度稀释到4nM，将1N NaOH使用无核酸酶水稀释到0.2N；

2)文库变性：取稀释为4nM的文库5μl加入新的1.5ml Eppendorf LoBind管，然后再加入5μl 0.2N NaOH，吹打混匀15～20次，室温孵育5min；

3)文库稀释至13pM；

4)后续操作参考Illumina Miseq操作指南，使用Read1＝12循环，Index1＝8循环，Index2＝8循环的相应设定对文库进行测序。

11、测序数据分析(QC Analysis)

利用Illumina bcl2fastq软件配合相应参数输出所有index1和index2的序列(Fastq格式)，使用相应脚本对序列进行统计分析，得出各个指标。

11、文库测序结果判定标准

Miseq下机指标：测序数据质量01：Q30>90％，测序数据质量02：PF>97％，测序数据质量03：Phasing及Prephasing均小于0.30。

实施例1质控方法的模拟

1)第一次模拟单向污染：第一次检测出1个交叉污染，给出2种推测污染方向，最大污染比率(即最大的单侧标签污染占比)4％；模拟数据生成96对标准配对序列，出现污染的正常配对IG7F01+IG5F01 48000条，IG7F01+IG5E01 2000条；其余每对正常配对均为50000条。将模拟的文库数据进行数据分析，实际测试结果如表6所示，根据表6的参数进行质控分析，得到质控分析结果如图1所示；其中，最大配对污染占比乘积(即最大的标签组合污染占比)＝4％×0＝0，正确配序列条数为48000，且正确配对且有效序列条数为48000，序列通过率为100％，单侧大于1％污染的标签数为1种，大于1％污染index占比(即单侧大于1％污染的标签占比)＝1/96＝1.04％。

表6

2)第二次模拟能造成样本错分的双向污染：第二次检测出2个交叉污染，并且该2个交叉污染是可以造成样本错分的，最大污染比率2％，最大配对污染乘积0.04％；模拟数据生成标准配对序列均为50000条，出现污染的正常配对IG7F01+IG5F01 48000条，错误配对IG7F01+IG5E01 1000条，IG7E01+IG5F01 1000条。将模拟的文库样本进行数据分析，实际测试结果如表7所示，根据表7的参数进行质控分析，得到质控分析结果如图2所示。

表7

由此可见，本次模拟测试测试结果与预期一致。

实施例2

本实施例以96对文库标签进行质检，第一次质控分析报结果如表8和表9所示，表8和表9仅列出污染的情况。

表8针对IG7端Index的测序结果

Query

期望组合对象

期望组合

非期望组合

非期望组合对象

总序列条数

非期望组合序列条数

污染源

被污染

污染占比

IG7A01

IG5A01

IG7A01-IG5A01

IG7A01-IG5B01

IG5B01

96

45

IG5B01

IG5A01

46.88％

IG7A01

IG5A01

IG7A01-IG5A01

IG7A01-IG5A02

IG5A02

96

51

IG5A02

IG5A01

53.13％

IG7A08

IG5A08

IG7A08-IG5A08

IG7A08-IG5H07

IG5H07

53249

88

IG5H07

IG5A08

0.17％

IG7B02

IG5B02

IG7B02-IG5B02

IG7B02-IG5A03

IG5A03

40825

43

IG5A03

IG5B02

0.11％

IG7B10

IG5B10

IG7B10-IG5B10

IG7B10-IG5D08

IG5D08

46021

70

IG5D08

IG5B10

0.15％

IG7B11

IG5B11

IG7B11-IG5B11

IG7B11-IG5C11

IG5C11

47969

68

IG5C11

IG5B11

0.14％

IG7C01

IG5C01

IG7C01-IG5C01

IG7C01-IG5G12

IG5G12

39518

64

IG5G12

IG5C01

0.16％

IG7C06

IG5C06

IG7C06-IG5C06

IG7C06-IG5C07

IG5C07

60810

637

IG5C07

IG5C06

1.05％

IG7C08

IG5C08

IG7C08-IG5C08

IG7C08-IG5B08

IG5B08

67961

119

IG5B08

IG5C08

0.18％

IG7D03

IG5D03

IG7D03-IG5D03

IG7D03-IG5E03

IG5E03

44222

48

IG5E03

IG5D03

0.11％

IG7D03

IG5D03

IG7D03-IG5D03

IG7D03-IG5C03

IG5C03

44222

56

IG5C03

IG5D03

0.13％

IG7D04

IG5D04

IG7D04-IG5D04

IG7D04-IG5D03

IG5D03

40521

41

IG5D03

IG5D04

0.10％

IG7D07

IG5D07

IG7D07-IG5D07

IG7D07-IG5E08

IG5E08

39029

281

IG5E08

IG5D07

0.72％

IG7D08

IG5D08

IG7D08-IG5D08

IG7D08-IG5C08

IG5C08

53581

85

IG5C08

IG5D08

0.16％

IG7D09

IG5D09

IG7D09-IG5D09

IG7D09-IG5E09

IG5E09

54786

70

IG5E09

IG5D09

0.13％

IG7E03

IG5E03

IG7E03-IG5E03

IG7E03-IG5F03

IG5F03

60714

78

IG5F03

IG5E03

0.13％

IG7E07

IG5E07

IG7E07-IG5E07

IG7E07-IG5D07

IG5D07

57285

88

IG5D07

IG5E07

0.15％

IG7F04

IG5F04

IG7F04-IG5F04

IG7F04-IE5D04*

IE5D04*

49814

54

IE5D04*

IG5F04

0.11％

IG7F07

IG5F07

IG7F07-IG5F07

IG7F07-IG5E07

IG5E07

55273

63

IG5E07

IG5F07

0.11％

IG7G08

IG5G08

IG7G08-IG5G08

IG7G08-IG5F08

IG5F08

43769

167

IG5F08

IG5G08

0.38％

IG7G10

IG5G10

IG7G10-IG5G10

IG7G10-IG5F06

IG5F06

57227

60

IG5F06

IG5G10

0.10％

IG7H02

IG5H02

IG7H02-IG5H02

IG7H02-IG5H03

IG5H03

38360

58

IG5H03

IG5H02

0.15％

IG7H07

IG5H07

IG7H07-IG5H07

IG7H07-IG5G07

IG5G07

36388

42

IG5G07

IG5H07

0.12％

表9针对IG5端Index的测序结果

Query

期望组合对象

期望组合

非期望组合

非期望组合对象

总序列条数

非期望组合序列条数

污染源

被污染

污染占比

IG5A01

IG7A01

IG5A01-IG7A01

IG5A01-IG7B01

IG7B01

26

IG7B01

IG7A01

100.00％

IG5A02

IG7A02

IG5A02-IG7A02

IG5A02-IG7A01

IG7A01

49928

51

IG7A01

IG7A02

0.10％

IG5A03

IG7A03

IG5A03-IG7A03

IG5A03-IG7B02

IG7B02

33067

43

IG7B02

IG7A03

0.13％

IG5A08

IG7A08

IG5A08-IG7A08

IG5A08-IG7B08

IG7B08

53201

60

IG7B08

IG7A08

0.11％

IG5B08

IG7B08

IG5B08-IG7B08

IG5B08-IG7C08

IG7C08

61974

119

IG7C08

IG7B08

0.19％

IG5B11

IG7B11

IG5B11-IG7B11

IG5B11-IG7A11

IG7A11

47967

51

IG7A11

IG7B11

0.11％

IG5C03

IG7C03

IG5C03-IG7C03

IG5C03-IG7D03

IG7D03

49273

56

IG7D03

IG7C03

0.11％

IG5C07

IG7C07

IG5C07-IG7C07

IG5C07-IG7C06

IG7C06

45027

637

IG7C06

IG7C07

1.41％

IG5C08

IG7C08

IG5C08-IG7C08

IG5C08-IG7D08

IG7D08

67868

85

IG7D08

IG7C08

0.13％

IG5C11

IG7C11

IG5C11-IG7C11

IG5C11-IG7B11

IG7B11

57807

68

IG7B11

IG7C11

0.12％

IG5D07

IG7D07

IG5D07-IG7D07

IG5D07-IG7E07

IG7E07

38866

88

IG7E07

IG7D07

0.23％

IG5D07

IG7D07

IG5D07-IG7D07

IG5D07-IG7C08

IG7C08

38866

49

IG7C08

IG7D07

0.13％

IG5D08

IG7D08

IG5D08-IG7D08

IG5D08-IG7B10

IG7B10

53619

70

IG7B10

IG7D08

0.13％

IG5D08

IG7D08

IG5D08-IG7D08

IG5D08-IG7E08

IG7E08

53619

65

IG7E08

IG7D08

0.12％

IG5E07

IG7E07

IG5E07-IG7E07

IG5E07-IG7F07

IG7F07

57203

63

IG7F07

IG7E07

0.11％

IG5E08

IG7E08

IG5E08-IG7E08

IG5E08-IG7D07

IG7D07

72767

281

IG7D07

IG7E08

0.39％

IG5E09

IG7E09

IG5E09-IG7E09

IG5E09-IG7D09

IG7D09

58757

70

IG7D09

IG7E09

0.12％

IG5F03

IG7F03

IG5F03-IG7F03

IG5F03-IG7E03

IG7E03

54811

78

IG7E03

IG7F03

0.14％

IG5F06

IG7F06

IG5F06-IG7F06

IG5F06-IG7G10

IG7G10

50348

60

IG7G10

IG7F06

0.12％

IG5F08

IG7F08

IG5F08-IG7F08

IG5F08-IG7G08

IG7G08

67091

167

IG7G08

IG7F08

0.25％

IG5G12

IG7G12

IG5G12-IG7G12

IG5G12-IG7C01

IG7C01

40234

64

IG7C01

IG7G12

0.16％

IG5H03

IG7H03

IG5H03-IG7H03

IG5H03-IG7H02

IG7H02

48832

58

IG7H02

IG7H03

0.12％

IG5H06

IG7H06

IG5H06-IG7H06

IG5H06-IG7A11

IG7A11

42784

62

IG7A11

IG7H06

0.14％

IG5H07

IG7H07

IG5H07-IG7H07

IG5H07-IG7A08

IG7A08

36410

88

IG7A08

IG7H07

0.24％

IG5H11

IG7H11

IG5H11-IG7H11

IG5H11-IG7E11

IG7E11

32519

50

IG7E11

IG7H11

0.15％

对表8和表9数据进行第一次质检结果进行统计分析，可以获取IG7A01-IG5A01的相关信息，如表10和图3所示；另外，对96对标签引物进行统计分析，可以得到IG7和IG5的污染占比热点图(图4和图5)，以及IG7和IG的污染占比的分布图(图6)；汇总得到得出的结论为：1)IG7A01-IG5A01这个组合测得的序列极少，含IG7A01的序列只有96条，含IG5A01的序列也只有26条，远远低于质检需要的至少5000条以及占比>0.2％的要求；2)由于以上组合的序列极少，唯一测得的组合又是非法组合，所以污染比例非常高；3)综合看来，对应于IG7A01-IG5A01这个孔是有问题的，无论从有效序列数还是从被污染可能性而言都是需要替换。

表10

由于IG7A01-IG5A01这个孔是有问题，重新单独合成IG7A01以及IG5A01这2条标签引物溶解重新合成的引物到规定浓度，按比例放入新的深孔板的对应孔内，除去原先IG7A01-IG5A01对应的孔，将质检失败的原始母板内剩余所有液体转移到一块新的深孔板内的相应位置，重新分子板进行污染质控检测；第二次质控分析报结果如表11和表12所示，表11和表12仅列出污染的情况。

表11针对IG7端Index的测序结果

表12针对IG5端Index的测序结果

Query

期望组合对象

期望组合

非期望组合

非期望组合对象

总序列条数

非期望组合序列条数

污染源

被污染

污染占比

IG5A02

IG7A02

IG5A02-IG7A02

IG5A02-IG7A01

IG7A01

329005

349

IG7A01

IG7A02

0.11％

IG5A03

IG7A03

IG5A03-IG7A03

IG5A03-IG7B02

IG7B02

204279

358

IG7B02

IG7A03

0.18％

IG5A08

IG7A08

IG5A08-IG7A08

IG5A08-IG7B08

IG7B08

244880

246

IG7B08

IG7A08

0.10％

IG5B01

IG7B01

IG5B01-IG7B01

IG5B01-IG7A01

IG7A01

405468

579

IG7A01

IG7B01

0.14％

IG5B08

IG7B08

IG5B08-IG7B08

IG5B08-IG7C08

IG7C08

291485

460

IG7C08

IG7B08

0.16％

IG5B11

IG7B11

IG5B11-IG7B11

IG5B11-IG7A11

IG7A11

336412

580

IG7A11

IG7B11

0.17％

IG5C01

IG7C01

IG5C01-IG7C01

IG5C01-IG7D01

IG7D01

285446

313

IG7D01

IG7C01

0.11％

IG5C05

IG7C05

IG5C05-IG7C05

IG5C05-IG7B05

IG7B05

342900

393

IG7B05

IG7C05

0.11％

IG5C07

IG7C07

IG5C07-IG7C07

IG5C07-IG7C06

IG7C06

252462

4253

IG7C06

IG7C07

1.68％

IG5C07

IG7C07

IG5C07-IG7C07

IG5C07-IG7D07

IG7D07

252462

255

IG7D07

IG7C07

0.10％

IG5C08

IG7C08

IG5C08-IG7C08

IG5C08-IG7D08

IG7D08

306576

448

IG7D08

IG7C08

0.15％

IG5C11

IG7C11

IG5C11-IG7C11

IG5C11-IG7B11

IG7B11

343767

664

IG7B11

IG7C11

0.19％

IG5D03

IG7D03

IG5D03-IG7D03

IG5D03-IG7D04

IG7D04

230782

336

IG7D04

IG7D03

0.15％

IG5D07

IG7D07

IG5D07-IG7D07

IG5D07-IG7E07

IG7E07

242178

468

IG7E07

IG7D07

0.19％

IG5D08

IG7D08

IG5D08-IG7D08

IG5D08-IG7E08

IG7E08

316707

328

IG7E08

IG7D08

0.10％

IG5D08

IG7D08

IG5D08-IG7D08

IG5D08-IG7B10

IG7B10

316707

435

IG7B10

IG7D08

0.14％

IG5D11

IG7D11

IG5D11-IG7D11

IG5D11-IG7C11

IG7C11

392842

744

IG7C11

IG7D11

0.19％

IG5E08

IG7E08

IG5E08-IG7E08

IG5E08-IG7D07

IG7D07

313472

1585

IG7D07

IG7E08

0.51％

IG5E09

IG7E09

IG5E09-IG7E09

IG5E09-IG7D09

IG7D09

436613

672

IG7D09

IG7E09

0.15％

IG5F01

IG7F01

IG5F01-IG7F01

IG5F01-IG7G01

IG7G01

314675

362

IG7G01

IG7F01

0.12％

IG5F06

IG7F06

IG5F06-IG7F06

IG5F06-IG7G10

IG7G10

252235

533

IG7G10

IG7F06

0.21％

IG5F08

IG7F08

IG5F08-IG7F08

IG5F08-IG7G08

IG7G08

359668

733

IG7G08

IG7F08

0.20％

IG5F10

IG7F10

IG5F10-IG7F10

IG5F10-IG7G10

IG7G10

289803

510

IG7G10

IG7F10

0.18％

IG5G07

IG7G07

IG5G07-IG7G07

IG5G07-IG7H07

IG7H07

345835

355

IG7H07

IG7G07

0.10％

IG5H03

IG7H03

IG5H03-IG7H03

IG5H03-IG7H02

IG7H02

286014

294

IG7H02

IG7H03

0.10％

IG5H07

IG7H07

IG5H07-IG7H07

IG5H07-IG7A08

IG7A08

240240

300

IG7A08

IG7H07

0.12％

IG5H08

IG7H08

IG5H08-IG7H08

IG5H08-IG7G08

IG7G08

121432

134

IG7G08

IG7H08

0.11％

IG5H09

IG7H09

IG5H09-IG7H09

IG5H09-IG7G09

IG7G09

250324

317

IG7G09

IG7H09

0.13％

经过引物替换操作后，IG7A01-IG5A01不存在交叉污染，96对标签引物各项指标都符合质检标准。

另外，本实施例还对第一次质控分析和第二次质控分析进行比对，结果如表13、图7(对IG7标签引物进行比较分析)和图8(对IG5标签引物进行比较分析)所示所示，可以看出两次质控分析的重现性还是不错的，可见本发明质控方法的稳定较好。

表13

实施例3

本实施例以96对文库标签进行质检，对第一次质检结果进行统计分析，可以获取其中一对标签引物的相关信息，如图9所示；另外，对96对标签引物进行统计分析，可以得到IG7和IG5的污染占比热点图(图10和图11)，以及IG7和IG的污染占比的分布图(图12)；汇总得出的结论：该对标签引物经第一次质控分析，96对标签引物均符合指标。

最后所应当说明的是，以上实施例用以说明本发明的技术方案而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者同等替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种构建含有独特双端文库标签组合的gDNA文库的方法，其特征在于，包括以下步骤：

(1)将gDNA标准品稀释后进行gDNA片段化；

(2)将片段化的gDNA进行末端修复；

(3)将末端修复的gDNA片段的两端分别与预制接头连接获得连接产物，并将连接产物纯化；

(4)对纯化后的连接产物进行文库扩增，并对扩增后的文库进行纯化，构建得到带有独特文库标签组合的gDNA文库。

2.根据权利要求1所述方法，其特征在于，所述方法还包括如下步骤：

对纯化的文库的浓度和/或文库的片段大小进行检测，判断构建的gDNA文库是否合格。

3.根据权利要求1或2所述方法，其特征在于，步骤(1)将gDNA标准品稀释后进行gDNA片段化的过程如下：将gDNA标准品经1×IDTE Buffer稀释后，将gDNA打断至长度为170～200bp的片段。

4.根据权利要求1所述方法，其特征在于，步骤(2)将片段化的gDNA进行末端修复是指于gDNA片段的3’端加上A碱基；

优选地，所述预制接头中含有T粘性末端；

优选地，所述步骤(3)将末端修复的gDNA片段的两端分别与预制接头连接的过程如下：

将预制接头连接反应体系中各组分混匀，并与末端修复的gDNA片段混合，经PCR扩增，将末端修复的gDNA片段的两端分别与预制件接头连接。

5.根据权利要求1所述方法，其特征在于，所述连接产物纯化的过程如下：

将连接产物与SPB磁珠于离心管中混合，将离心管置于磁力架，吸取离心管内上层澄清液，并向离心管内加入75％的乙醇对连接产物清洗纯化，随后去除乙醇并使SPB磁珠干燥，再向离心管中加入EB溶液，混匀、室温孵育，将离心管置于磁力架直至溶液澄清，所述澄清溶液即为纯化后的连接产物。

6.根据权利要求1所述方法，其特征在于，对纯化后的连接产物进行文库扩增的具体方法如下：

向含有纯化后的连接产物的反应体系中加入Index，置于PCR仪上进行文库扩增，PCR设定的扩增程序为：98℃、45s；98℃、15s；60℃、30s；72℃、30s；72℃、2min；4℃保存。

7.根据权利要求1所述方法，其特征在于，对扩增后的文库进行纯化的具体方法如下：

将扩增后的文库与磁珠混合并置于磁力架，弃去澄清液，利用75％的乙醇对扩增文库进行洗涤纯化，去除乙醇并干燥磁珠，向磁珠与扩增文库混合物中加入EB溶液，混匀，室温孵育后置于磁力架，直至溶液澄清，所述澄清溶液即为纯化的文库。

8.根据权利要求2所述方法，其特征在于，对纯化的文库的浓度和/或文库的片段大小进行检测，判断构建的gDNA文库是否合格的具体过程如下：

S1)对纯化的文库的浓度进行检测，判断文库是否合格的方法如下：

利用EB对纯化文库进行稀释，测量稀释后文库的文库浓度，并换算回预文库浓度，文库浓度界于9～60ng/μl之间，且Labchip结果正常，则文库构建合格，否则需重新进行文库制备；

S2)对纯化的文库的片段大小进行检测，判断构建的gDNA文库是否合格的具体过程如下：

利用EB对纯化文库进行稀释，并对稀释后的文库的片段大小进行检测，若文库片段主峰在350～500bp，无明显小片段在10～150bp区间，则表明文库合格，否则需重新进行文库制备。

9.一种用于检测权利要求1～8任意一项所述方法构建得到的含有独特双端文库标签组合的gDNA文库中污染的方法，其特征在于，将构建好的所述gDNA文库进行上机测序，并读取文库标签序列，当测序结果不符合以下几项中的任意一项时，认定该文库受到污染：最大的单侧标签污染占比≤2.5％，最大的标签组合污染占比≤0.01％，每组标签样本序列条数≥5000条，所有标签组合混合占比方差系数≤0.5，综合序列通过率≥97％，每组标签样本序列占比≥0.2/文库标签组合对数，单侧大于1％污染的标签占比应≤10％；

优选地，所述独特双端文库标签组合均由上游文库标签和下游文库标签组成，所述上游文库标签统称为IG5，IG5包含A和B；所述下游文库标签统称为IG7，IG7包含a和b；匹配且正确的独特双端文库标签组合为A-a以及B-b；不匹配的独特双端文库标签组合为A-b，以及B-a；每个测序反应后通过分析可以得到以上组合各自的序列条数；

所述单侧大于1％污染的标签占比为：上游文库标签内，污染比例大于1％的文库标签数占总文库标签数的比例；以及，下游文库标签内，污染比例大于1％文库标签数占总文库标签数的比例；

优选地，所述独特双端文库标签组合由96对文库标签组成，即IG5组内有96个上游文库标签，IG7组内有96个下游文库标签，一一对应；每组标签样本序列占比则相应调整为≥0.2％；

或者优选地，所述独特双端文库标签组合由48对文库标签组成，即IG5组内有48个上游文库标签，IG7组内有48个下游文库标签，一一对应；每组标签样本序列占比则相应调整为≥0.4％。

10.一种用于检测独特双端文库标签交叉污染的方法，其特征在于，包括如下步骤：构建带有独特双端文库标签组合的gDNA文库，将构建好的所述gDNA文库进行上机测序，并读取文库标签序列，当测序结果不符合以下几项条件中的任意一项时，认定该文库受到污染：最大的单侧标签污染占比≤2.5％，最大的标签组合污染占比≤0.01％，每组标签样本序列条数≥5000条，所有标签组合混合占比方差系数≤0.5，综合序列通过率≥97％，每组标签样本序列占比≥0.2/文库标签组合对数，单侧大于1％污染的标签占比应≤10％；