CN109486924A

CN109486924A - 基于Illumina测序的串联条形码、其标记的DNA文库及其构建方法

Info

Publication number: CN109486924A
Application number: CN201811406204.XA
Authority: CN
Inventors: 李晨虹; 王颖; 袁昊
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University; Shanghai Ocean University
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-03-19
Anticipated expiration: 2038-11-23
Also published as: US20210309994A1; CN109486924B

Abstract

本发明公开了基于Illumina测序的串联条形码、其标记的DNA文库及其构建方法，包括样本DNA序列破碎、修复序列平末端、序列末端加上串联条形码接头、修复序列空缺并延伸和PCR扩增的步骤构建DNA文库；其中串联条形码为6bp长度的DNA序列，且同时满足最小编辑长度3以内、包含不同碱基的片段、使用不同激光色的碱基且相邻碱基激光色不同和不含有AAA、ACA、CCC、CAC、GGG、GTG、TTT和TGT的碱基序列。通过提前引入串联条形码进行DNA标记，大大减少污染数据不能被识别的可能性，极大改善在DNA文库构建和基因富集过程中非常普遍的样本之间相互污染问题。

Description

基于Illumina测序的串联条形码、其标记的DNA文库及其构建方法

技术领域

本发明涉及分子标记，涉及DNA文库标记，具体涉及一种基于Illumina测序的串联条形码、其标记的DNA文库及其构建方法。

背景技术

在使用Illumina方法进行测序时，目前通用DNA文库构建的步骤为破碎、修复平末端、加上IS7、IS8引物识别位点接头、补足接头与序列之间出现的空缺，最后进行indexingPCR时为序列加上条形码以便区分样本，测序后得到的数据根据此条形码进行分类。但是，上述方法在整个实验步骤最后加上条形码，如果在之前的步骤中样本之间发生相互污染，则无法区分数据是属于哪个样本。

现有技术中，专利申请(CN107502607A)公开了一种大量组织、细胞样本mRNA的分子条形码标记、文库构建、测序的方法，用于反转录mRNA，合成cDNA时进行标记，但不适用于DNA文库构建。专利(CN104573407B)公开了一种物种特异性内源性条形码的搜索方法及其在多样本混合测序中的应用，通过重叠延伸PCR技术，利用样本内源DNA序列的差异对PCR产物进行标记，与DNA文库构建无关，也没有包括条形码标记技术。目前，DNA样本间交叉污染现象非常严重，对后续数据的组装和分析造成很大困扰和隐患。

发明内容

为克服上述现有技术的不足，本发明的目的在于提供一种基于Illumina测序的串联条形码、其标记的DNA文库及其构建方法，在文库构建初期即加入可以区分样本的串联条形码(Inline Index)接头，通过串联条形码标记构建DNA文库，准确区分不同DNA样本。相对于传统的分子条形码技术，不仅纠正受到污染的数据，还大大增加条形码组合的数量用于区分更多样本，节约成本。

为实现上述发明目的，本发明采用的技术方案如下：

第一方面，基于Illumina测序的串联条形码为6bp长度的DNA序列，且同时满足

(ⅰ)最小编辑长度3以内，和

(ⅱ)包含不同碱基的片段，和

(ⅲ)使用不同激光色的碱基，且相邻碱基激光色不同，和

(ⅳ)不含有'AAA'、'ACA'、'CCC'、'CAC'、'GGG'、'GTG'、'TTT'和'TGT'的碱基序列。

优选的，所述串联条形码包括IS1串联条形码、IS2串联条形码和与所述IS1串联条形码和IS2串联条形码对应的IS3串联条形码。

且所述IS3串联条形码与所述IS1串联条形码和IS2串联条形码之间分别具有部分互补片段。

优选的，所述IS1串联条形码包括IS1序列和与所述IS1序列具有部分互补片段的IS3X’序列，通过在95℃以0.1℃/秒的速率降温至12℃，所述IS1序列和所述IS3X’序列结合形成所述IS1串联条形码。

优选的，所述IS2串联条形码包括IS2序列和与所述IS2序列具有部分互补片段的IS3Y’序列，通过在95℃以0.1℃/秒的速率降温至12℃，所述IS2序列和所述IS3Y’序列结合形成所述IS2串联条形码。

第二方面，通过上述串联条形码标记的DNA文库的构建方法，具体地，包括以下步骤：

(1)生物样本DNA序列破碎，获取DNA片段序列，和

(2)修复上述DNA片段序列平末端，和

(3)在所述DNA片段序列5’端加上IS1串联条形码接头，所述DNA片段序列3’端加上IS2串联条形码接头，且引物IS7的结合位点位于所述IS1串联条形码接头外侧，引物IS8的结合位点位于所述IS2串联条形码接头外侧，和

(4)修复所述DNA片段序列空缺并延伸，和

(5)采用所述引物IS7、IS8对DNA序列进行PCR扩增，即得。

本发明的有益效果在于：

传统DNA文库的构建方法中，不断重复地清洗步骤很容易造成样本之间，或者外源性DNA对样本的污染，加上生物探针敏感，导致低浓度的污染DNA也可能被捕获、测序。本发明通过提前引入串联条形码进行DNA标记，大大减少污染数据不能被识别的可能性，极大改善在DNA文库构建和基因富集过程中非常普遍的样本之间相互污染问题。另外，通过本发明标记后的DNA样本可以相互混合用于基因富集、测序，大大降低基因富集技术操作的复杂性和繁琐程度。

附图说明

图1：串联条形码的制作过程为：在95℃以0.1℃/秒的速率降温至12℃的过程中对应的IS1和IS3X’结合形成IS1串联条形码；同样的，在95℃以0.1℃/秒的速率降温至12℃的过程中对应的IS2和IS3Y’结合形成IS2串联条形码。

图2：DNA文库的建立过程依次为：DNA序列平末端修复、两端添加串联条形码接头、修复空缺并延伸DNA；由于引物IS7、IS8的结合位点分别位于IS1、IS2的接头序列最外侧，用引物IS7和引物IS8对DNA序列进行PCR扩增即完成DNA文库。基因富集实验过程中，利用特异探针对DNA文库进行目标片段抓取，引物IS4和测序用条形码Index引物的结合位点分别位于引物IS7和引物IS8外侧，获得最终目标片段后对DNA序列进行index PCR扩增，并进行Illumina测序，也可用引物IS4和Index引物对DNA文库进行扩增直接测序获得基因组信息。

具体实施方式

下面结合附图详细说明本发明的技术方案，但本发明的保护范围不限于下述的实施例。

实施例1

构建串联条形码，根据表1所提供的DNA序列进行合成，先配置OligoHybridization Buffer(NaCl(5M)1mL，Tris-Cl pH8.0(1M)100μL，EDTA pH 8.0(0.5M)20μL和H₂O 8.88mL。

具体步骤如下：

将IS1和对应编号的IS3混合，并加入Oligo Hybridization Buffer来形成双链接头(IS1_adapter_P5.F(500μM)10μL、IS3_adapter_P5+P7.R(500μM)10μL、OligoHybridization Buffer(10×)10μL、H₂O70μL)。

将IS2和对应编号的IS3混合，并加入Oligo Hybridization Buffer来形成双链接头(IS2_adapter_P7.F(500μM)10μL、IS3_adapter_P5+P7.R(500μM)10μL、OligoHybridization Buffer(10×)10μL、H₂O70μL)。

将上述两种混合液分别在PCR仪中95℃下反应10秒，然后以0.1℃/秒的速率从95℃降温至12℃，再以20μL每管进行分装，并在管盖上做好编号，在-20℃环境下保存备用，如图1所示。

表1：Inline Index信息

	Name	Sequence	Name	Sequence
					TCTGCC	IS1_Ind1	ACACTCTTTCCCTACACGACGCTCTTCCGATCTtctgcc	IS3_Ind1	ggcagaAGATCGGAAGAGC
GTCTCT	IS1_Ind2	ACACTCTTTCCCTACACGACGCTCTTCCGATCTgtctct	IS3_Ind2	agagacAGATCGGAAGAGC
					ATATTG	IS1_Ind3	ACACTCTTTCCCTACACGACGCTCTTCCGATCTatattg	IS3_Ind3	caatatAGATCGGAAGAGC
TGGAAG	IS1_Ind4	ACACTCTTTCCCTACACGACGCTCTTCCGATCTtggaag	IS3_Ind4	cttccaAGATCGGAAGAGC
					TCTAGT	IS1_Ind5	ACACTCTTTCCCTACACGACGCTCTTCCGATCTtctagt	IS3_Ind5	actagaAGATCGGAAGAGC
AGAGTA	IS1_Ind6	ACACTCTTTCCCTACACGACGCTCTTCCGATCTagagta	IS3_Ind6	tactctAGATCGGAAGAGC
					GGCCAA	IS1_Ind7	ACACTCTTTCCCTACACGACGCTCTTCCGATCTggccaa	IS3_Ind7	ttggccAGATCGGAAGAGC
TATCTC	IS1_Ind8	ACACTCTTTCCCTACACGACGCTCTTCCGATCTtatctc	IS3_Ind8	gagataAGATCGGAAGAGC
					TTATGC	IS1_Ind9	ACACTCTTTCCCTACACGACGCTCTTCCGATCTttatgc	IS3_Ind9	gcataaAGATCGGAAGAGC
AGTTGG	IS1_Ind10	ACACTCTTTCCCTACACGACGCTCTTCCGATCTagttgg	IS3_Ind10	ccaactAGATCGGAAGAGC
					GTCAAG	IS1_Ind11	ACACTCTTTCCCTACACGACGCTCTTCCGATCTgtcaag	IS3_Ind11	cttgacAGATCGGAAGAGC
CAGCAA	IS1_Ind12	ACACTCTTTCCCTACACGACGCTCTTCCGATCTcagcaa	IS3_Ind12	ttgctgAGATCGGAAGAGC
					TCGCCG	IS1_Ind13	ACACTCTTTCCCTACACGACGCTCTTCCGATCTtcgccg	IS3_Ind13	cggcgaAGATCGGAAGAGC
CTAAGA	IS1_Ind14	ACACTCTTTCCCTACACGACGCTCTTCCGATCTctaaga	IS3_Ind14	tcttagAGATCGGAAGAGC
					CCGCTT	IS1_Ind15	ACACTCTTTCCCTACACGACGCTCTTCCGATCTccgctt	IS3_Ind15	aagcggAGATCGGAAGAGC
AAGTTA	IS1_Ind16	ACACTCTTTCCCTACACGACGCTCTTCCGATCTaagtta	IS3_Ind16	taacttAGATCGGAAGAGC
					GGTACC	IS1_Ind17	ACACTCTTTCCCTACACGACGCTCTTCCGATCTggtacc	IS3_Ind17	ggtaccAGATCGGAAGAGC
CCAGGT	IS1_Ind18	ACACTCTTTCCCTACACGACGCTCTTCCGATCTccaggt	IS3_Ind18	acctggAGATCGGAAGAGC
					AATCGA	IS1_Ind19	ACACTCTTTCCCTACACGACGCTCTTCCGATCTaatcga	IS3_Ind19	tcgattAGATCGGAAGAGC
AACGCA	IS1_Ind20	ACACTCTTTCCCTACACGACGCTCTTCCGATCTaacgca	IS3_Ind20	tgcgttAGATCGGAAGAGC
					GACGAC	IS1_Ind21	ACACTCTTTCCCTACACGACGCTCTTCCGATCTgacgac	IS3_Ind21	gtcgtcAGATCGGAAGAGC
CGCGCT	IS1_Ind22	ACACTCTTTCCCTACACGACGCTCTTCCGATCTcgcgct	IS3_Ind22	agcgcgAGATCGGAAGAGC
					CCGTAG	IS1_Ind23	ACACTCTTTCCCTACACGACGCTCTTCCGATCTccgtag	IS3_Ind23	ctacggAGATCGGAAGAGC
GTAATC	IS1_Ind24	ACACTCTTTCCCTACACGACGCTCTTCCGATCTgtaatc	IS3_Ind24	gattacAGATCGGAAGAGC
					GACCTT	IS2_Ind25	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTgacctt	IS3_Ind25	aaggtcAGATCGGAAGAGC
TCATAA	IS2_Ind26	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTtcataa	IS3_Ind26	ttatgaAGATCGGAAGAGC
					CAAGAG	IS2_Ind27	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTcaagag	IS3_Ind27	ctcttgAGATCGGAAGAGC
CGATCA	IS2_Ind28	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTcgatca	IS3_Ind28	tgatcgAGATCGGAAGAGC
					TTGATT	IS2_Ind29	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTttgatt	IS3_Ind29	aatcaaAGATCGGAAGAGC
TCCGAG	IS2_Ind30	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTtccgag	IS3_Ind30	ctcggaAGATCGGAAGAGC
					CCTGAA	IS2_Ind31	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTcctgaa	IS3_Ind31	ttcaggAGATCGGAAGAGC
ATTCTT	IS2_Ind32	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTattctt	IS3_Ind32	aagaatAGATCGGAAGAGC
					GCGACT	IS2_Ind33	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTgcgact	IS3_Ind33	agtcgcAGATCGGAAGAGC
GGCTTC	IS2_Ind34	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTggcttc	IS3_Ind34	gaagccAGATCGGAAGAGC
					AATACG	IS2_Ind35	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTaatacg	IS3_Ind35	cgtattAGATCGGAAGAGC
TACGGT	IS2_Ind36	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTtacggt	IS3_Ind36	accgtaAGATCGGAAGAGC
					ACCGTC	IS2_Ind37	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTaccgtc	IS3_Ind37	gacggtAGATCGGAAGAGC
AGAAGC	IS2_Ind38	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTagaagc	IS3_Ind38	gcttctAGATCGGAAGAGC
					CATAGC	IS2_Ind39	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTcatagc	IS3_Ind39	gctatgAGATCGGAAGAGC
AGGCTC	IS2_Ind40	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTaggctc	IS3_Ind40	gagcctAGATCGGAAGAGC
					CTGCGG	IS2_Ind41	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTctgcgg	IS3_Ind41	ccgcagAGATCGGAAGAGC
CTCGGC	IS2_Ind42	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTctcggc	IS3_Ind42	gccgagAGATCGGAAGAGC
					GATTAG	IS2_Ind43	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTgattag	IS3_Ind43	ctaatcAGATCGGAAGAGC
AGATAT	IS2_Ind44	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTagatat	IS3_Ind44	atatctAGATCGGAAGAGC
					TGGTCC	IS2_Ind45	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTtggtcc	IS3_Ind45	ggaccaAGATCGGAAGAGC
GTTCCG	IS2_Ind46	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTgttccg	IS3_Ind46	cggaacAGATCGGAAGAGC
					GTACGT	IS2_Ind47	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTgtacgt	IS3_Ind47	acgtacAGATCGGAAGAGC
AAGAAC	IS2_Ind48	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTaagaac	IS3_Ind48	gttcttAGATCGGAAGAGC

*表示PTO修饰

实施例2

构建DNA文库，采用Covaris M220超声波破碎仪(Covaris，Inc.MassachusettsUSA)将生物样本DNA序列破碎至长度约250-500bp的DNA片段序列，破碎程序为：运行90秒(50peak power，25duty factor，200cycles/burst)，暂停60秒，运行90秒(50peak power，25duty factor，200cycles/burst)。在270μL离心管中，加入35μL MagNA beads，放入磁板并静置1分钟，吸去清液后留下干燥磁珠。在MagNA beads干燥后，加入60μLDNA样本与54μL的MagNA beads Buffer，混匀，并同时准备正对照和负对照。室温放置10分钟后，将离心管放到磁板上，小心地吸出上清液。加入70％酒精186μL，放置1分钟后吸去，重复一次后打开离心管盖，放置5分钟使残留酒精挥发。

准备20μL的混合物(Buffer Tango(10×)2.2μL、1×dNTPs(10mM each)0.22μL、ATP(100mM)0.22μL、T4polynucleotide kinase(10U/μL)1.1μL、T4DNA polymerase(5U/μL)0.44μL、H₂O 17.82μL)，加入放有干燥的MagNA beads离心管中(在冰盒上操作)，混合均匀，将离心管放入PCR仪中修复DNA粘性末端，运行程序为：15分钟25℃，5分钟12℃。将样本拿出PCR仪后，加入18μLMagNA beads Buffer，充分混匀后，放在磁板上静置5分钟，吸去上清液。加入186μL的70％酒精，室温静置1分钟后，去除酒精。重复操作一次后，打开离心管盖静置5分钟使残留酒精挥发。

配置混合溶液38μL(T4DNA ligase buffer(10×)4.4μL，PEG-4000(50％)4.4μL，5％，T4DNA ligase(5U/μL)1.1μL，H₂O 31.9μL)。配置完成后，加入放有干燥的MagNA beads离心管中(在冰盒上操作)，再分别加入对应样本、正对照和副对照的串联条形码。放入PCR仪中，运行程序为：30分钟22℃。将样本拿出PCR仪后，加入36μLMagNA beads Buffer，充分混匀后，放在磁板上静置5分钟，吸去上清液，加入186μL的70％酒精，室温静置1分钟后，去除酒精；重复操作一次后，打开离心管盖静置5分钟使残留酒精挥发。

为了补足加上串联条形码后接头与序列之间出现的空缺，用Bsm酶从5’端替换延伸填补空缺，配置混合溶液40μL(Bsm buffer(10×)4.4μL、dNTPs(10mM each)1.1μL、Bsmpolymerase、large fragment(8U/μL)1.65μL、H₂O36.85μL)。配置完成后，加入放有干燥的MAGNA beads离心管中(在冰盒上操作)。放入PCR仪上，运行程序为：20分钟37℃。将样本拿出PCR仪后，加入36μLMagNA beads Buffer充分混匀，放在磁板上静置5分钟，吸去上清液。加入186μL的70％酒精，室温静置1分钟后，去除酒精。重复操作一次后，打开离心管盖静置5分钟使残留酒精挥发。加入35μL TE Buffer，转入新离心管(命名为lib)中，-20℃保存。

参见附图2，经过上述DNA序列平末端修复、两端添加串联条形码接头、修复空缺并延伸DNA的步骤处理后，由于引物IS7、IS8的结合位点分别位于IS1、IS2的接头序列最外侧，再用引物IS7和引物IS8对DNA序列进行PCR扩增即完成DNA文库。另外，基因富集实验过程中，利用特异探针对DNA文库进行目标片段抓取，引物IS4和测序用条形码Index引物的结合位点分别位于引物IS7和引物IS8外侧，获得最终目标片段后对DNA序列进行index PCR扩增，并进行Illumina测序，也可用引物IS4和Index引物对DNA文库进行扩增直接测序获得基因组信息。

Claims

1.基于Illumina测序的串联条形码，其特征在于，所述串联条形码为6bp长度的DNA序列，且同时满足

(ⅰ)最小编辑长度3以内，和

(ⅱ)包含不同碱基的片段，和

(ⅲ)使用不同激光色的碱基，且相邻碱基激光色不同，和

2.根据权利要求1所述的基于Illumina测序的串联条形码，其特征在于，所述串联条形码包括IS1串联条形码、IS2串联条形码和与所述IS1串联条形码和IS2串联条形码对应的IS3串联条形码。

3.根据权利要求1或2所述的基于Illumina测序的串联条形码，其特征在于，所述IS1串联条形码包括IS1序列和与所述IS1序列具有部分互补片段的IS3X’序列，通过在95℃以0.1℃/秒的速率降温至12℃，所述IS1序列和所述IS3X’序列结合形成。

4.根据权利要求1或2所述的基于Illumina测序的串联条形码，其特征在于，所述IS2串联条形码包括IS2序列和与所述IS2序列具有部分互补片段的IS3Y’序列，通过在95℃以0.1℃/秒的速率降温至12℃，所述IS2序列和所述IS3Y’序列结合形成。

5.权利要求1-4任一项所述基于Illumina测序的串联条形码标记DNA文库的构建方法，其特征在于，包括以下步骤：

(1)生物样本DNA序列破碎，获取DNA片段序列，和

(2)修复上述DNA片段序列平末端，和

(4)修复所述DNA片段序列空缺并延伸，和

(5)采用所述引物IS7、IS8对DNA序列进行PCR扩增，即得。