CN101503733A

CN101503733A - 有利于高通量基因序列标签测序的dna粘端接头与应用

Info

Publication number: CN101503733A
Application number: CNA2008100441189A
Authority: CN
Inventors: 董辉; 金维荣; 沈艳; 任双喜; 钱震; 陈样宜; 王升跃; 赵国屏
Original assignee: Shanghai Human Genome Research Center
Current assignee: Chinese National Human Genome Center at Shanghai; Shanghai Human Genome Research Center
Priority date: 2008-12-17
Filing date: 2008-12-17
Publication date: 2009-08-12

Abstract

本发明公开了一种有利于高通量基因序列标签测序的DNA粘端接头与应用，该接头是一种末端突出的DNA接头，带有可识别序列Xn、Yn，其序列式为序列(I)和序列(II)，该DNA粘端接头可应用于高通量基因序列标签的测序。采用本发明的DNA粘端接头，能同时进行多个样品的高通量基因序列标签测序，并且样品DNA来源不限，测序前DNA制备的步骤简化，测序效率高。

Description

有利于高通量基因序列标签测序的DNA粘端接头与应用

技术领域

本发明涉及一种DNA接头，特别是涉及一种有利于高通量基因序列标签测序的DNA粘端接头与应用。

背景技术

新一代的高通量测序技术平台包括罗氏454公司的Genome Sequencer系统，Illumina公司的Solexa系统，以及Applied Biosystems公司的SOLiD系统。与传统的Sanger测序方法相比，新一代测序技术平台不仅测序通量大大提高，测序成本显著降低，并且无需进行繁琐的常规建库、克隆等过程，省时省力。因此，自2005年商业化的新一代高通量测序仪首次推出以来，已广泛应用于基因组学、转录组学等生命科学领域的研究。上述的三种新一代高通量测序技术平台中，罗氏454公司的Genome Sequencer FLX系统的单个序列可读取长度最长，可达500个碱基以上，而其他两种技术平台目前的测序长度均小于100个碱基。目前，该系统已被世界上几乎所有从事基因组测序和相关结构功能研究的顶级实验室配备使用，对大规模基因序列的研究和应用产生了巨大的推动作用。

应用Genome Sequencer FLX系统进行高通量测序，一般步骤为：长度约300-800bp的待测样品DNA片段，与特异的DNA接头(由罗氏公司的GS FLX Standard DNA LibraryPreparation Kit提供)相连接，经过emPCR对DNA平行扩增后进行测序。Kit中提供的特异DNA接头在后续的纯化、扩增、富集和测序等步骤中起着重要作用。但是，这种特异DNA接头是一种平端接头，只能与平端的样品DNA片段相连接。虽然所有的样品DNA片段均可通过现有的分子生物学技术被补平或切平而成为平端，但这样不仅增加了实验步骤，导致本已有限的样品DNA片段在实验中的损失加大；更重要的是，在某些情况下，特别是在基因序列标签的测序中，通过补平或切平的方法将粘端DNA片段转化为平端，可能会损失其粘性末端所携带的信息，使测序的效率降低。

由此，需要设计一种能够应用于Genome Sequencer FLX高通量测序系统的、具有粘性末端的DNA接头，该接头可以与粘端的样品DNA直接进行连接，然后进行后续的emPCR等高通量测序步骤，而不需要将粘端DNA片段转化为平端，以简化实验步骤，并保护粘性末端所携带的信息，提高测序效率。

发明内容

本发明所要解决的技术问题是提供一种有利于高通量基因序列标签测序的DNA粘端接头与应用，由于该DNA接头是一种具有粘性末端的DNA接头，可与具有与之相匹配的末端突出的粘端DNA片段直接进行连接，用于高通量基因序列标签测序，以提高对粘性末端DNA片段的测序效率。

为解决上述技术问题，本发明的有利于高通量基因序列标签测序的DNA粘端接头，是一种末端突出的DNA接头，带有可识别序列Xn、Yn，其序列式为序列(I)和序列(II)，5’-CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAGXndm-3’正义链5’-YnCTGAGACAGGGAGGGAACAGATGGGACACGCAGGGATGAG-3’反义链(I)5’-Biotin-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAGXndm-3’正义链5’-YnCTGAGACACGCAACAGGGGATAGGCAAGGCACACAGGGGA-3’反义链(II)

其中，X表示A、T、G、C四种碱基中的任意一种，n为4-10之间的任意整数，任意两个相邻的X不能是相同的碱基，Y是与X一一对应的互补碱基，dm是末端突出标志，d表示A、T、G、C四种碱基中的任意一种，m为1-4之间的任意整数，如dm可以是CATG。

本发明的一种有利于高通量基因序列标签测序的DNA粘端接头的应用在于：采用DNA粘端接头用于高通量基因序列标签测序，该测序方法的具体步骤包括：

(1)取长度在300-800bp的末端突出的样品DNA片段；

(2)在DNA连接酶的作用下，样品DNA片段与DNA粘端接头相连接；

(3)用Qiaquick PCR纯化试剂盒纯化连接有接头的DNA片段；

(4)通过电泳分离并回收大小在300-800bp的连接有接头的DNA片段；

(5)再按照常规高通量测序的后续步骤进行测序。

采用本发明的DNA粘端接头，能同时进行多个样品的高通量测序，并且样品DNA来源不限，也可以是由RNA经反转录得到的DNA，其中，在基因序列标签的测序中，具有以下优点：

1)简化实验步骤

在基因序列标签的测序中，使用本发明中的末端突出的DNA接头，可以省略四个实验步骤(对比图1和图2)，不仅节省了时间，而且由于DNA片段每经过一次纯化就会损失一部分，省略了两次纯化步骤，可以减少DNA片段在实验过程中的损失；

2)提高测序效率

在基因序列标签的测序中，识别所测序列中的一组基因标签是依靠该组标签两端的CATG四个碱基的标志，如果任意一端的CATG四个碱基缺失，那么将不能识别该组基因标签。

使用平端DNA接头的测序结果为：

ATTATGAACTTGCCACAGAAGCTGTGTTTTGAA

TTTAGTGCTTCCTTCAGGTGGTTGGCAGGCC

CGGATATCAAGCCTAGTAGCTGGG。

由于序列原本带有的5’端突出的CATG标志在T4 DNA聚合酶、大肠杆菌DNA聚合酶作用下被切除而转变为平端，所以在测序结果中缺失，导致第一组的基因标签由于缺少了一端的CATG标志而无法被识别。这样，在长度为100bp的序列中，能够得到的基因标签只有一组(用斜体字表示)。

使用本发明中的粘端DNA接头的测序结果为：

ACTG

GCCAGGGAAAGCGGTGTAGAGACAGGGTTTACA

TTGCCCAAACTTGTCTTCAGGCTGCCAGATCGTCACAGTTCACAATAGG。

使用粘端DNA接头可以有效地保护序列5’端突出的CATG标志，使第一组基因标签能够被识别。这样在长度为100bp的序列中，能够得到的基因标签有两组(用斜体字表示)。

ACTG(即本发明中的Xn)是粘端DNA接头的特异性标记，通过对其碱基组成和长度的改变，可以用于区分不同的接头。不同的样品DNA与带有各自特异性标记的不同的接头相连接，从而实现在高通量测序同时检测多个不同样品。

附图说明

下面结合附图与具体实施方式对本发明作进一步详细的说明：

图1是高通量基因序列标签测序中，使用平端DNA接头的常规实验步骤流程图；

图2是高通量基因序列标签测序中，使用本发明中的末端突出的DNA接头的实验步骤流程图。

具体实施方式

以下实施例中的DNA粘端接头是人工合成序列，由宝生物工程(大连)有限公司合成，且实施例1-4中的接头序列I、II只有在Xn处及相应的Yn处有所不同，其它接头序列部分相同。

实施例1在转录组SAGE(Serial Analysis of Gene Expression)基因序列标签高通量测序中的应用

步骤一、长度约300-800bp的末端突出的基因表达标签的制备A.在0.5ml试管中，依次加入人体肝癌组织的新鲜RNA 20μg，500μg biotin标记的oligo dT磁珠，5X First Strand Buffer 18μl，RNaseOUT^TM 1μl，DEPC Water54.5μl，0.1M DTT 9.0μl，dNTP Mix(10mM each)4.5μl。轻轻混匀管内成分，置于37℃温育2分钟后再加入3μl SuperScript^TM II Reverse Transcriptase(200U/μl)，混匀后置于42℃温育1小时，反应结束后立即将反应物置于冰上放置2分钟。反应产物为第一链cDNA。

B.上述反应管内依次加入DEPC Water 465μl，5X Second Strand Buffer 150μl，dNTP Mix(10mM each)15μl，E.coli DNA Ligase(10U/μl)5μl，E.coliDNA Polymerase(10U/μl)20μl，E.coli RNase H(2U/μl)5μl。轻轻混匀管内成分，于16℃反应2小时，获得双链cDNA。

C.移去反应管内的上清，保留管内磁珠，并用172μl LoTE(3mM Tris-HCl，pH7.5；0.2mM EDTA，pH7.5)重悬磁珠。向管内依次加入100X BSA 2μl，10X Buffer 20μl，Nla III(10U/μl)6μl。轻轻混匀管内成分，置于37℃温育1小时。NlaIII是一种识别4碱基位点的锚定酶，理论上在每一个转录本上至少有一个酶切位点，因此每一个双链DNA分子均可以被该酶切割而获得3’端cDNA。

D.移去反应管内的上清，保留管内磁珠，并将磁珠等分于2个新的反应管内。向第一个反应管内依次加入Adaptor A(40ng/μl)1.5μl，LoTE 14μl，10X Ligase Buffer2μl，T4 DNA ligase(5U/μl)2.5μl。向第二个反应管内依次加入Adaptor B(40ng/μl)1.5μl，LoTE 14μl，10X Ligase Buffer 2μl，T4 DNA ligase(5U/μl)2.5μl。轻轻混匀管内成分，于16℃反应2小时。Adaptor A和B的序列如下：Adaptor A：

5’TTTGGATTTGCTGGTGCAGTACAACTAGGCTTAATAGGGACATG3’

3’amino(C7)CCTAAACGACCACGTCATGTTGATCCGAATTATCCCT PO₄5’

Adaptor B：

5’TTTCTGCTCGAATTCAAGCTTCTAACGATGTACGGGGACATG 3’

3’amino(C7)GACGAGCTTAAGTTCGAAGATTGCTACATGCCCCT PO₄5’

E.移去上述2个反应管内的上清，保留管内磁珠，依次向2个反应管内加入LoTE174μl，10X Buffer 20μl，100X BSA(10mg/ml)4μl，BsmF I(2U/μl)2μl。轻轻混匀管内成分，置于65℃温育1小时。反应结束后，将2个反应管内的上清分别转移到2个新的反应管内。

F.向上述含有上清的2个新的反应管内加入与上清等体积的酚/氯仿，充分混匀后室温下离心(13,000rpm)5分钟。将上清分别转移到2个新的反应管，依次加入133μl乙酸铵，3μl mussel glycogen(20mg/ml)，1ml100％乙醇。混匀管内成分，放置于干冰上20分钟，4℃离心(13,000rpm)40分钟。弃上清，将沉淀用1ml70％乙醇洗2遍，最终溶解于10μl LoTE中。

G.向上述2个含有10μl LoTE的反应管中依次加入10X Klenow Buffer 5.0μl，100XBSA 1.0μl，dNTP Mix(10mM each)2.5μl，DEPC Water 30.5μl，Klenow Polymerase(9U/μl)1.0μl。轻轻混匀管内成分，置于37℃温育30分钟。

H.反应结束后，将2管内的反应液混合，加入100μl LoTE，混匀后再加入200μl酚/氯仿，充分混匀后室温下离心(13,000rpm)5分钟。将上清转移到新的反应管，依次加入133μl乙酸铵，3μl mussel glycogen(20mg/ml)，1ml 100％乙醇。混匀管内成分，放置于干冰上20分钟，4℃离心(13,000rpm)40分钟。弃上清，将沉淀用1ml 70％乙醇洗2遍，最终溶解于1.5μl LoTE中。

I.配制连接混合物：3mM Tris-HCl(pH7.5)1.25μl，10X Ligase Buffer 0.75μl，ddH₂O 0.75μl，T4 DNA Ligase(5U/μl)1μl。取1.5μl连接混合物加入上一步骤的1.5μl LoTE中，混合均匀，放置于16℃连接反应16小时。连接反应产物即为含有一组两端分别含有接头A和B的2个基因序列标签的、长约100个碱基的Ditag(双标签)。

J.向上述连接反应物中加入600μl LoTE后混匀，取1μl Ditag作为PCR模板，并依次加入10X Buffer 5μl，DMSO 3μl，dNTPs(10mM each)7.5μl，引物-1(175ng/μl)2μl，引物-2(175ng/μl)2μl，ddH₂O 29μl，Taq DNA polymerase(5U/μl)0.5μl。共配置400份PCR反应液，按照如下热循环参数进行PCR反应：95℃ 2分钟，1个循环；95℃ 30秒、55℃ 1分钟、70℃ 1分钟，共27个循环；70℃ 5分钟，1个循环。引物-1和引物-2的序列如下，引物-1：5′-GGATTTGCTGGTGCAGTACA-3′；引物-2：5′-CTGCTCGAATTCAAGCTTCT-3′。

K.将PCR产物进行12％聚丙烯酰胺凝胶分离纯化，回收100bp的Ditag，回收产物溶解于42μl LoTE，并加入10X Buffer 15μl，100X BSA 2μl，Nla III 12μl，ddH₂O79μl。轻轻混匀管内成分，置于37℃温育2小时。将反应物进行12％聚丙烯酰胺凝胶分离纯化，回收26bp的Ditag，回收产物溶解于8.75μl LoTE中。26bp的Ditag是一组仅含有2个基因序列标签、而去除了接头A和B的Ditag。

L.向上述8.75μl LoTE中加入T4 DNA Ligase(5U/μl)1.25μl，混匀后置于16℃反应2小时。反应结束后，将连接反应产物进行8％聚丙烯酰胺凝胶分离纯化，回收长度约300-800bp的DNA片段。回收产物溶解于10μl LoTE中，即获得了粘性末端(5’突出末端为CATG)的样品DNA片段，系由多个26bp的Ditag组成的基因表达标签串联体。

步骤二、接头I和II与样品DNA的连接

M.向步骤L中的溶解于10μl LoTE中的DNA片段中依次加入40μM接头I 1μl，40μM接头II 1μl，10X Ligase Buffer 1μl，ddH₂O 6μl，T4 DNA Ligase(5U/μl)1μl。混匀管内成分，置于16℃反应30分钟。然后依次加入10X Buffer 4μl，dNTPs(10mM each)1μl，ddH₂O 11.5μl，Bst polymerase(8U/μl)1μl，混匀管内成分，置于65℃反应30分钟。接头I和接头II的序列如下：

(I)5’CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAGXn

-3’正义链5’-YnCTGAGACAGGGAGGGAACAGATGGGACACGCAGGGATGAG-3’反义链

(II)5’-Biotin-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAGXn

-3’正义链

5’-YnCTGAGACACGCAACAGGGGATAGGCAAGGCACACAGGGGA-3’反义链

其中，Xn是ACTG，Yn是CAGT；

N.使用Qiaquick PCR纯化试剂盒(Qiagen)纯化步骤M的反应产物，纯化产物进行8％聚丙烯酰胺凝胶分离，回收长度约300-800bp的DNA片段，即获得了两端分别含有接头I和II的、由多个26bp的Ditag组成的基因表达标签串联体。该DNA片段可直接用于后续Genome Sequencer FLX系统高通量测序的常规实验步骤(使用罗氏公司的GS FLX Standard DNA Library Preparation Kit)。

实验结果：对人体肝癌组织RNA样品进行的这种转录组SAGE基因序列标签的高通量测序，提供了覆盖所有高丰度和低丰度转录物的大量序列数据。序列数据的特征是每条序列均以Xn(ACTG)起始，其后即为由多个26bp的Ditag组成的基因表达标签串联体，每一组Ditag的两端均为CATG序列，CATG是识别串联体中每一组Ditag的特异性标记。依据测序序列长度的不同，每条序列中包含3～8组Ditag或更多(参考表1)。

表1

序列名称	序列长度(bp)	测序结果	包含Ditag组数
序列名称	序列长度(bp)	测序结果	包含Ditag组数	I	86	ACTGCATGAGAATAAGAGTAATAAAGGTCATGGCCGGGCCCTGAAAAATGGTCATGCAATAAATGTGAGGGAGTTTCATG CACAAA	3
II	117	ACTGCATGGTAGGCTGAGATAATAAAGCCATGGGCAACGGTAGGCAAGCCCCCATGATTCTCCAGTAGGCTACGGACATGTCCCCGTACACCCTGGGTTCCATGATGCAAAGCTAAG	4	I	86		3
II	117		4	III	134	ACTGCATGCCTAGCTGGAGGAATAAAGCCATGGGATTTGGCCTTAAATGGATCATGCGCTGGTTCCTACCATCAATCATGCTTCAGCAGCAGTGTGTGGACATGCCACTGCACTGCATTTAAATCATGCTGAAC	5
IV	161	ACTGCATGGTGAAGGCAGACGGAAAGGACATGAGTCTGGCCTGAGGCCAAGACATGGACTCTTCAGGACTCTGGTGCATGACATCATCGACTGTTGGTGACATGAGCACCTCCAGCTTTGATGACATGAATAGGTCCATGGGCAAAGCCATGAGGAAAGCT	6	III	134		5
IV	161		6	V	180	ACTGCATGTTGGGATGGGAGCACTTACACATGTTGGTAACAGCCCGTCCGGACATGCCGTGCTCATATGGCTGGTACATGGCCTGTATGACTCCTCACCTCATGGACCCAGAGGAGCTCTCCCTCATGCAGAGATGAAAGGTCTGCCACATGCTCAACATCTTGTGATCAGACATGGTTA	7
VI	206	ACTGCATGAGCTCTTGGATTACCTCCTTCATGCTCCAGAATAGCTTAACCTGCATGAACAGATATTCTTAATCCTGCATGGTAAGTGTACAACGCGGCCACATGCTGCTATACGAAGGTGGAGGCATGGAACACATCCTCGGGTTGGACATGATAACTGTTGGCAACACAGACATGATCTTGTTACTGACCTCCAGCATGACTCCA	8	V	180		7

实施例2 在转录组Long SAGE基因序列标签高通量测序中的应用步骤一、长度约300-800bp的末端突出的基因表达标签的制备

步骤A、B、C同实施例1

D.移去反应管内的上清，保留管内磁珠，并将磁珠等分于2个新的反应管内。向第一个反应管内依次加入Adaptor C(40ng/μl)1.5μl，LoTE 14μl，10X Ligase Buffer2μl，T4 DNA ligase(5U/μl)2.5μl。向第二个反应管内依次加入Adaptor D(40ng/μl)1.5μl，LoTE 14μl，10X Ligase Buffer 2μl，T4 DNA ligase(5U/μl)2.5μl。轻轻混匀管内成分，于16℃反应2小时。Adaptor C和D的序列如下：Adaptor C：

5’TTTGGATTTGCTGGTGCAGTACAACTAGGCTTAATATCCGACATG 3’

3’amino(C7)CCTAAACGACCACGTCATGTTGATCCGAATTATAGGCT PO₄5’

Adaptor D：

5’TTTCTGCTCGAATTCAAGCTTCTAACGATGTACGTCCGACATG 3’

3’amino(C7)GACGAGCTTAAGTTCGAAGATTGCTACATGCAGGCT PO₄5’

E.依次向2个反应管内加入LoTE 70μl，10X Buffer 10μl，10X SAM(400μM)4μl，MmeI(2U/μl)10μl。轻轻混匀管内成分，置于37℃温育2.5小时。反应结束后，将2个反应管内的上清分别转移到2个新的反应管内。

步骤F、G、H、I同实施例1，但步骤I的连接反应产物为含有一组两端分别含有接头C和D的2个基因序列标签的、长约130个碱基的Ditag。

步骤J、K、L同实施例1，但步骤K对PCR产物及NlaIII酶切产物进行12％聚丙烯酰胺凝胶分离纯化时，回收的Ditag分别为130bp和34bp；步骤L中最终获得的粘性末端(5’突出末端为CATG)的样品DNA片段，系由多个34bp的Ditag组成的基因表达标签串联体。

步骤二、接头I和II与样品DNA的连接

步骤M、N同实施例1，但步骤M中的接头I和接头II的序列中的Xn变为CTGAC，Yn变为GTCAG，其它接头序列部分相同。步骤N得到了两端分别含有接头I和II的、由多个34bp的Ditag组成的基因表达标签串联体。该DNA片段可直接用于后续Genome Sequencer FLX系统高通量测序的常规实验步骤(使用罗氏公司的GS FLX Standard DNA LibraryPreparation Kit)。

实验结果：对人体肝癌组织RNA样品进行的这种转录组LongSAGE基因序列标签的高通量测序，提供了覆盖所有高丰度和低丰度转录物的大量序列数据。与实施例1的方法相比，通过本方法获得的基因序列标签长度增加，由26bp增加到34bp，从而提高了对基因序列标签注释的准确度。序列数据的特征是每条序列均以Xn(CTGAC)起始，其后即为由多个34bp的Ditag组成的基因表达标签串联体，每一组Ditag的两端均为CATG序列，CATG是识别串联体中每一组Ditag的特异性标记。依据测序序列长度的不同，每条序列中包含2～5组Ditag或更多(参考表2)。

表2

序列名称	序列长度(bp)	测序结果	包含Ditag组数
序列名称	序列长度(bp)	测序结果	包含Ditag组数	I	93	CTGACCATGTGTGGAGAGCCAAGGTTCTAAGGTGGTTTTCGGACATGTTGGTCCTCTGACTGATTAACCAAGAGTATCCCACAT GCTGGGTTA	2
II	138	CTGACCATGGGCAACGGTAACAACTAGGCAGAGTAGCAAACCCCATGCCCTGGGTTCAGCCCGAAAGACAGTGGCTGCGGTCAT GCCTAGCTGGAATGCCTATACCATCAATAAAAGTACATGAGTGTGTGGAGGACA	3	I	93		2
II	138		3	III	170	CTGACCATGAAGGAGATGGGAACTACCTAAGACTTCAAATTCCCATGGACATTGACCAGTATAAGTGGGCACCTTCACAAGCAT GGTGAAGGCAGTAGCTCTGAGGCCAAGAACTAGCACATGGACTCTTCAGACTGGAGACATTGGGTGACATTATCATGGACTCTGGT	4
IV	222	CTGACCATGACATCATCGATGACAACCTGTTGGTGAAATTCCTCATGGCTTTGATGATAAACGAAATAGGTCCAACCAGCTCAT GGTGAAACCCTATCTGTATGTGCTAAATGTGTACGCATGTCGTCTTTATCCCTCAGCCCGTCCGGAACGTCTACATGATGGCTGGTATCAATGATTGGCCAGGCTACATATCATGCCTTCCATTAAAGAGAGAGCTCT	5	III	170		4

实施例3在基因组基因序列标签高通量测序中的应用

A.在0.5ml试管中，依次加入人体白血病细胞基因组DNA 10μl(1μg/μl)，10X Buffer20μl，100X BSA 2μl，ddH₂O 162μl，SacI 6μl(20U/μl)。混匀管内成分，放置于37℃温育1.5小时。

B.反应结束后，向管内加入200μl酚/氯仿，充分混匀后室温下离心(13,000rpm)5分钟。将上清转移到新的反应管，依次加入133μl乙酸铵，3μl mussel glycogen(20mg/ml)，1ml 100％乙醇。混匀管内成分，放置于干冰上20分钟，4℃离心(13,000rpm)40分钟。弃上清，将沉淀用1ml 70％乙醇洗2遍，最终溶解于5μlLoTE中。

C.向上述管内依次加入SacI Linker(35ng/μl)1.6μl，ddH₂O 2μl，5X LigationBuffer 2.4μl，T4 DNA ligase(5U/ul)1μl。混匀管内成分，置于16℃连接反应3小时。反应结束后，向管内加入188μl LoTE，混匀，再加入200μl酚/氯仿，重复步骤B。SacI Linker的序列如下：

5’-biotin-TTTGCAGAGGTTCGTAATCGAGTTGGGTGAGCT-3’

5’-phosphate-CACCCAACTCGATTACGAACCTCTGC-3’

D.向上述管内加入LoTE 167μl，100X BSA 2μl，10X Buffer 20μl，NlaIII(10U/μl)6μl。混匀管内成分，置于37℃温育1小时。重复步骤B。

E.向管内加入200μl Dynabead M-280磁珠(10mg/ml)，室温放置30分钟，每隔5分钟轻轻混匀管内成分。将磁珠等分于2个新的管内，移去上清，保留管内磁珠，后续步骤同实施例2步骤D、E、F、G、H、I、J、K、L、M、N，但步骤M中的接头I和接头II的序列中的Xn变为GTACGA，Yn变为TCGTAC，其它接头序列部分相同。

实验结果：对人体白血病细胞DNA样品进行的这种基因组序列标签的高通量测序，提供了覆盖全基因组的大量序列数据。通过本方法获得的基因组序列标签长度为34bp，由于人类全基因组序列是已知的，因而可以对这些序列标签进行注释和分析，从而获得白血病病人基因组扩增或缺失的详细信息。序列数据的特征是每条序列均以Xn(GTACGA)起始，其后即为由多个34bp的Ditag组成的基因组序列标签串联体，每一组Ditag的两端均为CATG序列，CATG是识别串联体中每一组Ditag的特异性标记。依据测序序列长度的不同，每条序列中包含2～5组Ditag或更多(参考表3)。

表3

序列名称	序列长度(bp)	测序结果	包含Ditag组数
序列名称	序列长度(bp)	测序结果	包含Ditag组数	I	96	GTACGACATGATACGCTGCCGCAAGCCCGAGGCACTTGGGACAGCATGCGCACTGGCCAGGAGCCGCATTTGAAGAACATCCCATGATGATCGCCT	2
II	138	GTACGACATGATGATAGAAGGCAGTTATCCTGGAATCTGGCTCACATGGGCTTCAGAAGATAGCTCGGATCACTTTGAGCTCCATGTCACCTCGCTGCAGGACAAGACGTGCTTAAGATTCATGCAACTAGGCAGCTA	3	I	96		2

III	178	GTACGACATGGCTTAGAACACAGGATATGCCTGCAGTCCCAGCTCATGAGTGCAGGACACACAGAAGTGAAGCCTTCCTGGACATGAATCACGCTTATTACGGGCACACCTGCAAGGTGGCATGGGACAAAGCCCAGGCTGTCTGCATTCAACCTGTCCATGGACAAGTGACTGCCTG	4
III	178		4	IV	207	GTACGACATGATCTCTCATCTTCCAGCCTGAATGTGTTCGCTGTCATGAGACATCAGGTGCTGCGGTCCTTCAGAGAAGCTGCATGTAGGACTGCTGGCACAAGACGTTACTTGCTGTACCATGAGTCCAGAACAGACCGAAGCCAATGTGCCTGACCCATGGAGCCAGGGAGCTCACCTGTGCCTCGCTCTCAGGCATGCAGCCAG	5

实施例4 在甲基化基因序列标签高通量测序中的应用

A.在0.5ml试管中，依次加入人体白血病细胞基因组DNA 10μl(1μg/μl)，10X Buffer20μl，ddH₂O 164μl，AscI 6μl(10U/μl)。混匀管内成分，放置于37℃温育1.5小时。

C.向上述管内依次加入AscI Linker(35ng/μl)1.6μl，ddH₂O 2μl，5X LigationBuffer 2.4μl，T4 DNA ligase(5U/ul)1μl。混匀管内成分，置于16℃连接反应3小时。反应结束后，向管内加入188μl LoTE，混匀，再加入200μl酚/氯仿，重复步骤B。AscI Linker的序列如下：

5’-biotin-TTTGCAGAGGTTCGTAATCGAGTTGGGTGG-3’

5’-phosphate-CGCGCCACCCAACTCGATTACGAACCTCTGC-3’

E.向管内加入200μl Dynabead M-280磁珠(10mg/ml)，室温放置30分钟，每隔5分钟轻轻混匀管内成分。将磁珠等分于2个新的管内，移去上清，保留管内磁珠，后续步骤同实施例2步骤D、E、F、G、H、I、J、K、L、M、N，但步骤M中的接头I和接头II的序列中的Xn变为CAGTAGA，Yn变为TCTACTG，其它接头序列部分相同。

实验结果：对人体白血病细胞DNA样品进行的这种基因组序列标签的高通量测序，提供了覆盖全基因组甲基化位点的大量序列数据。本方法采用用甲基化敏感的限制性内切酶AscI对基因组DNA进行酶切，AscI仅选择性地作用于非甲基化区域的识别位点，而不能酶解甲基化的识别位点。因此，通过本方法获得的长度为34bp的基因组序列标签为基因组低甲基化区域的标签。由于人类全基因组序列是已知的，因而可以对这些序列标签进行注释和分析，从而获得全基因组甲基化水平的分布情况。序列数据的特征是每条序列均以Xn(CAGTAGA)起始，其后即为由多个34bp的Ditag组成的基因组序列标签串联体，每一组Ditag的两端均为CATG序列，CATG是识别串联体中每一组Ditag的特异性标记。依据测序序列长度的不同，每条序列中包含2～5组Ditag或更多(参考表4)。

表4

序列名称	序列长度(bp)	测序结果	包含Ditag组数
序列名称	序列长度(bp)	测序结果	包含Ditag组数	I	97	CAGTAGACATGATACGCTGCCGCAAGCCCGAGGCACTTGGGACAGCA TGCGCACTGGCCAGGAGCCGCATTTGAAGAACATCCCATGATGATCGCCT	2
II	139	CAGTAGACATGATGATAGAAGGCAGTTATCCTGGAATCTGGCTCACA TGGGCTTCAGAAGATAGCTCGGATCACTTTGAGCTCCATGTCACCTCGCTGCAGGACAAGACGTGCTTAAGATTCATGCAACTAGGCAGCTA	3	I	97		2
II	139		3	III	179	CAGTAGACATGGCTTAGAACACAGGATATGCCTGCAGTCCCAGCTCA TGAGTGCAGGACACACAGAAGTGAAGCCTTCCTGGACATGAATCACGCTTATTACGGGCACACCTGCAAGGTGGCATGGGACAAAGCCCAGGCTGTCTGCATTCAACCTGTCCATGGACAAGTGACTGCCTG	4
IV	208	CAGTAGACATGATCTCTCATCTTCCAGCCTGAATGTGTTCGCTGTCA TGAGACATCAGGTGCTGCGGTCCTTCAGAGAAGCTGCATGTAGGACTGCTGGCACAAGACGTTACTTGCTGTACCATGAGTCCAGAACAGACCGAAGCCAATGTGCCTGACCCATGGAGCCAGGGAGCTCACCTGTGCCTCGCTCTCAGGCATGCAGCCAG	5	III	179		4

Claims

1、一种有利于高通量基因序列标签测序的DNA粘端接头，其特征在于：该DNA粘端接头是一种末端突出的DNA接头，带有可识别序列Xn、Yn，其序列式为序列(I)和序列(II)，

5’-CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAGXndm-3’正义链

5’-YnCTGAGACAGGGAGGGAACAGATGGGACACGCAGGGATGAG-3’反义链

(I)

5’-Biotin-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAGXndm-3’正义链

5’-YnCTGAGACACGCAACAGGGGATAGGCAAGGCACACAGGGGA-3’反义链

(II)

其中，X表示A、T、G、C四种碱基中的任意一种，n为4-10之间的任意整数，任意两个相邻的X不能是相同的碱基，Y是与X一一对应的互补碱基，dm是末端突出标志，d表示A、T、G、C四种碱基中的任意一种，m为1-4之间的任意整数。

2、如权利要求1所述的有利于高通量基因序列标签测序的DNA粘端接头，其特征在于：所述的dm是CATG。

3、一种有利于高通量基因序列标签测序的DNA粘端接头在高通量基因序列标签测序方法中的应用，该方法步骤包括：

(1)取长度在300-800bp的末端突出的样品DNA片段；

(2)在DNA连接酶的作用下，样品DNA片段与DNA粘端接头相连接；

(3)用Qiaquick PCR纯化试剂盒纯化连接有接头的DNA片段；

(5)再按照常规高通量测序的后续步骤进行测序。