CN108396057B

CN108396057B - 基于长链分子倒置探针的核酸靶向捕获测序文库制备方法

Info

Publication number: CN108396057B
Application number: CN201810168991.2A
Authority: CN
Inventors: 施小龙; 唐超; 王颖; 吴永忠
Original assignee: Chongqing Tumour Institute
Current assignee: Chongqing Tumour Institute
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2021-11-09
Anticipated expiration: 2038-02-28
Also published as: CN108396057A

Abstract

本发明公开了一种基于长链分子倒置探针的核酸靶向捕获测序文库制备方法；a)合成捕获探针A，捕获探针B以及连接子C；b)在连接酶反应体系里加入磷酸化的探针A，B以及连接子C，同时加入DNA连接酶，使A和B在C的桥接作用下连接；c)合并多个针对不同靶区的连接混合物，通过变性电泳或核酸纯化试剂盒分离和纯化连接的产物，得到长链分子倒置探针；d)长链分子倒置探针与待测的样品的DNA或cDNA混合，杂交，在缓冲液中加入DNA聚合酶、DNA连接酶、dNTP和含Mg2+的缓冲液延伸长链分子倒置探针，在DNA连接酶的作用下形成闭合的分子；e)加入核酸外切酶降解没有环化的DNA分子；f)用和长链分子倒置探针的公共序列区域对应的引物进行PCR扩增，得到靶向区域的测序文库。

Description

基于长链分子倒置探针的核酸靶向捕获测序文库制备方法

技术领域

本发明属于核酸测定或检验方法的技术领域，具体是涉及一种基于引物延伸的核酸靶序列捕获测序文库制备方法。

背景技术

近年来崛起的新一代高通量DNA测序技术能够并行地对数十亿的DNA片段进行序列测定以及量化，为基础生物医学研究和临床检测提供了一个强大的工具；高通量DNA测序技术的发展也带动了另一项重要的技术的兴起——靶序列捕获测序；靶序列捕获测序是首先通过一些靶向方法提取我们所关心目标基因的DNA片段制备成靶序列测序文库，然后通过高通量测序对其进行分析，例如外显子组(Exome)捕获测序捕获和测定占大约30Mb的全部外显子序列；因为这种测序并不是该物种基因组的首次测序，故称为靶向重测序(Targeted resequencing)；靶向测序技术对于庞大的人类或高等生物的基因组，可以成千上万倍地提高测序的效率，极大地提高样本的通量，使高通量测序更加有效地用于生物医学领域；目前已经发展了多种靶序列捕获策略，主要包括固相芯片捕获、液相探针捕获、分子倒置探针(Molecular inversion probes)以及乳液PCR(Raindance)等。

固相芯片捕获方法是先将靶序列探针(50-70mer)用DNA芯片平行合成技术原位合成在玻璃片上，然后将制备好的测序文库杂交到芯片上；经过条件严谨洗涤，所得到的捕获产物经PCR扩增后测序；通常经过固相芯片捕获，大概50％-60％的序列可以比对到靶序列区域。

液相捕获方法是先用原位芯片或常规方法合成超长的靶探针(150-210mer)，然后将其通过T7RNA启动子进行体外转录扩增，产生生物素化的RNA探针；该探针可以在试管中进行杂交和富集，相对固相捕获要方便的多；目前这两个方法已被广泛地应用于连锁分析或关联分析所需的大样本研究。

固相芯片捕获和液相捕获是目前最主要的靶序列测序文库制备方法，但是它们在技术上仍然存在一定的局限性；首先，无论是固相芯片捕获还是液相捕获都需要首先将样品DNA通过连接法制备成测序文库，测序文库制备的步骤繁琐难以自动化、耗时耗力。测序文库制备的步骤主要包括：将基因组DNA片段化，将片段化的DNA末端修补齐，在DNA聚合酶的作用下在3’末端加上一个腺苷酸，然后通过DNA连接酶在DNA片段的两端连接含有通用引物序列的接头序列，最后通过一对通用引物扩增DNA片段；然后将制备好的测序文库和靶序列探针杂交，捕获出靶序列。同时，由于测序文库制备的步骤多并且每一步反应后都需要进行纯化，测序文库的制备依赖于起始DNA的量，通常需要100ng以上。然而，目前的研究或诊断常常需要分析极少量的细胞甚至单个细胞或者游离DNA，例如分析循环肿瘤细胞和循环肿瘤DNA需要灵敏度更高的靶向测序文库制备方法。

另外，靶序列的捕获探针昂贵，杂交捕获的效率有限(通常50％-60％的捕获效率)；因此该方法的通量低、灵敏度受到一定程度的限制，对于需要高通量的大规模基因组计划或诊疗测序来说不是最适宜的方法。

基于分子倒置探针(MIP)或Padlock的核酸检测是Nilsson等1994年发明的一种目标区域检测方法(Nilsson M,et al.1994,Science 265:2085–2088)，配合芯片检测技术和高通量检测技术，该方法可以同时多个目标区域。但其主要的缺点在于探针捕获的区域受限制，捕获区域一般40-170bp；超过170bp，捕获的效率很低。目前高通量测序的读长可以到达2×250bp；另外在传统的MIP或Padlock探针也不能对捕获的DNA片段进行准确的定量，捕获长度受限以及不能准确定量会限制MIP或Padlock探针的应用。

发明内容

针对现有技术中存在的上述不足，本发明提供了一种基于长链分子倒置探针的核酸靶向捕获测序文库制备方法。该核酸靶序列捕获测序文库制备方法是通过一个带有公共序列连接子以及DNA连接酶将分别对应靶向序列的两个探针连接起来，形成一个长链的MIP探针，将多个这样制备的连接产物合成并纯化得到长达200多碱基的长链MIP探针池，然后通过探针与基因组DNA杂交、DNA聚合酶延伸以及DNA连接酶闭合得到捕获的目标产物，然后通过长链MIP探针的公共测序引物区域，用一对公共引物将复制有靶序列的探针进行PCR扩增，获得靶序列的DNA测序文库。

为了解决上述技术问题，本发明采用了如下技术方案：

基于长链分子倒置探针的核酸靶向捕获测序文库制备方法，该方法包括如下步骤：

a)根据目标靶序列设计并合成带有部分公共序列、随机分子标签和靶向序列的捕获探针区域A，带有部分公共序列、随机分子标签和靶向序列的捕获探针区域B以及带有公共序列的连接子C；

b)在连接酶反应体系里加入磷酸化的探针A，B以及公共序列的连接子C，同时加入DNA连接酶，使A和B在C的桥接作用下连接；

c)合并多个针对不同靶区的连接混合物，通过变性电泳或核酸纯化试剂盒分离和纯化连接的产物，得到长链分子倒置探针；

d)将长链分子倒置探针与待测的样品的DNA或cDNA混合，杂交，在缓冲液中加入DNA聚合酶、DNA连接酶、dNTP和含Mg2+的缓冲液延伸长链分子倒置探针，在DNA连接酶的作用下形成闭合的分子；

e)加入核酸外切酶降解没有环化的DNA分子；

f)用和长链分子倒置探针的公共序列区域对应的引物进行PCR扩增，得到靶向区域的测序文库。

进一步，所述待测的DNA或RNA样品设置为基因组DNA、线粒体DNA、游离DNA、cDNA、总RNA、信使RNA、长非编码RNA、小RNA和RNA逆转录产物。

进一步，所述针对目标靶序列设计并合成与靶序列互补的捕获探针A以及和靶序列互补的捕获探针B，A和B之间的距离大于100bp，小于400bp，A或B探针互补区域的长度在15-35碱基。

进一步，所述针对目标靶序列设计并合成与靶序列互补的捕获探针A以及和靶序列互补的捕获探针B，探针A的3’端带有公共的序列，公共的序列长度20-60碱基以及探针B的5’端带有公共的序列，公共的序列长度20-60碱基。

进一步，所述针对目标靶序列设计并合成与靶序列互补的捕获探针A以及和靶序列互补的捕获探针B，探针A和B的公共的序列和靶区特异性序列之间带有简并性碱基构成的随机分子标签(NNNN)，随机分子标签的序列长度为2-14碱基，最适3-8碱基。

进一步，所述针对目标靶序列设计并合成与靶序列互补的捕获探针A以及和靶序列互补的捕获探针B，通过一个与探针A和B的公共序列的部分区域互补的连接子、DNA连接酶来连接。

进一步，所述针对目标靶序列设计并合成与靶序列互补的捕获探针A以及和靶序列互补的捕获探针B，通过一个与探针A和B的公共序列的部分区域互补的连接子、DNA连接酶来连接,连接之后通过DNA变性的凝胶电泳分离、纯化单链DNA或采用核酸纯化试剂盒纯化连接DNA产物。

进一步，所述长链分子倒置探针制备所述DNA连接酶包括各种DNA连接酶，如T4DNA连接酶、Taq DNA连接酶、E.coli DNA连接酶等。

进一步，所述基于长链分子倒置探针DNA测序文库制备所述DNA连接酶包括各种DNA连接酶，如Ampligase连接酶、Taq DNA连接酶等，DNA聚合酶包括高保真DNA聚合酶PfuDNA聚合酶,Phusion DNA聚合酶，Q5DNA聚合酶等。

进一步，针对目标靶序列设计并合成与靶序列互补的捕获探针A以及和靶序列互补的捕获探针B，通过一个与探针A和B的公共序列的部分区域互补的连接子、DNA连接酶来连接,所述公共序列是来自人工设计的序列或序列取自非靶标序列，可以含有测序接头的部分序列。

本发明通过具有公共序列的连接子和连接酶将靶区特异性序列探针连接制备了长链分子倒置探针，极大的拓宽了捕获区域的长度，提高了捕获效率和捕获区域的选择性，具有高通量、数字化定量、高特异性、高灵敏度、操作方便、操作成本低、适用范围广。

与现有技术相比，本发明具有如下优点：

1、传统的MIP或Padlock探针一般是60-80碱基的长度，捕获区域一般40-170bp，最适为165bp；超过170bp，捕获的效率很低；由于捕获效率低，所需要的起始DNA也高，一般需要500ng的DNA；不同MIP探针捕获效率不一，造成捕获的产物的均一性很差；另外在传统的MIP或Padlock探针也不能对捕获的DNA片段进行准确的定量，捕获长度受限以及不能准确定量会限制MIP或Padlock探针的应用。本发明核酸靶序列捕获测序文库的制备方法通过连接子将带有特异性序列的探针A和B连接起来，形成了长达200多碱基的长链探针。本发明制备出的这种超长的长链MIP探针，(1)能够有效地打破传统的探针捕获区域长度的限制，能够有效地捕获100-400bp的目标区域；(2)由于可以在更大的目标区域进行捕获，可以更灵活地选择最适合的杂交位点，不同探针捕获的效率更均一；(3)在特异区域和公共区域之间设计有2个随机的分子标签序列(A探针和B探针部分一个)，能够用较短的随机序列有效地产生更多组合分子标签(例如，A探针部分有一个5碱基随机序列NNNNN，B探针部分有1个5碱基随机序列NNNNN，总共有4¹⁰组合)，也避免了太长随机序列会引发非特异性的延伸。

2、本发明核酸靶序列捕获测序文库的制备方法具有以下优点：

1)捕获区域的长度宽：一个探针可以捕获200-400bp的区域，可以同时在一个反应里对上千个不同的基因区域进行定向的捕获。

2)高灵敏度：由于探针更长，其捕获效率大大提高，起始DNA的量仅需要10ng甚至更低。

3)可以数字化评估捕获DNA的数目。

4)操作成本低：一次制备的捕获探针可用于上千个样品。

5)适用范围广：适用于几个到几千个靶基因。

附图说明

图1为本发明核酸靶序列捕获测序文库制备方法中长链捕获探针的制备方法和流程示意图；

图2为本发明核酸靶序列捕获测序文库制备方法中采用长链探针的DNA靶向测序文库的制备流程图。

序列表的序列描述：

SEQ ID No.1～50：捕获探针A1～A50的序列：

靶区特异性序列-aannnncc-agatcggaagagcacacgtctgaactccagtcac

SEQ ID No.51～100：捕获探针B1～B50序列：

acactctttccctacacgacgctcttccgatct-aannnncc-靶区特异性序列

SEQ ID No.101：公共序列a序列：

pi-acaaaggtaagtcaagtgactcttgatgtttgtctcatca

SEQ ID No.102：与公共序列部分反向互补的b序列：

gtagggaaagagtgttgatgagacaaacatcaagagtcacttgacttacctttgtgtgactggagttcaga-nh2

SEQ ID No.103：公共序列c序列：

pi-acaaaggtaagtcaagtgacattgttagatgtagttaagtttgtcttcttgatgtttgtctcatca

SEQ ID No.104：与公共序列部分反向互补的d序列：

gtcgtgtagggaaagagtgtgtgactggagttcagacgt-nh2

SEQ ID No.105：与公共序列部分反向互补的e序列：

gtcacttgacttacctttgtgtgactggagttcagacgtgtgctcttccga-nh2

SEQ ID No.106：与公共序列部分反向互补的f序列：

tcggaagagcgtcgtgtagggaaagagtgttgatgagacaaacatcaaga-nh2

SEQ ID No.107：公共引物g序列：

aagcagaagacggcatacgagatcggtctcggcattcctgctgaaccgctcttccgatct

SEQ ID No.107：带有样品index的公共引物h序列：

caagcagaagacggcatacgagat-index-gtgactggagttcagacgtgtgctcttc

SEQ ID No.108：公共引物PE1.0序列：

aatgatacggcgaccaccgagatctacactctttccctacacgacgctcttccgatct

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细地描述。

图1所示为本发明长链MIP探针的制备方法，有3种具体的制备流程。如图2所示为制备的长链MIP探针的结构示意图(A上图)以及靶区(例如外显子)的捕获设计图(A下面3个图)。基于长链分子倒置探针的核酸靶向捕获测序文库制备方法，该方法包括如下步骤：1)长链探针制备流程

(a)第1种长链探针制备流程：过程如图1中(I)所示，根据目标靶序列设计并分别合成探针A1-A50和B1-B50的oligo序列以及公共序列a序列(pi-acaaaggtaagtcaagtgactcttgatgtttgtctcatca)和与公共序列部分反向互补的b序列：(gtagggaaagagtgttgatgagacaaacatcaagagtcacttgacttacctttgtgtgactggagttcaga-nh2)。将A1和B1合并通过T4核苷酸激酶反应磷酸化A1和B1(记为A1-B1)，依次类推，A2和B2合并磷酸化，…,An和Bn合并磷酸化。将公共序列a序列和与公共序列部分反向互补的b序列合并，退火，使之中间的互补序列之间形成双链，两边为黏末端。将退火好的a序列和b序列分配至50个反应管里，分别加入磷酸化的A1-B1混合物、磷酸化的A2-B2混合物、磷酸化的A3-B3混合物、…、An-Bn混合物，加入T4DNA连接酶以及反应缓冲液进行连接反应。反应完毕，用DNA纯化试剂盒或XP磁珠纯化和浓缩连接产物。连接产物可以进一步用尿素-PAGE凝胶电泳分离纯化。

(b)第2种长链探针制备流程：过程如图1中(II)所示，根据目标靶序列设计并分别合成探针A1-A50和B1-B50的oligo序列以及与公共序列部分反向互补的d序列：gtcgtgtagggaaagagtgtgtgactggagttcagacgt-nh2。将A1和B1合并通过T4核苷酸激酶反应磷酸化A1和B1(记为A1-B1)，依次类推，A2和B2合并磷酸化，…,An和Bn合并磷酸化。将公共序列d序列分别加入A1-B1、A2-B2、…、An-Bn，退火，使d序列与A序列以及B的公共序列区域互补，加入T4DNA连接酶以及反应缓冲液进行连接反应。反应完毕，用DNA纯化试剂盒或XP磁珠纯化和浓缩连接产物。连接产物可以进一步用尿素-PAGE凝胶电泳分离纯化。

(c)第3种长链探针制备流程：过程如图1中(III)所示，根据目标靶序列设计并分别合成探针A1-A50和B1-B50的oligo序列以及公共序列c序列，与公共序列部分反向互补的e序列、与公共序列部分反向互补的f序列。将A1和B1合并通过T4核苷酸激酶反应磷酸化A1和B1(记为A1-B1)，依次类推，A2和B2合并磷酸化，…,An和Bn合并磷酸化。将序列c、序列e和序列f的混合物分别加入A1-B1、A2-B2、…、An-Bn等反应管，退火，加入T4DNA连接酶以及反应缓冲液进行连接反应。反应完毕，用DNA纯化试剂盒或XP磁珠纯化和浓缩连接产物。连接产物可以进一步用尿素-PAGE凝胶电泳分离纯化。

2)目标区域捕获流程

A)将上述方法制备的DNA长链探针和基因组DNA杂交，每个探针的分子数目和基因组拷贝数之比在100：1到100000：1之间。捕获探针两端上有靶特异性序列与基因组DNA的靶序列区域杂交，杂交条件为95℃杂交变性5分钟，然后再56℃杂交4小时到48小时，杂交反应液为Amligase DNA连接酶反应缓冲液。

B)在上述杂交反应液中加入DNA聚合酶、DNA连接酶Amligase、dNTP和含Mg2+的缓冲液，在56℃反应1小时到4小时。杂交的捕获探针的3’末端以目标区域DNA为模板进行DNA合成，当探针延伸至探针的5’末端时，DNA连接酶会封闭缺口，形成一个封闭的单链环状DNA。之后加入DNA外切酶I和DNA外切酶III，在37℃时进行DNA消化反应去除所有线性的DNA，反应时间为60-90分钟。

C)以捕获探针延伸和环化产物为模板，用公共引物a和b进行文库PCR扩增，扩增产物即为靶序列捕获测序文库；本实施例以上述收集的25ul上清液做为模板进行PCR扩增，反应体系为：Phusion DNA聚合酶反应缓冲液、洗脱的DNA、公共的PE1.0引物(aat gat acggcg acc acc gag atc tac act ctt tcc cta cac gac gct ctt ccg atc t)，然后加入具有样品标签的引物序列(caa gca gaa gac ggc ata cga gat-xxxxxx-gtg act gga gttcag acg tgt gct ctt c)和公共引物PE1.0，进行PCR反应，PCR循环条件为：98℃，2分钟；98℃，20秒，58℃，20秒，72℃，30秒；循环12个循环。这样不同的样品按以上条件进行靶向目标序列扩增，扩增的PCR产物被不同的样品编码序列所编码；合并不同的样品扩增产物，用0.8XP磁珠进行纯化，得到目标PCR产物(400-500bp)。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

序列表

<110> 重庆市肿瘤研究所

<120> 基于长链分子倒置探针的核酸靶向捕获测序文库制备方法

<160> 109

<170> SIPOSequenceListing 1.0

<210> 1

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

tgcttgctaa aaacccagta cgtaannnnc cagatcggaa gagcacacgt ctgaactcca 60

gtcac 65

<210> 2

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

ataatcagct ggcttcaact ccaaannnnc cagatcggaa gagcacacgt ctgaactcca 60

gtcac 65

<210> 3

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

tggtagactg gggagaacta caaaaannnn ccagatcgga agagcacacg tctgaactcc 60

agtcac 66

<210> 4

<211> 72

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

tgaatctgat ttttatgcta atattttggc aannnnccag atcggaagag cacacgtctg 60

aactccagtc ac 72

<210> 5

<211> 62

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

cccagtggta tgtgggagtt aannnnccag atcggaagag cacacgtctg aactccagtc 60

ac 62

<210> 6

<211> 63

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

gcgttatacc tttgccctga gaannnncca gatcggaaga gcacacgtct gaactccagt 60

cac 63

<210> 7

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

acaagaaaga gcagatgagg ttgaaannnn ccagatcgga agagcacacg tctgaactcc 60

agtcac 66

<210> 8

<211> 68

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

acattgatta gactgttgaa attgctaann nnccagatcg gaagagcaca cgtctgaact 60

ccagtcac 68

<210> 9

<211> 69

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

tagttgaact acaggttttt ttgttgtaan nnnccagatc ggaagagcac acgtctgaac 60

tccagtcac 69

<210> 10

<211> 70

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

acaaaaagta agaactagca agactaggaa nnnnccagat cggaagagca cacgtctgaa 60

ctccagtcac 70

<210> 11

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

aatcagaagc cctttgagag tggaannnnc cagatcggaa gagcacacgt ctgaactcca 60

gtcac 65

<210> 12

<211> 67

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

aaagacctat tagacacaga gaacaaannn nccagatcgg aagagcacac gtctgaactc 60

cagtcac 67

<210> 13

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

gcaggcaata tctggaactt ctcaannnnc cagatcggaa gagcacacgt ctgaactcca 60

gtcac 65

<210> 14

<211> 63

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

tgctcacaga aggaggactc caannnncca gatcggaaga gcacacgtct gaactccagt 60

cac 63

<210> 15

<211> 70

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

taccgaaaga ccaaaaatca gaactaataa nnnnccagat cggaagagca cacgtctgaa 60

ctccagtcac 70

<210> 16

<211> 70

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

agttttatag atgacgattc cttctgtgaa nnnnccagat cggaagagca cacgtctgaa 60

ctccagtcac 70

<210> 17

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

ccccagaagc tgattctctg tcaannnncc agatcggaag agcacacgtc tgaactccag 60

tcac 64

<210> 18

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

gccagcactc ttattttaac tcctaannnn ccagatcgga agagcacacg tctgaactcc 60

agtcac 66

<210> 19

<211> 61

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

cgttgagctg ttgccaccta annnnccaga tcggaagagc acacgtctga actccagtca 60

c 61

<210> 20

<211> 69

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

tttgtcttcc aagtagctaa tgaaaggaan nnnccagatc ggaagagcac acgtctgaac 60

tccagtcac 69

<210> 21

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

tggtttatgt tcttgcagag gagaaannnn ccagatcgga agagcacacg tctgaactcc 60

agtcac 66

<210> 22

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

aaatcacagt tttggaggta gctaannnnc cagatcggaa gagcacacgt ctgaactcca 60

gtcac 65

<210> 23

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

gagcaagcct cagtcaatta atacaannnn ccagatcgga agagcacacg tctgaactcc 60

agtcac 66

<210> 24

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 24

agaagaatca ggaagtcagt ttgaaannnn ccagatcgga agagcacacg tctgaactcc 60

agtcac 66

<210> 25

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 25

cgattggtca ggtagacagc agaannnncc agatcggaag agcacacgtc tgaactccag 60

tcac 64

<210> 26

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 26

atgtttctac tgaagctctg caaaannnnc cagatcggaa gagcacacgt ctgaactcca 60

gtcac 65

<210> 27

<211> 72

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 27

atgccaactg atattacaaa ataatattga aannnnccag atcggaagag cacacgtctg 60

aactccagtc ac 72

<210> 28

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 28

acggacttgc tatttactga tcaaannnnc cagatcggaa gagcacacgt ctgaactcca 60

gtcac 65

<210> 29

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 29

ctgctactaa aacggagcaa aaaannnncc agatcggaag agcacacgtc tgaactccag 60

tcac 64

<210> 30

<211> 69

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 30

ctgacataag aaagaacaaa atggacaaan nnnccagatc ggaagagcac acgtctgaac 60

tccagtcac 69

<210> 31

<211> 63

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 31

gggttttcat acagctagcg gaannnncca gatcggaaga gcacacgtct gaactccagt 60

cac 63

<210> 32

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 32

cacagctgcc ccaaagtgta aaaannnncc agatcggaag agcacacgtc tgaactccag 60

tcac 64

<210> 33

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 33

cctgcaactt gttacacaaa tcaaannnnc cagatcggaa gagcacacgt ctgaactcca 60

gtcac 65

<210> 34

<211> 67

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 34

tggtcaacca gaaagaataa atactaannn nccagatcgg aagagcacac gtctgaactc 60

cagtcac 67

<210> 35

<211> 72

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 35

ccattctgat gaggtatata atgattcagg aannnnccag atcggaagag cacacgtctg 60

aactccagtc ac 72

<210> 36

<211> 63

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 36

tgcgttgagg aacttgtgac taannnncca gatcggaaga gcacacgtct gaactccagt 60

cac 63

<210> 37

<211> 70

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 37

tcagtaaagt aattaaggaa aacaacgaaa nnnnccagat cggaagagca cacgtctgaa 60

ctccagtcac 70

<210> 38

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 38

ttgctgacat tcagagtgaa gaaaannnnc cagatcggaa gagcacacgt ctgaactcca 60

gtcac 65

<210> 39

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 39

gcaagtggaa aatctgtcca ggaannnncc agatcggaag agcacacgtc tgaactccag 60

tcac 64

<210> 40

<211> 68

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 40

cgtactccag aacatttaat atcccaaann nnccagatcg gaagagcaca cgtctgaact 60

ccagtcac 68

<210> 41

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 41

ttcacctacg tctagacaaa atgtaannnn ccagatcgga agagcacacg tctgaactcc 60

agtcac 66

<210> 42

<211> 69

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 42

tctctctcaa tttcaacaag acaaacaaan nnnccagatc ggaagagcac acgtctgaac 60

tccagtcac 69

<210> 43

<211> 68

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 43

tgttctactt actccaaaga ttcagaaann nnccagatcg gaagagcaca cgtctgaact 60

ccagtcac 68

<210> 44

<211> 70

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 44

ggaaatggtt ttgtcaaatt caagaattaa nnnnccagat cggaagagca cacgtctgaa 60

ctccagtcac 70

<210> 45

<211> 68

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 45

attcagtaga cttggtatgc taacaaaann nnccagatcg gaagagcaca cgtctgaact 60

ccagtcac 68

<210> 46

<211> 68

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 46

tctgttctcc ctctataggt atggtaaann nnccagatcg gaagagcaca cgtctgaact 60

ccagtcac 68

<210> 47

<211> 67

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 47

acagtatgag aaaagtctcg tttttaannn nccagatcgg aagagcacac gtctgaactc 60

cagtcac 67

<210> 48

<211> 69

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 48

tccattttat caagtttctg ctacaagaan nnnccagatc ggaagagcac acgtctgaac 60

tccagtcac 69

<210> 49

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 49

aacattgatg gacatggctc tgaaannnnc cagatcggaa gagcacacgt ctgaactcca 60

gtcac 65

<210> 50

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 50

acaactccaa tcaagcagta gctaannnnc cagatcggaa gagcacacgt ctgaactcca 60

gtcac 65

<210> 51

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 51

acactctttc cctacacgac gctcttccga tctaannnnc cgtgcatttt ggtcttctgt 60

tttgc 65

<210> 52

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 52

acactctttc cctacacgac gctcttccga tctaannnnc ctgatcttta actgttctgg 60

gtcac 65

<210> 53

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 53

acactctttc cctacacgac gctcttccga tctaannnnc cgctccaccc tataattctg 60

aacct 65

<210> 54

<211> 70

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 54

acactctttc cctacacgac gctcttccga tctaannnnc ctccagagta tatacattct 60

cactgaatta 70

<210> 55

<211> 68

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 55

acactctttc cctacacgac gctcttccga tctaannnnc cttaaaataa cctaagggat 60

ttgctttg 68

<210> 56

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 56

acactctttc cctacacgac gctcttccga tctaannnnc caacaccaca aagagataag 60

tcaggt 66

<210> 57

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 57

acactctttc cctacacgac gctcttccga tctaannnnc catccttaat gatcagggca 60

tttct 65

<210> 58

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 58

acactctttc cctacacgac gctcttccga tctaannnnc cagtagatgt gctttttgat 60

gtctg 65

<210> 59

<211> 69

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 59

acactctttc cctacacgac gctcttccga tctaannnnc catgtgcatt gagagttttt 60

atactagtg 69

<210> 60

<211> 70

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 60

acactctttc cctacacgac gctcttccga tctaannnnc ctggcttata aaatattaat 60

gtgcttctgt 70

<210> 61

<211> 69

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 61

acactctttc cctacacgac gctcttccga tctaannnnc ccagttgtag atacctctga 60

agaagatag 69

<210> 62

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 62

acactctttc cctacacgac gctcttccga tctaannnnc cagtggaacc aaatgatact 60

gatcc 65

<210> 63

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 63

acactctttc cctacacgac gctcttccga tctaannnnc ctggagaaaa tacccctatt 60

gcat 64

<210> 64

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 64

acactctttc cctacacgac gctcttccga tctaannnnc cgcagcatct tgaatctcat 60

acagac 66

<210> 65

<211> 63

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 65

acactctttc cctacacgac gctcttccga tctaannnnc cgaagcctct gaaagtggac 60

tgg 63

<210> 66

<211> 67

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 66

acactctttc cctacacgac gctcttccga tctaannnnc ctgaagaatg caggtttaat 60

atccact 67

<210> 67

<211> 69

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 67

acactctttc cctacacgac gctcttccga tctaannnnc catggtactt taattttgtc 60

actttgtgt 69

<210> 68

<211> 69

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 68

acactctttc cctacacgac gctcttccga tctaannnnc cagcaaaatg taataaggaa 60

aaactacag 69

<210> 69

<211> 67

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 69

acactctttc cctacacgac gctcttccga tctaannnnc cactgacttt caatcccaga 60

aaagtct 67

<210> 70

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 70

acactctttc cctacacgac gctcttccga tctaannnnc cttcccatgg aaaagaatca 60

agatgt 66

<210> 71

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 71

acactctttc cctacacgac gctcttccga tctaannnnc cactgtcaat ccagactctg 60

aagaa 65

<210> 72

<211> 63

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 72

acactctttc cctacacgac gctcttccga tctaannnnc ccacaggtga taaacaagca 60

acc 63

<210> 73

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 73

acactctttc cctacacgac gctcttccga tctaannnnc cattacatga acaaatgggc 60

aggac 65

<210> 74

<211> 67

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 74

acactctttc cctacacgac gctcttccga tctaannnnc cgtgttgaaa ttgtaaatac 60

cttggca 67

<210> 75

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 75

acactctttc cctacacgac gctcttccga tctaannnnc cacctagcca aaaggcagaa 60

atta 64

<210> 76

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 76

acactctttc cctacacgac gctcttccga tctaannnnc cttctgagga atgcagagat 60

gctg 64

<210> 77

<211> 61

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 77

acactctttc cctacacgac gctcttccga tctaannnnc cgaagtgggg tttaggggct 60

t 61

<210> 78

<211> 70

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 78

acactctttc cctacacgac gctcttccga tctaannnnc cagaaaatca taatgataaa 60

actgtaagtg 70

<210> 79

<211> 67

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 79

acactctttc cctacacgac gctcttccga tctaannnnc cagaatttga tggcagtgat 60

tcaagta 67

<210> 80

<211> 62

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 80

acactctttc cctacacgac gctcttccga tctaannnnc cgttgcgaaa gctcaagaag 60

ca 62

<210> 81

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 81

acactctttc cctacacgac gctcttccga tctaannnnc ctgatcagaa accagaagaa 60

ttgc 64

<210> 82

<211> 63

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 82

acactctttc cctacacgac gctcttccga tctaannnnc ccaacccgaa cgtgatgaaa 60

aga 63

<210> 83

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 83

acactctttc cctacacgac gctcttccga tctaannnnc caccttgaat tagcatgtga 60

gacca 65

<210> 84

<211> 69

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 84

acactctttc cctacacgac gctcttccga tctaannnnc cttgaaagtt aaagtacatg 60

aaaatgtag 69

<210> 85

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 85

acactctttc cctacacgac gctcttccga tctaannnnc caacttctgt gagtcagact 60

tcatt 65

<210> 86

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 86

acactctttc cctacacgac gctcttccga tctaannnnc ctcatctctc cgaaaaacaa 60

gatact 66

<210> 87

<211> 63

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 87

acactctttc cctacacgac gctcttccga tctaannnnc ctgcaaatgc atacccacaa 60

act 63

<210> 88

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 88

acactctttc cctacacgac gctcttccga tctaannnnc cagccagtgg taaaatcgtt 60

tgtg 64

<210> 89

<211> 63

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 89

acactctttc cctacacgac gctcttccga tctaannnnc ctgtagcacg cattcacata 60

agg 63

<210> 90

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 90

acactctttc cctacacgac gctcttccga tctaannnnc cgggaagctt cataagtcag 60

tctca 65

<210> 91

<211> 63

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 91

acactctttc cctacacgac gctcttccga tctaannnnc ccagaccagc tcacaagaga 60

aga 63

<210> 92

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 92

acactctttc cctacacgac gctcttccga tctaannnnc caagggagtg ttagaggaat 60

ttga 64

<210> 93

<211> 67

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 93

acactctttc cctacacgac gctcttccga tctaannnnc caggtggttc ttcagaaaat 60

aatcact 67

<210> 94

<211> 63

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 94

acactctttc cctacacgac gctcttccga tctaannnnc cacaggcttc acctaaaaac 60

gta 63

<210> 95

<211> 61

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 95

acactctttc cctacacgac gctcttccga tctaannnnc cactgccaag tcatgccaca 60

c 61

<210> 96

<211> 71

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 96

acactctttc cctacacgac gctcttccga tctaannnnc ctggtctata gacttttgag 60

aaataaaact g 71

<210> 97

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 97

acactctttc cctacacgac gctcttccga tctaannnnc cacattcact gaaaattgta 60

aagcct 66

<210> 98

<211> 62

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 98

acactctttc cctacacgac gctcttccga tctaannnnc cagggtctgc aacaaaggca 60

ta 62

<210> 99

<211> 68

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 99

acactctttc cctacacgac gctcttccga tctaannnnc cggaaaaatc ttcaagcaat 60

ttagcagt 68

<210> 100

<211> 62

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 100

acactctttc cctacacgac gctcttccga tctaannnnc ctacaggcag accaaccaaa 60

gt 62

<210> 101

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 101

acaaaggtaa gtcaagtgac tcttgatgtt tgtctcatca 40

<210> 102

<211> 71

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 102

gtagggaaag agtgttgatg agacaaacat caagagtcac ttgacttacc tttgtgtgac 60

tggagttcag a 71

<210> 103

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 103

acaaaggtaa gtcaagtgac attgttagat gtagttaagt ttgtcttctt gatgtttgtc 60

tcatca 66

<210> 104

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 104

gtcgtgtagg gaaagagtgt gtgactggag ttcagacgt 39

<210> 105

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 105

gtcacttgac ttacctttgt gtgactggag ttcagacgtg tgctcttccg a 51

<210> 106

<211> 50

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 106

tcggaagagc gtcgtgtagg gaaagagtgt tgatgagaca aacatcaaga 50

<210> 107

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 107

aagcagaaga cggcatacga gatcggtctc ggcattcctg ctgaaccgct cttccgatct 60

<210> 108

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 108

caagcagaag acggcatacg agatndgtga ctggagttca gacgtgtgct cttc 54

<210> 109

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 109

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

Claims

1.基于长链分子倒置探针的核酸靶向捕获测序文库制备方法，其特征在于，该方法包括如下步骤：

c)合并多个针对不同靶区的连接混合物，通过变性电泳分离连接混合物，通过核酸纯化试剂盒纯化连接混合物，得到长链分子倒置探针；

d)将长链分子倒置探针与待测样品的DNA混合，杂交，在缓冲液中加入DNA聚合酶、DNA连接酶、dNTP和含Mg²⁺的缓冲液来延伸长链分子倒置探针，在DNA连接酶的作用下形成闭合的分子；

e)加入核酸外切酶降解没有环化的DNA分子；

f)用和长链分子倒置探针的公共序列区域对应的引物进行PCR扩增，得到靶向区域的测序文库；

针对目标靶序列设计并合成与靶序列互补的捕获探针A以及和靶序列互补的捕获探针B，A和B之间的距离大于100bp，小于400bp，A或B探针互补区域的长度在15-35碱基；

针对目标靶序列设计并合成与靶序列互补的捕获探针A以及和靶序列互补的捕获探针B，探针A的3’端带有公共的序列，公共的序列长度20-60碱基以及探针B的5’端带有公共的序列，公共的序列长度20-60碱基；

针对目标靶序列设计并合成与靶序列互补的捕获探针A以及和靶序列互补的捕获探针B，探针A和B的公共的序列和靶区特异性序列之间带有简并性碱基构成的随机分子标签，随机分子标签的序列长度为3-8碱基；

针对目标靶序列设计并合成与靶序列互补的捕获探针A以及和靶序列互补的捕获探针B，通过一个与探针A和B的公共序列的部分区域互补的连接子、DNA连接酶来连接,所述公共序列是来自人工设计的序列或非靶标序列，含有测序接头的部分序列。