CN117230170B - 基于定点成环连接的端粒特异性接头、预文库及其构建方法 - Google Patents
基于定点成环连接的端粒特异性接头、预文库及其构建方法 Download PDFInfo
- Publication number
- CN117230170B CN117230170B CN202311498514.XA CN202311498514A CN117230170B CN 117230170 B CN117230170 B CN 117230170B CN 202311498514 A CN202311498514 A CN 202311498514A CN 117230170 B CN117230170 B CN 117230170B
- Authority
- CN
- China
- Prior art keywords
- telomere
- ixna
- sequence
- binding region
- adaptor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108091035539 telomere Proteins 0.000 title claims abstract description 157
- 102000055501 telomere Human genes 0.000 title claims abstract description 155
- 210000003411 telomere Anatomy 0.000 title claims abstract description 153
- 238000010276 construction Methods 0.000 title claims abstract description 13
- 239000012634 fragment Substances 0.000 claims abstract description 41
- 230000027455 binding Effects 0.000 claims abstract description 31
- 230000000903 blocking effect Effects 0.000 claims abstract description 17
- 230000009870 specific binding Effects 0.000 claims abstract description 14
- 108020004414 DNA Proteins 0.000 claims description 32
- 238000012163 sequencing technique Methods 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 20
- 230000004048 modification Effects 0.000 claims description 20
- 238000012986 modification Methods 0.000 claims description 20
- 239000003153 chemical reaction reagent Substances 0.000 claims description 14
- 238000009396 hybridization Methods 0.000 claims description 10
- 101710095468 Cyclase Proteins 0.000 claims description 9
- 230000026731 phosphorylation Effects 0.000 claims description 9
- 238000006366 phosphorylation reaction Methods 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 7
- 230000000865 phosphorylative effect Effects 0.000 claims description 5
- 108090000623 proteins and genes Proteins 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 108091008146 restriction endonucleases Proteins 0.000 claims description 3
- 125000003277 amino group Chemical group 0.000 claims description 2
- 230000003321 amplification Effects 0.000 abstract description 14
- 238000003199 nucleic acid amplification method Methods 0.000 abstract description 14
- 210000000349 chromosome Anatomy 0.000 abstract description 7
- 238000001976 enzyme digestion Methods 0.000 abstract description 4
- 238000009826 distribution Methods 0.000 abstract description 3
- 238000012098 association analyses Methods 0.000 abstract description 2
- 238000003752 polymerase chain reaction Methods 0.000 description 23
- 239000000523 sample Substances 0.000 description 17
- 150000007523 nucleic acids Chemical class 0.000 description 14
- 102000039446 nucleic acids Human genes 0.000 description 13
- 108020004707 nucleic acids Proteins 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 12
- 102000053602 DNA Human genes 0.000 description 6
- 238000000137 annealing Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 239000002773 nucleotide Substances 0.000 description 6
- 125000003729 nucleotide group Chemical group 0.000 description 6
- 238000000746 purification Methods 0.000 description 6
- 108091034117 Oligonucleotide Proteins 0.000 description 5
- 108020004682 Single-Stranded DNA Proteins 0.000 description 5
- 239000011324 bead Substances 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 125000006850 spacer group Chemical group 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 102000003960 Ligases Human genes 0.000 description 4
- 108090000364 Ligases Proteins 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000003776 cleavage reaction Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012165 high-throughput sequencing Methods 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000007400 DNA extraction Methods 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 238000000246 agarose gel electrophoresis Methods 0.000 description 2
- 239000007864 aqueous solution Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007672 fourth generation sequencing Methods 0.000 description 2
- 238000007834 ligase chain reaction Methods 0.000 description 2
- 238000007857 nested PCR Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- KWIUHFFTVRNATP-UHFFFAOYSA-N Betaine Natural products C[N+](C)(C)CC([O-])=O KWIUHFFTVRNATP-UHFFFAOYSA-N 0.000 description 1
- 230000004543 DNA replication Effects 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- KWIUHFFTVRNATP-UHFFFAOYSA-O N,N,N-trimethylglycinium Chemical compound C[N+](C)(C)CC(O)=O KWIUHFFTVRNATP-UHFFFAOYSA-O 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 108091027568 Single-stranded nucleotide Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000003146 anticoagulant agent Substances 0.000 description 1
- 229940127219 anticoagulant drug Drugs 0.000 description 1
- 238000003149 assay kit Methods 0.000 description 1
- 229960003237 betaine Drugs 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 239000000499 gel Substances 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 229910021645 metal ion Inorganic materials 0.000 description 1
- 238000012257 pre-denaturation Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007363 ring formation reaction Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000005063 solubilization Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开基于定点成环连接的端粒特异性接头、预文库及其构建方法。本发明设计了一种端粒特异性接头,其包括引物结合区和含有封闭基团的端粒特异性结合区,该端粒特异性结合区能够与端粒3’端悬臂的至少部分特异性结合。本发明的端粒特异性接头可识别完整端粒末端,并避免非完整末端被建库。同时,本发明的通用接头设计也可以极大程度地阻止酶切形成的各类非完整端粒片段以及基因组背景碎片的扩增。因此,高效地富集了完整端粒末端序列,从而有效地对其进行序列测定,更真实准确地展示各染色体端粒长度的分布状态,实现更准确的关联分析和解读。
Description
技术领域
本发明涉及基因测序,具体地涉及基于定点成环连接的端粒特异性接头、预文库及其构建方法。
背景技术
端粒是位于真核生物线性染色体末端,由端粒DNA重复序列和相关蛋白质构成的复合物。由于线性染色体的DNA复制机制,使得细胞的每次分裂导致端粒缩短。端粒的变化与多种疾病密切相关,如癌症、早衰综合征等。因此尽可能准确的对端粒进行检测可以提供与疾病相关的重要信息。
由于端粒序列较长,且其中含有大量6碱基简单重复序列,人端粒序列的重复单元为TTAGGG(forward strand)/CCCTAA(reverse strand),总长度约2kb-20kb,使用二代测序(NGS,代表平台为Illumina、MGI)无法测通,只能使用针对长片段测序方法(比如纳米孔测序技术)对长度在5kb以上的片段进行序列测定。
在上述测序中的常规建库方法依然存在无法区分完整端粒末端和基因组断裂端点的问题,由于基因组在提取过程中会造成大量断裂端点,此外还会存在一定量的不完整端粒末端,数量远远多于完整的端粒末端,常规的端粒建库方式无法有效地对其进行区分,将会导致这一类的建库方法无法对完整或长片段端粒序列进行有效富集,长片段端粒序列占比极低,短片段偏好严重,导致文库有效数据占比低下,会造成测序数据量的极大浪费,同时也极易导致纳米孔测序失败,很难测到准确的端粒序列和真实的长度分布状态,严重影响后续分析和解读。
此外,由于三代测序等长片段测序平台的芯片孔数限制,常规建库方法直接建库很难测到端粒序列,很难通过加大数据量来弥补,因此测序时多在带有接头的文库基础上,使用设计的端粒特异性引物和文库接头上的另一条引物进行PCR扩增,进行端粒序列的富集,但因为提取时产生的断点数量较多,还有大量的不完整端粒末端,造成富集效率较低,测到的端粒序列很少,无法有效进行端粒序列测定。另外,存在多个染色体末端序列未确定,也存在染色体的末端序列不能找到理想的引物序列,因此此方法也有局限,只能测定部分染色体的端粒序列,且其比例异常。
目前仍需要一种有效进行端粒序列测定的端粒特异性接头、预文库及其构建方法。
发明内容
针对现有技术中存在的至少部分技术问题,本发明人设计了基于定点成环连接的端粒特异性接头,该端粒特异性接头可识别完整端粒末端,并避免非完整末端被建库。同时,本发明还设计了通用接头,极大程度地阻止酶切形成的各类非完整端粒片段以及基因组背景碎片的扩增。具体地,本发明包括以下内容。
本发明的第一方面,提供一种基于定点成环连接的端粒特异性接头,其包括引物结合区和含有封闭基团的端粒特异性结合区,该端粒特异性结合区包含能够与端粒3’端悬臂的至少部分特异性结合的序列。
在某些实施方案中,根据本发明所述的端粒特异性接头,其中,端粒特异性接头序列的5’端具有磷酸化修饰。
在某些实施方案中,根据本发明所述的端粒特异性接头,其中,封闭基团选自双脱氧核苷、氨基、间臂、磷酸化基团中的任意一种。
在某些实施方案中,根据本发明所述的端粒特异性接头,其中,端粒特异性接头进一步包含非标准DNA或RNA类似物,其选自/iXNA_A/、/iXNA_T/、/iXNA_G/和/iXNA_C/中的至少一种。
在某些实施方案中,根据本发明所述的端粒特异性接头,其中,端粒特异性结合区具有高于55℃的Tm值。
在某些实施方案中,根据本发明所述的端粒特异性接头,其中,端粒特异性结合区的长度为5-30nt。
在某些实施方案中,根据本发明所述的端粒特异性接头,其中,引物结合区对应的引物序列的Tm值在55℃-70℃之间;优选地,所述引物结合区包含2条以上引物的结合区;优选地,所述引物为巢式PCR引物。
本发明的第二方面,提供一种基因测序用预文库构建试剂或试剂盒,其包含端粒特异性接头;优选地,进一步包括通用接头,其中所述通用接头具有5’端的磷酸化修饰,3’端含有封闭基团;优选地,所述封闭基团选自双脱氧核苷、氨基、间臂、磷酸化基团中的任意一种;优选地,所述通用接头包含引物结合区。
本发明的第三方面,提供一种针对人类完整端粒末端序列进行测序的预文库的构建方法,其包括以下步骤:
(1) 使包含端粒3’悬臂的样本片段与本发明所述的端粒特异性接头混合,在适于杂交的条件下进行杂交得到杂交体;
(2) 在环化酶的作用下,使所述杂交体中的端粒特异性接头末端与端粒3’悬臂末端连接成环。
在某些实施方案中,根据本发明所述的针对人类完整端粒末端序列进行测序的预文库的构建方法,其进一步包括:
(3) 使用限制性内切酶切割步骤(2)得到的片段的步骤;和
(4) 在片段两端添加通用接头的步骤,其中所述通用接头具有5’端的磷酸化修饰,3’端含有封闭基团;优选地,所述封闭基团选自双脱氧核苷、氨基、间臂、磷酸化基团中的任意一种;优选地,所述通用接头包含引物结合区。
本发明设计的基于定点成环连接的端粒特异性接头、预文库及其制备方法高效地富集了完整端粒末端序列,从而有效地对其进行序列测定,更真实准确地展示各染色体端粒长度的分布状态,实现更准确的关联分析和解读。
附图说明
图1示出了根据本发明的基于定点成环连接的端粒测序用预文库的制备方法。
具体实施方式
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
除非另有说明,否则本文使用的所有技术和科学术语具有本发明所属领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。
在以下关于序列的描述中,除非另有说明,序列的方向为5’-3’。
基于定点成环连接的端粒特异性接头
本发明提供一种基于定点成环连接的端粒特异性接头,该接头可用于端粒,特别是长片段端粒,尤其是人类完整端粒末端序列的碱基序列分析。本发明中,特异性是指该接头能够特异性结合(或锚定)至完整端粒末端,定点成环是指端粒特异性接头的末端在环化酶的作用下与端粒的3’悬臂末端连接成环。
本发明的端粒特异性接头为单链接头,其包括第一引物结合区和含有封闭基团的端粒特异性结合区,所述端粒特异性结合区包含能够与端粒3’端悬臂的至少部分特异性结合的序列。本发明所用术语“悬臂(overhang)”有时也可以称为悬突、悬端等,是指位于端粒双链中3’端向外侧突出延伸形成的一段单链核苷酸序列。完整的端粒末端通常存在6-300碱基长度的单链“3’ overhang”。在一个优选的实施方案中,本发明的端粒特异性结合区能够与端粒3’端悬臂的5-30个碱基的区域,优选6-20个碱基,还优选7-16个碱基,更优选8-15个碱基,例如8、9、10、11、12、13、14、15个碱基的区域特异性结合。在具体实施方案中,所述端粒特异性结合区的序列选自SEQ ID No.6(CCTAACCCTAAC)和SEQ ID No.7(TAACCCTAACCCTA)中的任意一种或其组合。
本发明所用术语“结合”、“锚定”、“互补”和“杂交”可互换使用,其指两个核苷酸之间配对的能力。即,如果在核酸的给定位置处,核苷酸能够与另一个核酸的核苷酸氢键键合,那么这两个核酸被认为在该位置处与彼此互补。两个单链核酸分子之间的互补性可以是“部分的”,也可以是完全的。
本发明的“特异性杂交”是指在限定的严格条件下,与存在于杂交混合物中的其他核苷酸序列的基本结合不存在时,核酸与靶核苷酸序列的结合。本领域技术人员可以理解,适当的杂交条件允许序列错配的存在。在具体实施方案中,在严格杂交条件下进行杂交。
本发明的端粒特异性接头的5’端具有磷酸化修饰,优选地,该5’端与端粒的3’overhang形成环结构,并可结合1-2个引物。
本发明的端粒特异性接头的第一引物结合区含有引物结合位点,优选巢式引物结合位点。在一个优选的实施方案中,引物结合区含有2条巢式引物的结合位点。本发明人通过研究发现,相较于在引物结合区设置1条引物结合位点,设置2条巢式引物的结合位点能够显著去除背景噪音,从而进一步富集完整端粒序列。
在一个优选的实施方案中,端粒特异性接头的第一引物结合区所对应的巢式引物包括第一引物(外侧引物)和第二引物(内侧引物),第一引物的序列如SEQ ID No.1所示(GACTGGTCCATATGACTTGC),第二引物的序列如SEQ ID No.2所示(GCATATGGCATTCTGTCATCC)。
本发明的端粒特异性接头的3’端含有封闭基团,以防止其在聚合酶作用下进行延伸。优选地,封闭基团选自以下中的任意一种:双脱氧核苷(例如ddA、ddG、ddC、ddT)、氨基、间臂(C3 spacer、C6 spacer、C12 spacer)、磷酸化基团。接头3’末端的封闭修饰具有以下双重作用:(1)保证接头自身不会在环化酶的作用下进行环化;(2)阻止接头3’端在聚合酶的作用下以端粒单链区域为模板进行延伸。
本发明的端粒特异性接头进一步包括非标准DNA或RNA类似物,其选自/iXNA_A/、/iXNA_T/、/iXNA_G/、/iXNA_C/中的至少一种,其中,其中/iXNA_A/是指对碱基A进行修饰;/iXNA_T/是指对碱基T进行修饰;/iXNA_G/是指对碱基G进行修饰;/iXNA_C/是指对碱基C进行修饰,XNA为非标准DNA和RNA类似物,包含但不限于锁核酸LNA。本发明中,在XNA为锁核酸的情况下,本发明的端粒特异性接头可含2-8个XNA碱基,优选3-5个XNA碱基。
本发明的端粒特异性接头序列的Tm至少高于55℃,优选58℃,还优选60℃以上,最优选65-70℃,例如65、66、67、68、69、70℃。
本发明的端粒特异性接头可用于待测样本中核酸的扩增和富集,“扩增”包含通过其复制了至少一种靶核酸的至少一部分的任何方法,典型地以模板依赖性的方式,包括且不限于用于线性地或指数地扩增核酸序列的技术。用于进行扩增步骤的非限制性方法包括连接酶链式反应(LCR)、连接酶检测反应(LDR)、聚合酶链式反应(PCR)、引物延伸、链置换扩增(SDA)、多重置换扩增(MDA)、基于核酸链的扩增(NASBA)、多重扩增、滚环扩增(RCA)等。
本发明所用术语“样本”涉及包含一种或多种所感兴趣的分析物的材料或材料混合物,通常但不一定为液体形式。本发明的样本含有核酸样本,核酸样本可以是复杂样品,其包含多种不同的含有目的序列的分子,这样的样本可具有多于10、50、100或200个不同的核酸分子。
本文中,核酸样本包含DNA片段,DNA片段可源于任何来源,例如基因组DNA、cDNA(来自RNA)、cfDNA、ctDNA或人工DNA构建体或人工片段化DNA片段。本文可以采用含有DNA片段(例如基因组DNA)的任何样品,包括但不限于血液、组织样品或FFPE样品。优选地,本发明中基因组DNA片段源自人基因组DNA。
基因测序用预文库构建试剂或试剂盒
本发明还提供一种试剂或试剂盒,特别是用于人类端粒基因测序用预文库构建试剂或试剂盒,其包含上述的端粒特异性接头。
在一个优选的实施方案中,本发明的试剂盒进一步包括通用接头,通用接头的设计能够极大程度地阻止酶切形成的各类非完整端粒片段以及基因组背景碎片的扩增,并因此进一步高效地富集完整端粒末端序列。
在一个优选的实施方案中,通用接头包含第二引物结合区,所述第二引物结合区所对应的巢式引物包括第三引物(外侧引物)和第四引物(内侧引物),第三引物的序列如SEQ ID No.3所示(GTAATACGACACACTATAGGGC),第四引物的序列如SEQ ID No.4所示(ACTATAGGGCACGCGTGGT)。
在一个优选的实施方案中,本发明的通用接头包含第一链和与所述第一链的部分互补的第二链,其中,第一链具有SEQ ID No.5所示的核苷酸序列(GTAATACGACACACTATAGGGCACGCGTGGTTCGACGGCCCGGGCTGGTTAT),第二链具有TAACCAGCC所示的核苷酸序列,其中,通用接头的5’端具有磷酸化修饰,3’端含有封闭基团,封闭基团具体参见上文描述的封闭基团,在此不再赘述。
除了上述组分,本发明的试剂盒可选地包括用于聚合酶链式反应或高通量测序用试剂。用于聚合酶链式反应的试剂包括那些常规PCR使用的任何试剂,例如聚合酶、缓冲液等。高通量测序用试剂包括但不限于末端修复试剂、纯化试剂等。
除了上述组分之外,本发明的试剂盒还可包括与调控制造、使用或销售试剂盒相关的注意事项。另外,本发明的试剂盒还可提供有使用、储存和故障排除的详细说明书。试剂盒还可任选地设置在适合的优选用于以高通量设置的机器人操作的装置中。
在某些实施方案中,本发明的试剂盒的组分可以溶液形式提供,例如水溶液的形式提供。在以水溶液状态存在的情况下,这些成分的浓度或含量是本领域技术人员能够根据不同需求而方便地确定的。例如,用于储存的目的时,例如组分的浓度可以较高的形式存在,当处于工作状态或使用时,可通过例如稀释上述较高浓度的溶液来将浓度降低至工作浓度。
在试剂盒中存在超过一种组分的情况下,该试剂盒还通常会包含可单独放置另外的组分的第二、第三或其它另外的容器。另外,可在容器中包含各多种组分的组合。本文所述的任何组合或试剂可为试剂盒中的组分。
本说明书中提供了相应引物或探针的具体序列,同时根据相关规定,本申请还提供了计算机可读形式的序列表。需要说明的是,计算机可读形式的序列表中的序列仅供参考,在本说明书中的序列与计算机可读形式的序列表中的序列不一致的情况下,以本说明书中的序列内容为准。
预文库构建方法
本发明进一步提供一种针对人类完整端粒末端序列进行测序的预文库构建方法,其包括使用本发明的端粒特异性接头的步骤,下面进行详细说明。
步骤(1)
在步骤(1)中,首先使包含端粒3’悬臂的样本片段与本发明的端粒特异性接头混合,在适于杂交的条件下进行杂交得到杂交体。可以理解的是,样本片段可以包含末端携带3’ overhang的完整端粒以及不含有3’ overhang的非完整端粒或其它基因组片段。
在一个优选的实施方案中,单链端粒特异性接头序列为AGGATGACAGAATGCCATATGCAAGTCATATGGACCAGTCAATTAACCCTAACC/iXNA_C//iXNA_T//iXNA_A/。在另一个优选的实施方案中,单链端粒特异性接头序列为AGGATGACAGAATGCCATATGCAAGTCATATGGACCAGTCAATAA/iXNA_C/CT/iXNA_A/ACC/iXNA_C/TA/iXNA_A/C。
本发明中,适于杂交的条件下是指温度为60-75℃,例如60、62、64、66、68、70、75℃等。
步骤(2)
本发明的步骤(2)中,在环化酶的作用下,使所述杂交体中的端粒特异性接头末端与端粒3’悬臂末端连接成环。优选地,在连接成环反应中,端粒特异性接头的5’端与端粒的overhang单链区域末端进行单链成环,从而将接头连接至端粒3’overhang单链区域的末端。环化酶可以采用本领域已知的单链DNA环化酶,优选商品化CircLigase,例如单链DNA环化酶CircLigase II。
本发明的端粒特异性接头由于添加了XNA碱基,提高了其Tm值和结合效率,当其结合至端粒末端的单链区域后,此接头的5’端与端粒3’端单链区域的3’末端距离拉近,通过单链DNA环化连接酶CircLigase介导模拟成环进行连接,若接头不含3’端的端粒特异性结合区,则单链DNA环化连接酶的效率极低,几乎不会进行分子间的连接,也不会将接头连接至端粒的3’末端。
本发明的上述步骤(1)和(2)可同时进行,即待测样本、端粒特异性接头、单链DNA环化连接酶和可选的适于连接反应的物质(如金属离子、甜菜碱、缓冲液)等可以置于同一体系内进行连接反应。
优选地,本发明的方法进一步包括步骤(3):使用限制性内切酶进行酶切,将非端粒区域切成小片段。优选地,本发明选择Hinf I和Rsa I双酶切将非端粒部分切成小片段,双酶切后只有端粒序列和其他少量序列能保持完整,非端粒序列都被切成小片段。在一个优选的实施方案中,酶切反应温度为30-45℃,优选32-40℃,例如32、33、34、35、36、37、38、39、40℃。
优选地,本发明的方法进一步包括步骤(4):在片段两端添加通用接头,之后进行扩增。在片段的两端添加通用接头之前还包括将片段末端补平并在3’端加上一个A碱基的步骤,末端补平以及添加A尾均可以采用本领域已知的末端修复试剂盒并采用合适的反应条件实现上述目的,对此不特别进行限定。
本发明的通用接头结构已在上文中进行了详细描述,其通过两条引物退火连接而成。具体而言,合成第一链和第二链后,将其溶解于退火缓冲液中,等比例混合后,在80-99℃,优选85-95℃,还优选90-95℃进行预变性,再于0.5-1.5,优选1小时内缓慢降温至10-35℃,优选15-30℃,还优选20-25℃完成退火,使用缓冲液稀释至工作浓度备用。
本发明中,仅完整端粒因末端含有端粒特异性接头,因此可以进行巢式PCR扩增(在第一个PCR循环时,只有完整端粒末端的特异性接头可以结合引物,产生一条Reversestrand,从第二个循环起,通用接头引物可以与Reverse strand结合并进行延伸,从而起始PCR扩增反应)。非完整端粒、基因组酶切产生的小片段等两端只含有通用接头,而通用接头的长短链设计导致不能结合引物进行扩增而无PCR产物,具体参见图1。
本发明的预文库适合在长片段测序平台进行测序,包括但不限于OxfordNanopore Technologies(ONT)公司的Nanopore、Pacific Biosciences(PacBio)公司的Sequel II等。本领域技术人员将理解,依据测序平台对应的试剂盒的操作说明,在添加含index序列的测序接头后可以进行高通量测序过程。
需要注意的是,在本发明的步骤(1)-(4)前后,或步骤之间还可包含其他步骤或操作,例如进一步优化和/或改善本发明所述的方法,例如在每个步骤完成之后进一步对产物进行纯化的步骤。
实施例1
以下示出了使用本发明设计的端粒特异性接头以及通用接头用于人类完整的端粒末端序列测序方法。
一、样本信息
本实施例使用的样本为选用EDTA抗凝管采集的全血样本,4℃短期保存,-20℃长期期保存(人类的其他DNA亦可用于实验,例如从组织、口腔拭子、各种体液,只要保存条件较好的样本中提取的基因组DNA均可用于本发明)。
二、实验步骤
1. DNA提取
颠倒混匀全血样本后吸取200µl至1.5ml离心管中,使用Magbead Blood DNA Kit(CW2361S),参照试剂盒说明书步骤进行基因组DNA提取。提取后的基因组DNA使用Nanodrop2000和Qubit® RNA HS Assay Kit及Qubit3.0 Fluorometer进行定量,Qubit浓度为508ng/µl,OD260/280=1.827。进行琼脂糖凝胶电泳,基因组DNA片段主要分布≥23kb。
2. 端粒3’单链末端连接端粒特异性接头
在1个新的0.2ml PCR管中配制反应体系Mixture 1,试剂在冰上配制,具体见下表1:
表1
混匀并离心,PCR仪60℃过夜反应(热盖75℃)。立即加入36µl(1.8×)VHATS DNAClean beads(N411-02)进行纯化,42µl无核酸酶水回溶得到产物1。ssAdaptor(10µM)序列包括以下中的任意一种:
ssAdaptor plus-1:AGGATGACAGAATGCCATATGCAAGTCATATGGACCAGTCAATTAACCCTAACC/iXNA_C//iXNA_T//iXNA_A/。
ssAdaptor plus-2:AGGATGACAGAATGCCATATGCAAGTCATATGGACCAGTCAATAA/iXNA_C/CT/iXNA_A/ACC/iXNA_C/TA/iXNA_A/C。
3. 酶切方案
3.1酶切消化
在1个新的0.2ml PCR管中配制反应体系Mixture 2,试剂在冰上配制,具体见下表2:
表2
PCR仪37℃反应过夜(热盖50℃),然后加入90µl(1.8×)VHATS DNA Clean beads进行纯化,50µl无核酸酶水回溶得到产物2。
3.2端粒片段富集
3.2.1末端修复及添加dA
使用VAHTS Universal Pro DNA Library Prep Kit for Illumina相关试剂,在1个新的0.2ml PCR管中配制反应体系Mixture3,具体见下表3:
表3
PCR仪30℃反应20min,65℃反应15min(热盖105℃),然后加入117µl(1.8×)VHATSDNA Clean beads进行纯化,60µl无核酸酶水回溶得到产物3。
3.2.2连接扩增接头
使用Hieff NGS® Novel DNA Ligation Module for kit(翌圣,12626ES24),在1个新的0.2ml PCR管中配制反应体系Mixture 4,具体见下表4:
表4
PCR仪20℃反应20min(热盖105℃),然后加入80µl(0.8×)VHATS DNA Cleanbeads进行纯化,15µl无核酸酶水回溶得到产物4。
通用接头Adapter为专门为制作完整端粒预文库实验设计的长短链接头,此通用接头的序列为(序列方向5’-3’):
adaptor-universal-L:
GTAATACGACACACTATAGGGCACGCGTGGTTCGACGGCCCGGGCTGGTTAT(SEQ ID No.5)
adaptor-universal-S:
P-TAACCAGCC-ddC(其中5’的“P”为磷酸化修饰,其3’的ddC修饰可替换为氨基、磷酸化、C6Spacer等其他blocker,以防止其在聚合酶存在时以adaptor-universal-L为模板进行延伸)。
上述两条oligo合成后,溶解于退火buffer中,等比例混合后,在PCR仪上由94℃预变性,再于1小时内缓慢温至25℃完成退火,使用退火buffer稀释至工作浓度备用。
通用接头对应的巢式引物序列为(序列方向5’-3’):
外侧引物adaptor primer Outer:
GTAATACGACACACTATAGGGC(SEQ ID No.3)
内侧引物adaptor primer Inner:
ACTATAGGGCACGCGTGGT(SEQ ID No.4)。
3.2.3端粒片段巢式扩增
第一轮PCR:使用TaKaRa LA Taq® with GC Buffer(TaKaRa,RR02AG),在1个新的0.2ml PCR管中配制反应体系Mixture5,具体见下表5:
表5
按照下表6程序进行PCR反应,得到产物5。
表6
第二轮PCR:使用TaKaRa LA Taq® with GC Buffer(TaKaRa,RR02AG),在1个新的0.2ml PCR管中配制反应体系Mixture6,具体见下表7:
表7
按照下表8程序进行PCR反应,然后加入30µl(0.6×)VHATS DNA Clean beads进行纯化,30µl无核酸酶水回溶得到产物6。
表8
4. 端粒片段筛选
通过琼脂糖凝胶电泳对产物6进行≧2Kb片段筛选,使用Gel Extraction Kit(OMEGA,D2500-02)进行回收,得到产物7。
5. Nanopore预文库构建及上机测序
将经过片段筛选的富集端粒片段(产物7)使用PCR Barcoding Kit(Nanopore,SQK-PBK004)进行预文库构建及上机测序。其中PCR扩增反应使用TaKaRa LA Taq® withGC Buffer(TaKaRa,RR02AG)进行。
测序获取的端粒序列示例如SEQ ID No.10所示:
TCCTCGCAAAGCGCAGCGTCACTGTCTGTCGCCTCTATCTTCGGCGTCTGCTTGGTGTTTAACTTACC ATAGGGCACGCGTTCGACGGCCTGGCTGGTTATATTCTCCCCAGCCAAGGTGAGGTGGCAGCAGTGGGAGATCCACACCGTGTAGCATTGGAACACAAATGCAGCATTACAAATGCAGACATACACTGAAAATATAATTCCCATTGCTCATGTAACAAGCACCTGTAATGCTAATGCACTGCCTCAAACAAAATATTAATATAAGATCGGTAAATCTGCACACTGCTGCAGTAGTGCTAAGACAGCAATGAAAATACAATATAATAAATTCCTAATAGTGTTAGGTTAGGTCAGTCCTGTCTGCCGGTCAACTGCCCGTGAGGTGAGGGTTAGGGTTAGGCGAGGGTTAGGTTAGGTTAGGGTTAGAGGTTAGAGGTTAGGGAGTTAGGAGTTAGGGTTAGGGTTAGGAGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTGGGGTTAGAGGGTTGGGGTTAGGTTGGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAAGGGTTAGGGTTAGGGTTAGGGTTGAGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTGAGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGAGGGTTAGGGTTAGGGTTAGGGTTAGGAGTTAGGGTTAGGGTTGAGTTGGGTTGGAGTTAGGGTTGGGTTGAGGTTTAGGGTTAAGTTAAGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTGAGGTTGGGTTAGGGTTAGGGTTAGGAGTTAGGGTTAGGGTTAGGGTTAGGGTTGGGTTAGGAGTTAGGGTTAGGGGTTAGGGTTAGGGGTTGAGGTTAGGGTTAGAGTTAAGGGTTAGGGTTAGGAGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGG …… …… …… …… …… ……TTAGGGTTAAGTTGGGGTTAGGGTTGGGGTTAGGGTTAGGGTTGAGGTTACTCAGGGTTGGGGTTATGGAGTTGGGGTTAGGGTTGGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGGTTGGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGAGTTAGGGTTAGAGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTCGGGTTAGGGTTAGGGTTAGGGTTGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGTTAGGGTTAGGAGTTAGGGCTAGGGGTTAGGGTTAGGGTTGAGGTTGGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTGAGGTGGGGTGAGGGTCGGGGTCAGGGTCGGGGTCGGGTCGGGGTCAGGGTCGGGGTTAGGGTTGAGTTAGGGTTAGGGTTGGGGTTGGGGTTGGGGTTGGGGTTGGAGTTAGGAGGTTAGGGTTAGGGTTAGGGTTAGGGTTGGGGTGAGGGGATTAGGGTGAGGGTGAGGTGAGGGTGAGGGTGAGGGTGGGGTTAGGGTCAAGGGTGAGGGTCAGAGGGTGAGGGTCAGGGTGAGGTCAGGGTCAGGGTCAGGGGTCAGGGTCAGGGTTAGGTTAGGGTTAGGGTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTTAGGGTTAGGGTCGGGGTCAGGGTCAGGTTAGGAGTTAGGGTTAGGGTTAGGGTTAAGGGTTAGGGTCAGGGTCAGGGTCAGGGTCGGGTCAGGTGAGGTTAGGGTTAGGGTTGGGGTTGGGTTAGGGTTGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGAGTTAGGGTTAGGAGTTAGGGTTAGGGTTAGGTTAGAGGATGACAGAATGCTATATGCAGGTTAAACACCTAGCAGATGCTGCAATATCAGCACCAATGAAAGACTACTTGCCTTTGCGAGAAGTCACGGTGATGGCTAATTCATAAACACCACCATGAATCAAACGGCACAAC。其中省略号表示TTAGGG重复单元,位于5’端的横线标注的序列表示通用接头内侧引物adaptor primerinner,位于3’端的横线标注的序列表示完整端粒特异性接头内侧引物。
因为本发明设计的接头的3’端序列可定量与端粒的3’overhang单链区域互补结合,因此可识别完整端粒末端,基因组DNA提取过程中产生的断裂端,或者非完整的端粒(双链DNA)都不具有此特点,因此不会产生接头的连接。再使用专门设计的长短链通用接头,避免其他非完整端粒的DNA片段进行扩增,使得最终大幅提高端粒序列占比,参见表9端粒序列占比结果。
表9
尽管本发明已经参考示例性实施方案进行了描述,但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下,可对本发明说明书的示例性实施方案做多种调整或变化。权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。
Claims (4)
1.一种基于定点成环连接的端粒特异性接头,其特征在于,包括引物结合区和含有封闭基团的端粒特异性结合区,所述端粒特异性结合区包含能够与端粒3’端悬臂的至少部分特异性结合的序列,所述端粒特异性结合区具有高于55℃的Tm值,所述端粒特异性接头序列的5’端具有磷酸化修饰,该5’端在环化酶的作用下与端粒的3’悬臂的末端形成环结构,所述引物结合区含有巢式引物结合位点,所述引物结合区对应的引物序列的Tm值在55℃-70℃之间,所述接头的3’端含有封闭基团,且封闭基团选自双脱氧核苷、氨基、间臂、磷酸化基团中的任意一种,所述端粒特异性接头进一步包含非标准DNA或RNA类似物,其选自/iXNA_A/、/iXNA_T/、/iXNA_G/和/iXNA_C/中的至少一种,其中/iXNA_A/是指对碱基A进行修饰;/iXNA_T/是指对碱基T进行修饰;/iXNA_G/是指对碱基G进行修饰;/iXNA_C/是指对碱基C进行修饰,所述端粒特异性接头序列为AGGATGACAGAATGCCATATGCAAGTCATATGGACCAGTCAATTAACCCTAACC/iXNA_C//iXNA_T//iXNA_A/,或AGGATGACAGAATGCCATATGCAAGTCATATGGACCAGTCAATAA/iXNA_C/CT/iXNA_A/ACC/iXNA_C/TA/iXNA_A/C。
2.根据权利要求1所述的基于定点成环连接的端粒特异性接头,其特征在于,所述端粒特异性结合区的长度为5-30nt。
3.一种基因测序用预文库构建试剂或试剂盒,其特征在于,包含根据权利要求1或2所述的基于定点成环连接的端粒特异性接头。
4.一种针对人类完整端粒末端序列进行测序的预文库的构建方法,其特征在于,包括以下步骤:
(1) 使包含端粒3’悬臂的样本片段与根据权利要求1或2所述的基于定点成环连接的端粒特异性接头混合,在适于杂交的条件下进行杂交得到杂交体;
(2) 在环化酶的作用下,使所述杂交体中的端粒特异性接头末端与端粒3’悬臂末端连接成环;
(3) 使用限制性内切酶切割步骤(2)得到的片段;和
(4) 在片段两端添加通用接头,其中所述通用接头具有5’端的磷酸化修饰,3’端含有封闭基团。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311498514.XA CN117230170B (zh) | 2023-11-13 | 2023-11-13 | 基于定点成环连接的端粒特异性接头、预文库及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311498514.XA CN117230170B (zh) | 2023-11-13 | 2023-11-13 | 基于定点成环连接的端粒特异性接头、预文库及其构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117230170A CN117230170A (zh) | 2023-12-15 |
CN117230170B true CN117230170B (zh) | 2024-04-12 |
Family
ID=89084520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311498514.XA Active CN117230170B (zh) | 2023-11-13 | 2023-11-13 | 基于定点成环连接的端粒特异性接头、预文库及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117230170B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106497920A (zh) * | 2016-11-21 | 2017-03-15 | 深圳华大基因研究院 | 一种用于非小细胞肺癌基因突变检测的文库构建方法及试剂盒 |
CN106636065A (zh) * | 2016-12-22 | 2017-05-10 | 中国热带农业科学院热带生物技术研究所 | 一种全基因组高效基因区富集测序方法 |
CN109576346A (zh) * | 2018-11-05 | 2019-04-05 | 深圳市艾斯基因科技有限公司 | 高通量测序文库的构建方法及其应用 |
WO2019090621A1 (zh) * | 2017-11-09 | 2019-05-16 | 深圳华大智造科技有限公司 | 钩状探针、核酸连接方法以及测序文库的构建方法 |
-
2023
- 2023-11-13 CN CN202311498514.XA patent/CN117230170B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106497920A (zh) * | 2016-11-21 | 2017-03-15 | 深圳华大基因研究院 | 一种用于非小细胞肺癌基因突变检测的文库构建方法及试剂盒 |
CN106636065A (zh) * | 2016-12-22 | 2017-05-10 | 中国热带农业科学院热带生物技术研究所 | 一种全基因组高效基因区富集测序方法 |
WO2019090621A1 (zh) * | 2017-11-09 | 2019-05-16 | 深圳华大智造科技有限公司 | 钩状探针、核酸连接方法以及测序文库的构建方法 |
CN109576346A (zh) * | 2018-11-05 | 2019-04-05 | 深圳市艾斯基因科技有限公司 | 高通量测序文库的构建方法及其应用 |
Non-Patent Citations (2)
Title |
---|
Engineering the End: DNA Processing at Human Telomeres;Carolyn Price等;《Molecular Cell》;第18卷;第147-148页 * |
TeloPCR-seq: a high-throughput sequencing approach for telomeres;Henrietta W. Bennett等;《FEBS Letters》;第590卷(第23期);第4159–4170页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117230170A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11421269B2 (en) | Target enrichment by single probe primer extension | |
JP6525473B2 (ja) | 複製物配列決定リードを同定するための組成物および方法 | |
EP3559269B1 (en) | Single stranded circular dna libraries for circular consensus sequencing | |
EP3532635B1 (en) | Barcoded circular library construction for identification of chimeric products | |
US10494630B2 (en) | Linker element and method of using same to construct sequencing library | |
WO2018175399A1 (en) | Universal hairpin primers | |
JP2020536525A (ja) | プローブ及びこれをハイスループットシーケンシングに適用するターゲット領域の濃縮方法 | |
EP2785865A1 (en) | Method and kit for characterizing rna in a composition | |
CN117230170B (zh) | 基于定点成环连接的端粒特异性接头、预文库及其构建方法 | |
US20180100180A1 (en) | Methods of single dna/rna molecule counting | |
CN115715323A (zh) | 一种高兼容性的PCR-free建库和测序方法 | |
US11174511B2 (en) | Methods and compositions for selecting and amplifying DNA targets in a single reaction mixture | |
JPWO2002103007A1 (ja) | Dna断片の量の均一化方法及びサブトラクション法 | |
CN117230169B (zh) | 用于长片段端粒序列测序的接头、预文库及其构建方法 | |
CN117230171B (zh) | 端粒扩增子测序用试剂盒及预文库构建方法 | |
CN117248003B (zh) | 用于完整端粒扩增子测序的组合物、预文库及其构建方法 | |
WO2018081666A1 (en) | Methods of single dna/rna molecule counting | |
WO2015089339A2 (en) | Compositions, methods and kits for dna fragmentation and tagmentation | |
US20200291453A1 (en) | Amplicon generation | |
CN117050967B (zh) | 一种改善二代测序文库gc均衡性的方法 | |
US20240018510A1 (en) | Methods for sequencing polynucleotide fragments from both ends | |
KR20230028450A (ko) | 앰플리콘 포괄적 풍부화 | |
KR20240031934A (ko) | 다중 표적 dna의 선택적 증폭용 조성물 및 이를 이용한 증폭 방법 | |
JPWO2021081423A5 (zh) | ||
JPWO2009054367A1 (ja) | 標的dnaの検出方法及び標的dna検出キット |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |