CN117821567A - 一种用于检测单细胞与目标基因座相互作用的dna片段的文库构建方法 - Google Patents
一种用于检测单细胞与目标基因座相互作用的dna片段的文库构建方法 Download PDFInfo
- Publication number
- CN117821567A CN117821567A CN202410031537.8A CN202410031537A CN117821567A CN 117821567 A CN117821567 A CN 117821567A CN 202410031537 A CN202410031537 A CN 202410031537A CN 117821567 A CN117821567 A CN 117821567A
- Authority
- CN
- China
- Prior art keywords
- sequencing
- library
- dna
- construction method
- fragment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000012634 fragment Substances 0.000 title claims abstract description 151
- 238000010276 construction Methods 0.000 title claims abstract description 54
- 230000003993 interaction Effects 0.000 title description 9
- 238000012163 sequencing technique Methods 0.000 claims abstract description 205
- 238000000034 method Methods 0.000 claims abstract description 31
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 20
- 238000004132 cross linking Methods 0.000 claims abstract description 14
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 12
- 230000008614 cellular interaction Effects 0.000 claims abstract description 8
- 238000005520 cutting process Methods 0.000 claims abstract description 6
- 102000004190 Enzymes Human genes 0.000 claims abstract description 5
- 108090000790 Enzymes Proteins 0.000 claims abstract description 5
- 108091008146 restriction endonucleases Proteins 0.000 claims description 16
- 239000002773 nucleotide Substances 0.000 claims description 12
- 125000003729 nucleotide group Chemical group 0.000 claims description 12
- 230000008439 repair process Effects 0.000 claims description 7
- 238000003776 cleavage reaction Methods 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 6
- 230000007017 scission Effects 0.000 claims description 6
- 238000011276 addition treatment Methods 0.000 claims description 4
- 239000005547 deoxyribonucleotide Substances 0.000 claims description 3
- 125000002637 deoxyribonucleotide group Chemical group 0.000 claims description 3
- 108020004414 DNA Proteins 0.000 description 114
- 210000004027 cell Anatomy 0.000 description 57
- 102000012410 DNA Ligases Human genes 0.000 description 12
- 108010061982 DNA Ligases Proteins 0.000 description 12
- 239000000523 sample Substances 0.000 description 12
- 210000004940 nucleus Anatomy 0.000 description 11
- 239000003153 chemical reaction reagent Substances 0.000 description 10
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 8
- 239000000872 buffer Substances 0.000 description 8
- 239000006228 supernatant Substances 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 108091028043 Nucleic acid sequence Proteins 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 108010077544 Chromatin Proteins 0.000 description 5
- 230000003321 amplification Effects 0.000 description 5
- 210000003483 chromatin Anatomy 0.000 description 5
- 210000000349 chromosome Anatomy 0.000 description 5
- 238000003199 nucleic acid amplification method Methods 0.000 description 5
- 108700026220 vif Genes Proteins 0.000 description 5
- 108091034117 Oligonucleotide Proteins 0.000 description 4
- 238000010790 dilution Methods 0.000 description 4
- 239000012895 dilution Substances 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 3
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 3
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000000137 annealing Methods 0.000 description 3
- 238000005119 centrifugation Methods 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 102000016897 CCCTC-Binding Factor Human genes 0.000 description 2
- 108010014064 CCCTC-Binding Factor Proteins 0.000 description 2
- 230000006820 DNA synthesis Effects 0.000 description 2
- 101100310856 Drosophila melanogaster spri gene Proteins 0.000 description 2
- 108010042407 Endonucleases Proteins 0.000 description 2
- 102000004533 Endonucleases Human genes 0.000 description 2
- 108010067770 Endopeptidase K Proteins 0.000 description 2
- 108010059724 Micrococcal Nuclease Proteins 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 108700029229 Transcriptional Regulatory Elements Proteins 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 238000001976 enzyme digestion Methods 0.000 description 2
- 238000000684 flow cytometry Methods 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007363 ring formation reaction Methods 0.000 description 2
- 230000003584 silencer Effects 0.000 description 2
- 238000001847 surface plasmon resonance imaging Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 108091032955 Bacterial small RNA Proteins 0.000 description 1
- 239000004971 Cross linker Substances 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 208000031448 Genomic Instability Diseases 0.000 description 1
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 1
- 108020005198 Long Noncoding RNA Proteins 0.000 description 1
- 238000012179 MicroRNA sequencing Methods 0.000 description 1
- 108010021757 Polynucleotide 5'-Hydroxyl-Kinase Proteins 0.000 description 1
- 102000008422 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 108020004511 Recombinant DNA Proteins 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 239000007853 buffer solution Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012295 chemical reaction liquid Substances 0.000 description 1
- 239000003431 cross linking reagent Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- DEFVIWRASFVYLL-UHFFFAOYSA-N ethylene glycol bis(2-aminoethyl)tetraacetic acid Chemical compound OC(=O)CN(CC(O)=O)CCOCCOCCN(CC(O)=O)CC(O)=O DEFVIWRASFVYLL-UHFFFAOYSA-N 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 229930195712 glutamate Natural products 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 238000007852 inverse PCR Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 210000002540 macrophage Anatomy 0.000 description 1
- 238000012164 methylation sequencing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000010399 physical interaction Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 239000011535 reaction buffer Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000011451 sequencing strategy Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种用于检测单细胞与目标基因座相互作用的DNA片段的文库构建方法,该方法包括:交联样本细胞内的DNA与蛋白质,酶切交联体中的DNA,加测序接头,重连DNA片段,分离单细胞,解交联,加带有细胞条码的文库接头,和目标片段文库扩增的步骤。应用本发明的方法可以实现单细胞水平的与目标基因座相互作用的DNA片段的文库构建并便于实验操作。
Description
技术领域
本发明涉及一种用于检测单细胞的与目标基因座相互作用的DNA片段的文库构建方法,属于基因测序技术领域。
背景技术
染色质构象捕获(Chromatin conformation capture)是一种分子生物学技术,用于研究染色体内部三维结构的空间组织。它在揭示基因组三维结构、理解基因调控机制、研究疾病发生机制以及推动药物研发等方面具有重要的意义。
4C(Circular chromosome conformation capture)使用已知DNA片段的特异引物反向PCR扩增环化的重连DNA片段,并进行高通量测序,从而获得特定区域与整个基因组的相互作用图谱,揭示了特定DNA区域与整个基因组的相互作用。是研究基因调控、基因组稳定性和疾病发生的重要工具。
4C技术由于需要环化DNA存在样本需求巨大,建库方法复杂、漫长且不稳定的问题。此外,在现有的4C文库构建过程中,经酶切的DNA片段并不能全部重新连接,这些未经重连的酶切片段仍然能够进入到文库中,并在之后的测序过程中被检测到。这些片段占据了文库相当大的比例,从而在分析结果中有大量的reads被舍弃,造成测序量的浪费。并且,由于环化DNA效率通常较低,需求巨大量的DNA模版,使得4C技术无法直接应用于单细胞水平。
发明内容
鉴于上述现有技术中存在的不足,本发明的目的在于提供一种便于实验操作的用于检测单细胞与目标基因座相互作用的DNA片段的文库构建方法。
本发明为解决上述问题进行了深入研究,结果发现:通对4C技术进行改进,把DNA片段重连和环化扩增步骤优化为本申请的步骤,特别是使用特殊位置的测序接头,能够实现单细胞水平的4C检测。通过在重连片段之间加入测序接头,只有文库的插入片段同时含有两个测序接头即插入片段为重连的DNA使,才能获得双端测序数据,可以获得足够的有效数据,从而完成了本发明。通过采用本发明的文库构建方法,可以实现单细胞水平以及便于实验操作的与目标基因座相互作用的DNA片段的检测文库。
即,本发明包括,
1.一种用于检测单细胞的与目标基因座相互作用的DNA片段的文库构建方法,该方法包括下述步骤:
交联:将样本细胞内的DNA与蛋白质交联,得到交联体;
酶切:采用限制性内切酶切割交联体中的DNA,得到交联的DNA片段;
加测序接头:将交联的DNA片段加测序接头,得到加测序接头的DNA片段,所述测序接头包括至少一段测序引物序列;
重连DNA片段:将加测序接头的DNA片段重新连接,得到交联的重连DNA片段;
分离单细胞;
解交联:将交联的重连DNA片段与蛋白质解交联,得到重连DNA片段;
加文库接头,所述文库接头包括第一文库结构序列;
目标片段文库扩增:采用带有第二文库结构序列的目标基因座引物和带有第一文库结构序列的引物,对加文库接头的DNA片段进行扩增,得到单细胞的与目标基因座相互作用的DNA片段的文库。
2.根据项1所述文库构建方法,所述加测序接头的DNA片段通过其添加的测序接头重新连接,所述重连DNA片段内部包括两个测序接头。
3.根据项1所述文库构建方法,所述测序接头由两条DNA单链组成,所述测序引物序列设置在3'端与所述交联的DNA片段相连接的单链上,所述测序引物序列设置在其所在单链的3'端。
4.根据项3所述文库构建方法,所述设置测序引物序列的单链的5'端为突出的SEQID NO:1所示核苷酸序列,或,未设置测序引物序列的单链的3'端为突出的SEQ ID NO:1所示核苷酸序列,
SEQ ID NO:1:5'-N1…NmN'1…N'm-3',
其中,N为A、T、C、G脱氧核糖核苷酸中的任意一种,N1…Nm与N'm…N'1为反向互补序列,m为1-4。优选的m为1-3,更优选的m为1-2,最优选的m为1。
5.根据项1所述文库构建方法,在酶切步骤后对交联的DNA片段进行末端修复和加A处理。
6.根据项5所述文库构建方法,其中,设置测序引物序列的单链的3'端为突出的T。
7.根据项1所述文库构建方法,其中,所述测序接头由SEQ ID NO:2和SEQ ID NO:3所示核苷酸序列组成,
SEQ ID NO:2:5'-CTCCAGTCACAGCACACG-3',
SEQ ID NO:3:5'-TGTGCTGTGACTGGAGT-3'。
8.根据项1所述文库构建方法,其中,所述限制性内切酶为四碱基限制性内切酶或六碱基限制性内切酶。
9.根据项1所述文库构建方法,其中,所述测序接头的长度为10-40bp。优选为10-30bp,更优选为15-25bp。
10.根据项1所述文库构建方法,其中,所述文库接头还包括细胞条码。
11.根据项10所述文库构建方法,其中,所述细胞条码与所述第一文库结构序列直接相连。优选地,所述细胞条码设置在靠近重连DNA片段的一端。
12.根据项10所述文库构建方法,所述细胞条码的长度为4-25bp,优选地4-10bp,更优选地8-10bp。
13.一种用于检测单细胞与目标基因座相互作用的DNA片段的测序文库,其通过项1-12任一项所述文库构建方法获得,含有目标基因座片段及与之相互作用的片段之间含有两个测序接头。所述测序接头包括至少一段测序引物序列。
14.一种与目标基因座相互作用的DNA片段测序文库的检测方法,其对通过项13所述文库进行测序,其将含有目标基因座片段及与之相互作用的片段之间的测序引物序列作为测序起始点。
根据本发明的一个方面,提供一种用于检测单细胞与目标基因座相互作用的DNA片段的文库构建方法,该方法包括:交联样本细胞内的DNA与蛋白质,酶切交联体中的DNA,加测序接头,重连DNA片段,分离单细胞,解交联,加文库接头,和目标片段文库扩增的步骤。
在上述用于检测单细胞与目标基因座相互作用的DNA片段的文库构建方法中,
交联的步骤是将样本细胞内的DNA与蛋白质交联得到交联体。交联体能够保持DNA片段和相关蛋白质之间的物理相互作用。可以采用的交联试剂例如甲醛。
在本发明中,样本细胞的起始用量可以低至约1万-100万个,优选地细胞起始量可以是低于约50万个。4C技术通常能够检测的样本细胞起始量约2000万个且无法实现单细胞水平的检测。
酶切的步骤是采用限制性内切酶切割交联体中的DNA得到交联的DNA片段。在本发明中,限制性内切酶指序列特异性的核酸内切酶。
加测序接头是将交联的DNA片段加测序接头得到加测序接头的DNA片段。所述测序接头包括至少一段测序引物序列。
接头通常为一段已知的短核苷酸序列,用于连接未知的测序片段,可以使测序产物与计算机系统建立联系。在本发明中,测序接头是包括与测序过程相关的核苷酸或核苷酸序列的接头。这些与测序过程相关的核苷酸或核苷酸序列可以是测序引物。测序引物是指在测序过程中,DNA合成起点的短核苷酸序列链。即,可以作为序列检测起点的核苷酸序列。例如,Illumina测序平台提供的read1或read2的测序引物等,其通常会被用作Illumina测序平台测序时DNA合成起点,即测序检测的起点。在本发明的具体实施方式中,测序引物序列可以是商品化的序列,例如,Illumina测序平台的read1或read2的测序引物序列等,也可以是根据测序需要定制的测序引物序列。
重连DNA片段的步骤是将交联的DNA片段重新连接得到交联的重连DNA片段。经过酶切的DNA片段被重新绑定。三维空间临近的DNA片段高概率的结合在一起,即包含目标基因座的片段和与其可能存在相互作用关系的DNA片段被重新连接,从而使得检测是哪些片段与目标基因座有相互作用关系成为可能。在本发明中,重连片段经由加测序接头的DNA片段通过其添加的测序接头重新连接获得。得到的重连DNA片段内部通常包括两个测序接头。
分离单细胞核的步骤是将单个细胞或细胞核从大量样本细胞或细胞核中分离出来,并用于后续步骤的操作。通常采用流式细胞仪分选、显微镜下毛细管吸取、梯度稀释或直接稀释等方法。如,将样本细胞核以1个细胞每孔的浓度置于多孔板中,可以采用流式细胞仪分选、显微镜下毛细管吸取、梯度稀释或直接稀释到每孔液体量含一个细胞的浓度等方法。
解交联的步骤是将交联的重连DNA片段与蛋白质解交联得到重连DNA片段,即包括目标基因座的片段和可能与目标基因座存在相互作用关系的DNA片段经过重新连接所获得的DNA片段,也即重连DNA片段。解交联可以采用含有蛋白酶K的试剂。
加文库接头的步骤是将重连DNA片段两端加文库接头。所述文库接头包括第一文库结构序列。
在本发明中,文库接头是指在建库过程中在待测DNA片段两端加上能够与测序仪配合测序的一段核苷酸序列,是待测DNA片段与测序载体,如测序芯片(Flow cell)等,连接的重要桥梁。因为获取自生物样本的DNA,其结构本身存在不能直接在测序平台进行检测可能。为符合测序平台或测序芯片对测序片段结构的要求,通常需要对获取的DNA进行处理,使其形成符合测序平台或测序芯片要求的文库,然后再将制备好的文库上机测序。制备文库过程中所使用的接头称为文库接头。与本发明中采用的文库接头仅含有将待测DNA片段与测序载体连接的桥梁不同,现有技术通常采用的文库接头既包含了将待测DNA片段与测序载体连接的桥梁,也包含了检测文库插入片段的测序引物序列。
在本发明中,文库结构相关序列是指文库片段中除去未知的样本片段和测序引物序列外的其他序列。这些序列可以具有不同的功能。而具有相同功能的序列可以是一个或两个以上。不同的功能可以是用于例如,与测序平台或测序芯片关联,或标记样本的标签等,但不包含标记测序起始位点的功能。如Illumina测序平台提供的P5,P7,index1,index2序列,或与这些序列反向互补的序列等,其与Illumina测序平台或芯片相关联。例如,P5,P7序列,或其反向互补序列通常与Illumina测序芯片上设置的固定序列相匹配,是该平台测序时常用的关联序列。index序列可以用于区分不同的样本和实现多个样本的同时检测。在本发明的具体实施方式中,文库结构序列可以是商品化的序列,也可以是根据测序需要定制的序列。
在本发明中,目标片段文库扩增是采用带有第二文库结构序列的目标基因座引物和带有第一文库结构序列的引物,对加文库接头的DNA片段进行扩增,得到单细胞的与目标基因座相互作用的DNA片段的文库。
文库扩增采用的试剂可以选自DNA聚合酶、DNA连接酶、引物和缓冲体系中的一种或两种以上。或者用于文库扩增的商品化试剂盒。
在本发明中,所述第一和/或第二文库结构序列可以是文库结构序列的全部或部分的序列。其中,所述部分的第一和/或第二文库结构序列是指其长度与全部文库结构序列的长度成一定的比例。这个比例可以为1/3以上,优选为1/2以上,更优选为3/4以上,更优选为9/10以上,最优选为1。
在本发明中,所述目标片段是指含有目标基因座序列,以及与目标基因座相互作用的序列的DNA片段,其来源是重连的DNA片段。目标基因座是指研究针对的特定DNA区域。例如,某基因,某基因的启动子,某基因附近的CTCF位点,某转录调控元件。与目标基因座相互作用的DNA片段是指在染色质空间分布上与目标基因座相临近的DNA片段。例如,某基因的调控元件,被某基因调控的基因,被某启动子启动的基因,与某基因附近的CTCF位点相互作用的DNA片段,某转录调控元件所调控的基因。
在本发明中,“第一”或“第二”的描述是为区别,如不同的测序接头、文库接头、文库结构序列或测序关联序列等在功能上相同或相近,但在结构或其他性质上有所区别的特征。测序接头、文库接头、文库结构序列和测序关联序列等特征如前述,在此不再赘述。
进一步地,在上述文库构建方法中,加测序接头的DNA片段通过其带有的测序接头重新连接,所述重连DNA片段内部包括两个测序接头,即包含目标基因座的片段和与其可能存在相互作用关系的DNA片段之间包含两个测序接头。
进一步地,在上述文库构建方法中,在上述文库构建方法中,所述测序接头由两条DNA单链组成,所述测序引物序列设置在3'端与所述交联的DNA片段相连接的单链上,所述测序引物序列设置在其所在单链的3'端。测序引物序列的长度为10-40bp,优选为15-35bp,更优选为15-25bp。测序引物序列的长度与其所在单链长度的比例为1/2以上,优选的比例为3/4以上,更优选地比例为4/5以上。测序引物序列可以是测序引物的全部或部分序列。其中,所述部分的测序引物序列是指其长度与全部测序引物的长度成一定的比例。这个比例可以为1/3以上,优选为1/2以上,更优选为3/4以上,更优选为9/10以上,最优选为1。
进一步地,在上述文库构建方法中,所采用测序接头的优选长度为15-25bp,且在其长度范围内±10bp,优选±5bp,也能获得不错的实验结果。
进一步地,在上述文库构建方法中,所述测序引物序列设置在所述测序接头其中一条链的3'端。所述测序引物序列的长度与测序接头的长度的比例为1/3以上,优选的比例为1/2以上,更优选地比例为3/4以上,更优选地比例为9/10以上。
进一步地,在上述文库构建方法中,可以对DNA片段加优选地测序接头。具体的,所述设置测序引物序列的单链的5'端为突出的SEQ ID NO:1所示核苷酸序列,或,未设置测序引物序列的单链的3'端为突出的SEQ ID NO:1所示核苷酸序列。SEQ ID NO:1:5'-N1…NmN'1…N'm-3',其中,N为A、T、C、G碱基脱氧核糖核苷酸中的任意一种,N1…Nm与N'm…N'1为反向互补序列,m为1-4,优选地m为3,更优选地m为2,最优选地m为1。所述加测序接头的DNA片段通过测序接头突出的SEQ ID NO:1相连接,成为重连DNA片段。
进一步地,在上述文库构建方法中,在酶切步骤后可以对交联的DNA片段进行末端修复和加A处理。末端修复是指将损坏或不完全的,如经过酶切处理或其他打断处理的,DNA片段的末端进行修补,使其末端都能够以双链形式存在,即平末端,而不存在单链的游离和核苷酸序列。加A通常是指对末端没有单链游离核苷酸序列的双链DNA片段的3'末端加上带有腺嘌呤(A)的脱氧核糖核苷酸。
进一步地,在上述文库构建方法中,对加A的DNA片段加优选地测序接头。优选地测序接头在未设置测序引物序列的单链的3'端不为A。这样可以有效避免接头间的互相连接。
经过加测序接头的操作可以使交联的带有A末端的酶切DNA片段连接上带有特殊序列的测序接头,并使得被相关联蛋白质交联的DNA片段通过测序接头相连接。测序接头成为连接酶切DNA片段的桥梁。由于进行双端测序的时候,只有含两个测序接头的重连片段才能产生数据,未重连片段由于只含有一个测序接头,无法获得双端测序数据。这样的连接方式能够从而降低了无效片段进入测序数据的比例。连接测序接头可以使用的试剂,如T4DNA连接酶,T4 DNA连接酶缓冲液等。
进一步地,在上述文库构建方法中,对加A的DNA片段加更优选地测序接头。测序接头可以采用SEQ ID NO:2和SEQ ID NO:3所示序列经退火处理的产物,
SEQ ID NO:2:5'-CTCCAGTCACAGCACACG-3',
SEQ ID NO:3:5'-TGTGCTGTGACTGGAGT-3'。
在本发明中,测序引物序列可以采用Illumina测序平台提供的测序引物中的一种,例如read1或read2的测序引物序列。也可以采用根据样本或平台的特殊性选择其他定制化序列。
在本发明中,细胞条码是指用于区分单个细胞的标记,其通过引入独特的DNA序列标记,可以对单个细胞进行标识和追踪。
在上述单细胞文库构建方法中,通过在文库接头中增加细胞条码,如SEQ ID NO:4中由多个N组成的核苷酸序列,对单细胞进行标记,以便在数据分析过程中区分不同的单细胞。细胞条码可以采用约4-25bp核苷酸序列。
进一步地,在上述文库构建方法中,所述细胞条码与所述第一文库结构序列直接相连。优选地,细胞条码设置在靠近重连DNA片段的一端。如,SEQ ID NO:4中细胞条码设置在第一文库结构序列的5'端。优选地细胞条码的长度为6-20bp,更优选地为8-16bp。
进一步地,在上述文库构建方法中,在解交联步骤后对重连DNA片段进行进行片段化和加A处理。在文库构建中,片段化通常指将较长的DNA片段通过酶切等方法片段化成长度适宜测序仪的文库插入片段大小,优选地片段化为平均片段长度为200-1000bp,更优选地片段化为平均片段长度为300-800bp,最优选地片段化为平均片段长度为400-700bp,片段化可以采用的方法如,非限制性内切酶酶切,或超声打断等方式。加A处理的说明如上所述,在此不再赘述。进一步地,在上述文库构建方法中,文库接头是由SEQ ID NO:4和SEQ IDNO:5所示序列组成的,
SEQ ID NO:4:5'-GTGAAG-NNNNNN-GTGTAGATCTCGGTGGTCG CCGTATCATT-3',
SEQ ID NO:5:5'-CTTCACT-3'。
在本发明中,可以采用的限制性内切酶为四碱基限制性内切酶或六碱基限制性内切酶。优选地限制内切酶是四碱基限制性内切酶。如DpnII,NlaIII等。
进一步地,在上述文库构建方法中,连接测序接头可以使用试剂,如T4 DNA连接酶,T4 DNA连接酶缓冲液等。连接测序接头可以采用试剂体系:1x NEB T4 DNA ligasebuffer,400,000U/ml NEB T4 DNA ligase,和0.1mM测序接头。
进一步地,在上述文库构建方法中,连接文库接头可以使用试剂,如T4 DNA连接酶,T4 DNA连接酶缓冲液等。连接文库接头可以采用试剂体系:10x NEB T4 DNA ligasebuffer,400,000U/mL NEB T4 DNA ligase,和0.1mM文库接头。
进一步地,在上述文库构建方法中,文库扩增可以采用PCR用试剂比如NEB Q5高保真聚合酶、KAPA HiFi Hot Start ReadyMix。
根据本发明的另一方面,还提供了一种用于检测单细胞与目标基因座相互作用的DNA片段的测序文库,其通过上述文库构建方法获得。在含有目标基因座的片段及与之相互作用的片段之间包含两个测序接头。即重连DNA片段的内部包含两个测序接头。所述测序接头包括一段测序引物序列。两个测序接头通过SEQ ID NO:1反向互补配对连接并插入在两段具有空间相互作用的DNA片段之间。
根据本发明的另一方面,还提供了一种单细胞的与目标基因座相互作用的DNA片段测序文库的检测方法,其通过对上述单细胞的与目标基因座相互作用的DNA片段测序文库进行测序,从重连片段内部的两个测序引物序列分别向重连片段两端进行检测。即测序引物序列从加测序接头的重连DNA片段的内部为测序起始点读取序列,而不是将重连DNA片段两端为测序起始点读取序列。如,测序引物以重连片段内部的两个测序引物序列为起始点分别向重连DNA片段两端读取该重连片段的碱基序列。
本发明的方法通过在片段重连处理之前为DNA片段连接特殊的测序接头及其他多步优化,使得单细胞的与目标基因座相互作用的DNA片段测序文库的构建成为可能。而现有4C技术无法获得单细胞水平的数据。同时,与现有4C方法相比,本发明的方法更为便捷,无需环化,能极大的缩短建库时间和降低建库成本。即,与现有技术相比,本发明实现了一种单细胞水平以及便于实验操作的与目标基因座相互作用的DNA片段的检测文库。
附图说明
图1是实施例1的文库片段结构示意图。
其中,1-目标基因座片段,2-与目标基因座相互作用的DNA片段,3-测序接头,4-第一文库结构序列及其互补序列,5-第二文库结构序列及其互补序列,6-细胞条码及其互补序列,7-箭头表示测序方向。
发明的具体实施方式
实施例
以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例是用于解释本发明,并非对本发明的限定。
实施例1一例用于检测单细胞目标区域染色体构象的测序文库构建方法
(一)文库构建
1.染色质交联
收集100万个E14小鼠巨噬细胞株RAW264.7细胞(样本1),400G离心5分钟,去除上清。细胞重悬于2毫升PBS,加入54μL 37%的福尔马林,使甲醛终浓度为1%。10分钟加入预冷谷氨酸至终浓度130mM终止交联。3000G离心5分钟,去除上清,使用1mL的PBS重悬细胞核。
2.酶切、末端修复和加腺嘌呤核苷酸(A)
3000G离心5分钟,去除上清。重悬细胞核于48μL 1x NEBbuffer DpnII,加0.5μL50,000unites/mL的NEB DpnII Enzymne,0.5μL 5,000U/mL的NEB Tag DNA聚合酶和1μL10nM的dNTP混匀。37摄氏度孵育15分钟酶切,65摄氏度孵育30分钟进行末端修复和加A。3000G离心5分钟,去除上清,使用1ml的PBS重悬细胞核。
3.连接测序接头。
3000G离心5分钟,去除上清。重悬细胞核于42μL 1x NEB T4 DNA ligase buffer,加5μL 400,000U/mL的NEB T4 DNA ligase,3μL 0.1mM的测序接头(由SEQ ID NO:2和SEQID NO:3所示寡核苷酸序列梯度退火制备)。22摄氏度孵育1小时。3000G离心5分钟,去除上清。3000G离心5分钟,去除上清,使用1ml的PBS重悬细胞核。
本实施例中,测序引物序列为SEQ ID NO:8,部分设置在SEQ ID NO:3。而SEQ IDNO:1设计为CG,位于SEQ ID NO:2的3'端。
4.DNA片段重连接
配置如下反应液:10μL 10x NEB T4 DNA ligase buffer,2.5μL 100mM的EGTA,2μL 10,000Units/mL的NEB T4 Polynucleotide Kinase,10μL400,000U/mL的NEB T4 DNAligase,加水补齐至100μL。将上步产物3000G离心5分钟,去除上清。使用100μL反应液重悬细胞核,37摄氏度孵育20分钟,然后22摄氏度孵育30分钟。
5.分离单细胞
将细胞核悬液稀释到200细胞核/mL。以5μL/孔的量转移到96孔PCR板上,共转移5张96孔板,约480个细胞。
6.解交联
每孔加入0.5μL 120Units/mL NEB Thermolabile Proteinase K,37摄氏度孵育15分钟解交联,55摄氏度孵育10分钟灭活解交联酶。
7.片段化DNA,末端修复及加A。
每孔加入0.6μL 10x NEB Micrococcal Nuclease Reaction Buffer,加0.2μL 2,000,000gel units/ml的NEB Micrococcal Nuclease,0.2μL 5,000U/mL的NEB Tag DNA聚合酶和0.1μL 10nM的dNTP,混匀。32摄氏度孵育5分钟,再在65摄氏度孵育30分钟。
8.连接带有第一文库结构序列的接头
每孔加入0.75μL 10x NEB T4 DNA ligase buffer,0.5μL 400,000U/mL NEB T4DNA ligase,0.25μL 0.1mM的带有第一文库结构序列的接头(由SEQ ID NO:4和SEQ ID NO:5所示寡核苷酸序列梯度退火制备)。多个N的核苷酸序列为单细胞条码。每个孔使用含不同细胞条码的文库接头标记该孔的单细胞。20摄氏度孵育15分钟。
将所有孔的液体收集在一个PCR管里,使用0.8x SPRI selectbeads对DNA进行纯化。回收到23μL Elutionbuffer中。
9.目标片段文库扩增:
向上步产物中加入1μL 0.01mM的带有第二文库结构序列的目标基因座(Ccl2enhancer and silencer)引物(SEQ ID NO:6所示寡核苷酸序列),1μL 0.01mM的第一文库结构序列引物(SEQ ID NO:7所示寡核苷酸序列),25μL KAPA HiFi Hot Start Ready Mix。
使用PCR仪通过PCR富集含目标区域的重组片段。
PCR程序:1)98摄氏度3分钟,2)98摄氏度30秒,3)54摄氏度30秒,4)72摄氏度30秒,5)72摄氏度1分钟,6)10摄氏度停止。其中2)-4)步循环20次。
使用0.5x-0.8x SPRI selectbeads对DNA进行片段筛选和纯化。得到包括480个单细胞的与目标基因座为Ccl2 enhancer and silencer(参见参考文献[1])相互作用的片段的文库(文库1)。
由图1可见,重连片段由目标基因座片段、与目标基因座相互作用的DNA片段和二者之间的两个测序接头组成,二者通过其带有的测序接头的CG序列通过反向互补连接。
本实施例涉及序列如表1。
表1:
(二)文库测序策略和分析策略
上述方法获得的文库进行测序和数据分析。使用Miseq对文库进行双端测序。共测取0.5M readpairs。其中,read1读取24bp,使用客制化引物如SEQ ID NO:8所示寡核苷酸序列。read 2读取55bp,使用客制化引物如SEQ ID NO:8所示寡核苷酸序列。由图1可见,本实施例将重连片段之间的测序引物序列作为测序起始点向两端分别进行read1和read2的两步测序。
注意,在本方法测序中,测序仪只能使用Index 2检测使用Forward StrandWorkflow的Illumina测序仪(例如Nova-Seq 6000with v1.0 reagent kits,Mini-Seqwith rapid reagent kits,Mi-Seq,Hi-Seq 2500,或者HiSeq2000)。
下机数据拆分后,通过Index 2拆分出的不同文库为不同单细胞的数据。先trim掉残留的Illumina文库接头序列和客制化测序引物序列。将read1的数据反向互补,去掉5'端的4个碱基,然后加在read2相对应的测序序列的5'端,处理完的read2长度为75bp。使用fastqc和4C-seq pipe分析数据。
(三)测序数据的统计和分析
文库1的总体测序数据质量统计如表2,单细胞数据拆分统计如表3。
表2:
表3:
根据上述统计数据可知:通过本实施例的方法获得的测序数据中文库1的有效数据占比(mapped reads与Total reads)接近11%。同时,根据细胞条码拆分测序数据可以回收42.71%的细胞,且单细胞有效数据百分比中位数为9.63%。而现有技术尚未见到关于单细胞4C文库的报道。由此可见,本发明的用于检测单细胞的目标区域染色体构象的测序文库构建方法能够实现单细胞4C建库,且可以有效检测单细胞目标区域染色体构象。
参考文献[1]:Zhiqiang Huang,Cheng Wang,Eckardt Treuter,and RongrongFan.An optimized 4C-seq protocol based on cistrome and epigenome data in themouse RAW264.7 macrophage cell line.STAR Protocols,Volume 3,Issue 2,17June2022,101338
根据本发明,可以与其他研究DNA、RNA、蛋白的方法联合使用研究细胞特性或功能,以及染色质构象、DNA、RNA和蛋白质的功能。这些其他研究DNA、RNA、蛋白的方法包括但不限于:单细胞测序、基因芯片、QPCR、一代测序、二代测序、三代测序、四代测序、基因测序、基因组测序、宏基因组测序、外显子测序、内含子测序、目标基因捕获测序、RNA测序、表达谱测序、转录组测序、小RNA转录组、微RNA测序、宏转录组测序、LncRNA测序、肿瘤基因测序、肿瘤基因组测序、Bisulfite甲基化测序、ChIP-DNA测序、MeDIP测序、RRBS测序、Target-BS测序、hmC测序。
还需要说明的是,在可实施且不明显违背本发明的主旨的前提下,在本说明书中作为某一技术方案的构成部分所描述的任一技术特征或技术特征的组合同样也可以适用于其它技术方案;并且,在可实施且不明显违背本发明的主旨的前提下,作为不同技术方案的构成部分所描述的技术特征之间也可以以任意方式进行组合,来构成其它技术方案。本发明也包含在上述情况下通过组合而得到的技术方案,并且这些技术方案相当于记载在本说明书中。
上述说明示出并描述了本发明的优选实施例,如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域技术人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种用于检测单细胞与目标基因座相互作用的DNA片段的文库构建方法,该方法包括下述步骤:
交联:将样本细胞内的DNA与蛋白质交联,得到交联体;
酶切:采用限制性内切酶切割交联体中的DNA,得到交联的DNA片段;
加测序接头:将交联的DNA片段加测序接头,得到加测序接头的DNA片段,所述测序接头包括至少一段测序引物序列;
重连DNA片段:将加测序接头的DNA片段重新连接,得到交联的重连DNA片段;
分离单细胞;
解交联:将交联的重连DNA片段与蛋白质解交联,得到重连DNA片段;
加文库接头,所述文库接头包括第一文库结构序列;
目标片段文库扩增:采用带有第二文库结构序列的目标基因座引物和带有第一文库结构序列的引物,对加文库接头的DNA片段进行扩增,得到单细胞的与目标基因座相互作用的DNA片段的文库。
2.根据权利要求1所述文库构建方法,所述加测序接头的DNA片段通过其添加的测序接头重新连接,所述重连DNA片段内部包括两个测序接头。
3.根据权利要求1所述文库构建方法,所述测序接头由两条DNA单链组成,所述测序引物序列设置在3'端与所述交联的DNA片段相连接的单链上,所述测序引物序列设置在其所在单链的3'端。
4.根据权利要求3所述文库构建方法,所述设置测序引物序列的单链的5'端为突出的SEQ ID NO:1所示核苷酸序列,或,未设置测序引物序列的单链的3'端为突出的SEQ ID NO:1所示核苷酸序列,
SEQ ID NO:1:5'-N1…NmN'1…N'm-3',
其中,N为A、T、C、G脱氧核糖核苷酸中的任意一种,N1…Nm与N'm…N'1为反向互补序列,m为1-4。
5.根据权利要求1所述文库构建方法,在酶切步骤后对交联的DNA片段进行末端修复和加A处理。
6.根据权利要求5所述文库构建方法,其中,设置测序引物序列的单链的3'端为突出的T。
7.根据权利要求1所述文库构建方法,其中,所述文库接头包括细胞条码。
8.根据权利要求1所述文库构建方法,其中,所述限制性内切酶为四碱基限制性内切酶或六碱基限制性内切酶。
9.一种用于检测单细胞与目标基因座相互作用的DNA片段的测序文库,其通过权利要求1-8任一项所述文库构建方法获得,含有目标基因座片段及与之相互作用的片段之间包括两个测序接头。
10.一种单细胞的与目标基因座相互作用的DNA片段测序文库的检测方法,其对通过权利要求9所述文库进行测序,其将含有目标基因座片段及与之相互作用的片段之间的测序引物序列作为测序起始点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410031537.8A CN117821567A (zh) | 2024-01-09 | 2024-01-09 | 一种用于检测单细胞与目标基因座相互作用的dna片段的文库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410031537.8A CN117821567A (zh) | 2024-01-09 | 2024-01-09 | 一种用于检测单细胞与目标基因座相互作用的dna片段的文库构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117821567A true CN117821567A (zh) | 2024-04-05 |
Family
ID=90513039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410031537.8A Pending CN117821567A (zh) | 2024-01-09 | 2024-01-09 | 一种用于检测单细胞与目标基因座相互作用的dna片段的文库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117821567A (zh) |
-
2024
- 2024-01-09 CN CN202410031537.8A patent/CN117821567A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210254148A1 (en) | Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing | |
CN105925675B (zh) | 扩增dna的方法 | |
US10400279B2 (en) | Method for constructing a sequencing library based on a single-stranded DNA molecule and application thereof | |
DK2591125T3 (en) | V3-D SEQUENCE STRATEGIES FOR GENOM REGION OF INTEREST | |
EP3495498A1 (en) | Gene expression analysis in single cells | |
US20200283839A1 (en) | Methods of attaching adapters to sample nucleic acids | |
US20210198660A1 (en) | Compositions and methods for making guide nucleic acids | |
EP3775269A1 (en) | Integrative dna and rna library preparations and uses thereof | |
KR101913735B1 (ko) | 차세대 염기서열 분석을 위한 시료 간 교차 오염 탐색용 내부 검정 물질 | |
CN113462748A (zh) | Dna测序文库的制备方法及试剂盒 | |
US20190316181A1 (en) | Methods and reagents for molecular barcoding | |
US20180100180A1 (en) | Methods of single dna/rna molecule counting | |
CN117821567A (zh) | 一种用于检测单细胞与目标基因座相互作用的dna片段的文库构建方法 | |
WO2018081666A1 (en) | Methods of single dna/rna molecule counting | |
EP4305205A1 (en) | Cell barcoding compositions and methods | |
CN117845339A (zh) | 一种用于检测与目标基因座相互作用的dna片段的文库构建方法 | |
CN107794257B (zh) | 一种dna大片段文库的构建方法及其应用 | |
CN117802205A (zh) | 一种单细胞Hi-C文库构建方法 | |
CN117887809A (zh) | 一种Hi-C文库构建方法 | |
CN117845338A (zh) | 一种PCR free的Hi-C文库构建方法 | |
CN114015751A (zh) | 扩增基因组dna的方法、试剂盒及其获得扩增引物的方法 | |
WO2023012195A1 (en) | Method | |
CN117106873A (zh) | 基于三代测序平台的单细胞多组学并行测序方法及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |