CN116024321A - 一种鉴定植物体内转录因子结合位点的方法及应用 - Google Patents
一种鉴定植物体内转录因子结合位点的方法及应用 Download PDFInfo
- Publication number
- CN116024321A CN116024321A CN202210917811.2A CN202210917811A CN116024321A CN 116024321 A CN116024321 A CN 116024321A CN 202210917811 A CN202210917811 A CN 202210917811A CN 116024321 A CN116024321 A CN 116024321A
- Authority
- CN
- China
- Prior art keywords
- transcription factor
- tag
- data
- transcription
- binding site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108091023040 Transcription factor Proteins 0.000 title claims abstract description 89
- 102000040945 Transcription factor Human genes 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 43
- 210000004027 cell Anatomy 0.000 claims abstract description 48
- 210000001938 protoplast Anatomy 0.000 claims abstract description 28
- 210000001519 tissue Anatomy 0.000 claims abstract description 24
- 108020004414 DNA Proteins 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000013136 deep learning model Methods 0.000 claims abstract description 12
- 230000009466 transformation Effects 0.000 claims abstract description 9
- 239000011324 bead Substances 0.000 claims description 24
- 238000012163 sequencing technique Methods 0.000 claims description 16
- 108010077544 Chromatin Proteins 0.000 claims description 14
- 210000003483 chromatin Anatomy 0.000 claims description 14
- 239000005090 green fluorescent protein Substances 0.000 claims description 12
- 230000010474 transient expression Effects 0.000 claims description 10
- 230000035897 transcription Effects 0.000 claims description 8
- 238000013518 transcription Methods 0.000 claims description 8
- 239000013604 expression vector Substances 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000000746 purification Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 108010043121 Green Fluorescent Proteins Proteins 0.000 claims description 4
- 102000004144 Green Fluorescent Proteins Human genes 0.000 claims description 4
- 238000011161 development Methods 0.000 claims description 4
- 238000006062 fragmentation reaction Methods 0.000 claims description 4
- 238000011144 upstream manufacturing Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000013467 fragmentation Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000013135 deep learning Methods 0.000 abstract description 14
- 210000003855 cell nucleus Anatomy 0.000 abstract description 6
- 238000004132 cross linking Methods 0.000 abstract description 5
- 230000004907 flux Effects 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 241000196324 Embryophyta Species 0.000 description 28
- 239000007788 liquid Substances 0.000 description 24
- 239000006228 supernatant Substances 0.000 description 24
- 238000002156 mixing Methods 0.000 description 23
- 238000001353 Chip-sequencing Methods 0.000 description 21
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 20
- 108090000623 proteins and genes Proteins 0.000 description 20
- 239000000243 solution Substances 0.000 description 19
- 239000000203 mixture Substances 0.000 description 16
- 240000008042 Zea mays Species 0.000 description 13
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 13
- 239000013598 vector Substances 0.000 description 12
- 230000001133 acceleration Effects 0.000 description 11
- 239000013612 plasmid Substances 0.000 description 11
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 9
- 235000009973 maize Nutrition 0.000 description 9
- 241000209094 Oryza Species 0.000 description 8
- 235000007164 Oryza sativa Nutrition 0.000 description 8
- 235000009566 rice Nutrition 0.000 description 8
- 230000033228 biological regulation Effects 0.000 description 7
- 239000000872 buffer Substances 0.000 description 7
- 238000011534 incubation Methods 0.000 description 7
- 238000001179 sorption measurement Methods 0.000 description 7
- 238000004383 yellowing Methods 0.000 description 7
- HEDRZPFGACZZDS-UHFFFAOYSA-N Chloroform Chemical compound ClC(Cl)Cl HEDRZPFGACZZDS-UHFFFAOYSA-N 0.000 description 6
- FBPFZTCFMRRESA-KVTDHHQDSA-N D-Mannitol Chemical compound OC[C@@H](O)[C@@H](O)[C@H](O)[C@H](O)CO FBPFZTCFMRRESA-KVTDHHQDSA-N 0.000 description 6
- HEMHJVSKTPXQMS-UHFFFAOYSA-M Sodium hydroxide Chemical compound [OH-].[Na+] HEMHJVSKTPXQMS-UHFFFAOYSA-M 0.000 description 6
- 101100234541 Zea mays KNOX6 gene Proteins 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 239000003153 chemical reaction reagent Substances 0.000 description 6
- 229930195725 Mannitol Natural products 0.000 description 5
- 101100043229 Oryza sativa subsp. japonica SPL14 gene Proteins 0.000 description 5
- 108700005075 Regulator Genes Proteins 0.000 description 5
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 5
- 238000007605 air drying Methods 0.000 description 5
- 238000010835 comparative analysis Methods 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000001727 in vivo Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 235000010355 mannitol Nutrition 0.000 description 5
- 239000000594 mannitol Substances 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 239000000725 suspension Substances 0.000 description 5
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 4
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 4
- 235000005822 corn Nutrition 0.000 description 4
- 238000012258 culturing Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000006798 recombination Effects 0.000 description 4
- 238000005215 recombination Methods 0.000 description 4
- 230000001105 regulatory effect Effects 0.000 description 4
- 239000002689 soil Substances 0.000 description 4
- 239000011534 wash buffer Substances 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 108090000790 Enzymes Proteins 0.000 description 3
- 102000004190 Enzymes Human genes 0.000 description 3
- 241001052560 Thallis Species 0.000 description 3
- 108700009124 Transcription Initiation Site Proteins 0.000 description 3
- 230000001580 bacterial effect Effects 0.000 description 3
- 239000012148 binding buffer Substances 0.000 description 3
- 230000002255 enzymatic effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000002244 precipitate Substances 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 2
- 108010033040 Histones Proteins 0.000 description 2
- KFZMGEQAYNKOFK-UHFFFAOYSA-N Isopropanol Chemical compound CC(C)O KFZMGEQAYNKOFK-UHFFFAOYSA-N 0.000 description 2
- 229920001030 Polyethylene Glycol 4000 Polymers 0.000 description 2
- 108010009736 Protein Hydrolysates Proteins 0.000 description 2
- 238000010009 beating Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 210000000170 cell membrane Anatomy 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- MTHSVFCYNBDYFN-UHFFFAOYSA-N diethylene glycol Chemical compound OCCOCCO MTHSVFCYNBDYFN-UHFFFAOYSA-N 0.000 description 2
- 238000010790 dilution Methods 0.000 description 2
- 239000012895 dilution Substances 0.000 description 2
- 238000001035 drying Methods 0.000 description 2
- 239000002158 endotoxin Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000012010 growth Effects 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- PHTQWCKDNZKARW-UHFFFAOYSA-N isoamylol Chemical compound CC(C)CCO PHTQWCKDNZKARW-UHFFFAOYSA-N 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 210000000633 nuclear envelope Anatomy 0.000 description 2
- SCVFZCLFOSHCOH-UHFFFAOYSA-M potassium acetate Chemical compound [K+].CC([O-])=O SCVFZCLFOSHCOH-UHFFFAOYSA-M 0.000 description 2
- 230000008844 regulatory mechanism Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 239000011780 sodium chloride Substances 0.000 description 2
- 230000001954 sterilising effect Effects 0.000 description 2
- 230000002103 transcriptional effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 101150084750 1 gene Proteins 0.000 description 1
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 1
- 102100030379 Acyl-coenzyme A synthetase ACSM2A, mitochondrial Human genes 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 208000003643 Callosities Diseases 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 108020004705 Codon Proteins 0.000 description 1
- 108010062580 Concanavalin A Proteins 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 230000004543 DNA replication Effects 0.000 description 1
- 102000016911 Deoxyribonucleases Human genes 0.000 description 1
- 108010053770 Deoxyribonucleases Proteins 0.000 description 1
- QRLVDLBMBULFAL-UHFFFAOYSA-N Digitonin Natural products CC1CCC2(OC1)OC3C(O)C4C5CCC6CC(OC7OC(CO)C(OC8OC(CO)C(O)C(OC9OCC(O)C(O)C9OC%10OC(CO)C(O)C(OC%11OC(CO)C(O)C(O)C%11O)C%10O)C8O)C(O)C7O)C(O)CC6(C)C5CCC4(C)C3C2C QRLVDLBMBULFAL-UHFFFAOYSA-N 0.000 description 1
- 108010067770 Endopeptidase K Proteins 0.000 description 1
- 206010020649 Hyperkeratosis Diseases 0.000 description 1
- 241000755266 Kathetostoma giganteum Species 0.000 description 1
- 108700005081 Overlapping Genes Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 108010012306 Tn5 transposase Proteins 0.000 description 1
- 108010020764 Transposases Proteins 0.000 description 1
- 102000008579 Transposases Human genes 0.000 description 1
- 238000001261 affinity purification Methods 0.000 description 1
- 239000011543 agarose gel Substances 0.000 description 1
- 239000008346 aqueous phase Substances 0.000 description 1
- 238000003287 bathing Methods 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 244000309466 calf Species 0.000 description 1
- 210000002421 cell wall Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 238000002487 chromatin immunoprecipitation Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- UVYVLBIGDKGWPX-KUAJCENISA-N digitonin Chemical compound O([C@@H]1[C@@H]([C@]2(CC[C@@H]3[C@@]4(C)C[C@@H](O)[C@H](O[C@H]5[C@@H]([C@@H](O)[C@@H](O[C@H]6[C@@H]([C@@H](O[C@H]7[C@@H]([C@@H](O)[C@H](O)CO7)O)[C@H](O)[C@@H](CO)O6)O[C@H]6[C@@H]([C@@H](O[C@H]7[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O7)O)[C@@H](O)[C@@H](CO)O6)O)[C@@H](CO)O5)O)C[C@@H]4CC[C@H]3[C@@H]2[C@@H]1O)C)[C@@H]1C)[C@]11CC[C@@H](C)CO1 UVYVLBIGDKGWPX-KUAJCENISA-N 0.000 description 1
- UVYVLBIGDKGWPX-UHFFFAOYSA-N digitonine Natural products CC1C(C2(CCC3C4(C)CC(O)C(OC5C(C(O)C(OC6C(C(OC7C(C(O)C(O)CO7)O)C(O)C(CO)O6)OC6C(C(OC7C(C(O)C(O)C(CO)O7)O)C(O)C(CO)O6)O)C(CO)O5)O)CC4CCC3C2C2O)C)C2OC11CCC(C)CO1 UVYVLBIGDKGWPX-UHFFFAOYSA-N 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011013 endotoxin removal Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 108020001507 fusion proteins Proteins 0.000 description 1
- 102000034356 gene-regulatory proteins Human genes 0.000 description 1
- 108091006104 gene-regulatory proteins Proteins 0.000 description 1
- 239000001963 growth medium Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 239000000413 hydrolysate Substances 0.000 description 1
- 230000036046 immunoreaction Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 239000006166 lysate Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 229960002523 mercuric chloride Drugs 0.000 description 1
- LWJROJCJINYWOX-UHFFFAOYSA-L mercury dichloride Chemical compound Cl[Hg]Cl LWJROJCJINYWOX-UHFFFAOYSA-L 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 239000012071 phase Substances 0.000 description 1
- 150000002989 phenols Chemical class 0.000 description 1
- 229920001223 polyethylene glycol Polymers 0.000 description 1
- 235000011056 potassium acetate Nutrition 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000002791 soaking Methods 0.000 description 1
- 238000009331 sowing Methods 0.000 description 1
- 238000003756 stirring Methods 0.000 description 1
- 239000011550 stock solution Substances 0.000 description 1
- 230000004960 subcellular localization Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000967 suction filtration Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009261 transgenic effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 235000019354 vermiculite Nutrition 0.000 description 1
- 239000010455 vermiculite Substances 0.000 description 1
- 229910052902 vermiculite Inorganic materials 0.000 description 1
- 238000003260 vortexing Methods 0.000 description 1
- DGVVWUTYPXICAM-UHFFFAOYSA-N β‐Mercaptoethanol Chemical compound OCCS DGVVWUTYPXICAM-UHFFFAOYSA-N 0.000 description 1
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请公开了一种鉴定植物体内转录因子结合位点的方法及应用,该方法为tsCUT&Tag,其步骤包括:构建转录因子瞬时表达的细胞;对转录因子瞬时表达的细胞进行CUT&Tag操作,获得与转录因子特异结合的DNA文库;以及分析DNA文库数据获得转录因子结合位点信息。该方法在传统的CUT&Tag技术上,结合了植物原生质体瞬时转化技术,不依赖于植物细胞核的提取、交联、打断等步骤,准确性高且更加节约时间,在一定程度上实现了高通量。本申请还公开了一种利用深度学习模型预测转录因子在不同组织的调控图谱,开发了基于多组数据的深度学习策略,经过机器学习可以显著提高转录因子结合位点的预测精度。
Description
技术领域
本申请涉及生物技术领域,尤其涉及一种鉴定植物体内转录因子结合位点的方法及应用。
背景技术
在几乎所有的细胞生命活动中,例如DNA复制,基因的表达、调控、重组和修复,RNA转录、翻译、修饰等都涉及到DNA与蛋白质之间的相互作用。转录因子是一群能与基因5`端上有特定序列专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子,转录因子结合位点是与转录因子结合的DNA片段。针对植物来说,开发高通量鉴定转录因子结合位点的技术对于解析作物重要性状的转录调控机制具有重要的生物学意义。
染色质免疫沉淀技术(ChIP-seq)是体内全基因组水平鉴定转录因子结合位点的经典方法,但是需要稳定转化的转基因植株或者纯化高质量特异性的抗体,步骤繁琐,耗时长,背景较高;ChIP-seq在应用于大规模转录因子研究时,也无法实现高通量,成本较高。DNA亲和纯化测序技术(DAP-seq)可以实现在体外高通量全基因组水平鉴定转录因子调控位点,但是局限在无法研究转录因子互作对下游基因的调控机制,一定程度上也无法真实反映体内转录因子与DNA的互作。近些年,利用植物瞬时表达的ChIP-seq技术,为高通量表达转录因子蛋白和绘制转录调控网络提供了一个快速的方法(Wang et al 2021),但是也仅限于特定组织的研究。因此,急需开发一套高效低成本高通量的体内鉴定转录因子结合位点的技术体系,来真实反应转录因子与DNA的互作,系统构建转录因子与DNA在体内的互作全景。
近些年,生物体内CUT&Tag(Cleavage under targets and tagmentationmethod,靶向剪切及转座酶技术)被成功开发出来,用于表征体内的表观修饰和基因表达调控。CUT&Tag的基本原理是在抗体引导下,ChiTag酶(Protein A蛋白与Tn5转座酶的融合蛋白)仅在目的组蛋白修饰标志、转录因子或染色质调控蛋白结合染色质的局部进行目的DNA的片段化,同时添加测序接头进行高通量测序(Kaya-Okur et al 2019)。CUT&Tag与传统的ChIP-Seq研究方法相比,无需交联、超声打断、末端抹平和接头连接等操作,具有省时高效、所需的样品量少、背景信号低和可重复性好等优点。但是由于植物细胞壁的存在,一定程度上限制了CUT&Tag在植物当中的应用。尽管基于细胞核提取的CUT&Tag技术已成功用于植物组蛋白修饰位点的高通量鉴定(Tao et al 2020;Ouyang et al 2021),但是CUT&Tag技术能否用于植物体内转录因子结合位点的研究有待验证,以及一套适用于植物体内高通量低成本鉴定转录因子结合位点的方法还有待进一步开发。
发明内容
有鉴于此,本申请的目的是为了解决高通量研究植物体内转录因子结合位点技术的不足,其解决方案是在传统的CUT&Tag技术上,结合了植物原生质体瞬时转化技术,开发了不依赖于细胞核提取的tsCUT&Tag(transient and simplified CUT&Tag)技术,其具体的技术方案如下:
第一方面,本申请实施例公开了一种全新的鉴定植物体内转录因子结合位点的方法,所述方法包括以下步骤:
转录因子与绿色荧光蛋白GFP进行融合,获得转录因子瞬时表达的细胞;
对转录因子瞬时表达的细胞进行CUT&Tag操作,获得与与转录因子特异结合的DNA文库;以及
分析所述DNA文库的数据,获得转录因子结合位点信息。
进一步地,所述获得转录因子瞬时表达的细胞的过程包括以下步骤:
构建转录因子瞬时表达载体(质粒),并转化至感受态细胞;
从感受态细胞中提取质粒;以及
原生质体的提取和转化。
进一步地,所述CUT&Tag操作包括:
将转录因子瞬时表达的细胞溶液进行刀豆蛋白A磁珠(ConA beads)处理,收集细胞;
细胞与ConA beads的孵育;
孵育第一抗体和第二抗体;所述第一抗体与目标蛋白(转录因子)结合,所述第二抗体与所述第一抗体结合;
孵育pA/pG-Tn5转座子(Hyperactive pG-Tn5/pA-Tn5 Transposon);激活转座子,进行DNA片段化;以及
文库扩增与纯化。
进一步地,所述分析所述DNA文库的数据的过程包括:
(1)通过所述DNA文库原始测序数据,得到与参考基因组唯一匹配的reads;
(2)通过与参考基因组唯一匹配的reads得到去除背景的reads;
(3)分析去除背景的reads,获得转录因子结合位点信息。
第二方面,本申请提供了一种预测植物体内转录因子结合位点的方法,其包括:
建立深度学习模型;并针对第一植物组织的转录因子的tsCUT&Tag数据和第二植物组织的ATAC-seq数据进行学习;
基于深度学习模型预测第二植物组织开放染色质区域序列(ATAC-seq)中的转录结合位点;以及
预测结果输出。
进一步地,所述深度学习模型为长短期记忆递归神经网络,其中用于构建模型的训练集划分方法为:在染色质开放区域(ATAC-seq)的结合峰(tsCUT&Tag)的上下游100bp,共200bp,属性定义为1;染色质开发区域不存在峰的结合区域,属性定义为0。
第三方面,第一方面所述方法和/或第二方面所述方法在鉴定和/或预测植物体内转录因子结合位点的应用。
与现有技术相比,本申请至少具有以下有益效果:
本申请中涉及一种鉴定植物体内转录因子结合位点的方法及应用,所述方法为tsCUT&Tag,较传统的ChIP-seq至少具有以下优点:
1、tsCUT&Tag是基于原生质体瞬时转化的技术,可以一定程度上实现高通量。此外,将转录因子与绿色荧光蛋白融合在植物体内进行瞬时表达,方便后续利用商业化的GFP抗体进行免疫反应,因此无需制备转录因子特异性的抗体,节约前期材料和抗体制备的时间和花费。
2、tsCUT&Tag不依赖于植物细胞核的提取、交联、打断等步骤,更加节约时间,同时与基于细胞核提取的tChIP-seq具有较高或等同数据质量。
3、tsCUT&Tag与传统的ChIP-seq相比具有较高的信号强度和信噪比,在获取等同有效数据量的前提下,所需的测序深度更低,更加节约成本。
4、为了预测转录因子在不同组织的调控图谱,本申请开发了基于多组学数据的深度学习策略。深度学习的准确性高达0.85,经过机器学习可以显著提高转录因子结合位点的预测精度。
因此,tsCUT&Tag技术在高通量低成本绘制植物整个生育期不同组织转录因子调控图谱上具有很大的应用潜力。
附图说明
图1为本申请实施例提供的tsCUT&Tag的技术流程图。
图2为本申请实施例提供的玉米转录因子KNOX6 tsCUT&Tag数据与tChIP-seq数据的比较分析图;其中A为tsCUT&Tag数据与tChIP-seq数据的相关性,B为tsCUT&Tag数据与tChIP-seq数据有效性指标对比,C为tsCUT&Tag与用tChIP-seq鉴定到的下游基因重叠率。
图3为本申请实施例提供的TB1和IPA1基因ChIP-seq与tsCUT&Tag数据的比较分析图;其中A和B分别为TB1和IPA1tsCUT&Tag数据与tChIP-seq数据的相关性,C为共同调控下游基因占比,D为tsCUT&Tag鉴定出的TB1和IPA1基因的两个已知的基序序列,E为转录起始位点的信号强度与信噪比对比。
图4为本申请实施例提供的TB1和IPA1基因ChIP-seq与tsCUT&Tag测序深度的比较分析;其中A为鉴定的下游基因的峰值比较,B为有效性对比。
图5为本申请实施例提供的利用深度学习提高KNOX6在绿色叶片组织中的转录结合位点的预测准确度;其中A为基于深度学习模型提高转录因子在不同组织中的结合位点的预测模型,B为三种深度学习模型的准确度,C为三种不同深度学习预测靶基因的重叠率分析,D为经过深度学习和未经过深度学习预测转录因子结合位点准确性对比。
图6为本申请实施例提供的KNOX6在黄化叶片和绿色叶片的调控基因的重叠分析。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合实施例对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例将围绕图1所示的tsCUT&Tag的技术流程图进行展开。
构建转录因子瞬时表达的细胞
本申请实施例通过利用植物瞬时表达载体pM999-GFP将转录因子与绿色荧光蛋白GFP进行融合,得到融合表达的重组载体,并将其转化到原生质体细胞中,得到阳性转化子,不仅有利于观察转录因子的亚细胞定位情况,还便于获取融合GFP的转录因子蛋白,也有利于通过GFP抗体进行免疫检测。
在一些实施方式中,构建转录因子瞬时表达的细胞的方法包括:构建转录因子瞬时表达的重组载体,将其转入DH5ɑ感受态细胞,筛选阳性菌落,提取重组载体,提取原生质体细胞,将所述重组载体转入所述原生质体细胞中,筛选得到阳性转化子。
在一个实施例中,“构建转录因子瞬时表达的重组载体,将其转入DH5ɑ感受态细胞,筛选阳性菌落”的步骤如下:设计扩增转录因子CDS序列(coding sequence)的引物,其中F端引物从基因的ATG开始,设计18bp左右的引物序列,同时添加序列如SEQ ID NO:1所示的第一重组位点;R端引物不包含终止密码子,设计18bp左右的反向互补序列,同时添加序列如SEQ ID NO:2所示重组位点,回收扩增产物,与用XbaI酶切后的PM999-GFP载体进行重组反应,转化至DH5ɑ感受态细胞,进行筛选和测序,即可得到阳性菌落。
在一些实施方式中,为了获得高浓度无内毒素质粒用于原生质体的瞬时转化,本申请实施例公开一种“提取重组载体”的方法,得到的质粒无内毒素,浓度高,十分有利于后续的原生质体转化,“提取重组载体”的方法包括:将阳性菌落进行培养,收集菌体,裂解破菌,去除内毒素处理,即可得到重组质粒。
一个具体实施例中,“提取重组载体”的方法具体包括:收集15mL阳性菌液,8000rpm离心5min,收集菌体;向收集的菌体中加入预冷的solution I,剧烈振荡至菌体完全融解;加入2mL solution II,混匀,冰浴3~5min;加入1.5mL预冷的solution III,温和振荡10s保证solution III在粘稠的细菌裂解物中分布均匀,冰浴5~10min,12000rpm离心5min,吸取上清加入预冷的两倍体积的乙醇或2/3体积的异丙醇,混匀后于冰上放15~20min;12000rpm离心10min,取沉淀,加入1mL 75%乙醇,轻轻弹洗沉淀(质粒),洗去盐分;12000rpm离心30s,吸去乙醇,晾干质粒;晾干后,每管加入300μL的ddH2O溶解;加入0.2mL去内毒素mix,37℃孵育30min;向溶解好的质粒中加入等体积的24:1(氯仿:异戊醇),混匀后静置5min;12000rpm离心10min,取上清液加入两倍体积的无水乙醇和1/10体积的NaAc,混匀后,冰浴5min;12000rpm离心5min,取沉淀加入75%乙醇500μL,轻轻弹洗质粒,洗去盐分;12000rpm离心30s,吸去乙醇,晾干质粒;晾干后,每管加入500μL的ddH2O溶解。
其中,试剂的配方如下:Solution I:50mM Tris-HCl(pH7.5),10mM EDTA(pH8.0),高压灭菌。Solution II:0.2m NaOH,1%SDS,现配,贮备液0.4m NaOH和2%SDS分开。Solution III:1.32m醋酸钾(pH4.8),高压灭菌。去内毒素mix:0.1mL Tritonx-114,0.1mL6%SDS。
在一些实施方式中,“提取原生质体细胞”的步骤包括:从10天暗培养条件下玉米黄化叶片以及生长两周左右水稻苗期绿色叶鞘提取原生质体细胞。
在一个具体的实施例中,“提取原生质体细胞”的步骤包括:
材料的种植;其包括:
将进口土与蛭石1:1混合均匀,播种前,将土浇透;将B73种子埋入土里约2cm,培养箱28℃暗培养种植,期间浇水保持土壤湿润;待黄化苗生长10~11天,第二片叶完全舒展约12~15cm,可用于玉米制备原生质体;将NPB水稻种子脱壳,75%酒精杀菌,0.1%升汞消毒,接种于1/2mS培养基中,光/暗培养12~14d,幼苗用于水稻原生质体的制备;
玉米原生质体的提取与转化;其包括:
配10mL酶解液,并抽滤(0.45μm滤头);切5~6片黄化苗叶片,选择第二片,并去掉叶片两头,将叶片切成1mm左右的细条,用平头镊子将细条放入酶解液中;抽真空30min,压强为30KPa,让酶解液渗入到组织内部;黑暗条件下,室温下摇床最低转速3~6h(不要超过6h,若时间过长,细胞会破裂);加入等体积W5终止酶解反应,混匀,用细胞筛过滤(细胞筛需浸泡在95%乙醇中保存);过细胞筛,将收集的细胞离心:25℃,100g加速度,2min,减速度和加速度都为2;去上清,尽量去掉所有液体,加入适量(4~5mL)预冷的W5,冰浴30min,吸取少量液体做镜检;冰浴后细胞自然沉降在底部,去掉上清,加入适量MMG重悬细胞,约1×106个/mL;将20μg质粒加入到2mL EP管中;加入100μL原生质体,轻弹混匀,约1×105个/100μL;加入110μL 40%PEG,轻弹混匀;室温静置15min;加入440μLW5稀释,轻轻上下颠倒混匀;用水平转子,100g加速度,在室温条件下,离心2min(加速度和减速度调为2);去掉上清,加入800μL W5,轻轻上下颠倒混匀;100g加速度,在室温条件下,离心2min(加速度和减速度调为2);去掉上清,加入1mL WI,上下颠倒混匀,22℃暗培养12~16h;
其中试剂配方如下:
酶解液,包括:以5mL体系为例,包含1.5%CellμLose R10(0.075g)、0.5%macerozyme(0.025g)、0.4M manitol(2.5mL)、20mM KCl(0.5mL)、20mM mES(PH5.7)1mL(MES在用之前需70℃水浴2~3min)、10mM CaCl2(50μL)和0.1%BSA(0.005g)55℃水浴10min,在冰上冷却至室温;
W5,包括:以50mL为例,154mM NaCl(5mL)、125mM CaCl2(6.25mL)、5mM KCl(1.25mL)、2mM mES(1mL)、ddH2O(36.5mL);
MMG,包括:以5ml为例0.4Mmannitol(2.5ml)、15mMMgCl2(150μl)、4mMmES(200μl)、ddH2O(2.15ml);
40%PEG,包括:以1.5ml为例,PEG4000(0.6g)、0.2Mmannitol(0.375ml)、0.1MCaCl2(0.15ml)、用ddH2O定容至1.5ml;
WI,包括:以5mL为例,20mM KCl(0.5mL)、0.5M mannitol(3.125mL)、4mM mES(0.2mL)和ddH2O(1.175mL);
水稻原生质体的提取和转化;其包括:
配制酶解液,将酶解液倒到大小合适干净的培养皿中;将暗培养12~18天的黄化苗取出,将叶鞘浸在0.6mmannitol中,用锋利的刀片快速切割叶鞘成1mm以下的小段,不要撕扯;取黄化苗叶鞘用10mL酶解液酶解,叶鞘切完毕,泡在酶解液中,抽真空30min,使大部分叶鞘下沉到酶解液底部。将酶解液用锡纸包被以避光,放置在28℃,40~50rpm的摇床上,酶解4~5小时;从真空箱中取出酶解液,轻轻摇晃30秒,在水平摇床上以80rpm速度释放原生质体。加入10mL W5后,继续释放10min。1~2mL W5润洗筛网,并将酶解液过滤至50mL离心管中,用20mL W5清洗酶解液,并再次释放5~10min,过滤至另一个50mL离心管中;100g加速度,室温离心过滤5min,转头JS-5.3,加速减速slow,慢慢吸取上清,不要将所有上清液吸走;加入4mL W5悬浮原生质体,轻轻晃动摇散原生质体,暗室室温静置60~90min;100g加速度,室温离心5min,小心吸走上清,保持离心管底部黄绿色沉淀不晃动,大概管底留有0.5~1mL左右液体。并吸取50μL原生质体悬浮液并计数,加入若干MMG,重新悬浮原生质体,调整原生质体浓度0.5~1×107/mL。并观察细胞形态,此刻细胞应较圆、亮、大、多,则继续往下做;将10~20μg质粒稀释到10μL,加入100μL原生质体悬浮液。轻轻摇晃混匀后,加入110μLPEG-CaCl2溶液,轻弹混匀。在室温下放置10~15min;加入440μL W5溶液,上下颠倒以停止转化;200g加速度,室温离心5min,期间用5%小牛血清处理24孔培养板。弃去上清,加入0.5mL WI溶液,重悬原生质体,并将其转移到培养板中。培养板中预先加入300μL WI;室温暗培养15h,以室温,以200g转速,加速、减速加速度为2,离心10min。吸走上部液体,仅留底部200μL细胞。轻轻混匀,在Confocal下观察荧光;
其中所用试剂配方如下:
酶解液,包括:以10ml为例,0.6Mmannitol(7.5ml)、10mMmES(pH5.7)(1ml)、Cellμlose RS(1.5%)(0.15g)、Macerozyme(0.75%)0.075g,搅拌溶解,55℃加热10min,自然冷却,再加入试剂S,试剂S包括:0.1%BSA(0.01g)、1mM CaCl2(10μl)、β-巯基乙醇(3μl)、用ddH2O定溶至1.5ml;
W5,包括:以100ml为例,154mM NaCl(10ml)、125mM CaCl2(12.5ml)、5mM KCl(2.5ml)、2mMmES(pH5.7)(2ml)、用ddH2O定容至100ml;
MMG,包括:以10ml为例,0.6m mannitol(7.5ml)、15mM MgCl2(0.3ml)、4mM mES(pH5.7)(0.4ml),用ddH2O定容至10ml;
PEG4000-CaCl2,包括:以10ml为例,40%PEG4000(4g)、0.8m mannitol(5.5ml),置于55度,孵育1h以上,加100mM CaCl2(1ml)加ddH2O定溶至10ml;
WI,包括:以10mL为例,0.6M mannitol(7.5mL)、4mM mES(pH5.7)(0.4mL)、4mM KCl(0.2mL),用ddH2O定溶至10mL。
转录因子瞬时表达的细胞进行CUT&Tag
在获得了植物转录因子瞬时表达的细胞后,直接进行不依赖于细胞核提取的CUT&Tag实验。细胞不需要进行细胞的交联、细胞核的提取、染色质的裂解以超声打断等处理步骤,而是在整个细胞的基础上利用特殊的试剂(如digitonin)对细胞膜和核膜进行穿透打孔,以保证抗体和pG-Tn5核心酶能够穿过细胞膜和核膜,与转录因子蛋白进行结合,从而对与转录因子特异结合的DNA片段进行切割以及添加测序接头。后续纯化产物经过PCR扩增后,即可产生用于高通量测序的DNA文库。具体步骤如下:
对于瞬时转化的原生质体细胞,要保证阳性转化率在80%以上,总的阳性细胞数目保证在105左右。细胞不需要进行细胞的交联、细胞核的提取、染色质的裂解以超声打断等处理步骤,直接进行如下的实验:
1、ConA beads处理:
取一支1.5mL低吸附的EP管,按照100μL/样本加入Binding Buffer;使用移液器轻轻重悬ConA beads,按照10μL ConA beads/样本取出ConA beads至EP管中,轻轻混合均匀,放于磁力架上,静置吸附(约2min),弃尽上清;加入100μL Binding Buffer/样本,轻轻混合均匀,离心2min,将反应液集中在管底;置于磁力架上,静置吸附(约2min),弃尽上清,按照10μL/样本加入Binding Buffer重悬beads。
2、细胞的收集:
室温下100g加速度低速离心3min,弃上清;室温条件下加入500μLBinding buffer重悬细胞,100g加速度低速离心3min,弃尽上清。
3、细胞与ConA beads孵育:
按照100μL/样本加入Wash Buffer重悬细胞,并将细胞转移至新1.5mL EP管中,一边低速涡旋混匀,一边加入处理好的ConA beads悬液,室温旋转孵育5~10min;离心2min,将反应液集中在管底,放于磁力架上,静置吸附(约2min),弃尽上清。
4、一抗孵育:
按照50μL/样本加入预冷的Antibody Buffer重悬细胞,轻轻混合均匀,置于冰上;参照抗体说明书推荐的免疫浓度向EP管中加入抗体,轻轻混合均匀;室温下旋转孵育2h。
5、二抗孵育:
离心2min,将反应液集中在管底,放于磁力架上,静置吸附(约2min),弃尽上清;用Dig-wash Buffer按照一定比例稀释二抗(常规推荐使用1:100比例稀释),每管样品中加入50μL稀释后的抗体,轻轻振荡,使抗体与ConA beads混合均匀;室温下旋转孵育30~60min;离心2min,将反应液集中在管底,放于磁力架上,静置吸附(约2min),弃尽上清;向EP管中加入800μL Dig-wash Buffer,上下颠倒10次或轻轻震荡混匀,确保Buffer与ConA beads充分混合;重复前两个步骤两次,最后一次洗涤后,请勿去除Dig-wash Buffer,防止ConA beads暴露在空气中过分干燥。
6、Hyperactive pG-Tn5/pA-Tn5 Transposon孵育:
将hyperactive pG-Tn5/pA-Tn5 Transposon与Dig-300 Buffer混合,终浓度为0.04μM,每个样品100μL(kit中提供的转座子的浓度为6.88μM,按照参考文献推荐的终浓度,每个样本加入0.58μL);离心2min,使二抗孵育后的反应液集中于管底,放于磁力架上,静置吸附(约2min),弃尽上清;每个样本加入100μ稀释好的Hyperactive pG-Tn5/pA-Tn5转座子混合物,轻轻涡旋,使转座子与ConA beads混合均匀;室温旋转孵育1h;离心2min,置于磁力架上,待磁珠吸附到管壁(约2min),弃尽上清;向EP管中加入800μL Dig-300 Buffer,上下颠倒10次或轻柔涡旋混匀,确保Buffer与ConA beads充分混合;重复前两个步骤两次。
7、DNA片段化:
离心2min,置于磁力架上,待磁珠吸附到管壁(约2min),弃尽上清;向EP管中加入300μL Tagmentation Buffer,用移液器轻轻混合均匀;37℃孵育1h。
8、DNA提取:
室温下,每个反应中加入10μL 0.5m EDTA,3μL 10%SDS和2.5μL20mg/mLProteinase K,终止片段化反应;轻轻涡旋混合均匀后,离心2min,将液体集中于管底,50℃孵育1h(或者37℃孵育过夜);向EP管中加入150μL Tris饱和酚和150μL氯仿,高速振荡2sec。(4)16,000r/min,室温离心5min;取上层水相到新的EP管中,加入300μL氯仿,上下颠倒10次(请勿涡旋振荡);16,000r/min,室温离心3min;吸取上层水相至含有750μL 100%乙醇的EP管中,吹打混匀,置于冰上;冰上冷却后,4℃16,000r/min,离心15min;用移液器沿液面缓慢吸取,小心弃尽液体;向EP管中加入1mL 100%乙醇漂洗,4℃16,000r/min离心1min;用移液器沿液面缓慢吸取,小心弃尽液体后,在空气中晾干;待EP管干燥后,加入25-30μL1XTE,将样本于-30~-15℃下储存或直接进行PCR扩增。
9、文库扩增:
在灭菌的PCR管中配置以下几个组分,如表1所示:
表1
组分 | 体积 |
纯化后的片段化DNA | 24μL |
ddH2O | 5μL |
5×TAB | 10μL |
P5 Primer X* | 5μL |
P7 Primer X* | 5μL |
TAE | 1μL |
总体积 | 50μL |
使用移液器轻轻吹打混匀,在PCR仪中进行如下反应:Step 1:58.0℃5min;Step2:72.0℃5min;Step 3:98.0℃45sec;Step 4:98.0℃15sec;60.0℃10sec;72.0℃10sec;循环step 4 15~20次;Step 5:72.0℃10min;Step 6:25.0℃10sec。
PCR产物纯化(Kapa磁珠两步分选0.6X~0.9X):PCR产物取3μL,利用1.5%的琼脂糖胶检测(只要看到模糊的条带,就可以进行下步纯化实验);根据PCR产物体积先加0.6X的Kapa磁珠(提前半个小时平衡至室温),吸打混匀,放置15分钟;放于磁力架上5分钟,转移上清液体至新的离心管中(此步不要磁珠,因为吸附了大片段),加0.3X的Kapa磁珠,吸打混匀,放置15分钟;放于磁力架上5分钟,吸去上清,保留磁珠(此步磁珠吸附的是小片段),用80%的乙醇(现配)洗两遍;室温晾干(5分钟,不可过分干燥),加无DNAase和RNAase的水溶解5分钟;放于磁力架上5分钟,吸取上清至新的离心管中,送样安诺公司进行ChIP-seq测序(测序平台Novaseq,玉米测序数据量为6G/样,水稻测序数据量为3G/样)。
tsCUT&Tag的数据分析
(1)利用trimmomatic软件将测序原始数据去除测序接头,其中参数为:ILLμmINACLIP:TruSeq3-SE:2:30:10LEADING:3TRAILING:3SLIDINGWINDOW:4:15MINLEN:50;
利用bowtie2软件与参考基因组进行比对,利用samtools软件保留MAPQ大于30的数据(samtools view–b–q 30),去除多重比对和重复,从而得到与参考基因组唯一匹配的reads。
(2)利用MACS2软件进行peak calling(--p 5),使用对照样品去除背景。
(3)通过bedtools getfasta软件提取峰顶上下游50bp的序列,使用meme-chip软件进行motif分析,其中参数为:-meme-mod anr-meme-minw 4-meme-maxw 15-meme-nmotifs 10-meme-p 8。
tsCUT&Tag结果与分析:
为了验证tsCUT&Tag技术的有效性以及优越性,本申请实施例选取了ZmKNOX6、ZmTB1和OsIPA1三个转录因子,获取了tsCUT&Tag数据,并与已经报道的基于提取细胞核的ChIP-seq的数据进行比较分析。
1、ZmKNOX6 tsCUT&Tag数据与基于细胞核提取的tChIP-seq的比较分析
为了评估tsCUT&Tag数据的质量和有效性,本申请实施例系统比较了ZmKNOX6的不基于细胞核提取的tsCUT&Tag数据与基于细胞核提取的tChIP-seq数据。
如表2所示,ZmKNOX6的tsCUT&Tag数据(KNOX-3和KNOX-4)的非重复序列的比例(13.32%)高于ZmKNOX6的tChIP-seq数据(KNOX-1和KNOX-2)非重复序列的比例(8.24%)。tsCUT&Tag鉴定到的ZmKNOX6结合的峰(17,903)和调控基因数目(12,233)与tChIP-seq鉴定到的峰(20,225)和调控基因数目(13,381)也没有表现出显著差异。
表2
如图2A所示,tsCUT&Tag数据与tChIP-seq的数据相关性在0.74~0.75之间,表现出较高的相关性和重复性;如图2B所示,tsCUT&Tag数据的有效性指标FRiP(fraction ofreads in peaks)高于tChIP-seq;如图2C所示,利用tsCUT&Tag鉴定到的ZmKNOX6的下游基因与用tChIP-seq鉴定到的下游调控基因的重叠率在75~80%。
以上结果表明,tsCUT&Tag与tChIP-seq具有较好或者相当的数据质量,进一步证明了不依赖于细胞核提取的tsCUT&Tag的具有较高的数据有效性以及可靠性。
2、ZmTB1和OsIPA1 tsCUT&Tag与ChIP-seq数据的比较分析
为了比较tsCUT&Tag与ChIP-seq数据的可靠性,本申请实施例选择了两个知名的转录因子,一个是玉米的ZmTB1基因,另一个是水稻的OsIPA1基因。利用tsCUT&Tag技术,本申请实施例中分别在玉米和水稻的原生质体中产生了TB1和IPA1的结合位点数据,并与已经发表的ChIP-seq数据进行了比较分析(Lu et al 2013;Dong et al 2019)。
如表3所示,TB1的ChIP-seq的数据量是tsCUT&Tag的4倍,去除重复的序列的比例在35%左右,而tsCUT&Tag数据去除重复序列的比例在12%左右,tsCUT&Tag比ChIP-seq鉴定出更少的结合位点和下游调控基因。
表3
如图3A所示,TB1的tsCUT&Tag与ChIP-seq数据的相关性在0.77;如图3C所示,两者共同调控下游基因占tsCUT&Tag的53%;如图3D所示,利用tsCUT&Tag同样鉴定出已经报道TB1的两个已知的基序序列;如图3E所示,与ChIP-seq相比,tsCUT&Tag数据在转录起始位点的信号强度更高,信噪比更高;如图4A所示,tsCUT&Tag鉴定到TB1调控的三个下游基因的峰更集中。
同样的,本申请实施例在比较水稻转录因子IPA1数据的时候,发现了类似的规律。IPA1ChIP-seq数据的数据量更大,去除重复的序列的比例在55~73%左右,而tsCUT&Tag去除重复的序列所占的比例在15%左右,如表4所示。
表4
如图3B所示,IPA1的tsCUT&Tag与ChIP-seq数据的相关性在0.78;如图3D所示,利用tsCUT&Tag同样鉴定出已经报道的IPA1结合的下游基序;如图3C所示,两者共同调控下游基因占tsCUT&Tag的50%;如图3E所示,与ChIP-seq相比,tsCUT&Tag数据在转录起始位点的信号强度更高,信噪比更高;如图4A所示,tsCUT&Tag鉴定到IPA1调控的三个下游基因的峰更集中。
从以上结果,说明tsCUT&Tag与ChIP-seq数据相比,具有更高的信噪比和更低的背景值。如图4B所示,通过对tsCUT&Tag和ChIP-seq抽取不同的数据量进行分析数据的有效性,发现在不同的数据量下,tsCUT&Tag数据的有效性均高于ChIP-seq。因此,在获得等量有效数据的目的下,tsCUT&Tag所需要的测序数据量更少,测序成本更低。
预测植物体内转录因子结合位点
基于tsCUT&Tag和植物不同组织ATAC-seq数据(本申请实施例利用的是KNOX6的tsCUT&Tag数据,以及玉米黄化苗和绿色苗的ATAC-seq数据),利用三种不同深度学习的模型(长短期记忆递归神经网络LSTM,时域卷积网络TCN和支持向量机SVM),通过对KNOX6黄化苗tsCUT&Tag数据以及黄化苗和绿色苗两个组织的ATAC-seq数据的学习,来预测KNOX6在玉米绿色叶片组织中的转录结合位点。具体方法如下:
1、建模训练集:在染色质开放区域(ATAC-seq)的结合峰(tsCUT&Tag)的上下游100bp,共200bp,属性定义为1;染色质开发区域不存在峰的结合区域,属性定义为0。将序列和属性存入一个csv格式文件,为train.csv;运行下述程序。
2、基于训练模型预测其他组织开放染色质区域序列(ATAC-seq)中的转录结合位点。开放染色质区域序列为输入,存入一个csv格式文件,为predict-goodATAC.csv;运行下述程序。
3、预测结果:输出文件(见./resμLt/goodatacout.csv)包含两列,第二列是TFBS有无,1为绑定,0为不绑定。如果存在TFBS,则第一列为绑定TFBS的位置(site=start+第一列*100)。最后,得到TFBS位置。
4、结果与分析
基于深度学习预测ZmKNOX6在植物不同组织结合位点的比较分析结果:
为了解析转录因子在不同组织中动态的调控网络,本申请实施例开发了一种基于tsCUT&Tag数据和ATAC-seq数据的深度学习模型,如图5A所示,用来提高转录因子在不同组织中的结合位点的预测精度。如图6所示,以ZmKNOX6为例,在玉米黄化叶片中,ATAC-seq和tsCUT&Tag有72~80%的重叠序列;在玉米绿色叶片中,ATAC-seq与tChIP-seq有55~61%的重复序列;在黄化和绿色叶片中,二者重复位点仅占全部位点的51~65%,说明ZmKNOX6在玉米黄化和绿色叶片组织中的结合位点存在着一定的差异。
基于玉米黄化叶片中的ATAC-seq和tsCUT&Tag数据,分别利用LSTM,TCN和SVM进行深度学习和训练,预测绿色叶片组织中的ZmKNOX6的结合位点。如图5B所示,深度学习模型的准确度高达0.91~0.94,其中SVM预测的准确度最高;如图5C所示,任意两种深度学习预测的基因的重叠率在73%以上;如图5D所示,经过TCN深度学习获得结合位点的预测准确度(68%)较未经过深度学习的预测准确度(黄化苗tsCUT&Tag与绿色苗ATAC-seq的重叠基因)(62%)有显著提高(p-value=1.9e-4),说明经过深度学习可以显著提高转录因子ZmKNOX6在绿色组织中结合位点的准确度。因此,结合深度学习的tsCUT&Tag技术有很大潜力应用于构建植物全生育期的转录调控网络。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。
Claims (7)
1.一种鉴定植物体内转录因子结合位点的方法,其包括以下步骤:
转录因子与绿色荧光蛋白GFP进行融合,获得转录因子瞬时表达的细胞;
对转录因子瞬时表达的细胞进行CUT&Tag操作,获得与转录因子特异结合的DNA文库;以及
分析所述DNA文库的数据,获得转录因子结合位点信息。
2.根据权利要求1所述的方法,其中所述获得转录因子瞬时表达的细胞的过程包括以下步骤:
构建转录因子瞬时表达载体,并转化至感受态细胞;
从感受态细胞中提取表达载体;以及
原生质体的提取和转化。
3.根据权利要求1所述的方法,其中所述CUT&Tag操作包括:
将转录因子瞬时表达的细胞溶液进行刀豆蛋白A磁珠处理,收集细胞;
细胞与刀豆蛋白A磁珠的孵育;
孵育第一抗体和第二抗体;所述第一抗体与转录因子结合,所述第二抗体与所述第一抗体结合;
孵育pA/pG-Tn5转座子;
激活转座子,进行DNA片段化;
文库扩增与纯化。
4.根据权利要求1所述的方法,其中,所述分析所述DNA文库的数据的过程包括:
通过所述DNA文库的原始测序数据,得到与参考基因组匹配的reads;
通过与参考基因组匹配的reads得到去除背景的reads;
分析去除背景的reads,获得转录因子结合位点信息。
5.一种预测植物体内转录因子结合位点的方法,其包括:
建立深度学习模型;并针对第一植物组织的转录因子的tsCUT&Tag数据和第二植物组织的ATAC-seq数据进行学习;
基于深度学习模型预测第二植物组织开放染色质区域序列中的转录结合位点;以及
预测结果输出。
6.根据权利要求5所述的方法,其中所述深度学习模型为长短期记忆递归神经网络;其中用于构建模型的训练集划分方法为:在染色质开放区域的结合峰的上下游100bp,共200bp,属性定义为1;染色质开发区域不存在峰的结合区域,属性定义为0。
7.权利要求1~4任一项所述方法和/或权利要求5或6任一项所述方法在鉴定和/或预测植物体内转录因子结合位点的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210917811.2A CN116024321B (zh) | 2022-08-01 | 2022-08-01 | 一种鉴定植物体内转录因子结合位点的方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210917811.2A CN116024321B (zh) | 2022-08-01 | 2022-08-01 | 一种鉴定植物体内转录因子结合位点的方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116024321A true CN116024321A (zh) | 2023-04-28 |
CN116024321B CN116024321B (zh) | 2023-12-01 |
Family
ID=86080174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210917811.2A Active CN116024321B (zh) | 2022-08-01 | 2022-08-01 | 一种鉴定植物体内转录因子结合位点的方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116024321B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116751792A (zh) * | 2023-08-14 | 2023-09-15 | 中国农业科学院生物技术研究所 | 一种转录因子下游基因筛选方法 |
CN118016154A (zh) * | 2023-12-08 | 2024-05-10 | 广州基迪奥生物科技有限公司 | 一种融合转座酶建库的DAP-seq实验方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006211979A (ja) * | 2005-02-04 | 2006-08-17 | Kazushi Imai | 転写因子の標的遺伝子検出方法 |
US20080125328A1 (en) * | 1999-09-01 | 2008-05-29 | John Wyrick | Genome wide location and function of DNA binding proteins |
US20150067923A1 (en) * | 2013-08-13 | 2015-03-05 | New York University | Transgenic Plants And A Transient Transformation System For Genome-Wide Transcription Factor Target Discovery |
CN110699416A (zh) * | 2019-10-30 | 2020-01-17 | 华中农业大学 | 一种基于柑橘原生质体的高效检测蛋白质亚细胞定位方法 |
CN112553695A (zh) * | 2021-02-23 | 2021-03-26 | 翌圣生物科技(上海)有限公司 | 鉴定靶蛋白染色质结合图谱的快速建库方法 |
CN112646867A (zh) * | 2020-12-09 | 2021-04-13 | 安阳工学院 | 一种利用dna亲和蛋白测序鉴定棉花纤维发育时期转录因子结合元件的方法 |
CN113005145A (zh) * | 2021-03-09 | 2021-06-22 | 同济大学 | 不依赖于特异性抗体的捕获tf在全基因组上结合位点的方法 |
CN114427116A (zh) * | 2021-12-29 | 2022-05-03 | 北京林业大学 | 一种在全基因组水平上预测植物生长发育转录因子调控的下游靶基因的方法 |
CN114544925A (zh) * | 2021-11-22 | 2022-05-27 | 浙江省农业科学院 | 一种利用CUT&Tag技术鉴定植物中转录因子与染色质互作的试剂盒及方法 |
-
2022
- 2022-08-01 CN CN202210917811.2A patent/CN116024321B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080125328A1 (en) * | 1999-09-01 | 2008-05-29 | John Wyrick | Genome wide location and function of DNA binding proteins |
JP2006211979A (ja) * | 2005-02-04 | 2006-08-17 | Kazushi Imai | 転写因子の標的遺伝子検出方法 |
US20150067923A1 (en) * | 2013-08-13 | 2015-03-05 | New York University | Transgenic Plants And A Transient Transformation System For Genome-Wide Transcription Factor Target Discovery |
CN110699416A (zh) * | 2019-10-30 | 2020-01-17 | 华中农业大学 | 一种基于柑橘原生质体的高效检测蛋白质亚细胞定位方法 |
CN112646867A (zh) * | 2020-12-09 | 2021-04-13 | 安阳工学院 | 一种利用dna亲和蛋白测序鉴定棉花纤维发育时期转录因子结合元件的方法 |
CN112553695A (zh) * | 2021-02-23 | 2021-03-26 | 翌圣生物科技(上海)有限公司 | 鉴定靶蛋白染色质结合图谱的快速建库方法 |
CN113005145A (zh) * | 2021-03-09 | 2021-06-22 | 同济大学 | 不依赖于特异性抗体的捕获tf在全基因组上结合位点的方法 |
CN114544925A (zh) * | 2021-11-22 | 2022-05-27 | 浙江省农业科学院 | 一种利用CUT&Tag技术鉴定植物中转录因子与染色质互作的试剂盒及方法 |
CN114427116A (zh) * | 2021-12-29 | 2022-05-03 | 北京林业大学 | 一种在全基因组水平上预测植物生长发育转录因子调控的下游靶基因的方法 |
Non-Patent Citations (4)
Title |
---|
LEIMING WU等: "A cost-effective tsCUT&Tag method for profiling transcription factor binding landscape", 《J INTEGR PLANT BIOL》, vol. 64, no. 11, pages 2033 - 2038 * |
WEIZHI OUYANG 等: "Rapid and Low-Input Profiling of Histone Marks in Plants Using Nucleus CUT&Tag", 《FRONT PLANT SCI》, vol. 12, pages 67 - 10 * |
杨立文等: "植物转录因子与DNA互作研究技术", 《植物学报》, vol. 55, no. 04, pages 468 - 474 * |
陈桂芳等: "染色质免疫共沉淀测序技术研究进展", 《生物技术通报》, vol. 38, no. 7, pages 40 - 50 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116751792A (zh) * | 2023-08-14 | 2023-09-15 | 中国农业科学院生物技术研究所 | 一种转录因子下游基因筛选方法 |
CN116751792B (zh) * | 2023-08-14 | 2024-02-02 | 中国农业科学院生物技术研究所 | 一种转录因子下游基因筛选方法 |
CN118016154A (zh) * | 2023-12-08 | 2024-05-10 | 广州基迪奥生物科技有限公司 | 一种融合转座酶建库的DAP-seq实验方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116024321B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116024321B (zh) | 一种鉴定植物体内转录因子结合位点的方法及应用 | |
Page et al. | A high‐throughput transient expression system for rice | |
CN106318934B (zh) | 胡萝卜β(1,2)木糖转移酶的基因全序列及用于转染双子叶植物的CRISPR/CAS9的质粒构建 | |
DK168302B1 (da) | Fremgangsmåde til indføring af molekyler, især genetisk materiale i planteceller | |
Roberts et al. | Knocking out the wall: protocols for gene targeting in Physcomitrella patens | |
CN107267549A (zh) | 一种中山杉品种406叶肉原生质体分离、纯化及高效转化的方法 | |
CN105543281B (zh) | 一种利用方波电击进行莱茵衣藻高效建库的方法 | |
Wang et al. | A highly efficient mesophyll protoplast isolation and PEG-mediated transient expression system in eggplant | |
CN102753705A (zh) | 分离核酸物质的方法和材料 | |
CN115820718A (zh) | 一种莱茵衣藻叶绿体中附加体质粒的构建方法及其应用 | |
CN111718887A (zh) | 一种用于分离花生不同组织器官原生质体的方法及其应用 | |
CN114276417B (zh) | 一种在植物正常生理条件下鉴定全基因组dna鸟嘌呤四联体位点的方法 | |
CN115161388A (zh) | 一种基于细菌的CUT&Tag测序建库方法 | |
CN108642166B (zh) | 利用梨花粉单细胞进行基因组单倍型组装的方法 | |
CN108754019B (zh) | 一种猪流行性腹泻病毒orf1基因全序列的扩增方法 | |
CN112481218A (zh) | 基于CRISPR/Cas9基因编辑系统敲除猪miR-155基因的细胞系及构建方法 | |
CN110656205A (zh) | 检测百香果木质化病毒病的rt-pcr引物组、试剂盒及其应用 | |
CN117802203B (zh) | 一种基于crispr技术降低福尔马林固定石蜡包埋样本中宿主核酸占比的方法及其试剂盒 | |
Yuan et al. | Use of fluorescent protein reporters for assessing and detecting genome editing reagents and transgene expression in plants | |
CN105002217A (zh) | 用于制备永生化细胞的转座子载体、系统及其使用方法 | |
Dong et al. | The use of FISH in chromosomal localization of transgenes in rice | |
Rakotondrafara et al. | Preparation and electroporation of oat protoplasts from cell suspension culture | |
CN111455021B (zh) | 去除宏基因组中宿主dna的方法及试剂盒 | |
CN114410813B (zh) | 一种在全基因组水平鉴定植物基因组dna胞嘧啶四联体位点的方法 | |
CN102388142A (zh) | 启动子元件中AT(n)插入在控制植物编码序列的表达水平中的用途 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |