CN116024321A

CN116024321A - 一种鉴定植物体内转录因子结合位点的方法及应用

Info

Publication number: CN116024321A
Application number: CN202210917811.2A
Authority: CN
Inventors: 李林; 吴雷明; 罗姿; 史燕妮; 江宜哲; 李若楠; 苗馨心
Original assignee: Huazhong Agricultural University
Current assignee: Huazhong Agricultural University
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2023-04-28
Anticipated expiration: 2042-08-01
Also published as: CN116024321B

Abstract

本申请公开了一种鉴定植物体内转录因子结合位点的方法及应用，该方法为tsCUT&Tag，其步骤包括：构建转录因子瞬时表达的细胞；对转录因子瞬时表达的细胞进行CUT&Tag操作，获得与转录因子特异结合的DNA文库；以及分析DNA文库数据获得转录因子结合位点信息。该方法在传统的CUT&Tag技术上，结合了植物原生质体瞬时转化技术，不依赖于植物细胞核的提取、交联、打断等步骤，准确性高且更加节约时间，在一定程度上实现了高通量。本申请还公开了一种利用深度学习模型预测转录因子在不同组织的调控图谱，开发了基于多组数据的深度学习策略，经过机器学习可以显著提高转录因子结合位点的预测精度。

Description

一种鉴定植物体内转录因子结合位点的方法及应用

技术领域

本申请涉及生物技术领域，尤其涉及一种鉴定植物体内转录因子结合位点的方法及应用。

背景技术

在几乎所有的细胞生命活动中，例如DNA复制，基因的表达、调控、重组和修复，RNA转录、翻译、修饰等都涉及到DNA与蛋白质之间的相互作用。转录因子是一群能与基因5`端上有特定序列专一性结合，从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子，转录因子结合位点是与转录因子结合的DNA片段。针对植物来说，开发高通量鉴定转录因子结合位点的技术对于解析作物重要性状的转录调控机制具有重要的生物学意义。

染色质免疫沉淀技术(ChIP-seq)是体内全基因组水平鉴定转录因子结合位点的经典方法，但是需要稳定转化的转基因植株或者纯化高质量特异性的抗体，步骤繁琐，耗时长，背景较高；ChIP-seq在应用于大规模转录因子研究时，也无法实现高通量，成本较高。DNA亲和纯化测序技术(DAP-seq)可以实现在体外高通量全基因组水平鉴定转录因子调控位点，但是局限在无法研究转录因子互作对下游基因的调控机制，一定程度上也无法真实反映体内转录因子与DNA的互作。近些年，利用植物瞬时表达的ChIP-seq技术，为高通量表达转录因子蛋白和绘制转录调控网络提供了一个快速的方法(Wang et al 2021)，但是也仅限于特定组织的研究。因此，急需开发一套高效低成本高通量的体内鉴定转录因子结合位点的技术体系，来真实反应转录因子与DNA的互作，系统构建转录因子与DNA在体内的互作全景。

近些年，生物体内CUT&Tag(Cleavage under targets and tagmentationmethod，靶向剪切及转座酶技术)被成功开发出来，用于表征体内的表观修饰和基因表达调控。CUT&Tag的基本原理是在抗体引导下，ChiTag酶(Protein A蛋白与Tn5转座酶的融合蛋白)仅在目的组蛋白修饰标志、转录因子或染色质调控蛋白结合染色质的局部进行目的DNA的片段化，同时添加测序接头进行高通量测序(Kaya-Okur et al 2019)。CUT&Tag与传统的ChIP-Seq研究方法相比，无需交联、超声打断、末端抹平和接头连接等操作，具有省时高效、所需的样品量少、背景信号低和可重复性好等优点。但是由于植物细胞壁的存在，一定程度上限制了CUT&Tag在植物当中的应用。尽管基于细胞核提取的CUT&Tag技术已成功用于植物组蛋白修饰位点的高通量鉴定(Tao et al 2020；Ouyang et al 2021)，但是CUT&Tag技术能否用于植物体内转录因子结合位点的研究有待验证，以及一套适用于植物体内高通量低成本鉴定转录因子结合位点的方法还有待进一步开发。

发明内容

有鉴于此，本申请的目的是为了解决高通量研究植物体内转录因子结合位点技术的不足，其解决方案是在传统的CUT&Tag技术上，结合了植物原生质体瞬时转化技术，开发了不依赖于细胞核提取的tsCUT&Tag(transient and simplified CUT&Tag)技术，其具体的技术方案如下：

第一方面，本申请实施例公开了一种全新的鉴定植物体内转录因子结合位点的方法，所述方法包括以下步骤：

转录因子与绿色荧光蛋白GFP进行融合，获得转录因子瞬时表达的细胞；

对转录因子瞬时表达的细胞进行CUT&Tag操作，获得与与转录因子特异结合的DNA文库；以及

分析所述DNA文库的数据，获得转录因子结合位点信息。

进一步地，所述获得转录因子瞬时表达的细胞的过程包括以下步骤：

构建转录因子瞬时表达载体(质粒)，并转化至感受态细胞；

从感受态细胞中提取质粒；以及

原生质体的提取和转化。

进一步地，所述CUT&Tag操作包括：

将转录因子瞬时表达的细胞溶液进行刀豆蛋白A磁珠(ConA beads)处理，收集细胞；

细胞与ConA beads的孵育；

孵育第一抗体和第二抗体；所述第一抗体与目标蛋白(转录因子)结合，所述第二抗体与所述第一抗体结合；

孵育pA/pG-Tn5转座子(Hyperactive pG-Tn5/pA-Tn5 Transposon)；激活转座子，进行DNA片段化；以及

文库扩增与纯化。

进一步地，所述分析所述DNA文库的数据的过程包括：

(1)通过所述DNA文库原始测序数据，得到与参考基因组唯一匹配的reads；

(2)通过与参考基因组唯一匹配的reads得到去除背景的reads；

(3)分析去除背景的reads，获得转录因子结合位点信息。

第二方面，本申请提供了一种预测植物体内转录因子结合位点的方法，其包括：

建立深度学习模型；并针对第一植物组织的转录因子的tsCUT&Tag数据和第二植物组织的ATAC-seq数据进行学习；

基于深度学习模型预测第二植物组织开放染色质区域序列(ATAC-seq)中的转录结合位点；以及

预测结果输出。

进一步地，所述深度学习模型为长短期记忆递归神经网络，其中用于构建模型的训练集划分方法为：在染色质开放区域(ATAC-seq)的结合峰(tsCUT&Tag)的上下游100bp，共200bp，属性定义为1；染色质开发区域不存在峰的结合区域，属性定义为0。

第三方面，第一方面所述方法和/或第二方面所述方法在鉴定和/或预测植物体内转录因子结合位点的应用。

与现有技术相比，本申请至少具有以下有益效果：

本申请中涉及一种鉴定植物体内转录因子结合位点的方法及应用，所述方法为tsCUT&Tag，较传统的ChIP-seq至少具有以下优点：

1、tsCUT&Tag是基于原生质体瞬时转化的技术，可以一定程度上实现高通量。此外，将转录因子与绿色荧光蛋白融合在植物体内进行瞬时表达，方便后续利用商业化的GFP抗体进行免疫反应，因此无需制备转录因子特异性的抗体，节约前期材料和抗体制备的时间和花费。

2、tsCUT&Tag不依赖于植物细胞核的提取、交联、打断等步骤，更加节约时间，同时与基于细胞核提取的tChIP-seq具有较高或等同数据质量。

3、tsCUT&Tag与传统的ChIP-seq相比具有较高的信号强度和信噪比，在获取等同有效数据量的前提下，所需的测序深度更低，更加节约成本。

4、为了预测转录因子在不同组织的调控图谱，本申请开发了基于多组学数据的深度学习策略。深度学习的准确性高达0.85，经过机器学习可以显著提高转录因子结合位点的预测精度。

因此，tsCUT&Tag技术在高通量低成本绘制植物整个生育期不同组织转录因子调控图谱上具有很大的应用潜力。

附图说明

图1为本申请实施例提供的tsCUT&Tag的技术流程图。

图2为本申请实施例提供的玉米转录因子KNOX6 tsCUT&Tag数据与tChIP-seq数据的比较分析图；其中A为tsCUT&Tag数据与tChIP-seq数据的相关性，B为tsCUT&Tag数据与tChIP-seq数据有效性指标对比，C为tsCUT&Tag与用tChIP-seq鉴定到的下游基因重叠率。

图3为本申请实施例提供的TB1和IPA1基因ChIP-seq与tsCUT&Tag数据的比较分析图；其中A和B分别为TB1和IPA1tsCUT&Tag数据与tChIP-seq数据的相关性，C为共同调控下游基因占比，D为tsCUT&Tag鉴定出的TB1和IPA1基因的两个已知的基序序列，E为转录起始位点的信号强度与信噪比对比。

图4为本申请实施例提供的TB1和IPA1基因ChIP-seq与tsCUT&Tag测序深度的比较分析；其中A为鉴定的下游基因的峰值比较，B为有效性对比。

图5为本申请实施例提供的利用深度学习提高KNOX6在绿色叶片组织中的转录结合位点的预测准确度；其中A为基于深度学习模型提高转录因子在不同组织中的结合位点的预测模型，B为三种深度学习模型的准确度，C为三种不同深度学习预测靶基因的重叠率分析，D为经过深度学习和未经过深度学习预测转录因子结合位点准确性对比。

图6为本申请实施例提供的KNOX6在黄化叶片和绿色叶片的调控基因的重叠分析。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合实施例对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例将围绕图1所示的tsCUT&Tag的技术流程图进行展开。

构建转录因子瞬时表达的细胞

本申请实施例通过利用植物瞬时表达载体pM999-GFP将转录因子与绿色荧光蛋白GFP进行融合，得到融合表达的重组载体，并将其转化到原生质体细胞中，得到阳性转化子，不仅有利于观察转录因子的亚细胞定位情况，还便于获取融合GFP的转录因子蛋白，也有利于通过GFP抗体进行免疫检测。

在一些实施方式中，构建转录因子瞬时表达的细胞的方法包括：构建转录因子瞬时表达的重组载体，将其转入DH5ɑ感受态细胞，筛选阳性菌落，提取重组载体，提取原生质体细胞，将所述重组载体转入所述原生质体细胞中，筛选得到阳性转化子。

在一个实施例中，“构建转录因子瞬时表达的重组载体，将其转入DH5ɑ感受态细胞，筛选阳性菌落”的步骤如下：设计扩增转录因子CDS序列(coding sequence)的引物，其中F端引物从基因的ATG开始，设计18bp左右的引物序列，同时添加序列如SEQ ID NO:1所示的第一重组位点；R端引物不包含终止密码子，设计18bp左右的反向互补序列，同时添加序列如SEQ ID NO:2所示重组位点，回收扩增产物，与用XbaI酶切后的PM999-GFP载体进行重组反应，转化至DH5ɑ感受态细胞，进行筛选和测序，即可得到阳性菌落。

在一些实施方式中，为了获得高浓度无内毒素质粒用于原生质体的瞬时转化，本申请实施例公开一种“提取重组载体”的方法，得到的质粒无内毒素，浓度高，十分有利于后续的原生质体转化，“提取重组载体”的方法包括：将阳性菌落进行培养，收集菌体，裂解破菌，去除内毒素处理，即可得到重组质粒。

一个具体实施例中，“提取重组载体”的方法具体包括：收集15mL阳性菌液，8000rpm离心5min，收集菌体；向收集的菌体中加入预冷的solution I，剧烈振荡至菌体完全融解；加入2mL solution II，混匀，冰浴3～5min；加入1.5mL预冷的solution III，温和振荡10s保证solution III在粘稠的细菌裂解物中分布均匀，冰浴5～10min，12000rpm离心5min，吸取上清加入预冷的两倍体积的乙醇或2/3体积的异丙醇，混匀后于冰上放15～20min；12000rpm离心10min，取沉淀，加入1mL 75％乙醇，轻轻弹洗沉淀(质粒)，洗去盐分；12000rpm离心30s，吸去乙醇，晾干质粒；晾干后，每管加入300μL的ddH₂O溶解；加入0.2mL去内毒素mix，37℃孵育30min；向溶解好的质粒中加入等体积的24：1(氯仿：异戊醇)，混匀后静置5min；12000rpm离心10min，取上清液加入两倍体积的无水乙醇和1/10体积的NaAc，混匀后，冰浴5min；12000rpm离心5min，取沉淀加入75％乙醇500μL，轻轻弹洗质粒，洗去盐分；12000rpm离心30s，吸去乙醇，晾干质粒；晾干后，每管加入500μL的ddH₂O溶解。

其中，试剂的配方如下：Solution I：50mM Tris-HCl(pH7.5)，10mM EDTA(pH8.0)，高压灭菌。Solution II：0.2m NaOH，1％SDS，现配，贮备液0.4m NaOH和2％SDS分开。Solution III：1.32m醋酸钾(pH4.8)，高压灭菌。去内毒素mix：0.1mL Tritonx-114，0.1mL6％SDS。

在一些实施方式中，“提取原生质体细胞”的步骤包括：从10天暗培养条件下玉米黄化叶片以及生长两周左右水稻苗期绿色叶鞘提取原生质体细胞。

在一个具体的实施例中，“提取原生质体细胞”的步骤包括：

材料的种植；其包括：

将进口土与蛭石1:1混合均匀，播种前，将土浇透；将B73种子埋入土里约2cm，培养箱28℃暗培养种植，期间浇水保持土壤湿润；待黄化苗生长10～11天，第二片叶完全舒展约12～15cm，可用于玉米制备原生质体；将NPB水稻种子脱壳，75％酒精杀菌，0.1％升汞消毒，接种于1/2mS培养基中，光/暗培养12～14d，幼苗用于水稻原生质体的制备；

玉米原生质体的提取与转化；其包括：

配10mL酶解液，并抽滤(0.45μm滤头)；切5～6片黄化苗叶片，选择第二片，并去掉叶片两头，将叶片切成1mm左右的细条，用平头镊子将细条放入酶解液中；抽真空30min，压强为30KPa，让酶解液渗入到组织内部；黑暗条件下，室温下摇床最低转速3～6h(不要超过6h，若时间过长，细胞会破裂)；加入等体积W5终止酶解反应，混匀，用细胞筛过滤(细胞筛需浸泡在95％乙醇中保存)；过细胞筛，将收集的细胞离心：25℃，100g加速度，2min，减速度和加速度都为2；去上清，尽量去掉所有液体，加入适量(4～5mL)预冷的W5，冰浴30min，吸取少量液体做镜检；冰浴后细胞自然沉降在底部，去掉上清，加入适量MMG重悬细胞，约1×106个/mL；将20μg质粒加入到2mL EP管中；加入100μL原生质体，轻弹混匀，约1×10⁵个/100μL；加入110μL 40％PEG，轻弹混匀；室温静置15min；加入440μLW5稀释，轻轻上下颠倒混匀；用水平转子，100g加速度，在室温条件下，离心2min(加速度和减速度调为2)；去掉上清，加入800μL W5，轻轻上下颠倒混匀；100g加速度，在室温条件下，离心2min(加速度和减速度调为2)；去掉上清，加入1mL WI，上下颠倒混匀，22℃暗培养12～16h；

其中试剂配方如下：

酶解液，包括：以5mL体系为例，包含1.5％CellμLose R10(0.075g)、0.5％macerozyme(0.025g)、0.4M manitol(2.5mL)、20mM KCl(0.5mL)、20mM mES(PH5.7)1mL(MES在用之前需70℃水浴2～3min)、10mM CaCl₂(50μL)和0.1％BSA(0.005g)55℃水浴10min，在冰上冷却至室温；

W5，包括：以50mL为例，154mM NaCl(5mL)、125mM CaCl₂(6.25mL)、5mM KCl(1.25mL)、2mM mES(1mL)、ddH₂O(36.5mL)；

MMG，包括：以5ml为例0.4Mmannitol(2.5ml)、15mMMgCl₂(150μl)、4mMmES(200μl)、ddH₂O(2.15ml)；

40％PEG，包括：以1.5ml为例，PEG4000(0.6g)、0.2Mmannitol(0.375ml)、0.1MCaCl₂(0.15ml)、用ddH₂O定容至1.5ml；

WI，包括：以5mL为例，20mM KCl(0.5mL)、0.5M mannitol(3.125mL)、4mM mES(0.2mL)和ddH₂O(1.175mL)；

水稻原生质体的提取和转化；其包括：

配制酶解液，将酶解液倒到大小合适干净的培养皿中；将暗培养12～18天的黄化苗取出，将叶鞘浸在0.6mmannitol中，用锋利的刀片快速切割叶鞘成1mm以下的小段，不要撕扯；取黄化苗叶鞘用10mL酶解液酶解，叶鞘切完毕，泡在酶解液中，抽真空30min，使大部分叶鞘下沉到酶解液底部。将酶解液用锡纸包被以避光，放置在28℃，40～50rpm的摇床上，酶解4～5小时；从真空箱中取出酶解液，轻轻摇晃30秒，在水平摇床上以80rpm速度释放原生质体。加入10mL W5后，继续释放10min。1～2mL W5润洗筛网，并将酶解液过滤至50mL离心管中，用20mL W5清洗酶解液，并再次释放5～10min，过滤至另一个50mL离心管中；100g加速度，室温离心过滤5min，转头JS-5.3，加速减速slow，慢慢吸取上清，不要将所有上清液吸走；加入4mL W5悬浮原生质体，轻轻晃动摇散原生质体，暗室室温静置60～90min；100g加速度，室温离心5min，小心吸走上清，保持离心管底部黄绿色沉淀不晃动，大概管底留有0.5～1mL左右液体。并吸取50μL原生质体悬浮液并计数，加入若干MMG，重新悬浮原生质体，调整原生质体浓度0.5～1×10⁷/mL。并观察细胞形态，此刻细胞应较圆、亮、大、多，则继续往下做；将10～20μg质粒稀释到10μL，加入100μL原生质体悬浮液。轻轻摇晃混匀后，加入110μLPEG-CaCl₂溶液，轻弹混匀。在室温下放置10～15min；加入440μL W5溶液，上下颠倒以停止转化；200g加速度，室温离心5min，期间用5％小牛血清处理24孔培养板。弃去上清，加入0.5mL WI溶液，重悬原生质体，并将其转移到培养板中。培养板中预先加入300μL WI；室温暗培养15h，以室温，以200g转速，加速、减速加速度为2，离心10min。吸走上部液体，仅留底部200μL细胞。轻轻混匀，在Confocal下观察荧光；

其中所用试剂配方如下：

酶解液，包括：以10ml为例，0.6Mmannitol(7.5ml)、10mMmES(pH5.7)(1ml)、Cellμlose RS(1.5％)(0.15g)、Macerozyme(0.75％)0.075g，搅拌溶解，55℃加热10min，自然冷却，再加入试剂S，试剂S包括：0.1％BSA(0.01g)、1mM CaCl₂(10μl)、β-巯基乙醇(3μl)、用ddH₂O定溶至1.5ml；

W5，包括：以100ml为例，154mM NaCl(10ml)、125mM CaCl₂(12.5ml)、5mM KCl(2.5ml)、2mMmES(pH5.7)(2ml)、用ddH₂O定容至100ml；

MMG，包括：以10ml为例，0.6m mannitol(7.5ml)、15mM MgCl₂(0.3ml)、4mM mES(pH5.7)(0.4ml)，用ddH₂O定容至10ml；

PEG4000-CaCl₂，包括：以10ml为例，40％PEG4000(4g)、0.8m mannitol(5.5ml)，置于55度，孵育1h以上，加100mM CaCl₂(1ml)加ddH₂O定溶至10ml；

WI，包括：以10mL为例，0.6M mannitol(7.5mL)、4mM mES(pH5.7)(0.4mL)、4mM KCl(0.2mL)，用ddH₂O定溶至10mL。

转录因子瞬时表达的细胞进行CUT&Tag

在获得了植物转录因子瞬时表达的细胞后，直接进行不依赖于细胞核提取的CUT&Tag实验。细胞不需要进行细胞的交联、细胞核的提取、染色质的裂解以超声打断等处理步骤，而是在整个细胞的基础上利用特殊的试剂(如digitonin)对细胞膜和核膜进行穿透打孔，以保证抗体和pG-Tn5核心酶能够穿过细胞膜和核膜，与转录因子蛋白进行结合，从而对与转录因子特异结合的DNA片段进行切割以及添加测序接头。后续纯化产物经过PCR扩增后，即可产生用于高通量测序的DNA文库。具体步骤如下：

对于瞬时转化的原生质体细胞，要保证阳性转化率在80％以上，总的阳性细胞数目保证在10⁵左右。细胞不需要进行细胞的交联、细胞核的提取、染色质的裂解以超声打断等处理步骤，直接进行如下的实验：

1、ConA beads处理：

取一支1.5mL低吸附的EP管，按照100μL/样本加入Binding Buffer；使用移液器轻轻重悬ConA beads，按照10μL ConA beads/样本取出ConA beads至EP管中，轻轻混合均匀，放于磁力架上，静置吸附(约2min)，弃尽上清；加入100μL Binding Buffer/样本，轻轻混合均匀，离心2min，将反应液集中在管底；置于磁力架上，静置吸附(约2min)，弃尽上清，按照10μL/样本加入Binding Buffer重悬beads。

2、细胞的收集：

室温下100g加速度低速离心3min，弃上清；室温条件下加入500μLBinding buffer重悬细胞，100g加速度低速离心3min，弃尽上清。

3、细胞与ConA beads孵育：

按照100μL/样本加入Wash Buffer重悬细胞，并将细胞转移至新1.5mL EP管中，一边低速涡旋混匀，一边加入处理好的ConA beads悬液，室温旋转孵育5～10min；离心2min，将反应液集中在管底，放于磁力架上，静置吸附(约2min)，弃尽上清。

4、一抗孵育：

按照50μL/样本加入预冷的Antibody Buffer重悬细胞，轻轻混合均匀，置于冰上；参照抗体说明书推荐的免疫浓度向EP管中加入抗体，轻轻混合均匀；室温下旋转孵育2h。

5、二抗孵育：

离心2min，将反应液集中在管底，放于磁力架上，静置吸附(约2min)，弃尽上清；用Dig-wash Buffer按照一定比例稀释二抗(常规推荐使用1:100比例稀释)，每管样品中加入50μL稀释后的抗体，轻轻振荡，使抗体与ConA beads混合均匀；室温下旋转孵育30～60min；离心2min，将反应液集中在管底，放于磁力架上，静置吸附(约2min)，弃尽上清；向EP管中加入800μL Dig-wash Buffer，上下颠倒10次或轻轻震荡混匀，确保Buffer与ConA beads充分混合；重复前两个步骤两次，最后一次洗涤后，请勿去除Dig-wash Buffer，防止ConA beads暴露在空气中过分干燥。

6、Hyperactive pG-Tn5/pA-Tn5 Transposon孵育：

将hyperactive pG-Tn5/pA-Tn5 Transposon与Dig-300 Buffer混合，终浓度为0.04μM，每个样品100μL(kit中提供的转座子的浓度为6.88μM，按照参考文献推荐的终浓度，每个样本加入0.58μL)；离心2min，使二抗孵育后的反应液集中于管底，放于磁力架上，静置吸附(约2min)，弃尽上清；每个样本加入100μ稀释好的Hyperactive pG-Tn5/pA-Tn5转座子混合物，轻轻涡旋，使转座子与ConA beads混合均匀；室温旋转孵育1h；离心2min，置于磁力架上，待磁珠吸附到管壁(约2min)，弃尽上清；向EP管中加入800μL Dig-300 Buffer，上下颠倒10次或轻柔涡旋混匀，确保Buffer与ConA beads充分混合；重复前两个步骤两次。

7、DNA片段化：

离心2min，置于磁力架上，待磁珠吸附到管壁(约2min)，弃尽上清；向EP管中加入300μL Tagmentation Buffer，用移液器轻轻混合均匀；37℃孵育1h。

8、DNA提取：

室温下，每个反应中加入10μL 0.5m EDTA，3μL 10％SDS和2.5μL20mg/mLProteinase K，终止片段化反应；轻轻涡旋混合均匀后，离心2min，将液体集中于管底，50℃孵育1h(或者37℃孵育过夜)；向EP管中加入150μL Tris饱和酚和150μL氯仿，高速振荡2sec。(4)16，000r/min，室温离心5min；取上层水相到新的EP管中，加入300μL氯仿，上下颠倒10次(请勿涡旋振荡)；16,000r/min，室温离心3min；吸取上层水相至含有750μL 100％乙醇的EP管中，吹打混匀，置于冰上；冰上冷却后，4℃16,000r/min，离心15min；用移液器沿液面缓慢吸取，小心弃尽液体；向EP管中加入1mL 100％乙醇漂洗，4℃16,000r/min离心1min；用移液器沿液面缓慢吸取，小心弃尽液体后，在空气中晾干；待EP管干燥后，加入25-30μL1XTE，将样本于-30～-15℃下储存或直接进行PCR扩增。

9、文库扩增：

在灭菌的PCR管中配置以下几个组分，如表1所示：

表1

组分	体积
		纯化后的片段化DNA	24μL
ddH₂O	5μL
		5×TAB	10μL
P5 Primer X*	5μL
		P7 Primer X*	5μL
TAE	1μL
		总体积	50μL

使用移液器轻轻吹打混匀，在PCR仪中进行如下反应：Step 1:58.0℃5min；Step2:72.0℃5min；Step 3:98.0℃45sec；Step 4:98.0℃15sec；60.0℃10sec；72.0℃10sec；循环step 4 15～20次；Step 5:72.0℃10min；Step 6:25.0℃10sec。

PCR产物纯化(Kapa磁珠两步分选0.6X～0.9X):PCR产物取3μL，利用1.5％的琼脂糖胶检测(只要看到模糊的条带，就可以进行下步纯化实验)；根据PCR产物体积先加0.6X的Kapa磁珠(提前半个小时平衡至室温)，吸打混匀，放置15分钟；放于磁力架上5分钟，转移上清液体至新的离心管中(此步不要磁珠，因为吸附了大片段)，加0.3X的Kapa磁珠，吸打混匀，放置15分钟；放于磁力架上5分钟，吸去上清，保留磁珠(此步磁珠吸附的是小片段)，用80％的乙醇(现配)洗两遍；室温晾干(5分钟，不可过分干燥)，加无DNAase和RNAase的水溶解5分钟；放于磁力架上5分钟，吸取上清至新的离心管中，送样安诺公司进行ChIP-seq测序(测序平台Novaseq，玉米测序数据量为6G/样，水稻测序数据量为3G/样)。

tsCUT&Tag的数据分析

(1)利用trimmomatic软件将测序原始数据去除测序接头，其中参数为：ILLμmINACLIP:TruSeq3-SE:2:30:10LEADING:3TRAILING:3SLIDINGWINDOW:4:15MINLEN:50；

利用bowtie2软件与参考基因组进行比对，利用samtools软件保留MAPQ大于30的数据(samtools view–b–q 30)，去除多重比对和重复，从而得到与参考基因组唯一匹配的reads。

(2)利用MACS2软件进行peak calling(--p 5)，使用对照样品去除背景。

(3)通过bedtools getfasta软件提取峰顶上下游50bp的序列，使用meme-chip软件进行motif分析，其中参数为：-meme-mod anr-meme-minw 4-meme-maxw 15-meme-nmotifs 10-meme-p 8。

tsCUT&Tag结果与分析：

为了验证tsCUT&Tag技术的有效性以及优越性，本申请实施例选取了ZmKNOX6、ZmTB1和OsIPA1三个转录因子，获取了tsCUT&Tag数据，并与已经报道的基于提取细胞核的ChIP-seq的数据进行比较分析。

1、ZmKNOX6 tsCUT&Tag数据与基于细胞核提取的tChIP-seq的比较分析

为了评估tsCUT&Tag数据的质量和有效性，本申请实施例系统比较了ZmKNOX6的不基于细胞核提取的tsCUT&Tag数据与基于细胞核提取的tChIP-seq数据。

如表2所示，ZmKNOX6的tsCUT&Tag数据(KNOX-3和KNOX-4)的非重复序列的比例(13.32％)高于ZmKNOX6的tChIP-seq数据(KNOX-1和KNOX-2)非重复序列的比例(8.24％)。tsCUT&Tag鉴定到的ZmKNOX6结合的峰(17,903)和调控基因数目(12,233)与tChIP-seq鉴定到的峰(20,225)和调控基因数目(13,381)也没有表现出显著差异。

表2

如图2A所示，tsCUT&Tag数据与tChIP-seq的数据相关性在0.74～0.75之间，表现出较高的相关性和重复性；如图2B所示，tsCUT&Tag数据的有效性指标FRiP(fraction ofreads in peaks)高于tChIP-seq；如图2C所示，利用tsCUT&Tag鉴定到的ZmKNOX6的下游基因与用tChIP-seq鉴定到的下游调控基因的重叠率在75～80％。

以上结果表明，tsCUT&Tag与tChIP-seq具有较好或者相当的数据质量，进一步证明了不依赖于细胞核提取的tsCUT&Tag的具有较高的数据有效性以及可靠性。

2、ZmTB1和OsIPA1 tsCUT&Tag与ChIP-seq数据的比较分析

为了比较tsCUT&Tag与ChIP-seq数据的可靠性，本申请实施例选择了两个知名的转录因子，一个是玉米的ZmTB1基因，另一个是水稻的OsIPA1基因。利用tsCUT&Tag技术，本申请实施例中分别在玉米和水稻的原生质体中产生了TB1和IPA1的结合位点数据，并与已经发表的ChIP-seq数据进行了比较分析(Lu et al 2013；Dong et al 2019)。

如表3所示，TB1的ChIP-seq的数据量是tsCUT&Tag的4倍，去除重复的序列的比例在35％左右，而tsCUT&Tag数据去除重复序列的比例在12％左右，tsCUT&Tag比ChIP-seq鉴定出更少的结合位点和下游调控基因。

表3

如图3A所示，TB1的tsCUT&Tag与ChIP-seq数据的相关性在0.77；如图3C所示，两者共同调控下游基因占tsCUT&Tag的53％；如图3D所示，利用tsCUT&Tag同样鉴定出已经报道TB1的两个已知的基序序列；如图3E所示，与ChIP-seq相比，tsCUT&Tag数据在转录起始位点的信号强度更高，信噪比更高；如图4A所示，tsCUT&Tag鉴定到TB1调控的三个下游基因的峰更集中。

同样的，本申请实施例在比较水稻转录因子IPA1数据的时候，发现了类似的规律。IPA1ChIP-seq数据的数据量更大，去除重复的序列的比例在55～73％左右，而tsCUT&Tag去除重复的序列所占的比例在15％左右，如表4所示。

表4

如图3B所示，IPA1的tsCUT&Tag与ChIP-seq数据的相关性在0.78；如图3D所示，利用tsCUT&Tag同样鉴定出已经报道的IPA1结合的下游基序；如图3C所示，两者共同调控下游基因占tsCUT&Tag的50％；如图3E所示，与ChIP-seq相比，tsCUT&Tag数据在转录起始位点的信号强度更高，信噪比更高；如图4A所示，tsCUT&Tag鉴定到IPA1调控的三个下游基因的峰更集中。

从以上结果，说明tsCUT&Tag与ChIP-seq数据相比，具有更高的信噪比和更低的背景值。如图4B所示，通过对tsCUT&Tag和ChIP-seq抽取不同的数据量进行分析数据的有效性，发现在不同的数据量下，tsCUT&Tag数据的有效性均高于ChIP-seq。因此，在获得等量有效数据的目的下，tsCUT&Tag所需要的测序数据量更少，测序成本更低。

预测植物体内转录因子结合位点

基于tsCUT&Tag和植物不同组织ATAC-seq数据(本申请实施例利用的是KNOX6的tsCUT&Tag数据，以及玉米黄化苗和绿色苗的ATAC-seq数据)，利用三种不同深度学习的模型(长短期记忆递归神经网络LSTM，时域卷积网络TCN和支持向量机SVM)，通过对KNOX6黄化苗tsCUT&Tag数据以及黄化苗和绿色苗两个组织的ATAC-seq数据的学习，来预测KNOX6在玉米绿色叶片组织中的转录结合位点。具体方法如下：

1、建模训练集：在染色质开放区域(ATAC-seq)的结合峰(tsCUT&Tag)的上下游100bp，共200bp，属性定义为1；染色质开发区域不存在峰的结合区域，属性定义为0。将序列和属性存入一个csv格式文件，为train.csv；运行下述程序。

2、基于训练模型预测其他组织开放染色质区域序列(ATAC-seq)中的转录结合位点。开放染色质区域序列为输入，存入一个csv格式文件，为predict-goodATAC.csv；运行下述程序。

3、预测结果：输出文件(见./resμLt/goodatacout.csv)包含两列，第二列是TFBS有无，1为绑定，0为不绑定。如果存在TFBS，则第一列为绑定TFBS的位置(site＝start+第一列*100)。最后，得到TFBS位置。

4、结果与分析

基于深度学习预测ZmKNOX6在植物不同组织结合位点的比较分析结果：

为了解析转录因子在不同组织中动态的调控网络，本申请实施例开发了一种基于tsCUT&Tag数据和ATAC-seq数据的深度学习模型，如图5A所示，用来提高转录因子在不同组织中的结合位点的预测精度。如图6所示，以ZmKNOX6为例，在玉米黄化叶片中，ATAC-seq和tsCUT&Tag有72～80％的重叠序列；在玉米绿色叶片中，ATAC-seq与tChIP-seq有55～61％的重复序列；在黄化和绿色叶片中，二者重复位点仅占全部位点的51～65％，说明ZmKNOX6在玉米黄化和绿色叶片组织中的结合位点存在着一定的差异。

基于玉米黄化叶片中的ATAC-seq和tsCUT&Tag数据，分别利用LSTM，TCN和SVM进行深度学习和训练，预测绿色叶片组织中的ZmKNOX6的结合位点。如图5B所示，深度学习模型的准确度高达0.91～0.94，其中SVM预测的准确度最高；如图5C所示，任意两种深度学习预测的基因的重叠率在73％以上；如图5D所示，经过TCN深度学习获得结合位点的预测准确度(68％)较未经过深度学习的预测准确度(黄化苗tsCUT&Tag与绿色苗ATAC-seq的重叠基因)(62％)有显著提高(p-value＝1.9e-4)，说明经过深度学习可以显著提高转录因子ZmKNOX6在绿色组织中结合位点的准确度。因此，结合深度学习的tsCUT&Tag技术有很大潜力应用于构建植物全生育期的转录调控网络。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种鉴定植物体内转录因子结合位点的方法，其包括以下步骤：

对转录因子瞬时表达的细胞进行CUT&Tag操作，获得与转录因子特异结合的DNA文库；以及

分析所述DNA文库的数据，获得转录因子结合位点信息。

2.根据权利要求1所述的方法，其中所述获得转录因子瞬时表达的细胞的过程包括以下步骤：

构建转录因子瞬时表达载体，并转化至感受态细胞；

从感受态细胞中提取表达载体；以及

原生质体的提取和转化。

3.根据权利要求1所述的方法，其中所述CUT&Tag操作包括：

将转录因子瞬时表达的细胞溶液进行刀豆蛋白A磁珠处理，收集细胞；

细胞与刀豆蛋白A磁珠的孵育；

孵育第一抗体和第二抗体；所述第一抗体与转录因子结合，所述第二抗体与所述第一抗体结合；

孵育pA/pG-Tn5转座子；

激活转座子，进行DNA片段化；

文库扩增与纯化。

4.根据权利要求1所述的方法，其中，所述分析所述DNA文库的数据的过程包括：

通过所述DNA文库的原始测序数据，得到与参考基因组匹配的reads；

通过与参考基因组匹配的reads得到去除背景的reads；

分析去除背景的reads，获得转录因子结合位点信息。

5.一种预测植物体内转录因子结合位点的方法，其包括：

基于深度学习模型预测第二植物组织开放染色质区域序列中的转录结合位点；以及

预测结果输出。

6.根据权利要求5所述的方法，其中所述深度学习模型为长短期记忆递归神经网络；其中用于构建模型的训练集划分方法为：在染色质开放区域的结合峰的上下游100bp，共200bp，属性定义为1；染色质开发区域不存在峰的结合区域，属性定义为0。

7.权利要求1～4任一项所述方法和/或权利要求5或6任一项所述方法在鉴定和/或预测植物体内转录因子结合位点的应用。