CN114427116B

CN114427116B - 一种在全基因组水平上预测植物生长发育转录因子调控的下游靶基因的方法

Info

Publication number: CN114427116B
Application number: CN202111635093.1A
Authority: CN
Inventors: 张德强; 徐伟杰; 谢剑波
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2023-08-15
Anticipated expiration: 2041-12-29
Also published as: CN114427116A

Abstract

本发明提供了一种在全基因组水平上预测植物生长发育转录因子调控的下游靶基因的方法，属于生物信息技术领域。本发明的方法基于植物转录因子的DAP‑seq测序数据，在全基因组中检测调控的启动子的Motif元件和位置，并以此为基础，预测转录因子下游调控的靶基因。本发明联合测序数据和生物信息学工具，大大增加了预测的精确度和通量，进而可在大数据量的基础上快速预测出靶基因，提高预测效率。并且本发明的方法普遍适用于植物学领域。

Description

一种在全基因组水平上预测植物生长发育转录因子调控的下游靶基因的方法

技术领域

本发明属于生物信息技术领域，具体涉及一种在全基因组水平上预测植物生长发育转录因子调控的下游靶基因的方法。

背景技术

真核生物转录起始过程十分复杂，往往需要多种蛋白因子协助，转录因子与RNA聚合酶Ⅱ形成转录起始复合体，能够与基因启动子区域的顺式作用元件发生互作的DNA结合蛋白，共同参与转录起始过程。转录因子(TF)广泛存在于真核生物基因组中，并且是生物中最重要的调控因子，在真核生物基因组基因中约有6％是TF基因，虽然比例不高但几乎参与全部基因的转录调控过程。TF由多个基因家族组成，其中在植物中，目前研究较为广泛的有MYB、NAC、WRKY、ARF和GRF等转录因子。

根据TF的作用特点可分为二类；第一类为普遍TF，它们与RNA聚合酶Ⅱ共同组成转录起始复合体时，转录才能在正确的位置启始。第二类转录因子为组织细胞特异性转录因子，这些TF在特异的组织、细胞或是受到一些类固醇激素\生长因子或其它刺激后，开始表达某些特异蛋白质分子时，才需要该类转录因子。这两类转录因子目前发现都需要和基因的启动子结合才能发挥作用。当前的研究表明，转录因子的表达调控不仅在植物生长发育和细胞的形态等生理活动中发挥重要的调控作用，而且还与植物次生代谢调控和抗逆过程密切相关。因此，对转录因子的表达调控研究具有重要且广泛的意义。并且近些年来研究发现，在重要的经济作物和林木中，转录因子调控机制的研究对于优良品种的选育工作有着重要的指导作用。

现阶段的植物转录因子下游调控靶基因的筛选预测方法主要基于转录因子的结合特征，利用生物信息学软件，对结合位点进行预测，将符合条件的候选基础序列(motif)与已经通过实验验证的同源结合位点进行分析比较，最终确定该物种调控的启动子motif序列，并通过结合位点预测下游调控基因。但是现阶段的预测方法存在效率低下的问题。

发明内容

有鉴于此，本发明的目的在于提供一种在全基因组水平上预测植物生长发育转录因子调控的下游靶基因的方法，本发明的方法能够快速预测出靶基因。

本发明提供了一种在全基因组水平上预测植物生长发育转录因子调控的下游靶基因的方法，包括以下步骤：

1)将携带目标转录因子的植物材料作为处理样品，将不携带目标样品的植物材料作为对照样品；分别提取所述处理样品和对照样品的植物基因组DNA，打断所述植物基因组DNA，得到DNA片段，以所述DNA片段分别建立处理样品和对照样品的DNA文库；

2)构建目标转录因子的DAP-seq体外蛋白表达载体，得到重组质粒，表达所述重组质粒，得到蛋白表达溶液；

3)将所述蛋白表达溶液和蛋白质融合标签第一混合后，再分别与处理样品和对照样品的DNA文库第二混合，得到处理样品溶液和对照样品溶液，筛选所述处理样品溶液和对照样品溶液中与重组蛋白结合的DNA序列进行测序，分别得到处理样品和对照样品的测序结果；

4)分别对所述处理样品和对照样品的测序结果进行预处理，分别得到处理样品和对照样品的待分析数据；所述预处理包括进行质控，过滤掉低质量的序列；

5)将所述处理样品和对照样品的待分析数据分别与参考基因组进行比对，分别得到处理样品和对照样品的BAM文件；

6)对所述处理样品和对照样品的BAM文件进行Peak-Calling分析，得到目标转录因子在全基因组范围内富集的位置信息；

7)根据所述目标转录因子在全基因组范围内富集的位置信息，确定待分析序列，对所述待分析序列进行Homer-MotifsPeaks分析，筛选得到目标转录因子调控的基础序列；

8)根据所述目标转录因子在全基因组范围内富集的位置信息，利用IGV对目标转录因子的结合峰进行可视化分析；

9)对步骤7)得到的目标转录因子调控的基础序列进行全基因组基因的启动子比对，比对得到调控下游关键靶基因；

步骤1)和步骤2)之间没有时间顺序限制；

所述步骤7)和步骤8)之间没有时间顺序限制。

优选的，步骤1)中，打断所述植物基因组DNA至片段大小为250bp。

优选的，步骤1)中，所述植物材料为无性系植物材料。

优选的，步骤5)中，利用Bowtie2将所述处理样品和对照样品的待分析数据分别与参考基因组进行比对。

优选的，步骤6)中，采用MACS2.0软件对处理样品和对照样品的BAM文件进行Peak-Calling分析。

优选的，步骤6)中，所述Peak-Calling分析包括：去除处理样品和对照样品中重叠的片段，保留差异片段，所述差异片段的位置信息为目标转录因子在全基因组范围内富集的位置信息。

优选的，步骤7)中，所述目标转录因子调控的基础序列的大小为20bp或30bp。

优选的，在步骤7)筛选得到目标转录因子调控的基础序列后，还包括以筛选得到的转录因子调控的基础序列作为候选基础序列元件，对所述候选基础序列元件进行分析，过滤假阳性结果，得到校正后的下游调控基础序列元件；所述分析的方法包括：多数据富集分析和多序列比对分析。

优选的，本发明在得到校正后的下游调控Motif元件后，还包括以包含所述Motif元件的启动子基因作为下游调控基因，将所述下游调控基因归类为不同的家族和进行GO富集分析。

本发明提供了一种在全基因组水平上预测植物生长发育转录因子调控的下游靶基因的方法，本发明的方法基于植物转录因子的DAP-seq测序数据，利用MACS2.0软件在全基因组中检测调控的启动子的基础序列(Motif)元件和位置，并以此为基础，预测转录因子调控的下游靶基因。本发明联合测序数据和生物信息学工具，大大增加了预测的精确度和通量，进而可在大数据量的基础上快速预测出靶基因，提高预测效率。并且本发明的方法普遍适用于植物学领域。

此外，现阶段的植物转录因子下游调控靶基因的筛选预测方法是利用免疫共沉淀技术挖掘转录因子的调控的靶基因，但是该技术需要商业化的抗体，本发明的方法可以不依赖商业化的抗体，能够提高预测和研究的效率。

附图说明

图1为本发明实施例中在全基因组水平上预测植物转录因子靶基因的方法的流程图；

图2为双端测序的结构示意图；横坐标：0点代表的转录起始位点，纵坐标：富集片段在总片段的百分比；

图3表示转录因子调控的启动子Motif区域的位置分布；

图4表示杨树转录因子调控的启动子Motif，其中A为P值最高的两个motif，B为该motif的位点的分布和具体位置；

图5表示在杨树中DAP-seq的调控位点染色体分布情况；

图6表示杨树转录因子调控的下游靶基因GO注释分析。

具体实施方式

7)根据所述目标转录因子在全基因组范围内富集的位置信息，确定待分析序列，对所述待分析序列进行Homer-MotifsPeaks分析，筛选得到目标转录因子调控的Motifs；

9)对步骤7)得到的目标转录因子调控的目标Motifs进行全基因组基因的启动子比对，比对得到调控下游关键靶基因；

步骤1)和步骤2)之间没有时间顺序限制；

所述步骤7)和步骤8)之间没有时间顺序限制。

本发明首先将携带目标转录因子的植物材料作为处理样品，将不携带目标样品的植物材料作为对照样品；分别提取所述处理样品和对照样品的植物基因组DNA，打断所述植物基因组DNA，得到DNA片段，以所述DNA片段分别建立处理样品和对照样品的DNA文库。

在本发明中，所述植物材料优选为为同一基因型扩繁后的无性系植物材料，保证实验样本一致，所述无性系植物材料优选的通过组织培养技术获得。

在本发明中，提取所述处理样品和对照样品的植物基因组DNA的方法优选为CTAB法。

在本发明中，打断所述植物基因组DNA至片段大小为250bp，打断所述植物基因组DNA采用的仪器优选为BioruptorPlus。

在本发明中，以所述DNA片段分别建立处理样品和对照样品的DNA文库的方法优选的包括利用建库试剂盒进行；所述建库试剂盒优选为NEXTflex-Rapid DNA-Seq Kit；所述建库试剂盒完成End repair以及加A过程。

本发明构建目标转录因子的DAP-seq体外蛋白表达载体，得到重组质粒，表达所述重组质粒，得到蛋白表达溶液。

在本发明中，构建目标转录因子的DAP-seq体外蛋白表达载体优选的包括以下步骤：将目标转录因子的CDS序列重组到pFN9KT7SP6/>载体，菌落PCR后对构建好的表达载体进行测序，验证构建好的载体是否已经成功连接，确认是否有片段缺失。

在本发明中，表达所述重组质粒的方法优选为采用TnT@SP6 High.YieldWheatGerm Protein Expression system(L3260)试剂盒进行重组质粒的表达；所述TnT@SP6High.YieldWheat Germ Protein Expression system(L3260)试剂盒购自于promega公司。

在得到处理样品和对照样品的DNA文库以及蛋白表达溶液后，本发明将所述蛋白表达溶液和蛋白质融合标签第一混合后，再分别与处理样品和对照样品的DNA文库第二混合，得到处理样品溶液和对照样品溶液，筛选所述处理样品溶液和对照样品溶液中与重组蛋白结合的DNA序列进行测序，分别得到处理样品和对照样品的测序结果。

在本发明中，所述蛋白融合标签兼具蛋白标记示踪、融合表达和蛋白分离作用。

在本发明中，所述第一混合的方式优选为震荡混合；所述第一混合的时间优选为1h；所述第二混合的方式优选为震荡混合；所述第二混合的时间优选为1h；所述第一混合和第二混合分别优选于离心管中进行，在所述第二混合后，优选的还包括在所述第二混合后的体系中加入EB缓冲液，进行震荡；所述震荡的温度优选为98℃，所述震荡的时间为10min，所述震荡的频率为1000rpm；所述震荡后，还包括将震荡后的离心管置于磁力架上至溶液澄清；在所述溶液澄清后取上清液；所述取上清液的时间优选为溶液澄清后1min；所述上清液优选的转移至新离心管；所述上清液的保存温度优选为-20℃。本发明在取上清液后，优选的还包括向含有Halotag-beads的离心管中依次加入ddH₂O和5×SDS-PAGE上样缓冲溶液后对离心管进行加热；以所述离心管的规格为1.5mL计，所述ddH₂O的加入量优选为每管加入40μL，所述SDS-PAGE上样缓冲溶液的加入量优选为每管加入10μL，所述加热的温度优选为100℃，所述加热的时间优选为10min。

在本发明中，所述测序优选的包括以下步骤：

利用PCR扩增技术将Index加入到与转录因子蛋白结合的DNA片段上；利用磁珠筛选加上Index的DNA片段；利用KAPA文库定量试剂盒检测DNA文库质量是否合格，构建处理样品和对照样品的链特异性测序文库；利用Illumina Hiseq2500对所述处理样品和对照样品的链特异性测序文库进行高通量测序获得处理样品和对照样品的原始测序数据。

得到处理样品和对照样品的测序结果后，本发明分别对所述处理样品和对照样品的测序结果进行预处理，分别得到处理样品和对照样品的待分析数据；所述预处理包括进行质控，过滤掉低质量的序列；所述质控优选的采用fastqc软件进行，采用fastqc软件的默认参数即可。

得到处理样品和对照样品的待分析数据后，本发明将所述处理样品和对照样品的待分析数据分别与参考基因组进行比对，分别得到处理样品和对照样品的BAM文件。

在本发明中，利用Bowtie2将所述处理样品和对照样品的待分析数据分别与参考基因组进行比对；所述Bowtie2中设置的参数为默认参数；所述参考基因组为待测物种的已知基因组。

得到处理样品和对照样品的BAM文件后，本发明对所述处理样品和对照样品的BAM文件进行Peak-Calling分析，得到目标转录因子在全基因组范围内富集的位置信息。

在本发明中，优选的采用MACS2.0软件对处理样品和对照样品的BAM文件进行Peak-Calling分析。

在本发明中，所述Peak-Calling分析优选的包括：去除处理样品和对照样品中重叠的片段，保留差异片段，所述差异片段的位置信息为目标转录因子在全基因组范围内富集的位置信息。

得到目标转录因子在全基因组范围内富集的位置信息后，本发明根据所述目标转录因子在全基因组范围内富集的位置信息，确定待分析序列，对所述待分析序列进行Homer-MotifsPeaks分析，筛选得到目标转录因子调控的Motifs。在本发明中，所述目标转录因子调控的Motifs的大小优选为20bp或30bp。本发明通过筛选目标转录因子调控的Motifs，旨在获得该Motifs结合的区域，通过判断该区域是否在启动子区域可以预测下游的功能基因，进而分析转录因子的功能。

得到目标转录因子调控的Motifs后，本发明优选的还包括以筛选得到的目标转录因子调控的Motifs作为候选Motif元件，对所述候选Motif元件进行分析，过滤假阳性结果，得到校正后的下游调控Motif元件；所述分析的方法包括：多数据富集分析和多序列比对分析。

本发明在得到校正后的下游调控Motif元件后，优选的还包括对包含所述Motif元件的启动子基因作为下游调控基因，将所述下游调控基因归类为不同的家族和进行进一步的GO富集分析。

得到目标转录因子调控的Motifs后，本发明对得到的目标转录因子调控的目标Motifs进行全基因组基因的启动子比对，比对得到调控下游关键靶基因。本发明对得到的目标转录因子调控的目标Motifs进行全基因组基因的启动子比对优选的采用Homer-promoter软件进行。

得到目标转录因子在全基因组范围内富集的位置信息后，本发明根据所述目标转录因子在全基因组范围内富集的位置信息，利用IGV对目标转录因子的结合峰进行可视化分析。

本发明中，所述在全基因组水平上预测植物转录因子结合的Motif和调控下游靶基因的方法的流程如图1所示。

下面将结合本发明中的实施例，对本发明中的技术方案进行清楚、完整地描述。

实施例1银腺杨84K的GRF15转录因子全基因组范围内调控的下游靶基因的预测

下载84K杨基因组的测序文件(从DNA Research数据库中查找获得:https://academic.oup.com/dnaresearch/article/26/5/423/5580662？searchresult＝1#)包括全基因序列文件和gff文件，利用GRF15转录因子的DAP-seq的测序数据在84K杨全基因组水平上预测该转录因子结合的Motif元件，以生信数据库Plantpan加以验证，并将结果作为下一步的输入结果。在全基因组水平预测下游调控的靶基因，将获得的下游基因归类为不同的家族成员后，并进一步进行GO富集分析。

运行步骤：

1)通过外源调控因素处理植物材料获得处理样品，未进行外源调控因素处理的样品为对照样品；利用CTAB法提取植物基因组DNA，构建关键转录因子的DAP构建表达载体，对重组质粒进行表达，建库后利用该载体进行按照麦胚蛋白表达系统，利用PCR扩增技术将Index加入到与GRF蛋白结合的DNA片段上，然后利用磁珠进一步筛选加上Index的DNA片段，再利用KAPA文库定量试剂盒检测DNA文库质量合格与否，诱导蛋白后获得与重组蛋白结合DNA后上机完成测序工作，其中构建该载体的步骤如下：

(ⅰ)DNA片段化及建库

利用CTAB法提取

生长15天84K杨幼嫩的叶片组织的基因组DNA，使用Bioruptor Plus仪器打断至片段大小为250bp。利用磁珠(BECKMAN COULTERAM-Pure XP A63881)筛选目标片段然后利用建库试剂盒(NEXTflex-Rapid DNA-Seq Kit)完成End repair以及加A过程。

(ⅱ)蛋白表达

基于该基因所使用构建表达载体的引物F:5’-CAGAGCGATAACGCGATGGAGCACGTCATCT-CAATGGA-3’，(SEQ ID NO.1)；R’:5-AGCCCGAATTCGTTTTTAATA-CATGTCCATGTGTATGGCCCCA-3’(SEQ ID NO.2)将GRF的开放阅读框全长重组到pFN9KT7SP6/>载体，然后，按照叶片蛋白表达系统(PromegaTNT SP6wheat GermMasterMix)对GRF重组质粒进行表达。

(ⅲ)DNA与蛋白结合以及Western-blotting检测

将GRF的表达蛋白溶液与Halotag-beads混合，25℃，1500r/min震荡1h，然后加入DNA文库再震荡1h。震荡结束后清洗Halotag-beads，向离心管中加入30μL EB溶解，然后再98℃ 1000r/min震荡10min，加热结束后立刻将离心管放在磁力架上，待溶液澄清后2min，将上清转移至新离心管，并保存于-20℃，用于后续实验。然后向含有Halotag-beads离心管中加入40μL ddH₂O，再加入10μL 5×SDS-PAGE上样缓冲溶液，然后将离心管放在100℃加热10min。

2)提取步骤1)中所述处理样品和对照样品的总DNA，利用PCR扩增将Index加入到与GRF15蛋白结合的DNA片段上，然后利用磁珠进一步筛选除加上Index的DNA片段构建处理样品和对照样品的链特异性测序文库；用Illumina Hiseq2500对所述处理样品和对照样品的链特异性测序文库进行高通量测序获得处理样品和对照样品的原始测序数据；

3)对于GRF15的DAP-seq测序的基础结果进行测序结果处理，进行质控，过滤低质量的结果，得到高质量的测序文件；

4)过滤所述处理样品和对照样品的原始测序数据获得处理样品和对照样品的cleanreads，参见图2；

5)将所述处理样品和对照样品的clean reads分别与84K杨参考基因组比对，利用Bowtie2软件将DAP-Seq测序读长比对到84K基因组(RefGen_v3)，获得处理样品比对结果与对照样品比对结果；

6)对于该测序结果，利用Bowtie2将该测序文件包括测序结果和输入文件和所研究物种的基因组建库后进行比对，合成得到BAM文件；该步骤具体操作如下：

一、将Bowtie2处理后的双端测序文件获得的SAM文件进行转换并放入后台运行；

二、将上一步骤获得的BAM文件转换成可以被MACS2识别的sorted.bam文件；

7)将输入文件和目标序列的BAM文件比对后进行MACS的Peak-Calling得到的全基因组范围内的转录因子结合的位置，步骤如下：

一利用miniconda下载需要使用的包和软件；包指的是脚本中的模块。

二进行Peak-Calling分析

其中设置的参数为：

-t:实验组，GRF转录因子的IP的数据文件；

c:GFP的富集结果作为对照组；

f：指定输入文件的格式，本次预测使用的BAM文件格式；

g:杨树的有效基因组大小；

其它参数使用默认参数。

结果参见图3。

对上一步骤所述待分析序列进行Homer-MotifsPeaks分析，筛选得到转录因子调控的目标Motifs和位点分布，参见图4和图5。

9)转录因子的结合峰利用IGV进行可视化分析，转录因子的结合位点主要是在转录起始位点TSS附近，所以只有当数据(参考图3，TSS 0为转录起始位点，主要柱子都在转录起始位点附近)在TSS附近为峰值时数据才正确；

10)利用Homer-promoter软件对步骤8获得的motif进行全基因组范围内基因的启动子比对分析，得到转录因子调控的下游关键靶基因，参见图6，对于挖掘到的下游关键靶基因进行注释，获得下游关键靶基因参与的调控的富集通路。

表1 84K杨全基因组预测出的GRF转录因子调控部分靶基因部分结果

由以上实施例可知，本发明提供了一种在全基因组水平上预测植物转录因子调控的下游靶基因的一种新方法，该方法能够在大数据量的基础上在全基因范围内快速预测出转录因子调控的Motif和下游基因，并且该方法是一种植物普遍适用的方法。

尽管上述实施例对本发明做出了详尽的描述，但它仅仅是本发明一部分实施例而不是全部实施例，人们还可以根据本实施例在不经创造性前提下获得其他实施例，这些实施例都属于本发明保护范围。

序列表

<110> 北京林业大学

<120> 一种在全基因组水平上预测植物生长发育转录因子调控的下游靶基因的方法

<160> 2

<170> SIPOSequenceListing 1.0

<210> 1

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

cagagcgata acgcgatgga gcacgtcatc tcaatgga 38

<210> 2

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

agcccgaatt cgtttttaat acatgtccat gtgtatggcc cca 43

Claims

1.一种在全基因组水平上预测植物生长发育转录因子调控的下游靶基因的方法，包括以下步骤：

6)对处理样品和对照样品的BAM文件进行Peak-Calling分析，得到目标转录因子在全基因组范围内富集的位置信息；

步骤1)和步骤2)之间没有时间顺序限制；

所述步骤7)和步骤8)之间没有时间顺序限制；

步骤6)中，所述Peak-Calling分析包括：去除处理样品和对照样品中重叠的片段，保留差异片段，所述差异片段的位置信息为目标转录因子在全基因组范围内富集的位置信息；

步骤7)中，所述目标转录因子调控的基础序列的大小为20bp或30bp；

在步骤7)筛选得到目标转录因子调控的基础序列后，还包括以筛选得到的转录因子调控的基础序列作为候选基础序列元件，对所述候选基础序列元件进行分析，过滤假阳性结果，得到校正后的下游调控基础序列元件；所述分析的方法包括：多数据富集分析和多序列比对分析；

在得到校正后的下游调控基础序列元件后，还包括以包含所述基础序列元件的启动子基因作为下游调控基因，将所述下游调控基因归类为不同的家族和进行GO富集分析。

2.根据权利要求1所述的方法，其特征在于，步骤1)中，打断所述植物基因组DNA至片段大小为250bp。

3.根据权利要求1所述的方法，其特征在于，步骤1)中，所述植物材料为无性系植物材料。

4.根据权利要求1所述的方法，其特征在于，步骤5)中，利用Bowtie2将所述处理样品和对照样品的待分析数据分别与参考基因组进行比对。

5.根据权利要求1所述的方法，其特征在于，步骤6)中，采用MACS2.0软件对处理样品和对照样品的BAM文件进行Peak-Calling分析。