CN116705175B

CN116705175B - 一种跨物种比较基因组学数据库及其构建和分析方法

Info

Publication number: CN116705175B
Application number: CN202310675017.6A
Authority: CN
Inventors: 王利凯; 程华; 宋憬; 蒋甲福; 陈素梅; 陈发棣
Original assignee: Nanjing Agricultural University
Current assignee: Nanjing Agricultural University
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-12-29
Anticipated expiration: 2043-06-08
Also published as: CN116705175A

Abstract

本发明公开了一种跨物种比较基因组学数据库及其构建和分析方法，通过搜集不同物种转录组、表观组等多组学数据，借助同一标准分析流程生成后台数据，并将每一物种注释模式物种同源基因，通过用户个性化交互式分析，以模式物种同源基因为媒介，将不同物种基因表达量或表观修饰调控进行比较，可快速挖掘到调控生物学功能的关键基因。借助本发明，能够在不具有生物信息学背景及相关专业技术知识的情况下，简单高效的挖掘到关键功能基因，助力功能基因挖掘与解析。

Description

一种跨物种比较基因组学数据库及其构建和分析方法

技术领域

本发明涉及一种数据库及其构建和分析方法，尤其涉及一种跨物种比较基因组学关键基因挖掘数据库及其构建和分析方法。

背景技术

随着高通量测序技术的不断发展和测序成本的快速降低，越来越多的生物物种得以全基因组测序，从而获得了高质量的基因组组装。这一进展推动了大量组学数据在生物学研究中的应用。然而，由于各物种的参考基因组不同，所注释的基因编号也各不相同，导致物种间的高通量测序数据难以共享与比较。尽管部分物种已经注释出与模式物种间的同源基因，但由于大多数测序数据没有注释同一模式物种的同源基因作为比较分析的媒介，因此海量数据无法在不同物种间有效使用，导致数据利用率低。

调控生长和发育至关重要的基因在进化过程中具有高度保守性。目前，识别关键保守基因的最重要方法之一是跨物种分析，因为这种数据挖掘方法减少了物种异质性的影响，并有可能揭示特定生物过程中的进化保守机制。在跨物种分析中，通过计算比较所识别的蛋白质编码基因的直系同源基因表达，从而在物种进化过程中识别具有跨物种保守性的关键基因。在疾病研究中，跨物种基因表达分析在关键基因挖掘方面取得了良好的结果，甚至在进化上相距较远的物种(如人、鼠和果蝇)之间进行比较分析也取得了很好的成效。在植物领域，已经鉴定出许多在不同作物和模式物种中具有保守功能的基因。例如，4-香豆酸：辅酶A连接酶2(4CL2)是调控拟南芥细胞壁形成早期的关键基因。据报道，它在大多数维管植物，如水曲柳、大豆和菊花等，都具有保守的调控多种生理功能的作用。这些关键保守基因将成为功能研究的重要靶点。然而，当前专门用于跨物种数据挖掘的工具或平台尚不完善，特别是在跨物种基因表达和调控比较基因组研究数据挖掘平台的缺乏，限制了海量组学数据的应用和关键基因的挖掘。

因缺乏跨物种多组学大规模比较基因组学分析平台，研究者仅能对少数物种的个别组学数据进行比较基因组学分析，该过程耗时长，需要研究者具备一定的生物信息学基础，所需技术含量高，操作难度大，难以对现有各物种海量高通量组学数据进行有效利用和挖掘，也限制了研究者对关键功能基因的挖掘和解析。迄今，还未有以跨物种比较基因组学进行关键基因挖掘为核心构建的交互式多组学基因表达调控数据库。

发明内容

发明目的：本发明旨在提供一种跨物种比较基因组学关键基因挖掘数据库的构建方法，该方法构建大量包括转录组学和表观组学等多组学数据在内的比较基因组学关键基因挖掘数据库，以模式物种同源基因作为媒介，将不同物种基因表达量或表观修饰调控进行比较，通过交互式分析可快速挖掘到关键功能基因；本发明的第二目的在于提供一种跨物种比较基因组学关键基因挖掘数据库；本发明的第三目的在于提供一种所述跨物种比较基因组学关键基因挖掘数据库的分析方法。

技术方案：本发明所述的跨物种比较基因组学关键基因挖掘数据库的构建方法，包括：

获取不同物种、不同组织器官、不同发育时期及不同处理条件下的转录组学数据；

获取不同物种、不同组织器官、不同发育时期及不同处理条件下的表观组学数据；

分析获得上述转录组数据中每个基因的测序读段(reads)数目；

分析获得不同物种基因组与模式物种基因组对应的同源基因；

对同一物种特定数据集计算差异表达基因；

以模式物种同源基因为桥梁，对不同物种差异表达基因进行比较分析，获得关键候选基因。

进一步地，不同物种基因组与模式物种基因组对应的同源基因为蛋白编码基因，通过不同物种蛋白编码序列与拟南芥基因组蛋白编码序列进行大规模同源序列比对获得。

进一步地，以模式物种同源基因为桥梁，对不同物种差异表达基因进行比较分析，是指各物种间进行基因表达比较分析时，通过模式物种基因号进行，以解决不同物种参考基因组不同导致无法进行比较的问题。

进一步地，转录组数据中每个基因的测序读段(reads)数目是指将各转录组数据比对到相应物种参考基因组上，进而计算出的每个基因区段中的测序读段数目；

进一步地，差异表达基因为用户选择的同一物种两组不同数据集间的差异表达基因，为交互式计算所得，而非数据库提前算好的后台数据。

进一步地，转录组数据每个基因的测序读段(reads)是指所有物种所有转录组数据通过同一标准分析流程获得。表观组数据是所有物种表观组数据通过同一标准分析流程获得。

进一步地，同一物种特定数据集计算差异表达基因是指对用户指定的同一物种两组数据集通过前述计算好的基因测序读段数据进行差异表达基因计算获得的差异表达基因；

进一步地，对不同物种差异表达基因进行比较分析是交互式的比较分析。

进一步地，转录组学数据和表观组学数据来源于公共数据平台的数据库，优选Gene Expression Omnibus数据库、National Center for Biotechnology Information数据库和National Genomics Data Center数据库。

进一步地，表观组学数据包括组蛋白修饰表观组学(ChIP-seq)、RNA甲基化修饰表观组学(m⁶A-seq)、DNA甲基化修饰表观组学数据(DNAme-seq)。

进一步地，物种是指具有参考基因组序列的物种；所使用物种数目大于10个。

进一步地，转录组学和表观组学数据大于1000个。

本发明所述跨物种比较基因组学关键基因挖掘数据库分析系统包括：

数据存储模块：用于存放不同物种、不同组织器官、不同发育时期及不同处理条件下的转录组学数据中每个基因的测序读段(reads)数据、表观组学中每个基因修饰程度数据、以及每个物种参考基因组与拟南芥参考基因组对应的同源基因数据；

用户选择模块：用于用户指定待比较分析基因集；

数据处理模块：用于计算用户指定基因集间的差异表达基因，并对每个物种基因对应的拟南芥同源基因进行注释；用于计算用户指定物种间差异表达基因的比较分析，以及用户指定不同物种间上调或下调基因间的比较分析；对用户选定基因集进行后续基因本体论或代谢通路分析；

结果输出模块：以列表形式、韦恩图、热图或柱形图形式输出上述数据矩阵的匹配结果。

本发明还提供一种通过跨物种多组学比较基因组学分析获得关键基因的数据挖掘方法，包括以下步骤：

用户指定某一物种Species1不同数据集Dataset1和Dataset2，例如：盐胁迫或其他处理后测序数据集，以及相应的对照数据集；进而计算数据集间差异表达基因获得数据矩阵DEGs(Result1)；重复上述步骤，用户指定其他物种Species2不同基因集计算差异表达基因获得数据矩阵DEGs(Result2)；用户可多次重复上述步骤获得其他数据矩阵DEGs(Result…)；以数据矩阵中模式物种基因编号为媒介，将数据矩阵Result1、Result2或其他数据矩阵中的基因表达差异进行Cross-species analysis比较分析，进而获得关键功能基因。

有益效果：与现有技术相比，本发明具有如下显著优点：(1)提供了一种多物种、多组学、交互式比较基因组学分析的关键基因挖掘数据库构建方法，可对已公开的海量测序数据进行重新分析利用，简单高效的挖掘到关键功能基因，助力功能基因挖掘与解析；(2)该数据库使用简单，且功能强大，在通过交互式分析有效解决用户挖掘关键基因难的问题同时，提供一系列基因表达调控及功能预测辅助分析。该数据库将来会持续性拓展，通过增加新的参考基因组数据、增加新的测序数据并增加新物种同源基因注释，以获得更强大功能。

附图说明

图1为跨物种比较基因组学关键基因挖掘数据库构建思路示意图；

图2为跨物种比较基因组学关键基因挖掘数据库系统主界面示意图；

图3为通过本发明所述数据库挖掘关键基因流程图；

图4为挖掘调控园艺作物采后储藏保鲜的关键基因示意图；4A为“storage”查询结果；4B为计算出的差异表达基因DEGs文件名；4C为火山图展示差异表达基因示例；4D为差异表达基因列表部分展示；4E为韦恩图展示跨物种比较分析结果；4F为候选基因集进行基因本体论(GO)分析的结果；

图5为通过基因表达模块鉴定菊花EIN3新功能的结果图；5A为“AT3G20770”搜索过程截图；5B为搜索结果列表部分截图；5C为柱形图展示搜索结果；5D为列表展示每个基因中表达量最高的前5位数据信息；5E为转基因菊花验证EIN3新功能。

具体实施方式

下面结合具体实施例对本发明的技术方案作进一步说明。

所述跨物种比较基因组学关键基因挖掘数据库的构建方法(参见图1)，包括：

分析获得上述转录组数据中每个基因的测序读段(reads)数目；

对同一物种特定数据集计算差异表达基因；

以模式物种拟南芥同源基因为桥梁，对不同物种差异表达基因进行比较分析，获得关键候选基因。

通过上述构建方法构建得到的数据库系统主要包括(参见图2)：

主页：用于介绍所述数据库，并提供各分析模块的链接入口

分析模块(Analysis)：提供基因表达分析、跨物种分析、物种内分析、表观调控分析、基因共表达分析、基因本体论(GO)分析、代谢通路(KEGG)分析和进化分析共8个子模块；

基因表达分析子模块(Gene expression)：用户提供模式物种基因编号或相应物种基因编号进行检索，并选择性的限定组织器官、发育时期或处理条件，进而获得相应物种基因表达谱数据，结果以柱形图、热图和数据列表展示，相应基因表达数据以原始TPM值或log2(TPM+1)值展示。

跨物种分析子模块(Cross-species analysis)(参见图3)：用户指定某一物种Species1不同数据集Dataset1和Dataset2，例如：盐胁迫或其他处理后测序数据集，以及相应的对照数据集；进而计算数据集间差异表达基因获得数据矩阵DEGs(Result1)；重复上述步骤，用户指定其他物种Species2不同基因集计算差异表达基因获得数据矩阵DEGs(Result2)；用户可多次重复上述步骤获得其他数据矩阵DEGs(Result…)；以数据矩阵中模式物种基因编号为媒介，将数据矩阵Result1、Result2或其他数据矩阵中的基因表达差异进行Cross-species analysis比较分析；

物种内分析子模块(In-species analysis)：用户指定某一物种不同数据集，例如：盐胁迫或其他处理后测序数据集，以及相应的对照数据集；进而计算数据集间差异表达基因获得数据矩阵A；重复上述步骤，用户指定该物种其他基因集计算差异表达基因获得数据矩阵B；用户可重复上述步骤获得其他数据矩阵；以数据矩阵中该物种基因编号将数据矩阵A、B或其他数据矩阵中的基因表达差异进行比较分析，进而获得用户感兴趣的关键基因。

表观调控分析子模块(Epigenetic regulation)：用户提供模式物种基因编号或相应物种基因编号进行检索，并选择性的限定组织器官、发育时期或处理条件，进而获得相应物种基因表观调控数据网络，结果以网络图和数据列表展示。

基因共表达分析子模块(Gene Co-expression)：用户提供相应物种基因编号进行检索，并选择性的限定组织器官、发育时期或处理条件，进而获得相应物种共表达基因网络，结果以网络图和数据列表展示。

GO分析子模块(GO enrichment)：用户提供模式物种或相应物种基因集的列表进行检索，获得该基因集特异富集的生物学功能路径、细胞组分和分子功能路径，结果以柱形图、气泡图和数据列表展示。

KEGG分析子模块(KEGG pathway)：用户提供模式物种或相应物种基因集的列表进行检索，获得该基因集特异富集的代谢路径，结果以柱形图、气泡图和数据列表展示。

进化分析子模块(Phylogenetic analysis)：用户提供模式物种或相应物种基因编号进行检索，并选定分析的物种范围，获得该基因在不同物种间进化关系及该基因在每一物种不同组织部位的表达量值，结果以进化树整合热图的形式和数据列表展示

工具模块(Tools)：提供BLAST序列比对分析、目标基因序列获得、物种间基因编号转换、同源基因和数据上传共5个子模块；

BLAST序列比对分析子模块(BLAST)：用户提供DNA或蛋白序列，并选定待分析物种进行检索，获得该物种与检索序列相似的序列。

目标基因序列获得子模块(Sequence Fetch)：用户提供一个或多个模式物种或相应物种基因编号，并选定待分析物种进行检索，获得该编号相应基因编码序列和蛋白编码序列。

物种间基因编号转换子模块(Gene ID convert)：用户提供某一物种基因编号进行检索，获得本数据库搜集的其他所有物种的同源基因编号。

同源基因子模块(Orthologous genes)：用户可直接浏览不同物种不同基因与模式物种同源基因对应关系列表，亦可通过搜索特定物种名浏览目标物种基因与拟南芥同源基因列表；

数据上传子模块(Data submission)：用户可上传指定数据格式的数据用于丰富数据库；

浏览模块(Browse)：用于数据库后台数据的大概浏览获取；

下载模块(Download)：包括RNA-seq、ChIP-seq、m⁶A-seq、DNAme-seq和Orthologous Groups共5个子模块，用于相应后台数据的下载；

帮助模块(FAQ)：用于介绍所述数据库的使用方法；

联系人模块(Contact)：用于介绍数据库相关联系人信息。

实施例1

挖掘调控园艺作物采后储藏保鲜的关键基因

本实施例以“storage”查询结果为例，阐述该数据库中的交互式跨物种分析。在“Cross-species analysis”子模块中，选择“Tissue”和“Development_stage”为“All”，“Treatment”为“storage”，搜索后系统将生成一个数据表(图4A)，结果显示共获得了四个物种：Citrus maxima(柑橘)、Malus domestica(苹果)、Pyrus communis(梨)和Prunuspersica var.persica(桃)。对其中一个物种选择对照和最长贮藏期的数据集，点击“Calculate DEGs”按钮计算两者之间的差异表达基因(DEGs，图4B和图4C)；在其他三个物种中重复上述操作计算各自DEGs。选择相应DEGs数据进而点击“Venn diagram”按钮(图4B)即可获得这四个物种在贮藏后共有的DEGs列表(图4D)和比较结果图(图4E)。最终，共有112个DEGs被检测到在四个物种中差异表达(图4E)。GO分析显示，“response to stress”和“defense response”路径在这112个DEGs中显著富集(图4F)。由此发现乙烯生成酶编码基因(EFE/ACO4，AT1G05010)和乙烯受体编码基因(ERS1，AT2G40940)在长时间贮藏后的所有物种中均有差异表达(图4E)，暗示乙烯在这些水果采后贮藏过程中可能具有重要作用。大量研究表明，乙烯调控是呼吸跃变型水果(如苹果、梨和桃)成熟的关键因素，这与非呼吸型跃变型水果柑橘有所不同。经过研究发现，在贮藏过程中，控制乙烯生物合成的关键基因EFE/ACO4在呼吸跃变型水果中显著上调，而在非呼吸跃变型水果中下调，这表明EFE/ACO4是控制呼吸跃变型水果贮藏寿命的关键基因，可能是决定水果为呼吸跃变型或非呼吸跃变型的关键因素之一。先前研究表明，来自EFE/ACO基因沉默植物的苹果果实能有效延长贮藏寿命。此外，抑制乙烯产生或信号传导可提高梨和桃的采后品质，以及其他园艺植物，如香石竹和菊花的采后品质。这个例子表明，跨物种比较基因组学进行关键基因挖掘非常有效，而且操作简单，即使不懂数据分析和没有生物信息学背景的人也可以轻松掌握，具有非常好的应用价值。

实施例2

通过基因表达模块鉴定菊花EIN3新功能

乙烯是植物中唯一的气体激素，对植物生长发育和采后调控具有重要影响，其信号通路中的重要转录激活因子EIN3(ETHYLENE INSENSITIVE 3)发挥着至关重要的作用。在数据库Gene Expression模块下选择Chrysanthemum并搜索AT3G20770(AtEIN3)(图5A)，发现了三个同源基因Cse_sc003437.1_g010.1、Cse_sc010116.1_g100.1和Cse_sc023867.1_g020.1的表达数据(图5B)。使用通过柱形图查看三个基因在所有组织中的表达情况(图5C)。当鼠标悬停在柱形图上时将自动显示相应数据基本信息、基因ID和表达值。通过选取每个基因中表达量最高的前五个数据，发现这些基因多与花发育相关(图5D)，这表明EIN3在菊花的花发育中起着关键作用。

为进一步验证EIN3在菊花中的作用，本实施例克隆了CmEIN3，并创制了35S::CmEIN3转基因菊花。通过基因组PCR检测和qRT-PCR鉴定出阳性的转基因株系后，重点观察了花的表型，并发现CmEIN3过表达植株的花瓣数量比野生型少(图5E)，表明CmEIN3在菊花的花发育中起着关键作用。

Claims

1.一种跨物种比较基因组学数据库的构建方法，其特征在于，该方法包括：

分析获得上述转录组数据中每个基因的测序读段数目；

分析获得每个物种基因组与模式物种基因组对应的同源基因；

分别对不同物种特定数据集计算差异表达基因，每个物种特定数据集计算差异表达基因的过程为对用户指定的同一物种两组数据集通过计算好的基因测序读段数据进行计算获得差异表达基因；

以模式物种同源基因为桥梁，对不同物种差异表达基因进行比较分析，获得关键候选基因；

其中，以模式物种同源基因为桥梁，对不同物种差异表达基因进行比较分析，是指各物种间进行基因表达比较分析时，通过模式物种基因号进行，以解决不同物种参考基因组不同导致无法进行比较的问题。

2.根据权利要求1所述跨物种比较基因组学数据库的构建方法，其特征在于，不同物种基因组与模式物种基因组对应的同源基因为蛋白编码基因，通过不同物种蛋白编码序列与模式物种基因组蛋白编码序列进行大规模同源序列比对获得。

3.根据权利要求1所述跨物种比较基因组学数据库的构建方法，其特征在于，对不同物种差异表达基因进行比较分析是交互式的比较分析。

4.根据权利要求1所述跨物种比较基因组学数据库的构建方法，其特征在于，转录组数据中每个基因的测序读段数目是指将各转录组数据比对到相应物种参考基因组上，进而计算出的每个基因区段中的测序读段数目。

5.根据权利要求1所述跨物种比较基因组学数据库的构建方法，其特征在于，转录组学数据和表观组学数据来源于公共数据平台的数据库，选自Gene Expression Omnibus数据库、National Center for Biotechnology Information数据库和National GenomicsData Center数据库。

6.一种跨物种比较基因组学数据库系统，其特征在于，所述数据库系统由权利要求1-5所述跨物种比较基因组学数据库的构建方法构建，该数据库系统包括：

数据存储模块：用于存放不同物种、不同组织器官、不同发育时期及不同处理条件下的转录组学数据中每个基因的测序读段数据、表观组学中每个基因修饰程度数据、以及每个物种参考基因组与模式物种参考基因组对应的同源基因数据；

用户选择模块：用于用户指定待比较分析基因集；

数据处理模块：用于计算用户指定基因集间的差异表达基因，并对每个物种基因对应的模式物种同源基因进行注释；用于用户指定的物种间差异表达基因的比较分析，以及用户指定不同物种间上调或下调基因间的比较分析；对用户选定基因集进行后续基因本体论或代谢通路分析；

结果输出模块：以列表形式、韦恩图、热图和柱形图形式输出上述数据矩阵的匹配结果。

7.一种权利要求6所述跨物种比较基因组学数据库系统的分析方法，其特征在于，该方法包括以下步骤：

用户指定某一物种Species1不同数据集Dataset1和Dataset2，进而计算数据集间差异表达基因获得数据矩阵DEGs作为Result1；重复上述步骤，用户指定其他物种Species2不同基因集计算差异表达基因获得数据矩阵DEGs作为Result2；用户可多次重复上述步骤获得其他数据矩阵DEGs；以数据矩阵中模式物种同源基因编号为媒介，将数据矩阵Result1、Result2或其他数据矩阵中的基因表达差异进行跨物种间的比较分析，进而获得关键功能基因。