CN116705175B - 一种跨物种比较基因组学数据库及其构建和分析方法 - Google Patents
一种跨物种比较基因组学数据库及其构建和分析方法 Download PDFInfo
- Publication number
- CN116705175B CN116705175B CN202310675017.6A CN202310675017A CN116705175B CN 116705175 B CN116705175 B CN 116705175B CN 202310675017 A CN202310675017 A CN 202310675017A CN 116705175 B CN116705175 B CN 116705175B
- Authority
- CN
- China
- Prior art keywords
- species
- data
- gene
- genes
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 50
- 230000000052 comparative effect Effects 0.000 title claims abstract description 21
- 238000010276 construction Methods 0.000 title claims abstract description 12
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 166
- 230000014509 gene expression Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000001105 regulatory effect Effects 0.000 claims abstract description 11
- 230000002452 interceptive effect Effects 0.000 claims abstract description 9
- 230000004048 modification Effects 0.000 claims abstract description 6
- 238000012986 modification Methods 0.000 claims abstract description 6
- 238000012163 sequencing technique Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 18
- 101150027068 DEGS1 gene Proteins 0.000 claims description 15
- 238000011161 development Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 12
- 210000000056 organ Anatomy 0.000 claims description 11
- 238000010835 comparative analysis Methods 0.000 claims description 9
- 102000004169 proteins and genes Human genes 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 230000037353 metabolic pathway Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000002864 sequence alignment Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 2
- 230000001973 epigenetic effect Effects 0.000 claims description 2
- 238000003068 pathway analysis Methods 0.000 claims description 2
- 230000033228 biological regulation Effects 0.000 abstract description 6
- 230000008827 biological function Effects 0.000 abstract description 2
- 241000894007 species Species 0.000 description 99
- 101150044508 key gene Proteins 0.000 description 20
- 238000005065 mining Methods 0.000 description 18
- 241000723353 Chrysanthemum Species 0.000 description 10
- 235000007516 Chrysanthemum Nutrition 0.000 description 10
- 230000018109 developmental process Effects 0.000 description 10
- VGGSQFUCUMXWEO-UHFFFAOYSA-N Ethene Chemical compound C=C VGGSQFUCUMXWEO-UHFFFAOYSA-N 0.000 description 8
- 239000005977 Ethylene Substances 0.000 description 8
- 235000013399 edible fruits Nutrition 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 241000219194 Arabidopsis Species 0.000 description 5
- 208000000059 Dyspnea Diseases 0.000 description 5
- 206010013975 Dyspnoeas Diseases 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 5
- 238000010195 expression analysis Methods 0.000 description 5
- 244000141359 Malus pumila Species 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 4
- 244000144730 Amygdalus persica Species 0.000 description 3
- 235000011430 Malus pumila Nutrition 0.000 description 3
- 230000004186 co-expression Effects 0.000 description 3
- 230000008124 floral development Effects 0.000 description 3
- 238000003306 harvesting Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 150000003839 salts Chemical class 0.000 description 3
- 230000009261 transgenic effect Effects 0.000 description 3
- NGSWKAQJJWESNS-UHFFFAOYSA-N 4-coumaric acid Chemical compound OC(=O)C=CC1=CC=C(O)C=C1 NGSWKAQJJWESNS-UHFFFAOYSA-N 0.000 description 2
- 101150042008 ACO4 gene Proteins 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 2
- 235000006040 Prunus persica var persica Nutrition 0.000 description 2
- 241000220324 Pyrus Species 0.000 description 2
- 240000001987 Pyrus communis Species 0.000 description 2
- 235000014443 Pyrus communis Nutrition 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 235000021017 pears Nutrition 0.000 description 2
- 229940093681 4-coumaric acid Drugs 0.000 description 1
- 235000011446 Amygdalus persica Nutrition 0.000 description 1
- 241000219195 Arabidopsis thaliana Species 0.000 description 1
- 101100423891 Caenorhabditis elegans qars-1 gene Proteins 0.000 description 1
- 238000001353 Chip-sequencing Methods 0.000 description 1
- 241000207199 Citrus Species 0.000 description 1
- 244000276331 Citrus maxima Species 0.000 description 1
- 235000001759 Citrus maxima Nutrition 0.000 description 1
- 102000005870 Coenzyme A Ligases Human genes 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 240000006497 Dianthus caryophyllus Species 0.000 description 1
- 235000009355 Dianthus caryophyllus Nutrition 0.000 description 1
- 241000255581 Drosophila <fruit fly, genus> Species 0.000 description 1
- 241000565391 Fraxinus mandshurica Species 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- 235000010469 Glycine max Nutrition 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 108010011449 Long-chain-fatty-acid-CoA ligase Proteins 0.000 description 1
- 241001529936 Murinae Species 0.000 description 1
- 230000006093 RNA methylation Effects 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 241000592342 Tracheophyta Species 0.000 description 1
- 239000012190 activator Substances 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000003850 cellular structure Anatomy 0.000 description 1
- 235000020971 citrus fruits Nutrition 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006718 epigenetic regulation Effects 0.000 description 1
- 238000010413 gardening Methods 0.000 description 1
- 238000012239 gene modification Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000002962 histologic effect Effects 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004879 molecular function Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000013081 phylogenetic analysis Methods 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000008635 plant growth Effects 0.000 description 1
- 230000004260 plant-type cell wall biogenesis Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003938 response to stress Effects 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种跨物种比较基因组学数据库及其构建和分析方法,通过搜集不同物种转录组、表观组等多组学数据,借助同一标准分析流程生成后台数据,并将每一物种注释模式物种同源基因,通过用户个性化交互式分析,以模式物种同源基因为媒介,将不同物种基因表达量或表观修饰调控进行比较,可快速挖掘到调控生物学功能的关键基因。借助本发明,能够在不具有生物信息学背景及相关专业技术知识的情况下,简单高效的挖掘到关键功能基因,助力功能基因挖掘与解析。
Description
技术领域
本发明涉及一种数据库及其构建和分析方法,尤其涉及一种跨物种比较基因组学关键基因挖掘数据库及其构建和分析方法。
背景技术
随着高通量测序技术的不断发展和测序成本的快速降低,越来越多的生物物种得以全基因组测序,从而获得了高质量的基因组组装。这一进展推动了大量组学数据在生物学研究中的应用。然而,由于各物种的参考基因组不同,所注释的基因编号也各不相同,导致物种间的高通量测序数据难以共享与比较。尽管部分物种已经注释出与模式物种间的同源基因,但由于大多数测序数据没有注释同一模式物种的同源基因作为比较分析的媒介,因此海量数据无法在不同物种间有效使用,导致数据利用率低。
调控生长和发育至关重要的基因在进化过程中具有高度保守性。目前,识别关键保守基因的最重要方法之一是跨物种分析,因为这种数据挖掘方法减少了物种异质性的影响,并有可能揭示特定生物过程中的进化保守机制。在跨物种分析中,通过计算比较所识别的蛋白质编码基因的直系同源基因表达,从而在物种进化过程中识别具有跨物种保守性的关键基因。在疾病研究中,跨物种基因表达分析在关键基因挖掘方面取得了良好的结果,甚至在进化上相距较远的物种(如人、鼠和果蝇)之间进行比较分析也取得了很好的成效。在植物领域,已经鉴定出许多在不同作物和模式物种中具有保守功能的基因。例如,4-香豆酸:辅酶A连接酶2(4CL2)是调控拟南芥细胞壁形成早期的关键基因。据报道,它在大多数维管植物,如水曲柳、大豆和菊花等,都具有保守的调控多种生理功能的作用。这些关键保守基因将成为功能研究的重要靶点。然而,当前专门用于跨物种数据挖掘的工具或平台尚不完善,特别是在跨物种基因表达和调控比较基因组研究数据挖掘平台的缺乏,限制了海量组学数据的应用和关键基因的挖掘。
因缺乏跨物种多组学大规模比较基因组学分析平台,研究者仅能对少数物种的个别组学数据进行比较基因组学分析,该过程耗时长,需要研究者具备一定的生物信息学基础,所需技术含量高,操作难度大,难以对现有各物种海量高通量组学数据进行有效利用和挖掘,也限制了研究者对关键功能基因的挖掘和解析。迄今,还未有以跨物种比较基因组学进行关键基因挖掘为核心构建的交互式多组学基因表达调控数据库。
发明内容
发明目的:本发明旨在提供一种跨物种比较基因组学关键基因挖掘数据库的构建方法,该方法构建大量包括转录组学和表观组学等多组学数据在内的比较基因组学关键基因挖掘数据库,以模式物种同源基因作为媒介,将不同物种基因表达量或表观修饰调控进行比较,通过交互式分析可快速挖掘到关键功能基因;本发明的第二目的在于提供一种跨物种比较基因组学关键基因挖掘数据库;本发明的第三目的在于提供一种所述跨物种比较基因组学关键基因挖掘数据库的分析方法。
技术方案:本发明所述的跨物种比较基因组学关键基因挖掘数据库的构建方法,包括:
获取不同物种、不同组织器官、不同发育时期及不同处理条件下的转录组学数据;
获取不同物种、不同组织器官、不同发育时期及不同处理条件下的表观组学数据;
分析获得上述转录组数据中每个基因的测序读段(reads)数目;
分析获得不同物种基因组与模式物种基因组对应的同源基因;
对同一物种特定数据集计算差异表达基因;
以模式物种同源基因为桥梁,对不同物种差异表达基因进行比较分析,获得关键候选基因。
进一步地,不同物种基因组与模式物种基因组对应的同源基因为蛋白编码基因,通过不同物种蛋白编码序列与拟南芥基因组蛋白编码序列进行大规模同源序列比对获得。
进一步地,以模式物种同源基因为桥梁,对不同物种差异表达基因进行比较分析,是指各物种间进行基因表达比较分析时,通过模式物种基因号进行,以解决不同物种参考基因组不同导致无法进行比较的问题。
进一步地,转录组数据中每个基因的测序读段(reads)数目是指将各转录组数据比对到相应物种参考基因组上,进而计算出的每个基因区段中的测序读段数目;
进一步地,差异表达基因为用户选择的同一物种两组不同数据集间的差异表达基因,为交互式计算所得,而非数据库提前算好的后台数据。
进一步地,转录组数据每个基因的测序读段(reads)是指所有物种所有转录组数据通过同一标准分析流程获得。表观组数据是所有物种表观组数据通过同一标准分析流程获得。
进一步地,同一物种特定数据集计算差异表达基因是指对用户指定的同一物种两组数据集通过前述计算好的基因测序读段数据进行差异表达基因计算获得的差异表达基因;
进一步地,对不同物种差异表达基因进行比较分析是交互式的比较分析。
进一步地,转录组学数据和表观组学数据来源于公共数据平台的数据库,优选Gene Expression Omnibus数据库、National Center for Biotechnology Information数据库和National Genomics Data Center数据库。
进一步地,表观组学数据包括组蛋白修饰表观组学(ChIP-seq)、RNA甲基化修饰表观组学(m6A-seq)、DNA甲基化修饰表观组学数据(DNAme-seq)。
进一步地,物种是指具有参考基因组序列的物种;所使用物种数目大于10个。
进一步地,转录组学和表观组学数据大于1000个。
本发明所述跨物种比较基因组学关键基因挖掘数据库分析系统包括:
数据存储模块:用于存放不同物种、不同组织器官、不同发育时期及不同处理条件下的转录组学数据中每个基因的测序读段(reads)数据、表观组学中每个基因修饰程度数据、以及每个物种参考基因组与拟南芥参考基因组对应的同源基因数据;
用户选择模块:用于用户指定待比较分析基因集;
数据处理模块:用于计算用户指定基因集间的差异表达基因,并对每个物种基因对应的拟南芥同源基因进行注释;用于计算用户指定物种间差异表达基因的比较分析,以及用户指定不同物种间上调或下调基因间的比较分析;对用户选定基因集进行后续基因本体论或代谢通路分析;
结果输出模块:以列表形式、韦恩图、热图或柱形图形式输出上述数据矩阵的匹配结果。
本发明还提供一种通过跨物种多组学比较基因组学分析获得关键基因的数据挖掘方法,包括以下步骤:
用户指定某一物种Species1不同数据集Dataset1和Dataset2,例如:盐胁迫或其他处理后测序数据集,以及相应的对照数据集;进而计算数据集间差异表达基因获得数据矩阵DEGs(Result1);重复上述步骤,用户指定其他物种Species2不同基因集计算差异表达基因获得数据矩阵DEGs(Result2);用户可多次重复上述步骤获得其他数据矩阵DEGs(Result…);以数据矩阵中模式物种基因编号为媒介,将数据矩阵Result1、Result2或其他数据矩阵中的基因表达差异进行Cross-species analysis比较分析,进而获得关键功能基因。
有益效果:与现有技术相比,本发明具有如下显著优点:(1)提供了一种多物种、多组学、交互式比较基因组学分析的关键基因挖掘数据库构建方法,可对已公开的海量测序数据进行重新分析利用,简单高效的挖掘到关键功能基因,助力功能基因挖掘与解析;(2)该数据库使用简单,且功能强大,在通过交互式分析有效解决用户挖掘关键基因难的问题同时,提供一系列基因表达调控及功能预测辅助分析。该数据库将来会持续性拓展,通过增加新的参考基因组数据、增加新的测序数据并增加新物种同源基因注释,以获得更强大功能。
附图说明
图1为跨物种比较基因组学关键基因挖掘数据库构建思路示意图;
图2为跨物种比较基因组学关键基因挖掘数据库系统主界面示意图;
图3为通过本发明所述数据库挖掘关键基因流程图;
图4为挖掘调控园艺作物采后储藏保鲜的关键基因示意图;4A为“storage”查询结果;4B为计算出的差异表达基因DEGs文件名;4C为火山图展示差异表达基因示例;4D为差异表达基因列表部分展示;4E为韦恩图展示跨物种比较分析结果;4F为候选基因集进行基因本体论(GO)分析的结果;
图5为通过基因表达模块鉴定菊花EIN3新功能的结果图;5A为“AT3G20770”搜索过程截图;5B为搜索结果列表部分截图;5C为柱形图展示搜索结果;5D为列表展示每个基因中表达量最高的前5位数据信息;5E为转基因菊花验证EIN3新功能。
具体实施方式
下面结合具体实施例对本发明的技术方案作进一步说明。
所述跨物种比较基因组学关键基因挖掘数据库的构建方法(参见图1),包括:
获取不同物种、不同组织器官、不同发育时期及不同处理条件下的转录组学数据;
获取不同物种、不同组织器官、不同发育时期及不同处理条件下的表观组学数据;
分析获得上述转录组数据中每个基因的测序读段(reads)数目;
分析获得不同物种基因组与模式物种基因组对应的同源基因;
对同一物种特定数据集计算差异表达基因;
以模式物种拟南芥同源基因为桥梁,对不同物种差异表达基因进行比较分析,获得关键候选基因。
通过上述构建方法构建得到的数据库系统主要包括(参见图2):
主页:用于介绍所述数据库,并提供各分析模块的链接入口
分析模块(Analysis):提供基因表达分析、跨物种分析、物种内分析、表观调控分析、基因共表达分析、基因本体论(GO)分析、代谢通路(KEGG)分析和进化分析共8个子模块;
基因表达分析子模块(Gene expression):用户提供模式物种基因编号或相应物种基因编号进行检索,并选择性的限定组织器官、发育时期或处理条件,进而获得相应物种基因表达谱数据,结果以柱形图、热图和数据列表展示,相应基因表达数据以原始TPM值或log2(TPM+1)值展示。
跨物种分析子模块(Cross-species analysis)(参见图3):用户指定某一物种Species1不同数据集Dataset1和Dataset2,例如:盐胁迫或其他处理后测序数据集,以及相应的对照数据集;进而计算数据集间差异表达基因获得数据矩阵DEGs(Result1);重复上述步骤,用户指定其他物种Species2不同基因集计算差异表达基因获得数据矩阵DEGs(Result2);用户可多次重复上述步骤获得其他数据矩阵DEGs(Result…);以数据矩阵中模式物种基因编号为媒介,将数据矩阵Result1、Result2或其他数据矩阵中的基因表达差异进行Cross-species analysis比较分析;
物种内分析子模块(In-species analysis):用户指定某一物种不同数据集,例如:盐胁迫或其他处理后测序数据集,以及相应的对照数据集;进而计算数据集间差异表达基因获得数据矩阵A;重复上述步骤,用户指定该物种其他基因集计算差异表达基因获得数据矩阵B;用户可重复上述步骤获得其他数据矩阵;以数据矩阵中该物种基因编号将数据矩阵A、B或其他数据矩阵中的基因表达差异进行比较分析,进而获得用户感兴趣的关键基因。
表观调控分析子模块(Epigenetic regulation):用户提供模式物种基因编号或相应物种基因编号进行检索,并选择性的限定组织器官、发育时期或处理条件,进而获得相应物种基因表观调控数据网络,结果以网络图和数据列表展示。
基因共表达分析子模块(Gene Co-expression):用户提供相应物种基因编号进行检索,并选择性的限定组织器官、发育时期或处理条件,进而获得相应物种共表达基因网络,结果以网络图和数据列表展示。
GO分析子模块(GO enrichment):用户提供模式物种或相应物种基因集的列表进行检索,获得该基因集特异富集的生物学功能路径、细胞组分和分子功能路径,结果以柱形图、气泡图和数据列表展示。
KEGG分析子模块(KEGG pathway):用户提供模式物种或相应物种基因集的列表进行检索,获得该基因集特异富集的代谢路径,结果以柱形图、气泡图和数据列表展示。
进化分析子模块(Phylogenetic analysis):用户提供模式物种或相应物种基因编号进行检索,并选定分析的物种范围,获得该基因在不同物种间进化关系及该基因在每一物种不同组织部位的表达量值,结果以进化树整合热图的形式和数据列表展示
工具模块(Tools):提供BLAST序列比对分析、目标基因序列获得、物种间基因编号转换、同源基因和数据上传共5个子模块;
BLAST序列比对分析子模块(BLAST):用户提供DNA或蛋白序列,并选定待分析物种进行检索,获得该物种与检索序列相似的序列。
目标基因序列获得子模块(Sequence Fetch):用户提供一个或多个模式物种或相应物种基因编号,并选定待分析物种进行检索,获得该编号相应基因编码序列和蛋白编码序列。
物种间基因编号转换子模块(Gene ID convert):用户提供某一物种基因编号进行检索,获得本数据库搜集的其他所有物种的同源基因编号。
同源基因子模块(Orthologous genes):用户可直接浏览不同物种不同基因与模式物种同源基因对应关系列表,亦可通过搜索特定物种名浏览目标物种基因与拟南芥同源基因列表;
数据上传子模块(Data submission):用户可上传指定数据格式的数据用于丰富数据库;
浏览模块(Browse):用于数据库后台数据的大概浏览获取;
下载模块(Download):包括RNA-seq、ChIP-seq、m6A-seq、DNAme-seq和Orthologous Groups共5个子模块,用于相应后台数据的下载;
帮助模块(FAQ):用于介绍所述数据库的使用方法;
联系人模块(Contact):用于介绍数据库相关联系人信息。
实施例1
挖掘调控园艺作物采后储藏保鲜的关键基因
本实施例以“storage”查询结果为例,阐述该数据库中的交互式跨物种分析。在“Cross-species analysis”子模块中,选择“Tissue”和“Development_stage”为“All”,“Treatment”为“storage”,搜索后系统将生成一个数据表(图4A),结果显示共获得了四个物种:Citrus maxima(柑橘)、Malus domestica(苹果)、Pyrus communis(梨)和Prunuspersica var.persica(桃)。对其中一个物种选择对照和最长贮藏期的数据集,点击“Calculate DEGs”按钮计算两者之间的差异表达基因(DEGs,图4B和图4C);在其他三个物种中重复上述操作计算各自DEGs。选择相应DEGs数据进而点击“Venn diagram”按钮(图4B)即可获得这四个物种在贮藏后共有的DEGs列表(图4D)和比较结果图(图4E)。最终,共有112个DEGs被检测到在四个物种中差异表达(图4E)。GO分析显示,“response to stress”和“defense response”路径在这112个DEGs中显著富集(图4F)。由此发现乙烯生成酶编码基因(EFE/ACO4,AT1G05010)和乙烯受体编码基因(ERS1,AT2G40940)在长时间贮藏后的所有物种中均有差异表达(图4E),暗示乙烯在这些水果采后贮藏过程中可能具有重要作用。大量研究表明,乙烯调控是呼吸跃变型水果(如苹果、梨和桃)成熟的关键因素,这与非呼吸型跃变型水果柑橘有所不同。经过研究发现,在贮藏过程中,控制乙烯生物合成的关键基因EFE/ACO4在呼吸跃变型水果中显著上调,而在非呼吸跃变型水果中下调,这表明EFE/ACO4是控制呼吸跃变型水果贮藏寿命的关键基因,可能是决定水果为呼吸跃变型或非呼吸跃变型的关键因素之一。先前研究表明,来自EFE/ACO基因沉默植物的苹果果实能有效延长贮藏寿命。此外,抑制乙烯产生或信号传导可提高梨和桃的采后品质,以及其他园艺植物,如香石竹和菊花的采后品质。这个例子表明,跨物种比较基因组学进行关键基因挖掘非常有效,而且操作简单,即使不懂数据分析和没有生物信息学背景的人也可以轻松掌握,具有非常好的应用价值。
实施例2
通过基因表达模块鉴定菊花EIN3新功能
乙烯是植物中唯一的气体激素,对植物生长发育和采后调控具有重要影响,其信号通路中的重要转录激活因子EIN3(ETHYLENE INSENSITIVE 3)发挥着至关重要的作用。在数据库Gene Expression模块下选择Chrysanthemum并搜索AT3G20770(AtEIN3)(图5A),发现了三个同源基因Cse_sc003437.1_g010.1、Cse_sc010116.1_g100.1和Cse_sc023867.1_g020.1的表达数据(图5B)。使用通过柱形图查看三个基因在所有组织中的表达情况(图5C)。当鼠标悬停在柱形图上时将自动显示相应数据基本信息、基因ID和表达值。通过选取每个基因中表达量最高的前五个数据,发现这些基因多与花发育相关(图5D),这表明EIN3在菊花的花发育中起着关键作用。
为进一步验证EIN3在菊花中的作用,本实施例克隆了CmEIN3,并创制了35S::CmEIN3转基因菊花。通过基因组PCR检测和qRT-PCR鉴定出阳性的转基因株系后,重点观察了花的表型,并发现CmEIN3过表达植株的花瓣数量比野生型少(图5E),表明CmEIN3在菊花的花发育中起着关键作用。
Claims (7)
1.一种跨物种比较基因组学数据库的构建方法,其特征在于,该方法包括:
获取不同物种、不同组织器官、不同发育时期及不同处理条件下的转录组学数据;
获取不同物种、不同组织器官、不同发育时期及不同处理条件下的表观组学数据;
分析获得上述转录组数据中每个基因的测序读段数目;
分析获得每个物种基因组与模式物种基因组对应的同源基因;
分别对不同物种特定数据集计算差异表达基因,每个物种特定数据集计算差异表达基因的过程为对用户指定的同一物种两组数据集通过计算好的基因测序读段数据进行计算获得差异表达基因;
以模式物种同源基因为桥梁,对不同物种差异表达基因进行比较分析,获得关键候选基因;
其中,以模式物种同源基因为桥梁,对不同物种差异表达基因进行比较分析,是指各物种间进行基因表达比较分析时,通过模式物种基因号进行,以解决不同物种参考基因组不同导致无法进行比较的问题。
2.根据权利要求1所述跨物种比较基因组学数据库的构建方法,其特征在于,不同物种基因组与模式物种基因组对应的同源基因为蛋白编码基因,通过不同物种蛋白编码序列与模式物种基因组蛋白编码序列进行大规模同源序列比对获得。
3.根据权利要求1所述跨物种比较基因组学数据库的构建方法,其特征在于,对不同物种差异表达基因进行比较分析是交互式的比较分析。
4.根据权利要求1所述跨物种比较基因组学数据库的构建方法,其特征在于,转录组数据中每个基因的测序读段数目是指将各转录组数据比对到相应物种参考基因组上,进而计算出的每个基因区段中的测序读段数目。
5.根据权利要求1所述跨物种比较基因组学数据库的构建方法,其特征在于,转录组学数据和表观组学数据来源于公共数据平台的数据库,选自Gene Expression Omnibus数据库、National Center for Biotechnology Information数据库和National GenomicsData Center数据库。
6.一种跨物种比较基因组学数据库系统,其特征在于,所述数据库系统由权利要求1-5所述跨物种比较基因组学数据库的构建方法构建,该数据库系统包括:
数据存储模块:用于存放不同物种、不同组织器官、不同发育时期及不同处理条件下的转录组学数据中每个基因的测序读段数据、表观组学中每个基因修饰程度数据、以及每个物种参考基因组与模式物种参考基因组对应的同源基因数据;
用户选择模块:用于用户指定待比较分析基因集;
数据处理模块:用于计算用户指定基因集间的差异表达基因,并对每个物种基因对应的模式物种同源基因进行注释;用于用户指定的物种间差异表达基因的比较分析,以及用户指定不同物种间上调或下调基因间的比较分析;对用户选定基因集进行后续基因本体论或代谢通路分析;
结果输出模块:以列表形式、韦恩图、热图和柱形图形式输出上述数据矩阵的匹配结果。
7.一种权利要求6所述跨物种比较基因组学数据库系统的分析方法,其特征在于,该方法包括以下步骤:
用户指定某一物种Species1不同数据集Dataset1和Dataset2,进而计算数据集间差异表达基因获得数据矩阵DEGs作为Result1;重复上述步骤,用户指定其他物种Species2不同基因集计算差异表达基因获得数据矩阵DEGs作为Result2;用户可多次重复上述步骤获得其他数据矩阵DEGs;以数据矩阵中模式物种同源基因编号为媒介,将数据矩阵Result1、Result2或其他数据矩阵中的基因表达差异进行跨物种间的比较分析,进而获得关键功能基因。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310675017.6A CN116705175B (zh) | 2023-06-08 | 2023-06-08 | 一种跨物种比较基因组学数据库及其构建和分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310675017.6A CN116705175B (zh) | 2023-06-08 | 2023-06-08 | 一种跨物种比较基因组学数据库及其构建和分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116705175A CN116705175A (zh) | 2023-09-05 |
CN116705175B true CN116705175B (zh) | 2023-12-29 |
Family
ID=87828743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310675017.6A Active CN116705175B (zh) | 2023-06-08 | 2023-06-08 | 一种跨物种比较基因组学数据库及其构建和分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705175B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000063687A1 (en) * | 1999-04-15 | 2000-10-26 | The Trustees Of Columbia University In The City Of New York | Gene discovery through comparisons of networks of structural and functional relationships among known genes and proteins |
EP1583016A2 (en) * | 2004-03-30 | 2005-10-05 | Hitachi Software Engineering Co., Ltd. | Data processing and display method for gene expression analysis system and gene expression analysing system |
CN102789550A (zh) * | 2011-05-17 | 2012-11-21 | 中国科学院上海生命科学研究院 | 一种利用跨物种相似性的元分析方法 |
CN112391479A (zh) * | 2020-05-09 | 2021-02-23 | 南阳师范学院 | 基于多组学的南阳黑猪脂肪沉积性状关键基因挖掘方法 |
CN113113082A (zh) * | 2021-04-06 | 2021-07-13 | 长江大学 | 一种基于转录组测序挖掘黄连小檗碱生物合成相关基因的方法 |
CN113272443A (zh) * | 2019-01-07 | 2021-08-17 | 安捷伦科技有限公司 | 用于单细胞中的基因组dna和基因表达分析的组合物和方法 |
CN113628687A (zh) * | 2021-08-13 | 2021-11-09 | 南京大学 | 一种植物成对nlr抗性基因数据库的构建方法及其多物种成对nlr基因数据库 |
CN113736773A (zh) * | 2021-09-17 | 2021-12-03 | 深圳百人科技有限公司 | 一种用于跨物种个体识别方法及个体识别分析系统 |
CN115064220A (zh) * | 2022-06-14 | 2022-09-16 | 浙江大学 | 一种单细胞的跨物种细胞类型鉴定方法 |
CN115273982A (zh) * | 2022-08-08 | 2022-11-01 | 上海美吉生物医药科技有限公司 | 基于转录组测序数据的非编码circRNA生物信息分析方法、装置、终端及介质 |
CN116153401A (zh) * | 2023-01-07 | 2023-05-23 | 杭州链康医学检验实验室有限公司 | 基于pdx的单细胞转录组数据分析方法、系统、设备和介质 |
-
2023
- 2023-06-08 CN CN202310675017.6A patent/CN116705175B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000063687A1 (en) * | 1999-04-15 | 2000-10-26 | The Trustees Of Columbia University In The City Of New York | Gene discovery through comparisons of networks of structural and functional relationships among known genes and proteins |
EP1583016A2 (en) * | 2004-03-30 | 2005-10-05 | Hitachi Software Engineering Co., Ltd. | Data processing and display method for gene expression analysis system and gene expression analysing system |
CN102789550A (zh) * | 2011-05-17 | 2012-11-21 | 中国科学院上海生命科学研究院 | 一种利用跨物种相似性的元分析方法 |
CN113272443A (zh) * | 2019-01-07 | 2021-08-17 | 安捷伦科技有限公司 | 用于单细胞中的基因组dna和基因表达分析的组合物和方法 |
CN112391479A (zh) * | 2020-05-09 | 2021-02-23 | 南阳师范学院 | 基于多组学的南阳黑猪脂肪沉积性状关键基因挖掘方法 |
CN113113082A (zh) * | 2021-04-06 | 2021-07-13 | 长江大学 | 一种基于转录组测序挖掘黄连小檗碱生物合成相关基因的方法 |
CN113628687A (zh) * | 2021-08-13 | 2021-11-09 | 南京大学 | 一种植物成对nlr抗性基因数据库的构建方法及其多物种成对nlr基因数据库 |
CN113736773A (zh) * | 2021-09-17 | 2021-12-03 | 深圳百人科技有限公司 | 一种用于跨物种个体识别方法及个体识别分析系统 |
CN115064220A (zh) * | 2022-06-14 | 2022-09-16 | 浙江大学 | 一种单细胞的跨物种细胞类型鉴定方法 |
CN115273982A (zh) * | 2022-08-08 | 2022-11-01 | 上海美吉生物医药科技有限公司 | 基于转录组测序数据的非编码circRNA生物信息分析方法、装置、终端及介质 |
CN116153401A (zh) * | 2023-01-07 | 2023-05-23 | 杭州链康医学检验实验室有限公司 | 基于pdx的单细胞转录组数据分析方法、系统、设备和介质 |
Non-Patent Citations (4)
Title |
---|
Gene expressions between obligate bamboo-eating pandas and non-herbivorous mammals reveal converged specialized bamboo diet adaptation;Jinnan Ma 等;《BMC Genomics》;1-16 * |
GERDH: an interactive multi-omics database for cross-species data mining in horticultural crops;Hua Cheng 等;《The Plant Journal 》;1-12 * |
Meta Analysis of Gene Expression Data within and Across Species;Ana C. Fierro 等;《Current Genomics》;第9卷(第8期);525-534 * |
基于多物种转录组分析的作物盐胁迫调控基因研究;李飞;《中国优秀硕士学位论文全文数据库农业科技辑》(第02期);D045-6 * |
Also Published As
Publication number | Publication date |
---|---|
CN116705175A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | WheatOmics: A platform combining multiple omics data to accelerate functional genomics studies in wheat | |
Shulaev et al. | The genome of woodland strawberry (Fragaria vesca) | |
Perini et al. | Reference genes for transcriptional analysis of flowering and fruit ripening stages in apple (Malus× domestica Borkh.) | |
Wang et al. | Comprehensive transcriptional profiling of NaHCO 3-stressed Tamarix hispida roots reveals networks of responsive genes | |
King et al. | The ‘European Apple Genome Mapping Project’-developing a strategy for mapping genes coding for agronomic characters in tree species | |
Xia et al. | Analysis of multiple transcriptomes of the African oil palm (Elaeis guineensis) to identify reference genes for RT-qPCR | |
Jiu et al. | Genome‐wide Characterization and Expression Analysis of Sugar Transporter Family Genes in Woodland Strawberry | |
Yu et al. | De novo taproot transcriptome sequencing and analysis of major genes involved in sucrose metabolism in radish (Raphanus sativus L.) | |
Migocka et al. | The genomic organization and transcriptional pattern of genes encoding nitrate transporters 1 (NRT1) in cucumber | |
Blair et al. | Construction and EST sequencing of full-length, drought stress cDNA libraries for common beans (Phaseolus vulgaris L.) | |
Yu et al. | Large-scale analyses of heat shock transcription factors and database construction based on whole-genome genes in horticultural and representative plants | |
Song et al. | Comprehensive identification and characterization of simple sequence repeats based on the whole-genome sequences of 14 forest and fruit trees | |
Zhang et al. | Characterizing the leaf transcriptome of Chrysanthemum rhombifolium (Ling et C. Shih), a drought resistant, endemic plant from China | |
Hong et al. | Genome-wide comparative analysis of flowering-time genes; insights on the gene family expansion and evolutionary perspective | |
Burks et al. | The Medicago truncatula genome: genomic data availability | |
Wei et al. | Time-sequential detection of quantitative trait loci and candidate genes underlying the dynamic growth of Salix suchowensis | |
Geleta et al. | High-Density Genetic Linkage Mapping of Lepidium Based on Genotyping-by-Sequencing SNPs and Segregating Contig Tag Haplotypes | |
Zhang et al. | Transcriptome analysis of ‘Sijihua’longan (Dimocarpus longan L.) based on next-generation sequencing technology | |
Kamal et al. | Characterization of genes and alleles involved in the control of flowering time in grapevine | |
CN116705175B (zh) | 一种跨物种比较基因组学数据库及其构建和分析方法 | |
Wang et al. | Genome assembly of Musa beccarii shows extensive chromosomal rearrangements and genome expansion during evolution of Musaceae genomes | |
Cheng et al. | GERDH: an interactive multi‐omics database for cross‐species data mining in horticultural crops | |
Shi et al. | Construction of a resequencing-based high-density genetic map for grape using an interspecific population (Vitis amurensis× Vitis vinifera) | |
Cova et al. | Exploiting expressed sequence tag databases for mapping markers associated with fruit development and fruit quality in apple | |
Goff et al. | The evolution of plant gene and genome sequencing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 210043 Jiangsu Nanjing Qixia District Bagua Zhou street Jiangsu Qixia modern agriculture industrial park Nanjing Agricultural University modern horticulture industry science and Technology Innovation Center Applicant after: NANJING AGRICULTURAL University Address before: Weigang Xuanwu District of Nanjing Jiangsu province 210095 No. 1 Applicant before: NANJING AGRICULTURAL University |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |