CN115148294A - 一种基于多组学数据进行功能富集分析的分析方法、装置及应用 - Google Patents

一种基于多组学数据进行功能富集分析的分析方法、装置及应用 Download PDF

Info

Publication number
CN115148294A
CN115148294A CN202210777166.9A CN202210777166A CN115148294A CN 115148294 A CN115148294 A CN 115148294A CN 202210777166 A CN202210777166 A CN 202210777166A CN 115148294 A CN115148294 A CN 115148294A
Authority
CN
China
Prior art keywords
analysis
analyzed
enrichment analysis
enrichment
species
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210777166.9A
Other languages
English (en)
Other versions
CN115148294B (zh
Inventor
骆孟
赵建华
马佳文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Majorbio Bio Pharm Technology Co ltd
Original Assignee
Shanghai Majorbio Bio Pharm Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Majorbio Bio Pharm Technology Co ltd filed Critical Shanghai Majorbio Bio Pharm Technology Co ltd
Priority to CN202210777166.9A priority Critical patent/CN115148294B/zh
Priority claimed from CN202210777166.9A external-priority patent/CN115148294B/zh
Publication of CN115148294A publication Critical patent/CN115148294A/zh
Application granted granted Critical
Publication of CN115148294B publication Critical patent/CN115148294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于多组学数据进行功能富集分析的分析方法,至少包括如下步骤:步骤S1‑1,获取输入数据和待分析对象的富集目标集合数据;所述输入数据包括待分析对象的物种名称及注释信息;步骤S1‑2,根据输入数据构建待分析对象的物种OrgDb数据库;步骤S2,根据待分析对象的富集目标集合数据及所述的物种OrgDb数据库,利用至少一个富集分析算法对待分析对象进行富集分析;步骤S3,对富集分析的结果进行整理及可视化展示。应用本发明的技术方案,建成一整套自动化富集分析流程,从而方便快捷的完成对不同物种的差异基因进行富集分析,解决了现有技术中对富集分析在物种的支持、分析方法的选择中存在的局限性,并且丰富了分析结果数据与可视化展示,提高了分析结果准确性与分析流程的高效性。

Description

一种基于多组学数据进行功能富集分析的分析方法、装置及 应用
技术领域
本发明涉及生物信息学领域,特别是涉及一种基于多组学数据进行功能富集分析的分析方法、装置及应用。
背景技术
基因功能富集分析是转录组研究的重要手段之一,它通过借助各类数据库和分析工具进行统计分析,挖掘在数据库中与要研究的生物学问题具有显著相关性的基因功能类别。它的统计原理是用超几何分布型来检验一组基因(共表达或差异表达)中某个功能类的显著性,通过离散分布的显著性分析、富集度分析和假阳性分析,得出与实验目的有显著关联的、低假阳性率的及靶向性的基因功能类别。
功能富集分析对于解释生命科学中的高通量组学数据至关重要。对于此类工具而言,为尽可能多的生物使用最新的注释数据库至关重要。为了满足这些要求,我们在此基于最流行的Bioconductor软件包clusterProfiler的新版本。与9年前发布的原始版本相比,此软件包已大大增强。新版本基于内部支持的本体和通路以及研究者提供的或来自在线数据库的注释数据,为数千种生物体的功能富集分析提供了一个通用接口。它还扩展了dplyr和ggplot2包,为数据操作和可视化提供丰富的界面。在组学方面,例如,研究转录组学,转录组是特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的集合。转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理。转录组研究是基因功能及结构研究的基础和出发点,了解转录组是解读基因组功能元件和揭示细胞及组织中分子组成所必需的,并且对理解机体发育和疾病具有重要作用。
目前,clusterProfiler不提供特定物种的注释,而是依赖于Bioconductor项目发布的全基因组注释包(OrgDb)。Bioconductor中有20个OrgDb包可用于不同物种,例如人类、小鼠、苍蝇、酵母和蠕虫。这些软件包每半年更新一次。非模式生物的GO注释可以通过AnnotationHub包在线查询,该包提供了用于访问来自各种数据提供者(例如,UCSC、Ensembl、NCBI、STRING和GEN-CODE)的全基因组注释的Web服务。此外,GO注释的数据框(例如,使用分类ID从BiomaRt或UniProt数据库中检索数据)可用于使用AnnotationForge包或直接通过通用接口进行富集分析来构建OrgDb。基于此,我们比较了许多关于基因富集分析的方法,但是它们在物种的支持、方法的选择、结果的展示等方面,或多或少具有局限性。并且还需要人工对每一步的结果文件进行整理再衔接下一步工作,耗时长,效率低。因此,急需构建一套支持多物种、可选多中富集分析方法、丰富的可视化结果展示的富集分析自动化的生物信息分析方法。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于多组学数据进行功能富集分析的分析方法、装置及应用。本发明旨在提供一种有参考基因组物种的全基因组注释OrgDb的构建并基于clusterprofiler4.0进行富集分析的自动化流程分析方法,以解决现有技术的不足之处,并且该流程相比当前所存的生物信息分析流程更高效、更准确的分析方法。
本发明第一方面提供一种基于多组学数据进行功能富集分析的分析方法,所述方法至少包括以下步骤:
步骤S1-1,获取输入数据和待分析对象的富集目标集合数据;所述输入数据包括待分析对象的物种名称及注释信息;
步骤S1-2,根据输入数据构建待分析对象的物种OrgDb数据库;
步骤S2,根据待分析对象的富集目标集合数据及所述的物种OrgDb数据库的数据,利用至少一个富集分析算法对待分析对象进行富集分析;
步骤S3,对富集分析的结果进行整理及可视化展示。
本发明第二方面提供一种基于多组学数据进行功能富集分析的分析装置,所述装置至少包括:
数据获取模块,用于获取输入数据和待分析对象的富集目标集合数据;所述输入数据包括待分析对象的物种名称及注释信息;
OrgDb数据库构建模块,用于根据输入数据构建待分析对象的物种OrgDb数据库;
富集分析模块,用于根据待分析对象的富集目标集合数据及所述的物种OrgDb数据库的数据,利用至少一个富集分析算法对待分析对象进行富集分析;
结果输出模块,用于对富集分析的结果进行整理及可视化展示。
本发明第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述基于多组学数据进行功能富集分析的分析方法。
本发明第四方面提供一种计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现前述述基于多组学数据进行功能富集分析的分析方法的步骤。
本发明第五方面提供一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行前述的述基于多组学数据进行功能富集分析的分析方法。
如上所述,本发明的基于多组学数据进行功能富集分析的分析方法、装置及应用,具有以下有益效果:
本发明提供了所述富集分析方法在无物种OrgDb的情况下根据物种基因的注释信息构建物种OrgDb的方法。
本发明提供了包括GO富集分析、KEGG富集分析、DO富集分析、Reactome pathwayanalysis富集分析以及GSEA富集分析在内的所述富集分析方法。
应用本发明的技术方案,建成一整套自动化富集分析流程,从而方便快捷的完成对不同物种的差异基因进行富集分析,解决了现有技术中对富集分析在物种的支持、分析方法的选择中存在的局限性,并且丰富了分析结果数据与可视化展示,提高了分析结果准确性与分析流程的高效性。
附图说明
图1-1本发明一实施例的基于多组学数据进行功能富集分析的分析方法流程图;
图1-2是物种OrgDb构建与差异表达基因富集分析示意图;
图1-3本发明一实施例的基于多组学数据进行功能富集分析的分析装置图;
图2是GO富集分析结果的可视化图,其中,横坐标为GO功能信息,纵坐标为每条GO功能中差异基因的数量;
图3是KEGG富集分析结果的可视化图,其中,横坐标为KEGG代谢通路信息,纵坐标为每条KEGG代谢通路中差异基因的数量;
图4是DO富集分析结果的可视化图,其中,图A为Enrichment Map图,图中的点代表通路信息,点的大小代表差异基因的数量,颜色取决于padjus值;图B为网络图,图中节点处的点为通路其大小取决于此通路中差异基因的数量,节点外圈的点为差异基因其颜色取决于差异表达倍数;
图5是Reactome pathway analysis富集分析结果的可视化图,其中,圆点代表基因,其颜色取决于基因的差异表达倍数;
图6是GSEA富集分析结果的可视化图,其中,图最上面部分展示的是富集分数值,图中间部分每一条线代表基因集中的一个基因,及其在基因列表中的排序位置。
图7是本发明实施例中电子终端示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
此外应理解,本发明中提到的一个或多个方法步骤并不排斥在所述组合步骤前后还可以存在其他方法步骤或在这些明确提到的步骤之间还可以插入其他方法步骤,除非另有说明;还应理解,本发明中提到的一个或多个步骤之间的组合连接关系并不排斥在所述组合步骤前后还可以存在其他步骤或在这些明确提到的两个步骤之间还可以插入其他步骤,除非另有说明。而且,除非另有说明,各方法步骤的编号仅为鉴别各方法步骤的便利工具,而非为限制各方法步骤的排列次序或限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容的情况下,当亦视为本发明可实施的范畴。
需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,虽图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1-1和图1-2所示,本发明所述的基于多组学数据进行功能富集分析的分析方法,至少包括如下步骤:
步骤S1-1,获取输入数据和待分析对象的富集目标集合数据;所述输入数据包括待分析对象的物种名称及注释信息;
步骤S1-2,根据输入数据构建待分析对象的物种OrgDb数据库;
步骤S2,根据待分析对象的富集目标集合数据及所述的物种OrgDb数据库的数据,利用至少一个富集分析算法对待分析对象进行富集分析;
步骤S3,对富集分析的结果进行整理及可视化展示。
进一步的,所述待分析对象属于有参物种。所述注释信息为物种基因的GO注释和/或KEGG注释。
本领域公知的是,物种基因的GO注释由Gene Ontology官方网站提供(geneontology.org)。
本领域公知的是,物种基因的KEGG注释由Kyoto Encyclopedia of Genes andGenomes官方网站提供(www.genome.jp/kegg/pathway.html)。
可选的,步骤S1中,待分析对象的注释信息采用以下方式获得:根据待分析对象的物种的基因组GO的注释结果,利用能够读取基因GO注释的算法进行待分析对象的注释信息的读取。
可选的,在进行待分析对象的注释信息的读取之前,需要将待分析对象的物种的基因组GO的注释结果作为输入数据整理为与能够读取基因GO注释的算法相匹配的格式。将格式匹配后的数据作为输入数据输入到能够读取基因GO注释的算法。
在一种实施方式中,步骤S1-2中,利用构建物种OrgDb的算法进行待分析对象的物种OrgDb数据库的构建。
可选的,步骤S1-2中,需要将所述输入数据整理为与构建物种OrgDb的算法所匹配的格式。将格式匹配后的数据输入到构建物种OrgDb的算法。
在一种实施方式中,步骤S1-1中,所述输入数据所匹配的格式可以为待分析对象的基因名以及与待分析对象的基因名注释的文件,或者为,待分析对象的基因名以及与待分析对象的基因名对应的每一个GO编号对应的文件和待分析对象的基因名的KEGG的注释。
在一种实施方式中,在进行步骤S2之前,需要对物种OrgDb数据库进行安装及导入。
可选的,利用安装OrgDb的算法对物种OrgDb数据库进行安装(生成的数据包可以根据给定的物种拉丁文来命名);利用OrgDb导入的算法对物种OrgDb数据库进行导入。
步骤S1完成后,输出已构建完成的该物种orgDb文件(R包),所述物种orgDb文件可作为R语言的包文件,并通过R语言进行常规的安装与加载。
步骤S2对步骤S1-2构建并安装加载的OrgDb进行导入,根据选择的富集分析方法类型进行相关的富集分析。
可选的,步骤S2中,所述富集分析算法选自GO富集分析、KEGG富集分析、DO(Disease Ontology analysis)富集分析、Reactome pathway analysis富集分析以及GSEA富集分析算法中的一种或多种。
当所述富集分析算法为KEGG富集分析算法时,步骤S1-1中所述注释信息为KEGG数据库的注释信息。
可选的,所述当利用KEGG数据库的注释信息时,所述输入数据文件包含待分析对象的KO编号与其对应的基因ID,和包含待分析对象的KO编号与其注释信息的两类文件。
步骤S3中,对富集分析的结果进行整理是选择分析方法类型中产生的每一个分析结果数据;所述的可视化展示是分析结果进行对应的可视化分析结果。
步骤S3中,对富集结果进行整理包括如下步骤:利用输出结果整理算法将富集分析过程中生成的不同结果文件放入不同目录。方便查看和后期分析使用。
本发明所述的能够读取基因GO注释文件的算法、构建物种OrgDb的算法、安装OrgDb的算法、OrgDb导入的算法、输入数据整理的算法、富集分析算法、输出结果整理算法、结果可视化的方法均为R语言中的函数方法。本流程中涉及以下R语言使用的函数方法选自以下任一项或多项:AnnotationForge、clusterProfiler、ggplot2、optparse。
优选的,所述clusterProfiler为clusterProfiler4.0。
可选的,步骤S2中,所述富集目标集合数据的来源选自以下至少之一:待分析对象的差异表达的基因列表、待分析对象的WGCNA分析模块基因或者代谢物集合、待分析对象的差异代谢物集合或差异蛋白集合、待分析对象所属物种的KEGG的注释文件、或待分析对象所属物种在NCBI的TaxID。
所述待分析对象的差异表达的基因列表是指待分析对象与对照组经过统计计算获得的差异表达的基因所组成的列表。
所述待分析对象的差异异代谢物集合或差异蛋白集合是指待分析对象与对照组经过统计计算获得的差异代谢物的集合或蛋白的集合。
所述对照组为,在生物实验中,未接受待分析对象所接受的变量处理的组别。所述变量可以根据目的不同灵活设置。
本领域公知的是,所述的物种基因的KEGG注释由Kyoto Encyclopedia of Genesand Genomes官方网站提供。
进一步地,本发明所述方法利用R语言及shell语言,最后使用使用python进行搭建。
如图1-3所示,本发明一实施例的基于多组学数据进行功能富集分析的分析装置,至少包括如下模块:
数据获取模块211,用于获取输入数据和待分析对象的富集目标集合数据;所述输入数据包括待分析对象的物种名称及注释信息;
OrgDb数据库构建模块212,用于根据输入数据构建待分析对象的物种OrgDb数据库;
富集分析模块22,用于根据待分析对象的富集目标集合数据及所述的物种OrgDb数据库,利用至少一个富集分析算法对待分析对象进行富集分析;
结果输出模块23,用于对富集分析的结果进行整理及可视化展示。
所述注释信息为物种基因的GO注释和/或KEGG注释。
富集分析模块中,所述富集分析算法选自GO富集分析、KEGG富集分析、DO富集分析、Reactome pathway analysis富集分析以及GSEA富集分析算法中的一种或多种。
所述富集目标集合数据的来源选自以下至少之一:待分析对象的差异表达的基因列表、待分析对象的WGCNA分析模块基因或者代谢物集合、待分析对象的差异代谢物集合或差异蛋白集合、待分析对象所属物种的KEGG的注释文件、或待分析对象所属物种在NCBI的TaxID。
结果输出模块中,包括结果整理子模块,用于利用输出结果整理算法将富集分析过程中生成的不同结果文件放入不同目录。
所述输出模块中,还包括可视化展示子模块,用于将富集分析结果进行对应的可视化展示。
由于本实施例中的装置与前述方法实施例的原理基本相同,在上述方法和装置实施例中,对相同特征的定义、计算方法、实施方式的列举及优选实施方式的列举阐述可以互用,不再重复赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在某一个芯片中实现,此外,也可以以程序代码的形式存储于存储器中,由某一个处理元件调用并执行以上获取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或图形处理器(GraphicsProcessing Unit,简称:GPU)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
在本发明的一些实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述基于多组学数据进行功能富集分析的分析方法。
在本发明的一些实施例中,还提供了一种计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现前述基于多组学数据进行功能富集分析的分析方法的步骤。
在本发明的一些实施例中,还提供了一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行基于多组学数据进行功能富集分析的分析方法。
如图7所示,展示本发明提供的一种电子终端的示意图。所述电子终端包括处理器31、存储器32、通信器33、通信接口34和系统总线35;存储器32和通信接口34通过系统总线35与处理器31和通信器33连接并完成相互间的通信,存储器32用于存储计算机程序,通信器33、通信接口34用于和其他设备进行通信,处理器31和通信器33用于运行计算机程序,使电子终端执行如上分析方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(PeripheralPomponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(RandomAccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)、图形处理器(Graphics Processing Unit,简称:GPU)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
在具体实现上,所述计算机程序为执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。
实施例1
本实施例测序数据包括2273个人的差异表达基因。
本发明的构建物种OrgDb并基于clusterprofiler4.0进行富集分析方法的一种实施例,参见图1,首先根据物种的GO注释构建物种OrgDb,其次对物种的差异表达基因进行不同的富集分析,最后对分析结果进行整理与可视化展示;该分析方法的具体步骤如下:
(1)构建物种OrgDb:通过程序对Gene Ontology官方网站获取的人的GO注释信息进行人的OrgDb构建,程序构建人的OrgDb之前,将需要输入到至少一个算法的数据配置为该算法相匹配的格式,程序将格式匹配之后的数据作为输入数据输入到至少一个算法。其中,程序待调用的至少一个算法所匹配的格式为包含基因名与其注释的文件,和基因名与其每一个GO编号对应的文件。程序获得调用至少一个算法进行构建之后输出构建完成的人的OrgDb,并根据结果文件进行人的OrgDb的安装。
(2)差异表达基因的富集分析:通过程序对物种差异表达进行富集分析(本实施例中物种差异表达基因为2273个人的差异表达基因),并对富集分析结果进行数控整理输出文件。在本实施例中,程序调用的至少一个富集分析算法包括以下至少之一:GO富集分析、KEGG富集分析、DO富集分析、Reactome pathway analysis富集分析以及GSEA富集分析。其中,程序的输入包括本实施例中2273个人的差异表达基因和人的KEGG注释信息的数据,程序调用至少一个分析算法对输入数据进行分析,其中,程序在调用至少一个分析算法之前,将需要输入到至少一个分析方法的数据配置为该分析方法相匹配的格式;程序将格式匹配之后的数据作为输入数据输入到至少一个分析算法。在本实施例中,程序输入的数据包括2273个人的差异表达基因列表文件、KEGG编号与每一个人的基因名对应的文件、KEGG编号与其注释的文件。程序调用至少一个分析算法对本实施例中的差异比较基因进行富集分析,结果输出至调用分析方法命名文件之中。
(3)分析结果的整理与可视化展示:程序获取调用至少一个分析方法进行处理之后输出的结果,根据结果进行数据整理与可视化展示,并自动整理每一步生成的结果文件至特定目录,方便查看与后期分析的使用。
上述步骤(2)中,程序调用至少一个富集分析方法为GO富集分析时,可视化结果参见图2。
上述步骤(2)中,程序调用至少一个富集分析方法为KEGG富集分析时,可视化结果参见图3。
上述步骤(2)中,程序调用至少一个富集分析方法为DO富集分析时,可视化结果参见图4。
上述步骤(2)中,程序调用至少一个富集分析方法为Reactome pathway analysis富集分析时,可视化结果参见图5。
上述步骤(2)中,程序调用至少一个富集分析方法为GSEA富集分析时,可视化结果参见图6。
除上述基础分析外,如差异基因文件还有差异倍数等信息,可通过但不限于筛选不同差异倍数的基因进行分析并进行不同差异倍数的结果可视化展示。
其中,本发明使用python语言来搭建(目前使用的python版本是3.9.1),后续的所有分析都基于开发的R脚本进行分析,其分析主要包含两个R脚本,分别对应物种OrgDb构建与目标集合数据进行富集分析。本发明实施例中脚本使用说明如下:
主流程脚本帮助信息:
python3 omics_clusterprofile.py-h
optional arguments:
-h,--help show this help message and exit
-f DEGFILE,--degfile DEGFILE
The file of deg
-g GOLIST,--golist GOLIST
The file of gene.go.list
-k KEGGLIST,--kegglist KEGGLIST
The file of gene.kegg.list
-p PATHWAY,--pathway PATHWAY
The file of pathway_table.xls
-a ANNO,--anno ANNO The file of all_anno_detail.xls
-s SPECIES,--species SPECIES
Species name eg:hsa
-t TAXID,--taxid TAXID
NCBI taxid eg:9606
-l LAYOUTTYPE,--layouttype LAYOUTTYPE
Setting layout;default:circle;eg:circle or kk
-n NODELABEL,--nodelabel NODELABEL
Setting node_label;default:all,it is one of none,all,gene or category
-b GSEA,--Gsea GSEA Whether to conduct GSEA analysis;default:False
-G GOENRICH,--Goenrich GOENRICH
Do you need GO analysis;default:True
-K KEGGENRICH,--Keggenrich KEGGENRICH
Do you need KEGG analysis;default:True
-D DOENRICH,--Doenrich DOENRICH
Do you need DO analysis;default:TRUE
-R REENRICH,--Reenrich REENRICH
Do you need Reactome analysis;default:TRUE
-o OUTPWD,--outpwd OUTPWD
Out path
上述脚本即为本发明一实施例中构建物种OrgDb的使用说明,解释如下:
-f输入的目标集合数据
-g输入该物种的GO注释结果文件
-k输入该物种的KEGG注释结果
-p输入该物种的KEGG通路结果
-a输入该物种的其他的数据库的注释结果
-s构建该物种的名称(物种简称即可)例如,人:hsa
-t如果该物种收入了NCBI库,可以直接使用taxid号eg:9606
-l图形的输出格式,当前默认是环状
-n输出的图形的节点的展示名称,默认是全部展示
-b默认不做GSEA分析
-K是否需要做KEGG富集分析,默认是
-D是否需要做DO富集分析,默认否
-R是否要做Reactome分析,默认是
-o分析输出的结果路径名称
构建物种OrgDb脚本帮助信息:
Figure BDA0003723937560000121
上述脚本即为本发明一实施例中构建物种OrgDb的使用说明,解释如下:
-i:输入文件,包含物种基因名与其对应的注释信息,基因名可以来自不同数据库。
-g:输入文件,包含物种基因名与其对应的GO编号,每一行只能有一个基因与其对应的一个GO编号,如一个基因有多个GO编号则需另起一行。
-s:输出文件(物种OrgDb)的name。
-n:物种在NCBI的Taxid。
-o:输出文件路径。
按照上述实例运行后,可以得到名字为org.hs.eg.db的文件,该文件即为物种OrgDb,并已在R语言中安装,后续只需导入即可。
上述脚本运行生成的的物种OrgDb用于后续的富集分析,脚本帮助信息如下:
Figure BDA0003723937560000131
Figure BDA0003723937560000141
上述脚本即为本发明一实施例中富集分析的使用说明,解释如下:
-e:输入文件,包含物种差异表达的基因的文件。
-i:输入文件,包含KEGG编号与其对应的物种基因名,每一行只能有一个KEGG编号和与其对应的一个物种基因名,如一个KEGG编号有多个物种基因名则需另起一行。
-m:输入文件,包含KEGG编号与其注释。
-c:输入文件,包含KEGG注释信息的分类文件。
-f:如“-e”中输入的文件包含对基因的差异表达倍数信息,则可对该文件进行差异倍数的筛选,默认为2。
-l:部分可视化结果的展示方式的选择(图形),默认为“circle”。
-n:部分可视化结果的展示方式的选择(标签),默认为“none”。
-s:输入为分析物种的name,默认为“hsa”。
-a:富集基因的筛选,默认为筛选的差异表达基因。
-b:分析方法的选择;是否进行GSEA分析,如进行分析则“-e”中输入的文件除了差异表达基因外还需提供其对应的rank值;默认为:FALSE。
-g:分析方法的选择;是否进行GO富集分析;默认为:TRUE。
-k:分析方法的选择;是否进行KEGG富集分析;默认为:TRUE。
-d:分析方法的选择;是否进行DO富集分析;默认为:FALSE。
-r:分析方法的选择;是否进行Reactome pathway analysis富集分析;默认为:FALSE。
按照上述实例运行后,可以得结果文件包括以下至少之一:GO_result、KEGG_result、DO_result、Reactome_result的文件。待脚本运行完成,可以在当前目录下找到结果文件,在当前路径的结果文件目录下可找到有用的分析结果。
本发明针对现有富集分析方法中对物种的支持、方法的选择、结果的展示等方面存在局限性的问题,本发明提供了上述分析流程,旨在构建一整套自动化物种OrgDb构建与富集分析流程,实现针对不同物种的差异基因进行多元化富集分析并对分析结果进行丰富的展示,节省分析过程的人力与时间,提高结果准确性与分析效率。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (13)

1.一种基于多组学数据进行功能富集分析的分析方法,至少包括如下步骤:
步骤S1-1,获取输入数据和待分析对象的富集目标集合数据;所述输入数据包括待分析对象的物种名称及注释信息;
步骤S1-2,根据输入数据构建待分析对象的物种OrgDb数据库;
步骤S2,根据待分析对象的富集目标集合数据及所述的物种OrgDb数据库的数据,利用至少一个富集分析算法对待分析对象进行富集分析;
步骤S3,对富集分析的结果进行整理及可视化展示。
2.如权利要求1所述的基于多组学数据进行功能富集分析的分析方法,其特征在于,所述注释信息为物种基因的GO注释和/或KEGG注释。
3.如权利要求1所述的基于多组学数据进行功能富集分析的分析方法,其特征在于,步骤S2中,所述富集分析算法选自GO富集分析、KEGG富集分析、DO富集分析、Reactomepathway analysis富集分析以及GSEA富集分析算法中的一种或多种。
4.如权利要求1所述的基于多组学数据进行功能富集分析的分析方法,其特征在于,所述富集目标集合数据的来源选自以下至少之一:待分析对象的差异表达的基因列表、待分析对象的WGCNA分析模块基因或者代谢物集合、待分析对象的差异代谢物集合或差异蛋白集合、待分析对象所属物种的KEGG的注释文件、或待分析对象所属物种在NCBI的TaxID。
5.如权利要求1所述的基于多组学数据进行功能富集分析的分析方法,其特征在于,步骤S3中,对富集结果进行整理包括如下步骤:利用输出结果整理算法将富集分析过程中生成的不同结果文件放入不同目录。
6.一种基于多组学数据进行功能富集分析的分析装置,至少包括如下模块:
数据获取模块,用于获取输入数据和待分析对象的富集目标集合数据;所述输入数据包括待分析对象的物种名称及注释信息;
OrgDb数据库构建模块,用于根据输入数据构建待分析对象的物种OrgDb数据库;
富集分析模块,用于根据待分析对象的富集目标集合数据及所述的物种OrgDb数据库的数据,利用至少一个富集分析算法对待分析对象进行富集分析;
结果输出模块,用于对富集分析的结果进行整理及可视化展示。
7.如权利要求6所述的基于多组学数据进行功能富集分析的分析装置,其特征在于,所述注释信息为物种基因的GO注释和/或KEGG注释。
8.如权利要求6所述的基于多组学数据进行功能富集分析的分析装置,其特征在于,富集分析模块中,所述富集分析算法选自GO富集分析、KEGG富集分析、DO富集分析、Reactomepathway analysis富集分析以及GSEA富集分析算法中的一种或多种。
9.如权利要求6所述的基于多组学数据进行功能富集分析的分析装置,其特征在于,所述富集目标集合数据的来源选自以下至少之一:待分析对象的差异表达的基因列表、待分析对象的WGCNA分析模块基因或者代谢物集合、待分析对象的差异代谢物集合或差异蛋白集合、待分析对象所属物种的KEGG的注释文件、或待分析对象所属物种在NCBI的TaxID。
10.如权利要求6所述的基于多组学数据进行功能富集分析的分析装置,其特征在于,结果输出模块中,包括结果整理子模块,用于利用输出结果整理算法将富集分析过程中生成的不同结果文件放入不同目录。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一所述的基于多组学数据进行功能富集分析的分析方法。
12.一种计算机处理设备,包括处理器及权利要求11所述的计算机可读存储介质,其特征在于,所述处理器执行所述计算机可读存储介质上的计算机程序,实现权利要求1-5任一所述的基于多组学数据进行功能富集分析的分析方法的步骤。
13.一种电子终端,其特征在于,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1-5任一所述的基于多组学数据进行功能富集分析的分析方法。
CN202210777166.9A 2022-06-30 一种基于多组学数据进行功能富集分析的分析方法、装置及应用 Active CN115148294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210777166.9A CN115148294B (zh) 2022-06-30 一种基于多组学数据进行功能富集分析的分析方法、装置及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210777166.9A CN115148294B (zh) 2022-06-30 一种基于多组学数据进行功能富集分析的分析方法、装置及应用

Publications (2)

Publication Number Publication Date
CN115148294A true CN115148294A (zh) 2022-10-04
CN115148294B CN115148294B (zh) 2024-10-22

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118053503A (zh) * 2024-01-11 2024-05-17 中国农业科学院农业基因组研究所 一种入侵生物多组学数据库构建方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577919A (zh) * 2017-08-21 2018-01-12 上海派森诺生物科技股份有限公司 一种基于高通量测序技术的宏基因组数据分析方法
CN107862176A (zh) * 2017-10-13 2018-03-30 浙江大学 一种基于多组学数据整合的植物全基因组多层次生物网络重建方法
CN109215738A (zh) * 2018-10-12 2019-01-15 中南大学 阿尔茨海默症相关基因的预测方法
KR20200042295A (ko) * 2018-10-15 2020-04-23 연세대학교 산학협력단 네트워크 기반의 유전자 세트 증강 분석 방법을 이용한 약물 재창출 방법
CN111276190A (zh) * 2020-01-07 2020-06-12 广州基迪奥生物科技有限公司 一种基于生物云平台的动态交互富集分析方法及系统
CN111796095A (zh) * 2019-04-09 2020-10-20 苏州扇贝生物科技有限公司 一种蛋白质组质谱数据处理方法及装置
CN112420130A (zh) * 2020-11-03 2021-02-26 上海美吉生物医药科技有限公司 基于kegg数据库的注释方法、装置、设备和介质
CN113053453A (zh) * 2021-03-15 2021-06-29 中国农业科学院农业质量标准与检测技术研究所 应用转录组学筛选全氟辛烷磺酸毒性枢纽基因和关键信号通路的方法
AU2021104371A4 (en) * 2021-07-21 2021-09-16 Tongji Hospital of Tongji Medical College, Huazhong University of Science and Technology Method for constructing model for predicting survival period of hepatocellular carcinoma based on RNA binding protein
US20230057308A1 (en) * 2020-05-04 2023-02-23 Carmel Haifa University Economic Corporation Ltd. Prediction of biological role of tissue receptors

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577919A (zh) * 2017-08-21 2018-01-12 上海派森诺生物科技股份有限公司 一种基于高通量测序技术的宏基因组数据分析方法
CN107862176A (zh) * 2017-10-13 2018-03-30 浙江大学 一种基于多组学数据整合的植物全基因组多层次生物网络重建方法
CN109215738A (zh) * 2018-10-12 2019-01-15 中南大学 阿尔茨海默症相关基因的预测方法
KR20200042295A (ko) * 2018-10-15 2020-04-23 연세대학교 산학협력단 네트워크 기반의 유전자 세트 증강 분석 방법을 이용한 약물 재창출 방법
CN111796095A (zh) * 2019-04-09 2020-10-20 苏州扇贝生物科技有限公司 一种蛋白质组质谱数据处理方法及装置
CN111276190A (zh) * 2020-01-07 2020-06-12 广州基迪奥生物科技有限公司 一种基于生物云平台的动态交互富集分析方法及系统
US20230057308A1 (en) * 2020-05-04 2023-02-23 Carmel Haifa University Economic Corporation Ltd. Prediction of biological role of tissue receptors
CN112420130A (zh) * 2020-11-03 2021-02-26 上海美吉生物医药科技有限公司 基于kegg数据库的注释方法、装置、设备和介质
CN113053453A (zh) * 2021-03-15 2021-06-29 中国农业科学院农业质量标准与检测技术研究所 应用转录组学筛选全氟辛烷磺酸毒性枢纽基因和关键信号通路的方法
AU2021104371A4 (en) * 2021-07-21 2021-09-16 Tongji Hospital of Tongji Medical College, Huazhong University of Science and Technology Method for constructing model for predicting survival period of hepatocellular carcinoma based on RNA binding protein

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118053503A (zh) * 2024-01-11 2024-05-17 中国农业科学院农业基因组研究所 一种入侵生物多组学数据库构建方法及系统

Similar Documents

Publication Publication Date Title
Mercatelli et al. Gene regulatory network inference resources: A practical overview
Tyanova et al. The Perseus computational platform for comprehensive analysis of (prote) omics data
Contreras-López et al. Step-by-step construction of gene co-expression networks from high-throughput Arabidopsis RNA sequencing data
Yi et al. WholePathwayScope: a comprehensive pathway-based analysis tool for high-throughput data
Cline et al. Integration of biological networks and gene expression data using Cytoscape
Köhler et al. Graph-based analysis and visualization of experimental results with ONDEX
Kessler et al. MeltDB 2.0–advances of the metabolomics software system
Pandey et al. Pathway Miner: extracting gene association networks from molecular pathways for predicting the biological significance of gene expression microarray data
US10573406B2 (en) Method, apparatus and computer program product for metabolomics analysis
Lambert et al. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models
Cavalieri et al. Bioinformatic methods for integrating whole-genome expression results into cellular networks
Komljenovic et al. BgeeDB, an R package for retrieval of curated expression datasets and for gene list expression localization enrichment tests
Mias et al. MathIOmica: an integrative platform for dynamic omics
Srivas et al. Assembling global maps of cellular function through integrative analysis of physical and genetic networks
Meur et al. Analyzing biological data using R: methods for graphs and networks
Costa et al. GeNNet: an integrated platform for unifying scientific workflows and graph databases for transcriptome data analysis
Fahlgren et al. Toward a data infrastructure for the Plant Cell Atlas
US20080281864A1 (en) Method of Displaying Molecule Function Network
Bansal et al. A review on machine learning aided multi-omics data integration techniques for healthcare
Kim et al. Bioinformatics analysis of single-cell RNA-seq raw data from iPSC-derived neural stem cells
Li et al. Cellxgene VIP unleashes full power of interactive visualization and integrative analysis of scRNA-seq, spatial transcriptomics, and multiome data
Hughes et al. ExpressionDB: An open source platform for distributing genome-scale datasets
CN114999564A (zh) 蛋白质数据处理方法、装置、电子设备以及存储介质
CN115148294B (zh) 一种基于多组学数据进行功能富集分析的分析方法、装置及应用
CN115148294A (zh) 一种基于多组学数据进行功能富集分析的分析方法、装置及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant