CN112669899A - 一种16s和宏基因组测序数据关联分析方法、系统及设备 - Google Patents

一种16s和宏基因组测序数据关联分析方法、系统及设备 Download PDF

Info

Publication number
CN112669899A
CN112669899A CN202011555939.6A CN202011555939A CN112669899A CN 112669899 A CN112669899 A CN 112669899A CN 202011555939 A CN202011555939 A CN 202011555939A CN 112669899 A CN112669899 A CN 112669899A
Authority
CN
China
Prior art keywords
data
analysis
species
metagenomic
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011555939.6A
Other languages
English (en)
Other versions
CN112669899B (zh
Inventor
高川
周煌凯
陈飞钦
艾鹏
张秋雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Gene Denovo Biotechnology Co ltd
Original Assignee
Guangzhou Gene Denovo Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Gene Denovo Biotechnology Co ltd filed Critical Guangzhou Gene Denovo Biotechnology Co ltd
Priority to CN202011555939.6A priority Critical patent/CN112669899B/zh
Publication of CN112669899A publication Critical patent/CN112669899A/zh
Application granted granted Critical
Publication of CN112669899B publication Critical patent/CN112669899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明是关于一种16S和宏基因组测序数据关联分析方法、系统及设备。该方案包括对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据;根据所述16S组学数据进行microPITA分析,获得代表性样本;根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有统计物种/功能统计,并图示化展示;进行物种/功能分布分析,获得两组学所有样本中物种/功能丰度变化和主要物种/功能类型;根据所述16S组学数据和所述宏基因组学数据进行相关性分析和环境因子关联分析。该方案提供16S与宏基因组测序数据关联分析方法,利用宏基因组扩展数据研究深度,利用16S验证宏基因组数据分析准确性,实现两组学数据的相互补充和验证。

Description

一种16S和宏基因组测序数据关联分析方法、系统及设备
技术领域
本发明涉及数据处理和分析领域,尤其涉及一种16S和宏基因组测序数据关联分析方法、系统及设备。
背景技术
微生物与生物,环境,生产等方方面面息息相关,扮演着重要的作用,其中人体微生物更是被认为人类第二基因组学。随着科技技术的发展,高通量测序也在不断普及。16S测序技术和宏基因组测序技术是两种重要的高通量测序手段。16S测序技术一般仅侧重研究群落的多样性变化,宏基因组测序侧重挖掘微生物群落的功能结构。
现有技术存在如下缺陷:虽可通过软件根据数据进行16S测序数据进行通路功能分析,但分析准确性有限,且受引物特异性、扩增偏好性、分辨率等影响;虽已有分析可以挖掘宏基因组中多样性研究,但数据量不足和组装效果不理想等因素制约着数据分析。
发明内容
为克服相关技术中存在的问题,本发明提供一种16S和宏基因组测序数据关联分析方法、系统及设备,从而解决单一16S测序数据和单一宏基因组测序数据分析中的缺陷。
根据本发明实施例的第一方面,提供一种16S和宏基因组测序数据关联分析方法。该方法包括:
对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据;其中,所述16S组学数据包括16S物种丰度表和16S功能丰度表,所述宏基因组学数据包括宏基因物种丰度表和宏基因功能丰度表;
根据所述16S组学数据进行microPITA分析,获得代表性样本;
根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有的物种/功能统计,并图示化展示;
根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种/功能丰度变化和鉴定到的主要物种/功能类型;
根据所述16S组学数据和所述宏基因组学数据进行相关性分析,包括pea rson相关系数、mantel test分析、procrustes test分析;
根据所述16S组学数据和所述宏基因组学数据进行环境因子关联分析。
优选地,所述对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据,具体包括:
对所述样本进行16S rDNA测序,获得所述16S物种丰度表,利用PICR USt2软件预测,获得所述16S功能丰度表;
对所述样本进行宏基因组测序,获得所述宏基因物种丰度表和所述宏基因功能丰度表;
其中,所述宏基因功能丰度表和所述16S功能丰度表都包括KEGG功能的level B丰度表和level C丰度表。
优选地,所述根据所述16S组学数据进行microPITA分析,获得代表性样本,具体包括:
根据所述16S组学数据,利用筛选指标挑选代表性样本,其中,所述筛选指标包括diverse,extreme,representative,distinct,discriminant;
利用microPITA软件在所述16S组学数据中获取所述代表性样本的样本信息;
利用R语言vegan包对16S OTU丰度表进行bray-curtis距离PCoA分析,获得所有样本在二维空间的分布特征,同时在图形中可标记MicroPITA筛选出的代表性样本。
优选地,所述根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有的物种/功能统计,并图示化展示,具体包括:
基于各物种分类水平和KEGG功能的level B丰度表和level C丰度表,使用R语言的VennDiagram包和upsetR包,以0为阈值,进行韦恩分析;
使用韦恩图和upset图展示所述16S组学数据和所述宏基因组学数据的共有、特有元素的数量;
使用Lefse软件在物种层级进化分支树上标记16S和宏基因组鉴定到的共有、特有物种。
优选地,所述根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种/功能丰度变化和鉴定到的主要物种/功能类型,具体包括:
挑选所述16S组学数据中各分类水平排名前10的物种/功能,并存储为第一16S物种/功能;
挑选所述宏基因组学数据中各分类水平排名前10的物种/功能,并存储为第一宏基因物种/功能;
对所述第一16S物种/功能与所述第一宏基因物种/功能取并集,并保存;
从所述宏基因组学数据和所述16S组学数据中除去所述第一16S物种/功能与所述第一宏基因物种/功能的并集,并将已知的物种/功能划标注为other,将未知物种/功能标注为unclassified;
使用R语言ggplot2包绘制两组学所有样本中物种/功能丰度变化和两组学鉴定到的主要物种/功能类型,其中,所述两组学包括所述16S组学数据和所述宏基因组学数据。
优选地,所述根据所述16S组学数据和所述宏基因组学数据进行相关性分析,包括pearson相关系数分析、mantel test分析、procrustes test分析;
所述pearson相关系数分析具体操作为:将所述16S组学数据和所述宏基因组学数据中所有样本的丰度数据进行对数转化后,使用R语言psych包计算所述16S组学数据和所述宏基因组学数据的pearson相关系数,并使用Fizh-Z 变换计算相关显著性,并图示化展示数据分析结果;
所述mantel test分析具体操作为:基于所述16S组学数据中的16S物种/ 功能数据,计算样本间的Bray-curtis距离矩阵;基于所述宏基因组学数据中的宏基因组物种/功能数据,计算样本间的Bray-curtis距离矩阵;使用R语言veg an包,对两组学的距离矩阵进行mantel test分析,进而计算各物种/功能分类水平下16S和宏基因组测序结果的相关性,通过permutation置换检验999次,计算相关显著性,并图示化展示数据分析结果;
所述procrustes test分析具体操作为:使用R语言Vegan包,根据各分类水平两组学物种/功能Bray-curtis距离的PCoA结果,开展Procrustes分析,并使用permutationtest进行相关显著性检验,并图示化展示数据分析结果;
其中,所述两组学包括所述16S组学数据和所述宏基因组学数据。
优选地,所述根据所述16S组学数据和所述宏基因组学数据进行环境因子关联分析,具体包括:
使用R语言psych包计算环境因子间的pearson相关系数;
使用R语言vegan包进行16S测序OTU丰度表、16S测序的shannon多样性、宏基因组功能矩阵与每个环境因子的mantel test分析;
通过permutation置换检验999次,计算相关显著性;
利用R语言ggcor包生成热图和网络图结合的形式展示。
根据本发明实施例的第二方面,提供一种16S和宏基因组测序数据关联分析系统,该系统包括:
组学数据获取模块,对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据;其中,所述16S组学数据包括16S物种丰度表和16 S功能丰度表,所述宏基因组学数据包括宏基因物种丰度表和宏基因功能丰度表;
microPITA分析模块,根据所述16S组学数据进行microPITA分析,获得代表性样本;
韦恩分析模块,根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有的物种/功能统计,并图示化展示;
物种/功能分布分析模块,根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种 /功能丰度变化和鉴定到的主要物种/功能类型;
相关性分析模块,根据所述16S组学数据和所述宏基因组学数据进行相关性分析,包括pearson相关系数、mantel test分析、procrustes test分析;
环境因子关联分析模块,根据所述16S组学数据和所述宏基因组学数据进行环境因子关联分析。
优选地,一种16S和宏基因组测序数据关联分析系统,该系统还包括:
显示模块,用于显示所述组学数据获取模块、所述microPITA分析模块、所述韦恩分析模块、所述物种/功能分布分析模块、所述相关性分析模块和所述环境因子关联分析模块中获得的关联分析图与关联分析数据;
存储模块,用于存储所述组学数据获取模块、所述microPITA分析模块、所述韦恩分析模块、所述物种/功能分布分析模块、所述相关性分析模块和所述环境因子关联分析模块中获得的关联分析图与关联分析数据。
根据本发明实施例的第三方面,提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现所示的16S和宏基因组测序数据关联分析方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
1、通过使用韦恩分析进行两组学共有、特有的物种和功能分析,并结合物种进化分支树对物种的共有性可视化展示明确组学之间的差异,实现两种组学数据的互相补充,支撑组学之间的互相完善。
2、通过判断两组学的一致性和相关性,使数据分析的更靠性,使用堆叠图直观展示两组学样本中物种/功能丰度变化规律,初步观察两组学的一致性,结合饼图展示两组学各自鉴定到的高丰度物种/功能,对比观察一致性,进而开展相关性分析,实现两种组学数据的互相验证,有效判断组学相关性。
3、在宏基因组与16S测序样本没有一一对应时,本方案通过microPITA 分析,可根据16S测序的OTU丰度表,评估出最具有代表性的样本,作为指导宏基因组分析样本选择的参考。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法的流程图。
图2是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的组学数据获取流程图。
图3是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的microPITA分析流程图。
图4是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的韦恩分析流程图。
图5是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的物种/功能分布分析流程图。
图6是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的散点图。
图7是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的mantel-test检验图。
图8是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的procrustes分析图。
图9是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的环境因子关联分析流程图。
图10是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的环境因子mantel-test分析图。
图11是本发明一个实施例的一种16S和宏基因组测序数据关联分析系统的结构图。
图12是本发明一个实施例的一种16S和宏基因组测序数据关联分析系统的模块处理关系示意图。
图13是本发明一个实施例的一种电子设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
微生物与生物,环境,生产等方方面面息息相关,扮演着重要的作用,其中人体微生物更是被认为人类第二基因组学。随着科技技术的发展,高通量测序也在不断普及。16S测序技术和宏基因组测序技术是两种重要的高通量测序手段之一。16S测序技术一般仅侧重研究群落的多样性变化,宏基因组测序侧重挖掘微生物群落的功能结构。
现有技术存在如下缺陷:虽可通过软件根据数据进行16S测序数据进行通路功能分析,但分析准确性有限,且受引物特异性/扩增偏好性/分辨率等影响;虽已有分析可以挖掘宏基因组中多样性研究,但数据量不足和组装效果不理想等因素制约着数据分析。
本发明技术方案提供16S与宏基因组测序数据的关联分析方法,使两组学数据相互补充,由宏基因组扩展数据研究的深度,并使两组学数据相互验证,由16S验证宏基因组数据分析的准确性。
图1是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法的流程图。优选地,16S和宏基因组测序数据关联分析方法,其特征在于,包括:
S101、对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据;其中,所述16S组学数据包括16S物种丰度表和16S功能丰度表,所述宏基因组学数据包括宏基因物种丰度表和宏基因功能丰度表;
S102、根据所述16S组学数据进行microPITA分析,获得代表性样本;
其中,microPITA分析为基因筛选方法。
S103、根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有的物种/功能统计,并图示化展示;
S104、根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种/功能丰度变化和鉴定到的主要物种/功能类型;
S105、根据所述16S组学数据和所述宏基因组学数据进行相关性分析,包括pearson相关系数、mantel test分析、procrustes test分析;
S106、根据所述16S组学数据和所述宏基因组学数据进行环境因子关联分析。
其中,Pearson相关系数(Pearson Correlation Coefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系;Mantel test是对两个矩阵相关关系的检验;Procrustes test为强制一致性检验。
在本发明实施例中,通过在进行16S测序和宏基因测序的基础上,利用 16S组学数据进行microPITA分析,利用16S组学数据和宏基因组学数据进行韦恩图分析、物种/功能分布分析、相关性分析和环境因子关联分析。通过全方位的数据分析一方面能够获得两种组学数据的差别,另一方面可以发挥两种组学数据的各自优势,进而使两组学数据分析更加准确和全面。
图2是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的组学数据获取流程图。优选地,所述对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据,具体包括:
S201、对所述样本进行16S rDNA测序,获得所述16S物种丰度表,利用PICRUSt2软件预测,获得所述16S功能丰度表;
其中,16SrDNA为编码该亚基的基因。
S202、对所述样本进行宏基因组测序,获得所述宏基因物种丰度表和所述宏基因功能丰度表;
其中,所述宏基因功能丰度表和所述16S功能丰度表都包括KEGG功能的level B丰度表和level C丰度表。
其中,PICRUSt2(Phylogenetic Investigation of Communities byReconstruction of Unobserved States)是一款基于标记基因序列来预测功能丰度的软件;KEGG(Kyoto Encyclopedia of Genes and Genomes),是从大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源。
在本发明实施例中,首先通过16S的测序,获取了16S的物种丰度表,并通过PICRUSt2软件预测到功能丰度表,其次通过宏基因组测序,获得物种丰度表和功能丰度表。最终,完成完整的16S和宏基因的测序,并保存了相应的物种和功能丰度,这部分是后续进行数据分析的数据基础。
图3是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的microPITA分析流程图。优选地,所述根据所述16S组学数据进行 microPITA分析,获得代表性样本,具体包括:
S301、根据所述16S组学数据,利用筛选指标挑选代表性样本,其中,所述筛选指标包括diverse,extreme,representative,distinct,discriminant;
S302、利用microPITA软件在所述16S组学数据中获取所述代表性样本的样本信息;
S303、利用R语言vegan包对16S OTU丰度表进行bray-curtis距离PCoA分析,获得所有样本在二维空间的分布特征,同时在图形中可标记MicroPITA 筛选出的代表性样本。
其中,R语言是用于统计分析、绘图的语言和操作环境。R语言是属于 GNU系统的一个源代码开放的软件,用于统计计算和统计制图的工具。
在本发明实施例中,提供了组学数据的指标筛选方法的例子,包括 diverse(物种丰富度),extreme(极端(无分组)),representative(代表性),distinct(极端(有分组)),discriminant(区分度)等,进一步的, diverse为α多样性最高的样本,extreme为β多样性显示的最极端的样本, representative为β多样性显示的最能反映整体差异特征的样本,distinct为根据分组特征,分组之间β多样性距离最大的样本,discriminant为根据分组特征,分组内距离中心点最近的样本,在筛选的基础上,利用microPITA分析即可获得代表性样本。
在获取组学数据的基础上,本实施例中将利用图4-图12,分别进行基于 16S组学数据和宏基因组学数据的韦恩图分析、物种/功能分布分析、相关性分析和环境因子关联分析的详细介绍。
图4是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的韦恩分析流程图。优选地,所述根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有物种/功能的统计,图示化展示,即绘制物种进化分支图,具体包括:
S401、基于各物种分类水平和KEGG功能的level B丰度表和level C丰度表,使用R语言的VennDiagram包和upsetR包,以0为阈值,进行韦恩分析;
S402、使用韦恩图和upset图展示所述16S组学数据和所述宏基因组学数据的共有、特有元素的数量;
其中,upset图是指用利用upsetR绘制的图片。
S403、使用Lefse软件在物种层级进化分支树上标记16S和宏基因组鉴定到的共有、特有物种。
本发明实施例中,通过韦恩分析可获得两组学间共有、特有物种和功能的统计,共有信息表明一致性,特有信息则可作为两组学互相补充的部分。使用R语言VennDiagram包和upsetR包,基于16S和宏基因组分析各物种分类水平(门到种)和KEGG功能(level B和levelC)丰度表,以0为阈值,其中所述0为阈值指物种和功能在该组学所有样本中丰度均值为0,则认为该组学无此物种/功能,进而进行韦恩分析,使用韦恩图和upset图展示共有、特有元素的数量。该方案可以直观展示共有、特有物种的进化关系特征,借助物种分类的进化分枝图,且标注两组学共有特有的物种,并使用Lefse软件,基于物种分类层级信息构建物种的进化分枝树,为避免图形冗余,筛选在各组学中物种丰度均值大于1%的物种。
图5是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的物种/功能分布分析流程图。优选地,所述根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种/功能丰度变化和鉴定到的主要物种/功能类型,具体包括:
S501、挑选所述16S组学数据中各分类水平排名前10的物种/功能,并存储为第一16S物种/功能;
S502、挑选所述宏基因组学数据中各分类水平排名前10的物种/功能,并存储为第一宏基因物种/功能;
S503、对所述第一16S物种/功能与所述第一宏基因物种/功能取并集,并保存;
S504、从所述宏基因组学数据和所述16S组学数据中除去所述第一16S 物种/功能与所述第一宏基因物种/功能的并集,并将已知的物种/功能划标注为other,将未知物种/功能标注为unclassified;
S505、使用R语言ggplot2包绘制两组学所有样本中物种/功能丰度变化和两组学鉴定到的主要物种/功能类型,其中,所述两组学包括所述16S组学数据和所述宏基因组学数据。
本发明实施例中,基于组学数据在所有样本中的丰度均值,挑选两组学各分类水平排名前10的物种/功能,取并集,其他已知物种/功能归为other,未知物种标注为unclassified,再使用R语言ggplot2包绘制堆叠图和饼图。优选的,其中以堆叠图展示两组学所有样本中物种/功能丰度变化,直观呈现两组学物种/功能在样本中的波动趋势;以饼图对比展示两组学鉴定到的主要物种/功能类型。
在一个或多个实施例中,优选的,所述根据所述16S组学数据和所述宏基因组学数据进行相关性分析,包括pearson相关系数分析、mantel test分析、 procrustes test分析;
所述pearson相关系数分析具体操作为:将所述16S组学数据和所述宏基因组学数据中所有样本的丰度进行对数转化后,使用R语言psych包计算所述 16S组学数据和所述宏基因组学数据的pearson相关系数,并使用Fizh-Z变换计算相关显著性,并图示化展示数据分析结果;
在一个或多个实施例中,基于物种/功能在所有样本中的丰度,将丰度数据进行对数转化后,使用R语言psych包计算两组学的pearson相关系数,并使用Fizh-Z变换计算相关显著性。如图6所示的散点图直观展示所有样本两组学相关性数据的线性相关程度,在图6中一个点表示一个样本中的一个物种,点颜色表示不同物种/功能。横轴/纵轴分别表示物种/功能在宏基因组/16S两组学的丰度。r表示相关强度,越接近1,相关性越强。P值表示相关显著性,一般以0.05或0.01为显著性阈值标准。
所述mantel test分析具体操作为:计算样本间的Bray-curtis距离矩阵,使用R语言vegan包进行mantel test分析,进而计算物种/功能分类水平下16S 和宏基因组测序结果的相关性,通过permutation置换检验999次,计算相关显著性,并图示化展示数据分析结果;
在一个或多个实施例中,首先基于16S测序和宏基因组测序获得的物种 /功能丰度表,计算样本间的Bray-curtis距离矩阵,使用R语言vegan包进行 mantel test分析,然后计算各物种/功能分类水平下,16S和宏基因组测序结果的相关性。基于permutation置换检验999次,计算相关显著性。
在一个或多个实施例中,通过使用如图7所示的散点图直观展示距离矩阵的线性相关程度,相关程度高,表明两组学结果比较一致,可互相验证。图中一个点表示一对样本。横轴/纵轴分别表示一对样本在宏基因组测序和 16S测序数据中的距离。R表示相关强度,越接近1,相关性越强。P值表示相关显著性,一般以0.05或0.01为显著性阈值标准。
所述procrustes test分析具体操作为:使用R语言Vegan包,根据各分类水平两组学物种/功能Bray-curtis距离的PCoA结果,开展Procrustes分析,并使用permutationtest进行相关显著性检验,并图示化展示数据分析结果,其中,所述两组学包括所述16S组学数据和所述宏基因组学数据。
在一个或多个实施例中,Procrustes分析(普氏分析)是基于空间分布判断两组学的关联程度,应用于16S与宏基因组测序分析,即可评估两组学检测结果是否一致。使用R语言Vegan包,基于各分类水平两组学物种/功能 Bray-curtis距离的PCoA结果,开展Procrustes分析,并使用permutation test 进行相关显著性检验,进而绘制如图8所示的procrustes分析图,为叠加后的样本分布散点图展示分析结果。
图9是本发明一个实施例的一种16S和宏基因组测序数据关联分析方法中的环境因子关联分析流程图。
如图9所示,在一个或多个实施例中,优选地,根据所述16S组学数据和所述宏基因组学数据进行环境因子关联分析,具体包括:
S901、使用R语言psych包计算环境因子间的pearson相关系数;
S902、使用R语言vegan包进行16S测序OTU丰度表、16S测序的shannon 多样性、宏基因组功能矩阵与每个环境因子的mantel test分析;
S903、通过permutation置换检验999次,计算相关显著性;
S904、利用R语言ggcor包生成热图和网络图结合的形式展示。
本发明实施例中,首先使用R语言psych包计算环境因子间的pearson 相关系数;然后使用R语言vegan包进行16S测序OTU丰度表、16S测序的 shannon多样性、宏基因组功能矩阵与每个环境因子的mantel test分析,基于 permutation置换检验999次,计算相关显著性;最后使用R语言ggcor包以热图和网络图的形式组合呈现。具体的,环境因子mantel-test分析图如图10 所示,清晰全面地展现对比16S和宏基因组数据与环境因子的关联。通过该方式从16S、宏基因组数据与环境因子关联分析中,既可以分析物种/功能与环境因子的关联特征,也可以对比两组学数据对环境因子的关联是否一致,从另一个角度分析两组学是否能够互相验证。
图11是本发明一个实施例的一种16S和宏基因组测序数据关联分析系统的结构图。优选地,所述16S和宏基因组测序数据关联分析系统的包括:
组学数据获取模块1101,对样本进行16S测序和宏基因测序,获取16S 组学数据和宏基因组学数据;其中,所述16S组学数据包括16S物种丰度表和16S功能丰度表,所述宏基因组学数据包括宏基因物种丰度表和宏基因功能丰度表;
microPITA分析模块1102,根据所述16S组学数据进行microPITA分析,获得代表性样本;
韦恩分析模块1103,根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有的物种/功能统计,并图示化展示;
物种/功能分布分析模块1104,根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种/功能丰度变化和鉴定到的主要物种/功能类型;
相关性分析模块1105,根据所述16S组学数据和所述宏基因组学数据进行相关性分析,包括pearson相关系数、mantel test分析、procrustes test分析;
环境因子关联分析模块1106,根据所述16S组学数据和所述宏基因组学数据进行环境因子关联分析。
显示模块1107,用于显示所述组学数据获取模块1101、所述microPITA 分析模块1102、所述韦恩分析模块1103、所述物种/功能分布分析模块1104、所述相关性分析模块1105和所述环境因子关联分析模块1106中获得的关联分析图与关联分析数据;
存储模块1108,用于存储所述组学数据获取模块1101、所述microPITA 分析模块1102、所述韦恩分析模块1103、所述物种/功能分布分析模块1104、所述相关性分析模块1105和所述环境因子关联分析模块1106中获得的关联分析图与关联分析数据。
图12是本发明一个实施例的一种16S和宏基因组测序数据关联分析系统的模块处理关系示意图。如图12所示,在一个或多个实施例中,通过在进行16S测序和宏基因测序的基础上,利用16S组学数据进行microPITA分析,利用16S组学数据和宏基因组学数据进行韦恩图分析、物种/功能分布分析、相关性分析和环境因子关联分析。
在本发明实施例中,通过全方位的数据分析能够获得两种组学数据的差别,产生两种组学数据的互相补充和互相验证,判断两组学的相关性和一致性,使数据分析的更靠性。
图13是本发明一个实施例的一种电子设备的结构图。图13所示的电子设备为通用测序数据关联分析装置,其包括通用的计算机硬件结构,其至少包括处理器1301和存储器1302。处理器1301和存储器1302通过总线1303 连接。存储器1302适于存储处理器1301可执行的指令或程序。处理器1301 可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器1301通过执行存储器1302所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线1303将上述多个组件连接在一起,同时将上述组件连接到显示控制器1304和显示装置以及输入/输出(I/O)装置1305。输入/输出(I/O)装置1305可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置1305通过输入/输出(I/O) 控制器1306与系统相连。
本发明实施例中,提供16S与宏基因组测序数据的关联分析方法,使两组学数据相互补充,相互验证。可产生如下效果:
1、通过使用韦恩分析进行两组学共有、特有的物种和功能分析,并结合物种进化分支树对物种的共有性可视化展示明确组学之间的差异,实现两种组学数据的互相补充,支撑组学之间的互相完善。
2、通过判断两组学的一致性和相关性,使数据分析的更靠性,使用堆叠图直观展示两组学样本中物种/功能丰度变化规律,初步观察两组学的一致性,结合饼图展示两组学各自鉴定到的高丰度物种/功能,对比观察一致性,进而开展相关性分析,实现两种组学数据的互相验证,有效判断组学相关性。
3、在宏基因组与16S测序样本没有一一对应时,本方案通过microPITA 分析,可根据16S测序的OTU丰度表,评估出最具有代表性的样本,作为指导宏基因组分析样本选择的的参考。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种16S和宏基因组测序数据关联分析方法,其特征在于,包括:
对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据;其中,所述16S组学数据包括16S物种丰度表和16S功能丰度表,所述宏基因组学数据包括宏基因物种丰度表和宏基因功能丰度表;
根据所述16S组学数据进行microPITA分析,获得代表性样本;
根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有的物种/功能统计,并图示化展示;
根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种/功能丰度变化和鉴定到的主要物种/功能类型;
根据所述16S组学数据和所述宏基因组学数据进行相关性分析,包括pearson相关系数、mantel test分析、procrustes test分析;
根据所述16S组学数据和所述宏基因组学数据进行环境因子关联分析。
2.根据权利要求1所述的一种16S和宏基因组测序数据关联分析方法,其特征在于,所述对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据,具体包括:
对所述样本进行16S rDNA测序,获得所述16S物种丰度表,利用PICRUSt2软件预测,获得所述16S功能丰度表;
对所述样本进行宏基因组测序,获得所述宏基因物种丰度表和所述宏基因功能丰度表;
其中,所述宏基因功能丰度表和所述16S功能丰度表都包括KEGG功能的level B丰度表和level C丰度表。
3.根据权利要求1所述的一种16S和宏基因组测序数据关联分析方法,其特征在于,所述根据所述16S组学数据进行microPITA分析,获得代表性样本,具体包括:
根据所述16S组学数据,利用筛选指标挑选代表性样本,其中,所述筛选指标包括diverse,extreme,representative,distinct,discriminant;
利用microPITA软件在所述16S组学数据中获取所述代表性样本的样本信息;
利用R语言vegan包对16S OTU丰度表进行bray-curtis距离PCoA分析,获得所有样本在二维空间的分布特征,同时在图形中可标记MicroP ITA筛选出的代表性样本。
4.根据权利要求1所述的一种16S和宏基因组测序数据关联分析方法,其特征在于,所述根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有的物种/功能统计,并图示化展示,具体包括:
基于各物种分类水平和KEG6功能的level B丰度表和level C丰度表,使用R语言的VennDiagram包和upsetR包,以0为阈值,进行韦恩分析;
使用韦恩图和upset图展示所述16S组学数据和所述宏基因组学数据的共有、特有元素的数量;
使用Lefse软件在物种层级进化分支树上标记16S和宏基因组鉴定到的共有、特有物种。
5.根据权利要求1所述的一种16S和宏基因组测序数据关联分析方法,其特征在于,所述根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种/功能丰度变化和鉴定到的主要物种/功能类型,具体包括:
挑选所述16S组学数据中各分类水平排名前10的物种/功能,并存储为第一16S物种/功能;
挑选所述宏基因组学数据中各分类水平排名前10的物种/功能,并存储为第一宏基因物种/功能;
对所述第一16S物种/功能与所述第一宏基因物种/功能取并集,并保存;
从所述宏基因组学数据和所述16S组学数据中除去所述第一16S物种/功能与所述第一宏基因物种/功能的并集,并将已知的物种/功能划标注为other,将未知物种/功能标注为unclassified;
使用R语言ggplot2包绘制两组学所有样本中物种/功能丰度变化和两组学鉴定到的主要物种/功能类型,其中,所述两组学包括所述16S组学数据和所述宏基因组学数据。
6.根据权利要求1所述的一种16S和宏基因组测序数据关联分析方法,其特征在于,所述根据所述16S组学数据和所述宏基因组学数据进行相关性分析,包括pearson相关系数分析、mantel test分析、procrustes test分析;
所述pearson相关系数分析具体操作为:将所述16S组学数据和所述宏基因组学数据中所有样本的丰度数据进行对数转化后,使用R语言psych包计算所述16S组学数据和所述宏基因组学数据的pearson相关系数,并使用Fizh-Z变换计算相关显著性,并图示化展示数据分析结果;
所述mantel test分析具体操作为:基于所述16S组学数据中的16S物种/功能数据,计算样本间的Bray-curtis距离矩阵;基于所述宏基因组学数据中的宏基因组物种/功能数据,计算样本间的Bray-curtis距离矩阵;使用R语言vegan包,对两组学的距离矩阵进行mantel test分析,进而计算各物种/功能分类水平下16S和宏基因组测序结果的相关性,通过permutation置换检验999次,计算相关显著性,并图示化展示数据分析结果;
所述procrustes test分析具体操作为:使用R语言Vegan包,根据各分类水平两组学物种/功能Bray-curtis距离的PCoA结果,开展Procrustes分析,并使用permutation test进行相关显著性检验,并图示化展示数据分析结果;
其中,所述两组学包括所述16S组学数据和所述宏基因组学数据。
7.根据权利要求1所述的一种16S和宏基因组测序数据关联分析方法,其特征在于,所述根据所述16S组学数据和所述宏基因组学数据进行环境因子关联分析,具体包括:
使用R语言psych包计算环境因子间的pearson相关系数;
使用R语言vegan包进行16S测序OTU丰度表、16S测序的shannon多样性、宏基因组功能矩阵与每个环境因子的mantel test分析;
通过permutation置换检验999次,计算相关显著性;
利用R语言ggcor包生成热图和网络图结合的形式展示。
8.一种16S和宏基因组测序数据关联分析系统,其特征在于,包括:
组学数据获取模块,对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据;其中,所述16S组学数据包括16S物种丰度表和16S功能丰度表,所述宏基因组学数据包括宏基因物种丰度表和宏基因功能丰度表;
microPITA分析模块,根据所述16S组学数据进行microPITA分析,获得代表性样本;
韦恩分析模块,根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有的物种/功能统计,并图示化展示;
物种/功能分布分析模块,根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种/功能丰度变化和鉴定到的主要物种/功能类型;
相关性分析模块,根据所述16S组学数据和所述宏基因组学数据进行相关性分析,包括pearson相关系数、mantel test分析、procrustes tes t分析;
环境因子关联分析模块,根据所述16S组学数据和所述宏基因组学数据进行环境因子关联分析。
9.根据权利要求8所述的一种16S和宏基因组测序数据关联分析系统,该系统还包括:
显示模块,用于显示所述组学数据获取模块、所述microPITA分析模块、所述韦恩分析模块、所述物种/功能分布分析模块、所述相关性分析模块和所述环境因子关联分析模块中获得的关联分析图与关联分析数据;
存储模块,用于存储所述组学数据获取模块、所述microPITA分析模块、所述韦恩分析模块、所述物种/功能分布分析模块、所述相关性分析模块和所述环境因子关联分析模块中获得的关联分析图与关联分析数据。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7任一项所述的步骤。
CN202011555939.6A 2020-12-24 2020-12-24 一种16s和宏基因组测序数据关联分析方法、系统及设备 Active CN112669899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011555939.6A CN112669899B (zh) 2020-12-24 2020-12-24 一种16s和宏基因组测序数据关联分析方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011555939.6A CN112669899B (zh) 2020-12-24 2020-12-24 一种16s和宏基因组测序数据关联分析方法、系统及设备

Publications (2)

Publication Number Publication Date
CN112669899A true CN112669899A (zh) 2021-04-16
CN112669899B CN112669899B (zh) 2023-03-03

Family

ID=75408578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011555939.6A Active CN112669899B (zh) 2020-12-24 2020-12-24 一种16s和宏基因组测序数据关联分析方法、系统及设备

Country Status (1)

Country Link
CN (1) CN112669899B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114664382A (zh) * 2022-04-28 2022-06-24 中国人民解放军总医院 多组学联合分析方法、装置及计算设备
CN115116542A (zh) * 2022-07-04 2022-09-27 厦门大学 基于宏基因组的样本特异的物种互作网络构建方法及系统
CN116564423A (zh) * 2023-07-05 2023-08-08 广州源古纪科技有限公司 一种微生物宏基因组数据库构建方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015097006A1 (en) * 2013-12-24 2015-07-02 Universite De Liege Metagenomic analysis of samples
CN109448788A (zh) * 2018-10-24 2019-03-08 广州基迪奥生物科技有限公司 基因组学及生物信息学的微生物组学在线分析平台架构
CN112071366A (zh) * 2020-10-13 2020-12-11 南开大学 一种基于二代测序技术的宏基因组数据分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015097006A1 (en) * 2013-12-24 2015-07-02 Universite De Liege Metagenomic analysis of samples
CN109448788A (zh) * 2018-10-24 2019-03-08 广州基迪奥生物科技有限公司 基因组学及生物信息学的微生物组学在线分析平台架构
CN112071366A (zh) * 2020-10-13 2020-12-11 南开大学 一种基于二代测序技术的宏基因组数据分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小鱼儿: "如何基于"16S+宏基因组"提升文章水平?", 《HTTPS://MP.WEIXIN.QQ.COM/S/6JBEJ4NGG0QUZ_B6OM-V0W》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114664382A (zh) * 2022-04-28 2022-06-24 中国人民解放军总医院 多组学联合分析方法、装置及计算设备
CN114664382B (zh) * 2022-04-28 2023-01-31 中国人民解放军总医院 多组学联合分析方法、装置及计算设备
CN115116542A (zh) * 2022-07-04 2022-09-27 厦门大学 基于宏基因组的样本特异的物种互作网络构建方法及系统
CN116564423A (zh) * 2023-07-05 2023-08-08 广州源古纪科技有限公司 一种微生物宏基因组数据库构建方法及系统
CN116564423B (zh) * 2023-07-05 2023-09-15 广州源古纪科技有限公司 一种微生物宏基因组数据库构建方法及系统

Also Published As

Publication number Publication date
CN112669899B (zh) 2023-03-03

Similar Documents

Publication Publication Date Title
CN112669899B (zh) 一种16s和宏基因组测序数据关联分析方法、系统及设备
Quinn et al. Understanding sequencing data as compositions: an outlook and review
Liesecke et al. Ranking genome-wide correlation measurements improves microarray and RNA-seq based global and targeted co-expression networks
Liu et al. Unsupervised embedding of single-cell Hi-C data
de Vienne et al. Phylo-MCOA: a fast and efficient method to detect outlier genes and species in phylogenomics using multiple co-inertia analysis
Corander et al. BAPS: Bayesian analysis of population structure
CN107368700A (zh) 基于计算云平台的微生物多样性交互分析系统及其方法
Eaton et al. Deconvolution and phylogeny inference of structural variations in tumor genomic samples
CN112071366A (zh) 一种基于二代测序技术的宏基因组数据分析方法
Cooley et al. A novel metric reveals previously unrecognized distortion in dimensionality reduction of scRNA-Seq data
CN112133368A (zh) 一种基于三代测序技术的宏基因组测序数据的自动化分析方法
Pommier et al. RAMI: a tool for identification and characterization of phylogenetic clusters in microbial communities
Duruflé et al. A powerful framework for an integrative study with heterogeneous omics data: from univariate statistics to multi-block analysis
Colombo et al. FastMotif: spectral sequence motif discovery
Moses et al. Voyager: exploratory single-cell genomics data analysis with geospatial statistics
González-Álvarez et al. Comparing multiobjective swarm intelligence metaheuristics for DNA motif discovery
CN113257357A (zh) 蛋白质残基接触图预测方法
Gehlenborg et al. A framework for visualization of microarray data and integrated meta information
Wagner Straightforward clustering of single-cell RNA-Seq data with t-SNE and DBSCAN
Smolander et al. Cell-connectivity-guided trajectory inference from single-cell data
EP4002206A1 (en) Network node clustering
Kohlbacher et al. Multivariate networks in the life sciences
Hu et al. A novel method for discovering local spatial clusters of genomic regions with functional relationships from DNA contact maps
Garcia-Algarra et al. A structural approach to disentangle the visualization of bipartite biological networks
Boogaerts et al. Visualizing high dimensional datasets using parallel coordinates: Application to gene prioritization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant