CN115116542A

CN115116542A - 基于宏基因组的样本特异的物种互作网络构建方法及系统

Info

Publication number: CN115116542A
Application number: CN202210786638.7A
Authority: CN
Inventors: 王颖; 马智
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-09-27
Anticipated expiration: 2042-07-04
Also published as: CN115116542B

Abstract

本发明涉及一种基于宏基因组的样本特异的物种互作网络构建方法及系统，属于物种相关性研究技术领域。先根据多个样本的宏基因组数据绘制样本物种丰度矩阵，再对样本物种丰度矩阵中的微生物物种进行两两组合，对于每一组合，根据样本物种丰度矩阵绘制散点图，并基于散点图确定组合在每一样本内的局部相关性，最后对于每一样本，根据每一组合在样本内的局部相关性绘制物种相互作用网络，从而基于不同样本的宏基因组数据构建每一样本的具有样本特异性的微生物物种相互作用网络。

Description

基于宏基因组的样本特异的物种互作网络构建方法及系统

技术领域

本发明涉及物种相关性研究技术领域，特别是涉及一种基于宏基因组的具有微生物群落样本特异性的物种相互作用网络的构建方法及系统。

背景技术

对微生物群落及其结构进行的大量研究表明，微生物在人类健康和生态系统中发挥着重要的作用。但目前，还没有一种能够构建具有样本特异性的微生物物种相互作用网络来估计物种局部相关性的方法及系统。

发明内容

本发明的目的是提供一种基于宏基因组的样本特异的物种互作网络构建方法及系统，基于不同样本的宏基因组数据构建每一样本的具有样本特异性的微生物物种相互作用网络。

为实现上述目的，本发明提供了如下方案：

一种基于宏基因组的样本特异的物种互作网络构建方法，所述构建方法包括：

获取多个样本中每一所述样本的宏基因组数据；

对于每一所述样本，根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度；

根据所有所述样本所包括的微生物物种以及每一所述微生物物种的丰度绘制样本物种丰度矩阵；所述样本物种丰度矩阵的第i行第j列的元素的值为第j个样本所包括的第i个微生物物种的丰度；

对所述样本物种丰度矩阵中的微生物物种进行两两组合，得到

个组合；其中，m为所述微生物物种的总个数；

对于每一所述组合，根据所述样本物种丰度矩阵绘制散点图，并基于所述散点图确定所述组合在每一所述样本内的局部相关性；所述散点图的横坐标为所述组合中的一个微生物物种x的丰度，纵坐标为所述组合中的另一个微生物物种y的丰度，所述散点图包括n个数据点，每一所述数据点代表一个样本，n为所述样本的总个数；

对于每一所述样本，根据每一所述组合在所述样本内的局部相关性绘制物种相互作用网络；所述物种相互作用网络包括m个结点以及若干个连接边；每一所述结点代表一所述微生物物种。

一种基于宏基因组的样本特异的物种互作网络构建系统，所述构建系统包括：

宏基因组数据获取模块，用于获取多个样本中每一所述样本的宏基因组数据；

样本物种丰度矩阵确定模块，用于对于每一所述样本，根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度；根据所有所述样本所包括的微生物物种以及每一所述微生物物种的丰度绘制样本物种丰度矩阵；所述样本物种丰度矩阵的第i行第j列的元素的值为第j个样本所包括的第i个微生物物种的丰度；

组合模块，用于对所述样本物种丰度矩阵中的微生物物种进行两两组合，得到

个组合；其中，m为所述微生物物种的总个数；

局部相关性确定模块，用于对于每一所述组合，根据所述样本物种丰度矩阵绘制散点图，并基于所述散点图确定所述组合在每一所述样本内的局部相关性；所述散点图的横坐标为所述组合中的一个微生物物种x的丰度，纵坐标为所述组合中的另一个微生物物种y的丰度，所述散点图包括n个数据点，每一所述数据点代表一个样本，n为所述样本的总个数；

物种相互作用网络绘制模块，用于对于每一所述样本，根据每一所述组合在所述样本内的局部相关性绘制物种相互作用网络；所述物种相互作用网络包括m个结点以及若干个连接边；每一所述结点代表一所述微生物物种。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明用于提供一种基于宏基因组的样本特异的物种互作网络构建方法及系统，先根据多个样本的宏基因组数据绘制样本物种丰度矩阵，再对样本物种丰度矩阵中的微生物物种进行两两组合，对于每一组合，根据样本物种丰度矩阵绘制散点图，并基于散点图确定组合在每一样本内的局部相关性，最后对于每一样本，根据每一组合在样本内的局部相关性绘制物种相互作用网络，从而基于不同样本的宏基因组数据构建每一样本的具有样本特异性的微生物物种相互作用网络。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1所提供的构建方法的方法流程图；

图2为本发明实施例1所提供的散点图的示意图；

图3为本发明实施例1所提供的物种相互作用网络的示意图；

图4为本发明实施例2所提供的构建系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

本实施例用于提供一种基于宏基因组的样本特异的物种互作网络构建方法，如图1所示，所述构建方法包括：

S1：获取多个样本中每一所述样本的宏基因组数据；

本实施例通过采样获得宏基因组数据，宏基因组为环境中全部微小生物遗传物质的总和，包含可培养和未可培养的微生物的基因，指环境样本中的细菌和真菌的基因组总和。

S2：对于每一所述样本，根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度；

在S2之前，本实施例的构建方法还包括宏基因组测序所得到的宏基因组数据的数据预处理步骤，具体包括：对每一样本的宏基因组数据进行筛选，得到筛选后数据，并以筛选后数据作为样本的新的宏基因组数据，执行S2。

其中，筛选过程可以包括：过滤筛选测序质量和测序深度不符合要求等可能受到污染的数据，具体的，删除测序时所用的序列引物以及所包含微生物数据量较少的fasta测序文件，删除fasta测序文件中序列分数低于20，长度小于50bp的碱基序列reads。

S2可以包括：对样本的宏基因组数据中的有效序列进行聚类，划分不同的微生物物种，得到样本所包括的微生物物种，再基于宏基因组数据确定每一微生物物种的丰度。聚类过程可以包括：按照指定的序列相似度(如97％，99％)将宏基因组数据中的有效序列聚类成不同的OTU(operational taxonomic units，操作分类单元)，每个OTU对应于一个微生物物种。

S3：根据所有所述样本所包括的微生物物种以及每一所述微生物物种的丰度绘制样本物种丰度矩阵；所述样本物种丰度矩阵的第i行第j列的元素的值为第j个样本所包括的第i个微生物物种的丰度；

本实施例的样本物种丰度矩阵的每一行代表一微生物物种在各个样本内的丰度，每一列代表一样本所包括的各个微生物物种的丰度。

S4：对所述样本物种丰度矩阵中的微生物物种进行两两组合，得到

个组合；其中，m为所述微生物物种的总个数；

样本物种丰度矩阵中的任意两个不同的微生物物种进行组合，则可得到

个组合。

S5：对于每一所述组合，根据所述样本物种丰度矩阵绘制散点图，并基于所述散点图确定所述组合在每一所述样本内的局部相关性；所述散点图的横坐标为所述组合中的一个微生物物种x的丰度，纵坐标为所述组合中的另一个微生物物种y的丰度，所述散点图包括n个数据点，每一所述数据点代表一个样本，n为所述样本的总个数；

样本物种丰度矩阵中的两个不同的微生物物种x和微生物物种y组成一组合，该组合分别作为x轴和y轴，利用该组合在不同样本里的丰度值绘制散点图，如图2所示，散点图里的每个数据点代表一个样本，共有n个数据点，数据点的横坐标代表微生物物种x在该样本的丰度值，数据点的纵坐标代表微生物物种_y在该样本的丰度值。

S5中，基于散点图确定组合在每一样本内的局部相关性可以包括：

(1)对于每一样本，以散点图中该样本对应的数据点为中心，沿横坐标方向确定第一对称区间，使散点图在第一对称区间内的数据点的个数为第一预设值，并沿纵坐标方向确定第二对称区间，使散点图在第二对称区间内的数据点的个数为第二预设值；

作为一种可选的实施方式，第一预设值和第二预设值相等，均为0.1n，即预先设定好两个常量：第一预设值n_x和第二预设值n_y，n_x＝n_y＝0.1×n。

(2)根据第一对称区间和第二对称区间确定一交叉区域，统计散点图在交叉区域内的数据点的个数，得到交叉点个数；

(3)根据第一预设值、第二预设值和交叉点个数计算组合在样本内的统计量，并对统计量进行标准化，得到标准化后统计量；

以样本k为例，介绍组合在样本k内的统计量的计算方法：如图2所示，在散点图中，选择样本k对应的数据点k，以点k为中心确定一个第一对称区间[x₁，x₂]，使得散点图在该第一对称区间内的数据点的个数为第一预设值n_x。以点k为中心确定一个第二对称区间[y₁，y₂]，使得散点图在该第二对称区间内的数据点的个数为第二预设值n_y。根据第一对称区间[x₁，x₂]和第二对称区间[y₁，y₂]确定一个交叉区域，该交叉区域的四个顶点坐标分别为(x₁，y₂)，(x₂，y₂)，(x₁，y₁)，(x₂，y₁)，并统计交叉区域内的数据点的个数，得到交叉点个数n_xy。

其中，根据第一预设值、第二预设值和交叉点个数计算组合在样本内的统计量可以包括：根据第一预设值、第二预设值和交叉点个数，利用统计量计算公式计算组合在样本内的统计量。

本实施例所用的统计量计算公式为：

式(1)中，右上角的k代表样本k；ρ_xy ^(k)为由微生物物种x和微生物物种y所构成的组合在样本k内的统计量；n_xy ^(k)为样本k对应的交叉点个数；n_x ^(k)为第一预设值；n_y ^(k)为第二预设值；n为样本的总个数。

统计量ρ_xy ^(k)是用来衡量微生物物种x和微生物物种y在样本k内的相关性的。之所以要在n_xy ^(k)、n_x ^(k)、n_y ^(k)的右上角加k，是因为要先在散点图中确定一个样本k，然后以样本k对应的数据点为中心，确定垂直和水平区域，才能统计出垂直和水平区域的交叉区域内的交叉点个数n_xy ^(k)，进一步计算出统计量ρ_xy ^(k)。n_x ^(k)和n_y ^(k)是预先设定好的常量，其值为0.1n，这两个常量的作用是为了在散点图中确定一个垂直和一个水平的矩形区域，使得在垂直的矩形区域里的数据点的个数等于n_x ^(k)，在水平的矩形区域里的数据点的个数等于n_y ^(k)。但根据定义0.1n，n_x ^(k)和n_y ^(k)在所有样本中的值都是一样的。

其中，对统计量进行标准化，得到标准化后统计量可以包括：利用标准化公式对统计量进行标准化，得到标准化后统计量；

标准化公式包括：

式(2)中，

为样本k对应的标准化后统计量；ρ_xy ^(k)为由微生物物种x和微生物物种y所构成的组合在样本k内的统计量；μ_xy ^(k)为样本k对应的均值；σ_xy ^(k)为样本k对应的标准差。

其中，μ_xy ^(k)＝0，

则

(4)根据标准化后统计量确定组合在样本内的局部相关性，得到组合在每一样本内的局部相关性。

具体的，对标准化后统计量进行显著性判断，若标准化后统计量大于预设显著水平，则组合在样本内的局部相关性为相互作用，否则，则组合在样本内的局部相关性为相互独立。

更为具体的，对微生物物种x和微生物物种y是否有相互作用关系做假设检验，预设显著水平设为0.01。

无效假设：微生物物种x和微生物物种y在样本k中相互独立。

备选假设：微生物物种x和微生物物种y在样本k中相互作用，即有相互作用关系。

若标准化后统计量大于预设显著水平0.01，则拒绝无效假设，代表在样本k内，微生物物种x和微生物物种y之间有相互作用关系，在样本k内构成的物种相互作用网络中结点x和结点y之间有边相连；若标准化后统计量小于预设显著水平0.01，则接受无效假设，代表在样本k内，微生物物种x和微生物物种y之间相互独立。

按照上述方法依次选择散点图中的每一个数据点作为中心点，计算统计量、标准化和假设检验，则可确定该组合在每一样本内的局部相关性，再针对每一组合均绘制散点图，进而可得到每一组合在每一样本内的局部相关性。

S6：对于每一所述样本，根据每一所述组合在所述样本内的局部相关性绘制物种相互作用网络；所述物种相互作用网络包括m个结点以及若干个连接边；每一所述结点代表一所述微生物物种。

如图3所示，S6可以包括：绘制m个结点；根据每一组合在样本内的局部相关性确定任意两个结点之间是否存在连接边，绘制物种相互作用网络；若两个结点之间的局部相关性为相互作用，则在两个结点之间绘制连接边，否则，则两个结点之间不存在连接边。进而得到具有样本特异性的n个物种相互作用网络，每个物种相互作用网络由m个代表微生物物种的结点组成。

在单个样本里，微生物物种x和y之间的关系叫‘相关性’，但在一个样本中相关的两个物种，在另一个样本中并不一定相关，所以这种相关性是根据样本不同而不同的，具有样本特异性，从全局来看，单个样本中物种和物种之间的相关性就叫‘局部相关性’。物种相互作用网络是以样本为基本单位建立的，即每个样本内都建立一个物种相互作用网络。通过计算每个样本内两两物种之间的相关性，则可以在每个样本内以物种作为结点，以局部相关性决定两个结点之间是否有边，来建立网络，最终网络的形式是一个矩阵，就像数据结构里存储图一样，用邻接矩阵。

本实施例的方法主要是以样本物种丰度矩阵作为输入，计算两两物种在不同样本内的局部相关性，最终在每个样本内构建一个微生物物种相互作用网络。每个物种相互作用网络中，以微生物物种作为结点，两个不同结点之间若有边连接，说明在此样本中两物种之间具有相互作用关系，若没有边连接，说明两物种之间相互独立。假设样本物种丰度矩阵有m个物种和n个样本，则最终本方法会构建n个微生物物种相互作用网络，每个网络由m个微生物物种结点组成。

本实施例基于宏基因组测序数据中微生物物种基因组和对应不同样本内的丰度信息，提出一种通过估计物种局部相关性的方法进行样本特异的物种相互作用网络构建。该方法利用统计模型，根据微生物物种在样本的丰度邻域区间内概率密度情况，估计两两物种之间在单个样本内的局部相关性，综合单个样本内所有不同物种间的局部相关性，构建各样本内具有样本特异性的微生物物种相互作用网络。

宏基因组测序技术可以有效地对微生物群落中所有类型的遗传物质进行测序，而不考虑它们的可培养性。微生物物种之间的相关性对研究微生物群落结构和微观动力学是至关重要的，本实施例提出的方法可以从微生物群落样本数据的丰度邻域区间内概率密度情况估计两两物种之间在各个样本内的局部相关性，从而构建样本特异的微生物物种相互作用网络，有助于识别在传统物种相互作用网络构建方法下被忽视的关键物种以及比较不同样本间的物种与物种的相关性，探究样本表型差异的机理等后续研究。

实施例2：

本实施例用于提供一种基于宏基因组的样本特异的物种互作网络构建系统，如图4所示，所述构建系统包括：

宏基因组数据获取模块M1，用于获取多个样本中每一所述样本的宏基因组数据；

样本物种丰度矩阵确定模块M2，用于对于每一所述样本，根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度；根据所有所述样本所包括的微生物物种以及每一所述微生物物种的丰度绘制样本物种丰度矩阵；所述样本物种丰度矩阵的第i行第j列的元素的值为第j个样本所包括的第i个微生物物种的丰度；

组合模块M3，用于对所述样本物种丰度矩阵中的微生物物种进行两两组合，得到

个组合；其中，m为所述微生物物种的总个数；

局部相关性确定模块M4，用于对于每一所述组合，根据所述样本物种丰度矩阵绘制散点图，并基于所述散点图确定所述组合在每一所述样本内的局部相关性；所述散点图的横坐标为所述组合中的一个微生物物种x的丰度，纵坐标为所述组合中的另一个微生物物种y的丰度，所述散点图包括n个数据点，每一所述数据点代表一个样本，n为所述样本的总个数；

物种相互作用网络绘制模块M5，用于对于每一所述样本，根据每一所述组合在所述样本内的局部相关性绘制物种相互作用网络；所述物种相互作用网络包括m个结点以及若干个连接边；每一所述结点代表一所述微生物物种。

本说明书中每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于宏基因组的样本特异的物种互作网络构建方法，其特征在于，所述构建方法包括：

获取多个样本中每一所述样本的宏基因组数据；

个组合；其中，m为所述微生物物种的总个数；

2.根据权利要求1所述的构建方法，其特征在于，在对于每一所述样本，根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度之前，所述构建方法还包括：对每一所述样本的宏基因组数据进行筛选，得到筛选后数据，并以所述筛选后数据作为所述样本的新的宏基因组数据。

3.根据权利要求1或2所述的构建方法，其特征在于，所述根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度具体包括：

对所述样本的宏基因组数据中的有效序列进行聚类，得到所述样本所包括的微生物物种；

基于所述宏基因组数据确定每一所述微生物物种的丰度。

4.根据权利要求1所述的构建方法，其特征在于，所述基于所述散点图确定所述组合在每一所述样本内的局部相关性具体包括：

对于每一所述样本，以所述散点图中所述样本对应的数据点为中心，沿所述横坐标的方向确定第一对称区间，使所述散点图在所述第一对称区间内的数据点的个数为第一预设值，并沿所述纵坐标的方向确定第二对称区间，使所述散点图在所述第二对称区间内的数据点的个数为第二预设值；

根据所述第一对称区间和所述第二对称区间确定一交叉区域，统计所述散点图在所述交叉区域内的数据点的个数，得到交叉点个数；

根据所述第一预设值、所述第二预设值和所述交叉点个数计算所述组合在所述样本内的统计量，并对所述统计量进行标准化，得到标准化后统计量；

根据所述标准化后统计量确定所述组合在所述样本内的局部相关性，得到所述组合在每一所述样本内的局部相关性。

5.根据权利要求4所述的构建方法，其特征在于，所述第一预设值和所述第二预设值相等，均为0.1n。

6.根据权利要求4所述的构建方法，其特征在于，所述根据所述第一预设值、所述第二预设值和所述交叉点个数计算所述组合在所述样本内的统计量具体包括：根据所述第一预设值、所述第二预设值和所述交叉点个数，利用统计量计算公式计算所述组合在所述样本内的统计量；

所述统计量计算公式包括：

其中，ρ_xy ^(k)为由微生物物种x和微生物物种y所构成的组合在样本k内的统计量；n_xy ^(k)为样本k对应的交叉点个数；n_x ^(k)为第一预设值；n_y ^(k)为第二预设值。

7.根据权利要求4所述的构建方法，其特征在于，所述对所述统计量进行标准化，得到标准化后统计量具体包括：利用标准化公式对所述统计量进行标准化，得到标准化后统计量；

所述标准化公式包括：

其中，

8.根据权利要求4所述的构建方法，其特征在于，所述根据所述标准化后统计量确定所述组合在所述样本内的局部相关性具体包括：

对所述标准化后统计量进行显著性判断，若所述标准化后统计量大于预设显著水平，则所述组合在所述样本内的局部相关性为相互作用，否则，则所述组合在所述样本内的局部相关性为相互独立。

9.根据权利要求1所述的构建方法，其特征在于，所述根据每一所述组合在所述样本内的局部相关性绘制物种相互作用网络具体包括：

绘制m个结点；

根据每一所述组合在所述样本内的局部相关性确定任意两个所述结点之间是否存在连接边，绘制物种相互作用网络；若两个所述结点之间的局部相关性为相互作用，则在两个所述结点之间绘制连接边，否则，则两个所述结点之间不存在连接边。

10.一种基于宏基因组的样本特异的物种互作网络构建系统，其特征在于，所述构建系统包括：

个组合；其中，m为所述微生物物种的总个数；