CN111477267A

CN111477267A - 微生物的多关联网络计算方法、装置、设备及存储介质

Info

Publication number: CN111477267A
Application number: CN202010149870.0A
Authority: CN
Inventors: 陈挺; 王欣; 杨煜清; 朱丛敏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-31
Anticipated expiration: 2040-03-06
Also published as: CN111477267B

Abstract

本申请公开一种微生物的多关联网络计算方法、装置、设备及存储介质，本申请提出了一种新型贝叶斯模型，在考虑环境因素变化的情况下推断多个关联网络，进而能够自动推断数据集中环境条件的数目和每种环境条件下的微生物‑微生物和微生物‑环境因子关联。与此同时，本申请实施例提出了基于分治策略的优化算法。基于分治策略的算法同时结合聚类与最大后验估计，能够有效求解隐变量和关联网络对应参数。

Description

微生物的多关联网络计算方法、装置、设备及存储介质

技术领域

本申请涉及微生物环境分析领域，尤其涉及一种微生物的多关联网络计算方法、装置、设备及存储介质。

背景技术

微生物之间及微生物与环境之间的交互会随着时间或环境因素的改变而发生动态变化，在丰度变化上呈现出非线性关联。微生物群落中关联的变化依赖于当前所处的环境条件，即环境因素的值处于某一特定范围时所描述的环境。在相似的环境条件下，微生物群落中的交互是稳定的，并且会随着环境条件的改变而发生变化。为了确定数据集中可能的环境条件和单个环境条件下的微生物关联网络，需要新的计算工具。传统的关联推断算法均假设微生物群落中只有一个关联网络，忽视了微生物交互动态变化的本质，这无疑会误导我们对微生物交互的研究。

发明内容

本申请目的在于公开一种微生物的多关联网络计算方法、装置、设备及存储介质，用于在每个环境条件下，能够结合组成成分偏差和过度散布，推断条件依赖的微生物-微生物关联和直接的微生物-环境关联。

本申请第一方面公开一种微生物的多关联网络计算方法，所述方法包括：

获取测序样本数据集

及环境因素集

初始化所述测序样本数据集和所述环境因素集的根节点node⁰，其中， |node⁰|＝N

根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，并得到所述测序样本数据集和所述环境因素集的至少两个子节点，其中，一个节点node^k+1＝{X^k+1，M^k+1}，另一个子节点node^k+2＝{X^k+2，M^k+2}，且|node^k+1|＝N_k+1，|node^k+2|＝N_k+2，所述node^k+1和node^k+2构成一个样本簇；

确定节点node^k+1和节点node^k+2的B′、Θ′，所述B′表征第k+1个环境条件下的环境因素与微生物之间的关联网络，Θ′表征微生物之间的关联网络。

在一些可选的实施方式中，在所述获取测序样本数集之后，根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，并得到所述测序样本数据集和所述环境因素集的至少两个子节点之后，所述方法还包括：

获取所述测序样本数据集和所述环境因素集的样本簇最小值N_min。

在一些可选的实施方式中，所述根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，并得到所述测序样本数据集和所述环境因素集的至少两个子节点，包括：

根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，直至节点node^k+1的N_k+1和node^k+2的N_k+2大于所述样本簇最小值N_min。

在一些可选的实施方式中，所述根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，并得到所述测序样本数据集和所述环境因素集的至少两个子节点，还包括：

当根据所述测序样本数据集和所述环境因素集至少两个样本簇时，保留所述至少两个样本簇中的环境因素均值向量位于节点node^k+1的N_k+1和node^k+2的环境均值向量之间的样本簇。

在一些可选的实施方式中，在所述确定节点node^k+1和节点node^k+2、 B′、Θ′之后，所述方法还包括：

当根据所述测序样本数据集和所述环境因素集包括至包括至少两个样本簇时时，

遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右节点集

和左节点集

遍历左节点集

中的每个节点node^a并遍历右节点集

中的每个节点node^b；

计算node^a的EBIC^a、node^b的EBIC^b及node^a∪node^b的EBIC′；

若EBIC′<EBIC^a+EBIC^b，则创建新节点node^new，node^new＝node^a∪ node^b，以将所述node^new插入到所述至少两个样本簇构成的样本簇二叉树中并删除node^b和node^a；

若否则删除node^a。

本申请第二方面公开一种微生物的多关联网络计算装置，所述装置包括：

获取模块，用于获取测序样本数据集

及环境因素集

初始化模块，用于初始化所述测序样本数据集和所述环境因素集的根节点node⁰，其中，|node⁰|＝N

划分模块，用于根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，并得到所述测序样本数据集和所述环境因素集的至少两个子节点，其中，一个节点node^k+1＝{X^k+1，M^k+1}，另一个子节点 node^k+2＝{X^k+2，M^k+2}，且|node^k+1|＝N_k+1，|node^k+2|＝N_k+2，所述 node^k+1和node^k+2构成一个样本簇；

确定模块，用于确定节点node^k+1和节点node^k+2的B′、Θ′，所述B′ 表征第k+1个环境条件下的环境因素与微生物之间的关联网络，Θ′表征微生物之间的关联网络。

在一些可选的实施方式中，所述获取模块还用于获取所述测序样本数据集和所述环境因素集的样本簇最小值N_min。

在一些可选的实施方式中，所述划分模块用于根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，直至节点node^k+1的N_k+1和 node^k+2的N_k+2大于所述样本簇最小值N_min。

在一些可选的实施方式中，所述装置还包括筛选模块，所述筛选模块，其中：

所述筛选模块用于当根据所述测序样本数据集和所述环境因素集至少两个样本簇时，保留所述至少两个样本簇中的环境因素均值向量位于节点node^k+1的N_k+1和node^k+2的环境均值向量之间的样本簇。

在一些可选的实施方式中，所述装置还包括合并模块，其中，所述合并模块用于：

和左节点集

遍历左节点集

中的每个节点node^a并遍历右节点集

中的每个节点node^b；

计算node^a的EBIC^a、node^b的EBIC^b及node^a∪node^b的EBIC′；

若否则删除node^a。

本申请第三方面公开一种微生物的多关联网络计算设备，所述设备包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时执行如本申请第一方面所述的微生物的多关联网络计算方法。

本申请第四方面公开一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时执行如本申请第一方面所述的微生物的多关联网络计算方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例一公开的微生物的多关联网络计算方法的流程示意图；

图2为本申请实施例二公开的微生物的多关联网络计算装置的结构示意图；

图3为本申请实施例三公开的微生物的多关联网络计算设备的结构示意图；

图4为本申请实施例公开的微生物的多关联网络模型的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例一

请参阅图1，图1是本申请实施例公开的一种微生物的多关联网络计算方法的流程示意图。如图1，该微生物的多关联网络计算方法包括步骤：

101、获取测序样本数据集

及环境因素集

102、初始化测序样本数据集和环境因素集的根节点node⁰，其中， |node⁰|＝N；

根据测序样本数据集和环境因素集的根节点node⁰、二成分高斯混合模型递归划分测序样本数据集和环境因素集，并得到测序样本数据集和环境因素集的至少两个子节点，其中，一个节点node^k+1＝{X^k+1，M^k+1}，另一个子节点node^k+2＝{X^k+2，M^k+2}，且|node^k+1|＝N_k+1， |node^k+2|＝N_k+2，node^k+1和node^k+2构成一个样本簇；

确定节点node^k+1和节点node^k+2的B′、Θ′，B′表征第k+1个环境条件下的环境因素与微生物之间的关联网络，Θ′表征微生物之间的关联网络。

在一些可选的实施方式中，在获取测序样本数集之后，根据测序样本数据集和环境因素集的根节点node⁰、二成分高斯混合模型递归划分测序样本数据集和环境因素集，并得到测序样本数据集和环境因素集的至少两个子节点之后，本申请实施例的方法还包括步骤：

获取测序样本数据集和环境因素集的样本簇最小值N_min。

在一些可选的实施方式中，步骤103：根据测序样本数据集和环境因素集的根节点node⁰、二成分高斯混合模型递归划分测序样本数据集和环境因素集，并得到测序样本数据集和环境因素集的至少两个子节点，包括子步骤：

根据测序样本数据集和环境因素集的根节点node⁰、二成分高斯混合模型递归划分测序样本数据集和环境因素集，直至节点node^k+1的N_k+1和 node^k+2的N_k+2大于样本簇最小值N_min。

在一些可选的实施方式中，步骤103：根据测序样本数据集和环境因素集的根节点node⁰、二成分高斯混合模型递归划分测序样本数据集和环境因素集，并得到测序样本数据集和环境因素集的至少两个子节点，还包括子步骤：

当根据测序样本数据集和环境因素集至少两个样本簇时，保留至少两个样本簇中的环境因素均值向量位于节点node^k+1的N_k+1和node^k+2的环境均值向量之间的样本簇。

在一些可选的实施方式中，在确定节点node^k+1和节点node^k+2、B′、 Θ′之后，本申请实施例的方法还包括步骤：

当根据测序样本数据集和环境因素集包括至包括至少两个样本簇时时，

和左节点集

遍历左节点集

中的每个节点node^a并遍历右节点集

中的每个节点node^b；

计算node^a的EBIC^a、node^b的EBIC^b及node^a∪node^b的EBIC′；

若EBIC′<EBIC^a+EBIC^b，则创建新节点node^new，node^new＝node^a∪ node^b，以将node^new插入到至少两个样本簇构成的样本簇二叉树中并删除node^b和node^a；

若否则删除node^a。

与现有技术相比，本申请实施例提供了一种新提出了新的层次贝叶斯模型，在考虑环境因素变化的情况下推断多个关联网络，进而能够自动推断数据集中环境条件的数目和每种环境条件下的微生物-微生物和微生物-环境因子关联。与此同时，本申请实施例提出了基于分治策略的优化算法。基于分治策略的算法同时结合聚类与最大后验估计，能够有效求解隐变量和关联网络对应参数。

下面结合具体场景对本申请十实施进行进一步说明。

为了计算测序数据集中环境条件的数目和各个环境条件下的关联网络：

首先将所有测序样本根据环境因素值的相似性划分为细粒度的样本簇，同一个簇中的样本认为属于同一种环境条件；然后根据样本簇之间的环境因素和关联网络的相似性进行合并，最后保留的样本簇就是估计出的环境条件。之所以对划分后的样本簇进行合并，是因为划分时只根据环境因素的相似性，并未考虑关联网络的结构；这样划分的样本簇中可能存在环境因素相近且关联网络也相近的多个簇，这些簇因为切分粒度较细导致划分到不同的群体中，实际上应该归为一个环境条件下的样本。因此划分的过程就是得到处于相同环境条件样本的最小单位簇，合并的过程就是得到最合适的环境条件数目和大小。在划分过程结束后，需要先对每个叶节点上的样本簇进行关联网络推断。因为单个样本簇中的样本认为属于同一种环境条件，这里我们利用OpenMP对速度进行了进一步优化。这样提升了稳定性和效率。

然后采用贪心的方式自底向上地对相近的子节点进行合并。首先对叶节点的上一层节点(内部节点)进行合并操作，每次操作会尝试合并当前内部节点的左右两个分支中的子节点；在左右分支无法继续合并后，跳到当前节点的父节点进行操作。整个过程直到对根节点的左右分支尝试合并之后结束。对于每个内部节点，在对其左右分支中的节点进行合并时，需要首先分别遍历左右分支，得到每个分支的待合并节点集合；然后从该集合中每次挑出两个环境因素最相近的节点进行合并，直到无可合并节点对。这里直接用欧几里得距离对样本之间的环境因素向量进行相似性度量。合并两个节点时，需将属于两个样本簇的样本进行合并，然后利用mLDM模型重新进行参数估计，计算EBIC分数。只有当两个节点合并后的EBIC分值低于两个节点单独的EBIC分数之和，才会保留当前合并结果。合并后的样本簇会重新计算环境因素均值和协方差，并插入到样本簇构成的二叉树中，继续参与后续的合并过程。

基于此，本申请实施例进一步结合一种微生物的多关联网络模型进行说明。如图4所示，图4是本申请实施例公开的一种微生物的多关联网络模型的结构示意图，如图所示，向量

表示第i个样本的测序结果，

表示对应的环境因素向量。P维向量h_i表示第i个样本中微生物的相对丰度，α_i对应微生物的绝对丰度向量。假设微生物绝对丰 α_i决定着DNA文库中微生物的相对丰度h_i，并且测序获得的微生物序列数x_i与文库中的微生物相对丰度h_i有关。第i个样本可以认为是从某种环境条件c_i采样得到，并且在数据集中环境条件的混合权重为

处于环境条件c_i下的微生物绝对丰度变化受到两方面因素的影响：1、微生物与环境因素关联的影响，记作

2、微生物之间关联的作用，这里用隐变量

表示。同样地，

服从一个多元高斯分布，包括一个基线向量

和精确度矩阵

这里

记录着环境条件c_i下微生物与环境因素的直接关联，

记录着微生物之间的关联。

进一步地，模型假设数据集

中存在着K 种环境条件，并且环境因素向量服从均值为

协方差为

的多元高斯分布，N个环境因子样本中包含K个服从高斯分布成分 (Components)。这样宏基因组测序数据中的K种环境条件可以用参数：

来描述。其中B^(k)和Θ^(k)描述第k个环境条件下的环境因素与微生物之间和微生物之间的关联网络，μ^(k)和Σ^(k)描述第k个环境条件下的环境因素分布规律。另外，每种环境条件的权重为

并且有

进一步地，可得到以下计算式：c_i～Categorial(π)、

x_i～Multinomial(h_i)，其中，在环境条件c_i下，环境因素c_i服从多元高斯分布

该环境条件的权重服从分类分布

这里

是Q×P 的实数矩阵，

记录环境条件c_i下，第q个环境因素与第p个微生物之间的关联；

为逆协方差矩阵，

灸示环境条件c_i下第 i个与第j个微生物之间的关联。

实施例二

请参阅图2，图2是本申请实施例公开的一种微生物的多关联网络计算装置的结构示意图。如图2，该微生物的多关联网络计算装置包括模块：

获取模块201，用于获取测序样本数据集

及环境因素集

初始化模块202，用于初始化测序样本数据集和环境因素集的根节点node⁰，其中，|node⁰|＝N

划分模块203，用于根据测序样本数据集和环境因素集的根节点 node⁰、二成分高斯混合模型递归划分测序样本数据集和环境因素集，并得到测序样本数据集和环境因素集的至少两个子节点，其中，一个节点 node^k+1＝{X^k+1，M^k+1}，另一个子节点node^k+2＝{X^k+2，M^k+2}，且 |node^k+1|＝N_k+1，|node^k+2|＝N_k+2，node^k+1和node^k+2构成一个样本簇；

确定模块204，用于确定节点node^k+1和节点node^k+2的B′、Θ′，B′表征第k+1个环境条件下的环境因素与微生物之间的关联网络，Θ′表征微生物之间的关联网络。

在一些可选的实施方式中，获取模块201还用于获取测序样本数据集和环境因素集的样本簇最小值N_min。

在一些可选的实施方式中，划分模块203具体用于根据测序样本数据集和环境因素集的根节点node⁰、二成分高斯混合模型递归划分测序样本数据集和环境因素集，直至节点node^k+1的N_k+1和node^k+2的N_k+2大于样本簇最小值N_min。

在一些可选的实施方式中，装置还包括筛选模块，筛选模块，其中：

筛选模块用于当根据测序样本数据集和环境因素集至少两个样本簇时，保留至少两个样本簇中的环境因素均值向量位于节点node^k+1的N_k+1和node^k+2的环境均值向量之间的样本簇。

在一些可选的实施方式中，装置还包括合并模块，其中，合并模块用于：

和左节点集

遍历左节点集

中的每个节点node^a并遍历右节点集

中的每个节点node^b；

计算node^a的EBIC^a、node^b的EBIC^b及node^a∪node^b的EBIC′；

若否则删除node^a。

与现有技术相比，本申请实施例的装置通过执行微生物的多关联网络计算方法，提供了一种新提出了新的层次贝叶斯模型，在考虑环境因素变化的情况下推断多个关联网络，进而能够自动推断数据集中环境条件的数目和每种环境条件下的微生物-微生物和微生物-环境因子关联。与此同时，本申请实施例提出了基于分治策略的优化算法。基于分治策略的算法同时结合聚类与最大后验估计，能够有效求解隐变量和关联网络对应参数。

下面结合具体场景对本申请十实施进行进一步说明。

基于此，本申请实施例进一步结合一种微生物的多关联网络模型进行说明。如图4所示，图4是本申请实施例公开的一种微生物的多关联网络模型的结构示意图，如图4所示，向量

表示第i个样本的测序结果，

表示对应的环境因素向量。P维向量h_i表示第i个样本中微生物的相对丰度，α_i对应微生物的绝对丰度向量。假设微生物绝对丰α_i决定着DNA文库中微生物的相对丰度h_i，并且测序获得的微生物序列数x_i与文库中的微生物相对丰度h_i有关。第i个样本可以认为是从某种环境条件c_i采样得到，并且在数据集中环境条件的混合权重为

2、微生物之间关联的作用，这里用隐变量

表示。同样地，

服从一个多元高斯分布，包括一个基线向量

和精确度矩阵

这里

记录着环境条件c_i下微生物与环境因素的直接关联，

记录着微生物之间的关联。

进一步地，模型假设数据集

中存在着K 种环境条件，并且环境因素向量服从均值为

协方差为

并且有

进一步地，可得到以下计算式：c_i～Cate gorial(π)、

h_i～Dirichlet(α_i)x_i～Multinomial(h_i)、x_i～Multinomial(h_i)，其中，在环境条件c_i下，环境因素c_i服从多元高斯分布

该环境条件的权重服从分类分布

这里

是Q×P 的实数矩阵，

为逆协方差矩阵，

表示环境条件c_i下第 i个与第j个微生物之间的关联。

实施例三

本申请第三方面公开一种微生物的多关联网络计算设备，设备包括：

处理器302；以及

存储器301，配置用于存储机器可读指令，指令在由处理器302执行时执行如本申请实施例一公开的微生物的多关联网络计算方法。

与现有技术相比，本申请实施例的设备通过执行微生物的多关联网络计算方法，提供了一种新提出了新的层次贝叶斯模型，在考虑环境因素变化的情况下推断多个关联网络，进而能够自动推断数据集中环境条件的数目和每种环境条件下的微生物-微生物和微生物-环境因子关联。与此同时，本申请实施例提出了基于分治策略的优化算法。基于分治策略的算法同时结合聚类与最大后验估计，能够有效求解隐变量和关联网络对应参数。

实施例四

本申请实施例公开一种存储介质，该存储介质存储有计算机程序，计算机程序被处理器执行时执行如本申请实施例一公开的微生物的多关联网络计算方法。

与现有技术相比，本申请实施例的存储介质通过执行微生物的多关联网络计算方法，提供了一种新提出了新的层次贝叶斯模型，在考虑环境因素变化的情况下推断多个关联网络，进而能够自动推断数据集中环境条件的数目和每种环境条件下的微生物-微生物和微生物-环境因子关联。与此同时，本申请实施例提出了基于分治策略的优化算法。基于分治策略的算法同时结合聚类与最大后验估计，能够有效求解隐变量和关联网络对应参数。

在本申请所公开的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，定位基站，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语 “包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种微生物的多关联网络计算方法，其特征在于，所述方法包括：

获取测序样本数据集

及环境因素集

初始化所述测序样本数据集和所述环境因素集的根节点node⁰，其中，|node⁰|＝N

根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，并得到所述测序样本数据集和所述环境因素集的至少两个子节点，其中，一个节点node^k+1＝{X^k+1，M^k+1}，另一个子节点node^k+2＝{X^k+2，M^k ⁺²}，且|node^k+1|＝N_k+1，|node^k+2|＝N_k+2，所述node^k+1和node^k+2构成一个样本簇；

2.如权利要求1所述的方法，其特征在于，在所述获取测序样本数集之后，根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，并得到所述测序样本数据集和所述环境因素集的至少两个子节点之后，所述方法还包括：

获取所述测序样本数据集和所述环境因素集的样本簇最小值N_min；

所述根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，并得到所述测序样本数据集和所述环境因素集的至少两个子节点，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，并得到所述测序样本数据集和所述环境因素集的至少两个子节点，还包括：

4.如权利要求1所述的方法，其特征在于，在所述确定节点node^k+1和节点node^k+2、B′、Θ′之后，所述方法还包括：

和左节点集

遍历左节点集

中的每个节点node^a并遍历右节点集

中的每个节点node^b；

计算node^a的EBIC^a、node^b的EBIC^b及node^a∪node^b的EBIC′；

若EBIC′<EBIC^a+EBIC^b，则创建新节点node^new，node^new＝node^a∪node^b，以将所述node^new插入到所述至少两个样本簇构成的样本簇二叉树中并删除node^b和node^a；

若否则删除node^a。

5.一种微生物的多关联网络计算装置，其特征在于，所述装置包括：

获取模块，用于获取测序样本数据集

及环境因素集

划分模块，用于根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，并得到所述测序样本数据集和所述环境因素集的至少两个子节点，其中，一个节点node^k+1＝{X^k+1，M^k+1}，另一个子节点node^k+2＝{X^k+2，M^k+2}，且|node^k+1|＝N_k+1，|node^k+2|＝N_k+2，所述node^k+1和node^k+2构成一个样本簇；

确定模块，用于确定节点node^k+1和节点node^k+2的B′、Θ′，所述B′表征第k+1个环境条件下的环境因素与微生物之间的关联网络，Θ′表征微生物之间的关联网络。

6.如权利要求5所述的装置，其特征在于，所述获取模块还用于获取所述测序样本数据集和所述环境因素集的样本簇最小值N_min；

所述划分模块用于根据所述测序样本数据集和所述环境因素集的根节点node⁰、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集，直至节点node^k+1的N_k+1和node^k+2的N_k+2大于所述样本簇最小值N_min。

7.如权利要求5所述的装置，其特征在于，所述装置还包括筛选模块，所述筛选模块，其中：

8.如权利要求5所述的装置，其特征在于，所述装置还包括合并模块，其中，所述合并模块用于：