CN111477267A - 微生物的多关联网络计算方法、装置、设备及存储介质 - Google Patents

微生物的多关联网络计算方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111477267A
CN111477267A CN202010149870.0A CN202010149870A CN111477267A CN 111477267 A CN111477267 A CN 111477267A CN 202010149870 A CN202010149870 A CN 202010149870A CN 111477267 A CN111477267 A CN 111477267A
Authority
CN
China
Prior art keywords
node
sample data
data set
sequencing
environmental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010149870.0A
Other languages
English (en)
Other versions
CN111477267B (zh
Inventor
陈挺
王欣
杨煜清
朱丛敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010149870.0A priority Critical patent/CN111477267B/zh
Publication of CN111477267A publication Critical patent/CN111477267A/zh
Application granted granted Critical
Publication of CN111477267B publication Critical patent/CN111477267B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开一种微生物的多关联网络计算方法、装置、设备及存储介质,本申请提出了一种新型贝叶斯模型,在考虑环境因素变化的情况下推断多个关联网络,进而能够自动推断数据集中环境条件的数目和每种环境条件下的微生物‑微生物和微生物‑环境因子关联。与此同时,本申请实施例提出了基于分治策略的优化算法。基于分治策略的算法同时结合聚类与最大后验估计,能够有效求解隐变量和关联网络对应参数。

Description

微生物的多关联网络计算方法、装置、设备及存储介质
技术领域
本申请涉及微生物环境分析领域,尤其涉及一种微生物的多关联网络计算 方法、装置、设备及存储介质。
背景技术
微生物之间及微生物与环境之间的交互会随着时间或环境因素的改变 而发生动态变化,在丰度变化上呈现出非线性关联。微生物群落中关联的 变化依赖于当前所处的环境条件,即环境因素的值处于某一特定范围时所 描述的环境。在相似的环境条件下,微生物群落中的交互是稳定的,并且 会随着环境条件的改变而发生变化。为了确定数据集中可能的环境条件和 单个环境条件下的微生物关联网络,需要新的计算工具。传统的关联推断算法均假设微生物群落中只有一个关联网络,忽视了微生物交互动态变化 的本质,这无疑会误导我们对微生物交互的研究。
发明内容
本申请目的在于公开一种微生物的多关联网络计算方法、装置、设备 及存储介质,用于在每个环境条件下,能够结合组成成分偏差和过度散布, 推断条件依赖的微生物-微生物关联和直接的微生物-环境关联。
本申请第一方面公开一种微生物的多关联网络计算方法,所述方法 包括:
获取测序样本数据集
Figure BDA0002402036350000021
及环境因素集
Figure BDA0002402036350000022
初始化所述测序样本数据集和所述环境因素集的根节点node0,其中, |node0|=N
根据所述测序样本数据集和所述环境因素集的根节点node0、二成分 高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到 所述测序样本数据集和所述环境因素集的至少两个子节点,其中,一个 节点nodek+1={Xk+1,Mk+1},另一个子节点nodek+2={Xk+2,Mk+2}, 且|nodek+1|=Nk+1,|nodek+2|=Nk+2,所述nodek+1和nodek+2构成一个样 本簇;
确定节点nodek+1和节点nodek+2的B′、Θ′,所述B′表征第k+1个环 境条件下的环境因素与微生物之间的关联网络,Θ′表征微生物之间的关 联网络。
在一些可选的实施方式中,在所述获取测序样本数集之后,根据所 述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模 型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样 本数据集和所述环境因素集的至少两个子节点之后,所述方法还包括:
获取所述测序样本数据集和所述环境因素集的样本簇最小值Nmin
在一些可选的实施方式中,所述根据所述测序样本数据集和所述环 境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数 据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集 的至少两个子节点,包括:
根据所述测序样本数据集和所述环境因素集的根节点node0、二成分 高斯混合模型递归划分所述测序样本数据集和所述环境因素集,直至 节点nodek+1的Nk+1和nodek+2的Nk+2大于所述样本簇最小值Nmin
在一些可选的实施方式中,所述根据所述测序样本数据集和所述环 境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数 据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集 的至少两个子节点,还包括:
当根据所述测序样本数据集和所述环境因素集至少两个样本簇时, 保留所述至少两个样本簇中的环境因素均值向量位于节点nodek+1的Nk+1和nodek+2的环境均值向量之间的样本簇。
在一些可选的实施方式中,在所述确定节点nodek+1和节点nodek+2、 B′、Θ′之后,所述方法还包括:
当根据所述测序样本数据集和所述环境因素集包括至包括至少两个 样本簇时时,
遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右 节点集
Figure BDA0002402036350000031
和左节点集
Figure BDA0002402036350000032
遍历左节点集
Figure BDA0002402036350000033
中的每个节点nodea并遍历右节点集
Figure BDA0002402036350000034
中的每个节点nodeb
计算nodea的EBICa、nodeb的EBICb及nodea∪nodeb的EBIC′;
若EBIC′<EBICa+EBICb,则创建新节点nodenew,nodenew=nodea∪ nodeb,以将所述nodenew插入到所述至少两个样本簇构成的样本簇二叉 树中并删除nodeb和nodea
若否则删除nodea
本申请第二方面公开一种微生物的多关联网络计算装置,所述装置 包括:
获取模块,用于获取测序样本数据集
Figure BDA0002402036350000035
及环境因素集
Figure BDA0002402036350000036
初始化模块,用于初始化所述测序样本数据集和所述环境因素集的 根节点node0,其中,|node0|=N
划分模块,用于根据所述测序样本数据集和所述环境因素集的根节 点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境 因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节 点,其中,一个节点nodek+1={Xk+1,Mk+1},另一个子节点 nodek+2={Xk+2,Mk+2},且|nodek+1|=Nk+1,|nodek+2|=Nk+2,所述 nodek+1和nodek+2构成一个样本簇;
确定模块,用于确定节点nodek+1和节点nodek+2的B′、Θ′,所述B′ 表征第k+1个环境条件下的环境因素与微生物之间的关联网络,Θ′表征 微生物之间的关联网络。
在一些可选的实施方式中,所述获取模块还用于获取所述测序样本 数据集和所述环境因素集的样本簇最小值Nmin
在一些可选的实施方式中,所述划分模块用于根据所述测序样本数 据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所 述测序样本数据集和所述环境因素集,直至节点nodek+1的Nk+1和 nodek+2的Nk+2大于所述样本簇最小值Nmin
在一些可选的实施方式中,所述装置还包括筛选模块,所述筛选模 块,其中:
所述筛选模块用于当根据所述测序样本数据集和所述环境因素集至 少两个样本簇时,保留所述至少两个样本簇中的环境因素均值向量位于 节点nodek+1的Nk+1和nodek+2的环境均值向量之间的样本簇。
在一些可选的实施方式中,所述装置还包括合并模块,其中,所述 合并模块用于:
当根据所述测序样本数据集和所述环境因素集包括至包括至少两个 样本簇时时,
遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右 节点集
Figure BDA0002402036350000041
和左节点集
Figure BDA0002402036350000042
遍历左节点集
Figure BDA0002402036350000043
中的每个节点nodea并遍历右节点集
Figure BDA0002402036350000044
中的每个节点nodeb
计算nodea的EBICa、nodeb的EBICb及nodea∪nodeb的EBIC′;
若EBIC′<EBICa+EBICb,则创建新节点nodenew,nodenew=nodea∪ nodeb,以将所述nodenew插入到所述至少两个样本簇构成的样本簇二叉 树中并删除nodeb和nodea
若否则删除nodea
本申请第三方面公开一种微生物的多关联网络计算设备,所述设备 包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述指令在由所述处理器执 行时执行如本申请第一方面所述的微生物的多关联网络计算方法。
本申请第四方面公开一种存储介质,所述存储介质存储有计算机程 序,所述计算机程序被处理器执行时执行如本申请第一方面所述的微生 物的多关联网络计算方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例 中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请 的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人 员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相 关的附图。
图1为本申请实施例一公开的微生物的多关联网络计算方法的流程示 意图;
图2为本申请实施例二公开的微生物的多关联网络计算装置的结构示 意图;
图3为本申请实施例三公开的微生物的多关联网络计算设备的结构示 意图;
图4为本申请实施例公开的微生物的多关联网络模型的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进 行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一 旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步 定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用 于区分描述,而不能理解为指示或暗示相对重要性。
实施例一
请参阅图1,图1是本申请实施例公开的一种微生物的多关联网络计 算方法的流程示意图。如图1,该微生物的多关联网络计算方法包括步骤:
101、获取测序样本数据集
Figure BDA0002402036350000061
及环境因素集
Figure BDA0002402036350000062
102、初始化测序样本数据集和环境因素集的根节点node0,其中, |node0|=N;
根据测序样本数据集和环境因素集的根节点node0、二成分高斯混合 模型递归划分测序样本数据集和环境因素集,并得到测序样本数据集和 环境因素集的至少两个子节点,其中,一个节点nodek+1={Xk+1,Mk+1}, 另一个子节点nodek+2={Xk+2,Mk+2},且|nodek+1|=Nk+1, |nodek+2|=Nk+2,nodek+1和nodek+2构成一个样本簇;
确定节点nodek+1和节点nodek+2的B′、Θ′,B′表征第k+1个环境条件下 的环境因素与微生物之间的关联网络,Θ′表征微生物之间的关联网络。
在一些可选的实施方式中,在获取测序样本数集之后,根据测序样 本数据集和环境因素集的根节点node0、二成分高斯混合模型递归划分测 序样本数据集和环境因素集,并得到测序样本数据集和环境因素集的至 少两个子节点之后,本申请实施例的方法还包括步骤:
获取测序样本数据集和环境因素集的样本簇最小值Nmin
在一些可选的实施方式中,步骤103:根据测序样本数据集和环境 因素集的根节点node0、二成分高斯混合模型递归划分测序样本数据集和 环境因素集,并得到测序样本数据集和环境因素集的至少两个子节点, 包括子步骤:
根据测序样本数据集和环境因素集的根节点node0、二成分高斯混合 模型递归划分测序样本数据集和环境因素集,直至节点nodek+1的Nk+1和 nodek+2的Nk+2大于样本簇最小值Nmin
在一些可选的实施方式中,步骤103:根据测序样本数据集和环境 因素集的根节点node0、二成分高斯混合模型递归划分测序样本数据集和 环境因素集,并得到测序样本数据集和环境因素集的至少两个子节点, 还包括子步骤:
当根据测序样本数据集和环境因素集至少两个样本簇时,保留至少 两个样本簇中的环境因素均值向量位于节点nodek+1的Nk+1和nodek+2的 环境均值向量之间的样本簇。
在一些可选的实施方式中,在确定节点nodek+1和节点nodek+2、B′、 Θ′之后,本申请实施例的方法还包括步骤:
当根据测序样本数据集和环境因素集包括至包括至少两个样本簇时 时,
遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右 节点集
Figure BDA0002402036350000071
和左节点集
Figure BDA0002402036350000072
遍历左节点集
Figure BDA0002402036350000073
中的每个节点nodea并遍历右节点集
Figure BDA0002402036350000074
中的每个节点nodeb
计算nodea的EBICa、nodeb的EBICb及nodea∪nodeb的EBIC′;
若EBIC′<EBICa+EBICb,则创建新节点nodenew,nodenew=nodea∪ nodeb,以将nodenew插入到至少两个样本簇构成的样本簇二叉树中并删 除nodeb和nodea
若否则删除nodea
与现有技术相比,本申请实施例提供了一种新提出了新的层次贝叶 斯模型,在考虑环境因素变化的情况下推断多个关联网络,进而能够自 动推断数据集中环境条件的数目和每种环境条件下的微生物-微生物和微 生物-环境因子关联。与此同时,本申请实施例提出了基于分治策略的优 化算法。基于分治策略的算法同时结合聚类与最大后验估计,能够有效 求解隐变量和关联网络对应参数。
下面结合具体场景对本申请十实施进行进一步说明。
为了计算测序数据集中环境条件的数目和各个环境条件下的关联网 络:
首先将所有测序样本根据环境因素值的相似性划分为细粒度的样本 簇,同一个簇中的样本认为属于同一种环境条件;然后根据样本簇之间 的环境因素和关联网络的相似性进行合并,最后保留的样本簇就是估计 出的环境条件。之所以对划分后的样本簇进行合并,是因为划分时只根 据环境因素的相似性,并未考虑关联网络的结构;这样划分的样本簇中 可能存在环境因素相近且关联网络也相近的多个簇,这些簇因为切分粒 度较细导致划分到不同的群体中,实际上应该归为一个环境条件下的样 本。因此划分的过程就是得到处于相同环境条件样本的最小单位簇,合 并的过程就是得到最合适的环境条件数目和大小。在划分过程结束后, 需要先对每个叶节点上的样本簇进行关联网络推断。因为单个样本簇中 的样本认为属于同一种环境条件,这里我们利用OpenMP对速度进行了进 一步优化。这样提升了稳定性和效率。
然后采用贪心的方式自底向上地对相近的子节点进行合并。首先对 叶节点的上一层节点(内部节点)进行合并操作,每次操作会尝试合并 当前内部节点的左右两个分支中的子节点;在左右分支无法继续合并后, 跳到当前节点的父节点进行操作。整个过程直到对根节点的左右分支尝 试合并之后结束。对于每个内部节点,在对其左右分支中的节点进行合 并时,需要首先分别遍历左右分支,得到每个分支的待合并节点集合; 然后从该集合中每次挑出两个环境因素最相近的节点进行合并,直到无 可合并节点对。这里直接用欧几里得距离对样本之间的环境因素向量进 行相似性度量。合并两个节点时,需将属于两个样本簇的样本进行合并, 然后利用mLDM模型重新进行参数估计,计算EBIC分数。只有当两个节 点合并后的EBIC分值低于两个节点单独的EBIC分数之和,才会保留当 前合并结果。合并后的样本簇会重新计算环境因素均值和协方差,并插 入到样本簇构成的二叉树中,继续参与后续的合并过程。
基于此,本申请实施例进一步结合一种微生物的多关联网络模型进 行说明。如图4所示,图4是本申请实施例公开的一种微生物的多关联 网络模型的结构示意图,如图所示,向量
Figure BDA0002402036350000081
表示第i个样本的测序 结果,
Figure BDA0002402036350000082
表示对应的环境因素向量。P维向量hi表示第i个样本中 微生物的相对丰度,αi对应微生物的绝对丰度向量。假设微生物绝对丰 αi决定着DNA文库中微生物的相对丰度hi,并且测序获得的微生物序列 数xi与文库中的微生物相对丰度hi有关。第i个样本可以认为是从某种环 境条件ci采样得到,并且在数据集中环境条件的混合权重为
Figure BDA0002402036350000083
处于环 境条件ci下的微生物绝对丰度变化受到两方面因素的影响:1、微生物 与环境因素关联的影响,记作
Figure BDA0002402036350000084
2、微生物之间关联的作用,这里用隐变量
Figure BDA0002402036350000085
表示。同样地,
Figure BDA0002402036350000086
服从一个多元高斯分布,包括一个基 线向量
Figure BDA0002402036350000091
和精确度矩阵
Figure BDA0002402036350000092
这里
Figure BDA0002402036350000093
记录着环境条件ci下微生物与环 境因素的直接关联,
Figure BDA0002402036350000094
记录着微生物之间的关联。
进一步地,模型假设数据集
Figure BDA0002402036350000095
中存在着K 种环境条件,并且环境因素向量服从均值为
Figure BDA0002402036350000096
协方差为
Figure BDA0002402036350000097
的多元高 斯分布,N个环境因子样本中包含K个服从高斯分布成分 (Components)。这样宏基因组测序数据中的K种环境条件可以用参数:
Figure BDA0002402036350000098
来描述。其中B(k)和Θ(k)描述第k个环境 条件下的环境因素与微生物之间和微生物之间的关联网络,μ(k)和Σ(k)描 述第k个环境条件下的环境因素分布规律。另外,每种环境条件的权重 为
Figure BDA0002402036350000099
并且有
Figure BDA00024020363500000910
进一步地,可得到以下计算式:ci~Categorial(π)、
Figure RE-GDA00025248770900000914
Figure RE-GDA00025248770900000915
xi~Multinomial(hi),其中, 在环境条件ci下,环境因素ci服从多元高斯分布
Figure RE-GDA00025248770900000916
该 环境条件的权重服从分类分布
Figure RE-GDA00025248770900000917
这里
Figure RE-GDA00025248770900000918
是Q×P 的实数矩阵,
Figure RE-GDA00025248770900000919
记录环境条件ci下,第q个环境因素与第p个微生物之 间的关联;
Figure RE-GDA00025248770900000920
为逆协方差矩阵,
Figure RE-GDA00025248770900000921
灸示环境条件ci下第 i个与第j个微生物之间的关联。
实施例二
请参阅图2,图2是本申请实施例公开的一种微生物的多关联网络计 算装置的结构示意图。如图2,该微生物的多关联网络计算装置包括模块:
获取模块201,用于获取测序样本数据集
Figure BDA00024020363500000919
及环境因素集
Figure BDA00024020363500000920
初始化模块202,用于初始化测序样本数据集和环境因素集的根节 点node0,其中,|node0|=N
划分模块203,用于根据测序样本数据集和环境因素集的根节点 node0、二成分高斯混合模型递归划分测序样本数据集和环境因素集,并 得到测序样本数据集和环境因素集的至少两个子节点,其中,一个节点 nodek+1={Xk+1,Mk+1},另一个子节点nodek+2={Xk+2,Mk+2},且 |nodek+1|=Nk+1,|nodek+2|=Nk+2,nodek+1和nodek+2构成一个样本簇;
确定模块204,用于确定节点nodek+1和节点nodek+2的B′、Θ′,B′表 征第k+1个环境条件下的环境因素与微生物之间的关联网络,Θ′表征微 生物之间的关联网络。
在一些可选的实施方式中,获取模块201还用于获取测序样本数据 集和环境因素集的样本簇最小值Nmin
在一些可选的实施方式中,划分模块203具体用于根据测序样本数 据集和环境因素集的根节点node0、二成分高斯混合模型递归划分测序样 本数据集和环境因素集,直至节点nodek+1的Nk+1和nodek+2的Nk+2大于 样本簇最小值Nmin
在一些可选的实施方式中,装置还包括筛选模块,筛选模块,其中:
筛选模块用于当根据测序样本数据集和环境因素集至少两个样本簇 时,保留至少两个样本簇中的环境因素均值向量位于节点nodek+1的Nk+1和nodek+2的环境均值向量之间的样本簇。
在一些可选的实施方式中,装置还包括合并模块,其中,合并模块 用于:
当根据测序样本数据集和环境因素集包括至包括至少两个样本簇时 时,
遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右 节点集
Figure BDA0002402036350000101
和左节点集
Figure BDA0002402036350000102
遍历左节点集
Figure BDA0002402036350000103
中的每个节点nodea并遍历右节点集
Figure BDA0002402036350000104
中的每个节点nodeb
计算nodea的EBICa、nodeb的EBICb及nodea∪nodeb的EBIC′;
若EBIC′<EBICa+EBICb,则创建新节点nodenew,nodenew=nodea∪ nodeb,以将nodenew插入到至少两个样本簇构成的样本簇二叉树中并删 除nodeb和nodea
若否则删除nodea
与现有技术相比,本申请实施例的装置通过执行微生物的多关联网 络计算方法,提供了一种新提出了新的层次贝叶斯模型,在考虑环境因 素变化的情况下推断多个关联网络,进而能够自动推断数据集中环境条 件的数目和每种环境条件下的微生物-微生物和微生物-环境因子关联。 与此同时,本申请实施例提出了基于分治策略的优化算法。基于分治策 略的算法同时结合聚类与最大后验估计,能够有效求解隐变量和关联网 络对应参数。
下面结合具体场景对本申请十实施进行进一步说明。
为了计算测序数据集中环境条件的数目和各个环境条件下的关联网 络:
首先将所有测序样本根据环境因素值的相似性划分为细粒度的样本 簇,同一个簇中的样本认为属于同一种环境条件;然后根据样本簇之间 的环境因素和关联网络的相似性进行合并,最后保留的样本簇就是估计 出的环境条件。之所以对划分后的样本簇进行合并,是因为划分时只根 据环境因素的相似性,并未考虑关联网络的结构;这样划分的样本簇中 可能存在环境因素相近且关联网络也相近的多个簇,这些簇因为切分粒 度较细导致划分到不同的群体中,实际上应该归为一个环境条件下的样 本。因此划分的过程就是得到处于相同环境条件样本的最小单位簇,合 并的过程就是得到最合适的环境条件数目和大小。在划分过程结束后, 需要先对每个叶节点上的样本簇进行关联网络推断。因为单个样本簇中 的样本认为属于同一种环境条件,这里我们利用OpenMP对速度进行了进 一步优化。这样提升了稳定性和效率。
然后采用贪心的方式自底向上地对相近的子节点进行合并。首先对 叶节点的上一层节点(内部节点)进行合并操作,每次操作会尝试合并 当前内部节点的左右两个分支中的子节点;在左右分支无法继续合并后, 跳到当前节点的父节点进行操作。整个过程直到对根节点的左右分支尝 试合并之后结束。对于每个内部节点,在对其左右分支中的节点进行合 并时,需要首先分别遍历左右分支,得到每个分支的待合并节点集合; 然后从该集合中每次挑出两个环境因素最相近的节点进行合并,直到无 可合并节点对。这里直接用欧几里得距离对样本之间的环境因素向量进 行相似性度量。合并两个节点时,需将属于两个样本簇的样本进行合并, 然后利用mLDM模型重新进行参数估计,计算EBIC分数。只有当两个节 点合并后的EBIC分值低于两个节点单独的EBIC分数之和,才会保留当 前合并结果。合并后的样本簇会重新计算环境因素均值和协方差,并插 入到样本簇构成的二叉树中,继续参与后续的合并过程。
基于此,本申请实施例进一步结合一种微生物的多关联网络模型进 行说明。如图4所示,图4是本申请实施例公开的一种微生物的多关联 网络模型的结构示意图,如图4所示,向量
Figure BDA0002402036350000111
表示第i个样本的测 序结果,
Figure BDA0002402036350000112
表示对应的环境因素向量。P维向量hi表示第i个样本 中微生物的相对丰度,αi对应微生物的绝对丰度向量。假设微生物绝对丰αi决定着DNA文库中微生物的相对丰度hi,并且测序获得的微生物序 列数xi与文库中的微生物相对丰度hi有关。第i个样本可以认为是从某种 环境条件ci采样得到,并且在数据集中环境条件的混合权重为
Figure BDA0002402036350000121
处于 环境条件ci下的微生物绝对丰度变化受到两方面因素的影响:1、微生 物与环境因素关联的影响,记作
Figure BDA0002402036350000122
2、微生物之间关联的作用, 这里用隐变量
Figure BDA0002402036350000123
表示。同样地,
Figure BDA0002402036350000124
服从一个多元高斯分布,包括一个 基线向量
Figure BDA0002402036350000125
和精确度矩阵
Figure BDA0002402036350000126
这里
Figure BDA0002402036350000127
记录着环境条件ci下微生物与 环境因素的直接关联,
Figure BDA0002402036350000128
记录着微生物之间的关联。
进一步地,模型假设数据集
Figure BDA0002402036350000129
中存在着K 种环境条件,并且环境因素向量服从均值为
Figure BDA00024020363500001210
协方差为
Figure BDA00024020363500001211
的多元高 斯分布,N个环境因子样本中包含K个服从高斯分布成分 (Components)。这样宏基因组测序数据中的K种环境条件可以用参数:
Figure BDA00024020363500001212
来描述。其中B(k)和Θ(k)描述第k个环境 条件下的环境因素与微生物之间和微生物之间的关联网络,μ(k)和Σ(k)描 述第k个环境条件下的环境因素分布规律。另外,每种环境条件的权重 为
Figure BDA00024020363500001213
并且有
Figure BDA00024020363500001214
进一步地,可得到以下计算式:ci~Cate gorial(π)、
Figure BDA00024020363500001224
Figure BDA00024020363500001217
hi~Dirichlet(αi)xi~Multinomial(hi)、xi~Multinomial(hi),其中, 在环境条件ci下,环境因素ci服从多元高斯分布
Figure BDA00024020363500001218
该 环境条件的权重服从分类分布
Figure BDA00024020363500001219
这里
Figure BDA00024020363500001220
是Q×P 的实数矩阵,
Figure BDA00024020363500001221
记录环境条件ci下,第q个环境因素与第p个微生物之 间的关联;
Figure BDA00024020363500001222
为逆协方差矩阵,
Figure BDA00024020363500001223
表示环境条件ci下第 i个与第j个微生物之间的关联。
实施例三
本申请第三方面公开一种微生物的多关联网络计算设备,设备包括:
处理器302;以及
存储器301,配置用于存储机器可读指令,指令在由处理器302执 行时执行如本申请实施例一公开的微生物的多关联网络计算方法。
与现有技术相比,本申请实施例的设备通过执行微生物的多关联网 络计算方法,提供了一种新提出了新的层次贝叶斯模型,在考虑环境因 素变化的情况下推断多个关联网络,进而能够自动推断数据集中环境条 件的数目和每种环境条件下的微生物-微生物和微生物-环境因子关联。 与此同时,本申请实施例提出了基于分治策略的优化算法。基于分治策 略的算法同时结合聚类与最大后验估计,能够有效求解隐变量和关联网 络对应参数。
实施例四
本申请实施例公开一种存储介质,该存储介质存储有计算机程序, 计算机程序被处理器执行时执行如本申请实施例一公开的微生物的多关 联网络计算方法。
与现有技术相比,本申请实施例的存储介质通过执行微生物的多关 联网络计算方法,提供了一种新提出了新的层次贝叶斯模型,在考虑环 境因素变化的情况下推断多个关联网络,进而能够自动推断数据集中环 境条件的数目和每种环境条件下的微生物-微生物和微生物-环境因子关 联。与此同时,本申请实施例提出了基于分治策略的优化算法。基于分 治策略的算法同时结合聚类与最大后验估计,能够有效求解隐变量和关 联网络对应参数。
在本申请所公开的几个实施例中,应该理解到,所揭露的装置和方法, 也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的, 例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方 法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流 程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模 块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的 功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实 际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉 及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框 图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的 基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个 独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集 成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时, 可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技 术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可 以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中, 包括若干指令用以使得一台计算机设备(可以是个人计算机,定位基站, 或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述 的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者 光盘等各种可以存储程序代码的介质。
以上仅为本申请的实施例而已,并不用于限制本申请的保护范围,对 于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申 请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类 似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要 对其进行进一步定义和解释。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易 想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保 护范围应以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用 来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者 暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语 “包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而 使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而 且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物 品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一 个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备 中还存在另外的相同要素。

Claims (10)

1.一种微生物的多关联网络计算方法,其特征在于,所述方法包括:
获取测序样本数据集
Figure FDA0002402036340000011
及环境因素集
Figure FDA0002402036340000012
初始化所述测序样本数据集和所述环境因素集的根节点node0,其中,|node0|=N
根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点,其中,一个节点nodek+1={Xk+1,Mk+1},另一个子节点nodek+2={Xk+2,Mk +2},且|nodek+1|=Nk+1,|nodek+2|=Nk+2,所述nodek+1和nodek+2构成一个样本簇;
确定节点nodek+1和节点nodek+2的B′、Θ′,所述B′表征第k+1个环境条件下的环境因素与微生物之间的关联网络,Θ′表征微生物之间的关联网络。
2.如权利要求1所述的方法,其特征在于,在所述获取测序样本数集之后,根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点之后,所述方法还包括:
获取所述测序样本数据集和所述环境因素集的样本簇最小值Nmin
所述根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点,包括:
根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,直至节点nodek+1的Nk+1和nodek+2的Nk+2大于所述样本簇最小值Nmin
3.如权利要求1所述的方法,其特征在于,所述根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点,还包括:
当根据所述测序样本数据集和所述环境因素集至少两个样本簇时,保留所述至少两个样本簇中的环境因素均值向量位于节点nodek+1的Nk+1和nodek+2的环境均值向量之间的样本簇。
4.如权利要求1所述的方法,其特征在于,在所述确定节点nodek+1和节点nodek+2、B′、Θ′之后,所述方法还包括:
当根据所述测序样本数据集和所述环境因素集包括至包括至少两个样本簇时时,
遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右节点集
Figure FDA0002402036340000021
和左节点集
Figure FDA0002402036340000022
遍历左节点集
Figure FDA0002402036340000023
中的每个节点nodea并遍历右节点集
Figure FDA0002402036340000024
中的每个节点nodeb
计算nodea的EBICa、nodeb的EBICb及nodea∪nodeb的EBIC′;
若EBIC′<EBICa+EBICb,则创建新节点nodenew,nodenew=nodea∪nodeb,以将所述nodenew插入到所述至少两个样本簇构成的样本簇二叉树中并删除nodeb和nodea
若否则删除nodea
5.一种微生物的多关联网络计算装置,其特征在于,所述装置包括:
获取模块,用于获取测序样本数据集
Figure FDA0002402036340000025
及环境因素集
Figure FDA0002402036340000026
初始化模块,用于初始化所述测序样本数据集和所述环境因素集的根节点node0,其中,|node0|=N
划分模块,用于根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点,其中,一个节点nodek+1={Xk+1,Mk+1},另一个子节点nodek+2={Xk+2,Mk+2},且|nodek+1|=Nk+1,|nodek+2|=Nk+2,所述nodek+1和nodek+2构成一个样本簇;
确定模块,用于确定节点nodek+1和节点nodek+2的B′、Θ′,所述B′表征第k+1个环境条件下的环境因素与微生物之间的关联网络,Θ′表征微生物之间的关联网络。
6.如权利要求5所述的装置,其特征在于,所述获取模块还用于获取所述测序样本数据集和所述环境因素集的样本簇最小值Nmin
所述划分模块用于根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,直至节点nodek+1的Nk+1和nodek+2的Nk+2大于所述样本簇最小值Nmin
7.如权利要求5所述的装置,其特征在于,所述装置还包括筛选模块,所述筛选模块,其中:
所述筛选模块用于当根据所述测序样本数据集和所述环境因素集至少两个样本簇时,保留所述至少两个样本簇中的环境因素均值向量位于节点nodek+1的Nk+1和nodek+2的环境均值向量之间的样本簇。
8.如权利要求5所述的装置,其特征在于,所述装置还包括合并模块,其中,所述合并模块用于:
当根据所述测序样本数据集和所述环境因素集包括至包括至少两个样本簇时时,
遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右节点集
Figure FDA0002402036340000031
和左节点集
Figure FDA0002402036340000032
遍历左节点集
Figure FDA0002402036340000033
中的每个节点nodea并遍历右节点集
Figure FDA0002402036340000034
中的每个节点nodeb
计算nodea的EBICa、nodeb的EBICb及nodea∪nodeb的EBIC′;
若EBIC′<EBICa+EBICb,则创建新节点nodenew,nodenew=nodea∪nodeb,以将所述nodenew插入到所述至少两个样本簇构成的样本簇二叉树中并删除nodeb和nodea
若否则删除nodea
9.一种微生物的多关联网络计算设备,其特征在于,所述设备包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述指令在由所述处理器执行时执行如权利要求1-5任一项所述的微生物的多关联网络计算方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如权利要求1-5任一项所述的微生物的多关联网络计算方法。
CN202010149870.0A 2020-03-06 2020-03-06 微生物的多关联网络计算方法、装置、设备及存储介质 Expired - Fee Related CN111477267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010149870.0A CN111477267B (zh) 2020-03-06 2020-03-06 微生物的多关联网络计算方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010149870.0A CN111477267B (zh) 2020-03-06 2020-03-06 微生物的多关联网络计算方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111477267A true CN111477267A (zh) 2020-07-31
CN111477267B CN111477267B (zh) 2022-05-03

Family

ID=71748169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010149870.0A Expired - Fee Related CN111477267B (zh) 2020-03-06 2020-03-06 微生物的多关联网络计算方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111477267B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104039982A (zh) * 2012-08-01 2014-09-10 深圳华大基因研究院 一种分析微生物群落组成的方法和装置
CN105938524A (zh) * 2016-04-26 2016-09-14 清华大学 一种微生物关联网络预测方法及装置
CN109785898A (zh) * 2019-01-14 2019-05-21 清华大学 一种基于微生物网络评估环境污染风险的方法
US20190348150A1 (en) * 2018-05-14 2019-11-14 Tata Consultancy Services Limited Method and system for identification of key driver organisms from microbiome / metagenomics studies

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104039982A (zh) * 2012-08-01 2014-09-10 深圳华大基因研究院 一种分析微生物群落组成的方法和装置
CN105938524A (zh) * 2016-04-26 2016-09-14 清华大学 一种微生物关联网络预测方法及装置
US20190348150A1 (en) * 2018-05-14 2019-11-14 Tata Consultancy Services Limited Method and system for identification of key driver organisms from microbiome / metagenomics studies
CN109785898A (zh) * 2019-01-14 2019-05-21 清华大学 一种基于微生物网络评估环境污染风险的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANG, YUQING 等: "Inference of Environmental Factor-Microbe and Microbe-Microbe Associations from Metagenomic Data Using a Hierarchical Bayesian Statistical Model", 《CELL SYSTEMS》 *
郝祎祺: "微生物相互作用研究进展:从观察到预测", 《北京师范大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN111477267B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
Goyal et al. Dyngem: Deep embedding method for dynamic graphs
Del Río et al. On the use of mapreduce for imbalanced big data using random forest
Vanchinathan et al. Explore-exploit in top-n recommender systems via gaussian processes
Song et al. Dynamic clustering forest: an ensemble framework to efficiently classify textual data stream with concept drift
Liu et al. An Effective Clustering Algorithm With Ant Colony.
Joy et al. Batch Bayesian optimization using multi-scale search
Sarazin et al. SOM clustering using spark-mapreduce
Kassiano et al. Mining uncertain graphs: An overview
CN109933720B (zh) 一种基于用户兴趣自适应演化的动态推荐方法
Zhang et al. Mining indirect antagonistic communities from social interactions
Pizzuti et al. A genetic algorithm for community detection in attributed graphs
CN111143685A (zh) 一种推荐系统的构建方法及装置
Yoo et al. Sampling subgraphs with guaranteed treewidth for accurate and efficient graphical inference
Kimura et al. Learning information diffusion model in a social network for predicting influence of nodes
Morán-Fernández et al. A time efficient approach for distributed feature selection partitioning by features
CN111477267A (zh) 微生物的多关联网络计算方法、装置、设备及存储介质
Lakshmi et al. Machine learning approaches on map reduce for Big Data analytics
Chen et al. Gaussian mixture embedding of multiple node roles in networks
Satapathy et al. Unsupervised feature selection using rough set and teaching learning-based optimisation
El-shafeiy et al. Medical imbalanced data classification based on random forests
CN107423759B (zh) 低维逐次投影寻踪聚类模型综合评价方法、装置及应用
Gupta et al. Quantum inspired genetic algorithm for community structure detection in social networks
Jali et al. Greedy $ k $-Center From Noisy Distance Samples
Fazekas et al. Statistical data generation using sample data
Shili et al. IF-CLARANS: Intuitionistic fuzzy algorithm for big data clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220503

CF01 Termination of patent right due to non-payment of annual fee