CN111477267B - 微生物的多关联网络计算方法、装置、设备及存储介质 - Google Patents

微生物的多关联网络计算方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111477267B
CN111477267B CN202010149870.0A CN202010149870A CN111477267B CN 111477267 B CN111477267 B CN 111477267B CN 202010149870 A CN202010149870 A CN 202010149870A CN 111477267 B CN111477267 B CN 111477267B
Authority
CN
China
Prior art keywords
node
sample data
data set
environmental
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010149870.0A
Other languages
English (en)
Other versions
CN111477267A (zh
Inventor
陈挺
王欣
杨煜清
朱丛敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010149870.0A priority Critical patent/CN111477267B/zh
Publication of CN111477267A publication Critical patent/CN111477267A/zh
Application granted granted Critical
Publication of CN111477267B publication Critical patent/CN111477267B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开一种微生物的多关联网络计算方法、装置、设备及存储介质,本申请提出了一种新型贝叶斯模型,在考虑环境因素变化的情况下推断多个关联网络,进而能够自动推断数据集中环境条件的数目和每种环境条件下的微生物‑微生物和微生物‑环境因子关联。与此同时,本申请实施例提出了基于分治策略的优化算法。基于分治策略的算法同时结合聚类与最大后验估计,能够有效求解隐变量和关联网络对应参数。

Description

微生物的多关联网络计算方法、装置、设备及存储介质
技术领域
本申请涉及微生物环境分析领域,尤其涉及一种微生物的多关联网络计算方法、装置、设备及存储介质。
背景技术
微生物之间及微生物与环境之间的交互会随着时间或环境因素的改变而发生动态变化,在丰度变化上呈现出非线性关联。微生物群落中关联的变化依赖于当前所处的环境条件,即环境因素的值处于某一特定范围时所描述的环境。在相似的环境条件下,微生物群落中的交互是稳定的,并且会随着环境条件的改变而发生变化。为了确定数据集中可能的环境条件和单个环境条件下的微生物关联网络,需要新的计算工具。传统的关联推断算法均假设微生物群落中只有一个关联网络,忽视了微生物交互动态变化的本质,这无疑会误导我们对微生物交互的研究。
发明内容
本申请目的在于公开一种微生物的多关联网络计算方法、装置、设备及存储介质,用于在每个环境条件下,能够结合组成成分偏差和过度散布,推断条件依赖的微生物-微生物关联和直接的微生物-环境关联。
本申请第一方面公开一种微生物的多关联网络计算方法,所述方法包括:
获取测序样本数据集
Figure GDA0002524877090000021
及环境因素集
Figure GDA0002524877090000022
初始化所述测序样本数据集和所述环境因素集的根节点node0,其中,|node0|=N
根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点,其中,一个节点nodek+1={Xk+1,Mk+1},另一个子节点nodek+2={Xk+2,Mk+2},且|nodek+1|=Nk+1,|nodek+2|=Nk+2,所述nodek+1和nodek+2构成一个样本簇;
确定节点nodek+1和节点nodek+2的B′、Θ′,所述B′表征第k+1个环境条件下的环境因素与微生物之间的关联网络,Θ′表征微生物之间的关联网络。
在一些可选的实施方式中,在所述获取测序样本数集之后,根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点之后,所述方法还包括:
获取所述测序样本数据集和所述环境因素集的样本簇最小值Nmin
在一些可选的实施方式中,所述根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点,包括:
根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,直至节点nodek+1的Nk+1和nodek+2的Nk+2大于所述样本簇最小值Nmin
在一些可选的实施方式中,所述根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点,还包括:
当根据所述测序样本数据集和所述环境因素集至少两个样本簇时,保留所述至少两个样本簇中的环境因素均值向量位于节点nodek+1的Nk+1和nodek+2的环境均值向量之间的样本簇。
在一些可选的实施方式中,在所述确定节点nodek+1和节点 nodek+2、B′、Θ′之后,所述方法还包括:
当根据所述测序样本数据集和所述环境因素集包括至包括至少两个样本簇时时,
遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右节点集
Figure GDA0002524877090000031
和左节点集
Figure GDA0002524877090000032
遍历左节点集
Figure GDA0002524877090000033
中的每个节点nodea并遍历右节点集
Figure GDA0002524877090000034
中的每个节点nodeb
计算nodea的EBICa、nodeb的EBICb及nodea∪nodeb的EBIC′;
若EBIC′<EBICa+EBICb,则创建新节点nodenew,nodenew=nodea∪ nodeb,以将所述nodenew插入到所述至少两个样本簇构成的样本簇二叉树中并删除nodeb和nodea
若否则删除nodea
本申请第二方面公开一种微生物的多关联网络计算装置,所述装置包括:
获取模块,用于获取测序样本数据集
Figure GDA0002524877090000035
及环境因素集
Figure GDA0002524877090000036
初始化模块,用于初始化所述测序样本数据集和所述环境因素集的根节点node0,其中,|node0|=N
划分模块,用于根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点,其中,一个节点nodek+1={Xk+1,Mk+1},另一个子节点 nodek+2={Xk+2,Mk+2},且|nodek+1|=Nk+1,|nodek+2|=Nk+2,所述 nodek+1和nodek+2构成一个样本簇;
确定模块,用于确定节点nodek+1和节点nodek+2的B′、Θ′,所述B′表征第k+1个环境条件下的环境因素与微生物之间的关联网络,Θ′表征微生物之间的关联网络。
在一些可选的实施方式中,所述获取模块还用于获取所述测序样本数据集和所述环境因素集的样本簇最小值Nmin
在一些可选的实施方式中,所述划分模块用于根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,直至节点nodek+1的Nk+1和 nodek+2的Nk+2大于所述样本簇最小值Nmin
在一些可选的实施方式中,所述装置还包括筛选模块,所述筛选模块,其中:
所述筛选模块用于当根据所述测序样本数据集和所述环境因素集至少两个样本簇时,保留所述至少两个样本簇中的环境因素均值向量位于节点nodek+1的Nk+1和nodek+2的环境均值向量之间的样本簇。
在一些可选的实施方式中,所述装置还包括合并模块,其中,所述合并模块用于:
当根据所述测序样本数据集和所述环境因素集包括至包括至少两个样本簇时时,
遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右节点集
Figure GDA0002524877090000041
和左节点集
Figure GDA0002524877090000042
遍历左节点集
Figure GDA0002524877090000043
中的每个节点nodea并遍历右节点集
Figure GDA0002524877090000044
中的每个节点nodeb
计算nodea的EBICa、nodeb的EBICb及nodea∪nodeb的EBIC′;
若EBIC′<EBICa+EBICb,则创建新节点nodenew,nodenew=nodea∪ nodeb,以将所述nodenew插入到所述至少两个样本簇构成的样本簇二叉树中并删除nodeb和nodea
若否则删除nodea
本申请第三方面公开一种微生物的多关联网络计算设备,所述设备包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述指令在由所述处理器执行时执行如本申请第一方面所述的微生物的多关联网络计算方法。
本申请第四方面公开一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如本申请第一方面所述的微生物的多关联网络计算方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例一公开的微生物的多关联网络计算方法的流程示意图;
图2为本申请实施例二公开的微生物的多关联网络计算装置的结构示意图;
图3为本申请实施例三公开的微生物的多关联网络计算设备的结构示意图;
图4为本申请实施例公开的微生物的多关联网络模型的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一
请参阅图1,图1是本申请实施例公开的一种微生物的多关联网络计算方法的流程示意图。如图1,该微生物的多关联网络计算方法包括步骤:
101、获取测序样本数据集
Figure GDA0002524877090000061
及环境因素集
Figure GDA0002524877090000062
102、初始化测序样本数据集和环境因素集的根节点node0,其中, |node0|=N;
根据测序样本数据集和环境因素集的根节点node0、二成分高斯混合模型递归划分测序样本数据集和环境因素集,并得到测序样本数据集和环境因素集的至少两个子节点,其中,一个节点nodek+1={Xk+1, Mk+1},另一个子节点nodek+2={Xk+2,Mk+2},且|nodek+1|=Nk+1, |nodek+2|=Nk+2,nodek+1和nodek+2构成一个样本簇;
确定节点nodek+1和节点nodek+2的B′、Θ′,B′表征第k+1个环境条件下的环境因素与微生物之间的关联网络,Θ′表征微生物之间的关联网络。
在一些可选的实施方式中,在获取测序样本数集之后,根据测序样本数据集和环境因素集的根节点node0、二成分高斯混合模型递归划分测序样本数据集和环境因素集,并得到测序样本数据集和环境因素集的至少两个子节点之后,本申请实施例的方法还包括步骤:
获取测序样本数据集和环境因素集的样本簇最小值Nmin
在一些可选的实施方式中,步骤103:根据测序样本数据集和环境因素集的根节点node0、二成分高斯混合模型递归划分测序样本数据集和环境因素集,并得到测序样本数据集和环境因素集的至少两个子节点,包括子步骤:
根据测序样本数据集和环境因素集的根节点node0、二成分高斯混合模型递归划分测序样本数据集和环境因素集,直至节点nodek+1的Nk+1和 nodek+2的Nk+2大于样本簇最小值Nmin
在一些可选的实施方式中,步骤103:根据测序样本数据集和环境因素集的根节点node0、二成分高斯混合模型递归划分测序样本数据集和环境因素集,并得到测序样本数据集和环境因素集的至少两个子节点,还包括子步骤:
当根据测序样本数据集和环境因素集至少两个样本簇时,保留至少两个样本簇中的环境因素均值向量位于节点nodek+1的Nk+1和nodek+2的环境均值向量之间的样本簇。
在一些可选的实施方式中,在确定节点nodek+1和节点nodek+2、 B′、Θ′之后,本申请实施例的方法还包括步骤:
当根据测序样本数据集和环境因素集包括至包括至少两个样本簇时时,
遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右节点集
Figure GDA0002524877090000071
和左节点集
Figure GDA0002524877090000072
遍历左节点集
Figure GDA0002524877090000073
中的每个节点nodea并遍历右节点集
Figure GDA0002524877090000074
中的每个节点nodeb
计算nodea的EBICa、nodeb的EBICb及nodea∪nodeb的EBIC′;
若EBIC′<EBICa+EBICb,则创建新节点nodenew,nodenew=nodea∪ nodeb,以将nodenew插入到至少两个样本簇构成的样本簇二叉树中并删除nodeb和nodea
若否则删除nodea
与现有技术相比,本申请实施例提供了一种新提出了新的层次贝叶斯模型,在考虑环境因素变化的情况下推断多个关联网络,进而能够自动推断数据集中环境条件的数目和每种环境条件下的微生物-微生物和微生物-环境因子关联。与此同时,本申请实施例提出了基于分治策略的优化算法。基于分治策略的算法同时结合聚类与最大后验估计,能够有效求解隐变量和关联网络对应参数。
下面结合具体场景对本申请实施例 进行进一步说明。
为了计算测序数据集中环境条件的数目和各个环境条件下的关联网络:
首先将所有测序样本根据环境因素值的相似性划分为细粒度的样本簇,同一个簇中的样本认为属于同一种环境条件;然后根据样本簇之间的环境因素和关联网络的相似性进行合并,最后保留的样本簇就是估计出的环境条件。之所以对划分后的样本簇进行合并,是因为划分时只根据环境因素的相似性,并未考虑关联网络的结构;这样划分的样本簇中可能存在环境因素相近且关联网络也相近的多个簇,这些簇因为切分粒度较细导致划分到不同的群体中,实际上应该归为一个环境条件下的样本。因此划分的过程就是得到处于相同环境条件样本的最小单位簇,合并的过程就是得到最合适的环境条件数目和大小。在划分过程结束后,需要先对每个叶节点上的样本簇进行关联网络推断。因为单个样本簇中的样本认为属于同一种环境条件,这里我们利用OpenMP对速度进行了进一步优化。这样提升了稳定性和效率。
然后采用贪心的方式自底向上地对相近的子节点进行合并。首先对叶节点的上一层节点(内部节点)进行合并操作,每次操作会尝试合并当前内部节点的左右两个分支中的子节点;在左右分支无法继续合并后,跳到当前节点的父节点进行操作。整个过程直到对根节点的左右分支尝试合并之后结束。对于每个内部节点,在对其左右分支中的节点进行合并时,需要首先分别遍历左右分支,得到每个分支的待合并节点集合;然后从该集合中每次挑出两个环境因素最相近的节点进行合并,直到无可合并节点对。这里直接用欧几里得距离对样本之间的环境因素向量进行相似性度量。合并两个节点时,需将属于两个样本簇的样本进行合并,然后利用mLDM模型重新进行参数估计,计算EBIC分数。只有当两个节点合并后的EBIC分值低于两个节点单独的EBIC分数之和,才会保留当前合并结果。合并后的样本簇会重新计算环境因素均值和协方差,并插入到样本簇构成的二叉树中,继续参与后续的合并过程。
基于此,本申请实施例进一步结合一种微生物的多关联网络模型进行说明。如图4所示,图4是本申请实施例公开的一种微生物的多关联网络模型的结构示意图,如图所示,向量
Figure GDA0002524877090000081
表示第i个样本的测序结果,
Figure GDA0002524877090000082
表示对应的环境因素向量。P维向量hi表示第i个样本中微生物的相对丰度,αi对应微生物的绝对丰度向量。假设微生物绝对丰αi决定着DNA文库中微生物的相对丰度hi,并且测序获得的微生物序列数xi与文库中的微生物相对丰度hi有关。第i个样本可以认为是从某种环境条件ci采样得到,并且在数据集中环境条件的混合权重为
Figure GDA0002524877090000083
处于环境条件ci下的微生物绝对丰度变化受到两方面因素的影响:1、微生物与环境因素关联的影响,记作
Figure GDA0002524877090000091
2、微生物之间关联的作用,这里用隐变量
Figure GDA0002524877090000092
表示。同样地,
Figure GDA0002524877090000093
服从一个多元高斯分布,包括一个基线向量
Figure GDA0002524877090000094
和精确度矩阵
Figure GDA0002524877090000095
这里
Figure GDA0002524877090000096
记录着环境条件ci下微生物与环境因素的直接关联,
Figure GDA0002524877090000097
记录着微生物之间的关联。
进一步地,模型假设数据集
Figure GDA0002524877090000098
中存在着K 种环境条件,并且环境因素向量服从均值为
Figure GDA0002524877090000099
协方差为
Figure GDA00025248770900000910
的多元高斯分布,N个环境因子样本中包含K个服从高斯分布成分 (Components)。这样宏基因组测序数据中的K种环境条件可以用参数:
Figure GDA00025248770900000911
来描述。其中B(k)和Θ(k)描述第k个环境条件下的环境因素与微生物之间和微生物之间的关联网络,μ(k)和∑(k)描述第k个环境条件下的环境因素分布规律。另外,每种环境条件的权重为
Figure GDA00025248770900000912
并且有
Figure GDA00025248770900000913
进一步地,可得到以下计算式:ci~Categorial(π)、
Figure GDA00025248770900000914
Figure GDA00025248770900000915
xi~Multinomial(hi),其中,在环境条件ci下,环境因素ci服从多元高斯分布
Figure GDA00025248770900000916
该环境条件的权重服从分类分布
Figure GDA00025248770900000917
这里
Figure GDA00025248770900000918
是Q×P 的实数矩阵,
Figure GDA00025248770900000919
记录环境条件ci下,第q个环境因素与第p个微生物之间的关联;
Figure GDA00025248770900000920
为逆协方差矩阵,
Figure GDA00025248770900000921
灸示环境条件ci下第 i个与第j个微生物之间的关联。
实施例二
请参阅图2,图2是本申请实施例公开的一种微生物的多关联网络计算装置的结构示意图。如图2,该微生物的多关联网络计算装置包括模块:
获取模块201,用于获取测序样本数据集
Figure GDA00025248770900000922
及环境因素集
Figure GDA00025248770900000923
初始化模块202,用于初始化测序样本数据集和环境因素集的根节点node0,其中,|node0|=N
划分模块203,用于根据测序样本数据集和环境因素集的根节点 node0、二成分高斯混合模型递归划分测序样本数据集和环境因素集,并得到测序样本数据集和环境因素集的至少两个子节点,其中,一个节点 nodek+1={Xk+1,Mk+1},另一个子节点nodek+2={Xk+2,Mk +2},且 |nodek+1|=Nk+1,|nodek+2|=Nk+2,nodek+1和nodek+2构成一个样本簇;
确定模块204,用于确定节点nodek+1和节点nodek+2的B′、Θ′,B′表征第k+1个环境条件下的环境因素与微生物之间的关联网络,Θ′表征微生物之间的关联网络。
在一些可选的实施方式中,获取模块201还用于获取测序样本数据集和环境因素集的样本簇最小值Nmin
在一些可选的实施方式中,划分模块203具体用于根据测序样本数据集和环境因素集的根节点node0、二成分高斯混合模型递归划分测序样本数据集和环境因素集,直至节点nodek+1的Nk+1和nodek+2的Nk+2大于样本簇最小值Nmin
在一些可选的实施方式中,装置还包括筛选模块,筛选模块,其中:
筛选模块用于当根据测序样本数据集和环境因素集至少两个样本簇时,保留至少两个样本簇中的环境因素均值向量位于节点nodek+1的Nk+1和nodek+2的环境均值向量之间的样本簇。
在一些可选的实施方式中,装置还包括合并模块,其中,合并模块用于:
当根据测序样本数据集和环境因素集包括至包括至少两个样本簇时时,
遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右节点集
Figure GDA0002524877090000101
和左节点集
Figure GDA0002524877090000102
遍历左节点集
Figure GDA0002524877090000103
中的每个节点nodea并遍历右节点集
Figure GDA0002524877090000104
中的每个节点nodeb
计算nodea的EBICa、nodeb的EBICb及nodea∪nodeb的EBIC′;
若EBIC′<EBICa+EBICb,则创建新节点nodenew,nodenew=nodea∪ nodeb,以将nodenew插入到至少两个样本簇构成的样本簇二叉树中并删除nodeb和nodea
若否则删除nodea
与现有技术相比,本申请实施例的装置通过执行微生物的多关联网络计算方法,提供了一种新提出了新的层次贝叶斯模型,在考虑环境因素变化的情况下推断多个关联网络,进而能够自动推断数据集中环境条件的数目和每种环境条件下的微生物-微生物和微生物-环境因子关联。与此同时,本申请实施例提出了基于分治策略的优化算法。基于分治策略的算法同时结合聚类与最大后验估计,能够有效求解隐变量和关联网络对应参数。
下面结合具体场景对本申请实施例 进行进一步说明。
为了计算测序数据集中环境条件的数目和各个环境条件下的关联网络:
首先将所有测序样本根据环境因素值的相似性划分为细粒度的样本簇,同一个簇中的样本认为属于同一种环境条件;然后根据样本簇之间的环境因素和关联网络的相似性进行合并,最后保留的样本簇就是估计出的环境条件。之所以对划分后的样本簇进行合并,是因为划分时只根据环境因素的相似性,并未考虑关联网络的结构;这样划分的样本簇中可能存在环境因素相近且关联网络也相近的多个簇,这些簇因为切分粒度较细导致划分到不同的群体中,实际上应该归为一个环境条件下的样本。因此划分的过程就是得到处于相同环境条件样本的最小单位簇,合并的过程就是得到最合适的环境条件数目和大小。在划分过程结束后,需要先对每个叶节点上的样本簇进行关联网络推断。因为单个样本簇中的样本认为属于同一种环境条件,这里我们利用OpenMP对速度进行了进一步优化。这样提升了稳定性和效率。
然后采用贪心的方式自底向上地对相近的子节点进行合并。首先对叶节点的上一层节点(内部节点)进行合并操作,每次操作会尝试合并当前内部节点的左右两个分支中的子节点;在左右分支无法继续合并后,跳到当前节点的父节点进行操作。整个过程直到对根节点的左右分支尝试合并之后结束。对于每个内部节点,在对其左右分支中的节点进行合并时,需要首先分别遍历左右分支,得到每个分支的待合并节点集合;然后从该集合中每次挑出两个环境因素最相近的节点进行合并,直到无可合并节点对。这里直接用欧几里得距离对样本之间的环境因素向量进行相似性度量。合并两个节点时,需将属于两个样本簇的样本进行合并,然后利用mLDM模型重新进行参数估计,计算EBIC分数。只有当两个节点合并后的EBIC分值低于两个节点单独的EBIC分数之和,才会保留当前合并结果。合并后的样本簇会重新计算环境因素均值和协方差,并插入到样本簇构成的二叉树中,继续参与后续的合并过程。
基于此,本申请实施例进一步结合一种微生物的多关联网络模型进行说明。如图4所示,图4是本申请实施例公开的一种微生物的多关联网络模型的结构示意图,如图4所示,向量
Figure GDA0002524877090000121
表示第i个样本的测序结果,
Figure GDA0002524877090000122
表示对应的环境因素向量。P维向量hi表示第i个样本中微生物的相对丰度,αi对应微生物的绝对丰度向量。假设微生物绝对丰αi决定着DNA文库中微生物的相对丰度hi,并且测序获得的微生物序列数xi与文库中的微生物相对丰度hi有关。第i个样本可以认为是从某种环境条件ci采样得到,并且在数据集中环境条件的混合权重为
Figure GDA0002524877090000123
处于环境条件ci下的微生物绝对丰度变化受到两方面因素的影响:1、微生物与环境因素关联的影响,记作
Figure GDA0002524877090000124
2、微生物之间关联的作用,这里用隐变量
Figure GDA0002524877090000125
表示。同样地,
Figure GDA0002524877090000126
服从一个多元高斯分布,包括一个基线向量
Figure GDA0002524877090000127
和精确度矩阵
Figure GDA0002524877090000128
这里
Figure GDA0002524877090000129
记录着环境条件ci下微生物与环境因素的直接关联,
Figure GDA00025248770900001210
记录着微生物之间的关联。
进一步地,模型假设数据集
Figure GDA00025248770900001211
中存在着K 种环境条件,并且环境因素向量服从均值为
Figure GDA00025248770900001212
协方差为
Figure GDA00025248770900001213
的多元高斯分布,N个环境因子样本中包含K个服从高斯分布成分 (Components)。这样宏基因组测序数据中的K种环境条件可以用参数:
Figure GDA00025248770900001214
来描述。其中B(k)和Θ(k)描述第k个环境条件下的环境因素与微生物之间和微生物之间的关联网络,μ(k)和∑(k)描述第k个环境条件下的环境因素分布规律。另外,每种环境条件的权重为
Figure GDA00025248770900001215
并且有
Figure GDA00025248770900001216
进一步地,可得到以下计算式:ci~Categorial(π)、
Figure GDA00025248770900001217
Figure GDA00025248770900001218
xi~Multinomial(hi),其中,在环境条件ci下,环境因素ci服从多元高斯分布
Figure GDA00025248770900001219
该环境条件的权重服从分类分布
Figure GDA00025248770900001220
这里
Figure GDA00025248770900001221
是Q×P 的实数矩阵,
Figure GDA00025248770900001222
记录环境条件ci下,第q个环境因素与第p个微生物之间的关联;
Figure GDA00025248770900001223
为逆协方差矩阵,
Figure GDA00025248770900001224
表示环境条件ci下第 i个与第j个微生物之间的关联。
实施例三
本申请第三方面公开一种微生物的多关联网络计算设备,设备包括:
处理器302;以及
存储器301,配置用于存储机器可读指令,指令在由处理器302执行时执行如本申请实施例一公开的微生物的多关联网络计算方法。
与现有技术相比,本申请实施例的设备通过执行微生物的多关联网络计算方法,提供了一种新提出了新的层次贝叶斯模型,在考虑环境因素变化的情况下推断多个关联网络,进而能够自动推断数据集中环境条件的数目和每种环境条件下的微生物-微生物和微生物-环境因子关联。与此同时,本申请实施例提出了基于分治策略的优化算法。基于分治策略的算法同时结合聚类与最大后验估计,能够有效求解隐变量和关联网络对应参数。
实施例四
本申请实施例公开一种存储介质,该存储介质存储有计算机程序,计算机程序被处理器执行时执行如本申请实施例一公开的微生物的多关联网络计算方法。
与现有技术相比,本申请实施例的存储介质通过执行微生物的多关联网络计算方法,提供了一种新提出了新的层次贝叶斯模型,在考虑环境因素变化的情况下推断多个关联网络,进而能够自动推断数据集中环境条件的数目和每种环境条件下的微生物-微生物和微生物-环境因子关联。与此同时,本申请实施例提出了基于分治策略的优化算法。基于分治策略的算法同时结合聚类与最大后验估计,能够有效求解隐变量和关联网络对应参数。
在本申请所公开的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,定位基站,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种微生物的多关联网络计算方法,其特征在于,所述方法包括:
获取测序样本数据集
Figure FDA0003541574590000011
及环境因素集
Figure FDA0003541574590000012
初始化所述测序样本数据集和所述环境因素集的根节点node0,其中,|node0|=N;
根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点,其中,一个节点nodek+1={Xk+1,Mk+1},另一个子节点nodek+2=nodek+2={Xk+2,Mk+2},且|nodek+1|=Nk+1,|nodek+2|=Nk+2,所述nodek+1和nodek+2构成一个样本簇;
确定节点nodek+1和节点nodek+2的B′、Θ′,所述B′表征第k+1个环境条件下的环境因素与微生物之间的关联网络,Θ′表征微生物之间的关联网络。
2.如权利要求1所述的方法,其特征在于,在所述获取测序样本数集之后,根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点之后,所述方法还包括:
获取所述测序样本数据集和所述环境因素集的样本簇最小值Nmin;
所述根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点,包括:
根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,直至节点nodek+1的Nk+1和nodek+2的Nk+2大于所述样本簇最小值Nmin
3.如权利要求1所述的方法,其特征在于,所述根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点,还包括:
当根据所述测序样本数据集和所述环境因素集至少两个样本簇时,保留所述至少两个样本簇中的环境因素均值向量位于节点nodek+1的Nk+1和nodek+2的环境均值向量之间的样本簇。
4.如权利要求1所述的方法,其特征在于,在所述确定节点 nodek+1和节点nodek+2、B′、Θ′之后,所述方法还包括:
当根据所述测序样本数据集和所述环境因素集包括至少两个样本簇时,
遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右节点集
Figure FDA0003541574590000021
和左节点集
Figure FDA0003541574590000022
遍历左节点集
Figure FDA0003541574590000023
中的每个节点nodea并遍历右节点集
Figure FDA0003541574590000024
中的每个节点nodeb
计算nodea的EBICa、nodeb的EBICb及nodea∪nodeb的EBIC′;
若EBIC′<EBICa+EBICb,则创建新节点nodenew,nodenew=nodea∪nodeb,以将所述nodenew插入到所述至少两个样本簇构成的样本簇二叉树中并删除nodeb和nodea
若否则删除nodea
5.一种微生物的多关联网络计算装置,其特征在于,所述装置包括:
获取模块,用于获取测序样本数据集
Figure FDA0003541574590000025
及环境因素集
Figure FDA0003541574590000026
初始化模块,用于初始化所述测序样本数据集和所述环境因素集的根节点node0,其中,|node0|=N;
划分模块,用于根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,并得到所述测序样本数据集和所述环境因素集的至少两个子节点,其中,一个节点nodek+1={Xk+1,Mk+1},另一个子节点nodek+2={Xk+2,Mk+2},且|nodek+1|=Nk+1,|nodek+2|=Nk+2,所述nodek+1和nodek+2构成一个样本簇;
确定模块,用于确定节点nodek+1和节点nodek+2的B′、Θ′,所述B′表征第k+1个环境条件下的环境因素与微生物之间的关联网络,Θ′表征微生物之间的关联网络。
6.如权利要求5所述的装置,其特征在于,所述获取模块还用于获取所述测序样本数据集和所述环境因素集的样本簇最小值Nmin
所述划分模块用于根据所述测序样本数据集和所述环境因素集的根节点node0、二成分高斯混合模型递归划分所述测序样本数据集和所述环境因素集,直至节点nodek+1的Nk+1和nodek+2的Nk+2大于所述样本簇最小值Nmin
7.如权利要求5所述的装置,其特征在于,所述装置还包括筛选模块,所述筛选模块,其中:
所述筛选模块用于当根据所述测序样本数据集和所述环境因素集至少两个样本簇时,保留所述至少两个样本簇中的环境因素均值向量位于节点nodek+1的Nk+1和nodek+2的环境均值向量之间的样本簇。
8.如权利要求5所述的装置,其特征在于,所述装置还包括合并模块,其中,所述合并模块用于:
当根据所述测序样本数据集和所述环境因素集包括至少两个样本簇时,
遍历每个样本簇中的左节点和遍历每个样本簇中的右节点并确定右节点集
Figure FDA0003541574590000031
和左节点集
Figure FDA0003541574590000032
遍历左节点集
Figure FDA0003541574590000033
中的每个节点nodea并遍历右节点集
Figure FDA0003541574590000034
中的每个节点nodeb
计算nodea的EBICa、nodeb的EBICb及nodea∪nodeb的EBIC′;
若EBIC′<EBICa+EBICb,则创建新节点nodenew,nodenew=nodea∪nodeb,以将所述nodenew插入到所述至少两个样本簇构成的样本簇二叉树中并删除nodeb和nodea
若否则删除nodea
9.一种微生物的多关联网络计算设备,其特征在于,所述设备包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述指令在由所述处理器执行时执行如权利要求1-4任一项所述的微生物的多关联网络计算方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如权利要求1-4任一项所述的微生物的多关联网络计算方法。
CN202010149870.0A 2020-03-06 2020-03-06 微生物的多关联网络计算方法、装置、设备及存储介质 Expired - Fee Related CN111477267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010149870.0A CN111477267B (zh) 2020-03-06 2020-03-06 微生物的多关联网络计算方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010149870.0A CN111477267B (zh) 2020-03-06 2020-03-06 微生物的多关联网络计算方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111477267A CN111477267A (zh) 2020-07-31
CN111477267B true CN111477267B (zh) 2022-05-03

Family

ID=71748169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010149870.0A Expired - Fee Related CN111477267B (zh) 2020-03-06 2020-03-06 微生物的多关联网络计算方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111477267B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104039982A (zh) * 2012-08-01 2014-09-10 深圳华大基因研究院 一种分析微生物群落组成的方法和装置
CN105938524A (zh) * 2016-04-26 2016-09-14 清华大学 一种微生物关联网络预测方法及装置
CN109785898A (zh) * 2019-01-14 2019-05-21 清华大学 一种基于微生物网络评估环境污染风险的方法
US20190348150A1 (en) * 2018-05-14 2019-11-14 Tata Consultancy Services Limited Method and system for identification of key driver organisms from microbiome / metagenomics studies

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104039982A (zh) * 2012-08-01 2014-09-10 深圳华大基因研究院 一种分析微生物群落组成的方法和装置
CN105938524A (zh) * 2016-04-26 2016-09-14 清华大学 一种微生物关联网络预测方法及装置
US20190348150A1 (en) * 2018-05-14 2019-11-14 Tata Consultancy Services Limited Method and system for identification of key driver organisms from microbiome / metagenomics studies
CN109785898A (zh) * 2019-01-14 2019-05-21 清华大学 一种基于微生物网络评估环境污染风险的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Inference of Environmental Factor-Microbe and Microbe-Microbe Associations from Metagenomic Data Using a Hierarchical Bayesian Statistical Model;Yang, Yuqing 等;《Cell Systems》;20170125;第129-137页 *
微生物相互作用研究进展:从观察到预测;郝祎祺;《北京师范大学学报(自然科学版)》;20161231;第52卷(第6期);第809-815页 *

Also Published As

Publication number Publication date
CN111477267A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
Liu et al. An Effective Clustering Algorithm With Ant Colony.
CN107590263B (zh) 一种基于多变量决策树模型的分布式大数据分类方法
Kumar et al. A benchmark to select data mining based classification algorithms for business intelligence and decision support systems
CN109933720B (zh) 一种基于用户兴趣自适应演化的动态推荐方法
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
CN110264372B (zh) 一种基于节点表示的主题社团发现方法
Günnemann et al. Smvc: semi-supervised multi-view clustering in subspace projections
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
Divakar et al. Performance evaluation of credit card fraud transactions using boosting algorithms
Tiwari et al. Improving ant colony optimization algorithm for data clustering
CN111477267B (zh) 微生物的多关联网络计算方法、装置、设备及存储介质
Zhang et al. Addressing cbir efficiency, effectiveness, and retrieval subjectivity simultaneously
Podlena et al. An accelerated genetic algorithm
Senthil et al. Efficient time series data classification using sliding window technique based improved association rule mining with enhanced support vector machine
Bibi et al. Selecting the appropriate machine learning techniques for the prediction of software development costs
Carletti Exact and Inexact Methods for Graph Similarity in Structural Pattern Recognition PhD thesis of Vincenzo Carletti.
Ventura et al. Subgroup discovery
Jali et al. Greedy $ k $-Center From Noisy Distance Samples
CN113344747A (zh) 一种基于潜分类Logit模型的旅游景点吸引力评估方法
Carletti Exacts and Inexacts methods for graph similarity in Structural Pattern Recognition
Shivaprasad et al. Clustering based Indexing of Celebrity Cartoon Images for Retrieval
Fang et al. A research on fuzzy formal concept analysis based collaborative filtering recommendation system
CN117648623B (zh) 一种基于图池化对比学习的网络分类算法
Katayama et al. Extending deep interactive evolution with graph kernel for 3d design
CN114093436B (zh) 迭代式结合亲和力评估模型的构建方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220503