CN113345514A

CN113345514A - 一种基于超图聚类模型的微生物高阶网络建立方法及装置

Info

Publication number: CN113345514A
Application number: CN202110609590.8A
Authority: CN
Inventors: 刘芃兰
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-09-03

Abstract

本发明公开了一种基于超图聚类模型的微生物高阶网络建立方法及装置，其中方法包括：获取多种微生物的原始丰度数据，并得到对应的微生物高阶逻辑关系；利用加权超图对所述微生物高阶逻辑关系进行处理，得到微生物连接网络；建立超图聚类模型，对所述微生物连接网络进行挖掘，得到对应的微生物高阶网络；对所述微生物高阶网络进行评价；本发明得到的微生物模块具有更好的类内紧凑型和类间分离性，可以作为微生物高阶模块挖掘的有效工具。

Description

一种基于超图聚类模型的微生物高阶网络建立方法及装置

技术领域

本发明涉及微生物分析技术领域，更具体的说是涉及一种基于超图聚类模型的微生物高阶网络建立方法及装置。

背景技术

目前，微生物群体是所有生物体和生态系统保持健康稳定的核心组分，分析生态系统中微生物的互作用，挖掘微生物群落共现模块，可以加深对微生物群落的认知，提高利用和改造微生物群落的能力，为生态修复、疾病治疗和药物研发提供新的手段。有越来越多的证据表明物种间不仅存在成对的相互作用，也存在诸如循环交叉进食和集体共生等大量的高阶相互作用，这些高阶相互作用不但可以使得竞争网络达到动力学稳定，而且对于研究新物种引进也具有重要意义。

但是，传统计算模型大多通过成对关系来构建微生物网络，然而由于微生物关系复杂多变，这种成对网络构建方式可能会遗漏大量高阶相互作用，不能很好的捕捉微生物网络的本质特性。

因此，如何提供一种能够解决上述问题的微生物高阶网络建立方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于超图聚类模型的微生物高阶网络建立方法及装置，得到的微生物模块具有更好的类内紧凑型和类间分离性，可以作为微生物高阶模块挖掘的有效工具。

为了实现上述目的，本发明采用如下技术方案：

一种基于超图聚类模型的微生物高阶网络建立方法，包括：

获取多种微生物的原始丰度数据，并得到对应的微生物高阶逻辑关系；

利用加权超图对所述微生物高阶逻辑关系进行处理，得到微生物连接网络；

建立超图聚类模型，对所述微生物连接网络进行挖掘，得到对应的微生物高阶网络；

对所述微生物高阶网络进行评价。

优选的，得到对应的微生物高阶逻辑关系的具体过程包括：

对多种所述微生物的原始丰度数据进行离散化处理，得到丰度逻辑矩阵；

获取任意几种微生物间的不确定系数和逻辑组合谱；

基于不同逻辑类型下任意几种微生物间的发生情况，构建对应的微生物高阶逻辑关系。

优选的，建立加权超图模型的具体过程包括：

基于多种微生物之间的高阶逻辑关系，建立加权超图模型，所述加权超图表示为G＝(V,E,w)，其中V＝{v₁,v₂,...,v_n}表示n个顶点集合，E＝{e₁,e₂,...,e_m}为m条超边集合；

同时，所述加权超图还能表示为n*m的矩阵，当顶点在超边中时，所述矩阵称为超图关联矩阵；

对所述超图关联矩阵进行约简处理，得到顶点间的连接矩阵；

根据所述连接矩阵得到对应的超图拉普拉斯矩阵，进而得到微生物连接网络。

优选的，建立超图聚类模型的具体过程包括：

基于所述连接矩阵，获取对应的偏移正点态互信息矩阵；

利用堆叠自编码器从所述偏移正点态互信息矩阵中产生低维向量表示；

利用最大模块度进行类别数选择，利用K均值得到聚类结果。

优选的，选取RMSSTD指标、RS指标、CH指标评估指标对所述聚类结果进行评估。

进一步，本发明提供一种基于超图聚类模型的微生物高阶网络建立装置，包括：

数据获取模块，所述数据获取模块用于获取多种微生物的原始丰度数据；

逻辑关系建立模块，所述逻辑关系建立模块用于根据所述微生物的原始丰度数据建立微生物高阶逻辑关系；

加权超图建立模块，所述加权超图建立模块用于对所述微生物高阶逻辑关系进行处理，得到微生物连接网络；

超图聚类模型模块，所述超图聚类模型模块用于建立超图聚类模型，对所述微生物连接网络进行挖掘，得到对应的微生物高阶网络；

评估模块，所述评估模块用于评估所述微生物高阶网络。

优选的，所述加权超图建立模块包括：

模型建立单元，所述模型建立单元用于建立加权超图模型；

模型关联单元，所述模型关联单元用于根据所述加权超图模型得到超图关联矩阵；

模型约简单元，所述模型约简单元用于处理所述超图关联矩阵，得到顶点间的连接矩阵；

模型处理单元，所述模型处理单元用于根据所述连接矩阵得到对应的超图拉普拉斯矩阵。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于超图聚类模型的微生物高阶网络建立方法及装置，通过计算偏移正点态互信息矩阵来增强图的表示，通过深度神经网络来挖掘样本的低维非线性表示，通过基于模块度的K均值聚类来自适应的选择聚类个数，证明得到的微生物模块具有更好的类内紧凑型和类间分离性，可以作为微生物高阶模块挖掘的有效工具。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种基于超图聚类模型的微生物高阶网络建立方法的流程图；

图2附图为本发明提供的一种基于超图聚类模型的微生物高阶网络建立装置的结构原理框图；

图3附图为本发明实施例2提供的多种模型效果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见附图1所示，本发明实施例1公开了一种基于超图聚类模型的微生物高阶网络建立方法，包括：

其中微生物的原始丰度数据从HMP数据库中下载16s RNA序列数据，并经过Mothur处理得到的V13高质量文件，其涵盖了5个人体区域的18个部位，包括3242个样本，606个微生物的丰度数据。

对所述微生物高阶网络进行评价。

在一个具体的实施例中，得到对应的微生物高阶逻辑关系的具体过程包括：

对多种微生物的原始丰度数据进行离散化处理，得到丰度逻辑矩阵；

获取任意几种微生物间的不确定系数和逻辑组合谱；

具体的，首先对微生物的原始丰度数据进行离散化处理，当微生物i在样本j中的丰度值m(i,j)>0，则对应的M(i,j)＝1，否则M(i,j)＝0，删除∑_jM(i,j)＜4的行。经过以上操作，可以得到对应的微生物丰度逻辑矩阵M；

其次，计算任意三种微生物a、b、c间的不确定系数U(c|a)、U(c|b)和逻辑组合谱U(c|f(a,b))，对于任意随机变量X和Y，U(X|Y)的计算如式(1)所示：

式中，H(X)和H(Y)分别表示X和Y的独立分布信息熵，H(X,Y)表示和联合分布信息熵。

由式(1)可知：U(X|Y)∈[0,1]，当X完全由Y确定时，U(X|Y)＝1；当X和Y完全独立时，U(X|Y)＝0。因此，对于任意微生物三元组{a，b，c}，U(c|a)和U(c|b)表示微生物a和b的个体对微生物c的影响，对应成对关系；U(c|f(a,b))表示微生物a和b的逻辑组合对微生物c的影响，对应高阶关系。在本发明实施例1中，f(a,b)表示微生物a和b的8种逻辑组合。本发明实施例1中选择成对关系较弱而高阶关系较强的三元组，即选择满足条件：{(a,b,c)|U(c|a)＜0.4,U(c|b)＜0.4,U(c|f(a,b)＞0.6)}的所有三元组。

在一个具体的实施例中，建立加权超图模型的具体过程包括：

基于多种微生物之间的高阶逻辑关系，建立加权超图模型，加权超图表示为G＝(V,E,w)，其中V＝{v₁,v₂,...,v_n}表示n个顶点集合，E＝{e₁,e₂,...,e_m}为m条超边集合；

其中，任意一条超边都是V子集，当v∈e时，此时的状态称为超边e与v顶点关联。在加权超图中，每个超边e都与一个非负实数w(e)关联，称为超边的权重。对于一个顶点v∈V，它的度定义为d(v)＝∑_{{e∈E|v∈e}}w(e)；对于一条超边e∈E，它的度定义为δ(e)＝|e|，其中|·|表示元素的个数。当G为简单图时，对于任意边e∈E，都有δ(e)＝2。本发明实施例1考虑任意三个微生物间的逻辑关系，即每个超边包含3个微生物，因此本发明实施例1中对于任意超边e∈E，都有δ(e)＝3。当U(c|f(a,b))较大，表示微生物a，b基于逻辑f(a,b)对于微生物c具有更好的描述，故此处本发明实施例1中令w(e)＝U(c|f(a,b))，其中e为包含微生物{a，b，c}的超边。

同时，加权超图还能表示为n*m的矩阵(H)_n*m，当顶点v在超边e中时，H(v,e)＝1，反之H(v,e)＝0，矩阵称为超图关联矩阵；

对超图关联矩阵进行约简处理，得到顶点间的连接矩阵；

根据连接矩阵得到对应的超图拉普拉斯矩阵，进而得到微生物连接网络。

此时，顶点v的度还可表示为d(v)＝∑_{{e∈E|v∈e}}H(v,e)，超边e的度可表示为d(e)＝∑_{{v∈V|v∈e}}H(v,e)。定义D_v、D_e分别为包含顶点和超边度的对角矩阵，W_H定义为包含超边权重的对角矩阵。超图聚类的关键是对超图关联矩阵进行约简，获得顶点间的连接矩阵，主要包含三个步骤：(1)选择一个起始顶点v；(2)利用超边权重作为选择概率，选择一条包含v的超边e；(3)从超边e上以平均概率选择一个点。令P表示超图的转移概率矩阵，对于任意两顶点u和v，其转移概率如式(2)所示：

将式(2)与随机游走的公式P＝D^-1A，可以得到微生物间的连接矩阵，如式(3)所示：

A＝HW_H(D_e-1)^-1H^-1 (3)

进而可以得到超图拉普拉斯矩阵

在一个具体的实施例中，建立超图聚类模型的具体过程包括：

基于连接矩阵，获取对应的偏移正点态互信息矩阵；

利用堆叠自编码器从偏移正点态互信息矩阵中产生低维向量表示；利用最大模块度进行类别数选择，利用K均值得到聚类结果。

具体的，首先，基于微生物的连接矩阵A，获取偏移正点态互信息矩阵PPMI来产生网络表示，PPMI矩阵可以被构建如式(4)所示，该计算过程保证中元素的非负性。

其次，挖掘微生物的非线性低维表示。

利用堆叠自编码器来从PPMI矩阵中产生压缩的、低维的向量表示，这个过程执行了从高维向低维的映射。

自编码器包含两个步骤，编码步骤和解码步骤。在编码步骤，函数

应用到输入向量，并将其投影到新的特征空间。解码步骤，重构函数

从潜在表示空间来重构原始的输入向量。假定：

其中σ(·)是激活函数，θ₁＝{W₁,b₁}表示编码步骤的权重参数，θ₂＝{W₂,b₂}表示解码步骤的权重参数，W₁和W₂表示从输入空间到输出空间的线性投影，b₁和b₂表示偏置向量，通过找出θ₁和θ₂来最小化重构损失函数，重构损失函数的表达式如式(5)所示：

其中，L表示样本损失函数，xⁱ表示第个样本。激活函数通常用来建模输入空间到输出空间的非线性关系，堆叠自编码器是由多层这样自编码器组成的深度神经网络,它使用分层的训练方法来提取基本的规律，从数据层一层一层地捕获不同层次的抽象，高层从数据中传递更高层次的抽象。通过以上过程，可以得到样本的低维特征表示。

最后，利用最大模块度进行类别数选择。基于堆叠自编码器得到的样本低维特征，利用K均值可以得到最终的聚类结果。然而，在此过程中，聚类数的选择也是个问题。模块性表现为模块内部的节点比较稠密，模块间的节点比较稀疏。模块性也是生物网络的重要特性，研究生物网络的模块性有助于理解复杂的功能和特性。超图模块度是简单图模块度的在超图中的推广，令S(i,j)表示顶点i和顶点j的期望边数，计算过程如式(6)所示：

其中，d(i)表示加权超图中顶点i的度，令超图模块化矩阵B为A-S，此时，对于任意的聚类结果，可以得到超图的模块度Q，如式(7)所示：

其中，k表示类别数，δ(·)表示聚类指示函数，即当顶点i和顶点j在同一个类别时，δ(i,j)＝0，否则δ(i,j)＝1，计算不同聚类数下的模块度，并选取最大模块度对应的聚类数。

在一个具体的实施例中，选取RMSSTD指标、RS指标、CH指标评估指标对聚类结果进行评估。

具体的，RMSSTD指标是用来衡量聚类结果的同质性，即紧凑程度，它指的是所有类内样本方差的平方根，具体计算公式如式(8)所示：

其中，k表示类别数，x表示样本点，C_i表示第i个聚类的样本集合，c_i表示第i个聚类集合的中心，|C_i|表示C_i中样本总数，P表示样本的维度。由上式可以看出，当越小，类内样本的方差越小，类内样本的紧凑程度越小，聚类效果越好。

RS指标用来评估类间差异程度，即分离程度。它用来衡量一个类别与其他类别的区分度，具体计算公式如式(9)所示：

其中，表示所有样本的中心，表示向量的2-范数，表示所有样本方差的平方，为常数。RS表示聚类后的样本方差相对于聚类前的样本方差的改进程度，对应的数值越大表示聚类效果越好。

CH是一种常用的内部聚类评估指标，基于类间距离和类内距离的平方和来评估聚类有效性，具体计算公式如式(10)所示：

式中，

表示类间方差，

表示类内方差。该数值越大表示聚类结果越好。

进一步，参见附图2所示，本发明实施例1还提供一种基于超图聚类模型的微生物高阶网络建立装置，包括：

数据获取模块1，数据获取模块1用于获取多种微生物的原始丰度数据；

逻辑关系建立模块2，逻辑关系建立模块2用于根据微生物的原始丰度数据建立微生物高阶逻辑关系；

加权超图建立模块3，加权超图建立模块3用于对微生物高阶逻辑关系进行处理，得到微生物连接网络；

超图聚类模型模块4，超图聚类模型模块4用于建立超图聚类模型，对微生物连接网络进行挖掘，得到对应的微生物高阶网络；

评估模块5，评估模块5用于评估微生物高阶网络。

在一个具体的实施例中，加权超图建立模块3包括：

模型建立单元31，模型建立单元31用于建立加权超图模型；

模型关联单元32，模型关联单元32用于根据加权超图模型得到超图关联矩阵；

模型约简单元33，模型约简单元33用于处理超图关联矩阵，得到顶点间的连接矩阵；

模型处理单元34，模型处理单元34用于根据连接矩阵得到对应的超图拉普拉斯矩阵。

实施例2

为了全面评估该模型的性能，我们选择3种对比模型，分别是未加权的超图谱聚类模型(HSC、加权超图谱聚类模型(HCWS、基于类内散度的超图聚类模型(HCIS)。具体的，对于HSC，超边权重矩阵第二处理模块为单位矩阵，即所有超边的权重为1，并通过谱聚类得到聚类结果。对于HCWS，超边的权重为逻辑组合谱，并利用谱聚类计算聚类结果。对于HCIS，按照论文的原始方法来计算结果。对于DeepHC，我们利用3层自编码器来生成堆叠自编码器,每层输出样本的维度分别为100,50,10。关于模型的评估，由于所有方法都是基于丰度逻辑矩阵M来执行的，因此，我们根据M和每个模型的聚类结果计算评估指标。此外，为了消除偶然因素对结果的影响，本文将每个实验执行50次，并将评估指标的均值作为最终的结果进行评估。

关于人体的五个位点('Left Antecubital fossa'即左肘前窝，'RightRetroauricular crease'即右耳后皱襞，'Left Retroauricular crease'即左耳后皱褶,'Right Antecubital fossa'即右肘前窝和'Anterior nares')，基于利用逻辑类型1提取高阶逻辑关系，将本发明实施例1提供的模型(DeepHC)与HSC、HCWS和HCIS的聚类结果进行对比。表1展示关于部位'Left Antecubital fossa'和'Right Antecubital fossa'，四种计算模型关于三种指标的结果对比。

表1关于Left Antecubital fossa和Right Antecubital fossa的聚类结果对比

从表1可以看出，无论是类内紧凑度指标(RMSSTD)、类间差异性指标(RS)还是综合评估指标(CH)，本文的模型(DeepHC)关于部位‘Left Antecubital fossa’和‘RightAntecubital fossa’的聚类结果更好。具体的，关于部位Left Antecubital fossa，DeepHC的RMSSTD指标为0.2562，小于其他模型，说明DeepHC类内样本的紧凑程度更好；DeepHC的RS指标为0.1591，远大于其他模型，说明DeepHC类间差异程度更大；DeepHC的CH取值为6.3647，相对于HSC、HCWS和HCIS的2.3326、2.3326和2.1108分别提升172.86％、172.86％和201.53％，进一步说明DeepHC具有更好的聚类效果。类似的，关于Right Antecubitalfossa，DeepHC的RMSSTD指标为0.2372，小于其他模型，RS和CH指标分别为0.2200和9.7677，远高于其他模型，进一步说明DeepHC具有更高的聚类质量。对于剩余的三个部位'LeftRetroauricular crease','Right Antecubital fossa'和'Anterior nares'，本实施例2将每个部位的指标归一化处理，并将结果以堆叠柱状图的形式展示出来，如附图3所示。

由附图3可以看出，对于这三个部位，DeepHC几乎关于所有的指标都取得最好的结果。具体的，对于部位'Left Retroauricular crease'，如图3的(a)所示，DeepHC的RMSSTD指标(紫颜色对应区域)最小，对应类内样本的紧凑程度最好；RS指标最大，说明DeepHC类间差异程度更大；同时综合指标HC也是最大的，说明DeepHC取得最好的聚类结果。类似的，关于部位'Right Antecubital fossa'，我们可以得到同样的结论。对于部位'Anteriornares'，DeepHC除了RS指标不是最优之外，RMSSTD和HC指标都是四个模型中最优的。以上结论说明DeepHC可以作为微生物高阶模块挖掘的有效工具

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于超图聚类模型的微生物高阶网络建立方法，其特征在于，包括：

对所述微生物高阶网络进行评价。

2.根据权利要求1所述的一种基于超图聚类模型的微生物高阶网络建立方法，其特征在于，得到对应的微生物高阶逻辑关系的具体过程包括：

获取任意几种微生物间的不确定系数和逻辑组合谱；

3.根据权利要求2所述的一种基于超图聚类模型的微生物高阶网络建立方法，其特征在于，建立加权超图模型的具体过程包括：

4.根据权利要求3所述的一种基于超图聚类模型的微生物高阶网络建立方法，其特征在于，建立超图聚类模型的具体过程包括：

基于所述连接矩阵，获取对应的偏移正点态互信息矩阵；

利用最大模块度进行类别数选择，利用K均值得到聚类结果。

5.根据权利要求4所述的一种基于超图聚类模型的微生物高阶网络建立方法，其特征在于，选取RMSSTD指标、RS指标、CH指标评估指标对所述聚类结果进行评估。

6.一种基于超图聚类模型的微生物高阶网络建立装置，其特征在于，包括：

数据获取模块(1)，所述数据获取模块(1)用于获取多种微生物的原始丰度数据；

逻辑关系建立模块(2)，所述逻辑关系建立模块(2)用于根据所述微生物的原始丰度数据建立微生物高阶逻辑关系；

加权超图建立模块(3)，所述加权超图建立模块(3)用于对所述微生物高阶逻辑关系进行处理，得到微生物连接网络；

超图聚类模型模块(4)，所述超图聚类模型模块(4)用于建立超图聚类模型，对所述微生物连接网络进行挖掘，得到对应的微生物高阶网络；

评估模块(5)，所述评估模块(5)用于评估所述微生物高阶网络。

7.根据权利要求6所述的一种基于超图聚类模型的微生物高阶网络建立装置，其特征在于，所述加权超图建立模块(3)包括：

模型建立单元(31)，所述模型建立单元(31)用于建立加权超图模型；

模型关联单元(32)，所述模型关联单元(32)用于根据所述加权超图模型得到超图关联矩阵；

模型约简单元(33)，所述模型约简单元(33)用于处理所述超图关联矩阵，得到顶点间的连接矩阵；

模型处理单元(34)，所述模型处理单元(34)用于根据所述连接矩阵得到对应的超图拉普拉斯矩阵。