CN114065866A

CN114065866A - 一种基于参考物种标签约束的宏基因组序列深度聚类方法

Info

Publication number: CN114065866A
Application number: CN202111389111.2A
Authority: CN
Inventors: 刘富; 刘威; 刘云; 苗岩; 侯涛; 宋文智; 余芳宇
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-18
Anticipated expiration: 2041-11-22
Also published as: CN114065866B

Abstract

本发明提供了一种基于参考物种标签约束的宏基因组序列深度聚类方法，设计了基于参考物种标签约束的深度学习预训练模型。本发明建立了基于不同群落的已知物种的预训练数据库，构建预训练数据库时将每条4mer特征向量分为同一物种、相同属不同物种和不同属不同物种三种情况，并分别研究了三种情况下的样本间序列的4mer特征间的关系；建立了预训练模型的标签约束误差函数，并且使用群落已知标签的数据库进行预训练，针对不同的微生物群落构建不同预训练模型；在用户使用时，只需要针对不同的群落加载所需群落的预训练模型，重新加载模型仅仅等待几次微调步骤的迭代即可得到聚类结果。最终，所述聚类方法能够展现非常优秀的聚类性能。

Description

一种基于参考物种标签约束的宏基因组序列深度聚类方法

技术领域

本发明涉及生物信息学分析领域，尤其涉及一种基于参考物种标签约束的宏基因组序列深度聚类方法。

背景技术

微生物是地球上种类最大、数量最多、分布最广的生物群。人们对于微生物的研究主要是建立在纯培养的基础上，然而后来发现99％以上的微生物是不可培养的。为了研究不能培养的微生物，一个全新的理念——宏基因组学应运而生。宏基因组学利用新一代测序技术在不经过实验室培养的情况下，能够获取环境中绝大部分的遗传物质。与传统的测序方法不同，宏基因组测序得到的原始数据是大量的、长度较短的、来源于多种微生物的DNA片段。研究人员根据DNA片段之间的重叠关系可以将这些零碎的短片段组装成长度较长的DNA序列，生物信息学中称这种组装之后的DNA序列为重叠群(contigs)。将这些重叠群依据其物种归属进行分类是宏基因组数据分析中十分重要的一步。

然而，受宏基因组中不同物种间的丰度比、基因组长度等因素的影响，组装后属于不同物种的重叠群数量往往相差很多，因此，宏基因组重叠群数据是一种典型的不平衡数据集。如何对其进行有效地分类，是目前的一个研究难点。

因此，现有技术还有待改进。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种于参考物种标签约束的宏基因组序列深度聚类方法，旨在解决现有技术在进行宏基因组DNA序列聚类时，因相同属的临近物种相似度较高而导致的聚类不准确的问题。

本发明的技术方案如下：

本发明提供一种基于参考物种标签约束的宏基因组序列深度聚类方法，其中，包括步骤：

第一步，预训练步骤，包括：

1.1构建基于不同微生物群落的已知物种的预训练数据库；

1.2建立初始化模型；

1.3针对不同的微生物群落构建不同的预训练模型；

第二步，微调步骤，包括：

2.1计算待测微生物群落的数据集重叠群序列4mer频率，并归一化得到微调的输入特征频率Y；

2.2加载待测微生物群落的预训练模型以及参数；

2.3构建微调误差函数；

2.4确定聚类个数；

2.5微调模型；

2.6完成聚类，得到聚类结果，并根据聚类指标衡量聚类结果。

所述的基于参考物种标签约束的宏基因组序列深度聚类方法，其中，所述步骤1.1具体包括步骤：

a)下载不同微生物群落的已知物种的全基因组序列预训练数据集；

b)将每个物种的全基因组序列从随机起始位置截取随机长度的序列；

c)计算步骤b)中截取的每条序列的4mer频率特征，并进行归一化，得到不同微生物群落的宏基因组预训练4mer频率归一化特征X。

所述的基于参考物种标签约束的宏基因组序列深度聚类方法，其中，所述步骤1.2具体包括步骤：

a)建立具有对称结构的自编码器；

b)选取

函数作为激活函数，加入Dropout函数来调节模型参数和样本量之间的关系；

c)设置模型参数；

d)构建预训练误差函数，其计算公式：

ERROR_pre＝E_RES+κE_LCN

其中，E_RES表示重构误差，E_LCN表示标签约束误差，κ表示用于平衡重构误差E_RES和标签约束误差E_LCN的超参数。

所述的基于参考物种标签约束的宏基因组序列深度聚类方法，其中，所述重构误差E_RES的计算公式为：

其中，x_i表示编码网络的输入，f(x_i)表示编码网络的输出，g(f(x_i))表示解码网络的输出，N₁表示总样本的个数；

所述标签约束误差E_LCN的计算公式为：

其中，E_s表示衡量相同物种间的特征向量间的欧式距离，E_l表示衡量相同属不相同物种间的特征向量间的距离，E_d表示衡量不同属不同物种间的特征向量间的距离，n₁、n₂、n₃为三种误差下累加的次数且满足

β、λ是标签约束相的超参数。

所述的基于参考物种标签约束的宏基因组序列深度聚类方法，其中，所述步骤1.3中，构建预训练模型具体包括步骤：

a)使用初始化后的网络模型以及参数；

b)加载测试集样本归一化特征X，并送入初始化后网络模型，计算重构误差和标签约束误差；

c)应用反向传播自适应矩估计方法，对不同变化的参数以自适应的学习率进行更新；

d)保存预训练的模型以及参数，定义为待测微生物群落的预训练模型。

所述的基于参考物种标签约束的宏基因组序列深度聚类方法，其中，所述步骤2.3具体包括步骤：

利用深度k-mean聚类的方法，将k-mean聚类的误差加入到预训练得到的待测微生物群落的预训练模型中，得到微调误差函数：

其中，E_RES表示重构误差，E_CLU表示聚类误差，N₂表示待测微生物群落样本的个数，η表示用于平衡重构误差E_RES和聚类误差E_CLU的超参数。

所述的基于参考物种标签约束的宏基因组序列深度聚类方法，其中，所述重构误差E_RES计算公式为：

其中，y_i表示微调网络测试集的输入，g(f(y_i))表示微调网络测试集的输出；

所述聚类误差E_CLU计算公式为：

其中，x表示C_i类中的样本点，θ_i表示C_i类的聚类中心。

所述的基于参考物种标签约束的宏基因组序列深度聚类方法，其中，所述步骤2.4中，确定聚类个数具体包括步骤：

a)定义S_i变量为类内数据到簇质心的平均距离，代表簇C_i中各样本的分散程度，其计算公式为：

其中，|C_i|表示簇类C_i中样本点个数，x表示C_i类中的样本点，θ_i表示C_i类的聚类中心；

b)定义M_ij为簇C_i与簇C_j的距离，其计算公式为：

M_ij＝||θ_i-θ_j||²

其中，M_ij表示簇C_i与簇C_j的质心θ_i和θ_j的距离；

c)应用DBI指数确定聚类个数k，其计算公式为：

其中，k为聚类个数变量，取值范围为[0.002*N₂,0.005*N₂]；

d)选择最优的聚类个数k₀，其计算公式为：

其中，k为聚类个数变量。

所述的基于参考物种标签约束的宏基因组序列深度聚类方法，其中，所述步骤2.5具体包括步骤：

a)将测试样本送入网络，得到第一次隐藏表示；

b)将a)中得到的隐藏表示作为样本的特征使用k-mean聚类，聚类个数为k₀，初始化中心的方法使用k-means++；

c)将b)中得到的聚类结果分批次随机取出，计算重构误差E_RES和聚类误差E_CLU，并根据重构误差E_RES和聚类误差E_CLU计算得到微调误差ERROR_fine；

d)对每个样本的微调误差ERROR_fine使用Adam优化器微调模型参数，得到微调后的模型。

所述的基于参考物种标签约束的宏基因组序列深度聚类方法，其中，所述步骤2.6具体包括步骤：

a)联合样本的覆盖率信息和网络中间层用于聚类，得到聚类结果

b)使用准确率、召回率和ARI来衡量聚类结果，其中，准确率的计算公式为：

召回率的计算公式为：

ARI的计算公式为：

其中，TP和FP分别表示真正属于同一物种的contigs聚在同一类和不同类中的数目，FN和TN分别表示属于不同物种的contigs聚集成同一类和不同类的数目。

有益效果：本发明提供了一种基于参考物种标签约束的宏基因组序列深度聚类方法(Label-constrained deep clustering，LCDC)，所述方法与目前的同类方法有明显不同，其设计了基于参考物种标签约束的深度学习预训练模型。由于所有的生态系统都存在微生物群落，而且不同环境下的微生物群落存在巨大的差异，相同环境下也会因为温度、酸碱度、光照、通气性等细微差距而使得微生物种类存在巨大差异。本发明利用微生物群落差异的特点，对不同环境下的微生物群落进行分析，建立了基于不同群落的已知物种的预训练数据库，构建预训练数据库时将每条4mer特征向量分为同一物种、相同属不同物种和不同属不同物种三种情况，并分别研究了三种情况下的样本间序列的4mer特征间的关系；建立了预训练模型的标签约束误差函数，并且LCDC使用群落已知标签的数据库进行预训练，针对不同的微生物群落构建不同预训练模型；在用户使用时，只需要针对不同的群落加载所需群落的预训练模型，重新加载模型仅仅等待几次微调步骤的迭代即可得到聚类结果。经过多个数据集上进行分析，并对比LCDC与其他多种方法的聚类结果，在真实数据集中，LCDC能够展现非常优秀的聚类性能。

附图说明

图1为本发明实施例中一种基于参考物种标签约束的宏基因组序列深度聚类方法的模型结构示意图。

图2为本发明实施例中三个代表行物种的特征运动趋势。

图3为本发明实施例中构建预训练模型流程图。

图4为本发明实施例中特征组合的效果图。

图5为本发明实施例中101物种的Sharon模拟数据中各方法的聚类结果对比图。

图6为本发明实施例中20物种的Strain模拟数据集中各方法的聚类结果对比图。

具体实施方式

本发明提供一种基于参考物种标签约束的宏基因组序列深度聚类方法，为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供一种基于参考物种标签约束的宏基因组序列深度聚类方法，包括步骤：

S100、预训练步骤；

S200、微调步骤。

本发明基于物种标签约束的宏基因组深度聚类方法(Label-constrained deepclustering，LCDC)与目前的同类方法有明显不同，设计了基于参考物种标签约束的深度学习预训练模型。由于所有的生态系统都存在微生物群落，而且不同环境下的微生物群落存在巨大的差异，相同环境下也会因为温度、酸碱度、光照、通气性等细微差距而使得微生物种类存在巨大差异。如图1所示，本发明利用微生物群落差异的特点，对不同环境下的微生物群落进行分析，建立了基于不同群落的已知物种的预训练数据库，构建预训练数据库时将每条4mer特征向量分为同一物种、相同属不同物种和不同属不同物种三种情况，并分别研究了三种情况下的样本间序列的4mer特征间的关系；建立了预训练模型的标签约束误差函数，并且LCDC使用群落已知标签的数据库进行预训练，针对不同的微生物群落构建不同预训练模型；在用户使用时，只需要针对不同的群落加载所需群落的预训练模型，重新加载模型仅仅等待几次微调步骤的迭代即可得到聚类结果。

在一些实施方式中，S100具体包括以下步骤：

S101、构建基于不同微生物群落的已知物种的预训练数据库；

S102、建立初始化模型；

S103、针对不同的微生物群落构建不同的预训练模型。

在一些实施方式中，所述步骤S101中，构建基于不同微生物群落的已知物种的预训练数据库具体包括步骤：

在一些优选的实施方式中，所述截取随机长度的序列，其长度在5000bp-8000bp之间。

在一些优选的实施方式中，可根据实际需要确定每条宏基因组序列截取随机长度的序列数目，例如截取800条。

在一些实施方式中，所述步骤S102中，建立初始化模型具体包括步骤：

a)建立具有对称结构的自编码器；

b)选取

c)设置模型参数；

d)构建预训练误差函数，其计算公式为(1)：

ERROR_pre＝E_RES+κE_LCN (1)

在一些优选的实施方式中，步骤S102的步骤a)中，具有对称结构的自编码器的参数设置为输入为136维，隐藏层100*80*50*80*100，输出为136维。

在一些优选的实施方式中，步骤S102的步骤b)中，所述Dropout函数的参数设置为0.5，其目的是防止过拟合，调节模型参数和样本量之间的关系。

在一些优选的实施方式中，步骤S102的步骤c)中，所述模型参数可设置为每一批次训练个数n＝200，自适应矩估计(Adaptive moment estimation，Adam)优化器的自适应的学习率lr_rate＝0.0001，训练周期epoch＝300。

在一些实施方式中，步骤S102的步骤c)中，所述重构误差E_RES的计算公式为(2)：

其中，x_i表示编码网络的输入，f(x_i)表示编码网络的输出，g(f(x_i))表示解码网络的输出，N₁表示总样本的个数。

在一些实施方式中，步骤S102的步骤c)中，所述标签约束误差E_LCN的计算公式为(3)：

β、λ是标签约束相的超参数。

如图2所示，A、B、C分别表示样本的三个物种，其中A、B是相同属的两个相近物种，C表示与A、B不同属的物种。x₁表示A物种的一个样本，相距A物种其他样本较远，箭头表示本方法标签约束项的目的：相同物种内样本特征向量表示要近，不同物种的样本特征向量表示尽量要远一些。而且，需要着重考虑相同属的不同物种相距较不同属的不同物种的特征向量要更相似，对相同属的不同物种之间的误差设定更大的超参数。依据上述分析将样本中任意两条的物种信息分为3种情况：第一种是两条特征序列来自同一个物种，第二种是两条特征序列来自不同物种的同一个属，第三种是两条特征序列来自不同物种不同属。对样本任意两条特征向量分为上述三种情况，计算三种情况下的约束误差，计算公式为：

上式中，x_i、x_j为重叠群任意两条序列的4mer的特征向量，用来衡量相同物种间的特征向量间的欧式距离；用E_s来衡量相同物种间的特征向量间的欧式距离，用E_l来衡量相同属不相同物种间的特征向量间的距离，用E_d来衡量不同属不同物种间的特征向量间的距离。n₁、n₂、n₃为三种误差下累加的次数且满足

β、λ是标签约束相的超参数用来调节三者误差，可设置β＝2，λ＝10。将三种情况下的误差项相加即得到样本总的标签约束误差E_LCN。

在一些实施方式中，如图3所示，所述步骤S103中，构建预训练模型具体包括步骤：

a)使用初始化后的网络模型以及参数；

在一些实施方式中，S200具体包括以下步骤：

S201、计算待测微生物群落的数据集重叠群序列4mer频率，并归一化得到微调的输入特征频率Y；

S202、加载待测微生物群落的预训练模型以及参数；

S203、构建微调误差函数；

S204、确定聚类个数；

S205、微调模型；

S206、完成聚类，得到聚类结果，并根据聚类指标衡量聚类结果。

在一些实施方式中，所述步骤S203中，构建微调误差函数具体包括步骤：

利用深度k-mean聚类的方法，将k-mean聚类的误差加入到预训练得到的待测微生物群落预训练模型中，得到微调误差函数(4)：

在前述预训练模型的基础上完成聚类，在此模型中利用一种深度k-mean聚类的方法，将k-mean聚类的误差加入到预训练得到的模型中，得到微调误差函数。

在一些优选的实施方式中，η＝10。

在一些实施方式中，所述重构误差E_RES计算公式为(5)：

所述聚类误差E_CLU为计算公式为(6)：

其中，x表示C_i类中的样本点，θ_i表示C_i类的聚类中心。

在一些实施方式中，所述步骤S204中，确定聚类个数具体包括步骤：

a)定义S_i变量为类内数据到簇质心的平均距离，代表簇C_i中各样本的分散程度，其计算公式为(7)：

b)定义M_ij为簇C_i与簇C_j的距离，其计算公式为(8)：

M_ij＝||θ_i-θ_j||² (8)

其中，M_ij表示簇C_i与簇C_j的质心θ_i和θ_j的距离；

c)应用DBI指数确定聚类个数k，其计算公式为(9)：

其中，k为聚类个数变量，取值范围为[0.002*N₂,0.005*N₂]；S_i的计算公式为公式(7)；S_j的计算公式与S_i的计算公式一致，仅替换为各样本j相应的参数，且j≠i；M_ij由公式(8)计算。

d)选择最优的聚类个数k₀，其计算公式为(10)：

使用DBI指数确定聚类个数k，将k个类取平均即得到DBI指数，在上述k的取值区间内选择具有最小DBI指数即为k₀。

在一些实施方式中，所述步骤S205中，微调模型具体包括步骤：

a)将测试集样本送入网络，得到第一次隐藏表示；

c)将b)中得到的聚类结果分批次随机取出，计算重构误差E_RES和聚类误差E_CLU，并根据重构误差E_RES和聚类误差E_CLU计算得到微调误差ERROR_fine

在一些实施方式中，步骤S205的步骤c)中，重构误差E_RES和聚类误差E_CLU分别取平均再乘以超参数后相加，即得到所述微调误差ERROR_fine。

在一些优选的实施方式中，步骤S205的步骤c)中，聚类结果分批次随机取出时，每批设置200个样本。

在一些实施方式中，所述步骤S206中，完成聚类，并根据聚类指标衡量聚类结果具体包括步骤：

b)使用准确率、召回率和ARI来衡量聚类结果，其中，准确率的计算公式为(11)：

召回率的计算公式为(12)：

ARI的计算公式为(13)：

在一些实施方式中，步骤S206的步骤a)中，联合覆盖率信息如图4所示，其中4mer频率特征是136维的，4mer频率特征经过编码网络得到的隐藏层，例如人体肠道微生物预训练网络模型中隐藏层为(100*80*50)，则u的值为50。Species数据集是由96个样本组成的重叠群数据集，因此v的值为96。样本的覆盖率信息和网络中间层联合用于聚类，得到聚类结果

在一些实施方式中，步骤S206的步骤b)中，使用准确率、召回率和调整兰德尔指数(Adjusted Rand index，ARI)来衡量聚类结果。评估标准的重点是同一物种的contigs要聚到同一类，通过混淆矩阵计算准确率、召回率和ARI。公式中TP(真阳性)和FP(假阳性)分别表示真正属于同一物种的contigs聚在同一类和不同类中的数目；FN(假阴性)和TN(真阴性)分别代表不同物种的contigs聚集成同一类和不同类的数目。

下面通过具体实施例对本发明一种基于参考物种标签约束的宏基因组序列深度聚类方法做进一步的解释说明：

实施例1

本实施例中，测试集包括Sharon模拟数据集和Strain模拟数据集两个数据集，Sharon模拟数据集中包含101个物种的37628条contigs序列，是基于HMP项目的前96个数据集进行了模拟。Strain模拟数据集是测试不同物种分类分辨率的能力，包含20个物种的9401条contigs序列，这其中包括同一物种的菌株。20个物种分别为5个不同的大肠杆菌菌株、5种拟杆菌、5种来自不同梭菌属的菌株以及5种其他典型肠道细菌菌株组成。

利用本发明提供的基于物种标签约束的宏基因组深度聚类方法(Label-constrained deep clustering，LCDC)进行分析，同时将目前的同类分析方法COCACOLA、CONCOCT、MetaBAT和MaxBin2.0作为对照，分析结果如图5、图6所示。

101物种的模拟数据集是包含了96个样本的37628条重叠群序列，每个样本包含来自相同101个物种但相对频率不同的随机配对末端读数。由图5可知，COCACOLA在101物种的Sharon模拟数据集上表现的非常不稳定，ARI仅有62.3％；CONCOCT、MetaBAT和MaxBin2.0均超过了90％；LCDC在101物种数据集中ARI系数表现最优，达到97.2％。

对于Sharon数据集，使用人体肠道微生物库预训练的模型，此模型的结构网络设置为136*100*80*50*80*100*136的五个隐藏层的对称结构。图6为20个物种的模拟数据集中各方法的聚类结果，在20物种的Strain模拟数据集中，COCACOLA表现了最好的效果，ARI达到了92％；LCDC也依然表现不错，ARI为86.7％。在Strain模拟数据集上，64个样本中仅包含20个基因组，且5个基因组来自不同大肠杆菌菌株的同一个属。计算结果分别如表1、2所示，表3为构建预训练数据集的物种信息。

表1、101物种的Sharon模拟数据中个方法的聚类结果

COCACOLA	64.2	80.8	92.1
				CONCOCT	94.1	94.9	97.7
MaxBin2.0	95.8	96.8	98.2
				MetaBAT	94.9	96.2	93.8
LCDC	97.2	98	97.2

表2、20物种的Strain模拟数据集中个方法的聚类结果

COCACOLA	92	95.3	91.8
				CONCOCT	87.2	86.9	97.1
MaxBin2.0	81.8	91.7	75
				MetaBAT	88.3	95.3	85.2
LCDC	87	86.2	92.5

表3、构建预训练数据集的物种信息

综上所述，本发明提供了一种基于参考物种标签约束的宏基因组序列深度聚类方法(Label-constrained deep clustering，LCDC)，所述方法与目前的同类方法有明显不同，其设计了基于参考物种标签约束的深度学习预训练模型。由于所有的生态系统都存在微生物群落，而且不同环境下的微生物群落存在巨大的差异，相同环境下也会因为温度、酸碱度、光照、通气性等细微差距而使得微生物种类存在巨大差异。本发明利用微生物群落差异的特点，对不同环境下的微生物群落进行分析，建立了基于不同群落的已知物种的预训练数据库，构建预训练数据库时将每条4mer特征向量分为同一物种、相同属不同物种和不同属不同物种三种情况，并分别研究了三种情况下的样本间序列的4mer特征间的关系；建立了预训练模型的标签约束误差函数，并且LCDC使用群落已知标签的数据库进行预训练，针对不同的微生物群落构建不同预训练模型；在用户使用时，只需要针对不同的群落加载所需群落的预训练模型，重新加载模型仅仅等待几次微调步骤的迭代即可得到聚类结果。经过多个数据集上进行分析，并对比LCDC与其他多种方法的聚类结果，在真实数据集中，LCDC能够展现非常优秀的聚类性能。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。