CN106055928A

CN106055928A - 一种宏基因组重叠群的分类方法

Info

Publication number: CN106055928A
Application number: CN201610361015.XA
Authority: CN
Inventors: 刘云; 刘富; 侯涛; 康冰; 王柯; 姜守坤; 王婧媛
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2016-05-29
Filing date: 2016-05-29
Publication date: 2016-10-26
Anticipated expiration: 2036-05-29
Also published as: CN106055928B

Abstract

一种宏基因组重叠群的分类方法，属于生物信息学分析技术领域。本发明的目的是针对宏基因组重叠群的不平衡特性，提出了一种利用改进的模糊c均值算法进行重叠群分类的方法。本发明的步骤是：设c个物种的平均覆盖率，则根据宏基因组物种个数确定公式，利用改进的模糊c均值算法进行宏基因组重叠群分类。本发明所使用的改进的模糊c均值算法是在分析了传统的模糊c均值算法对于不平衡数据集较差的性能的根本原因的基础上，提出的改进算法。改进的模糊c均值算法能够有效地改善传统方法对于不平衡数据集效果不理想的缺点，将其应用到重叠群分类中可以极大地提高分类精度，为后续的宏基因组分析提供良好的基础。

Description

一种宏基因组重叠群的分类方法

技术领域

本发明属于生物信息学分析技术领域。

背景技术

宏基因组学利用新一代测序技术，无需经过实验室培养而直接从环境中获取DNA遗传物质，有效地克服了传统基因测序技术的局限性，目前已成为分析生物群落中物种多样性的有效手段。宏基因组分析的一般步骤为测序、组装、分类和功能注释。原始的宏基因组数据是由大量的、长度短的DNA片段（reads）组成。这些片段之间具有重叠关系，可据此将其组装成长度较长的DNA序列，称之为重叠群（contigs），将这些重叠群按照其物种归属进行分类是宏基因组分析中必不可少的一步。

由于若干个因素，诸如物种间的基因组长度不同以及物种间的不同丰度等，在宏基因组数据中，不同物种所包含的重叠群的数量往往是不一样的。因此，组装后的宏基因组数据是一种不平衡数据集。如何对具有不平衡属性的重叠群进行有效地分类，是一个难题。

模糊c均值算法是一种著名的无监督分类方法，已经有效地应用在数据挖掘、图像分割、模式识别等领域，然而该方法对于不平衡数据集具有较差的性能。

发明内容

本发明的目的是针对宏基因组重叠群的不平衡特性，提出了一种利用改进的模糊c均值算法进行重叠群分类的方法。

本发明的步骤是：

a、设是c个物种的平均覆盖率，则根据宏基因组物种个数确定公式得到如下关系：

（1）

其中和是该宏基因组中最短和最长的物种基因组；因此，物种个数c应在如下区间：

（2）

利用Nonpareil软件来估计物种的平均覆盖率；

按照从短到长的顺序排列，分别取处于5%和95%位置的基因组长度为和；

宏基因组中的物种个数区间为：

（3）和

（4）

其中N和分别为宏基因组数据中重叠群的个数和平均长度；

b、利用改进的模糊c均值算法进行宏基因组重叠群分类：

①改进的模糊c均值算法：

改进的模糊c均值算法在原始代价函数的基础上，改进算法在其代价函数中考虑了各个类的大小，新的代价函数为：

（5）

其中是第i个重叠群的特征向量，是第j个类的中心，是对的隶属度值，是模糊度，本发明中q=2，d为欧氏距离，为第j个类的大小，定义为：

（6）

通过最小化新代价函数，得出改进算法的隶属度矩阵和聚类中心公式为：

（7）

和（8）

重复步骤直到，其中；

②利用改进算法进行重叠群分类：

以物种个数作为类的个数输入到改进的模糊c均值算法进行重叠群分类，分别遍历所有属于区间的物种个数，改进的模糊c均值算法共执行次，分别对应不同的属于区间的物种个数，得到了个分类结果。

本发明最佳分类结果的确定：

利用一种聚类准则函数从个分类结果中确定一个最好的分类结果。

本发明所使用的改进的模糊c均值算法是在分析了传统的模糊c均值算法对于不平衡数据集较差的性能的根本原因的基础上，提出的改进算法。改进的模糊c均值算法能够有效地改善传统方法对于不平衡数据集效果不理想的缺点，将其应用到重叠群分类中可以极大地提高分类精度，为后续的宏基因组分析提供良好的基础。

具体实施方式

本发明的步骤是：

（1）重叠群数据的获取

本发明适用于所有的宏基因组重叠群数据集，可从网络公开数据库中下载各种宏基因组数据。例如，可从http://gutmeta.genomics.org.cn/下载人体肠道的宏基因组数据。

（2）特征向量的建立

①计算每个重叠群的4-mer频率，即用一个列向量来表示一个DNA序列。由于DNA由ATGC四种核苷酸排列而成，因此特征向量的维度为256维。

②对步骤①中计算得到的特征向量进行归一化，方法为：特征向量中每一个元素都除以该特征向量中元素的最大值，即：

其中，N是宏基因组数据中重叠群的数量，是第j个重叠群的特征向量。

③宏基因组物种个数的确定

在一个包含有c个物种的宏基因组中，基因组总长度G为：

其中是第i个物种的基因组长度，是第i个物种的覆盖率。

（1）

（2）

因此，需要估计，和来确定物种个数c。

利用Nonpareil软件来估计物种的平均覆盖率；该估算方法可参见文献Rodriguez-R, Luis M, Konstantinidis, Konstantinos T. Nonpareil: a redundancy-based approach to assess the level of coverage in metagenomic datasets[J].Bioinformatics, 30(5):629-635。

由于物种间基因组的长度往往是不同的，本发明从NCBI网站上下载了一个包含有2573个细菌的全基因组数据全集，网址为ftp://ftp.ncbi.nih.gov/genomes/Bacteria/。按照从短到长的顺序排列，分别取处于5%和95%位置的基因组长度为和；bps，bps，区间可以包含这些物种的90%。

宏基因组中的物种个数区间为：

（3）和

（4）

其中N和分别为宏基因组数据中重叠群的个数和平均长度；

b、利用改进的模糊c均值算法进行宏基因组重叠群分类：

①改进的模糊c均值算法：

传统模糊c均值算法对于不平衡数据集分类效果不理想的原因是其使用了一种平方和形式的代价函数，因此分类结果中各个类之间的样本个数大致相等将获得较小的代价函数值，于是模糊c均值算法会将一部分来自大类的样本误分到其临近的小类中。为了从根本上克服模糊c均值算法的这种缺陷，本发明提出了一种改进的模糊c均值算法，在原始代价函数的基础上，改进算法在其代价函数中考虑了各个类的大小，用来表示类所包含的样本的个数，比如第一类包含800个样本，第二类包含1000个样本，800和1000即为类的大小，新的代价函数为：

（5）

（6）

改进后的代价函数将在分类结果中允许小类的存在，由于其考虑了各个类的大小，使得分类结果中各个类之间的样本个数除以其大小大致相等才能获得较小的代价函数值。

（7）

和（8）

重复步骤直到，其中。

改进算法的分类过程为：

i. 给定类的个数，构建随机隶属度矩阵；

ii. 根据聚类中心计算公式计算聚类中心；

iii. 计算各个类的大小；

iv.利用隶属度矩阵公式更新隶属度矩阵；

v.重复步骤ii到iv，直到。本发明中。

②利用改进算法进行重叠群分类：

本发明最佳分类结果的确定：

定义为：

其中。越小的值代表越好的分类结果，因此，最终的聚类个数为：

最终的分类结果即为对应的分类结果。

实例

本发明从https://github.com/minillinim/GroopM_test_data下载了一个宏基因组重叠群数据集，该数据集中共包含5668个重叠群。利用本发明所述的方法，可得，，，最终的分类结果如表1所示。

表1 实施例的最终分类结果

利用本发明所述的分类方法，能够正确分类其中的4340个重叠群，从而证明了本发明所述方法的有效性。

Claims

1.一种宏基因组重叠群的分类方法，其特征在于：

（1）

（2）

利用Nonpareil软件来估计物种的平均覆盖率；

宏基因组中的物种个数区间为：

（3）和

（4）

其中N和分别为宏基因组数据中重叠群的个数和平均长度；

b、利用改进的模糊c均值算法进行宏基因组重叠群分类：

①改进的模糊c均值算法：

（5）

（6）

（7）

和（8）

重复步骤直到，其中；

②利用改进算法进行重叠群分类：

2.根据权利要求1所述的宏基因组重叠群的分类方法，其特征在于：

最佳分类结果的确定：