CN106599618A

CN106599618A - 一种宏基因组重叠群的无监督分类方法

Info

Publication number: CN106599618A
Application number: CN201611201966.7A
Authority: CN
Inventors: 刘云; 刘富; 侯涛; 康冰; 王柯; 姜守坤; 王婧媛
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2017-04-26
Anticipated expiration: 2036-12-23
Also published as: CN106599618B

Abstract

一种宏基因组重叠群的无监督分类方法，属于生物信息学分析技术领域。本发明的目的是通过对c‑harmonic均值算法进行改进后对宏基因组重叠群进行无监督分类的方法。本发明的步骤是重叠群数据的获取；特征向量的建立；通过考虑各个类的体量构建了代价函数；根据聚类中心计算公式计算聚类中心；利用隶属度矩阵公式更新隶属度矩阵。本发明提出的改进的模糊c‑harmonic均值算法能够有效地改善传统方法对于不平衡数据集效果不理想的缺点，将其应用到重叠群的无监督分类中可以提高分类精度，为宏基因组中物种多样性的分析提供更好的基础。

Description

一种宏基因组重叠群的无监督分类方法

技术领域

本发明属于生物信息学分析技术领域。

背景技术

与传统的基因组学研究相比，宏基因组学技术的优点在于无需经过实验室培养而能够获得环境中绝大部分的遗传物质，这样就可以分析环境中物种之间以及物种与环境之间的关系。然而，宏基因组原始数据是大量的、长度很短的的DNA片段（reads）。研究人员可以根据DNA片段之间的重叠关系将其组装成长度较长的DNA序列，生物信息学中称之为重叠群（contigs）。将这些重叠群按照其物种归属进行分类是分析宏基因组中物种多样性的基础。

然而，由于物种间的不同基因组长度以及物种间的不同丰度，在宏基因组数据中，不同物种所包含的重叠群的数量往往相差很大。因此，宏基因组重叠群数据是一种典型的不平衡数据集。如何这种数据集进行有效地分类，是目前的一个难题。

模糊c-harmonic均值算法是一种常用的无监督分类方法，其在模糊c均值算法的代价函数中使用了调和平均数，使得其具有对处置不敏感的优点。然而，该方法对不平衡数据的聚类效果较差。基于此，本发明提出了一种基于改进的模糊c-harmonic均值算法的宏基因组重叠群的无监督分类方法。

发明内容

本发明的目的是通过对c-harmonic均值算法进行改进后对宏基因组重叠群进行无监督分类的方法。

本发明的步骤是：

①重叠群数据的获取；

②特征向量的建立；

③通过考虑各个类的体量构建了代价函数，定义为：

（1）

其中为第个类的体量，定义为所有样本属于该类的隶属度值之和：

（2）

满足；

一、隶属度矩阵的求解过程为：

①根据约束条件构造拉格朗日函数：

(3)

②求对于的偏导数：

(4)

③令，可得：

（5）

④根据约束条件，可得：

（6）

⑤可求得：

（7）

⑥将的计算公式带入到公式（5）中，可得：

（8）；

二、聚类中心的推导过程为：

①求对于的偏导数：

（9）

②采用欧式距离，因此，可得：

（10）

因此，

（11）

③令，可解得：

（12）

三、重复步骤一到二，直到，其中；

四、去模糊化。

本发明提出的改进的模糊c-harmonic均值算法能够有效地改善传统方法对于不平衡数据集效果不理想的缺点，将其应用到重叠群的无监督分类中可以提高分类精度，为宏基因组中物种多样性的分析提供更好的基础。

附图说明

图1是本发明工艺流程图。

具体实施方式

本发明的步骤是：

①重叠群数据的获取；本发明适用于所有的宏基因组重叠群数据集，可从网络公开数据库中下载各种宏基因组数据。例如，可从http://gutmeta.genomics.org.cn/下载人体肠道的宏基因组数据。

②特征向量的建立；

（1）本发明利用DNA序列的k-mer频率作为重叠群的分类特征，k-mer频率是指k长度的子序列在重叠群序列中出现的频率，本发明中k值取4。由于DNA由A（腺嘌呤）、T（胸腺嘧啶）、G（鸟嘌呤）、C（胞嘧啶）四种核苷酸排列而成，因此4-mer频率的维度为256维。

（2）对步骤（1）中计算得到的特征向量进行归一化，方法为：特征向量中每一个元素都除以该特征向量中元素的最大值，即：

其中，N是宏基因组数据中重叠群的数量，是第个DNA重叠群的4-mer频率特征。

利用改进的模糊c-harmonic均值算法进行宏基因组重叠群分类。

改进的模糊c-harmonic均值算法：

与模糊c均值算法类似，模糊c-harmonic均值算法对于不平衡数据的聚类效果也不理想，其原因是该算法的平方和形式的代价函数

其中c是类的个数，N是数据集中的样本数量，是第个样本到第个类的中心的欧氏距离，是对的隶属度值，是模糊度，本发明中。已有研究证明（Noordam, J. C.等，Multivariate image segmentation with clustersize insensitive fuzzy C-means，2002年），平方和形式的代价函数将在聚类结果中均衡化各个类中的样本数量，因此，在模糊c-harmonic的聚类结果中，一部分来自多数类的样本将被错误的划分到其相邻的少数类中。

③本发明利用第个类的体量来改良模糊c-harmonic均值算法的代价函数的性能，用原代价函数的平方和部分除以体量，通过考虑各个类的体量构建了代价函数，定义为：

（1）。

式（1）中为第个类的体量，定义为所有样本属于该类的隶属度值之和：

（2）

满足。

类似地，最小化该代价函数将使得各个类中包含的样本个数除以其大小趋于相等，大类包含的样本个数多，小类包含的样本个数少，因此在聚类结果中，大类的样本将不会被分到其邻近的小类中，从而在根本上改善了传统算法对于不平衡数据的聚类性能。

通过求新代价函数对隶属度和聚类中心的偏导数并令其为零，可以得出改进算法的隶属度矩阵和聚类中心的计算公式。

一、隶属度矩阵的求解过程为：

①根据约束条件构造拉格朗日函数：

(3)。

②求对于的偏导数：

(4)。

③令，可得：

（5）。

④根据约束条件，可得：

（6）。

⑤可求得：

（7）。

⑥将的计算公式带入到公式（5）中，可得：

（8）。

二、聚类中心的推导过程为：

①求对于的偏导数：

（9）。

②采用欧式距离，因此，可得：

（10）。

因此，

（11）。

③令，可解得：

（12）。

三、重复步骤一到二，直到，其中。

四、去模糊化。

利用改进算法进行重叠群分类：

首先设定类的个数，再以数据集中重叠群的4-mer频率作为特征向量，然后按照步骤中的改进算法流程进行重叠群的无监督分类。在分类结果中，一个类中的重叠群可能来自多个不同的基因组，在该类中包含重叠群数量最多的基因组确定为该类的主导基因组，其包含的重叠群视为该类正确分类的重叠群。

对比验证：

在一个宏基因组重叠群数据集上进行分类实验，以验证本发明所述方法的有效性，并与传统模糊c-harmonic均值算法和发明专利201610361015X中所述的方法进行对比，具体的实验步骤为：

1、从网址：http://gutmeta.genomics.org.cn/下载了一个宏基因组重叠群数据集，该数据集中共包含41786个重叠群。

2、计算每个重叠群的4-mer频率特征，并利用公式进行归一化，其中，N是宏基因组数据中重叠群的数量，是第个DNA重叠群的4-mer频率特征。

3、设定类的个数为200，下面对三种方法进行具体操作来获得重叠群数量。

（1）传统模糊c-harmonic均值算法的流程参见“汪中，刘贵全，陈恩红，基于模糊k-harmonic means的谱聚类算法”。

（2）发明专利201610361015X的分类流程请参见该发明专利公开的说明书。

（3）本发明的分类流程为：

①利用MATLAB的rand命令构建一个41786×200维的随机矩阵作为隶属度矩阵，该矩阵中的所有元素均为0到1区间的随机数。

②根据权利要求书的公式（2）计算各个类的大小，共包含200个数。

③根据权利要求书的公式（12）计算各个类的聚类中心。

④根据权利要求书的公式（8）计算隶属度矩阵。

⑤重复步骤②至④，直到，和分别是本次迭代和上一次迭代的隶属度矩阵，是二阶范数。

⑥去模糊化。

（4）结果分析。在分类结果中，一个类中的重叠群可能来自多个不同的基因组，在该类中包含重叠群数量最多的基因组确定为该类的主导基因组，其包含的重叠群视为该类正确分类的重叠群。所有类的正确分类的重叠群数量之和为该方法正确分类的重叠群。传统模糊c-harmonic均值算法正确聚类了8224个重叠群，发明专利201610361015X的数量为10391，本发明的数量为15223。

表1 本发明与传统模糊c-harmonic算法和发明专利201610361015X公开的重叠群分类方法的对比结果

从表1的结果可得，本发明方法正确分类的重叠群的数量分别比传统模糊c-harmonic均值算法和发明专利201610361015X的方法多6999和4832，表明了本发明所述方法的有效性和优越性。

Claims

1.一种宏基因组重叠群的无监督分类方法，其步骤是：

①重叠群数据的获取；

②特征向量的建立；

其特征在于：

③通过考虑各个类的体量构建了代价函数，定义为：

（1）

（2）

满足；

一、隶属度矩阵的求解过程为：

①根据约束条件构造拉格朗日函数：

(3)

②求对于的偏导数：

(4)

③令，可得：

（5）

④根据约束条件，可得：

（6）

⑤可求得：

（7）

⑥将的计算公式带入到公式（5）中，可得：

（8）；

二、聚类中心的推导过程为：

①求对于的偏导数：

（9）

②采用欧式距离，因此，可得：

（10）

因此，

（11）

③令，可解得：

（12）

三、重复步骤一到二，直到，其中；

四、去模糊化。