CN110111843A

CN110111843A - 对核酸序列进行聚类的方法、设备及存储介质

Info

Publication number: CN110111843A
Application number: CN201810011494.1A
Authority: CN
Inventors: 徐煜; 朱钶锐
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2019-08-09
Anticipated expiration: 2038-01-05
Also published as: CN110111843B

Abstract

本发明涉及一种对多个核酸序列进行聚类的方法、设备以及计算机设备和计算机可读存储介质。所述方法基于所述多个核酸序列之间的距离，对所述多个核酸序列进行分类，以便获得初始簇集合，基于初始簇集合中所包含核酸序列的数目，确定优化起始簇；然后基于所述核酸序列的测序质量以及所述优化起始簇所包含所述核酸序列的数目，确定所述优化起始簇的归属序列数目以及归属概率，从而进一步确定错误簇，使得错误簇从所述初始簇集合中排除，以便获得经过优化的所述初始簇集合。在此基础上进一步提供了对核酸序列进行聚类的设备、计算机设备和计算机可读存储介质。采用本发明的方法和设备可以有效减少聚类分析的误差，从而应用到特定功能序列的分析中。

Description

对核酸序列进行聚类的方法、设备及存储介质

技术领域

本发明涉及基因测序领域，具体涉及一种对核酸序列进行聚类的方法、设备以及计算机设备和计算机可读存储介质。

背景技术

物种分析是微生物群落分析的重要方法。其在于利用一定的生化或分子标记，对微生物群落的组成和结构做出判断。16S rRNA是原核生物核糖体RNA的一个亚基，由于其序列具有很高的保守性，常用于作为物种鉴别的标记性基因。在物种分析过程中，考虑到一些物种的基因组/16S序列是未知的，在技术上学术界普遍采用聚类的手段进行分析，认为距离小于一定阈值的序列来自同一个分类单元(可以是门，纲，目，科，属，种或其他级别的分类单元)，这些通过聚类得到的分类单元称为可操作分类单元(operational taxonomyunit,简称OTU)。

利用16S rRNA进行物种分析，可以选择使用其全部序列或部分标志性序列进行。传统上，由于受技术手段的限制，用16S进行物种分析多局限在利用16S的一个或几个高变异的区域(hypervariable region，HVR)进行分析。由于部分序列并不能完全代表16S基因的整体序列信息，所获得的信息不全面，从而会影响物种分析的结果。

因此对特定序列的聚类分析方法还有待改进。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一，即针对核酸序列进行聚类分析的方法进行改进。本发明基于第三代测序技术的基础，提出了一种新的聚类方法，从而减少测序过程中出现的错误，应用于物种或者样品的特应性序列的聚类分析。可以对不同的核酸序列进行聚类分析，所述核酸序列可以是经过测序得到的新的序列，也可以是基因库中已有的核酸序列等等，通过聚类分析，可以应用在物种的归属和丰度分析中。例如，采用本发明提供的方法，可以利用全长16S rRNA进行物种分析，可以极大的降低错误分析的概率，减少偏差。

本发明的发明人在研究过程中发现：对于同一个样品，聚类产生和OTU的数量会随着测序量的增加而增加，而增加的部分中大多数为假阳性；而且当用于聚类的序列较长时，聚类的中心与样品物种的真实中心相差较大。这些情况主要是由于在聚类的过程中没有将测序错误考虑进去，从而使得物种分析的结果出现偏差。

而如果不将测序错误考虑进去，在对测序序列进行聚类分析归类的过程中，会降低结果的准确性。尤其是当测序量增大时，就会有大量假阳性样本的发生，而且当聚类序列较长时，聚类中心就会存在偏差。

为此，本发明的一个目的在于提出一种对核酸序列进行聚类的方法，用来解决聚类中心偏差，聚类分析错误的问题，尤其是用来解决当进行聚类分析的序列较长时，测序误差影响较大带来聚类偏差的问题。

根据本发明的一方面，本发明提供了一种用于对多个核酸序列进行聚类的方法。根据本发明的实施例，所述用于对多个核酸序列进行聚类的方法包括以下步骤：

(1)基于所述多个核酸序列之间的距离，对所述多个核酸序列进行分类，以便获得初始簇集合，所述初始簇集合由多个簇构成；

(2)基于所述初始簇集合中所述簇所包含核酸序列的数目，确定优化起始簇；

(3)基于所述核酸序列的测序质量以及所述优化起始簇所包含所述核酸序列的数目，确定所述优化起始簇的归属序列数目；

(4)针对所述初始簇集合中剩余簇的至少一部分，基于所述测序质量，所述剩余簇的至少一部分的每一个所包含核酸序列的数目，以及所述剩余簇的每一个与所述优化起始簇之间的距离，确定所述剩余簇的至少一部分的每一个的归属概率；

(5)基于所述归属概率以及所述剩余簇的至少一部分的每一个所包含核酸序列的数目，在所述初始簇集合中确定错误簇，并将所述错误簇从所述初始簇集合中排除，以便获得经过优化的所述初始簇集合。

采用以上实施例提供的方法，一方面根据归属概率以及剩余簇的至少一部分的每个所包含的核酸序列的数目，确定错误簇，从而可以消除由于测序错误带来的聚类错误，另一方面，该方法适用于较长核酸序列的准确的聚类分析，可以最大程度的保证聚类分析结果的可靠性，例如核酸序列的长度在1.5Kb以上时，本发明提供的方法可以能够保证聚类分析的真实性，减少误差。

根据本发明的实施例，所述用于对多个核酸序列进行聚类的方法可以进一步包括如下附加技术特征：

根据本发明的实施例，所述方法进一步包括：重复进行步骤(2)～(5)至少一个循环。在对多个核酸序列进行聚类分析的过程中，可以根据实际需要，重复步骤(2)～(5)一个循环，两个循环，直至多个循环，直到在所述初始簇集合中判断错误簇的数目为零。

根据本发明的实施例，所述方法进一步包括：重复进行步骤(2)～(5)，直到所述错误簇的数目为零。

根据本发明的实施例，所述方法中，所述多个核酸序列来源于同源序列，所述同源序列为在至少两个物种之间具有至少80％同源性的基因。在对多个测序序列进行聚类分析的过程中，用来进行聚类分析的同源序列为可以为至少两个物种之间具有至少80％同源性的基因，甚至是至少85％同源性的基因，90％同源性的基因，更甚者是95％同源性的基因，98％同源性的基因，利用本发明提供的方法，均可以准确的实现同源序列的聚类分析。

根据本发明的实施例，所述方法中，所述多个核酸序列为编码16S核酸、18S核酸、ITS(Internal Transcribed Sequence，转录间隔区)或者功能区域的基因。其中，16S核酸包括16S rRNA或者16S rDNA，18S核酸包括18S rRNA或者18S rDNA。其中，16S rDNA为编码原核生物核糖体小亚基rRNA的DNA序列，具有10个保守区域和9个可变区域(v1-v9)，其中保守区域在细菌间差异不大，可变区域就有属或者种的特异性，对16S核酸某个可变区域或者某些个可变区域进行测序，然后进行聚类分析，可以用来研究环境微生物中细菌或者古菌的群落结构多样性。相应的16S rRNA是16S rDNA编码的rRNA序列。18S rDNA是编码真核生物核糖体小亚基rRNA的DNA序列，18S rDNA也存在9个可变区域(v1-v9)，对18S核酸某个可变区域或者某些个可变区域进行测序，然后进行聚类分析，可以用来研究环境样本中真核微生物群落结构多样性。ITS分为两个区域，ITS1和ITS2，ITS1位于真核生物rDNA序列18S和5.8S之间，ITS2位于真核生物rDNA序列5.8S和28S之间。对于ITS或者ITS序列进行聚类分析，可以用来研究环境微生物中真菌群落结构多样性。本领域技术人员还可以根据实际需要，针对特定的功能区域的序列进行聚类分析，从而进行物种的分类或者是物种丰度的确定。

根据本发明的实施例，所述方法中，所述多个核酸序列分别包括编码16S核酸或者18S核酸的基因的至少一部分可变区。本领域技术人员可以根据需要，选择可变区中的一部分或者多个部分，例如可以选择V1或者V2等等，也可以同时选择V3-V5的测序序列进行分析。本领域技术人员应该理解的是，当用来分析的测序序列更全面的时候，也会更接近真实的结果。

根据本发明的实施例，所述方法中，所述至少一部分可变区为选自v3、v4和v6可变区域的至少一部分。

根据本发明的实施例，所述方法中，所述多个核酸序列分别包括编码16S核酸或者18S核酸的基因的全长序列。利用16S核酸或者18S核酸的基因的全长序列进行聚类分析，可以收集到16S核酸或者18S核酸的基因的全部信息，从而可以减少序列信息不全带来的误差，而且利用本发明的方法，可以消除测序错误带来的误差，从而获得更准确的聚类结果。

根据本发明的实施例，所述方法中，所述距离是基于所述多个核酸序列之间的相似性确定的。其中多个核酸序列之间的相似性指的是多个核酸序列之间的碱基排列顺序以及序列长度之间的差别。两个核酸序列之间的相似度越高，代表两个核酸序列的长度越接近，碱基排列顺序也越接近；两个核酸序列之间的相似度越低，代表两个核酸序列的长度差距越大，碱基排列顺序也相差越大。当需要聚类分析的核酸序列来源于同源序列时，所述距离可以基于所述同源序列之间的相似性来确定。

本领域技术人员应该理解的是，两个序列之间的距离通常可以通过比对结果来确定。本领域技术人员也可以选择其他的方法，例如kmer frequency等。对于长度不同的核酸序列，可以选择比对结果首尾对齐，也可以只选择对比结果部分对齐来计算。根据一种优选实施例，可以使用对齐部分的序列相似度作为两个核酸序列之间的距离。

根据本发明的实施例，所述方法中，步骤(1)进一步包括：

(1-a)针对所述多个核酸序列，分别确定至少一部分的两两之间的距离；

(1-b)基于所述两两之间的距离，从所述多个核酸序列中选择聚类起始中心序列，其中，所述聚类起始中心序列的近距离序列数目不小于其他所述核酸序列的所述近距离序列数目，所述近距离序列数目是指与预定核酸序列之间的距离小于第一预定距离的核酸序列的总数；

(1-c)将于所述聚类起始中心序列的遗传距离不超过第二预定距离的核酸序列进行比对，并基于所述比对结果对所述聚类起始中心序列进行优化，以便获得经过优化的聚类起始中心序列；

(1-d)选择与所述经过优化的聚类起始中心序列之间所述距离不超过第三预定距离的所述核酸序列，构成起始簇；

(1-e)从所述多个核酸序列中排除所述起始簇的成员后，重复步骤(1-a)～(1-d)，直到所有的所述核酸序列均被归类至一个簇中，以便获得所述初始簇集合。

在本文中，近距离序列数目是指与预定核酸序列之间的距离小于预定距离的核酸序列的总数。

本领域技术人员能够理解的是，在步骤(1-d)中“起始簇”的目的仅在于将不同循环处理过程中所得到的簇进行区分，“起始”本身并不对簇有任何额外的限定。本领域技术人员可以根据需要进行任意命名，例如在第一次循环中可以命名为第一簇、循环到第二次时可以命名为第二簇等等。

根据本发明的实施例，所述方法中，所述第二预定距离与所述第三预定距离的比值不小于所述第一预定距离与所述第三预定距离的比值。

根据本发明的实施例，所述方法中，所述第二预定距离与所述第三预定距离的比值等于所述第一预定距离与所述第三预定距离的比值。

根据本发明的实施例，所述方法中，所述第三预定距离是基于聚类半径确定的。其中，聚类半径的含义为，针对给定中心的聚类方法，聚类半径是指归入某一簇中的元素到给定中心的距离的最大值，针对未给定中心的聚类方法，聚类半径是指通过聚类得到的簇中任意两序列之间的距离的最大值的一半。

根据本发明的实施例，所述方法中，在步骤(1-c)中，所述基于所述比对结果对所述聚类起始中心序列进行优化，是通过对至少一个碱基位点进行取众数处理而进行的。在本文中，取众数，是基于每个碱基位点上相同碱基的数目，选择相同碱基数目最多的碱基作为每个碱基位点上相应的碱基，从而实现对所述聚类起始中心序列进行优化，例如在所述聚类起始中心序列的第一位上的碱基为A，而进行序列比对的结果显示第一位上的碱基为G的个数为300个，碱基为A的个数为100个，碱基为T的个数为100个，碱基为C的个数为100个，那么相应的将所述聚类起始中心序列的第一位上的碱基优化为G。

根据本发明的实施例，所述方法中，所述归属序列数目是基于公式：

N(1-p)/p确定的，

p是基于公式确定的，其中

其中，N表示所述优化起始簇所包含所述测序序列的数目，

l表示所述优化起始簇的聚类起始中心序列的长度；

r0表示预先确定的可以容忍的差异碱基数目的最大值；

e表示测序错误率，利用公式求值后，并求算术平均值作为e值，

其中Q为测序质量值。

根据本发明的实施例，所述方法中，所述归属概率是基于公式

确定的，其中d表示所述第三预定距离。当以上归属概率公式中第一项为每条序列与S0的差异位点数恰为r_i的概率之积，第二项为在给定的每条序列与S0的差异位点数的条件下它们两两间距离小于d的概率。在计算过程中，如果第一项具有足够的区分度，可以忽略第二项。即取Ppair＝1。

根据本发明的实施例，所述方法中，所述归属概率是基于公式中的P是由确定的。

根据本发明的实施例，所述方法中，

所述第一预定距离是所述第三预定距离的1～2倍，

所述第二预定距离是所述第三预定距离的1～2倍，

所述第三预定距离值为大于0，小于等于1。

在本发明的另一方面，本发明提供了一种用于对多个核酸序列进行聚类的设备。根据本发明的实施例，所述设备包括：

初始簇构建模块，所述初始簇构建模块用于基于所述多个核酸序列之间的距离，对所述多个核酸序列进行分类，以便获得初始簇集合，所述初始簇集合由多个簇构成；

优化起始簇确定模块，所述优化起始簇确定模块用于基于所述初始簇集合中所述簇所包含核酸序列的数目，确定优化起始簇；

归属序列数目确定模块，所述归属序列确定模块用于基于所述核酸序列的测序质量以及所述优化起始簇所包含所述核酸序列的数目，确定所述优化起始簇的归属序列数目；

归属概率确定模块，所述归属概率确定模块用于针对所述初始簇集合中剩余簇的至少一部分，基于所述测序质量，所述剩余簇的至少一部分的每一个所包含核酸序列的数目，以及所述剩余簇的每一个与所述优化起始簇之间的距离，确定所述剩余簇的至少一部分的每一个的归属概率；

错误簇确定模块，所述错误簇确定模块用于基于所述归属概率以及所述剩余簇的至少一部分的每一个所包含核酸序列的数目，在所述初始簇集合中确定错误簇，并将所述错误簇从所述初始簇集合中排除，以便获得经过优化的所述初始簇集合。

采用以上实施例提供的设备，一方面利用错误簇确定模块，根据归属概率以及剩余簇的至少一部分的每个所包含的核酸序列的数目，确定错误簇，从而可以消除由于测序错误带来的聚类错误，另一方面，该设备尤其适用于较长测序序列的准确的聚类分析，可以最大程度的保证聚类分析结果的可靠性，例如测序序列的长度在1.5Kb以上时，本发明提供的方法可以能够保证聚类分析的真实性，减少误差。

根据本发明的实施例，本发明提供的用于对多个核酸序列进行聚类的设备可以进一步包括如下附加技术特征：

根据本发明的实施例，所述设备中，所述错误簇确定模块的结果返回至所述优化起始簇确定模块至少一个循环。

根据本发明的实施例，所述设备中，所述错误簇确定模块的结果返回至所述优化起始簇确定模块直到所述错误簇的数目为零。

根据本发明的实施例，所述设备中，所述初始簇构建模块进一步包括：

两两距离确定单元，所述两两遗传距离确定单元用于针对所述多个核酸序列，分别确定至少一部分的两两之间的距离；

聚类起始中心序列确定单元，所述聚类起始中心序列确定单元用于基于所述两两之间的距离，从所述多个核酸序列中选择聚类起始中心序列，其中，所述聚类起始中心序列的近距离序列数目不小于其他所述核酸序列的所述近距离序列数目，所述近距离序列数目是指与预定核酸序列之间的距离小于第一预定距离的核酸序列的总数；

聚类起始中心序列优化单元，所述聚类起始中心序列优化单元用于将于所述聚类起始中心序列的距离不超过第二预定距离的核酸序列进行比对，并基于所述比对结果对所述聚类起始中心序列进行优化，以便获得经过优化的聚类起始中心序列；

起始簇构建单元，所述起始簇构建单元用于选择与所述经过优化的聚类起始中心序列之间所述距离不超过第三预定距离的所述核酸序列，构成起始簇；

其中，从所述多个核酸序列中排除所述起始簇的成员后，将结果返回至所述两两距离确定单元，直到所有的所述核酸序列均被归类至一个簇中，以便获得所述初始簇集合。

根据本发明的实施例，所述设备中，所述多个核酸序列来源于同源序列，所述同源序列为在至少两个物种之间具有至少80％同源性的基因。

根据本发明的实施例，所述设备中，所述多个核酸序列为编码16S核酸、18S核酸、ITS或者功能区域的基因。

根据本发明的实施例，所述设备中，所述多个核酸序列分别包括编码16S核酸或者18S核酸的基因的至少一部分可变区。

根据本发明的实施例，所述设备中，所述至少一部分可变区为选自v3、v4和v6可变区域的至少一部分。

根据本发明的实施例，所述设备中，所述多个核酸序列分别包括编码16S核酸或者18S核酸的基因的全长序列。

根据本发明的实施例，所述设备中，所述第二预定距离与所述第三预定距离的比值不小于所述第一预定距离与所述第三预定距离的比值。

根据本发明的实施例，所述设备中，所述第二预定距离与所述第三预定距离的比值等于所述第一预定距离与所述第三预定距离的比值。

根据本发明的实施例，所述设备中，所述第三预定距离是基于聚类半径确定的。其中，聚类半径的含义为，针对给定中心的聚类方法，聚类半径是指归入某一簇中的元素到给定中心的距离的最大值，针对未给定中心的聚类方法，聚类半径是指通过聚类得到的簇中任意两序列之间的距离的最大值的一半。

根据本发明的实施例，所述设备中，所述距离是基于两个所述核酸序列之间的相似性确定的。

根据本发明的实施例，所述聚类起始中心序列优化单元用于将所述基于所述比对结果对所述聚类起始中心序列进行优化，是通过对至少一个碱基位点进行取众数处理而进行的。

在本发明的又一方面，本发明提供了一种计算机设备。根据本发明的实施例，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如以上实施例中任一项所述的用于对多个核酸序列进行聚类的方法。

在本发明的另一方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序。根据本发明的实施例，所述计算机程序被处理器执行时实现如以上实施例中任一项所述的用于对多个核酸序列进行聚类的方法。

本发明所取得的有益效果为：利用本发明提供的方法和设备可以聚类中心偏差，聚类分析错误的问题，尤其是可以用来解决当进行聚类分析的序列较长时，测序误差影响较大带来的聚类偏差的问题。利用本发明提供的方法可以应用与物种分析以及物种归属，或者进行物种多样性，进化分析以及群落演化分析等等。

附图说明

图1是根据本发明的实施例提供的一种用于对多个核酸序列进行聚类的设备。

图2是根据本发明的实施例提供的初始簇构建模块的结构示意图。

图3是根据本发明的实施例提供的一种用于对多个核酸序列进行聚类的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

如上所述，为了解决在对序列片段聚类过程中的偏差问题，本发明具体提供了如下方案：

一方面，本发明提供了一种用于对多个核酸序列进行聚类的方法。根据本发明的实施例，所述用于对多个核酸序列进行聚类的方法中，包括以下步骤：

(1)基于所述多个核酸序列之间的距离，对所述多个核酸序列进行分类，以便获得初始簇集合，所述初始簇集合由多个簇构成，并且所述多个簇均包含至少一个所述核酸序列；

(3)基于所述测序序列的测序质量以及所述优化起始簇所包含所述核酸序列的数目，确定所述优化起始簇的归属序列数目；

本领域技术人员能够理解的是，这里所说的剩余簇是指除去优化起始簇之后的其余簇。

在本文中，除非明确说明，序号本身只是为了方便区分各步骤的目的，而不以任何方式限制各步骤的先后顺序，例如本领域技术人员能够理解的是，以上实施例给出的方法中，步骤(3)和(4)的顺序可以互换或者同时进行。

为了更好的理解本发明，下面提供相关术语的定义和解释。

其中，所述多个核酸序列可以为同源序列，本发明中所述同源序列是指不同物种之间具有同源性较高的序列，例如，在至少两个物种之间具有至少80％同源性的基因，例如编码16s rRNA的基因。

术语“核酸序列的测序质量”，本领域技术人员能够理解的是，这里所指的核酸序列的测序质量是指的产生该核酸序列的测序反应或者测序过程的测序质量，通常在产生测序序列的反应或者过程中会产生一定的误差。各常规的的测序平台可以通过常规方法确定该核酸反应的测序质量，并进行相应的量化。另外，本领域技术人员能够理解的是，各核酸序列有可能来自于不同的测序反应，各核酸序列有可能对应不同的测序质量。因此，根据本发明的一个实施例，可以对一组核酸序列(例如全部核酸序列，一个或者多个簇中所包含的核酸序列)所包含的核酸序列的测序质量进行计算算术平均值，以作为该组核酸序列的测序质量。例如，在步骤(3)中所采用的测序质量，可以是基于优化起始簇所包含测序序列的测序质量的算术平均值，步骤(4)中所采用的测序质量，可以是基于剩余簇的每一个中所包含测序序列的测序质量的算术平均值。另外，为了简单计算，也可以将所有的测序序列的测序质量进行算术平均值计算，这样在步骤(3)和(4)中采用相同的测序质量。

本发明中所述“归属序列”是指这样的测序序列，其本应该归属在该簇中，但由于测序中可能出现的测序错误，导致该测序序列没有被分类在该簇中。

本发明中所述“归属概率”是指这样一种概率，即所分析的对象簇中的测序序列由于测序错误而导致未被归类到优化对象。

另一方面，本发明提供了一种用于对多个核酸序列进行聚类的设备。根据本发明的实施例，所述设备如图1所示，包括：

初始簇构建模块，所述初始簇构建模块用于基于所述多个核酸序列之间的距离，对所述多个核酸序列进行分类，以便获得初始簇集合，所述初始簇集合由多个簇构成，并且所述多个簇均包含至少一个所述核酸序列；

其中，在本发明的一种优选实施方式中，经初始簇构建模块分析的数据进入优化起始簇确定模块，然后利用归属序列数目确定模块和归属概率确定模块分别确定属于优化起始簇的归属序列的数目，以及剩余簇的至少一部分的每一个的归属概率，然后利用错误簇确定模块确定错误簇，并将所述错误簇从所述初始簇集合中排除，以便得到经过优化的所述初始簇集合。

根据本发明的实施例，所述初始簇构建模块如图2所示，进一步包括：

两两距离确定单元，所述两两距离确定单元用于针对所述多个核酸序列，分别确定至少一部分的两两之间的距离；

起始簇构建单元，所述起始簇构建单元用于选择与所述经过优化的聚类起始中心序列之间所述距离不超过第三预定距离的所述核酸序列，构成起始簇。

利用本发明的方法和设备，在对核酸序列进行聚类分析之后，可以将其应用在微生物多样性分析中。例如可以用来研究菌落的组成，进行物种归属和丰度分析，也可以用作物种多样性，进化分析以及群落演化等等。

实施例一

本实施例构建了以上技术方案的一种具体实施方式，并利用模拟数据对本专利方案和Mothur以及CD-HIT的结果进行了对比。

其中，Mothur是一种分层聚类法，其原理是计算序列两两之间的距离，把距离最近的两条序列合并成一个簇(cluster)，然后形成的cluster当作一条序列，重复以上步骤，直到序列或cluster两两之间的距离大于阈值无法进行合并为止。在本实施例中，参照文献Introducing mother：Open-Source，Platform-Independent,Community-SupportedSoftware for Describing and Comparing Microbial Communities(Patrick D.Schlossetal.APPLIED AND ENVIRONMENTAL MICROBIOLOGY,Dec.2009,Vol.75，No.23,p.7537-7541)中记载的方法得到聚类分析的结果，如表1所示。

CD-HIT是一种启发式聚类法。其基本方法是首先取出现次数最多的序列作为聚类中心，把所有到这条的距离小于阈值的序列都划归为同一个cluster。然后在剩下的序列中选出出现次数最多的序列作为下一个聚类中心，重复之间的步骤直至每条序列都被归为某个cluster。在本实施例中，参照文献Cd-hit:a fast program for clustering andcomparing large sets of protein or nucleotide sequences(Weizhong Li and AdamGodzik,BIOINFORMATICS APPLICATIONS NOTE,2006,Vol.22,No.13,pages 1658-1659)中记载的方法得到聚类分析的结果，如表1所示。

(一)实施方案

如附图3所示。附图3提供了对多个核酸序列进行聚类的一个流程图。主要包括簇生成模块以及簇优化模块。其中，簇生成模块包括如下流程：

首先将测序的数据输入，然后估计最大的簇中心，在此基础上对簇中心进行优化，并生成簇。然后将簇中已经包含的序列从簇中去除，检测是否每条序列都被归入到一个簇中，如果没有，就重新估计最大的簇中心进行又一次循环，直到每条序列都被归入到同一个簇中，从而生成不同的簇。

簇优化模块包括如下流程：

取所生成的最大的簇，计算归属序列的数量以及其他簇的归属概率，然后消除错误的簇，然后将最大的簇去除，检测是否还有其他未被消除的错误簇，如果还有未被消除的错误簇，则重新确定最大的簇进行又一次循环，直到不含有错误簇为止。

其中，具体的实施方法如下：

a、Cluster生成

(1)Cluster中心估计。在所有的序列中，找到一条序列S，具有以下性质：记到某条序列Si的距离不超过k1*d(d为给定的阀值，k1为模型参数)的序列的数量为ni,那么S是所有Si中具有最大ni的一条。如果有多条序列具有并列最大的ni，则随机取一条。

(2)Cluster中心优化。对于所有到S不超过k2*d(k2为参数)的序列做多重序列比对。在每比对结果的每个位置上取众数，合并得到一条新的序列S’。

(3)形成Cluster。找到所有到S’的距离不超过d的序列，构成Cluster。

(4)迭代。将步骤3得到的Cluster中包含的序列从数据中去除。然后重复步骤1到3，直到所有的序列都被归为某个cluster。

b、Cluster优化模块。

(5)归属序列数量的估计。对于给定Cluster，利用序列的测序质量值，通过概率模型，计算由此Cluster生成，但在一定测序错误率下到Cluster中心的距离大于d的序列的数量的期望，以此作为Cluster外应归属于此Cluster的序列的数量的估计。

在步骤(5)中，我们利用测序质量值Q求得测序错误率e：并对e求算术平均作为e的估计。假定序列的长度为l，给定的阀值d对应的序列间差异位点数为r0，我们利用二项分布去估计一个序列由序列S0生成，且与S0的序列间差异位点数恰为k的概率其中表示从l个位置中不重复抽k个位置得到的所有组合的个数。从而一个序列由S0生成，且至S0的距离小于或等于d的概率其中表示向下取整。假定得到的Cluster的大小为N，那么由此Cluster生成，且未落入此Cluster中的序列的数量的估计为N(1/p-1)。此即为归属序列数量的估计。

R0表示预先确定的可以容忍的差异碱基数目的最大值，r0与d相对应，表示的是对应于d的差异碱基数目。或者说，r0代表的是当两条核酸序列之间的距离不大于d的前提下，两条核酸序列最大的差异碱基数目的估计。测序质量值Q一般由测序仪的信号处理软件生成，同时可以通过标准品进行评估和校正。在本发明给出的特定的公式中，Q的取值范围通常为0～60，对应于10^-6～100％的测序错误率。相应的，p值的取值情况为千分之几到百分之十几之间。

(6)归属概率计算。对于除给定Cluster之外的Cluster，利用序列间距离信息和测序质量信息，计算此Cluster是由给定Cluster由于测序错误而产生的概率，称为归属概率。由于相距较远的大Cluster几乎不可能由测序错误生成，在计算上可只对大小小于一定阀值且距离小于一定阀值的Cluster进行计算。

在步骤(6)中，我们以以下方法计算归属概率。对于某一Cluster，设其大小为n，其中的序列为s1，…，sn,每条序列到给定Cluster的中心S0的序列间差异位点数为r1，…，rn。那么这些序列由S0生成，且两两间距离小于d的概率为：

式中第一项为这些每条序列与S0的差异位点数恰为r_i的概率之积，第二项为在给定每条序列与S0的差异位点数的条件下它们两两间距离小于d的概率。在计算过程中，由于第一项具有足够的区分度，所以我们忽略了第二项，即取P_pair＝1。此时，归属概率等于

(7)错误Cluster的消除。把除给定Cluster之外的Cluster按归属概率从大到小的顺序，依次从Cluster的集合中去除，并使去除的Cluster的大小之和与步骤(5)中计算出的归属序列数量的估计最接近。

(8)对于生成的cluster，按照由大到小的顺序(Cluster的大小是指其中包含的序列的数量)，依次进行步骤(5)～(7)的操作，直到没有Cluster可以被去除。

步骤(8)得到的结果即为聚类的最终结果。其中步骤(5)和步骤(6)没有先后顺序关系。

(二)结果对比

a、生成模拟数据。基于greengenes数据库提供的16S rDNA序列，抽取100条作为真实16S序列的模似。并利用λ＝1.2的指数分布，为每个物种赋以不同的丰度，对丰度做归一化处理可得物种的相对丰度。利用模拟得到的16S序列和相对丰度作为模拟的物种池。利用随机数在物种池中做可重复抽样，对抽得的序列给定1％的碱基替换错误率来生成模拟序列。重复上述模拟序列生成的步骤，我们得到了测序量在1k～50k条序列之间，共18个测序量水平的模拟数据。

b、三种方法进行聚类分析。分别使用mothur，cdhit，和本方法，在上述模拟数据上进行OTU聚类。

采用本发明的方法确定的聚类的半径为1.5％(即聚类半径为0.015)，对应的k1值为2，k2值为2，d值为0.015，Q值为20。分别对应于mothur 0.03的聚类直径，cdhit 0.985的相似度半径。对各方法得到的结果统计得到的OTU数量，各OTU的代表序列，及OTU的相对丰度。

c、结果。把各分析方法得到的结果与模拟物种池做对比，把距离物种池中某物种的真实序列不超过聚类半径的最大的OTU作为此物种的代表OTU。由此我们可以估计方法的假阳性率FDR，以及OTU中心与物种真实序列的差异ACB。

FDR＝不是任何物种的代表OTU的OTU数量/OTU的总数量

ACB(％)＝各物种代表OTU的代表序列/真实序列的距离的平均值*100％。

结果如下表1所示：

表1利用不同方法得到的结果

从表1给出的模拟结果可以看出，本方法有效地消除了OTU数目随着测序量增大而持续增大的问题，物种数目的估计随着测序量的增加逐步收敛。假阳性率也以随机波动为主，不存在随着测序量的增加而增加的趋势，且其假阳性率水平显著低于Mothur和cdhit方法。对于OTU中心估计的偏差ACB，在相同测序量下本方法结果均为三种方法中的最小值，且较其他两种方法小半个至两个数量级，结果较其他两种方法有明显改善。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于对多个核酸序列进行聚类的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，重复进行步骤(2)～(5)至少一个循环；

任选地，重复进行步骤(2)～(5)，直到所述错误簇的数目为零；

任选地，所述多个核酸序列为编码16S核酸、18S核酸、ITS或者功能区域的基因；

任选地，所述多个核酸序列分别包括编码16S核酸或者18S核酸的基因的至少一部分可变区；

任选地，所述至少一部分可变区为选自v3、v4和v6可变区域的至少一部分；

任选地，所述多个核酸序列分别包括编码16S核酸或者18S核酸的基因的全长序列；

任选地，所述距离是基于所述多个核酸序列之间的相似性确定的。

3.根据权利要求1所述的方法，其特征在于，步骤(1)进一步包括：

(1-c)将于所述聚类起始中心序列的距离不超过第二预定距离的核酸序列进行比对，并基于所述比对结果对所述聚类起始中心序列进行优化，以便获得经过优化的聚类起始中心序列；

4.根据权利要求3所述的方法，其特征在于，所述第二预定距离与所述第三预定距离的比值不小于所述第一预定距离与所述第三预定距离的比值；

任选地，所述第二预定距离与所述第三预定距离的比值等于所述第一预定距离与所述第三预定距离的比值；

任选地，所述第三预定距离是基于聚类半径确定的；

任选地，在步骤(1-c)中，所述基于所述比对结果对所述聚类起始中心序列进行优化，是通过对至少一个碱基位点进行取众数处理而进行的。

5.根据权利要求1所述的方法，其特征在于，所述归属序列数目是基于公式：

N(1-p)/p确定的，

p是基于公式确定的，其中

其中，N表示所述优化起始簇所包含所述核酸序列的数目，

l表示所述优化起始簇的聚类起始中心序列的长度，

r0表示预先确定的可以容忍的差异碱基数目的最大值，

其中Q为测序质量值；

任选地，所述归属概率是基于公式

确定的，其中d表示所述第三预定距离；

任选地，所述归属概率是基于公式中的P是由确定的；

任选地，所述第一预定距离是所述第三预定距离的1～2倍，

所述第二预定距离是所述第三预定距离的1～2倍，

所述第三预定距离值为大于0，小于等于1。

6.一种用于对多个核酸序列进行聚类的设备，其特征在于，包括：

7.根据权利要求6所述的设备，其特征在于，所述错误簇确定模块的结果返回至所述优化起始簇确定模块至少一个循环；

任选地，所述错误簇确定模块的结果返回至所述优化起始簇确定模块直到所述错误簇的数目为零；

任选地，所述初始簇构建模块进一步包括：

两两距离确定单元，所述两两遗传距离确定单元用于针对所述多个核酸序列，分别确定至少一部分的两两之间的距离，

聚类起始中心序列确定单元，所述聚类起始中心序列确定单元用于基于所述两两之间的距离，从所述多个核酸序列中选择聚类起始中心序列，其中，所述聚类起始中心序列的近距离序列数目不小于其他所述核酸序列的所述近距离序列数目，所述近距离序列数目是指与预定核酸序列之间的距离小于第一预定距离的核酸序列的总数，

聚类起始中心序列优化单元，所述聚类起始中心序列优化单元用于将于所述聚类起始中心序列的距离不超过第二预定距离的核酸序列进行比对，并基于所述比对结果对所述聚类起始中心序列进行优化，以便获得经过优化的聚类起始中心序列，

起始簇构建单元，所述起始簇构建单元用于选择与所述经过优化的聚类起始中心序列之间所述距离不超过第三预定距离的所述核酸序列，构成起始簇，

8.根据权利要求6所述的设备，其特征在于，所述多个核酸序列为编码16S核酸、18S核酸、ITS或者功能区域的基因；

任选地，所述第二预定距离与所述第三预定距离的比值不小于所述第一预定距离与所述第三预定距离的比值；

任选地，所述第三预定距离是基于聚类半径确定的；

任选地，所述距离是基于两个所述核酸序列之间的相似性确定的；

任选地，所述聚类起始中心序列优化单元用于将所述基于所述比对结果对所述聚类起始中心序列进行优化，是通过对至少一个碱基位点进行取众数处理而进行的。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1-5中任一项所述的用于对多个核酸序列进行聚类的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的用于对多个核酸序列进行聚类的方法。