CN110808085B

CN110808085B - 一种基于OrthoMCL聚类结果的快速分析方法

Info

Publication number: CN110808085B
Application number: CN201911044264.6A
Authority: CN
Inventors: 韩毛振; 张雁; 曹杰; 汪栋; 罗学才
Original assignee: Anhui Medical University
Current assignee: Anhui Medical University
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2023-03-21
Anticipated expiration: 2039-10-30
Also published as: CN110808085A

Abstract

本发明公开了一种基于OrthoMCL聚类结果的快速分析方法，属于比较基因组学和生物信息学领域，该方法以OrthoMCL聚类结果为基础，建立自动对泛基因组分析中各类蛋白的识别，包括所有代表性蛋白质、核心蛋白质、单拷贝核心蛋白质和物种特异性蛋白质。基于这些蛋白质各自的分类，对这些分类的蛋白质在各自物种中存在的个数进行统计，并按照类别将结果进行输出。该方法实现了对各种分类中蛋白质的代表性序列的输出以及各类蛋白在每个物种中的代表性序列的输出。此外，该方法也将蛋白质同源聚类结果按照每一个同源蛋白质对应的序列进行输出，为实现泛基因组分析中更为高级的个性化分析奠定基础。

Description

一种基于OrthoMCL聚类结果的快速分析方法

技术领域

本发明涉及比较基因组学和生物信息学领域，尤其涉及一种基于OrthoMCL聚类结果的快速分析方法。

背景技术

比较基因组学(Comparative Genomics)是从进化的角度分析不同物种的基因组数据，对已知的基因和基因组结构进行比较，从而解析基因的功能以及基因与疾病和表型之间的遗传学机制(

C.Setubal et al.,2017，Shilei Zhao et al.,2019)。随着测序技术的快速发展，特别是二代、三代测序技术的发展革新，众多物种的基因组已经测序完成，越来越多的物种都在种水平上有了多个样本的群体基因组数据。如何快速有效地对这些基因组测序数据进行比较分析，是目前比较基因组学研究中方法开发的一个主要研究领域。

目前在泛基因组的分析中一般涉及到以下几个方面的内容：同源蛋白质的聚类分析、对同源蛋白质聚类结果的分析、蛋白质的建树和进化分析、蛋白质的功能注释(包括但不限于碳水化合物功能的注释(CAZyme)、蛋白质功能的注释(COG和GO注释)和代谢途径的注释(KEGG pathway)等)。在已开发的泛基因组分析工具中，已经有PGAP(Yongbing Zhaoet al.,2011)和EDGAR(J.Yu et al.,2017)和panX(Wei Ding et al.,2018)等工具。这些工具实现了泛基因组分析中所需的绝大部分内容，但是输出结果一般是经过高度整合之后的。正是由于缺少对应的中间过程文件，特别是对蛋白质的同源聚类结果及其相应的统计文件和蛋白质序列文件，使得泛基因组分析中所需的个性化分析难以开展。因此，如何快速有效地对泛基因组分析中蛋白质的同源聚类结果进行分析和统计，并对相应的蛋白质进行分类(主要涉及到泛基因组分析中的核心蛋白质、单拷贝核心蛋白质、非必需蛋白质和特异性蛋白质)输出相对应的代表性的蛋白质序列，为后续的分析提供输入文件是实现泛基因组分析中的个性化分析的重要前提。但是目前也没有专门的方法可供使用，开发此类方法是必要的。

在泛基因组分析中，实现物种内所有蛋白质的同源聚类是进行后续分析的基础。目前相应的工具就包括OrthoMCL(https://orthomcl.org/orthomcl/)，BLAST和Diamond(Wei Ding et al.,2018)等。其中OrthoMCL在泛基因组分析中是用来寻找直系同源基因和旁系同源基因，其使用具有详细的教程，易上手，是目前泛基因组分析中使用较为广泛的工具。其输出结果所包含的同源聚类结果也较为系统和全面，是实现对泛基因组分析中确定各蛋白质分类的基础文件。

基于以上原因，为了实现对泛基因组分析中更多高级的个性化分析，需要建立对蛋白质聚类结果的快速有效处理。因此针对泛基因组中的蛋白质聚类结果非常有必要运用比较基因组学和生物信息学的使用，提供一种针对OrthoMCL聚类结果，实现对其快速有效的分析方法。

发明内容

为了解决以上问题，本发明提出一种基于OrthoMCL聚类结果的快速分析方法，以解决现有技术没有专门针对泛基因组分析中蛋白质的同源聚类结果进行分析和统计、对相应蛋白质进行快速分类、并输出对应代表性蛋白质序列的方法。

本发明采用以下技术方案来实现：

本发明提供了一种基于OrthoMCL聚类结果的快速分析方法，包括以下步骤：

步骤S1、获取待分析的各个物种的核酸序列和蛋白质序列，利用OrthoMCL聚类分析软件对待分析的所有物种的蛋白质序列进行同源性聚类，并输出OrthoMCL聚类结果；

步骤S2、设定泛基因组分析中所使用的物种个数为N，统计出OrthoMCL聚类结果中每个对应对应聚类文件的cluster中所包含的物种数N1和每个对应聚类文件的cluster中每个物种包含的蛋白质的个数m₁，m₂，m₃，......，m_N，获得OrthoMCL聚类参数；

步骤S3、根据OrthoMCL聚类参数对蛋白质进行分类；

步骤S4、根据步骤S3的划分结果和步骤S1的物种核酸序列，输出分析结果。

作为本发明进一步的优化方案，所述根据OrthoMCL聚类参数对蛋白质进行分类，包括：

根据泛基因组学OrthoMCL聚类结果中核心蛋白质在物种中的分布特征：若该cluster中包含的物种数N1＝N，这个cluster为泛基因组分析的核心蛋白质，输出该cluster文件；

根据泛基因组学OrthoMCL聚类结果中单拷贝核心蛋白质在物种中的分布特征：若该cluster中包含的物种数N1＝N且m₁＝m₂＝m₃＝.......＝m_N＝1，这个cluster为泛基因组分析的单拷贝核心蛋白质，输出该cluster文件；

根据泛基因组学OrthoMCL聚类结果中非必需蛋白质质在物种中的分布特征：若该cluster中包含的物种数N1<N且m₁，m₂，m₃，.......，m_N中至少有两个不为0，这个cluster为发基因组分析中的非必需蛋白质，输出该cluster文件；

根据泛基因组学OrthoMCL聚类结果中特异蛋白在物种中的分布特征：若该cluster中包含的物种数N1<N且m₁，m₂，m₃，.......，m_N中有且只有一个为0，这个cluster为泛基因组分析的特异蛋白，输出该cluster文件；

作为本发明进一步的优化方案，所述输出分析结果，包括：

输出各类蛋白质在每个cluster中的分布，即输出m₁，m₂，m₃，......，m_N的值，从而实现各类蛋白质的数目统计；

输出各类蛋白质在每个cluster中的核酸序列，包括单拷贝核心蛋白质的序列，从而提供后续的泛基因组分析的输出文本。

该方法可以对目前泛基因组分析中主要的分析内容所需的文件进行输出，且经本发明处理得到的核酸和蛋白质输出文件，可以直接作为后续泛基因组分析个性化分析所需的输入文件，无需经过其它处理。

本发明以OrthoMCL聚类结果为基础，建立自动对泛基因组分析中各类蛋白的识别，包括所有代表性蛋白质、核心蛋白质、单拷贝核心蛋白质和物种特异性蛋白质。基于这些蛋白质各自的分类，对这些分类的蛋白质在各自物种中存在的个数进行统计，并按照类别将结果进行输出。该方法实现了对各种分类中蛋白质的代表性序列的输出以及各类蛋白在每个物种中的代表性序列的输出。此外，该方法也将蛋白质同源聚类结果按照每一个同源蛋白质对应的序列进行输出，特别是对单拷贝核心蛋白质序列的输出，以便实现后续泛基因组分析中单拷贝蛋白质的多序列对比和进化树分析，以及基因的选择压力的计算，为实现泛基因组分析中更为高级的个性化分析奠定基础。

相比较现有技术，本发明的有益效果包括：

(1)通用性高；所使用的分析方法是基于OrthoMCL的聚类结果进行处理的，与泛基因组分析的对象无关；

(2)附加值高；基于OrthoMCL聚类结果可生成后续泛基因组分析所需文件，同时也可以根据实际项目中所需的数据提供有效接口，输出更多附加价值；

(3)易用性强；本发明方法简单，易于理解和使用，操作方便。

附图说明

图1为本发明的基于OrthoMCL聚类结果的快速分析方法的步骤流程图；

图2为实施例1的栓菌属的4554个单拷贝核心蛋白质序列中的39个同源蛋白质的聚类名称和数目统计；

图3为实施例1的栓均属9个物种的中同源蛋白质中单拷贝核心蛋白cluster10001对应在各物种的蛋白质序列；

图4为实施例2的非典型韦荣球菌的9个物种中特异性的蛋白质个数统计结果；

图5为实施例2的非典型韦荣球菌的9个物种中同源蛋白质cluster60对应在各物种的蛋白质序列；

图6为实施例3的牙龈卟啉单胞菌核心蛋白质的部分统计结果；

图7为牙龈卟啉单胞菌的66个物种中同源蛋白质cluster459对应在各物种的蛋白质序列。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

一种基于OrthoMCL聚类结果的快速分析方法，如图1所示，包括以下步骤：

步骤S3、根据OrthoMCL聚类参数对蛋白质进行分类，包括：

步骤S4、根据步骤S3的划分结果和步骤S1的物种核酸序列，输出分析结果，包括：

实施例1

本实施例提供了一种基于OrthoMCL的聚类结果分析9个栓菌属(Trametes)物种的蛋白质进行蛋白质的同源聚类及快速分析的方法，包括以下步骤：

步骤S1、从美国国立生物技术信息中心(NCBI)网站下载9个栓菌属物种的测序数据文件(包括核酸和蛋白质序列)，利用OrthoMCL聚类软件对9个栓菌属物种的蛋白序列进行蛋白质的同源聚类，OrthoMCL聚类软件可从https://orthomcl.org/orthomcl/下载，OrthoMCL对物种内蛋白质的同源性聚类操作以现有技术为准，在此不做赘述，获得OrthoMCL聚类结果；

步骤S2、设定泛基因组分析中所使用的物种个数为N＝9，统计OrthoMCL聚类结果中每个对应聚类文件的cluster中所包含的物种数N1和每个对应聚类文件的cluster中每个物种包含的蛋白质的个数m₁，m₂，m₃，.......，m₉；

步骤S3、根据OrthoMCL聚类结果对蛋白质进行分类，包括：

根据泛基因组学OrthoMCL聚类结果中核心蛋白质在物种中的分布特征：若该cluster中包含的物种数N1＝N＝9，这个cluster为泛基因组分析的核心蛋白质，输出该cluster文件；

根据泛基因组学OrthoMCL聚类结果中单拷贝核心蛋白质在物种中的分布特征：若该cluster中包含的物种数N1＝N＝9且m₁＝m₂＝m₃＝.......＝m₉＝1，这个cluster为泛基因组分析的单拷贝核心蛋白质，输出该cluster文件；

根据泛基因组学OrthoMCL聚类结果中非必需蛋白质质在物种中的分布特征：若该cluster中包含的物种数N1<N＝9且m₁，m₂，m₃，.......，m₉中至少有两个不为0，这个cluster为发基因组分析中的非必需蛋白质，输出该cluster文件；

根据泛基因组学OrthoMCL聚类结果中特异蛋白在物种中的分布特征：若该cluster中包含的物种数N1<N＝9且m₁，m₂，m₃，.......，m₉中有且只有一个为0，这个cluster为泛基因组分析的特异蛋白，输出该cluster文件；

上述步骤实现对OrthoMCL聚类结果中每个cluster的划分；

步骤S4、根据步骤S3的划分结果和进行泛基因组分析前的物种核酸序列，输出分析结果，包括：

各类蛋白质在每个cluster中的分布，即输出m₁，m₂，m₃，.......，m₉的值，从而实现各类蛋白质的数目统计；

本实施例的数据处理结果如附图2-3所示，图2为栓均属9个物种的4554个单拷贝核心蛋白质序列中的39个同源蛋白质的聚类名称和数目统计，图3为栓均属9个物种的中同源蛋白质中单拷贝核心蛋白cluster10001对应在各物种的蛋白质序列。基于9个栓菌属物种的OrthoMCL蛋白质聚类结果，使用本方法进行处理之后，可对栓菌属后续的泛基因组分析提供相应的文件。

实施例2

本实施例与实施例1的区别之处仅在于，泛基因组分析物种不一样。本实施例处理的文件是非典型韦荣球菌(Veillonella atypica)的9个菌株的OrthoMCL蛋白质聚类结果，结果如图4-5所示，图4为非典型韦荣球菌的9个物种中特异性的蛋白质个数统计结果，图5为非典型韦荣球菌的9个物种中同源蛋白质cluster60对应在各物种的蛋白质序列。基于9个非典型韦荣球菌属的OrthoMCL蛋白质聚类结果，使用本方法进行处理之后，可对非典型韦荣球菌属后续的泛基因组分析提供相应的文件。

实施例3

本实施例与实施例1的区别之处仅在于，泛基因组分析物种不一样。本实施例处理的文件是牙龈卟啉单胞菌(Porphyromonas gingivalis)的66个菌株的OrthoMCL蛋白质聚类结果，结果如图6-7所示，图6为牙龈卟啉单胞菌核心蛋白质的部分统计结果，图7为牙龈卟啉单胞菌的66个物种中同源蛋白质cluster459对应在各物种的蛋白质序列。基于66个牙龈卟啉单胞菌属的OrthoMCL蛋白质聚类结果，使用本方法进行处理之后，可对牙龈卟啉单胞菌属后续的泛基因组分析提供相应的文件。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于OrthoMCL聚类结果的快速分析方法，其特征在于，包括以下步骤：

步骤S2、设定泛基因组分析中所使用的物种个数为N，统计出OrthoMCL聚类结果中每个对应对应聚类文件的cluster中所包含的物种数N1和每个对应聚类文件的cluster中每个物种包含的蛋白质的个数m₁，m₂，m₃，……，m_N，获得OrthoMCL聚类参数；

步骤S3、根据OrthoMCL聚类参数对蛋白质进行分类；

步骤S4、根据步骤S3的分类结果和步骤S1的物种核酸序列，输出分析结果。

2.根据权利要求1所述的一种基于OrthoMCL聚类结果的快速分析方法，其特征在于，所述根据OrthoMCL聚类参数对蛋白质进行分类，包括：

根据泛基因组学OrthoMCL聚类结果中单拷贝核心蛋白质在物种中的分布特征：若该cluster中包含的物种数N1＝N且m₁＝m₂＝m₃＝……＝m_N＝1，这个cluster为泛基因组分析的单拷贝核心蛋白质，输出该cluster文件；

根据泛基因组学OrthoMCL聚类结果中非必需蛋白质质在物种中的分布特征：若该cluster中包含的物种数N1<N且m₁，m₂，m₃，……，m_N中至少有两个不为0，这个cluster为发基因组分析中的非必需蛋白质，输出该cluster文件；

根据泛基因组学OrthoMCL聚类结果中特异蛋白在物种中的分布特征：若该cluster中包含的物种数N1<N且m₁，m₂，m₃，……，m_N中有且只有一个为0，这个cluster为泛基因组分析的特异蛋白，输出该cluster文件。

3.根据权利要求1所述的一种基于OrthoMCL聚类结果的快速分析方法，其特征在于，所述输出分析结果，包括：

输出各类蛋白质在每个cluster中的分布，即输出m₁，m₂，m₃，……，m_N的值，实现各类蛋白质的数目统计；

输出各类蛋白质在每个cluster中的核酸序列，从而提供后续的泛基因组分析的输出文本。