CN110808085B - 一种基于OrthoMCL聚类结果的快速分析方法 - Google Patents

一种基于OrthoMCL聚类结果的快速分析方法 Download PDF

Info

Publication number
CN110808085B
CN110808085B CN201911044264.6A CN201911044264A CN110808085B CN 110808085 B CN110808085 B CN 110808085B CN 201911044264 A CN201911044264 A CN 201911044264A CN 110808085 B CN110808085 B CN 110808085B
Authority
CN
China
Prior art keywords
cluster
species
orthomcl
analysis
pan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911044264.6A
Other languages
English (en)
Other versions
CN110808085A (zh
Inventor
韩毛振
张雁
曹杰
汪栋
罗学才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Medical University
Original Assignee
Anhui Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Medical University filed Critical Anhui Medical University
Priority to CN201911044264.6A priority Critical patent/CN110808085B/zh
Publication of CN110808085A publication Critical patent/CN110808085A/zh
Application granted granted Critical
Publication of CN110808085B publication Critical patent/CN110808085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于OrthoMCL聚类结果的快速分析方法,属于比较基因组学和生物信息学领域,该方法以OrthoMCL聚类结果为基础,建立自动对泛基因组分析中各类蛋白的识别,包括所有代表性蛋白质、核心蛋白质、单拷贝核心蛋白质和物种特异性蛋白质。基于这些蛋白质各自的分类,对这些分类的蛋白质在各自物种中存在的个数进行统计,并按照类别将结果进行输出。该方法实现了对各种分类中蛋白质的代表性序列的输出以及各类蛋白在每个物种中的代表性序列的输出。此外,该方法也将蛋白质同源聚类结果按照每一个同源蛋白质对应的序列进行输出,为实现泛基因组分析中更为高级的个性化分析奠定基础。

Description

一种基于OrthoMCL聚类结果的快速分析方法
技术领域
本发明涉及比较基因组学和生物信息学领域,尤其涉及一种基于OrthoMCL聚类结果的快速分析方法。
背景技术
比较基因组学(Comparative Genomics)是从进化的角度分析不同物种的基因组数据,对已知的基因和基因组结构进行比较,从而解析基因的功能以及基因与疾病和表型之间的遗传学机制(
Figure BDA0002253704620000011
C.Setubal et al.,2017,Shilei Zhao et al.,2019)。随着测序技术的快速发展,特别是二代、三代测序技术的发展革新,众多物种的基因组已经测序完成,越来越多的物种都在种水平上有了多个样本的群体基因组数据。如何快速有效地对这些基因组测序数据进行比较分析,是目前比较基因组学研究中方法开发的一个主要研究领域。
目前在泛基因组的分析中一般涉及到以下几个方面的内容:同源蛋白质的聚类分析、对同源蛋白质聚类结果的分析、蛋白质的建树和进化分析、蛋白质的功能注释(包括但不限于碳水化合物功能的注释(CAZyme)、蛋白质功能的注释(COG和GO注释)和代谢途径的注释(KEGG pathway)等)。在已开发的泛基因组分析工具中,已经有PGAP(Yongbing Zhaoet al.,2011)和EDGAR(J.Yu et al.,2017)和panX(Wei Ding et al.,2018)等工具。这些工具实现了泛基因组分析中所需的绝大部分内容,但是输出结果一般是经过高度整合之后的。正是由于缺少对应的中间过程文件,特别是对蛋白质的同源聚类结果及其相应的统计文件和蛋白质序列文件,使得泛基因组分析中所需的个性化分析难以开展。因此,如何快速有效地对泛基因组分析中蛋白质的同源聚类结果进行分析和统计,并对相应的蛋白质进行分类(主要涉及到泛基因组分析中的核心蛋白质、单拷贝核心蛋白质、非必需蛋白质和特异性蛋白质)输出相对应的代表性的蛋白质序列,为后续的分析提供输入文件是实现泛基因组分析中的个性化分析的重要前提。但是目前也没有专门的方法可供使用,开发此类方法是必要的。
在泛基因组分析中,实现物种内所有蛋白质的同源聚类是进行后续分析的基础。目前相应的工具就包括OrthoMCL(https://orthomcl.org/orthomcl/),BLAST和Diamond(Wei Ding et al.,2018)等。其中OrthoMCL在泛基因组分析中是用来寻找直系同源基因和旁系同源基因,其使用具有详细的教程,易上手,是目前泛基因组分析中使用较为广泛的工具。其输出结果所包含的同源聚类结果也较为系统和全面,是实现对泛基因组分析中确定各蛋白质分类的基础文件。
基于以上原因,为了实现对泛基因组分析中更多高级的个性化分析,需要建立对蛋白质聚类结果的快速有效处理。因此针对泛基因组中的蛋白质聚类结果非常有必要运用比较基因组学和生物信息学的使用,提供一种针对OrthoMCL聚类结果,实现对其快速有效的分析方法。
发明内容
为了解决以上问题,本发明提出一种基于OrthoMCL聚类结果的快速分析方法,以解决现有技术没有专门针对泛基因组分析中蛋白质的同源聚类结果进行分析和统计、对相应蛋白质进行快速分类、并输出对应代表性蛋白质序列的方法。
本发明采用以下技术方案来实现:
本发明提供了一种基于OrthoMCL聚类结果的快速分析方法,包括以下步骤:
步骤S1、获取待分析的各个物种的核酸序列和蛋白质序列,利用OrthoMCL聚类分析软件对待分析的所有物种的蛋白质序列进行同源性聚类,并输出OrthoMCL聚类结果;
步骤S2、设定泛基因组分析中所使用的物种个数为N,统计出OrthoMCL聚类结果中每个对应对应聚类文件的cluster中所包含的物种数N1和每个对应聚类文件的cluster中每个物种包含的蛋白质的个数m1,m2,m3,......,mN,获得OrthoMCL聚类参数;
步骤S3、根据OrthoMCL聚类参数对蛋白质进行分类;
步骤S4、根据步骤S3的划分结果和步骤S1的物种核酸序列,输出分析结果。
作为本发明进一步的优化方案,所述根据OrthoMCL聚类参数对蛋白质进行分类,包括:
根据泛基因组学OrthoMCL聚类结果中核心蛋白质在物种中的分布特征:若该cluster中包含的物种数N1=N,这个cluster为泛基因组分析的核心蛋白质,输出该cluster文件;
根据泛基因组学OrthoMCL聚类结果中单拷贝核心蛋白质在物种中的分布特征:若该cluster中包含的物种数N1=N且m1=m2=m3=.......=mN=1,这个cluster为泛基因组分析的单拷贝核心蛋白质,输出该cluster文件;
根据泛基因组学OrthoMCL聚类结果中非必需蛋白质质在物种中的分布特征:若该cluster中包含的物种数N1<N且m1,m2,m3,.......,mN中至少有两个不为0,这个cluster为发基因组分析中的非必需蛋白质,输出该cluster文件;
根据泛基因组学OrthoMCL聚类结果中特异蛋白在物种中的分布特征:若该cluster中包含的物种数N1<N且m1,m2,m3,.......,mN中有且只有一个为0,这个cluster为泛基因组分析的特异蛋白,输出该cluster文件;
作为本发明进一步的优化方案,所述输出分析结果,包括:
输出各类蛋白质在每个cluster中的分布,即输出m1,m2,m3,......,mN的值,从而实现各类蛋白质的数目统计;
输出各类蛋白质在每个cluster中的核酸序列,包括单拷贝核心蛋白质的序列,从而提供后续的泛基因组分析的输出文本。
该方法可以对目前泛基因组分析中主要的分析内容所需的文件进行输出,且经本发明处理得到的核酸和蛋白质输出文件,可以直接作为后续泛基因组分析个性化分析所需的输入文件,无需经过其它处理。
本发明以OrthoMCL聚类结果为基础,建立自动对泛基因组分析中各类蛋白的识别,包括所有代表性蛋白质、核心蛋白质、单拷贝核心蛋白质和物种特异性蛋白质。基于这些蛋白质各自的分类,对这些分类的蛋白质在各自物种中存在的个数进行统计,并按照类别将结果进行输出。该方法实现了对各种分类中蛋白质的代表性序列的输出以及各类蛋白在每个物种中的代表性序列的输出。此外,该方法也将蛋白质同源聚类结果按照每一个同源蛋白质对应的序列进行输出,特别是对单拷贝核心蛋白质序列的输出,以便实现后续泛基因组分析中单拷贝蛋白质的多序列对比和进化树分析,以及基因的选择压力的计算,为实现泛基因组分析中更为高级的个性化分析奠定基础。
相比较现有技术,本发明的有益效果包括:
(1)通用性高;所使用的分析方法是基于OrthoMCL的聚类结果进行处理的,与泛基因组分析的对象无关;
(2)附加值高;基于OrthoMCL聚类结果可生成后续泛基因组分析所需文件,同时也可以根据实际项目中所需的数据提供有效接口,输出更多附加价值;
(3)易用性强;本发明方法简单,易于理解和使用,操作方便。
附图说明
图1为本发明的基于OrthoMCL聚类结果的快速分析方法的步骤流程图;
图2为实施例1的栓菌属的4554个单拷贝核心蛋白质序列中的39个同源蛋白质的聚类名称和数目统计;
图3为实施例1的栓均属9个物种的中同源蛋白质中单拷贝核心蛋白cluster10001对应在各物种的蛋白质序列;
图4为实施例2的非典型韦荣球菌的9个物种中特异性的蛋白质个数统计结果;
图5为实施例2的非典型韦荣球菌的9个物种中同源蛋白质cluster60对应在各物种的蛋白质序列;
图6为实施例3的牙龈卟啉单胞菌核心蛋白质的部分统计结果;
图7为牙龈卟啉单胞菌的66个物种中同源蛋白质cluster459对应在各物种的蛋白质序列。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
一种基于OrthoMCL聚类结果的快速分析方法,如图1所示,包括以下步骤:
步骤S1、获取待分析的各个物种的核酸序列和蛋白质序列,利用OrthoMCL聚类分析软件对待分析的所有物种的蛋白质序列进行同源性聚类,并输出OrthoMCL聚类结果;
步骤S2、设定泛基因组分析中所使用的物种个数为N,统计出OrthoMCL聚类结果中每个对应对应聚类文件的cluster中所包含的物种数N1和每个对应聚类文件的cluster中每个物种包含的蛋白质的个数m1,m2,m3,......,mN,获得OrthoMCL聚类参数;
步骤S3、根据OrthoMCL聚类参数对蛋白质进行分类,包括:
根据泛基因组学OrthoMCL聚类结果中核心蛋白质在物种中的分布特征:若该cluster中包含的物种数N1=N,这个cluster为泛基因组分析的核心蛋白质,输出该cluster文件;
根据泛基因组学OrthoMCL聚类结果中单拷贝核心蛋白质在物种中的分布特征:若该cluster中包含的物种数N1=N且m1=m2=m3=.......=mN=1,这个cluster为泛基因组分析的单拷贝核心蛋白质,输出该cluster文件;
根据泛基因组学OrthoMCL聚类结果中非必需蛋白质质在物种中的分布特征:若该cluster中包含的物种数N1<N且m1,m2,m3,.......,mN中至少有两个不为0,这个cluster为发基因组分析中的非必需蛋白质,输出该cluster文件;
根据泛基因组学OrthoMCL聚类结果中特异蛋白在物种中的分布特征:若该cluster中包含的物种数N1<N且m1,m2,m3,.......,mN中有且只有一个为0,这个cluster为泛基因组分析的特异蛋白,输出该cluster文件;
步骤S4、根据步骤S3的划分结果和步骤S1的物种核酸序列,输出分析结果,包括:
输出各类蛋白质在每个cluster中的分布,即输出m1,m2,m3,......,mN的值,从而实现各类蛋白质的数目统计;
输出各类蛋白质在每个cluster中的核酸序列,包括单拷贝核心蛋白质的序列,从而提供后续的泛基因组分析的输出文本。
该方法可以对目前泛基因组分析中主要的分析内容所需的文件进行输出,且经本发明处理得到的核酸和蛋白质输出文件,可以直接作为后续泛基因组分析个性化分析所需的输入文件,无需经过其它处理。
实施例1
本实施例提供了一种基于OrthoMCL的聚类结果分析9个栓菌属(Trametes)物种的蛋白质进行蛋白质的同源聚类及快速分析的方法,包括以下步骤:
步骤S1、从美国国立生物技术信息中心(NCBI)网站下载9个栓菌属物种的测序数据文件(包括核酸和蛋白质序列),利用OrthoMCL聚类软件对9个栓菌属物种的蛋白序列进行蛋白质的同源聚类,OrthoMCL聚类软件可从https://orthomcl.org/orthomcl/下载,OrthoMCL对物种内蛋白质的同源性聚类操作以现有技术为准,在此不做赘述,获得OrthoMCL聚类结果;
步骤S2、设定泛基因组分析中所使用的物种个数为N=9,统计OrthoMCL聚类结果中每个对应聚类文件的cluster中所包含的物种数N1和每个对应聚类文件的cluster中每个物种包含的蛋白质的个数m1,m2,m3,.......,m9
步骤S3、根据OrthoMCL聚类结果对蛋白质进行分类,包括:
根据泛基因组学OrthoMCL聚类结果中核心蛋白质在物种中的分布特征:若该cluster中包含的物种数N1=N=9,这个cluster为泛基因组分析的核心蛋白质,输出该cluster文件;
根据泛基因组学OrthoMCL聚类结果中单拷贝核心蛋白质在物种中的分布特征:若该cluster中包含的物种数N1=N=9且m1=m2=m3=.......=m9=1,这个cluster为泛基因组分析的单拷贝核心蛋白质,输出该cluster文件;
根据泛基因组学OrthoMCL聚类结果中非必需蛋白质质在物种中的分布特征:若该cluster中包含的物种数N1<N=9且m1,m2,m3,.......,m9中至少有两个不为0,这个cluster为发基因组分析中的非必需蛋白质,输出该cluster文件;
根据泛基因组学OrthoMCL聚类结果中特异蛋白在物种中的分布特征:若该cluster中包含的物种数N1<N=9且m1,m2,m3,.......,m9中有且只有一个为0,这个cluster为泛基因组分析的特异蛋白,输出该cluster文件;
上述步骤实现对OrthoMCL聚类结果中每个cluster的划分;
步骤S4、根据步骤S3的划分结果和进行泛基因组分析前的物种核酸序列,输出分析结果,包括:
各类蛋白质在每个cluster中的分布,即输出m1,m2,m3,.......,m9的值,从而实现各类蛋白质的数目统计;
输出各类蛋白质在每个cluster中的核酸序列,包括单拷贝核心蛋白质的序列,从而提供后续的泛基因组分析的输出文本。
本实施例的数据处理结果如附图2-3所示,图2为栓均属9个物种的4554个单拷贝核心蛋白质序列中的39个同源蛋白质的聚类名称和数目统计,图3为栓均属9个物种的中同源蛋白质中单拷贝核心蛋白cluster10001对应在各物种的蛋白质序列。基于9个栓菌属物种的OrthoMCL蛋白质聚类结果,使用本方法进行处理之后,可对栓菌属后续的泛基因组分析提供相应的文件。
实施例2
本实施例与实施例1的区别之处仅在于,泛基因组分析物种不一样。本实施例处理的文件是非典型韦荣球菌(Veillonella atypica)的9个菌株的OrthoMCL蛋白质聚类结果,结果如图4-5所示,图4为非典型韦荣球菌的9个物种中特异性的蛋白质个数统计结果,图5为非典型韦荣球菌的9个物种中同源蛋白质cluster60对应在各物种的蛋白质序列。基于9个非典型韦荣球菌属的OrthoMCL蛋白质聚类结果,使用本方法进行处理之后,可对非典型韦荣球菌属后续的泛基因组分析提供相应的文件。
实施例3
本实施例与实施例1的区别之处仅在于,泛基因组分析物种不一样。本实施例处理的文件是牙龈卟啉单胞菌(Porphyromonas gingivalis)的66个菌株的OrthoMCL蛋白质聚类结果,结果如图6-7所示,图6为牙龈卟啉单胞菌核心蛋白质的部分统计结果,图7为牙龈卟啉单胞菌的66个物种中同源蛋白质cluster459对应在各物种的蛋白质序列。基于66个牙龈卟啉单胞菌属的OrthoMCL蛋白质聚类结果,使用本方法进行处理之后,可对牙龈卟啉单胞菌属后续的泛基因组分析提供相应的文件。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (3)

1.一种基于OrthoMCL聚类结果的快速分析方法,其特征在于,包括以下步骤:
步骤S1、获取待分析的各个物种的核酸序列和蛋白质序列,利用OrthoMCL聚类分析软件对待分析的所有物种的蛋白质序列进行同源性聚类,并输出OrthoMCL聚类结果;
步骤S2、设定泛基因组分析中所使用的物种个数为N,统计出OrthoMCL聚类结果中每个对应对应聚类文件的cluster中所包含的物种数N1和每个对应聚类文件的cluster中每个物种包含的蛋白质的个数m1,m2,m3,……,mN,获得OrthoMCL聚类参数;
步骤S3、根据OrthoMCL聚类参数对蛋白质进行分类;
步骤S4、根据步骤S3的分类结果和步骤S1的物种核酸序列,输出分析结果。
2.根据权利要求1所述的一种基于OrthoMCL聚类结果的快速分析方法,其特征在于,所述根据OrthoMCL聚类参数对蛋白质进行分类,包括:
根据泛基因组学OrthoMCL聚类结果中核心蛋白质在物种中的分布特征:若该cluster中包含的物种数N1=N,这个cluster为泛基因组分析的核心蛋白质,输出该cluster文件;
根据泛基因组学OrthoMCL聚类结果中单拷贝核心蛋白质在物种中的分布特征:若该cluster中包含的物种数N1=N且m1=m2=m3=……=mN=1,这个cluster为泛基因组分析的单拷贝核心蛋白质,输出该cluster文件;
根据泛基因组学OrthoMCL聚类结果中非必需蛋白质质在物种中的分布特征:若该cluster中包含的物种数N1<N且m1,m2,m3,……,mN中至少有两个不为0,这个cluster为发基因组分析中的非必需蛋白质,输出该cluster文件;
根据泛基因组学OrthoMCL聚类结果中特异蛋白在物种中的分布特征:若该cluster中包含的物种数N1<N且m1,m2,m3,……,mN中有且只有一个为0,这个cluster为泛基因组分析的特异蛋白,输出该cluster文件。
3.根据权利要求1所述的一种基于OrthoMCL聚类结果的快速分析方法,其特征在于,所述输出分析结果,包括:
输出各类蛋白质在每个cluster中的分布,即输出m1,m2,m3,……,mN的值,实现各类蛋白质的数目统计;
输出各类蛋白质在每个cluster中的核酸序列,从而提供后续的泛基因组分析的输出文本。
CN201911044264.6A 2019-10-30 2019-10-30 一种基于OrthoMCL聚类结果的快速分析方法 Active CN110808085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911044264.6A CN110808085B (zh) 2019-10-30 2019-10-30 一种基于OrthoMCL聚类结果的快速分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911044264.6A CN110808085B (zh) 2019-10-30 2019-10-30 一种基于OrthoMCL聚类结果的快速分析方法

Publications (2)

Publication Number Publication Date
CN110808085A CN110808085A (zh) 2020-02-18
CN110808085B true CN110808085B (zh) 2023-03-21

Family

ID=69489766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911044264.6A Active CN110808085B (zh) 2019-10-30 2019-10-30 一种基于OrthoMCL聚类结果的快速分析方法

Country Status (1)

Country Link
CN (1) CN110808085B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785900A (zh) * 2018-12-12 2019-05-21 上海派森诺生物科技股份有限公司 一种基于蛋白序列相似度的微生物群落功能基因分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150284796A1 (en) * 2014-04-03 2015-10-08 The Penn State Research Foundation Method to Identify Genes Relating to Improved Pathogen Resistance in Plants

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785900A (zh) * 2018-12-12 2019-05-21 上海派森诺生物科技股份有限公司 一种基于蛋白序列相似度的微生物群落功能基因分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
果细菌性角斑病病原菌XC01菌株的全基因组测序及序列分析;柳凤等;《果树学报》(第10期);全文 *
海洋蛭弧菌DA5全基因组测序及序列分析;陆友云等;《热带海洋学报》(第06期);全文 *

Also Published As

Publication number Publication date
CN110808085A (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
US20230357842A1 (en) Systems and methods for mitochondrial analysis
Numanagić et al. Fast characterization of segmental duplications in genome assemblies
Fonseca et al. Tools for mapping high-throughput sequencing data
Guo et al. SeqMule: automated pipeline for analysis of human exome/genome sequencing data
Shajii et al. Fast genotyping of known SNPs through approximate k-mer matching
Rana et al. Comparison of de novo transcriptome assemblers and k-mer strategies using the killifish, Fundulus heteroclitus
US20140052383A1 (en) Systems and methods for identifying a contributor&#39;s str genotype based on a dna sample having multiple contributors
US20190177719A1 (en) Method and System for Generating and Comparing Reduced Genome Data Sets
Eggenhofer et al. RNAlien–unsupervised RNA family model construction
CN111192630A (zh) 一种宏基因组数据挖掘方法
Tárraga et al. A parallel and sensitive software tool for methylation analysis on multicore platforms
CN110808085B (zh) 一种基于OrthoMCL聚类结果的快速分析方法
Sadreyev et al. COMPASS server for remote homology inference
Mirchandani et al. A fast, reproducible, high-throughput variant calling workflow for evolutionary, ecological, and conservation genomics
Inoue et al. dbCNS: a new database for conserved noncoding sequences
Nickel et al. Human PAML browser: a database of positive selection on human genes using phylogenetic methods
Heyduk et al. Targeted DNA region re-sequencing
Mořkovský et al. Scrimer: designing primers from transcriptome data
RU2804535C1 (ru) Система обработки данных полногеномного секвенирования
Schwartz et al. High-throughput yeast strain sequencing
Glick et al. Plant pan-genomes are highly vulnerable to methodological considerations
RU2806429C1 (ru) Способ обработки данных полногеномного секвенирования
Kamarudin et al. A Review of Bioinformatics Model and Computational Software of Next Generation Sequencing
Liang et al. WebTraceMiner: a web service for processing and mining EST sequence trace files
Chowdhury et al. An optimized approach for annotation of large eukaryotic genomic sequences using genetic algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant