CN109493918A - 一种生物数据管理及系统发育分析流程化方法 - Google Patents

一种生物数据管理及系统发育分析流程化方法 Download PDF

Info

Publication number
CN109493918A
CN109493918A CN201811399843.8A CN201811399843A CN109493918A CN 109493918 A CN109493918 A CN 109493918A CN 201811399843 A CN201811399843 A CN 201811399843A CN 109493918 A CN109493918 A CN 109493918A
Authority
CN
China
Prior art keywords
sequence
phylogenetic
file
gene
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811399843.8A
Other languages
English (en)
Other versions
CN109493918B (zh
Inventor
张金
张东
王桂堂
李文祥
邹红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Transduction Wuhan Biotechnology Co ltd
Institute of Hydrobiology of CAS
Original Assignee
Transduction Wuhan Biotechnology Co ltd
Institute of Hydrobiology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Transduction Wuhan Biotechnology Co ltd, Institute of Hydrobiology of CAS filed Critical Transduction Wuhan Biotechnology Co ltd
Priority to CN201811399843.8A priority Critical patent/CN109493918B/zh
Publication of CN109493918A publication Critical patent/CN109493918A/zh
Application granted granted Critical
Publication of CN109493918B publication Critical patent/CN109493918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于生物信息分析技术领域,公开了一种生物数据管理及系统发育分析流程化方法,利用界面软件将生物数据处理以及系统发育分析流程的7个程序整合在一起,无需编程技巧,界面直观友好,配备文件拖拽、界面记忆、一键升级、插件管理和程序进度条功能;同时给MAFFT比对程序新增了密码子比对功能,以解决蛋白基因核苷酸序列的比对问题。本发明的批量操作功能可以节省大量的操作时间以及耗费的精力,结合多基因联合建树功能,可满足大数据分析和系统基因组学的需求;本发明首次提供全面的线粒体基因组生物信息学分析,相较于传统的分析方法,可节约99%的时间。

Description

一种生物数据管理及系统发育分析流程化方法
技术领域
本发明属于生物信息分析技术领域,尤其涉及一种生物数据管理及系统发育分析流程化方法。
背景技术
目前,业内常用的现有技术是这样的:
随着测序技术的提高,开放数据库(如GenBank数据库)中生物序列的数据量高速增长,这使得越来越多的进化生物学者想要利用这些数据进行系统发育分析。这包括两大步骤,一是生物数据的处理,二是一系列系统发育分析流程(包括序列比对、比对序列优化、序列串联、系统发育模型选择以及系统发育树的构建等)。庞大、繁琐的生物数据需要利用编程语言来处理,而系统发育分析流程所用的原生工具基本都是命令行操作程序。因此不少生物学者不得不学习繁琐的DOS命令行操作(windows)以及编程技术,以至于压缩了钻研科学问题的时间。有关生物序列(主要是GenBank文件)处理的程序包括网页工具FeatureExtract(只能提取特征序列,提取结果需要进一步整理才能加以使用)和EXTRACTSEQ(只能根据索引提取序列)、界面工具TBtools(只能提取注释信息,并且只有部分信息)、Python模块BioPython(提取特征序列以及注释信息,需编程知识)和Perl模块BioPerl(提取特征序列以及注释信息,需编程知识)以及一些零散脚本等。有关系统发育流程化分析的工具包括网页工具Phylogeny.fr(无法多基因分区建树、无法密码子比对、数据量有限制)和Galaxy Workflow(仅支持RAxML分区建树而不支持PartitionFinder2选择最优分区策略、无法密码子比对)等,本地界面软件phyloGenerator(无法多基因分区建树、无法密码子比对、无法自由选择进化模型)、Armadillo(无法多基因分区建树、无法密码子比对、建树软件速度慢无法适应大数据)等,命令行运行程序MitoPhAST(仅支持线粒体基因组的提取并建树,并且无法构建贝叶斯树,需要学习命令行操作)、HomBlocks(主要支持细胞器基因组数据分析、仅提供比对文件而无法建树、需要学习命令行操作)。
综上所述,现有技术存在的问题是:
虽然已经有不少针对生物数据处理和系统发育分析流程的工具出现,但是它们存在以下缺陷:①生物序列注释存在着错误或是基因名字不统一,缺少一个生物序列标准化工具;②已有的一些生物序列处理工具功能比较局限,无法灵活提取需要的信息并应用于下游分析;③基于命令行操作的生物数据处理以及系统发育流程化工具需要生物学家花费额外时间学习命令行操作以及编程知识,因而无法通用;④缺少工具将生物数据处理以及系统发育分析流程联系起来,大多系统发育分析流程产生的中间结果杂乱缺乏管理,并对下游分析支持不好;⑤大多数系统发育分析流程化工具对多基因联合建树支持不好,无法适应现在大数据分析以及系统基因组学的潮流;⑥某些常用的系统发育分析命令行工具功能不完善,如比对软件MAFFT缺乏密码子比对功能,并且无法多文件批量操作;⑦已有的系统发育分析流程化工具忽略了系统发育树注释或者注释效果不好,导致系统发育树可读性差;⑧线粒体基因组作为系统发育分析中最常用的细胞器基因组,还未有针对该基因组全面的生物信息学分析工具。
解决上述技术问题的难度和意义:
难度:需要一定编程知识的积累、需要熟知系统发育流程中各个程序的功能以及对系统发育分析理论有较深的理解
意义:让零编程基础的生物学者有更多的时间思考科学问题而不是折腾数据
发明内容
针对现有技术存在的问题,本发明提供了一种生物数据管理及系统发育分析流程化方法。
本发明是这样实现的,一种生物数据管理及系统发育分析流程化方法,包括:
利用界面软件将生物序列管理以及系统发育分析流程的7个程序整合在一起,并配备文件拖拽、界面记忆、一键升级、插件管理和程序进度条功能;同时给MAFFT比对程序新增蛋白基因核苷酸序列的密码子比对功能,还支持批量操作和多基因联合建树,以适应大数据分析以及系统基因组学的需求。
进一步,生物序列管理方法包括:
1)GenBank文件管理,GenBank文件包括:第一部分,关于整个记录的描述符;第二部分,注释整个记录的特性;第三部分,核苷酸序列自身;利用序列标准化功能进行GenBank文件管理;提取的描述符的信息用于统计分析以及后期系统发育树的注释,基因序列用于系统发育分析流程或者其他生物信息分析;
2)生物序列注释WORD文件管理,将序列的注释记录在WORD文件;将序列复制到WORD文档里,然后用WORD的批注功能将各基因的序列标注出来;并自动识别注释信息,调用tbl2asn命令行程序生成SQN文件、GenBank文件和序列的基因组成表;
3)序列文件管理,序列文件包括FASTA、PHYLIP和NEXUS格式的文件,用碱基或氨基酸残基颜色可视化序列以便修改,包括编辑、删除、剪切、复制、粘贴和反向互补序列。
进一步,系统发育分析流程包括:
1)序列比对,通过确定各序列位点之间匹配、替换及插入或缺失发生位置建立同源分子之间位点同源关系;通过整合速度与准确性兼并的MAFFT命令行程序实现序列比对功能;并且在MAFFT自带功能的基础上,新增多文件批量比对和密码子比对;
2)比对序列优化,对比对好的序列进行修剪,删除高变区,保留保守区,增加序列的信噪比;通过整合Gblocks命令行程序实现比对序列优化功能,并新增多文件批量操作;
3)序列串联,将多个比对好的单基因数据集串联成为一个联合数据集,以实现多基因联合建树;运用python编程,将各基因的文本序列连接在一起,并记录每个基因的位置,供后续模型选择以及系统发育树构建软件使用;
4)系统发生模型选择,采用数学方法描述系统发生的随机模型;通过整合PartitionFinder2以及ModelFinder命令行程序实现系统发生模型选择;
5)系统发育树构建,描述基因、个体、种群、物种或种上高级阶元之间系统发生关系假说的树状图;通过整合基于最大似然法的IQ-TREE和基于贝叶斯系统发生推论法的MrBayes命令行程序实现系统发育树的构建;
6)系统发育树注释,给系统树加入除分支型式、分枝长度和分支支持度等系统发生分析基本功能以外的其他生物学信息,包括标记分类单元、映射条形图与线粒体基因组的基因顺序等,通过联合强大的网页版系统发育树注释工具iTOL来实现系统发育树注释功能;
7)工作流,
将所有系统发育分析流程的程序联合在一起(除系统发育树注释以外),进行系统发育分析,以简化操作步骤。利用本发明新增的转化上游程序结果作为下游程序输入文件的功能,实现一次操作完成所有系统发育分析流程的功能。
进一步,步骤4)中,系统发生模型选择包括:
PartitionFinder2,适用于多基因联合数据集的最优分区策略以及进化模型选择;与序列串联功能联系起来,直接识别后者的结果文件,利用python编程转换为前者所需的配置文件;
ModelFinder,适用于单基因数据集模型选择或多基因联合数据集的最优分区策略以及进化模型选择;与序列串联功能联系起来,让作为下游分析的ModelFinder直接利用序列串联的结果进行模型选择。
进一步,步骤5)系统发育树构建,包括:
IQ-TREE,与系统发生模型选择功能联系起来,前者直接读取后者结果中的最优模型,进行系统发育树的构建;
MrBayes,与系统发生模型选择功能联系起来,让作为下游分析的MrBayes直接调用选择的最优模型进行系统发育树构建。
进一步,所述的生物数据管理及系统发育分析流程化方法进一步包括:
进行线粒体基因组生物信息学分析;计算基因组间各同源基因的两两相似性,绘制相对同义密码子使用频率堆积条形图;基因组统计包括核苷酸组成和偏倚、各蛋白基因起始终止密码子以及相对同义密码子使用频率RSCU、氨基酸使用频率和基因组组成表。
本发明的另一目的在于提供一种实现所述生物数据管理及系统发育分析流程化方法的计算机程序。
本发明的另一目的在于提供一种实现所述生物数据管理及系统发育分析流程化方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述生物数据管理及系统发育分析流程化方法。
综上所述,本发明的优点及积极效果为:
与现有的工具相比,本发明利用界面软件将生物数据处理以及系统发育分析流程的7个程序整合在一起,无需编程技巧,界面直观友好,并配备文件拖拽、界面记忆、一键升级、插件管理和程序进度条等实用功能。同时给MAFFT比对程序新增了密码子比对功能,以解决蛋白基因核苷酸序列的比对问题。
本发明的批量操作功能可以节省大量的操作时间以及耗费的精力,如线粒体基因组的13个蛋白基因,在使用MAFFT进行序列比对和Gblocks比对优化的时候,各需要操作13次,而本发明的批量操作各只需要一次。
本发明提供更全面的GenBank文件管理,更丰富的信息提取(表1),整理的提取结果对下游分析支持更友好(图3)。
本发明既支持独立使用各程序,也支持联合各程序进行快速系统发育分析。并提供智能转换上游程序的结果作为下游程序输入文件的功能,省去为各个程序准备输入文件的时间。
本发明满足大数据分析以及系统基因组学的需求,支持批量操作以及多基因联合建树,整合针对大数据与系统基因组学开发的IQ-TREE软件,弥补了现有技术的缺陷(表2)。
本发明首创联合强大的系统发育树美化软件iTOL,将生物数据处理获得的信息对系统发育树进行注释,大大增加了系统发育树的可读性(图4和图5)。
本发明首创转换生物数据的WORD注释文件为上传NCBI数据库所需文件,为序列的注释以及上传公共数据库提供了新的思路,特别适合电脑知识比较欠缺的生物学者。
本发明首次提供全面的线粒体基因组生物信息学分析,相较于传统的分析方法,可节约99%的时间。
附图说明
图1是本发明实施例提供的生物数据管理及系统发育分析流程化方法流程图。
图2是本发明实施例提供的线粒体基因组相对同义密码子使用频率堆积条形图。
图3是本发明实施例提供的GenBank文件提取结果展示图。
图4是本发明实施例提供的系统发育树注释功能的标记不同分类单元展示图。
图5是本发明实施例提供的系统发育树注释功能的映射线粒体基因顺序展示图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术中,生物序列注释存在着错误或是基因名字不统一,缺少一个生物序列标准化工具;大多数生物数据处理工具不完善或是基于编程语言编写的零散脚本,只能实现部分特殊功能而无法通用;脚本工具大多都要求一定的编程基础,对生物学者来说比较困难。而系统发育流程化分析的技术中,主要是针对单基因或者小数据,无法满足越来越迫切的大数据和系统基因组学的需求。
本发明利用界面软件将生物数据处理以及系统发育分析流程的7个程序整合在一起,无需编程技巧,界面直观友好,配备文件拖拽、界面记忆、一键升级、插件管理和程序进度条功能;同时给MAFFT比对程序新增了密码子比对功能,以解决蛋白基因核苷酸序列的比对问题。本发明的批量操作功能可以节省大量的操作时间以及耗费的精力,结合多基因联合建树功能,可满足大数据分析和系统基因组学的需求;本发明为生物序列的注释以及上传公共数据库提供了新的思路,特别适合电脑知识比较欠缺的生物学者;本发明首次提供全面的线粒体基因组生物信息学分析,相较于传统的分析方法,可节约99%的时间。
下面结合具体分析对本发明的应用作进一步描述。
如图1,本发明实施例提供的生物数据管理及系统发育分析流程化方法,采用PyQT编写界面软件,python编写逻辑代码,主要将生物序列管理以及系统发育分析流程两大板块结合在一起。生物序列管理包括对GenBank文件、生物序列注释WORD文件和序列文件的管理。系统发育分析流程包括序列的比对、比对序列优化、序列串联(多基因)、系统发生模型选择、系统发育树的构建以及系统发育树的注释。
下面结合具体实施例对本发明的应用作进一步描述。
1.生物序列管理
1.1GenBank文件
GenBank文件可以分成三个部分,头部包含关于整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第三部分是核苷酸序列自身。由于数据量庞大,GenBank数据不可避免的存在一些错误注释(如分类学单元错误、基因名字不完整)以及基因名字不统一,本发明提供的序列标准化功能可以解决这些问题。本发明支持提取描述符的信息以及各部分基因序列,描述符的信息可用于统计分析以及后期系统发育树的注释,基因序列可用于系统发育分析流程或者其他生物信息分析。
1.2生物序列注释WORD文件
该功能适用于将序列的注释记录在WORD文件的情况(见下表)。只需将序列复制到WORD文档里,然后用WORD的批注功能将各基因的序列标注出来即可。本发明支持自动识别注释信息,并调用tbl2asn命令行程序生成SQN文件(上传NCBI)、GenBank文件(生信分析)和序列的基因组成表(统计分析)。
1.3序列文件
包括FASTA、PHYLIP和NEXUS格式的文件。本发明支持用碱基或氨基酸残基颜色可视化序列,并支持修改序列,包括编辑、删除、剪切、复制、粘贴序列和反向互补等。
2.系统发育分析流程
2.1序列比对
序列比对是生物信息学的基本组成和重要基础,是通过确定各序列位点之间匹配、替换及插入或缺失发生位置来建立同源分子之间位点同源关系的过程。本发明通过整合速度与准确性兼并的MAFFT命令行程序实现序列比对功能。并且在MAFFT自带功能的基础上,新增2个功能:多文件批量比对和密码子比对(适用于蛋白基因核苷酸序列)。操作步骤为:导入序列文件→设置界面参数→开始运行→生成结果以及所用材料方法描述。
2.2比对序列优化
比对序列优化是指对比对好的序列进行修剪,删除高变区,保留保守区,以达到增加序列的信噪比的目的。本发明通过整合Gblocks命令行程序实现比对序列优化功能,并新增多文件批量操作。操作步骤为:导入比对好的序列文件(可使用2.1步骤的结果)→设置界面参数→开始运行→生成结果以及所用材料方法描述。
2.3序列串联
该功能可以将多个比对好的单基因数据集(核苷酸或氨基酸序列)串联成为一个联合数据集,以达到多基因联合建树的目的。本发明运用python编程,将各基因的文本序列连接在一起,并记录每个基因的位置,以供后续模型选择以及系统发育树构建软件使用。操作步骤为:导入比对好的序列文件(可使用2.1或者2.2步骤的结果)→设置界面参数→开始运行→生成结果。
2.4系统发生模型选择
系统发生模型(phylogenetic model)是采用数学方法描述系统发生(系统树)的随机模型。系统发生模型可以帮助我们理解大进化的过程与型式,同时也可以作为系统树的零假设进行系统发生假设的统计学检验。本发明通过整合PartitionFinder2以及ModelFinder命令行程序实现系统发生模型选择。
2.4.1PartitionFinder2
PartitionFinder2主要适用于多基因联合数据集(核苷酸或氨基酸序列)的最优分区策略以及进化模型选择。本发明将此功能与序列串联功能联系起来,可直接识别后者的结果文件,利用python编程将其转换为前者所需的配置文件。操作步骤为:导入串联好的多基因序列及其位置索引(可使用2.3步骤的结果)→设置界面参数→开始运行→生成结果以及所用材料方法描述。
2.4.1ModelFinder
ModelFinder是近些年兴起的模型选择软件,在速度与准确性方面均有着明显的优势。相对于其他模型选择软件而言,它支持的模型更全面,即可对单基因数据集进行模型选择也可以进行多基因联合数据集的最优分区策略以及进化模型选择。本发明也将此功能与序列串联功能联系起来,让作为下游分析的ModelFinder可以直接利用序列串联的结果进行模型选择。操作步骤为:导入比对好的序列或串联好的多基因序列及其位置索引(可使用2.1、2.2和2.3步骤的结果)→设置界面参数→开始运行→生成结果以及所用材料方法描述。
2.5系统发育树构建
系统树(phylogenetic tree)是描述基因、个体、种群、物种或种上高级阶元之间系统发生关系假说的树状图。近些年系统发育树构建最常用且相对可靠的方法是最大似然法和贝叶斯系统发生推论法。本发明通过整合IQ-TREE(基于最大似然法)和MrBayes(基于贝叶斯系统发生推论法)命令行程序实现系统发育树的构建。
2.5.1IQ-TREE
IQ-TREE是近些年兴起的基于最大似然法的系统发育树构建软件,它的特点是快速、准确、灵活以及用途广泛,尤其适用于大数据和系统基因组学。本发明将IQ-TREE与系统发生模型选择功能联系起来,前者可以直接读取后者结果中的最优模型,进行系统发育树的构建。操作步骤为:导入比对好的序列和选择好的最优模型(可使用2.4.1和2.4.2步骤的结果)→设置界面参数→开始运行→生成结果以及所用材料方法描述。
2.5.2MrBayes
MrBayes是基于贝叶斯系统发生推论原理的系统发育树构建软件,在众多基于该原理的软件中,MrBayes的使用最为广泛。本发明将MrBayes与系统发生模型选择功能联系起来,让作为下游分析的MrBayes可以直接调用选择的最优模型进行系统发育树构建。操作步骤为:导入比对好的序列和选择好的最优模型(可使用2.4.1和2.4.2步骤的结果)→设置界面参数→开始运行→生成结果以及所用材料方法描述。
2.6系统发育树注释
系统发育树注释也是系统发育分析流程里面不可或缺的一步,特别是当系统发育树物种量较多的时候。本发明联合强大的网页版系统发育树注释工具iTOL,结合生物数据管理功能生成的iTOL注释文件,可在进化树上①批量替换物种名字;②标记不同的分类单元;③绘制建树序列的长度以及碱基组成的条形图;④展示线粒体基因组的基因顺序。操作步骤为:将构建好的系统发育树拖至iTOL网页(可使用2.5.1和2.5.2步骤的结果)→将iTOL注释文件拖至iTOL网页→树形调整→导出注释好的系统发育树。
2.7工作流
在系统发育分析流程的一系列程序中,经过本发明的整理每一个上游程序的结果都可以直接作为下游程序的输入文件,因此本发明还将2.1-2.6所有系统发育分析流程的程序联合在一起,实现快速系统发育分析功能。操作步骤为:选择需要进行快速系统发育分析的程序→将输入文件导入第一个程序中→在参数汇总页面调整好各程序参数→开始运行→生成所有程序的结果以及所用材料方法描述。
3.其他功能—线粒体基因组生物信息学分析
本发明实现了全面的线粒体基因组生物信息学分析。除了常规的基因提取以外,本发明还提供了全面的基因组统计,包括核苷酸组成和偏倚、蛋白基因起始终止密码子统计以及相对同义密码子使用频率(RSCU)、氨基酸使用频率和基因组组成表等。除了统计表,本发明还提供基因顺序展示、计算基因组间各同源基因的两两相似性和绘制相对同义密码子使用频率堆积条形图的功能。如图2。
下面具体实施例对本发明的应用作进一步描述。
以重复https://www.sciencedirect.com/science/article/pii/S0888754318302982文章的分析为例:
首先根据文章提供的35个物种的线粒体基因组GenBank登录号,利用本发明的在线下载功能将它们下载下来;
利用本发明生物序列管理的标准化功能,检查错误注释、统一基因名字以及完善线粒体基因组的注释;
利用本发明生物序列管理的GenBank文件提取功能,直接生成文章中的Table 1、Table 2、Table 3,以及下游系统发育分析所需的蛋白基因核苷酸和氨基酸序列、相对密码子使用频率图(文章中Fig.2B)所需的输入文件和氨基酸使用频率图(文章中Fig.2A)所需的输入文件(耗时2.24秒)。
利用本发明的绘制相对密码子使用频率图功能,可直接生成类似文章中Fig.2B的图(图2,耗时2.55秒)。
利用本发明计算基因组间各同源基因两两相似性的功能,可进行基因组间的比较(表3,耗时1分28.13秒)。
利用本发明系统发育流程化的工作流可构建文章中Fig.5的系统发育树(仅示例蛋白基因核苷酸序列构建系统发育树,即Fig.5A图),输入文件为提取的蛋白基因核苷酸序列,包含的具体步骤为MAFFT进行序列的密码子(新增)比对(耗时3分21.65秒)、Gblocks进行比对序列优化(耗时1.78秒)、序列串联(耗时1.01秒)、ModelFinder模型选择(12个CPU核心,耗时58.93秒)、IQ-TREE构建基于最大似然法的系统发育树(32个CPU核心,2分28秒)和MrBayes构建系统发育树(8个CPU核心,耗时7小时18分56秒)。
利用本发明步骤3)生成的iTOL注释文件注释系统发育树,美化系统发育树(图4)以及映射基因顺序到系统发育树(图5)。
表1是本发明支持提取的GenBank文件信息与TBtools软件提取信息的比较。
表2是本发明的系统发育流程化功能与现有相近技术的比较。
表3是本发明实施例提供的基因组间组成比较以及同源基因的成对相似性结果。
表1
表2
表3
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种生物数据管理及系统发育分析流程化方法,其特征在于,所述生物数据管理及系统发育分析流程化方法包括:
利用界面软件将生物序列管理以及系统发育分析流程的7个程序整合在一起,并配备文件拖拽、界面记忆、一键升级、插件管理和程序进度条功能;
通过新增MAFFT比对程序蛋白基因核苷酸序列的密码子比对功能,支持批量操作和多基因联合建树。
2.如权利要求1所述的生物数据管理及系统发育分析流程化方法,其特征在于,生物序列管理方法包括:
1)GenBank文件管理,GenBank文件包括:第一部分,关于整个记录的描述符;第二部分,注释第一部分记录的描述符特性;第三部分,核苷酸序列自身;利用序列标准化功能进行GenBank文件管理;描述符的信息用于统计分析以及后期系统发育树的注释,基因序列用于系统发育分析流程或者其他生物信息分析;
2)生物序列注释WORD文件管理,WORD文件包括生物序列及各基因的批注注释,利用解析功能自动识别序列及注释信息,调用tbl2asn命令行程序生成SQN文件、GenBank文件和序列的基因组成表;
3)序列文件管理,序列文件包括FASTA、PHYLIP和NEXUS格式的文件,用碱基或氨基酸残基颜色可视化序列以便修改,包括编辑、删除、剪切、复制、粘贴和反向互补。
3.如权利要求1所述的生物数据管理及系统发育分析流程化方法,其特征在于,系统发育分析流程包括:
1)序列比对,通过确定各序列位点之间匹配、替换及插入或缺失发生位置建立同源分子之间位点同源关系;通过整合速度与准确性兼并的MAFFT命令行程序实现序列比对功能;并且在MAFFT自带功能的基础上,新增多文件批量比对和密码子比对;
2)比对序列优化,对比对好的序列进行修剪,删除高变区,保留保守区,增加序列的信噪比;通过整合Gblocks命令行程序实现比对序列优化功能,并新增多文件批量操作;
3)序列串联,将多个比对好的单基因数据集串联成为一个联合数据集,以便多基因联合建树;运用python编程,将各基因的文本序列连接在一起,并记录每个基因的位置,供后续模型选择以及系统发育树构建软件使用;
4)系统发生模型选择,采用数学方法描述系统发生的随机模型;通过整合PartitionFinder2以及ModelFinder命令行程序实现系统发生模型选择;
5)系统发育树构建,通过整合基于最大似然法的IQ-TREE和基于贝叶斯系统发生推论法的MrBayes命令行程序实现系统发育树的构建;
6)系统发育树注释,联合强大的网页版系统发育树注释工具iTOL,结合生物数据管理功能生成的iTOL注释文件,在进化树上批量替换物种名字、标记不同的分类单元、绘制建树序列的长度以及碱基组成的条形图、展示线粒体基因组的基因顺序;
7)工作流,将所有系统发育分析流程的程序联合在一起,进行快速系统发育分析。
4.如权利要求3所述的生物数据管理及系统发育分析流程化方法,其特征在于,步骤4)中,系统发生模型选择包括:
PartitionFinder2,适用于多基因联合数据集的最优分区策略以及进化模型选择;与序列串联功能联系起来,直接识别后者的结果文件,利用python编程转换为前者所需的配置文件;
ModelFinder,适用于单基因数据集进行模型选择或多基因联合数据集的最优分区策略以及进化模型选择;与序列串联功能联系起来,让作为下游分析的ModelFinder直接利用序列串联的结果进行模型选择。
5.如权利要求3所述的生物数据管理及系统发育分析流程化方法,其特征在于,步骤5)系统发育树构建,包括:
IQ-TREE,与系统发生模型选择功能联系起来,前者直接读取后者结果中的最优模型,进行系统发育树的构建;
MrBayes,与系统发生模型选择功能联系起来,让作为下游分析的MrBayes直接调用选择的最优模型进行系统发育树构建。
6.如权利要求1所述的生物数据管理及系统发育分析流程化方法,其特征在于,所述的生物数据管理及系统发育分析流程化方法进一步包括:
进行线粒体基因组生物信息学分析;计算基因组间各同源基因的两两相似性,绘制相对同义密码子使用频率堆积条形图;基因组统计包括核苷酸组成和偏倚、各蛋白基因起始终止密码子以及相对同义密码子使用频率RSCU、氨基酸使用频率和基因组组成表。
7.一种实现权利要求1~6任意一项所述生物数据管理及系统发育分析流程化方法的计算机程序。
8.一种实现权利要求1~6任意一项所述生物数据管理及系统发育分析流程化方法的信息数据处理终端。
9.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6任意一项所述生物数据管理及系统发育分析流程化方法。
CN201811399843.8A 2018-11-22 2018-11-22 一种生物数据管理及系统发育分析流程化方法 Active CN109493918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811399843.8A CN109493918B (zh) 2018-11-22 2018-11-22 一种生物数据管理及系统发育分析流程化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811399843.8A CN109493918B (zh) 2018-11-22 2018-11-22 一种生物数据管理及系统发育分析流程化方法

Publications (2)

Publication Number Publication Date
CN109493918A true CN109493918A (zh) 2019-03-19
CN109493918B CN109493918B (zh) 2022-02-22

Family

ID=65697526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811399843.8A Active CN109493918B (zh) 2018-11-22 2018-11-22 一种生物数据管理及系统发育分析流程化方法

Country Status (1)

Country Link
CN (1) CN109493918B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979539A (zh) * 2019-04-10 2019-07-05 电子科技大学 基因序列优化方法、装置及数据处理终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093118A (zh) * 2013-02-07 2013-05-08 中国科学院计算机网络信息中心 一种系统进化树的重建方法
US20170255744A1 (en) * 2013-01-17 2017-09-07 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
CN107475244A (zh) * 2017-08-29 2017-12-15 海南省农业科学院植物保护研究所 一种热带雨林土壤微生物宏基因组Fosmid文库构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170255744A1 (en) * 2013-01-17 2017-09-07 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
CN103093118A (zh) * 2013-02-07 2013-05-08 中国科学院计算机网络信息中心 一种系统进化树的重建方法
CN107475244A (zh) * 2017-08-29 2017-12-15 海南省农业科学院植物保护研究所 一种热带雨林土壤微生物宏基因组Fosmid文库构建方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979539A (zh) * 2019-04-10 2019-07-05 电子科技大学 基因序列优化方法、装置及数据处理终端

Also Published As

Publication number Publication date
CN109493918B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
Zhang et al. PhyloSuite: An integrated and scalable desktop platform for streamlined molecular sequence data management and evolutionary phylogenetics studies
US10600217B2 (en) Methods for the graphical representation of genomic sequence data
US20170199959A1 (en) Genetic analysis systems and methods
Steiner et al. A pipeline for computational historical linguistics
WO2021051018A1 (en) Methods and systems for determining and displaying pedigrees
Page et al. BamBam: genome sequence analysis tools for biologists
Lin et al. Maximum likelihood phylogenetic reconstruction from high-resolution whole-genome data and a tree of 68 eukaryotes
CN107103205A (zh) 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法
TW583567B (en) Automatic intelligent system for performing yield rate improvement and multivariate analysis of production process parameters and method thereof
Gruber et al. Introduction to dartR
Walther et al. Automatic clustering of flow cytometry data with density-based merging
CN110534157B (zh) 一种批量提取基因组基因信息并翻译比对分析序列的方法
CN109493918A (zh) 一种生物数据管理及系统发育分析流程化方法
Contaldi et al. Practical Workflow from high-throughput genotyping to genomic estimated breeding values (GEBVs)
CN111180013A (zh) 检测血液病融合基因的装置
CN112863603A (zh) 细菌全基因组测序数据的自动化分析方法及系统
CN110570901B (zh) 一种基于测序数据进行ssr分型的方法及系统
Li et al. PanSVR: Pan-genome augmented short read realignment for sensitive detection of structural variations
Nemesh Dropseq Core Computational Protocol
Chougule et al. Improved RNA‐seq Workflows Using CyVerse Cyberinfrastructure
Montalbano et al. Accurate and effective detection of recurrent copy number variants in large SNP genotype datasets
Van Der Byl et al. Single-cell transcriptome analysis of T cells
MacLean R bioinformatics cookbook: Use R and bioconductor to perform RNAseq, genomics, data visualization, and bioinformatic analysis
Robinson et al. Postprocessing the Alignment
Sucre et al. OmicSDK-transcriptomics: a web platform for transcriptomics data analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant