CN101894211B - 一种基因注释方法和系统 - Google Patents

一种基因注释方法和系统 Download PDF

Info

Publication number
CN101894211B
CN101894211B CN201010213759XA CN201010213759A CN101894211B CN 101894211 B CN101894211 B CN 101894211B CN 201010213759X A CN201010213759X A CN 201010213759XA CN 201010213759 A CN201010213759 A CN 201010213759A CN 101894211 B CN101894211 B CN 101894211B
Authority
CN
China
Prior art keywords
gene
sequence
group
result
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010213759XA
Other languages
English (en)
Other versions
CN101894211A (zh
Inventor
徐讯
张博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CN201010213759XA priority Critical patent/CN101894211B/zh
Publication of CN101894211A publication Critical patent/CN101894211A/zh
Priority to HK11102467.7A priority patent/HK1148370A1/xx
Application granted granted Critical
Publication of CN101894211B publication Critical patent/CN101894211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基因注释方法和系统。该方法包括:采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。本发明中的多证据联合基因注释方法和系统,有效整合了传统基因注释方法的优点。进一步运用源自目标物种自身的转录组测序数据,能够最大程度的保证基因结构的准确性,同时能够最大程度的获取基因可变剪接形式的注释。

Description

一种基因注释方法和系统
技术领域
本发明涉及生物信息技术领域,尤其涉及一种基因注释方法和系统。
背景技术
基因注释,即在基因组序列上标定基因位置与组成结构,是基因组学研究的一个必需步骤和基本前提。注释结果的好坏直接影响到后续研究的有效性和准确性。随着基因组学和生物信息学的不断发展,多种多样的基因结构注释方法和软件日益涌现。总体上可分为基于序列内在特征与统计模型的de novo方法和基于序列相似性的方法。但是,现阶段的单一算法的基因注释工具在真核生物基因结构预测,特别是可变剪接形式等方面的敏感性和准确性方面仍然存在着巨大的技术瓶颈,需要大量的人工检查和验证的后续工作。
发明内容
本发明要解决的一个技术问题是提供一种基因注释方法,可以提高基因注释结果的准确性。
根据本发明的一个方面,提供一种基因注释方法,包括:
采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;
采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;
根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。
根据本发明的基因注释方法的一个实施例,还包括步骤:
运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;
对获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;
比较并整合获得的综合基因预测结果和表达基因数据集,针对目标基因组序列获得含有可变剪接形式的基因注释结果。
根据本发明的基因注释方法的一个实施例,采用先比对后组装策略或者先组装后比对策略进行所述转录组序列组装及基因组定位。
根据本发明的基因注释方法的一个实施例,上述比较并整合获得的综合基因预测结果和表达基因数据集的步骤包括:
对于所述综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身转录组序列组装及基因组定位结果替换综合基因预测结果;
对于所述综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。
根据本发明的基因注释方法的一个实施例,采用基于序列相似性的基因注释方法将已知基因序列和物种间同源保守序列比对到目标基因组上的步骤包括:
基于序列相似性的基因预测工具NSCAN、GeneWise、TWAIN、或PASA,或者采用常规的序列比对软件BLAST、GMAP、或sim4将已知基因序列和物种间同源保守序列比对到目标基因组上。
根据本发明的基因注释方法的一个实施例,根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果获得综合基因预测结果及相应的编码序列的步骤包括:
将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的不同结果转换为统一的标准格式;
根据不同支持证据的可信度与可靠性设定不同的权重和阈值;
运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。
本发明的基因注释方法,通过统计学模型预测潜在基因的位置,可能发现未知基因,根据已知基因的序列的比对结果来标记相似序列位置和结构,精度相对较高;综合预测结果整合了两种方法得到的结果,不仅提高了精度,又发现未知基因。
进一步,在整合预测结果的基础上,运用目标物种转录组高通量测序数据辅助,能够在很大程度上提高基因注释的准确性,补充并完善基因注释结果。
本发明要解决的一个技术问题是提供一种基因注释系统,可以提高基因注释结果的准确性。
根据本发明的另一方面,提供一种基因注释系统,包括:
统计基因预测装置,用于通过基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;
相似基因比对装置,用于采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;
结果整合与筛选装置,用于根据所述统计基因预测装置获得的所述目标基因组上潜在基因的位置和所述相似基因比对装置获得的目标基因组上的相似基因的位置,采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。
根据本发明的基因注释系统的一个实施例,还包括:
转录组序列组装及定位装置,用于通过运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;
编码区预测装置,用于对所述转录组序列组装及定位装置获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;
可变剪接基因注释装置,用于比较并整合所述结果整合与筛选装置获得的综合基因预测结果和所述编码区预测装置获得的表达基因数据集,针对目标基因组序列获得含有可变剪接形式的基因注释结果。
根据本发明的基因注释系统的一个实施例,转录组序列组装及定位装置采用先比对后组装策略或者先组装后比对策略进行转录组序列组装及基因组定位。
根据本发明的基因注释系统的一个实施例,可变剪接基因注释装置对于所述综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身转录组序列组装及基因组定位结果替换综合基因预测结果;和/或对于所述综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。
根据本发明的基因注释系统的一个实施例,结果整合与筛选装置用于将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的不同结果转换为统一的标准格式;根据不同支持证据的可信度与可靠性设定不同的权重和阈值;运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。
本发明的基因注释系统,通过统计基因预测装置预测潜在基因的位置,可能发现未知基因,相似基因比对装置根据已知基因的序列的比对结果来标记相似序列位置和结构,精度相对较高;结果整合与筛选装置整合了两种方法得到的结果,不仅提高了精度,同时也可能发现未知基因。
附图说明
图1示出本发明的基因注释方法的一个实施例的流程图;
图2示出本发明的基因注释方法的另一个实施例的流程图;
图3示出本发明的基因注释方法的一个应用例的流程图;
图4示出本发明的基因注释系统的一个实施例的框图;
图5示出本发明的基因注释系统的另一实施例的框图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
联合多方面预测结果的综合性注释方法被证明为更加有效和准确的基因注释方法。尤其是加入了生物体自身基因表达数据支持后的注释结果,在基因结构预测的准确性方面得到有效提升,大大减少了后续人工查错和验证的工作量,并使得大规模自动化流程化的基因注释结果更加可靠,进而提高了生产效率。
图1示出本发明的基因注释方法的一个实施例的流程图。
如图1所示,在步骤102,采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置。可以采用多种基于序列特征与统计模型的基因预测方法进行基因预测。根据不同算法平行地获取多个预测结果有益于提高基因注释的准确性。
在步骤104,采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置。可以尽可能多的比较已知基因数据库,如:非冗余蛋白质数据库、表达序列标签(Expressed Sequence Tag,EST)数据库、UniGene数据库、保守序列数据库以及重复序列数据库等等。通过和多个已知基因数据库进行比较,能够更准确地标定基因组序列中潜在基因的范围。
在步骤106,根据目标基因组上潜在基因的位置和相似基因的位置,采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。综合基因预测结果包括基因的开始和结束位置、编码序列等信息。进一步,可以根据基因编码序列获得蛋白质序列数据集。
在该实施例中,通过统计学模型预测潜在基因的位置,可能发现未知基因,根据已知基因的序列的比对结果来标记相似序列位置和结构,精度相对较高;综合预测结果整合了两种方法得到的结果,不仅提高了精度,同时也可能发现未知基因。
图2示出本发明的基因注释方法的另一个实施例的流程图。
在步骤202,基于序列特征和统计模型的基因预测。采用多种基于序列特征和统计模型的基因预测方法,获取目标基因组序列上潜在基因的位置。采用的预测算法包括但不限于,隐马科夫模型(HiddenMarkov model,HMM)、人工神经网络(Artificial Neural Network,ANN)、支持向量机(Support Vector Machine,SVM)、贝叶斯网络(Bayesian Networks Toolbox,BNT)等。可以采用的如Genscan、Glimmer.HMM等预测工具。在采用这些预测工具时,可以有针对性地根据目标物种的基因组特征选择预测模型并调整训练参数。
在步骤204,基于序列相似性比对的基因预测。采用基于序列相似性的基因注释方法,通过与已知基因序列和物种间同源保守序列进行序列比对,标记目标基因组上相似序列的位置和基因结构。可采用基于序列相似性的基因预测工具如NSCAN、GeneWise、TWAIN、PASA等,也可采用常规的序列比对软件BLAST、GMAP、sim4等。
在步骤206,联合多证据加权投票的基因注释。将上述基因预测和序列比对结果作为支持证据,采用加权投票的方法,整合并筛选预测结果,获得一套综合基因预测结果及相应的编码序列和蛋白质序列数据集。可以运用整合预测工具,如GLEAN、JIGSAW、EVM等。将步骤202与步骤204中获得的不同结果转换为统一的标准格式,如GFF3.0格式,并根据不同支持证据的可信度与可靠性设定不同的权重和阈值。
在步骤208,基于转录序列组装的基因注释,运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;
在步骤210,对步骤208得到的所有表达序列进行编码区预测,寻找最优的读码框及其相应的蛋白质序列数据集。读码框是开放读码框的简称,其不含终止子、由编码氨基酸的三联体组成的连续DNA序列,能翻译成蛋白质。该步骤主要用于区分表达序列的类型:编码还是非编码,进一步获取编码序列对应的蛋白质序列。
在步骤212,比较并整合步骤206所得到的综合基因预测结果与步骤210所得到的表达基因数据集,最终针对目标基因组序列获得含有可变剪接(alternative splicing)形式的高精度基因注释结果。表达基因数据集是指正常表达并能够编码蛋白质的基因(DNA序列),即在表达序列数据集中经过蛋白质编码区预测得到能够编码蛋白质的那部分DNA序列。通常来说,表达基因序列是基因组表达序列的一个子集。步骤212是对步骤206所得结果的修正与完善。对于基因预测结果与转录组序列组装及基因组定位结果高度一致的情况,应采纳目标物种自身转录组序列组装及基因组定位结果,替换基因预测结果。对于差异较大的情况,可分别将预测结果与转录组序列组装及基因组定位结果视作同一基因的不同表达形式进行注释。此外,对注释结果按照证据支持的类型和可信度进行分类,供后续的分析和研究使用。
根据本发明的一个实施例,在缺乏高通量转录组测序数据的情况下,也可以不必进行后续的步骤208、210、212,将整合后的基因预测结果作为有效的基因注释结果供后续分析和研究。
在整合预测结果的基础上,运用目标物种转录组高通量测序数据辅助,能够在很大程度上提高基因注释的准确性,补充并完善基因注释结果。因此,在高通量转录组测序数据可用的前提下,可以进一步进行步骤208:转录组序列组装及定位。可采用的策略包括先比对后组装或者先组装后比对等,获取并在目标基因组上定位表达基因的转录本序列。
本领域的技术人员应当理解,本发明在综合多方面支持证据的基础上获取高精度基因注释结果,所提及的支持证据不局限于基因预测结果与相似序列比对结果等。凡有助于标定目标基因组序列上基因区域范围的数据同样适用于本方法,均可作为支持证据加入到基因注释过程。
上述实施例的基因注释方法,采用了分层次、分权重的注释流程,通过序列特征预测、序列相似性预测、混合预测、多证据联合基因结构预测和转录数据支持的模型校正等多个步骤,可获得较为精确并含有可变剪接形式基因结构注释结果。
下面结合图3对本发明的基因注释方法的一个应用例进行详细描述。
图3示出本发明的基因注释方法的一个应用例的流程图。该应用例以已公开的家养大豆(Glycine max)基因组(http://www.phytozome.net/cgi-bin/gbrowse/soybean/#search)中获取的一段长度为177kp的序列片段scaffold_41(碱基序列为AGAACGATATCCACGTTCCAGAGATAGCATTTATGTGAAGAGAAATGGTTTAATTAAGAT...<177600bp>...AAAGATTAAAAAAAATAGAGATTAAAAAAGTACTGATGTACAAAAAGACAA)为例,在进行注释之前进行数据及工具准备,包括待注释的目标基因组序列、基因预测软件、已知蛋白质及表达序列数据库、高通量转录组测序数据、序列比对软件等。该应用例包括如下步骤:
步骤302,对基因组序列进行基于序列特征和统计模型的从头预测(Ab initio)(参见:http://en.wikipedia.org/wiki/Gene_prediction)。由于许多基因固有的特征而难于获得外源证据,从头预测方法在基因预测过程中很有必要。这种方法直接在基因组序列上系统地寻找可能的蛋白质编码基因的信号。在该序列中采用Genscan基于植物特征参数进行模型训练并预测,共得到16个预测基因。预测结果如表1所示。
表1基于基因序列特征的预测结果
  序列名   工具   特征   起始   终止   方向
  scaffold_41   genscan   mRNA   4943   8875   +
  scaffold_41   genscan   mRNA   9777   18626   -
  scaffold_41   genscan   mRNA   26318   39279   +
  scaffold_41   genscan   mRNA   41763   44257   -
  scaffold_41   genscan   mRNA   48229   48951   +
  scaffold_41   genscan   mRNA   52008   58385   +
  scaffold_41   genscan   mRNA   62078   66257   +
  scaffold_41   genscan   mRNA   71933   73383   -
  scaffold_41   genscan   mRNA   76688   94402   +
  scaffold_41   genscan   mRNA   96752   97344   -
  scaffold_41   genscan   mRNA   110684   113926   -
  scaffold_41   genscan   mRNA   117314   122968   -
  scaffold_41   genscan   mRNA   138871   141725   +
  scaffold_41   genscan   mRNA   147708   162458   +
  scaffold_41   genscan   mRNA   165979   174292   -
  scaffold_41   genscan   mRNA   175659   177077   -
步骤304,对该基因组进行基于序列同源性的基因预测。分别使用相近物种的已知基因数据库,如拟南芥、葡萄、黄瓜、木瓜、水稻等植物的蛋白质序列数据库,与目标基因组序列进行序列比对,获取高度相似的同源序列位置。再运用基于序列相似性的基因预测软件GeneWise,结合相似序列比对结果,从该片段上预测出潜在基因片段,得到52个预测结果,如表2所示。
表2基于同源基因相似性的预测结果
  序列名   工具   特征   起始   终止   方向
  scaffold_41   Gen eWise   mRNA   104993   106343   +
  scaffold_41   GeneWise   mRNA   48229   48837   +
  scaffold_41   Gen eWise   mRNA   32873   33165   +
  scaffold_41   GeneWise   mRNA   165982   170976   -
  scaffold_41   GeneWise   mRNA   96827   97419   -
  scaffold_41   Gen eWise   mRNA   150172   151982   +
  scaffold_41   GeneWise   mRNA   62078   66157   +
  scaffold_41   Gen eWise   mRNA   87287   94137   +
  scaffold_41   GeneWise   mRNA   4985   8869   +
  scaffold_41   Gen eWise   mRNA   76619   77892   +
  scaffold_41   Gen eWise   mRNA   112840   113926   -
  scaffold_41   GeneWise   mRNA   112669   113926   -
  scaffold_41   Gen eWise   mRNA   76619   77892   +
  scaffold_41   Gen eWise   mRNA   170237   171345   -
  scaffold_41   GeneWise   mRNA   62084   65932   +
  scaffold_41   Gen eWise   mRNA   28558   30496   +
  scaffold_41   Gen eWise   mRNA   4943   8869   +
  scaffold_41   GeneWise   mRNA   166021   166805   -
  scaffold_41   GeneWise   mRNA   48304   48891   +
  scaffold_41   Gen eWise   mRNA   48520   48828   -
  scaffold_41   Gen eWise   mRNA   87299   93945   +
  scaffold_41   Gen eWise   mRNA   105771   106331   +
  scaffold_41   Gen eWise   mRNA   4976   8869   +
  scaffold_41   Gen eWise   mRNA   28672   30281   +
  scaffold_41   GeneWise   mRNA   102485   103057   +
  scaffold_41   Gen eWise   mRNA   76631   77886   +
  scaffold_41   Gen eWise   mRNA   165982   171345   -
  scaffold_41   GeneWise   mRNA   112570   113926   -
  scaffold_41   GeneWise   mRNA   87287   93960   +
  scaffold_41   GeneWise   mRNA   96827   97404   -
  scaffold_41   GeneWise   mRNA   149890   151970   +
  scaffold_41   GeneWise   mRNA   62078   66157   +
  scaffold_41   GeneWise   mRNA   48256   48948   +
  scaffold_41   GeneWise   mRNA   87287   94209   +
  scaffold_41   GeneWise   mRNA   112714   113926   -
  scaffold_41   GeneWise   mRNA   165982   171237   -
  scaffold_41   GeneWise   mRNA   6252   8310   +
  scaffold_41   GeneWise   mRNA   40342   48927   +
  scaffold_41   GeneWise   mRNA   63633   65983   +
  scaffold_41   GeneWise   mRNA   102530   103033   +
  scaffold_41   GeneWise   mRNA   76619   77892   +
  scaffold_41   GeneWise   mRNA   76613   77892   +
  scaffold_41   GeneWise   mRNA   112642   113926   -
  scaffold_41   Gen eWise   mRNA   5102   8869   +
  scaffold_41   GeneWise   mRNA   29565   30466   +
  scaffold_41   GeneWise   mRNA   62078   66157   +
  scaffold_41   GeneWise   mRNA   87287   94227   +
  scaffold_41   Gen eWise   mRNA   97069   97476   -
  scaffold_41   Gen eWise   mRNA   149878   151970   +
  scaffold_41   Gen eWise   mRNA   165982   171345   -
  scaffold_41   Gen eWise   mRNA   48268   48597   +
  scaffold_41   Gen eWise   mRNA   103563   104403   +
步骤306,运用表达序列比对软件Sim4将大豆及相近物种如拟南芥、葡萄、黄瓜、木瓜、水稻等的EST/cDNA序列与基因组序列进行比较,得到潜在表达序列的范围。再用预测工具PASA在该序列上标记出26个可能的基因片段。如表3所示:
表3基于表达序列EST/cDNA相似性的预测结果
  序列名   工具   特征   起始   终止   方向
  scaffold_41   pasa   mRNA   5170   5265   +
  scaffold_41   pasa   mRNA   4564   5201   -
  scaffold_41   pasa   mRNA   5947   6162   +
  scaffold_41   pasa   mRNA   6407   7305   +
  scaffold_41   pasa   mRNA   6275   6819   -
  scaffold_41   pasa   mRNA   8448   9035   +
  scaffold_41   pasa   mRNA   9065   9169   +
  scaffold_41   pasa   mRNA   29933   30442   +
  scaffold_41   pasa   mRNA   28956   30260   +
  scaffold_41   pasa   mRNA   48145   49241   +
  scaffold_41   pasa   mRNA   61919   64688   +
  scaffold_41   pasa   mRNA   65067   66813   +
  scaffold_41   pasa   mRNA   66264   66368   -
  scaffold_41   pasa   mRNA   74171   78007   +
  scaffold_41   pasa   mRNA   78019   78108   +
  scaffold_41   pasa   mRNA   91748   92215   +
  scaffold_41   pasa   mRNA   87514   87749   -
  scaffold_41   pasa   mRNA   87514   87908   +
  scaffold_41   pasa   mRNA   85455   94695   -
  scaffold_41   pasa   mRNA   94968   95625   +
  scaffold_41   pasa   mRNA   96415   98767   -
  scaffold_41   pasa   mRNA   96082   96485   +
  scaffold_41   pasa   mRNA   149790   152313   +
  scaffold_41   pasa   mRNA   165768   166594   -
  scaffold_41   pasa   mRNA   171108   171508   -
  scaffold_41   pasa   mRNA   170949   171807   -
步骤308,将各部分预测结果转换为统一标准格式,例如gff3.0格式,将这些预测结果作为支持证据,依照预测可信度设定相应的权重,本实施例中Genscan从头预测结果的权重设为1,GeneWise蛋白质同源序列预测结果的权重设为1,PASA表达序列比对结果的权重设为2。此处,表达序列比对结果的权重高于从头预测结果以及蛋白质同源序列预测结果,在不完全吻合的情况下能够优先选择表达序列比对结果。本领域的技术人员应当理解,技术人员可以根据需要进行权重的设置。将各方面支持证据输入整合预测软件GLEAN中进行整合处理,设定阈值为3,即至少有一个相似序列支持和一个从头预测证据支持,或者有多个相似序列支持。在该基因组序列上共获得13个基因注释结果,包含13条蛋白质编码序列。如表4所示:
表4联合多证据加权的综合基因注释结果
  序列名   工具   特征   起始   终止   方向
  scaffold_41   GLEAN   mRNA   4943   8319   +
  scaffold_41   GLEAN   mRNA   8474   8875   +
  scaffold_41   GLEAN   mRNA   28579   30646   +
  scaffold_41   GLEAN   mRNA   48229   48951   +
  scaffold_41   GLEAN   mRNA   62078   66166   +
  scaffold_41   GLEAN   mRNA   72142   73383   -
  scaffold_41   GLEAN   mRNA   74488   77895   +
  scaffold_41   GLEAN   mRNA   87287   95273   +
  scaffold_41   GLEAN   mRNA   96752   98700   -
  scaffold_41   GLEAN   mRNA   112228   113926   -
  scaffold_41   GLEAN   mRNA   117314   118460   -
  scaffold_41   GLEAN   mRNA   149878   152102   +
  scaffold_41   GLEAN   mRNA   165979   171345   -
步骤310,用先定位后组装的策略,用转录组序列定位软件TopHat将大豆转录组RNA-Seq测序数据定位到基因组相应位置,然后用工具Cufflinks进行转录组组装,共得到21个转录本注释结果。对这21个转录本进行编码区预测,区别编码序列与非编码序列,共得到17条完整蛋白质编码序列。
步骤312,比较并融合预测结果与转录组序列组装及基因组定位结果,得到最终注释结果。即,该片段上含有12个基因区域共23个转录本,其中19个转录本含有蛋白质编码区,有对应的蛋白质序列,另外4个转录本注释为非编码序列。如表5所示:
表5高通量转录组数据辅助的基因注释结果
  序列名   工具   特征   起始   终止   方向
  scaffold_41   BGI   gene   4637   9529   -
  scaffold_41   Cufflinks   noncoding_transcript   4637   6854   +
  scaffold_41   Cufflinks   mRNA   7112   9529   +
  scaffold_41   BGI   gene   27298   31662   -
  scaffold_41   Cufflinks   mRNA   27298   31662   +
  scaffold_41   BGI   gene   48102   49201   -
  scaffold_41   Cufflinks   mRNA   48102   49201   +
  scaffold_41   BGI   gene   61888   66711   -
  scaffold_41   Cufflinks   mRNA   61888   66711   +
  scaffold_41   Cufflinks   mRNA   61888   66711   +
  scaffold_41   BGI   gene   74119   78196   -
  scaffold_41   Cufflinks   mRNA   74119   77642   +
  scaffold_41   Cufflinks   mRNA   74119   78196   +
  scaffold_41   BGI   gene   85475   95627   -
  scaffold_41   GLEAN   mRNA   87287   95273   +
  scaffold_41   Cufflinks   mRNA   85475   94649   +
  scaffold_41   Cufflinks   mRNA   85475   94649   +
  scaffold_41   Cufflinks   noncoding_transcript   94866   95129   -
  scaffold_41   Cufflinks   mRNA   95181   95627   +
  scaffold_41   BGI   gene   149759   152342   -
  scaffold_41   Cufflinks   mRNA   149759   152342   +
  scaffold_41   BGI   gene   70041   73561   -
  scaffold_41   Cufflinks   mRNA   70041   73561   -
  scaffold_41   Cufflinks   mRNA   70041   73561   -
  scaffold_41   Cufflinks   mRNA   71609   73561   -
  scaffold_41   BGI   gene   96367   98760   -
  scaffold_41   Cufflinks   mRNA   96367   98760  -
  scaffold_41   BGI   gene   111939   114065  -
  scaffold_41   Cufflinks   mRNA   111939   114065  -
  scaffold_41   BGI   gene   117314   118460  -
  scaffold_41   GLEAN   mRNA   117314   118460  -
  scaffold_41   Cufflinks   noncoding_transcript   117381   117514  -
  scaffold_41   Cufflinks   noncoding_transcript   118105   118205  -
  scaffold_41   BGI   gene   165534   171874  -
  scaffold_41   Cufflinks   mRNA   165534   171874  -
通过进一步的基因功能分析表明,通过本发明上述应用例注释出的19个蛋白质序列均有相关的蛋白质功能结构域,其中14个蛋白质能够在其他物种蛋白质数据库中找到高度相似的序列。尤其是转录组序列组装所支持的注释结果不仅基因结构完整准确,而且获得了可靠的蛋白质的功能注释信息。
本发明的多证据联合的基因注释方法,在注释准确性方面相对于单一方法的基因预测结果有着有效的提高。尤其在加入物种自身转录组测序数据辅助后,在注释结果可靠性方面有了进一步提升。本发明中的实施例仅是用以解释本发明的实施方案,并不用于限定本发明。凡在本发明的原则和精神之内所做的替换、修改和改进等均包含在本发明的权利要求范围之内。
图4示出本发明的基因注释系统的一个实施例的框图。如图4所示,该实施例的基因注释系统包括统计基因预测装置41、相似基因比对装置42和结果整合与筛选装置43。其中,统计基因预测装置41,用于通过基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;相似基因比对装置42,用于采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;结果整合与筛选装置43,用于根据统计基因预测装置41获得的目标基因组上潜在基因的位置和相似基因比对装置42获得的目标基因组上的相似基因的位置,采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。统计基因预测装置41可以采用多种基于序列特征与统计模型的基因预测方法进行基因预测,从而提高基因注释的准确性。相似基因比对装置42通过和多个已知基因数据库进行比较,能够更准确地标定基因组序列中潜在基因的范围。根据本发明的一个实施例,结果整合与筛选装置将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的不同结果转换为统一的标准格式;根据不同支持证据的可信度与可靠性设定不同的权重和阈值;运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。
在上述实施例中,通过统计基因预测装置预测潜在基因的位置,可能发现未知基因,相似基因比对装置根据已知基因的序列的比对结果来标记相似序列位置和结构,精度相对较高;结果整合与筛选装置整合了两种方法得到的结果,不仅提高了精度,同时也可能发现未知基因。
图5示出本发明的基因注释系统的另一实施例的框图。该实施例的基因注释系统包括统计基因预测装置41、相似基因比对装置42、结果整合与筛选装置43、转录组序列组装及定位装置54、编码区预测装置55和可变剪接基因注释装置56。统计基因预测装置41、相似基因比对装置42和结果整合与筛选装置43可以参见图4中的对应描述,为简洁起见在此不再详述。其中,转录组序列组装及定位装置54,用于通过运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;编码区预测装置55,用于对转录组序列组装及定位装置54获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;可变剪接基因注释装置56,用于比较并整合结果整合与筛选装置43获得的综合基因预测结果和编码区预测装置55获得的表达基因数据集,针对目标基因组序列获得含有可变剪接形式的基因注释结果。转录组序列组装及定位装置54可以采用先比对后组装策略或者先组装后比对策略进行转录组序列组装及基因组定位。在一个实施例中,可变剪接基因注释装置对于综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身转录组序列组装及基因组定位结果替换综合基因预测结果;对于综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。
本领域的技术人员应当理解,对于图4、5中的各个装置,可以通过单独的技术处理识别实现,或者将其集成为一个独立的设备实现。在图4和图5中用框示出以说明它们的功能。这些功能块可以用硬件、软件、固件、中间件、微代码、硬件描述语音或者它们的任意组合来实现。举例来说,一个或者两个功能块都可以利用运行在微处理器、数字信号处理器(DSP)或任何其他适当计算设备上的代码实现。代码可以表示过程、功能、子程序、程序、例行程序、子例行程序、模块或者指令、数据结构或程序语句的任意组合。代码可以位于计算机可读介质中。计算机可读介质可以包括一个或者多个存储设备,例如,包括RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或本领域公知的其他任何形式的存储介质。计算机可读介质还可以包括编码数据信号的载波。
本领域技术人员将意识到硬件、固件和软件配置在这些情况下的可替换性,以及如何最好地实现每个特定应用地所述功能。
本发明中所采用的多证据联合基因注释方法,有效整合了传统基因注释流程的优点,并在很大程度上克服了各自的弊病,如预测工具物种特异性偏好,遗漏低表达量基因和物种特异性基因,较高的假阳率,基因结构(外显子/内含子)错误等等。而分层次、分权重投票的注释策略更保证了整合注释结果优于预测软件独立注释结果。进一步运用源自目标物种自身的转录组测序数据,能够最大程度的保证基因结构的准确性,同时能够最大程度的获取基因可变剪接形式的注释,以及更好的界定编码区与非编码区。本发明有益效果在于,在综合传统基因注释方法的基础之上得到了更加丰富、更加准确的注释信息,能够很好的应用于流程化的基因注释工作中,减少因为校正注释错误而额外投入的劳动量。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (11)

1.一种基因注释方法,其特征在于,包括:
采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;
采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;
根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列;
运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;
对获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;
比较并整合获得的综合基因预测结果和表达基因数据集,针对目标基因组序列获得含有可变剪接形式的基因注释结果。
2.根据权利要求1所述的基因注释方法,其特征在于,采用先比对后组装策略或者先组装后比对策略进行所述转录组序列组装及基因组定位。
3.根据权利要求1所述的基因注释方法,其特征在于,所述比较并整合获得的综合基因预测结果和表达基因数据集的步骤包括:
对于所述综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身转录组序列组装及基因组定位结果替换所述综合基因预测结果;
和/或
对于所述综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。
4.根据权利要求1所述的基因注释方法,其特征在于,所述采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置的步骤包括:
采用多种基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置。
5.根据权利要求1至4中任意一项所述的基因注释方法,其特征在于,所述基于序列特征与统计模型的基因预测方法包括隐马科夫模型、人工神经网络、支持向量机、和/或贝叶斯网络。
6.根据权利要求1至4中任意一项所述的基因注释方法,其特征在于,所述采用基于序列相似性的基因注释方法将已知基因序列和物种间同源保守序列比对到目标基因组上的步骤包括:
基于序列相似性的基因预测工具NSCAN、GeneWise、TWAIN、或PASA,或者采用常规的序列比对软件BLAST、GMAP、或sim4将已知基因序列和物种间同源保守序列比对到目标基因组上。
7.根据权利要求1至4中任意一项所述的基因注释方法,其特征在于,根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果获得综合基因预测结果及相应的编码序列的步骤包括:
将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的不同结果转换为统一的标准格式;
根据不同支持证据的可信度与可靠性设定不同的权重和阈值;
运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。
8.一种基因注释系统,其特征在于,包括:
统计基因预测装置,用于通过基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;
相似基因比对装置,用于采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;
结果整合与筛选装置,用于根据所述统计基因预测装置获得的所述目标基因组上潜在基因的位置和所述相似基因比对装置获得的目标基因组上的相似基因的位置,采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列;
转录组序列组装及定位装置,用于通过运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;
编码区预测装置,用于对所述转录组序列组装及定位装置获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;
可变剪接基因注释装置,用于比较并整合所述结果整合与筛选装置获得的综合基因预测结果和所述编码区预测装置获得的表达基因数据集,针对目标基因组序列获得含有可变剪接形式的基因注释结果。
9.根据权利要求8所述的基因注释系统,其特征在于,所述转录组序列组装及定位装置采用先比对后组装策略或者先组装后比对策略进行转录组序列组装及基因组定位。
10.根据权利要求8所述的基因注释系统,其特征在于,所述可变剪接基因注释装置对于所述综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身转录组序列组装及基因组定位结果替换综合基因预测结果;和/或对于所述综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。
11.根据权利要求8至10中任意一项所述的基因注释系统,其特征在于,所述结果整合与筛选装置用于将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的不同结果转换为统一的标准格式;根据不同支持证据的可信度与可靠性设定不同的权重和阈值;运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。
CN201010213759XA 2010-06-30 2010-06-30 一种基因注释方法和系统 Active CN101894211B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201010213759XA CN101894211B (zh) 2010-06-30 2010-06-30 一种基因注释方法和系统
HK11102467.7A HK1148370A1 (en) 2010-06-30 2011-03-11 A method and a system for gene annotation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010213759XA CN101894211B (zh) 2010-06-30 2010-06-30 一种基因注释方法和系统

Publications (2)

Publication Number Publication Date
CN101894211A CN101894211A (zh) 2010-11-24
CN101894211B true CN101894211B (zh) 2012-08-22

Family

ID=43103401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010213759XA Active CN101894211B (zh) 2010-06-30 2010-06-30 一种基因注释方法和系统

Country Status (2)

Country Link
CN (1) CN101894211B (zh)
HK (1) HK1148370A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102206704B (zh) * 2011-03-02 2013-11-20 深圳华大基因科技服务有限公司 组装基因组序列的方法和装置
CN102409099A (zh) * 2011-11-29 2012-04-11 浙江大学 一种利用测序技术分析猪乳腺组织基因表达差异的方法
CN102542178B (zh) * 2011-12-31 2015-01-14 重庆邮电大学 一种基因内含子进化重构装置及方法
CN102663924A (zh) * 2012-04-06 2012-09-12 江南大学 一种树干毕赤酵母基因组规模代谢网络模型构建及分析方法
US20150120204A1 (en) * 2012-04-13 2015-04-30 Bgi Tech Solutions Co., Ltd. Transcriptome assembly method and system
CN103853937B (zh) * 2013-11-27 2017-02-01 上海丰核信息科技有限公司 高通量测序数据后期处理方法
CN106796619B (zh) * 2014-05-02 2020-10-30 皇家飞利浦有限公司 基因组信息服务
AU2015311677A1 (en) * 2014-09-05 2017-04-27 Nantomics, Llc Systems and methods for determination of provenance
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
CN107766696A (zh) * 2016-08-23 2018-03-06 武汉生命之美科技有限公司 基于RNA‑seq数据的真核生物可变剪接分析方法和系统
CN106980777B (zh) * 2017-04-10 2019-12-31 重庆邮电大学 基于相似基因比例的基因家族关系判定方法
CN109295198A (zh) * 2018-09-03 2019-02-01 安吉康尔(深圳)科技有限公司 用于检测遗传性疾病基因变异的方法、装置及终端设备
CN110951750B (zh) * 2019-12-25 2020-08-14 广西壮族自治区农业科学院 西番莲内参基因PeNADP及其筛选方法和应用
CN111445949A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 利用纳米孔测序数据的高原多倍体鱼类基因组注释方法
CN112037857B (zh) * 2020-08-13 2024-03-26 中国科学院微生物研究所 菌株基因组注释查询方法、装置、电子设备及存储介质
CN112599188B (zh) * 2021-03-01 2021-05-11 上海思路迪医学检验所有限公司 一种融合驱动基因单端锚定的dna融合断点注释方法
CN112863599B (zh) * 2021-03-12 2022-10-14 南开大学 一种病毒测序序列的自动化分析方法及系统
CN116758995B (zh) * 2023-08-15 2023-12-15 广州诺禾医学检验所有限公司 基因组注释方法和电子装置
CN117059179A (zh) * 2023-08-30 2023-11-14 北京星云医学检验实验室有限公司 一种生物信息数据库注释方法及系统
CN117198409A (zh) * 2023-09-15 2023-12-08 云南省农业科学院农业环境资源研究所 一种基于转录组数据的microRNA预测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1683530A (zh) * 2004-11-25 2005-10-19 复旦大学 利用数据性状位点信息进行作物功能基因电子克隆的方法
CN101423831A (zh) * 2007-07-27 2009-05-06 天津医科大学附属肿瘤医院 人与模式生物功能基因电子克隆的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1683530A (zh) * 2004-11-25 2005-10-19 复旦大学 利用数据性状位点信息进行作物功能基因电子克隆的方法
CN101423831A (zh) * 2007-07-27 2009-05-06 天津医科大学附属肿瘤医院 人与模式生物功能基因电子克隆的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Christine G Elsik,et.al.Creating a honey bee consensus gene set.《Genome Biology》.2007,第5页右侧倒数第12行至第6页右侧倒数第5行. *

Also Published As

Publication number Publication date
HK1148370A1 (en) 2011-09-02
CN101894211A (zh) 2010-11-24

Similar Documents

Publication Publication Date Title
CN101894211B (zh) 一种基因注释方法和系统
Pertea et al. A computational survey of candidate exonic splicing enhancer motifs in the model plant Arabidopsis thaliana
Rätsch et al. 13 Accurate Splice Site Detection for Caenorhabditis elegans
CN108897989A (zh) 一种基于候选事件元素注意力机制的生物事件抽取方法
CN107103205A (zh) 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法
CN111382572B (zh) 一种命名实体识别方法、装置、设备以及介质
Picardi et al. Computational methods for ab initio and comparative gene finding
KR20200107774A (ko) 표적화 핵산 서열 분석 데이터를 정렬하는 방법
Bowman et al. A modified GC-specific MAKER gene annotation method reveals improved and novel gene predictions of high and low GC content in Oryza sativa
CN113344272A (zh) 一种基于机器学习的circRNA与miRNA、RBP相互作用关系的预测方法
Eichner et al. Support vector machines-based identification of alternative splicing in Arabidopsis thaliana from whole-genome tiling arrays
CN110046714A (zh) 基于多特征信息融合的长链非编码rna亚细胞定位方法
Clauwaert et al. TIS transformer: remapping the human proteome using deep learning
Zheng et al. A systematic evaluation of the computational tools for lncRNA identification
WO2020115580A1 (en) System and method for promoter prediction in human genome
WO2013033119A1 (en) Utilizing multiple processing units for rapid training of hidden markov models
CN104462870A (zh) 一种人类基因启动子识别方法及装置
US9008974B2 (en) Taxonomic classification system
CN113903458A (zh) 急性肾损伤早期预测方法及装置
Thompson et al. Genetic algorithm learning as a robust approach to RNA editing site prediction
CN115410715A (zh) 癌症类型预测系统
US11335434B2 (en) Feature selection for efficient epistasis modeling for phenotype prediction
Mao et al. 50/50 expressional odds of retention signifies the distinction between retained introns and constitutively spliced introns in arabidopsis thaliana
CN111223522A (zh) 一种基于模糊k-mer使用率鉴定lncRNA的方法
Chordia et al. Machine Learning Approaches for Long Non-Coding RNA Identification in Plants

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1148370

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1148370

Country of ref document: HK

EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20101124

Assignee: BGI Technology Solutions Co., Ltd.

Assignor: BGI-Shenzhen Co., Ltd.

Contract record no.: 2012440020389

Denomination of invention: Gene annotation method and system

Granted publication date: 20120822

License type: Exclusive License

Record date: 20121219

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
ASS Succession or assignment of patent right

Owner name: BGI TECHNOLOGY SOLUTIONS CO., LTD.

Free format text: FORMER OWNER: BGI-SHENZHEN CO., LTD.

Effective date: 20130422

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20130422

Address after: 518083 science and Technology Pioneer Park, comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen 201

Patentee after: BGI Technology Solutions Co., Ltd.

Address before: Beishan Industrial Zone Building in Yantian District of Shenzhen city of Guangdong Province in 518083

Patentee before: BGI-Shenzhen Co., Ltd.