CN1733915A

CN1733915A - 水稻全基因组假基因数据库构建方法

Info

Publication number: CN1733915A
Application number: CN 200510050764
Authority: CN
Inventors: 薛庆中; 黄志华; 张忠华
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2005-07-19
Filing date: 2005-07-19
Publication date: 2006-02-15

Abstract

本发明公开了一种基因序列数据处理方法，特别涉及水稻全基因组假基因数据库构建方法。包括将计算机系统中构建已知水稻全基因组序列的本地数据库；利用BLAST程序对前述数据库进行搜索比对，获取标准BLAST格式的比对结果；使用Bioperl中的SeqIO模块分析比对结果，获取记录假基因和基因特征值数据的信息文件；去除冗余的假基因和基因数据；对假基因的筛选和分类；和以假基因对应的特征值作为数据项标识建立假基因的数据库。利用本发明提供的方法，可以对水稻乃至其他植物的假基因进行全基因组范围的搜索和分析，为研究和探索作物遗传、变异、进化提供分子证据。

Description

水稻全基因组假基因数据库构建方法

技术领域

本发明涉及一种基因序列数据处理方法，更具体地说，本发明涉及一种水稻全基因组假基因数据库构建方法。

背景技术

假基因是基因组中丧失功能的DNA序列，换言之，是功能基因不具备编码能力的多拷贝，或是与功能基因相似的序列。假基因很好保留了数百万年前基因组中祖先基因的分子记录，被视为”基因化石”，因而，假基因在进化和比较基因组学中是重要的资源。应用假基因和基因比较体系，可以为研究物种亲缘关系和进化距离，分析假基因自身的进化趋势，探讨DNA突变的成因等提供新的洞察。

国外美国耶鲁大学的Gerstein实验室在其网站上(http：//www.pseudogene.org)对人、大鼠、酵母、美丽线虫和果蝇等5种模式生物提供了假基因的相关论文，但没有公布其相关研究的分析方法。

水稻是重要的粮食作物，2002年已完成全基因组序列框架图测序，这在作物中尚属首次。目前国内外尚未完成水稻基因组的假基因分析和公布水稻全基因组的假基因数据。我们利用生物信息学方法，首创自编计算机程序，首次获得水稻全基因组假基因数据，率先完成水稻全基因组假基因数据库的构建。

发明内容

针对迄今国内外尚未获得水稻全基因组的假基因数据现状，本发明首次提出从水稻全基因组分离，筛选，识别假基因数据的关键技术，主要目的是提供一种水稻全基因组假基因数据库构建方法。

本发明提供的水稻全基因组假基因数据库构建方法，包括以下步骤：

(1)在计算机系统中构建已知水稻全基因组序列的本地数据库；

(2)利用BLAST程序对前述数据库进行搜索比对，获取标准BLAST格式的比对结果；

(3)使用Bioperl中的SeqIO模块分析比对结果，获取记录假基因和基因特征值数据的信息文件；

(4)去除冗余的假基因和基因数据；

(5)将相邻匹配的核苷酸序列连接，再用FASTA程序的Smith-Waterman算法进行最优化匹配，完成对假基因的筛选和分类，其鉴别标准如下：

①与编码已知蛋白质的序列相似度：BLAST E值＜1e-10，氨基酸相似程度大于40％)；

②与已知功能基因进行比对，不含超过60bp的空洞；

③与相似基因比较，覆盖了其70％的编码序列区域；

④含有多腺嘌呤尾部序列(多含有AATAAA信号)；

⑤提前出现终止密码子或具有移码突变；

符合⑤则可视此片断为真正的假基因，其余则为候选假基因；

符合①②③④视为加工假基因，其余则为非加工假基因；

符合①②③④⑤视为新出现的加工假基因。

(6)以假基因对应的特征值作为数据项标识建立假基因的数据库。

本发明在构建已知水稻全基因组序列的本地数据库后，使用RepeatMasker程序屏蔽简单重复序列和rRNA重复序列，以避免这些数据的干扰。

本发明在运行本地BLAST搜索时，包括对生成的数据库进行tBLASTn六框翻译；将序列切断成互相重叠的几部分，用相同的蛋白质氨基酸序列进行tBLASTn对比以提高比对速度。

本发明所述假基因和基因特征值数据包括染色体、对应蛋白质、E值、长度、起始位置或终止位置。

与现有技术相比，本发明的有益效果是：

利用本发明提供的方法，可以对水稻乃至其他植物的假基因进行全基因组范围的搜索和分析，为研究和探索作物遗传、变异、进化提供分子证据。

具体实施方式

以下通过实例进一步对本发明进行描述。

(1)在计算机系统中构建已知水稻全基因组序列的本地数据库：

本实施例中假基因的数据主要是在水稻全基因组序列中利用同源性比对(BLAST等程序)对可能编码已知蛋白的DNA序列进行搜索和收集。其中籼稻和粳稻数据来自中国科学院北京基因组研究所完成测序的籼、粳稻全基因组序列，所有蛋白质数据来自国际水稻基因组计划(IRGSP)的官方FTP(cdna01.dna.affrc.go.jp)。

其中籼稻和粳稻的基因组序列数据库(GenomeSequence.fasta)格式为：

>Chr01

GCGCGGGGAAGGGCCGATGGGCCGCGGGGGAGAGGAGAGAGAGGGAGGGGACTGGGCCGAGCCG

GCCCAAGAAGGGAAGGGGGTGGAAAGAA

……

>Chr12

GCGCGGGGAAGGGCCGATGGGCCGCGGGGGAGAGGAGAGAGAGGGAGGGGACTGGGCCGAGCCG

GCCCAAGAAGGGAAGGGGGTGGAAAGAA

……

其蛋白质序列数据库(Protein.fasta)格式为：

>OsJRFA058203 AK058203 86

MQLLLLTCLLQLIMVTNKAIASQISQIKHFFHCILVVVCPNSSMYLIMSGSPGTELELIPLPLP

RSLTRCARSFGCGERYQLTQRR

……

首先构建本地的序列数据库：

formatdb-i GenomeSequence.fasta-p F-o T-n GenomeSeq其中-i参数输入的全基因组核苷酸序列的数据，生成的数据库为GenomeSeq

屏蔽重复序列

水稻基因组中有大量重复序列(约含50％)，在假基因搜集前，必须屏蔽这些重复数据以避免其干扰，为此，我们调用RepeatMasker程序(可以免费下载，网址：http：//www.repeatmasker.org/)对提交的序列中所包含的简单重复序列和rRNA重复序列，加以“屏蔽”。

本地执行RepeatMasker命令如下：

RepeatMasker-nolow-norna-species rice japonic.fa

RepeatMasker-nolow-norna-species rice indica.fa

参数-nolow：不屏蔽重复序列

参数-norna：不屏蔽rRNA重复序列

参数-species：针对水稻(rice)物种的特异性进行屏蔽

(2)利用BLAST程序对前述数据库进行搜索比对，获取标准BLAST格式的比对结果：

BLAST(Basic Local Alignment Search Tool的缩写，基本局部相似性比对搜索工具)是目前常用的数据库搜索程序。本实验采用大内存服务器进行本地BLAST搜索，包括对生成的数据库GenomeSeq进行tBLASTn六框翻译：

blastall-p tblastn-d GenomeSeq-i Protein.fasta-e 10-F T-g T-M BLOSUM62-o Pseudogene.blst

其中-p选择类型为tblastn，核苷酸序列数据库为GenomeSeq，而用来对比的蛋白质序列为Protein.fasta，采取默认的E值e-10，用BLOSUM62作为比对矩阵，最后输出的文件为Pseudogene.blst。

为了提高速度，可以将序列切断成互相重叠的几部分，用相同的蛋白质氨基酸序列进行tBLASTn对比，这样能够充分利用系统的资源，缩短程序运行的时间。

最后得到的tBLASTn结果是标准的BLAST格式的文本文件，示例如下：

Query＝OsJRFA058204 AK058204 242 (242 letters)

Database：chr0107.fasta

6 sequences；213，379，654 total letters

Searching.done Score E

Sequences producing significant alignments： (bits)Value

Chr03 2003-10-07 BGI 159 8e-39

Chr05 2003-10-07 BGI 142 1e-33

Chr01 2003-10-07 BGI 135 1e-31

Chr04 2003-10-07 BGI 69 2e-11

Chr06 2003-10-07 BGI 52 2e-06

>Chr03 2003-10-07 BGI Length＝39513956

Score＝159bits(403)，Expect＝8e-39

Identities＝83/101(82％)，Positives＝85/101(84％) Frame＝+3

Query：63

CSFIFLFVPWFLLEKPEMDVSQIQFNYWIXXXXXXXXXXLNISIFLVIGRTGAVTIRVAG 122

CSFIFLFVPWFLLEKPEMDVSQIQFNYWI LNISIFLVIGRTGAVTIRVAG

Sbjct：30379542

CSFIFLFVPWFLLEKPEMDVSQIQFNYWIFFFNAVAAFALNISIFLVIGRTGAVTIRVAG 30379721

Query：123 VLKDWILIALSTI IFPESI ITSLNI IGYAVALSGVVMYNYL 163

VLKDWILIALSTI IFPESI ITSLNI IGYAV G +N+L

Sbjct：30379722 VLKDWILIALSTIIFPESIITSLNIIGYAV---GNYPFNFL 30379835

Score＝118bits(296)，Expect＝2e-26

Identities＝74/133(55％)，Positives＝86/133(64％)，Gaps＝17/133(12％)

Frame＝+1

Query：127 WILIALST----IIFPESIITSLNIIGYAV--

ALSGVVMYNYLKMKDVRANQ--------172

W++ALST IPS++ IYV L +++NL + +

Sbjct：30380461

WVAVALST*PQHFITP*SLVLPCQQIRYHVNIVLELPILFNTLLRVTLI IGKTK*LLIFL 30380640

(3)使用Bioperl中的SeqIO模块分析比对结果，获取记录假基因和基因特征值数据的信息文件：

为进一步提取假基因候选序列的长度，比对分数，起始位置，染色体定位等系列数据。我们使用Bioperl(计算机语言)中的SeqIO模块，(一个专门用来分析比对结果文件的模块，网上免费程序)，过滤出相似度在40％以上的序列，其中籼稻有407602条记录，而粳稻有161764条记录。文件格式如下：

染色体对应蛋白质 E值长度起始位置终止位置

Chr01 OsJRFA058210 42.0168067226891 356 40199116 40199472

Chr01 OsJRFA058210 64.6153846153846 194 39472402 39472596

(4)去除冗余的假基因和基因数据：

为了避免统计重复的信息，我们对上一步骤中挑选出来的序列，根据其起始位置等信息去除所有重复的候选，只选取其中一条序列作为进一步研究的对象。该步骤可以在系统中用简单的排序脚本实现，这里不再举例。

基因序列在BLAST过程中也会得到相同的结果。为避免统计上重复，我们还从候选序列中剔除那些基因重复序列，本实例中，我们采用了中国科学院北京基因组研究所的基因寻找程序(网上免费程序)，从两个水稻亚种的全基因组序列中寻找基因序列数据，其格式如下：

染色体正反链长度 ORF位置

chr1_1 F 1839

2966..3133，3874..3972，4974..5075，6654..7460，7547..7666

chr1_2 R 636 10889..11287，11395..11559，11663..11734

chr1_3 F 1902

12291..13328，13424..13786，13877..13954，14357..14686，

……

最后的结果，籼稻剩下180012条序列，粳稻剩下62258条序列。

5)将相邻匹配的核苷酸序列连接，再用FASTA程序的Smith-Waterman算法进行最优化匹配，完成对假基因的筛选和分类：

基因组中的假基因鉴于他们不同的形成机制和研究用途，可分为加工和非加工两种假基因序列。非加工假基因通常是指在基因的复制过程中所发生的功能缺失突变(如插入，缺失或者移码)，这些复制后的基因片断无法进行正常的编码，而形成沉默的冗余片断。而加工假基因则是由mRNA转录物反转录成cDNA，随后整合入基因组得以形成。故又称为逆转座型假基因(RetrotransposedPseudogenes)。加工假基因目前只在真核生物中发现，他们与基因功能序列密切相关，在基因组进化研究上能提供更信服的证据，因而是研究的主要对象。

加工假基因具有以下明显的序列特征，如：两末端都有很短的定向重复序列；3’末端带有多聚腺嘌呤尾部序列；编码区密码子的突变和终止密码子的提前出现；缺乏内含子和启动子区域。

去处冗余匹配后，将所有匹配按其起始位置进行排序，如果相邻的匹配属于同一个基因，则将对应部分的核苷酸序列进行连接，并向两端延伸使之长度超过同源基因30bp。然后，再用FASTA程序的Smith-Waterman算法对其联配，获得每个基因与其候选假基因片断的最优化匹配，据此对候选假基因进行筛选、分类，假基因的筛选标准如下：

①与编码已知蛋白质的序列高度相似(BLAST E值＜1e-10，氨基酸相似程度大于40％)；

②与已知功能基因进行比对，不含超过60bp的空洞；

③与相似基因比较，覆盖了其70％的编码序列区域；

④含有多腺嘌呤尾部序列(多含有AATAAA信号)；

⑤提前出现终止密码子或具有移码突变。

符合⑤则可视此片断为真正的假基因，其余则为候选假基因。

符合①②③④视为加工假基因，其余则为非加工假基因。

符合①②③④⑤视为新出现的加工假基因。

加工和非加工两种假基因序列在基因组进化研究上均有重要价值，都应保存在数据库中。

其数据格式同前面未筛选的假基因数据：

染色体对应蛋白质 E值长度起始位置终止位置

Chr01 OsJRFA058210 42.0168067226891 356 40199116 40199472

Chr01 OsJRFA058210 64.6153846153846 194 39472402 39472596

(6)以加工假基因对应的特征值作为数据项标识建立假基因的数据库：

为了进一步建立方便的假基因数据查询体系，我们用Oracle(数据库软件)建立假基因的数据库，由于在获得假基因的数据时候已经按各种属性进行统计，所以在构建数据库的时候，只需将对应的属性作为数据项标识即可。

假基因序列的提取

为了进一步研究假基因的序列特性，如：GC含量等，需要把所有假基因的序列数据从全基因组序列中提取出来。我们在本程序中是采用Bioperl的SeqIO模块，分离全基因组中的序列数据。

假基因的数据获得之后，我们可以利用Bioperl设计计算机程序，对假基因的群体状况、染色体分布，GC含量和长度分布，同源蛋白家族、染色体位置分布等进行全面分析。并对获得的数据结果作统计处理和绘图。

最后，还需要注意的是，以上列举的仅是本发明的具体实施例子。显然，本发明不限于以上实施例子，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1、一种水稻全基因组假基因数据库构建方法，其特征在于，包括以下步骤：

(4)去除冗余的假基因和基因数据；

②与已知功能基因进行比对，不含超过60bp的空洞；

③与相似基因比较，覆盖了其70％的编码序列区域；

④含有多腺嘌呤尾部序列(多含有AATAAA信号)；

⑤提前出现终止密码子或具有移码突变；

符合①②③④视为加工假基因，其余则为非加工假基因；

符合①②③④⑤视为新出现的加工假基因；

2、根据权利要求1所述的数据库构建方法，其特征在于，在构建已知水稻全基因组序列的本地数据库后，使用RepeatMasker程序屏蔽简单重复序列和rRNA重复序列，以避免这些数据的干扰。

3、根据权利要求1所述的数据库构建方法，其特征在于，运行本地BLAST搜索时，包括对生成的数据库进行tBLASTn六框翻译；将序列切断成互相重叠的几部分，用相同的蛋白质氨基酸序列进行tBLASTn对比以提高比对速度。

4、根据权利要求1所述的数据库构建方法，其特征在于，所述假基因和基因特征值数据包括染色体、对应蛋白质、E值、长度、起始位置或终止位置。