CN1733915A - 水稻全基因组假基因数据库构建方法 - Google Patents

水稻全基因组假基因数据库构建方法 Download PDF

Info

Publication number
CN1733915A
CN1733915A CN 200510050764 CN200510050764A CN1733915A CN 1733915 A CN1733915 A CN 1733915A CN 200510050764 CN200510050764 CN 200510050764 CN 200510050764 A CN200510050764 A CN 200510050764A CN 1733915 A CN1733915 A CN 1733915A
Authority
CN
China
Prior art keywords
pseudogene
sequence
data
gene
construction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200510050764
Other languages
English (en)
Inventor
薛庆中
黄志华
张忠华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN 200510050764 priority Critical patent/CN1733915A/zh
Publication of CN1733915A publication Critical patent/CN1733915A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基因序列数据处理方法,特别涉及水稻全基因组假基因数据库构建方法。包括将计算机系统中构建已知水稻全基因组序列的本地数据库;利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果;使用Bioperl中的SeqIO模块分析比对结果,获取记录假基因和基因特征值数据的信息文件;去除冗余的假基因和基因数据;对假基因的筛选和分类;和以假基因对应的特征值作为数据项标识建立假基因的数据库。利用本发明提供的方法,可以对水稻乃至其他植物的假基因进行全基因组范围的搜索和分析,为研究和探索作物遗传、变异、进化提供分子证据。

Description

水稻全基因组假基因数据库构建方法
技术领域
本发明涉及一种基因序列数据处理方法,更具体地说,本发明涉及一种水稻全基因组假基因数据库构建方法。
背景技术
假基因是基因组中丧失功能的DNA序列,换言之,是功能基因不具备编码能力的多拷贝,或是与功能基因相似的序列。假基因很好保留了数百万年前基因组中祖先基因的分子记录,被视为”基因化石”,因而,假基因在进化和比较基因组学中是重要的资源。应用假基因和基因比较体系,可以为研究物种亲缘关系和进化距离,分析假基因自身的进化趋势,探讨DNA突变的成因等提供新的洞察。
国外美国耶鲁大学的Gerstein实验室在其网站上(http://www.pseudogene.org)对人、大鼠、酵母、美丽线虫和果蝇等5种模式生物提供了假基因的相关论文,但没有公布其相关研究的分析方法。
水稻是重要的粮食作物,2002年已完成全基因组序列框架图测序,这在作物中尚属首次。目前国内外尚未完成水稻基因组的假基因分析和公布水稻全基因组的假基因数据。我们利用生物信息学方法,首创自编计算机程序,首次获得水稻全基因组假基因数据,率先完成水稻全基因组假基因数据库的构建。
发明内容
针对迄今国内外尚未获得水稻全基因组的假基因数据现状,本发明首次提出从水稻全基因组分离,筛选,识别假基因数据的关键技术,主要目的是提供一种水稻全基因组假基因数据库构建方法。
本发明提供的水稻全基因组假基因数据库构建方法,包括以下步骤:
(1)在计算机系统中构建已知水稻全基因组序列的本地数据库;
(2)利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果;
(3)使用Bioperl中的SeqIO模块分析比对结果,获取记录假基因和基因特征值数据的信息文件;
(4)去除冗余的假基因和基因数据;
(5)将相邻匹配的核苷酸序列连接,再用FASTA程序的Smith-Waterman算法进行最优化匹配,完成对假基因的筛选和分类,其鉴别标准如下:
①与编码已知蛋白质的序列相似度:BLAST E值<1e-10,氨基酸相似程度大于40%);
②与已知功能基因进行比对,不含超过60bp的空洞;
③与相似基因比较,覆盖了其70%的编码序列区域;
④含有多腺嘌呤尾部序列(多含有AATAAA信号);
⑤提前出现终止密码子或具有移码突变;
符合⑤则可视此片断为真正的假基因,其余则为候选假基因;
符合①②③④视为加工假基因,其余则为非加工假基因;
符合①②③④⑤视为新出现的加工假基因。
(6)以假基因对应的特征值作为数据项标识建立假基因的数据库。
本发明在构建已知水稻全基因组序列的本地数据库后,使用RepeatMasker程序屏蔽简单重复序列和rRNA重复序列,以避免这些数据的干扰。
本发明在运行本地BLAST搜索时,包括对生成的数据库进行tBLASTn六框翻译;将序列切断成互相重叠的几部分,用相同的蛋白质氨基酸序列进行tBLASTn对比以提高比对速度。
本发明所述假基因和基因特征值数据包括染色体、对应蛋白质、E值、长度、起始位置或终止位置。
与现有技术相比,本发明的有益效果是:
利用本发明提供的方法,可以对水稻乃至其他植物的假基因进行全基因组范围的搜索和分析,为研究和探索作物遗传、变异、进化提供分子证据。
具体实施方式
以下通过实例进一步对本发明进行描述。
(1)在计算机系统中构建已知水稻全基因组序列的本地数据库:
本实施例中假基因的数据主要是在水稻全基因组序列中利用同源性比对(BLAST等程序)对可能编码已知蛋白的DNA序列进行搜索和收集。其中籼稻和粳稻数据来自中国科学院北京基因组研究所完成测序的籼、粳稻全基因组序列,所有蛋白质数据来自国际水稻基因组计划(IRGSP)的官方FTP(cdna01.dna.affrc.go.jp)。
其中籼稻和粳稻的基因组序列数据库(GenomeSequence.fasta)格式为:
>Chr01
GCGCGGGGAAGGGCCGATGGGCCGCGGGGGAGAGGAGAGAGAGGGAGGGGACTGGGCCGAGCCG
GCCCAAGAAGGGAAGGGGGTGGAAAGAA
……
>Chr12
GCGCGGGGAAGGGCCGATGGGCCGCGGGGGAGAGGAGAGAGAGGGAGGGGACTGGGCCGAGCCG
GCCCAAGAAGGGAAGGGGGTGGAAAGAA
……
其蛋白质序列数据库(Protein.fasta)格式为:
>OsJRFA058203   AK058203        86
MQLLLLTCLLQLIMVTNKAIASQISQIKHFFHCILVVVCPNSSMYLIMSGSPGTELELIPLPLP
RSLTRCARSFGCGERYQLTQRR
……
首先构建本地的序列数据库:
formatdb-i GenomeSequence.fasta-p F-o T-n GenomeSeq其中-i参数输入的全基因组核苷酸序列的数据,生成的数据库为GenomeSeq
屏蔽重复序列
水稻基因组中有大量重复序列(约含50%),在假基因搜集前,必须屏蔽这些重复数据以避免其干扰,为此,我们调用RepeatMasker程序(可以免费下载,网址:http://www.repeatmasker.org/)对提交的序列中所包含的简单重复序列和rRNA重复序列,加以“屏蔽”。
本地执行RepeatMasker命令如下:
RepeatMasker-nolow-norna-species rice japonic.fa
RepeatMasker-nolow-norna-species rice indica.fa
参数-nolow:不屏蔽重复序列
参数-norna:不屏蔽rRNA重复序列
参数-species:针对水稻(rice)物种的特异性进行屏蔽
(2)利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果:
BLAST(Basic Local Alignment Search Tool的缩写,基本局部相似性比对搜索工具)是目前常用的数据库搜索程序。本实验采用大内存服务器进行本地BLAST搜索,包括对生成的数据库GenomeSeq进行tBLASTn六框翻译:
blastall-p tblastn-d GenomeSeq-i Protein.fasta-e 10-F T-g T-M BLOSUM62-o Pseudogene.blst
其中-p选择类型为tblastn,核苷酸序列数据库为GenomeSeq,而用来对比的蛋白质序列为Protein.fasta,采取默认的E值e-10,用BLOSUM62作为比对矩阵,最后输出的文件为Pseudogene.blst。
为了提高速度,可以将序列切断成互相重叠的几部分,用相同的蛋白质氨基酸序列进行tBLASTn对比,这样能够充分利用系统的资源,缩短程序运行的时间。
最后得到的tBLASTn结果是标准的BLAST格式的文本文件,示例如下:
Query=OsJRFA058204    AK058204    242  (242 letters)
Database:chr0107.fasta
6 sequences;213,379,654 total letters
Searching.done                                   Score    E
Sequences producing significant alignments:    (bits)Value
Chr03 2003-10-07 BGI                             159  8e-39
Chr05 2003-10-07 BGI                             142  1e-33
Chr01 2003-10-07 BGI                             135  1e-31
Chr04 2003-10-07 BGI                               69  2e-11
Chr06 2003-10-07 BGI                               52  2e-06
>Chr03 2003-10-07 BGI Length=39513956
Score=159bits(403),Expect=8e-39
Identities=83/101(82%),Positives=85/101(84%)  Frame=+3
Query:63
CSFIFLFVPWFLLEKPEMDVSQIQFNYWIXXXXXXXXXXLNISIFLVIGRTGAVTIRVAG 122
  CSFIFLFVPWFLLEKPEMDVSQIQFNYWI          LNISIFLVIGRTGAVTIRVAG
 Sbjct:30379542
CSFIFLFVPWFLLEKPEMDVSQIQFNYWIFFFNAVAAFALNISIFLVIGRTGAVTIRVAG 30379721
  Query:123      VLKDWILIALSTI IFPESI ITSLNI IGYAVALSGVVMYNYL 163
                  VLKDWILIALSTI IFPESI ITSLNI IGYAV  G  +N+L
Sbjct:30379722   VLKDWILIALSTIIFPESIITSLNIIGYAV---GNYPFNFL 30379835
Score=118bits(296),Expect=2e-26
Identities=74/133(55%),Positives=86/133(64%),Gaps=17/133(12%)
Frame=+1
Query:127    WILIALST----IIFPESIITSLNIIGYAV--
ALSGVVMYNYLKMKDVRANQ--------172
W++ALST    IPS++    IYV  L  +++NL    +  +
Sbjct:30380461
WVAVALST*PQHFITP*SLVLPCQQIRYHVNIVLELPILFNTLLRVTLI IGKTK*LLIFL 30380640
(3)使用Bioperl中的SeqIO模块分析比对结果,获取记录假基因和基因特征值数据的信息文件:
为进一步提取假基因候选序列的长度,比对分数,起始位置,染色体定位等系列数据。我们使用Bioperl(计算机语言)中的SeqIO模块,(一个专门用来分析比对结果文件的模块,网上免费程序),过滤出相似度在40%以上的序列,其中籼稻有407602条记录,而粳稻有161764条记录。文件格式如下:
染色体   对应蛋白质             E值      长度   起始位置   终止位置
Chr01   OsJRFA058210   42.0168067226891   356   40199116   40199472
Chr01   OsJRFA058210   64.6153846153846   194   39472402   39472596
(4)去除冗余的假基因和基因数据:
为了避免统计重复的信息,我们对上一步骤中挑选出来的序列,根据其起始位置等信息去除所有重复的候选,只选取其中一条序列作为进一步研究的对象。该步骤可以在系统中用简单的排序脚本实现,这里不再举例。
基因序列在BLAST过程中也会得到相同的结果。为避免统计上重复,我们还从候选序列中剔除那些基因重复序列,本实例中,我们采用了中国科学院北京基因组研究所的基因寻找程序(网上免费程序),从两个水稻亚种的全基因组序列中寻找基因序列数据,其格式如下:
染色体正反链长度  ORF位置
chr1_1  F        1839
2966..3133,3874..3972,4974..5075,6654..7460,7547..7666
chr1_2 R         636  10889..11287,11395..11559,11663..11734
chr1_3 F         1902
12291..13328,13424..13786,13877..13954,14357..14686,
……
最后的结果,籼稻剩下180012条序列,粳稻剩下62258条序列。
5)将相邻匹配的核苷酸序列连接,再用FASTA程序的Smith-Waterman算法进行最优化匹配,完成对假基因的筛选和分类:
基因组中的假基因鉴于他们不同的形成机制和研究用途,可分为加工和非加工两种假基因序列。非加工假基因通常是指在基因的复制过程中所发生的功能缺失突变(如插入,缺失或者移码),这些复制后的基因片断无法进行正常的编码,而形成沉默的冗余片断。而加工假基因则是由mRNA转录物反转录成cDNA,随后整合入基因组得以形成。故又称为逆转座型假基因(RetrotransposedPseudogenes)。加工假基因目前只在真核生物中发现,他们与基因功能序列密切相关,在基因组进化研究上能提供更信服的证据,因而是研究的主要对象。
加工假基因具有以下明显的序列特征,如:两末端都有很短的定向重复序列;3’末端带有多聚腺嘌呤尾部序列;编码区密码子的突变和终止密码子的提前出现;缺乏内含子和启动子区域。
去处冗余匹配后,将所有匹配按其起始位置进行排序,如果相邻的匹配属于同一个基因,则将对应部分的核苷酸序列进行连接,并向两端延伸使之长度超过同源基因30bp。然后,再用FASTA程序的Smith-Waterman算法对其联配,获得每个基因与其候选假基因片断的最优化匹配,据此对候选假基因进行筛选、分类,假基因的筛选标准如下:
①与编码已知蛋白质的序列高度相似(BLAST E值<1e-10,氨基酸相似程度大于40%);
②与已知功能基因进行比对,不含超过60bp的空洞;
③与相似基因比较,覆盖了其70%的编码序列区域;
④含有多腺嘌呤尾部序列(多含有AATAAA信号);
⑤提前出现终止密码子或具有移码突变。
符合⑤则可视此片断为真正的假基因,其余则为候选假基因。
符合①②③④视为加工假基因,其余则为非加工假基因。
符合①②③④⑤视为新出现的加工假基因。
加工和非加工两种假基因序列在基因组进化研究上均有重要价值,都应保存在数据库中。
其数据格式同前面未筛选的假基因数据:
染色体  对应蛋白质              E值     长度  起始位置   终止位置
Chr01   OsJRFA058210  42.0168067226891  356   40199116   40199472
Chr01   OsJRFA058210  64.6153846153846  194   39472402   39472596
(6)以加工假基因对应的特征值作为数据项标识建立假基因的数据库:
为了进一步建立方便的假基因数据查询体系,我们用Oracle(数据库软件)建立假基因的数据库,由于在获得假基因的数据时候已经按各种属性进行统计,所以在构建数据库的时候,只需将对应的属性作为数据项标识即可。
假基因序列的提取
为了进一步研究假基因的序列特性,如:GC含量等,需要把所有假基因的序列数据从全基因组序列中提取出来。我们在本程序中是采用Bioperl的SeqIO模块,分离全基因组中的序列数据。
假基因的数据获得之后,我们可以利用Bioperl设计计算机程序,对假基因的群体状况、染色体分布,GC含量和长度分布,同源蛋白家族、染色体位置分布等进行全面分析。并对获得的数据结果作统计处理和绘图。
最后,还需要注意的是,以上列举的仅是本发明的具体实施例子。显然,本发明不限于以上实施例子,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (4)

1、一种水稻全基因组假基因数据库构建方法,其特征在于,包括以下步骤:
(1)在计算机系统中构建已知水稻全基因组序列的本地数据库;
(2)利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果;
(3)使用Bioperl中的SeqIO模块分析比对结果,获取记录假基因和基因特征值数据的信息文件;
(4)去除冗余的假基因和基因数据;
(5)将相邻匹配的核苷酸序列连接,再用FASTA程序的Smith-Waterman算法进行最优化匹配,完成对假基因的筛选和分类,其鉴别标准如下:
①与编码已知蛋白质的序列相似度:BLAST E值<1e-10,氨基酸相似程度大于40%);
②与已知功能基因进行比对,不含超过60bp的空洞;
③与相似基因比较,覆盖了其70%的编码序列区域;
④含有多腺嘌呤尾部序列(多含有AATAAA信号);
⑤提前出现终止密码子或具有移码突变;
符合⑤则可视此片断为真正的假基因,其余则为候选假基因;
符合①②③④视为加工假基因,其余则为非加工假基因;
符合①②③④⑤视为新出现的加工假基因;
(6)以假基因对应的特征值作为数据项标识建立假基因的数据库。
2、根据权利要求1所述的数据库构建方法,其特征在于,在构建已知水稻全基因组序列的本地数据库后,使用RepeatMasker程序屏蔽简单重复序列和rRNA重复序列,以避免这些数据的干扰。
3、根据权利要求1所述的数据库构建方法,其特征在于,运行本地BLAST搜索时,包括对生成的数据库进行tBLASTn六框翻译;将序列切断成互相重叠的几部分,用相同的蛋白质氨基酸序列进行tBLASTn对比以提高比对速度。
4、根据权利要求1所述的数据库构建方法,其特征在于,所述假基因和基因特征值数据包括染色体、对应蛋白质、E值、长度、起始位置或终止位置。
CN 200510050764 2005-07-19 2005-07-19 水稻全基因组假基因数据库构建方法 Pending CN1733915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200510050764 CN1733915A (zh) 2005-07-19 2005-07-19 水稻全基因组假基因数据库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200510050764 CN1733915A (zh) 2005-07-19 2005-07-19 水稻全基因组假基因数据库构建方法

Publications (1)

Publication Number Publication Date
CN1733915A true CN1733915A (zh) 2006-02-15

Family

ID=36076532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200510050764 Pending CN1733915A (zh) 2005-07-19 2005-07-19 水稻全基因组假基因数据库构建方法

Country Status (1)

Country Link
CN (1) CN1733915A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521528A (zh) * 2011-12-05 2012-06-27 中国科学院计算机网络信息中心 一种基因序列数据的筛选方法
CN108509770A (zh) * 2017-05-19 2018-09-07 北京林业大学 确定林木基因组中假基因的方法
CN108804875A (zh) * 2018-06-21 2018-11-13 中国科学院北京基因组研究所 一种利用宏基因组数据分析微生物群体功能的方法
CN110310699A (zh) * 2019-07-01 2019-10-08 江苏里下河地区农业科学研究所 基于全基因组序列挖掘目标基因序列的分析工具及应用
CN113851194A (zh) * 2021-07-30 2021-12-28 北京航空航天大学 一种脑卒中病因靶向生物标志物数据库构建方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521528A (zh) * 2011-12-05 2012-06-27 中国科学院计算机网络信息中心 一种基因序列数据的筛选方法
CN108509770A (zh) * 2017-05-19 2018-09-07 北京林业大学 确定林木基因组中假基因的方法
CN108804875A (zh) * 2018-06-21 2018-11-13 中国科学院北京基因组研究所 一种利用宏基因组数据分析微生物群体功能的方法
CN108804875B (zh) * 2018-06-21 2020-11-17 中国科学院北京基因组研究所 一种利用宏基因组数据分析微生物群体功能的方法
CN110310699A (zh) * 2019-07-01 2019-10-08 江苏里下河地区农业科学研究所 基于全基因组序列挖掘目标基因序列的分析工具及应用
CN113851194A (zh) * 2021-07-30 2021-12-28 北京航空航天大学 一种脑卒中病因靶向生物标志物数据库构建方法和装置

Similar Documents

Publication Publication Date Title
Peng et al. High-throughput identification of novel conotoxins from the Chinese tubular cone snail (Conus betulinus) by multi-transcriptome sequencing
CN1110761C (zh) 用于完成序列同源性检测的方法和装置
Hara et al. Optimizing and benchmarking de novo transcriptome sequencing: from library preparation to assembly evaluation
CN1115644C (zh) 利用相关数据库实现非循环定向图形结构的方法
Ungaro et al. Challenges and advances for transcriptome assembly in non-model species
Sinha et al. Cross-species comparison significantly improves genome-wide prediction of cis-regulatory modules in Drosophila
Milano et al. Novel tools for conservation genomics: comparing two high-throughput approaches for SNP discovery in the transcriptome of the European hake
CN101063969A (zh) 构造布局平衡的带标记映像树的方法和系统
CN1733915A (zh) 水稻全基因组假基因数据库构建方法
CN1910581A (zh) 用于按类别提供关键字输入频率信息的搜索系统及其方法
Xiao et al. Functional marker detection and analysis on a comprehensive transcriptome of large yellow croaker by next generation sequencing
CN1867933A (zh) 评估和优化原油选择的方法及系统
CN1928866A (zh) 用于处理包括半连接的查询的方法和系统
CN101075262A (zh) 一种计算机汉字输入方法及系统
CN1492367A (zh) 询问应答系统及询问应答方法
CN1645516A (zh) 用于闪速存储器的数据恢复设备和方法
CN1141666C (zh) 利用标准笔划识别输入字符的在线字符识别系统
CN1627294A (zh) 用学习数据有效提取检索者合意的文档的过滤方法和设备
CN101055579A (zh) 一套提供互动搜索及互动广告的装置和方法
CN1284686A (zh) 图案列匹配装置和图案列匹配方法
CN1975772A (zh) 整合多个系统中的信息的方法和装置
CN1198554A (zh) 能简单修饰文件数据的文件处理装置和程序存储介质
CN101051321A (zh) 一种多字符串匹配方法和芯片
Zhou et al. Development and evaluation of a high-throughput single-nucleotide polymorphism array for large yellow croaker (Larimichthys crocea)
CN1161688C (zh) 字符处理装置及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20060215