CN1733915A - 水稻全基因组假基因数据库构建方法 - Google Patents
水稻全基因组假基因数据库构建方法 Download PDFInfo
- Publication number
- CN1733915A CN1733915A CN 200510050764 CN200510050764A CN1733915A CN 1733915 A CN1733915 A CN 1733915A CN 200510050764 CN200510050764 CN 200510050764 CN 200510050764 A CN200510050764 A CN 200510050764A CN 1733915 A CN1733915 A CN 1733915A
- Authority
- CN
- China
- Prior art keywords
- pseudogene
- sequence
- data
- gene
- construction method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 46
- 235000007164 Oryza sativa Nutrition 0.000 title claims abstract description 33
- 235000009566 rice Nutrition 0.000 title claims abstract description 33
- 238000010276 construction Methods 0.000 title claims description 9
- 240000007594 Oryza sativa Species 0.000 title 1
- 241000209094 Oryza Species 0.000 claims abstract description 32
- 238000012216 screening Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 17
- 102000004169 proteins and genes Human genes 0.000 claims description 16
- 230000008878 coupling Effects 0.000 claims description 10
- 238000010168 coupling process Methods 0.000 claims description 10
- 238000005859 coupling reaction Methods 0.000 claims description 10
- 108060008682 Tumor Necrosis Factor Proteins 0.000 claims description 8
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 6
- 239000002773 nucleotide Substances 0.000 claims description 6
- 125000003729 nucleotide group Chemical group 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000002068 genetic effect Effects 0.000 claims description 5
- 108020005038 Terminator Codon Proteins 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 3
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 3
- 150000001413 amino acids Chemical class 0.000 claims description 3
- 230000010363 phase shift Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 102000000852 Tumor Necrosis Factor-alpha Human genes 0.000 claims 1
- 102000057361 Pseudogenes Human genes 0.000 abstract description 66
- 108091008109 Pseudogenes Proteins 0.000 abstract description 65
- 238000000034 method Methods 0.000 abstract description 6
- 239000003550 marker Substances 0.000 abstract 1
- 238000011160 research Methods 0.000 description 9
- 240000008467 Oryza sativa Japonica Group Species 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 241001269238 Data Species 0.000 description 2
- 101710204837 Envelope small membrane protein Proteins 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 101710088839 Replication initiation protein Proteins 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 241000288673 Chiroptera Species 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 108020004705 Codon Proteins 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000244206 Nematoda Species 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 238000002869 basic local alignment search tool Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000014107 chromosome localization Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 102000003390 tumor necrosis factor Human genes 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基因序列数据处理方法,特别涉及水稻全基因组假基因数据库构建方法。包括将计算机系统中构建已知水稻全基因组序列的本地数据库;利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果;使用Bioperl中的SeqIO模块分析比对结果,获取记录假基因和基因特征值数据的信息文件;去除冗余的假基因和基因数据;对假基因的筛选和分类;和以假基因对应的特征值作为数据项标识建立假基因的数据库。利用本发明提供的方法,可以对水稻乃至其他植物的假基因进行全基因组范围的搜索和分析,为研究和探索作物遗传、变异、进化提供分子证据。
Description
技术领域
本发明涉及一种基因序列数据处理方法,更具体地说,本发明涉及一种水稻全基因组假基因数据库构建方法。
背景技术
假基因是基因组中丧失功能的DNA序列,换言之,是功能基因不具备编码能力的多拷贝,或是与功能基因相似的序列。假基因很好保留了数百万年前基因组中祖先基因的分子记录,被视为”基因化石”,因而,假基因在进化和比较基因组学中是重要的资源。应用假基因和基因比较体系,可以为研究物种亲缘关系和进化距离,分析假基因自身的进化趋势,探讨DNA突变的成因等提供新的洞察。
国外美国耶鲁大学的Gerstein实验室在其网站上(http://www.pseudogene.org)对人、大鼠、酵母、美丽线虫和果蝇等5种模式生物提供了假基因的相关论文,但没有公布其相关研究的分析方法。
水稻是重要的粮食作物,2002年已完成全基因组序列框架图测序,这在作物中尚属首次。目前国内外尚未完成水稻基因组的假基因分析和公布水稻全基因组的假基因数据。我们利用生物信息学方法,首创自编计算机程序,首次获得水稻全基因组假基因数据,率先完成水稻全基因组假基因数据库的构建。
发明内容
针对迄今国内外尚未获得水稻全基因组的假基因数据现状,本发明首次提出从水稻全基因组分离,筛选,识别假基因数据的关键技术,主要目的是提供一种水稻全基因组假基因数据库构建方法。
本发明提供的水稻全基因组假基因数据库构建方法,包括以下步骤:
(1)在计算机系统中构建已知水稻全基因组序列的本地数据库;
(2)利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果;
(3)使用Bioperl中的SeqIO模块分析比对结果,获取记录假基因和基因特征值数据的信息文件;
(4)去除冗余的假基因和基因数据;
(5)将相邻匹配的核苷酸序列连接,再用FASTA程序的Smith-Waterman算法进行最优化匹配,完成对假基因的筛选和分类,其鉴别标准如下:
①与编码已知蛋白质的序列相似度:BLAST E值<1e-10,氨基酸相似程度大于40%);
②与已知功能基因进行比对,不含超过60bp的空洞;
③与相似基因比较,覆盖了其70%的编码序列区域;
④含有多腺嘌呤尾部序列(多含有AATAAA信号);
⑤提前出现终止密码子或具有移码突变;
符合⑤则可视此片断为真正的假基因,其余则为候选假基因;
符合①②③④视为加工假基因,其余则为非加工假基因;
符合①②③④⑤视为新出现的加工假基因。
(6)以假基因对应的特征值作为数据项标识建立假基因的数据库。
本发明在构建已知水稻全基因组序列的本地数据库后,使用RepeatMasker程序屏蔽简单重复序列和rRNA重复序列,以避免这些数据的干扰。
本发明在运行本地BLAST搜索时,包括对生成的数据库进行tBLASTn六框翻译;将序列切断成互相重叠的几部分,用相同的蛋白质氨基酸序列进行tBLASTn对比以提高比对速度。
本发明所述假基因和基因特征值数据包括染色体、对应蛋白质、E值、长度、起始位置或终止位置。
与现有技术相比,本发明的有益效果是:
利用本发明提供的方法,可以对水稻乃至其他植物的假基因进行全基因组范围的搜索和分析,为研究和探索作物遗传、变异、进化提供分子证据。
具体实施方式
以下通过实例进一步对本发明进行描述。
(1)在计算机系统中构建已知水稻全基因组序列的本地数据库:
本实施例中假基因的数据主要是在水稻全基因组序列中利用同源性比对(BLAST等程序)对可能编码已知蛋白的DNA序列进行搜索和收集。其中籼稻和粳稻数据来自中国科学院北京基因组研究所完成测序的籼、粳稻全基因组序列,所有蛋白质数据来自国际水稻基因组计划(IRGSP)的官方FTP(cdna01.dna.affrc.go.jp)。
其中籼稻和粳稻的基因组序列数据库(GenomeSequence.fasta)格式为:
>Chr01
GCGCGGGGAAGGGCCGATGGGCCGCGGGGGAGAGGAGAGAGAGGGAGGGGACTGGGCCGAGCCG
GCCCAAGAAGGGAAGGGGGTGGAAAGAA
……
>Chr12
GCGCGGGGAAGGGCCGATGGGCCGCGGGGGAGAGGAGAGAGAGGGAGGGGACTGGGCCGAGCCG
GCCCAAGAAGGGAAGGGGGTGGAAAGAA
……
其蛋白质序列数据库(Protein.fasta)格式为:
>OsJRFA058203 AK058203 86
MQLLLLTCLLQLIMVTNKAIASQISQIKHFFHCILVVVCPNSSMYLIMSGSPGTELELIPLPLP
RSLTRCARSFGCGERYQLTQRR
……
首先构建本地的序列数据库:
formatdb-i GenomeSequence.fasta-p F-o T-n GenomeSeq其中-i参数输入的全基因组核苷酸序列的数据,生成的数据库为GenomeSeq
屏蔽重复序列
水稻基因组中有大量重复序列(约含50%),在假基因搜集前,必须屏蔽这些重复数据以避免其干扰,为此,我们调用RepeatMasker程序(可以免费下载,网址:http://www.repeatmasker.org/)对提交的序列中所包含的简单重复序列和rRNA重复序列,加以“屏蔽”。
本地执行RepeatMasker命令如下:
RepeatMasker-nolow-norna-species rice japonic.fa
RepeatMasker-nolow-norna-species rice indica.fa
参数-nolow:不屏蔽重复序列
参数-norna:不屏蔽rRNA重复序列
参数-species:针对水稻(rice)物种的特异性进行屏蔽
(2)利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果:
BLAST(Basic Local Alignment Search Tool的缩写,基本局部相似性比对搜索工具)是目前常用的数据库搜索程序。本实验采用大内存服务器进行本地BLAST搜索,包括对生成的数据库GenomeSeq进行tBLASTn六框翻译:
blastall-p tblastn-d GenomeSeq-i Protein.fasta-e 10-F T-g T-M BLOSUM62-o Pseudogene.blst
其中-p选择类型为tblastn,核苷酸序列数据库为GenomeSeq,而用来对比的蛋白质序列为Protein.fasta,采取默认的E值e-10,用BLOSUM62作为比对矩阵,最后输出的文件为Pseudogene.blst。
为了提高速度,可以将序列切断成互相重叠的几部分,用相同的蛋白质氨基酸序列进行tBLASTn对比,这样能够充分利用系统的资源,缩短程序运行的时间。
最后得到的tBLASTn结果是标准的BLAST格式的文本文件,示例如下:
Query=OsJRFA058204 AK058204 242 (242 letters)
Database:chr0107.fasta
6 sequences;213,379,654 total letters
Searching.done Score E
Sequences producing significant alignments: (bits)Value
Chr03 2003-10-07 BGI 159 8e-39
Chr05 2003-10-07 BGI 142 1e-33
Chr01 2003-10-07 BGI 135 1e-31
Chr04 2003-10-07 BGI 69 2e-11
Chr06 2003-10-07 BGI 52 2e-06
>Chr03 2003-10-07 BGI Length=39513956
Score=159bits(403),Expect=8e-39
Identities=83/101(82%),Positives=85/101(84%) Frame=+3
Query:63
CSFIFLFVPWFLLEKPEMDVSQIQFNYWIXXXXXXXXXXLNISIFLVIGRTGAVTIRVAG 122
CSFIFLFVPWFLLEKPEMDVSQIQFNYWI LNISIFLVIGRTGAVTIRVAG
Sbjct:30379542
CSFIFLFVPWFLLEKPEMDVSQIQFNYWIFFFNAVAAFALNISIFLVIGRTGAVTIRVAG 30379721
Query:123 VLKDWILIALSTI IFPESI ITSLNI IGYAVALSGVVMYNYL 163
VLKDWILIALSTI IFPESI ITSLNI IGYAV G +N+L
Sbjct:30379722 VLKDWILIALSTIIFPESIITSLNIIGYAV---GNYPFNFL 30379835
Score=118bits(296),Expect=2e-26
Identities=74/133(55%),Positives=86/133(64%),Gaps=17/133(12%)
Frame=+1
Query:127 WILIALST----IIFPESIITSLNIIGYAV--
ALSGVVMYNYLKMKDVRANQ--------172
W++ALST IPS++ IYV L +++NL + +
Sbjct:30380461
WVAVALST*PQHFITP*SLVLPCQQIRYHVNIVLELPILFNTLLRVTLI IGKTK*LLIFL 30380640
(3)使用Bioperl中的SeqIO模块分析比对结果,获取记录假基因和基因特征值数据的信息文件:
为进一步提取假基因候选序列的长度,比对分数,起始位置,染色体定位等系列数据。我们使用Bioperl(计算机语言)中的SeqIO模块,(一个专门用来分析比对结果文件的模块,网上免费程序),过滤出相似度在40%以上的序列,其中籼稻有407602条记录,而粳稻有161764条记录。文件格式如下:
染色体 对应蛋白质 E值 长度 起始位置 终止位置
Chr01 OsJRFA058210 42.0168067226891 356 40199116 40199472
Chr01 OsJRFA058210 64.6153846153846 194 39472402 39472596
(4)去除冗余的假基因和基因数据:
为了避免统计重复的信息,我们对上一步骤中挑选出来的序列,根据其起始位置等信息去除所有重复的候选,只选取其中一条序列作为进一步研究的对象。该步骤可以在系统中用简单的排序脚本实现,这里不再举例。
基因序列在BLAST过程中也会得到相同的结果。为避免统计上重复,我们还从候选序列中剔除那些基因重复序列,本实例中,我们采用了中国科学院北京基因组研究所的基因寻找程序(网上免费程序),从两个水稻亚种的全基因组序列中寻找基因序列数据,其格式如下:
染色体正反链长度 ORF位置
chr1_1 F 1839
2966..3133,3874..3972,4974..5075,6654..7460,7547..7666
chr1_2 R 636 10889..11287,11395..11559,11663..11734
chr1_3 F 1902
12291..13328,13424..13786,13877..13954,14357..14686,
……
最后的结果,籼稻剩下180012条序列,粳稻剩下62258条序列。
5)将相邻匹配的核苷酸序列连接,再用FASTA程序的Smith-Waterman算法进行最优化匹配,完成对假基因的筛选和分类:
基因组中的假基因鉴于他们不同的形成机制和研究用途,可分为加工和非加工两种假基因序列。非加工假基因通常是指在基因的复制过程中所发生的功能缺失突变(如插入,缺失或者移码),这些复制后的基因片断无法进行正常的编码,而形成沉默的冗余片断。而加工假基因则是由mRNA转录物反转录成cDNA,随后整合入基因组得以形成。故又称为逆转座型假基因(RetrotransposedPseudogenes)。加工假基因目前只在真核生物中发现,他们与基因功能序列密切相关,在基因组进化研究上能提供更信服的证据,因而是研究的主要对象。
加工假基因具有以下明显的序列特征,如:两末端都有很短的定向重复序列;3’末端带有多聚腺嘌呤尾部序列;编码区密码子的突变和终止密码子的提前出现;缺乏内含子和启动子区域。
去处冗余匹配后,将所有匹配按其起始位置进行排序,如果相邻的匹配属于同一个基因,则将对应部分的核苷酸序列进行连接,并向两端延伸使之长度超过同源基因30bp。然后,再用FASTA程序的Smith-Waterman算法对其联配,获得每个基因与其候选假基因片断的最优化匹配,据此对候选假基因进行筛选、分类,假基因的筛选标准如下:
①与编码已知蛋白质的序列高度相似(BLAST E值<1e-10,氨基酸相似程度大于40%);
②与已知功能基因进行比对,不含超过60bp的空洞;
③与相似基因比较,覆盖了其70%的编码序列区域;
④含有多腺嘌呤尾部序列(多含有AATAAA信号);
⑤提前出现终止密码子或具有移码突变。
符合⑤则可视此片断为真正的假基因,其余则为候选假基因。
符合①②③④视为加工假基因,其余则为非加工假基因。
符合①②③④⑤视为新出现的加工假基因。
加工和非加工两种假基因序列在基因组进化研究上均有重要价值,都应保存在数据库中。
其数据格式同前面未筛选的假基因数据:
染色体 对应蛋白质 E值 长度 起始位置 终止位置
Chr01 OsJRFA058210 42.0168067226891 356 40199116 40199472
Chr01 OsJRFA058210 64.6153846153846 194 39472402 39472596
(6)以加工假基因对应的特征值作为数据项标识建立假基因的数据库:
为了进一步建立方便的假基因数据查询体系,我们用Oracle(数据库软件)建立假基因的数据库,由于在获得假基因的数据时候已经按各种属性进行统计,所以在构建数据库的时候,只需将对应的属性作为数据项标识即可。
假基因序列的提取
为了进一步研究假基因的序列特性,如:GC含量等,需要把所有假基因的序列数据从全基因组序列中提取出来。我们在本程序中是采用Bioperl的SeqIO模块,分离全基因组中的序列数据。
假基因的数据获得之后,我们可以利用Bioperl设计计算机程序,对假基因的群体状况、染色体分布,GC含量和长度分布,同源蛋白家族、染色体位置分布等进行全面分析。并对获得的数据结果作统计处理和绘图。
最后,还需要注意的是,以上列举的仅是本发明的具体实施例子。显然,本发明不限于以上实施例子,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (4)
1、一种水稻全基因组假基因数据库构建方法,其特征在于,包括以下步骤:
(1)在计算机系统中构建已知水稻全基因组序列的本地数据库;
(2)利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果;
(3)使用Bioperl中的SeqIO模块分析比对结果,获取记录假基因和基因特征值数据的信息文件;
(4)去除冗余的假基因和基因数据;
(5)将相邻匹配的核苷酸序列连接,再用FASTA程序的Smith-Waterman算法进行最优化匹配,完成对假基因的筛选和分类,其鉴别标准如下:
①与编码已知蛋白质的序列相似度:BLAST E值<1e-10,氨基酸相似程度大于40%);
②与已知功能基因进行比对,不含超过60bp的空洞;
③与相似基因比较,覆盖了其70%的编码序列区域;
④含有多腺嘌呤尾部序列(多含有AATAAA信号);
⑤提前出现终止密码子或具有移码突变;
符合⑤则可视此片断为真正的假基因,其余则为候选假基因;
符合①②③④视为加工假基因,其余则为非加工假基因;
符合①②③④⑤视为新出现的加工假基因;
(6)以假基因对应的特征值作为数据项标识建立假基因的数据库。
2、根据权利要求1所述的数据库构建方法,其特征在于,在构建已知水稻全基因组序列的本地数据库后,使用RepeatMasker程序屏蔽简单重复序列和rRNA重复序列,以避免这些数据的干扰。
3、根据权利要求1所述的数据库构建方法,其特征在于,运行本地BLAST搜索时,包括对生成的数据库进行tBLASTn六框翻译;将序列切断成互相重叠的几部分,用相同的蛋白质氨基酸序列进行tBLASTn对比以提高比对速度。
4、根据权利要求1所述的数据库构建方法,其特征在于,所述假基因和基因特征值数据包括染色体、对应蛋白质、E值、长度、起始位置或终止位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200510050764 CN1733915A (zh) | 2005-07-19 | 2005-07-19 | 水稻全基因组假基因数据库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200510050764 CN1733915A (zh) | 2005-07-19 | 2005-07-19 | 水稻全基因组假基因数据库构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1733915A true CN1733915A (zh) | 2006-02-15 |
Family
ID=36076532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200510050764 Pending CN1733915A (zh) | 2005-07-19 | 2005-07-19 | 水稻全基因组假基因数据库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1733915A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521528A (zh) * | 2011-12-05 | 2012-06-27 | 中国科学院计算机网络信息中心 | 一种基因序列数据的筛选方法 |
CN108509770A (zh) * | 2017-05-19 | 2018-09-07 | 北京林业大学 | 确定林木基因组中假基因的方法 |
CN108804875A (zh) * | 2018-06-21 | 2018-11-13 | 中国科学院北京基因组研究所 | 一种利用宏基因组数据分析微生物群体功能的方法 |
CN110310699A (zh) * | 2019-07-01 | 2019-10-08 | 江苏里下河地区农业科学研究所 | 基于全基因组序列挖掘目标基因序列的分析工具及应用 |
CN113851194A (zh) * | 2021-07-30 | 2021-12-28 | 北京航空航天大学 | 一种脑卒中病因靶向生物标志物数据库构建方法和装置 |
-
2005
- 2005-07-19 CN CN 200510050764 patent/CN1733915A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521528A (zh) * | 2011-12-05 | 2012-06-27 | 中国科学院计算机网络信息中心 | 一种基因序列数据的筛选方法 |
CN108509770A (zh) * | 2017-05-19 | 2018-09-07 | 北京林业大学 | 确定林木基因组中假基因的方法 |
CN108804875A (zh) * | 2018-06-21 | 2018-11-13 | 中国科学院北京基因组研究所 | 一种利用宏基因组数据分析微生物群体功能的方法 |
CN108804875B (zh) * | 2018-06-21 | 2020-11-17 | 中国科学院北京基因组研究所 | 一种利用宏基因组数据分析微生物群体功能的方法 |
CN110310699A (zh) * | 2019-07-01 | 2019-10-08 | 江苏里下河地区农业科学研究所 | 基于全基因组序列挖掘目标基因序列的分析工具及应用 |
CN113851194A (zh) * | 2021-07-30 | 2021-12-28 | 北京航空航天大学 | 一种脑卒中病因靶向生物标志物数据库构建方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Peng et al. | High-throughput identification of novel conotoxins from the Chinese tubular cone snail (Conus betulinus) by multi-transcriptome sequencing | |
CN1110761C (zh) | 用于完成序列同源性检测的方法和装置 | |
Ungaro et al. | Challenges and advances for transcriptome assembly in non-model species | |
CN1115644C (zh) | 利用相关数据库实现非循环定向图形结构的方法 | |
Sinha et al. | Cross-species comparison significantly improves genome-wide prediction of cis-regulatory modules in Drosophila | |
CN101063969A (zh) | 构造布局平衡的带标记映像树的方法和系统 | |
CN1733915A (zh) | 水稻全基因组假基因数据库构建方法 | |
CN1910581A (zh) | 用于按类别提供关键字输入频率信息的搜索系统及其方法 | |
Xiao et al. | Functional marker detection and analysis on a comprehensive transcriptome of large yellow croaker by next generation sequencing | |
CN1606695A (zh) | 利用高密度微阵列进行高通量的重新测序和变异检测 | |
CN1928866A (zh) | 用于处理包括半连接的查询的方法和系统 | |
CN1867933A (zh) | 评估和优化原油选择的方法及系统 | |
CN101075262A (zh) | 一种计算机汉字输入方法及系统 | |
CN1492367A (zh) | 询问应答系统及询问应答方法 | |
CN1916889A (zh) | 语料库制作装置及其方法 | |
CN1645516A (zh) | 用于闪速存储器的数据恢复设备和方法 | |
CN1141666C (zh) | 利用标准笔划识别输入字符的在线字符识别系统 | |
CN1627294A (zh) | 用学习数据有效提取检索者合意的文档的过滤方法和设备 | |
CN101055579A (zh) | 一套提供互动搜索及互动广告的装置和方法 | |
CN1284686A (zh) | 图案列匹配装置和图案列匹配方法 | |
Zhou et al. | Development and evaluation of a high-throughput single-nucleotide polymorphism array for large yellow croaker (Larimichthys crocea) | |
CN1975772A (zh) | 整合多个系统中的信息的方法和装置 | |
CN1198554A (zh) | 能简单修饰文件数据的文件处理装置和程序存储介质 | |
CN115992265B (zh) | 一种石斑鱼全基因组液相芯片及其应用 | |
Katneni et al. | Novel Isoform Sequencing Based Full-Length Transcriptome Resource for Indian White Shrimp, Penaeus indicus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20060215 |