JP2004259094A - コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法 - Google Patents
コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法 Download PDFInfo
- Publication number
- JP2004259094A JP2004259094A JP2003050422A JP2003050422A JP2004259094A JP 2004259094 A JP2004259094 A JP 2004259094A JP 2003050422 A JP2003050422 A JP 2003050422A JP 2003050422 A JP2003050422 A JP 2003050422A JP 2004259094 A JP2004259094 A JP 2004259094A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- consensus sequence
- region
- consensus
- mrna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】このコンセンサス配列の精度向上方法では、(1)データベースに格納されているmRNA及び/又はESTの塩基配列に基づいて得られたコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較する。次に、(2)上記(1)のステップにより見出されたゲノム配列中の領域の配列で、該領域に対応するコンセンサス配列中の領域を置き換える。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、mRNA及び/又はESTの塩基配列を基に決定されるコンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法に関する。
【0002】
【従来の技術】
細胞中のmRNAの塩基配列や、mRNAを鋳型として逆転写により得られたcDNAであるEST(Expressed Sequence Tag)の塩基配列は、NCBI(National Center for Biotechnology Information)等の一般人が利用可能なデータベースに格納されている。従来より、これらのmRNAやESTの塩基配列の相同部分を検索し、それを用いて各配列をつなぎ合わせる(アセンブル)アセンブリングプログラムを用いて、コンセンサス配列を決定することが行われている。ここで、「コンセンサス配列」とは、相同性の高い複数の塩基配列を、相同性の高い配列部分を揃えて並べ、相同性の高い部分についてそれらの共通配列をとり、前記複数の配列をつなぎ合わせることにより得られる配列を意味する。その場合、共通部分について全部のDNA配列の間で完全に一致しない塩基があるときは、頻度の高い塩基を選択する。
【0003】
しかしながら、一般的に、ESTデータベースなどには配列上多くの誤りが存在すると言われ、また遺伝子ではないもの、重複した配列、ギャップ等が存在する。このようなデータを元にコンピュータ処理により作成されたコンセンサス配列にもやはり配列の誤り、ギャップ等があり、結果としてコンセンサス配列の有用性を低下させている。
【0004】
コンセンサス配列の精度を高めるために、塩基配列中のリピート配列や、EST作成時のクローニングに用いられたベクター由来の配列を除外するために、マスキングプログラムが広く用いられており、これらを用いて上記の不要な配列をマスク処理することが一般に行われている。しかし、それでもコンセンサス配列の精度には満足することができない。
【0005】
本願出願人は、より精度の高いコンセンサス配列の決定方法として、ゲノムデータベース中に格納されたゲノム配列中のオープンリーディングフレーム(ORF)を予測するプログラムを用い、予測されるORF領域の塩基配列をコンセンサス配列に反映させる方法を発明し、特許出願した(特開2002−176980号公報)。この方法により、コンセンサス配列の精度は、従来法よりもかなり改善されるが、それでもなお満足することはできない。そこで、この公開公報には、決定されたコンセンサス配列がゲノム配列中に実在することを確認するために、コンセンサス配列に基づき遺伝子増幅のプライマーを作成し、染色体DNAを鋳型として遺伝子増幅を行い、増幅が起きるか否かを調べることにより、コンセンサス配列が実在することを確認する方法の発明も記載されている。しかしながら、いちいちプライマーを作成して遺伝子増幅法を行うのは手間がかかり不便である。
【0006】
【特許文献1】特開2002−176980号公報
【0007】
【発明が解決しようとする課題】
したがって、本発明の目的は、公知の方法よりもさらにコンセンサス配列の精度を簡便に高めることができる、コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法を提供することである。
【0008】
【課題を解決するための手段】
本願発明者らは、鋭意研究の結果、従来法により決定されたコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較し、これにより見出されたゲノム配列中の領域の配列で、該領域に対応するコンセンサス配列中の領域を置き換えることにより、コンセンサス配列の精度をさらに向上させることができることを見出し、本発明を完成した。
【0009】
すなわち、本発明は、(1)データベースに格納されているmRNA及び/又はESTの塩基配列に基づいて得られたコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較するステップ、(2)上記(1)のステップにより見出されたゲノム配列中の領域の配列で、該領域に対応するコンセンサス配列中の領域を置き換えるステップとを含む、コンセンサス配列の精度向上方法を提供する。また、本発明は、(1)mRNA及び/又はESTの塩基配列を格納したデータベースから取得し、記憶手段に記憶されたmRNA及び/又はESTの塩基配列について、アセンブリングプログラムでアセンブルを行うことを含む手順によりコンセンサス配列を決定するステップ、(2)得られたコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較するステップ、(3)上記(1)のステップにより見出されたゲノム配列中の領域の配列で、該領域に対応するコンセンサス配列中の領域を置き換えるステップとを含む、コンセンサス配列の決定方法を提供する。
【0010】
【発明の実施の形態】
本発明のコンセンサス配列の精度向上方法では、先ず、公知の方法によりコンセンサス配列を決定する。コンセンサス配列は、以下の方法により決定することが好ましい。
【0011】
先ず、mRNA及び/又はESTの塩基配列を格納したデータベースからmRNA及び/又はESTの塩基配列を取得し、記憶手段に記憶する。記憶手段に記憶されたmRNA及び/又はESTの塩基配列から、リピート配列マスキングプログラム及びベクター由来配列マスキングプログラムにより、不要なリピート配列及びベクター由来配列をマスク処理する。リピート配列マスキングプログラムとしては、例えば周知のRepeatMasker(商品名)を挙げることができる。RepeatMaskerは、米国ワシントン大学のウェブサイトで公開されており、インターネットにより利用可能である。次に、例えばNCBIにより公開されている周知のベクター配列データのUnivecを用いて、マスク処理を行う。このマスク処理を行うプログラムとしては、例えば、米国ワシントン大学のウェブサイトで公開しているCross_Match(商品名)を挙げることができる。
【0012】
不要なリピート配列及びベクター由来配列をマスク処理した後の塩基配列について、アセンブリングプログラムでアセンブルを行うことにより最初のコンセンサス配列を決定する。アセンブリングプログラムとしては、例えば周知のワシントン大学で開発されたソフトであるPhrap(商品名)を挙げることができる。アセンブリングプログラムで、マスク処理後の塩基配列を処理することにより、最初に取得したmRNA及び/又はESTの塩基配列がつなぎ合わされ、最初のコンセンサス配列が得られる。
【0013】
このコンセンサス配列の精度を高めるために、得られた最初のコンセンサス配列を、相同性検索プログラムのクエリに入力して前記元のデータベースに対して検索を行う。ここで用いる相同性検索プログラムとしては、例えば周知のBLASTを用いることができる。BLASTは、米国のNCBIのウェブサイトで公開されており、インターネットにより利用可能である。相同性検索プログラムで検索することにより、前記最初のコンセンサス配列に隣接又は内包されている配列を取得し、取得した新たな配列を、前記最初のコンセンサス配列の決定に用いた配列から成るクラスタに追加し、追加後のクラスタで前記アセンブリングプログラムでアセンブルを行うことにより第2のコンセンサス配列を決定する。さらに、第2のコンセンサス配列を、前記相同性検索プログラムのクエリに入力して前記元のデータベースに対して検索を行う。もし、新たな類似配列又は隣接配列が見つかったら、それをクラスタに追加して、さらにアセンブルを行う。以下、新たに追加される配列がなくなるまで、上記検索、追加、アセンブルから成るステップを繰り返すことにより、最後のコンセンサス配列を得る。新たにクラスタへ加わる配列が見つからなくなったら、そのクラスタに属する配列情報と合わせて、最後のコンセンサス配列を保存する。コンセンサス配列は同じ元のクラスタから複数できることもある。その理由は同一の遺伝子から異なった発現をする場合があること、および元のデータベースに配列上の誤りまたは欠落が存在するからである。
【0014】
本発明のコンセンサス配列の精度向上方法では、上記のように公知の方法により得られた最後のコンセンサス配列の精度をさらに向上させる。これは次のように行う。先ず、得られた最後のコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較する。ゲノムデータベースとしては、例えばNCBIのRefSeq等を利用することができる。ここで用いる相同性検索プログラムは、相同性の検索と共に相同配列のゲノム配列上の位置をマッピングするマッピングプログラムを用いることが好ましい。マッピングプログラム自体は周知であり、例えばPBILのSIM4(商品名)を用いることができる。SIM4は、PBILのウェブサイトで公開されており、インターネットで利用可能である。これにより、最後のコンセンサス配列に対応するゲノム配列上の位置が求められる。すなわち、エキソン単位でゲノム上の開始位置と終了位置が判明する。
【0015】
次に、この求められたエキソン配列を、最後のコンセンサス配列の相当する部分と置き換える。ゲノム上に相当するエキソンが見つからない部分については置き換えず、元のコンセンサス配列をそのまま残す。こうして新しく出来上がった一つの新しい配列全体が、本発明の方法により精度が向上された最終的なコンセンサス配列(「ゲノムリファインド(genome−refined)コンセンサス配列」と命名)である。
【0016】
なお、最後のコンセンサス配列の相当する部分と置き換えられるゲノム配列中の領域として、相当するエキソン領域のみならず、その5’側及び/又は3’側に存在する、最後のコンセンサス配列に対応する部分が存在しないエキソン領域及び/又は隣接する非転写領域をも含めた配列で、最後のコンセンサス配列の対応領域を置き換えてもよい。この場合、最後のコンセンサス配列に対応する部分が存在しないエキソン領域及び/又は隣接する非転写領域は、最後のコンセンサス配列に新たに結合されることになる。これにより、いわゆる完全長cDNA配列に関する、および遺伝子発現に重要な役割を持つ転写制御領域を含む非転写領域の情報をも有するコンセンサス配列を得ることができる。
【0017】
【実施例】
以下、本発明を実施例に基づきより具体的に説明する。もっとも、本発明は下記実施例に限定されるものではない。
【0018】
この実施例では、NCBIの以下のデータベースから上記方法で作成したコンセンサス配列のひとつを用いた。
種 ヒト
ゲノムコンティグ番号 NT_01139.11 Build番号29
UniGeneID 11 Build番号150
【0019】
まずest_humanのデータベース(NCBI)中の検索に参加する配列の不要部分を除去するため、RepeatMaskerプログラムにより不要なリピート配列をマスクし、ベクター配列データUnivecとCross_Matchプログラムを利用してベクター配列にマスク処理をした。次にPhrapプログラムによりアセンブルを行い、最初のコンセンサス配列を作成した。ここでこのデータベースに含まれる配列の品質などにより、複数のコンセンサス配列ができるので、各コンセンサス配列に属する配列群でクラスタを構成した。次にすべてのクラスタのコンセンサス配列を、元のデータベースに対してBLASTにより類似性検索を行い一致する配列を探す。一致する配列があれば、それをそのクラスタへ加える。以上の操作を新しくクラスタへ加える配列が見つからなくなるまで繰り返す。最終的に各クラスタ毎に最後のコンセンサス配列ができる。
【0020】
次にこのクラスタのうちの一つのクラスタの最後のコンセンサス配列をゲノム上にマッピングする。本実施例では17番目のクラスタを用いた。このクラスタの最後のコンセンサス配列に対し、SIM4プログラムによりゲノム上の位置を検索した。
【0021】
表1は、この最後のコンセンサス配列からゲノムデータベースにマッピングした結果である。コンセンサス配列が表1のように位置付けられた。このコンセンサス配列は、18のエキソン領域に分かれており、表1のようにゲノム上のエキソンの位置が取得されている。このコンセンサス配列をエキソンの番号単位で区分けして表示したものを図2に示す。このゲノム上の各エキソンの開始位置から終了位置までの配列を最後のコンセンサス配列の相当部分と置換した。ここで、ゲノム上該当なしとなっている場合は置換せず、最後のコンセンサス配列のままである。上記の方法をフローチャートで図1に示す。
【0022】
【表1】
【0023】
上記方法により決定された最後のコンセンサス配列を図3ないし図5に、最後のコンセンサス配列の精度を本発明の方法によりさらに向上させたゲノムリファインドコンセンサス配列を図6ないし図8に示す。太字はほぼ確定した塩基であり、ゲノム配列で置き換えた塩基は全て太字である。最後のコンセンサス配列とゲノムリファインドコンセンサス配列を比べると、この場合塩基単位で約3.6%品質が向上したと言える。
【0024】
【発明の効果】
本発明により、公知の方法よりもさらにコンセンサス配列の精度を高めることができる、コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法が提供された。本発明により、EST配列データベースからコンピュータ処理により作成したコンセンサス配列の、配列上の誤り、不要な配列およびギャップ等を取り除き、実験で得られた配列に近いコンセンサス配列を得ることができる。配列の方向(5’と3’)が判る。本発明を用いて作成したコンセンサス配列と従来の方法で作成されたコンセンサス配列あるいはEST配列と比較することによって、DNAからmRNAを転写する時の変異いわゆるスプライシングバリアントあるいはオルタナティブスプライシングに関する知見が得られる。蛋白質の質量分析結果の解析に利用できる。プライマー設計およびPCRが高精度で行える。転写制御領域など非転写領域の知見が得られる。mRNAあるいはcDNAの、より完全に近い塩基配列が得られる。
【0025】
【配列表】
【0026】
【0027】
【図面の簡単な説明】
【図1】本発明の実施例のコンセンサス配列決定方法を示すフローチャートである。
【図2】本発明の実施例において、公知の方法により決定されたコンセンサス配列をエキソンの番号単位で区分けして表示した図である。
【図3】本発明の実施例において、公知の方法により決定されたコンセンサス配列の塩基配列を示す図である。
【図4】図3の続きを示す図である。
【図5】図4の続きを示す図である。
【図6】本発明の実施例において、公知の方法により決定されたコンセンサス配列の精度を高めたゲノムリファインドコンセンサス配列の塩基配列を示す図である。
【図7】図6の続きを示す図である。
【図8】図7の続きを示す図である。
Claims (6)
- (1)データベースに格納されているmRNA及び/又はESTの塩基配列に基づいて得られたコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較するステップ、(2)上記(1)のステップにより見出されたゲノム配列中の領域の配列で、該領域に対応するコンセンサス配列中の領域を置き換えるステップとを含む、コンセンサス配列の精度向上方法。
- 前記(2)のステップにおいて、(1)のステップにより見出されたゲノム配列中の領域の配列は、該配列に隣接するエキソン領域及び/又は非転写領域の配列と共に前記コンセンサス配列中の領域と置き換えられる、請求項1記載の方法。
- (1)mRNA及び/又はESTの塩基配列を格納したデータベースから取得し、記憶手段に記憶されたmRNA及び/又はESTの塩基配列について、アセンブリングプログラムでアセンブルを行うことを含む手順によりコンセンサス配列を決定するステップ、(2)得られたコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較するステップ、(3)上記(2)のステップにより見出されたゲノム配列中の領域の配列で、該領域に対応するコンセンサス配列中の領域を置き換えるステップとを含む、コンセンサス配列の決定方法。
- 前記(1)のステップは、(i)mRNA及び/又はESTの塩基配列を格納したデータベースから取得し、記憶手段に記憶されたmRNA及び/又はESTの塩基配列について、アセンブリングプログラムでアセンブルを行うことにより最初のコンセンサス配列を決定するステップ、及び(ii)得られた最初のコンセンサス配列を、相同性検索プログラムのクエリに入力して前記元のデータベースに対して検索を行い、前記最初のコンセンサス配列に隣接又は内包されている配列を取得し、取得した新たな配列を、前記最初のコンセンサス配列の決定に用いた配列から成るクラスタに追加し、追加後のクラスタで前記アセンブリングプログラムでアセンブルを行うことにより第2のコンセンサス配列を決定するステップ、(iii)新たに追加される配列がなくなるまで上記(ii)のステップを繰り返すステップを繰り返して最後のコンセンサス配列を決定するステップを含む請求項3記載の方法。
- 前記(1)(i)のステップは、記憶手段に記憶されたmRNA及び/又はESTの塩基配列から、リピート配列マスキングプログラム及びベクター由来配列マスキングプログラムにより、不要なリピート配列及びベクター由来配列をマスク処理するステップをさらに含み、該マスク処理後の配列を、上記アセンブリングプログラムで処理する請求項4記載の方法。
- 請求項3ないし5のいずれか1項に記載の方法において、前記(3)のステップにおいて、(2)のステップにより見出されたゲノム配列中の領域の配列は、該配列に隣接するエキソン領域及び/又は非転写領域の配列と共に前記コンセンサス配列中の領域と置き換えられる、コンセンサス配列の決定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003050422A JP2004259094A (ja) | 2003-02-27 | 2003-02-27 | コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003050422A JP2004259094A (ja) | 2003-02-27 | 2003-02-27 | コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004259094A true JP2004259094A (ja) | 2004-09-16 |
Family
ID=33115830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003050422A Pending JP2004259094A (ja) | 2003-02-27 | 2003-02-27 | コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004259094A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014525080A (ja) * | 2011-07-05 | 2014-09-25 | コーニンクレッカ フィリップス エヌ ヴェ | バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いたゲノム/プロテオミクス配列の表現、視覚化、比較及びレポーティング |
-
2003
- 2003-02-27 JP JP2003050422A patent/JP2004259094A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014525080A (ja) * | 2011-07-05 | 2014-09-25 | コーニンクレッカ フィリップス エヌ ヴェ | バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いたゲノム/プロテオミクス配列の表現、視覚化、比較及びレポーティング |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li | Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences | |
Brůna et al. | BRAKER2: automatic eukaryotic genome annotation with GeneMark-EP+ and AUGUSTUS supported by a protein database | |
Korf et al. | Integrating genomic homology into gene structure prediction | |
Pertea et al. | TIGR Gene Indices clustering tools (TGICL): a software system for fast clustering of large EST datasets | |
Ruby et al. | PRICE: software for the targeted assembly of components of (Meta) genomic sequence data | |
Burland | DNASTAR’s Lasergene sequence analysis software | |
Rana et al. | Comparison of de novo transcriptome assemblers and k-mer strategies using the killifish, Fundulus heteroclitus | |
Kent | BLAT—the BLAST-like alignment tool | |
Huang et al. | PCAP: a whole-genome assembly program | |
Liu et al. | Deep vertebrate roots for mammalian zinc finger transcription factor subfamilies | |
Brent | Steady progress and recent breakthroughs in the accuracy of automated genome annotation | |
Yeh et al. | Computational inference of homologous gene structures in the human genome | |
Kim et al. | ECgene: genome-based EST clustering and gene modeling for alternative splicing | |
CN1108579C (zh) | 在序列同源性检测中完成模式词典组成的方法和设备 | |
Florea et al. | Genome assembly has a major impact on gene content: a comparison of annotation in two Bos taurus assemblies | |
Chen et al. | Fast and accurate assembly of Nanopore reads via progressive error correction and adaptive read selection | |
US20190362807A1 (en) | Genomic variant ranking system for clinical trial matching | |
Siepel et al. | Targeted discovery of novel human exons by comparative genomics | |
Anselmetti et al. | Comparative methods for reconstructing ancient genome organization | |
Gutierrez-Gonzalez et al. | De novo transcriptome assembly in polyploid species | |
Indrischek et al. | The paralog-to-contig assignment problem: high quality gene models from fragmented assemblies | |
Sahli et al. | Arapan-S: a fast and highly accurate whole-genome assembly software for viruses and small genomes | |
Chen et al. | Comprehensively identifying and characterizing the missing gene sequences in human reference genome with integrated analytic approaches | |
JP2004259094A (ja) | コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法 | |
JP2004303201A (ja) | 調節因子結合部位のゲノムプロファイリング |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090310 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090811 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100119 |