JP2004259094A

JP2004259094A - コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法

Info

Publication number: JP2004259094A
Application number: JP2003050422A
Authority: JP
Inventors: Harunobu Yunokawa; 春信湯野川; Koji Kasama; 康次笠間
Original assignee: MAZE KK
Current assignee: MAZE KK
Priority date: 2003-02-27
Filing date: 2003-02-27
Publication date: 2004-09-16

Abstract

【課題】公知の方法よりもさらにコンセンサス配列の精度を簡便に高めることができる、コンセンサス配列の精度向上方法を提供すること。
【解決手段】このコンセンサス配列の精度向上方法では、（１）データベースに格納されているｍＲＮＡ及び／又はＥＳＴの塩基配列に基づいて得られたコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較する。次に、（２）上記（１）のステップにより見出されたゲノム配列中の領域の配列で、該領域に対応するコンセンサス配列中の領域を置き換える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、ｍＲＮＡ及び／又はＥＳＴの塩基配列を基に決定されるコンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法に関する。
【０００２】
【従来の技術】
細胞中のｍＲＮＡの塩基配列や、ｍＲＮＡを鋳型として逆転写により得られたｃＤＮＡであるＥＳＴ（ＥｘｐｒｅｓｓｅｄＳｅｑｕｅｎｃｅＴａｇ）の塩基配列は、ＮＣＢＩ（ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ）等の一般人が利用可能なデータベースに格納されている。従来より、これらのｍＲＮＡやＥＳＴの塩基配列の相同部分を検索し、それを用いて各配列をつなぎ合わせる（アセンブル）アセンブリングプログラムを用いて、コンセンサス配列を決定することが行われている。ここで、「コンセンサス配列」とは、相同性の高い複数の塩基配列を、相同性の高い配列部分を揃えて並べ、相同性の高い部分についてそれらの共通配列をとり、前記複数の配列をつなぎ合わせることにより得られる配列を意味する。その場合、共通部分について全部のＤＮＡ配列の間で完全に一致しない塩基があるときは、頻度の高い塩基を選択する。
【０００３】
しかしながら、一般的に、ＥＳＴデータベースなどには配列上多くの誤りが存在すると言われ、また遺伝子ではないもの、重複した配列、ギャップ等が存在する。このようなデータを元にコンピュータ処理により作成されたコンセンサス配列にもやはり配列の誤り、ギャップ等があり、結果としてコンセンサス配列の有用性を低下させている。
【０００４】
コンセンサス配列の精度を高めるために、塩基配列中のリピート配列や、ＥＳＴ作成時のクローニングに用いられたベクター由来の配列を除外するために、マスキングプログラムが広く用いられており、これらを用いて上記の不要な配列をマスク処理することが一般に行われている。しかし、それでもコンセンサス配列の精度には満足することができない。
【０００５】
本願出願人は、より精度の高いコンセンサス配列の決定方法として、ゲノムデータベース中に格納されたゲノム配列中のオープンリーディングフレーム（ＯＲＦ）を予測するプログラムを用い、予測されるＯＲＦ領域の塩基配列をコンセンサス配列に反映させる方法を発明し、特許出願した（特開２００２−１７６９８０号公報）。この方法により、コンセンサス配列の精度は、従来法よりもかなり改善されるが、それでもなお満足することはできない。そこで、この公開公報には、決定されたコンセンサス配列がゲノム配列中に実在することを確認するために、コンセンサス配列に基づき遺伝子増幅のプライマーを作成し、染色体ＤＮＡを鋳型として遺伝子増幅を行い、増幅が起きるか否かを調べることにより、コンセンサス配列が実在することを確認する方法の発明も記載されている。しかしながら、いちいちプライマーを作成して遺伝子増幅法を行うのは手間がかかり不便である。
【０００６】
【特許文献１】特開２００２−１７６９８０号公報
【０００７】
【発明が解決しようとする課題】
したがって、本発明の目的は、公知の方法よりもさらにコンセンサス配列の精度を簡便に高めることができる、コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法を提供することである。
【０００８】
【課題を解決するための手段】
本願発明者らは、鋭意研究の結果、従来法により決定されたコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較し、これにより見出されたゲノム配列中の領域の配列で、該領域に対応するコンセンサス配列中の領域を置き換えることにより、コンセンサス配列の精度をさらに向上させることができることを見出し、本発明を完成した。
【０００９】
すなわち、本発明は、（１）データベースに格納されているｍＲＮＡ及び／又はＥＳＴの塩基配列に基づいて得られたコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較するステップ、（２）上記（１）のステップにより見出されたゲノム配列中の領域の配列で、該領域に対応するコンセンサス配列中の領域を置き換えるステップとを含む、コンセンサス配列の精度向上方法を提供する。また、本発明は、（１）ｍＲＮＡ及び／又はＥＳＴの塩基配列を格納したデータベースから取得し、記憶手段に記憶されたｍＲＮＡ及び／又はＥＳＴの塩基配列について、アセンブリングプログラムでアセンブルを行うことを含む手順によりコンセンサス配列を決定するステップ、（２）得られたコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較するステップ、（３）上記（１）のステップにより見出されたゲノム配列中の領域の配列で、該領域に対応するコンセンサス配列中の領域を置き換えるステップとを含む、コンセンサス配列の決定方法を提供する。
【００１０】
【発明の実施の形態】
本発明のコンセンサス配列の精度向上方法では、先ず、公知の方法によりコンセンサス配列を決定する。コンセンサス配列は、以下の方法により決定することが好ましい。
【００１１】
先ず、ｍＲＮＡ及び／又はＥＳＴの塩基配列を格納したデータベースからｍＲＮＡ及び／又はＥＳＴの塩基配列を取得し、記憶手段に記憶する。記憶手段に記憶されたｍＲＮＡ及び／又はＥＳＴの塩基配列から、リピート配列マスキングプログラム及びベクター由来配列マスキングプログラムにより、不要なリピート配列及びベクター由来配列をマスク処理する。リピート配列マスキングプログラムとしては、例えば周知のＲｅｐｅａｔＭａｓｋｅｒ（商品名）を挙げることができる。ＲｅｐｅａｔＭａｓｋｅｒは、米国ワシントン大学のウェブサイトで公開されており、インターネットにより利用可能である。次に、例えばＮＣＢＩにより公開されている周知のベクター配列データのＵｎｉｖｅｃを用いて、マスク処理を行う。このマスク処理を行うプログラムとしては、例えば、米国ワシントン大学のウェブサイトで公開しているＣｒｏｓｓ＿Ｍａｔｃｈ（商品名）を挙げることができる。
【００１２】
不要なリピート配列及びベクター由来配列をマスク処理した後の塩基配列について、アセンブリングプログラムでアセンブルを行うことにより最初のコンセンサス配列を決定する。アセンブリングプログラムとしては、例えば周知のワシントン大学で開発されたソフトであるＰｈｒａｐ（商品名）を挙げることができる。アセンブリングプログラムで、マスク処理後の塩基配列を処理することにより、最初に取得したｍＲＮＡ及び／又はＥＳＴの塩基配列がつなぎ合わされ、最初のコンセンサス配列が得られる。
【００１３】
このコンセンサス配列の精度を高めるために、得られた最初のコンセンサス配列を、相同性検索プログラムのクエリに入力して前記元のデータベースに対して検索を行う。ここで用いる相同性検索プログラムとしては、例えば周知のＢＬＡＳＴを用いることができる。ＢＬＡＳＴは、米国のＮＣＢＩのウェブサイトで公開されており、インターネットにより利用可能である。相同性検索プログラムで検索することにより、前記最初のコンセンサス配列に隣接又は内包されている配列を取得し、取得した新たな配列を、前記最初のコンセンサス配列の決定に用いた配列から成るクラスタに追加し、追加後のクラスタで前記アセンブリングプログラムでアセンブルを行うことにより第２のコンセンサス配列を決定する。さらに、第２のコンセンサス配列を、前記相同性検索プログラムのクエリに入力して前記元のデータベースに対して検索を行う。もし、新たな類似配列又は隣接配列が見つかったら、それをクラスタに追加して、さらにアセンブルを行う。以下、新たに追加される配列がなくなるまで、上記検索、追加、アセンブルから成るステップを繰り返すことにより、最後のコンセンサス配列を得る。新たにクラスタへ加わる配列が見つからなくなったら、そのクラスタに属する配列情報と合わせて、最後のコンセンサス配列を保存する。コンセンサス配列は同じ元のクラスタから複数できることもある。その理由は同一の遺伝子から異なった発現をする場合があること、および元のデータベースに配列上の誤りまたは欠落が存在するからである。
【００１４】
本発明のコンセンサス配列の精度向上方法では、上記のように公知の方法により得られた最後のコンセンサス配列の精度をさらに向上させる。これは次のように行う。先ず、得られた最後のコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較する。ゲノムデータベースとしては、例えばＮＣＢＩのＲｅｆＳｅｑ等を利用することができる。ここで用いる相同性検索プログラムは、相同性の検索と共に相同配列のゲノム配列上の位置をマッピングするマッピングプログラムを用いることが好ましい。マッピングプログラム自体は周知であり、例えばＰＢＩＬのＳＩＭ４（商品名）を用いることができる。ＳＩＭ４は、ＰＢＩＬのウェブサイトで公開されており、インターネットで利用可能である。これにより、最後のコンセンサス配列に対応するゲノム配列上の位置が求められる。すなわち、エキソン単位でゲノム上の開始位置と終了位置が判明する。
【００１５】
次に、この求められたエキソン配列を、最後のコンセンサス配列の相当する部分と置き換える。ゲノム上に相当するエキソンが見つからない部分については置き換えず、元のコンセンサス配列をそのまま残す。こうして新しく出来上がった一つの新しい配列全体が、本発明の方法により精度が向上された最終的なコンセンサス配列（「ゲノムリファインド（ｇｅｎｏｍｅ−ｒｅｆｉｎｅｄ）コンセンサス配列」と命名）である。
【００１６】
なお、最後のコンセンサス配列の相当する部分と置き換えられるゲノム配列中の領域として、相当するエキソン領域のみならず、その５’側及び／又は３’側に存在する、最後のコンセンサス配列に対応する部分が存在しないエキソン領域及び／又は隣接する非転写領域をも含めた配列で、最後のコンセンサス配列の対応領域を置き換えてもよい。この場合、最後のコンセンサス配列に対応する部分が存在しないエキソン領域及び／又は隣接する非転写領域は、最後のコンセンサス配列に新たに結合されることになる。これにより、いわゆる完全長ｃＤＮＡ配列に関する、および遺伝子発現に重要な役割を持つ転写制御領域を含む非転写領域の情報をも有するコンセンサス配列を得ることができる。
【００１７】
【実施例】
以下、本発明を実施例に基づきより具体的に説明する。もっとも、本発明は下記実施例に限定されるものではない。
【００１８】
この実施例では、ＮＣＢＩの以下のデータベースから上記方法で作成したコンセンサス配列のひとつを用いた。
種ヒト
ゲノムコンティグ番号ＮＴ＿０１１３９．１１Ｂｕｉｌｄ番号２９
ＵｎｉＧｅｎｅＩＤ１１Ｂｕｉｌｄ番号１５０
【００１９】
まずｅｓｔ＿ｈｕｍａｎのデータベース（ＮＣＢＩ）中の検索に参加する配列の不要部分を除去するため、ＲｅｐｅａｔＭａｓｋｅｒプログラムにより不要なリピート配列をマスクし、ベクター配列データＵｎｉｖｅｃとＣｒｏｓｓ＿Ｍａｔｃｈプログラムを利用してベクター配列にマスク処理をした。次にＰｈｒａｐプログラムによりアセンブルを行い、最初のコンセンサス配列を作成した。ここでこのデータベースに含まれる配列の品質などにより、複数のコンセンサス配列ができるので、各コンセンサス配列に属する配列群でクラスタを構成した。次にすべてのクラスタのコンセンサス配列を、元のデータベースに対してＢＬＡＳＴにより類似性検索を行い一致する配列を探す。一致する配列があれば、それをそのクラスタへ加える。以上の操作を新しくクラスタへ加える配列が見つからなくなるまで繰り返す。最終的に各クラスタ毎に最後のコンセンサス配列ができる。
【００２０】
次にこのクラスタのうちの一つのクラスタの最後のコンセンサス配列をゲノム上にマッピングする。本実施例では１７番目のクラスタを用いた。このクラスタの最後のコンセンサス配列に対し、ＳＩＭ４プログラムによりゲノム上の位置を検索した。
【００２１】
表１は、この最後のコンセンサス配列からゲノムデータベースにマッピングした結果である。コンセンサス配列が表１のように位置付けられた。このコンセンサス配列は、１８のエキソン領域に分かれており、表１のようにゲノム上のエキソンの位置が取得されている。このコンセンサス配列をエキソンの番号単位で区分けして表示したものを図２に示す。このゲノム上の各エキソンの開始位置から終了位置までの配列を最後のコンセンサス配列の相当部分と置換した。ここで、ゲノム上該当なしとなっている場合は置換せず、最後のコンセンサス配列のままである。上記の方法をフローチャートで図１に示す。
【００２２】
【表１】

【００２３】
上記方法により決定された最後のコンセンサス配列を図３ないし図５に、最後のコンセンサス配列の精度を本発明の方法によりさらに向上させたゲノムリファインドコンセンサス配列を図６ないし図８に示す。太字はほぼ確定した塩基であり、ゲノム配列で置き換えた塩基は全て太字である。最後のコンセンサス配列とゲノムリファインドコンセンサス配列を比べると、この場合塩基単位で約３．６％品質が向上したと言える。
【００２４】
【発明の効果】
本発明により、公知の方法よりもさらにコンセンサス配列の精度を高めることができる、コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法が提供された。本発明により、ＥＳＴ配列データベースからコンピュータ処理により作成したコンセンサス配列の、配列上の誤り、不要な配列およびギャップ等を取り除き、実験で得られた配列に近いコンセンサス配列を得ることができる。配列の方向（５’と３’）が判る。本発明を用いて作成したコンセンサス配列と従来の方法で作成されたコンセンサス配列あるいはＥＳＴ配列と比較することによって、ＤＮＡからｍＲＮＡを転写する時の変異いわゆるスプライシングバリアントあるいはオルタナティブスプライシングに関する知見が得られる。蛋白質の質量分析結果の解析に利用できる。プライマー設計およびＰＣＲが高精度で行える。転写制御領域など非転写領域の知見が得られる。ｍＲＮＡあるいはｃＤＮＡの、より完全に近い塩基配列が得られる。
【００２５】
【配列表】

【００２６】

【００２７】

【図面の簡単な説明】
【図１】本発明の実施例のコンセンサス配列決定方法を示すフローチャートである。
【図２】本発明の実施例において、公知の方法により決定されたコンセンサス配列をエキソンの番号単位で区分けして表示した図である。
【図３】本発明の実施例において、公知の方法により決定されたコンセンサス配列の塩基配列を示す図である。
【図４】図３の続きを示す図である。
【図５】図４の続きを示す図である。
【図６】本発明の実施例において、公知の方法により決定されたコンセンサス配列の精度を高めたゲノムリファインドコンセンサス配列の塩基配列を示す図である。
【図７】図６の続きを示す図である。
【図８】図７の続きを示す図である。

Claims

（１）データベースに格納されているｍＲＮＡ及び／又はＥＳＴの塩基配列に基づいて得られたコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較するステップ、（２）上記（１）のステップにより見出されたゲノム配列中の領域の配列で、該領域に対応するコンセンサス配列中の領域を置き換えるステップとを含む、コンセンサス配列の精度向上方法。
前記（２）のステップにおいて、（１）のステップにより見出されたゲノム配列中の領域の配列は、該配列に隣接するエキソン領域及び／又は非転写領域の配列と共に前記コンセンサス配列中の領域と置き換えられる、請求項１記載の方法。
（１）ｍＲＮＡ及び／又はＥＳＴの塩基配列を格納したデータベースから取得し、記憶手段に記憶されたｍＲＮＡ及び／又はＥＳＴの塩基配列について、アセンブリングプログラムでアセンブルを行うことを含む手順によりコンセンサス配列を決定するステップ、（２）得られたコンセンサス配列を、相同性検索プログラムによりゲノムデータベースに格納されているゲノム配列と比較するステップ、（３）上記（２）のステップにより見出されたゲノム配列中の領域の配列で、該領域に対応するコンセンサス配列中の領域を置き換えるステップとを含む、コンセンサス配列の決定方法。
前記（１）のステップは、（ｉ）ｍＲＮＡ及び／又はＥＳＴの塩基配列を格納したデータベースから取得し、記憶手段に記憶されたｍＲＮＡ及び／又はＥＳＴの塩基配列について、アセンブリングプログラムでアセンブルを行うことにより最初のコンセンサス配列を決定するステップ、及び（ｉｉ）得られた最初のコンセンサス配列を、相同性検索プログラムのクエリに入力して前記元のデータベースに対して検索を行い、前記最初のコンセンサス配列に隣接又は内包されている配列を取得し、取得した新たな配列を、前記最初のコンセンサス配列の決定に用いた配列から成るクラスタに追加し、追加後のクラスタで前記アセンブリングプログラムでアセンブルを行うことにより第２のコンセンサス配列を決定するステップ、（ｉｉｉ）新たに追加される配列がなくなるまで上記（ｉｉ）のステップを繰り返すステップを繰り返して最後のコンセンサス配列を決定するステップを含む請求項３記載の方法。
前記（１）（ｉ）のステップは、記憶手段に記憶されたｍＲＮＡ及び／又はＥＳＴの塩基配列から、リピート配列マスキングプログラム及びベクター由来配列マスキングプログラムにより、不要なリピート配列及びベクター由来配列をマスク処理するステップをさらに含み、該マスク処理後の配列を、上記アセンブリングプログラムで処理する請求項４記載の方法。
請求項３ないし５のいずれか１項に記載の方法において、前記（３）のステップにおいて、（２）のステップにより見出されたゲノム配列中の領域の配列は、該配列に隣接するエキソン領域及び／又は非転写領域の配列と共に前記コンセンサス配列中の領域と置き換えられる、コンセンサス配列の決定方法。