JP2004164207A

JP2004164207A - ＵＴＲ評価を併用したｃＤＮＡ配列のＯＲＦ解析、表示方法及び蛋白合成方法

Info

Publication number: JP2004164207A
Application number: JP2002328516A
Authority: JP
Inventors: Koichi Kimura; 宏一木村; Keiichi Nagai; 啓一永井; Tetsuo Nishikawa; 哲夫西川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2002-11-12
Filing date: 2002-11-12
Publication date: 2004-06-10
Also published as: US20040091883A1

Abstract

【課題】未成熟なｍＲＮＡに由来するｃＤＮＡ配列、末端が切れたｃＤＮＡ配列、などに不完全な形で含まれる蛋白翻訳領域の範囲を推定し、表示する。
【解決手段】既知のｍＲＮＡ配列データを用いた学習結果により、塩基配列の各位置で翻訳領域または非翻訳領域である確からしさを局所的に評価し、また、既知蛋白との相同性解析、ゲノム配列との相同性解析を行い、それらの結果を互いに比較し得るよう塩基配列座標６０１に沿って提示する。
【選択図】図６

Description

【０００１】
【発明の属する技術分野】
本発明は遺伝子配列の情報解析に係わり、ｃＤＮＡの塩基配列データから蛋白をコードする領域を推定し、各塩基位置でのコード領域らしさを表すコーディングポテンシャルを表示する方法に関する。特に、完全な蛋白翻訳領域を含まないようなｃＤＮＡ配列、例えば、末端が切れたｃＤＮＡ配列、未成熟なｍＲＮＡに由来するｃＤＮＡ配列、に対して有効な解析方法に関する。
【０００２】
【従来の技術】
生物の遺伝情報は、ゲノム内にＤＮＡ配列として蓄えられており、必要に応じてその一部の領域がｍＲＮＡに転写・スプライシングされ、さらにその一部分の配列がアミノ酸配列である蛋白に翻訳され、そのような蛋白が多数協同的に働いて、生体内で発現する。従って、生体内で発現している遺伝情報を調べるためには、発現しているｍＲＮＡを抽出して、それをより安定なｃＤＮＡ配列に逆転写し、ＰＣＲ（Ｐｏｌｙｍｅｒａｓｅｃｈａｉｎｒｅａｃｔｉｏｎ，ポリメラーゼ連鎖反応）で増幅し、シーケンサーを用いてその塩基配列を決定することが行われている。蛋白のアミノ酸配列を直接決めることは、ゲノムやｃＤＮＡの塩基配列を決めることに比較して、技術的により困難でありコストが高くつくため、通常、蛋白のアミノ酸配列は塩基配列を翻訳することにより求められている。
【０００３】
Ａ，Ｇ，Ｃ，Ｔの４種類の塩基からなる塩基配列から、２０種類のアミノ酸からなるアミノ酸配列へ翻訳するには、塩基配列中の特定の位置（翻訳開始位置）から特定の位置（翻訳終止位置）までの塩基配列を３文字ずつに区切り、塩基３文字をアミノ酸１文字に対応させることによって得られる。４×４×４＝６４通りの塩基３文字（コドン）をアミノ酸１文字に対応させる表は、コドン表とよばれ、ほとんどの生物に共通である。翻訳開始位置にはＡＴＧ（開始コドン）があり、翻訳終止位置には，ＴＡＡ，ＴＧＡ，ＴＡＧのいずれかの終止コドンがある。ＡＴＧはアミノ酸のひとつメチオニンにも対応しており、特定のＡＴＧのみが開始コドンとして用いられ、それ以外の翻訳途中に現れたＡＴＧはメチオニンに対応している。これに対し、ＴＡＡ，ＴＧＡ，ＴＡＧはアミノ酸に対応することはなく、常に終止コドンとして働く。
【０００４】
一般に、塩基配列を３文字ずつに区切る仕方は３通りあり、その区切り方は読み枠（フレーム）とよぶ。読み枠は開始コドンの位置で決まる。塩基配列が与えられたとき、その中に現れた任意のＡＴＧから３文字ずつに区切ってＴＡＡ，ＴＧＡ，ＴＡＧのいずれかが最初に現れるまでの、３の倍数の塩基数を含む部分列を、ひとつのＯＲＦ（ＯｐｅｎＲｅａｄｉｎｇＦｒａｍｅ，開いた読み枠）とよぶ。通常、ｃＤＮＡの塩基配列には多数のＯＲＦが存在するが、実際に生体内で翻訳が行われるのはそのうちのただひとつのＯＲＦである。
【０００５】
ヒトを含む真核生物のｃＤＮＡ配列の蛋白翻訳領域を求めるためには、一般に、最長のＯＲＦを求めれば良いと言われている。また、より精度を上げるためには、コザック規則による評価や、それを一般化した、開始コドン周辺の塩基配列の出現頻度を反映した重み行列を用いた評価などが行われる。これらの方法は、得られたｃＤＮＡ配列が完全なｍＲＮＡに由来するものであれば、すなわち、その中にただひとつの連続した蛋白翻訳領域が含まれている場合であれば、多くの場合うまくいく。
【０００６】
【発明が解決しようとする課題】
しかし、現実にシーケンスされて得られたｃＤＮＡ配列には、妥当なＯＲＦが見つからないことも多い。その理由として、次のようなことが考えられる。
１．ｃＤＮＡが、スプライシングが完了していない未成熟なｍＲＮＡに由来していた。
２．ＰＣＲ増幅中に断片化され、５‘末端、または、３’末端、または、両端が失われた。
３．シーケンサー読み取りの際、塩基を読み飛ばしたか、２度読んだために、読み枠がずれた。
４．シーケンサー読み取りの際、塩基を別の塩基と読み誤り、その結果、開始コドンや終始コドンが失われるか、または、余分に現れた。
５．異なるｍＲＮＡ間でキメラが生じ、それを解析してしまった。
６．ｍＲＮＡに関わりの無い、ゲノムの断片を解析してしまった。
【０００７】
これらの事象を解析するためには、次のような方法が一般に用いられている。
ａ．塩基の並びの統計的解析（その部分が蛋白をコードしている可能性）
ｂ．既知の（同一種および他種の生物の）蛋白配列に対する相同性
ｃ．同一生物種のゲノム配列との比較
【０００８】
これらの個々の解析結果はどのような事象が起きているかを示唆するが、一般には、それぞれ単独では断定的な証拠になるとは言えない。これらの結果は、他の生物学的知識に照らして総合的判断される。そこで、ｃＤＮＡ配列上の各塩基位置で、これらの解析結果を相互に比較し得る形で分かり易く表現することは、上記の種々の事象の可能性を検討する上で有用であると考えられる。
【０００９】
本発明は、このような問題に鑑み、様々なエラーを含むような現実のシーケンスデータの中からエラーを除去しつつ高精度に蛋白翻訳領域を抽出する方法を提供することを目的とする。
【００１０】
【課題を解決するための手段】
前記目的を達成すべく、本発明においては、完全な蛋白翻訳領域を含まないようなｃＤＮＡ配列に対して、塩基配列の各位置で蛋白翻訳領域らしさ、非翻訳領域らしさを評価し、塩基配列座標に沿って表示する。
【００１１】
すなわち、非翻訳領域と翻訳領域を有する塩基配列について、横軸を配列座標、縦軸を非翻訳可能性の確からしさとした第１のグラフを表示し、横軸を配列座標、縦軸を翻訳可能性の確からしさとした第２のグラフを表示する、本発明による表示方法は、第１のグラフと第２のグラフとを、配列座標をそろえて並列又は重複して表示することを特徴とする。
【００１２】
第１のグラフは、配列座標が５’末端と３’末端とを含む。また、第２のグラフは、第１の読枠、第１の読枠から１塩基ずらした第２の読枠、第１の読枠から２塩基ずらした第３の読枠で翻訳可能性の確からしさを表示するのが好ましい。
【００１３】
また、確からしさが肯定的である場合にはその確からしさの程度を正の量として表示し、確からしさが否定的である場合にはその確からしさの程度を負の量として表示し、確からしさが肯定的とも否定的とも判断しかねる場合は０近辺の量としてグラフ表示するのが好ましい。
【００１４】
グラフの波形と横軸とに挟まれる部分を塗りつぶして表示してもよい。
塩基配列のイントロン領域を配列座標にそろえて並列に表示する方法も有用である。
【００１５】
塩基配列の同一種及び他種生物の蛋白配列に対する相同性を配列座標にそろえて並列に表示してもよい。更に、塩基配列と、塩基配列と同一生物種のゲノム配列との塩基不一致箇所、塩基の挿入、塩基の欠失を配列座標に並列に表示するようにしてもよい。
翻訳領域と非翻訳領域を有する塩基配列についての、翻訳領域と非翻訳領域の確からしさは、後述する式（１），（２），（３），（５）を用いて求めることができる。
【００１６】
また、本発明による蛋白合成方法は、複数のｃＤＮＡを含むｃＤＮＡライブラリから１つのｃＤＮＡを選択するステップと、選択したｃＤＮＡの塩基配列を決定するステップと、得られた塩基配列データに対して蛋白翻訳可能性の確からしさ及び蛋白非翻訳可能性の確からしさの評価を行うステップと、得られた蛋白翻訳可能性の確からしさ及び蛋白非翻訳可能性の確からしさの評価値を請求項１〜８のいずれか１項記載の方法により表示するステップと、表示結果により、選択したｃＤＮＡに完全な蛋白翻訳領域が含まれているか否かを判定するステップと、選択したｃＤＮＡに完全な蛋白翻訳領域が含まれている場合にそれを発現ベクターに組み込んで蛋白を合成するステップを含むことを特徴とする。
【００１７】
【発明の実施の形態】
本発明では、与えられたｃＤＮＡ配列に対して、以下の処理ステップからなる方法によって、ｃＤＮＡ配列の各塩基位置での種々の解析結果を表示することにより、ユーザが蛋白翻訳領域を推定したり、蛋白翻訳領域が種々の事象により損なわれている可能性を検討したりするための有用な情報を提示する。
【００１８】
（１）完全な蛋白翻訳領域を含む既知のｍＲＮＡ配列を公共データベース内から集め、それらを学習用・評価用の２セットに分割し、以下の処理ステップを行うステップ。
【００１９】
（１−１）学習セットと評価セットの各ｍＲＮＡ配列に対して、その配列を５’ＵＴＲ（５’ ｕｎｔｒａｎｓｌａｔｅｄｒｅｇｉｏｎ，上流側非翻訳領域）、蛋白翻訳領域、３’ＵＴＲ（３’ ｕｎｔｒａｎｓｌａｔｅｄｒｅｇｉｏｎ，下流側非翻訳領域）の３つの領域に分割するステップ。
【００２０】
（１−２）ｋを５から９程度の整数として、長さｋのあらゆる塩基配列（ｋ−タプル）に対して、ｋ−タプルが学習セットのｍＲＮＡ配列の５’ＵＴＲ、３’ＵＴＲ、および、ｍＲＮＡ配列全体に出現する頻度を数え、さらに、ｋ−タプルが学習セットの蛋白翻訳領域に出現する際には、ｋ−タプルの最終塩基位置がコドンの何塩基目の位置（サイト）を占めるかを求め、サイト１，２，３ごとに蛋白翻訳領域にｋ−タプルが出現する頻度を数えるステップ。
【００２１】
（１−３）５’ＵＴＲ、３’ＵＴＲ、サイトごとの蛋白翻訳領域、及び、ｍＲＮＡ配列全体の各々の領域に対して、ｋ−タプルの出現頻度の表から、（ｋ−１）−タプルの条件下で次の塩基が現れる条件付確率（遷移確率）の表を計算するステップ。
【００２２】
（１−４）５’ＵＴＲ、３’ＵＴＲ、サイトごとの蛋白翻訳領域に対する遷移確率を、ｍＲＮＡ配列全体での遷移確率と比較して、５’ＵＴＲ、３’ＵＴＲ、サイトごとの蛋白翻訳領域の各々に対して（ｋ−１）−タプルの条件下で次の塩基が現れる局所的確からしさの学習パラメータを求めるステップ。
【００２３】
（１−５）評価セットの各ｍＲＮＡ配列に対して、その５’ＵＴＲ内の各塩基位置での（ｋ−１）−タプル条件下で次の塩基が現れる局所的確からしさの合計値、その３’ＵＴＲ内の各塩基位置での（ｋ−１）−タプル条件下で次の塩基が現れる局所的確からしさの合計値、その蛋白翻訳領域内の各塩基位置での（ｋ−１）−タプル条件下でそのサイトで次の塩基が現れる局所的確からしさの合計値、を求め、それらの総計を蛋白翻訳領域の確からしさとして計算するステップ。
【００２４】
（１−６）評価セットの各ｍＲＮＡ配列に対して、あらゆるＯＲＦを考え、そのＯＲＦに対して前項と同様の計算を行い、そのＯＲＦの蛋白翻訳領域としての確からしさを求めるステップ。
【００２５】
（１−７）評価セット内の全ｍＲＮＡ配列に対して、前項と前々項の確からしさの値を比較して、蛋白翻訳領域の確からしさがそれ以外のＯＲＦの確からしさより大きな値を持つようなｍＲＮＡ配列の割合を計算することにより、各領域に対して求めた（ｋ−１）−タプルの条件下で次の塩基が現れる局所的確からしさの値の信頼性を評価するステップ。
【００２６】
（２）与えられたｃＤＮＡ配列の各塩基位置で、そこが５’ＵＴＲであると仮定して、（ｋ−１）−タプル条件下で次の塩基が現れる局所的確からしさを計算し、塩基位置順に並んだそれらの値にローパスフィルタをかけて平滑化し、それらの値をｃＤＮＡ配列座標に沿って表示するステップ。
【００２７】
（３）与えられたｃＤＮＡ配列の各塩基位置で、そこが３’ＵＴＲであると仮定して、（ｋ−１）−タプル条件下で次の塩基が現れる局所的確からしさを計算し、塩基位置順に並んだそれらの値にローパスフィルタをかけて平滑化し、それらの値をｃＤＮＡ配列座標に沿って表示するステップ。
【００２８】
（４）読み枠１，２，３のそれぞれに対して、与えられたｃＤＮＡ配列の各塩基位置で、そこがその読み枠での蛋白翻訳領域であると仮定して、（ｋ−１）−タプル条件下で次の塩基が現れる局所的確からしさを計算し、塩基位置順に並んだそれらの値にローパスフィルタをかけて平滑化し、それらの値をｃＤＮＡ配列座標に沿って表示するステップ。
【００２９】
（５）同一種や他種の生物の既知の蛋白配列を集めた公共データベースに対して、与えられたｃＤＮＡ配列の翻訳配列に類似した配列を検索し、以下の処理ステップを行うステップ。
【００３０】
（５−１）見つかった蛋白配列ごとに、与えられたｃＤＮＡ配列のどの範囲の部分列が既知の蛋白配列の部分列の類似配列に翻訳されるかを同定し、その類似度（アミノ酸配列の一致率）を求め、また、その部分列での読み枠を求めるステップ。
【００３１】
（５−２）類似度が閾値以上であるような部分列の区間を抽出し、その区間をｃＤＮＡ配列座標に沿って、同じ蛋白配列に対応するものは同じｙ座標を持つように、その読み枠を色や線種により明示して、表示するステップ。
【００３２】
（６）同一種のゲノム配列を集めた公共データベースに対して、与えられたｃＤＮＡ配列に対して高い類似性を持つ類似配列を検索し、以下の処理ステップを行うステップ。
【００３３】
（６−１）見つかったゲノム配列ごとに、与えられたｃＤＮＡ配列のどの範囲の部分列がゲノム配列の部分列に高い類似性をもつかを同定し、また、その中に不一致部分があれば、塩基の置換・挿入・欠失のどれに当たるかを調べ、また、それにより、ｃＤＮＡ配列とゲノム配列で開始コドンや終止コドンに違いが生じるか否かを調べるステップ。
【００３４】
（６−２）ゲノム配列の部分列に高い類似性をもつ区間を、同じゲノム配列に対応するものは同じｙ座標を持つように、ｃＤＮＡ配列座標に沿って線分で表示し、また、その両端はエクソン・イントロンの境界に対応することを明示する点を表示し、また、その区間内に含まれる塩基の挿入・欠失位置をフレーム・シフト候補位置として別の種類の点で明示し、また、ｃＤＮＡ配列とゲノム配列で開始コドンや終止コドンに違いが生じる位置をさらに別種の点で明示するステップ。
【００３５】
（７）ローパスフィルタをかけた相対対数尤度が正または負になる区間を識別しやすいように、（３），（４），（５）のグラフで０（横軸）との間を塗りつぶすステップ。
以下、本発明の実施の形態を、図を用いて詳細に説明する。
【００３６】
図１に、本発明の一実施例における処理の概要を示す。１０１は、解析の対象とするｃＤＮＡ配列データである。ｍＲＮＡＤＢ１０２は、解析の対象としている生物種の既知のｍＲＮＡの公共データベースである。例えば、米国ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｙｇｙＩｎｆｏｒｍａｔｉｏｎ（ＮＣＢＩ）のＲｅｆＳｅｑデータベースを用いることができる。処理１０３は、データベース１０２の既知のｍＲＮＡ配列情報をもとに、局所的な塩基配列の並びがどのような蛋白翻訳領域、非翻訳領域に対応しているかを評価するための確からしさのパラメータを学習する処理である。処理１０４は、処理１０３の学習結果のパラメータの信頼性評価を行う処理である。処理１０５は、解析対象ｃＤＮＡ配列１０１の各塩基位置において、処理１０３の局所的確からしさのパラメータの学習結果を用いて、そこがどのような蛋白翻訳領域、非翻訳領域に対応しているかを評価する処理である。処理１０６は、処理１０５で求めた局所的確からしさの評価値を、塩基位置順に並べてローパスフィルタをかける処理である。ローパスフィルタとしては、例えば、公知のＢｕｔｔｅｒｗｏｒｈフィルタを用いることができる。
【００３７】
データベース１０７は、解析の対象としている生物と同一種または他種の既知の蛋白のアミノ酸配列のデータベースである。例えば、ＮＣＢＩのｎｒデータベースを用いることができる。処理１０８は、解析対象ｃＤＮＡ配列１０１を蛋白配列データベース１０７に対して、弱い類似性まで認めて類似性検索を行う処理である。この検索は、塩基配列をアミノ酸配列に翻訳しながら類似性のある区間を探す検索であり、公知の技術を用いて、例えば、ＮＣＢＩのＢＬＡＳＴＸ（Ａｌｔｓｃｈｕｌ，ＳｔｅｐｈｅｎＦ．，ＴｈｏｍａｓＬ．Ｍａｄｄｅｎ，ＡｌｅｊａｎｄｒｏＡ．Ｓｃｈａｆｆｅｒ，ＪｉｎｇｈｕｉＺｈａｎｇ，ＺｈｅｎｇＺｈａｎｇ，ＷｅｂｂＭｉｌｌｅｒ，ａｎｄＤａｖｉｄＪ．Ｌｉｐｍａｎ（１９９７）， ”ＧａｐｐｅｄＢＬＡＳＴａｎｄＰＳＩ−ＢＬＡＳＴ：ａｎｅｗｇｅｎｅｒａｔｉｏｎｏｆｐｒｏｔｅｉｎｄａｔａｂａｓｅｓｅａｒｃｈｐｒｏｇｒａｍｓ”，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２５：３３８９−３４０２．）を用いることにより可能である。フィルタ処理１０９は、処理１０８で見つかった類似性のある区間に対して、その類似度が一定の閾値以下であるものを捨てる処理である。処理１１０は、フィルタ処理１０９で残された類似性区間に対して、その翻訳の読み枠を求める処理である。
【００３８】
ゲノムＤＢ１１１は、解析の対象としている生物と同一種の生物のゲノム配列のデータベースである。例えば、ＮＣＢＩのＧｅｎＢａｎｋデータベースを用いることができる。処理１１２は、解析対象ｃＤＮＡ配列１０１をゲノム配列データベース１１１に対して類似性検索を行う処理である。この検索は、塩基配列どうしの類似性のある区間を探す処理であり、公知の技術を用いて、例えば、ＮＣＢＩのＢＬＡＳＴＮを用いることにより可能である。フィルタ処理１１３は、極めて類似性の高い区間のみを残す処理である。処理１１４は、類似性のあるゲノムとｃＤＮＡの区間同士を比較し、その中から、塩基の挿入・欠失位置、エクソン境界の位置、開始コドン・終止コドンがゲノムとｃＤＮＡで違いのある位置、を抽出する処理である。処理１１５は、１０１のｃＤＮＡ配列の各読み枠にある全ての開始コドンと終止コドンを抽出する処理である。処理１１６は、処理１０６，１１０，１１４，１１５からの解析結果を纏めて、解析対象ｃＤＮＡ配列１０１の配列座標に沿って、相互に比較できるように表示する処理である。
【００３９】
図２に、図１に図示した局所的確からしさのパラメータの学習処理１０３の概要を示す。ｍＲＮＡＤＢ２０１は、図１のｍＲＮＡＤＢ１０２に対応する、既知のｍＲＮＡの公共データベースである。フィルタ処理２０２は、パラメータ学習に適したｍＲＮＡ配列を選び出す処理である。分割処理２０３は、選び出されたｍＲＮＡ配列を、学習用のセット２０４と評価用のセット２０５に分割する処理である。学習用と評価用のセットの分割に当たっては、例えば、全体を等分に分割すればよい。ただし、この分割には統計的な偏りが生じてはならず、例えば、擬似乱数を用いて分割を行うなどの必要がある。処理２０６は、学習用の各ｍＲＮＡ配列に対して、サイト別の蛋白翻訳領域・非翻訳領域、及び、全領域において全てのｋ−タプルが出現する回数を数えて頻度表を作成する処理である。ここで、ｋは５から９程度の整数であり、長さｋの塩基配列をｋ−タプルとよぶ。ｋ−タプルは４のｋ乗通りだけ種類があるため、ｋの値が小さすぎるとｋ−タプルは塩基配列の多様性を表現できなくなり、また、逆に、ｋの値が大きすぎるとほとんどのｋ−タプルの頻度が０となり有効な頻度表が作成できなくなる。処理２０７は、（ｋ−１）−タプルの条件下で次の塩基が現れる条件付確率（遷移確率）の表を計算する処理である。処理２０８は、（ｋ−１）−タプルの条件下で次の塩基が現れる局所的確からしさを、各領域別に求める処理である。この値が学習結果のパラメータである。
【００４０】
処理２０９は、評価用ｍＲＮＡ２０５の各ｍＲＮＡ配列に対して、処理２０８の学習結果のパラメータを用いて、蛋白翻訳領域の確からしさを評価する処理である。処理２１０は、評価用ｍＲＮＡ２０５の各ｍＲＮＡ配列に対して、蛋白翻訳領域以外のすべてのＯＲＦを抽出する処理である。処理２１１は、処理２１０で抽出した各ＯＲＦに対して、処理２０９と同様に、蛋白翻訳領域としての確からしさを評価する処理である。処理２１２は、処理２０９と処理２１０の評価結果を比較し、蛋白翻訳領域とそれ以外の全ＯＲＦとの評価結果を比較する処理である。処理２１３は、処理２１２の比較処理の結果に基づき、処理２０８で得た学習パラメータの信頼性を評価する処理である。
【００４１】
図３に示すｍＲＮＡの塩基配列の例を用いて、図２におけるフィルタ処理２０２の内容を説明する。先ず、データベースに登録された各ｍＲＮＡに対して、そこにただひとつの翻訳領域が完全な形で含まれていると記載されているかどうかを検査する。例えば、ＮＣＢＩのＲｅｆＳｅｑデータベースであれば、ｐ，ｑを或る正の整数として、ＣＤＳの項目がｐ．．ｑの形式で記載されていればよい。このｐとｑは、開始コドンと終止コドンの位置がｍＲＮＡ配列の先頭から何塩基目であるかを示す。図３の例では、３０１が開始コドン、３０２が終止コドンを示す。３０３に示すように、開始コドンから終止コドンまでの領域を翻訳領域（ＴＲ，ｔｒａｎｓｌａｔｅｄｒｅｇｉｏｎ）とよぶ。また、３０４に示すように、開始コドンより前の部分を５’ＵＴＲ（５’ ｕｎｔｒａｎｓｌａｔｅｄｒｅｇｉｏｎ，５’非翻訳領域）、終止コドンより後の部分を３’ＵＴＲ（３’ ｕｎｔｒａｎｓｌａｔｅｄｒｅｇｉｏｎ，３’非翻訳領域）、と呼ぶ。翻訳領域３０３内の塩基配列は、図に示すように、コドンと呼ばれる３塩基ずつに区切られ、それぞれはコドン表に従って特定のアミノ酸に翻訳される。図２のフィルタ処理２０２では、ただひとつの翻訳領域が完全な形で含まれていると記載されており、その５’ＵＴＲ、翻訳領域、３’ＵＴＲの長さが全てある閾値以上、例えば、５０塩基以上あるものを選択し、それ以外のものを捨てる。この閾値設定は、各領域でのパラメータ学習が効果的に行えるようにするためのものである。
【００４２】
図４を用いて、塩基配列をアミノ酸配列に翻訳する際の読み枠を説明し、次に、読み枠を仮定したときの塩基位置を３種類サイトに分類する方法について説明する。先ず、塩基配列は３塩基ずつのコドンに区切られアミノ酸に翻訳されるため、塩基配列の翻訳の仕方には図に示すように３通りある。図の（１）の場合のように、塩基配列の先頭から数えた各コドンの先頭の塩基位置が、３で割って１余る数になっているとき読み枠１とよぶ。同様に、図の（２）と（３）の場合は、それぞれ、読み枠２、読み枠３とよぶ。次に、ひとつの読み枠を仮定したとき、各塩基位置はコドン内の１塩基目であるか、２塩基目であるか、３塩基目であるか、のいずれかになる。このことを、その塩基位置がサイト１である、サイト２である、サイト３であるとよぶ。図４において、各塩基の下に示された１，２，３の数値はその塩基位置のサイトの番号を表す。
【００４３】
処理２０６は、図５に例示するようなｋ−タプルの頻度表を作成するための処理を行う。図５は、ｋ＝７として、サイト別の蛋白翻訳領域・非翻訳領域、及び、全領域におけるｋ−タプルの頻度表を作成した例を示す。列５０１は、あらゆる７−タプルを列挙した列である。列５０２は、５’ＵＴＲにおいて該当する７−タプルが出現した回数である。列５０３は、翻訳領域において該当する７−タプルが、その最終塩基位置がサイト１であるように出現した回数である。同様に、列５０４，５０５は、翻訳領域において該当する７−タプルが、その最終塩基位置がそれぞれサイト２，３であるように出現した回数である。列５０６は、３’ＵＴＲにおいて該当する７−タプルが出現した回数である。列５０７は、領域を問わず、ともかくｍＲＮＡ配列内に該当する７−タプルが出現した回数である。
列２０７の各領域別の遷移確率表の計算は、処理２０６の各領域別のｋ−タプルの出現頻度表に基づいて、次の式により行われる。
【００４４】
【数４】

【００４５】
ここで、各ｎｉはａ，ｇ，ｃ，ｔ何れかの塩基１文字を表し、ｎ１ｎ２…ｎｋはｋ−タプルを表し、ＮＲは領域Ｒにおけるタプルの頻度を表し、ＰＲは領域Ｒにおける（ｋ−１）−タプルの条件下で次の塩基が現れる条件付確率（遷移確率）を表す。式中に１／２が表れるのは、頻度が０となる場合に対処するためにＪｅｆｆｒｅｙｓ−Ｐｅｒｋｓ法に従ったからである。
処理２０８の各領域別の局所的確からしさパラメータの計算は、次の式により行われる。
【００４６】
【数５】

【００４７】
処理２０９における、評価用ｍＲＮＡ配列に対する蛋白翻訳領域の確からしさの評価値は、次の式により計算される。
【００４８】
【数６】

【００４９】
ここで、ｎ（ｉ−ｋ＋１，ｉ）は評価用ｍＲＮＡ配列の先頭からｉ−ｋ＋１番目からｉ番目までの長さｋの部分列であり、ＬはｍＲＮＡの全塩基長、ｐ、ｑはそれぞれ開始コドンのサイト１の塩基と終止コドンのサイト３の塩基がｍＲＮＡ配列の先頭から何塩基目の位置にあるかを表し、ｓｕｍ＿［ｉ＝Ｉ，…，Ｊ］は、ｉ＝Ｉ，Ｉ＋１， …，Ｊについて和をとることを表し、また、ｓ（ｉ）は、翻訳領域内にありｍＲＮＡ配列の先頭からｉ番目の位置にある塩基のサイトを表す。
【００５０】
処理２１０における全ＯＲＦの抽出処理では、評価用の各ｍＲＮＡ配列に対して、全てのＡＴＧの出現位置を求め、そこから最初に現れるＴＡＡ，ＴＡＧ，ＴＧＡの何れか、または、ｍＲＮＡ配列末端（３’末端）まで、及び、ｍＲＮＡ配列の始端（５’末端）から最初に現れるＴＡＡ，ＴＡＧ，ＴＧＡの何れか、または、ｍＲＮＡ配列３’末端まで、の全て区間として求める。
【００５１】
処理２１１におけるＯＲＦの確からしさの計算は、２０９と同様に、ｐ、ｑはそれぞれＯＲＦの最初と最後の塩基がｃＤＮＡ配列先頭から何塩基目にあるかを表す数として、計算式（４）で求められる。
【００５２】
比較処理２１２は、処理２１０で求めた蛋白翻訳領域の確からしさの評価値と、処理２１１で求めたそれ以外のＯＲＦに対する確からしさの評価値との、大きさの比較を行う。処理２０８で学習した局所的な確からしさパラメータが適切であれば、大多数の評価用ｍＲＮＡに対して、処理２１０で求めた蛋白翻訳領域の確からしさの評価値の方が大きくなるはずである。
【００５３】
処理２１３では、そのような、処理２１０で求めた蛋白翻訳領域の確からしさの評価値の方が大きくなる評価用ｍＲＮＡが全体に占める割合を計算する。この値は、２０８で学習した局所的な確からしさパラメータの信頼性を表しており、その値が０．８〜０．９程度以上であれば、学習結果は概ね信頼できると考えられる。そうでない場合は、タプルのサイズｋを別の値に変更するか、または、フィルタ処理２０２を見直し、学習に用いるｍＲＮＡの各領域の長さの閾値を見直すか、または、ｍＲＮＡデータベース内の情報を見直して不適切なｍＲＮＡ（例えば、機能が実験的に同定されていないもの）を排除してから、学習をやり直す必要がある。
処理１０５における、解析対象ｃＤＮＡ配列の先頭からｉ塩基目の位置での各領域Ｒに対する局所的確からしさの評価値Ｃ_Ｒ（ｉ）は、次の式で計算される。
【００５４】
【数７】

【００５５】
ここで、ｎ（ｉ−ｋ＋１，ｉ）は解析対象のｍＲＮＡ配列の先頭からｉ−ｋ＋１番目からｉ番目までの長さｋの部分列であり、ＬはｍＲＮＡの全塩基長である。
ローパスフィルタ処理１０６は、５’ＵＴＲ，Ｔ１，Ｔ２，Ｔ３，３’ＵＴＲの各領域Ｒに対して、１０５で求めた局所的確からしさを塩基位置ｉの順番に並べてできる数列、Ｃ_Ｒ（ｋ），Ｃ_Ｒ（ｋ＋１）， …，Ｃ_Ｒ（Ｌ）に対して、公知の技術のローパスフィルタ、例えばＢｕｔｔｅｒｗｏｒｔｈフィルタをかけることにより、局所的確からしさを塩基位置ｉの順番に並べてできる数列が塩基位置ｉとともにより滑らかに変化し、グラフ表示したときに見やすくなるように加工する。
【００５６】
フィルタ処理１０９では、処理１０８の類似性検索で見つかった相同性のあるｃＤＮＡ配列の区間と蛋白配列の区間に対して、ｃＤＮＡ配列区間のアミノ酸配列への翻訳結果と蛋白配列の区間を比較し、一致するアミノ酸の割合を一致率として計算する。そして、一致率が、０．４から１程度の或る閾値以上である場合にはその相同性のある区間を残し、それ以外の場合にはその相同性のある区間を棄却する。
【００５７】
処理１１０では、既知蛋白に相同性をもつｃＤＮＡ配列の区間の読み枠を求める。これは、ｃＤＮＡ配列区間のアミノ酸配列への翻訳結果と蛋白配列の区間を比較する際、ｃＤＮＡ配列を図４の（１），（２），（３）のうちの何れの読み枠でコドンに区切ったかを示す。
【００５８】
フィルタ処理１１３では極めて類似性の高い区間のみを残し、それ以外を棄却する。ここでは、ｃＤＮＡ配列とゲノム配列の相同性区間内の塩基の一致率を、例えば、９５％以上であることを要請する。
【００５９】
処理１１４では、ゲノム配列に相同性を持つｃＤＮＡ配列の区間の境界の位置を数塩基程度調整することにより、エクソンに対応するゲノム側の相同性区間の境界を調整して、エクソン・イントロンの境界が所謂ＧＴ−ＡＧルールを満たすようにする。これにより、ｃＤＮＡ配列上のエクソン境界位置が決まる。また、相同性のあるｃＤＮＡ配列の区間とゲノム配列の区間の塩基の対応関係を調べて、塩基が挿入・欠失している位置、塩基が一致しない位置、特に、開始コドンや終止コドンに違いが生じる位置、を抽出する。
【００６０】
処理１１６は、処理１０６，１１０，１１４，１１５からの解析結果を纏めて、解析対象ｃＤＮＡ配列１０１の配列座標に沿って、相互に比較できるように表示する処理であり、例えば、図６のような表示を行う。グラフ６１０は、解析対象のｃＤＮＡ配列の各塩基位置がその近辺で５’ＵＴＲである局所的確からしさを、ローパスフィルタをかけて滑らかに表示したグラフである。同様に、グラフ６２０，６３０，６４０はそれぞれ、解析対象のｃＤＮＡ配列の各塩基位置がその近辺で読み枠１，２，３の翻訳領域である局所的確からしさを、ローパスフィルタをかけて滑らかに表示したグラフである。また、グラフ６５０は、解析対象のｃＤＮＡ配列の各塩基位置がその近辺で３’ＵＴＲである局所的確からしさを、ローパスフィルタをかけて滑らかに表示したグラフである。グラフ６６０は、解析対象のｃＤＮＡ配列に含まれる、既知の蛋白配列に相同性をもつ区間を表示したグラフである。グラフ６７０は、解析対象のｃＤＮＡ配列の各読み枠において、開始コドンと終止コドンの位置を表示したグラフである。グラフ６８０は、解析対象のｃＤＮＡ配列と相同なゲノム配列とを比較して、その違いを表示したグラフである。
【００６１】
グラフ６１０，６２０，６３０，６４０，６５０，６６０，６７０，６８０の何れも、共通のｃＤＮＡ配列座標６０１をもち、６０２に示すように同じ塩基位置での事象を互いに比較できるように配列座標をそろえて表示する。座標軸６１１は、５’ＵＴＲである局所的確からしさの評価値Ｌ５’ＵＴＲを表す座標軸であり、波形６１２はローパスフィルタをかけて滑らかにしたＬ５’ＵＴＲのプロット結果である。同様に、座標軸６２１は、読み枠１の翻訳領域である局所的確からしさの評価値ＬＴ１を表す座標軸であり、波形６２２はローパスフィルタをかけて滑らかにしたＬＴ１のプロット結果である。座標軸６３１は、読み枠２の翻訳領域である局所的確からしさの評価値ＬＴ２を表す座標軸であり、波形６３２はローパスフィルタをかけて滑らかにしたＬＴ２のプロット結果である。座標軸６４１は、読み枠３の翻訳領域である局所的確からしさの評価値ＬＴ３を表す座標軸であり、波形６４２はローパスフィルタをかけて滑らかにしたＬＴ３のプロット結果である。また、座標軸６５１は、３’ＵＴＲである局所的確からしさの評価値Ｌ３’ＵＴＲを表す座標軸であり、波形６５２はローパスフィルタをかけて滑らかにしたＬ３’ＵＴＲのプロット結果である。
【００６２】
座標軸６６１は、解析対象のｃＤＮＡ配列に相同性をもつ既知蛋白配列どうしを区別するための座標軸であり、区間６６２は或る既知蛋白配列に対して相同性を持つ区間を表し、区間６６３，６６４，６６５はそれとは異なる既知蛋白配列に対して相同性を持つ区間を表している。各相同性区間６６２，６６３，６６４，６６５に添えられた数字は、その区間が蛋白配列に翻訳されるときの読み枠を示す。また、６６６は、ｃＤＮＡ配列の区間６６２と既知蛋白配列との間でアラインメントを行った際、蛋白側の下流方向にｃＤＮＡに対応しない配列の残り（浮き）が生じた長さを表す。座標軸６７１は、ｃＤＮＡ配列の３種の読み枠を区別するための座標軸であり、マーク６７２は開始コドンの位置、マーク６７３は終止コドンの位置を表している。
【００６３】
座標軸６８０は、ｃＤＮＡ配列に高い相同性を持つゲノム配列を区別するための座標軸であり、６８２はそのような相同性が検出された区間を表し、マーク６８３はゲノム配列と比較してｃＤＮＡ配列側に塩基の挿入が認められる位置を表し、マークマーク６８４はゲノム配列と比較してｃＤＮＡ配列側に塩基の欠失が認められる位置を表し、マーク６８５はゲノム配列とｃＤＮＡ配列で塩基の不一致個所を示す。マーク６８６は塩基の不一致により特にｃＤＮＡ配列側には現れない開始コドンがゲノム配列側には現れる位置を示し、そこに示された数値はそのときの読み枠を示す。同様に、マーク６８７はｃＤＮＡ配列側には現れる開始コドンがゲノム配列側には現れない位置を示し、そこに示された数値はそのときの読み枠を示す。また、マーク６８８はｃＤＮＡ配列側には現れない終止コドンがゲノム配列側には現れる位置を示し、そこに示された数値はそのときの読み枠を示す。同様に、マーク６８９はｃＤＮＡ配列側には現れる終止コドンがゲノム配列側には現れない位置を示し、そこに示された数値はそのときの読み枠を示す。
【００６４】
図６に示した例を用いて、本発明の効果を説明する。図７は、図６の一部を抜き出して、説明のための記号を書き加えたものである。なお、グラフは、図７に例示するように、グラフ表示内部を塗りつぶして表示してもよい。
【００６５】
先ず、図７において、５’ＵＴＲの局所的確からしさのグラフ６１０と読み枠１の局所的確からしさのグラフ６２０のグラフを見比べることにより、そこから読み取ることができる情報について説明する。ローパスフィルタをかけて滑らかにしたＬ５’ＵＴＲのプロット結果６１２を見ると、７０１に示す区間で正になることがわかる。同様に、ローパスフィルタをかけたＬＴ１のプロット結果６２２を見ると、７０２と７０３に示す区間で正になることがわかる。７０１と７０２で示される範囲を見比べて、７０４で示される塩基位置に両者の境界があることがわかる。即ち、７０４の上流側（図の左側）で５’ＵＴＲである局所的確からしさが高く、７０４の下流側（図の右側）で読み枠１の翻訳領域である局所的確からしさが高くなっている。これにより、７０４の位置に開始コドンがあり、７０１は５’ＵＴＲであり７０２は読み枠１の翻訳領域であることが示唆される。
【００６６】
７０２と７０３に挟まれた区間においては、６１２，６２２，６３２，６４２，６５２の何れのプロットも負の値をとっており、この区間は、５’ＵＴＲ，読み枠１，２，３の翻訳領域，３’ＵＴＲの何れの領域である可能性が否定的であることが示されている。即ち、この区間は、それ以外の可能性として、スプライスされずに残ったイントロン配列に相当する区間であることが示唆される。７０５と７０６は、スプライスされずに残ったイントロンとエクソンの境界の位置を示している。
【００６７】
次に、読み枠１の局所的確からしさのグラフ６２０のグラフと読み枠２の局所的確からしさのグラフ６３０のグラフを見比べることにより、そこから読み取ることができる情報について説明する。ローパスフィルタをかけたＬＴ２のプロット結果６３２を見ると、７０７に示す区間で正になることがわかる。７０３と７０７で示される範囲を見比べて、７０８で示される塩基位置に両者の境界があることがわかる。即ち、７０８の上流側で読み枠１の翻訳領域である局所的確からしさが高く、７０８の下流側（図の右側）で読み枠２の翻訳領域である局所的確からしさが高くなっている。これにより、７０８の位置にｃＤＮＡ配列の塩基の欠失があることが原因でフレームシフト（読み枠のずれ）エラーが生じており、７０３は読み枠１の翻訳領域、７０７は読み枠２の翻訳領域であることが示唆される。
【００６８】
次に、読み枠２の局所的確からしさのグラフ６３０のグラフと３’ＵＴＲの局所的確からしさのグラフ６５０のグラフを見比べる。ローパスフィルタをかけて滑らかにしたＬ３’ＵＴＲのプロット結果６５２を見ると、７０９に示す区間で正になることがわかる。７０７と７０９で示される範囲を見比べて、７１０で示される塩基位置に両者の境界があることがわかる。即ち、７１０の上流側で読み枠２の翻訳領域である局所的確からしさが高く、７１０の下流側で３’ＵＴＲである局所的確からしさが高くなっている。これにより、７１０の位置に終止コドンがあり、７０９は３’ＵＴＲであることが示唆される。
【００６９】
次に、図６の例を用いて、既知の蛋白配列に相同性をもつ区間を表示したグラフ６６０の有用性を説明する。図８は、図６の一部を抜き出して、図７で用いた説明記号の一部を書き加えたものである。
【００７０】
６６２と６６３は、局所的確からしさの評価により読み枠１の翻訳領域であることが示唆された区間７０１が、実際に蛋白をコードしている配列と類似していることを示す。
【００７１】
同様に、６６４と６６５は、それぞれ、局所的確からしさの評価により読み枠１、２の翻訳領域であることが示唆された区間７０３，７０７が、実際にその読み枠で蛋白をコードしている配列と類似していることを示しているが、それと同時に、同一の蛋白配列に対して７０８の位置で読み枠が１から２に変わること（フレームシフト）も示している。このことは、７０８の位置でｃＤＮＡ配列に塩基の欠失がおきたことを示唆する。
【００７２】
６６２におけるｃＤＮＡ配列と既知蛋白配列との間のアラインメントでは、蛋白側の下流方向にｃＤＮＡに対応しない配列の残り（浮き）が６６６に示す長さだけ生じることから、この蛋白はこのｃＤＮＡに厳密に対応するものではなく、このｃＤＮＡのスプライス・バリアントに由来する蛋白であるか、または、他の類似遺伝子に由来するものであることがわかる。
【００７３】
これに対して、６６３と６６４の間には、蛋白配列側に浮きが発生せずに同一の蛋白に連続的に対応しているため、ｃＤＮＡ側に生じた（蛋白配列に対応しない）浮きの区間８０１は、スプライスされずに残ったイントロンであるか、または、ｃＤＮＡ配列は既知蛋白のスプライス・バリアントであることが示唆される。局所的確からしさの評価結果と合わせると、後者の可能性は否定され、８０１はスプライスされずに残ったイントロンであることが示唆される。
【００７４】
次に、図６の例を用いて、解析対象のｃＤＮＡ配列と相同なゲノム配列とを比較してその違いを表示したグラフ６８０の有用性を説明する。図９は、図６の一部を抜き出して、図７、図８で用いた説明記号の一部を書き加えたものである。
【００７５】
６８２は、７０２，８０１，７０３の３つの区間を連続的に含むより広い区間（この場合はｃＤＮＡ配列の全区間）で、ｃＤＮＡ配列とゲノム配列とが高い類似性を持つことを表している。特に、局所的確からしさの評価と既知蛋白との相同性解析からスプライスされずに残ったイントロンであると示唆された８０１の区間が実際にゲノム配列に対応することが示される。
【００７６】
６８４は、ゲノム配列と比較してｃＤＮＡ配列側に塩基の欠失が７０８の位置で起きていることを示す。７０８の位置は、既に、局所的確からしさの評価の観点からも、既知蛋白との相同性検索の結果からもフレームシフトが生じていると示唆された位置である。ここでは、さらにゲノム配列との比較の観点からも、７０８の位置でフレームシフトが生じていることが示唆されたことになる。
【００７７】
６８６は、７０４の位置にｃＤＮＡ配列側には現れない読み枠１の開始コドンがゲノム配列側には現れることを示している。７０４の位置では、局所的確からしさの評価結果からは読み枠１の開始コドンが存在すると示唆されていたが、ｃＤＮＡ配列の各読み枠の全ての開始コドンと終止コドンの位置を表示したグラフ６７０においてはそのような開始コドンの存在が示されず、両者は矛盾していた。ところが、ここでゲノム配列との比較により７０４の位置に読み枠１の開始コドンが見つかったことから、７０４の位置でｃＤＮＡ配列のシーケンスの過程に塩基の読み誤りが生じていたことが示唆される。
【００７８】
６８８は、７１０の位置にｃＤＮＡ配列側には現れない読み枠２の終止コドンがゲノム配列側には現れることを示している。７１０の位置では、局所的確からしさの評価結果からは読み枠２の終止コドンが存在すると示唆されていたが、ｃＤＮＡ配列の各読み枠の全ての開始コドンと終止コドンの位置を表示したグラフ６７０においてはそのような終止コドンの存在が示されず、両者は矛盾していた。ところが、ここでゲノム配列との比較により７１０の位置に読み枠２の開始コドンが見つかったことから、７１０の位置でｃＤＮＡ配列のシーケンスの過程に塩基の読み誤りが生じていたことが示唆される。
【００７９】
図１０に、本発明の蛋白翻訳領域の評価法を応用した、ｍＲＮＡ取得から蛋白生産までの手順を示す。処理１００１は、ｍＲＮＡ試料を生体細胞から採取する処理である。処理１００２は、分解しやすいｍＲＮＡ試料を安定なｃＤＮＡ配列に逆転写する処理である。処理１００３は、得られたｃＤＮＡ配列を増幅して、ｃＤＮＡライブラリ１００４を作成する処理である。処理１００５は、多数のクローンを含むｃＤＮＡライブラリからクローンをひとつ選択する処理である。処理１００６は、選んだクローンの塩基配列をシーケンサを用いて決定する処理である。こうして得られた塩基配列データ１００７に対して、図１の処理手順に従い蛋白翻訳領域・非翻訳領域の解析を行い、図６に示すような解析結果を得る。この解析結果を見て、完全な蛋白翻訳領域が含まれているか否かの判断１００８を行う。含まれていなければ、１００５のクローン選択に戻って処理をやり直す。含まれている場合には、処理１００９に示す発現ベクターへの組み込みを行い、蛋白生産１０１０を行う。判断１００８以外の処理は、何れも公知の技術である。
【００８０】
図１０において、１００８の判断を行うことにより、本来のｍＲＮＡに対応する完全な蛋白が得られる。１００８の判断を行わなかった場合には、本来の蛋白の部分列しか得られず本来の機能を失ってしまうか、または、蛋白が全く生産できないことになる。従って、本発明により蛋白生産に伴うリスクを減少させ、コストと時間を大幅に低減できることになる。
【００８１】
【発明の効果】
本発明によると、局所的な確からしさの評価値、既知蛋白との相同性解析結果、ゲノム配列との相同性解析結果を比較することにより、信頼性の高い判断ができる。
【図面の簡単な説明】
【図１】本発明の一実施の形態における全体の処理手順の概略図。
【図２】各領域別の局所的確からしさのパラメータを学習するための処理の概略図。
【図３】ｍＲＮＡ配列の５’ＵＴＲ，翻訳領域，３’ＵＴＲ、開始コドン、終止コドンを説明する図。
【図４】読み枠とサイトを説明するための例を示した図。
【図５】ｋ−タプルの頻度表の例を示す図。
【図６】本発明の一実施の形態における解析結果の表示例の説明図。
【図７】局所的確からしさのグラフ表示の有用性を説明するための例を示した図。
【図８】蛋白配列に相同性のグラフ表示の有用性を説明するための例を示した図。
【図９】ｃＤＮＡ配列とゲノム配列との違いを表示したグラフ６８０の有用性を説明するための例を示した図。
【図１０】本発明による蛋白翻訳領域の評価法を応用したｍＲＮＡ取得から蛋白生産までの手順を示す図。
【符号の説明】
１０１…解析の対象とするｃＤＮＡ配列
１０２…既知のｍＲＮＡ配列のデータベース
１０３…各領域別に局所的確からしさパラメータの学習を行う処理
１０４…学習結果の信頼性を評価する処理
１０５…解析対象のｃＤＮＡ配列の各塩基位置で、各領域の局所的確からしさを評価する処理
１０６…ローパスフィルタをかけて、局所的確からしさを評価の変化を滑らかにする処理
１０７…既知の蛋白配列のデータベース
１０８…解析対象のｃＤＮＡ配列に対して相同性のある既知蛋白配列を求める処理
１０９…一致率が閾値に満たないような既知蛋白配列との相同性情報を棄却する処理
１１０…既知配列に対して相同性のあるｃＤＮＡ配列の区間の読み枠を求める処理
１１１…ゲノム配列のデータベース
１１２…解析対象のｃＤＮＡ配列に対して相同性の或るゲノム配列を求める処理
１１３…ｃＤＮＡ配列とゲノム配列との一致率が極めて高い相同性情報を選ぶ処理
１１４…ｃＤＮＡ配列とゲノム配列を比較して、塩基の挿入・欠失、エクソン境界、開始・終止コドンに変化のある位置を求める処理
１１５…解析対象のｃＤＮＡ配列の全ての読み枠の全ての開始コドン・終止コドンを求める処理
１１６…ｃＤＮＡ配列座標に沿って、各種解析結果を総合に比較し得るように表示する処理

Claims

非翻訳領域と翻訳領域を有する塩基配列について、
横軸を配列座標、縦軸を非翻訳可能性の確からしさとした第１のグラフを表示し、
横軸を配列座標、縦軸を翻訳可能性の確からしさとした第２のグラフを表示する方法であって、
前記第１のグラフと前記第２のグラフとを、前記配列座標をそろえて並列又は重複して表示することを特徴とする表示方法。
請求項１記載の表示方法において、前記第１のグラフは、前記配列座標が５’末端と３’末端とを含むことを特徴とする表示方法。
請求項１記載の表示方法において、前記第２のグラフは、第１の読枠、前記第１の読枠から１塩基ずらした第２の読枠、前記第１の読枠から２塩基ずらした第３の読枠で前記翻訳可能性の確からしさを表示することを特徴とする表示方法。
請求項１記載の表示方法において、前記確からしさが肯定的である場合にはその確からしさの程度を正の量として表示し、前記確からしさが否定的である場合にはその確からしさの程度を負の量として表示し、前記確からしさが肯定的とも否定的とも判断しかねる場合は０近辺の量としてグラフ表示することを特徴とする表示方法。
請求項４記載の表示方法において、前記グラフの波形と横軸とに挟まれる部分を塗りつぶすことを特徴とする表示方法。
請求項１記載の表示方法において、更に、前記塩基配列のイントロン領域を前記配列座標にそろえて並列に表示することを特徴とする表示方法。
請求項１記載の表示方法において、更に、前記塩基配列の同一種及び他種生物の蛋白配列に対する相同性を前記配列座標にそろえて並列に表示することを特徴とする表示方法。
請求項１記載の表示方法において、更に、前記塩基配列と、前記塩基配列と同一生物種のゲノム配列との塩基不一致箇所、塩基の挿入、塩基の欠失を前記配列座標に並列に表示することを特徴とする表示方法。
翻訳領域と非翻訳領域を有する塩基配列について、前記翻訳領域と前記非翻訳領域の確からしさを、以下の式により求めることを特徴とする方法。

（ここで、Ｒ＝Ｔ１，Ｔ２，またはＴ３のとき、Ｃ_Ｒ（ｉ）は前記塩基配列の先頭からｉ番目の塩基位置において第１、第２、または第３の読み枠で翻訳領域である確からしさを局所的に評価する量であり、Ｒ＝５’ＵＴＲまたは３’ＵＴＲのとき、Ｃ_Ｒ（ｉ）は前記塩基配列の先頭からｉ番目の塩基位置において５’末端または３’末端の非翻訳領域である確からしさを局所的に評価する量であり、ｎ（ｉ−ｋ＋１，ｉ）は前記塩基配列のｉ−ｋ＋１番目からｉ番目までの塩基からなる長さｋの部分列であり、Ｌ_Ｒは次式により計算される量である。）

（ここで、Ｐ_Ｒは次式により計算される量である。）

（ここで、Ｒ＝Ａｌｌのとき、Ｎ_Ｒ（ｎ１ｎ２ … ｎｋ）は、学習用に用意した既知のｍＲＮＡ配列のデータセットにおいて長さｋの部分塩基配列ｎ１ｎ２ … ｎｋが現れる回数であり、Ｒ＝５’ＵＴＲまたは３’ＵＴＲのとき、Ｎ_Ｒ（ｎ１ｎ２ … ｎｋ）は、前記データセット内のｍＲＮＡ配列の５’末端または３’末端の非翻訳領域において長さｋの部分塩基配列ｎ１ｎ２ … ｎｋが現れる回数であり、Ｒ＝Ｔ１，Ｔ２，またはＴ３のとき、Ｎ_Ｒ（ｎ１ｎ２ … ｎｋ）は、前記データセット内のｍＲＮＡ配列の翻訳領域において最後の塩基がコドンのそれぞれ１、２、３塩基目であるように長さｋの部分塩基配列ｎ１ｎ２ … ｎｋが現れる回数である。）
複数のｃＤＮＡを含むｃＤＮＡライブラリから１つのｃＤＮＡを選択するステップと、
前記選択したｃＤＮＡの塩基配列を決定するステップと、
得られた塩基配列データに対して蛋白翻訳可能性の確からしさ及び蛋白非翻訳可能性の確からしさの評価を行うステップと、
得られた蛋白翻訳可能性の確からしさ及び蛋白非翻訳可能性の確からしさの評価値を請求項１〜８のいずれか１項記載の方法により表示するステップと、
前記表示結果により選択したｃＤＮＡに完全な蛋白翻訳領域が含まれているか否かを判定するステップと、
選択したｃＤＮＡに完全な蛋白翻訳領域が含まれている場合にそれを発現ベクターに組み込んで蛋白を合成するステップを含むことを特徴とする蛋白合成方法。