JP2004164207A - UTR評価を併用したcDNA配列のORF解析、表示方法及び蛋白合成方法 - Google Patents
UTR評価を併用したcDNA配列のORF解析、表示方法及び蛋白合成方法 Download PDFInfo
- Publication number
- JP2004164207A JP2004164207A JP2002328516A JP2002328516A JP2004164207A JP 2004164207 A JP2004164207 A JP 2004164207A JP 2002328516 A JP2002328516 A JP 2002328516A JP 2002328516 A JP2002328516 A JP 2002328516A JP 2004164207 A JP2004164207 A JP 2004164207A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- base
- protein
- region
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K1/00—General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
Abstract
【課題】未成熟なmRNAに由来するcDNA配列、末端が切れたcDNA配列、などに不完全な形で含まれる蛋白翻訳領域の範囲を推定し、表示する。
【解決手段】既知のmRNA配列データを用いた学習結果により、塩基配列の各位置で翻訳領域または非翻訳領域である確からしさを局所的に評価し、また、既知蛋白との相同性解析、ゲノム配列との相同性解析を行い、それらの結果を互いに比較し得るよう塩基配列座標601に沿って提示する。
【選択図】 図6
【解決手段】既知のmRNA配列データを用いた学習結果により、塩基配列の各位置で翻訳領域または非翻訳領域である確からしさを局所的に評価し、また、既知蛋白との相同性解析、ゲノム配列との相同性解析を行い、それらの結果を互いに比較し得るよう塩基配列座標601に沿って提示する。
【選択図】 図6
Description
【0001】
【発明の属する技術分野】
本発明は遺伝子配列の情報解析に係わり、cDNAの塩基配列データから蛋白をコードする領域を推定し、各塩基位置でのコード領域らしさを表すコーディングポテンシャルを表示する方法に関する。特に、完全な蛋白翻訳領域を含まないようなcDNA配列、例えば、末端が切れたcDNA配列、未成熟なmRNAに由来するcDNA配列、に対して有効な解析方法に関する。
【0002】
【従来の技術】
生物の遺伝情報は、ゲノム内にDNA配列として蓄えられており、必要に応じてその一部の領域がmRNAに転写・スプライシングされ、さらにその一部分の配列がアミノ酸配列である蛋白に翻訳され、そのような蛋白が多数協同的に働いて、生体内で発現する。従って、生体内で発現している遺伝情報を調べるためには、発現しているmRNAを抽出して、それをより安定なcDNA配列に逆転写し、PCR (Polymerase chain reaction, ポリメラーゼ連鎖反応) で増幅し、シーケンサーを用いてその塩基配列を決定することが行われている。蛋白のアミノ酸配列を直接決めることは、ゲノムやcDNAの塩基配列を決めることに比較して、技術的により困難でありコストが高くつくため、通常、蛋白のアミノ酸配列は塩基配列を翻訳することにより求められている。
【0003】
A, G, C, Tの4種類の塩基からなる塩基配列から、20種類のアミノ酸からなるアミノ酸配列へ翻訳するには、塩基配列中の特定の位置(翻訳開始位置)から特定の位置(翻訳終止位置)までの塩基配列を3文字ずつに区切り、塩基3文字をアミノ酸1文字に対応させることによって得られる。4×4×4=64通りの塩基3文字(コドン)をアミノ酸1文字に対応させる表は、コドン表とよばれ、ほとんどの生物に共通である。翻訳開始位置にはATG(開始コドン)があり、翻訳終止位置には, TAA, TGA, TAGのいずれかの終止コドンがある。ATGはアミノ酸のひとつメチオニンにも対応しており、特定のATGのみが開始コドンとして用いられ、それ以外の翻訳途中に現れたATGはメチオニンに対応している。これに対し、TAA, TGA, TAGはアミノ酸に対応することはなく、常に終止コドンとして働く。
【0004】
一般に、塩基配列を3文字ずつに区切る仕方は3通りあり、その区切り方は読み枠(フレーム)とよぶ。読み枠は開始コドンの位置で決まる。塩基配列が与えられたとき、その中に現れた任意のATGから3文字ずつに区切ってTAA, TGA, TAGのいずれかが最初に現れるまでの、3の倍数の塩基数を含む部分列を、ひとつのORF(Open Reading Frame, 開いた読み枠)とよぶ。通常、cDNAの塩基配列には多数のORFが存在するが、実際に生体内で翻訳が行われるのはそのうちのただひとつのORFである。
【0005】
ヒトを含む真核生物のcDNA配列の蛋白翻訳領域を求めるためには、一般に、最長のORFを求めれば良いと言われている。また、より精度を上げるためには、コザック規則による評価や、それを一般化した、開始コドン周辺の塩基配列の出現頻度を反映した重み行列を用いた評価などが行われる。これらの方法は、得られたcDNA配列が完全なmRNAに由来するものであれば、すなわち、その中にただひとつの連続した蛋白翻訳領域が含まれている場合であれば、多くの場合うまくいく。
【0006】
【発明が解決しようとする課題】
しかし、現実にシーケンスされて得られたcDNA配列には、妥当なORFが見つからないことも多い。その理由として、次のようなことが考えられる。
1.cDNAが、スプライシングが完了していない未成熟なmRNAに由来していた。
2.PCR増幅中に断片化され、5‘末端、または、3’末端、または、両端が失われた。
3.シーケンサー読み取りの際、塩基を読み飛ばしたか、2度読んだために、読み枠がずれた。
4.シーケンサー読み取りの際、塩基を別の塩基と読み誤り、その結果、開始コドンや終始コドンが失われるか、または、余分に現れた。
5.異なるmRNA間でキメラが生じ、それを解析してしまった。
6.mRNAに関わりの無い、ゲノムの断片を解析してしまった。
【0007】
これらの事象を解析するためには、次のような方法が一般に用いられている。
a.塩基の並びの統計的解析(その部分が蛋白をコードしている可能性)
b.既知の(同一種および他種の生物の)蛋白配列に対する相同性
c.同一生物種のゲノム配列との比較
【0008】
これらの個々の解析結果はどのような事象が起きているかを示唆するが、一般には、それぞれ単独では断定的な証拠になるとは言えない。これらの結果は、他の生物学的知識に照らして総合的判断される。そこで、cDNA配列上の各塩基位置で、これらの解析結果を相互に比較し得る形で分かり易く表現することは、上記の種々の事象の可能性を検討する上で有用であると考えられる。
【0009】
本発明は、このような問題に鑑み、様々なエラーを含むような現実のシーケンスデータの中からエラーを除去しつつ高精度に蛋白翻訳領域を抽出する方法を提供することを目的とする。
【0010】
【課題を解決するための手段】
前記目的を達成すべく、本発明においては、完全な蛋白翻訳領域を含まないようなcDNA配列に対して、塩基配列の各位置で蛋白翻訳領域らしさ、非翻訳領域らしさを評価し、塩基配列座標に沿って表示する。
【0011】
すなわち、非翻訳領域と翻訳領域を有する塩基配列について、横軸を配列座標、縦軸を非翻訳可能性の確からしさとした第1のグラフを表示し、横軸を配列座標、縦軸を翻訳可能性の確からしさとした第2のグラフを表示する、本発明による表示方法は、第1のグラフと第2のグラフとを、配列座標をそろえて並列又は重複して表示することを特徴とする。
【0012】
第1のグラフは、配列座標が5’末端と3’末端とを含む。また、第2のグラフは、第1の読枠、第1の読枠から1塩基ずらした第2の読枠、第1の読枠から2塩基ずらした第3の読枠で翻訳可能性の確からしさを表示するのが好ましい。
【0013】
また、確からしさが肯定的である場合にはその確からしさの程度を正の量として表示し、確からしさが否定的である場合にはその確からしさの程度を負の量として表示し、確からしさが肯定的とも否定的とも判断しかねる場合は0近辺の量としてグラフ表示するのが好ましい。
【0014】
グラフの波形と横軸とに挟まれる部分を塗りつぶして表示してもよい。
塩基配列のイントロン領域を配列座標にそろえて並列に表示する方法も有用である。
【0015】
塩基配列の同一種及び他種生物の蛋白配列に対する相同性を配列座標にそろえて並列に表示してもよい。更に、塩基配列と、塩基配列と同一生物種のゲノム配列との塩基不一致箇所、塩基の挿入、塩基の欠失を配列座標に並列に表示するようにしてもよい。
翻訳領域と非翻訳領域を有する塩基配列についての、翻訳領域と非翻訳領域の確からしさは、後述する式(1),(2), (3), (5)を用いて求めることができる。
【0016】
また、本発明による蛋白合成方法は、複数のcDNAを含むcDNAライブラリから1つのcDNAを選択するステップと、選択したcDNAの塩基配列を決定するステップと、得られた塩基配列データに対して蛋白翻訳可能性の確からしさ及び蛋白非翻訳可能性の確からしさの評価を行うステップと、得られた蛋白翻訳可能性の確からしさ及び蛋白非翻訳可能性の確からしさの評価値を請求項1〜8のいずれか1項記載の方法により表示するステップと、表示結果により、選択したcDNAに完全な蛋白翻訳領域が含まれているか否かを判定するステップと、選択したcDNAに完全な蛋白翻訳領域が含まれている場合にそれを発現ベクターに組み込んで蛋白を合成するステップを含むことを特徴とする。
【0017】
【発明の実施の形態】
本発明では、与えられたcDNA配列に対して、以下の処理ステップからなる方法によって、cDNA配列の各塩基位置での種々の解析結果を表示することにより、ユーザが蛋白翻訳領域を推定したり、蛋白翻訳領域が種々の事象により損なわれている可能性を検討したりするための有用な情報を提示する。
【0018】
(1)完全な蛋白翻訳領域を含む既知のmRNA配列を公共データベース内から集め、それらを学習用・評価用の2セットに分割し、以下の処理ステップを行うステップ。
【0019】
(1−1) 学習セットと評価セットの各mRNA配列に対して、その配列を5’UTR(5’ untranslated region, 上流側非翻訳領域)、蛋白翻訳領域、3’UTR(3’ untranslated region, 下流側非翻訳領域)の3つの領域に分割するステップ。
【0020】
(1−2) kを5から9程度の整数として、長さkのあらゆる塩基配列(k−タプル)に対して、k−タプルが学習セットのmRNA配列の5’UTR、3’UTR、および、mRNA配列全体に出現する頻度を数え、さらに、k−タプルが学習セットの蛋白翻訳領域に出現する際には、k−タプルの最終塩基位置がコドンの何塩基目の位置(サイト)を占めるかを求め、サイト1,2,3ごとに蛋白翻訳領域にk−タプルが出現する頻度を数えるステップ。
【0021】
(1−3) 5’UTR、3’UTR、サイトごとの蛋白翻訳領域、及び、mRNA配列全体の各々の領域に対して、k−タプルの出現頻度の表から、(k−1)−タプルの条件下で次の塩基が現れる条件付確率(遷移確率)の表を計算するステップ。
【0022】
(1−4) 5’UTR、3’UTR、サイトごとの蛋白翻訳領域に対する遷移確率を、mRNA配列全体での遷移確率と比較して、5’UTR、3’UTR、サイトごとの蛋白翻訳領域の各々に対して(k−1)−タプルの条件下で次の塩基が現れる局所的確からしさの学習パラメータを求めるステップ。
【0023】
(1−5) 評価セットの各mRNA配列に対して、その5’UTR内の各塩基位置での(k−1)−タプル条件下で次の塩基が現れる局所的確からしさの合計値、その3’UTR内の各塩基位置での(k−1)−タプル条件下で次の塩基が現れる局所的確からしさの合計値、その蛋白翻訳領域内の各塩基位置での (k−1)−タプル条件下でそのサイトで次の塩基が現れる局所的確からしさの合計値、を求め、それらの総計を蛋白翻訳領域の確からしさとして計算するステップ。
【0024】
(1−6) 評価セットの各mRNA配列に対して、あらゆるORFを考え、そのORFに対して前項と同様の計算を行い、そのORFの蛋白翻訳領域としての確からしさを求めるステップ。
【0025】
(1−7) 評価セット内の全mRNA配列に対して、前項と前々項の確からしさの値を比較して、蛋白翻訳領域の確からしさがそれ以外のORFの確からしさより大きな値を持つようなmRNA配列の割合を計算することにより、各領域に対して求めた(k−1)−タプルの条件下で次の塩基が現れる局所的確からしさの値の信頼性を評価するステップ。
【0026】
(2)与えられたcDNA配列の各塩基位置で、そこが5’UTRであると仮定して、(k−1)−タプル条件下で次の塩基が現れる局所的確からしさを計算し、塩基位置順に並んだそれらの値にローパスフィルタをかけて平滑化し、それらの値をcDNA配列座標に沿って表示するステップ。
【0027】
(3)与えられたcDNA配列の各塩基位置で、そこが3’UTRであると仮定して、(k−1)−タプル条件下で次の塩基が現れる局所的確からしさを計算し、塩基位置順に並んだそれらの値にローパスフィルタをかけて平滑化し、それらの値をcDNA配列座標に沿って表示するステップ。
【0028】
(4)読み枠1,2,3のそれぞれに対して、与えられたcDNA配列の各塩基位置で、そこがその読み枠での蛋白翻訳領域であると仮定して、(k−1)−タプル条件下で次の塩基が現れる局所的確からしさを計算し、塩基位置順に並んだそれらの値にローパスフィルタをかけて平滑化し、それらの値をcDNA配列座標に沿って表示するステップ。
【0029】
(5)同一種や他種の生物の既知の蛋白配列を集めた公共データベースに対して、与えられたcDNA配列の翻訳配列に類似した配列を検索し、以下の処理ステップを行うステップ。
【0030】
(5−1) 見つかった蛋白配列ごとに、与えられたcDNA配列のどの範囲の部分列が既知の蛋白配列の部分列の類似配列に翻訳されるかを同定し、その類似度(アミノ酸配列の一致率)を求め、また、その部分列での読み枠を求めるステップ。
【0031】
(5−2) 類似度が閾値以上であるような部分列の区間を抽出し、その区間をcDNA配列座標に沿って、同じ蛋白配列に対応するものは同じy座標を持つように、その読み枠を色や線種により明示して、表示するステップ。
【0032】
(6)同一種のゲノム配列を集めた公共データベースに対して、与えられたcDNA配列に対して高い類似性を持つ類似配列を検索し、以下の処理ステップを行うステップ。
【0033】
(6−1) 見つかったゲノム配列ごとに、与えられたcDNA配列のどの範囲の部分列がゲノム配列の部分列に高い類似性をもつかを同定し、また、その中に不一致部分があれば、塩基の置換・挿入・欠失のどれに当たるかを調べ、また、それにより、cDNA配列とゲノム配列で開始コドンや終止コドンに違いが生じるか否かを調べるステップ。
【0034】
(6−2) ゲノム配列の部分列に高い類似性をもつ区間を、同じゲノム配列に対応するものは同じy座標を持つように、cDNA配列座標に沿って線分で表示し、また、その両端はエクソン・イントロンの境界に対応することを明示する点を表示し、また、その区間内に含まれる塩基の挿入・欠失位置をフレーム・シフト候補位置として別の種類の点で明示し、また、cDNA配列とゲノム配列で開始コドンや終止コドンに違いが生じる位置をさらに別種の点で明示するステップ。
【0035】
(7)ローパスフィルタをかけた相対対数尤度が正または負になる区間を識別しやすいように、(3),(4),(5)のグラフで0(横軸)との間を塗りつぶすステップ。
以下、本発明の実施の形態を、図を用いて詳細に説明する。
【0036】
図1に、本発明の一実施例における処理の概要を示す。101は、解析の対象とするcDNA配列データである。mRNA DB102は、解析の対象としている生物種の既知のmRNAの公共データベースである。例えば、米国National Center for Biotechnolygy Information (NCBI)のRefSeqデータベースを用いることができる。処理103は、データベース102の既知のmRNA配列情報をもとに、局所的な塩基配列の並びがどのような蛋白翻訳領域、非翻訳領域に対応しているかを評価するための確からしさのパラメータを学習する処理である。処理104は、処理103の学習結果のパラメータの信頼性評価を行う処理である。処理105は、解析対象cDNA配列101の各塩基位置において、処理103の局所的確からしさのパラメータの学習結果を用いて、そこがどのような蛋白翻訳領域、非翻訳領域に対応しているかを評価する処理である。処理106は、処理105で求めた局所的確からしさの評価値を、塩基位置順に並べてローパスフィルタをかける処理である。ローパスフィルタとしては、例えば、公知のButterworhフィルタを用いることができる。
【0037】
データベース107は、解析の対象としている生物と同一種または他種の既知の蛋白のアミノ酸配列のデータベースである。例えば、NCBIのnrデータベースを用いることができる。処理108は、解析対象cDNA配列101を蛋白配列データベース107に対して、弱い類似性まで認めて類似性検索を行う処理である。この検索は、塩基配列をアミノ酸配列に翻訳しながら類似性のある区間を探す検索であり、公知の技術を用いて、例えば、NCBIのBLASTX(Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), ”Gapped BLAST and PSI−BLAST: a new generation of protein database search programs”, Nucleic Acids Res. 25:3389−3402.)を用いることにより可能である。フィルタ処理109は、処理108で見つかった類似性のある区間に対して、その類似度が一定の閾値以下であるものを捨てる処理である。処理110は、フィルタ処理109で残された類似性区間に対して、その翻訳の読み枠を求める処理である。
【0038】
ゲノムDB111は、解析の対象としている生物と同一種の生物のゲノム配列のデータベースである。例えば、NCBIのGenBankデータベースを用いることができる。処理112は、解析対象cDNA配列101をゲノム配列データベース111に対して類似性検索を行う処理である。この検索は、塩基配列どうしの類似性のある区間を探す処理であり、公知の技術を用いて、例えば、NCBIのBLASTNを用いることにより可能である。フィルタ処理113は、極めて類似性の高い区間のみを残す処理である。処理114は、類似性のあるゲノムとcDNAの区間同士を比較し、その中から、塩基の挿入・欠失位置、エクソン境界の位置、開始コドン・終止コドンがゲノムとcDNAで違いのある位置、を抽出する処理である。処理115は、101のcDNA配列の各読み枠にある全ての開始コドンと終止コドンを抽出する処理である。処理116は、処理106, 110, 114, 115からの解析結果を纏めて、解析対象cDNA配列101の配列座標に沿って、相互に比較できるように表示する処理である。
【0039】
図2に、図1に図示した局所的確からしさのパラメータの学習処理103の概要を示す。mRNA DB 201は、図1のmRNA DB 102に対応する、既知のmRNAの公共データベースである。フィルタ処理202は、パラメータ学習に適したmRNA配列を選び出す処理である。分割処理203は、選び出されたmRNA配列を、学習用のセット204と評価用のセット205に分割する処理である。学習用と評価用のセットの分割に当たっては、例えば、全体を等分に分割すればよい。ただし、この分割には統計的な偏りが生じてはならず、例えば、擬似乱数を用いて分割を行うなどの必要がある。処理206は、学習用の各mRNA配列に対して、サイト別の蛋白翻訳領域・非翻訳領域、及び、全領域において全てのk−タプルが出現する回数を数えて頻度表を作成する処理である。ここで、kは5から9程度の整数であり、長さkの塩基配列をk−タプルとよぶ。k−タプルは4のk乗通りだけ種類があるため、kの値が小さすぎるとk−タプルは塩基配列の多様性を表現できなくなり、また、逆に、kの値が大きすぎるとほとんどのk−タプルの頻度が0となり有効な頻度表が作成できなくなる。処理207は、 (k−1)−タプルの条件下で次の塩基が現れる条件付確率(遷移確率)の表を計算する処理である。処理208は、(k−1)−タプルの条件下で次の塩基が現れる局所的確からしさを、各領域別に求める処理である。この値が学習結果のパラメータである。
【0040】
処理209は、評価用mRNA205の各mRNA配列に対して、処理208の学習結果のパラメータを用いて、蛋白翻訳領域の確からしさを評価する処理である。処理210は、評価用mRNA 205の各mRNA配列に対して、蛋白翻訳領域以外のすべてのORFを抽出する処理である。処理211は、処理210で抽出した各ORFに対して、処理209と同様に、蛋白翻訳領域としての確からしさを評価する処理である。処理212は、処理209と処理210の評価結果を比較し、蛋白翻訳領域とそれ以外の全ORFとの評価結果を比較する処理である。処理213は、処理212の比較処理の結果に基づき、処理208で得た学習パラメータの信頼性を評価する処理である。
【0041】
図3に示すmRNAの塩基配列の例を用いて、図2におけるフィルタ処理202の内容を説明する。先ず、データベースに登録された各mRNAに対して、そこにただひとつの翻訳領域が完全な形で含まれていると記載されているかどうかを検査する。例えば、NCBIのRefSeqデータベースであれば、p, qを或る正の整数として、CDSの項目がp..qの形式で記載されていればよい。このpとqは、開始コドンと終止コドンの位置がmRNA配列の先頭から何塩基目であるかを示す。図3の例では、301が開始コドン、302が終止コドンを示す。303に示すように、開始コドンから終止コドンまでの領域を翻訳領域(TR, translated region)とよぶ。また、304に示すように、開始コドンより前の部分を5’UTR(5’ untranslated region, 5’非翻訳領域)、終止コドンより後の部分を3’UTR(3’ untranslated region, 3’非翻訳領域)、と呼ぶ。翻訳領域303内の塩基配列は、図に示すように、コドンと呼ばれる3塩基ずつに区切られ、それぞれはコドン表に従って特定のアミノ酸に翻訳される。図2のフィルタ処理202では、ただひとつの翻訳領域が完全な形で含まれていると記載されており、その5’UTR、翻訳領域、3’UTRの長さが全てある閾値以上、例えば、50塩基以上あるものを選択し、それ以外のものを捨てる。この閾値設定は、各領域でのパラメータ学習が効果的に行えるようにするためのものである。
【0042】
図4を用いて、塩基配列をアミノ酸配列に翻訳する際の読み枠を説明し、次に、読み枠を仮定したときの塩基位置を3種類サイトに分類する方法について説明する。先ず、塩基配列は3塩基ずつのコドンに区切られアミノ酸に翻訳されるため、塩基配列の翻訳の仕方には図に示すように3通りある。図の(1)の場合のように、塩基配列の先頭から数えた各コドンの先頭の塩基位置が、3で割って1余る数になっているとき読み枠1とよぶ。同様に、図の(2)と(3)の場合は、それぞれ、読み枠2、読み枠3とよぶ。次に、ひとつの読み枠を仮定したとき、各塩基位置はコドン内の1塩基目であるか、2塩基目であるか、3塩基目であるか、のいずれかになる。このことを、その塩基位置がサイト1である、サイト2である、サイト3であるとよぶ。図4において、各塩基の下に示された1, 2, 3の数値はその塩基位置のサイトの番号を表す。
【0043】
処理206は、図5に例示するようなk−タプルの頻度表を作成するための処理を行う。図5は、k=7として、サイト別の蛋白翻訳領域・非翻訳領域、及び、全領域におけるk−タプルの頻度表を作成した例を示す。列501は、あらゆる7−タプルを列挙した列である。列502は、5’UTRにおいて該当する7−タプルが出現した回数である。列503は、翻訳領域において該当する7−タプルが、その最終塩基位置がサイト1であるように出現した回数である。同様に、列504, 505は、翻訳領域において該当する7−タプルが、その最終塩基位置がそれぞれサイト2,3であるように出現した回数である。列506は、3’UTRにおいて該当する7−タプルが出現した回数である。列507は、領域を問わず、ともかくmRNA配列内に該当する7−タプルが出現した回数である。
列207の各領域別の遷移確率表の計算は、処理206の各領域別のk−タプルの出現頻度表に基づいて、次の式により行われる。
【0044】
【数4】
【0045】
ここで、各niはa, g, c, t 何れかの塩基1文字を表し、n1n2…nkはk−タプルを表し、NRは領域Rにおけるタプルの頻度を表し、PRは領域Rにおける(k−1)−タプルの条件下で次の塩基が現れる条件付確率(遷移確率)を表す。式中に1/2が表れるのは、頻度が0となる場合に対処するためにJeffreys−Perks法に従ったからである。
処理208の各領域別の局所的確からしさパラメータの計算は、次の式により行われる。
【0046】
【数5】
【0047】
処理209における、評価用mRNA配列に対する蛋白翻訳領域の確からしさの評価値は、次の式により計算される。
【0048】
【数6】
【0049】
ここで、n( i−k+1, i )は評価用mRNA配列の先頭から i−k+1番目からi番目までの長さkの部分列であり、LはmRNAの全塩基長、p、qはそれぞれ開始コドンのサイト1の塩基と終止コドンのサイト3の塩基がmRNA配列の先頭から何塩基目の位置にあるかを表し、sum_[i=I,…,J]は、i=I, I+1, …, Jについて和をとることを表し、また、s(i)は、翻訳領域内にありmRNA配列の先頭からi番目の位置にある塩基のサイトを表す。
【0050】
処理210における全ORFの抽出処理では、評価用の各mRNA配列に対して、全てのATGの出現位置を求め、そこから最初に現れるTAA, TAG, TGAの何れか、または、mRNA配列末端(3’末端)まで、及び、mRNA配列の始端(5’末端)から最初に現れるTAA, TAG, TGAの何れか、または、mRNA配列3’末端まで、の全て区間として求める。
【0051】
処理211におけるORFの確からしさの計算は、209と同様に、p、qはそれぞれORFの最初と最後の塩基がcDNA配列先頭から何塩基目にあるかを表す数として、計算式(4)で求められる。
【0052】
比較処理212は、処理210で求めた蛋白翻訳領域の確からしさの評価値と、処理211で求めたそれ以外のORFに対する確からしさの評価値との、大きさの比較を行う。処理208で学習した局所的な確からしさパラメータが適切であれば、大多数の評価用mRNAに対して、処理210で求めた蛋白翻訳領域の確からしさの評価値の方が大きくなるはずである。
【0053】
処理213では、そのような、処理210で求めた蛋白翻訳領域の確からしさの評価値の方が大きくなる評価用mRNAが全体に占める割合を計算する。この値は、208で学習した局所的な確からしさパラメータの信頼性を表しており、その値が0.8〜0.9程度以上であれば、学習結果は概ね信頼できると考えられる。そうでない場合は、タプルのサイズkを別の値に変更するか、または、フィルタ処理202を見直し、学習に用いるmRNAの各領域の長さの閾値を見直すか、または、mRNAデータベース内の情報を見直して不適切なmRNA(例えば、機能が実験的に同定されていないもの)を排除してから、学習をやり直す必要がある。
処理105における、解析対象cDNA配列の先頭からi塩基目の位置での各領域Rに対する局所的確からしさの評価値CR (i)は、次の式で計算される。
【0054】
【数7】
【0055】
ここで、n( i−k+1, i )は解析対象のmRNA配列の先頭から i−k+1番目からi番目までの長さkの部分列であり、LはmRNAの全塩基長である。
ローパスフィルタ処理106は、5’UTR, T1, T2, T3, 3’UTRの各領域Rに対して、105で求めた局所的確からしさを塩基位置iの順番に並べてできる数列、CR(k), CR(k+1), …, CR(L)に対して、公知の技術のローパスフィルタ、例えばButterworthフィルタをかけることにより、局所的確からしさを塩基位置iの順番に並べてできる数列が塩基位置iとともにより滑らかに変化し、グラフ表示したときに見やすくなるように加工する。
【0056】
フィルタ処理109では、処理108の類似性検索で見つかった相同性のあるcDNA配列の区間と蛋白配列の区間に対して、cDNA配列区間のアミノ酸配列への翻訳結果と蛋白配列の区間を比較し、一致するアミノ酸の割合を一致率として計算する。そして、一致率が、0.4から1程度の或る閾値以上である場合にはその相同性のある区間を残し、それ以外の場合にはその相同性のある区間を棄却する。
【0057】
処理110では、既知蛋白に相同性をもつcDNA配列の区間の読み枠を求める。これは、cDNA配列区間のアミノ酸配列への翻訳結果と蛋白配列の区間を比較する際、cDNA配列を図4の(1), (2), (3)のうちの何れの読み枠でコドンに区切ったかを示す。
【0058】
フィルタ処理113では極めて類似性の高い区間のみを残し、それ以外を棄却する。ここでは、cDNA配列とゲノム配列の相同性区間内の塩基の一致率を、例えば、95%以上であることを要請する。
【0059】
処理114では、ゲノム配列に相同性を持つcDNA配列の区間の境界の位置を数塩基程度調整することにより、エクソンに対応するゲノム側の相同性区間の境界を調整して、エクソン・イントロンの境界が所謂GT−AGルールを満たすようにする。これにより、cDNA配列上のエクソン境界位置が決まる。また、相同性のあるcDNA配列の区間とゲノム配列の区間の塩基の対応関係を調べて、塩基が挿入・欠失している位置、塩基が一致しない位置、特に、開始コドンや終止コドンに違いが生じる位置、を抽出する。
【0060】
処理116は、処理106, 110, 114, 115からの解析結果を纏めて、解析対象cDNA配列101の配列座標に沿って、相互に比較できるように表示する処理であり、例えば、図6のような表示を行う。グラフ610は、解析対象のcDNA配列の各塩基位置がその近辺で5’UTRである局所的確からしさを、ローパスフィルタをかけて滑らかに表示したグラフである。同様に、グラフ620, 630, 640はそれぞれ、解析対象のcDNA配列の各塩基位置がその近辺で読み枠1,2,3の翻訳領域である局所的確からしさを、ローパスフィルタをかけて滑らかに表示したグラフである。また、グラフ650は、解析対象のcDNA配列の各塩基位置がその近辺で3’UTRである局所的確からしさを、ローパスフィルタをかけて滑らかに表示したグラフである。グラフ660は、解析対象のcDNA配列に含まれる、既知の蛋白配列に相同性をもつ区間を表示したグラフである。グラフ670は、解析対象のcDNA配列の各読み枠において、開始コドンと終止コドンの位置を表示したグラフである。グラフ680は、解析対象のcDNA配列と相同なゲノム配列とを比較して、その違いを表示したグラフである。
【0061】
グラフ610, 620, 630, 640, 650, 660, 670, 680の何れも、共通のcDNA配列座標601をもち、602に示すように同じ塩基位置での事象を互いに比較できるように配列座標をそろえて表示する。座標軸611は、5’UTRである局所的確からしさの評価値L5’UTRを表す座標軸であり、波形612はローパスフィルタをかけて滑らかにしたL5’UTRのプロット結果である。同様に、座標軸621は、読み枠1の翻訳領域である局所的確からしさの評価値LT1を表す座標軸であり、波形622はローパスフィルタをかけて滑らかにしたLT1のプロット結果である。座標軸631は、読み枠2の翻訳領域である局所的確からしさの評価値LT2を表す座標軸であり、波形632はローパスフィルタをかけて滑らかにしたLT2のプロット結果である。座標軸641は、読み枠3の翻訳領域である局所的確からしさの評価値LT3を表す座標軸であり、波形642はローパスフィルタをかけて滑らかにしたLT3のプロット結果である。また、座標軸651は、3’UTRである局所的確からしさの評価値L3’UTRを表す座標軸であり、波形652はローパスフィルタをかけて滑らかにしたL3’UTRのプロット結果である。
【0062】
座標軸661は、解析対象のcDNA配列に相同性をもつ既知蛋白配列どうしを区別するための座標軸であり、区間662は或る既知蛋白配列に対して相同性を持つ区間を表し、区間663, 664, 665はそれとは異なる既知蛋白配列に対して相同性を持つ区間を表している。各相同性区間662, 663, 664, 665に添えられた数字は、その区間が蛋白配列に翻訳されるときの読み枠を示す。また、666は、cDNA配列の区間662と既知蛋白配列との間でアラインメントを行った際、蛋白側の下流方向にcDNAに対応しない配列の残り(浮き)が生じた長さを表す。座標軸671は、cDNA配列の3種の読み枠を区別するための座標軸であり、マーク672は開始コドンの位置、マーク673は終止コドンの位置を表している。
【0063】
座標軸680は、cDNA配列に高い相同性を持つゲノム配列を区別するための座標軸であり、682はそのような相同性が検出された区間を表し、マーク683はゲノム配列と比較してcDNA配列側に塩基の挿入が認められる位置を表し、マークマーク684はゲノム配列と比較してcDNA配列側に塩基の欠失が認められる位置を表し、マーク685はゲノム配列とcDNA配列で塩基の不一致個所を示す。マーク686は塩基の不一致により特にcDNA配列側には現れない開始コドンがゲノム配列側には現れる位置を示し、そこに示された数値はそのときの読み枠を示す。同様に、マーク687はcDNA配列側には現れる開始コドンがゲノム配列側には現れない位置を示し、そこに示された数値はそのときの読み枠を示す。また、マーク688はcDNA配列側には現れない終止コドンがゲノム配列側には現れる位置を示し、そこに示された数値はそのときの読み枠を示す。同様に、マーク689はcDNA配列側には現れる終止コドンがゲノム配列側には現れない位置を示し、そこに示された数値はそのときの読み枠を示す。
【0064】
図6に示した例を用いて、本発明の効果を説明する。図7は、図6の一部を抜き出して、説明のための記号を書き加えたものである。なお、グラフは、図7に例示するように、グラフ表示内部を塗りつぶして表示してもよい。
【0065】
先ず、図7において、5’UTRの局所的確からしさのグラフ610と読み枠1の局所的確からしさのグラフ620のグラフを見比べることにより、そこから読み取ることができる情報について説明する。ローパスフィルタをかけて滑らかにしたL5’UTRのプロット結果612を見ると、701に示す区間で正になることがわかる。同様に、ローパスフィルタをかけたLT1のプロット結果622を見ると、702と703に示す区間で正になることがわかる。701と702で示される範囲を見比べて、704で示される塩基位置に両者の境界があることがわかる。即ち、704の上流側(図の左側)で5’UTRである局所的確からしさが高く、704の下流側(図の右側)で読み枠1の翻訳領域である局所的確からしさが高くなっている。これにより、704の位置に開始コドンがあり、701は5’UTRであり702は読み枠1の翻訳領域であることが示唆される。
【0066】
702と703に挟まれた区間においては、612, 622, 632, 642, 652の何れのプロットも負の値をとっており、この区間は、5’UTR,読み枠1,2,3の翻訳領域,3’UTRの何れの領域である可能性が否定的であることが示されている。即ち、この区間は、それ以外の可能性として、スプライスされずに残ったイントロン配列に相当する区間であることが示唆される。705と706は、スプライスされずに残ったイントロンとエクソンの境界の位置を示している。
【0067】
次に、読み枠1の局所的確からしさのグラフ620のグラフと読み枠2の局所的確からしさのグラフ630のグラフを見比べることにより、そこから読み取ることができる情報について説明する。ローパスフィルタをかけたLT2のプロット結果632を見ると、707に示す区間で正になることがわかる。703と707で示される範囲を見比べて、708で示される塩基位置に両者の境界があることがわかる。即ち、708の上流側で読み枠1の翻訳領域である局所的確からしさが高く、708の下流側(図の右側)で読み枠2の翻訳領域である局所的確からしさが高くなっている。これにより、708の位置にcDNA配列の塩基の欠失があることが原因でフレームシフト(読み枠のずれ)エラーが生じており、703は読み枠1の翻訳領域、707は読み枠2の翻訳領域であることが示唆される。
【0068】
次に、読み枠2の局所的確からしさのグラフ630のグラフと3’UTRの局所的確からしさのグラフ650のグラフを見比べる。ローパスフィルタをかけて滑らかにしたL3’UTRのプロット結果652を見ると、709に示す区間で正になることがわかる。707と709で示される範囲を見比べて、710で示される塩基位置に両者の境界があることがわかる。即ち、710の上流側で読み枠2の翻訳領域である局所的確からしさが高く、710の下流側で3’UTRである局所的確からしさが高くなっている。これにより、710の位置に終止コドンがあり、709は3’UTRであることが示唆される。
【0069】
次に、図6の例を用いて、既知の蛋白配列に相同性をもつ区間を表示したグラフ660の有用性を説明する。図8は、図6の一部を抜き出して、図7で用いた説明記号の一部を書き加えたものである。
【0070】
662と663は、局所的確からしさの評価により読み枠1の翻訳領域であることが示唆された区間701が、実際に蛋白をコードしている配列と類似していることを示す。
【0071】
同様に、664と665は、それぞれ、局所的確からしさの評価により読み枠1、2の翻訳領域であることが示唆された区間703, 707が、実際にその読み枠で蛋白をコードしている配列と類似していることを示しているが、それと同時に、同一の蛋白配列に対して708の位置で読み枠が1から2に変わること(フレームシフト)も示している。このことは、708の位置でcDNA配列に塩基の欠失がおきたことを示唆する。
【0072】
662におけるcDNA配列と既知蛋白配列との間のアラインメントでは、蛋白側の下流方向にcDNAに対応しない配列の残り(浮き)が666に示す長さだけ生じることから、この蛋白はこのcDNAに厳密に対応するものではなく、このcDNAのスプライス・バリアントに由来する蛋白であるか、または、他の類似遺伝子に由来するものであることがわかる。
【0073】
これに対して、663と664の間には、蛋白配列側に浮きが発生せずに同一の蛋白に連続的に対応しているため、cDNA側に生じた(蛋白配列に対応しない)浮きの区間801は、スプライスされずに残ったイントロンであるか、または、cDNA配列は既知蛋白のスプライス・バリアントであることが示唆される。局所的確からしさの評価結果と合わせると、後者の可能性は否定され、801はスプライスされずに残ったイントロンであることが示唆される。
【0074】
次に、図6の例を用いて、解析対象のcDNA配列と相同なゲノム配列とを比較してその違いを表示したグラフ680の有用性を説明する。図9は、図6の一部を抜き出して、図7、図8で用いた説明記号の一部を書き加えたものである。
【0075】
682は、702, 801, 703の3つの区間を連続的に含むより広い区間(この場合はcDNA配列の全区間)で、cDNA配列とゲノム配列とが高い類似性を持つことを表している。特に、局所的確からしさの評価と既知蛋白との相同性解析からスプライスされずに残ったイントロンであると示唆された801の区間が実際にゲノム配列に対応することが示される。
【0076】
684は、ゲノム配列と比較してcDNA配列側に塩基の欠失が708の位置で起きていることを示す。708の位置は、既に、局所的確からしさの評価の観点からも、既知蛋白との相同性検索の結果からもフレームシフトが生じていると示唆された位置である。ここでは、さらにゲノム配列との比較の観点からも、708の位置でフレームシフトが生じていることが示唆されたことになる。
【0077】
686は、704の位置にcDNA配列側には現れない読み枠1の開始コドンがゲノム配列側には現れることを示している。704の位置では、局所的確からしさの評価結果からは読み枠1の開始コドンが存在すると示唆されていたが、cDNA配列の各読み枠の全ての開始コドンと終止コドンの位置を表示したグラフ670においてはそのような開始コドンの存在が示されず、両者は矛盾していた。ところが、ここでゲノム配列との比較により704の位置に読み枠1の開始コドンが見つかったことから、704の位置でcDNA配列のシーケンスの過程に塩基の読み誤りが生じていたことが示唆される。
【0078】
688は、710の位置にcDNA配列側には現れない読み枠2の終止コドンがゲノム配列側には現れることを示している。710の位置では、局所的確からしさの評価結果からは読み枠2の終止コドンが存在すると示唆されていたが、cDNA配列の各読み枠の全ての開始コドンと終止コドンの位置を表示したグラフ670においてはそのような終止コドンの存在が示されず、両者は矛盾していた。ところが、ここでゲノム配列との比較により710の位置に読み枠2の開始コドンが見つかったことから、710の位置でcDNA配列のシーケンスの過程に塩基の読み誤りが生じていたことが示唆される。
【0079】
図10に、本発明の蛋白翻訳領域の評価法を応用した、mRNA取得から蛋白生産までの手順を示す。処理1001は、mRNA試料を生体細胞から採取する処理である。処理1002は、分解しやすいmRNA試料を安定なcDNA配列に逆転写する処理である。処理1003は、得られたcDNA配列を増幅して、cDNAライブラリ1004を作成する処理である。処理1005は、多数のクローンを含むcDNAライブラリからクローンをひとつ選択する処理である。処理1006は、選んだクローンの塩基配列をシーケンサを用いて決定する処理である。こうして得られた塩基配列データ1007に対して、図1の処理手順に従い蛋白翻訳領域・非翻訳領域の解析を行い、図6に示すような解析結果を得る。この解析結果を見て、完全な蛋白翻訳領域が含まれているか否かの判断1008を行う。含まれていなければ、1005のクローン選択に戻って処理をやり直す。含まれている場合には、処理1009に示す発現ベクターへの組み込みを行い、蛋白生産1010を行う。判断1008以外の処理は、何れも公知の技術である。
【0080】
図10において、1008の判断を行うことにより、本来のmRNAに対応する完全な蛋白が得られる。1008の判断を行わなかった場合には、本来の蛋白の部分列しか得られず本来の機能を失ってしまうか、または、蛋白が全く生産できないことになる。従って、本発明により蛋白生産に伴うリスクを減少させ、コストと時間を大幅に低減できることになる。
【0081】
【発明の効果】
本発明によると、局所的な確からしさの評価値、既知蛋白との相同性解析結果、ゲノム配列との相同性解析結果を比較することにより、信頼性の高い判断ができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態における全体の処理手順の概略図。
【図2】各領域別の局所的確からしさのパラメータを学習するための処理の概略図。
【図3】mRNA配列の5’UTR,翻訳領域,3’UTR、開始コドン、終止コドンを説明する図。
【図4】読み枠とサイトを説明するための例を示した図。
【図5】k−タプルの頻度表の例を示す図。
【図6】本発明の一実施の形態における解析結果の表示例の説明図。
【図7】局所的確からしさのグラフ表示の有用性を説明するための例を示した図。
【図8】蛋白配列に相同性のグラフ表示の有用性を説明するための例を示した図。
【図9】cDNA配列とゲノム配列との違いを表示したグラフ680の有用性を説明するための例を示した図。
【図10】本発明による蛋白翻訳領域の評価法を応用したmRNA取得から蛋白生産までの手順を示す図。
【符号の説明】
101…解析の対象とするcDNA配列
102…既知のmRNA配列のデータベース
103…各領域別に局所的確からしさパラメータの学習を行う処理
104…学習結果の信頼性を評価する処理
105…解析対象のcDNA配列の各塩基位置で、各領域の局所的確からしさを評価する処理
106…ローパスフィルタをかけて、局所的確からしさを評価の変化を滑らかにする処理
107…既知の蛋白配列のデータベース
108…解析対象のcDNA配列に対して相同性のある既知蛋白配列を求める処理
109…一致率が閾値に満たないような既知蛋白配列との相同性情報を棄却する処理
110…既知配列に対して相同性のあるcDNA配列の区間の読み枠を求める処理
111…ゲノム配列のデータベース
112…解析対象のcDNA配列に対して相同性の或るゲノム配列を求める処理
113…cDNA配列とゲノム配列との一致率が極めて高い相同性情報を選ぶ処理
114…cDNA配列とゲノム配列を比較して、塩基の挿入・欠失、エクソン境界、開始・終止コドンに変化のある位置を求める処理
115…解析対象のcDNA配列の全ての読み枠の全ての開始コドン・終止コドンを求める処理
116…cDNA配列座標に沿って、各種解析結果を総合に比較し得るように表示する処理
【発明の属する技術分野】
本発明は遺伝子配列の情報解析に係わり、cDNAの塩基配列データから蛋白をコードする領域を推定し、各塩基位置でのコード領域らしさを表すコーディングポテンシャルを表示する方法に関する。特に、完全な蛋白翻訳領域を含まないようなcDNA配列、例えば、末端が切れたcDNA配列、未成熟なmRNAに由来するcDNA配列、に対して有効な解析方法に関する。
【0002】
【従来の技術】
生物の遺伝情報は、ゲノム内にDNA配列として蓄えられており、必要に応じてその一部の領域がmRNAに転写・スプライシングされ、さらにその一部分の配列がアミノ酸配列である蛋白に翻訳され、そのような蛋白が多数協同的に働いて、生体内で発現する。従って、生体内で発現している遺伝情報を調べるためには、発現しているmRNAを抽出して、それをより安定なcDNA配列に逆転写し、PCR (Polymerase chain reaction, ポリメラーゼ連鎖反応) で増幅し、シーケンサーを用いてその塩基配列を決定することが行われている。蛋白のアミノ酸配列を直接決めることは、ゲノムやcDNAの塩基配列を決めることに比較して、技術的により困難でありコストが高くつくため、通常、蛋白のアミノ酸配列は塩基配列を翻訳することにより求められている。
【0003】
A, G, C, Tの4種類の塩基からなる塩基配列から、20種類のアミノ酸からなるアミノ酸配列へ翻訳するには、塩基配列中の特定の位置(翻訳開始位置)から特定の位置(翻訳終止位置)までの塩基配列を3文字ずつに区切り、塩基3文字をアミノ酸1文字に対応させることによって得られる。4×4×4=64通りの塩基3文字(コドン)をアミノ酸1文字に対応させる表は、コドン表とよばれ、ほとんどの生物に共通である。翻訳開始位置にはATG(開始コドン)があり、翻訳終止位置には, TAA, TGA, TAGのいずれかの終止コドンがある。ATGはアミノ酸のひとつメチオニンにも対応しており、特定のATGのみが開始コドンとして用いられ、それ以外の翻訳途中に現れたATGはメチオニンに対応している。これに対し、TAA, TGA, TAGはアミノ酸に対応することはなく、常に終止コドンとして働く。
【0004】
一般に、塩基配列を3文字ずつに区切る仕方は3通りあり、その区切り方は読み枠(フレーム)とよぶ。読み枠は開始コドンの位置で決まる。塩基配列が与えられたとき、その中に現れた任意のATGから3文字ずつに区切ってTAA, TGA, TAGのいずれかが最初に現れるまでの、3の倍数の塩基数を含む部分列を、ひとつのORF(Open Reading Frame, 開いた読み枠)とよぶ。通常、cDNAの塩基配列には多数のORFが存在するが、実際に生体内で翻訳が行われるのはそのうちのただひとつのORFである。
【0005】
ヒトを含む真核生物のcDNA配列の蛋白翻訳領域を求めるためには、一般に、最長のORFを求めれば良いと言われている。また、より精度を上げるためには、コザック規則による評価や、それを一般化した、開始コドン周辺の塩基配列の出現頻度を反映した重み行列を用いた評価などが行われる。これらの方法は、得られたcDNA配列が完全なmRNAに由来するものであれば、すなわち、その中にただひとつの連続した蛋白翻訳領域が含まれている場合であれば、多くの場合うまくいく。
【0006】
【発明が解決しようとする課題】
しかし、現実にシーケンスされて得られたcDNA配列には、妥当なORFが見つからないことも多い。その理由として、次のようなことが考えられる。
1.cDNAが、スプライシングが完了していない未成熟なmRNAに由来していた。
2.PCR増幅中に断片化され、5‘末端、または、3’末端、または、両端が失われた。
3.シーケンサー読み取りの際、塩基を読み飛ばしたか、2度読んだために、読み枠がずれた。
4.シーケンサー読み取りの際、塩基を別の塩基と読み誤り、その結果、開始コドンや終始コドンが失われるか、または、余分に現れた。
5.異なるmRNA間でキメラが生じ、それを解析してしまった。
6.mRNAに関わりの無い、ゲノムの断片を解析してしまった。
【0007】
これらの事象を解析するためには、次のような方法が一般に用いられている。
a.塩基の並びの統計的解析(その部分が蛋白をコードしている可能性)
b.既知の(同一種および他種の生物の)蛋白配列に対する相同性
c.同一生物種のゲノム配列との比較
【0008】
これらの個々の解析結果はどのような事象が起きているかを示唆するが、一般には、それぞれ単独では断定的な証拠になるとは言えない。これらの結果は、他の生物学的知識に照らして総合的判断される。そこで、cDNA配列上の各塩基位置で、これらの解析結果を相互に比較し得る形で分かり易く表現することは、上記の種々の事象の可能性を検討する上で有用であると考えられる。
【0009】
本発明は、このような問題に鑑み、様々なエラーを含むような現実のシーケンスデータの中からエラーを除去しつつ高精度に蛋白翻訳領域を抽出する方法を提供することを目的とする。
【0010】
【課題を解決するための手段】
前記目的を達成すべく、本発明においては、完全な蛋白翻訳領域を含まないようなcDNA配列に対して、塩基配列の各位置で蛋白翻訳領域らしさ、非翻訳領域らしさを評価し、塩基配列座標に沿って表示する。
【0011】
すなわち、非翻訳領域と翻訳領域を有する塩基配列について、横軸を配列座標、縦軸を非翻訳可能性の確からしさとした第1のグラフを表示し、横軸を配列座標、縦軸を翻訳可能性の確からしさとした第2のグラフを表示する、本発明による表示方法は、第1のグラフと第2のグラフとを、配列座標をそろえて並列又は重複して表示することを特徴とする。
【0012】
第1のグラフは、配列座標が5’末端と3’末端とを含む。また、第2のグラフは、第1の読枠、第1の読枠から1塩基ずらした第2の読枠、第1の読枠から2塩基ずらした第3の読枠で翻訳可能性の確からしさを表示するのが好ましい。
【0013】
また、確からしさが肯定的である場合にはその確からしさの程度を正の量として表示し、確からしさが否定的である場合にはその確からしさの程度を負の量として表示し、確からしさが肯定的とも否定的とも判断しかねる場合は0近辺の量としてグラフ表示するのが好ましい。
【0014】
グラフの波形と横軸とに挟まれる部分を塗りつぶして表示してもよい。
塩基配列のイントロン領域を配列座標にそろえて並列に表示する方法も有用である。
【0015】
塩基配列の同一種及び他種生物の蛋白配列に対する相同性を配列座標にそろえて並列に表示してもよい。更に、塩基配列と、塩基配列と同一生物種のゲノム配列との塩基不一致箇所、塩基の挿入、塩基の欠失を配列座標に並列に表示するようにしてもよい。
翻訳領域と非翻訳領域を有する塩基配列についての、翻訳領域と非翻訳領域の確からしさは、後述する式(1),(2), (3), (5)を用いて求めることができる。
【0016】
また、本発明による蛋白合成方法は、複数のcDNAを含むcDNAライブラリから1つのcDNAを選択するステップと、選択したcDNAの塩基配列を決定するステップと、得られた塩基配列データに対して蛋白翻訳可能性の確からしさ及び蛋白非翻訳可能性の確からしさの評価を行うステップと、得られた蛋白翻訳可能性の確からしさ及び蛋白非翻訳可能性の確からしさの評価値を請求項1〜8のいずれか1項記載の方法により表示するステップと、表示結果により、選択したcDNAに完全な蛋白翻訳領域が含まれているか否かを判定するステップと、選択したcDNAに完全な蛋白翻訳領域が含まれている場合にそれを発現ベクターに組み込んで蛋白を合成するステップを含むことを特徴とする。
【0017】
【発明の実施の形態】
本発明では、与えられたcDNA配列に対して、以下の処理ステップからなる方法によって、cDNA配列の各塩基位置での種々の解析結果を表示することにより、ユーザが蛋白翻訳領域を推定したり、蛋白翻訳領域が種々の事象により損なわれている可能性を検討したりするための有用な情報を提示する。
【0018】
(1)完全な蛋白翻訳領域を含む既知のmRNA配列を公共データベース内から集め、それらを学習用・評価用の2セットに分割し、以下の処理ステップを行うステップ。
【0019】
(1−1) 学習セットと評価セットの各mRNA配列に対して、その配列を5’UTR(5’ untranslated region, 上流側非翻訳領域)、蛋白翻訳領域、3’UTR(3’ untranslated region, 下流側非翻訳領域)の3つの領域に分割するステップ。
【0020】
(1−2) kを5から9程度の整数として、長さkのあらゆる塩基配列(k−タプル)に対して、k−タプルが学習セットのmRNA配列の5’UTR、3’UTR、および、mRNA配列全体に出現する頻度を数え、さらに、k−タプルが学習セットの蛋白翻訳領域に出現する際には、k−タプルの最終塩基位置がコドンの何塩基目の位置(サイト)を占めるかを求め、サイト1,2,3ごとに蛋白翻訳領域にk−タプルが出現する頻度を数えるステップ。
【0021】
(1−3) 5’UTR、3’UTR、サイトごとの蛋白翻訳領域、及び、mRNA配列全体の各々の領域に対して、k−タプルの出現頻度の表から、(k−1)−タプルの条件下で次の塩基が現れる条件付確率(遷移確率)の表を計算するステップ。
【0022】
(1−4) 5’UTR、3’UTR、サイトごとの蛋白翻訳領域に対する遷移確率を、mRNA配列全体での遷移確率と比較して、5’UTR、3’UTR、サイトごとの蛋白翻訳領域の各々に対して(k−1)−タプルの条件下で次の塩基が現れる局所的確からしさの学習パラメータを求めるステップ。
【0023】
(1−5) 評価セットの各mRNA配列に対して、その5’UTR内の各塩基位置での(k−1)−タプル条件下で次の塩基が現れる局所的確からしさの合計値、その3’UTR内の各塩基位置での(k−1)−タプル条件下で次の塩基が現れる局所的確からしさの合計値、その蛋白翻訳領域内の各塩基位置での (k−1)−タプル条件下でそのサイトで次の塩基が現れる局所的確からしさの合計値、を求め、それらの総計を蛋白翻訳領域の確からしさとして計算するステップ。
【0024】
(1−6) 評価セットの各mRNA配列に対して、あらゆるORFを考え、そのORFに対して前項と同様の計算を行い、そのORFの蛋白翻訳領域としての確からしさを求めるステップ。
【0025】
(1−7) 評価セット内の全mRNA配列に対して、前項と前々項の確からしさの値を比較して、蛋白翻訳領域の確からしさがそれ以外のORFの確からしさより大きな値を持つようなmRNA配列の割合を計算することにより、各領域に対して求めた(k−1)−タプルの条件下で次の塩基が現れる局所的確からしさの値の信頼性を評価するステップ。
【0026】
(2)与えられたcDNA配列の各塩基位置で、そこが5’UTRであると仮定して、(k−1)−タプル条件下で次の塩基が現れる局所的確からしさを計算し、塩基位置順に並んだそれらの値にローパスフィルタをかけて平滑化し、それらの値をcDNA配列座標に沿って表示するステップ。
【0027】
(3)与えられたcDNA配列の各塩基位置で、そこが3’UTRであると仮定して、(k−1)−タプル条件下で次の塩基が現れる局所的確からしさを計算し、塩基位置順に並んだそれらの値にローパスフィルタをかけて平滑化し、それらの値をcDNA配列座標に沿って表示するステップ。
【0028】
(4)読み枠1,2,3のそれぞれに対して、与えられたcDNA配列の各塩基位置で、そこがその読み枠での蛋白翻訳領域であると仮定して、(k−1)−タプル条件下で次の塩基が現れる局所的確からしさを計算し、塩基位置順に並んだそれらの値にローパスフィルタをかけて平滑化し、それらの値をcDNA配列座標に沿って表示するステップ。
【0029】
(5)同一種や他種の生物の既知の蛋白配列を集めた公共データベースに対して、与えられたcDNA配列の翻訳配列に類似した配列を検索し、以下の処理ステップを行うステップ。
【0030】
(5−1) 見つかった蛋白配列ごとに、与えられたcDNA配列のどの範囲の部分列が既知の蛋白配列の部分列の類似配列に翻訳されるかを同定し、その類似度(アミノ酸配列の一致率)を求め、また、その部分列での読み枠を求めるステップ。
【0031】
(5−2) 類似度が閾値以上であるような部分列の区間を抽出し、その区間をcDNA配列座標に沿って、同じ蛋白配列に対応するものは同じy座標を持つように、その読み枠を色や線種により明示して、表示するステップ。
【0032】
(6)同一種のゲノム配列を集めた公共データベースに対して、与えられたcDNA配列に対して高い類似性を持つ類似配列を検索し、以下の処理ステップを行うステップ。
【0033】
(6−1) 見つかったゲノム配列ごとに、与えられたcDNA配列のどの範囲の部分列がゲノム配列の部分列に高い類似性をもつかを同定し、また、その中に不一致部分があれば、塩基の置換・挿入・欠失のどれに当たるかを調べ、また、それにより、cDNA配列とゲノム配列で開始コドンや終止コドンに違いが生じるか否かを調べるステップ。
【0034】
(6−2) ゲノム配列の部分列に高い類似性をもつ区間を、同じゲノム配列に対応するものは同じy座標を持つように、cDNA配列座標に沿って線分で表示し、また、その両端はエクソン・イントロンの境界に対応することを明示する点を表示し、また、その区間内に含まれる塩基の挿入・欠失位置をフレーム・シフト候補位置として別の種類の点で明示し、また、cDNA配列とゲノム配列で開始コドンや終止コドンに違いが生じる位置をさらに別種の点で明示するステップ。
【0035】
(7)ローパスフィルタをかけた相対対数尤度が正または負になる区間を識別しやすいように、(3),(4),(5)のグラフで0(横軸)との間を塗りつぶすステップ。
以下、本発明の実施の形態を、図を用いて詳細に説明する。
【0036】
図1に、本発明の一実施例における処理の概要を示す。101は、解析の対象とするcDNA配列データである。mRNA DB102は、解析の対象としている生物種の既知のmRNAの公共データベースである。例えば、米国National Center for Biotechnolygy Information (NCBI)のRefSeqデータベースを用いることができる。処理103は、データベース102の既知のmRNA配列情報をもとに、局所的な塩基配列の並びがどのような蛋白翻訳領域、非翻訳領域に対応しているかを評価するための確からしさのパラメータを学習する処理である。処理104は、処理103の学習結果のパラメータの信頼性評価を行う処理である。処理105は、解析対象cDNA配列101の各塩基位置において、処理103の局所的確からしさのパラメータの学習結果を用いて、そこがどのような蛋白翻訳領域、非翻訳領域に対応しているかを評価する処理である。処理106は、処理105で求めた局所的確からしさの評価値を、塩基位置順に並べてローパスフィルタをかける処理である。ローパスフィルタとしては、例えば、公知のButterworhフィルタを用いることができる。
【0037】
データベース107は、解析の対象としている生物と同一種または他種の既知の蛋白のアミノ酸配列のデータベースである。例えば、NCBIのnrデータベースを用いることができる。処理108は、解析対象cDNA配列101を蛋白配列データベース107に対して、弱い類似性まで認めて類似性検索を行う処理である。この検索は、塩基配列をアミノ酸配列に翻訳しながら類似性のある区間を探す検索であり、公知の技術を用いて、例えば、NCBIのBLASTX(Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), ”Gapped BLAST and PSI−BLAST: a new generation of protein database search programs”, Nucleic Acids Res. 25:3389−3402.)を用いることにより可能である。フィルタ処理109は、処理108で見つかった類似性のある区間に対して、その類似度が一定の閾値以下であるものを捨てる処理である。処理110は、フィルタ処理109で残された類似性区間に対して、その翻訳の読み枠を求める処理である。
【0038】
ゲノムDB111は、解析の対象としている生物と同一種の生物のゲノム配列のデータベースである。例えば、NCBIのGenBankデータベースを用いることができる。処理112は、解析対象cDNA配列101をゲノム配列データベース111に対して類似性検索を行う処理である。この検索は、塩基配列どうしの類似性のある区間を探す処理であり、公知の技術を用いて、例えば、NCBIのBLASTNを用いることにより可能である。フィルタ処理113は、極めて類似性の高い区間のみを残す処理である。処理114は、類似性のあるゲノムとcDNAの区間同士を比較し、その中から、塩基の挿入・欠失位置、エクソン境界の位置、開始コドン・終止コドンがゲノムとcDNAで違いのある位置、を抽出する処理である。処理115は、101のcDNA配列の各読み枠にある全ての開始コドンと終止コドンを抽出する処理である。処理116は、処理106, 110, 114, 115からの解析結果を纏めて、解析対象cDNA配列101の配列座標に沿って、相互に比較できるように表示する処理である。
【0039】
図2に、図1に図示した局所的確からしさのパラメータの学習処理103の概要を示す。mRNA DB 201は、図1のmRNA DB 102に対応する、既知のmRNAの公共データベースである。フィルタ処理202は、パラメータ学習に適したmRNA配列を選び出す処理である。分割処理203は、選び出されたmRNA配列を、学習用のセット204と評価用のセット205に分割する処理である。学習用と評価用のセットの分割に当たっては、例えば、全体を等分に分割すればよい。ただし、この分割には統計的な偏りが生じてはならず、例えば、擬似乱数を用いて分割を行うなどの必要がある。処理206は、学習用の各mRNA配列に対して、サイト別の蛋白翻訳領域・非翻訳領域、及び、全領域において全てのk−タプルが出現する回数を数えて頻度表を作成する処理である。ここで、kは5から9程度の整数であり、長さkの塩基配列をk−タプルとよぶ。k−タプルは4のk乗通りだけ種類があるため、kの値が小さすぎるとk−タプルは塩基配列の多様性を表現できなくなり、また、逆に、kの値が大きすぎるとほとんどのk−タプルの頻度が0となり有効な頻度表が作成できなくなる。処理207は、 (k−1)−タプルの条件下で次の塩基が現れる条件付確率(遷移確率)の表を計算する処理である。処理208は、(k−1)−タプルの条件下で次の塩基が現れる局所的確からしさを、各領域別に求める処理である。この値が学習結果のパラメータである。
【0040】
処理209は、評価用mRNA205の各mRNA配列に対して、処理208の学習結果のパラメータを用いて、蛋白翻訳領域の確からしさを評価する処理である。処理210は、評価用mRNA 205の各mRNA配列に対して、蛋白翻訳領域以外のすべてのORFを抽出する処理である。処理211は、処理210で抽出した各ORFに対して、処理209と同様に、蛋白翻訳領域としての確からしさを評価する処理である。処理212は、処理209と処理210の評価結果を比較し、蛋白翻訳領域とそれ以外の全ORFとの評価結果を比較する処理である。処理213は、処理212の比較処理の結果に基づき、処理208で得た学習パラメータの信頼性を評価する処理である。
【0041】
図3に示すmRNAの塩基配列の例を用いて、図2におけるフィルタ処理202の内容を説明する。先ず、データベースに登録された各mRNAに対して、そこにただひとつの翻訳領域が完全な形で含まれていると記載されているかどうかを検査する。例えば、NCBIのRefSeqデータベースであれば、p, qを或る正の整数として、CDSの項目がp..qの形式で記載されていればよい。このpとqは、開始コドンと終止コドンの位置がmRNA配列の先頭から何塩基目であるかを示す。図3の例では、301が開始コドン、302が終止コドンを示す。303に示すように、開始コドンから終止コドンまでの領域を翻訳領域(TR, translated region)とよぶ。また、304に示すように、開始コドンより前の部分を5’UTR(5’ untranslated region, 5’非翻訳領域)、終止コドンより後の部分を3’UTR(3’ untranslated region, 3’非翻訳領域)、と呼ぶ。翻訳領域303内の塩基配列は、図に示すように、コドンと呼ばれる3塩基ずつに区切られ、それぞれはコドン表に従って特定のアミノ酸に翻訳される。図2のフィルタ処理202では、ただひとつの翻訳領域が完全な形で含まれていると記載されており、その5’UTR、翻訳領域、3’UTRの長さが全てある閾値以上、例えば、50塩基以上あるものを選択し、それ以外のものを捨てる。この閾値設定は、各領域でのパラメータ学習が効果的に行えるようにするためのものである。
【0042】
図4を用いて、塩基配列をアミノ酸配列に翻訳する際の読み枠を説明し、次に、読み枠を仮定したときの塩基位置を3種類サイトに分類する方法について説明する。先ず、塩基配列は3塩基ずつのコドンに区切られアミノ酸に翻訳されるため、塩基配列の翻訳の仕方には図に示すように3通りある。図の(1)の場合のように、塩基配列の先頭から数えた各コドンの先頭の塩基位置が、3で割って1余る数になっているとき読み枠1とよぶ。同様に、図の(2)と(3)の場合は、それぞれ、読み枠2、読み枠3とよぶ。次に、ひとつの読み枠を仮定したとき、各塩基位置はコドン内の1塩基目であるか、2塩基目であるか、3塩基目であるか、のいずれかになる。このことを、その塩基位置がサイト1である、サイト2である、サイト3であるとよぶ。図4において、各塩基の下に示された1, 2, 3の数値はその塩基位置のサイトの番号を表す。
【0043】
処理206は、図5に例示するようなk−タプルの頻度表を作成するための処理を行う。図5は、k=7として、サイト別の蛋白翻訳領域・非翻訳領域、及び、全領域におけるk−タプルの頻度表を作成した例を示す。列501は、あらゆる7−タプルを列挙した列である。列502は、5’UTRにおいて該当する7−タプルが出現した回数である。列503は、翻訳領域において該当する7−タプルが、その最終塩基位置がサイト1であるように出現した回数である。同様に、列504, 505は、翻訳領域において該当する7−タプルが、その最終塩基位置がそれぞれサイト2,3であるように出現した回数である。列506は、3’UTRにおいて該当する7−タプルが出現した回数である。列507は、領域を問わず、ともかくmRNA配列内に該当する7−タプルが出現した回数である。
列207の各領域別の遷移確率表の計算は、処理206の各領域別のk−タプルの出現頻度表に基づいて、次の式により行われる。
【0044】
【数4】
【0045】
ここで、各niはa, g, c, t 何れかの塩基1文字を表し、n1n2…nkはk−タプルを表し、NRは領域Rにおけるタプルの頻度を表し、PRは領域Rにおける(k−1)−タプルの条件下で次の塩基が現れる条件付確率(遷移確率)を表す。式中に1/2が表れるのは、頻度が0となる場合に対処するためにJeffreys−Perks法に従ったからである。
処理208の各領域別の局所的確からしさパラメータの計算は、次の式により行われる。
【0046】
【数5】
【0047】
処理209における、評価用mRNA配列に対する蛋白翻訳領域の確からしさの評価値は、次の式により計算される。
【0048】
【数6】
【0049】
ここで、n( i−k+1, i )は評価用mRNA配列の先頭から i−k+1番目からi番目までの長さkの部分列であり、LはmRNAの全塩基長、p、qはそれぞれ開始コドンのサイト1の塩基と終止コドンのサイト3の塩基がmRNA配列の先頭から何塩基目の位置にあるかを表し、sum_[i=I,…,J]は、i=I, I+1, …, Jについて和をとることを表し、また、s(i)は、翻訳領域内にありmRNA配列の先頭からi番目の位置にある塩基のサイトを表す。
【0050】
処理210における全ORFの抽出処理では、評価用の各mRNA配列に対して、全てのATGの出現位置を求め、そこから最初に現れるTAA, TAG, TGAの何れか、または、mRNA配列末端(3’末端)まで、及び、mRNA配列の始端(5’末端)から最初に現れるTAA, TAG, TGAの何れか、または、mRNA配列3’末端まで、の全て区間として求める。
【0051】
処理211におけるORFの確からしさの計算は、209と同様に、p、qはそれぞれORFの最初と最後の塩基がcDNA配列先頭から何塩基目にあるかを表す数として、計算式(4)で求められる。
【0052】
比較処理212は、処理210で求めた蛋白翻訳領域の確からしさの評価値と、処理211で求めたそれ以外のORFに対する確からしさの評価値との、大きさの比較を行う。処理208で学習した局所的な確からしさパラメータが適切であれば、大多数の評価用mRNAに対して、処理210で求めた蛋白翻訳領域の確からしさの評価値の方が大きくなるはずである。
【0053】
処理213では、そのような、処理210で求めた蛋白翻訳領域の確からしさの評価値の方が大きくなる評価用mRNAが全体に占める割合を計算する。この値は、208で学習した局所的な確からしさパラメータの信頼性を表しており、その値が0.8〜0.9程度以上であれば、学習結果は概ね信頼できると考えられる。そうでない場合は、タプルのサイズkを別の値に変更するか、または、フィルタ処理202を見直し、学習に用いるmRNAの各領域の長さの閾値を見直すか、または、mRNAデータベース内の情報を見直して不適切なmRNA(例えば、機能が実験的に同定されていないもの)を排除してから、学習をやり直す必要がある。
処理105における、解析対象cDNA配列の先頭からi塩基目の位置での各領域Rに対する局所的確からしさの評価値CR (i)は、次の式で計算される。
【0054】
【数7】
【0055】
ここで、n( i−k+1, i )は解析対象のmRNA配列の先頭から i−k+1番目からi番目までの長さkの部分列であり、LはmRNAの全塩基長である。
ローパスフィルタ処理106は、5’UTR, T1, T2, T3, 3’UTRの各領域Rに対して、105で求めた局所的確からしさを塩基位置iの順番に並べてできる数列、CR(k), CR(k+1), …, CR(L)に対して、公知の技術のローパスフィルタ、例えばButterworthフィルタをかけることにより、局所的確からしさを塩基位置iの順番に並べてできる数列が塩基位置iとともにより滑らかに変化し、グラフ表示したときに見やすくなるように加工する。
【0056】
フィルタ処理109では、処理108の類似性検索で見つかった相同性のあるcDNA配列の区間と蛋白配列の区間に対して、cDNA配列区間のアミノ酸配列への翻訳結果と蛋白配列の区間を比較し、一致するアミノ酸の割合を一致率として計算する。そして、一致率が、0.4から1程度の或る閾値以上である場合にはその相同性のある区間を残し、それ以外の場合にはその相同性のある区間を棄却する。
【0057】
処理110では、既知蛋白に相同性をもつcDNA配列の区間の読み枠を求める。これは、cDNA配列区間のアミノ酸配列への翻訳結果と蛋白配列の区間を比較する際、cDNA配列を図4の(1), (2), (3)のうちの何れの読み枠でコドンに区切ったかを示す。
【0058】
フィルタ処理113では極めて類似性の高い区間のみを残し、それ以外を棄却する。ここでは、cDNA配列とゲノム配列の相同性区間内の塩基の一致率を、例えば、95%以上であることを要請する。
【0059】
処理114では、ゲノム配列に相同性を持つcDNA配列の区間の境界の位置を数塩基程度調整することにより、エクソンに対応するゲノム側の相同性区間の境界を調整して、エクソン・イントロンの境界が所謂GT−AGルールを満たすようにする。これにより、cDNA配列上のエクソン境界位置が決まる。また、相同性のあるcDNA配列の区間とゲノム配列の区間の塩基の対応関係を調べて、塩基が挿入・欠失している位置、塩基が一致しない位置、特に、開始コドンや終止コドンに違いが生じる位置、を抽出する。
【0060】
処理116は、処理106, 110, 114, 115からの解析結果を纏めて、解析対象cDNA配列101の配列座標に沿って、相互に比較できるように表示する処理であり、例えば、図6のような表示を行う。グラフ610は、解析対象のcDNA配列の各塩基位置がその近辺で5’UTRである局所的確からしさを、ローパスフィルタをかけて滑らかに表示したグラフである。同様に、グラフ620, 630, 640はそれぞれ、解析対象のcDNA配列の各塩基位置がその近辺で読み枠1,2,3の翻訳領域である局所的確からしさを、ローパスフィルタをかけて滑らかに表示したグラフである。また、グラフ650は、解析対象のcDNA配列の各塩基位置がその近辺で3’UTRである局所的確からしさを、ローパスフィルタをかけて滑らかに表示したグラフである。グラフ660は、解析対象のcDNA配列に含まれる、既知の蛋白配列に相同性をもつ区間を表示したグラフである。グラフ670は、解析対象のcDNA配列の各読み枠において、開始コドンと終止コドンの位置を表示したグラフである。グラフ680は、解析対象のcDNA配列と相同なゲノム配列とを比較して、その違いを表示したグラフである。
【0061】
グラフ610, 620, 630, 640, 650, 660, 670, 680の何れも、共通のcDNA配列座標601をもち、602に示すように同じ塩基位置での事象を互いに比較できるように配列座標をそろえて表示する。座標軸611は、5’UTRである局所的確からしさの評価値L5’UTRを表す座標軸であり、波形612はローパスフィルタをかけて滑らかにしたL5’UTRのプロット結果である。同様に、座標軸621は、読み枠1の翻訳領域である局所的確からしさの評価値LT1を表す座標軸であり、波形622はローパスフィルタをかけて滑らかにしたLT1のプロット結果である。座標軸631は、読み枠2の翻訳領域である局所的確からしさの評価値LT2を表す座標軸であり、波形632はローパスフィルタをかけて滑らかにしたLT2のプロット結果である。座標軸641は、読み枠3の翻訳領域である局所的確からしさの評価値LT3を表す座標軸であり、波形642はローパスフィルタをかけて滑らかにしたLT3のプロット結果である。また、座標軸651は、3’UTRである局所的確からしさの評価値L3’UTRを表す座標軸であり、波形652はローパスフィルタをかけて滑らかにしたL3’UTRのプロット結果である。
【0062】
座標軸661は、解析対象のcDNA配列に相同性をもつ既知蛋白配列どうしを区別するための座標軸であり、区間662は或る既知蛋白配列に対して相同性を持つ区間を表し、区間663, 664, 665はそれとは異なる既知蛋白配列に対して相同性を持つ区間を表している。各相同性区間662, 663, 664, 665に添えられた数字は、その区間が蛋白配列に翻訳されるときの読み枠を示す。また、666は、cDNA配列の区間662と既知蛋白配列との間でアラインメントを行った際、蛋白側の下流方向にcDNAに対応しない配列の残り(浮き)が生じた長さを表す。座標軸671は、cDNA配列の3種の読み枠を区別するための座標軸であり、マーク672は開始コドンの位置、マーク673は終止コドンの位置を表している。
【0063】
座標軸680は、cDNA配列に高い相同性を持つゲノム配列を区別するための座標軸であり、682はそのような相同性が検出された区間を表し、マーク683はゲノム配列と比較してcDNA配列側に塩基の挿入が認められる位置を表し、マークマーク684はゲノム配列と比較してcDNA配列側に塩基の欠失が認められる位置を表し、マーク685はゲノム配列とcDNA配列で塩基の不一致個所を示す。マーク686は塩基の不一致により特にcDNA配列側には現れない開始コドンがゲノム配列側には現れる位置を示し、そこに示された数値はそのときの読み枠を示す。同様に、マーク687はcDNA配列側には現れる開始コドンがゲノム配列側には現れない位置を示し、そこに示された数値はそのときの読み枠を示す。また、マーク688はcDNA配列側には現れない終止コドンがゲノム配列側には現れる位置を示し、そこに示された数値はそのときの読み枠を示す。同様に、マーク689はcDNA配列側には現れる終止コドンがゲノム配列側には現れない位置を示し、そこに示された数値はそのときの読み枠を示す。
【0064】
図6に示した例を用いて、本発明の効果を説明する。図7は、図6の一部を抜き出して、説明のための記号を書き加えたものである。なお、グラフは、図7に例示するように、グラフ表示内部を塗りつぶして表示してもよい。
【0065】
先ず、図7において、5’UTRの局所的確からしさのグラフ610と読み枠1の局所的確からしさのグラフ620のグラフを見比べることにより、そこから読み取ることができる情報について説明する。ローパスフィルタをかけて滑らかにしたL5’UTRのプロット結果612を見ると、701に示す区間で正になることがわかる。同様に、ローパスフィルタをかけたLT1のプロット結果622を見ると、702と703に示す区間で正になることがわかる。701と702で示される範囲を見比べて、704で示される塩基位置に両者の境界があることがわかる。即ち、704の上流側(図の左側)で5’UTRである局所的確からしさが高く、704の下流側(図の右側)で読み枠1の翻訳領域である局所的確からしさが高くなっている。これにより、704の位置に開始コドンがあり、701は5’UTRであり702は読み枠1の翻訳領域であることが示唆される。
【0066】
702と703に挟まれた区間においては、612, 622, 632, 642, 652の何れのプロットも負の値をとっており、この区間は、5’UTR,読み枠1,2,3の翻訳領域,3’UTRの何れの領域である可能性が否定的であることが示されている。即ち、この区間は、それ以外の可能性として、スプライスされずに残ったイントロン配列に相当する区間であることが示唆される。705と706は、スプライスされずに残ったイントロンとエクソンの境界の位置を示している。
【0067】
次に、読み枠1の局所的確からしさのグラフ620のグラフと読み枠2の局所的確からしさのグラフ630のグラフを見比べることにより、そこから読み取ることができる情報について説明する。ローパスフィルタをかけたLT2のプロット結果632を見ると、707に示す区間で正になることがわかる。703と707で示される範囲を見比べて、708で示される塩基位置に両者の境界があることがわかる。即ち、708の上流側で読み枠1の翻訳領域である局所的確からしさが高く、708の下流側(図の右側)で読み枠2の翻訳領域である局所的確からしさが高くなっている。これにより、708の位置にcDNA配列の塩基の欠失があることが原因でフレームシフト(読み枠のずれ)エラーが生じており、703は読み枠1の翻訳領域、707は読み枠2の翻訳領域であることが示唆される。
【0068】
次に、読み枠2の局所的確からしさのグラフ630のグラフと3’UTRの局所的確からしさのグラフ650のグラフを見比べる。ローパスフィルタをかけて滑らかにしたL3’UTRのプロット結果652を見ると、709に示す区間で正になることがわかる。707と709で示される範囲を見比べて、710で示される塩基位置に両者の境界があることがわかる。即ち、710の上流側で読み枠2の翻訳領域である局所的確からしさが高く、710の下流側で3’UTRである局所的確からしさが高くなっている。これにより、710の位置に終止コドンがあり、709は3’UTRであることが示唆される。
【0069】
次に、図6の例を用いて、既知の蛋白配列に相同性をもつ区間を表示したグラフ660の有用性を説明する。図8は、図6の一部を抜き出して、図7で用いた説明記号の一部を書き加えたものである。
【0070】
662と663は、局所的確からしさの評価により読み枠1の翻訳領域であることが示唆された区間701が、実際に蛋白をコードしている配列と類似していることを示す。
【0071】
同様に、664と665は、それぞれ、局所的確からしさの評価により読み枠1、2の翻訳領域であることが示唆された区間703, 707が、実際にその読み枠で蛋白をコードしている配列と類似していることを示しているが、それと同時に、同一の蛋白配列に対して708の位置で読み枠が1から2に変わること(フレームシフト)も示している。このことは、708の位置でcDNA配列に塩基の欠失がおきたことを示唆する。
【0072】
662におけるcDNA配列と既知蛋白配列との間のアラインメントでは、蛋白側の下流方向にcDNAに対応しない配列の残り(浮き)が666に示す長さだけ生じることから、この蛋白はこのcDNAに厳密に対応するものではなく、このcDNAのスプライス・バリアントに由来する蛋白であるか、または、他の類似遺伝子に由来するものであることがわかる。
【0073】
これに対して、663と664の間には、蛋白配列側に浮きが発生せずに同一の蛋白に連続的に対応しているため、cDNA側に生じた(蛋白配列に対応しない)浮きの区間801は、スプライスされずに残ったイントロンであるか、または、cDNA配列は既知蛋白のスプライス・バリアントであることが示唆される。局所的確からしさの評価結果と合わせると、後者の可能性は否定され、801はスプライスされずに残ったイントロンであることが示唆される。
【0074】
次に、図6の例を用いて、解析対象のcDNA配列と相同なゲノム配列とを比較してその違いを表示したグラフ680の有用性を説明する。図9は、図6の一部を抜き出して、図7、図8で用いた説明記号の一部を書き加えたものである。
【0075】
682は、702, 801, 703の3つの区間を連続的に含むより広い区間(この場合はcDNA配列の全区間)で、cDNA配列とゲノム配列とが高い類似性を持つことを表している。特に、局所的確からしさの評価と既知蛋白との相同性解析からスプライスされずに残ったイントロンであると示唆された801の区間が実際にゲノム配列に対応することが示される。
【0076】
684は、ゲノム配列と比較してcDNA配列側に塩基の欠失が708の位置で起きていることを示す。708の位置は、既に、局所的確からしさの評価の観点からも、既知蛋白との相同性検索の結果からもフレームシフトが生じていると示唆された位置である。ここでは、さらにゲノム配列との比較の観点からも、708の位置でフレームシフトが生じていることが示唆されたことになる。
【0077】
686は、704の位置にcDNA配列側には現れない読み枠1の開始コドンがゲノム配列側には現れることを示している。704の位置では、局所的確からしさの評価結果からは読み枠1の開始コドンが存在すると示唆されていたが、cDNA配列の各読み枠の全ての開始コドンと終止コドンの位置を表示したグラフ670においてはそのような開始コドンの存在が示されず、両者は矛盾していた。ところが、ここでゲノム配列との比較により704の位置に読み枠1の開始コドンが見つかったことから、704の位置でcDNA配列のシーケンスの過程に塩基の読み誤りが生じていたことが示唆される。
【0078】
688は、710の位置にcDNA配列側には現れない読み枠2の終止コドンがゲノム配列側には現れることを示している。710の位置では、局所的確からしさの評価結果からは読み枠2の終止コドンが存在すると示唆されていたが、cDNA配列の各読み枠の全ての開始コドンと終止コドンの位置を表示したグラフ670においてはそのような終止コドンの存在が示されず、両者は矛盾していた。ところが、ここでゲノム配列との比較により710の位置に読み枠2の開始コドンが見つかったことから、710の位置でcDNA配列のシーケンスの過程に塩基の読み誤りが生じていたことが示唆される。
【0079】
図10に、本発明の蛋白翻訳領域の評価法を応用した、mRNA取得から蛋白生産までの手順を示す。処理1001は、mRNA試料を生体細胞から採取する処理である。処理1002は、分解しやすいmRNA試料を安定なcDNA配列に逆転写する処理である。処理1003は、得られたcDNA配列を増幅して、cDNAライブラリ1004を作成する処理である。処理1005は、多数のクローンを含むcDNAライブラリからクローンをひとつ選択する処理である。処理1006は、選んだクローンの塩基配列をシーケンサを用いて決定する処理である。こうして得られた塩基配列データ1007に対して、図1の処理手順に従い蛋白翻訳領域・非翻訳領域の解析を行い、図6に示すような解析結果を得る。この解析結果を見て、完全な蛋白翻訳領域が含まれているか否かの判断1008を行う。含まれていなければ、1005のクローン選択に戻って処理をやり直す。含まれている場合には、処理1009に示す発現ベクターへの組み込みを行い、蛋白生産1010を行う。判断1008以外の処理は、何れも公知の技術である。
【0080】
図10において、1008の判断を行うことにより、本来のmRNAに対応する完全な蛋白が得られる。1008の判断を行わなかった場合には、本来の蛋白の部分列しか得られず本来の機能を失ってしまうか、または、蛋白が全く生産できないことになる。従って、本発明により蛋白生産に伴うリスクを減少させ、コストと時間を大幅に低減できることになる。
【0081】
【発明の効果】
本発明によると、局所的な確からしさの評価値、既知蛋白との相同性解析結果、ゲノム配列との相同性解析結果を比較することにより、信頼性の高い判断ができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態における全体の処理手順の概略図。
【図2】各領域別の局所的確からしさのパラメータを学習するための処理の概略図。
【図3】mRNA配列の5’UTR,翻訳領域,3’UTR、開始コドン、終止コドンを説明する図。
【図4】読み枠とサイトを説明するための例を示した図。
【図5】k−タプルの頻度表の例を示す図。
【図6】本発明の一実施の形態における解析結果の表示例の説明図。
【図7】局所的確からしさのグラフ表示の有用性を説明するための例を示した図。
【図8】蛋白配列に相同性のグラフ表示の有用性を説明するための例を示した図。
【図9】cDNA配列とゲノム配列との違いを表示したグラフ680の有用性を説明するための例を示した図。
【図10】本発明による蛋白翻訳領域の評価法を応用したmRNA取得から蛋白生産までの手順を示す図。
【符号の説明】
101…解析の対象とするcDNA配列
102…既知のmRNA配列のデータベース
103…各領域別に局所的確からしさパラメータの学習を行う処理
104…学習結果の信頼性を評価する処理
105…解析対象のcDNA配列の各塩基位置で、各領域の局所的確からしさを評価する処理
106…ローパスフィルタをかけて、局所的確からしさを評価の変化を滑らかにする処理
107…既知の蛋白配列のデータベース
108…解析対象のcDNA配列に対して相同性のある既知蛋白配列を求める処理
109…一致率が閾値に満たないような既知蛋白配列との相同性情報を棄却する処理
110…既知配列に対して相同性のあるcDNA配列の区間の読み枠を求める処理
111…ゲノム配列のデータベース
112…解析対象のcDNA配列に対して相同性の或るゲノム配列を求める処理
113…cDNA配列とゲノム配列との一致率が極めて高い相同性情報を選ぶ処理
114…cDNA配列とゲノム配列を比較して、塩基の挿入・欠失、エクソン境界、開始・終止コドンに変化のある位置を求める処理
115…解析対象のcDNA配列の全ての読み枠の全ての開始コドン・終止コドンを求める処理
116…cDNA配列座標に沿って、各種解析結果を総合に比較し得るように表示する処理
Claims (10)
- 非翻訳領域と翻訳領域を有する塩基配列について、
横軸を配列座標、縦軸を非翻訳可能性の確からしさとした第1のグラフを表示し、
横軸を配列座標、縦軸を翻訳可能性の確からしさとした第2のグラフを表示する方法であって、
前記第1のグラフと前記第2のグラフとを、前記配列座標をそろえて並列又は重複して表示することを特徴とする表示方法。 - 請求項1記載の表示方法において、前記第1のグラフは、前記配列座標が5’末端と3’末端とを含むことを特徴とする表示方法。
- 請求項1記載の表示方法において、前記第2のグラフは、第1の読枠、前記第1の読枠から1塩基ずらした第2の読枠、前記第1の読枠から2塩基ずらした第3の読枠で前記翻訳可能性の確からしさを表示することを特徴とする表示方法。
- 請求項1記載の表示方法において、前記確からしさが肯定的である場合にはその確からしさの程度を正の量として表示し、前記確からしさが否定的である場合にはその確からしさの程度を負の量として表示し、前記確からしさが肯定的とも否定的とも判断しかねる場合は0近辺の量としてグラフ表示することを特徴とする表示方法。
- 請求項4記載の表示方法において、前記グラフの波形と横軸とに挟まれる部分を塗りつぶすことを特徴とする表示方法。
- 請求項1記載の表示方法において、更に、前記塩基配列のイントロン領域を前記配列座標にそろえて並列に表示することを特徴とする表示方法。
- 請求項1記載の表示方法において、更に、前記塩基配列の同一種及び他種生物の蛋白配列に対する相同性を前記配列座標にそろえて並列に表示することを特徴とする表示方法。
- 請求項1記載の表示方法において、更に、前記塩基配列と、前記塩基配列と同一生物種のゲノム配列との塩基不一致箇所、塩基の挿入、塩基の欠失を前記配列座標に並列に表示することを特徴とする表示方法。
- 翻訳領域と非翻訳領域を有する塩基配列について、前記翻訳領域と前記非翻訳領域の確からしさを、以下の式により求めることを特徴とする方法。
- 複数のcDNAを含むcDNAライブラリから1つのcDNAを選択するステップと、
前記選択したcDNAの塩基配列を決定するステップと、
得られた塩基配列データに対して蛋白翻訳可能性の確からしさ及び蛋白非翻訳可能性の確からしさの評価を行うステップと、
得られた蛋白翻訳可能性の確からしさ及び蛋白非翻訳可能性の確からしさの評価値を請求項1〜8のいずれか1項記載の方法により表示するステップと、
前記表示結果により選択したcDNAに完全な蛋白翻訳領域が含まれているか否かを判定するステップと、
選択したcDNAに完全な蛋白翻訳領域が含まれている場合にそれを発現ベクターに組み込んで蛋白を合成するステップを含むことを特徴とする蛋白合成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002328516A JP2004164207A (ja) | 2002-11-12 | 2002-11-12 | UTR評価を併用したcDNA配列のORF解析、表示方法及び蛋白合成方法 |
US10/361,927 US20040091883A1 (en) | 2002-11-12 | 2003-02-11 | Method for analysing and displaying ORF as well as UTR in cDNA sequences and its application to protein synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002328516A JP2004164207A (ja) | 2002-11-12 | 2002-11-12 | UTR評価を併用したcDNA配列のORF解析、表示方法及び蛋白合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004164207A true JP2004164207A (ja) | 2004-06-10 |
Family
ID=32212009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002328516A Pending JP2004164207A (ja) | 2002-11-12 | 2002-11-12 | UTR評価を併用したcDNA配列のORF解析、表示方法及び蛋白合成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040091883A1 (ja) |
JP (1) | JP2004164207A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012089139A (ja) * | 2010-10-21 | 2012-05-10 | Samsung Sds Co Ltd | 遺伝子情報提供方法、その遺伝子情報サーバ、記録媒体、及びプログラム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2016167323A1 (ja) * | 2015-04-17 | 2018-02-08 | Jsr株式会社 | 立体造形物の製造方法 |
US10311046B2 (en) * | 2016-09-12 | 2019-06-04 | Conduent Business Services, Llc | System and method for pruning a set of symbol-based sequences by relaxing an independence assumption of the sequences |
US11087469B2 (en) * | 2018-07-12 | 2021-08-10 | Here Global B.V. | Method, apparatus, and system for constructing a polyline from line segments |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4888740A (en) * | 1984-12-26 | 1989-12-19 | Schlumberger Technology Corporation | Differential energy acoustic measurements of formation characteristic |
-
2002
- 2002-11-12 JP JP2002328516A patent/JP2004164207A/ja active Pending
-
2003
- 2003-02-11 US US10/361,927 patent/US20040091883A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012089139A (ja) * | 2010-10-21 | 2012-05-10 | Samsung Sds Co Ltd | 遺伝子情報提供方法、その遺伝子情報サーバ、記録媒体、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20040091883A1 (en) | 2004-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kan et al. | Gene structure prediction and alternative splicing analysis using genomically aligned ESTs | |
KR101922129B1 (ko) | 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치 | |
Löytynoja | Phylogeny-aware alignment with PRANK | |
US20090318310A1 (en) | DNA Sequence Assembly Methods of Short Reads | |
AU784645B2 (en) | Method for providing clinical diagnostic services | |
CN107103205A (zh) | 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法 | |
US5867402A (en) | Computational analysis of nucleic acid information defines binding sites | |
Wood et al. | Recommendations for accurate resolution of gene and isoform allele-specific expression in RNA-Seq data | |
US20050221353A1 (en) | Data processing and display method for gene expression analysis system and gene expression analysis system | |
JP2004164207A (ja) | UTR評価を併用したcDNA配列のORF解析、表示方法及び蛋白合成方法 | |
KR101770962B1 (ko) | 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 | |
Claverie | A streamlined random sequencing strategy for finding coding exons | |
KR101882867B1 (ko) | 변이 검출 표지의 신뢰도 결정 방법 및 장치 | |
KR20160039386A (ko) | Itd 검출 장치 및 방법 | |
EP1622058A1 (en) | Method of mapping cDNA sequences | |
US20130309660A1 (en) | Methods of characterizing, determining similarity, predicting correlation between and representing sequences and systems and indicators therefor | |
CN114566215B (zh) | 一种双端成对的剪接位点预测方法 | |
US20170270243A1 (en) | Method for finding associated positions of bases of a read on a reference genome | |
JPH1040257A (ja) | 文字配列比較方法、およびそれを用いたアセンブル方法 | |
JP5213009B2 (ja) | 遺伝子発現変動解析方法及びシステム、並びにプログラム | |
Vats et al. | Case study: Systematic detection and prioritization of gene fusions in cancer by RNA-Seq: A DIY toolkit | |
JP2005284964A5 (ja) | ||
KR102072894B1 (ko) | 인트론과 엑손 구분에 기반한 이상 서열 식별 방법 | |
Lien et al. | Benchmarking software tools for trimming adapters and merging next-generation sequencing data for ancient DNA | |
Song et al. | Model-based linkage analysis of a quantitative trait |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051004 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090113 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090519 |