JP3630414B2

JP3630414B2 - 塩基配列のクラスタ生成システム、塩基配列のクラスタ生成方法、該クラスタ生成方法を実行するためのプログラム、および該プログラムを記憶したコンピュータ可読な記録媒体、および塩基配列情報提供システム

Info

Publication number: JP3630414B2
Application number: JP2002146201A
Authority: JP
Inventors: 哲朗渋谷
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-05-21
Filing date: 2002-05-21
Publication date: 2005-03-16
Anticipated expiration: 2022-05-21
Also published as: US20110295977A1; JP2003345805A; US9589102B2; US20040072204A1; US8032305B2

Description

【０００１】
【発明の属する技術分野】
本発明は、生体由来の塩基配列の系統化を行うための技術に関し、より詳細には本発明は、所定の塩基配列が、他の塩基配列からのスプライシング（切断）に由来するものであるか否かを高速に判定してクラスタを生成する、クラスタ生成システム、コンピュータ・システムに対して上述したクラスタ生成を実行させる方法、該方法を実行させるためのプログラム、該プログラムが記録されたコンピュータ可読な記録媒体、および該クラスタ生成方法を使用した塩基配列情報提供システムに関する。
【０００２】
【従来の技術】
真核生物のタンパクは、ｍＲＮＡから翻訳されて生成されるため、生物の体内に発現しているｍＲＮＡを調べることは非常に重要であり、また種々の知見を得るための有用な技術となっている。上述したｍＲＮＡは、ＤＮＡから転写され生成されるが、タンパクに翻訳される前に、スプライシングとよばれる何段階もの切断を経て、より小さなｍＲＮＡとされることが知られている。したがって、本来同じ遺伝子領域から転写され、スプライシングされて生成したｍＲＮＡが複数存在し得る。このため、同一のＤＮＡ領域に由来するｍＲＮＡのうちの１つの塩基配列の存在を検査するだけで、その遺伝子が生体内で発現しているかどうかを判定できることとなる。
【０００３】
一方で、これまで生物の体内で発現しているｍＲＮＡの配列を実際にシーケンシングし、それらをトランススクリプターゼなどの逆転写酵素を使用して逆転写を行い、本来のＤＮＡに対応するＤＮＡ配列として再現し、これらのＤＮＡ配列（以下、ｃＤＮＡと略する。）をデータベース化した、ｃＤＮＡライブラリが知られている。上述したｃＤＮＡデータベースには、ｍＲＮＡの生成過程を反映し、ＤＮＡの同一の遺伝子領域に由来する塩基鎖長の異なるｍＲＮＡから得られたｃＤＮＡが複数含まれることになる。上述したように、遺伝子領域の特定領域ごとに対応するタンパクが発現しているか否かを判定するという観点からは、重複した領域に由来するｃＤＮＡを用いて実験を行うことは、実験コストの増大につながり、好ましくないことが多い。このため、同一の遺伝子領域に由来するｃＤＮＡから得られる塩基配列を、１つのグループとする正確なクラスタリングを行うことは、遺伝子の特定領域の機能を特定する作業の高速化、実験コストの削減、それに伴う探索範囲の拡大を可能とするので、これまで非常に重要な問題となっていた。
【０００４】
不都合なことには、これまで上述したクラスタリングを行うための計算量は非常に膨大なものとなり、現実的な時間内で有意義な結果を得ることが困難であることも知られている。例えば従来では、２つの塩基配列がスプライシングにより生成された、いわゆるスプライスト・ペアであるかどうかは、スプライスト・アラインメント（ｓｐｌｉｃｅｄａｌｉｇｎｍｅｎｔ）法と呼ばれる方法で判断されている。この方法は非常に時間のかかる手法であり、ｃＤＮＡライブラリのような巨大な配列集合に含まれる、すべてのペアに対して計算を行うのはきわめて困難である。たとえば、マウスのｃＤＮＡライブラリであるＦＡＮＴＯＭと呼ばれるデータベースには、２１０７６本の塩基配列が含まれている。この塩基配列に対して総当りで計算するものと仮定すると、通常の計算機１台では１００年以上かかるという、重大な問題があった。上述した不都合に対応するべく、これまでスプライスト・アラインメントに対して、種々の改善が検討されて来ている。
【０００５】
また、上述したクラスタリングの効率を向上させることも検討されてきており、たとえば、ＪｏｎａｔｈａｎＵｓｕｋａ，ＷｅｉＺｈｕａｎｄＶｏｌｋｅｒＢｒｅｎｄｅｌ，ＯｐｔｉｍａｌＳｐｌｉｃｅｄＡｌｉｇｎｍｅｎｔｏｆＨｏｍｏｌｏｇｏｕｓｃＤＮＡｔｏａＧｅｎｏｍｉｃＤＮＡＴｅｍｐｌａｔｅ，ＢＩＯＩＮＦＯＲＭＡＴＩＣＳ，Ｖｏｌ１６．ｎｏ．３，２０００，ｐｐ．２０３−２１１．では、隠れマルコフモデルを用いてスプライスト・アラインメントをモデル化することで、アラインメントを行っている。Ｕｓｕｋａらによれば、テキストとしての長い配列（もとの生物のＤＮＡにあたる）の中からｃＤＮＡに対応する領域を求める方法が開示されている。Ｕｓｕｋａらによれば、具体的にはテキスト配列中で、サフィックス・アレイを用いて１２−ｍｅｒ（１２塩基の並び）を共有する領域が候補として用いられている。Ｕｓｕｋａらは、１２−ｍｅｒの塩基配列を使用した理由については、特に説明しておらず、このため塩基配列の鎖長に柔軟に対応可能であるか否かについては、何ら明らかにはされていない。
【０００６】
また、Ｇ．ＮａｖａｒｒｏａｎｄＲ．Ｂａｅｚａ−Ｙａｔｅｓ，ＡＮｅｗＩｎｄｅｘｉｎｇＭｅｔｈｏｄｆｏｒＡｐｐｒｏｘｉｍａｔｅＳｔｒｉｎｇＭａｔｃｈｉｎｇ，Ｐｒｏｃ．ＣＰＭ９９，ＬＮＣＳ１６４５，ｐｐ．１６３−１８５，１９９９では、ｅｄｉｔｄｉｓｔａｎｃｅ（以下、編集距離として参照する。）を定義し、この編集距離が所定の断片編集距離の最大許容値ｋ以下であるような部分配列をテキストから見出す、近似パターン・マッチング法（ａｐｐｒｏｘｉｍａｔｅｐａｔｔｅｒｎｍａｔｃｈｉｎｇ）を開示している。Ｎａｖａｒｒｏらはまた、配列をｄ本の部分配列に分割して、それぞれの分割された配列と、ｋ／ｄより編集距離が小さいようなテキスト中の部分配列を探し出し、その周辺を候補として扱う方法を開示している。
【０００７】
Ｒ．Ｍｏｔｔ，ＥＳＴ＿ＧＥＮＯＭＥ：ＡＰｒｏｇｒａｍｔｏＡｌｉｇｎＳｐｌｉｃｅｄＤＮＡＳｅｑｕｅｎｃｅｓ，ＣＡＢＩＯＳ，Ｖｏｌ．１３，ｎｏ．４，１９９７，ｐｐ．４７７−４７８．では、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎの動的計画法によるアルゴリズムを変形し、スプライス・サイトについて許容される最小の長さより短いスプライス・サイトを排除するべく、スプライス・サイトに対してペナルティを課すことが試みられている。この他にも種々の方法が提案されているが、いずれの方法も、種々の鎖長の塩基配列に柔軟に対応しつつ、計算時間を短縮し、なおかつ許容可能なハードウエア資源を使用して塩基配列のクラスタリングを行うという点では充分なものではない。
【０００８】
さらには、上述した先行技術は、いずれもクラスタリング手法について開示しているものの、いずれもスプライシングを考慮しない尺度（通常の類似度のようなもの）でクラスタリングしており、スプライシングの前後関係を考慮したクラスタリング方法を提供するものではない。
【０００９】
【発明が解決しようとする課題】
したがって、上述したスプライスト・アラインメントを適用して、塩基配列のクラスタリングを行う前に、候補となりえる塩基配列を充分な精度で、なおかつ取りこぼしなく、さらには高速に絞り込んでおく技術が必要とされていた。また、上述した種々の従来技術が存在しているものの、これまでｃＤＮＡデータベースなどに保持された塩基配列と、保持されたｃＤＮＡからスプライシングにより生成される可能性の高い塩基配列とを関連づけ、クラスタ生成を行うことができる、高速で、かつ計算時間およびハードウエア資源の削減を可能とする、クラスタ生成システム、塩基配列のクラスタリングを可能とする方法、および該方法を実行させるためのプログラム、該プログラムを含むコンピュータ可読な記憶媒体が必要とされていた。また、ユーザに対して有限の時間で、かつハードウエア資源の制約を緩和しつつ、クラスタ生成を可能とするクラスタ生成システム、塩基配列のクラスタリングを可能とする方法、および該方法を実行させるためのプログラム、該プログラムを含むコンピュータ可読な記憶媒体が必要とされていた。
【００１０】
さらにこれまで、スプライスト・ペアに関連する塩基配列情報を効率的にユーザへと提供することを可能とする塩基配列情報提供システムが必要とされていた。
【００１１】
【課題を解決するための手段】
すなわち、本発明は、スプライスト・アラインメントなどの高精度で、労力を要する計算を用いて比較を行う前に、スプライシングの特性を有効に利用して、クラスタ生成を行うことにより、スプライスト・ペアとなる可能性の高い塩基配列を選択したクラスタを提供することができれば、スプライスト・アラインメントの時間を著しく短縮することができるという着想に基づいてなされたものである。本発明の方法は、スプライシングの前後関係を考慮して不必要な塩基配列を排除することを可能とし、単にハッシュを使用して塩基配列を選択するよりも塩基配列を絞り込んだ高次レベルのクラスタを生成する。このようにして得られたクラスタに対して高精度のスプライスト・アラインメントを適用することにより、塩基配列を高速、かつ高精度にスプライシングの前後関係をクラスタリングすることを可能とする。
【００１２】
本発明を適用することにより、例えばｃＤＮＡデータベース内の多数の候補を計算前に排除することができ、結果的に計算時間を大幅に圧縮することができる。さらに、本発明のクラスタ生成方法は、塩基配列に対して特別な処理を施さずに処理を行うことができるので、本発明により得られた結果を従来のスプライスト・アライメント方法に提供することが可能となる。
【００１３】
すなわち本発明によれば、塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連してクラスタを生成するシステムであって、
前記断片塩基配列をクエリー配列として登録するための手段と、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の断片編集距離を所定の最大許容値と比較するための手段と、
前記クエリー配列と、前記塩基配列との間の断片編集距離が前記最大許容値以下の前記断片塩基配列を選択して第１のクラスタを生成して記憶手段に登録するための手段と、
を含む、クラスタ生成システムが提供される。
【００１４】
本発明においては、前記比較手段は、前記最大許容値から、前記クエリー配列と前記塩基配列との間の塩基一致により減少されるカウンタを含んで構成することが好ましい。本発明においては、前記クラスタ生成システムは、前記第１のクラスタから第２のクラスタを生成して記憶手段に記憶させる手段を含み、該第２のクラスタを生成するための手段は、
前記塩基配列に対してスプライス長を定義し、前記クエリー配列と前記第１のクラスタに含まれる塩基配列との間にスプライス長に関連して重み付けされたスコアを生成するための手段と、
前記スコアを、前記塩基配列の塩基数および前記クエリー配列の塩基数に関連して繰り返し、テーブルを生成するための手段と、
前記テーブルを使用して前記塩基配列に対して前記クエリー配列に関連したスコアを決定する手段とを含むことが好ましい。
【００１５】
本発明における前記スプライス長は、２０〜６０の塩基数とされることが好ましい。本発明においては、前記塩基配列は、前記塩基配列は、真核生物のＤＮＡ配列および前記真核生物において発現したｍＲＮＡまたは前記ｍＲＮＡの塩基配列から逆転写により得られるｃＤＮＡ断片配列を含むことができる。本発明における前記クエリー配列は、真核生物のＤＮＡ配列および前記真核生物において発現したｍＲＮＡまたは前記ｍＲＮＡの塩基配列から逆転写により得られるｃＤＮＡ断片配列を含む、ＤＮＡ断片配列または、ｍＲＮＡから逆転写により得られるｃＤＮＡ断片配列とすることができる。
【００１６】
本発明によれば、塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタを生成する方法であって、
前記断片塩基配列をクエリー配列として登録するステップと、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の断片編集距離を所定の最大許容値と比較するステップと、
前記クエリー配列と、前記塩基配列との間の断片編集距離が前記最大許容値以下の前記断片塩基配列を選択して第１のクラスタを生成して記憶手段に登録するステップと、
を含む、クラスタ生成方法が提供できる。
【００１７】
本発明によれば、塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタを生成する方法をコンピュータ・システムに実行させるためのプログラムが記録されたコンピュータ可読な記録媒体であって、該プログラムは、前記コンピュータ・システムに対して、
前記断片塩基配列をクエリー配列として登録するステップと、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の断片編集距離を所定の最大許容値と比較するステップと、
前記クエリー配列と、前記塩基配列との間の断片編集距離が前記最大許容値以下の前記断片塩基配列を選択して第１のクラスタを生成して記憶手段に登録するステップと、
を実行させる、コンピュータ可読な記録媒体が提供できる。
【００１８】
本発明によれば、塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタを生成する方法をコンピュータ・システムに実行させるためのプログラムであって、該プログラムは、前記コンピュータ・システムに対して、
前記断片塩基配列をクエリー配列として登録するステップと、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の断片編集距離を所定の最大許容値と比較するステップと、
前記クエリー配列と、前記塩基配列との間の断片編集距離が前記最大許容値以下の前記断片塩基配列を選択して第１のクラスタを生成して記憶手段に登録するステップと、
を実行させる、プログラムが提供できる。
【００１９】
本発明によれば、塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタをの情報を提供するためのシステムであって、
ネットワークに接続され、前記ネットワークを介してクエリー配列を受信するサーバと、
塩基配列を含むデータベースとを含み、
前記サーバは、
前記断片塩基配列をクエリー配列として登録するための手段と、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の断片編集距離を所定の最大許容値と比較するするための手段と、
前記クエリー配列と、前記塩基配列との間の断片編集距離が前記最大許容値以下の前記断片塩基配列を選択して第１のクラスタを生成して記憶手段に登録するための手段と、
前記第１のクラスタから第２のクラスタを生成して記憶手段に記憶させる手段と、
前記ネットワークを介して前記第２のクラスタを送出するための手段と
を含む塩基配列情報提供システムが提供できる。
【００２０】
【発明の実施の形態】
以下、本発明について図面に示す実施の形態をもってより詳細に説明するが、本発明は後述する実施の形態に限定されるものではない。なお、本発明においては、スプライシングとは、特定の実施の形態においては、真核生物（および古細菌）における機構を意味するが、さらに広く、ｍＲＮＡをスプライシングして、より短い塩基配列を生成するプロセスが生成する、生物由来の塩基配列一般に適用することが可能である。また、本発明においては、２つの塩基配列に着目した時、スプライシング以前の塩基配列を親配列、スプライシング以後の配列を子配列と定義する。また、本発明においては、上述した関係のペアを、スプライスト・ペアと定義する。
【００２１】
また、与えられたｍＲＮＡに対して複数のスプライシングの可能性があるといわれており、そのために、遺伝子の数よりも生体内において生成されるタンパクの種類がはるかに多いといわれている。また、スプライシングは、塩基配列のうち、ドナー・サイトおよびとアクセプター・サイトと呼ばれる部位の間の領域で生じるものとされている。ドナー・サイトおよびアクセプター・サイトには、それぞれ特徴的な配列があり、特に、ドナー・サイトは、ＧＴで始まることが非常に多く、またアクセプター・サイトは、ＡＧで終了することが多いことが知られている。しかしながら、本発明においては同様の特性を有するサイトの対であっても同様に適用することができることは、言うまでもないことである。
【００２２】
切断されるサイト（スプライス・サイト）の中間にも特徴的な配列があることも知られている。また、スプライス・サイトの長さには下限があり、最低でも２０〜６０、より多くの場合には、５０〜６０程の塩基長であるとされている。また、アラインメント（ａｌｉｇｎｍｅｎｔ）とは、本発明においては、２本またはそれ以上の塩基配列に対して適当にギャップ（多くの場合“−”で表す）を挿入して並べることで、塩基配列を比較する方法のことを意味する。
【００２３】
本発明は、本質的には塩基配列の比較を、塩基配列の適合の程度に関連した得点を与え、その得点が最も低く、あるいは高くなるように、あるいはそれに近いものになるように並べることにより塩基配列相互の比較を行う。本発明において使用する用語「射影」とは、上述したように、クエリー配列と、対象とされる塩基配列に対して適切なギャップをもってアライメントされた塩基配列の対比を行い、得点を与えることを意味する。
【００２４】
図１には、本発明が適用される塩基配列を含むデータベースの概略的構成を示す。図１には、７個のｃＤＮＡ配列ｃＤＮＡ１〜ｃＤＮＡ７が示されており、図１において、たとえば、ｃＤＮＡ１とｃＤＮＡ５とは、真核生物のゲノムＤＮＡの異なったＤＮＡ領域に由来する、グループＡとグループＢとに帰属されているのが示されている。また、ｃＤＮＡ２とｃＤＮＡ３とは、スプライシングにより生成されたｍＲＮＡから逆転写により生成されたｃＤＮＡであって、ｃＤＮＡ１に対応するｍＲＮＡからスプライシングにより生成されていることが示されている。また、ｃＤＮＡ６とｃＤＮＡ７とは、ｃＤＮＡ５に対応するｍＲＮＡからスプライシングされて生成されたｍＲＮＡから逆転写により生成されたｃＤＮＡであり、ｃＤＮＡ５は、対応するｍＲＮＡから逆転写により生成されており、これらはスプライスト・ペアとさている。このため、上述したクラスタリングを正確に行うためには、スプライシングの前後関係にある、すなわちスプライスト・ペアかどうかの判断を正確にしなければならない。
【００２５】
本発明では、ＤＮＡからｍＲＮＡに転写される段階や、ｍＲＮＡがスプライシングによって切断されて短鎖の塩基配列とされる段階での塩基の変化は、０ではないが、非常に低い確率であることを利用して、クラスタ生成を行うものである。この際、ｍＲＮＡ配列をシーケンサを使用してシーケンシングする段階で、読み取りの誤りがおきることもある。これらの誤りは手法にもよるものの、もっとも大きいドラフト・シークエンシングの場合を例にとれば、概ね５％以下であるといえる。本発明は、本発明者が鋭意検討を加えた結果、塩基の変化と上述したシーケンシングの誤差とをあわせた率を誤り率ｒを定義し、子配列（長さｍ）のｍ個の塩基のうち、ｍ×（１−ｒ）個以上の塩基は順番をかえないまま、必ず親配列（長さｎ）にも存在しなければならないことに着目してクラスタ生成を行うことにより、高効率のクラスタ生成を行うことが可能であることを見出すことによりなされたものである。
【００２６】
すなわち、親配列のサブシーケンスであれば、親配列と子配列との塩基配列の相違に対応する編集距離が、ｍ×ｒ以下でなければならない。ただし、所定の塩基配列のサブシーケンスとは、対象とされている塩基配列の塩基から、いくつかの塩基を欠落させて、残りの塩基を同じ順に並べた塩基配列を意味する。本発明においては、編集距離とは、塩基の変異、挿入、削除によって所与の配列を別の配列に変換する場合に、別の配列を得るまでの上述した操作の回数、より具体的にはギャップを除けば異なる塩基の数に相当する。ただし、本発明では、親配列のサブシーケンスを考慮すれば良いので、削除は考えなくてよい。本発明におけるサブシーケンスとは、配列からいくつかの塩基を削除して、短くした塩基配列を意味する。具体的には、たとえば塩基配列ＡＴＣＴＧＧは、塩基配列ＡＴＧＣＴＡＧＧのサブシーケンスである。
【００２７】
また、本発明においては、親配列の任意のサブシーケンスと子配列の断片編集距離（ｓｐｌｉｃｅｄｅｄｉｔｄｉｓｔａｎｃｅ）を定義する。また、変数ｋを、ｍ×ｒ以下の整数とする。上述した誤り率ｒは、充分に小さいことが知られているので、ｋも小さいことが期待される。そこで、本発明では、変数ｋをクラスタ生成における断片編集距離の最大値許容値として選択する。このため本発明は、精密なスプライスト・アラインメントよりも高速に、Ｏ（ｋ×ｍ＋ｎ）という計算時間で、クラスタを生成することが可能となる。また、この計算に必要なメモリはＯ（ｋ＋ｎ＋ｍ）である。本発明は、この計算結果を用いて、スプライスト・ペアの候補を大幅に減らすことを可能とするものである。
【００２８】
図２は、本発明のスプライシング・アライメント方法を使用して、スプライスト・ペアのクラスタを生成するプロセスのフローチャートである。本発明のクラスタリング方法は、ステップＳ１０から開始し、ステップ１２において、クエリー配列を設定する。このクエリー配列の指定は、キーボードといった入力手段から直接クラスタ生成を実行するコンピュータ・システムに対して入力することができる。また、クエリー配列の入力は、ネットワークを介して、クライアント・コンピュータから入力することもできる。また、登録されたユーザに対して、ブラウザ・ソフトウエアを使用してインターネットといったネットワークを介してクエリー配列の入力を許可することもできる。入力されたクエリー配列は、コンピュータ・システムに含まれる適切なバッファ・メモリなどに登録され、必要に応じて中央処理装置（ＣＰＵ）から呼び出されることにより、データベース内の塩基配列に対しての射影を行うことができる構成とされている。
【００２９】
さらに本発明のクラスタ生成方法は、ステップＳ１４において、塩基配列のみを考慮して共有部分を含むペアを抽出する既存のフィルタを使用して塩基配列の絞り込みを行なう。このフィルタリングは、単にクエリー配列における塩基が含まれているか否かなどを使用してこれまで知られた、たとえばハッシュ法により実行することができる。また、本発明の可能な実施の形態においては、ステップＳ１４のフィルタリングを使用しなくとも良い。
【００３０】
さらに、本発明の方法は、ステップＳ１６において、本発明のクラスタ方法を実行させて、さらにスプライスト・ペアの絞り込みを実行する。本発明により絞り込みが行われたスプライスト・ペアの可能性の高い塩基配列から構成された第１のクラスタを射影を行う母集合として、ステップＳ１８において、高精度のスプライシング・アライメントを実行し、ユーザ入力されたクエリー配列に対する正確なスプライスト・ペアを検索し、クラスタとして登録する。
【００３１】
次いで、本発明においてはステップＳ２０においてステップＳ１８で得られたクラスタをユーザに提供し、ステップＳ２２において本発明の方法を終了する。ユーザへのクラスタとされた塩基配列の提供は、インターネットといったネットワークを使用して行うことも可能であるし、イーサネット（登録商標）などで構築されたローカル・エリア・ネットワーク（ＬＡＮ）を使用して行うこともできる。また、特に、ネットワークを使用しないスタンドアローンのシステムにおいては、ディスプレイ・スクリーンに表示すること、または、ハードプリンタなどにより出力を行うこと、または、フレキシブル・ディスク、フラッシュ・メモリ、光磁気ディスクなど、携帯型の記録手段に記録することなどにより行うことができる。
【００３２】
ユーザは、提供されたクラスタ情報を使用して、塩基配列データベースに登録されたうち、スプライスト・ペアに対する知見を高速に得ることが可能となり、もともとの染色体のＤＮＡ配列の同一の領域から発現した塩基配列であるか否かの判定を迅速に行うことが可能となる。
【００３３】
図３は、本発明の塩基配列の第１のクラスタを生成する方法の概略的なフローチャートを示す。図３に示した本発明の第１のクラスタの生成方法は、ステップＳ２４の初期化から開始し、ステップＳ２６において子配列における先頭塩基から計算を開始させることを宣言するため、変数ｃｈｉｌｄ＿ｐｏｓｉｔｉｏｎを１に設定し、同時に中途断片編集距離ｍｉｎ＿ｋについて初期化を行う。この中途断片編集距離ｍｉｎ＿ｋは、塩基の不一致の加減を与える、本発明において採用される本質的なパラメータである。ステップＳ２８において、子配列の塩基の位置を示す変数ｃｈｉｌｄ＿ｐｏｓｉｔｉｏｎがｍを越えたか否かを判断し、すでに子配列の塩基について判断を終了している場合（真）には、子配列の塩基の不一致数は、設定された編集距離の最大許容値ｋ以下なので、判断している子配列を、スプライスト・ペアの可能性が高く、第１のクラスタとして選択し、ステップＳ３０においてメモリ、ハードディスクなどの記憶手段へと登録する。なお、図３に示したステップＳ２８の判断が可能なのは、後述するように、図３のプロセスのステップＳ２８の判断に分岐するのは、中途断片編集距離ｍｉｎ＿ｋが常に設定された断片編集距離の最大許容値よりも小さい場合だけに制限されているためである。
【００３４】
ステップＳ２８の判断が否定的である場合（偽）には、本発明のプロセスは、ステップＳ３２へと進み、より詳細には後述するように、子配列に関して見出された不一致を判定するための処理が行われる。ステップＳ３２の処理の後、ステップＳ３４において中途断片編集距離ｍｉｎ＿ｋが、設定された最大許容値ｋよりも大きいか否かを判断する。ステップＳ３４の判断が肯定的である場合（真）には、スプライスト・ペアではないものとし、ステップＳ３６において、第１のクラスタとして登録せず、以後の計算には使用しない。なお、この処理は、たとえば除外フラグを設定する、または実行中のメモリ内から削除してしまうなど、これまで知られたいかなる方法を使用することもできる。ステップＳ１６の判断が否定的である場合（偽）には、ステップＳ３８で子配列の塩基の位置をインクリメントさせた後、ステップＳ２８へと分岐し、ステップＳ２８〜ステップＳ３８を繰り返し、スプライスト・ペアとなる可能性の高い子配列の第１のクラスタを生成する。本発明においては、子配列となるクラスタへの登録は、これまで知られたいかなる方法を使用しても行うことができ、例えば、メモリ、またはハードディスクといった記憶手段に、そのための領域を確保して、順次子配列データを蓄積して行くこともできる。また、本発明においては、スプライスト・ペアとして登録される塩基配列であることを示すペア・フラグを設けておき、塩基配列ＩＤと、ペア・フラグとを含むデータとして記憶手段に登録しておくこともできる。
【００３５】
図４は、ステップＳ２４における初期化の詳細を示したフローチャートである。図４に示すように、本発明における図４における初期化は、ステップＳ４０において子配列の判定塩基位置ｉをまず初期化し、ステップＳ４２において、子配列の塩基配列の数が設定した最大許容値ｋより大きいか否かを判断し、ｉ＞ｋである場合（真）には、初期化を終了し、図３のステップＳ２６へと結果を返す。ステップＳ４２の判断においてｉがｋ以下の場合（偽）には、ステップＳ４４において変数ｐｏｓｉｔｉｏｎｓ［ｉ］を０に初期化し、ｉをインクリメントさせ、ステップＳ４２の判断が真（ｉ＞ｋ）となるまで、変数ｐｏｓｉｔｉｏｎｓ［ｉ］を初期化を繰り返す。
【００３６】
図５は、図３に示したフローチャートにおけるステップＳ３２のプロセスを詳細に示したフローチャートである。図５に示すプロセスは、ステップＳ４６において、変数ｍａｘ＿ｋを、断片編集距離の最大許容値ｋ（ｍ×ｒ以下の正の整数）、または判断している子配列の塩基の位置に対応する値へと設定し、同時に相違カウンタｉを定義し、相違カウンタｉを、初期値ｍａｘ＿ｋに設定する。この相違カウンタｉは、設定された最大許容値ｋから開始し、一致した塩基が存在すると、デクリメントされるカウンタである。さらに、ステップＳ４８においては、相違カウンタｉが、ｍｉｎ＿ｋよりも小さいか否かを判断する。
【００３７】
このｍｉｎ＿ｋは、上述したように親配列と、子配列との間の塩基の中途断片編集距離に対応する変数であり、図３のステップ２６において示した特定の実施の形態においては、初期値として０が用いられているが、本発明においては適宜、対象となる塩基配列を考慮して、たとえばユーザが０以外の値を入力することもできる。ステップＳ４８の判断において、相違カウンタｉがｍｉｎ＿ｋよりも小さな場合（真）には、それ以後の一致判断を終了させ、図３のステップＳ３４へと結果を渡す。また、ステップＳ４８において、相違カウンタｉがｍｉｎ＿ｋ以上の場合には、ステップＳ４８において相違カウンタｉの値が０か否かを判断する。ｉ＝０（真）の場合には、ステップＳ５２において、変数ｐｏｓｉｔｉｏｎ［ｉ］を、親配列Ｐ［１，．．，ｐｏｓｉｔｉｏｎ［ｉ］＋１］までのうち、Ｃ［ｃｈｉｌｄ＿ｐｏｓｉｔｉｏｎ］で示される子配列の塩基が最初に出現する位置とする。また、ｉ＝０でない場合（偽）には、ステップＳ５４において親配列の次の塩基位置について判断を行い、直前のｐｏｓｉｔｉｏｎ［ｉ−１］の値と、親配列の次の塩基位置の値のうちの小さい方の値を、ｐｏｓｉｔｉｏｎ［ｉ］の値として設定する。
【００３８】
ステップＳ５２およびステップＳ５４の後、ステップＳ５６において更新された変数ｐｏｓｉｔｉｏｎｓ［ｉ］が、判断している親配列の塩基数ｎよりも大きいか否かを判断する。変数ｐｏｓｉｔｉｏｎ［ｉ］が判断する親配列の塩基数ｎ以下である場合（偽）には、それまでに子配列の該当する塩基に対応する値が返されているので、親配列は、判断している子配列についてはスプライスト・ペアとする可能性があるものとして、ステップＳ５８で相違カウンタｉをデクリメントさせ、再度ステップＳ４８の判断を行い、ｉ＜ｍｉｎ＿ｋの条件が満たされるまで、反復を繰り返す。また、ステップＳ５６の判断において、変数ｐｏｓｉｔｉｏｎ［ｉ］が、判断する親配列の塩基数ｎよりも大きい場合（真）には、その時点まで子配列の判断している塩基が見出されていないので、スプライスト・ペアとして選択すると誤判断を生じさせるリスクが高まるので、ステップＳ６０で中途断片編集距離ｍｉｎ＿ｋを、ｉ＋１に設定する。
【００３９】
さらにステップＳ５８で相違カウンタｉを減分させ、リスクに対応してステップＳ４８の判断を確実に終了させることで、高速化することを可能とし、無駄な計算を効率的に防止する構成とされている。同時に本発明における上述したプロセスは、単に共通する塩基部分のみではなく、スプライシングの特性を有効に利用し、誤りの発生確率を考慮して設定される編集距離よりも塩基配列の違いが少ない塩基配列を選択して抽出するので、抽出される塩基数を削減すると共に、スプライスト・ペアの信頼性についてもより向上させること可能となる。
【００４０】
なお、本発明においては、塩基配列の比較は、それぞれ、アデニン（Ａ）、グアニン（Ｇ）、シトシン（ｃ）、チミン（Ｔ）、といった塩基を文字ベースで比較することもできるし、４種の塩基に対応するように塩基配列を数値化して、数値ベースで比較することもできる。
【００４１】
図６は、上述したフローチャートで示された第１のクラスタを生成するプロセスを実行させるための擬似コードを示す。なお、図６に示した疑似コードにおいては、親配列をＰ［１．．ｎ］とし、子配列をＣ［１．．ｍ］としている。また、図５に示した擬似コードで、ｎｅｘｔ＿ｃｈａｒ＿ｐｏｓｉｔｉｏｎ（Ｐ，ｉ，ｃ）で示される関数は、Ｐ［ｉ．．ｎ］の中で最初に出てくる塩基“ｃ”の位置（整数）を返す関数である。ただし、そのような塩基が存在しない場合はｎ＋１を返すものとする。これは、ＤＮＡの場合のような塩基の種類が限られている場合は、適当なデータ構造を予め生成しておくことで、許容可能な時間で計算可能である。
【００４２】
また、図７には、本発明の処理によりクラスタリングされる塩基配列を模式的に示す。上述したように最小の近似パラメータは、図７に示されるアラインメントで、子配列中のギャップについては不利に取り扱わないとするアラインメントに相当する。このため、たとえば塩基配列の一致について、一致が０点、不一致が１点、親配列中のギャップが１点、子配列中のギャップが０点、というような得点を与えるものと仮定すると、アラインメントの得点のうちの最小得点が、図６の擬似コードで得られた近似パラメータと等しくなる。なお、図７に示した実施の形態のアラインメントは、この得点設定による得点での最小のアラインメントであるが、その得点は２でありｍｉｎ＿ｋ＝２と一致する。
【００４３】
ここで、図７に示した塩基配列に基づき、本発明につき、図６に示した疑似コードに沿って説明する。図７に示された実施の形態においては、親配列が、「ＧＧＣＴＣＴＴＧＡＡＣＡＡＡＣＧＣＴＧＧＡＧＣＴＧＡＧＧＡＴＴＣＡＴＣＴＣＧＧＡ」であり、子配列が、「ＧＣＴＧＡＧＡＡＧＡＧＧＴＴＴＣＡＴＣＴ」なので、図３〜図５で示されたプロセスにおいては、最終的にｋ≧２として設定すれば、上の擬似コード中の▲２▼で示される処理まで計算が進み、ｍｉｎ＿ｋ＝２という値が得られ、これはスプライスト・ペアである可能性が充分に高いといえる。
【００４４】
また、図６に示した擬似コードにおいて、ｋ＝１として設定した場合は、▲１▼で示される処理まで進行した段階でクラスタリング処理は終了し、これがスプライスト・ペアである可能性はない、という結果を返すことになる。上述したように、▲１▼の段階の処理で終了したものについては、更に詳しい検査を行なわないので、本発明においては結果として、計算時間を大幅に短縮できることになる。
【００４５】
図８は、上述したクラスタリングの処理の具体的な処理プロセスを、より塩基鎖長の短い具体的な親配列モデルおよび子配列モデルを使用して表とした図である。図８においては、親配列を、「ＣＧＣＧＣＡＴＧＡＡ」とし、子配列を「ＧＣＣＣＡＴＧＣ」として、これら２つの塩基配列の編集距離が、ｋ＝３以下かどうかについて検討している。図８においては、図３〜図５で示した処理＜Ｂ＞の直後のｃｈｉｌｄ＿ｐｏｓｉｔｉｏｎ、ｐｏｓｉｔｉｏｎｓ［ｉ］、ｍｉｎ＿ｋ、ｍａｘ＿ｋの値の処理に対応した変化を示すために、これらの値を出力したものを各列に示している。図８に示した２つの塩基配列では、処理＜Ｂ＞は、合計で８回呼び出されることになる。この場合ｍｉｎ＿ｋ＝２が出力され、スプライスト・ペアである可能性が高い、という結果を得ることができる。
【００４６】
図８に示される場合において、たとえば、ｋ＝０（塩基が完全に一致する場合）と設定した場合、ｃｈｉｌｄ＿ｐｏｓｉｔｉｏｎ＝４の際の処理＜Ｂ＞の動作後には、ｍｉｎ＿ｋ＞０となり、希望する近似の程度スプライスト・ペアではない、という結果になることも、図８から示される。なお、図８において「−」で示されている欄は、処理＜Ｂ＞で処理されなかったｐｏｓｉｔｉｏｎ［ｉ］のエントリーを示す。
【００４７】
以下、本発明における精密なスプライスト・アラインメントを用いて、正確なスプライスト・ペアかどうかの判定を行うプロセスについて説明する。この正確なスプライスト・アラインメントは、上述した通りに生成された第１のクラスタを使用して行う。第１のクラスタは、上述したようにユーザの希望する塩基の不一致の数の範囲内で塩基配列が一致する子配列が選択され、保持されているので、単に塩基の種類のみを考慮したクラスタリングにより子配列の数を制限する以上に塩基配列を制限でき、さらにスプライスト・ペアとしての可能性の高い塩基配列から形成されている。このため、後述する本発明による高精度のスプライスト・アラインメントの効率を向上させることができる。本発明のスプライスト・アラインメントでは、まず、親配列と子配列の考えられる任意のアラインメントのうち、次に説明する得点が最小であるようなアラインメントを求める。
【００４８】
【数６】

【００４９】
本発明において上述したマッチング・スコアとは、塩基どうしのマッチングの得点を最初に与えておいて、それが並んでいると、その組に割り当てられた得点を加えることにより得られる。また、本発明においては、スプライス・サイトとは、子配列中のスプライス長（ｍｉｎ＿ｓｐｌｉｃｅ＿ｌｅｎｇｔｈ）以上のギャップのことをいう。上述した通り、その最初の塩基部分をドナー・サイト、最後の塩基部分をアクセプター・サイトというが、それぞれ、それぞれに特徴的な配列（多くはＧＴで始まり、ＡＧで終了する）かどうかで、それぞれ適当なスコアを更に加えるものとする。具体的には、たとえば、ＧＴで始まるスプライス・サイトには得点は加えない、すなわちスプライス・サイトを含むことを有利に作用させるが、それ以外は１点加え不利に取り扱うなど、適宜設定することができる。
【００５０】
また、上述した内側のギャップは、本発明においては配列の最初の塩基と最後の塩基との間のいずれかに挿入されるギャップのことを意味する。本発明において使用する外側のギャップとは、配列の最初の文字より前、あるいは最後の文字より後に挿入されるギャップのことをいう。
【００５１】
図９には、上述した設定の下でアラインメントの得点を求めるためのフローチャートを示す。図９に示されるようにアライメントの得点は、ステップＳ６０の初期化から開始し、ステップＳ６２において変数ｊ（正の整数）を１に初期設定する。その後ステップＳ６４においてｊとｎとを比較して、ｊがｎを超える場合（真）には、すべての塩基配列について得点が得られているので、ステップＳ６６において、結果をＮｍｎとして出力させる。また、ステップＳ６４の判断においてｊがｎより小さい場合（偽）には、ステップＳ６８においてｉ＝１に設定し、ステップＳ７０においてｉとｍとを比較する。ステップＳ７０の比較においてｉがｍよりも大きな場合（真）には、すでに対象としている子配列について得点を算出することが必要ではないので、ステップＳ７２においてｊをインクリメントさせて、ステップＳ６４へと分岐し、ステップＳ６４〜ステップＳ７０の判断を繰り返すことで、無用な計算を排除する。さらにステップＳ７０において、ｉがｍ以下である場合（偽）には、ステップＳ７４の処理が実行され、各要素の得点が算出される。ステップＳ７４の処理の後、ステップＳ７６においてｉをインクリメントし、ｍ以下のｉについて同様の処理を反復する。
【００５２】
図１０は、図９において説明したステップＳ６０の初期化の詳細を示したフローチャートである。図１０に示されるように、まず、ステップＳ８０において、変数ｊを０に初期化し、ステップＳ８２において、ｊ＞ｎか否かを判断する。ステップＳ８２の判断において、ｊ＞ｎでない場合（偽）には、ステップＳ８４において、子配列の外側のギャップ・スコアＮ_０，ｊを所定のｊについて設定する。その後、ｊを１だけインクリメントし、ステップＳ８２へと戻す。ステップＳ８２の判断において、ｊがｎ以上となった場合（偽）には、ステップＳ８６において、ｉ＝０に初期化し、ステップＳ８８においてｉ＞ｍか否かを判断する。ステップＳ８６の判断においてｉ＞ｍでない場合（偽）には、ステップＳ９０において親配列の外側のギャップ・スコアＮ_ｉ，０を所定のｉについて設定し、ｉを１だけインクリメントし、再度ステップＳ８８の判断を実行させ、ｉ＞ｍとなった場合（真）に、ステップＳ６０の初期化を終了する。この段階では、本発明において特定の実施の形態において採用する動的計画法において使用されるテーブル（以下、単にテーブルとして参照する）Ｎ_ｉ，ｊの要素のうち、第１列目および第１行目が規定される。なお、本発明におけるクラスタ生成を行うことができる限り、いわゆる動的計画法と知られている技術に限定されるものではなく、いかなる方法により生成される同様のテーブルでも用いることができる。
【００５３】
図１１は、図９のステップＳ７４の処理の詳細を示したフローチャートである。図１１に示されたステップＳ７４の処理は、ステップＳ９０においてｉ＜ｍであるか否かの判断を行い、ｉ＜ｍである場合（真）には、ステップＳ９２において子配列における内側のギャップ・スコアとして変数ｃｈｉｌｄ＿ｇａｐ＿ｓｃｏｒｅを得る。また、ステップＳ９０の判断がｉ＜ｍでない場合（偽）には、ステップＳ９４において子配列における外側のギャップ・スコアとして変数ｃｈｉｌｄ＿ｇａｐ＿ｓｃｏｒｅを得る。その後、ステップＳ９６においてｊ＜ｎの判断を行い、ｊ＜ｎの場合（真）には、ステップＳ１００において親配列の内側ギャップ・スコアとして、ｐａｒｅｎｔ＿ｇａｐ＿ｓｃｏｒｅを得る。また、ステップＳ９６において、ｊ＜ｎではない場合（偽）には、ステップＳ９８で親配列の外側ギャップ・スコアとしてｐａｒｅｎｔ＿ｇａｐ＿ｓｃｏｒｅを得る。
【００５４】
その後、ステップＳ１０２においてテーブルの要素を決定し、ステップＳ１０４において、値Ｓ_ｉ，ｊを算出する。Ｓ_ｉ，ｊは、子配列の塩基鎖長とは関係しないスプライス・サイトに対して独立して加算されるスコアである。ステップＳ１０４においてスプライス・サイトのスコアが算出されると図１０に示したステップＳ７４の処理から図９のステップＳ６８へと結果を渡し、ｍ以下のｉについてスコア値を生成する。
【００５５】
図１２は、図９〜図１１において説明した本発明における高精度のスプライスト・アライメントを使用する第２のクラスタ生成のためのプロセスを実行させるための疑似コードを示した図である。図１２に示した疑似コードにおいては、上述したと同様に親配列をＰ［１．．ｎ］、子配列をＣ［１．．ｍ］とする。この擬似コードの中で、関数ｍａｔｃｈ（ａ，ｂ）は、塩基ａと塩基ｂの間のマッチング・スコアをいう。また、ｄｏｎｏｒ（Ｐ，ｉ）はＰのｉ番目の場所のドナー・サイトの得点を示し、ａｃｃｅｐｔｏｒ（Ｐ，ｉ）は、同様にその場所のアクセプター・サイトとしての得点を示す。なお、図１２に示した擬似コード中には、スプライス・サイトについての得点である、ｓｐｌｉｃｅｓｃｏｒｅは含まれていないが、図１２の擬似コードにおいては、ドナー・サイトおよびアクセプター・サイトのスコアに含ませることにより対応した。図１２に示した疑似コードにおいては、Ｎｎｍが最終的な得点として得られることになる。
【００５６】
図１３は、上述したテーブルの概略的な構成とスコア計算に用いる要素とを示した概略図である。図１３に示したテーブルは、行が親の塩基配列、列が子の塩基配列として構成されている。本発明においては、図１２に示した疑似コードにおけるＮｉ，ｊの要素は、図１３に示される３つの要素ｅ１〜ｅ３および上述したＳ_ｉ，ｊ _ー１の値であるｅ４の、４つの要素うちの最小なものとして得ることができる。したがって、本発明においては、図１３に示したテーブルのうち、計算に使用するメモリ量として、ｉ−１行と、ｉ行の２行分のメモリのみを割り当てることも可能となり、メモリ資源といったハードウエア資源を減少させることで、さらに計算時間およびハードウエア資源を削減することが可能となる。また、図１３においては、最終的に得点として得られるＮｎｍは、ｅ５として示されている。
【００５７】
本発明における子配列のスプライスト・アラインメントは、本発明の実施の形態では、子配列について得られたスコアＮｎｍを使用して、与えられた子配列の塩基数ｍにおいてユーザが希望する適切な誤り率ｒを乗じたｍ×ｒを与え、このｍ×ｒ以下のスコアの子配列をスプライスト・ペアとすることにより達成することができる。
【００５８】
なお、本発明において使用することができる精密なスプライスト・アラインメントを行う部分の方法は、本発明のさらに他の実施の形態ではこれまで知られたいかなる方法でも用いることができ、たとえばＵｓｕｋａらによる方法を使用することができる。
【００５９】
また、本発明のさらに他の実施の形態においては、本発明の方法で得られたｓｐｌｉｃｅｄｅｄｉｔｄｉｓｔａｎｃｅは、親に含まれるギャップの数と不一致数の和の下限となる。このため、本発明におけるパラメータ設定において、それぞれに対するスコア（ｇａｐ＿ｓｃｏｒｅやマッチング・スコアなど）の中に負のものがない場合、スプライスト・アラインメントと判定されるようなアラインメントの親配列に含まれるギャップの数とミスマッチの数の和の上限を計算することは非常に容易であり、断片編集距離（ｓｐｌｉｃｅｄｅｄｉｔｄｉｓｔａｎｃｅ）が、ギャップ数と不一致数との和の上限値よりも大きいものは候補から除外する処理を用いることもできる。
【００６０】
さらに、本発明のさらに他の実施の形態においては、スプライスト・ペアの判定基準をｈとする（ｈは、上述したように子配列の長さに比例、とするのが妥当であるが、そうでなくてもよい）、この親配列のギャップの数とミスマッチの数の和の上限は、
【００６１】
【数７】

となる。ただし、min_mismatch_scoreは、min_a _≠ _b{match(a, b)}で表され、マッチしなかった塩基のペアの中で、最小のスコアに対応する。本発明において使用するパラメータの中で、負にする必要のあるものはない。また、分母となる親のギャップ・ペナルティや、不一致のスコアを0以下にすることも通常は考えられないため、良好な断片編集距離（spliced edit distance）の上限を与えることができ、それを用いて、候補を減らすこともできる。
【００６２】
さらに本発明のさらに他の実施の形態においては、スライスト・ペアとなる候補を減らすための手法として、本発明のクラスタ生成方法を、さらの別の絞り込みの手法と同時に使用することもできる。
【００６３】
図１４には、本発明のコンピュータ・システムの概略図を示す。図１４に示された本発明のコンピュータ・システムは、インターネットといったネットワーク１０に接続されたサーバ１２と、サーバ１２に対してクエリー配列を送信するためのクライアント１４とを含んで構成されている。また、サーバ１２は、塩基配列を保持したデータベース１６を管理しており、サーバ１２が受信したクエリー配列を使用して、データベース１６に保持された塩基配列に対してクエリー配列を射影して、本発明に従い、グローバル・フィルタリングにより第１のクラスタを生成する。
【００６４】
本発明において説明する特定の実施の形態においては、塩基配列は、ｃＤＮＡであり、クエリー配列はｍＲＮＡであるものとすることができるが、本発明によりスプライス・サイトおよびスプライス長を適用することが可能な塩基配列であれば、本発明は真核生物ばかりではなく、ウイルス、バクテリアなど種々の生物に由来する塩基配列に適用することができる。その後、生成された第１のクラスタを使用して、高精度のスプライスト・アラインメントを行い、第２のクラスタを生成し、第２のクラスタをユーザへと提供する。
【００６５】
図１５は、本発明のクラスタ生成方法およびクラスタリング方法を実行するためのサーバ１２の構成を示したブロック図である。図１５に示すように、サーバ１２は、ｃＤＮＡといった塩基配列を保持するデータベース１６を管理しており、新たに見出された塩基配列を、例えばキーボードといった入力手段１８からの入力に応じて登録することができる構成とされている。サーバ１２は、本発明のプログラムを実行するための中央処理装置（ＣＰＵ）２０と、プログラムと、実行中のテーブルと、生成された塩基配列のクラスタなどを保持させるためのメモリ２２とを含んで構成されている。また、サーバ１２は、本発明のプログラムが記録されたハードディスクといった記憶媒体を含む記憶装置２４を管理している。サーバ１２は、ユーザの要求に応じて本発明のプログラムを記憶装置２４から読み出し、実行することができる構成とされている。
【００６６】
さらに、本発明のサーバ１２は、ネットワーク・インタフェイス・カード（ＮＩＣ）、モデム、ＤＳＵなどを含んで構成される通信手段２６を含んで構成されており、イーサネット（登録商標）、公衆電話回線、ＩＳＤＮ、光通信、ＡＤＳＬといった媒体を用いて相互接続を行うネットワーク１０を通して、図示しないクライアントとの間において通信を可能とする構成とされている。
【００６７】
本発明のサーバ１２は、本発明のクラスタ生成方法を含むプログラムがユーザにより起動されると、ユーザ入力または、ネットワーク１０を介して取得したクエリー配列を、塩基データベース１６に保持された塩基配列に対して射影して第１のクラスタ３０を生成する。また、生成された第１のクラスタの結果を使用して、スプライスト・アラインメントを実行し、高精度のスプライスト・ペアからなる第２のクラスタ３２を生成する。第２のクラスタ３２は、いかなるフォーマットとして構成することができるが、例えば、クエリー配列に対して、スプライスト・ペアとなる塩基配列をリストしたテーブルとして構成することができる。その後、上述の通りに生成された第２のクラスタ３２は、ネットワーク１０を介して図示しないクライアント・コンピュータへと送信される。
【００６８】
本発明のクラスタ生成方法を実行させるためのプログラムは、種々のプログラミング言語、例えばＣ言語、Ｃ＋＋言語、Ｊａｖａ（登録商標）、などを使用して記述することができ、本発明のプログラムを記述したコードは、磁気テープ、フレキシブル・ディスク、ハード・ディスク、コンパクト・ディスク、光磁気ディスク、ディジタル・バーサタイル・ディスク（ＤＶＤ）といったコンピュータ可読な記録媒体に保持させることができる。
【００６９】
【実施例】
以下、本発明を具体的な実施の形態をもって説明するが、後述する実施例についても、本発明を制限するものではない。
【００７０】
（実施例１）
本発明の実施例１では、塩基配列としてマウスのｃＤＮＡを含んで構成されたＦＡＮＴＯＭ１．１０のライブラリ（Ｋａｗａｉ，Ｊ．，Ｓｈｉｎａｇａｗａ，Ａ．，Ｓｈｉｂａｔａ，Ｋ．，Ｙｏｓｈｉｎｏ，Ｍ／，Ｉｓｈｉｉ，Ｙ．，Ａｒａｋａｗａ，Ｔ．，Ｈａｒａ，Ａ．，Ｆｕｋｕｎｉｓｈｉ，Ｙ．，Ｋｏｎｎｏ，Ｈ．，ｅｔａｌ．（２００１） ”Ｆｕｎｃｔｉｏｎａｌａｎｎｏｔａｔｉｏｎｏｆａｆｕｌｌ−ｌｅｎｇｔｈｍｏｕｓｅｃＤＮＡｃｏｌｌｅｃｔｉｏｎ．”，Ｎａｔｕｒｅ，Ｖｏｌ．４０９，６８５−６９０）の中から、スプライスト・ペアをすべて探し出す実験を行った。この実験では、以下のようなスプライスト・アラインメントの設定で、スコアが子配列の長さの５％以下になるような組み合わせをすべて計算した。下記表１に本発明の実施例において使用した条件を示す。
【００７１】
【表１】

【００７２】
上述した条件の下で、ｃＤＮＡライブラリの配列に対してスプライスト・アラインメントを行った。クエリー配列としては、ＦＡＮＴＯＭ１．１０のライブラリの中の７８番の塩基配列（アクセッション番号ＡＫ００２３０９）を使用した。また、親配列としては、別の実験からスプライスト・ペアであることが判明しているＦＡＮＴＯＭ１．１０のライブラリの中の２０６２１番の塩基配列を使用した。図１６および図１７には、本発明において使用した、クエリー配列および親配列を示す。なお、図１６および図１７に示したアラインメント中の「−」はギャップを示し、「＝」はスプライス・サイトを表す。また、図１６および図１７に示されたアラインメントにおいては、上側列が親配列、下側列がクエリー配列である。
【００７３】
上述した条件このアラインメントのスコアとして、本発明により１２．０が得られた。このスコアは、クエリー配列の長さ（１１６２）の５％以下であるので、本発明の方法によりクエリー配列と、親配列とは、スプライシングの関係にあると判断されることが示された。なお、上述したクエリー配列と親配列とは、スプライス・サイトのドナー・アクセプターは通常のＧＴ−ＡＧのペアであり、本発明においては典型的な実施例であるものの、本発明によりスプライスト・ペアとしてリストされていることが示された。
【００７４】
（実施例２）
同一の親配列を使用し、クエリー配列のスプライスト・アライメントを親配列に対して実行した。ｃＤＮＡライブラリは、２１７０６本の配列があるため、考えられるペアの数は、２１７０６ｘ２１７０５＝４４１７６７００組ある（親配列・子配列の区別があるため）。上述した組み合わせに対して、ハッシュ法による共有部分配列を持つ組を調べるフィルタを適用し、ペアの数を、２８８３８０組まで絞り込みを行った。なお、これを調べるための計算時間は、インターナショナル・ビジネス・マシーンズ・コーポレーション製ＲＳ６４ＩＩＩプロセッサ（４５０ＭＨｚ）を搭載したワークステーションＲＳ−６０００（インターナショナル・ビジネス・マシーンズ・コーポレーション製）を使用して、２０５秒を要した。
【００７５】
この２８８３８０組のペアに対して、本発明により候補を絞り込むと、３７８１２組まで塩基配列絞り込みが行われた第１のクラスタを生成することができた。なお、この計算は２７６５秒かかった（約４４分）。得られた３７８１２組の塩基配列を含む第１のクラスタを使用して、クエリー配列に対するスプライスト・アライメントを実行したところ、スプライスト・アラインメントを得るために７９３９９秒（約２２時間）を要した。この計算の結果、５１４０組のスプライシングの関係にあるペアを列挙することができた。その結果に基づき、ｃＤＮＡライブラリを真核生物のゲノムＤＮＡの異なった領域に対応する１６５３２グループに分類することができた。
【００７６】
（比較例）
比較例として、実施例２と同一の条件を使用し、同一の親配列、同一のクエリー配列を使用し、クエリー配列のスプライスト・アライメントを親配列に対して実行した。ハッシュ法を使用して得られた、２８８３８０組のの塩基配列に対して直接、Ｕｓｕｋａらの方法によりスプライスト・アラインメントを行なったところ、同一の結果を得るために最大で約２００時間の計算が必要であった。本発明によれば、塩基配列のクラスタリングを行うことにより、著しく計算時間を短縮することができることが判明した。
【００７７】
すなわち、本発明によれば、ｃＤＮＡデータベースなどに保持された塩基配列と、保持されたｃＤＮＡからスプライシングにより生成される可能性の高い塩基配列とを関連づけ、クラスタリングを行うことができる、高速で、かつ計算時間およびハードウエア資源の削減を可能とする、クラスタ生成システム、塩基配列のクラスタリングを可能とする方法、および該方法を実行させるためのプログラム、該プログラムを含むコンピュータ可読な記憶媒体を提供することが可能となる。また、ユーザに対して有限の時間で、かつハードウエア資源の制約を緩和することを可能とするクラスタ生成システム、塩基配列のクラスタリングを可能とする方法、および該方法を実行させるためのプログラム、該プログラムを含むコンピュータ可読な記憶媒体が可能となる。
【００７８】
さらに本発明によれば、スプライスト・ペアに関連する塩基配列情報を効率的に提供することを可能とする塩基配列情報提供システムを提供することが可能となる。
【００７９】
これまで、本発明を特定の実施の形態に基づいて説明してきたが、本発明は、上述した特定の実施の形態に限定されるものではなく、前後関係を持って切断される塩基配列の間の近似度があれば、いかなる生物の塩基配列にでも適用することができる。また、本発明においては、スプライス・サイトとしては、ＧＴ−ＡＧペアだけではなく、これまで知られたいかなるペア、または同等の機能を与えるペアであっても適用することができる。
【図面の簡単な説明】
【図１】本発明が適用される塩基配列データベースの構成を示した図。
【図２】本発明のクラスタ生成方法の概略的なフローチャートを示した図。
【図３】本発明における第１のクラスタの生成方法のフローチャートを示した図。
【図４】図３に示した初期化ステップの詳細を示したフローチャート。
【図５】図３に示したフローチャートのステップＳ２８の詳細な処理を示した図。
【図６】図３に示したフローチャートの概略的な疑似コードを示した図。
【図７】本発明が適用される塩基配列の実施の形態を示した図。
【図８】図３に示したクラスタ生成方法により与えられる各変数を反復回数に対して示した図。
【図９】本発明におけるスプライスト・アラインメントの概略的なフローチャートを示した図
【図１０】図９において示した初期化ステップの詳細なフローチャートを示した図。
【図１１】図９のステップＳ７４の処理の詳細なフローチャート。
【図１２】本発明における第２のクラスタを生成するための概略的な疑似コードを示した図。
【図１３】本発明におけるテーブルの概略的な構成と、スコア計算に用いる要素とを示した図。
【図１４】本発明の塩基配列情報提供システムの概略的な実施の形態を示した図。
【図１５】本発明のクラスタ生成を実行するサーバの概略的な構成を示したブロック図。
【図１６】本発明の実施例において使用した塩基配列を示した図。
【図１７】本発明の実施例において使用した塩基配列を示した図（図１６の続き）。
【符号の説明】
１０…塩基配列情報提供システム
１２…サーバ
１４…クライアント
１６…塩基データベース
１８…入力手段
２０…ＣＰＵ
２２…メモリ
２４…記憶装置
２６…通信手段
３０…第１のクラスタ
３２…第２のクラスタ

Claims

塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタを生成するシステムであって、
前記断片塩基配列をクエリー配列として登録するための手段と、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の中途断片編集距離と相違カウンタとを比較して、前記相違カウンタが前記中途断片編集距離以上の場合には、前記クエリー配列の塩基数の判断位置を変更し、変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返すことに応答して前記中途断片編集距離を相違カウンタ＋１の値に設定すると共に前記相違カウンタをデクリメントさせ、前記相違カウンタが前記中途断片編集距離よりも小さいと判断された場合には、前記中途断片編集距離が所定の最大許容値以下であるか否かを判断し、前記中途断片編集距離が前記所定の最大許容値以下であると判断された場合には、前記塩基配列の塩基位置をインクリメントさせて前記インクリメントされた塩基位置が前記塩基配列の塩基数を越えたか否かを判断し、前記中途断片編集距離が前記最大許容値以下で前記塩基配列の塩基数を越えたと判断した場合には、前記最大許容値以下の塩基一致があるとして塩基配列を第１のクラスタとして記憶手段に登録し、前記塩基配列の塩基数以下の塩基判断位置において前記中途断片編集距離が所定の最大許容値を越えるまで前記変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返した場合には、前記クエリー配列と前記塩基配列との間には前記最大許容値以下の塩基一致が無いとして第１のクラスタへの登録を行わない手段と、
前記第１のクラスタから第２のクラスタを生成して記憶手段に記憶させる手段を含み、
該第２のクラスタを生成するための手段は、
前記塩基配列と前記クエリー配列との塩基のマッチングにおいて前記塩基配列および前記クエリー配列について挿入されたギャップの数についてそれぞれ内側のギャップの数および外側のギャップの数を取得し、さらに前記塩基配列に対して定義されるスプライス長を参照して、前記クエリー配列と前記第１のクラスタに含まれる塩基配列との間にスプライス長よりも長いスプライス・サイトについて、前記スプライス・サイトに対して定義されたドナー・サイトおよびアクセプター・サイトを規定し、前記ドナー・サイトの数と前記アクセプター・サイトの数と塩基配列についてスプライス長の存在数とを算出し、前記ドナー・サイトの数と前記アクセプター・サイトの数と、前記スプライス長の存在数と、前記内側のギャップの数および前記外側のギャップの数を使用して、
下記式

で示される値からテーブルを作成し、テーブルのうちの行中でスプライス長だけ前のスコアを使用した比較を行うことにより最小となる前記塩基配列を第２のクラスタとして登録する手段を含む
クラスタ生成システム。
前記スプライス長は、２０〜６０の塩基数とされる、請求項１に記載のクラスタ生成システム。
前記塩基配列は、真核生物のDNA配列および前記真核生物において発現したmRNAまたは前記mRNAの塩基配列から逆転写により得られるcDNA断片配列を含む、
請求項１に記載のクラスタ生成システム。
前記クエリー配列は、DNA断片配列または、または前記真核生物において発現したmRNAまたは前記mRNAから逆転写により得られるcDNA断片配列を含む
請求項１に記載のクラスタ生成システム。
塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタをコンピュータに対して生成させるための方法であって、前記方法は、コンピュータに対して、
前記断片塩基配列をクエリー配列として登録するステップと、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の中途断片編集距離と相違カウンタとを比較して、前記相違カウンタが前記中途断片編集距離以上の場合には、前記クエリー配列の塩基数の判断位置を変更し、変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返すことに応答し前記中途断片編集距離を相違カウンタ＋１の値に設定すると共に前記相違カウンタをデクリメントさせ、前記相違カウンタが前記中途断片編集距離よりも小さいと判断された場合には、前記中途断片編集距離が所定の最大許容値以下であるか否かを判断し、前記中途断片編集距離が前記所定の最大許容値以下であると判断された場合には、前記塩基配列の塩基位置をインクリメントさせて前記インクリメントされた塩基位置が前記塩基配列の塩基数を越えたか否かを判断し、前記中途断片編集距離が前記最大許容値以下で前記塩基配列の塩基数を越えたと判断した場合には、前記最大許容値以下の塩基一致があるとして塩基配列を第１のクラスタとして記憶手段に登録し、前記塩基配列の塩基数以下の塩基判断位置において前記中途断片編集距離が所定の最大許容値を越えるまで前記変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返した場合には、前記クエリー配列と前記塩基配列との間には前記最大許容値以下の塩基一致が無いとして第１のクラスタへの登録を行わないステップと、
前記第１のクラスタから第２のクラスタを生成して記憶手段に記憶させるステップとを実行させ、
該第２のクラスタを生成するステップは、
前記塩基配列と前記クエリー配列との塩基のマッチングにおいて前記塩基配列および前記クエリー配列について挿入されたギャップの数についてそれぞれ内側のギャップの数および外側のギャップの数を取得し、さらに前記塩基配列に対して定義されるスプライス長を参照して、前記クエリー配列と前記第１のクラスタに含まれる塩基配列との間にスプライス長よりも長いスプライス・サイトについて、前記スプライス・サイトに対して定義されたドナー・サイトおよびアクセプター・サイトを規定し、前記ドナー・サイトの数と前記アクセプター・サイトの数と塩基配列についてスプライス長の存在数とを算出し、前記ドナー・サイトの数と前記アクセプター・サイトの数と、前記スプライス長の存在数と、前記内側のギャップの数および前記外側のギャップの数を使用して、
下記式

で示される値からテーブルを作成し、テーブルのうちの行中でスプライス長だけ前のスコアを使用した比較を行うことにより最小となる前記塩基配列を第２のクラスタとして登録する手段を含む、
クラスタ生成方法。
前記スプライス長は、２０〜６０の塩基数とされ、前記塩基配列は、DNA配列およびmRNAの配列から得られるcDNA断片配列を含む、
請求項５に記載のクラスタ生成方法。
塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタを生成する方法をコンピュータ・システムに実行させるためのプログラムが記録されたコンピュータ可読な記録媒体であって、該プログラムは、前記コンピュータ・システムに対して、
前記断片塩基配列をクエリー配列として登録するステップと、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の中途断片編集距離と相違カウンタとを比較して、前記相違カウンタが前記中途断片編集距離以上の場合には、前記クエリー配列の塩基数の判断位置を変更し、変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返すことに応答して前記中途断片編集距離を相違カウンタ＋１の値に設定すると共に前記相違カウンタをデクリメントさせ、前記相違カウンタが前記中途断片編集距離よりも小さいと判断された場合には、前記中途断片編集距離が所定の最大許容値以下であるか否かを判断し、前記中途断片編集距離が前記所定の最大許容値以下であると判断された場合には、前記塩基配列の塩基位置をインクリメントさせて前記インクリメントされた塩基位置が前記塩基配列の塩基数を越えたか否かを判断し、前記中途断片編集距離が前記最大許容値以下で前記塩基配列の塩基数を越えたと判断した場合には、前記最大許容値以下の塩基一致があるとして塩基配列を第１のクラスタとして記憶手段に登録し、前記塩基配列の塩基数以下の塩基判断位置において前記中途断片編集距離が所定の最大許容値を越えるまで前記変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返した場合には、前記クエリー配列と前記塩基配列との間には前記最大許容値以下の塩基一致が無いとして第１のクラスタへの登録を行わないステップと、
前記第１のクラスタから第２のクラスタを生成して記憶手段に記憶させるステップとを実行させ、
該第２のクラスタを生成するステップは、
前記塩基配列と前記クエリー配列との塩基のマッチングにおいて前記塩基配列および前記クエリー配列について挿入されたギャップの数についてそれぞれ内側のギャップの数および外側のギャップの数を取得し、さらに前記塩基配列に対して定義されるスプライス長を参照して、前記クエリー配列と前記第１のクラスタに含まれる塩基配列との間にスプライス長よりも長いスプライス・サイトについて、前記スプライス・サイトに対して定義されたドナー・サイトおよびアクセプター・サイトを規定し、前記ドナー・サイトの数と前記アクセプター・サイトの数と塩基配列についてスプライス長の存在数とを算出し、前記ドナー・サイトの数と前記アクセプター・サイトの数と、前記スプライス長の存在数と、前記内側のギャップの数および前記外側のギャップの数を使用して、
下記式

で示される値からテーブルを作成し、テーブルのうちの行中でスプライス長だけ前のスコアを使用した比較を行うことにより最小となる前記塩基配列を第２のクラスタとして登録する手段を含む
プログラムを記録したコンピュータ可読な記憶媒体。
前記スプライス長は、２０〜６０の塩基数とされ、前記塩基配列および前記クエリー配列は、真核生物のDNA配列および前記真核生物において発現したmRNAまたは前記mRNAの塩基配列から逆転写により得られるcDNA断片配列を含む、
請求項７に記載の記録媒体。
塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタを生成する方法をコンピュータ・システムに実行させるためのプログラムであって、該プログラムは、前記コンピュータ・システムに対して、
前記断片塩基配列をクエリー配列として登録するステップと、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の中途断片編集距離と相違カウンタとを比較して、前記相違カウンタが前記中途断片編集距離以上の場合には、前記クエリー配列の塩基数の判断位置を変更し、変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返すことに応答して前記中途断片編集距離を相違カウンタ＋１の値に設定すると共に前記相違カウンタをデクリメントさせ、前記相違カウンタが前記中途断片編集距離よりも小さいと判断された場合には、前記中途断片編集距離が所定の最大許容値以下であるか否かを判断し、前記中途断片編集距離が前記所定の最大許容値以下であると判断された場合には、前記塩基配列の塩基位置をインクリメントさせて前記インクリメントされた塩基位置が前記塩基配列の塩基数を越えたか否かを判断し、前記中途断片編集距離が前記最大許容値以下で前記塩基配列の塩基数を越えたと判断した場合には、前記最大許容値以下の塩基一致があるとして塩基配列を第１のクラスタとして記憶手段に登録し、前記塩基配列の塩基数以下の塩基判断位置において前記中途断片編集距離が所定の最大許容値を越えるまで前記変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返した場合には、前記クエリー配列と前記塩基配列との間には前記最大許容値以下の塩基一致が無いとして第１のクラスタへの登録を行わないステップと、
前記第１のクラスタから第２のクラスタを生成して記憶手段に記憶させるステップとを実行させ、
該第２のクラスタを生成するステップは、
前記塩基配列と前記クエリー配列との塩基のマッチングにおいて前記塩基配列および前記クエリー配列について挿入されたギャップの数についてそれぞれ内側のギャップの数および外側のギャップの数を取得し、さらに前記塩基配列に対して定義されるスプライス長を参照して、前記クエリー配列と前記第１のクラスタに含まれる塩基配列との間にスプライス長よりも長いスプライス・サイトについて、前記スプライス・サイトに対して定義されたドナー・サイトおよびアクセプター・サイトを規定し、前記ドナー・サイトの数と前記アクセプター・サイトの数と塩基配列についてスプライス長の存在数とを算出し、前記ドナー・サイトの数と前記アクセプター・サイトの数と、前記スプライス長の存在数と、前記内側のギャップの数および前記外側のギャップの数を使用して、
下記式

で示される値からテーブルを作成し、テーブルのうちの行中でスプライス長だけ前のスコアを使用した比較を行うことにより最小となる前記塩基配列を第２のクラスタとして登録する手段を含む
コンピュータ実行可能なプログラム。
前記スプライス長は、２０〜６０の塩基数とされ、前記塩基配列および前記クエリー配列は、真核生物のDNA配列および前記真核生物において発現したmRNAまたは前記mRNAの塩基配列から逆転写により得られるcDNA断片配列を含む、
請求項９に記載のプログラム。
塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタの情報を提供するためのシステムであって、
ネットワークに接続され、前記ネットワークを介してクエリー配列を受信するサーバと、
塩基配列を含むデータベースとを含み、
前記サーバは、
前記断片塩基配列をクエリー配列として登録するための手段と、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の中途断片編集距離と相違カウンタとを比較して、前記相違カウンタが前記中途断片編集距離以上の場合には、前記クエリー配列の塩基数の判断位置を変更し、変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返すことに応答して前記中途断片編集距離を相違カウンタ＋１の値に設定すると共に前記相違カウンタをデクリメントさせ、前記相違カウンタが前記中途断片編集距離よりも小さいと判断された場合には、前記中途断片編集距離が所定の最大許容値以下であるか否かを判断し、前記中途断片編集距離が前記所定の最大許容値以下であると判断された場合には、前記塩基配列の塩基位置をインクリメントさせて前記インクリメントされた塩基位置が前記塩基配列の塩基数を越えたか否かを判断し、前記中途断片編集距離が前記最大許容値以下で前記塩基配列の塩基数を越えたと判断した場合には、前記最大許容値以下の塩基一致があるとして塩基配列を第１のクラスタとして記憶手段に登録し、前記塩基配列の塩基数以下の塩基判断位置において前記中途断片編集距離が所定の最大許容値を越えるまで前記変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返した場合には、前記クエリー配列と前記塩基配列との間には前記最大許容値以下の塩基一致が無いとして第１のクラスタへの登録を行わない手段と、
前記第１のクラスタから第２のクラスタを生成して記憶手段に記憶させる手段を含み、
該第２のクラスタを生成するための手段は、
前記塩基配列と前記クエリー配列との塩基のマッチングにおいて前記塩基配列および前記クエリー配列について挿入されたギャップの数についてそれぞれ内側のギャップの数および外側のギャップの数を取得し、さらに前記塩基配列に対して定義されるスプライス長を参照して、前記クエリー配列と前記第１のクラスタに含まれる塩基配列との間にスプライス長よりも長いスプライス・サイトについて、前記スプライス・サイトに対して定義されたドナー・サイトおよびアクセプター・サイトを規定し、前記ドナー・サイトの数と前記アクセプター・サイトの数と塩基配列についてスプライス長の存在数とを算出し、前記ドナー・サイトの数と前記アクセプター・サイトの数と、前記スプライス長の存在数と、前記内側のギャップの数および前記外側のギャップの数を使用して、
下記式

で示される値からテーブルを作成し、テーブルのうちの行中でスプライス長だけ前のスコアを使用した比較を行うことにより最小となる前記塩基配列を第２のクラスタとして登録する手段を含む
塩基配列情報提供システム。
前記塩基配列および前記クエリー配列は、 DNA 断片配列または、前記真核生物において発現した mRNA または前記 mRNA から逆転写により得られる cDNA 断片配列を含む
請求項１１に記載の塩基配列情報提供システム。