JP2005284595A

JP2005284595A - Ｒｎａ配列情報処理方法、プログラムおよび装置

Info

Publication number: JP2005284595A
Application number: JP2004096140A
Authority: JP
Inventors: Kiyoshi Asai; 潔浅井
Original assignee: Individual
Current assignee: Individual
Priority date: 2004-03-29
Filing date: 2004-03-29
Publication date: 2005-10-13
Also published as: WO2005093632A1

Abstract

【課題】元のＲＮＡ配列の２次構造を直接知ることなく、２次構造に関連したＲＮＡ配列の比較を好適に行う技術を提供する。
【解決手段】ＲＮＡ配列情報処理方法は、配列生成ステップと配列比較ステップを含む。配列生成ステップは、ＲＮＡ配列またはＲＮＡを含む生物学的配列情報から、ＲＮＡ２次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する。配列比較ステップは、複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、複数のステム候補配列を比較して、複数のステム候補配列の類似度を算出する。
【選択図】図１５

Description

本発明は、ＲＮＡ配列を比較する技術に関し、特に、２次構造を比較する技術に関する。

ゲノム配列の解読が進み、タンパク質コード遺伝子の同定が峠を越えつつあり、そして、ゲノム上の機能ＲＮＡを効率的に見出すことが緊急の課題となっている。そのためには、バイオインフォマティクス技術を適用して、複数のＲＮＡ配列をコンピュータを用いて比較する技術が必要である。ＲＮＡ配列の比較および検索については、下記のような従来技術が知られている。

（１）塩基配列の１次構造の類似性のみに基づいて配列を比較する技術においては、動的計画法、ハッシュ、有限状態オートマトンなどが用いられており、例えば、ブラスト（ＢＬＡＳＴ）が実現されている（非特許文献１参照）。しかし、２次構造を考慮しないため、ＲＮＡ配列に対しては十分な性能を得ることができない。

（２）ＲＮＡ配列の２次構造を与えた上で、その２次構造の制約を考慮して配列を比較する技術については、確率文脈自由文法に基づく共分散モデルが実現されている（非特許文献２参照）。しかし、２次構造を予め与え、その２次構造をもつ多数の配列を用いて確率モデルを構築する必要がある。そのため、単一の検索配列をもとに検索を行うことはできない。

（３）配列の２次構造を考慮しつつも、２次構造を一意に定めないで配列を比較する技術については、確率文脈自由文法の周辺化カーネルを用いて配列を多次元の特徴量ベクトルに変換する技術が実現されている（非特許文献３参照）。しかし、２本の配列の部分配列同士の直接の対応関係を考慮しないので、２次構造の類似性が低い配列も類似配列として扱ってしまう欠点がある。
Altschul, S., Gish, W., Miller, W., Myers, E. and Lipman, J. (1990): Basic local alignment serach tool, Journal of Molecular Biology, 215:pp.403--410. Eddy, S.R. and Durbin, R. (1994) RNA sequence analysis using covariance models. Nucleic Acid Research 22:2079-2088 Kin, T., Tsuda, K. and Asai, K. (2002): Marginalized Kernels for RNA Sequence Data Analysis, Genome Informatics, 13,pp.112--122

上述のように、ゲノム上の機能ＲＮＡを効率的に見出すことが求められている。そのためには、候補ＲＮＡ配列と類似の配列をゲノム上から検索する技術が必要である。また、ゲノム上に存在する未知の機能ＲＮＡを網羅的に抽出することも重要である。

２次構造が不明のＲＮＡ配列と類似の配列を検索しようとする場合、配列の１次構造だけでなく、２次構造の類似性も総合して比較しないと、意味のある検索結果が得られないことがある。また、ゲノム配列から未知の機能ＲＮＡ配列の候補を網羅的に検索するためには、ＲＮＡ配列の１次構造と２次構造を総合して類似の配列を抽出する必要がある。どちらの場合も、配列の２次構造を知ることなく、２次構造を考慮した配列の比較を行うことが求められる。しかし、上述の従来の技術は、このような要求に応えることができなかった。

本発明は上記課題に鑑みてなされたものであり、その目的は、ＲＮＡ配列の２次構造と配列類似性を総合的に比較する新たな技術を提供することにある。

本発明のＲＮＡ配列情報処理方法は、ＲＮＡ配列またはＲＮＡを含む生物学的配列情報から、ＲＮＡ２次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成ステップと、複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較ステップと、を含む。好ましくは、各ステム候補の情報は、配列上でのステム候補の位置、ステム候補自身の配列、相補ステム候補までの距離を含む。

本発明によれば、ＲＮＡ配列または生物学的配列情報から上述のステム候補配列が生成される。ステム候補配列は、ステム候補を要素とする配列情報である。そして、本発明は、ステム候補配列同士を動的計画法によって比較する。動的計画法の比較単位としては、通常の塩基またはアミノ酸の代わりにステム候補を用いる。動的計画法により、複数のステム候補配列を比較でき、類似度を求められる。このようにして、ＲＮＡ２次構造を予め知ることなく、２次構造を考慮した比較処理ができる。

本発明において、ＲＮＡを含む生物学的情報は、例えば、ゲノム情報である。本発明の範囲内で、２本のＲＮＡ配列が比較されてもよい。また、ＲＮＡ配列とゲノム配列が比較されてもよい。さらに、２本のゲノム配列が比較されてもよく、この場合、同じゲノム配列が比較されてもよい（すなわち、複数のステム候補配列が同じであってもよい）。

本発明では、２本のＲＮＡ配列の比較することによって、あるＲＮＡ配列と類似のＲＮＡ配列を検索できる。検索のためには、検索対象のＲＮＡ配列と、データベースに格納されているＲＮＡ配列が比較されればよい。また、同じゲノム配列の比較により、ゲノム配列上の複数の類似するＲＮＡ配列を網羅的に抽出できる。

好ましくは、前記配列生成ステップは、固定長のステム候補の配列を生成する。好ましくは、前記配列生成ステップは、ステム候補になり得る塩基配列に関するハッシュテーブルを生成し、前記ハッシュテーブルを参照して、ステム候補の位置、配列および距離の情報を抽出する。これにより、ステム候補を効率よく抽出できる。

好ましくは、前記配列比較ステップは、ステム候補同士の類似度のスコアを算出するためのステム候補類似度基準に従って算出されるステム候補同士の類似度に基づいて前記複数のステム候補配列のアライメント処理を行い、アライメントされた前記複数のステム候補配列の類似度を求める。この態様では、通常のアミノ酸等の類似度のスコアの代わりに、ステム候補同士の類似度のスコアが求められる。

好ましくは、前記配列比較ステップは、ステム候補同士の類似度のスコアを、ステム候補自身の配列の類似度スコアと、相補ステム候補までの距離の相違を罰するペナルティスコアとに基づいて計算する。

好ましくは、前記配列比較ステップは、ステム候補の位置同士の距離、ステム候補自身の配列の類似度および相補ステム候補までの距離に基づいた動的計画法によって複数のステム候補配列のアライメントを行い、複数のステム候補配列の類似度を計算する。

好ましくは、前記配列比較ステップは、新たに与えられたＲＮＡ配列または生物学的配列情報から前記配列生成ステップにより得られたステム候補配列を、データベースに記憶されている過去に生成されたステム候補配列と比較する。これにより、データベースを使った検索処理を行える。

好ましくは、本発明の方法は、複数のＲＮＡ配列の大域アライメントを行う。また好ましくは、本発明の方法は、ＲＮＡ配列を含む塩基配列を対象として、局所アライメントを行う。

本発明の別の態様はＲＮＡ配列情報処理プログラムであり、このプログラムは、ＲＮＡ配列またはＲＮＡを含む生物学的配列情報から、ＲＮＡ２次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成ステップと、複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較ステップと、をコンピュータに実行させる。

本発明の別の態様は、ＲＮＡ配列情報処理装置であり、この装置は、ＲＮＡ配列またはＲＮＡを含む生物学的配列情報を入力する手段と、入力されたＲＮＡ配列またはＲＮＡを含む生物学的配列情報から、ＲＮＡ２次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成手段と、生成されたステム候補配列情報を記憶する配列記憶手段と、配列記憶手段から複数のステム候補配列を読み出して、前記複数のステム候補配列に対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較手段と、を含む。

本発明の別の態様は、ＲＮＡ配列検索装置であり、この装置は、検索対象のＲＮＡ配列から、ＲＮＡ２次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成される検索対象のステム候補配列情報を生成する配列生成手段と、多数のＲＮＡ配列からそれぞれ生成された多数のステム候補配列情報を記憶する配列データベースと、検索対象のステム候補配列と前記配列データベースに記憶されたステム候補配列に対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記検索対象のステム候補配列と類似するステム候補配列を前記配列データベースから抽出する検索手段と、を含む。

本発明の別の態様は、ＲＮＡ配列検索プログラムであり、このプログラムは、検索対象のＲＮＡ配列から、ＲＮＡ２次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成される検索対象のステム候補配列情報を生成するステップと、前記検索対象のステム候補配列と配列データベースに記憶されているステム候補配列情報とに対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記検索対象のステム候補配列と類似するステム候補配列を前記配列データベースから抽出するステップと、をコンピュータに実行させる。

上述のように、本発明は、ＲＮＡ配列中のステム候補に着目し、ステム候補配列を生成して、生成したステム候補配列に動的計画法を適用している。これにより、元のＲＮＡ配列の２次構造を直接知ることなく、２次構造の類似性と配列類似性に基づいた配列比較ができる。そして、比較結果を利用して、機能ＲＮＡの機能に基づく分類、検索、抽出が可能になる。

以下、本発明の実施の形態を図面を参照して説明する。

まず、本発明のバイオインフォマティクス技術を説明する前に、ＲＮＡ配列の２次構造を説明する。

図１を参照すると、周知のように、ＤＮＡおよびＲＮＡを構成する塩基は、ａ、ｔ（ｕ）、ｃ、ｇで表される。そして、ａとｔが相補塩基対を作り、ｃとｇが相補塩基対を作る。ＤＮＡでは、逆相補配列が２重らせんを形成している。これに対して、構造ＲＮＡでは、１本鎖が折り畳まれる。そして、相補塩基対により２次構造が作られる。

図２は、局所的な２次構造の例を示している。図示のように、１本鎖ＲＮＡ上には、互いに相補的な２つの領域が存在している。２箇所の相補的な領域が結合し、これにより２次構造が作られる。２次構造を作る相補的な領域は、ステムと呼ばれている。

図３は、より大きな範囲の２次構造の例を示している。図示のように、１つのＲＮＡ配列に複数のステムが存在している。

図４は、ＲＮＡ配列の比較において２次構造を考慮することの必要性を示している。図４において、１次構造を見ると、配列３が、配列１と部分的に同じであり、また、配列２と部分的に同じである。配列１と配列２は全く異なっている。

しかし、２次構造に関しては、配列１と配列２では、同じ領域がステムである。したがって、配列１と配列２は同じ２次構造をもつ。これに対して、配列３は、ステムをもたず、２次構造を作らない。したがって、２次構造については、配列１と配列２が類似している。ＲＮＡ配列は２次構造を保存するように進化することが知られているので、図４の例でも、２次構造の類似が重要な意味を持ち得る。したがって、ＲＮＡ配列の比較においては、２次構造を比較することが必要である。

本実施の形態は、ＲＮＡ配列の２次構造を比較する方法を提供する。この技術は、バイオインフォマティクス技術に属しており、膨大な配列情報を処理するために、専らコンピュータを使って配列情報が処理される。本実施の形態の方法は、大きく分けて、[１] ステム候補配列の生成処理と、[２] ステム候補配列の比較処理とで構成される。

ここで、本実施の形態に係る配列情報処理方法の内容を説明する前に、本実施の形態の方法を実現するコンピュータについて説明しておく。

図５のコンピュータ１において、プログラム実行部３は、ＣＰＵ等のプロセッサで構成される。プログラム記憶部５、元配列記憶部７およびステム候補配列記憶部９は、メモリで構成される。また、コンピュータ１には、ハードディスク等の外部記憶装置１１が設けられ、さらに、入力装置１３、出力装置１５および記録媒体装着部１７などが設けられている。

プログラム記憶部５は、本実施の形態の方法を実現するためのプログラムを記憶しており、特に、ステム候補配列生成プログラム（配列生成プログラム）およびステム候補配列比較関連プログラム（比較関連プログラム）を記憶する。これらプログラムは、外部記憶装置１１から読み出され、そして、プログラム実行部３により実行される。

配列生成プログラムは、元配列から本実施の形態の方法に従ってステム候補配列を生成するプログラムである。また、比較関連プログラムは、複数のステム候補配列を本実施の形態の方法に従って比較するプログラムである。

元配列は、ＲＮＡ配列またはゲノム配列である。元配列は、入力部１７、外部記憶装置１１または記録媒体装着部１７などを用いて取得され、メモリの元配列記憶部７に記憶される。そして、元配列がプログラム実行部３により配列生成プログラムに従って処理される。生成されたステム候補配列は、ステム候補配列記憶部９に記憶される。さらに、ステム候補配列がプログラム実行部３により比較関連プログラムに従って処理される。比較関連プログラムの処理結果は、出力装置１５から出力される。

その他、図５において、メモリは、プログラム実行部３による処理の作業エリアとして機能する。例えば、後述するハッシュテーブルが書き込まれ、また、抽出されたステム候補が書き込まれる。さらに、ステム候補の並替えがメモリ上で行われる。また、アライメントなどの処理がメモリ上で行われる。また、ステム候補配列などの情報は、適宜、メモリから外部記憶装置１１または記録媒体に格納され、また、それらから読み出されてよい。

なお、元配列は、上述のようにＲＮＡ配列またはゲノム配列である。本実施の形態では、例えば、２本のＲＮＡが比較される。その他に、ＲＮＡとゲノムが比較されてもよい。さらに、２本のゲノムが比較されてもよい。このとき、後述するように、同じＲＮＡが比較されてもよく、また、同じゲノムが比較されてもよい。いずれの場合も、同じ原理で、ＲＮＡ２次構造の比較ができる。以下の説明では、主として２本のＲＮＡの比較する場合について説明する。そして、必要に応じて、他の比較についても説明する。

[１] ステム候補配列の生成処理
前述したように、１本鎖ＲＮＡ上において、結合している１対のステム領域では、相補塩基対が連続している。したがって、相補塩基対が連続する２つの領域は、ステム領域である可能性があり、すなわち、ステム領域の候補である。本実施の形態では、このようなステム領域の候補を、ステム候補（Stem Candidate）またはＳＣと呼ぶ。

図６は、ステム候補を視覚的に表している。まず、図６の左側は、通常の類似性のプロットを示している。２本の配列が横方向および縦方向に並べられている。そして、２本の配列の塩基が一致する場所がプロットされている。図示のように、一致領域では、右下がりのライン（４５度）が描かれる。

一方、図６の右側では、相補塩基対に対応する場所がプロットされている。相補塩基対が連続するとき、左下がりのライン（４５度）が描かれる。このラインに対応する部分配列が、ステム候補である。

図７は、１対のステム候補を表している。本実施の形態では、各ステム候補は、下記の３要素で構成される。
（１）配列上でのステム候補の位置
（２）ステム候補自身の配列
（３）相補ステム候補までの距離

本実施の形態では、ステム候補の位置は、５′末端の位置で表される。また、相補ステム候補は、１つのステム候補にとって結合相手になるステム候補である。そして、相補ステム候補までの距離は、ステム候補の間に挟まれた塩基の数である。相補ステムが５′末端側にある場合、距離は負になる。

ステム候補配列生成ステップでは、１本鎖ＲＮＡからすべてのステム候補が抽出される。そして、ステム候補が配列される。ステム候補の配列をステム候補配列（Stem Candidate Sequence）またはＳＣＳと呼ぶ。

図８は、ステム候補配列の例を示している。図示のように、ステム候補配列は、ステム候補で構成されていり、すなわち、ステム候補はステム候補配列の１要素である。そして、上記の位置、配列、距離がステム候補の３要素である。

また、図８に示されるように、本実施の形態では、ステム候補の長さが固定されている。図８の例では、ステム候補の長さは、４塩基である。

図９〜図１１は、部分的なステム候補配列の幾つかの例を示している。図９を参照すると、本実施の形態では、ステム候補の長さが固定されているので、固定長より長い範囲で相補対が連続する場合、少しずつずれた複数のステム候補が抽出される。すなわち、図９の例では、５つの相補塩基対が連続している。この場合、ＳＣ１とＳＣ２は、１塩基だけずれており、ＳＣ３とＳＣ４も１塩基だけずれている。そして、ＳＣ１とＳＣ４がペアを作り、ＳＣ２とＳＣ３がペアを作る。ＳＣＳでは、ＳＣ１、ＳＣ２、ＳＣ３、ＳＣ４が順に配列される。

また、図１０の例では、ＳＣ１とＳＣ６がペアを作り、ＳＣ２とＳＣ３がペアを作り、ＳＣ４とＳＣ５がペアを作っている。仮に全候補が実際にステムであったとすると、図１０に示すような２次構造が作られる。このような２次構造は、ＳＣＳでは、ＳＣ１〜ＳＣ６の配列によって表現される。

さらに、図１１の例では、ＲＮＡ配列の同じ場所が、ＳＣ１であり、かつ、ＳＣ２である。そして、ＳＣ１はＳＣ３とペアを作り、ＳＣ２はＳＣ４とペアをつくる。このような場合、ＳＣＳでは、ＳＣ１、ＳＣ２、ＳＣ３、ＳＣ４が配列される。ＳＣ１とＳＣ２では、相補ステム候補との距離が異なる。図８において、ＳＣ＃０、ＳＣ＃１、ＳＣ＃４、ＳＣ＃１０は、図１１の例と対応している。

図１２は、ステム候補配列を生成するプログラムの例を示している。このプログラムは、図５を用いて説明したように、コンピュータのプロセッサにより、メモリを用いて実行される。

図１２においては、ＲＮＡ配列からハッシュテーブルが生成される（Ｓ１０）。本実施の形態では、ステム候補の長さが４塩基である。４塩基配列の種類の数は、２５６である。各々の４塩基配列に関して、ＲＮＡ配列が整理される。例えば、４塩基配列「ａｔｃｇ」がＲＮＡ配列から抽出される。そして、「ａｔｃｇ」の位置のテーブルが作られる。このようにして、ＲＮＡ配列からハッシュテーブルが作られる。

次に、ハッシュテーブルからステム候補が抽出される（Ｓ１２）。ハッシュテーブルは、すべての４塩基配列の情報を網羅している。そこで、ステム候補になるべき４塩基配列のペアがハッシュテーブルから抽出される。例えば、「ａｔｃｇ」と「ｃｇａｔ」のすべてのペアが、ステム候補のペアとして抽出される。次に、抽出されたステム候補が配列される（Ｓ１４）。各ステム候補には、上述した位置、配列、距離の３要素が与えられている。以上のようにして、ステム候補配列情報が得られる。

[２] ステム候補配列の比較処理
次に、複数のステム候補配列の比較処理について説明する。本実施の形態では、下記のように、複数のステム候補に動的計画法が適用される。このとき、ステム候補が比較単位になる。そして、複数のステム候補配列が比較され、複数のステム候補配列の類似度が算出される。また、複数のステム候補配列で共通するステム候補が選定される。

図１３は、従来の通常の動的計画法を示している。図１３では、２本のアミノ酸配列が比較されている。動的計画法では、周知のように、２本の配列のアライメントが行われる。これにより、ギャップおよび置換が考慮される。図１３では、経路が右に進むとき、縦方向の配列にギャップが挿入される。また、経路が下に進むとき、横方向の配列にギャップが挿入される。そして、アライメントが行われた状態での２本の配列の類似度が算出される。

図１４では、本実施の形態の動的計画法が、従来の動的計画法と比較されている。従来は、比較対象の要素が、アミノ酸である。要素単位で類似度のスコアが算出される。そして、要素間のスコアに基づき、配列間のアライメントが行われ、配列間の類似度のスコアが計算される。

これに対して、本実施の形態の動的計画法では、比較対象の要素が、ステム候補である。２つのステム候補の類似度スコアは、後述のようにして求められる。このスコアが、動的計画法における要素間のスコアになる。要素間のスコアに基づき、配列間のアライメントが行われ、配列間の類似度のスコアが計算される。

上記の説明から明らかなように、本実施の形態では、従来の動的計画法の原理をステム候補配列に適用する。そして、比較単位を塩基またはアミノ酸からステム候補配列に置き換える。これにより、複数のステム候補配列の比較ができる。図１５は、ステム候補配列のアライメントの例を示している。以下、本実施の形態の動的計画法のアルゴリズムを詳細に説明する。

（１）ステム候補（SC）とその類似性スコア
（１−１）SC ( Stem Candidate )
既に説明したように、ステム領域の候補で、次の3個の要素からなる。
position: ステム候補配列の５′の位置
subseq: ステム候補配列の文字列
distance: ステム候補配列が相補対を形成する相手配列との間に挟まれた塩基数
相手が３′側にあるとき正、５′側にあるとき負となる
x をSCとするとき、上の３つの要素を、
x.position, x.subseq, x.distance
のようにあらわす。

（１−２）SC同士のスコア s(x, y)
s(x, y) = ss(x.subseq, y.subseq) − sd(x.distance, y.distance)
ss(a, b) : ステム候補配列文字列同士の類似度スコア
sd(a, b): ステム候補相補対間の距離の違いを罰するためのペナルティ

（１−３）ss(a, b) ステム候補配列文字列同士の類似度スコア
文字列同士の類似度であれば、どのようなスコアも用いることができる。文字列同士を置換行列を用いてアラインメントし、アラインメントのスコアを用いることもできるし、スタッキングエネルギーの違いを考慮したスコアを導入することもできる。

例えば、固定長の同じ長さの文字列に置換行列を用いる場合は、スコアは下記のように表される。
a=a1a2…am, b=b1b2…bn とすると、ss(a, b)は以下のようになる。
ss(a, b) = Σi=1,…,k T(ai, bi)
ただし、 T(p, q) は文字p と q に関する置換行列の値である。

（１−４）sd(a, b) ステム候補相補対間の距離の違いを罰するためのペナルティ
距離の差 a−b の関数を用いるのが自然である。a, b が大きければ、距離の差も大きくても許容できることを考慮すると、｜a−b｜／√(ab) のような値を用いることもできる。ただし、a、bの符号が異なると意味が全く違ってしまうから、以下のようにすればよい。
sd(a, b) = −∞ if ab＜0
sd(a, b) = ｜a−b｜／√(ab)

（２）ステム候補配列（Stem Candidate Sequence：SCS）の動的計画法によるアラインメント
（２−１）ステム候補配列 (SCS)
既に説明したように、ＳＣＳは、ＳＣの配列である。

（２−２）SCSのＤＰ行列の漸化式
2本のSCS、x = x1x2…xm と y = y1y2…yn
に対するアラインメントでは、xとyの要素であるSC同士の対応を順番に取っていく。このとき、xｉとyｊが対応した場合の最大スコアに対応するDP行列 F(i, j)は、以下の漸化式を満たす。

ここで、F(ｉ−α, ｊ−β)は、x (SCS)においてα個手前のＳＣ、y (SCS)においてβ個手前のＳＣに対応するＤＰ行列の値であり、ＳＣＳ同士のアラインメントにおいて対応するひとつ手前のＳＣの組（ｘのＳＣであるxｉ−αとｙのＳＣであるｙｊ−β）に対する最大スコアである。一定値δi、εj以下のα、βのうち右辺の[ ] 内を最大化するα、βを取ることにより、xi, yj に対応するＤＰ行列の値 F(i, j) を求めることができる。

また、s(a, b) は（１−２）で定義されたSC同士のスコアである。
δｉは xｉ.position − xｉ−ｒ.position が一定値Ｋ以下となる最大のｒであり、εｊはyｊ.position−yｊ−ｒ.positionが一定値Ｋ以下となる最大のｒであり、この2つは2本のＳＣＳ、x、y、に対してあらかじめ計算しておく。
γ(a, b) はDPで対応する連続2個のSCの位置の差のxでの値（a）とyでの値（b）の違いに対するペナルティーで、たとえば、
γ(a, b) = Cγ(a−b)
などと置く。Cγは正規化のための定数である。

（２−３）ＳＣＳの大域アラインメントアルゴリズム
2本のSCS、x = x1x2…xm と y = y1y2…yn に対するアラインメントアルゴリズムでは、以下の初期条件
F(0，0) = 0, F(i, 0) = −γ(xi.position, 0), F(0, j) = −γ(0, yj.position)
から（式１）の漸化式にしたがってＤＰ行列を再帰的に計算する。

ただし、終了条件を整えるため、xm+1, yn+1とそのスコアを以下のように定義する。
xm+1.position = xm.position, yn+1.position=yn.position
s(xm+1, yn+1) = 0

F(m+1, n+1)が2本のＳＣＳ、x, yに対する最適アラインメントのスコアとなり、元の2本のＲＮＡ配列の類似性のスコアとなる。

（２−４）トレースバックポインタと大域アラインメントの復元
最適アラインメント自体を求めるためには、通常の動的計画法と同様に、トレースバックポインタ p(i, j)を定義する。（式１）の右辺のmaxで最大を与えるα、βの値をα'、β'とするとき、p(i, j) = (i−α', j−β') と置く。

(m+1, n+1)から順にトレースバックポインタをたどっていくことにより、対応するすべてのＳＣの組を求めることができる。

（２−５）ＳＣＳの局所アラインメントアルゴリズム
個別のＲＮＡ候補を用いて、ゲノム配列中の類似ＲＮＡを検索する場合、ＳＣＳの局所アライメントが行われる。また、ゲノム同士を比較する場合も、ＳＣＳの局所アライメントが行われる。さらに、ゲノム全体で繰り返し現れる類似ＲＮＡ候補をリストアップするためにも、ＳＣＳの局所アライメントが行われる。この場合、１つのゲノムから作った同じＳＣＳが比較されればよい。

ＳＣＳの局所アラインメントを行うときは、通常の局所アラインメントと同様に、ＤＰ行列のスコアが負の部分を０（ゼロ）で置き換える。
すなわち、（式１）の右辺が負のとき、F(i, j)の値を０（ゼロ）とする。

また、初期条件は
F(0，0) = 0, F(i, 0) = 0, F(0, j) = 0
とする。

トレースバックは、(m+1, n+1)だけではなく、ＤＰ行列のあらゆる場所から行うことが可能である。ＤＰ行列中のスコアの高い部分から順番に候補をＮ個選び、各候補はＤＰ行列の値が０（ゼロ）となるまでトレースバックすれば、スコアの良いものから順にＮ個の局所アラインメントを得ることができる。

以上に、動的計画法によるＳＣＳの比較処理について説明した。実際に比較処理を実行するには、上記のアルゴリズムに対応するプログラムが用意される。このプログラムは、従来のアミノ酸配列の動的計画法のプログラムを応用したプログラムでよい。ただし、比較対象の要素が、アミノ酸からＳＣに変換される。要素間のスコアの算出方法も変更される。その他、上記のアルゴリズムに対応するようにプログラムが構成される。このプログラムがコンピュータにインストールされ、実行され、これにより本実施の形態のＲＮＡ情報処理方法が実現される。

次に、本実施の形態のＲＮＡ情報処理の全体構成について説明する。ＲＮＡ情報処理は、既に説明したように、上記のステム候補配列の生成処理と、ステム候補配列の比較処理で構成される。ＲＮＡ情報処理は、典型的には、下記の４つのパターンで利用される。

（１）ＲＮＡ配列同士の比較
各々のＲＮＡ配列からＳＣＳが生成される。そして、２本のＳＣＳが比較される。この場合、大域アライメントが適用される。このパターンは、後述するように、データベースを使ったＲＮＡの検索に利用できる。

（２）ＲＮＡ配列とゲノム配列の比較
ＲＮＡからＳＣＳが生成され、また、ゲノムからＳＣＳが生成される。そして、２本のＳＣＳが比較される。この場合、局所アライメントが適用される。ゲノム中から類似するＲＮＡが抽出される。

（３）ゲノム配列同士の比較（ｉ）
各々のゲノム配列からＳＣＳが生成される。そして、２本のＳＣＳが比較される。この場合も、局所アライメントが適用される。

（４）ゲノム配列同士の比較（ｉｉ）
上記の（３）の応用例として、１本のゲノム配列からＳＣＳが生成される。比較処理では、比較対象の２本のＳＣＳとして、同じＳＣＳが用いられる。ここでも局所アライメントが適用される。これにより、ゲノム自身の中で類似する部分が抽出される。したがって、一連のゲノム上から、２次構造に共通性がある複数のＲＮＡ候補配列を網羅的に抽出できる。

次に、本実施の形態のＲＮＡ配列情報処理装置について説明する。ＲＮＡ情報処理装置は、上述の情報処理方法を実行するコンピュータであり、ハードウエア的な構成は、図５を参照して既に説明した通りである。

図１６は、ＲＮＡ配列情報処理装置の機能ブロック図である。ＲＮＡ情報処理装置１０１は、入力部１０３、ＳＣＳ生成部１０５、ＳＣＳ記憶部１０７、１０９、ＳＣＳ比較部１１１および比較結果出力部１１３を備えている。入力部１０３は、比較対象の２本のＲＮＡ配列の情報を入力する機能を有する。

ＳＣＳ生成部１０５は、図５におけるプログラム実行部３がプログラム記憶部５に記憶されたＳＣＳ生成プログラムを実行することで実現される。ＳＣＳ生成部１０５は、２本のＲＮＡ配列の各々からＳＣＳを生成する。前述したように、ＲＮＡ配列からハッシュテーブルが生成され、ハッシュテーブルからＳＣが抽出され、抽出されたＳＣが整列され、これによりＳＣＳが得られる。２本のＳＣＳは、それぞれ、ＳＣＳ記憶部１０７、１０９に格納される。

ＳＣＳ比較部１１１は、図５におけるプログラム実行部３がプログラム記憶部５に記憶されたＳＣＳ比較関連プログラムを実行することで実現される。ＳＣＳ比較部１１１は、ＳＣＳ記憶部１０７、１０９に記憶されている２本のＳＣＳを比較して、類似度を算出する。ここでは、上述したＳＣＳの動的計画法が適用され、アライメントが行われ、類似度のスコアが算出される。また、配列全体同士を比較する大域アライメントが行われる。また、トレースバック処理が行われて、最適アライメントが求められる。さらに、２本のＳＣＳで共通するＳＣが選定される。

比較結果出力部１１３は、ＳＣＳ比較部１１１によって求められた情報を出力する。すなわち、類似度のスコア、トレースバックの結果、および共通のＳＣの情報が出力される。

ＲＮＡ情報処理装置１０１は、通常のパーソナルコンピュータで実現されてもよい。この場合、上述のＲＮＡ情報処理に対応するプログラムがコンピュータにインストールされ、ＣＰＵにより実行される。入力部１０３は、キーボード等により構成されてもよい。また、入力部３は、記録媒体装着部で構成されてもよい。この場合、記録媒体からＲＮＡ配列が読み込まれる。また、比較結果出力部１１３は、例えば、ディスプレイである。

ＲＮＡ情報処理装置１０１は、ＬＡＮに接続されたサーバであってもよい。この場合、入力部１０３および比較結果出力部１１３は、ＬＡＮとの通信部で構成されてよい。

さらに、ＲＮＡ情報処理装置１０１は、インターネット等のネットワークに接続されてもよい。この場合、ＷＥＢサーバが、入力部１０３および比較結果出力部１１３として機能してもよい。

上記のように、ＲＮＡ情報出力装置１０１は、単独のコンピュータでもよく、ＬＡＮまたはインターネット等のネットワークに接続されてもよい。この点は、以下の他の実施の形態においても同様である。

次に、本実施の形態のＲＮＡ配列検索装置について説明する。ＲＮＡ配列検索装置は、ＲＮＡ情報処理装置の一形態でもある。

図１７は、ＲＮＡ配列検索装置の機能ブロック部である。上述の実施の形態と重複する事項の説明は適宜省略する。図１７において、ＲＮＡ配列検索装置２０１は、入力部２０３、ＲＮＡ配列データベース２０４、ＳＣＳ生成部２０５、ＳＣＳ記憶部２０７、２０９、ＳＣＳ比較部２１１および比較結果出力部２１３を備えている。

入力部２０３は、検索対象のＲＮＡ配列の情報を入力する機能を有する。ＲＮＡ配列データベース２０４は、多数のＲＮＡ配列を記憶している。ＳＣＳ生成部２０５は、検索対象のＲＮＡ配列からＳＣＳを生成する。また、ＳＣＳ生成部２０５は、ＲＮＡ配列データベース２０４に記憶されたＲＮＡ配列からＳＣＳを生成する。これらＳＣＳが、それぞれ、ＳＣＳ記憶部２０７、２０９に記憶される。ＳＣＳ比較部２１１は、ＳＣＳ記憶部２０７、２０９に記憶されている２本のＳＣＳを比較して類似度を算出する。ここでは、大域アライメントが行われる。

ＳＣＳ生成部２０５は、ＲＮＡ配列データベース２０４の複数のＲＮＡ配列の各々からＳＣＳを生成する。各ＳＣＳが、ＳＣＳ比較部２１１により、比較対象のＳＣＳと比較され、類似度のスコアが算出される。

ＳＣＳ比較部２１１は、検索手段として機能し、類似度のスコアに基づいて、検索対象のＳＣＳと類似したＳＣＳである類似ＳＣＳを求める。類似ＳＣＳは、例えば、類似度スコアが所定のレベル以上のＳＣＳである。類似ＳＣＳに対応するＲＮＡ配列が、類似ＲＮＡとして求められる。この類似ＲＮＡの情報が、比較結果出力部２１３から出力される。

図１８は、ＲＮＡ配列検索装置のもう一つの例を示している。上述の実施の形態と重複する事項の説明は適宜省略する。

図１８では、ＲＮＡ配列検索装置３０１が、ＳＣＳデータベース３１０を備えている。この例では、多数のＲＮＡの各々から、予め、ＳＣＳが生成されている。そして、多数のＳＣＳが、ＳＣＳデータベース３１０に格納されている。ＳＣＳ比較部３１１は、検索手段として機能し、検索対象のＲＮＡ配列から生成されたＳＣＳを、ＳＣＳデータベース３１０に格納されたＳＣＳと比較する。そして、検索対象のＳＣＳに類似するＳＣＳが、ＳＣＳデータベース３１０から抽出される。抽出されたＳＣＳに対応するＲＮＡの情報が、比較結果出力部３１３から出力される。

図１９は、別の実施の形態のＲＮＡ配列情報処理装置を示している。上述の実施の形態と重複する事項の説明は適宜省略する。

ＲＮＡ情報処理装置４０１において、入力部４０３は、比較対象のゲノム配列の情報を入力する機能を有する。ここでは、１本のゲノム配列が入力される。ＳＣＳ生成部４０５は、ゲノム配列からＳＣＳを生成する。前述したように、ゲノム配列からハッシュテーブルが生成され、ハッシュテーブルからＳＣが抽出され、抽出されたＳＣが整列され、これによりＳＣＳが得られる。すなわち、ＲＮＡ配列と同じようにゲノム配列が処理される。

ただし、本実施の形態では、１つのゲノム配列から得られた１つのＳＣＳが、ＳＣＳ記憶部４０７、４０９の両方に格納される。したがって、ＳＣＳ記憶部４０７、４０９は同じＳＣＳを記憶する。

ＳＣＳ比較部４１１は、ＳＣＳ記憶部４０７、４０９に記憶されている２本のＳＣＳを比較する。２本のＳＣＳは、上記のように同じである。比較処理では、ＳＣＳの動的計画法が適用され、アライメントが行われる。ただし、本実施の形態では、局所アライメントが行われる。また、トレースバックについても、局所アライメントのトレースバックが行われる。このような比較処理により、１本のゲノム配列上で、互いに類似するＲＮＡ配列部分の候補が抽出される。抽出結果が、比較結果出力部４１３から出力される。

図１９では、１本のゲノム配列が入力部４０３に入力された。これに対して、２本のゲノム配列が入力部４０３に入力されてもよい。この場合は、各ゲノム配列からＳＣＳが生成される。そして、２つのＳＣＳが、それぞれ、ＳＣＳ記憶部４０７、４０９に記憶される。そして、これら２つのＳＣＳが、ＳＣＳ比較部４１１により比較され、類似度が算出される。そして、類似度の情報が比較結果出力部４１３から出力される。

また、図１９において、ゲノム配列とＲＮＡ配列が入力部４０３に入力されてもよい。この場合には、同様の処理により、ゲノム配列とＲＮＡ配列が比較される。

さらに、図１９の変形例として、比較対象の一方または双方が、データベースから読み出されてもよい。この点は、図１７および図１８を参照して説明した通りである。

以上、本発明の好適な実施の形態を説明した。本発明によれば、上述のようにして、ＲＮＡ配列またはゲノム配列からステム候補配列が生成される。そして、ステム候補配列同士が、動的計画法によって比較される。動的計画法の比較単位として、通常の塩基またはアミノ酸の代わりにステム候補が用いられる。これにより、複数のステム候補配列を比較でき、類似度を求められる。

このようにして、本実施の形態では、ＲＮＡ配列中のステム候補に着目し、ステム候補配列を生成して、生成したステム候補配列に動的計画法を適用している。元のＲＮＡ２次構造を予め知ることなく、２次構造の類似性とステム部分に着目した配列類似性を考慮した総合的な比較処理ができる。比較結果を利用して、機能ＲＮＡの機能に基づく分類、検索、抽出が可能になる。

さらに、１次構造の比較をも行い、１次構造の類似性と２次構造の類似性を総合的に比較することもできる。例えば、１次構造が類似し、２次構造が類似するとき、２つの配列が類似すると判断される。１次構造の類似性は、ステム候補以外の領域を対象として判断されてもよい。このようにして、本実施の形態を応用し、１次構造と２次構造の総合的な比較も実現できる。

また、本実施の形態では、ステム候補の長さが固定されている。また、ステム候補配列がハッシュテーブルを使って生成される。このような処理により、ステム候補を効率よく抽出でき、計算速度を増大できる。

また、本実施の形態では、ステム候補同士の類似度のスコアが、ステム候補類似度基準に相当するスコア算出アルゴリズムを使って求められる。このとき、類似度のスコアは、ステム候補自身の配列の類似度スコアと、相補ステム候補までの距離の相違を罰するペナルティスコアとに基づいて計算される。これにより、ステム候補同士の類似度を適切に求められる。この類似度スコアを使うことで、ステム候補配列の比較に動的計画法を適当に応用できる。

また、本実施の形態では、配列比較処理が、ステム候補の位置同士の距離、ステム候補自身の配列の類似度および相補ステム候補までの距離に基づいた動的計画法によって好適に行われる。

また、本実施の形態は、類似ＲＮＡ配列を検索する好適な検索技術を提供できる。

また、本実施の形態は、ステム候補配列の大域アライメントを行うことによる好適な検索技術を提供できる。

また、本実施の形態は、ステム候補配列の局所アライメントを行うことにより、１つのゲノム配列上の類似ＲＮＡ配列の候補を網羅的に抽出する抽出技術を提供できる。

以上に本発明の好適な実施の形態を説明した。しかし、本発明は上述の実施の形態に限定されず、当業者が本発明の範囲内で上述の実施の形態を変形可能なことはもちろんである。

本発明は、ＲＮＡ２次元構造の比較をコンピュータ上で実現できる。バイオインフォマティクス技術の分野では、ＢＬＡＳＴが１次構造の比較および検索のために有用であるのと同様に、本発明は、ＲＮＡ配列の比較および検索において極めて有用である。

ＤＮＡおよびＲＮＡの配列を示す図である。ＲＮＡの局所的な２次構造の例を示す図である。ＲＮＡの２次構造の例を示す図である。ＲＮＡ配列の２次構造を示す図である。本実施の形態の方法を実行するコンピュータを示す図である。ステム候補を視覚的に表す図である。１対のステム候補の例を示す図である。ステム候補の例を示す図である。ステム候補の例を示す図である。ステム候補の例を示す図である。ステム候補の例を示す図である。ステム候補配列を生成するプログラムの例を示す図である。従来の通常の動的計画法を示す図である。本実施の形態の動的計画法を、従来の動的計画法と比較して示す図である。ステム候補配列のアライメントの例を示す図である。ＲＮＡ配列情報処理装置の機能ブロック図である。ＲＮＡ配列検索装置の機能ブロック図である。ＲＮＡ配列検索装置のもう一つの例を示す機能ブロック図である。別の実施の形態のＲＮＡ配列情報処理装置を示す機能ブロック図である。

符号の説明

１ＲＮＡ情報処理装置
３入力部
５ステム候補配列（ＳＣＳ）生成部
７、９ステム候補配列記憶部
１１ステム候補配列比較部
１３比較結果出力部

Claims

ＲＮＡ配列またはＲＮＡを含む生物学的配列情報から、ＲＮＡ２次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成ステップと、
複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較ステップと、
を含むことを特徴とするＲＮＡ配列情報処理方法。
前記配列生成ステップにおいて、ステム候補配列情報を構成する各ステム候補の情報は、配列上でのステム候補の位置、ステム候補自身の配列、相補ステム候補までの距離を含むことを特徴とする請求項１に記載のＲＮＡ配列情報処理方法。
前記配列生成ステップは、固定長のステム候補の配列を生成することを特徴とする請求項２に記載のＲＮＡ配列情報処理方法。
前記配列生成ステップは、ステム候補になり得る塩基配列に関するハッシュテーブルを生成し、前記ハッシュテーブルを参照して、ステム候補の位置、配列および距離の情報を抽出することを特徴とする請求項２に記載のＲＮＡ配列情報処理方法。
前記配列比較ステップは、ステム候補同士の類似度のスコアを算出するためのステム候補類似度基準に従って算出されるステム候補同士の類似度に基づいて前記複数のステム候補配列のアライメント処理を行い、アライメントされた前記複数のステム候補配列の類似度を求めることを特徴とする請求項１に記載のＲＮＡ配列情報処理方法。
前記配列比較ステップは、ステム候補同士の類似度のスコアを、ステム候補自身の配列の類似度スコアと、相補ステム候補までの距離の相違を罰するペナルティスコアとに基づいて計算することを特徴とする請求項５に記載のＲＮＡ配列情報処理方法。
前記配列比較ステップは、ステム候補の位置同士の距離、ステム候補自身の配列の類似度および相補ステム候補までの距離に基づいた動的計画法によって複数のステム候補配列のアライメントを行い、複数のステム候補配列の類似度を計算することを特徴とする請求項１に記載のＲＮＡ配列情報処理方法。
前記配列比較ステップは、新たに与えられたＲＮＡ配列または生物学的配列情報から前記配列生成ステップにより得られたステム候補配列を、データベースに記憶されている過去に生成されたステム候補配列と比較することを特徴とする請求項１に記載のＲＮＡ配列情報処理方法。
複数のＲＮＡ配列の大域アライメントを行うことを特徴とする請求項１に記載のＲＮＡ配列情報処理方法。
ＲＮＡ配列を含む塩基配列を対象として、局所アライメントを行うことを特徴とする請求項１に記載のＲＮＡ配列情報処理方法。
ＲＮＡ配列またはＲＮＡを含む生物学的配列情報から、ＲＮＡ２次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成ステップと、
複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較ステップと、
をコンピュータに実行させることを特徴とするＲＮＡ配列情報処理プログラム。
ＲＮＡ配列またはＲＮＡを含む生物学的配列情報を入力する手段と、
入力されたＲＮＡ配列またはＲＮＡを含む生物学的配列情報から、ＲＮＡ２次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成手段と、
生成されたステム候補配列情報を記憶する配列記憶手段と、
配列記憶手段から複数のステム候補配列を読み出して、前記複数のステム候補配列に対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較手段と、
を含むことを特徴とするＲＮＡ配列情報処理装置。
検索対象のＲＮＡ配列から、ＲＮＡ２次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成される検索対象のステム候補配列情報を生成する配列生成手段と、
多数のＲＮＡ配列からそれぞれ生成された多数のステム候補配列情報を記憶する配列データベースと、
検索対象のステム候補配列と前記配列データベースに記憶されたステム候補配列に対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記検索対象のステム候補配列と類似するステム候補配列を前記配列データベースから抽出する検索手段と、
を含むことを特徴とするＲＮＡ配列検索装置。
検索対象のＲＮＡ配列から、ＲＮＡ２次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成される検索対象のステム候補配列情報を生成するステップと、
前記検索対象のステム候補配列と配列データベースに記憶されているステム候補配列情報とに対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記検索対象のステム候補配列と類似するステム候補配列を前記配列データベースから抽出するステップと、
をコンピュータに実行させることを特徴とするＲＮＡ配列検索プログラム。