JP2003203077A

JP2003203077A - Ｒｎａ配列解析装置、ｒｎａ配列解析方法、プログラム、および、記録媒体

Info

Publication number: JP2003203077A
Application number: JP2001402081A
Authority: JP
Inventors: Yasuhisa Kamimura; 泰央上村; Naoyuki Horai; 尚幸蓬莱
Original assignee: Celestar Lexico Sciences Inc
Current assignee: Celestar Lexico Sciences Inc
Priority date: 2001-12-28
Filing date: 2001-12-28
Publication date: 2003-07-18
Anticipated expiration: 2021-12-28
Also published as: US20050112577A1; JP3881238B2; EP1471444A1; WO2003058500A1; EP1471444A4

Abstract

(57)【要約】【課題】ＲＮＡ配列や抽出した文法を統合的に管理
し、集積した文法やＲＮＡ配列を用いて二次構造予測な
どをより効率的に行うことのできるＲＮＡ配列解析装置
等を提供することを課題とする。【解決手段】本発明にかかるシステムは、配列情報を
解析するＲＮＡ配列解析装置であるＲＮＡ配列解析装置
１００と、配列情報等に関する外部データベースやホモ
ロジー検索用の外部分析プログラム等を提供する外部シ
ステム２００とを、ネットワーク３００を介して通信可
能に接続して構成されている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＲＮＡ配列解析装
置、ＲＮＡ配列解析方法、プログラム、および、記録媒
体に関し、特に、ＲＮＡの二次構造を予測し、また、Ｄ
ＮＡ配列から遺伝子部分を予測するＲＮＡ配列解析装
置、ＲＮＡ配列解析方法、プログラム、および、記録媒
体に関する。

【０００２】

【従来の技術】ＲＮＡ配列は、Ａ（アデニン）、Ｃ（シ
トシン）、Ｇ（グアニン）、Ｕ（ウラシル）の４種の塩
基により構成されるが、その一部は回文言語のような入
れ子の状態となり、相補的な塩基同士（ＡとＵ、Ｇと
Ｃ、稀にＧとＵ）が結合して二次構造を構成している。
ＲＮＡ配列の二次構造は、図１に示すように、多種の構
造トポロジーを有している。ここで、積み重ねられた塩
基対の連続領域をステム（ｓｔｅｍ）と呼び、また、塩
基対で挟まれた一本鎖の部分配列をループ（ｌｏｏｐ）
と呼ぶ。ステムの端のループをヘアピンループという
（図１のａ）。ステムの中にある一本鎖の塩基は、それ
がステムの片側だけにあるときバルジループ（ｂｕｌｇ
ｅｌｏｏｐ）と呼び（図１のｂ）、ステムの両側にあ
るときは内側ループ（ｉｎｔｅｒｎａｌｌｏｏｐ）と
呼ぶ（図１のｃ）。放射状に３個以上のステムが出てい
るものをマルチループ（ｍｕｌｔｉ−ｂｒａｎｃｈｅｄ
ｌｏｏｐ）と呼ぶ。また、入れ子ではない塩基対があ
るとき、シュードノット（ｐｓｅｕｄｏｋｎｏｔｓ）と
呼ぶ（図１のｄ）。

【０００３】ここで、ＲＮＡ配列を形式文法（生成文
法）により構文解析することによりその二次構造を予測
する手法が存在するが、正規文法では回文言語を記述す
ることができないため、一般に、ＲＮＡ二次構造解析に
おいては、木文法（ｔｒｅｅａｄｊｏｉｎｉｎｇｇｒ
ａｍｍａｒｓ）や、文脈自由文法（ＣＦＧ）などを用い
て構文解析を行い構造モデリング（構造トポロジー表
現）を求める手法が考案されている。

【０００４】例えば、ＹａｓｕｏＵｅｍｕｒａ等著
「Ｔｒｅｅａｄｊｏｉｎｉｎｇｇｒａｍｍａｒｓ
ｆｏｒＲＮＡｓｔｒｕｃｔｕｒｅｐｒｅｄｉｃｔ
ｉｏｎ（ＴｈｅｏｒｅｔｉｃａｌＣｏｍｐｕｔｅｒ
Ｓｃｉｅｎｃｅ２１０１９９９２７７ｐ−３０３
ｐ）」（以下「文献１」という）には、木文法による構
造モデリングと、パーザ（ｐａｓｅｒ）を利用したエネ
ルギー極小化によるＲＮＡ二次構造予測方法が開示され
ている。

【０００５】また、ＥｌｅｎａＲｉｖａｓａｎｄ
ＳｅａｎＲ．Ｒｄｄｙ著「Ｔｈｅｌａｎｇｕａｇｅ
ｏｆＲＮＡ：ａｆｏｒｍａｌｇｒａｍｍａｒ
ｔｈａｔｉｎｃｌｕｄｅｓｐｓｅｕｄｏｋｎｏｔｓ
（ＢＩＯＩＮＦＯＲＭＡＴＩＣＳｖｏｌ．１６ｎ
ｏ．４２０００３３４ｐ−３４０ｐ）」（以下「文
献２」という）には、Ｃｒｏｓｓｅｄ−ｉｎｔｅｒａｃ
ｔｉｏｎＧｒａｍｍａｒｓなどの独自の拡張を施した
文脈自由文法（ＣＦＧ）による構造モデリングと、パー
ザを利用したエネルギー極小化によるＲＮＡ二次構造予
測方法が開示されている。

【０００６】また、ＭｉｃｈａｅｌＺｕｋｅｒ著「Ｐ
ｒｅｄｉｃｔｉｏｎｏｆＲＮＡＳｅｃｏｎｄａｒｙ
ＳｔｒｕｃｔｕｒｅｂｙＥｎｅｒｇｙｍｉｎｉ
ｍｉｚａｔｉｏｎ（Ｊｕｌｙ８，１９９６）」（以下
「文献３」という）には、形式文法やパーザを用いず動
的計画法（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）
によってＲＮＡ二次構造を予測する方法を用いたＲＮＡ
配列解析システムであるＭｆｏｌｄ（製品名）が開示さ
れている。これらの文献では、形式文法や動的計画法な
どの手法と、エネルギー極小化手法とを組み合わせるこ
とによってＲＮＡ二次構造予測精度を高めている。

【０００７】図２は、従来技術によるＲＮＡの二次構造
がステムループをとる場合の構文解析木の一例を示す図
である。図２のａに示すＲＮＡ配列の二次構造を図２の
ｂに、また、構文解析木を図２のｃに示している。ここ
で、部分木（ｓｕｂｔｒｅｅ）は、内部の節を根とする
構文解析木の断片である。ＲＮＡ二次構造の構造トポロ
ジーについて構文解析木を作成して構文解析を行うこと
により二次構造解析を行う技術が研究されており、主要
な構造トポロジーに対する文法が既知となっている。

【０００８】図３は、従来技術によるＲＮＡ二次構造の
構造トポロジーについて、文法が固定されるとそれに対
応した構造トポロジーが規定される（逆もまた可）こと
を示す概念図である。ここで、生成文法（以下単に「文
法」という）は、有限個の記号と、有限個の生成規則Ｐ
（ｐｒｏｄｕｃｔｉｏｎｒｕｌｅ）から成る。記号に
は、抽象的な非終端記号Ｎ（ｎｏｎｔｅｒｍｉｎａｌ
ｓｙｍｂｏｌ）と、観測文字列に実際に現れる終端記号
Ｔ（ｔｅｒｍｉｎａｌｓｙｍｂｏｌ）の２種類があ
る。終端記号Ｔは、ＲＮＡ配列の場合にはＡ、Ｔ、Ｇ、
Ｃの４文字である。図３に示すように、各構造トポロジ
ーについてそれぞれ対応する文法を定義することができ
る。

【０００９】また、図４は、従来技術である木文法パー
ザを用いて、既知の文法からＲＮＡ配列の構文解析木を
導出する場合の一例を示す図である。まず、構造未知の
ＲＮＡ配列を木文法パーザに入力する。ここで、木文法
パーザは、入力された既知の木文法に従ってＲＮＡ配列
の構文解析を行い構文解析木を導出する機能、および、
導出された構文解析木について、ループや、塩基対とそ
の他の二次構造要素のそれぞれの自由エネルギーの合計
などを計算することにより平衡自由エネルギー（ΔＧ）
などの値を求める機能などを有する（文献１から３参
照）。

【００１０】ここで、木文法パーザは必ずしも構文解析
木を導出するわけではなく、入力したＲＮＡ配列が当該
文法に適合しない場合（パーズが成功しない場合）には
構文解析木を導出しない（すなわち、構文解析木は０個
になる）。また、複数個の構文解析木が導出された場合
には、エネルギー計算の結果、極小の自由エネルギーと
なる１つの構文解析木を選択する。このとき、木文法パ
ーザは導出過程の各段階において自由エネルギー極小な
部分構造を見つけていくことができる。また、木文法パ
ーザはエネルギー準最適な構文も出力することができ
る。このように、木文法パーザは、構文解析（パーズ）
の途中でエネルギー計算を行うことにより、高速化と精
度向上を実現している。

【００１１】

【発明が解決しようとする課題】しかしながら、従来の
木文法パーザなどにより構文解析とエネルギー計算を行
う手法を用いたＲＮＡ二次構造予測システムにおいて
は、ＲＮＡ配列や抽出した文法を統合的に管理し、集積
した文法やＲＮＡ配列を用いて二次構造予測などをより
効率的に行うものは存在しなかったという問題点があ
る。

【００１２】また、与えられた特定の二次構造を取り得
るようなＲＮＡ配列を検索するような方法は存在しなか
ったという問題点がある。

【００１３】また、複数のＲＮＡ配列に共通な二次構造
を簡易に抽出する方法は存在しなかったという問題点が
ある。

【００１４】また、ＲＮＡ配列からＲＮＡ二次構造に基
づく類似度を簡易に求める方法は存在しなかったという
問題点がある。

【００１５】さらに、ＤＮＡ配列から遺伝子部分を発見
するための手法としては、ホモロジー検索やモチーフ検
索などを利用する手法が一般的であるが、未知の遺伝子
部分の発見には利用できないという問題点がある。ここ
で、従来技術で説明したように、ＲＮＡ配列の構造トポ
ロジーを予測可能な生成文法が求められているが、既知
の生成文法により導出された構文解析木を用いた遺伝子
発見方法は存在しなかったという問題点がある。

【００１６】このように、従来のシステム等は数々の問
題点を有しており、その結果、システムの利用者および
管理者のいずれにとっても、利便性が悪く、また、利用
効率が悪いものであった。本発明は上記問題点に鑑みて
なされたもので、ＲＮＡ配列や抽出した文法を統合的に
管理し、集積した文法やＲＮＡ配列を用いて二次構造予
測や新たな解析手法などをより効率的に行うことのでき
る、ＲＮＡ配列解析装置、ＲＮＡ配列解析方法、プログ
ラム、および、記録媒体を提供することを目的としてい
る。

【００１７】

【課題を解決するための手段】このような目的を達成す
るため、請求項１に記載のＲＮＡ配列解析装置は、ＲＮ
Ａ二次構造の構造トポロジーと、当該構造トポロジーに
適合する生成文法とを対応付けて格納する文法格納手段
と、ＲＮＡ配列を上記生成文法に適用して構文解析木を
導出する構文解析手段と、上記構文解析手段にて導出さ
れた上記構文解析木に対して適合度の計算を行う適合度
計算手段と、上記適合度計算手段により計算された上記
適合度のうち予め定めた条件を満たす適合度である上記
構文解析木を上記適合度が高い順にソートするソート手
段と、上記ソート手段によりソートされた上記構文解析
木を上記ＲＮＡ配列の二次構造の候補として出力する出
力手段とを備えたことを特徴とする。

【００１８】この装置によれば、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、ＲＮＡ配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算し、計算された適合度のうち予め定めた条
件を満たす適合度である構文解析木を適合度が高い順に
ソートし、ソートされた構文解析木をＲＮＡ配列の二次
構造の候補として出力するので、一配列に対して多文法
で構文解析を行うことができるようになる。すなわち、
各生成文法に対してそれぞれ構文解析し適合度計算を行
い適合度を得る。その結果、生成文法ごとに適合度が得
られることになり、それらの適合度をソートすることに
よって生成文法に順位を付ける。これにより、生成文法
に対する構造トポロジーにも順位が付けられることにな
るので、最終的にＲＮＡ配列が取り得る可能性の高い順
に構造トポロジーを確認することができるようになる。

【００１９】また、請求項２に記載のＲＮＡ配列解析装
置は、ＲＮＡ二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、ＲＮＡ配列を上記生成文法に適用して構
文解析木を導出する構文解析手段と、上記構文解析手段
にて導出された上記構文解析木に対して適合度の計算を
行う適合度計算手段と、上記適合度計算手段により計算
された上記適合度のうち予め定めた条件を満たす適合度
である上記構文解析木を導出した上記ＲＮＡ配列を上記
構造トポロジーの二次構造を持つＲＮＡ配列の候補とし
て出力する出力手段とを備えたことを特徴とする。

【００２０】この装置によれば、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、ＲＮＡ配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したＲＮ
Ａ配列を上記構造トポロジーの二次構造を持つＲＮＡ配
列の候補として出力するので、多配列に対して一文法で
構文解析を行うことができるようになる。すなわち、与
えられた特定の構造トポロジーに対し、対応する生成文
法を取得し、これを用いてＲＮＡ配列データベースに格
納されているすべてまたは一部のＲＮＡ配列をそれぞれ
構文解析し、ある閾値以下の適合度で構文解析に成功し
たＲＮＡ配列群を結果として出力する。これにより、与
えられた特定の二次構造を取り得るようなＲＮＡ配列を
検索することができるようになる。

【００２１】また、請求項３に記載のＲＮＡ配列解析装
置は、ＲＮＡ二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、ＲＮＡ配列を上記生成文法に適用して構
文解析木を導出する構文解析手段と、上記構文解析手段
にて導出された上記構文解析木に対して適合度の計算を
行う適合度計算手段と、上記適合度計算手段により計算
された上記適合度のうち予め定めた条件を満たす適合度
である上記構文解析木を導出した上記ＲＮＡ配列を抽出
する抽出手段と、上記構造トポロジーと上記ＲＮＡ配列
とを二次元マトリックスで表示し、上記二次元マトリッ
クスにおいて上記抽出手段にて抽出された上記ＲＮＡ配
列と上記構造トポロジーに対応する格子部分をマークす
ることにより、上記ＲＮＡ配列間で共通に有する構造ト
ポロジーを可視化する共通構造マトリックス作成手段と
を備えたことを特徴とする。

【００２２】この装置によれば、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、ＲＮＡ配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したＲＮ
Ａ配列を抽出し、構造トポロジーとＲＮＡ配列とを二次
元マトリックスで表示し、二次元マトリックスにおいて
抽出されたＲＮＡ配列と構造トポロジーに対応する格子
部分をマークすることにより、ＲＮＡ配列間で共通に有
する構造トポロジーを可視化するので、ＲＮＡ配列間の
共通構造を容易に発見することができるようになる。

【００２３】また、請求項４に記載のＲＮＡ配列解析装
置は、ＲＮＡ二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、利用者が入力したＤＮＡ配列から転写さ
れるＲＮＡ配列を作成するＲＮＡ配列作成手段と、上記
ＲＮＡ配列作成手段により作成された上記ＲＮＡ配列に
対して上記生成文法を適用して構文解析木を導出する構
文解析手段と、上記構文解析手段にて導出された上記構
文解析木に対して適合度の計算を行う適合度計算手段
と、上記適合度計算手段により計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記ＲＮＡ配列に対応する上記ＤＮＡ配列
部分を遺伝子の候補として予測する遺伝子予測手段とを
備えたことを特徴とする。

【００２４】この装置によれば、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、利用者が入力したＤＮＡ配列か
ら転写されるＲＮＡ配列を作成し、作成されたＲＮＡ配
列に対して生成文法を適用して構文解析木を導出し、導
出された構文解析木に対して適合度の計算を行い、計算
された適合度のうち予め定めた条件を満たす適合度であ
る構文解析木を導出したＲＮＡ配列に対応するＤＮＡ配
列部分を遺伝子の候補として予測するので、ＤＮＡ配列
のうち既知のトポロジーを有する可能性のあるＲＮＡ配
列に対応する部分について、遺伝子部分である可能性が
あることを予測することができるようになる。

【００２５】また、請求項５に記載のＲＮＡ配列解析装
置は、ＲＮＡ二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、ＲＮＡ配列を上記生成文法に適用して構
文解析木を導出する構文解析手段と、上記構文解析手段
にて導出された上記構文解析木に対して適合度の計算を
行う適合度計算手段と、上記適合度計算手段により計算
された上記適合度に基づいて上記ＲＮＡ配列間の類似度
を計算する類似度計算手段とを備えたことを特徴とす
る。

【００２６】この装置によれば、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、ＲＮＡ配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度に基づいてＲＮ
Ａ配列間の類似度を計算するので、ＲＮＡ構造の類似度
を容易に求めることができるようになる。

【００２７】また、請求項６に記載のＲＮＡ配列解析装
置は、ＲＮＡ二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、ＲＮＡ配列を上記生成文法に適用して構
文解析木を導出する構文解析手段と、上記構文解析手段
にて導出された上記構文解析木に対して適合度の計算を
行う適合度計算手段と、上記適合度計算手段により計算
された上記適合度のうち予め定めた条件を満たす適合度
である上記構文解析木を導出した上記ＲＮＡ配列を抽出
する抽出手段と、上記構造トポロジーと上記ＲＮＡ配列
とを二次元マトリックスで表示し、上記二次元マトリッ
クスにおいて上記抽出手段にて抽出された上記ＲＮＡ配
列と上記構造トポロジーに対応する格子部分に上記適合
度を表示する適合度マトリックスを作成する適合度マト
リックス作成手段と、上記適合度マトリックス作成手段
にて作成された上記適合度マトリックスについて、上記
適合度により上記構造トポロジーをソートし、他のＲＮ
Ａ配列について当該ソートされた上記構造トポロジーの
順番に対応する上記生成文法により構文解析を行い上記
適合度が最大となる上記構文解析木を求め、予め定めた
条件を満たす上記適合度を持つ上記構文解析木に対応す
る上記他のＲＮＡ配列を抽出する共通構造抽出手段とを
備えたことを特徴とする。

【００２８】この装置によれば、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、ＲＮＡ配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したＲＮ
Ａ配列を抽出し、構造トポロジーとＲＮＡ配列とを二次
元マトリックスで表示し、二次元マトリックスにおいて
抽出されたＲＮＡ配列と構造トポロジーに対応する格子
部分に適合度を表示する適合度マトリックスを作成し、
適合度マトリックスについて、適合度により構造トポロ
ジーをソートし、他のＲＮＡ配列について当該ソートさ
れた構造トポロジーの順番に対応する生成文法により構
文解析を行い適合度が最大となる構文解析木を求め、予
め定めた条件を満たす適合度を持つ構文解析木に対応す
る他のＲＮＡ配列を抽出するので、共通の構造を持つＲ
ＮＡ配列を容易に発見することができるようになる。

【００２９】また、本発明はＲＮＡ配列解析方法に関す
るものであり、請求項７に記載のＲＮＡ配列解析方法
は、ＲＮＡ二次構造の構造トポロジーと、当該構造トポ
ロジーに適合する生成文法とを対応付けて格納する文法
格納ステップと、ＲＮＡ配列を上記生成文法に適用して
構文解析木を導出する構文解析ステップと、上記構文解
析ステップにて導出された上記構文解析木に対して適合
度の計算を行う適合度計算ステップと、上記適合度計算
ステップにより計算された上記適合度のうち予め定めた
条件を満たす適合度である上記構文解析木を上記適合度
が高い順にソートするソートステップと、上記ソートス
テップによりソートされた上記構文解析木を上記ＲＮＡ
配列の二次構造の候補として出力する出力ステップとを
含むことを特徴とする。

【００３０】この方法によれば、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、ＲＮＡ配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度を計算し、計算された適合度のうち予め定めた条
件を満たす適合度である構文解析木を適合度が高い順に
ソートし、ソートされた構文解析木をＲＮＡ配列の二次
構造の候補として出力するので、一配列に対して多文法
で構文解析を行うことができるようになる。すなわち、
各生成文法に対してそれぞれ構文解析し適合度計算を行
い適合度を得る。その結果、生成文法ごとに適合度が得
られることになり、それらの適合度をソートすることに
よって生成文法に順位を付ける。これにより、生成文法
に対する構造トポロジーにも順位が付けられることにな
るので、最終的にＲＮＡ配列が取り得る可能性の高い順
に構造トポロジーを確認することができるようになる。

【００３１】また、請求項８に記載のＲＮＡ配列解析方
法は、ＲＮＡ二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納ステップと、ＲＮＡ配列を上記生成文法に適用し
て構文解析木を導出する構文解析ステップと、上記構文
解析ステップにて導出された上記構文解析木に対して適
合度の計算を行う適合度計算ステップと、上記適合度計
算ステップにより計算された上記適合度のうち予め定め
た条件を満たす適合度である上記構文解析木を導出した
上記ＲＮＡ配列を上記構造トポロジーの二次構造を持つ
ＲＮＡ配列の候補として出力する出力ステップとを含む
ことを特徴とする。

【００３２】この方法によれば、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、ＲＮＡ配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したＲＮ
Ａ配列を上記構造トポロジーの二次構造を持つＲＮＡ配
列の候補として出力するので、多配列に対して一文法で
構文解析を行うことができるようになる。すなわち、与
えられた特定の構造トポロジーに対し、対応する生成文
法を取得し、これを用いてＲＮＡ配列データベースに格
納されているすべてまたは一部のＲＮＡ配列をそれぞれ
構文解析し、ある閾値以下の適合度で構文解析に成功し
たＲＮＡ配列群を結果として出力する。これにより、与
えられた特定の二次構造を取り得るようなＲＮＡ配列を
検索することができるようになる。

【００３３】また、請求項９に記載のＲＮＡ配列解析方
法は、ＲＮＡ二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納ステップと、ＲＮＡ配列を上記生成文法に適用し
て構文解析木を導出する構文解析ステップと、上記構文
解析ステップにて導出された上記構文解析木に対して適
合度の計算を行う適合度計算ステップと、上記適合度計
算ステップにより計算された上記適合度のうち予め定め
た条件を満たす適合度である上記構文解析木を導出した
上記ＲＮＡ配列を抽出する抽出ステップと、上記構造ト
ポロジーと上記ＲＮＡ配列とを二次元マトリックスで表
示し、上記二次元マトリックスにおいて上記抽出ステッ
プにて抽出された上記ＲＮＡ配列と上記構造トポロジー
に対応する格子部分をマークすることにより、上記ＲＮ
Ａ配列間で共通に有する構造トポロジーを可視化する共
通構造マトリックス作成ステップとを含むことを特徴と
する。

【００３４】この方法によれば、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、ＲＮＡ配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したＲＮ
Ａ配列を抽出し、構造トポロジーとＲＮＡ配列とを二次
元マトリックスで表示し、二次元マトリックスにおいて
抽出されたＲＮＡ配列と構造トポロジーに対応する格子
部分をマークすることにより、ＲＮＡ配列間で共通に有
する構造トポロジーを可視化するので、ＲＮＡ配列間の
共通構造を容易に発見することができるようになる。

【００３５】また、請求項１０に記載のＲＮＡ配列解析
方法は、ＲＮＡ二次構造の構造トポロジーと、当該構造
トポロジーに適合する生成文法とを対応付けて格納する
文法格納ステップと、利用者が入力したＤＮＡ配列から
転写されるＲＮＡ配列を作成するＲＮＡ配列作成ステッ
プと、上記ＲＮＡ配列作成ステップにより作成された上
記ＲＮＡ配列に対して上記生成文法を適用して構文解析
木を導出する構文解析ステップと、上記構文解析ステッ
プにて導出された上記構文解析木に対して適合度の計算
を行う適合度計算ステップと、上記適合度計算ステップ
により計算された上記適合度のうち予め定めた条件を満
たす適合度である上記構文解析木を導出した上記ＲＮＡ
配列に対応する上記ＤＮＡ配列部分を遺伝子の候補とし
て予測する遺伝子予測ステップとを含むことを特徴とす
る。

【００３６】この方法によれば、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、利用者が入力したＤＮＡ配列か
ら転写されるＲＮＡ配列を作成し、作成されたＲＮＡ配
列に対して生成文法を適用して構文解析木を導出し、導
出された構文解析木に対して適合度の計算を行い、計算
された適合度のうち予め定めた条件を満たす適合度であ
る構文解析木を導出したＲＮＡ配列に対応するＤＮＡ配
列部分を遺伝子の候補として予測するので、ＤＮＡ配列
のうち既知のトポロジーを有する可能性のあるＲＮＡ配
列に対応する部分について、遺伝子部分である可能性が
あることを予測することができるようになる。

【００３７】また、請求項１１に記載のＲＮＡ配列解析
方法は、ＲＮＡ二次構造の構造トポロジーと、当該構造
トポロジーに適合する生成文法とを対応付けて格納する
文法格納ステップと、ＲＮＡ配列を上記生成文法に適用
して構文解析木を導出する構文解析ステップと、上記構
文解析ステップにて導出された上記構文解析木に対して
適合度の計算を行う適合度計算ステップと、上記適合度
計算ステップにより計算された上記適合度に基づいて上
記ＲＮＡ配列間の類似度を計算する類似度計算ステップ
とを含むことを特徴とする。

【００３８】この方法によれば、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、ＲＮＡ配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度に基づいてＲＮ
Ａ配列間の類似度を計算するので、ＲＮＡ構造の類似度
を容易に求めることができるようになる。

【００３９】また、請求項１２に記載のＲＮＡ配列解析
方法は、ＲＮＡ二次構造の構造トポロジーと、当該構造
トポロジーに適合する生成文法とを対応付けて格納する
文法格納ステップと、ＲＮＡ配列を上記生成文法に適用
して構文解析木を導出する構文解析ステップと、上記構
文解析ステップにて導出された上記構文解析木に対して
適合度の計算を行う適合度計算ステップと、上記適合度
計算ステップにより計算された上記適合度のうち予め定
めた条件を満たす適合度である上記構文解析木を導出し
た上記ＲＮＡ配列を抽出する抽出ステップと、上記構造
トポロジーと上記ＲＮＡ配列とを二次元マトリックスで
表示し、上記二次元マトリックスにおいて上記抽出ステ
ップにて抽出された上記ＲＮＡ配列と上記構造トポロジ
ーに対応する格子部分に上記適合度を表示する適合度マ
トリックスを作成する適合度マトリックス作成ステップ
と、上記適合度マトリックス作成ステップにて作成され
た上記適合度マトリックスについて、上記適合度により
上記構造トポロジーをソートし、他のＲＮＡ配列につい
て当該ソートされた上記構造トポロジーの順番に対応す
る上記生成文法により構文解析を行い上記適合度が最大
となる上記構文解析木を求め、予め定めた条件を満たす
上記適合度を持つ上記構文解析木に対応する上記他のＲ
ＮＡ配列を抽出する共通構造抽出ステップとを含むこと
を特徴とする。

【００４０】この方法によれば、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、ＲＮＡ配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したＲＮ
Ａ配列を抽出し、構造トポロジーとＲＮＡ配列とを二次
元マトリックスで表示し、二次元マトリックスにおいて
抽出されたＲＮＡ配列と構造トポロジーに対応する格子
部分に適合度を表示する適合度マトリックスを作成し、
適合度マトリックスについて、適合度により構造トポロ
ジーをソートし、他のＲＮＡ配列について当該ソートさ
れた構造トポロジーの順番に対応する生成文法により構
文解析を行い適合度が最大となる構文解析木を求め、予
め定めた条件を満たす適合度を持つ構文解析木に対応す
る他のＲＮＡ配列を抽出するので、共通の構造を持つＲ
ＮＡ配列を容易に発見することができるようになる。

【００４１】また、本発明はＲＮＡ配列解析方法をコン
ピュータに実行させるプログラムに関するものであり、
請求項１３に記載のプログラムは、ＲＮＡ二次構造の構
造トポロジーと、当該構造トポロジーに適合する生成文
法とを対応付けて格納する文法格納ステップと、ＲＮＡ
配列を上記生成文法に適用して構文解析木を導出する構
文解析ステップと、上記構文解析ステップにて導出され
た上記構文解析木に対して適合度の計算を行う適合度計
算ステップと、上記適合度計算ステップにより計算され
た上記適合度のうち予め定めた条件を満たす適合度であ
る上記構文解析木を上記適合度が高い順にソートするソ
ートステップと、上記ソートステップによりソートされ
た上記構文解析木を上記ＲＮＡ配列の二次構造の候補と
して出力する出力ステップとを含むことを特徴とする。

【００４２】このプログラムによれば、ＲＮＡ二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、ＲＮＡ配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算し、計算された適合度のうち予め定
めた条件を満たす適合度である構文解析木を適合度が高
い順にソートし、ソートされた構文解析木をＲＮＡ配列
の二次構造の候補として出力するので、一配列に対して
多文法で構文解析を行うことができるようになる。すな
わち、各生成文法に対してそれぞれ構文解析し適合度計
算を行い適合度を得る。その結果、生成文法ごとに適合
度が得られることになり、それらの適合度をソートする
ことによって生成文法に順位を付ける。これにより、生
成文法に対する構造トポロジーにも順位が付けられるこ
とになるので、最終的にＲＮＡ配列が取り得る可能性の
高い順に構造トポロジーを確認することができるように
なる。

【００４３】また、請求項１４に記載のプログラムは、
ＲＮＡ二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、ＲＮＡ配列を上記生成文法に適用して構文
解析木を導出する構文解析ステップと、上記構文解析ス
テップにて導出された上記構文解析木に対して適合度の
計算を行う適合度計算ステップと、上記適合度計算ステ
ップにより計算された上記適合度のうち予め定めた条件
を満たす適合度である上記構文解析木を導出した上記Ｒ
ＮＡ配列を上記構造トポロジーの二次構造を持つＲＮＡ
配列の候補として出力する出力ステップとを含むことを
特徴とする。

【００４４】このプログラムによれば、ＲＮＡ二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、ＲＮＡ配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たＲＮＡ配列を上記構造トポロジーの二次構造を持つＲ
ＮＡ配列の候補として出力するので、多配列に対して一
文法で構文解析を行うことができるようになる。すなわ
ち、与えられた特定の構造トポロジーに対し、対応する
生成文法を取得し、これを用いてＲＮＡ配列データベー
スに格納されているすべてまたは一部のＲＮＡ配列をそ
れぞれ構文解析し、ある閾値以下の適合度で構文解析に
成功したＲＮＡ配列群を結果として出力する。これによ
り、与えられた特定の二次構造を取り得るようなＲＮＡ
配列を検索することができるようになる。

【００４５】また、請求項１５に記載のプログラムは、
ＲＮＡ二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、ＲＮＡ配列を上記生成文法に適用して構文
解析木を導出する構文解析ステップと、上記構文解析ス
テップにて導出された上記構文解析木に対して適合度の
計算を行う適合度計算ステップと、上記適合度計算ステ
ップにより計算された上記適合度のうち予め定めた条件
を満たす適合度である上記構文解析木を導出した上記Ｒ
ＮＡ配列を抽出する抽出ステップと、上記構造トポロジ
ーと上記ＲＮＡ配列とを二次元マトリックスで表示し、
上記二次元マトリックスにおいて上記抽出ステップにて
抽出された上記ＲＮＡ配列と上記構造トポロジーに対応
する格子部分をマークすることにより、上記ＲＮＡ配列
間で共通に有する構造トポロジーを可視化する共通構造
マトリックス作成ステップとを含むことを特徴とする。

【００４６】このプログラムによれば、ＲＮＡ二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、ＲＮＡ配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たＲＮＡ配列を抽出し、構造トポロジーとＲＮＡ配列と
を二次元マトリックスで表示し、二次元マトリックスに
おいて抽出されたＲＮＡ配列と構造トポロジーに対応す
る格子部分をマークすることにより、ＲＮＡ配列間で共
通に有する構造トポロジーを可視化するので、ＲＮＡ配
列間の共通構造を容易に発見することができるようにな
る。

【００４７】また、請求項１６に記載のプログラムは、
ＲＮＡ二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、利用者が入力したＤＮＡ配列から転写され
るＲＮＡ配列を作成するＲＮＡ配列作成ステップと、上
記ＲＮＡ配列作成ステップにより作成された上記ＲＮＡ
配列に対して上記生成文法を適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導
出された上記構文解析木に対して適合度の計算を行う適
合度計算ステップと、上記適合度計算ステップにより計
算された上記適合度のうち予め定めた条件を満たす適合
度である上記構文解析木を導出した上記ＲＮＡ配列に対
応する上記ＤＮＡ配列部分を遺伝子の候補として予測す
る遺伝子予測ステップとを含むことを特徴とする。

【００４８】このプログラムによれば、ＲＮＡ二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、利用者が入力したＤＮＡ
配列から転写されるＲＮＡ配列を作成し、作成されたＲ
ＮＡ配列に対して生成文法を適用して構文解析木を導出
し、導出された構文解析木に対して適合度の計算を行
い、計算された適合度のうち予め定めた条件を満たす適
合度である構文解析木を導出したＲＮＡ配列に対応する
ＤＮＡ配列部分を遺伝子の候補として予測するので、Ｄ
ＮＡ配列のうち既知のトポロジーを有する可能性のある
ＲＮＡ配列に対応する部分について、遺伝子部分である
可能性があることを予測することができるようになる。

【００４９】また、請求項１７に記載のプログラムは、
ＲＮＡ二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、ＲＮＡ配列を上記生成文法に適用して構文
解析木を導出する構文解析ステップと、上記構文解析ス
テップにて導出された上記構文解析木に対して適合度の
計算を行う適合度計算ステップと、上記適合度計算ステ
ップにより計算された上記適合度に基づいて上記ＲＮＡ
配列間の類似度を計算する類似度計算ステップとを含む
ことを特徴とする。

【００５０】このプログラムによれば、ＲＮＡ二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、ＲＮＡ配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度に基づい
てＲＮＡ配列間の類似度を計算するので、ＲＮＡ構造の
類似度を容易に求めることができるようになる。

【００５１】また、請求項１８に記載のプログラムは、
ＲＮＡ二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、ＲＮＡ配列を上記生成文法に適用して構文
解析木を導出する構文解析ステップと、上記構文解析ス
テップにて導出された上記構文解析木に対して適合度の
計算を行う適合度計算ステップと、上記適合度計算ステ
ップにより計算された上記適合度のうち予め定めた条件
を満たす適合度である上記構文解析木を導出した上記Ｒ
ＮＡ配列を抽出する抽出ステップと、上記構造トポロジ
ーと上記ＲＮＡ配列とを二次元マトリックスで表示し、
上記二次元マトリックスにおいて上記抽出ステップにて
抽出された上記ＲＮＡ配列と上記構造トポロジーに対応
する格子部分に上記適合度を表示する適合度マトリック
スを作成する適合度マトリックス作成ステップと、上記
適合度マトリックス作成ステップにて作成された上記適
合度マトリックスについて、上記適合度により上記構造
トポロジーをソートし、他のＲＮＡ配列について当該ソ
ートされた上記構造トポロジーの順番に対応する上記生
成文法により構文解析を行い上記適合度が最大となる上
記構文解析木を求め、予め定めた条件を満たす上記適合
度を持つ上記構文解析木に対応する上記他のＲＮＡ配列
を抽出する共通構造抽出ステップとを含むことを特徴と
する。

【００５２】このプログラムによれば、ＲＮＡ二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、ＲＮＡ配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たＲＮＡ配列を抽出し、構造トポロジーとＲＮＡ配列と
を二次元マトリックスで表示し、二次元マトリックスに
おいて抽出されたＲＮＡ配列と構造トポロジーに対応す
る格子部分に適合度を表示する適合度マトリックスを作
成し、適合度マトリックスについて、適合度により構造
トポロジーをソートし、他のＲＮＡ配列について当該ソ
ートされた構造トポロジーの順番に対応する生成文法に
より構文解析を行い適合度が最大となる構文解析木を求
め、予め定めた条件を満たす適合度を持つ構文解析木に
対応する他のＲＮＡ配列を抽出するので、共通の構造を
持つＲＮＡ配列を容易に発見することができるようにな
る。

【００５３】また、本発明は記録媒体に関するものであ
り、請求項１９に記載の記録媒体は、上記請求項１３か
ら１８のいずれか一つに記載されたプログラムを記録し
たことを特徴とする。

【００５４】この記録媒体によれば、当該記録媒体に記
録されたプログラムをコンピュータに読み取らせて実行
することによって、請求項１３から１８のいずれか一つ
に記載されたプログラムをコンピュータを利用して実現
することができ、これら各プログラムと同様の効果を得
ることができる。

【００５５】

【発明の実施の形態】以下に、本発明にかかるＲＮＡ配
列解析装置、ＲＮＡ配列解析方法、プログラム、およ
び、記録媒体の実施の形態を図面に基づいて詳細に説明
する。なお、この実施の形態によりこの発明が限定され
るものではない。特に、以下の実施の形態においては、
本発明を、木文法に適用した例について説明するが、こ
の場合に限られず、全ての生成文法において、同様に適
用することができる。

【００５６】［本システムの概要］以下、本システムの
概要について説明し、その後、本システムの構成および
処理等について詳細に説明する。このシステムは、概略
的に、以下の基本的特徴を有する。すなわち、本システ
ムのＲＮＡ配列解析装置は、ＲＮＡ二次構造の構造トポ
ロジーと、当該構造トポロジーに適合する生成文法とを
対応付けて格納し、ＲＮＡ配列を生成文法に適用して構
文解析木を導出し、導出された構文解析木に対して適合
度を計算し、計算された適合度のうち予め定めた条件を
満たす適合度である構文解析木を適合度が高い順にソー
トし、ソートされた構文解析木をＲＮＡ配列の二次構造
の候補として出力する。ここで、生成文法は、木文法、
文脈自由文法などを含むが、シュードノットを表現する
ためには木文法が最も適しているため、木文法を用いる
ことが好ましい。

【００５７】また、本装置は、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たＲＮＡ配列を上記構造トポロジーの二次構造を持つＲ
ＮＡ配列の候補として出力する。

【００５８】また、本装置は、計算された適合度のうち
予め定めた条件を満たす適合度である構文解析木を導出
したＲＮＡ配列を抽出し、構造トポロジーとＲＮＡ配列
とを二次元マトリックスで表示し、二次元マトリックス
において抽出されたＲＮＡ配列と構造トポロジーに対応
する格子部分をマークすることにより、ＲＮＡ配列間で
共通に有する構造トポロジーを可視化する。

【００５９】また、本装置は、利用者が入力したＤＮＡ
配列から転写されるＲＮＡ配列を作成し、作成されたＲ
ＮＡ配列に対して生成文法を適用して構文解析木を導出
し、導出された構文解析木に対して適合度の計算を行
い、計算された適合度のうち予め定めた条件を満たす適
合度である構文解析木を導出したＲＮＡ配列に対応する
ＤＮＡ配列部分を遺伝子の候補として予測する。

【００６０】さらに、本装置は、ＲＮＡ二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、ＲＮＡ配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度に基づいてＲＮ
Ａ配列間の類似度を計算する。

【００６１】［システム構成］まず、本システムの構成
について説明する。図５は、本発明が適用される本シス
テムの構成の一例を示すブロック図であり、該構成のう
ち本発明に関係する部分のみを概念的に示している。本
システムは、概略的に、配列情報を解析するＲＮＡ配列
解析装置であるＲＮＡ配列解析装置１００と、配列情報
等に関する外部データベースやホモロジー検索用の外部
分析プログラム等を提供する外部システム２００とを、
ネットワーク３００を介して通信可能に接続して構成さ
れている。

【００６２】図５においてネットワーク３００は、ＲＮ
Ａ配列解析装置１００と外部システム２００とを相互に
接続する機能を有し、例えば、インターネット等であ
る。

【００６３】図５において外部システム２００は、ネッ
トワーク３００を介して、ＲＮＡ配列解析装置１００と
相互に接続され、利用者に対して配列情報等に関する外
部データベースやホモロジー検索やモチーフ検索等の外
部分析プログラムを実行するウェブサイトを提供する機
能を有する。

【００６４】ここで、外部システム２００は、ＷＥＢサ
ーバやＡＳＰサーバ等として構成してもよく、そのハー
ドウェア構成は、一般に市販されるワークステーショ
ン、パーソナルコンピュータ等の情報処理装置およびそ
の付属装置により構成してもよい。また、外部システム
２００の各機能は、外部システム２００のハードウェア
構成中のＣＰＵ、ディスク装置、メモリ装置、入力装
置、出力装置、通信制御装置等およびそれらを制御する
プログラム等により実現される。

【００６５】図５においてＲＮＡ配列解析装置１００
は、概略的に、ＲＮＡ配列解析装置１００の全体を統括
的に制御するＣＰＵ等の制御部１０２、通信回線等に接
続されるルータ等の通信装置（図示せず）に接続される
通信制御インターフェース部１０４、入力装置１１２お
よび出力装置１１４に接続される入出力制御インターフ
ェース部１０８、および、各種のデータベースやテーブ
ル（ＲＮＡ配列データベース１０６ａ〜共通構造マトリ
ックス１０６ｃ）を格納する記憶部１０６を備えて構成
されており、これら各部は任意の通信路を介して通信可
能に接続されている。さらに、このＲＮＡ配列解析装置
１００は、ルータ等の通信装置および専用線等の有線ま
たは無線の通信回線を介して、ネットワーク３００に通
信可能に接続されている。

【００６６】記憶部１０６に格納される各種のデータベ
ース（ＲＮＡ配列データベース１０６ａ〜共通構造マト
リックス１０６ｃ）は、固定ディスク装置等のストレー
ジ手段であり、各種処理に用いる各種のプログラムやテ
ーブルやファイルやデータベースやウェブページ用ファ
イル等を格納する。

【００６７】これら記憶部１０６の各構成要素のうち、
ＲＮＡ配列データベース１０６ａは、ＲＮＡ配列を格納
したデータベースである。ＲＮＡ配列データベース１０
６ａは、インターネットを経由してアクセスする外部の
ＲＮＡ配列データベースであってもよく、また、これら
のデータベースをコピーしたり、オリジナルの配列情報
を格納したり、さらに独自のアノテーション情報等を付
加したりして作成したインハウスデータベースであって
もよい。また、ＲＮＡ配列データベース１０６ａは、ｃ
ＤＮＡ等のＤＮＡ配列データベースに基づいて予め生成
された、あるいは必要時に動的に生成されたＲＮＡ配列
を格納したものでもよい。

【００６８】また、文法データベース１０６ｂは、ＲＮ
Ａ二次構造の構造トポロジーと、当該構造トポロジーに
適合する生成文法とを対応付けて格納する文法格納手段
である。ここで、図６は、文法データベース１０６ｂに
格納される情報の一例を示す図である。図６に示すよう
に、文法データベース１０６ｂは、構造トポロジーと、
その構造トポロジーに対応する文法とを対応付けて格納
する。ここで、文法データベース１０６ｂには、図６に
示したように、構造トポロジーと文法とが１対１で対応
するようにしてもよく、また、複数のトポロジーが結合
した文法（例えば、シュードノットとヘアピンループと
を両方持つトポロジーなど）や、特徴的な構造を有する
ＲＮＡ用の文法（例えば、ｒＲＮＡに特有の構造トポロ
ジーなど）や、所定のカテゴリーのＲＮＡが共通で備え
るトポロジー用の文法や、全てのＲＮＡに適合する文法
などを規定してもよい。

【００６９】また、共通構造マトリックス１０６ｃは、
構造トポロジーとＲＮＡ配列とを二次元マトリックスで
表示するためのテーブル（記憶領域）である。

【００７０】また、図５において、通信制御インターフ
ェース部１０４は、ＲＮＡ配列解析装置１００とネット
ワーク３００（またはルータ等の通信装置）との間にお
ける通信制御を行う。すなわち、通信制御インターフェ
ース部１０４は、他の端末と通信回線を介してデータを
通信する機能を有する。

【００７１】また、図５において、入出力制御インター
フェース部１０８は、入力装置１１２や出力装置１１４
の制御を行う。ここで、出力装置１１４としては、モニ
タ（家庭用テレビを含む）の他、スピーカを用いること
ができる（なお、以下においては出力装置をモニタとし
て記載する）。また、入力装置１１２としては、キーボ
ード、マウス、および、マイク等を用いることができ
る。また、モニタも、マウスと協働してポインティング
デバイス機能を実現する。

【００７２】また、図５において、制御部１０２は、Ｏ
Ｓ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プロ
グラム、各種の処理手順等を規定したプログラム、およ
び所要データを格納するための内部メモリを有し、これ
らのプログラム等により、種々の処理を実行するための
情報処理を行う。制御部１０２は、機能概念的に、構造
予測部１０２ａ、類似度計算部１０２ｄ、共通構造マト
リックス作成部１０２ｆ、および、遺伝子予測部１０２
ｇを備えて構成されている。

【００７３】このうち、構造予測部１０２ａは、入力さ
れた既知の文法に従ってＲＮＡ配列の構文解析を行い構
文解析木を導出する機能（構文解析部１０２ｂ）、およ
び、導出された構文解析木に対して適合度の計算を行う
機能（適合度計算部１０２ｃ）などを有する。

【００７４】また、類似度計算部１０２ｄは、複数のＲ
ＮＡ配列間の類似度を計算する類似度計算手段である。

【００７５】また、共通構造マトリックス作成部１０２
ｆは、適合度計算手段により計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たＲＮＡ配列を抽出する抽出手段、および、構造トポロ
ジーとＲＮＡ配列とを二次元マトリックスで表示し、二
次元マトリックスにおいて抽出手段にて抽出されたＲＮ
Ａ配列と構造トポロジーに対応する格子部分をマークす
ることにより、ＲＮＡ配列間で共通に有する構造トポロ
ジーを可視化する共通構造マトリックス作成手段、二次
元マトリックスにおいて抽出手段にて抽出されたＲＮＡ
配列と構造トポロジーに対応する格子部分に適合度を表
示する適合度マトリックスを作成する適合度マトリック
ス作成手段、および、適合度マトリックス作成手段にて
作成された適合度マトリックスについて、適合度により
構造トポロジーをソートし、他のＲＮＡ配列について当
該ソートされた構造トポロジーの順番に対応する生成文
法により構文解析を行い適合度が最大となる構文解析木
を求め、予め定めた条件を満たす適合度を持つ構文解析
木に対応する他のＲＮＡ配列を抽出する共通構造抽出手
段である。

【００７６】また、遺伝子予測部１０２ｇは、利用者が
入力したＤＮＡ配列から転写されるＲＮＡ配列を作成す
るＲＮＡ配列作成手段、および、適合度計算手段により
計算された適合度のうち予め定めた条件を満たす適合度
である構文解析木を導出したＲＮＡ配列に対応するＤＮ
Ａ配列部分を遺伝子の候補として予測する遺伝子予測手
段である。なお、これら各部によって行なわれる処理の
詳細については、後述する。

【００７７】［システムの処理］次に、このように構成
された本実施の形態における本システムの処理の一例に
ついて、以下に図７〜図１１を参照して詳細に説明す
る。

【００７８】［ＲＮＡ二次構造予測処理］まず、ＲＮＡ
二次構造予測処理の詳細について図７を参照して説明す
る。図７は、本実施の形態における本システムのＲＮＡ
二次構造予測処理の一例を示す処理概念図である。

【００７９】まず、文法データベース１０６ｂに既知の
ＲＮＡの構造トポロジーを表す文法を集積する。そし
て、利用者が構造未知のＲＮＡ配列であってその二次構
造を特定したいものを入力装置１１２を介してＲＮＡ配
列解析装置１００に入力すると（ステップＳＡ−１）、
構造予測部１０２ａは、構文解析部１０２ｂの処理によ
り、文法データベース１０６ｂから文法を取り出し（ス
テップＳＡ−２）、ＲＮＡ配列に対して各文法を適合し
て構文解析（パーズ）を行う（ステップＳＡ−３）。こ
こで、利用者のＲＮＡ配列の入力は、ＲＮＡ配列データ
ベース１０６ａから所望の配列を選択することにより入
力してもよく、外部システム２００の外部データベース
から所望の配列を選択することにより入力してもよく、
さらに、所望の配列を直接入力してもよい。

【００８０】そして、構造予測部１０２ａは、適合度計
算部１０２ｃの処理により、パーズが成功し導出された
構文解析木について、例えば、ループや、塩基対とその
他の二次構造要素のそれぞれの自由エネルギーの合計な
どを計算することにより求める平衡自由エネルギー（Δ
Ｇ）などに基づいて適合度を求める。ここで、適合度計
算方法は、例えば上述した文献１から３に示した方法の
ほか、従来のいずれの方法を用いてもよい。

【００８１】そして、構造予測部１０２ａは、計算され
た適合度のうち予め定めた条件を満たす適合度である構
文解析木を適合度が高い順にソートする（ステップＳＡ
−４）。

【００８２】そして、構造予測部１０２ａは、入出力制
御インターフェース部１０８を介して出力装置１１４に
ソートされた構文解析木とその適合度を出力することに
より、利用者が入力した一配列に対して多文法で構文解
析を行うことができるようになる。すなわち、各生成文
法に対してそれぞれ構文解析し適合度計算を行い適合度
を得る。その結果、生成文法ごとに適合度が得られるこ
とになり、それらの適合度をソートすることによって生
成文法に順位を付ける。これにより、生成文法に対する
構造トポロジーにも順位が付けられることになるので、
最終的にＲＮＡ配列が取り得る可能性の高い順に構造ト
ポロジーを確認することができるようになる。これに
て、ＲＮＡ二次構造予測処理が終了する。

【００８３】［同一構造ＲＮＡ配列抽出処理］次に、同
一構造ＲＮＡ配列抽出処理の詳細について図８を参照し
て説明する。図８は、本実施の形態における本システム
の同一構造ＲＮＡ配列抽出処理の一例を示す処理概念図
である。

【００８４】まず、利用者は、特定の構造トポロジーに
対応する文法を文法データベース１０６ｂから選択す
る。そして、構造予測部１０２ａは、構文解析部１０２
ｂの処理により、ＲＮＡ配列データベース１０６ａから
ＲＮＡ配列を取り出し（ステップＳＢ−１）、各ＲＮＡ
配列に対して文法を適合して（ステップＳＢ−２）、構
文解析を行う（ステップＳＢ−３）。

【００８５】そして、適合度計算部１０２ｃは、導出さ
れた構文解析木に対して適合度計算を行う。そして、構
造予測部１０２ａは、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したＲＮ
Ａ配列を、指定した文法が表す構造トポロジーの二次構
造を持つＲＮＡ配列の候補として抽出する（ステップＳ
Ｂ−４）。

【００８６】そして、構造予測部１０２ａは、抽出され
たＲＮＡ配列を当該文法が表す構造トポロジーの二次構
造をもつ可能性のあるものとして、入出力制御インター
フェース部１０８を介して出力装置１１４に出力する
（ステップＳＢ−５）。これにて、同一構造ＲＮＡ配列
抽出処理が終了する。

【００８７】［共通構造抽出処理］次に、共通構造抽出
処理の詳細について図９を参照して説明する。図９は、
本実施の形態における本システムの共通構造抽出処理の
一例を示す処理概念図である。

【００８８】まず、構造予測部１０２ａは、ＲＮＡ配列
データベース１０６ａから１つまたは２つ以上のＲＮＡ
配列を取り出し（ステップＳＣ−１およびステップＳＣ
−２）、構文解析部１０２ｂの処理により、各ＲＮＡ配
列に対して、文法データベース１０６ｂから取り出した
（ステップＳＣ−３）、１つまたは２つ以上の文法を適
合する（ステップＳＣ−４）。ＲＮＡ配列解析装置１０
０は、これらの取り出しや、パーズ処理について並列処
理を行ってもよく、また、順次処理を行ってもよい。

【００８９】そして、適合度計算部１０２ｃは、導出さ
れた構文解析木に対して適合度計算を行い、共通構造マ
トリックス作成部１０２ｆの処理により、計算された適
合度のうち予め定めた条件を満たす適合度である構文解
析木を導出したＲＮＡ配列を抽出する（ステップＳＣ−
５）。

【００９０】そして、共通構造マトリックス作成部１０
２ｆは、適合した文法が表す構造トポロジーとＲＮＡ配
列とを二次元マトリックスで表示し、二次元マトリック
スにおいて抽出されたＲＮＡ配列と構造トポロジーに対
応する格子部分をマークすることにより、ＲＮＡ配列間
で共通に有する構造トポロジーを可視化する（ステップ
ＳＣ−６）。

【００９１】ここで、マークは、図９に示すように対象
の格子部分に特定の色をつけてもよく、また、特定の記
号（○など）や文字（「Ｙ」など）を記載してもよい。
これにより、例えば、縦方向にマークが連続した場合
（図９に示す例においては、２番目の構造トポロジーの
列）には、この構造トポロジーが各ＲＮＡ配列に共通に
持っている配列であることが可視的に把握することがで
きるようになる。これにて、共通構造抽出処理が終了す
る。

【００９２】［構造類似度計算処理］次に、構造類似度
計算処理の詳細について図１０を参照して説明する。図
１０は、本実施の形態における本システムの構造類似度
計算処理の一例を示す処理概念図である。

【００９３】まず、利用者が、入力装置１１２により類
似度を計算したい複数（図１０の例では２個）のＲＮＡ
配列をＲＮＡ配列解析装置１００に入力する（ステップ
ＳＥ−１）。

【００９４】そして、類似度計算部１０２ｄは、文法デ
ータベース１０６ｂから１つまたは２つ以上の文法を取
り出し（ステップＳＥ−２）、構文解析部１０２ｂの処
理により、入力したＲＮＡ配列について文法を適合して
構文解析を行う（ステップＳＥ−３）。また、適合度計
算部１０２ｃは、導出された構文解析木に対して適合度
計算を行う（ステップＳＥ−４）。

【００９５】そして、類似度計算部１０２ｄは、文法を
適合することにより導出された構文解析木と適合度（導
出されなかった場合には、それを表現する特別な値を設
定する）を各ＲＮＡ配列ごとに対応付けてベクトル演算
や内積の計算などをすることにより（ステップＳＥ−
５）、ＲＮＡ配列間の類似度を計算する（ステップＳＥ
−６）。

【００９６】例えば、入力であるｉ個のＲＮＡ配列をＲ
ＮＡ₁，ＲＮＡ₂，．．．，ＲＮＡ_iとし、文法データベ
ース１０６ｂに格納されているＮ個の文法をＧ₁，
Ｇ₂，．．．，Ｇ_Nとし、また、ＲＮＡ配列ｘと文法ｇに
対するパーザが成功したときの適合度をｒ（ｘ，ｇ）と
する。ここで、適合度は実数値とし、適合度が大きいほ
どその構造を取り易いことを示すものとする。また、入
力ＲＮＡ_jに関する適合度のベクトルＲ_jにおいて、Ｒ_j
のｋ番目の要素Ｒ_j［ｋ］は、ＲＮＡ_jとＧ_kに対するパ
ーザが成功したときはｒ（ＲＮＡ_j，Ｇ _k）とし、ＲＮＡ
_jとＧ_kに対するパーザが失敗したときは仮に「×」とす
る。

【００９７】このとき、類似度計算部１０２ｄによる類
似度計算は、以下の手法により行われる。まず、２つの
ＲＮＡ配列の適合度のベクトルＲ₁とＲ₂を入力する。

【００９８】ついで、類似度計算部１０２ｄは、類似度
ベクトルＳ₁、Ｓ₂とペナルティＰを求める。ここで、
「ペナルティＰ」は、Ｒ₁［ｋ］とＲ₂［ｋ］の片方だけ
が「パーザ失敗（×）」であるｋの個数であり、「類似
度ベクトルＳ₁、Ｓ₂」は、Ｒ₁［ｋ］もＲ₂［ｋ］も「パ
ーザ失敗（×）」ではない箇所だけを抜き出したベクト
ルである。図１２は、ペナルティＰと類似度ベクトルＳ
₁、Ｓ₂の概念を説明する図である。

【００９９】ついで、類似度計算部１０２ｄは、類似度
ベクトルＳ₁、Ｓ₂間の距離Ｄを以下の方法により求め
る。まず、類似度ベクトルＳ₁、Ｓ₂の要素数（ベクトル
の次元）をＭとする。そして、類似度計算で一般的に用
いられるユークリッド距離を用いて以下の数式により距
離を計算する。Ｄ＝ｓｑｒｔ（Σ｛（Ｓ₁［ｋ］ −Ｓ₂［ｋ］）²｝）（ｓｑｒｔは平方根であり、Σはｋ＝１〜Ｍに関する総
和である。）

【０１００】ここで、距離Ｄが大きい場合には類似度が
低いことになり、また、ペナルティＰが大きいと類似度
が低いことになるので、ペナルティＰと距離Ｄを用いて
以下の数式により類似度Ｓｉｍを求める。Ｓｉｍ＝ａ^P／Ｄ（ａは定数（０＜ａ＜１）である。）

【０１０１】そして、Ｓｉｍを類似度として出力する。
ここで、定数ａを小さくすると、距離Ｄよりもペナルテ
ィＰが重視されることになる。これにて、構造類似度計
算処理が終了する。

【０１０２】［遺伝子予測処理］次に、遺伝子予測処理
の詳細について図１１を参照して説明する。図１１は、
本実施の形態における本システムの遺伝子予測処理の一
例を示す処理概念図である。

【０１０３】まず、利用者が遺伝子部分が未知のＤＮＡ
配列を入力装置１１２を介してＲＮＡ配列解析装置１０
０に入力すると、ＲＮＡ配列解析装置１００は、遺伝子
予測部１０２ｇの処理により、入力されたＤＮＡ配列に
基づいて、当該ＤＮＡ配列から転写されるＲＮＡ配列
（以下、「予測ＲＮＡ配列」という）を自動的に変換し
て作成する（ステップＳＦ−１）。ここで、利用者のＤ
ＮＡ配列の入力は、外部システム２００の外部データベ
ースやインハウスデータベースから所望のＤＮＡ配列を
選択することにより入力してもよく、さらに、所望の配
列を直接入力してもよい。

【０１０４】ついで、構造予測部１０２ａがこの予測Ｒ
ＮＡ配列を構文解析部１０２ｂに入力すると（ステップ
ＳＦ−２）、構文解析部１０２ｂの処理により、文法デ
ータベース１０６ｂから１つまたは２つ以上の文法が取
り出され（ステップＳＦ−３）、各文法を予測ＲＮＡ配
列に適合する（ステップＳＦ−４）。

【０１０５】そして、適合度計算部１０２ｃは、構文解
析部１０２ｂが導出した構文解析木について適合度計算
を行い（ステップＳＦ−５）、遺伝子予測部１０２ｇ
は、計算された適合度のうち予め定めた条件を満たす適
合度である構文解析木を導出した予測ＲＮＡ配列に対応
するＤＮＡ配列部分を遺伝子の候補として予測する（ス
テップＳＦ−６）。すなわち、ＤＮＡ配列のうち、当該
予測ＲＮＡ配列の部分が遺伝子部分である可能性が高い
領域として出力される。

【０１０６】これにより、ＤＮＡ配列のうち既知のトポ
ロジーを有する可能性のある予測ＲＮＡ配列に対応する
部分について、遺伝子部分である可能性があることを予
測することができるようになる。これにて、遺伝子予測
処理が終了する。

【０１０７】［実施例］本発明の実施例について、以下
に図１３〜図２３を参照して説明する。１準備本節では実施例の準備として、いくつかの具体的なＲＮ
Ａ二次構造トポロジーを定義し、それらをモデリングす
る生成文法を規定する。本実施例では説明の便宜上、生
成文法として文脈自由文法を用いるが、よりモデリング
能力の高いＲＮＡ木文法（文献１）を用いた場合でも同
様のことが説明できる。

【０１０８】１．１二次構造トポロジー図１３に示される２つのＲＮＡ二次構造トポロジーを考
える。ステムループは、ステム（Ｈ（ａ））とヘアピン
ループ（Ｌ（ａ））から構成される。２並列ステムルー
プは、並列に並んだ２つのステムループから構成され
る。それぞれのステム部分（Ｈ₁（ｂ）、Ｈ₂（ｂ））と
ヘアピンループ部分、（Ｌ₁（ｂ）、Ｌ₂（ｂ））の他に
ステムとステムをつなぐループ部分（Ｉ（ｂ））があ
る。

【０１０９】上記構造トポロジーについて、さらに具体
的な特徴を考えることができる。例えばステムやループ
部分のサイズの制約、ステムを構成する塩基対にミスマ
ッチ（内部ループやバルジループ）を許すかどうか、あ
るいは特定の場所に特定の塩基配列を含むかどうか、な
どといったより詳細な特徴を持ったトポロジーを考える
ことが可能である。そこで、本実施例では次のような特
徴を持ったＲＮＡ二次構造トポロジーＴ₁、Ｔ₂を扱う。

【０１１０】トポロジーＴ₁ − 以下の特徴を持ったステムループ構造（図１３
（ａ）参照）である。 − ステム（Ｈ（ａ））を構成する塩基対はミスマ
ッチを含まない。 − ステム（Ｈ（ａ））サイズは１塩基対以上とす
る。 − ヘアピンループ（Ｌ（ａ））のサイズは１塩基
以上とする。

【０１１１】トポロジーＴ₂ − 以下の特徴を持った２並列ステムループ構造
（図１３（ｂ）参照）である。 − トポロジーＴ₁を２つ並列に並べたもの。 − ステム（Ｈ₁（ｂ））とステム（Ｈ₂（ｂ））の
間のループ（Ｉ（ｂ））の長さは１塩基以上とする。

【０１１２】１．２文脈自由文法による二次構造ト
ポロジーのモデリング以上のように定義された２つのトポロジーＴ₁、Ｔ₂を文
脈自由文法を用いてモデリングする。文脈自由文法は一
般に以下の４項組によって規定される。Ｇ＝（Ｎ，Σ，Ｐ，Ｓ）Ｎは非終端記号の有限集合、Σは終端記号の有限集合、
Ｐは生成規則の有限集合、Ｓは開始記号を表す。

【０１１３】しかしながら、本実施例では常にΣ＝
｛ａ，ｕ，ｇ，ｃ｝、開始記号はＳ、さらにＮは生成規
則Ｐに出現する非終端記号のみからなるものとすること
から、Ｐのみを指定することにより文脈自由文法Ｇを規
定することができる。よって便宜上、本稿では文脈自由
文法Ｇを規定する際には、生成規則の有限集合Ｐのみを
指定することにする。

【０１１４】（１）トポロジーＴ₁は以下の生成規則か
らなる文脈自由文法Ｇ₁によってモデリングされる。

【数１】

【０１１５】すなわち、ワトソン−クリック塩基対のみ
を考える場合は、一番最初の生成規則は以下と同値であ
る。Ｓ→ａＨｕ｜ｕＨａ｜ｇＨｃ｜ｃＨｇ非ワトソン−クリック塩基対を許す場合はさらに、Ｓ→
ｇＨｕなどを追加してもよい。

【０１１６】Ｇ₁において、

【数２】によって塩基対（ステムを構成）が生成され、Ｌ→ｘＬ
とＬ→ｘによって塩基対を形成しない塩基（ループを構
成）が生成されるとみなす。すると、Ｇ₁はＲＮＡの二
次構造を生成することができることになる。このよう
に、任意の文脈自由文法Ｇに対して、Ｇが生成すること
ができるすべてのＲＮＡ二次構造からなる集合ＳＳ
（Ｇ）が規定されることになる。

【０１１７】Ｇ₁がトポロジーＴ₁をモデリングする、と
は以下が成り立つことを言う。“Ｇ ₁はトポロジーＴ₁の
性質を満たすすべてのＲＮＡ二次構造を生成することが
でき、なおかつ、Ｇ₁で生成することができるすべての
ＲＮＡ二次構造はトポロジーＴ₁の性質を満たす。”

【０１１８】これは、Ｇ₁による導出をみれば自明であ
る。Ｇ₁による導出はすべて以下のようになる。

【数３】

【０１１９】よって、Ｇ₁はＴ₁をモデリングすることが
わかる。

【０１２０】（２）トポロジーＴ₂は以下の生成規則か
らなる文脈自由文法Ｇ₂によってモデリングされる。

【数４】

【０１２１】以下の生成規則からなる文脈自由文法Ｇ₀
は、文脈自由文法によって生成することが可能なすべて
のＲＮＡ二次構造を生成することができる万能な文脈自
由文法である。

【数５】ただし、λは空文字を表す。例えば、Ｇ₁によるいかな
る導出もＧ₀によってシミュレートできる。すなわち、
以下のような導出をＧ₀によって行なうことが可能であ
る。

【数６】

【０１２２】上記の導出は非終端記号以外、すなわち生
成されるＲＮＡ二次構造は、Ｇ₁によって生成されるも
のとまったく同じである。よってＧ₁が生成可能なすべ
ての二次構造をＧ₀によって生成可能なことがわかる。
すなわち、ＳＳ（Ｇ₀）⊇ＳＳ（Ｇ₁）である。

【０１２３】このように、どんな文脈自由文法Ｇに対し
てもＳＳ（Ｇ₀）⊇ＳＳ（Ｇ）が成り立つことが知られている。以降では、このような
万能文法によって生成される二次構造全体を“すべての
二次構造”と考える。

【０１２４】１．３構文解析木と適合度ある与えられたＲＮＡ配列がある与えられたＲＮＡ二次
構造トポロジーの性質を満たす二次構造を形成できるか
どうかという問題は、対象トポロジーをモデリングした
文法によって対象配列が導出できるかという問題に対応
する。これは生成文法の構文解析アルゴリズムによって
解くことができる。

【０１２５】構文解析アルゴリズムは、与えられた文法
によって、与えられた配列が導出できるかどうかを判定
し、導出可能な場合はその導出過程、すなわち構文解析
木を出力する。二次構造トポロジーをモデリングした文
法において、構文解析木は二次構造を表現しているの
で、構文解析アルゴリズムは、対象トポロジーに適合す
る具体的な二次構造を出力すると解釈してよいことにな
るからである。

【０１２６】ＲＮＡ配列ｓ₁＝ｇｇｇｇａａａｃｃｃｃ
がトポロジーＴ₁、Ｔ₂に適合する二次構造を形成できる
かどうかについて考える。配列ｓ₁はＧ₁によって以下の
ように導出できる。これにより配列ｓ₁はＴ₁に適合する
二次構造をとりうることがわかる。Ｓ→ｇＨｃ→ｇｇＨｃｃ→ｇｇｇＨｃｃｃ→ｇｇｇｇＨｃｃｃｃ →ｇｇｇｇＬｃｃｃｃ→ｇｇｇｇａＬｃｃｃｃ→ｇｇｇｇａａＬｃｃｃｃ →ｇｇｇｇａａａｃｃｃｃ（１）

【０１２７】また、ｓ₁はＧ₁によって以下のようにも導
出できる。Ｓ→ｇＨｃ→ｇｇＨｃｃ→ｇｇｇＨｃｃｃ →ｇｇｇＬｃｃｃ→ｇｇｇｇＬｃｃｃ→ｇｇｇｇａＬｃｃｃ →ｇｇｇｇａａＬｃｃｃ→ｇｇｇｇａａａＬｃｃｃ →ｇｇｇｇａａａｃｃｃｃ（２）

【０１２８】しかし、ｓ₁はＧ₂によって導出することは
できない。これによりｓ₁はトポロジーＴ₂に適合する二
次構造をとりえないことがわかる。

【０１２９】ｓ₁をＧ₁によって上記の２通りの方法で導
出するとき、それぞれの導出に対応する構文解析木とそ
れが表現する二次構造を図１４に示す。すなわち、
（１）のように導出した場合は、図１４の（１）に示さ
れる構文解析木と二次構造が生成され、（２）のように
導出した場合は、図１４の（２）に示される構文解析木
と二次構造が生成される。

【０１３０】この例のように複数の構文解析木が得られ
たときに、どの構文解析木、すなわち、どの二次構造を
結果として出力するかを決定する必要が生じる。そのた
めに、何らかの評価関数によって構文解析木（あるいは
二次構造）にスコアを与え、構文解析木（あるいは二次
構造）に順位を付ける必要が生じる。このようなスコア
は文法によって異なる評価関数を用いても良いし、文法
に依存しない絶対的な評価関数であってもよい。以降で
は、このスコアを適合度と呼ぶ。

【０１３１】以下に、これまでに利用されている適合度
の評価法の例を示すが、本発明によって利用される適合
度は以下のものに限定されない。

【０１３２】（１）塩基対数による適合度の評価一般に、塩基対を形成する際の水素結合によってＲＮＡ
分子はエネルギー的に安定なものになる。そこでこの評
価法では、単純に塩基対の数が多い二次構造ほど優先さ
せる。つまり、構文解析木の適合度として、対応する二
次構造の塩基対数を用いる。この評価法において、上記
の例の適合度を評価すると、図１４の（１）に示される
構文解析木は適合度３となり、（２）に示される構文解
析木は適合度２となり、適合度の大きい（１）の構造が
採用されることになる。

【０１３３】本評価法に基づいた代表的な手法として、
Ｎｕｓｓｉｎｏｖの折り畳みアルゴリズム［Ｎｕｓｓｉ
ｎｏｖ，Ｒ．，Ｐｉｅｃｘｅｎｋ，Ｇ．，ｇｅｉｇｇ
ｓ，ｊ．Ｒ．，ａｎｄＫｌｅｉｔｍａｎ，Ｄ．Ｊ．，
“ Ａｌｇｏｒｉｔｈｍｓｆｏｒｌｏｏｐｍａｔ
ｃｈｉｎｇｓ，” ＳＩＡＭｊｏｕｒｎａｌｏｆＡ
ｐｐｌｉｅｄＭａｔｈｅｍａｔｉｃｓ，３５，６
８−８２，１９７８］がある。

【０１３４】（２）平衡自由エネルギー（ΔＧ）によ
る適合度の評価ＲＮＡ二次構造の物理化学的な安定度を計算するため
に、小さなモデルＲＮＡ分子の熱力学的な実験によって
決定された平衡自由エネルギー（ΔＧ）パラメータを利
用する方法がある。ある二次構造の（ΔＧ）は、それを
構成する塩基対やループなどの二次構造要素に対する自
由エネルギーの合計で近似される。この自由エネルギー
パラメータでは、塩基対により構造が安定化し、ループ
により構造が不安定化する。各二次構造要素の詳細なパ
ラメータは［Ｔｕｒｎｅｒ，Ｄ．Ｈ．，Ｓｕｇｉｍｏ
ｔｏ，Ｎ．，Ｊａｅｇｅｒ，Ｊ．Ａ．，Ｌｏｎｇｆｅｌ
ｌｏｗ，Ｃ．Ｅ．，Ｆｒｅｉｅｒ，Ｓ．Ｍ．，ａｎｄ
Ｋｉｅｒｚｅｋ，Ｒ．，“Ｉｍｐｒｏｖｅｄｐａｒａ
ｍｅｔｅｒｓｆｏｒｐｒｅｄｉｃｔｉｏｎｏｆＲ
ＮＡｓｔｒｕｃｔｕｒｅ，” ＣｏｌｄＳｐｒｉｎ
ｇＨａｒｂｏｒＳｙｍｐｏｓｉａＱｕａｎｔｉｔａ
ｔｉｖｅＢｉｏｌｏｇｙ，５２，１２３−１３３，
１９８７］に示されている。ここでは塩基対の自由エネ
ルギーを図１５に、ループの自由エネルギーを図１６に
示す。

【０１３５】上記の自由エネルギーパラメータを用いて
図１４の構造（１）と（２）の（ΔＧ）を求めると、そ
れぞれ以下のようになる。 ΔＧ（構造（１））＝ΔＧ（ｇｃ，ｇｃ）＋ΔＧ（ｇｃ，ｇｃ）＋ΔＧ（ｇｃ，ｇｃ）＋（ΔＧ）（サイズ３のヘアピンループ）＝（−２．９）＋（−２．９）＋（−２．９）＋７．４＝−１．３ ΔＧ（構造（２））＝ΔＧ（ｇｃ，ｇｃ）＋ΔＧ（ｇｃ，ｇｃ）＋ΔＧ（サイズ５のヘアピンループ）＝（−２．９）＋（−２．９）＋４．４＝−１．４

【０１３６】ここで注意すべきことは、塩基対の自由エ
ネルギーの計算方法である。連続して積み重なった２組
の塩基対に対してひとつのエネルギー値が与えられる。
すなわち、構造（１）では５’側から数えて１番目のｇ
ｃ塩基対と２番目のｇｃ塩基対に対して、ΔＧ（ｇｃ，
ｇｃ）が計算され、２番目のｇｃ塩基対と３番目のｇｃ
塩基対に対して、ΔＧ（ｇｃ，ｇｃ）が計算され、３番
目のｇｃ塩基対と４番目のｇｃ塩基対に対して、ΔＧ
（ｇｃ，ｇｃ）が計算される。これに対し構造（２）で
は５’側から数えて１番目のｇｃ塩基対と２番目のｇｃ
塩基対に対して、ΔＧ（ｇｃ，ｇｃ）が計算され、２番
目のｇｃ塩基対と３番目のｇｃ塩基対に対して、ΔＧ
（ｇｃ，ｇｃ）が計算される。

【０１３７】構文解析木の適合度を−ΔＧと定めると、
（１）の適合度は１．３となり、（２）の適合度は１．
４となり、結果として適合度の大きい（２）の構造が採
用されることになる。

【０１３８】ΔＧに基づいた代表的なＲＮＡ二次構造予
測システムとして、ＺｕｋｅｒのＭｆｏｌｄ（文献３）
がある。

【０１３９】（３）導出確率による適合度の評価確率文法とは個々の生成規則にその適用確率が付加され
た生成文法である。例えばＧ₁の各生成規則に以下のよ
うな確率ｐが付加されている確率文脈自由文法Ｇ₁を考
える。ｐ（Ｓ→ａＨｕ）＝０．２ｐ（Ｓ→ｕＨａ）＝０．２ｐ（Ｓ→ｇＨｃ）＝０．３ｐ（Ｓ→ｃＨｇ）＝０．３ｐ（Ｈ→ａＨｕ）＝０．２ｐ（Ｈ→ｕＨａ）＝０．２ｐ（Ｈ→ｇＨｃ）＝０．３ｐ（Ｈ→ｃＨｇ）＝０．２ｐ（Ｈ→Ｌ）＝０．１ｐ（Ｌ→ａＬ）＝０．２ｐ（Ｌ→ｕＬ）＝０．２ｐ（Ｌ→ｇＬ）＝０．１５ｐ（Ｌ→ｃＬ）＝０．１５ｐ（Ｌ→ａ）＝０．１ｐ（Ｌ→ｕ）＝０．１ｐ（Ｌ→ｇ）＝０．０５ｐ（Ｌ→ｃ）＝０．０５

【０１４０】このときＧ₁によるｓ₁の導出確率は次のよ
うにして計算される。すなわち、（１）の導出確率は、ｐ（Ｓ→ｇＨｃ）×ｐ（Ｈ→ｇＨｃ）×ｐ（Ｈ→ｇＨｃ）×ｐ（Ｈ→ｇＨｃ）× ｐ（Ｈ→Ｌ）×ｐ（Ｌ→ａＬ）×ｐ（Ｌ→ａＬ）×ｐ（Ｌ→ａ）＝０．３×０．３×０．３×０．３×０．１×０．２×０．２×０．１＝０．０００００３２４と計算される。また、（２）の導出確率は、ｐ（Ｓ→ｇＨｃ）×ｐ（Ｈ→ｇＨｃ）×ｐ（Ｈ→ｇＨｃ）×ｐ（Ｈ→Ｌ）×ｐ（Ｌ→ｇＬ）×ｐ（Ｌ→ａＬ）×ｐ（Ｌ→ａＬ）×ｐ（Ｌ→ａＬ）×ｐ（Ｌ→ｃ）＝０．３×０．３×０．３×０．１×０．１５×０．２×０．２×０．２ ×０．０５＝０．００００００１６２となる。

【０１４１】そこで構文解析木の適合度として導出確率
の自然対数をとると、（１）の適合度は１ｎ０．０００
００３２４＝−１２．６、（２）の適合度は１ｎ０．０
０００００１６２＝−１５．６となり、結果として適合
度の大きい（１）の構造が採用されることになる。

【０１４２】本評価法の根本である、各生成規則に付加
されるべき確率パラメータは、最尤推定法と内側・外側
アルゴリズム（ｉｎｓｉｄｅ−ｏｕｔｓｉｄｅａｌｇ
ｏｒｉｔｈｍ）などにより学習してもよいし、ヒューリ
スティクス（ｈｅｕｒｉｓｔｉｃｓ）などによって主観
的に推定してもよい。例えば、文献［Ｓａｋａｋｉｂａ
ｒａら“ＳｔｏｃｈａｓｔｉｃＣｏｎｔｅｘｔ−ｆｅ
ｅＧｒａｍｍａｒｓｆｏｒｔＲＮＡｍｏｄｅｌｉ
ｎｇ，” ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒ
ｃｈ，２２，５１１２−５１２０，１９９４．］では
複数のｔＲＮＡ配列からｔＲＮＡの構造をモデリングす
る確率文脈自由文法を学習する手法について述べられて
いる。

【０１４３】以上いくつかの適合度評価法について説明
したが、以降の説明では適合度として−ΔＧを用いる。

【０１４４】次にＲＮＡ配列ｓ₂＝ｇｃｃｃａｕａｇｇ
ｃａａａｇｃｃｕａｕｇｇｇｃがトポロジーＴ₁、Ｔ₂に
適合する二次構造を形成できるかどうかを考える。この
場合も同様にｓ₂がＧ₁、Ｇ₂によって導出できるかどう
かを調べればよい。結論からいうと、ｓ₂はＧ₁、Ｇ₂の
いずれからも導出することができる。さらにどちらの文
法でも複数の導出のしかたが存在する。それぞれの文法
について−ΔＧの適合度指標において最適な構文解析木
とそれに対応する二次構造を図１７に示す。

【０１４５】それぞれの構造のΔＧを求めると、以下の
ようになる。 ΔＧ（構造（１））＝ΔＧ（ｇｃ，ｃｇ）×２＋ΔＧ（ｃｇ，ｃｇ） ×２＋ΔＧ（ｃｇ，ａｕ）＋ΔＧ（ａｕ，ｕａ）＋ΔＧ（ｕａ，ａｕ）＋ΔＧ（ａｕ，ｇｃ）＋ΔＧ（ｇｃ，ｇｃ）＋ΔＧ（サイズ３のヘアピンループ）＝（−３．４）×２＋（−２．９）×２＋（−１．８）＋（−０．９）＋（−１．１）＋（−１．７）＋（−２．９）＋７．４＝−１３．６ ΔＧ（構造（２））＝ΔＧ（ｇｃ，ｃｇ）×２＋ΔＧ（ｃｇ，ｃｇ）×２＋ΔＧ（サイズ４のヘアピンループ）×２＝（−３．４）×２＋（−２．９）×２＋５．９×２＝−６．７よってトポロジーＴ₁に適合するＲＮＡ二次構造におい
てｓ₂がとりうる最適な構造の適合度は１３．６である
ことがわかる。また、トポロジーＴ₂に適合するＲＮＡ
二次構造においてｓ₂がとりうる最適な構造の適合度は
６．７であることがわかる。また、ｓ₂を万能な文法Ｇ₀
によって構文解析すると、最適構造として構造（１）が
見つかる。これにより、構造（１）が“すべての二次構
造”の中で最適な構造であることがわかる。このように
万能文法によって構文解析を行なうことにより、すべて
の構造の中から最適な構造を見つけ出すことができる。

【０１４６】本発明の基本となる“ＲＮＡ配列を生成文
法に適用して構文解析木を導出する構文解析手段と、上
記構文解析手段にて導出された構文解析木に対して適合
度の計算を行う適合度計算手段と、適合度最大の構文解
析木に対応する二次構造を出力する最適二次構造出力手
段”は、適合度計算を組み込んだ構文解析アルゴリズム
により実現されることになる。このような構文解析アル
ゴリズムを構造予測アルゴリズムと呼ぶ。ΔＧの適合度
を指標にしたＲＮＡ木文法に基づく構造予測アルゴリズ
ムは文献１に示されている。

【０１４７】２．発明実施例本節では、前節までに定義したＲＮＡ配列ｓ₁、ｓ₂、トポ
ロジーＴ₁、Ｔ₂およびそれらをモデリングする文脈自由
文法Ｇ₀、Ｇ₁、Ｇ₂、さらに適合度として−ΔＧを用い
た場合の実施例について示す。

【０１４８】はじめに、“ＲＮＡ二次構造の構造トポロ
ジーと、当該構造トポロジーに適合する生成文法とを対
応付けて格納する文法格納手段”においては、例えば
（Ｌｅｕ−ｔＲＮＡ，Ｇ’）や（１６ＳｒＲＮＡ，
Ｇ”）などのようにある構造トポロジーに付けられた名
称とその構造トポロジーをモデリングした文法が対応づ
けられて格納されている。本実施例では（ステムループ
Ｔ₁，Ｇ₁）と（２並列ステムループＴ₂，Ｇ₂）を含むよ
うな文法ＤＢを仮定する。また、ＲＮＡ配列ｓ₁とｓ₂を
含むＲＮＡ配列ＤＢを仮定する。

【０１４９】（１）生成文法と適合度計算で構造候補を
出力あるＲＮＡ配列に対して、これがとりうる構造トポロジ
ーを適合度が大きい順に知りたいとき、本発明によれ
ば、以下の手順でこれを調べることができる。例とし
て、入力配列をｓ₂、検査対象トポロジー集合をＴ₁、Ｔ
₂とした場合について示す。

【０１５０】手順１）ＲＮＡ配列を配列ＤＢから指定
する。あるいは直接入力する。ここではｓ₂を指定す
る。手順２）検査対象とするトポロジーの集合（生成文法
の集合）を文法ＤＢから選択する。ここではＴ₁とＴ
₂（Ｇ₁とＧ₂）を選択する。手順３）適合度の閾値を設定する。閾値は手順２で得
られた各トポロジー（生成文法）に対してそれぞれ設定
してもよいし、共通にひとつ設定してもよい。ここでは
Ｔ₁（Ｇ₁）に対して１０をＴ₂（Ｇ₂）に対して５を設定
する。手順４）手順１で得られた配列を手順２で得られた各
生成文法によってそれぞれ構文解析を行ない、適合度最
大の構文解析木を求める。ここではｓ₂をＧ₁によって構
文解析し、最大の適合度１３．６を持つ構文解析木を得
る（図１７（１）参照）。さらにｓ₂をＧ₂によって構文
解析し、最大の適合度６．７を持つ構文解析木を得る
（図１７（２）参照）。手順５）手順４で得られた構文解析木のうち手順３で
得られた閾値以上の適合度をもつ構文解析木を適合度の
大きい順にソートする。手順４で得られたＧ₁に対する
適合度１３．６の構文解析木１は手順３でＧ₁に対して
設定された閾値１０よりも大きいのでこれをソート対象
とする。手順４で得られたＧ₂に対する適合度６．７の
構文解析木２は手順３でＧ₂に対して設定された閾値５
よりも大きいのでこれをソート対象とする。上でソート
対象となった構文解析木を適合度の大きい順にソートす
ることによって、構文解析木１、構文解析木２の順に順
序づけされる。手順６）手順５でソートされた構文解析木の順に、対
応するトポロジー名、適合度、構文解析木（二次構造）
などを出力する。構文解析木１に対応して、ステムルー
プＴ₁、適合度１３．６、図１７（１）に示された二次
構造を出力する。構文解析木２に対応して、２並列ステ
ムループＴ₂、適合度６．７、図１７（２）に示された
二次構造を出力する。以上の結果から、選択されたトポロジー集合のなかでｓ
₂が適合する構造候補が図１８のように出力される。

【０１５１】従来の二次構造予測プログラムでは、与え
られた配列がとりうる構造のなかで最適あるいは準最適
な二次構造を順に出力するだけで、出力された構造がど
のようなトポロジーであるかはユーザが判断しなければ
ならなかった。本発明によれば、構造とトポロジーとを
対応付けて出力することができるので、予測結果の確認
にかかる労力が大きく軽減されることが期待される。

【０１５２】また、本発明の実施について厳密に上記の
手順と同じである必要はない。例えば、手順１と２は順
序をいれかえてもよいし、手順５の閾値により構文解析
木を取捨選択する部分は手順４の構文解析部分に含めて
しまってもよい。

【０１５３】（２）同じ構造を持つ配列の候補を出力ある構造トポロジーに対して、これに適合する二次構造
をとりうるＲＮＡ配列を探したいとき、本発明によれ
ば、以下の手順でこれを調べることができる。例とし
て、入力構造トポロジーをＴ₂、検査対象配列集合を
ｓ₁、ｓ₂とした場合について示す。手順１）トポロジー（生成文法）を文法ＤＢから選択
する。ここではＴ₂（Ｇ₂）を選択する。手順２）適合度の閾値を設定する。ここでは５を選択
する。手順３）検査対象とするＲＮＡ配列集合を配列ＤＢか
ら選択する。あるいは直接入力する。ここではｓ₁、ｓ₂
選択する。手順４）手順３で得られた各配列を、手順１で得られ
た生成文法によってそれぞれ構文解析を行ない、適合度
最大の構文解析木をそれぞれ求める。ここではｓ ₁をＧ₂
によって構文解析し、導出不能であることを得る。さら
にｓ₂をＧ₂によって構文解析し、最大の適合度６．７を
持つ構文解析木を得る。（図１７（２）参照）手順５）手順４で得られた構文解析木のうち手順２で
得られた閾値以上の適合度をもつ構文解析木に対応する
配列を出力する。手順４で得られたｓ₂のＧ₂に対する適
合度６．７の構文解析木は手順２で設定された閾値５よ
りも大きいのでｓ ₂を出力する。以上の結果から、選択
されたトポロジーをとりうる配列の候補が図１９のよう
に出力される。

【０１５４】本発明の実施について厳密に上記の手順と
同じである必要はない。例えば、手順１と２と３は任意
の順にいれかえてもよいし、手順５は手順４の構文解析
部分に含めてしまってもよい。

【０１５５】（３）共通構造抽出あるＲＮＡ配列の集合に対して、これらの配列が共通し
てとりうる構造トポロジーを調べたいとき、本発明によ
れば、以下の手順でこれを調べることができる。例とし
て、入力配列集合をｓ₁、ｓ₂とし、検査対象構造トポロ
ジーの集合をＴ ₁、Ｔ₂とした場合について示す。

【０１５６】手順１）ＲＮＡ配列の集合を配列ＤＢか
ら指定する。あるいは直接入力する。ここではｓ₁とｓ₂
を指定する。手順２）検査対象とするトポロジーの集合（生成文法
の集合）を文法ＤＢから選択する。ここではＴ₁（Ｇ₁）
とＴ₂（Ｇ₂）を選択する。手順３）適合度の閾値を設定する。閾値は手順２で得
られた各トポロジー（生成文法）に対してそれぞれ設定
してもよいし、共通にひとつ設定してもよい。ここでは
共通に０を設定する。手順４）手順１で得られた各配列を、手順２で得られ
た各生成文法によってそれぞれ構文解析を行ない、適合
度最大の構文解析木を求める。ｓ₁をＧ₁によって構文解
析し、最大の適合度１．４を持つ構文解析木を得る（図
１４（２）参照）。ｓ₁をＧ₂によって構文解析し、導出
不能であることを得る。ｓ₂をＧ₁によって構文解析し、
最大の適合度１３．６を持つ構文解析木を得る。（図１
７（１）参照）ｓ₂をＧ₂によって構文解析し、最大の適合度６．７を持
つ構文解析木を得る。（図１７（２）参照）手順５）手順４で得られた構文解析木のうち閾値以上
の適合度を持つ構文解析木を抽出する。手順４で得られ
たすべての構文解析木は手順３で得られた閾値０よりも
大きい適合度を持つので手順４で得られたすべての構文
解析木を抽出する。手順６）手順１で得られた配列集合を行に、手順２で
得られたトポロジー集合を列に、手順５で得られた構文
解析木の適合度を要素に持つマトリックスを作成する。
図２０に示すマトリックスを得る。以上の結果得られた
マトリックスを出力すれば、対象配列集合が共通してと
りうる構造トポロジーを容易に確認することが可能にな
る。あるいは、以下の追加手順を実行すれば、共通構造
の候補を順位づけて出力することができる。手順７）手順６で得られたマトリックスの各列、すな
わちトポロジー、に対してスコアを計算する。例えば、
有効な行要素の数を各列ごとに計算しスコアとすると、
Ｔ₁のスコアは２、Ｔ₂のスコアは１となる。例えば、各
行の適合度の総和を各列ごとに計算しスコアとすると、
Ｔ₁のスコアは１５．０、Ｔ₂のスコアは６．７となる。手順８）手順７で得られたスコアの高い順にトポロジ
ーをソートし、出力する。上記のいずれのスコアを用い
てもＴ₁、Ｔ₂の順に出力される。

【０１５７】また、本発明の実施について厳密に上記の
手順と同じである必要はない。例えば、手順１と２は順
序をいれかえてもよいし、手順５を手順４の構文解析部
分に含めてしまってもよい。

【０１５８】（４）ジーン・ファインダＲＮＡ遺伝子部分に対応する配列は、非常に安定な構造
をとりやすいので、適合度が高くなる。そこで本発明で
は、万能文法を用いて構文解析を行ない、適合度の高い
配列を配列ＤＢから選び出して遺伝子候補として出力す
る。例として、配列集合をｓ₁、ｓ₂とした場合について
示す。

【０１５９】手順１）検査対象とするＲＮＡ配列の集
合を配列ＤＢから指定する。あるいは直接入力する。こ
こではｓ₁とｓ₂を指定する。手順２）適合度の閾値を設定する。ここでは１０を設
定する。手順３）手順１で得られた各配列を万能文法Ｇ₀によ
ってそれぞれ構文解析を行ない、適合度最大の構文解析
木を求める。ｓ₁をＧ₀によって構文解析し、最大の適合
度１．４を持つ構文解析木を得る。ｓ₂をＧ₀によって構
文解析し、最大の適合度１３．６を持つ構文解析木を得
る。手順４）手順３で得られた構文解析木のうち閾値以上
の適合度をもつ構文解析木に対応する配列を遺伝子候補
として出力する。手順３で得られたｓ₁の構文解析木は
閾値１０に満たないのでｓ₁は出力しない。手順３で得
られたｓ₂の構文解析木は閾値１０よりも大きいのでｓ₂
を遺伝子候補として出力する。本発明の実施について厳
密に上記の手順と同じである必要はない。例えば、手順
１と２は順序をいれかえてもよいし、手順４は手順３の
構文解析部分に含めてしまってもよい。

【０１６０】（５）ＲＮＡ配列から同じ構造を持つＲ
ＮＡ配列を出力あるＲＮＡ配列集合に対して、これらと同じトポロジー
をとりうるＲＮＡ配列を調べたいとき、（３）の発明と
（２）の発明とを組み合わせた本発明によれば、以下の
手順でこれを調べることができる。例として、入力配列
をｓ＝ｇｃｃｃａａａａｇｇｇｃａｇｃｃｃａａａｇｇ
ｇｃ、検査対象トポロジー集合をＴ₁、Ｔ₂、検査対象配
列集合をｓ₁、ｓ₂とした場合について示す。

【０１６１】手順１）ＲＮＡ配列集合を入力する。こ
こではｓのみからなる配列集合を入力する。手順２）検査対象とするＲＮＡ配列の集合を配列ＤＢ
から指定する。ここではｓ₁とｓ₂を指定する。手順３）検査対象とするトポロジーの集合（生成文法
の集合）を文法ＤＢから選択する。ここではＴ₁（Ｇ₁）
とＴ₂（Ｇ₂）を選択する。手順４）適合度の閾値を設定する。閾値は手順３で得
られた各トポロジー（生成文法）に対してそれぞれ設定
してもよいし、共通にひとつ設定してもよい。ここでは
共通に５を設定する。手順５）手順１で得られた各ＲＮＡ配列を、手順２で
得られた各生成文法によってそれぞれ構文解析を行な
い、適合度最大の構文解析木をそれぞれ求める。ここで
はｓをＧ₁によって構文解析し、最大の適合度３．１を
持つ構文解析木を得る。図２１（１）にこの構文解析木
が表現する二次構造を示す。さらにｓをＧ₂によって構
文解析し、最大の適合度５．１を持つ構文解析木を得
る。図２１（２）にこの構文解析木が表現する二次構造
を示す。手順６）手順５で得られた構文解析木のうち、手順４
で得られた閾値以上の適合度をもつ構文解析木に対応す
る構文解析木を抽出する。手順５で得られた構文解析木
のうち、Ｇ₂で構文解析することによって得られた適合
度５．１の構文解析木が手順４で得られた閾値５よりも
大きいのでこれを抽出する。手順７）手順１で得られた配列集合を行に、手順３で
得られたトポロジー集合を列に、手順６で得られた構文
解析木の適合度を要素に持つマトリックスを作成する。
図２２に示すマトリックスを得る。手順８）手順６で得られたマトリックスの各列、すな
わちトポロジー、に対してスコアを計算し、スコアの順
にトポロジーをソートする。ここでは行の総和を各列ご
とに計算しスコアとするが、１行しかないので結果とし
て、Ｔ₁のスコアが未定義、Ｔ₂のスコアが５．１にな
る。スコアを持つものだけでソートすると、Ｔ₂のみが
得られる。手順９）手順２で得られた各配列を、手順８で得られ
たトポロジーの順にそれぞれ対応する文法で構文解析を
行ない、適合度最大の構文解析木をそれぞれ求める。こ
こではｓ₁をＧ₂によって構文解析し、導出不能であるこ
とを得る。さらにｓ₂をＧ₂によって構文解析し、最大の
適合度６．７を持つ構文解析木を得る。（図１７（２）
参照）手順１０）手順９で得られた構文解析木のうち手順４
で得られた閾値以上の適合度をもつ構文解析木に対応す
る配列を出力する。このとき、あわせてトポロジーとそ
のトポロジーに対する手順８で得られたスコアを出力す
る。手順９で得られたｓ₂のＧ₂に対する構文解析木の適
合度６．７は手順４で得られた閾値５よりも大きいので
ｓ₂を出力する。あわせて、Ｔ₂とそのスコア５．１を出
力する。以上の結果から図２３に示すような出力が得ら
れる。この結果、ｓ₂がトポロジーＴ₂において、ｓと共通な構
造をとりうることがわかるようになる。

【０１６２】本発明の実施について厳密に上記の手順と
同じである必要はない。例えば、手順１と２と３は任意
の順に入れ換えてもよいし、手順６は手順５の構文解析
部分に含めてしまってもよいし、手順１０の閾値により
構文解析木を取捨選択する部分は手順９の構文解析部分
に含めてしまってもよい。

【０１６３】［他の実施の形態］さて、これまで本発明
の実施の形態について説明したが、本発明は、上述した
実施の形態以外にも、上記特許請求の範囲に記載した技
術的思想の範囲内において種々の異なる実施の形態にて
実施されてよいものである。

【０１６４】例えば、ＲＮＡ配列解析装置１００がスタ
ンドアローンの形態でＲＮＡ配列解析方法を行う場合を
一例に説明したが、ＲＮＡ配列解析装置１００とは別筐
体で構成されるクライアント端末からの要求に応じてＲ
ＮＡ配列解析方法を行い、その処理結果を当該クライア
ント端末に返却するように構成してもよい。

【０１６５】また、構造予測部１０２ａは、適合度計算
部１０２ｃによる適合度計算を行いながら構文解析部１
０２ｂにより構文解析木を導出してもよい。すなわち、
構文解析木を導出する構文解析部１０２ｂと、導出され
た構文解析木に対して適合度の計算を行う適合度計算部
１０２ｃをひとつのアルゴリズムにて実現してもよい。
このように構成することにより、ＲＮＡ配列と木文法に
対して可能な構文解析木は無数（配列長に対して指数の
オーダー）に存在するため、構文解析木を導出してから
適合度計算を行いソートすると指数オーダーの計算時間
と記憶容量が必要となるという問題点を解決することが
できる。

【０１６６】また、実施の形態において説明した各処理
のうち、自動的に行なわれるものとして説明した処理の
全部または一部を手動的に行うこともでき、あるいは、
手動的に行なわれるものとして説明した処理の全部また
は一部を公知の方法で自動的に行うこともできる。特
に、構造予測部１０２ａは複数のタスクとして実現して
もよく、それぞれのタスクで並列処理を行うように実現
してもよい。この他、上記文書中や図面中で示した処理
手順、制御手順、具体的名称、各種の登録データや検索
条件等のパラメータを含む情報、画面例、データベース
構成については、特記する場合を除いて任意に変更する
ことができる。

【０１６７】また、ＲＮＡ配列解析装置１００に関し
て、図示の各構成要素は機能概念的なものであり、必ず
しも物理的に図示の如く構成されていることを要しな
い。例えば、ＲＮＡ配列解析装置１００の各サーバが備
える処理機能、特に制御部にて行なわれる各処理機能に
ついては、その全部または任意の一部を、ＣＰＵ（Ｃｅ
ｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）および
当該ＣＰＵにて解釈実行されるプログラムにて実現する
ことができ、あるいは、ワイヤードロジックによるハー
ドウェアとして実現することも可能である。なお、プロ
グラムは、後述する記録媒体に記録されており、必要に
応じてＲＮＡ配列解析装置１００に機械的に読み取られ
る。

【０１６８】記憶部１０６に格納される各種のデータベ
ース等（ＲＮＡ配列データベース１０６ａ〜共通構造マ
トリックス１０６ｃ）は、ＲＡＭ、ＲＯＭ等のメモリ装
置、ハードディスク等の固定ディスク装置、フレキシブ
ルディスク、光ディスク等のストレージ手段であり、各
種処理やウェブサイト提供に用いる各種のプログラムや
テーブルやファイルやデータベースやウェブページ用フ
ァイル等を格納する。

【０１６９】また、ＲＮＡ配列解析装置１００は、既知
のパーソナルコンピュータ、ワークステーション等の情
報処理端末等の情報処理装置にプリンタやモニタやイメ
ージスキャナ等の周辺装置を接続し、該情報処理装置に
本発明の方法を実現させるソフトウェア（プログラム、
データ等を含む）を実装することにより実現してもよ
い。

【０１７０】さらに、ＲＮＡ配列解析装置１００の分散
・統合の具体的形態は図示のものに限られず、その全部
または一部を、各種の負荷等に応じた任意の単位で、機
能的または物理的に分散・統合して構成することができ
る。例えば、各データベースを独立したデータベース装
置として独立に構成してもよく、また、処理の一部をＣ
ＧＩ（ＣｏｍｍｏｎＧａｔｅｗａｙＩｎｔｅｒｆａ
ｃｅ）を用いて実現してもよい。

【０１７１】また、本発明にかかるプログラムを、コン
ピュータ読み取り可能な記録媒体に格納することもでき
る。ここで、この「記録媒体」とは、フレキシブルディ
スク、光磁気ディスク、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲ
ＯＭ、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等の任意の「可搬用
の物理媒体」や、各種コンピュータシステムに内蔵され
るＲＯＭ、ＲＡＭ、ＨＤ等の任意の「固定用の物理媒
体」、あるいは、ＬＡＮ、ＷＡＮ、インターネットに代
表されるネットワークを介してプログラムを送信する場
合の通信回線や搬送波のように、短期にプログラムを保
持する「通信媒体」を含むものとする。

【０１７２】また、「プログラム」とは、任意の言語や
記述方法にて記述されたデータ処理方法であり、ソース
コードやバイナリコード等の形式を問わない。なお、
「プログラム」は必ずしも単一的に構成されるものに限
られず、複数のモジュールやライブラリとして分散構成
されるものや、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅ
ｍ）に代表される別個のプログラムと協働してその機能
を達成するものをも含む。なお、実施の形態に示した各
装置において記録媒体を読み取るための具体的な構成、
読み取り手順、あるいは、読み取り後のインストール手
順等については、周知の構成や手順を用いることができ
る。

【０１７３】また、ネットワーク３００は、ＲＮＡ配列
解析装置１００と外部システム２００とを相互に接続す
る機能を有し、例えば、インターネットや、イントラネ
ットや、ＬＡＮ（有線／無線の双方を含む）や、ＶＡＮ
や、パソコン通信網や、公衆電話網（アナログ／デジタ
ルの双方を含む）や、専用回線網（アナログ／デジタル
の双方を含む）や、ＣＡＴＶ網や、ＩＭＴ２０００方
式、ＧＳＭ方式またはＰＤＣ／ＰＤＣ―Ｐ方式等の携帯
回線交換網／携帯パケット交換網や、無線呼出網や、Ｂ
ｌｕｅｔｏｏｔｈ等の局所無線網や、ＰＨＳ網や、Ｃ
Ｓ、ＢＳまたはＩＳＤＢ等の衛星通信網等のうちいずれ
かを含んでもよい。すなわち、本システムは、有線・無
線を問わず任意のネットワークを介して、各種データを
送受信することができる。

【０１７４】

【発明の効果】以上詳細に説明したように、本発明によ
れば、ＲＮＡ二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納し、Ｒ
ＮＡ配列を生成文法に適用して構文解析木を導出し、導
出された構文解析木に対して適合度を計算し、計算され
た適合度のうち予め定めた条件を満たす適合度である構
文解析木を適合度が高い順にソートし、ソートされた構
文解析木をＲＮＡ配列の二次構造の候補として出力する
ので、一配列に対して多文法で構文解析を行うことがで
きるようになる。すなわち、各生成文法に対してそれぞ
れ構文解析し適合度計算を行い適合度を得る。その結
果、生成文法ごとに適合度が得られることになり、それ
らの適合度をソートすることによって生成文法に順位を
付ける。これにより、生成文法に対する構造トポロジー
にも順位が付けられることになるので、最終的にＲＮＡ
配列が取り得る可能性の高い順に構造トポロジーを確認
することができるＲＮＡ配列解析装置、ＲＮＡ配列解析
方法、プログラム、および、記録媒体を提供することが
できる。

【０１７５】また、本発明によれば、ＲＮＡ二次構造の
構造トポロジーと、当該構造トポロジーに適合する生成
文法とを対応付けて格納し、ＲＮＡ配列を生成文法に適
用して構文解析木を導出し、導出された構文解析木に対
して適合度の計算を行い、計算された適合度のうち予め
定めた条件を満たす適合度である構文解析木を導出した
ＲＮＡ配列を上記構造トポロジーの二次構造を持つＲＮ
Ａ配列の候補として出力するので、多配列に対して一文
法で構文解析を行うことができるようになる。すなわ
ち、与えられた特定の構造トポロジーに対し、対応する
生成文法を取得し、これを用いてＲＮＡ配列データベー
スに格納されているすべてまたは一部のＲＮＡ配列をそ
れぞれ構文解析し、ある閾値以下の適合度で構文解析に
成功したＲＮＡ配列群を結果として出力する。これによ
り、与えられた特定の二次構造を取り得るようなＲＮＡ
配列を検索することができるＲＮＡ配列解析装置、ＲＮ
Ａ配列解析方法、プログラム、および、記録媒体を提供
することができる。

【０１７６】また、本発明によれば、ＲＮＡ二次構造の
構造トポロジーと、当該構造トポロジーに適合する生成
文法とを対応付けて格納し、ＲＮＡ配列を生成文法に適
用して構文解析木を導出し、導出された構文解析木に対
して適合度の計算を行い、計算された適合度のうち予め
定めた条件を満たす適合度である構文解析木を導出した
ＲＮＡ配列を抽出し、構造トポロジーとＲＮＡ配列とを
二次元マトリックスで表示し、二次元マトリックスにお
いて抽出されたＲＮＡ配列と構造トポロジーに対応する
格子部分をマークすることにより、ＲＮＡ配列間で共通
に有する構造トポロジーを可視化するので、ＲＮＡ配列
間の共通構造を容易に発見することができるＲＮＡ配列
解析装置、ＲＮＡ配列解析方法、プログラム、および、
記録媒体を提供することができる。

【０１７７】また、本発明によれば、ＲＮＡ二次構造の
構造トポロジーと、当該構造トポロジーに適合する生成
文法とを対応付けて格納し、利用者が入力したＤＮＡ配
列から転写されるＲＮＡ配列を作成し、作成されたＲＮ
Ａ配列に対して生成文法を適用して構文解析木を導出
し、導出された構文解析木に対して適合度の計算を行
い、計算された適合度のうち予め定めた条件を満たす適
合度である構文解析木を導出したＲＮＡ配列に対応する
ＤＮＡ配列部分を遺伝子の候補として予測するので、Ｄ
ＮＡ配列のうち既知のトポロジーを有する可能性のある
ＲＮＡ配列に対応する部分について、遺伝子部分である
可能性があることを予測することができるＲＮＡ配列解
析装置、ＲＮＡ配列解析方法、プログラム、および、記
録媒体を提供することができる。

【０１７８】また、本発明によれば、ＲＮＡ二次構造の
構造トポロジーと、当該構造トポロジーに適合する生成
文法とを対応付けて格納し、ＲＮＡ配列を生成文法に適
用して構文解析木を導出し、導出された構文解析木に対
して適合度の計算を行い、計算された適合度に基づいて
ＲＮＡ配列間の類似度を計算するので、ＲＮＡ構造の類
似度を容易に求めることができるＲＮＡ配列解析装置、
ＲＮＡ配列解析方法、プログラム、および、記録媒体を
提供することができる。

【０１７９】さらに、本発明によれば、ＲＮＡ二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、ＲＮＡ配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たＲＮＡ配列を抽出し、構造トポロジーとＲＮＡ配列と
を二次元マトリックスで表示し、二次元マトリックスに
おいて抽出されたＲＮＡ配列と構造トポロジーに対応す
る格子部分に適合度を表示する適合度マトリックスを作
成し、適合度マトリックスについて、適合度により構造
トポロジーをソートし、他のＲＮＡ配列について当該ソ
ートされた構造トポロジーの順番に対応する生成文法に
より構文解析を行い適合度が最大となる構文解析木を求
め、予め定めた条件を満たす適合度を持つ構文解析木に
対応する他のＲＮＡ配列を抽出するので、共通の構造を
持つＲＮＡ配列を容易に発見することができるＲＮＡ配
列解析装置、ＲＮＡ配列解析方法、プログラム、およ
び、記録媒体を提供することができる。

【図面の簡単な説明】

【図１】ＲＮＡの構造トポロジーの一例を説明する図で
ある。

【図２】従来技術によるＲＮＡの二次構造がステムルー
プをとる場合の構文解析木の一例を示す図である。

【図３】従来技術によるＲＮＡ二次構造の構造トポロジ
ーについて、文法が固定されるとそれに対応した構造ト
ポロジーが規定されることを示す概念図である。

【図４】従来技術である木文法パーザを用いて、既知の
文法からＲＮＡ配列の構文解析木を導出する場合の一例
を示す図である。

【図５】本発明が適用される本システムの構成の一例を
示すブロック図である。

【図６】文法データベース１０６ｂに格納される情報の
一例を示す図である。

【図７】本実施の形態における本システムのＲＮＡ二次
構造予測処理の一例を示す処理概念図である。

【図８】本実施の形態における本システムの同一構造Ｒ
ＮＡ配列抽出処理の一例を示す処理概念図である。

【図９】本実施の形態における本システムの共通構造抽
出処理の一例を示す処理概念図である。

【図１０】本実施の形態における本システムの構造類似
度計算処理の一例を示す処理概念図である。

【図１１】本実施の形態における本システムの遺伝子予
測処理の一例を示す処理概念図である。

【図１２】ペナルティＰと類似度ベクトルｓ₁、ｓ₂の概
念を説明する図である。

【図１３】ＲＮＡ二次構造トポロジーの例を示す図であ
る。

【図１４】ｓ₁の構文解析木と二次構造を示す図であ
る。

【図１５】塩基対の自由エネルギーを示す図である。

【図１６】ループの自由エネルギーを示す図である。

【図１７】それぞれの文法について−ΔＧの適合度指標
において最適な構文解析木とそれに対応する二次構造を
示す図である。

【図１８】選択されたトポロジー集合のなかでｓ₂が適
合する構造候補を示す図である。

【図１９】選択されたトポロジーをとりうる配列の候補
を示す図である。

【図２０】構文解析木の適合度を要素に持つマトリック
スを示す図である。

【図２１】ｓの最適な二次構造を示す図である。

【図２２】構文解析木の適合度を要素に持つマトリック
スを示す図である。

【図２３】出力結果の一例を示す図である。

【符号の説明】

１００ＲＮＡ配列解析装置１０２制御部１０２ａ構造予測部１０２ｂ構文解析部１０２ｃ適合度計算部１０２ｄ類似度計算部１０２ｆ共通構造マトリックス作成部１０２ｇ遺伝子予測部１０４通信制御インターフェース部１０６記憶部１０６ａＲＮＡ配列データベース１０６ｂ文法データベース１０６ｃ共通構造マトリックス１０８入出力制御インターフェース部１１２入力装置１１４出力装置２００外部システム３００ネットワーク

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１５年２月１２日（２００３．２．１
２）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】０１２６

【補正方法】変更

【補正内容】

【０１２６】ＲＮＡ配列ｓ₁＝ｇｇｇｇａａａｃｃｃｃ
（配列番号１）がトポロジーＴ₁、Ｔ ₂に適合する二次構
造を形成できるかどうかについて考える。配列ｓ₁はＧ₁
によって以下のように導出できる。これにより配列ｓ₁
はＴ₁に適合する二次構造をとりうることがわかる。Ｓ
→ｇＨｃ→ｇｇＨｃｃ→ｇｇｇＨｃｃｃ→ｇｇｇｇＨｃ
ｃｃｃ→ｇｇｇｇＬｃｃｃｃ→ｇｇｇｇａＬｃｃｃｃ→
ｇｇｇｇａａＬｃｃｃｃ→ｇｇｇｇａａａｃｃｃｃ
（１）

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】０１４４

【補正方法】変更

【補正内容】

【０１４４】次にＲＮＡ配列ｓ₂＝ｇｃｃｃａｕａｇｇ
ｃａａａｇｃｃｕａｕｇｇｇｃ（配列番号２）がトポロ
ジーＴ₁、Ｔ₂に適合する二次構造を形成できるかどうか
を考える。この場合も同様にｓ₂がＧ₁、Ｇ₂によって導
出できるかどうかを調べればよい。結論からいうと、ｓ
₂はＧ₁、Ｇ₂のいずれからも導出することができる。さ
らにどちらの文法でも複数の導出のしかたが存在する。
それぞれの文法について−ΔＧの適合度指標において最
適な構文解析木とそれに対応する二次構造を図１７に示
す。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】０１６０

【補正方法】変更

【補正内容】

【０１６０】（５）ＲＮＡ配列から同じ構造を持つＲ
ＮＡ配列を出力あるＲＮＡ配列集合に対して、これらと
同じトポロジーをとりうるＲＮＡ配列を調べたいとき、
（３）の発明と（２）の発明とを組み合わせた本発明に
よれば、以下の手順でこれを調べることができる。例と
して、入力配列をｓ＝ｇｃｃｃａａａａｇｇｇｃａｇｃ
ｃｃａａａｇｇｇｃ（配列番号３）、検査対象トポロジ
ー集合をＴ₁、Ｔ₂、検査対象配列集合をｓ₁、ｓ₂とした
場合について示す。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】０１７９

【補正方法】変更

【補正内容】

【配列表】 SEQUENCE LISTING <110> Celestar Lexico-Sciences,Inc. <120> RNA配列解析装置、RNA配列解析方法、プログラム、および、記録媒体 <130> PCLA-13299 <160> 4 <170> PatentIn version 3.1 <210> 1 <211> 11 <212> RNA <213> Artificial Sequence <220> <221> Inventor:Yasuo, Uemura;Horai, Hisayuki <220> <223> RNA Sequence S1 <400> 1 ggggaaaccc c 11 <210> 2 <211> 23 <212> RNA <213> Artificial Sequence <220> <223> RNA Sequence S2 <400> 2 gcccauaggc aaagccuaug ggc 23 <210> 3 <211> 24 <212> RNA <213> Artificial Sequence <220> <223> RNA Sequence S <400> 3 gcccaaaagg gcagcccaaa gggc 24 <210> 4 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> RNA Sequence Fig2 <400> 4 caggaaacug ggugcaaacc 20

【手続補正５】

【補正対象書類名】図面

【補正対象項目名】図２

【補正方法】変更

【補正内容】

【図２】

───────────────────────────────────────────────────── フロントページの続き (72)発明者蓬莱尚幸千葉県千葉市美浜区中瀬１丁目３番地幕張テクノガーデンＤ17 セレスター・レキシコ・サイエンシズ株式会社内Ｆターム(参考） 4B029 AA07 BB20 FA15 4B063 QQ52 QS39 5B075 ND20 UU18

Claims

【特許請求の範囲】

【請求項１】ＲＮＡ二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納手段と、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析手段と、上記構文解析手段にて導出された上記構文解析木に対し
て適合度の計算を行う適合度計算手段と、上記適合度計算手段により計算された上記適合度のうち
予め定めた条件を満たす適合度である上記構文解析木を
上記適合度が高い順にソートするソート手段と、上記ソート手段によりソートされた上記構文解析木を上
記ＲＮＡ配列の二次構造の候補として出力する出力手段
と、を備えたことを特徴とするＲＮＡ配列解析装置。
【請求項２】ＲＮＡ二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納手段と、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析手段と、上記構文解析手段にて導出された上記構文解析木に対し
て適合度の計算を行う適合度計算手段と、上記適合度計算手段により計算された上記適合度のうち
予め定めた条件を満たす適合度である上記構文解析木を
導出した上記ＲＮＡ配列を上記構造トポロジーの二次構
造を持つＲＮＡ配列の候補として出力する出力手段と、を備えたことを特徴とするＲＮＡ配列解析装置。
【請求項３】ＲＮＡ二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納手段と、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析手段と、上記構文解析手段にて導出された上記構文解析木に対し
て適合度の計算を行う適合度計算手段と、上記適合度計算手段により計算された上記適合度のうち
予め定めた条件を満たす適合度である上記構文解析木を
導出した上記ＲＮＡ配列を抽出する抽出手段と、上記構造トポロジーと上記ＲＮＡ配列とを二次元マトリ
ックスで表示し、上記二次元マトリックスにおいて上記
抽出手段にて抽出された上記ＲＮＡ配列と上記構造トポ
ロジーに対応する格子部分をマークすることにより、上
記ＲＮＡ配列間で共通に有する構造トポロジーを可視化
する共通構造マトリックス作成手段と、を備えたことを特徴とするＲＮＡ配列解析装置。
【請求項４】ＲＮＡ二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納手段と、利用者が入力したＤＮＡ配列から転写されるＲＮＡ配列
を作成するＲＮＡ配列作成手段と、上記ＲＮＡ配列作成手段により作成された上記ＲＮＡ配
列に対して上記生成文法を適用して構文解析木を導出す
る構文解析手段と、上記構文解析手段にて導出された上記構文解析木に対し
て適合度の計算を行う適合度計算手段と、上記適合度計算手段により計算された上記適合度のうち
予め定めた条件を満たす適合度である上記構文解析木を
導出した上記ＲＮＡ配列に対応する上記ＤＮＡ配列部分
を遺伝子の候補として予測する遺伝子予測手段と、を備えたことを特徴とするＲＮＡ配列解析装置。
【請求項５】ＲＮＡ二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納手段と、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析手段と、上記構文解析手段にて導出された上記構文解析木に対し
て適合度の計算を行う適合度計算手段と、上記適合度計算手段により計算された上記適合度に基づ
いて上記ＲＮＡ配列間の類似度を計算する類似度計算手
段と、を備えたことを特徴とするＲＮＡ配列解析装置。
【請求項６】ＲＮＡ二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納手段と、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析手段と、上記構文解析手段にて導出された上記構文解析木に対し
て適合度の計算を行う適合度計算手段と、上記適合度計算手段により計算された上記適合度のうち
予め定めた条件を満たす適合度である上記構文解析木を
導出した上記ＲＮＡ配列を抽出する抽出手段と、上記構造トポロジーと上記ＲＮＡ配列とを二次元マトリ
ックスで表示し、上記二次元マトリックスにおいて上記
抽出手段にて抽出された上記ＲＮＡ配列と上記構造トポ
ロジーに対応する格子部分に上記適合度を表示する適合
度マトリックスを作成する適合度マトリックス作成手段
と、上記適合度マトリックス作成手段にて作成された上記適
合度マトリックスについて、上記適合度により上記構造
トポロジーをソートし、他のＲＮＡ配列について当該ソ
ートされた上記構造トポロジーの順番に対応する上記生
成文法により構文解析を行い上記適合度が最大となる上
記構文解析木を求め、予め定めた条件を満たす上記適合
度を持つ上記構文解析木に対応する上記他のＲＮＡ配列
を抽出する共通構造抽出手段と、を備えたことを特徴とするＲＮＡ配列解析装置。
【請求項７】ＲＮＡ二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納ステップと、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を上記適合度が高い順にソートするソートステップ
と、上記ソートステップによりソートされた上記構文解析木
を上記ＲＮＡ配列の二次構造の候補として出力する出力
ステップと、を含むことを特徴とするＲＮＡ配列解析方法。
【請求項８】ＲＮＡ二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納ステップと、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記ＲＮＡ配列を上記構造トポロジーの二
次構造を持つＲＮＡ配列の候補として出力する出力ステ
ップと、を含むことを特徴とするＲＮＡ配列解析方法。
【請求項９】ＲＮＡ二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納ステップと、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記ＲＮＡ配列を抽出する抽出ステップ
と、上記構造トポロジーと上記ＲＮＡ配列とを二次元マトリ
ックスで表示し、上記二次元マトリックスにおいて上記
抽出ステップにて抽出された上記ＲＮＡ配列と上記構造
トポロジーに対応する格子部分をマークすることによ
り、上記ＲＮＡ配列間で共通に有する構造トポロジーを
可視化する共通構造マトリックス作成ステップと、を含むことを特徴とするＲＮＡ配列解析方法。
【請求項１０】ＲＮＡ二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、利用者が入力したＤＮＡ配列から転写されるＲＮＡ配列
を作成するＲＮＡ配列作成ステップと、上記ＲＮＡ配列作成ステップにより作成された上記ＲＮ
Ａ配列に対して上記生成文法を適用して構文解析木を導
出する構文解析ステップと、上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記ＲＮＡ配列に対応する上記ＤＮＡ配列
部分を遺伝子の候補として予測する遺伝子予測ステップ
と、を含むことを特徴とするＲＮＡ配列解析方法。
【請求項１１】ＲＮＡ二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、上記適合度計算ステップにより計算された上記適合度に
基づいて上記ＲＮＡ配列間の類似度を計算する類似度計
算ステップと、を含むことを特徴とするＲＮＡ配列解析方法。
【請求項１２】ＲＮＡ二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記ＲＮＡ配列を抽出する抽出ステップ
と、上記構造トポロジーと上記ＲＮＡ配列とを二次元マトリ
ックスで表示し、上記二次元マトリックスにおいて上記
抽出ステップにて抽出された上記ＲＮＡ配列と上記構造
トポロジーに対応する格子部分に上記適合度を表示する
適合度マトリックスを作成する適合度マトリックス作成
ステップと、上記適合度マトリックス作成ステップにて作成された上
記適合度マトリックスについて、上記適合度により上記
構造トポロジーをソートし、他のＲＮＡ配列について当
該ソートされた上記構造トポロジーの順番に対応する上
記生成文法により構文解析を行い上記適合度が最大とな
る上記構文解析木を求め、予め定めた条件を満たす上記
適合度を持つ上記構文解析木に対応する上記他のＲＮＡ
配列を抽出する共通構造抽出ステップと、を含むことを特徴とするＲＮＡ配列解析方法。
【請求項１３】ＲＮＡ二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を上記適合度が高い順にソートするソートステップ
と、上記ソートステップによりソートされた上記構文解析木
を上記ＲＮＡ配列の二次構造の候補として出力する出力
ステップと、を含むことを特徴とするＲＮＡ配列解析方法をコンピュ
ータに実行させるプログラム。
【請求項１４】ＲＮＡ二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記ＲＮＡ配列を上記構造トポロジーの二
次構造を持つＲＮＡ配列の候補として出力する出力ステ
ップと、を含むことを特徴とするＲＮＡ配列解析方法をコンピュ
ータに実行させるプログラム。
【請求項１５】ＲＮＡ二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記ＲＮＡ配列を抽出する抽出ステップ
と、上記構造トポロジーと上記ＲＮＡ配列とを二次元マトリ
ックスで表示し、上記二次元マトリックスにおいて上記
抽出ステップにて抽出された上記ＲＮＡ配列と上記構造
トポロジーに対応する格子部分をマークすることによ
り、上記ＲＮＡ配列間で共通に有する構造トポロジーを
可視化する共通構造マトリックス作成ステップと、を含むことを特徴とするＲＮＡ配列解析方法をコンピュ
ータに実行させるプログラム。
【請求項１６】ＲＮＡ二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、利用者が入力したＤＮＡ配列から転写されるＲＮＡ配列
を作成するＲＮＡ配列作成ステップと、上記ＲＮＡ配列作成ステップにより作成された上記ＲＮ
Ａ配列に対して上記生成文法を適用して構文解析木を導
出する構文解析ステップと、上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記ＲＮＡ配列に対応する上記ＤＮＡ配列
部分を遺伝子の候補として予測する遺伝子予測ステップ
と、を含むことを特徴とするＲＮＡ配列解析方法をコンピュ
ータに実行させるプログラム。
【請求項１７】ＲＮＡ二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、上記適合度計算ステップにより計算された上記適合度に
基づいて上記ＲＮＡ配列間の類似度を計算する類似度計
算ステップと、を含むことを特徴とするＲＮＡ配列解析方法をコンピュ
ータに実行させるプログラム。
【請求項１８】ＲＮＡ二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、ＲＮＡ配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記ＲＮＡ配列を抽出する抽出ステップ
と、上記構造トポロジーと上記ＲＮＡ配列とを二次元マトリ
ックスで表示し、上記二次元マトリックスにおいて上記
抽出ステップにて抽出された上記ＲＮＡ配列と上記構造
トポロジーに対応する格子部分に上記適合度を表示する
適合度マトリックスを作成する適合度マトリックス作成
ステップと、上記適合度マトリックス作成ステップにて作成された上
記適合度マトリックスについて、上記適合度により上記
構造トポロジーをソートし、他のＲＮＡ配列について当
該ソートされた上記構造トポロジーの順番に対応する上
記生成文法により構文解析を行い上記適合度が最大とな
る上記構文解析木を求め、予め定めた条件を満たす上記
適合度を持つ上記構文解析木に対応する上記他のＲＮＡ
配列を抽出する共通構造抽出ステップと、を含むことを特徴とするＲＮＡ配列解析方法をコンピュ
ータに実行させるプログラム。
【請求項１９】上記請求項１３〜１８のいずれか一つ
に記載されたプログラムを記録したことを特徴とするコ
ンピュータ読み取り可能な記録媒体。