JP2003203077A - Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体 - Google Patents
Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体Info
- Publication number
- JP2003203077A JP2003203077A JP2001402081A JP2001402081A JP2003203077A JP 2003203077 A JP2003203077 A JP 2003203077A JP 2001402081 A JP2001402081 A JP 2001402081A JP 2001402081 A JP2001402081 A JP 2001402081A JP 2003203077 A JP2003203077 A JP 2003203077A
- Authority
- JP
- Japan
- Prior art keywords
- rna sequence
- goodness
- rna
- grammar
- fit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/10—Nucleic acid folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
し、集積した文法やRNA配列を用いて二次構造予測な
どをより効率的に行うことのできるRNA配列解析装置
等を提供することを課題とする。 【解決手段】 本発明にかかるシステムは、配列情報を
解析するRNA配列解析装置であるRNA配列解析装置
100と、配列情報等に関する外部データベースやホモ
ロジー検索用の外部分析プログラム等を提供する外部シ
ステム200とを、ネットワーク300を介して通信可
能に接続して構成されている。
Description
置、RNA配列解析方法、プログラム、および、記録媒
体に関し、特に、RNAの二次構造を予測し、また、D
NA配列から遺伝子部分を予測するRNA配列解析装
置、RNA配列解析方法、プログラム、および、記録媒
体に関する。
トシン)、G(グアニン)、U(ウラシル)の4種の塩
基により構成されるが、その一部は回文言語のような入
れ子の状態となり、相補的な塩基同士(AとU、Gと
C、稀にGとU)が結合して二次構造を構成している。
RNA配列の二次構造は、図1に示すように、多種の構
造トポロジーを有している。ここで、積み重ねられた塩
基対の連続領域をステム(stem)と呼び、また、塩
基対で挟まれた一本鎖の部分配列をループ(loop)
と呼ぶ。ステムの端のループをヘアピンループという
(図1のa)。ステムの中にある一本鎖の塩基は、それ
がステムの片側だけにあるときバルジループ(bulg
e loop)と呼び(図1のb)、ステムの両側にあ
るときは内側ループ(internal loop)と
呼ぶ(図1のc)。放射状に3個以上のステムが出てい
るものをマルチループ(multi−branched
loop)と呼ぶ。また、入れ子ではない塩基対があ
るとき、シュードノット(pseudoknots)と
呼ぶ(図1のd)。
法)により構文解析することによりその二次構造を予測
する手法が存在するが、正規文法では回文言語を記述す
ることができないため、一般に、RNA二次構造解析に
おいては、木文法(treeadjoining gr
ammars)や、文脈自由文法(CFG)などを用い
て構文解析を行い構造モデリング(構造トポロジー表
現)を求める手法が考案されている。
「Tree adjoining grammars
for RNA structure predict
ion(Theoretical Computer
Science 210 1999 277p−303
p)」(以下「文献1」という)には、木文法による構
造モデリングと、パーザ(paser)を利用したエネ
ルギー極小化によるRNA二次構造予測方法が開示され
ている。
Sean R.Rddy著「Thelanguage
of RNA: a formal grammar
that includes pseudoknots
(BIOINFORMATICS vol.16 n
o.4 2000 334p−340p)」(以下「文
献2」という)には、Crossed−interac
tion Grammarsなどの独自の拡張を施した
文脈自由文法(CFG)による構造モデリングと、パー
ザを利用したエネルギー極小化によるRNA二次構造予
測方法が開示されている。
rediction of RNASecondary
Structure by Energy mini
mization(July 8,1996)」(以下
「文献3」という)には、形式文法やパーザを用いず動
的計画法(Dynamic Programming)
によってRNA二次構造を予測する方法を用いたRNA
配列解析システムであるMfold(製品名)が開示さ
れている。これらの文献では、形式文法や動的計画法な
どの手法と、エネルギー極小化手法とを組み合わせるこ
とによってRNA二次構造予測精度を高めている。
がステムループをとる場合の構文解析木の一例を示す図
である。図2のaに示すRNA配列の二次構造を図2の
bに、また、構文解析木を図2のcに示している。ここ
で、部分木(subtree)は、内部の節を根とする
構文解析木の断片である。RNA二次構造の構造トポロ
ジーについて構文解析木を作成して構文解析を行うこと
により二次構造解析を行う技術が研究されており、主要
な構造トポロジーに対する文法が既知となっている。
構造トポロジーについて、文法が固定されるとそれに対
応した構造トポロジーが規定される(逆もまた可)こと
を示す概念図である。ここで、生成文法(以下単に「文
法」という)は、有限個の記号と、有限個の生成規則P
(production rule)から成る。記号に
は、抽象的な非終端記号N(nonterminal
symbol)と、観測文字列に実際に現れる終端記号
T(terminal symbol)の2種類があ
る。終端記号Tは、RNA配列の場合にはA、T、G、
Cの4文字である。図3に示すように、各構造トポロジ
ーについてそれぞれ対応する文法を定義することができ
る。
ザを用いて、既知の文法からRNA配列の構文解析木を
導出する場合の一例を示す図である。まず、構造未知の
RNA配列を木文法パーザに入力する。ここで、木文法
パーザは、入力された既知の木文法に従ってRNA配列
の構文解析を行い構文解析木を導出する機能、および、
導出された構文解析木について、ループや、塩基対とそ
の他の二次構造要素のそれぞれの自由エネルギーの合計
などを計算することにより平衡自由エネルギー(ΔG)
などの値を求める機能などを有する(文献1から3参
照)。
木を導出するわけではなく、入力したRNA配列が当該
文法に適合しない場合(パーズが成功しない場合)には
構文解析木を導出しない(すなわち、構文解析木は0個
になる)。また、複数個の構文解析木が導出された場合
には、エネルギー計算の結果、極小の自由エネルギーと
なる1つの構文解析木を選択する。このとき、木文法パ
ーザは導出過程の各段階において自由エネルギー極小な
部分構造を見つけていくことができる。また、木文法パ
ーザはエネルギー準最適な構文も出力することができ
る。このように、木文法パーザは、構文解析(パーズ)
の途中でエネルギー計算を行うことにより、高速化と精
度向上を実現している。
木文法パーザなどにより構文解析とエネルギー計算を行
う手法を用いたRNA二次構造予測システムにおいて
は、RNA配列や抽出した文法を統合的に管理し、集積
した文法やRNA配列を用いて二次構造予測などをより
効率的に行うものは存在しなかったという問題点があ
る。
るようなRNA配列を検索するような方法は存在しなか
ったという問題点がある。
を簡易に抽出する方法は存在しなかったという問題点が
ある。
づく類似度を簡易に求める方法は存在しなかったという
問題点がある。
するための手法としては、ホモロジー検索やモチーフ検
索などを利用する手法が一般的であるが、未知の遺伝子
部分の発見には利用できないという問題点がある。ここ
で、従来技術で説明したように、RNA配列の構造トポ
ロジーを予測可能な生成文法が求められているが、既知
の生成文法により導出された構文解析木を用いた遺伝子
発見方法は存在しなかったという問題点がある。
題点を有しており、その結果、システムの利用者および
管理者のいずれにとっても、利便性が悪く、また、利用
効率が悪いものであった。本発明は上記問題点に鑑みて
なされたもので、RNA配列や抽出した文法を統合的に
管理し、集積した文法やRNA配列を用いて二次構造予
測や新たな解析手法などをより効率的に行うことのでき
る、RNA配列解析装置、RNA配列解析方法、プログ
ラム、および、記録媒体を提供することを目的としてい
る。
るため、請求項1に記載のRNA配列解析装置は、RN
A二次構造の構造トポロジーと、当該構造トポロジーに
適合する生成文法とを対応付けて格納する文法格納手段
と、RNA配列を上記生成文法に適用して構文解析木を
導出する構文解析手段と、上記構文解析手段にて導出さ
れた上記構文解析木に対して適合度の計算を行う適合度
計算手段と、上記適合度計算手段により計算された上記
適合度のうち予め定めた条件を満たす適合度である上記
構文解析木を上記適合度が高い順にソートするソート手
段と、上記ソート手段によりソートされた上記構文解析
木を上記RNA配列の二次構造の候補として出力する出
力手段とを備えたことを特徴とする。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算し、計算された適合度のうち予め定めた条
件を満たす適合度である構文解析木を適合度が高い順に
ソートし、ソートされた構文解析木をRNA配列の二次
構造の候補として出力するので、一配列に対して多文法
で構文解析を行うことができるようになる。すなわち、
各生成文法に対してそれぞれ構文解析し適合度計算を行
い適合度を得る。その結果、生成文法ごとに適合度が得
られることになり、それらの適合度をソートすることに
よって生成文法に順位を付ける。これにより、生成文法
に対する構造トポロジーにも順位が付けられることにな
るので、最終的にRNA配列が取り得る可能性の高い順
に構造トポロジーを確認することができるようになる。
置は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、RNA配列を上記生成文法に適用して構
文解析木を導出する構文解析手段と、上記構文解析手段
にて導出された上記構文解析木に対して適合度の計算を
行う適合度計算手段と、上記適合度計算手段により計算
された上記適合度のうち予め定めた条件を満たす適合度
である上記構文解析木を導出した上記RNA配列を上記
構造トポロジーの二次構造を持つRNA配列の候補とし
て出力する出力手段とを備えたことを特徴とする。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を上記構造トポロジーの二次構造を持つRNA配
列の候補として出力するので、多配列に対して一文法で
構文解析を行うことができるようになる。すなわち、与
えられた特定の構造トポロジーに対し、対応する生成文
法を取得し、これを用いてRNA配列データベースに格
納されているすべてまたは一部のRNA配列をそれぞれ
構文解析し、ある閾値以下の適合度で構文解析に成功し
たRNA配列群を結果として出力する。これにより、与
えられた特定の二次構造を取り得るようなRNA配列を
検索することができるようになる。
置は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、RNA配列を上記生成文法に適用して構
文解析木を導出する構文解析手段と、上記構文解析手段
にて導出された上記構文解析木に対して適合度の計算を
行う適合度計算手段と、上記適合度計算手段により計算
された上記適合度のうち予め定めた条件を満たす適合度
である上記構文解析木を導出した上記RNA配列を抽出
する抽出手段と、上記構造トポロジーと上記RNA配列
とを二次元マトリックスで表示し、上記二次元マトリッ
クスにおいて上記抽出手段にて抽出された上記RNA配
列と上記構造トポロジーに対応する格子部分をマークす
ることにより、上記RNA配列間で共通に有する構造ト
ポロジーを可視化する共通構造マトリックス作成手段と
を備えたことを特徴とする。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を抽出し、構造トポロジーとRNA配列とを二次
元マトリックスで表示し、二次元マトリックスにおいて
抽出されたRNA配列と構造トポロジーに対応する格子
部分をマークすることにより、RNA配列間で共通に有
する構造トポロジーを可視化するので、RNA配列間の
共通構造を容易に発見することができるようになる。
置は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、利用者が入力したDNA配列から転写さ
れるRNA配列を作成するRNA配列作成手段と、上記
RNA配列作成手段により作成された上記RNA配列に
対して上記生成文法を適用して構文解析木を導出する構
文解析手段と、上記構文解析手段にて導出された上記構
文解析木に対して適合度の計算を行う適合度計算手段
と、上記適合度計算手段により計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記RNA配列に対応する上記DNA配列
部分を遺伝子の候補として予測する遺伝子予測手段とを
備えたことを特徴とする。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、利用者が入力したDNA配列か
ら転写されるRNA配列を作成し、作成されたRNA配
列に対して生成文法を適用して構文解析木を導出し、導
出された構文解析木に対して適合度の計算を行い、計算
された適合度のうち予め定めた条件を満たす適合度であ
る構文解析木を導出したRNA配列に対応するDNA配
列部分を遺伝子の候補として予測するので、DNA配列
のうち既知のトポロジーを有する可能性のあるRNA配
列に対応する部分について、遺伝子部分である可能性が
あることを予測することができるようになる。
置は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、RNA配列を上記生成文法に適用して構
文解析木を導出する構文解析手段と、上記構文解析手段
にて導出された上記構文解析木に対して適合度の計算を
行う適合度計算手段と、上記適合度計算手段により計算
された上記適合度に基づいて上記RNA配列間の類似度
を計算する類似度計算手段とを備えたことを特徴とす
る。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度に基づいてRN
A配列間の類似度を計算するので、RNA構造の類似度
を容易に求めることができるようになる。
置は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、RNA配列を上記生成文法に適用して構
文解析木を導出する構文解析手段と、上記構文解析手段
にて導出された上記構文解析木に対して適合度の計算を
行う適合度計算手段と、上記適合度計算手段により計算
された上記適合度のうち予め定めた条件を満たす適合度
である上記構文解析木を導出した上記RNA配列を抽出
する抽出手段と、上記構造トポロジーと上記RNA配列
とを二次元マトリックスで表示し、上記二次元マトリッ
クスにおいて上記抽出手段にて抽出された上記RNA配
列と上記構造トポロジーに対応する格子部分に上記適合
度を表示する適合度マトリックスを作成する適合度マト
リックス作成手段と、上記適合度マトリックス作成手段
にて作成された上記適合度マトリックスについて、上記
適合度により上記構造トポロジーをソートし、他のRN
A配列について当該ソートされた上記構造トポロジーの
順番に対応する上記生成文法により構文解析を行い上記
適合度が最大となる上記構文解析木を求め、予め定めた
条件を満たす上記適合度を持つ上記構文解析木に対応す
る上記他のRNA配列を抽出する共通構造抽出手段とを
備えたことを特徴とする。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を抽出し、構造トポロジーとRNA配列とを二次
元マトリックスで表示し、二次元マトリックスにおいて
抽出されたRNA配列と構造トポロジーに対応する格子
部分に適合度を表示する適合度マトリックスを作成し、
適合度マトリックスについて、適合度により構造トポロ
ジーをソートし、他のRNA配列について当該ソートさ
れた構造トポロジーの順番に対応する生成文法により構
文解析を行い適合度が最大となる構文解析木を求め、予
め定めた条件を満たす適合度を持つ構文解析木に対応す
る他のRNA配列を抽出するので、共通の構造を持つR
NA配列を容易に発見することができるようになる。
るものであり、請求項7に記載のRNA配列解析方法
は、RNA二次構造の構造トポロジーと、当該構造トポ
ロジーに適合する生成文法とを対応付けて格納する文法
格納ステップと、RNA配列を上記生成文法に適用して
構文解析木を導出する構文解析ステップと、上記構文解
析ステップにて導出された上記構文解析木に対して適合
度の計算を行う適合度計算ステップと、上記適合度計算
ステップにより計算された上記適合度のうち予め定めた
条件を満たす適合度である上記構文解析木を上記適合度
が高い順にソートするソートステップと、上記ソートス
テップによりソートされた上記構文解析木を上記RNA
配列の二次構造の候補として出力する出力ステップとを
含むことを特徴とする。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度を計算し、計算された適合度のうち予め定めた条
件を満たす適合度である構文解析木を適合度が高い順に
ソートし、ソートされた構文解析木をRNA配列の二次
構造の候補として出力するので、一配列に対して多文法
で構文解析を行うことができるようになる。すなわち、
各生成文法に対してそれぞれ構文解析し適合度計算を行
い適合度を得る。その結果、生成文法ごとに適合度が得
られることになり、それらの適合度をソートすることに
よって生成文法に順位を付ける。これにより、生成文法
に対する構造トポロジーにも順位が付けられることにな
るので、最終的にRNA配列が取り得る可能性の高い順
に構造トポロジーを確認することができるようになる。
法は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納ステップと、RNA配列を上記生成文法に適用し
て構文解析木を導出する構文解析ステップと、上記構文
解析ステップにて導出された上記構文解析木に対して適
合度の計算を行う適合度計算ステップと、上記適合度計
算ステップにより計算された上記適合度のうち予め定め
た条件を満たす適合度である上記構文解析木を導出した
上記RNA配列を上記構造トポロジーの二次構造を持つ
RNA配列の候補として出力する出力ステップとを含む
ことを特徴とする。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を上記構造トポロジーの二次構造を持つRNA配
列の候補として出力するので、多配列に対して一文法で
構文解析を行うことができるようになる。すなわち、与
えられた特定の構造トポロジーに対し、対応する生成文
法を取得し、これを用いてRNA配列データベースに格
納されているすべてまたは一部のRNA配列をそれぞれ
構文解析し、ある閾値以下の適合度で構文解析に成功し
たRNA配列群を結果として出力する。これにより、与
えられた特定の二次構造を取り得るようなRNA配列を
検索することができるようになる。
法は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納ステップと、RNA配列を上記生成文法に適用し
て構文解析木を導出する構文解析ステップと、上記構文
解析ステップにて導出された上記構文解析木に対して適
合度の計算を行う適合度計算ステップと、上記適合度計
算ステップにより計算された上記適合度のうち予め定め
た条件を満たす適合度である上記構文解析木を導出した
上記RNA配列を抽出する抽出ステップと、上記構造ト
ポロジーと上記RNA配列とを二次元マトリックスで表
示し、上記二次元マトリックスにおいて上記抽出ステッ
プにて抽出された上記RNA配列と上記構造トポロジー
に対応する格子部分をマークすることにより、上記RN
A配列間で共通に有する構造トポロジーを可視化する共
通構造マトリックス作成ステップとを含むことを特徴と
する。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を抽出し、構造トポロジーとRNA配列とを二次
元マトリックスで表示し、二次元マトリックスにおいて
抽出されたRNA配列と構造トポロジーに対応する格子
部分をマークすることにより、RNA配列間で共通に有
する構造トポロジーを可視化するので、RNA配列間の
共通構造を容易に発見することができるようになる。
方法は、RNA二次構造の構造トポロジーと、当該構造
トポロジーに適合する生成文法とを対応付けて格納する
文法格納ステップと、利用者が入力したDNA配列から
転写されるRNA配列を作成するRNA配列作成ステッ
プと、上記RNA配列作成ステップにより作成された上
記RNA配列に対して上記生成文法を適用して構文解析
木を導出する構文解析ステップと、上記構文解析ステッ
プにて導出された上記構文解析木に対して適合度の計算
を行う適合度計算ステップと、上記適合度計算ステップ
により計算された上記適合度のうち予め定めた条件を満
たす適合度である上記構文解析木を導出した上記RNA
配列に対応する上記DNA配列部分を遺伝子の候補とし
て予測する遺伝子予測ステップとを含むことを特徴とす
る。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、利用者が入力したDNA配列か
ら転写されるRNA配列を作成し、作成されたRNA配
列に対して生成文法を適用して構文解析木を導出し、導
出された構文解析木に対して適合度の計算を行い、計算
された適合度のうち予め定めた条件を満たす適合度であ
る構文解析木を導出したRNA配列に対応するDNA配
列部分を遺伝子の候補として予測するので、DNA配列
のうち既知のトポロジーを有する可能性のあるRNA配
列に対応する部分について、遺伝子部分である可能性が
あることを予測することができるようになる。
方法は、RNA二次構造の構造トポロジーと、当該構造
トポロジーに適合する生成文法とを対応付けて格納する
文法格納ステップと、RNA配列を上記生成文法に適用
して構文解析木を導出する構文解析ステップと、上記構
文解析ステップにて導出された上記構文解析木に対して
適合度の計算を行う適合度計算ステップと、上記適合度
計算ステップにより計算された上記適合度に基づいて上
記RNA配列間の類似度を計算する類似度計算ステップ
とを含むことを特徴とする。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度に基づいてRN
A配列間の類似度を計算するので、RNA構造の類似度
を容易に求めることができるようになる。
方法は、RNA二次構造の構造トポロジーと、当該構造
トポロジーに適合する生成文法とを対応付けて格納する
文法格納ステップと、RNA配列を上記生成文法に適用
して構文解析木を導出する構文解析ステップと、上記構
文解析ステップにて導出された上記構文解析木に対して
適合度の計算を行う適合度計算ステップと、上記適合度
計算ステップにより計算された上記適合度のうち予め定
めた条件を満たす適合度である上記構文解析木を導出し
た上記RNA配列を抽出する抽出ステップと、上記構造
トポロジーと上記RNA配列とを二次元マトリックスで
表示し、上記二次元マトリックスにおいて上記抽出ステ
ップにて抽出された上記RNA配列と上記構造トポロジ
ーに対応する格子部分に上記適合度を表示する適合度マ
トリックスを作成する適合度マトリックス作成ステップ
と、上記適合度マトリックス作成ステップにて作成され
た上記適合度マトリックスについて、上記適合度により
上記構造トポロジーをソートし、他のRNA配列につい
て当該ソートされた上記構造トポロジーの順番に対応す
る上記生成文法により構文解析を行い上記適合度が最大
となる上記構文解析木を求め、予め定めた条件を満たす
上記適合度を持つ上記構文解析木に対応する上記他のR
NA配列を抽出する共通構造抽出ステップとを含むこと
を特徴とする。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を抽出し、構造トポロジーとRNA配列とを二次
元マトリックスで表示し、二次元マトリックスにおいて
抽出されたRNA配列と構造トポロジーに対応する格子
部分に適合度を表示する適合度マトリックスを作成し、
適合度マトリックスについて、適合度により構造トポロ
ジーをソートし、他のRNA配列について当該ソートさ
れた構造トポロジーの順番に対応する生成文法により構
文解析を行い適合度が最大となる構文解析木を求め、予
め定めた条件を満たす適合度を持つ構文解析木に対応す
る他のRNA配列を抽出するので、共通の構造を持つR
NA配列を容易に発見することができるようになる。
ピュータに実行させるプログラムに関するものであり、
請求項13に記載のプログラムは、RNA二次構造の構
造トポロジーと、当該構造トポロジーに適合する生成文
法とを対応付けて格納する文法格納ステップと、RNA
配列を上記生成文法に適用して構文解析木を導出する構
文解析ステップと、上記構文解析ステップにて導出され
た上記構文解析木に対して適合度の計算を行う適合度計
算ステップと、上記適合度計算ステップにより計算され
た上記適合度のうち予め定めた条件を満たす適合度であ
る上記構文解析木を上記適合度が高い順にソートするソ
ートステップと、上記ソートステップによりソートされ
た上記構文解析木を上記RNA配列の二次構造の候補と
して出力する出力ステップとを含むことを特徴とする。
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算し、計算された適合度のうち予め定
めた条件を満たす適合度である構文解析木を適合度が高
い順にソートし、ソートされた構文解析木をRNA配列
の二次構造の候補として出力するので、一配列に対して
多文法で構文解析を行うことができるようになる。すな
わち、各生成文法に対してそれぞれ構文解析し適合度計
算を行い適合度を得る。その結果、生成文法ごとに適合
度が得られることになり、それらの適合度をソートする
ことによって生成文法に順位を付ける。これにより、生
成文法に対する構造トポロジーにも順位が付けられるこ
とになるので、最終的にRNA配列が取り得る可能性の
高い順に構造トポロジーを確認することができるように
なる。
RNA二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、RNA配列を上記生成文法に適用して構文
解析木を導出する構文解析ステップと、上記構文解析ス
テップにて導出された上記構文解析木に対して適合度の
計算を行う適合度計算ステップと、上記適合度計算ステ
ップにより計算された上記適合度のうち予め定めた条件
を満たす適合度である上記構文解析木を導出した上記R
NA配列を上記構造トポロジーの二次構造を持つRNA
配列の候補として出力する出力ステップとを含むことを
特徴とする。
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を上記構造トポロジーの二次構造を持つR
NA配列の候補として出力するので、多配列に対して一
文法で構文解析を行うことができるようになる。すなわ
ち、与えられた特定の構造トポロジーに対し、対応する
生成文法を取得し、これを用いてRNA配列データベー
スに格納されているすべてまたは一部のRNA配列をそ
れぞれ構文解析し、ある閾値以下の適合度で構文解析に
成功したRNA配列群を結果として出力する。これによ
り、与えられた特定の二次構造を取り得るようなRNA
配列を検索することができるようになる。
RNA二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、RNA配列を上記生成文法に適用して構文
解析木を導出する構文解析ステップと、上記構文解析ス
テップにて導出された上記構文解析木に対して適合度の
計算を行う適合度計算ステップと、上記適合度計算ステ
ップにより計算された上記適合度のうち予め定めた条件
を満たす適合度である上記構文解析木を導出した上記R
NA配列を抽出する抽出ステップと、上記構造トポロジ
ーと上記RNA配列とを二次元マトリックスで表示し、
上記二次元マトリックスにおいて上記抽出ステップにて
抽出された上記RNA配列と上記構造トポロジーに対応
する格子部分をマークすることにより、上記RNA配列
間で共通に有する構造トポロジーを可視化する共通構造
マトリックス作成ステップとを含むことを特徴とする。
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を抽出し、構造トポロジーとRNA配列と
を二次元マトリックスで表示し、二次元マトリックスに
おいて抽出されたRNA配列と構造トポロジーに対応す
る格子部分をマークすることにより、RNA配列間で共
通に有する構造トポロジーを可視化するので、RNA配
列間の共通構造を容易に発見することができるようにな
る。
RNA二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、利用者が入力したDNA配列から転写され
るRNA配列を作成するRNA配列作成ステップと、上
記RNA配列作成ステップにより作成された上記RNA
配列に対して上記生成文法を適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導
出された上記構文解析木に対して適合度の計算を行う適
合度計算ステップと、上記適合度計算ステップにより計
算された上記適合度のうち予め定めた条件を満たす適合
度である上記構文解析木を導出した上記RNA配列に対
応する上記DNA配列部分を遺伝子の候補として予測す
る遺伝子予測ステップとを含むことを特徴とする。
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、利用者が入力したDNA
配列から転写されるRNA配列を作成し、作成されたR
NA配列に対して生成文法を適用して構文解析木を導出
し、導出された構文解析木に対して適合度の計算を行
い、計算された適合度のうち予め定めた条件を満たす適
合度である構文解析木を導出したRNA配列に対応する
DNA配列部分を遺伝子の候補として予測するので、D
NA配列のうち既知のトポロジーを有する可能性のある
RNA配列に対応する部分について、遺伝子部分である
可能性があることを予測することができるようになる。
RNA二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、RNA配列を上記生成文法に適用して構文
解析木を導出する構文解析ステップと、上記構文解析ス
テップにて導出された上記構文解析木に対して適合度の
計算を行う適合度計算ステップと、上記適合度計算ステ
ップにより計算された上記適合度に基づいて上記RNA
配列間の類似度を計算する類似度計算ステップとを含む
ことを特徴とする。
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度に基づい
てRNA配列間の類似度を計算するので、RNA構造の
類似度を容易に求めることができるようになる。
RNA二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、RNA配列を上記生成文法に適用して構文
解析木を導出する構文解析ステップと、上記構文解析ス
テップにて導出された上記構文解析木に対して適合度の
計算を行う適合度計算ステップと、上記適合度計算ステ
ップにより計算された上記適合度のうち予め定めた条件
を満たす適合度である上記構文解析木を導出した上記R
NA配列を抽出する抽出ステップと、上記構造トポロジ
ーと上記RNA配列とを二次元マトリックスで表示し、
上記二次元マトリックスにおいて上記抽出ステップにて
抽出された上記RNA配列と上記構造トポロジーに対応
する格子部分に上記適合度を表示する適合度マトリック
スを作成する適合度マトリックス作成ステップと、上記
適合度マトリックス作成ステップにて作成された上記適
合度マトリックスについて、上記適合度により上記構造
トポロジーをソートし、他のRNA配列について当該ソ
ートされた上記構造トポロジーの順番に対応する上記生
成文法により構文解析を行い上記適合度が最大となる上
記構文解析木を求め、予め定めた条件を満たす上記適合
度を持つ上記構文解析木に対応する上記他のRNA配列
を抽出する共通構造抽出ステップとを含むことを特徴と
する。
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を抽出し、構造トポロジーとRNA配列と
を二次元マトリックスで表示し、二次元マトリックスに
おいて抽出されたRNA配列と構造トポロジーに対応す
る格子部分に適合度を表示する適合度マトリックスを作
成し、適合度マトリックスについて、適合度により構造
トポロジーをソートし、他のRNA配列について当該ソ
ートされた構造トポロジーの順番に対応する生成文法に
より構文解析を行い適合度が最大となる構文解析木を求
め、予め定めた条件を満たす適合度を持つ構文解析木に
対応する他のRNA配列を抽出するので、共通の構造を
持つRNA配列を容易に発見することができるようにな
る。
り、請求項19に記載の記録媒体は、上記請求項13か
ら18のいずれか一つに記載されたプログラムを記録し
たことを特徴とする。
録されたプログラムをコンピュータに読み取らせて実行
することによって、請求項13から18のいずれか一つ
に記載されたプログラムをコンピュータを利用して実現
することができ、これら各プログラムと同様の効果を得
ることができる。
列解析装置、RNA配列解析方法、プログラム、およ
び、記録媒体の実施の形態を図面に基づいて詳細に説明
する。なお、この実施の形態によりこの発明が限定され
るものではない。特に、以下の実施の形態においては、
本発明を、木文法に適用した例について説明するが、こ
の場合に限られず、全ての生成文法において、同様に適
用することができる。
概要について説明し、その後、本システムの構成および
処理等について詳細に説明する。このシステムは、概略
的に、以下の基本的特徴を有する。すなわち、本システ
ムのRNA配列解析装置は、RNA二次構造の構造トポ
ロジーと、当該構造トポロジーに適合する生成文法とを
対応付けて格納し、RNA配列を生成文法に適用して構
文解析木を導出し、導出された構文解析木に対して適合
度を計算し、計算された適合度のうち予め定めた条件を
満たす適合度である構文解析木を適合度が高い順にソー
トし、ソートされた構文解析木をRNA配列の二次構造
の候補として出力する。ここで、生成文法は、木文法、
文脈自由文法などを含むが、シュードノットを表現する
ためには木文法が最も適しているため、木文法を用いる
ことが好ましい。
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を上記構造トポロジーの二次構造を持つR
NA配列の候補として出力する。
予め定めた条件を満たす適合度である構文解析木を導出
したRNA配列を抽出し、構造トポロジーとRNA配列
とを二次元マトリックスで表示し、二次元マトリックス
において抽出されたRNA配列と構造トポロジーに対応
する格子部分をマークすることにより、RNA配列間で
共通に有する構造トポロジーを可視化する。
配列から転写されるRNA配列を作成し、作成されたR
NA配列に対して生成文法を適用して構文解析木を導出
し、導出された構文解析木に対して適合度の計算を行
い、計算された適合度のうち予め定めた条件を満たす適
合度である構文解析木を導出したRNA配列に対応する
DNA配列部分を遺伝子の候補として予測する。
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度に基づいてRN
A配列間の類似度を計算する。
について説明する。図5は、本発明が適用される本シス
テムの構成の一例を示すブロック図であり、該構成のう
ち本発明に関係する部分のみを概念的に示している。本
システムは、概略的に、配列情報を解析するRNA配列
解析装置であるRNA配列解析装置100と、配列情報
等に関する外部データベースやホモロジー検索用の外部
分析プログラム等を提供する外部システム200とを、
ネットワーク300を介して通信可能に接続して構成さ
れている。
A配列解析装置100と外部システム200とを相互に
接続する機能を有し、例えば、インターネット等であ
る。
トワーク300を介して、RNA配列解析装置100と
相互に接続され、利用者に対して配列情報等に関する外
部データベースやホモロジー検索やモチーフ検索等の外
部分析プログラムを実行するウェブサイトを提供する機
能を有する。
ーバやASPサーバ等として構成してもよく、そのハー
ドウェア構成は、一般に市販されるワークステーショ
ン、パーソナルコンピュータ等の情報処理装置およびそ
の付属装置により構成してもよい。また、外部システム
200の各機能は、外部システム200のハードウェア
構成中のCPU、ディスク装置、メモリ装置、入力装
置、出力装置、通信制御装置等およびそれらを制御する
プログラム等により実現される。
は、概略的に、RNA配列解析装置100の全体を統括
的に制御するCPU等の制御部102、通信回線等に接
続されるルータ等の通信装置(図示せず)に接続される
通信制御インターフェース部104、入力装置112お
よび出力装置114に接続される入出力制御インターフ
ェース部108、および、各種のデータベースやテーブ
ル(RNA配列データベース106a〜共通構造マトリ
ックス106c)を格納する記憶部106を備えて構成
されており、これら各部は任意の通信路を介して通信可
能に接続されている。さらに、このRNA配列解析装置
100は、ルータ等の通信装置および専用線等の有線ま
たは無線の通信回線を介して、ネットワーク300に通
信可能に接続されている。
ース(RNA配列データベース106a〜共通構造マト
リックス106c)は、固定ディスク装置等のストレー
ジ手段であり、各種処理に用いる各種のプログラムやテ
ーブルやファイルやデータベースやウェブページ用ファ
イル等を格納する。
RNA配列データベース106aは、RNA配列を格納
したデータベースである。RNA配列データベース10
6aは、インターネットを経由してアクセスする外部の
RNA配列データベースであってもよく、また、これら
のデータベースをコピーしたり、オリジナルの配列情報
を格納したり、さらに独自のアノテーション情報等を付
加したりして作成したインハウスデータベースであって
もよい。また、RNA配列データベース106aは、c
DNA等のDNA配列データベースに基づいて予め生成
された、あるいは必要時に動的に生成されたRNA配列
を格納したものでもよい。
A二次構造の構造トポロジーと、当該構造トポロジーに
適合する生成文法とを対応付けて格納する文法格納手段
である。ここで、図6は、文法データベース106bに
格納される情報の一例を示す図である。図6に示すよう
に、文法データベース106bは、構造トポロジーと、
その構造トポロジーに対応する文法とを対応付けて格納
する。ここで、文法データベース106bには、図6に
示したように、構造トポロジーと文法とが1対1で対応
するようにしてもよく、また、複数のトポロジーが結合
した文法(例えば、シュードノットとヘアピンループと
を両方持つトポロジーなど)や、特徴的な構造を有する
RNA用の文法(例えば、rRNAに特有の構造トポロ
ジーなど)や、所定のカテゴリーのRNAが共通で備え
るトポロジー用の文法や、全てのRNAに適合する文法
などを規定してもよい。
構造トポロジーとRNA配列とを二次元マトリックスで
表示するためのテーブル(記憶領域)である。
ェース部104は、RNA配列解析装置100とネット
ワーク300(またはルータ等の通信装置)との間にお
ける通信制御を行う。すなわち、通信制御インターフェ
ース部104は、他の端末と通信回線を介してデータを
通信する機能を有する。
フェース部108は、入力装置112や出力装置114
の制御を行う。ここで、出力装置114としては、モニ
タ(家庭用テレビを含む)の他、スピーカを用いること
ができる(なお、以下においては出力装置をモニタとし
て記載する)。また、入力装置112としては、キーボ
ード、マウス、および、マイク等を用いることができ
る。また、モニタも、マウスと協働してポインティング
デバイス機能を実現する。
S(Operating System)等の制御プロ
グラム、各種の処理手順等を規定したプログラム、およ
び所要データを格納するための内部メモリを有し、これ
らのプログラム等により、種々の処理を実行するための
情報処理を行う。制御部102は、機能概念的に、構造
予測部102a、類似度計算部102d、共通構造マト
リックス作成部102f、および、遺伝子予測部102
gを備えて構成されている。
れた既知の文法に従ってRNA配列の構文解析を行い構
文解析木を導出する機能(構文解析部102b)、およ
び、導出された構文解析木に対して適合度の計算を行う
機能(適合度計算部102c)などを有する。
NA配列間の類似度を計算する類似度計算手段である。
fは、適合度計算手段により計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を抽出する抽出手段、および、構造トポロ
ジーとRNA配列とを二次元マトリックスで表示し、二
次元マトリックスにおいて抽出手段にて抽出されたRN
A配列と構造トポロジーに対応する格子部分をマークす
ることにより、RNA配列間で共通に有する構造トポロ
ジーを可視化する共通構造マトリックス作成手段、二次
元マトリックスにおいて抽出手段にて抽出されたRNA
配列と構造トポロジーに対応する格子部分に適合度を表
示する適合度マトリックスを作成する適合度マトリック
ス作成手段、および、適合度マトリックス作成手段にて
作成された適合度マトリックスについて、適合度により
構造トポロジーをソートし、他のRNA配列について当
該ソートされた構造トポロジーの順番に対応する生成文
法により構文解析を行い適合度が最大となる構文解析木
を求め、予め定めた条件を満たす適合度を持つ構文解析
木に対応する他のRNA配列を抽出する共通構造抽出手
段である。
入力したDNA配列から転写されるRNA配列を作成す
るRNA配列作成手段、および、適合度計算手段により
計算された適合度のうち予め定めた条件を満たす適合度
である構文解析木を導出したRNA配列に対応するDN
A配列部分を遺伝子の候補として予測する遺伝子予測手
段である。なお、これら各部によって行なわれる処理の
詳細については、後述する。
された本実施の形態における本システムの処理の一例に
ついて、以下に図7〜図11を参照して詳細に説明す
る。
二次構造予測処理の詳細について図7を参照して説明す
る。図7は、本実施の形態における本システムのRNA
二次構造予測処理の一例を示す処理概念図である。
RNAの構造トポロジーを表す文法を集積する。そし
て、利用者が構造未知のRNA配列であってその二次構
造を特定したいものを入力装置112を介してRNA配
列解析装置100に入力すると(ステップSA−1)、
構造予測部102aは、構文解析部102bの処理によ
り、文法データベース106bから文法を取り出し(ス
テップSA−2)、RNA配列に対して各文法を適合し
て構文解析(パーズ)を行う(ステップSA−3)。こ
こで、利用者のRNA配列の入力は、RNA配列データ
ベース106aから所望の配列を選択することにより入
力してもよく、外部システム200の外部データベース
から所望の配列を選択することにより入力してもよく、
さらに、所望の配列を直接入力してもよい。
算部102cの処理により、パーズが成功し導出された
構文解析木について、例えば、ループや、塩基対とその
他の二次構造要素のそれぞれの自由エネルギーの合計な
どを計算することにより求める平衡自由エネルギー(Δ
G)などに基づいて適合度を求める。ここで、適合度計
算方法は、例えば上述した文献1から3に示した方法の
ほか、従来のいずれの方法を用いてもよい。
た適合度のうち予め定めた条件を満たす適合度である構
文解析木を適合度が高い順にソートする(ステップSA
−4)。
御インターフェース部108を介して出力装置114に
ソートされた構文解析木とその適合度を出力することに
より、利用者が入力した一配列に対して多文法で構文解
析を行うことができるようになる。すなわち、各生成文
法に対してそれぞれ構文解析し適合度計算を行い適合度
を得る。その結果、生成文法ごとに適合度が得られるこ
とになり、それらの適合度をソートすることによって生
成文法に順位を付ける。これにより、生成文法に対する
構造トポロジーにも順位が付けられることになるので、
最終的にRNA配列が取り得る可能性の高い順に構造ト
ポロジーを確認することができるようになる。これに
て、RNA二次構造予測処理が終了する。
一構造RNA配列抽出処理の詳細について図8を参照し
て説明する。図8は、本実施の形態における本システム
の同一構造RNA配列抽出処理の一例を示す処理概念図
である。
対応する文法を文法データベース106bから選択す
る。そして、構造予測部102aは、構文解析部102
bの処理により、RNA配列データベース106aから
RNA配列を取り出し(ステップSB−1)、各RNA
配列に対して文法を適合して(ステップSB−2)、構
文解析を行う(ステップSB−3)。
れた構文解析木に対して適合度計算を行う。そして、構
造予測部102aは、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を、指定した文法が表す構造トポロジーの二次構
造を持つRNA配列の候補として抽出する(ステップS
B−4)。
たRNA配列を当該文法が表す構造トポロジーの二次構
造をもつ可能性のあるものとして、入出力制御インター
フェース部108を介して出力装置114に出力する
(ステップSB−5)。これにて、同一構造RNA配列
抽出処理が終了する。
処理の詳細について図9を参照して説明する。図9は、
本実施の形態における本システムの共通構造抽出処理の
一例を示す処理概念図である。
データベース106aから1つまたは2つ以上のRNA
配列を取り出し(ステップSC−1およびステップSC
−2)、構文解析部102bの処理により、各RNA配
列に対して、文法データベース106bから取り出した
(ステップSC−3)、1つまたは2つ以上の文法を適
合する(ステップSC−4)。RNA配列解析装置10
0は、これらの取り出しや、パーズ処理について並列処
理を行ってもよく、また、順次処理を行ってもよい。
れた構文解析木に対して適合度計算を行い、共通構造マ
トリックス作成部102fの処理により、計算された適
合度のうち予め定めた条件を満たす適合度である構文解
析木を導出したRNA配列を抽出する(ステップSC−
5)。
2fは、適合した文法が表す構造トポロジーとRNA配
列とを二次元マトリックスで表示し、二次元マトリック
スにおいて抽出されたRNA配列と構造トポロジーに対
応する格子部分をマークすることにより、RNA配列間
で共通に有する構造トポロジーを可視化する(ステップ
SC−6)。
の格子部分に特定の色をつけてもよく、また、特定の記
号(○など)や文字(「Y」など)を記載してもよい。
これにより、例えば、縦方向にマークが連続した場合
(図9に示す例においては、2番目の構造トポロジーの
列)には、この構造トポロジーが各RNA配列に共通に
持っている配列であることが可視的に把握することがで
きるようになる。これにて、共通構造抽出処理が終了す
る。
計算処理の詳細について図10を参照して説明する。図
10は、本実施の形態における本システムの構造類似度
計算処理の一例を示す処理概念図である。
似度を計算したい複数(図10の例では2個)のRNA
配列をRNA配列解析装置100に入力する(ステップ
SE−1)。
ータベース106bから1つまたは2つ以上の文法を取
り出し(ステップSE−2)、構文解析部102bの処
理により、入力したRNA配列について文法を適合して
構文解析を行う(ステップSE−3)。また、適合度計
算部102cは、導出された構文解析木に対して適合度
計算を行う(ステップSE−4)。
適合することにより導出された構文解析木と適合度(導
出されなかった場合には、それを表現する特別な値を設
定する)を各RNA配列ごとに対応付けてベクトル演算
や内積の計算などをすることにより(ステップSE−
5)、RNA配列間の類似度を計算する(ステップSE
−6)。
NA1,RNA2,...,RNAiとし、文法データベ
ース106bに格納されているN個の文法をG1,
G2,...,GNとし、また、RNA配列xと文法gに
対するパーザが成功したときの適合度をr(x,g)と
する。ここで、適合度は実数値とし、適合度が大きいほ
どその構造を取り易いことを示すものとする。また、入
力RNAjに関する適合度のベクトルRjにおいて、Rj
のk番目の要素Rj[k]は、RNAjとGkに対するパ
ーザが成功したときはr(RNAj,G k)とし、RNA
jとGkに対するパーザが失敗したときは仮に「×」とす
る。
似度計算は、以下の手法により行われる。まず、2つの
RNA配列の適合度のベクトルR1とR2を入力する。
ベクトルS1、S2とペナルティPを求める。ここで、
「ペナルティP」は、R1[k]とR2[k]の片方だけ
が「パーザ失敗(×)」であるkの個数であり、「類似
度ベクトルS1、S2」は、R1[k]もR2[k]も「パ
ーザ失敗(×)」ではない箇所だけを抜き出したベクト
ルである。図12は、ペナルティPと類似度ベクトルS
1、S2の概念を説明する図である。
ベクトルS1、S2間の距離Dを以下の方法により求め
る。まず、類似度ベクトルS1、S2の要素数(ベクトル
の次元)をMとする。そして、類似度計算で一般的に用
いられるユークリッド距離を用いて以下の数式により距
離を計算する。 D=sqrt(Σ{(S1[k] −S2[k])2}) (sqrtは平方根であり、Σはk=1〜Mに関する総
和である。)
低いことになり、また、ペナルティPが大きいと類似度
が低いことになるので、ペナルティPと距離Dを用いて
以下の数式により類似度Simを求める。 Sim=aP/D (aは定数(0<a<1)である。)
ここで、定数aを小さくすると、距離Dよりもペナルテ
ィPが重視されることになる。これにて、構造類似度計
算処理が終了する。
の詳細について図11を参照して説明する。図11は、
本実施の形態における本システムの遺伝子予測処理の一
例を示す処理概念図である。
配列を入力装置112を介してRNA配列解析装置10
0に入力すると、RNA配列解析装置100は、遺伝子
予測部102gの処理により、入力されたDNA配列に
基づいて、当該DNA配列から転写されるRNA配列
(以下、「予測RNA配列」という)を自動的に変換し
て作成する(ステップSF−1)。ここで、利用者のD
NA配列の入力は、外部システム200の外部データベ
ースやインハウスデータベースから所望のDNA配列を
選択することにより入力してもよく、さらに、所望の配
列を直接入力してもよい。
NA配列を構文解析部102bに入力すると(ステップ
SF−2)、構文解析部102bの処理により、文法デ
ータベース106bから1つまたは2つ以上の文法が取
り出され(ステップSF−3)、各文法を予測RNA配
列に適合する(ステップSF−4)。
析部102bが導出した構文解析木について適合度計算
を行い(ステップSF−5)、遺伝子予測部102g
は、計算された適合度のうち予め定めた条件を満たす適
合度である構文解析木を導出した予測RNA配列に対応
するDNA配列部分を遺伝子の候補として予測する(ス
テップSF−6)。すなわち、DNA配列のうち、当該
予測RNA配列の部分が遺伝子部分である可能性が高い
領域として出力される。
ロジーを有する可能性のある予測RNA配列に対応する
部分について、遺伝子部分である可能性があることを予
測することができるようになる。これにて、遺伝子予測
処理が終了する。
に図13〜図23を参照して説明する。 1 準備 本節では実施例の準備として、いくつかの具体的なRN
A二次構造トポロジーを定義し、それらをモデリングす
る生成文法を規定する。本実施例では説明の便宜上、生
成文法として文脈自由文法を用いるが、よりモデリング
能力の高いRNA木文法(文献1)を用いた場合でも同
様のことが説明できる。
える。ステムループは、ステム(H(a))とヘアピン
ループ(L(a))から構成される。2並列ステムルー
プは、並列に並んだ2つのステムループから構成され
る。それぞれのステム部分(H1(b)、H2(b))と
ヘアピンループ部分、(L1(b)、L2(b))の他に
ステムとステムをつなぐループ部分(I(b))があ
る。
的な特徴を考えることができる。例えばステムやループ
部分のサイズの制約、ステムを構成する塩基対にミスマ
ッチ(内部ループやバルジループ)を許すかどうか、あ
るいは特定の場所に特定の塩基配列を含むかどうか、な
どといったより詳細な特徴を持ったトポロジーを考える
ことが可能である。そこで、本実施例では次のような特
徴を持ったRNA二次構造トポロジーT1、T2を扱う。
(a)参照)である。 − ステム(H(a))を構成する塩基対はミスマ
ッチを含まない。 − ステム(H(a))サイズは1塩基対以上とす
る。 − ヘアピンループ(L(a))のサイズは1塩基
以上とする。
(図13(b)参照)である。 − トポロジーT1を2つ並列に並べたもの。 − ステム(H1(b))とステム(H2(b))の
間のループ(I(b))の長さは1塩基以上とする。
ポロジーのモデリング 以上のように定義された2つのトポロジーT1、T2を文
脈自由文法を用いてモデリングする。文脈自由文法は一
般に以下の4項組によって規定される。 G=(N,Σ,P,S) Nは非終端記号の有限集合、Σは終端記号の有限集合、
Pは生成規則の有限集合、Sは開始記号を表す。
{a,u,g,c}、開始記号はS、さらにNは生成規
則Pに出現する非終端記号のみからなるものとすること
から、Pのみを指定することにより文脈自由文法Gを規
定することができる。よって便宜上、本稿では文脈自由
文法Gを規定する際には、生成規則の有限集合Pのみを
指定することにする。
らなる文脈自由文法G1によってモデリングされる。
を考える場合は、一番最初の生成規則は以下と同値であ
る。 S→aHu|uHa|gHc|cHg 非ワトソン−クリック塩基対を許す場合はさらに、S→
gHuなどを追加してもよい。
とL→xによって塩基対を形成しない塩基(ループを構
成)が生成されるとみなす。すると、G1はRNAの二
次構造を生成することができることになる。このよう
に、任意の文脈自由文法Gに対して、Gが生成すること
ができるすべてのRNA二次構造からなる集合SS
(G)が規定されることになる。
は以下が成り立つことを言う。“G 1はトポロジーT1の
性質を満たすすべてのRNA二次構造を生成することが
でき、なおかつ、G1で生成することができるすべての
RNA二次構造はトポロジーT1の性質を満たす。”
る。G1による導出はすべて以下のようになる。
わかる。
らなる文脈自由文法G2によってモデリングされる。
は、文脈自由文法によって生成することが可能なすべて
のRNA二次構造を生成することができる万能な文脈自
由文法である。
る導出もG0によってシミュレートできる。すなわち、
以下のような導出をG0によって行なうことが可能であ
る。
成されるRNA二次構造は、G1によって生成されるも
のとまったく同じである。よってG1が生成可能なすべ
ての二次構造をG0によって生成可能なことがわかる。
すなわち、 SS(G0)⊇SS(G1) である。
ても SS(G0)⊇SS(G) が成り立つことが知られている。以降では、このような
万能文法によって生成される二次構造全体を“すべての
二次構造”と考える。
構造トポロジーの性質を満たす二次構造を形成できるか
どうかという問題は、対象トポロジーをモデリングした
文法によって対象配列が導出できるかという問題に対応
する。これは生成文法の構文解析アルゴリズムによって
解くことができる。
によって、与えられた配列が導出できるかどうかを判定
し、導出可能な場合はその導出過程、すなわち構文解析
木を出力する。二次構造トポロジーをモデリングした文
法において、構文解析木は二次構造を表現しているの
で、構文解析アルゴリズムは、対象トポロジーに適合す
る具体的な二次構造を出力すると解釈してよいことにな
るからである。
がトポロジーT1、T2に適合する二次構造を形成できる
かどうかについて考える。配列s1はG1によって以下の
ように導出できる。これにより配列s1はT1に適合する
二次構造をとりうることがわかる。 S→gHc→ggHcc→gggHccc→ggggHcccc →ggggLcccc→ggggaLcccc→ggggaaLcccc →ggggaaacccc (1)
出できる。 S→gHc→ggHcc→gggHccc →gggLccc→ggggLccc→ggggaLccc →ggggaaLccc→ggggaaaLccc →ggggaaacccc (2)
できない。これによりs1はトポロジーT2に適合する二
次構造をとりえないことがわかる。
出するとき、それぞれの導出に対応する構文解析木とそ
れが表現する二次構造を図14に示す。すなわち、
(1)のように導出した場合は、図14の(1)に示さ
れる構文解析木と二次構造が生成され、(2)のように
導出した場合は、図14の(2)に示される構文解析木
と二次構造が生成される。
たときに、どの構文解析木、すなわち、どの二次構造を
結果として出力するかを決定する必要が生じる。そのた
めに、何らかの評価関数によって構文解析木(あるいは
二次構造)にスコアを与え、構文解析木(あるいは二次
構造)に順位を付ける必要が生じる。このようなスコア
は文法によって異なる評価関数を用いても良いし、文法
に依存しない絶対的な評価関数であってもよい。以降で
は、このスコアを適合度と呼ぶ。
の評価法の例を示すが、本発明によって利用される適合
度は以下のものに限定されない。
分子はエネルギー的に安定なものになる。そこでこの評
価法では、単純に塩基対の数が多い二次構造ほど優先さ
せる。つまり、構文解析木の適合度として、対応する二
次構造の塩基対数を用いる。この評価法において、上記
の例の適合度を評価すると、図14の(1)に示される
構文解析木は適合度3となり、(2)に示される構文解
析木は適合度2となり、適合度の大きい(1)の構造が
採用されることになる。
Nussinovの折り畳みアルゴリズム[Nussi
nov,R.,Piecxenk,G.,geigg
s,j.R.,and Kleitman,D.J.,
“ Algorithmsfor loop mat
chings,” SIAM journal ofA
pplied Mathematics, 35, 6
8−82,1978]がある。
る適合度の評価 RNA二次構造の物理化学的な安定度を計算するため
に、小さなモデルRNA分子の熱力学的な実験によって
決定された平衡自由エネルギー(ΔG)パラメータを利
用する方法がある。ある二次構造の(ΔG)は、それを
構成する塩基対やループなどの二次構造要素に対する自
由エネルギーの合計で近似される。この自由エネルギー
パラメータでは、塩基対により構造が安定化し、ループ
により構造が不安定化する。各二次構造要素の詳細なパ
ラメータは[Turner, D.H.,Sugimo
to,N.,Jaeger,J.A.,Longfel
low,C.E.,Freier,S.M.,and
Kierzek,R.,“Improved para
meters for prediction ofR
NA structure,” Cold Sprin
g HarborSymposia Quantita
tive Biology, 52,123−133,
1987]に示されている。ここでは塩基対の自由エネ
ルギーを図15に、ループの自由エネルギーを図16に
示す。
図14の構造(1)と(2)の(ΔG)を求めると、そ
れぞれ以下のようになる。 ΔG(構造(1))=ΔG(gc,gc)+ΔG(gc,gc) +ΔG(gc,gc) +(ΔG)(サイズ3のヘアピンループ) =(−2.9)+(−2.9)+(−2.9) +7.4=−1.3 ΔG(構造(2))=ΔG(gc,gc)+ΔG(gc,gc) +ΔG(サイズ5のヘアピンループ) =(−2.9)+(−2.9)+4.4=−1.4
ネルギーの計算方法である。連続して積み重なった2組
の塩基対に対してひとつのエネルギー値が与えられる。
すなわち、構造(1)では5’側から数えて1番目のg
c塩基対と2番目のgc塩基対に対して、ΔG(gc,
gc)が計算され、2番目のgc塩基対と3番目のgc
塩基対に対して、ΔG(gc,gc)が計算され、3番
目のgc塩基対と4番目のgc塩基対に対して、ΔG
(gc,gc)が計算される。これに対し構造(2)で
は5’側から数えて1番目のgc塩基対と2番目のgc
塩基対に対して、ΔG(gc,gc)が計算され、2番
目のgc塩基対と3番目のgc塩基対に対して、ΔG
(gc,gc)が計算される。
(1)の適合度は1.3となり、(2)の適合度は1.
4となり、結果として適合度の大きい(2)の構造が採
用されることになる。
測システムとして、ZukerのMfold(文献3)
がある。
た生成文法である。例えばG1の各生成規則に以下のよ
うな確率pが付加されている確率文脈自由文法G1を考
える。 p(S→aHu)=0.2 p(S→uHa)=0.2 p(S→gHc)=0.3 p(S→cHg)=0.3 p(H→aHu)=0.2 p(H→uHa)=0.2 p(H→gHc)=0.3 p(H→cHg)=0.2 p(H→L)=0.1 p(L→aL)=0.2 p(L→uL)=0.2 p(L→gL)=0.15 p(L→cL)=0.15 p(L→a)=0.1 p(L→u)=0.1 p(L→g)=0.05 p(L→c)=0.05
うにして計算される。すなわち、(1)の導出確率は、 p(S→gHc)×p(H→gHc)×p(H→gHc)×p(H→gHc)× p(H→L)×p(L→aL)×p(L→aL)×p(L→a) =0.3×0.3×0.3×0.3×0.1×0.2×0.2×0.1 =0.00000324 と計算される。また、(2)の導出確率は、 p(S→gHc)×p(H→gHc)×p(H→gHc)×p(H→L)×p( L→gL)×p(L→aL)×p(L→aL)×p(L→aL)×p(L→c) =0.3×0.3×0.3×0.1×0.15×0.2×0.2×0.2 ×0.05 =0.000000162 となる。
の自然対数をとると、(1)の適合度は1n0.000
00324=−12.6、(2)の適合度は1n0.0
00000162=−15.6となり、結果として適合
度の大きい(1)の構造が採用されることになる。
されるべき確率パラメータは、最尤推定法と内側・外側
アルゴリズム(inside−outside alg
orithm)などにより学習してもよいし、ヒューリ
スティクス(heuristics)などによって主観
的に推定してもよい。例えば、文献[Sakakiba
raら“Stochastic Context−fe
e Grammarsfor tRNA modeli
ng,” Nucleic Acids Resear
ch, 22,5112−5120,1994.]では
複数のtRNA配列からtRNAの構造をモデリングす
る確率文脈自由文法を学習する手法について述べられて
いる。
したが、以降の説明では適合度として−ΔGを用いる。
caaagccuaugggcがトポロジーT1、T2に
適合する二次構造を形成できるかどうかを考える。この
場合も同様にs2がG1、G2によって導出できるかどう
かを調べればよい。結論からいうと、s2はG1、G2の
いずれからも導出することができる。さらにどちらの文
法でも複数の導出のしかたが存在する。それぞれの文法
について−ΔGの適合度指標において最適な構文解析木
とそれに対応する二次構造を図17に示す。
ようになる。 ΔG(構造(1))=ΔG(gc,cg)×2+ΔG(cg,cg) ×2+ΔG(cg,au)+ΔG(au,ua) +ΔG(ua,au)+ΔG(au,gc) +ΔG(gc,gc) +ΔG(サイズ3のヘアピンループ) =(−3.4)×2+(−2.9)×2+(−1.8) +(−0.9)+(−1.1)+(−1.7) +(−2.9)+7.4=−13.6 ΔG(構造(2))=ΔG(gc,cg)×2+ΔG(cg,cg)×2 +ΔG(サイズ4のヘアピンループ)×2 =(−3.4)×2+(−2.9)×2+5.9×2 =−6.7 よってトポロジーT1に適合するRNA二次構造におい
てs2がとりうる最適な構造の適合度は13.6である
ことがわかる。また、トポロジーT2に適合するRNA
二次構造においてs2がとりうる最適な構造の適合度は
6.7であることがわかる。また、s2を万能な文法G0
によって構文解析すると、最適構造として構造(1)が
見つかる。これにより、構造(1)が“すべての二次構
造”の中で最適な構造であることがわかる。このように
万能文法によって構文解析を行なうことにより、すべて
の構造の中から最適な構造を見つけ出すことができる。
法に適用して構文解析木を導出する構文解析手段と、上
記構文解析手段にて導出された構文解析木に対して適合
度の計算を行う適合度計算手段と、適合度最大の構文解
析木に対応する二次構造を出力する最適二次構造出力手
段”は、適合度計算を組み込んだ構文解析アルゴリズム
により実現されることになる。このような構文解析アル
ゴリズムを構造予測アルゴリズムと呼ぶ。ΔGの適合度
を指標にしたRNA木文法に基づく構造予測アルゴリズ
ムは文献1に示されている。
ロジーT1、T2およびそれらをモデリングする文脈自由
文法G0、G1、G2、さらに適合度として−ΔGを用い
た場合の実施例について示す。
ジーと、当該構造トポロジーに適合する生成文法とを対
応付けて格納する文法格納手段”においては、例えば
(Leu−tRNA,G’)や(16S rRNA,
G”)などのようにある構造トポロジーに付けられた名
称とその構造トポロジーをモデリングした文法が対応づ
けられて格納されている。本実施例では(ステムループ
T1,G1)と(2並列ステムループT2,G2)を含むよ
うな文法DBを仮定する。また、RNA配列s1とs2を
含むRNA配列DBを仮定する。
出力 あるRNA配列に対して、これがとりうる構造トポロジ
ーを適合度が大きい順に知りたいとき、本発明によれ
ば、以下の手順でこれを調べることができる。例とし
て、入力配列をs2、検査対象トポロジー集合をT1、T
2とした場合について示す。
する。あるいは直接入力する。ここではs2を指定す
る。 手順2) 検査対象とするトポロジーの集合(生成文法
の集合)を文法DBから選択する。ここではT1とT
2(G1とG2)を選択する。 手順3) 適合度の閾値を設定する。閾値は手順2で得
られた各トポロジー(生成文法)に対してそれぞれ設定
してもよいし、共通にひとつ設定してもよい。ここでは
T1(G1)に対して10をT2(G2)に対して5を設定
する。 手順4) 手順1で得られた配列を手順2で得られた各
生成文法によってそれぞれ構文解析を行ない、適合度最
大の構文解析木を求める。ここではs2をG1によって構
文解析し、最大の適合度13.6を持つ構文解析木を得
る(図17(1)参照)。さらにs2をG2によって構文
解析し、最大の適合度6.7を持つ構文解析木を得る
(図17(2)参照)。 手順5) 手順4で得られた構文解析木のうち手順3で
得られた閾値以上の適合度をもつ構文解析木を適合度の
大きい順にソートする。手順4で得られたG1に対する
適合度13.6の構文解析木1は手順3でG1に対して
設定された閾値10よりも大きいのでこれをソート対象
とする。手順4で得られたG2に対する適合度6.7の
構文解析木2は手順3でG2に対して設定された閾値5
よりも大きいのでこれをソート対象とする。上でソート
対象となった構文解析木を適合度の大きい順にソートす
ることによって、構文解析木1、構文解析木2の順に順
序づけされる。 手順6) 手順5でソートされた構文解析木の順に、対
応するトポロジー名、適合度、構文解析木(二次構造)
などを出力する。構文解析木1に対応して、ステムルー
プT1、適合度13.6、図17(1)に示された二次
構造を出力する。構文解析木2に対応して、2並列ステ
ムループT2、適合度6.7、図17(2)に示された
二次構造を出力する。 以上の結果から、選択されたトポロジー集合のなかでs
2が適合する構造候補が図18のように出力される。
られた配列がとりうる構造のなかで最適あるいは準最適
な二次構造を順に出力するだけで、出力された構造がど
のようなトポロジーであるかはユーザが判断しなければ
ならなかった。本発明によれば、構造とトポロジーとを
対応付けて出力することができるので、予測結果の確認
にかかる労力が大きく軽減されることが期待される。
手順と同じである必要はない。例えば、手順1と2は順
序をいれかえてもよいし、手順5の閾値により構文解析
木を取捨選択する部分は手順4の構文解析部分に含めて
しまってもよい。
をとりうるRNA配列を探したいとき、本発明によれ
ば、以下の手順でこれを調べることができる。例とし
て、入力構造トポロジーをT2、検査対象配列集合を
s1、s2とした場合について示す。 手順1) トポロジー(生成文法)を文法DBから選択
する。ここではT2(G2)を選択する。 手順2) 適合度の閾値を設定する。ここでは5を選択
する。 手順3) 検査対象とするRNA配列集合を配列DBか
ら選択する。あるいは直接入力する。ここではs1、s2
選択する。 手順4) 手順3で得られた各配列を、手順1で得られ
た生成文法によってそれぞれ構文解析を行ない、適合度
最大の構文解析木をそれぞれ求める。ここではs 1をG2
によって構文解析し、導出不能であることを得る。さら
にs2をG2によって構文解析し、最大の適合度6.7を
持つ構文解析木を得る。(図17(2)参照) 手順5) 手順4で得られた構文解析木のうち手順2で
得られた閾値以上の適合度をもつ構文解析木に対応する
配列を出力する。手順4で得られたs2のG2に対する適
合度6.7の構文解析木は手順2で設定された閾値5よ
りも大きいのでs 2を出力する。以上の結果から、選択
されたトポロジーをとりうる配列の候補が図19のよう
に出力される。
同じである必要はない。例えば、手順1と2と3は任意
の順にいれかえてもよいし、手順5は手順4の構文解析
部分に含めてしまってもよい。
てとりうる構造トポロジーを調べたいとき、本発明によ
れば、以下の手順でこれを調べることができる。例とし
て、入力配列集合をs1、s2とし、検査対象構造トポロ
ジーの集合をT 1、T2とした場合について示す。
ら指定する。あるいは直接入力する。ここではs1とs2
を指定する。 手順2) 検査対象とするトポロジーの集合(生成文法
の集合)を文法DBから選択する。ここではT1(G1)
とT2(G2)を選択する。 手順3) 適合度の閾値を設定する。閾値は手順2で得
られた各トポロジー(生成文法)に対してそれぞれ設定
してもよいし、共通にひとつ設定してもよい。ここでは
共通に0を設定する。 手順4) 手順1で得られた各配列を、手順2で得られ
た各生成文法によってそれぞれ構文解析を行ない、適合
度最大の構文解析木を求める。s1をG1によって構文解
析し、最大の適合度1.4を持つ構文解析木を得る(図
14(2)参照)。s1をG2によって構文解析し、導出
不能であることを得る。s2をG1によって構文解析し、
最大の適合度13.6を持つ構文解析木を得る。(図1
7(1)参照) s2をG2によって構文解析し、最大の適合度6.7を持
つ構文解析木を得る。(図17(2)参照) 手順5) 手順4で得られた構文解析木のうち閾値以上
の適合度を持つ構文解析木を抽出する。手順4で得られ
たすべての構文解析木は手順3で得られた閾値0よりも
大きい適合度を持つので手順4で得られたすべての構文
解析木を抽出する。 手順6) 手順1で得られた配列集合を行に、手順2で
得られたトポロジー集合を列に、手順5で得られた構文
解析木の適合度を要素に持つマトリックスを作成する。
図20に示すマトリックスを得る。以上の結果得られた
マトリックスを出力すれば、対象配列集合が共通してと
りうる構造トポロジーを容易に確認することが可能にな
る。あるいは、以下の追加手順を実行すれば、共通構造
の候補を順位づけて出力することができる。 手順7) 手順6で得られたマトリックスの各列、すな
わちトポロジー、に対してスコアを計算する。例えば、
有効な行要素の数を各列ごとに計算しスコアとすると、
T1のスコアは2、T2のスコアは1となる。例えば、各
行の適合度の総和を各列ごとに計算しスコアとすると、
T1のスコアは15.0、T2のスコアは6.7となる。 手順8) 手順7で得られたスコアの高い順にトポロジ
ーをソートし、出力する。上記のいずれのスコアを用い
てもT1、T2の順に出力される。
手順と同じである必要はない。例えば、手順1と2は順
序をいれかえてもよいし、手順5を手順4の構文解析部
分に含めてしまってもよい。
をとりやすいので、適合度が高くなる。そこで本発明で
は、万能文法を用いて構文解析を行ない、適合度の高い
配列を配列DBから選び出して遺伝子候補として出力す
る。例として、配列集合をs1、s2とした場合について
示す。
合を配列DBから指定する。あるいは直接入力する。こ
こではs1とs2を指定する。 手順2) 適合度の閾値を設定する。ここでは10を設
定する。 手順3) 手順1で得られた各配列を万能文法G0によ
ってそれぞれ構文解析を行ない、適合度最大の構文解析
木を求める。s1をG0によって構文解析し、最大の適合
度1.4を持つ構文解析木を得る。s2をG0によって構
文解析し、最大の適合度13.6を持つ構文解析木を得
る。 手順4) 手順3で得られた構文解析木のうち閾値以上
の適合度をもつ構文解析木に対応する配列を遺伝子候補
として出力する。手順3で得られたs1の構文解析木は
閾値10に満たないのでs1は出力しない。手順3で得
られたs2の構文解析木は閾値10よりも大きいのでs2
を遺伝子候補として出力する。本発明の実施について厳
密に上記の手順と同じである必要はない。例えば、手順
1と2は順序をいれかえてもよいし、手順4は手順3の
構文解析部分に含めてしまってもよい。
NA配列を出力 あるRNA配列集合に対して、これらと同じトポロジー
をとりうるRNA配列を調べたいとき、(3)の発明と
(2)の発明とを組み合わせた本発明によれば、以下の
手順でこれを調べることができる。例として、入力配列
をs=gcccaaaagggcagcccaaagg
gc、検査対象トポロジー集合をT1、T2、検査対象配
列集合をs1、s2とした場合について示す。
こではsのみからなる配列集合を入力する。 手順2) 検査対象とするRNA配列の集合を配列DB
から指定する。ここではs1とs2を指定する。 手順3) 検査対象とするトポロジーの集合(生成文法
の集合)を文法DBから選択する。ここではT1(G1)
とT2(G2)を選択する。 手順4) 適合度の閾値を設定する。閾値は手順3で得
られた各トポロジー(生成文法)に対してそれぞれ設定
してもよいし、共通にひとつ設定してもよい。ここでは
共通に5を設定する。 手順5) 手順1で得られた各RNA配列を、手順2で
得られた各生成文法によってそれぞれ構文解析を行な
い、適合度最大の構文解析木をそれぞれ求める。ここで
はsをG1によって構文解析し、最大の適合度3.1を
持つ構文解析木を得る。図21(1)にこの構文解析木
が表現する二次構造を示す。さらにsをG2によって構
文解析し、最大の適合度5.1を持つ構文解析木を得
る。図21(2)にこの構文解析木が表現する二次構造
を示す。 手順6) 手順5で得られた構文解析木のうち、手順4
で得られた閾値以上の適合度をもつ構文解析木に対応す
る構文解析木を抽出する。手順5で得られた構文解析木
のうち、G2で構文解析することによって得られた適合
度5.1の構文解析木が手順4で得られた閾値5よりも
大きいのでこれを抽出する。 手順7) 手順1で得られた配列集合を行に、手順3で
得られたトポロジー集合を列に、手順6で得られた構文
解析木の適合度を要素に持つマトリックスを作成する。
図22に示すマトリックスを得る。 手順8) 手順6で得られたマトリックスの各列、すな
わちトポロジー、に対してスコアを計算し、スコアの順
にトポロジーをソートする。ここでは行の総和を各列ご
とに計算しスコアとするが、1行しかないので結果とし
て、T1のスコアが未定義、T2のスコアが5.1にな
る。スコアを持つものだけでソートすると、T2のみが
得られる。 手順9) 手順2で得られた各配列を、手順8で得られ
たトポロジーの順にそれぞれ対応する文法で構文解析を
行ない、適合度最大の構文解析木をそれぞれ求める。こ
こではs1をG2によって構文解析し、導出不能であるこ
とを得る。さらにs2をG2によって構文解析し、最大の
適合度6.7を持つ構文解析木を得る。(図17(2)
参照) 手順10) 手順9で得られた構文解析木のうち手順4
で得られた閾値以上の適合度をもつ構文解析木に対応す
る配列を出力する。このとき、あわせてトポロジーとそ
のトポロジーに対する手順8で得られたスコアを出力す
る。手順9で得られたs2のG2に対する構文解析木の適
合度6.7は手順4で得られた閾値5よりも大きいので
s2を出力する。あわせて、T2とそのスコア5.1を出
力する。以上の結果から図23に示すような出力が得ら
れる。 この結果、s2がトポロジーT2において、sと共通な構
造をとりうることがわかるようになる。
同じである必要はない。例えば、手順1と2と3は任意
の順に入れ換えてもよいし、手順6は手順5の構文解析
部分に含めてしまってもよいし、手順10の閾値により
構文解析木を取捨選択する部分は手順9の構文解析部分
に含めてしまってもよい。
の実施の形態について説明したが、本発明は、上述した
実施の形態以外にも、上記特許請求の範囲に記載した技
術的思想の範囲内において種々の異なる実施の形態にて
実施されてよいものである。
ンドアローンの形態でRNA配列解析方法を行う場合を
一例に説明したが、RNA配列解析装置100とは別筐
体で構成されるクライアント端末からの要求に応じてR
NA配列解析方法を行い、その処理結果を当該クライア
ント端末に返却するように構成してもよい。
部102cによる適合度計算を行いながら構文解析部1
02bにより構文解析木を導出してもよい。すなわち、
構文解析木を導出する構文解析部102bと、導出され
た構文解析木に対して適合度の計算を行う適合度計算部
102cをひとつのアルゴリズムにて実現してもよい。
このように構成することにより、RNA配列と木文法に
対して可能な構文解析木は無数(配列長に対して指数の
オーダー)に存在するため、構文解析木を導出してから
適合度計算を行いソートすると指数オーダーの計算時間
と記憶容量が必要となるという問題点を解決することが
できる。
のうち、自動的に行なわれるものとして説明した処理の
全部または一部を手動的に行うこともでき、あるいは、
手動的に行なわれるものとして説明した処理の全部また
は一部を公知の方法で自動的に行うこともできる。特
に、構造予測部102aは複数のタスクとして実現して
もよく、それぞれのタスクで並列処理を行うように実現
してもよい。この他、上記文書中や図面中で示した処理
手順、制御手順、具体的名称、各種の登録データや検索
条件等のパラメータを含む情報、画面例、データベース
構成については、特記する場合を除いて任意に変更する
ことができる。
て、図示の各構成要素は機能概念的なものであり、必ず
しも物理的に図示の如く構成されていることを要しな
い。例えば、RNA配列解析装置100の各サーバが備
える処理機能、特に制御部にて行なわれる各処理機能に
ついては、その全部または任意の一部を、CPU(Ce
ntral Processing Unit)および
当該CPUにて解釈実行されるプログラムにて実現する
ことができ、あるいは、ワイヤードロジックによるハー
ドウェアとして実現することも可能である。なお、プロ
グラムは、後述する記録媒体に記録されており、必要に
応じてRNA配列解析装置100に機械的に読み取られ
る。
ース等(RNA配列データベース106a〜共通構造マ
トリックス106c)は、RAM、ROM等のメモリ装
置、ハードディスク等の固定ディスク装置、フレキシブ
ルディスク、光ディスク等のストレージ手段であり、各
種処理やウェブサイト提供に用いる各種のプログラムや
テーブルやファイルやデータベースやウェブページ用フ
ァイル等を格納する。
のパーソナルコンピュータ、ワークステーション等の情
報処理端末等の情報処理装置にプリンタやモニタやイメ
ージスキャナ等の周辺装置を接続し、該情報処理装置に
本発明の方法を実現させるソフトウェア(プログラム、
データ等を含む)を実装することにより実現してもよ
い。
・統合の具体的形態は図示のものに限られず、その全部
または一部を、各種の負荷等に応じた任意の単位で、機
能的または物理的に分散・統合して構成することができ
る。例えば、各データベースを独立したデータベース装
置として独立に構成してもよく、また、処理の一部をC
GI(Common Gateway Interfa
ce)を用いて実現してもよい。
ピュータ読み取り可能な記録媒体に格納することもでき
る。ここで、この「記録媒体」とは、フレキシブルディ
スク、光磁気ディスク、ROM、EPROM、EEPR
OM、CD−ROM、MO、DVD等の任意の「可搬用
の物理媒体」や、各種コンピュータシステムに内蔵され
るROM、RAM、HD等の任意の「固定用の物理媒
体」、あるいは、LAN、WAN、インターネットに代
表されるネットワークを介してプログラムを送信する場
合の通信回線や搬送波のように、短期にプログラムを保
持する「通信媒体」を含むものとする。
記述方法にて記述されたデータ処理方法であり、ソース
コードやバイナリコード等の形式を問わない。なお、
「プログラム」は必ずしも単一的に構成されるものに限
られず、複数のモジュールやライブラリとして分散構成
されるものや、OS(Operating Syste
m)に代表される別個のプログラムと協働してその機能
を達成するものをも含む。なお、実施の形態に示した各
装置において記録媒体を読み取るための具体的な構成、
読み取り手順、あるいは、読み取り後のインストール手
順等については、周知の構成や手順を用いることができ
る。
解析装置100と外部システム200とを相互に接続す
る機能を有し、例えば、インターネットや、イントラネ
ットや、LAN(有線/無線の双方を含む)や、VAN
や、パソコン通信網や、公衆電話網(アナログ/デジタ
ルの双方を含む)や、専用回線網(アナログ/デジタル
の双方を含む)や、CATV網や、IMT2000方
式、GSM方式またはPDC/PDC―P方式等の携帯
回線交換網/携帯パケット交換網や、無線呼出網や、B
luetooth等の局所無線網や、PHS網や、C
S、BSまたはISDB等の衛星通信網等のうちいずれ
かを含んでもよい。すなわち、本システムは、有線・無
線を問わず任意のネットワークを介して、各種データを
送受信することができる。
れば、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納し、R
NA配列を生成文法に適用して構文解析木を導出し、導
出された構文解析木に対して適合度を計算し、計算され
た適合度のうち予め定めた条件を満たす適合度である構
文解析木を適合度が高い順にソートし、ソートされた構
文解析木をRNA配列の二次構造の候補として出力する
ので、一配列に対して多文法で構文解析を行うことがで
きるようになる。すなわち、各生成文法に対してそれぞ
れ構文解析し適合度計算を行い適合度を得る。その結
果、生成文法ごとに適合度が得られることになり、それ
らの適合度をソートすることによって生成文法に順位を
付ける。これにより、生成文法に対する構造トポロジー
にも順位が付けられることになるので、最終的にRNA
配列が取り得る可能性の高い順に構造トポロジーを確認
することができるRNA配列解析装置、RNA配列解析
方法、プログラム、および、記録媒体を提供することが
できる。
構造トポロジーと、当該構造トポロジーに適合する生成
文法とを対応付けて格納し、RNA配列を生成文法に適
用して構文解析木を導出し、導出された構文解析木に対
して適合度の計算を行い、計算された適合度のうち予め
定めた条件を満たす適合度である構文解析木を導出した
RNA配列を上記構造トポロジーの二次構造を持つRN
A配列の候補として出力するので、多配列に対して一文
法で構文解析を行うことができるようになる。すなわ
ち、与えられた特定の構造トポロジーに対し、対応する
生成文法を取得し、これを用いてRNA配列データベー
スに格納されているすべてまたは一部のRNA配列をそ
れぞれ構文解析し、ある閾値以下の適合度で構文解析に
成功したRNA配列群を結果として出力する。これによ
り、与えられた特定の二次構造を取り得るようなRNA
配列を検索することができるRNA配列解析装置、RN
A配列解析方法、プログラム、および、記録媒体を提供
することができる。
構造トポロジーと、当該構造トポロジーに適合する生成
文法とを対応付けて格納し、RNA配列を生成文法に適
用して構文解析木を導出し、導出された構文解析木に対
して適合度の計算を行い、計算された適合度のうち予め
定めた条件を満たす適合度である構文解析木を導出した
RNA配列を抽出し、構造トポロジーとRNA配列とを
二次元マトリックスで表示し、二次元マトリックスにお
いて抽出されたRNA配列と構造トポロジーに対応する
格子部分をマークすることにより、RNA配列間で共通
に有する構造トポロジーを可視化するので、RNA配列
間の共通構造を容易に発見することができるRNA配列
解析装置、RNA配列解析方法、プログラム、および、
記録媒体を提供することができる。
構造トポロジーと、当該構造トポロジーに適合する生成
文法とを対応付けて格納し、利用者が入力したDNA配
列から転写されるRNA配列を作成し、作成されたRN
A配列に対して生成文法を適用して構文解析木を導出
し、導出された構文解析木に対して適合度の計算を行
い、計算された適合度のうち予め定めた条件を満たす適
合度である構文解析木を導出したRNA配列に対応する
DNA配列部分を遺伝子の候補として予測するので、D
NA配列のうち既知のトポロジーを有する可能性のある
RNA配列に対応する部分について、遺伝子部分である
可能性があることを予測することができるRNA配列解
析装置、RNA配列解析方法、プログラム、および、記
録媒体を提供することができる。
構造トポロジーと、当該構造トポロジーに適合する生成
文法とを対応付けて格納し、RNA配列を生成文法に適
用して構文解析木を導出し、導出された構文解析木に対
して適合度の計算を行い、計算された適合度に基づいて
RNA配列間の類似度を計算するので、RNA構造の類
似度を容易に求めることができるRNA配列解析装置、
RNA配列解析方法、プログラム、および、記録媒体を
提供することができる。
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を抽出し、構造トポロジーとRNA配列と
を二次元マトリックスで表示し、二次元マトリックスに
おいて抽出されたRNA配列と構造トポロジーに対応す
る格子部分に適合度を表示する適合度マトリックスを作
成し、適合度マトリックスについて、適合度により構造
トポロジーをソートし、他のRNA配列について当該ソ
ートされた構造トポロジーの順番に対応する生成文法に
より構文解析を行い適合度が最大となる構文解析木を求
め、予め定めた条件を満たす適合度を持つ構文解析木に
対応する他のRNA配列を抽出するので、共通の構造を
持つRNA配列を容易に発見することができるRNA配
列解析装置、RNA配列解析方法、プログラム、およ
び、記録媒体を提供することができる。
ある。
プをとる場合の構文解析木の一例を示す図である。
ーについて、文法が固定されるとそれに対応した構造ト
ポロジーが規定されることを示す概念図である。
文法からRNA配列の構文解析木を導出する場合の一例
を示す図である。
示すブロック図である。
一例を示す図である。
構造予測処理の一例を示す処理概念図である。
NA配列抽出処理の一例を示す処理概念図である。
出処理の一例を示す処理概念図である。
度計算処理の一例を示す処理概念図である。
測処理の一例を示す処理概念図である。
念を説明する図である。
る。
る。
において最適な構文解析木とそれに対応する二次構造を
示す図である。
合する構造候補を示す図である。
を示す図である。
スを示す図である。
スを示す図である。
2)
(配列番号1)がトポロジーT1、T 2に適合する二次構
造を形成できるかどうかについて考える。配列s1はG1
によって以下のように導出できる。これにより配列s1
はT1に適合する二次構造をとりうることがわかる。S
→gHc→ggHcc→gggHccc→ggggHc
ccc→ggggLcccc→ggggaLcccc→
ggggaaLcccc→ggggaaacccc
(1)
caaagccuaugggc(配列番号2)がトポロ
ジーT1、T2に適合する二次構造を形成できるかどうか
を考える。この場合も同様にs2がG1、G2によって導
出できるかどうかを調べればよい。結論からいうと、s
2はG1、G2のいずれからも導出することができる。さ
らにどちらの文法でも複数の導出のしかたが存在する。
それぞれの文法について−ΔGの適合度指標において最
適な構文解析木とそれに対応する二次構造を図17に示
す。
NA配列を出力あるRNA配列集合に対して、これらと
同じトポロジーをとりうるRNA配列を調べたいとき、
(3)の発明と(2)の発明とを組み合わせた本発明に
よれば、以下の手順でこれを調べることができる。例と
して、入力配列をs=gcccaaaagggcagc
ccaaagggc(配列番号3)、検査対象トポロジ
ー集合をT1、T2、検査対象配列集合をs1、s2とした
場合について示す。
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を抽出し、構造トポロジーとRNA配列と
を二次元マトリックスで表示し、二次元マトリックスに
おいて抽出されたRNA配列と構造トポロジーに対応す
る格子部分に適合度を表示する適合度マトリックスを作
成し、適合度マトリックスについて、適合度により構造
トポロジーをソートし、他のRNA配列について当該ソ
ートされた構造トポロジーの順番に対応する生成文法に
より構文解析を行い適合度が最大となる構文解析木を求
め、予め定めた条件を満たす適合度を持つ構文解析木に
対応する他のRNA配列を抽出するので、共通の構造を
持つRNA配列を容易に発見することができるRNA配
列解析装置、RNA配列解析方法、プログラム、およ
び、記録媒体を提供することができる。
Claims (19)
- 【請求項1】 RNA二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納手段と、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析手段と、 上記構文解析手段にて導出された上記構文解析木に対し
て適合度の計算を行う適合度計算手段と、 上記適合度計算手段により計算された上記適合度のうち
予め定めた条件を満たす適合度である上記構文解析木を
上記適合度が高い順にソートするソート手段と、 上記ソート手段によりソートされた上記構文解析木を上
記RNA配列の二次構造の候補として出力する出力手段
と、 を備えたことを特徴とするRNA配列解析装置。 - 【請求項2】 RNA二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納手段と、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析手段と、 上記構文解析手段にて導出された上記構文解析木に対し
て適合度の計算を行う適合度計算手段と、 上記適合度計算手段により計算された上記適合度のうち
予め定めた条件を満たす適合度である上記構文解析木を
導出した上記RNA配列を上記構造トポロジーの二次構
造を持つRNA配列の候補として出力する出力手段と、 を備えたことを特徴とするRNA配列解析装置。 - 【請求項3】 RNA二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納手段と、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析手段と、 上記構文解析手段にて導出された上記構文解析木に対し
て適合度の計算を行う適合度計算手段と、 上記適合度計算手段により計算された上記適合度のうち
予め定めた条件を満たす適合度である上記構文解析木を
導出した上記RNA配列を抽出する抽出手段と、 上記構造トポロジーと上記RNA配列とを二次元マトリ
ックスで表示し、上記二次元マトリックスにおいて上記
抽出手段にて抽出された上記RNA配列と上記構造トポ
ロジーに対応する格子部分をマークすることにより、上
記RNA配列間で共通に有する構造トポロジーを可視化
する共通構造マトリックス作成手段と、 を備えたことを特徴とするRNA配列解析装置。 - 【請求項4】 RNA二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納手段と、 利用者が入力したDNA配列から転写されるRNA配列
を作成するRNA配列作成手段と、 上記RNA配列作成手段により作成された上記RNA配
列に対して上記生成文法を適用して構文解析木を導出す
る構文解析手段と、 上記構文解析手段にて導出された上記構文解析木に対し
て適合度の計算を行う適合度計算手段と、 上記適合度計算手段により計算された上記適合度のうち
予め定めた条件を満たす適合度である上記構文解析木を
導出した上記RNA配列に対応する上記DNA配列部分
を遺伝子の候補として予測する遺伝子予測手段と、 を備えたことを特徴とするRNA配列解析装置。 - 【請求項5】 RNA二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納手段と、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析手段と、 上記構文解析手段にて導出された上記構文解析木に対し
て適合度の計算を行う適合度計算手段と、 上記適合度計算手段により計算された上記適合度に基づ
いて上記RNA配列間の類似度を計算する類似度計算手
段と、 を備えたことを特徴とするRNA配列解析装置。 - 【請求項6】 RNA二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納手段と、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析手段と、 上記構文解析手段にて導出された上記構文解析木に対し
て適合度の計算を行う適合度計算手段と、 上記適合度計算手段により計算された上記適合度のうち
予め定めた条件を満たす適合度である上記構文解析木を
導出した上記RNA配列を抽出する抽出手段と、 上記構造トポロジーと上記RNA配列とを二次元マトリ
ックスで表示し、上記二次元マトリックスにおいて上記
抽出手段にて抽出された上記RNA配列と上記構造トポ
ロジーに対応する格子部分に上記適合度を表示する適合
度マトリックスを作成する適合度マトリックス作成手段
と、 上記適合度マトリックス作成手段にて作成された上記適
合度マトリックスについて、上記適合度により上記構造
トポロジーをソートし、他のRNA配列について当該ソ
ートされた上記構造トポロジーの順番に対応する上記生
成文法により構文解析を行い上記適合度が最大となる上
記構文解析木を求め、予め定めた条件を満たす上記適合
度を持つ上記構文解析木に対応する上記他のRNA配列
を抽出する共通構造抽出手段と、 を備えたことを特徴とするRNA配列解析装置。 - 【請求項7】 RNA二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を上記適合度が高い順にソートするソートステップ
と、 上記ソートステップによりソートされた上記構文解析木
を上記RNA配列の二次構造の候補として出力する出力
ステップと、 を含むことを特徴とするRNA配列解析方法。 - 【請求項8】 RNA二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記RNA配列を上記構造トポロジーの二
次構造を持つRNA配列の候補として出力する出力ステ
ップと、 を含むことを特徴とするRNA配列解析方法。 - 【請求項9】 RNA二次構造の構造トポロジーと、当
該構造トポロジーに適合する生成文法とを対応付けて格
納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記RNA配列を抽出する抽出ステップ
と、 上記構造トポロジーと上記RNA配列とを二次元マトリ
ックスで表示し、上記二次元マトリックスにおいて上記
抽出ステップにて抽出された上記RNA配列と上記構造
トポロジーに対応する格子部分をマークすることによ
り、上記RNA配列間で共通に有する構造トポロジーを
可視化する共通構造マトリックス作成ステップと、 を含むことを特徴とするRNA配列解析方法。 - 【請求項10】 RNA二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、 利用者が入力したDNA配列から転写されるRNA配列
を作成するRNA配列作成ステップと、 上記RNA配列作成ステップにより作成された上記RN
A配列に対して上記生成文法を適用して構文解析木を導
出する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記RNA配列に対応する上記DNA配列
部分を遺伝子の候補として予測する遺伝子予測ステップ
と、 を含むことを特徴とするRNA配列解析方法。 - 【請求項11】 RNA二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度に
基づいて上記RNA配列間の類似度を計算する類似度計
算ステップと、 を含むことを特徴とするRNA配列解析方法。 - 【請求項12】 RNA二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記RNA配列を抽出する抽出ステップ
と、 上記構造トポロジーと上記RNA配列とを二次元マトリ
ックスで表示し、上記二次元マトリックスにおいて上記
抽出ステップにて抽出された上記RNA配列と上記構造
トポロジーに対応する格子部分に上記適合度を表示する
適合度マトリックスを作成する適合度マトリックス作成
ステップと、 上記適合度マトリックス作成ステップにて作成された上
記適合度マトリックスについて、上記適合度により上記
構造トポロジーをソートし、他のRNA配列について当
該ソートされた上記構造トポロジーの順番に対応する上
記生成文法により構文解析を行い上記適合度が最大とな
る上記構文解析木を求め、予め定めた条件を満たす上記
適合度を持つ上記構文解析木に対応する上記他のRNA
配列を抽出する共通構造抽出ステップと、 を含むことを特徴とするRNA配列解析方法。 - 【請求項13】 RNA二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を上記適合度が高い順にソートするソートステップ
と、 上記ソートステップによりソートされた上記構文解析木
を上記RNA配列の二次構造の候補として出力する出力
ステップと、 を含むことを特徴とするRNA配列解析方法をコンピュ
ータに実行させるプログラム。 - 【請求項14】 RNA二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記RNA配列を上記構造トポロジーの二
次構造を持つRNA配列の候補として出力する出力ステ
ップと、 を含むことを特徴とするRNA配列解析方法をコンピュ
ータに実行させるプログラム。 - 【請求項15】 RNA二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記RNA配列を抽出する抽出ステップ
と、 上記構造トポロジーと上記RNA配列とを二次元マトリ
ックスで表示し、上記二次元マトリックスにおいて上記
抽出ステップにて抽出された上記RNA配列と上記構造
トポロジーに対応する格子部分をマークすることによ
り、上記RNA配列間で共通に有する構造トポロジーを
可視化する共通構造マトリックス作成ステップと、 を含むことを特徴とするRNA配列解析方法をコンピュ
ータに実行させるプログラム。 - 【請求項16】 RNA二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、 利用者が入力したDNA配列から転写されるRNA配列
を作成するRNA配列作成ステップと、 上記RNA配列作成ステップにより作成された上記RN
A配列に対して上記生成文法を適用して構文解析木を導
出する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記RNA配列に対応する上記DNA配列
部分を遺伝子の候補として予測する遺伝子予測ステップ
と、 を含むことを特徴とするRNA配列解析方法をコンピュ
ータに実行させるプログラム。 - 【請求項17】 RNA二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度に
基づいて上記RNA配列間の類似度を計算する類似度計
算ステップと、 を含むことを特徴とするRNA配列解析方法をコンピュ
ータに実行させるプログラム。 - 【請求項18】 RNA二次構造の構造トポロジーと、
当該構造トポロジーに適合する生成文法とを対応付けて
格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記RNA配列を抽出する抽出ステップ
と、 上記構造トポロジーと上記RNA配列とを二次元マトリ
ックスで表示し、上記二次元マトリックスにおいて上記
抽出ステップにて抽出された上記RNA配列と上記構造
トポロジーに対応する格子部分に上記適合度を表示する
適合度マトリックスを作成する適合度マトリックス作成
ステップと、 上記適合度マトリックス作成ステップにて作成された上
記適合度マトリックスについて、上記適合度により上記
構造トポロジーをソートし、他のRNA配列について当
該ソートされた上記構造トポロジーの順番に対応する上
記生成文法により構文解析を行い上記適合度が最大とな
る上記構文解析木を求め、予め定めた条件を満たす上記
適合度を持つ上記構文解析木に対応する上記他のRNA
配列を抽出する共通構造抽出ステップと、 を含むことを特徴とするRNA配列解析方法をコンピュ
ータに実行させるプログラム。 - 【請求項19】 上記請求項13〜18のいずれか一つ
に記載されたプログラムを記録したことを特徴とするコ
ンピュータ読み取り可能な記録媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001402081A JP3881238B2 (ja) | 2001-12-28 | 2001-12-28 | Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体 |
PCT/JP2003/000011 WO2003058500A1 (fr) | 2001-12-28 | 2003-01-06 | Analyseur de sequences d'arn, procede d'analyse de sequences d'arn, programme et support d'enregistrement associes |
EP03701003A EP1471444A4 (en) | 2001-12-28 | 2003-01-06 | RNA SEQUENCE ANALYZER AND RNA SEQUENCE ANALYSIS PROCEDURE, PROGRAM AND RECORDING MEDIUM |
US10/500,112 US20050112577A1 (en) | 2001-12-28 | 2003-01-06 | Rna sequence analyzer, and rna sequence analysis method, program and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001402081A JP3881238B2 (ja) | 2001-12-28 | 2001-12-28 | Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003203077A true JP2003203077A (ja) | 2003-07-18 |
JP3881238B2 JP3881238B2 (ja) | 2007-02-14 |
Family
ID=19189925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001402081A Expired - Fee Related JP3881238B2 (ja) | 2001-12-28 | 2001-12-28 | Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20050112577A1 (ja) |
EP (1) | EP1471444A4 (ja) |
JP (1) | JP3881238B2 (ja) |
WO (1) | WO2003058500A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005093632A1 (ja) * | 2004-03-29 | 2005-10-06 | The University Of Tokyo | Rna配列情報処理方法、プログラムおよび装置 |
WO2007116787A1 (ja) * | 2006-03-28 | 2007-10-18 | Nec Soft, Ltd. | Rnaの二次構造予測方法、予測装置及び予測プログラム |
WO2008059642A1 (fr) * | 2006-11-13 | 2008-05-22 | Nec Soft, Ltd. | Procédé pour la prédiction d'une structure d'acide nucléique d'ordre supérieur, appareil pour la prédiction d'une structure d'acide nucléique d'ordre supérieur et programme pour la prédiction d'une structure d'acide nucléique d'ordre supérieur |
KR101506916B1 (ko) | 2013-03-19 | 2015-03-31 | 서울대학교산학협력단 | miRNA 탐색 자동화 시스템을 이용하여 시료로부터 miRNA를 자동으로 동정하는 방법 |
WO2022085756A1 (ja) * | 2020-10-23 | 2022-04-28 | NUProtein株式会社 | 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100601941B1 (ko) * | 2004-02-17 | 2006-07-14 | 삼성전자주식회사 | 서열 색인 방법 및 그 시스템 |
US8423350B1 (en) * | 2009-05-21 | 2013-04-16 | Google Inc. | Segmenting text for searching |
CN110021340B (zh) * | 2018-07-30 | 2021-04-02 | 吉林大学 | 一种基于卷积神经网络和规划动态算法的rna二级结构生成器及其预测方法 |
-
2001
- 2001-12-28 JP JP2001402081A patent/JP3881238B2/ja not_active Expired - Fee Related
-
2003
- 2003-01-06 US US10/500,112 patent/US20050112577A1/en not_active Abandoned
- 2003-01-06 EP EP03701003A patent/EP1471444A4/en not_active Withdrawn
- 2003-01-06 WO PCT/JP2003/000011 patent/WO2003058500A1/ja not_active Application Discontinuation
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005093632A1 (ja) * | 2004-03-29 | 2005-10-06 | The University Of Tokyo | Rna配列情報処理方法、プログラムおよび装置 |
WO2007116787A1 (ja) * | 2006-03-28 | 2007-10-18 | Nec Soft, Ltd. | Rnaの二次構造予測方法、予測装置及び予測プログラム |
JP5022361B2 (ja) * | 2006-03-28 | 2012-09-12 | Necソフト株式会社 | Rnaの二次構造予測装置、予測方法、プログラム及び記録媒体 |
WO2008059642A1 (fr) * | 2006-11-13 | 2008-05-22 | Nec Soft, Ltd. | Procédé pour la prédiction d'une structure d'acide nucléique d'ordre supérieur, appareil pour la prédiction d'une structure d'acide nucléique d'ordre supérieur et programme pour la prédiction d'une structure d'acide nucléique d'ordre supérieur |
JP2008118923A (ja) * | 2006-11-13 | 2008-05-29 | Nec Soft Ltd | 核酸高次構造予測方法、核酸高次構造予測装置及び核酸高次構造予測プログラム |
KR101506916B1 (ko) | 2013-03-19 | 2015-03-31 | 서울대학교산학협력단 | miRNA 탐색 자동화 시스템을 이용하여 시료로부터 miRNA를 자동으로 동정하는 방법 |
WO2022085756A1 (ja) * | 2020-10-23 | 2022-04-28 | NUProtein株式会社 | 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20050112577A1 (en) | 2005-05-26 |
JP3881238B2 (ja) | 2007-02-14 |
EP1471444A1 (en) | 2004-10-27 |
WO2003058500A1 (fr) | 2003-07-17 |
EP1471444A4 (en) | 2006-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dowell et al. | Evaluation of several lightweight stochastic context-free grammars for RNA secondary structure prediction | |
Grüner et al. | Analysis of RNA sequence structure maps by exhaustive enumeration. I | |
CN111460311A (zh) | 基于字典树的搜索处理方法、装置、设备和存储介质 | |
WJ Anderson et al. | Evolving stochastic context-free grammars for RNA secondary structure prediction | |
Esmaili-Taheri et al. | Evolutionary solution for the RNA design problem | |
Wong et al. | Discovery of delta closed patterns and noninduced patterns from sequences | |
JP2003203077A (ja) | Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体 | |
Bradley et al. | Specific alignment of structured RNA: stochastic grammars and sequence annealing | |
CN111898039B (zh) | 一种融合隐藏关系的属性社区搜索方法 | |
Ashlock et al. | Characterization of extremal epidemic networks with diffusion characters | |
Stephens et al. | Effective fitness as an alternative paradigm for evolutionary computation I: General formalism | |
Titov et al. | A fast genetic algorithm for RNA secondary structure analysis | |
Landau et al. | Sparse LCS common substring alignment | |
JP5555238B2 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
Attar et al. | Automatic generation of adaptive network models based on similarity to the desired complex network | |
Onokpasa et al. | RNA secondary structures: from ab initio prediction to better compression, and back | |
Major et al. | Evaluation of a permutation-based evolutionary framework for lyndon factorizations | |
Bhamidi et al. | Community modulated recursive trees and population dependent branching processes | |
Betzler | Steiner tree problems in the analysis of biological networks | |
Landrin-Schweitzer et al. | Interactive GP for data retrieval in medical databases | |
US20020062307A1 (en) | Method for generating a database of molecular fragments | |
Mohanty et al. | Exact planted (l, d) motif search algorithms: A review | |
CN110892401A (zh) | 生成用于k个不匹配搜索的过滤器的系统和方法 | |
Othman et al. | Genetic algorithms and scalar product for pairwise sequence alignment | |
JP7377493B2 (ja) | Zsdd構築装置、zsdd構築方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061109 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091117 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101117 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111117 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121117 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131117 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |