JP2003203077A - Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体 - Google Patents

Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体

Info

Publication number
JP2003203077A
JP2003203077A JP2001402081A JP2001402081A JP2003203077A JP 2003203077 A JP2003203077 A JP 2003203077A JP 2001402081 A JP2001402081 A JP 2001402081A JP 2001402081 A JP2001402081 A JP 2001402081A JP 2003203077 A JP2003203077 A JP 2003203077A
Authority
JP
Japan
Prior art keywords
rna sequence
goodness
rna
grammar
fit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001402081A
Other languages
English (en)
Other versions
JP3881238B2 (ja
Inventor
Yasuhisa Kamimura
泰央 上村
Naoyuki Horai
尚幸 蓬莱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Celestar Lexico Sciences Inc
Original Assignee
Celestar Lexico Sciences Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Celestar Lexico Sciences Inc filed Critical Celestar Lexico Sciences Inc
Priority to JP2001402081A priority Critical patent/JP3881238B2/ja
Priority to PCT/JP2003/000011 priority patent/WO2003058500A1/ja
Priority to EP03701003A priority patent/EP1471444A4/en
Priority to US10/500,112 priority patent/US20050112577A1/en
Publication of JP2003203077A publication Critical patent/JP2003203077A/ja
Application granted granted Critical
Publication of JP3881238B2 publication Critical patent/JP3881238B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/10Nucleic acid folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 RNA配列や抽出した文法を統合的に管理
し、集積した文法やRNA配列を用いて二次構造予測な
どをより効率的に行うことのできるRNA配列解析装置
等を提供することを課題とする。 【解決手段】 本発明にかかるシステムは、配列情報を
解析するRNA配列解析装置であるRNA配列解析装置
100と、配列情報等に関する外部データベースやホモ
ロジー検索用の外部分析プログラム等を提供する外部シ
ステム200とを、ネットワーク300を介して通信可
能に接続して構成されている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、RNA配列解析装
置、RNA配列解析方法、プログラム、および、記録媒
体に関し、特に、RNAの二次構造を予測し、また、D
NA配列から遺伝子部分を予測するRNA配列解析装
置、RNA配列解析方法、プログラム、および、記録媒
体に関する。
【0002】
【従来の技術】RNA配列は、A(アデニン)、C(シ
トシン)、G(グアニン)、U(ウラシル)の4種の塩
基により構成されるが、その一部は回文言語のような入
れ子の状態となり、相補的な塩基同士(AとU、Gと
C、稀にGとU)が結合して二次構造を構成している。
RNA配列の二次構造は、図1に示すように、多種の構
造トポロジーを有している。ここで、積み重ねられた塩
基対の連続領域をステム(stem)と呼び、また、塩
基対で挟まれた一本鎖の部分配列をループ(loop)
と呼ぶ。ステムの端のループをヘアピンループという
(図1のa)。ステムの中にある一本鎖の塩基は、それ
がステムの片側だけにあるときバルジループ(bulg
e loop)と呼び(図1のb)、ステムの両側にあ
るときは内側ループ(internal loop)と
呼ぶ(図1のc)。放射状に3個以上のステムが出てい
るものをマルチループ(multi−branched
loop)と呼ぶ。また、入れ子ではない塩基対があ
るとき、シュードノット(pseudoknots)と
呼ぶ(図1のd)。
【0003】ここで、RNA配列を形式文法(生成文
法)により構文解析することによりその二次構造を予測
する手法が存在するが、正規文法では回文言語を記述す
ることができないため、一般に、RNA二次構造解析に
おいては、木文法(treeadjoining gr
ammars)や、文脈自由文法(CFG)などを用い
て構文解析を行い構造モデリング(構造トポロジー表
現)を求める手法が考案されている。
【0004】例えば、Yasuo Uemura等著
「Tree adjoining grammars
for RNA structure predict
ion(Theoretical Computer
Science 210 1999 277p−303
p)」(以下「文献1」という)には、木文法による構
造モデリングと、パーザ(paser)を利用したエネ
ルギー極小化によるRNA二次構造予測方法が開示され
ている。
【0005】また、Elena Rivas and
Sean R.Rddy著「Thelanguage
of RNA: a formal grammar
that includes pseudoknots
(BIOINFORMATICS vol.16 n
o.4 2000 334p−340p)」(以下「文
献2」という)には、Crossed−interac
tion Grammarsなどの独自の拡張を施した
文脈自由文法(CFG)による構造モデリングと、パー
ザを利用したエネルギー極小化によるRNA二次構造予
測方法が開示されている。
【0006】また、Michael Zuker著「P
rediction of RNASecondary
Structure by Energy mini
mization(July 8,1996)」(以下
「文献3」という)には、形式文法やパーザを用いず動
的計画法(Dynamic Programming)
によってRNA二次構造を予測する方法を用いたRNA
配列解析システムであるMfold(製品名)が開示さ
れている。これらの文献では、形式文法や動的計画法な
どの手法と、エネルギー極小化手法とを組み合わせるこ
とによってRNA二次構造予測精度を高めている。
【0007】図2は、従来技術によるRNAの二次構造
がステムループをとる場合の構文解析木の一例を示す図
である。図2のaに示すRNA配列の二次構造を図2の
bに、また、構文解析木を図2のcに示している。ここ
で、部分木(subtree)は、内部の節を根とする
構文解析木の断片である。RNA二次構造の構造トポロ
ジーについて構文解析木を作成して構文解析を行うこと
により二次構造解析を行う技術が研究されており、主要
な構造トポロジーに対する文法が既知となっている。
【0008】図3は、従来技術によるRNA二次構造の
構造トポロジーについて、文法が固定されるとそれに対
応した構造トポロジーが規定される(逆もまた可)こと
を示す概念図である。ここで、生成文法(以下単に「文
法」という)は、有限個の記号と、有限個の生成規則P
(production rule)から成る。記号に
は、抽象的な非終端記号N(nonterminal
symbol)と、観測文字列に実際に現れる終端記号
T(terminal symbol)の2種類があ
る。終端記号Tは、RNA配列の場合にはA、T、G、
Cの4文字である。図3に示すように、各構造トポロジ
ーについてそれぞれ対応する文法を定義することができ
る。
【0009】また、図4は、従来技術である木文法パー
ザを用いて、既知の文法からRNA配列の構文解析木を
導出する場合の一例を示す図である。まず、構造未知の
RNA配列を木文法パーザに入力する。ここで、木文法
パーザは、入力された既知の木文法に従ってRNA配列
の構文解析を行い構文解析木を導出する機能、および、
導出された構文解析木について、ループや、塩基対とそ
の他の二次構造要素のそれぞれの自由エネルギーの合計
などを計算することにより平衡自由エネルギー(ΔG)
などの値を求める機能などを有する(文献1から3参
照)。
【0010】ここで、木文法パーザは必ずしも構文解析
木を導出するわけではなく、入力したRNA配列が当該
文法に適合しない場合(パーズが成功しない場合)には
構文解析木を導出しない(すなわち、構文解析木は0個
になる)。また、複数個の構文解析木が導出された場合
には、エネルギー計算の結果、極小の自由エネルギーと
なる1つの構文解析木を選択する。このとき、木文法パ
ーザは導出過程の各段階において自由エネルギー極小な
部分構造を見つけていくことができる。また、木文法パ
ーザはエネルギー準最適な構文も出力することができ
る。このように、木文法パーザは、構文解析(パーズ)
の途中でエネルギー計算を行うことにより、高速化と精
度向上を実現している。
【0011】
【発明が解決しようとする課題】しかしながら、従来の
木文法パーザなどにより構文解析とエネルギー計算を行
う手法を用いたRNA二次構造予測システムにおいて
は、RNA配列や抽出した文法を統合的に管理し、集積
した文法やRNA配列を用いて二次構造予測などをより
効率的に行うものは存在しなかったという問題点があ
る。
【0012】また、与えられた特定の二次構造を取り得
るようなRNA配列を検索するような方法は存在しなか
ったという問題点がある。
【0013】また、複数のRNA配列に共通な二次構造
を簡易に抽出する方法は存在しなかったという問題点が
ある。
【0014】また、RNA配列からRNA二次構造に基
づく類似度を簡易に求める方法は存在しなかったという
問題点がある。
【0015】さらに、DNA配列から遺伝子部分を発見
するための手法としては、ホモロジー検索やモチーフ検
索などを利用する手法が一般的であるが、未知の遺伝子
部分の発見には利用できないという問題点がある。ここ
で、従来技術で説明したように、RNA配列の構造トポ
ロジーを予測可能な生成文法が求められているが、既知
の生成文法により導出された構文解析木を用いた遺伝子
発見方法は存在しなかったという問題点がある。
【0016】このように、従来のシステム等は数々の問
題点を有しており、その結果、システムの利用者および
管理者のいずれにとっても、利便性が悪く、また、利用
効率が悪いものであった。本発明は上記問題点に鑑みて
なされたもので、RNA配列や抽出した文法を統合的に
管理し、集積した文法やRNA配列を用いて二次構造予
測や新たな解析手法などをより効率的に行うことのでき
る、RNA配列解析装置、RNA配列解析方法、プログ
ラム、および、記録媒体を提供することを目的としてい
る。
【0017】
【課題を解決するための手段】このような目的を達成す
るため、請求項1に記載のRNA配列解析装置は、RN
A二次構造の構造トポロジーと、当該構造トポロジーに
適合する生成文法とを対応付けて格納する文法格納手段
と、RNA配列を上記生成文法に適用して構文解析木を
導出する構文解析手段と、上記構文解析手段にて導出さ
れた上記構文解析木に対して適合度の計算を行う適合度
計算手段と、上記適合度計算手段により計算された上記
適合度のうち予め定めた条件を満たす適合度である上記
構文解析木を上記適合度が高い順にソートするソート手
段と、上記ソート手段によりソートされた上記構文解析
木を上記RNA配列の二次構造の候補として出力する出
力手段とを備えたことを特徴とする。
【0018】この装置によれば、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算し、計算された適合度のうち予め定めた条
件を満たす適合度である構文解析木を適合度が高い順に
ソートし、ソートされた構文解析木をRNA配列の二次
構造の候補として出力するので、一配列に対して多文法
で構文解析を行うことができるようになる。すなわち、
各生成文法に対してそれぞれ構文解析し適合度計算を行
い適合度を得る。その結果、生成文法ごとに適合度が得
られることになり、それらの適合度をソートすることに
よって生成文法に順位を付ける。これにより、生成文法
に対する構造トポロジーにも順位が付けられることにな
るので、最終的にRNA配列が取り得る可能性の高い順
に構造トポロジーを確認することができるようになる。
【0019】また、請求項2に記載のRNA配列解析装
置は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、RNA配列を上記生成文法に適用して構
文解析木を導出する構文解析手段と、上記構文解析手段
にて導出された上記構文解析木に対して適合度の計算を
行う適合度計算手段と、上記適合度計算手段により計算
された上記適合度のうち予め定めた条件を満たす適合度
である上記構文解析木を導出した上記RNA配列を上記
構造トポロジーの二次構造を持つRNA配列の候補とし
て出力する出力手段とを備えたことを特徴とする。
【0020】この装置によれば、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を上記構造トポロジーの二次構造を持つRNA配
列の候補として出力するので、多配列に対して一文法で
構文解析を行うことができるようになる。すなわち、与
えられた特定の構造トポロジーに対し、対応する生成文
法を取得し、これを用いてRNA配列データベースに格
納されているすべてまたは一部のRNA配列をそれぞれ
構文解析し、ある閾値以下の適合度で構文解析に成功し
たRNA配列群を結果として出力する。これにより、与
えられた特定の二次構造を取り得るようなRNA配列を
検索することができるようになる。
【0021】また、請求項3に記載のRNA配列解析装
置は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、RNA配列を上記生成文法に適用して構
文解析木を導出する構文解析手段と、上記構文解析手段
にて導出された上記構文解析木に対して適合度の計算を
行う適合度計算手段と、上記適合度計算手段により計算
された上記適合度のうち予め定めた条件を満たす適合度
である上記構文解析木を導出した上記RNA配列を抽出
する抽出手段と、上記構造トポロジーと上記RNA配列
とを二次元マトリックスで表示し、上記二次元マトリッ
クスにおいて上記抽出手段にて抽出された上記RNA配
列と上記構造トポロジーに対応する格子部分をマークす
ることにより、上記RNA配列間で共通に有する構造ト
ポロジーを可視化する共通構造マトリックス作成手段と
を備えたことを特徴とする。
【0022】この装置によれば、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を抽出し、構造トポロジーとRNA配列とを二次
元マトリックスで表示し、二次元マトリックスにおいて
抽出されたRNA配列と構造トポロジーに対応する格子
部分をマークすることにより、RNA配列間で共通に有
する構造トポロジーを可視化するので、RNA配列間の
共通構造を容易に発見することができるようになる。
【0023】また、請求項4に記載のRNA配列解析装
置は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、利用者が入力したDNA配列から転写さ
れるRNA配列を作成するRNA配列作成手段と、上記
RNA配列作成手段により作成された上記RNA配列に
対して上記生成文法を適用して構文解析木を導出する構
文解析手段と、上記構文解析手段にて導出された上記構
文解析木に対して適合度の計算を行う適合度計算手段
と、上記適合度計算手段により計算された上記適合度の
うち予め定めた条件を満たす適合度である上記構文解析
木を導出した上記RNA配列に対応する上記DNA配列
部分を遺伝子の候補として予測する遺伝子予測手段とを
備えたことを特徴とする。
【0024】この装置によれば、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、利用者が入力したDNA配列か
ら転写されるRNA配列を作成し、作成されたRNA配
列に対して生成文法を適用して構文解析木を導出し、導
出された構文解析木に対して適合度の計算を行い、計算
された適合度のうち予め定めた条件を満たす適合度であ
る構文解析木を導出したRNA配列に対応するDNA配
列部分を遺伝子の候補として予測するので、DNA配列
のうち既知のトポロジーを有する可能性のあるRNA配
列に対応する部分について、遺伝子部分である可能性が
あることを予測することができるようになる。
【0025】また、請求項5に記載のRNA配列解析装
置は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、RNA配列を上記生成文法に適用して構
文解析木を導出する構文解析手段と、上記構文解析手段
にて導出された上記構文解析木に対して適合度の計算を
行う適合度計算手段と、上記適合度計算手段により計算
された上記適合度に基づいて上記RNA配列間の類似度
を計算する類似度計算手段とを備えたことを特徴とす
る。
【0026】この装置によれば、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度に基づいてRN
A配列間の類似度を計算するので、RNA構造の類似度
を容易に求めることができるようになる。
【0027】また、請求項6に記載のRNA配列解析装
置は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納手段と、RNA配列を上記生成文法に適用して構
文解析木を導出する構文解析手段と、上記構文解析手段
にて導出された上記構文解析木に対して適合度の計算を
行う適合度計算手段と、上記適合度計算手段により計算
された上記適合度のうち予め定めた条件を満たす適合度
である上記構文解析木を導出した上記RNA配列を抽出
する抽出手段と、上記構造トポロジーと上記RNA配列
とを二次元マトリックスで表示し、上記二次元マトリッ
クスにおいて上記抽出手段にて抽出された上記RNA配
列と上記構造トポロジーに対応する格子部分に上記適合
度を表示する適合度マトリックスを作成する適合度マト
リックス作成手段と、上記適合度マトリックス作成手段
にて作成された上記適合度マトリックスについて、上記
適合度により上記構造トポロジーをソートし、他のRN
A配列について当該ソートされた上記構造トポロジーの
順番に対応する上記生成文法により構文解析を行い上記
適合度が最大となる上記構文解析木を求め、予め定めた
条件を満たす上記適合度を持つ上記構文解析木に対応す
る上記他のRNA配列を抽出する共通構造抽出手段とを
備えたことを特徴とする。
【0028】この装置によれば、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を抽出し、構造トポロジーとRNA配列とを二次
元マトリックスで表示し、二次元マトリックスにおいて
抽出されたRNA配列と構造トポロジーに対応する格子
部分に適合度を表示する適合度マトリックスを作成し、
適合度マトリックスについて、適合度により構造トポロ
ジーをソートし、他のRNA配列について当該ソートさ
れた構造トポロジーの順番に対応する生成文法により構
文解析を行い適合度が最大となる構文解析木を求め、予
め定めた条件を満たす適合度を持つ構文解析木に対応す
る他のRNA配列を抽出するので、共通の構造を持つR
NA配列を容易に発見することができるようになる。
【0029】また、本発明はRNA配列解析方法に関す
るものであり、請求項7に記載のRNA配列解析方法
は、RNA二次構造の構造トポロジーと、当該構造トポ
ロジーに適合する生成文法とを対応付けて格納する文法
格納ステップと、RNA配列を上記生成文法に適用して
構文解析木を導出する構文解析ステップと、上記構文解
析ステップにて導出された上記構文解析木に対して適合
度の計算を行う適合度計算ステップと、上記適合度計算
ステップにより計算された上記適合度のうち予め定めた
条件を満たす適合度である上記構文解析木を上記適合度
が高い順にソートするソートステップと、上記ソートス
テップによりソートされた上記構文解析木を上記RNA
配列の二次構造の候補として出力する出力ステップとを
含むことを特徴とする。
【0030】この方法によれば、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度を計算し、計算された適合度のうち予め定めた条
件を満たす適合度である構文解析木を適合度が高い順に
ソートし、ソートされた構文解析木をRNA配列の二次
構造の候補として出力するので、一配列に対して多文法
で構文解析を行うことができるようになる。すなわち、
各生成文法に対してそれぞれ構文解析し適合度計算を行
い適合度を得る。その結果、生成文法ごとに適合度が得
られることになり、それらの適合度をソートすることに
よって生成文法に順位を付ける。これにより、生成文法
に対する構造トポロジーにも順位が付けられることにな
るので、最終的にRNA配列が取り得る可能性の高い順
に構造トポロジーを確認することができるようになる。
【0031】また、請求項8に記載のRNA配列解析方
法は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納ステップと、RNA配列を上記生成文法に適用し
て構文解析木を導出する構文解析ステップと、上記構文
解析ステップにて導出された上記構文解析木に対して適
合度の計算を行う適合度計算ステップと、上記適合度計
算ステップにより計算された上記適合度のうち予め定め
た条件を満たす適合度である上記構文解析木を導出した
上記RNA配列を上記構造トポロジーの二次構造を持つ
RNA配列の候補として出力する出力ステップとを含む
ことを特徴とする。
【0032】この方法によれば、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を上記構造トポロジーの二次構造を持つRNA配
列の候補として出力するので、多配列に対して一文法で
構文解析を行うことができるようになる。すなわち、与
えられた特定の構造トポロジーに対し、対応する生成文
法を取得し、これを用いてRNA配列データベースに格
納されているすべてまたは一部のRNA配列をそれぞれ
構文解析し、ある閾値以下の適合度で構文解析に成功し
たRNA配列群を結果として出力する。これにより、与
えられた特定の二次構造を取り得るようなRNA配列を
検索することができるようになる。
【0033】また、請求項9に記載のRNA配列解析方
法は、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納する文
法格納ステップと、RNA配列を上記生成文法に適用し
て構文解析木を導出する構文解析ステップと、上記構文
解析ステップにて導出された上記構文解析木に対して適
合度の計算を行う適合度計算ステップと、上記適合度計
算ステップにより計算された上記適合度のうち予め定め
た条件を満たす適合度である上記構文解析木を導出した
上記RNA配列を抽出する抽出ステップと、上記構造ト
ポロジーと上記RNA配列とを二次元マトリックスで表
示し、上記二次元マトリックスにおいて上記抽出ステッ
プにて抽出された上記RNA配列と上記構造トポロジー
に対応する格子部分をマークすることにより、上記RN
A配列間で共通に有する構造トポロジーを可視化する共
通構造マトリックス作成ステップとを含むことを特徴と
する。
【0034】この方法によれば、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を抽出し、構造トポロジーとRNA配列とを二次
元マトリックスで表示し、二次元マトリックスにおいて
抽出されたRNA配列と構造トポロジーに対応する格子
部分をマークすることにより、RNA配列間で共通に有
する構造トポロジーを可視化するので、RNA配列間の
共通構造を容易に発見することができるようになる。
【0035】また、請求項10に記載のRNA配列解析
方法は、RNA二次構造の構造トポロジーと、当該構造
トポロジーに適合する生成文法とを対応付けて格納する
文法格納ステップと、利用者が入力したDNA配列から
転写されるRNA配列を作成するRNA配列作成ステッ
プと、上記RNA配列作成ステップにより作成された上
記RNA配列に対して上記生成文法を適用して構文解析
木を導出する構文解析ステップと、上記構文解析ステッ
プにて導出された上記構文解析木に対して適合度の計算
を行う適合度計算ステップと、上記適合度計算ステップ
により計算された上記適合度のうち予め定めた条件を満
たす適合度である上記構文解析木を導出した上記RNA
配列に対応する上記DNA配列部分を遺伝子の候補とし
て予測する遺伝子予測ステップとを含むことを特徴とす
る。
【0036】この方法によれば、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、利用者が入力したDNA配列か
ら転写されるRNA配列を作成し、作成されたRNA配
列に対して生成文法を適用して構文解析木を導出し、導
出された構文解析木に対して適合度の計算を行い、計算
された適合度のうち予め定めた条件を満たす適合度であ
る構文解析木を導出したRNA配列に対応するDNA配
列部分を遺伝子の候補として予測するので、DNA配列
のうち既知のトポロジーを有する可能性のあるRNA配
列に対応する部分について、遺伝子部分である可能性が
あることを予測することができるようになる。
【0037】また、請求項11に記載のRNA配列解析
方法は、RNA二次構造の構造トポロジーと、当該構造
トポロジーに適合する生成文法とを対応付けて格納する
文法格納ステップと、RNA配列を上記生成文法に適用
して構文解析木を導出する構文解析ステップと、上記構
文解析ステップにて導出された上記構文解析木に対して
適合度の計算を行う適合度計算ステップと、上記適合度
計算ステップにより計算された上記適合度に基づいて上
記RNA配列間の類似度を計算する類似度計算ステップ
とを含むことを特徴とする。
【0038】この方法によれば、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度に基づいてRN
A配列間の類似度を計算するので、RNA構造の類似度
を容易に求めることができるようになる。
【0039】また、請求項12に記載のRNA配列解析
方法は、RNA二次構造の構造トポロジーと、当該構造
トポロジーに適合する生成文法とを対応付けて格納する
文法格納ステップと、RNA配列を上記生成文法に適用
して構文解析木を導出する構文解析ステップと、上記構
文解析ステップにて導出された上記構文解析木に対して
適合度の計算を行う適合度計算ステップと、上記適合度
計算ステップにより計算された上記適合度のうち予め定
めた条件を満たす適合度である上記構文解析木を導出し
た上記RNA配列を抽出する抽出ステップと、上記構造
トポロジーと上記RNA配列とを二次元マトリックスで
表示し、上記二次元マトリックスにおいて上記抽出ステ
ップにて抽出された上記RNA配列と上記構造トポロジ
ーに対応する格子部分に上記適合度を表示する適合度マ
トリックスを作成する適合度マトリックス作成ステップ
と、上記適合度マトリックス作成ステップにて作成され
た上記適合度マトリックスについて、上記適合度により
上記構造トポロジーをソートし、他のRNA配列につい
て当該ソートされた上記構造トポロジーの順番に対応す
る上記生成文法により構文解析を行い上記適合度が最大
となる上記構文解析木を求め、予め定めた条件を満たす
上記適合度を持つ上記構文解析木に対応する上記他のR
NA配列を抽出する共通構造抽出ステップとを含むこと
を特徴とする。
【0040】この方法によれば、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を抽出し、構造トポロジーとRNA配列とを二次
元マトリックスで表示し、二次元マトリックスにおいて
抽出されたRNA配列と構造トポロジーに対応する格子
部分に適合度を表示する適合度マトリックスを作成し、
適合度マトリックスについて、適合度により構造トポロ
ジーをソートし、他のRNA配列について当該ソートさ
れた構造トポロジーの順番に対応する生成文法により構
文解析を行い適合度が最大となる構文解析木を求め、予
め定めた条件を満たす適合度を持つ構文解析木に対応す
る他のRNA配列を抽出するので、共通の構造を持つR
NA配列を容易に発見することができるようになる。
【0041】また、本発明はRNA配列解析方法をコン
ピュータに実行させるプログラムに関するものであり、
請求項13に記載のプログラムは、RNA二次構造の構
造トポロジーと、当該構造トポロジーに適合する生成文
法とを対応付けて格納する文法格納ステップと、RNA
配列を上記生成文法に適用して構文解析木を導出する構
文解析ステップと、上記構文解析ステップにて導出され
た上記構文解析木に対して適合度の計算を行う適合度計
算ステップと、上記適合度計算ステップにより計算され
た上記適合度のうち予め定めた条件を満たす適合度であ
る上記構文解析木を上記適合度が高い順にソートするソ
ートステップと、上記ソートステップによりソートされ
た上記構文解析木を上記RNA配列の二次構造の候補と
して出力する出力ステップとを含むことを特徴とする。
【0042】このプログラムによれば、RNA二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算し、計算された適合度のうち予め定
めた条件を満たす適合度である構文解析木を適合度が高
い順にソートし、ソートされた構文解析木をRNA配列
の二次構造の候補として出力するので、一配列に対して
多文法で構文解析を行うことができるようになる。すな
わち、各生成文法に対してそれぞれ構文解析し適合度計
算を行い適合度を得る。その結果、生成文法ごとに適合
度が得られることになり、それらの適合度をソートする
ことによって生成文法に順位を付ける。これにより、生
成文法に対する構造トポロジーにも順位が付けられるこ
とになるので、最終的にRNA配列が取り得る可能性の
高い順に構造トポロジーを確認することができるように
なる。
【0043】また、請求項14に記載のプログラムは、
RNA二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、RNA配列を上記生成文法に適用して構文
解析木を導出する構文解析ステップと、上記構文解析ス
テップにて導出された上記構文解析木に対して適合度の
計算を行う適合度計算ステップと、上記適合度計算ステ
ップにより計算された上記適合度のうち予め定めた条件
を満たす適合度である上記構文解析木を導出した上記R
NA配列を上記構造トポロジーの二次構造を持つRNA
配列の候補として出力する出力ステップとを含むことを
特徴とする。
【0044】このプログラムによれば、RNA二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を上記構造トポロジーの二次構造を持つR
NA配列の候補として出力するので、多配列に対して一
文法で構文解析を行うことができるようになる。すなわ
ち、与えられた特定の構造トポロジーに対し、対応する
生成文法を取得し、これを用いてRNA配列データベー
スに格納されているすべてまたは一部のRNA配列をそ
れぞれ構文解析し、ある閾値以下の適合度で構文解析に
成功したRNA配列群を結果として出力する。これによ
り、与えられた特定の二次構造を取り得るようなRNA
配列を検索することができるようになる。
【0045】また、請求項15に記載のプログラムは、
RNA二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、RNA配列を上記生成文法に適用して構文
解析木を導出する構文解析ステップと、上記構文解析ス
テップにて導出された上記構文解析木に対して適合度の
計算を行う適合度計算ステップと、上記適合度計算ステ
ップにより計算された上記適合度のうち予め定めた条件
を満たす適合度である上記構文解析木を導出した上記R
NA配列を抽出する抽出ステップと、上記構造トポロジ
ーと上記RNA配列とを二次元マトリックスで表示し、
上記二次元マトリックスにおいて上記抽出ステップにて
抽出された上記RNA配列と上記構造トポロジーに対応
する格子部分をマークすることにより、上記RNA配列
間で共通に有する構造トポロジーを可視化する共通構造
マトリックス作成ステップとを含むことを特徴とする。
【0046】このプログラムによれば、RNA二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を抽出し、構造トポロジーとRNA配列と
を二次元マトリックスで表示し、二次元マトリックスに
おいて抽出されたRNA配列と構造トポロジーに対応す
る格子部分をマークすることにより、RNA配列間で共
通に有する構造トポロジーを可視化するので、RNA配
列間の共通構造を容易に発見することができるようにな
る。
【0047】また、請求項16に記載のプログラムは、
RNA二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、利用者が入力したDNA配列から転写され
るRNA配列を作成するRNA配列作成ステップと、上
記RNA配列作成ステップにより作成された上記RNA
配列に対して上記生成文法を適用して構文解析木を導出
する構文解析ステップと、上記構文解析ステップにて導
出された上記構文解析木に対して適合度の計算を行う適
合度計算ステップと、上記適合度計算ステップにより計
算された上記適合度のうち予め定めた条件を満たす適合
度である上記構文解析木を導出した上記RNA配列に対
応する上記DNA配列部分を遺伝子の候補として予測す
る遺伝子予測ステップとを含むことを特徴とする。
【0048】このプログラムによれば、RNA二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、利用者が入力したDNA
配列から転写されるRNA配列を作成し、作成されたR
NA配列に対して生成文法を適用して構文解析木を導出
し、導出された構文解析木に対して適合度の計算を行
い、計算された適合度のうち予め定めた条件を満たす適
合度である構文解析木を導出したRNA配列に対応する
DNA配列部分を遺伝子の候補として予測するので、D
NA配列のうち既知のトポロジーを有する可能性のある
RNA配列に対応する部分について、遺伝子部分である
可能性があることを予測することができるようになる。
【0049】また、請求項17に記載のプログラムは、
RNA二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、RNA配列を上記生成文法に適用して構文
解析木を導出する構文解析ステップと、上記構文解析ス
テップにて導出された上記構文解析木に対して適合度の
計算を行う適合度計算ステップと、上記適合度計算ステ
ップにより計算された上記適合度に基づいて上記RNA
配列間の類似度を計算する類似度計算ステップとを含む
ことを特徴とする。
【0050】このプログラムによれば、RNA二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度に基づい
てRNA配列間の類似度を計算するので、RNA構造の
類似度を容易に求めることができるようになる。
【0051】また、請求項18に記載のプログラムは、
RNA二次構造の構造トポロジーと、当該構造トポロジ
ーに適合する生成文法とを対応付けて格納する文法格納
ステップと、RNA配列を上記生成文法に適用して構文
解析木を導出する構文解析ステップと、上記構文解析ス
テップにて導出された上記構文解析木に対して適合度の
計算を行う適合度計算ステップと、上記適合度計算ステ
ップにより計算された上記適合度のうち予め定めた条件
を満たす適合度である上記構文解析木を導出した上記R
NA配列を抽出する抽出ステップと、上記構造トポロジ
ーと上記RNA配列とを二次元マトリックスで表示し、
上記二次元マトリックスにおいて上記抽出ステップにて
抽出された上記RNA配列と上記構造トポロジーに対応
する格子部分に上記適合度を表示する適合度マトリック
スを作成する適合度マトリックス作成ステップと、上記
適合度マトリックス作成ステップにて作成された上記適
合度マトリックスについて、上記適合度により上記構造
トポロジーをソートし、他のRNA配列について当該ソ
ートされた上記構造トポロジーの順番に対応する上記生
成文法により構文解析を行い上記適合度が最大となる上
記構文解析木を求め、予め定めた条件を満たす上記適合
度を持つ上記構文解析木に対応する上記他のRNA配列
を抽出する共通構造抽出ステップとを含むことを特徴と
する。
【0052】このプログラムによれば、RNA二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を抽出し、構造トポロジーとRNA配列と
を二次元マトリックスで表示し、二次元マトリックスに
おいて抽出されたRNA配列と構造トポロジーに対応す
る格子部分に適合度を表示する適合度マトリックスを作
成し、適合度マトリックスについて、適合度により構造
トポロジーをソートし、他のRNA配列について当該ソ
ートされた構造トポロジーの順番に対応する生成文法に
より構文解析を行い適合度が最大となる構文解析木を求
め、予め定めた条件を満たす適合度を持つ構文解析木に
対応する他のRNA配列を抽出するので、共通の構造を
持つRNA配列を容易に発見することができるようにな
る。
【0053】また、本発明は記録媒体に関するものであ
り、請求項19に記載の記録媒体は、上記請求項13か
ら18のいずれか一つに記載されたプログラムを記録し
たことを特徴とする。
【0054】この記録媒体によれば、当該記録媒体に記
録されたプログラムをコンピュータに読み取らせて実行
することによって、請求項13から18のいずれか一つ
に記載されたプログラムをコンピュータを利用して実現
することができ、これら各プログラムと同様の効果を得
ることができる。
【0055】
【発明の実施の形態】以下に、本発明にかかるRNA配
列解析装置、RNA配列解析方法、プログラム、およ
び、記録媒体の実施の形態を図面に基づいて詳細に説明
する。なお、この実施の形態によりこの発明が限定され
るものではない。特に、以下の実施の形態においては、
本発明を、木文法に適用した例について説明するが、こ
の場合に限られず、全ての生成文法において、同様に適
用することができる。
【0056】[本システムの概要]以下、本システムの
概要について説明し、その後、本システムの構成および
処理等について詳細に説明する。このシステムは、概略
的に、以下の基本的特徴を有する。すなわち、本システ
ムのRNA配列解析装置は、RNA二次構造の構造トポ
ロジーと、当該構造トポロジーに適合する生成文法とを
対応付けて格納し、RNA配列を生成文法に適用して構
文解析木を導出し、導出された構文解析木に対して適合
度を計算し、計算された適合度のうち予め定めた条件を
満たす適合度である構文解析木を適合度が高い順にソー
トし、ソートされた構文解析木をRNA配列の二次構造
の候補として出力する。ここで、生成文法は、木文法、
文脈自由文法などを含むが、シュードノットを表現する
ためには木文法が最も適しているため、木文法を用いる
ことが好ましい。
【0057】また、本装置は、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を上記構造トポロジーの二次構造を持つR
NA配列の候補として出力する。
【0058】また、本装置は、計算された適合度のうち
予め定めた条件を満たす適合度である構文解析木を導出
したRNA配列を抽出し、構造トポロジーとRNA配列
とを二次元マトリックスで表示し、二次元マトリックス
において抽出されたRNA配列と構造トポロジーに対応
する格子部分をマークすることにより、RNA配列間で
共通に有する構造トポロジーを可視化する。
【0059】また、本装置は、利用者が入力したDNA
配列から転写されるRNA配列を作成し、作成されたR
NA配列に対して生成文法を適用して構文解析木を導出
し、導出された構文解析木に対して適合度の計算を行
い、計算された適合度のうち予め定めた条件を満たす適
合度である構文解析木を導出したRNA配列に対応する
DNA配列部分を遺伝子の候補として予測する。
【0060】さらに、本装置は、RNA二次構造の構造
トポロジーと、当該構造トポロジーに適合する生成文法
とを対応付けて格納し、RNA配列を生成文法に適用し
て構文解析木を導出し、導出された構文解析木に対して
適合度の計算を行い、計算された適合度に基づいてRN
A配列間の類似度を計算する。
【0061】[システム構成]まず、本システムの構成
について説明する。図5は、本発明が適用される本シス
テムの構成の一例を示すブロック図であり、該構成のう
ち本発明に関係する部分のみを概念的に示している。本
システムは、概略的に、配列情報を解析するRNA配列
解析装置であるRNA配列解析装置100と、配列情報
等に関する外部データベースやホモロジー検索用の外部
分析プログラム等を提供する外部システム200とを、
ネットワーク300を介して通信可能に接続して構成さ
れている。
【0062】図5においてネットワーク300は、RN
A配列解析装置100と外部システム200とを相互に
接続する機能を有し、例えば、インターネット等であ
る。
【0063】図5において外部システム200は、ネッ
トワーク300を介して、RNA配列解析装置100と
相互に接続され、利用者に対して配列情報等に関する外
部データベースやホモロジー検索やモチーフ検索等の外
部分析プログラムを実行するウェブサイトを提供する機
能を有する。
【0064】ここで、外部システム200は、WEBサ
ーバやASPサーバ等として構成してもよく、そのハー
ドウェア構成は、一般に市販されるワークステーショ
ン、パーソナルコンピュータ等の情報処理装置およびそ
の付属装置により構成してもよい。また、外部システム
200の各機能は、外部システム200のハードウェア
構成中のCPU、ディスク装置、メモリ装置、入力装
置、出力装置、通信制御装置等およびそれらを制御する
プログラム等により実現される。
【0065】図5においてRNA配列解析装置100
は、概略的に、RNA配列解析装置100の全体を統括
的に制御するCPU等の制御部102、通信回線等に接
続されるルータ等の通信装置(図示せず)に接続される
通信制御インターフェース部104、入力装置112お
よび出力装置114に接続される入出力制御インターフ
ェース部108、および、各種のデータベースやテーブ
ル(RNA配列データベース106a〜共通構造マトリ
ックス106c)を格納する記憶部106を備えて構成
されており、これら各部は任意の通信路を介して通信可
能に接続されている。さらに、このRNA配列解析装置
100は、ルータ等の通信装置および専用線等の有線ま
たは無線の通信回線を介して、ネットワーク300に通
信可能に接続されている。
【0066】記憶部106に格納される各種のデータベ
ース(RNA配列データベース106a〜共通構造マト
リックス106c)は、固定ディスク装置等のストレー
ジ手段であり、各種処理に用いる各種のプログラムやテ
ーブルやファイルやデータベースやウェブページ用ファ
イル等を格納する。
【0067】これら記憶部106の各構成要素のうち、
RNA配列データベース106aは、RNA配列を格納
したデータベースである。RNA配列データベース10
6aは、インターネットを経由してアクセスする外部の
RNA配列データベースであってもよく、また、これら
のデータベースをコピーしたり、オリジナルの配列情報
を格納したり、さらに独自のアノテーション情報等を付
加したりして作成したインハウスデータベースであって
もよい。また、RNA配列データベース106aは、c
DNA等のDNA配列データベースに基づいて予め生成
された、あるいは必要時に動的に生成されたRNA配列
を格納したものでもよい。
【0068】また、文法データベース106bは、RN
A二次構造の構造トポロジーと、当該構造トポロジーに
適合する生成文法とを対応付けて格納する文法格納手段
である。ここで、図6は、文法データベース106bに
格納される情報の一例を示す図である。図6に示すよう
に、文法データベース106bは、構造トポロジーと、
その構造トポロジーに対応する文法とを対応付けて格納
する。ここで、文法データベース106bには、図6に
示したように、構造トポロジーと文法とが1対1で対応
するようにしてもよく、また、複数のトポロジーが結合
した文法(例えば、シュードノットとヘアピンループと
を両方持つトポロジーなど)や、特徴的な構造を有する
RNA用の文法(例えば、rRNAに特有の構造トポロ
ジーなど)や、所定のカテゴリーのRNAが共通で備え
るトポロジー用の文法や、全てのRNAに適合する文法
などを規定してもよい。
【0069】また、共通構造マトリックス106cは、
構造トポロジーとRNA配列とを二次元マトリックスで
表示するためのテーブル(記憶領域)である。
【0070】また、図5において、通信制御インターフ
ェース部104は、RNA配列解析装置100とネット
ワーク300(またはルータ等の通信装置)との間にお
ける通信制御を行う。すなわち、通信制御インターフェ
ース部104は、他の端末と通信回線を介してデータを
通信する機能を有する。
【0071】また、図5において、入出力制御インター
フェース部108は、入力装置112や出力装置114
の制御を行う。ここで、出力装置114としては、モニ
タ(家庭用テレビを含む)の他、スピーカを用いること
ができる(なお、以下においては出力装置をモニタとし
て記載する)。また、入力装置112としては、キーボ
ード、マウス、および、マイク等を用いることができ
る。また、モニタも、マウスと協働してポインティング
デバイス機能を実現する。
【0072】また、図5において、制御部102は、O
S(Operating System)等の制御プロ
グラム、各種の処理手順等を規定したプログラム、およ
び所要データを格納するための内部メモリを有し、これ
らのプログラム等により、種々の処理を実行するための
情報処理を行う。制御部102は、機能概念的に、構造
予測部102a、類似度計算部102d、共通構造マト
リックス作成部102f、および、遺伝子予測部102
gを備えて構成されている。
【0073】このうち、構造予測部102aは、入力さ
れた既知の文法に従ってRNA配列の構文解析を行い構
文解析木を導出する機能(構文解析部102b)、およ
び、導出された構文解析木に対して適合度の計算を行う
機能(適合度計算部102c)などを有する。
【0074】また、類似度計算部102dは、複数のR
NA配列間の類似度を計算する類似度計算手段である。
【0075】また、共通構造マトリックス作成部102
fは、適合度計算手段により計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を抽出する抽出手段、および、構造トポロ
ジーとRNA配列とを二次元マトリックスで表示し、二
次元マトリックスにおいて抽出手段にて抽出されたRN
A配列と構造トポロジーに対応する格子部分をマークす
ることにより、RNA配列間で共通に有する構造トポロ
ジーを可視化する共通構造マトリックス作成手段、二次
元マトリックスにおいて抽出手段にて抽出されたRNA
配列と構造トポロジーに対応する格子部分に適合度を表
示する適合度マトリックスを作成する適合度マトリック
ス作成手段、および、適合度マトリックス作成手段にて
作成された適合度マトリックスについて、適合度により
構造トポロジーをソートし、他のRNA配列について当
該ソートされた構造トポロジーの順番に対応する生成文
法により構文解析を行い適合度が最大となる構文解析木
を求め、予め定めた条件を満たす適合度を持つ構文解析
木に対応する他のRNA配列を抽出する共通構造抽出手
段である。
【0076】また、遺伝子予測部102gは、利用者が
入力したDNA配列から転写されるRNA配列を作成す
るRNA配列作成手段、および、適合度計算手段により
計算された適合度のうち予め定めた条件を満たす適合度
である構文解析木を導出したRNA配列に対応するDN
A配列部分を遺伝子の候補として予測する遺伝子予測手
段である。なお、これら各部によって行なわれる処理の
詳細については、後述する。
【0077】[システムの処理]次に、このように構成
された本実施の形態における本システムの処理の一例に
ついて、以下に図7〜図11を参照して詳細に説明す
る。
【0078】[RNA二次構造予測処理]まず、RNA
二次構造予測処理の詳細について図7を参照して説明す
る。図7は、本実施の形態における本システムのRNA
二次構造予測処理の一例を示す処理概念図である。
【0079】まず、文法データベース106bに既知の
RNAの構造トポロジーを表す文法を集積する。そし
て、利用者が構造未知のRNA配列であってその二次構
造を特定したいものを入力装置112を介してRNA配
列解析装置100に入力すると(ステップSA−1)、
構造予測部102aは、構文解析部102bの処理によ
り、文法データベース106bから文法を取り出し(ス
テップSA−2)、RNA配列に対して各文法を適合し
て構文解析(パーズ)を行う(ステップSA−3)。こ
こで、利用者のRNA配列の入力は、RNA配列データ
ベース106aから所望の配列を選択することにより入
力してもよく、外部システム200の外部データベース
から所望の配列を選択することにより入力してもよく、
さらに、所望の配列を直接入力してもよい。
【0080】そして、構造予測部102aは、適合度計
算部102cの処理により、パーズが成功し導出された
構文解析木について、例えば、ループや、塩基対とその
他の二次構造要素のそれぞれの自由エネルギーの合計な
どを計算することにより求める平衡自由エネルギー(Δ
G)などに基づいて適合度を求める。ここで、適合度計
算方法は、例えば上述した文献1から3に示した方法の
ほか、従来のいずれの方法を用いてもよい。
【0081】そして、構造予測部102aは、計算され
た適合度のうち予め定めた条件を満たす適合度である構
文解析木を適合度が高い順にソートする(ステップSA
−4)。
【0082】そして、構造予測部102aは、入出力制
御インターフェース部108を介して出力装置114に
ソートされた構文解析木とその適合度を出力することに
より、利用者が入力した一配列に対して多文法で構文解
析を行うことができるようになる。すなわち、各生成文
法に対してそれぞれ構文解析し適合度計算を行い適合度
を得る。その結果、生成文法ごとに適合度が得られるこ
とになり、それらの適合度をソートすることによって生
成文法に順位を付ける。これにより、生成文法に対する
構造トポロジーにも順位が付けられることになるので、
最終的にRNA配列が取り得る可能性の高い順に構造ト
ポロジーを確認することができるようになる。これに
て、RNA二次構造予測処理が終了する。
【0083】[同一構造RNA配列抽出処理]次に、同
一構造RNA配列抽出処理の詳細について図8を参照し
て説明する。図8は、本実施の形態における本システム
の同一構造RNA配列抽出処理の一例を示す処理概念図
である。
【0084】まず、利用者は、特定の構造トポロジーに
対応する文法を文法データベース106bから選択す
る。そして、構造予測部102aは、構文解析部102
bの処理により、RNA配列データベース106aから
RNA配列を取り出し(ステップSB−1)、各RNA
配列に対して文法を適合して(ステップSB−2)、構
文解析を行う(ステップSB−3)。
【0085】そして、適合度計算部102cは、導出さ
れた構文解析木に対して適合度計算を行う。そして、構
造予測部102aは、計算された適合度のうち予め定め
た条件を満たす適合度である構文解析木を導出したRN
A配列を、指定した文法が表す構造トポロジーの二次構
造を持つRNA配列の候補として抽出する(ステップS
B−4)。
【0086】そして、構造予測部102aは、抽出され
たRNA配列を当該文法が表す構造トポロジーの二次構
造をもつ可能性のあるものとして、入出力制御インター
フェース部108を介して出力装置114に出力する
(ステップSB−5)。これにて、同一構造RNA配列
抽出処理が終了する。
【0087】[共通構造抽出処理]次に、共通構造抽出
処理の詳細について図9を参照して説明する。図9は、
本実施の形態における本システムの共通構造抽出処理の
一例を示す処理概念図である。
【0088】まず、構造予測部102aは、RNA配列
データベース106aから1つまたは2つ以上のRNA
配列を取り出し(ステップSC−1およびステップSC
−2)、構文解析部102bの処理により、各RNA配
列に対して、文法データベース106bから取り出した
(ステップSC−3)、1つまたは2つ以上の文法を適
合する(ステップSC−4)。RNA配列解析装置10
0は、これらの取り出しや、パーズ処理について並列処
理を行ってもよく、また、順次処理を行ってもよい。
【0089】そして、適合度計算部102cは、導出さ
れた構文解析木に対して適合度計算を行い、共通構造マ
トリックス作成部102fの処理により、計算された適
合度のうち予め定めた条件を満たす適合度である構文解
析木を導出したRNA配列を抽出する(ステップSC−
5)。
【0090】そして、共通構造マトリックス作成部10
2fは、適合した文法が表す構造トポロジーとRNA配
列とを二次元マトリックスで表示し、二次元マトリック
スにおいて抽出されたRNA配列と構造トポロジーに対
応する格子部分をマークすることにより、RNA配列間
で共通に有する構造トポロジーを可視化する(ステップ
SC−6)。
【0091】ここで、マークは、図9に示すように対象
の格子部分に特定の色をつけてもよく、また、特定の記
号(○など)や文字(「Y」など)を記載してもよい。
これにより、例えば、縦方向にマークが連続した場合
(図9に示す例においては、2番目の構造トポロジーの
列)には、この構造トポロジーが各RNA配列に共通に
持っている配列であることが可視的に把握することがで
きるようになる。これにて、共通構造抽出処理が終了す
る。
【0092】[構造類似度計算処理]次に、構造類似度
計算処理の詳細について図10を参照して説明する。図
10は、本実施の形態における本システムの構造類似度
計算処理の一例を示す処理概念図である。
【0093】まず、利用者が、入力装置112により類
似度を計算したい複数(図10の例では2個)のRNA
配列をRNA配列解析装置100に入力する(ステップ
SE−1)。
【0094】そして、類似度計算部102dは、文法デ
ータベース106bから1つまたは2つ以上の文法を取
り出し(ステップSE−2)、構文解析部102bの処
理により、入力したRNA配列について文法を適合して
構文解析を行う(ステップSE−3)。また、適合度計
算部102cは、導出された構文解析木に対して適合度
計算を行う(ステップSE−4)。
【0095】そして、類似度計算部102dは、文法を
適合することにより導出された構文解析木と適合度(導
出されなかった場合には、それを表現する特別な値を設
定する)を各RNA配列ごとに対応付けてベクトル演算
や内積の計算などをすることにより(ステップSE−
5)、RNA配列間の類似度を計算する(ステップSE
−6)。
【0096】例えば、入力であるi個のRNA配列をR
NA1,RNA2,...,RNAiとし、文法データベ
ース106bに格納されているN個の文法をG1
2,...,GNとし、また、RNA配列xと文法gに
対するパーザが成功したときの適合度をr(x,g)と
する。ここで、適合度は実数値とし、適合度が大きいほ
どその構造を取り易いことを示すものとする。また、入
力RNAjに関する適合度のベクトルRjにおいて、Rj
のk番目の要素Rj[k]は、RNAjとGkに対するパ
ーザが成功したときはr(RNAj,G k)とし、RNA
jとGkに対するパーザが失敗したときは仮に「×」とす
る。
【0097】このとき、類似度計算部102dによる類
似度計算は、以下の手法により行われる。まず、2つの
RNA配列の適合度のベクトルR1とR2を入力する。
【0098】ついで、類似度計算部102dは、類似度
ベクトルS1、S2とペナルティPを求める。ここで、
「ペナルティP」は、R1[k]とR2[k]の片方だけ
が「パーザ失敗(×)」であるkの個数であり、「類似
度ベクトルS1、S2」は、R1[k]もR2[k]も「パ
ーザ失敗(×)」ではない箇所だけを抜き出したベクト
ルである。図12は、ペナルティPと類似度ベクトルS
1、S2の概念を説明する図である。
【0099】ついで、類似度計算部102dは、類似度
ベクトルS1、S2間の距離Dを以下の方法により求め
る。まず、類似度ベクトルS1、S2の要素数(ベクトル
の次元)をMとする。そして、類似度計算で一般的に用
いられるユークリッド距離を用いて以下の数式により距
離を計算する。 D=sqrt(Σ{(S1[k] −S2[k])2}) (sqrtは平方根であり、Σはk=1〜Mに関する総
和である。)
【0100】ここで、距離Dが大きい場合には類似度が
低いことになり、また、ペナルティPが大きいと類似度
が低いことになるので、ペナルティPと距離Dを用いて
以下の数式により類似度Simを求める。 Sim=aP/D (aは定数(0<a<1)である。)
【0101】そして、Simを類似度として出力する。
ここで、定数aを小さくすると、距離Dよりもペナルテ
ィPが重視されることになる。これにて、構造類似度計
算処理が終了する。
【0102】[遺伝子予測処理]次に、遺伝子予測処理
の詳細について図11を参照して説明する。図11は、
本実施の形態における本システムの遺伝子予測処理の一
例を示す処理概念図である。
【0103】まず、利用者が遺伝子部分が未知のDNA
配列を入力装置112を介してRNA配列解析装置10
0に入力すると、RNA配列解析装置100は、遺伝子
予測部102gの処理により、入力されたDNA配列に
基づいて、当該DNA配列から転写されるRNA配列
(以下、「予測RNA配列」という)を自動的に変換し
て作成する(ステップSF−1)。ここで、利用者のD
NA配列の入力は、外部システム200の外部データベ
ースやインハウスデータベースから所望のDNA配列を
選択することにより入力してもよく、さらに、所望の配
列を直接入力してもよい。
【0104】ついで、構造予測部102aがこの予測R
NA配列を構文解析部102bに入力すると(ステップ
SF−2)、構文解析部102bの処理により、文法デ
ータベース106bから1つまたは2つ以上の文法が取
り出され(ステップSF−3)、各文法を予測RNA配
列に適合する(ステップSF−4)。
【0105】そして、適合度計算部102cは、構文解
析部102bが導出した構文解析木について適合度計算
を行い(ステップSF−5)、遺伝子予測部102g
は、計算された適合度のうち予め定めた条件を満たす適
合度である構文解析木を導出した予測RNA配列に対応
するDNA配列部分を遺伝子の候補として予測する(ス
テップSF−6)。すなわち、DNA配列のうち、当該
予測RNA配列の部分が遺伝子部分である可能性が高い
領域として出力される。
【0106】これにより、DNA配列のうち既知のトポ
ロジーを有する可能性のある予測RNA配列に対応する
部分について、遺伝子部分である可能性があることを予
測することができるようになる。これにて、遺伝子予測
処理が終了する。
【0107】[実施例]本発明の実施例について、以下
に図13〜図23を参照して説明する。 1 準備 本節では実施例の準備として、いくつかの具体的なRN
A二次構造トポロジーを定義し、それらをモデリングす
る生成文法を規定する。本実施例では説明の便宜上、生
成文法として文脈自由文法を用いるが、よりモデリング
能力の高いRNA木文法(文献1)を用いた場合でも同
様のことが説明できる。
【0108】1.1 二次構造トポロジー 図13に示される2つのRNA二次構造トポロジーを考
える。ステムループは、ステム(H(a))とヘアピン
ループ(L(a))から構成される。2並列ステムルー
プは、並列に並んだ2つのステムループから構成され
る。それぞれのステム部分(H1(b)、H2(b))と
ヘアピンループ部分、(L1(b)、L2(b))の他に
ステムとステムをつなぐループ部分(I(b))があ
る。
【0109】上記構造トポロジーについて、さらに具体
的な特徴を考えることができる。例えばステムやループ
部分のサイズの制約、ステムを構成する塩基対にミスマ
ッチ(内部ループやバルジループ)を許すかどうか、あ
るいは特定の場所に特定の塩基配列を含むかどうか、な
どといったより詳細な特徴を持ったトポロジーを考える
ことが可能である。そこで、本実施例では次のような特
徴を持ったRNA二次構造トポロジーT1、T2を扱う。
【0110】トポロジーT1 − 以下の特徴を持ったステムループ構造(図13
(a)参照)である。 − ステム(H(a))を構成する塩基対はミスマ
ッチを含まない。 − ステム(H(a))サイズは1塩基対以上とす
る。 − ヘアピンループ(L(a))のサイズは1塩基
以上とする。
【0111】トポロジーT2 − 以下の特徴を持った2並列ステムループ構造
(図13(b)参照)である。 − トポロジーT1を2つ並列に並べたもの。 − ステム(H1(b))とステム(H2(b))の
間のループ(I(b))の長さは1塩基以上とする。
【0112】1.2 文脈自由文法による二次構造ト
ポロジーのモデリング 以上のように定義された2つのトポロジーT1、T2を文
脈自由文法を用いてモデリングする。文脈自由文法は一
般に以下の4項組によって規定される。 G=(N,Σ,P,S) Nは非終端記号の有限集合、Σは終端記号の有限集合、
Pは生成規則の有限集合、Sは開始記号を表す。
【0113】しかしながら、本実施例では常にΣ=
{a,u,g,c}、開始記号はS、さらにNは生成規
則Pに出現する非終端記号のみからなるものとすること
から、Pのみを指定することにより文脈自由文法Gを規
定することができる。よって便宜上、本稿では文脈自由
文法Gを規定する際には、生成規則の有限集合Pのみを
指定することにする。
【0114】(1)トポロジーT1は以下の生成規則か
らなる文脈自由文法G1によってモデリングされる。
【数1】
【0115】すなわち、ワトソン−クリック塩基対のみ
を考える場合は、一番最初の生成規則は以下と同値であ
る。 S→aHu|uHa|gHc|cHg 非ワトソン−クリック塩基対を許す場合はさらに、S→
gHuなどを追加してもよい。
【0116】G1において、
【数2】 によって塩基対(ステムを構成)が生成され、L→xL
とL→xによって塩基対を形成しない塩基(ループを構
成)が生成されるとみなす。すると、G1はRNAの二
次構造を生成することができることになる。このよう
に、任意の文脈自由文法Gに対して、Gが生成すること
ができるすべてのRNA二次構造からなる集合SS
(G)が規定されることになる。
【0117】G1がトポロジーT1をモデリングする、と
は以下が成り立つことを言う。“G 1はトポロジーT1
性質を満たすすべてのRNA二次構造を生成することが
でき、なおかつ、G1で生成することができるすべての
RNA二次構造はトポロジーT1の性質を満たす。”
【0118】これは、G1による導出をみれば自明であ
る。G1による導出はすべて以下のようになる。
【数3】
【0119】よって、G1はT1をモデリングすることが
わかる。
【0120】(2)トポロジーT2は以下の生成規則か
らなる文脈自由文法G2によってモデリングされる。
【数4】
【0121】以下の生成規則からなる文脈自由文法G0
は、文脈自由文法によって生成することが可能なすべて
のRNA二次構造を生成することができる万能な文脈自
由文法である。
【数5】 ただし、λは空文字を表す。例えば、G1によるいかな
る導出もG0によってシミュレートできる。すなわち、
以下のような導出をG0によって行なうことが可能であ
る。
【数6】
【0122】上記の導出は非終端記号以外、すなわち生
成されるRNA二次構造は、G1によって生成されるも
のとまったく同じである。よってG1が生成可能なすべ
ての二次構造をG0によって生成可能なことがわかる。
すなわち、 SS(G0)⊇SS(G1) である。
【0123】このように、どんな文脈自由文法Gに対し
ても SS(G0)⊇SS(G) が成り立つことが知られている。以降では、このような
万能文法によって生成される二次構造全体を“すべての
二次構造”と考える。
【0124】1.3 構文解析木と適合度 ある与えられたRNA配列がある与えられたRNA二次
構造トポロジーの性質を満たす二次構造を形成できるか
どうかという問題は、対象トポロジーをモデリングした
文法によって対象配列が導出できるかという問題に対応
する。これは生成文法の構文解析アルゴリズムによって
解くことができる。
【0125】構文解析アルゴリズムは、与えられた文法
によって、与えられた配列が導出できるかどうかを判定
し、導出可能な場合はその導出過程、すなわち構文解析
木を出力する。二次構造トポロジーをモデリングした文
法において、構文解析木は二次構造を表現しているの
で、構文解析アルゴリズムは、対象トポロジーに適合す
る具体的な二次構造を出力すると解釈してよいことにな
るからである。
【0126】RNA配列s1=ggggaaacccc
がトポロジーT1、T2に適合する二次構造を形成できる
かどうかについて考える。配列s1はG1によって以下の
ように導出できる。これにより配列s1はT1に適合する
二次構造をとりうることがわかる。 S→gHc→ggHcc→gggHccc→ggggHcccc →ggggLcccc→ggggaLcccc→ggggaaLcccc →ggggaaacccc (1)
【0127】また、s1はG1によって以下のようにも導
出できる。 S→gHc→ggHcc→gggHccc →gggLccc→ggggLccc→ggggaLccc →ggggaaLccc→ggggaaaLccc →ggggaaacccc (2)
【0128】しかし、s1はG2によって導出することは
できない。これによりs1はトポロジーT2に適合する二
次構造をとりえないことがわかる。
【0129】s1をG1によって上記の2通りの方法で導
出するとき、それぞれの導出に対応する構文解析木とそ
れが表現する二次構造を図14に示す。すなわち、
(1)のように導出した場合は、図14の(1)に示さ
れる構文解析木と二次構造が生成され、(2)のように
導出した場合は、図14の(2)に示される構文解析木
と二次構造が生成される。
【0130】この例のように複数の構文解析木が得られ
たときに、どの構文解析木、すなわち、どの二次構造を
結果として出力するかを決定する必要が生じる。そのた
めに、何らかの評価関数によって構文解析木(あるいは
二次構造)にスコアを与え、構文解析木(あるいは二次
構造)に順位を付ける必要が生じる。このようなスコア
は文法によって異なる評価関数を用いても良いし、文法
に依存しない絶対的な評価関数であってもよい。以降で
は、このスコアを適合度と呼ぶ。
【0131】以下に、これまでに利用されている適合度
の評価法の例を示すが、本発明によって利用される適合
度は以下のものに限定されない。
【0132】(1) 塩基対数による適合度の評価 一般に、塩基対を形成する際の水素結合によってRNA
分子はエネルギー的に安定なものになる。そこでこの評
価法では、単純に塩基対の数が多い二次構造ほど優先さ
せる。つまり、構文解析木の適合度として、対応する二
次構造の塩基対数を用いる。この評価法において、上記
の例の適合度を評価すると、図14の(1)に示される
構文解析木は適合度3となり、(2)に示される構文解
析木は適合度2となり、適合度の大きい(1)の構造が
採用されることになる。
【0133】本評価法に基づいた代表的な手法として、
Nussinovの折り畳みアルゴリズム[Nussi
nov,R.,Piecxenk,G.,geigg
s,j.R.,and Kleitman,D.J.,
“ Algorithmsfor loop mat
chings,” SIAM journal ofA
pplied Mathematics, 35, 6
8−82,1978]がある。
【0134】(2) 平衡自由エネルギー(ΔG)によ
る適合度の評価 RNA二次構造の物理化学的な安定度を計算するため
に、小さなモデルRNA分子の熱力学的な実験によって
決定された平衡自由エネルギー(ΔG)パラメータを利
用する方法がある。ある二次構造の(ΔG)は、それを
構成する塩基対やループなどの二次構造要素に対する自
由エネルギーの合計で近似される。この自由エネルギー
パラメータでは、塩基対により構造が安定化し、ループ
により構造が不安定化する。各二次構造要素の詳細なパ
ラメータは[Turner, D.H.,Sugimo
to,N.,Jaeger,J.A.,Longfel
low,C.E.,Freier,S.M.,and
Kierzek,R.,“Improved para
meters for prediction ofR
NA structure,” Cold Sprin
g HarborSymposia Quantita
tive Biology, 52,123−133,
1987]に示されている。ここでは塩基対の自由エネ
ルギーを図15に、ループの自由エネルギーを図16に
示す。
【0135】上記の自由エネルギーパラメータを用いて
図14の構造(1)と(2)の(ΔG)を求めると、そ
れぞれ以下のようになる。 ΔG(構造(1))=ΔG(gc,gc)+ΔG(gc,gc) +ΔG(gc,gc) +(ΔG)(サイズ3のヘアピンループ) =(−2.9)+(−2.9)+(−2.9) +7.4=−1.3 ΔG(構造(2))=ΔG(gc,gc)+ΔG(gc,gc) +ΔG(サイズ5のヘアピンループ) =(−2.9)+(−2.9)+4.4=−1.4
【0136】ここで注意すべきことは、塩基対の自由エ
ネルギーの計算方法である。連続して積み重なった2組
の塩基対に対してひとつのエネルギー値が与えられる。
すなわち、構造(1)では5’側から数えて1番目のg
c塩基対と2番目のgc塩基対に対して、ΔG(gc,
gc)が計算され、2番目のgc塩基対と3番目のgc
塩基対に対して、ΔG(gc,gc)が計算され、3番
目のgc塩基対と4番目のgc塩基対に対して、ΔG
(gc,gc)が計算される。これに対し構造(2)で
は5’側から数えて1番目のgc塩基対と2番目のgc
塩基対に対して、ΔG(gc,gc)が計算され、2番
目のgc塩基対と3番目のgc塩基対に対して、ΔG
(gc,gc)が計算される。
【0137】構文解析木の適合度を−ΔGと定めると、
(1)の適合度は1.3となり、(2)の適合度は1.
4となり、結果として適合度の大きい(2)の構造が採
用されることになる。
【0138】ΔGに基づいた代表的なRNA二次構造予
測システムとして、ZukerのMfold(文献3)
がある。
【0139】(3) 導出確率による適合度の評価 確率文法とは個々の生成規則にその適用確率が付加され
た生成文法である。例えばG1の各生成規則に以下のよ
うな確率pが付加されている確率文脈自由文法G1を考
える。 p(S→aHu)=0.2 p(S→uHa)=0.2 p(S→gHc)=0.3 p(S→cHg)=0.3 p(H→aHu)=0.2 p(H→uHa)=0.2 p(H→gHc)=0.3 p(H→cHg)=0.2 p(H→L)=0.1 p(L→aL)=0.2 p(L→uL)=0.2 p(L→gL)=0.15 p(L→cL)=0.15 p(L→a)=0.1 p(L→u)=0.1 p(L→g)=0.05 p(L→c)=0.05
【0140】このときG1によるs1の導出確率は次のよ
うにして計算される。すなわち、(1)の導出確率は、 p(S→gHc)×p(H→gHc)×p(H→gHc)×p(H→gHc)× p(H→L)×p(L→aL)×p(L→aL)×p(L→a) =0.3×0.3×0.3×0.3×0.1×0.2×0.2×0.1 =0.00000324 と計算される。また、(2)の導出確率は、 p(S→gHc)×p(H→gHc)×p(H→gHc)×p(H→L)×p( L→gL)×p(L→aL)×p(L→aL)×p(L→aL)×p(L→c) =0.3×0.3×0.3×0.1×0.15×0.2×0.2×0.2 ×0.05 =0.000000162 となる。
【0141】そこで構文解析木の適合度として導出確率
の自然対数をとると、(1)の適合度は1n0.000
00324=−12.6、(2)の適合度は1n0.0
00000162=−15.6となり、結果として適合
度の大きい(1)の構造が採用されることになる。
【0142】本評価法の根本である、各生成規則に付加
されるべき確率パラメータは、最尤推定法と内側・外側
アルゴリズム(inside−outside alg
orithm)などにより学習してもよいし、ヒューリ
スティクス(heuristics)などによって主観
的に推定してもよい。例えば、文献[Sakakiba
raら“Stochastic Context−fe
e Grammarsfor tRNA modeli
ng,” Nucleic Acids Resear
ch, 22,5112−5120,1994.]では
複数のtRNA配列からtRNAの構造をモデリングす
る確率文脈自由文法を学習する手法について述べられて
いる。
【0143】以上いくつかの適合度評価法について説明
したが、以降の説明では適合度として−ΔGを用いる。
【0144】次にRNA配列s2=gcccauagg
caaagccuaugggcがトポロジーT1、T2
適合する二次構造を形成できるかどうかを考える。この
場合も同様にs2がG1、G2によって導出できるかどう
かを調べればよい。結論からいうと、s2はG1、G2
いずれからも導出することができる。さらにどちらの文
法でも複数の導出のしかたが存在する。それぞれの文法
について−ΔGの適合度指標において最適な構文解析木
とそれに対応する二次構造を図17に示す。
【0145】それぞれの構造のΔGを求めると、以下の
ようになる。 ΔG(構造(1))=ΔG(gc,cg)×2+ΔG(cg,cg) ×2+ΔG(cg,au)+ΔG(au,ua) +ΔG(ua,au)+ΔG(au,gc) +ΔG(gc,gc) +ΔG(サイズ3のヘアピンループ) =(−3.4)×2+(−2.9)×2+(−1.8) +(−0.9)+(−1.1)+(−1.7) +(−2.9)+7.4=−13.6 ΔG(構造(2))=ΔG(gc,cg)×2+ΔG(cg,cg)×2 +ΔG(サイズ4のヘアピンループ)×2 =(−3.4)×2+(−2.9)×2+5.9×2 =−6.7 よってトポロジーT1に適合するRNA二次構造におい
てs2がとりうる最適な構造の適合度は13.6である
ことがわかる。また、トポロジーT2に適合するRNA
二次構造においてs2がとりうる最適な構造の適合度は
6.7であることがわかる。また、s2を万能な文法G0
によって構文解析すると、最適構造として構造(1)が
見つかる。これにより、構造(1)が“すべての二次構
造”の中で最適な構造であることがわかる。このように
万能文法によって構文解析を行なうことにより、すべて
の構造の中から最適な構造を見つけ出すことができる。
【0146】本発明の基本となる“RNA配列を生成文
法に適用して構文解析木を導出する構文解析手段と、上
記構文解析手段にて導出された構文解析木に対して適合
度の計算を行う適合度計算手段と、適合度最大の構文解
析木に対応する二次構造を出力する最適二次構造出力手
段”は、適合度計算を組み込んだ構文解析アルゴリズム
により実現されることになる。このような構文解析アル
ゴリズムを構造予測アルゴリズムと呼ぶ。ΔGの適合度
を指標にしたRNA木文法に基づく構造予測アルゴリズ
ムは文献1に示されている。
【0147】2. 発明実施例 本節では、前節までに定義したRNA配列s1、s2、トポ
ロジーT1、T2およびそれらをモデリングする文脈自由
文法G0、G1、G2、さらに適合度として−ΔGを用い
た場合の実施例について示す。
【0148】はじめに、“RNA二次構造の構造トポロ
ジーと、当該構造トポロジーに適合する生成文法とを対
応付けて格納する文法格納手段”においては、例えば
(Leu−tRNA,G’)や(16S rRNA,
G”)などのようにある構造トポロジーに付けられた名
称とその構造トポロジーをモデリングした文法が対応づ
けられて格納されている。本実施例では(ステムループ
1,G1)と(2並列ステムループT2,G2)を含むよ
うな文法DBを仮定する。また、RNA配列s1とs2
含むRNA配列DBを仮定する。
【0149】(1)生成文法と適合度計算で構造候補を
出力 あるRNA配列に対して、これがとりうる構造トポロジ
ーを適合度が大きい順に知りたいとき、本発明によれ
ば、以下の手順でこれを調べることができる。例とし
て、入力配列をs2、検査対象トポロジー集合をT1、T
2とした場合について示す。
【0150】手順1) RNA配列を配列DBから指定
する。あるいは直接入力する。ここではs2を指定す
る。 手順2) 検査対象とするトポロジーの集合(生成文法
の集合)を文法DBから選択する。ここではT1とT
2(G1とG2)を選択する。 手順3) 適合度の閾値を設定する。閾値は手順2で得
られた各トポロジー(生成文法)に対してそれぞれ設定
してもよいし、共通にひとつ設定してもよい。ここでは
1(G1)に対して10をT2(G2)に対して5を設定
する。 手順4) 手順1で得られた配列を手順2で得られた各
生成文法によってそれぞれ構文解析を行ない、適合度最
大の構文解析木を求める。ここではs2をG1によって構
文解析し、最大の適合度13.6を持つ構文解析木を得
る(図17(1)参照)。さらにs2をG2によって構文
解析し、最大の適合度6.7を持つ構文解析木を得る
(図17(2)参照)。 手順5) 手順4で得られた構文解析木のうち手順3で
得られた閾値以上の適合度をもつ構文解析木を適合度の
大きい順にソートする。手順4で得られたG1に対する
適合度13.6の構文解析木1は手順3でG1に対して
設定された閾値10よりも大きいのでこれをソート対象
とする。手順4で得られたG2に対する適合度6.7の
構文解析木2は手順3でG2に対して設定された閾値5
よりも大きいのでこれをソート対象とする。上でソート
対象となった構文解析木を適合度の大きい順にソートす
ることによって、構文解析木1、構文解析木2の順に順
序づけされる。 手順6) 手順5でソートされた構文解析木の順に、対
応するトポロジー名、適合度、構文解析木(二次構造)
などを出力する。構文解析木1に対応して、ステムルー
プT1、適合度13.6、図17(1)に示された二次
構造を出力する。構文解析木2に対応して、2並列ステ
ムループT2、適合度6.7、図17(2)に示された
二次構造を出力する。 以上の結果から、選択されたトポロジー集合のなかでs
2が適合する構造候補が図18のように出力される。
【0151】従来の二次構造予測プログラムでは、与え
られた配列がとりうる構造のなかで最適あるいは準最適
な二次構造を順に出力するだけで、出力された構造がど
のようなトポロジーであるかはユーザが判断しなければ
ならなかった。本発明によれば、構造とトポロジーとを
対応付けて出力することができるので、予測結果の確認
にかかる労力が大きく軽減されることが期待される。
【0152】また、本発明の実施について厳密に上記の
手順と同じである必要はない。例えば、手順1と2は順
序をいれかえてもよいし、手順5の閾値により構文解析
木を取捨選択する部分は手順4の構文解析部分に含めて
しまってもよい。
【0153】(2)同じ構造を持つ配列の候補を出力 ある構造トポロジーに対して、これに適合する二次構造
をとりうるRNA配列を探したいとき、本発明によれ
ば、以下の手順でこれを調べることができる。例とし
て、入力構造トポロジーをT2、検査対象配列集合を
1、s2とした場合について示す。 手順1) トポロジー(生成文法)を文法DBから選択
する。ここではT2(G2)を選択する。 手順2) 適合度の閾値を設定する。ここでは5を選択
する。 手順3) 検査対象とするRNA配列集合を配列DBか
ら選択する。あるいは直接入力する。ここではs1、s2
選択する。 手順4) 手順3で得られた各配列を、手順1で得られ
た生成文法によってそれぞれ構文解析を行ない、適合度
最大の構文解析木をそれぞれ求める。ここではs 1をG2
によって構文解析し、導出不能であることを得る。さら
にs2をG2によって構文解析し、最大の適合度6.7を
持つ構文解析木を得る。(図17(2)参照) 手順5) 手順4で得られた構文解析木のうち手順2で
得られた閾値以上の適合度をもつ構文解析木に対応する
配列を出力する。手順4で得られたs2のG2に対する適
合度6.7の構文解析木は手順2で設定された閾値5よ
りも大きいのでs 2を出力する。以上の結果から、選択
されたトポロジーをとりうる配列の候補が図19のよう
に出力される。
【0154】本発明の実施について厳密に上記の手順と
同じである必要はない。例えば、手順1と2と3は任意
の順にいれかえてもよいし、手順5は手順4の構文解析
部分に含めてしまってもよい。
【0155】(3)共通構造抽出 あるRNA配列の集合に対して、これらの配列が共通し
てとりうる構造トポロジーを調べたいとき、本発明によ
れば、以下の手順でこれを調べることができる。例とし
て、入力配列集合をs1、s2とし、検査対象構造トポロ
ジーの集合をT 1、T2とした場合について示す。
【0156】手順1) RNA配列の集合を配列DBか
ら指定する。あるいは直接入力する。ここではs1とs2
を指定する。 手順2) 検査対象とするトポロジーの集合(生成文法
の集合)を文法DBから選択する。ここではT1(G1
とT2(G2)を選択する。 手順3) 適合度の閾値を設定する。閾値は手順2で得
られた各トポロジー(生成文法)に対してそれぞれ設定
してもよいし、共通にひとつ設定してもよい。ここでは
共通に0を設定する。 手順4) 手順1で得られた各配列を、手順2で得られ
た各生成文法によってそれぞれ構文解析を行ない、適合
度最大の構文解析木を求める。s1をG1によって構文解
析し、最大の適合度1.4を持つ構文解析木を得る(図
14(2)参照)。s1をG2によって構文解析し、導出
不能であることを得る。s2をG1によって構文解析し、
最大の適合度13.6を持つ構文解析木を得る。(図1
7(1)参照) s2をG2によって構文解析し、最大の適合度6.7を持
つ構文解析木を得る。(図17(2)参照) 手順5) 手順4で得られた構文解析木のうち閾値以上
の適合度を持つ構文解析木を抽出する。手順4で得られ
たすべての構文解析木は手順3で得られた閾値0よりも
大きい適合度を持つので手順4で得られたすべての構文
解析木を抽出する。 手順6) 手順1で得られた配列集合を行に、手順2で
得られたトポロジー集合を列に、手順5で得られた構文
解析木の適合度を要素に持つマトリックスを作成する。
図20に示すマトリックスを得る。以上の結果得られた
マトリックスを出力すれば、対象配列集合が共通してと
りうる構造トポロジーを容易に確認することが可能にな
る。あるいは、以下の追加手順を実行すれば、共通構造
の候補を順位づけて出力することができる。 手順7) 手順6で得られたマトリックスの各列、すな
わちトポロジー、に対してスコアを計算する。例えば、
有効な行要素の数を各列ごとに計算しスコアとすると、
1のスコアは2、T2のスコアは1となる。例えば、各
行の適合度の総和を各列ごとに計算しスコアとすると、
1のスコアは15.0、T2のスコアは6.7となる。 手順8) 手順7で得られたスコアの高い順にトポロジ
ーをソートし、出力する。上記のいずれのスコアを用い
てもT1、T2の順に出力される。
【0157】また、本発明の実施について厳密に上記の
手順と同じである必要はない。例えば、手順1と2は順
序をいれかえてもよいし、手順5を手順4の構文解析部
分に含めてしまってもよい。
【0158】(4) ジーン・ファインダ RNA遺伝子部分に対応する配列は、非常に安定な構造
をとりやすいので、適合度が高くなる。そこで本発明で
は、万能文法を用いて構文解析を行ない、適合度の高い
配列を配列DBから選び出して遺伝子候補として出力す
る。例として、配列集合をs1、s2とした場合について
示す。
【0159】手順1) 検査対象とするRNA配列の集
合を配列DBから指定する。あるいは直接入力する。こ
こではs1とs2を指定する。 手順2) 適合度の閾値を設定する。ここでは10を設
定する。 手順3) 手順1で得られた各配列を万能文法G0によ
ってそれぞれ構文解析を行ない、適合度最大の構文解析
木を求める。s1をG0によって構文解析し、最大の適合
度1.4を持つ構文解析木を得る。s2をG0によって構
文解析し、最大の適合度13.6を持つ構文解析木を得
る。 手順4) 手順3で得られた構文解析木のうち閾値以上
の適合度をもつ構文解析木に対応する配列を遺伝子候補
として出力する。手順3で得られたs1の構文解析木は
閾値10に満たないのでs1は出力しない。手順3で得
られたs2の構文解析木は閾値10よりも大きいのでs2
を遺伝子候補として出力する。本発明の実施について厳
密に上記の手順と同じである必要はない。例えば、手順
1と2は順序をいれかえてもよいし、手順4は手順3の
構文解析部分に含めてしまってもよい。
【0160】(5) RNA配列から同じ構造を持つR
NA配列を出力 あるRNA配列集合に対して、これらと同じトポロジー
をとりうるRNA配列を調べたいとき、(3)の発明と
(2)の発明とを組み合わせた本発明によれば、以下の
手順でこれを調べることができる。例として、入力配列
をs=gcccaaaagggcagcccaaagg
gc、検査対象トポロジー集合をT1、T2、検査対象配
列集合をs1、s2とした場合について示す。
【0161】手順1) RNA配列集合を入力する。こ
こではsのみからなる配列集合を入力する。 手順2) 検査対象とするRNA配列の集合を配列DB
から指定する。ここではs1とs2を指定する。 手順3) 検査対象とするトポロジーの集合(生成文法
の集合)を文法DBから選択する。ここではT1(G1
とT2(G2)を選択する。 手順4) 適合度の閾値を設定する。閾値は手順3で得
られた各トポロジー(生成文法)に対してそれぞれ設定
してもよいし、共通にひとつ設定してもよい。ここでは
共通に5を設定する。 手順5) 手順1で得られた各RNA配列を、手順2で
得られた各生成文法によってそれぞれ構文解析を行な
い、適合度最大の構文解析木をそれぞれ求める。ここで
はsをG1によって構文解析し、最大の適合度3.1を
持つ構文解析木を得る。図21(1)にこの構文解析木
が表現する二次構造を示す。さらにsをG2によって構
文解析し、最大の適合度5.1を持つ構文解析木を得
る。図21(2)にこの構文解析木が表現する二次構造
を示す。 手順6) 手順5で得られた構文解析木のうち、手順4
で得られた閾値以上の適合度をもつ構文解析木に対応す
る構文解析木を抽出する。手順5で得られた構文解析木
のうち、G2で構文解析することによって得られた適合
度5.1の構文解析木が手順4で得られた閾値5よりも
大きいのでこれを抽出する。 手順7) 手順1で得られた配列集合を行に、手順3で
得られたトポロジー集合を列に、手順6で得られた構文
解析木の適合度を要素に持つマトリックスを作成する。
図22に示すマトリックスを得る。 手順8) 手順6で得られたマトリックスの各列、すな
わちトポロジー、に対してスコアを計算し、スコアの順
にトポロジーをソートする。ここでは行の総和を各列ご
とに計算しスコアとするが、1行しかないので結果とし
て、T1のスコアが未定義、T2のスコアが5.1にな
る。スコアを持つものだけでソートすると、T2のみが
得られる。 手順9) 手順2で得られた各配列を、手順8で得られ
たトポロジーの順にそれぞれ対応する文法で構文解析を
行ない、適合度最大の構文解析木をそれぞれ求める。こ
こではs1をG2によって構文解析し、導出不能であるこ
とを得る。さらにs2をG2によって構文解析し、最大の
適合度6.7を持つ構文解析木を得る。(図17(2)
参照) 手順10) 手順9で得られた構文解析木のうち手順4
で得られた閾値以上の適合度をもつ構文解析木に対応す
る配列を出力する。このとき、あわせてトポロジーとそ
のトポロジーに対する手順8で得られたスコアを出力す
る。手順9で得られたs2のG2に対する構文解析木の適
合度6.7は手順4で得られた閾値5よりも大きいので
2を出力する。あわせて、T2とそのスコア5.1を出
力する。以上の結果から図23に示すような出力が得ら
れる。 この結果、s2がトポロジーT2において、sと共通な構
造をとりうることがわかるようになる。
【0162】本発明の実施について厳密に上記の手順と
同じである必要はない。例えば、手順1と2と3は任意
の順に入れ換えてもよいし、手順6は手順5の構文解析
部分に含めてしまってもよいし、手順10の閾値により
構文解析木を取捨選択する部分は手順9の構文解析部分
に含めてしまってもよい。
【0163】[他の実施の形態]さて、これまで本発明
の実施の形態について説明したが、本発明は、上述した
実施の形態以外にも、上記特許請求の範囲に記載した技
術的思想の範囲内において種々の異なる実施の形態にて
実施されてよいものである。
【0164】例えば、RNA配列解析装置100がスタ
ンドアローンの形態でRNA配列解析方法を行う場合を
一例に説明したが、RNA配列解析装置100とは別筐
体で構成されるクライアント端末からの要求に応じてR
NA配列解析方法を行い、その処理結果を当該クライア
ント端末に返却するように構成してもよい。
【0165】また、構造予測部102aは、適合度計算
部102cによる適合度計算を行いながら構文解析部1
02bにより構文解析木を導出してもよい。すなわち、
構文解析木を導出する構文解析部102bと、導出され
た構文解析木に対して適合度の計算を行う適合度計算部
102cをひとつのアルゴリズムにて実現してもよい。
このように構成することにより、RNA配列と木文法に
対して可能な構文解析木は無数(配列長に対して指数の
オーダー)に存在するため、構文解析木を導出してから
適合度計算を行いソートすると指数オーダーの計算時間
と記憶容量が必要となるという問題点を解決することが
できる。
【0166】また、実施の形態において説明した各処理
のうち、自動的に行なわれるものとして説明した処理の
全部または一部を手動的に行うこともでき、あるいは、
手動的に行なわれるものとして説明した処理の全部また
は一部を公知の方法で自動的に行うこともできる。特
に、構造予測部102aは複数のタスクとして実現して
もよく、それぞれのタスクで並列処理を行うように実現
してもよい。この他、上記文書中や図面中で示した処理
手順、制御手順、具体的名称、各種の登録データや検索
条件等のパラメータを含む情報、画面例、データベース
構成については、特記する場合を除いて任意に変更する
ことができる。
【0167】また、RNA配列解析装置100に関し
て、図示の各構成要素は機能概念的なものであり、必ず
しも物理的に図示の如く構成されていることを要しな
い。例えば、RNA配列解析装置100の各サーバが備
える処理機能、特に制御部にて行なわれる各処理機能に
ついては、その全部または任意の一部を、CPU(Ce
ntral Processing Unit)および
当該CPUにて解釈実行されるプログラムにて実現する
ことができ、あるいは、ワイヤードロジックによるハー
ドウェアとして実現することも可能である。なお、プロ
グラムは、後述する記録媒体に記録されており、必要に
応じてRNA配列解析装置100に機械的に読み取られ
る。
【0168】記憶部106に格納される各種のデータベ
ース等(RNA配列データベース106a〜共通構造マ
トリックス106c)は、RAM、ROM等のメモリ装
置、ハードディスク等の固定ディスク装置、フレキシブ
ルディスク、光ディスク等のストレージ手段であり、各
種処理やウェブサイト提供に用いる各種のプログラムや
テーブルやファイルやデータベースやウェブページ用フ
ァイル等を格納する。
【0169】また、RNA配列解析装置100は、既知
のパーソナルコンピュータ、ワークステーション等の情
報処理端末等の情報処理装置にプリンタやモニタやイメ
ージスキャナ等の周辺装置を接続し、該情報処理装置に
本発明の方法を実現させるソフトウェア(プログラム、
データ等を含む)を実装することにより実現してもよ
い。
【0170】さらに、RNA配列解析装置100の分散
・統合の具体的形態は図示のものに限られず、その全部
または一部を、各種の負荷等に応じた任意の単位で、機
能的または物理的に分散・統合して構成することができ
る。例えば、各データベースを独立したデータベース装
置として独立に構成してもよく、また、処理の一部をC
GI(Common Gateway Interfa
ce)を用いて実現してもよい。
【0171】また、本発明にかかるプログラムを、コン
ピュータ読み取り可能な記録媒体に格納することもでき
る。ここで、この「記録媒体」とは、フレキシブルディ
スク、光磁気ディスク、ROM、EPROM、EEPR
OM、CD−ROM、MO、DVD等の任意の「可搬用
の物理媒体」や、各種コンピュータシステムに内蔵され
るROM、RAM、HD等の任意の「固定用の物理媒
体」、あるいは、LAN、WAN、インターネットに代
表されるネットワークを介してプログラムを送信する場
合の通信回線や搬送波のように、短期にプログラムを保
持する「通信媒体」を含むものとする。
【0172】また、「プログラム」とは、任意の言語や
記述方法にて記述されたデータ処理方法であり、ソース
コードやバイナリコード等の形式を問わない。なお、
「プログラム」は必ずしも単一的に構成されるものに限
られず、複数のモジュールやライブラリとして分散構成
されるものや、OS(Operating Syste
m)に代表される別個のプログラムと協働してその機能
を達成するものをも含む。なお、実施の形態に示した各
装置において記録媒体を読み取るための具体的な構成、
読み取り手順、あるいは、読み取り後のインストール手
順等については、周知の構成や手順を用いることができ
る。
【0173】また、ネットワーク300は、RNA配列
解析装置100と外部システム200とを相互に接続す
る機能を有し、例えば、インターネットや、イントラネ
ットや、LAN(有線/無線の双方を含む)や、VAN
や、パソコン通信網や、公衆電話網(アナログ/デジタ
ルの双方を含む)や、専用回線網(アナログ/デジタル
の双方を含む)や、CATV網や、IMT2000方
式、GSM方式またはPDC/PDC―P方式等の携帯
回線交換網/携帯パケット交換網や、無線呼出網や、B
luetooth等の局所無線網や、PHS網や、C
S、BSまたはISDB等の衛星通信網等のうちいずれ
かを含んでもよい。すなわち、本システムは、有線・無
線を問わず任意のネットワークを介して、各種データを
送受信することができる。
【0174】
【発明の効果】以上詳細に説明したように、本発明によ
れば、RNA二次構造の構造トポロジーと、当該構造ト
ポロジーに適合する生成文法とを対応付けて格納し、R
NA配列を生成文法に適用して構文解析木を導出し、導
出された構文解析木に対して適合度を計算し、計算され
た適合度のうち予め定めた条件を満たす適合度である構
文解析木を適合度が高い順にソートし、ソートされた構
文解析木をRNA配列の二次構造の候補として出力する
ので、一配列に対して多文法で構文解析を行うことがで
きるようになる。すなわち、各生成文法に対してそれぞ
れ構文解析し適合度計算を行い適合度を得る。その結
果、生成文法ごとに適合度が得られることになり、それ
らの適合度をソートすることによって生成文法に順位を
付ける。これにより、生成文法に対する構造トポロジー
にも順位が付けられることになるので、最終的にRNA
配列が取り得る可能性の高い順に構造トポロジーを確認
することができるRNA配列解析装置、RNA配列解析
方法、プログラム、および、記録媒体を提供することが
できる。
【0175】また、本発明によれば、RNA二次構造の
構造トポロジーと、当該構造トポロジーに適合する生成
文法とを対応付けて格納し、RNA配列を生成文法に適
用して構文解析木を導出し、導出された構文解析木に対
して適合度の計算を行い、計算された適合度のうち予め
定めた条件を満たす適合度である構文解析木を導出した
RNA配列を上記構造トポロジーの二次構造を持つRN
A配列の候補として出力するので、多配列に対して一文
法で構文解析を行うことができるようになる。すなわ
ち、与えられた特定の構造トポロジーに対し、対応する
生成文法を取得し、これを用いてRNA配列データベー
スに格納されているすべてまたは一部のRNA配列をそ
れぞれ構文解析し、ある閾値以下の適合度で構文解析に
成功したRNA配列群を結果として出力する。これによ
り、与えられた特定の二次構造を取り得るようなRNA
配列を検索することができるRNA配列解析装置、RN
A配列解析方法、プログラム、および、記録媒体を提供
することができる。
【0176】また、本発明によれば、RNA二次構造の
構造トポロジーと、当該構造トポロジーに適合する生成
文法とを対応付けて格納し、RNA配列を生成文法に適
用して構文解析木を導出し、導出された構文解析木に対
して適合度の計算を行い、計算された適合度のうち予め
定めた条件を満たす適合度である構文解析木を導出した
RNA配列を抽出し、構造トポロジーとRNA配列とを
二次元マトリックスで表示し、二次元マトリックスにお
いて抽出されたRNA配列と構造トポロジーに対応する
格子部分をマークすることにより、RNA配列間で共通
に有する構造トポロジーを可視化するので、RNA配列
間の共通構造を容易に発見することができるRNA配列
解析装置、RNA配列解析方法、プログラム、および、
記録媒体を提供することができる。
【0177】また、本発明によれば、RNA二次構造の
構造トポロジーと、当該構造トポロジーに適合する生成
文法とを対応付けて格納し、利用者が入力したDNA配
列から転写されるRNA配列を作成し、作成されたRN
A配列に対して生成文法を適用して構文解析木を導出
し、導出された構文解析木に対して適合度の計算を行
い、計算された適合度のうち予め定めた条件を満たす適
合度である構文解析木を導出したRNA配列に対応する
DNA配列部分を遺伝子の候補として予測するので、D
NA配列のうち既知のトポロジーを有する可能性のある
RNA配列に対応する部分について、遺伝子部分である
可能性があることを予測することができるRNA配列解
析装置、RNA配列解析方法、プログラム、および、記
録媒体を提供することができる。
【0178】また、本発明によれば、RNA二次構造の
構造トポロジーと、当該構造トポロジーに適合する生成
文法とを対応付けて格納し、RNA配列を生成文法に適
用して構文解析木を導出し、導出された構文解析木に対
して適合度の計算を行い、計算された適合度に基づいて
RNA配列間の類似度を計算するので、RNA構造の類
似度を容易に求めることができるRNA配列解析装置、
RNA配列解析方法、プログラム、および、記録媒体を
提供することができる。
【0179】さらに、本発明によれば、RNA二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を抽出し、構造トポロジーとRNA配列と
を二次元マトリックスで表示し、二次元マトリックスに
おいて抽出されたRNA配列と構造トポロジーに対応す
る格子部分に適合度を表示する適合度マトリックスを作
成し、適合度マトリックスについて、適合度により構造
トポロジーをソートし、他のRNA配列について当該ソ
ートされた構造トポロジーの順番に対応する生成文法に
より構文解析を行い適合度が最大となる構文解析木を求
め、予め定めた条件を満たす適合度を持つ構文解析木に
対応する他のRNA配列を抽出するので、共通の構造を
持つRNA配列を容易に発見することができるRNA配
列解析装置、RNA配列解析方法、プログラム、およ
び、記録媒体を提供することができる。
【図面の簡単な説明】
【図1】RNAの構造トポロジーの一例を説明する図で
ある。
【図2】従来技術によるRNAの二次構造がステムルー
プをとる場合の構文解析木の一例を示す図である。
【図3】従来技術によるRNA二次構造の構造トポロジ
ーについて、文法が固定されるとそれに対応した構造ト
ポロジーが規定されることを示す概念図である。
【図4】従来技術である木文法パーザを用いて、既知の
文法からRNA配列の構文解析木を導出する場合の一例
を示す図である。
【図5】本発明が適用される本システムの構成の一例を
示すブロック図である。
【図6】文法データベース106bに格納される情報の
一例を示す図である。
【図7】本実施の形態における本システムのRNA二次
構造予測処理の一例を示す処理概念図である。
【図8】本実施の形態における本システムの同一構造R
NA配列抽出処理の一例を示す処理概念図である。
【図9】本実施の形態における本システムの共通構造抽
出処理の一例を示す処理概念図である。
【図10】本実施の形態における本システムの構造類似
度計算処理の一例を示す処理概念図である。
【図11】本実施の形態における本システムの遺伝子予
測処理の一例を示す処理概念図である。
【図12】ペナルティPと類似度ベクトルs1、s2の概
念を説明する図である。
【図13】RNA二次構造トポロジーの例を示す図であ
る。
【図14】s1の構文解析木と二次構造を示す図であ
る。
【図15】塩基対の自由エネルギーを示す図である。
【図16】ループの自由エネルギーを示す図である。
【図17】それぞれの文法について−ΔGの適合度指標
において最適な構文解析木とそれに対応する二次構造を
示す図である。
【図18】選択されたトポロジー集合のなかでs2が適
合する構造候補を示す図である。
【図19】選択されたトポロジーをとりうる配列の候補
を示す図である。
【図20】構文解析木の適合度を要素に持つマトリック
スを示す図である。
【図21】sの最適な二次構造を示す図である。
【図22】構文解析木の適合度を要素に持つマトリック
スを示す図である。
【図23】出力結果の一例を示す図である。
【符号の説明】
100 RNA配列解析装置 102 制御部 102a 構造予測部 102b 構文解析部 102c 適合度計算部 102d 類似度計算部 102f 共通構造マトリックス作成部 102g 遺伝子予測部 104 通信制御インターフェース部 106 記憶部 106a RNA配列データベース 106b 文法データベース 106c 共通構造マトリックス 108 入出力制御インターフェース部 112 入力装置 114 出力装置 200 外部システム 300 ネットワーク
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成15年2月12日(2003.2.1
2)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0126
【補正方法】変更
【補正内容】
【0126】RNA配列s1=ggggaaacccc
(配列番号1)がトポロジーT1、T 2に適合する二次構
造を形成できるかどうかについて考える。配列s1はG1
によって以下のように導出できる。これにより配列s1
はT1に適合する二次構造をとりうることがわかる。S
→gHc→ggHcc→gggHccc→ggggHc
ccc→ggggLcccc→ggggaLcccc→
ggggaaLcccc→ggggaaacccc
(1)
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0144
【補正方法】変更
【補正内容】
【0144】次にRNA配列s2=gcccauagg
caaagccuaugggc(配列番号2)がトポロ
ジーT1、T2に適合する二次構造を形成できるかどうか
を考える。この場合も同様にs2がG1、G2によって導
出できるかどうかを調べればよい。結論からいうと、s
2はG1、G2のいずれからも導出することができる。さ
らにどちらの文法でも複数の導出のしかたが存在する。
それぞれの文法について−ΔGの適合度指標において最
適な構文解析木とそれに対応する二次構造を図17に示
す。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0160
【補正方法】変更
【補正内容】
【0160】(5) RNA配列から同じ構造を持つR
NA配列を出力あるRNA配列集合に対して、これらと
同じトポロジーをとりうるRNA配列を調べたいとき、
(3)の発明と(2)の発明とを組み合わせた本発明に
よれば、以下の手順でこれを調べることができる。例と
して、入力配列をs=gcccaaaagggcagc
ccaaagggc(配列番号3)、検査対象トポロジ
ー集合をT1、T2、検査対象配列集合をs1、s2とした
場合について示す。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0179
【補正方法】変更
【補正内容】
【0179】さらに、本発明によれば、RNA二次構造
の構造トポロジーと、当該構造トポロジーに適合する生
成文法とを対応付けて格納し、RNA配列を生成文法に
適用して構文解析木を導出し、導出された構文解析木に
対して適合度の計算を行い、計算された適合度のうち予
め定めた条件を満たす適合度である構文解析木を導出し
たRNA配列を抽出し、構造トポロジーとRNA配列と
を二次元マトリックスで表示し、二次元マトリックスに
おいて抽出されたRNA配列と構造トポロジーに対応す
る格子部分に適合度を表示する適合度マトリックスを作
成し、適合度マトリックスについて、適合度により構造
トポロジーをソートし、他のRNA配列について当該ソ
ートされた構造トポロジーの順番に対応する生成文法に
より構文解析を行い適合度が最大となる構文解析木を求
め、予め定めた条件を満たす適合度を持つ構文解析木に
対応する他のRNA配列を抽出するので、共通の構造を
持つRNA配列を容易に発見することができるRNA配
列解析装置、RNA配列解析方法、プログラム、およ
び、記録媒体を提供することができる。
【配列表】 SEQUENCE LISTING <110> Celestar Lexico-Sciences,Inc. <120> RNA配列解析装置、RNA配列解析方法、プログラム、および、記録媒体 <130> PCLA-13299 <160> 4 <170> PatentIn version 3.1 <210> 1 <211> 11 <212> RNA <213> Artificial Sequence <220> <221> Inventor:Yasuo, Uemura;Horai, Hisayuki <220> <223> RNA Sequence S1 <400> 1 ggggaaaccc c 11 <210> 2 <211> 23 <212> RNA <213> Artificial Sequence <220> <223> RNA Sequence S2 <400> 2 gcccauaggc aaagccuaug ggc 23 <210> 3 <211> 24 <212> RNA <213> Artificial Sequence <220> <223> RNA Sequence S <400> 3 gcccaaaagg gcagcccaaa gggc 24 <210> 4 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> RNA Sequence Fig2 <400> 4 caggaaacug ggugcaaacc 20
【手続補正5】
【補正対象書類名】図面
【補正対象項目名】図2
【補正方法】変更
【補正内容】
【図2】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 蓬莱 尚幸 千葉県千葉市美浜区中瀬1丁目3番地 幕 張テクノガーデンD17 セレスター・レキ シコ・サイエンシズ株式会社内 Fターム(参考) 4B029 AA07 BB20 FA15 4B063 QQ52 QS39 5B075 ND20 UU18

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 RNA二次構造の構造トポロジーと、当
    該構造トポロジーに適合する生成文法とを対応付けて格
    納する文法格納手段と、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析手段と、 上記構文解析手段にて導出された上記構文解析木に対し
    て適合度の計算を行う適合度計算手段と、 上記適合度計算手段により計算された上記適合度のうち
    予め定めた条件を満たす適合度である上記構文解析木を
    上記適合度が高い順にソートするソート手段と、 上記ソート手段によりソートされた上記構文解析木を上
    記RNA配列の二次構造の候補として出力する出力手段
    と、 を備えたことを特徴とするRNA配列解析装置。
  2. 【請求項2】 RNA二次構造の構造トポロジーと、当
    該構造トポロジーに適合する生成文法とを対応付けて格
    納する文法格納手段と、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析手段と、 上記構文解析手段にて導出された上記構文解析木に対し
    て適合度の計算を行う適合度計算手段と、 上記適合度計算手段により計算された上記適合度のうち
    予め定めた条件を満たす適合度である上記構文解析木を
    導出した上記RNA配列を上記構造トポロジーの二次構
    造を持つRNA配列の候補として出力する出力手段と、 を備えたことを特徴とするRNA配列解析装置。
  3. 【請求項3】 RNA二次構造の構造トポロジーと、当
    該構造トポロジーに適合する生成文法とを対応付けて格
    納する文法格納手段と、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析手段と、 上記構文解析手段にて導出された上記構文解析木に対し
    て適合度の計算を行う適合度計算手段と、 上記適合度計算手段により計算された上記適合度のうち
    予め定めた条件を満たす適合度である上記構文解析木を
    導出した上記RNA配列を抽出する抽出手段と、 上記構造トポロジーと上記RNA配列とを二次元マトリ
    ックスで表示し、上記二次元マトリックスにおいて上記
    抽出手段にて抽出された上記RNA配列と上記構造トポ
    ロジーに対応する格子部分をマークすることにより、上
    記RNA配列間で共通に有する構造トポロジーを可視化
    する共通構造マトリックス作成手段と、 を備えたことを特徴とするRNA配列解析装置。
  4. 【請求項4】 RNA二次構造の構造トポロジーと、当
    該構造トポロジーに適合する生成文法とを対応付けて格
    納する文法格納手段と、 利用者が入力したDNA配列から転写されるRNA配列
    を作成するRNA配列作成手段と、 上記RNA配列作成手段により作成された上記RNA配
    列に対して上記生成文法を適用して構文解析木を導出す
    る構文解析手段と、 上記構文解析手段にて導出された上記構文解析木に対し
    て適合度の計算を行う適合度計算手段と、 上記適合度計算手段により計算された上記適合度のうち
    予め定めた条件を満たす適合度である上記構文解析木を
    導出した上記RNA配列に対応する上記DNA配列部分
    を遺伝子の候補として予測する遺伝子予測手段と、 を備えたことを特徴とするRNA配列解析装置。
  5. 【請求項5】 RNA二次構造の構造トポロジーと、当
    該構造トポロジーに適合する生成文法とを対応付けて格
    納する文法格納手段と、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析手段と、 上記構文解析手段にて導出された上記構文解析木に対し
    て適合度の計算を行う適合度計算手段と、 上記適合度計算手段により計算された上記適合度に基づ
    いて上記RNA配列間の類似度を計算する類似度計算手
    段と、 を備えたことを特徴とするRNA配列解析装置。
  6. 【請求項6】 RNA二次構造の構造トポロジーと、当
    該構造トポロジーに適合する生成文法とを対応付けて格
    納する文法格納手段と、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析手段と、 上記構文解析手段にて導出された上記構文解析木に対し
    て適合度の計算を行う適合度計算手段と、 上記適合度計算手段により計算された上記適合度のうち
    予め定めた条件を満たす適合度である上記構文解析木を
    導出した上記RNA配列を抽出する抽出手段と、 上記構造トポロジーと上記RNA配列とを二次元マトリ
    ックスで表示し、上記二次元マトリックスにおいて上記
    抽出手段にて抽出された上記RNA配列と上記構造トポ
    ロジーに対応する格子部分に上記適合度を表示する適合
    度マトリックスを作成する適合度マトリックス作成手段
    と、 上記適合度マトリックス作成手段にて作成された上記適
    合度マトリックスについて、上記適合度により上記構造
    トポロジーをソートし、他のRNA配列について当該ソ
    ートされた上記構造トポロジーの順番に対応する上記生
    成文法により構文解析を行い上記適合度が最大となる上
    記構文解析木を求め、予め定めた条件を満たす上記適合
    度を持つ上記構文解析木に対応する上記他のRNA配列
    を抽出する共通構造抽出手段と、 を備えたことを特徴とするRNA配列解析装置。
  7. 【請求項7】 RNA二次構造の構造トポロジーと、当
    該構造トポロジーに適合する生成文法とを対応付けて格
    納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
    対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
    うち予め定めた条件を満たす適合度である上記構文解析
    木を上記適合度が高い順にソートするソートステップ
    と、 上記ソートステップによりソートされた上記構文解析木
    を上記RNA配列の二次構造の候補として出力する出力
    ステップと、 を含むことを特徴とするRNA配列解析方法。
  8. 【請求項8】 RNA二次構造の構造トポロジーと、当
    該構造トポロジーに適合する生成文法とを対応付けて格
    納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
    対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
    うち予め定めた条件を満たす適合度である上記構文解析
    木を導出した上記RNA配列を上記構造トポロジーの二
    次構造を持つRNA配列の候補として出力する出力ステ
    ップと、 を含むことを特徴とするRNA配列解析方法。
  9. 【請求項9】 RNA二次構造の構造トポロジーと、当
    該構造トポロジーに適合する生成文法とを対応付けて格
    納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
    対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
    うち予め定めた条件を満たす適合度である上記構文解析
    木を導出した上記RNA配列を抽出する抽出ステップ
    と、 上記構造トポロジーと上記RNA配列とを二次元マトリ
    ックスで表示し、上記二次元マトリックスにおいて上記
    抽出ステップにて抽出された上記RNA配列と上記構造
    トポロジーに対応する格子部分をマークすることによ
    り、上記RNA配列間で共通に有する構造トポロジーを
    可視化する共通構造マトリックス作成ステップと、 を含むことを特徴とするRNA配列解析方法。
  10. 【請求項10】 RNA二次構造の構造トポロジーと、
    当該構造トポロジーに適合する生成文法とを対応付けて
    格納する文法格納ステップと、 利用者が入力したDNA配列から転写されるRNA配列
    を作成するRNA配列作成ステップと、 上記RNA配列作成ステップにより作成された上記RN
    A配列に対して上記生成文法を適用して構文解析木を導
    出する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
    対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
    うち予め定めた条件を満たす適合度である上記構文解析
    木を導出した上記RNA配列に対応する上記DNA配列
    部分を遺伝子の候補として予測する遺伝子予測ステップ
    と、 を含むことを特徴とするRNA配列解析方法。
  11. 【請求項11】 RNA二次構造の構造トポロジーと、
    当該構造トポロジーに適合する生成文法とを対応付けて
    格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
    対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度に
    基づいて上記RNA配列間の類似度を計算する類似度計
    算ステップと、 を含むことを特徴とするRNA配列解析方法。
  12. 【請求項12】 RNA二次構造の構造トポロジーと、
    当該構造トポロジーに適合する生成文法とを対応付けて
    格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
    対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
    うち予め定めた条件を満たす適合度である上記構文解析
    木を導出した上記RNA配列を抽出する抽出ステップ
    と、 上記構造トポロジーと上記RNA配列とを二次元マトリ
    ックスで表示し、上記二次元マトリックスにおいて上記
    抽出ステップにて抽出された上記RNA配列と上記構造
    トポロジーに対応する格子部分に上記適合度を表示する
    適合度マトリックスを作成する適合度マトリックス作成
    ステップと、 上記適合度マトリックス作成ステップにて作成された上
    記適合度マトリックスについて、上記適合度により上記
    構造トポロジーをソートし、他のRNA配列について当
    該ソートされた上記構造トポロジーの順番に対応する上
    記生成文法により構文解析を行い上記適合度が最大とな
    る上記構文解析木を求め、予め定めた条件を満たす上記
    適合度を持つ上記構文解析木に対応する上記他のRNA
    配列を抽出する共通構造抽出ステップと、 を含むことを特徴とするRNA配列解析方法。
  13. 【請求項13】 RNA二次構造の構造トポロジーと、
    当該構造トポロジーに適合する生成文法とを対応付けて
    格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
    対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
    うち予め定めた条件を満たす適合度である上記構文解析
    木を上記適合度が高い順にソートするソートステップ
    と、 上記ソートステップによりソートされた上記構文解析木
    を上記RNA配列の二次構造の候補として出力する出力
    ステップと、 を含むことを特徴とするRNA配列解析方法をコンピュ
    ータに実行させるプログラム。
  14. 【請求項14】 RNA二次構造の構造トポロジーと、
    当該構造トポロジーに適合する生成文法とを対応付けて
    格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
    対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
    うち予め定めた条件を満たす適合度である上記構文解析
    木を導出した上記RNA配列を上記構造トポロジーの二
    次構造を持つRNA配列の候補として出力する出力ステ
    ップと、 を含むことを特徴とするRNA配列解析方法をコンピュ
    ータに実行させるプログラム。
  15. 【請求項15】 RNA二次構造の構造トポロジーと、
    当該構造トポロジーに適合する生成文法とを対応付けて
    格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
    対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
    うち予め定めた条件を満たす適合度である上記構文解析
    木を導出した上記RNA配列を抽出する抽出ステップ
    と、 上記構造トポロジーと上記RNA配列とを二次元マトリ
    ックスで表示し、上記二次元マトリックスにおいて上記
    抽出ステップにて抽出された上記RNA配列と上記構造
    トポロジーに対応する格子部分をマークすることによ
    り、上記RNA配列間で共通に有する構造トポロジーを
    可視化する共通構造マトリックス作成ステップと、 を含むことを特徴とするRNA配列解析方法をコンピュ
    ータに実行させるプログラム。
  16. 【請求項16】 RNA二次構造の構造トポロジーと、
    当該構造トポロジーに適合する生成文法とを対応付けて
    格納する文法格納ステップと、 利用者が入力したDNA配列から転写されるRNA配列
    を作成するRNA配列作成ステップと、 上記RNA配列作成ステップにより作成された上記RN
    A配列に対して上記生成文法を適用して構文解析木を導
    出する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
    対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
    うち予め定めた条件を満たす適合度である上記構文解析
    木を導出した上記RNA配列に対応する上記DNA配列
    部分を遺伝子の候補として予測する遺伝子予測ステップ
    と、 を含むことを特徴とするRNA配列解析方法をコンピュ
    ータに実行させるプログラム。
  17. 【請求項17】 RNA二次構造の構造トポロジーと、
    当該構造トポロジーに適合する生成文法とを対応付けて
    格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
    対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度に
    基づいて上記RNA配列間の類似度を計算する類似度計
    算ステップと、 を含むことを特徴とするRNA配列解析方法をコンピュ
    ータに実行させるプログラム。
  18. 【請求項18】 RNA二次構造の構造トポロジーと、
    当該構造トポロジーに適合する生成文法とを対応付けて
    格納する文法格納ステップと、 RNA配列を上記生成文法に適用して構文解析木を導出
    する構文解析ステップと、 上記構文解析ステップにて導出された上記構文解析木に
    対して適合度の計算を行う適合度計算ステップと、 上記適合度計算ステップにより計算された上記適合度の
    うち予め定めた条件を満たす適合度である上記構文解析
    木を導出した上記RNA配列を抽出する抽出ステップ
    と、 上記構造トポロジーと上記RNA配列とを二次元マトリ
    ックスで表示し、上記二次元マトリックスにおいて上記
    抽出ステップにて抽出された上記RNA配列と上記構造
    トポロジーに対応する格子部分に上記適合度を表示する
    適合度マトリックスを作成する適合度マトリックス作成
    ステップと、 上記適合度マトリックス作成ステップにて作成された上
    記適合度マトリックスについて、上記適合度により上記
    構造トポロジーをソートし、他のRNA配列について当
    該ソートされた上記構造トポロジーの順番に対応する上
    記生成文法により構文解析を行い上記適合度が最大とな
    る上記構文解析木を求め、予め定めた条件を満たす上記
    適合度を持つ上記構文解析木に対応する上記他のRNA
    配列を抽出する共通構造抽出ステップと、 を含むことを特徴とするRNA配列解析方法をコンピュ
    ータに実行させるプログラム。
  19. 【請求項19】 上記請求項13〜18のいずれか一つ
    に記載されたプログラムを記録したことを特徴とするコ
    ンピュータ読み取り可能な記録媒体。
JP2001402081A 2001-12-28 2001-12-28 Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体 Expired - Fee Related JP3881238B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2001402081A JP3881238B2 (ja) 2001-12-28 2001-12-28 Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体
PCT/JP2003/000011 WO2003058500A1 (fr) 2001-12-28 2003-01-06 Analyseur de sequences d'arn, procede d'analyse de sequences d'arn, programme et support d'enregistrement associes
EP03701003A EP1471444A4 (en) 2001-12-28 2003-01-06 RNA SEQUENCE ANALYZER AND RNA SEQUENCE ANALYSIS PROCEDURE, PROGRAM AND RECORDING MEDIUM
US10/500,112 US20050112577A1 (en) 2001-12-28 2003-01-06 Rna sequence analyzer, and rna sequence analysis method, program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001402081A JP3881238B2 (ja) 2001-12-28 2001-12-28 Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体

Publications (2)

Publication Number Publication Date
JP2003203077A true JP2003203077A (ja) 2003-07-18
JP3881238B2 JP3881238B2 (ja) 2007-02-14

Family

ID=19189925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001402081A Expired - Fee Related JP3881238B2 (ja) 2001-12-28 2001-12-28 Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体

Country Status (4)

Country Link
US (1) US20050112577A1 (ja)
EP (1) EP1471444A4 (ja)
JP (1) JP3881238B2 (ja)
WO (1) WO2003058500A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005093632A1 (ja) * 2004-03-29 2005-10-06 The University Of Tokyo Rna配列情報処理方法、プログラムおよび装置
WO2007116787A1 (ja) * 2006-03-28 2007-10-18 Nec Soft, Ltd. Rnaの二次構造予測方法、予測装置及び予測プログラム
WO2008059642A1 (fr) * 2006-11-13 2008-05-22 Nec Soft, Ltd. Procédé pour la prédiction d'une structure d'acide nucléique d'ordre supérieur, appareil pour la prédiction d'une structure d'acide nucléique d'ordre supérieur et programme pour la prédiction d'une structure d'acide nucléique d'ordre supérieur
KR101506916B1 (ko) 2013-03-19 2015-03-31 서울대학교산학협력단 miRNA 탐색 자동화 시스템을 이용하여 시료로부터 miRNA를 자동으로 동정하는 방법
WO2022085756A1 (ja) * 2020-10-23 2022-04-28 NUProtein株式会社 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100601941B1 (ko) * 2004-02-17 2006-07-14 삼성전자주식회사 서열 색인 방법 및 그 시스템
US8423350B1 (en) * 2009-05-21 2013-04-16 Google Inc. Segmenting text for searching
CN110021340B (zh) * 2018-07-30 2021-04-02 吉林大学 一种基于卷积神经网络和规划动态算法的rna二级结构生成器及其预测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005093632A1 (ja) * 2004-03-29 2005-10-06 The University Of Tokyo Rna配列情報処理方法、プログラムおよび装置
WO2007116787A1 (ja) * 2006-03-28 2007-10-18 Nec Soft, Ltd. Rnaの二次構造予測方法、予測装置及び予測プログラム
JP5022361B2 (ja) * 2006-03-28 2012-09-12 Necソフト株式会社 Rnaの二次構造予測装置、予測方法、プログラム及び記録媒体
WO2008059642A1 (fr) * 2006-11-13 2008-05-22 Nec Soft, Ltd. Procédé pour la prédiction d'une structure d'acide nucléique d'ordre supérieur, appareil pour la prédiction d'une structure d'acide nucléique d'ordre supérieur et programme pour la prédiction d'une structure d'acide nucléique d'ordre supérieur
JP2008118923A (ja) * 2006-11-13 2008-05-29 Nec Soft Ltd 核酸高次構造予測方法、核酸高次構造予測装置及び核酸高次構造予測プログラム
KR101506916B1 (ko) 2013-03-19 2015-03-31 서울대학교산학협력단 miRNA 탐색 자동화 시스템을 이용하여 시료로부터 miRNA를 자동으로 동정하는 방법
WO2022085756A1 (ja) * 2020-10-23 2022-04-28 NUProtein株式会社 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム

Also Published As

Publication number Publication date
US20050112577A1 (en) 2005-05-26
JP3881238B2 (ja) 2007-02-14
EP1471444A1 (en) 2004-10-27
WO2003058500A1 (fr) 2003-07-17
EP1471444A4 (en) 2006-11-08

Similar Documents

Publication Publication Date Title
Dowell et al. Evaluation of several lightweight stochastic context-free grammars for RNA secondary structure prediction
Grüner et al. Analysis of RNA sequence structure maps by exhaustive enumeration. I
CN111460311A (zh) 基于字典树的搜索处理方法、装置、设备和存储介质
WJ Anderson et al. Evolving stochastic context-free grammars for RNA secondary structure prediction
Esmaili-Taheri et al. Evolutionary solution for the RNA design problem
Wong et al. Discovery of delta closed patterns and noninduced patterns from sequences
JP2003203077A (ja) Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体
Bradley et al. Specific alignment of structured RNA: stochastic grammars and sequence annealing
CN111898039B (zh) 一种融合隐藏关系的属性社区搜索方法
Ashlock et al. Characterization of extremal epidemic networks with diffusion characters
Stephens et al. Effective fitness as an alternative paradigm for evolutionary computation I: General formalism
Titov et al. A fast genetic algorithm for RNA secondary structure analysis
Landau et al. Sparse LCS common substring alignment
JP5555238B2 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
Attar et al. Automatic generation of adaptive network models based on similarity to the desired complex network
Onokpasa et al. RNA secondary structures: from ab initio prediction to better compression, and back
Major et al. Evaluation of a permutation-based evolutionary framework for lyndon factorizations
Bhamidi et al. Community modulated recursive trees and population dependent branching processes
Betzler Steiner tree problems in the analysis of biological networks
Landrin-Schweitzer et al. Interactive GP for data retrieval in medical databases
US20020062307A1 (en) Method for generating a database of molecular fragments
Mohanty et al. Exact planted (l, d) motif search algorithms: A review
CN110892401A (zh) 生成用于k个不匹配搜索的过滤器的系统和方法
Othman et al. Genetic algorithms and scalar product for pairwise sequence alignment
JP7377493B2 (ja) Zsdd構築装置、zsdd構築方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061109

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091117

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131117

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees