JP2005284595A - Rna配列情報処理方法、プログラムおよび装置 - Google Patents

Rna配列情報処理方法、プログラムおよび装置 Download PDF

Info

Publication number
JP2005284595A
JP2005284595A JP2004096140A JP2004096140A JP2005284595A JP 2005284595 A JP2005284595 A JP 2005284595A JP 2004096140 A JP2004096140 A JP 2004096140A JP 2004096140 A JP2004096140 A JP 2004096140A JP 2005284595 A JP2005284595 A JP 2005284595A
Authority
JP
Japan
Prior art keywords
sequence
stem
rna
candidate
stem candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004096140A
Other languages
English (en)
Inventor
Kiyoshi Asai
潔 浅井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2004096140A priority Critical patent/JP2005284595A/ja
Priority to PCT/JP2005/005752 priority patent/WO2005093632A1/ja
Publication of JP2005284595A publication Critical patent/JP2005284595A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 元のRNA配列の2次構造を直接知ることなく、2次構造に関連したRNA配列の比較を好適に行う技術を提供する。
【解決手段】 RNA配列情報処理方法は、配列生成ステップと配列比較ステップを含む。配列生成ステップは、RNA配列またはRNAを含む生物学的配列情報から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する。配列比較ステップは、複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、複数のステム候補配列を比較して、複数のステム候補配列の類似度を算出する。
【選択図】 図15

Description

本発明は、RNA配列を比較する技術に関し、特に、2次構造を比較する技術に関する。
ゲノム配列の解読が進み、タンパク質コード遺伝子の同定が峠を越えつつあり、そして、ゲノム上の機能RNAを効率的に見出すことが緊急の課題となっている。そのためには、バイオインフォマティクス技術を適用して、複数のRNA配列をコンピュータを用いて比較する技術が必要である。RNA配列の比較および検索については、下記のような従来技術が知られている。
(1)塩基配列の1次構造の類似性のみに基づいて配列を比較する技術においては、動的計画法、ハッシュ、有限状態オートマトンなどが用いられており、例えば、ブラスト(BLAST)が実現されている(非特許文献1参照)。しかし、2次構造を考慮しないため、RNA配列に対しては十分な性能を得ることができない。
(2)RNA配列の2次構造を与えた上で、その2次構造の制約を考慮して配列を比較する技術については、確率文脈自由文法に基づく共分散モデルが実現されている(非特許文献2参照)。しかし、2次構造を予め与え、その2次構造をもつ多数の配列を用いて確率モデルを構築する必要がある。そのため、単一の検索配列をもとに検索を行うことはできない。
(3)配列の2次構造を考慮しつつも、2次構造を一意に定めないで配列を比較する技術については、確率文脈自由文法の周辺化カーネルを用いて配列を多次元の特徴量ベクトルに変換する技術が実現されている(非特許文献3参照)。しかし、2本の配列の部分配列同士の直接の対応関係を考慮しないので、2次構造の類似性が低い配列も類似配列として扱ってしまう欠点がある。
Altschul, S., Gish, W., Miller, W., Myers, E. and Lipman, J. (1990): Basic local alignment serach tool, Journal of Molecular Biology, 215:pp.403--410. Eddy, S.R. and Durbin, R. (1994) RNA sequence analysis using covariance models. Nucleic Acid Research 22:2079-2088 Kin, T., Tsuda, K. and Asai, K. (2002): Marginalized Kernels for RNA Sequence Data Analysis, Genome Informatics, 13,pp.112--122
上述のように、ゲノム上の機能RNAを効率的に見出すことが求められている。そのためには、候補RNA配列と類似の配列をゲノム上から検索する技術が必要である。また、ゲノム上に存在する未知の機能RNAを網羅的に抽出することも重要である。
2次構造が不明のRNA配列と類似の配列を検索しようとする場合、配列の1次構造だけでなく、2次構造の類似性も総合して比較しないと、意味のある検索結果が得られないことがある。また、ゲノム配列から未知の機能RNA配列の候補を網羅的に検索するためには、RNA配列の1次構造と2次構造を総合して類似の配列を抽出する必要がある。どちらの場合も、配列の2次構造を知ることなく、2次構造を考慮した配列の比較を行うことが求められる。しかし、上述の従来の技術は、このような要求に応えることができなかった。
本発明は上記課題に鑑みてなされたものであり、その目的は、RNA配列の2次構造と配列類似性を総合的に比較する新たな技術を提供することにある。
本発明のRNA配列情報処理方法は、RNA配列またはRNAを含む生物学的配列情報から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成ステップと、複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較ステップと、を含む。好ましくは、各ステム候補の情報は、配列上でのステム候補の位置、ステム候補自身の配列、相補ステム候補までの距離を含む。
本発明によれば、RNA配列または生物学的配列情報から上述のステム候補配列が生成される。ステム候補配列は、ステム候補を要素とする配列情報である。そして、本発明は、ステム候補配列同士を動的計画法によって比較する。動的計画法の比較単位としては、通常の塩基またはアミノ酸の代わりにステム候補を用いる。動的計画法により、複数のステム候補配列を比較でき、類似度を求められる。このようにして、RNA2次構造を予め知ることなく、2次構造を考慮した比較処理ができる。
本発明において、RNAを含む生物学的情報は、例えば、ゲノム情報である。本発明の範囲内で、2本のRNA配列が比較されてもよい。また、RNA配列とゲノム配列が比較されてもよい。さらに、2本のゲノム配列が比較されてもよく、この場合、同じゲノム配列が比較されてもよい(すなわち、複数のステム候補配列が同じであってもよい)。
本発明では、2本のRNA配列の比較することによって、あるRNA配列と類似のRNA配列を検索できる。検索のためには、検索対象のRNA配列と、データベースに格納されているRNA配列が比較されればよい。また、同じゲノム配列の比較により、ゲノム配列上の複数の類似するRNA配列を網羅的に抽出できる。
好ましくは、前記配列生成ステップは、固定長のステム候補の配列を生成する。好ましくは、前記配列生成ステップは、ステム候補になり得る塩基配列に関するハッシュテーブルを生成し、前記ハッシュテーブルを参照して、ステム候補の位置、配列および距離の情報を抽出する。これにより、ステム候補を効率よく抽出できる。
好ましくは、前記配列比較ステップは、ステム候補同士の類似度のスコアを算出するためのステム候補類似度基準に従って算出されるステム候補同士の類似度に基づいて前記複数のステム候補配列のアライメント処理を行い、アライメントされた前記複数のステム候補配列の類似度を求める。この態様では、通常のアミノ酸等の類似度のスコアの代わりに、ステム候補同士の類似度のスコアが求められる。
好ましくは、前記配列比較ステップは、ステム候補同士の類似度のスコアを、ステム候補自身の配列の類似度スコアと、相補ステム候補までの距離の相違を罰するペナルティスコアとに基づいて計算する。
好ましくは、前記配列比較ステップは、ステム候補の位置同士の距離、ステム候補自身の配列の類似度および相補ステム候補までの距離に基づいた動的計画法によって複数のステム候補配列のアライメントを行い、複数のステム候補配列の類似度を計算する。
好ましくは、前記配列比較ステップは、新たに与えられたRNA配列または生物学的配列情報から前記配列生成ステップにより得られたステム候補配列を、データベースに記憶されている過去に生成されたステム候補配列と比較する。これにより、データベースを使った検索処理を行える。
好ましくは、本発明の方法は、複数のRNA配列の大域アライメントを行う。また好ましくは、本発明の方法は、RNA配列を含む塩基配列を対象として、局所アライメントを行う。
本発明の別の態様はRNA配列情報処理プログラムであり、このプログラムは、RNA配列またはRNAを含む生物学的配列情報から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成ステップと、複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較ステップと、をコンピュータに実行させる。
本発明の別の態様は、RNA配列情報処理装置であり、この装置は、RNA配列またはRNAを含む生物学的配列情報を入力する手段と、入力されたRNA配列またはRNAを含む生物学的配列情報から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成手段と、生成されたステム候補配列情報を記憶する配列記憶手段と、配列記憶手段から複数のステム候補配列を読み出して、前記複数のステム候補配列に対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較手段と、を含む。
本発明の別の態様は、RNA配列検索装置であり、この装置は、検索対象のRNA配列から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成される検索対象のステム候補配列情報を生成する配列生成手段と、多数のRNA配列からそれぞれ生成された多数のステム候補配列情報を記憶する配列データベースと、検索対象のステム候補配列と前記配列データベースに記憶されたステム候補配列に対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記検索対象のステム候補配列と類似するステム候補配列を前記配列データベースから抽出する検索手段と、を含む。
本発明の別の態様は、RNA配列検索プログラムであり、このプログラムは、検索対象のRNA配列から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成される検索対象のステム候補配列情報を生成するステップと、前記検索対象のステム候補配列と配列データベースに記憶されているステム候補配列情報とに対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記検索対象のステム候補配列と類似するステム候補配列を前記配列データベースから抽出するステップと、をコンピュータに実行させる。
上述のように、本発明は、RNA配列中のステム候補に着目し、ステム候補配列を生成して、生成したステム候補配列に動的計画法を適用している。これにより、元のRNA配列の2次構造を直接知ることなく、2次構造の類似性と配列類似性に基づいた配列比較ができる。そして、比較結果を利用して、機能RNAの機能に基づく分類、検索、抽出が可能になる。
以下、本発明の実施の形態を図面を参照して説明する。
まず、本発明のバイオインフォマティクス技術を説明する前に、RNA配列の2次構造を説明する。
図1を参照すると、周知のように、DNAおよびRNAを構成する塩基は、a、t(u)、c、gで表される。そして、aとtが相補塩基対を作り、cとgが相補塩基対を作る。DNAでは、逆相補配列が2重らせんを形成している。これに対して、構造RNAでは、1本鎖が折り畳まれる。そして、相補塩基対により2次構造が作られる。
図2は、局所的な2次構造の例を示している。図示のように、1本鎖RNA上には、互いに相補的な2つの領域が存在している。2箇所の相補的な領域が結合し、これにより2次構造が作られる。2次構造を作る相補的な領域は、ステムと呼ばれている。
図3は、より大きな範囲の2次構造の例を示している。図示のように、1つのRNA配列に複数のステムが存在している。
図4は、RNA配列の比較において2次構造を考慮することの必要性を示している。図4において、1次構造を見ると、配列3が、配列1と部分的に同じであり、また、配列2と部分的に同じである。配列1と配列2は全く異なっている。
しかし、2次構造に関しては、配列1と配列2では、同じ領域がステムである。したがって、配列1と配列2は同じ2次構造をもつ。これに対して、配列3は、ステムをもたず、2次構造を作らない。したがって、2次構造については、配列1と配列2が類似している。RNA配列は2次構造を保存するように進化することが知られているので、図4の例でも、2次構造の類似が重要な意味を持ち得る。したがって、RNA配列の比較においては、2次構造を比較することが必要である。
本実施の形態は、RNA配列の2次構造を比較する方法を提供する。この技術は、バイオインフォマティクス技術に属しており、膨大な配列情報を処理するために、専らコンピュータを使って配列情報が処理される。本実施の形態の方法は、大きく分けて、[1] ステム候補配列の生成処理と、[2] ステム候補配列の比較処理とで構成される。
ここで、本実施の形態に係る配列情報処理方法の内容を説明する前に、本実施の形態の方法を実現するコンピュータについて説明しておく。
図5のコンピュータ1において、プログラム実行部3は、CPU等のプロセッサで構成される。プログラム記憶部5、元配列記憶部7およびステム候補配列記憶部9は、メモリで構成される。また、コンピュータ1には、ハードディスク等の外部記憶装置11が設けられ、さらに、入力装置13、出力装置15および記録媒体装着部17などが設けられている。
プログラム記憶部5は、本実施の形態の方法を実現するためのプログラムを記憶しており、特に、ステム候補配列生成プログラム(配列生成プログラム)およびステム候補配列比較関連プログラム(比較関連プログラム)を記憶する。これらプログラムは、外部記憶装置11から読み出され、そして、プログラム実行部3により実行される。
配列生成プログラムは、元配列から本実施の形態の方法に従ってステム候補配列を生成するプログラムである。また、比較関連プログラムは、複数のステム候補配列を本実施の形態の方法に従って比較するプログラムである。
元配列は、RNA配列またはゲノム配列である。元配列は、入力部17、外部記憶装置11または記録媒体装着部17などを用いて取得され、メモリの元配列記憶部7に記憶される。そして、元配列がプログラム実行部3により配列生成プログラムに従って処理される。生成されたステム候補配列は、ステム候補配列記憶部9に記憶される。さらに、ステム候補配列がプログラム実行部3により比較関連プログラムに従って処理される。比較関連プログラムの処理結果は、出力装置15から出力される。
その他、図5において、メモリは、プログラム実行部3による処理の作業エリアとして機能する。例えば、後述するハッシュテーブルが書き込まれ、また、抽出されたステム候補が書き込まれる。さらに、ステム候補の並替えがメモリ上で行われる。また、アライメントなどの処理がメモリ上で行われる。また、ステム候補配列などの情報は、適宜、メモリから外部記憶装置11または記録媒体に格納され、また、それらから読み出されてよい。
なお、元配列は、上述のようにRNA配列またはゲノム配列である。本実施の形態では、例えば、2本のRNAが比較される。その他に、RNAとゲノムが比較されてもよい。さらに、2本のゲノムが比較されてもよい。このとき、後述するように、同じRNAが比較されてもよく、また、同じゲノムが比較されてもよい。いずれの場合も、同じ原理で、RNA2次構造の比較ができる。以下の説明では、主として2本のRNAの比較する場合について説明する。そして、必要に応じて、他の比較についても説明する。
[1] ステム候補配列の生成処理
前述したように、1本鎖RNA上において、結合している1対のステム領域では、相補塩基対が連続している。したがって、相補塩基対が連続する2つの領域は、ステム領域である可能性があり、すなわち、ステム領域の候補である。本実施の形態では、このようなステム領域の候補を、ステム候補(Stem Candidate)またはSCと呼ぶ。
図6は、ステム候補を視覚的に表している。まず、図6の左側は、通常の類似性のプロットを示している。2本の配列が横方向および縦方向に並べられている。そして、2本の配列の塩基が一致する場所がプロットされている。図示のように、一致領域では、右下がりのライン(45度)が描かれる。
一方、図6の右側では、相補塩基対に対応する場所がプロットされている。相補塩基対が連続するとき、左下がりのライン(45度)が描かれる。このラインに対応する部分配列が、ステム候補である。
図7は、1対のステム候補を表している。本実施の形態では、各ステム候補は、下記の3要素で構成される。
(1)配列上でのステム候補の位置
(2)ステム候補自身の配列
(3)相補ステム候補までの距離
本実施の形態では、ステム候補の位置は、5′末端の位置で表される。また、相補ステム候補は、1つのステム候補にとって結合相手になるステム候補である。そして、相補ステム候補までの距離は、ステム候補の間に挟まれた塩基の数である。相補ステムが5′末端側にある場合、距離は負になる。
ステム候補配列生成ステップでは、1本鎖RNAからすべてのステム候補が抽出される。そして、ステム候補が配列される。ステム候補の配列をステム候補配列(Stem Candidate Sequence)またはSCSと呼ぶ。
図8は、ステム候補配列の例を示している。図示のように、ステム候補配列は、ステム候補で構成されていり、すなわち、ステム候補はステム候補配列の1要素である。そして、上記の位置、配列、距離がステム候補の3要素である。
また、図8に示されるように、本実施の形態では、ステム候補の長さが固定されている。図8の例では、ステム候補の長さは、4塩基である。
図9〜図11は、部分的なステム候補配列の幾つかの例を示している。図9を参照すると、本実施の形態では、ステム候補の長さが固定されているので、固定長より長い範囲で相補対が連続する場合、少しずつずれた複数のステム候補が抽出される。すなわち、図9の例では、5つの相補塩基対が連続している。この場合、SC1とSC2は、1塩基だけずれており、SC3とSC4も1塩基だけずれている。そして、SC1とSC4がペアを作り、SC2とSC3がペアを作る。SCSでは、SC1、SC2、SC3、SC4が順に配列される。
また、図10の例では、SC1とSC6がペアを作り、SC2とSC3がペアを作り、SC4とSC5がペアを作っている。仮に全候補が実際にステムであったとすると、図10に示すような2次構造が作られる。このような2次構造は、SCSでは、SC1〜SC6の配列によって表現される。
さらに、図11の例では、RNA配列の同じ場所が、SC1であり、かつ、SC2である。そして、SC1はSC3とペアを作り、SC2はSC4とペアをつくる。このような場合、SCSでは、SC1、SC2、SC3、SC4が配列される。SC1とSC2では、相補ステム候補との距離が異なる。図8において、SC#0、SC#1、SC#4、SC#10は、図11の例と対応している。
図12は、ステム候補配列を生成するプログラムの例を示している。このプログラムは、図5を用いて説明したように、コンピュータのプロセッサにより、メモリを用いて実行される。
図12においては、RNA配列からハッシュテーブルが生成される(S10)。本実施の形態では、ステム候補の長さが4塩基である。4塩基配列の種類の数は、256である。各々の4塩基配列に関して、RNA配列が整理される。例えば、4塩基配列「atcg」がRNA配列から抽出される。そして、「atcg」の位置のテーブルが作られる。このようにして、RNA配列からハッシュテーブルが作られる。
次に、ハッシュテーブルからステム候補が抽出される(S12)。ハッシュテーブルは、すべての4塩基配列の情報を網羅している。そこで、ステム候補になるべき4塩基配列のペアがハッシュテーブルから抽出される。例えば、「atcg」と「cgat」のすべてのペアが、ステム候補のペアとして抽出される。次に、抽出されたステム候補が配列される(S14)。各ステム候補には、上述した位置、配列、距離の3要素が与えられている。以上のようにして、ステム候補配列情報が得られる。
[2] ステム候補配列の比較処理
次に、複数のステム候補配列の比較処理について説明する。本実施の形態では、下記のように、複数のステム候補に動的計画法が適用される。このとき、ステム候補が比較単位になる。そして、複数のステム候補配列が比較され、複数のステム候補配列の類似度が算出される。また、複数のステム候補配列で共通するステム候補が選定される。
図13は、従来の通常の動的計画法を示している。図13では、2本のアミノ酸配列が比較されている。動的計画法では、周知のように、2本の配列のアライメントが行われる。これにより、ギャップおよび置換が考慮される。図13では、経路が右に進むとき、縦方向の配列にギャップが挿入される。また、経路が下に進むとき、横方向の配列にギャップが挿入される。そして、アライメントが行われた状態での2本の配列の類似度が算出される。
図14では、本実施の形態の動的計画法が、従来の動的計画法と比較されている。従来は、比較対象の要素が、アミノ酸である。要素単位で類似度のスコアが算出される。そして、要素間のスコアに基づき、配列間のアライメントが行われ、配列間の類似度のスコアが計算される。
これに対して、本実施の形態の動的計画法では、比較対象の要素が、ステム候補である。2つのステム候補の類似度スコアは、後述のようにして求められる。このスコアが、動的計画法における要素間のスコアになる。要素間のスコアに基づき、配列間のアライメントが行われ、配列間の類似度のスコアが計算される。
上記の説明から明らかなように、本実施の形態では、従来の動的計画法の原理をステム候補配列に適用する。そして、比較単位を塩基またはアミノ酸からステム候補配列に置き換える。これにより、複数のステム候補配列の比較ができる。図15は、ステム候補配列のアライメントの例を示している。以下、本実施の形態の動的計画法のアルゴリズムを詳細に説明する。
(1)ステム候補(SC)とその類似性スコア
(1−1)SC ( Stem Candidate )
既に説明したように、ステム領域の候補で、次の3個の要素からなる。
position: ステム候補配列の5′の位置
subseq: ステム候補配列の文字列
distance: ステム候補配列が相補対を形成する相手配列との間に挟まれた塩基数
相手が3′側にあるとき正、5′側にあるとき負となる
x をSCとするとき、上の3つの要素を、
x.position, x.subseq, x.distance
のようにあらわす。
(1−2)SC同士のスコア s(x, y)
s(x, y) = ss(x.subseq, y.subseq) − sd(x.distance, y.distance)
ss(a, b) : ステム候補配列文字列同士の類似度スコア
sd(a, b): ステム候補相補対間の距離の違いを罰するためのペナルティ
(1−3)ss(a, b) ステム候補配列文字列同士の類似度スコア
文字列同士の類似度であれば、どのようなスコアも用いることができる。文字列同士を置換行列を用いてアラインメントし、アラインメントのスコアを用いることもできるし、スタッキングエネルギーの違いを考慮したスコアを導入することもできる。
例えば、固定長の同じ長さの文字列に置換行列を用いる場合は、スコアは下記のように表される。
a=a1a2…am, b=b1b2…bn とすると、ss(a, b)は以下のようになる。
ss(a, b) = Σi=1,…,k T(ai, bi)
ただし、 T(p, q) は文字p と q に関する置換行列の値である。
(1−4)sd(a, b) ステム候補相補対間の距離の違いを罰するためのペナルティ
距離の差 a−b の関数を用いるのが自然である。a, b が大きければ、距離の差も大きくても許容できることを考慮すると、 |a−b|/√(ab) のような値を用いることもできる。ただし、a、bの符号が異なると意味が全く違ってしまうから、以下のようにすればよい。
sd(a, b) = −∞ if ab<0
sd(a, b) = |a−b|/√(ab)
(2)ステム候補配列(Stem Candidate Sequence:SCS)の動的計画法によるアラインメント
(2−1)ステム候補配列 (SCS)
既に説明したように、SCSは、SCの配列である。
(2−2)SCSのDP行列の漸化式
2本のSCS、x = x1x2…xm と y = y1y2…yn
に対するアラインメントでは、xとyの要素であるSC同士の対応を順番に取っていく。このとき、xiとyjが対応した場合の最大スコアに対応するDP行列 F(i, j)は、以下の漸化式を満たす。
Figure 2005284595
ここで、F(i−α, j−β)は、x (SCS)においてα個手前のSC、y (SCS)においてβ個手前のSCに対応するDP行列の値であり、SCS同士のアラインメントにおいて対応するひとつ手前のSCの組(xのSCであるxi−αとyのSCであるyj−β)に対する最大スコアである。一定値δi、εj以下のα、βのうち右辺の[ ] 内を最大化するα、βを取ることにより、xi, yj に対応するDP行列の値 F(i, j) を求めることができる。
また、s(a, b) は(1−2)で定義されたSC同士のスコアである。
δiは xi.position − xi−r.position が一定値K以下となる最大のrであり、εjはyj.position−yj−r.positionが一定値K以下となる最大のrであり、この2つは2本のSCS、x、y、に対してあらかじめ計算しておく。
γ(a, b) はDPで対応する連続2個のSCの位置の差のxでの値(a)とyでの値(b)の違いに対するペナルティーで、たとえば、
γ(a, b) = Cγ(a−b)
などと置く。Cγは正規化のための定数である。
(2−3)SCSの大域アラインメントアルゴリズム
2本のSCS、x = x1x2…xm と y = y1y2…yn に対するアラインメントアルゴリズムでは、以下の初期条件
F(0,0) = 0, F(i, 0) = −γ(xi.position, 0), F(0, j) = −γ(0, yj.position)
から(式1)の漸化式にしたがってDP行列を再帰的に計算する。
ただし、終了条件を整えるため、xm+1, yn+1とそのスコアを以下のように定義する。
xm+1.position = xm.position, yn+1.position=yn.position
s(xm+1, yn+1) = 0
F(m+1, n+1)が2本のSCS、x, yに対する最適アラインメントのスコアとなり、元の2本のRNA配列の類似性のスコアとなる。
(2−4)トレースバックポインタと大域アラインメントの復元
最適アラインメント自体を求めるためには、通常の動的計画法と同様に、トレースバックポインタ p(i, j)を定義する。(式1)の右辺のmaxで最大を与えるα、βの値をα'、β'とするとき、p(i, j) = (i−α', j−β') と置く。
(m+1, n+1)から順にトレースバックポインタをたどっていくことにより、対応するすべてのSCの組を求めることができる。
(2−5)SCSの局所アラインメントアルゴリズム
個別のRNA候補を用いて、ゲノム配列中の類似RNAを検索する場合、SCSの局所アライメントが行われる。また、ゲノム同士を比較する場合も、SCSの局所アライメントが行われる。さらに、ゲノム全体で繰り返し現れる類似RNA候補をリストアップするためにも、SCSの局所アライメントが行われる。この場合、1つのゲノムから作った同じSCSが比較されればよい。
SCSの局所アラインメントを行うときは、通常の局所アラインメントと同様に、DP行列のスコアが負の部分を0(ゼロ)で置き換える。
すなわち、(式1)の右辺が負のとき、F(i, j)の値を0(ゼロ)とする。
また、初期条件は
F(0,0) = 0, F(i, 0) = 0, F(0, j) = 0
とする。
トレースバックは、(m+1, n+1)だけではなく、DP行列のあらゆる場所から行うことが可能である。DP行列中のスコアの高い部分から順番に候補をN個選び、各候補はDP行列の値が0(ゼロ)となるまでトレースバックすれば、スコアの良いものから順にN個の局所アラインメントを得ることができる。
以上に、動的計画法によるSCSの比較処理について説明した。実際に比較処理を実行するには、上記のアルゴリズムに対応するプログラムが用意される。このプログラムは、従来のアミノ酸配列の動的計画法のプログラムを応用したプログラムでよい。ただし、比較対象の要素が、アミノ酸からSCに変換される。要素間のスコアの算出方法も変更される。その他、上記のアルゴリズムに対応するようにプログラムが構成される。このプログラムがコンピュータにインストールされ、実行され、これにより本実施の形態のRNA情報処理方法が実現される。
次に、本実施の形態のRNA情報処理の全体構成について説明する。RNA情報処理は、既に説明したように、上記のステム候補配列の生成処理と、ステム候補配列の比較処理で構成される。RNA情報処理は、典型的には、下記の4つのパターンで利用される。
(1)RNA配列同士の比較
各々のRNA配列からSCSが生成される。そして、2本のSCSが比較される。この場合、大域アライメントが適用される。このパターンは、後述するように、データベースを使ったRNAの検索に利用できる。
(2)RNA配列とゲノム配列の比較
RNAからSCSが生成され、また、ゲノムからSCSが生成される。そして、2本のSCSが比較される。この場合、局所アライメントが適用される。ゲノム中から類似するRNAが抽出される。
(3)ゲノム配列同士の比較(i)
各々のゲノム配列からSCSが生成される。そして、2本のSCSが比較される。この場合も、局所アライメントが適用される。
(4)ゲノム配列同士の比較(ii)
上記の(3)の応用例として、1本のゲノム配列からSCSが生成される。比較処理では、比較対象の2本のSCSとして、同じSCSが用いられる。ここでも局所アライメントが適用される。これにより、ゲノム自身の中で類似する部分が抽出される。したがって、一連のゲノム上から、2次構造に共通性がある複数のRNA候補配列を網羅的に抽出できる。
次に、本実施の形態のRNA配列情報処理装置について説明する。RNA情報処理装置は、上述の情報処理方法を実行するコンピュータであり、ハードウエア的な構成は、図5を参照して既に説明した通りである。
図16は、RNA配列情報処理装置の機能ブロック図である。RNA情報処理装置101は、入力部103、SCS生成部105、SCS記憶部107、109、SCS比較部111および比較結果出力部113を備えている。入力部103は、比較対象の2本のRNA配列の情報を入力する機能を有する。
SCS生成部105は、図5におけるプログラム実行部3がプログラム記憶部5に記憶されたSCS生成プログラムを実行することで実現される。SCS生成部105は、2本のRNA配列の各々からSCSを生成する。前述したように、RNA配列からハッシュテーブルが生成され、ハッシュテーブルからSCが抽出され、抽出されたSCが整列され、これによりSCSが得られる。2本のSCSは、それぞれ、SCS記憶部107、109に格納される。
SCS比較部111は、図5におけるプログラム実行部3がプログラム記憶部5に記憶されたSCS比較関連プログラムを実行することで実現される。SCS比較部111は、SCS記憶部107、109に記憶されている2本のSCSを比較して、類似度を算出する。ここでは、上述したSCSの動的計画法が適用され、アライメントが行われ、類似度のスコアが算出される。また、配列全体同士を比較する大域アライメントが行われる。また、トレースバック処理が行われて、最適アライメントが求められる。さらに、2本のSCSで共通するSCが選定される。
比較結果出力部113は、SCS比較部111によって求められた情報を出力する。すなわち、類似度のスコア、トレースバックの結果、および共通のSCの情報が出力される。
RNA情報処理装置101は、通常のパーソナルコンピュータで実現されてもよい。この場合、上述のRNA情報処理に対応するプログラムがコンピュータにインストールされ、CPUにより実行される。入力部103は、キーボード等により構成されてもよい。また、入力部3は、記録媒体装着部で構成されてもよい。この場合、記録媒体からRNA配列が読み込まれる。また、比較結果出力部113は、例えば、ディスプレイである。
RNA情報処理装置101は、LANに接続されたサーバであってもよい。この場合、入力部103および比較結果出力部113は、LANとの通信部で構成されてよい。
さらに、RNA情報処理装置101は、インターネット等のネットワークに接続されてもよい。この場合、WEBサーバが、入力部103および比較結果出力部113として機能してもよい。
上記のように、RNA情報出力装置101は、単独のコンピュータでもよく、LANまたはインターネット等のネットワークに接続されてもよい。この点は、以下の他の実施の形態においても同様である。
次に、本実施の形態のRNA配列検索装置について説明する。RNA配列検索装置は、RNA情報処理装置の一形態でもある。
図17は、RNA配列検索装置の機能ブロック部である。上述の実施の形態と重複する事項の説明は適宜省略する。図17において、RNA配列検索装置201は、入力部203、RNA配列データベース204、SCS生成部205、SCS記憶部207、209、SCS比較部211および比較結果出力部213を備えている。
入力部203は、検索対象のRNA配列の情報を入力する機能を有する。RNA配列データベース204は、多数のRNA配列を記憶している。SCS生成部205は、検索対象のRNA配列からSCSを生成する。また、SCS生成部205は、RNA配列データベース204に記憶されたRNA配列からSCSを生成する。これらSCSが、それぞれ、SCS記憶部207、209に記憶される。SCS比較部211は、SCS記憶部207、209に記憶されている2本のSCSを比較して類似度を算出する。ここでは、大域アライメントが行われる。
SCS生成部205は、RNA配列データベース204の複数のRNA配列の各々からSCSを生成する。各SCSが、SCS比較部211により、比較対象のSCSと比較され、類似度のスコアが算出される。
SCS比較部211は、検索手段として機能し、類似度のスコアに基づいて、検索対象のSCSと類似したSCSである類似SCSを求める。類似SCSは、例えば、類似度スコアが所定のレベル以上のSCSである。類似SCSに対応するRNA配列が、類似RNAとして求められる。この類似RNAの情報が、比較結果出力部213から出力される。
図18は、RNA配列検索装置のもう一つの例を示している。上述の実施の形態と重複する事項の説明は適宜省略する。
図18では、RNA配列検索装置301が、SCSデータベース310を備えている。この例では、多数のRNAの各々から、予め、SCSが生成されている。そして、多数のSCSが、SCSデータベース310に格納されている。SCS比較部311は、検索手段として機能し、検索対象のRNA配列から生成されたSCSを、SCSデータベース310に格納されたSCSと比較する。そして、検索対象のSCSに類似するSCSが、SCSデータベース310から抽出される。抽出されたSCSに対応するRNAの情報が、比較結果出力部313から出力される。
図19は、別の実施の形態のRNA配列情報処理装置を示している。上述の実施の形態と重複する事項の説明は適宜省略する。
RNA情報処理装置401において、入力部403は、比較対象のゲノム配列の情報を入力する機能を有する。ここでは、1本のゲノム配列が入力される。SCS生成部405は、ゲノム配列からSCSを生成する。前述したように、ゲノム配列からハッシュテーブルが生成され、ハッシュテーブルからSCが抽出され、抽出されたSCが整列され、これによりSCSが得られる。すなわち、RNA配列と同じようにゲノム配列が処理される。
ただし、本実施の形態では、1つのゲノム配列から得られた1つのSCSが、SCS記憶部407、409の両方に格納される。したがって、SCS記憶部407、409は同じSCSを記憶する。
SCS比較部411は、SCS記憶部407、409に記憶されている2本のSCSを比較する。2本のSCSは、上記のように同じである。比較処理では、SCSの動的計画法が適用され、アライメントが行われる。ただし、本実施の形態では、局所アライメントが行われる。また、トレースバックについても、局所アライメントのトレースバックが行われる。このような比較処理により、1本のゲノム配列上で、互いに類似するRNA配列部分の候補が抽出される。抽出結果が、比較結果出力部413から出力される。
図19では、1本のゲノム配列が入力部403に入力された。これに対して、2本のゲノム配列が入力部403に入力されてもよい。この場合は、各ゲノム配列からSCSが生成される。そして、2つのSCSが、それぞれ、SCS記憶部407、409に記憶される。そして、これら2つのSCSが、SCS比較部411により比較され、類似度が算出される。そして、類似度の情報が比較結果出力部413から出力される。
また、図19において、ゲノム配列とRNA配列が入力部403に入力されてもよい。この場合には、同様の処理により、ゲノム配列とRNA配列が比較される。
さらに、図19の変形例として、比較対象の一方または双方が、データベースから読み出されてもよい。この点は、図17および図18を参照して説明した通りである。
以上、本発明の好適な実施の形態を説明した。本発明によれば、上述のようにして、RNA配列またはゲノム配列からステム候補配列が生成される。そして、ステム候補配列同士が、動的計画法によって比較される。動的計画法の比較単位として、通常の塩基またはアミノ酸の代わりにステム候補が用いられる。これにより、複数のステム候補配列を比較でき、類似度を求められる。
このようにして、本実施の形態では、RNA配列中のステム候補に着目し、ステム候補配列を生成して、生成したステム候補配列に動的計画法を適用している。元のRNA2次構造を予め知ることなく、2次構造の類似性とステム部分に着目した配列類似性を考慮した総合的な比較処理ができる。比較結果を利用して、機能RNAの機能に基づく分類、検索、抽出が可能になる。
さらに、1次構造の比較をも行い、1次構造の類似性と2次構造の類似性を総合的に比較することもできる。例えば、1次構造が類似し、2次構造が類似するとき、2つの配列が類似すると判断される。1次構造の類似性は、ステム候補以外の領域を対象として判断されてもよい。このようにして、本実施の形態を応用し、1次構造と2次構造の総合的な比較も実現できる。
また、本実施の形態では、ステム候補の長さが固定されている。また、ステム候補配列がハッシュテーブルを使って生成される。このような処理により、ステム候補を効率よく抽出でき、計算速度を増大できる。
また、本実施の形態では、ステム候補同士の類似度のスコアが、ステム候補類似度基準に相当するスコア算出アルゴリズムを使って求められる。このとき、類似度のスコアは、ステム候補自身の配列の類似度スコアと、相補ステム候補までの距離の相違を罰するペナルティスコアとに基づいて計算される。これにより、ステム候補同士の類似度を適切に求められる。この類似度スコアを使うことで、ステム候補配列の比較に動的計画法を適当に応用できる。
また、本実施の形態では、配列比較処理が、ステム候補の位置同士の距離、ステム候補自身の配列の類似度および相補ステム候補までの距離に基づいた動的計画法によって好適に行われる。
また、本実施の形態は、類似RNA配列を検索する好適な検索技術を提供できる。
また、本実施の形態は、ステム候補配列の大域アライメントを行うことによる好適な検索技術を提供できる。
また、本実施の形態は、ステム候補配列の局所アライメントを行うことにより、1つのゲノム配列上の類似RNA配列の候補を網羅的に抽出する抽出技術を提供できる。
以上に本発明の好適な実施の形態を説明した。しかし、本発明は上述の実施の形態に限定されず、当業者が本発明の範囲内で上述の実施の形態を変形可能なことはもちろんである。
本発明は、RNA2次元構造の比較をコンピュータ上で実現できる。バイオインフォマティクス技術の分野では、BLASTが1次構造の比較および検索のために有用であるのと同様に、本発明は、RNA配列の比較および検索において極めて有用である。
DNAおよびRNAの配列を示す図である。 RNAの局所的な2次構造の例を示す図である。 RNAの2次構造の例を示す図である。 RNA配列の2次構造を示す図である。 本実施の形態の方法を実行するコンピュータを示す図である。 ステム候補を視覚的に表す図である。 1対のステム候補の例を示す図である。 ステム候補の例を示す図である。 ステム候補の例を示す図である。 ステム候補の例を示す図である。 ステム候補の例を示す図である。 ステム候補配列を生成するプログラムの例を示す図である。 従来の通常の動的計画法を示す図である。 本実施の形態の動的計画法を、従来の動的計画法と比較して示す図である。 ステム候補配列のアライメントの例を示す図である。 RNA配列情報処理装置の機能ブロック図である。 RNA配列検索装置の機能ブロック図である。 RNA配列検索装置のもう一つの例を示す機能ブロック図である。 別の実施の形態のRNA配列情報処理装置を示す機能ブロック図である。
符号の説明
1 RNA情報処理装置
3 入力部
5 ステム候補配列(SCS)生成部
7、9 ステム候補配列記憶部
11 ステム候補配列比較部
13 比較結果出力部

Claims (14)

  1. RNA配列またはRNAを含む生物学的配列情報から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成ステップと、
    複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較ステップと、
    を含むことを特徴とするRNA配列情報処理方法。
  2. 前記配列生成ステップにおいて、ステム候補配列情報を構成する各ステム候補の情報は、配列上でのステム候補の位置、ステム候補自身の配列、相補ステム候補までの距離を含むことを特徴とする請求項1に記載のRNA配列情報処理方法。
  3. 前記配列生成ステップは、固定長のステム候補の配列を生成することを特徴とする請求項2に記載のRNA配列情報処理方法。
  4. 前記配列生成ステップは、ステム候補になり得る塩基配列に関するハッシュテーブルを生成し、前記ハッシュテーブルを参照して、ステム候補の位置、配列および距離の情報を抽出することを特徴とする請求項2に記載のRNA配列情報処理方法。
  5. 前記配列比較ステップは、ステム候補同士の類似度のスコアを算出するためのステム候補類似度基準に従って算出されるステム候補同士の類似度に基づいて前記複数のステム候補配列のアライメント処理を行い、アライメントされた前記複数のステム候補配列の類似度を求めることを特徴とする請求項1に記載のRNA配列情報処理方法。
  6. 前記配列比較ステップは、ステム候補同士の類似度のスコアを、ステム候補自身の配列の類似度スコアと、相補ステム候補までの距離の相違を罰するペナルティスコアとに基づいて計算することを特徴とする請求項5に記載のRNA配列情報処理方法。
  7. 前記配列比較ステップは、ステム候補の位置同士の距離、ステム候補自身の配列の類似度および相補ステム候補までの距離に基づいた動的計画法によって複数のステム候補配列のアライメントを行い、複数のステム候補配列の類似度を計算することを特徴とする請求項1に記載のRNA配列情報処理方法。
  8. 前記配列比較ステップは、新たに与えられたRNA配列または生物学的配列情報から前記配列生成ステップにより得られたステム候補配列を、データベースに記憶されている過去に生成されたステム候補配列と比較することを特徴とする請求項1に記載のRNA配列情報処理方法。
  9. 複数のRNA配列の大域アライメントを行うことを特徴とする請求項1に記載のRNA配列情報処理方法。
  10. RNA配列を含む塩基配列を対象として、局所アライメントを行うことを特徴とする請求項1に記載のRNA配列情報処理方法。
  11. RNA配列またはRNAを含む生物学的配列情報から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成ステップと、
    複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較ステップと、
    をコンピュータに実行させることを特徴とするRNA配列情報処理プログラム。
  12. RNA配列またはRNAを含む生物学的配列情報を入力する手段と、
    入力されたRNA配列またはRNAを含む生物学的配列情報から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成手段と、
    生成されたステム候補配列情報を記憶する配列記憶手段と、
    配列記憶手段から複数のステム候補配列を読み出して、前記複数のステム候補配列に対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較手段と、
    を含むことを特徴とするRNA配列情報処理装置。
  13. 検索対象のRNA配列から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成される検索対象のステム候補配列情報を生成する配列生成手段と、
    多数のRNA配列からそれぞれ生成された多数のステム候補配列情報を記憶する配列データベースと、
    検索対象のステム候補配列と前記配列データベースに記憶されたステム候補配列に対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記検索対象のステム候補配列と類似するステム候補配列を前記配列データベースから抽出する検索手段と、
    を含むことを特徴とするRNA配列検索装置。
  14. 検索対象のRNA配列から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成される検索対象のステム候補配列情報を生成するステップと、
    前記検索対象のステム候補配列と配列データベースに記憶されているステム候補配列情報とに対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記検索対象のステム候補配列と類似するステム候補配列を前記配列データベースから抽出するステップと、
    をコンピュータに実行させることを特徴とするRNA配列検索プログラム。
JP2004096140A 2004-03-29 2004-03-29 Rna配列情報処理方法、プログラムおよび装置 Pending JP2005284595A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004096140A JP2005284595A (ja) 2004-03-29 2004-03-29 Rna配列情報処理方法、プログラムおよび装置
PCT/JP2005/005752 WO2005093632A1 (ja) 2004-03-29 2005-03-28 Rna配列情報処理方法、プログラムおよび装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004096140A JP2005284595A (ja) 2004-03-29 2004-03-29 Rna配列情報処理方法、プログラムおよび装置

Publications (1)

Publication Number Publication Date
JP2005284595A true JP2005284595A (ja) 2005-10-13

Family

ID=35056389

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004096140A Pending JP2005284595A (ja) 2004-03-29 2004-03-29 Rna配列情報処理方法、プログラムおよび装置

Country Status (2)

Country Link
JP (1) JP2005284595A (ja)
WO (1) WO2005093632A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007097213A1 (ja) * 2006-02-27 2007-08-30 National Institute Of Advanced Industrial Science And Technology Rna配列情報処理装置
JP2008102675A (ja) * 2006-10-18 2008-05-01 Nec Soft Ltd 塩基配列の同定方法及び核酸分子の二次構造取得方法、並びにこれらを実行する装置及びプログラム
KR101506916B1 (ko) 2013-03-19 2015-03-31 서울대학교산학협력단 miRNA 탐색 자동화 시스템을 이용하여 시료로부터 miRNA를 자동으로 동정하는 방법
CN104881592A (zh) * 2015-02-11 2015-09-02 哈尔滨工业大学深圳研究生院 一种dna序列比对中的打分方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003242153A (ja) * 2002-02-14 2003-08-29 International Medical Center Of Japan 塩基配列からrnaの機能性部位を同定する方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3881238B2 (ja) * 2001-12-28 2007-02-14 セレスター・レキシコ・サイエンシズ株式会社 Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003242153A (ja) * 2002-02-14 2003-08-29 International Medical Center Of Japan 塩基配列からrnaの機能性部位を同定する方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6009064919, AKUTSU T, "Dynamic programming algorithms for RNA secondary structure prediction with pseudoknots", Discrete Applied Mathematics, 20000803, Volume 104, Issues 1−3, Pages 45−62, Elsevier Science *
JPN6009064921, ISHIKAWA M, et al., "Multiple RNA−Sequence Alignment Considering Stem Regions", ICOT Technical Report, 19941006, TR−0893, pp.1−10, JP, 新世代コンピュータ技術開発機構 *
JPN6009064922, EDDY S R, "A memory−efficient dynamic programming algorithm for optimal alignment of a sequence to an RNA secon", BMC Bioinformatics, 20020702, 3:18, BioMed Central *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007097213A1 (ja) * 2006-02-27 2007-08-30 National Institute Of Advanced Industrial Science And Technology Rna配列情報処理装置
JP2007226700A (ja) * 2006-02-27 2007-09-06 National Institute Of Advanced Industrial & Technology Rna配列情報処理装置
JP2008102675A (ja) * 2006-10-18 2008-05-01 Nec Soft Ltd 塩基配列の同定方法及び核酸分子の二次構造取得方法、並びにこれらを実行する装置及びプログラム
US8200441B2 (en) 2006-10-18 2012-06-12 Nec Soft, Ltd. Method for identifying nucleotide sequence, method for acquiring secondary structure of nucleic acid molecule, apparatus for identifying nucleotide sequence, apparatus for acquiring secondary structure of nucleic acid molecule, program for identifying nucleotide sequence, and program for acquiring secondary structure of nucleic acid molecule
US9311447B2 (en) 2006-10-18 2016-04-12 Nec Solution Innovators, Ltd. Method for identifying nucleotide sequence, method for acquiring secondary structure of nucleic acid molecule, apparatus for identifying nucleotide sequence, apparatus for acquiring secondary structure of nucleic acid molecule, program for identifying nucleotide sequence, and program for acquiring secondary structure of nucleic acid molecule
KR101506916B1 (ko) 2013-03-19 2015-03-31 서울대학교산학협력단 miRNA 탐색 자동화 시스템을 이용하여 시료로부터 miRNA를 자동으로 동정하는 방법
CN104881592A (zh) * 2015-02-11 2015-09-02 哈尔滨工业大学深圳研究生院 一种dna序列比对中的打分方法

Also Published As

Publication number Publication date
WO2005093632A1 (ja) 2005-10-06

Similar Documents

Publication Publication Date Title
Drew et al. Polymorphic malware detection using sequence classification methods
Drew et al. Polymorphic malware detection using sequence classification methods and ensembles: BioSTAR 2016 Recommended Submission-EURASIP Journal on Information Security
Haque et al. Pairwise sequence alignment algorithms: a survey
Zekic et al. Pan-genome storage and analysis techniques
US8965935B2 (en) Sequence matching algorithm
Möhl et al. Lifting prediction to alignment of RNA pseudoknots
Rani et al. Cluster analysis method for multiple sequence alignment
US10438690B2 (en) Associative memory and data searching system and method
WO2005093632A1 (ja) Rna配列情報処理方法、プログラムおよび装置
Sogabe et al. An acceleration method of short read mapping using FPGA
Nicolas et al. Finding and characterizing repeats in plant genomes
Pandi et al. A novel similarity measure for sequence data
Deng et al. Contrasting sequence groups by emerging sequences
Giannakis et al. A quantum-inspired optimization heuristic for the multiple sequence alignment problem in bio-computing
Oğul et al. SVM-based detection of distant protein structural relationships using pairwise probabilistic suffix trees
Nguyen et al. A knowledge-based multiple-sequence alignment algorithm
Rabea et al. A fast algorithm for constructing suffix arrays for DNA alphabets
Churkin et al. RNA dot plots: an image representation for RNA secondary structure analysis and manipulations
Cai et al. Efficient Algorithms for Finding the Closest $ l $ l-Mers in Biological Data
Al-Ssulami et al. An efficient method for significant motifs discovery from multiple DNA sequences
JP7422367B2 (ja) 近似文字列照合方法及び該方法を実現するためのコンピュータプログラム
Upama et al. A Noble Approach on Bioinformatics: Smart Sequence Alignment Algorithm applying DNA Replication (SSAADR)
Al-Turaiki et al. Trie-based apriori motif discovery approach
Farhana et al. Finite automata based algorithms for the generalized constrained longest common subsequence problems
Zhang Efficient methods for read mapping.

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20051019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20051019

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100511