JP2005284595A - Rna配列情報処理方法、プログラムおよび装置 - Google Patents
Rna配列情報処理方法、プログラムおよび装置 Download PDFInfo
- Publication number
- JP2005284595A JP2005284595A JP2004096140A JP2004096140A JP2005284595A JP 2005284595 A JP2005284595 A JP 2005284595A JP 2004096140 A JP2004096140 A JP 2004096140A JP 2004096140 A JP2004096140 A JP 2004096140A JP 2005284595 A JP2005284595 A JP 2005284595A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- stem
- rna
- candidate
- stem candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】 RNA配列情報処理方法は、配列生成ステップと配列比較ステップを含む。配列生成ステップは、RNA配列またはRNAを含む生物学的配列情報から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する。配列比較ステップは、複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、複数のステム候補配列を比較して、複数のステム候補配列の類似度を算出する。
【選択図】 図15
Description
Altschul, S., Gish, W., Miller, W., Myers, E. and Lipman, J. (1990): Basic local alignment serach tool, Journal of Molecular Biology, 215:pp.403--410. Eddy, S.R. and Durbin, R. (1994) RNA sequence analysis using covariance models. Nucleic Acid Research 22:2079-2088 Kin, T., Tsuda, K. and Asai, K. (2002): Marginalized Kernels for RNA Sequence Data Analysis, Genome Informatics, 13,pp.112--122
前述したように、1本鎖RNA上において、結合している1対のステム領域では、相補塩基対が連続している。したがって、相補塩基対が連続する2つの領域は、ステム領域である可能性があり、すなわち、ステム領域の候補である。本実施の形態では、このようなステム領域の候補を、ステム候補(Stem Candidate)またはSCと呼ぶ。
(1)配列上でのステム候補の位置
(2)ステム候補自身の配列
(3)相補ステム候補までの距離
次に、複数のステム候補配列の比較処理について説明する。本実施の形態では、下記のように、複数のステム候補に動的計画法が適用される。このとき、ステム候補が比較単位になる。そして、複数のステム候補配列が比較され、複数のステム候補配列の類似度が算出される。また、複数のステム候補配列で共通するステム候補が選定される。
(1−1)SC ( Stem Candidate )
既に説明したように、ステム領域の候補で、次の3個の要素からなる。
position: ステム候補配列の5′の位置
subseq: ステム候補配列の文字列
distance: ステム候補配列が相補対を形成する相手配列との間に挟まれた塩基数
相手が3′側にあるとき正、5′側にあるとき負となる
x をSCとするとき、上の3つの要素を、
x.position, x.subseq, x.distance
のようにあらわす。
s(x, y) = ss(x.subseq, y.subseq) − sd(x.distance, y.distance)
ss(a, b) : ステム候補配列文字列同士の類似度スコア
sd(a, b): ステム候補相補対間の距離の違いを罰するためのペナルティ
文字列同士の類似度であれば、どのようなスコアも用いることができる。文字列同士を置換行列を用いてアラインメントし、アラインメントのスコアを用いることもできるし、スタッキングエネルギーの違いを考慮したスコアを導入することもできる。
a=a1a2…am, b=b1b2…bn とすると、ss(a, b)は以下のようになる。
ss(a, b) = Σi=1,…,k T(ai, bi)
ただし、 T(p, q) は文字p と q に関する置換行列の値である。
距離の差 a−b の関数を用いるのが自然である。a, b が大きければ、距離の差も大きくても許容できることを考慮すると、 |a−b|/√(ab) のような値を用いることもできる。ただし、a、bの符号が異なると意味が全く違ってしまうから、以下のようにすればよい。
sd(a, b) = −∞ if ab<0
sd(a, b) = |a−b|/√(ab)
(2−1)ステム候補配列 (SCS)
既に説明したように、SCSは、SCの配列である。
2本のSCS、x = x1x2…xm と y = y1y2…yn
に対するアラインメントでは、xとyの要素であるSC同士の対応を順番に取っていく。このとき、xiとyjが対応した場合の最大スコアに対応するDP行列 F(i, j)は、以下の漸化式を満たす。
δiは xi.position − xi−r.position が一定値K以下となる最大のrであり、εjはyj.position−yj−r.positionが一定値K以下となる最大のrであり、この2つは2本のSCS、x、y、に対してあらかじめ計算しておく。
γ(a, b) はDPで対応する連続2個のSCの位置の差のxでの値(a)とyでの値(b)の違いに対するペナルティーで、たとえば、
γ(a, b) = Cγ(a−b)
などと置く。Cγは正規化のための定数である。
2本のSCS、x = x1x2…xm と y = y1y2…yn に対するアラインメントアルゴリズムでは、以下の初期条件
F(0,0) = 0, F(i, 0) = −γ(xi.position, 0), F(0, j) = −γ(0, yj.position)
から(式1)の漸化式にしたがってDP行列を再帰的に計算する。
xm+1.position = xm.position, yn+1.position=yn.position
s(xm+1, yn+1) = 0
最適アラインメント自体を求めるためには、通常の動的計画法と同様に、トレースバックポインタ p(i, j)を定義する。(式1)の右辺のmaxで最大を与えるα、βの値をα'、β'とするとき、p(i, j) = (i−α', j−β') と置く。
個別のRNA候補を用いて、ゲノム配列中の類似RNAを検索する場合、SCSの局所アライメントが行われる。また、ゲノム同士を比較する場合も、SCSの局所アライメントが行われる。さらに、ゲノム全体で繰り返し現れる類似RNA候補をリストアップするためにも、SCSの局所アライメントが行われる。この場合、1つのゲノムから作った同じSCSが比較されればよい。
すなわち、(式1)の右辺が負のとき、F(i, j)の値を0(ゼロ)とする。
F(0,0) = 0, F(i, 0) = 0, F(0, j) = 0
とする。
各々のRNA配列からSCSが生成される。そして、2本のSCSが比較される。この場合、大域アライメントが適用される。このパターンは、後述するように、データベースを使ったRNAの検索に利用できる。
RNAからSCSが生成され、また、ゲノムからSCSが生成される。そして、2本のSCSが比較される。この場合、局所アライメントが適用される。ゲノム中から類似するRNAが抽出される。
各々のゲノム配列からSCSが生成される。そして、2本のSCSが比較される。この場合も、局所アライメントが適用される。
上記の(3)の応用例として、1本のゲノム配列からSCSが生成される。比較処理では、比較対象の2本のSCSとして、同じSCSが用いられる。ここでも局所アライメントが適用される。これにより、ゲノム自身の中で類似する部分が抽出される。したがって、一連のゲノム上から、2次構造に共通性がある複数のRNA候補配列を網羅的に抽出できる。
3 入力部
5 ステム候補配列(SCS)生成部
7、9 ステム候補配列記憶部
11 ステム候補配列比較部
13 比較結果出力部
Claims (14)
- RNA配列またはRNAを含む生物学的配列情報から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成ステップと、
複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較ステップと、
を含むことを特徴とするRNA配列情報処理方法。 - 前記配列生成ステップにおいて、ステム候補配列情報を構成する各ステム候補の情報は、配列上でのステム候補の位置、ステム候補自身の配列、相補ステム候補までの距離を含むことを特徴とする請求項1に記載のRNA配列情報処理方法。
- 前記配列生成ステップは、固定長のステム候補の配列を生成することを特徴とする請求項2に記載のRNA配列情報処理方法。
- 前記配列生成ステップは、ステム候補になり得る塩基配列に関するハッシュテーブルを生成し、前記ハッシュテーブルを参照して、ステム候補の位置、配列および距離の情報を抽出することを特徴とする請求項2に記載のRNA配列情報処理方法。
- 前記配列比較ステップは、ステム候補同士の類似度のスコアを算出するためのステム候補類似度基準に従って算出されるステム候補同士の類似度に基づいて前記複数のステム候補配列のアライメント処理を行い、アライメントされた前記複数のステム候補配列の類似度を求めることを特徴とする請求項1に記載のRNA配列情報処理方法。
- 前記配列比較ステップは、ステム候補同士の類似度のスコアを、ステム候補自身の配列の類似度スコアと、相補ステム候補までの距離の相違を罰するペナルティスコアとに基づいて計算することを特徴とする請求項5に記載のRNA配列情報処理方法。
- 前記配列比較ステップは、ステム候補の位置同士の距離、ステム候補自身の配列の類似度および相補ステム候補までの距離に基づいた動的計画法によって複数のステム候補配列のアライメントを行い、複数のステム候補配列の類似度を計算することを特徴とする請求項1に記載のRNA配列情報処理方法。
- 前記配列比較ステップは、新たに与えられたRNA配列または生物学的配列情報から前記配列生成ステップにより得られたステム候補配列を、データベースに記憶されている過去に生成されたステム候補配列と比較することを特徴とする請求項1に記載のRNA配列情報処理方法。
- 複数のRNA配列の大域アライメントを行うことを特徴とする請求項1に記載のRNA配列情報処理方法。
- RNA配列を含む塩基配列を対象として、局所アライメントを行うことを特徴とする請求項1に記載のRNA配列情報処理方法。
- RNA配列またはRNAを含む生物学的配列情報から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成ステップと、
複数のステム候補配列に対して、ステム候補を比較単位とする動的計画法を適用することにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較ステップと、
をコンピュータに実行させることを特徴とするRNA配列情報処理プログラム。 - RNA配列またはRNAを含む生物学的配列情報を入力する手段と、
入力されたRNA配列またはRNAを含む生物学的配列情報から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成されるステム候補配列情報を生成する配列生成手段と、
生成されたステム候補配列情報を記憶する配列記憶手段と、
配列記憶手段から複数のステム候補配列を読み出して、前記複数のステム候補配列に対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記複数のステム候補配列を比較して、前記複数のステム候補配列の類似度を算出する配列比較手段と、
を含むことを特徴とするRNA配列情報処理装置。 - 検索対象のRNA配列から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成される検索対象のステム候補配列情報を生成する配列生成手段と、
多数のRNA配列からそれぞれ生成された多数のステム候補配列情報を記憶する配列データベースと、
検索対象のステム候補配列と前記配列データベースに記憶されたステム候補配列に対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記検索対象のステム候補配列と類似するステム候補配列を前記配列データベースから抽出する検索手段と、
を含むことを特徴とするRNA配列検索装置。 - 検索対象のRNA配列から、RNA2次構造のステム領域の候補であるステム候補を抽出し、ステム候補の配列で構成される検索対象のステム候補配列情報を生成するステップと、
前記検索対象のステム候補配列と配列データベースに記憶されているステム候補配列情報とに対して、ステム候補を比較単位とする動的計画アルゴリズムの演算処理を行うことにより、前記検索対象のステム候補配列と類似するステム候補配列を前記配列データベースから抽出するステップと、
をコンピュータに実行させることを特徴とするRNA配列検索プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004096140A JP2005284595A (ja) | 2004-03-29 | 2004-03-29 | Rna配列情報処理方法、プログラムおよび装置 |
PCT/JP2005/005752 WO2005093632A1 (ja) | 2004-03-29 | 2005-03-28 | Rna配列情報処理方法、プログラムおよび装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004096140A JP2005284595A (ja) | 2004-03-29 | 2004-03-29 | Rna配列情報処理方法、プログラムおよび装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005284595A true JP2005284595A (ja) | 2005-10-13 |
Family
ID=35056389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004096140A Pending JP2005284595A (ja) | 2004-03-29 | 2004-03-29 | Rna配列情報処理方法、プログラムおよび装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2005284595A (ja) |
WO (1) | WO2005093632A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007097213A1 (ja) * | 2006-02-27 | 2007-08-30 | National Institute Of Advanced Industrial Science And Technology | Rna配列情報処理装置 |
JP2008102675A (ja) * | 2006-10-18 | 2008-05-01 | Nec Soft Ltd | 塩基配列の同定方法及び核酸分子の二次構造取得方法、並びにこれらを実行する装置及びプログラム |
KR101506916B1 (ko) | 2013-03-19 | 2015-03-31 | 서울대학교산학협력단 | miRNA 탐색 자동화 시스템을 이용하여 시료로부터 miRNA를 자동으로 동정하는 방법 |
CN104881592A (zh) * | 2015-02-11 | 2015-09-02 | 哈尔滨工业大学深圳研究生院 | 一种dna序列比对中的打分方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003242153A (ja) * | 2002-02-14 | 2003-08-29 | International Medical Center Of Japan | 塩基配列からrnaの機能性部位を同定する方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3881238B2 (ja) * | 2001-12-28 | 2007-02-14 | セレスター・レキシコ・サイエンシズ株式会社 | Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体 |
-
2004
- 2004-03-29 JP JP2004096140A patent/JP2005284595A/ja active Pending
-
2005
- 2005-03-28 WO PCT/JP2005/005752 patent/WO2005093632A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003242153A (ja) * | 2002-02-14 | 2003-08-29 | International Medical Center Of Japan | 塩基配列からrnaの機能性部位を同定する方法 |
Non-Patent Citations (3)
Title |
---|
JPN6009064919, AKUTSU T, "Dynamic programming algorithms for RNA secondary structure prediction with pseudoknots", Discrete Applied Mathematics, 20000803, Volume 104, Issues 1−3, Pages 45−62, Elsevier Science * |
JPN6009064921, ISHIKAWA M, et al., "Multiple RNA−Sequence Alignment Considering Stem Regions", ICOT Technical Report, 19941006, TR−0893, pp.1−10, JP, 新世代コンピュータ技術開発機構 * |
JPN6009064922, EDDY S R, "A memory−efficient dynamic programming algorithm for optimal alignment of a sequence to an RNA secon", BMC Bioinformatics, 20020702, 3:18, BioMed Central * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007097213A1 (ja) * | 2006-02-27 | 2007-08-30 | National Institute Of Advanced Industrial Science And Technology | Rna配列情報処理装置 |
JP2007226700A (ja) * | 2006-02-27 | 2007-09-06 | National Institute Of Advanced Industrial & Technology | Rna配列情報処理装置 |
JP2008102675A (ja) * | 2006-10-18 | 2008-05-01 | Nec Soft Ltd | 塩基配列の同定方法及び核酸分子の二次構造取得方法、並びにこれらを実行する装置及びプログラム |
US8200441B2 (en) | 2006-10-18 | 2012-06-12 | Nec Soft, Ltd. | Method for identifying nucleotide sequence, method for acquiring secondary structure of nucleic acid molecule, apparatus for identifying nucleotide sequence, apparatus for acquiring secondary structure of nucleic acid molecule, program for identifying nucleotide sequence, and program for acquiring secondary structure of nucleic acid molecule |
US9311447B2 (en) | 2006-10-18 | 2016-04-12 | Nec Solution Innovators, Ltd. | Method for identifying nucleotide sequence, method for acquiring secondary structure of nucleic acid molecule, apparatus for identifying nucleotide sequence, apparatus for acquiring secondary structure of nucleic acid molecule, program for identifying nucleotide sequence, and program for acquiring secondary structure of nucleic acid molecule |
KR101506916B1 (ko) | 2013-03-19 | 2015-03-31 | 서울대학교산학협력단 | miRNA 탐색 자동화 시스템을 이용하여 시료로부터 miRNA를 자동으로 동정하는 방법 |
CN104881592A (zh) * | 2015-02-11 | 2015-09-02 | 哈尔滨工业大学深圳研究生院 | 一种dna序列比对中的打分方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2005093632A1 (ja) | 2005-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Drew et al. | Polymorphic malware detection using sequence classification methods | |
Drew et al. | Polymorphic malware detection using sequence classification methods and ensembles: BioSTAR 2016 Recommended Submission-EURASIP Journal on Information Security | |
Haque et al. | Pairwise sequence alignment algorithms: a survey | |
Zekic et al. | Pan-genome storage and analysis techniques | |
US8965935B2 (en) | Sequence matching algorithm | |
Möhl et al. | Lifting prediction to alignment of RNA pseudoknots | |
Rani et al. | Cluster analysis method for multiple sequence alignment | |
US10438690B2 (en) | Associative memory and data searching system and method | |
WO2005093632A1 (ja) | Rna配列情報処理方法、プログラムおよび装置 | |
Sogabe et al. | An acceleration method of short read mapping using FPGA | |
Nicolas et al. | Finding and characterizing repeats in plant genomes | |
Pandi et al. | A novel similarity measure for sequence data | |
Deng et al. | Contrasting sequence groups by emerging sequences | |
Giannakis et al. | A quantum-inspired optimization heuristic for the multiple sequence alignment problem in bio-computing | |
Oğul et al. | SVM-based detection of distant protein structural relationships using pairwise probabilistic suffix trees | |
Nguyen et al. | A knowledge-based multiple-sequence alignment algorithm | |
Rabea et al. | A fast algorithm for constructing suffix arrays for DNA alphabets | |
Churkin et al. | RNA dot plots: an image representation for RNA secondary structure analysis and manipulations | |
Cai et al. | Efficient Algorithms for Finding the Closest $ l $ l-Mers in Biological Data | |
Al-Ssulami et al. | An efficient method for significant motifs discovery from multiple DNA sequences | |
JP7422367B2 (ja) | 近似文字列照合方法及び該方法を実現するためのコンピュータプログラム | |
Upama et al. | A Noble Approach on Bioinformatics: Smart Sequence Alignment Algorithm applying DNA Replication (SSAADR) | |
Al-Turaiki et al. | Trie-based apriori motif discovery approach | |
Farhana et al. | Finite automata based algorithms for the generalized constrained longest common subsequence problems | |
Zhang | Efficient methods for read mapping. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20051019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20051019 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091215 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100511 |