JPH01140229A - 複数配列同時比較方法 - Google Patents

複数配列同時比較方法

Info

Publication number
JPH01140229A
JPH01140229A JP62296219A JP29621987A JPH01140229A JP H01140229 A JPH01140229 A JP H01140229A JP 62296219 A JP62296219 A JP 62296219A JP 29621987 A JP29621987 A JP 29621987A JP H01140229 A JPH01140229 A JP H01140229A
Authority
JP
Japan
Prior art keywords
data
data group
juxtaposition
array data
array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62296219A
Other languages
English (en)
Inventor
Koji Tajima
田嶋 耕治
Hirofumi Doi
洋文 土居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62296219A priority Critical patent/JPH01140229A/ja
Publication of JPH01140229A publication Critical patent/JPH01140229A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概   要〕 DNAやアミノ酸配列データ等の複数の配列データを同
時に比較するための複数配列同時比較方法に関し、 少ない計算時間でかつ複数本の配列の同時比較を可能に
することを目的とし、 複数本の対象配列データのうち1本を初期基準配列デー
タ群とし、該初期基準配列データ群と他の対象配列デー
タのうち任意の1本とで各配列要素間の対応づけをして
並置処理を行い、該並置処理によって得られた修正基準
配列データ群及び修正対象配列データを新たな基準配列
データ群とし、該複数本の基準配列データ群と他の対象
配列データのうち任意の新たな1本の対象配列データと
で、各配列要素間の対応づけをして並置処理を行い、該
並置処理を新たな対象配列データを1本追加して並置処
理を行う毎に基準配列データ群の本数を1本ずつ増加さ
せながら繰り返し、全ての対象配列データに対して前記
並置処理を行って得られた複数本の基準配列データ群を
前記複数本の対象配列データの並置結果として出力する
ことより、それらの同時比較を行うように構成する。
〔産業上の利用分野〕
本発明は、DNAやアミノ酸配列データ等の複数の配列
データを同時に比較するための複数配列同時比較方法に
関する。
〔従来の技術〕
ある2本の配列が争えられた場合に、2本の配列の各配
列要素間の対応づけを行う処理方法は、様々な産業分野
に応用することが可能である。
例えば、音声認識の分野においては、入力音声の音声情
報列を予め登録しておいた音声情報列の標準パターンと
対応づけを行うことにより、入力音声が何であるかを認
識することができる。
一方、分子生物学の分野においては、遺伝子の生物学的
機能の解明のために、DNAの核酸配列やアミノ酸配列
を互いに比較することが行われる。
即ち、生物が世代交代を行う場合に、遺伝子がコピーさ
れるが、その時に様々な要因でエラーが発生する。これ
により、アミノ酸配列等の各配列要素が置き換わり、世
代を重ねるに従って、エラーが積み重なって配列要素が
次々に変化してゆ(。
従って、ある2本のアミノ酸配列間の配列要素を比較す
ることにより、その違いが少ないものは世代が近いか、
fa類関係にあるということがわかり、違いが大きいも
のは世代が離れ親類関係が薄いということがわかるため
、生物間の先祖子孫の関係、兄弟関係等を推測すること
が可能となる。
更に、ある病気に対するワクチン等を製造する場合、次
々に変化するウィルスの遺伝子に対応する核酸配列等の
配列要素を比較し、変化の少ない配列要素を抽出してそ
のウィルスに共通な性質を見つけ、ワクチンの製造に役
立たせることが可能である。
また、既に生物学的特徴がわかっている既知の遺伝子の
配列と、未知の遺伝子の配列とを比較して、配列要素間
の差異を抽出することにより、未知の遺伝子のもつ機能
を推察することも可能である。
以上のように、配列どうしを比較する技術は、多くの技
術分野に応用することが可能である。以下に、2本の配
列の配列要素どうしを比較し、その対応関係を2本の配
列を並行して表現する方法−ごれを配列の並置処理と呼
ぶ−の従来例を示す。
今、第8図(1))に示す2本の配列X、Yの並置処理
を行う場合、x(1)とy (1) 、  x (2)
とy  (2) 、  x (3)とy (3)・・・
というように、各配列要素毎に正確に対応づけがとれる
とは限らず、例えば第8図(b)に示すように対応づけ
を行うのが最適となる場合がある。ここで“−”はギャ
ップ(対応する要素がない状態)を示す。
上記のような対応づけを可能とするために、並置処理を
行う技術が必要となる。そのための手法として、DPマ
ツチング(動的計画法)がある。
今、配列Xの各配列要素x(1)〜x(4)が、各々p
I  q、r、Sという文字であり、同じく配列Yの各
配列要素y(1)〜y(3)が、各々p。
r、  sという文字であるとし、これらの配列X。
YのDPマツチングを考える。
DPマツチングにおいては、配列Xの各要素X(1)〜
x(4)を第9図(alに示すようにi−j座標上のi
軸のi=1.2,3.4に配置し、配列Yの各要素y 
(1)〜y (3)を同じくj軸のj=1.2.3に配
置して、これらの対応関係を同図+alの丸数字で示し
た1番から11番の格子点で表わす。例えば格子点■は
x(2)とy (2)を対応させることを示す。ここで
行うべき処理は、格子点■から始まって格子点■に至る
までの経路を決定することであり、経路が決定できれば
その経路上の格子点から配列X、Yの各配列要素の対応
関係がわかる。
経路を決定するための評価尺度としては、累積距離d 
 (i、j)を用いる。d (i、j)は座標(i、j
)を有する格子点における累積距離を示し、 ・・−・・(1) ここで、 ・・・・・(2) という漸化式で定義される。叩ち、座標(i、j)の格
子点における累積距離d (i、j)は、座標(i−1
,3)の格子点における累積距離d(i−1,3)に距
離1を加算した値、座標(11J−1)の格子点おける
累積比ad (i、j  1)に距alを加算した値、
又は座標(i−1,3−1)の格子点における累積距離
d(i−1,j−1)に距離w (x (i) 、  
y (j) )’を加算した値のうち最小値をとる値と
して定義される。ここで、距%Saw (x (i) 
、  y (j) )は、配列W 素x(i)とy  
(j)がどれくらい非類似かということを示しており、
前記(2)式に示すようにx(i)とy(j)が同じ文
字であればO1異なる文字であれば1という値を有する
。そして前記(1)式において、最小値をとった時に(
1)式の1行目が選択されれば、座標(i−1,3)か
ら座標(i、j)に経路が伸びることを示し、同様に2
行目なら座+!!(i−1,j−1)から座標(i、j
)に経路が伸び、3行目なら座標(i、j−1)から座
標(i、j)に経路が伸びたことを示す。
今、第9図(a)において、x (1) =y (1)
 =pであるから格子点■の累積比i9d l、1)=
1 (初期値)とすると、まず、格子点■、■の各累積
比Fi1td (1,2) 、  d (2,1)は、
前記C11式において各々d (1,2)=d (1,
1)+1゜d (2,1) =d (1,1) +1と
いう場合しかないので、共にその値は1と決まる。更に
、格子点■、■の各累積距離d (1,3)’、d (
3,1)は、各々d (1,3>=d (1,2)+1
.d(3,1)=d  (2,1)+1という場合しか
ないので、共にその値は2と決まる。これにより、同図
(alにおいて経路1.2,3.4が定まる。
この状態で、格子点■の累積距離d  (2,2)を考
えると前記(1)式より、 山(2)、 y(2)う=1 となり、第9図(a)よりd  (1,1)  +w 
(x  (2) 。
y(2))が選択され、第9図(b)に示すように経路
5が定まり、d  (2,2)=1と決まる。
次に、同図(blの状態で格子点■、■の各累積距離d
 (2,3)、d (3,2)を考える。なお、−点鎖
線Tで示す境界は、互いにかけ離れた配列要素どうしが
対応づけられないようにするために、それより外側の格
子点は見ないためのものである。
前記(1)式を用いてd (2,3)、d (3,2)
を計算すると各々、 d(2,3ン =  d(1,2)  輸 (χ (2
)、y  (3))−1+1=2 又は d(2,3) = d(2,2) + 1=1+1=2 及び d(3,2)= d(2,1ン+w (x (3)、y
 C2))=1+0=1 と決まり、第9図(C)に示すように格子点■について
は経路6又は7、格子点■については経路8が定まる。
続いて、同図(C)の状態で格子点■、@lの各累積距
離d (3,3)、d (4,2)を前記(1)式より
求めると各々、 d (3,3) = d (2,2> +w  (x 
(3)、y(3))=1+1=2 又は d (3,3)=d (3,2)+1 =1+1=2 及び d (4,2)=d  (3,2)+1=1+1=2 と決まり、第9図(d)に示すように格子点■について
は経路9又は10、格子点[相]については経路11が
定まる。
最後に、同図(dlの状態で格子点0の累積距離d(4
,3)を前記Tl1式より求めると、d (4,3)=
d(3,2)+ w(x(4) 、 y(3))=1+
0+1 と決まり、第9図(e)に示すように経路12が定まる
以上のようにして、最終的に格子点■、■、■。
■を通る経路2−8−12が定まる。次に、この経路を
格子点■から格子点■に間かって逆にたどって(バック
トラックと呼ぶ、以下同じ)、径路12.8.2上の各
格子点0.■、■、■毎に配列XとYの各配列要素間の
対応づけを行って並置処理を行う。この時、座標(t、
j)の格子点に至る各経路が、座標(i−1,j−1)
の格子点からの経路であれば、座標(i、j)の格子点
における対応関係はx (i)に対してy(j)とし、
座標ロー1.j−1)の格子点からの経路であればギャ
ップ“−“とy(j)を対応させ、座標(i−1,3)
の格子点からの経路であればX(i)とギャップ“−”
を対応させる。
上記の規則に従って第9図(C1のバックトラックを行
うと、得られる並置結果は第8図(b)のようになる。
これを、各要素の文字に置き換えると第8図(C)のよ
うになり、各配列要素の文字どうしがよく対応している
ことがわかる。
〔発明が解決しようとする問題点〕
上記並置方法は、2本の配列の各配列要素の並置を最適
に行うことが可能である。しかし、場合により配列を複
数本同時に比較することが必要になるときがある。例え
ば、あるウィルスが複数の遺伝子構造に変化しうるとし
て、例えば10本の核酸配列が存在する場合に、それら
を同時に比較して共通な性質、叩ち配列要素を見つけた
というような場合がある。
このような場合、第9図で説明した2本の配列に対する
動的計画法による距離最小化の従来の手法を、複数本の
配列に拡張することは原理的には可能ではあるが、第9
図の格子が多次元になってしまうため実用的な計算時間
の観点からそれは不可能に近いという問題点を有してい
た。そこで従来は、2本の配列毎の並置の結果から、人
間の手作業で視察により複数本の同時並置を行っていた
しかし、これは作業者にとって非當に労力を必要とする
という問題点を有していた。
本発明は、上記問題点を解決するために、少ない計算時
間でかつ複数本の配列の同時比較を可能にすることを目
的とする。
〔問題点を解決するための手段〕
第1図に、本発明の機能ブロック図を示す。まず、例え
ば核酸配列データ若しくはアミノ酸配列データであるN
本の対象配列データAI、A21・・・、AHのうち、
例えばA1を初期基準データ群B1  とし、例えば対
象配列データA2との間で並置処理部13において各配
列要素間の並置処理を行う。
この並置処理によって得られた修正基準配列データ群B
T及び修正対象配列データA2’は、基゛字配列データ
群更新部14において新たな基準配列データ群B2に更
新される。
次に、並置処理部13において、再び新たな対象配列デ
ータ、例えばA3を入力し、基準配列データ群更新部1
4で更新された基準配列データ群B2との間で並置処理
が行われる。そして並置処理によって17られた修正基
準配列データ群B2と修正対象配列データA3’は、基
準配列データ群更新部゛14において再び新たな基準配
列データ群B3に更新される。
以上の動作を、新たな対象配列データA。を1本追加し
て並置処理を行う毎に基準配列データ群B?L−1の本
数を1本ずつ増加させてBTLに更新する動作を繰り返
す。
そして、全ての対象配列データA1〜A、に対して並置
処理部13において並置処理を行って得たN本の基準配
列データ群BNをN本の対象配列データ八1〜八〇の並
置結果として出力して、それらを同時比較結果とする。
〔作   用〕
以上の方法に示したように、基準配列データ群と新たな
対象配列データとの並置処理を繰り返し、基準配列デー
タ群の本数を順次増大させてゆくことにより、最終的に
求める並置結果をL7ることができる。
〔実  施  例〕
以下、本発明の実施例につき詳細に説明を行う。
第2図は、本発明の実施例の構成図である。プロセッサ
16にはディスク装置17、メモリ18、及び印刷装置
19が接続され、プロセッサ16は並置処理部20と基
準配列データ群更新部21とからなる。ディスク装f1
7には、N個の対象配列データAn (n=1.2. 
 ・・・、N)が記1.αされる。メモリ18には、デ
ィスク装置17からの初期基準配列データ群B’=A+
、又は基準配列データ群更新部21の出力を保持する。
次に、プロセッサ16の並置処理部20は、ディスク装
置17からの対象配列データAnとメモIJ18からの
基準配列データ群BTL−1との間で並置処理を実行す
る。基準配列データ群更新部21は、並置処理部20で
の実行結果に基づいて、基準配列データ群B1−1を更
新し、メモリ18に保持する。
以上の処理が全ての対象配列データAn(n=2、・・
・、N)に対して終了したら、並置結果BNはディスク
装置17に記憶されるとともに印刷装置19に出力され
印刷される。
上記構成の本実施例の動作につき説明を行う。
まず、以下(Ml〜(e)に第2図の実施例の動作手順
を示す。
処理(al  いま並置を求めるべきN本の対象配列・
 ・ ・ ・(3) が、ディスク装置17に記憶されているとし、これに対
し、n=1.2.  ・・・、Nに関して次元が増大す
る基準配列B″−を ・ ・ ・ ・(4) のようにおく。そしてまず、メモリ18に初期基準配列
データ群B1として、対象配列データA+をセットする
。即ち、 Bl−Δ+ =a +(1)、  a +(21・+。
a +(rrz)  (m+ =rrz)     ・
−−−(51とし、n=2.3.  ・・・、Nについ
て以下の(b)〜(diを繰り返し実行する。
処理(b)  i=1.2 ・・+、=、−、、j=1
.2 ・・・、rnnについて、初期値を d(i、0)=(n−1)* i、 i=o、1. ・
・・、 mw−1d(o、J) =(n−1)* J+
 J= 1+2+ ・・・+ mu・ ・ ・ ・(6
) として、以下の■、■を並置処理部20において実行す
る。
■ 基準配列B L−1とA Hlとのマツチングディ
スク装置17から対象配列データAn、メモリ18から
基準配列データ群B を読み出し、各配列要素に対して
第3図の各格子点(i、j)毎に以下に示す累積距離d
 (i、j)を計算する。
・ ・ ・ ・(7) ここで、′ ・・・・(8) ■ +71. (81式の最小化に従って、第3図22
のように選択された経路をpatt+ (Lj)−(i
−1+j)+(i−1,j−1)、 (i、j−1)の
どれかとして記憶する。なお、path(i、j)=(
i−1,j)は点(i−1,j)から点(1+J)への
経路を示し、path (i、j)=(t−1,j−1
)は点6−t、j−1)から点(i、j)への経路を示
し、path(iJ=(i、j−1)は点(i。
j−1)から点(i、j)への経路を示す。
処理(c)inバスのバンクトランクによるB7Lの作
成 path t、jに従って、第3図の点(mz−1,m
 +、)から(1,1)までバックトランクを行う。こ
のとき初期値を i=myL−+、  j=m、1.  k=1  ・・
・・((1)とし、以下■、■、■の手順を繰り返す。
ただし、i>1.3=tまたはi=1.j>1のときは
(14)式または(12)式を繰り返す。
■ path (i、j ) = (i−1、j−1)
のときに=に+1. 1=i−1,j=j−1・ ・ 
・ (11)■ path (i、j ) = (i 
+j−1)のときに= k+1.  i= I+ J=
 J−1・ ・ ・ (13)■ path (i、j
 ) = (i−1,3)のときに=に+L  1=i
−1+ j=j    ・ ・ ・ (15)上記動作
は、並置処理部20で行う。
処理(dl  基準配列の更新 点(1,1)までバックトランクしたときにに=冨1.
として、kの順番の逆転(1,2,・・・而。
−m n + m@−1,・・・2,1)のあと次式を
得る。
で示される基準配列データ群が得られ、これをメモリ1
8に記憶する。
処理(e)n=Hのとき並置結果BNとして、を出力す
る。
以上、(a)〜(e)の処理の具体例を以下に説明する
今、前記(3)式に対応する対象配列として第4図に示
すような例を考える。
この場合、前記処理(a)における初期基準配列デ−タ
群B1  は、第6図26に示すよう−にAIとする。
次に、前記処理(b)においてn=2として1番目の対
象配列データA2を読み出し、前記処理(blの■でA
2とB1の並置を前記(7)、 +81式に従って行う
。ここで、n=2の場合には前記(7)式は、従来例の
項で説明した(1)式の累積距離計算式に一致する。即
ち、第5図!alに示すようにA2とB1の通常のDP
マツチングとなる。この時、前記処理(b)の■で最小
化に伴う経路を記憶し、これにより、例えば同図(al
の23に示すような経路が得られる。
次に、前記処理(C)に従って第5図(a)の経路23
について、点(5,5)から(1,1)までバックトラ
ンクを行うと、k=1のとき前記(12)。
(13)式、k=2のとき前記(14) 、  (15
)式、k=3のとき前記(10) 、  (11)式と
いうように通用して、第6図27に示すような各b21
  (k) 。
b2z(k)が得られる。
これについて、前記処理(dlにおいてkの順序が逆転
されることにより、前記(16)式に対応する第6図2
8に示すような基準配列データ群B2が得られる。この
B2において、1行目の要素a!(1)、  a + 
(21,・・・は対象配列データΔ1を修正したもので
あり、2行目の要素a 2 (11,a 2 (21゜
・・・は対象配列データ八2を修正したものである。
次に、n=3として前記処理(blに戻り、3番目の対
象配列データA3をディスク装置17がら読み出し、ま
た、メモリ18から基準配列データ群B2を読み出す。
そして前記処理(b)の■で第6図28に示すA3とB
2の並置を前記(7)、 (81式に従って行う。ここ
で、(7)式よりA3の各配列要素と82の1行目及び
2行目の各配列要素との累積距離計算が行われ、それら
の和がd (i、j)となる。叩ち、A3と32の並置
を行うことにより、近似的にA3とA + 、A :+
とA2の並置を行った平均的な結果が得られる。この動
作により、第5図(b)の24に示すような経路が記憶
される。
続いて、前記処理(C)に従って第5図(blの経路2
4について、点(7,6)から(1,1)までバックト
ラックを行うと、前記(10)〜(15)式に従って、
第6図29に示すような各b+(k)。
b32(k) 、  b ]  (k)が得られる。
これについて、前記処理(d)においてkの順序が逆転
されることにより、前記(16)式に対応する第6図3
0に示すような基準配列データ群B3が得られる。この
B において、1行目、2行目の各要素は対象配列デー
タA1及びA2をB2から更に修正したものであり、3
行目は対象配列データA3を修正したものである。この
ようにして得たB は、メモリ18に保持される。
更に、n=4として前記処理(b)に戻り、最後の対象
配列データA4をディスク装置17から読み出し、また
、メモ1月8から基準配列データ群B3を読み出す。そ
して前記処理(b)の■で第6図30に示すA4と83
 の並置を前記(7)、 (81式に従って行う。ここ
で、(7)式よりA4の各配列要素とB3の1行目、2
行目、及び3行目の各配列要素との累積距離計算が行わ
れ、それらの和がd (i、j)となる。すなわち、A
4とB3の並置を行うことにより、近似的にA4と八1
%A4とA2、及びA4とへコの並置を行った平均的な
結果が得られる。この動作により、第5図(C1の25
に示すような経路が記憶される。
続いて、前記処理(clに従って第5図(C)の経路2
5について、点(9,6)から(1,1)までバンクト
ラックを行うと、前記(10)〜(15)式に従って、
第6図31に示すような各b4+(k)。
b42  (k) 、  b÷x(k)、b今4 (k
)が得られる。
これについて、前記処理(d)においてkの順序が逆転
されることにより、前記(16)式に対応する第6図3
2に示すような基準配列データ群B今が得られる。
以上の動作により、全ての対象配列データA1〜A4に
対する並置処理が終了したため、前記処理(elの(1
7)式に対応して、メモリ18がら第6図32のB+が
並置結果としてディスク装置17、及び印刷装置19に
出力される。ここで、第6図32のB+において、1行
目〜4行目の各配列要素は、各々対象配列データA1〜
A4の並匿結果に対応している。
第7図に、配列データとしてエイズウィルスに対するl
1hl−N[L12のアミノ酸配列データ(配列名は参
考)に対して、上記(a)〜(e)の並置処理を行った
結果を示す。アミノ酸の各配列要素の共通部分と異なる
部分が良く対応されていることがわかる。
以上のように本発明では、基準配列データ群と新たな対
象配列データとの並置処理を繰り返し、基準配列データ
群の本数を順次増大させてゆくことにより、最終的に求
める並置結果を得ることができる。
なお、対象配列データA1〜A、を予め配列間の距離の
近い順に並べ°ζおくことにより、適切な並置を行うこ
とができる。
〔発明の効果〕
本発明によれば、複数本の配列に対して少ない計算量で
並置処理を行うことができ、その同時比較が可能となる
【図面の簡単な説明】
第1図は、本発明の機能ブロック図、 第2図は、本発明の実施例の構成図、 第3図は、B とA。のマツチング経路の説明図、 第4図は、対象配列データの例を示した図、第5図(a
)、 (b)、 (C1は、並置処理の説明図、第6図
は、基準配列データ群更新処理の説明図、第7図は、ア
ミノ酸配列データの並置処理の例を示した図、 第8図(11)、 (b)、 IcIは、2つの配列の
並置処理の説明図、 第9図+al、 (bl、 (C1,(d)、 (el
は、DPマツチングの説明図である。 13・・・並置処理部、 14・・・基準配列データ群更新部、 Δ1〜A8・・・対象配列データ、 B1・・・初期基準配列データ群、 B?L“I、B11・・・基準配列データ群゛、BN 
 ・・・並置結果。 At = 0r(I )、 ’+(2)、 O+(3)
、 0L(4)、 O+(5)A 2 = a2 (’
 ) t 02(2) t ’2(3) s 02(4
) s ’2(5) *A3=Os(+ )、 03(
2)、 03(3)l Qs(4)、 03(5)、 
03(6)A4 = (Ls(1)、 04(2)、 
04(3)  0443 04(5) (14(6)之
丁泉西乙り月テ゛′−ダのイブ]乞示しlこ2第4図 (C) 並1又理の祝fJPI図 第5 (b) D碇幅図 図 7v酸西己クリデ°−夕の並1オ吉果のせ’Iを示しに
2第7図 (b) 2つの配列のπ置遡理の誼明図 第8図 (a) (c) DPマツチングの客も8月口 第9図 手続主甫正書 昭和62年12月26日

Claims (1)

  1. 【特許請求の範囲】 1)複数(N)本の対象配列データ(A_1、・・・、
    A_N)のうち1本(A_1)を初期基準配列データ群
    (B^1)とし、該初期基準配列データ群(B^1)と
    他の対象配列データのうち任意の1本(A_2)とで各
    配列要素間の対応づけをして並置処理を行い(13)、 該並置処理によって得られた修正基準配列データ群及び
    修正対象配列データを新たな基準配列データ群(B^n
    )とし、該複数本の基準配列データ群(B^n^−^1
    )と他の対象配列データのうち任意の新たな1本の対象
    配列データ(A_n)とで、各配列要素間の対応づけを
    して並置処理を行い(13)、該並置処理を新たな対象
    配列データを1本追加して並置処理を行う毎に基準配列
    データ群の本数を1本ずつ増加させながら繰り返し、 全ての対象配列データに対して前記並置処理を行って得
    られた複数本の基準配列データ群を前記複数本の対象配
    列データの並置結果(B^N)として出力することより
    、それらの同時比較を行うことを特徴とする複数配列同
    時比較方法。 2)前記並置処理は、前記初期基準配列データ群又は前
    記基準配列データ群と前記対象配列データの各配列要素
    間のDPマッチングによる対応づけで行われ、 前記基準配列データ群と前記対象配列データのDPマッ
    チング時のパス設定時の距離計算を、前記対象配列デー
    タの各配列要素と前記基準配列データ群の各基準配列デ
    ータの対応する配列要素との間の距離の和として計算す
    ることより行うことを特徴とする特許請求の範囲第1項
    記載の複数配列同時比較方法。 3)前記複数本の対象配列データに対する並置処理は、
    該複数本の対象配列データを予め各配列間の距離の近い
    順に並べてから行われることを特徴とする特許請求の範
    囲第1項又は第2項のいずれか1項に記載の複数配列同
    時比較方法。 4)前記複数本の対象配列データは核酸配列データ若し
    くはアミノ酸配列データであることを特徴とする特許請
    求の範囲第1項から第3項のいずれか1項に記載の複数
    配列同時比較方法。
JP62296219A 1987-11-26 1987-11-26 複数配列同時比較方法 Pending JPH01140229A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62296219A JPH01140229A (ja) 1987-11-26 1987-11-26 複数配列同時比較方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62296219A JPH01140229A (ja) 1987-11-26 1987-11-26 複数配列同時比較方法

Publications (1)

Publication Number Publication Date
JPH01140229A true JPH01140229A (ja) 1989-06-01

Family

ID=17830719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62296219A Pending JPH01140229A (ja) 1987-11-26 1987-11-26 複数配列同時比較方法

Country Status (1)

Country Link
JP (1) JPH01140229A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02269951A (ja) * 1988-09-01 1990-11-05 E I Du Pont De Nemours & Co スペクトル同定方法
JPH105000A (ja) * 1996-06-27 1998-01-13 Hitachi Ltd Dnaアミノ酸配列比較方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A GENERAL METHOD APPLICABLE TO THE SEARCH FOR SIMILARITIES IN THE AMINO ACID SEQUENCCE OF TEO PROTEINS=1970 *
JOURNAL OF MOLECULAR BIOLOGY=1987 *
PROGRESSIVE SEQUENCE ALIGNMENT AS A PREREQUISITE TO CORRECT PHTYULOGENETIC TREES=1987 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02269951A (ja) * 1988-09-01 1990-11-05 E I Du Pont De Nemours & Co スペクトル同定方法
JPH105000A (ja) * 1996-06-27 1998-01-13 Hitachi Ltd Dnaアミノ酸配列比較方法

Similar Documents

Publication Publication Date Title
US10600217B2 (en) Methods for the graphical representation of genomic sequence data
Benson et al. Reconstructing the duplication history of a tandem repeat.
JP2673091B2 (ja) トークン列データベースにおけるトークンシーケンスの探索
Benson Sequence alignment with tandem duplication
US7584173B2 (en) Edit distance string search
WO2015094854A1 (en) Iterative clustering of sequence reads for error correction
US8965935B2 (en) Sequence matching algorithm
JPH01140229A (ja) 複数配列同時比較方法
Zhao et al. Multitrans: an algorithm for path extraction through mixed integer linear programming for transcriptome assembly
Burleigh et al. MRF supertrees
Vingron et al. Multiple sequence comparison and consistency on multipartite graphs
JPWO2020070307A5 (ja)
JPWO2004068398A1 (ja) Dnaコンピュータ及びそれを用いた計算方法
JP2664686B2 (ja) 複数配列同時比較方法
Sim et al. Approximate periods of strings
JP5441189B2 (ja) モチーフ探索方法およびモチーフ探索装置
Li et al. Seeding with minimized subsequence
Willson Unique reconstruction of tree-like phylogenetic networks from distances between leaves
KR102380935B1 (ko) 유전체 영역 검색 시스템 및 방법
El-Mabrouk et al. Approximate matching of secondary structures
CN116343923B (zh) 一种基因组结构变异同源性识别方法
US20230154570A1 (en) Data processing system for processing gene sequencing data
Menolascina et al. A multi-objective genetic algorithm based approach to the optimization of oligonucleotide microarray production process
Behboodi et al. Fast and Accurate Genomic Minisatellites Disclosure
JP3723767B2 (ja) 生物学的な配列情報処理方法および装置