JPH01140229A

JPH01140229A - 複数配列同時比較方法

Info

Publication number: JPH01140229A
Application number: JP62296219A
Authority: JP
Inventors: Koji Tajima; 田嶋　耕治; Hirofumi Doi; 洋文土居
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1987-11-26
Filing date: 1987-11-26
Publication date: 1989-06-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概　　　要〕ＤＮＡやアミノ酸配列データ等の複数の配列データを同
時に比較するための複数配列同時比較方法に関し、少ない計算時間でかつ複数本の配列の同時比較を可能に
することを目的とし、複数本の対象配列データのうち１本を初期基準配列デー
タ群とし、該初期基準配列データ群と他の対象配列デー
タのうち任意の１本とで各配列要素間の対応づけをして
並置処理を行い、該並置処理によって得られた修正基準
配列データ群及び修正対象配列データを新たな基準配列
データ群とし、該複数本の基準配列データ群と他の対象
配列データのうち任意の新たな１本の対象配列データと
で、各配列要素間の対応づけをして並置処理を行い、該
並置処理を新たな対象配列データを１本追加して並置処
理を行う毎に基準配列データ群の本数を１本ずつ増加さ
せながら繰り返し、全ての対象配列データに対して前記
並置処理を行って得られた複数本の基準配列データ群を
前記複数本の対象配列データの並置結果として出力する
ことより、それらの同時比較を行うように構成する。

〔産業上の利用分野〕

本発明は、ＤＮＡやアミノ酸配列データ等の複数の配列
データを同時に比較するための複数配列同時比較方法に
関する。

〔従来の技術〕

ある２本の配列が争えられた場合に、２本の配列の各配
列要素間の対応づけを行う処理方法は、様々な産業分野
に応用することが可能である。

例えば、音声認識の分野においては、入力音声の音声情
報列を予め登録しておいた音声情報列の標準パターンと
対応づけを行うことにより、入力音声が何であるかを認
識することができる。

一方、分子生物学の分野においては、遺伝子の生物学的
機能の解明のために、ＤＮＡの核酸配列やアミノ酸配列
を互いに比較することが行われる。

即ち、生物が世代交代を行う場合に、遺伝子がコピーさ
れるが、その時に様々な要因でエラーが発生する。これ
により、アミノ酸配列等の各配列要素が置き換わり、世
代を重ねるに従って、エラーが積み重なって配列要素が
次々に変化してゆ（。

従って、ある２本のアミノ酸配列間の配列要素を比較す
ることにより、その違いが少ないものは世代が近いか、
ｆａ類関係にあるということがわかり、違いが大きいも
のは世代が離れ親類関係が薄いということがわかるため
、生物間の先祖子孫の関係、兄弟関係等を推測すること
が可能となる。

更に、ある病気に対するワクチン等を製造する場合、次
々に変化するウィルスの遺伝子に対応する核酸配列等の
配列要素を比較し、変化の少ない配列要素を抽出してそ
のウィルスに共通な性質を見つけ、ワクチンの製造に役
立たせることが可能である。

また、既に生物学的特徴がわかっている既知の遺伝子の
配列と、未知の遺伝子の配列とを比較して、配列要素間
の差異を抽出することにより、未知の遺伝子のもつ機能
を推察することも可能である。

以上のように、配列どうしを比較する技術は、多くの技
術分野に応用することが可能である。以下に、２本の配
列の配列要素どうしを比較し、その対応関係を２本の配
列を並行して表現する方法−ごれを配列の並置処理と呼
ぶ−の従来例を示す。

今、第８図（１））に示す２本の配列Ｘ、Ｙの並置処理
を行う場合、ｘ（１）とｙ　（１）　、　　ｘ　（２）
とｙ　　（２）　、　　ｘ　（３）とｙ　（３）・・・
というように、各配列要素毎に正確に対応づけがとれる
とは限らず、例えば第８図（ｂ）に示すように対応づけ
を行うのが最適となる場合がある。ここで“−”はギャ
ップ（対応する要素がない状態）を示す。

上記のような対応づけを可能とするために、並置処理を
行う技術が必要となる。そのための手法として、ＤＰマ
ツチング（動的計画法）がある。

今、配列Ｘの各配列要素ｘ（１）〜ｘ（４）が、各々ｐ
Ｉ　　ｑ、ｒ、Ｓという文字であり、同じく配列Ｙの各
配列要素ｙ（１）〜ｙ（３）が、各々ｐ。

ｒ、　　ｓという文字であるとし、これらの配列Ｘ。

ＹのＤＰマツチングを考える。

ＤＰマツチングにおいては、配列Ｘの各要素Ｘ（１）〜
ｘ（４）を第９図（ａｌに示すようにｉ−ｊ座標上のｉ
軸のｉ＝１．２，３．４に配置し、配列Ｙの各要素ｙ　
（１）〜ｙ　（３）を同じくｊ軸のｊ＝１．２．３に配
置して、これらの対応関係を同図＋ａｌの丸数字で示し
た１番から１１番の格子点で表わす。例えば格子点■は
ｘ（２）とｙ　（２）を対応させることを示す。ここで
行うべき処理は、格子点■から始まって格子点■に至る
までの経路を決定することであり、経路が決定できれば
その経路上の格子点から配列Ｘ、Ｙの各配列要素の対応
関係がわかる。

経路を決定するための評価尺度としては、累積距離ｄ　
　（ｉ、ｊ）を用いる。ｄ　（ｉ、ｊ）は座標（ｉ、ｊ
）を有する格子点における累積距離を示し、・・−・・（１）ここで、・・・・・（２）という漸化式で定義される。叩ち、座標（ｉ、ｊ）の格
子点における累積距離ｄ　（ｉ、ｊ）は、座標（ｉ−１
，３）の格子点における累積距離ｄ（ｉ−１，３）に距
離１を加算した値、座標（１１Ｊ−１）の格子点おける
累積比ａｄ　（ｉ、ｊ　　１）に距ａｌを加算した値、
又は座標（ｉ−１，３−１）の格子点における累積距離
ｄ（ｉ−１，ｊ−１）に距離ｗ　（ｘ　（ｉ）　、　　
ｙ　（ｊ）　）’を加算した値のうち最小値をとる値と
して定義される。ここで、距％Ｓａｗ　（ｘ　（ｉ）　
、　　ｙ　（ｊ）　）は、配列Ｗ　素ｘ（ｉ）とｙ　　
（ｊ）がどれくらい非類似かということを示しており、
前記（２）式に示すようにｘ（ｉ）とｙ（ｊ）が同じ文
字であればＯ１異なる文字であれば１という値を有する
。そして前記（１）式において、最小値をとった時に（
１）式の１行目が選択されれば、座標（ｉ−１，３）か
ら座標（ｉ、ｊ）に経路が伸びることを示し、同様に２
行目なら座＋！！（ｉ−１，ｊ−１）から座標（ｉ、ｊ
）に経路が伸び、３行目なら座標（ｉ、ｊ−１）から座
標（ｉ、ｊ）に経路が伸びたことを示す。

今、第９図（ａ）において、ｘ　（１）　＝ｙ　（１）
　＝ｐであるから格子点■の累積比ｉ９ｄ　ｌ、１）＝
１　（初期値）とすると、まず、格子点■、■の各累積
比Ｆｉ１ｔｄ　（１，２）　、　　ｄ　（２，１）は、
前記Ｃ１１式において各々ｄ　（１，２）＝ｄ　（１，
１）＋１゜ｄ　（２，１）　＝ｄ　（１，１）　＋１と
いう場合しかないので、共にその値は１と決まる。更に
、格子点■、■の各累積距離ｄ　（１，３）’、ｄ　（
３，１）は、各々ｄ　（１，３＞＝ｄ　（１，２）＋１
．ｄ（３，１）＝ｄ　　（２，１）＋１という場合しか
ないので、共にその値は２と決まる。これにより、同図
（ａｌにおいて経路１．２，３．４が定まる。

この状態で、格子点■の累積距離ｄ　　（２，２）を考
えると前記（１）式より、山（２）、　ｙ（２）う＝１となり、第９図（ａ）よりｄ　　（１，１）　　＋ｗ　
（ｘ　　（２）　。

ｙ（２））が選択され、第９図（ｂ）に示すように経路
５が定まり、ｄ　　（２，２）＝１と決まる。

次に、同図（ｂｌの状態で格子点■、■の各累積距離ｄ
　（２，３）、ｄ　（３，２）を考える。なお、−点鎖
線Ｔで示す境界は、互いにかけ離れた配列要素どうしが
対応づけられないようにするために、それより外側の格
子点は見ないためのものである。

前記（１）式を用いてｄ　（２，３）、ｄ　（３，２）
を計算すると各々、ｄ（２，３ン　＝　　ｄ（１，２）　　輸　（χ　（２
）、ｙ　　（３））−１＋１＝２又はｄ（２，３）　＝　ｄ（２，２）　＋　１＝１＋１＝２及びｄ（３，２）＝　ｄ（２，１ン＋ｗ　（ｘ　（３）、ｙ
　Ｃ２））＝１＋０＝１と決まり、第９図（Ｃ）に示すように格子点■について
は経路６又は７、格子点■については経路８が定まる。

続いて、同図（Ｃ）の状態で格子点■、＠ｌの各累積距
離ｄ　（３，３）、ｄ　（４，２）を前記（１）式より
求めると各々、ｄ　（３，３）　＝　ｄ　（２，２＞　＋ｗ　　（ｘ　
（３）、ｙ（３））＝１＋１＝２又はｄ　（３，３）＝ｄ　（３，２）＋１＝１＋１＝２及びｄ　（４，２）＝ｄ　　（３，２）＋１＝１＋１＝２と決まり、第９図（ｄ）に示すように格子点■について
は経路９又は１０、格子点［相］については経路１１が
定まる。

最後に、同図（ｄｌの状態で格子点０の累積距離ｄ（４
，３）を前記Ｔｌ１式より求めると、ｄ　（４，３）＝
ｄ（３，２）＋　ｗ（ｘ（４）　、　ｙ（３））＝１＋
０＋１と決まり、第９図（ｅ）に示すように経路１２が定まる
。

以上のようにして、最終的に格子点■、■、■。

■を通る経路２−８−１２が定まる。次に、この経路を
格子点■から格子点■に間かって逆にたどって（バック
トラックと呼ぶ、以下同じ）、径路１２．８．２上の各
格子点０．■、■、■毎に配列ＸとＹの各配列要素間の
対応づけを行って並置処理を行う。この時、座標（ｔ、
ｊ）の格子点に至る各経路が、座標（ｉ−１，ｊ−１）
の格子点からの経路であれば、座標（ｉ、ｊ）の格子点
における対応関係はｘ　（ｉ）に対してｙ（ｊ）とし、
座標ロー１．ｊ−１）の格子点からの経路であればギャ
ップ“−“とｙ（ｊ）を対応させ、座標（ｉ−１，３）
の格子点からの経路であればＸ（ｉ）とギャップ“−”
を対応させる。

上記の規則に従って第９図（Ｃ１のバックトラックを行
うと、得られる並置結果は第８図（ｂ）のようになる。

これを、各要素の文字に置き換えると第８図（Ｃ）のよ
うになり、各配列要素の文字どうしがよく対応している
ことがわかる。

〔発明が解決しようとする問題点〕

上記並置方法は、２本の配列の各配列要素の並置を最適
に行うことが可能である。しかし、場合により配列を複
数本同時に比較することが必要になるときがある。例え
ば、あるウィルスが複数の遺伝子構造に変化しうるとし
て、例えば１０本の核酸配列が存在する場合に、それら
を同時に比較して共通な性質、叩ち配列要素を見つけた
というような場合がある。

このような場合、第９図で説明した２本の配列に対する
動的計画法による距離最小化の従来の手法を、複数本の
配列に拡張することは原理的には可能ではあるが、第９
図の格子が多次元になってしまうため実用的な計算時間
の観点からそれは不可能に近いという問題点を有してい
た。そこで従来は、２本の配列毎の並置の結果から、人
間の手作業で視察により複数本の同時並置を行っていた
。

しかし、これは作業者にとって非當に労力を必要とする
という問題点を有していた。

本発明は、上記問題点を解決するために、少ない計算時
間でかつ複数本の配列の同時比較を可能にすることを目
的とする。

〔問題点を解決するための手段〕

第１図に、本発明の機能ブロック図を示す。まず、例え
ば核酸配列データ若しくはアミノ酸配列データであるＮ
本の対象配列データＡＩ、Ａ２１・・・、ＡＨのうち、
例えばＡ１を初期基準データ群Ｂ１　　とし、例えば対
象配列データＡ２との間で並置処理部１３において各配
列要素間の並置処理を行う。

この並置処理によって得られた修正基準配列データ群Ｂ
Ｔ及び修正対象配列データＡ２’は、基゛字配列データ
群更新部１４において新たな基準配列データ群Ｂ２に更
新される。

次に、並置処理部１３において、再び新たな対象配列デ
ータ、例えばＡ３を入力し、基準配列データ群更新部１
４で更新された基準配列データ群Ｂ２との間で並置処理
が行われる。そして並置処理によって１７られた修正基
準配列データ群Ｂ２と修正対象配列データＡ３’は、基
準配列データ群更新部゛１４において再び新たな基準配
列データ群Ｂ３に更新される。

以上の動作を、新たな対象配列データＡ。を１本追加し
て並置処理を行う毎に基準配列データ群Ｂ？Ｌ−１の本
数を１本ずつ増加させてＢＴＬに更新する動作を繰り返
す。

そして、全ての対象配列データＡ１〜Ａ、に対して並置
処理部１３において並置処理を行って得たＮ本の基準配
列データ群ＢＮをＮ本の対象配列データ八１〜八〇の並
置結果として出力して、それらを同時比較結果とする。

〔作　　　用〕

以上の方法に示したように、基準配列データ群と新たな
対象配列データとの並置処理を繰り返し、基準配列デー
タ群の本数を順次増大させてゆくことにより、最終的に
求める並置結果をＬ７ることができる。

〔実　　施　　例〕

以下、本発明の実施例につき詳細に説明を行う。

第２図は、本発明の実施例の構成図である。プロセッサ
１６にはディスク装置１７、メモリ１８、及び印刷装置
１９が接続され、プロセッサ１６は並置処理部２０と基
準配列データ群更新部２１とからなる。ディスク装ｆ１
７には、Ｎ個の対象配列データＡｎ　（ｎ＝１．２．　
　・・・、Ｎ）が記１．αされる。メモリ１８には、デ
ィスク装置１７からの初期基準配列データ群Ｂ’＝Ａ＋
、又は基準配列データ群更新部２１の出力を保持する。

次に、プロセッサ１６の並置処理部２０は、ディスク装
置１７からの対象配列データＡｎとメモＩＪ１８からの
基準配列データ群ＢＴＬ−１との間で並置処理を実行す
る。基準配列データ群更新部２１は、並置処理部２０で
の実行結果に基づいて、基準配列データ群Ｂ１−１を更
新し、メモリ１８に保持する。

以上の処理が全ての対象配列データＡｎ（ｎ＝２、・・
・、Ｎ）に対して終了したら、並置結果ＢＮはディスク
装置１７に記憶されるとともに印刷装置１９に出力され
印刷される。

上記構成の本実施例の動作につき説明を行う。

まず、以下（Ｍｌ〜（ｅ）に第２図の実施例の動作手順
を示す。

処理（ａｌ　　いま並置を求めるべきＮ本の対象配列・
　・　・　・（３）が、ディスク装置１７に記憶されているとし、これに対
し、ｎ＝１．２．　　・・・、Ｎに関して次元が増大す
る基準配列Ｂ″−を・　・　・　・（４）のようにおく。そしてまず、メモリ１８に初期基準配列
データ群Ｂ１として、対象配列データＡ＋をセットする
。即ち、Ｂｌ−Δ＋　＝ａ　＋（１）、　　ａ　＋（２１・＋。

ａ　＋（ｒｒｚ）　　（ｍ＋　＝ｒｒｚ）　　　　　・
−−−（５１とし、ｎ＝２．３．　　・・・、Ｎについ
て以下の（ｂ）〜（ｄｉを繰り返し実行する。

処理（ｂ）　　ｉ＝１．２　・・＋、＝、−、、ｊ＝１
．２　・・・、ｒｎｎについて、初期値をｄ（ｉ、０）＝（ｎ−１）＊　ｉ、　ｉ＝ｏ、１．　・
・・、　ｍｗ−１ｄ（ｏ、Ｊ）　＝（ｎ−１）＊　Ｊ＋
　Ｊ＝　１＋２＋　・・・＋　ｍｕ・　・　・　・（６
）として、以下の■、■を並置処理部２０において実行す
る。

■　基準配列Ｂ　Ｌ−１とＡ　Ｈｌとのマツチングディ
スク装置１７から対象配列データＡｎ、メモリ１８から
基準配列データ群Ｂ　を読み出し、各配列要素に対して
第３図の各格子点（ｉ、ｊ）毎に以下に示す累積距離ｄ
　（ｉ、ｊ）を計算する。

・　・　・　・（７）ここで、′ ・・・・（８） ■　＋７１．　（８１式の最小化に従って、第３図２２
のように選択された経路をｐａｔｔ＋　（Ｌｊ）−（ｉ
−１＋ｊ）＋（ｉ−１，ｊ−１）、　（ｉ、ｊ−１）の
どれかとして記憶する。なお、ｐａｔｈ（ｉ、ｊ）＝（
ｉ−１，ｊ）は点（ｉ−１，ｊ）から点（１＋Ｊ）への
経路を示し、ｐａｔｈ　（ｉ、ｊ）＝（ｔ−１，ｊ−１
）は点６−ｔ、ｊ−１）から点（ｉ、ｊ）への経路を示
し、ｐａｔｈ（ｉＪ＝（ｉ、ｊ−１）は点（ｉ。

ｊ−１）から点（ｉ、ｊ）への経路を示す。

処理（ｃ）ｉｎバスのバンクトランクによるＢ７Ｌの作
成ｐａｔｈ　ｔ、ｊに従って、第３図の点（ｍｚ−１，ｍ
　＋、）から（１，１）までバックトランクを行う。こ
のとき初期値をｉ＝ｍｙＬ−＋、　　ｊ＝ｍ、１．　　ｋ＝１　　・・
・・（（１）とし、以下■、■、■の手順を繰り返す。

ただし、ｉ＞１．３＝ｔまたはｉ＝１．ｊ＞１のときは
（１４）式または（１２）式を繰り返す。

■　ｐａｔｈ　（ｉ、ｊ　）　＝　（ｉ−１、ｊ−１）
のときに＝に＋１．　１＝ｉ−１，ｊ＝ｊ−１・　・　
・　（１１）■　ｐａｔｈ　（ｉ、ｊ　）　＝　（ｉ　
＋ｊ−１）のときに＝　ｋ＋１．　　ｉ＝　Ｉ＋　Ｊ＝
　Ｊ−１・　・　・　（１３）■　ｐａｔｈ　（ｉ、ｊ
　）　＝　（ｉ−１，３）のときに＝に＋Ｌ　　１＝ｉ
−１＋　ｊ＝ｊ　　　　・　・　・　（１５）上記動作
は、並置処理部２０で行う。

処理（ｄｌ　　基準配列の更新点（１，１）までバックトランクしたときにに＝冨１．
として、ｋの順番の逆転（１，２，・・・而。

−ｍ　ｎ　＋　ｍ＠−１，・・・２，１）のあと次式を
得る。

で示される基準配列データ群が得られ、これをメモリ１
８に記憶する。

処理（ｅ）ｎ＝Ｈのとき並置結果ＢＮとして、を出力す
る。

以上、（ａ）〜（ｅ）の処理の具体例を以下に説明する
。

今、前記（３）式に対応する対象配列として第４図に示
すような例を考える。

この場合、前記処理（ａ）における初期基準配列デ−タ
群Ｂ１　　は、第６図２６に示すよう−にＡＩとする。

次に、前記処理（ｂ）においてｎ＝２として１番目の対
象配列データＡ２を読み出し、前記処理（ｂｌの■でＡ
２とＢ１の並置を前記（７）、　＋８１式に従って行う
。ここで、ｎ＝２の場合には前記（７）式は、従来例の
項で説明した（１）式の累積距離計算式に一致する。即
ち、第５図！ａｌに示すようにＡ２とＢ１の通常のＤＰ
マツチングとなる。この時、前記処理（ｂ）の■で最小
化に伴う経路を記憶し、これにより、例えば同図（ａｌ
の２３に示すような経路が得られる。

次に、前記処理（Ｃ）に従って第５図（ａ）の経路２３
について、点（５，５）から（１，１）までバックトラ
ンクを行うと、ｋ＝１のとき前記（１２）。

（１３）式、ｋ＝２のとき前記（１４）　、　　（１５
）式、ｋ＝３のとき前記（１０）　、　　（１１）式と
いうように通用して、第６図２７に示すような各ｂ２１
　　（ｋ）　。

ｂ２ｚ（ｋ）が得られる。

これについて、前記処理（ｄｌにおいてｋの順序が逆転
されることにより、前記（１６）式に対応する第６図２
８に示すような基準配列データ群Ｂ２が得られる。この
Ｂ２において、１行目の要素ａ！（１）、　　ａ　＋　
（２１，・・・は対象配列データΔ１を修正したもので
あり、２行目の要素ａ　２　（１１，ａ　２　（２１゜
・・・は対象配列データ八２を修正したものである。

次に、ｎ＝３として前記処理（ｂｌに戻り、３番目の対
象配列データＡ３をディスク装置１７がら読み出し、ま
た、メモリ１８から基準配列データ群Ｂ２を読み出す。

そして前記処理（ｂ）の■で第６図２８に示すＡ３とＢ
２の並置を前記（７）、　（８１式に従って行う。ここ
で、（７）式よりＡ３の各配列要素と８２の１行目及び
２行目の各配列要素との累積距離計算が行われ、それら
の和がｄ　（ｉ、ｊ）となる。叩ち、Ａ３と３２の並置
を行うことにより、近似的にＡ３とＡ　＋　、Ａ　：＋
とＡ２の並置を行った平均的な結果が得られる。この動
作により、第５図（ｂ）の２４に示すような経路が記憶
される。

続いて、前記処理（Ｃ）に従って第５図（ｂｌの経路２
４について、点（７，６）から（１，１）までバックト
ラックを行うと、前記（１０）〜（１５）式に従って、
第６図２９に示すような各ｂ＋（ｋ）。

ｂ３２（ｋ）　、　　ｂ　］　　（ｋ）が得られる。

これについて、前記処理（ｄ）においてｋの順序が逆転
されることにより、前記（１６）式に対応する第６図３
０に示すような基準配列データ群Ｂ３が得られる。この
Ｂ　において、１行目、２行目の各要素は対象配列デー
タＡ１及びＡ２をＢ２から更に修正したものであり、３
行目は対象配列データＡ３を修正したものである。この
ようにして得たＢ　は、メモリ１８に保持される。

更に、ｎ＝４として前記処理（ｂ）に戻り、最後の対象
配列データＡ４をディスク装置１７から読み出し、また
、メモ１月８から基準配列データ群Ｂ３を読み出す。そ
して前記処理（ｂ）の■で第６図３０に示すＡ４と８３
　の並置を前記（７）、　（８１式に従って行う。ここ
で、（７）式よりＡ４の各配列要素とＢ３の１行目、２
行目、及び３行目の各配列要素との累積距離計算が行わ
れ、それらの和がｄ　（ｉ、ｊ）となる。すなわち、Ａ
４とＢ３の並置を行うことにより、近似的にＡ４と八１
％Ａ４とＡ２、及びＡ４とへコの並置を行った平均的な
結果が得られる。この動作により、第５図（Ｃ１の２５
に示すような経路が記憶される。

続いて、前記処理（ｃｌに従って第５図（Ｃ）の経路２
５について、点（９，６）から（１，１）までバンクト
ラックを行うと、前記（１０）〜（１５）式に従って、
第６図３１に示すような各ｂ４＋（ｋ）。

ｂ４２　　（ｋ）　、　　ｂ÷ｘ（ｋ）、ｂ今４　（ｋ
）が得られる。

これについて、前記処理（ｄ）においてｋの順序が逆転
されることにより、前記（１６）式に対応する第６図３
２に示すような基準配列データ群Ｂ今が得られる。

以上の動作により、全ての対象配列データＡ１〜Ａ４に
対する並置処理が終了したため、前記処理（ｅｌの（１
７）式に対応して、メモリ１８がら第６図３２のＢ＋が
並置結果としてディスク装置１７、及び印刷装置１９に
出力される。ここで、第６図３２のＢ＋において、１行
目〜４行目の各配列要素は、各々対象配列データＡ１〜
Ａ４の並匿結果に対応している。

第７図に、配列データとしてエイズウィルスに対するｌ
１ｈｌ−Ｎ［Ｌ１２のアミノ酸配列データ（配列名は参
考）に対して、上記（ａ）〜（ｅ）の並置処理を行った
結果を示す。アミノ酸の各配列要素の共通部分と異なる
部分が良く対応されていることがわかる。

以上のように本発明では、基準配列データ群と新たな対
象配列データとの並置処理を繰り返し、基準配列データ
群の本数を順次増大させてゆくことにより、最終的に求
める並置結果を得ることができる。

なお、対象配列データＡ１〜Ａ、を予め配列間の距離の
近い順に並べ°ζおくことにより、適切な並置を行うこ
とができる。

〔発明の効果〕

本発明によれば、複数本の配列に対して少ない計算量で
並置処理を行うことができ、その同時比較が可能となる
。

【図面の簡単な説明】

第１図は、本発明の機能ブロック図、第２図は、本発明の実施例の構成図、第３図は、Ｂ　とＡ。のマツチング経路の説明図、第４図は、対象配列データの例を示した図、第５図（ａ
）、　（ｂ）、　（Ｃ１は、並置処理の説明図、第６図
は、基準配列データ群更新処理の説明図、第７図は、ア
ミノ酸配列データの並置処理の例を示した図、第８図（１１）、　（ｂ）、　ＩｃＩは、２つの配列の
並置処理の説明図、第９図＋ａｌ、　（ｂｌ、　（Ｃ１，（ｄ）、　（ｅｌ
は、ＤＰマツチングの説明図である。１３・・・並置処理部、１４・・・基準配列データ群更新部、 Δ１〜Ａ８・・・対象配列データ、Ｂ１・・・初期基準配列データ群、Ｂ？Ｌ“Ｉ、Ｂ１１・・・基準配列データ群゛、ＢＮ　
　・・・並置結果。Ａｔ　＝　０ｒ（Ｉ　）、　’＋（２）、　Ｏ＋（３）
、　０Ｌ（４）、　Ｏ＋（５）Ａ　２　＝　ａ２　（’
　）　ｔ　０２（２）　ｔ　’２（３）　ｓ　０２（４
）　ｓ　’２（５）　＊Ａ３＝Ｏｓ（＋　）、　０３（
２）、　０３（３）ｌ　Ｑｓ（４）、　０３（５）、　
０３（６）Ａ４　＝　（Ｌｓ（１）、　０４（２）、　
０４（３）　　０４４３　０４（５）　（１４（６）之
丁泉西乙り月テ゛′−ダのイブ］乞示しｌこ２第４図（Ｃ）並１又理の祝ｆＪＰＩ図第５（ｂ）Ｄ碇幅図図７ｖ酸西己クリデ°−夕の並１オ吉果のせ’Ｉを示しに
２第７図（ｂ）２つの配列のπ置遡理の誼明図第８図（ａ）（ｃ）ＤＰマツチングの客も８月口第９図手続主甫正書昭和６２年１２月２６日

Claims

【特許請求の範囲】１）複数（Ｎ）本の対象配列データ（Ａ＿１、・・・、
Ａ＿Ｎ）のうち１本（Ａ＿１）を初期基準配列データ群
（Ｂ＾１）とし、該初期基準配列データ群（Ｂ＾１）と
他の対象配列データのうち任意の１本（Ａ＿２）とで各
配列要素間の対応づけをして並置処理を行い（１３）、該並置処理によって得られた修正基準配列データ群及び
修正対象配列データを新たな基準配列データ群（Ｂ＾ｎ
）とし、該複数本の基準配列データ群（Ｂ＾ｎ＾−＾１
）と他の対象配列データのうち任意の新たな１本の対象
配列データ（Ａ＿ｎ）とで、各配列要素間の対応づけを
して並置処理を行い（１３）、該並置処理を新たな対象
配列データを１本追加して並置処理を行う毎に基準配列
データ群の本数を１本ずつ増加させながら繰り返し、全ての対象配列データに対して前記並置処理を行って得
られた複数本の基準配列データ群を前記複数本の対象配
列データの並置結果（Ｂ＾Ｎ）として出力することより
、それらの同時比較を行うことを特徴とする複数配列同
時比較方法。２）前記並置処理は、前記初期基準配列データ群又は前
記基準配列データ群と前記対象配列データの各配列要素
間のＤＰマッチングによる対応づけで行われ、前記基準配列データ群と前記対象配列データのＤＰマッ
チング時のパス設定時の距離計算を、前記対象配列デー
タの各配列要素と前記基準配列データ群の各基準配列デ
ータの対応する配列要素との間の距離の和として計算す
ることより行うことを特徴とする特許請求の範囲第１項
記載の複数配列同時比較方法。３）前記複数本の対象配列データに対する並置処理は、
該複数本の対象配列データを予め各配列間の距離の近い
順に並べてから行われることを特徴とする特許請求の範
囲第１項又は第２項のいずれか１項に記載の複数配列同
時比較方法。４）前記複数本の対象配列データは核酸配列データ若し
くはアミノ酸配列データであることを特徴とする特許請
求の範囲第１項から第３項のいずれか１項に記載の複数
配列同時比較方法。