JPH10334104A

JPH10334104A - Ｄｎａ塩基配列比較方法

Info

Publication number: JPH10334104A
Application number: JP10053102A
Authority: JP
Inventors: Keiichi Nagai; 啓一永井; Ryotaro Irie; 亮太郎入江; Susumu Hiraoka; 進平岡; Naoko Kasahara; 直子笠原
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-03-31
Filing date: 1998-03-05
Publication date: 1998-12-18
Anticipated expiration: 2018-03-05
Also published as: JP3395633B2

Abstract

(57)【要約】【課題】２つのＤＮＡ塩基配列に挿入、欠失が存在す
る場合にも、翻訳アミノ酸配列を介在させて類似度の比
較が可能なＤＮＡ塩基配列比較方法を提供する。【解決手段】検索ＤＮＡ塩基配列、データベースから
読み出したＤＮＡ塩基配列を各々アミノ酸配列に翻訳し
（３０４、３０６）、塩基、アミノ酸の挿入、欠失を考
慮して翻訳アミノ酸配列の間での類似度を算出し、動的
計画法によるスコア総計の演算（３０７）を実行し、比
較検索の結果得られた上位スコア総計を与える２つの翻
訳アミノ酸配列に対する、動的計画法による上位スコア
総計及び経路の演算（３１２）と、スコア総計の最大値
を与える経路のトレース演算（３１３）とを実行して、
翻訳アミノ酸配列間での並置結果をＤＮＡ塩基配列の並
置と併せて表示する。【効果】検索の感度が向上する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＤＮＡ塩基配列比
較方法、検索方法に関し、特にＤＮＡ塩基配列の間での
類似度を感度良く検出する方法、及びＤＮＡ塩基配列が
コードするアミノ酸配列の推定法に関する。

【０００２】

【従来の技術】近年、様々な生物のＤＮＡ塩基配列を決
定し、ＤＮＡ塩基配列によりコードされる蛋白質の機能
を解析する動きが盛んになっている。ＤＮＡ塩基配列
は、４種類の塩基Ａ、Ｃ、Ｇ、Ｔの配列であり、ＤＮＡ
塩基配列の一部が各々生体で機能する蛋白質をコードし
ている。重要な機能を持つ蛋白質は薬剤の設計、開発等
に利用でき、ＤＮＡ塩基配列がコードする蛋白質の機能
を正確に推定する技術が望まれている。実験的な蛋白質
の配列の決定よりも、一般的にＤＮＡ塩基配列の決定の
方が技術的に容易である。

【０００３】新たに決定されたＤＮＡ塩基配列によりコ
ードされる蛋白質の機能の推定では、周知のコドン表
（３塩基単位（コドン単位））の各々に対応して、アミ
ノ酸への翻訳の開始点、アミノ酸への翻訳の終了点、ア
ミノ酸の種類が規定される）を使用して、ＤＮＡ塩基配
列をアミノ酸配列（このアミノ酸配列から蛋白質配列が
得られる）に翻訳して、得られた蛋白質配列と機能が既
知である蛋白質に関するデータとを比較参照して、類似
しているか否かの判定を実行している。

【０００４】ＤＮＡ塩基配列のうち、蛋白質の情報を含
んでいるエクソンの領域がアミノ酸に翻訳される領域で
ある。コドンからアミノ酸への翻訳は一意的に行なわ
れ、ＤＮＡ塩基配列の翻訳方向と翻訳開始点が分かれ
ば、ＤＮＡ塩基配列から３塩基づつを取り出して、ＤＮ
Ａ塩基配列をアミノ酸の配列、即ち蛋白質に翻訳でき
る。しかし、ＤＮＡ塩基配列に於いて、ＤＮＡ塩基配列
に塩基の挿入、又は欠失による誤りが存在する場合に
は、ＤＮＡ塩基配列のエクソンの領域がずれてしまう。
ＤＮＡ塩基配列はコドン単位でアミノ酸に翻訳されるた
めに、塩基の挿入、又は欠失が存在する場合には、全く
異なるアミノ酸として翻訳されてしまうことがある。

【０００５】２つのＤＮＡ塩基配列を比較する際に、２
つのＤＮＡ塩基配列をそれぞれアミノ酸配列に翻訳して
得る翻訳アミノ酸配列どうしを比較して実行するには、
各ＤＮＡ塩基配列から翻訳アミノ酸配列を決定する必要
がある。

【０００６】図１は、ＤＮＡ塩基配列からアミノ酸配列
へ翻訳する際のＤＮＡ塩基配列に対する６種類の読み枠
を説明する図である（（第１の従来技術）：例えば、文
献１：バイオテクノロジー教科書シリーズ１１「バイオ
テクノロジーのためのコンピュータ入門」、中村春木・
中井謙太共著、第６６頁から６７頁（１９９５年）（東
京：コロナ社））。

【０００７】６種類の翻訳フレームは、フレーム
（１）：ＤＮＡ塩基配列の５’末端から順次コドン単位
でアミノ酸に翻訳するフレーム、フレーム（２）：コド
ンの開始位置をフレーム（１）より順次１塩基ずらし(s
hift)てアミノ酸に翻訳するフレーム、フレーム
（３）：コドンの開始位置をフレーム（１）の開始位置
より順次２塩基ずらしてアミノ酸に翻訳するフレーム、
フレーム（４）：ＤＮＡ塩基配列の相補鎖の５’末端か
ら順次コドン単位でアミノ酸への翻訳を開始するフレー
ム、フレーム（５）：フレーム（４）の翻訳開始位置か
ら順次１塩基ずらしてアミノ酸への翻訳を開始するフレ
ーム、フレーム（６）：フレーム（４）の翻訳開始位置
から順次２塩基ずらしてアミノ酸への翻訳を開始するフ
レームからなる。

【０００８】フレーム（１）からフレーム（３）は５’
末端から順次１塩基づつずらされ、フレーム（４）から
フレーム（６）はオリジナルのＤＮＡ塩基配列の相補鎖
の５’末端（オリジナルのＤＮＡ塩基配列の３’末端）
から順次１塩基づつずらされていくので、翻訳フレーム
は、フレーム（１）からフレーム（６）の６種類が存在
する。フレーム（１）からフレーム（６）に関して、Ｄ
ＮＡ塩基配列をアミノ酸配列に翻訳する。２つの各ＤＮ
Ａ塩基配列に関して同種類のフレームを使用し翻訳され
て得られた翻訳アミノ酸配列の間で比較が行なわれ、合
計６種類の翻訳アミノ酸配列の間での比較が行なわれ
る。

【０００９】類似配列を検索する代表的なプログラムと
してソースプログラムが公開されている、米国ＮＩＨの
組織であるＮＣＢＩのＡｌｔｓｈｕｌらにより開発され
たＢＬＡＳＴが広く知られている（例えば、文献１の第
１４１頁から１４３頁）。ＢＬＡＳＴファミリーには、
ＤＮＡ塩基配列どうしを比較するＢＬＡＳＴＮ、アミノ
酸配列どうしを比較するＢＬＡＳＴＰ、ＤＮＡ塩基配列
を上記の６種類のフレームについて機械的に翻訳して得
られた６種類の翻訳アミノ酸配列の各々をアミノ酸配列
データベースを使用して検索するＢＬＡＳＴＸ、及び、
検索ＤＮＡ塩基配列（ＱｕｅｒｙＤＮＡｂａｓｅ
ｓｅｑｕｅｎｃｅ）とＤＮＡ塩基配列のデータベースか
ら読み出したＤＮＡ塩基配列（ＴａｒｇｅｔＤＮＡ
ｂａｓｅｓｅｑｕｅｎｃｅ）の第１、第２の各ＤＮＡ塩
基配列を、上記の６種類のフレームについて各々機械的
に翻訳し、第１、第２の組の翻訳アミノ酸配列（各６種
類）の間での３６種類の全ての組合せについて比較を行
なうＴＢＬＡＳＴＸがある。ＢＬＡＳＴファミリーで
は、最初に、ＱｕｅｒｙＤＮＡｂａｓｅｓｅｑｕ
ｅｎｃｅの一定長の塩基列とＴａｒｇｅｔＤＮＡｂ
ａｓｅｓｅｑｕｅｎｃｅとの高速パターンマッチング
を行ない、ＴａｒｇｅｔＤＮＡｂａｓｅｓｅｑｕｅ
ｎｃｅに於ける検出された一定長の塩基列の位置を基に
して、ＱｕｅｒｙＤＮＡｂａｓｅｓｅｑｕｅｎｃ
ｅと類似する領域を検出する。

【００１０】Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎ法では、Ｑ
ｕｅｒｙＤＮＡｂａｓｅｓｅｑｕｅｎｃｅとＴａ
ｒｇｅｔＤＮＡｂａｓｅｓｅｑｕｅｎｃｅの２つ
のＤＮＡ塩基配列の塩基を１塩基づつ比較して、塩基対
に応じたスコア（類似度）を付与して総計し、スコア
（類似度）総計が最大となる経路（アライメント、並
置）を探索する（（第３の従来技術）：例えば、文献
２：「ＩｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＣｏｍｍ
ｏｎＭｏｌｅｃｕｌａｒＳｕｂｓｅｑｕｅｎｃｅ
ｓ」、ジャーナル・オブ・モレキュラー・バイオロジ
ー、１４７（１９８１）第１９５頁−１９７頁（Ｊ．Ｍ
ｏｌ．Ｂｉｏｌ、１４７（１９８１）ｐｐ１９５−１９
７））。

【００１１】第３の従来技術では、２つのＤＮＡ塩基配
列の間で動的計画法（ダイナミックプログラミング法を
使用して、塩基対の比較を行ない、２つのＤＮＡ塩基配
列の間でのスコアを求める。特定の注目するＤＮＡ塩基
配列（以下、検索ＤＮＡ塩基配列（ＱｕｅｒｙＤＮＡ
ｂａｓｅｓｅｑｕｅｎｃｅ）、又は第１のＤＮＡ塩
基配列という）と類似するＤＮＡ塩基配列をＤＮＡ塩基
配列データベースから検索する際に、検索ＤＮＡ塩基配
列（塩基数をＭとする）を第１の軸（例えば、ｘ軸）
に、ＤＮＡ塩基配列データベースから読み出したＤＮＡ
塩基配列（塩基数をＮとし、以下、ＴａｒｇｅｔＤＮ
Ａｂａｓｅｓｅｑｕｅｎｃｅ、又は第２のＤＮＡ塩
基配列という）を第２の軸（例えば、ｙ軸）に沿って、
５’末端より配列し、マトリックス（以下、本願発明で
はスコアマトリックスと呼ぶ。）を形成する（図２）。

【００１２】図２は、第１、第２のＤＮＡ塩基配列の比
較を行なう際のスコアの加算経路を説明する図である。
第１、第２のＤＮＡ塩基配列の間での塩基の対はスコア
マトリックス要素（ｉ、ｊ）（但し、ｉ＝１、２、…、
Ｍ、ｊ＝１、２、…、Ｎ）の位置で表される。

【００１３】動的計画法（ダイナミックプログラミング
法）では、スコアマトリックス要素（ｉ、ｊ）に至る、
縦、横、斜めの３方向（図２に示す、ａ、ｂ、ｃ）での
移動経路（検索経路）を考え、ｉを１、２、→Ｍ、ｊを
＝１、２、→Ｎと変化させて、図２に示す左上末端のス
コアマトリックス要素（１、１）から右下末端のスコア
マトリックス要素（Ｍ、Ｎ）の方向に向かって（ｉ、
ｊ）の位置を移動させて、第１のＤＮＡ塩基配列と第２
のＤＮＡ塩基配列の各塩基の間での最適な類似対応関係
を表わす、最適経路（最適アライメント、最適並置）を
求める。

【００１４】スコアマトリックス要素（ｉ、ｊ）の値Ｈ
（ｉ、ｊ）は、第１のＤＮＡ塩基配列のｉ番目の塩基ま
での塩基配列と第２のＤＮＡ塩基配列のｊ番目の塩基ま
での塩基配列との間における全体としての類似度（スコ
ア）の総計を表わす。図２に示す、ａ、ｂ、ｃの各方向
の移動経路に対応して、類似度（スコア）の総計Ｈ
_a（ｉ、ｊ）、Ｈ_b（ｉ、ｊ）、Ｈ_c（ｉ、ｊ）が、第１
のＤＮＡ塩基配列のｉ番目の塩基と第２のＤＮＡ塩基配
列のｊ番目の塩基との類似度を表わすスコアｓ（ｉ、
ｊ）と、ギャップペナルティスコアｐと、及び、移動も
とのスコアマトリックス要素（ｉ−１、ｊ−１）、（ｉ
−１、ｊ）、（ｉ、ｊ−１）に於ける類似度（スコア）
の総計Ｈ（ｉ−１、ｊ−１）、Ｈ（ｉ−１、ｊ）、Ｈ
（ｉ、ｊ−１）を使用して、（数１）、（数２）、（数
３）により各々定義される。Ｈ（ｉ、ｊ）として、Ｈ_a
（ｉ、ｊ）、Ｈ_b（ｉ、ｊ）、Ｈ_c（ｉ、ｊ）のうちの最
大値（（数４））を選ぶ。なお、上記のスコアｓ（ｉ、
ｊ）は、予め記憶されているスコアテーブルを使用して
決定でき、例えば、一致する１塩基の対に対するスコア
は４点、ｎ塩基の挿入、又は欠失が存在する時のスコア
は（−８ｎ−４）点、異なる１塩基の対に対するスコア
は(−３)点が設定されている。

【００１５】Ｈ_a（ｉ、ｊ）＝Ｈ（ｉ−１、ｊ−１）＋ｓ（ｉ、ｊ） …（数１）Ｈ_b（ｉ、ｊ）＝Ｈ（ｉ、ｊ−１）＋ｐ …（数２）Ｈ_c（ｉ、ｊ）＝Ｈ（ｉ−１、ｊ）＋ｐ …（数３）Ｈ（ｉ、ｊ）＝ｍａｘ｛Ｈ_a（ｉ、ｊ）、Ｈ_b（ｉ、ｊ）、Ｈ_c（ｉ、ｊ）｝ …（数４）なお、移動経路ｂに於いて加算されるギャップペナルテ
ィスコアｐは、第１のＤＮＡ塩基配列のｉ番目の塩基の
後の塩基の欠失の存在に対応し、移動経路ｃに於いて加
算されるギャップペナルティスコアｐは、第２のＤＮＡ
塩基配列のｊ番目の塩基の後の塩基の欠失の存在に対応
する。

【００１６】スコアマトリックス要素（１、１）からス
コアマトリックス要素（Ｍ、Ｎ）に向かう移動経路に沿
って、ｉを１、２、→Ｍ、ｊを＝１、２、→Ｎと変化さ
せて、第１、第２のＤＮＡ塩基配列の比較を行ない、移
動経路に応じてスコア、又はギャップペナルティスコア
を加算して行き、第１のＤＮＡ塩基配列と第２のＤＮＡ
塩基配列との間での全体としての類似度（スコア）の総
計が最大となるＨ^*＝Ｈ（Ｍ、Ｎ）が求められ、この結
果、第１、第２のＤＮＡ塩基配列の間での類似性が最も
良くなる並べ方、即ち、第１のＤＮＡ塩基配列の各塩基
と、第２のＤＮＡ塩基配列の各塩基の最適な対応関係を
表わす最適並置（アラインメント）を求めることができ
る。

【００１７】なお、第３の従来技術は、２つのＤＮＡ塩
基配列の類似性の検討の他に、２つのアミノ酸配列の類
似性の検討にも使用できる。

【００１８】

【発明が解決しようとする課題】上記の第１の従来技術
では、ＤＮＡ塩基配列に塩基の挿入、又は欠失が存在す
る場合には、塩基の挿入、又は欠失が存在する箇所でフ
レームシフトが起こり、このフレームシフトを起した位
置より後の塩基配列では、本来有するアミノ酸配列の類
似性を失ない、本来有するはずのアミノ酸配列を抽出で
きず検索もれを生じるという問題がある。６種類のフレ
ームのうち、例えば、一方のＤＮＡ塩基配列のフレーム
（１）で翻訳されたアミノ酸配列に非常に類似するアミ
ノ酸配列が、他方のＤＮＡ塩基配列の翻訳アミノ酸配列
に存在したとしても、ＤＮＡ塩基配列の塩基の挿入、又
は欠失が存在する場合には、挿入、又は欠失が存在する
場所から後の塩基配列ではフレームの位置がフレーム
（２）、又は（３）に変更されてしまう。従来技術で
は、ＤＮＡ塩基配列に於ける塩基の挿入、又は欠失によ
り生じる読み枠の位置に変更が生じる場合を考慮したＤ
ＮＡ塩基配列比較方法、検索方法は開示されていない。

【００１９】上記の第２の従来技術の、ＴＢＬＡＳＴＸ
を含むＢＬＡＳＴファミリーでは、計算の高速化を確保
するために、ＤＮＡ塩基配列に於ける塩基、又はアミノ
酸配列に於けるアミノ酸の挿入、又は欠失によるギャッ
プを考慮していないため、検索もれが生じるという問題
がある。

【００２０】上記の第３の従来技術は、正確な検索方法
の１つであるが、ＤＮＡ塩基配列の１塩基毎に関して比
較を実行するため長時間を要するという問題がある。ま
た、第３の従来技術に第１の従来技術を組合せて、２つ
のＤＮＡ塩基配列（ＱｕｅｒｙＤＮＡｂａｓｅｓ
ｅｑｕｅｎｃｅとＴａｒｇｅｔＤＮＡｂａｓｅｓｅ
ｑｕｅｎｃｅ）を各々アミノ酸配列に翻訳した後に、翻
訳アミノ酸配列どうしを比較する場合には、第１の従来
技術で説明した６種類フレームに対応して翻訳されて得
られた第１、第２のＤＮＡ塩基配列に関する翻訳アミノ
酸配列の組合せ（３６種類）の各々に対して比較を実行
する必要があるために、更に検索時間を要するという問
題がある。

【００２１】更に、第３の従来技術のＳｍｉｔｈ−Ｗａ
ｔｅｒｍａｎ法を第１の従来技術と組合せた場合、アミ
ノ酸単位、又はＤＮＡ塩基配列のコドン単位での挿入又
は欠失を考慮できるが、ＤＮＡ塩基配列に於けるコドン
単位の倍数以外の塩基単位での挿入又は欠失を考慮でき
ないという問題、従って、フレームの位置の変更を考慮
できないという問題点がある。

【００２２】従来技術では、ＤＮＡ塩基配列に存在す
る、塩基の挿入、又は欠失が原因で生じる誤った検索結
果の発生を防止することは、考慮されていなかった。即
ち、塩基の挿入、又は欠失の存在を考慮してＤＮＡ塩基
配列をアミノ酸配列に翻訳することは考慮されていなか
った公知文献ではないが、特願平７−２６５１５７号
（文献３）には、第１、第２のＤＮＡ塩基配列を各々３
塩基づつに区分して第１、第２の中間ＤＮＡ塩基配列を
生成し、第１、第２の中間ＤＮＡ塩基配列をアミノ酸に
翻訳して第１、第２の翻訳アミノ酸配列を生成し、第１
のＤＮＡ塩基配列と第１の中間ＤＮＡ塩基配列との間で
の第１の類似度と、第２のＤＮＡ塩基配列と第２の中間
ＤＮＡ塩基配列との間での第２の類似度と、第１の翻訳
アミノ酸配列と第２の翻訳アミノ酸配列との間での第３
の類似度とを求め、第１、第２、第３の類似度から所定
の関数を使用して得られるパラメータが最大となるよう
に第１と第２の中間ＤＮＡ塩基配列、及び第１と第２の
翻訳アミノ酸配列を選択する、ＤＮＡ塩基配列比較方法
が開示されている。

【００２３】また、公知文献ではないが、特願平８−１
６７７７０号（文献４）には、検索ＤＮＡ塩基配列（Ｑ
ｕｅｒｙＤＮＡｂａｓｅｓｅｑｕｅｎｃｅ）を塩
基の挿入、又は欠失を考慮してアミノ酸に翻訳して得ら
れた翻訳アミノ酸配列と、アミノ酸データベースから読
み出したアミノ酸配列（Ｔａｒｇｅｔａｍｉｎｏａｃ
ｉｄｓｅｑｕｅｎｃｅ）とを、Ｓｍｉｔｈ−Ｗａｔｅ
ｒｍａｎ法に基づいて比較し、翻訳アミノ酸配列のｉ番
目のアミノ酸とＴａｒｇｅｔａｍｉｎｏａｃｉｄｓ
ｅｑｕｅｎｃｅのｊ番目のアミノ酸との比較に於けるス
コア（類似度）を７種類の経路を考慮して評価して、翻
訳アミノ酸配列とＴａｒｇｅｔａｍｉｎｏａｃｉｄ
ｓｅｑｕｅｎｃｅとの置を行なう配列比較方法が開示
される。

【００２４】しかし、文献３には、動的計画法の演算に
於ける具体的な経路に関する技術は開示されていない。
更に、文献４に、検索ＤＮＡ塩基配列をアミノ酸配列に
翻訳する際に、１、又は２塩基ずらしてコドンを切り出
してアミノ酸に翻訳する方法（本発明の第１の翻訳方法
に対応する）の開示があるが、後で詳細に説明する本発
明の第２、及び第３の翻訳方法の開示はない。また、文
献４には、検索ＤＮＡ塩基配列から得られる翻訳アミノ
酸配列を、ＤＮＡ塩基配列データベースから読み出され
たＤＮＡ塩基配列をアミノ酸に翻訳された翻訳アミノ酸
配列と比較する技術は開示されていない。

【００２５】本発明の目的は、ＤＮＡ塩基配列に存在す
る塩基の挿入、及び欠失を考慮して、検索ＤＮＡ塩基配
列（ＱｕｅｒｙＤＮＡｂａｓｅｓｅｑｕｅｎｃ
ｅ）、ＤＮＡ塩基配列データベースから読み出されたＤ
ＮＡ塩基配列（ＴａｒｇｅｔＤＮＡｂａｓｅｓｅｑ
ｕｅｎｃｅ）を、各々アミノ酸配列に翻訳することによ
り、翻訳アミノ酸配列を介在させて２つのＤＮＡ塩基配
列の間での比較を行ない、検索もれの少ないＤＮＡ塩基
配列比較方法を提供し、特にＤＮＡ塩基配列の間での類
似度を感度良く検出する方法、及び検索ＤＮＡ塩基配列
がコードするアミノ酸配列の推定法を提供することにあ
る。

【００２６】

【課題を解決するための手段】本発明のＤＮＡ塩基配列
比較方法では、先ず、第１と第２のＤＮＡ塩基配列の間
での類似度を比較する際に、各ＤＮＡ塩基配列を挿入、
又は欠失を含む３塩基毎に分割する。分割された各３塩
基をコドン表に基づいてアミノ酸に翻訳し、得られた第
１と第２の翻訳アミノ酸配列の間で、各アミノ酸配列で
のアミノ酸の挿入、及び欠失を考慮してアミノ酸どうし
の類似度を総計してスコア（類似度）総計を得る。類似
度の総計（スコア総計）が最大となる、第１と第２の翻
訳アミノ酸配列のアミノ酸どうしの組合せを求め、スコ
ア総計の最大値と、第１と第２の翻訳アミノ酸配列の並
置と、第１の翻訳アミノ酸配列に対応するＤＮＡ塩基配
列と第２の翻訳アミノ酸配列に対応するＤＮＡ塩基配列
との間での並置を得る。上記第１のＤＮＡ塩基配列とし
て検索ＤＮＡ塩基配列（特定の注目するＤＮＡ塩基配
列、ＱｕｅｒｙＤＮＡｂａｓｅｓｅｑｕｅｎｃ
ｅ）を、上記第２のＤＮＡ塩基配列として、各種のＤＮ
Ａ塩基配列データベースから読み出した既知のＤＮＡ塩
基配列（ＴａｒｇｅｔＤＮＡｂａｓｅｓｅｑｕｅ
ｎｃｅ）を使用する。

【００２７】本発明のＤＮＡ塩基配列比較方法で使用す
る、ＤＮＡ塩基配列からアミノ酸配列への翻訳方法で
は、第１、第２、及び第３の翻訳方法を組合せて使用す
る。

【００２８】第１の翻訳方法では、ＤＮＡ塩基配列を読
み出すフレームを、ＤＮＡ塩基配列の末端から３塩基単
位で順次１塩基づつずらしながら、所定の翻訳規則に従
ってアミノ酸配列に翻訳する。

【００２９】第２の翻訳方法では、ＤＮＡ塩基配列を読
み出すフレームを、ＤＮＡ塩基配列の末端から４塩基単
位で順次１塩基づつずらし、４塩基のうちの２番目の塩
基を挿入された塩基と見做して、４塩基のうちの残りの
３塩基を使用して、所定の翻訳規則に従ってアミノ酸配
列に翻訳する。

【００３０】第３の翻訳方法では、ＤＮＡ塩基配列を読
み出すフレームを、ＤＮＡ塩基配列の末端から４塩基単
位で順次１塩基づつずらし、４塩基のうちの３番目の塩
基を挿入された塩基と見做して、４塩基のうちの残りの
３塩基を使用して、所定の翻訳規則に従ってアミノ酸配
列に翻訳する。

【００３１】本発明のＤＮＡ塩基配列比較方法では、第
１、第２のＤＮＡ塩基配列から翻訳された第１、第２の
翻訳アミノ酸配列どうしの配列比較方法として、スコア
（類似度）総計を求める計算方法に動的計画法を用い
る。動的計画法に於ける演算では、第１、第２のＤＮＡ
塩基配列から上記の第１の翻訳方法によって各々翻訳さ
れた、第１、第２の翻訳アミノ酸配列で構成されるスコ
アマトリックスの要素（ｉ、ｊ）で表わされる第１の翻
訳アミノ酸配列のｉ番目のアミノ酸と第２の翻訳アミノ
酸配列のｊ番目のアミノ酸のスコア（類似度）を総計す
る際に、ｋ≧１、ｍ≧１を満たす整数、ｎ≧２を満たす
整数とする時に、スコアマトリックス要素、（ｉ−３、
ｊ−３）、（ｉ、ｊ−３ｋ）、（ｉ−３ｋ、ｊ）、（ｉ
−３ｎ＋１、ｊ−３ｎ）、（ｉ−３ｎ、ｊ−３ｎ＋
１）、（ｉ−３ｍ、ｊ−３ｍ−１）、（ｉ−３ｍ−１、
ｊ−３ｍ）からの７つの経路を考慮する。ｋ＝１、ｍ＝
１、ｎ＝２の場合には、スコアマトリックス要素、（ｉ
−３、ｊ−３）、（ｉ、ｊ−３）、（ｉ−３、ｊ）、
（ｉ−５、ｊ−６）、（ｉ−６、ｊ−５）、（ｉ−３、
ｊ−４）、（ｉ−４、ｊ−３）からの経路を考慮するこ
とになる。但し、（）内の各要素は正の数とする。な
お、ｉ≦Ｍ（Ｍは、第１の翻訳アミノ酸配列に於けるア
ミノ酸の数）、ｊ≦Ｎ（Ｎは、第２の翻訳アミノ酸配列
に於けるアミノ酸の数）である。

【００３２】本発明のＤＮＡ塩基配列比較方法を図３を
使用して要約すると以下の通りである。検索ＤＮＡ塩基
配列、データベースから読み出したＤＮＡ塩基配列を各
々アミノ酸配列に翻訳し（３０４、３０６）、塩基、ア
ミノ酸の挿入、欠失を考慮して翻訳アミノ酸配列の間で
の類似度を算出し、動的計画法によるスコア総計の演算
（３０７）を実行し、比較検索の結果得られた上位スコ
ア総計を与える２つの翻訳アミノ酸配列に対する、動的
計画法による上位スコア総計及び経路の演算（３１２）
と、スコア総計の最大値を与える経路のトレース演算
（３１３）とを実行して、翻訳アミノ酸配列間での並置
結果をＤＮＡ塩基配列の並置と併せて表示する。比較す
る２つのＤＮＡ塩基配列に挿入、欠失が存在する場合に
も、翻訳アミノ酸配列を介在させてＤＮＡ塩基配列間で
の類似度の比較は可能となり、検索の感度が向上する。

【００３３】

【発明の実施の形態】以下、ＤＮＡ塩基配列データベー
スを使用して、検索ＤＮＡ塩基配列（問い合わせのＤＮ
Ａ塩基配列）に対する検索を実行する例をとって説明す
る。

【００３４】図３は、本発明の実施例に於ける処理工程
の例を説明するフロー図である。図３を使用して、本発
明の実施例のＤＮＡ塩基配列比較方法の概要を説明す
る。先ず、（工程３０１）から（工程３０４）を実行す
る。

【００３５】（工程３０１）：アミノ酸の対の類似度を
表わすスコアテーブルを入力する。

【００３６】（工程３０２）：ＤＮＡ塩基配列データベ
ースを検索した結果、出力装置に出力表示する、上位ス
コア総計を持つ検索結果の出力数を入力する。

【００３７】（工程３０３）：検索ＤＮＡ塩基配列（Ｑ
ｕｅｒｙＤＮＡｂａｓｅｓｅｑｕｅｎｃｅ）を入
力する。

【００３８】（工程３０４）検索ＤＮＡ塩基配列、及び
検索ＤＮＡ塩基配列の相補鎖配列を、後で説明する第
１、第２、第３の各翻訳方法により、アミノ酸配列に翻
訳して翻訳アミノ酸配列Ａ₁、Ａ₂、Ａ₃、Ａ₄、Ａ₅、Ａ₆
を得る。

【００３９】翻訳アミノ酸配列Ａ₁は検索ＤＮＡ塩基配
列から第１の翻訳方法により翻訳される。翻訳アミノ酸
配列Ａ₂は検索ＤＮＡ塩基配列の相補鎖配列から第１の
翻訳方法により翻訳される。翻訳アミノ酸配列Ａ₃は検
索ＤＮＡ塩基配列から第２の翻訳方法により翻訳され
る。翻訳アミノ酸配列Ａ₄は検索ＤＮＡ塩基配列から第
３の翻訳方法により翻訳される。翻訳アミノ酸配列Ａ₅
は検索ＤＮＡ塩基配列の相補鎖配列から第２の翻訳方法
により翻訳される。翻訳アミノ酸配列Ａ₆は検索ＤＮＡ
塩基配列の相補鎖配列から第３の翻訳方法により翻訳さ
れる。

【００４０】次に、ＤＮＡ塩基配列データベースから読
み出された全てのＤＮＡ塩基配列（ＴａｒｇｅｔＤＮ
Ａｂａｓｅｓｅｑｕｅｎｃｅ）に対して、以下の
（工程３０５）から（工程３０８）を実行する。

【００４１】（工程３０５）：ＤＮＡ塩基配列データベ
ースからＤＮＡ塩基配列（ＴａｒｇｅｔＤＮＡｂａ
ｓｅｓｅｑｕｅｎｃｅ）を読み出す。

【００４２】（工程３０６）：読み出されたＤＮＡ塩基
配列、及び読み出されたＤＮＡ塩基配列の相補鎖配列
を、後で説明する第１、第２、第３の各翻訳方法によ
り、アミノ酸配列に翻訳して翻訳アミノ酸配列Ｂ₁、
Ｂ₂、Ｂ₃、Ｂ₄、Ｂ₅、Ｂ₆を得る。

【００４３】翻訳アミノ酸配列Ｂ₁は読み出されたＤＮ
Ａ塩基配列から第１の翻訳方法により翻訳される。翻訳
アミノ酸配列Ｂ₂は読み出されたＤＮＡ塩基配列の相補
鎖配列から第１の翻訳方法により翻訳される。翻訳アミ
ノ酸配列Ｂ₃は読み出されたＤＮＡ塩基配列から第２の
翻訳方法により翻訳される。翻訳アミノ酸配列Ｂ₄は読
み出されたＤＮＡ塩基配列から第３の翻訳方法により翻
訳される。翻訳アミノ酸配列Ｂ₅は読み出されたＤＮＡ
塩基配列の相補鎖配列から第２の翻訳方法により翻訳さ
れる。翻訳アミノ酸配列Ｂ₆は読み出されたＤＮＡ塩基
配列の相補鎖配列から第３の翻訳方法により翻訳され
る。

【００４４】（工程３０７）：（工程３０４）、及び工
程（３０６）で得られた４種類の翻訳アミノ酸配列の組
合せ、即ち、（ａ）翻訳アミノ酸配列Ａ₁とＢ₁の組合
せ、（ｂ）翻訳アミノ酸配列Ａ₁とＢ₂の組合せ、（ｃ）
翻訳アミノ酸配列Ａ₂とＢ₁の組合せ、（ｄ）翻訳アミノ
酸配列Ａ₂とＢ₂の組合せ、の４種の組合せに対して、翻
訳アミノ酸配列どうしの類似度の総計を、動的計画法に
より各々算出する。

【００４５】（工程３０８）：検索結果の出力数までの
上位スコア総計を持つＤＮＡ塩基配列を選択し、上位ス
コア総計を持つＤＮＡ塩基配列の情報をＤＮＡ塩基配列
データベースから読み出して記憶しておく。

【００４６】次に、ＤＮＡ塩基配列データベースから読
み出された全てのＤＮＡ塩基配列に対して、以下の（工
程３０５）から（工程３０８）を実行した後に、（工程
３０９）から（工程３１１）を実行する。

【００４７】（工程３０９）：類似度（スコア）の総計
の値の大きい方から並べて、検索結果の出力数に対応す
る上位スコア総計をソートする。

【００４８】（工程３１０）：上位スコア総計を持つＤ
ＮＡ塩基配列を、ディスプレイ（図１８の４０３）に表
示する。この時、上位スコア総計を持つＤＮＡ塩基配列
をハードディスク等の外部記憶装置（図１８の４０４）
に出力しても良い。

【００４９】（工程３１１）：（工程３１０）で、表示
された上位スコア総計から判断して、並置結果の表示を
行なうことが望ましいと考えられる検索比較結果の数
（並置結果の出力数）を入力する。

【００５０】次に、並置結果を表示するＤＮＡ塩基配列
（ＴａｒｇｅｔＤＮＡｂａｓｅｓｅｑｕｅｎｃ
ｅ））の全てについて、（工程３１２）から（工程３１
４）を実行する。

【００５１】（工程３１２）：動的計画法によるスコア
総計及び経路を演算する。

【００５２】（工程３１３）：スコア総計を与える経路
のトレースを演算することにより、検索ＤＮＡ塩基配列
とＤＮＡ塩基配列データベースのＤＮＡ塩基配列から得
られた２つの翻訳アミノ酸配列の間での並置結果と、各
翻訳アミノ酸配列に対応するＤＮＡ塩基配列の間での並
置結果を得る。

【００５３】（工程３１４）：（工程３１３）で得られ
た並置結果をディスプレイ（図１８の４０３）に表示す
る。同時にハードディスク等の外部記憶装置（図１８の
４０４）に出力しても良い。

【００５４】図４は、本発明の実施例に於いて使用し
た、アミノ酸の対に付与するスコアを規定する従来技術
のテーブルの一例である、Ｂｌｏｓｕｍ６２を示す図で
ある。図４の横軸、及び縦軸に示す、Ａ、Ｒ、Ｎ、…、
Ｗ、Ｙ、Ｖは、アミノ酸の略号である。記号「Ｂ（Ａｓ
＊）」は、Ａｓｎ、又はＡｓｐの何れかであることを示
し、記号「Ｚ（Ｇｌ＊）」は、Ｇｌｎ、又はＧｌｕの何
れかであることを示し、記号「Ｘ（＊＊＊）」は、翻訳
不能か不明のアミノ酸を示し、号「Ｏ（Ｓｔｐ）」は、
終了コドンを示す。

【００５５】以下の説明では、塩基の挿入、及び欠失が
存在することを考慮した、検索ＤＮＡ塩基配列、ＤＮＡ
塩基配列データベースから読み出されたＤＮＡ塩基配列
の各塩基配列を、各々アミノ酸配列に翻訳する方法
（（工程３０４）、（工程３０６）について説明する。

【００５６】図５は、コドン表の３塩基単位（コドン単
位）の各々に対応して、アミノ酸への翻訳の終止、アミ
ノ酸の種類を規定する、従来技術のコドン表を示す図で
ある。（）内の記号は１文字表記のアミノ酸の略号を
示す。図５に従って、ＤＮＡ塩基配列は３塩基単位（コ
ドン）毎に１種類のアミノ酸にコードされる。

【００５７】図６は、本発明の実施例に於ける、ＤＮＡ
塩基配列をアミノ酸配列に翻訳するする第１の翻訳方法
を説明する図である。第１の翻訳方法では、ＤＮＡ塩基
配列の５’末端からコドン（３塩基）を切り出して図５
に従ってアミノ酸に翻訳し、次に、１塩基ずらしてコド
ンを切り出して図５に従ってアミノ酸に翻訳する。以下
同様に、１塩基づつずらして翻訳を続け、切り出された
コドンの最後の塩基が、ＤＮＡ塩基配列の３’末端の最
後の塩基と一致するまで繰り返し、ＤＮＡ塩基配列をア
ミノ酸配列に翻訳して、翻訳アミノ酸配列Ａ₁、又はＢ₁
を得る。ＤＮＡ塩基配列の相補鎖配列についても同様に
図５に従ってアミノ酸配列に翻訳して、翻訳アミノ酸配
列Ａ₂、又はＢ₂を得る。この結果、第１の翻訳方法を使
用して合計２種類の翻訳アミノ酸配列（Ａ₁、Ａ₂；又
は、Ｂ₁、Ｂ₂）が得られる。

【００５８】図６に示す例では、ＤＮＡ塩基配列の例と
して、ＡＴＧＣＣ、…、ＣＧＡＴを選んでおり、５’末
端からコドンＡＴＧを切り出して図５に従ってアミノ酸
Ｍに翻訳し、１塩基ずらしてコドンＴＧＣを切り出して
図５に従ってアミノ酸Ｃに翻訳し、以下同様に、１塩基
づつずらしてコドンＧＣＣ、…、ＣＧＡ、ＧＡＴを切り
出して、アミノ酸Ａ、…、Ｒ、Ｄに翻訳する。この結果
得られる翻訳アミノ酸配列は、ＭＣＡ、…、ＲＤとな
る。図６に示すように、ＤＮＡ塩基配列の相補鎖配列Ａ
ＴＣＧ、…、ＧＧＣＡＴについても同様に図５に従って
アミノ酸配列に翻訳して、翻訳アミノ酸配列として、Ｉ
Ｓ、…、ＧＡＨを得る。

【００５９】図７は、本発明の実施例に於ける、ＤＮＡ
塩基配列をアミノ酸配列に翻訳する第２、第３の翻訳方
法を説明する図である。

【００６０】第２の翻訳方法では、ＤＮＡ塩基配列の
５’末端から４塩基を切り出し、２番目の塩基を挿入と
見做して、残りの３塩基（第１の補正ＤＮＡ塩基配列）
を使用して図５に従ってアミノ酸に翻訳する。次に、１
塩基ずらして同様の翻訳を図５に従って行ない、切り出
した４塩基の最後の塩基が、ＤＮＡ塩基配列の３’末端
の最後の塩基に一致するまで、翻訳を繰り返し、ＤＮＡ
塩基配列をアミノ酸配列に翻訳して、翻訳アミノ酸配列
Ａ₃、又はＢ₃を得る。

【００６１】第３の翻訳方法では、ＤＮＡ塩基配列の
５’末端から４塩基を切り出し、３番目の塩基を挿入と
見做して、残りの３塩基（第２の補正ＤＮＡ塩基配列）
を使用して図５に従ってアミノ酸に翻訳する。次に、１
塩基ずらして同様の翻訳を図５に従って行ない、切り出
した４塩基の最後の塩基が、ＤＮＡ塩基配列の３’末端
の最後の塩基に一致するまで、翻訳を繰り返し、ＤＮＡ
塩基配列をアミノ酸配列に翻訳して、翻訳アミノ酸配列
Ａ₄、又はＢ₄を得る。

【００６２】同様に、ＤＮＡ塩基配列の相補鎖配列に対
して、第２、第３の翻訳方法を適用して、図示しない翻
訳アミノ酸配列Ａ₅、又はＢ₅；及びＡ₆、又はＢ₆を得
る。この結果、第２の翻訳方法を使用して合計４種類の
翻訳アミノ酸配列（Ａ₃、Ａ₅；又は、Ｂ₃、Ｂ₅）が得ら
れ、第３の翻訳方法を使用して合計４種類の翻訳アミノ
酸配列（Ａ₄、Ａ₆；又は、Ｂ₄、Ｂ₆）が得られる。

【００６３】図７の例では、ＤＮＡ塩基配列がＡＴＧＣ
Ｃ、…、ＣＧＡＴであるので、第２、第３の翻訳方法に
従ってアミノ酸配列に翻訳する際、先ず、５’末端から
ＡＴＧＣの４塩基を切り出し、２番目の塩基Ｔを挿入と
見做したＡＧＣ（第１の補正ＤＮＡ塩基配列）、及び３
番目の塩基Ｇを挿入と見做したＡＴＣ（第２の補正ＤＮ
Ａ塩基配列）を、図５に従って各々アミノ酸Ｓ、Ｉに翻
訳する。次に１塩基ずらしたＴＧＣＣの４塩基から得ら
れるＴＣＣ（第１の補正ＤＮＡ塩基配列）、ＴＧＣ（第
２の補正ＤＮＡ塩基配列）を図５に従ってアミノ酸Ｓ、
Ｃに翻訳する。以下同様にして、１塩基づつずらしなが
ら翻訳を続けて、ＤＮＡ塩基配列から翻訳アミノ酸配列
を得る。この結果得られる、翻訳アミノ酸配列は、Ｓ
Ｓ、…、Ｈであり、翻訳アミノ酸配列は、ＩＣ、…、Ｒ
である。更に、図７に示すＤＮＡ塩基配列の相補鎖ＡＴ
ＣＧ、…、ＧＧＣＡＴを、同様にして、第２、第３の翻
訳方法に従ってアミノ酸配列に翻訳して、図７に図示し
ない翻訳アミノ酸配列を得る。

【００６４】以下、翻訳アミノ酸配列どうしの類似度の
総計を算出するための動的計画法によるスコア総計を求
める（工程３０７）について詳しく説明する。

【００６５】本発明では、図２に示す、Ｓｍｉｔｈ−Ｗ
ａｔｅｒｍａｎ法に基づくＤＮＡ塩基配列の比較を行な
うスコアマトリックスを変更して、アミノ酸配列の比較
を行なうスコアマトリックスを構成し、図４に示すアミ
ノ酸の対に対して規定されるスコアテーブルを使用し
て、比較すべき２つの翻訳アミノ酸配列の間でのアミノ
酸の対の類似度を求めて、類似度の総計を評価する。
（工程３０４）で得た翻訳アミノ酸配列Ａ₁、Ａ₂、
Ａ₃、Ａ₄、Ａ₅、Ａ₆、及び（工程３０６）で得た翻訳ア
ミノ酸配列Ｂ₁、Ｂ₂、Ｂ₃、Ｂ₄、Ｂ₅、Ｂ₆を使用して、
翻訳アミノ酸配列どうしの類似度の総計を動的計画法に
より算出する。

【００６６】第１の軸（例えば、ｘ軸）に沿って第１の
翻訳アミノ酸配列（Ａ₁、又はＡ₂）を、第２の軸（例え
ば、ｙ軸）に沿って第２の翻訳アミノ酸配列（Ｂ₁、又
はＢ₂）を、第１、第２の翻訳アミノ酸配列の各々の塩
基配列の５’末端より配列して、マトリックス要素
（ｉ、ｊ）の値Ｈ（ｉ、ｊ）が、第１の翻訳アミノ酸配
列のｉ番目のアミノ酸までのアミノ酸配列と、第２の翻
訳アミノ酸配列のｊ番目のアミノ酸までのアミノ酸配列
との間における類似度の総計を表わす、スコアマトリッ
クスＨを構成する。第１の軸に沿って第１、第３、第
５、第７、又は第９の翻訳アミノ酸配列（Ａ₁、、Ａ₂、
Ａ₃、Ａ₄、Ａ₅、Ａ₆の何れか）を、第２の軸に沿って第
２、第４、第６、第８、又は第１０の翻訳アミノ酸配列
（Ｂ₁、Ｂ₂、Ｂ₃、Ｂ₄、Ｂ₅、Ｂ₆の何れか）を、翻訳ア
ミノ酸配列の各々の塩基配列の５’末端より配列して、
アミノ酸の対のスコア（類似度）を表わす第１、第２、
第３、第４、第５のマトリックス（ｓ₁（ｉ、ｊ）〜ｓ₅
（ｉ、ｊ））を構成する。翻訳アミノ酸配列Ａ₁、Ａ₂、
Ａ₃、Ａ₄、Ａ₅、Ａ₆と、翻訳アミノ酸配列Ｂ₁、Ｂ₂、Ｂ
₃、Ｂ₄、Ｂ₅、Ｂ₆との組合せにより形成される、５つの
マトリックスからなる第１から第４のマトリックス群を
形成する。５つの各マトリックスに於ける第１、及び第
２の軸に沿って配列される翻訳アミノ酸配列をＡ_i、及
びＢ_jとし、簡単ために配列（Ａ_i、Ｂ_j）により各マト
リックスに於ける第１、及び第２の軸に沿って配列され
る翻訳アミノ酸配列を表わす。

【００６７】第１のマトリックス群は、第１、第３、及
び第５の翻訳アミノ酸配列をＡ₁、第７の翻訳アミノ酸
配列をＡ₃、第９の翻訳アミノ酸配列をＡ₄とし、第２、
第第８、及び第１０の翻訳アミノ酸配列をＢ₁とし、第
４の翻訳アミノ酸配列をＢ₃、第６の翻訳アミノ酸配列
をＢ₄として、配列（Ａ₁、Ｂ₁）を持つスコアマトリッ
クスＨと、配列（Ａ₁、Ｂ₁）を持つ第１のマトリックス
ｓ₁と、配列（Ａ₁、Ｂ₃）を持つ第２のマトリックスｓ₂
と、配列（Ａ₁、Ｂ₄）を持つ第３のマトリックスｓ
₃と、配列（Ａ₃、Ｂ₁）を持つ第４のマトリックスｓ
₄と、配列（Ａ₄、Ｂ₁）を持つ第５のマトリックスｓ₅と
からなる。

【００６８】第２のマトリックス群は、第１、第３、及
び第５の翻訳アミノ酸配列をＡ₁、第７の翻訳アミノ酸
配列をＡ₃、第９の翻訳アミノ酸配列をＡ₄とし、第２、
第第８、及び第１０の翻訳アミノ酸配列をＢ₂とし、第
４の翻訳アミノ酸配列をＢ₅、第６の翻訳アミノ酸配列
をＢ₆として、配列（Ａ₁、Ｂ₂）を持つスコアマトリッ
クスＨと、配列（Ａ₁、Ｂ₂）を持つ第１のマトリックス
ｓ₁と、配列（Ａ₁、Ｂ₅）を持つ第２のマトリックスｓ₂
と、配列（Ａ₁、Ｂ₆）を持つ第３のマトリックスｓ
₃と、配列（Ａ₃、Ｂ₂）を持つ第４のマトリックスｓ
₄と、配列（Ａ₄、Ｂ₂）を持つ第５のマトリックスｓ₅と
からなる。

【００６９】第３のマトリックス群は、第１、第３、及
び第５の翻訳アミノ酸配列をＡ₂、第７の翻訳アミノ酸
配列をＡ₅、第９の翻訳アミノ酸配列をＡ₆とし、第２、
第第８、及び第１０の翻訳アミノ酸配列をＢ₁とし、第
４の翻訳アミノ酸配列をＢ₃、第６の翻訳アミノ酸配列
をＢ₄として、配列（Ａ₂、Ｂ₁）を持つスコアマトリッ
クスＨと、配列（Ａ₂、Ｂ₁）を持つ第１のスコアマトリ
ックスｓ₁と、配列（Ａ₂、Ｂ₃）を持つ第２のスコアマ
トリックスｓ₂と、配列（Ａ₂、Ｂ₄）を持つ第３のスコ
アマトリックスｓ₃と、配列（Ａ₅、Ｂ₁）を持つ第４の
スコアマトリックスｓ₄と、配列（Ａ₆、Ｂ₁）を持つ第
５のスコアマトリックスｓ₅とからなる。

【００７０】第４のマトリックス群は、第１、第３、及
び第５の翻訳アミノ酸配列をＡ₂、第７の翻訳アミノ酸
配列をＡ₅、第９の翻訳アミノ酸配列をＡ₆とし、第２、
第第８、及び第１０の翻訳アミノ酸配列をＢ₂とし、第
４の翻訳アミノ酸配列をＢ₅、第６の翻訳アミノ酸配列
をＢ₆として、配列（Ａ₂、Ｂ₂）を持つスコアマトリッ
クスＨと、配列（Ａ₂、Ｂ₂）を持つ第１のマトリックス
ｓ₁と、配列（Ａ₂、Ｂ₅）を持つ第２のマトリックスｓ₂
と、配列（Ａ₂、Ｂ₆）を持つ第３のマトリックスｓ
₃と、配列（Ａ₅、Ｂ₂）を持つ第４のマトリックスｓ
₄と、配列（Ａ₆、Ｂ₂）を持つ第５のマトリックスｓ₅と
からなる。

【００７１】図８は、本発明の実施例に於ける、翻訳ア
ミノ酸配列の比較を行なう際のスコアの加算経路を説明
する図である。

【００７２】第１から第４のマトリックス群を独立に使
用して、各マトリックス群毎に動的計画法により、スコ
アマトリックス要素（ｉ、ｊ）に至る、図８に示す経路
〜の９方向での移動経路（検索経路）を考え、ｉを
１、２、→Ｍ（スコアマトリックの第１軸に配列される
アミノ酸配列を構成するアミノ酸の数）、ｊを＝１、
２、→Ｎ（スコアマトリックの第２軸に配列されるアミ
ノ酸配列を構成するアミノ酸の数）と変化させて、図８
に示す左上末端のスコアマトリックス要素（１、１）か
ら右下末端のスコアマトリックス要素（Ｍ、Ｎ）の方向
に向かって（ｉ、ｊ）の位置を移動させて、第１の翻訳
アミノ酸配列と第２のアミノ酸配列の各アミノ酸の間で
の最適な類似対応関係を表わす、最適経路（最適アライ
メント、最適並置）を求める。

【００７３】スコアマトリックス要素（ｉ、ｊ）の値Ｈ
（ｉ、ｊ）は、第１の翻訳アミノ酸配列のｉ番目のアミ
ノ酸までのアミノ酸配列と第２の翻訳アミノ酸配列のｊ
番目のアミノ酸までのアミノ酸配列との間における全体
としての類似度（スコア）の総計を表わす。

【００７４】図８に示す、（１）から（１１）の各点か
ら点（ｉ、ｊ）向かう９方向の移動経路（から）に
対応して、類似度（スコア）の総計Ｈ（ｉ、ｊ）とし
て、Ｈ₁（ｉ、ｊ）からＨ₁₁（ｉ、ｊ）のうちの最大値
（（数１６））を選ぶ。なお、スコアｓ₁（ｉ、ｊ）か
らｓ₅（ｉ、ｊ）を求めるには、図４に示すスコアテー
ブルを使用する。Ｈ₁（ｉ、ｊ）からＨ₁₁（ｉ、ｊ）
は、第１の軸に配列されたアミノ酸配列のｉ番目のアミ
ノ酸と第２の軸に配列されたアミノ酸配列のｊ番目のア
ミノ酸との類似度を表わすスコアｓ₁（ｉ、ｊ）〜スコ
アｓ₅（ｉ、ｊ）と、ギップペナルティスコアｗ_a、ｗ_n
と、及び、移動もとのスコアマトリックス要素の値Ｈ
（ｉ−３、ｊ−３）、Ｈ（ｉ−３、ｊ）、Ｈ（ｉ、ｊ−
３）、Ｈ（ｉ−５、ｊ−６）、Ｈ（ｉ−６、ｊ−５）、
Ｈ（ｉ−３、ｊ−４）、Ｈ（ｉ−４、ｊ−３）、Ｈ（ｉ
−６、ｊ−７）、Ｈ（ｉ−７、ｊ−６）を使用して、
（数５）から（数１５）により各々定義される。

【００７５】なお、図９、図１０は、Ｈ₈（ｉ、ｊ）、
及びＨ₉（ｉ、ｊ）の第１項の（ｉ−６、ｊ−７）と
（ｉ、ｊ）との位置関係を示す。図１１、図１２は、Ｈ
₁₀（ｉ、ｊ）、及びＨ₁₁（ｉ、ｊ）の第１項の（ｉ−
７、ｊ−６）と（ｉ、ｊ）との関係を示す。図９、及び
図１０に於ける点（ｉ−３、ｊ−４）は、スコアｓ₄を
求める点、図１１、及び図１２に於ける点（ｉ−４、ｊ
−３）は、スコアｓ₅を求める点を示す。

【００７６】Ｈ₁（ｉ、ｊ）＝Ｈ（ｉ−３、ｊ−３）＋ｓ₁（ｉ、ｊ）＝Ｈ（ｉ−３、ｊ−３）＋ｓ^* ₁（Ａ^* _i、Ｂ^* _j） …（数５）Ｈ₁（ｉ、ｊ）は、点（ｉ−３、ｊ−３）から点（ｉ、
ｊ）への移動経路に対応する。

【００７７】Ｈ₂（ｉ、ｊ）＝Ｈ（ｉ、ｊ−３）＋ｗ_a …（数６）Ｈ₂（ｉ、ｊ）は、点（ｉ、ｊ−３）から点（ｉ、ｊ）
への移動経路に対応する。

【００７８】Ｈ₃（ｉ、ｊ）＝Ｈ（ｉ−３、ｊ）＋ｗ_a …（数７）Ｈ₃（ｉ、ｊ）は、点（ｉ−３、ｊ）から点（ｉ、ｊ）
への移動経路に対応する。

【００７９】Ｈ₄（ｉ、ｊ）＝Ｈ（ｉ−５、ｊ−６）＋ｗ_n＋ｓ₁（ｉ、ｊ）＝Ｈ（ｉ−５、ｊ−６）＋ｗ_n＋ｓ₁ ^*（Ａ^* _i、Ｂ^* _j） …（数８）Ｈ₄（ｉ、ｊ）は、点（ｉ−５、ｊ−６）から点（ｉ、
ｊ）への移動経路に対応する。

【００８０】Ｈ₅（ｉ、ｊ）＝Ｈ（ｉ−６、ｊ−５）＋ｗ_n＋ｓ₁（ｉ、ｊ）＝Ｈ（ｉ−６、ｊ−５）＋ｗ_n＋ｓ₁ ^*（Ａ^* _i、Ｂ^* _j） …（数９）Ｈ₅（ｉ、ｊ）は、点（ｉ−６、ｊ−５）から点（ｉ、
ｊ）への移動経路に対応する。

【００８１】Ｈ₆（ｉ、ｊ）＝Ｈ（ｉ−３、ｊ−４）＋ｗ_n＋ｓ₁（ｉ、ｊ）＝Ｈ（ｉ−３、ｊ−４）＋ｗ_n＋ｓ₁ ^*（Ａ^* _i、Ｂ^* _j）…（数１０）Ｈ₆（ｉ、ｊ）は、点（ｉ−３、ｊ−４）から点（ｉ、
ｊ）への移動経路に対応する。

【００８２】Ｈ₇（ｉ、ｊ）＝Ｈ（ｉ−４、ｊ−３）＋ｗ_n＋ｓ₁（ｉ、ｊ）＝Ｈ（ｉ−４、ｊ−３）＋ｗ_n＋ｓ₁ ^*（Ａ^* _i、Ｂ^* _j）…（数１１）Ｈ₇（ｉ、ｊ）は、点（ｉ−４、ｊ−３）から点（ｉ、
ｊ）への移動経路に対応する。

【００８３】Ｈ₈（ｉ、ｊ）＝Ｈ（ｉ−６、ｊ−７）＋ｗ_n＋ｓ₂（ｉ−３、ｊ−４）＋ｓ₁（ｉ、ｊ）＝Ｈ（ｉ−６、ｊ−７）＋ｗ_n＋ｓ₂ ^*（Ａ^* _i-3、｛ｂ_j-4ｂ_j-3ｂ_j-1｝）＋ｓ₁ ^*（Ａ^* _i、Ｂ^* _j） …（数１２）Ｈ₉（ｉ、ｊ）＝Ｈ（ｉ−６、ｊ−７）＋ｗ_n＋ｓ₃（ｉ−３、ｊ−４）＋ｓ₁（ｉ、ｊ）＝Ｈ（ｉ−６、ｊ−７）＋ｗ_n＋ｓ₃ ^*（Ａ^* _i-3、｛ｂ_j-4ｂ_j-2ｂ_j-1｝）＋ｓ₁ ^*（Ａ^* _i、Ｂ^* _j） …（数１３）Ｈ₈（ｉ、ｊ）、Ｈ₉（ｉ、ｊ）は、点（ｉ−６、ｊ−
７）から点（ｉ、ｊ）への移動経路を含む。

【００８４】Ｈ₁₀（ｉ、ｊ）＝Ｈ（ｉ−７、ｊ−６）＋ｗ_n＋ｓ₄（ｉ−４、ｊ−３）＋ｓ₁（ｉ、ｊ）＝Ｈ（ｉ−７、ｊ−６）＋ｗ_n＋ｓ₄ ^*（｛ａ_i-4ａ_i-3ａ_i-1｝、Ｂ^* _j-3）＋ｓ₁ ^*（Ａ^* _i、Ｂ^* _j） …（数１４）Ｈ₁₁（ｉ、ｊ）＝Ｈ（ｉ−７、ｊ−６）＋ｗ_n＋ｓ₅（ｉ−４、ｊ−３）＋ｓ₁（ｉ、ｊ）＝Ｈ（ｉ−７、ｊ−６）＋ｗ_n＋ｓ₅ ^*（｛ａ_i-4ａ_i-2ａ_i-1｝、Ｂ^* _j-3）＋ｓ₁ ^*（Ａ^* _i、Ｂ^* _j） …（数１５）Ｈ₁₀（ｉ、ｊ）、Ｈ₁₁（ｉ、ｊ）は、点（ｉ−７、ｊ−
６）から点（ｉ、ｊ）への移動経路を含む。

【００８５】Ｈ（ｉ、ｊ）＝ｍａｘ｛Ｈ₁（ｉ、ｊ）、Ｈ₂（ｉ、ｊ）、Ｈ₃（ｉ、ｊ）、Ｈ₄（ｉ、ｊ）、Ｈ₅（ｉ、ｊ）、Ｈ₆（ｉ、ｊ）、Ｈ₇（ｉ、ｊ）、Ｈ₈（ｉ、ｊ）、Ｈ₉（ｉ、ｊ）、Ｈ₁₀（ｉ、ｊ）、Ｈ₁₁（ｉ、ｊ）｝ …（数１６）ｓ₁（ｉ、ｊ）＝ｓ₁ ^*（Ａ^* _i、Ｂ^* _j） …（数１７）ｓ₂（ｉ−３、ｊ−４）＝ｓ^*（Ａ^* _i-3、｛ｂ_j-4ｂ_j-3ｂ_j-1｝） …（数１８）ｓ₃（ｉ−３、ｊ−４）＝ｓ^*（Ａ^* _i-3、｛ｂ_j-4ｂ_j-2ｂ_j-1｝） …（数１９）ｓ₄（ｉ−４、ｊ−３）＝ｓ^*（｛ａ_i-4ａ_i-3ａ_i-1｝、Ｂ^* _j-3） …（数２０）ｓ₅（ｉ−４、ｊ−３）＝ｓ^*（｛ａ_i-4ａ_i-2ａ_i-1｝、Ｂ^* _j-3） …（数２１）なお、Ａ^* _iは、第１の翻訳アミノ酸配列（Ｑｕｅｒｙ
ＤＮＡｂａｓｅｓｅｑｕｅｎｃｅ（Ａ^*とする））
のｉ番目のコドン（３塩基）である。Ｂ^* _jは、第２の翻
訳アミノ酸配列（ＴａｒｇｅｔＤＮＡｂａｓｅｓ
ｅｑｕｅｎｃｅ（Ｂ^*とする））のｊ番目のコドン（３
塩基）である。ａ_iはＡ^*のｉ番目の塩基、ｂ_jはＢ^*のｊ
番目の塩基である。（数１７）から（数２１）の右辺
は、コドン間のスコアを示すので、各コドンを図５に従
ってアミノ酸に翻訳して、図４のスコアテーブルを使用
して決定できる。

【００８６】以上のようにして、第１から第４のマトリ
ックス群を独立に使用して、各マトリックス群毎に動的
計画法により、第１の翻訳アミノ酸配列と第２のアミノ
酸配列の各アミノ酸の間での最適な類似対応関係を表わ
す、最適経路（最適アライメント、最適並置）を求め
る。

【００８７】なお、ｗ_aはアミノ酸の、ｗ_nはＤＮＡ塩基
配列の塩基の挿入、欠失に伴うギャップペナルティを表
わす。本実施例では、ｗ_a＝ｗ_n＝−１２とした。また、
アミノ酸の挿入、欠失が連続して出現する場合には、１
回目の出現では、ｗ_a＝−１２として、２回目以降の出
現では、ｗ_a＝−４とした。

【００８８】次に、並置結果を得るための動的計画法に
よるスコア総計及び経路を演算する（工程３１２）、及
びスコア総計の最大値を与える経路をトレースする演算
を実行する（工程３１３）について詳細に説明する。

【００８９】（工程３１２）では、検索ＤＮＡ塩基配列
とＤＮＡ塩基配列データベースのＤＮＡ塩基配列から得
られた、上位スコア総計を与える２つのアミノ酸配列に
対して、（工程３０７）と同様の演算を行ない動的計画
法によるスコア総計を求める。但し、類似度（スコア）
の総計の他に、スコアマトリックスの各要素に対して、
（数５）から（数１６）により表わされる何れの演算経
路が選択されたかの情報、及び類似度（スコア）の総計
の最大値を与える移動経路を、スコアマトリックスの要
素の最終点の位置（ｉ、ｊ）として記憶しておく。

【００９０】（工程３１３）では、（工程３１２）に於
いて記憶された類似度の総計の最大値を与えるスコアマ
トリックスの要素の最終点の位置（ｉ、ｊ）から、各要
素で記憶されている演算経路を逆にトレースして、類似
度（スコア）の総計の最大値を与える翻訳アミノ酸配列
の間での並置結果を得ることができる。

【００９１】図１３は、本発明の実施例に於ける、動的
計画法の演算での９種類の方向の各移動経路に対応する
並置結果の一般例を示す図である。

【００９２】図１４は、本発明の実施例に於ける、動的
計画法の演算での９種類の方向の各移動経路に対応する
並置結果の具体例を示す図である。

【００９３】図１３、及び図１４に示す、並置例の第１
行は第１のＤＮＡ塩基配列、第２行は第１のＤＮＡ塩基
配列から翻訳された翻訳アミノ酸、第３行は第２のＤＮ
Ａ塩基配列から翻訳された翻訳アミノ酸、第４行は第２
のＤＮＡ塩基配列を表わす。また、記号「−」は、配
列、又はアミノ酸配列の欠失を表わし、記号「＊」は、
塩基の欠失、又はａ、ｃ、ｇ、ｔの何れとも決定されて
ていない不定のｎの存在により翻訳不能のアミノ酸を表
わす。

【００９４】次に、本実施例の実際の適用例について説
明する。ＤＮＡ塩基配列の公共データベースであるＧｅ
ｎＢａｎｋのＥＳＴデータベースに登録されている、シ
ロイヌナズナ（ａｒａｂｉｄｏｐｓｉｓｔｈａｌｉａ
ｎａ）に関する検索塩基配列（Ｑｕｅｒｙｓｅｑｕｅ
ｎｃｅ）を選び、ＥＳＴデータベースに登録されてい
る、ライス（ｏｒｉｚａｓａｔｉｖａ）由来の全配列
を比較検索の対象（Ｔａｒｇｅｔｓｅｑｕｅｎｃｅ）
とした。ＥＳＴデータベースに登録されているＤＮＡ塩
基配列は、ＤＮＡシーケンサの出力結果をそのまま登録
しているため、一定量のシーケンスエラーを含んでお
り、比較する２つのＤＮＡ塩基配列に存在する塩基の挿
入、及び欠失を考慮に入れ、アミノ酸配列を介在させて
比較を行なう本発明の有効性を確認する好適な例であ
る。

【００９５】図１５、図１６、図１７は、本発明の実施
例の比較検索で得られた並置結果例を示す図である。以
下、比較検索を行なった結果について説明する。図１
５、図１６、図１７に於いて、Ｑｕｅｒｙｓｅｑｕｅ
ｎｃｅの欄には、検索ＤＮＡ塩基配列に付けられた名
称、及び簡単な説明が記載され、Ｔａｒｇｅｔｓｅｑ
ｕｅｎｃｅの欄には、比較検索により抽出されたＥＳＴ
データベースからのＤＮＡ塩基配列に付けられた名称、
及び簡単な説明が記載されている。Ｓｃｏｒｅの欄に
は、類似度（スコア）の総計が記載され、その他、Ｑｕ
ｅｒｙ、及びＴａｒｇｅｔの長さ、並置されるＱｕｅｒ
ｙ、及びＴａｒｇｅｔ領域が記載されている。

【００９６】並値結果を表わすＱｕｅｒｙの欄には、上
段から、検索ＤＮＡ塩基配列（Ｑｕｅｒｙｓｅｑｕｅ
ｎｃｅ）と検索ＤＮＡ塩基配列から翻訳された翻訳アミ
ノ酸配列が記載され、並値結果を表わすＴａｒｇｅｔ
ｓｅｑｕｅｎｃｅの欄には、下段から比較検索により抽
出されたＤＮＡ塩基配列とこのＤＮＡ塩基配列から翻訳
された翻訳アミノ酸配列が記載されている。

【００９７】図１５に示す並値結果を表わすＱｕｅｒｙ
の欄のＤＮＡ塩基配列、翻訳アミノ酸配列は、各々配列
番号１、２により示され、並値結果を表わすＴａｒｇｅ
ｔの欄の翻訳アミノ酸配列、ＤＮＡ塩基配列は、各々配
列番号３、４により示される。図１６に示す並値結果を
表わすＱｕｅｒｙの欄のＤＮＡ塩基配列、翻訳アミノ酸
配列は、各々配列番号５、６により示され、並値結果を
表わすＴａｒｇｅｔの欄の翻訳アミノ酸配列、ＤＮＡ塩
基配列は、各々配列番号７、８により示される。図１７
に示す並値結果を表わすＱｕｅｒｙの欄のＤＮＡ塩基配
列、翻訳アミノ酸配列は、各々配列番号９、１０により
示され、並値結果を表わすＴａｒｇｅｔの欄の翻訳アミ
ノ酸配列、ＤＮＡ塩基配列は、各々配列番号１１、１２
により示される。

【００９８】なお、図１５、図１６、図１７に於いて、
上下段の翻訳アミノ酸配列を結ぶ、記号「：」は、対応
する翻訳アミノ酸が一致することを示し、記号「．」
は、対応するアミノ酸の間の対に対応するスコアマトリ
ックスの値が正であること示す。記号「」（ブラン
ク）は、対応するアミノ酸の間の対に対応するスコアマ
トリックスの値が、０又は負であること示す。記号
「−」は、塩基、又はアミノ酸配列の欠失を示す。記号
「ｎ」は、ａ、ｃ、ｇ、ｔの何れとも決定されておらず
不定であることを示す。記号「＊」は、塩基の欠失、又
は不定のｎの存在により翻訳不能のアミノ酸を表わす。

【００９９】図１５に示す四角で示した領域ｂ、ｂ’、
ｃ、ｄ、ｅに関して以下説明する。領域ｂ、ｂ’は、ア
ミノ酸の挿入、又は欠失、即ち（数６）、又は（数７）
に対応する結果を最適経路に含むことを示す。領域ｃ
は、塩基の欠失、即ち（数８）、又は（数９）を含むこ
とを示す。領域ｄ、ｅは、塩基の挿入に相当し、領域ｄ
は（数１０）、又は（数１１）に対応する結果を最適経
路に含むことを示し、領域ｅは、（数１２）〜（数１
５）の何れかに対応する結果を最適経路に含むことを示
す。

【０１００】図１６、図１７に示す四角で囲った部分の
みが、従来技術のＴＢＬＡＳＴＸを適用して得られた領
域である。本発明の方法では、従来技術のＴＢＬＡＳＴ
Ｘを適用して得られない領域に関して、翻訳アミノ酸配
列を介して２つの塩基配列に関する類似関係に関する情
報が得られる。特に、図１６に示す結果例を、従来技術
のＴＢＬＡＳＴＸによる結果と比較すると、本願発明の
結果の方が、連続したより広い領域での類似関係に関す
る情報が得られている。特に、図１７に示す例では、本
発明の方法では、従来技術のＴＢＬＡＳＴＸによる方法
よりも３倍長い領域での類似関係に関する情報が得られ
ている。

【０１０１】本発明では、アミノ酸の挿入、欠失、ＤＮ
Ａ塩基配列の塩基の挿入、欠失を全て考慮しているた
め、より高い類似度（スコアの総計が大きい）で、塩基
配列の広い領域にわたって比較、検索を行なうことがで
き、塩基配列の広い領域での並置結果を得ることができ
る。この結果、ＤＮＡ塩基配列がコードしているアミノ
酸配列に関して、より完全な配列を得ることが可能とな
る。ＤＮＡ塩基配列がコードしている蛋白質のアミノ酸
配列を知ることは、遺伝子の生物学的機能の解析を進め
る上での第１歩となる。現在、利用可能なアミノ酸配列
データベースのデータ数はＤＮＡ塩基配列データベース
と比較するとはるかに少なく、測定の結果得られたＤＮ
Ａ塩基配列から本発明の方法により、アミノ酸配列を介
在させてアミノ酸配列に関する情報を知ることは、蛋白
質の機能の解析に有用な情報を与える。

【０１０２】図１８は、本発明のＤＮＡ塩基配列比較方
法が実施される装置の構成を示す図である。本発明のＤ
ＮＡ塩基配列比較方法が実行される装置は、上記の第１
と第２のＤＮＡ塩基配列を入力する装置４０１と、ＤＮ
Ａ塩基配列からアミノ酸配列へ翻訳する翻訳プログラ
ム、上記の第１と第２の翻訳アミノ酸配列の配列比較プ
ログラム、第１と第２の翻訳アミノ酸配列どうしの並
置、及び第１と第２の翻訳アミノ酸配列に各々対応する
ＤＮＡ塩基配列の並置を実行するプログラムを内蔵する
演算処理装置４０２と、類似度の総計の最大値と第１と
第２の翻訳アミノ酸配列の並置結果、及び第１と第２の
翻訳アミノ酸配列に各々対応するＤＮＡ塩基配列の並置
結果を出力する出力装置４０３と、各種のＤＮＡ塩基配
列データベース、各種のアミノ酸配列データベース、ス
コアテーブル、コドン表等を記憶格納する外部記憶装置
４０４とを含んでいる。

【０１０３】以下に、本発明の概要を整理しておく。本
発明は、（Ａ）（１）第１、及び第２のＤＮＡ塩基配列
を、３塩基長の塩基群に各々分割し、各塩基群をアミノ
酸に翻訳して、第１、及び第２のアミノ酸配列を求める
工程と、（２）第１、及び第２のＤＮＡ塩基配列に於け
る塩基の挿入、欠失、及び、第１、及び第２の翻訳アミ
ノ酸配列に於けるアミノ酸の挿入、及び欠失を各々考慮
して、第１の翻訳アミノ酸配列と第２の翻訳アミノ酸配
列に於ける各アミノ酸の配列の比較の結果得られる類似
度を総計して、類似度の総計が最大となるような、第
１、及び第２の翻訳アミノ酸配列の各アミノ酸どうしの
対応関係を求める工程と、（３）類似度の総計の最大値
と、第１と第２の翻訳アミノ酸配列との並置と、第１の
翻訳アミノ酸配列と第１のＤＮＡ塩基配列との間の並置
と、第２の翻訳アミノ酸配列と第２のＤＮＡ塩基配列と
の間の並置とを出力する工程とを有し、工程（１）は、
第１、及び第２のＤＮＡ塩基配列を各々、（Ｉ）末端か
ら３塩基の単位で順次１塩基づつずらしながらアミノ酸
配列に翻訳すること、（ＩＩ）末端から４塩基の単位で
順次１塩基づつずらし、４塩基のうちの２番目の塩基を
除く４塩基のうちの残りの３塩基をアミノ酸配列に翻訳
すること、（ＩＩＩ）末端から４塩基の単位で順次１塩
基づつずらし、４塩基のうちの３番目の塩基を除く４塩
基のうちの残りの３塩基をアミノ酸配列に翻訳するこ
と、を含み、第１と第２のＤＮＡ塩基配列の間の類似度
を比較するＤＮＡ塩基配列比較方法に特徴がある。

【０１０４】（Ａ）に於いて、ｋ≧１、ｍ≧１を満たす
整数、ｎ≧２を満たす整数とし、ｉ≦Ｍ（Ｍは、第１の
翻訳アミノ酸配列に於けるアミノ酸の数）、ｊ≦Ｎ（Ｎ
は、第２の翻訳アミノ酸配列に於けるアミノ酸の数）と
する時、工程（２）に於いて、第１の翻訳アミノ酸配列
の各アミノ酸を順次第１の軸の方向に配列し、第２の翻
訳アミノ酸配列の各アミノ酸を順次第２の軸の方向に配
列して得られるマトリックスを形成し、第１の翻訳アミ
ノ酸配列のｉ番目のアミノ酸と、第２の翻訳アミノ酸配
列のｊ番目のアミノ酸との対の位置を表わす、マトリッ
クスの要素（ｉ、ｊ）に於ける類似度を総計を求める際
に、マトリックスの要素（ｉ、ｊ）に至る、マトリック
スの要素、（ｉ−３、ｊ−３）、（ｉ、ｊ−３ｋ）、
（ｉ−３ｋ、ｊ）、（ｉ−３ｎ＋１、ｊ−３ｎ）、（ｉ
−３ｎ、ｊ−３ｎ＋１）、（ｉ−３ｍ、ｊ−３ｍ−
１）、（ｉ−３ｍ−１、ｊ−３ｍ）の７つの経路のうち
から、類似度の総和が最大となるように何れかの経路を
選ぶことに特徴がある。

【０１０５】また、本発明は、（Ｂ）（１）第１、及び
第２のＤＮＡ塩基配列を、３塩基長の塩基群に各々分割
し、各塩基群をアミノ酸に翻訳して、第１、及び第２の
アミノ酸配列を求める工程と、（２）第１、及び第２の
ＤＮＡ塩基配列に於ける塩基の挿入、欠失、及び、第
１、及び第２の翻訳アミノ酸配列に於けるアミノ酸の挿
入、及び欠失を各々考慮して、第１の翻訳アミノ酸配列
と第２の翻訳アミノ酸配列に於ける各アミノ酸の配列の
比較の結果得られる類似度を総計して、類似度の総計が
最大となるような、第１、及び第２の翻訳アミノ酸配列
の各アミノ酸どうしの対応関係を求める工程と、（３）
類似度の総計の最大値と、第１と第２の翻訳アミノ酸配
列との並置と、第１の翻訳アミノ酸配列と第１のＤＮＡ
塩基配列との間の並置と、第２の翻訳アミノ酸配列と第
２のＤＮＡ塩基配列との間の並置と出力する工程とを有
し、第１と第２のＤＮＡ塩基配列の間の類似度を比較す
るＤＮＡ塩基配列比較方法に特徴がある。

【０１０６】更に、（Ａ）、及び（Ｂ）に於いて、第１
のＤＮＡ塩基配列を、第１のＤＮＡ塩基配列の相補鎖塩
基配列に置き換え、第２のＤＮＡ塩基配列を、第２のＤ
ＮＡ塩基配列の相補鎖塩基配列に置き換えて、工程
（１）、（２）、（３）を行なう工程を有することに特
徴を有する。

【０１０７】

【発明の効果】本発明によれば、翻訳アミノ酸配列を介
するＤＮＡ塩基配列の間での類似度の比較が可能となる
ため、類似度の比較の際に使用するスコアテーブルに、
アミノ酸の一致、不一致の他に、アミノ酸の親水性、又
は疎水性等の化学的特性や、アミノ酸の大きさ等の物理
的特性を反映させておくことにより、きめの細かい比較
が可能となり、ＤＮＡ塩基配列間の類似度検索の感度が
向上する。

【０１０８】またＤＮＡ塩基配列に存在する塩基の挿
入、欠失、及び翻訳アミノ酸配列中のアミノ酸の挿入、
欠失を考慮した比較が実現できるため、検索もれを少な
くできる。

【０１０９】

【配列表】

配列表配列番号：１配列の長さ：２５４配列の型：核酸鎖の数：両形態トポロジー：直鎖状配列の種類：cDNA to mRNA 起源生物種：Arabidopsis thaliana 配列の特徴特徴を表す記号：mRNA 特徴を決定した方法：E 配列 TTCATTCATC CGTNGTTCCC CAGCTCCAAT CAGTCTCCGT TCCCTTCCAT CAGCCAACAC 60 ACAATCCCTC TTCGGTCTCA AATCAGGCAC CGCTCGTGGT GGACGTGTCA CAGCCATGGC 120 TACATACAAG GTCAAGTTCA TCACACCAGA AGGTGAGCTA GAGGTTGAGT GTGACGNCGN 180 CGTCTACGTT CTTNATGCTG CTGAGGAAGC TGGAATCGAT TTTGCCTTAC TCTTGCCGTG 240 CTGGTTCTTG TTCG 254 配列番号：２配列の長さ：８４配列の型：アミノ酸トポロジー：不明配列の種類：タンパク質ハイポセティカル配列：Ｙｅｓ配列 Phe Ile His Pro Xaa Phe Pro Ser Ser Asn Arg Leu Arg Ser Leu Pro 16 Ser Ala Asn Thr Gln Ser Leu Phe Gly Leu Lys Ser Gly Thr Ala Arg 32 Gly Gly Arg Val Thr Ala Met Ala Thr Tyr Lys Val Lys Phe Ile Thr 48 Pro Glu Gly Glu Leu Glu Val Glu Cys Asp Xaa Xaa Val Tyr Val Leu 64 Xaa Ala Ala Glu Glu Ala Gly Ile Ile Leu Pro Tyr Ser Cys Arg Ala 80 Gly Ser Cys Ser 84 配列番号：３配列の長さ：８７配列の型：アミノ酸トポロジー：不明配列の種類：タンパク質ハイポセティカル配列：Ｙｅｓ配列 Phe Leu Asn Pro Ala Arg Pro Leu Leu Arg Arg Pro Arg Ala Leu Pro 16 Ser Leu Val Thr Gln Ser Lys His Xaa Asn Met Ser Gly Leu Arg Ile 32 Ser Asn Lys Phe Arg Val Ser Ala Thr Gly Xaa His Lys Val Lys Leu 48 Ile Gly Pro Asp Gly Val Glu His Glu Phe Glu Ala Pro Glu Asp Thr 64 Tyr Ile Leu Glu Ala Ala Glu Thr Ala Gly Val Xaa Leu Pro Xaa Xaa 80 Cys Arg Ala Gly Ser Cys Ser 87 配列番号：４配列の長さ：２６０配列の型：核酸鎖の数：両形態トポロジー：直鎖状配列の種類：cDNA to mRNA 起源生物種：Oriza sativa 配列の特徴特徴を表す記号：mRNA 特徴を決定した方法：E 配列 TTCCTAAACC CGGCGCGGCC ATTGCTCCGG CGACCAAGAG CCCTTCCTTC ATTGGTTACG 60 CAAAGCAAAC ATTGAACATG TCAGGCCTAA GGATCTCCAA CAAGTTCAGG GTGTCCGCGA 120 CAGGTNGTCA CAAGGTAAAG CTTATAGGCC CGGACGGTGT CGAGCACGAG TTTGAAGCCC 180 CTGAAGATAC CTACATTCTC GAGGCCGCTG AAACTGCCGG GGTGGNGCTG CCATTNTNAT 240 GCCGTGCTGG ATCATGCTCC 260 配列番号：５配列の長さ：２５８配列の型：核酸鎖の数：両形態トポロジー：直鎖状配列の種類：cDNA to mRNA 起源生物種：Arabidopsis thaliana 配列の特徴特徴を表す記号：mRNA 特徴を決定した方法：E 配列 ATGGCGAATT CCGGCGAAGA GAAGTTGAAG CTCTACTCTT ACTGGAGAAG CTCGTGTGCT 60 CATCGTGTCC GTATCGCCCT CGCTTTGAAA GGGCTTGATT ATNAGTATAT ACCAGTGAAT 120 TTNCTCAAGG GTGATCAATT CGATTCANAT TTCAAGAAGA TCAATCCAAT GGGAACTGTA 180 CCAGCTCTGG TGGATGGAGA TGTTGTGATT AATGATTCTT TTGCGATAAT AATGTATCTG 240 GATGAGAAGT ACCCTGAG 258 配列番号：６配列の長さ：８６配列の型：アミノ酸トポロジー：不明配列の種類：タンパク質ハイポセティカル配列：Ｙｅｓ配列 Met Ala Asn Ser Gly Glu Glu Lys Leu Lys Leu Tyr Ser Tyr Trp Arg 16 Ser Ser Cys Ala His Arg Val Arg Ile Ala Leu Ala Leu Lys Gly Leu 32 Asp Tyr Xaa Tyr Ile Pro Val Asn Xaa Leu Lys Gly Asp Gln Phe Asp 48 Ser Xaa Phe Lys Lys Ile Asn Pro Met Gly Thr Val Pro Ala Leu Val 64 Asp Gly Asp Val Val Ile Asn Asp Ser Phe Ala Ile Ile Met Tyr Leu 80 Asp Glu Lys Tyr Pro Glu 86 配列番号：７配列の長さ：８３配列の型：アミノ酸トポロジー：不明配列の種類：タンパク質ハイポセティカル配列：Ｙｅｓ配列 Met Ala Gly Ser Gly Asp Glu Leu Met Leu Leu Gly Lys Trp Pro Ser 16 Pro Phe Val Thr Arg Val Glu Leu Ala Leu Gly Leu Lys Gly Leu Ser 32 Tyr Glu Tyr Val Lys Gln Asp Leu Val Asn Lys Ser Glu Leu Leu Leu 48 Ala Ser Asn Pro Val His Lys Lys Ile Pro Val Leu Ile His Asn Gly 64 Lys Pro Val Cys Glu Ser Ser Ile Ile Val Gln Tyr Ile Asp Glu Ala 80 Phe Pro Asp 83 配列番号：８配列の長さ：２４９配列の型：核酸鎖の数：両形態トポロジー：直鎖状配列の種類：cDNA to mRNA 起源生物種：Oriza sativa 配列の特徴特徴を表す記号：ｍＲＮＡ特徴を決定した方法：Ｅ配列 ATGGCCGGAT CAGGAGACGA GCTGATGCTG CTCGGCAAAT GGCCAAGCCC ATTCGTCACC 60 AGGGTTGAGC TCGCGCTCGG CCTCAAGGGC CTCAGCTACG AGTACGTCAA GCAGGACCTC 120 GTCAACAAGA GCGAGCTCCT CCTCGCCTCC AACCCGGTGC ACAAGAAGAT CCCCGTGCTC 180 ATCCACAACG GCAAGCCGGT CTGCGAGTCG TCAATCATCG TGCAGTACAT CGACGAGGCC 240 TTCCCCGAC 249 配列番号：９配列の長さ：１８６配列の型：核酸鎖の数：両形態トポロジー：直鎖状配列の種類：cDNA to mRNA 起源生物種：Arabidopsis thaliana 配列の特徴特徴を表す記号：mRNA 特徴を決定した方法：E 配列 GGAAGAGCTC CATGCTGCGA CAAGGCAAAC NTGAAGAAAG GACCATGGTC ACCGGAAGAN 60 GATGTGAAGC TCAAGGTTTA CATCGACAAA TATGGCACTG GTGGCAACTG GTTCGCACTG 120 CCTCAGAAAN TTGGNCTGAA GAGATGTGGT AAGANTTGCA GACTGAGATG GCTTAATTNC 180 TTAAGA 186 配列番号：１０配列の長さ：６２配列の型：アミノ酸トポロジー：不明配列の種類：タンパク質ハイポセティカル配列：Ｙｅｓ配列 Gly Arg Ala Pro Cys Cys Asp Lys Ala Asn Xaa Lys Lys Gly Pro Trp 16 Ser Pro Glu Xaa Asp Xaa Glu Ala Gln Gly Leu His Arg Gln Ile Trp 32 His Trp Trp Gln Leu Val Arg Leu Pro Gln Lys Xaa Xaa Leu Lys Arg 48 Cys Gly Lys Xaa Cys Arg Leu Arg Trp Leu Asn Xaa Leu Arg 62 配列番号：１１配列の長さ：６２配列の型：アミノ酸トポロジー：不明配列の種類：タンパク質ハイポセティカル配列：Ｙｅｓ配列 Gly Arg His Ser Cys Cys Tyr Lys Gln Lys Leu Arg Lys Gly Leu Trp 16 Ser Xaa Glu Glu Asp Glu Glu Ala His Gly Pro His Asn Gln Ala Trp 32 Xaa Trp Leu Leu Gly His Arg Phe Gln Asn Leu Gln Gly Phe Gln Arg 48 Cys Ala Lys Ala Phe Arg Leu Arg Trp Xaa Asn Tyr Leu Arg 62 配列番号：１２配列の長さ：１８８配列の型：核酸鎖の数：両形態トポロジー：直鎖状配列の種類：cDNA to mRNA 起源生物種：Oriza sativa 配列の特徴特徴を表す記号：mRNA 特徴を決定した方法：E 配列 GGGAGACATT CCTGCTGCTA CAAGCAGAAG CTGAGGAAGG GGCTCTGGTC ANCTGAGGAG 60 GATGAGGAAG CTCATGGACC ACATAACCAA GCATGGNCAT GGCTGCTGGG GCACCGTTTC 120 CAAAACTTGC AGGGGTTTCA GAGATGTNGC AAAAGCTTTC AGGCTGAGGT TGGGTNAACT 180 ACTTGAGG 188

【図面の簡単な説明】

【図１】従来技術に於ける、ＤＮＡ塩基配列からアミノ
酸配列へ翻訳する際のＤＮＡ塩基配列に対する６種類の
読み枠を説明する図。

【図２】従来技術のＳｍｉｔｈ−Ｗａｔｅｒｍａｎ法を
使用して、ＤＮＡ塩基配列の比較を行なう際のスコアの
加算経路を説明する図。

【図３】本発明の実施例に於ける処理工程の例を説明す
るフロー図。

【図４】本発明の実施例に於いて使用した、アミノ酸の
対に付与するスコアを規定する従来技術のテーブルの一
例を示す図。

【図５】コドン表の３塩基単位（コドン単位）の各々に
対応して、アミノ酸への翻訳の終止、アミノ酸の種類を
規定する、従来技術のコドン表を示す図。

【図６】本発明の実施例に於ける、ＤＮＡ塩基配列をア
ミノ酸配列に翻訳する第１の翻訳方法を説明する図。

【図７】本発明の実施例に於ける、ＤＮＡ塩基配列をア
ミノ酸配列に翻訳する第２、第３の翻訳方法を説明する
図。

【図８】本発明の実施例に於ける、翻訳アミノ酸配列の
比較を行なう際のスコアの加算経路を説明する図。

【図９】本発明の実施例に於いて、スコアｓ₂（ｉ−
３、ｊ−４）を求める点（ｉ−３、ｊ−４）を示す図。

【図１０】本発明の実施例に於いて、スコアｓ₃（ｉ−
３、ｊ−４）を求める点（ｉ−３、ｊ−４）を示す図。

【図１１】本発明の実施例に於いて、スコアｓ₄（ｉ−
４、ｊ−３）を求める点（ｉ−４、ｊ−３）を示す図。

【図１２】本発明の実施例に於いて、スコアｓ₅（ｉ−
４、ｊ−３）を求める点（ｉ−４、ｊ−３）を示す図。

【図１３】本発明の実施例に於ける、動的計画法の演算
での９種類の方向の各移動経路に対応する並置結果の一
般例を示す図。

【図１４】本発明の実施例に於ける、動的計画法の演算
での９種類の方向の各移動経路に対応する並置結果の具
体例を示す図。

【図１５】本発明の実施例の比較検索で得られた並置結
果例を示す図。

【図１６】本発明の実施例の比較検索で得られた並置結
果例を示す図。

【図１７】本発明の実施例の比較検索で得られた並置結
果例を示す図。

【図１８】本発明のＤＮＡ塩基配列比較方法が実施され
る装置の構成を示す図。

【符号の説明】

３０１…スコアテーブルを入力する工程、３０２…検索
結果の出力数を入力する工程、３０３…検索ＤＮＡ塩基
配列を入力する工程、３０４…検索ＤＮＡ塩基配列をア
ミノ酸配列に翻訳する工程、３０５…ＤＮＡ塩基配列を
読み出す工程、３０６…ＤＮＡ塩基配列をアミノ酸配列
に翻訳する工程、３０７…動的計画法によるスコア総計
の工程、３０８…検索結果の出力数までの上位スコア総
計を持つＤＮＡ塩基配列を選択する工程、３０９…上位
スコア総計をソートする工程、３１０…上位スコア総計
を持つＤＮＡ塩基配列を表示する工程、３１１…並置結
果の出力数を入力する工程、３１２…動的計画法による
スコア総計及び経路を演算する工程、３１３…スコア総
計の最大値を与える経路のトレースを演算する工程、３
１４…並置結果を表示する工程、４０１…入力装置、４
０２…演算処理装置、４０３…出力装置、４０４…外部
記憶装置。

───────────────────────────────────────────────────── フロントページの続き (72)発明者笠原直子東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内

Claims

【特許請求の範囲】

【請求項１】（１）第１、及び第２のＤＮＡ塩基配列
を、３塩基長の塩基群に各々分割し、各塩基群をアミノ
酸に翻訳して、第１、及び第２のアミノ酸配列を求める
工程と、（２）前記第１、及び前記第２のＤＮＡ塩基配
列に於ける塩基の挿入、欠失、及び、前記第１、及び前
記第２の翻訳アミノ酸配列に於けるアミノ酸の挿入、及
び欠失を各々考慮して、前記第１の翻訳アミノ酸配列と
前記第２の翻訳アミノ酸配列に於ける各アミノ酸の配列
の比較の結果得られる類似度を総計して、前記類似度の
総計が最大となるような、前記第１、及び第２の翻訳ア
ミノ酸配列の各アミノ酸どうしの対応関係を求める工程
と、（３）前記類似度の総計の最大値と、前記第１と第
２の翻訳アミノ酸配列との並置と、前記第１の翻訳アミ
ノ酸配列と前記第１のＤＮＡ塩基配列との間の並置と、
前記第２の翻訳アミノ酸配列と前記第２のＤＮＡ塩基配
列との間の並置とを出力する工程とを有し、前記工程
（１）は、前記第１、及び第２のＤＮＡ塩基配列を各
々、（Ｉ）５’末端から３塩基の単位で順次塩基づつず
らしながらアミノ酸配列に翻訳すること、（ＩＩ）５’
末端から４塩基の単位で順次１塩基づつずらし、前記４
塩基のうちの２番目の塩基を除く前記４塩基のうちの残
りの３塩基をアミノ酸配列に翻訳すること、（ＩＩＩ）
５’末端から４塩基の単位で順次１塩基づつずらし、前
記４塩基のうちの３番目の塩基を除く前記４塩基のうち
の残りの３塩基をアミノ酸配列に翻訳すること、を含
み、前記第１と第２のＤＮＡ塩基配列の間の類似度を比
較するＤＮＡ塩基配列比較方法。
【請求項２】クレーム１のＤＮＡ塩基配列比較方法に於
いて、ｋ≧１、ｍ≧１を満たす整数、ｎ≧２を満たす整
数とし、ｉ≦Ｍ（Ｍは、前記第１の翻訳アミノ酸配列に
於けるアミノ酸の数）、ｊ≦Ｎ（Ｎは、前記第２の翻訳
アミノ酸配列に於けるアミノ酸の数）とする時、前記工
程（２）に於いて、前記第１の翻訳アミノ酸配列の各ア
ミノ酸を順次第１の軸の方向に配列し、前記第２の翻訳
アミノ酸配列の各アミノ酸を順次第２の軸の方向に配列
して得られるマトリックスを形成し、前記第１の翻訳ア
ミノ酸配列のｉ番目のアミノ酸と、前記第２の翻訳アミ
ノ酸配列のｊ番目のアミノ酸との対の位置を表わす、前
記マトリックスの要素（ｉ、ｊ）に於ける前記類似度を
総計を求める際に、前記マトリックスの要素（ｉ、ｊ）
に至る、前記マトリックスの要素、（ｉ−３、ｊ−
３）、（ｉ、ｊ−３ｋ）、（ｉ−３ｋ、ｊ）、（ｉ−３
ｎ＋１、ｊ−３ｎ）、（ｉ−３ｎ、ｊ−３ｎ＋１）、
（ｉ−３ｍ、ｊ−３ｍ−１）、（ｉ−３ｍ−１、ｊ−３
ｍ）から、前記類似度の総和が最大となるように何れか
前記経路を選ぶＤＮＡ塩基配列比較方法。
【請求項３】クレーム１のＤＮＡ塩基配列比較方法に於
いて、ｉ≦Ｍ（Ｍは、前記第１の翻訳アミノ酸配列に於
けるアミノ酸の数）、ｊ≦Ｎ（Ｎは、前記第２の翻訳ア
ミノ酸配列に於けるアミノ酸の数）とする時、前記工程
（２）に於いて、前記第１の翻訳アミノ酸配列の各アミ
ノ酸を順次第１の軸の方向に配列し、前記第２の翻訳ア
ミノ酸配列の各アミノ酸を順次第２の軸の方向に配列し
て得られるマトリックスを形成し、前記第１の翻訳アミ
ノ酸配列のｉ番目のアミノ酸と、前記第２の翻訳アミノ
酸配列のｊ番目のアミノ酸との対の位置を表わす、前記
マトリックスの要素（ｉ、ｊ）に於ける前記類似度を総
計を求める際に、前記マトリックスの要素（ｉ、ｊ）に
至る、前記マトリックスの要素、（ｉ−３、ｊ−３）、
（ｉ、ｊ−３）、（ｉ−３、ｊ）、（ｉ−５、ｊ−
６）、（ｉ−６、ｊ−５）、（ｉ−３、ｊ−４）、（ｉ
−４、ｊ−３）から、前記類似度の総和が最大となるよ
うに何れかの前記経路を選ぶＤＮＡ塩基配列比較方法。
【請求項４】クレーム１のＤＮＡ塩基配列比較方法に於
いて、前記第１のＤＮＡ塩基配列を、前記第１のＤＮＡ
塩基配列の相補鎖塩基配列に置き換え、前記第２のＤＮ
Ａ塩基配列を、前記第２のＤＮＡ塩基配列の相補鎖塩基
配列に置き換えて、前記工程（１）、（２）、（３）を
行なう工程を有するＤＮＡ塩基配列比較方法。
【請求項５】（１）第１、及び第２のＤＮＡ塩基配列
を、３塩基長の塩基群に各々分割し、各塩基群をアミノ
酸に翻訳して、第１、及び第２のアミノ酸配列を求める
工程と、（２）前記第１、及び前記第２のＤＮＡ塩基配
列に於ける塩基の挿入、欠失、及び、前記第１、及び前
記第２の翻訳アミノ酸配列に於けるアミノ酸の挿入、及
び欠失を各々考慮して、前記第１の翻訳アミノ酸配列と
前記第２の翻訳アミノ酸配列に於ける各アミノ酸の配列
の比較の結果得られる類似度を総計して、前記類似度の
総計が最大となるような、前記第１、及び第２の翻訳ア
ミノ酸配列の各アミノ酸どうしの対応関係を求める工程
と、（３）前記類似度の総計の最大値と、前記第１と第
２の翻訳アミノ酸配列との並置と、前記第１の翻訳アミ
ノ酸配列と前記第１のＤＮＡ塩基配列との間の並置と、
前記第２の翻訳アミノ酸配列と前記第２のＤＮＡ塩基配
列との間の並置と出力する工程とを有し、前記第１と第
２のＤＮＡ塩基配列の間の類似度を比較するＤＮＡ塩基
配列比較方法。
【請求項６】クレーム５のＤＮＡ塩基配列比較方法に於
いて、前記第１のＤＮＡ塩基配列を、前記第１のＤＮＡ
塩基配列の相補鎖塩基配列に置き換え、前記第２のＤＮ
Ａ塩基配列を、前記第２のＤＮＡ塩基配列の相補鎖塩基
配列に置き換えて、前記工程（１）、（２）、（３）を
行なう工程を有するＤＮＡ塩基配列比較方法。
【請求項７】（１）第１、第２のＤＮＡ塩基配列を５’
末端から１塩基ずらして３塩基を切り出して順次アミノ
酸に翻訳して翻訳アミノ酸配列Ａ₁、Ｂ₁を各々得る工程
と、（２）前記第１、第２のＤＮＡ塩基配列の相補鎖配
列を５’末端から１塩基ずらして３塩基を切り出して順
次アミノ酸に翻訳して翻訳アミノ酸配列Ａ₂、Ｂ₂を各々
得る工程と、（３）前記第１、第２ののＤＮＡ塩基配列
を５’末端から１塩基ずらして４塩基を切り出して２番
目の塩基を除く３塩基をアミノ酸に翻訳することを、４
塩基を切り出し毎に順次行ない翻訳アミノ酸配列Ａ₃、
Ｂ₃を各々得る工程と、（４）前記ＤＮＡ塩基配列の
５’末端から１塩基ずらして４塩基を切り出して３番目
の塩基を除く３塩基をアミノ酸に翻訳することを、４塩
基の切り出し毎に順次行ない翻訳アミノ酸配列Ａ₄、Ｂ₄
を各々得る工程と、（５）前記第１のＤＮＡ塩基配列の
相補鎖配列を５’末端から１塩基ずらして４塩基を切り
出して２番目の塩基を除く３塩基をアミノ酸に翻訳する
ことを、４塩基を切り出し毎に順次行ない翻訳アミノ酸
配列Ａ₅、Ｂ₅を各々得る工程と、（６）前記第１、第２
のＤＮＡ塩基配列の相補鎖配列の５’末端から１塩基ず
らして４塩基を切り出して３番目の塩基を除く３塩基を
アミノ酸に翻訳することを、４塩基の切り出し毎に順次
行ない翻訳アミノ酸配列Ａ₆、Ｂ₆を各々得る工程と、
（７）前記翻訳アミノ酸配列Ａ₁、又はＡ₂からなる第１
の翻訳アミノ酸配列を第１の軸に沿って、前記翻訳アミ
ノ酸配列Ｂ₁、又はＢ₂からなる第２の翻訳アミノ酸配列
を第２の軸に沿って、前記第１、第２の翻訳アミノ酸配
列の塩基配列を５’末端より各々配列してマトリックス
を形成し、マトリックス要素（ｉ、ｊ）の値が、前記第
１の翻訳アミノ酸配列のｉ番目のアミノ酸までのアミノ
酸配列と前記第２の翻訳アミノ酸配列のｊ番目のアミノ
酸までのアミノ酸配列との間における類似度の総計を表
わす、スコアマトリックスＨと、前記翻訳アミノ酸配列
Ａ₁、Ａ₂、Ａ₃、Ａ₄、Ａ₅、Ａ₆から選択される前記翻訳
アミノ酸配列を、第１、第３、第５、第７、又は第９の
翻訳アミノ酸配列として第１の軸に沿って、前記翻訳ア
ミノ酸配列Ｂ₁、Ｂ₂、Ｂ₃、Ｂ₄、Ｂ₅、Ｂ₆から選択され
る前記翻訳アミノ酸配列を、第２、第４、第６、第８、
又は第１０の翻訳アミノ酸配列として第２の軸に沿っ
て、前記翻訳アミノ酸の各々の塩基配列の５’末端より
配列して、前記翻訳アミノ酸配列のｉ番目のアミノ酸と
前記翻訳アミノ酸配列のｊ番目のアミノ酸との類似度を
表わす、第１、第２、第３、第４、第５のマトリックス
ｓ₁（ｉ、ｊ）、ｓ₂（ｉ、ｊ）、ｓ（ｉ、ｊ）₃、ｓ
（ｉ、ｊ）₄、ｓ₅（ｉ、ｊ）との５つのマトリックスか
らなる、第１、第１、第３、第４、第５のマトリックス
群からなり、前記第１のマトリックス群は、前記翻訳ア
ミノ酸配列Ａ₁及び前記翻訳アミノ酸配列Ｂ₁から構成さ
れるスコアマトリックスＨと、前記翻訳アミノ酸配列Ａ
₁及び前記翻訳アミノ酸配列Ｂ₁から構成される第１のマ
トリックスｓ₁と、前記翻訳アミノ酸配列Ａ₁及び前記翻
訳アミノ酸配列Ｂ₃から構成される第２のマトリックス
ｓ₂と、前記翻訳アミノ酸配列Ａ₁及び前記翻訳アミノ酸
配列Ｂ₄から構成される第３のマトリックスｓ₃と、前記
翻訳アミノ酸配列Ａ₃及び前記翻訳アミノ酸配列Ｂ₁から
構成される第４のマトリックスｓ₄と、前記翻訳アミノ
酸配列Ａ₄及び前記翻訳アミノ酸配列Ｂ₁から構成される
第５のマトリックスｓ₅とからなり、前記第２のマトリ
ックス群は、前記翻訳アミノ酸配列Ａ₁及び前記翻訳ア
ミノ酸配列Ｂ₂から構成される第１のスコアマトリック
スＨと、前記翻訳アミノ酸配列Ａ₁及び前記翻訳アミノ
酸配列Ｂ₂から構成される第１のマトリックスｓ₁と、前
記翻訳アミノ酸配列Ａ₁及び前記翻訳アミノ酸配列Ｂ₅か
ら構成される第２のマトリックスｓ₂と、前記翻訳アミ
ノ酸配列Ａ₁及び前記翻訳アミノ酸配列Ｂ₆から構成され
る第３のマトリックスｓ₃と、前記翻訳アミノ酸配列Ａ₃
及び前記翻訳アミノ酸配列Ｂ₂から構成される第４のマ
トリックスｓ₄と、前記翻訳アミノ酸配列Ａ₄及び前記翻
訳アミノ酸配列Ｂ₂から構成される第５のマトリックス
ｓ₅とからなり、前記第３のマトリックス群は、前記翻
訳アミノ酸配列Ａ₂及び前記翻訳アミノ酸配列Ｂ₁から構
成される第１のスコアマトリックスＨと、前記翻訳アミ
ノ酸配列Ａ₂及び前記翻訳アミノ酸配列Ｂ₁から構成され
る第１のマトリックスｓ₁と、前記翻訳アミノ酸配列Ａ₂
及び前記翻訳アミノ酸配列Ｂ₃から構成される第２のマ
トリックスｓ₂と、前記翻訳アミノ酸配列Ａ₂及び前記翻
訳アミノ酸配列Ｂ₄から構成される第３のマトリックス
ｓ₃と、前記翻訳アミノ酸配列Ａ₅及び前記翻訳アミノ酸
配列Ｂ₁から構成される第４のマトリックスｓ₄と、前記
翻訳アミノ酸配列Ａ₆、Ｂ₁から構成される第５のマトリ
ックスｓ₅とからなり、前記第４のマトリックス群は、
前記翻訳アミノ酸配列Ａ₂及び前記翻訳アミノ酸配列Ｂ₂
から構成される第１のスコアマトリックスＨと、前記翻
訳アミノ酸配列Ａ₂及び前記翻訳アミノ酸配列Ｂ₂から構
成される第１のスコアマトリックスｓ₁と、前記翻訳ア
ミノ酸配列Ａ₂及び前記翻訳アミノ酸配列Ｂ₅から構成さ
れる第２のスコアマトリックスｓ₂と、前記翻訳アミノ
酸配列Ａ₂及び前記翻訳アミノ酸配列Ｂ₆から構成される
第３のスコアマトリックスｓ₃と、前記翻訳アミノ酸配
列Ａ₅及び前記翻訳アミノ酸配列Ｂ₂から構成される第４
のスコアマトリックスｓ₄と、前記翻訳アミノ酸配列Ａ₆
及び前記翻訳アミノ酸配列Ｂ₂から構成される第５のス
コアマトリックスｓ₅とからなり、（８）ｗ_aをアミノ酸
配列、ｗ_nをＤＮＡ塩基配列の塩基の挿入、欠失に伴う
ギャップペナルティを表わす数値として、前記第１から
第４のマトリックス群の各マトリックス群毎に、前記マ
トリックスの要素（ｉ−３、ｊ−３）から前記マトリッ
クスの要素（ｉ、ｊ）への経路に対応する類似度の総計
Ｈ₁（ｉ、ｊ）、Ｈ₁（ｉ、ｊ）＝Ｈ（ｉ−３、ｊ−３）＋ｓ₁（ｉ、ｊ）前記マトリックスの要素（ｉ、ｊ−３）から前記マトリ
ックスの要素（ｉ、ｊ）への経路に対応する類似度の総
計Ｈ₂（ｉ、ｊ）、Ｈ₂（ｉ、ｊ）＝Ｈ（ｉ、ｊ−３）＋ｗ_a 前記マトリックスの要素（ｉ−３、ｊ）から前記マトリ
ックスの要素（ｉ、ｊ）への経路に対応する類似度の総
計Ｈ₃（ｉ、ｊ）、Ｈ₃（ｉ、ｊ）＝Ｈ（ｉ−３、ｊ）＋ｗ_a 前記マトリックスの要素（ｉ−５、ｊ−６）から前記マ
トリックスの要素（ｉ、ｊ）への経路に対応する類似度
の総計Ｈ₄（ｉ、ｊ）、Ｈ₄（ｉ、ｊ）＝Ｈ（ｉ−５、ｊ−６）＋ｗ_n＋ｓ₁（ｉ、ｊ）前記マトリックスの要素（ｉ−６、ｊ−５）から前記マ
トリックスの要素（ｉ、ｊ）への経路に対応する類似度
の総計Ｈ₅（ｉ、ｊ）、Ｈ₅（ｉ、ｊ）＝Ｈ（ｉ−６、ｊ−５）＋ｗ_n＋ｓ₁（ｉ、ｊ）前記マトリックスの要素（ｉ−３、ｊ−４）から前記マ
トリックスの要素（ｉ、ｊ）への経路に対応する類似度
の総計Ｈ₆（ｉ、ｊ）、Ｈ₆（ｉ、ｊ）＝Ｈ（ｉ−３、ｊ−４）＋ｗ_n＋ｓ₁（ｉ、ｊ）前記マトリックスの要素（ｉ−４、ｊ−３）から前記マ
トリックスの要素（ｉ、ｊ）への経路に対応する類似度
の総計Ｈ₇（ｉ、ｊ）、Ｈ₇（ｉ、ｊ）＝Ｈ（ｉ−４、ｊ−３）＋ｗ_n＋ｓ₁（ｉ、ｊ）前記マトリックスの要素（ｉ−６、ｊ−７）から前記マ
トリックスの要素（ｉ、ｊ）への経路に対応する類似度
の総計Ｈ₈（ｉ、ｊ）及びＨ₉（ｉ、ｊ）、Ｈ₈（ｉ、ｊ）＝Ｈ（ｉ−６、ｊ−７）＋ｗ_n＋ｓ₂（ｉ−３、ｊ−４）＋ｓ₁（ｉ、ｊ）Ｈ₉（ｉ、ｊ）＝Ｈ（ｉ−６、ｊ−７）＋ｗ_n＋ｓ₃（ｉ−３、ｊ−４）＋ｓ₁（ｉ、ｊ）前記マトリックスの要素（ｉ−７、ｊ−６）から前記マ
トリックスの要素（ｉ、ｊ）への経路に対応する類似度
の総計Ｈ₁₀（ｉ、ｊ）及びＨ₁₁（ｉ、ｊ）、Ｈ₁₀（ｉ、ｊ）＝Ｈ（ｉ−７、ｊ−６）＋ｗ_n＋ｓ₄（ｉ−４、ｊ−３）＋ｓ₁（ｉ、ｊ）Ｈ₁₁（ｉ、ｊ）＝Ｈ（ｉ−７、ｊ−６）＋ｗ_n＋ｓ₅（ｉ−４、ｊ−３）＋ｓ₁（ｉ、ｊ）の最大値でありＨ（ｉ、ｊ）、前記スコアマトリックス
の要素（ｉ、ｊ）に至る、前記スコアマトリックスの要
素、（ｉ−３、ｊ−３）、（ｉ−３、ｊ）、（ｉ、ｊ−
３）、（ｉ−５、ｊ−６）、（ｉ−６、ｊ−５）、（ｉ
−３、ｊ−４）、（ｉ−４、ｊ−３）、（ｉ−６、ｊ−
７）、（ｉ−７、ｊ−６）から、前記類似度の総和が最
大となるように何れかの前記経路を選ぶことにより得ら
れる、前記最大値を、Ｈ（ｉ、ｊ）＝ｍａｘ｛Ｈ₁（ｉ、ｊ）、Ｈ₂（ｉ、
ｊ）、Ｈ₃（ｉ、ｊ）、Ｈ₄（ｉ、ｊ）、Ｈ₅（ｉ、
ｊ）、Ｈ₆（ｉ、ｊ）、Ｈ₇（ｉ、ｊ）、Ｈ₈（ｉ、
ｊ）、Ｈ₉（ｉ、ｊ）、Ｈ₁₀（ｉ、ｊ）、Ｈ₁₁（ｉ、
ｊ）｝前記第１の翻訳アミノ酸配列のｉ番目のアミノ酸までの
アミノ酸配列と前記第２の翻訳アミノ酸配列のｊ番目の
アミノ酸までのアミノ酸配列との間における前記類似度
の総計を表わす、前記スコアマトリックスの要素Ｈ
（ｉ、ｊ）の値として求める工程と、（９）前記第１か
ら第４のマトリックス群に於ける複数の前記スコアマト
リックスＨから、前記第１の翻訳アミノ酸配列と前記第
２のアミノ酸配列の各アミノ酸の間での最適な類似対応
関係を表わす最適アライメントを求める工程と、を有す
るＤＮＡ塩基配列比較方法。