JPH105000A - Dnaアミノ酸配列比較方法 - Google Patents

Dnaアミノ酸配列比較方法

Info

Publication number
JPH105000A
JPH105000A JP8167770A JP16777096A JPH105000A JP H105000 A JPH105000 A JP H105000A JP 8167770 A JP8167770 A JP 8167770A JP 16777096 A JP16777096 A JP 16777096A JP H105000 A JPH105000 A JP H105000A
Authority
JP
Japan
Prior art keywords
amino acid
acid sequence
sequence
dna
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8167770A
Other languages
English (en)
Inventor
Naoko Kasahara
直子 笠原
Keiichi Nagai
啓一 永井
Susumu Hiraoka
進 平岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8167770A priority Critical patent/JPH105000A/ja
Publication of JPH105000A publication Critical patent/JPH105000A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 DNA配列に挿入あるいは欠失が存在しても
類似している既知アミノ酸配列を高感度に検索できるD
NA配列とアミノ酸配列の直接比較方法を提供する。 【解決手段】 DNA配列をアミノ酸への翻訳規則にの
っとってアミノ酸配列に翻訳する手段305、翻訳アミ
ノ酸配列と既知アミノ酸配列をDNA配列に存在する挿
入あるいは欠失を考慮して比較を行う手段306、比較
結果に基づいて、翻訳アミノ酸配列と既知アミノ酸配列
の並置結果をDNA配列と共に表示する手段307を順
次実行し、検索結果を出力する。 【効果】 新たに決定されたDNA配列に対して配列中
に存在する挿入あるいは欠失を考慮して、類似している
アミノ酸配列を高感度に検索を行うことができ、類似し
ている部分を並置結果として表示することで、DNA配
列の持つ機能を類推することが容易となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はDNAアミノ酸配列
比較方法に関し、特にDNA配列とアミノ酸配列を比較
しDNA配列から直接類似アミノ酸配列を検索すること
に適したDNAアミノ酸配列比較方法である。
【0002】
【従来の技術】近年、様々な生物のDNA配列を決定
し、その機能を解析する動きが盛んになっている。DN
A配列はA、C、G、Tの4種類の塩基の並びであり、
この塩基の並びの一部がそれぞれ生体中で機能する蛋白
質をコードしている。重要な機能を持つ蛋白質は製薬な
どに利用されることが出来るため、DNA配列から直接
コードする蛋白質の機能を推定する技術が望まれてい
る。実際に生体中で機能するのは蛋白質配列であるが、
DNA配列の決定を行なうほうが直接蛋白質配列を決定
するよりも技術的に容易であるため、一般的にはDNA
配列を決定する。従って、新たに決定されたDNA配列
の機能を推定するには、機能が分かっている蛋白質と比
較し、類似しているか否かを判定することになる。
【0003】DNAは3文字の塩基単位(コドン)ごと
に20種類のアミノ酸の一つに翻訳される。DNA配列
の一部がアミノ酸への翻訳領域であり、その翻訳開始点
や終了点の規則は正確には解明されていない。従って、
DNA配列に塩基レベルの挿入あるいは欠失といった誤
りが存在した場合には、DNA配列中のアミノ酸への翻
訳領域がずれてしまうこともある。
【0004】また、DNA配列はコドン単位でアミノ酸
に翻訳されるために、上記の様な誤りがおきた場合には
全く異なるアミノ酸として翻訳されてしまうことも考え
られる。従来の方法ではこのようなDNA配列に塩基の
挿入あるいは欠失が生じるような誤りに対応した検索を
行なっていなかった。従来のDNA配列とアミノ酸配列
を直接比較する方法として、BLASTX(コロナ社:
バイオテクノロジー教科書シリーズ11「バイオテクノ
ロジーのためのコンピュータ入門」中村春木・中井謙太
共著141P−143P、1996)がある。この方法
では図1で表わされる方法で、DNA配列からアミノ酸
配列への翻訳を行なう。即ち、まずDNA配列の端から
コドン単位でアミノ酸に翻訳するフレーム(1)、コド
ンの開始位置をフレーム(1)より1文字ずらしてアミ
ノ酸に翻訳するフレーム(2)、コドンの開始位置をフ
レーム(1)の開始位置よりも2文字ずらしてアミノ酸
に翻訳するフレーム(3)、また該DNA配列の相補鎖
の反対側の端からコドン単位でアミノ酸への翻訳を開始
するフレーム(4)、フレーム(4)の翻訳開始位置か
ら1文字ずらしてアミノ酸への翻訳を開始するフレーム
(5)、フレーム(4)の翻訳開始位置から2文字ずら
してアミノ酸への翻訳を開始するフレーム(6)という
6つのフレームについてDNA配列をアミノ酸配列に翻
訳する。6種類に翻訳されたアミノ酸配列に対して、そ
れぞれ既知アミノ酸配列と比較を行なう。この方法で
は、DNA配列に塩基単位の挿入あるいは欠失が生じて
翻訳フレームが途中でずれてしまった場合に対応してい
ない。例えば、フレーム(1)で翻訳されたアミノ酸配
列に非常に類似したアミノ酸配列が存在したとしても、
DNA配列中に塩基単位で挿入あるいは欠失が存在した
場合には、その場所より後はフレームが(2)あるいは
(3)に変更される。しかし、従来方法ではそのような
フレームの変更に対応しきれていない。BLASTXで
は、配列の比較検索を6種類の翻訳フレームを利用し、
確率計算を行うことで類似配列を類推する方法を用いて
いる。しかし、この方法では検索もれが生じる可能性が
ある。また、6種類のフレームのそれぞれについて比較
を行なっているために、アミノ酸配列への翻訳が次にど
のフレームに変更されているのかが分かりにくいという
問題点も生じている。
【0005】また第2に従来方法として、Smith−
Waterman法(Identificationo
fCommonMolecularSubsequen
ces,J.Mol.Biol,(1981).14
7.195−197,T.F.SmithandM.
S.Waterman)がある。この方法は、図2に示
したように、比較する2つの配列の文字を1文字ずつ比
較して、それぞれに対応したスコアを与え積算し、最終
的にスコアが最大となるような検索経路を計算する方法
である。この方法は従来ある検索方法の中でもっとも正
確な検索方法であるが、配列中の塩基、1文字1文字に
ついて比較を行なうために時間がかかる。1組の配列同
士のみならず、この場合だと、上記6種類に翻訳された
アミノ酸配列に対してそれぞれ検索を行なわなくてはな
らないために、さらに検索時間がかかる。また、この方
法はアミノ酸単位、あるいはDNA配列中のコドン単位
での挿入あるいは欠失には対応できるものの、DNA配
列中の塩基単位での挿入あるいは欠失には対応できな
い。また、この方法でもフレーム間の変更が分かりにく
いという問題点も生じる。
【0006】
【発明が解決しようとしている課題】従来のDNA配
列、アミノ酸配列の比較検索方法では、DNA配列の方
に塩基単位で挿入あるいは欠失が存在した場合には類似
アミノ酸配列を拾ってこないという検索もれをおこす可
能性がある。Smith−Waterman法では、D
NA配列を考えうる全てのアミノ酸翻訳フレーム6種類
について翻訳し、それぞれに翻訳されたアミノ酸配列を
用いて配列比較を行なうために、非常に計算時間がかか
る上に異なるフレーム間にまたがった場合にうまく類似
部分を特定することが困難である。計算を高速化するた
めに開発された従来方法のひとつであるBLASTXで
は、確率計算を用いて高速化の実現を行なっているため
にさらに検索もれを起こす可能性がある。本発明は、そ
のようなDNA配列中に存在する塩基単位の挿入あるい
は欠失を考慮して、なおかつ検索もれの無いDNA配列
とアミノ酸配列の比較を行なうことが可能とするもので
ある。
【0007】
【課題を解決するための手段】本発明の特徴は、以下の
処理ステップを含むDNA配列とアミノ酸配列比較方法
にある。 〔1〕DNA配列を塩基単位の挿入あるいは欠失を考慮
してアミノ酸配列に翻訳するステップ。 〔2〕前記DNA配列からの翻訳アミノ酸配列と既知ア
ミノ酸配列を挿入あるいは欠失を考慮しつつ配列比較を
行なうステップ。 〔3〕比較結果に基づいて、翻訳アミノ酸配列と既知ア
ミノ酸配列の並置結果をDNA配列とともに表示するス
テップ。
【0008】即ち、本発明は塩基の挿入あるいは欠失を
含むまたは含まないDNA配列とアミノ酸配列を直接比
較する比較方法において、前記DNA配列を所定の長さ
の塩基群に分割し、分割された塩基群について所定の方
向に塩基をずらしてアミノ酸に翻訳し、そのデーターを
前記アミノ酸配列と比較して並置を行いその結果を表示
することを特徴とするDNAアミノ酸配列比較方法であ
る。
【0009】更に、本発明は塩基の挿入あるいは欠失を
含むまたは含まないDNA配列とアミノ酸配列を直接比
較する比較方法において、前記DNA配列を所定の長さ
の塩基群に分割し、分割された塩基群について5' 又は
' 末端から1又は2塩基づつずらしてアミノ酸に翻訳
し、そのデーターを塩基の挿入あるいは欠失を考慮した
あらゆる組み合わせを想定し、最適経路を選ぶ方法によ
り前記アミノ酸配列と比較して並置を行いその結果を表
示することを特徴とするDNAアミノ酸配列比較方法で
ある。
【0010】更に、本発明はDNA配列を5' 又は3'
末端から所定の方向に塩基を順次シフトして、前記塩基
群に分割し、前記DNA配列から翻訳された該翻訳アミ
ノ酸配列と比較の対象となる前記アミノ酸配列の間で、
それぞれのアミノ酸について類似度を積算し、その類似
度の積算結果が最大となるように、前記DNA配列を所
定の方向に順次シフトし、該翻訳アミノ酸配列を選択す
る事を特徴とする前記DNAアミノ酸配列比較方法であ
る。
【0011】更に、本発明はDNA配列入力手段、前記
アミノ酸配列入力手段、DNA配列からアミノ酸配列へ
の翻訳手段、該翻訳アミノ酸配列と比較の対象となる前
記アミノ酸配列の配列比較手段、該配列比較手段中で類
似度を積算する際に参照するスコアテーブル、該翻訳ア
ミノ酸配列と前記アミノ酸配列を並置して前記DNA配
列とともに表示する手段を有することを特徴とする前記
DNAアミノ酸配列比較方法である。
【0012】更に、本発明は前記DNAアミノ酸配列比
較方法において、DNA配列からアミノ酸配列への翻訳
する方法が、DNA配列の5' 又は3' 末端から3文字
単位で1文字ずつずらしながら順次翻訳規則にしたがっ
てアミノ酸配列に翻訳する方法であり、DNA配列から
翻訳されたアミノ酸配列と比較の対象となるアミノ酸配
列の配列比較プログラムの類似度を積算する方法が、動
的計画法を用いるものであり該動的計画法演算でマトリ
クスの一方の軸を翻訳アミノ酸配列に他方の軸を比較の
対象となる前記アミノ酸配列に対応させた時に翻訳アミ
ノ酸配列のi番目の塩基と比較の対象となる前記アミノ
酸配列のj番目のアミノ酸塩基の対の類似度を積算する
際に、前記DNA配列中の挿入あるいは欠失が存在する
場合と比較の対象となる前記アミノ酸配列中に挿入ある
いは欠失が存在した場合を考慮して、(1)i−3番目
とj−1番目の類似度から積算する場合、(2)i番目
とj−1番目の類似度から積算する場合、(3)i−3
番目とj番目の類似度から積算する場合、(4)i−4
番目とj−1番目の類似度から積算する場合、(5)i
−7番目とj−2番目の類似度から積算する場合、
(6)i−2番目とj−5番目の類似度から積算する場
合、(7)i−1番目とj−5番目の類似度から積算す
る場合の7種類の経路のうちの少なくとも1つの経路を
用いて類似度を積算し、該動的計画法を基に翻訳アミノ
酸配列と比較の対象となる前記アミノ酸配列間の類似度
の積算値と並置を求めることを特徴とする前記DNAア
ミノ酸配列比較方法である。
【0013】上記比較の対象となるアミノ酸配列として
は、例えばアミ酸配列データーベースから選択された既
知アミノ酸配列を用いることができる。上記DNA配列
としては、例えばDNAデーターベースから選択された
既知DNA配列を用いることができる。
【0014】
【発明の実施の形態】
【0015】
【実施例】本発明の第1の実施例について図3を用いて
説明する。本実施例はディスプレイ300、キーボード
301、中央演算装置CPU302、主メモリ303、
フロッピーディスクドライブ304から構成される。主
メモリ303には、DNA配列からアミノ酸配列への翻
訳プログラム305、翻訳アミノ酸配列と既知アミノ酸
配列を比較するプログラム306、比較した結果から翻
訳アミノ酸配列と既知アミノ酸配列の並置を表示するプ
ログラム307が格納されている。これらのプログラム
はCPU302で実行される。
【0016】DNA配列登録の際には、キーボード30
1から入力されたコマンドにより、CPU302がフロ
ッピーディスクドライブ304に挿入されるフロッピー
ディスク308からDNA配列を読み取り、DNA配列
からアミノ酸配列への翻訳プログラム305を実行して
作成された配列を翻訳アミノ酸配列ファイル309とし
て格納する。既知アミノ酸配列は、DNA配列と同様に
フロッピーディスク308から読み込むか、あるいは既
に登録されていたアミノ酸配列データベースから読み込
み、既知アミノ酸配列ファイル310として格納する。
【0017】配列比較の際には、CPU302が翻訳ア
ミノ酸配列ファイル309と既知アミノ酸配列ファイル
310から配列を読み込んで、翻訳アミノ酸配列と既知
アミノ酸配列を比較するプログラム306を実行する。
更に、実行結果を用いて、翻訳アミノ酸配列と既知アミ
ノ酸配列の並置を表示するプログラム307を実行し、
配列比較として出力する。以上が本発明のDNA配列と
アミノ酸配列の直接比較方法を実現するシステムであ
る。
【0018】以下に、DNA配列に塩基単位の挿入ある
いは欠失が存在することを考慮して、アミノ酸配列に翻
訳するプログラム305について説明する。図4に示し
たように、DNAは3文字単位のコドン毎に1種類のア
ミノ酸にコードされる。コドンは4種類のDNA塩基が
3つ組み合って決定されるものなので、64種類のコド
ンがあり得る。ところがアミノ酸は20種類でしかない
ので、複数のコドンが一つのアミノ酸をコードしている
こととなる。このコドンのアミノ酸へのコード規則、す
なわち、アミノ酸への翻訳規則を示したのが図4であ
る。
【0019】つぎに、この翻訳規則を用いてDNA配列
を仮想的にアミノ酸配列に翻訳する。これは、DNA配
列とアミノ酸配列を直接比較する際に、まず、DNA配
列を計算上仮想的にアミノ酸配列に翻訳し、そのように
して翻訳されたアミノ酸配列と実際のアミノ酸配列とを
比較する方法を用いているからである。従って、図5に
示した方法でDNA配列をアミノ酸配列に翻訳する。つ
まりDNA配列の端からコドンを切り出し該当するアミ
ノ酸に翻訳、次に1文字ずらしてコドンを切り出して同
様に該当するアミノ酸に翻訳する。この動作を切り出し
たコドンの最後の文字が、DNA配列の最後の文字にな
るまでくり返し、最終的にDNA配列をアミノ酸配列に
翻訳する。図5の例では、DNA配列がATGCA・・
・CGATなので、まず端から最初のコドンATGを切
り取り対応するアミノ酸Mに翻訳する。翻訳アミノ酸配
列の1文字目はMとなる。次にDNA配列から翻訳アミ
ノ酸配列の2文字目に当たるコドンTGCを、前のコド
ン開始位置から1文字ずらして切り出しアミノ酸Cに翻
訳する。更にDNA配列の1文字ずらした位置からコド
ンGCAを切り出しアミノ酸Aに翻訳する。この動作を
くり返し、DNA配列からアミノ酸配列を翻訳する。図
5の例の場合には、翻訳されたアミノ酸配列はMCA・
・・RDとなる。このDNA配列からアミノ酸配列への
仮想の翻訳は、通常のDNA配列からアミノ酸配列に比
較して約3倍量のアミノ酸配列が翻訳されることとな
る。この方法を用いることにより、DNA配列は1本の
アミノ酸配列、相補鎖を考慮してもせいぜい2本のアミ
ノ酸配列に翻訳される。このようにして翻訳されたアミ
ノ酸配列と既知アミノ酸配列を、Smith−Wate
rman法をもとにDNA塩基単位での挿入あるいは欠
失を許容する配列比較方法にて比較する事により、その
配列間の類似度を見る事が出来る。
【0020】以下に、翻訳アミノ酸配列と既知アミノ酸
配列間の配列比較のプログラム306について詳しく説
明する。本発明は、Smith−Waterman方法
に基づいた配列比較方法を用いている。図6に示された
アミノ酸同士の対に対するスコア表を用いて、翻訳アミ
ノ酸配列と比較対象となっている既知アミノ酸配列の間
のスコアを算出し、算出されたスコアに応じてその配列
の類似度を類推する方法である。このスコアマトリクス
は、アミノ酸の各組の性質の類似度を考慮して、それぞ
れの組に対してスコアを設定するものである。このマト
リクスの値は、どの位の類似度の配列を検索することに
よって、検索者自身が選択することが可能である。図6
は、いくつか実際に使用されているマトリクスの中で、
blosum62という名前のマトリクスである。
【0021】次に、本発明における配列比較方法の中心
部分を占めるスコアの算出方法について、図7を用いて
説明する。まず、図7に表わされるように翻訳アミノ酸
配列と既知アミノ酸配列をマトリクス状に配置する。配
置された配列の各要素に対応するアミノ酸同士のスコア
は、図6に示されたスコアマトリクスを参照する。配列
の要素であるアミノ酸を読み進み、挿入あるいは欠失に
対するペナルティを与えながら、スコアを積算していく
事でマトリクス内の升を埋めて行く。しかし、この積算
時に参照するスコアは図7に示された7つの場合から積
算して行く。即ち、図7の(0)の位置のスコアを計算
するには、(1)から(7)の位置のスコアに、(0)
の位置のアミノ酸対のスコアを図6のマトリクスから参
照し加算しまたは適宜に挿入あるいは欠失に対するペナ
ルティスコアを加算して、結果が最大値をとるようなス
コアを選択する。この時、(1)から(7)までのどの
部分のスコアに加算されたのかを記録しておく。図8に
示してあるように、(1)に加算されたスコアが(0)
におけるスコアの最大値である時、この場合は翻訳アミ
ノ酸配列と既知アミノ酸配列のアミノ酸が一致していて
も、不一致であっても対応させる場合である。即ち、翻
訳する前のDNA配列にも既知アミノ酸配列にも挿入あ
るいは欠失をいれない場合である。(2)に加算された
スコアが最大値となる時は、翻訳アミノ酸配列にアミノ
酸1文字の欠失がある場合、即ち、翻訳する前のDNA
配列の該当する部分にコドン単位の欠失が存在する場合
である。(3)に加算されたスコアが最大値となる時
は、既知アミノ酸配列に1文字の欠失が存在する場合で
ある。(4)に加算されたスコアが最大値となる時は、
(0)の部分の翻訳アミノ酸に対応するDNA配列中の
コドンの直前に1塩基の挿入がある場合である。(5)
に加算されたスコアが最大値となる時は、(0)の部分
の翻訳アミノ酸の直前の翻訳アミノ酸に対応するDNA
配列中のコドンの中に塩基が挿入している場合である。
(6)に加算されたスコアが最大値となる時は、(0)
の部分の翻訳アミノ酸の直前の翻訳アミノ酸に対応する
DNA配列中のコドン中の塩基が欠失している場合であ
る。(7)に加算されたスコアが最大値となる時は、
(0)の部分の翻訳アミノ酸の直前の翻訳アミノ酸に対
応するDNA配列中のコドン単位の挿入とそのコドン中
の塩基が欠失している場合である。以上の7つの場合を
考慮してスコアの計算を行なう。実際のスコア算出方法
に関しては、次に示す。翻訳アミノ酸配列のi番目と既
知アミノ酸配列j番目のスコアs(ij)を求める式s(i,j)
=max[scoreO,score1,score2,score3,score4,score5,sc
ore6,score6] score O=score(i,j)+s(i-1,j-3) score 1=s(i-1,j)-4 or s(i-1,j)-12 score 2=s(i,j-3)-4 or s(i,j-3)-12 score 3=s(i-1,j-4)+score(i,j)-12 score 4=s(i-2,j-7)+score(i,j)-12 score 5=s(i-2,j-5)+score(i,j)-12 score 6=s(i-1,j-7)+score(i,j)-24 score 7=s(i-1,j-5)+score(i,j)-24 score(i,j):i番目の塩基とj番目の塩基対に与えられる
類似度の指標 式中の減算されている数字( 例 -4, -12, -24)は挿入・
欠失またはその延長に対して与えられるペナルティスコ
アである。
【0022】上記で説明した方法に基づき、翻訳アミノ
酸と既知アミノ酸配列とのスコアを算出する。マトリク
スの端でスコアが最大値をとる升を選択し、その最大ス
コアを配列間の類似スコアとし、配列比較の結果を示す
指標とする。このスコアが大きいほどより類似している
DNA配列とアミノ酸配列であると言う事が出来る。こ
の結果に基づき、翻訳アミノ酸配列と既知アミノ酸配列
の並置を表示する。
【0023】以下に、翻訳アミノ酸配列と既知アミノ酸
配列の並置の表示プログラム307について、図8を用
いて説明する。上記で説明したように、図7で示された
(1)から(7)のどの部分のスコアを参照してスコア
が算出されたかによって、挿入あるいは欠失の存在する
位置が変化する。翻訳アミノ酸配列と既知アミノ酸配列
がマトリクス状に配置され、各アミノ酸に対応するスコ
アが算出された後、配列の一番端を示すマトリクスの行
および列上でスコアが最大値をとる位置から、その部分
のスコアが図7の(1)から(7)のどの場所から計算
されたかをスコアが0になるまでたどって行く。それぞ
れ(1)から(7)のどの場合でも、図8に対応する並
置例をつなげていく事で、最終的に翻訳アミノ酸配列と
既知アミノ酸配列の並置を求め、表示する。また、アミ
ノ酸は1文字表記の他に3文字表記も一般的になされて
いるので、翻訳アミノ酸配列と既知アミノ酸配列とを1
文字表記で表現するのではなく3文字表記で表示する事
で、翻訳アミノ酸配列とDNA配列をならべて表示する
事が出来る。この時、DNA配列には図7および図8の
規則に従い、挿入あるいは欠失を示す記号を該当箇所に
代入する事で、既知アミノ酸配列とDNA配列との比較
をより分かりやすく表示する事が可能である。
【0024】以下、本発明による比較手順を図9に従っ
て、実際のDNA配列とアミノ酸配列を用いて説明す
る。図9中の901に示したように、DNA配列をag
cttgccaactとする。図5中で説明した手順に
従い、すなわち、DNA配列の片方の端から1文字づつ
ずらしながらコドン単位でアミノ酸に翻訳する。コドン
がアミノ酸に翻訳される規則は図4に示されている。こ
の規則を用いて上記agcttgccaactというD
NA配列は、図9の902に示したようにまず1番端の
コドンagcがアミノ酸Ser(1文字表記ではS)に
翻訳され、次にgctがアミノ酸Ala(A)に翻訳さ
れる。このように1文字づつずらしながらコドン単位で
アミノ酸に翻訳していくという操作を繰り返し、上記D
NA配列は図9中903のアミノ酸配列SALLCAP
QNTに翻訳される。この903のアミノ酸配列を比較
対象となるアミノ酸配列と区別するために翻訳アミノ酸
配列と呼ぶことにする。次にこの様にして作成された翻
訳アミノ酸配列と、データベース中などの既知のアミノ
酸配列との比較方法を説明する。翻訳アミノ酸配列90
3を既知アミノ酸配列904と比較する場合を例にとっ
て説明する。図9中904の既知アミノ酸配列SARA
PQRDTと903の翻訳アミノ酸配列SALLCAP
QNTを比較する場合には以下の手順に従う。まず、9
05に示すように翻訳アミノ酸配列を垂直方向、既知ア
ミノ酸配列を水平方向に配置したマトリクスを考える。
基本的な配列比較の方法は、この様にして作成されたマ
トリクス内の全てのマスにおける類似度の基準となるス
コアを算出し、その最大スコアによって、類似している
かしていないかの判別を行う。スコアの算出方法を説明
する。図6に示されたようにそれぞれのアミノ酸対に
は、類似度の指標であるスコアが与えられる。このスコ
ア体系は、求める進化上の距離に応じて選択することが
できるが、ここでは図6に示したスコアマトリクスBl
osum62を用いる。マトリスク上の各マスにおける
スコアは図7に示したように基本的には既に計算して求
められた7つのマスのスコアから算出し、その最大値を
選択することによって、該当するマスにおけるスコアを
計算する。まず、一番上の行のスコアを計算する。この
行は、翻訳アミノ酸配列の一番最初のアミノ酸であるS
と、水平方向に配置された既知のアミノ酸配列904の
SARAPQRDTとの間のスコアを算出する。スコア
は図に示された7つのマスのスコアから算出されるが、
この行のように7つのマスのスコアがまだ計算されてい
ない場合には、スコアの初期値は0として計算を行う。
まず、2つの比較する配列903と904の一番最初の
アミノ酸SとSの対に与えられる値は、図6のスコアマ
トリクスを参照して4であることが分かる。従って、こ
の4という値を図7に示された7つのマスのスコアに加
算して、それぞれに得られた値のうち最大値をスコアと
する。そのため、図9中の905のマトリクスの1行目
の最初のマス906のスコアは4となる。次に、翻訳ア
ミノ酸配列903中の1番目のアミノ酸Sと既知のアミ
ノ酸配列904中の2番目のアミノ酸Aとの比較スコ
ア、すなわち、905のマトリクス内の1行2列目のマ
ス907に該当するスコアを算出する。このマス907
のスコアは図に示された7つのマスのスコアに、アミノ
酸SとAの対に与えられる値1を加算し、その最大値を
選択することで求める。ここで、図7に示された7つの
マスのうち、(2)に対応するマス906以外はスコア
が求められていない。従って、このマスのスコアは
(2)に対応するマス906、すなわち翻訳アミノ酸配
列903の1番目のアミノ酸Sと既知のアミノ酸配列9
04の1番目のアミノ酸Sとの比較で算出されたスコア
4に、アミノ酸SとAの対に対するスコア1を加算して
5という値を得、その値が他の場合から算出される1と
いう値よりも大きいので、このマス907におけるスコ
アは5となる。マトリクス905の1行目は図7におけ
る(2)に対応するマスの値のみを参照して、スコアを
算出することになるが、以下、行を重ねるに従って図7
に示された7つのマスのスコアを参照して、スコア計算
を行うこととなる。この操作を繰り返して、それぞれの
マスに対応するスコアを算出する。マトリクス905の
マスのスコアを全て計算しものが908である。マトリ
クス908の各マス内の円で囲まれた数字がそのマスに
おけるスコアであり、左上にある数字は、そのマスにお
けるスコアが図7の(1)から(7)までのどのマスの
スコアから算出されたかを示す数字である。そして90
8のマトリクス上の1番端の行及び列上において最大値
を探しその値を翻訳アミノ酸配列903と既知のアミノ
酸配列904の配列比較におけるスコアとなる。このス
コアの大小によって、既知のアミノ酸配列904が翻訳
アミノ酸配列903に類似しているか否かを判断する基
準とする。この例の場合では、マトリクス908の垂直
成分に当たる翻訳アミノ酸配列903の最後のアミノ酸
Tの行と、水平成分に当たる既知のアミノ酸配列904
の最後のアミノ酸Tの列における最大スコアをこの配列
比較に対するスコアとする。次に、このスコアの計算結
果から翻訳アミノ酸配列903と既知のアミノ酸配列9
04の間の並置を求める手順を説明する。並置は、比較
が行われた配列間で、配列のどの部分がどのように類似
しているかを表示する方法である。並置は最大スコアに
対応するマスから、図7の(1)から(7)のどのマス
からそのスコアが算出されたかをたどり、(1)から
(7)の経路に従って図8のような並置例を繋げていく
事によって求められる。この例の場合には、まずマトリ
クス908の最大スコアをとるマス909からたどって
いくこととなる。マス909のスコアは、図7における
(2)にあたるマス910から計算されているので、9
09から910へと並置経路をたどる。マス910のス
コアも同様に図7の(2)にあたるマスから計算されて
いるので、マス911に並置経路をたどる。マス911
のスコアは、図7の(1)にあたるマス912から計算
されているので、並置経路は911から912に飛ぶこ
とになる。このような手順をくり返し、配列を比較した
結果の並置経路を求めることが出来る。求められた並置
経路に対して、それぞれのマスのスコアが図の(1)か
ら(7)のいずれかのマスのスコアから計算されたかに
従って、図8の並置例に従い、並置結果を表示すること
が出来る。従って、翻訳アミノ酸配列903、すなわち
DNA配列901と、既知のアミノ酸配列904の比較
結果としての並置の表示は、913に示したようにな
る。図9で説明に用いた例は、配列が非常に短いため
に、挿入・欠失に対するペナルティを考慮して計算する
と、スコア自身が非常に小さな値になってしまい、検索
が出来なくなる。そのため、ここでは配列比較方法の原
理を説明するために、挿入・欠失に対するペナルティは
考慮しなかったが、実際の検索の時には、〔数1〕に表
わされるようなペナルティを導入して、スコア計算を行
っている。これはもし、挿入・欠失に対してペナルティ
を導入しないと、無制限に挿入・欠失をいれてしまうこ
とで、実際には類似していない配列を検索で拾ってきて
しまうためである。
【0025】次に上記で説明された本発明の配列比較方
法を用いた検索について述べる。本配列比較方法におい
て、実際に配列をもちいた比較を行なう。以下、アミノ
酸配列データベースとして、PIR(Release3
4)の中でsuperfamily分類の記載のあるデ
ータpir1.seq(配列数10550、アミノ酸塩
基数3591370)を利用した。前記既知アミノ酸配
列は、アミノ酸配列データベース中に登録されている配
列とし、データベース中に含まれているアミノ酸配列の
うち実際に翻訳される部分のDNA配列が分かっている
DNA配列に、配列塩基長の3%にあたる数の塩基の挿
入あるいは欠失を生じさせたものをキーDNA配列とし
て利用した。この値は、実際に解析されたばかりの配列
には最悪の場合に3%程の誤りが含まれることを考慮し
て設定した。従来方法との比較方法としては、元のDN
A配列に対応するアミノ酸配列と類似していると分類さ
れている同じsuperfamilyのメンバーをいか
に検索で拾ってこれるか否か、または欠失等を生じさせ
る以前のDNA配列からの翻訳アミノ酸配列に対して、
正しい位置に挿入あるいは欠失を考慮してその並置を求
める事が出来るかを評価した。図10は、従来方法との
比較、即ち、どれだけ同じsuperfamilyのメ
ンバーを認識できるかを示したグラフである。縦軸に実
際に検索で拾ってきたsuper familyのメン
バー数を示しており、横軸には検索で拾ってきたすべて
の配列数を示している。この結果、配列長の3%の挿入
あるいは欠失が存在した場合でも、本発明では従来法よ
りも効率的に類似したアミノ酸配列を拾ってきている事
が分かる。また、図11には、実際に検索を行った並置
結果を示している。1行目が既知アミノ酸配列、2行目
にはアミノ酸の一致あるいは不一致等をあらわす記号、
3行目には翻訳アミノ酸配列、4行目にはDNA配列を
配置している。各配列中に現れる記号「−」は挿入ある
いは欠失がその位置に存在し、該当する塩基が無い事を
表わしている。図11で示されたように、DNA配列中
に挿入あるいは欠失が存在している場合でも考慮して検
索を行っている事が分かる。図10及び図11に示され
た結果より、本発明によるDNA配列とアミノ酸配列の
比較方法は、類似しているアミノ酸配列を従来方法より
も正確に検索できる事が分かる。
【0026】
【発明の効果】本発明により、新たに決定されたDNA
配列に対して、塩基単位の挿入あるいは欠失を考慮して
アミノ酸配列と配列比較を行うことができる。その結
果、生体中の機能の解明されているアミノ酸配列に類似
しているDNA配列を見つけ、その類似部分を並置結果
として表示することが出来るために、DNA配列の持つ
機能を類推する事が容易になる。
【0027】
【配列表】
配列番号:1 配列の長さ:232 配列の型:核酸 鎖の数:一本鎖 トポロジー:直鎖状 配列の種類:mRNA 配列の特徴:HUMROSMCF トランスメンブラン・プロテインキナーゼの3,末端を
コードするヒトmcf3( 再配列 ros1)プロト- オンコージ
ンmRNA 配列:
【0028】
【0029】配列番号:2 配列の長さ:79 配列の型:アミノ酸 鎖の数:一本鎖 トポロジー:直鎖状配列の種類:ペプチド 配列の特徴:TVHURT # タイププロテイン( 断
片)プロテインチロシンキナーゼmcf3( 活性型 ros-1)
ヒト断片# EC-No 2.7.1.112 配列:
【0030】
【図面の簡単な説明】
【図1】従来方法におけるDNA配列からアミノ酸配列
への翻訳フレームを示す図。
【図2】Smith−Waterman法での配列比較
を行なう際のスコアの算出経路を示す図。
【図3】本発明の配列比較方法を適用する配列比較装置
の構成を示す図。
【図4】コドンとアミノ酸の対応表を示す図。
【図5】本発明におけるDNA配列からアミノ酸配列へ
の翻訳方法を示す図。
【図6】アミノ酸同士の対に与えられるスコアの一例を
示す図。
【図7】本発明におけるスコア算出時の参照位置を示す
図。
【図8】本発明における各スコア参照位置からの経路に
対して与えられる並置例を示す図。
【図9】実例を用いた本発明の配列比較の説明図。
【図10】従来方法との配列比較結果の評価を示す図。
【図11】本発明における配列比較の並置結果を示す
図。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 塩基の挿入あるいは欠失を含むまたは含
    まないDNA配列とアミノ酸配列を直接比較する比較方
    法において、前記DNA配列を所定の長さの塩基群に分
    割し、分割された塩基群について所定の方向に塩基をず
    らしてアミノ酸に翻訳し、そのデーターを前記アミノ酸
    配列と比較して並置を行いその結果を表示することを特
    徴とするDNAアミノ酸配列比較方法。
  2. 【請求項2】 塩基の挿入あるいは欠失を含むまたは含
    まないDNA配列とアミノ酸配列を直接比較する比較方
    法において、前記DNA配列を所定の長さの塩基群に分
    割し、分割された塩基群について5' 又は3' 末端から
    1又は2塩基づつずらしてアミノ酸に翻訳し、そのデー
    ターを塩基の挿入あるいは欠失を考慮したあらゆる組み
    合わせを想定し、最適経路を選ぶ方法により前記アミノ
    酸配列と比較して並置を行いその結果を表示することを
    特徴とする請求項1記載のDNAアミノ酸配列比較方
    法。
  3. 【請求項3】 DNA配列を5' 又は3' 末端から所定
    の方向に塩基を順次シフトして、前記塩基群に分割し、
    分割されたDNA配列から翻訳されたアミノ酸配列と比
    較の対象となるアミノ酸配列の間で、それぞれのアミノ
    酸について類似度を積算し、その類似度の積算結果が最
    大となるように、前記DNA配列を所定の方向に順次シ
    フトし、翻訳アミノ酸配列を選択することを特徴とする
    請求項1又は2に記載のDNAアミノ酸配列比較方法。
  4. 【請求項4】 DNA配列入力手段、前記アミノ酸配列
    入力手段、DNA配列からアミノ酸配列への翻訳手段、
    該翻訳アミノ酸配列と比較の対象となる前記アミノ酸配
    列の配列比較手段、該配列比較手段中で類似度を積算す
    る際に参照するスコアテーブル、該翻訳アミノ酸配列と
    前記アミノ酸配列を並置して前記DNA配列とともに表
    示する手段を有することを特徴とする請求項1乃至3の
    いずれかの項に記載のDNAアミノ酸配列比較方法。
  5. 【請求項5】 請求項3に記載のDNAアミノ酸配列比
    較方法において、DNA配列からアミノ酸配列への翻訳
    する方法が、DNA配列の5' 又は3' 末端から3文字
    単位で1文字ずつずらしながら順次翻訳規則にしたがっ
    てアミノ酸配列に翻訳する方法であり、DNA配列から
    翻訳されたアミノ酸配列と比較の対象となるアミノ酸配
    列の配列比較プログラムの類似度を積算する方法が、動
    的計画法を用いるものであり該動的計画法演算でマトリ
    クスの一方の軸を翻訳アミノ酸配列に他方の軸を比較の
    対象となる前記アミノ酸配列に対応させた時に翻訳アミ
    ノ酸配列のi番目の塩基と比較の対象となる前記アミノ
    酸配列のj番目のアミノ酸塩基の対の類似度を積算する
    際に、前記DNA配列中の挿入あるいは欠失が存在する
    場合と比較の対象となる前記アミノ酸配列中に挿入ある
    いは欠失が存在した場合を考慮して、(1)i−3番目
    とj−1番目の類似度から積算する場合、(2)i番目
    とj−1番目の類似度から積算する場合、(3)i−3
    番目とj番目の類似度から積算する場合、(4)i−4
    番目とj−1番目の類似度から積算する場合、(5)i
    −7番目とj−2番目の類似度から積算する場合、
    (6)i−2番目とj−5番目の類似度から積算する場
    合、(7)i−1番目とj−5番目の類似度から積算す
    る場合の7種類の経路のうちの少なくとも1つの経路を
    用いて類似度を積算し、該動的計画法を基に翻訳アミノ
    酸配列と比較の対象となる前記アミノ酸配列間の類似度
    の積算値と並置を求めることを特徴とするDNAアミノ
    酸配列比較方法。
  6. 【請求項6】 比較の対象となる前記アミノ酸配列が既
    知アミノ酸配列であることを特徴とする請求項1乃至5
    のいずれかの項に記載のDNAアミノ酸配列比較方法。
  7. 【請求項7】 前記DNA配列が既知DNA配列である
    ことを特徴とする請求項1乃至5のいずれかの項に記載
    のDNAアミノ酸配列比較方法。
JP8167770A 1996-06-27 1996-06-27 Dnaアミノ酸配列比較方法 Pending JPH105000A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8167770A JPH105000A (ja) 1996-06-27 1996-06-27 Dnaアミノ酸配列比較方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8167770A JPH105000A (ja) 1996-06-27 1996-06-27 Dnaアミノ酸配列比較方法

Publications (1)

Publication Number Publication Date
JPH105000A true JPH105000A (ja) 1998-01-13

Family

ID=15855785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8167770A Pending JPH105000A (ja) 1996-06-27 1996-06-27 Dnaアミノ酸配列比較方法

Country Status (1)

Country Link
JP (1) JPH105000A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001011533A1 (fr) * 1999-08-05 2001-02-15 Takeda Chemical Industries, Ltd. Procede d'enregistrement de donnees d'analyse de genes
JP2006163734A (ja) * 2004-12-06 2006-06-22 Dainippon Printing Co Ltd 生物情報の検索装置
US7746743B2 (en) 2002-08-12 2010-06-29 Samsung Electronics Co., Ltd. Disc with temporary disc definition structure (TDDS) and temporary defect list (TDFL), and method of and apparatus for managing defect in the same

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01140229A (ja) * 1987-11-26 1989-06-01 Fujitsu Ltd 複数配列同時比較方法
JPH03241469A (ja) * 1990-02-20 1991-10-28 Fujitsu Ltd アミノ酸配列並置装置
JPH0538276A (ja) * 1990-12-14 1993-02-19 Fujitsu Ltd 塩基配列算出装置
JPH0793370A (ja) * 1993-09-27 1995-04-07 Hitachi Device Eng Co Ltd 遺伝子データベース検索システム
JPH07105224A (ja) * 1993-08-10 1995-04-21 Hitachi Ltd 文字配列検索方法
JPH08110909A (ja) * 1994-10-13 1996-04-30 Hitachi Ltd 配列検索方法および装置
JPH08110910A (ja) * 1994-10-13 1996-04-30 Hitachi Ltd 文字配列検索方法
JPH09105748A (ja) * 1995-10-13 1997-04-22 Hitachi Ltd Dna配列比較方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01140229A (ja) * 1987-11-26 1989-06-01 Fujitsu Ltd 複数配列同時比較方法
JPH03241469A (ja) * 1990-02-20 1991-10-28 Fujitsu Ltd アミノ酸配列並置装置
JPH0538276A (ja) * 1990-12-14 1993-02-19 Fujitsu Ltd 塩基配列算出装置
JPH07105224A (ja) * 1993-08-10 1995-04-21 Hitachi Ltd 文字配列検索方法
JPH0793370A (ja) * 1993-09-27 1995-04-07 Hitachi Device Eng Co Ltd 遺伝子データベース検索システム
JPH08110909A (ja) * 1994-10-13 1996-04-30 Hitachi Ltd 配列検索方法および装置
JPH08110910A (ja) * 1994-10-13 1996-04-30 Hitachi Ltd 文字配列検索方法
JPH09105748A (ja) * 1995-10-13 1997-04-22 Hitachi Ltd Dna配列比較方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001011533A1 (fr) * 1999-08-05 2001-02-15 Takeda Chemical Industries, Ltd. Procede d'enregistrement de donnees d'analyse de genes
US7746743B2 (en) 2002-08-12 2010-06-29 Samsung Electronics Co., Ltd. Disc with temporary disc definition structure (TDDS) and temporary defect list (TDFL), and method of and apparatus for managing defect in the same
JP2006163734A (ja) * 2004-12-06 2006-06-22 Dainippon Printing Co Ltd 生物情報の検索装置
JP4638721B2 (ja) * 2004-12-06 2011-02-23 大日本印刷株式会社 生物情報の検索装置

Similar Documents

Publication Publication Date Title
Barton [25] Protein multiple sequence alignment and flexible pattern matching
Snyder et al. Identification of protein coding regions in genomic DNA
Usuka et al. Optimal spliced alignment of homologous cDNA to a genomic DNA template
JP2673091B2 (ja) トークン列データベースにおけるトークンシーケンスの探索
KR101638594B1 (ko) Dna 서열 검색 방법 및 장치
EP1328805A2 (en) System and process for validating, aligning and reordering one or more genetic sequence maps using at least one ordered restriction map
Benson Sequence alignment with tandem duplication
WO1998026408A2 (en) Database determines and displays genomic locus information
US20070082353A1 (en) Genetic marker selection program for genetic diagnosis, apparatus and system for executing the same, and genetic diagnosis system
CA2395327A1 (en) Sequence database search with sequence search trees
WO1998026407A2 (en) Database for comparing and displaying genomic information
JP5187670B2 (ja) 相同性検索システム
CN107403075A (zh) 比对方法、装置及系统
US5873082A (en) List process system for managing and processing lists of data
Zhang et al. Aligning a DNA sequence with a protein sequence
US20030200033A1 (en) High-throughput alignment methods for extension and discovery
JPH105000A (ja) Dnaアミノ酸配列比較方法
US6370479B1 (en) Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules
US20180060480A1 (en) Systems and methods for detecting recombination
KR101394339B1 (ko) 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법
JPH10334104A (ja) Dna塩基配列比較方法
CN115280419A (zh) 基因选择方法以及装置
US20010010903A1 (en) Method for comparison of dna base sequences
Li et al. Seeding with minimized subsequence
Dayhoff et al. Data base for protein sequences