JPH09105748A - Dna配列比較方法 - Google Patents

Dna配列比較方法

Info

Publication number
JPH09105748A
JPH09105748A JP7265157A JP26515795A JPH09105748A JP H09105748 A JPH09105748 A JP H09105748A JP 7265157 A JP7265157 A JP 7265157A JP 26515795 A JP26515795 A JP 26515795A JP H09105748 A JPH09105748 A JP H09105748A
Authority
JP
Japan
Prior art keywords
dna sequence
sequence
amino acid
dna
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7265157A
Other languages
English (en)
Inventor
Susumu Hiraoka
進 平岡
Keiichi Nagai
啓一 永井
Tetsuo Nishikawa
哲夫 西川
Naoko Kasahara
直子 笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7265157A priority Critical patent/JPH09105748A/ja
Publication of JPH09105748A publication Critical patent/JPH09105748A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

(57)【要約】 【課題】翻訳されるアミノ酸配列が互いに類似するDN
A配列を検索することができるDNA配列比較方法を提
供する。 【解決手段】検索DNA配列とデータベース中の既知D
NA配列に対して、3文字毎にアミノ酸に翻訳ための中
間DNA配列を作成し、中間DNA配列を翻訳してアミ
ノ酸配列を作成する。検索DNA配列を翻訳するための
中間DNA配列と検索DNA配列を対応させて表示し、
既知DNA配列を翻訳するための中間DNA配列と既知
DNA配列を対応させて表示する。中間DNA配列の3
文字とアミノ酸を対応させてアミノ酸配列を表示する。
対応するアミノ酸配列の間、検索DNA配列と対応する
中間DNA配列の間、および既知DNA配列と対応する
中間DNA配列の間に類似度を示す記号列を表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、DNA配列比較方
法に関し、特にDNA配列の照合に適したDNA配列比
較方法に関する。
【0002】
【従来の技術】近年、遺伝子工学の発展によりDNA配
列に関するデータが急増している。DNAは生物の設計
図と言うことができる物質であり、生物の機能は全てD
NA中に記述されている。DNAはA、C、G、Tの文
字で代表される4種類の物質が並んだ構造となってお
り、A、C、G、Tだけの文字列であるDNA配列とし
て表すことができる。
【0003】生体中ではDNAの一部が翻訳されて蛋白
となり生物機能を担っている。重要な生物機能を担って
いる蛋白を見つけることが出来れば薬として用いること
も可能である。インターフェロン、インスリンなどは薬
として製造されるようにもなった蛋白の例である。蛋白
構造全体がわからない場合でも薬物などと結合する結合
サイトがわかれば、その蛋白が関係する生物機能を制御
する薬の基本構造を決定することができる。蛋白は20
種類のアミノ酸が一列に並んだ構造となっており、DN
Aと同様にその構造はアミノ酸配列として文字列で表す
ことができる。DNA配列からアミノ酸配列への翻訳は
コドンと呼ばれるDNAの3文字が一組となり行われ
る。図6に示すようにコドンからアミノ酸への翻訳規則
は解析されており、コドンからアミノ酸への翻訳は一意
的に行われる。DNA配列の翻訳方向と翻訳開始点がわ
かればDNA配列から3文字ずつコドンを取り出すこと
で生物中で行われているのと同様にDNAから蛋白の翻
訳を行うことができる。ただしDNA配列中に挿入、欠
失などの測定誤りがあった場合には、途中からコドンの
枠がずれてしまうため蛋白への翻訳を誤ってしまう。
【0004】DNA配列の翻訳方向と翻訳開始点を示す
規則は完全にはわかっていない。そのためコドンからア
ミノ酸への翻訳と異なりDNA配列中の翻訳領域の決定
は容易には行われていない。またコドン枠がずれないよ
うにほとんど誤りなくDNA配列を決定するためには配
列決定作業が増加してしまう。そのためDNA配列が決
定されても対応する蛋白配列の決定が容易に行われない
ことも多く、未知のDNA配列から未知の蛋白を発見す
ることは容易ではない。未知の蛋白の発見は新薬の開発
に重要である。
【0005】DNA配列から翻訳領域を決定するなどし
て蛋白を決定する手法には、翻訳領域推定ソフト、蛋白
測定、cDNA測定、ハイブリダイゼーション、類似D
NA配列検索などがある。翻訳領域推定ソフトはこれま
でわかっている知識を総合してDNA配列から蛋白翻訳
領域を推定するソフトである。蛋白翻訳に関する知識が
完全ではないため精度はあまり高くない。蛋白測定は生
物中で合成されている蛋白を直接測定する方法であり、
感度が高くなくアミノ酸配列測定も容易でないため、大
量の生物試料が必要とされる。
【0006】cDNA測定はDNAから蛋白へ翻訳され
る過程の中間物質をDNAに変換して測定する方法であ
る。蛋白と異なりDNAは増幅可能なため、cDNA測
定は蛋白測定に比べて感度は高い。それでも微量な蛋白
に対応するcDNAは大量な蛋白に対応するcDNAの
中に混合し埋もれてしまうため、特殊な蛋白を測定する
ためには特殊な生物試料からcDNAを抽出するか、ハ
イブリダイゼーション、DNA配列相同性検索などを用
いて特定のcDNAを選択する必要がある。
【0007】ハイブリダイゼーションはすでに手元にあ
るDNAに対して類似しているDNAをDNA混合試料
または長いDNAから選択する技術である。手元にある
DNAに相補的なDNAを合成し、これに結合するDN
Aを選択することで類似DNAを選択することができ
る。
【0008】DNA配列相同性検索(ホモロジーサー
チ)はハイブリダイゼーションが生物学的手法で行って
いることを情報処理的手法で行うものである。あらかじ
め全てのDNA配列を測定しておく必要があるが、ハイ
ブリダイゼーションと異なり相補的結合を行うようなD
NAばかりでなく、異なった基準で類似しているDNA
配列を選択することができる。
【0009】相同性検索を行う最も基本的な方法とし
て、問い合わせ配列とデータベース内の各配列との間で
スミスとウォーターマンにより提案されたダイナミック
プログラミング法によるアライメントを行い、高いスコ
ア順に各配列を表示する方法がある。ダイナミックプロ
グラミング法によるアライメントに関してはジャーナル
・オブ・モレキュラー・バイオロジー、147(198
1年)195頁から197頁(Jounal of M
olecular Biology、147(198
1)pp195−197)に記載されている。
【0010】ダイナミックプログラミング法による配列
1(CAGTGACT)と配列2(CACTGCTG)
のアライメントを図7を用いて説明する。ダイナミック
プログラミング法によるアライメントでは2次元メッシ
ュのX、Y方向に添ってそれぞれ2本の配列を置き、メ
ッシュの各点をノードとして、ノード間には縦、横、斜
めの3方向の経路を考えた時に任意の2つのノード間を
左上から右下に向かう最適経路を求める。縦、横のアー
ク(格子点間を結ぶ線)は挿入・欠失に相当するためペ
ナルティスコアがかかり、また配列要素が対合する斜め
のアークにも対合の種類に応じたスコアが与えられる。
これらのスコアを経路に添って総計した合計スコアがも
っとも高くなる経路をダイナミックプログラミング法に
よって解き最適なアライメントを求める。DNA配列ど
うしのアライメントにおいて一般的に用いられているス
コアは、挿入・欠失のスコアはn文字の挿入・欠失に対
して−4n−8点、一致した1文字のスコアは4点、異
なっている1文字のスコアは−3点である。例えば図7
に示した経路でのスコアは9点である。
【0011】相同性検索プログラムであるFASTAに
ついては、アカデミックプレス(Academic P
ress)より発行されたドゥーリトル(Doolit
tle)編集によるメソッヅ・イン・エンザイモロジ
ー、183(1990年)第63頁から98頁(Met
hods in Enzymology、183(19
90)pp63−98)に記載されている。FASTA
ではダイナミックプログラミング法によるスコアよりも
少ない計算量で求められるinitn、init1と呼
ばれるスコアを求めている。これらのスコアは完全に一
致する一定長の部分文字列を探し出し、それらを繋ぎあ
わせて求める。FASTAではこれらのスコアが高い順
に配列を表示しており、さらに上位の配列に対してはダ
イナミックプログラミング法によるスコアを計算しOP
Tという名で表示している。
【0012】また、相同性検索プログラムであるBLA
STについては、ジャーナル・オブ・モレキュラー・バ
イオロジー、215(1990年)第403頁から41
0頁(Jounal of Molecular Bi
ology、215(1990)pp403−410)
に記載されている。BLASTでもダイナミックプログ
ラミング法によるスコアよりも少ない計算量で求められ
るスコアを求めている。BLASTではFASTAにお
けるinit1よりも単純化したスコアを用いている。
BLASTではBLAST独自のスコア計算のみであ
り、ダイナミックプログラミング法によるスコアの計算
は行っていない。
【0013】スミスとウォーターマンによるダイナミッ
クプログラミング法、FASTA、BLASTはいずれ
もDNA配列をDNA配列データベースに対して検索す
る方法であり、DNA配列どうしを比較している。これ
らのプログラムはアミノ酸配列どうしを比較すること
で、アミノ酸配列をアミノ酸配列データベースに対して
検索することも可能である。アミノ酸配列の比較で用い
られているスコアを図8に示す。
【0014】これに対してDNA配列をアミノ酸配列デ
ータベースに対して検索するBLASTX、そしてアミ
ノ酸配列をDNA配列データベースに対して検索するT
FASTA、TBLASTNが存在する。これらは比較
する際にDNA配列を方向と翻訳開始点を変えた6通り
のアミノ酸配列に翻訳し、アミノ酸配列どうしで比較し
ている。
【0015】
【発明が解決しようとする課題】従来の配列比較、検索
プログラムでは、DNA配列とアミノ酸配列の比較にお
いてDNA配列の翻訳を行っていたが、DNA配列どう
しの比較においては両DNA配列をアミノ酸に翻訳し比
較することを行っていなかった。DNA配列のアミノ酸
翻訳領域はたとえ翻訳されたアミノ酸がわからない場合
でも、DNA配列そのままで比較するよりもアミノ酸配
列に翻訳して比較することが望ましい。類似機能を持つ
蛋白は類似アミノ酸配列部分を持ち、その部分が共通す
る重要な働きをしているからである。
【0016】コドンからアミノ酸への翻訳は多対一であ
るため異なるDNA配列でも同じ蛋白に翻訳されること
がある。さらにコドンが完全に異なり異なるアミノ酸に
翻訳される場合でも、それらのアミノ酸の性質が類似し
ていることがある。言い替えれば翻訳されたアミノ酸配
列が類似していても元のDNA配列が類似しているとは
限らない。アミノ酸配列に翻訳して比較することで翻訳
されたアミノ酸配列が類似しているDNA配列と類似し
ている部分を選択することができる。類似アミノ酸配列
に翻訳される部分はアミノ酸配列翻訳領域であり、蛋白
の共通機能部分であることが推定できる。
【0017】従来のDNA配列検索ではDNA配列その
ものが類似している順番にDNA配列データベースを並
べていた。そのため翻訳されたアミノ酸が類似している
DNA配列は多くの偶然似ているDNA配列に埋もれて
しまって見つけられない点に問題がある。DNA配列ど
うしを一対一で比較する場合にも多くの偶然類似してい
るDNA部分配列の中に埋もれてしまい、翻訳されたア
ミノ酸配列が類似しているDNA配列部分を見つけるこ
とは困難である点に問題がある。
【0018】本発明の目的は、DNA配列から翻訳され
たアミノ酸配列を比較することで、翻訳されるアミノ酸
配列が互いに類似するDNA配列をもれなく検索するこ
とができるDNA配列比較方法を提供することにある。
【0019】
【課題を解決するための手段】上記目的を達成するため
に本発明では、比較するDNA配列をアミノ酸配列に翻
訳し、翻訳されたアミノ酸配列を比較することを特徴と
する。翻訳したアミノ酸配列の類似部分配列を対応させ
てアミノ酸配列を並置表示し、DNA配列の各コドンを
翻訳された各アミノ酸に対応させて表示する。DNA配
列からアミノ酸配列への翻訳と、アミノ酸配列どうしの
比較結果を表示する。DNA配列をアミノ酸配列に翻訳
し、翻訳されたアミノ酸を比較することで、翻訳された
アミノ酸配列が類似しているDNA配列を見つけるこて
とができ、翻訳されたアミノ酸配列が互いに類似するD
NA配列をもれなく検索することができる。
【0020】以下、より詳細に本発明の特徴を説明する
と、第一と第二のDNA配列を所定の長さの塩基群に分
割し、分割された塩基群をアミノ酸に翻訳し、第一のD
NA配列から翻訳されたアミノ酸を第一のアミノ酸配列
として、第二のDNA配列から翻訳されたアミノ酸を第
二のアミノ酸配列として、第一のアミノ酸配列と第二の
アミノ酸配列とを並置して、塩基群とともに表示するこ
とを特徴とする。所定の長さの塩基群は、挿入、または
欠失を含み、挿入、または欠失を表示する。第一と第二
のDNA配列を所定の方向に塩基を順次シフトして、塩
基群に分割し、第一と第二のDNA配列から翻訳された
第一と第二のアミノ酸配列の間で、それぞれのアミノ酸
について類似度を積算し、積算結果が最大になるよう
に、第一と第二のDNA配列を所定の方向に塩基を順次
シフトして、第一と第二のアミノ酸配列を選択する。第
二のDNA配列が、DNA配列データベースから選択さ
れた既知DNA配列であってもよい。
【0021】所定の塩基長の固定長DNA配列とDNA
配列データベース内の既知DNA配列とを所定の方向に
塩基を順次シフトして、3塩基長からなる塩基群に分割
し、既知DNA配列と固定長DNA配列との分割された
塩基群のそれぞれをアミノ酸に翻訳し、既知DNA配列
と固定長DNA配列とから翻訳されたアミノ酸からなる
アミノ酸配列の間でそれぞれのアミノ酸について類似度
を積算し、既知DNA配列について、積算結果の最大値
を固定長DNA配列に対応した構成要素とするスコア表
を作成し、第一のDNA配列に対して既知DNA配列毎
に、第一のDNA配列を所定の塩基長に分割し、既知D
NA配列と第一のDNA配列との所定の塩基長毎の類似
度の和をスコア表の類似度を参照して求め、求めた類似
度の和に対応させて順次既知DNA配列を表示し、求め
た類似度の和の高い既知DNA配列を第二のDNA配列
としてもよい。第一と第二のDNA配列を第一のフォン
トで表示し、第一と第二のアミノ酸配列を第二のフォン
トで表示する。
【0022】また、本発明では、第一のDNA配列か
ら、アミノ酸に翻訳するために3塩基ずつに区分された
第一の中間DNA配列を作成し、第二のDNA配列か
ら、アミノ酸に翻訳するために3塩基ずつに区分された
第二の中間DNA配列を作成し、区分された第一と第二
の中間DNA配列をそれぞれの3塩基ごとにアミノ酸に
翻訳し、第一と第二の中間DNA配列のそれぞれの3塩
基ごとに対応させて翻訳されたアミノ酸のそれぞれを並
置して、第一の中間DNA配列から翻訳されたアミノ酸
を第一のアミノ酸配列として、第二の中間DNA配列か
ら翻訳されたアミノ酸を第二のアミノ酸配列として、表
示し、第一のDNA配列と第一の中間DNA配列の間の
第一の類似度を求め、第二のDNA配列と第二の中間D
NA配列の間の第二の類似度を求め、第一と第二のアミ
ノ酸配列の間の第三の類似度を求め、第一、第二および
第三の類似度から所定の関数を用いて得られるパラメー
タが最大となるように第一と第二の中間DNA配列およ
び第一と第二のアミノ酸配列を選択することを特徴とす
る。第二のDNA配列が、DNA配列データベースから
選択された既知DNA配列であってもよい。
【0023】DNA配列データベース内の既知DNA配
列から、アミノ酸に翻訳するために3塩基ずつに区分さ
れた第三の中間DNA配列を作成し、所定の塩基長の固
定長DNA配列から、アミノ酸に翻訳するために3塩基
ずつに区分された第四の中間DNA配列を作成し、第三
と第四の中間DNA配列の区分されたそれぞれの3塩基
ごとにアミノ酸に翻訳し、第三と第四の中間DNA配列
のそれぞれの3塩基ごとに対応させて翻訳されたアミノ
酸のそれぞれを並置して、第三の中間DNA配列から翻
訳されたアミノ酸を第三のアミノ酸配列として、第四の
中間DNA配列から翻訳されたアミノ酸を第四のアミノ
酸配列として、既知DNA配列と第三の中間DNA配列
との間の第四の類似度を求め、固定長DNA配列と第四
の中間DNA配列との間の第五の類似度を求め、第三と
第四のアミノ酸配列の間の第六の類似度を求め、既知D
NA配列について、第四、第五および第六の類似度から
所定の関数を用いて得られるパラメータの最大値を固定
長DNA配列に対応した構成要素とするスコア表を作成
し、第一のDNA配列に対して既知DNA配列毎に、第
一のDNA配列を所定の塩基長に分割し、既知DNA配
列と第一のDNA配列との所定の塩基長毎の類似度の和
をスコア表の類似度を参照して求め、求めた類似度の和
に対応させて順次既知DNA配列を表示し、求めた類似
度の和の高い既知DNA配列を第二のDNA配列として
もよい。第一と第二のDNA配列を第一のフォントで表
示し、第一と第二のアミノ酸配列を第二のフォントで表
示する。
【0024】
【発明の実施の形態】本発明を検索DNA配列に対する
DNA配列データベース検索に応用した実施例について
詳述する。あらかじめDNA配列データベースに対して
スコア表を作成しておく。スコア表はDNA配列データ
ベース内の各DNA配列について、所定長の固定長DN
A配列に対応したアミノ酸配列に翻訳した時のスコア
(類似度)を、構成要素とする表である。図1を用いて
DNA配列データベース内のDNA配列と固定長DNA
配列とをアミノ酸配列に翻訳した時のスコアの計算方法
を説明する。
【0025】DNA配列データベース内のDNA配列を
DNA配列301、固定長DNA配列をDNA配列30
2とする。DNA配列301から中間DNA配列303
を生成し、DNA配列302から中間DNA配列304
を生成する。中間DNA配列303、304はアミノ酸
配列に翻訳するために3塩基ずつに区分されている。3
塩基ずつ翻訳していくことで、中間DNA配列303か
らアミノ酸配列305が生成され、中間DNA配列30
4からアミノ酸配列306が生成される。
【0026】DNA配列301と中間DNA配列303
をダイナミックプログラミング法を用いてアライメント
(並置)し、スコア307を求め、DNA配列302と
中間DNA配列304をダイナミックプログラミング法
を用いてアライメントし、スコア308を求め、アミノ
酸配列305とアミノ酸配列306をダイナミックプロ
グラミング法を用いてアライメントし、スコア309を
求める。スコア307、308、309は用いる中間D
NA配列303、304によって様々な値をとる。適当
な中間DNA配列303、304を用いて、スコア30
7、308、309から所定の関数を用いて得られるパ
ラメータの最大値を求める。この最大値がDNA配列3
01とDNA配列302をアミノ酸配列に翻訳したとき
の類似性を示すスコアとなる。この値をスコア表に格納
する。
【0027】DNA配列データベース検索の際は、検索
DNA配列を固定長DNA配列と同じ塩基長に分割し、
DNA配列データベース内の各DNA配列と検索DNA
配列との固定長DNA配列の塩基長毎のスコアの和をス
コア表のスコアを参照して求め近似スコアとする。前記
近似スコアに対応させて順次DNA配列データベース内
の各DNA配列の配列名称を近似スコアの値の大きい順
に近似スコアと共に表示する。
【0028】表示されたDNA配列データベース内の各
DNA配列の中からDNA配列を選択し、選択されたD
NA配列と検索DNA配列とをアミノ酸に翻訳したとき
の類似性を示すスコアを求める計算を行う。このスコア
の求め方を図2を用いて以下で説明する。
【0029】DNA配列データベース内のDNA配列を
DNA配列402、検索DNA配列をDNA配列401
とする。DNA配列401から中間DNA配列403を
生成し、DNA配列402から中間DNA配列404を
生成する。中間DNA配列403、404はアミノ酸配
列に翻訳するために3塩基ずつに区分されている。3塩
基ずつ翻訳していくことで、中間DNA配列403から
アミノ酸配列405が生成され、中間DNA配列404
からアミノ酸配列406が生成される。DNA配列40
1と中間DNA配列403をダイナミックプログラミン
グ法を用いてアライメント(並置)し、スコア407を
求め、DNA配列402と中間DNA配列404をダイ
ナミックプログラミング法を用いてアライメントし、ス
コア408を求め、アミノ酸配列405とアミノ酸配列
406をダイナミックプログラミング法を用いてアライ
メントし、スコア409を求める。スコア407、40
8、409は用いる中間DNA配列403、404によ
って様々な値をとる。中間DNA配列403、404に
は、スコア407、408、409から所定の関数を用
いて得られるパラメータが最大値となるDNA配列を選
択する。パラメータの最大値はDNA配列401とDN
A配列402をアミノ酸配列に翻訳したときの類似性を
示すスコアである。
【0030】本実施例を用いた検索結果を図3に示す。
近似スコアに対応させて順次DNA配列データベース内
の各DNA配列の配列名称を近似スコアの値の大きい順
に近似スコアと共に表示する。DNA配列401(検索
DNA配列)と中間DNA配列403を対応させて表示
し、DNA配列402(DNA配列データベース内のD
NA配列(A24085))と中間DNA配列404と
を対応させて表示し、アミノ酸配列405とアミノ酸配
列406を対応させて表示し、対応するDNAの塩基が
一致していれば記号”:”、類似していれば記
号”.”、一致も類似もしていなければ記号としてブラ
ンクを対応するDNAの間に表示し、対応するアミノ酸
が一致していれば記号”:”、類似していれば記
号”.”、一致も類似もしていなければ記号としてブラ
ンクを対応するアミノ酸の間に表示する。
【0031】スコア表に用いる固定長配列の長さは長い
方が望ましい。固定長DNA配列の長さが短い場合に
は、スコア表のほとんど全ての構成要素がおなじ値にな
り、スコア表から計算される近似スコアもほとんど同じ
値になり、結果として検索DNA配列と翻訳したアミノ
酸が似ているデータベース内の配列を選ぶことが出来な
いからである。例えば固定長DNA配列の長さとして6
文字を用いた場合には、翻訳されるアミノ酸配列の長さ
は2文字である。データベース中のDNA配列を翻訳す
ると、かなりの頻度で固定長DNA配列から翻訳された
アミノ酸とデータベース中のDNA配列から翻訳された
アミノ酸が同じになることが起こり得る。これによりス
コア表のほとんどの構成要素の値は完全に一致した場合
のスコアとなる。そこでスコア表に用いる固定長配列の
長さとしては7文字以上が望ましい。
【0032】スコアの関数としては最も単純には3つの
スコアの和が考えられる。単純な和以外にも自乗和など
も可能である。そしてDNA配列どうしのスコアとアミ
ノ酸配列どうしのスコアも、従来用いられているスコア
そのものに限定する必要はない。例えばDNAどうしの
スコアを半分にすれば、より大きいDNA配列測定誤差
を許容した比較が可能となる。DNA配列決定方法によ
ってDNA配列測定誤差は異なるため、それに応じてス
コアの関数、DNA配列どうしのスコア、そしてアミノ
酸配列どうしのスコアを使い分けることが望ましい。
【0033】中間DNA配列403と中間DNA配列4
04は計算時間が問題とならない場合には、あらゆるD
NA配列を生成することが望ましい。この場合、DNA
配列どうしの直接比較における場合と同様にダイナミッ
クプログラミング法によるスコア計算が可能である。
【0034】図4を参照して、中間DNA配列を用いて
アミノ酸に翻訳し比較するときのダイナミックプログラ
ミング法によるスコア計算方法を以下に示す。2次元メ
ッシュのY方向に沿ってDNA配列501を置き、X方
向に沿ってDNA配列502を置いた。図4ではメッシ
ュの各点がノード101〜113を示し、格子間を結ぶ
線分がアーク201〜206を示す。各ノードを左上か
ら右下につないでいった経路がアライメント(並置)に
対応しており、アークは経路を分割したときの最小単位
である。そして各ノードにおけるスコアはDNA配列5
01とDNA配列502のそこまでの部分配列どうしを
比較したときのスコアに対応している。
【0035】ダイナミックプログラミング法では、メッ
シュ中のあらゆる経路のスコアを求め最大値を決定する
計算を、左上から右下に向かって各ノードのスコアを順
番に求めていく計算に置き換えて計算の高速化を果たし
ている。各ノードのスコアはそのノードで終る経路のス
コアの最大値を示している。各ノードのスコアは、その
ノードと単独のアークで結ばれる上、左または左上の各
ノードのスコアとそこからのアークのスコアを加えたス
コアを求め、それらの最大値を求めることで行われる。
ダイナミックプログラミング法では全てのノードのスコ
アを求めた後、全てのノードのスコアの中の最大値を求
めることでDNA配列501とDNA配列502の間の
スコアを決定することができる。
【0036】DNA配列を直接比較する従来のダイナミ
ックプログラミング法では、ノード101で終るアーク
は、DNA挿入に対応するアーク201、DNA欠失に
対応するアーク202、DNAどうしの比較に対応する
アーク203である。ノード102のスコアとアーク2
01のスコアの和、ノード105のスコアとアーク20
2のスコアの和、ノード109のスコアとアーク203
のスコアの和、および0の中の最大値がノード101に
おけるスコアとなる。
【0037】DNA配列を中間DNA配列を用いてアミ
ノ酸配列に翻訳して比較するときのダイナミックプログ
ラミング法では、従来のDNA配列を直接比較するとき
のダイナミックプログラミング法とは異なったアークを
用いる必要がある。ノード101に達するアークには、
コドンの境界へのDNA挿入に対応するアーク201、
コドンの境界へのDNA欠失に対応するアーク202、
翻訳したアミノ酸の挿入に対応するアーク204、翻訳
したアミノ酸の欠失に対応するアーク205、翻訳した
アミノ酸どうしの比較に対応するアーク206がある。
DNA配列の直接比較におけるダイナミックプログラミ
ング法と異なりDNAどうしの比較に対応するアーク2
03は用いない。そしてアミノ酸への翻訳では中間DN
A配列中のコドンを考慮することで、コドン中のDNA
の置換、挿入、欠失を含めて行う。
【0038】例えば、アーク206はDNA配列501
中のDNA3文字AACとDNA配列502中のDNA
4文字ATCTを比較している。DNA配列501に対
応する中間DNA配列中のコドンをAAC、DNA配列
502に対応する中間DNA配列中のコドンをTCTと
したときのアーク206のスコアは、DNA配列501
中のDNA3文字AACとDNA配列501に対応する
中間DNA配列中のコドンAACとの間のスコアと、D
NA配列502中のDNA4文字ATCTとDNA配列
502に対応する中間DNA配列中のコドンTCTとの
間のスコアと、DNA配列501に対応する中間DNA
配列中のコドンAACを翻訳したアミノ酸AsnとDN
A配列502に対応する中間DNA配列中のコドンTC
Tを翻訳したアミノ酸Serとの間のスコアの所定の関
数の値となる。そしてアーク206のスコアは、DNA
配列501に対応する中間DNA配列とDNA配列50
2に対応する中間DNA配列に対して全ての塩基の組合
せでできるコドンに対して求めた前記の所定の関数の最
大値である。
【0039】中間DNA配列中のコドンは3文字だが、
中間DNA配列中のコドンと比較するDNA配列中のD
NAは3文字である必要はない。アーク206はその一
例である。図4に示した翻訳したアミノ酸の比較に対応
するアークは一例であり、ノード101の上に位置する
ノード102、103、104などからノード101へ
のアークすべてが翻訳したアミノ酸の挿入に対応するア
ークであり、ノード101の左に位置するノード10
5、106、107、108などからノード101への
アークすべてが翻訳したアミノ酸の欠失に対応するアー
クであり、ノード101の左上に位置するノード10
9、110、111などからノード101へのアークす
べてが翻訳したアミノ酸どうしの比較に対応するアーク
となる。これらすべてのアークに対して、アークの始ま
りのノードのスコアとアークのスコアの和を求め、最大
値を求めることでノード101のスコアが求められる。
【0040】図4に示した中間DNA配列を用いてアミ
ノ酸翻訳して比較するダイナミックプログラミング法に
よる計算は、全ての中間DNA配列を考慮することによ
ってDNA配列測定における測定誤りを考慮しており、
DNA配列の途中にDNA挿入が入ってコドンの読み枠
がずれた場合にも対応できる。
【0041】ダイナミックプログラミング法では計算時
間が長く問題となる場合には、生成する中間DNA配列
を制限することも可能である。翻訳方向と読み枠を固定
した中間DNA配列403として、DNA配列401を
順方向と逆方向にそれぞれ3種類の読み枠で固定したD
NA配列を考える。中間DNA配列404も同様に6種
類考える。この場合中間DNA配列403と中間DNA
配列404の組み合せは36通りであり、全ての組み合
せでスコア計算を行っても計算時間は長くない。
【0042】図5は、本発明の一装置構成を示す図であ
る。図5を用いて、計算処理手順を示す。スコア表記憶
器1には上記方法で計算したデータベース内の各DNA
配列と一定長のあらゆるDNA配列とのアミノ酸配列に
翻訳した時の類似性を示すスコアを、スコア表として作
成しておく。検索の際は始めにデータベース各配列の近
似スコアを記憶しておく近似スコア記憶器2と一時スコ
ア記憶器8をすべて0にリセットし、検索配列を検索配
列記憶器3に記憶する。
【0043】次に、カウンタ4を0から増分させてい
く。カウンタ4の出力は上位桁は部分配列取り出し器5
に入力され部分配列切り出し部分を指定し、下位桁はス
コア表記憶器1と近似スコア記憶器2と一時スコア記憶
器8に入力されデータベース配列番号を指定する。指定
された各配列の近似スコアと一時スコアはそれぞれスコ
ア記憶器14と15に記憶される。検索配列記憶器3に
接続された部分配列取り出し器5によって検索配列は一
定長k文字づつ切り出され、カウンタ4によって指定さ
れた部分配列が部分配列記憶器6に記憶される。部分配
列記憶器6の出力はスコア表記憶器1に入力されカウン
タ4で指定されたデータベース内の各配列とのダイナミ
ックプログラミング法によるスコアがスコア表記憶器1
から出力される。スコア表記憶器1の出力は加算器7を
用いてスコア記憶器14のスコアと加算される。加算器
7の出力は比較器9で0と比較され大きい値が出力さ
れ、スコア記憶器14に書き戻される。比較器9の出力
は、スコア記憶器15のスコアと比較器10で比較され
大きい値が再びスコア記憶器15に書き戻される。その
後スコア記憶器14と15の内容はそれぞれカウンタ4
で指定される一時スコア記憶器8と近似スコア記憶器2
の対応する部分に書き戻される。
【0044】カウンタ4により検索配列から切り出され
たすべての部分配列に対してすべてのデータベース配列
が走査しつくされたら、近似スコア記憶器2の各スコア
をソーター11によって大きいスコアの順に並べ変え、
配列名称記憶器13によって対応する配列名称を求め表
示器12に表示する。次に表示されたDNA配列データ
ベース中の配列の中から指定されたDNA配列と検索D
NA配列を、アミノ酸配列に翻訳して比較する。
【0045】図3の翻訳比較では、DNA配列と中間D
NA配列との並置、中間DNA配列のアミノ酸配列への
翻訳、翻訳されたアミノ酸配列どうしの並置を全て表示
している。従来のアミノ酸配列どうしの並置と同様にア
ミノ酸配列の類似部分を表示することによって、共通す
る蛋白構造の位置、配列、類似度を同時に示している。
これは蛋白への薬物結合サイトの発見から薬物設計、そ
して蛋白の共通機能の推定などに役立てることができ
る。同時に表示される中間DNA配列のアミノ酸配列へ
の翻訳からは用いられているコドンを調べることができ
る。生物種によって用いられるコドンにはかたよりがあ
るため、生物種がわかっていればここで表示されている
翻訳が正しいかどうかを推定することができる。またD
NA配列と中間DNA配列との並置からはDNA配列測
定誤差の傾向を知ることができる。これはDNA配列測
定実験の精度を上げるために役立てられ、測定誤差の大
きい部分のDNA配列を再測定するための指針となる。
【0046】本実施例ではDNA配列と中間DNA配列
との並置、中間DNA配列のアミノ酸配列への翻訳、翻
訳されたアミノ酸配列どうしの並置を同時に表示するこ
とで、DNA配列測定誤差、アミノ酸翻訳誤り、アミノ
酸配列共通構造を一目で総合的に判断できる。本実施例
と異なり中間DNA配列、DNA配列と中間DNA配列
との並置を省略することも可能である。省略した場合よ
り多くの結果を表示することが可能となる。さらに全く
DNA配列の表示がなく翻訳されたアミノ酸配列の並置
だけを表示した場合にもDNA配列だけの情報から類似
アミノ酸配列を知ることができるため有効である。また
複数種類のフォントまたは色が表示可能な表示器の場合
には、DNA配列とアミノ酸配列のフォントまたは色に
異なるものを用いることが可能である。これによりアミ
ノ酸配列をDNA配列よりも強調し、DNA配列の比較
表示の中でもっとも重要であるアミノ酸配列の並置が一
目でわかるようにすることができる。
【0047】本実施例で用いている近似スコアは検索D
NA配列を分割した部分DNA配列とDNA配列データ
ベース中のDNA配列とのアミノ酸翻訳をして比較した
スコアを加算した結果となっている。本実施例ではあら
かじめデータベース内の各配列に対して一定長のあらゆ
る文字列とのアミノ酸翻訳をして比較したスコア表を作
成してある。そのため近似スコアはスコア表を参照し和
をとるだけで求めることが出来、計算量は小さい。
【0048】本実施例では2つのDNA配列間でアミノ
酸に翻訳して比較しているが、本発明は3つ以上のDN
A配列間にも適用可能である。多数のDNA配列を本方
法で比較することによって翻訳されたアミノ酸配列に共
通する構造を見つけ出すことができる。
【0049】
【発明の効果】本発明により、DNA配列に対して翻訳
されたアミノ酸配列構造がわからない場合にもアミノ酸
配列の共通構造を発見できる。アミノ酸配列の共通構造
の発見は、薬物の結合サイトの発見から薬物設計へ応用
したり、類似蛋白機能の発見から蛋白設計などに役立
つ。
【0050】また、DNA配列のアミノ酸配列への翻訳
とアミノ酸配列どうしの並置表示を同時に行うことでD
NA配列測定誤差、アミノ酸翻訳誤り、アミノ酸配列共
通構造を一目で総合的に判断できる。
【0051】また、DNA配列から翻訳されるアミノ酸
配列を比較することで、翻訳されるアミノ酸が互いに類
似するDNA配列をもれなく検索することができる。
【図面の簡単な説明】
【図1】DNA配列データベース内のDNA配列と固定
長DNA配列とをアミノ酸配列に翻訳してスコアを計算
する方法を説明する図。
【図2】選択されたDNA配列と検索DNA配列とをア
ミノ酸配列に翻訳してスコアを求める方法を説明する
図。
【図3】実施例の表示画面を示す図。
【図4】中間DNA配列をアミノ酸に翻訳して比較する
ときの、ダイナミックプログラミング法によるスコア計
算方法を説明する図。
【図5】本発明の一装置構成を示す図。
【図6】アミノ酸翻訳コドン表を示す図。
【図7】ダイナミックプログラミング法を説明する図。
【図8】アミノ酸スコア表を示す図。
【符号の説明】
1…スコア表記憶器、2…近似スコア記憶器、3…検索
配列記憶器、4…カウンタ、5…部分配列取り出し器、
6…部分配列記憶器、7…加算器、8…一時スコア記憶
器、9,10…比較器、11…ソーター、12…表示
器、13…配列名称記憶器、14,15…スコア記憶
器、101〜113…ノード、201〜206…アー
ク、301,302,401,402,501,502
…DNA配列、303,304,403,404…中間
DNA配列、305,306,405,406…アミノ
酸配列、307〜309,407〜409…スコア。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 笠原 直子 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】第一と第二のDNA配列の塩基配列を比較
    するDNA配列比較方法において、前記第一と第二のD
    NA配列を所定の長さの塩基群に分割し、分割された塩
    基群をアミノ酸に翻訳し、前記第一のDNA配列から翻
    訳されたアミノ酸を第一のアミノ酸配列として、前記第
    二のDNA配列から翻訳されたアミノ酸を第二のアミノ
    酸配列として、前記第一のアミノ酸配列と前記第二のア
    ミノ酸配列とを並置して、前記塩基群とともに表示する
    ことを特徴とするDNA配列比較方法。
  2. 【請求項2】前記所定の長さの塩基群は、挿入、または
    欠失を含み、前記挿入、または前記欠失を表示すること
    を特徴とする請求項1に記載のDNA配列比較方法。
  3. 【請求項3】前記第一と第二のDNA配列を所定の方向
    に塩基を順次シフトして、前記塩基群に分割し、前記第
    一と第二のDNA配列から翻訳された前記第一と第二の
    アミノ酸配列の間で、それぞれのアミノ酸について類似
    度を積算し、積算結果が最大になるように、前記第一と
    第二のDNA配列を所定の方向に塩基を順次シフトし
    て、前記第一と第二のアミノ酸配列を選択することを特
    徴とする請求項1に記載のDNA配列比較方法。
  4. 【請求項4】前記第二のDNA配列が、DNA配列デー
    タベースから選択された既知DNA配列であることを特
    徴とする請求項1に記載のDNA配列比較方法。
  5. 【請求項5】所定の塩基長の固定長DNA配列とDNA
    配列データベース内の既知DNA配列とを所定の方向に
    塩基を順次シフトして、3塩基長からなる塩基群に分割
    し、前記既知DNA配列と前記固定長DNA配列との分
    割された前記塩基群のそれぞれをアミノ酸に翻訳し、前
    記既知DNA配列と前記固定長DNA配列とから翻訳さ
    れたアミノ酸からなるアミノ酸配列の間でそれぞれのア
    ミノ酸について類似度を積算し、前記既知DNA配列に
    ついて、積算結果の最大値を前記固定長DNA配列に対
    応した構成要素とするスコア表を作成し、前記第一のD
    NA配列に対して前記既知DNA配列毎に、第一のDN
    A配列を前記所定の塩基長に分割し、前記既知DNA配
    列と第一のDNA配列との所定の塩基長毎の類似度の和
    を前記スコア表の類似度を参照して求め、求めた類似度
    の和に対応させて順次前記既知DNA配列を表示し、求
    めた類似度の和の高い前記既知DNA配列を前記第二の
    DNA配列とすることを特徴とする請求項1に記載のD
    NA配列比較方法。
  6. 【請求項6】前記第一と第二のDNA配列を第一のフォ
    ントで表示し、前記第一と第二のアミノ酸配列を第二の
    フォントで表示することを特徴とする請求項1に記載の
    DNA配列比較方法。
  7. 【請求項7】第一と第二のDNA配列の塩基配列を比較
    するDNA配列比較方法において、前記第一のDNA配
    列から、アミノ酸に翻訳するために3塩基ずつに区分さ
    れた第一の中間DNA配列を作成し、前記第二のDNA
    配列から、アミノ酸に翻訳するために3塩基ずつに区分
    された第二の中間DNA配列を作成し、区分された前記
    第一と第二の中間DNA配列をそれぞれの3塩基ごとに
    アミノ酸に翻訳し、前記第一と第二の中間DNA配列の
    それぞれの3塩基ごとに対応させて翻訳された前記アミ
    ノ酸のそれぞれを並置して、前記第一の中間DNA配列
    から翻訳されたアミノ酸を第一のアミノ酸配列として、
    前記第二の中間DNA配列から翻訳されたアミノ酸を第
    二のアミノ酸配列として、表示し、前記第一のDNA配
    列と前記第一の中間DNA配列の間の第一の類似度を求
    め、前記第二のDNA配列と前記第二の中間DNA配列
    の間の第二の類似度を求め、前記第一と第二のアミノ酸
    配列の間の第三の類似度を求め、前記第一、第二および
    第三の類似度から所定の関数を用いて得られるパラメー
    タが最大となるように前記第一と第二の中間DNA配列
    および前記第一と第二のアミノ酸配列を選択することを
    特徴とするDNA配列比較方法。
  8. 【請求項8】前記第二のDNA配列が、DNA配列デー
    タベースから選択された既知DNA配列であることを特
    徴とする請求項7に記載のDNA配列比較方法。
  9. 【請求項9】DNA配列データベース内の既知DNA配
    列から、アミノ酸に翻訳するために3塩基ずつに区分さ
    れた第三の中間DNA配列を作成し、所定の塩基長の固
    定長DNA配列から、アミノ酸に翻訳するために3塩基
    ずつに区分された第四の中間DNA配列を作成し、前記
    第三と第四の中間DNA配列の区分されたそれぞれの3
    塩基ごとにアミノ酸に翻訳し、前記第三と第四の中間D
    NA配列のそれぞれの3塩基ごとに対応させて翻訳され
    た前記アミノ酸のそれぞれを並置して、前記第三の中間
    DNA配列から翻訳されたアミノ酸を第三のアミノ酸配
    列として、前記第四の中間DNA配列から翻訳されたア
    ミノ酸を第四のアミノ酸配列として、前記既知DNA配
    列と前記第三の中間DNA配列との間の第四の類似度を
    求め、前記固定長DNA配列と前記第四の中間DNA配
    列との間の第五の類似度を求め、前記第三と第四のアミ
    ノ酸配列の間の第六の類似度を求め、前記既知DNA配
    列について、前記第四、第五および第六の類似度から所
    定の関数を用いて得られるパラメータの最大値を前記固
    定長DNA配列に対応した構成要素とするスコア表を作
    成し、前記第一のDNA配列に対して前記既知DNA配
    列毎に、第一のDNA配列を前記所定の塩基長に分割
    し、前記既知DNA配列と第一のDNA配列との所定の
    塩基長毎の類似度の和を前記スコア表の類似度を参照し
    て求め、求めた類似度の和に対応させて順次前記既知D
    NA配列を表示し、求めた類似度の和の高い前記既知D
    NA配列を前記第二のDNA配列とすることを特徴とす
    る請求項7に記載のDNA配列比較方法。
  10. 【請求項10】前記第一と第二のDNA配列を第一のフ
    ォントで表示し、前記第一と第二のアミノ酸配列を第二
    のフォントで表示することを特徴とする請求項7に記載
    のDNA配列比較方法。
JP7265157A 1995-10-13 1995-10-13 Dna配列比較方法 Pending JPH09105748A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7265157A JPH09105748A (ja) 1995-10-13 1995-10-13 Dna配列比較方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7265157A JPH09105748A (ja) 1995-10-13 1995-10-13 Dna配列比較方法

Publications (1)

Publication Number Publication Date
JPH09105748A true JPH09105748A (ja) 1997-04-22

Family

ID=17413422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7265157A Pending JPH09105748A (ja) 1995-10-13 1995-10-13 Dna配列比較方法

Country Status (1)

Country Link
JP (1) JPH09105748A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH105000A (ja) * 1996-06-27 1998-01-13 Hitachi Ltd Dnaアミノ酸配列比較方法
KR100481878B1 (ko) * 2000-07-19 2005-04-11 주식회사 바이오그랜드 혈연관계 검색 시스템 및 검색 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH105000A (ja) * 1996-06-27 1998-01-13 Hitachi Ltd Dnaアミノ酸配列比較方法
KR100481878B1 (ko) * 2000-07-19 2005-04-11 주식회사 바이오그랜드 혈연관계 검색 시스템 및 검색 방법

Similar Documents

Publication Publication Date Title
Quandt et al. Matlnd and Matlnspector: new fast and versatile tools for detection of consensus matches in nucleotide sequence data
Griffin et al. CLUSTAL V: multiple alignment of DNA and protein sequences
Sulston et al. Software for genome mapping by fingerprinting techniques
US5556749A (en) Oligoprobe designstation: a computerized method for designing optimal DNA probes
Griffin et al. Computer analysis of sequence data
JP2007011996A (ja) 発現情報の解析方法及びそのシステム
JPH09105748A (ja) Dna配列比較方法
JP2005176730A (ja) cDNA配列をゲノム配列にマッピングする方法
JP2005176730A6 (ja) cDNA配列をゲノム配列にマッピングする方法
CN114138739A (zh) 一种数据库表内容快速比对系统
Eernisse DNA Translator and Aligner: HyperCard utilities to aid phylogenetic analysis of molecules
JP5826148B2 (ja) 図面管理サーバ及びこれを用いた図面管理システム
Burks DNA sequence assembly
JPH10334104A (ja) Dna塩基配列比較方法
US20020184201A1 (en) Profile database and method for preparing profile
JP4247026B2 (ja) キーワード頻度算出方法及びそれを実行するプログラム
Mabrouk et al. BIOINFTool: Bioinformatics and sequence data analysis in molecular biology using Matlab
Arnold et al. From ABI sequence data to LASERGENE’s EDITSEQ
EP1152349A1 (en) Method for aligning sequences
JPH11110390A (ja) アミノ酸配列比較方法
JP3723767B2 (ja) 生物学的な配列情報処理方法および装置
Fuchs Block searches on VAX and Alpha computer systems
JPH0749506Y2 (ja) 地図検索装置
JPH05108004A (ja) ナビゲーシヨンシステムの地名検索方法
JPH08115340A (ja) 文書検索装置およびそれに用いるインデックスファイルの作成装置