JPH06181765A

JPH06181765A - 遺伝子情報解析装置

Info

Publication number: JPH06181765A
Application number: JP42A
Authority: JP
Inventors: Mayumi Tomikawa; 真弓冨川; Seiichi Aikawa; 聖一相川; Fumiko Matsuzawa; 史子松澤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1992-09-16
Filing date: 1992-09-16
Publication date: 1994-07-05

Abstract

(57)【要約】【目的】遺伝子情報を解析するための装置に関し、配列
データの比較を自動的に行ない、解析作業を効率化する
遺伝子情報解析装置を提供することとを目的とする。【構成】複数本の塩基配列やアミノ酸配列やモチーフ配
列を読み込む入力部２と、入力された複数配列間に共通
な部分列の内、最も長い部分列である最長共有部分列を
検出するＬＣＳ検出部３と、配列を表示するための表示
部１２とを具備することにより構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ＤＮＡの塩基配列デー
タより、遺伝子情報を解析するための装置に関し、生物
学的解析の基本的手法である配列間の相同性判定、アラ
イメント、及び機能に対応するモチーフ配列の抽出を、
複数の塩基配列およびアミノ酸配列を対象に行ない、生
物情報の抽出を支援するものに係る。

【０００２】現在、分子生物学の進歩に伴い、大量の遺
伝子情報が蓄積され始め、データベース化が進んでい
る。医薬品の開発などに必要なタンパク質工学の分野で
は、これらの大量に蓄積された遺伝子情報から、タンパ
ク質の構造や機能など、生物学的にたいへん意味のある
情報を、自動的に抽出する技術が嘱望されている。

【０００３】

【従来の技術】遺伝子の本体はＤＮＡであり、その構造
は、Ａ（アデニン）、Ｔ（チミン）、Ｃ（シトシン）、
Ｇ（グアニン）の四種類の塩基が鎖状に並ぶ塩基配列と
して表現することができる。また、生体を構成する重要
な物質であるアミノ酸は、約２０種類ほどあるが、三つ
の塩基の並びに一つのアミノ酸が対応し、遺伝子の発現
が成されていることが解明されている。

【０００４】従って、生体内ではＤＮＡ塩基配列におけ
る塩基の並びに従ったアミノ酸が合成されるが、合成さ
れたアミノ酸配列は、生体内において安定した状態に折
り畳まれることによってタンパク質を形作る。アミノ酸
の並びは、塩基配列と同様に各アミノ酸をアルファベッ
ト記号で表現したアミノ酸配列として表現することがで
きる。

【０００５】分子生物学の発展で、塩基やアミノ酸の配
列の決定法が確立し、近年では、塩基配列データ、アミ
ノ酸配列データなどの遺伝子情報が大量に蓄積され始め
ている。このため遺伝子情報処理の分野では、蓄積され
た膨大な遺伝子情報の中から、タンパク質の構造や機能
などに関する生物情報を、いかにして抽出するかが中心
課題となってきた。

【０００６】生物情報を抽出する際の基本的手法は、配
列を比較することである。これは配列の中で、生命活動
に重要な機能に関係している部分は、進化の過程でも変
化せずに保存されると考えられ、また、配列が類似して
いるということは、生物学的機能にも類似性があると考
えられるためである。

【０００７】そこで、機能等が未知の配列に類似した配
列を、機能が解明されている既知の配列データベースか
ら探索することによって、その未知の配列の機能を推定
する相同性探索や、配列の比較を行なう際に、比較する
配列間の類似度が最大になるように配列を並び変えるア
ライメント手法が研究されている。

【０００８】また、異なる生物種で同じ機能を持つタン
パク質のアミノ酸配列を比較すると、共通に存在する配
列パターン（領域）があることが知られている。この領
域はモチーフ配列と呼ばれ、タンパク質の共通構造や共
通機能を表わしていると考えられる。

【０００９】従って、モチーフ配列を自動的に抽出する
ことが可能になれば、どのようなモチーフ配列が、未知
のアミノ酸配列のデータ中に含まれているかによって、
タンパク質の性質や機能を解明することができるが、そ
ればかりでなく、既存のタンパク質が持つ性質の強化、
別機能の付加、新しいタンパク質の合成など、多岐にわ
たってタンパク質工学の分野に応用することができる。

【００１０】

【発明が解決しようとする課題】以上のように、配列の
中からモチーフ配列を抽出することは、生物情報の抽出
において有効な手段であると考えられる。しかし、その
抽出方法は確立されておらず、多くの場合、相同性探索
を行ない、アライメントした上で、研究者が人手でどの
部分がモチーフ配列であるかを決定しているのが現状で
ある。

【００１１】遺伝子情報を解析するための要素技術とし
て、モチーフ配列を抽出する際に、複数の配列から共通
な配列パターンを抽出し、より正確なモチーフ配列を得
るものがある。複数の配列を一度にアライメントするこ
とをマルチプルアライメントと呼び、現在、三次元ダイ
ナミックプログラミングの手法を用いた方法が研究され
ている。

【００１２】三次元ダイナミックプログラミングとは、
ダイナミックプログラミングを三次元に拡張した手法な
ので、アライメントするアミノ酸配列の長さに応じたサ
イズを持つ三次元配列を作成する。そのため、非常に大
きなメモリが必要となる。実際にアライメント可能なア
ミノ酸の配列長は１００個程度であり、実用化のレベル
に至っていないという問題点がある。

【００１３】本発明は、このような従来の問題点に鑑
み、現在人手に頼っているモチーフ配列の抽出を自動化
し、更に配列長に差がある配列間の相同性判定、複数配
列間のアライメントを小さいメモリで、より効率良く行
なう遺伝子情報解析装置を提供することを目的とする。

【００１４】

【課題を解決するための手段】本発明によれば、上述の
目的は、前記特許請求の範囲に記載した手段にて達成さ
れる。

【００１５】すなわち、請求項１の発明は、キーボード
やマウスなどの入力デバイス、又はデータベースから、
複数本の塩基配列やアミノ酸配列やモチーフ配列を読み
込む入力部と、入力された複数配列間に共通な部分列の
内、最も長い部分列である最長共有部分列を検出するＬ
ＣＳ検出部と、配列を表示するための表示部とを具備す
る遺伝子情報解析装置である。

【００１６】また、請求項２の発明は、最長共有部分列
の要素が連続していない場合においてその不連続な間隔
を検出する手段と、最長共有部分列の要素数である最長
共有文字数を検出する手段とを具備するＬＣＳ検出部を
設ける遺伝子情報解析装置である。

【００１７】また、請求項３の発明は、複数配列間の最
長共有文字数と入力配列長との比である相同性の割合
が、一定の基準値を満たすか否かを判定する相同性判定
部を備える遺伝子情報解析装置であり、請求項４の発明
は、入力配列と相同な配列を、配列情報を擁するデータ
ベースから検索する相同性探索部を備える遺伝子情報解
析装置である。

【００１８】また、請求項５の発明は、複数配列間に共
通に存在する配列要素の位置を一致させるように、入力
配列を並べ変えるマルチプルアライメント部を備える遺
伝子情報解析装置であり、請求項６の発明は、入力され
た複数の配列から、配列間に含まれているモチーフを推
定、抽出するモチーフ抽出部を備える遺伝子情報解析装
置である。

【００１９】

【作用】本発明では、複数配列間の最長共有部分列を検
出することにより、モチーフ抽出の自動化、相同性判定
及びアライメントの効率の向上を図る。以下、最長共有
部分列、最長共有文字数の検出方法、並びに最長共有文
字列の検出方法について順を追って説明する。

【００２０】＝＝最長共有部分列＝＝まず、最長共有部分列（ＬＣＳ：ｌｏｎｇｅｓｔｃｏ
ｍｍｏｎｓｕｂｓｅｑｕｅｎｃｅ）とは、どのような
ものであるのかについて説明する。ある文字列から
‘０’個以上の要素を抜き出したものを部分列という。
（このとき、部分列の各要素は、もとの文字列において
連続している必要はない。）

【００２１】ここで、＜文字列１＞と＜文字列２＞とが
与えられたとき、その共通な部分列の中で最も長い部分
列を、最長共有部分列ＬＣＳと呼ぶ。例えば、＜文字列１＞：”ＡＢＣＤ”、＜文字列２＞：”ＢＤＣＡ”、＜文字列３＞：”ＤＢＡＣ”、の最長共有部分列ＬＣＳは”ＢＣ”である。

【００２２】＝＝最長共有文字数の検出＝＝次に、最長共有文字数の検出方法について説明する。Ｎ
本の文字列から最長共有文字数を検出する場合には、ま
ず、ａ．＜文字列１＞から＜文字列（Ｎ−１）＞の中
で、各文字が出現する位置を示す表を作成した後、ｂ．
最長共有文字数を求めればよい。最長共有文字数を検出
するためのアルゴリズムの一例を図６に示す。

【００２３】本明細書では、以下、次の三本の文字列、
＜文字列１＞，＜文字列２＞，＜文字列３＞を例題とす
る。まず、この三本の配列間の最長共有文字数をどのよ
うに検出するかについて説明する。＜文字列１＞：”ＡＢＣＤ” ＜文字列２＞：”ＢＤＣＡ” ＜文字列３＞：”ＤＢＡＣ”

【００２４】ａ．＜文字列１＞と＜文字列２＞の中で、
各文字が出現する位置を示す表を作成する。

【００２５】＜文字列１＞、＜文字列２＞からそれぞれ
１文字ずつ読み込み、＜文字列１＞中での各文字の出現
位置ｒ₁ を表Ｐ₁ に、また＜文字列２＞中での各文字の
出現位置ｒ₁ を表Ｐ₂ に格納する。格納は、図２に示す
ように、各文字、‘Ａ’，‘Ｂ’，‘Ｃ’，‘Ｄ’の出
現位置をポインタで連結することによって実現すること
ができる。

【００２６】図２（ａ）に示すように、＜文字列１＞の
場合、文字‘Ａ’の出現位置ｒ₁ は‘１’となってい
る。また、文字‘Ｂ’の出現位置ｒ₁ は‘２’と、文字
‘Ｃ’の出現位置ｒ₁ は‘３’と、そして文字‘Ｄ’の
出現位置ｒ₁ は‘４’となっている。この表Ｐ₁ より、
＜文字列１＞は、”ＡＢＣＤ”であることが分かる。

【００２７】また、図２（ｂ）に示すように、＜文字列
２＞の場合、文字‘Ａ’の出現位置ｒ₂ は‘４’となっ
ている。また、文字‘Ｂ’の出現位置ｒ₂ は‘１’と、
文字‘Ｃ’の出現位置ｒ₂ は‘３’と、そして文字
‘Ｄ’の出現位置ｒ₂ は‘２’となっている。この表Ｐ
₂ より、＜文字列２＞は、”ＢＤＣＡ”であることが分
かる。

【００２８】ｂ．最長共有文字数を求める。

【００２９】Ｎ本の文字列から最長共有文字数を算出す
る場合、まず、（Ｎ−１）次元で、かつ、＜文字列１＞
から＜文字列（Ｎ−１）＞までの長さより‘１’だけ大
きいサイズの配列Ｓ［ｉ₁ ］［ｉ₂ ］・・・［ｉ_n-1 ］
を作成し、その配列Ｓの要素をすべて‘０’に初期化す
る。

【００３０】例えば、三本の文字列を、＜文字列１＞＝ａ₁，ａ₂，・・・，ａ_l ＜文字列２＞＝ｂ₁，ｂ₂，・・・，ｂ_m ＜文字列３＞＝ｃ₁，ｃ₂，・・・，ｃ_n とすると、二次元配列Ｓ［ｉ₁ ］［ｉ₂ ］（０≦ｉ₁ ≦
ｌ，０≦ｉ₂ ≦ｍ）を作成し、その要素をすべて‘０’
に初期化する。

【００３１】次に＜文字列３＞から１文字読み、ａ．で
作成した表Ｐ₁ ，Ｐ₂ を参照して＜文字列１＞、＜文字
列２＞におけるその文字の出現位置ｒ₁ ，ｒ₂ を求め
る。その後、以下の処理を行なう。（同じ文字が複数回
現われる場合、つまり、出現位置ｒ₁ がいくつも得られ
た場合は、大きい順に処理を行なえばよい。出現位置ｒ
₂ についても同様である。）

【００３２】次の三つの条件イ，ロ，ハを満たす時、図
３，４に示すように、配列Ｓ［ｉ₁］［ｉ₂ ］（ｒ₁ ≦
ｉ₁ ，ｒ₂ ≦ｉ₂ ）において、Ｓ［ｒ₁ ］［ｒ₂ ］と等
しい値を持つ配列の各要素に‘１’を足す。条件イ；Ｓ［ｒ₁］［ｒ₂］＝Ｓ［ｒ₁−１］［ｒ₂］条件ロ；Ｓ［ｒ₁］［ｒ₂］＝Ｓ［ｒ₁］［ｒ₂−１］条件ハ；Ｓ［ｒ₁］［ｒ₂］＝Ｓ［ｒ₁−１］［ｒ₂−１］

【００３３】ただし、上記の条件イ，ロ，ハを一つでも
満たさなかった場合は、何も処理を行なわない。上記例
題の場合、次のように処理を行なう。（＜文字列３＞中
での文字位置をｒ₃ とする。）

【００３４】．ｒ₃ ＝１のとき、読み込んだ文字は
‘Ｄ’であり、この文字‘Ｄ’の＜文字列１＞、＜文字
列２＞における出現位置は、ｒ₁ ＝４、ｒ₂ ＝２とな
る。Ｓ［４］［２］とＳ［３］［２］、Ｓ［４］
［１］、Ｓ［３］［１］の各要素の値は等しく‘０’な
ので、Ｓ［ｉ₁ ］［ｉ₂ ］（４≦ｉ₁ ，２≦ｉ₂ ）の中
の要素で、Ｓ［４］［２］が持つ値‘０’と等しい値を
持つ要素、すなわち、Ｓ［４］［２］，Ｓ［４］
［３］，Ｓ［４］［４］の各要素に‘１’を足す（図３
（ａ））。

【００３５】．ｒ₃ ＝２のとき、読み込んだ文字は
‘Ｂ’であり、この文字‘Ｂ’の＜文字列１＞、＜文字
列２＞における出現位置は、ｒ₁ ＝２、ｒ₂ ＝１とな
る。Ｓ［２］［１］とＳ［１］［１］、Ｓ［２］
［０］、Ｓ［１］［０］の各要素の値は等しく‘０’な
ので、Ｓ［ｉ₁ ］［ｉ₂ ］（２≦ｉ₁ ，１≦ｉ₂ ）の中
の要素で、Ｓ［２］［１］が持つ値‘０’と等しい値を
持つ要素、すなわち、Ｓ［２］［１］，Ｓ［２］
［２］，Ｓ［２］［３］，Ｓ［２］［４］，Ｓ［３］
［１］，Ｓ［３］［２］，Ｓ［３］［３］，Ｓ［３］
［４］，Ｓ［４］［１］の各要素に‘１’を足す（図３
（ｂ））。

【００３６】．ｒ₃ ＝３のとき、読み込んだ文字は
‘Ａ’であり、この文字‘Ａ’の＜文字列１＞、＜文字
列２＞における出現位置は、ｒ₁ ＝１、ｒ₂ ＝４とな
る。Ｓ［１］［４］とＳ［０］［４］、Ｓ［１］
［３］、Ｓ［０］［３］の各要素の値は等しく‘０’な
ので、Ｓ［ｉ₁ ］［ｉ₂ ］（１≦ｉ₁ ，４≦ｉ₂ ）の中
の要素で、Ｓ［１］［４］が持つ値‘０’と等しい値を
持つ要素、すなわち、Ｓ［１］［４］に‘１’を足す
（図４（ａ））。

【００３７】．ｒ₃ ＝４のとき、読み込んだ文字は
‘Ｃ’であり、この文字‘Ｃ’の＜文字列１＞、＜文字
列２＞における出現位置は、ｒ₁ ＝３、ｒ₂ ＝３とな
る。Ｓ［３］［３］とＳ［２］［３］、Ｓ［３］
［２］、Ｓ［２］［２］の各要素の値は等しく‘１’な
ので、Ｓ［ｉ₁ ］［ｉ₂ ］（３≦ｉ₁ ，３≦ｉ₂ ）の中
の要素で、Ｓ［３］［３］が持つ値‘１’と等しい値を
持つ要素、すなわち、Ｓ［３］［３］，Ｓ［３］
［４］，Ｓ［４］［３］，Ｓ［４］［４］の各要素に
‘１’を足す（図４（ｂ））。

【００３８】このようにして、＜文字列３＞の最後の文
字ｃ_n まで処理が終わった時のＳ［ｌ］［ｍ］の値を、
＜文字列１＞、＜文字列２＞、＜文字列３＞の最長共有
文字数ｋ_max とする。

【００３９】＝＝最長共有部分列ＬＣＳの検出＝＝最後に、最長共有部分列ＬＣＳの検出方法について説明
する。図７に、上述の＜文字列１＞，＜文字列２＞，＜
文字列３＞より、最長共有部分列ＬＣＳを検出するため
のアルゴリズムの一例を示す。

【００４０】ここでは、まず、ａ．＜文字列１＞と＜文
字列２＞の中で、各文字が出現する位置を示す表を作成
し、次に、ｂ．最長共有文字数を求め、そして、ｃ．最
長共有部分列ＬＣＳを表示し、最後に、ｄ．文字間隔を
表示する。

【００４１】ａ．＜文字列１＞と＜文字列２＞の中で、
各文字が出現する位置を示す表を作成する。

【００４２】＜文字列１＞、＜文字列２＞からそれぞれ
１文字ずつ読み込み、＜文字列１＞中での各文字の出現
位置ｒ₁ を表Ｐ₁ に、また＜文字列２＞中での各文字の
出現位置ｒ₂ を表Ｐ₂ に格納する。格納は、図２に示す
ように、各文字の出現位置をポインタで連結することに
よって実現できる。

【００４３】ｂ．最長共有文字数を求める。

【００４４】最長共有文字数を算出するために、まず、
（Ｎ−１）次元、＜文字列１＞から＜文字列（Ｎ−１）
＞までの長さより‘１’だけ大きいサイズの配列Ｓ［ｉ
₁ ］［ｉ₂ ］・・・［ｉ_n-1 ］を作成し、その全ての要
素を‘０’に初期化する。

【００４５】例えば、＜文字列１＞＝ａ₁ ，ａ₂ ，・・
・，ａ_l 、＜文字列２＞＝ｂ₁ ，ｂ ₂ ，・・・，ｂ_m 、
＜文字列３＞＝ｃ₁ ，ｃ₂ ，・・・，ｃ_n とすると、２
次元配列Ｓ［ｉ₁ ］［ｉ₂ ］（０≦ｉ₁ ≦ｌ，０≦ｉ₂
≦ｍ）を作成し、その全ての要素を‘０’に初期化す
る。

【００４６】次に＜文字列３＞から１文字読み、ａ．で
作成した表を参照して＜文字列１＞、＜文字列２＞にお
けるその文字の出現位置ｒ₁ ，ｒ₂ を求める。その後、
以下の処理を行なう。（文字が複数回現われる場合に
は、出現位置ｒ₁ 又はｒ₂ の大きい順に処理を行なえば
よい。）

【００４７】次の三つの条件イ，ロ，ハを満たす時、配
列Ｓ［ｉ₁ ］［ｉ₂ ］（ｒ₁ ≦ｉ₁，ｒ₂ ≦ｉ₂ ）にお
いて、Ｓ［ｒ₁ ］［ｒ₂ ］と等しい値を持つ配列Ｓの全
要素に‘１’を足す。条件イ；Ｓ［ｒ₁］［ｒ₂］＝Ｓ［ｒ₁−１］［ｒ₂］条件ロ；Ｓ［ｒ₁］［ｒ₂］＝Ｓ［ｒ₁］［ｒ₂−１］条件ハ；Ｓ［ｒ₁］［ｒ₂］＝Ｓ［ｒ₁−１］［ｒ₂−１］

【００４８】ただし、上記の条件イ，ロ，ハをひとつで
も満たさなかった場合は、何も処理を行なわない。処理
後のＳ［ｌ］［ｍ］の値が、＜文字列１＞のｒ₁ 番目ま
で、＜文字列２＞のｒ₂ 番目まで、＜文字列３＞のｒ₃
番目までの三本の配列間の最長共有文字数ｋ_max であ
る。

【００４９】最長共有部分列ＬＣＳは、＜文字列１＞で
の出現位置ｒ₁ 、＜文字列２＞での出現位置ｒ₂ 、＜文
字列３＞での出現位置ｒ₃ からなるデータ構造を、図５
の説明図が示すように連結していくことにより求めるこ
とができる。

【００５０】ところで、同じ長さの最長共有部分列ＬＣ
Ｓでも、構成する要素が異なる最長共有部分列ＬＣＳが
複数存在する。従って、全ての最長共有部分列ＬＣＳを
検出するためには、最長共有部分列ＬＣＳの候補となり
得る全てのデータ構造を連結する必要がある。

【００５１】その際、文字位置が逆転しないようにする
ため、前後のデータ構造の文字位置［ｒ₁ ，ｒ₂ ，ｒ
₃ ］を比較する。図５の場合、２番目のデータ構造であ
るｄａｔａ［２］の［３，３，４］と、その前の１番目
のデータ構造であるｄａｔａ［１］の［４，２，１］，
［２，１，２］，及び［１，４，３］のそれぞれとを比
較することになる。

【００５２】さて、最長共有文字数ｋ_max を得たなら
ば、＜文字列１＞，＜文字列２＞，＜文字列３＞での位
置［ｒ₁ ，ｒ₂ ，ｒ₃ ］を、配列ｄａｔａ［ｋ］に格納
する。さらに、最長共有部分列ＬＣＳのひとつ前の要素
であるｄａｔａ［ｋ−１］に格納されたデータ構造の中
で、文字位置の逆転が起こらないように［ｒ₁ ，ｒ₂ ，
ｒ₃ ］がともに小さいものを次候補として登録する。上
記例題の場合、次のように処理を行なう。

【００５３】．ｒ₃ ＝１（Ｄ）のとき、ｒ₁ ＝４、ｒ
₂ ＝２である。Ｓ［４］［２］とＳ［３］［２］、Ｓ
［４］［１］、Ｓ［３］［１］は等しく‘０’なので、
Ｓ［４≦ｒ₁ ］［２≦ｒ₂ ］で、Ｓ［４］［２］と等し
い要素Ｓ［４］［２］，・・・，Ｓ［４］［４］に、
‘１’を足す（図３（ａ））。

【００５４】配列ｄａｔａ［１］に、＜文字列１＞での
文字位置ｒ₁ ＝４、＜文字列２＞での文字位置ｒ₂ ＝
２、＜文字列３＞での文字位置ｒ₃ ＝１を格納する。こ
こでは、＜文字列１＞，＜文字列２＞中での文字‘Ｄ’
の位置［ｒ₁ ，ｒ₂ ，ｒ₃ ］からなるデータ構造をポイ
ンタで連結することにより実現する。

【００５５】．ｒ₃ ＝２（Ｂ）のとき、ｒ₁ ＝２、ｒ
₂ ＝１である。Ｓ［２］［１］とＳ［１］［１］、Ｓ
［２］［０］、Ｓ［１］［０］は等しく‘０’なので、
Ｓ［２≦ｒ₁ ］［１≦ｒ₂ ］で、Ｓ［２］［１］と等し
い要素Ｓ［２］［１］，・・・，Ｓ［４］［１］に、
‘１’を足す（図３（ｂ））。さらに、配列ｄａｔａ
［１］に、データ構造［２，１，２］を次候補として登
録する。

【００５６】．ｒ₃ ＝３（Ａ）のとき、ｒ₁ ＝１、ｒ
₂ ＝４である。Ｓ［１］［４］とＳ［０］［４］、Ｓ
［１］［３］、Ｓ［０］［３］は等しく‘０’なので、
Ｓ［１≦ｒ₁ ］［４≦ｒ₂ ］で、Ｓ［１］［４］と等し
い要素Ｓ［１］［４］に、‘１’を足す（図４
（ａ））。さらに、配列ｄａｔａ［１］に、データ構造
［１，４，３］を次候補として登録する。

【００５７】．ｒ₃ ＝４（Ｃ）のとき、ｒ₁ ＝３、ｒ
₂ ＝３である。Ｓ［３］［３］とＳ［２］［３］、Ｓ
［３］［２］、Ｓ［２］［２］は等しく‘１’なので、
Ｓ［３≦ｒ₁ ］［３≦ｒ₂ ］で、Ｓ［３］［３］と等し
い要素Ｓ［３］［３］，・・・，Ｓ［４］［４］に、
‘１’を足す（図４（ｂ））。

【００５８】配列ｄａｔａ［２］にデータ構造［３，
３，４］を格納し、さらに配列ｄａｔａ［２］を、ｄａ
ｔａ［１］に格納されたデータ構造の中で、［ｒ₁ ，ｒ
₂ ，ｒ ₃ ］ともに小さいデータ構造、すなわち［２，
１，２］にポインタにより連結する。このようにして、
＜文字列３＞の最後の文字まで処理を続ける。

【００５９】ｃ．最長共有部分列ＬＣＳを表示する。

【００６０】最長共有部分列ＬＣＳを表示するためのア
ルゴリズムの一例を図８，９に示す。ｄａｔａ［ｋ
_max ］から順にポインタを手繰っていき、次候補が無く
なったところで表示する。

【００６１】上記例題の場合、文字位置のデータ構造ｄ
ａｔａ［ｋ］を［ｒ₁ ，ｒ₂ ，ｒ₃］と表わすと、
［３，３，４］から［２，１，２］をたどることにな
る。ｄａｔａ［ｋ_max ］のデータ構造［３，３，４］は
‘Ｃ’を、その前のデータ構造［２，１，２］は‘Ｂ’
を示しているので、最長共有部分列ＬＣＳである”Ｂ
Ｃ”を出力する。

【００６２】ｄ．文字間隔を表示する。

【００６３】このアルゴリズムでは、最長共有部分列Ｌ
ＣＳの文字列そのものは同じでも、もとの文字列中での
位置が違うものは区別されているので、文字間隔の範囲
も最長共有部分列ＬＣＳとともに表示する。

【００６４】前後のデータの構造体の［ｒ₁ ，ｒ₂ ，ｒ
₃ ］の差をそれぞれ計算し、一番小さいものをｍｉｎ、
大きいものをｍａｘとして、文字間に｛Ｘｍｉｎ，ｍａ
ｘ｝の形式で表示することができる。

【００６５】

【実施例】アミノ酸配列の中には、タンパク質の高次構
造を決定する情報や生物機能に関わる情報が記されてい
るので、配列が明らかにされたアミノ酸配列に対して
は、情報解析の基本的手法である相同性探索が行なわれ
る。

【００６６】また、モチーフ（複数配列間で共有されて
いる部分列）は、進化の過程を経てきたにもかかわら
ず、生物種の間に保存されてきたものであり、生物にと
って基本的で重要な機能に対応するものであると考えら
れる。ゆえに、生物体を特徴づけるタンパク質の機能を
推定していく上で、モチーフ配列を抽出することは、最
も基本的に行なうべきことで、重要なことである。

【００６７】遺伝子情報検索装置の構成例を図１に示
す。本装置は、入力デバイスまたはデータベースから複
数の配列を読み込む入力部２と、複数の入力配列から最
長共有部分列ＬＣＳを検出するＬＣＳ検出部３、相同性
判定部４、相同性探索部５、マルチプルアライメント部
６、モチーフ抽出部７、及び表示部８を有する検出装置
１と、塩基配列データベース９と、アミノ酸配列データ
ベース１０と、モチーフデータベース１１と、ディスプ
レイ１２とにより構成している。

【００６８】入力部２は、キーボードやマウスなどの入
力デバイスまたはデータベースから、アミノ酸、ＤＮＡ
塩基配列、モチーフ配列などを読み込む。ＬＣＳ検出部
３は、図７で説明したアルゴリズムに基づいて、入力し
た複数配列間の最長共有部分列ＬＣＳ、最長共有文字数
ｋ_max 、及び文字間隔を検出する。

【００６９】相同性判定部４は、入力した配列間の相同
性の割合を判定基準とし、入力配列間の最長共有文字数
と入力配列長とから相同性の割合を算出し、その値が一
定の基準値を満たしているか否かを判定する。相同性探
索部５は、複数の入力配列と相同な配列を、データベー
スから探索する。

【００７０】さらに、相同性の割合が基準値に達したも
のは、入力配列と相同な配列であるとし、その配列を相
同性の割合（％）、入力配列、最長共有部分列ＬＣＳ、
文字間隔などと共にディスプレイ１２に表示する。図１
０に、ヒトＳＯＤ、ウシＳＯＤ、ブタＳＯＤの相同性判
定の表示例を示す。

【００７１】マルチプルアライメント部６は、文字間隔
に基づいて、部分列が連続していない場合には入力配列
に空白を挿入し、複数の入力配列間に共通な文字の位置
を一致させて入力配列を表示する。図１１に、ヒトＳＯ
Ｄ、ウシＳＯＤ、ブタＳＯＤのマルチプルアライメント
の表示例を示す。

【００７２】モチーフ抽出部７は、入力された複数配列
中に共通に存在するモチーフ配列を推定し、抽出する。
また、抽出されたモチーフ配列を入力配列とともに表示
する。三種類のタンパク質よりモチーフを抽出した場合
の表示例を図１２に示す。

【００７３】表示部８は、相同性探索における入力配
列、入力配列と相同な配列、相同性の割合、複数配列間
の最長共有部分列及び文字間隔、アライメントにおける
文字間隔に基づいて並び変えられた入力配列、モチーフ
抽出における入力配列、入力配列に含まれるモチーフ配
列の候補を、図１０から１２の形式でディスプレイ１２
に表示するものである。

【００７４】

【発明の効果】以上説明したように、本発明によれば、
複数配列間の最長共有部分列ＬＣＳを検出するＬＣＳ検
出部を具備し、相同性探索、マルチプルアライメント、
及び複数配列間に共通に存在するモチーフ配列の抽出が
できるので、タンパク質の構造や機能などを決定する生
物学的情報の有効利用に寄与するところが大きい。

【図面の簡単な説明】

【図１】遺伝子情報解析装置の構成例を示す図である。

【図２】文字の出現位置を示す表について説明する図で
ある。

【図３】最長共有文字数の求め方を説明するための図で
ある。

【図４】最長共有文字数の求め方を説明するための図で
ある。

【図５】最長共有部分列の求め方を説明するための図で
ある。

【図６】最長共有文字数を検出するためのアルゴリズム
の一例を示す図である。

【図７】最長共有部分列を検出するためのアルゴリズム
の一例を示す図である。

【図８】最長共有部分列を表示するためのアルゴリズム
の一例を示す図である。

【図９】最長共有部分列を表示するためのアルゴリズム
の一例を示す図である。

【図１０】三種類のＳＯＤの相同性判定の表示例を示す
図である。

【図１１】三種類のＳＯＤのマルチプルアライメントの
表示例を示す図である。

【図１２】三種類のタンパク質よりモチーフを抽出した
場合の表示例を示す図である。

【符号の説明】

１検出装置２入力部３ＬＣＳ検出部４相同性判定部５相同性探索部６マルチプルアライメント部７モチーフ抽出部８表示部９塩基配列データベース１０アミノ酸配列データベース１１モチーフデータベース１２ディスプレイ

Claims

【特許請求の範囲】

【請求項１】キーボードやマウスなどの入力デバイス、
又はデータベース（９），（１０），（１１）から、複
数本の塩基配列やアミノ酸配列やモチーフ配列を読み込
む入力部（２）と、入力された複数配列間に共通な部分列の内、最も長い部
分列である最長共有部分列を検出するＬＣＳ検出部
（３）と、配列を表示するための表示部（８）とを具備することを
特徴とする遺伝子情報解析装置。
【請求項２】最長共有部分列の要素が連続していない場
合においてその不連続な間隔を検出する手段と、最長共
有部分列の要素数である最長共有文字数を検出する手段
とを具備するＬＣＳ検出部を設ける請求項１記載の遺伝
子情報解析装置。
【請求項３】複数配列間の最長共有文字数と入力配列長
との比である相同性の割合が、一定の基準値を満たすか
否かを判定する相同性判定部（４）を備える請求項１記
載の遺伝子情報解析装置。
【請求項４】入力配列と相同な配列を、配列情報を擁す
るデータベースから検索する相同性探索部（５）を備え
る請求項３記載の遺伝子情報解析装置。
【請求項５】複数配列間に共通に存在する配列要素の位
置を一致させるように入力配列を並べ変えるアライメン
ト部（６）を備える請求項１記載の遺伝子情報解析装
置。
【請求項６】入力された複数の配列から、配列間に含ま
れているモチーフを推定、抽出するモチーフ抽出部
（７）を備える請求項１記載の遺伝子情報解析装置。