JPH06181765A - 遺伝子情報解析装置 - Google Patents

遺伝子情報解析装置

Info

Publication number
JPH06181765A
JPH06181765A JP42A JP24655892A JPH06181765A JP H06181765 A JPH06181765 A JP H06181765A JP 42 A JP42 A JP 42A JP 24655892 A JP24655892 A JP 24655892A JP H06181765 A JPH06181765 A JP H06181765A
Authority
JP
Japan
Prior art keywords
sequences
sequence
character
input
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP42A
Other languages
English (en)
Inventor
Mayumi Tomikawa
真弓 冨川
Seiichi Aikawa
聖一 相川
Fumiko Matsuzawa
史子 松澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP42A priority Critical patent/JPH06181765A/ja
Publication of JPH06181765A publication Critical patent/JPH06181765A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】遺伝子情報を解析するための装置に関し、配列
データの比較を自動的に行ない、解析作業を効率化する
遺伝子情報解析装置を提供することとを目的とする。 【構成】複数本の塩基配列やアミノ酸配列やモチーフ配
列を読み込む入力部2と、入力された複数配列間に共通
な部分列の内、最も長い部分列である最長共有部分列を
検出するLCS検出部3と、配列を表示するための表示
部12とを具備することにより構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、DNAの塩基配列デー
タより、遺伝子情報を解析するための装置に関し、生物
学的解析の基本的手法である配列間の相同性判定、アラ
イメント、及び機能に対応するモチーフ配列の抽出を、
複数の塩基配列およびアミノ酸配列を対象に行ない、生
物情報の抽出を支援するものに係る。
【0002】現在、分子生物学の進歩に伴い、大量の遺
伝子情報が蓄積され始め、データベース化が進んでい
る。医薬品の開発などに必要なタンパク質工学の分野で
は、これらの大量に蓄積された遺伝子情報から、タンパ
ク質の構造や機能など、生物学的にたいへん意味のある
情報を、自動的に抽出する技術が嘱望されている。
【0003】
【従来の技術】遺伝子の本体はDNAであり、その構造
は、A(アデニン)、T(チミン)、C(シトシン)、
G(グアニン)の四種類の塩基が鎖状に並ぶ塩基配列と
して表現することができる。また、生体を構成する重要
な物質であるアミノ酸は、約20種類ほどあるが、三つ
の塩基の並びに一つのアミノ酸が対応し、遺伝子の発現
が成されていることが解明されている。
【0004】従って、生体内ではDNA塩基配列におけ
る塩基の並びに従ったアミノ酸が合成されるが、合成さ
れたアミノ酸配列は、生体内において安定した状態に折
り畳まれることによってタンパク質を形作る。アミノ酸
の並びは、塩基配列と同様に各アミノ酸をアルファベッ
ト記号で表現したアミノ酸配列として表現することがで
きる。
【0005】分子生物学の発展で、塩基やアミノ酸の配
列の決定法が確立し、近年では、塩基配列データ、アミ
ノ酸配列データなどの遺伝子情報が大量に蓄積され始め
ている。このため遺伝子情報処理の分野では、蓄積され
た膨大な遺伝子情報の中から、タンパク質の構造や機能
などに関する生物情報を、いかにして抽出するかが中心
課題となってきた。
【0006】生物情報を抽出する際の基本的手法は、配
列を比較することである。これは配列の中で、生命活動
に重要な機能に関係している部分は、進化の過程でも変
化せずに保存されると考えられ、また、配列が類似して
いるということは、生物学的機能にも類似性があると考
えられるためである。
【0007】そこで、機能等が未知の配列に類似した配
列を、機能が解明されている既知の配列データベースか
ら探索することによって、その未知の配列の機能を推定
する相同性探索や、配列の比較を行なう際に、比較する
配列間の類似度が最大になるように配列を並び変えるア
ライメント手法が研究されている。
【0008】また、異なる生物種で同じ機能を持つタン
パク質のアミノ酸配列を比較すると、共通に存在する配
列パターン(領域)があることが知られている。この領
域はモチーフ配列と呼ばれ、タンパク質の共通構造や共
通機能を表わしていると考えられる。
【0009】従って、モチーフ配列を自動的に抽出する
ことが可能になれば、どのようなモチーフ配列が、未知
のアミノ酸配列のデータ中に含まれているかによって、
タンパク質の性質や機能を解明することができるが、そ
ればかりでなく、既存のタンパク質が持つ性質の強化、
別機能の付加、新しいタンパク質の合成など、多岐にわ
たってタンパク質工学の分野に応用することができる。
【0010】
【発明が解決しようとする課題】以上のように、配列の
中からモチーフ配列を抽出することは、生物情報の抽出
において有効な手段であると考えられる。しかし、その
抽出方法は確立されておらず、多くの場合、相同性探索
を行ない、アライメントした上で、研究者が人手でどの
部分がモチーフ配列であるかを決定しているのが現状で
ある。
【0011】遺伝子情報を解析するための要素技術とし
て、モチーフ配列を抽出する際に、複数の配列から共通
な配列パターンを抽出し、より正確なモチーフ配列を得
るものがある。複数の配列を一度にアライメントするこ
とをマルチプルアライメントと呼び、現在、三次元ダイ
ナミックプログラミングの手法を用いた方法が研究され
ている。
【0012】三次元ダイナミックプログラミングとは、
ダイナミックプログラミングを三次元に拡張した手法な
ので、アライメントするアミノ酸配列の長さに応じたサ
イズを持つ三次元配列を作成する。そのため、非常に大
きなメモリが必要となる。実際にアライメント可能なア
ミノ酸の配列長は100個程度であり、実用化のレベル
に至っていないという問題点がある。
【0013】本発明は、このような従来の問題点に鑑
み、現在人手に頼っているモチーフ配列の抽出を自動化
し、更に配列長に差がある配列間の相同性判定、複数配
列間のアライメントを小さいメモリで、より効率良く行
なう遺伝子情報解析装置を提供することを目的とする。
【0014】
【課題を解決するための手段】本発明によれば、上述の
目的は、前記特許請求の範囲に記載した手段にて達成さ
れる。
【0015】すなわち、請求項1の発明は、キーボード
やマウスなどの入力デバイス、又はデータベースから、
複数本の塩基配列やアミノ酸配列やモチーフ配列を読み
込む入力部と、入力された複数配列間に共通な部分列の
内、最も長い部分列である最長共有部分列を検出するL
CS検出部と、配列を表示するための表示部とを具備す
る遺伝子情報解析装置である。
【0016】また、請求項2の発明は、最長共有部分列
の要素が連続していない場合においてその不連続な間隔
を検出する手段と、最長共有部分列の要素数である最長
共有文字数を検出する手段とを具備するLCS検出部を
設ける遺伝子情報解析装置である。
【0017】また、請求項3の発明は、複数配列間の最
長共有文字数と入力配列長との比である相同性の割合
が、一定の基準値を満たすか否かを判定する相同性判定
部を備える遺伝子情報解析装置であり、請求項4の発明
は、入力配列と相同な配列を、配列情報を擁するデータ
ベースから検索する相同性探索部を備える遺伝子情報解
析装置である。
【0018】また、請求項5の発明は、複数配列間に共
通に存在する配列要素の位置を一致させるように、入力
配列を並べ変えるマルチプルアライメント部を備える遺
伝子情報解析装置であり、請求項6の発明は、入力され
た複数の配列から、配列間に含まれているモチーフを推
定、抽出するモチーフ抽出部を備える遺伝子情報解析装
置である。
【0019】
【作用】本発明では、複数配列間の最長共有部分列を検
出することにより、モチーフ抽出の自動化、相同性判定
及びアライメントの効率の向上を図る。以下、最長共有
部分列、最長共有文字数の検出方法、並びに最長共有文
字列の検出方法について順を追って説明する。
【0020】==最長共有部分列== まず、最長共有部分列(LCS:longest co
mmon subsequence)とは、どのような
ものであるのかについて説明する。ある文字列から
‘0’個以上の要素を抜き出したものを部分列という。
(このとき、部分列の各要素は、もとの文字列において
連続している必要はない。)
【0021】ここで、<文字列1>と<文字列2>とが
与えられたとき、その共通な部分列の中で最も長い部分
列を、最長共有部分列LCSと呼ぶ。例えば、 <文字列1>:”ABCD”、 <文字列2>:”BDCA”、 <文字列3>:”DBAC”、 の最長共有部分列LCSは”BC”である。
【0022】==最長共有文字数の検出== 次に、最長共有文字数の検出方法について説明する。N
本の文字列から最長共有文字数を検出する場合には、ま
ず、a.<文字列1>から<文字列(N−1)>の中
で、各文字が出現する位置を示す表を作成した後、b.
最長共有文字数を求めればよい。最長共有文字数を検出
するためのアルゴリズムの一例を図6に示す。
【0023】本明細書では、以下、次の三本の文字列、
<文字列1>,<文字列2>,<文字列3>を例題とす
る。まず、この三本の配列間の最長共有文字数をどのよ
うに検出するかについて説明する。 <文字列1>:”ABCD” <文字列2>:”BDCA” <文字列3>:”DBAC”
【0024】a.<文字列1>と<文字列2>の中で、
各文字が出現する位置を示す表を作成する。
【0025】<文字列1>、<文字列2>からそれぞれ
1文字ずつ読み込み、<文字列1>中での各文字の出現
位置r1 を表P1 に、また<文字列2>中での各文字の
出現位置r1 を表P2 に格納する。格納は、図2に示す
ように、各文字、‘A’,‘B’,‘C’,‘D’の出
現位置をポインタで連結することによって実現すること
ができる。
【0026】図2(a)に示すように、<文字列1>の
場合、文字‘A’の出現位置r1 は‘1’となってい
る。また、文字‘B’の出現位置r1 は‘2’と、文字
‘C’の出現位置r1 は‘3’と、そして文字‘D’の
出現位置r1 は‘4’となっている。この表P1 より、
<文字列1>は、”ABCD”であることが分かる。
【0027】また、図2(b)に示すように、<文字列
2>の場合、文字‘A’の出現位置r2 は‘4’となっ
ている。また、文字‘B’の出現位置r2 は‘1’と、
文字‘C’の出現位置r2 は‘3’と、そして文字
‘D’の出現位置r2 は‘2’となっている。この表P
2 より、<文字列2>は、”BDCA”であることが分
かる。
【0028】b.最長共有文字数を求める。
【0029】N本の文字列から最長共有文字数を算出す
る場合、まず、(N−1)次元で、かつ、<文字列1>
から<文字列(N−1)>までの長さより‘1’だけ大
きいサイズの配列S[i1 ][i2 ]・・・[in-1
を作成し、その配列Sの要素をすべて‘0’に初期化す
る。
【0030】例えば、三本の文字列を、 <文字列1>=a1,a2,・・・,al <文字列2>=b1,b2,・・・,bm <文字列3>=c1,c2,・・・,cn とすると、二次元配列S[i1 ][i2 ](0≦i1
l,0≦i2 ≦m)を作成し、その要素をすべて‘0’
に初期化する。
【0031】次に<文字列3>から1文字読み、a.で
作成した表P1 ,P2 を参照して<文字列1>、<文字
列2>におけるその文字の出現位置r1 ,r2 を求め
る。その後、以下の処理を行なう。(同じ文字が複数回
現われる場合、つまり、出現位置r1 がいくつも得られ
た場合は、大きい順に処理を行なえばよい。出現位置r
2 についても同様である。)
【0032】次の三つの条件イ,ロ,ハを満たす時、図
3,4に示すように、配列S[i1][i2 ](r1
1 ,r2 ≦i2 )において、S[r1 ][r2 ]と等
しい値を持つ配列の各要素に‘1’を足す。 条件イ;S[r1][r2]=S[r1−1][r2] 条件ロ;S[r1][r2]=S[r1][r2−1] 条件ハ;S[r1][r2]=S[r1−1][r2−1]
【0033】ただし、上記の条件イ,ロ,ハを一つでも
満たさなかった場合は、何も処理を行なわない。上記例
題の場合、次のように処理を行なう。(<文字列3>中
での文字位置をr3 とする。)
【0034】.r3 =1のとき、読み込んだ文字は
‘D’であり、この文字‘D’の<文字列1>、<文字
列2>における出現位置は、r1 =4、r2 =2とな
る。S[4][2]とS[3][2]、S[4]
[1]、S[3][1]の各要素の値は等しく‘0’な
ので、S[i1 ][i2 ](4≦i1 ,2≦i2 )の中
の要素で、S[4][2]が持つ値‘0’と等しい値を
持つ要素、すなわち、S[4][2],S[4]
[3],S[4][4]の各要素に‘1’を足す(図3
(a))。
【0035】.r3 =2のとき、読み込んだ文字は
‘B’であり、この文字‘B’の<文字列1>、<文字
列2>における出現位置は、r1 =2、r2 =1とな
る。S[2][1]とS[1][1]、S[2]
[0]、S[1][0]の各要素の値は等しく‘0’な
ので、S[i1 ][i2 ](2≦i1 ,1≦i2 )の中
の要素で、S[2][1]が持つ値‘0’と等しい値を
持つ要素、すなわち、S[2][1],S[2]
[2],S[2][3],S[2][4],S[3]
[1],S[3][2],S[3][3],S[3]
[4],S[4][1]の各要素に‘1’を足す(図3
(b))。
【0036】.r3 =3のとき、読み込んだ文字は
‘A’であり、この文字‘A’の<文字列1>、<文字
列2>における出現位置は、r1 =1、r2 =4とな
る。S[1][4]とS[0][4]、S[1]
[3]、S[0][3]の各要素の値は等しく‘0’な
ので、S[i1 ][i2 ](1≦i1 ,4≦i2 )の中
の要素で、S[1][4]が持つ値‘0’と等しい値を
持つ要素、すなわち、S[1][4]に‘1’を足す
(図4(a))。
【0037】.r3 =4のとき、読み込んだ文字は
‘C’であり、この文字‘C’の<文字列1>、<文字
列2>における出現位置は、r1 =3、r2 =3とな
る。S[3][3]とS[2][3]、S[3]
[2]、S[2][2]の各要素の値は等しく‘1’な
ので、S[i1 ][i2 ](3≦i1 ,3≦i2 )の中
の要素で、S[3][3]が持つ値‘1’と等しい値を
持つ要素、すなわち、S[3][3],S[3]
[4],S[4][3],S[4][4]の各要素に
‘1’を足す(図4(b))。
【0038】このようにして、<文字列3>の最後の文
字cn まで処理が終わった時のS[l][m]の値を、
<文字列1>、<文字列2>、<文字列3>の最長共有
文字数kmax とする。
【0039】==最長共有部分列LCSの検出== 最後に、最長共有部分列LCSの検出方法について説明
する。図7に、上述の<文字列1>,<文字列2>,<
文字列3>より、最長共有部分列LCSを検出するため
のアルゴリズムの一例を示す。
【0040】ここでは、まず、a.<文字列1>と<文
字列2>の中で、各文字が出現する位置を示す表を作成
し、次に、b.最長共有文字数を求め、そして、c.最
長共有部分列LCSを表示し、最後に、d.文字間隔を
表示する。
【0041】a.<文字列1>と<文字列2>の中で、
各文字が出現する位置を示す表を作成する。
【0042】<文字列1>、<文字列2>からそれぞれ
1文字ずつ読み込み、<文字列1>中での各文字の出現
位置r1 を表P1 に、また<文字列2>中での各文字の
出現位置r2 を表P2 に格納する。格納は、図2に示す
ように、各文字の出現位置をポインタで連結することに
よって実現できる。
【0043】b.最長共有文字数を求める。
【0044】最長共有文字数を算出するために、まず、
(N−1)次元、<文字列1>から<文字列(N−1)
>までの長さより‘1’だけ大きいサイズの配列S[i
1 ][i2 ]・・・[in-1 ]を作成し、その全ての要
素を‘0’に初期化する。
【0045】例えば、<文字列1>=a1 ,a2 ,・・
・,al 、<文字列2>=b1 ,b 2 ,・・・,bm
<文字列3>=c1 ,c2 ,・・・,cn とすると、2
次元配列S[i1 ][i2 ](0≦i1 ≦l,0≦i2
≦m)を作成し、その全ての要素を‘0’に初期化す
る。
【0046】次に<文字列3>から1文字読み、a.で
作成した表を参照して<文字列1>、<文字列2>にお
けるその文字の出現位置r1 ,r2 を求める。その後、
以下の処理を行なう。(文字が複数回現われる場合に
は、出現位置r1 又はr2 の大きい順に処理を行なえば
よい。)
【0047】次の三つの条件イ,ロ,ハを満たす時、配
列S[i1 ][i2 ](r1 ≦i1,r2 ≦i2 )にお
いて、S[r1 ][r2 ]と等しい値を持つ配列Sの全
要素に‘1’を足す。 条件イ;S[r1][r2]=S[r1−1][r2] 条件ロ;S[r1][r2]=S[r1][r2−1] 条件ハ;S[r1][r2]=S[r1−1][r2−1]
【0048】ただし、上記の条件イ,ロ,ハをひとつで
も満たさなかった場合は、何も処理を行なわない。処理
後のS[l][m]の値が、<文字列1>のr1 番目ま
で、<文字列2>のr2 番目まで、<文字列3>のr3
番目までの三本の配列間の最長共有文字数kmax であ
る。
【0049】最長共有部分列LCSは、<文字列1>で
の出現位置r1 、<文字列2>での出現位置r2 、<文
字列3>での出現位置r3 からなるデータ構造を、図5
の説明図が示すように連結していくことにより求めるこ
とができる。
【0050】ところで、同じ長さの最長共有部分列LC
Sでも、構成する要素が異なる最長共有部分列LCSが
複数存在する。従って、全ての最長共有部分列LCSを
検出するためには、最長共有部分列LCSの候補となり
得る全てのデータ構造を連結する必要がある。
【0051】その際、文字位置が逆転しないようにする
ため、前後のデータ構造の文字位置[r1 ,r2 ,r
3 ]を比較する。図5の場合、2番目のデータ構造であ
るdata[2]の[3,3,4]と、その前の1番目
のデータ構造であるdata[1]の[4,2,1],
[2,1,2],及び[1,4,3]のそれぞれとを比
較することになる。
【0052】さて、最長共有文字数kmax を得たなら
ば、<文字列1>,<文字列2>,<文字列3>での位
置[r1 ,r2 ,r3 ]を、配列data[k]に格納
する。さらに、最長共有部分列LCSのひとつ前の要素
であるdata[k−1]に格納されたデータ構造の中
で、文字位置の逆転が起こらないように[r1 ,r2
3 ]がともに小さいものを次候補として登録する。上
記例題の場合、次のように処理を行なう。
【0053】.r3 =1(D)のとき、r1 =4、r
2 =2である。S[4][2]とS[3][2]、S
[4][1]、S[3][1]は等しく‘0’なので、
S[4≦r1 ][2≦r2 ]で、S[4][2]と等し
い要素S[4][2],・・・,S[4][4]に、
‘1’を足す(図3(a))。
【0054】配列data[1]に、<文字列1>での
文字位置r1 =4、<文字列2>での文字位置r2
2、<文字列3>での文字位置r3 =1を格納する。こ
こでは、<文字列1>,<文字列2>中での文字‘D’
の位置[r1 ,r2 ,r3 ]からなるデータ構造をポイ
ンタで連結することにより実現する。
【0055】.r3 =2(B)のとき、r1 =2、r
2 =1である。S[2][1]とS[1][1]、S
[2][0]、S[1][0]は等しく‘0’なので、
S[2≦r1 ][1≦r2 ]で、S[2][1]と等し
い要素S[2][1],・・・,S[4][1]に、
‘1’を足す(図3(b))。さらに、配列data
[1]に、データ構造[2,1,2]を次候補として登
録する。
【0056】.r3 =3(A)のとき、r1 =1、r
2 =4である。S[1][4]とS[0][4]、S
[1][3]、S[0][3]は等しく‘0’なので、
S[1≦r1 ][4≦r2 ]で、S[1][4]と等し
い要素S[1][4]に、‘1’を足す(図4
(a))。さらに、配列data[1]に、データ構造
[1,4,3]を次候補として登録する。
【0057】.r3 =4(C)のとき、r1 =3、r
2 =3である。S[3][3]とS[2][3]、S
[3][2]、S[2][2]は等しく‘1’なので、
S[3≦r1 ][3≦r2 ]で、S[3][3]と等し
い要素S[3][3],・・・,S[4][4]に、
‘1’を足す(図4(b))。
【0058】配列data[2]にデータ構造[3,
3,4]を格納し、さらに配列data[2]を、da
ta[1]に格納されたデータ構造の中で、[r1 ,r
2 ,r 3 ]ともに小さいデータ構造、すなわち[2,
1,2]にポインタにより連結する。このようにして、
<文字列3>の最後の文字まで処理を続ける。
【0059】c.最長共有部分列LCSを表示する。
【0060】最長共有部分列LCSを表示するためのア
ルゴリズムの一例を図8,9に示す。data[k
max ]から順にポインタを手繰っていき、次候補が無く
なったところで表示する。
【0061】上記例題の場合、文字位置のデータ構造d
ata[k]を[r1 ,r2 ,r3]と表わすと、
[3,3,4]から[2,1,2]をたどることにな
る。data[kmax ]のデータ構造[3,3,4]は
‘C’を、その前のデータ構造[2,1,2]は‘B’
を示しているので、最長共有部分列LCSである”B
C”を出力する。
【0062】d.文字間隔を表示する。
【0063】このアルゴリズムでは、最長共有部分列L
CSの文字列そのものは同じでも、もとの文字列中での
位置が違うものは区別されているので、文字間隔の範囲
も最長共有部分列LCSとともに表示する。
【0064】前後のデータの構造体の[r1 ,r2 ,r
3 ]の差をそれぞれ計算し、一番小さいものをmin、
大きいものをmaxとして、文字間に{Xmin,ma
x}の形式で表示することができる。
【0065】
【実施例】アミノ酸配列の中には、タンパク質の高次構
造を決定する情報や生物機能に関わる情報が記されてい
るので、配列が明らかにされたアミノ酸配列に対して
は、情報解析の基本的手法である相同性探索が行なわれ
る。
【0066】また、モチーフ(複数配列間で共有されて
いる部分列)は、進化の過程を経てきたにもかかわら
ず、生物種の間に保存されてきたものであり、生物にと
って基本的で重要な機能に対応するものであると考えら
れる。ゆえに、生物体を特徴づけるタンパク質の機能を
推定していく上で、モチーフ配列を抽出することは、最
も基本的に行なうべきことで、重要なことである。
【0067】遺伝子情報検索装置の構成例を図1に示
す。本装置は、入力デバイスまたはデータベースから複
数の配列を読み込む入力部2と、複数の入力配列から最
長共有部分列LCSを検出するLCS検出部3、相同性
判定部4、相同性探索部5、マルチプルアライメント部
6、モチーフ抽出部7、及び表示部8を有する検出装置
1と、塩基配列データベース9と、アミノ酸配列データ
ベース10と、モチーフデータベース11と、ディスプ
レイ12とにより構成している。
【0068】入力部2は、キーボードやマウスなどの入
力デバイスまたはデータベースから、アミノ酸、DNA
塩基配列、モチーフ配列などを読み込む。LCS検出部
3は、図7で説明したアルゴリズムに基づいて、入力し
た複数配列間の最長共有部分列LCS、最長共有文字数
max 、及び文字間隔を検出する。
【0069】相同性判定部4は、入力した配列間の相同
性の割合を判定基準とし、入力配列間の最長共有文字数
と入力配列長とから相同性の割合を算出し、その値が一
定の基準値を満たしているか否かを判定する。相同性探
索部5は、複数の入力配列と相同な配列を、データベー
スから探索する。
【0070】さらに、相同性の割合が基準値に達したも
のは、入力配列と相同な配列であるとし、その配列を相
同性の割合(%)、入力配列、最長共有部分列LCS、
文字間隔などと共にディスプレイ12に表示する。図1
0に、ヒトSOD、ウシSOD、ブタSODの相同性判
定の表示例を示す。
【0071】マルチプルアライメント部6は、文字間隔
に基づいて、部分列が連続していない場合には入力配列
に空白を挿入し、複数の入力配列間に共通な文字の位置
を一致させて入力配列を表示する。図11に、ヒトSO
D、ウシSOD、ブタSODのマルチプルアライメント
の表示例を示す。
【0072】モチーフ抽出部7は、入力された複数配列
中に共通に存在するモチーフ配列を推定し、抽出する。
また、抽出されたモチーフ配列を入力配列とともに表示
する。三種類のタンパク質よりモチーフを抽出した場合
の表示例を図12に示す。
【0073】表示部8は、相同性探索における入力配
列、入力配列と相同な配列、相同性の割合、複数配列間
の最長共有部分列及び文字間隔、アライメントにおける
文字間隔に基づいて並び変えられた入力配列、モチーフ
抽出における入力配列、入力配列に含まれるモチーフ配
列の候補を、図10から12の形式でディスプレイ12
に表示するものである。
【0074】
【発明の効果】以上説明したように、本発明によれば、
複数配列間の最長共有部分列LCSを検出するLCS検
出部を具備し、相同性探索、マルチプルアライメント、
及び複数配列間に共通に存在するモチーフ配列の抽出が
できるので、タンパク質の構造や機能などを決定する生
物学的情報の有効利用に寄与するところが大きい。
【図面の簡単な説明】
【図1】遺伝子情報解析装置の構成例を示す図である。
【図2】文字の出現位置を示す表について説明する図で
ある。
【図3】最長共有文字数の求め方を説明するための図で
ある。
【図4】最長共有文字数の求め方を説明するための図で
ある。
【図5】最長共有部分列の求め方を説明するための図で
ある。
【図6】最長共有文字数を検出するためのアルゴリズム
の一例を示す図である。
【図7】最長共有部分列を検出するためのアルゴリズム
の一例を示す図である。
【図8】最長共有部分列を表示するためのアルゴリズム
の一例を示す図である。
【図9】最長共有部分列を表示するためのアルゴリズム
の一例を示す図である。
【図10】三種類のSODの相同性判定の表示例を示す
図である。
【図11】三種類のSODのマルチプルアライメントの
表示例を示す図である。
【図12】三種類のタンパク質よりモチーフを抽出した
場合の表示例を示す図である。
【符号の説明】
1 検出装置 2 入力部 3 LCS検出部 4 相同性判定部 5 相同性探索部 6 マルチプルアライメント部 7 モチーフ抽出部 8 表示部 9 塩基配列データベース 10 アミノ酸配列データベース 11 モチーフデータベース 12 ディスプレイ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】キーボードやマウスなどの入力デバイス、
    又はデータベース(9),(10),(11)から、複
    数本の塩基配列やアミノ酸配列やモチーフ配列を読み込
    む入力部(2)と、 入力された複数配列間に共通な部分列の内、最も長い部
    分列である最長共有部分列を検出するLCS検出部
    (3)と、 配列を表示するための表示部(8)とを具備することを
    特徴とする遺伝子情報解析装置。
  2. 【請求項2】最長共有部分列の要素が連続していない場
    合においてその不連続な間隔を検出する手段と、最長共
    有部分列の要素数である最長共有文字数を検出する手段
    とを具備するLCS検出部を設ける請求項1記載の遺伝
    子情報解析装置。
  3. 【請求項3】複数配列間の最長共有文字数と入力配列長
    との比である相同性の割合が、一定の基準値を満たすか
    否かを判定する相同性判定部(4)を備える請求項1記
    載の遺伝子情報解析装置。
  4. 【請求項4】入力配列と相同な配列を、配列情報を擁す
    るデータベースから検索する相同性探索部(5)を備え
    る請求項3記載の遺伝子情報解析装置。
  5. 【請求項5】複数配列間に共通に存在する配列要素の位
    置を一致させるように入力配列を並べ変えるアライメン
    ト部(6)を備える請求項1記載の遺伝子情報解析装
    置。
  6. 【請求項6】入力された複数の配列から、配列間に含ま
    れているモチーフを推定、抽出するモチーフ抽出部
    (7)を備える請求項1記載の遺伝子情報解析装置。
JP42A 1992-09-16 1992-09-16 遺伝子情報解析装置 Withdrawn JPH06181765A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP42A JPH06181765A (ja) 1992-09-16 1992-09-16 遺伝子情報解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP42A JPH06181765A (ja) 1992-09-16 1992-09-16 遺伝子情報解析装置

Publications (1)

Publication Number Publication Date
JPH06181765A true JPH06181765A (ja) 1994-07-05

Family

ID=17150205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP42A Withdrawn JPH06181765A (ja) 1992-09-16 1992-09-16 遺伝子情報解析装置

Country Status (1)

Country Link
JP (1) JPH06181765A (ja)

Similar Documents

Publication Publication Date Title
US6983274B2 (en) Multiple alignment genome sequence matching processor
CN101233509A (zh) 对双标记序列进行处理和/或基因组定位的方法
AU2582701A (en) Sequence database search with sequence search trees
Sadakane et al. Indexing huge genome sequences for solving various problems
Hauth et al. Beyond tandem repeats: complex pattern structures and distant regions of similarity
Allali et al. The at-most $ k $-deep factor tree
Zhang et al. SMOTIF: efficient structured pattern and profile motif search
JP3476310B2 (ja) 蛋白質データベース・システム並びに蛋白質の名前および機能の表示方法
JPH06181765A (ja) 遺伝子情報解析装置
JP3370787B2 (ja) 文字配列検索方法
KR100538451B1 (ko) 분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색시스템 및 그 방법
WO2005093632A1 (ja) Rna配列情報処理方法、プログラムおよび装置
Ferragina et al. Computational biology
Li et al. Seeding with minimized subsequence
Pizzi et al. Efficient algorithms for sequence analysis with entropic profiles
EP0772135A1 (en) DNA sequences useful for computation
Hyyrö et al. On exact string matching of unique oligonucleotides
Davison et al. Brute force estimation of the number of human genes using EST clustering as a measure
Chen et al. Mining association rules in analysis of transcription factors essential to gene expressions
JPH0950438A (ja) 生体高分子配列ホモロジ検索方法
JP3723767B2 (ja) 生物学的な配列情報処理方法および装置
Stojanov et al. TMO: time and memory optimized algorithm applicable for more accurate alignment of trinucleotide repeat disorders associated genes
El Haji et al. A categorization of relevant sequence alignment algorithms with respect to data structures
Rizvi et al. A time efficient algorithm for finding longest common subsequence from two molecular sequences
Bergig et al. STR^{2}: A Structure to String Approach for Locating G-Box Riboswitch Shapes in Pre-Selected Genes

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19991130