JPH07274965A - 遺伝子のモチーフ抽出処理装置及び処理方法 - Google Patents

遺伝子のモチーフ抽出処理装置及び処理方法

Info

Publication number
JPH07274965A
JPH07274965A JP6275336A JP27533694A JPH07274965A JP H07274965 A JPH07274965 A JP H07274965A JP 6275336 A JP6275336 A JP 6275336A JP 27533694 A JP27533694 A JP 27533694A JP H07274965 A JPH07274965 A JP H07274965A
Authority
JP
Japan
Prior art keywords
motif
gene
site
sequence
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6275336A
Other languages
English (en)
Other versions
JP3353263B2 (ja
Inventor
Takashi Gojiyoubori
孝 五條堀
Yoshio Tateno
義男 舘野
Kazuo Ikeo
一穂 池尾
Yuichi Kawanishi
祐一 川西
Masato Kawai
正人 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KOKURITSU IDENGAKU KENKYUSHO
Fujitsu Ltd
Original Assignee
KOKURITSU IDENGAKU KENKYUSHO
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KOKURITSU IDENGAKU KENKYUSHO, Fujitsu Ltd filed Critical KOKURITSU IDENGAKU KENKYUSHO
Priority to JP27533694A priority Critical patent/JP3353263B2/ja
Publication of JPH07274965A publication Critical patent/JPH07274965A/ja
Application granted granted Critical
Publication of JP3353263B2 publication Critical patent/JP3353263B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

(57)【要約】 【目的】 遺伝子配列情報から遺伝子機能を特定する、
配列に特徴的な規則性を抽出する遺伝子のモチーフ抽出
処理装置および処理方法に関し、遺伝子配列情報をもと
に機械的に(自動的に)モチーフを抽出することを目的
とする。 【構成】 入力した複数の遺伝子配列のアライメントデ
ータから、進化系統樹に基づく各配列への重み付けを行
い、各配列の重みとアミノ酸の類似性とから各部位のス
コアを計算し、スコアが大きい部分を配列に特徴的な規
則性であるモチーフとして自動抽出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は遺伝子のモチーフ抽出処
理装置及び処理方法に係り、特に与えられた複数の遺伝
子配列情報の比較からそれらの配列間の保存部位である
モチーフを抽出する遺伝子のモチーフ抽出処理装置及び
処理方法に関する。近年の遺伝子工学の進歩に伴い、D
NA配列やアミノ酸配列で表現される遺伝子配列情報デ
ータベースが急増している。また、ヒトゲノム計画など
のように、特定の生物の遺伝子配列を全て解明しようと
いう試みが世界的規模で行われており、遺伝子配列情報
は今後も急激に増加することが予想される。
【0002】これらの遺伝子配列の中には、配列情報は
明らかになっているが、その機能や構造に関しては未知
であるものも多い。このような遺伝子の機能や構造を、
その配列情報から予測するために有効な方法として、配
列に特徴的な規則性であるモチーフの検索がある。その
ために、配列が既知のものから多くのモチーフを抽出す
る技術が必要とされる。
【0003】
【従来の技術】従来、遺伝子配列において遺伝子機能を
特定する、配列に特徴的な規則性を示すモチーフは、実
験や文献での報告に基づいて決定されてきた。このよう
なモチーフを登録したデータベースとして、PROSI
TEが知られている。ところで、一般に、遺伝子配列の
中で、機能的に重要な部位(サイト)は変わりにくいこ
とが知られている。このことを利用すれば、複数の遺伝
子配列の比較から、保存領域としてモチーフを抽出する
ことができる。しかしながら、従来、遺伝子配列の比較
からモチーフを抽出する手法は確立されていない。
【0004】
【発明が解決しようとする課題】実験等により人為的に
モチーフを決定するのは、大変な作業である。そこで、
遺伝子配列の比較からモチーフを機械的に抽出すること
ができれば、遺伝子機能の解明等に有効な多くの情報を
得ることができると考えられる。しかし、単に複数の遺
伝子配列の各部位を比較し、各部位の類似性を調べてい
く手法を採った場合、次のような問題がある。
【0005】つまり、抽出対象とする複数の遺伝子配列
情報が特定の種類の生物に偏った場合、抽出しようとす
る規則性に偏りが生じる。例えば、人間の遺伝子配列情
報、猿の遺伝子配列情報、馬の遺伝子配列情報、・・・
等の高等生物の遺伝子配列情報が多数あり、それより下
等な生物の遺伝子配列情報が少ない配列情報群につい
て、各部位の類似性からモチーフを抽出しようとした場
合、類似性の高い部分が進化においてあまり変化してい
ない保存領域であるとは必ずしも認定することはでき
ず、モチーフとして抽出する保存領域の認定が誤りが生
じる可能性がある。この逆の場合も同様である。
【0006】本発明は上記問題点の解決を図り、複数の
遺伝子配列情報をもとに、機械的に(自動的に)モチー
フを抽出することを目的とする。
【0007】
【課題を解決するための手段】図1は本発明の構成例を
示す図である。図1において、10はCPU及びメモリ
等からなる処理装置である。配列情報入力手段11は、
モチーフの抽出対象となる複数の遺伝子配列のアライメ
ントデータを入力する手段である。系統樹作成手段12
は、配列情報入力手段11によって入力した複数の遺伝
子配列のアライメントデータをもとに遺伝子配列間の相
違度に基づく進化系統樹13を作成する手段である。な
お、系統樹13は、例えば古生物学的な情報等を用いて
予め作成しておくようにしてもよい。
【0008】配列の重み計算手段14は、系統樹13の
枝の長さから各配列の重みを計算する手段である。スコ
ア計算手段15は、配列の各部位毎に、その部位におい
て出現する配列要素の類似性の度合を示すスコアを、配
列の重みと、予め配列要素の種類に応じて求められてい
る要素の類似性に基づくスコア表16とに基づいて計算
する手段である。
【0009】特徴情報抽出手段17は、計算されたスコ
アに基づいて遺伝子配列における特徴的な規則性を有す
る部分をモチーフとして抽出し、ディスプレイやプリン
タ等の出力装置18に出力させる手段である。特に、特
徴情報抽出手段17は、スコア計算手段15によって計
算されたスコアの値が所定の閾値または設定された閾値
を超えた場合に、その部位をモチーフ部位として抽出す
る。又、特徴情報抽出手段17は、所定の連続領域幅又
は設定した連続領域幅でモチーフ部位の出現率を計算
し、その値が所定のランダムレベル又は設定したランダ
ムレベルを超えた場合には、その連続領域をモチーフ領
域とし、隣合うモチーフ領域を1つのモチーフ領域とす
る。これらの計算結果等が出力装置18へ出力される。
出力装置18は、モチーフの出現率やランダムレベルの
値等をプロットしてグラフ表示を出力する。
【0010】
【作用】本発明の遺伝子のモチーフ抽出処理装置は、マ
ルティプルアライメントデータを入力データとし、各部
位においてアライメントデータを構成する配列中で高度
に保存されているアミノ酸をモチーフとして出力する。
ただし、進化的に近縁な配列が存在することによる、ア
ミノ酸の出現頻度の偏りを補正するために、アライメン
トデータに基づき系統樹13を作成し、系統樹13の枝
長や形から、各遺伝子配列に対する重み付けを行う。更
に、性質の似たアミノ酸の出現を許容するために、アミ
ノ酸の類似性に基づいて計算されたスコア表16を用い
て、各部位でのスコアを計算する。ここで求められたス
コアが高いほど、その部位では、アミノ酸が高度に保存
されていることを示す。
【0011】更に、モチーフ部位を抽出するために、ス
コアの閾値を設定する操作を行う。又、ここで設定した
閾値を超えるスコアを示した部位をモチーフ部位として
抽出する。そして、モチーフ領域を限定するために、領
域幅とランダムレベルとを設定する操作を行う。ここで
設定した領域幅内でのモチーフ部位の出現率がランダム
レベルを超える値を示した場合、その領域をモチーフ領
域とみなす。又、隣合うモチーフ領域は、1つのモチー
フ領域とみなす。
【0012】
【実施例】以下、図面を参照しつつ、本発明の実施例を
アミノ酸配列で表される遺伝子配列情報を例にして説明
する。図2は本発明の実施例の処理フローチャートであ
る。以下の説明における処理(a)〜(k)は、図2に
示す処理(a)〜(k)に対応する。
【0013】図3に示す5本の遺伝子配列A〜Eからな
るアライメントデータを考える。アルファベット一文字
がひとつのアミノ酸に対応し、配列長の*はギャップを
表す。 (a)アライメントデータ入力 配列情報入力手段11は、図3に示す配列A〜Eのアラ
イメントデータを入力する。配列情報がよく似た配列が
多数存在する場合、各部位を代表するアミノ酸をその出
現頻度から求めると偏りが生ずる。そこで、以下の処理
では、入力したアライメントデータから系統樹13を作
成し、系統樹13の枝長や形をもとに、各遺伝子配列に
対する重み付けの計算を行う。その計算結果を用い、各
配列に対して重み付けを行うことで、偏りを補正する。
【0014】(b)系統樹作成 系統樹作成手段12による系統樹13の作成には、例え
ばUPG(UnweightedPair-Group Clustering)法を用
いる。他の作成方法を用いてもよい。本実施例では、具
体的には系統樹の作成を以下のように行う。先ず、アラ
イメントデータをもとに、遺伝子配列間の相違度を求め
る。相違度は2本ずつの配列を組にして、それら配列間
のアミノ酸の置換数として計算される。計算式はアミノ
酸置換数を求める時に一般的に使われる次の式(1)を
用いる。
【0015】 K=−log(1−p) ・・・式(1) ここで、Kはアミノ酸数置換数、pは2本の配列間で異
なるアミノ酸を持つ部位の割合である。また、ギャップ
を含む部位については計算から除外する。式(1)によ
り、全ての2本の配列の組、即ち(A,B),(A,
C),・・・(A,E),(B,C),・・・,(C,
D),(C,E),(D,E)の組について相違度を計
算する。また、この相違度をVAB,VAC,・・・,VDE
と表すと、相違度VAB,VAC,・・・,VDEの中で最小
のものを選び、その組を結び付ける。この例では、配列
Dと配列Eが結び付けられる。この相違度を枝の長さと
する。
【0016】次に配列Dと配列Eを一つのグループと
し、これらと他の各配列との相違度を同様に式(1)に
より計算する。例えば、配列D,Eと配列Aとの相違度
(DE) A は、V(DE)A =(VAD+VAE)/2で求められ
る。同様に、V(DE)B ,V(DE) C についても計算し、こ
れらと、前に求めたVAB,VAC,・・・からVDEを除い
たものの中から、最小の値を持つものを選ぶ。この例で
は、配列Aと配列Bの相違度VABが最小であり、これら
が2番目にグループ化される。以下、同様にグループ化
と相違度の計算を行い、その結果をもとに系統樹13を
作成する。
【0017】図4(A)は、図3に示すアライメントデ
ータをもとに構築された系統樹13の例であり、図中の
括弧内の数字は系統樹13中の各枝の長さを表してい
る。 (c)各遺伝子配列に対する重み付けの計算 次に、配列の重み計算手段14は、作成された系統樹1
3の各枝の長さをもとに、各枝に重みを付与する。各枝
に与える重みは、その枝から分岐した配列の本数で枝の
長さを割ることにより求める。
【0018】図4(A)の系統樹13を例に説明する。
枝1は長さ0.158であり、枝1からは配列A、配列
B、配列Cの3本の配列が分岐している。従って、枝1
の重みは0.158/3で0.053と求められる。同
様にして、全ての枝の重みを求めると、次のようにな
る。 枝1の重み=0.158/3=0.053 枝2の重み=0.903/2=0.452 枝3の重み=0.367/2=0.184 枝4の重み=0.745 枝5の重み=枝6の重み=0.378/2=0.189 枝7の重み=枝8の重み=0.000 こうして求めた各枝の重みをもとに各配列の重みを計算
する。
【0019】各配列に付与する重みは、系統樹13の根
(root)から遡った時に通る枝の重み合計として求
める。図4(A)の系統樹13の例では、次のようにな
る。配列Aは、系統樹13上で枝1、枝3、枝5を通
る。各枝に与えられた重みは、それぞれ0.053,
0.184,0.378である。従って、配列Aの重み
は、これらの合計で0.615と求められる。同様にし
て、全ての配列に対する重みを計算する。更に、全ての
配列の重みの合計を求め、その合計で各配列の重みを割
り、重みの合計が1になるように標準化する。図4
(B)は、図4(A)の系統樹13から求めた各配列A
〜Eの重みを示す。
【0020】(d)各アミノ酸ごとの重み計算 次に、配列の重み計算手段14は、各配列A〜Eの標準
化された重みをもとに、各部位におけるそれぞれのアミ
ノ酸の重みを求める。そして、部位毎に出現するアミノ
酸の重みを、そのアミノ酸が現れるすべての配列の重み
の合計として求める。
【0021】図3に示すアライメントデータと図4
(B)の配列の重みをもとに説明する。第1番目の部位
では、配列AはQ(グルタミン)、配列BはL(ロイシ
ン)、配列CはE(グルタミン酸)、配列Dと配列Eは
S(セリン)のアミノ酸がそれぞれ出現している。従っ
て、第1番目の部位では、アミノ酸Qの重みには配列A
の重み0.210が与えられ、同様にアミノ酸Lには
0.210、アミノ酸Eには0.272、アミノ酸Sに
は配列Dと配列Eの重みの和で0.308の重みがそれ
ぞれ与えられる。その他のアミノ酸は、第1番目の部位
では重み0となる。
【0022】同様に、第2番目の部位では、配列A,
B,Cにアミノ酸V(バリン)が出現し、配列D,Eに
アミノ酸A(アラニン)が出現している。この部位にお
けるアミノ酸Vの重みは、配列A,B,Cの重みの和
で、 0.210+0.210+0.272=0.692 と
なる。第2番目の部位におけるアミノ酸Aの重みは、 0.154+0.154=0.308 となる。
【0023】同様にして、全ての部位において、各アミ
ノ酸の重みを計算する。図5は、以上のようにして計算
した第1番目の部位から第10番目の部位までのアミノ
酸の重みを示す。なお、図5では、小数点以下第4桁ま
での計算結果を示している。図6は、配列の重み計算手
段14が行う、図2に示す処理(d)の一実施例を示す
フローチャートである。
【0024】図6中、ステップ31は、配列の重み計算
手段14の、即ち、処理装置10のCPU内の、部位位
置カウンタを初期化する。ステップ32は、配列の重み
計算手段14の、即ち、処理装置10のCPU内の、遺
伝子配列番号カウンタを初期化する。ステップ33は、
現部位位置での現遺伝子配列のアミノ酸を、配列の重み
計算手段14の、即ち、処理装置10のメモリ内の、現
アミノ酸種格納領域に格納する。以下の説明で、現部位
位置、現遺伝子配列、現アミノ酸種等は、夫々現在注目
している部位の位置、現在注目している遺伝子配列、現
在注目しているアミノ酸種等を指す。ステップ34は、
現遺伝子配列の重みを、配列の重み計算手段14の、即
ち、処理装置10のメモリ内の、現部位位置の現アミノ
酸種のスコア格納領域に格納されているスコアに加算し
て格納する。ステップ35は、遺伝子配列番号カウンタ
に1を加える。
【0025】ステップ36は、遺伝子配列番号カウンタ
の値が遺伝子数より大きいか否かを判定し、判定結果が
NOであれば、処理はステップ34へ戻る。他方、ステ
ップ36の判定結果がYESであれば、ステップ37が
現部位位置の各アミノ酸のスコアの合計が1になるよう
に標準化処理を行う。次に、ステップ38は、各部位で
のスコアを計算し、ステップ39は、部位位置に1を加
える。ステップ40は、部位位置カウンタの値がアライ
メントデータ長より大きいか否かを判定し、判定結果が
YESであれば処理が終了する。他方、ステップ40の
判定結果がNOであれば、処理はステップ32へ戻る。
【0026】(e)各部位でのスコア計算 配列によっては、性質の類似したアミノ酸への置換が起
こっている場合があるが、このような場合でも、機能的
に保存されていることが多い。そこで、スコア計算手段
15は、このような部位をモチーフとして抽出するため
に、アミノ酸間の物理化学的類似性に基づくスコア表を
もとに各部位のスコアを計算する。
【0027】アミノ酸の類似性に基づくスコア表16a
は、予め各アミノ酸の物理・化学的性質をもとに求めら
れているものであって、各アミノ酸の組の置換頻度や性
質の違いの程度を示す距離に基づいて、各アミノ酸の組
に対して付与された値を持つテーブルである。例えば、
グリシン(G)と他のアミノ酸との組のスコアは、次の
ような値が付与されている。ただし、この場合には便宜
上各スコアが100倍されている。
【0028】 このようなスコア表については、種々のものが知られて
いるので、ここでの説明はこの程度にとどめる。
【0029】スコア表16aの値を加味して計算した各
部位のスコアは、その値が大きいほど、その部位ではア
ミノ酸が「保存的」であることを示している。例えば、
図5の第1番目の部位のスコアは、次の式(2)で求め
られる。 S1 =D(S,S)×S(S)×S(S) +D(S,L)×S(S)×S(L) +D(S,E)×S(S)×S(E) +D(S,Q)×S(S)×S(Q) +D(L,S)×S(L)×S(S) +D(L,L)×S(L)×S(L) +D(L,E)×S(L)×S(E) +D(L,Q)×S(L)×S(Q) +D(E,S)×S(E)×S(S) +D(E,L)×S(E)×S(L) +D(E,E)×S(E)×S(E) +D(E,Q)×S(E)×S(Q) +D(Q,S)×S(Q)×S(S) +D(Q,L)×S(Q)×S(L) +D(Q,E)×S(Q)×S(E) +D(Q,Q)×S(S)×S(Q) ・・・式(2) ここで、S1 は第一番目の部位のスコア、D(アミノ酸
1,アミノ酸2)はアミノ酸1とアミノ酸2のスコア表
16aから得た類似度、S(アミノ酸)はその部位にお
けるアミノ酸の重み(図5)である。
【0030】図7は、スコア計算手段15が行う、図2
に示す処理(e)の一実施例を示すフローチャートであ
る。図7中、ステップ51は、スコア計算手段15の、
即ち、処理装置10のメモリ内の、現部位位置のスコア
格納領域を初期化する。ステップ52は、スコア計算手
段15の、即ち、処理装置10のメモリ内の、アミノ酸
種カウンタを初期化する。ステップ53は、スコア計算
手段15の、即ち、処理装置10のメモリ内の、比較ア
ミノ酸種カウンタを初期化する。ステップ54は、現ア
ミノ酸種と現比較アミノ酸種間の類似度を、アミノ酸類
似度スコア表16aを参照して得る。ステップ55は、 Si =Si +D(A1 ,A2 )×S(A1 )×S
(A2 ) なる計算を行う。ここで、Si は現部位位置(i番目)
のスコア、A1 は現アミノ酸種、A2 は現比較アミノ酸
種、D(A1 ,A2 )は現アミノ酸種と現比較アミノ酸
種の類似度のスコア、S(A1 )は現部位位置の現アミ
ノ酸種のスコア、S(A2 )は現部位位置の現比較アミ
ノ酸種のスコアを夫々示す。
【0031】ステップ56は、比較アミノ酸種を次の比
較アミノ酸種に変更し、ステップ57は、全てのアミノ
酸種との比較が行われたか否かを判定する。ステップ5
7の判定結果がNOであれば、処理はステップ53へ戻
る。他方、ステップ57の判定結果がYESであると、
ステップ58でアミノ酸種を次のアミノ酸種に変更す
る。ステップ59は、全てのアミノ酸種についてスコア
の計算を行ったか否かを判定し、判定結果がYESであ
れば処理が終了する。他方、ステップ59の判定結果が
NOであれば、処理はステップ52へ戻る。
【0032】(f)計算結果出力 図3に示すアライメントデータについて、スコア計算手
段15でスコアを計算した結果は以下のとおりであっ
た。 (部位01〜05) 0.5183 0.7744 0.5677 0.8198 0.4881 (部位06〜10) 0.9328 0.4940 0.8683 0.3165 0.3580 (部位11〜15) 0.9311 0.3834 0.4072 0.3611 0.6114 (部位16〜20) 0.6937 0.5976 0.5699 0.5574 0.5010 (部位21〜25) 0.3880 0.6168 0.5530 0.5739 0.6296 (部位26〜30) 0.7718 0.3473 0.3772 0.6956 1.0000 (部位31〜35) 0.9841 0.9646 1.0000 0.9149 0.8891 (部位36〜40) 1.0000 0.6916 0.7864 0.7804 0.7903 (部位41〜45) 0.5830 0.6021 0.7753 0.5654 0.6976 (部位46〜50) 0.9037 0.6428 0.8303 0.9542 0.7105 (g)閾値設定 特徴情報抽出手段17は、スコアに閾値を決定し、その
閾値を超えるスコアの与えられた部位をモチーフとして
抽出する。そのため、閾値を、ユーザの指定またはディ
フォルト値として事前に定められている値により設定す
る。
【0033】(h)閾値を超える部位をモチーフとして
出力 スコアの閾値がthの場合、特徴情報抽出手段17は、
次式の条件を満たす部位をモチーフの候補として抽出す
る。 S>th 図3に示すアライメントデータについて、スコアの閾値
thを0.90として抽出したモチーフは、以下のとお
りであった。
【0034】『30 D[LI][IM]L[LIF]
[KRH]L』 ここで、「30」は図3のアライメントデータ中におけ
るモチーフの先頭アミノ酸の位置が30であることを意
味する。また、[]は、その部位では[]内の複数のア
ミノ酸が出現していることを示す。即ち、抽出されたモ
チーフ部位は、アライメントデータ中の6番目の(Fま
たはY)、11番目(FまたはY)、30番目(D)、
31番目(LまたはI)、32番目(IまたはM)、3
3番目(L)、34番目(LまたはIまたはF)、36
番目(L)、46番目(IまたはV)及び49番目(L
またはIまたはM)の部位である。
【0035】図8は、本発明の実施例によって抽出され
たモチーフ部位を示す図である。ところで、従来は、遺
伝子配列に特徴的な配列パターンであるモチーフを部位
としてマニュアル操作である程度までは抽出することが
できたが、モチーフを領域として同定することは困難で
あった。しかし、機能領域の同定や、祖先遺伝子の推定
を行う場合、モチーフを領域として同定することは非常
に重要である。そこで、本発明において、部位として抽
出されたモチーフ配列を領域として同定する方法につい
て、より詳細に説明する。
【0036】(i),(j),(k)領域幅及びランダ
ムレベルの設定、モチーフ部位の出現率の計算、モチー
フ領域の出力 図9は、特徴情報抽出手段17が行う、図2に示す処理
(i),(j),(k)の一実施例を示すフローチャー
トである。本実施例は、大略3つの処理からなる。第1
の処理では、任意の領域幅を設定し、その領域幅内のモ
チーフ部位の出現率を求める。第2の処理では、設定し
た領域幅内でのモチーフ部位の出現率が充分に高いか否
かを判断するためのランダムレベルを求め、ランダムレ
ベルを越える出現率でモチーフ部位が存在する場合はそ
の領域幅内のモチーフ部位を1つのモチーフ領域として
同定する。第3の処理では、同定されたモチーフ領域が
連続する場合にはそれらをまとめて1つのモチーフ領域
とする。
【0037】つまり、より具体的には以下の処理S1〜
S6が繰り返される。 S1:モチーフ部位の抽出を行う。 S2:初期領域幅、拡張幅、最大拡張幅を設定する。ま
た、モチーフ部位の出現率のランダムレベルを求めるた
めの領域幅を最大拡張幅に設定する。ただし、最大拡張
幅がアライメントデータ長の半分を越える場合には、ラ
ンダムレベルの領域幅をアライメントデータ長の半分の
長さを越えない値に設定する。 S3:初期領域幅及びランダムレベルの領域幅の夫々で
のモチーフ部位の出現率を計算してプロットする。 S4:初期領域幅でのモチーフ部位の出現率がランダム
レベルの領域幅でのモチーフ部位の出現率を越えている
場合には、初期領域幅を「モチーフ領域」とみなす。 S5:隣合う初期領域幅のモチーフ部位の出現率がとも
に「モチーフ領域」である場合には、これらを結合して
1つの「モチーフ領域」とみなす。 S6:処理S4及びS5をアライメントデータの全長に
渡って繰り返す。
【0038】図9に基づいてモチーフ領域の同定処理を
説明するに、ステップ61はモチーフ部位の出現率を求
める領域幅を設定する。ステップ62は、特徴情報抽出
手段17の、即ち、処理装置10のCPU内の、部位位
置カウンタを初期化する。ステップ63は、現部位位置
を中心として、設定した領域幅内でのモチーフ部位の出
現率を、次の式から求める。
【0039】(モチーフ部位の出現率)=(領域幅内モ
チーフ部位数)/(領域幅) ステップ64は、モチーフ部位の出現率をグラフにプロ
ットし、ステップ65は、現部位位置でのランダムレベ
ルを計算し、グラフにプロットする。ステップ66は、
部位位置に1を加え、ステップ67は、部位位置カウン
タの値がアライメントデータ長より大きいか否かを判定
する。ステップ67の判定結果がNOであれば、処理は
ステップ63へ戻る。
【0040】他方、ステップ67の判定結果がYESで
あると、ステップ68で特徴情報抽出手段17の、即
ち、処理装置10のCPU内の、モチーフ領域フラグを
初期化する。ステップ69は、部位位置カウンタを初期
化する。ステップ70は、部位位置のモチーフ出現率が
ランダムレベルより高いか否かを判定する。ステップ7
0の判定結果がYESであれば処理はステップ71へ進
み、NOであれば処理はステップ75へ進む。
【0041】ステップ71は、モチーフ領域フラグが立
っているか(セットされているか)否かを判定し、判定
結果がYESであると、ステップ72が現部位位置を中
心とした領域を現モチーフ領域に加えて伸長する。他
方、ステップS71の判定結果がNOであると、ステッ
プ73はモチーフ領域フラグを立て、ステップ74は、
現部位位置を中心とした領域幅の中で最初にモチーフ部
位の出現する部位位置を現モチーフ領域の開始部位とす
る。ステップ72又は74を行った後は、処理がステッ
プ78へ進む。
【0042】ステップ75は、モチーフ領域フラグが立
っているか否かを判定し、判定結果がNOであれば、処
理はステップ78へ進む。他方、ステップ75の判定結
果がYESであれば、ステップ76がモチーフ領域フラ
グを初期化し、スッテプ77が現モチーフ領域を出力す
る。このステップ76を行った後は、処理がステップ7
8へ進む。
【0043】ステップ78は、部位位置に1を加える。
又、ステップ79は、部位位置カウンタの値がアライメ
ントデータ長より大きいか否かを判定し、判定結果がY
ESであれば、処理は終了する。他方、ステップ79の
判定結果がNOであれば、処理はステップ70へ戻る。
上記の如きモチーフ領域の同定処理を行った場合の実験
結果を以下に説明する。
【0044】実験では、FLAA7A−1をプローブと
して、アライメントデータを対象としてモチーフ領域の
同定を行った。図10〜図12は、プローブ名がFLA
A7A−1、homologue本数が53、初期領域
幅が21、最大拡張幅が101、アライメントデータ長
が97、ランダムレベルを求めるための領域幅が41、
モチーフ部位抽出時の設定値が0.90の場合の実験結
果を示す。図10は、設定した領域幅におけるモチーフ
部位の占める割合を示しており、「o」はモチーフ領域
幅の初期値でのプロットを示し、「...」はランダム
レベルのプロットを示す。尚、プロットが重なった場合
は、割合の高い方を優先してプロットしてある。図11
は、抽出されたモチーフ部位を示す。更に、図12は、
モチーフ領域の同定処理により得られたモチーフ領域を
示している。図12中、「:」はモチーフの開始位置と
終了位置とを示し、「[ ]」はそのモチーフ部位に複
数のアミノ酸が出現することを示し、「−」はその部位
に任意のアミノ酸又はギャップ(即ち、モチーフ部位で
はない部位)が出現することを示す。
【0045】図13〜図15は、同様にしてECODH
FOLG−1をプローブとして用いて得られた他の実験
結果を示す。図13〜図15は、プローブ名がECOD
HFOLG−1、homologue、本数が11、初
期領域幅が11、アライメントデータ長が179、ラン
ダムレベルを求めるための領域幅が81、モチーフ部位
抽出時の設定値が0.90の場合の実験結果を示す。図
13及び図14は、同じアライメントデータに対するプ
ロットを分割して示しており、図15は、モチーフ領域
の同定処理により得られたモチーフ領域を示す。 図1
3及び図14は、設定した領域幅におけるモチーフ部位
の占める割合をアライメントデータと対応させて示して
おり、「o」はモチーフ領域幅の初期値でのプロット、
即ち、設定した領域幅でのモチーフ部位の出現率を示
し、「...」はランダムレベルのプロットを示す。つ
まり、モチーフ部位の出現率がこのランダムレベルより
低い場合は、このモチーフ部位をモチーフ領域とはみな
さない。尚、プロットが重なった場合は、割合の高い方
を優先してプロットしてある。更に、図13及び図14
中、アライメントデータの左側に示されている名前は、
遺伝子配列データベースDDBJに登録されている遺伝
子配列のエントリー名を示す。又、Dihydrofo
late reductase signature
[LIF]−G−X(4)−[LIVMF]−P−W
は、モチーフデータベースPROSITEに登録されて
いるデータである。
【0046】図15中、左側に示されている「122」
等の数字は、各モチーフ領域のアライメントデータ上で
の開始位置を示す。又、右側に示されている「137」
等の数字は、各モチーフ領域のアライメントデータ上で
の終了位置を示す。図16〜図18は、同様にしてHU
MTRX1−1をプローブとして用いて得られた他の実
験結果を示す。図16〜図18は、プローブ名がHUM
TRX1−1、homologue、本数が15、初期
領域幅が11、アライメントデータ長が110、ランダ
ムレベルを求めるための領域幅が51、モチーフ部位抽
出時の設定値が0.90の場合の実験結果を示す。図1
6及び図17は、同じアライメントデータに対するプロ
ットを分割して示しており、図18は、モチーフ領域の
同定処理により得られたモチーフ領域を示す。
【0047】図16及び図17は、設定した領域幅にお
けるモチーフ部位の占める割合をアライメントデータと
対応させて示しており、「o」はモチーフ領域幅の初期
値でのプロット、即ち、設定した領域幅でのモチーフ部
位の出現率を示し、「...」はランダムレベルのプロ
ットを示す。つまり、モチーフ部位の出現率がこのラン
ダムレベルより低い場合は、このモチーフ部位をモチー
フ領域とはみなさない。尚、プロットが重なった場合
は、割合の高い方を優先してプロットしてある。更に、
図16及び図17中、アライメントデータの左側に示さ
れている名前は、遺伝子配列データベースDDBJに登
録されている遺伝子配列のエントリー名を示す。又、T
hioredoxin family active
site[STA]−X−[WG]−C−[AGV]−
[PH]−Cは、モチーフデータベースPROSITE
に登録されているデータである。
【0048】図18中、左側に示されている「69」等
の数字は、各モチーフ領域のアライメントデータ上での
開始位置を示す。又、右側に示されている「105」等
の数字は、各モチーフ領域のアライメントデータ上での
終了位置を示す。これにより、本発明によれば、遺伝子
配列情報から、機械的に(自動的に)モチーフ領域を抽
出・同定することができるので、高速にモチーフ領域の
抽出・同定が可能となる。従って、大量の遺伝子配列デ
ータから新規なモチーフを発見したり、モチーフデータ
ベースを作成することが、容易にできる。この様にして
得られたモチーフ情報をもとに、未知機能の遺伝子配列
の機能及び構造の予測を効率良く行うことができ、本発
明を遺伝子機能の発見や機能領域の同定に利用すると非
常に便利である。
【0049】以上、本発明を実施例により説明したが、
本発明は上記実施例に限定されるものではなく、本発明
の範囲内で種々の変形及び改良が可能であることは、言
うまでもない。
【0050】
【発明の効果】以上説明したように、本発明によれば、
遺伝子配列情報から、機械的に(自動的に)モチーフ領
域を抽出・同定することができるので、高速にモチーフ
領域の抽出・同定が可能となるので、大量の遺伝子配列
データから新規なモチーフを発見したり、モチーフデー
タベースを作成することが、容易にでき、この様にして
得られたモチーフ情報をもとに、未知機能の遺伝子配列
の機能及び構造の予測を効率良く行うこともできるの
で、本発明を遺伝子機能の発見や機能領域の同定に利用
すると非常に便利であり、遺伝子工学の発展に寄与する
ところが大きい。
【図面の簡単な説明】
【図1】本発明の構成例を示す図である。
【図2】本発明の実施例の処理フローチャートである。
【図3】入力したアライメントデータの例を示す図であ
る。
【図4】図3に示すアライメントデータから求めた系統
樹と配列の重みの結果を示す図である。
【図5】各部位におけるアミノ酸の重みの計算結果を示
す図である。
【図6】配列の重み計算手段が行う処理の一実施例を示
すフローチャートである。
【図7】スコア計算手段が行う処理の一実施例を示すフ
ローチャートである。
【図8】本発明の実施例によって抽出されたモチーフ部
位を示す図である。
【図9】特徴情報抽出手段が行う処理の一実施例を示す
フローチャートである。
【図10】モチーフ領域の同定処理を行った場合の実験
結果を説明する図である(その1)。
【図11】モチーフ領域の同定処理を行った場合の実験
結果を説明する図である(その2)。
【図12】モチーフ領域の同定処理を行った場合の実験
結果を説明する図である(その3)。
【図13】モチーフ領域の同定処理を行った場合の実験
結果を説明する図である(その1)。
【図14】モチーフ領域の同定処理を行った場合の実験
結果を説明する図である(その2)。
【図15】モチーフ領域の同定処理を行った場合の実験
結果を説明する図である(その3)。
【図16】モチーフ領域の同定処理を行った場合の実験
結果を説明する図である(その1)。
【図17】モチーフ領域の同定処理を行った場合の実験
結果を説明する図である(その2)。
【図18】モチーフ領域の同定処理を行った場合の実験
結果を説明する図である(その3)。
【符号の説明】
10 処理装置 11 配列情報入力手段 12 系統樹作成手段 13 系統樹 14 配列の重み計算手段 15 スコア計算手段 16 要素の類似性に基づくスコア表 17 特徴情報抽出手段 18 出力装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 池尾 一穂 静岡県三島市谷田1111番地 国立遺伝学研 究所内 (72)発明者 川西 祐一 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内 (72)発明者 河合 正人 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 遺伝子配列情報から遺伝子機能を特定す
    る特徴的な規則性を抽出する処理装置であって、 複数の遺伝子配列に関する進化系統樹(13)の枝の長
    さから各配列の重みを計算する配列の重み計算手段(1
    4)と、 配列の各部位毎に、その部位において出現する配列要素
    の類似性の度合を示すスコアを前記重みを用いて計算す
    るスコア計算手段(15)と、 計算されたスコアに基づいて遺伝子配列における特徴的
    な規則性を有する部分をモチーフとして抽出する特徴情
    報抽出手段(17)とを備えた、 遺伝子のモチーフ抽出処理装置。
  2. 【請求項2】 請求項1記載の遺伝子のモチーフ抽出処
    理装置において、 複数の遺伝子配列のアライメントデータをもとに遺伝子
    配列間の相違度に基づく進化系統樹(13)を作成する
    系統樹作成手段(12)を更に備えた、 遺伝子のモチーフ抽出処理装置。
  3. 【請求項3】 請求項1又は2記載の遺伝子のモチーフ
    抽出処理装置において、 前記スコア計算手段(15)は、前記配列の重み計算手
    段(14)によって計算された各配列の重みと、予め配
    列要素の種類に応じて求められている配列要素間の類似
    性情報(16)とに基づいてスコアを計算する手段を有
    する、 遺伝子のモチーフ抽出処理装置。
  4. 【請求項4】 請求項1〜3のうちいずれか一項記載の
    遺伝子のモチーフ抽出処理装置において、 前記特徴情報抽出手段(17)は、前記スコア計算手段
    (15)によって計算されたスコアの値が所定の閾値ま
    たは設定された閾値を超えた場合に、その部位をモチー
    フ部位として抽出し出力する手段を有する、 遺伝子のモチーフ抽出処理装置。
  5. 【請求項5】 請求項4記載の遺伝子のモチーフ抽出処
    理装置において、 前記特徴情報抽出手段(17)は、所定の連続領域幅又
    は設定した連続領域幅でモチーフ部位の出現率を計算
    し、その値が所定のランダムレベル又は設定したランダ
    ムレベルを超えた場合に、その連続領域をモチーフ領域
    として抽出すると共に、隣合う領域がともにモチーフ領
    域の場合は、それらの領域を1つのモチーフ領域として
    出力する手段を更に有する、 遺伝子のモチーフ抽出処理装置。
  6. 【請求項6】 請求項5記載の遺伝子のモチーフ抽出処
    理装置において、 少なくともモチーフ部位の出現率やランダムレベルの値
    をプロットしてグラフ表示することにより前記特徴情報
    抽出手段(17)からの特徴情報を出力する出力手段
    (18)を更に有する、 遺伝子のモチーフ抽出処理装置。
  7. 【請求項7】 計算機により遺伝子配列情報から遺伝子
    機能を特定する特徴的な規則性を抽出する処理方法であ
    って、 抽出対象となる複数の遺伝子配列のアライメントデータ
    を入力する処理過程と、 それをもとに進化系統樹を作成する処理過程と、 その系統樹における枝の長さから各配列の重みを計算す
    る処理過程と、 計算された各配列の重みと、予め配列要素の種類の応じ
    て求められている配列要素間の類似性情報とに基づい
    て、各部位のスコアを計算する処理過程と、 計算されたスコアの値が所定の閾値または設定された閾
    値を超えた場合に、その部位をモチーフ部位として抽出
    する処理過程とを有する、 遺伝子のモチーフ抽出処理方法。
  8. 【請求項8】 請求項7記載の遺伝子のモチーフ抽出処
    理方法において、 所定の連続領域幅又は設定した連続領域幅でモチーフ部
    位の出現率を計算し、その値が所定のランダムレベル又
    は設定したランダムレベルを超えた場合に、その連続領
    域をモチーフ領域として抽出すると共に、隣合う領域が
    ともにモチーフ領域の場合は、それらの領域を1つのモ
    チーフ領域として出力する処理過程を更に有する、 遺伝子のモチーフ抽出処理方法。
  9. 【請求項9】 請求項8記載の遺伝子のモチーフ抽出方
    法において、 少なくともモチーフ部位の出現率やランダムレベルの値
    をプロットしてグラフ表示する前記領域をモチーフとし
    て抽出する処理過程からの特徴情報を出力する処理過程
    を更に有する、 遺伝子のモチーフ抽出処理方法。
JP27533694A 1993-11-12 1994-11-09 遺伝子のモチーフ抽出処理装置及び処理方法 Expired - Fee Related JP3353263B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27533694A JP3353263B2 (ja) 1993-11-12 1994-11-09 遺伝子のモチーフ抽出処理装置及び処理方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5-283329 1993-11-12
JP28332993 1993-11-12
JP27533694A JP3353263B2 (ja) 1993-11-12 1994-11-09 遺伝子のモチーフ抽出処理装置及び処理方法

Publications (2)

Publication Number Publication Date
JPH07274965A true JPH07274965A (ja) 1995-10-24
JP3353263B2 JP3353263B2 (ja) 2002-12-03

Family

ID=26551421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27533694A Expired - Fee Related JP3353263B2 (ja) 1993-11-12 1994-11-09 遺伝子のモチーフ抽出処理装置及び処理方法

Country Status (1)

Country Link
JP (1) JP3353263B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000060553A (ja) * 1998-08-19 2000-02-29 Fujitsu Ltd 遺伝子のモチーフ抽出処理装置及び遺伝子のモチーフ抽出処理方法並びに遺伝子のモチーフ抽出処理プログラムを記録した記録媒体
KR20020005535A (ko) * 2001-11-08 2002-01-17 이성섭 BAC-end sequencing 및 STC approach genome sequencingwith shotgun 방법의 전체 염기 서열 결정 연구의 자동화및 통합화를 지원하는 소프트웨어 설계·제작 모형
JPWO2002025489A1 (ja) * 2000-09-19 2004-01-29 日立ソフトウエアエンジニアリング株式会社 遺伝子データ表示方法及び記録媒体
JP2007209305A (ja) * 2006-02-13 2007-08-23 Hitachi Software Eng Co Ltd 進化過程を考慮した保存領域検出システム
JP2019508821A (ja) * 2015-12-31 2019-03-28 サイクリカ インクCyclica Inc. タンパク質−リガンド相互作用を同定するためのプロテオームドッキング方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000060553A (ja) * 1998-08-19 2000-02-29 Fujitsu Ltd 遺伝子のモチーフ抽出処理装置及び遺伝子のモチーフ抽出処理方法並びに遺伝子のモチーフ抽出処理プログラムを記録した記録媒体
WO2000011145A1 (fr) * 1998-08-19 2000-03-02 Fujitsu Limited Appareil d'extraction et de traitement de motifs geniques, procede d'extraction et de traitement de motifs geniques et milieu d'enregistrement supportant le programme d'extraction/traitement de motifs geniques
EP1106685A1 (en) * 1998-08-19 2001-06-13 Fujitsu Limited Apparatus for extracting and processing gene motif, method for extracting and processing gene motif and recording medium carrying gene motif extraction/processing program
EP1106685A4 (en) * 1998-08-19 2002-03-06 Fujitsu Ltd DEVICE FOR EXTRACTING AND PROCESSING A GENE MOTIVE, METHOD FOR EXTRACTING AND PROCESSING A GENE MOTIVE, AND RECORDING MEDIUM CARRYING GENETIC EXTRACTION / PROCESSING PROGRAM
US6745130B2 (en) 1998-08-19 2004-06-01 Fujitsu Limted Genetic motif extracting and processing apparatus, genetic motif extracting and processing method, and recording medium recorded with genetic motif extracting and processing program
JPWO2002025489A1 (ja) * 2000-09-19 2004-01-29 日立ソフトウエアエンジニアリング株式会社 遺伝子データ表示方法及び記録媒体
US7127354B1 (en) 2000-09-19 2006-10-24 Hitachi Software Engineering Co., Ltd. Method of displaying gene data, and recording medium
KR20020005535A (ko) * 2001-11-08 2002-01-17 이성섭 BAC-end sequencing 및 STC approach genome sequencingwith shotgun 방법의 전체 염기 서열 결정 연구의 자동화및 통합화를 지원하는 소프트웨어 설계·제작 모형
JP2007209305A (ja) * 2006-02-13 2007-08-23 Hitachi Software Eng Co Ltd 進化過程を考慮した保存領域検出システム
JP2019508821A (ja) * 2015-12-31 2019-03-28 サイクリカ インクCyclica Inc. タンパク質−リガンド相互作用を同定するためのプロテオームドッキング方法

Also Published As

Publication number Publication date
JP3353263B2 (ja) 2002-12-03

Similar Documents

Publication Publication Date Title
US5598350A (en) Genetic motif extracting method and apparatus
CN104504304B (zh) 一种成簇的规律间隔的短回文重复序列识别方法及装置
Sakakibara et al. Stochastic context-free grammers for tRNA modeling
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
CN108595913A (zh) 鉴别mRNA和lncRNA的有监督学习方法
CN111785328B (zh) 基于门控循环单元神经网络的冠状病毒序列识别方法
Siegmund et al. Approximate p-values for local sequence alignments
Chindelevitch et al. Local optimization for global alignment of protein interaction networks
JPH07274965A (ja) 遺伝子のモチーフ抽出処理装置及び処理方法
US7085651B2 (en) Method and device for assembling nucleic acid base sequences
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
Islamaj et al. A feature generation algorithm for sequences with application to splice-site prediction
Olman et al. Identification of regulatory binding sites using minimum spanning trees
Bonet et al. Clustering of metagenomic data by combining different distance functions
US20170270243A1 (en) Method for finding associated positions of bases of a read on a reference genome
JP4899789B2 (ja) 画像処理プログラムおよび画像処理装置
Böer Multiple alignment using hidden Markov models
Bustamam et al. Clustering self-organizing maps (SOM) method for human papillomavirus (HPV) DNA as the main cause of cervical cancer disease
JP2022139956A (ja) 情報処理装置、情報処理方法、及びプログラム
JP3928050B2 (ja) 塩基配列の分類システムおよびオリゴヌクレオチド出現頻度の解析システム
Muzio et al. networkGWAS: A network-based approach for genome-wide association studies in structured populations
Naenna et al. A modified Kohonen network for DNA splice junction classification
AbouEisha et al. A simple decision rule for recognition of poly (A) tail signal motifs in human genome
Matroud Nested tandem repeat computation and analysis
Leimeister et al. Anchor points for genome alignment based on filtered spaced word matches

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020903

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100927

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100927

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110927

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees