JPH06110944A - タンパクの高次構造解析法及び装置 - Google Patents

タンパクの高次構造解析法及び装置

Info

Publication number
JPH06110944A
JPH06110944A JP4262400A JP26240092A JPH06110944A JP H06110944 A JPH06110944 A JP H06110944A JP 4262400 A JP4262400 A JP 4262400A JP 26240092 A JP26240092 A JP 26240092A JP H06110944 A JPH06110944 A JP H06110944A
Authority
JP
Japan
Prior art keywords
similarity
amino acid
search
region
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4262400A
Other languages
English (en)
Inventor
Kazuo Sumi
一雄 角
Toshiaki Yorifuji
敏昭 依藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Idemitsu Kosan Co Ltd
Original Assignee
Idemitsu Kosan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Idemitsu Kosan Co Ltd filed Critical Idemitsu Kosan Co Ltd
Priority to JP4262400A priority Critical patent/JPH06110944A/ja
Publication of JPH06110944A publication Critical patent/JPH06110944A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 タンパクの三次元構造の情報を、一次構造か
ら直接的に得る方法及び装置を提供する。 【構成】 タンパクのアミノ酸配列上の任意の領域の配
列とシミラリティを有する配列の領域を、そのタンパク
のアミノ酸配列及び逆方向のアミノ酸配列全体から検索
し、アミノ酸配列上でシミラリティ関係を図示すること
によりタンパクの高次構造を解析する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、タンパクの高次構造の
解析法及び解析装置に関し、詳しくは、タンパクのアミ
ノ酸配列から高次構造の情報を得るための解析法及び装
置を提供するものである。
【0002】
【従来の技術】タンパクは、20種類のアミノ酸がペプ
チド結合により直鎖上に結合した重合体(ポリペプチ
ド)であり、アミノ酸が重合する順序や長さ、すなわち
アミノ酸配列によって、その機能や性質が決定される。
タンパクの機能においては、活性中心のアミノ酸のよう
に、個々のアミノ酸だけでなく、アミノ酸同士の作用に
よって形成される高次構造が重要な役割を果たしてい
る。
【0003】タンパクの高次構造は、二次構造としてα
−ヘリックス、β−シート、ランダムコイルをそのタン
パク特有の割合で含み、これらが空間的に折り畳まれて
三次構造を形成している。この高次構造を形成する情報
は、アミノ酸配列(一次構造)に内包されており、一次
構造がきまれば高次構造が決まると考えられている。こ
れは、タンパクを変性剤で変性させた後に、変性剤を取
り除くと元の高次構造が回復するというAnfinsenらの実
験により、裏付けられている。
【0004】ところで、タンパクの一次構造は、タンパ
ク自身を用いて完全に決定するのは困難であるが、組換
えDNA技術の進歩により、その遺伝子の塩基配列を決
定することによって間接的に決定できるようになってき
た。一方、タンパクの高次構造は、X線結晶解析や、N
MRを用いることによって決定することができるが、前
者による決定には数年を要し、後者の方法では100ア
ミノ酸程度と決定できる長さに限界があるなどの問題が
ある。
【0005】また、近年、タンパクに関する技術とし
て、天然に存在するタンパクを改変して性質の変わった
タンパクを作り出す技術、すなわちタンパク工学があ
る。これは、タンパクの一次構造をコードする遺伝子の
配列を、部位特異的変異等によって変異させ、遺伝子産
物であるタンパクの高次構造を改変することによって、
タンパクの機能、性質を改変するというものである。さ
らに、全く新しいタンパクを作り出すことも可能になっ
ている。これらの技術においては、一次構造から三次元
構造を予測することが重要な課題となっている。
【0006】このように、タンパクの一次構造から三次
元構造を推定する方法として、多くの方法が試みられて
いる。しかし、これらの方法の多くは、一次構造から三
次元構造を推定するものではなく、先ず二次構造予測を
行い、これらの二次構造の組合せにより三次元構造を予
測するというものであった。この二次構造の予測は、Ch
ou-Fasmanによる確率論的な方法を始めとして、最近で
はニューロコンピュータを用いた解析まで行われている
が、その予測率は70%以下に留まっている。このよう
に、二次構造予測を基にした三次元構造の予測は、未だ
実用的とはいい難い。その原因として、一連の二次構造
の予測法が、アミノ酸配列局所的並び(〜数十残基程
度)のみに着目し、その局所的並びの傾向がどのような
二次構造を取り易いかを予測する方法だからであると言
われている。
【0007】一般に、タンパクが三次元構造を形成する
際、各々の部分的配列領域のみが独立に三次元構造を形
成するのではなく、配列上離れた2以上の領域が相互作
用し(β−シート)、それに伴いα−ヘリックスが形成
され(逆の場合も考えられる)、三次元構造が形成され
ていくと考えられる。このような領域間の相互作用を二
次構造予測に利用することはできない。もしも、これを
行うとすれば、計算量が莫大なものとなり、実用的でな
い。
【0008】そこで現在では、X線結晶解析により三次
元構造が決定された既知のタンパクのアミノ酸配列をデ
ータベースに格納し、目的とするタンパク(ターゲット
タンパク)のアミノ酸配列と類似の配列を有するタンパ
クをデータベースから検索し、そのタンパクの構造に関
する情報を利用するという方法がとられている。しかし
ながら、この方法では既知のタンパクに類似しているタ
ンパクにしか適用できず、利用範囲が限られている。
【0009】さらに別の方法として、ターゲットタンパ
クの二次構造予測を何らかの方法で行った後、その二次
構造群の組合せを近距離、遠距離疎水性相互作用を考慮
し、三次元構造を組み立てるという方法も提案されてい
る。しかし、この方法も二次構造予測をもとにしている
ため、この二次構造予測が未だ不十分である現状では、
制約付きの方法であるといえる。
【0010】また、遺伝子組換え技術を応用して、大腸
菌等を用いた異種タンパクの生産が盛んになっている
が、産物が不溶性の顆粒(inclusion body)を形成する
ことが多く、これを変性、可溶化してリフォールディン
グする技術が重要となっている。ここでもタンパクの高
次構造に関する知見が必要となるが、現状では応用が可
能なほどの知見を得るのは困難である。
【0011】
【発明が解決しようとする課題】以上説明したように、
タンパクの一次構造から高次構造を予測できる方法が望
まれているが、従来行われている方法は、いずれも十分
なものではない。本発明は、このような事情に鑑み行わ
れたものであり、ターゲットタンパクの三次元構造の情
報を、一次構造から直接的に、しかも莫大な時間を要せ
ずに得る方法を提供することを課題とする。
【0012】
【課題を解決するための手段】本発明者は、上記課題を
解決するために鋭意研究を行った結果、ターゲットタン
パクの分子内におけるシミラリティを検索することによ
って高次構造を推定する手がかりが得られ、さらに、N
末端からC末端へという一方向のみでなく、逆向きの配
列も含めてシミラリティを検索することによって一層確
実に高次構造を予測することができるのみでなく、フォ
ールディングのようにタンパクの動的な振舞いを説明で
きることを見出し、本発明に至った。
【0013】すなわち本発明は、タンパクの高次構造を
そのアミノ酸配列に基づいて行う解析法であって、その
タンパクのアミノ酸配列上の任意の領域の配列とシミラ
リティを有する配列の領域を、そのタンパクのアミノ酸
配列全体から検索することを特徴とするタンパクの高次
構造解析法である。
【0014】さらに本発明は、高次構造の解析対象であ
るタンパクのアミノ酸配列を入力する入力手段と、必要
に応じてこの入力手段により入力されたアミノ酸配列か
ら逆方向のアミノ酸配列を作成する逆方向アミノ酸配列
作成手段と、前記アミノ酸配列上で任意の一定長の検索
領域を設定する領域設定手段と、アミノ酸配列上及び必
要に応じて逆方向アミノ酸配列上を前記検索領域と同一
長の被検索領域毎に順次対比して前記検索領域と被検索
領域との配列のシミラリティの程度(ホモロジースコ
ア)を算出するホモロジースコア算出手段と、前記ホモ
ロジースコアから、前記検索領域と被検索領域との配列
のシミラリティの有無を判定するシミラリティ判定手段
と、検索領域と、この検索領域と一定以上のシミラリテ
ィが認められたすべての被検索領域とのホモロジースコ
アを積算し、この積算値をその検索領域の中心点におけ
る類似度とする類似度決定手段と、検索領域の中心点の
アミノ酸番号及び類似度と、一定値以上のホモロジース
コアを有する領域の位置及びそのホモロジースコアを記
憶する記憶手段と、前記記憶手段に記憶された情報を出
力する出力手段とを備えたタンパクの高次構造解析装置
を提供する。
【0015】以下、本発明を詳細に説明する。タンパク
のアミノ酸配列は、それ自身で三次元構造を形成する情
報を内包している。本発明は、この情報をタンパク自身
内にあるシミラリティ関係を調査することによって引き
出すことに基づいている。一般に、タンパクの三次元構
造上、内側に埋もれているアミノ酸残基は、外側にある
残基よりも進化の過程で保存性が高い。その理由は以下
のように推定される。
【0016】原初のタンパクが形成される場合、もとも
と短い遺伝子(10〜15のアミノ酸残基に相当)がい
くつも重複あるいは融合して、機能タンパクになること
が示唆されている。この推論は、既知タンパクの中でし
ばしばアミノ酸配列上離れた領域に、極めて類似の短い
配列が存在することが観察されることに基づいている。
このことから、もしオリジナルな短い配列が1つの機能
(ここでは立体構造を形成するための機能とする)を担
っており、それが多数集まり三次元構造形成の際のコア
部分を形成していると考えられる。
【0017】長い進化の過程で、これらの短い機能を担
った配列も徐々に変異を蓄積していくが、機能を損なう
ような変異は受け入れられないため、この一連の機能配
列群は、他の配列部分に比べて保存度が高いことが予想
される(ダイバージェンス)。また、このこととは逆に
全く機能的に関連性のない配列群が、機能という観点か
ら類似な配列への変異を徐々に蓄積していくことも考え
られる(コンバージェンス)。
【0018】後述の実施例に示すごとく、二次構造の中
心点(α−ヘリックスの真中、β−シートをつなぐター
ン部分、α−ヘリックスとβ−シートをつなぐターン部
分)及びSS結合(ジスルフィド結合)の中心点に逆配
列との強いシミラリティ関係が多々観察される。
【0019】遺伝子の重複あるいは融合により、タンパ
クのアミノ酸配列中のある部分(中心点)の前後に類似
な逆配列がどのように形成されるかは現在不明である。
しかしながら、上記したコンバージェンスという概念を
考えれば、類似な逆配列の形成される理由を次のように
証明することができる。
【0020】すなわち、もしタンパク中に機能に関する
非常に重要な配列部分(保存度が高い領域:仮にA領域
とする)が存在し、その前後の配列に進化上同じような
機能で、しかも逆向きの配列が必要になる場合が考えら
れる。その場合、その必要性を満たす方法として、遺伝
子の重複あるいは融合も考えられるが、これらの手段が
適用できない場合を想定している。(例えば、類似な機
能に関する正方向の遺伝子は存在するが、類似な機能に
関する逆向きの遺伝子が存在しない場合。)これらの保
存の程度を吟味し、配列の機能として抽出する技術が本
発明の主要な部分である。
【0021】本発明の一態様として、ターゲット配列上
にある、そのタンパク自身内にある類似関係(シミラリ
ティ関係)を調査する上で、逆向きの配列(C末端から
N末端方向:以下「リバース配列」という。)を考慮す
る。二次構造は、正方向の配列(N末端からC末端方
向:以下、「正配列」という。)間で相互作用するだけ
でなく、リバース配列とも相互作用し、機能構造を形成
しているからである。
【0022】このように、他のタンパクとの比較ではな
く、タンパク自身内にあるシミラリティ関係を調査する
こと、配列の解析においてリバース配列を考慮すること
は、いずれも従来の方法にはなかった点である。
【0023】以下、本発明を分説する。 <1>シミラリティの評価 はじめに、2つの領域の配列間でのシミラリティの程度
を評価する方法を説明する。
【0024】本明細書では、タンパク自身の領域間の類
似性を「シミラリティ」という。類似性を表す語として
「ホモロジー」という用語もあるが、一般にホモロジー
には由来を共有するという進化的意味が含まれる。本発
明では、比較的短い配列が機能的理由で類似してくるこ
と(コンバージェンス)を含むので、シミラリティとい
う語を使用する。
【0025】すなわち「シミラリティ」とは、タンパク
の分子内の2つの領域の配列が類似していることをいう
が、単に完全に一致している場合だけでなく、それらの
領域の高次構造に与える機能が類似していることを含
み、その類似の程度が問題となる。この類似の程度の評
価には、進化論的統計スコアを使うことが好ましい。
【0026】進化論的統計スコアとしては、突然変異の
確率に基づいて、Schwartzらにより作成されたもの(R.
M. Schwartz, M. O. Dayhoff "Atlas of Protein Sequ
enceand Structure" ed. by M. O. Dayhoff, National
Biomedical Research Foundation, Washington, Vol.5,
Suppl.3, P.353 (1978))が挙げられる(表1)。
【0027】
【表1】
【0028】また、Grantham(R. Grantham, Science,
185, 862 (1974))、あるいは Miyataら( T. Miyata,
S. Miyazawa and T. Yasunaga, J. Mol. Evol., 12, 29
1 (1979))により作成されたものも同様に使用すること
ができる。
【0029】類似の程度(ホモロジースコア)を評価す
る方法の一例を、表1のスコア及び図1により説明す
る。図1上列の配列と下列の配列を、1アミノ酸残基毎
に比較する。例えば、W(Trp)とWが一致している場
合には、表1左欄のWと下欄のW(trp)が交差する点
の値17をホモロジーポイントとする。同様に、TとQ
では−1となる。これを6アミノ酸残基すべてについて
行い、ホモロジーポイントを合計すると、44となり、
この値をホモロジースコアとする。2領域間のホモロジ
ースコアが一定値(しきい値)以上であれば、これらの
領域は類似性がある(シミラリティを有する)と判定さ
れる。また、このスコアが高いほど類似性が高い。
【0030】しきい値を、低く設定しすぎると局所的に
意味のないホモロジーが検出される。例えば、表1中の
ホモロジーポイントの最も高いのはWであり、ホモロジ
ーポイントは17である。ホモロジースコアは、ホモロ
ジーポイントの積算値であるが、Wが配列中で1個一致
すれば、それだけでホモロジースコアは17となる。従
って、しきい値を17より小さくとれば、Wが含まれる
配列領域には全てホモロジーが検出されることになり、
現実的ではない。
【0031】このことを避けるために、ホモロジーを検
出する際、Wがあってもその前後の領域のアミノ酸残基
の種類も考慮するように、しきい値の最低値は20程度
に設定するのが好ましい。一方、しきい値の最高値につ
いては、タンパクによって機能に関する配列の保存の程
度は異なると考えられるので、しきい値の最高値も異な
ることが推定される。
【0032】<2>セルフ・シミラリティ・グラフ(S
SG) 次に、高次構造を推定するタンパク中のシミラリティ検
索を行い、シミラリティ関係を図示することにより、タ
ンパクの機能構造を解析する方法を説明する。
【0033】先ず、シミラリティ検索に先立ち、高次構
造を推定するタンパクの正配列、及び必要に応じてリバ
ース配列を用意する。このリバース配列は、正配列中の
アミノ酸残基の配列順序を逆にしたものである。
【0034】次に、正配列上で任意の一定長領域(検索
配列)を設定し、この領域とシミラリティを有する領域
を、前記正配列及び必要に応じてリバース配列から検索
する。例えば、前記一定長領域と同じ長さの領域(被検
索配列)を、N末端からC末端まで、及び必要に応じて
C末端からN末端まで一定のアミノ酸残基数、例えば1
アミノ酸残基づつずらして設定し、これらの被検索領域
と前記検索領域とのホモロジースコアを算出することに
より、シミラリティを有する領域の検索及びそのシミラ
リティの程度を知ることができる。
【0035】続いて、検索領域を、一定のアミノ酸残基
数、例えば1アミノ酸残基づつずらして設定し、上記と
同様に被検索領域を移動させつつホモロジースコアを算
出する。これをN末端からC末端まで行う。以下、一定
長領域の長さを「ウインドウ幅」、検索領域を設定する
際にその前の検索領域からずらすアミノ酸残基数を「ウ
インドウのずらし幅」という。
【0036】このウインドウ幅を長くとり過ぎると局所
的なホモロジーの高い部分が検出不可能となり、逆にウ
インドウ幅を短くとり過ぎれば局所的に意味のあるホモ
ロジー単位が抽出できなくなる。このウインドウ幅はタ
ンパクによって変わり、一概に決定できないが、通常1
0〜30、好ましくは20〜25とする。高次構造を解
析しようとするタンパクについて、この範囲で解析し、
必要があればウインドウ幅を適宜変更するのが好まし
い。
【0037】また、ウインドウのずらし幅は、正確なシ
ミラリティ関係を知りたいときは1残基が好ましく、正
確さより早さを望むときは、ずらし幅を2残基にするの
が好ましい。尚、被検索領域の移動幅も同様である。
【0038】前記検索領域とシミラリティがある被検索
領域、すなわち、一定値(しきい値)以上のホモロジー
スコアを有する被検索領域のホモロジースコアを積算
し、この値を前記検索領域の中心点における「類似度」
とする。例えば、20番目のアミノ酸を中心点とする領
域に対し、正方向で60番目、80番目、リバース方向
で50番目を中心点とする各領域にシミラリティが認め
られ、各々のホモロジースコアが20、40、30であ
ったとすると、この20番目のアミノ酸における類似度
は、20+40+30すなわち90となる。類似度は、
進化の過程において、その領域のタンパク中における保
存度を意味する。
【0039】タンパクのN末端からC末端まで検索領域
を移動させ、各検索領域について類似度を調べ、各検索
領域の中心点のアミノ酸残基番号に対して二次元座標に
プロットしたものを「セルフ・シミラリティ・グラフ
(SSG)」と呼ぶ。
【0040】尚、シミラリティー検索において、前記検
索領域を、正配列ではなくリバース配列中に設定しても
同様の結果が得られる。但し、SSGや以下で説明する
SSRの形状は裏返しの形になる。
【0041】図4、13等に、SSGの例を示す。この
SSGに表れた曲線から、タンパクの二次構造や、ある
領域がタンパク表面に存在するか、内部に埋もれている
かが推定できる。例えば、類似度の高い領域は、タンパ
クの基本骨格をなす部分であり、タンパクの内部に位置
することが推定される。さらに、この情報をもとに、タ
ンパクの高次構造における、構造に関連する単位(モチ
ーフ、ドメイン等)を推定することができる。例えば、
曲線の谷は、機能構造の境界、例えばα−ヘリックスと
β−シートとの境等であることが推定される。詳細は、
実施例で説明する。
【0042】このSSGにおいては、類似度の算出に正
配列及びリバース配列を含めた点が重要であり、リバー
ス配列を含めずに作成したSSG(図12)は、リバー
ス配列を含めて作成したSSG(図4)と大きく異な
る。しかし、一方向のみの検索からでも、タンパクによ
っては有意義な高次構造情報が得られる場合もある。
【0043】<3>セルフ・シミラリティ・リレーショ
ン(SSR) 次に、シミラリティのある領域間の関係を図示すること
により、タンパクの高次構造の情報を得る方法を説明す
る。
【0044】正配列上で検索配列を設定し、この領域と
シミラリティを有する領域を、正配列又は/及びリバー
ス配列から検索し、一定値以上のホモロジースコアを有
する領域間を関連づける。すなわち、アミノ酸残基番号
を直線上にプロットし、検索領域の中心点と、この検索
領域と一定以上のシミラリティがある被検索領域の中心
点の、各々のアミノ酸残基番号がプロットされた位置を
結ぶ。これを、「セルフ・シミラリティ・リレーション
(SSR)」と呼ぶ。
【0045】例えば、二次元座標の一方の軸にアミノ酸
残基番号をプロットし、シミラリティを有する領域の中
心点同士を前記軸と平行な直線で結ぶ。この際、関係を
見やすくするためにコの字型で結ぶとよい。同方向でシ
ミラリティを有する場合と、リバース方向でシミラリテ
ィを有する場合とで、コの字の向きを上下に変えるなど
分別表示を行うと、一層ホロモジー関係を把握しやすく
なる。また、シミラリティを有する正方向と逆方向の領
域の中心点が一致する場合は、上記方法では表示できな
いので、座標中の他の部分に、横軸と平行する直線でそ
の領域と中心点を示すなどするとよい。
【0046】SSRの例を、図5、7〜10等に示す。
図5、7、8の例では、同方向の類似関係を上部に、リ
バース方向での類似関係を下部に表記してある。また、
シミラリティを有する正方向と逆方向の領域の中心点が
一致する場合は、グラフ最上部に横軸と平行する直線で
その領域と中心点を示してある。
【0047】SSRにより、領域間の相互関係が推定で
きるだけでなく、ホモロジースコアのしきい値を変化さ
せて複数のSSRを作成すると、ある領域の重要性の序
列を推定することができる。これらの情報を基に、シス
テイン残基間のSS結合(ジスルフィド結合)等の架橋
ペアを推定したり、タンパクが変性状態からフォールデ
ィング(折り畳み)される際の順序やフォールディング
の折曲点、あるいは突然変異の影響等を推定することが
可能となる。
【0048】SSRをSSGとともに、図6のように同
一の二次元座標に表示すると解析に一層便利である。ま
た、高次構造が既知のタンパクについて、SSR及びS
SGを作成し、情報を蓄積しておくと、構造未知のタン
パクの解析に利用することができる。この際、既知の構
造の機能単位を、グラフの下方に表示しておくと、解析
しやすくなる。
【0049】<4>ホモロジースコアの総得点(SH
C) ホモロジースコアの総得点(SHC)を算出することに
より、以下のような利用法がある。
【0050】(利用法1)SSRのしきい値を変化させ
たとき、類似性関係を示す線の数は変化する。その変化
の程度を定量的に把握する目安として、ホモロジースコ
アの総得点を利用する。
【0051】(利用法2)人為的にアミノ酸配列を変化
させたときの変異の影響を、SSGおよびSSRで評価
する。その際、SSGのピークの大小,SSRの類似性
関係の数の増減と同様に、ホモロジースコアの総得点も
評価の対象とする。
【0052】尚、SHCは、SSGやSSR上に表示し
ておくと、解析に便利である。
【0053】<5>セルフ・シミラリティ・マトリック
ス(SSM) 次に、シミラリティのある領域間の関係を図示する他の
表記法について説明する。二次元座標の横軸にアミノ酸
残基番号をとり、縦軸にもアミノ酸残基番号をとり、シ
ミラリティの検出された領域中の対応するアミノ酸の残
基番号からなる座標をプロットし、これらを線で連結す
る。これを「セルフ・シミラリティ・マトリックス(S
SM)」と呼ぶ。SSMでは、正方向でのシミラリティ
は右上がりの直線になり、リバース方向では右下がりの
直線になる。SSMの例を、図53に示す。また図54
のように、X線結晶解析の結果を同時に表示すると、シ
ミラリティ関係と三次元構造とを直接比較することがで
きる。
【0054】<6>タンパクの高次構造解析装置 タンパクのアミノ酸配列を入力することによりSSG、
SSR、SSMを表示する装置を用いると、タンパクの
高次構造の解析をより簡便に行うことができる。
【0055】このような装置の構成の一例を図2に示
す。本発明の装置は、高次構造の解析対象であるタンパ
クのアミノ酸配列を入力する入力手段と、必要に応じて
この入力手段により入力されたアミノ酸配列から逆方向
のアミノ酸配列を作成する逆方向アミノ酸配列(リバー
ス配列)作成手段と、前記アミノ酸配列上で任意の一定
長の検索領域を設定する領域設定手段と、アミノ酸配列
上及び必要に応じて逆方向アミノ酸配列上を前記検索領
域と同一長の被検索領域毎に順次対比して前記検索領域
と被検索領域との配列のシミラリティの程度(ホモロジ
ースコア)を算出するホモロジースコア算出手段と、前
記ホモロジースコアから、前記検索領域と被検索領域と
の配列のシミラリティの有無を判定するシミラリティ判
定手段と、検索領域と、この検索領域と一定以上のシミ
ラリティが認められたすべての被検索領域とのホモロジ
ースコアを積算し、この積算値をその検索領域の中心点
における類似度とする類似度決定手段と、検索領域の中
心点のアミノ酸番号及び類似度と、一定値以上のホモロ
ジースコアを有する領域の位置及びそのホモロジースコ
アを記憶する記憶手段と、前記記憶手段に記憶された情
報を出力する出力手段とを備える。
【0056】この装置に、前記出力手段にアミノ酸残基
番号に対して類似度をプロットさせるためのSSG編集
手段を備えると、この装置によりSSGを表示すること
ができる。
【0057】また、この装置に、前記出力手段に、アミ
ノ酸残基番号を直線上にプロットし、検索領域とシミラ
リティを有すると判定された被検索領域との中心点のア
ミノ酸残基番号がプロットされた位置を結ぶ表示を行う
ためのSSR編集手段を備えると、SSRを作成するこ
とができる。
【0058】さらに、前記出力手段に、アミノ酸残基番
号を二次元座標の両軸に各々アミノ酸残基番号をプロッ
トし、シミラリティの検出された領域間を結ぶ表示を行
うためのSSM編集手段を備えると、SSMを作成する
ことができる。
【0059】入力手段としては、例えばキーボード等が
挙げられるが、アミノ酸配列の入力は、データベースか
ら直接入力してもよい。リバース配列作成手段、領域設
定手段、ホモロジースコア算出手段、シミラリティ判定
手段、類似度決定手段、SSG編集手段、SSR編集手
段、SSM編集手段としては、コンピュータが使用さ
れ、例えば、図3のフローチャートに示すようなプログ
ラムソフトウェアにより、これらの手段がコンピュータ
の中央処理装置上に実現される。
【0060】記憶手段としては半導体メモリや磁気ディ
スク装置、光ディスク装置などが、出力手段としてはC
RTディスプレイなどの画像表示装置やXYプロッタ、
プリンタなどが挙げられる。
【0061】また、本発明の装置に、既知の三次元構造
情報をSSG、SSR、SSMと同時に表示させる手段
を備えると、本発明の方法による解析と既知情報との直
接的な対比が可能となる。
【0062】
【作用】タンパクのアミノ酸配列中のシミラリティ検索
を行い、好ましくは正方向のみでなくリバース配列を含
めて行い、他の領域との類似性の高さ、すなわち類似度
を表示することによって、ある領域が表面にあるか内部
に埋もれているかが推定でき、このことから、タンパク
の機能部位を予測し、高次構造の単位(モチーフ、ドメ
イン)を推定することができる。
【0063】また、シミラリティを有する領域間の関係
を図示することによって、領域の重要性の序列を推定す
ることができ、このことから、変異の影響、フォールデ
ィングの順序や折曲点、SS結合の予測を行うことがで
きる。さらに、ホモロジースコアのしきい値が異なるも
のを作成し、これらを比較することによって、上記予測
を確実なものにすることができる。
【0064】
【実施例】以下に本発明の実施例を、既知情報との対比
を含めて説明する。
【0065】
【実施例1】タンパクの高次構造解析装置 本発明の解析装置の実施例を図2、3に基づいて説明す
る。この装置は、高次構造の解析対象であるタンパクの
アミノ酸配列を入力する入力手段と、この入力手段によ
り入力されたアミノ酸配列から逆方向のアミノ酸配列
(リバース配列)を作成する逆方向アミノ酸配列作成手
段と、前記アミノ酸配列上で任意の一定長の検索領域を
設定する領域設定手段と、アミノ酸配列上を前記検索領
域と同一長の被検索領域毎に順次対比して前記検索領域
と被検索領域との配列のシミラリティの程度(ホモロジ
ースコア)を算出するホモロジースコア算出手段と、前
記ホモロジースコアから、前記検索領域と被検索領域と
の配列のシミラリティの有無を判定するシミラリティ判
定手段と、検索領域と、この検索領域と一定以上のシミ
ラリティが認められたすべての被検索領域とのホモロジ
ースコアを積算し、この積算値をその検索領域の中心点
における類似度とする類似度決定手段と、検索領域の中
心点のアミノ酸残基番号及び類似度と、一定値以上のホ
モロジースコアを有する領域の位置及びそのホモロジー
スコアを記憶する記憶手段と、前記記憶手段に記憶され
た情報を出力する出力手段と、この出力手段に二次元座
標の一方にアミノ酸残基番号を、他方に類似度をプロッ
トさせるSSG編集手段と、アミノ酸残基番号を直線上
にプロットし、検索領域とシミラリティを有すると判定
された被検索領域との中心点のアミノ酸残基番号がプロ
ットされた位置を結ぶ表示を行うためのSSR編集手段
と、アミノ酸残基番号を二次元座標の両軸に各々アミノ
酸残基番号をプロットし、シミラリティの検出された領
域間を結ぶ表示を行うためのSSM編集手段とを備え
る。
【0066】入力手段は、例えばキーボード等が挙げら
れ、入力されたアミノ酸配列は、メモリに記憶される。
アミノ酸配列の入力は、データベースから直接入力して
もよい。
【0067】リバース配列作成手段は、入力手段により
入力され、メモリに記憶されている正配列(N末端から
C末端)のアミノ酸配列を、逆にC末端からN末端側に
並び替え、その配列をメモリに記憶させる。
【0068】領域設定手段は、指定された長さの領域を
アミノ酸配列中に設定する。通常、シミラリティ検索を
行う都度、N末端からC末端まで、領域の中心点を1ア
ミノ酸づつずらしながら、領域を設定していく。尚、設
定する領域はN末端及びC末端を越えては設定されない
ので、両端に接する指定された長さの半分の長さの部分
には、領域の中心点は設定されない。
【0069】ホモロジースコア算出手段は、前記検索領
域と同一長の被検索領域を、検索領域と順次対比させな
がらアミノ酸配列上を移動させ、それぞれの被検索領域
毎に検索領域との配列のシミラリティの程度(ホモロジ
ースコア)を、表1に示したホモロジーポイントに基づ
いて算出する。
【0070】シミラリティ判定手段は、ホモロジースコ
アから前記検索領域と被検索領域との配列のシミラリテ
ィの有無を判定する手段であり、2領域間のモロジース
コアが一定値以上であればシミラリティを有すると判定
する。
【0071】類似度決定手段は、シミラリティを有する
と認められたすべての領域のホモロジースコアを積算
し、得られる積算値を、前記一検索領域の中心点におけ
る類似度とする。積算にあたっては、正方向のみ、リバ
ース方向のみでもよいが、正方向及びリバース方向のい
ずれも行うのが好ましい。尚、すべての領域でシミラリ
ティを有さないと認められた場合には、前記検索領域の
中心点における類似度を0とする。
【0072】記憶手段は、シミラリティがあると認めれ
た領域間の位置(中心点のアミノ酸残基番号及び領域の
長さ)及びホモロジースコア、及び類似度決定手段によ
り決定された各検索領域の中心点の位置とその類似度を
記憶する。
【0073】出力手段としては、ディスプレイやXYプ
ロッタが挙げられ、記憶手段に記憶された情報を出力す
る。SSG編集手段は、前記記憶手段に記憶された情報
を取り出し、前記出力手段に、二次元座標の一方にアミ
ノ酸残基番号を、他方に類似度をプロットさせる。
【0074】SSR編集手段は、前記出力手段に、アミ
ノ酸残基番号を直線上にプロットさせ、一定以上のシミ
ラリティの認められた領域同士の、各々の中心点のアミ
ノ酸残基番号がプロットされた位置を結ぶ表示をさせ
る。
【0075】SSM編集手段は、前記出力手段に、アミ
ノ酸残基番号を縦軸、横軸にプロットさせ、一定以上の
シミラリティの認められた領域を表示させる。次に、図
3に示すフローチャートに従って、本装置による処理を
説明する。
【0076】まず、入力手段によりアミノ酸配列を入力
する(ステップ101)。ついで、リバース配列作成手
段により、入力手段により入力されたアミノ酸配列のリ
バース配列が作成される(ステップ102)。続いて、
領域設定手段により、一定長の検索領域が設定される
((ステップ103)。ここでは初期設定として正方向
アミノ酸配列上のN末端に設定されるものとする。
【0077】次に、ホモロジースコア算出手段により、
検索領域と同一長の被検索領域と前記検索領域とを対比
し(ステップ104)、両者のホモロジースコアを算出
する(ステップ105)。
【0078】その後、検索領域と被検索領域とのホモロ
ジースコアが一定以上あるか否かが判定される(ステッ
プ106)。ホモロジースコアが一定以上であればシミ
ラリティ判定手段によりシミラリティがあると判定され
(ステップ107)て、検索領域の位置と被検索領域の
位置及びホモロジースコアがメモリに記憶される(ステ
ップ108)。ホモロジースコアが一定以上でなければ
シミラリティ判定手段によりシミラリティはないと判定
され(ステップ109)、メモリには何も記憶されず次
のステップに移行する。
【0079】以上の検索は、配列のすべての領域につい
て行われる。すなわち、ステップ110で被検索領域が
配列の最後か否かが判定され、最後でなければステップ
111により、被検索領域がずらされ、次の被検索領域
についてステップ104から109までの処理が行われ
る。
【0080】次いで、ステップ110で、設定した検索
領域について配列の全ての領域とにシミラリティ検索が
終了した場合、類似度決定手段により、検索領域とシミ
ラリティがあると判定されたすべての被検索領域のホモ
ロジースコアが積算され、類似度とされる(ステップ1
12)。類似度は設定した検索領域に対応してメモリに
蓄積される(ステップ113)。
【0081】以上が、一つの検索領域についてのシミラ
リティ検索処理であるが、検索領域は配列のすべてに亘
って設定される。すなわち、一つの検索領域についての
シミラリティ検索処理が終了すると、その設定検索領域
が、配列の最後か否か、すなわちC末端か否かが判定さ
れ(ステップ114)、最後でなければ、領域設定手段
により検索領域を1アミノ酸づつずらすことにより次の
検索領域が設定され(ステップ115)、上記処理が繰
返し行われる。
【0082】なお、ステップ112、113は全ての検
索領域を検索した(ステップ114)後に行ってもよ
い。この後、SSG編集手段は、各アミノ酸残基番号に
おける類似度を記憶手段から取り出し、出力手段に二次
元座標の一方にアミノ酸残基番号を、他方に類似度をプ
ロットさせる。
【0083】また、SSR編集手段は、一定以上のホモ
ロジースコアを有する検索領域と被検索領域とを記憶手
段から取り出し、前記二次元座標において、これらの各
領域の中心点のアミノ酸残基番号がプロットされた位置
同士を結ぶ表示を出力手段にプロットさせる。
【0084】さらに、SSM編集手段は、一定以上のホ
モロジースコアを有する検索領域と被検索領域とを記憶
手段から取り出す。そして出力手段に二次元座標の両方
にアミノ酸残基番号をプロットさせ、一定以上のホモロ
ジースコアを有する検索領域と被検索領域の各々のアミ
ノ酸残基番号の最低値からなる座標と、検索領域、被検
索領域の各々のアミノ酸残基番号の最高値からなる座標
とを結び、出力手段にプロットさせる。
【0085】本装置は、タンパクのアミノ酸配列を入力
すると、シミラリティを有する領域の検索、及び各アミ
ノ酸残基番号における類似度を決定し、SSG、SSR
を同時に表示することができる。また、SSMを表示す
ることができる。
【0086】さらに本装置は、SSG及びSSRと同時
に、データバンクの情報を、例えば、α−ヘリックスを
螺旋で、β−シートを長方形で、SS結合はCys残基間
を結ぶ横軸下部のコの字で、対向するβ−シートの組を
β−シートを結ぶ横軸上部のコの字で表示することがで
きる。
【0087】本発明の方法による高次構造の解析例を以
下に説明する。尚、以下に示した実施例は、実施例1の
解析装置を用いて作成したものである。
【0088】各実施例においては、卵白リゾチームにつ
いて、しきい値、ウインドウ幅を種々変化させて解析
し、その知見に基づいてウインドウ幅は20残基と決定
した。この条件は、必ずしも他のタンパクにそのまま適
用できるものではないが、一つの目安として用いた。
【0089】尚、実施例2において、ウインドウ幅の最
適値の決定においては、ウインドウ幅を適宜変更した。
しきい値に関しては、これを変化させて得られる結果か
らフォールディング(折り畳み)等に関する情報まで得
られるため、固定するものではなく、種々変化させてい
る。
【0090】また、しきい値については最高値は設定せ
ず、最低値は20から順次しきい値を3〜5ポイント程
度づつ上げ、少数のシミラリティ関係のみが検出される
高さにまで上げることで対応した。
【0091】尚、下記の全ての実施例において、被検索
領域の移動幅は1残基である。また、ウインドウのずら
し幅は原則的に1残基とし、実施例2中のウインドウの
ずらし幅の最適値の決定においては適宜変更した。
【0092】
【実施例2】卵白リゾチーム はじめに、卵白リゾチーム(hen egg white lysozyme:
HEWL)における実施例を説明する。
【0093】<1>HEWLのSSG (1)作成条件 SSGは、ウインドウ幅20アミノ酸残基、しきい値2
0、ウインドウのずらし幅は1残基という条件で類似度
を計算し作成した。結果を図4の(40)で示す実線で示し
た。
【0094】(2)SSG上に同時に表示する高次構造
情報の説明 既知のタンパクの高次構造情報は、例えばプロテインデ
ータバンク(PDB)に保存されており、我が国におい
ては大阪大学蛋白質研究所から入手することができる。
【0095】PDBに保存されているタンパクの情報に
は、三次元座標やα−ヘリックス、βシート、ターン、
SS結合等の二次構造情報等含まれている。これらの情報
とSSGの情報とを同時表示すると、既知情報とSSG
情報との対応関係を容易に把握できる。以下に、その表
示法について説明する。
【0096】縦軸には、ホモロジースコアの積算値(類
似度)をとり、横軸にはアミノ酸残基番号をプロットし
ている。PDBのα−ヘリックス情報を、対応するアミノ
酸残基番号の位置に(41)のようなシンボルで示した。
【0097】また、βシートは、各βシート間の連結を
視覚的に理解できるように、(42)の形のシンボルで示し
た。βシート間の連結は、各βシートの中心をシート間
の距離に正比例した高さで連結し、視覚的に捉え易くし
た。
【0098】ターンは、(43)の形のシンボルで示した。
さらに、SS結合は、(44)の形のシンボルで表し、視覚
的に捉え易くするために、アミノ酸残基番号間の距離に
比例した高さで下向きに連結した。(45)に示すようにS
S結合間の距離がほぼ同じで、逆向きの高さが二つのS
S結合で、ほとんど等しい場合には、SS結合の判別が
しにくいので、各SS結合に名前をつけることで、この
見にくさを解消した。本実施例では、最初のSS結合か
ら順にS1、S2・・・と名付けている。
【0099】尚、以上の各シンボルは一例であって、他
の表記でも構わない。
【0100】(3)既知情報とSSG (i)触媒活性部位とSSG HEWLの触媒活性部位は、図4中矢印で示す30〜65残
基番号間に存在すると報告されている(Jung, A., Sipp
el, A. E., Grez, M. and Schutz, G., Proc.Natl. Aca
d. Sci. USA 77, 5759 (1980)、Muraki, M., Jigami,
Y., Morikawa,M. and Tanaka, H., Biochim. Biophys.
Acta, 911, 376 (1987))。
【0101】図4のSSGには、比較的大きなピークの
谷間が三つ(残基番号52、90〜98、38付近)存在する。
この三つの大きなピークの谷間以外にも、小さな谷間が
多数存在する。大きなピークの谷間は、その領域が他の
領域とほとんど類似性がないことを示しており、HEW
Lのアミノ酸配列中で非常に希な配列である。非常に希
な配列領域のタンパク上の役割として、以下の二つがあ
る。
【0102】(役割1)一般にタンパクの触媒活性部位
のアミノ酸配列は、非常に特殊なアミノ酸の並びをして
いる。このため触媒活性部位の配列は、他の配列領域と
の類似性がほとんど存在しない。
【0103】(役割2)一般にタンパクの表面付近に位
置するアミノ酸配列は、非常に変異を起こし易く、他の
配列領域との類似性が極端に低い。この領域は、タンパ
クの立体的な区切りであるドメインの境界に対応する。
【0104】HEWLの触媒活性部位は、図4の矢印に
示す30〜65残基番号間に存在し、残基番号38、52付近の
大きなピークの谷間によく対応する。つまり、SSGは
触媒活性部位推定の有効な手段になりうることを示して
いる。
【0105】(ii)PDBの2次構造情報とSSG 図4のSSGのピーク中で、1〜40残基番号までが一つ
の大きな塊(山)を形成している。この領域と立体構造
との対応は、1〜3残基番号と38〜40残基番号の間でβシ
ートが存在する。βシートは、ペプチドが近接している
ことを示し、この領域のペプチドがループを描き一つの
立体的な単位(モチーフ)を形成していることとよく対
応する。
【0106】52〜98残基番号までもピークは、一つの大
きな塊を形成している。この領域と立体構造との対応
は、S3とS4のSS結合が存在する。S3のSS結合は、S3
の64残基番号と80残基番号の間で共有結合し、ループを
形成している。S4のSS結合も76残基番号と94残基番号
の間で共有結合し、ループを形成している。S3とS4のS
S結合は、互いに交差し、ダブルループを形成し、一つ
の立体的なモチーフを形成している。このモチーフは、
52〜98残基番号までの領域の一部に含まれる。100残基
番号からC末までの大きなピークは、S1とS2の遠距離S
S結合の片方の領域を含む。
【0107】以上のSSGで観察された三つの大きなピ
ークと立体構造との対応を図11に示した。図11の(1
11)は1〜40残基番号に対応し、(112)は41〜52〜90残基
番号を含んでいる。(113)の領域は、100残基番号からC
末までに対応する。
【0108】<2>HEWLのSSR 上記SSGは、各アミノ酸における類似度(ホモロジー
スコアの積算値)をプロットしたものであり、どの配列
領域とどの配列領域に類似性が存在するのか特定できな
い。この配列間の類似性の特定を行い、SSGのピーク
の意味を推定するためにSSRを作成した。
【0109】(1)SSR表示に関する説明 図5に、しきい値が23の場合のSSRを示した。図5中
の(51)は、N末からC末方向(正方向)への類似性関係
を示している。(52)は、C末からN末方向(逆方向)へ
の類似性関係を示している。類似関係の表示は、シミラ
リティを示した2領域間の中心を実線で連結する。連結
の際に、2領域間(中心点間)の距離に比例した高さで
連結することで、視覚的に見易い形にした。
【0110】(52)の逆配列との類似性関係は、正方向の
位置に換算して連結するようにした。逆方向という意味
を感覚的にもたせるために、2領域間(中心点間)の距
離に比例した高さで、下向きに連結したが、逆にしても
構わない。
【0111】(53)に示す領域には、正方向と逆方向の類
似性を示す二つの配列が、同じ中心点を有する場合の類
似性関係を特記した。(53)に特記する理由は、中心点が
同一であるため、(52)の形の表示では高さが零になり、
点としてしか表示されないためである。
【0112】(54)を例にとれば、3〜17残基番号の正方
向と17〜3残基番号の逆方向に類似性関係の存在を示し
ている。類似性関係の見出された領域を実線で示し、中
心点の残基番号を左端に示し、中心点の位置は、実線中
に星印で示した。
【0113】図5上の(55)は、SSRを描くときの類似
性検出範囲(residue range)の制限を示す。ここで、
仮にresidue rangeが100であれば、類似性関係を示す2
領域間の距離が100残基以内のもののみを表示する。図
5の(55)は、residue range:allであるから全ての類似
性関係について表示する。(56)は、SSRを描いたとき
のしきい値を示す。
【0114】尚、SSRにおいてもSSGと同様に、P
DBの高次構造情報等を同時に表示すると便利である。
【0115】(2)SSRにより得られる知見 図6に、SSGとSSRを同時に示した。SSGとSS
Rの作成条件は、ウインドウ幅は同一で20残基、ウイン
ドウのずらし幅も同一で1残基である。一方、しきい値
は、SSGでは20、SSRでは23とした。
【0116】尚、しきい値が20のときのホモロジースコ
アの総得点は11110、しきい値が23のときは9072であ
り、しきい値を20から23に上げることで、ホモロジース
コアの総得点は約2割(11110-9072=2038)減少する。こ
の減少は、SSGのピーク中の約8割の類似性関係のみ
がSSRで示されることに対応する。SSGとSSRの
しきい値をいろいろ変化させることにより、理解し易い
図を作ることが可能である。
【0117】(イ)SSGとSSRの組み合わせにより
得られる知見 (i)SSGとSSRの組み合わせによる機能部位推定 SSGに存在する多数の山(ピーク)の意味を、SSR
との組み合わせにより、次のように推定することが可能
である。
【0118】図6中の(61)のSSGの山は、SSR中(6
4)と(65)に代表されるように、山を形成する類似性関係
の内訳には、逆方向の類似性関係が含まれる。また、(6
3)のSSGの山も同様に(66)の逆方向の類似性関係が含
まれる。このことは、(61)と(63)の山それぞれが、類似
な配列群(正と逆方向の違いは存在する)により構成さ
れていることを示している。このように、類似な配列群
がSSGの一つの山の中に閉じて存在することは、一つ
の機能的な単位(立体構造的)の存在を示唆している。
【0119】一方、(62)のSSGの山は、(67)に示すよ
うに逆方向の類似性関係はほとんど含まない。(67)のS
SRは、(64)、(65)と(66)のSSR(逆方向の類似性関
係)と連結する類似性関係である。即ち、(62)のSSG
の山は、類似な配列群をその中に含まず、他のSSGの
山(61、63)との関連性を保つ配列群で構成されている
ことを示す(インターフェースドメイン的)。
【0120】このようにSSGでは区別の不明なピーク
群(山群)も、SSRと同時にプロットすることで、そ
の違いが明らかとなる。
【0121】(ii)HEWLのNMRを用いたリフォール
ディングの実験結果とSSGとSSRの組み合わせによ
る機能部位推定との対応 上述したように、SSGの山を形成するシミラリティの
種類の違いが意味することは、以下に説明するようにH
EWLのNMRを用いたリフォールディングの実験結果
(Miranker, A., Radford, S. E., Karplus, M. & Dobs
on, C. M., Nature 349, 633-636 (1991))との対比で
明らかとなる。
【0122】Mirankerらは、HEWLがリフォールドす
る最初の過程で明確な二つの構造ドメインが存在するこ
とを報告した。その領域は、3〜36残基番号及び91〜129
残基番号の領域である。この二つの領域は、それぞれ図
6の(61)と(63)の領域中に含まれ、また、これらの領域
が一つの機能的な単位(立体構造的)であることとよく
対応する(前記(i)参照)。
【0123】このことは、SSGの山がその山の内部に
含まれる配列群のシミラリティで形成されている山であ
れば、それはリフォールディングの際の最初の構造ドメ
イン(核)になることを示唆している。
【0124】さらに、(68)と(69)の中心点は、21、110
残基番号であるが、これらは各々3〜36及び91〜129残基
番号の中心付近に当たり、構造ドメインの中心に位置す
る。特に21残基番号は二つのαヘリックスを連結するタ
ーン部分に相当する。
【0125】図11は、PDBに格納されているHEW
Lの三次元のα−炭素原子を連結した立体図である。こ
の立体図に21残基番号(○)と110残基番号(□)の位
置をHEWLの立体構造と共に示した。この図は、プロ
テインデータバンクより得られた構造と本発明による構
造解析結果がよく一致していることを示している。
【0126】(ロ)しきい値の変化に対応するSSRの
変化とそれにより得られる知見 図7から図10までは、異なるしきい値のSSRを示し
た。図7のしきい値は25で、ホモロジースコアの総得点
は6970である。図6のしきい値23の場合と比べて、ホモ
ロジースコアの総得点は、約2割(9072-6970=2102)減少
し、それに応じたSSRの線の数の減少が認められる。
このSSRの線の数の減少は、主に図6の(67)のSSR
の線の数が顕著に減少しており、(64)、(65)と(66)のS
SR(逆方向の類似性関係)はほとんど影響を受けてい
ない。従って、しきい値23から25への変化は、主に他の
SSGの山((61)、(63))との関連性を保つ配列群が減
少する。
【0127】図8のしきい値は28であり、図7とSSR
(しきい値25)と比べると、主に1〜60残基番号付近の
類似性関係が減少する。図9のしきい値は33であり、図
8のSSR(しきい値28)と比べると、1〜60残基番号
付近の類似性関係は消滅し、70残基番号付近から100残
基番号付近への逆方向の類似性関係と110残基番号に中
心点を有する逆方向の類似性関係のみが残る。
【0128】図10のしきい値は40であり、110残基番号
に中心点を有する逆方向の類似性関係のみが最も保存性
の高い配列群として残る。以上のようにしきい値を段階
的に変化させ、SSRの変化を調べていくと、変化させ
たしきい値に対応するシミラリティ関係の場所を特定す
ることが可能となる。
【0129】(ハ)HEWLのSSR上における一筆書
き ここで、図7のSSRで興味深い現象が観察される。即
ち、SSR上の類似性関係が、いわゆる一筆書きできる
形になることである。類似性関係を示す線群が一筆書き
できる形になることは、タンパクのフォールディングと
密接な関係が存在することを示唆する。以下、SSR上
において一筆書きできる形、あるいはこのような形を示
す性質を「一筆書き」という。
【0130】一般に、タンパクは、フォールディングす
る際、ペプチドの結び目のできるようなフォールディン
グはしない(現在まで、ペプチドの結び目のあるタンパ
クは発見されていない)。従って、N末とC末のアミノ
酸残基を掴んで引き伸ばせば、元のフォールディングす
る前の形に戻すことが可能であり、このことがタンパク
のリフォールディングの前提条件にもなっている。SS
R上の類似性関係を一筆書きできることは、結び目のな
いことであり、ペプチドの結び目のできるようなフォー
ルディングは存在しない事実と対応する。
【0131】図7のSSR上での一筆書きについて、二
次構造との関連性を考慮に入れて、以下に説明する。40
〜60残基番号のβシートに対応する(71)と、その(71)と
連結する(72)の正方向のシミラリティが存在する。(72)
は、(73)領域へと連結するが、その(73)領域には(74)の
強い中心点を有する逆方向シミラリティが存在する。こ
の(74)領域全体は、(73)から(75)、(76)領域へと関連す
る。この関連付けは、S1,S2のSS結合と対応する。(7
6)は、(74)と同様に強い中心点を有する逆方向シミラリ
ティが存在する。この(76)領域は、S3,S4のSS結合に
対応する(77),(78)へと逆方向のシミラリティで関連付
けされる。そして、最終的に(72)と(77)領域が近接する
ことで一筆書きが終了する。
【0132】(ニ)しきい値の変化に伴うSSRの変化
とフォールディングの順序予測との関連性について 前記(ロ)で、しきい値の変化に対応する類似性関係の
場所を特定できることを述べた。また(ハ)では、HE
WLのSSR上で一筆書きできることから、フォールデ
ィングとの関連性について述べた。この二つから、しき
い値の変化に伴うSSRの変化とフォールディングの順
序に関連のあることを以下のように推測できる。
【0133】一般に、タンパクのフォールディングは、
最初にフォールディングの核が形成され、その核を中心
にフォールディングが成長していくと考えられている。
この核は、タンパクの内部に存在し、ある一定の形状
(二次構造等)を非常に取り易い配列であろうと推測さ
れている。
【0134】これに従えば、しきい値が高いときに残っ
ているSSRは、フォールディングの核となりうる。何
故なら、しきい値は配列の保存の程度を表し、しきい値
の高いときに残っているSSRは、保存の非常に高い配
列である。保存の非常に高い配列は、タンパクの機能発
現上非常に重要な役割(フォールディングの核)を担っ
ていると予測される。
【0135】また、図10に示すように、しきい値の高
いときには、保存の高い類似性関係が少数存在するが、
図9、図8、図7と、順次しきい値を低下させていくと
次第に一筆書きできるSSRへと成長していく。この変
化は、変成したタンパクのリフォールディングの過程を
想起させる。
【0136】SSRから推定されるフォールディングの
核の代表的なものとして、図11に示すHEWLの立体
構造中の110残基番号があげられる。110残基番号付近の
立体配置の特徴は、110残基番号付近の前後のペプチド
の立体的形状が極めて対称性がよい点である。他の多数
の実施例からも、フォールディング核の一般的特徴とし
てこの対称性の良さが観察される。
【0137】以上の考察から、しきい値の変化に伴うS
SRの変化とフォールディングの順序は対応する可能性
がある。この可能性を基に、しきい値の変化に伴うSS
Rの変化に基づいたHEWLのフォールディング順序予
測とHEWLのフォールディングに関する実験事実対応
の対応を以下に示す。
【0138】(ホ)しきい値の変化に伴うSSRの変化
に基づいたHEWLのフォールディング順序予測 しきい値の高いSSR(図10)から、最初のフォール
ディングの核は110残基番号付近と予想される(しきい
値40)。次に、図9に示すようにしきい値を33まで下げ
ると、70残基番号付近と105残基番号付近に逆方向のシ
ミラリティ関係が形成される(中心点は存在しないが、
フォールディングの核に類似し、立体的な一塊を形成す
ると予想される)。
【0139】その後、さらにしきい値を28まで下げた図
8に示すように、15〜55残基番号付近に逆方向の二つの
核が形成され、この領域は、正方向のシミラリティ関係
により、105〜120残基番号付近に関係づけられる。そし
て、最終的にしきい値を25まで下げれば図7に示すよう
に、15〜55残基番号付近に存在する逆方向の二つの核(7
1)、(74)が(73)によりまとめられ、フォールディングの
基本形が完了すると推定される。
【0140】(ヘ)HEWLのフォールディングに関す
る実験事実との対応 Mirankerらは、HEWLのリフォールディングの二次元
NMR実験により、3〜36残基番号及び91〜129残基番号が
最初のフォールディングの核を形成するという結果を報
告している(Miranker, A., Radford, S. E., Karplus,
M. & Dobson,C. M., Nature 349, 633-636 (1991))。
【0141】(ホ)で述べたように、91〜129残基番号
が先に核を形成する図式は、予測と実験事実がよく一致
する。しかし、SSRによる次のフォールディング順序
の予測は、65〜100残基番号付近に大きな核が形成され
る優先度の方が高く、3〜36残基番号付近のフォールデ
ィング順序は三番目になっており、予測と実験事実は一
致していない。
【0142】これに対してDuboisらは、HEWLの最も
高い核形成部位はCys-76〜Cys-94のアミノ酸配列中にあ
ると予想している(Dubois, T., Guillard, R., Prieel
s, J. -P, Perraudin, J. -P., Biochemistry, 21, 651
6-6523 (1982))。
【0143】SSRから予測された65〜100残基番号付
近の核のフォールディング順序に関する優先度は不明で
あるが、この領域がフォールディングの核になる可能性
は高いことが推定され、SSRの変化に基づいたフォー
ルディング順序の妥当性が高いことを示唆している。
【0144】(ト)SSG、SSRにおける、正方向、
逆方向及び正逆両方向のシミラリティ関係の必要性につ
いて
【0145】(i)しきい値20の場合 図12は、図4と同様の条件(ウインドウ幅20残基、ウ
インドウのずらし幅1残基、しきい値20)で作成したS
SGである。図4は、正逆両方向のシミラリティが積算
された結果であるが、各々正方向及び逆方向のみのシミ
ラリティを積算したSSGを図12に示した。
【0146】図12で、実線は正方向のシミラリティ関
係を示し、一点鎖線は逆方向のシミラリティ関係を示し
ている。この図12の実線は、図6の正方向のSSRに
対応し、一点鎖線は図6の逆方向のSSRに対応する。
図12のように、正方向、逆方向のシミラリティ関係を
分離したSSGは、図6の正方向、逆方向のSSRに分
離したことに対応する。
【0147】図12では、正逆両方向とも縦軸を同一ス
ケールとしているので、正方向、逆方向のSSGのピー
クの大きさを直接比較することが可能である。1〜18残
基番号までは、逆方向のシミラリティのみしか存在しな
い。18〜38残基番号までは、正方向のシミラリティの方
が逆方向のシミラリティより多くなっている。また、40
〜98残基番号までは、逆方向のシミラリティが非常に多
くなっている。100〜129残基番号までは、両方向とも同
程度のシミラリティが存在する。
【0148】これらの結果から、正方向と逆方向のシミ
ラリティは、お互いに補い合う形(独立した形)で存在
していることがわかる。即ち、どちらか一方向方のみの
シミラリティしか考慮しないとすれば、他の配列領域に
またシミラリティが存在している可能性を見逃すことに
なる。
【0149】従って、タンパク全体に渡るシミラリティ
関係をすべて調査するためには、正方向、逆方向のシミ
ラリティ関係を全て調査することが好ましい。
【0150】(ii)しきい値25の場合 図13には、しきい値25で、その他の条件は図12と同
様の条件(ウインドウ幅20残基、ウインドウのずらし幅
1残基)の正逆両方向のシミラリティを積算したSSG
を示し、図14には、正方向(実線)、逆方向(一点鎖
線)それぞれ別々に積算したSSGを示した。
【0151】図14の正、逆方向別々のSSGは、図1
2と同様に正方向と逆方向のシミラリティがお互い補う
形で存在している。故に、SSGやSSRを計算して描
く場合には、両方向のシミラリティを考慮するのが好ま
しい。
【0152】(iii)正、逆両方向のシミラリティを考慮
する一般性 HEWLの場合、正、逆両方向のシミラリティがほぼ等
しい割合で存在している。しかし、実施例には示さない
が、タンパクによっては、ほとんど正方向のシミラリテ
ィしか観察されないものや、その逆に、逆方向のみのシ
ミラリティしか観察されない特殊なタンパクも存在す
る。これらの場合には、正方向或は逆方向のみのシミラ
リティしか考慮する必要がない。
【0153】しかし、このようなタンパクにも両方向の
シミラリティを考慮することによって、どちらのシミラ
リティが存在し、どちらが存在しないかを知ることがで
きるため両方向のシミラリティを考慮することが好まし
い。
【0154】(チ)ウインドウ幅の変化,ずらし幅の変
化とSSGとSSRの影響 (i)ウインドウ幅の変化に関するSSGとSSRの影響 (ウインドウ幅の最低値について)HEWLについて、
ウインドウのずらし幅は1残基に固定し、ウインドウ幅
を10〜35残基まで5残基刻みで変化させたときのSSG
とSSRの変化を図15〜図20に示した。尚、SSR
ではしきい値23、SSGではしきい値20とした。
【0155】図15、図16のウインドウ幅が10、15残
基のときのSSGは、類似度が零のの領域が数多く存在
する。ウインドウ幅が20残基より多くなれば、図17〜
図20に示すように類似度が零の領域は存在しなくな
る。
【0156】またSSRも、図15、図16ではシミラ
リティ関係が見いだされないものが多数存在する。この
ことから、ウインドウ幅が10、15残基ではウインドウ幅
が少なすぎるため機能に関する配列のシミラリティが十
分検出できなかったと評価することができる。
【0157】(ウインドウ幅の最適値について)図18
〜20では、SSGが図17に比べ全体的に平面状にな
っている。これは、図18〜20のSSRと図17のS
SRが、線の数の量の大小はあるが、ほぼ同じ形をして
いることと対照的である。
【0158】このことは、シミラリティを検出する際、
ウインドウ幅を長くしすぎたために局所的にシミラリテ
ィの高い領域のみ(機能に関する領域)が検出されない
で、シミラリティの高い領域の前後の配列も一緒にシミ
ラリティ部分として検出されたことによる。従って、図
18〜20の場合は、ウインドウ幅は大き過ぎる。この
ことからHEWLのウインドウ幅の最適値は、図17に
示すように20残基であると認められる。
【0159】(ウインドウ幅の一般的な最適値につい
て)一般的には、解析するタンパクに応じてHEWLで
実施したようにウインドウ幅を種々変化させ、最適のウ
インドウ幅を検出するのが望ましい。しかし、この操作
を解析する各タンパクごとに実施するのは非常に大変で
ある。そこで、HEWLで得たウインドウ幅の最適値を
一般的な基準として採用することとした。もし、他のタ
ンパクにウインドウ幅20残基を適用し、あまり好ましく
ない結果が得られたときには、ウインドウ幅を種々変化
させることを考慮するのが好ましい。
【0160】(ii)ウインドウのずらし幅の変化に関する
SSGとSSRの影響 ウインドウのずらし幅(N末からC末へのウインドウの
移動幅)の影響を調べる為に、ずらし幅を2残基から10
残基まで変化させたときのHEWLのSSGとSSRを
図21〜24に示した。このときの検索条件は、ウイン
ドウ幅は20残基に固定した。尚、SSGではしきい値2
0、SSRではしきい値23とした。
【0161】ずらし幅が1で他の検索条件が同一である
図6と、ずらし幅が2残基の図21を比較すると、図2
1の方がシミラリティ関係の数が若干減少している。こ
のことから、ずらし幅を1残基から2残基に増やせば検
出できないシミラリティも少数存在する。しかし、全体
的なSSRやSSGの傾向はほとんど同一であり、全体
像を掴むためには十分である。
【0162】しかしずらし幅が3残基以上になると、図
22〜24に示すように、図6と比較してSSGとSS
Rの形状はかなり変化する。このことから、解析するタ
ンパクのSSGとSSRの全体的な概要を掴むために
は、ずらし幅は1、2残基までが望ましい。ずらし幅を
1残基から2残基にすると計算時間は半分になる。この
ことから、正確なシミラリティ関係を知りたいときは、
ずらし幅は1残基の方が望ましく、正確さより早さを望
むときは、ずらし幅は2残基にした方がよいと考えられ
る。
【0163】
【実施例3】次に、ヒト赤血球グルタチオンレダクター
ゼ(glutathione reductase from human erythrocyte
s:GR)についての実施例を説明する。
【0164】<1>GRのX線結晶解析より得られた二
次構造情報とSSGの作成条件 図25に、GRのSSGと、PDBから抽出したGRの
二次構造情報をプロットした結果を示した。また、図2
6に実験結果に基づくドメインの境界を示した。
【0165】図26上で各ドメインの境界は、9〜157残
基番号がFADドメイン、158〜293残基番号がNADP
Hドメイン、294〜364残基番号がセントラルドメイン、
365〜478残基番号がインターフェースドメインと報告さ
れている(Krauth-Siegel,R. L., Blatterspiel, R., S
aleh, M., Schiltz, E., Schirmer, R. H., & Untucht-
Grau, R. Eur. J. Biochem. 121, 259-267 (1982))。
【0166】SSGの作成条件は、ウインドウ幅20残
基、しきい値20、ウインドウのずらし幅1残基である。
【0167】<2>二次構造情報とSSG及びドメイン
の区切りとの対応 図25の(251)〜(259)に示したように、GRのSSGに
は大小様々のピーク(山)の谷間が存在する。それらの
中で、最も深い山の谷間は(251)、(253)、(254)、(25
5)、(257)、(259)である。これらの深い谷間は、非常に
希な配列である。実施例2中、<1>(3)(i)で説明
したように、非常に希な配列領域のタンパク上の役割と
して、タンパクの触媒活性部位、ドメインの境界の二つ
が考えられる。本実施例では、ドメインの境界との対応
を調査する。
【0168】GRの20残基番号付近と150残基番号付近
はβシートを形成している。βシートは、ペプチドが近
接していることを示し、この領域のペプチドがループを
描き、一つの立体的な単位(モチーフ)を形成している
ことを示す。この立体的な単位と(254)の深い谷間はよ
く対応する。また、図26のFADドメインの区切り
(157残基番号付近)ともよく対応する。
【0169】150〜290残基番号付近の全体にわたってβ
シートが存在し、同様の立体的な一塊を形成している。
この立体的な一塊と(255)の深い谷間はよく対応し、図
26のNADPHドメインの区切り(293残基番号付
近)ともよく対応する。
【0170】305〜330残基番号付近は全体的にβシート
を形成し、立体的な一塊を形成している。また、370〜4
40残基番号付近にも全体的にβシートが存在し、この領
域が立体的に一塊を形成している。(257)の深い谷間
は、305〜330残基番号付近と370〜440残基番号付近の区
切り付近に位置している。またこの(257)の深い谷間
は、図26のインターフェースドメインの区切り付近
(365残基番号付近)に位置する。
【0171】<3>GRの正方向と逆方向のシミラリテ
ィの効果 図27には、GRの正方向(実線)と逆方向(一点鎖
線)のSSGを示した。この図は、逆方向のシミラリテ
ィ関係の方が、全体的に正方向のシミラリティ関係より
強く、両方向SSGは逆方向のシミラリティ関係の影響
をより強く受けることを示している。
【0172】図27の正方向SSG及び逆方向SSG
は、両方向を積算したSSGと比較すると、図25、2
6に示した二次構造やドメイン領域とうまく対応しな
い。このことからGRの場合には、正逆両方向のシミラ
リティを同時に考慮する方が妥当であるといえる。
【0173】
【実施例4】次に、ヒトリゾチーム(human lysozyme:
HUL)における実施例を説明し、併せてHEWLとの
相違について、実験事実と対比しながら説明する。
【0174】<1>HULのSSG及びSSR 図28にHULのSSGとPDBから抽出した二次構造
情報をプロットした。計算条件は、実施例1の図4と同
様で、ウインドウ幅20残基、しきい値20、ウインドウの
ずらし幅1残基である。
【0175】HULのSSGとSSRを図29に示し
た。また、しきい値を変化させたHULのSSRを図3
0〜図33まで示した。
【0176】<2>しきい値の変化に伴うSSRの変化
に基づいたHULのフォールディング順序予測及び一筆
書きについて しきい値の高い図33から、最初のフォールディングの
核は110残基番号付近と予想される(しきい値40)。次
に、図32に示すようにしきい値を30まで下げると、70
残基番号付近と105残基番号付近に逆方向のシミラリテ
ィ関係が形成される(中心点は存在しないが、フォール
ディングの核に類似し、立体的な一塊を形成すると予想
される)。また、30〜55残基番号付近にも正逆両方のフ
ォールディングの核が形成されるが、まだ孤立してお
り、他の領域との連絡はない。
【0177】さらにしきい値を27まで下げると、図31
に示すように、(312)、(316)の正逆両方向のシミラリテ
ィ関係が生成し、(313)領域(最初のフォールディング
の核)に連結され、フォールディングの基本形が完了す
ると共に一筆書きも完了する。
【0178】<3>SSG、SSRにおける、HULの
正方向、逆方向及び正逆両方向のシミラリティ関係の必
要性について 図34は、図28と同様の条件(ウインドウ幅20残基,
ウインドウのずらし幅1残基、しきい値20)で作成した
SSGであり、正方向(実線)、逆方向(一点鎖線)の
みのSSGを示したものである。
【0179】図34の正方向、逆方向のSSGのピーク
の形状は、20〜60残基番号ではほぼ同一である。一方、
65〜90残基番号では、ほとんど逆方向のシミラリティ関
係のみが存在する。また、100〜129残基番号では、逆方
向のシミラリティ関係の方が多く存在する。
【0180】以上の結果からHULの場合、逆方向のシ
ミラリティ関係の方がより多く存在している。しかし、
<2>で述べたHULの一筆書きのスキームを完成させ
るためには、正逆両方向のシミラリティが必須であり、
HULの場合も両方向のシミラリティを考慮する必要が
あると考えられる。
【0181】<4>HULとHEWLのSSG及びSS
Rの相違 HULとHEWLの立体構造はほぼ同一であることがX
線結晶解析により知られている。もしも、SSG及びS
SRがタンパクの立体構造のみを反映するなら、両タン
パクのSSG及びSSRは似た形状になるはずである。
しかし、図6、図29に示したように、両者のSSGの
形状はかなり異なり、また内部のシミラリティ関係(S
SR)もかなり異なる結果となっている。このことは、
SSG及びSSRが立体構造に関する情報以外の情報を
含むことを示唆している。
【0182】<5>HULとHEWLのSSRの相違
(一筆書き)から得られる知見 <2>で述べたように、しきい値の変化に伴うSSRの
変化(一筆書きできる形への変化)とフォールディング
の順序とは関連性が考えられるので、HULとHEWL
の一筆書きについて次に比較する。
【0183】一筆書きの可能なSSRは、HEWLでは
図7であり、HULでは図31である。HEWLの一筆
書きのスキームは、実施例2<2>(2)(ハ)で説明
した通りである。HULについて、以下に説明する。
【0184】図31において、(311)領域は(312)の部分
でまとめられ、(313)に連結される。(313)は(314)領域
に組み込まれる。(314)領域には、非常に強い逆配列と
のシミラリティ関係(核の形成)が存在しており、(31
5)領域、(316)領域に関連づけられる。(316)領域は、(3
12)でまとめられ、HULの一筆書きが完了する。
【0185】HEWLの一筆書き(図7)とHULの一
筆書き(図31)の大きな相違点は、1〜60残基番号付
近のシミラリティ関係にある。すなわち、図7では、(7
4)領域(20残基番号付近)に強い逆方向とのシミラリテ
ィ関係が存在し、この領域が110残基番号付近とを連結
する要になっている。一方、図31のHULの一筆書き
は、図7の(74)領域のような要は存在せず、30〜40残基
番号付近の(316),(312)領域がその役割を果たしてい
る。
【0186】さらにHULのフォールディングの基本形
(一筆書き)がHEWLと大きく異なる点は、図31に
おいてHULのSSRに入れ子((316)、(312)、(313)
で形成される輪と(313)、(314)、(315)で形成されるも
う一つの輪)ができる点である。このSSRの入れ子
は、(313)、(314)領域を要とし、二つのSSRの輪を結
び付けている。また、この二つのSSRの輪は、(31
3)、(314)領域の要を中心に大きく揺れる可能性がある
ため((311)と(315)領域の関連性が薄いため)、S3のS
S結合の重要性が示唆される。
【0187】<6>HULとHEWLのSSRの一筆書
きの相違から導かれるフォールディング(折り畳み)様
式の差 HULとHEWLのフォールディング様式について、こ
れらのSSRにおける一筆書きの相違から、以下の推測
が可能である。
【0188】HEWL(図7)では20残基番号付近に核
が存在し、二つのα−ヘリックスが一つにまとめられ一
つの立体構造的単位として(75)、(76)領域と関連づけら
れるので、S1及びS2の二つのSS結合が形成され易いと
推測される。
【0189】一方、HULの場合(図31)には、20残
基番号付近に核がなく、25〜35残基番号のα−ヘリック
スは、逆方向のシミラリティ関係より110〜116残基番号
のα−ヘリックスのみと関連づけられている。このた
め、5〜14残基番号のα−ヘリックスは図31における
一筆書きの外に取り残されており、フォールディングが
完成される際に取り残され易いと推測される。このこと
は、S1のSS結合の形成されにくさを物語っている。逆
にS1のSS結合が生じなければ、取り残されたα−ヘリ
ックスは所定の位置につけず立体構造は完成しないもの
と推定される。
【0190】HULにおける、25〜35残基番号のα−ヘ
リックスと、110〜116残基番号のα−ヘリックスとの相
互作用の可能性を調べるために、HULの三次元立体構
造図(図35)上に、これらの領域の位置を示した。こ
の図からわかるように、両領域のα−ヘリックスは近接
しており、相互作用して安定化している可能性が高いと
推定される。
【0191】<7>HULとHEWLのSSG及びSS
Rから得られる知見と、両タンパクに関する実験事実と
の対比 HULとHEWLに存在する各種SS結合の役割は、部
位特異的変異タンパクを用いたリフォールディング実験
により詳しく研究されている。これらの結果とSSG及
びSSRの相違から得られる知見を対比させた例を以下
に示す。
【0192】(1)HULでは酵母分泌系(in vivo
においてC6/128A(6、128残基番号のシステインを共に
アラニンへ変更した変異体)は、正常にフォールディン
グされないため、分泌もされず活性も示されない。
【0193】一方、HEWLは、in vitro系においてC
6、C128を共にカルボキシメチル化しても正常に折り畳
まれ活性を発現する。この実験事実は、in vivoin vi
troといった系の違いに起因する可能性があると報告さ
れている(Taniyama, Y., Yamamoto, Y., Nakao, M., K
ikuchi, M.,Ikehara, M., Biochem. Biophys. Res. Com
mun., 152, 962-967 (1988))。
【0194】これらの実験事実は、<6>で述べたHU
LとHEWLの20残基番号付近の核の有無の差により、
理論的に説明することができる。すなわち、HEWLで
は、20残基番号付近に核があるので、二つのα−ヘリッ
クスは相互作用して一定の配向を保つことが可能であ
る。従って、HEWLのS1のSS結合は単に立体構造の
補強的な役割を有することに過ぎないことが推定され
る。
【0195】一方、HULは20残基番号付近に核が存在
しないので、5〜14残基番号のα−ヘリックスは、25〜3
5残基番号のα−ヘリックスと相互作用しないか、した
としても極めて不安定な状態であることが予想される。
そのため、S1のSS結合が存在しないと、5〜14残基番
号のα−ヘリックスは不安定となり、立体構造が完成し
ない(すなわちフォールディングされない)。従って、
HULのS1のSS結合は、HEWLのSS結合と役割が
異なり、立体構造完成の為には必須の因子であると推定
され、実験事実と一致する。
【0196】(2)HEWLの方がHULより早くフォ
ールディングする(Dubois, T., Guillard, R., Prieel
s, J. -P, Perraudin, J. -P, Biochemistry, 21, 6516
-6523 (1982))。Duboisらは、HULはHEWLより、
より疎水的な表面をもつので、極性溶媒中での再生(リ
フォールディング)に際して、HULのポリペプチドは
HEWLのそれより自由度がない。そのため、HULは
HEWLよりゆっくり再生されると推定している。
【0197】一方、SSG及びSSRによると、HUL
の20残基番号付近に核形成力がほとんどない。そのため
に、S1のSS結合形成に手間取り、再生速度が遅れるこ
とが予想され、実験事実と一致する。
【0198】(3)HULでは、以下の3つの変異体 C
30/116A(比活性:28%) 、C65/81A(23%)、C77/95A(94%)は
活性を示す(正しくフォールディングしている)。
【0199】これに対し、以下の4つの変異体 C6/128
A、(C6/128A, C77/95A)、(C30/116A,C65/81A, C77/95
A)、(C6/128A, C30/116A, C65/81A, C77/95A)には活性
がない(Taniyama, Y., Yamamoto, Y., Nakao, M., Kik
uchi, M., Ikehara, M., Biochem. Biophys. Res. Comm
un., 152, 962-967 (1988))。
【0200】一方、SSG及びSSRから得られる知見
は以下の通りである。図31からS2のSS結合は、25〜
55残基番号の領域((316)、(312)、(311))と65〜120残
基番号の領域((315)、(314)、(313))の両端付近に位
置する。このため、この領域は一筆書きの内部に含ま
れ、<2>で予測したフォールディングの道筋に含まれ
ることが推定される。従って、S2のSS結合は、この結
合がなくても類似の構造がフォールディング核の形成に
より生成すると予測される。すなわち、S2のSS結合の
役割は、フォールディング後の構造維持のための補強材
であり、この補強材がなくても類似な構造が形成され、
活性が発現することが予想される。従って、S2の存在し
ない変異体C30/116Aにも活性は発現することが予測され
る。
【0201】同様に、S4の存在しない変異体C77/95Aも
(315)、(314)、(313)で形成されるフォールディング核
の内部に存在することから、その役割は構造維持の為の
補強材と推定され、活性は発現することが予測される。
【0202】また、S3の存在しない変異体C65/81Aも、
二つのフォールディング核((316)、(312)、(311)領域
と(315)、(314)、(313)領域)内部に存在することか
ら、その役割は構造維持のための補強材であると推定さ
れ、活性は発現することが予測される。
【0203】一方、前記の活性の無い4つの変異体の内
3つに共通するのは、変異体にS1が存在しない変異(C6
/128A)が含まれると活性が消失する点である。(1)
で指摘したように、HULのS1のSS結合は、立体構造
完成のためには必須の因子であると推定される。従っ
て、このS1の無い三つの変異体の活性が消失するのはS
SRから得られる知見とよく対応する。
【0204】これに対し、変異体(C30/116A, C65/81A,
C77/95A)は、S1のSS結合を形成しうる能力を有する
にもかかわらず活性が消失している。SSR(図31)
からは、25〜55残基番号の領域((316)、(312)、(31
1))と65〜120残基番号の領域((315)、(314)、(313))
がフォールディングし、1〜25残基番号の領域はS1のS
S結合で連結するというスキームが推測され、活性が発
現する可能性が示唆され、前記事実と対応しない。考え
られる可能性としては、S1のSS結合を形成する前提条
件として、他のSS結合(S2、S3、S4のどれかは不明)
を必要とするということである。そうだとすると、変異
体(C30/116A, C65/81A, C77/95A)は、前提条件として
のSS結合がないためにフォールディングできず、活性
が消失していると説明される。
【0205】(4)還元したHEWLに含まれる8個の
Cys残基の内、1個だけを修飾保護した8種類の変異体
について再酸化を行った結果、全て活性を有するタンパ
クに巻き戻った(Acharya, A. S. and Taniuchi, H., M
ol. Cell. Biochem. 44, 129-148 (1982))。この結果
から、フォールディングの過程で特定のSS結合が決定
的な役割を果たしているという可能性は否定された。H
EWLの4個のSS結合中のどれ一つとして残りの3個
が正しい結合であるための必須のものとはなっていな
い。
【0206】一方、SSG及びSSRからは、以下のよ
うに説明される。HEWL(図7)では20残基番号付近
に核が存在し、2つのα−ヘリックスが1つにまとめら
れ、1つの立体構造的単位として(75)、(76)領域と関連
づけられる。このため、S1及びS2の2つのSS結合がな
くても正常なフォールディングが起こることが予測さ
れ、S1とS2はその補強材の役割をしていることが推定さ
れる。
【0207】また、(77)、(78)、(76)領域の逆配列の強
いシミラリティ関係(核)が存在するため、S3、S4の2
つのSS結合がなくても正常なフォールディングが起こ
ると予測され、S3とS4はその補強材の役割をしているこ
とが推定される。
【0208】このように、S1〜S4の4つのSS結合領域
付近には、フォールディングの核が存在するため、特定
のSS結合がなくてもフォールディングが起こると推測
される。
【0209】(5)HULのC81Aは、活性のあるタンパ
クとして多量に分泌され、SS結合の相手であるC65Aの
場合は分泌もされず、活性も示さなかった。この事実
は、SS結合を形成する2つのCys残基の役割が異なる
ことを示す。
【0210】C81Aの場合は、Cys-6/Cys-128, Cys-30/Cy
s-116の2つの天然型のSS結合と、天然には存在しな
いSS結合(Cys-65/Cys-77)及び遊離のCys-95が確認
されたが、天然型のCys-77とCys-95の間にはSS結合は
確認されなかった(Taniyama, Y., Yamamoto, Y., Naka
o, M., Kikuchi, M., Ikehara, M., Biochem. Biophys.
Res. Commun., 152, 962-967 (1988))。
【0211】一方、SSG及びSSRからは以下の推察
が可能である。図31によれば、79残基番号に強力な核
が存在する。この部分が折れ畳まれたとき、残基番号79
はCys-77とCys-81の中心にあるため、Cys-77とCys-81は
空間的に近い位置に存在することが予想される。また、
79残基番号はS3とS4のSS結合の真ん中(要)であるこ
とからも、Cys-77とCys-81は空間的に近い位置に存在す
ることが示唆される。
【0212】また、天然型のCys-65/Cys-81のSS結合
(S3)は、<5>で述べたように大きな2つの塊(20〜60
残基番号付近、68〜125残基番号付近)を内側から結び
付ける非常に重要な結合であると考えられる。このこと
から、活性のあるタンパクとして分泌されるためには、
Cys-65は空間的に近い位置にあるCys-77かCys-81と必ず
SS結合を作る必要があると推定される。このCys-65を
Alaに変えた変異体(C65A)は、大きな2つの塊を連結す
る能力を失うこととなり、活性が消失した事実とよく対
応する。
【0213】68〜125残基番号付近の大きな塊((315)、
(314)、(313))は、かなり強力な核を形成しているの
で、Cys-77とCys-95の間のSS結合(S4)は活性発現に必
須ではないと思われる。このためにCys-95が遊離し、Cy
s-65とCys-77の間にSS結合を生成した変異体がとれた
ものと推定される。
【0214】
【実施例5】次に、バクテリオファージT4リゾチーム
(bacteriopharge T4 lysozyme:T4L)についての実
施例を説明する。
【0215】<1>T4LのSSGの作成条件としきい
値を変化させたSSRについて 図36に、T4LのSSGとPDBから抽出した二次構
造情報を示した。検索条件は、ウインドウ幅20残基、し
きい値20、ウインドウのずらし幅1残基である。
【0216】また、図37にSSRをSSGと共に示し
た。さらに、しきい値を変化させたSSRを図38、図
39に示した。
【0217】<2>しきい値の変化に伴うSSRの変化
に基づいたT4Lのフォールディング順序予測及び一筆
書きについて T4Lにおいても、HEWLやHULと同様にSSR上
で一筆書きが可能である(図38)。4つのフォールデ
ィング核を含む(381)領域は、(384)でまとめられ、(38
5)領域に連結される。(385)領域は、(383)領域に連結
し、(386)でまとめられる。(386)は(387)に関連づけら
れ、一筆書きは終了する。
【0218】一方、フォールディングの順序予測は、し
きい値が30のときのSSR(図39)を用いて行った。
図39から、図38の(381)領域に含まれる4つの核
と、130〜140残基番号付近に存在する核が、最初のフォ
ールディング開始領域であると予測される。その後、図
38に示すようにこれらの核を連結するようなシミラリ
ティ関係が後から追加形成される。
【0219】<3>T4LのSSRと立体構造情報との
対応 T4Lは、大腸菌に感染するファージが産生する酵素
で、他のリゾチームと非常に異なる三次元構造をしてお
り、またSSGやSSRもHEWLとHULのものと非
常に異なる。
【0220】図38のT4LのSSRによれば、1〜60
残基番号までの間に極めて特徴的な4つの核(中心点:
11、21、39、54残基番号)が存在している。この核はT
4Lの三次元構造中の特徴的な最初の壁によく対応して
いる。その様子を図40に示した。
【0221】図39の4つの核の位置と図40の立体構
造上の位置を見比べれば、特徴的な最初の壁の形成の様
子を以下のような二次構造の組み合わせとして核と対応
づけすることができる。
【0222】図39の(391)の核は、α−ヘリックスと
βシートをつなぐほぼ中心に位置している。また(392)
の核は、βシートとβシートをつなぐターン部分に位置
している。さらに(393)の核は、βシートとα−ヘリッ
クスをつなぐ領域に位置している。最後の(394)の核は
α−ヘリックスとβシートをつなぐターン部分に位置し
ている。以上のように、いずれの核も二次構造(α−ヘ
リックスとβシート)を適切な配置にするための位置に
存在し、各々の核の重要性を示唆している。
【0223】また、T4LにはSS結合は存在しない。
図38を見ると、各領域に強力な核((381)領域には4
つの核、(383)領域には2つの核)が存在するため、S
S結合のサポートなしでも十分折り畳み可能であること
が推定される。
【0224】さらに、図38のSSRにおける一筆書き
上の特徴として、(382)領域が要となり、(381)領域と(3
83)領域を連結する「∞」形状をしていることがあげら
れる。
【0225】この∞形状と、(381)、(383)領域に多数の
核が存在することから、(382)領域が要となり、(381)領
域と(383)領域は、1つの立体的な単位(構造ドメイ
ン)になる可能性が考えられる。このとき(382)領域
は、(381)領域と(383)領域を連結する橋渡し的な役割を
することが予想される。
【0226】この予想と立体構造上との対応は、T4L
の三次元構造図上に、(a)(1〜70残基番号)、(b)(71
〜84残基番号)、(c)(85〜164残基番号)領域をプロッ
トすることで、その正当性を確認することができる(図
41、42)。図41、42は、違う角度から(a)、
(b)、(c)領域に対応する立体構造上の位置を示したもの
であり、正当性を確認しやすくしている。
【0227】<4>一筆書きの形状によるタンパクのフ
ォールディングパターン予測の可能性 T4Lの∞形状やHULの入れ子(実施例4<5>参
照)等の特徴的な一筆書きの形状は、タンパクのフォー
ルディングの一般的なパターンとなりうる可能性を秘め
ている。さらに他のタンパクにおいて、これらの特徴的
な一筆書きの形状をデータベース化すれば、タンパクの
フォールディングパターンを予測できる可能性がある。
【0228】
【実施例6】続いて、ウシ膵臓トリプシンインヒビター
(bovine pancreatic tripsin inhibitor:BPTI)
について、フォールディングの速度論的研究結果と対比
して説明する。
【0229】<1>BPTIのしきい値を変化させたS
SRとSSGの作成条件について BPTIのSSRを、しきい値の高い順に図43〜48
に示した。図48には、SSGも同時に示した。しきい
値以外の検索条件は、ウインドウ幅20残基、ウインドウ
のずらし幅1残基である。 <2>BPTIに関するフォールディングの速度論的研
究結果 BPTIは、折れ畳みの研究が速度論的に詳しくなされ
ている(T. E. Creighton, Prog. Biophys. Mol. Bio
l., 33, 231(1978)、D. P. Goldenberg, T. E. Creight
on, Biopolymers., 24, 167 (1985)、T. E. Creighton,
D. P. Goldenberg, J. Mol. Biol., 179, 497 (198
4))。
【0230】BPTIの正しいSS結合は、図43に示
すように5番目のCys残基と55番目のCys残基がSS結合
したことを表すC30/C51(S1)を始めとして、C14/C38(S
2)、C30/C51(S3)の3個から形成されている。以上3個
のSS結合が同時に存在することを、(C30/C51+C5/C55+
C14/C38)という表記で以下示す。BPTIに関するフォ
ールディングの速度論的研究結果の概要を以下に記す。
【0231】(ステップ1)BPTIにおいて、最初に
SS結合をするのはC30/C51(60%)、C30/C5(30%)の2種
類であり、他の可能な13種類のSS結合はほとんど形成
されない(Cys残基が6個あるので、SS結合の可能な
組み合わせは6X5/2=15)。
【0232】この2種類のSS結合中次のステップに進
むのは、C30/C51のみである。
【0233】(ステップ2)C30/C51の次に形成される
SS結合は、誤ったSS結合を含む2種類の組み合わせ
(C30/C51+C5/C14とC30/C51+C5/C38)である。このとき、
同時に正しいSS結合の組み合わせも形成される(C30/C
51+C14/C38)が、この正しい組合せは、次のステップに
は進行できない。
【0234】先の誤ったSS結合を含む2つの組み合わ
せのみが次のステップに進むことができる。
【0235】(ステップ3)そして、先の2つの誤った
SS結合であるC5/C14とC5/C38は切断され、C30/C51+C5
/C55の正しいSS結合を有する中間体がゆっくりと形成
される。その後、最終的に正しい3つのSS結合(C30/C
51+C5/C55+C14/C38)が素早く形成されると報告されてい
る。
【0236】また、30番目のCys残基と51番目のCys残基
がSH基を有する安定な中間体状態C5/C55+C14/C38の存
在も報告されている。これは、30番目のCys残基と51番
目のCys残基が分子内部に埋もれているため、SS結合
形成反応が止まってしまった分子種と考えられている。
また、立体構造形成という観点からは、ほぼ完成した分
子と考えられている。
【0237】<3>BPTIのSSRとフォールディン
グの速度論的研究結果との対応 図43には、非常にシミラリティの強い場合(しきい値
42)のSSRを示している。実施例2中<2>(2)
(ニ)の考察から、図43中の34残基番号を中心にした強
い逆配列とのシミラリティ関係は、フォールディングの
最初の核になる可能性がある。この領域は、BPTIの
立体構造から特定された二次構造と対比するとC14/C38
とC30/C51の丁度中間に位置しており、SS結合を形成
する際の、極めて重要な領域とよく一致している。
【0238】図49に、34残基番号を核にした場合のS
S結合の可能なパターンを示した。(A)、(B)のa
とa’で示したように30〜34と34〜38残基番号は逆方向
に非常に類似な配列である。すなわち、類似の機能(立
体構造上)が逆向きに配向していると考えることが可能
である。また、この逆向きの類似な配列領域は、非常に
保存が高く、またフォールディングの核を形成すると予
想されることから立体的に剛直であり、コンフォメーシ
ョン的な自由度が極めて低い領域であることが予想され
る。従って、この両端のCys残基(30、38残基番号)は
SS結合しにくいことが予想される。
【0239】BPTIの最初のフォールディング核は34
残基番号で、30〜38残基番号領域にその核全体が位置す
る。Cys30の一つ前のCys残基はCys14であり、またCys38
の一つ後のCys残基はCys51であることから、最初のフォ
ールディング核を固定するSS結合は、14と38残基番号
間と30と51残基番号間のSS結合の生成が予想される。
(このときの仮定として、より遠い距離のCys5,Cys55は
確率の問題でSS結合ができにくいと仮定している。但
し、全くSS結合が形成されないときは考えにくい。こ
の仮定は、以後のBPTIのフォールディング予測全体
について通じて共通する仮定とする)
【0240】次に、図44にはしきい値40のSSRを示
した。図43でのしきい値42から、しきい値を2つ下げ
れば、22残基番号付近に新たなフォールディング核が形
成されつつある様子を観察できる。さらに、しきい値を
37まで下げた場合のSSRを図45に示した。このと
き、2番目に強い逆配列とのシミラリティ関係が22残基
番号を中心に新たに生成することが観察される。
【0241】この2番目に強い逆配列とのシミラリティ
関係について、最初の核(30〜38残基番号の領域)と同
様にSS結合の可能なパターンを図50に示した。この
ときは、図49に示した34残基番号を中心とした核形成
が起こらないと仮定した。最初の核の場合と同様にbと
b’領域に立体的に剛直な部分が形成された場合を想定
すれば、C5/C30とC14/C38の2つのSS結合の組み合わ
せが考えられる。
【0242】実際には、図51に示すように図49、5
0に示した状態が連続して生じる場合を考慮する必要が
ある。図51(A)に示すように、14〜22(b),22〜30
(b'),30〜34(a),34〜38(a')残基番号の四つの領域がCys
30残基番号を境にして互いに向き合うような状況が生じ
ると考えることができる(図45のSSRを見れば、2
つの逆配列が30残基番号を境に連続している様子がよく
理解される)。
【0243】このような状況になると、図51(B)
(C)に示すように30番目のCys残基がSS結合できる
相手は、5番目のCys残基か51番目のCys残基のどちらか
となる。何故なら、aとa’が一つの立体的に剛直な領
域を形成し、bとb’が同様に一つの立体的に剛直な領
域を形成するため、Cys14残基番号の一つ前の5番目のC
ys残基か、Cys38残基番号の一つ後ろの51番目のCys残基
とSS結合する可能性は高いと推定される。
【0244】ここで、30番目のCys残基がまず最初にS
S結合生成に関与すると考える理由は、2つのフォール
ディング核の共通の要になっており、どちらのフォール
ディングの核を固定するにも30番目のCys残基が必要と
なるためである。また、フォールディングは核を中心に
その周囲で成長することが考えられ、このことからも二
つの核の中心に位置する30番目のCys残基は最初のSS
結合生成に関与すると推定される。
【0245】このとき、図51(D)に示したように14
番目のCys残基と38番目のCys残基とSS結合する可能性
も存在する。しかし、このC14/C38のSS結合が生成す
ると、二つのフォールディング核領域を同時に固定する
ことになり、コンフォーメーション的にかなり制約を受
け、以後のフォールディングの成長を停止するものと考
えられる。この推定の妥当性は、30番目のCys残基と51
番目のCys残基がSH基を有する安定な中間体状態C5/C5
5+C14/C38の存在が報告されていることで確認すること
ができる。また、30番目のCys残基と51番目のCys残基が
分子内部に埋もれているため、SS結合形成反応が止ま
ってしまった分子種と考えられていることもSSRから
の知見と一致する。
【0246】さらに相対的なSS結合のし易さに関して
は、30〜38残基番号の核形成力が14〜30残基番号の核形
成力より高いことから、C30/C51の方が高いものと思わ
れる。以上の推定に対し、実験結果においても第一段階
のSS結合をするのはC30/C51(60%)、C30/C5(30%)の2
種類であり、他の可能な13種類のSS結合はほとんど
形成されないという事実とよく符合する。この過程は、
実験事実の(ステップ1)と対応する。
【0247】<4>BPTIのSSRの一筆書きとフォ
ールディング核のしきい値による変化 図45に示すようにBPTIのSSRについても一筆書
きが可能である。但し、この一筆書きは、HULの場合
と類似しており、両端(1〜10残基番号領域と40〜58残
基番号領域)が一筆書き部分に連結していない。
【0248】図45におけるBPTIの一筆書きは、(4
51)の最初のフォールディング核形成後、(452)の正方向
のシミラリティ関係により、(453)に連結される。(45
3)は、(454)の2番目のフォールディング核に連結され
て、一筆書きは完了する。
【0249】しきい値を下げて30にすると(図46)、
先程の一筆書きの完成がさらに進み、それ以外に新たに
5残基番号と53残基番号にフォールディング核が出現す
る。さらに、しきい値を25に下げると(図47)、5残
基番号と53残基番号を中心にしたフォールディング核の
成長が見られる。また、このとき一筆書き領域と5残基
番号を中心にしたフォールディング核との関連付けも見
られる。さらに、しきい値を20に下げると(図48)、
53残基番号を中心にしたフォールディング核との関連付
けが見られ、BPTIの全領域が連結される。
【0250】ここで、新たに出現した5残基番号と53残
基番号のフォールディング核は、最初と2番目のフォー
ルディング核と対比して、保存の程度が低く、また両者
共α−ヘリックスのほぼ中心に位置している。このこと
から、同じフォールディング核でも、そのフォールディ
ングに対する重要性の違いや、二次構造の生成のし易さ
(α−ヘリックスの方が、より低い保存の程度でもその
形状を維持可能と推定される)により、異なったしきい
値のSSRで検出可能であることが明らかである。
【0251】
【実施例7】HEWLとHULのSS結合に関する考察 HEWLとHULのSS結合についてもBPTIと同様
の関係が観察された。HEWLは図52(A)に、HU
Lは(B)に示した。HEWLについては、図7のしき
い値25のSSRにおいてその関係を観察することが可能
である。すなわち、78残基番号に対称中心を有する逆方
向のシミラリティ関係が存在する。また、同様にHUL
についても図31に示すように79残基番号に対称中心を
有する逆方向のシミラリティ関係が存在する。
【0252】これらの領域がフォールディング核とな
り、HEWLとHULのS3とS4のSS結合を生成すると
推定される(S3とS4のSS結合の組み合わせになる理由
については、実施例6参照)。
【0253】
【実施例8】SSRとSELFシミラリティマトリック
ス(SSM) <1>SSMの計算条件と表示法 図53に、HEWLのSSMを示した。図53(A)は
しきい値20、(B)はしきい値25のときのSSMであ
る。しきい値以外の計算条件は、ウインドウ幅20残基、
ウインドウのずらし幅1残基である。
【0254】図53のシミラリティ関係の表示法は、通
常よく用いられるシミラリティマトリックスと同一の形
態であるが、異なる点は同一画面上に逆配列とのシミラ
リティ関係を記入した点である。図53(A)の右上が
りの対角線は、解析するタンパク自身の完全一致部分を
表す。
【0255】<2>SSMとSSRとの対応 図53(B)のSSMと図7のSSRは全く同じ情報を
違う形式で表示させたものである。図7の(74)の領域
は、図53(B)では(531)に対応し、同様に図7の(7
6)は(532)に対応する。
【0256】ここで、図53(B)の(531)と(532)に示
したように、逆配列とのシミラリティ関係は対角線に対
して垂直な右下がりの線となる。正方向のシミラリティ
は、図7の(72)と(73)に対応する領域は、図53(B)
では(533)に対応する。このように、正方向のシミラリ
ティは対角線に対して平行な右上がりの線となる。
【0257】<3>SSMとのSSRの相違とそれぞれ
の表示法の特徴 図7で見られた一筆書きの形は、図53のSSMでは確
認不可能である。このことから、シミラリティの全体の
関係を把握するためには、SSRの方が優れていると思
われる。但し、下記<4>に示すようにX線結晶解析の
結果と正逆両方向のシミラリティ関係を対比するために
は、SSMの方が都合がよい。
【0258】<4>SSMとX線結晶解析の結果の同時
表示 図54(A)、(B)に、図53と同一のSSMと同時
に、対角線の下半分にHEWLの各アミノ酸残基のα−
炭素間の距離が13オングストローム以内の残基をドッ
トで表したドットマトリックスを同時に表示した。この
図54のように、SSMとX線結晶解析の結果を同時表
示することにより、正逆両方向のシミラリティ関係と三
次元構造とを直接比較することが可能となる。
【0259】
【実施例9】核点ライブラリー <1>核点ライブラリーの意義 図38に示したT4LのSSRに見られるように、(38
1)の領域に非常に高い逆配列とのシミラリティ関係が観
察される。この逆配列群は、図40に示すように二次構
造間(α−ヘリックス〜βシート、βシート〜βシート
等)をつなぐターン部分に相当する。このターン部分の
配列(核点領域)がT4Lに固有な配列群なのか、それ
とも他のタンパクでも同様な形で機能を果たしているの
かを調査するために、図55に示すような核点ライブラ
リーを作成した。また、HEWLやHULについても同
様の領域について登録可能であり、その例を示した。な
お、核点ライブラリーに登録する核点領域は、その核点
(核点領域の中心点)の前後の5〜6残基を含めて登録
した。
【0260】<2>核点ライブラリー T4Lを例にとって、核点ライブラリーのフォーマット
について説明する(図55(A))。1行目は、核点
(中心点)の存在する残基番号を示し(コメント行)、
2行目のT41と11は抜き出した配列の名前とその配列長
を示す。3行目には、核点を真ん中に含むシミラリティ
の高い部分配列を示し、配列の終了は1を最後につける
ことで示している。
【0261】<3>核点ライブラリーの活用例 図55に示した核点ライブラリー中の(A)のT41に対
して、PDBに登録されているタンパクとのシミラリテ
ィ検索を実施した。その結果、T41と類似性が高く、し
かも類似性を示した配列領域が、T41と同一の環境にあ
る(二次構造の間:βシート〜βシート)配列を含むタ
ンパクである乳酸脱水素酵素(apo-L-lactate dehydrog
enase:1LDB)を見いだすことができた。T41と1LDBの類
似な配列部分のホモロジースコア(DISTANCE)は35で、図
55(E)にシミラリティの対応部分を示した。
【0262】T41の配列中の真ん中のTは核点であり、こ
の残基の前後にβシートが存在する。T41とシミラリテ
ィ対応する1LDBの真ん中は星印で示すようにRである
が、その前後の配列がよく保存されていることがわか
る。
【0263】図56に、1LDBのSSGとSSRを同時に
示した。作成条件は、ウインドウ幅20残基、ウインドウ
のずらし幅1残基である。尚、SSGではしきい値20、
SSRではしきい値30とした。
【0264】T41の核点に対応する1LDBの核点は、269残
基番号であり図56中の横軸に矢印で示した。次に図5
5の核点ライブラリー中(D)のT44とPDBとのシミ
ラリティ検索を実施した結果、T44と類似性が高く、類
似性を示した配列領域が、T44と同一の環境にある(二
次構造の間:αヘリックス〜βシート)配列を含むタン
パクであるrhodanase(1RHD)を見いだした。
【0265】T44と1RHDの類似性関係について図55
(F)に示した。T44の核点はNCNであり、この前後
にαヘリックス、βシートが存在する。T44とシミラリ
ティ対応する1RHDの真ん中Cは星印で示した。アミノ酸
残基の種類がよく保存されていることがわかる。
【0266】図57に、1RHDのSSGとSSRを同時に
示した。作成条件は、ウインドウ幅20残基、ウインドウ
のずらし幅1残基である。尚、SSGではしきい値20、
SSRではしきい値30とした。T44の核点に対応する1RH
Dの核点は、245残基番号であり図57中の横軸に示して
いる。
【0267】以上2つの例で、核点ライブラリーの有効
性について示した。実施例では、2つの例を示したのみ
であるが、さらに種々のタンパクについてSSRを計算
し、核点ライブラリーを充実させていけば、二次構造お
よび三次構造予測に強力な手段を提供する可能性は高い
と思われる。
【0268】また、本実施例では、T4に存在する核点付
近の領域の普遍性について調べたが、PDBに含まれる
タンパクのみを検索対象にするという極めて狭い範囲に
おいても類似な配列を含むタンパクを見いだすことがで
きた。このことは、核点付近の配列領域の高い普遍性を
予想させるとともに、PDBのみに含まれるタンパクの
アミノ酸配列から抽出した核点ライブラリーの有効性も
予想させる結果となっている。
【0269】<4>タンパク分子内における解析から他
のタンパクへの拡張 核点ライブラリーに格納される部分配列は、タンパクそ
れ自身の配列中の閉じた系でシミラリティが高く保存さ
れている領域であった。この領域を他のタンパクとのシ
ミラリティで類似な機能(二次構造等)を推定すること
が可能であるという知見は、配列の並びに普遍的な機能
が存在する可能性を示唆しており、既存の予測法とは全
く異なる新しい予測法を提供するものと期待できる。
【0270】
【実施例10】タンパクの安定化とSSG、SSRとの
関係 <1>タンパクの安定化に関する実験事実とSSG、S
SRとの対応 T4Lの変異体G77A、A82Pは、いずれも天然のT4Lよ
り65℃における熱安定性が向上し、その順序はA82P>G7
7A>天然型であった(Matthews, B. W., Nicholson,
H., Becktel, W. J., Proc. Natl. Acad. Sci. USA, 8
4, 6663 (1987))。
【0271】一方、図58、59にT4LのSSGとS
SRを示した。SSRの作成条件は、しきい値23、ウイ
ンドウ幅20残基、ウインドウのずらし幅1残基である。
SSGの作成条件は、しきい値20、ウインドウ幅20残
基、ウインドウのずらし幅1残基である。
【0272】図58は、T4Lのアミノ酸配列をA82Pに
変異させたときのSSG、SSRであり、図59はG77A
に変異させたときのものである。また、T4Lの天然型
のSSG、SSRは、図37に示してある。
【0273】しきい値20でのT4Lのホモロジースコア
の総得点(SHC)は8917であり、図58に示したA82P
変異体では8849であり、図59に示したG77A変異体では
8795である。このように、しきい値20におけるSHC
は、天然型が最も高い。これは、天然型では類似な配列
が頻用されている結果であると考えられ、G77A、A82Pの
ように天然型の配列から多少ともずれれば、シミラリテ
ィの検出される配列数が減少し、SHCも減少したもの
と考えられる。
【0274】一方、しきい値23でのSHCを比べたとこ
ろ、A82P変異体は6174、G77A変異体は5475、天然型は54
42であった。このように、しきい値23のときのSHCの
順序と熱安定性の順序は一致する。
【0275】しきい値23のときのSSRを、A82P、G77
A、天然型で比較する。図37の天然型のSSRに比
べ、図58に示したA82P変異体では、38〜48残基番号付
近と82〜92残基番号付近の正方向のシミラリティ関係の
数が増加しており、その他の配列領域のSSRはほとん
ど同一である。また、図59に示したG77A変異体は71〜
73残基番号付近と142〜144残基番号付近の正方向のシミ
ラリティ関係の数が若干増加しており、その他の配列領
域のSSRはほとんど同一である。
【0276】これらのことから、熱安定性を高める変異
体の必要条件として、SSR等から次のものが挙げられ
る。 (i) 変異体のしきい値を上げたとき、SHCが天然型
のものよりも高くなる。 (ii) 変異体のSSRにおいて、変異に関連する領域の
みのシミラリティ関係が増大し、他の配列領域は影響を
受けない。
【0277】
【実施例11】変異がタンパクに与える影響の推定 HEWLのW62とW63は、活性中心に疎水的な環境を提供
し、基質との間に水素結合を形成するのに寄与してお
り、W62とW63が、活性中心で重要な働きをすることが知
見として得られている(Kumagai, I., Kojima, S., Tam
aki, E., Miura,K., J. Biochem., 102, 733 (198
7))。
【0278】これらW62、W63を人為的に異なるアミノ酸
残基に置換したとすると、SSRとSSG上でどのよう
な影響が現れるかを調べた。その結果を以下に説明す
る。HEWLのW62に対応するHULのアミノ酸残基はY
63である。このことから、WをYに変化させ得ると考え、
HEWLのW62をY62に変えた変異体のSSRとSSGを
図60に示し、W63をY63に変えた変異体のSSRとSS
Gを図61に示した。SSRの作成条件は、しきい値2
3、ウインドウ幅20残基、ウインドウのずらし幅1残基
である。SSGの作成条件は、しきい値20、ウインドウ
幅20残基、ウインドウのずらし幅1残基である。一方、
この作成条件での天然型のHEWLのSSGとSSRは
図6である。
【0279】W62Y変異体(図60)は、50〜65残基番号
領域のシミラリティ関係がほとんど消失し、図29のH
ULの60〜90残基番号付近のSSRとSSGに形状が似
てくる。これに対してW63Y変異体(図61)は、図6の
HEWLの天然型と比べ若干シミラリティ関係の数は減
少するが、ほとんど同一のSSRとSSGの形状を保っ
ているということができる。
【0280】このことは、HEWLにおけるW62とW63と
の役割が非常に異なることを示している。HEWLのW6
2をY62に変化させると、HULのSSRとSSGに形状
が似てくることから、W62はHEWLをHULと比べて
特徴づける非常に重要な残基だということができる。
【0281】以上、HEWLの例で人為的変異による影
響を推定したが、他のタンパクにおいてもアミノ酸配列
さえわかれば、簡単にSSRとSSGを作成することが
でき、変異の影響を推定することも可能である。
【0282】SSRとSSGを作成するのに要する計算
時間は僅かであるため、タンパク中の全部のアミノ酸配
列をくまなく変異させ、これらの変異がタンパクに与え
る影響を推定することも可能である。これにより、一次
配列上では、発見できなかった隠れた非常に重要な残基
を検出することも可能になると期待される。
【0283】
【発明の効果】本発明の方法により、タンパクの領域が
表面にあるか内部に埋もれているかが推定でき、タンパ
クの機能部位の予測、高次構造の単位(モチーフ、ドメ
イン)の推定が可能となる。また、領域の重要性の序列
を推定することができ、変異の影響、フォールディング
の順序や折曲点、SS結合の予測を行うことができるな
ど、タンパクの高次構造の解析を、アミノ酸配列から直
接的に、しかも簡便、確実に行うことが可能となる。
【0284】また、本発明により、上記解析を自動的に
行う装置を提供することができる。
【図面の簡単な説明】
【図1】 ホモロジースコアの算出法を示す図
【図2】 本発明の装置の構成の一例を示す図
【図3】 フローチャート
【図4】 卵白リゾチームのSSG(しきい値20)
【図5】 卵白リゾチームのSSR(しきい値23)
【図6】 卵白リゾチームのSSG(しきい値20)と
SSR(しきい値23)
【図7】 卵白リゾチームのSSR(しきい値25)
【図8】 卵白リゾチームのSSR(しきい値28)
【図9】 卵白リゾチームのSSR(しきい値33)
【図10】 卵白リゾチームのSSR(しきい値40)
【図11】 卵白リゾチームの立体構造とSSGとの対
応を示す図
【図12】 卵白リゾチームの正方向SSGと逆方向S
SG(しきい値20)
【図13】 卵白リゾチームの両方向SSG(しきい値
25)
【図14】 卵白リゾチームの正方向SSGと逆方向S
SG(しきい値25)
【図15】 卵白リゾチームの正方向SSG(しきい値
20、ウインドウ幅10残基)とSSR(しきい値2
3、ウインドウ幅10残基)
【図16】 卵白リゾチームの正方向SSG(しきい値
20、ウインドウ幅15残基)とSSR(しきい値2
3、ウインドウ幅15残基)
【図17】 卵白リゾチームの正方向SSG(しきい値
20、ウインドウ幅20残基)とSSR(しきい値2
3、ウインドウ幅20残基)
【図18】 卵白リゾチームの正方向SSG(しきい値
20、ウインドウ幅25残基)とSSR(しきい値2
3、ウインドウ幅25残基)
【図19】 卵白リゾチームの正方向SSG(しきい値
20、ウインドウ幅30残基)とSSR(しきい値2
3、ウインドウ幅30残基)
【図20】 卵白リゾチームの正方向SSG(しきい値
20、ウインドウ幅35残基)とSSR(しきい値2
3、ウインドウ幅35残基)
【図21】 卵白リゾチームの正方向SSG(しきい値
20、ウインドウのずらし幅2残基)とSSR(しきい
値23、ウインドウのずらし幅2残基)
【図22】 卵白リゾチームの正方向SSG(しきい値
20、ウインドウのずらし幅3残基)とSSR(しきい
値23、ウインドウのずらし幅3残基)
【図23】 卵白リゾチームの正方向SSG(しきい値
20、ウインドウのずらし幅5残基)とSSR(しきい
値23、ウインドウのずらし幅5残基)
【図24】 卵白リゾチームの正方向SSG(しきい値
20、ウインドウのずらし幅10残基)とSSR(しき
い値23、ウインドウのずらし幅10残基)
【図25】 ヒトグルタチオン還元酵素のSSG(しき
い値20)
【図26】 ヒトグルタチオン還元酵素のSSGと文献
から得られたドメイン領域との対応を示す図
【図27】 ヒトグルタチオン還元酵素の正方向SSG
と逆方向SSG(しきい値20)
【図28】 ヒトリゾチームのSSG(しきい値20)
【図29】 ヒトリゾチームのSSG(しきい値20)
とSSR(しきい値23)
【図30】 ヒトリゾチームのSSR(しきい値23)
【図31】 ヒトリゾチームのSSR(しきい値27)
【図32】 ヒトリゾチームのSSR(しきい値30)
【図33】 ヒトリゾチームのSSR(しきい値40)
【図34】 ヒトリゾチームの正方向SSGと逆方向S
SG(しきい値20)
【図35】 ヒトリゾチームの立体構造と推定されるα
−ヘリックス間の相互作用を示す図
【図36】 T4リゾチームのSSG(しきい値20)
【図37】 T4リゾチームのSSG(しきい値20)
とSSR(しきい値23)
【図38】 T4リゾチームのSSR(しきい値23)
【図39】 T4リゾチームのSSR(しきい値30)
【図40】 T4リゾチームの立体構造と1〜60残基
番号中に検出された4つの核領域との対応
【図41】 T4リゾチームの立体構造とSSR上の一
筆書きとの対応を示す図
【図42】 T4リゾチームの立体構造とSSR上の一
筆書きとの対応を示す図
【図43】 ウシ膵臓トリプシンインヒビターのSSR
(しきい値42)
【図44】 ウシ膵臓トリプシンインヒビターのSSR
(しきい値40)
【図45】 ウシ膵臓トリプシンインヒビターのSSR
(しきい値37)
【図46】 ウシ膵臓トリプシンインヒビターのSSR
(しきい値30)
【図47】 ウシ膵臓トリプシンインヒビターのSSR
(しきい値25)
【図48】 ウシ膵臓トリプシンインヒビターのSSR
(しきい値20)とSSG(しきい値20)
【図49】 ウシ膵臓トリプシンインヒビターのSSR
からのフォールディング順序予測及びSSRからのSS
結合の推定を示す図
【図50】 ウシ膵臓トリプシンインヒビターのSSR
からのフォールディング順序予測及びSSRからのSS
結合の推定を示す図
【図51】 ウシ膵臓トリプシンインヒビターのSSR
からのフォールディング順序予測及びSSRからのSS
結合の推定を示す図
【図52】 卵白リゾチーム、ヒトリゾチームのSSR
からのSS結合の推定を示す図
【図53】 卵白リゾチームのSSM(しきい値20、
25)
【図54】 卵白リゾチームのSSM(しきい値20、
25)と、X線結晶解析の結果を同時に示した図。
【図55】 核点ライブラリーとその利用例を示す図。
【図56】 乳酸脱水素酵素のSSGとSSR(しきい
値30)
【図57】 ロダナーゼのSSGとSSR(しきい値3
0)
【図58】 T4リゾチームの変異体(A82P)のSSG
(しきい値20)とSSR(しきい値23)
【図59】 T4リゾチームの変異体(G77A)のSSG
(しきい値20)とSSR(しきい値23)
【図60】 卵白リゾチームの変異体(W62Y)のSSG
(しきい値20)とSSR(しきい値23)
【図61】 卵白リゾチームの変異体(W63Y)のSSG
(しきい値20)とSSR(しきい値23)

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 タンパクの高次構造をそのアミノ酸配列
    に基づいて行う解析法であって、そのタンパクのアミノ
    酸配列上の任意の領域の配列とシミラリティを有する配
    列の領域を、そのタンパクのアミノ酸配列全体から検索
    することを特徴とするタンパクの高次構造解析法。
  2. 【請求項2】 請求項1において、前記タンパクのアミ
    ノ酸配列上の任意の領域の配列とシミラリティを有する
    配列の検索を、そのタンパクの正方向(N末端からC末
    端方向)のアミノ酸配列及び逆方向のアミノ酸配列(C
    末端からN末端方向)全体について行うことを特徴とす
    るタンパクの高次構造解析法。
  3. 【請求項3】 請求項1又は2において、前記シミラリ
    ティの検索が、(イ)アミノ酸配列上で任意の一定長の
    検索領域を設定する工程、(ロ)アミノ酸配列上を前記
    検索領域と同一長の被検索領域毎に順次対比して前記検
    索領域と被検索領域との配列のシミラリティの程度(ホ
    モロジースコア)を算出する工程、(ハ)前記ホモロジ
    ースコアから、前記検索領域と被検索領域との配列のシ
    ミラリティの有無を判定する工程、からなることを特徴
    とするタンパクの高次構造解析法。
  4. 【請求項4】 請求項3において、さらに、検索領域
    と、この検索領域とシミラリティを有すると判定された
    すべての被検索領域とのホモロジースコアを積算し、得
    られる値を類似度とする工程を含み、解析をしようとす
    る範囲のN末端からC末端まで検索領域を移動し、各々
    の検索領域における類似度を求め、各検索領域の中心点
    のアミノ酸残基番号に対して類似度をプロットすること
    を特徴とするタンパクの高次構造解析法。
  5. 【請求項5】 請求項3において、アミノ酸残基番号を
    直線上にプロットし、検索領域とシミラリティを有する
    と判定された被検索領域との中心点のアミノ酸残基番号
    がプロットされた位置を結ぶことにより、シミラリティ
    を有する領域間の関係を表記することを特徴とするタン
    パクの高次構造解析法。
  6. 【請求項6】 請求項4において、二次元座標の一方に
    アミノ酸残基番号をとり、アミノ酸残基番号に対して類
    似度を他方にプロットし、さらに、検索領域とシミラリ
    ティを有すると判定された被検索領域との中心点のアミ
    ノ酸残基番号がプロットされた位置を結ぶことにより、
    シミラリティを有する領域間の関係を表記することを特
    徴とするタンパクの高次構造解析法。
  7. 【請求項7】 高次構造の解析対象であるタンパクのア
    ミノ酸配列を入力する入力手段と、 前記アミノ酸配列上で任意の一定長の検索領域を設定す
    る領域設定手段と、 アミノ酸配列上を前記検索領域と同一長の被検索領域毎
    に順次対比して前記検索領域と被検索領域との配列のシ
    ミラリティの程度(ホモロジースコア)を算出するホモ
    ロジースコア算出手段と、 前記ホモロジースコアから、前記検索領域と被検索領域
    との配列のシミラリティの有無を判定するシミラリティ
    判定手段と、 検索領域と、この検索領域と一定以上のシミラリティが
    認められたすべての被検索領域とのホモロジースコアを
    積算し、この積算値をその検索領域の中心点における類
    似度とする類似度決定手段と、 検索領域の中心点のアミノ酸残基番号及び類似度と、一
    定値以上のホモロジースコアを有する領域の位置及びそ
    のホモロジースコアを記憶する記憶手段と、 前記記憶手段に記憶された情報を出力する出力手段とを
    備えたタンパクの高次構造解析装置。
  8. 【請求項8】 高次構造の解析対象であるタンパクのア
    ミノ酸配列を入力する入力手段と、 この入力手段により入力されたアミノ酸配列から逆方向
    のアミノ酸配列を作成する逆方向アミノ酸配列作成手段
    と、 前記アミノ酸配列上で任意の一定長の検索領域を設定す
    る領域設定手段と、 アミノ酸配列上及び逆方向アミノ酸配列上を前記検索領
    域と同一長の被検索領域毎に順次対比して前記検索領域
    と被検索領域との配列のシミラリティの程度(ホモロジ
    ースコア)を算出するホモロジースコア算出手段と、 前記ホモロジースコアから、前記検索領域と被検索領域
    との配列のシミラリティの有無を判定するシミラリティ
    判定手段と、 検索領域と、この検索領域と一定以上のシミラリティが
    認められたすべての被検索領域とのホモロジースコアを
    積算し、この積算値をその検索領域の中心点における類
    似度とする類似度決定手段と、 検索領域の中心点のアミノ酸番号及び類似度と、一定値
    以上のホモロジースコアを有する領域の位置及びそのホ
    モロジースコアを記憶する記憶手段と、 前記記憶手段に記憶された情報を出力する出力手段とを
    備えたタンパクの高次構造解析装置。
  9. 【請求項9】 請求項7又は8において、前記出力手段
    が、一定長領域の中心点のアミノ酸残基番号に対して、
    前記記憶手段に記憶させた類似度をプロットすることを
    特徴とするタンパクの高次構造解析装置。
  10. 【請求項10】 請求項7〜9のいずれか一項におい
    て、前記出力手段が、アミノ酸残基番号を直線上にプロ
    ットし、検索により一定以上のシミラリティの認められ
    た領域と前記任意の領域の各々の中心点同士を結ぶ表示
    を行うことを特徴とするタンパクの高次構造解析装置。
JP4262400A 1992-09-30 1992-09-30 タンパクの高次構造解析法及び装置 Pending JPH06110944A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4262400A JPH06110944A (ja) 1992-09-30 1992-09-30 タンパクの高次構造解析法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4262400A JPH06110944A (ja) 1992-09-30 1992-09-30 タンパクの高次構造解析法及び装置

Publications (1)

Publication Number Publication Date
JPH06110944A true JPH06110944A (ja) 1994-04-22

Family

ID=17375252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4262400A Pending JPH06110944A (ja) 1992-09-30 1992-09-30 タンパクの高次構造解析法及び装置

Country Status (1)

Country Link
JP (1) JPH06110944A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008059642A1 (fr) * 2006-11-13 2008-05-22 Nec Soft, Ltd. Procédé pour la prédiction d'une structure d'acide nucléique d'ordre supérieur, appareil pour la prédiction d'une structure d'acide nucléique d'ordre supérieur et programme pour la prédiction d'une structure d'acide nucléique d'ordre supérieur
CN101794351A (zh) * 2010-03-09 2010-08-04 哈尔滨工业大学 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008059642A1 (fr) * 2006-11-13 2008-05-22 Nec Soft, Ltd. Procédé pour la prédiction d'une structure d'acide nucléique d'ordre supérieur, appareil pour la prédiction d'une structure d'acide nucléique d'ordre supérieur et programme pour la prédiction d'une structure d'acide nucléique d'ordre supérieur
CN101794351A (zh) * 2010-03-09 2010-08-04 哈尔滨工业大学 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法

Similar Documents

Publication Publication Date Title
Pearce et al. Deep learning techniques have significantly impacted protein structure prediction and protein design
MacCallum Striped sheets and protein contact prediction
Clore et al. Determination of three-dimensional structures of proteins in solution by nuclear magnetic resonance spectroscopy
Li et al. Molecular dynamics simulation of the unfolding of barnase: characterization of the major intermediate
Janin et al. Protein–protein interaction and quaternary structure
Kumar et al. HELANAL-Plus: a web server for analysis of helix geometry in protein structures
Dror et al. Multiple structural alignment by secondary structures: algorithm and applications
JP2002536301A (ja) タンパク質モデリングツール
US20070016375A1 (en) Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules
CN111161792A (zh) 一种基于蛋白质空间结构的二硫键预测方法
JP6484612B2 (ja) 改善された治療リガンドの取得
JPH06110944A (ja) タンパクの高次構造解析法及び装置
US8452542B2 (en) Structure-sequence based analysis for identification of conserved regions in proteins
Sheehan et al. Online homology modelling as a means of bridging the sequence-structure gap
CN106022000B (zh) 一种基于压缩和聚类的批量蛋白质同源性搜索方法
Harteveld et al. Exploring" dark matter" protein folds using deep learning
JP4309282B2 (ja) 複数鎖を有するタンパク質の立体構造構築方法
JP2007505372A (ja) アミノ酸配列の立体構造を確定し、分析する方法
Rost et al. Evolution and neural networks/spl minus/protein secondary structure prediction above 71% accuracy
Orengo A review of methods for protein structure comparison
US20230290434A1 (en) Regularized deep learning based improvement of biomolecules
Hall-Beauvais et al. De novo designed proteins: a study in engineering novel folds and functions
Chen Building better backbones: visualizations, analyses, and tools for higher quality macromolecular structure models
Layeb et al. A Hybrid method for effective multiple sequence alignment
Tsenkov EXPLORING HUMAN POPULATION VARIATION