JPH09159666A

JPH09159666A - 蛋白質の二次構造予測方法及び装置

Info

Publication number: JPH09159666A
Application number: JP7320911A
Authority: JP
Inventors: Tamotsu Noguchi; 保野口
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-12-08
Filing date: 1995-12-08
Publication date: 1997-06-20
Anticipated expiration: 2015-12-08
Also published as: JP3585613B2; US5842151A

Abstract

(57)【要約】【課題】蛋白質の二次構造予測において、αヘリック
スの予測精度が良好であってもβシートの予測精度が悪
いため、予測精度が悪く、正確な立体構造を構築できな
い。【解決手段】本発明は、入力されたアミノ酸残基配列
に基づいてαヘリックスの部分のみを予測し、αヘリッ
クスの予想の処理において、αヘリックスと予測されな
かったアミノ酸残基同士の全てのペアに対して、βシー
トの傾向性指数を調べ、連続してβシート傾向性指数が
閾値より高い残基配列部分をβシートの候補とし、該候
補より残基数の最も多い残基配列部分をβシートとして
予測し、αヘリックスの予測結果とβシートの予測結果
を併せて出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、蛋白質の二次構造
予測方法及び装置に係り、特に、蛋白質の特徴的な構造
であるαヘリックスやβシートと呼ばれる二次構造を予
測するための蛋白質の二次構造予測方法及び装置に関す
る。

【０００２】蛋白質の二次構造を予測するということ
は、蛋白質の立体構造を知るこということであり、例え
ば、薬品開発等における蛋白質の分子配列である残基の
配列において、どの部分に最も影響を与えれば薬品とし
て有効であるか等を調査するための薬剤の分子と蛋白質
の残基のドッキングシミュレーションを行う際に、蛋白
質の立体構造を知ることは不可欠である。

【０００３】蛋白質は、蛋白質独自の特徴的な立体の螺
旋構造を有し、この螺旋構造は、αヘリックスやβシー
トと呼ばれる二次構造からなっており、この二次構造が
解明できれば、立体構造は略構築できるため、容易な蛋
白質の二次構造予測処理を行って立体構造を解析する方
法が望まれている。本発明は、蛋白質の立体構造を解析
するための蛋白質の二次構造予測方法及び装置に関す
る。

【０００４】

【従来の技術】蛋白質研究の最重要課題の一つである蛋
白質立体構造予測問題は、現在までに様々なアプローチ
により多くの手法が研究されているが、未だに解答が得
られない難解な問題である。もし、この問題が解決すれ
ば、医療分野におけるＸ線やＮＭＲ（Nuclear Magnetic
Resonance) 等で蛋白質立体構造を解析をする前に、あ
る程度の立体構造を知ることができる。

【０００５】蛋白質の二次構造予測は、アミノ酸残基配
列から立体構造を直接予測するのではなく、図１５に示
すような特徴的な構造を予測し、そこから立体構造を求
めようとするアプローチの最初のステップである。この
二次構造がわかれば立体構造は略構築できるので、現在
二次構造予測の精度がこのアプローチのボトルネックに
なっている。

【０００６】従来蛋白質の二次構造予測に関する研究
は、１９７４年に発表された「Chou-Fasman 」法に始ま
り、現在までに様々な方法が試みられているが、現在、
種々の実験による結果を用いて二次構造予測を行ってい
る。例えば、Kabsch-Sander の自動判別法は、立体構造
（主鎖の）原子座標から残基間の水素結合の有無を求
め、二次構造（３₁₀，α、πの各ヘリックス、βシー
ト、３，４，５ターン）、さらに、Ｓ−Ｓ結合と呼ばれ
る位置を示す。この方法を用いる場合には、結晶解析デ
ータを調べる、グラフィクス等を用いて、ＰＤＢに記載
されている登録者の定義した二次構造と比較したりし
て、定義された二次構造が妥当であるかをどうかを調査
する必要がある。

【０００７】図１６は、蛋白質の立体構造を示す。同図
に示す立体構造は、Ｘ線やＮＭＲを用いて実験を行い、
Ｘ，Ｙ，Ｚの３次元座標を求めることにより生成され
る。同図において、ａは、蛋白質の残基（分子の単位）
の結合であり、Ａ〜Ｉはβシート中のβストランドを示
す。このような構造において、全ての配列における周辺
アミノ酸の情報からその二次構造を予測する。同図にお
いて、残基Ｆと残基Ｄにおいて、残基Ｄは、残基Ｆの立
体周辺残基と呼ぶ。その結果、配列における周辺アミノ
酸（配列上近くにある残基）との相互作用からその構造
を形成すると考えられるαヘリックスｂは、高精度で予
測できる。

【０００８】βシートの構造予測は図１７に示すような
平面のシート（ねじれのない平面状の）に基づいて立体
構造を組み立てる方法がある。βシートの予測時には、
同図の矢印に示すように縦方向のアミノ酸残基のみの結
合の関係を取得し、その相互関係により構造を予測す
る。

【０００９】

【発明が解決しようとする課題】しかしながら、従来の
蛋白質の二次構造予測では、平均すると７０％以下の精
度しか得られていない。これは、すべて配列における周
辺アミノ酸の情報からその二次構造を予測しているた
め、配列における周辺アミノ酸との相互作用からその構
造を形成すると考えれるαヘリックスは、比較的高精度
で予測できるが、配列上離れたアミノ酸残基と水素結合
して構造形成するβシートの予測は、βシートが平面的
に構成されているために、配列上の周辺の残基しかその
関係を捕らえておらず、立体構造を有する蛋白質であっ
てっもその立体構造上の周辺残基は捕らえていない。こ
れは、βシートが平面のみで構成され、立体構造を持た
ないため、平面構造間の相互作用は捕らえることができ
るが、立体構造上の相互作用は捕らえることができな
い。このため、βシートの予測精度が５０％〜６０％と
落ち込み、蛋白質二次構造予測全体の精度を落としてい
る。

【００１０】αヘリックスに限れば、比較的近距離の性
質で螺旋構造を取っているので、その予測精度は、８０
％を越えていることから、βシートの予測精度を改善で
きれば、蛋白質二次構造予測全体の精度を向上させると
ができる。このように、αヘリックスのみが精度がよ
く、βシートの予測の精度が低いということは、ALL-α
蛋白質以外の蛋白質ではβシートは存在するので、正確
な予測をしているとは言えない。このため、二次構造予
測時点で上記のような精度であると、立体構造を構築す
ることができない。

【００１１】本発明は、上記の点に鑑みなされたもの
で、蛋白質の二次構造予測する場合に、βシートの予測
精度を向上させ、蛋白質の二次構造の予測精度を上げる
ことが可能な蛋白質の二次構造予測方法及び装置を提供
することを目的とする。更なる本発明の目的は、どのよ
うな蛋白質（ＡＬＬ−α蛋白質、ＡＬＬ−β、α／β蛋
白質、α＋β蛋白質）の種類にも適用できる汎用性のあ
る蛋白質二次構造予測方法及び装置を提供することであ
る。

【００１２】

【課題を解決するための手段】第１の発明は、蛋白質の
特徴的な構造であるαヘリッスやβシートの二次構造を
予測するための蛋白質の二次構造予測方法において、入
力されたアミノ酸残基配列に基づいてαヘリックスの部
分のみを予測し、αヘリックスの部分の予測処理におい
てαヘリックスと判定されなかったアミノ酸残基配列同
士の全てのペアに対してβシートの部分の予測を行い、
αヘリックスの予測結果とβシートの予測結果を併せて
出力する。

【００１３】第２の発明は、αヘリックスの予測時にお
いて、アミノ酸残基配列の前後数残基の種類により該残
基がαヘリックスを形成するかを予め学習させ、学習に
より取得した結果に基づいて予測対象となる入力された
アミノ酸残基配列がαヘリックスを形成するかを判定
し、αヘリックスを形成すると判定された場合には、予
測結果としてマークを付与し、形成されないと判定され
た場合には、当該アミノ酸残基はβシートの予測対象と
する。

【００１４】第３の発明は、αヘリックスを形成するか
否かを判定する際に、所定の単位数分のアミノ酸残基が
連続しているものについてはαヘリックスを形成すると
判定する。第４の発明は、αヘリックスを形成するか否
かを判定する際に基準となる単位数は４残基とする。

【００１５】第５の発明は、βシートの予測時におい
て、αヘリックスの予測の処理において、αヘリックス
と予測されなかったアミノ酸残基同士の全てのペアに対
して、βシートの傾向性指数を調べ、連続してβシート
傾向性指数が閾値より高い残基配列部分をβシートの候
補とし、該候補より残基数の最も多い残基配列部分をβ
シートとして予測する。

【００１６】第６の発明は、βシート傾向性指数の高い
残基配列部分において、所定の残基以下の残基を飛ばし
て連続している場合には連続している残基配列部分とす
る。第７の発明は、蛋白質の特徴的な構造であるαヘリ
ッスやβシートの二次構造を予測するための蛋白質の二
次構造予測装置において、入力されたアミノ酸残基配列
に基づいてαヘリックスの部分のみを予測するαヘリッ
クス予測手段と、αヘリックス予測手段においてαヘリ
ックスと判定されなかったアミノ酸残基配列同士の全て
のペアに対してβシートの部分の予測を行うβシート予
測手段と、αヘリックス予測手段により求められた結果
とβシート予測手段により求められた結果を併せて出力
する出力手段とを有する。

【００１７】また、上記のαヘリックス予測手段は、ア
ミノ酸残基配列の前後数残基の種類により該残基がαヘ
リックスを形成するかを予め学習する学習手段と、学習
手段により取得した結果に基づいて予測対象となる入力
されたアミノ酸残基配列がαヘリックスを形成するかを
判定する判定手段と、判定手段によりαヘリックスを形
成すると判定された場合には、予測結果としてマークを
付与するマーク付与手段と、判定手段により形成されな
いと判定された場合には、当該アミノ酸残基はβシート
の予測対象とするβシート予測データ変換手段とを含
む。

【００１８】また、上記の判定手段は、所定の単位数分
のアミノ酸残基が連続しているものについてはαヘリッ
クスを形成すると判定する。また、上記の判定手段は、
αヘリックスを形成するか否かを判定する際に基準とな
る単位数は４残基とする。

【００１９】また、上記のβシート予測手段は、αヘリ
ックス予想手段において、αヘリックスと予測されなか
ったアミノ酸残基同士の全てのペアに対して、βシート
の傾向性指数を調べる傾向性指数取得手段と、連続して
βシート傾向性指数が閾値より高い残基配列部分をβシ
ートの候補とする候補選択手段と、候補選択手段により
選択された候補より残基数の最も多い残基配列部分をβ
シートとして予測する決定手段を含む。

【００２０】また、上記の決定手段は、βシート傾向性
指数の高い残基配列部分において、所定の残基以下の残
基を飛ばして連続している場合には連続している残基配
列部分とする。上記の第１の発明においては、従来略精
度がよいとされていたαヘリックスの予測処理において
αヘリックスと判定されなかった残基をβシート予測処
理用の残基としてβシート予測処理に利用して、βシー
トの予測を行うことにより、一連の配列データ（アミノ
酸残基配列）からある残基がαヘリックスかβシートか
の判定を行うことなく、自動的に、βシートの候補とな
る残基であることが分かり、βシートの予測精度を上げ
ることができる。

【００２１】第２の発明は、αヘリックス予測処理時
に、予め学習により取得したデータを用いて残基の配列
位置によるαヘリックス形成指数を取得し、当該指数値
によりαヘリックスを形成するか否かの判定を容易に行
うことが可能である。第３の発明は、蛋白質を構成する
単位（αヘリックスを形成する単位）とαヘリックス残
基の連続量を比較して、αヘリックス形成に与える影響
が強い残基列を抽出することができる。

【００２２】第４の発明は、蛋白質を構成する１つの単
位を４残基とすることにより、正確な単位でαヘリック
ス予測を行うことが可能である。第５の発明は、βシー
トの予測時にαヘリックス予測時にαヘリックスを形成
しない残基のうち、βシートの傾向性指数が高い残基を
βシートの候補列に追加していき、残基数の最も多い残
基配列部分をβシートとして予測している。これにより
単にαヘリックスを形成しない残基のみでβシートを形
成するという判定ではないため、精度の高いβシート予
測が可能である。

【００２３】第６の発明は、上記の第５の発明において
最も残基数の多い残基配列部分を抽出する際に、所定の
数の残基（例えば１残基）を飛ばして残基配列を構成し
ている配列については連続しているものと見做すことに
より、与えられたβシートを求めるためのパラメータに
ばらつきや多少のエラーが含まれている場合であっても
これを補った結果を取得することができる。

【００２４】

【発明の実施の形態】蛋白質の二次構造予測は、βシー
トの予測法として、βシートを構成しているアミノ酸残
基ペア（さらに、そのペア残基の周辺残基）の情報に基
づいて予測する必要がある。そこで、最初にαヘリック
ス部分の予測を行い、残りの領域のアミノ酸残基ペアに
ついてもβシート形成の傾向性指数を計算し、蛋白質二
次構造の予測を行うものとする。

【００２５】図１は、本発明のシステム構成図である。
同図に示す二次構造予測システムは、構造予測部１０
０、αパラメータファイル２１０、βパラメータファイ
ル２２０、配列ファイル２３０、結果ファイル２４０、
及び入出力部２５０より構成される。

【００２６】αパラメータファイル２１０は、図２に示
すように、アミノ酸残基毎にその傾向性を“０”を中心
とする−６〜＋６までの配列位置でのαヘリックスの傾
向性データが格納されている。ここで、“−”はＮ末端
末側、“＋”はＣ末端側を示す。βパラメータファイル
２２０は、図３に示すように、アミノ酸残基毎に結合す
る傾向性を示す値を表した構造であり、縦軸には、蛋白
質のＮ末端側の残基を示し、横軸にはＣ末端側の残基が
示されている。末端とは、残基配列のＮＨ₂基側とカル
ボキシル基側の末端を示す。

【００２７】配列ファイル２３０は図４に示すようにア
ミノ酸残基の配列データを保持する。結果ファイル２４
０は、図５に示すように、構造予測部１００により求め
られたαヘリックス予測結果とβシート予測結果を結合
したデータを格納する。構造予測部１００は、αヘリッ
クス予測部１１０、βシート予測部１２０、及び予測結
果結合部１３０より構成される。

【００２８】αヘリックス予測部１１０は、配列ファイ
ル２３０の蛋白質の残基配列データと、αパラメータフ
ァイル２１０を読み込んで、Ｎ末端側から残基配列デー
タの各々についてαパラメータファイル２１０のデータ
との突き合わせを行う。具体的には残基配列データが中
心となる残基からいくつ後の位置（＋）にあるか、また
は、いくつ前の位置（−）にあるかによってαパラメー
タファイル２１０を検索し、その位置におけるその残基
種に対応するαヘリックスの形成指数の値を取得する。
−６〜＋６までのそれらを用い、ニューラルネットワー
クで計算した値がその中心残基のαヘリックス形成指数
の値となり、そこで、αヘリックスの形成指数の値が所
定の値より高い残基を抽出する。次に、アミノ酸残基配
が４残基連続しているものをαヘリックスを形成する残
基列と判定し、αヘリックスの予測結果とする。残基の
連続数が３残基以下の残基は、βシートの残基であると
してβシート予測部１２０に転送する。

【００２９】βシート予測部１２０は、αヘリックス予
測部１１０より取得した残基について、βパラメータフ
ァイル２２０を読み込んで、各残基毎に総当たりで傾向
指数を調べる。例えば、図３の例において、『Ａ，Ｎ，
Ｉ，Ｖ…』があるとき、“Ａ”と“Ｎ”の傾向指数は
「０．２」であり、“Ａ”と“Ｉ”の傾向指数は「１．
２」であり、“Ａ”と“Ｖ”の傾向指数は「１．４」で
あることがわかる。ここで、βシートを抽出するための
所定の値を“１．０”としたとき、抽出されるβシート
は、“Ａ”と“Ｉ”のペア、“Ａ”と“Ｖ”のペアとな
る。このようにして抽出された残基に対してマーク（例
えば“Ｅ”）を付与するこの場合には“△ＥＥ”とな
る。△は、最初の“Ａ”と“Ｎ”のペアは傾向指数が所
定の値より低いためマーキングされない。このようにマ
ーキングされない残基ペアがあると、マークが途切れる
ことになる。次にβシート予測部１２０は、連続マーク
数の多い順からソートして、最長となる残基列をβシー
トとして予測する。

【００３０】予測結果結合部１３０は、αヘリックス予
測部１１０の予測結果と、βシート予測部１２０の予測
結果をマージして、結果ファイル２４０に出力する。図
６は、本発明の構造予測部の動作のフローチャートであ
る。ステップ１００）入出力部２５０は、構造予測部１０
０において使用するファイルとして、配列ファイル２３
０と結果ファイル２４０のファイル名を指定する。

【００３１】ステップ２００）構造予測部１００は、
配列ファイル２３０を読み込んで、アミノ酸残基の配列
データを読み込む。ステップ３００）構造予測部１００のαヘリックス予
測部１１０は、αパラメータファイル２１０を読み込ん
で、配列ファイル２３０の配列データに基づいてαヘリ
ックスの予測を行う。αヘリックスの予測には、Ｘ線や
ＮＭＲで取得している値を教師信号として、ニューラル
ネットワーク（バックプロパゲーション）により得られ
た結果をαパラメータファイル２１０のデータとして、
アミノ酸残基配列（SEQUENCE.)からαヘリックス部分の
みを予測する（詳細は後述する）。

【００３２】ステップ４００）構造予測部１００のβ
シート予測部１２０は、βパラメータファイル２２０を
読み込んでβシートの予測を行う。詳細は、後述する。ステップ５００）構造予測部１００の予測結果結合部
１３０は、上記のステップ３００とステップ４００によ
り取得できたαヘリックス予測結果とβシート予測結果
の結合を行い、二次構造予測結果を構築する。

【００３３】ステップ６００）構造予測部１００の予
測結果結合部１３０は、ステップ５００において取得し
た二次構造予測結果を結果ファイル２４０に出力する。
上記のステップ３００におけるαヘリックス予測の動作
を説明する。図７は、本発明のαヘリックス予測動作の
フローチャートである。

【００３４】ステップ３０１）構造予測部１００のα
ヘリックス予測部１１０は、αパラメータファイル２１
０を読み込む。ステップ３０２）配列ファイル２３０の個々の配列デ
ータであるアミノ酸残基の順番を示すカウントｉ＝１と
する。

【００３５】ステップ３０３）配列ファイル２３０の
データであるｉ番目のアミノ酸残基がαヘリックスを形
成するかをαパラメータファイル２１０のαヘリックス
形成指数値を計算し、別領域（ワークエリア）に格納し
ておく。αヘリックス形成指数の求め方は、αパラメー
タファイル２１０から配列データｉ番目の残基が中心と
なるアミノ酸残基からどれだけ離れた位置にあるかを
“＋”、“−”に沿って検索し、所得した値を用い、ニ
ューラルネットワークで計算した値がαヘリックス形成
指数値である。

【００３６】ステップ３０４）ここでステップ３０３
により求められた値によりαヘリックスを形成するか否
かを判定する。判定方法は、αヘリックス形成指数値が
所定の値より高い残基に対してマークを付与する（例え
ば“Ｈ”）。αヘリックスを形成しない場合（マークが
付与されない）には、ステップ３０６に移行し、形成す
る場合には次ステップに移行する。

【００３７】ステップ３０５）ステップ３０４におい
てマークが付与された残基をワークエリアのヘリックス
行（ＨＥＬＩＸＰＲ．）のｉ番目のアミノ酸残基の位置
にαヘリックスを表すマーク（例えば“Ｈ”）を記載す
る。ステップ３０６）配列ファイル２３０のデータのカウ
ントをインクリメントする（ｉ＝ｉ＋１）。

【００３８】ステップ３０７）配列ファイル２３０の
データのカウントが全配列の長さ（ｎｒｅｓ（図４の例
の場合には１９８となる））より大きい場合（全てのα
ヘリックスの調査が終了）には、ステップ３０８に移行
し、そうでない場合には、ステップ３０３に移行する。

【００３９】ステップ３０８）ワークエリアに格納さ
れている“Ｈ”が所定数分連続していない部分を検索
し、その部分をヘリックスが形成されてないと判定し、
“Ｈ”を消去する。ステップ３０９） αヘリックスと予測されなかったア
ミノ酸残基を別領域（ワークエリア）に書き出し、その
数をｎ１とする。この値は、αヘリックスではなく、β
シートとなるため、βシートの予測時に使用される。

【００４０】ステップ３１０） αヘリックスと予測さ
れた残基（“Ｈ”が付与されている残基）を保持する。
図８は、本発明のβシートの予測動作のフローチャート
である。ステップ４０１）構造予測部１００は、前述のステッ
プ３０９において非αヘリックスと判定された残基が格
納されているワークエリアの内容を読み出すと共に、β
パラメータファイル２２０を読み込む。このとき、読み
出したステップ３０９により生成されたワークエリアに
格納されている残基数をｎ１とするステップ４０２）基準値ｉ＝１、ｉから何番目を表す
かを示すｊを１とする。以下のβシートの予測におい
て、残基ｉと残基ｊからなる残基ペアについて処理を行
う。

【００４１】ステップ４０３）ｉ番目とｊ番目のアミ
ノ酸残基（残基ペア（ｉ，ｊ））がβシートを形成する
か否かをβパラメータファイル２２０より判定する。判
定の方法は、残基ｉと残基ｊにおいて残基ｉをＮ末とし
残基ｊをＣ末とした時、（ｉ，ｊ）の傾向性指数をβパ
ラメータファイル２２０で交差する位置より取得する。
図３に示す例において、残基ｉ＝“Ｇ”、残基ｊ＝
“Ｒ”とした場合の傾向性指数は、「０．３」となる。

【００４２】ステップ４０４）ここで、ステップ４０
３で取得した傾向性指数が所定の閾値（ｔｈ＝１．０）
を越える場合には、βシートを形成すると判定し、ステ
ップ４０５に移行し、形成しない場合にはステップ４０
６に移行する。ステップ４０５） βシートが連続した場合、それが途
切れるまで、当該βッシートをワークエリアに結果を格
納する。

【００４３】ステップ４０６） βシートを形成しない
場合において、ワークエリアに予測結果が格納されてい
れば、表１に示す予測結果テーブルに保存する。

【００４４】

【表１】

【００４５】ステップ４０７）ｊのカウントをインク
リメントする（ｊ＝ｊ＋１）。ステップ４０８）ｊがワークエリアのｎ１の値より大
きければステップ４０９に移行し、そうでない場合に
は、ステップ４０３に移行する。ステップ４０９）ｉのカウントをインクリメントする
（ｉ＝ｉ＋１）。

【００４６】ステップ４１０）ｉがワークエリアのｎ
１より大きければステップ４１１に移行し、そうでなけ
ればステップ４０３に移行する。ステップ４１１）予測結果のテーブルを連続するβシ
ート数（Ｅのカウント）が大きい順に並び変え、その順
番に“SHEETPR ”行のアミノ酸残基の位置にマークとし
て“E ”を記す。上記の表１の例では、位置番号が
“２”→“３”→“１”→“４”の順にソートされる。

【００４７】上記の動作に示すように、βシートの傾向
指数を総当たりで調べて、所定の閾値より大きい場合の
み、βシートであることを示す“Ｅ”を上記ワークエリ
アに格納しておき、ここで、マーク“Ｅ”の並びが途切
れたところで上記の表１に示すテーブルに転記し、マー
ク“Ｅ”の並びの数の順にソートする。

【００４８】図９は、本発明の二次構造予測結果生成処
理のフローチャートである。ステップ５０１）カウントｉの値を１とする。ステップ５０２）ワークエリアの“ＨＥＬＩＸＰＲ”
行のｉ番目のアミノ酸残基の位置に“Ｈ”と表記されて
いれば“ＦＩＮＡＬＰＲ”行に“Ｈ”を記す。

【００４９】ステップ５０３）ワークエリアの“ＳＨ
ＥＥＴＰＲ”のｉ番目にアミノ酸残基の位置に“Ｅ”と
表記されていたら“ＦＩＮＡＬＰＲ”行に“Ｅ”と記
す。ステップ５０４）カウントｉをインクリメントする。ステップ５０５）カウントｉが全アミノ酸残基列の個
数より大きければ処理を終了し、小さければステップ５
０２に移行する。

【００５０】これにより、図５に示す予測結果が取得で
きる。なお、図５において、“ＳＵＭＭＡＲＹ．．”の
記載は、Ｘ線やＮＭＲによる実験結果であり模範的な値
を示しているが、参考のために記述しているために必ず
しも必要としない。

【００５１】

【実施例】以下に、本発明の実施例を図面と共に説明す
る。最初に、αヘリックスの予測について、前述の図２
に示すαパラメータファイルの例、図４に示す配列ファ
イルの例、及び図７に示すαヘリック予測動作のフロー
チャートに基づいて説明する。αヘリックスを求める場
合には、ニューラルネットワークを用いて、アミノ酸残
基配列（SEQUENCE.)より、αヘリックス部分(HELIXP
R..) だけを予測する。

【００５２】αヘリックスの予測は、図１０に示すよう
に、アミノ酸残基の前後数残基の種類によって、その残
基がαヘリックスを形成するかどうかをニューラルネッ
トワークに予め学習させておき、予測するアミノ酸配列
に対して学習で得られた結果（配列パターン毎のαヘリ
ックス形成指数（図２））に基づいて与えられた配列を
用いて入力された残基配列データがαヘリックスを形成
するか否かを判定する。図１０に示す “Ｔ，Ａ，Ｇ，Ｗ，Ｎ，Ｖ，Ｐ，Ｉ，Ｇ，Ｔ，Ｌ，Ｒ，
Ｐ” というアミノ酸残基の配列データが入力されると、図２
のαパラメータの値に基づいてニューラルネットワーク
を用いて計算することにより中心残基のαヘリックス形
成指数を取得する。この例では、“Ｐ”が最もαヘリッ
クス形成指数に影響を与え、次に、“Ｖ”，“Ｉ”、次
に“Ｎ”という順に、中心となるアミノ酸残基“Ｐ”の
位置からどれだけ離れているかによって、中心残基のα
ヘリックス形成指数への影響が変化する（ステップ３０
３）。

【００５３】このαヘリックス形成指数の値が所定の値
（例えば、０．０）より高い場合には、αヘリックスを
形成すると判定する（ステップ３０４）。ここで、αヘ
リックスが形成されると判定されると、図１１のワーク
エリア内の“ＨＥＬＩＸＰＲ．．”の行に、マーク
“Ｈ”が付与される。同図の例では、アミノ酸残基配列
（SEQUENCE.)の行のうち、 “Ｓ，Ｎ，Ｐ，Ｅ，Ａ，Ｔ，Ｋ，Ｃ，Ｆ，Ｗ，Ｑ，Ｒ，
Ｎ，Ｍ，Ｒ，Ｋ，Ｃ，Ｉ，Ｑ，Ａ，Ｉ，Ａ，…” にマーク“Ｈ”が付与されている（ステップ３０５）。

【００５４】次に、マーク“Ｈ”が１単位分（４残基）
連続するか判断する。この例では、 “Ｓ，Ｎ，Ｐ，Ｅ，Ａ，Ｔ，Ｋ，Ｃ，Ｆ” が連続し、 “Ｗ，Ｑ，Ｒ，Ｎ，Ｍ，Ｒ，Ｋ” において連続し、“Ｃ，Ｉ，Ｑ，Ａ，Ｉ，Ａ”で連続す
る。ここで、４残基が連続しないアミノ酸残基の列につ
いては、マーク“Ｈ”を消去し（ステップ３０９）、消
去されたアミノ酸残基をワークエリアに格納すると共
に、そのカウントをｎ１＝５とし、格納する（ステップ
３１０）。

【００５５】次に、βシートの予測処理について説明す
る。αヘリックス予測において、αヘリックスと予測さ
れなかったアミノ酸残基同士の全てのペアに対して図３
に示すβシートのパラメータファイルの値を用いて図１
２に示すようにβシートの傾向性を調べる。図１２の例
において、アミノ酸残基“Ｖ”と“Ｉ”の傾向性は、
「２．８」であり、“Ｑ”と“Ｃ”の傾向性は「１．
５」であることを示す。図１２に示す“SHEETPR.”行
は、βシート予測結果であり、その他の表記は、αヘリ
ックス部分の予測と同様である。図１２に示す点線と実
線の部分の残基ペアのβシート傾向指数８を総当たり法
により調べていることを示しており、実線の部分は、β
シート傾向性指数が高いペアを示している。その結果と
して、残基配列“ＶＱＷＣ”や“ＶＱＣＩ”がβシート
を形成すると予測され、“SHEETPR.”行にマーク“Ｅ”
が表記される。

【００５６】実際には、これらの処理をαヘリックスと
予測されなかった残基ペア全てに対して行い、βシート
傾向性指数が閾値より高いペアを探し出す。次にそれら
の中から２残基以上連続している残基配列ペアをβシー
トの候補として選択する。その際、１残基（Ｑ，Ｓ）飛
ばしてβシート傾向指数が閾値より高いペアが続く場合
には、図１３に示すように、連続しているものと見做
す。図１３において、太線はβシート傾向指数が閾値よ
り高いペアを示し、細線は閾値より低いペアを示し、点
線は連続しなかった残基ペアを示す。

【００５７】最後に、二次構造予測結果の出力処理につ
いて説明する。図１４は、本発明の一実施例の二次構造
予測結果の出力処理を説明するための図である。図１１
に示すαヘリックスの予測結果と、図１２に示すβシー
トの予測結果とを重ねたものを最終的に二次構造予測結
果（ＦＩＮＡＬＫＰＲ．．）とする。図１４は、“ＨＥ
ＬＩＩＸＰＲ．．”行を“ＦＩＮＡＬＰＲ．”行にコピ
ーした後に、“ＳＨＥＥＴＰＲ．”行を重ねた例であ
る。

【００５８】なお、図１１、図１２、図１４において、
“ＳＵＭＭＡＲＹ．．”と記載されているのは、Ｘ線や
ＮＭＲ等により求められている結果を示している。つま
り、このＳＵＭＭＡＲＹに近い値が求めることができれ
ば理想的である。構造予測部１００の予測結果結合部１
３０は、上記で得られた予測結果を結果ファイル２４０
に格納し、利用者が必要に応じて読み出して利用するこ
とが可能であると共に、ディスプレイ等に表示すること
も可能である。

【００５９】なお、βシートの予測時に、βシートであ
ること示すマーク（例えば、“Ｅ”）を付与し、当該マ
ークが切れたところで、テーブル（表１）に書き出すよ
うにしているが、この例に限定されることなく、例え
ば、マークが２回連続して付与されない場合のみテーブ
ルに書き出すようにし、マークの付与が１回だけ飛んだ
場合には、連続されているものとして、自動的にマーク
を付与し、βシートとなる残基が連続しているものとす
ることが可能である。なお、マークが連続して付与され
ない回数（“Ｅ”が付与されない回数）は任意である
が、あまり大きな数を設定すると精度が落ちることから
１回が妥当であると考えられる。

【００６０】なお、上記の実施例において予測処理途中
で取得したデータをメモリ内のワークエリアに格納する
例を示しているが、この例に限定されることなく、外部
的に接続されたファイルに格納するようにしてもよい。
このように、上記の実施例によれば、αヘリックス予測
及び従来困難であったβシートについて予測についても
簡単な記号処理により求めることで高い精度の蛋白質の
二次構造予測結果を取得することが可能となる。

【００６１】これにより、種々の蛋白質（ＡＬＬ−α蛋
白質、ＡＬＬ−β蛋白質、α／β蛋白質、α＋β蛋白
質）を配列データファイル２３０に投入し、これを構造
予測部１００に入力するとにより、αヘリックス及びβ
シートの双方の二次構造予測を行うことが可能となる。
従って、蛋白質の種類を選ばず、配列データファイル２
３０に格納するためのデータを生成するのみで、各種類
の蛋白質において共通して当該システムを使用すること
が可能である。

【００６２】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。

【００６３】

【発明の効果】本発明では、配列上離れた残基と相互作
用のあるβシートの予測をαヘリックス及びβシートの
残基ペアを用いて、アミノ酸残基配列より蛋白質の二次
構造を予測する際に、αヘリックス予測の精度の向上に
加えてβシート予測精度の向上も図ることができる。こ
れにより、配列上離れた残基と相互作用のある立体構造
の周辺残基の構造の予測が可能である。従って、蛋白質
立体構造予測の可能性を大きく拡げることが可能である
ため、蛋白質に対する薬品開発等の分野において蛋白質
の立体構造を参考にして精度の高い研究が可能である。

【００６４】これにより、本発明では、医療分野やバイ
オテクノロジーの分野等の蛋白質の立体構造を必要とす
る分野において、予め蛋白質の二次構造が予測されてい
るため、種々の実験精度が向上すると共に、残基の特定
等が可能となるため、新薬の開発や副作用の防止等広く
利用することが可能となる。

【図面の簡単な説明】

【図１】本発明のシステム構成図である。

【図２】本発明のαパラメータファイルの例を示す図で
ある。

【図３】本発明のβパラメータファイルの例を示す図で
ある。

【図４】本発明の配列ファイルの例を示す図である。

【図５】本発明の結果ファイルの例を示す図である。

【図６】本発明の構造予測部の動作の概要のフローチャ
ートである。

【図７】本発明のαヘリックスの予測動作のフローチャ
ートである。

【図８】本発明のβシートの予測動作のフローチャート
である。

【図９】本発明の二次構造予測結果生成処理のフローチ
ャートである。

【図１０】本発明の一実施例のαヘリックスの傾向性を
示す図である。

【図１１】本発明の一実施例のαヘリックスの予測処理
を説明するための図である。

【図１２】本発明の一実施例のβシートの予測処理を説
明するための図である。

【図１３】本発明の一実施例のβシート候補の選出を説
明するための図である。

【図１４】本発明の一実施例の二次構造予測結果の出力
処理を説明するための図である。

【図１５】蛋白質（フラボドキシン）の立体構造を示す
図である。

【図１６】蛋白質の立体構造を示す図である。

【図１７】βシートの構造を示す図である。

【符号の説明】

１００構造予測部１１０ αヘリックス予測部１２０ βシート予測部１３０予測結果結合部２１０ αパラメータファイル２２０ βパラメータファイル２３０配列ファイル２４０結果ファイル２５０入出力部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ０６Ｆ 17/30 Ｇ０６Ｆ 15/40 ３７０Ｆ

Claims

【特許請求の範囲】

【請求項１】蛋白質の特徴的な構造であるαヘリッス
やβシートの二次構造を予測するための蛋白質の二次構
造予測方法において、入力されたアミノ酸残基配列に基づいてαヘリックスの
部分のみを予測し、前記αヘリックスの部分の予測処理においてαヘリック
スと判定されなかったアミノ酸残基配列同士の全てのペ
アに対してβシートの部分の予測を行い、前記αヘリックスの予測結果と前記βシートの予測結果
を併せて出力することを特徴とする蛋白質の二次構造予
測方法。
【請求項２】前記αヘリックスの予測時において、アミノ酸残基配列の前後数残基の種類により該残基がα
ヘリックスを形成するかを予め学習させ、学習により取得した結果に基づいて予測対象となる入力
された前記アミノ酸残基配列がαヘリックスを形成する
かを判定し、 αヘリックスを形成すると判定された場合には、予測結
果としてマークを付与し、形成されないと判定された場
合には、当該アミノ酸残基はβシートの予測対象とする
請求項１記載の蛋白質の二次構造予測方法。
【請求項３】前記αヘリックスを形成するか否かを判
定する際に、所定の単位数分のアミノ酸残基が連続しているものにつ
いてはαヘリックスを形成すると判定する請求項２記載
の蛋白質の二次構造予測方法。
【請求項４】前記αヘリックスを形成するか否かを判
定する際に基準となる単位数は４残基とする請求項３記
載の蛋白質の二次構造予測方法。
【請求項５】前記βシートの予測時において、前記αヘリックスの予想の処理において、αヘリックス
と予測されなかったアミノ酸残基同士の全てのペアに対
して、βシートの傾向性指数を調べ、連続してβシート傾向性指数が閾値より高い残基配列部
分をβシートの候補とし、該候補より残基数の最も多い
残基配列部分をβシートとして予測する請求項１記載の
蛋白質の二次構造予測方法。
【請求項６】 βシート傾向性指数の高い残基配列部分
において、所定の残基以下の残基を飛ばして連続してい
る場合には連続している残基配列部分とする請求項５記
載の蛋白質の二次構造予測方法。
【請求項７】前記蛋白質の特徴的な構造であるαヘリ
ッスやβシートの二次構造を予測するための蛋白質の二
次構造予測装置において、入力されたアミノ酸残基配列に基づいてαヘリックスの
部分のみを予測するαヘリックス予測手段と、前記αヘリックス予測手段においてαヘリックスと判定
されなかったアミノ酸残基配列同士の全てのペアに対し
てβシートの部分の予測を行うβシート予測手段と、前記αヘリックス予測手段により求められた結果と前記
βシート予測手段により求められた結果を併せて出力す
る出力手段とを有することを特徴とする蛋白質の二次構
造予測装置。
【請求項８】前記αヘリックス予測手段は、アミノ酸残基配列の前後数残基の種類により該残基がα
ヘリックスを形成するかを予め学習する学習手段と、前記学習手段により取得した結果に基づいて予測対象と
なる入力された前記アミノ酸残基配列がαヘリックスを
形成するかを判定する判定手段と、前記判定手段によりαヘリックスを形成すると判定され
た場合には、予測結果としてマークを付与するマーク付
与手段と、前記判定手段により形成されないと判定された場合に
は、当該アミノ酸残基はβシートの予測対象とするβシ
ート予測データ変換手段とを含む請求項７記載の蛋白質
の二次構造予測装置。
【請求項９】前記判定手段は、所定の単位数分のアミノ酸残基が連続しているものにつ
いてはαヘリックスを形成すると判定する請求項８記載
の蛋白質の二次構造予測装置。
【請求項１０】前記判定手段は、前記αヘリックスを形成するか否かを判定する際に基準
となる単位数は４残基とする請求項９記載の蛋白質の二
次構造予測装置。
【請求項１１】前記βシート予測手段は、前記αヘリックス予想手段において、αヘリックスと予
測されなかったアミノ酸残基同士の全てのペアに対し
て、βシートの傾向性指数を調べる傾向性指数取得手段
と、連続してβシート傾向性指数が閾値より高い残基配列部
分をβシートの候補とする候補選択手段と、前記候補選択手段により選択された候補より残基数の最
も多い残基配列部分をβシートとして予測する決定手段
を含む請求項７記載の蛋白質の二次構造予測装置。
【請求項１２】前記決定手段は、 βシート傾向性指数の高い残基配列部分において、所定
の残基以下の残基を飛ばして連続している場合には連続
している残基配列部分とする請求項１１記載の蛋白質の
二次構造予測装置。