JP3585613B2

JP3585613B2 - 蛋白質の二次構造予測方法及び装置

Info

Publication number: JP3585613B2
Application number: JP32091195A
Authority: JP
Inventors: 保野口
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-12-08
Filing date: 1995-12-08
Publication date: 2004-11-04
Anticipated expiration: 2015-12-08
Also published as: JPH09159666A; US5842151A

Description

【０００１】
【発明の属する技術分野】
本発明は、蛋白質の二次構造予測方法及び装置に係り、特に、蛋白質の特徴的な構造であるαヘリックスやβシートと呼ばれる二次構造を予測するための蛋白質の二次構造予測方法及び装置に関する。
【０００２】
蛋白質の二次構造を予測するということは、蛋白質の立体構造を知るこということであり、例えば、薬品開発等における蛋白質の分子配列である残基の配列において、どの部分に最も影響を与えれば薬品として有効であるか等を調査するための薬剤の分子と蛋白質の残基のドッキングシミュレーションを行う際に、蛋白質の立体構造を知ることは不可欠である。
【０００３】
蛋白質は、蛋白質独自の特徴的な立体の螺旋構造を有し、この螺旋構造は、αヘリックスやβシートと呼ばれる二次構造からなっており、この二次構造が解明できれば、立体構造は略構築できるため、容易な蛋白質の二次構造予測処理を行って立体構造を解析する方法が望まれている。本発明は、蛋白質の立体構造を解析するための蛋白質の二次構造予測方法及び装置に関する。
【０００４】
【従来の技術】
蛋白質研究の最重要課題の一つである蛋白質立体構造予測問題は、現在までに様々なアプローチにより多くの手法が研究されているが、未だに解答が得られない難解な問題である。もし、この問題が解決すれば、医療分野におけるＸ線やＮＭＲ（ＮｕｃｌｅａｒＭａｇｎｅｔｉｃＲｅｓｏｎａｎｃｅ）等で蛋白質立体構造を解析をする前に、ある程度の立体構造を知ることができる。
【０００５】
蛋白質の二次構造予測は、アミノ酸残基配列から立体構造を直接予測するのではなく、図１５に示すような特徴的な構造を予測し、そこから立体構造を求めようとするアプローチの最初のステップである。この二次構造がわかれば立体構造は略構築できるので、現在二次構造予測の精度がこのアプローチのボトルネックになっている。
【０００６】
従来蛋白質の二次構造予測に関する研究は、１９７４年に発表された「Ｃｈｏｕ−Ｆａｓｍａｎ」法に始まり、現在までに様々な方法が試みられているが、現在、種々の実験による結果を用いて二次構造予測を行っている。
例えば、Ｋａｂｓｃｈ−Ｓａｎｄｅｒの自動判別法は、立体構造（主鎖の）原子座標から残基間の水素結合の有無を求め、二次構造（３_１０，α、πの各ヘリックス、βシート、３，４，５ターン）、さらに、Ｓ−Ｓ結合と呼ばれる位置を示す。この方法を用いる場合には、結晶解析データを調べる、グラフィクス等を用いて、ＰＤＢに記載されている登録者の定義した二次構造と比較したりして、定義された二次構造が妥当であるかをどうかを調査する必要がある。
【０００７】
図１６は、蛋白質の立体構造を示す。同図に示す立体構造は、Ｘ線やＮＭＲを用いて実験を行い、Ｘ，Ｙ，Ｚの３次元座標を求めることにより生成される。同図において、ａは、蛋白質の残基（分子の単位）の結合であり、Ａ〜Ｉはβシート中のβストランドを示す。このような構造において、全ての配列における周辺アミノ酸の情報からその二次構造を予測する。同図において、残基Ｆと残基Ｄにおいて、残基Ｄは、残基Ｆの立体周辺残基と呼ぶ。その結果、配列における周辺アミノ酸（配列上近くにある残基）との相互作用からその構造を形成すると考えられるαヘリックスｂは、高精度で予測できる。
【０００８】
βシートの構造予測は図１７に示すような平面のシート（ねじれのない平面状の）に基づいて立体構造を組み立てる方法がある。βシートの予測時には、同図の矢印に示すように縦方向のアミノ酸残基のみの結合の関係を取得し、その相互関係により構造を予測する。
【０００９】
【発明が解決しようとする課題】
しかしながら、従来の蛋白質の二次構造予測では、平均すると７０％以下の精度しか得られていない。これは、すべて配列における周辺アミノ酸の情報からその二次構造を予測しているため、配列における周辺アミノ酸との相互作用からその構造を形成すると考えれるαヘリックスは、比較的高精度で予測できるが、配列上離れたアミノ酸残基と水素結合して構造形成するβシートの予測は、βシートが平面的に構成されているために、配列上の周辺の残基しかその関係を捕らえておらず、立体構造を有する蛋白質であってっもその立体構造上の周辺残基は捕らえていない。これは、βシートが平面のみで構成され、立体構造を持たないため、平面構造間の相互作用は捕らえることができるが、立体構造上の相互作用は捕らえることができない。このため、βシートの予測精度が５０％〜６０％と落ち込み、蛋白質二次構造予測全体の精度を落としている。
【００１０】
αヘリックスに限れば、比較的近距離の性質で螺旋構造を取っているので、その予測精度は、８０％を越えていることから、βシートの予測精度を改善できれば、蛋白質二次構造予測全体の精度を向上させるとができる。このように、αヘリックスのみが精度がよく、βシートの予測の精度が低いということは、ＡＬＬ−α蛋白質以外の蛋白質ではβシートは存在するので、正確な予測をしているとは言えない。このため、二次構造予測時点で上記のような精度であると、立体構造を構築することができない。
【００１１】
本発明は、上記の点に鑑みなされたもので、蛋白質の二次構造予測する場合に、βシートの予測精度を向上させ、蛋白質の二次構造の予測精度を上げることが可能な蛋白質の二次構造予測方法及び装置を提供することを目的とする。
更なる本発明の目的は、どのような蛋白質（ＡＬＬ−α蛋白質、ＡＬＬ−β、α／β蛋白質、α＋β蛋白質）の種類にも適用できる汎用性のある蛋白質二次構造予測方法及び装置を提供することである。
【００１２】
【課題を解決するための手段】
第１の発明は、蛋白質の特徴的な構造であるαヘリッスやβシートの二次構造を予測するための蛋白質の二次構造予測方法において、
入力されたアミノ酸残基配列に基づいてαヘリックスの部分のみを予測し、
αヘリックスの部分の予測処理においてαヘリックスと判定されなかったアミノ酸残基配列同士の全てのペアに対してβシートの部分の予測を行い、
αヘリックスの予測結果とβシートの予測結果を併せて出力する。
【００１３】
第２の発明は、αヘリックスの予測時において、
アミノ酸残基配列の前後数残基の種類により該残基がαヘリックスを形成するかを予め学習させ、
学習により取得した結果に基づいて予測対象となる入力されたアミノ酸残基配列がαヘリックスを形成するかを判定し、
αヘリックスを形成すると判定された場合には、予測結果としてマークを付与し、形成されないと判定された場合には、当該アミノ酸残基はβシートの予測対象とする。
【００１４】
第３の発明は、αヘリックスを形成するか否かを判定する際に、
所定の単位数分のアミノ酸残基が連続しているものについてはαヘリックスを形成すると判定する。
第４の発明は、αヘリックスを形成するか否かを判定する際に基準となる単位数は４残基とする。
【００１５】
第５の発明は、βシートの予測時において、
αヘリックスの予測の処理において、αヘリックスと予測されなかったアミノ酸残基同士の全てのペアに対して、βシートの傾向性指数を調べ、
連続してβシート傾向性指数が閾値より高い残基配列部分をβシートの候補とし、該候補より残基数の最も多い残基配列部分をβシートとして予測する。
【００１６】
第６の発明は、βシート傾向性指数の高い残基配列部分において、所定の残基以下の残基を飛ばして連続している場合には連続している残基配列部分とする。第７の発明は、蛋白質の特徴的な構造であるαヘリッスやβシートの二次構造を予測するための蛋白質の二次構造予測装置において、
入力されたアミノ酸残基配列に基づいてαヘリックスの部分のみを予測するαヘリックス予測手段と、
αヘリックス予測手段においてαヘリックスと判定されなかったアミノ酸残基配列同士の全てのペアに対してβシートの部分の予測を行うβシート予測手段と、
αヘリックス予測手段により求められた結果とβシート予測手段により求められた結果を併せて出力する出力手段とを有する。
【００１７】
また、上記のαヘリックス予測手段は、
アミノ酸残基配列の前後数残基の種類により該残基がαヘリックスを形成するかを予め学習する学習手段と、
学習手段により取得した結果に基づいて予測対象となる入力されたアミノ酸残基配列がαヘリックスを形成するかを判定する判定手段と、
判定手段によりαヘリックスを形成すると判定された場合には、予測結果としてマークを付与するマーク付与手段と、
判定手段により形成されないと判定された場合には、当該アミノ酸残基はβシートの予測対象とするβシート予測データ変換手段とを含む。
【００１８】
また、上記の判定手段は、所定の単位数分のアミノ酸残基が連続しているものについてはαヘリックスを形成すると判定する。
また、上記の判定手段は、αヘリックスを形成するか否かを判定する際に基準となる単位数は４残基とする。
【００１９】
また、上記のβシート予測手段は、αヘリックス予想手段において、αヘリックスと予測されなかったアミノ酸残基同士の全てのペアに対して、βシートの傾向性指数を調べる傾向性指数取得手段と、
連続してβシート傾向性指数が閾値より高い残基配列部分をβシートの候補とする候補選択手段と、
候補選択手段により選択された候補より残基数の最も多い残基配列部分をβシートとして予測する決定手段を含む。
【００２０】
また、上記の決定手段は、βシート傾向性指数の高い残基配列部分において、所定の残基以下の残基を飛ばして連続している場合には連続している残基配列部分とする。
上記の第１の発明においては、従来略精度がよいとされていたαヘリックスの予測処理においてαヘリックスと判定されなかった残基をβシート予測処理用の残基としてβシート予測処理に利用して、βシートの予測を行うことにより、一連の配列データ（アミノ酸残基配列）からある残基がαヘリックスかβシートかの判定を行うことなく、自動的に、βシートの候補となる残基であることが分かり、βシートの予測精度を上げることができる。
【００２１】
第２の発明は、αヘリックス予測処理時に、予め学習により取得したデータを用いて残基の配列位置によるαヘリックス形成指数を取得し、当該指数値によりαヘリックスを形成するか否かの判定を容易に行うことが可能である。
第３の発明は、蛋白質を構成する単位（αヘリックスを形成する単位）とαヘリックス残基の連続量を比較して、αヘリックス形成に与える影響が強い残基列を抽出することができる。
【００２２】
第４の発明は、蛋白質を構成する１つの単位を４残基とすることにより、正確な単位でαヘリックス予測を行うことが可能である。
第５の発明は、βシートの予測時にαヘリックス予測時にαヘリックスを形成しない残基のうち、βシートの傾向性指数が高い残基をβシートの候補列に追加していき、残基数の最も多い残基配列部分をβシートとして予測している。これにより単にαヘリックスを形成しない残基のみでβシートを形成するという判定ではないため、精度の高いβシート予測が可能である。
【００２３】
第６の発明は、上記の第５の発明において最も残基数の多い残基配列部分を抽出する際に、所定の数の残基（例えば１残基）を飛ばして残基配列を構成している配列については連続しているものと見做すことにより、与えられたβシートを求めるためのパラメータにばらつきや多少のエラーが含まれている場合であってもこれを補った結果を取得することができる。
【００２４】
【発明の実施の形態】
蛋白質の二次構造予測は、βシートの予測法として、βシートを構成しているアミノ酸残基ペア（さらに、そのペア残基の周辺残基）の情報に基づいて予測する必要がある。そこで、最初にαヘリックス部分の予測を行い、残りの領域のアミノ酸残基ペアについてもβシート形成の傾向性指数を計算し、蛋白質二次構造の予測を行うものとする。
【００２５】
図１は、本発明のシステム構成図である。
同図に示す二次構造予測システムは、構造予測部１００、αパラメータファイル２１０、βパラメータファイル２２０、配列ファイル２３０、結果ファイル２４０、及び入出力部２５０より構成される。
【００２６】
αパラメータファイル２１０は、図２に示すように、アミノ酸残基毎にその傾向性を“０”を中心とする−６〜＋６までの配列位置でのαヘリックスの傾向性データが格納されている。ここで、“−”はＮ末端末側、“＋”はＣ末端側を示す。βパラメータファイル２２０は、図３に示すように、アミノ酸残基毎に結合する傾向性を示す値を表した構造であり、縦軸には、蛋白質のＮ末端側の残基を示し、横軸にはＣ末端側の残基が示されている。末端とは、残基配列のＮＨ_２基側とカルボキシル基側の末端を示す。
【００２７】
配列ファイル２３０は図４に示すようにアミノ酸残基の配列データを保持する。結果ファイル２４０は、図５に示すように、構造予測部１００により求められたαヘリックス予測結果とβシート予測結果を結合したデータを格納する。
構造予測部１００は、αヘリックス予測部１１０、βシート予測部１２０、及び予測結果結合部１３０より構成される。
【００２８】
αヘリックス予測部１１０は、配列ファイル２３０の蛋白質の残基配列データと、αパラメータファイル２１０を読み込んで、Ｎ末端側から残基配列データの各々についてαパラメータファイル２１０のデータとの突き合わせを行う。具体的には残基配列データが中心となる残基からいくつ後の位置（＋）にあるか、または、いくつ前の位置（−）にあるかによってαパラメータファイル２１０を検索し、その位置におけるその残基種に対応するαヘリックスの形成指数の値を取得する。−６〜＋６までのそれらを用い、ニューラルネットワークで計算した値がその中心残基のαヘリックス形成指数の値となり、そこで、αヘリックスの形成指数の値が所定の値より高い残基を抽出する。次に、アミノ酸残基配が４残基連続しているものをαヘリックスを形成する残基列と判定し、αヘリックスの予測結果とする。残基の連続数が３残基以下の残基は、βシートの残基であるとしてβシート予測部１２０に転送する。
【００２９】
βシート予測部１２０は、αヘリックス予測部１１０より取得した残基について、βパラメータファイル２２０を読み込んで、各残基毎に総当たりで傾向指数を調べる。例えば、図３の例において、『Ａ，Ｎ，Ｉ，Ｖ…』があるとき、“Ａ”と“Ｎ”の傾向指数は「０．２」であり、“Ａ”と“Ｉ”の傾向指数は「１．２」であり、“Ａ”と“Ｖ”の傾向指数は「１．４」であることがわかる。ここで、βシートを抽出するための所定の値を“１．０”としたとき、抽出されるβシートは、“Ａ”と“Ｉ”のペア、“Ａ”と“Ｖ”のペアとなる。このようにして抽出された残基に対してマーク（例えば“Ｅ”）を付与するこの場合には“△ＥＥ”となる。△は、最初の“Ａ”と“Ｎ”のペアは傾向指数が所定の値より低いためマーキングされない。このようにマーキングされない残基ペアがあると、マークが途切れることになる。次にβシート予測部１２０は、連続マーク数の多い順からソートして、最長となる残基列をβシートとして予測する。
【００３０】
予測結果結合部１３０は、αヘリックス予測部１１０の予測結果と、βシート予測部１２０の予測結果をマージして、結果ファイル２４０に出力する。
図６は、本発明の構造予測部の動作のフローチャートである。
ステップ１００）入出力部２５０は、構造予測部１００において使用するファイルとして、配列ファイル２３０と結果ファイル２４０のファイル名を指定する。
【００３１】
ステップ２００）構造予測部１００は、配列ファイル２３０を読み込んで、アミノ酸残基の配列データを読み込む。
ステップ３００）構造予測部１００のαヘリックス予測部１１０は、αパラメータファイル２１０を読み込んで、配列ファイル２３０の配列データに基づいてαヘリックスの予測を行う。αヘリックスの予測には、Ｘ線やＮＭＲで取得している値を教師信号として、ニューラルネットワーク（バックプロパゲーション）により得られた結果をαパラメータファイル２１０のデータとして、アミノ酸残基配列（ＳＥＱＵＥＮＣＥ．）からαヘリックス部分のみを予測する（詳細は後述する）。
【００３２】
ステップ４００）構造予測部１００のβシート予測部１２０は、βパラメータファイル２２０を読み込んでβシートの予測を行う。詳細は、後述する。
ステップ５００）構造予測部１００の予測結果結合部１３０は、上記のステップ３００とステップ４００により取得できたαヘリックス予測結果とβシート予測結果の結合を行い、二次構造予測結果を構築する。
【００３３】
ステップ６００）構造予測部１００の予測結果結合部１３０は、ステップ５００において取得した二次構造予測結果を結果ファイル２４０に出力する。
上記のステップ３００におけるαヘリックス予測の動作を説明する。図７は、本発明のαヘリックス予測動作のフローチャートである。
【００３４】
ステップ３０１）構造予測部１００のαヘリックス予測部１１０は、αパラメータファイル２１０を読み込む。
ステップ３０２）配列ファイル２３０の個々の配列データであるアミノ酸残基の順番を示すカウントｉ＝１とする。
【００３５】
ステップ３０３）配列ファイル２３０のデータであるｉ番目のアミノ酸残基がαヘリックスを形成するかをαパラメータファイル２１０のαヘリックス形成指数値を計算し、別領域（ワークエリア）に格納しておく。αヘリックス形成指数の求め方は、αパラメータファイル２１０から配列データｉ番目の残基が中心となるアミノ酸残基からどれだけ離れた位置にあるかを“＋”、“−”に沿って検索し、所得した値を用い、ニューラルネットワークで計算した値がαヘリックス形成指数値である。
【００３６】
ステップ３０４）ここでステップ３０３により求められた値によりαヘリックスを形成するか否かを判定する。判定方法は、αヘリックス形成指数値が所定の値より高い残基に対してマークを付与する（例えば“Ｈ”）。αヘリックスを形成しない場合（マークが付与されない）には、ステップ３０６に移行し、形成する場合には次ステップに移行する。
【００３７】
ステップ３０５）ステップ３０４においてマークが付与された残基をワークエリアのヘリックス行（ＨＥＬＩＸＰＲ．）のｉ番目のアミノ酸残基の位置にαヘリックスを表すマーク（例えば“Ｈ”）を記載する。
ステップ３０６）配列ファイル２３０のデータのカウントをインクリメントする（ｉ＝ｉ＋１）。
【００３８】
ステップ３０７）配列ファイル２３０のデータのカウントが全配列の長さ（ｎｒｅｓ（図４の例の場合には１９８となる））より大きい場合（全てのαヘリックスの調査が終了）には、ステップ３０８に移行し、そうでない場合には、ステップ３０３に移行する。
【００３９】
ステップ３０８）ワークエリアに格納されている“Ｈ”が所定数分連続していない部分を検索し、その部分をヘリックスが形成されてないと判定し、“Ｈ”を消去する。
ステップ３０９） αヘリックスと予測されなかったアミノ酸残基を別領域（ワークエリア）に書き出し、その数をｎ１とする。この値は、αヘリックスではなく、βシートとなるため、βシートの予測時に使用される。
【００４０】
ステップ３１０） αヘリックスと予測された残基（“Ｈ”が付与されている残基）を保持する。
図８は、本発明のβシートの予測動作のフローチャートである。
ステップ４０１）構造予測部１００は、前述のステップ３０９において非αヘリックスと判定された残基が格納されているワークエリアの内容を読み出すと共に、βパラメータファイル２２０を読み込む。このとき、読み出したステップ３０９により生成されたワークエリアに格納されている残基数をｎ１とする
ステップ４０２）基準値ｉ＝１、ｉから何番目を表すかを示すｊを１とする。以下のβシートの予測において、残基ｉと残基ｊからなる残基ペアについて処理を行う。
【００４１】
ステップ４０３）ｉ番目とｊ番目のアミノ酸残基（残基ペア（ｉ，ｊ））がβシートを形成するか否かをβパラメータファイル２２０より判定する。判定の方法は、残基ｉと残基ｊにおいて残基ｉをＮ末とし残基ｊをＣ末とした時、（ｉ，ｊ）の傾向性指数をβパラメータファイル２２０で交差する位置より取得する。図３に示す例において、残基ｉ＝“Ｇ”、残基ｊ＝“Ｒ”とした場合の傾向性指数は、「０．３」となる。
【００４２】
ステップ４０４）ここで、ステップ４０３で取得した傾向性指数が所定の閾値（ｔｈ＝１．０）を越える場合には、βシートを形成すると判定し、ステップ４０５に移行し、形成しない場合にはステップ４０６に移行する。
ステップ４０５） βシートが連続した場合、それが途切れるまで、当該βッシートをワークエリアに結果を格納する。
【００４３】
ステップ４０６） βシートを形成しない場合において、ワークエリアに予測結果が格納されていれば、表１に示す予測結果テーブルに保存する。
【００４４】
【表１】

【００４５】
ステップ４０７）ｊのカウントをインクリメントする（ｊ＝ｊ＋１）。
ステップ４０８）ｊがワークエリアのｎ１の値より大きければステップ４０９に移行し、そうでない場合には、ステップ４０３に移行する。
ステップ４０９）ｉのカウントをインクリメントする（ｉ＝ｉ＋１）。
【００４６】
ステップ４１０）ｉがワークエリアのｎ１より大きければステップ４１１に移行し、そうでなければステップ４０３に移行する。
ステップ４１１）予測結果のテーブルを連続するβシート数（Ｅのカウント）が大きい順に並び変え、その順番に“ＳＨＥＥＴＰＲ ”行のアミノ酸残基の位置にマークとして“Ｅ ”を記す。上記の表１の例では、位置番号が“２”→“３”→“１”→“４”の順にソートされる。
【００４７】
上記の動作に示すように、βシートの傾向指数を総当たりで調べて、所定の閾値より大きい場合のみ、βシートであることを示す“Ｅ”を上記ワークエリアに格納しておき、ここで、マーク“Ｅ”の並びが途切れたところで上記の表１に示すテーブルに転記し、マーク“Ｅ”の並びの数の順にソートする。
【００４８】
図９は、本発明の二次構造予測結果生成処理のフローチャートである。
ステップ５０１）カウントｉの値を１とする。
ステップ５０２）ワークエリアの“ＨＥＬＩＸＰＲ”行のｉ番目のアミノ酸残基の位置に“Ｈ”と表記されていれば“ＦＩＮＡＬＰＲ”行に“Ｈ”を記す。
【００４９】
ステップ５０３）ワークエリアの“ＳＨＥＥＴＰＲ”のｉ番目にアミノ酸残基の位置に“Ｅ”と表記されていたら“ＦＩＮＡＬＰＲ”行に“Ｅ”と記す。
ステップ５０４）カウントｉをインクリメントする。
ステップ５０５）カウントｉが全アミノ酸残基列の個数より大きければ処理を終了し、小さければステップ５０２に移行する。
【００５０】
これにより、図５に示す予測結果が取得できる。なお、図５において、“ＳＵＭＭＡＲＹ．．”の記載は、Ｘ線やＮＭＲによる実験結果であり模範的な値を示しているが、参考のために記述しているために必ずしも必要としない。
【００５１】
【実施例】
以下に、本発明の実施例を図面と共に説明する。
最初に、αヘリックスの予測について、前述の図２に示すαパラメータファイルの例、図４に示す配列ファイルの例、及び図７に示すαヘリック予測動作のフローチャートに基づいて説明する。αヘリックスを求める場合には、ニューラルネットワークを用いて、アミノ酸残基配列（ＳＥＱＵＥＮＣＥ．）より、αヘリックス部分（ＨＥＬＩＸＰＲ．．）だけを予測する。
【００５２】
αヘリックスの予測は、図１０に示すように、アミノ酸残基の前後数残基の種類によって、その残基がαヘリックスを形成するかどうかをニューラルネットワークに予め学習させておき、予測するアミノ酸配列に対して学習で得られた結果（配列パターン毎のαヘリックス形成指数（図２））に基づいて与えられた配列を用いて入力された残基配列データがαヘリックスを形成するか否かを判定する。図１０に示す
“Ｔ，Ａ，Ｇ，Ｗ，Ｎ，Ｖ，Ｐ，Ｉ，Ｇ，Ｔ，Ｌ，Ｒ，Ｐ”
というアミノ酸残基の配列データが入力されると、図２のαパラメータの値に基づいてニューラルネットワークを用いて計算することにより中心残基のαヘリックス形成指数を取得する。この例では、“Ｐ”が最もαヘリックス形成指数に影響を与え、次に、“Ｖ”，“Ｉ”、次に“Ｎ”という順に、中心となるアミノ酸残基“Ｐ”の位置からどれだけ離れているかによって、中心残基のαヘリックス形成指数への影響が変化する（ステップ３０３）。
【００５３】
このαヘリックス形成指数の値が所定の値（例えば、０．０）より高い場合には、αヘリックスを形成すると判定する（ステップ３０４）。ここで、αヘリックスが形成されると判定されると、図１１のワークエリア内の“ＨＥＬＩＸＰＲ．．”の行に、マーク“Ｈ”が付与される。同図の例では、アミノ酸残基配列（ＳＥＱＵＥＮＣＥ．）の行のうち、
“Ｓ，Ｎ，Ｐ，Ｅ，Ａ，Ｔ，Ｋ，Ｃ，Ｆ，Ｗ，Ｑ，Ｒ，Ｎ，Ｍ，Ｒ，Ｋ，Ｃ，Ｉ，Ｑ，Ａ，Ｉ，Ａ，…”
にマーク“Ｈ”が付与されている（ステップ３０５）。
【００５４】
次に、マーク“Ｈ”が１単位分（４残基）連続するか判断する。この例では、
“Ｓ，Ｎ，Ｐ，Ｅ，Ａ，Ｔ，Ｋ，Ｃ，Ｆ”
が連続し、
“Ｗ，Ｑ，Ｒ，Ｎ，Ｍ，Ｒ，Ｋ”
において連続し、“Ｃ，Ｉ，Ｑ，Ａ，Ｉ，Ａ”で連続する。ここで、４残基が連続しないアミノ酸残基の列については、マーク“Ｈ”を消去し（ステップ３０９）、消去されたアミノ酸残基をワークエリアに格納すると共に、そのカウントをｎ１＝５とし、格納する（ステップ３１０）。
【００５５】
次に、βシートの予測処理について説明する。
αヘリックス予測において、αヘリックスと予測されなかったアミノ酸残基同士の全てのペアに対して図３に示すβシートのパラメータファイルの値を用いて図１２に示すようにβシートの傾向性を調べる。図１２の例において、アミノ酸残基“Ｖ”と“Ｉ”の傾向性は、「２．８」であり、“Ｑ”と“Ｃ”の傾向性は「１．５」であることを示す。図１２に示す“ＳＨＥＥＴＰＲ．”行は、βシート予測結果であり、その他の表記は、αヘリックス部分の予測と同様である。図１２に示す点線と実線の部分の残基ペアのβシート傾向指数８を総当たり法により調べていることを示しており、実線の部分は、βシート傾向性指数が高いペアを示している。その結果として、残基配列“ＶＱＷＣ”や“ＶＱＣＩ”がβシートを形成すると予測され、“ＳＨＥＥＴＰＲ．”行にマーク“Ｅ”が表記される。
【００５６】
実際には、これらの処理をαヘリックスと予測されなかった残基ペア全てに対して行い、βシート傾向性指数が閾値より高いペアを探し出す。次にそれらの中から２残基以上連続している残基配列ペアをβシートの候補として選択する。その際、１残基（Ｑ，Ｓ）飛ばしてβシート傾向指数が閾値より高いペアが続く場合には、図１３に示すように、連続しているものと見做す。図１３において、太線はβシート傾向指数が閾値より高いペアを示し、細線は閾値より低いペアを示し、点線は連続しなかった残基ペアを示す。
【００５７】
最後に、二次構造予測結果の出力処理について説明する。
図１４は、本発明の一実施例の二次構造予測結果の出力処理を説明するための図である。
図１１に示すαヘリックスの予測結果と、図１２に示すβシートの予測結果とを重ねたものを最終的に二次構造予測結果（ＦＩＮＡＬＫＰＲ．．）とする。図１４は、“ＨＥＬＩＩＸＰＲ．．”行を“ＦＩＮＡＬＰＲ．”行にコピーした後に、“ＳＨＥＥＴＰＲ．”行を重ねた例である。
【００５８】
なお、図１１、図１２、図１４において、“ＳＵＭＭＡＲＹ．．”と記載されているのは、Ｘ線やＮＭＲ等により求められている結果を示している。つまり、このＳＵＭＭＡＲＹに近い値が求めることができれば理想的である。
構造予測部１００の予測結果結合部１３０は、上記で得られた予測結果を結果ファイル２４０に格納し、利用者が必要に応じて読み出して利用することが可能であると共に、ディスプレイ等に表示することも可能である。
【００５９】
なお、βシートの予測時に、βシートであること示すマーク（例えば、“Ｅ”）を付与し、当該マークが切れたところで、テーブル（表１）に書き出すようにしているが、この例に限定されることなく、例えば、マークが２回連続して付与されない場合のみテーブルに書き出すようにし、マークの付与が１回だけ飛んだ場合には、連続されているものとして、自動的にマークを付与し、βシートとなる残基が連続しているものとすることが可能である。なお、マークが連続して付与されない回数（“Ｅ”が付与されない回数）は任意であるが、あまり大きな数を設定すると精度が落ちることから１回が妥当であると考えられる。
【００６０】
なお、上記の実施例において予測処理途中で取得したデータをメモリ内のワークエリアに格納する例を示しているが、この例に限定されることなく、外部的に接続されたファイルに格納するようにしてもよい。
このように、上記の実施例によれば、αヘリックス予測及び従来困難であったβシートについて予測についても簡単な記号処理により求めることで高い精度の蛋白質の二次構造予測結果を取得することが可能となる。
【００６１】
これにより、種々の蛋白質（ＡＬＬ−α蛋白質、ＡＬＬ−β蛋白質、α／β蛋白質、α＋β蛋白質）を配列データファイル２３０に投入し、これを構造予測部１００に入力するとにより、αヘリックス及びβシートの双方の二次構造予測を行うことが可能となる。従って、蛋白質の種類を選ばず、配列データファイル２３０に格納するためのデータを生成するのみで、各種類の蛋白質において共通して当該システムを使用することが可能である。
【００６２】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。
【００６３】
【発明の効果】
本発明では、配列上離れた残基と相互作用のあるβシートの予測をαヘリックス及びβシートの残基ペアを用いて、アミノ酸残基配列より蛋白質の二次構造を予測する際に、αヘリックス予測の精度の向上に加えてβシート予測精度の向上も図ることができる。これにより、配列上離れた残基と相互作用のある立体構造の周辺残基の構造の予測が可能である。従って、蛋白質立体構造予測の可能性を大きく拡げることが可能であるため、蛋白質に対する薬品開発等の分野において蛋白質の立体構造を参考にして精度の高い研究が可能である。
【００６４】
これにより、本発明では、医療分野やバイオテクノロジーの分野等の蛋白質の立体構造を必要とする分野において、予め蛋白質の二次構造が予測されているため、種々の実験精度が向上すると共に、残基の特定等が可能となるため、新薬の開発や副作用の防止等広く利用することが可能となる。
【図面の簡単な説明】
【図１】本発明のシステム構成図である。
【図２】本発明のαパラメータファイルの例を示す図である。
【図３】本発明のβパラメータファイルの例を示す図である。
【図４】本発明の配列ファイルの例を示す図である。
【図５】本発明の結果ファイルの例を示す図である。
【図６】本発明の構造予測部の動作の概要のフローチャートである。
【図７】本発明のαヘリックスの予測動作のフローチャートである。
【図８】本発明のβシートの予測動作のフローチャートである。
【図９】本発明の二次構造予測結果生成処理のフローチャートである。
【図１０】本発明の一実施例のαヘリックスの傾向性を示す図である。
【図１１】本発明の一実施例のαヘリックスの予測処理を説明するための図である。
【図１２】本発明の一実施例のβシートの予測処理を説明するための図である。
【図１３】本発明の一実施例のβシート候補の選出を説明するための図である。
【図１４】本発明の一実施例の二次構造予測結果の出力処理を説明するための図である。
【図１５】蛋白質（フラボドキシン）の立体構造を示す図である。
【図１６】蛋白質の立体構造を示す図である。
【図１７】βシートの構造を示す図である。
【符号の説明】
１００構造予測部
１１０ αヘリックス予測部
１２０ βシート予測部
１３０予測結果結合部
２１０ αパラメータファイル
２２０ βパラメータファイル
２３０配列ファイル
２４０結果ファイル
２５０入出力部

Claims

蛋白質の特徴的な構造であるαヘリッスやβシートの二次構造を予測するための蛋白質の二次構造予測方法において、
入力されたアミノ酸残基配列に基づいてαヘリックスの部分のみを予測し、
前記αヘリックスの部分の予測処理においてαヘリックスと判定されなかったアミノ酸残基配列同士の全てのペアに対してβシートの部分の予測を行い、
前記αヘリックスの予測結果と前記βシートの予測結果を併せて出力することを特徴とする蛋白質の二次構造予測方法。
前記αヘリックスの予測時において、
アミノ酸残基配列の前後数残基の種類により該残基がαヘリックスを形成するかを予め学習させ、
学習により取得した結果に基づいて予測対象となる入力された前記アミノ酸残基配列がαヘリックスを形成するかを判定し、
αヘリックスを形成すると判定された場合には、予測結果としてマークを付与し、形成されないと判定された場合には、当該アミノ酸残基はβシートの予測対象とする請求項１記載の蛋白質の二次構造予測方法。
前記αヘリックスを形成するか否かを判定する際に、
所定の単位数分のアミノ酸残基が連続しているものについてはαヘリックスを形成すると判定する請求項２記載の蛋白質の二次構造予測方法。
前記αヘリックスを形成するか否かを判定する際に基準となる単位数は４残基とする請求項３記載の蛋白質の二次構造予測方法。
前記βシートの予測時において、
前記αヘリックスの予想の処理において、αヘリックスと予測されなかったアミノ酸残基同士の全てのペアに対して、βシートの傾向性指数を調べ、
連続してβシート傾向性指数が閾値より高い残基配列部分をβシートの候補とし、該候補より残基数の最も多い残基配列部分をβシートとして予測する請求項１記載の蛋白質の二次構造予測方法。
βシート傾向性指数の高い残基配列部分において、所定の残基以下の残基を飛ばして連続している場合には連続している残基配列部分とする請求項５記載の蛋白質の二次構造予測方法。
前記蛋白質の特徴的な構造であるαヘリッスやβシートの二次構造を予測するための蛋白質の二次構造予測装置において、
入力されたアミノ酸残基配列に基づいてαヘリックスの部分のみを予測するαヘリックス予測手段と、
前記αヘリックス予測手段においてαヘリックスと判定されなかったアミノ酸残基配列同士の全てのペアに対してβシートの部分の予測を行うβシート予測手段と、
前記αヘリックス予測手段により求められた結果と前記βシート予測手段により求められた結果を併せて出力する出力手段とを有することを特徴とする蛋白質の二次構造予測装置。
前記αヘリックス予測手段は、
アミノ酸残基配列の前後数残基の種類により該残基がαヘリックスを形成するかを予め学習する学習手段と、
前記学習手段により取得した結果に基づいて予測対象となる入力された前記アミノ酸残基配列がαヘリックスを形成するかを判定する判定手段と、
前記判定手段によりαヘリックスを形成すると判定された場合には、予測結果としてマークを付与するマーク付与手段と、
前記判定手段により形成されないと判定された場合には、当該アミノ酸残基はβシートの予測対象とするβシート予測データ変換手段とを含む請求項７記載の蛋白質の二次構造予測装置。
前記判定手段は、
所定の単位数分のアミノ酸残基が連続しているものについてはαヘリックスを形成すると判定する請求項８記載の蛋白質の二次構造予測装置。
前記判定手段は、
前記αヘリックスを形成するか否かを判定する際に基準となる単位数は４残基とする請求項９記載の蛋白質の二次構造予測装置。
前記βシート予測手段は、
前記αヘリックス予想手段において、αヘリックスと予測されなかったアミノ酸残基同士の全てのペアに対して、βシートの傾向性指数を調べる傾向性指数取得手段と、
連続してβシート傾向性指数が閾値より高い残基配列部分をβシートの候補とする候補選択手段と、
前記候補選択手段により選択された候補より残基数の最も多い残基配列部分をβシートとして予測する決定手段を含む請求項７記載の蛋白質の二次構造予測装置。
前記決定手段は、
βシート傾向性指数の高い残基配列部分において、所定の残基以下の残基を飛ばして連続している場合には連続している残基配列部分とする請求項１１記載の蛋白質の二次構造予測装置。