JPH09159666A - 蛋白質の二次構造予測方法及び装置 - Google Patents
蛋白質の二次構造予測方法及び装置Info
- Publication number
- JPH09159666A JPH09159666A JP7320911A JP32091195A JPH09159666A JP H09159666 A JPH09159666 A JP H09159666A JP 7320911 A JP7320911 A JP 7320911A JP 32091195 A JP32091195 A JP 32091195A JP H09159666 A JPH09159666 A JP H09159666A
- Authority
- JP
- Japan
- Prior art keywords
- helix
- sheet
- predicting
- prediction
- amino acid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K1/00—General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Theoretical Computer Science (AREA)
- Hematology (AREA)
- Medicinal Chemistry (AREA)
- Urology & Nephrology (AREA)
- Immunology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biomedical Technology (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Software Systems (AREA)
- Microbiology (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Cell Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Food Science & Technology (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
Abstract
スの予測精度が良好であってもβシートの予測精度が悪
いため、予測精度が悪く、正確な立体構造を構築できな
い。 【解決手段】 本発明は、入力されたアミノ酸残基配列
に基づいてαヘリックスの部分のみを予測し、αヘリッ
クスの予想の処理において、αヘリックスと予測されな
かったアミノ酸残基同士の全てのペアに対して、βシー
トの傾向性指数を調べ、連続してβシート傾向性指数が
閾値より高い残基配列部分をβシートの候補とし、該候
補より残基数の最も多い残基配列部分をβシートとして
予測し、αヘリックスの予測結果とβシートの予測結果
を併せて出力する。
Description
予測方法及び装置に係り、特に、蛋白質の特徴的な構造
であるαヘリックスやβシートと呼ばれる二次構造を予
測するための蛋白質の二次構造予測方法及び装置に関す
る。
は、蛋白質の立体構造を知るこということであり、例え
ば、薬品開発等における蛋白質の分子配列である残基の
配列において、どの部分に最も影響を与えれば薬品とし
て有効であるか等を調査するための薬剤の分子と蛋白質
の残基のドッキングシミュレーションを行う際に、蛋白
質の立体構造を知ることは不可欠である。
旋構造を有し、この螺旋構造は、αヘリックスやβシー
トと呼ばれる二次構造からなっており、この二次構造が
解明できれば、立体構造は略構築できるため、容易な蛋
白質の二次構造予測処理を行って立体構造を解析する方
法が望まれている。本発明は、蛋白質の立体構造を解析
するための蛋白質の二次構造予測方法及び装置に関す
る。
白質立体構造予測問題は、現在までに様々なアプローチ
により多くの手法が研究されているが、未だに解答が得
られない難解な問題である。もし、この問題が解決すれ
ば、医療分野におけるX線やNMR(Nuclear Magnetic
Resonance) 等で蛋白質立体構造を解析をする前に、あ
る程度の立体構造を知ることができる。
列から立体構造を直接予測するのではなく、図15に示
すような特徴的な構造を予測し、そこから立体構造を求
めようとするアプローチの最初のステップである。この
二次構造がわかれば立体構造は略構築できるので、現在
二次構造予測の精度がこのアプローチのボトルネックに
なっている。
は、1974年に発表された「Chou-Fasman 」法に始ま
り、現在までに様々な方法が試みられているが、現在、
種々の実験による結果を用いて二次構造予測を行ってい
る。例えば、Kabsch-Sander の自動判別法は、立体構造
(主鎖の)原子座標から残基間の水素結合の有無を求
め、二次構造(310,α、πの各ヘリックス、βシー
ト、3,4,5ターン)、さらに、S−S結合と呼ばれ
る位置を示す。この方法を用いる場合には、結晶解析デ
ータを調べる、グラフィクス等を用いて、PDBに記載
されている登録者の定義した二次構造と比較したりし
て、定義された二次構造が妥当であるかをどうかを調査
する必要がある。
に示す立体構造は、X線やNMRを用いて実験を行い、
X,Y,Zの3次元座標を求めることにより生成され
る。同図において、aは、蛋白質の残基(分子の単位)
の結合であり、A〜Iはβシート中のβストランドを示
す。このような構造において、全ての配列における周辺
アミノ酸の情報からその二次構造を予測する。同図にお
いて、残基Fと残基Dにおいて、残基Dは、残基Fの立
体周辺残基と呼ぶ。その結果、配列における周辺アミノ
酸(配列上近くにある残基)との相互作用からその構造
を形成すると考えられるαヘリックスbは、高精度で予
測できる。
平面のシート(ねじれのない平面状の)に基づいて立体
構造を組み立てる方法がある。βシートの予測時には、
同図の矢印に示すように縦方向のアミノ酸残基のみの結
合の関係を取得し、その相互関係により構造を予測す
る。
蛋白質の二次構造予測では、平均すると70%以下の精
度しか得られていない。これは、すべて配列における周
辺アミノ酸の情報からその二次構造を予測しているた
め、配列における周辺アミノ酸との相互作用からその構
造を形成すると考えれるαヘリックスは、比較的高精度
で予測できるが、配列上離れたアミノ酸残基と水素結合
して構造形成するβシートの予測は、βシートが平面的
に構成されているために、配列上の周辺の残基しかその
関係を捕らえておらず、立体構造を有する蛋白質であっ
てっもその立体構造上の周辺残基は捕らえていない。こ
れは、βシートが平面のみで構成され、立体構造を持た
ないため、平面構造間の相互作用は捕らえることができ
るが、立体構造上の相互作用は捕らえることができな
い。このため、βシートの予測精度が50%〜60%と
落ち込み、蛋白質二次構造予測全体の精度を落としてい
る。
質で螺旋構造を取っているので、その予測精度は、80
%を越えていることから、βシートの予測精度を改善で
きれば、蛋白質二次構造予測全体の精度を向上させると
ができる。このように、αヘリックスのみが精度がよ
く、βシートの予測の精度が低いということは、ALL-α
蛋白質以外の蛋白質ではβシートは存在するので、正確
な予測をしているとは言えない。このため、二次構造予
測時点で上記のような精度であると、立体構造を構築す
ることができない。
で、蛋白質の二次構造予測する場合に、βシートの予測
精度を向上させ、蛋白質の二次構造の予測精度を上げる
ことが可能な蛋白質の二次構造予測方法及び装置を提供
することを目的とする。更なる本発明の目的は、どのよ
うな蛋白質(ALL−α蛋白質、ALL−β、α/β蛋
白質、α+β蛋白質)の種類にも適用できる汎用性のあ
る蛋白質二次構造予測方法及び装置を提供することであ
る。
特徴的な構造であるαヘリッスやβシートの二次構造を
予測するための蛋白質の二次構造予測方法において、入
力されたアミノ酸残基配列に基づいてαヘリックスの部
分のみを予測し、αヘリックスの部分の予測処理におい
てαヘリックスと判定されなかったアミノ酸残基配列同
士の全てのペアに対してβシートの部分の予測を行い、
αヘリックスの予測結果とβシートの予測結果を併せて
出力する。
いて、アミノ酸残基配列の前後数残基の種類により該残
基がαヘリックスを形成するかを予め学習させ、学習に
より取得した結果に基づいて予測対象となる入力された
アミノ酸残基配列がαヘリックスを形成するかを判定
し、αヘリックスを形成すると判定された場合には、予
測結果としてマークを付与し、形成されないと判定され
た場合には、当該アミノ酸残基はβシートの予測対象と
する。
否かを判定する際に、所定の単位数分のアミノ酸残基が
連続しているものについてはαヘリックスを形成すると
判定する。第4の発明は、αヘリックスを形成するか否
かを判定する際に基準となる単位数は4残基とする。
て、αヘリックスの予測の処理において、αヘリックス
と予測されなかったアミノ酸残基同士の全てのペアに対
して、βシートの傾向性指数を調べ、連続してβシート
傾向性指数が閾値より高い残基配列部分をβシートの候
補とし、該候補より残基数の最も多い残基配列部分をβ
シートとして予測する。
残基配列部分において、所定の残基以下の残基を飛ばし
て連続している場合には連続している残基配列部分とす
る。第7の発明は、蛋白質の特徴的な構造であるαヘリ
ッスやβシートの二次構造を予測するための蛋白質の二
次構造予測装置において、入力されたアミノ酸残基配列
に基づいてαヘリックスの部分のみを予測するαヘリッ
クス予測手段と、αヘリックス予測手段においてαヘリ
ックスと判定されなかったアミノ酸残基配列同士の全て
のペアに対してβシートの部分の予測を行うβシート予
測手段と、αヘリックス予測手段により求められた結果
とβシート予測手段により求められた結果を併せて出力
する出力手段とを有する。
ミノ酸残基配列の前後数残基の種類により該残基がαヘ
リックスを形成するかを予め学習する学習手段と、学習
手段により取得した結果に基づいて予測対象となる入力
されたアミノ酸残基配列がαヘリックスを形成するかを
判定する判定手段と、判定手段によりαヘリックスを形
成すると判定された場合には、予測結果としてマークを
付与するマーク付与手段と、判定手段により形成されな
いと判定された場合には、当該アミノ酸残基はβシート
の予測対象とするβシート予測データ変換手段とを含
む。
のアミノ酸残基が連続しているものについてはαヘリッ
クスを形成すると判定する。また、上記の判定手段は、
αヘリックスを形成するか否かを判定する際に基準とな
る単位数は4残基とする。
ックス予想手段において、αヘリックスと予測されなか
ったアミノ酸残基同士の全てのペアに対して、βシート
の傾向性指数を調べる傾向性指数取得手段と、連続して
βシート傾向性指数が閾値より高い残基配列部分をβシ
ートの候補とする候補選択手段と、候補選択手段により
選択された候補より残基数の最も多い残基配列部分をβ
シートとして予測する決定手段を含む。
指数の高い残基配列部分において、所定の残基以下の残
基を飛ばして連続している場合には連続している残基配
列部分とする。上記の第1の発明においては、従来略精
度がよいとされていたαヘリックスの予測処理において
αヘリックスと判定されなかった残基をβシート予測処
理用の残基としてβシート予測処理に利用して、βシー
トの予測を行うことにより、一連の配列データ(アミノ
酸残基配列)からある残基がαヘリックスかβシートか
の判定を行うことなく、自動的に、βシートの候補とな
る残基であることが分かり、βシートの予測精度を上げ
ることができる。
に、予め学習により取得したデータを用いて残基の配列
位置によるαヘリックス形成指数を取得し、当該指数値
によりαヘリックスを形成するか否かの判定を容易に行
うことが可能である。第3の発明は、蛋白質を構成する
単位(αヘリックスを形成する単位)とαヘリックス残
基の連続量を比較して、αヘリックス形成に与える影響
が強い残基列を抽出することができる。
位を4残基とすることにより、正確な単位でαヘリック
ス予測を行うことが可能である。第5の発明は、βシー
トの予測時にαヘリックス予測時にαヘリックスを形成
しない残基のうち、βシートの傾向性指数が高い残基を
βシートの候補列に追加していき、残基数の最も多い残
基配列部分をβシートとして予測している。これにより
単にαヘリックスを形成しない残基のみでβシートを形
成するという判定ではないため、精度の高いβシート予
測が可能である。
最も残基数の多い残基配列部分を抽出する際に、所定の
数の残基(例えば1残基)を飛ばして残基配列を構成し
ている配列については連続しているものと見做すことに
より、与えられたβシートを求めるためのパラメータに
ばらつきや多少のエラーが含まれている場合であっても
これを補った結果を取得することができる。
トの予測法として、βシートを構成しているアミノ酸残
基ペア(さらに、そのペア残基の周辺残基)の情報に基
づいて予測する必要がある。そこで、最初にαヘリック
ス部分の予測を行い、残りの領域のアミノ酸残基ペアに
ついてもβシート形成の傾向性指数を計算し、蛋白質二
次構造の予測を行うものとする。
同図に示す二次構造予測システムは、構造予測部10
0、αパラメータファイル210、βパラメータファイ
ル220、配列ファイル230、結果ファイル240、
及び入出力部250より構成される。
すように、アミノ酸残基毎にその傾向性を“0”を中心
とする−6〜+6までの配列位置でのαヘリックスの傾
向性データが格納されている。ここで、“−”はN末端
末側、“+”はC末端側を示す。βパラメータファイル
220は、図3に示すように、アミノ酸残基毎に結合す
る傾向性を示す値を表した構造であり、縦軸には、蛋白
質のN末端側の残基を示し、横軸にはC末端側の残基が
示されている。末端とは、残基配列のNH2 基側とカル
ボキシル基側の末端を示す。
ミノ酸残基の配列データを保持する。結果ファイル24
0は、図5に示すように、構造予測部100により求め
られたαヘリックス予測結果とβシート予測結果を結合
したデータを格納する。構造予測部100は、αヘリッ
クス予測部110、βシート予測部120、及び予測結
果結合部130より構成される。
ル230の蛋白質の残基配列データと、αパラメータフ
ァイル210を読み込んで、N末端側から残基配列デー
タの各々についてαパラメータファイル210のデータ
との突き合わせを行う。具体的には残基配列データが中
心となる残基からいくつ後の位置(+)にあるか、また
は、いくつ前の位置(−)にあるかによってαパラメー
タファイル210を検索し、その位置におけるその残基
種に対応するαヘリックスの形成指数の値を取得する。
−6〜+6までのそれらを用い、ニューラルネットワー
クで計算した値がその中心残基のαヘリックス形成指数
の値となり、そこで、αヘリックスの形成指数の値が所
定の値より高い残基を抽出する。次に、アミノ酸残基配
が4残基連続しているものをαヘリックスを形成する残
基列と判定し、αヘリックスの予測結果とする。残基の
連続数が3残基以下の残基は、βシートの残基であると
してβシート予測部120に転送する。
測部110より取得した残基について、βパラメータフ
ァイル220を読み込んで、各残基毎に総当たりで傾向
指数を調べる。例えば、図3の例において、『A,N,
I,V…』があるとき、“A”と“N”の傾向指数は
「0.2」であり、“A”と“I”の傾向指数は「1.
2」であり、“A”と“V”の傾向指数は「1.4」で
あることがわかる。ここで、βシートを抽出するための
所定の値を“1.0”としたとき、抽出されるβシート
は、“A”と“I”のペア、“A”と“V”のペアとな
る。このようにして抽出された残基に対してマーク(例
えば“E”)を付与するこの場合には“△EE”とな
る。△は、最初の“A”と“N”のペアは傾向指数が所
定の値より低いためマーキングされない。このようにマ
ーキングされない残基ペアがあると、マークが途切れる
ことになる。次にβシート予測部120は、連続マーク
数の多い順からソートして、最長となる残基列をβシー
トとして予測する。
測部110の予測結果と、βシート予測部120の予測
結果をマージして、結果ファイル240に出力する。図
6は、本発明の構造予測部の動作のフローチャートであ
る。 ステップ100) 入出力部250は、構造予測部10
0において使用するファイルとして、配列ファイル23
0と結果ファイル240のファイル名を指定する。
配列ファイル230を読み込んで、アミノ酸残基の配列
データを読み込む。 ステップ300) 構造予測部100のαヘリックス予
測部110は、αパラメータファイル210を読み込ん
で、配列ファイル230の配列データに基づいてαヘリ
ックスの予測を行う。αヘリックスの予測には、X線や
NMRで取得している値を教師信号として、ニューラル
ネットワーク(バックプロパゲーション)により得られ
た結果をαパラメータファイル210のデータとして、
アミノ酸残基配列(SEQUENCE.)からαヘリックス部分の
みを予測する(詳細は後述する)。
シート予測部120は、βパラメータファイル220を
読み込んでβシートの予測を行う。詳細は、後述する。 ステップ500) 構造予測部100の予測結果結合部
130は、上記のステップ300とステップ400によ
り取得できたαヘリックス予測結果とβシート予測結果
の結合を行い、二次構造予測結果を構築する。
測結果結合部130は、ステップ500において取得し
た二次構造予測結果を結果ファイル240に出力する。
上記のステップ300におけるαヘリックス予測の動作
を説明する。図7は、本発明のαヘリックス予測動作の
フローチャートである。
ヘリックス予測部110は、αパラメータファイル21
0を読み込む。 ステップ302) 配列ファイル230の個々の配列デ
ータであるアミノ酸残基の順番を示すカウントi=1と
する。
データであるi番目のアミノ酸残基がαヘリックスを形
成するかをαパラメータファイル210のαヘリックス
形成指数値を計算し、別領域(ワークエリア)に格納し
ておく。αヘリックス形成指数の求め方は、αパラメー
タファイル210から配列データi番目の残基が中心と
なるアミノ酸残基からどれだけ離れた位置にあるかを
“+”、“−”に沿って検索し、所得した値を用い、ニ
ューラルネットワークで計算した値がαヘリックス形成
指数値である。
により求められた値によりαヘリックスを形成するか否
かを判定する。判定方法は、αヘリックス形成指数値が
所定の値より高い残基に対してマークを付与する(例え
ば“H”)。αヘリックスを形成しない場合(マークが
付与されない)には、ステップ306に移行し、形成す
る場合には次ステップに移行する。
てマークが付与された残基をワークエリアのヘリックス
行(HELIXPR.)のi番目のアミノ酸残基の位置
にαヘリックスを表すマーク(例えば“H”)を記載す
る。 ステップ306) 配列ファイル230のデータのカウ
ントをインクリメントする(i=i+1)。
データのカウントが全配列の長さ(nres(図4の例
の場合には198となる))より大きい場合(全てのα
ヘリックスの調査が終了)には、ステップ308に移行
し、そうでない場合には、ステップ303に移行する。
れている“H”が所定数分連続していない部分を検索
し、その部分をヘリックスが形成されてないと判定し、
“H”を消去する。 ステップ309) αヘリックスと予測されなかったア
ミノ酸残基を別領域(ワークエリア)に書き出し、その
数をn1とする。この値は、αヘリックスではなく、β
シートとなるため、βシートの予測時に使用される。
れた残基(“H”が付与されている残基)を保持する。
図8は、本発明のβシートの予測動作のフローチャート
である。 ステップ401) 構造予測部100は、前述のステッ
プ309において非αヘリックスと判定された残基が格
納されているワークエリアの内容を読み出すと共に、β
パラメータファイル220を読み込む。このとき、読み
出したステップ309により生成されたワークエリアに
格納されている残基数をn1とする ステップ402) 基準値i=1、iから何番目を表す
かを示すjを1とする。以下のβシートの予測におい
て、残基iと残基jからなる残基ペアについて処理を行
う。
ノ酸残基(残基ペア(i,j))がβシートを形成する
か否かをβパラメータファイル220より判定する。判
定の方法は、残基iと残基jにおいて残基iをN末とし
残基jをC末とした時、(i,j)の傾向性指数をβパ
ラメータファイル220で交差する位置より取得する。
図3に示す例において、残基i=“G”、残基j=
“R”とした場合の傾向性指数は、「0.3」となる。
3で取得した傾向性指数が所定の閾値(th=1.0)
を越える場合には、βシートを形成すると判定し、ステ
ップ405に移行し、形成しない場合にはステップ40
6に移行する。 ステップ405) βシートが連続した場合、それが途
切れるまで、当該βッシートをワークエリアに結果を格
納する。
場合において、ワークエリアに予測結果が格納されてい
れば、表1に示す予測結果テーブルに保存する。
リメントする(j=j+1)。 ステップ408) jがワークエリアのn1の値より大
きければステップ409に移行し、そうでない場合に
は、ステップ403に移行する。 ステップ409) iのカウントをインクリメントする
(i=i+1)。
1より大きければステップ411に移行し、そうでなけ
ればステップ403に移行する。 ステップ411) 予測結果のテーブルを連続するβシ
ート数(Eのカウント)が大きい順に並び変え、その順
番に“SHEETPR ”行のアミノ酸残基の位置にマークとし
て“E ”を記す。上記の表1の例では、位置番号が
“2”→“3”→“1”→“4”の順にソートされる。
指数を総当たりで調べて、所定の閾値より大きい場合の
み、βシートであることを示す“E”を上記ワークエリ
アに格納しておき、ここで、マーク“E”の並びが途切
れたところで上記の表1に示すテーブルに転記し、マー
ク“E”の並びの数の順にソートする。
理のフローチャートである。 ステップ501) カウントiの値を1とする。 ステップ502) ワークエリアの“HELIXPR”
行のi番目のアミノ酸残基の位置に“H”と表記されて
いれば“FINALPR”行に“H”を記す。
EETPR”のi番目にアミノ酸残基の位置に“E”と
表記されていたら“FINALPR”行に“E”と記
す。 ステップ504) カウントiをインクリメントする。 ステップ505) カウントiが全アミノ酸残基列の個
数より大きければ処理を終了し、小さければステップ5
02に移行する。
きる。なお、図5において、“SUMMARY..”の
記載は、X線やNMRによる実験結果であり模範的な値
を示しているが、参考のために記述しているために必ず
しも必要としない。
る。最初に、αヘリックスの予測について、前述の図2
に示すαパラメータファイルの例、図4に示す配列ファ
イルの例、及び図7に示すαヘリック予測動作のフロー
チャートに基づいて説明する。αヘリックスを求める場
合には、ニューラルネットワークを用いて、アミノ酸残
基配列(SEQUENCE.)より、αヘリックス部分(HELIXP
R..) だけを予測する。
に、アミノ酸残基の前後数残基の種類によって、その残
基がαヘリックスを形成するかどうかをニューラルネッ
トワークに予め学習させておき、予測するアミノ酸配列
に対して学習で得られた結果(配列パターン毎のαヘリ
ックス形成指数(図2))に基づいて与えられた配列を
用いて入力された残基配列データがαヘリックスを形成
するか否かを判定する。図10に示す “T,A,G,W,N,V,P,I,G,T,L,R,
P” というアミノ酸残基の配列データが入力されると、図2
のαパラメータの値に基づいてニューラルネットワーク
を用いて計算することにより中心残基のαヘリックス形
成指数を取得する。この例では、“P”が最もαヘリッ
クス形成指数に影響を与え、次に、“V”,“I”、次
に“N”という順に、中心となるアミノ酸残基“P”の
位置からどれだけ離れているかによって、中心残基のα
ヘリックス形成指数への影響が変化する(ステップ30
3)。
(例えば、0.0)より高い場合には、αヘリックスを
形成すると判定する(ステップ304)。ここで、αヘ
リックスが形成されると判定されると、図11のワーク
エリア内の“HELIXPR..”の行に、マーク
“H”が付与される。同図の例では、アミノ酸残基配列
(SEQUENCE.)の行のうち、 “S,N,P,E,A,T,K,C,F,W,Q,R,
N,M,R,K,C,I,Q,A,I,A,…” にマーク“H”が付与されている(ステップ305)。
連続するか判断する。この例では、 “S,N,P,E,A,T,K,C,F” が連続し、 “W,Q,R,N,M,R,K” において連続し、“C,I,Q,A,I,A”で連続す
る。ここで、4残基が連続しないアミノ酸残基の列につ
いては、マーク“H”を消去し(ステップ309)、消
去されたアミノ酸残基をワークエリアに格納すると共
に、そのカウントをn1=5とし、格納する(ステップ
310)。
る。αヘリックス予測において、αヘリックスと予測さ
れなかったアミノ酸残基同士の全てのペアに対して図3
に示すβシートのパラメータファイルの値を用いて図1
2に示すようにβシートの傾向性を調べる。図12の例
において、アミノ酸残基“V”と“I”の傾向性は、
「2.8」であり、“Q”と“C”の傾向性は「1.
5」であることを示す。図12に示す“SHEETPR.”行
は、βシート予測結果であり、その他の表記は、αヘリ
ックス部分の予測と同様である。図12に示す点線と実
線の部分の残基ペアのβシート傾向指数8を総当たり法
により調べていることを示しており、実線の部分は、β
シート傾向性指数が高いペアを示している。その結果と
して、残基配列“VQWC”や“VQCI”がβシート
を形成すると予測され、“SHEETPR.”行にマーク“E”
が表記される。
予測されなかった残基ペア全てに対して行い、βシート
傾向性指数が閾値より高いペアを探し出す。次にそれら
の中から2残基以上連続している残基配列ペアをβシー
トの候補として選択する。その際、1残基(Q,S)飛
ばしてβシート傾向指数が閾値より高いペアが続く場合
には、図13に示すように、連続しているものと見做
す。図13において、太線はβシート傾向指数が閾値よ
り高いペアを示し、細線は閾値より低いペアを示し、点
線は連続しなかった残基ペアを示す。
いて説明する。図14は、本発明の一実施例の二次構造
予測結果の出力処理を説明するための図である。図11
に示すαヘリックスの予測結果と、図12に示すβシー
トの予測結果とを重ねたものを最終的に二次構造予測結
果(FINALKPR..)とする。図14は、“HE
LIIXPR..”行を“FINALPR.”行にコピ
ーした後に、“SHEETPR.”行を重ねた例であ
る。
“SUMMARY..”と記載されているのは、X線や
NMR等により求められている結果を示している。つま
り、このSUMMARYに近い値が求めることができれ
ば理想的である。構造予測部100の予測結果結合部1
30は、上記で得られた予測結果を結果ファイル240
に格納し、利用者が必要に応じて読み出して利用するこ
とが可能であると共に、ディスプレイ等に表示すること
も可能である。
ること示すマーク(例えば、“E”)を付与し、当該マ
ークが切れたところで、テーブル(表1)に書き出すよ
うにしているが、この例に限定されることなく、例え
ば、マークが2回連続して付与されない場合のみテーブ
ルに書き出すようにし、マークの付与が1回だけ飛んだ
場合には、連続されているものとして、自動的にマーク
を付与し、βシートとなる残基が連続しているものとす
ることが可能である。なお、マークが連続して付与され
ない回数(“E”が付与されない回数)は任意である
が、あまり大きな数を設定すると精度が落ちることから
1回が妥当であると考えられる。
で取得したデータをメモリ内のワークエリアに格納する
例を示しているが、この例に限定されることなく、外部
的に接続されたファイルに格納するようにしてもよい。
このように、上記の実施例によれば、αヘリックス予測
及び従来困難であったβシートについて予測についても
簡単な記号処理により求めることで高い精度の蛋白質の
二次構造予測結果を取得することが可能となる。
白質、ALL−β蛋白質、α/β蛋白質、α+β蛋白
質)を配列データファイル230に投入し、これを構造
予測部100に入力するとにより、αヘリックス及びβ
シートの双方の二次構造予測を行うことが可能となる。
従って、蛋白質の種類を選ばず、配列データファイル2
30に格納するためのデータを生成するのみで、各種類
の蛋白質において共通して当該システムを使用すること
が可能である。
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
用のあるβシートの予測をαヘリックス及びβシートの
残基ペアを用いて、アミノ酸残基配列より蛋白質の二次
構造を予測する際に、αヘリックス予測の精度の向上に
加えてβシート予測精度の向上も図ることができる。こ
れにより、配列上離れた残基と相互作用のある立体構造
の周辺残基の構造の予測が可能である。従って、蛋白質
立体構造予測の可能性を大きく拡げることが可能である
ため、蛋白質に対する薬品開発等の分野において蛋白質
の立体構造を参考にして精度の高い研究が可能である。
オテクノロジーの分野等の蛋白質の立体構造を必要とす
る分野において、予め蛋白質の二次構造が予測されてい
るため、種々の実験精度が向上すると共に、残基の特定
等が可能となるため、新薬の開発や副作用の防止等広く
利用することが可能となる。
ある。
ある。
ートである。
ートである。
である。
ャートである。
示す図である。
を説明するための図である。
明するための図である。
明するための図である。
処理を説明するための図である。
図である。
Claims (12)
- 【請求項1】 蛋白質の特徴的な構造であるαヘリッス
やβシートの二次構造を予測するための蛋白質の二次構
造予測方法において、 入力されたアミノ酸残基配列に基づいてαヘリックスの
部分のみを予測し、 前記αヘリックスの部分の予測処理においてαヘリック
スと判定されなかったアミノ酸残基配列同士の全てのペ
アに対してβシートの部分の予測を行い、 前記αヘリックスの予測結果と前記βシートの予測結果
を併せて出力することを特徴とする蛋白質の二次構造予
測方法。 - 【請求項2】 前記αヘリックスの予測時において、 アミノ酸残基配列の前後数残基の種類により該残基がα
ヘリックスを形成するかを予め学習させ、 学習により取得した結果に基づいて予測対象となる入力
された前記アミノ酸残基配列がαヘリックスを形成する
かを判定し、 αヘリックスを形成すると判定された場合には、予測結
果としてマークを付与し、形成されないと判定された場
合には、当該アミノ酸残基はβシートの予測対象とする
請求項1記載の蛋白質の二次構造予測方法。 - 【請求項3】 前記αヘリックスを形成するか否かを判
定する際に、 所定の単位数分のアミノ酸残基が連続しているものにつ
いてはαヘリックスを形成すると判定する請求項2記載
の蛋白質の二次構造予測方法。 - 【請求項4】 前記αヘリックスを形成するか否かを判
定する際に基準となる単位数は4残基とする請求項3記
載の蛋白質の二次構造予測方法。 - 【請求項5】 前記βシートの予測時において、 前記αヘリックスの予想の処理において、αヘリックス
と予測されなかったアミノ酸残基同士の全てのペアに対
して、βシートの傾向性指数を調べ、 連続してβシート傾向性指数が閾値より高い残基配列部
分をβシートの候補とし、該候補より残基数の最も多い
残基配列部分をβシートとして予測する請求項1記載の
蛋白質の二次構造予測方法。 - 【請求項6】 βシート傾向性指数の高い残基配列部分
において、所定の残基以下の残基を飛ばして連続してい
る場合には連続している残基配列部分とする請求項5記
載の蛋白質の二次構造予測方法。 - 【請求項7】 前記蛋白質の特徴的な構造であるαヘリ
ッスやβシートの二次構造を予測するための蛋白質の二
次構造予測装置において、 入力されたアミノ酸残基配列に基づいてαヘリックスの
部分のみを予測するαヘリックス予測手段と、 前記αヘリックス予測手段においてαヘリックスと判定
されなかったアミノ酸残基配列同士の全てのペアに対し
てβシートの部分の予測を行うβシート予測手段と、 前記αヘリックス予測手段により求められた結果と前記
βシート予測手段により求められた結果を併せて出力す
る出力手段とを有することを特徴とする蛋白質の二次構
造予測装置。 - 【請求項8】 前記αヘリックス予測手段は、 アミノ酸残基配列の前後数残基の種類により該残基がα
ヘリックスを形成するかを予め学習する学習手段と、 前記学習手段により取得した結果に基づいて予測対象と
なる入力された前記アミノ酸残基配列がαヘリックスを
形成するかを判定する判定手段と、 前記判定手段によりαヘリックスを形成すると判定され
た場合には、予測結果としてマークを付与するマーク付
与手段と、 前記判定手段により形成されないと判定された場合に
は、当該アミノ酸残基はβシートの予測対象とするβシ
ート予測データ変換手段とを含む請求項7記載の蛋白質
の二次構造予測装置。 - 【請求項9】 前記判定手段は、 所定の単位数分のアミノ酸残基が連続しているものにつ
いてはαヘリックスを形成すると判定する請求項8記載
の蛋白質の二次構造予測装置。 - 【請求項10】 前記判定手段は、 前記αヘリックスを形成するか否かを判定する際に基準
となる単位数は4残基とする請求項9記載の蛋白質の二
次構造予測装置。 - 【請求項11】 前記βシート予測手段は、 前記αヘリックス予想手段において、αヘリックスと予
測されなかったアミノ酸残基同士の全てのペアに対し
て、βシートの傾向性指数を調べる傾向性指数取得手段
と、 連続してβシート傾向性指数が閾値より高い残基配列部
分をβシートの候補とする候補選択手段と、 前記候補選択手段により選択された候補より残基数の最
も多い残基配列部分をβシートとして予測する決定手段
を含む請求項7記載の蛋白質の二次構造予測装置。 - 【請求項12】 前記決定手段は、 βシート傾向性指数の高い残基配列部分において、所定
の残基以下の残基を飛ばして連続している場合には連続
している残基配列部分とする請求項11記載の蛋白質の
二次構造予測装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32091195A JP3585613B2 (ja) | 1995-12-08 | 1995-12-08 | 蛋白質の二次構造予測方法及び装置 |
US08/679,099 US5842151A (en) | 1995-12-08 | 1996-07-12 | Prediction method and apparatus for a secondary structure of protein |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32091195A JP3585613B2 (ja) | 1995-12-08 | 1995-12-08 | 蛋白質の二次構造予測方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09159666A true JPH09159666A (ja) | 1997-06-20 |
JP3585613B2 JP3585613B2 (ja) | 2004-11-04 |
Family
ID=18126650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32091195A Expired - Fee Related JP3585613B2 (ja) | 1995-12-08 | 1995-12-08 | 蛋白質の二次構造予測方法及び装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5842151A (ja) |
JP (1) | JP3585613B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100592086B1 (ko) * | 2004-07-16 | 2006-06-21 | 아주대학교산학협력단 | 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6941317B1 (en) | 1999-09-14 | 2005-09-06 | Eragen Biosciences, Inc. | Graphical user interface for display and analysis of biological sequence data |
US20030083821A1 (en) * | 2001-09-28 | 2003-05-01 | Hannah Eric C. | Fast secondary structure discovery method for protein folding |
JP4084040B2 (ja) * | 2001-12-27 | 2008-04-30 | セレスター・レキシコ・サイエンシズ株式会社 | 蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体 |
US6968275B1 (en) | 2002-02-22 | 2005-11-22 | Hewlett-Packard Development Company, L.P. | Pipelined digital circuit for determining the conformational energy of a folded protein |
US7983887B2 (en) | 2007-04-27 | 2011-07-19 | Ut-Battelle, Llc | Fast computational methods for predicting protein structure from primary amino acid sequence |
CN106960118B (zh) * | 2017-02-23 | 2021-03-19 | 邹长林 | α1-AR亚型蛋白的三维晶体结构模型及其建立方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01274067A (ja) * | 1988-04-26 | 1989-11-01 | Fuji Facom Corp | タンパク質二次構造シミュレーションシステム |
JPH0589074A (ja) * | 1991-09-30 | 1993-04-09 | Fujitsu Ltd | 二次構造予測装置 |
JPH0644323A (ja) * | 1992-07-22 | 1994-02-18 | Nec Corp | 蛋白質立体構造推定システム |
JPH0713959A (ja) * | 1992-05-18 | 1995-01-17 | Nec Corp | タンパク質立体構造予測方法 |
JPH0793286A (ja) * | 1993-09-20 | 1995-04-07 | Nec Corp | タンパク質立体構造予測方法 |
JPH08137826A (ja) * | 1994-11-09 | 1996-05-31 | Fujitsu Ltd | 2次構造予測装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5331573A (en) * | 1990-12-14 | 1994-07-19 | Balaji Vitukudi N | Method of design of compounds that mimic conformational features of selected peptides |
-
1995
- 1995-12-08 JP JP32091195A patent/JP3585613B2/ja not_active Expired - Fee Related
-
1996
- 1996-07-12 US US08/679,099 patent/US5842151A/en not_active Expired - Lifetime
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01274067A (ja) * | 1988-04-26 | 1989-11-01 | Fuji Facom Corp | タンパク質二次構造シミュレーションシステム |
JPH0589074A (ja) * | 1991-09-30 | 1993-04-09 | Fujitsu Ltd | 二次構造予測装置 |
JPH0713959A (ja) * | 1992-05-18 | 1995-01-17 | Nec Corp | タンパク質立体構造予測方法 |
JPH0644323A (ja) * | 1992-07-22 | 1994-02-18 | Nec Corp | 蛋白質立体構造推定システム |
JPH0793286A (ja) * | 1993-09-20 | 1995-04-07 | Nec Corp | タンパク質立体構造予測方法 |
JPH08137826A (ja) * | 1994-11-09 | 1996-05-31 | Fujitsu Ltd | 2次構造予測装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100592086B1 (ko) * | 2004-07-16 | 2006-06-21 | 아주대학교산학협력단 | 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP3585613B2 (ja) | 2004-11-04 |
US5842151A (en) | 1998-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Doolittle | Of URFs and ORFs: A primer on how to analyze derived amino acid sequences | |
Uberbacher et al. | Locating protein-coding regions in human DNA sequences by a multiple sensor-neural network approach. | |
US20190065677A1 (en) | Machine learning based antibody design | |
Helmer-Citterich et al. | PUZZLE: a new method for automated protein docking based on surface shape complementarity | |
Cserzo et al. | TM or not TM: transmembrane protein prediction with low false positive rate using DAS-TMfilter | |
KR102213670B1 (ko) | 약물-표적 상호 작용 예측을 위한 방법 | |
Granseth et al. | ZPRED: predicting the distance to the membrane center for residues in α-helical membrane proteins | |
CN112289370B (zh) | 一种蛋白质结构预测方法及装置 | |
KR20030043908A (ko) | 1 차 단백질 서열의 3 차원 단백질 구조 결정법 | |
US20230360734A1 (en) | Training protein structure prediction neural networks using reduced multiple sequence alignments | |
US20070016375A1 (en) | Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules | |
Schneider et al. | Blind testing of cross‐linking/mass spectrometry hybrid methods in CASP11 | |
Stultz et al. | Predicting protein structure with probabilistic models | |
JPH09159666A (ja) | 蛋白質の二次構造予測方法及び装置 | |
CN110531977B (zh) | 仪器的自动化控制方法、装置、计算机设备和存储介质 | |
US5680319A (en) | Hierarchical protein folding prediction | |
Kolinski et al. | A method for the prediction of surface “U”‐turns and transglobular connections in small proteins | |
Si et al. | Modeling Beta‐Traces for Beta‐Barrels from Cryo‐EM Density Maps | |
US5724252A (en) | System for prediction of protein side-chain conformation and method using same | |
CN114496065A (zh) | 蛋白质侧链结构预测装置、方法以及计算机可读介质 | |
CN111383721B (zh) | 预测模型的构建方法、多肽合成难度的预测方法及装置 | |
Ober et al. | Compensation for loss of ligand activity in surface plasmon resonance experiments | |
Brown et al. | A method for characterizing transition concertedness from polymer dynamics computer simulations | |
US20070136003A1 (en) | Method and system of verifying protein-protein interaction using protein homology relationship | |
JP3618497B2 (ja) | タンパク質の抗原決定基予測方法及びシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040804 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080813 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090813 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090813 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100813 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110813 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120813 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120813 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |