JP3585613B2 - 蛋白質の二次構造予測方法及び装置 - Google Patents
蛋白質の二次構造予測方法及び装置 Download PDFInfo
- Publication number
- JP3585613B2 JP3585613B2 JP32091195A JP32091195A JP3585613B2 JP 3585613 B2 JP3585613 B2 JP 3585613B2 JP 32091195 A JP32091195 A JP 32091195A JP 32091195 A JP32091195 A JP 32091195A JP 3585613 B2 JP3585613 B2 JP 3585613B2
- Authority
- JP
- Japan
- Prior art keywords
- helix
- sheet
- prediction
- residue
- amino acid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K1/00—General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Theoretical Computer Science (AREA)
- Hematology (AREA)
- Medicinal Chemistry (AREA)
- Urology & Nephrology (AREA)
- Immunology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biomedical Technology (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Software Systems (AREA)
- Microbiology (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Cell Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Food Science & Technology (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
Description
【発明の属する技術分野】
本発明は、蛋白質の二次構造予測方法及び装置に係り、特に、蛋白質の特徴的な構造であるαヘリックスやβシートと呼ばれる二次構造を予測するための蛋白質の二次構造予測方法及び装置に関する。
【0002】
蛋白質の二次構造を予測するということは、蛋白質の立体構造を知るこということであり、例えば、薬品開発等における蛋白質の分子配列である残基の配列において、どの部分に最も影響を与えれば薬品として有効であるか等を調査するための薬剤の分子と蛋白質の残基のドッキングシミュレーションを行う際に、蛋白質の立体構造を知ることは不可欠である。
【0003】
蛋白質は、蛋白質独自の特徴的な立体の螺旋構造を有し、この螺旋構造は、αヘリックスやβシートと呼ばれる二次構造からなっており、この二次構造が解明できれば、立体構造は略構築できるため、容易な蛋白質の二次構造予測処理を行って立体構造を解析する方法が望まれている。本発明は、蛋白質の立体構造を解析するための蛋白質の二次構造予測方法及び装置に関する。
【0004】
【従来の技術】
蛋白質研究の最重要課題の一つである蛋白質立体構造予測問題は、現在までに様々なアプローチにより多くの手法が研究されているが、未だに解答が得られない難解な問題である。もし、この問題が解決すれば、医療分野におけるX線やNMR(Nuclear Magnetic Resonance) 等で蛋白質立体構造を解析をする前に、ある程度の立体構造を知ることができる。
【0005】
蛋白質の二次構造予測は、アミノ酸残基配列から立体構造を直接予測するのではなく、図15に示すような特徴的な構造を予測し、そこから立体構造を求めようとするアプローチの最初のステップである。この二次構造がわかれば立体構造は略構築できるので、現在二次構造予測の精度がこのアプローチのボトルネックになっている。
【0006】
従来蛋白質の二次構造予測に関する研究は、1974年に発表された「Chou−Fasman 」法に始まり、現在までに様々な方法が試みられているが、現在、種々の実験による結果を用いて二次構造予測を行っている。
例えば、Kabsch−Sander の自動判別法は、立体構造(主鎖の)原子座標から残基間の水素結合の有無を求め、二次構造(310,α、πの各ヘリックス、βシート、3,4,5ターン)、さらに、S−S結合と呼ばれる位置を示す。この方法を用いる場合には、結晶解析データを調べる、グラフィクス等を用いて、PDBに記載されている登録者の定義した二次構造と比較したりして、定義された二次構造が妥当であるかをどうかを調査する必要がある。
【0007】
図16は、蛋白質の立体構造を示す。同図に示す立体構造は、X線やNMRを用いて実験を行い、X,Y,Zの3次元座標を求めることにより生成される。同図において、aは、蛋白質の残基(分子の単位)の結合であり、A〜Iはβシート中のβストランドを示す。このような構造において、全ての配列における周辺アミノ酸の情報からその二次構造を予測する。同図において、残基Fと残基Dにおいて、残基Dは、残基Fの立体周辺残基と呼ぶ。その結果、配列における周辺アミノ酸(配列上近くにある残基)との相互作用からその構造を形成すると考えられるαヘリックスbは、高精度で予測できる。
【0008】
βシートの構造予測は図17に示すような平面のシート(ねじれのない平面状の)に基づいて立体構造を組み立てる方法がある。βシートの予測時には、同図の矢印に示すように縦方向のアミノ酸残基のみの結合の関係を取得し、その相互関係により構造を予測する。
【0009】
【発明が解決しようとする課題】
しかしながら、従来の蛋白質の二次構造予測では、平均すると70%以下の精度しか得られていない。これは、すべて配列における周辺アミノ酸の情報からその二次構造を予測しているため、配列における周辺アミノ酸との相互作用からその構造を形成すると考えれるαヘリックスは、比較的高精度で予測できるが、配列上離れたアミノ酸残基と水素結合して構造形成するβシートの予測は、βシートが平面的に構成されているために、配列上の周辺の残基しかその関係を捕らえておらず、立体構造を有する蛋白質であってっもその立体構造上の周辺残基は捕らえていない。これは、βシートが平面のみで構成され、立体構造を持たないため、平面構造間の相互作用は捕らえることができるが、立体構造上の相互作用は捕らえることができない。このため、βシートの予測精度が50%〜60%と落ち込み、蛋白質二次構造予測全体の精度を落としている。
【0010】
αヘリックスに限れば、比較的近距離の性質で螺旋構造を取っているので、その予測精度は、80%を越えていることから、βシートの予測精度を改善できれば、蛋白質二次構造予測全体の精度を向上させるとができる。このように、αヘリックスのみが精度がよく、βシートの予測の精度が低いということは、ALL−α蛋白質以外の蛋白質ではβシートは存在するので、正確な予測をしているとは言えない。このため、二次構造予測時点で上記のような精度であると、立体構造を構築することができない。
【0011】
本発明は、上記の点に鑑みなされたもので、蛋白質の二次構造予測する場合に、βシートの予測精度を向上させ、蛋白質の二次構造の予測精度を上げることが可能な蛋白質の二次構造予測方法及び装置を提供することを目的とする。
更なる本発明の目的は、どのような蛋白質(ALL−α蛋白質、ALL−β、α/β蛋白質、α+β蛋白質)の種類にも適用できる汎用性のある蛋白質二次構造予測方法及び装置を提供することである。
【0012】
【課題を解決するための手段】
第1の発明は、蛋白質の特徴的な構造であるαヘリッスやβシートの二次構造を予測するための蛋白質の二次構造予測方法において、
入力されたアミノ酸残基配列に基づいてαヘリックスの部分のみを予測し、
αヘリックスの部分の予測処理においてαヘリックスと判定されなかったアミノ酸残基配列同士の全てのペアに対してβシートの部分の予測を行い、
αヘリックスの予測結果とβシートの予測結果を併せて出力する。
【0013】
第2の発明は、αヘリックスの予測時において、
アミノ酸残基配列の前後数残基の種類により該残基がαヘリックスを形成するかを予め学習させ、
学習により取得した結果に基づいて予測対象となる入力されたアミノ酸残基配列がαヘリックスを形成するかを判定し、
αヘリックスを形成すると判定された場合には、予測結果としてマークを付与し、形成されないと判定された場合には、当該アミノ酸残基はβシートの予測対象とする。
【0014】
第3の発明は、αヘリックスを形成するか否かを判定する際に、
所定の単位数分のアミノ酸残基が連続しているものについてはαヘリックスを形成すると判定する。
第4の発明は、αヘリックスを形成するか否かを判定する際に基準となる単位数は4残基とする。
【0015】
第5の発明は、βシートの予測時において、
αヘリックスの予測の処理において、αヘリックスと予測されなかったアミノ酸残基同士の全てのペアに対して、βシートの傾向性指数を調べ、
連続してβシート傾向性指数が閾値より高い残基配列部分をβシートの候補とし、該候補より残基数の最も多い残基配列部分をβシートとして予測する。
【0016】
第6の発明は、βシート傾向性指数の高い残基配列部分において、所定の残基以下の残基を飛ばして連続している場合には連続している残基配列部分とする。第7の発明は、蛋白質の特徴的な構造であるαヘリッスやβシートの二次構造を予測するための蛋白質の二次構造予測装置において、
入力されたアミノ酸残基配列に基づいてαヘリックスの部分のみを予測するαヘリックス予測手段と、
αヘリックス予測手段においてαヘリックスと判定されなかったアミノ酸残基配列同士の全てのペアに対してβシートの部分の予測を行うβシート予測手段と、
αヘリックス予測手段により求められた結果とβシート予測手段により求められた結果を併せて出力する出力手段とを有する。
【0017】
また、上記のαヘリックス予測手段は、
アミノ酸残基配列の前後数残基の種類により該残基がαヘリックスを形成するかを予め学習する学習手段と、
学習手段により取得した結果に基づいて予測対象となる入力されたアミノ酸残基配列がαヘリックスを形成するかを判定する判定手段と、
判定手段によりαヘリックスを形成すると判定された場合には、予測結果としてマークを付与するマーク付与手段と、
判定手段により形成されないと判定された場合には、当該アミノ酸残基はβシートの予測対象とするβシート予測データ変換手段とを含む。
【0018】
また、上記の判定手段は、所定の単位数分のアミノ酸残基が連続しているものについてはαヘリックスを形成すると判定する。
また、上記の判定手段は、αヘリックスを形成するか否かを判定する際に基準となる単位数は4残基とする。
【0019】
また、上記のβシート予測手段は、αヘリックス予想手段において、αヘリックスと予測されなかったアミノ酸残基同士の全てのペアに対して、βシートの傾向性指数を調べる傾向性指数取得手段と、
連続してβシート傾向性指数が閾値より高い残基配列部分をβシートの候補とする候補選択手段と、
候補選択手段により選択された候補より残基数の最も多い残基配列部分をβシートとして予測する決定手段を含む。
【0020】
また、上記の決定手段は、βシート傾向性指数の高い残基配列部分において、所定の残基以下の残基を飛ばして連続している場合には連続している残基配列部分とする。
上記の第1の発明においては、従来略精度がよいとされていたαヘリックスの予測処理においてαヘリックスと判定されなかった残基をβシート予測処理用の残基としてβシート予測処理に利用して、βシートの予測を行うことにより、一連の配列データ(アミノ酸残基配列)からある残基がαヘリックスかβシートかの判定を行うことなく、自動的に、βシートの候補となる残基であることが分かり、βシートの予測精度を上げることができる。
【0021】
第2の発明は、αヘリックス予測処理時に、予め学習により取得したデータを用いて残基の配列位置によるαヘリックス形成指数を取得し、当該指数値によりαヘリックスを形成するか否かの判定を容易に行うことが可能である。
第3の発明は、蛋白質を構成する単位(αヘリックスを形成する単位)とαヘリックス残基の連続量を比較して、αヘリックス形成に与える影響が強い残基列を抽出することができる。
【0022】
第4の発明は、蛋白質を構成する1つの単位を4残基とすることにより、正確な単位でαヘリックス予測を行うことが可能である。
第5の発明は、βシートの予測時にαヘリックス予測時にαヘリックスを形成しない残基のうち、βシートの傾向性指数が高い残基をβシートの候補列に追加していき、残基数の最も多い残基配列部分をβシートとして予測している。これにより単にαヘリックスを形成しない残基のみでβシートを形成するという判定ではないため、精度の高いβシート予測が可能である。
【0023】
第6の発明は、上記の第5の発明において最も残基数の多い残基配列部分を抽出する際に、所定の数の残基(例えば1残基)を飛ばして残基配列を構成している配列については連続しているものと見做すことにより、与えられたβシートを求めるためのパラメータにばらつきや多少のエラーが含まれている場合であってもこれを補った結果を取得することができる。
【0024】
【発明の実施の形態】
蛋白質の二次構造予測は、βシートの予測法として、βシートを構成しているアミノ酸残基ペア(さらに、そのペア残基の周辺残基)の情報に基づいて予測する必要がある。そこで、最初にαヘリックス部分の予測を行い、残りの領域のアミノ酸残基ペアについてもβシート形成の傾向性指数を計算し、蛋白質二次構造の予測を行うものとする。
【0025】
図1は、本発明のシステム構成図である。
同図に示す二次構造予測システムは、構造予測部100、αパラメータファイル210、βパラメータファイル220、配列ファイル230、結果ファイル240、及び入出力部250より構成される。
【0026】
αパラメータファイル210は、図2に示すように、アミノ酸残基毎にその傾向性を“0”を中心とする−6〜+6までの配列位置でのαヘリックスの傾向性データが格納されている。ここで、“−”はN末端末側、“+”はC末端側を示す。βパラメータファイル220は、図3に示すように、アミノ酸残基毎に結合する傾向性を示す値を表した構造であり、縦軸には、蛋白質のN末端側の残基を示し、横軸にはC末端側の残基が示されている。末端とは、残基配列のNH2 基側とカルボキシル基側の末端を示す。
【0027】
配列ファイル230は図4に示すようにアミノ酸残基の配列データを保持する。結果ファイル240は、図5に示すように、構造予測部100により求められたαヘリックス予測結果とβシート予測結果を結合したデータを格納する。
構造予測部100は、αヘリックス予測部110、βシート予測部120、及び予測結果結合部130より構成される。
【0028】
αヘリックス予測部110は、配列ファイル230の蛋白質の残基配列データと、αパラメータファイル210を読み込んで、N末端側から残基配列データの各々についてαパラメータファイル210のデータとの突き合わせを行う。具体的には残基配列データが中心となる残基からいくつ後の位置(+)にあるか、または、いくつ前の位置(−)にあるかによってαパラメータファイル210を検索し、その位置におけるその残基種に対応するαヘリックスの形成指数の値を取得する。−6〜+6までのそれらを用い、ニューラルネットワークで計算した値がその中心残基のαヘリックス形成指数の値となり、そこで、αヘリックスの形成指数の値が所定の値より高い残基を抽出する。次に、アミノ酸残基配が4残基連続しているものをαヘリックスを形成する残基列と判定し、αヘリックスの予測結果とする。残基の連続数が3残基以下の残基は、βシートの残基であるとしてβシート予測部120に転送する。
【0029】
βシート予測部120は、αヘリックス予測部110より取得した残基について、βパラメータファイル220を読み込んで、各残基毎に総当たりで傾向指数を調べる。例えば、図3の例において、『A,N,I,V…』があるとき、“A”と“N”の傾向指数は「0.2」であり、“A”と“I”の傾向指数は「1.2」であり、“A”と“V”の傾向指数は「1.4」であることがわかる。ここで、βシートを抽出するための所定の値を“1.0”としたとき、抽出されるβシートは、“A”と“I”のペア、“A”と“V”のペアとなる。このようにして抽出された残基に対してマーク(例えば“E”)を付与するこの場合には“△EE”となる。△は、最初の“A”と“N”のペアは傾向指数が所定の値より低いためマーキングされない。このようにマーキングされない残基ペアがあると、マークが途切れることになる。次にβシート予測部120は、連続マーク数の多い順からソートして、最長となる残基列をβシートとして予測する。
【0030】
予測結果結合部130は、αヘリックス予測部110の予測結果と、βシート予測部120の予測結果をマージして、結果ファイル240に出力する。
図6は、本発明の構造予測部の動作のフローチャートである。
ステップ100) 入出力部250は、構造予測部100において使用するファイルとして、配列ファイル230と結果ファイル240のファイル名を指定する。
【0031】
ステップ200) 構造予測部100は、配列ファイル230を読み込んで、アミノ酸残基の配列データを読み込む。
ステップ300) 構造予測部100のαヘリックス予測部110は、αパラメータファイル210を読み込んで、配列ファイル230の配列データに基づいてαヘリックスの予測を行う。αヘリックスの予測には、X線やNMRで取得している値を教師信号として、ニューラルネットワーク(バックプロパゲーション)により得られた結果をαパラメータファイル210のデータとして、アミノ酸残基配列(SEQUENCE.)からαヘリックス部分のみを予測する(詳細は後述する)。
【0032】
ステップ400) 構造予測部100のβシート予測部120は、βパラメータファイル220を読み込んでβシートの予測を行う。詳細は、後述する。
ステップ500) 構造予測部100の予測結果結合部130は、上記のステップ300とステップ400により取得できたαヘリックス予測結果とβシート予測結果の結合を行い、二次構造予測結果を構築する。
【0033】
ステップ600) 構造予測部100の予測結果結合部130は、ステップ500において取得した二次構造予測結果を結果ファイル240に出力する。
上記のステップ300におけるαヘリックス予測の動作を説明する。図7は、本発明のαヘリックス予測動作のフローチャートである。
【0034】
ステップ301) 構造予測部100のαヘリックス予測部110は、αパラメータファイル210を読み込む。
ステップ302) 配列ファイル230の個々の配列データであるアミノ酸残基の順番を示すカウントi=1とする。
【0035】
ステップ303) 配列ファイル230のデータであるi番目のアミノ酸残基がαヘリックスを形成するかをαパラメータファイル210のαヘリックス形成指数値を計算し、別領域(ワークエリア)に格納しておく。αヘリックス形成指数の求め方は、αパラメータファイル210から配列データi番目の残基が中心となるアミノ酸残基からどれだけ離れた位置にあるかを“+”、“−”に沿って検索し、所得した値を用い、ニューラルネットワークで計算した値がαヘリックス形成指数値である。
【0036】
ステップ304) ここでステップ303により求められた値によりαヘリックスを形成するか否かを判定する。判定方法は、αヘリックス形成指数値が所定の値より高い残基に対してマークを付与する(例えば“H”)。αヘリックスを形成しない場合(マークが付与されない)には、ステップ306に移行し、形成する場合には次ステップに移行する。
【0037】
ステップ305) ステップ304においてマークが付与された残基をワークエリアのヘリックス行(HELIXPR.)のi番目のアミノ酸残基の位置にαヘリックスを表すマーク(例えば“H”)を記載する。
ステップ306) 配列ファイル230のデータのカウントをインクリメントする(i=i+1)。
【0038】
ステップ307) 配列ファイル230のデータのカウントが全配列の長さ(nres(図4の例の場合には198となる))より大きい場合(全てのαヘリックスの調査が終了)には、ステップ308に移行し、そうでない場合には、ステップ303に移行する。
【0039】
ステップ308) ワークエリアに格納されている“H”が所定数分連続していない部分を検索し、その部分をヘリックスが形成されてないと判定し、“H”を消去する。
ステップ309) αヘリックスと予測されなかったアミノ酸残基を別領域(ワークエリア)に書き出し、その数をn1とする。この値は、αヘリックスではなく、βシートとなるため、βシートの予測時に使用される。
【0040】
ステップ310) αヘリックスと予測された残基(“H”が付与されている残基)を保持する。
図8は、本発明のβシートの予測動作のフローチャートである。
ステップ401) 構造予測部100は、前述のステップ309において非αヘリックスと判定された残基が格納されているワークエリアの内容を読み出すと共に、βパラメータファイル220を読み込む。このとき、読み出したステップ309により生成されたワークエリアに格納されている残基数をn1とする
ステップ402) 基準値i=1、iから何番目を表すかを示すjを1とする。以下のβシートの予測において、残基iと残基jからなる残基ペアについて処理を行う。
【0041】
ステップ403) i番目とj番目のアミノ酸残基(残基ペア(i,j))がβシートを形成するか否かをβパラメータファイル220より判定する。判定の方法は、残基iと残基jにおいて残基iをN末とし残基jをC末とした時、(i,j)の傾向性指数をβパラメータファイル220で交差する位置より取得する。図3に示す例において、残基i=“G”、残基j=“R”とした場合の傾向性指数は、「0.3」となる。
【0042】
ステップ404) ここで、ステップ403で取得した傾向性指数が所定の閾値(th=1.0)を越える場合には、βシートを形成すると判定し、ステップ405に移行し、形成しない場合にはステップ406に移行する。
ステップ405) βシートが連続した場合、それが途切れるまで、当該βッシートをワークエリアに結果を格納する。
【0043】
ステップ406) βシートを形成しない場合において、ワークエリアに予測結果が格納されていれば、表1に示す予測結果テーブルに保存する。
【0044】
【表1】
【0045】
ステップ407) jのカウントをインクリメントする(j=j+1)。
ステップ408) jがワークエリアのn1の値より大きければステップ409に移行し、そうでない場合には、ステップ403に移行する。
ステップ409) iのカウントをインクリメントする(i=i+1)。
【0046】
ステップ410) iがワークエリアのn1より大きければステップ411に移行し、そうでなければステップ403に移行する。
ステップ411) 予測結果のテーブルを連続するβシート数(Eのカウント)が大きい順に並び変え、その順番に“SHEETPR ”行のアミノ酸残基の位置にマークとして“E ”を記す。上記の表1の例では、位置番号が“2”→“3”→“1”→“4”の順にソートされる。
【0047】
上記の動作に示すように、βシートの傾向指数を総当たりで調べて、所定の閾値より大きい場合のみ、βシートであることを示す“E”を上記ワークエリアに格納しておき、ここで、マーク“E”の並びが途切れたところで上記の表1に示すテーブルに転記し、マーク“E”の並びの数の順にソートする。
【0048】
図9は、本発明の二次構造予測結果生成処理のフローチャートである。
ステップ501) カウントiの値を1とする。
ステップ502) ワークエリアの“HELIXPR”行のi番目のアミノ酸残基の位置に“H”と表記されていれば“FINALPR”行に“H”を記す。
【0049】
ステップ503) ワークエリアの“SHEETPR”のi番目にアミノ酸残基の位置に“E”と表記されていたら“FINALPR”行に“E”と記す。
ステップ504) カウントiをインクリメントする。
ステップ505) カウントiが全アミノ酸残基列の個数より大きければ処理を終了し、小さければステップ502に移行する。
【0050】
これにより、図5に示す予測結果が取得できる。なお、図5において、“SUMMARY..”の記載は、X線やNMRによる実験結果であり模範的な値を示しているが、参考のために記述しているために必ずしも必要としない。
【0051】
【実施例】
以下に、本発明の実施例を図面と共に説明する。
最初に、αヘリックスの予測について、前述の図2に示すαパラメータファイルの例、図4に示す配列ファイルの例、及び図7に示すαヘリック予測動作のフローチャートに基づいて説明する。αヘリックスを求める場合には、ニューラルネットワークを用いて、アミノ酸残基配列(SEQUENCE.)より、αヘリックス部分(HELIXPR..) だけを予測する。
【0052】
αヘリックスの予測は、図10に示すように、アミノ酸残基の前後数残基の種類によって、その残基がαヘリックスを形成するかどうかをニューラルネットワークに予め学習させておき、予測するアミノ酸配列に対して学習で得られた結果(配列パターン毎のαヘリックス形成指数(図2))に基づいて与えられた配列を用いて入力された残基配列データがαヘリックスを形成するか否かを判定する。図10に示す
“T,A,G,W,N,V,P,I,G,T,L,R,P”
というアミノ酸残基の配列データが入力されると、図2のαパラメータの値に基づいてニューラルネットワークを用いて計算することにより中心残基のαヘリックス形成指数を取得する。この例では、“P”が最もαヘリックス形成指数に影響を与え、次に、“V”,“I”、次に“N”という順に、中心となるアミノ酸残基“P”の位置からどれだけ離れているかによって、中心残基のαヘリックス形成指数への影響が変化する(ステップ303)。
【0053】
このαヘリックス形成指数の値が所定の値(例えば、0.0)より高い場合には、αヘリックスを形成すると判定する(ステップ304)。ここで、αヘリックスが形成されると判定されると、図11のワークエリア内の“HELIXPR..”の行に、マーク“H”が付与される。同図の例では、アミノ酸残基配列(SEQUENCE.)の行のうち、
“S,N,P,E,A,T,K,C,F,W,Q,R,N,M,R,K,C,I,Q,A,I,A,…”
にマーク“H”が付与されている(ステップ305)。
【0054】
次に、マーク“H”が1単位分(4残基)連続するか判断する。この例では、
“S,N,P,E,A,T,K,C,F”
が連続し、
“W,Q,R,N,M,R,K”
において連続し、“C,I,Q,A,I,A”で連続する。ここで、4残基が連続しないアミノ酸残基の列については、マーク“H”を消去し(ステップ309)、消去されたアミノ酸残基をワークエリアに格納すると共に、そのカウントをn1=5とし、格納する(ステップ310)。
【0055】
次に、βシートの予測処理について説明する。
αヘリックス予測において、αヘリックスと予測されなかったアミノ酸残基同士の全てのペアに対して図3に示すβシートのパラメータファイルの値を用いて図12に示すようにβシートの傾向性を調べる。図12の例において、アミノ酸残基“V”と“I”の傾向性は、「2.8」であり、“Q”と“C”の傾向性は「1.5」であることを示す。図12に示す“SHEETPR.”行は、βシート予測結果であり、その他の表記は、αヘリックス部分の予測と同様である。図12に示す点線と実線の部分の残基ペアのβシート傾向指数8を総当たり法により調べていることを示しており、実線の部分は、βシート傾向性指数が高いペアを示している。その結果として、残基配列“VQWC”や“VQCI”がβシートを形成すると予測され、“SHEETPR.”行にマーク“E”が表記される。
【0056】
実際には、これらの処理をαヘリックスと予測されなかった残基ペア全てに対して行い、βシート傾向性指数が閾値より高いペアを探し出す。次にそれらの中から2残基以上連続している残基配列ペアをβシートの候補として選択する。その際、1残基(Q,S)飛ばしてβシート傾向指数が閾値より高いペアが続く場合には、図13に示すように、連続しているものと見做す。図13において、太線はβシート傾向指数が閾値より高いペアを示し、細線は閾値より低いペアを示し、点線は連続しなかった残基ペアを示す。
【0057】
最後に、二次構造予測結果の出力処理について説明する。
図14は、本発明の一実施例の二次構造予測結果の出力処理を説明するための図である。
図11に示すαヘリックスの予測結果と、図12に示すβシートの予測結果とを重ねたものを最終的に二次構造予測結果(FINALKPR..)とする。図14は、“HELIIXPR..”行を“FINALPR.”行にコピーした後に、“SHEETPR.”行を重ねた例である。
【0058】
なお、図11、図12、図14において、“SUMMARY..”と記載されているのは、X線やNMR等により求められている結果を示している。つまり、このSUMMARYに近い値が求めることができれば理想的である。
構造予測部100の予測結果結合部130は、上記で得られた予測結果を結果ファイル240に格納し、利用者が必要に応じて読み出して利用することが可能であると共に、ディスプレイ等に表示することも可能である。
【0059】
なお、βシートの予測時に、βシートであること示すマーク(例えば、“E”)を付与し、当該マークが切れたところで、テーブル(表1)に書き出すようにしているが、この例に限定されることなく、例えば、マークが2回連続して付与されない場合のみテーブルに書き出すようにし、マークの付与が1回だけ飛んだ場合には、連続されているものとして、自動的にマークを付与し、βシートとなる残基が連続しているものとすることが可能である。なお、マークが連続して付与されない回数(“E”が付与されない回数)は任意であるが、あまり大きな数を設定すると精度が落ちることから1回が妥当であると考えられる。
【0060】
なお、上記の実施例において予測処理途中で取得したデータをメモリ内のワークエリアに格納する例を示しているが、この例に限定されることなく、外部的に接続されたファイルに格納するようにしてもよい。
このように、上記の実施例によれば、αヘリックス予測及び従来困難であったβシートについて予測についても簡単な記号処理により求めることで高い精度の蛋白質の二次構造予測結果を取得することが可能となる。
【0061】
これにより、種々の蛋白質(ALL−α蛋白質、ALL−β蛋白質、α/β蛋白質、α+β蛋白質)を配列データファイル230に投入し、これを構造予測部100に入力するとにより、αヘリックス及びβシートの双方の二次構造予測を行うことが可能となる。従って、蛋白質の種類を選ばず、配列データファイル230に格納するためのデータを生成するのみで、各種類の蛋白質において共通して当該システムを使用することが可能である。
【0062】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。
【0063】
【発明の効果】
本発明では、配列上離れた残基と相互作用のあるβシートの予測をαヘリックス及びβシートの残基ペアを用いて、アミノ酸残基配列より蛋白質の二次構造を予測する際に、αヘリックス予測の精度の向上に加えてβシート予測精度の向上も図ることができる。これにより、配列上離れた残基と相互作用のある立体構造の周辺残基の構造の予測が可能である。従って、蛋白質立体構造予測の可能性を大きく拡げることが可能であるため、蛋白質に対する薬品開発等の分野において蛋白質の立体構造を参考にして精度の高い研究が可能である。
【0064】
これにより、本発明では、医療分野やバイオテクノロジーの分野等の蛋白質の立体構造を必要とする分野において、予め蛋白質の二次構造が予測されているため、種々の実験精度が向上すると共に、残基の特定等が可能となるため、新薬の開発や副作用の防止等広く利用することが可能となる。
【図面の簡単な説明】
【図1】本発明のシステム構成図である。
【図2】本発明のαパラメータファイルの例を示す図である。
【図3】本発明のβパラメータファイルの例を示す図である。
【図4】本発明の配列ファイルの例を示す図である。
【図5】本発明の結果ファイルの例を示す図である。
【図6】本発明の構造予測部の動作の概要のフローチャートである。
【図7】本発明のαヘリックスの予測動作のフローチャートである。
【図8】本発明のβシートの予測動作のフローチャートである。
【図9】本発明の二次構造予測結果生成処理のフローチャートである。
【図10】本発明の一実施例のαヘリックスの傾向性を示す図である。
【図11】本発明の一実施例のαヘリックスの予測処理を説明するための図である。
【図12】本発明の一実施例のβシートの予測処理を説明するための図である。
【図13】本発明の一実施例のβシート候補の選出を説明するための図である。
【図14】本発明の一実施例の二次構造予測結果の出力処理を説明するための図である。
【図15】蛋白質(フラボドキシン)の立体構造を示す図である。
【図16】蛋白質の立体構造を示す図である。
【図17】βシートの構造を示す図である。
【符号の説明】
100 構造予測部
110 αヘリックス予測部
120 βシート予測部
130 予測結果結合部
210 αパラメータファイル
220 βパラメータファイル
230 配列ファイル
240 結果ファイル
250 入出力部
Claims (12)
- 蛋白質の特徴的な構造であるαヘリッスやβシートの二次構造を予測するための蛋白質の二次構造予測方法において、
入力されたアミノ酸残基配列に基づいてαヘリックスの部分のみを予測し、
前記αヘリックスの部分の予測処理においてαヘリックスと判定されなかったアミノ酸残基配列同士の全てのペアに対してβシートの部分の予測を行い、
前記αヘリックスの予測結果と前記βシートの予測結果を併せて出力することを特徴とする蛋白質の二次構造予測方法。 - 前記αヘリックスの予測時において、
アミノ酸残基配列の前後数残基の種類により該残基がαヘリックスを形成するかを予め学習させ、
学習により取得した結果に基づいて予測対象となる入力された前記アミノ酸残基配列がαヘリックスを形成するかを判定し、
αヘリックスを形成すると判定された場合には、予測結果としてマークを付与し、形成されないと判定された場合には、当該アミノ酸残基はβシートの予測対象とする請求項1記載の蛋白質の二次構造予測方法。 - 前記αヘリックスを形成するか否かを判定する際に、
所定の単位数分のアミノ酸残基が連続しているものについてはαヘリックスを形成すると判定する請求項2記載の蛋白質の二次構造予測方法。 - 前記αヘリックスを形成するか否かを判定する際に基準となる単位数は4残基とする請求項3記載の蛋白質の二次構造予測方法。
- 前記βシートの予測時において、
前記αヘリックスの予想の処理において、αヘリックスと予測されなかったアミノ酸残基同士の全てのペアに対して、βシートの傾向性指数を調べ、
連続してβシート傾向性指数が閾値より高い残基配列部分をβシートの候補とし、該候補より残基数の最も多い残基配列部分をβシートとして予測する請求項1記載の蛋白質の二次構造予測方法。 - βシート傾向性指数の高い残基配列部分において、所定の残基以下の残基を飛ばして連続している場合には連続している残基配列部分とする請求項5記載の蛋白質の二次構造予測方法。
- 前記蛋白質の特徴的な構造であるαヘリッスやβシートの二次構造を予測するための蛋白質の二次構造予測装置において、
入力されたアミノ酸残基配列に基づいてαヘリックスの部分のみを予測するαヘリックス予測手段と、
前記αヘリックス予測手段においてαヘリックスと判定されなかったアミノ酸残基配列同士の全てのペアに対してβシートの部分の予測を行うβシート予測手段と、
前記αヘリックス予測手段により求められた結果と前記βシート予測手段により求められた結果を併せて出力する出力手段とを有することを特徴とする蛋白質の二次構造予測装置。 - 前記αヘリックス予測手段は、
アミノ酸残基配列の前後数残基の種類により該残基がαヘリックスを形成するかを予め学習する学習手段と、
前記学習手段により取得した結果に基づいて予測対象となる入力された前記アミノ酸残基配列がαヘリックスを形成するかを判定する判定手段と、
前記判定手段によりαヘリックスを形成すると判定された場合には、予測結果としてマークを付与するマーク付与手段と、
前記判定手段により形成されないと判定された場合には、当該アミノ酸残基はβシートの予測対象とするβシート予測データ変換手段とを含む請求項7記載の蛋白質の二次構造予測装置。 - 前記判定手段は、
所定の単位数分のアミノ酸残基が連続しているものについてはαヘリックスを形成すると判定する請求項8記載の蛋白質の二次構造予測装置。 - 前記判定手段は、
前記αヘリックスを形成するか否かを判定する際に基準となる単位数は4残基とする請求項9記載の蛋白質の二次構造予測装置。 - 前記βシート予測手段は、
前記αヘリックス予想手段において、αヘリックスと予測されなかったアミノ酸残基同士の全てのペアに対して、βシートの傾向性指数を調べる傾向性指数取得手段と、
連続してβシート傾向性指数が閾値より高い残基配列部分をβシートの候補とする候補選択手段と、
前記候補選択手段により選択された候補より残基数の最も多い残基配列部分をβシートとして予測する決定手段を含む請求項7記載の蛋白質の二次構造予測装置。 - 前記決定手段は、
βシート傾向性指数の高い残基配列部分において、所定の残基以下の残基を飛ばして連続している場合には連続している残基配列部分とする請求項11記載の蛋白質の二次構造予測装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32091195A JP3585613B2 (ja) | 1995-12-08 | 1995-12-08 | 蛋白質の二次構造予測方法及び装置 |
US08/679,099 US5842151A (en) | 1995-12-08 | 1996-07-12 | Prediction method and apparatus for a secondary structure of protein |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32091195A JP3585613B2 (ja) | 1995-12-08 | 1995-12-08 | 蛋白質の二次構造予測方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09159666A JPH09159666A (ja) | 1997-06-20 |
JP3585613B2 true JP3585613B2 (ja) | 2004-11-04 |
Family
ID=18126650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32091195A Expired - Fee Related JP3585613B2 (ja) | 1995-12-08 | 1995-12-08 | 蛋白質の二次構造予測方法及び装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5842151A (ja) |
JP (1) | JP3585613B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6941317B1 (en) | 1999-09-14 | 2005-09-06 | Eragen Biosciences, Inc. | Graphical user interface for display and analysis of biological sequence data |
US20030083821A1 (en) * | 2001-09-28 | 2003-05-01 | Hannah Eric C. | Fast secondary structure discovery method for protein folding |
JP4084040B2 (ja) * | 2001-12-27 | 2008-04-30 | セレスター・レキシコ・サイエンシズ株式会社 | 蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体 |
US6968275B1 (en) | 2002-02-22 | 2005-11-22 | Hewlett-Packard Development Company, L.P. | Pipelined digital circuit for determining the conformational energy of a folded protein |
KR100592086B1 (ko) * | 2004-07-16 | 2006-06-21 | 아주대학교산학협력단 | 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법 |
US7983887B2 (en) | 2007-04-27 | 2011-07-19 | Ut-Battelle, Llc | Fast computational methods for predicting protein structure from primary amino acid sequence |
CN106960118B (zh) * | 2017-02-23 | 2021-03-19 | 邹长林 | α1-AR亚型蛋白的三维晶体结构模型及其建立方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2679765B2 (ja) * | 1988-04-26 | 1997-11-19 | 富士ファコム制御株式会社 | タンパク質二次構造シミュレーションシステム |
US5331573A (en) * | 1990-12-14 | 1994-07-19 | Balaji Vitukudi N | Method of design of compounds that mimic conformational features of selected peptides |
JPH0589074A (ja) * | 1991-09-30 | 1993-04-09 | Fujitsu Ltd | 二次構造予測装置 |
JP2551297B2 (ja) * | 1992-05-18 | 1996-11-06 | 日本電気株式会社 | タンパク質立体構造予測方法 |
JPH0644323A (ja) * | 1992-07-22 | 1994-02-18 | Nec Corp | 蛋白質立体構造推定システム |
JP2658823B2 (ja) * | 1993-09-20 | 1997-09-30 | 日本電気株式会社 | タンパク質立体構造予測方法 |
JPH08137826A (ja) * | 1994-11-09 | 1996-05-31 | Fujitsu Ltd | 2次構造予測装置 |
-
1995
- 1995-12-08 JP JP32091195A patent/JP3585613B2/ja not_active Expired - Fee Related
-
1996
- 1996-07-12 US US08/679,099 patent/US5842151A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH09159666A (ja) | 1997-06-20 |
US5842151A (en) | 1998-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Doolittle | Of URFs and ORFs: A primer on how to analyze derived amino acid sequences | |
Viklund et al. | Structural classification and prediction of reentrant regions in α-helical transmembrane proteins: application to complete genomes | |
Westhead et al. | Protein structural topology: Automated analysis and diagrammatic representation | |
CN109671469B (zh) | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 | |
KR102213670B1 (ko) | 약물-표적 상호 작용 예측을 위한 방법 | |
Granseth et al. | ZPRED: predicting the distance to the membrane center for residues in α-helical membrane proteins | |
Gracy et al. | Automated protein sequence database classification. II. Delineation Of domain boundaries from sequence similarities. | |
JP3585613B2 (ja) | 蛋白質の二次構造予測方法及び装置 | |
KR20030043908A (ko) | 1 차 단백질 서열의 3 차원 단백질 구조 결정법 | |
CN114446389B (zh) | 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用 | |
Zobayer et al. | A combined view of B-cell epitope features in antigens | |
US5680319A (en) | Hierarchical protein folding prediction | |
CN111710360B (zh) | 一种预测蛋白质序列的方法、系统、装置及介质 | |
US20020072863A1 (en) | Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules | |
US20230298692A1 (en) | Method, System and Computer Program Product for Determining Presentation Likelihoods of Neoantigens | |
Greenshields-Watson et al. | Investigating the ability of deep learning-based structure prediction to extrapolate and/or enrich the set of antibody CDR canonical forms | |
Jin et al. | Structure from function: screening structural models with functional data. | |
CN116635950A (zh) | 样本定量分析的改进或与样本定量分析相关的改进 | |
JPH09171017A (ja) | タンパク質の抗原決定基予測システム | |
Parker Cates et al. | EPIphany—A platform for analysis and visualization of peptide immunoarray data | |
US20070021925A1 (en) | Method and apparatus for searching for protein amphiphilic secondary structure region | |
EP1098257A2 (en) | Structural local alignment method using a double dynamic programming algorithm | |
Paladin | Computational characterization of tandem repeat and non-globular proteins | |
Pisitkun et al. | Integrated design of antibodies for systems biology using Ab Designer | |
WO1992001933A1 (en) | Generation of a complete set of structural coordinates of a molecule from a set of partial coordinates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040804 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080813 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090813 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090813 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100813 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110813 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120813 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120813 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |