JP2551297B2 - Protein three-dimensional structure prediction method - Google Patents
Protein three-dimensional structure prediction methodInfo
- Publication number
- JP2551297B2 JP2551297B2 JP12481792A JP12481792A JP2551297B2 JP 2551297 B2 JP2551297 B2 JP 2551297B2 JP 12481792 A JP12481792 A JP 12481792A JP 12481792 A JP12481792 A JP 12481792A JP 2551297 B2 JP2551297 B2 JP 2551297B2
- Authority
- JP
- Japan
- Prior art keywords
- protein
- rule
- region
- learning
- probabilistic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 102000004169 proteins and genes Human genes 0.000 title claims description 53
- 108090000623 proteins and genes Proteins 0.000 title claims description 53
- 238000000034 method Methods 0.000 title claims description 36
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 24
- 230000000694 effects Effects 0.000 claims description 14
- 150000001413 amino acids Chemical class 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000013075 data extraction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 108091005904 Hemoglobin subunit beta Proteins 0.000 description 2
- 102100021519 Hemoglobin subunit beta Human genes 0.000 description 2
- 108010054147 Hemoglobins Proteins 0.000 description 2
- 102000001554 Hemoglobins Human genes 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 102000009027 Albumins Human genes 0.000 description 1
- 108010088751 Albumins Proteins 0.000 description 1
- 101000899111 Homo sapiens Hemoglobin subunit beta Proteins 0.000 description 1
- 241000282577 Pan troglodytes Species 0.000 description 1
- 229940096437 Protein S Drugs 0.000 description 1
- 235000018734 Sambucus australis Nutrition 0.000 description 1
- 244000180577 Sambucus australis Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【0001】[0001]
【産業上の利用分野】本発明は、構造未知のタンパク質
アミノ酸配列から、そのタンパク質の立体構造を予測す
る方法に関する。TECHNICAL FIELD The present invention relates to a method for predicting the tertiary structure of a protein from the amino acid sequence of the protein of unknown structure.
【0002】[0002]
【従来の技術】タンパク質のアミノ酸配列情報を用い
て、そのタンパク質内の立体構造を予測する問題の一つ
として、タンパク質二次構造予測問題がある。二次構造
とは、αヘリックスやβシートといったタンパク質内部
でのまとまりのある構造を指し、二次構造予測問題は、
タンパク質のアミノ酸配列情報を用いて、3(あるいは
4)種類の二次構造の中から、一次配列の各残基(以
下、予測対象となる残基を中心残基とする)に対応する
一つの二次構造を予測する問題であり、二次構造予測が
可能になることにより、タンパク質の立体的な構造予測
も可能になると考えられている。図3は、本発明の二次
構造(αヘリックス)領域予測方法を示す模式図である
が、従来技術によるタンパク質の二次構造を予測する方
法として、例えば、1974年発行の米国の雑誌「バイ
オケミストリー」(Biochemistry)の第2
3巻222−245頁掲載のチョウ(Chou)とファ
スマン(Fasman)による論文「プレディクション
オブ プロテイン コンホメーション」(Predi
ction of protein conforma
tion)(以下、CF法と略す)、1978年発行の
米国の雑誌「ジャーナルオブ モレキュラ バイオロジ
ー」(Journal of Molecular B
iology)の第120巻97−120頁掲載のガル
ニエ(Garnier)らによる論文「アナリシス オ
ブ ザ アキュレシー アンド インプリケーションズ
オブ シンプル メソード フォー プレディクティ
ング ザ セコンダリー ストラクチャー オブ グロブラー プ
ロテインズ」(Analysis of the ac
curacy and implications o
f simple method for predi
cting the secondary struc
ture of globular protein
s)(以下、GOR法と略す)、1987年発行の米国
の雑誌「ジャーナル オブ モレキュラ バイオロジ
ー」(Jouranal of Molecular
Biology)の第198巻425−443頁掲載の
ギブラト(Gibrat)らによる論文「ファザー デ
ベロプメンツ オブ プロテイン セコンダリー ストラクチャ プレディクション ユー
ジング インホメーション セオリー:ニュー パラメ
ータズ アンド コンシダレーション オブ レジデュー ペアズ」(Further develo
pments of protein seconda
ry structure prediction u
sing information theory:N
ew parameters and conside
ration ofresidue pairs)(以
下、GGR法と略す)、及び1988年発行の米国の雑
誌「ジャーナル オブ モレキュラ バイオロジー」
(Journal of Molecular Bio
logy)の第202巻865−884頁掲載のキャン
(Qian)らによる論文「プレディクティング ザ
セコンダリー ストラクチャー オブ グロブラー
プロテインズ ユージング ニューラル ネットワーク
モデルズ」(Predicting the seco
ndary structure of globul
ar proteins using neural
network models)(以下、QS法と略
す)などがある。CF法は、タンパク質構造のデータベ
ースから各二次構造におけるアミノ酸の統計的な出現頻
度を求め、この頻度表を使用し、経験的な規則に基づく
予測を行っている。また、GOR法は、中心残基の二次
構造に対して、その残基から数残基離れた残基により独
立にもたらされる情報量の和を計算し、その相対値から
予測を行い、GGR法は、中心残基の二次構造に対し
て、その残基及びその残基から数残基離れた残基により
もたらされる情報量の和から予測を行っている。さら
に、QS法は、3層のフィードフォワード型のネットワ
ークを使用し、中心残基の前後8残基を含む配列を入力
とし、二次構造に対する中心残基及び周辺残基からの寄
与をニューラルネットワークを用いて抽出することによ
り予測を行っている。2. Description of the Related Art One of the problems in predicting the three-dimensional structure in a protein using the amino acid sequence information of the protein is the protein secondary structure prediction problem. The secondary structure refers to a cohesive structure inside the protein such as α helix and β sheet, and the secondary structure prediction problem is
Using the amino acid sequence information of the protein, one of the 3 (or 4) types of secondary structures corresponding to each residue of the primary sequence (hereinafter, the residue to be predicted is the central residue) It is a problem of predicting the secondary structure, and it is considered that the prediction of the secondary structure also enables the prediction of the three-dimensional structure of the protein. FIG. 3 is a schematic diagram showing a method for predicting a secondary structure (α-helix) region of the present invention. As a method for predicting a secondary structure of a protein according to a conventional technique, for example, a US journal “Bio Second of "Chemistry" (Biochemistry)
Vol. 3, pages 222-245, Chou and Fasman, "The Prediction of Protein Conformation" (Predi).
action of protein conforma
(hereinafter abbreviated as CF method), an American magazine “Journal of Molecular Biology” published in 1978 (Journal of Molecular B).
(Analysis of the Accuratey and Implications of Simple Method for Predicting The Secondary Structure of Globler Proteins), published by Garnier et al.
cure and implications o
f simple method for predi
cinging the secondary struc
pure of global protein
s) (hereinafter, abbreviated as GOR method), an American magazine “Journal of Molecular Biology” issued in 1987 (Journal of Molecular Biology).
Biography, Vol. 198, pp. 425-443, Gibrat et al., "Father Developments of Protein Secondaries Structure Prediction Educating Information Theory: New Parameters and Considation of Residue Pairs" (Further develo).
claims of protein second
ry structure prediction u
sing information theory: N
ew parameters and conside
relation of pairs (hereinafter abbreviated as GGR method) and the American magazine “Journal of Molecular Biology” published in 1988.
(Journal of Molecular Bio
202, pp. 865-884, by Qian et al., "Predicting the
Secondary Structure of Globler
Proteins Using Neural Network Models "(Predicating the seco
ndary structure of globul
ar proteins using neural
network models) (hereinafter abbreviated as QS method). The CF method obtains statistical occurrence frequencies of amino acids in each secondary structure from a protein structure database, and uses this frequency table to make predictions based on empirical rules. Also, the GOR method calculates the sum of the information amounts independently brought about by the residues several residues away from the secondary structure of the central residue, makes a prediction from the relative value, and calculates the GGR The method predicts the secondary structure of the central residue from the sum of the information content provided by the residue and the residues several residues away from the residue. Furthermore, the QS method uses a feedforward type network of three layers, inputs a sequence including 8 residues before and after the central residue, and uses the neural network to make contributions from the central and peripheral residues to the secondary structure. The prediction is performed by extracting with.
【0003】[0003]
【発明が解決しようとする課題】3種類の二次構造の中
からアミノ酸配列の各残基に対応する二次構造を選択す
る予測を3状態予測と呼ぶが、その予測結果の尺度であ
る予測率は、従来の技術のいずれの方法も3状態予測で
60%台であり、αヘリックスにだけ限ってより予測率
の高い予測手法が望まれていた。また、従来の予測結果
は、アミノ酸一次配列内の各中心残基に対応する二次構
造を予測する残基対応の予測であり、一次配列内のどの
領域がどの二次構造に相当するかといった領域対応の予
測を行うことも重要であるにも関わらず、このような予
測方式に十分な検討がなされていなかった。さらに、ア
ミノ酸配列を文字列としてのみならず、そのアミノ酸の
性質(疎水性、分子量など)を考慮した予測を行うこと
による予測法も全く確立されていなかった。Prediction for selecting a secondary structure corresponding to each residue of an amino acid sequence from among three types of secondary structures is called three-state prediction, which is a measure of the prediction result. The rate is in the range of 60% in three-state prediction in any of the conventional techniques, and a prediction method with a higher prediction rate is desired only for α-helix. Further, the conventional prediction result is a residue-corresponding prediction that predicts the secondary structure corresponding to each central residue in the amino acid primary sequence, such as which region in the primary sequence corresponds to which secondary structure. Although it is important to make predictions corresponding to regions, such prediction methods have not been sufficiently studied. Furthermore, not only the amino acid sequence as a character string, but also the prediction method by performing the prediction considering the properties of the amino acid (hydrophobicity, molecular weight, etc.) has not been established at all.
【0004】[0004]
【発明が解決しようとする課題】第1の発明は、タンパ
ク質のアミノ酸配列からタンパク質の構造予測を行うた
めに、構造既知のタンパク質のみならず、構造未知のタ
ンパク質をも使用して、ある立体構造に対応した配列で
ある正例とそうではないことがわかっている配列である
負例とからなる訓練データを抽出する訓練データ抽出ス
テップと、 前記正例及び負例からなる訓練データから確
率的規則の学習を行う学習ステップと、学習された確率
的規則を用いてテストアミノ酸配列データの各領域毎の
構造を予測する予測ステップとから成ることを特徴とす
る。The first invention is to predict not only a protein of known structure but also a structure of unknown structure in order to predict the structure of the protein from the amino acid sequence of the protein .
The sequence corresponding to a certain three-dimensional structure using the protein
An array that is known to be positive and not positive
A training data extraction system that extracts training data consisting of
Step a, the learning step of performing learning of probabilistic rules from training data consisting of positive cases and negative cases, the learned stochastic rules for each region of the test amino acid sequence data using
And a prediction step for predicting the structure .
【0005】第2の発明は、前記訓練データ抽出ステッ
プが、構造機知のタンパク質のアミノ酸配列に対して、
同じファミリーに属するタンパク質のアライメント(整
合)をとり、予測対象とする二次構造領域に対応する部
分配列を、二次構造領域の正例として抽出するステップ
と、構造既知のタンパク質の予測対象とする二次構造に
対応する部分配列に対して、構造既知のタンパク質から
なるデータベースの各配列のアライメントをとり、予測
対象とする二次構造に対応しない部分配列を二次構造領
域の負例として抽出するステップとから成ることを特徴
とする。A second invention is the training data extraction step.
Is the structurally known protein amino acid sequence,
Aligning proteins that belong to the same family, extracting the partial sequence corresponding to the secondary structure region that is the target of prediction as a positive example of the secondary structure region, and using it as the target of prediction of proteins of known structure Align each sequence in the database consisting of proteins of known structure with the partial sequence corresponding to the secondary structure, and extract the partial sequence that does not correspond to the secondary structure to be predicted as a negative example of the secondary structure region. And a step.
【0006】第3の発明は、前記学習ステップが、前記
正例と前記負例とからなる学習データのアミノ酸の種類
から、確率的規則を用いることにより、この確率的規則
の実数値パラメータを推定することを特徴とする。In a third aspect of the invention, the learning step estimates a real-valued parameter of the stochastic rule by using a stochastic rule from the types of amino acids in the learning data consisting of the positive example and the negative example. It is characterized by doing.
【0007】第4の発明は、前記学習ステップが、前記
正例と前記負例とからなる学習データのアミノ酸の実数
値属性から、確率的規則を用いることにより、この確率
的規則の実数値パラメータを推定することを特徴とす
る。In a fourth aspect of the present invention, the learning step uses a probabilistic rule from the real-valued attributes of amino acids in the learning data consisting of the positive example and the negative example, whereby the real-valued parameter of the probabilistic rule is obtained. Is estimated.
【0008】第5の発明は、前記学習ステップが、前記
正例と前記負例とからなる学習データのアミノ酸の実数
値属性から、確率的規則を用いることにより、この確率
的規則の実数値パラメータを推定するステップと、前記
確率的規則におけるモデルを情報量基準を用いて最適化
するステップとから成ることを特徴とする。In a fifth aspect of the present invention, the learning step uses a probabilistic rule from the real-valued attributes of amino acids of the learning data consisting of the positive example and the negative example, whereby the real-valued parameter of the probabilistic rule is obtained. estimating a, the
Optimizing the model in the probabilistic rule using an information criterion.
【0009】第6の発明は、前記予測ステップが、 前記
学習ステップにより学習された確率的規則を使用し、前
記テストアミノ酸配列データの各領域に対して、その活
動度を計算するステップと、計算された活動度の中から
最適値を選出するステップとから成ることを特徴とす
る。[0009] A sixth invention is the prediction step, the
Using the probabilistic rules learned by the learning step, before
It is characterized in that it comprises a step of calculating the activity level of each region of the test amino acid sequence data and a step of selecting an optimum value from the calculated activity levels.
【0010】[0010]
【実施例】次に、本発明について図面を参照して詳細に
説明する。The present invention will be described in detail with reference to the drawings.
【0011】図1は、本発明のタンパク質立体構造予測
方法の実施例を説明するフローチャートである。本実施
例では、対象とする二次構造としてαヘリックスを扱う
ものとする。FIG. 1 is a flow chart for explaining an embodiment of the protein tertiary structure prediction method of the present invention. In the present embodiment, it is assumed that an α-helix is used as a target secondary structure.
【0012】ステップ10は、第2の発明に含まれる。
このステップでは、αヘリックスの領域がわかっている
タンパク質のアミノ酸配列に対して、同じファミリーの
タンパク質、例えば、種が異なる同じタンパク質のアラ
イメント(整合)をとり、αヘリックスに対応する部分
配列を、αヘリックスの正例として抽出する。Step 10 is included in the second invention.
In this step, the proteins of the same family, for example, the same proteins of different species are aligned with the amino acid sequence of the protein whose α-helix region is known, and the partial sequence corresponding to the α-helix is Extract as a positive example of a helix.
【0013】例えば、ヘモグロビンというタンパク質の
β鎖の場合には、ヒトのヘモグロビンのαヘリックスの
位置は、X線結晶回折の結果から明らかになっており、
8個のαヘリックスの領域を有することが知られてい
る。従って、ヒトのヘモグロビンβ鎖に対して、他の
種、例えば、チンパンジー、ウマなどの他の種のヘモグ
ロビンβ鎖のアライメントをとり、8個のαヘリックス
に対応する領域をαヘリックスの正例として抽出する。For example, in the case of the β chain of a protein called hemoglobin, the position of the α helix of human hemoglobin has been clarified from the results of X-ray crystal diffraction,
It is known to have a region of 8 α-helices. Therefore, the human hemoglobin β chain is aligned with the hemoglobin β chain of other species such as chimpanzee and horse, and the region corresponding to 8 α helices is used as a positive example of α helix. Extract.
【0014】ステップ20は、第2の発明に含まれる。
このステップでは、αヘリックス位置の知られているタ
ンパク質のαヘリックスに対応する部分配列に対して、
αヘリックス位置の知られているアミノ酸配列データベ
ースの各配列のアライメントをとり、αヘリックスに対
応しない部分配列を、ステップ10で抽出されたαヘリ
ックスの正例に対する負例として抽出する。Step 20 is included in the second invention.
In this step, for the partial sequence corresponding to the α-helix of the protein whose α-helix position is known,
Aligning each sequence in the amino acid sequence database of known α-helix positions, a partial sequence not corresponding to the α-helix is extracted as a negative example for the positive example of the α-helix extracted in step 10.
【0015】ヘモグロビンβ鎖の例では、8個のαヘリ
ックスに対応する部分配列に対して、例えば、PDB
(Protein Data Bank)などのタンパ
ク質構造データベース内のいくつかの配列に対してアラ
イメントを行い、アライメントの結果得られた各部分配
列において、その配列の構造がαヘリックスではない場
合に、それらを負例として抽出する。例えば、負例抽出
の際のアライメントでは、一定の割合以上の相同性を保
持する部分配列を負例とすることが考えられる。具体的
には、アライメントによる相同性が30%以上の部分配
列を負例とする方法などがある。In the example of the hemoglobin β chain, for the partial sequence corresponding to the 8 α helices, for example, PDB
Alignment is performed for several sequences in a protein structure database such as (Data Protein Bank), and in each partial sequence obtained as a result of the alignment, if the structure of the sequence is not α-helix, these are regarded as negative examples. Extract as For example, in the alignment at the time of extracting a negative example, it is conceivable that a partial sequence having homology of a certain ratio or more is regarded as a negative example. Specifically, there is a method using a partial sequence having a homology of 30% or more by alignment as a negative example.
【0016】抽出するデータ数については、例えば、α
ヘリックスの正例となる各領域における正例と負例との
割合を各領域についてそれぞれ等しくすることが考えら
れ、また例えば、その割合として正例、負例を同数とす
ることが考えられる。For the number of data to be extracted, for example, α
It is conceivable to make the ratio of positive and negative examples in each region that is a positive example of the helix the same in each region, and for example, it is possible to make the same number of positive and negative examples.
【0017】ステップ30は、第3の発明、第4の発
明、第5の発明に共通に含まれ、確率的規則の実数値パ
ラメータを推定するステップである。このステップで
は、ステップ10で求めた正例とステップ20で求めた
負例からなる学習データから、確率的規則を用いること
により、この確率的規則の実数値パラメータを推定す
る。このステップでの確率的規則の構造を、以下に示
す。Step 30 is included in the third invention, the fourth invention, and the fifth invention in common, and is a step of estimating the real-valued parameter of the stochastic rule. In this step, the real-valued parameter of this probabilistic rule is estimated by using the probabilistic rule from the learning data consisting of the positive example obtained in step 10 and the negative example obtained in step 20. The structure of the probabilistic rule in this step is shown below.
【0018】確率的規則とは、ここでは任意の与えられ
た配列の領域に対して、αヘリックスが対応する確率を
与える確率分布のことである。各χi (i=1,…,
n)をそれぞれ属性値の空間として、χをそれらの直
積、すなわち、χ=χ1 ×χ2 ×・・・×χn と書く。The probabilistic rule is a probability distribution which gives a probability that an α helix corresponds to an area of an arbitrary given array. Each χ i (i = 1, ...,
Let n be the space of attribute values, and let χ be the direct product of them, that is, χ = χ 1 × χ 2 × ... × χ n .
【0019】例えば、χは20種類のアミノ酸からなる
一つの集合を表す場合や、またχ=χ1 ×χ2 で、χ1
が疎水性を表す数値の範囲かつχ2 が分子量を表す数値
の範囲を表す場合などがある。この例での前者の場合が
第3の発明で使用され、それ以外の場合が第4の発明及
び第5の発明で使用される。Sをある領域の長さWの配
列であり、各Sはχ×χ×・・・×χの元とみなし、ま
た、Xi を配列Sの左から数えてi番目の残基であり、
P(α|Xi )が、Xi に対応する二次構造がαヘリッ
クスである確率とする。ここで、配列S に対応する二次
構造がαヘリックスである確率P(α|S)は、P(α
|Xi )の積として次のようにかけるものと仮定する。For example, χ represents a set of 20 kinds of amino acids, or χ = χ 1 × χ 2 , where χ 1
There is a case where is a range of numerical values showing hydrophobicity and χ 2 is a range of numerical values showing molecular weight. The former case in this example is used in the third invention, and the other cases are used in the fourth invention and the fifth invention. S is an array having a length W of a certain region, each S is regarded as an element of χ × χ × ... × χ, and X i is the i-th residue counted from the left of the sequence S,
Let P (α | X i ) be the probability that the secondary structure corresponding to X i is an α helix. Here, the probability P (α | S) that the secondary structure corresponding to the sequence S is an α helix is P (α
It is assumed that the product of | X i ) is multiplied by
【0020】 P(α|S)=Пi = 1 w P(α|Xi ) さらに、各P(α|Xi )の具体的表現として、例え
ば、有限分割型確率的規則を使用する。有限分割型確率
的規則は次のような構造をもつ条件付き確率分布であ
り、以下のように構成する。前記配列Sのi番目の残基
における属性の実数値のとり得る範囲を重なり合わない
部分領域(以下、これをセルと呼ぶ)に分割し、mを全
セル数、Ck をk番目のセルとした時に、Xi がm個の
セルの内のCk に含まれる場合に、P(α|Xi )=P
k (i)とする。ここで、P (α | S) = П i = 1 w P (α | X i ) Further, as a concrete expression of each P (α | X i ), for example, a finite division stochastic rule is used. The finite division stochastic rule is a conditional probability distribution having the following structure, and is constructed as follows. The possible range of the real value of the attribute at the i-th residue of the array S is divided into non-overlapping partial regions (hereinafter referred to as cells), m is the total number of cells, and C k is the k-th cell. Then, when X i is included in C k of m cells, P (α | X i ) = P
Let k (i). here,
【0021】[0021]
【数1】 [Equation 1]
【0022】であり、これを確率パラメータと呼ぶ。図
4は、有限分割型確率規則の構造を示す模式図である
が、この図では、一例として、値が0から1の範囲をと
る一つの属性により確率パラメータを推定する場合を示
す。Which is called a probability parameter. FIG. 4 is a schematic diagram showing the structure of the finite division type probability rule. In this figure, as an example, a case where the probability parameter is estimated by one attribute whose value ranges from 0 to 1 is shown.
【0023】確率パラメータは、各セルに含まれる正例
及び負例のデータ数を用いて推定する。mをセルの数、
Nk + (i)をi番目の位置でのk番目のセルに含まれ
る正例数、Nk - (i)をi番目の位置でのk番目のセ
ルに含まれる負例数、Nk (i)をi番目の位置でのk
番目のセルに含まれる正例数と負例数の和とし、i番目
の位置でのk番目のセルにおける推定値をThe probability parameter is estimated using the number of positive and negative examples of data included in each cell. m is the number of cells,
Positive sample number contained N k + (i) to k th cell in the i-th position, N k - negative sample number contained (i) to k th cell in the i-th position, N k (I) k at the i-th position
The sum of the number of positive examples and the number of negative examples contained in the th cell, and the estimated value in the k th cell at the i th position
【0024】[0024]
【数2】 [Equation 2]
【0025】とする。例えば、次式のラプラス推定量に
よって、各セルに対する確率パラメータを計算する。It is assumed that For example, a probability parameter for each cell is calculated by the Laplace estimator of the following equation.
【0026】[0026]
【数3】 (Equation 3)
【0027】ただし、推定量はラプラス推定量のみなら
ず、多くの推定量が使用できる。However, not only the Laplace estimator but also many estimators can be used.
【0028】ステップ40は、第6の発明に含まれる。
このステップでは、ステップ30において学習された確
率的規則を使用し、テストデータ配列の各領域に対し
て、その活性度を計算する。Step 40 is included in the sixth invention.
This step uses the probabilistic rule learned in step 30 to calculate the activity for each region of the test data array.
【0029】ここでは、活性度として尤度を使用する。Here, likelihood is used as the activity.
【0030】具体的には、確率的規則が構成された長さ
wのあるαヘリックス領域を考える。テストデータのア
ミノ酸配列に対して、前記領域の長さwより小さな長さ
tのw−t+1個のすべての部分領域を設け、このw−
t+1個の部分領域それぞれをテストアミノ酸配列の左
から順にあてはめていき、テスト配列の各領域の尤度を
計算する。Specifically, consider an α-helix region having a length w for which a stochastic rule is constructed. For the amino acid sequence of the test data, all w-t + 1 partial regions having a length t smaller than the length w of the region are provided, and this w-
Each of the t + 1 partial regions is applied in order from the left of the test amino acid sequence, and the likelihood of each region of the test sequence is calculated.
【0031】さて、k番目の長さtの部分領域に対し
て、αヘリックス領域の確率パラメータを左から順に並
べたものをξk =(θ1 ,…,θt ),θi =(P
1 (i),…,Pm (i))(i=1,…,t)と書
く。Now, for the k-th sub-region of length t, the probability parameters of the α-helix region are arranged in order from the left, ξ k = (θ 1 , ..., θ t ), θ i = (P
1 (i), ..., P m (i)) (i = 1, ..., t).
【0032】ここで、mはセルの数であり、θi は既に
学習によって値が求められている。Here, m is the number of cells, and θ i has already been obtained by learning.
【0033】w−t+1個の部分領域の位置に対応し
て、このmt次元パラメータは、w−t+1個求められ
るので、それをξ1 ,…,ξw - t + 1 とする。Corresponding to the positions of the w-t + 1 partial areas, the mt-dimensional parameters are obtained in the quantity of w-t + 1, and they are defined as ξ 1 , ..., ξ w -t +1 .
【0034】前記パラメータを使用して、任意の長さt
のテストアミノ酸配列Гに対して、尤度がw−t+1通
り次のように計算できる。Using the above parameters, an arbitrary length t
With respect to the test amino acid sequence Γ of, the likelihood can be calculated as follows with w−t + 1.
【0035】 P(α|Г:ξk )(k=1,…,w−t+1) ただし、各kについて、 P(α|Г:ξk )=Πi = 1 t P(α|Г:θi ) ここで、P(α|Г:θi )はXi がl番目のセルに入
れば、Pl(i)(l=1,…,m)と計算する。ま
た、PI (i)(l=1,…,m)はすでに学習されて
いる。P (α | Γ: ξ k ) (k = 1, ..., w−t + 1) However, for each k, P (α | Γ: ξ k ) = Π i = 1 t P (α | Γ: θ i ) Here, P (α | Γ: θ i ) is calculated as P l (i) (l = 1, ..., M) if X i enters the l-th cell. Also, P I (i) (l = 1, ..., M) has already been learned.
【0036】例えば、前記有限分割型確率的規則でのア
ミノ酸の属性値の空間がある一つの属性値のみからなる
場合で、またセルの数が3であり、セルに入る推定量は
ラプラス推定量により求めるとする。このとき、あるα
ヘリックス領域のk番目の長さ5の部分領域のi番目の
位置でのl番目のセルの正例数をNl + (i)、l番目
のセルの負例数をNl - (i)、正例数と負例数の和を
Nl (i)とする。すると、i番目の位置でのl番目の
セルの推定量は、例えば、Pl (i)=(Nl + (i)
+1)/(Nl (i)+2)として得られる。For example, in the case where the space of the attribute values of amino acids in the finite division stochastic rule consists of only one attribute value, the number of cells is 3, and the estimator entering the cell is the Laplace estimator. Let's ask by. At this time, some α
A positive number of cases of l th cell in the i-th position of the k-th long 5 subregion of helical regions N l + (i), a negative number of cases of l th cell N l - (i) , N 1 (i) is the sum of the number of positive examples and the number of negative examples. Then, the estimator of the l-th cell at the i-th position is, for example, P l (i) = (N l + (i)
+1) / (N l (i) +2).
【0037】ここで、テストアミノ酸配列のウィンドウ
の大きさ5の領域Гに対してテストを行うとし、領域Г
のそれぞれの残基は前記部分領域での構成された学習規
則での各1,2,3,2,1番目のセルに入る属性の実
数値を有するとする。すると、前記k番目の部分領域に
よるテストアミノ酸配列の領域Гの活性度は尤度P(α
|Г:k)として、次式のように計算される。 P(α|Г:k)={(N1 + (1)+1)/(N
1 (1)+2)}{(N2 +(2)+1)/(N
2 (2)+2)}{(N3 + (3)+1)/(N
3 (3)+2)}{(N2 + (4)+1)/(N
2 (4)+2)}{(N1 + (5)+1)/(N
1 (5)+2)} w−t+1個の部分領域により、テストアミノ酸配列の
とり得るすべての領域に対して、この尤度計算を行う。
また、αヘリックス領域が複数個存在すれば、その各領
域について同様の尤度計算を行う。Here, suppose that the test is performed on a region Γ of the window size 5 of the test amino acid sequence, and the region Γ
It is assumed that each residue has a real value of the attribute that enters each of the 1, 2, 3, 2, and 1st cells in the learning rule configured in the partial region. Then, the activity of the region Γ of the test amino acid sequence by the k-th partial region is the likelihood P (α
| Γ: k) is calculated as follows. P (α | Γ: k) = {(N 1 + (1) +1) / (N
1 (1) +2)} {(N 2 + (2) +1) / (N
2 (2) +2)} {(N 3 + (3) +1) / (N
3 (3) +2)} {(N 2 + (4) +1) / (N
2 (4) +2)} {(N 1 + (5) +1) / (N
1 (5) +2)} This likelihood calculation is performed for all the regions that the test amino acid sequence can take, using w−t + 1 partial regions.
If there are a plurality of α-helix regions, the same likelihood calculation is performed for each region.
【0038】従って、テストアミノ酸配列内でのウィン
ドウの大きさに対応したすべての領域に対して、尤度が
出力として得られることになる。Therefore, the likelihood is obtained as an output for all regions corresponding to the window size in the test amino acid sequence.
【0039】以上のウィンドウを使用した各領域に対応
する尤度計算により、一つ一つの残基に対してαヘリッ
クスが対応する確率を計算するのではなく、テストアミ
ノ酸配列の各部分領域にαヘリックスが対応する確率を
尤度として計算することができる。By the likelihood calculation corresponding to each region using the above windows, the probability that the α helix corresponds to each residue is not calculated, but α is calculated for each partial region of the test amino acid sequence. The probability that the helix corresponds can be calculated as the likelihood.
【0040】ステップ50は、第6の発明に含まれる。
このステップでは、前記ステップ40により計算された
複数の活性度の中で、Гに対して最適な一つの活性度を
求め、さらにテストアミノ酸配列全体における活性度の
変化を出力する。Step 50 is included in the sixth invention.
In this step, one of the plurality of activities calculated in step 40 is found to be the optimum one for Γ, and the change in the activity of the entire test amino acid sequence is output.
【0041】ステップ40に引き続きここでは、活性度
として尤度を使用する。Continuing from step 40, the likelihood is used here as the activity.
【0042】例えば、最適値P(α|Г:ξk * )を以
下で定める。 P(α|Г:ξk * )=max{P(α|Г:ξ1 ),
…,P(α|Г:ξw -t + 1 )}. αヘリックス領域が複数個あれば、各領域について、同
じГに対して同様な尤度計算を行ない、αヘリックス領
域全体を通じて最大の尤度を最適値として選ぶ方法も考
えられる。For example, the optimum value P (α | Γ: ξ k * ) is determined as follows. P (α | Γ: ξ k * ) = max {P (α | Γ: ξ 1 ),
…, P (α | Γ: ξ w -t + 1 )}. If there are a plurality of α-helix regions, a similar likelihood calculation may be performed for each region for the same Γ, and the maximum likelihood may be selected as the optimum value throughout the α-helix region.
【0043】さらに、テスト配列内の尤度が与えられた
各領域において、最大の尤度を領域内の各残基の最適値
とする、あるいは、領域内の各残基に対しては、その残
基を含む領域の得られた尤度の平均を各残基の最適値と
する、などの方法を使用し、テストアミノ酸配列全体に
対する尤度の変化を出力する。Further, in each region given a likelihood in the test sequence, the maximum likelihood is set to the optimum value of each residue in the region, or for each residue in the region, A method such as using the average of the obtained likelihoods of the region containing residues as the optimum value of each residue is used to output the change in the likelihood for the entire test amino acid sequence.
【0044】以上の図1における学習及び予測方法は、
αヘリックス以外の二次構造予測についても適用でき
る。The learning and prediction method shown in FIG.
It can be applied to secondary structure prediction other than α-helix.
【0045】図2は、本発明のタンパク質立体構造予測
方法の実施例を説明するフローチャートである。本実施
例では、対象とする二次構造としてαヘリックスを扱う
ものとする。FIG. 2 is a flow chart for explaining an embodiment of the protein tertiary structure prediction method of the present invention. In the present embodiment, it is assumed that an α-helix is used as a target secondary structure.
【0046】ステップ60は、図1のステップ10と同
じ処理を行ないαヘリックス領域予測のために必要な正
例を抽出する。In step 60, the same process as in step 10 of FIG. 1 is performed to extract a positive example required for α-helix region prediction.
【0047】ステップ70は、図1のステップ20と同
じ処理を行ないαヘリックス領域予測のために必要な負
例を抽出する。In step 70, the same processing as in step 20 of FIG. 1 is performed to extract a negative example required for α-helix region prediction.
【0048】ステップ80は、図1のステップ30と同
じ処理を行ない確率的規則を適用し、この確率的規則の
実数値パラメータを推定する。In step 80, the same process as in step 30 of FIG. 1 is performed to apply the stochastic rule, and the real-valued parameters of this stochastic rule are estimated.
【0049】ステップ90は、第5の発明にのみ含まれ
る。このステップでは、確率的規則のモデルを情報量規
準を用いて最適化する。使用する情報量規準としては、
例えば、MDL(minimum descripti
on length)規準などが考えられる。Step 90 is included only in the fifth invention. In this step, the stochastic rule model is optimized using the information criterion. The information criterion to use is
For example, MDL (minimum descriptor)
on length) criteria and the like.
【0050】前記有限分割型確率的規則にあてはめる
と、MDL原理は、データ記述長と有限分割型確率的規
則による記述長との和が最小である時に最適な確率的規
則が構成されているとする。なお、MDL原理について
は、1978年発行の米国の雑誌「オートマティカ」
(Automatica)の第14巻465−471頁
記載のリサネン(Rissanen)による論文「モデ
リング バイ ショーテスト データ ディスクリプシ
ョン」(Modeling by shortest
data description)に詳しく記載され
ている。Applying to the finite division type probabilistic rule, the MDL principle is that the optimum probabilistic rule is constructed when the sum of the data description length and the description length by the finite division type probabilistic rule is the minimum. To do. Regarding the MDL principle, the American magazine "Automatic" published in 1978.
(Automatica) Vol. 14, pp. 465-471, by Rissanen, "Modeling by short test data description" (Modeling by shorttest).
data description).
【0051】前記有限分割型確率的規則に対するデータ
の記述長は、規則の対数尤度の負をとることによって、
次のように計算できる。ただし、以下では対数の底はす
べて2とする。The description length of the data for the finite division type probabilistic rule is obtained by taking the negative of the log-likelihood of the rule.
It can be calculated as follows. However, in the following, the base of the logarithm is all 2.
【0052】[0052]
【数4】 [Equation 4]
【0053】また、前記有限分割型確率的規則の記述長
は、各確率パラメータpK (i)の推定値はおよそlo
g Nk (i)ビットで記述できるから、次のように計
算できる。The description length of the finite division type stochastic rule is such that the estimated value of each probability parameter p K (i) is approximately lo.
Since it can be described by g N k (i) bits, it can be calculated as follows.
【0054】[0054]
【数5】 (Equation 5)
【0055】したがって、MDL原理によれば、次式が
最小になるセル数mの大きさを確率規則を構成する最適
なセル数とする。Therefore, according to the MDL principle, the size of the number of cells m that minimizes the following equation is set as the optimum number of cells forming the probability rule.
【0056】[0056]
【数6】 (Equation 6)
【0057】ステップ100は、図1のステップ40と
同じ処理を行ない、ステップ90を使用してモデルが最
適化された確率的規則を使用し、テストアミノ酸配列デ
ータの各領域に対して、その活性度を計算する。The step 100 performs the same process as the step 40 of FIG. 1, and uses the stochastic rule for which the model is optimized using the step 90, for each region of the test amino acid sequence data. Calculate the degree.
【0058】ステップ110は、図1のステップ50と
同じ処理を行ないステップ40により求められた複数の
活性度から、配列全体に対する活性度の変化を出力す
る。In step 110, the same process as in step 50 of FIG. 1 is performed, and a change in the activity for the entire array is output from the plurality of activities obtained in step 40.
【0059】以上の図2における学習及び予測方法は、
αヘリックス以外の二次構造予測についても適用でき
る。The learning and prediction method shown in FIG.
It can be applied to secondary structure prediction other than α-helix.
【0060】[0060]
【発明の効果】二次構造既知のタンパク質のアミノ酸配
列情報から、二次構造未知のタンパク質の二次構造を従
来技術に対して高い精度で予測することができる。特
に、アルブミンのαヘリックス領域を70%以上の高い
精度で予測可能である。また、MDL原理などの情報量
規準によりモデルを最適化することにより、確率的規則
の構造を理論的に最適化することが可能になる。The secondary structure of a protein of unknown secondary structure can be predicted with high accuracy from the amino acid sequence information of the protein of which secondary structure is known. In particular, the α-helix region of albumin can be predicted with high accuracy of 70% or more. Further, by optimizing the model according to the information amount criterion such as the MDL principle, it becomes possible to theoretically optimize the structure of the stochastic rule.
【図面の簡単な説明】[Brief description of drawings]
【図1】本発明のタンパク質立体構造予測方法の一実施
例を示すフローチャートFIG. 1 is a flow chart showing an example of a method for predicting a protein three-dimensional structure of the present invention
【図2】本発明のタンパク質立体構造予測方法の一実施
例を示すフローチャートFIG. 2 is a flowchart showing an embodiment of the protein three-dimensional structure prediction method of the present invention.
【図3】本発明の二次構造(αヘリックス)領域予測方
法の模式図FIG. 3 is a schematic diagram of a secondary structure (α helix) region prediction method of the present invention.
【図4】本発明で使用する確率規則の一例である有限分
割型確率規則の具体例を示す模式図FIG. 4 is a schematic diagram showing a specific example of a finite division type probability rule which is an example of a probability rule used in the present invention.
10 正例抽出 20 負例抽出 30 確率的規則による実数値パラメータ推定 40 テスト配列各領域に対する活性度計算 50 テスト配列に対する予測値算出 60 正例抽出 70 負例抽出 80 確率的規則による実数値パラメータ推定 90 情報量規準による最適化 100 テスト配列各領域に対する活性度計算 110 テスト配列に対する予測値算出 10 Positive Example Extraction 20 Negative Example Extraction 30 Real Value Parameter Estimation by Probabilistic Rule 40 Activity Calculation for Each Region of Test Sequence 50 Prediction Value Calculation for Test Sequence 60 Positive Example Extraction 70 Negative Example Extraction 80 Real Value Parameter Estimation by Probabilistic Rule 90 Optimization by information criterion 100 Activity calculation for each region of test sequence 110 Calculation of predicted value for test sequence
Claims (6)
の構造予測を行うために、構造既知のタンパク質のみな
らず、構造未知のタンパク質をも使用して、ある立体構
造に対応した配列である正例とそうではないことがわか
っている配列である負例とからなる訓練データを抽出す
る訓練データ抽出ステップと、 前記正例及び負例からなる 訓練データから確率的規則の
学習を行う学習ステップと、 学習された確率的規則を用いてテストアミノ酸配列デー
タの各領域毎の構造を予測する予測ステップとから成る
ことを特徴とするタンパク質立体構造予測方法。1. In order to predict the structure of a protein from the amino acid sequence of the protein, all proteins of known structure are used.
Without using a protein of unknown structure,
You can see that it is a positive example that is an array corresponding to the structure and that it is not
Extract training data consisting of
Training data extraction step, a learning step of learning probabilistic rules from the training data consisting of the positive example and the negative example, and a structure of each region of the test amino acid sequence data is predicted using the learned probabilistic rules. A method for predicting a three-dimensional structure of a protein, comprising:
ァミリーに属するタンパク質のアライメント(整合)を
とり、予測対象とする二次構造領域に対応する部分配列
を、二次構造領域の正例として抽出するステップと、 構造既知のタンパク質の予測対象とする二次構造に対応
する部分配列に対して、構造既知のタンパク質からなる
データベースの各配列のアライメントをとり、予測対象
とする二次構造に対応しない部分配列を二次構造領域の
負例として抽出するステップとから成ることを特徴とす
る請求項1に記載のタンパク質立体構造予測方法。2. The training data extraction step aligns proteins belonging to the same family with an amino acid sequence of a protein of which structure is known , and extracts a partial sequence corresponding to a secondary structure region to be predicted. , Extracting as a positive example of the secondary structure region, and aligning each sequence of the database consisting of the protein of known structure with the partial sequence corresponding to the secondary structure to be predicted of the protein of known structure, The method for predicting protein tertiary structure according to claim 1, comprising a step of extracting a partial sequence that does not correspond to the secondary structure to be predicted as a negative example of the secondary structure region.
種類から、確率的規則を用いることにより、この確率的
規則の実数値パラメータを推定することを特徴とする請
求項1に記載のタンパク質立体構造予測方法。3. The learning step estimates a real-valued parameter of the probabilistic rule by using a probabilistic rule from the types of amino acids in the learning data consisting of the positive example and the negative example. The protein tertiary structure prediction method according to claim 1.
実数値属性から、確率的規則を用いることにより、この
確率的規則の実数値パラメータを推定することを特徴と
する請求項1に記載のタンパク質立体構造予測方法。 4. The estimating step estimates a real-valued parameter of the probabilistic rule by using a probabilistic rule from the real-valued attributes of amino acids in the learning data consisting of the positive example and the negative example. The protein three-dimensional structure prediction method according to claim 1, wherein
実数値属性から、確率的規則を用いることにより、この
確率的規則の実数値パラメータを推定するステップと、前記確率的規則 におけるモデルを情報量基準を用いて最
適化するステップとから成ることを特徴とする請求項1
に記載のタンパク質立体構造予測方法。 5. The step of estimating a real-valued parameter of the stochastic rule by using a probabilistic rule from the real-valued attributes of amino acids of the learning data consisting of the positive example and the negative example in the learning step. And a step of optimizing the model in the stochastic rule by using an information criterion.
The method for predicting protein three-dimensional structure according to 1.
し、前記テストアミノ酸配列データの各領域に対して、
その活動度を計算するステップと、 計算された活動度の中から最適値を選出するステップと
から成ることを特徴とする請求項1に記載のタンパク質
立体構造予測方法。 6. The predicting step uses the probabilistic rule learned by the learning step , and for each region of the test amino acid sequence data ,
The method for predicting protein three-dimensional structure according to claim 1, comprising a step of calculating the activity level and a step of selecting an optimum value from the calculated activity levels.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12481792A JP2551297B2 (en) | 1992-05-18 | 1992-05-18 | Protein three-dimensional structure prediction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12481792A JP2551297B2 (en) | 1992-05-18 | 1992-05-18 | Protein three-dimensional structure prediction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0713959A JPH0713959A (en) | 1995-01-17 |
JP2551297B2 true JP2551297B2 (en) | 1996-11-06 |
Family
ID=14894851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP12481792A Expired - Fee Related JP2551297B2 (en) | 1992-05-18 | 1992-05-18 | Protein three-dimensional structure prediction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2551297B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3585613B2 (en) * | 1995-12-08 | 2004-11-04 | 富士通株式会社 | Method and apparatus for predicting secondary structure of protein |
WO1999018440A1 (en) * | 1997-10-02 | 1999-04-15 | Akiko Itai | Method of inferring three-dimensional structure of protein |
WO2020203551A1 (en) * | 2019-03-29 | 2020-10-08 | 富士フイルム株式会社 | Feature quantity calculating method, feature quantity calculating program and feature quantity calculating device, screening method, screening program and screening device, compound creating method, compound creating program and compound creating device |
JP7387760B2 (en) * | 2019-05-02 | 2023-11-28 | ボード オブ リージェンツ,ザ ユニバーシティ オブ テキサス システム | Systems and methods for increasing the stability of synthetic proteins |
-
1992
- 1992-05-18 JP JP12481792A patent/JP2551297B2/en not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
機能性蛋白質の解析・修飾・模擬技術の開発に関する研究(第2期昭和61−63年度)成果報告書、1989、P.102−112:斎藤信彦著「折れたたみ過程を模擬した立体構造予測に関する研究」 |
Also Published As
Publication number | Publication date |
---|---|
JPH0713959A (en) | 1995-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Snyder et al. | Identification of coding regions in genomic DNA sequences: an application of dynamic programming and neural networks | |
Imoto et al. | Combining microarrays and biological knowledge for estimating gene networks via Bayesian networks | |
CN105279397B (en) | A kind of method of key protein matter in identification of protein interactive network | |
CN110289050B (en) | Drug-target interaction prediction method based on graph convolution sum and word vector | |
Last et al. | A compact and accurate model for classification | |
CN108681660A (en) | A kind of non-coding RNA based on association rule mining and disease relationship prediction technique | |
CN116415177A (en) | Classifier parameter identification method based on extreme learning machine | |
JP2551297B2 (en) | Protein three-dimensional structure prediction method | |
CN110491443B (en) | lncRNA protein correlation prediction method based on projection neighborhood non-negative matrix decomposition | |
JPH11316754A (en) | Experimental design and recording medium recording experimental design program | |
Moss | A note on individual choice models of migration | |
EP4250301A1 (en) | Method for estimating a variable of interest associated to a given disease as a function of a plurality of different omics data, corresponding device, and computer program product | |
CN112270950A (en) | Fusion network drug target relation prediction method based on network enhancement and graph regularization | |
CN115083522B (en) | Method and device for predicting cell types and server | |
CN116631496A (en) | miRNA target prediction method and system based on multilayer heterograms and application | |
CN113296947B (en) | Resource demand prediction method based on improved XGBoost model | |
CN116054144A (en) | Distribution network reconstruction method, system and storage medium for distributed photovoltaic access | |
CN114120367A (en) | Pedestrian re-identification method and system based on circle loss measurement under meta-learning framework | |
JP2940529B2 (en) | Protein three-dimensional structure prediction method | |
JP3012441B2 (en) | Protein three-dimensional structure prediction method | |
JP2658823B2 (en) | Protein three-dimensional structure prediction method | |
Chung et al. | Predicting protein-protein interactions from one feature using SVM | |
Singh et al. | Multi-statistic approximate Bayesian computation with multi-armed bandits | |
Zakrisson et al. | A tree-based varying coefficient model | |
EP1223547B1 (en) | Method and device for network inference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19960702 |
|
LAPS | Cancellation because of no payment of annual fees |