JP3012441B2 - Protein three-dimensional structure prediction method - Google Patents

Protein three-dimensional structure prediction method

Info

Publication number
JP3012441B2
JP3012441B2 JP24680593A JP24680593A JP3012441B2 JP 3012441 B2 JP3012441 B2 JP 3012441B2 JP 24680593 A JP24680593 A JP 24680593A JP 24680593 A JP24680593 A JP 24680593A JP 3012441 B2 JP3012441 B2 JP 3012441B2
Authority
JP
Japan
Prior art keywords
protein
rule
amino acid
predicting
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24680593A
Other languages
Japanese (ja)
Other versions
JPH07105179A (en
Inventor
拓 馬見塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP24680593A priority Critical patent/JP3012441B2/en
Publication of JPH07105179A publication Critical patent/JPH07105179A/en
Application granted granted Critical
Publication of JP3012441B2 publication Critical patent/JP3012441B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、立体構造未知のタンパ
ク質アミノ酸配列から、タンパク質の立体構造を予測す
る方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for predicting the three-dimensional structure of a protein from the amino acid sequence of a protein whose structure is unknown.

【0002】[0002]

【従来の技術】タンパク質の局所的な立体構造として、
αヘリックスやβシートに代表される二次構造やジンク
フィンガーやロイシンジッパーに代表されるモチーフな
どがある。立体構造未知のタンパク質アミノ酸配列に対
して、これらタンパク質の局所構造の予測が可能になれ
ば、タンパク質全体の立体構造予測が可能になると一般
に考えられている。
2. Description of the Related Art As a local three-dimensional structure of a protein,
There are secondary structures such as α-helix and β-sheet, and motifs such as zinc finger and leucine zipper. It is generally considered that if it becomes possible to predict the local structure of a protein with respect to the amino acid sequence of a protein whose structure is unknown, it is possible to predict the three-dimensional structure of the entire protein.

【0003】例えば、タンパク質二次構造予測問題は、
20年以上も前から解決が図られてきた問題であり、従
来、タンパク質の一次構造の各残基(以下、予測対象と
なる残基を中心残基と呼ぶ)が、3(あるいは4)種類
の二次構造のいずれに対応するかを予測する問題として
扱われてきた。従来技術によるタンパク質の二次構造を
予測する方法として、例えば、1974年発行の米国の
雑誌「バイオケミストリー」(Biochemistr
y)の第23巻222−245頁掲載のチョウ(Cho
u)とファスマン(Fasman)による論文「プレデ
ィクション オブ プロテイン コンホメーション」
(Prediction of protein co
nformation)(以下、CF法と略す)、19
78年発行の米国の雑誌「ジャーナル オブ モレキュ
ラ バイオロジー」(Journal of Mole
cular Biology)の第120巻97−12
0頁掲載のガルニエ(Garnier)らによる論文
「アナリシス オブ ザ アキュレシー アンド イン
プリケーションズ オブ シンプル メソード フォー
プレディクティング ザ セコンダリー ストラクチャ
ー オブ グロブラープロテインズ」(Analysi
s of the accuracy andimpl
ications of simple method
for predicting the secon
dary structure ofglobular
proteins)(以下、GOR法と略す)、19
87年発行の米国の雑誌「ジャーナル オブ モレキュ
ラ バイオロジー」(Journal of Mole
cular Biology)の第198巻425−4
43頁掲載のギブラト(Gibrat)らによる論文
「ファザー デベロプメンツ オブ プロテイン セコ
ンダリー ストラクチャ プレディクション ユージン
グ インホメーション セオリー:ニュー パラメータ
ズ アンド コンシダレーション オブ レジデュー
ペアズ」(Further developments
of protein secondary str
ucture prediciton using i
nformation theory:New par
ameters and consideration
of residue pairs)(以下、GGR
法と略す)、1988年発行の米国の雑誌「ジャーナル
オブ モレキュラ バイオロジー」(Journal
of Molecular Biology)の第2
02巻865−884頁掲載のキャン(Qian)らに
よる論文「プレディクティング ザ セコンダリー ス
トラクチャー オブ グロブラー プロテインズ ユー
ジング ニューラル ネットワーク モデルズ」(Pr
edicting the secondary st
ructure of globular prote
insusing neural network m
odels)(以下QSと略す)、及び1993年の米
国の学会「ハワイ インターナショナル コンファレン
ス オブ システム サイエンシイズ」(Hawaii
International Conference
of System Sciences)の予稿集第
1巻659−668頁記載の馬見塚らによる論文「プロ
テイン αヘリックス リージョン プレディクション
ベースド オン ストキャスティックルール ラーニ
ング」(Protein α−Helix Regio
n Prediction Based−on Sto
chastic Rule Learning)(以
下、MY法と略す)などがある。
For example, the problem of protein secondary structure prediction is as follows:
This is a problem that has been solved for more than 20 years. Conventionally, each residue in the primary structure of a protein (hereinafter, the residue to be predicted is referred to as a central residue) has 3 (or 4) types. Has been treated as a matter of predicting which of the secondary structures corresponds to As a method for predicting the secondary structure of a protein according to the prior art, for example, a US magazine “Biochemistry” published in 1974 (Biochemistry)
y), Vol. 23, pp. 222-245.
u) and Fasman's dissertation "Prediction of Protein Conformation"
(Prediction of protein co
nformation) (hereinafter abbreviated as CF method), 19
US journal "Journal of Molecule Biology" published in 1978
Cultural Biology) Volume 120 97-12
"Analysis of the Accuracy and Implications of Simple Methods for Predicting the Secondary Structure of Globular Proteins" by Garnier et al.
s of the accuracy and impl
indications of simple method
for predicting the second
day structure of global
proteins) (hereinafter abbreviated as GOR method), 19
1987 US journal "Journal of Molecule Biology" (Journal of Mole
Circular Biology) Vol.
Gibrat et al., Page 43, "Father Developments of Protein Secondary Structure Prediction Yousing Information Theory: New Parameters and Conclusion of Residue"
Pairs "(Further developments
of protein secondary str
ucture prediciton using i
nformation theory: New par
meters and considation
of resin pairs) (hereinafter GGR
1988), a US magazine published in 1988, "Journal of Molecular Biology" (Journal
of Molecular Biology)
Qian et al., Predicting the Secondary Structure of Globber Proteins Using Neural Network Models, Vol. 02, pages 865-884 (Pr.
editing the secondary st
structure of global prote
insuring neural network m
odels) (hereinafter abbreviated as QS), and the 1993 American academic conference “Hawaii International Conference of System Sciences” (Hawaii).
International Conference
of System Sciences, Vol. 1, pages 659-668, written by Umizuka et al., "Protein α-Helix Region Prediction Based on Stochastic Rule Learning" (Protein α-Helix Region).
n Prediction Based-on Sto
classic Rule Learning) (hereinafter abbreviated as MY method).

【0004】CF法は、タンパク質構造のデータベース
から各二次構造におけるアミノ酸の統計的な出現頻度を
求め、この頻度表を使用し、経験的な規則に基づく予測
を行っている。また、GOR法は、中心残基の二次構造
に対して、その残基から数残基離れた残基により独立に
もたらされる情報量の和を計算し、その相対値から予測
を行い、GGR法は、中心残基の二次構造に対して、そ
の残基及びその残基から数残基離れた残基によりもたら
される情報量の和から予測を行っている。さらに、QS
法は、3層のフィードフォワード型のネットワークを使
用し、中心残基の前後8残基を含む配列を入力とし、二
次構造に対する中心残基及び周辺残基からの寄与をニュ
ーラルネットワークを用いて抽出することにより予測を
行っている。MY法は、訓練配列の各残基位置において
各アミノ酸がαヘリックスであるかの確からしさを確率
分布として計算し、それからテスト配列の各領域に対
し、αヘリックスの確からしさを計算する。
[0004] In the CF method, the statistical appearance frequency of amino acids in each secondary structure is obtained from a protein structure database, and the frequency table is used to make predictions based on empirical rules. Also, the GOR method calculates the sum of the information amounts independently brought about by the residues several residues away from the secondary structure of the central residue, makes a prediction from the relative value, and calculates the GGR The method predicts the secondary structure of the central residue from the sum of the information content provided by the residue and the residues several residues away from the residue. Furthermore, QS
The method uses a three-layer feed-forward network, inputs a sequence containing eight residues before and after the central residue, and uses a neural network to determine the contribution of the central and peripheral residues to the secondary structure. Prediction is performed by extracting. The MY method calculates the probability that each amino acid is an α-helix at each residue position in the training sequence as a probability distribution, and then calculates the probability of the α-helix for each region of the test sequence.

【0005】[0005]

【発明が解決しようとする課題】タンパク質アミノ酸配
列においては、各アミノ酸残基同士は依存関係を保持
し、その局所的な立体構造や機能的な部位を形成してい
ると考えられている。従って、タンパク質の局所的な立
体構造を表現及び予測するためには、それら局所的な立
体構造内の各残基間の依存関係の表現が重要であると考
えられる。しかし、従来、それら残基位置間に依存する
依存関係をネットワークの形で自動的に抽出する方法
や、さらに、その依存関係を規則として未知データに対
する予測を行う方法は、全く検討されておらず、そうい
った手法が確率されていなかった。
In the amino acid sequence of a protein, it is considered that each amino acid residue retains a dependency and forms a local three-dimensional structure or a functional site. Therefore, in order to represent and predict the local three-dimensional structure of a protein, it is considered important to express the dependence between the residues in the local three-dimensional structure. However, there has been no study on a method for automatically extracting a dependency depending on the residue position in the form of a network or a method for predicting unknown data by using the dependency as a rule. , Such a method was not established.

【0006】[0006]

【課題を解決するための手段】本発明は、タンパク質構
造を予測するための確率的規則の構造を学習するステッ
プを有するタンパク質立体構造予測方法において、前記
ステップは、正例と負例とからなるアミノ酸配列の訓練
データを入力するステップと、各アミノ酸の依存関係を
条件付き確率として、正例及び負例の実数値パラメータ
を計算するステップと、該実数値パラメータにより定め
られた情報量基準を用いて、該アミノ酸配列の各々の残
基位置が依存している他の残基位置を決定することによ
り、該依存関係を表現する確率的規則の構造を構築して
出力するステップとを含み、前記確率的規則の構造を用
いてテストデータの活性度を計算し、計算された活性度
に基づいてタンパク質の立体構造を予測することを特徴
とする。
Means for Solving the Problems The present invention provides a protein structure.
Steps to learn the structure of stochastic rules for predicting
In the method for predicting a protein three-dimensional structure having
The step consists of training the amino acid sequence consisting of positive and negative examples.
Entering the data and the dependencies of each amino acid
Positive and negative real-valued parameters as conditional probabilities
And the real-valued parameters
Using the information criterion provided, the residue of each of the amino acid sequences
By determining the position of other residues on which the base position depends
And constructing a probabilistic rule structure to express the dependency
Outputting the probabilistic rule.
Calculate the activity of the test data and calculate the activity
Predicts the three-dimensional structure of proteins based on
And

【0007】また、本発明は、タンパク質構造を予測す
るための確率的規則の構造を学習するステップを有する
タンパク質立体構造予測方法において、前記ステップ
は、正例と負例とからなるアミノ酸配列の訓練データを
実数値属性として入力するステップと、各アミノ酸の依
存関係を条件付き確率として、正例及び負例の実数値パ
ラメータを計算するステップと、該実数値パラメータに
より定められた情報量基準を用いて、該アミノ酸配列の
各々の残基位置が依存している他の残基位置を決定する
ことにより、該依存関係を表現する確率的規則の構造を
構築して出力するステップとを含み、前記確率的規則の
構造を用いてテストデータの活性度を計算し、計算され
た活性度に基づいてタンパク質の立体構造を予測するこ
とを特徴とする。
Further , the present invention provides a method for predicting a protein structure.
Learning the structure of stochastic rules for
In the protein three-dimensional structure prediction method, the step
Provides training data for amino acid sequences consisting of positive and negative examples.
Entering as real-valued attributes
Real-valued patterns of positive and negative examples
Calculating the parameters, and
Using a more defined information criterion, the amino acid sequence
Determine the other residue positions on which each residue position depends
Thus, the structure of the stochastic rule expressing the dependency is
Constructing and outputting the probabilistic rule.
Calculate the activity of the test data using the structure and calculate
Predict the three-dimensional structure of a protein based on the activity
And features.

【0008】また、本発明は、タンパク質構造を予測す
るための確率的規則の構造を学習するステップを有する
タンパク質立体構造予測方法において、前記ステップ
は、正例と負例とからなるアミノ酸配列の訓練データを
入力するステップと、各アミノ酸の依存関係を条件付き
確率として、正例及び負例の実数値パラメータを計算す
るステップと、該実数値パラメータにより定められた情
報量基準を用いて、該アミノ酸配列の各々の残基位置が
依存している他の残基位置を、依存関係が循環しないと
いう制限の下で決定することにより、該依存関係を表現
する確率的規則の構造を構築して出力するステップとを
含み、前記確率的規則の構造を用いてテストデータの活
性度を計算し、計算された活性度に基づいてタンパク質
の立体構造を予測することを特徴とする。
[0008] The present invention also provides a method for predicting a protein structure.
Learning the structure of stochastic rules for
In the protein three-dimensional structure prediction method, the step
Provides training data for amino acid sequences consisting of positive and negative examples.
Condition of input step and dependency of each amino acid
Calculate positive and negative real-valued parameters as probabilities.
And the information defined by the real-valued parameters.
Each residue position in the amino acid sequence is determined using the
If the residue does not circulate to other dependent residue positions
Express the dependency by deciding under the restrictions
Constructing and outputting a probabilistic rule structure
And use the structure of the probabilistic rules to activate test data.
Calculate the degree of activity and calculate the protein based on the calculated activity
Is predicted.

【0009】また、本発明は、タンパク質構造を予測す
るための確率的規則の構造を学習するステップを有する
タンパク質立体構造予測方法において、前記ステップ
は、正例と負例とからなるアミノ酸配列の訓練データを
実数値属性として入力するステップと、各アミノ酸の依
存関係を条件付き確率として、正例及び負例の実数値パ
ラメータを計算するステップと、該実数値パラメータに
より定められた情報量基準を用いて、該アミノ酸配列の
各々の残基位置が依存している他の残基位置を依存関係
が循環しないという制限の下で決定することにより、該
依存関係を表現する確率的規則の構造を構築して出力す
るステップとを含み、前記確率的規則の構造を用いてテ
ストデータの活性度を計算し、計算された活性度に基づ
いてタンパク質の立体構造を予測することを特徴とす
る。
The present invention also provides a method for predicting a protein structure.
Learning the structure of stochastic rules for
In the protein three-dimensional structure prediction method, the step
Provides training data for amino acid sequences consisting of positive and negative examples.
Entering as real-valued attributes
Real-valued patterns of positive and negative examples
Calculating the parameters, and
Using a more defined information criterion, the amino acid sequence
Dependency on other residue positions where each residue position depends
Is determined under the restriction that the
Build and output the structure of probabilistic rules expressing dependencies
Using the structure of the stochastic rule.
Calculate the activity of the strike data, and based on the calculated activity
And predicts the three-dimensional structure of the protein.
You.

【0010】[0010]

【実施例】次に、本発明について図面を参照して詳細に
説明する。
Next, the present invention will be described in detail with reference to the drawings.

【0011】図1は、本発明のタンパク質立体構造予測
方法の実施例を説明するフローチャートである。本実施
例では、対象とするタンパク質の局所的な立体構造とし
てαヘリックスを扱うものとする。
FIG. 1 is a flow chart for explaining an embodiment of the protein three-dimensional structure prediction method of the present invention. In this embodiment, it is assumed that an α-helix is treated as a local three-dimensional structure of a target protein.

【0012】ステップ11では、αヘリックスの領域が
わかっているタンパク質のアミノ酸配列に対して、同じ
ファミリーのタンパク質、例えば、種が異なる同じタン
パク質のアライメント(整合)をとり、αヘリックスに
対応する部分配列を、αヘリックスの正例として抽出す
る。
In step 11, the amino acid sequence of the protein whose α-helix region is known is aligned with the same family of proteins, for example, the same protein of different species, and the partial sequence corresponding to the α-helix is determined. Is extracted as a positive example of an α helix.

【0013】例えば、ヘモグロビンというタンパク質の
β鎖の場合には、ヒトのヘモグロビンのαヘリックスの
位置は、X線結晶回折の結果から明らかになっており、
8個のαヘリックスの領域を有することが知られてい
る。従って、ヒトのヘモグロビンβ鎖に対して、他の
種、例えば、チンパンジー、ウマなどの他の種のヘモグ
ロビンβ鎖のアライメントを行い、8個のαヘリックス
に対応する領域をαヘリックスの正例として抽出する。
For example, in the case of a protein β-chain called hemoglobin, the position of the α-helix of human hemoglobin has been clarified from the results of X-ray crystal diffraction.
It is known to have a region of eight α-helices. Therefore, human hemoglobin β chain is aligned with other species, for example, chimpanzee, horse and other species of hemoglobin β chain. Extract.

【0014】ステップ12では、αヘリックス位置の知
られているタンパク質のαヘリックスに対応する部分配
列に対して、αヘリックス位置の知られているアミノ酸
配列データベースの各配列のアライメントをとり、αヘ
リックスに対応しない部分配列を、ステップ10で抽出
されたαヘリックスの正例に対する負例として抽出す
る。
In step 12, each sequence of the amino acid sequence database with known α-helix position is aligned with the partial sequence corresponding to α-helix of the protein with known α-helix position, Non-corresponding subsequences are extracted as a negative example relative to the positive example of the α helix extracted in step 10.

【0015】ヘモグロビンβ鎖の例では、8個のαヘリ
ックスに対応する部分配列に対して、例えば、PDB
(Protein Data Bank)などのタンパ
ク質構造データベース内のいくつかの配列に対してアラ
イメントを行い、アライメントの結果得られた各部分配
列において、その配列の構造がαヘリックスではない場
合に、それらを負例として抽出する。例えば、負例抽出
の際のアライメントでは、一定の割合以上の相同性を保
持する部分配列を負例とすることが考えられる。具体的
には、アライメントによる相同性が30%以上の部分配
列を負例とする方法などがある。
In the example of the hemoglobin β chain, the partial sequence corresponding to the eight α helices is, for example, PDB
Alignment is performed for several sequences in a protein structure database such as (Data Protein Bank), and in each partial sequence obtained as a result of the alignment, if the structure of the sequence is not α-helix, these are regarded as negative examples. Extract as For example, in the alignment at the time of extracting a negative example, it is conceivable that a partial sequence having homology of a certain ratio or more is regarded as a negative example. Specifically, there is a method using a partial sequence having a homology of 30% or more by alignment as a negative example.

【0016】抽出するデータ数については、例えば、α
ヘリックスの正例となる各領域における正例と負例との
割合を各領域についてそれぞれ等しくすることが考えら
れる。さらに、具体的には、その割合として正例、負例
を同数とすることが考えられる。
The number of data to be extracted is, for example, α
It is conceivable that the ratio of the positive example to the negative example in each region serving as the positive example of the helix is made equal in each region. Furthermore, more specifically, it is conceivable that the same number of positive examples and negative examples is used as the ratio.

【0017】ステップ13は、ステップ11及びステッ
プ12で抽出された正例と負例から、確率的規則の実数
値パラメータを計算するステップである。
Step 13 is a step of calculating the real-valued parameters of the probabilistic rule from the positive and negative examples extracted in steps 11 and 12.

【0018】確率的規則とは、ここでは任意の与えられ
た配列の領域に対して、αヘリックスが対応する確率を
与える確率分布のことである。各Xi (i=
1,...,n)をそれぞれ属性値の空間として、Xを
それらの直積、すなわち、X=X1 ×X2 ×...×X
n と書く。
The stochastic rule here is a probability distribution that gives a probability that an α-helix corresponds to an arbitrary region of a given sequence. Each X i (i =
1,. . . , N) are attribute value spaces, and X is their direct product, that is, X = X 1 × X 2 ×. . . × X
Write n .

【0019】例えば、Xは20種類のアミノ酸からなる
一つの集合を表す場合や、またX=X1 ×X2 で、X1
が疎水性を表す数値の範囲かつX2 が分子量を表す数値
の範囲を表す場合などがある。
For example, X represents one set of 20 kinds of amino acids, or X = X 1 × X 2 and X 1
May represent a range of numerical values representing hydrophobicity and X 2 may represent a range of numerical values representing molecular weight.

【0020】αヘリックスの正例中の長さLのウィンド
ウWに対し、テスト配列中の任意の長さLの領域SがW
部分に対応する確からしさを以下のように求める。ま
ず、Xt (以下、変数と呼ぶ)を配列Sの左から数えて
t番目の残基位置であり、πtを領域WにおいてXt
依存する残基位置の集合(以下、πt をXt の親変数の
集合、Xt をπt の子変数と呼ぶ)とする。ここで、
For a window W of length L in the positive example of the α helix, a region S of arbitrary length L in the test sequence is W
The likelihood corresponding to the part is determined as follows. First, X t (hereinafter, referred to as a variable) is the t-th residue position counted from the left of the sequence S, and π t is a set of residue positions on which X t depends in the region W (hereinafter, π t is referred to as a variable). set of parent variables of X t, the X t is referred to as a child variable of π t) to. here,

【0021】[0021]

【数1】 (Equation 1)

【0022】を、領域Wにおいて、Xt がπt に依存し
ている条件付き確率とし、領域SがW部分に対応する確
からしさPw(S)は、次のように書けるものと仮定す
る。
Let the conditional probability that X t depends on π t be in the region W, and assume that the probability Pw (S) that the region S corresponds to the W portion can be written as follows.

【0023】[0023]

【数2】 (Equation 2)

【0024】1式の右辺は、変数をノードとし、変数間
の親から子にアークを伸ばすことにより、ネットワーク
構造に対応する。例えば、領域Sが3残基からなり、領
域Sの各残基の結合確率が具体的に次式のように書ける
ものとすれば、次式は図3のネットワークに対応する。
The right side of Equation 1 corresponds to a network structure by using variables as nodes and extending an arc from a parent to a child between the variables. For example, if the region S is composed of three residues, and the connection probability of each residue in the region S can be specifically written as the following expression, the following expression corresponds to the network of FIG.

【0025】[0025]

【数3】 (Equation 3)

【0026】さらに、各Further, each

【0027】[0027]

【数4】 (Equation 4)

【0028】は、与えられた正例と負例とからなる事例
データから、例えば、次のようにして決定される。
Is determined as follows, for example, from the given case data including the positive and negative examples.

【0029】まず、t番目の残基位置において、属性の
実数値のとり得る範囲を重なり合わない部分領域(以
下、これをセルと呼ぶ)に有限分割し、mt を全セル
数、Ciをi番目のセルとする。
[0029] First, in the t-th residue position, partial area not overlapping the possible range of real-valued attributes (hereinafter, referred to as cells) and finite divided, the total number of cell m t, C i Is the i-th cell.

【0030】t番目の位置の残基がmt 個のセルの内の
i に含まれる場合に、Xt の生起確率P(Xt =i)
=pi (t)とする。ここで、
[0030] If the residue of the t-th position is included in C i of the m t number of cells, X t of the occurrence probability P (X t = i)
= P i (t). here,

【0031】[0031]

【数5】 (Equation 5)

【0032】であり、これを確率パラメータと呼ぶ。図
4は、有限分割の構造を示す例であるが、値が0から1
の範囲をとる一つの属性により確率パラメータを推定す
る場合を示す。
This is called a probability parameter. FIG. 4 shows an example of the structure of the finite division, in which the value is from 0 to 1.
Shows a case where a probability parameter is estimated by one attribute having a range of.

【0033】確率パラメータは、各セルに含まれる正例
及び負例のデータ数を用いて推定する。
The probability parameter is estimated using the number of positive and negative data included in each cell.

【0034】[0034]

【数6】 (Equation 6)

【0035】をt番目の位置でのi番目のセルに含まれ
る正例数、Ni (t)をt番目の位置でのi番目のセル
に含まれる正例数と負例数の和とし、t番目の位置での
i番目のセルにおける推定値をpi (t)とする。例え
ば、次式のラプラス推定量によって、各セルに対する確
率パラメータを計算する。
Is the number of positive cases contained in the i-th cell at the t-th position, and N i (t) is the sum of the number of positive cases and the number of negative cases contained in the i-th cell at the t-th position. , Let the estimated value at the i-th cell at the t-th position be p i (t). For example, a probability parameter for each cell is calculated by the Laplace estimator of the following equation.

【0036】[0036]

【数7】 (Equation 7)

【0037】ただし、推定量はラプラス推定量のみなら
ず、多くの推定量が使用できる。次に、同様に、Xt
πt の結合確率P(Xt ,πt )も推定量を用いて計算
できる。例えば、πt の要素が変数Xs のみである場
合、Xs をXt と同様に重なり合わないms 個の部分領
域に有限分割し、s番目の残基がms 個のセル内のCj
に含まれ、
However, not only the Laplace estimator but also many estimators can be used. Then, similarly, X t and [pi t joint probability P (X t, π t) can be calculated using the estimated amount. For example, [pi when the elements of t is only variable X s, and finite divides X s in m s number of partial areas not overlapping in the same manner as X t, s-th residue of the m s number of cells C j
Included in

【0038】[0038]

【数8】 (Equation 8)

【0039】とし、確率パラメータpi , j (t,s)
を推定する。
And the probability parameters p i, j (t, s)
Is estimated.

【0040】t番目,s番目の各位置において、各セル
に含まれる正例及び負例のデータ数から、
At each of the t-th and s-th positions, based on the number of data of the positive and negative examples contained in each cell,

【0041】[0041]

【数9】 (Equation 9)

【0042】を各位置においてそれぞれi,j番目のセ
ルに含まれる正例数、Ni , j (t,s)を各位置にお
いてそれぞれi,j番目のセルに含まれる正例数と負例
数の和とする。これから、例えば、次式のラプラス推定
量により、確率パラメータを推定する。
Is the number of positive examples included in the i, j-th cell at each position, and N i, j (t, s) is the number of positive examples and the negative example included in the i, j-th cell at each position. The sum of numbers. From this, for example, a probability parameter is estimated by the following Laplace estimator.

【0043】[0043]

【数10】 (Equation 10)

【0044】最後に、これら推定された確率パラメータ
を用いて、πt が存在する下でのXt の条件付き確率
Finally, using these estimated probability parameters, the conditional probability of X t in the presence of π t

【0045】[0045]

【数11】 [Equation 11]

【0046】を確率パラメータとして計算する。上述の
ように、πt の要素が変数Xs のみであり、t番目及び
s番目の各位置をそれぞれmt 個、ms 個に有限分割
し、さらに、各位置の残基がセルCi 、Cj に含まれる
場合、
Is calculated as a probability parameter. As described above, [pi elements t is only variable X s, t th and s-th each m t pieces each position, and finite divided into m s pieces, further residue cell C i of each position , C j ,

【0047】[0047]

【数12】 (Equation 12)

【0048】とし、確率パラメータAnd the probability parameter

【0049】[0049]

【数13】 (Equation 13)

【0050】は次式のように計算する。Is calculated as follows:

【0051】[0051]

【数14】 [Equation 14]

【0052】ステップ14では、確率的規則の構造を決
定する。すなわち、各変数Xt に対し、その親変数の集
合πt を情報量基準を使用して決定するステップであ
り、本発明の第1の発明と第3の発明に相当する。
In step 14, the structure of the stochastic rule is determined. That is, for each variable X t , a set of parent variables π t is determined using the information amount criterion, and corresponds to the first and third inventions of the present invention.

【0053】以下、情報量基準として記述長最小(Mi
nimum Description Lenghth
(MDL))原理(以下、MDL原理)と適用した場合
のネットワーク構成方法の一例について述べる。なお、
MDL原理については、1978年発行の米国の雑誌
「オートマティカ」(Automatica)の第14
巻465−471頁記載のリサネン(Rissane
n)による論文「モデリング バイ ショーテスト デ
ータ ディスクリプション」(Modelingby
shortest data descriptio
n)に詳しく記載されている。
Hereinafter, the minimum description length (Mi
minimum Description Length
(MDL) An example of a network configuration method when applied to the principle (hereinafter, the MDL principle) will be described. In addition,
For the MDL principle, see the 14th edition of the American magazine "Automatica" published in 1978.
Volume 465-471, Rissane.
n), "Modeling by Shortest Data Description" (Modelingby
shortest data description
n).

【0054】MDL原理によれば、与えられた事例デー
タから計算されるデータ記述長と規則の記述長との和が
最小となる規則を最適な規則する。従って、ステップ1
1、12、13において求められた正例、負例及び実数
値パラメータから、ここでの確率的規則のデータ記述長
及び規則の記述長を計算する。
According to the MDL principle, the rule that minimizes the sum of the data description length calculated from given case data and the rule description length is determined as the optimal rule. Therefore, step 1
The data description length of the probabilistic rule and the description length of the rule here are calculated from the positive examples, negative examples, and real-valued parameters obtained in 1, 12, and 13.

【0055】ここで説明する例では、各残基位置ごと
に、その位置と依存関係にある位置を決定していくこと
を考える。すなわち、各変数毎に独立にその親の変数を
決定していく。
In the example described here, it is considered that, for each residue position, a position that is dependent on the position is determined. That is, the parent variable is determined independently for each variable.

【0056】まず、t番目の残基位置に着目する。変数
t とその親変数の集合πt との依存関係は、1式の確
率的規則から条件付き確率
First, attention is paid to the t-th residue position. The dependency between the variable X t and its parent variable set π t is determined by the conditional probability

【0057】[0057]

【数15】 (Equation 15)

【0058】で表現される。ここで、親変数の数をk、
親変数の残基位置を順番にtl からtk とし、また、t
及びtl からtk の残基位置での全セル数をそれぞれm
t ,mt l ,・・・,mt k とする。さらに、変数Xt
の残基がi、変数Xt l からXt k の残基が、それぞれ
l ,・・・,jk 番目のセルに含まれるような属性を
有している正例数を
Is represented by Here, the number of parent variables is k,
The residue position of the parent variables and t k from t l in order, also, t
And the total number of cells at residue positions from t l to t k is m
t, m tl, ···, and m tk. Further, the variable X t
Residues i, residues X tk from the variable X tl, respectively j l, · · ·, a positive number of cases that have attributes such as contained in j k th cell

【0059】[0059]

【数16】 (Equation 16)

【0060】、変数Xt の残基がi、変数Xt l からX
t k の残基が、それぞれjl ,・・・,jk 番目のセル
に含まれるような属性を有している正例数と負例数との
和をNi , j l , ・ ・ ・ , j k (t,tl ,・・・,t
k )、変数Xt の残基がi、変数Xt l からXt k の残
基が、それぞれjl ,・・・,jk 番目のセルに入るよ
うな属性を有している条件付き確率の確率パラメータを
[0060], residues of variable X t is i, from the variable X tl X
residues tk are respectively j l, · · ·, the sum N i of the j k-th number of positive cases that have attributes such as the cell contains a negative number of cases, jl, · · ·, jk (t, t l , ..., t
k), the variable X residues t is i, the residues X tk from the variable X tl, respectively jl, · · ·, a j k-th conditional probability has attributes such as entering a cell probability Parameter

【0061】[0061]

【数17】 [Equation 17]

【0062】とする。It is assumed that

【0063】すると、ここでの確率的規則のデータ記述
長は、ステップ13により計算された確率パラメータか
ら、規則の対数尤度の負をとることにより、次式で与え
られる。
Then, the data description length of the probabilistic rule here is given by the following equation by taking the log likelihood of the rule negative from the probability parameter calculated in step 13.

【0064】[0064]

【数18】 (Equation 18)

【0065】さらに、ここでの確率的規則の規則の記述
長は、次式で与えられる。
Further, the description length of the rule of the stochastic rule is given by the following equation.

【0066】[0066]

【数19】 [Equation 19]

【0067】従って、t番目の残基位置に相当する変数
t に対し、(6)式と(7)式との和を最小にするよ
うな親変数の集合を選択することにより、確率的規則の
構造が決定される。
[0067] Therefore, with respect to the variable X t, which corresponds to t-th residue positions, by selecting the set of parent variables minimizing the sum of (6) and (7), stochastic The structure of the rule is determined.

【0068】ステップ15では、ステップ14において
構成された確率的規則を使用し、与えられたテストデー
タ配列の各領域に対して、その活性度を計算する。
In step 15, the probabilistic rule constructed in step 14 is used to calculate the activity of each region of the given test data array.

【0069】ここでは、活性度として尤度を使用する。Here, likelihood is used as the activity.

【0070】まず、訓練配列の正例中の任意の長さLの
領域Wを取り出す。このWの各残基位置に対応する変数
に対して、その親変数がステップ14において決定され
ている。さらに、各変数とその親変数との依存関係を表
す条件付き確率の実数値パラメータは、ステップ13に
おいて算出されている。
First, an area W having an arbitrary length L in the positive example of the training sequence is extracted. The parent variable of the variable corresponding to each residue position of W has been determined in step 14. Further, the real-valued parameter of the conditional probability representing the dependency between each variable and its parent variable is calculated in step 13.

【0071】次に、この領域Wをテスト配列の任意の長
さLの部分配列Sにあてはめ、そのαヘリックスの尤度
を計算する。
Next, this area W is applied to a partial sequence S of an arbitrary length L of the test sequence, and the likelihood of the α helix is calculated.

【0072】例えば、L=3の領域Wにおいて、(2)
式のような確率的規則の構造が決定され、テスト配列の
L=3の領域Sでは、その領域内の各残基が順に、2、
1、3番目のセルに入る実数値属性を有しているとす
る。すると、この領域SがWである尤度は次式で計算で
きる。
For example, in the area W where L = 3, (2)
The structure of the stochastic rule such as the equation is determined, and in the region S of L = 3 of the test sequence, each residue in the region is 2,
Suppose that it has a real-valued attribute that goes into the first and third cells. Then, the likelihood that this area S is W can be calculated by the following equation.

【0073】[0073]

【数20】 (Equation 20)

【0074】この動作を訓練配列の正例中の取り得る全
ての長さLの領域で構成された確率的規則を使用し、テ
スト配列中の長さLの全ての部分配列に対して行う。
This operation is performed on all the sub-arrays of length L in the test array using a probabilistic rule composed of all possible length L regions in the positive example of the training array.

【0075】ステップ16では、テスト配列中の任意の
長さLの領域Sに対して、訓練配列中の正例の取り得る
全ての長さLの領域により算出された複数の尤度の中
で、最大の尤度を選出し、領域Sのαヘリックスの尤度
とする。
In step 16, for a region S of an arbitrary length L in the test sequence, a plurality of likelihoods calculated by all possible length L regions of the positive example in the training sequence are calculated. , The maximum likelihood is selected as the α-helix likelihood of the region S.

【0076】ステップ15及びステップ16の動作は次
のようにまとめることができる。すなわち、訓練配列中
の正例中の長さLの領域の全ての集合をAとし、テスト
配列の長さLの部分配列Sに対するαヘリックスの尤度
P(S)を次式により計算する。
The operations in steps 15 and 16 can be summarized as follows. That is, all sets of the length L region in the positive sequence in the training sequence are A, and the likelihood P (S) of the α helix with respect to the partial sequence S having the length L of the test sequence is calculated by the following equation.

【0077】[0077]

【数21】 (Equation 21)

【0078】この動作をテスト配列の各領域に対して繰
り返すことにより、テスト配列の各領域において、αヘ
リックスの尤度を計算する。
By repeating this operation for each area of the test array, the likelihood of the α helix is calculated for each area of the test array.

【0079】ここで、さらに、αヘリックス領域が複数
個あれば、各αヘリックス領域について、同様な尤度計
算を行ない、αヘリックス領域全体を通じて最大の尤度
を最適値として選ぶ。
Here, if there are a plurality of α-helix regions, the same likelihood calculation is performed for each α-helix region, and the maximum likelihood is selected as the optimum value over the entire α-helix region.

【0080】さらに、テスト配列内の尤度が与えられた
各領域において、最大の尤度を領域内の各残基の最適値
とする、あるいは、領域内の各残基に対しては、その残
基を含む領域の得られた尤度の平均を各残基の最適値と
する、などの方法を使用し、テストアミノ酸配列全体に
対する尤度の変化を出力する。
Further, in each region where the likelihood in the test sequence is given, the maximum likelihood is set as the optimum value of each residue in the region. The average of the obtained likelihood of the region containing the residue is used as the optimum value of each residue, and the like, and the likelihood change for the entire test amino acid sequence is output.

【0081】以上の図1における学習及び予測方法は、
αヘリックス以外の二次構造及びモチーフ等の局所領域
の特徴抽出、さらに予測に適用できる。図2は、本発明
のタンパク質立体構造予測方法の実施例を説明するフロ
ーチャートである。本実施例では、対象とする二次構造
としてαヘリックスを扱うものとする。
The learning and predicting method in FIG.
The present invention can be applied to feature extraction and prediction of local regions such as secondary structures and motifs other than the α-helix. FIG. 2 is a flowchart illustrating an embodiment of the protein three-dimensional structure prediction method of the present invention. In the present embodiment, it is assumed that an α-helix is used as a target secondary structure.

【0082】ステップ21は、図1のステップ11と同
じ処理を行ないαヘリックス領域予測のために必要な正
例を抽出する。
In step 21, the same processing as in step 11 in FIG. 1 is performed to extract a positive example required for α-helix region prediction.

【0083】ステップ22は、図1のステップ12と同
じ処理を行ないαヘリックス領域予測のために必要な負
例を抽出する。
In step 22, the same processing as in step 12 in FIG. 1 is performed to extract a negative example necessary for α-helix region prediction.

【0084】ステップ23は、図1のステップ13と同
じ処理を行ないステップ21及びステップ22で抽出さ
れた正例及び負例から、確率的規則の実数値パラメータ
を推定する。
In step 23, the same processing as in step 13 in FIG. 1 is performed, and the real-valued parameters of the probabilistic rule are estimated from the positive and negative examples extracted in steps 21 and 22.

【0085】ステップ24は、確率的規則の構築に制限
が加われ、局所構造領域の全変数の結合確率分布として
無矛盾な確率的規則を構築するステップであり、本発明
の第2の発明と第4の発明に含まれる。ここでの制限と
は、確率的規則を図3のようなネットワーク構造で示し
た場合に、確率分布に矛盾が生じないように、アークの
方向を非循環とする制限である。例えば、図3は非循環
ネットワークの例であるが、この図において、X1 から
3 に伸びているアークを逆にX3 からX1 へと伸ばせ
ば、このネットワークは循環ネットワークとなり、その
ようなネットワークの生成は許さない。
Step 24 is a step in which the construction of the probabilistic rule is restricted, and a consistent probabilistic rule is constructed as a joint probability distribution of all variables in the local structure region. Included in the invention. The restriction here is a restriction in which the direction of the arc is non-circular so that the probability distribution does not conflict when the probabilistic rule is represented by a network structure as shown in FIG. For example, FIG. 3 is an example of a non-circulating network. In this figure, if the arc extending from X 1 to X 3 is extended from X 3 to X 1 , the network becomes a cyclic network, and so on. We do not allow the creation of a simple network.

【0086】制限を加える方法として、例えば、各変数
に順番付けを行ない、順番の小さい変数のみを親変数と
して持てるとする方法、あるいは、アークに循環が生じ
るような依存関係が構成される場合にのみ、その依存関
係を成立しないようにする方法などが考えられる。
As a method of adding a restriction, for example, a method in which each variable is ordered and only variables having a small order can be used as a parent variable, or a case where a dependency is formed such that an arc is circulated. Only, a method of preventing the dependency from being established can be considered.

【0087】ステップ25は、図1のステップ15と同
じ処理を行ない、ステップ24を使用して構造が最適化
された確率的規則を使用し、テストアミノ酸配列データ
の各領域に対して、その活性度を計算する。
In step 25, the same processing as in step 15 in FIG. 1 is performed, and using a stochastic rule whose structure has been optimized using step 24, the activity of each region of the test amino acid sequence data is determined. Calculate the degree.

【0088】ステップ26は、図1のステップ16と同
じ処理を行ないステップ25により求められた複数の活
性度から、配列全体に対する活性度の変化を出力する。
In step 26, the same processing as in step 16 of FIG. 1 is performed, and a change in the activity for the entire array is output from the plurality of activities determined in step 25.

【0089】以上の図2における学習及び予測方法は、
αヘリックス以外の二次構造及びモチーフ等の局所領域
の特徴抽出、さらに予測に適用できる。
The learning and prediction method in FIG.
The present invention can be applied to feature extraction and prediction of local regions such as secondary structures and motifs other than the α-helix.

【0090】[0090]

【発明の効果】立体構造既知のタンパク質のアミノ酸配
列情報から、局所的な立体構造さえも未知のタンパク質
の局所的な立体構造を従来技術に対して高い精度で予測
可能である。例えば、従来手法の一つであるMY法で
は、局所領域内の残基位置間の依存関係を全く考慮して
いなかったが、残基位置間の依存性を反映した確率的規
則の構成によって、より精度の高い局所領域の特徴抽出
及び予測が可能になっている。また、情報量規準に基づ
く最適化により、確率的規則の構造を理論的に最適化す
ることが可能になる。
According to the present invention, from the amino acid sequence information of a protein having a known three-dimensional structure, the local three-dimensional structure of a protein whose local three-dimensional structure is unknown can be predicted with higher accuracy than the prior art. For example, the MY method, which is one of the conventional methods, does not consider the dependency between the residue positions in the local region at all. However, due to the configuration of the probabilistic rule reflecting the dependency between the residue positions, The feature extraction and prediction of the local region with higher accuracy can be performed. In addition, the optimization based on the information criterion makes it possible to theoretically optimize the structure of the stochastic rule.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明のタンパク質立体構造予測方法の一実施
例を示すフローチャート
FIG. 1 is a flow chart showing one embodiment of the protein three-dimensional structure prediction method of the present invention.

【図2】本発明のタンパク質立体構造予測方法の一実施
例を示すフローチャート
FIG. 2 is a flowchart showing an embodiment of the protein three-dimensional structure prediction method of the present invention.

【図3】本発明で使用する確率的規則の変数間の依存関
係を示す模式図。
FIG. 3 is a schematic diagram showing a dependency relationship between variables of a stochastic rule used in the present invention.

【図4】本発明において各残基位置で行う有限分割の具
体例を示す模式図
FIG. 4 is a schematic diagram showing a specific example of finite division performed at each residue position in the present invention.

【符号の説明】[Explanation of symbols]

11 正例抽出 12 負例抽出 13 実数値パラメータ推定 14 確率的規則の構造の決定 15 テスト配列に対する活性度算出 16 テスト配列に対する予測値算出 21 正例抽出 22 負例抽出 23 実数値パラメータ推定 24 確率的規則の構造の決定 25 テスト配列に対する活性度計算 26 テスト配列に対する予測値算出 11 Extraction of positive examples 12 Extraction of negative examples 13 Estimation of real-valued parameters 14 Determination of the structure of probabilistic rules 15 Calculation of activity for test sequences 16 Calculation of predicted values for test sequences 21 Extraction of positive examples 22 Extraction of negative examples 23 Real-valued parameter estimation 24 Probability Determining the structure of a statistical rule 25 Calculating activity for a test sequence 26 Calculating a predicted value for a test sequence

フロントページの続き (56)参考文献 情報処理学会全国大会講演論文集,第 45回,1−343〜1−344,馬見塚,山崎 「確率的規則を用いたタンパク質のヘリ ックス領域予測」(平4−10−11) (58)調査した分野(Int.Cl.7,DB名) G06F 15/20 G06F 15/40 530 Continuation of the front page (56) References Proceedings of the IPSJ National Convention, 45th, 1-343-344, Mamizuka, Yamazaki "Helix region prediction of proteins using stochastic rules" (Hei 4 −10−11) (58) Fields investigated (Int.Cl. 7 , DB name) G06F 15/20 G06F 15/40 530

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】タンパク質構造を予測するための確率的規
則の構造を学習するステップを有するタンパク質立体構
造予測方法において、 前記ステップは、正例と負例とからなるアミノ酸配列の
訓練データ入力するステップと各アミノ酸の依存関
係を条件付き確率として、正例及び負例の実数値パラメ
ータを計算するステップと、該実数値パラメータにより
定められた情報量基準を用いて、該アミノ酸配列の各々
の残基位置が依存している他の残基位置を決定すること
により、該依存関係を表現する確率的規則の構造を構築
して出力するステップとを含み、 前記確率的規則の構造を用いてテストデータの活性度を
計算し、計算された活性度に基づいてタンパク質の立体
構造を予測する ことを特徴とするタンパク質立体構造予
測方法。
1. A stochastic rule for predicting a protein structure.
In protein tertiary structure prediction method having a step of learning the structure of law, the step includes a step of inputting <br/> training data of the amino acid sequence consisting of positive cases and negative cases, the dependency of each amino acid conditions attached as a probability, real value parameters of the positive examples and negative examples
Calculating the data position and using the information criterion defined by the real-valued parameters to determine other residue positions on which each residue position of the amino acid sequence is dependent. by, and a step of outputting to build the structure of probabilistic rules that express the dependency, the activity of the test data using the structure of the probabilistic rule
Calculates and calculates the 3D of the protein based on the calculated activity
A method for predicting a protein three-dimensional structure, comprising predicting a structure.
【請求項2】タンパク質構造を予測するための確率的規
則の構造を学習するステップを有するタンパク質立体構
造予測方法において、 前記ステップは、正例と負例とからなるアミノ酸配列の
訓練データを実数値属性として入力するステップと
アミノ酸の依存関係を条件付き確率として、正例及び負
例の実数値パラメータを計算するステップと、該実数値
パラメータにより定められた情報量基準を用いて、該ア
ミノ酸配列の各々の残基位置が依存している他の残基位
置を決定することにより、該依存関係を表現する確率的
規則の構造を構築して出力するステップとを含み、 前記確率的規則の構造を用いてテストデータの活性度を
計算し、計算された活性度に基づいてタンパク質の立体
構造を予測する ことを特徴とするタンパク質立体構造予
測方法。
2. A stochastic rule for predicting a protein structure.
In protein tertiary structure prediction method having a step of learning the structure of law, the step includes a step of inputting <br/> training data of the amino acid sequence consisting of positive cases and negative cases as a real numeric attributes, each
Amino acid of dependency as a conditional probability, positive examples and negative
Calculating an example real-valued parameter;
Using the information criterion defined by the parameters, determine the residue positions on which each residue position of the amino acid sequence depends, thereby constructing a probabilistic rule structure expressing the dependency relationship. and a step of and outputs, the activity of the test data using the structure of the probabilistic rule
Calculates and calculates the 3D of the protein based on the calculated activity
A method for predicting a protein three-dimensional structure, comprising predicting a structure.
【請求項3】タンパク質構造を予測するための確率的規
則の構造を学習するステップを有するタンパク質立体構
造予測方法において、 前記ステップは、正例と負例とからなるアミノ酸配列の
訓練データを入力する ステップと、各アミノ酸の依存関
係を条件付き確率として、正例及び負例の実数値パラメ
ータを計算するステップと、該実数値パラメータにより
定められた情報量基準を用いて、該アミノ酸配列の各々
の残基位置が依存している他の残基位置を、依存関係が
循環しないという制限の下で決定することにより、該依
存関係を表現する確率的規則の構造を構築して出力する
ステップとを含み、 前記確率的規則の構造を用いてテストデータの活性度を
計算し、計算された活性度に基づいてタンパク質の立体
構造を予測することを特徴とするタンパク質立体構造予
測方法。
3. A stochastic rule for predicting a protein structure.
Three-dimensional structure with the step of learning the rule structure
In the structure prediction method, the step comprises the steps of:
Input training data and the dependence of each amino acid
Real-valued parameters for positive and negative examples
Calculating the data and the real-valued parameters
Using a defined information criterion, each of the amino acid sequences
The other residue positions on which the
By making decisions under the restriction of not circulating,
Construct and output the structure of probabilistic rules expressing existence relationships
And determining the activity of the test data using the structure of the stochastic rule.
Calculates and calculates the 3D of the protein based on the calculated activity
Protein three-dimensional structure prediction characterized by predicting the structure
Measurement method.
【請求項4】タンパク質構造を予測するための確率的規
則の構造を学習するステップを有するタンパク質立体構
造予測方法において、 前記ステップは、正例と負例とからなるアミノ酸配列の
訓練データを実数値属性として入力するステップと、各
アミノ酸の依存関係を条件付き確率として、正例及び負
例の実数値パラメータを計算するステップと、該実数値
パラメータにより定められた情報量基準を用いて、該ア
ミノ酸配列の各々の残基位置が依存している他の残基位
置を依存関係が循環しないという制限の下で決定するこ
とにより、該依存関係を表現する確率的規則の構造を構
築して出力するステップとを含み、 前記確率的規則の構造を用いてテストデータの活性度を
計算し、計算された活性度に基づいてタンパク質の立体
構造を予測することを特徴とするタンパク質立体構造予
測方法。
4. A stochastic rule for predicting a protein structure.
Three-dimensional structure with the step of learning the rule structure
In the structure prediction method, the step comprises the steps of:
Inputting training data as real-valued attributes;
Positive and negative amino acid dependencies as conditional probabilities
Calculating an example real-valued parameter;
Using the information criterion defined by the parameter,
Other residue positions at which each residue position in the amino acid sequence is dependent
Location under the restriction that dependencies do not cycle.
Form the structure of the probabilistic rule expressing the dependency.
And outputting the test data using the structure of the stochastic rule.
Calculates and calculates the 3D of the protein based on the calculated activity
Protein three-dimensional structure prediction characterized by predicting the structure
Measurement method.
JP24680593A 1993-10-01 1993-10-01 Protein three-dimensional structure prediction method Expired - Fee Related JP3012441B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24680593A JP3012441B2 (en) 1993-10-01 1993-10-01 Protein three-dimensional structure prediction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24680593A JP3012441B2 (en) 1993-10-01 1993-10-01 Protein three-dimensional structure prediction method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP9283233A Division JP2940529B2 (en) 1997-10-16 1997-10-16 Protein three-dimensional structure prediction method

Publications (2)

Publication Number Publication Date
JPH07105179A JPH07105179A (en) 1995-04-21
JP3012441B2 true JP3012441B2 (en) 2000-02-21

Family

ID=17153949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24680593A Expired - Fee Related JP3012441B2 (en) 1993-10-01 1993-10-01 Protein three-dimensional structure prediction method

Country Status (1)

Country Link
JP (1) JP3012441B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999018440A1 (en) * 1997-10-02 1999-04-15 Akiko Itai Method of inferring three-dimensional structure of protein
JP4084040B2 (en) * 2001-12-27 2008-04-30 セレスター・レキシコ・サイエンシズ株式会社 Protein structure prediction apparatus, protein structure prediction method, program, and recording medium
CN114283878B (en) * 2021-08-27 2024-06-25 腾讯科技(深圳)有限公司 Method and device for training matching model, predicting amino acid sequence and designing medicine

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
情報処理学会全国大会講演論文集,第45回,1−343〜1−344,馬見塚,山崎「確率的規則を用いたタンパク質のヘリックス領域予測」(平4−10−11)

Also Published As

Publication number Publication date
JPH07105179A (en) 1995-04-21

Similar Documents

Publication Publication Date Title
Rastas Lep-MAP3: robust linkage mapping even for low-coverage whole genome sequencing data
Snyder et al. Identification of protein coding regions in genomic DNA
Loh et al. Classification and regression trees and forests for incomplete data from sample surveys
Ando et al. Inference of gene regulatory model by genetic algorithms
Pachter et al. The mathematics of phylogenomics
CN114927162A (en) Multi-set correlation phenotype prediction method based on hypergraph representation and Dirichlet distribution
WO2008047383A2 (en) System and method for network association inference, validation and pruning based on integrated constraints from diverse data
CN115132270A (en) Drug screening method and system
Yang et al. NCResNet: noncoding ribonucleic acid prediction based on a deep resident network of ribonucleic acid sequences
US20050071123A1 (en) Refining stochastic grid filter
Weber et al. Mathematical contributions to dynamics and optimization of gene-environment networks
Montesinos‐López et al. Comparing gradient boosting machine and Bayesian threshold BLUP for genome‐based prediction of categorical traits in wheat breeding
JP3012441B2 (en) Protein three-dimensional structure prediction method
Cotta et al. A memetic-aided approach to hierarchical clustering from distance matrices: application to gene expression clustering and phylogeny
Cheng et al. Ancestral population genomics using coalescence hidden Markov models and heuristic optimisation algorithms
JP2940529B2 (en) Protein three-dimensional structure prediction method
Nielsen Inferring gene flow between populations using statistical methods
Tewfik et al. Parallel identification of gene biclusters with coherent evolutions
Mazidi et al. PSPGA: A New Method for Protein Structure Prediction based on Genetic Algorithm
Mattila Hidden Markov models: Identification, inverse filtering and applications
Kelly A Stochastic Dollo model for lateral transfer
den Hollander Stochastic models for genetic evolution
Lou Hidden Markov model approaches for biological studies
WO2022118607A1 (en) Information processing apparatus, information processing method, and program
JPH0713959A (en) Method for predicting protein stereoscopic structure

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees