JP2005049188A - Protein designing method - Google Patents

Protein designing method

Info

Publication number
JP2005049188A
JP2005049188A JP2003280703A JP2003280703A JP2005049188A JP 2005049188 A JP2005049188 A JP 2005049188A JP 2003280703 A JP2003280703 A JP 2003280703A JP 2003280703 A JP2003280703 A JP 2003280703A JP 2005049188 A JP2005049188 A JP 2005049188A
Authority
JP
Japan
Prior art keywords
potential
protein
sequence
amino acid
residue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003280703A
Other languages
Japanese (ja)
Inventor
Kentaro Onizuka
健太郎 鬼塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2003280703A priority Critical patent/JP2005049188A/en
Publication of JP2005049188A publication Critical patent/JP2005049188A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To model a potential constituting method for reflecting a net interaction between residues in comparison with an absolute value potential -log f abk(R) and a net potential -log f abk(R)/fk(R), and precisely calculate a probability likelihood between an sequence S and a structure C when a correlation between the tertiary structure and the sequence of a protein is statistically analyzed. <P>SOLUTION: The potential constituting method comprises reference to glycin and an average force field potential of the glycin as a data bank for constituting an average force field potential between the other residues. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、目標とする機能をもつタンパク質を設計する際の最適なアミノ酸残基配列を推定する技術に必要なアミノ酸残基間ポテンシャルの構成法と、そのポテンシャルの構成法を用いた、アミノ酸残基配列設計法、タンパク質熱安定性制御法、及び結合タンパク質アミノ酸残基配列設計法に関する。   The present invention provides a method for constructing the potential between amino acid residues necessary for a technique for estimating an optimal amino acid residue sequence when designing a protein having a target function, and an amino acid residue using the potential construction method. The present invention relates to a base sequence design method, a protein thermal stability control method, and a binding protein amino acid residue sequence design method.

タンパク質分子(protein molecule)の立体構造(tertiary structure)は、そのタンパク質を構成するアミノ酸残基配列(amino-residue sequence)によって決定されている。しかし、配列と立体構造との理論的な関係については、明確にわかっておらず、配列から、立体構造を構築(modeling)する方法は、確立されたとはいいがたい。また、この逆問題にあたる、目標とするタンパク質立体構造をもつタンパク質のアミノ酸残基配列を推定する方法も確立されたとはいえない。   The tertiary structure of a protein molecule is determined by the amino-residue sequence that constitutes the protein. However, the theoretical relationship between the sequence and the three-dimensional structure is not clearly understood, and it is difficult to say that a method for modeling the three-dimensional structure from the sequence has been established. Moreover, it cannot be said that a method for estimating the amino acid residue sequence of a protein having a target protein three-dimensional structure corresponding to this inverse problem has been established.

タンパク質のアミノ酸残基配列は、DNAの遺伝子情報から求めることができるほか、質量分析法などによって求めることができる。したがって、判明している遺伝子の数だけのタンパク質配列がデータとして登録されており、その数は数十万種類に及ぶ。   The amino acid residue sequence of a protein can be obtained from DNA genetic information, or can be obtained by mass spectrometry or the like. Therefore, as many protein sequences as the number of known genes are registered as data, and there are hundreds of thousands of them.

立体構造は、X線結晶解析(X-ray crystallography)や核磁気共鳴法(NMR nuclear magnetic resonance)によって求める場合、その実験、解析に多大な時間と労力と大きな設備を要する。現在までに、タンパク質立体構造データベースPDB(米国ラトガース大学に本拠地をもつ構造生物学研究連合(Research Collaboratory for Structural Biology) が管理する無償のデータベースhttp://www.rcsb.org/pdb/)には、二万以上の立体構造のデータが登録されているが、同じタンパク質を重複して登録している場合が多く、種類で考えた場合、せいぜい二千種類程度である。   When the three-dimensional structure is obtained by X-ray crystallography or NMR nuclear magnetic resonance, the experiment and analysis require a great amount of time, labor and large equipment. To date, the protein 3D structure database PDB (http://www.rcsb.org/pdb/) is a free database managed by the Research Collaboratory for Structural Biology, which is based in Rutgers University. The data of more than 20,000 three-dimensional structures are registered, but the same protein is often registered in duplicate, and when considering by type, there are at most about 2,000 types.

タンパク質のアミノ酸残基配列と立体構造との明確な関係(sequence-structure correlation)がわかり、アミノ酸残基配列から立体構造が理論的に、あるいは計算によって求められるようになれば、残基配列の判明している全タンパク質の立体構造が求められるようになるし、また反対に、必要とされる機能を持つタンパク質の立体構造を想定し、その想定された立体構造をもつ人工タンパク質のアミノ酸残基配列がどのようなものであるべきかを計算によって設計することができるようになる。これは、人工タンパク質の立体構造設計技術につながり、人工タンパク質を産業利用する場合の重要な技術になる。   If the sequence-structure correlation between the amino acid residue sequence of a protein and the three-dimensional structure is known, and the three-dimensional structure can be calculated theoretically or by calculation from the amino acid residue sequence, the residue sequence can be determined. The three-dimensional structure of all the proteins is required, and conversely, assuming the three-dimensional structure of the protein having the required function, the amino acid residue sequence of the artificial protein having the assumed three-dimensional structure It becomes possible to design what should be by calculation. This leads to a three-dimensional structure design technique for the artificial protein, and becomes an important technique for industrial use of the artificial protein.

タンパク質のアミノ酸残基配列と立体構造との関係から、タンパク質のアミノ酸残基配列のみが与えられた場合に、そのタンパク質の立体構造を推定するのが、タンパク質立体構造予測である。1970年代から研究されはじめ、当初は、タンパク質中の二次構造(secondary structure. helix,strand/sheetなどの規則的構造とcoilなどの不規則構造を指す)を予測することから始まった(非特許文献1,2)。1980年代には、タンパク質が、折り畳まれていない状態から安定した折り畳み構造をとるまでの物理的なメカニズムの研究がなされた(非特許文献3)。   From the relationship between the amino acid residue sequence of a protein and the three-dimensional structure, when only the amino acid residue sequence of the protein is given, the three-dimensional structure of the protein is estimated to predict the protein three-dimensional structure. Research began in the 1970s, and initially began by predicting secondary structures in proteins (secondary structure. Regular structures such as helix and strand / sheet and irregular structures such as coil) Reference 1,2). In the 1980s, studies were made on the physical mechanism from the unfolded state of proteins to a stable folded structure (Non-patent Document 3).

1990年代に入り、タンパク質のアミノ酸残基配列と立体構造との互換性(sequence-structure compatibility)を評価することによる折り畳み認識法(fold recognition)が開発され(非特許文献4、非特許文献5、および非特許文献6)、その後、配列解析技術(sequence analysis technique)が大幅に進歩したのをうけて(http://www.ncbi.nlm.nih.gov/BLAST/)、今日、タンパク質の概略の構造を推定することは、実用段階を迎えた。しかし、これらの方法は、予測しようとするタンパク質の立体構造が、タンパク質立体構造データベースに登録されている構造既知のタンパク質と非常に類似していることを前提としており、データベースにない新規構造を求めることはできない。また、構造既知のタンパク質と類似していたとしても、細かくみれば、かなり異なる構造であることも多く、正確なタンパク質立体構造予測ができるとはいいがたい。   In the 1990s, fold recognition was developed by evaluating the sequence-structure compatibility of amino acid residue sequences of proteins (non-patent document 4, non-patent document 5, And non-patent literature 6), and then, following the significant progress of sequence analysis technique (http://www.ncbi.nlm.nih.gov/BLAST/), today, protein overview Estimating the structure of has entered the practical stage. However, these methods are based on the premise that the three-dimensional structure of the protein to be predicted is very similar to a protein with a known structure registered in the protein three-dimensional structure database, and a new structure not found in the database is obtained. It is not possible. Moreover, even if it is similar to a protein with a known structure, it is often a quite different structure when viewed in detail, and it cannot be said that accurate protein three-dimensional structure prediction is possible.

そこで、構造既知構造と全くことなる新規構造をも予測可能な方法として、自元構造予測法(structure prediction ab initio, ab initio = from beginning)がある。これは、1980年代以来考えられてきた、タンパク質の折り畳みシミュレーションの発展型であり、与えられたアミノ酸残基配列からなるタンパク質をシミュレーションによってエネルギー最小化し、その最小のエネルギーをもつ構造をもって予測結果とするものである。1990年代も終りになって、断片組み立て法(segment assembly) 法が開発され(非特許文献7)、かなり効率よく、また精度の高い立体構造予測が可能になった。   Thus, as a method capable of predicting a new structure that is completely different from the known structure, there is a structure prediction ab initio (ab initio = from beginning). This is an evolutionary model of protein folding simulation that has been considered since the 1980s. The energy of a protein consisting of a given amino acid residue sequence is minimized by simulation, and the structure with the minimum energy is used as the prediction result. Is. At the end of the 1990s, a segment assembly method was developed (Non-Patent Document 7), which enabled highly efficient and highly accurate three-dimensional structure prediction.

断片組み立て法は、数残基からなる立体構造断片のとり得る部分立体構造を、タンパク質立体構造データベースからサンプリングし、この断片を連結することで、全体構造を構築しつつ、その分子動力学的、あるいは統計的ポテンシャルエネルギーが最小になるようにするものである。この方法によって、100残基程度からなる比較的小さなタンパク質については、実用的な時間で立体構造がかなり正確に予測できるようになった。しかし、その計算量は、まだ莫大であり、100CPU程度の並列計算機で、数十時間を要するものである。   In the fragment assembly method, a partial three-dimensional structure that a three-dimensional structure fragment consisting of several residues can be sampled from a protein three-dimensional structure database, and this fragment is connected to construct a whole structure, while its molecular dynamics, Alternatively, the statistical potential energy is minimized. By this method, a three-dimensional structure can be predicted fairly accurately in a practical time for a relatively small protein consisting of about 100 residues. However, the amount of calculation is still enormous, and it takes several tens of hours on a parallel computer of about 100 CPUs.

また、従来から指摘されていた問題として、エネルギー最適化を行なう場合のポテンシャルエネルギーとしてどのようなものを用いるか、という問題があった。   Further, as a problem that has been pointed out conventionally, there is a problem of what kind of potential energy is used when energy optimization is performed.

エネルギー関数として、従来は、原子間ポテンシャルを用いていたが、この場合水分子の影響を考慮する必要があり、タンパク質分子を包み込むだけの水分子をおよそ数万個を計算する際に導入する必要があった。この計算量が非常に大きく、エネルギー最適化が難しいものになっていた。そこで導入された統計的なポテンシャルとして、Sipplらの定義(非特許文献8)による平均力場ポテンシャルがあった。これを多次元に拡張した多次元平均力場ポテンシャル(非特許文献9)は非常に精度の高いものであったが、エネルギー最適化において利用する上では、大きな課題が存在した。   In the past, the interatomic potential was used as the energy function. In this case, however, it is necessary to consider the influence of water molecules, and it is necessary to introduce approximately tens of thousands of water molecules that wrap around protein molecules. was there. This calculation amount is very large, and energy optimization is difficult. As a statistical potential introduced there, there was an average force field potential according to the definition of Sippl et al. The multi-dimensional mean force field potential (Non-patent Document 9), which is an extension of this to multi-dimensions, was very accurate, but there were significant problems in using it in energy optimization.

このようなタンパク質立体構造予測法が研究されるのと並行して、タンパク質設計法についても研究がなされてきた。目的の機能をもつ人工タンパク質を設計することは、目的の機能をもつタンパク質のアミノ酸残基配列を設計することである。現状においては、このような研究の多くは、残基間相互作用に関する研究者のさまざまな知見を総動員して、配列を試行錯誤的に作っていくものであり、タンパク質立体構造予測法、あるいは立体構造構築法を逆に応用して、与えられたタンパク質立体構造に最適な配列を推定することによってタンパク質配列を設計することは、少数の例外 (非特許文献10,11, 12) を除いて行われていない。
Fasman G.D.,(1989) Prediction of Protein Structure and the Principles of Protein Conformation, New York: Plenum Publishing Corporation RostB., Sander C., (1993) Prediction of Protein Secondary Structure at better than 70% Accuracy. J. Mol. Biol., 232,584-599. Fasman G.D., (1989) Prediction of Protein Structure and the Principles of Protein Conformation, New York: Plenum Publishing Corporation Sippl M.J. (1990) Calculation of Conformational Ensembles from Potentials of Mean Force: An Approach to the Knowledge-based Prediction of Local Structure in Globular Proteins. J. Mol. Biol., 213,859-883 Bowie J.U. Luthy R.L., Eisenberg D. (1991)A Method to Identify Protein Sequences That Fold into a Known Three-Dimensional Structure. Science,253, 164-170.,YueK., Dill K. (1991) Inverse protein folding problem: Designing polymer sequences. Proc Natl Acad Sci USA, 89,4163-4167. Simons KT, Kooperberg C, Huan ES,Baker D, (1997) Assembly of protein tertiary structures from fragments with similar local sequences using simulated annealing and Bayesian scoring functions. J. Mol. Biol. 268,209-225. Sippl M.J. (1990) Calculation of Conformational Ensembles from Potentials of Mean Force: An Approach to the Knowledge-based Prediction of Local Structure in Globular Proteins. J. Mol. Biol., 213,859-883. Onizuka K., Noguchi T., Akiyama Y., Matsuda H., (2002) ``Using Data Compression for Multidimensional Distribution Analysis Intelligent SystemsMay/June2002, 48-54. Ota M, Isogai Y, Nishikawa K.(2001) “Knowledge-based potential defined for a rotamer library to design protein sequences.” Protein Eng. 2001 Aug;14(8):557-64. Isogai Y, Ishii A, Fujisawa T, Ota M, Nishikawa K. “Redesign of artificial globins: effects of residue replacements at hydrophobic sites on the structural properties.” Biochemistry. 2000 May 16;39(19):5683-90. Jin W., Kambara O., Sasakawa H., Tamura A., and Takada S. (2003) “De Novo Design of Foldable Proteins with Smooth Folding Funnel: Automated Negative Design and Experimental Verification” Structure, May 2003, 581-590.
In parallel with research on such protein tertiary structure prediction methods, research has also been conducted on protein design methods. Designing an artificial protein having a target function is to design an amino acid residue sequence of the protein having the target function. At present, many of these studies are based on trial and error making use of researchers' various knowledge on interresidue interactions to create sequences. Designing protein sequences by reversely applying structure construction methods and estimating the optimal sequence for a given protein conformation is possible with a few exceptions (10, 11, 12). I have not been told.
Fasman GD, (1989) Prediction of Protein Structure and the Principles of Protein Conformation, New York: Plenum Publishing Corporation RostB., Sander C., (1993) Prediction of Protein Secondary Structure at better than 70% Accuracy.J. Mol. Biol., 232,584-599. Fasman GD, (1989) Prediction of Protein Structure and the Principles of Protein Conformation, New York: Plenum Publishing Corporation Sippl MJ (1990) Calculation of Conformational Ensembles from Potentials of Mean Force: An Approach to the Knowledge-based Prediction of Local Structure in Globular Proteins.J. Mol. Biol., 213,859-883 Bowie JU Luthy RL, Eisenberg D. (1991) A Method to Identify Protein Sequences That Fold into a Known Three-Dimensional Structure. Science, 253, 164-170., YueK., Dill K. (1991) Inverse protein folding problem: Designing polymer sequences.Proc Natl Acad Sci USA, 89,4163-4167. Simons KT, Kooperberg C, Huan ES, Baker D, (1997) Assembly of protein tertiary structures from fragments with similar local sequences using simulated annealing and Bayesian scoring functions.J. Mol. Biol. 268,209-225. Sippl MJ (1990) Calculation of Conformational Ensembles from Potentials of Mean Force: An Approach to the Knowledge-based Prediction of Local Structure in Globular Proteins.J. Mol. Biol., 213, 859-883. Onizuka K., Noguchi T., Akiyama Y., Matsuda H., (2002) `` Using Data Compression for Multidimensional Distribution Analysis Intelligent SystemsMay / June2002, 48-54. Ota M, Isogai Y, Nishikawa K. (2001) “Knowledge-based potential defined for a rotamer library to design protein sequences.” Protein Eng. 2001 Aug; 14 (8): 557-64. Isogai Y, Ishii A, Fujisawa T, Ota M, Nishikawa K. “Redesign of artificial globins: effects of residue replacements at hydrophobic sites on the structural properties.” Biochemistry. 2000 May 16; 39 (19): 5683-90. Jin W., Kambara O., Sasakawa H., Tamura A., and Takada S. (2003) “De Novo Design of Foldable Proteins with Smooth Folding Funnel: Automated Negative Design and Experimental Verification” Structure, May 2003, 581-590 .

統計的手法で、残基間ポテンシャルを構成しようとした場合、残基対の正味のポテンシャル値をどのように計算するかが、問題となる。単純に残基対の相対分布を考えた場合、その分布が、その対を構成する残基の正味の物理化学的力場による部分と、周囲の残基からの間接的な誘導によって、その分布をとるようになった部分が混ざり合った状態になり、ここから得られるポテンシャルの値を、立体構造を構成する全ての残基対について和をとった場合、特定の対について、周囲の残基から間接的に誘導されるポテンシャル値の部分が重複し、結果として、ポテンシャル値はその対の正味の相互作用を表しているとはいえない。   When an attempt is made to construct an interresidue potential using a statistical method, the problem is how to calculate the net potential value of a residue pair. If we simply consider the relative distribution of residue pairs, the distribution is determined by the net physicochemical force field of the residues that make up the pair and by indirect derivation from surrounding residues. When the part that has taken the state becomes a mixed state, and the potential value obtained from this is summed for all the residue pairs constituting the three-dimensional structure, the surrounding residues for the specific pair The portion of the potential value that is indirectly derived from is overlapped, and as a result, it cannot be said that the potential value represents the net interaction of the pair.

このポテンシャル値を使って、立体構造を最適化しようとすると、この重複により、全体的に高密度な構造が得られる。Sipplらは、この問題を避けるために、残基種を問わないあらゆる対についてその分布統計をとり、その相対頻度で、割った相対分布比の負の対数を正味のポテンシャルとすることを考えた。この方法は、構造認識法に用いると、かなりうまく働くことがわかっている。しかしながら、この正味ポテンシャルを、構造最適化に用いると、今度は、構造全体が拡散したものになり、まとまった構造をとることができない。   If this three-dimensional structure is to be optimized using this potential value, an overall high-density structure is obtained due to this overlap. To avoid this problem, Sippl et al. Considered taking the distribution statistics for every pair of any residue type, and taking the negative logarithm of the relative distribution ratio divided by the relative frequency as the net potential. . This method has been found to work quite well when used in structure recognition methods. However, if this net potential is used for structure optimization, the entire structure is now diffused, and a unified structure cannot be obtained.

よって、高密度化していしまう絶対値ポテンシャルと、構造が拡散してしまう正味ポテンシャルの中間的なものを想定する必要がある。   Therefore, it is necessary to assume an intermediate value between the absolute value potential where the density is increased and the net potential where the structure is diffused.

統計的手法でのポテンシャル計算法について、数学的な定義を与え、その上で、本発明において解決すべき課題を明確化する。   A mathematical definition is given to the potential calculation method in the statistical method, and then, the problem to be solved in the present invention is clarified.

二つのアミノ酸残基が、X線結晶解析やNMRなどの立体構造解析法で解明された固定的なタンパク質立体構造中で、空間的にどのような相対配置にあるかを調べ、アミノ酸残基種の対ごとに、その相対配置の分布を観測する。その際、対を成すアミノ酸残基が、タンパク質の配列中でどれだけ離れているかも重要な要素になるので、その配列上で相対位置(配列分離)も考慮して統計を取る。アミノ酸残基の種類を、a,b とし、配列分離を k とすると、相対配置Rの分布は、残基種 a, b と、配列分離k と、相対配置によって与えられる。ここで配列分離 k は、残基種が a であるアミノ酸残基の配列上の位置がN 末端側からみてi であり、残基種がb であるアミノ酸残基がN末端側から見て j である場合のその位置の差k=j-i をいう。よって配列分離k は、正の数の場合(a がbよりもN末端側)と負の場合(a が b よりもC末端側)がある。   We investigated the relative arrangement of two amino acid residues spatially in a fixed protein three-dimensional structure elucidated by three-dimensional structure analysis methods such as X-ray crystallography and NMR. The distribution of the relative arrangement is observed for each pair. At that time, how far the paired amino acid residues are in the protein sequence is also an important factor, and statistics are taken in consideration of the relative position (sequence separation) on the sequence. When the type of amino acid residue is a, b and the sequence separation is k, the distribution of the relative arrangement R is given by the residue types a, b, the sequence separation k, and the relative arrangement. Here, in the sequence separation k, the position on the sequence of the amino acid residue having the residue type a is i when viewed from the N-terminal side, and the amino acid residue having the residue type b is j when viewed from the N-terminal side. Is the difference in position k = ji. Thus, the sequence separation k has a positive number (a is N-terminal side from b) and a negative case (a is C-terminal side from b).

相対配置Rは、Sipplらが行ったものは、対を構成するアミノ酸残基のCα原子間距離、ないしは、Cβ原子間距離であったが、アミノ酸残基は三次元的構造をもつものであるから、配置としては、最低でも六自由度をもつものであり、距離のみによるものであるとは限らない。相対配置R のa,b,kについての分布を正規化したもの(Rのとり得る空間で積分した結果が1になるようにしたもの)を、相対頻度 fab k(R)とする。この相対頻度f ab(R) の負の対数 -log f ab k(R) を、平均力場ポテンシャルという。アミノ酸残基配列S が、立体構造Cをとる確率尤度として、この平均力場ポテンシャルを用いることができる。すなわちこの配列Sが、立体構造Cとなった場合の、構造中の全ての可能なアミノ酸残基の対について、その対を構成する残基種(配列Sによって決まる)と、その対をなす残基の空間的な相対配R 、及び、その残基の配列分離 k から、平均力場ポテンシャル-log f ab k(R) を計算し、全ての対についてこのポテンシャルの和をとると、配列Sが構造Cをとる確率尤度Eabsが計算できる。 The relative configuration R was performed by Sippl et al. With the distance between the C α atoms of the amino acid residues constituting the pair or the distance between the C β atoms, but the amino acid residues have a three-dimensional structure. Therefore, the arrangement has at least six degrees of freedom and is not always based only on the distance. A normalized frequency distribution of a, b, k of the relative arrangement R 1 (a result obtained by integrating in a space that R can take becomes 1) is defined as a relative frequency f ab k (R). The negative logarithm -log f ab k (R) of the relative frequency f ab (R) is called an average force field potential. This mean force field potential can be used as a probability likelihood that the amino acid residue sequence S takes the three-dimensional structure C. That is, when this sequence S becomes a three-dimensional structure C, for all possible pairs of amino acid residues in the structure, the residue species constituting the pair (determined by the sequence S) and the rest of the pair The average force field potential -log f ab k (R) is calculated from the spatial relative R of the group and the sequence separation k of the residues, and the sum of this potential for all pairs is calculated as the sequence S Probability likelihood E abs taking the structure C can be calculated.

Figure 2005049188
Figure 2005049188

この値が、小さいほど、配列Sがこの構造Cをとる可能性が高いと判断できる。ここで用いた平均力場ポテンシャル -log f ab k(R)を、絶対値ポテンシャルと呼ぶ。しかし、このポテンシャルを用いて、配列Sと構造Cの確率尤度Eabsを計算すると、確率的な前述のように対以外の残基からの相互作用相当分が交じり合い、望ましい確率尤度にならない。すなわち、どのような配列であっても、Eabs が小さくなるような構造は、非常に密度の高い構造になってしまう。 It can be determined that the smaller this value is, the higher the possibility that the array S takes the structure C. The mean force field potential -log f ab k (R) used here is called the absolute potential. However, when the probability likelihoods E abs of the sequence S and the structure C are calculated using this potential, the interaction equivalents from the residues other than the pair are mixed as described above, and the desired probability likelihood is obtained. Don't be. That is, in any arrangement, a structure in which E abs is small becomes a very dense structure.

そこで、Sippl らは、アミノ酸残基の種類を問わない相対頻度 fk(R) を用い、-log f ab k(R)/fk(R) を平均力場ポテンシャルとして用いることを提唱した。これを、正味ポテンシャルという。正味ポテンシャルを用いて、配列Sと構造Cの確率尤度を計算すると(これを、Enetとする)、今度は、どのような配列Sについても、構造Cとして確率尤度が高いのは、拡散した構造であり、この正味ポテンシャルも、正しい確率尤度を与えているとは考えられない。 Therefore, Sippl et al. Proposed using -log f ab k (R) / f k (R) as the mean force field potential, using the relative frequency f k (R) regardless of the type of amino acid residue. This is called net potential. When the probability likelihood of the array S and the structure C is calculated using the net potential (this is assumed to be E net ), the probability likelihood is high as the structure C for any array S. It is a diffuse structure, and this net potential is not considered to give the correct probability likelihood.

Figure 2005049188
Figure 2005049188

この問題は、基本的には、多体問題であるタンパク質立体構造配列相関を、二体問題の組み合わせとして考えていることに起因する。絶対値ポテンシャルにおいて、高密度構造ができてしまう理由は、本来ほとんど相互作用していない残基間にも、統計的には、相互作用があるかのように見えてしまうことが原因である。構造中に三つの残基 a,b,c があって、これらが、互いに空間的にも近傍によりそっているとする。その場合、a と c が近くにあるのが、a と c が互いに相互作用しているからなのか、それとも、a と b が相互作用し、b と c が相互作用している間接的な誘導の結果として、近くにあるのかが、不明である。タンパク質の立体構造と配列との相関は、多体問題であるから、特定の残基間に働く正味の相互作用を反映したポテンシャルを計算するには、周囲からの影響を排除しないといけない。しかし、実際に統計をとるためのデータとしては、多体の立体構造であるため、単純な統計処理では正味の相互作用を反映したポテンシャルを導くことはできない。   This problem is basically due to the fact that protein three-dimensional structure sequence correlation, which is a many-body problem, is considered as a combination of two-body problems. The reason why a high-density structure is formed in the absolute value potential is that, even between residues that originally have little interaction, it appears statistically that there is an interaction. Suppose that there are three residues a, b, and c in the structure, and these are more closely spaced from each other in space. In that case, a and c are close because a and c interact with each other, or indirect induction where a and b interact and b and c interact. As a result, it is unclear whether it is nearby. Since the correlation between protein structure and sequence is a many-body problem, the influence from the surroundings must be excluded in order to calculate the potential that reflects the net interaction between specific residues. However, since the data for actually taking statistics is a multi-body three-dimensional structure, a simple statistical process cannot lead to a potential reflecting the net interaction.

Sipplらの導入した正味ポテンシャルは、アミノ酸残基の種類を問わない平均的な残基対の相対配置の相対頻度で fk(R) で、残基種ごとの相対頻度f ab k(R) を割ることで、正味の相対頻度を計算しようとしている。しかし、この場合、アミノ酸残基間の相互作用で、立体構造を高い密度で硬いものに纏めようとする引力に対応する分布が消えてしまい、結果として、残基間の相互作用のうちの引力的項目が排除されてしまう。これが、立体構造が拡散してしまう原因である。実際、生体アミノ酸20種類のうち、立体構造を強固な形で支えているのは、疎水性残基であり、疎水性残基間には、強い引力が働くことが知られている。そして、これら疎水性残基の頻度は、他の親水性残基に比べて多く、残基種を問わない相対頻度 fk(R) を計算すると、相対的に頻出するこれら疎水性残基の対の影響が強く出る。そこで、fk(R) の部分を差し引いた正味ポテンシャル -log f ab k(R)/fk(R) では、疎水性相互作用に関する部分がほぼ完全に差し引かれてしまい、この正味ポテンシャルを用いて確率尤度を計算し、この確率尤度を小さくするように構造を最適化すると、構造が拡散してしまうのである。 The net potential introduced by Sippl et al. Is the relative frequency f k (R) of the relative arrangement of the average residue pair regardless of the type of amino acid residue, and the relative frequency f ab k (R) for each residue type By dividing, we are trying to calculate the net relative frequency. However, in this case, the interaction between the amino acid residues disappears from the distribution corresponding to the attractive force trying to combine the three-dimensional structure into a hard material with a high density, and as a result, the attractive force of the interaction between the residues. The target item is excluded. This is the reason why the three-dimensional structure is diffused. In fact, among the 20 types of biological amino acids, it is known that the three-dimensional structure is firmly supported by hydrophobic residues, and strong attraction acts between the hydrophobic residues. The frequency of these hydrophobic residues is higher than that of other hydrophilic residues, and the relative frequency f k (R) regardless of the residue type is calculated. The effect of the pair is strong. Therefore, the f k net potential minus the portion of (R) -log f ab k ( R) / f k (R), will be a portion relating to hydrophobic interaction subtracted almost completely, with the net potential If the probability likelihood is calculated and the structure is optimized so as to reduce the probability likelihood, the structure diffuses.

タンパク質の立体構造と配列との相関を統計的に解析する場合の課題は、すなわち、絶対値ポテンシャル -log f ab k(R) や正味ポテンシャル -log f ab k(R)/fk(R) よりもより残基間の正味の相互作用を反映したポテンシャル構成法を構築し、より高い精度で、配列Sと構造Cとの間の確率尤度を計算できるようにすることである。 The challenge in statistically analyzing the correlation between protein structure and sequence is: absolute potential -log f ab k (R) or net potential -log f ab k (R) / f k (R) It is to construct a potential construction method that reflects the net interaction between residues more than to allow the probability likelihood between the sequence S and the structure C to be calculated with higher accuracy.

本発明は、正味ポテンシャルを改良し、より望ましい確率尤度を計算しようとするものである。   The present invention seeks to improve the net potential and calculate a more desirable probability likelihood.

本発明では、この正味のポテンシャルをより精密に導くために、互いに相互作用をほとんど持たない残基対というものを考えた。もし、物理化学的にみて、まったく相互作用のない残基種の対(残基種を x,y とする)が存在したと仮定すると、この残基種からなる対は、相互作用がないので、その相対配置がなんであっても力を及ぼしあわない。したがって他の残基がない場合、この正味の相対配置の分布は場所に依存せず一定になるはずである。よって他の残基を含む条件で観測される相対配置の相対頻度 f xy k(R) は、周囲の残基からの影響によって仮想的に現れた相互作用によって形成されたもののみであるといえる。 In the present invention, in order to derive this net potential more precisely, a pair of residues having little interaction with each other was considered. If there is a pair of residue species that does not interact at all in terms of physico-chemistry (assuming the residue species is x, y), this pair of residue species has no interaction. , No matter what the relative arrangement, it does not exert power. Thus, in the absence of other residues, this net relative configuration distribution should be constant regardless of location. Therefore, the relative frequency f xy k (R) of the relative configuration observed under the condition including other residues can be said to be only the one formed by the interaction that appears virtually due to the influence from surrounding residues. .

したがって、相互作用を有すると思われる残基対 a,b に関して観測された相対頻度から導かれる絶対値ポテンシャル-log f ab k(R)から、この相互作用を起こさない残基対の観測された相対頻度から得られる絶対値ポテンシャル -log f xy k(R) を差し引けば、正しい正味のポテンシャルが計算できるはずである。 Therefore, from the absolute potential -log f ab k (R) derived from the relative frequency observed for the residue pair a, b that seems to have an interaction, the residue pair that did not cause this interaction was observed. By subtracting the absolute potential -log f xy k (R) from the relative frequency, you should be able to calculate the correct net potential.

つまり、Sippl らの正味ポテンシャルで、残基種を問わない対の相対頻度 fk(R) を用いた部分に、fxy k(R) を用いて、新たな正味ポテンシャル -log f ab k(R) /f xy k(R) を計算するわけである。 In other words, in the net potential of Sippl et al., Using the relative frequency f k (R) of the pair regardless of residue type, f xy k (R) is used, and a new net potential -log f ab k ( R) / f xy k (R) is calculated.

物理化学的にみて、まったく相互作用をしないと考えられる残基種の対 x,y というものをどう考えるかが次に重要になる。20種類の生体アミノ酸の中には、側鎖が、水素原子一つだけであるグリシンが存在する。グリシン残基は、比較的に他のアミノ酸残基に比べて頻出すると同時に、親水的でも疎水的でもない。また、側鎖が存在しないことにより、周囲の影響でどのような局所構造にも存在する。グリシンを多数結合した、ポリグリシンは、計算機シミュレーションによると、まとまった構造をとらず、α螺旋構造でもβシート構造でも、あまり安定性がない。このことから考えると、グリシン残基そのものには、構造形成能力はなく、グリシン残基とグリシン残基の間の相互作用も、非常に小さいと考えられる。したがって、グリシンの対 GG は、相互作用のないアミノ酸残基対x,yの候補としては、かなり相応しいと考えられる。そこで、本発明における、平均力場ポテンシャルにおける課題解決の方法は、まず、グリシンの対からなる相対頻度を用いた、正味ポテンシャル計算法である。   The next important point is how to consider the pair x, y of residue types that are considered to have no interaction at all in terms of physico-chemistry. Among the 20 types of biological amino acids, there is glycine whose side chain has only one hydrogen atom. Glycine residues are relatively frequent compared to other amino acid residues, and at the same time are neither hydrophilic nor hydrophobic. In addition, since there is no side chain, it exists in any local structure due to the influence of the surroundings. According to computer simulation, polyglycine combined with a large number of glycines does not have a uniform structure, and is not very stable in either an α helical structure or a β sheet structure. In view of this, it is considered that the glycine residue itself has no structure-forming ability, and the interaction between the glycine residue and the glycine residue is very small. Therefore, the glycine pair GG is considered to be quite suitable as a candidate for the non-interacting amino acid residue pair x, y. Therefore, the method for solving the problem in the mean force field potential in the present invention is first a net potential calculation method using a relative frequency composed of glycine pairs.

次に、統計的に得られる相対頻度から計算される平均力場ポテンシャルと物理化学的な相互作用との関係について、考えてみる。タンパク質立体構造配列相関を考える上での、統計的に得られる相対頻度は、X線結晶解析やNMR(核磁気共鳴)によって得られた確定した立体構造データ内の残基対の相対配置の分布から得られるものである。したがって、時間平均という概念もなく、さらに、一種類のタンパク質については、一種類の構造しか原則として与えられない。このような構造のデータセットから得られた相対頻度は、いわゆるアンサンブル平均ではない。ある残基対は、その正味の相互作用によって特定の相対配置を取ろうとするが、他の残基との相互作用によって、その特定の相対配置から多少ずれた相対配置になっていて、そのずれの部分が他の残基との相互作用とのつりあいをとっていると考えられる。そこで、今観測している残基対全体について統計的に得られる相対頻度は、対が、本来とろうとする特定の相対配置近傍がもっとも頻度が高くなるようなものであろう。ここで、簡単な系を考えて、このようなつりあいの位置にあるものが、ほかから様々な相互作用でつりあいの位置がずれる現象について考えてみる。ある粒子が、調和振動子系のポテンシャル、すなわち平衡点から離れるにしたがってその平衡点から距離の二乗に比例するようなポテンシャルの中に存在するとする。簡単のために一次元系を考えてみる。この粒子は、周囲からなにも相互作用がない場合は、平衡点に存在するか(運動エネルギーがない場合)、平衡点を中心として調和振動するか(運動エネルギーがある場合)のどちらかである。データベースで与えられるタンパク質の立体構造データと同じ状態なのは、固定した位置関係であるから、この運動エネルギーのない場合に相当する。この場合、その調和振動子系のポテンシャル中の粒子の存在する位置の分布、相対頻度は、平衡点で無限大に発散するδ関数の形をとるであろう。つまり、いつでも平衡点にのみ存在することになる。それでは、この粒子に、外部から他の力が働いている場合はどうか。この場合、この粒子は、この外部からの力のポテンシャルと、本来の調和振動子系のポテンシャルとのつりあいの点にのみ存在するようになるであろう。すなわち、外乱のポテンシャルと本来のポテンシャルとの和で与えられるポテンシャルの平衡点に、粒子は存在することになる。では、サンプルごとに、外乱のポテンシャルが異なっている場合は、どうであろうか。外乱のポテンシャルが、ガウス分布的なゆれの分布をもつような場合、平衡点の位置もまたガウス分布的にゆれるので、結果として、この場合の粒子の分布は、本来の平衡点近傍のガウス分布になる。ガウス分布に対する確率論的なポテンシャルの形状は、調和振動子系のものと数式上は一致する(係数については一致はしない)。すなわち外乱がガウス分布的であれば、本来の物理的ポテンシャルと相似のポテンシャルが統計的にも得られることになる。もちろん、外乱のポテンシャルに偏りがあれば、その偏り分が反映した場所に分布の中心が来る。X線結晶解析やNMRで与えられた固定的な立体構造サンプルは、その形でつりあいがとれていて、それよりも低エネルギーの状態にはならないと考えられるから、いわば平衡点にある構造ということになる。そこで、様々な立体構造全体にわたって、特定の残基種について、相対配置の分布を取ることは、構造ごとに多少異なる外乱を与えた結果としての対の分布を計算していることになり、この外乱が、ガウス分布的であると仮定すれば、得られた分布は、ある程度本来の物理化学的な相互作用を反映しているといえる。だとすれば、外乱はできるだけランダムであるべきである。配列上、kだけ離れた二つの残基の相対配置を考える従来法では、このkによって、外乱の仕方が違うということを考慮していたことになる。しかし、実際には、本来の相互作用を反映したポテンシャルを求めようとする上では、外乱はできるだけランダムである必要があるから、kをいろいろに変化させて、それらを総合した結果のほうが、よりいっそうランダムな外乱から得られた結果になる。すなわち、これまで残基対の相対頻度として、配列分離 k を考慮したf ab k(R) を考えてきたが、物理化学的な相互作用をより一層反映していると考えられるのは、配列分離 k を無視した f ab(R)である。 Next, let us consider the relationship between the mean force field potential calculated from the statistically obtained relative frequency and the physicochemical interaction. The statistically obtained relative frequency when considering protein tertiary structure correlation is the distribution of the relative arrangement of residue pairs in the stereostructure data determined by X-ray crystallography and NMR (nuclear magnetic resonance). Is obtained from Therefore, there is no concept of time averaging, and furthermore, only one type of structure is given in principle for one type of protein. The relative frequency obtained from such a structured data set is not a so-called ensemble average. A pair of residues tries to take a specific relative arrangement due to its net interaction, but due to the interaction with other residues, the relative arrangement is slightly deviated from that specific relative arrangement. This part is considered to be balanced with the interaction with other residues. Therefore, the relative frequency obtained statistically for the entire residue pair that is being observed will be such that the pair is most frequently in the vicinity of the specific relative configuration to which the pair is originally intended. Here, considering a simple system, let us consider the phenomenon in which the balance position shifts due to various interactions from the balance position. It is assumed that a particle is present in the potential of the harmonic oscillator system, that is, in a potential that is proportional to the square of the distance from the equilibrium point as it moves away from the equilibrium point. Consider a one-dimensional system for simplicity. If there is no interaction from the surroundings, this particle is either at the equilibrium point (when there is no kinetic energy) or harmonically oscillates around the equilibrium point (when there is kinetic energy) is there. Since the three-dimensional structure data of the protein given in the database is in the same positional relationship, it corresponds to the case where there is no kinetic energy. In this case, the position distribution and relative frequency of the particles in the potential of the harmonic oscillator system will take the form of a δ function that diverges infinitely at the equilibrium point. In other words, it always exists only at the equilibrium point. Then what about other external forces acting on the particles? In this case, the particles will only exist at the point of balance between the external force potential and the original harmonic oscillator system potential. That is, the particle exists at an equilibrium point of potential given by the sum of the disturbance potential and the original potential. What if the disturbance potential varies from sample to sample? If the disturbance potential has a Gaussian fluctuation distribution, the position of the equilibrium point also fluctuates in a Gaussian distribution. As a result, the particle distribution in this case is a Gaussian distribution near the original equilibrium point. become. The shape of the stochastic potential for the Gaussian distribution is mathematically identical to that of the harmonic oscillator system (coefficients are not identical). In other words, if the disturbance is Gaussian, a potential similar to the original physical potential can be obtained statistically. Of course, if there is a bias in the potential of the disturbance, the center of the distribution will come where the bias is reflected. The fixed three-dimensional structure sample given by X-ray crystallography and NMR is balanced in its shape, and it is thought that it will not be in a lower energy state, so it is a structure at an equilibrium point. become. Therefore, taking the distribution of the relative configuration for a specific residue type over various three-dimensional structures is calculating the distribution of pairs as a result of giving a slightly different disturbance for each structure. Assuming that the disturbance is Gaussian, it can be said that the obtained distribution reflects the original physicochemical interaction to some extent. If so, the disturbance should be as random as possible. In the conventional method that considers the relative arrangement of two residues that are separated by k on the sequence, it is considered that the manner of disturbance differs depending on k. However, in actuality, when seeking the potential that reflects the original interaction, the disturbance needs to be as random as possible, so the result of combining them in various ways and combining them is more The result comes from a more random disturbance. In other words, up to now, we have considered f ab k (R) considering the sequence separation k as the relative frequency of residue pairs, but it is considered that the physicochemical interaction is more reflected in the sequence. F ab (R) ignoring the separation k.

本発明の課題解決の手段の二つ目としては、この配列分離 k を無視するというものである。   A second means for solving the problems of the present invention is to ignore this sequence separation k.

纏めると、残基対の相互作用を統計的に求める方法として、よりその残基対の正確な相互作用を求めるならば、絶対値ポテンシャルから、グリシン対の相対頻度に基づく絶対値ポテンシャルを差し引いて、さらに、配列上の分離k を無視したものがよいという結論になる。数式で表せば、-log f ab(R)/f GG(R) である。 In summary, as a method of statistically determining the interaction of a residue pair, if the exact interaction of that residue pair is to be calculated, the absolute potential based on the relative frequency of the glycine pair is subtracted from the absolute potential. Furthermore, it is concluded that it is better to ignore the separation k on the sequence. Expressed in mathematical terms, -log f ab (R) / f GG (R).

本発明の正味の平均力場ポテンシャル -log f ab(R)/f GG(R) を用いることにより、従来法よりも、より精度の高い確率尤度を計算できる。また、立体構造に変異を加えて構造を最適化する場合、従来法での正味の平均力場ポテンシャル -log f ab k(R)/fk(R) では、構造が拡散し、また、絶対値ポテンシャル -log f ab k(R) では、構造が高密度化して望ましい最適化ができないが、本発明のポテンシャル -log f ab(R)/f GG(R) では、この両者の問題点を解決することができる。よって、立体構造予測精度や、配列設計制度を高めることができ、また熱安定性制御、設計精度も高くすることができる。 By using the net average force field potential -log f ab (R) / f GG (R) of the present invention, it is possible to calculate a probability likelihood with higher accuracy than the conventional method. In addition, when the structure is optimized by adding mutation to the three-dimensional structure, the net average force field potential -log f ab k (R) / f k (R) in the conventional method diffuses the structure, and the absolute With the value potential -log f ab k (R), the structure is densified and the desired optimization cannot be performed, but with the potential -log f ab (R) / f GG (R) of the present invention, both problems are solved. Can be solved. Therefore, the three-dimensional structure prediction accuracy and the arrangement design system can be increased, and the thermal stability control and the design accuracy can be increased.

本発明における、前記の正味の平均力場ポテンシャル -log f ab(R)/f GG(R) を計算する方法は以下に述べる通りである。 The method of calculating the net average force field potential -log f ab (R) / f GG (R) in the present invention is as described below.

まず、図1にあるように、11のタンパク質立体構造データベースPDB(Protein Data Bank) の中から、12において、配列の類似度の指標(相同性)が、互いに一定以下になるような立体構造の代表を選び、これを、13のデータセットとする。配列の類似度の指標(相同性)が一定以下とは、20%から50%の間で選ばれる一定の相同性よりも小さいという意味である。2003年段階のPDBで、仮に30%以下の相同性となるよう立体構造の代表を選ぶ場合、その選ばれた代表的な立体構造の数は、2000個程度になる。統計を取る上では、残基数が一定値(40から100残基)以下のものを排除して代表立体構造を選ぶほうが良い。なお、具体的な相同性の計算方法については、例えば、Noguchi et.al.,Bioinformatics. 2000 Jun;16(6):520-6に記載されている。   First, as shown in FIG. 1, from among 11 protein three-dimensional structure databases PDB (Protein Data Bank), in 12, the three-dimensional structure in which the sequence similarity index (homology) is below a certain value. Choose a representative and make it a 13 data set. The sequence similarity index (homology) being less than a certain value means that the sequence is less than a certain homology selected between 20% and 50%. In the 2003 PDB, if representatives of the three-dimensional structure are selected so that the homology is 30% or less, the number of representative three-dimensional structures selected is about 2000. In taking statistics, it is better to select the representative three-dimensional structure by excluding those whose number of residues is below a certain value (40 to 100 residues). A specific method for calculating homology is described, for example, in Noguchi et.al., Bioinformatics. 2000 Jun; 16 (6): 520-6.

こうして選ばれた13の2000程度の立体構造を含むデータセットの中から22において立体構造を一つ一つ順に取り出す。次に、取り出された各立体構造において次のことを行う。23において、取り出されたl番目立体構造の i 番目と、24において j 番目のアミノ酸残基を取り出し、i 番目の残基の残基種aと j番目の残基の残基種b を調べる(PDBデータベース中に明示されている)。次に、25において、i 番目の残基を構成する原子群の三次元座標値、j 番目の残基を構成する原子群の座標値を調べ(PDBデータベース中に明示されている)、i 番目と j 番目の残基の相対配置Rijを計算する。相対配置Rijは、単純に残基間距離として、i 番目の残基とj 番目残基双方のCα原子、あるいはCβ原子の距離を用いることもできるほか、(非特許文献9)で定義されるように、i 番目の残基固有の座標系からみたj 番目の残基の位置と、i 番目の残基と同じ姿勢をとるようにj 番目の残基の姿勢を回転させる場合のオイラー角を用いて六自由度の相対配置を用いることもある。さらに、側鎖の方位なども含めれば、自由度、次元はより大きなものになる。本発明にかぎっていえば、用いる相対配置の自由度、次元と本発明は無関係である。 Three-dimensional structures are extracted one by one from 22 of the selected data sets including about three-dimensional three-dimensional structures. Next, the following is performed for each of the extracted three-dimensional structures. 23, the i-th residue of the l-th structure taken out and the j-th amino acid residue in 24 are taken out, and the residue type a of the i-th residue and residue type b of the j-th residue are examined ( Specified in the PDB database). Next, in 25, the three-dimensional coordinate value of the atom group constituting the i-th residue and the coordinate value of the atom group constituting the j-th residue are examined (specified in the PDB database), and the i-th residue And the relative configuration R ij of the jth residue. For the relative configuration R ij , the distance between the C α atom of both the i-th residue and the j-th residue, or the distance of the C β atom can be used simply as the distance between residues. As defined, the position of the jth residue relative to the i-th residue's unique coordinate system and the posture of the jth residue are rotated so that it takes the same posture as the ith residue. A 6 degree of freedom relative arrangement using Euler angles may be used. Furthermore, if the direction of the side chain is included, the degree of freedom and dimension become larger. As far as the present invention is concerned, the present invention is irrelevant to the degree of freedom and dimensions of the relative arrangement used.

ただし、相対配置の自由度、あるいは次元が大きいほど、高い精度のポテンシャルが計算できる。次に、26において、相対配置Rを対を構成する残基種a,b ごとに27に蓄積する。この分布を蓄積する方法については、たとえば、相対配置が距離のみを考慮した一次元のものでは、ヒストグラムを用いることが考えられるし、多次元の場合は、(非特許文献9)にある線形展開の方法が考えられる。この分布の蓄積方法は、本発明とは無関係であるが、精度の高い方法であるほど高い精度のポテンシャルが計算できる。次に蓄積された相対配置Rの分布を正規化する。相対配置Rの分布は、残基対を構成する残基種ごとに蓄積されているので、その分布のサンプル数で分布の値を割れば、正規化できる。こうして、正規化された分布が、残基種 a,b と、相対配置Rについての、相対頻度 f ab(R) である。 However, the greater the degree of freedom of relative arrangement or the larger the dimension, the higher the potential for calculation. Next, at 26, the relative configuration R is accumulated at 27 for each of the residue types a and b constituting the pair. As for the method of accumulating this distribution, for example, if the relative arrangement is one-dimensional considering only the distance, it is possible to use a histogram, and in the case of multi-dimension, the linear expansion described in (Non-patent Document 9). Can be considered. The distribution accumulation method is irrelevant to the present invention, but the more accurate the method, the higher the potential can be calculated. Next, the distribution of the accumulated relative arrangement R is normalized. Since the distribution of the relative arrangement R is accumulated for each residue type constituting the residue pair, it can be normalized by dividing the distribution value by the number of samples of the distribution. Thus, the normalized distribution is the relative frequency f ab (R) for the residue species a, b and the relative configuration R.

このように残基種 a,b ごとに、f ab(R) がデータとして蓄積された状態で、特定の残基種 a, b が、相対配置Rにあるときの、本発明である正味の平均力場ポテンシャルは、-log fab(R)/f GG(R) として計算される。ここで、f GG(R) は、f ab(R) のうち、a,b がともにグリシンである場合をあらわす。したがって、正味の平均力場ポテンシャルの、グリシンとグリシンのペアの場合の値は、-log f GG(R)/f GG(R) = 0から、Rに無関係にゼロになる。 As described above, when the residue type a and b are in the relative configuration R with the data f ab (R) accumulated for each residue type a and b, the net of the present invention is obtained. The mean force field potential is calculated as -log f ab (R) / f GG (R). Here, f GG (R) represents a case where a and b are both glycine in f ab (R). Therefore, the value of the net mean force field potential for the glycine-glycine pair is zero, regardless of R, from -log f GG (R) / f GG (R) = 0.

以上が、本発明を統合した平均力場ポテンシャルの構成法である。   The above is the construction method of the mean force field potential that integrates the present invention.

本発明のグリシン対のポテンシャル値を参照ポテンシャルとした正味の平均力場ポテンシャルを用いて、タンパク質立体構造予測を行うには、以下のような方法をとる。構造を予測しようとするタンパク質のアミノ酸残基配列Sが与えられたときに、このSをPDBデータベース中の様々な立体構造Cに当てはめて、それぞれの立体構造Cが配列Sをもった場合の、立体構造中の全ての可能な残基の対について、Sに基づいて決定される残基種a, b とその構造Cにおけるその残基対の相対配置Rから計算される、正味の平均力場ポテンシャル -log f ab(R)/f GG(R) の和を計算する。この和が、構造配列適合性度であり、確率尤度 EGGnetデータベース中の全ての構造の中でEGGnet がもっとも小さくなるものを選ぶことによって、与えられた配列Sに最も相応しい立体構造が得られる。得られた立体構造に微小変形を加えて、EGGnetが更に小さくなるように最適化することもできる。この方法の詳細は、特願2002-318193に記載のアルゴリズムをそのまま適応する。ただし、用いるポテンシャルは、-log f ab k(R) や、-logf ab k(R)/fk(R) ではなく、-log f ab(R)/f GG(R) に変更する。以上が、本発明の立体構造予測法である。 In order to perform protein tertiary structure prediction using the net average force field potential with the potential value of the glycine pair of the present invention as a reference potential, the following method is used. When the amino acid residue sequence S of the protein whose structure is to be predicted is given, this S is applied to various three-dimensional structures C in the PDB database, and when each three-dimensional structure C has the sequence S, For all possible residue pairs in the conformation, the net mean force field calculated from the residue species a, b determined based on S and the relative configuration R of that residue pair in structure C Calculate the sum of the potential -log f ab (R) / f GG (R). This sum is the structural sequence suitability, and the probability likelihood E GGnet database is selected from the structures with the smallest E GGnet among all structures in the E GGnet database to obtain the three-dimensional structure most suitable for the given sequence S. It is done. It is also possible to optimize the GGnet to be smaller by adding a small deformation to the obtained three-dimensional structure. For the details of this method, the algorithm described in Japanese Patent Application No. 2002-318193 is applied as it is. However, the potential to be used is changed to -log f ab (R) / f GG (R), not -log f ab k (R) or -logf ab k (R) / f k (R). The above is the three-dimensional structure prediction method of the present invention.

本発明のグリシン対のポテンシャル値を参照ポテンシャルとした正味の平均力場ポテンシャルを用いて本発明の配列設計は、設計しようとするタンパク質の立体構造Cが与えられたときに、様々な配列Sを構造Cに当てはめて、EGGnet を計算し、このEGGnet が最適になるSを求めることである。生体アミノ酸は20種類あるので、長さがNの構造である場合、可能な配列Sの数は20Nという膨大な数になる。そこで、これら全てについて、EGGnetを計算することは不可能である。そこで、EGGnetがゼロになるグリシンのみの配列を考慮し、各残基の位置で、それぞれの残基種について-log f ab(R)/f GG(R)の和を計算し、もっとも良い残基種を選ぶ。こうして、決まった配列をもとに、これを繰り返すことで、収束する配列を選ぶ。このアルゴリズムの詳細は、繰り返し法として知られているものであり、(非特許文献10,11)に詳しい。以上により、与えられた立体構造Cに対して、準最適な配列Cを設計することができる。 The sequence design of the present invention using the net mean force field potential with the potential value of the glycine pair of the present invention as a reference potential, the various structures S can be obtained when the three-dimensional structure C of the protein to be designed is given. Applying to structure C, E GGnet is calculated, and S that optimizes this E GGnet is obtained. Since there are 20 types of biological amino acids, if the length is N, the number of possible sequences S is as large as 20 N. Therefore, it is impossible to calculate E GGnet for all of them. Therefore, considering the sequence of only glycine where E GGnet is zero, the sum of -log f ab (R) / f GG (R) is calculated for each residue type at each residue position. Choose the residue type. Thus, by repeating this based on a fixed array, an array that converges is selected. Details of this algorithm are known as an iterative method and are described in detail in (Non-Patent Documents 10 and 11). As described above, a suboptimal arrangement C can be designed for a given three-dimensional structure C.

本発明のグリシン対ポテンシャル値を参照ポテンシャルとした正味の平均力場ポテンシャルを用いて、熱安定性を計算するには、与えられた配列Sをもち立体構造がCであるタンパク質について、EGGnet を計算すればよい。配列SをS'に変化させて、その際のEGGnet の値が、もとのE'GGnet よりも小さければ、熱安定性が高くなり、大きければ熱安定性が低くなる。よって、要求によって、熱安定性が高くなるようにするには、配列Sを変化させて、E'GGnetが小さくなるようなものを探索すればよい。以上が本発明の熱安定性制御法、および設計法である。 To calculate thermal stability using the net mean force field potential with the glycine pair potential value of the present invention as a reference potential, E GGnet is calculated for a protein having a given sequence S and having a three-dimensional structure C. Calculate it. If the sequence S is changed to S ′ and the value of E GGnet at that time is smaller than the original E ′ GGnet , the thermal stability is increased, and if the value is larger, the thermal stability is decreased. Therefore, according to requirements, in order to increase the thermal stability, it is only necessary to change the sequence S and search for one that reduces E′GGnet . The above is the thermal stability control method and design method of the present invention.

本発明にかかる平均力場ポテンシャル構成法を用いれば、従来できなかったタンパク質構造を計算することができ、タンパク質の立体構造設計に有用である。したがって、人口タンパク質の立体構造設計技術につながり、人口タンパク質を産業利用する場合に重要な技術となる。   If the average force field potential construction method according to the present invention is used, it is possible to calculate a protein structure that could not be obtained conventionally, and it is useful for designing a three-dimensional structure of a protein. Therefore, it leads to a three-dimensional structure design technique for artificial protein, and becomes an important technique for industrial use of artificial protein.

PDBデータベース中から、データセットを選ぶ方法を示す図Diagram showing how to select a dataset from a PDB database 平均力場ポテンシャルの統計の蓄積アルゴリズムの説明図Illustration of the accumulation algorithm for the statistics of mean force field potential

Claims (5)

タンパク質のアミノ酸残基の配列上分布、空間分布を統計処理して得られる平均力場ポテンシャルの構成法の中で、ポテンシャルを形成するアミノ酸残基の対の正味のポテンシャル値として、統計的に得られる特定の残基種からなる対の空間相対分布を、グリシンとグリシンからなる対の空間相対分布で割ったものの負の対数を用いることを特徴とする平均力場ポテンシャル構成法。 Statistically obtained as the net potential value of the pair of amino acid residues forming the potential in the construction method of the mean force field potential obtained by statistically processing the amino acid residues in the sequence and the spatial distribution of the protein. A method of constructing an average force field potential characterized by using a negative logarithm of a spatial relative distribution of a pair of specific residue species divided by a spatial relative distribution of a pair of glycine and glycine. 前記ポテンシャル構成法において、ポテンシャルを形成する残基対の配列上での相対位置(配列分離)に依存しないことを特徴とする平均力場ポテンシャル構成法。 In the potential construction method, the average force field potential construction method does not depend on a relative position (sequence separation) on a sequence of residue pairs forming the potential. 前記請求項1から2の方法で構成された平均力場ポテンシャルを用いて、タンパク質のアミノ酸残基配列とタンパク質の立体構造との適合性評価を行うことで、与えられたアミノ酸残基配列に対して、もっとも適合した立体構造を判別することを特徴とする、タンパク質立体構造予測法。 By using the average force field potential configured by the method of claim 1 or 2 to evaluate the compatibility between the amino acid residue sequence of the protein and the three-dimensional structure of the protein, the given amino acid residue sequence A protein tertiary structure prediction method characterized by distinguishing the most suitable tertiary structure. 前記請求項1から2の方法で構成された平均力場ポテンシャルを用いて、目的とするタンパク質立体構造となるタンパク質の最適なアミノ酸残基配列を推定することを特徴とするタンパク質設計法。 3. A protein design method comprising estimating an optimum amino acid residue sequence of a protein having a target protein three-dimensional structure using an average force field potential configured by the method according to claim 1 or 2. 前記請求項1から2の方法で構成された平均力場ポテンシャルを用いて、特定のタンパク質のアミノ酸残基配列を変化させた場合の熱安定性の変化量を推定することを特徴とするタンパク質熱安定性制御法、及び熱安定性設計法。 Using the average force field potential configured by the method of claim 1 to 2, the amount of thermal stability when the amino acid residue sequence of a specific protein is changed is estimated. Stability control method and thermal stability design method.
JP2003280703A 2003-07-28 2003-07-28 Protein designing method Pending JP2005049188A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003280703A JP2005049188A (en) 2003-07-28 2003-07-28 Protein designing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003280703A JP2005049188A (en) 2003-07-28 2003-07-28 Protein designing method

Publications (1)

Publication Number Publication Date
JP2005049188A true JP2005049188A (en) 2005-02-24

Family

ID=34266441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003280703A Pending JP2005049188A (en) 2003-07-28 2003-07-28 Protein designing method

Country Status (1)

Country Link
JP (1) JP2005049188A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010539580A (en) * 2007-09-14 2010-12-16 コンフォーメトリックス リミテッド Method for determining the three-dimensional structure of dynamic molecules
JP2021073575A (en) * 2017-10-17 2021-05-13 富士フイルム株式会社 Feature quantity calculation method, screening method, compound creation method, and feature quantity calculation device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010539580A (en) * 2007-09-14 2010-12-16 コンフォーメトリックス リミテッド Method for determining the three-dimensional structure of dynamic molecules
JP2021073575A (en) * 2017-10-17 2021-05-13 富士フイルム株式会社 Feature quantity calculation method, screening method, compound creation method, and feature quantity calculation device
JP7209751B2 (en) 2017-10-17 2023-01-20 富士フイルム株式会社 Compound creation method

Similar Documents

Publication Publication Date Title
Gao et al. Incorporation of solvent effect into multi-objective evolutionary algorithm for improved protein structure prediction
Shen et al. Statistical potential for assessment and prediction of protein structures
Yang et al. Principal component analysis of native ensembles of biomolecular structures (PCA_NEST): insights into functional dynamics
Zhou et al. SPEM: improving multiple sequence alignment with sequence profiles and predicted secondary structures
Durham et al. Solvent accessible surface area approximations for rapid and accurate protein structure prediction
Cheng et al. Accurate prediction of protein disordered regions by mining protein structure data
Eisenhaber et al. Prediction of secondary structural content of proteins from their amino acid composition alone. I. New analytic vector decomposition methods
Blaabjerg et al. Rapid protein stability prediction using deep learning representations
Fukuda et al. DeepECA: an end-to-end learning framework for protein contact prediction from a multiple sequence alignment
Nagata et al. SIDEpro: A novel machine learning approach for the fast and accurate prediction of side‐chain conformations
Summa et al. An atomic environment potential for use in protein structure prediction
Esquivel-Rodríguez et al. Fitting multimeric protein complexes into electron microscopy maps using 3D Zernike descriptors
Yang et al. ProTstab–predictor for cellular protein stability
Rata et al. Backbone statistical potential from local sequence-structure interactions in protein loops
Correa et al. A memetic algorithm for 3D protein structure prediction problem
Zhao et al. MMpred: a distance-assisted multimodal conformation sampling for de novo protein structure prediction
Shatsky et al. Optimization of multiple‐sequence alignment based on multiple‐structure alignment
Zhang et al. Pareto dominance archive and coordinated selection strategy-based many-objective optimizer for protein structure prediction
Liang et al. De novo protein design by an energy function based on series expansion in distance and orientation dependence
Zhao et al. Discriminative learning for protein conformation sampling
Yang et al. Construction of a deep neural network energy function for protein physics
Guo et al. TRScore: a 3D RepVGG-based scoring method for ranking protein docking models
Fogolari et al. Scoring predictive models using a reduced representation of proteins: model and energy definition
Ball et al. The elastic net algorithm and protein structure prediction
Carugo Recent progress in measuring structural similarity between proteins