JP4616660B2 - Prediction method of thermostable proteins from non-thermophilic bacteria based on amino acid composition of thermophilic bacteria and highly related non-thermophilic bacteria - Google Patents

Prediction method of thermostable proteins from non-thermophilic bacteria based on amino acid composition of thermophilic bacteria and highly related non-thermophilic bacteria Download PDF

Info

Publication number
JP4616660B2
JP4616660B2 JP2005032296A JP2005032296A JP4616660B2 JP 4616660 B2 JP4616660 B2 JP 4616660B2 JP 2005032296 A JP2005032296 A JP 2005032296A JP 2005032296 A JP2005032296 A JP 2005032296A JP 4616660 B2 JP4616660 B2 JP 4616660B2
Authority
JP
Japan
Prior art keywords
protein
amino acid
principal component
acid composition
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005032296A
Other languages
Japanese (ja)
Other versions
JP2005270097A (en
JP2005270097A5 (en
Inventor
英人 高見
弘毅 掘越
善弘 高木
甲珠 池
真朗 西
繁 島村
洋子 鈴木
郁夫 内山
志軍 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Agency for Marine Earth Science and Technology
Original Assignee
Japan Agency for Marine Earth Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Agency for Marine Earth Science and Technology filed Critical Japan Agency for Marine Earth Science and Technology
Priority to JP2005032296A priority Critical patent/JP4616660B2/en
Publication of JP2005270097A publication Critical patent/JP2005270097A/en
Publication of JP2005270097A5 publication Critical patent/JP2005270097A5/ja
Application granted granted Critical
Publication of JP4616660B2 publication Critical patent/JP4616660B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、生物が産生するタンパク質に着目して、そのアミノ酸配列又は塩基配列のデータから、耐熱性に関する特性値を計算することにより、当該タンパク質が耐熱性を有するか否かを判別する方法に関する。より詳細には、本発明は、被検定タンパク質が耐熱性を有しているか否かを判別する方法であって、当該タンパク質のアミノ酸組成に基づく主成分分析により、被検定タンパク質に固有の分析値を算出し、当該分析値を、耐熱性生物の有する被検定タンパク質と対応するタンパク質における分析値と比較することからなる、タンパク質の耐熱性を判別する方法に関する。   The present invention relates to a method for discriminating whether a protein has heat resistance by paying attention to a protein produced by an organism and calculating a characteristic value related to heat resistance from the data of the amino acid sequence or base sequence thereof. . More specifically, the present invention is a method for determining whether or not a test protein has heat resistance, and an analysis value unique to the test protein is determined by principal component analysis based on the amino acid composition of the protein. And the analysis value is compared with the analysis value of the protein corresponding to the test protein possessed by the thermostable organism.

耐熱性酵素は、高温領域においても酵素活性を失わない酵素として産業界、研究開発分野などで広く使用されている。例えば、デンプンなどの糖類の加水分解における酵素反応工程に使用する酵素(特許文献1及び2参照)、生ゴミの処理やそれらからの堆肥などを製造する際の酵素反応における酵素(特許文献3及び4参照)、トレハロースなどの有用物質を製造する際の酵素反応における酵素(特許文献5及び6参照)などが挙げられる。
このように、産業的にも耐熱性酵素は非常に重要なものであるが、近年ではPCR法(特許文献7参照)や複製RNAベースの増幅系(特許文献8及び9参照)などに使用される耐熱性のDNAポリメラーゼの開発が重要とされてきており、多数の耐熱性DNAポリメラーゼが主として好熱性微生物から単離されている。DNAポリメラーゼは遺伝子操作技術における重要なツールのひとつとなってきており、遺伝子のクローニングや配列決定だけでなく、微量の遺伝子の検出や同定をするためのツールとして、遺伝子増幅のための酵素として重要となってきている。
Thermostable enzymes are widely used in industry, R & D fields and the like as enzymes that do not lose enzyme activity even at high temperatures. For example, an enzyme used in an enzyme reaction step in hydrolysis of saccharides such as starch (see Patent Documents 1 and 2), an enzyme in an enzyme reaction when processing garbage or compost from them (Patent Documents 3 and 2) 4), enzymes in enzyme reactions when producing useful substances such as trehalose (see Patent Documents 5 and 6), and the like.
Thus, thermostable enzymes are very important industrially, but in recent years, they have been used in PCR methods (see Patent Document 7) and replication RNA-based amplification systems (see Patent Documents 8 and 9). Development of thermostable DNA polymerases has been regarded as important, and a large number of thermostable DNA polymerases have been isolated mainly from thermophilic microorganisms. DNA polymerase has become one of the important tools in gene manipulation technology. It is important not only for gene cloning and sequencing, but also as a tool for detecting and identifying trace amounts of genes and as an enzyme for gene amplification. It has become.

現在、これらの目的で主として用いられる好熱性DNAポリメラーゼは、T.アクアティクス(T.aquaticus)に由来するTaqポリメラーゼのようなサーマス(Thermus)属に由来するものである。より適切な特性及び活性を有する新規なポリメラーゼの発見について関心が高まっており、サーマス属以外からのものとしては、例えば、アナエロセルム サーモフィラム(Anaerocellum thermophilum)からのDNAポリメラーゼを用いる方法(特許文献10参照)、硫黄代謝好熱性古細菌パイロコッカス・ホリコシからのものを用いる方法(特許文献11参照)などが報告されている。   Currently, thermophilic DNA polymerases primarily used for these purposes are T.I. It is derived from the genus Thermus such as Taq polymerase derived from T. aquaticus. There is a growing interest in the discovery of novel polymerases with more appropriate properties and activities. Examples of those other than those belonging to the genus Thermus include a method using a DNA polymerase from Anaerocellum thermophilum (see Patent Document 10). In addition, a method using a sulfur metabolism thermophilic archaeon Pyrococcus horikoshi (see Patent Document 11) has been reported.

このように、耐熱性酵素の重要性は益々高まってきているのであるが、耐熱性酵素の検索は多くの場合、好熱性菌や耐熱性菌をスクリーニングの対象として、対象とする酵素生産菌を自然界からスクリーニングし、培養条件を検討して生産された酵素の耐熱性を一つ一つ熱処理をして確認しなくてはならないため、膨大な手間と時間を要するのみならず、多くの場合偶然に左右されることが多かった。また、スクリーニングの対象が、好熱性菌、耐熱性菌あるいは中温菌に限定されており、好熱性菌や耐熱性菌は微生物全体の種類から考えるとごく限られた種にすぎないため、耐熱性酵素の多様性が限られていた。
偶然の発見に期待するだけでなく、産業上有用な耐熱性酵素を検索するための系統的かつ省力的な手法の確立が求められていた。
In this way, the importance of thermostable enzymes is increasing, but in many cases, thermostable enzymes are searched for thermophilic bacteria and thermostable bacteria, and the target enzyme-producing bacteria are selected. Since the heat resistance of the enzyme produced by screening from the natural world and examining the culture conditions must be confirmed by heat treatment one by one, it is not only a great deal of time and effort, but it is often accidental. It was often influenced by. In addition, the target of screening is limited to thermophilic bacteria, heat-resistant bacteria, or mesophilic bacteria, and thermophilic bacteria and heat-resistant bacteria are only limited species when considered from the whole types of microorganisms. Enzyme diversity was limited.
In addition to expectation of accidental discovery, establishment of a systematic and labor-saving method for searching industrially useful thermostable enzymes has been demanded.

特表平10−506524号Special table hei 10-506524 特開2000−50870号JP 2000-50870 特開2001−61474号JP 2001-61474 A 特開2003−219864号JP2003-2119864 特開平08−336388号JP 08-336388 A 特開平08−149980号JP 08-149980 A 特公平04−67957号No. 04-67957 特開平02−5864号Japanese Patent Laid-Open No. 02-5864 特開平02−500565号Japanese Patent Laid-Open No. 02-500565 特表2001−502169号Special table 2001-502169 特開2000−41668号JP 2000-41668 A

本発明は、試行錯誤により耐熱性酵素を検索していた従来の手法を改善することを目的とするものであり、タンパク質のアミノ酸配列又は塩基配列などのデータに基づいて簡便な手法で、当該タンパク質が耐熱性を有するか否かを判別することができる新規な方法を提供するものである。
また、本発明は、有用酵素等の耐熱性蛋白質の資源を広く工業用微生物と幅広く用いられている耐熱性酵素として、これまでにない多様性に富んだ耐熱性酵素を簡便に判別することができる方法を提供するものである。
The present invention aims to improve the conventional method of searching for thermostable enzymes by trial and error, and provides a simple method based on data such as the amino acid sequence or base sequence of the protein. The present invention provides a novel method capable of determining whether or not has heat resistance.
In addition, the present invention can easily discriminate a variety of thermostable enzymes that have never been available as thermostable enzymes that are widely used with industrial microorganisms using resources of thermostable proteins such as useful enzymes. It provides a possible method.

本発明者らは、これまで全ゲノム配列が知られている120種類の微生物のゲノム中に予測された蛋白質のアミノ酸組成を用いて主成分分析を行い、その第2主成分の固有ベクトル(アミノ酸の重み係数)から個別の蛋白質の主成分得点を算出し、この値と当該タンパク質の耐熱性との相関を検討してきたところ、この値と当該タンパク質に対応する好熱菌の算出するタンパク質における値とが、極めて強い相関関係を有していることを見出した。そして、本発明者らは、この相関関係を利用することにより、当該タンパク質の耐熱性を判別できる方法を確立し、本発明に至った。   The present inventors conducted a principal component analysis using the amino acid composition of the protein predicted in the genomes of 120 types of microorganisms whose whole genome sequences have been known so far. The principal component score of each individual protein is calculated from the weighting factor), and the correlation between this value and the heat resistance of the protein has been studied, and this value and the value in the protein calculated by the thermophile corresponding to the protein Have found a very strong correlation. And the present inventors established the method which can discriminate | determine the heat resistance of the said protein by utilizing this correlation, and came to this invention.

即ち、本発明は、被検定タンパク質が耐熱性を有しているか否かを判別する方法であって、当該タンパク質のアミノ酸組成に基づく主成分分析により、被検定タンパク質に固有の分析値を算出し、当該分析値を、耐熱性生物の有する被検定タンパク質と対応するタンパク質における分析値と比較することからなる、タンパク質の耐熱性を判別する方法に関する。
本発明は、タンパク質の耐熱性試験を行うことなく、タンパク質のアミノ酸配列、塩基配列データから予測されるタンパク質のアミノ酸組成に基づいた主成分分析から得られた固有の分析値を用いることにより、当該タンパク質が耐熱性を有するか否かを判別する方法を提供するものである。
本発明の方法は、電子計算機で処理できるようにプログラムすることもでき、当該プログラムに当該タンパク質のアミノ酸配列又は塩基配列のデータを入力することにより、電子計算機の処理により、当該タンパク質が耐熱性を有するか否かを判別することができる方法を提供するものである。
That is, the present invention is a method for determining whether or not a test protein has heat resistance, and calculates an analysis value specific to the test protein by principal component analysis based on the amino acid composition of the protein. The present invention relates to a method for discriminating the heat resistance of a protein, which comprises comparing the analysis value with an analysis value of a protein corresponding to a test protein possessed by a thermostable organism.
The present invention uses the intrinsic analysis value obtained from the principal component analysis based on the amino acid composition of the protein predicted from the amino acid sequence of the protein and the base sequence data, without performing the heat resistance test of the protein. The present invention provides a method for determining whether or not a protein has heat resistance.
The method of the present invention can also be programmed so that it can be processed by an electronic computer. By inputting the amino acid sequence or base sequence data of the protein to the program, the protein can be made heat resistant by the processing of the electronic computer. It is an object of the present invention to provide a method capable of determining whether or not it has.

全塩基配列決定が終了した微生物のゲノム配列から推測された全蛋白質のアミノ酸組成と微生物の生育温度には相関関係があることが知られている。特に、80℃を越える超好熱性古細菌(アーキア)と一部の細菌の間で顕著に相関関係が見られることが知られている。しかし、これまで全ゲノム配列が決定された超好熱菌のほとんどがアーキアであることから、この相関関係がアーキア特有のものであるのか、好熱性菌の特徴であるのか、詳細な検討がなされてこなかった。また同様に、ゲノム配列決定が終了した一部の好熱性細菌についても、それらと類縁性の高い非好熱、非耐熱性菌が存在しないこと、あるいは存在してもゲノム配列情報がないため、好熱性細菌に見られたアミノ酸組成の特徴が、本当に好熱性細菌に特有な特徴であるのか、単に種の特異性を反映した結果なのかを正確に決定することは困難であった。   It is known that there is a correlation between the amino acid composition of all proteins inferred from the genome sequence of the microorganism for which the entire nucleotide sequence has been determined and the growth temperature of the microorganism. In particular, it is known that there is a significant correlation between hyperthermophilic archaea (Archia) exceeding 80 ° C. and some bacteria. However, since most of the hyperthermophilic bacteria whose whole genome sequence has been determined so far are archaea, detailed investigations have been made as to whether this correlation is unique to archaea or is characteristic of thermophilic bacteria. I did not come. Similarly, some thermophilic bacteria for which genome sequencing has been completed have no non-thermophilic, non-thermophilic bacteria closely related to them, or there is no genome sequence information even if they exist, It has been difficult to accurately determine whether the characteristics of the amino acid composition found in thermophilic bacteria are truly characteristic of thermophilic bacteria or simply reflect species specificity.

本発明者らは、同属内及び非常に類縁性の高い属内に70℃前後を生育上限温度とする好熱性菌や、様々な生育上限温度を有する非好熱性菌が存在するバチルス(Bacillus)属関連種に着目して、ゲノム配列情報と耐熱性との相関を検討することにした。これらバチルス(Bacillus)属関連種では、これまで4つの非好熱性バチルスサブチリス(B. subtilis)、バチルスハロデュランス(B. halodurans)、オーシャノバチルスイヘエンシス(Oceanobacillus iheyensis)、バチルスセレウス(B. cereus)の全ゲノム配列が明らかにされてきたが、好熱性のバチルス(Bacillus)属関連種の全ゲノム情報については解析されてきていなかった。
そこで、好熱性のジオバチルスカウストフィラス(Geobacillus kaustophilus)の1種である、ジオバチルスカウストフィラス HTA426(Geobacillus kaustophilus HTA426)(GK)のゲノムを解析することにした。この微生物は深海のマリアナ海溝から得られたものであり、生育上限温度は74℃である。
これらのバチルス(Bacillus)属関連種の16S rDNAに基づいてネイバージョイニング法により作成した系統樹を図1に示す。図1の左下のバーは0.01ケーヌック単位(Knuc unit)を示す。下方の線で示している部分(原図では赤色)は、好熱性菌であることを示す。以下の解析に使用した5種の微生物、上側からバチルスハロデュランス C−125(B. halodurans C-125)(以下、BHと略称する。)、バチルスサブチリス 168(B. subtilis 168)(以下、BSと略称する。)、バチルスセレウス ATCC14579(B. cereus ATCC14579)(以下、BCと略称する。)、オーシャノバチルスイヘエンシス HTE831(Oceanobacillus iheyensis HTE831)(以下、OIと略称する。)、及びジオバチルスカウストフィラス HTA426(Geobacillus kaustophilus HTA426)(以下、GKと略称する。)にはその右肩のアスタリスク印を付している。
The inventors of the present invention have a thermophilic bacterium having a maximum growth temperature of about 70 ° C. within the same genus and a highly related genus, and a non-thermophilic bacterium having various growth maximum temperatures. Focusing on genus-related species, we decided to investigate the correlation between genome sequence information and heat resistance. Among these Bacillus related species, there have been four non-thermophilic Bacillus subtilis, B. halodurans, Oceanobacillus iheyensis, and Bacillus cereus (B. cereus) has been revealed, but the genome information of thermophilic Bacillus related species has not been analyzed.
Therefore, it was decided to analyze the genome of Geobacillus kaustophilus HTA426 (GK), which is a kind of thermophilic Geobacillus kaustophilus. This microorganism is obtained from the deep-sea Mariana Trench and has a maximum growth temperature of 74 ° C.
A phylogenetic tree prepared by the neighbor joining method based on these 16S rDNA of Bacillus related species is shown in FIG. The lower left bar in FIG. 1 shows 0.01 Knuc unit. The portion indicated by the lower line (red in the original figure) indicates a thermophilic bacterium. Five microorganisms used for the following analysis, from the upper side, B. halodurans C-125 (hereinafter abbreviated as BH), Bacillus subtilis 168 (hereinafter referred to as B. subtilis 168) BS.), Bacillus cereus ATCC 14579 (hereinafter abbreviated as BC), Oceanobacillus iheyensis HTE831 (hereinafter abbreviated as OI), and Geobacillus. Kaustophilus HTA426 (hereinafter referred to as GK) is marked with an asterisk on the right shoulder.

まず、本発明者らは、好熱性のジオバチルスカウストフィラス(Geobacillus kaustophilus)ゲノムの全塩基配列を決定した。次に、このジオバチルスカウストフィラス(Geobacillus kaustophilus)(GK)を含むこれら5種の微生物、及びこれまでに全ゲノム配列が明らかにされた120種の微生物が持つ蛋白質のアミノ酸組成を主成分分析法(PCA)により解析したところ、従来知られているとおり、全体的に第1主成分 (PC1)はGC含量、第2主成分 (PC2)は生育上限温度と強い相関を示すことが観察された。
この結果を図2に示す。図2の原図はカラーのグラフである。図2の横軸はGC含量(PC1)の解析値を示し、縦軸は生育上限温度(PC2)の解析値を示す。ここで行った主成分分析法(PCA)は通常の統計学における手法によっている。赤色の四角印(白黒の図では黒色)は好熱性細菌を示し、青色(白黒の図では黒色)はGC含有量の低いグラム陽性菌を示し、緑色(白黒の図ではやや灰色)はGC含有量の高いグラム陽性菌を示す。図2のPC2における0.0152のラインは好熱性細菌(上側)と非好熱性細菌 (下側) の境界を示している。
また、バチルス(Bacillus)属関連種間に限っても、第2主成分得点と生育上限温度との間に相関が見られた。ただし、これは菌全体の平均アミノ酸組成を用いた結果であり、個々の蛋白質で見ると、ちらばりが大きいため、相関はそれほど明確ではなくなっている。
First, the present inventors determined the entire base sequence of the thermophilic Geobacillus kaustophilus genome. Next, the amino acid composition of proteins of these five microorganisms including Geobacillus kaustophilus (GK) and 120 microorganisms whose whole genome sequences have been clarified so far are analyzed as principal components. As a result of analysis by the method (PCA), it was observed that the first main component (PC1) showed a strong correlation with the GC content and the second main component (PC2) showed a strong correlation with the growth upper limit temperature as is conventionally known. It was.
The result is shown in FIG. The original drawing of FIG. 2 is a color graph. The horizontal axis of FIG. 2 shows the analytical value of the GC content (PC1), and the vertical axis shows the analytical value of the growth upper limit temperature (PC2). The principal component analysis method (PCA) performed here is based on a general statistical method. Red squares (black in black and white figures) indicate thermophilic bacteria, blue (black in black and white figures) indicates gram-positive bacteria with low GC content, and green (slightly gray in black and white figures) contains GC High amount of gram positive bacteria. A line of 0.0152 in PC2 in FIG. 2 indicates a boundary between thermophilic bacteria (upper side) and non-thermophilic bacteria (lower side).
Moreover, even if it restricted between Bacillus (Bacillus) related species, the correlation was seen between the 2nd main component score and the growth upper limit temperature. However, this is a result of using the average amino acid composition of the whole bacterium, and the correlation is not so clear from the viewpoint of individual proteins due to the large dispersion.

そこで、本発明者らは、解析に用いたバチルス属関連の前記した5種の微生物間において、各蛋白質の耐熱性指標を、第2主成分に対応する固有ベクトルを重み係数としてアミノ酸組成にかけることによりまず算出した。
ここで使用したアミノ酸組成に基づく主成分分析法としては、NCBIで公開されているデータベースから119種類の微生物ゲノムデータを取得し、これと本発明において決定したジオバチルスカウストフィラス HTA426(Geobacillus kaustophilus HTA426)のゲノムをあわせて120種類のゲノム中に同定された蛋白質配列を用いて行った。これらの配列のうち、配列長が50アミノ酸未満の配列を除去し、さらにPSORTプログラムを用いて2つ以上の膜貫通領域が予測された蛋白質も除去した。残った蛋白質の配列を用いて、生物種ごとに平均アミノ酸組成を算出し、生物種を行、アミノ酸を列とする行列を入力して、統計解析パッケージRのプリンコンプ(princomp)関数を用いる主成分分析法を行った。
次に、この結果を基に、好熱性ジオバチルスカウストフィラスの対応する蛋白質の主成分得点と非好熱菌4種の値の差分を算出した。この対応づけはホモロジー検索結果から推定されたオーソログ関係をもとに行い、1:1で対応関係がついた蛋白質を対象として解析を行った。(Kreil D.P. and Ouzounis, C. A. (2001) Identification of thermophilic species by the amino acid compositions deduced from their genome. Nucleic Acids Res. 29, 1608-1615)
選抜した965個のタンパク質は、2回以上の膜貫通領域を有さないタンパク質であって、かつほぼ同じ生育上限温度を有するジオバチルスステアロサーモフィラス(Geobacillus stearothermophilus )(以下、GSと略称する。)のゲノムサーバーから5種に共通な965個のタンパク質を抽出した。なお、2回以上の膜貫通領域を有するかは、PSORTプログラム(Nakai, K. & Horton, P., PSORT: Trends Biochem. Sci., 24, 34-36 (1999))によって判定した。
この結果、算出された「主成分得点」の値を次の表1〜表18に示す。これらの表の各欄は、左側から、GKに基づく識別記号である「GK ID」、各タンパク質の分類を示す「カテゴリー」、各タンパク質の名称等を示す「注釈」、そしてその右側が5種の微生物のそれぞれの識別記号と「主成分得点」の値であり、左からGK、BC、BH、BS、及びOIの順に配置されている。各微生物の識別記号に付されている色は、赤色が対応するGKの「主成分得点」との差(GKとの差=(各値)−各GK値)が、−0.005以下であることを示し、青色が対応するGKの「主成分得点」との差が−0.010以下であることを示し、緑色が対応するGKの「主成分得点」との差が−0.015以下であることを示し、色が付されていないものは対応するGKの「主成分得点」との差が−0.015を超えていることを示している。
Therefore, the present inventors apply the heat resistance index of each protein to the amino acid composition using the eigenvector corresponding to the second principal component as a weighting factor among the above-mentioned five types of microorganisms related to the genus Bacillus used for the analysis. First, it calculated.
As a principal component analysis method based on the amino acid composition used here, 119 types of microbial genome data were obtained from a database published by NCBI, and this was determined in the present invention. Geobacillus kaustophilus HTA426 ) Using the protein sequences identified in 120 different genomes. Among these sequences, sequences having a sequence length of less than 50 amino acids were removed, and proteins predicted to have two or more transmembrane regions using the PSORT program were also removed. Using the remaining protein sequences, the average amino acid composition is calculated for each species, and a matrix with the species as rows and amino acids as columns is input, and the principal analysis function of the statistical analysis package R is used. Component analysis was performed.
Next, based on this result, the difference between the main component score of the corresponding protein of the thermophilic Geobacil scout phyllus and the value of the four non-thermophilic bacteria was calculated. This association was performed based on the ortholog relationship estimated from the homology search result, and analysis was performed on proteins having a correspondence relationship of 1: 1. (Kreil DP and Ouzounis, CA (2001) Identification of thermophilic species by the amino acid compositions deduced from their genome. Nucleic Acids Res. 29, 1608-1615)
The selected 965 proteins are proteins that do not have two or more transmembrane regions and have almost the same maximum temperature of growth (Geobacillus stearothermophilus) (hereinafter abbreviated as GS). )) 965 proteins common to 5 types were extracted from the genome server. In addition, it was determined by the PSORT program (Nakai, K. & Horton, P., PSORT: Trends Biochem. Sci., 24, 34-36 (1999)) whether it has two or more transmembrane regions.
As a result, the calculated “principal component score” values are shown in the following Tables 1 to 18. Each column of these tables is, from the left side, “GK ID” which is an identification symbol based on GK, “Category” indicating the classification of each protein, “Note” indicating the name of each protein, and five types on the right side. These are the identification symbols and the “principal component score” values of the microorganisms, and are arranged in the order of GK, BC, BH, BS, and OI from the left. The color assigned to the identification symbol of each microorganism is that the difference from the “principal component score” of GK to which red corresponds (difference from GK = (each value) −each GK value) is −0.005 or less. The blue color indicates that the difference from the “principal component score” of the corresponding GK is −0.010 or less, and the green color indicates that the difference from the “main component score” of the corresponding GK is −0.015. This indicates that the difference between the corresponding GK and the “principal component score” exceeds −0.015.

この結果からも明らかなように、微生物全体としては明確な相関が見られないとしても、個々の対応するタンパク質同士を比較することにより、明確な相関が有る場合があることが明らかにされたのである。このことをより明確にするために、GKと各種の微生物の相関をグラフ化してみた。
まずグラフ化するにあたっては、GKとほぼ同じ生育上限温度を有するジオバチルスステアロサーモフィラス(Geobacillus stearothermophilus)(GS)とのオーソログの対応付けを以下のように行った。オクラホマ大のFTPサイトからGSのドラフトゲノム配列を取得した。これらコンティグ配列に対して、GKの各翻訳配列をクエリとしてTBLASTNプログラムで類似配列を検索し、最高スコアのヒットがクエリの長さの70%以上の領域について70%以上の一致を示したものをオーソログとした。次に、GKとGSについて、各タンパク質における「主成分得点」の値に基づいた相関図を図3に示す。図3の横軸はGKの「主成分得点」の値を示し、縦軸はGSの「主成分得点」の値を示す。グラフ中の実線は両者の値が同じ箇所を示し、破線は前記の実線から±0.01の範囲を示している。このように好熱性細菌同士で各タンパク質を比較した場合には、各タンパク質の「主成分得点」の値は極めて強い相関があることが分かる。同様に、非好熱性細菌であるBC、BH、BS、及びOIについてそれぞれGKとの相関をグラフ化して示したものを図4に示す。図4の左上 (a) はGKとBCとの相関であり、左下 (b) はGKとBHとの相関であり、右上 (C) はGKとBSとの相関であり、右下はGKとOIとの相関である。それぞれのグラフの横軸はGKの「主成分得点」の値を示し、縦軸は各非好熱性細菌の「主成分得点」の値を示す。このグラフから、非好熱性細菌については、タンパク質の種類によりGKとよい相関を示すものも有るが、全く異なる値を示すものもあることがわかる。
As is clear from this result, even if no clear correlation was found for the whole microorganism, it was revealed that there was a clear correlation by comparing each corresponding protein. is there. In order to make this clearer, the correlation between GK and various microorganisms was graphed.
First, in graphing, the orthologs were associated with Geobacillus stearothermophilus (GS) having the same upper growth limit temperature as GK as follows. The GS draft genome sequence was obtained from the Oklahoma University FTP site. For these contig sequences, a similar sequence was searched with the TBLASTN program using each translation sequence of GK as a query, and a hit with the highest score showed 70% or more match for a region of 70% or more of the query length. It was an ortholog. Next, for GK and GS, a correlation diagram based on the value of “principal component score” in each protein is shown in FIG. The horizontal axis of FIG. 3 shows the value of “principal component score” of GK, and the vertical axis shows the value of “principal component score” of GS. A solid line in the graph indicates a portion where both values are the same, and a broken line indicates a range of ± 0.01 from the solid line. Thus, when each protein is compared between thermophilic bacteria, it turns out that the value of the "principal component score" of each protein has a very strong correlation. Similarly, FIG. 4 shows graphs showing the correlation with GK for BC, BH, BS and OI which are non-thermophilic bacteria. The upper left (a) in FIG. 4 is the correlation between GK and BC, the lower left (b) is the correlation between GK and BH, the upper right (C) is the correlation between GK and BS, and the lower right is GK and BK. Correlation with OI. The horizontal axis of each graph shows the value of “principal component score” of GK, and the vertical axis shows the value of “principal component score” of each non-thermophilic bacterium. From this graph, it can be seen that some non-thermophilic bacteria show a good correlation with GK depending on the type of protein, but some show completely different values.

前記したGKとGSの相関では、ほぼ全てのタンパク質において両者に強い相関が認められたが、非好熱性細菌との比較では相関がほとんど無いタンパク質もあることがわかる。これは、当該タンパク質が耐熱性を有していないことによるものとも考えられる。逆に、非好熱性細菌は、全体としては耐熱性を有していないのであるが、当該微生物が産生している全部のタンパク質が耐熱性を有していないのではなく、耐熱性を有していないのは一部のタンパク質であるとも考えられる。そして、仮に耐熱性を失ったタンパク質が生命維持に不可欠のタンパク質である場合には、他のすべてのタンパク質が耐熱性を有していたとしても、当該微生物は生命体全体としてはもはや耐熱性を有していないことになる。
このことは、本発明者らの本発明における新たな知見である。即ち、従来、耐熱性のタンパク質を検索する場合には、耐熱性の微生物をスクリーニングすることによっていた。これは、耐熱性の生命体は耐熱性のタンパク質を有しているからであり、そうでなければ高温の条件下で生命を維持することができないからである。しかしながら、非好熱性細菌が産生するタンパク質は全て非耐熱性でないといけなかというと、必ずしもそうではない。非好熱性細菌が耐熱性のタンパク質を産生していたとしても、生命の維持に問題が生じるかというと、必ずしもそうではなく、非好熱性細菌が非耐熱性になっているのは全てのタンパク質が非耐熱性になったのではなく、生命維持に必須のタンパク質が耐熱性を失った結果であるということも十分考えられる。
前記した表1〜18、及び図4の結果は、非好熱性細菌であっても好熱性細菌が産生していると同様な耐熱性のタンパク質を産生している可能性を明らかにしているのである。
In the correlation between GK and GS described above, strong correlation was observed in almost all proteins, but it can be seen that there are proteins that have almost no correlation in comparison with non-thermophilic bacteria. This may be due to the fact that the protein does not have heat resistance. On the contrary, non-thermophilic bacteria do not have heat resistance as a whole, but not all proteins produced by the microorganism have heat resistance, but have heat resistance. It is thought that some proteins are not. If a protein that has lost its heat resistance is an essential protein for life support, even if all other proteins have heat resistance, the microorganism is no longer heat resistant as a whole organism. It will not have.
This is a new finding in the present invention by the present inventors. That is, conventionally, when searching for a heat-resistant protein, it has been done by screening a heat-resistant microorganism. This is because a heat-resistant life form has a heat-resistant protein, otherwise life cannot be maintained under high temperature conditions. However, not all proteins produced by non-thermophilic bacteria must be non-thermostable. Even if non-thermophilic bacteria produce heat-resistant proteins, the problem of sustaining life is not necessarily the case. Non-thermophilic bacteria are all non-thermophilic. It is possible that it is not the result of becoming non-heat-resistant, but that it is the result of the loss of heat resistance of proteins essential for life support.
The results shown in Tables 1 to 18 and FIG. 4 clarify the possibility of producing a heat-resistant protein similar to that produced by a thermophilic bacterium even if it is a non-thermophilic bacterium. is there.

これらの結果を、各微生物の生育上限温度との関係でまとめたものを次の図5に示す。図5の横軸は温度を示し、縦軸は百分率(%)を示す。グラフ中の黒四角印(■)はGKを示し、黒丸印(●)はBHを示し、白丸印(○)はBSを示し、白三角印(△)はBCを示し、白四角印(□)はOIをそれぞれ示す。横軸には、それぞれの微生物の生育上限温度がプロットされ、縦軸は上のライン(原図では緑色)は、965個のタンパク質のうちGKとの「主成分得点」の値の差が−0.015を超えているタンパク質の数の全965個に対する百分率(%)を各微生物についてプロットした線であり、中程のライン(原図では青色)は同様に−0.010を超えているタンパク質の数の百分率(%)を各微生物についてプロットした線であり、下側のライン(原図では赤色)は同様に−0.005を超えているタンパク質の数の百分率(%)を各微生物についてプロットした線である。「主成分得点」の値の差が−0.015を超えている(即ち、−0.015以上、絶対値では小さくなるが、負数であるから大きくなる。以下同じ。)タンパク質を耐熱性蛋白質として、BC、BH、BS、及びOIについてこれらの菌の蛋白質の数及びその比率をまとめたものを次の表19に示す。   A summary of these results in relation to the maximum growth temperature of each microorganism is shown in FIG. The horizontal axis of FIG. 5 indicates temperature, and the vertical axis indicates percentage (%). Black square marks (■) in the graph indicate GK, black circle marks (●) indicate BH, white circle marks (◯) indicate BS, white triangle marks (Δ) indicate BC, and white square marks (□ ) Indicates OI. On the horizontal axis, the upper limit temperature of growth of each microorganism is plotted, and on the vertical axis, the upper line (green in the original figure) shows that the difference in the value of “principal component score” from GK out of 965 proteins is −0. The percentage of the number of proteins exceeding .015 to the total of 965 (%) is plotted for each microorganism, with the middle line (blue in the original figure) of the protein similarly exceeding -0.010. Number percentage (%) is a line plotted for each microorganism, and the lower line (red in the original figure) similarly plots the percentage (%) of the number of proteins above -0.005 for each microorganism. Is a line. The difference in the value of the “principal component score” exceeds −0.015 (that is, −0.015 or more, the absolute value is small but the negative value is large. The same applies hereinafter). Table 19 below summarizes the numbers and ratios of proteins of these bacteria for BC, BH, BS, and OI.

表19は、前記した主成分分析法に基づいて各常温性バチルス(Bacillus)属の細菌から耐熱性の蛋白質を予測した結果をまとめたものである。表19中の、−は各蛋白質とGKのPC2値との差が−0.015よりも小さく耐熱性無しと判定されたものを示し、+は各蛋白質とGKのPC2値との差が−0.015より大きいもの、++は−0.010よりも大きいもの、+++は−0.005よりも大きいもので耐熱性有りと判定されたものをそれぞれ示す。表19中の、++、+++は前記した++と+++の和を示し、+、++、+++は前記した+と++と+++の和を示す。表19は、バチルス(Bacillus)5種間で1:1の対応がつく965種のオーソログ(orthlog)に基づく解析を行った結果をまとめたものである。
この結果、表19に示したように、BCでは965個の蛋白質の83.5%が、BHでは79.1%、BSでは72.1%、OIでは59.5%が耐熱性蛋白質であると予測された。このグラフでは、BC(△)が少し異常な数値を示しているが、蛋白質の3種は同様な傾向を示していることがわかる。即ち、好熱性細菌の産生するタンパク質と同程度の「主成分得点」の値を有するタンパク質をたくさん産生している微生物であるほど、生育上限温度が高くなっていることが示されている。例えば、好熱性細菌の産生するタンパク質と同程度の「主成分得点」の値を有するタンパク質を最も少量しか産生していないOIは、これらの微生物の中で最も低い生育上限温度となっている。また、BC(△)はこれらの4種の非好熱性細菌の中では、最も多量の同種のタンパク質を有しているが、生育上限温度が異常に低くなっていることがわかる。これは、生命維持に必須のタンパク質がたまたま耐熱性を失った結果であると考えられる。
Table 19 summarizes the results of predicting thermostable proteins from bacteria of each genus Bacillus based on the principal component analysis described above. In Table 19,-indicates that the difference between the PC2 value of each protein and GK was less than -0.015, and that there was no heat resistance, + indicates the difference between the PC2 value of each protein and GK- A value greater than 0.015, ++ is greater than −0.010, and ++ is greater than −0.005 and is determined to have heat resistance. In Table 19, ++ and ++ indicate the sum of ++ and ++ described above, and +, ++, and ++ indicate the sum of +, ++, and ++ described above. Table 19 summarizes the results of analysis based on 965 orthologs that have a 1: 1 correspondence between five Bacillus species.
As a result, as shown in Table 19, 83.5% of 965 proteins in BC, 79.1% in BH, 72.1% in BS, and 59.5% in OI are heat-resistant proteins. It was predicted. In this graph, BC (Δ) shows a slightly abnormal value, but it can be seen that the three types of proteins show the same tendency. That is, it is shown that the upper limit temperature for growth is higher as the microorganism produces more proteins having the same “principal component score” value as the protein produced by thermophilic bacteria. For example, OI producing the smallest amount of protein having a “principal component score” value similar to that produced by thermophilic bacteria has the lowest growth upper limit temperature among these microorganisms. In addition, BC (Δ) has the largest amount of the same protein among these four types of non-thermophilic bacteria, but the growth upper limit temperature is abnormally low. This is thought to be the result of the accidental loss of heat resistance of a protein essential for life support.

次に、このことを検証するために、これらの微生物からタンパク質を分離し、(1)非加熱、(2)60℃で10分間加熱、(3)70℃で10分間加熱、のそれぞれの処理した後でのネイティブPAGEのパターンを検討した。結果を図6に図面に代わる写真で示す。図6の左側(図6a)は全タンパク質であり、クーマシーブリリアントブルー(Coomassie brilliant blue)で染色したものである。この結果、好熱性細菌のGKでは加熱処理後(レーン2及び3)であってもほとんど全てのタンパク質のバンドを確認することができるが、他の4種の非好熱性細菌では加熱処理により多くのタンパク質のバンドが消失することがわかる。しかし、ここで重要なことは、全部のタンパク質のバンドが消失するわけではないということである。いくつかのタンパク質のバンドは加熱処理後においても消失せずに残っていることがわかる。このことは、前記してきた、非好熱性細菌であっても産生する全てのタンパク質が非耐熱性であるということではない、ということを実証するものである。
図6の右側(図6b)は、各微生物の全タンパク質を図6aと同様にネイティブPAGEで分離した後、エステラーゼ (EC 3.1.1.1) 活性を有するタンパク質のバンドを活性染色法により検出したものである。各図のBC、BH、BS、GK、OIはそれぞれの微生物を示し、各微生物の1〜3の各レーンは、1が非加熱、2が60℃10分、3が70℃ 10分である。エステラーゼ(図6b)におけるOIでは60℃の加熱処理により(レーン2)バンドは消失している。また、BCも未処理時に最も強く染色されたメインバンドが60℃の加熱処理によって消失している。しかし、BSでは加熱処理によりバンドは消失しておらず、BHにおいてもわずかではあるが、60℃の加熱処理によってもバンドが消失せず維持されている。
また、バチルスサブチリスにおける生育に必須のタンパク質の一つであるGroES、バチルス属関連種に共通に保存されている代表的なタンパク質のひとつであるHag (Flagellin)については、各微生物からこれらのタンパク質をコードしている遺伝子をPCRにて増幅し、大腸菌を用いてクローン化したものを用いて先と同様に耐熱性の検証を行った。クローン化され精製された各タンパク質を(1)非加熱、(2)60℃で10分間加熱、(3)70℃で10分間加熱、のそれぞれの処理した後でのネイティブPAGEのパターンを検討した。結果を図7に図面に代わる写真で示す。左側(図7a)はHag、右側(図7b)はGroESであり、ネイティブPAGEで分離した後、クーマシーブリリアントブルー(Coomassie brilliant blue)で染色した結果を示したものである。各図のBC、BH、BS、GK、OIはそれぞれの微生物を示し、各微生物の1〜3の各レーンは、1が非加熱、2が60℃10分、3が70℃ 10分である。
Next, in order to verify this, proteins were separated from these microorganisms, and each treatment was (1) unheated, (2) heated at 60 ° C for 10 minutes, and (3) heated at 70 ° C for 10 minutes. After that, the pattern of native PAGE was examined. The results are shown in FIG. The left side of FIG. 6 (FIG. 6a) is the total protein, which is stained with Coomassie brilliant blue. As a result, almost all protein bands can be confirmed even after heat treatment (lanes 2 and 3) in the thermophilic bacterium GK, but in the other four types of non-thermophilic bacteria, more It can be seen that the protein band disappears. However, what is important here is that not all protein bands disappear. It can be seen that some protein bands remain without being lost even after heat treatment. This proves that not all the proteins produced even in the case of the non-thermophilic bacteria described above are non-thermostable.
The right side of FIG. 6 (FIG. 6b) shows the protein band having esterase (EC 3.1.1.1) activity detected by the activity staining method after separation of all proteins of each microorganism by native PAGE as in FIG. 6a. is there. BC, BH, BS, GK, and OI in each figure indicate the respective microorganisms. In each of the lanes 1 to 3 of each microorganism, 1 is unheated, 2 is 60 ° C. for 10 minutes, and 3 is 70 ° C. for 10 minutes. . In OI in esterase (FIG. 6b), the band disappeared by heat treatment at 60 ° C. (lane 2). In addition, the main band, which was most strongly stained when BC was not treated, disappeared by heat treatment at 60 ° C. However, in BS, the band is not lost by the heat treatment, and in BH, the band is not lost even by the heat treatment at 60 ° C., but it is maintained.
In addition, GroES, which is one of the proteins essential for growth in Bacillus subtilis, and Hag (Flagellin), which is one of the typical proteins conserved among the species related to the genus Bacillus, The gene coding for was amplified by PCR, and heat resistance was verified in the same manner as described above using a gene cloned using E. coli. Each cloned and purified protein was examined for native PAGE patterns after (1) unheated, (2) heated at 60 ° C. for 10 minutes, and (3) heated at 70 ° C. for 10 minutes. . The results are shown in FIG. The left side (FIG. 7a) is Hag, and the right side (FIG. 7b) is GroES. After separation by native PAGE, the result of staining with Coomassie brilliant blue is shown. BC, BH, BS, GK, and OI in each figure indicate the respective microorganisms. In each of the lanes 1 to 3 of each microorganism, 1 is unheated, 2 is 60 ° C. for 10 minutes, and 3 is 70 ° C. for 10 minutes. .

ではどのようなタンパク質が耐熱性であるのかということが問題となる。エステラーゼの場合には、複数の蛋白質が染色法により染色される可能性があるので、実際的にはどのバンドに相当するかを一義的に特定することは困難であることがわかったので、蛋白質のHagとGroESに着目することにした。そこで、各微生物のHagについて検証してみた結果が図7a、GroESについては図7bである。これらのタンパク質は、前記の表に記載されているGKの識別記号がGK3131(Hag)、GK0248(GroES)のものである。
これらのタンパク質の各微生物における主成分得点の値は次のようになっている。Hagは、(GK,−0.0513;BC,−0.0622;BH,−0.0567;BS,−0.0578;OI,−0.0528)(表17参照)、GroESは、(GK,0.1018;BC,0.0826;BH,0.1012;BS,0.0940;OI,0.0988)(表3参照)である。これらをまとめて示すと次の表20となる。
Then, what kind of protein is heat resistant becomes a problem. In the case of esterase, since it is possible that a plurality of proteins may be stained by a staining method, it has been found that it is difficult to uniquely identify which band actually corresponds. I decided to pay attention to Hag and GroES. Therefore, the results of verifying the Hag of each microorganism are shown in FIG. 7a and FIG. 7b for GroES. These proteins have GK identification symbols described in the above table of GK3131 (Hag) and GK0248 (GroES).
The value of the main component score of each protein of these proteins is as follows. Hag is (GK, -0.0513; BC, -0.0622; BH, -0.0567; BS, -0.0578; OI, -0.0528) (see Table 17), GroES is (GK , 0.1018; BC, 0.0826; BH, 0.1012; BS, 0.0940; OI, 0.0988) (see Table 3). These are collectively shown in Table 20 below.

Hagタンパク質については、BC以外の全てについては、70℃の加熱処理によりによっても未処理時とほぼ同様にバンドが維持されている。GroESタンパク質については、BCとBSが60℃以上の加熱処理によりわずかに薄いバンドしか確認されなかったことから、熱処理によってタンパク質が分解されたと考えられる。他のGK、OI、GKについては未処理とほぼ同様にバンドが維持されていた。このことは、非好熱性細菌では、その種類により、耐熱性を保持しているものと保持していないものがあるということを示している。
次に、図6aで示された70℃で10分間熱処理後にも消失せず残ったタンパク質のバンドを上部から順にゲルから切り出し、各バンドに含まれるタンパク質の同定をLC/MS/MSを用いて行った。その結果を表21−25に示す。
As for the Hag protein, bands other than BC are maintained in the same manner as when untreated even by heat treatment at 70 ° C. Regarding the GroES protein, only a slightly thin band was confirmed by heat treatment at 60 ° C. or higher for BC and BS, and it is considered that the protein was decomposed by heat treatment. For other GK, OI, and GK, bands were maintained in substantially the same manner as untreated. This indicates that some non-thermophilic bacteria have heat resistance and some do not.
Next, protein bands that did not disappear even after heat treatment at 70 ° C. for 10 minutes shown in FIG. 6a were cut out from the gel in order from the top, and the proteins contained in each band were identified using LC / MS / MS. went. The results are shown in Tables 21-25.

表21−25は、熱処理実験により耐熱性が確認されたバチルスサブチリス(Bacillus subtilis (BS))由来の蛋白質の内訳(表21及び表22)を、バチルスハロドランス(Bacillus halodurans(BH))由来の蛋白質の内訳(表23)を、オーシャノバチルスイヘエンシス(Oceanobacillus iheyensis(OI))由来の蛋白質の内訳(表24)を、バチルスセレウス(Bacillus cereus(BC))由来の蛋白質の内訳(表25)をそれぞれ示したものである。各表の各欄は左から、BSの遺伝子名、その産生物名、対応するGKの遺伝子名、予測の結果、産生物のアミノ酸数、GKとBSの主成分分析の得点差をそれぞれ示す。「予測の結果」欄の、−はGKのPC2値との差が−0.015よりも小さいさく耐熱性無しと判定されたことを示し、+はその差が−0.015よりも大きいものを、++は−0.010よりも大きいものを、+++は-0.005よりも大きいもので耐熱性有りと判定されたものであることを示す。
表21−25に示したように少なくともBCとBHでは38、BSでは117、OIでは52の耐熱性タンパク質が同定された。そこで、耐熱性が確認されたタンパク質の耐熱性の有無がGKと他のBacillus属関連種との主成分得点の対比によりどのように予測されていたかを調べた。先に述べたように各Bacillus属関連種とGKの主成分得点の差が−0.015以上を耐熱性ありとすると、BCでは表25に示した38個中34個(89.5%)が、BHでは表23に示した38個中36個(94.7%)、BSでは表21及び表22に示した117個中103個(88.0%)、OIでは表24に示した52個中46個(88.5%)が、本発明の方法により耐熱性ありと予測されていたことがわかる。
これらの結果をまとめて示すと次の表26になる。表26の各記号は表19の場合と同様である。したがって、好熱性細菌の対応するタンパク質との相関を計算することにより、非好熱性細菌が産生しているタンパク質の耐熱性を判別することができるという本発明の方法が、当該タンパク質の耐熱性を示しているということである。
Table 21-25 shows the breakdown (Table 21 and Table 22) of proteins derived from Bacillus subtilis (BS) whose heat resistance has been confirmed by heat treatment experiments, and Bacillus halodurans (BH). Breakdown of proteins derived from Table (23), Breakdown of proteins derived from Oceanobacillus iheyensis (OI) (Table 24), Breakdown of proteins derived from Bacillus cereus (BC) (Table 23) 25) respectively. Each column of each table shows, from the left, the BS gene name, its product name, the corresponding GK gene name, the prediction result, the number of amino acids in the product, and the score difference of the principal component analysis of GK and BS. In the “prediction result” column, − indicates that the difference from the PC2 value of GK is less than −0.015, and it is determined that there is no heat resistance, and + indicates that the difference is greater than −0.015. ++ is greater than -0.010, and ++ is greater than -0.005, indicating that it has been determined to have heat resistance.
As shown in Table 21-25, at least 38 heat-resistant proteins were identified for BC and BH, 117 for BS, and 52 for OI. Therefore, it was examined how the presence or absence of heat resistance of a protein for which heat resistance was confirmed was predicted by comparing the main component scores of GK and other species belonging to the genus Bacillus. As described above, if the difference in the main component score between each Bacillus genus-related species and GK is −0.015 or more, the BC has 34 out of 38 (89.5%) shown in Table 25. However, in BH, 36 out of 38 (94.7%) shown in Table 23, BS in 103 out of 117 shown in Table 21 and Table 22 (88.0%), and OI shown in Table 24 It can be seen that 46 out of 52 (88.5%) were predicted to be heat resistant by the method of the present invention.
These results are summarized in Table 26 below. Each symbol in Table 26 is the same as in Table 19. Therefore, the method of the present invention in which the heat resistance of a protein produced by a non-thermophilic bacterium can be determined by calculating the correlation with the corresponding protein of the thermophilic bacterium, the heat resistance of the protein. It is that it shows.

本発明の方法をバチルス(Bacillus)属関連種に基づいて説明してきたが、本発明の方法は、例示してきたバチルス(Bacillus)属関連種に限定されるものではなく、被検定タンパク質に対応する耐熱性タンパク質が存在している限りいかなる生物種にも適用可能なものであることは当業者であれば容易に理解されるところである。
本発明における「耐熱性生物」とは、ヒトが生命を維持できる温度以上で、生命を維持できる生物であればよいが、具体的には約50℃以上、好ましくは60℃以上、より好ましくは65℃以上の環境下で生命を維持できる生物をいう。例えば、好熱性菌、温泉生物、などが挙げられる。本発明の方法における「耐熱性生物」としては、被検定タンパク質を産生する生物と関連性を有する耐熱性生物が好ましい。ここで言う「関連性」としては、生物学における分類による近似性、発生学における遺伝子的な近似性、当該被検定タンパク質の有する機能的な近似性などを例示することができる。
本発明における「耐熱性生物が有するタンパク質」とは、当該耐熱性生物が産生するタンパク質であり、生命維持に必要なタンパク質であるか否かにかかわらず、当該耐熱性生物が産生しているタンパク質であればあればよい。
また、本発明における「耐熱性生物の有する被検定タンパク質と対応するタンパク質」としては、被検定タンパク質が有する機能と同種、好ましくは同等の機能を有するタンパク質であればよく、必ずしも生物学的又は発生学的な関連性を有する必要はないが、好ましくは生物学的又は発生学的な関連性を有するものが挙げられる。例えば、前記して例で挙げてきたように生物学的なオルソロガス遺伝子に基づく対応関係や、同属又は同種の生物間における同種の機能を有するタンパク質の関係などが挙げられる。
本発明の方法における「耐熱性生物の有する被検定タンパク質と対応するタンパク質」は、必ずしも1個のタンパク質である必要はなく、2個又はそれ以上のタンパク質であってもよい。そして、このようなタンパク質として2個以上のタンパク質を選定することができる場合には、これら相互と比較し、総合的に判定することも可能である。
Although the method of the present invention has been described based on Bacillus related species, the method of the present invention is not limited to the exemplified Bacillus related species and corresponds to the protein to be tested. Those skilled in the art will readily understand that thermostable proteins can be applied to any species as long as they exist.
The “heat-resistant organism” in the present invention may be any organism that can maintain life at or above the temperature at which a human can maintain life, and specifically, it is about 50 ° C. or more, preferably 60 ° C. or more, more preferably An organism that can sustain life in an environment of 65 ° C or higher. Examples include thermophilic bacteria and hot spring organisms. As the “thermostable organism” in the method of the present invention, a thermostable organism having a relationship with an organism producing the test protein is preferable. Examples of the “relevance” herein include closeness by biology classification, genetic closeness in embryology, and functional closeness of the protein to be tested.
In the present invention, the “protein possessed by a thermostable organism” is a protein produced by the thermostable organism, and whether the protein is produced by the thermostable organism regardless of whether or not it is a protein necessary for life support. If it is.
In the present invention, the “protein corresponding to the test protein possessed by the thermostable organism” may be a protein having the same kind as that of the test protein, preferably the same function as that of the test protein. It is not necessary to have a biological relationship, but those having a biological or developmental relationship are preferable. For example, as described above, examples include correspondence relationships based on biological orthologous genes, and relationships between proteins having the same kind of functions among organisms of the same or the same kind.
The “protein corresponding to the test protein possessed by the thermostable organism” in the method of the present invention is not necessarily one protein, and may be two or more proteins. And when two or more proteins can be selected as such a protein, it is also possible to judge comprehensively by comparing with each other.

本発明の方法における、「アミノ酸組成に基づく被検定蛋白質の耐熱性指標」を計算する手法としては、前記で例示してきた生物のゲノム中に同定される蛋白質をコードしている遺伝子に基づいて、タンパク質を抽出し、これらのタンパク質のうち、アミノ酸配列の配列長が50アミノ酸未満のタンパク質を除去し、さらにPSORTプログラムを用いて2つ以上の膜貫通領域が予測されたタンパク質も除去し、次に残ったタンパク質についてそれらのアミノ酸配列を用いて、生物種ごとに平均アミノ酸組成を算出し、算出された平均アミノ酸組成について生物種を行、アミノ酸を列とする行列を入力して、統計解析パッケージRのプリンコンプ(princomp)関数を用いる主成分分析法に基づく方法(Kreil D.P. and Ouzounis, C. A. (2001) Identification of thermophilic species by the amino acid compositions deduced from their genome. Nucleic Acids Res. 29, 1608-1615)が有効であるが、これに限定されるものではなく、実験的に耐熱性が検証された蛋白質の数が一定数以上あれば、判別分析や回帰分析などの手法によりその知見を取り込んで改善することも可能である。また、本発明においてはタンパク質全体(全長を)用いることが好ましいが、タンパク質の各ドメイン、部分長のみを対象に用いて行うことも可能である。   In the method of the present invention, as a technique for calculating the “heat resistance index of the test protein based on amino acid composition”, based on the gene encoding the protein identified in the genome of the organism exemplified above, Proteins are extracted, and among these proteins, proteins whose amino acid sequence is less than 50 amino acids are removed, and proteins in which two or more transmembrane regions are predicted using the PSORT program are also removed. Using the amino acid sequences of the remaining proteins, the average amino acid composition is calculated for each biological species, the biological average is calculated for the calculated average amino acid composition, a matrix having amino acids as columns is input, and the statistical analysis package R Method Based on Principal Component Analysis Using the Princomp Function (Kreil DP and Ouzounis, CA (2001) Identification of the Nucleic Acids Res. 29, 1608-1615) is effective, but the number of proteins whose heat resistance has been verified experimentally is not limited to this. If there are more than a certain number, it is possible to improve by incorporating the knowledge by methods such as discriminant analysis and regression analysis. Further, in the present invention, it is preferable to use the whole protein (full length), but it is also possible to carry out using only each domain and partial length of the protein.

本発明の方法における「分析値の比較」としては、前記の例で示してきた、両者の差を取る方法が簡便で好ましいがこれに限定されるものではない。データ量が多数蓄積された場合には、全体の平均値との相違や、偏差のように統計的な処理がなされた値に基づいて比較することも可能である。
また、比較したときの判定基準は、被検定タンパク質が実際に耐熱性を有していることを確認できる範囲において、これを設定することができる。前記した例では、固有ベクトル値(各アミノ酸の重み係数)と各蛋白質のアミノ酸数から計算された主成分得点の差が−0.005〜−0.015程度以下である範囲において耐熱性であると判定することができる。このような判定は、必ずしも、有るか無いかということだけでなく、耐熱性を有する可能性として百分率(%)で表示することも可能である。
As the “comparison of analysis values” in the method of the present invention, the method of taking the difference between them as shown in the above example is simple and preferable, but is not limited thereto. When a large amount of data is accumulated, it is possible to make a comparison based on a difference from the overall average value or a value subjected to statistical processing such as a deviation.
In addition, the criterion for comparison can be set within a range in which it can be confirmed that the test protein actually has heat resistance. In the above-described example, heat resistance is within a range where the difference between the principal component score calculated from the eigenvector value (weighting coefficient of each amino acid) and the number of amino acids of each protein is about −0.005 to −0.015 or less. Can be determined. Such a determination is not necessarily limited to whether or not it exists, but can also be displayed as a percentage (%) as the possibility of having heat resistance.

本発明の方法における、被検定タンパク質のアミノ酸組成に基づく主成分分析による固有の解析値を算出するためのデータとしては、当該タンパク質のアミノ酸配列及び/又は塩基配列のデータなどが挙げられるがこれに限定されるものではなく、アミノ酸組成だけであってもよいこともあり得る。このようなデータとしては、判定精度を上げるために、情報量の多いものが好ましいが、前記の例で示したように当該タンパク質をコードする塩基配列が簡便で好ましい例としてあげることができる。これに加えて、タンパク質の3次元データなどをさらに加えることも可能であるが、どのようなデータが必要であるかということは、判定の精度の向上だけでなく、このデータを処理する処理手法に大きく依存している。   In the method of the present invention, the data for calculating a specific analysis value by principal component analysis based on the amino acid composition of the protein to be tested includes amino acid sequence and / or base sequence data of the protein. It is not limited, and it may be only the amino acid composition. As such data, data having a large amount of information is preferable in order to increase the determination accuracy. However, as shown in the above example, the base sequence encoding the protein can be mentioned as a simple and preferable example. In addition to this, it is possible to further add protein three-dimensional data, but what kind of data is necessary is not only an improvement in the accuracy of determination, but also a processing method for processing this data. Depends heavily on.

本発明の方法は、具体的には以下に示す(1)〜(6)のステップからなるものである。
(1)タンパク質のアミノ酸配列及び/又はそれをコードする塩基配列を得ること。
(2)当該アミノ酸配列及び/又は塩基配列のデータに基づいて、当該タンパク質の
「固有の分析値」を算出すること。
(3)当該タンパク質を被検定タンパク質として、「耐熱性生物の有する被検定
タンパク質と対応するタンパク質」を選定すること。
(4)選定された「対応するタンパク質」の分析値データを得ること。
(5)両者を比較すること。
(6)比較の結果に基づいて判定すること。
これらのステップにおいて、(1)の配列の決定、及び(3)の選定以外の事項は予めその処理方法を設定しておくことができ、電子計算機による処理が可能である。また、前記ステップ(3)も、酵素分類などに基づいて予め分類しておけば、蓄積データの中から選定対象となる「対応するタンパク質」を選定させることも可能である。そうすると、前記(1)のステップ以外を電子計算機による処理とすることができる。
即ち、本発明は、前記してきた本発明の方法を、電子計算機で処理できようにプログラムされており、当該処理が、(a)当該プログラムに当該タンパク質のアミノ酸配列又は塩基配列のデータを入力することにより、電子計算機による処理で固有の分析値の算出する方法、(b)当該タンパク質の分類記号、機能データ、由来データなどに基づいて当該タンパク質に「対応するタンパク質」を蓄積データの中から抽出する方法、(c)前記の(b)ステップで抽出されてきた「対応するタンパク質」の固有の分析値を算出又は蓄積データの値として参照する方法、(d)当該タンパク質の固有の分析値と、「対応するタンパク質」の固有の解析値を比較する方法、(e)比較した結果を表示(出力)する方法として、電子計算機により処理方法を提供するものである。
Specifically, the method of the present invention comprises the following steps (1) to (6).
(1) Obtaining an amino acid sequence of a protein and / or a base sequence encoding it.
(2) Calculate the “unique analysis value” of the protein based on the amino acid sequence and / or base sequence data.
(3) Select “protein corresponding to the test protein possessed by the thermostable organism” with the protein as the test protein.
(4) Obtain analytical value data of the selected “corresponding protein”.
(5) Compare the two.
(6) To make a determination based on the result of the comparison.
In these steps, the processing method can be set in advance for matters other than the determination of the arrangement in (1) and the selection in (3), and can be processed by an electronic computer. Further, if the step (3) is also classified in advance based on enzyme classification or the like, it is possible to select a “corresponding protein” to be selected from the accumulated data. If it does so, it can be set as the process by an electronic computer except the step of said (1).
That is, the present invention is programmed so that the above-described method of the present invention can be processed by an electronic computer, and the processing inputs (a) the amino acid sequence or base sequence data of the protein to the program. (B) Extracting the “corresponding protein” from the accumulated data based on the protein classification symbol, function data, origin data, etc. (C) a method of referring to a specific analysis value of the “corresponding protein” extracted in the step (b) described above as a value of calculated or accumulated data, and (d) a specific analysis value of the protein. , Processed by an electronic computer as a method of comparing specific analysis values of “corresponding proteins”, (e) a method of displaying (outputting) the comparison results It is intended to provide the law.

前記した電子計算機による処理においては、耐熱性生物の有する被検定タンパク質と対応するタンパク質における解析値を、その都度計算させることもできるが、当該タンパク質のアミノ酸組成に基づく主成分分析により算出された値を各タンパク質の種類に応じて分類してリスト化して蓄積データとしておくこともできる。このような蓄積データは、電子計算機による処理に供する情報として利用できるように、電子計算機で処理可能な記録媒体に蓄積することができる。このような記録媒体としては、ハードディスク、DVDディスク、CD−ROM、MO、フレキシブルディスクなどが挙げられる。   In the processing by the electronic computer described above, the analysis value in the protein corresponding to the test protein of the thermostable organism can be calculated each time, but the value calculated by the principal component analysis based on the amino acid composition of the protein Can be classified and listed according to the type of each protein to be stored data. Such accumulated data can be accumulated in a recording medium that can be processed by an electronic computer so that it can be used as information for processing by the electronic computer. Examples of such a recording medium include a hard disk, a DVD disk, a CD-ROM, an MO, and a flexible disk.

本発明の方法は、実験を伴わずにタンパク質の固有の分析値を計算することにより、またより簡便にはパーソナルコンピューター上で蛋白質の耐熱性予測ができるため、非常に迅速で安価である。また、本発明は、生物の個体ではなく、その生物が産生しているタンパク質単位で判定が可能であるために、従来は好熱性菌にその資源を頼らざるを得なかった耐熱性酵素の検索範囲を、中温菌が産生するタンパク質の範囲にまで広げることが出来るようになり、耐熱性タンパク質のスクリーニング範囲を拡大することができる。さらに、これまで非常に時間と労力を要した中温菌からの耐熱性酵素のスクリーニングにも予め耐熱性酵素候補の絞り込みが出来るようになったことで、様々なプロセスに対応できる耐熱性酵素の検索を容易に行うことができることになる。   The method of the present invention is very quick and inexpensive because it can predict the heat resistance of a protein on a personal computer by calculating the inherent analysis value of the protein without experiment, and more easily. In addition, since the present invention can be determined not by an individual organism but by a protein unit produced by the organism, a search for thermostable enzymes that conventionally had to rely on thermophilic bacteria for its resources. The range can be expanded to the range of proteins produced by mesophilic bacteria, and the screening range for thermostable proteins can be expanded. In addition, it has become possible to narrow down candidates for thermostable enzymes in advance for screening thermostable enzymes from mesophilic bacteria, which has been extremely time-consuming and laborious, so that the search for thermostable enzymes that can be used in various processes is now possible. Can be easily performed.

以下、実施例により本発明をより具体的に説明するが、本発明はこれら実施例により何ら限定されるものではない。   EXAMPLES Hereinafter, although an Example demonstrates this invention more concretely, this invention is not limited at all by these Examples.

120種の菌のデータの算出法。
NCBIで公開されているデータベースから119種類の微生物ゲノムデータを取得し、これと本発明において決定したジオバチルスカウストフィラス HTA426(Geobacillus kaustophilus HTA426)のゲノムをあわせて120種類のゲノム中に同定された蛋白質の配列を解析に用いた。これらの蛋白質の配列のうち、配列長が50アミノ酸未満の蛋白質を除去し、さらにPSORT(K. Nakai, P. Horton, Trends Biochem. Sci., 24, 34-6, 1999 )プログラムを用いて2つ以上の膜貫通領域が予測された蛋白質も除去した。残った蛋白質の配列を用いて、生物種ごとに平均アミノ酸組成を算出し、生物種を行、アミノ酸を列とする行列を入力して、クレイルらの方法(D. Kreil, C. Ouzounis, Nucleic Acids Res, 29, 1608-15, 2001)にしたがって、主成分分析を行った。解析には統計解析パッケージRのプリンコンプ(princomp)関数を用いた。
Calculation method of data of 120 species of bacteria.
119 types of microbial genome data were obtained from the database published by NCBI, and the genome of Geobacillus kaustophilus HTA426 determined in the present invention was identified in 120 types of genomes. The protein sequence was used for analysis. Among these protein sequences, a protein having a sequence length of less than 50 amino acids is removed, and further 2 using a PSORT (K. Nakai, P. Horton, Trends Biochem. Sci., 24, 34-6, 1999) program. Proteins predicted to have more than one transmembrane region were also removed. Using the remaining protein sequence, calculate the average amino acid composition for each species, enter a matrix with the species as rows and amino acids as columns, and the method of Craile et al. (D. Kreil, C. Ouzounis, Nucleic According to Acids Res, 29, 1608-15, 2001), principal component analysis was performed. For the analysis, the princomp function of the statistical analysis package R was used.

965個のタンパク質の固有の解析値データの算出法
GK, BC, BH, BS, OI の5種間のオーソログの対応付けはウチヤマによるMBGD(I. Uchiyama, Nucleic Acids Res 31, 58-62, 2003)サーバ上のクラスタリングプログラムを用いて行った。5種すべてに存在し、かつ1対1の対応がついたオーソロググループのみを解析に用いた。さらに、PSORTで膜貫通領域が2つ以上あると予測された蛋白質が4つ以上含まれるグループは除いた。前記実施例1に記載の主成分分析で得られた第2主成分の固有ベクトルを用いて、各蛋白質の耐熱性指標を、アミノ酸組成ベクトルと固有ベクトルの内積として算出した。
Calculation method of intrinsic analysis value data of 965 proteins The correspondence of five kinds of orthologs of GK, BC, BH, BS, OI is MBGD (I. Uchiyama, Nucleic Acids Res 31, 58-62, 2003) ) Performed using a clustering program on the server. Only ortholog groups present in all five and having a one-to-one correspondence were used for the analysis. Furthermore, a group including 4 or more proteins predicted to have 2 or more transmembrane regions by PSORT was excluded. Using the eigenvector of the second principal component obtained by the principal component analysis described in Example 1, the heat resistance index of each protein was calculated as the inner product of the amino acid composition vector and the eigenvector.

全タンパク質の分析
GK、BS、BCはLB培地(pH 7)を用いて、BHとOIはホリコシII(Horikoshi II)培地(PH 9.5)(Takami, H, Kobayashi, T., Aono, R., and Horikoshi, K. Appl. Microbiol. Biotechnol. 38, 101-108, 1992)を用いて好気的に18時間液体培養した。培養温度は、GKの55℃を除き37℃で行った。培養菌体を遠心分離により取得し、50mMのリン酸バッファーで菌体を洗浄後、同バッファーに再懸濁して菌液とした。次にこの菌液をフレンチプレスに供試して作製した菌体破砕液を遠心分離し、菌体残渣を取り除いたものをタンパク質溶液として全タンパク質の分析に用いた。また、このタンパク質溶液をそれぞれ60℃、70℃で10分間熱処理後急冷して熱処理タンパク質溶液をした。全タンパク質の分析は、ネイティブゲル電気泳動法によって行い、ゲル濃度は12.5%のものを用いた。電気泳動後のゲルは、クーマシーブリリアントブルー(Coomassie brilliant blue)にて染色した。
Analysis of total protein GK, BS and BC use LB medium (pH 7), BH and OI use Horikoshi II medium (PH 9.5) (Takami, H, Kobayashi, T., Aono, R., and Horikoshi, K. Appl. Microbiol. Biotechnol. 38, 101-108, 1992). The culture temperature was 37 ° C except for 55 ° C of GK. The cultured cells were obtained by centrifugation, washed with 50 mM phosphate buffer, and then resuspended in the same buffer to obtain a bacterial solution. Next, the bacterial cell disruption solution prepared by using this bacterial solution in a French press was centrifuged, and the bacterial cell residue removed was used as a protein solution for the analysis of total proteins. The protein solution was heat-treated at 60 ° C. and 70 ° C. for 10 minutes and then rapidly cooled to obtain a heat-treated protein solution. The total protein was analyzed by native gel electrophoresis, and the gel concentration was 12.5%. The gel after electrophoresis was stained with Coomassie brilliant blue.

耐熱性蛋白質の同定
上記の実施例3に記載の方法で調製した各生物のタンパク質溶液を、実施例3と同様にして、ネイティブゲル電気泳動法によって分離し、クーマシーブリイアントブルーにて染色した。70℃で10分間熱処理したGKを除く4種のタンパク質溶液を電気泳動した図6のレーン3から、熱処理後も消失しなかったタンパク質のバンドをゲルから3mmおきに切り出し、常法に従ってタンパク質をゲル中でトリプシン処理後LC/MS/MSシステムを用いてペプチドを分画し、質量を算出した。質量分析は、サーモエレクトロン(Thermo Electron)社製のBioworks3.1, Xcalibourシステムを用いて解析し各バチルス(Bacillus)関連種のタンパク質データベースと照合することによって行い、それぞれのバンドに含まれるタンパク質の同定を行った。
この結果を表21−25に示す。
Identification of thermostable protein The protein solution of each organism prepared by the method described in Example 3 above was separated by native gel electrophoresis and stained with Coomassie brilliant blue in the same manner as in Example 3. . Protein bands that did not disappear after heat treatment were excised from lane 3 in Fig. 6 after electrophoresis of four protein solutions excluding GK that had been heat-treated at 70 ° C for 10 minutes. The peptides were fractionated using an LC / MS / MS system after trypsin treatment, and the mass was calculated. Mass spectrometry is performed using the Bioworks 3.1, Xcalibour system manufactured by Thermo Electron and collated with the protein database of each Bacillus-related species, and the protein contained in each band is identified. Went.
The results are shown in Tables 21-25.

エステラーゼの分析
上記の実施例3に記載の方法で調製した各生物のタンパク質溶液を、同様にネイティブゲル電気泳動法によって分離し、以下に示す方法によってエステラーゼ活性を有するバンドのみの検出を行った。
50%アセトンに溶解した1%α−ナフチル酢酸(α-naphtyl acetate)を2ml、ファストブルーBB(fast blue BB)塩100mgを0.05Mトリス塩酸塩バッファー(pH 7.4)100mlに加え撹拌し、プラスチック容器に移した後、電気泳動が終了したゲルを浸し遮光して37℃で10分間保温する。エステラーゼ活性を有するバンドが現れたら、先の溶液を捨て蒸留水にてゲルを洗浄した。
得られた各生物からのエステラーゼを、未処理溶液、それぞれ60℃、70℃で10分間熱処理後急冷して熱処理タンパク質溶液として、ネイティブゲル電気泳動法を行った。ゲル濃度は12.5%のものを用いた。
Analysis of esterase The protein solution of each organism prepared by the method described in Example 3 above was similarly separated by native gel electrophoresis, and only the band having esterase activity was detected by the method described below.
2 ml of 1% α-naphthyl acetate dissolved in 50% acetone and 100 mg of fast blue BB salt are added to 100 ml of 0.05 M Tris hydrochloride buffer (pH 7.4) and stirred. After being transferred to a plastic container, the gel after electrophoresis is immersed and shielded from light and kept at 37 ° C. for 10 minutes. When a band having esterase activity appeared, the previous solution was discarded and the gel was washed with distilled water.
The obtained esterase from each organism was subjected to native gel electrophoresis as an untreated solution, heat-treated at 60 ° C. and 70 ° C. for 10 minutes, and then rapidly cooled as a heat-treated protein solution. A gel concentration of 12.5% was used.

フラジェリンの分析
5種類の菌株のhag遺伝子の塩基配列から設計したプライマーセットを用いて、PCRにてhag遺伝子を増幅した。次に、N−末端にHis-tagを有するTAクローニング用のプラスミドベクター(pCRT7TOPOTA)にこれらのPCR産物をライゲーションして大腸菌(E.coli BL21 DE3)に形質転換した。形質転換した大腸菌はOD600が0.6になるまで培養し、0.5mMのIPTGを添加して、30℃で3−5時間発現させた。菌体を先と同様にフレンチプレスにて破砕し作製した菌体破砕液をHis-tagを有するタンパク質のみを簡便に精製するためのタロンメタルアフィニティー(TALON Metal Affinity)カラムに供試してタンパク質をカラムに付着させた後、150mMのイミダゾール、50mMのリン酸ナトリウム、300mMのNaClで目的タンパク質を精製した。精製したタンパク質はSDS−PAGEで精製度を確認した。
精製したタンパク質を用いて、前記実施例4の方法に準じて熱処理を行い、ネイティブゲル電気泳動法によりタンパク質を分離後、クーマシーブリリアントブルー(Coomassie brilliant blue)にて染色した。
Analysis of flagellin The hag gene was amplified by PCR using a primer set designed from the base sequences of the hag gene of five strains. Next, these PCR products were ligated to a plasmid vector (pCRT7TOPOTA) for TA cloning having His-tag at the N-terminus and transformed into E. coli BL21 DE3. The transformed Escherichia coli was cultured until OD600 reached 0.6, 0.5 mM IPTG was added, and expression was performed at 30 ° C. for 3 to 5 hours. The bacterial cell disruption solution prepared by crushing the bacterial cell with a French press in the same manner as described above was applied to a TALON Metal Affinity column for easily purifying only proteins with His-tag, and the protein was added to the column. Then, the target protein was purified with 150 mM imidazole, 50 mM sodium phosphate and 300 mM NaCl. The degree of purification of the purified protein was confirmed by SDS-PAGE.
Using the purified protein, heat treatment was performed according to the method of Example 4, and the protein was separated by native gel electrophoresis and then stained with Coomassie brilliant blue.

GroESの分析
5種類の菌株のgroES遺伝子の塩基配列から設計したプライマーセットを用いて、PCRにてgroES遺伝子を増幅し、実施例5と同様にタンパク質を精製した。また、精製タンパク質を用いて同様に熱処理、電気泳動を通してGroESの分析を行った。
Analysis of GroES GroES gene was amplified by PCR using a primer set designed from the base sequences of groES genes of 5 strains, and the protein was purified in the same manner as in Example 5. In addition, GroES was similarly analyzed using the purified protein through heat treatment and electrophoresis.

耐熱性酵素などの耐熱性タンパク質は、糖工業、タンパク質工業、肥料工業などの様々な産業分野で利用されており、その重要性は極めて高い。また、DNAポリメラーゼなどのように、遺伝子操作技術においては耐熱性酵素の利用が不可欠とされている。
本発明の方法は、このような耐熱性酵素などの耐熱性タンパク質を簡便な手法で検索する新たな方法を提供するものであり、産業上極めて有用なものである。また、本発明の方法は、耐熱性タンパク質の検索範囲を従来の好熱性菌由来のものみから、更に拡大できることを教示するものであり、産業上極めて大きな貢献をするものである。
Thermostable proteins such as thermostable enzymes are used in various industrial fields such as sugar industry, protein industry and fertilizer industry, and their importance is extremely high. In addition, the use of thermostable enzymes, such as DNA polymerase, is indispensable in gene manipulation techniques.
The method of the present invention provides a new method for searching for thermostable proteins such as thermostable enzymes by a simple technique, and is extremely useful industrially. In addition, the method of the present invention teaches that the search range of thermostable proteins can be further expanded from the conventional ones derived from thermophilic bacteria, and makes a great contribution to the industry.

図1は、本発明の方法の例示で使用したバチルス(Bacillus)属関連種の16SrDNAに基づいてネイバージョイニング法により作成した系統樹を示す。FIG. 1 shows a phylogenetic tree created by the neighbor joining method based on the 16S rDNA of a Bacillus-related species used in the method of the present invention. 図2は、これまでに全ゲノム配列が明らかにされた120種の微生物が持つ蛋白質のアミノ酸組成を主成分分析法(PCA)により、第1主成分をGC含量(PC1)とし、第2主成分を生育上限温度(PC2)として解析した結果を示すカラーで作成したグラフである。FIG. 2 shows the amino acid composition of the proteins of 120 microorganisms whose whole genome sequences have been clarified so far by the principal component analysis method (PCA), with the first principal component as the GC content (PC1), It is the graph created with the color which shows the result of having analyzed the component as growth upper limit temperature (PC2). 図3は、好熱性ジオバチルスカウストフィラス(Geobacillus kaustopilus)(GK)とほぼ同じ生育上限温度を有するジオバチルスステアロサーモフィラス(Geobacillus stearothermophilus)(GS)について、各タンパク質における「主成分得点」の値に基づいた相関図を示す。図3の横軸はGKの「主成分得点」の値を示し、縦軸はGSの「主成分得点」の値を示す。FIG. 3 shows the “principal component score” for each protein for Geobacillus stearothermophilus (GS), which has almost the same maximum temperature as that of thermophilic Geobacillus kaustopilus (GK). The correlation diagram based on the value of is shown. The horizontal axis of FIG. 3 shows the value of “principal component score” of GK, and the vertical axis shows the value of “principal component score” of GS. 図4は、好熱性ジオバチルスカウストフィラス(Geobacillus kaustopilus)(GK)と、非好熱性細菌であるBC、BH、BS、及びOIについてそれぞれGKとの相関をグラフ化して示したものである。図4の左上はGKとBCとの相関であり、左下はGKとBHとの相関であり、右上はGKとBSとの相関であり、右下はGKとOIとの相関である。それぞれのグラフの横軸はGKの「主成分得点」の値を示し、縦軸は各非非好熱性細菌の「主成分得点」の値を示す。FIG. 4 is a graph showing the correlation between GK for thermophilic Geobacillus kaustopilus (GK) and non-thermophilic bacteria BC, BH, BS, and OI. The upper left of FIG. 4 is the correlation between GK and BC, the lower left is the correlation between GK and BH, the upper right is the correlation between GK and BS, and the lower right is the correlation between GK and OI. The horizontal axis of each graph shows the value of “principal component score” of GK, and the vertical axis shows the value of “principal component score” of each non-thermophilic bacterium. 図5は、GK(黒四角印(■))、BC(白三角印(△))、BH(黒丸印(●))、BS(白丸印(○))、及びOI(白四角印(□))の各微生物の生育上限温度と、965個のタンパク質のうちGKの「主成分得点」の値の差が異なるタンパク質の含有率の関係をまとめたグラフを示す。図5の横軸は温度を示し、縦軸は百分率(%)を示す。横軸には、それぞれの微生物の生育上限温度がプロットされ、縦軸は上のライン(原図では緑色)は、965個のタンパク質のうちGKとの「主成分得点」の値の差が−0.015を超えているタンパク質の数の全965個に対する百分率(%)を各微生物についてプロットした線であり、中程のライン(原図では青色)は同様に−0.010を超えているタンパク質の数の百分率(%)を各微生物についてプロットした線であり、下側のライン(原図では赤色)は同様に−0.005を超えているタンパク質の数の百分率(%)を各微生物についてプロットした線である。FIG. 5 shows GK (black square mark (■)), BC (white triangle mark (△)), BH (black circle mark (●)), BS (white circle mark (◯)), and OI (white square mark (□). )) And the growth upper limit temperature of each microorganism, and a graph summarizing the relationship between the contents of proteins with different differences in GK “principal component score” among 965 proteins. The horizontal axis of FIG. 5 indicates temperature, and the vertical axis indicates percentage (%). On the horizontal axis, the upper limit temperature of growth of each microorganism is plotted, and on the vertical axis, the upper line (green in the original figure) shows that the difference in the value of “principal component score” from GK out of 965 proteins is −0. The percentage of the number of proteins exceeding .015 to the total of 965 (%) is plotted for each microorganism, with the middle line (blue in the original figure) of the protein similarly exceeding -0.010. Number percentage (%) is a line plotted for each microorganism, and the lower line (red in the original figure) similarly plots the percentage (%) of the number of proteins above -0.005 for each microorganism. Is a line. 図6は、GK、BC、BH、BS、及びOIの各微生物のタンパク質を分離した後でのネイティブPAGEのパターンを検討した結果を示す、図面に代わるカラー写真である。図6の左側(図6a)は全タンパク質であり、左側(図6b)は、各微生物のエステラーゼ活性を有するバンドを示したものである。各図のBC、BH、BS、GK、OIはそれぞれの微生物を示し、各微生物の1〜3のレーンは、1が非加熱、2が60℃10分、3が70℃10分である。FIG. 6 is a color photograph, instead of a drawing, showing the result of examining the native PAGE pattern after separating proteins of GK, BC, BH, BS, and OI microorganisms. The left side of FIG. 6 (FIG. 6a) is the total protein, and the left side (FIG. 6b) shows a band having esterase activity of each microorganism. BC, BH, BS, GK, and OI in each figure indicate the respective microorganisms. In the lanes 1 to 3 of each microorganism, 1 is unheated, 2 is 60 ° C. for 10 minutes, and 3 is 70 ° C. for 10 minutes. 図7は、GK、BC、BH、BS、及びOIの各微生物からHag、GroESタンパク質を分離した後でのネイティブPAGEのパターンを検討した結果を示す、図面に代わるカラー写真である。図7の左側(図7a)はHagあり、左側(図7b)は、各微生物のGroESを単離して展開したものである。各図のBC、BH、BS、GK、OIはそれぞれの微生物を示し、各微生物の1〜3のレーンは、1が非加熱、2が60℃10分、3が70℃10分である。FIG. 7 is a color photograph, instead of a drawing, showing the results of examining the pattern of native PAGE after separating Hag and GroES proteins from GK, BC, BH, BS, and OI microorganisms. The left side (FIG. 7a) of FIG. 7 is Hag, and the left side (FIG. 7b) is the result of isolating and developing GroES of each microorganism. BC, BH, BS, GK, and OI in each figure indicate the respective microorganisms. In the lanes 1 to 3 of each microorganism, 1 is unheated, 2 is 60 ° C. for 10 minutes, and 3 is 70 ° C. for 10 minutes.

Claims (15)

被検定タンパク質が耐熱性を有しているか否かを判別する方法であって、
被検定タンパク質のアミノ酸組成に基づく主成分分析による固有の分析値を、
生物種ごとに平均アミノ酸組成を算出して主成分分析により解析し、
主成分分析で得られた第2主成分に対応する固有ベクトルと、被検定タンパク質のアミノ酸組成ベクトルの内積として算出し、
耐熱性生物の有する、被検定タンパク質と対応するタンパク質における分析値を、
生物種ごとに平均アミノ酸組成を算出して主成分分析により解析し、
主成分分析で得られた第2主成分に対応する固有ベクトルと、被検定タンパク質と対応するタンパク質のアミノ酸組成ベクトルの内積として算出し、
算出された被検定タンパク質の上記分析値を、算出された被検定タンパク質と対応するタンパク質における上記分析値と比較することからなる、タンパク質の耐熱性を判別する方法。
A method for determining whether a test protein has heat resistance,
Specific analysis values by principal component analysis based on the amino acid composition of the protein to be tested
Calculate the average amino acid composition for each species and analyze by principal component analysis,
Calculate as the inner product of the eigenvector corresponding to the second principal component obtained by principal component analysis and the amino acid composition vector of the protein to be tested,
Analytical values of the protein corresponding to the test protein possessed by the thermostable organism,
Calculate the average amino acid composition for each species and analyze by principal component analysis,
Calculated as the inner product of the eigenvector corresponding to the second principal component obtained by principal component analysis and the amino acid composition vector of the protein corresponding to the test protein,
A method for discriminating the heat resistance of a protein, comprising comparing the calculated analytical value of the calculated protein to be tested with the analytical value of the calculated protein to be tested and the corresponding protein.
被検定タンパク質のアミノ酸組成に基づく主成分分析による固有の分析値の算出が、当該タンパク質のアミノ酸配列又は塩基配列のデータに基づいて算出される請求項1に記載の方法。   The method according to claim 1, wherein the calculation of the inherent analysis value by principal component analysis based on the amino acid composition of the protein to be tested is calculated based on the amino acid sequence or base sequence data of the protein. タンパク質のアミノ酸組成に基づく主成分分析による固有の分析値の算出方法が、電子計算機で処理できるようにプログラムされており、当該プログラムに当該タンパク質のアミノ酸配列又は塩基配列のデータを入力することにより、電子計算機による処理で固有の分析値の算出する請求項2に記載の方法。   The calculation method of the specific analysis value by principal component analysis based on the amino acid composition of the protein is programmed so that it can be processed by an electronic computer. By inputting the amino acid sequence or base sequence data of the protein into the program, The method according to claim 2, wherein a unique analysis value is calculated by processing by an electronic computer. 耐熱性生物の有する被検定タンパク質と対応するタンパク質における分析値の算出手法が、請求項2又は3に記載の方法によるものである請求項1に記載の方法。   The method according to claim 1, wherein the analytical value calculation method for the protein corresponding to the test protein possessed by the thermostable organism is the method according to claim 2 or 3. 耐熱性生物の有する被検定タンパク質と対応するタンパク質における分析値が、当該タンパク質のアミノ酸組成に基づく主成分分析により算出されており、各タンパク質の種類に応じてリスト化されているものである請求項1〜4のいずれかに記載の方法。   The analysis value of the protein corresponding to the test protein possessed by the thermotolerant organism is calculated by principal component analysis based on the amino acid composition of the protein, and is listed according to the type of each protein. The method in any one of 1-4. 析値のリストが、電子計算機による処理に供する情報として利用できるように、電子計算機で処理可能な記録媒体に蓄積されているものである請求項5に記載の方法。 Min list析値is, so that it can be used as information to be subjected to processing by a computer, the method according to claim 5 in which are stored can be processed recording medium in computer. 被検定タンパク質に固有の分析値と、耐熱性生物の有する被検定タンパク質と対応するタンパク質における分析値との比較が、電子計算機の処理により行われるものである請求項1〜6のいずれかに記載の方法。   The comparison between the analysis value unique to the test protein and the analysis value of the protein corresponding to the test protein possessed by the thermotolerant organism is performed by processing of an electronic computer. the method of. タンパク質のアミノ酸組成に基づく主成分分析が、生物のゲノム中に同定された蛋白質をコードする遺伝子を抽出し、当該遺伝子がコードするタンパク質のアミノ酸配列に基づいて、アミノ酸配列の配列長が50アミノ酸未満のタンパク質を除外し、さらにPSORTプログラムを用いて2つ以上の膜貫通領域が予測された蛋白質も除外し、残ったタンパク質のアミノ酸配列を用いて、生物種ごとに平均アミノ酸組成を算出し、生物種を行、アミノ酸を列とする行列を入力して統計解析パッケージRのプリンコンプ関数を用いる主成分分析法である請求項1〜7のいずれかに記載の方法。   Principal component analysis based on the amino acid composition of a protein extracts a gene encoding the protein identified in the genome of the organism, and the sequence length of the amino acid sequence is less than 50 amino acids based on the amino acid sequence of the protein encoded by the gene In addition, proteins with two or more transmembrane regions predicted using the PSORT program are also excluded, and the amino acid sequence of the remaining protein is used to calculate the average amino acid composition for each species. The method according to any one of claims 1 to 7, which is a principal component analysis method using a purine comp function of a statistical analysis package R by inputting a matrix having seeds as rows and amino acids as columns. 耐熱性生物が、好熱菌である請求項1又は2に記載の方法。   The method according to claim 1 or 2, wherein the thermostable organism is a thermophilic bacterium. 耐熱性生物の有する対応するタンパク質が、被検定タンパク質と生物学的にオルソロガスの関係にあるものである請求項1〜9のいずれかに記載の方法。   The method according to any one of claims 1 to 9, wherein the corresponding protein possessed by the thermostable organism is biologically orthologous with the test protein. タンパク質が、酵素である請求項1〜10のいずれかの方法。   The method according to any one of claims 1 to 10, wherein the protein is an enzyme. タンパク質が、バチルス属又は当該属に関連する種の微生物が産生するものである請求項1〜11のいずれかに記載の方法。   The method according to any one of claims 1 to 11, wherein the protein is produced by a microorganism of the genus Bacillus or a species related to the genus. 被検定タンパク質のアミノ酸組成に基づく主成分分析による固有の分析値が、
被検定タンパク質のアミノ酸組成に基づく第2主成分得点であり、
耐熱性生物の有する、被検定タンパク質と対応するタンパク質における分析値が、
被検定タンパク質と対応するタンパク質のアミノ酸組成に基づく第2主成分得点である、請求項1〜12のいずれかに記載の方法。
The unique analysis value by principal component analysis based on the amino acid composition of the protein to be tested is
A second principal component score based on the amino acid composition of the protein to be tested;
The analysis value of the protein corresponding to the test protein possessed by the thermostable organism is
The method according to any one of claims 1 to 12, which is a second principal component score based on an amino acid composition of a protein corresponding to a test protein.
微生物ゲノムデータから、生物種ごとに平均アミノ酸組成が算出される、請求項1〜13のいずれかに記載の方法。   The method according to any one of claims 1 to 13, wherein an average amino acid composition is calculated for each species from microbial genome data. 生物のゲノム中に同定された蛋白質をコードする遺伝子を抽出し、当該遺伝子がコードするタンパク質のアミノ酸配列に基づいて、アミノ酸配列の配列長が50アミノ酸未満のタンパク質を除外し、さらに2つ以上の膜貫通領域が予測された蛋白質も除外し、残ったタンパク質のアミノ酸配列を用いて、生物種ごとに平均アミノ酸組成が算出される、請求項1〜14のいずれかに記載の方法。   A gene encoding a protein identified in the genome of an organism is extracted, based on the amino acid sequence of the protein encoded by the gene, a protein having an amino acid sequence length of less than 50 amino acids is excluded, and two or more The method according to any one of claims 1 to 14, wherein a protein whose transmembrane region is predicted is excluded, and the amino acid sequence of the remaining protein is used to calculate an average amino acid composition for each species.
JP2005032296A 2004-02-23 2005-02-08 Prediction method of thermostable proteins from non-thermophilic bacteria based on amino acid composition of thermophilic bacteria and highly related non-thermophilic bacteria Expired - Fee Related JP4616660B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005032296A JP4616660B2 (en) 2004-02-23 2005-02-08 Prediction method of thermostable proteins from non-thermophilic bacteria based on amino acid composition of thermophilic bacteria and highly related non-thermophilic bacteria

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004046880 2004-02-23
JP2005032296A JP4616660B2 (en) 2004-02-23 2005-02-08 Prediction method of thermostable proteins from non-thermophilic bacteria based on amino acid composition of thermophilic bacteria and highly related non-thermophilic bacteria

Publications (3)

Publication Number Publication Date
JP2005270097A JP2005270097A (en) 2005-10-06
JP2005270097A5 JP2005270097A5 (en) 2007-04-12
JP4616660B2 true JP4616660B2 (en) 2011-01-19

Family

ID=35170393

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005032296A Expired - Fee Related JP4616660B2 (en) 2004-02-23 2005-02-08 Prediction method of thermostable proteins from non-thermophilic bacteria based on amino acid composition of thermophilic bacteria and highly related non-thermophilic bacteria

Country Status (1)

Country Link
JP (1) JP4616660B2 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003250544A (en) * 2002-03-04 2003-09-09 National Institute Of Technology & Evaluation Method for modifying property of protein

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003250544A (en) * 2002-03-04 2003-09-09 National Institute Of Technology & Evaluation Method for modifying property of protein

Also Published As

Publication number Publication date
JP2005270097A (en) 2005-10-06

Similar Documents

Publication Publication Date Title
Ahrendt et al. Leveraging single-cell genomics to expand the fungal tree of life
Clement et al. Terminal restriction fragment patterns (TRFPs), a rapid, PCR-based method for the comparison of complex bacterial communities
US5849492A (en) Method for rapid identification of prokaryotic and eukaryotic organisms
AU630932B2 (en) Generation of specific probes for target nucleotide sequences
Kumwenda et al. Analysis of protein thermostability enhancing factors in industrially important thermus bacteria species
Wang et al. Occurrence and molecular characterization of reptilian Campylobacter fetus strains isolated in Taiwan
US7693664B2 (en) Method and computer program product for determining whether or not a test protein has thermostability
CN110100012B (en) COBRA probe for detecting marker of epidemic ribosomal type of clostridium difficile
Sławiak et al. Multiplex detection and identification of bacterial pathogens causing potato blackleg and soft rot in Europe, using padlock probes
JP2019509766A (en) Marine organism DNA polymerase
Saxena et al. RAPD-PCR and 16S rDNA phylogenetic analysis of alkaline protease producing bacteria isolated from soil of India: Identification and detection of genetic variability
Suneja et al. Deciphering the phylogenetic relationships among rhizobia nodulating chickpea: a review
Urban et al. Whole-genome analysis of Fusarium graminearum insertional mutants identifies virulence associated genes and unmasks untagged chromosomal deletions
US9816145B2 (en) Compositions for detection of Clostridium difficile
Shen et al. Rapid detection and identification of the metabolically diverse genus Gordonia by 16S rRNA-gene-targeted genus-specific primers
JP4616660B2 (en) Prediction method of thermostable proteins from non-thermophilic bacteria based on amino acid composition of thermophilic bacteria and highly related non-thermophilic bacteria
JP4490302B2 (en) Prediction program for heat-resistant protein and recording medium thereof
Corbu et al. Biodiversity studies on Pichia kudriavzevii from Romanian spontaneous fermented products
KR20170127935A (en) Bacillus velezensis CBMB205 specific marker
Kechin et al. Selection of IS6110 conserved regions for the detection of Mycobacterium tuberculosis using qPCR and LAMP
Chávez-Luzanía et al. Pangenomes-identified singletons for designing specific primers to identify bacterial strains in a plant growth-promoting consortium
Rao et al. Recent trends in molecular techniques for food pathogen detection
TWI342338B (en) Oligonucleotide used for identification of spore aerobic bacteria, identification method and kit of spore aerobic bacteria thereof
El-Sokkary Molecular detection of some Gram-negative bacterial species using folp gene sequences
TWI406951B (en) Identification of Chimeric Pairs, Sets and Their Identification Methods of Helicobacter Pylori

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070226

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101019

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101022

R150 Certificate of patent or registration of utility model

Ref document number: 4616660

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees