JP2004220571A - タンパク質立体構造予測システム - Google Patents
タンパク質立体構造予測システム Download PDFInfo
- Publication number
- JP2004220571A JP2004220571A JP2003406776A JP2003406776A JP2004220571A JP 2004220571 A JP2004220571 A JP 2004220571A JP 2003406776 A JP2003406776 A JP 2003406776A JP 2003406776 A JP2003406776 A JP 2003406776A JP 2004220571 A JP2004220571 A JP 2004220571A
- Authority
- JP
- Japan
- Prior art keywords
- profile
- matrix
- amino acid
- protein
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 83
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 83
- 239000011159 matrix material Substances 0.000 claims abstract description 180
- 125000003275 alpha amino acid group Chemical group 0.000 claims abstract description 46
- 238000011156 evaluation Methods 0.000 claims abstract description 26
- 125000000539 amino acid group Chemical group 0.000 claims abstract description 22
- 150000001413 amino acids Chemical class 0.000 claims abstract description 15
- 235000018102 proteins Nutrition 0.000 description 65
- 238000000034 method Methods 0.000 description 35
- 235000001014 amino acid Nutrition 0.000 description 19
- 101100357018 Trypanosoma brucei brucei RNR2 gene Proteins 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- STECJAGHUSJQJN-USLFZFAMSA-N LSM-4015 Chemical compound C1([C@@H](CO)C(=O)OC2C[C@@H]3N([C@H](C2)[C@@H]2[C@H]3O2)C)=CC=CC=C1 STECJAGHUSJQJN-USLFZFAMSA-N 0.000 description 11
- 238000006467 substitution reaction Methods 0.000 description 9
- 230000000052 comparative effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 241000894007 species Species 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 102000039446 nucleic acids Human genes 0.000 description 3
- 108020004707 nucleic acids Proteins 0.000 description 3
- 150000007523 nucleic acids Chemical class 0.000 description 3
- 238000012300 Sequence Analysis Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282813 Aepyceros melampus Species 0.000 description 1
- 102100038916 Caspase-5 Human genes 0.000 description 1
- 101000741072 Homo sapiens Caspase-5 Proteins 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000011701 zinc Substances 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】 タンパク質プロファイル行列間の類似性を評価するシステムであって、プロファイル行列は、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントにおいて、各アミノ酸残基位置におけるアミノ酸種毎の出現確率を備えたプロファイルカラムの群から構成され、(a) 入力プロファイル行列と、対象プロファイル行列の2つのプロファイル行列を用意する手段と、(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出する手段と、(c) 前記相関係数からなるスコア行列を作成する手段とを含むシステムにより、上記課題を解決する。
【選択図】 図2
Description
Rychlewski L,Jaroszewski L, Li W, Godzik A. Protein Sci 2000 Feb;9(2):232-41 Altschul et al., NucleicAcids Res. (1997) 25(17):3389-3402 Higgins D., Thompson J.,Gibson T.Thompson J.D., Higgins D.G., Gibson T.J.(1994). Nucleic Acids Res.22:4673-4680 Needleman SB, Wunsch CD, J Mol Biol. 1970 Mar;48(3):443-53
前記プロファイル行列は、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントにおいて、各アミノ酸残基位置におけるアミノ酸種毎の出現確率を備えたプロファイルカラムの群から構成され、
前記類似性評価システムは、以下の手段:
(a) 立体構造を予測したいタンパク質を含む複数のタンパク質に基づいて作成される入力プロファイル行列と、立体構造が既知である複数のタンパク質に基づいて作成される対象プロファイル行列の2つのプロファイル行列を用意する手段と、
(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出する手段と、
(c) 前記相関係数からなるスコア行列を作成する手段と
を含むシステム。
前記プロファイル行列は、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントにおいて、各アミノ酸残基位置におけるアミノ酸種毎の出現確率を備えたプロファイルカラムの群から構成され、
前記類似性評価システムは、以下の手段:
(a) 立体構造を予測したいタンパク質を含む複数のタンパク質に基づいて作成される入力プロファイル行列と、立体構造が既知である複数のタンパク質に基づいて作成される対象プロファイル行列の2つのプロファイル行列を用意する手段と、
(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出する手段と、
(c) 前記相関係数からなるスコア行列を作成する手段と
を含むプログラム。
前記プロファイル行列は、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントにおいて、各アミノ酸残基位置におけるアミノ酸種毎の出現確率を備えたプロファイルカラムの群から構成され、
前記類似性評価方法は、以下のステップ:
(a) 入力プロファイル行列と、対象プロファイル行列の2つのプロファイル行列を用意するステップと、
(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出するステップと、
(c) 前記相関係数からなるスコア行列を作成するステップと
を含む方法。
図1は、本発明の一実施形態において使用されるハードウエア構成を示す図である。
図2に示すように、本発明にかかる類似性評価システムでは、まず、比較したい2つのプロファイル行列(入力プロファイル行列と対象プロファイル行列)を用意し、続いてそれらの類似性を評価し、必要に応じて評価結果を出力する。以下、各処理について詳細に説明する。
プロファイル行列を用意するステップでは、比較したい2つのプロファイル行列が用意(抽出)される(S11、S12)。ここで、2つのプロファイル行列のうち、一方(対象プロファイル行列)は、立体構造が既知である複数のタンパク質に基づいて作成されたプロファイル行列(図2中、長さm)である。他方(入力プロファイル行列)は、立体構造を予測したいタンパク質(立体構造は未知であると既知であるとを問わない)を含む複数のタンパク質に基づいて作成されたプロファイル行列(図2中、長さn)であることが好ましい。
また、必要に応じて、プロファイル行列として、アミノ酸種の出現頻度を、アミノ酸種のランダム出現頻度で割った行列(PSSM:Gribskov, M., et al., (1987) Proc. Natl. Acad. Sci. USA, 84, 4355-4358)を用いてもよい。
続いて、プロファイル行列の類似性評価ステップでは、上記のステップで用意した入力プロファイル行列の各プロファイルカラムと、対象プロファイル行列の各プロファイルカラムとの間の類似性を、各カラムペア毎に評価をする。
本発明において、プロファイルカラム間の類似性は、プロファイルカラム間の相関係数を算出することによって行う。
C-[DES]-x-C-x(3)-I
と表記される。これは、1, 4, 8番目の残基にそれぞれC, C, Iの残基が保存されており、2番目の残基では、D又は E又は Sが出現し、3番目および、5, 6, 7番目の残基では保存残基が特に無いことが表されている。内積によって類似性を評価する従来の方法では、この場合、1, 2, 4, 8番目の残基位置では、高い数値を与えるが、その他の位置では低い数値しか与えない。したがって、内積によって類似性を評価する従来の方法は、モチーフの一部については類似性を評価しているものの、モチーフ全体の類似性については精度よく評価なされていないということになる。
なお、本発明における類似性評価システムは、モチーフ領域に限られず、立体構造を予測したいタンパク質の配列全体に適用することができる。すなわち、ギャップペナルティを導入して得られたプロファイル行列間の類似性評価にも、好適に適用することができる。
プロファイルカラム間の相関係数(類似性スコア)は、各プロファイルカラムの全部又は一部の組合せについて算出され、これに基づいてスコア行列が作成される。スコア行列は、類似性スコアが各プロファイルカラムの全組合せについて算出された場合は、入力プロファイル行列の長さを行とし、対象プロファイル行列の長さを列とする行列であり、類似性スコアが各プロファイルカラムの一部の組合せについて算出された場合は、その組合せの数に応じた行と列を持つ行列となる。
対象プロファイル行列ごとに得られた最終スコアは、タンパク質立体構造を予測するのに好適に使用される。たとえば、以下の既知の手順にしたがって処理をされる。
まず、予測対象配列を含む入力プロファイル行列と、立体構造が既知である代表アミノ酸配列を含む対象プロファイル行列との最終スコア、および各代表配列の長さが入力される。このとき、対象プロファイル行列データベース中にN本の既知代表配列があれば、N個の最終スコアと配列長が入力されることになる。
予測対象配列を含む入力プロファイル行列と、各既知代表配列を含む対象プロファイル行列との最終スコアは、代表配列長に依存した関係が認められる為、次のような統計処理を行う。まず、X軸に各代表配列の長さの自然対数をとった値、Y軸に予測対象配列を含む入力プロファイル行列と各既知代表配列を含むプロファイル行列との最終スコアをプロットし、異常なはずれ値を除いて回帰直線を引く。各長さ(即ちX軸でのある値)における平均値は回帰直線で表されるものとみなし、予測対象配列を含む入力プロファイル行列と各既知代表配列を含む対象プロファイル行列との最終スコアは、平均値からのずれで評価される。通常良く使用されるように、標準偏差を単位として、そのずれの度合いが測定される。
平均値からのずれが(高得点側に)大きいもの程類似性が有るとみなされる。それ故、平均値からのずれが(高得点側に)大きい順にソートされ、予測構造の候補とされる。
上でソートされた順に予測構造の候補として出力される。結果全てを出力するのは無意味なため、予測精度を考慮し経験的に求められた閾値以上の平均値からのずれを有する結果のみを出力する。この時、予測精度の指標として、標準偏差を単位として計算される平均値からのずれの度合いが表示される。
本発明は、コンピュータを、タンパク質の立体構造を予測するためのタンパク質プロファイル行列間の類似性を評価するシステムとして機能させるためのプログラムをも提供する。本発明のコンピュータプログラムは、以下の手段:
(a) 入力プロファイル行列と、対象プロファイル行列の2つのプロファイル行列を用意する手段と、
(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出する手段と、
(c) 前記相関係数からなるスコア行列を作成する手段と
を含むものである。
本発明のプログラムには、上記必須の手段以外に、汎用のプログラムとして通常備えられる汎用手段を含んでもよい。そのような手段としては、各種データの格納手段、情報の送受信手段、ディスプレイ、プリンター等の表示・出力手段等を挙げることができる。
本発明のプログラムは、コンピュータ読み取り可能な記録媒体又はコンピュータに接続しうる記憶手段に保存することができる。本発明のプログラムを含有するコンピュータ用記録媒体又は記憶手段も本発明に含まれる。記録媒体又は記憶手段としては、磁気的媒体(フレキシブルディスク、ハードディスクなど)、光学的媒体(CD、DVDなど)、磁気光学的媒体(MO、MD)などが挙げられる。
(1) 対象プロファイル行列データベースの構築
構造分類データベースSCOP(URL:http://scop.mrc-lmb.cam.ac.uk/scop/)release1.59 に基づく分類から、代表配列を取得した。その中から、単独ドメインを有し解像度2.5Å以内の構造データを有するタンパク質のアミノ酸配列948本を選択した。948本の代表配列各々に対してPSI-BLASTとアミノ酸配列データベース(NRDB:ftp://ftp.ncbi.nlm.nih.govより取得)を用いて対象プロファイル行列を構築し、対象プロファイル行列データベースを完成させた。
本発明にかかるシステムによって正しい構造予測がなされているかどうかを調べるため、予測対象配列として構造が既に知られている配列、すなわち、対象プロファイル行列を作成する際に使用した上記948本の代表配列を使用した。入力プロファイル行列は、これらの予測対象配列を順次使用して、対象プロファイル行列の場合と同様の操作、すなわち、PSI-BLASTとアミノ酸配列データベース(NRDB)を用いて構築した。
続いて、上記で構築された予測対象配列(本実施例では948本の各代表配列)を含む入力プロファイル行列と、対象プロファイル行列データベース中の対象プロファイル行列との比較が順次なされた。この際、プロファイル行列間のスコア行列の各要素(類似性スコア)は、相関係数を用いて計算された。
こうして得られたプロファイル行列間のスコア行列を入力値として、ダイナミックプログラミングによってプロファイル行列間の最終スコアとアラインメントが出力された。
評価の出力は、既に説明した方法に従って、948予測について各々結果出力を行った。すなわち、入力プロファイル行列と対象プロファイル行列との各最終スコアおよび各代表配列の長さを入力し、最終スコアの長さ依存性の補正を行った。続いて、平均値からのずれが(高得点側に)大きい順にソートし、ソートされた順に予測構造の候補として出力した。
こうして出力された予測構造の候補と、既にわかっている正しい予測構造とを比較することにより、予測結果の信頼度と感度を算出し、この結果を図4に示した。
実施例1で取得した948本の代表配列を用いて、配列類似性検索として一般的に用いられているPSI−BLASTを用いて構造予測を行った。すなわち、948本の代表配列各々に対してPSI-BLASTとアミノ酸配列データベース(NRDB:ftp://ftp.ncbi.nlm.nih.govより取得)を用いて構築したプロファイル行列を入力値とし、948本の代表配列に対して類似性検索を行い、予測構造の候補を出力した。
こうして出力された予測構造の候補と、既にわかっている正しい予測構造とを比較することにより、予測結果の信頼度と感度を算出し、この結果を図4に示した。
実施例1で取得した948本の代表配列を用いて、配列類似性検索として一般的に用いられているIMPALA(Schaffer, A. A., Wolf, Y. I., Ponting, C. P., Koonin, E. V., Aravind, L., and Altschul, S. F. (1999) Bioinformatics. 015:1000-1011)を用いて構造予測を行った。すなわち、948本の代表配列を入力値とし、948本の代表配列各々に対して予め作成し構築したプロファイル行列データベース(実施例1で構築した対象プロファイル行列データベースを使用した)に対して類似性検索を行い、予測構造の候補を出力した。
こうして出力された予測構造の候補と、既にわかっている正しい予測構造とを比較することにより、予測結果の信頼度と感度を算出し、この結果を図4に示した。
プロファイル行列間のスコア行列の各要素(類似性スコア)を、内積法(Rychlewski et al. (2000), 9:p232-241)を用いて計算した以外は実施例1と同様の手法で予測構造の候補を出力した。
こうして出力された予測構造の候補と、既にわかっている正しい予測構造とを比較することにより、予測結果の信頼度と感度を算出し、この結果を図5に示した。
(1) 対象プロファイル行列データベースの構築
配列は、構造分類データベースSCOP(URL:http://scop.mrc-lmb.cam.ac.uk/scop/)
release1.59に基づく分類から、お互いの同一残基率が40%未満であるドメイン単位の代表配列4381本を、SCOPの配列データベースであるASTRAL(http://astral.stanford.edu/)データベースから取得した。更に、タンパク質立体構造データベースPDB(URL:http: //www.rcsb.org/pdb/)に登録されているが、SCOPに未登録であるものであって、ASTRALから取得した上記4381本の配列と非類似のものを下記(A)〜(D)の要領で取得し、代表配列に加えた。このようにして選択されたアミノ酸配列各々に対して、下記(A)〜(D)の要領でPSI-BLASTとNRDBを用いて対象プロファイル行列を構築し、対象プロファイル行列データベースを完成させた。
2002年5月18日時点でのPDB中のアミノ酸配列をSCOPrelease1.59の分類に基づく代表配列に対してBLASTP(Altschul et al., Nucleic Acids Res. (1997) 25(17): 3389-3402:非特許文献2)をかけ、期待値が0.00001以上のものを選んだ。さらにそれらを配列のクラスタリングを行うプログラムであるblastclustにかけ、互いの同一残基率が40%未満となるように配列248本を選択した。このようにして選択された配列と、SCOPrelease1.59の分類に基づく代表配列4381本との合計4629本の配列各々に対して、PSI-BLASTと2002年5月18日時点のNRDBを用いて対象プロファイル行列を構築し、対象プロファイル行列データベースAを完成させた。
2002年6月23日時点でのPDBと2002年5月18日時点でのPDB中のアミノ酸配列の差分を上記(A)で作成した代表配列に対してBLASTPをかけ、期待値が0.00001以上のものを選んだ。さらにそれらをblastclustにかけ、互いの同一残基率が40%未満となるように配列49本を選択した。このようにして選択された配列と、上記(A)で作成した代表配列との合計4678本の配列各々に対して、PSI-BLASTと2002年6月17日時点のNRDBを用いて対象プロファイル行列を構築し、対象プロファイル行列データベースBを完成させた。
2002年7月14日時点でのPDBと2002年6月23日時点でのPDB中のアミノ酸配列の差分を上記(B)で作成した代表配列に対してBLASTPをかけ、期待値が0.00001以上のものを選んだ。さらにそれらをblastclustにかけ、互いの同一残基率が40%未満となるように配列23を選択した。このようにして選択された配列と、上記(B)で作成した代表配列との合計4701本の配列各々に対して、PSI-BLASTと2002年7月9日時点のNRDBを用いて対象プロファイル行列を構築し、対象プロファイル行列データベースCを完成させた。
上記(C)で作成した代表配列の合計4701本の配列各々に対して、PSI-BLASTと2002年8月6日時点のNRDBを用いて対象プロファイル行列を構築し、対象プロファイル行列データベースDを完成させた。
配列は、隔年で行われる世界的規模で行われる構造予測コンテストの2002年度大会であるCASP5/CAFASP3(URL:http://predictioncenter.llnl.gov/casp5/)において、構造認識部門(通常の配列解析手法では立体構造既知であるタンパク質と明白な配列類似性を有さないが、その構造が(実際に解かれてみると)既知立体構造との構造類似性を有する、即ち類似性検索が困難なタンパク質に関する予測する部門)において出題された配列、すなわち、現在通常の配列解析手法(例えば、PSI-BLASTなど)では、立体構造既知であるタンパク質と明白な配列類似性を有さないタンパク質であり、かつ、その構造が(実際に解かれてみると)既知立体構造との構造類似性が明らかになったアミノ酸配列を用いた。具体的には、URL:http://www.cs.bgu.ac.il/~dfischer/CAFASP3/targets.htmlにおいて、下記のターゲット番号が付されたアミノ酸配列22本を用いた。
なお、NRDBとしては、2002年5月18日時点、2002年6月17日時点、2002年7月9日時点、及び2002年8月6日時点のものの計4種類を使用し、得られた入力プロファイル行列データベースを、それぞれ、「入力プロファイル行列データベースA」、「入力プロファイル行列データベースB」、「入力プロファイル行列データベースC」、及び「入力プロファイル行列データベースD」とした。
続いて、上記で構築された予測対象配列を含む入力プロファイル行列データベースAの入力プロファイル行列と、対象プロファイル行列データベースA中の対象プロファイル行列との比較を、実施例1の「(3)各プロファイル行列間の比較」と同様の手順で行った(比較A)。
同様の操作を、入力プロファイル行列データベースBと対象プロファイル行列データベースBに対して、入力プロファイル行列データベースCと対象プロファイル行列データベースCに対して、及び、入力プロファイル行列データベースDと対象プロファイル行列データベースDに対して、それぞれ行った(比較B,C,D)。
評価の出力は、既に説明した方法に従って22予測について各々結果出力を行った。即ち、各データベースの組合せ(比較A〜D)においてそれぞれ得られた、入力プロファイル行列と対象プロファイル行列との各最終スコアおよび、各代表配列の長さを入力し、最終スコアの長さ依存性を補正した。続いて平均値からのずれが、(高得点側に)大きい順にソートし、ソートされた順に上位10個までを予測構造の候補として22本の配列各々に対して出力した(出力A〜D)。
こうして出力された予測構造の候補と、コンテストの予測構造投稿期間の後に公開された実験により解かれた立体構造とを比較することで、予測結果の正確さが測定された。予測構造評価方法の一つは、予測構造と正解構造の重ね合わせを行い、対応残基が3Åより短い距離にある残基数を出力A〜Dについて積算すること(sum値)により行われた。22のタンパク質を構造ドメイン単位(全部で34ドメイン)で眺めた結果によれば、構造予測コンテストCASP5/CAFASP3における上記構造認識部門において22本の配列各々に対して上位1個の予測を考慮した時、本手法のsum値は「577」であり、これは、配列情報を用いた他のいかなる手法よりも優れているものであった 。
また、ある閾値を設定してある入力(予測対象)配列に対する予測の成否を観測した場合でも、22本の配列各々に対して上位1個の予測を考慮した時本手法は、予測が成功したと判断される個数を出力A〜Dについて積算したもの(correct値)において、「9」と高く、配列情報を用いた他のいかなる手法よりも優れていることが示された。
102:ROM、 103:RAM、 104:入力部、105:送信/受信部、
106:出力部、 107:HDD、 108:CD-ROMドライブ、109:ネットワーク回線
Claims (4)
- タンパク質の立体構造を予測するためのタンパク質プロファイル行列間の類似性を評価するシステムであって、
前記プロファイル行列は、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントにおいて、各アミノ酸残基位置におけるアミノ酸種毎の出現確率を備えたプロファイルカラムの群から構成され、
前記類似性評価システムは、以下の手段:
(a) 立体構造を予測したいタンパク質を含む複数のタンパク質に基づいて作成される入力プロファイル行列と、立体構造が既知である複数のタンパク質に基づいて作成される対象プロファイル行列の2つのプロファイル行列を用意する手段と、
(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出する手段と、
(c) 前記相関係数からなるスコア行列を作成する手段と
を含むシステム。 - 請求項1記載のシステムにより作成されたスコア行列を用いることを特徴とするタンパク質立体構造の予測システム。
- コンピュータを、タンパク質の立体構造を予測するためのタンパク質プロファイル行列間の類似性を評価するシステムとして機能させるためのプログラムであって、
前記プロファイル行列は、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントにおいて、各アミノ酸残基位置におけるアミノ酸種毎の出現確率を備えたプロファイルカラムの群から構成され、
前記類似性評価システムは、以下の手段:
(a) 立体構造を予測したいタンパク質を含む複数のタンパク質に基づいて作成される入力プロファイル行列と、立体構造が既知である複数のタンパク質に基づいて作成される対象プロファイル行列の2つのプロファイル行列を用意する手段と、
(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出する手段と、
(c) 前記相関係数からなるスコア行列を作成する手段と
を含むプログラム。 - 請求項3記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003406776A JP4231922B2 (ja) | 2002-12-26 | 2003-12-05 | タンパク質立体構造予測システム |
PCT/JP2003/016982 WO2004059557A1 (ja) | 2002-12-26 | 2003-12-26 | タンパク質立体構造予測システム |
AU2003292697A AU2003292697A1 (en) | 2002-12-26 | 2003-12-26 | System for predicting three-dimensional structure of protein |
GB0513701A GB2411655A (en) | 2002-12-26 | 2003-12-26 | System for predicting three-dimensional structure of protein |
US10/540,736 US7243051B2 (en) | 2002-12-26 | 2003-12-26 | System for predicting three-dimensional structure of protein |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002377704 | 2002-12-26 | ||
JP2003406776A JP4231922B2 (ja) | 2002-12-26 | 2003-12-05 | タンパク質立体構造予測システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004220571A true JP2004220571A (ja) | 2004-08-05 |
JP4231922B2 JP4231922B2 (ja) | 2009-03-04 |
Family
ID=32684262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003406776A Expired - Lifetime JP4231922B2 (ja) | 2002-12-26 | 2003-12-05 | タンパク質立体構造予測システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US7243051B2 (ja) |
JP (1) | JP4231922B2 (ja) |
AU (1) | AU2003292697A1 (ja) |
GB (1) | GB2411655A (ja) |
WO (1) | WO2004059557A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018052131A1 (ja) * | 2016-09-16 | 2018-03-22 | 国立大学法人大阪大学 | 免疫実体クラスタリングソフトウェア |
JPWO2020213417A1 (ja) * | 2019-04-16 | 2020-10-22 | ||
JP2021073575A (ja) * | 2017-10-17 | 2021-05-13 | 富士フイルム株式会社 | 特徴量算出方法、スクリーニング方法、化合物創出方法、及び特徴量算出装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7634760B1 (en) | 2005-05-23 | 2009-12-15 | Netapp, Inc. | System and method for remote execution of a debugging utility using a remote management module |
KR101301773B1 (ko) * | 2007-10-25 | 2013-09-02 | 삼성전자주식회사 | 멀티 비트 프로그래밍 장치 및 방법 |
US9098550B2 (en) * | 2012-05-17 | 2015-08-04 | Sap Se | Systems and methods for performing data analysis for model proposals |
WO2017011779A1 (en) * | 2015-07-16 | 2017-01-19 | Dnastar, Inc. | Protein structure prediction system |
EP3951785A4 (en) * | 2019-03-29 | 2022-06-15 | FUJIFILM Corporation | CHARACTERISTIC QUANTITY CALCULATION METHOD, CHARACTERISTIC QUANTITY CALCULATION PROGRAM AND CHARACTERISTIC QUANTITY CALCULATION DEVICE, SCREENING METHOD, SCREENING PROGRAM AND SCREENING DEVICE, COMPOUND CREATION METHOD, COMPOUND CREATION PROGRAM AND COMPOUND CREATION DEVICE |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993001484A1 (en) * | 1991-07-11 | 1993-01-21 | The Regents Of The University Of California | A method to identify protein sequences that fold into a known three-dimensional structure |
US6321164B1 (en) * | 1995-06-07 | 2001-11-20 | Akzo Nobel N.V. | Method and apparatus for predicting the presence of an abnormal level of one or more proteins in the clotting cascade |
JP2002358309A (ja) * | 2001-06-04 | 2002-12-13 | Hitachi Software Eng Co Ltd | プロファイルデータベース及びプロファイル作成方法 |
US20050170372A1 (en) * | 2001-08-13 | 2005-08-04 | Afeyan Noubar B. | Methods and systems for profiling biological systems |
-
2003
- 2003-12-05 JP JP2003406776A patent/JP4231922B2/ja not_active Expired - Lifetime
- 2003-12-26 GB GB0513701A patent/GB2411655A/en not_active Withdrawn
- 2003-12-26 WO PCT/JP2003/016982 patent/WO2004059557A1/ja active Application Filing
- 2003-12-26 AU AU2003292697A patent/AU2003292697A1/en not_active Abandoned
- 2003-12-26 US US10/540,736 patent/US7243051B2/en not_active Expired - Lifetime
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018052131A1 (ja) * | 2016-09-16 | 2018-03-22 | 国立大学法人大阪大学 | 免疫実体クラスタリングソフトウェア |
JPWO2018052131A1 (ja) * | 2016-09-16 | 2019-08-08 | 国立大学法人大阪大学 | 免疫実体クラスタリングソフトウェア |
JP2021073575A (ja) * | 2017-10-17 | 2021-05-13 | 富士フイルム株式会社 | 特徴量算出方法、スクリーニング方法、化合物創出方法、及び特徴量算出装置 |
JP7209751B2 (ja) | 2017-10-17 | 2023-01-20 | 富士フイルム株式会社 | 化合物創出方法 |
JPWO2020213417A1 (ja) * | 2019-04-16 | 2020-10-22 | ||
JP7297057B2 (ja) | 2019-04-16 | 2023-06-23 | 富士フイルム株式会社 | 特徴量算出方法、特徴量算出プログラム、特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及び化合物創出方法 |
Also Published As
Publication number | Publication date |
---|---|
US7243051B2 (en) | 2007-07-10 |
JP4231922B2 (ja) | 2009-03-04 |
GB0513701D0 (en) | 2005-08-10 |
WO2004059557A1 (ja) | 2004-07-15 |
GB2411655A (en) | 2005-09-07 |
US20050267687A1 (en) | 2005-12-01 |
AU2003292697A1 (en) | 2004-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kloczkowski et al. | Combining the GOR V algorithm with evolutionary information for protein secondary structure prediction from amino acid sequence | |
Boratyn et al. | Domain enhanced lookup time accelerated BLAST | |
Pearson | Empirical statistical estimates for sequence similarity searches | |
US6625545B1 (en) | Method and apparatus for mRNA assembly | |
Ramírez et al. | A comparative study of ultra-deep pyrosequencing and cloning to quantitatively analyze the viral quasispecies using hepatitis B virus infection as a model | |
US8296075B2 (en) | Computer system and computer-facilitated method for nucleic acid sequence alignment and analysis | |
Fukami-Kobayashi et al. | Detecting compensatory covariation signals in protein evolution using reconstructed ancestral sequences | |
US20160125128A1 (en) | Accurate typing of hla through exome sequencing | |
Seligmann | Putative mitochondrial polypeptides coded by expanded quadruplet codons, decoded by antisense tRNAs with unusual anticodons | |
Sadreyev et al. | Profile–profile comparisons by COMPASS predict intricate homologies between protein families | |
Holm | Unification of protein families | |
JP2004220571A (ja) | タンパク質立体構造予測システム | |
Formenti et al. | Merfin: improved variant filtering and polishing via k-mer validation | |
De Oliveira et al. | A new (old) bovine viral diarrhea virus 2 subtype: BVDV-2e | |
Wan et al. | Computational methods for remote homolog identification | |
Vallat et al. | Building and assessing atomic models of proteins from structural templates: learning and benchmarks | |
KR100836166B1 (ko) | 단백질의 아미노산 서열로부터 삼차 구조를 예측하기 위한장치 및 이의 예측 방법 | |
Kreil et al. | Comparison of sequence masking algorithms and the detection of biased protein sequence regions | |
Nguyen et al. | Multiple sequence alignment based on dynamic weighted guidance tree | |
McGuffin | Protein fold recognition and threading | |
US20180121600A1 (en) | Methods, Systems and Computer Readable Storage Media for Generating Accurate Nucleotide Sequences | |
Rattei | Comparative genomics of viruses | |
WO2023220410A1 (en) | Systems, methods, and media for classifying genetic sequencing results | |
Shah | Identification and characterization of orphan genes in rice (Oryza sativa japonica) to understand novel traits driving evolutionary adaptation and crop improvement. | |
Poleksic | ANALYTICAL APPROACHES TO COMPARATIVE MODELING OF PROTEIN STRUCTURES |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4231922 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |