JP2005532565A - ペプチド及びタンパク質の同定方法 - Google Patents

ペプチド及びタンパク質の同定方法 Download PDF

Info

Publication number
JP2005532565A
JP2005532565A JP2004520920A JP2004520920A JP2005532565A JP 2005532565 A JP2005532565 A JP 2005532565A JP 2004520920 A JP2004520920 A JP 2004520920A JP 2004520920 A JP2004520920 A JP 2004520920A JP 2005532565 A JP2005532565 A JP 2005532565A
Authority
JP
Japan
Prior art keywords
mass
peptide
database
sequence
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004520920A
Other languages
English (en)
Inventor
ロン アッペル,
パトリシア ヘルナンデズ,
ロバン グラ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institut Suisse de Bioinformatique
Original Assignee
Institut Suisse de Bioinformatique
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institut Suisse de Bioinformatique filed Critical Institut Suisse de Bioinformatique
Publication of JP2005532565A publication Critical patent/JP2005532565A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Cell Biology (AREA)
  • Microbiology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Signal Processing (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

ペプチド及びタンパク質の同定を、対応するタンデム質量分析データから出発して行うための方法である。より詳細には、本方法は、1つ以上のタンパク質又はペプチドを含むサンプルに対してタンデム質量分析を行う工程と、分析結果のスペクトルのそれぞれを縮約してピークリストにする工程と、物理化学的知識を考慮に入れて前記ピークリストに対して可能な解釈をリストして解釈済みピークリストにする工程と、生物学的知識を考慮に入れて前記解釈済みピークリストを構造化して構造化表現にする工程と、前記構造化表現を生物学的配列データベースとマッチングする工程と、前記データベース内でペプチドの最良のマッチング結果又は結果群を決定する工程とを含む。

Description

本発明はプロテオミクス(proteomics)の分野に関し、詳細には、実験的に得られたタンデム質量分析データ(MS/MSデータ)から出発して、ペプチド及びタンパク質を同定するための方法及びシステムに関する。より詳細には、この方法は、構造化されたデータを生物学的配列データベースとマッチングする間にMS/MSデータに含まれる情報の完全な利用ができるようなやり方による、MS/MSデータの解釈及び構造化を含むものである。
以下の文献は、本文中に引用したもの、又は従来技術に関するものである。
米国特許第5993627号 米国特許第6277259号 国際公開第00/55636号 Bafna V.and Edwards N.、「SCOPE:a probabilistic model for scoring tandem mass spectra against a peptide database」、2001年、Bioinformatics Suppl 1、13〜21頁 Bairoch,A.、and Apweiler,R.、「The SWISS−PROT protein sequence database and its supplement TrEMBL in 2000」、2000年、Nucleic Acids Res.28、45〜48頁 Barker,W.C.、Garavelli,J.S.、Huang,H.、McGarvey,P.B.、Orcutt,B.C.、Srinivasarao,G.Y.、Xiao,C.、Yeh,L.S.、Ledley,R.S.、Janda,J.F.、Pfeiffer,F.、Mewes,H.W.、Tsugita,A.、and Wu,C.、「The protein information resource(PIR)」、2000年、Nucleic Acids Res.28、41〜44頁 Bartels C.、「Fast algorithm for peptide sequencing by mass spectrometry」、1990年、Biomed.Environ.Mass.Spectrom.19、363〜368頁 Benson,D.A.、Karsch−Mizrachi,I.、Lipman,D.J.、Ostell,J.、Rapp,B.A.、and Wheeler,D.L.、「GenBank」、2002年、Nucleic Acids Res.30、17〜20頁 Bonabeau E.、Dorigo M.、and Theraulaz G.、「Swarm Intelligence.From Natural to Artificial Systems」、1999年、Oxford University Press Chen,T.、Kao,M.Y.、Tepel,M.、Rush,J.、and Church,G.M.、「A dynamic programming approach to de novo peptide sequencing via tandem mass spectrometry」、2001年、J.Comput.Biol.8、325〜337頁 Clauser K.R.、Hall S.C.、Smith D.M.、Webb J.W.、Andrews L.E.、Tran H.M.、Epstein L.B.、and Burlingame A.L.、「Rapid mass spectrometric peptide sequencing and mass matching for characterization of human melanoma proteins isolated by two−dimensional PAGE」、1995年、Proc Natl Acad Sci USA 92(11)、5072〜5076頁 Dancik,V.、Addona,T.A.、Clauser,K.R.、Vath,J.E.、and Pevzner,P.A.、「De novo peptide sequencing via tandem mass spectrometry」、1999年、J.Comput.Biol.6、327〜342頁 Dorigo,M.and Di Caro,G.、「The Ant Colony Optimization Meta−Heuristic」、1999年、New Ideas in Optimization、D.M.G.F.E.Corne D.(編) Edman,P.、「Sequence determination」、1970年、Mol.Biol.Biochem.Biophys.8、211〜255頁 Eng J.K、McCormack,A.L.、and Yates,I.J.R.、「An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database」、1994年、J.Am.Soc.Mass Spectrom.5、976〜989頁 Fenyo,D.、Qin,J.、and Chait,B.T.、「Protein identification using mass spectrometric information」、1998年、Electrophoresis 19、998〜1005頁 Fernandez−de−Cossio,J.、Gonzalez,J.、and Besada,V.、「A computer program to aid the sequencing of peptides in collision−activated decomposition experiments」、1995年、Comput.Appl.Biosci.11、427〜434頁 Fernandez−de−Cossio,J.、Gonzalez,J.、Betancourt,L.、Besada,V.、Padron,G.、Shimonishi,Y.、and Takao,T.、「Automated interpretation of high−energy collision−induced dissociation spectra of singly protonated peptides by ‘SeqMS’、a software aid for de novo sequencing by tandem mass spectrometry」、1998年、Rapid Commun.Mass Spectrom.12、1867〜1878頁 Fernandez−de−Cossio,J.、Gonzalez,J.、Satomi,Y.、Shima,T.、Okumura,N.、Besada,V.、Betancourt,L.、Padron,G.、Shimonishi,Y.、and Takao,T.、「Automated interpretation of low−energy collision−induced dissociation spectra by SeqMS、a software aid for de novo sequencing by tandem mass spectrometry」、2000年、Electrophoresis 21、1694〜1699頁 Gatlin,C.L.、Eng,J.K.、Cross,S.T.、Detter,J.C.、and Yates,J.R.、III、「Automated identification of amino acid sequence variations in proteins by HPLC/microspray tandem mass spectrometry」、2000年、Anal.Chem.72、757〜763頁 Gonnet G.H、「A tutorial Introduction to Computational Biochemistry Using Darwin」、1992年、E.T.H.Zurich、SwitzerlandRef Type:Report Gras,R.、Muller,M.、Gasteiger,E.、Gay,S.、Binz,P.A.、Bienvenut,W.、Hoogland,C.、Sanchez,J.C.、Bairoch,A.、Hochstrasser,D.F.、and Appel,R.D.、「Improving protein identification from peptide mass fingerprinting through a parametrized multi−level scoring algorithm and an optimized peak detection」、1999年、Electrophoresis 20、3535〜3550頁 Gras R.、Gasteiger E.、Chopard B.、Muller M.、and Appel R.D、「New learning method to improving protein identification from peptide mass fingerprinting」、2000年、4th Siena 2D electrophoresis meetingRef Type:Conference Proceeding Gras R.and Muller M.、「Computational aspects of protein identification by mass spectrometry」、2001年、Current Opinion in Molecular Therapeutics 3、526〜532頁 Hines W.M.、Falick A.M.、Burlingame A.L.、and Gibson B.W.、「Pattern−based algorithm for peptide sequencing from tandem mass spectra of peptides」、1992年、J.American Society for Mass Spectrometry 3、326〜336頁 Ishikawa,K.and Niwa,Y.、「Computer−aided peptide sequencing by fast atom bombardment mass spectrometry」、1986年、Biomed.Environ.Mass Spectrom 13、373〜380頁 Johnson,R.S.and Biemann,K.、「Computer program(SEQPEP)to aid in the interpretation of high−energy collision tandem mass spectra of peptides」、1989年、Biomed.Environ.Mass Spectrom 18、945〜957頁 Johnson,R.S.and Taylor,J.A.、「Searching sequence databases via de novo peptide sequencing by tandem mass spectrometry」、2000年、Methods Mol.Biol.146、41〜61頁 Kennedy J.and Eberhart R.C.、「Swarm Intelligence」、2001年、Morgan Kaufmann Mann,M.、Hojrup,P.、and Roepstorff,P.、「Use of mass spectrometric molecular weight information to identify proteins in sequence databases」、1993年、Biol.Mass Spectrom 22、338〜345頁 Mann,M.、and Wilm,M.、「Error−tolerant identification of peptides in sequence databases by peptide sequence tags」、1994年、Anal.Chem.66、4390〜4399頁 Pappin D.D.J.、Hojrup P.、and Bleasby A.J.、「Rapid identification of proteins by peptide−mass finger printing」、1993年、Curr Biol.3、327〜322頁 Perkins D.N.、Pappin D.D.J.、Creasy D.M.、and Cottrell J.S.、「Probability−based protein identification by searching sequence databases using mass spectrometry data」、1999年、Electrophoresis 20、3551〜3567頁 Pevzner,P.A.、Dancik,V.、and Tang,C.L.、「Mutation−tolerant protein identification by mass spectrometry」、2000年、J.Comput.Biol.7、777〜787頁 Pevzner,P.A.、Mulyukov,Z.、Dancik,V.、and Tang,C.L.、「Efficiency of database search for identification of mutated and modified proteins via mass spectrometry」、2001年、Genome Res.11、290〜299頁 Sakurai T.、Matsuo T.、Matsuda H.、and Katakuse I.、「Paas 3:A computer program to determine probable sequence of peptides from mass spectrometric data」、1984年、Biomed.Mass spectrum.11(8)、396〜399頁 Siegel,M.M、and Bauman,N.、「An efficient algorithm for sequencing peptides using fast atom bombardment mass spectral data」、1988年、Biomed.Environ.Mass Spectrom.15、333〜343頁 Stoesser,G.、Baker,W.、van den,B.A.、Camon,E.、Garcia−Pastor,M.、Kanz,C.、Kulikova,T.、Leinonen,R.、Lin,Q.、Lombard,V.、Lopez,R.、Redaschi,N.、Stoehr,P.、Tuli,M.A.、Tzouvara,K.、and Vaughan,R.、「The EMBL Nucleotide Sequence Database」、2002年、Nucleic Acids Res.30、21〜26頁 Tateno,Y.、Imanishi,T.、Miyazaki,S.、Fukami−Kobayashi,K.、Saitou,N.、Sugawara,H.、and Gojobori,T.、「DNA Data Bank of Japan(DDBJ)for genome scale research in life science」、2002年、Nucleic Acids Res.30、27〜30頁 Taylor,J.A.and Johnson,R.S.、「Sequence database searches via de novo peptide sequencing by tandem mass spectrometry」、1997年、Rapid Commun.Mass Spectrom.11、1067〜1075頁 Taylor,J.A.and Johnson,R.S.、「Implementation and uses of automated de novo peptide sequencing by tandem mass spectrometry」、2001年、Anal.Chem.73、2594〜2604頁 Wilkins M.R.、Gasteiger E.、Bairoch A.、Sanchez J.C.、Williams K.L.、Appel R.D.、and Hochstrasser D.F.、「Protein identification and analysis tools in ExPASy server」、1999年a、Methods Mol Biol 112、531〜552頁 Wilkins M.R.、Gasteiger E.、Wheeler C.H.、Lindskog I.、Sanchez J.C.、Bairoch A.、Appel R.D.、Dunn M.J.、and Hochstrasser D.F.、「Multiple parameter cross−species protein identification using Multident − a world−wide web accessible tool」、1999年b、Electrophoresis 19、3199〜3206頁 Yates,I.J.R、Eng J.K.、and McCormak A.L.、「Mining genomes:correlating tandem mass spectra of modified and unmodified peptides to sequences in nucleotide databases」、1995年、Anal.Chem.67(18)、3202〜3210頁 YatesIII J.R.、Eng J.K.、Clauser K.、and Burlingame A.L.、「Search of Sequence Databases with Uninterpreted High−Energy Collision−Induced Dissociation Spectra of Peptides」、1996年、J.American Society for Mass Spectrometry 7、1089〜1098頁 Zhang,W.and Chait,B.T.、「ProFound:an expert system for protein identification using mass spectrometric peptide mapping information」、2000年、Anal.Chem.72、2482〜2489頁
プロテオミクス(proteomics)は、ゲノムに含まれる遺伝子の発現の結果生じるタンパク質の研究である。同じゲノムを有する細胞どうしで、タンパク質の発現にかなりの変種があるために、対応するゲノムごとに数多くのプロテオームが存在する。その結果、膨大な量の情報が関係することになり、プロテオームの研究はゲノムの研究よりも更に複雑となっている。
プロテオミクスの1つの典型的な目標は、所与の条件下で所与の組織又は細胞内のタンパク質の発現を同定することである。プロテオミクスのもう1つの目標は、条件(例えば疾患vs統制:disease VS control)を変えて同一の組織、細胞又は生理学的液体内のタンパク質の発現を比較し、異なる発現をするタンパク質を同定することである。
近年、プロテオミクス研究は、ますます強力になったタンパク質の精製/分離技法、質量分析及び同定の技法、ならびに様々な組織からの大規模なタンパク質及び核酸データベースの開発により、重要性を増してきている。
従来のプロテオームを解析するための方法は、1次元及び2次元ポリアクリルアミドゲルによる電気泳動法による分離を含む。1次元ゲル法は、一般に、細胞破砕液の粗い分離を達成するのに使用され、最も多く存在する複数のタンパク質を分離し検出することが可能である。2次元ゲルの電気泳動法は、数百のタンパク質スポットを分離する能力のあるより強力な方法であり、ここでスポットパターンはタンパク質の発現の特徴を示す。ゲル電気泳動法による典型的な分離基準は、電荷(等電点pI)と分子量とを含む。しかしながら、ゲル電気泳動法(1次元及び2次元)には、タンパク質のスクリーニング及び同定にとって、ある基本的な限界がある。ゲル電気泳動法の分離は、低速で限られた分解能しかない(すなわち、限られた数のタンパク質(スポット)どうししか区別できない)。特許文献1、特許文献2、及び特許文献3で例示されるように、近年、自動化により2次元ゲルの電気泳動法から生じるより大量のデータを処理することができるようになった。
より高い分解能は、キャピラリー電気泳動、ガス・クロマトグラフィー、マイクロチャネル・ネットワーク、液体クロマトグラフィー、高圧液体クロマトグラフィー(HPLC:high pressure liquid chromatography)などの他のクロマトグラフィー分離法を、ゲル電気泳動法に対して補完的に又は単独で使用することによって得ることができる。こうした方法により、より多くの数のタンパク質の分離が、(サンプル量が少ない、分子量が小さい、タンパク質が高度に塩基性又は疎水性であるなどの)困難な条件であっても可能になる。分離基準は、ゲル電気泳動法と同様に、電荷及び分子量、ならびに疎水性及び他の物理化学的基準を含む。
分離後には、そのタンパク質をシーケンシング又は他の手段によって同定する必要がある。タンパク質中のアミノ酸残基の配列の決定は、従来、N末端エドマン分解(非特許文献11:Edman、1970)という手段によって行われていた。エドマン・シーケンシングは、残念ながら、かなりの量(10〜100pmolのオーダー)のタンパク質を必要とし、これは現在のほとんどの分離技法から得られる量を超えている。実際に、エドマン・シーケンシングが可能なのは、1次元又は2次元ゲルの電気泳動法の後に限られ、それも見出される最も多く存在するタンパク質種に対してだけである。
今日、ほとんどの大規模タンパク質同定手順では、エドマン分解ではなく、質量分析(MS:mass spectrometry)データが出発点として使用されている。質量分析により、分析するタンパク質の分子質量が正確に決定される。質量分析を行う前に、タンパク質を切断してより小さいペプチドにすることにより、更に情報を得ることができる。タンパク質の切断は酵素を手段とするのが普通であり、アルギニン又はリジンのC末側を特異的に切断するトリプシンが最も一般的である。
質量分析データからの同定方法はいくつかある(非特許文献21:Gras and Muller、2001)。最も広く使用されている方法は、消化プロセスの結果から生じるペプチドの質量を質量分析によって測定することである。その結果のMSスペクトルは、タンパク質ごとの特徴を示すペプチド・マス・フィンガープリント(PMF:peptide mass fingerprint)を表わしている。ペプチド・マス・フィンガープリントによる同定には、直接作成したものにせよ核酸データベースから引き出したものにせよ、予め存在するタンパク質のデータベースが必要である。同定は、MS(PMF)によって得た実験上の質量/スペクトルと、データベースに存在する仮想的に消化したタンパク質の配列の理論的な質量/スペクトルとを比較することによって行われる。実験上のスペクトルと理論的なスペクトルとの間で共有される質量を、精緻さの高いあるいは低いスコア関数で使用して、タンパク質が同定される。一部のツール、PepSea(非特許文献27:Mannら、1993)、PeptideSearch(非特許文献28:Mann and Wilm、1994)、PepIdent/MultIdent(非特許文献39:Wilkinsら、1999a;非特許文献40:Wilkinsら、1999b)などは一致の数をカウントするだけであるが、他のもの、MassSearch(非特許文献18:Gonnet、1992)、MOWSE(非特許文献29:Pappinら、1993)、MS−Fit(非特許文献8:Clauserら、1995)、Mascot(非特許文献30:Perkinsら、1999)、ProFound(非特許文献43:Zhang and Chait、2000)などでは確率的及び/又は統計的アプローチが使用されている。最後に、Gras、SmartIdent(非特許文献19:Grasら、1999;非特許文献20:Grasら、2000)によって開発されたアルゴリズムでは、機械学習アプローチが使用されている。
残念ながら、PMF法では、例えば、注目するタンパク質の濃度が低い場合、消化プロセスの後で少数のペプチドしか見出されなかった場合、あるいは注目するタンパク質が十分に精製されなかった場合には、必ずしも信頼できる同定に成功するわけではない。更に、翻訳後修飾(PTM:post−translational modification)や多形現象によって、ペプチドの質量が変更され、正しいマッチングが損なわれる可能性がある。最後に、注目するタンパク質が単にタンパク質のデータベースに存在せず、したがってマッチングできないという可能性もある。
同定が不確実な場合には、タンデム質量分析(tandem mass spectrometry)(MS/MS)を使用することができる。MS/MSスペクトルは、注目するタンパク質の消化プロセスからできるペプチドの選択、それに続く前記ペプチドの断片化(fragmentation:例えば、希ガスとの衝突による)、及び生成された断片質量(fragment masses)の測定の後で得られる。理想的には、断片化はそのペプチドのあらゆるアミノ酸の間で起こり、隣接する2つのイオンピークの質量はアミノ酸1つの質量だけ異なる。MS同定から得られるものに類似のPMFに加え、MS/MSデータはペプチドの配列に関する情報を提供し、MSスペクトルだけよりもより詳細な解釈レベルを可能とする。
MS/MSスペクトルに含まれる情報を利用することは、様々な要因から難しい。断片化の過程が、ほとんど予測できず、とりわけ、質量分析計が使用するエネルギーの量、イオンの断片が担う電荷の数及び再配分(repartition)、その配列などに依存することは、注目すべきである。
MS/MSデータを利用するために、主に2つの同定の方策が考案されている。すなわち、新たな(de novo)シーケンシングを行ってから配列マッチングを行うものと、既存のデータベースからの理論的スペクトルと直接にスペクトル・マッチングを行うものとである。
de novoシーケンシングは、予め存在するタンパク質又は核酸データベースから抽出される情報をなにも使わずに、ペプチド配列をそのMS/MSスペクトルから導出するものである。これを行うために、de novoシーケンシングでは、質量スペクトルの中でピークを表す質量値ばかりでなく、その互いに対する相対的な位置も使用する。初期の方法、PAAS3(非特許文献33:Sakuraiら、1984)では、その質量がスペクトルの親の質量(spectrum's parent mass)に類似する全ての可能な配列、及び、対応する全ての仮想スペクトルを生成することが必要であった。次いで、実験上のスペクトルが仮想スペクトルと比較され、マッチングされていた。このアプローチは、それに伴う組み合わせの爆発的増加のためにたちまち使用されなくなった。別の方策は、配列を可能なところで次々と延長することであった(非特許文献23:Ishikawa and Niwa、1986)。配列を、1つ以上のアミノ酸で次々と延長して作って行く。繰り返しのたびに、部分配列及びその対応する仮想スペクトルを実験上のスペクトルと比較し、最も逸脱した配列を取り除く。また別の、より精巧な方策、(非特許文献34:Siegel and Bauman、1988)、SEQPEP(非特許文献24:Johnson and Biemann、1989)では、ピークの連続の中にある情報を使用して配列の延長を作成する。このアプローチでは、スペクトル中の「近傍」(“neighbor”)のピークの質量の差から、ペプチドの配列をステップ・バイ・ステップで作って行く。この方法はグラフ表現に基づく方法の先駆と見ることができる。例えば、(非特許文献4:Bartels、1990)、(非特許文献22:Hinesら、1992)、SeqMS(非特許文献14:Fernandez−de−Cossioら、1995;非特許文献15:Fernandez−de−Cossioら、1998;非特許文献16:Fernandez−de−Cossioら、2000)、Lutefisk97(非特許文献37:Taylor and Johnson、1997;非特許文献25:Johnson and Taylor、2000;非特許文献38:Taylor and Johnson、2001)、SHERENGA(非特許文献9:Dancikら、1999)、(非特許文献7:Chenら、2001)等。グラフの中の頂点は、スペクトルのピークから作られ、可能性のある断片の質量を表す。スコアを各頂点に関連付けるために、物理化学的性質が考慮に入れられる。2つの頂点が1つ又はいくつかのアミノ酸の質量だけ異なるときはいつでも、頂点は弧で結ばれる。したがって、グラフ中の各パスは、そのスペクトルから作ることができる可能性のある配列を表す。次いで、特別なアルゴリズムにより、そのグラフで最良のパス(すなわち、そのパスに属する頂点スコアから作成される最高のスコアをもつパス)の探索が行われ、これにより、実験上のスペクトルに対応する最もありそうな配列又は配列群を決定することができる。このようにして、de novoシーケンシングの結果、タンパク質又は核酸データベースになんら頼ることなく、1つ又は限られた数の可能なアミノ酸の配列が得られる。
次いで、同定を目的として、de novoで得られた(部分又は全体の)配列を使用して、標準的な配列(alignment)ソフトウェアによってタンパク質データベースのスキャンが行われる。de novoシーケンシングは、良質のスペクトルと質量分析の熟練者による手作業の確認をともに必要とするかなり複雑な作業である。したがって、このアプローチは、今日利用可能な高処理量の設定で生成される膨大な量のデータには適していない。
de novoシーケンシングに対する代替方法は、MS/MSから得られる実験上のペプチドのスペクトルを、予め存在するタンパク質のデータベースから導出される理論的なスペクトルとマッチングすることである。de novoシーケンシングとは異なり、ほとんどのMS/MSスペクトル・マッチングツールでは、MS/MSスペクトルにある質量値だけを使用している。つまりそれぞれの位置を除外している。今日、MS/MS同定のために最もよく使用されている方法は、SPC(shared peak count)である。MS/MSスペクトルのイオン質量は、“ペプチド・マス・フィンガープリント”とのアナロジーで言うと、“イオン・マス・フィンガープリント(ion mass fingerprint)”を表す。実験上のMS/MSスペクトルが、データベースにある仮想的に消化され断片化されたタンパク質の理論的なイオン・マス・フィンガープリントと比較される。それらの類似度は、実験上及び理論的な共通質量間の独立した相関スコアの組み合わせによって決定される。
様々なSPCアルゴリズムが開発されてきている。そのすべてが、質量の誤差に依存する確率的スコアに基づいており、違いは主に、洗練の度合いに高低のあるスコア関数にある。MSTag、PepFrag(非特許文献13:Fenyoら、1998)、及びMASCOT(非特許文献30:Perkinsら、1999)がその例である。あるアルゴリズム、SCOPE(非特許文献1:Bafna and Edwards、2001)では、複雑な確率モデルと動的プログラミングの方法がともに使用されている。別のアルゴリズム、SEQUEST(非特許文献12:Engら、1994;非特許文献41:Yatesら、1995;非特許文献42:Yatesら、1996;非特許文献17:Gatlinら、2000)では、2つのフィルタリング・レベル、すなわち、SPCとそれに続く高速フーリエ変換による相互相関とが使用されている。修飾に関しては、源(source)タンパク質へのどのような突然変異又はPTMによっても、参照データベースにある未修飾タンパク質に比べて、MS/MSスペクトルが劇的に変わる恐れがある。すなわち、修飾された断片質量に、修飾/突然変異のもたらす質量差に対応してデルタだけのずれ(shift)が生じる。その結果、修飾された源(source modified)ペプチドには、参照のタンパク質データベースの中に対応するマッチング結果が見つからない可能性がある。SPC法では、一般に、考慮しようとする修飾/突然変異のあるペプチドはすべてそのデータベースに含んでいるが、そのためには考慮に入れる修飾/突然変異に関連する質量差についての事前の知識が必要である。したがって、未修飾のペプチドとの質量差が予測不可能な修飾(グリコシル化など)は、SPC法では考慮に入れることができない。更に、ペプチドの可能な修飾/突然変異をすべてデータベースに含めることは、それに伴う組み合わせの爆発的増加のために現実的ではない。結果として、SPC法では、普通、メチオニンによる酸化やシステインによるカルバミドメチル化などの、特定のアミノ酸に起こる少数の非常に一般的な修飾しか考慮に入れられていない。
組み合わせの問題のほかに、SPCアルゴリズムには他に2つの限界がある。第1に、SPCアルゴリズムでは、ピークが互いに独立に考慮されており、それによりMS/MSスペクトルに含まれるいくつかの重要な情報が失われる。第2に、SPCアルゴリズムでは、較正のよくないスペクトルとともに使用するときには、誤差の許容範囲を大きく見ておく必要がある。この結果、基本的に現在の質量分析計の本来の高い精度が失われてしまう。
SPC法でない2つの方法、すなわち、スペクトル畳み込み及びスペクトル・アラインメントが、PEDANTA(非特許文献31:Pevznerら、2000;非特許文献32:Pevznerら、2001)をその対応するツールとして記述されており、これらは、予測不可能な修飾を含めて修飾/突然変異を取り扱うのに非常に頼りになると主張されている。実際、スペクトル・ピークの重ね合わせの課する論理的制約を使用して考慮する修飾/突然変異の数を制限しているため、これらにはSPC法にまさる大きな利点がある。こうしたアプローチの1つの明らかなトレードオフは、フィルタリング中に親の質量を使用せずにペプチド・データベース全体を解析(parse)しなければならない点である。更に、予期される質量のずれの数とともに組み合わせの問題が大きくなる。したがって、十分に区別のできる同定を可能にするためには、考慮する修飾/突然変異の数を十分に低く抑えなければならない。
本発明によれば、ペプチド及び/又はタンパク質を含むサンプルから実験的に得られるタンデム質量分析データ(MS/MSデータ)が、構造化されたデータを生物学的配列データベースとマッチングする間にMS/MSデータに含まれる情報の完全な利用が可能となるように、解釈され構造化される。
本発明は、例えば、ESI/MALDI_Q−TOF_MS、ESI/MALDI_イオントラップ型(Ion−Trap)MS、ESI三連四重極型(triple quadrupole)MS、又は、MALDI_TOF−TOF_MSなどのどんな標準的又は非標準的なタンデム質量分析方法によっても得られる、MS/MSデータを用いたペプチド及びタンパク質同定方法に関する。SPCの場合のように実験上のMS/MSスペクトルをデータベースからの理論的な配列と直接に比較するのではなく、本発明の方法では、実験上のMS/MSスペクトルの解釈され構造化された概観(view)が理論的な配列と比較される。
本発明の方法では、図1を参照すると、まず、1つ以上のタンパク質又はペプチドを含むサンプル0に対してタンデム質量分析を行う。次いで、MS/MSスペクトルを、離散的な質量ピークをリストしたピークリスト1に翻訳する。このステップは、標準的な質量分析装置によって実行できる。次いで、翻訳結果であるピークリスト1を解釈して、可能な質量の説明リスト(解釈済みピークリスト2)とする。この解釈では、特に、質量分析計、断片化のエネルギーレベル、及び化学的概念(イオンの型、電荷数など)に関する物理化学的知識が考慮に入れられる。次いで、解釈済みピークリスト2を変換して構造化表現3にする。この変換では、生物学的知識、特にアミノ酸の性質が考慮に入れられ、少なくとも次の情報、
ピークの質量電荷比、
親ペプチドの質量電荷比、
親ペプチドの電荷、
ピークの強度、
が保存される。
ペプチドの同定は、前記構造化表現を生物学的配列データベースとマッチングすることによって行われる。前記データベース4は、タンパク質又はペプチドのデータベースに翻訳された核酸データベース、又はそのようなデータベースの任意のサブセットなどの、生物学的配列のどのような情報源(source)5からも作ることができる。例えば、GenBank(非特許文献5:Bensonら、2002)、EMBL(非特許文献35:Stoesserら、2002)、DDBJ(非特許文献36:Tatenoら、2002)、SWISSPROT(非特許文献2:Bairoch and Apweiler、2000)、及びPIR(非特許文献3:Barkerら、2000)を含む、多くの配列ライブラリを使用することができる。生物学的配列データベースとのマッチングは、de novoシーケンシングとは対照的に、構造化表現3を1つ又は限られた数のアミノ酸の配列へと縮約する前に行われる。このマッチングプロセスにより、ペプチドの各配列ごとに類似度スコア8が得られる。次いで、このスコアは、ペプチドの最良のマッチング結果又は結果群9を決定するのに使用される。
本発明は、又、いま説明したペプチド同定方法の諸ステップを含み、ペプチド・マッチング情報を使用して、タンパク質データベースにある対応するタンパク質又はタンパク質群の同定のための更なるステップを含む、タンパク質同定方法を提供する。
本発明の好ましい一実施形態では、データベースとマッチングされる構造化表現はグラフ3であり、グラフ3の頂点6は“理想的な(ideal)”断片であり、あるイオン仮定のもとで(前記解釈済みピークリスト2内の)MS/MSピークから作られる。断片を表す各頂点6は、とりわけ、前記断片の分子質量値と、この断片に関する特定のイオン仮定(イオンの型)とを示し、その頂点に対する信頼度レベルを表わすスコア値が割り当てられる。2つの頂点6は、その質量差が1つ以上のアミノ酸の質量の値に等しいときはいつでも、選ばれた組み合わせレベルに応じて辺7によって結ばれる。辺7には、こうした特定のアミノ酸を表わす文字が付与される。したがって、グラフ3は、そのMS/MSスペクトルから作れる限りの全てのアミノ酸のタグ及び完全な配列を表している。ペプチドの最良のマッチング結果又は結果群9の同定は、ペプチドの配列データベースからの理論的なペプチド4とグラフ3とを比較することによって得られる類似度スコア8を用いて行われる。
本発明の方法では、構造化表現(又はグラフ)3がペプチドの配列データベース4からの理論的なペプチドと比較される。de novoシーケンシングを行ってから配列マッチングを行う同定では、グラフを1つ又はいくつかの配列に縮約した後ではじめてデータベース情報が利用されるが、これとは対照的に、本発明ではデータベース情報を直接使用して、構造化情報又はグラフとの比較が直接行われる。目標は、そのペプチドを最もよく説明する構造化表現又はグラフ3のセクション(section:連続する複数の辺7の集合)を見出すことである。セクションは、配列情報を含んだ古典的なタグと見ることもできるが、比較プロセスで使用する情報を更に含んでいるため、それ以上の意味がある。
本発明では、一般には、構造化表現、詳細にはグラフ構造に、既存の方法に勝る顕著な利点がある。このアプローチでは、まず、比較プロセス中の較正の問題が省かれる。すでに触れたように、質量分析計の本来の高い精度にもかかわらず、MS/MSスペクトル中のピーク質量は、かなりの値ずれる。その結果、SPCに基づく既存の同定方法では、ピーク質量と理論的な断片質量とを比較する場合、許容誤差を大きく見ておかなければならず、これはノイズレベル、ひいては偽陽性(false positive)の数の顕著な増加をもたらす。本発明の方法では、ピーク質量の差を理論的な質量の差と比較する。隣接する質量の差は較正誤差から弱い影響しか受けないため、本発明の方法により、質量分析計の精度を完全に利用できるようになる。構造化表現の別の利点は、これにより、(SPCの場合のように)ピークマッチングの数だけでなく、その配列を説明することを可能とする連続してマッチする数(the number of successive matches)も考慮に入れられることである。
本発明の好ましい一実施形態では、構造化表現のデータベースにある配列とのマッチングは、各データベース配列に従って構造化表現又はグラフを解析することによって行われ、各解析により、各データベース配列を構造化表現又はグラフに相関させるスコアが得られる。
このアプローチにより、特に、構造化表現をペプチドの配列データベースのどのような部分配列とも比較することができるようになり、各解析により、その部分配列を構造化表現又はグラフのセクションと相関させるスコアが得られる。不完全なスペクトル情報の場合には、結ばれていないが関連の連続する辺の集合(セクション)を結合して、同じペプチドの配列を形成することができる。又、修飾された源ペプチドの場合には、このアプローチにより、修飾仮説に従って、結ばれてないが関連の連続する辺の集合(セクション)を結合することができるようになる。
グラフ構造による表現により、もともとの(original)情報をすべて保持し、比較プロセス中に多くの異なる情報源から来る情報を考慮することができるようになる。グラフは、2つの情報のタイプを含む。すなわち、第1はローカル情報であり、これは最も妥当な(pertinent)辺を有利にするためパス作成に使用され、頂点及び辺に関連付けられた変数(頂点の質量、強度、スコア、また辺のアミノ酸)として格納される。第2はグローバル情報であり、これは現在のペプチド又はそれに属する任意の部分配列に関するパスの妥当性を記述し、たぶん辺に関連付けられる重みとして格納される。ローカル及びグローバルのパラメータは、同定アルゴリズムの能力を最大化し、1位にランクされるペプチドと他の候補との十分な識別が可能になるように、重み付け及び組み合わせされねばならない。既知の質量分析計からの同定済みスペクトルの集合を使うと、重みを遺伝的アルゴリズムによって最適化することが可能である(非特許出願19:Grasら、2000;非特許出願20:Grasら、1999)。
本発明の別の実施形態では、前記解析は群知能型アルゴリズムを使用して行われる(非特許文献26:Kennedy and Eberhart、2001;非特許文献6:Bonabeauら、1999)。群知能は分散人工知能の一形態であり、与えられた環境内部で進化し相互作用しながら、直接及び/又は間接的コミュニケーションを管理できる単純な複数のユニット、つまり巡回販売人(agent)の自己組織の結果として、知的な集団行動が出現する。
本発明のまた別の実施形態では、この群知能型アルゴリズムは、“Ant Colony Optimization(ACO:アリ集団最適化)”と呼ばれるアルゴリズムである(非特許文献10:Dorigo and Di Caro、1999)。ACOアルゴリズムは、現実のアリ集団の行動をモデルとした(inspired)マルチ・エージェント・システムと定義される。ACOの原理は、アリ・エージェントの集団が与えられた問題の異なる解を繰り返しによりかつ同時に探るものである。出現する集団行動は、環境の改変(stigmergy)によって仲介されるアリどうしの間接的なコミュニケーションによって左右される。アリたちは、局所的に利用可能であり他のアリの行動に影響を与える一定量のフェロモンを分泌することによって、環境を改変する。この実施形態では、アリたちの“跡を残す/跡をたどる”(trail−laying/trail−following)採餌行動をモデルとしたACOアルゴリズムを使用して、データベースの現在のペプチドと構造化表現とのマッチングがスコア付けされる。アリたちは、その集団を結ぶ食料源までの最短のパスを見つけることができるので、採餌プロセスを支配するルールを利用し、これを使ってグラフの中のスコアのよいパスを見出すことが可能である。各アリは、見出した解の質に応じてスコアを得る。仮想フェロモンを使用することにより、よい解が記憶され、正のフィードバックとして働くことが可能になる(探索の集中化)。又、早まった収束を避けるために、ある量のフェロモンが繰り返しのたびに蒸発する(負のフィードバック、探索の多様化)。
グラフの解析用に改変されたACOでは、まず、各辺のフェロモン量が微小な値に設定される。次いで、アリたちがグラフを繰り返して解析する。繰り返しのたびに、アリたちはグラフ上をある頂点から他の頂点へと、既存の辺を使用して、あるいは、許される場合にはある頂点から他の頂点へと飛び移って、停止基準に達する(例えば、次の頂点がない頂点に到着する)まで動く。次の辺の選択は、ローカルなパラメータ(すなわち、次の頂点のスコア)と、既になされているグローバルな学習(すなわち、次の辺上のフェロモンの量)との両方が考慮に入れられて、確率的な計算の結果として得られる。繰り返しが終わるたびに、各辺からは自動的にフェロモンがいくらか取り除かれる(蒸発する)が、そのアリが解析した各辺にはフェロモンがいくらか加えられる(厳密な量はそのアリのスコアに依存する)。その結果、このアルゴリズムにより、1つ又はいくつかのスコアのよいセクションに向けて緩やかに収束することが可能となり、そうしたセクションは、更に、理論的な候補のペプチドを最大限覆うように相関させることができ、ペプチドをすべて分析した後には、最終的に候補のペプチドのランク付けされたリストが得られる。
ACOアルゴリズムにはいくつかの利点がある。例えば、アリの動きの推計学的(stochastic)性質により、グラフの中のどのパスも解析することが可能になる。MS/MSスペクトルに矛盾しない全ての可能な突然変異がグラフには暗黙のうちに表現されており、アリをある頂点から別の結ばれてない頂点に飛び移らせることによって、可能な突然変異を考えることができる。スペクトル・アラインメント法と同様に、本発明では、スペクトルの論理的制約を使用して可能な修飾の組み合わせの数を制限している。更に、本発明では、表現又はグラフの関連するセクションを結ぶ有向の飛び移り(jump)のみを許すことによって、組み合わせの数が劇的に制限される。したがって、配列とスペクトルとのグローバルな対応を向上させる修飾だけが考慮される。又、あるアリに許される頂点を、すでにこのアリが解析した頂点に応じて制限することも可能である。これにより、例えば、間違った分裂(missed−cleavage)を1つだけ受け入れることができるようになる。すなわち、リジンに対応する辺を使ってしまったアリが、更に第2のリジンを取り込むことを避けることができる。
本発明の別の利点は、本発明からより従来型のde novoシーケンシング・モードへの切り替えが直接的であり、単にデータベースから来る情報を使わずにおけば済むことである。
本発明では、又、1つ以上の質量分析計及び1つ以上の生物学的配列データベースにリンクされるコンピュータを含み、前記コンピュータが本明細書に記載される方法の諸ステップを実行するためのプログラムを有するシステムが提供される。
本発明では、又、1つ以上の質量分析計及び1つ以上の生物学的配列データベースにリンクされるコンピュータに本明細書に記載される方法の諸ステップを実行させる命令を含むコンピュータ可読媒体が提供される。
以下の段落では、グラフ表現及びACOアルゴリズムを組み合わせ、またPopitam(Peptide Or Protein Identification from TAndem Mass spectrometry)と呼ばれる、本発明の好ましい一実施形態によるMS/MSデータの取り扱い及び同定の詳細な説明が提供される。
I.ピーク解釈
Sexp={s1,s2,…,s|Sexp|}、すなわち、同定すべき実験上のMS/MSピークリストと、イオン仮説の集合 Δ={η1,η2,…,η|Δ|}とを定義する。イオン仮説は、あるピークの可能な解釈と見ることができる。各ηiには4つの属性があり、それらはその質量分析計によって計測されたイオン断片sjに関する仮定である。これらは、オフセット値o(ηk)、すなわちイオン断片と対応するb−イオン型断片(分かりやすいように、ここではそのような断片をb−断片、その対応する質量をb−質量と呼ぶ)との質量差、末側(terminus side)t(ηk)(N末端又はC末端)、電荷数c(ηk)、及び近似生起確率p(ηk)である。確率p(ηk)は、とりわけ、使用する質量分析計に依存し、学習フェーズ中に同定済みスペクトルの集合を用いて決定することができる(非特許文献9:Dancikら、1999)。
解釈プロセスは、Sexpからの各ピークに、上に述べた4つの属性すべてを含むイオン仮説を帰属させる(attribute)ものである。したがって、Sintからの各ピークsjは質量電荷比μ(sj)、強度ι(sj)、及びイオン仮説η(sj)を特徴とすることになる。解釈済みピークリストSint中の要素の数は|Sint|=|Sexp|・|Δ|である。このアプローチをとると、Sexp中の所与のピークから計算される少なくとも|Δ|−1個の解釈済みピークが偽であることになる。
II.グラフ構築
スペクトルのグラフG=(V,E)を、頂点の集合をV={v1,v1,…,v|V|}、辺の集合をE={eij|i<j<|V|,vi及びvj∈V}とする非循環有向グラフ(directed acyclic graph)と定義する。各頂点viは、b−質量、μ(vi)及びそれに対応するイオンピーク質量電荷比μs(vi)、強度ιs(vi)、スコアσ(vi)、イオン仮説η(vi)、ファミリーF(vi)、ならびに次の頂点(successor)のリストsucc(vi)を特徴とし、これに対して各辺eij∈Eはフェロモン軌跡τ(eij)及びラベルλ(eij)を特徴とする。
II.1)頂点の作成:
GはピークリストSintから作成される。第1のステップは、全ての解釈済みピークを、N末端の“理想的な”断片を表わす1度荷電したb−イオンへと変換することである。
Sintに属する各ピークから、頂点viが得られる。Mexpが実験上の親の質量として与えられ、ただしMexp=(Mobs−1)・c(Mobs)であり、Mobsがペプチドの親の質量の質量電荷比、c(Mobs)がその電荷数であるとき、頂点はアルゴリズム1に従って作成される。
アルゴリズム1:頂点の作成
Figure 2005532565
又、空の配列に対応する始めの頂点、及び完全な配列に対応する終りの頂点を作成する。このため、頂点の数は|Sint|+2に等しくなる。
II.2)頂点のファミリー:
各頂点に対して、近傍の頂点のファミリーFを定義する。ファミリーの概念は、あるb−断片がSexpの中のいくつかのイオンピークで表されているときに、これらのピークの計算されたb−質量μ(vi)がほとんど等しくなるというアイディアに基づいている。そのため、ファミリーを頂点のb−質量の差に基づいて作成するが、b−質量の差は指定されたしきい値よりも小さくなければならない。ここでは、(非特許文献9:Dancikら、1999)に述べられているように、頂点を併合(merge)しないことにしたが、これは、併合プロセスが、ピークに対する較正誤差をうまく処理できず、しばしば親の質量の極めて低い精度に依存しているためである。したがって、同じb−断片を表しかつ異なる末端タイプ( t(η(vi))≠t(η(vj)) )のイオン仮説によって導出される2つのb−質量は、同じ末端タイプのイオン仮説から得られるb−質量と比べると、かなり異なっている可能性がある。このため、そのようなb−質量は、あまりに異なるため併合できないか、併合した場合でもかなり精度の低い新しい頂点ができる可能性がある。この問題を回避するため、ここでは、頂点を併合せずに、同じb−断片に属しうる限りの近傍の頂点すべてを含む頂点のファミリーF(vi)={vj…v|F(vi)|}を作成している。このアプローチにより、頂点のb−質量を変えずに保ち、結果として質量分析計の精度を完全に利用することができるようになる。更に、ファミリーの作成に使用するアルゴリズムは、Dancikが提案した併合アルゴリズムの場合のように欲張り(greedy)ではなく、厳密(exact)である。
頂点Vjは、ファミリーF(vi)に、以下のルールに従って加えられる。第1に、2つの頂点のb−質量が十分に近くなければならない。式1(数2:Equation 1)に示すように、同じファミリーに入れる2つの頂点が導出されるイオン仮説が同じ末端タイプのものか、異なる末端タイプのものかに応じて、しきい値を適応させなければならない。
Figure 2005532565
第2に、2つの頂点のb−質量は、異なるイオン仮説から出てきたものでなければならない(η(vi)!=η(Vj))。
アルゴリズム2:ファミリーの作成
Figure 2005532565
II.3)頂点のスコア付け:
頂点はある仮定のもとで作成されるため、頂点それぞれの信頼性(credibility)レベルを定義する値が必要である。この値は、非網羅的な基準リストにしたがって定義される、スコアσ(vi)で表される。現在、2つの基準が考慮に入れられており、これから冗長度スコアρ(vi)及び確率スコアπ(vi)が得られる。
Figure 2005532565
一旦ファミリーが定義されると、ρ(vi)及びπ(vi)を計算することが可能になる。等価なb−質量がいくつかあるとviのイオン仮説が確実なものになるので、冗長度スコアρ(vi)はファミリーの大きさに従って増加させなければならないが、これに対して確率スコアπ(vi)では、ファミリーのメンバーの生起確率p(η)が考慮に入れられる。
Figure 2005532565
II.4)グラフの連結:
2つの関連付けられた頂点vi及びvjのb−質量が1つ又はいくつかのアミノ酸の値だけ異なっている場合、この2つを辺eijによって連結することができる。所与の辺に含まれるアミノ酸の数に従って、その辺を単純な辺(simple edge)(|λ(eij)|=1)、2重辺(double edge)(|λ(eij)|=2)などと呼ぶことができる。A={a1,a2,…,a|A|}をアミノ酸のアルファベットとする。Aは、全ての一般的なアミノ酸ばかりでなく、カルボキシメチル化システイン、カルバミドメチル化システイン、又は酸化メチオニンなどのいくつかの修飾されたアミノ酸を含む。各ai∈Aは質量μ(ai)及びラベルλ(ai)を有する。
Figure 2005532565
は、|A|の中の1個からN個のアミノ酸の組み合わせすべての集合である。Nの値とともに辺の数は指数関数的に増加するため、Nは普通小さい(通常N=2又はN=3)。
Figure 2005532565

、すなわち
Figure 2005532565
にあるアミノ酸すべての質量の総和、及び
Figure 2005532565
、すなわち
Figure 2005532565
にあるアミノ酸のラベルから作られるものが与えられた場合、アルゴリズム3によって辺の計算が示される。頂点のリストは、b−質量の値に従ってソートしておかなければならない。
アルゴリズム3:グラフの連結
Figure 2005532565
III.同定プロセス
III.1)ペプチド・データベース
D={P1,P2,…,P|D|}を、同定のために使用するペプチド・データベースとする。ペプチドPcは、核酸又はタンパク質データベースの全体又はサブセットから得ることができる。Pcは3つの属性を特徴とする。第1は、その配列、
Figure 2005532565
である。第2は、その理論的な質量μ(Pc)である(式4:数13を参照されたい)。第3は、同定スコアscore(Pc)である。
末端質量値μ(N−term)及びμ(C−term)が与えられるとき、μ(Pc)が次のようにして得られる。
Figure 2005532565
同定プロセスは、DのペプチドをグラフGと比較すること、及び各ペプチドPc∈Dをスコアscore(Pc)と相関させることである。スペクトルの実験上の親の質量Mexp、及び所定のしきい値rが与えられるとき、
アルゴリズム4:同定プロセス
Figure 2005532565
が与えられる。
このアルゴリズムの結果として、スコアでランク付けされた候補のペプチドのリストが得られる。以下の段落で比較関数を説明するが、これは理論的なペプチドをグラフと比較するものである。
III.2)比較プロセス
グラフGとペプチドPcとの比較プロセスでは、Gの中でPcを最もよく説明するセクションを見出すことが必要になる。完全なセクションとは、ペプチドの配列全体に対応するグラフ中のパスである。ここでは、所与のPcに対して、Gの中の最良の完全なセクションを探索するための、ある可能な非決定的戦略を提示する。完全なパスの代わりにセクションを抽出するため、更にこのアルゴリズムの修正を行う。
F={f1,f2,…,f|F|}をアリ集団とする。繰り返しtのときにグラフ上を歩く各アリfkにより、次の条件、
Figure 2005532565
を満たすVの部分集合である、頂点の集合、
Figure 2005532565
を含むあるパスと、それにともない、
Figure 2005532565
と表記される辺の集合とが作成される。
Figure 2005532565
の質は、アリのスコアSt(fk)によって表される。
Figure 2005532565
での辺ラベルλ(eij)の連接(concatenation)は、アリkの作った配列、
Figure 2005532565
を表す。
アルゴリズム5は、ACOアルゴリズムをわれわれの問題向けに適応させたものである。まず、τ(eij)すなわち各辺eij∈Gのフェロモンの量を、グラフ中に見出される最良の完全なパス(L+)及びそれに関連付けられたスコアS(L+)とともに、(τ0=10-6で)初期化する。繰り返しを始めるたびに(tmaxを予め定めた繰り返しの総数とする)、各辺で加えるべきフェロモンの量Δτ(eij)を0に初期化する。次いで、各アリが自分のパス
Figure 2005532565
を作りながらグラフを解析して、スコアSt(fk)を得る。このスコアは、
Figure 2005532565
ごとのΔτ(eij)を更新するのに使用する。Qは、予め定めた定数値であり、最適スコアの大きさと同程度の大きさから選ぶ。Qの値は最終結果にわずかな影響しか及ぼさないことを実証している著者らがいる(非特許文献38:Tayler,2001;非特許文献6:Bonabeauら、1999)。アリの作ったパスがS(L+)より高いスコアを得た場合、L+及びS(L+)を更新する。最後に、すべてのアリがグラフを解析し、その寄与をΔτ(eij)に加えてしまうと、ω∈[0;1]を蒸発率としてグラフを更新する。比較関数は、終わりに、Pcの属性とした最良パスのスコアを返す。
アルゴリズム5:ペプチドPcに対するGの中の最良のパスの発見
初期化:
Figure 2005532565
繰り返し:
Figure 2005532565
以下に、parseGraph及びscoreAnt関数のより詳細な説明を行う。
III.2a)グラフの解析:
まず、アリfkを始めの頂点v1上に置く。アリfkは、現在の頂点viが次の頂点(successor)を有する限り(succ(vi)≠φ)、fkが作った配列の長さ|LQ(fk)|が現在のデータベースの配列の長さ|Q(Pc)|より短い限り、前に進むことができる。頂点viからVj∈succ(vi)である頂点vjに進むのに使う遷移ルールは、3つの情報に依存している。第1の情報は可視性であり、σ(vj)すなわち次の頂点のスコアによって表される。これはローカルなパラメータと考えることができる。第2の情報は、アリ集団がそれまで行った学習の記憶に対応している。これはグローバルなパラメータであり、辺eij上に置かれたフェロモンの量τ(eij)を表す。最後に、第3の情報は、現在のデータベースのペプチドPcの配列である。実際、次の辺eijのラベルが、配列Q(Pc)の中の次のアミノ酸とマッチすると、遷移確率に、辺のラベルの長さに依存して予め定めた定数値が掛けられる。
α及びβ、すなわち学習及び可視性の相対的な重みを制御する調節可能な2つのパラメータ、
Figure 2005532565
すなわちアリfkが繰り返しtのときに辺eijを選ぶ確率、
Figure 2005532565
すなわちsucc(vi)すべてに対するこれら確率の集合、及び
Figure 2005532565
すなわち現在のペプチドの配列が与えられた場合:
アルゴリズム6:アリfkによるGの解析
Figure 2005532565
III.2b)アリのスコア付け
各繰り返しtが終わるたびに、現在のペプチドPcとアリが使った異なるパスとの類似度を評価しなければならない。アリはそれぞれ、そのパス
Figure 2005532565
に応じて最終スコアSt(fk)を得る。目標は、St(fk)の中に、異なる情報源からの可能な関連する情報をすべて含めることである(式5:数32を参照されたい)。例えば、Sintから来る情報を考慮に入れるために、
Figure 2005532565
に格納されたピークの強度を使用し、強度スコアintSを計算することができる。イオン仮説の集合からは、fkが解析した頂点の関連度を表現する、関連度スコアrelSを作ることができる。現在のペプチドの配列は、ペプチドの配列Q(Pc)と配列
Figure 2005532565
との類似度を表現することになるcovSスコアで使用することができる。又、使用した頂点のb−質量とQ(Pc)から期待される理論的な質量の相関の質も、regSと呼ばれる回帰スコアとして考慮に入れることができる。更に、他の情報、MS/MSデータを調べるのに使用される生物学者の専門知識から生じるルールなどを加えることができる。
Figure 2005532565
次の節では、われわれの現在のアルゴリズムに使用しているサブスコアintS、relS、covS、regSの実装例を示す。
被度(coverage)スコアrecSは、現在のペプチドPcとアリfkが作った配列との配列類似度を表す。これは、例えばスミス−ウォーターマン(Smith and Waterman)アルゴリズムなどの、アラインメント関数によって計算される。
Figure 2005532565

が与えられるとき:
アルゴリズム7:被度スコア
Figure 2005532565
関連度スコアは、使用した頂点スコアの平均である。これは式6(数35)に示すように計算される。
Figure 2005532565
同様に、強度スコアは次のように計算される。
Figure 2005532565
回帰スコアは、アリのパスに含まれる頂点の実験上の質量μs(vi)と、現在のデータベースのペプチドの配列Q(Pc)から計算される、対応する理論的な質量R(Pc)={r1,r2,…,r|R(Pc)|}とのグローバルな対応の尺度である(非特許文献20:Grasら、2000)。まず、これらの質量の間の関係を、実験上の質量を横軸に理論的な質量を縦軸にとってグラフ上にプロットし、点の集合により線形回帰を計算することが可能になる。点と線形回帰との偏差の平均が、回帰スコアregSを表す。
y=ax+b、すなわち線形回帰、
Figure 2005532565
すなわち実験上の質量、及び、その対応する理論的な質量ri∈R(Pc)が与えられた場合:
アルゴリズム8:regSの計算
Figure 2005532565
[実験例]
われわれのアルゴリズムの予備的な実装の試験を、MS/MSスペクトルのトレーニング・セットに対して行った(完全なパスのみ、未知の修飾なし)。101のスペクトルのうち92.1%が首尾よく同定された。結果の例をいくつかここに引用する。
Figure 2005532565
Figure 2005532565
Figure 2005532565
本発明の一実施形態による、MS/MSデータからペプチド又はタンパク質を同定するための方法の一般的な道筋を示すフローチャートである。

Claims (9)

  1. (a)1つ以上のタンパク質又はペプチドを含むサンプルに対してタンデム質量分析を行うステップと、
    (b)分析結果のスペクトルをピークリストに縮約するステップと、
    (c)物理化学的知識を考慮に入れて、前記ピークリストに対して可能な解釈を解釈済みピークリストにリストするステップと、
    (d)生物学的知識を考慮に入れて、前記解釈済みピークリストを構造化表現へと構造化し、少なくとも次の情報、
    ステップ(b)で得られたピークの質量電荷比、
    親ペプチドの質量電荷比、
    親ペプチドの電荷、
    ピークの強度
    を保存するステップと、
    (e)構造化された情報に何らかの縮約を行う前に、前記構造化表現を生物学的配列データベースとマッチングして1つ又は限られた数のアミノ酸の配列とするステップと、
    (f)前記データベース内部で最良のペプチドのマッチング結果又は結果群を決定するステップとを有することを特徴とするペプチド同定方法。
  2. 請求項1に記載のステップ(a)から(f)を有するタンパク質同定方法であって、更に、ステップ(f)の前記ペプチドのマッチング情報を使用して、タンパク質データベースの対応するタンパク質又はタンパク質群を同定するステップ(g)を有することを特徴とするタンパク質同定方法。
  3. ステップ(d)の前記構造化表現はグラフからなり、
    前記グラフの頂点が、可能性のあるb−イオン型のペプチド・断片に翻訳された、前記解釈済みピークリストの個々の要素を表し、
    辺が、1つ以上のアミノ酸の分子量に等価な値だけ分子量が異なる前記b−イオン型のペプチド・断片を表す頂点を結ぶことを特徴とする請求項1又は2に記載の方法。
  4. ステップ(e)の前記マッチングが、データベースの各配列に従ってステップ(d)の前記構造化表現を逐次的に解析することからなり、それぞれの解析からデータベースの各配列を前記構造化表現に相関させるスコアが得られることを特徴とする請求項1乃至3のいずれか1つに記載の方法。
  5. 前記解析が群知能アルゴリズムによって行われることを特徴とする請求項4に記載の方法。
  6. 前記群知能アルゴリズムがAnt Colony Optimizationアルゴリズムであることを特徴とする請求項5に記載の方法。
  7. 連続する辺の結ばれていないが関連する集合を、修飾仮説に従ってともに結合することを特徴とする請求項3乃至6のいずれか1つに記載の方法。
  8. 1つ以上の質量分析計及び1つ以上の生物学的配列データベースに接続されたコンピュータに、請求項1乃至7のいずれか1つに記載の方法の諸ステップを実行させる命令を含むことを特徴とするコンピュータ可読媒体。
  9. 1つ以上の質量分析計及び1つ以上の生物学的配列データベースに接続されたコンピュータを含むシステムであって、前記コンピュータが請求項1乃至7のいずれか1つに記載の方法の諸ステップを実行するプログラムを有することを特徴とするシステム。
JP2004520920A 2002-07-10 2002-07-10 ペプチド及びタンパク質の同定方法 Pending JP2005532565A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2002/002731 WO2004008371A1 (en) 2002-07-10 2002-07-10 Peptide and protein identification method

Publications (1)

Publication Number Publication Date
JP2005532565A true JP2005532565A (ja) 2005-10-27

Family

ID=30011696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004520920A Pending JP2005532565A (ja) 2002-07-10 2002-07-10 ペプチド及びタンパク質の同定方法

Country Status (5)

Country Link
US (1) US20050288865A1 (ja)
EP (1) EP1520243A1 (ja)
JP (1) JP2005532565A (ja)
AU (1) AU2002345287A1 (ja)
WO (1) WO2004008371A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021510829A (ja) * 2018-02-26 2021-04-30 レコ コーポレイションLeco Corporation 質量分析でのライブラリヒットを分類するための方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040175838A1 (en) 2003-02-10 2004-09-09 Jarman Kristin H. Peptide identification
EP1553515A1 (en) * 2004-01-07 2005-07-13 BioVisioN AG Methods and system for the identification and characterization of peptides and their functional relationships by use of measures of correlation
AU2003212580A1 (en) * 2003-03-25 2004-10-18 Institut Suisse De Bioinformatique Method for comparing proteomes
US8712695B2 (en) 2004-10-06 2014-04-29 Dh Technologies Development Pte. Ltd. Method, system, and computer program product for scoring theoretical peptides
GB0517349D0 (en) * 2005-08-24 2005-10-05 Isis Innovation Biomolecular structure determination
US20100280759A1 (en) * 2008-05-30 2010-11-04 Cell Biosciences Mass spectrometer output analysis tool for identification of proteins
DE102011014805A1 (de) * 2011-03-18 2012-09-20 Friedrich-Schiller-Universität Jena Verfahren zur Identifizierung insbesondere unbekannter Substanzen durch Massenspektrometrie
WO2013097058A1 (zh) * 2011-12-31 2013-07-04 深圳华大基因研究院 一种蛋白质组的鉴定方法
WO2014116711A1 (en) * 2013-01-22 2014-07-31 The University Of Chicago Methods and apparatuses involving mass spectrometry to identify proteins in a sample
US9625470B2 (en) * 2013-05-07 2017-04-18 Wisconsin Alumni Research Foundation Identification of related peptides for mass spectrometry processing
CN105528675B (zh) * 2015-12-04 2016-11-16 合肥工业大学 一种基于蚁群算法的生产配送调度方法
WO2019079492A1 (en) * 2017-10-18 2019-04-25 The Regents Of The University Of California SOURCE IDENTIFICATION FOR MOLECULES UNKNOWN BY MASS SPECTRUM CORRESPONDENCE
GB2577150B (en) * 2018-06-06 2022-11-23 Bruker Daltonics Gmbh & Co Kg Targeted protein characterization by mass spectrometry
WO2020106218A1 (en) * 2018-11-23 2020-05-28 Agency For Science, Technology And Research Method for identifying an unknown biological sample from multiple attributes
CN117095743B (zh) * 2023-10-17 2024-01-05 山东鲁润阿胶药业有限公司 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU4228499A (en) * 1998-06-03 1999-12-20 Millennium Pharmaceuticals, Inc. Protein sequencing using tandem mass spectroscopy
US20020087275A1 (en) * 2000-07-31 2002-07-04 Junhyong Kim Visualization and manipulation of biomolecular relationships using graph operators
WO2002021139A2 (en) * 2000-09-08 2002-03-14 Oxford Glycosciences (Uk) Ltd. Automated identification of peptides

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021510829A (ja) * 2018-02-26 2021-04-30 レコ コーポレイションLeco Corporation 質量分析でのライブラリヒットを分類するための方法
JP7108697B2 (ja) 2018-02-26 2022-07-28 レコ コーポレイション 候補分析種を順位づけるための方法
JP2022169508A (ja) * 2018-02-26 2022-11-09 レコ コーポレイション 候補分析種を順位づけるための方法
US11994501B2 (en) 2018-02-26 2024-05-28 Leco Corporation Method for ranking library hits in mass spectrometry

Also Published As

Publication number Publication date
US20050288865A1 (en) 2005-12-29
EP1520243A1 (en) 2005-04-06
AU2002345287A1 (en) 2004-02-02
WO2004008371A1 (en) 2004-01-22

Similar Documents

Publication Publication Date Title
US20050288865A1 (en) Peptide and protein identification method
US11646185B2 (en) System and method of data-dependent acquisition by mass spectrometry
Nesvizhskii Protein identification by tandem mass spectrometry and sequence database searching
Henzel et al. Protein identification: the origins of peptide mass fingerprinting
Blueggel et al. Bioinformatics in proteomics
Xu et al. MassMatrix: a database search program for rapid characterization of proteins and peptides from tandem mass spectrometry data
Hughes et al. De novo sequencing methods in proteomics
Krug et al. Mass spectrometry at the interface of proteomics and genomics
Van Riper et al. Mass spectrometry-based proteomics: basic principles and emerging technologies and directions
Liska et al. Combining mass spectrometry with database interrogation strategies in proteomics
US20050221500A1 (en) Protein identification from protein product ion spectra
Ma Challenges in computational analysis of mass spectrometry data for proteomics
US20060003460A1 (en) Method for comparing proteomes
JP5776443B2 (ja) 質量分析を用いた修飾タンパク質同定方法及び同定装置
WO2004083233A2 (en) Peptide identification
US20080275651A1 (en) Methods for inferring the presence of a protein in a sample
Hubbard Computational approaches to peptide identification via tandem MS
Bafna et al. Mass spectrometry and computational proteomics
US7603240B2 (en) Peptide identification
Hernandez et al. Protein identification in proteomics
US7765068B2 (en) Identification and characterization of protein fragments
Wu et al. Peptide identification via tandem mass spectrometry
WO2003087805A2 (en) Method for efficiently computing the mass of modified peptides for mass spectrometry data-based identification
Gutenbrunner Mass spectrometry-based computational identification of ancient protein sequences to unravel evolutionary history
Grimaud Algorithms and workflow for the in-depth characterization of the PTM landscape and PTM crosstalk

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080707

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081002

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081009

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090306