JP2019505780A - 質量分析法に基づく生体高分子の構造決定方法 - Google Patents
質量分析法に基づく生体高分子の構造決定方法 Download PDFInfo
- Publication number
- JP2019505780A JP2019505780A JP2018534136A JP2018534136A JP2019505780A JP 2019505780 A JP2019505780 A JP 2019505780A JP 2018534136 A JP2018534136 A JP 2018534136A JP 2018534136 A JP2018534136 A JP 2018534136A JP 2019505780 A JP2019505780 A JP 2019505780A
- Authority
- JP
- Japan
- Prior art keywords
- mass
- spectrum
- fragment
- observed
- theoretical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6872—Methods for sequencing involving mass spectrometry
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
- G01N33/6818—Sequencing of polypeptides
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
- G01N33/6848—Methods of protein analysis involving mass spectrometry
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/0027—Methods for using particle spectrometers
- H01J49/0036—Step by step routines describing the handling of the data generated during a measurement
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Immunology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Hematology (AREA)
- Urology & Nephrology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Analytical Chemistry (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Medicinal Chemistry (AREA)
- Food Science & Technology (AREA)
- Pathology (AREA)
- Cell Biology (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
Abstract
本発明は、質量分析法を用いて試料におけるタンパク質のような生体高分子の構造を決定するための方法及び手段を提供する。より具体的には、該方法は、試料の観測された質量スペクトルを、理論的なイオン質量を含む理論的な断片イオンのスペクトルと比較することによって、試料における生物の生体高分子の存在を確認することができる。【選択図】なし
Description
本発明は、質量分析法を用いて試料におけるタンパク質のような生体高分子の構造を決定するための方法及び手段を提供する。
膨大な数のスペクトルを得られるようになり(非特許文献1)、自動化された方法で得られたスペクトルの妥当な部分を同定することが可能になると(非特許文献2)、大規模なプロテオミクスが大きな注目を集めた。それでもなお、今日に至るまで、得られたスペクトルの33〜50%が依然として未同定のままである。これまでの基本的にすべてのプロテオミクス研究は、まずはタンパク質を、より均質で扱いやすい化学的特性を有する短いペプチドに酵素的に消化することによってペプチドレベルで行われてきた。次に、それらは(通常、物理的/化学的にいくつかの形態に分離された後に)スペクトルを取得できる質量分析計に導入される。続いて、ペプチドスペクトルのマッチ(PSMs)を行う作業が、3種類の同定アルゴリズム:(1)データベース検索ツールが観測されたスペクトルを、標的生物のプロテオームのコンピュータ内での消化に基づいて予測されたスペクトルと比較する、(2)スペクトルの直接解釈によってペプチドの同定を試みて、続いて予測されたペプチドのデータベースと比較するタグベースのde novo技術、及び(3)経験的に導かれた参照スペクトルのライブラリ(通常、スペクトルライブラリといわれる)に対して、クエリのスペクトルを直接比較することでペプチドを同定するスペクトルライブラリの使用、のうちの1つによってなされる。
これらの方法すべて(スペクトルライブラリを含む)は、通常プリカーサー質量といわれる(タンデム質量分析法での断片化前の)クエリのペプチドの総質量の値に過度に依存している。これは、全体の質量によって、アルゴリズムが可能性のある候補ペプチドの大部分を除外することができるからである。タンパク質ごとに相対的に制限された個数のペプチドが生じるように十分に特異性を有する酵素の使用によって、候補ペプチドのリスト自体が最小に維持される。通常、使用者は、タンパク質が(in vivoで)受ける又は(in vitroで)ペプチド自体になされる可能性のある一連の翻訳後修飾を無視するか、あるいは厳しく限定する。プロテオミクスに対するすべてのペプチドを中心とする方法に関する共通のテーマは、(1)標的生物のプロテオーム(配列)を知り、(2)高度に特異的な酵素消化工程に依存し、(3)観測された断片のピークを生じたプリカーサー質量によって候補ペプチドを検索する必要がある。さらに、これらの技術のすべてが、観測されたペプチドのスペクトルが予測された(コンピュータで生成された)ペプチドのスペクトルにマッチすると仮定する。
プロテオミクスに基づく質量分析法の代替となる方法は、消化ステップを避けて、質量分析計においてタンパク質全体の直接的な断片化によってタンパク質の同定を試みることである(非特許文献3)。これは、原理上は、いわゆるプロテオフォーム(タンパク質に共起する翻訳後修飾(PTMs)の全体の組み合わせ−本質的にその全体的な状態)の特徴づけの観点でかなり大きな利点となるが、技術のスループットにおいてコストが極端に制約されるとともに、得られるスペクトルの複雑さがかなり増大する。これは、ボトムアップの領域でハイスループットへの何らかの取り組みに関する公表された研究が相対的に少ないことから明らかなように、当該方法がいまだに初期段階であるためである。それでもやはり、タンパク質全体から得られるスペクトル(特にデコンボリューションと呼ばれる前処理段階の後)を、その想定される源にマッチさせるために、コンピュータ技術が開発されてきた(例えば、非特許文献4参照)。これらは、個々のペプチドとマッチとは区別されて“PRSMs”といわれる。ここで再び、アルゴリズムは、典型的にはプリカーサーの全体の質量に依存しており、それらはすべて、観測されたタンパク質のスペクトルと予測された(コンピュータで生成された)タンパク質のスペクトルとの間で比較がなされるという考えを前提としている。
いくつかの最適化方法が本技術分野で説明されており、例えば、プリカーサー質量のフィルタリング(非特許文献5)の適用、及び観測されたペプチド断片をその後B−及びY−イオンを合わせた理論的なスペクトルにマッチさせることである。他の例としては、MASCOT、SEQUEST、X!TANDEM、SPECTRUM MILL、Andromeda、MS Amananda及びCRUXが挙げられる。さらに、データベース検索を伴う比較における解析の実行時間を改善するために、観測された断片及び次のマッチングのクラスタリングが行われる(非特許文献6)。代わりに、観測され、同定されたスペクトルと同定されなかったスペクトルとの間でスペクトルの類似性に関する検索が行われ(非特許文献7)、その主要部は、スペクトルデータの数学的な畳み込みに依存する。しかし、これらの方法それぞれは、本技術分野における1つ又は複数の課題に対処できない。核酸及び多糖類のような他の生体高分子の構造決定に同様の課題が存在する。
本技術分野では、プロテオミクス、ゲノミクス、トランスクリプトミクス、及びグリコミクスの方法を改良することが必要とされている。
Michalski,A.et al.,2011年,Mol.Cell.Proteomics MCP 10,M111.011015
Eng et al.,1994年,J.Am.Soc.Mass Spectrom.,5,976−989
Tran,J.C.et al.,2011年,Nature,480,254−258
Cannon,J.et al.,2010年,J.Proteome Res.,9,3886−3890
Geer,L.Y.et al.,2004年,J.Proteome Res.3(5),958−964
Frank,A.M. et al.,2008年,J.Proteome Res.7(1),113−122
Wilhelm,T.et al.2014年,J.Proteome Res.13(9),4002−4011
本明細書で提供される方法は、先行技術の方法の1つ以上の欠点に対処する。
発明者は、観測された質量スペクトルにマッチする理論的な断片イオンのスペクトルを使って正確な質量計測機器を利用する方法を見出した。タンパク質に適用した場合、PRSM形式の予測されたスペクトルがペプチド規模のスペクトルにマッチされ得る。生体高分子は、それらを生じさせた消化に関してまったく制限を受けなくてすむ。タンパク質に関して、本方法の重要な利点は、ペプチドがトリプシン性でなくてもよく、それらが内因性であってもよく、それらが明示しているPTM、使用される断片化の機序又はスペクトルの純度においても制限されないことである。本明細書で提供される方法は、完全なプロテオームの無作為な部分配列によって生じた一連のピークをすばやく認識できる能力に基づく。これは、現代の質量分析計の精度がもたらす高い特異性及び感度によってなされる。特定の実施の形態では、速さは、かなり正確なスペクトルの畳み込みの適用に続く単一パスクラスタリング技術から得られる。結果は、特定の生体高分子のある領域に対する本来の、未加工の精査からのピークの割り当てである(いわゆるホットスポット)。割り当ては、ポアソン分布に従う畳み込みスコアの分布としての関連するp値を伴って報告され得る。興味深いことに、この方法は、糖又はヌクレオチドの配列のような他の生体高分子にも同じように適用可能である。いくつかの実施の形態では、本明細書で提供される方法において求められる入力の例は、(a)分析される未処理のスペクトル、すなわち1回以上の質量分析実験に起因する観測された質量スペクトル、(b)探したい生物学的配列、例えば標的生物のプロテオーム/ゲノム/トランスクリプトーム又はグリコームを含むFASTAファイル、及び(c)ステップ(a)の観測された質量スペクトルを得るために用いられた質量分析計の精度に相当する使用者が設定した閾値(又はクラスタリングパラメータ)のみである。
より具体的には、本発明は、試料中の生物の生体高分子の存在を決定するためのコンピュータで実施される方法を提供する。本発明の方法は、試料の観測された質量スペクトルを、対象となる生体高分子の理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルと比較するステップを含む。
本発明の方法は、タンパク質、核酸、及び多糖類等の異なる種類の生体高分子に適用されてもよい。
特定の実施の形態では、生体高分子はタンパク質である。
本発明の方法は、異なる種類の質量分析技術に適用可能で、本明細書に開示される実施の形態は、概念の証明のために提供される。さらにまた、当該方法は、本技術分野で公知の他の分離技術(例えば、クロマトグラフィー、モビリティ)及びデータツール(例えば、分析、解釈、表現、特徴づけ)と組み合わされてもよい。
いくつかの実施の形態では、方法は、試料の質量スペクトルを得ることで一連のクエリピークを取得するステップと、すべてのクエリピークのm/z値(すなわち質量−電荷の比)を、(対象となる生物に関する)高分子の理論的な断片イオンの質量から差し引くステップと、得られた差をクラスタリング及びスコアリングすることで、特定の生体高分子の存在の尤度を示すスコアを取得するステップと、当該スコアに基づいて、スペクトルを特定の生体高分子に割り当てることで、上記試料中に当該生体高分子が存在することを特定するステップと、を含む。
特定の実施の形態では、生体高分子はタンパク質であって、方法は、
試料の観測された質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのm/z値を、標的のプロテオームのタンパク質の配列に関する理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる上記生物の上記標的のプロテオームの理論的な断片イオンの質量から差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで上記試料における特定のタンパク質の存在の尤度を示すスコアを取得するステップと、
当該スコアに基づいて、観測されたスペクトルを上記プロテオームのタンパク質に割り当てることで、上記試料中に上記タンパク質が存在することを特定するステップと、
を含む。
試料の観測された質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのm/z値を、標的のプロテオームのタンパク質の配列に関する理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる上記生物の上記標的のプロテオームの理論的な断片イオンの質量から差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで上記試料における特定のタンパク質の存在の尤度を示すスコアを取得するステップと、
当該スコアに基づいて、観測されたスペクトルを上記プロテオームのタンパク質に割り当てることで、上記試料中に上記タンパク質が存在することを特定するステップと、
を含む。
特定の実施の形態では、観測された質量スペクトルは、タンデム質量分析によって得られる。
特定の実施の形態では、試料のタンデム質量スペクトルを得ることで一連のクエリピークを取得するステップと、すべてのクエリピークのm/z値(すなわち質量−電荷の比)を、(対象となる生物に関する)高分子の理論的な断片イオンの質量から差し引くステップと、得られた差をクラスタリング及びスコアリングすることで特定の生体高分子の存在の尤度を示すスコアを取得するステップと、当該スコアに基づいて、スペクトルを特定の生体高分子に割り当てることで、上記試料中に該生体高分子が存在することを特定するステップと、を含む。
特定の実施の形態では、生体高分子はタンパク質であって、方法は、
試料のタンデム質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのm/z値を、標的のプロテオームのタンパク質の配列に関する理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる上記生物の標的のプロテオームの理論的な断片イオンの質量から差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで上記試料における特定のタンパク質の存在の尤度を示すスコアを取得するステップと、
当該スコアに基づいて、スペクトルを上記プロテオームのタンパク質にそれぞれ割り当てることで、上記試料中に上記タンパク質が存在することを特定するステップと、
を含む。
試料のタンデム質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのm/z値を、標的のプロテオームのタンパク質の配列に関する理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる上記生物の標的のプロテオームの理論的な断片イオンの質量から差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで上記試料における特定のタンパク質の存在の尤度を示すスコアを取得するステップと、
当該スコアに基づいて、スペクトルを上記プロテオームのタンパク質にそれぞれ割り当てることで、上記試料中に上記タンパク質が存在することを特定するステップと、
を含む。
いくつかの実施の形態では、理論的な断片イオンのスペクトルは、上記プロテオームにおける配列から生じる、すべての可能性のあるイオンの少なくとも25%、より好ましくはすべての可能性のあるイオンの少なくとも75%を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで得られる。同様の分析が他の生体高分子のため、例えばゲノムの理論的な断片の質量に基づくヌクレオチド配列又はグリコームの理論的な断片の質量に基づく多糖類のためになされる。
いくつかの実施の形態では、方法は、標的のプロテオーム、ゲノム又はグリコームに関する理論的なイオン質量を生成すること、及び質量分析機器のエラー許容範囲に基づいてすべての断片イオンの質量に関する誤差を計算することを含む。
いくつかの実施の形態では、方法は、所定のタンパク質、ヌクレオチド配列又は多糖類に対応する理論的な断片イオンのスペクトルiを選択すること、及びそれを観測された断片イオンのスペクトルjと比較することを含む。
いくつかの実施の形態では、方法は、観測されたすべての断片の質量に関して、観測された断片のスペクトルjから質量の値pyを選択することと、理論的な断片のスペクトルiから質量の値mxを選択することと、
質量のシフトτxy=mx−pyを計算し、かつ、ピークの新たな質量pyがmxと等しくなるようにτxyを加えることで観測された断片イオンを調整することによって、観測されたスペクトルを理論的なスペクトルに割り当てる(align)こと、
を含む。
質量のシフトτxy=mx−pyを計算し、かつ、ピークの新たな質量pyがmxと等しくなるようにτxyを加えることで観測された断片イオンを調整することによって、観測されたスペクトルを理論的なスペクトルに割り当てる(align)こと、
を含む。
いくつかの実施の形態では、方法は、
パターンを検索すること、及び
a)あらかじめ計算されたエラー許容差を与えられた、観測された断片イオンのスペクトルの調整された質量に一致する断片イオンの質量の個数(countxy)を計算するステップと、
b)理論的な断片イオンの質量に一致する観測された断片イオンの質量の強度の合計(sumxy)を計算するステップと、
を含む方法によって上記パターンをスコアリングすること、をさらに含む。
パターンを検索すること、及び
a)あらかじめ計算されたエラー許容差を与えられた、観測された断片イオンのスペクトルの調整された質量に一致する断片イオンの質量の個数(countxy)を計算するステップと、
b)理論的な断片イオンの質量に一致する観測された断片イオンの質量の強度の合計(sumxy)を計算するステップと、
を含む方法によって上記パターンをスコアリングすること、をさらに含む。
いくつかの実施の形態では、方法は、ポアソンモデルによって一致する断片イオンの個数の分布を構築すること、及び観測された断片イオンのスペクトルと理論的なイオンのスペクトル(の一部)との間のマッチの確率に関するp値を、それぞれの位置に関して生成し、任意に、付加的な信頼性のために局所のスコア分布を関連付けることをさらに含み、あらかじめ決定された有意水準よりも小さいp値を有する位置が統計的に有意とみなされる。
いくつかの実施の形態では、方法は、観測された断片のスペクトルに注釈を付けて、どのピークが理論的なイオン断片によってマッチしたかを示すこと、及び配列を改訂して、どの部分配列がマッチする観測されたイオン断片を有していたかを示すことをさらに含む。
いくつかの実施の形態では、理論的な断片イオンの質量は、荷電状態zを推測することで調整され、“理論的な断片イオンの質量”は、“(理論的な断片の質量)/z”に改訂される。
いくつかの実施の形態では、試料は、上記生物由来の複数種の生体高分子を含む。
さらに提供されるのは、本明細書で提供される方法を実行するために構成された手段を備えるデータ処理システムである。
さらに提供されるのは、計算装置又はシステムによって実行された際に、当該計算装置又はシステムに本明細書で提供される方法を実行させる指示を含むコンピュータプログラム製品である。
本発明に係る具体的な実施の形態の図である以下の開示は、実際は単なる例示であって、本技術、それらの適用又は使用を限定することを意図するものではない。
特定の実施の形態に関して本発明が説明されるが、本発明はそれではなく特許請求の範囲によってのみ限定される。
本明細書で使用された場合、“a”、“an”、及び“the”は、本開示にて別段の示唆がない限り、単数及び複数の指示対象を含む。
本明細書で使用された場合、用語“含む(備える)”、“含んでいる(備えている)”及び“から構成される”は、“包含している”、“包含する”又は“含有している”、“含有する”と同義であって、これらは包括的な、又は非限定であって、追加の要素又は方法ステップを排除しない。本明細書に記載された要素又は方法ステップに言及する場合も、用語“含んでいる(備えている)”、“含む(備える)”及び“から構成される”は、本明細書に記載された当該要素又は方法ステップ“からなる”実施の形態を含む。さらに、本明細書で使用される第1の、第2の、第3の、のような用語は、類似する要素を識別するために用いられるのであって、特別に定めない限り、必ずしも連番又は時系列に記載される必要はない。このように使用されたこれら用語は、適切な状況下では取替可能であること、及び本明細書に記載された本発明の実施の形態は、本明細書に記載された又は示されたものとは違う順番で実施可能であることが理解される。
定数、量、一時的な継続時間等の測定可能な数値を意味する場合に本明細書で使用される用語“約”は、変動が開示された発明の実施に適した場合に限り、特定の数値の、及び特定の数値から、+/−10%以下、好ましくは+/−5%以下、より好ましくは+/−1%以下、さらに好ましくは+/−0.1%以下の変動を包含することを意味する。また、修飾語句“約”が係る数値自体は、明確にかつ望ましく開示されたものであることが理解される。
終点による数値範囲の記載は、各範囲に包含されるすべての数字及び分数に加えて、記載された終点も含む。
特段の定義がない限り、技術的な及び科学的な用語等の本発明の開示において用いられるすべての用語は、本発明が属する分野における当業者によって普通に理解される意味を有する。追加的に示唆することによって、本明細書で用いられる用語に係る定義が本発明の内容をより理解するために包含される。本明細書で使用される用語又は定義は、単に本発明の理解を助けるために提供される。
本開示において、本明細書で提供されるアルゴリズムのほとんどはタンパク質配列に関して記載されるが、当該アルゴリズムは、決してタンパク質の配列決定等に限定されないことが理解される。その基本原理は核酸及び多糖類等の他の生体高分子の構造決定に同等に適用可能である。特に、DNA、タンパク質、ペプチド、糖類及び繊維のような炭水化物は、明確に定義されたアルファベットで示される生体高分子化合物である。DNAの場合、これは{AGCT}であって、タンパク質及びペプチドの場合、我々は20文字のアルファベットで表す。質量分析法(MS)のための任意の断片化技術、例えば生体高分子化合物に関して再現可能な断片イオンを生成するタンデムMSによって、本方法に適合するデータが得られ、これによって、観測された断片パターンをテキストパターンに関連付けることが可能になる。本開示は、タンパク質マッピングのためにペプチドに焦点を当てているが、同様の原理が、例えば染色体マッチングのための遺伝子についても成り立つことを当業者は理解する。
本発明者は、ペプチドのスペクトルのマッチングに基づいて試料中の生体高分子を同定することができる新しい手法を見出した。一般に、いくつかの実施の形態では、当該方法は、試料の観測された質量スペクトルを、理論的な断片イオンのスペクトルと比較するステップを含む。
いくつかの実施の形態では、観測されたスペクトルは、標的生物の試料から得られる。また、例えば、以下に詳細が説明されるように、あらかじめ計算された誤差を考慮することによって、正確な質量クラスタリングが当該スペクトルに適用されてもよい。観測されたスペクトルは、1個のペプチドに対応し、あるいはそれらはキメラの、又は混合したもの(すなわち、複数のペプチド由来のイオンを含む)であってもよい。
通常、理論的な断片イオンのスペクトルは、理論的な断片イオンの質量及び理論的な一連の断片イオンを含む。
いくつかの実施の形態では、観測された質量スペクトルは、標的生物に存在する一式の特定の生体高分子における損なわれていないすべての生体高分子の理論的な一連のイオンと比較される。
本方法がタンパク質に適用された場合、好ましくは、当該方法は、観測された質量スペクトルを、標的生物のプロテオームにおける損なわれていないすべてのタンパク質の予測された一連のイオンを含む理論的な断片イオンのスペクトルと比較することを含む。好ましくは、理論的な断片イオンのスペクトルは、比較の前にクラスタリングされ、好適にはクラスタリングは、観測された質量スペクトルが得られる質量分析計の精度を考慮する。このクラスタリングステップは、以下で詳細に説明される。その結果は、タンパク質データベースにおける部分(サブ)配列への、スペクトルからのピークの割り当てである。
タンパク質に適用された場合、本発明に係る方法は、典型的には、観測された質量スペクトル及び参照プロテオームのFASTAファイルだけを要する。特に、任意のプリカーサーの質量、消化プロトコル、断片化技術、予期されるPTM(翻訳後修飾)又は変異に関するあらゆる情報が通常、必要とされない。
当該方法によって、使用者が定義したパラメータに依存しないタンパク質データベースに対する検索に基づくアミノ酸配列の、質量分析法で得られる断片イオンのスペクトルの解釈が可能となる。タンパク質の配列解析に関しては、たったの2個のパラメータが実験の設定から推測され、それは(精査のもとで生物によって定義される)タンパク質データベース及び(質量分析計によって定まる)質量の精度を含む。
したがって、本発明は、試料中の生物の生体高分子の存在を決定するためのコンピュータで実施される方法を提供し、該方法は、試料の観測された質量スペクトルを、理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルと比較するステップを含む。いくつかの実施の形態では、この比較は、理論的な断片イオンのスペクトルを用いた観測された質量スペクトルの畳み込みを含む。好ましくは、生体高分子は、タンパク質、核酸、及び多糖類からなるリストから選択される。生体高分子はタンパク質である場合、当該方法は、試料の得られた質量スペクトルを、標的のプロテオームの予測される一連のa/x、b/y、及び/又はc/zと比較することを含む。
より具体的には、生体高分子はタンパク質又は核酸であって、方法は、
試料のタンデム質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのm/z値を、上記標的のプロテオーム又はゲノムそれぞれのタンパク質又は核酸の配列に係る理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる上記生物の標的のプロテオーム又はゲノムの理論的な断片イオンの質量から差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで上記試料における特定のタンパク質又は遺伝子の存在の尤度を示すスコアを取得するステップと、
当該スコアに基づいて、スペクトルを上記プロテオームのタンパク質、又は上記ゲノムの遺伝子にそれぞれ割り当てることで、上記試料中に上記タンパク質又は遺伝子が存在することを特定するステップと、
を含む。
試料のタンデム質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのm/z値を、上記標的のプロテオーム又はゲノムそれぞれのタンパク質又は核酸の配列に係る理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる上記生物の標的のプロテオーム又はゲノムの理論的な断片イオンの質量から差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで上記試料における特定のタンパク質又は遺伝子の存在の尤度を示すスコアを取得するステップと、
当該スコアに基づいて、スペクトルを上記プロテオームのタンパク質、又は上記ゲノムの遺伝子にそれぞれ割り当てることで、上記試料中に上記タンパク質又は遺伝子が存在することを特定するステップと、
を含む。
生体高分子がタンパク質の場合に関して、原理が図1に示されている。本明細書に開示されるように、タンデム質量分析法は、対象となる明確なイオンが質量分析法の最初のラウンドからのそれらのm/z値に基づいて選択され、いくつかの解離の方法(例えば、(高エネルギーの)不活性ガス、電子移動、電子捕獲等での衝突)によって断片化される特定の方法をいう。続いて、これら断片は、質量分析法の第2のラウンドで個々のm/z比に基づいて分離される。
特に、生体高分子がタンパク質であって、方法は、
試料の観測された質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのm/z値を、上記標的のプロテオームのタンパク質の配列に関する理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる上記生物の標的のプロテオームの理論的な断片イオンの質量から差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで上記試料における特定のタンパク質の存在の尤度を示すスコアを取得するステップと、
当該スコアに基づいて、観測されたスペクトルを上記プロテオームのタンパク質にそれぞれ割り当てることで、上記試料中に上記タンパク質が存在することを特定するステップと、
を含む。
試料の観測された質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのm/z値を、上記標的のプロテオームのタンパク質の配列に関する理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる上記生物の標的のプロテオームの理論的な断片イオンの質量から差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで上記試料における特定のタンパク質の存在の尤度を示すスコアを取得するステップと、
当該スコアに基づいて、観測されたスペクトルを上記プロテオームのタンパク質にそれぞれ割り当てることで、上記試料中に上記タンパク質が存在することを特定するステップと、
を含む。
本明細書に開示されるように、質量分析法は、単純及び複雑な混合物中の分子を同定し、定量するために、イオンの電荷に対する質量の比を測定する分光技術をいう。
特定の実施の形態では、特徴づけの手順は、スペクトルを集める(1)ステップと、スペクトルのマッチングを行って(2)、スペクトルの割り当てを得る(3)ステップと、を含む。スペクトルを集めるステップでは、ペプチドの観測された質量スペクトルが得られる。スペクトルのマッチングに関して、ペプチドデータベース(4)から理論的な断片イオンのスペクトル(5)が取得される。観測された質量スペクトルは、スペクトルのマッチングステップ(2)において理論的な断片イオンのスペクトル(5)と比較される。スペクトルのマッチングステップ(2)の後、観測された質量スペクトルがタンパク質配列に割り当てられる。観測された様々な質量スペクトルに対して上記の手順を繰り返すことで、タンパク質の配列が決定される。
好ましくは、理論的な断片イオンのスペクトルは、特定の質量分析法の断片化においてゲノム、グリコーム又はプロテオームから生成し得るすべての断片イオンを含む。また一方で、理論的な断片イオンのスペクトルは、より多くの理論的な断片イオンも含んでもよい。例えば、タンパク質の研究に本方法が適用された場合、観測された断片イオンのスペクトルを得るのに用いられる断片化技術がb−及びy−イオンのみしか生じさせないことが知られているにも関わらず、理論的な断片イオンのスペクトルは、標的のプロテオームのすべての一連のa−、b−、c−、x−、y−、及びz−を含むことができる。また、理論的な断片イオンのスペクトルは、試料に現れるすべての断片イオンを含まなくてもよい。例えば、試料は、理論的な断片イオンのスペクトルに現れない翻訳後修飾及び/又は変異を含むタンパク質断片を含んでもよい。
結果的に、特定の実施の形態では、上記の理論的な断片イオンのスペクトルは、上記プロテオームにおけるタンパク質配列から生じる、すべての可能性のあるイオンの少なくとも25%、より好ましくはすべての可能性のあるイオンの少なくとも75%を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、又は上記ゲノムにおける遺伝子配列から生じる、すべての可能性のあるイオンの少なくとも25%、より好ましくはすべての可能性のあるイオンの少なくとも75%を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、それぞれ得られる。アミノ酸に関しては、本明細書で使用された場合、“すべての可能性のあるイオン”との記載は、o末端から始まるすべての可能性のあるイオン断片とn末端から始まるすべての可能性のあるイオン断片を含む一連のイオンを意味する。タンパク質に関しては、“すべての可能性のあるイオン”は、すべてのa−及びx−断片、すべてのb−及びy−断片、及び/又はすべてのc−及びz−断片を含む。タンパク質に関して、好ましくは“すべての可能性のあるイオン”に含まれる異なるイオン間の質量の差は整数個のアミノ酸残基の質量に等しい。核酸に関しては、“すべての可能性のあるイオン”は、3’末端から始まる及び5’末端から始まるすべてのイオン断片を含む。核酸に関して、好ましくは“すべての可能性のあるイオン”に含まれる異なるイオン間の質量の差は整数個の核酸残基の質量に等しい。
したがって、本明細書で提供される方法は、試料から取得された質量スペクトルの分析を含む。質量分析法(MS)の方法及びそれらを実行するための手段は、本技術分野で知られており、それは、例えば、衝突活性化解離(CAD)としても知られる衝突誘起解離(CID)等である。当該方法は、ガス相に分子イオンの断片を導入する。分子イオンは加速されて、天然の分子(例えばヘリウム、窒素又はアルゴン)との衝突が可能になる。衝突において、運動エネルギーのいくらかが内部エネルギーに変換され、結果として結合が破損、及び分子イオンのより小さな断片への断片化が起こる。そして、これらの断片イオンは、タンデム質量分析法で分析できる。質量分析計の例としては、トリプル四重極質量分析計、フーリエ変換イオンサイクロトロン共鳴、持続性準共鳴励起衝突誘起解離(SORI−CID)分析計及びは高エネルギー衝突解離(HCD)又は“orbitrap”質量分析計等が挙げられる。本明細書で提供される方法は、試料を質量分析計に供するステップを含んでもよいが、典型的には得られる結果であるスペクトルから始められる。本明細書では、これは“クエリスペクトルS”又は“S”と示される。特定の実施の形態では、当該方法はコンピュータで実施される方法である。
質量分析法による解析が実行される試料は、本明細書で提供される方法にとって決定的ではない。MS分析に供される試料は、固体、液体又は気体であってよい。しかし、分析方法の観点から、試料中の生体高分子は、概して生物(本明細書では標的生物ともいう)に起因する。生体高分子がタンパク質である場合、これによって本明細書で提供される方法において上記生物のプロテオームとの比較が可能となる。
本明細書で提供される方法は、前処理ステップを含んでもよく、該ステップでは、タンパク質、核酸、又は多糖類のいずれかが調べられるかに応じて、理論的な断片イオンのスペクトルが、標的生物のゲノム、プロテオーム、又はグリコームにおけるすべての可能性のあるイオンの少なくとも25%、より好ましくはすべての可能性のあるイオンの少なくとも75%を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで得られる。
特にタンパク質に関しては、本明細書で提供される方法は、前処理ステップを含んでもよく、該ステップでは、対象となる生物のプロテオームにおけるすべてのタンパク質に係る完全なa−、b、又はc−及びそれぞれ一連のx−、y−又はz−が計算される。当該ステップは、所定の生物について1回だけ必要とされ、ほとんどの場合、Genbank(http://www.ncbi.nlm.nih.gov/genbank/)又は他の公的に利用可能な配列データベースから検索された情報に基づいて確かめられる。そして、得られた当該データは、自明な速度向上のために、マルチプロセッサのノードを横断して、又はマルチコアチップセットのコアを横断して分配されてもよい(いわゆる普通の単純な並列化)。
実際は、タンパク質に関して、クエリのスペクトルとの比較を可能にするために、プロテオームは、これらのタンパク質から生じ得るすべての可能性のあるa−、b、又はc−及びそれぞれx−、y−又はz−イオンを推測することで合成スペクトルに変換されてもよい。プロテオームにおける各タンパク質配列は、疑似質量のリストに変換される。この点で、特定の疑似質量はある観測されたイオンの値に対応する必要はないが、その値は、タンパク質配列におけるその固有の位置を示す他の疑似質量に関連する。そうすることで、理論的なスペクトルがコンピュータ内で生成される。これは図2に示されている。
タンパク質に関してさらに具体的には、理論的な断片イオンのスペクトルは、上記プロテオームにおけるタンパク質配列から生じるすべての可能性のあるa−、b、若しくはc−及び/又はx−、y−、若しくはz−を推測することによって得られてもよい。試料中のタンパク質の消化に関するある推測とは無関係なすべての可能性のあるa−、b、又はc−及び/又はx−、y−又はz−の使用によって、タンパク質の可能性のある(未知の)修飾を考慮したより正確な分析が可能になる。
結果として、理論的な断片イオンのスペクトルにおいて、プロテオームの各タンパク質は、M個の理論的なa−、b、又はc−及び/又はx−、y−又はz−に関連する。潜在的に、観測された断片イオンの質量は、タンパク質配列におけるあらゆる部分パターンによって生じ得る。したがって、タンパク質配列におけるM個の可能性のある開始位置が、観測されたペプチドのスペクトルにおける断片イオンを明確にする共起パターンを検索するために考慮されてもよい。観測される断片イオンの質量の起源が未知である場合、スペクトルにおけるすべての断片イオンが特定の開始位置でのタンパク質の可能性のある産物として考慮されてもよい。
本開示に係る方法は、Wilhelmらによる方法(非特許文献7参照)のような先行技術の方法と対比されるべきである。Wilhelmらは、観測された断片のスペクトルにおける修飾を説明することを試みている。そのため、まず、彼らは断片のサブセットを共有するスペクトル群にバイクラスタリング手法を適用する。次に、彼らは断片のピークの電位シフトを探るために2個のバイクラスター群の間での特定の質量の差を検討する。したがって、Wilhelmらは、データにおける構造を探索するが、スペクトルは同定しない。反対に、本方法は、試料の観測された質量スペクトルを理論的な断片イオンのスペクトルと比較することを含む。このため、本方法は、試料中のタンパク質の断片の観測された質量スペクトルと理論的な断片イオンのスペクトル、又は言い換えると仮のタンパク質の断片のスペクトルとの間で、パターン、同等にサブセット、又は同等に質量の差、あるいは同等に情報セット等を検索することを必然的に伴う。どちらの方法も、それらはピークのリスト間で共有されるパターン、すなわちスペクトルの割り当て(alignment)を検討すると言われることを共通点とするが、実行及び適用が異なる。例えば、タンパク質にペプチドを位置づけるために、本方法は、一連のb−及びy−イオンの関係を切ることを含むと言える。Wilhelmらの応用において彼らは観測された断片のデータを堅持するため、このようなことは不可能である。
特定の実施の形態では、当該方法は、a−、b、又はc−イオン結合及びx−、y−又はz−イオン結合それぞれで標的のプロテオームに関する理論的なイオンの質量を生成すること、及び質量分析機器のエラー許容範囲に基づくすべての断片イオンの質量に関する誤差を計算することを含む。実際、得られたスペクトルにおいて理論的な質量がピークと適切に比較され得ることを保証するために、使用される質量分析計の潜在的な許容誤差が考慮され得る。
次のステップでは、クエリのスペクトルSのピークが理論的なa−、b、又はc−及び/又はそれぞれ一連のx−、y−又はz−の値と比較されてもよい。好ましくは、これはスペクトルの畳み込みによって行われる。好適には、使用者は、この数学演算について考慮される質量の正確さを指定できる。すべてのクエリのスペクトルS及びすべての一連のタンパク質a/x、b/y、又はc/zに関して、すべての予測されたa/x、b/y、又はc/zの値から各クエリピークのm/z値が差し引かれる。このステップは、独立して、又はプールされた一連のa/x、b/y、又はc/zをマッチングすることで行われる。また、このステップは自明に並列化される。当該データは、その元の浮動小数点表示内のままであるか、又は概数で表される。ここで、機器の精度を大きく超えて概数化されることに注意しなければならない。特定の実施の形態では、完全な浮動小数点表示からの逸脱を、結果として生じる速度向上が正当化できる場合に限って概数化が続行される。
そして、得られた差が、Martin Ester,Hans−peter Kriegel,Jorg Sander,and Xiaowei XuによってA density−based algorithm for discorvering clusters in large spatial databases with noise、第7回 International conference on Data Warehousing and Knowledge Discovery、1996、pp.226−231に記載されたクラスタ探索のための密度に基づくアルゴリズムに説明されているDBSCANに類似するクラスタリングによって分類されてもよい。続いて、分類されたデルタがクラスタのイニシエータであると仮定されたすべてのデルタとともに詳しく検討される。続くデルタが前のデルタの2εの範囲内の場合(εはppmにおける機器のエラー許容範囲)、続くデルタがクラスタに加えられ、クラスタを構成するデルタの中心的な値によってクラスタのデルタの値が更新される(平均、中央値、モード、最大値等)。このステップも自明ではないが並行化できることに留意されたい。その結果、特定の実施の形態では、当該方法は、好ましくは標的のプロテオーム又はゲノムに関する理論的なイオンの質量を生成すること、及び質量分析機器のエラー許容範囲に基づいてすべての断片イオンの質量に関する誤差を計算することを含む。これによって、エラー許容範囲内で分けられた理論的なイオンの質量にグループ分けできる。
次のステップでは、当該方法は有意性解析及び生体高分子の割り当てを含む。上述の畳み込みステップは、クラスタを生成し、該クラスタは、予測された全体のタンパク質のスペクトルに対して“シフト”した推定上のピークに対応する様々な個数のデルタの値を含む。対応の有意性は、DBSCANアルゴリズムによって得られた計数統計の処理に向いている推測された(改良された)ポアソン分布に基づく正式なp値を用いて決定され得る。通常のポアソン分布には可能性として“ゼロカウント”が必然的にあるという点で分布の改良が自明である一方、本方法では、仮想のタンパク質と観測されたペプチドとの間で常にピークがマッチされるのでゼロカウントはない。このため、“ワンカウント”が誇張される。
続いて、有意であると見なされたデルタのクラスタに加えられたピークは、関連のある生体高分子エントリに割り当てられる。
混ざりあった試料からのスペクトルの場合(意図的ではなく、例えばキメラスペクトル、又は故意には、例えばデータ非依存性解析(DIA)実験的パラダイム)、スペクトルにおけるピークの差のサブセットが異なる生体高分子に割り当てられる。
スペクトルの畳み込み、クラスタリング及び割り当てのステップがどのように実行され得るかについての、実用的な実施の例がタンパク質及びDNAに関して以下に詳述される。
まず、理論的な断片イオンスペクトルiが所定のタンパク質又は染色体に応じて選択され、それが観測された断片イオンのスペクトルjと比較される。
特定の実施の形態では、理論的な断片イオンの質量が電荷状態zを推測することで調整される。すなわち“理論的な断片イオンの質量”が“(理論的な断片イオンの質量)/z”に更新される。ここで、この後者のステップは任意である。
続いて、特定の実施の形態では、当該方法が、観測された断片のスペクトルjから質量の値pyを選択すること、理論的な断片のスペクトルiから質量の値mxを選択すること、質量のシフトτxy=mx−pyを計算することで観測されたスペクトルを理論的なスペクトルに割り当てること、及びピークpyの新たな質量がmxと等しくなるようにτxyを加えることで観測された断片イオンの質量を調整することを含む。これは、観測されたデータと、観測された断片イオンの注釈のために並べられる理論的なデータとの間でのパターンの検索として解釈できる。これに関連して、Wilhelmら(非特許文献7参照)は修飾を明確にするパターンを見つけるために質量の差を探すことを発明者は指摘する。本方法及びWilhelmらの開示の両方が質量のシフトという用語を用いるが、解釈は相違する。用語“質量のシフト”は、質量分析法で役立つものである。
次のステップにおいて当該方法は、パターンを検索すること、及びそれをスコアリングすることを含んでもよい。特定の実施の形態では、これは、
あらかじめ計算されたエラー許容範囲差を与えられた観測された断片イオンのスペクトルの調整された質量に一致する断片イオンの質量の個数を計算すること(countxy)、及び、
理論的な断片イオンの質量に一致する観測された断片イオンの質量の強度の和を計算すること(sumxy)、
を含む。
あらかじめ計算されたエラー許容範囲差を与えられた観測された断片イオンのスペクトルの調整された質量に一致する断片イオンの質量の個数を計算すること(countxy)、及び、
理論的な断片イオンの質量に一致する観測された断片イオンの質量の強度の和を計算すること(sumxy)、
を含む。
これは、参照の生体高分子のセットのすべての可能性のある生体高分子における、すべての可能性のある理論的な位置に関して繰り返される。タンパク質に関して、参照の生体高分子のセットは参照プロテオームに相当する(図3)。同じく、DNAに関して、参照の生体高分子のセットは参照ゲノムに相当する。
そして、好ましくは、一致する断片イオンの個数の分布が、ポアソンモデルによってモデル化されることで、各位置にp値が得られ、当該p値は観測された断片イオンのスペクトルと理論的なイオンのスペクトル(の一部)との間でマッチする可能性を示している。任意に、局所的なスコアが付加的な信頼に関して関連付けられる。特定の実施の形態では、あらかじめ設定された有意性の程度(例えば、0.05の有意性の程度)よりも小さいp値を有する位置が、統計的に有意とみなされる。したがって、どのピークが理論的なイオン断片によってマッチされるかを示すために、観測された断片イオンのスペクトルが注釈を付けられてもよい(タンパク質に関して図4aに示されている)。同様に、配列が更新され、どの部分配列が観測されたイオン断片を有するかが示される(タンパク質に関して図4bに示されている)。
上記の方法は、観測されたイオンのスペクトル及び理論的な断片のスペクトルのすべての組み合わせについて繰り返されてもよい。これによって、試料中の所定の生体高分子、例えば所定のタンパク質の存在が確認できる。特定の実施の形態では、試料は、生物由来の複数種の生体高分子を含む。特定の実施の形態では、1種以上の生体高分子は、タンパク質又は核酸である。特定の実施の形態では、1種以上の生体高分子はタンパク質である。
本明細書で提供される方法の適用は多くある。実際、試料の性質についての制限及び/又は開始物質に関する予備知識の必要性のため、従来の方法ではなし得なかった条件であっても、本明細書で提供される方法の特別な利点によって生体高分子のセットの解析、例えばプロテオームの解析が可能となる。以下は、提供される方法の例示的な応用である。
翻訳後修飾/変異(PTM):PTMを含むタンパク質の問題に対する様々な方法が公表されているが、本方法は、酵素的に制限されたペプチド群についての必要条件を取り除くことで、PTM/変異を許容する検索の適用を広げることができる。さらに、相補的な参照検索に依存しないことで、本方法は多くの“寛容な”検索技術(これは通常、それらの結果の確率的な特徴づけを避けることが求められる)で利用されるような複雑で困難な反復検索の解析を含まないため、当該方法は分かりやすいp値の提供できることを維持する。したがって、特定の実施の形態では、方法は、PTMの影響を受けたであろうタンパク質を特定するために実行される。
内因性ペプチドミクス:本明細書で提供される方法は、解析されているペプチド群を生成した方法に関する予備知識を必要としないため、該方法は、内因性ペプチドミクスに適している。内因性ペプチドは、完全な生物学的活性化の前にin vivoで修飾されることがよくある。本明細書で提供される方法は、これらの修飾に関する予備知識を必要としないため、該方法は、この難しいペプチド群を検出することができるという独特の利点を有する。したがって、特定の実施の形態では、該方法は、内因性ペプチドの特定するために実行される。
キメラスペクトルの検索:キメラスペクトルは、典型的な検索エンジン(通常、上述のように反復のスキームを介してそれらに対処し、正当なp値の計算を困難にする)に対する他の困難な事例を象徴する。本方法は、純粋なスペクトルを要しないため、上記のスペクトルに対してもっともなマッチを与える。したがって、特定の実施の形態では、本方法は、キメラスペクトルを生じる試料に存在する生体高分子を特定するために実行される。
データ非依存性解析:本発明に係る方法及びシステムのための特に競争力のあるマッチは、DIAに基づくスペクトルの解析である。複数のプリカーサーが同時に断片化されるが故にこれらはその複雑さでよく知られている。本方法は、それがプリカーサーに関する知識を要しない(すなわち、Waters(登録商標)データの場合の低エネルギースキャン、又はABSciex(登録商標)データの場合のSWATH(商標)ウインドウについての情報を要しない)ため、この状況でも特によく機能する。
標識なし(断片に基づく)の定量化:DIAに基づく定量的プロテオミクスは、プリカーサーの選択の偶然性が存在しないために好ましく見込まれていた。しかし、得られたスペクトルの特定の難しさがその展開を制限している。プリカーサーの情報の必要性を潜在的に排除する一方で優れた特定可能性を維持することによって、本方法は、現在実現可能なものよりはるかに安価な機器で断片に基づく定量を可能にする。これによって、すべてのイオンの断片化に限定されるが(このため、定量的プロテオミクスに使用される典型的な機器よりもはるかに安価である)、正確な質量が得られる装置で実行される定量的プロテオミクスが可能となる。
スペクトルライブラリマッチング:スペクトルライブラリマッチングにおいて、未知の観測されたペプチドのスペクトルが、ペプチド配列の割り当てが知られた高品質の断片のスペクトルのライブラリに対して検索される。本発明に係る方法では、スペクトルライブラリの検索は非特定のPTMに対して寛容である。
DNA修飾:本発明は他の生物学的配列の検索にも使用され得る。短いDNA配列がタンデム質量分析計を用いて断片化される。得られた断片イオンはペプチドと同様に体系化される。本発明はゲノム配列上に断片イオンをマッピングすることに使用されてもよい。本発明に係る方法は非特定の修飾を扱うことができるため、この技術はDNAのメチル化及び他のエピゲノムのシグナル伝達を理解するのに適している。
断片化原理に関する不変条件:本発明に係る方法は、断片化の種類に対しても変わらず、衝突誘起解離(CID)、電子捕獲解離(ECD)、電子移動解離(ETD)、陰電子移動解離(NETD)、電子分離解離(EDD)、光解離、特には赤外多光子解離(IRMPD)及び黒体赤外放射解離(BIRD)、表面誘起解離(SID)、高エネルギーCトラップ解離(HCD)、チャージリモートフラグメンテーションに関して同等に十分に機能する。これらの適用に関して、連続的な断片イオン間の質量の差はすべてのイオン断片の種類で固定されたままであるため、新たな一連の断片イオンを定義することを要しない。
特定の実施の形態では、本明細書で提供される方法は、コンピュータで実行される方法である。
したがって、いくつかの実施の形態では、本願は試料における生物の生体高分子を決定するためのコンピュータで実行される方法を提供し、該方法は以下のステップを含む。
a.上記生物の生体高分子の、例えばゲノムの、又はプロテオームの生体高分子の配列を含む生体高分子データベースを受け入れ、
b.タンパク質配列に関する理論的な断片イオンのスペクトルを決定し、理論的な断片イオンのスペクトルはM個の理論的な断片イオンの質量を含み、理論的な断片イオンは生体高分子iに対応し、
c.対応する観測された試料のスペクトルを受け入れ、観測されたスペクトルはN個の観測された断片イオンの質量を含み、
d.観測された試料のスペクトルを、クラスタ化されたスペクトルの畳み込みによって理論的な断片イオンのスペクトル又はその一部にマッチングし、
e.それらに基づいて上記試料中に存在するタンパク質を特定する。
a.上記生物の生体高分子の、例えばゲノムの、又はプロテオームの生体高分子の配列を含む生体高分子データベースを受け入れ、
b.タンパク質配列に関する理論的な断片イオンのスペクトルを決定し、理論的な断片イオンのスペクトルはM個の理論的な断片イオンの質量を含み、理論的な断片イオンは生体高分子iに対応し、
c.対応する観測された試料のスペクトルを受け入れ、観測されたスペクトルはN個の観測された断片イオンの質量を含み、
d.観測された試料のスペクトルを、クラスタ化されたスペクトルの畳み込みによって理論的な断片イオンのスペクトル又はその一部にマッチングし、
e.それらに基づいて上記試料中に存在するタンパク質を特定する。
特定の実施の形態では、上記方法は質量分析法のエラー許容範囲を考慮するために設計される。その結果、特定の実施の形態では、コンピュータが実行する方法は、本明細書に記載された方法において後に考慮に入れられるエラー許容範囲を受け入れるステップをさらに含む。
さらに本明細書で提供されるのは、計算装置又はシステムによって実行された際、本明細書で提供される方法のステップを計算装置又はシステムに実行させる指示を記憶するコンピュータ可読媒体である。
本願は、本明細書で提供される方法の実行のために構成された手段を含むデータ処理システムをさらに提供する。
本願は、計算装置又はシステムによって実行された際、本明細書で提供される方法を計算装置又はシステムに実行させる指示を有するコンピュータプログラム製品をさらに提供する。
本願は、計算装置又はシステムによって実行された際、本明細書で提供される方法を計算装置又はシステムに実行させる指示を有するコンピュータプログラムを表現するデータの流れをさらに提供する。
1.CIDスペクトルにおけるタンパク質の特定
図5におけるCIDスペクトルが次の配列を有するタンパク質に対して検索される。
IIDEWRKKTDDLAAELDGAQRDLRNTSTDLFKAKNAQEELAEVVEGLRRENKSLSQEIKDLTDQLGEGGRSVHEMQKIIRRLEIEKEELQHALDEAEAALEAEESKVLRAQVEVSQIRSEIEKRIQEKEEEFENTRKNHARALESMQASLE(配列番号1)
図5におけるCIDスペクトルが次の配列を有するタンパク質に対して検索される。
IIDEWRKKTDDLAAELDGAQRDLRNTSTDLFKAKNAQEELAEVVEGLRRENKSLSQEIKDLTDQLGEGGRSVHEMQKIIRRLEIEKEELQHALDEAEAALEAEESKVLRAQVEVSQIRSEIEKRIQEKEEEFENTRKNHARALESMQASLE(配列番号1)
エラー許容範囲0.05Daでの本発明に係る方法の適用によって、図6a及び6bに示されたように疑似イオンのカウントにマッチするb−イオン(1+)及びy−イオン(1+)が生成する。カウントのスコアがポアソン分布によってモデル化され(図7参照)、p値が各カウントに関して得られる。一連のy−イオン及びb−イオンそれぞれに示されるように8及び9のカウントが統計的に有意で次の注釈を導く。
配列
1.B−イオンの結果:LQHALDEAEAALEAEE[p−val:6.8e−13](配列番号2)
2.Y−イオンの結果:LQHALDEAEAALEAEE[p−val:3.3e−11](配列番号3)
に関する結果がSEQUESTアルゴリズムによってEELQHALDEAEAALEAEESK(配列番号4)として確認される。
配列
1.B−イオンの結果:LQHALDEAEAALEAEE[p−val:6.8e−13](配列番号2)
2.Y−イオンの結果:LQHALDEAEAALEAEE[p−val:3.3e−11](配列番号3)
に関する結果がSEQUESTアルゴリズムによってEELQHALDEAEAALEAEESK(配列番号4)として確認される。
2.例示的な作業の流れ
本明細書で提供される方法が、図1に概略的に示されるようにタンパク質の特徴づけに適用される。特に、特徴づけ手順は、スペクトルの収集のステップ(1)を含む。スペクトルの収集ステップでは、ペプチドの観測された質量スペクトルが得られる。観測された質量スペクトルは、スペクトルのマッチングステップ(2)において理論的な断片イオンのスペクトル(5)と比較される。スペクトルのマッチングステップ(2)の前に、理論的な断片イオンのスペクトル(5)がタンパク質データベース(4)から導かれた。スペクトルのマッチングステップ(2)の後、観測された質量スペクトルがタンパク質の配列に割り当てられる。様々な観測された質量スペクトルに対して上記の手順が繰り返されることで、タンパク質の配列が決定される。特定のタンパク質Iに関する配列の範囲(6)が図の下端に概略的に示されている。
本明細書で提供される方法が、図1に概略的に示されるようにタンパク質の特徴づけに適用される。特に、特徴づけ手順は、スペクトルの収集のステップ(1)を含む。スペクトルの収集ステップでは、ペプチドの観測された質量スペクトルが得られる。観測された質量スペクトルは、スペクトルのマッチングステップ(2)において理論的な断片イオンのスペクトル(5)と比較される。スペクトルのマッチングステップ(2)の前に、理論的な断片イオンのスペクトル(5)がタンパク質データベース(4)から導かれた。スペクトルのマッチングステップ(2)の後、観測された質量スペクトルがタンパク質の配列に割り当てられる。様々な観測された質量スペクトルに対して上記の手順が繰り返されることで、タンパク質の配列が決定される。特定のタンパク質Iに関する配列の範囲(6)が図の下端に概略的に示されている。
(付記)
(付記1)
試料の観測された質量スペクトルを、理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルと比較するステップを含む、前記試料中に生物の、タンパク質又は核酸である生体高分子が存在することを確認するためのコンピュータで実行される方法であって、
前記試料の観測された質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのm/z値を、標的のプロテオームのタンパク質の配列又はゲノムの核酸の配列に係る理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる前記生物の前記標的のプロテオーム又はゲノムの理論的な断片イオンの質量からそれぞれ差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで前記試料における特定のタンパク質又は遺伝子の存在の尤度を示すスコアを取得するステップと、
前記スコアに基づいて、観測された質量スペクトルを前記プロテオームのタンパク質又は前記ゲノムの遺伝子にそれぞれ割り当てることで、前記試料中に前記タンパク質又は遺伝子が存在することを特定するステップと、
を含む、方法。
(付記1)
試料の観測された質量スペクトルを、理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルと比較するステップを含む、前記試料中に生物の、タンパク質又は核酸である生体高分子が存在することを確認するためのコンピュータで実行される方法であって、
前記試料の観測された質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのm/z値を、標的のプロテオームのタンパク質の配列又はゲノムの核酸の配列に係る理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる前記生物の前記標的のプロテオーム又はゲノムの理論的な断片イオンの質量からそれぞれ差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで前記試料における特定のタンパク質又は遺伝子の存在の尤度を示すスコアを取得するステップと、
前記スコアに基づいて、観測された質量スペクトルを前記プロテオームのタンパク質又は前記ゲノムの遺伝子にそれぞれ割り当てることで、前記試料中に前記タンパク質又は遺伝子が存在することを特定するステップと、
を含む、方法。
(付記2)
前記生体高分子は、タンパク質である、付記1に記載の方法。
前記生体高分子は、タンパク質である、付記1に記載の方法。
(付記3)
前記観測された質量スペクトルは、タンデム質量分析法によって得られる、付記1又は2に記載の方法。
前記観測された質量スペクトルは、タンデム質量分析法によって得られる、付記1又は2に記載の方法。
(付記4)
前記理論的な断片イオンのスペクトルは、
前記プロテオームにおけるタンパク質の配列から生じる、すべての可能性のあるイオンの少なくとも25%、より好ましくはすべての可能性のあるイオンの少なくとも75%を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、又は、
前記ゲノムにおける遺伝子配列から生じる、すべての可能性のあるイオンの少なくとも25%、より好ましくはすべての可能性のあるイオンの少なくとも75%を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、
それぞれ得られる、付記1から3のいずれか一つに記載の方法。
前記理論的な断片イオンのスペクトルは、
前記プロテオームにおけるタンパク質の配列から生じる、すべての可能性のあるイオンの少なくとも25%、より好ましくはすべての可能性のあるイオンの少なくとも75%を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、又は、
前記ゲノムにおける遺伝子配列から生じる、すべての可能性のあるイオンの少なくとも25%、より好ましくはすべての可能性のあるイオンの少なくとも75%を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、
それぞれ得られる、付記1から3のいずれか一つに記載の方法。
(付記5)
前記標的のプロテオーム又はゲノムに関して理論的なイオン質量を生成すること、及び質量分析機器のエラー許容範囲に基づいてすべての断片イオンの質量に関する誤差を計算することを含む、付記1から4のいずれか一つに記載の方法。
前記標的のプロテオーム又はゲノムに関して理論的なイオン質量を生成すること、及び質量分析機器のエラー許容範囲に基づいてすべての断片イオンの質量に関する誤差を計算することを含む、付記1から4のいずれか一つに記載の方法。
(付記6)
所定のタンパク質又は染色体に対応する理論的な断片イオンのスペクトルiを選択すること、及びそれを観測された断片イオンのスペクトルjと比較することを含む、付記5に記載の方法。
所定のタンパク質又は染色体に対応する理論的な断片イオンのスペクトルiを選択すること、及びそれを観測された断片イオンのスペクトルjと比較することを含む、付記5に記載の方法。
(付記7)
観測されたすべての断片の質量に関して、観測された断片のスペクトルjから質量の値pyを選択することと、
理論的な断片のスペクトルiから質量の値mxを選択することと、
質量のシフトτxy=mx−pyを計算し、かつ、ピークの新たな質量pyがmxと等しくなるようにtxyを加えることで観測された断片イオンの質量を調整することによって、理論的なスペクトルに観測されたスペクトルを割り当てる(align)ことと、
を含む、付記6に記載の方法。
観測されたすべての断片の質量に関して、観測された断片のスペクトルjから質量の値pyを選択することと、
理論的な断片のスペクトルiから質量の値mxを選択することと、
質量のシフトτxy=mx−pyを計算し、かつ、ピークの新たな質量pyがmxと等しくなるようにtxyを加えることで観測された断片イオンの質量を調整することによって、理論的なスペクトルに観測されたスペクトルを割り当てる(align)ことと、
を含む、付記6に記載の方法。
(付記8)
パターンを検索すること、及び
a)あらかじめ計算されたエラー許容差を付与された、観測された断片イオンのスペクトルの調整された前記質量に一致する断片イオンの質量の個数(countxy)を計算するステップと、
b)理論的な断片イオンの質量に一致する観測された前記断片イオンの質量の強度の合計(sumxy)を計算するステップと、
を含む方法によって前記パターンをスコアリングすること、
をさらに含む、付記7に記載の方法。
パターンを検索すること、及び
a)あらかじめ計算されたエラー許容差を付与された、観測された断片イオンのスペクトルの調整された前記質量に一致する断片イオンの質量の個数(countxy)を計算するステップと、
b)理論的な断片イオンの質量に一致する観測された前記断片イオンの質量の強度の合計(sumxy)を計算するステップと、
を含む方法によって前記パターンをスコアリングすること、
をさらに含む、付記7に記載の方法。
(付記9)
ポアソンモデルによって一致する断片イオンの個数の分布を構築すること、及び観測された断片イオンのスペクトルと理論的なイオンのスペクトル(の一部)との間のマッチの確率に関するp値を、それぞれの位置に関して生成し、任意に、付加的な信頼性のために局所のスコア分布を関連付けることをさらに含み、あらかじめ決定された有意水準よりも小さいp値を有する位置が統計的に有意とみなされる、付記8に記載の方法。
ポアソンモデルによって一致する断片イオンの個数の分布を構築すること、及び観測された断片イオンのスペクトルと理論的なイオンのスペクトル(の一部)との間のマッチの確率に関するp値を、それぞれの位置に関して生成し、任意に、付加的な信頼性のために局所のスコア分布を関連付けることをさらに含み、あらかじめ決定された有意水準よりも小さいp値を有する位置が統計的に有意とみなされる、付記8に記載の方法。
(付記10)
観測された断片のスペクトルに注釈を付けて、どのピークが理論的なイオン断片によってマッチしたかを示すこと、及び配列を改訂して、どの部分配列がマッチする観測されたイオン断片を有していたかを示すことをさらに含む、付記8又は9に記載の方法。
観測された断片のスペクトルに注釈を付けて、どのピークが理論的なイオン断片によってマッチしたかを示すこと、及び配列を改訂して、どの部分配列がマッチする観測されたイオン断片を有していたかを示すことをさらに含む、付記8又は9に記載の方法。
(付記11)
前記理論的な断片イオンの質量は、荷電状態zを推測することで調整され、“理論的な断片イオンの質量”は、“(理論的な断片の質量)/z”に改訂される、付記1から10のいずれか一つに記載の方法。
前記理論的な断片イオンの質量は、荷電状態zを推測することで調整され、“理論的な断片イオンの質量”は、“(理論的な断片の質量)/z”に改訂される、付記1から10のいずれか一つに記載の方法。
(付記12)
前記試料は、前記生物由来の複数種の生体高分子を含む、付記1から11のいずれか一つに記載の方法。
前記試料は、前記生物由来の複数種の生体高分子を含む、付記1から11のいずれか一つに記載の方法。
(付記13)
前記生体高分子は、タンパク質である、付記1から11のいずれか一つに記載の方法。
前記生体高分子は、タンパク質である、付記1から11のいずれか一つに記載の方法。
(付記14)
付記1から13のいずれか一つに記載の方法を実行するために構成された手段を備える、データ処理システム。
付記1から13のいずれか一つに記載の方法を実行するために構成された手段を備える、データ処理システム。
(付記15)
計算装置又はシステムによって実行された際に、前記計算装置又はシステムに付記1から13のいずれか一つに記載の方法を実行させる指示を含む、コンピュータプログラム製品。
計算装置又はシステムによって実行された際に、前記計算装置又はシステムに付記1から13のいずれか一つに記載の方法を実行させる指示を含む、コンピュータプログラム製品。
Claims (15)
- 試料の観測された質量スペクトルを、理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルと比較するステップを含む、前記試料中に生物の、タンパク質又は核酸である生体高分子が存在することを確認するためのコンピュータで実行される方法であって、
前記試料の観測された質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのm/z値を、標的のプロテオームのタンパク質の配列又はゲノムの核酸の配列に係る理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる前記生物の前記標的のプロテオーム又はゲノムの理論的な断片イオンの質量からそれぞれ差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで前記試料における特定のタンパク質又は遺伝子の存在の尤度を示すスコアを取得するステップと、
前記スコアに基づいて、観測された質量スペクトルを前記プロテオームのタンパク質又は前記ゲノムの遺伝子にそれぞれ割り当てることで、前記試料中に前記タンパク質又は遺伝子が存在することを特定するステップと、
を含む、方法。 - 前記生体高分子は、タンパク質である、請求項1に記載の方法。
- 前記観測された質量スペクトルは、タンデム質量分析法によって得られる、請求項1又は2に記載の方法。
- 前記理論的な断片イオンのスペクトルは、
前記プロテオームにおけるタンパク質の配列から生じる、すべての可能性のあるイオンの少なくとも25%、より好ましくはすべての可能性のあるイオンの少なくとも75%を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、又は、
前記ゲノムにおける遺伝子配列から生じる、すべての可能性のあるイオンの少なくとも25%、より好ましくはすべての可能性のあるイオンの少なくとも75%を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、
それぞれ得られる、請求項1から3のいずれか一項に記載の方法。 - 前記標的のプロテオーム又はゲノムに関して理論的なイオン質量を生成すること、及び質量分析機器のエラー許容範囲に基づいてすべての断片イオンの質量に関する誤差を計算することを含む、請求項1から4のいずれか一項に記載の方法。
- 所定のタンパク質又は染色体に対応する理論的な断片イオンのスペクトルiを選択すること、及びそれを観測された断片イオンのスペクトルjと比較することを含む、請求項5に記載の方法。
- 観測されたすべての断片の質量に関して、観測された断片のスペクトルjから質量の値pyを選択することと、
理論的な断片のスペクトルiから質量の値mxを選択することと、
質量のシフトτxy=mx−pyを計算し、かつ、ピークの新たな質量pyがmxと等しくなるようにtxyを加えることで観測された断片イオンの質量を調整することによって、理論的なスペクトルに観測されたスペクトルを割り当てる(align)ことと、
を含む、請求項6に記載の方法。 - パターンを検索すること、及び
a)あらかじめ計算されたエラー許容差を付与された、観測された断片イオンのスペクトルの調整された前記質量に一致する断片イオンの質量の個数(countxy)を計算するステップと、
b)理論的な断片イオンの質量に一致する観測された前記断片イオンの質量の強度の合計(sumxy)を計算するステップと、
を含む方法によって前記パターンをスコアリングすること、
をさらに含む、請求項7に記載の方法。 - ポアソンモデルによって一致する断片イオンの個数の分布を構築すること、及び観測された断片イオンのスペクトルと理論的なイオンのスペクトル(の一部)との間のマッチの確率に関するp値を、それぞれの位置に関して生成し、任意に、付加的な信頼性のために局所のスコア分布を関連付けることをさらに含み、あらかじめ決定された有意水準よりも小さいp値を有する位置が統計的に有意とみなされる、請求項8に記載の方法。
- 観測された断片のスペクトルに注釈を付けて、どのピークが理論的なイオン断片によってマッチしたかを示すこと、及び配列を改訂して、どの部分配列がマッチする観測されたイオン断片を有していたかを示すことをさらに含む、請求項8又は9に記載の方法。
- 前記理論的な断片イオンの質量は、荷電状態zを推測することで調整され、“理論的な断片イオンの質量”は、“(理論的な断片の質量)/z”に改訂される、請求項1から10のいずれか一項に記載の方法。
- 前記試料は、前記生物由来の複数種の生体高分子を含む、請求項1から11のいずれか一項に記載の方法。
- 前記生体高分子は、タンパク質である、請求項1から11のいずれか一項に記載の方法。
- 請求項1から13のいずれか一項に記載の方法を実行するために構成された手段を備える、データ処理システム。
- 計算装置又はシステムによって実行された際に、前記計算装置又はシステムに請求項1から13のいずれか一項に記載の方法を実行させる指示を含む、コンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15203056 | 2015-12-30 | ||
EP15203056.5 | 2015-12-30 | ||
PCT/EP2016/082907 WO2017114943A1 (en) | 2015-12-30 | 2016-12-30 | Methods for mass spectrometry-based structure determination of biomacromolecules |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019505780A true JP2019505780A (ja) | 2019-02-28 |
Family
ID=55274950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018534136A Pending JP2019505780A (ja) | 2015-12-30 | 2016-12-30 | 質量分析法に基づく生体高分子の構造決定方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190018928A1 (ja) |
JP (1) | JP2019505780A (ja) |
WO (1) | WO2017114943A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10878944B2 (en) * | 2018-03-23 | 2020-12-29 | Thermo Finnigan Llc | Methods for combining predicted and observed mass spectral fragmentation data |
EP3598135A1 (en) * | 2018-07-20 | 2020-01-22 | Univerzita Palackého v Olomouci | Method of identification of entities from mass spectra |
CN109949868B (zh) * | 2019-03-01 | 2020-10-16 | 深圳乐土生物科技有限公司 | 基于耐受性分析的基因等级排序方法和装置 |
WO2024000077A1 (en) * | 2022-06-30 | 2024-01-04 | Yyz Pharmatech Inc. | Systems and methods for identifying peptides |
CN116660439B (zh) * | 2023-07-28 | 2023-10-20 | 常州合全药业有限公司 | 一种磷酰二胺吗啉代寡核苷酸序列的高分辨质谱检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040041089A1 (en) * | 2002-08-30 | 2004-03-04 | Weimin Zhu | Amino acid sequence pattern matching |
WO2004061407A2 (en) * | 2003-01-03 | 2004-07-22 | Caprion Pharmaceuticals, Inc. | Glycopeptide identification and analysis |
WO2005106453A2 (en) * | 2004-04-30 | 2005-11-10 | Micromass Uk Limited | Mass spectrometer |
JP2008281411A (ja) * | 2007-05-10 | 2008-11-20 | Jeol Ltd | タンパク質データベース検索法および記録媒体 |
US20110015863A1 (en) * | 2006-03-23 | 2011-01-20 | The Regents Of The University Of California | Method for identification and sequencing of proteins |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9710582D0 (en) * | 1997-05-22 | 1997-07-16 | Oxford Glycosciences Uk Ltd | A method for de novo peptide sequence determination |
US20020120404A1 (en) * | 2000-12-21 | 2002-08-29 | Parker Kenneth C. | Methods and apparatus for mass fingerprinting of biomolecules |
US7199363B2 (en) * | 2003-10-14 | 2007-04-03 | Micromass Uk Limited | Mass spectrometer |
JP2006294014A (ja) * | 2005-03-16 | 2006-10-26 | Kumamoto Technology & Industry Foundation | 解析プログラム、プロテインチップ、プロテインチップの製造方法、および、抗体カクテル |
US20070282537A1 (en) * | 2006-05-26 | 2007-12-06 | The Ohio State University | Rapid characterization of post-translationally modified proteins from tandem mass spectra |
KR100698466B1 (ko) * | 2006-11-30 | 2007-03-21 | 한국정보통신대학교 산학협력단 | 질량 변화량 목록을 이용한 상향식 단백질 변형 탐색 방법및 프로그램 저장 매체 |
EP2081025B1 (en) * | 2008-01-15 | 2010-03-10 | Universiteit Utrecht Holding B.V. | Method for determining the amino acid sequence of peptides |
US20130144585A1 (en) * | 2011-12-06 | 2013-06-06 | Korea Advanced Institute Of Science And Technology | Apparatus and method for idendificaton of protein modification |
WO2014135866A1 (en) * | 2013-03-06 | 2014-09-12 | Micromass Uk Limited | Improved lock component corrections |
JP6833731B2 (ja) * | 2015-06-18 | 2021-02-24 | ディーエイチ テクノロジーズ デベロップメント プライベート リミテッド | 確率に基づくライブラリ検索アルゴリズム(prols) |
US10317412B1 (en) * | 2017-12-27 | 2019-06-11 | Shimadzu Corporation | Method and device for analyzing protein or peptide |
-
2016
- 2016-12-30 WO PCT/EP2016/082907 patent/WO2017114943A1/en active Application Filing
- 2016-12-30 US US16/066,846 patent/US20190018928A1/en not_active Abandoned
- 2016-12-30 JP JP2018534136A patent/JP2019505780A/ja active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004021242A2 (en) * | 2002-08-30 | 2004-03-11 | Syn.X Pharma, Inc. | Amino acid sequence pattern matching |
EP1573637A2 (en) * | 2002-08-30 | 2005-09-14 | Syn.X Pharma, Inc. | Amino acid sequence pattern matching |
US20040041089A1 (en) * | 2002-08-30 | 2004-03-04 | Weimin Zhu | Amino acid sequence pattern matching |
JP2006510874A (ja) * | 2002-08-30 | 2006-03-30 | シン.クス ファーマ、インコーポレイテッド | アミノ酸配列パターン・マッチング |
JP2006518448A (ja) * | 2003-01-03 | 2006-08-10 | カプリオン ファーマシューティカルズ インコーポレーティッド | 糖ペプチドの同定および解析 |
WO2004061407A2 (en) * | 2003-01-03 | 2004-07-22 | Caprion Pharmaceuticals, Inc. | Glycopeptide identification and analysis |
US20040248317A1 (en) * | 2003-01-03 | 2004-12-09 | Sajani Swamy | Glycopeptide identification and analysis |
EP1588144A2 (en) * | 2003-01-03 | 2005-10-26 | Caprion Pharmaceuticals, Inc. | Glycopeptide identification and analysis |
WO2005106453A2 (en) * | 2004-04-30 | 2005-11-10 | Micromass Uk Limited | Mass spectrometer |
EP1745500A2 (en) * | 2004-04-30 | 2007-01-24 | Micromass UK Limited | Mass spectrometer |
JP2007535673A (ja) * | 2004-04-30 | 2007-12-06 | マイクロマス ユーケー リミテッド | 質量分析計 |
US20080076186A1 (en) * | 2004-04-30 | 2008-03-27 | Micromass Uk Limited | Mass Spectrometer |
US20110015863A1 (en) * | 2006-03-23 | 2011-01-20 | The Regents Of The University Of California | Method for identification and sequencing of proteins |
JP2008281411A (ja) * | 2007-05-10 | 2008-11-20 | Jeol Ltd | タンパク質データベース検索法および記録媒体 |
Non-Patent Citations (1)
Title |
---|
FRANK, A M , ET AL.: "Clustering Millions of Tandem Mass Spectra", JOURNAL OF PROTEOME RESEARCH, vol. 7, no. 1, JPN6020041383, 8 December 2007 (2007-12-08), pages 113 - 122, XP055474463, ISSN: 0004377479, DOI: 10.1021/pr070361e * |
Also Published As
Publication number | Publication date |
---|---|
US20190018928A1 (en) | 2019-01-17 |
WO2017114943A1 (en) | 2017-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Krasny et al. | Data-independent acquisition mass spectrometry (DIA-MS) for proteomic applications in oncology | |
Teo et al. | mapDIA: Preprocessing and statistical analysis of quantitative proteomics data from data independent acquisition mass spectrometry | |
Hu et al. | Technical advances in proteomics: new developments in data-independent acquisition | |
Mann et al. | The coming age of complete, accurate, and ubiquitous proteomes | |
Sandin et al. | Data processing methods and quality control strategies for label-free LC–MS protein quantification | |
Sadygov et al. | Large-scale database searching using tandem mass spectra: looking up the answer in the back of the book | |
Lam | Building and searching tandem mass spectral libraries for peptide identification | |
Lange et al. | Selected reaction monitoring for quantitative proteomics: a tutorial | |
Goh et al. | How advancement in biological network analysis methods empowers proteomics | |
Schmidt et al. | Directed mass spectrometry: towards hypothesis-driven proteomics | |
JP2019505780A (ja) | 質量分析法に基づく生体高分子の構造決定方法 | |
Becker et al. | Recent developments in quantitative proteomics | |
Wang et al. | Mass spectrometry-based protein identification by integrating de novo sequencing with database searching | |
Ma et al. | Hunting for unexpected post-translational modifications by spectral library searching with tier-wise scoring | |
US10878944B2 (en) | Methods for combining predicted and observed mass spectral fragmentation data | |
Fenyö et al. | Mass spectrometric protein identification using the global proteome machine | |
Yu et al. | PIPI: PTM-invariant peptide identification using coding method | |
Tariq et al. | Methods for proteogenomics data analysis, challenges, and scalability bottlenecks: a survey | |
Vitorino et al. | De novo sequencing of proteins by mass spectrometry | |
Shen et al. | Spectral library search improves assignment of TMT labeled MS/MS spectra | |
Goh et al. | Computational proteomics: designing a comprehensive analytical strategy | |
Yu et al. | One-stop analysis of DIA proteomics data using MSFragger-DIA and FragPipe computational platform | |
Jian et al. | A novel algorithm for validating peptide identification from a shotgun proteomics search engine | |
Boekweg et al. | Challenges and opportunities for single-cell computational proteomics | |
Yates III | Mass spectrometry as an emerging tool for systems biology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210608 |