JP2019505780A

JP2019505780A - 質量分析法に基づく生体高分子の構造決定方法

Info

Publication number: JP2019505780A
Application number: JP2018534136A
Authority: JP
Inventors: ファルケンボルフ、ディルク; フーイベルフス、イェフ; ラウケンス、クリス
Original assignee: フィトエヌフェー; ユニバーシテイトアントワープ
Priority date: 2015-12-30
Filing date: 2016-12-30
Publication date: 2019-02-28
Also published as: US20190018928A1; WO2017114943A1

Abstract

本発明は、質量分析法を用いて試料におけるタンパク質のような生体高分子の構造を決定するための方法及び手段を提供する。より具体的には、該方法は、試料の観測された質量スペクトルを、理論的なイオン質量を含む理論的な断片イオンのスペクトルと比較することによって、試料における生物の生体高分子の存在を確認することができる。【選択図】なし

Description

本発明は、質量分析法を用いて試料におけるタンパク質のような生体高分子の構造を決定するための方法及び手段を提供する。

膨大な数のスペクトルを得られるようになり（非特許文献１）、自動化された方法で得られたスペクトルの妥当な部分を同定することが可能になると(非特許文献２)、大規模なプロテオミクスが大きな注目を集めた。それでもなお、今日に至るまで、得られたスペクトルの３３〜５０％が依然として未同定のままである。これまでの基本的にすべてのプロテオミクス研究は、まずはタンパク質を、より均質で扱いやすい化学的特性を有する短いペプチドに酵素的に消化することによってペプチドレベルで行われてきた。次に、それらは（通常、物理的／化学的にいくつかの形態に分離された後に）スペクトルを取得できる質量分析計に導入される。続いて、ペプチドスペクトルのマッチ（ＰＳＭｓ）を行う作業が、３種類の同定アルゴリズム：（１）データベース検索ツールが観測されたスペクトルを、標的生物のプロテオームのコンピュータ内での消化に基づいて予測されたスペクトルと比較する、（２）スペクトルの直接解釈によってペプチドの同定を試みて、続いて予測されたペプチドのデータベースと比較するタグベースのｄｅｎｏｖｏ技術、及び（３）経験的に導かれた参照スペクトルのライブラリ（通常、スペクトルライブラリといわれる）に対して、クエリのスペクトルを直接比較することでペプチドを同定するスペクトルライブラリの使用、のうちの１つによってなされる。

これらの方法すべて（スペクトルライブラリを含む）は、通常プリカーサー質量といわれる（タンデム質量分析法での断片化前の）クエリのペプチドの総質量の値に過度に依存している。これは、全体の質量によって、アルゴリズムが可能性のある候補ペプチドの大部分を除外することができるからである。タンパク質ごとに相対的に制限された個数のペプチドが生じるように十分に特異性を有する酵素の使用によって、候補ペプチドのリスト自体が最小に維持される。通常、使用者は、タンパク質が（ｉｎｖｉｖｏで）受ける又は（ｉｎｖｉｔｒｏで）ペプチド自体になされる可能性のある一連の翻訳後修飾を無視するか、あるいは厳しく限定する。プロテオミクスに対するすべてのペプチドを中心とする方法に関する共通のテーマは、（１）標的生物のプロテオーム（配列）を知り、（２）高度に特異的な酵素消化工程に依存し、（３）観測された断片のピークを生じたプリカーサー質量によって候補ペプチドを検索する必要がある。さらに、これらの技術のすべてが、観測されたペプチドのスペクトルが予測された（コンピュータで生成された）ペプチドのスペクトルにマッチすると仮定する。

プロテオミクスに基づく質量分析法の代替となる方法は、消化ステップを避けて、質量分析計においてタンパク質全体の直接的な断片化によってタンパク質の同定を試みることである(非特許文献３）。これは、原理上は、いわゆるプロテオフォーム（タンパク質に共起する翻訳後修飾（ＰＴＭｓ）の全体の組み合わせ−本質的にその全体的な状態）の特徴づけの観点でかなり大きな利点となるが、技術のスループットにおいてコストが極端に制約されるとともに、得られるスペクトルの複雑さがかなり増大する。これは、ボトムアップの領域でハイスループットへの何らかの取り組みに関する公表された研究が相対的に少ないことから明らかなように、当該方法がいまだに初期段階であるためである。それでもやはり、タンパク質全体から得られるスペクトル（特にデコンボリューションと呼ばれる前処理段階の後）を、その想定される源にマッチさせるために、コンピュータ技術が開発されてきた（例えば、非特許文献４参照）。これらは、個々のペプチドとマッチとは区別されて“ＰＲＳＭｓ”といわれる。ここで再び、アルゴリズムは、典型的にはプリカーサーの全体の質量に依存しており、それらはすべて、観測されたタンパク質のスペクトルと予測された（コンピュータで生成された）タンパク質のスペクトルとの間で比較がなされるという考えを前提としている。

いくつかの最適化方法が本技術分野で説明されており、例えば、プリカーサー質量のフィルタリング（非特許文献５）の適用、及び観測されたペプチド断片をその後Ｂ−及びＹ−イオンを合わせた理論的なスペクトルにマッチさせることである。他の例としては、ＭＡＳＣＯＴ、ＳＥＱＵＥＳＴ、Ｘ！ＴＡＮＤＥＭ、ＳＰＥＣＴＲＵＭＭＩＬＬ、Ａｎｄｒｏｍｅｄａ、ＭＳＡｍａｎａｎｄａ及びＣＲＵＸが挙げられる。さらに、データベース検索を伴う比較における解析の実行時間を改善するために、観測された断片及び次のマッチングのクラスタリングが行われる（非特許文献６）。代わりに、観測され、同定されたスペクトルと同定されなかったスペクトルとの間でスペクトルの類似性に関する検索が行われ（非特許文献７）、その主要部は、スペクトルデータの数学的な畳み込みに依存する。しかし、これらの方法それぞれは、本技術分野における１つ又は複数の課題に対処できない。核酸及び多糖類のような他の生体高分子の構造決定に同様の課題が存在する。

本技術分野では、プロテオミクス、ゲノミクス、トランスクリプトミクス、及びグリコミクスの方法を改良することが必要とされている。

Ｍｉｃｈａｌｓｋｉ，Ａ．ｅｔａｌ．，２０１１年，Ｍｏｌ．Ｃｅｌｌ．ＰｒｏｔｅｏｍｉｃｓＭＣＰ１０，Ｍ１１１．０１１０１５Ｅｎｇｅｔａｌ．，１９９４年，Ｊ．Ａｍ．Ｓｏｃ．ＭａｓｓＳｐｅｃｔｒｏｍ．，５，９７６−９８９Ｔｒａｎ，Ｊ．Ｃ．ｅｔａｌ．，２０１１年，Ｎａｔｕｒｅ，４８０，２５４−２５８Ｃａｎｎｏｎ，Ｊ．ｅｔａｌ．，２０１０年，Ｊ．ＰｒｏｔｅｏｍｅＲｅｓ．，９，３８８６−３８９０Ｇｅｅｒ，Ｌ．Ｙ．ｅｔａｌ．，２００４年，Ｊ．ＰｒｏｔｅｏｍｅＲｅｓ．３（５），９５８−９６４Ｆｒａｎｋ，Ａ．Ｍ．ｅｔａｌ．，２００８年，Ｊ．ＰｒｏｔｅｏｍｅＲｅｓ．７（１），１１３−１２２Ｗｉｌｈｅｌｍ，Ｔ．ｅｔａｌ．２０１４年，Ｊ．ＰｒｏｔｅｏｍｅＲｅｓ．１３（９），４００２−４０１１

本明細書で提供される方法は、先行技術の方法の１つ以上の欠点に対処する。

発明者は、観測された質量スペクトルにマッチする理論的な断片イオンのスペクトルを使って正確な質量計測機器を利用する方法を見出した。タンパク質に適用した場合、ＰＲＳＭ形式の予測されたスペクトルがペプチド規模のスペクトルにマッチされ得る。生体高分子は、それらを生じさせた消化に関してまったく制限を受けなくてすむ。タンパク質に関して、本方法の重要な利点は、ペプチドがトリプシン性でなくてもよく、それらが内因性であってもよく、それらが明示しているＰＴＭ、使用される断片化の機序又はスペクトルの純度においても制限されないことである。本明細書で提供される方法は、完全なプロテオームの無作為な部分配列によって生じた一連のピークをすばやく認識できる能力に基づく。これは、現代の質量分析計の精度がもたらす高い特異性及び感度によってなされる。特定の実施の形態では、速さは、かなり正確なスペクトルの畳み込みの適用に続く単一パスクラスタリング技術から得られる。結果は、特定の生体高分子のある領域に対する本来の、未加工の精査からのピークの割り当てである（いわゆるホットスポット）。割り当ては、ポアソン分布に従う畳み込みスコアの分布としての関連するｐ値を伴って報告され得る。興味深いことに、この方法は、糖又はヌクレオチドの配列のような他の生体高分子にも同じように適用可能である。いくつかの実施の形態では、本明細書で提供される方法において求められる入力の例は、（ａ）分析される未処理のスペクトル、すなわち１回以上の質量分析実験に起因する観測された質量スペクトル、（ｂ）探したい生物学的配列、例えば標的生物のプロテオーム／ゲノム／トランスクリプトーム又はグリコームを含むＦＡＳＴＡファイル、及び（ｃ）ステップ（ａ）の観測された質量スペクトルを得るために用いられた質量分析計の精度に相当する使用者が設定した閾値（又はクラスタリングパラメータ）のみである。

より具体的には、本発明は、試料中の生物の生体高分子の存在を決定するためのコンピュータで実施される方法を提供する。本発明の方法は、試料の観測された質量スペクトルを、対象となる生体高分子の理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルと比較するステップを含む。

本発明の方法は、タンパク質、核酸、及び多糖類等の異なる種類の生体高分子に適用されてもよい。

特定の実施の形態では、生体高分子はタンパク質である。

本発明の方法は、異なる種類の質量分析技術に適用可能で、本明細書に開示される実施の形態は、概念の証明のために提供される。さらにまた、当該方法は、本技術分野で公知の他の分離技術（例えば、クロマトグラフィー、モビリティ）及びデータツール（例えば、分析、解釈、表現、特徴づけ）と組み合わされてもよい。

いくつかの実施の形態では、方法は、試料の質量スペクトルを得ることで一連のクエリピークを取得するステップと、すべてのクエリピークのｍ／ｚ値（すなわち質量−電荷の比）を、（対象となる生物に関する）高分子の理論的な断片イオンの質量から差し引くステップと、得られた差をクラスタリング及びスコアリングすることで、特定の生体高分子の存在の尤度を示すスコアを取得するステップと、当該スコアに基づいて、スペクトルを特定の生体高分子に割り当てることで、上記試料中に当該生体高分子が存在することを特定するステップと、を含む。

特定の実施の形態では、生体高分子はタンパク質であって、方法は、
試料の観測された質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのｍ／ｚ値を、標的のプロテオームのタンパク質の配列に関する理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる上記生物の上記標的のプロテオームの理論的な断片イオンの質量から差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで上記試料における特定のタンパク質の存在の尤度を示すスコアを取得するステップと、
当該スコアに基づいて、観測されたスペクトルを上記プロテオームのタンパク質に割り当てることで、上記試料中に上記タンパク質が存在することを特定するステップと、
を含む。

特定の実施の形態では、観測された質量スペクトルは、タンデム質量分析によって得られる。

特定の実施の形態では、試料のタンデム質量スペクトルを得ることで一連のクエリピークを取得するステップと、すべてのクエリピークのｍ／ｚ値（すなわち質量−電荷の比）を、（対象となる生物に関する）高分子の理論的な断片イオンの質量から差し引くステップと、得られた差をクラスタリング及びスコアリングすることで特定の生体高分子の存在の尤度を示すスコアを取得するステップと、当該スコアに基づいて、スペクトルを特定の生体高分子に割り当てることで、上記試料中に該生体高分子が存在することを特定するステップと、を含む。

特定の実施の形態では、生体高分子はタンパク質であって、方法は、
試料のタンデム質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのｍ／ｚ値を、標的のプロテオームのタンパク質の配列に関する理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる上記生物の標的のプロテオームの理論的な断片イオンの質量から差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで上記試料における特定のタンパク質の存在の尤度を示すスコアを取得するステップと、
当該スコアに基づいて、スペクトルを上記プロテオームのタンパク質にそれぞれ割り当てることで、上記試料中に上記タンパク質が存在することを特定するステップと、
を含む。

いくつかの実施の形態では、理論的な断片イオンのスペクトルは、上記プロテオームにおける配列から生じる、すべての可能性のあるイオンの少なくとも２５％、より好ましくはすべての可能性のあるイオンの少なくとも７５％を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで得られる。同様の分析が他の生体高分子のため、例えばゲノムの理論的な断片の質量に基づくヌクレオチド配列又はグリコームの理論的な断片の質量に基づく多糖類のためになされる。

いくつかの実施の形態では、方法は、標的のプロテオーム、ゲノム又はグリコームに関する理論的なイオン質量を生成すること、及び質量分析機器のエラー許容範囲に基づいてすべての断片イオンの質量に関する誤差を計算することを含む。

いくつかの実施の形態では、方法は、所定のタンパク質、ヌクレオチド配列又は多糖類に対応する理論的な断片イオンのスペクトルｉを選択すること、及びそれを観測された断片イオンのスペクトルｊと比較することを含む。

いくつかの実施の形態では、方法は、観測されたすべての断片の質量に関して、観測された断片のスペクトルｊから質量の値ｐｙを選択することと、理論的な断片のスペクトルｉから質量の値ｍｘを選択することと、
質量のシフトτｘｙ＝ｍｘ−ｐｙを計算し、かつ、ピークの新たな質量ｐｙがｍｘと等しくなるようにτｘｙを加えることで観測された断片イオンを調整することによって、観測されたスペクトルを理論的なスペクトルに割り当てる（ａｌｉｇｎ）こと、
を含む。

いくつかの実施の形態では、方法は、
パターンを検索すること、及び
ａ）あらかじめ計算されたエラー許容差を与えられた、観測された断片イオンのスペクトルの調整された質量に一致する断片イオンの質量の個数（ｃｏｕｎｔ_ｘｙ）を計算するステップと、
ｂ）理論的な断片イオンの質量に一致する観測された断片イオンの質量の強度の合計（ｓｕｍ_ｘｙ）を計算するステップと、
を含む方法によって上記パターンをスコアリングすること、をさらに含む。

いくつかの実施の形態では、方法は、ポアソンモデルによって一致する断片イオンの個数の分布を構築すること、及び観測された断片イオンのスペクトルと理論的なイオンのスペクトル（の一部）との間のマッチの確率に関するｐ値を、それぞれの位置に関して生成し、任意に、付加的な信頼性のために局所のスコア分布を関連付けることをさらに含み、あらかじめ決定された有意水準よりも小さいｐ値を有する位置が統計的に有意とみなされる。

いくつかの実施の形態では、方法は、観測された断片のスペクトルに注釈を付けて、どのピークが理論的なイオン断片によってマッチしたかを示すこと、及び配列を改訂して、どの部分配列がマッチする観測されたイオン断片を有していたかを示すことをさらに含む。

いくつかの実施の形態では、理論的な断片イオンの質量は、荷電状態ｚを推測することで調整され、“理論的な断片イオンの質量”は、“（理論的な断片の質量）／ｚ”に改訂される。

いくつかの実施の形態では、試料は、上記生物由来の複数種の生体高分子を含む。

さらに提供されるのは、本明細書で提供される方法を実行するために構成された手段を備えるデータ処理システムである。

さらに提供されるのは、計算装置又はシステムによって実行された際に、当該計算装置又はシステムに本明細書で提供される方法を実行させる指示を含むコンピュータプログラム製品である。

本発明に係る具体的な実施の形態の図である以下の開示は、実際は単なる例示であって、本技術、それらの適用又は使用を限定することを意図するものではない。

本発明の特定の実施の形態に係る方法及びシステムが本発明の特定の実施の形態に係るタンパク質配列参照データベースに対してペプチドのスペクトルデータを調べる方法の概略図。各文字を関連するアミノ酸文字コードのために予測されたイオンの質量に変換することで、数値の配列に変換されたタンパク質の文字列の概略図。得られた質量が実行中のイオン質量の合計に加えられ、実際のスペクトルの比較がなされるのに対して合成スペクトルが効果的に得られる。特定の（一部の）理論的な質量スペクトルに対応する観測された質量スペクトルの範囲に関する例示的なスコア。特に、図３は参照プロテオームのすべての可能性のあるタンパク質におけるすべての可能性のある理論的な開始−終了の位置（すなわちペプチド断片）に対する所定の経験的な（すなわち観測された）スペクトルがどのようなものかを示す。（ａ）観測されたイオンの、それらのマッチした疑似イオンでの注釈及び（ｂ）タンパク質配列の、それらのマッチした観測されたピークの個数及び／又は強度でのスコアリングを含む本発明の特定の実施の形態に係る方法及びシステムによって得られた結果を示すグラフ表示。本実施の形態に係るペプチドの起源の観測されたＣＩＤ−スペクトルの例。本発明の実施の形態に係るｂイオン系（ａ）及びｙイオン系（ｂ）の両方に関してマッチする疑似イオンの個数。本発明の実施の形態に係る経験的な個数の分布に対する観測されたマッチとともにｐ値の評価に用いられるポアソンモデル。

特定の実施の形態に関して本発明が説明されるが、本発明はそれではなく特許請求の範囲によってのみ限定される。

本明細書で使用された場合、“ａ”、“ａｎ”、及び“ｔｈｅ”は、本開示にて別段の示唆がない限り、単数及び複数の指示対象を含む。

本明細書で使用された場合、用語“含む（備える）”、“含んでいる（備えている）”及び“から構成される”は、“包含している”、“包含する”又は“含有している”、“含有する”と同義であって、これらは包括的な、又は非限定であって、追加の要素又は方法ステップを排除しない。本明細書に記載された要素又は方法ステップに言及する場合も、用語“含んでいる（備えている）”、“含む（備える）”及び“から構成される”は、本明細書に記載された当該要素又は方法ステップ“からなる”実施の形態を含む。さらに、本明細書で使用される第１の、第２の、第３の、のような用語は、類似する要素を識別するために用いられるのであって、特別に定めない限り、必ずしも連番又は時系列に記載される必要はない。このように使用されたこれら用語は、適切な状況下では取替可能であること、及び本明細書に記載された本発明の実施の形態は、本明細書に記載された又は示されたものとは違う順番で実施可能であることが理解される。

定数、量、一時的な継続時間等の測定可能な数値を意味する場合に本明細書で使用される用語“約”は、変動が開示された発明の実施に適した場合に限り、特定の数値の、及び特定の数値から、＋／−１０％以下、好ましくは＋／−５％以下、より好ましくは＋／−１％以下、さらに好ましくは＋／−０．１％以下の変動を包含することを意味する。また、修飾語句“約”が係る数値自体は、明確にかつ望ましく開示されたものであることが理解される。

終点による数値範囲の記載は、各範囲に包含されるすべての数字及び分数に加えて、記載された終点も含む。

特段の定義がない限り、技術的な及び科学的な用語等の本発明の開示において用いられるすべての用語は、本発明が属する分野における当業者によって普通に理解される意味を有する。追加的に示唆することによって、本明細書で用いられる用語に係る定義が本発明の内容をより理解するために包含される。本明細書で使用される用語又は定義は、単に本発明の理解を助けるために提供される。

本開示において、本明細書で提供されるアルゴリズムのほとんどはタンパク質配列に関して記載されるが、当該アルゴリズムは、決してタンパク質の配列決定等に限定されないことが理解される。その基本原理は核酸及び多糖類等の他の生体高分子の構造決定に同等に適用可能である。特に、ＤＮＡ、タンパク質、ペプチド、糖類及び繊維のような炭水化物は、明確に定義されたアルファベットで示される生体高分子化合物である。ＤＮＡの場合、これは｛ＡＧＣＴ｝であって、タンパク質及びペプチドの場合、我々は２０文字のアルファベットで表す。質量分析法（ＭＳ）のための任意の断片化技術、例えば生体高分子化合物に関して再現可能な断片イオンを生成するタンデムＭＳによって、本方法に適合するデータが得られ、これによって、観測された断片パターンをテキストパターンに関連付けることが可能になる。本開示は、タンパク質マッピングのためにペプチドに焦点を当てているが、同様の原理が、例えば染色体マッチングのための遺伝子についても成り立つことを当業者は理解する。

本発明者は、ペプチドのスペクトルのマッチングに基づいて試料中の生体高分子を同定することができる新しい手法を見出した。一般に、いくつかの実施の形態では、当該方法は、試料の観測された質量スペクトルを、理論的な断片イオンのスペクトルと比較するステップを含む。

いくつかの実施の形態では、観測されたスペクトルは、標的生物の試料から得られる。また、例えば、以下に詳細が説明されるように、あらかじめ計算された誤差を考慮することによって、正確な質量クラスタリングが当該スペクトルに適用されてもよい。観測されたスペクトルは、１個のペプチドに対応し、あるいはそれらはキメラの、又は混合したもの（すなわち、複数のペプチド由来のイオンを含む）であってもよい。

通常、理論的な断片イオンのスペクトルは、理論的な断片イオンの質量及び理論的な一連の断片イオンを含む。

いくつかの実施の形態では、観測された質量スペクトルは、標的生物に存在する一式の特定の生体高分子における損なわれていないすべての生体高分子の理論的な一連のイオンと比較される。

本方法がタンパク質に適用された場合、好ましくは、当該方法は、観測された質量スペクトルを、標的生物のプロテオームにおける損なわれていないすべてのタンパク質の予測された一連のイオンを含む理論的な断片イオンのスペクトルと比較することを含む。好ましくは、理論的な断片イオンのスペクトルは、比較の前にクラスタリングされ、好適にはクラスタリングは、観測された質量スペクトルが得られる質量分析計の精度を考慮する。このクラスタリングステップは、以下で詳細に説明される。その結果は、タンパク質データベースにおける部分（サブ）配列への、スペクトルからのピークの割り当てである。

タンパク質に適用された場合、本発明に係る方法は、典型的には、観測された質量スペクトル及び参照プロテオームのＦＡＳＴＡファイルだけを要する。特に、任意のプリカーサーの質量、消化プロトコル、断片化技術、予期されるＰＴＭ（翻訳後修飾）又は変異に関するあらゆる情報が通常、必要とされない。

当該方法によって、使用者が定義したパラメータに依存しないタンパク質データベースに対する検索に基づくアミノ酸配列の、質量分析法で得られる断片イオンのスペクトルの解釈が可能となる。タンパク質の配列解析に関しては、たったの２個のパラメータが実験の設定から推測され、それは（精査のもとで生物によって定義される）タンパク質データベース及び（質量分析計によって定まる）質量の精度を含む。

したがって、本発明は、試料中の生物の生体高分子の存在を決定するためのコンピュータで実施される方法を提供し、該方法は、試料の観測された質量スペクトルを、理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルと比較するステップを含む。いくつかの実施の形態では、この比較は、理論的な断片イオンのスペクトルを用いた観測された質量スペクトルの畳み込みを含む。好ましくは、生体高分子は、タンパク質、核酸、及び多糖類からなるリストから選択される。生体高分子はタンパク質である場合、当該方法は、試料の得られた質量スペクトルを、標的のプロテオームの予測される一連のａ／ｘ、ｂ／ｙ、及び／又はｃ／ｚと比較することを含む。

より具体的には、生体高分子はタンパク質又は核酸であって、方法は、
試料のタンデム質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのｍ／ｚ値を、上記標的のプロテオーム又はゲノムそれぞれのタンパク質又は核酸の配列に係る理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる上記生物の標的のプロテオーム又はゲノムの理論的な断片イオンの質量から差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで上記試料における特定のタンパク質又は遺伝子の存在の尤度を示すスコアを取得するステップと、
当該スコアに基づいて、スペクトルを上記プロテオームのタンパク質、又は上記ゲノムの遺伝子にそれぞれ割り当てることで、上記試料中に上記タンパク質又は遺伝子が存在することを特定するステップと、
を含む。

生体高分子がタンパク質の場合に関して、原理が図１に示されている。本明細書に開示されるように、タンデム質量分析法は、対象となる明確なイオンが質量分析法の最初のラウンドからのそれらのｍ／ｚ値に基づいて選択され、いくつかの解離の方法（例えば、（高エネルギーの）不活性ガス、電子移動、電子捕獲等での衝突）によって断片化される特定の方法をいう。続いて、これら断片は、質量分析法の第２のラウンドで個々のｍ／ｚ比に基づいて分離される。

特に、生体高分子がタンパク質であって、方法は、
試料の観測された質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのｍ／ｚ値を、上記標的のプロテオームのタンパク質の配列に関する理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる上記生物の標的のプロテオームの理論的な断片イオンの質量から差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで上記試料における特定のタンパク質の存在の尤度を示すスコアを取得するステップと、
当該スコアに基づいて、観測されたスペクトルを上記プロテオームのタンパク質にそれぞれ割り当てることで、上記試料中に上記タンパク質が存在することを特定するステップと、
を含む。

本明細書に開示されるように、質量分析法は、単純及び複雑な混合物中の分子を同定し、定量するために、イオンの電荷に対する質量の比を測定する分光技術をいう。

特定の実施の形態では、特徴づけの手順は、スペクトルを集める（１）ステップと、スペクトルのマッチングを行って（２）、スペクトルの割り当てを得る（３）ステップと、を含む。スペクトルを集めるステップでは、ペプチドの観測された質量スペクトルが得られる。スペクトルのマッチングに関して、ペプチドデータベース（４）から理論的な断片イオンのスペクトル（５）が取得される。観測された質量スペクトルは、スペクトルのマッチングステップ（２）において理論的な断片イオンのスペクトル（５）と比較される。スペクトルのマッチングステップ（２）の後、観測された質量スペクトルがタンパク質配列に割り当てられる。観測された様々な質量スペクトルに対して上記の手順を繰り返すことで、タンパク質の配列が決定される。

好ましくは、理論的な断片イオンのスペクトルは、特定の質量分析法の断片化においてゲノム、グリコーム又はプロテオームから生成し得るすべての断片イオンを含む。また一方で、理論的な断片イオンのスペクトルは、より多くの理論的な断片イオンも含んでもよい。例えば、タンパク質の研究に本方法が適用された場合、観測された断片イオンのスペクトルを得るのに用いられる断片化技術がｂ−及びｙ−イオンのみしか生じさせないことが知られているにも関わらず、理論的な断片イオンのスペクトルは、標的のプロテオームのすべての一連のａ−、ｂ−、ｃ−、ｘ−、ｙ−、及びｚ−を含むことができる。また、理論的な断片イオンのスペクトルは、試料に現れるすべての断片イオンを含まなくてもよい。例えば、試料は、理論的な断片イオンのスペクトルに現れない翻訳後修飾及び／又は変異を含むタンパク質断片を含んでもよい。

結果的に、特定の実施の形態では、上記の理論的な断片イオンのスペクトルは、上記プロテオームにおけるタンパク質配列から生じる、すべての可能性のあるイオンの少なくとも２５％、より好ましくはすべての可能性のあるイオンの少なくとも７５％を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、又は上記ゲノムにおける遺伝子配列から生じる、すべての可能性のあるイオンの少なくとも２５％、より好ましくはすべての可能性のあるイオンの少なくとも７５％を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、それぞれ得られる。アミノ酸に関しては、本明細書で使用された場合、“すべての可能性のあるイオン”との記載は、ｏ末端から始まるすべての可能性のあるイオン断片とｎ末端から始まるすべての可能性のあるイオン断片を含む一連のイオンを意味する。タンパク質に関しては、“すべての可能性のあるイオン”は、すべてのａ−及びｘ−断片、すべてのｂ−及びｙ−断片、及び／又はすべてのｃ−及びｚ−断片を含む。タンパク質に関して、好ましくは“すべての可能性のあるイオン”に含まれる異なるイオン間の質量の差は整数個のアミノ酸残基の質量に等しい。核酸に関しては、“すべての可能性のあるイオン”は、３’末端から始まる及び５’末端から始まるすべてのイオン断片を含む。核酸に関して、好ましくは“すべての可能性のあるイオン”に含まれる異なるイオン間の質量の差は整数個の核酸残基の質量に等しい。

したがって、本明細書で提供される方法は、試料から取得された質量スペクトルの分析を含む。質量分析法（ＭＳ）の方法及びそれらを実行するための手段は、本技術分野で知られており、それは、例えば、衝突活性化解離（ＣＡＤ）としても知られる衝突誘起解離（ＣＩＤ）等である。当該方法は、ガス相に分子イオンの断片を導入する。分子イオンは加速されて、天然の分子（例えばヘリウム、窒素又はアルゴン）との衝突が可能になる。衝突において、運動エネルギーのいくらかが内部エネルギーに変換され、結果として結合が破損、及び分子イオンのより小さな断片への断片化が起こる。そして、これらの断片イオンは、タンデム質量分析法で分析できる。質量分析計の例としては、トリプル四重極質量分析計、フーリエ変換イオンサイクロトロン共鳴、持続性準共鳴励起衝突誘起解離（ＳＯＲＩ−ＣＩＤ）分析計及びは高エネルギー衝突解離（ＨＣＤ）又は“ｏｒｂｉｔｒａｐ”質量分析計等が挙げられる。本明細書で提供される方法は、試料を質量分析計に供するステップを含んでもよいが、典型的には得られる結果であるスペクトルから始められる。本明細書では、これは“クエリスペクトルＳ”又は“Ｓ”と示される。特定の実施の形態では、当該方法はコンピュータで実施される方法である。

質量分析法による解析が実行される試料は、本明細書で提供される方法にとって決定的ではない。ＭＳ分析に供される試料は、固体、液体又は気体であってよい。しかし、分析方法の観点から、試料中の生体高分子は、概して生物（本明細書では標的生物ともいう）に起因する。生体高分子がタンパク質である場合、これによって本明細書で提供される方法において上記生物のプロテオームとの比較が可能となる。

本明細書で提供される方法は、前処理ステップを含んでもよく、該ステップでは、タンパク質、核酸、又は多糖類のいずれかが調べられるかに応じて、理論的な断片イオンのスペクトルが、標的生物のゲノム、プロテオーム、又はグリコームにおけるすべての可能性のあるイオンの少なくとも２５％、より好ましくはすべての可能性のあるイオンの少なくとも７５％を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで得られる。

特にタンパク質に関しては、本明細書で提供される方法は、前処理ステップを含んでもよく、該ステップでは、対象となる生物のプロテオームにおけるすべてのタンパク質に係る完全なａ−、ｂ、又はｃ−及びそれぞれ一連のｘ−、ｙ−又はｚ−が計算される。当該ステップは、所定の生物について１回だけ必要とされ、ほとんどの場合、Ｇｅｎｂａｎｋ（http://www.ncbi.nlm.nih.gov/genbank/）又は他の公的に利用可能な配列データベースから検索された情報に基づいて確かめられる。そして、得られた当該データは、自明な速度向上のために、マルチプロセッサのノードを横断して、又はマルチコアチップセットのコアを横断して分配されてもよい（いわゆる普通の単純な並列化）。

実際は、タンパク質に関して、クエリのスペクトルとの比較を可能にするために、プロテオームは、これらのタンパク質から生じ得るすべての可能性のあるａ−、ｂ、又はｃ−及びそれぞれｘ−、ｙ−又はｚ−イオンを推測することで合成スペクトルに変換されてもよい。プロテオームにおける各タンパク質配列は、疑似質量のリストに変換される。この点で、特定の疑似質量はある観測されたイオンの値に対応する必要はないが、その値は、タンパク質配列におけるその固有の位置を示す他の疑似質量に関連する。そうすることで、理論的なスペクトルがコンピュータ内で生成される。これは図２に示されている。

タンパク質に関してさらに具体的には、理論的な断片イオンのスペクトルは、上記プロテオームにおけるタンパク質配列から生じるすべての可能性のあるａ−、ｂ、若しくはｃ−及び／又はｘ−、ｙ−、若しくはｚ−を推測することによって得られてもよい。試料中のタンパク質の消化に関するある推測とは無関係なすべての可能性のあるａ−、ｂ、又はｃ−及び／又はｘ−、ｙ−又はｚ−の使用によって、タンパク質の可能性のある（未知の）修飾を考慮したより正確な分析が可能になる。

結果として、理論的な断片イオンのスペクトルにおいて、プロテオームの各タンパク質は、Ｍ個の理論的なａ−、ｂ、又はｃ−及び／又はｘ−、ｙ−又はｚ−に関連する。潜在的に、観測された断片イオンの質量は、タンパク質配列におけるあらゆる部分パターンによって生じ得る。したがって、タンパク質配列におけるＭ個の可能性のある開始位置が、観測されたペプチドのスペクトルにおける断片イオンを明確にする共起パターンを検索するために考慮されてもよい。観測される断片イオンの質量の起源が未知である場合、スペクトルにおけるすべての断片イオンが特定の開始位置でのタンパク質の可能性のある産物として考慮されてもよい。

本開示に係る方法は、Ｗｉｌｈｅｌｍらによる方法（非特許文献７参照）のような先行技術の方法と対比されるべきである。Ｗｉｌｈｅｌｍらは、観測された断片のスペクトルにおける修飾を説明することを試みている。そのため、まず、彼らは断片のサブセットを共有するスペクトル群にバイクラスタリング手法を適用する。次に、彼らは断片のピークの電位シフトを探るために２個のバイクラスター群の間での特定の質量の差を検討する。したがって、Ｗｉｌｈｅｌｍらは、データにおける構造を探索するが、スペクトルは同定しない。反対に、本方法は、試料の観測された質量スペクトルを理論的な断片イオンのスペクトルと比較することを含む。このため、本方法は、試料中のタンパク質の断片の観測された質量スペクトルと理論的な断片イオンのスペクトル、又は言い換えると仮のタンパク質の断片のスペクトルとの間で、パターン、同等にサブセット、又は同等に質量の差、あるいは同等に情報セット等を検索することを必然的に伴う。どちらの方法も、それらはピークのリスト間で共有されるパターン、すなわちスペクトルの割り当て（ａｌｉｇｎｍｅｎｔ）を検討すると言われることを共通点とするが、実行及び適用が異なる。例えば、タンパク質にペプチドを位置づけるために、本方法は、一連のｂ−及びｙ−イオンの関係を切ることを含むと言える。Ｗｉｌｈｅｌｍらの応用において彼らは観測された断片のデータを堅持するため、このようなことは不可能である。

特定の実施の形態では、当該方法は、ａ−、ｂ、又はｃ−イオン結合及びｘ−、ｙ−又はｚ−イオン結合それぞれで標的のプロテオームに関する理論的なイオンの質量を生成すること、及び質量分析機器のエラー許容範囲に基づくすべての断片イオンの質量に関する誤差を計算することを含む。実際、得られたスペクトルにおいて理論的な質量がピークと適切に比較され得ることを保証するために、使用される質量分析計の潜在的な許容誤差が考慮され得る。

次のステップでは、クエリのスペクトルＳのピークが理論的なａ−、ｂ、又はｃ−及び／又はそれぞれ一連のｘ−、ｙ−又はｚ−の値と比較されてもよい。好ましくは、これはスペクトルの畳み込みによって行われる。好適には、使用者は、この数学演算について考慮される質量の正確さを指定できる。すべてのクエリのスペクトルＳ及びすべての一連のタンパク質ａ／ｘ、ｂ／ｙ、又はｃ／ｚに関して、すべての予測されたａ／ｘ、ｂ／ｙ、又はｃ／ｚの値から各クエリピークのｍ／ｚ値が差し引かれる。このステップは、独立して、又はプールされた一連のａ／ｘ、ｂ／ｙ、又はｃ／ｚをマッチングすることで行われる。また、このステップは自明に並列化される。当該データは、その元の浮動小数点表示内のままであるか、又は概数で表される。ここで、機器の精度を大きく超えて概数化されることに注意しなければならない。特定の実施の形態では、完全な浮動小数点表示からの逸脱を、結果として生じる速度向上が正当化できる場合に限って概数化が続行される。

そして、得られた差が、ＭａｒｔｉｎＥｓｔｅｒ，Ｈａｎｓ−ｐｅｔｅｒＫｒｉｅｇｅｌ，ＪｏｒｇＳａｎｄｅｒ，ａｎｄＸｉａｏｗｅｉＸｕによってＡｄｅｎｓｉｔｙ−ｂａｓｅｄａｌｇｏｒｉｔｈｍｆｏｒｄｉｓｃｏｒｖｅｒｉｎｇｃｌｕｓｔｅｒｓｉｎｌａｒｇｅｓｐａｔｉａｌｄａｔａｂａｓｅｓｗｉｔｈｎｏｉｓｅ、第７回ＩｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＤａｔａＷａｒｅｈｏｕｓｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ、１９９６、ｐｐ．２２６−２３１に記載されたクラスタ探索のための密度に基づくアルゴリズムに説明されているＤＢＳＣＡＮに類似するクラスタリングによって分類されてもよい。続いて、分類されたデルタがクラスタのイニシエータであると仮定されたすべてのデルタとともに詳しく検討される。続くデルタが前のデルタの２εの範囲内の場合（εはｐｐｍにおける機器のエラー許容範囲）、続くデルタがクラスタに加えられ、クラスタを構成するデルタの中心的な値によってクラスタのデルタの値が更新される（平均、中央値、モード、最大値等）。このステップも自明ではないが並行化できることに留意されたい。その結果、特定の実施の形態では、当該方法は、好ましくは標的のプロテオーム又はゲノムに関する理論的なイオンの質量を生成すること、及び質量分析機器のエラー許容範囲に基づいてすべての断片イオンの質量に関する誤差を計算することを含む。これによって、エラー許容範囲内で分けられた理論的なイオンの質量にグループ分けできる。

次のステップでは、当該方法は有意性解析及び生体高分子の割り当てを含む。上述の畳み込みステップは、クラスタを生成し、該クラスタは、予測された全体のタンパク質のスペクトルに対して“シフト”した推定上のピークに対応する様々な個数のデルタの値を含む。対応の有意性は、ＤＢＳＣＡＮアルゴリズムによって得られた計数統計の処理に向いている推測された（改良された）ポアソン分布に基づく正式なｐ値を用いて決定され得る。通常のポアソン分布には可能性として“ゼロカウント”が必然的にあるという点で分布の改良が自明である一方、本方法では、仮想のタンパク質と観測されたペプチドとの間で常にピークがマッチされるのでゼロカウントはない。このため、“ワンカウント”が誇張される。

続いて、有意であると見なされたデルタのクラスタに加えられたピークは、関連のある生体高分子エントリに割り当てられる。

混ざりあった試料からのスペクトルの場合（意図的ではなく、例えばキメラスペクトル、又は故意には、例えばデータ非依存性解析（ＤＩＡ）実験的パラダイム）、スペクトルにおけるピークの差のサブセットが異なる生体高分子に割り当てられる。

スペクトルの畳み込み、クラスタリング及び割り当てのステップがどのように実行され得るかについての、実用的な実施の例がタンパク質及びＤＮＡに関して以下に詳述される。

まず、理論的な断片イオンスペクトルｉが所定のタンパク質又は染色体に応じて選択され、それが観測された断片イオンのスペクトルｊと比較される。

特定の実施の形態では、理論的な断片イオンの質量が電荷状態ｚを推測することで調整される。すなわち“理論的な断片イオンの質量”が“（理論的な断片イオンの質量）／ｚ”に更新される。ここで、この後者のステップは任意である。

続いて、特定の実施の形態では、当該方法が、観測された断片のスペクトルｊから質量の値ｐｙを選択すること、理論的な断片のスペクトルｉから質量の値ｍｘを選択すること、質量のシフトτｘｙ＝ｍｘ−ｐｙを計算することで観測されたスペクトルを理論的なスペクトルに割り当てること、及びピークｐｙの新たな質量がｍｘと等しくなるようにτｘｙを加えることで観測された断片イオンの質量を調整することを含む。これは、観測されたデータと、観測された断片イオンの注釈のために並べられる理論的なデータとの間でのパターンの検索として解釈できる。これに関連して、Ｗｉｌｈｅｌｍら（非特許文献７参照）は修飾を明確にするパターンを見つけるために質量の差を探すことを発明者は指摘する。本方法及びＷｉｌｈｅｌｍらの開示の両方が質量のシフトという用語を用いるが、解釈は相違する。用語“質量のシフト”は、質量分析法で役立つものである。

次のステップにおいて当該方法は、パターンを検索すること、及びそれをスコアリングすることを含んでもよい。特定の実施の形態では、これは、
あらかじめ計算されたエラー許容範囲差を与えられた観測された断片イオンのスペクトルの調整された質量に一致する断片イオンの質量の個数を計算すること（ｃｏｕｎｔ_ｘｙ）、及び、
理論的な断片イオンの質量に一致する観測された断片イオンの質量の強度の和を計算すること（ｓｕｍ_ｘｙ）、
を含む。

これは、参照の生体高分子のセットのすべての可能性のある生体高分子における、すべての可能性のある理論的な位置に関して繰り返される。タンパク質に関して、参照の生体高分子のセットは参照プロテオームに相当する（図３）。同じく、ＤＮＡに関して、参照の生体高分子のセットは参照ゲノムに相当する。

そして、好ましくは、一致する断片イオンの個数の分布が、ポアソンモデルによってモデル化されることで、各位置にｐ値が得られ、当該ｐ値は観測された断片イオンのスペクトルと理論的なイオンのスペクトル（の一部）との間でマッチする可能性を示している。任意に、局所的なスコアが付加的な信頼に関して関連付けられる。特定の実施の形態では、あらかじめ設定された有意性の程度（例えば、０．０５の有意性の程度）よりも小さいｐ値を有する位置が、統計的に有意とみなされる。したがって、どのピークが理論的なイオン断片によってマッチされるかを示すために、観測された断片イオンのスペクトルが注釈を付けられてもよい（タンパク質に関して図４ａに示されている）。同様に、配列が更新され、どの部分配列が観測されたイオン断片を有するかが示される（タンパク質に関して図４ｂに示されている）。

上記の方法は、観測されたイオンのスペクトル及び理論的な断片のスペクトルのすべての組み合わせについて繰り返されてもよい。これによって、試料中の所定の生体高分子、例えば所定のタンパク質の存在が確認できる。特定の実施の形態では、試料は、生物由来の複数種の生体高分子を含む。特定の実施の形態では、１種以上の生体高分子は、タンパク質又は核酸である。特定の実施の形態では、１種以上の生体高分子はタンパク質である。

本明細書で提供される方法の適用は多くある。実際、試料の性質についての制限及び／又は開始物質に関する予備知識の必要性のため、従来の方法ではなし得なかった条件であっても、本明細書で提供される方法の特別な利点によって生体高分子のセットの解析、例えばプロテオームの解析が可能となる。以下は、提供される方法の例示的な応用である。

翻訳後修飾／変異（ＰＴＭ）：ＰＴＭを含むタンパク質の問題に対する様々な方法が公表されているが、本方法は、酵素的に制限されたペプチド群についての必要条件を取り除くことで、ＰＴＭ／変異を許容する検索の適用を広げることができる。さらに、相補的な参照検索に依存しないことで、本方法は多くの“寛容な”検索技術（これは通常、それらの結果の確率的な特徴づけを避けることが求められる）で利用されるような複雑で困難な反復検索の解析を含まないため、当該方法は分かりやすいｐ値の提供できることを維持する。したがって、特定の実施の形態では、方法は、ＰＴＭの影響を受けたであろうタンパク質を特定するために実行される。

内因性ペプチドミクス：本明細書で提供される方法は、解析されているペプチド群を生成した方法に関する予備知識を必要としないため、該方法は、内因性ペプチドミクスに適している。内因性ペプチドは、完全な生物学的活性化の前にｉｎｖｉｖｏで修飾されることがよくある。本明細書で提供される方法は、これらの修飾に関する予備知識を必要としないため、該方法は、この難しいペプチド群を検出することができるという独特の利点を有する。したがって、特定の実施の形態では、該方法は、内因性ペプチドの特定するために実行される。

キメラスペクトルの検索：キメラスペクトルは、典型的な検索エンジン（通常、上述のように反復のスキームを介してそれらに対処し、正当なｐ値の計算を困難にする）に対する他の困難な事例を象徴する。本方法は、純粋なスペクトルを要しないため、上記のスペクトルに対してもっともなマッチを与える。したがって、特定の実施の形態では、本方法は、キメラスペクトルを生じる試料に存在する生体高分子を特定するために実行される。

データ非依存性解析：本発明に係る方法及びシステムのための特に競争力のあるマッチは、ＤＩＡに基づくスペクトルの解析である。複数のプリカーサーが同時に断片化されるが故にこれらはその複雑さでよく知られている。本方法は、それがプリカーサーに関する知識を要しない（すなわち、Ｗａｔｅｒｓ（登録商標）データの場合の低エネルギースキャン、又はＡＢＳｃｉｅｘ（登録商標）データの場合のＳＷＡＴＨ（商標）ウインドウについての情報を要しない）ため、この状況でも特によく機能する。

標識なし（断片に基づく）の定量化：ＤＩＡに基づく定量的プロテオミクスは、プリカーサーの選択の偶然性が存在しないために好ましく見込まれていた。しかし、得られたスペクトルの特定の難しさがその展開を制限している。プリカーサーの情報の必要性を潜在的に排除する一方で優れた特定可能性を維持することによって、本方法は、現在実現可能なものよりはるかに安価な機器で断片に基づく定量を可能にする。これによって、すべてのイオンの断片化に限定されるが（このため、定量的プロテオミクスに使用される典型的な機器よりもはるかに安価である）、正確な質量が得られる装置で実行される定量的プロテオミクスが可能となる。

スペクトルライブラリマッチング：スペクトルライブラリマッチングにおいて、未知の観測されたペプチドのスペクトルが、ペプチド配列の割り当てが知られた高品質の断片のスペクトルのライブラリに対して検索される。本発明に係る方法では、スペクトルライブラリの検索は非特定のＰＴＭに対して寛容である。

ＤＮＡ修飾：本発明は他の生物学的配列の検索にも使用され得る。短いＤＮＡ配列がタンデム質量分析計を用いて断片化される。得られた断片イオンはペプチドと同様に体系化される。本発明はゲノム配列上に断片イオンをマッピングすることに使用されてもよい。本発明に係る方法は非特定の修飾を扱うことができるため、この技術はＤＮＡのメチル化及び他のエピゲノムのシグナル伝達を理解するのに適している。

断片化原理に関する不変条件：本発明に係る方法は、断片化の種類に対しても変わらず、衝突誘起解離（ＣＩＤ）、電子捕獲解離（ＥＣＤ）、電子移動解離（ＥＴＤ）、陰電子移動解離（ＮＥＴＤ）、電子分離解離（ＥＤＤ）、光解離、特には赤外多光子解離（ＩＲＭＰＤ）及び黒体赤外放射解離（ＢＩＲＤ）、表面誘起解離（ＳＩＤ）、高エネルギーＣトラップ解離（ＨＣＤ）、チャージリモートフラグメンテーションに関して同等に十分に機能する。これらの適用に関して、連続的な断片イオン間の質量の差はすべてのイオン断片の種類で固定されたままであるため、新たな一連の断片イオンを定義することを要しない。

特定の実施の形態では、本明細書で提供される方法は、コンピュータで実行される方法である。

したがって、いくつかの実施の形態では、本願は試料における生物の生体高分子を決定するためのコンピュータで実行される方法を提供し、該方法は以下のステップを含む。
ａ．上記生物の生体高分子の、例えばゲノムの、又はプロテオームの生体高分子の配列を含む生体高分子データベースを受け入れ、
ｂ．タンパク質配列に関する理論的な断片イオンのスペクトルを決定し、理論的な断片イオンのスペクトルはＭ個の理論的な断片イオンの質量を含み、理論的な断片イオンは生体高分子ｉに対応し、
ｃ．対応する観測された試料のスペクトルを受け入れ、観測されたスペクトルはＮ個の観測された断片イオンの質量を含み、
ｄ．観測された試料のスペクトルを、クラスタ化されたスペクトルの畳み込みによって理論的な断片イオンのスペクトル又はその一部にマッチングし、
ｅ．それらに基づいて上記試料中に存在するタンパク質を特定する。

特定の実施の形態では、上記方法は質量分析法のエラー許容範囲を考慮するために設計される。その結果、特定の実施の形態では、コンピュータが実行する方法は、本明細書に記載された方法において後に考慮に入れられるエラー許容範囲を受け入れるステップをさらに含む。

さらに本明細書で提供されるのは、計算装置又はシステムによって実行された際、本明細書で提供される方法のステップを計算装置又はシステムに実行させる指示を記憶するコンピュータ可読媒体である。

本願は、本明細書で提供される方法の実行のために構成された手段を含むデータ処理システムをさらに提供する。

本願は、計算装置又はシステムによって実行された際、本明細書で提供される方法を計算装置又はシステムに実行させる指示を有するコンピュータプログラム製品をさらに提供する。

本願は、計算装置又はシステムによって実行された際、本明細書で提供される方法を計算装置又はシステムに実行させる指示を有するコンピュータプログラムを表現するデータの流れをさらに提供する。

１．ＣＩＤスペクトルにおけるタンパク質の特定
図５におけるＣＩＤスペクトルが次の配列を有するタンパク質に対して検索される。
ＩＩＤＥＷＲＫＫＴＤＤＬＡＡＥＬＤＧＡＱＲＤＬＲＮＴＳＴＤＬＦＫＡＫＮＡＱＥＥＬＡＥＶＶＥＧＬＲＲＥＮＫＳＬＳＱＥＩＫＤＬＴＤＱＬＧＥＧＧＲＳＶＨＥＭＱＫＩＩＲＲＬＥＩＥＫＥＥＬＱＨＡＬＤＥＡＥＡＡＬＥＡＥＥＳＫＶＬＲＡＱＶＥＶＳＱＩＲＳＥＩＥＫＲＩＱＥＫＥＥＥＦＥＮＴＲＫＮＨＡＲＡＬＥＳＭＱＡＳＬＥ（配列番号１）

エラー許容範囲０．０５Ｄａでの本発明に係る方法の適用によって、図６ａ及び６ｂに示されたように疑似イオンのカウントにマッチするｂ−イオン（１＋）及びｙ−イオン（１＋）が生成する。カウントのスコアがポアソン分布によってモデル化され（図７参照）、ｐ値が各カウントに関して得られる。一連のｙ−イオン及びｂ−イオンそれぞれに示されるように８及び９のカウントが統計的に有意で次の注釈を導く。
配列
１．Ｂ−イオンの結果：ＬＱＨＡＬＤＥＡＥＡＡＬＥＡＥＥ［ｐ−ｖａｌ：６．８ｅ−１３］（配列番号２）
２．Ｙ−イオンの結果：ＬＱＨＡＬＤＥＡＥＡＡＬＥＡＥＥ［ｐ−ｖａｌ：３．３ｅ−１１］（配列番号３）
に関する結果がＳＥＱＵＥＳＴアルゴリズムによってＥＥＬＱＨＡＬＤＥＡＥＡＡＬＥＡＥＥＳＫ（配列番号４）として確認される。

２．例示的な作業の流れ
本明細書で提供される方法が、図１に概略的に示されるようにタンパク質の特徴づけに適用される。特に、特徴づけ手順は、スペクトルの収集のステップ（１）を含む。スペクトルの収集ステップでは、ペプチドの観測された質量スペクトルが得られる。観測された質量スペクトルは、スペクトルのマッチングステップ（２）において理論的な断片イオンのスペクトル（５）と比較される。スペクトルのマッチングステップ（２）の前に、理論的な断片イオンのスペクトル（５）がタンパク質データベース（４）から導かれた。スペクトルのマッチングステップ（２）の後、観測された質量スペクトルがタンパク質の配列に割り当てられる。様々な観測された質量スペクトルに対して上記の手順が繰り返されることで、タンパク質の配列が決定される。特定のタンパク質Ｉに関する配列の範囲（６）が図の下端に概略的に示されている。

（付記）
（付記１）
試料の観測された質量スペクトルを、理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルと比較するステップを含む、前記試料中に生物の、タンパク質又は核酸である生体高分子が存在することを確認するためのコンピュータで実行される方法であって、
前記試料の観測された質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのｍ／ｚ値を、標的のプロテオームのタンパク質の配列又はゲノムの核酸の配列に係る理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる前記生物の前記標的のプロテオーム又はゲノムの理論的な断片イオンの質量からそれぞれ差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで前記試料における特定のタンパク質又は遺伝子の存在の尤度を示すスコアを取得するステップと、
前記スコアに基づいて、観測された質量スペクトルを前記プロテオームのタンパク質又は前記ゲノムの遺伝子にそれぞれ割り当てることで、前記試料中に前記タンパク質又は遺伝子が存在することを特定するステップと、
を含む、方法。

（付記２）
前記生体高分子は、タンパク質である、付記１に記載の方法。

（付記３）
前記観測された質量スペクトルは、タンデム質量分析法によって得られる、付記１又は２に記載の方法。

（付記４）
前記理論的な断片イオンのスペクトルは、
前記プロテオームにおけるタンパク質の配列から生じる、すべての可能性のあるイオンの少なくとも２５％、より好ましくはすべての可能性のあるイオンの少なくとも７５％を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、又は、
前記ゲノムにおける遺伝子配列から生じる、すべての可能性のあるイオンの少なくとも２５％、より好ましくはすべての可能性のあるイオンの少なくとも７５％を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、
それぞれ得られる、付記１から３のいずれか一つに記載の方法。

（付記５）
前記標的のプロテオーム又はゲノムに関して理論的なイオン質量を生成すること、及び質量分析機器のエラー許容範囲に基づいてすべての断片イオンの質量に関する誤差を計算することを含む、付記１から４のいずれか一つに記載の方法。

（付記６）
所定のタンパク質又は染色体に対応する理論的な断片イオンのスペクトルｉを選択すること、及びそれを観測された断片イオンのスペクトルｊと比較することを含む、付記５に記載の方法。

（付記７）
観測されたすべての断片の質量に関して、観測された断片のスペクトルｊから質量の値ｐｙを選択することと、
理論的な断片のスペクトルｉから質量の値ｍｘを選択することと、
質量のシフトτｘｙ＝ｍｘ−ｐｙを計算し、かつ、ピークの新たな質量ｐｙがｍｘと等しくなるようにｔｘｙを加えることで観測された断片イオンの質量を調整することによって、理論的なスペクトルに観測されたスペクトルを割り当てる（ａｌｉｇｎ）ことと、
を含む、付記６に記載の方法。

（付記８）
パターンを検索すること、及び
ａ）あらかじめ計算されたエラー許容差を付与された、観測された断片イオンのスペクトルの調整された前記質量に一致する断片イオンの質量の個数（ｃｏｕｎｔ_ｘｙ）を計算するステップと、
ｂ）理論的な断片イオンの質量に一致する観測された前記断片イオンの質量の強度の合計（ｓｕｍ_ｘｙ）を計算するステップと、
を含む方法によって前記パターンをスコアリングすること、
をさらに含む、付記７に記載の方法。

（付記９）
ポアソンモデルによって一致する断片イオンの個数の分布を構築すること、及び観測された断片イオンのスペクトルと理論的なイオンのスペクトル（の一部）との間のマッチの確率に関するｐ値を、それぞれの位置に関して生成し、任意に、付加的な信頼性のために局所のスコア分布を関連付けることをさらに含み、あらかじめ決定された有意水準よりも小さいｐ値を有する位置が統計的に有意とみなされる、付記８に記載の方法。

（付記１０）
観測された断片のスペクトルに注釈を付けて、どのピークが理論的なイオン断片によってマッチしたかを示すこと、及び配列を改訂して、どの部分配列がマッチする観測されたイオン断片を有していたかを示すことをさらに含む、付記８又は９に記載の方法。

（付記１１）
前記理論的な断片イオンの質量は、荷電状態ｚを推測することで調整され、“理論的な断片イオンの質量”は、“（理論的な断片の質量）／ｚ”に改訂される、付記１から１０のいずれか一つに記載の方法。

（付記１２）
前記試料は、前記生物由来の複数種の生体高分子を含む、付記１から１１のいずれか一つに記載の方法。

（付記１３）
前記生体高分子は、タンパク質である、付記１から１１のいずれか一つに記載の方法。

（付記１４）
付記１から１３のいずれか一つに記載の方法を実行するために構成された手段を備える、データ処理システム。

（付記１５）
計算装置又はシステムによって実行された際に、前記計算装置又はシステムに付記１から１３のいずれか一つに記載の方法を実行させる指示を含む、コンピュータプログラム製品。

Claims

試料の観測された質量スペクトルを、理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルと比較するステップを含む、前記試料中に生物の、タンパク質又は核酸である生体高分子が存在することを確認するためのコンピュータで実行される方法であって、
前記試料の観測された質量スペクトルを得ることで一連のクエリピークを取得するステップと、
すべてのクエリピークのｍ／ｚ値を、標的のプロテオームのタンパク質の配列又はゲノムの核酸の配列に係る理論的な断片イオンの質量を含む理論的な断片イオンのスペクトルを決定することで得られる前記生物の前記標的のプロテオーム又はゲノムの理論的な断片イオンの質量からそれぞれ差し引くステップと、
得られた差をクラスタリング及びスコアリングすることで前記試料における特定のタンパク質又は遺伝子の存在の尤度を示すスコアを取得するステップと、
前記スコアに基づいて、観測された質量スペクトルを前記プロテオームのタンパク質又は前記ゲノムの遺伝子にそれぞれ割り当てることで、前記試料中に前記タンパク質又は遺伝子が存在することを特定するステップと、
を含む、方法。
前記生体高分子は、タンパク質である、請求項１に記載の方法。
前記観測された質量スペクトルは、タンデム質量分析法によって得られる、請求項１又は２に記載の方法。
前記理論的な断片イオンのスペクトルは、
前記プロテオームにおけるタンパク質の配列から生じる、すべての可能性のあるイオンの少なくとも２５％、より好ましくはすべての可能性のあるイオンの少なくとも７５％を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、又は、
前記ゲノムにおける遺伝子配列から生じる、すべての可能性のあるイオンの少なくとも２５％、より好ましくはすべての可能性のあるイオンの少なくとも７５％を推測することで、もっとも好ましくはすべての可能性のあるイオンを推測することで、
それぞれ得られる、請求項１から３のいずれか一項に記載の方法。
前記標的のプロテオーム又はゲノムに関して理論的なイオン質量を生成すること、及び質量分析機器のエラー許容範囲に基づいてすべての断片イオンの質量に関する誤差を計算することを含む、請求項１から４のいずれか一項に記載の方法。
所定のタンパク質又は染色体に対応する理論的な断片イオンのスペクトルｉを選択すること、及びそれを観測された断片イオンのスペクトルｊと比較することを含む、請求項５に記載の方法。
観測されたすべての断片の質量に関して、観測された断片のスペクトルｊから質量の値ｐｙを選択することと、
理論的な断片のスペクトルｉから質量の値ｍｘを選択することと、
質量のシフトτｘｙ＝ｍｘ−ｐｙを計算し、かつ、ピークの新たな質量ｐｙがｍｘと等しくなるようにｔｘｙを加えることで観測された断片イオンの質量を調整することによって、理論的なスペクトルに観測されたスペクトルを割り当てる（ａｌｉｇｎ）ことと、
を含む、請求項６に記載の方法。
パターンを検索すること、及び
ａ）あらかじめ計算されたエラー許容差を付与された、観測された断片イオンのスペクトルの調整された前記質量に一致する断片イオンの質量の個数（ｃｏｕｎｔ_ｘｙ）を計算するステップと、
ｂ）理論的な断片イオンの質量に一致する観測された前記断片イオンの質量の強度の合計（ｓｕｍ_ｘｙ）を計算するステップと、
を含む方法によって前記パターンをスコアリングすること、
をさらに含む、請求項７に記載の方法。
ポアソンモデルによって一致する断片イオンの個数の分布を構築すること、及び観測された断片イオンのスペクトルと理論的なイオンのスペクトル（の一部）との間のマッチの確率に関するｐ値を、それぞれの位置に関して生成し、任意に、付加的な信頼性のために局所のスコア分布を関連付けることをさらに含み、あらかじめ決定された有意水準よりも小さいｐ値を有する位置が統計的に有意とみなされる、請求項８に記載の方法。
観測された断片のスペクトルに注釈を付けて、どのピークが理論的なイオン断片によってマッチしたかを示すこと、及び配列を改訂して、どの部分配列がマッチする観測されたイオン断片を有していたかを示すことをさらに含む、請求項８又は９に記載の方法。
前記理論的な断片イオンの質量は、荷電状態ｚを推測することで調整され、“理論的な断片イオンの質量”は、“（理論的な断片の質量）／ｚ”に改訂される、請求項１から１０のいずれか一項に記載の方法。
前記試料は、前記生物由来の複数種の生体高分子を含む、請求項１から１１のいずれか一項に記載の方法。
前記生体高分子は、タンパク質である、請求項１から１１のいずれか一項に記載の方法。
請求項１から１３のいずれか一項に記載の方法を実行するために構成された手段を備える、データ処理システム。
計算装置又はシステムによって実行された際に、前記計算装置又はシステムに請求項１から１３のいずれか一項に記載の方法を実行させる指示を含む、コンピュータプログラム製品。