JP7218019B2

JP7218019B2 - 質量スペクトルからの存在物の同定の方法

Info

Publication number: JP7218019B2
Application number: JP2021503069A
Authority: JP
Inventors: フルスカ，ミロスラヴ; ハイドゥク，マリアン; ジュバク，ペトル
Original assignee: ウニヴェルジタパラケーホヴオロモウツ
Priority date: 2018-07-20
Filing date: 2019-07-19
Publication date: 2023-02-06
Anticipated expiration: 2039-07-19
Also published as: EP3598135A1; WO2020016428A1; EP3824292A1; JP2021531586A; CA3106053A1; US20210241851A1

Description

発明の詳細な説明

〔技術分野〕
本発明は、質量スペクトルからの存在物の独自性の決定の方法に関する。前記方法は、プロテオミクス、メタボロミクス、ならびにプロテオミクス、メタボロミクス、ゲノミクスおよびトランスクリプトミクスにおけるその応用において有用である。

〔背景技術〕
ディスカバリプロテオミクスは、信頼できる解釈をしばしば妨害する大量の希少な情報を含んでいる。ショットガンプロテオミクス、ボトムアッププロテオミクスのうち、発見に指向されているサブフィールドでは、タンパク質は、ペプチドに酵素的に切断され、消化されたサンプルは、分析器、最も一般的に液体クロマトグラフィーを用いた質量分析計に、徐々に導入される。質量分析では、典型的に各サイクルにおいて、完全な分子の質量が分析され、さらに関心のある分子の質量が、単離され、断片化され、第２の質量分析が断片に対して実施され、ＭＳ／ＭＳスペクトルを生じる。同定の目的は、観察されたＭＳ／ＭＳスペクトルを生成するペプチドであり、ペプチドのタンパク質へのマッピングは、タンパク質同定タスクを完結させる。

膨大なプロテオームの複雑さのために、各断片スペクトルの潜在的な解釈の数は、膨大である。サイズは別として、全解釈の公平な考察さえ、高いスペクトル相同性が多くの解釈を等しく引き出す（新たなペプチド配列決定においてしばしば見られる現象）ので、限定的に有用である。実際には、同定は、ＳｅｑｕｅｓｔまたはＸ！Ｔａｎｄｅｍのような検索エンジンを一般に用いた、基準ペプチドのはるかに小さいデータベース向けに意図的にバイアスをかけられている。参照検索は、多くのスペクトル（ＰＲＩＤＥリポジトリにおけるプロジェクトによって最近評価されたように約７５％）を未解釈のまま残す。マッチしない多くのスペクトルは、翻訳後修飾を有するペプチドを含むこと、確信をもって明らかにされたが、大部分は依然として解釈されないままである。いくつかの説明（例えば、スプライシング変化、再編成遺伝子配置または新規遺伝子）は開かれたままであるが、マッチしないスペクトルはしばしば、ペプチドの特性を示す。ヒトプロテオームは約１万のペプチドアミノ酸部位において基準と異なるので、いくつかのスペクトルは、当然にバリアントに起因し得、それらの同定が本発明の目的である。

複雑なサンプルの分析結果の解釈に伴う同じ問題は、使用される分析方法およびサンプルの構造特性にかかわらず、複雑な混合物を扱う化学、生化学および生物学の研究の多くの他の分野において出くわす。

〔発明の概要〕
本発明は、少なくとも１つの存在物の質量スペクトル、および任意に当該少なくとも１つの存在物の化学的、物理的、生化学的または生物学的な分析からの追加のデータからの、当該少なくとも１つの存在物の独自性の、各存在物についての、決定のための方法であって、ａ）前記存在物の質量スペクトルから分析データを収集すること、および任意に前記存在物の化学的、物理的、生化学的または生物学的な分析から追加の分析データを収集すること、ｂ）より高い出現率を有しているすべての独自性候補が複数の独自性候補に含まれていることは、独自性候補のそれぞれについて当てはまるので、前記存在物の複数の独自性候補を取得すること、および当該存在物の当該複数の独自性候補の出現率を取得すること；ｃ）少なくとも存在物の出現率、または少なくとも、存在物の出現率および質量スペクトルとの一致に関する、存在物の独自性候補のそれぞれについての、独自性候補のスコアの計算、ｄ）存在物の独自性を、前記存在物の真の独自性におそらく対応するスコアに最も近いスコアを有している独自性候補として、決定することのステップを含んでいる、方法に関する。

ステップｂ）で選択された前記独自性候補は、質量スペクトルおよび任意に追加データの可能なまたは許容可能な解釈である独自性候補を含む。

ステップｃ）で計算され、かつステップｄ）で独自性を最終的に決定するために使用されるスコアは、数値の形態（そのとき、ステップｄ）において、通常、スコアの最高値は分析された存在物のための正しい値であると最終的に決定される独自性を決定する）、または別の形態（例えば、数の隔たり、数値でない存在物、確立された順序を有する存在物、確率論的解釈を有する数）を有し得る。当業者は、スコアの形式が選択されるとき、存在物の真の独自性におそらく対応するスコア（理想的なスコア）も、スコアの形式またはその計算によって、選択または決定されることを理解する。例えば、確率論的解釈を有する数について、１００％の確率（または値１）は、存在物の真の独自性に対応する。「真の独自性」は、処理の開始時には未知であるが、存在物の実際の独自性を意味する。

好ましくはステップｃ）において、前記計算は、独自性候補の最大確率を計算することを含む。当該最大確率は、スコアであり得るか、またはスコアの計算における変数であり得る。

好ましくはステップｃ）において、前記計算は、独自性候補の確率を計算することを含む。当該確率は、スコアであり得るか、またはスコアの計算における変数であり得る。

好ましくはステップｃ）において、前記計算は、ベイズの定理を使用して独自性候補の確率を計算することを含む。

１つの好ましい実施形態では、出現率の値は、前記存在物の集団内頻度、環境における前記存在物の修飾の確率、前記分析ステップにおける前記存在物の修飾の確率の少なくとも１つに基づいて計算される。

好ましくは、ステップｂ）およびｃ）において、出現率の前記値は、事前確率または事前類似確率として表される。

好ましい実施形態では、ステップｄ）において、独自性の前記決定は、複数の形態の同位体標識ペプチドが存在したか否かを評価することを含む。

好ましくは、前記存在物が、２０００ｍｏｌ／ｇ以下の分子量を有する分子、ペプチド、タンパク質、脂質、核酸、代謝産物から選択される。

好ましくは、前記存在物がペプチドであり、質量スペクトルを得るために使用される前記方法がタンデム質量分析（ＭＳ／ＭＳとも呼ばれる）である。

「計数」を含むときにさらに言及される好ましい実施形態では、ステップｂ）において、候補存在物を前記取得することおよび／または独自性候補の出現率の取得は計数を含んでおり、当該計数が、
ｂ．ａ）初期出現率を有する初期独自性候補を選択すること；
ｂ．ｂ）前記初期独自性候補を、基本の独自性候補に送ること；
ｂ．ｃ）前記基本の独自性候補に対する事象の適用によって新たな独自性候補を生成すること、および前記新たな独自性候補を前記基本の独自性候補に取り込むこと、および制限条件が満たされる限り、前記生成することを継続すること；
ｂ．ｄ）ステップｂ．ｃ）において取得された基本の独自性候補を、関連する出現率を有する独自性候補に変換することを含んでいる。

計数の実施形態では、好ましくは、前記独自性候補がペプチドであり；前記出現率が事前類似確率として表され；前記初期存在物が、基準タンパク質の、Ｎ末端で切断されている直鎖状の部分配列であり；前記適用可能な事象が、修飾、置換および切断を含んでおり；前記制限条件が、所定の形態のペプチドの、最小事前類似確率である。

計数の実施形態では、好ましくは、前記独自性候補がタンパク質であり、前記出現率が事前類似確率として表され；前記初期存在物が、基準エキソンに基づくタンパク質モデルであり；前記適用可能な事象がエキソン排除およびエキソンインクルージョンを含んでおり；前記制限条件がエキソンに基づくモデルの最小事前類似確率であり；仮説への存在物の前記変換がタンパク質コード配列へのエキソンの連結およびインシリコにおける翻訳である。

本発明の方法は、上流もしくは下流にある追加のステップを含み得るか、または本発明の方法による１つ以上の存在物の決定された独自性の、公知の方法における用途を含み得る潜在的な多くの用途を有する。

前記存在物がタンパク質であり、かつステップｂ）における存在物の独自性候補を取得するステップがペプチドバリアントのデータベースにおけるデータベース検索を含む、本発明の方法は、ヌクレオチドレベルで全地球的に観察されている変化をともなっている変異バリアントタンパク質および多型タンパク質の、プロテオームの質量スペクトルからの、同定のために使用され得る。

前記存在物がペプチドであり、かつｅ）多型ペプチドまたは生殖系列ペプチドとして決定されている存在物を、由来物のデータベースに対すしてマッチングするステップをさらに含んでいる本発明の方法は、既知の出現率の変動性に基づいて独自性を決定するために、特にプロテオームの質量スペクトルからの、細胞株の鑑定またはの個人の同定のために使用され得る。

前記存在物が非宿主ペプチドであり、ステップｂ）において、前記出現率が事前確率または事前類似確率として表され、かつ非宿主ペプチドの出現率が非宿主生物の出現率にしたがって、縮小されている本発明の方法は、既知の出現率の非宿主生物の、宿主生物のプロテオームの質量スペクトルからの同定のために、使用され得る。

前記存在物が非宿主ペプチドであり、前記独自性候補を取得することにおける前記ステップｂ）において、非宿主生物に対して一意にマッピングするペプチドが、宿主生物の計数されたペプチドに加えられ、非宿主ペプチドの出現率が任意の宿主ペプチドより低い本発明の手法は、宿主生物のプロテオームの質量スペクトルからの、未知の出現率の非宿主生物の同定のために使用され得る。

前記存在物がドナーペプチドであり、ステップｂ）において、ドナーペプチドの出現率が、レシピエントペプチドの間におけるそれらの出現率にしたがって、倍率をかけられている本発明の方法は、同種移植片または異種移植片における移植組織に由来するタンパク質の同定のために使用され得る。

前記存在物がペプチドであり、ｅ）腫瘍に起因する体細胞変バリアントペプチドを選択することをさらに含んでいる本発明の方法は、循環するタンパク質の質量スペクトルからの、腫瘍の存在の同定、または体細胞変異の数の増加を介した、腫瘍生物学的特性の評価のために使用され得る。

存在物がペプチドであり、ｅ）ドナーに起因する多型ペプチドの選択および定量をさらに含んでいる本発明の方法は、レシピエントの生物材料の質量スペクトルから、移植する組織もしくは器官の監視、および移植片拒絶の早期検出のために使用され得る。

存在物がペプチドであり、ｅ）多型ペプチドに基づく２個体間の一致の有意さを見積もるステップをさらに含んでいる本発明の方法は、プロテオームの測定された質量スペクトルからの、２以上の個体間の遺伝的関係の存在の同定のために使用され得る。

さらに、本発明は、上述の請求項のいずれか１つのステップを実行するための手段を含むデータ処理システムを包含する。

また、本発明は、プログラムがコンピュータによって実行されるときに、上述の請求項のいずれか１つの方法の複数のステップをコンピュータに実行させる命令を含むコンピュータプログラムを包含する。

さらに、本発明は、コンピュータによって実行されるときに、上述の請求項のいずれか１つの方法の複数のステップをコンピュータに実行させる命令を含むコンピュータ読み取り可能な媒体を包含する。

〔図面の簡単な説明〕
方法、またはそのステップおよびサブステップを概略的に表す図面において、矢印ありの線は、個々のユニット間の直接的または間接的な接続を指す。矢印ありの点線は、一般に、代替的な実施形態に対応する。代替的な実施形態は、特定の代替的な実施形態をグループ化するアルファベット文字の追加によってさらに示される。ユニット内のサブユニットの参照番号は、主たるユニットの参照番号と、ピリオド、およびサブユニットの参照番号との連結として整列されている。図面に描かれているユニットは、単独、又はいくつかの大きなユニットの一部のいずれかであると仮定されている。点線のブロックはステップに対応する。

図１は、同定方法への出現率モデル組み込み物の模式図である。

図２は、再評価のための出現率モデルの組み込み物の模式図である。

図３は、同定システム内にある出現率モデルの組み込み物の模式図である。

図４は、独自性候補の選択に影響する、出現率モデルの組み込み物の模式図である。

図５は、計数の模式図である。

図６は、ショットガンプロテオミクスにおけるペプチドの計数の模式図である。

図７は、起源の同定のためのバリアントの使用を示す。

図８は、存在物間の対応を評価するための模式図である。

図９は、タンデム質量分析を用いて測定された特定の前駆体のＭＳ／ＭＳスペクトルを示す。

図１０は、ショットガンプロテオミクスにおける特定の一致モデルの挙動を示す。

図１１は、ショットガンプロテオミクスにおける真の解釈の特定の一致モデルの挙動を示す。

図１２は、ショットガンプロテオミクスにおけるランダムな解釈の特定の一致モデルの挙動を示す。

図１３は、真のマッチのための、前駆体質量差の分布の例である。

図１４は、所定の理論上の保持時間における、保持時間の、実験上の分布の例である。

図１５は、保持時間の極端な挙動に基づく真のマッチの選択を示す。

図１６は、理論上の同位体分布および実験上の同位体分布の差の分布を示す。

図１７は、前駆体質量差および保持時間の、１つの値への合成の例を示す。

図１８は、前駆体質量差、同位体分布差、保持時間、およびタンパク質証拠が単一の基準に組み合わされているときのフィルタリングの出力を示す。

図１９は、ショットガンプロテオミクスにおける出現率モデルの組み込み物の特定の例の模式図である。

図２０は、低い配列決定カバレッジの領域のための、エキソーム配列決定データの起こり得る不完全性を示す。

図２１は、対応の計算のための、家族構成を示す。

図２２は、ペアワイズ比較における基準タンパク質のカバレージの挙動を示す。

図２３は、家族構成員間における、ランダムに少なくとも良好なマッチであることの計算を示す。

図２４は、腫瘍特異的な循環タンパク質の同定の結果を示す。

図２５は、マウス異種移植モデルにおけるヒト変異バイオマーカーの同定を示す。

図２６は、微生物ペプチドの同定を例示し、ヒト材料および動物材料におけるの微生物病原体の診断のための、実用的な用途を実証する。

図２７は、プロテオミクスにおけるスプライスバリアントの計数の模式図である。

図２８は、腫瘍サイズ対同定されたペプチド間の体細胞バリアントの割合の対応を示す。

〔発明を実施するための形態〕
本明細書における「存在物」は、分子、物質または細胞小器官などの化学的または生物学的な存在物を指す。特に、存在物は、物質、化合物、脂質、代謝産物、ペプチド、タンパク質および核酸から選択され得る。

本明細書における「出現率」は、存在物の出現頻度を指す。存在物の出現頻度は、自然、または測定されたサンプルの供給源であった自然の特定の一部（例えば、生物、生物の一部、特定の環境など）におけるその出現頻度を指す。出現率は、相対的な表現（例えば、存在物Ａは存在物Ｂより多い）、または絶対的な表現（例えば、サンプルまたは自然の一部の、単位当たりの存在物のパーセンテージまたは量）として表され得る。出現率はまた、存在物の事前確率を包含する。出現率はまた、本明細書において事前類似確率と呼ばれている相対的な確率論的な用語を包含し、存在物間の相対差は、存在物の事前確率のときと同じである。

本明細書における「存在物の独自性」は、前記存在物に関する構造情報（例えば、その化学構造、アミノ酸の配列またはヌクレオチドの配列）の決定を指す。構造情報は、既知の構成を存在物に割り当てること、または事前には未知なその構造またはその構造の一部を決定することを指し得る。

本明細書における「独自性候補」は、観察された質量スペクトルおよび任意に追加の化学的または生物学的なデータの、考えられる説明または許容できる説明（または解釈）を指す。

本明細書における「計数」は、複数の初期候補存在物、およびそれらの組み合わせについての事象に基づく、独自性候補およびそれらの出現率の構築方法を指す。このような事象は、初期存在物の生じ得る修飾を含む。

「スコア」は、各独自性候補について計算された値である。スコアは、数値、数値のベクトルまたは配列、数値の隔たり、非数値の存在物、定められている順序を有する存在物の、形態を有し得る。スコアはまた、確率論的な解釈を伴う数（例えば、正しさの確率、ｐ値、Ｅ値、ｑ値、最大確率、およびそれらの隔たり）を含む。当業者は、スコアの形態を決定するときに、存在物の真の独自性に対応するその値も決定されることを理解する。例えば、確率に対応するスコアについて、存在物の真の独自性に対応する値は、１～１００％である。

「質量スペクトル」は、前記存在物を質量分析計に導入すること、および質量スペクトル測定を実施することによって得られる質量スペクトル（ＭＳ）、またはＭＳ／ＭＳスペクトルを指す。質量スペクトルからの分析データは、典型的に、スペクトルに示される複数の断片ピークに関するデータ（ｍ／ｚ値、強度）である。質量スペクトルからの追加の基準（例えば、前駆体質量差、同位体分布差、タンパク質証拠）も使用され得る。

「化学的、物理的、生化学的または生物学的な分析」は、存在物の独自性の決定に有用なデータを得ることを可能にする任意の分析方法を含む。このような方法は、ＮＭＲ分光法、Ｘ線回折分光法、ＩＲ分光法などの分光分析法；免疫化学的方法；光学的な観察法；抗体、標識などのさらなる作用物との相互作用に依存する方法を包含する。

「説明」および「解釈」は、分析方法の結果（すなわち質量スペクトルおよび任意に追加のデータ）に対する、少なくとも１つの存在物の独自性の割り当てを示すために本明細書に使用される。

本発明は、存在物の独自性を、それらの質量スペクトルデータ、および任意に他の分析方法からの追加のデータに基づいて、決定する方法を説明し、当該方法は、出現率データおよび出現率もしくは確率計算を利用する。出現率の使用は、同定のさらなる層をもたらし、したがって、そうでなければ同定不能な状態の解決に役立つ。例えば、測定された質量スペクトルおよび追加データと十分に等しく一致する多くの説明があることが、しばしばである。出現率モデルの使用は、１つの説明が残りの説明よりはるかに有力であるときに、これらの説明の間における区別を可能にし得る。実際に、出現率の利用は、同定タスクの複雑さを低減する。

本明細書において「出現率モデル」と呼ばれる、出現率がモデル化される方法が、所望の特性を示す（例えば、出現率が相対的な確率論的表現として表される）とき、解釈の候補は、しばしば、正しさの確率、または正しさの最大確率を割り当てられ得る。説明の正しさの確率は、それが決定プロセスの長期モデリングを可能にするので、実在のシナリオに使用可能であるという利点を有する。同様に、正しさの最大確率は、直接的な実在の適用可能性をともなう説明の候補を除外する強力な根拠をもたらす。これは、このような質を有しない一致の統計的な有意さ（例えば、ｐ値またはＥ値）と対照的に示され得、非常に有意な一致さえ、しばしば誤った解釈に割り当てられ得る。この挙動は、適切に導出された正しさの確率には、実際には起こり得ず、したがって、はるかに望ましい保証を実際には与える。

出現率モデルの利用は、希少な事象の信頼できる同定に特に役立つ。説明の候補の出現率が大きく変化する（例えば、ボトムアッププロテオミクスのときのように、何桁にも及ぶ）とき、信頼できる結果を得るためには、出現率の組み込みが、必要とされ得る。

図１は、同定システムへの出現率モデルの組み込み物の、いくつかの基本的な構成を示す。いくつかの実施形態１０１では、出現率モデル１０１．２が同定システム１０１．１に一体化されている。このような組み込み物は、独自性候補の正しさの確率の導出のために好ましい。より具体的な実施形態を図３に示す。

他の実施形態１０２では、同定システム１０２．１は、出現率モデルを含むシステム１０２．２と分離しており、この構成では、出現率モデルを含むシステム１０２．２は、同定システム１０２．１からの結果を処理する。このような実施形態は、例えば、独自性候補の最大確率または独自性候補の確率を導出するために使用可能である。より具体的なこの種の実施形態を図２にさらに示す。

さらに他の実施形態１０３は、同定システム１０３．２、および出現率モデル（同定システム１０３．２が出現率モデル１０３．１によって影響される独自性候補の選択にともなって動作する）を含んでいるシステム１０３．１を備えている。このような実施形態は、同定システムの挙動を改善するように独自性候補を事前に選択するために使用され得る。より具体的なこの種の実施形態を図４に示す。

図２は、独自性候補の再評価のための出現率モデルの組み込み物を表す。この実施形態では、評価された独自性候補２０１は、出現率モデル２０２を含むシステムを通過する。考えられる種々の代替物がある。代替的な実施形態２０３．Ａでは、独自性候補は、出現率モデルからの情報を利用して評価される。このような再評価では、例えば、新たな情報（例えば、少なくとも仮説と同等の出現率を有しており、観察されたデータとの一致（独自性候補と同じ一致）を有する独自性候補の数）が、追加され得る。別の実施形態２０３．Ｂでは、独自性候補は、それらの正しさの最大確率を割り当てられる。ショットガンプロテオミクスにおけるこの種の特定の実施形態を図２７に示す。いくつかの実施形態２０３．Ｃでは、独自性候補はそれらの正しさの確率を割り当てられる。

図３は、出現率モデルが同定システム内に一体化されている、同定における独自性の決定のために使用される実施形態を表す。この構成は、独自性候補の正しさの確率のスコアリングおよび導出に、一般的に適している。いくつかの実施形態では、同定システム３０２Ａは、真の一致モデル３０２Ａ．１、ランダムな一致モデル３０２Ａ．２、および出現率モデル３０２Ａ．３を含む。このような構成は、ベイズの定理を用いた確率の導出に特に適している。いくつかの実施形態では、同定システム３０２Ｂは、独自性候補３０３のスコアまたは確率を得るために、一致モデル３０２Ｂ．１および出現率モデル３０２Ｂ．２を備えている。

図４は、試験された独自性候補の選択に影響を及ぼす出現率モデルの組み込み物を表す。いくつかの実施形態４０３．Ａでは、独自性候補の選択は、それらの出現率に基づいて影響される。ショットガンプロテオミクスにおける一例は、いくつかの修飾（例えば、メチル化）もしくはアミノ酸置換を有するペプチドより出現率の高いペプチド、またはスプライシング変化から生じるペプチドより出現率の高いペプチドの選択である。トップダウンプロテオミクスの例は、非修飾タンパク質と同等の出現率のタンパク質の選択である。

代替的な実施形態４０３．Ｂでは、選択された独自性候補は、テストのために最初に受け入れられた独自性候補（仮説４０１）と少なくとも同等の出現率である。ボトムアッププロテオミクスの例は、試験のための独自性候補４０１がバリアントペプチドに対応し、かつバリアントペプチド４０２と少なくとも同等の出現率である独自性候補がステップ４０３．Ｂでにおいて選択（個々の独自性候補の出現率に対する特定の仮定に基づく）されるとき、である。

本発明の第１のステップは、分析データを収集することを含む。分析データ、特に質量分析データを収集するための方法は、当業者に周知である。例えば、ショットガンプロテオミクスにおいて、サンプル調製プロトコルは十分に確立されており、サンプルをタンパク質分解性ペプチドの混合物に、一般に処理する；例えば、３つのプロトコルＦＡＳＰ、ＳＰ３およびｉＳＴを比較する記事（Ｓｉｅｌａｆｆら（２０１７）：ＪｏｕｒｎａｌｏｆＰｒｏｔｅｏｍｅＲｅｓｅａｒｃｈ，１６（１１）：４０６０－４０７２）を参照。物質の同定は、質量分析計と連結されている液体クロマトグラフィーを用いたそれらの物理的分離から始まる。特定の時点（保持時間）に溶出する物質は、質量分析計に入り、イオン化を受け、それらの質量が測定され、前駆体スペクトルを与える。データ依存取得では、そのような測定された各前駆体スペクトルの後に、いくつかの最も豊富な前駆体の質量が選択され、イオンが分離され、断片化され、ＭＳ／ＭＳスペクトル（断片または生成物のスペクトルも）が取得される。これらの断片スペクトルは、スコアの計算は、独自性候補の理論スペクトルと存在物の観察されたスペクトルとの一致の評価を含み得るため、興味深い。

本発明の方法の第２のステップでは、分析された存在物の独自性候補が得られる。このステップは、複数の方法において実施され達成され得る。

通常のシナリオでは、独自性候補は、所定のサンプルにとっての存在物のデータベース検索を介して取得される。例えば、検索は、分析される所定の生物にとっての、ペプチドまたは核酸または脂質または化合物または代謝産物についてであり得る。しばしば、独自性候補は、分析される生物についての基準存在物（例えばペプチド）を含む基準データベース検索によって得られる。このようなデータベースの例は、ＵｎｉＰｒｏｔおよびＥＮＳＥＭＢＬである。分析される存在物がタンパク質またはペプチドであるとき、これらのデータベースからのタンパク質は、実験において使用されるプロテアーゼによるインシリコ消化されている。タンパク質分解性の基準ペプチドは、最も高い出現率を有しているので、それらは、（最低の出現率のペプチドより）出現率の高い全ペプチドが同様に考慮されるという意味で、自己充足している。しかし、基準存在物のいくつかの修飾が考慮されるとき、最低出現率の修飾と少なくとも同等の出現率の全修飾が同様に考慮されるように、注意が払われなければならない。

いくつかの実施形態では、前記独自性候補は、独自性候補の計数を介して取得され得る。

図５は、計数の一般的な処理（初期存在物および存在物に対して適用可能な事象（例えば、自然に生じる化学修飾）が、出現率モデルの構築のために使用される）を示す。最初に、関連する出現率を有する初期存在物５０１が、存在物のベース５０２に送られる。存在物のベース５０２は、循環の一部であり、初期存在物と異なる。ベース５０２からの存在物は、ベース５０２に組み込まれる追加の存在物を生成する事象５０３（インシリコ）を受ける。これは、所定の基準５０４が満たされるまで続く。処理が停止すると、ベース５０２における存在物は、ステップ５０５（必要であれば）において、出現率モデル５０６を構成する最終の形態に任意に変換される。この処理は、出現率と組み合されるとき重要な利点を有する：計数された各独自性候補ｅについて、前記独自性候補ｅと少なくとも同等の出現率の全独自性候補が、同様に計数される。

ショットガンプロテオミクスに関連する実施形態の例（すなわち、分析される存在物がタンパク質である）は、計数のいくつかの好ましい特徴を説明するために使用される。図６ａに示される計数は、基準ペプチド、バリアント、および切断特異性が異なる修飾ペプチドに対する出現率の割り当てのために使用される。計数は、各基準タンパク質について独立して行われ、特定の基準タンパク質についての挙動は以下の通り説明される。基準タンパク質にとっての初期独自性候補として、前記タンパク質のすべてのＮ末端切断配列が使用される。これらの独自性の出現率は、切断点の直前にある残基（ここでは図６のａ_０）よりうしろにおける切断の確率に依存する。例えば、トリプシン消化の場合、初期の出現率は、通常、リジンおよびアルギニンの場合に大きい。この例では、それがタンパク質のＮ末端にあるとき、初期の出現率は１に等しい（切断は必要ない）。これらの初期独自性候補は、独自性候補のベースに送られる。独自性候補に適用可能な事象は、以下の通りである：伸張、修飾および切断。伸張は基準アミノ酸鎖における次の残基の取り込みの事象を指し、伸張の確率は、切断の相補的な事象として導出される。切断は、特定のアミノ酸のうしろにある切断としてモデル化され、各独自性候補は、完全に形成された独自性候補になるために、厳密に１つの切断を必要とする（このような切断がタンパク質のＣ末端に起こる必要はない）。それぞれの事前類似確率（ｐ_１，．．．，ｐ_ｊ）を有する修飾（ｍ_１，．．．，ｍ_ｊ）は、それぞれのアミノ酸に適用可能である。さらに、事象の事前類似確率の乗算による、事前類似確率の形式における出現率の、すべてのペプチドに対する割り当てを可能にする事象の統計的独立性が仮定される。このプロセスは、停止する基準を構成している最小の事前類似確率が満たされるまで、継続する。ここでは、存在物自体が独自性候補であり、したがって、変換ステップを要さず、このようにして存在物のベースは出現率モデルのために取得される。

いくつかの実施形態では、事前類似確率は、出現率モデルおよび／またはスコアの計算に関わる。事前類似確率は、文献では相対確率とも呼ばれている。事前確率について、個々の事前確率間の相対的な割合は事前確率の場合と同じである。したがって、以下を適用できる：多数のｎ個の結果（ＭＳ／ＭＳスペクトルなど）、ならびにそれぞれ、事前類似確率Ｐｒ_ｑおよびＰｒ_ｒを用いた、独自性候補ｑおよびｒによる、それらの解釈の選択を必要とする。このとき、ｒと比較した、独自性候補ｑによる正しい解釈の割合は、以下の通りである。

したがって、事前類似確率は、事前確率間の相対的な差異を維持している。

好ましい特徴および事前類似確率の例として、プロテオミクスにおける事前類似確率の確立が説明される。事前類似確率は、これらの仮定のもとに実験データから導出され得る：測定されたデータは集団全体を表し；正しく解釈されるべきと仮定されるデータのサブセットは、分布を変化させない。

各測定（ＭＳ／ＭＳスペクトル）にスペクトルの真の解釈ｑ（ペプチド）を与える（厳密に１つの真の解釈があると仮定する）関数Γ

は、ペプチドに対する測定から使用される。

ペプチドの修飾を含めるために、以下を使用する：組として表されるペプチドｑ

（ここで、各ａ_ｉがコードされたアミノ酸残基であり、各ｍ_ｉが残基ａ_ｉに適用可能な修飾である）を前提とする。ａ_ｉに適用可能な修飾の集合は、Φ（ａ_ｉ）として表されており、技術上の簡潔さのために、空の修飾の存在が考慮されている。

ペプチドｑの修飾されている全形態の集合である大文字Ｑによって、特定の形態のペプチドｑの、すべてに対する割合ｒ_ｑを示すと、形態Ｑは、

として表される。実際には、各ペプチドを別々にモデリングするために十分なデータがない。それらの挙動は、ペプチド配列と独立しており、修飾ｍ自体のみに依存すると仮定される。この目的のために、ペプチドは、ｍが適用可能な厳密に１つの残基を有すると考えられ得、このような集合をＨ_ｍと表す。

修飾を有しているペプチドを表す。このとき、特定の修飾ｍについて、

は、各ペプチドｑに関して（４）に等しく、データのより大きな集合から算出され得る。

さらに、このアプローチは、修飾可能な変化する数の残基を有するペプチドを説明するために拡張され得る。このような拡張は、厳密に１つの残基を有するペプチドに対するのと同様に振る舞い、解釈の集合全体の利用を可能にする。具体的には、残基ａについての修飾ｍの割合は、適用可能な任意の修飾（空の修飾も）を有する残基の総数に対する、ｍによって修飾されている残基の総数として、導出される。仮定

は、修飾ｍを有している残基の数を指す。このとき、割合ｒ_ｍは

として導出され得る。

他の例として、ＤＮＡ／ＲＮＡ置き換えの確率が導出される。導出は、修飾についてと同様であるが、モデリングアプローチに以下の差異を有する。データにおける置き換えの低い割合のために、置き換え事象は、（残基と無関係に）集計された様式においてモデル化される。

具体的には、変更された全残基の、全残基に対する割合ｒ

が得られ、それをアミノ酸置換の確率として解釈する。

さらに別の例として、切断確率（特定のアミノ酸の後ろにある）の導出のために、誤った切断および半特異的な切断（Ｎ末端に特異的で、Ｃ末端に特異的でない）を有しているペプチドを利用した。ｎ^{ｃｌｅａｖａｇｅ}（ａ）を切断に続く残基数ａと、ｎ（ａ）を残基の総数ａと表すと、残基ａのうしろにある切断の割合ｒ_ａは

である。

さらに別の例として、腫瘍異種移植片モデルにおける移植組織に由来するペプチドの同定のための、同種移植片または異種移植片におけるペプチドの出現率の計算を示す。この場合、異なる生物（ドナーおよびレシピエント）からのペプチドの出現率は、異なり、考慮されることを要する。しばしば、レシピエントは動物モデルであり、ドナーはヒトである；動物由来のペプチドは、例えばレシピエントにおける組織／器官移植またはドナーのペプチドの拒絶または同定をモニターするために、ヒトのペプチドより高い出現率であると予想される。代替的に、レシピエントは組織移植を受けている患者であり得、ドナーは組織／器官ドナーであり得る。以下では、ドナーペプチドおよびレシピエントのペプチドの出現率の差をどのように見積もるかを示す。

レシピエントペプチドに対するドナーペプチドの出現率の相対的な差は、ドナーおよびレシピエントの相同ペプチドの起源の導出によって推定され得る。ドナーおよびレシピエントの両方に起因する相同ペプチドが同定されたと仮定する。関心は、ペプチドがドナー由来であるか、またはレシピエント由来であるかを知ることにある。この目的のために、ペプチドの起源の証拠を示す、所定のペプチドのタンパク質証拠（ドナータンパク質およびレシピエントタンパク質の）を使用することができる。割合ｐは、レシピエントタンパク質証拠を有している相同ペプチドと比べたときの、ドナータンパク質証拠を有している相同ペプチドの割合として推定される。タンパク質証拠の構築において、タンパク質証拠は、異種ペプチドのみに制限される。別のアプローチでは、割合ｐは、検出された異種ペプチドの割合として推定される。両方のアプローチは、異種移植片の場合にしばしばある、ドナーおよびレシピエントの間に特別な相同性があるときに、使用され得る。同種移植片では、前記割合は一様に設定され得る。実際的な観点から、ドナーペプチドおよびレシピエントペプチドの出現率の間の相対差はかなり小さい；例えば、ドナーペプチドの数は、レシピエントからの数の数十パーセントのオーダーである。これは、レシピエントの出現率より高いと予想される他の生物（ドナー以外）が存在しないとき、ドナーペプチドの同定を単純化するので、注目することが重要である。

別の選択肢として、非宿主生物のペプチドの出現率の決定が説明される。非宿主生物の同定に関心のある状況は、例えば微生物感染の診断のための、例えば生物における微生物の存在の検出を含む。

いくつかの状況において、出現率は既知である。一般に、非宿主生物の出現率（またはその推定値）を考慮に入れる必要がある。状況は同種移植片または異種移植片と部分的に類似しているが、非宿主生物のペプチド出現率は一般的に移植組織の出現率より低く、非宿主ペプチドは系統発生的により離れているという違いがある。これは、特により高い出現率のすべての非宿主生物も、（なかでも少なくとも関連のあるペプチドと同様に）考慮する必要があるといういくつかの因果関係を有している。非宿主生物ｏの出現率（ｐ_ｏ）の推定値が知られており、かつ全ての生物ｑの出現率が少なくとも生物ｏと同程度である（ｐ_ｏ≦ｐ_ｑ）なら、出現率モデルは、以下のように容易に構成することができる。出現率は、事前確率または事前類似確率として表されるべきであり、そのとき生物ｏの非宿主ペプチドの出現率は、出現率ｐ_ｏの値によって乗算される。

多くの場合、非宿主生物の出現率は、未知であり、同定タスクを複雑にする。それにもかかわらず、全ての少なくとも関連する生物がすべて同様に考慮されることが確認され得る場合、同定の特異性を増加させることが可能である。出現率が未知の場合、１つの解決策は、すべての既知の微生物を考慮することである。これは、まだ記述されていない生物が、同定に興味を持っている生物より関連することが、ほぼないからである。

最も厳密なシナリオでは、対象となる非宿主生物の全てのペプチドが、考慮される全ての生物の、全てのペプチドの中で最も低い出現率であると仮定される。そのような状況の実現の例は、限定的な事前類似確率ｒ（例えば、およびｒ＝４・１０^－６などの推定された事前類似確率）を有するすべての生物を計数すること、および非宿主生物の出現率をさらに縮小することである。特に、宿主の出現率は同一のままであるが、目的の生物を除く全ての非宿主生物の出現率にｒを乗じ、目的の非宿主生物の出現率にｒ^２を乗じる。このような場合、目的の非宿主ペプチドは、厳密に最低の出現率である。事前確率は大まかに定められているだけなので、確率の代わりに最大確率Ｐ_ｍａｘを計算することが好ましい；さらに、Ｐ_ｍａｘの計算のみでは、事前確率の相対的な順序が仮定されることが好ましい。この状況は、全ての公知の生物について、ペプチドの計数を必要とする。このような場合、ｒ≒４・１０^－６にとってのデータベースは、数千テラバイトをおそらく有している。

未知の出現率の生物を同定する問題に対するより好ましいアプローチが開発された。計算面は以下の仮定の下で明らかに単純化され得る：ｉ．非宿主生物のペプチドが測定されるとき、それは完全に特異的な（例えば、トリプシン処理の）基準ペプチドであり、ｉｉ．全ての非宿主生物は、等しい出現率（宿主の計数された任意のペプチドの出現率より低い）である。これらの環境のもとに、目的の非宿主生物に限定的に起因するペプチドを予め選択し、宿主の計数において得られたペプチドに加えることができる。

本発明の方法の第３のステップ、スコアは各候補存在物について計算される。

まず、観察スペクトルおよび理論スペクトルのために用いられる一致の測定基準が説明される。観察されたスペクトルと理論スペクトルとの間にある一致の種々の測定基準（例えば、一価イオン（ＣＩＤおよびＨＣＤについてのｂ、ｙイオン）からなるマッチングピークの単純な数）が、存在する。ピークのマッチングは、使用される機器に依存して、予め特定されている断片質量の許容範囲（例えば、リニアイオントラップについて０．３Ｔｈ）について生じる。当業者は、利用可能な選択肢を知っており、適切な選択肢を選択することができる。

独自性候補の最大確率の導出は、一致モデルの妥当性に基づき得る。以下は、予測されたスペクトルおよび観察されたスペクトルのより高い一致が、正しい解釈の確率の上昇をもたらすという断定に対応する。したがって、すべてのスペクトルｏ∈Ｏについて、２つの一致

が与えられると、

（ここで、

は、スペクトルに正しい解釈を与える関数であり、

一致モデル（順序のあるいくつか集合Ｘについて））が仮定される。さらに、異なる独自性候補にとっての同じ一致は、一致の観点：

から正しい解釈であるという、等しい確率を与えると、仮定される。

事前類似確率Ｐｒ_ｑを用いたｏの候補解釈ｑについて、少なくとも良好な、すべての解釈の集合Ｒを得る必要がある。Ｒは、以下の形式

（ここで、ｐは独自性候補であり、Ｐｒ_ｐはその事前類似確率（または事前確率）である）である。したがって、Ｐ_ｍａｘの規定のために、事前等価またはより高い事前類似である独自性候補のみを考慮する必要がある。

事前類似確率の正しい順序が考慮されるとき、ｑの最大確率Ｐ_ｍａｘは、少なくとも良好な解釈の数に逆相関し、したがって

事前確率の数値的側面が仮定されるとき、Ｐ_ｍａｘは、少なくとも良好な、すべての解釈うちの、Ｐｒ_ｑの割合であり、したがって：

Ｐ_ｍａｘの値は検索空間のサイズに依存しない。

事前類似（または事前）確率を用いた、独自性候補の確率の導出のための好ましい方法は、ここに説明される。特定の独自性候補ｈがスペクトルｏの真の独自性候補ｈ＝Γ（ｏ）である確率は、その一致ｄ＝Φ（ｈ，ｏ）が与えられるとき、

である。

このような確率は、例えば（１９）式が

に等しい、ベイズの定理を用いて導出され得る。等式（２０）は、事前確率の代わりに、事前類似確率を組み込むために、容易に変更され得る。事前確率の場合、すべての独自性候補ｈ∈ｈが網羅的に考慮されるとき、各ｏ∈ｏについて、以下が成り立つ。

事前類似確率の場合、総和（２１）は異なり得、複数の事前類似確率が相対的な差を維持するので、それらはリスケーリングによって常に正規化され得る。

事前類似確率は、容易に規定されるが、それらがどのようにリスケーリングされるべきかは明確ではないかもしれない。真の独自性候補がそれらの中にあるように独自性候補が選択されると、事前類似確率は、合計が１になるようにリスケーリングされ得、そのとき、事前確率と等価である。

分析された存在物の真の独自性が、所定の独自性候補の範囲にない

なら、そのとき

（２３）における変数ｃは、そのとき、分析された存在物の真の独自性が、選択された独自性候補Ｈ_０内にある確率に一致する。それから、選択された独自性候補Ｈ_０の事前類似確率は、ｃに対してリスケール（それらの和）され、事前確率と等しくなる。

例えば、ショットガンプロテオミクスでは、スペクトルの全ての候補解釈が考慮されるのではなく、したがって、真の解釈はそれらの中にはないかもしれない。しかし、スペクトルの約２５％は、標準的なボトムアッププロテオミクス実験において、大抵は正しく解釈される。したがって、ｃ≧０．２５およびｃ≦１の値。これはまた、ショットガンプロテオミクスにおける事前確率の可能な範囲を制限し、ひいては正確さの確率の範囲を制限する。

質量分析では、複数の追加の（裏付ける）基準（例えば、前駆体質量差）を、同定に直接に使用することができる。さらに、これらの基準は、まれな事象（例えばバリアントペプチド）の同定に有用である。実際的な目的のために、決定することの単純化のための統計的解釈をこれらの基準が有することは、しばしば好ましい。特に、スペクトルの真の解釈が、観察されたときと少なくとも同程度に極端な、特定の追加の／裏付ける基準を有する確率がモデル化された。これは、事実上、解釈の除去を可能にする。

特定の生物（例えばヒト）に対する実験におけるプロテオミクス分野における真の解釈の選択の例を、ここに述べる。解釈が正しい必要はなく、むしろ、これらの基準の分布が正しい解釈と同じである必要がある。したがって、ある程度の不正確な結果（例えば、１０％）は、ほとんど結果を無効にしない。十分なスペクトルの有意さ（本明細書では、基準ペプチドのデータベース検索におけるＸ！Ｔａｎｄｅｍにおける０．１のＥ値）を有する、期待される生物（例えばヒト）のトリプシン処理されたすべての基準ペプチドは、裏付ける基準のモデリングするための適切な解釈を選択すると仮定される。

いくつかの実施形態では、前駆体質量差が付加的な基準として使用される。真の解釈のための、ペプチドの観察された質量と計算されたペプチドの質量との間にある差の分布は、容易に計算され得る。さらに、差異に対する確率論的解釈の関連付けは、同定におけるそれらの直接の使用を可能にする。

正しいスペクトル解釈のための、観察された前駆体質量と計算された前駆体質量との間にあるｎ個の差の分布Ｄは、

と一致すると仮定される。

数ｎは、特定のサンプルまたは現代の機器（Ｏｒｂｉｔｒａｐなど）による単一の実行についてさえ、しばしばかなり大きい（数千、または数万のオーダー）。したがって、分布をモデル化する必要さえなく、したがって、データを用いて（例えばパーセンタイルを介して）直接作業することが可能である。差ｄの確率論的な解釈のために、Ｄは、ｄであるような少なくとも極端な差を有する真の一致の割合としてｐ_ｄを計算するために利用される。したがって、差ｄについて、

を目的にしている。真の一致が少なくとも極端な前駆物質量差を有することが、ほとんどない（例えば、最大でも０．０１のｐ_ｄ）とき、それは、解釈を排除するための確率論的な根拠をもたらす。

質量分析は、前駆体質量差と同様に、予測され観察された保持時間の利用を可能にする液体クロマトグラフィーに連結されている現代の設定である。実際には、これら２つの間の差を統計的に解釈することも有益である。最も単純な場合には、保持時間差は、以上の説明されている前駆体質量差のように、正確にモデル化され得る。保持時間の予測は、例えば、ＢｉｏＬＣＣＣ（ＬｉｑｕｉｄＣｈｒｏｍａｔｏｇｒａｐｈｙｏｆＢｉｏｍａｃｒｏｍｏｌｅｃｕｌｅｓａｔＬｉｍｉｔｉｎｇＣｏｎｄｉｔｉｏｎｓ；ｈｔｔｐ：／／ｔｈｅｏｒｃｈｒｏｍｏ．ｒｕ／）を介してなされ得る。

しかし、特に観察された保持時間は予測された時間に関連するような非線形的な挙動をしばしば示すので、より局所的に挙動をモデル化することが好ましい。モデリングは、予測される時間ｔ_ｉごとに個別に実行され、ｔ_ｉごとに分布Ｄ_ｉを構築する。それぞれのＤ_ｉは、実験上の時間ｅ_ｊ（ｔ_ｊの実験的な対応物、ｔ_ｊはｔ_ｉの隣接である）からなる。それぞれのＤ_ｉは２・ｗの隣接を含み、ここで２・ｗはウィンドウサイズ（好ましいサイズは５００）である：

それから、ある理論上の時間ｔおよび実験上の時間ｅについて、分布Ｄ_ｉ内にあるｅの位置が求められ、ここで、Ｄ_ｉを、その対応するｔ_ｉがｔに最も近くなるように、選択した。ｅが分布Ｄ_ｉ内にあることを表すパーセンタイルｑ

が得られる。真の結果の予想される割合を、それらの保持時間に基づいて除去することが目的である。

分布の両側にあるこれらの対称的な除去が必要とされると仮定され、このときｑは、必要とされる割合を与える

に変形される。したがって、例えば、ｐ≦０．１を有する結果を選択することは、最大の差（両側で）を有する結果のうち１０％を示すと期待される。

タンデム質量分析では、前駆体スペクトルが測定されることも多く、したがって、理論上の同位体分布および観察された同位体分布の間にある差も同様に容易に計算することができる。この差は、前駆体質量差と同様に、統計的解釈に対して関連付けることもできる。ソフトウェアＩｓｏｔｏｐｉｃＰａｔｔｅｒｎＣａｌｃｕｌａｔｏｒ（ｈｔｔｐ：／／ｉｓｏｔｏｐａｔｃａｌｃ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／）は、理論上の同位体分布の予測に使用できる。

分布間の差を計算する複数の方法が存在するが、非常に単純な方法を利用する。差の計算のために、理論上の分布および実験上の分布のピークは、まず、いくつかの前駆体質量許容値（例えば、Ｏｒｂｉｔｒａｐ上で５ｐｐｍ）に対して、質量に関して適合される。両方の分布（実験上および理論上）の強度は、１までの和にノルムされ（normed）、この整列から、二乗和を強度の差から計算する。次に、予想される少なくとも極端な差を有する真の結果の割合が計算される。計算は、前駆体質量差についてと同じ方法で行うことができる。

ボトムアッププロテオミクスの具体例において、タンパク質は、酵素的にペプチドに消化され、したがって、得られる混合物において、すべてのペプチド（特定のタンパク質の）が存在することが予想される。これを「タンパク質証拠」と呼ぶ。したがって、タンパク質のただ１つのペプチドが同定され、この挙動がモデル化され得ることは、ほとんどない。タンパク質証拠のモデリングのための複数の選択肢が存在するが、モデリングは異なるタンパク質証拠の存在または非存在（例えば、それぞれ、ゼロおよび１を割り当てることによって）のみに限定される。したがって、極端なタンパク質証拠としてｐを有する真の一致の確率は：

実際には、タンパク質の証拠がない場合はｐ≦０．１、タンパク質の証拠がある場合はｐ＝１である。このタスクは、別のペプチドが存在する特定の基準タンパク質アイソフォームが存在するか否かを述べるどうかを提示するタンパク質推定のステップの前でも実行することができる。

追加の／裏付ける基準（例えば、前駆体質量差、保持時間、同位体分布差、タンパク質証拠）を組み合わせて、所望の統計的解釈を有する単一の基準を得ることができる。この基準は、所望の割合の、真の一致を除去することが期待されるように構築される。

目的（例えば、前駆体質量差および保持時間）のいくつかのスペクトルマッチの、特定の基準ｃ_ｉ

について、単一の値

が計算される。それぞれのｃついて、その結果から維持される真のマッチの割合ｆ（ｃ）が計算される。

基準とのペプチドスペクトルマッチの新しい例

について、その単一の値ｄが（３１）のように計算され、そのときのその値ｆ（ｄ）が計算される。これは、最も近い値ｃをｄに対して調べること、およびｆ（ｃ）（これは、例えば、１つの隣接を有するｋ最近傍の挙動に等しい）を得ることによって実施される。もちろん、このステップには様々なオプションが存在するが、多くのデータが利用可能であるので、単純さおよび明白な解釈のために、１つの隣接を有するｋ最近傍の隣接が好ましい。次に、我々は、所望の割合の真の解釈の予想される消失を有する結果を、しかし使用される全ての追加の／裏付ける基準に基づいて、フィルタリングすることができる。

本発明の方法の第４のステップは、分析された存在物の独自性を決定することに関する。

解釈の最大確率Ｐ_ｍａｘは、予測可能な長期的挙動を用いた、見込みのない一致を除去するための理論的根拠を与える。例えば、ｐ_ｍａｘ＝Ｐを有している、多数のｎ個の解釈候補の選択は、多くてもｎ～ｐ個の正しい解釈を有している結果と予想される。したがって、特定の解釈が所定の値より小さいという知識は、その除去にとっての理論的根拠をもたらす。

Ｐ_ｍａｘの最も厳密な設定は、Ｐ_ｍａｘ＝１の解釈に対応し、好ましい実施形態である。

候補解釈の確率Ｐは、予測可能な長期の挙動との一致の選択にとっての理論的根拠を提供する。例えば、ｐより高い確率を有する多数ｎの候補解釈の選択は、少なくともｎ・ｐ個の正しい解釈をもたらすと期待される。

追加の／裏付ける基準のための確率論的解釈は、観察されるときと同様の極端な裏付ける基準を真の解釈が有することはどれくらい起こるかを表すように、構築される。したがって、真の解釈が極端な基準として有することはほとんどない（例えば１０％以下）なら、そのとき、これらの解釈の除去によって、正しい一致の同じ割合（例えば１０％以下）が除去可能であると期待される。

以下の段落では、本発明の方法のいくつかの用途を説明する。

１つの好ましい実施形態において、本発明の方法は、起源のデータベースへのマッチングのために利用され得る。以下の部分は既知の出現率の同定されたペプチドまたは核酸バリアントの、起源のデータベース（各起源がバリアントの集合を含む）へのマッチングを説明する；図７はプロセスを概略的に記載する。

分析されるサンプルｓについて、サンプルｓの真の起源Γ（ｓ）および一致Φ（ｓ，Ｃ_ｉ）を目的としており、その確定に候補起源Ｃ_ｉを使用できる。さらに、サンプルｓは、サンプルｓにおいて同定される一連のバリアントの集合｛ｖ_１，．．．，ｖ_ｋ｝とみなされ、

と示される。一致（ｓ，Ｃｉ）は、例えば、多数のマッチするバリアントであり得る。しかし、一致を

（ここで、Φが得られた結果に対する確率的な解釈を与えるので、Φはバリアントの出現率を表す）と規定することがより好ましい。すべてのＣ_ｉの合計が１に等しくなる（真の起源が考慮された起源の範囲内にある）ような（３５）のリスケーリングは、起源Ｃ_ｉが真の起源である確率：

を与える。

ここに、（３６）の導出のための式（３５）の使用の論理的根拠が示されている。最後に、一致（ｓ，Ｃ_ｉ）

を実際にマッチするバリアントとみなす。

前記一致（３７）は、起源の決定の確率の導出を可能にするために使用される。サンプルｓにおいて同定されたｖ（ｓ）＝｛ｖ_ａ，ｖ_ｂ｝バリアントを仮定し、それらが正しく同定された（真の起源がこれらのバリアントを有する）と仮定する。２つの起源を考えると、

まず、以下の次の表記を定める：バリアントＣを有している集団におけるすべての起源であるＣ^＋を表す。起源Ｃ^＋ _ａおよびＣ^＋ _ｂの集合内にある真の起源の確率は、同数のマッチングバリアントが与えられると、

と等しいとみなされ得る。

したがって、真の起源が、同じ確率を有しているＣ^＋ _ａまたはＣ^＋ _ｂ内にあるなら、両方の集合の大きさを調べることができる。個々の起源（Ｃ^＋ _ａおよびＣ^＋ _ｂ範囲内にある）が、推測的にほぼ等しいと仮定する。そのとき、起源Ｃ_ａ、Ｃ_ｂの確率における相対的な差は、対応するバリアントを有する存在物の数に反比例する：

さらに、前記存在物の数の間にある相対的な差は、集団内頻度を用いて、

として、導出され得る。

個々の起源間にある相対差は維持され、もし真の起源が考慮される起源の範囲内にあるなら、それらは１の値に正規化され得、このようにして（３６）は容易に定められる。

仮定（３９）は、同数のマッチングバリアントに基づいていたが、それは、任意の集団のマッチングバリアントについて成り立つと一般に仮定され得る。

本発明の方法の別の用途は、患者の身体から採取されたサンプル（例えば血液または他の流体）における、腫瘍に起因する体細胞変異体ペプチドを同定することによる癌の診断にある。腫瘍に固有に起因する体細胞変異体ペプチドの同定は、非侵襲的な診断、ならびに疾患の進行および再発のモニタリングに用いることができる。

バリアント（体細胞または生殖系列）の状態を決定するために、様々な基準を使用することができる。本明細書では、この目的のための全地球的なヌクレオチド変化が使用される。

生殖系列バリアントは、以下の通りであるとみなされる：バリアントがｄｂＳＮＰ（ｖ．１４７）またはＥｘＡＣ（ＴＣＧＡなしのＥｘＡＣコンパイルのバージョン）に存在し、好ましくは、１．１０^４より高い集団内頻度（ｄｂＳＮＰまたはＥｘＡＣのいずれにおいても）である。体細胞バリアントは、ＣＯＳＭＩＣ、ＩＣＧＣまたはＴＣＧＡに存在するが、ｄｂＳＮＰに存在しないし、ＥｘＡＣにも存在しないバリアントと規定される。

体細胞変異体タンパク質バリアントの存在（例えば、個体の血液における）は、それ自体、腫瘍の存在の徴候であり得る。これは、高い変異率を有している腫瘍（例えば黒色腫）特に当てはまる。

腫瘍に排他的に起因する体細胞変異体タンパク質のより正確な同定のために、患者のサンプル（例えば、血液または血漿または血清または涙または尿または唾液または便または呼気凝縮液または洗浄液または滲出液または髄液などの）を、処置（例えば、手術、放射線、化学療法、生物学的療法、免疫療法など）の前後に分析してもよい。処置後の体細胞変異体タンパク質の減少は、腫瘍との排他的な関連性および最終的にはそれらの腫瘍応答を確定させる。これは、そのような測定または患者のモニタリングのために行うことができる。

本発明の方法の、考えられる他の用途は、移植後のレシピエントの応答を、レシピエントの身体から採取されたサンプル中のドナーのペプチドの選択および定量によって、モニターすることである。レシピエントのサンプル（例えば、血液または血漿または血清または涙または尿または唾液または便または呼気凝縮液または洗浄液または滲出液または髄液などの）におけるドナーペプチドの増加量の同定は、移植された臓器の拒絶反応または拒絶のリスクの徴候である。

タンパク質における多型の解析は、ドナーおよびレシピエントの両方で別々に行われる。これらの多型がいったんドナーおよびレシピエントと結び付けられると、多型ペプチドの同定は、ドナーおよびレシピエントにも固有に関連付けられる。非排他的な多型は考慮されない。

定量は、任意の標識を含まない定量法を用いて、例えばＬＣ／ＭＳスペクトルにおける曲線の下にある面積の積分によって、行うことができる。正確な定量のために、ＳＲＭ／ＭＲＭなどの標的化されている定量法を使用することができる。多型が確立され、多型ペプチドの転位が利用可能になると、個体におけるそれらのモニタリングを容易に行うことができる。

さらに、個体間における、ペアワイズなバリアントに基づく一致の計算が実行される。この方法は図８に概略的に示されており；存在物８０２と存在物８０４との間における、それらのバリアント８０３および８０５に基づく、対応８０６が、決定される。被検者からの２つのサンプルｓ_ａ，ｓ_ｂを分析し、それらの一致Φ（ｓ_ａ，ｓ_ｂ）を、任意に確率的な解釈を用いて、本発明の方法を用いて決定する。本方法の以下の説明において、φはバリアントに基づく、その集団内頻度に対する関数を示す（このような関数は、例えばｄｂＳＮＰデータベースにおける集団内頻度から導出され得る）。

一致は、特定の方法ｍ_ａ，ｍ_ｂを用いて同定されたマッチングバリアントの数に明確に基づいており、例えば、以下の通り：

代替的に、一致は確率論的な用語であり得る。前記目的のために、Γは、サンプルに基づく、その真の起源に対する関数であり、ここで、起源ｅは、全てのバリアントの部分集合である（２つの異なる起源が同じバリアントを有する確率を無視する）。同じ起源を有する２つのサンプルの確率は、観察された一致が与えられると、

である。

さらに代替的に、ランダムに少なくともｘ以上の極端なマッチの確率が使用され得る：

サンプルに適用されるバリアントの同定の方法ｍは、起源におけるバリアントを正確に同定することができ、もし同定されたバリアントが両方のサンプルにおいて等しいなら、かつそうであるときに限り、起源は同じであるが、このような状況は実際にはほとんどない。

いくつかの実施形態では、サンプルに適用される方法ｍは、サンプルにおけるバリアントの割合ｒを同定する。この割合は、事前には未知であり得る（またはそれは、サンプルの濃度などに依存し得る）が、サンプルが既知の集団から引き出されるという事実は、その導出のために利用され得る。この場合に、既知の集団内頻度を有しているサンプルにおけるバリアントの予想される数は、

である。バリアントｖの存在および方法ｍを用いたその同定の両方の確率は、Ｐ^ｍ＋（ｖ）と示される。

いくつかの実施形態において、バリアントの同定は、バリアント自体と独立であり得、したがって、同定の確率は各バリアントについて等しい。他の実施形態では、当該確率は異なり得る。それにもかかわらず、ｎのバリアントが方法ｍを用いてサンプルにおいて同定されるなら、そのとき、用い同定の確率は、
同定されたバリアントの実数である同定されたバリアントの予想数：

と表され得る。

ショットガンプロテオミクスでは、バリアントの同定の確率をモデル化することが有用である。このような同定は、タンパク質が豊富であるほど測定され易いので、バリアントの存在量の関数としてモデル化され得る。これは、偶然による一致の確立にも重要である。なぜなら、非常に豊富なタンパク質における高い集団内頻度のバリアントの同定は、ランダムな個体についてさえほぼ完全に同等だからである。バリアントの同定の確率は、その存在量としてタンパク質ごとの基準よってモデル化することができる。しかし、０－１値域にある存在量を有効に正規化する、（同定された基準ペプチドによる）タンパク質ｐのカバレッジＣ（ｐ）として、モデル化することが好ましい。複数のペプチドによって高度に網羅されているタンパク質は、低いカバレッジを有しているタンパク質とは逆に、（バリアントが存在するなら）高い確率の、バリアントの同定をもたらす。さらに単純化のために、カバレッジは遺伝子に対して計算され、遺伝子に対して固有にアラインメント可能なペプチド（約９０％）に制限され得る。そのとき、遺伝子のカバレッジ範囲は、タンパク質（遺伝子に対応する）の平均のカバレッジと規定され得る。これに続いて、以下の通りに（４６）が成り立つように、同定の確率のさらなる正規化が行われる。

一致モデルに応じて、少なくとも同等に良好な一致（４４）が、異なるアプローチを使用して計算されてもよい。一般に、確率は、実行可能な方法、例えばモンテカルロ・シミュレーションを用いて数値的に計算することができる。以下の段落は、マッチングバリアントの数（４２）を論じる。

通常、特定のバリアントｖの、方法ｍ_ａ、ｍ_ｂを用いたランダムなマッチの確率は、これらの事象が統計的に独立しているなら、

である。しかし、いくつかのペプチドが他のペプチドより同定に適している（例えば、イオン化特性のために）ので、その状況は、ショットガンプロテオミクスではより複雑である。換言すれば、第１のサンプル変化におけるバリアントの同定は、通常、第２のサンプルにおけるバリアントの同定の確率を上昇させる。

この効果は、両方のサンプルにおけるマッチングタンパク質のカバレッジのペアワイズ比較によってモデル化され得る。Ｃ_ａ（ｐ）がサンプルａにおけるタンパク質ｐのカバレッジであり、Ｃ_ｂ（ｐ）がサンプルｂにおけるタンパク質ｐのカバレッジであると仮定する。均一に分散されるなら、期待される共通のカバレッジは、Ｃ_ａ（ｐ）・Ｃ_ｂ（ｐ））である。しかし、個々のペプチドには優先傾向があるので、実際の共通のカバレッジは一般により高い。関係は、様々な方法でモデル化することができる。巨大な集合の利用可能なデータを与えると、それは、ｋ最近傍回帰を用いてもモデル化することができる。ここで、回帰モデルは、関数ｋ（５近傍、ユークリッド距離）として表される。したがって、（４８）のような確率の乗算の代わりに、それは、

のように計算される。

一致モデルが、多数のマッチングバリアント（４２）であるなら、（４４）の計算は例えば、２項分布を使用して近似することができ、１試行における成功の確率は、全バリアントにわたる（４９）の平均値に等しい。

存在物の独自性の決定は、ショットガンプロテオミクスおよび多くの他の分野で一般に出くわす質量スペクトルの解釈の問題を解決する。

本発明の方法はまた、独自性の決定のため、特にプロテオームの質量スペクトルに基づく細胞株の鑑定または個体の同定のために、使用され得る。

前記方法はまた、宿主生物のプロテオームの質量スペクトルに基づく非宿主生物の同定のために、特に微生物感染またはコロニー形成の診断のために使用され得る。

前記方法はまた、体液タンパク質の質量スペクトルに基づく腫瘍の存在の同定、または体細胞変異体の存在または非存在による腫瘍特性の推定のために使用され得る。

前記方法はまた、レシピエントの生物学的材料の質量スペクトルに基づく、臓器移植のモニタリングおよび移植拒絶の早期検出のために使用され得る。

〔発明を実施する例〕
（実施例１－存在物の独自性の決定）
分析データの収集
本実施例は、ショットガンプロテオミクスにおける未知のペプチドについて収集された分析データの断片質量スペクトルを示す。ＭＳ／ＭＳスペクトルの具体例は、図９に示され、存在物の決定工程は図９にさらに説明されている。

独自性候補の、計数による取得
図９におけるスペクトルに関する独自性候補は、その説明が以下の通りである計数によって得られる。特定のアミノ酸（修飾されていても）の後における切断の確率は、図６ｂに指定されている。いくつかの修飾の確率は、図６（ｃ）のように設定された。残りの修飾（置換ではない）は、０．００１の事前類似確率に設定された。アミノ酸置換の事前類似確率は、所定のコドンのヌクレオチド置換の数に少なくとも依存するように設定された。置換が１つのヌクレオチド変化において（コドンの任意の組合せについて）生じ得るなら、それは０．０００２＝ｑであり、そうでなければ、その累乗であり；したがって、ｎがヌクレオチド置換の最小数であるなら、そのときの事前類似確率はｎ^ｑである。コードされているアミノ酸および末端の事前類似確率は、アミノ酸およびその全修飾の事前類似確率の和が１に等しくなるように設定された。アミノ酸の修飾の小部分リストを、それらの事前類似確率と共に、以下の表に示す。

次のステップでは、４・１０^－６より高い出現率を有する全ての独自性候補が取得され、計算された前駆体質量の５ｐｐｍ（百万分率）以内の候補のみが考慮され、最高出現率から順序付けられている。抜粋は以下の表に示されている。

前駆体質量の、５ｐｐｍの違いを、使用した質量分析計（ＯｒｂｉｔｒａｐＥｌｉｔｅ）の精度にしたがって、選択した。実験条件に依存して、前駆体許容範囲は、オープンサーチまたは総体（前駆体質量に依存しない全ての独自性候補が考慮される）であるとき、大きく広げられ得る（例えば、５００Ｄａ）。これらの場合には、質量差は、オープンサーチにおいて通常のように、さらに一部に局在される（または複数の修飾およびそれらの局在に分解される）が、局在化された質量を有する独自性候補の出現率は、修飾の対応する出現率によってさらに更新される。

４・１０^－６の限界出現率は、現在の大部分の実験にとって十分に低くなければならない。実験当たりのスペクトルの数は、数十万のオーダーであり；このような場合、より低い最小出現率を考慮に入れると、多くても数ペプチドが同定されると予想される。

スコアの計算
一致
この項目は、ペプチドの理論上のスペクトル、および実験理論上の（測定された）スペクトルの一致を説明する。（実験上のスペクトルおよび理論上のスペクトルの）マッチングピークの数は、特定の一致モデルとして使用される（図１０）。この例では、一価イオン（ｂ、ｙ）のみが理論上のスペクトルの予測に使用される。図１０における一致は、上下にわけて置かれている２つのペプチド（前のステップで計数されたものから）について示されている。プレフィックス（ｂ）イオンは、ＭＳ／ＭＳスペクトルのより近く示され、サフィックス（ｙ）イオンはより遠くに示されている（上および下の両方において）。実験上のスペクトルにマッチするイオン（０．３Ｄａの断片許容範囲）は、より濃い部分である。一致は、マッチングピークの総数に対応する。個々のペプチドの一致は、以下の表（最初の数個のペプチドは、最も高いスペクトルマッチングから順に並べられている）に示されている。

最大確率
以下の表は、一致および事前類似確率から計算された、独自性候補の最大確率（Ｐ_ｍａｘ列）を用いた独自性の決定を示しいる。

確率
以下の記載は、ベイズの定理を用いた正確さ確率（Ｐ）の関連付けを説明する。本目的のために、真の一致およびランダムな一致のモデルを明確にする。

真の解釈の一致は、以下のようにモデル化される。一致は、Ｘ！Ｈｕｎｔｅｒのスペクトルデータベースからの、解釈された複数のスペクトル（真の解釈と仮定される）によって評価される。挙動（図１１）は、二価の断片質量スペクトルについてのみ示される。この例では、モデルは、残基数の全体にわたる平均の挙動とみなされている。これは、残基数の全体にわたる挙動がペプチドの長さに全く依存しないので、重要である。

このスペクトルについてのランダムな解釈の一致は、図１２に可視化されている。この例では、ランダムな一致の確率がマッチングピーク数の増加につれて２０倍だけ減少するように、ランダムな一致は、モデル化される。

事前類似確率からの事前確率の導出において、（２３）のｃは、１．０に等しく（これは、真の解釈が候補の範囲内にあるという仮定である）、確率の確立を可能にする。独自性候補の、関連する確率を、以下の表に示す。

追加の／裏付ける基準
分析データに対応する一連のもの（トリプシン処理した基準ヒトペプチド、５ｐｐｍ前駆体質量差、０．１の統計的有意さ）を、さきに説明されているような真の解釈の選択に、使用した。

前駆体質量差
図１３は、真の解釈のための前駆体質量差の分布を示す。

保持時間
図１４は、予測される特定の理論上の時間およびその付近に対する、実験上の時間の分布（理論上の時間と明らかにずれている）を示している。対称差を仮定して、図１５は、分布の両端付近（＜５％）の解釈、および中心付近（＞９５％）の解釈の抽出を示す。

同位体分布差
前駆体質量差と同様に、図１６は、理論および実験同位体分布の間における差の分布を示す。

タンパク質証拠
タンパク質証拠の場合、仮定された真の解釈の８．１２９％は、同じタンパク質からの他のペプチドの存在なしであった。

追加の／裏付ける基準の組み合わせ
図１７は、裏付ける証拠の組み合わせを示し、類似する結果（≦５％）および類似しない結果（≧９５％）について分けている。例えば、類似する結果の場合に、保持時間が分布の中心に近づく（ｐが１に近づく）につれて、前駆体質量の差は、より大きくなり、９５％を超える確率を依然として達成し得ることが分かる。したがって、図は、これらの支持基準と、結果として生じる確率との間の数的な関係を捉えている。

図１８のＲＯＣ曲線は、裏付け証拠の使用による不正確な解釈の除去能力を示す。フィルタリングは、バリアントペプチドの解釈（Ｘ！Ｔａｎｄｅｍにおける０．１の、スペクトルの統計的な有意性のＥ値）によって評価される。ＲＯＣ曲線において、真の解釈は、配列決定による裏付け（配列決定において見られるバリアントも）を有する解釈と仮定される。証拠を裏付けることが、誤った解釈の除去に役立つことは、明らかである。例えば、ここでは、配列決定によって裏付けられていない結果の約５０％が除去され、配列決定によって裏付けられている結果の約９０％が維持される。

以下の表は、裏付ける基準に基づく関連する証拠、およびそれらの組み合わせの値を含む。

組み合わされたｐは、おそらく正しくないマッチの除去に使用され得る。この場合、１０％の正しい結果の、予想される除去を選択すると、第１の解釈（スペクトルマッチの観点から最も高いスコア）は除去されない。

独自性の決定
最大確率
この実施例における独自性の決定は、最大の一致でありかつＰ_ｍａｘ＝１を有する解釈を、選択することに基づいている。このような解釈は、せいぜい１つであり得り、所定の一致モデリングおよび出現率モデリングにとって最良の候補であり；それは、先の表における第１の解釈である。

確率
この実施例における独自性の決定は、０．５より高い確率を有する解釈の選択に基づいており；このような解釈は、せいぜい１つであり得り、最も有望な解釈である。この実施例では、それは第１の解釈であり、決定される独自性はＰ_ｍａｘおよび最大の一致を用いる先の例と同じである。

実施例２－観察された変異バリアントタンパク質および多型タンパク質の同定
システム概要（図１９）は、バリアントペプチドの同定用のショットガンプロテオミクスにおける、出現率モデル（図１）の組み込みの例１０２を表す。本実施例では、独自性候補は、最初にデータベース検索において採点され、出現率の使用によってさらに再評価されて、それらの正しさの最大確率を得る。

一般に、同定システム１９０１は１０２．１に対応し、排斥システム１９０２は出現率モデル１０２．２を含むシステムに対応する。Ｘ！Ｔａｎｄｅｍ用の検索データベースは、バリアントｍＲＮＡの翻訳によって構築されたバリアントペプチドfastaファイルの形態として表され、それからの抜粋は以下の通り：
＞ＩＤ－００００００００なし
ＮＥＩＰＩＲ（配列番号１９）
＞ＩＤ－０００００００１なし
ＡＡＶＡＡＩＴＱＡＬＶＧＲ（配列番号２０）
＞ＩＤ－０００００００２なし
ＳＰＰＬＰＧＤＬＧＧＰＳＫ（配列番号２１）
＞ＩＤ－０００００００３なし
ＬＳＡＡＱＴＮＧＧＧＳＡＧＭＥＧＩＭＮＰＹＴＡＬＰＴＰＱＱＬＬＡＩＥＱＳＶＹＳＳＤＰＦＲ（配列番号２２）
＞ＩＤ－０００００００４なし
ＮＴＥＩＬＴＧＳＷＳＤＱＴＹＰＥＧＴＨＡＩＹＫ（配列番号２３）。

計数を介して得られ（図６）、かつ事前類似確率と共にペプチドデータベースとして記憶されたディープデータベース１９０２．１は、出現率モデルに対応する。所定の前駆体質量範囲について解釈がロードされるので、データベースを記憶すること、および前駆体質量によってデータベースに索引を付けることが好ましい；そのような記録の抜粋が、ここに示される。

さらに、広範な質量（例えば、７００Ｄａ～２５００Ｄａ）のためのデータベースをまず構築し、より狭い範囲（例えば、０．０１Ｄａ）にあるペプチドに索引をさらにつけて、計算時間を節約することが好ましい。

排斥システム１９０２は、独自性候補の再評価のための出現率モデル（図２、２０３．Ｂに対応する）の組み込みの例である。独自性候補の正しさの最大確率が評価され、候補の排斥のために使用される排斥は、独自性候補の再評価を指示する。

独自性候補の取得、バリアントのペプチドデータベースにおけるデータベース検索
処理は、結腸直腸癌細胞株ＨＣＴ１１６について評価された、サンプルにおけるバリアントペプチドの同定について、段階的に示される。複数のステップは、３つの段階：ｉ）データベース検索を使用するスペクトルマッチ、ｉｉ）追加情報の割り当て、ｉｉｉ）追加の独自性候補の取得に分けられ得る。

第１のステップでは、バリアントペプチドデータベースがデータベース検索方法、ここではＸ！Ｔａｎｄｅｍを用いて検索される。スペクトルおよびバリアントペプチドのマッチングは、初期結果を与え、１つの例が、最も有意な一致（Ｅ値）を先頭にすることによって順序付けられている以下の表に示されている。

バリアントペプチドには、それらが正しい解釈であることを意味しないが、非常に重要な多くのマッチがある。

第２のステップにおいて、バリアントペプチドは、基準タンパク質をコードする配列（ＥＮＳＥＭＢＬ、ヒトゲノム）に対してアラインメントされ、基準ゲノムに対するそれらの距離が計算され、追加の情報が付される。１ヌクレオチド変化の結果であり得る基準ペプチドのみが、本実施例では考慮される（これはまた、このようなペプチドの出現率が非常に高く、同定タスクを単純化するためである）。さらに、ここでは、１つのゲノム位置にアラインメントされ得るペプチドのみが考慮される（このような決定は、いくつかの利点（例えば、集団内頻度を導く利点、またはマッチングサンプルのヌクレオチド配列決定に対する対応を算出する利点をさらに有している、ペプチドから導かれるヌクレオチド変異を明らかにことがより容易である）を有している）。この処理の結果の抜粋が、以下の表に示されている。

第３のステップでは、バリアントペプチドの解釈を伴うそれぞれのスペクトルについて、全ての独自性候補（４・１０^－６の最小事前類似確率）が、（上述のように）計数される。

スコアの計算－最大確率
解釈の最大確率が明らかにされる。この手順の結果を以下の表に示す。

さらに、欄「裏付け」は、細胞株と一致する配列決定による裏付けを含み；このようなバリアントが配列決定において観察されるか否かを示す。統計的に有意な多くの結果は、配列決定によって裏付けられないことがわかる。しかし、それはまた、低いＰ_ｍａｘを有しており、排斥され得る。この例における、ただ２つの、配列決定によって裏付けられた結果は、Ｐ_ｍａｘ＝１を有する。

独自性の決定－最大確率
ここで用いられている独自性の決定ための基準は、最大スペクトル一致およびＰ_ｍａｘ＝１であった。

結果－最大確率
同定されたバリアント
方法を、人の家族構成員（図２１）におけるバリアントの同定のために使用した。以下の表は、同定されたバリアントペプチドの数およびそれらの配列決定による裏付け（エキソーム配列決定に対して評価される）を、各家族構成員について分けて含んでいる。

なお、特定のサンプルのエキソーム配列決定は、グローバルデータベースの構築には使用されなかった。エキソーム配列決定に対する、配列決定による裏付けの評価は、生殖系列バリアントが十分な割合で常に存在するので、生殖系列バリアントにとって最も重要である。

翻訳されたエキソームからのプロテオームとの比較
先の表はまた、エキソーム配列決定の知識を使用して全てのバリアントを有するプロテオームを作製したときの、同定されたバリアントの数の比較を示す。このような場合、生殖系列バリアントは、以下の状態（バリアントが少なくとも１人の親および１人の子に認められた）において、エキソーム配列決定に基づいていた。結果は、サンプルの配列決定が利用可能であっても、生殖系列バリアントの約８０％がグローバルヌクレオチドデータベースの使用によって、（約９５％の配列決定との一致において）同定されるので、その利点が制限されることを示唆する。

エキソーム配列決定による裏付けの不完全性
配列決定による裏付けが評価されるいくつかの場合において、結果は、配列決定によって裏付けられていないが、正しいいくつかの解釈を含み得る。これは、いくつかのバリアントが、図２０に示されるような周囲領域の低い配列決定カバレッジのために、配列決定によってほとんど裏付けられないためである。そのため、事前の比較において、１０リードカバレッジを有している領域が、比較から排除された。

実施例３－細胞株の鑑定
本実施例は、細胞株の同定のための請求されている方法の利用を示す。分析は、ＮＣＩ６０パネル（Ｇｈｏｌａｍｉら（２０１３）ＣｅｌｌＲｅｐｏｒｔｓ，４（３）：６０９－６２０）の一般に入手可能なデータによって実施される。バリアントは、先の実施例（図１９のシステムアーキテクチャ）と同様に同定した。遺伝的起源の確立のために、高い集団内頻度（ｄｂＳＮＰにおいて特定されるときの１％以上）のバリアントのみが考慮された；この種のバリアントは、ほとんど生殖細胞系バリアントであり、同定が容易であり（より有望な解釈が経験的に少なく、Ｅ値＜０．１の統計的有意さがしばしば十分である）、起源の同定に適している。

起源のデータベースに対するマッチング
起源の同定は、ＮＣＩ６０エキソームデータベース（Ｓｈａｎｋａｖａｒａｍｅｔａｌ．（２００９）ＢＭＣＧｅｎｏｍｉｃｓ、１０（１）：２７７）に対して行われ、真の起源は、考慮される起源の範囲内（したがって、ＮＣＩ６０エキソームデータベース内）にあると仮定された。

起源のデータベースをマッチングする処理は、ＮＣＩ６０プロテオームからの特定のサンプル（Ｐ０００１７５１）によってさらに示される。多型ペプチドに限定されたバリアントペプチド同定の結果の抜粋を、以下の表に示す。

多型ペプチドは、エキソーム配列決定データとのマッチを計算するために使用され、起源の正確な決定の確率の計算のために使用され、結果の抜粋は以下の表に示される。

データは、考慮される起源内では最も有望な細胞株がＰＲ：ＰＣ３であることを示す。Ｐ０００１７５１のメタデータでは、細胞株は、ＲＥ：ＳＮ１２Ｃとして要求されていることが分かり、したがって、細胞株が誤って識別されている可能性が高いと結論付けられ得る。

手順を、データセット中の全てのプロテオームにわたってさらに実施した；結果は、以下の表に視覚化されており、おそらく誤って識別されている２つの細胞株を示している。

誤って識別された細胞株の同定は、不正確に引き出された結論の伝播を防ぎ、科学的結果の再現性に寄与するので、非常に重要である。

実施例４－人の識別
本実施例は、人の同定のための方法の利用を示す。分析は、特定の構成を有している家族の内部データ（図２１）に対して行われる。

起源のデータベースに対するマッチング
本実施例は、細胞株のマッチングに類似している。起源のデータベースは、家族構成員の配列決定データベースに対応する。同じ方法が割り当てに使用される。

結果
同定結果を以下の表に示す。

唯一の誤同定が、一卵性双生児の場合に起こり、高確率のエラー（０．４）によって示された。

実施例５－２個体間における遺伝的関連性の存在
本実施例は、遺伝的関連性の決定のための、同定されたバリアントの利用を示す。この目的のために、家族構成員（図２１）の血中リンパ球におけるバリアントを、プロテオミクスデータにおいて同定した（バリアント同定のアーキテクチャは、独自性候補内の最大の一致としての独自性の決定、およびＰ_ｍａｘ＝１を用いて、図１９のように行われた）。

マッチの有意さの計算
マッチの有意さの計算が、さらにここで説明される。遺伝的起源の同定と同様に、１％（ｄｂＳＮＰにおける集団内頻度としての）を超える出現率のバリアントのみが、マッチ（これらのバリアントはほぼ生殖細胞バリアントである）の算出のために用いられた。

ペアワイズマッチの計算には、データの組織化に役立つ表構造を確立することが有益である。このような表構造の小さい部分集合は、以下の表に視覚化されている。

上記表において、各行は特定のバリアントに対応する。「ｐ＋」は、データベースからのバリアントの集団内頻度を、Ｐｍ_ａ＋（ｖ）は、サンプルａにおける個体の遺伝子のカバレッジの増加および集団内頻度を指す。ｂについても同様である。ｋ（Ｐｍ_ａ＋（ｖ）、Ｐｍ_ｂ＋（ｖ））は、両方のサンプルにおけるその同定の確率を指す。

マッチの有意さの計算は

の平均値を用いた二項分布によって近似された。

この方法（二項分布による近似）の結果は、さらにここに示されている。

結果
方法は、すべての家族構成員（図２１）に対してペアワイズにさらに適用され、ヒートマップ（図２３）は、少なくとも良好な、それらの間のマッチである結果を示す。関心は、ランダムに少なくとも良好なマッチである確率（４３）の算出にあり、当該確率はヒートマップ上の色として可視化されている。

実施例６－ヒトにおける腫瘍の存在
本実施例は、血清にある腫瘍特異的な循環タンパク質の同定のための実施形態を示す。本実施例において、ＰＲＩＤＥ上にあるアクセス可能な、一般に利用可能なデータ（識別子：ＰＸＤ００４６２４、ＰＸＤ００４６２５、ＰＸＤ００４６２６）を、変異タンパク質の同定のために使用した。バリアントの同定のために、図１９に対応する同じ方法を使用した。

バリアント状態の決定
腫瘍に起因する変異の選択
本実施例では、腫瘍に起因する変異は、すべて体細胞変異と同定されると仮定された。

結果
結果（図２４）は、メラノーマがん患者における変異ペプチドの存在を示しており、進行した悪液質の患者により多く存在し、あまり進行していない非悪液質の患者により少なく存在し、コントロールにはほとんどない。本実施例では、変異ペプチドは、腫瘍の存在およびがんの程度／段階と大まかに関連し得る。

実施例７－異種移植モデルにおける移植ペプチドの同定
本実施例では、ヒトの基準タンパク質およびバリアントタンパク質は、マウス異種移植から得られた血清中で同定される。実験の構成は図１９に基づいており、独自性候補の計数における差が、さらに説明される。

独自性候補の取得、独自性候補の計数
候補の計数において、ペプチドは、両方の生物（ここではマウスおよびヒト）について、４・１０^－６の事前類似確率である条件を限定して、計数された。ヒトについて計数されたペプチドの事前類似確率は、マウスに対するヒトの出現率の相対的な差によって乗算される（ここでは、実際に、線型的に縮尺される）。数は、特定の実験環境について導出される。

異種移植におけるペプチドの出現率
ｐ＝０．２５の、本実施例における割合は、相同ペプチド、および異種タンパク質証拠から推定され、先に説明されている。相同ペプチドおよびそれらの異種タンパク質証拠に対応する表構造をここに示す。

独自性の決定
Ｐ_ｍａｘ＝１および最大のスペクトル一致を有しているペプチドが、維持される。

結果
同定方法は、マウスに移植された広範ながん組織にわたるヒトタンパク質バイオマーカーの同定のために使用された。結果（図２５）は、免疫不全のＳＣＩＤマウスにおける、ヒトペプチドの存在およびそのようなペプチドの全体的な欠如を示し、結果の信頼性を示している。

実施例８－非宿主生物の同定
本実施例は、宿主生物におけるマイコプラズマの診断のための、出現率の利用を示す。この場合、非宿主生物の出現率は、未知と仮定されるため、上述のときより、複雑な状況を指す。

独自性候補の取得
特定の質量スペクトルのために、基準マイコプラズマペプチドに対して（全生物のなかから）、およびすべてのヒトペプチドに対して（（４・１０^－６の事前類似確率））、排他的にマッピングするペプチドを、取得した。以前に記載されたように、マイコプラズマペプチドは、計数された任意のヒトペプチドより非常に低い出現率と規定された。

独自性の決定
最大の一致およびＰ_ｍａｘ＝１のマイコプラズマペプチドのみが維持された。

結果
この同定アプローチは、ＰＲＩＤＥ集積における一部の計画に適用され、マイコプラズマの診断の結果は、図２６（配列番号９６～１３１）に示されている。

実施例９－変異の同定のための同位体標識の使用
以下の実施例は、サンプルの細胞培養におけるアミノ酸による安定同位体標識（ＳＩＬＡＣ）を用いた軽同位体および重同位体形態の両方の存在の、バリアントの同定のための有用性を示す。バリアントの同定は、先の実施例（図１９）と同様に行った。

独自性の決定
この場合における追加の基準は、目的のペプチドの、軽い形態および重い形態の両方の同定である。

結果
ＳＩＬＡＣ対形成、およびバリアントの配列決定による裏付けに対するその影響の分析を、２つの基準（最初の有意性：Ｅ値≦０．１）および排斥後（Ｐ_ｍａｘ＝１）について解析した。以下の表の結果は、対で同定されたペプチドが、非常に高度な配列決定による裏付け（マッチングサンプルの配列決定に対して評価されるとき）を有することを示す。

この差は、低い集団内頻度のバリアント（ほぼ体細胞変異）に最も顕著であった。したがって、同位体標識は、体細胞変異の同定の特異性を高めるために利用され得る。

実施例１０－スプライシングバリアントの同定
独自性候補の取得、独自性候補の計数
スキーム（図２７）は、代替的にスプライスされたタンパク質（およびそれらの出現率）が基準エキソンに基づくタンパク質モデルから構成される、計数を指す。このスキーマは、一般的な計数（図５）と、構成単位の直接的な対応関係にある。

特定のタンパク質の計数は、対応する遺伝子の個々のエキソンが存在するまたは存在しない、基準エキソンに基づくタンパク質モデル２７０１から始める。このようなモデルは、モデルにおけるエキソンの存在を表すバイナリベクトルによって表すことができる。様々なタンパク質モデル２７０２は、出現率に対して関連する影響を有しているエキソンインクルージョン事象またはエキソン排除事象２７０３によって構築される。

いくつかの実施形態において、出現率は事前類似確率で表され、エキソンインクルージョンまたはエキソン排除は、これらの事象の割り当てられている確率である。

計数処理は、制限する最小出現率条件２７０４が満たされるまで続く。タンパク質モデルは、個々のエキソンの連結によって変形され、対応するそれらの出現率を有するタンパク質２７０５に翻訳され、当該出現率は出現率モデル２７０６をさらに構成する。このように構築されたタンパク質は、例えば、同定におけるトップダウンプロテオミクスにおいて直接に使用され得る、またはタンパク質は、ボトムアッププロテオミクスにおける使用のためにさらに消化され得る。

実施例１１－腫瘍、タンパク質バリアント、臨床的特徴との相関の同定
この実施例は、腫瘍サイズおよび対応する疾患段階の同定のための実施形態を示す。ここでは、ＣｌｉｎｉｃａｌＰｒｏｔｅｏｍｉｃＴｕｍｏｒＡｎａｌｙｓｉｓＣｏｎｓｏｒｔｉｕｍの一般に利用可能なデータ、特にＴＣＧＡＣｏｌｏｒｅｃｔａｌＣａｎｃｅｒは、図１９に対応する同じ方法を用いた変異タンパク質の同定のために使用された。

結果
体細胞バリアントおよび生殖系列バリアントの決定パラメータは以下の通りである。生殖系列バリアントは、以下のようにみなされる：バリアントはｄｂＳＮＰ（ｖ．１４７）またはＥｘＡＣ（ＴＣＧＡなしのＥｘＡＣ編集のバージョン）に存在し、好ましくは１．１０^－４より高い集団内頻度（ｄｂＳＮＰまたはＥｘＡＣのいずれにおいても）のバリアントである。

図２８の結果は、同定されたバリアントの挙動を示す。全ての基準ペプチドのなかの、同定された体細胞変異ペプチドの割合は、図２８ａに視覚化され、腫瘍段階の進行にしたがった、変異の割合の明らかな増加を示す。したがって、特定の基準測定システムによれば、体細胞変異の増加は、腫瘍段階と強い相関を示す。同様の、しかしより顕著な影響が、ヌクレオチド配列決定を用して導出されるときに、認められ得る（図２８ｂ）。最後に、プロテオミクスを用いて導出された、生殖系列バリアントの割合は、腫瘍段階との関連を示さず、それは、体細胞変異の影響（より進行した段階における、より大きい腫瘍の異種性に起因して増大する）であることを示している。

同定方法への出現率モデル組み込み物の模式図である。再評価のための出現率モデルの組み込み物の模式図である。同定システム内にある出現率モデルの組み込み物の模式図である。独自性候補の選択に影響する、出現率モデルの組み込み物の模式図である。計数の模式図である。ショットガンプロテオミクスにおけるペプチドの計数の模式図である。起源の同定のためのバリアントの使用を示す。存在物間の対応を評価するための模式図である。タンデム質量分析を用いて測定された特定の前駆体のＭＳ／ＭＳスペクトルを示す。ショットガンプロテオミクスにおける特定の一致モデルの挙動を示す。ショットガンプロテオミクスにおける真の解釈の特定の一致モデルの挙動を示す。ショットガンプロテオミクスにおけるランダムな解釈の特定の一致モデルの挙動を示す。真のマッチのための、前駆体質量差の分布の例である。所定の理論上の保持時間における、保持時間の、実験上の分布の例である。保持時間の極端な挙動に基づく真のマッチの選択を示す。理論上の同位体分布および実験上の同位体分布の差の分布を示す。前駆体質量差および保持時間の、１つの値への合成の例を示す。前駆体質量差、同位体分布差、保持時間、およびタンパク質証拠が単一の基準に組み合わされているときのフィルタリングの出力を示す。ショットガンプロテオミクスにおける出現率モデルの組み込み物の特定の例の模式図である。低い配列決定カバレッジの領域のための、エキソーム配列決定データの起こり得る不完全性を示す。対応の計算のための、家族構成を示す。ペアワイズ比較における基準タンパク質のカバレージの挙動を示す。家族構成員間における、ランダムに少なくとも良好なマッチであることの計算を示す。腫瘍特異的な循環タンパク質の同定の結果を示す。マウス異種移植モデルにおけるヒト変異バイオマーカーの同定を示す。微生物ペプチドの同定を例示し、ヒト材料および動物材料におけるの微生物病原体の診断のための、実用的な用途を実証する。プロテオミクスにおけるスプライスバリアントの計数の模式図である。腫瘍サイズ対同定されたペプチド間の体細胞バリアントの割合の対応を示す。

Claims

少なくとも１つの存在物の質量スペクトル、および任意に当該少なくとも１つの存在物の化学的、物理的、生化学的または生物学的な分析からの追加のデータから、当該少なくとも１つの存在物の独自性を決定するための方法であって、
前記存在物は、ペプチド、タンパク質、脂質、核酸、代謝産物、および２０００ｍｏｌ／ｇ以下の分子量を有する分子から選択され、
ａ）前記存在物の質量スペクトルから分析データを収集し、任意に、前記存在物の化学的、物理的、生化学的または生物学的な分析から追加の分析データを収集するステップと、
ｂ）前記存在物の複数の独自性候補を取得するとともに、当該存在物の当該複数の独自性候補の事前確率もしくは事前類似確率を取得するステップであって、各独自性候補に関しては、該複数の独自性候補に含まれた独自性候補の事前確率もしくは事前類似確率よりも高い事前確率もしくは事前類似確率の独自性候補があればその全てが当該複数の独自性候補に含まれるようにする、ステップと、
ｃ）少なくとも存在物の事前確率もしくは事前類似確率、または少なくとも、存在物の事前確率もしくは事前類似確率および質量スペクトルとの一致に関する、存在物の独自性候補のそれぞれについての、独自性候補のスコアの計算を行うステップと、
ｄ）存在物の独自性を、当該存在物の真の独自性におそらく対応するスコアに最も近いスコアを有している独自性候補として決定するステップと、
を含んでいる、方法。
前記ステップｃ）において、前記計算は、任意にベイズの定理を用いて、独自性候補の最大確率を計算すること、または独自性候補の確率を計算することを含んでいる、請求項１に記載の方法。
前記ステップｂ）において、事前確率もしくは事前類似確率の値は、前記存在物の集団内頻度、環境における前記存在物の修飾の確率、および、前記分析における前記存在物の修飾の確率のうちの少なくとも１つに基づいて計算される、請求項１または２に記載の方法。
前記ステップｂ）において、独自性候補を取得することおよび／または独自性候補の事前確率もしくは事前類似確率の取得は計数を含んでおり、当該計数が、
ｂ．ａ）初期事前確率もしくは事前類似確率を有する初期独自性候補を選択するステップと；
ｂ．ｂ）前記初期独自性候補を、独自性候補のベースに送るステップと；
ｂ．ｃ）前記独自性候補のベースに対する事象の適用によって新たな独自性候補を生成して、前記新たな独自性候補を前記独自性候補のベースに取り込み、制限条件が満たされる限り前記生成を継続するステップと；
ｂ．ｄ）ステップｂ．ｃ）において取得された前記独自性候補のベースを、関連する事前確率もしくは事前類似確率を有する独自性候補に変換するステップと；
を含んでいる、請求項１～３のいずれか１項に記載の方法。
前記独自性候補がペプチドであり；事前類似確率が用いられ；前記初期独自性候補が、基準タンパク質の、Ｎ末端で切断されている直鎖状の部分配列であり；前記適用可能な事象が、修飾、置換および切断を含んでおり；前記制限条件が、所定の形態のペプチドの、最小事前類似確率である；または、
前記独自性候補がタンパク質であり；前記事前類似確率が用いられ；前記初期独自性候補が、基準エキソンに基づくタンパク質モデルであり；前記適用可能な事象がエキソン排除およびエキソンインクルージョンを含んでおり；前記制限条件がエキソンに基づくモデルの最小の事前類似確率であり；存在物の前記変換がタンパク質コード配列へのエキソンの連結およびインシリコにおける翻訳である、請求項４に記載の方法。
前記存在物がタンパク質であり、前記ステップｂ）において存在物の前記独自性候補を取得するステップには、ヌクレオチドレベルで既知の変異を含むペプチドバリアントのデータベースにおけるデータベース検索を含んでおり、前記方法は、変異体で多形性を有するタンパク質の、プロテオームの質量スペクトルからの、同定のために使用される、請求項１～５のいずれか１項に記載の方法。
前記存在物がペプチドであり、
ｅ）多型ペプチドまたは生殖系列ペプチドとして決定されている存在物を、由来物のデータベースとマッチングさせるステップ
をさらに含んでおり、
前記方法は、プロテオームの質量スペクトルからの、細胞株の鑑定または個人の同定のために使用される、請求項１～６のいずれか１項に記載の方法。
前記存在物が非宿主ペプチドであり、前記ステップｂ）において、非宿主ペプチドの事前確率もしくは事前類似確率が、非宿主生物の事前確率もしくは事前類似確率にしたがって、縮小されており、
前記方法は、事前確率もしくは事前類似確率が既知の非宿主生物の、宿主生物のプロテオームの質量スペクトルからの同定のために、例えば宿主の微生物感染または宿主の微生物によるコロニー形成を同定するために、使用される、請求項１～７のいずれか１項に記載の方法。
前記存在物が非宿主ペプチドであり、前記独自性候補を取得することにおける前記ステップｂ）において、非宿主生物に対して一意にマッピングするペプチドが、宿主生物の計数されたペプチドに加えられ、非宿主ペプチドの事前確率もしくは事前類似確率が任意の宿主ペプチドより低く、
前記方法が、宿主生物のプロテオームの質量スペクトルからの、事前確率もしくは事前類似確率が未知の非宿主生物の同定のために使用される、請求項４～６のいずれか１項に記載の方法。
前記存在物がドナーペプチドであり、前記ステップｂ）において、ドナーペプチドの事前確率もしくは事前類似確率が、レシピエントペプチドの間におけるそれらの事前確率もしくは事前類似確率にしたがって、倍率をかけられており、
前記方法が、レシピエントにおける移植された組織に由来するタンパク質の同定のために使用される、請求項１～９のいずれか１項に記載の方法。
前記存在物がペプチドであり、前記方法が、
ｅ）腫瘍に起因する体細胞変異体バリアントペプチドを選択するステップ
をさらに含んでおり、
前記方法が、循環するタンパク質の質量スペクトルからの、腫瘍の存在の同定、または体細胞変異の数の増加を介した、腫瘍生物学的特性の評価のために使用される、請求項１～１０のいずれか１項に記載の方法。
前記存在物がペプチドであり、前記方法が、
ｅ）ドナーに起因する多型ペプチドの選択および定量を行うステップ
をさらに含んでおり、
前記方法が、レシピエントの生物材料の質量スペクトルから、移植する組織もしくは器官の監視、および移植片拒絶の早期検出のために使用される、請求項１～１１のいずれか１項に記載の方法。
前記存在物がペプチドであり、前記方法が、
ｅ）多型ペプチドに基づく２個体間の一致の有意さを見積もるステップ
をさらに含んでおり、
前記方法が、プロテオームの測定された質量スペクトルからの、２以上の個体間の遺伝的関係の存在の同定のために使用される、請求項１～１２のいずれか１項に記載の方法。