JP7218019B2 - 質量スペクトルからの存在物の同定の方法 - Google Patents

質量スペクトルからの存在物の同定の方法 Download PDF

Info

Publication number
JP7218019B2
JP7218019B2 JP2021503069A JP2021503069A JP7218019B2 JP 7218019 B2 JP7218019 B2 JP 7218019B2 JP 2021503069 A JP2021503069 A JP 2021503069A JP 2021503069 A JP2021503069 A JP 2021503069A JP 7218019 B2 JP7218019 B2 JP 7218019B2
Authority
JP
Japan
Prior art keywords
entity
prior
uniqueness
probability
peptides
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021503069A
Other languages
English (en)
Other versions
JP2021531586A (ja
Inventor
フルスカ,ミロスラヴ
ハイドゥク,マリアン
ジュバク,ペトル
Original Assignee
ウニヴェルジタ パラケーホ ヴ オロモウツ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウニヴェルジタ パラケーホ ヴ オロモウツ filed Critical ウニヴェルジタ パラケーホ ヴ オロモウツ
Publication of JP2021531586A publication Critical patent/JP2021531586A/ja
Application granted granted Critical
Publication of JP7218019B2 publication Critical patent/JP7218019B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Hematology (AREA)
  • Medical Informatics (AREA)
  • Urology & Nephrology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Food Science & Technology (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Cell Biology (AREA)
  • Biochemistry (AREA)
  • Databases & Information Systems (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

発明の詳細な説明
〔技術分野〕
本発明は、質量スペクトルからの存在物の独自性の決定の方法に関する。前記方法は、プロテオミクス、メタボロミクス、ならびにプロテオミクス、メタボロミクス、ゲノミクスおよびトランスクリプトミクスにおけるその応用において有用である。
〔背景技術〕
ディスカバリプロテオミクスは、信頼できる解釈をしばしば妨害する大量の希少な情報を含んでいる。ショットガンプロテオミクス、ボトムアッププロテオミクスのうち、発見に指向されているサブフィールドでは、タンパク質は、ペプチドに酵素的に切断され、消化されたサンプルは、分析器、最も一般的に液体クロマトグラフィーを用いた質量分析計に、徐々に導入される。質量分析では、典型的に各サイクルにおいて、完全な分子の質量が分析され、さらに関心のある分子の質量が、単離され、断片化され、第2の質量分析が断片に対して実施され、MS/MSスペクトルを生じる。同定の目的は、観察されたMS/MSスペクトルを生成するペプチドであり、ペプチドのタンパク質へのマッピングは、タンパク質同定タスクを完結させる。
膨大なプロテオームの複雑さのために、各断片スペクトルの潜在的な解釈の数は、膨大である。サイズは別として、全解釈の公平な考察さえ、高いスペクトル相同性が多くの解釈を等しく引き出す(新たなペプチド配列決定においてしばしば見られる現象)ので、限定的に有用である。実際には、同定は、SequestまたはX!Tandemのような検索エンジンを一般に用いた、基準ペプチドのはるかに小さいデータベース向けに意図的にバイアスをかけられている。参照検索は、多くのスペクトル(PRIDEリポジトリにおけるプロジェクトによって最近評価されたように約75%)を未解釈のまま残す。マッチしない多くのスペクトルは、翻訳後修飾を有するペプチドを含むこと、確信をもって明らかにされたが、大部分は依然として解釈されないままである。いくつかの説明(例えば、スプライシング変化、再編成遺伝子配置または新規遺伝子)は開かれたままであるが、マッチしないスペクトルはしばしば、ペプチドの特性を示す。ヒトプロテオームは約1万のペプチドアミノ酸部位において基準と異なるので、いくつかのスペクトルは、当然にバリアントに起因し得、それらの同定が本発明の目的である。
複雑なサンプルの分析結果の解釈に伴う同じ問題は、使用される分析方法およびサンプルの構造特性にかかわらず、複雑な混合物を扱う化学、生化学および生物学の研究の多くの他の分野において出くわす。
〔発明の概要〕
本発明は、少なくとも1つの存在物の質量スペクトル、および任意に当該少なくとも1つの存在物の化学的、物理的、生化学的または生物学的な分析からの追加のデータからの、当該少なくとも1つの存在物の独自性の、各存在物についての、決定のための方法であって、a)前記存在物の質量スペクトルから分析データを収集すること、および任意に前記存在物の化学的、物理的、生化学的または生物学的な分析から追加の分析データを収集すること、b)より高い出現率を有しているすべての独自性候補が複数の独自性候補に含まれていることは、独自性候補のそれぞれについて当てはまるので、前記存在物の複数の独自性候補を取得すること、および当該存在物の当該複数の独自性候補の出現率を取得すること;c)少なくとも存在物の出現率、または少なくとも、存在物の出現率および質量スペクトルとの一致に関する、存在物の独自性候補のそれぞれについての、独自性候補のスコアの計算、d)存在物の独自性を、前記存在物の真の独自性におそらく対応するスコアに最も近いスコアを有している独自性候補として、決定することのステップを含んでいる、方法に関する。
ステップb)で選択された前記独自性候補は、質量スペクトルおよび任意に追加データの可能なまたは許容可能な解釈である独自性候補を含む。
ステップc)で計算され、かつステップd)で独自性を最終的に決定するために使用されるスコアは、数値の形態(そのとき、ステップd)において、通常、スコアの最高値は分析された存在物のための正しい値であると最終的に決定される独自性を決定する)、または別の形態(例えば、数の隔たり、数値でない存在物、確立された順序を有する存在物、確率論的解釈を有する数)を有し得る。当業者は、スコアの形式が選択されるとき、存在物の真の独自性におそらく対応するスコア(理想的なスコア)も、スコアの形式またはその計算によって、選択または決定されることを理解する。例えば、確率論的解釈を有する数について、100%の確率(または値1)は、存在物の真の独自性に対応する。「真の独自性」は、処理の開始時には未知であるが、存在物の実際の独自性を意味する。
好ましくはステップc)において、前記計算は、独自性候補の最大確率を計算することを含む。当該最大確率は、スコアであり得るか、またはスコアの計算における変数であり得る。
好ましくはステップc)において、前記計算は、独自性候補の確率を計算することを含む。当該確率は、スコアであり得るか、またはスコアの計算における変数であり得る。
好ましくはステップc)において、前記計算は、ベイズの定理を使用して独自性候補の確率を計算することを含む。
1つの好ましい実施形態では、出現率の値は、前記存在物の集団内頻度、環境における前記存在物の修飾の確率、前記分析ステップにおける前記存在物の修飾の確率の少なくとも1つに基づいて計算される。
好ましくは、ステップb)およびc)において、出現率の前記値は、事前確率または事前類似確率として表される。
好ましい実施形態では、ステップd)において、独自性の前記決定は、複数の形態の同位体標識ペプチドが存在したか否かを評価することを含む。
好ましくは、前記存在物が、2000mol/g以下の分子量を有する分子、ペプチド、タンパク質、脂質、核酸、代謝産物から選択される。
好ましくは、前記存在物がペプチドであり、質量スペクトルを得るために使用される前記方法がタンデム質量分析(MS/MSとも呼ばれる)である。
「計数」を含むときにさらに言及される好ましい実施形態では、ステップb)において、候補存在物を前記取得することおよび/または独自性候補の出現率の取得は計数を含んでおり、当該計数が、
b.a)初期出現率を有する初期独自性候補を選択すること;
b.b)前記初期独自性候補を、基本の独自性候補に送ること;
b.c)前記基本の独自性候補に対する事象の適用によって新たな独自性候補を生成すること、および前記新たな独自性候補を前記基本の独自性候補に取り込むこと、および制限条件が満たされる限り、前記生成することを継続すること;
b.d)ステップb.c)において取得された基本の独自性候補を、関連する出現率を有する独自性候補に変換することを含んでいる。
計数の実施形態では、好ましくは、前記独自性候補がペプチドであり;前記出現率が事前類似確率として表され;前記初期存在物が、基準タンパク質の、N末端で切断されている直鎖状の部分配列であり;前記適用可能な事象が、修飾、置換および切断を含んでおり;前記制限条件が、所定の形態のペプチドの、最小事前類似確率である。
計数の実施形態では、好ましくは、前記独自性候補がタンパク質であり、前記出現率が事前類似確率として表され;前記初期存在物が、基準エキソンに基づくタンパク質モデルであり;前記適用可能な事象がエキソン排除およびエキソンインクルージョンを含んでおり;前記制限条件がエキソンに基づくモデルの最小事前類似確率であり;仮説への存在物の前記変換がタンパク質コード配列へのエキソンの連結およびインシリコにおける翻訳である。
本発明の方法は、上流もしくは下流にある追加のステップを含み得るか、または本発明の方法による1つ以上の存在物の決定された独自性の、公知の方法における用途を含み得る潜在的な多くの用途を有する。
前記存在物がタンパク質であり、かつステップb)における存在物の独自性候補を取得するステップがペプチドバリアントのデータベースにおけるデータベース検索を含む、本発明の方法は、ヌクレオチドレベルで全地球的に観察されている変化をともなっている変異バリアントタンパク質および多型タンパク質の、プロテオームの質量スペクトルからの、同定のために使用され得る。
前記存在物がペプチドであり、かつe)多型ペプチドまたは生殖系列ペプチドとして決定されている存在物を、由来物のデータベースに対すしてマッチングするステップをさらに含んでいる本発明の方法は、既知の出現率の変動性に基づいて独自性を決定するために、特にプロテオームの質量スペクトルからの、細胞株の鑑定またはの個人の同定のために使用され得る。
前記存在物が非宿主ペプチドであり、ステップb)において、前記出現率が事前確率または事前類似確率として表され、かつ非宿主ペプチドの出現率が非宿主生物の出現率にしたがって、縮小されている本発明の方法は、既知の出現率の非宿主生物の、宿主生物のプロテオームの質量スペクトルからの同定のために、使用され得る。
前記存在物が非宿主ペプチドであり、前記独自性候補を取得することにおける前記ステップb)において、非宿主生物に対して一意にマッピングするペプチドが、宿主生物の計数されたペプチドに加えられ、非宿主ペプチドの出現率が任意の宿主ペプチドより低い本発明の手法は、宿主生物のプロテオームの質量スペクトルからの、未知の出現率の非宿主生物の同定のために使用され得る。
前記存在物がドナーペプチドであり、ステップb)において、ドナーペプチドの出現率が、レシピエントペプチドの間におけるそれらの出現率にしたがって、倍率をかけられている本発明の方法は、同種移植片または異種移植片における移植組織に由来するタンパク質の同定のために使用され得る。
前記存在物がペプチドであり、e)腫瘍に起因する体細胞変バリアントペプチドを選択することをさらに含んでいる本発明の方法は、循環するタンパク質の質量スペクトルからの、腫瘍の存在の同定、または体細胞変異の数の増加を介した、腫瘍生物学的特性の評価のために使用され得る。
存在物がペプチドであり、e)ドナーに起因する多型ペプチドの選択および定量をさらに含んでいる本発明の方法は、レシピエントの生物材料の質量スペクトルから、移植する組織もしくは器官の監視、および移植片拒絶の早期検出のために使用され得る。
存在物がペプチドであり、e)多型ペプチドに基づく2個体間の一致の有意さを見積もるステップをさらに含んでいる本発明の方法は、プロテオームの測定された質量スペクトルからの、2以上の個体間の遺伝的関係の存在の同定のために使用され得る。
さらに、本発明は、上述の請求項のいずれか1つのステップを実行するための手段を含むデータ処理システムを包含する。
また、本発明は、プログラムがコンピュータによって実行されるときに、上述の請求項のいずれか1つの方法の複数のステップをコンピュータに実行させる命令を含むコンピュータプログラムを包含する。
さらに、本発明は、コンピュータによって実行されるときに、上述の請求項のいずれか1つの方法の複数のステップをコンピュータに実行させる命令を含むコンピュータ読み取り可能な媒体を包含する。
〔図面の簡単な説明〕
方法、またはそのステップおよびサブステップを概略的に表す図面において、矢印ありの線は、個々のユニット間の直接的または間接的な接続を指す。矢印ありの点線は、一般に、代替的な実施形態に対応する。代替的な実施形態は、特定の代替的な実施形態をグループ化するアルファベット文字の追加によってさらに示される。ユニット内のサブユニットの参照番号は、主たるユニットの参照番号と、ピリオド、およびサブユニットの参照番号との連結として整列されている。図面に描かれているユニットは、単独、又はいくつかの大きなユニットの一部のいずれかであると仮定されている。点線のブロックはステップに対応する。
図1は、同定方法への出現率モデル組み込み物の模式図である。
図2は、再評価のための出現率モデルの組み込み物の模式図である。
図3は、同定システム内にある出現率モデルの組み込み物の模式図である。
図4は、独自性候補の選択に影響する、出現率モデルの組み込み物の模式図である。
図5は、計数の模式図である。
図6は、ショットガンプロテオミクスにおけるペプチドの計数の模式図である。
図7は、起源の同定のためのバリアントの使用を示す。
図8は、存在物間の対応を評価するための模式図である。
図9は、タンデム質量分析を用いて測定された特定の前駆体のMS/MSスペクトルを示す。
図10は、ショットガンプロテオミクスにおける特定の一致モデルの挙動を示す。
図11は、ショットガンプロテオミクスにおける真の解釈の特定の一致モデルの挙動を示す。
図12は、ショットガンプロテオミクスにおけるランダムな解釈の特定の一致モデルの挙動を示す。
図13は、真のマッチのための、前駆体質量差の分布の例である。
図14は、所定の理論上の保持時間における、保持時間の、実験上の分布の例である。
図15は、保持時間の極端な挙動に基づく真のマッチの選択を示す。
図16は、理論上の同位体分布および実験上の同位体分布の差の分布を示す。
図17は、前駆体質量差および保持時間の、1つの値への合成の例を示す。
図18は、前駆体質量差、同位体分布差、保持時間、およびタンパク質証拠が単一の基準に組み合わされているときのフィルタリングの出力を示す。
図19は、ショットガンプロテオミクスにおける出現率モデルの組み込み物の特定の例の模式図である。
図20は、低い配列決定カバレッジの領域のための、エキソーム配列決定データの起こり得る不完全性を示す。
図21は、対応の計算のための、家族構成を示す。
図22は、ペアワイズ比較における基準タンパク質のカバレージの挙動を示す。
図23は、家族構成員間における、ランダムに少なくとも良好なマッチであることの計算を示す。
図24は、腫瘍特異的な循環タンパク質の同定の結果を示す。
図25は、マウス異種移植モデルにおけるヒト変異バイオマーカーの同定を示す。
図26は、微生物ペプチドの同定を例示し、ヒト材料および動物材料におけるの微生物病原体の診断のための、実用的な用途を実証する。
図27は、プロテオミクスにおけるスプライスバリアントの計数の模式図である。
図28は、腫瘍サイズ 対 同定されたペプチド間の体細胞バリアントの割合の対応を示す。
〔発明を実施するための形態〕
本明細書における「存在物」は、分子、物質または細胞小器官などの化学的または生物学的な存在物を指す。特に、存在物は、物質、化合物、脂質、代謝産物、ペプチド、タンパク質および核酸から選択され得る。
本明細書における「出現率」は、存在物の出現頻度を指す。存在物の出現頻度は、自然、または測定されたサンプルの供給源であった自然の特定の一部(例えば、生物、生物の一部、特定の環境など)におけるその出現頻度を指す。出現率は、相対的な表現(例えば、存在物Aは存在物Bより多い)、または絶対的な表現(例えば、サンプルまたは自然の一部の、単位当たりの存在物のパーセンテージまたは量)として表され得る。出現率はまた、存在物の事前確率を包含する。出現率はまた、本明細書において事前類似確率と呼ばれている相対的な確率論的な用語を包含し、存在物間の相対差は、存在物の事前確率のときと同じである。
本明細書における「存在物の独自性」は、前記存在物に関する構造情報(例えば、その化学構造、アミノ酸の配列またはヌクレオチドの配列)の決定を指す。構造情報は、既知の構成を存在物に割り当てること、または事前には未知なその構造またはその構造の一部を決定することを指し得る。
本明細書における「独自性候補」は、観察された質量スペクトルおよび任意に追加の化学的または生物学的なデータの、考えられる説明または許容できる説明(または解釈)を指す。
本明細書における「計数」は、複数の初期候補存在物、およびそれらの組み合わせについての事象に基づく、独自性候補およびそれらの出現率の構築方法を指す。このような事象は、初期存在物の生じ得る修飾を含む。
「スコア」は、各独自性候補について計算された値である。スコアは、数値、数値のベクトルまたは配列、数値の隔たり、非数値の存在物、定められている順序を有する存在物の、形態を有し得る。スコアはまた、確率論的な解釈を伴う数(例えば、正しさの確率、p値、E値、q値、最大確率、およびそれらの隔たり)を含む。当業者は、スコアの形態を決定するときに、存在物の真の独自性に対応するその値も決定されることを理解する。例えば、確率に対応するスコアについて、存在物の真の独自性に対応する値は、1~100%である。
「質量スペクトル」は、前記存在物を質量分析計に導入すること、および質量スペクトル測定を実施することによって得られる質量スペクトル(MS)、またはMS/MSスペクトルを指す。質量スペクトルからの分析データは、典型的に、スペクトルに示される複数の断片ピークに関するデータ(m/z値、強度)である。質量スペクトルからの追加の基準(例えば、前駆体質量差、同位体分布差、タンパク質証拠)も使用され得る。
「化学的、物理的、生化学的または生物学的な分析」は、存在物の独自性の決定に有用なデータを得ることを可能にする任意の分析方法を含む。このような方法は、NMR分光法、X線回折分光法、IR分光法などの分光分析法;免疫化学的方法;光学的な観察法;抗体、標識などのさらなる作用物との相互作用に依存する方法を包含する。
「説明」および「解釈」は、分析方法の結果(すなわち質量スペクトルおよび任意に追加のデータ)に対する、少なくとも1つの存在物の独自性の割り当てを示すために本明細書に使用される。
本発明は、存在物の独自性を、それらの質量スペクトルデータ、および任意に他の分析方法からの追加のデータに基づいて、決定する方法を説明し、当該方法は、出現率データおよび出現率もしくは確率計算を利用する。出現率の使用は、同定のさらなる層をもたらし、したがって、そうでなければ同定不能な状態の解決に役立つ。例えば、測定された質量スペクトルおよび追加データと十分に等しく一致する多くの説明があることが、しばしばである。出現率モデルの使用は、1つの説明が残りの説明よりはるかに有力であるときに、これらの説明の間における区別を可能にし得る。実際に、出現率の利用は、同定タスクの複雑さを低減する。
本明細書において「出現率モデル」と呼ばれる、出現率がモデル化される方法が、所望の特性を示す(例えば、出現率が相対的な確率論的表現として表される)とき、解釈の候補は、しばしば、正しさの確率、または正しさの最大確率を割り当てられ得る。説明の正しさの確率は、それが決定プロセスの長期モデリングを可能にするので、実在のシナリオに使用可能であるという利点を有する。同様に、正しさの最大確率は、直接的な実在の適用可能性をともなう説明の候補を除外する強力な根拠をもたらす。これは、このような質を有しない一致の統計的な有意さ(例えば、p値またはE値)と対照的に示され得、非常に有意な一致さえ、しばしば誤った解釈に割り当てられ得る。この挙動は、適切に導出された正しさの確率には、実際には起こり得ず、したがって、はるかに望ましい保証を実際には与える。
出現率モデルの利用は、希少な事象の信頼できる同定に特に役立つ。説明の候補の出現率が大きく変化する(例えば、ボトムアッププロテオミクスのときのように、何桁にも及ぶ)とき、信頼できる結果を得るためには、出現率の組み込みが、必要とされ得る。
図1は、同定システムへの出現率モデルの組み込み物の、いくつかの基本的な構成を示す。いくつかの実施形態101では、出現率モデル101.2が同定システム101.1に一体化されている。このような組み込み物は、独自性候補の正しさの確率の導出のために好ましい。より具体的な実施形態を図3に示す。
他の実施形態102では、同定システム102.1は、出現率モデルを含むシステム102.2と分離しており、この構成では、出現率モデルを含むシステム102.2は、同定システム102.1からの結果を処理する。このような実施形態は、例えば、独自性候補の最大確率または独自性候補の確率を導出するために使用可能である。より具体的なこの種の実施形態を図2にさらに示す。
さらに他の実施形態103は、同定システム103.2、および出現率モデル(同定システム103.2が出現率モデル103.1によって影響される独自性候補の選択にともなって動作する)を含んでいるシステム103.1を備えている。このような実施形態は、同定システムの挙動を改善するように独自性候補を事前に選択するために使用され得る。より具体的なこの種の実施形態を図4に示す。
図2は、独自性候補の再評価のための出現率モデルの組み込み物を表す。この実施形態では、評価された独自性候補201は、出現率モデル202を含むシステムを通過する。考えられる種々の代替物がある。代替的な実施形態203.Aでは、独自性候補は、出現率モデルからの情報を利用して評価される。このような再評価では、例えば、新たな情報(例えば、少なくとも仮説と同等の出現率を有しており、観察されたデータとの一致(独自性候補と同じ一致)を有する独自性候補の数)が、追加され得る。別の実施形態203.Bでは、独自性候補は、それらの正しさの最大確率を割り当てられる。ショットガンプロテオミクスにおけるこの種の特定の実施形態を図27に示す。いくつかの実施形態203.Cでは、独自性候補はそれらの正しさの確率を割り当てられる。
図3は、出現率モデルが同定システム内に一体化されている、同定における独自性の決定のために使用される実施形態を表す。この構成は、独自性候補の正しさの確率のスコアリングおよび導出に、一般的に適している。いくつかの実施形態では、同定システム302Aは、真の一致モデル302A.1、ランダムな一致モデル302A.2、および出現率モデル302A.3を含む。このような構成は、ベイズの定理を用いた確率の導出に特に適している。いくつかの実施形態では、同定システム302Bは、独自性候補303のスコアまたは確率を得るために、一致モデル302B.1および出現率モデル302B.2を備えている。
図4は、試験された独自性候補の選択に影響を及ぼす出現率モデルの組み込み物を表す。いくつかの実施形態403.Aでは、独自性候補の選択は、それらの出現率に基づいて影響される。ショットガンプロテオミクスにおける一例は、いくつかの修飾(例えば、メチル化)もしくはアミノ酸置換を有するペプチドより出現率の高いペプチド、またはスプライシング変化から生じるペプチドより出現率の高いペプチドの選択である。トップダウンプロテオミクスの例は、非修飾タンパク質と同等の出現率のタンパク質の選択である。
代替的な実施形態403.Bでは、選択された独自性候補は、テストのために最初に受け入れられた独自性候補(仮説401)と少なくとも同等の出現率である。ボトムアッププロテオミクスの例は、試験のための独自性候補401がバリアントペプチドに対応し、かつバリアントペプチド402と少なくとも同等の出現率である独自性候補がステップ403.Bでにおいて選択(個々の独自性候補の出現率に対する特定の仮定に基づく)されるとき、である。
本発明の第1のステップは、分析データを収集することを含む。分析データ、特に質量分析データを収集するための方法は、当業者に周知である。例えば、ショットガンプロテオミクスにおいて、サンプル調製プロトコルは十分に確立されており、サンプルをタンパク質分解性ペプチドの混合物に、一般に処理する;例えば、3つのプロトコルFASP、SP3およびiSTを比較する記事(Sielaffら(2017): Journal of Proteome Research,16(11):4060-4072)を参照。物質の同定は、質量分析計と連結されている液体クロマトグラフィーを用いたそれらの物理的分離から始まる。特定の時点(保持時間)に溶出する物質は、質量分析計に入り、イオン化を受け、それらの質量が測定され、前駆体スペクトルを与える。データ依存取得では、そのような測定された各前駆体スペクトルの後に、いくつかの最も豊富な前駆体の質量が選択され、イオンが分離され、断片化され、MS/MSスペクトル(断片または生成物のスペクトルも)が取得される。これらの断片スペクトルは、スコアの計算は、独自性候補の理論スペクトルと存在物の観察されたスペクトルとの一致の評価を含み得るため、興味深い。
本発明の方法の第2のステップでは、分析された存在物の独自性候補が得られる。このステップは、複数の方法において実施され達成され得る。
通常のシナリオでは、独自性候補は、所定のサンプルにとっての存在物のデータベース検索を介して取得される。例えば、検索は、分析される所定の生物にとっての、ペプチドまたは核酸または脂質または化合物または代謝産物についてであり得る。しばしば、独自性候補は、分析される生物についての基準存在物(例えばペプチド)を含む基準データベース検索によって得られる。このようなデータベースの例は、UniProtおよびENSEMBLである。分析される存在物がタンパク質またはペプチドであるとき、これらのデータベースからのタンパク質は、実験において使用されるプロテアーゼによるインシリコ消化されている。タンパク質分解性の基準ペプチドは、最も高い出現率を有しているので、それらは、(最低の出現率のペプチドより)出現率の高い全ペプチドが同様に考慮されるという意味で、自己充足している。しかし、基準存在物のいくつかの修飾が考慮されるとき、最低出現率の修飾と少なくとも同等の出現率の全修飾が同様に考慮されるように、注意が払われなければならない。
いくつかの実施形態では、前記独自性候補は、独自性候補の計数を介して取得され得る。
図5は、計数の一般的な処理(初期存在物および存在物に対して適用可能な事象(例えば、自然に生じる化学修飾)が、出現率モデルの構築のために使用される)を示す。最初に、関連する出現率を有する初期存在物501が、存在物のベース502に送られる。存在物のベース502は、循環の一部であり、初期存在物と異なる。ベース502からの存在物は、ベース502に組み込まれる追加の存在物を生成する事象503(インシリコ)を受ける。これは、所定の基準504が満たされるまで続く。処理が停止すると、ベース502における存在物は、ステップ505(必要であれば)において、出現率モデル506を構成する最終の形態に任意に変換される。この処理は、出現率と組み合されるとき重要な利点を有する:計数された各独自性候補eについて、前記独自性候補eと少なくとも同等の出現率の全独自性候補が、同様に計数される。
ショットガンプロテオミクスに関連する実施形態の例(すなわち、分析される存在物がタンパク質である)は、計数のいくつかの好ましい特徴を説明するために使用される。図6aに示される計数は、基準ペプチド、バリアント、および切断特異性が異なる修飾ペプチドに対する出現率の割り当てのために使用される。計数は、各基準タンパク質について独立して行われ、特定の基準タンパク質についての挙動は以下の通り説明される。基準タンパク質にとっての初期独自性候補として、前記タンパク質のすべてのN末端切断配列が使用される。これらの独自性の出現率は、切断点の直前にある残基(ここでは図6のa)よりうしろにおける切断の確率に依存する。例えば、トリプシン消化の場合、初期の出現率は、通常、リジンおよびアルギニンの場合に大きい。この例では、それがタンパク質のN末端にあるとき、初期の出現率は1に等しい(切断は必要ない)。これらの初期独自性候補は、独自性候補のベースに送られる。独自性候補に適用可能な事象は、以下の通りである:伸張、修飾および切断。伸張は基準アミノ酸鎖における次の残基の取り込みの事象を指し、伸張の確率は、切断の相補的な事象として導出される。切断は、特定のアミノ酸のうしろにある切断としてモデル化され、各独自性候補は、完全に形成された独自性候補になるために、厳密に1つの切断を必要とする(このような切断がタンパク質のC末端に起こる必要はない)。それぞれの事前類似確率(p,...,p)を有する修飾(m,...,m)は、それぞれのアミノ酸に適用可能である。さらに、事象の事前類似確率の乗算による、事前類似確率の形式における出現率の、すべてのペプチドに対する割り当てを可能にする事象の統計的独立性が仮定される。このプロセスは、停止する基準を構成している最小の事前類似確率が満たされるまで、継続する。ここでは、存在物自体が独自性候補であり、したがって、変換ステップを要さず、このようにして存在物のベースは出現率モデルのために取得される。
いくつかの実施形態では、事前類似確率は、出現率モデルおよび/またはスコアの計算に関わる。事前類似確率は、文献では相対確率とも呼ばれている。事前確率について、個々の事前確率間の相対的な割合は事前確率の場合と同じである。したがって、以下を適用できる:多数のn個の結果(MS/MSスペクトルなど)、ならびにそれぞれ、事前類似確率PrおよびPrを用いた、独自性候補qおよびrによる、それらの解釈の選択を必要とする。このとき、rと比較した、独自性候補qによる正しい解釈の割合は、以下の通りである。
Figure 0007218019000001
したがって、事前類似確率は、事前確率間の相対的な差異を維持している。
好ましい特徴および事前類似確率の例として、プロテオミクスにおける事前類似確率の確立が説明される。事前類似確率は、これらの仮定のもとに実験データから導出され得る:測定されたデータは集団全体を表し;正しく解釈されるべきと仮定されるデータのサブセットは、分布を変化させない。
各測定(MS/MSスペクトル)にスペクトルの真の解釈q(ペプチド)を与える(厳密に1つの真の解釈があると仮定する)関数Γ
Figure 0007218019000002
は、ペプチドに対する測定から使用される。
ペプチドの修飾を含めるために、以下を使用する:組として表されるペプチドq
Figure 0007218019000003
(ここで、各aがコードされたアミノ酸残基であり、各mが残基aに適用可能な修飾である)を前提とする。aに適用可能な修飾の集合は、Φ(a)として表されており、技術上の簡潔さのために、空の修飾の存在が考慮されている。
Figure 0007218019000004
ペプチドqの修飾されている全形態の集合である大文字Qによって、特定の形態のペプチドqの、すべてに対する割合rを示すと、形態Qは、
Figure 0007218019000005
として表される。実際には、各ペプチドを別々にモデリングするために十分なデータがない。それらの挙動は、ペプチド配列と独立しており、修飾m自体のみに依存すると仮定される。この目的のために、ペプチドは、mが適用可能な厳密に1つの残基を有すると考えられ得、このような集合をHと表す。
Figure 0007218019000006
修飾を有しているペプチドを表す。このとき、特定の修飾mについて、
Figure 0007218019000007
は、各ペプチドqに関して(4)に等しく、データのより大きな集合から算出され得る。
さらに、このアプローチは、修飾可能な変化する数の残基を有するペプチドを説明するために拡張され得る。このような拡張は、厳密に1つの残基を有するペプチドに対するのと同様に振る舞い、解釈の集合全体の利用を可能にする。具体的には、残基aについての修飾mの割合は、適用可能な任意の修飾(空の修飾も)を有する残基の総数に対する、mによって修飾されている残基の総数として、導出される。仮定
Figure 0007218019000008
は、修飾mを有している残基の数を指す。このとき、割合r
Figure 0007218019000009
として導出され得る。
他の例として、DNA/RNA置き換えの確率が導出される。導出は、修飾についてと同様であるが、モデリングアプローチに以下の差異を有する。データにおける置き換えの低い割合のために、置き換え事象は、(残基と無関係に)集計された様式においてモデル化される。
具体的には、変更された全残基の、全残基に対する割合r
Figure 0007218019000010
が得られ、それをアミノ酸置換の確率として解釈する。
さらに別の例として、切断確率(特定のアミノ酸の後ろにある)の導出のために、誤った切断および半特異的な切断(N末端に特異的で、C末端に特異的でない)を有しているペプチドを利用した。ncleavage(a)を切断に続く残基数aと、n(a)を残基の総数aと表すと、残基aのうしろにある切断の割合r
Figure 0007218019000011
である。
さらに別の例として、腫瘍異種移植片モデルにおける移植組織に由来するペプチドの同定のための、同種移植片または異種移植片におけるペプチドの出現率の計算を示す。この場合、異なる生物(ドナーおよびレシピエント)からのペプチドの出現率は、異なり、考慮されることを要する。しばしば、レシピエントは動物モデルであり、ドナーはヒトである;動物由来のペプチドは、例えばレシピエントにおける組織/器官移植またはドナーのペプチドの拒絶または同定をモニターするために、ヒトのペプチドより高い出現率であると予想される。代替的に、レシピエントは組織移植を受けている患者であり得、ドナーは組織/器官ドナーであり得る。以下では、ドナーペプチドおよびレシピエントのペプチドの出現率の差をどのように見積もるかを示す。
レシピエントペプチドに対するドナーペプチドの出現率の相対的な差は、ドナーおよびレシピエントの相同ペプチドの起源の導出によって推定され得る。ドナーおよびレシピエントの両方に起因する相同ペプチドが同定されたと仮定する。関心は、ペプチドがドナー由来であるか、またはレシピエント由来であるかを知ることにある。この目的のために、ペプチドの起源の証拠を示す、所定のペプチドのタンパク質証拠(ドナータンパク質およびレシピエントタンパク質の)を使用することができる。割合pは、レシピエントタンパク質証拠を有している相同ペプチドと比べたときの、ドナータンパク質証拠を有している相同ペプチドの割合として推定される。タンパク質証拠の構築において、タンパク質証拠は、異種ペプチドのみに制限される。別のアプローチでは、割合pは、検出された異種ペプチドの割合として推定される。両方のアプローチは、異種移植片の場合にしばしばある、ドナーおよびレシピエントの間に特別な相同性があるときに、使用され得る。同種移植片では、前記割合は一様に設定され得る。実際的な観点から、ドナーペプチドおよびレシピエントペプチドの出現率の間の相対差はかなり小さい;例えば、ドナーペプチドの数は、レシピエントからの数の数十パーセントのオーダーである。これは、レシピエントの出現率より高いと予想される他の生物(ドナー以外)が存在しないとき、ドナーペプチドの同定を単純化するので、注目することが重要である。
別の選択肢として、非宿主生物のペプチドの出現率の決定が説明される。非宿主生物の同定に関心のある状況は、例えば微生物感染の診断のための、例えば生物における微生物の存在の検出を含む。
いくつかの状況において、出現率は既知である。一般に、非宿主生物の出現率(またはその推定値)を考慮に入れる必要がある。状況は同種移植片または異種移植片と部分的に類似しているが、非宿主生物のペプチド出現率は一般的に移植組織の出現率より低く、非宿主ペプチドは系統発生的により離れているという違いがある。これは、特により高い出現率のすべての非宿主生物も、(なかでも少なくとも関連のあるペプチドと同様に)考慮する必要があるといういくつかの因果関係を有している。非宿主生物oの出現率(p)の推定値が知られており、かつ全ての生物qの出現率が少なくとも生物oと同程度である(p≦p)なら、出現率モデルは、以下のように容易に構成することができる。出現率は、事前確率または事前類似確率として表されるべきであり、そのとき生物oの非宿主ペプチドの出現率は、出現率pの値によって乗算される。
多くの場合、非宿主生物の出現率は、未知であり、同定タスクを複雑にする。それにもかかわらず、全ての少なくとも関連する生物がすべて同様に考慮されることが確認され得る場合、同定の特異性を増加させることが可能である。出現率が未知の場合、1つの解決策は、すべての既知の微生物を考慮することである。これは、まだ記述されていない生物が、同定に興味を持っている生物より関連することが、ほぼないからである。
最も厳密なシナリオでは、対象となる非宿主生物の全てのペプチドが、考慮される全ての生物の、全てのペプチドの中で最も低い出現率であると仮定される。そのような状況の実現の例は、限定的な事前類似確率r(例えば、およびr=4・10-6などの推定された事前類似確率)を有するすべての生物を計数すること、および非宿主生物の出現率をさらに縮小することである。特に、宿主の出現率は同一のままであるが、目的の生物を除く全ての非宿主生物の出現率にrを乗じ、目的の非宿主生物の出現率にrを乗じる。このような場合、目的の非宿主ペプチドは、厳密に最低の出現率である。事前確率は大まかに定められているだけなので、確率の代わりに最大確率Pmaxを計算することが好ましい;さらに、Pmaxの計算のみでは、事前確率の相対的な順序が仮定されることが好ましい。この状況は、全ての公知の生物について、ペプチドの計数を必要とする。このような場合、r≒4・10-6にとってのデータベースは、数千テラバイトをおそらく有している。
未知の出現率の生物を同定する問題に対するより好ましいアプローチが開発された。計算面は以下の仮定の下で明らかに単純化され得る:i.非宿主生物のペプチドが測定されるとき、それは完全に特異的な(例えば、トリプシン処理の)基準ペプチドであり、ii.全ての非宿主生物は、等しい出現率(宿主の計数された任意のペプチドの出現率より低い)である。これらの環境のもとに、目的の非宿主生物に限定的に起因するペプチドを予め選択し、宿主の計数において得られたペプチドに加えることができる。
本発明の方法の第3のステップ、スコアは各候補存在物について計算される。
まず、観察スペクトルおよび理論スペクトルのために用いられる一致の測定基準が説明される。観察されたスペクトルと理論スペクトルとの間にある一致の種々の測定基準(例えば、一価イオン(CIDおよびHCDについてのb、yイオン)からなるマッチングピークの単純な数)が、存在する。ピークのマッチングは、使用される機器に依存して、予め特定されている断片質量の許容範囲(例えば、リニアイオントラップについて0.3 Th)について生じる。当業者は、利用可能な選択肢を知っており、適切な選択肢を選択することができる。
独自性候補の最大確率の導出は、一致モデルの妥当性に基づき得る。以下は、予測されたスペクトルおよび観察されたスペクトルのより高い一致が、正しい解釈の確率の上昇をもたらすという断定に対応する。したがって、すべてのスペクトルo∈Oについて、2つの一致
Figure 0007218019000012
が与えられると、
Figure 0007218019000013
(ここで、
Figure 0007218019000014
は、スペクトルに正しい解釈を与える関数であり、
Figure 0007218019000015
一致モデル(順序のあるいくつか集合Xについて))が仮定される。さらに、異なる独自性候補にとっての同じ一致は、一致の観点:
Figure 0007218019000016
から正しい解釈であるという、等しい確率を与えると、仮定される。
事前類似確率Prを用いたoの候補解釈qについて、少なくとも良好な、すべての解釈の集合Rを得る必要がある。Rは、以下の形式
Figure 0007218019000017
(ここで、pは独自性候補であり、Prはその事前類似確率(または事前確率)である)である。したがって、Pmaxの規定のために、事前等価またはより高い事前類似である独自性候補のみを考慮する必要がある。
事前類似確率の正しい順序が考慮されるとき、qの最大確率Pmaxは、少なくとも良好な解釈の数に逆相関し、したがって
Figure 0007218019000018
事前確率の数値的側面が仮定されるとき、Pmaxは、少なくとも良好な、すべての解釈うちの、Prの割合であり、したがって:
Figure 0007218019000019
maxの値は検索空間のサイズに依存しない。
事前類似(または事前)確率を用いた、独自性候補の確率の導出のための好ましい方法は、ここに説明される。特定の独自性候補hがスペクトルoの真の独自性候補h=Γ(o)である確率は、その一致d=Φ(h,o)が与えられるとき、
Figure 0007218019000020
である。
このような確率は、例えば(19)式が
Figure 0007218019000021
に等しい、ベイズの定理を用いて導出され得る。等式(20)は、事前確率の代わりに、事前類似確率を組み込むために、容易に変更され得る。事前確率の場合、すべての独自性候補h∈hが網羅的に考慮されるとき、各o∈oについて、以下が成り立つ。
Figure 0007218019000022
事前類似確率の場合、総和(21)は異なり得、複数の事前類似確率が相対的な差を維持するので、それらはリスケーリングによって常に正規化され得る。
事前類似確率は、容易に規定されるが、それらがどのようにリスケーリングされるべきかは明確ではないかもしれない。真の独自性候補がそれらの中にあるように独自性候補が選択されると、事前類似確率は、合計が1になるようにリスケーリングされ得、そのとき、事前確率と等価である。
分析された存在物の真の独自性が、所定の独自性候補の範囲にない
Figure 0007218019000023
なら、そのとき
Figure 0007218019000024
(23)における変数cは、そのとき、分析された存在物の真の独自性が、選択された独自性候補H内にある確率に一致する。それから、選択された独自性候補Hの事前類似確率は、cに対してリスケール(それらの和)され、事前確率と等しくなる。
例えば、ショットガンプロテオミクスでは、スペクトルの全ての候補解釈が考慮されるのではなく、したがって、真の解釈はそれらの中にはないかもしれない。しかし、スペクトルの約25%は、標準的なボトムアッププロテオミクス実験において、大抵は正しく解釈される。したがって、c≧0.25およびc≦1の値。これはまた、ショットガンプロテオミクスにおける事前確率の可能な範囲を制限し、ひいては正確さの確率の範囲を制限する。
質量分析では、複数の追加の(裏付ける)基準(例えば、前駆体質量差)を、同定に直接に使用することができる。さらに、これらの基準は、まれな事象(例えばバリアントペプチド)の同定に有用である。実際的な目的のために、決定することの単純化のための統計的解釈をこれらの基準が有することは、しばしば好ましい。特に、スペクトルの真の解釈が、観察されたときと少なくとも同程度に極端な、特定の追加の/裏付ける基準を有する確率がモデル化された。これは、事実上、解釈の除去を可能にする。
特定の生物(例えばヒト)に対する実験におけるプロテオミクス分野における真の解釈の選択の例を、ここに述べる。解釈が正しい必要はなく、むしろ、これらの基準の分布が正しい解釈と同じである必要がある。したがって、ある程度の不正確な結果(例えば、10%)は、ほとんど結果を無効にしない。十分なスペクトルの有意さ(本明細書では、基準ペプチドのデータベース検索におけるX!Tandemにおける0.1のE値)を有する、期待される生物(例えばヒト)のトリプシン処理されたすべての基準ペプチドは、裏付ける基準のモデリングするための適切な解釈を選択すると仮定される。
いくつかの実施形態では、前駆体質量差が付加的な基準として使用される。真の解釈のための、ペプチドの観察された質量と計算されたペプチドの質量との間にある差の分布は、容易に計算され得る。さらに、差異に対する確率論的解釈の関連付けは、同定におけるそれらの直接の使用を可能にする。
正しいスペクトル解釈のための、観察された前駆体質量と計算された前駆体質量との間にあるn個の差の分布Dは、
Figure 0007218019000025
と一致すると仮定される。
数nは、特定のサンプルまたは現代の機器(Orbitrapなど)による単一の実行についてさえ、しばしばかなり大きい(数千、または数万のオーダー)。したがって、分布をモデル化する必要さえなく、したがって、データを用いて(例えばパーセンタイルを介して)直接作業することが可能である。差dの確率論的な解釈のために、Dは、dであるような少なくとも極端な差を有する真の一致の割合としてpを計算するために利用される。したがって、差dについて、
Figure 0007218019000026
を目的にしている。真の一致が少なくとも極端な前駆物質量差を有することが、ほとんどない(例えば、最大でも0.01のp)とき、それは、解釈を排除するための確率論的な根拠をもたらす。
質量分析は、前駆体質量差と同様に、予測され観察された保持時間の利用を可能にする液体クロマトグラフィーに連結されている現代の設定である。実際には、これら2つの間の差を統計的に解釈することも有益である。最も単純な場合には、保持時間差は、以上の説明されている前駆体質量差のように、正確にモデル化され得る。保持時間の予測は、例えば、BioLCCC(Liquid Chromatography of Biomacromolecules at Limiting Conditions; http://theorchromo.ru/)を介してなされ得る。
しかし、特に観察された保持時間は予測された時間に関連するような非線形的な挙動をしばしば示すので、より局所的に挙動をモデル化することが好ましい。モデリングは、予測される時間tごとに個別に実行され、tごとに分布Dを構築する。それぞれのDは、実験上の時間e(tの実験的な対応物、tはtの隣接である)からなる。それぞれのDは2・wの隣接を含み、ここで2・wはウィンドウサイズ(好ましいサイズは500)である:
Figure 0007218019000027
それから、ある理論上の時間tおよび実験上の時間eについて、分布D内にあるeの位置が求められ、ここで、Dを、その対応するtがtに最も近くなるように、選択した。eが分布D内にあることを表すパーセンタイルq
Figure 0007218019000028
が得られる。真の結果の予想される割合を、それらの保持時間に基づいて除去することが目的である。
分布の両側にあるこれらの対称的な除去が必要とされると仮定され、このときqは、必要とされる割合を与える
Figure 0007218019000029
に変形される。したがって、例えば、p≦0.1を有する結果を選択することは、最大の差(両側で)を有する結果のうち10%を示すと期待される。
タンデム質量分析では、前駆体スペクトルが測定されることも多く、したがって、理論上の同位体分布および観察された同位体分布の間にある差も同様に容易に計算することができる。この差は、前駆体質量差と同様に、統計的解釈に対して関連付けることもできる。ソフトウェアIsotopic Pattern Calculator(http://isotopatcalc.sourceforge.net/)は、理論上の同位体分布の予測に使用できる。
分布間の差を計算する複数の方法が存在するが、非常に単純な方法を利用する。差の計算のために、理論上の分布および実験上の分布のピークは、まず、いくつかの前駆体質量許容値(例えば、Orbitrap上で5ppm)に対して、質量に関して適合される。両方の分布(実験上および理論上)の強度は、1までの和にノルムされ(normed)、この整列から、二乗和を強度の差から計算する。次に、予想される少なくとも極端な差を有する真の結果の割合が計算される。計算は、前駆体質量差についてと同じ方法で行うことができる。
ボトムアッププロテオミクスの具体例において、タンパク質は、酵素的にペプチドに消化され、したがって、得られる混合物において、すべてのペプチド(特定のタンパク質の)が存在することが予想される。これを「タンパク質証拠」と呼ぶ。したがって、タンパク質のただ1つのペプチドが同定され、この挙動がモデル化され得ることは、ほとんどない。タンパク質証拠のモデリングのための複数の選択肢が存在するが、モデリングは異なるタンパク質証拠の存在または非存在(例えば、それぞれ、ゼロおよび1を割り当てることによって)のみに限定される。したがって、極端なタンパク質証拠としてpを有する真の一致の確率は:
Figure 0007218019000030
実際には、タンパク質の証拠がない場合はp≦0.1、タンパク質の証拠がある場合はp=1である。このタスクは、別のペプチドが存在する特定の基準タンパク質アイソフォームが存在するか否かを述べるどうかを提示するタンパク質推定のステップの前でも実行することができる。
追加の/裏付ける基準(例えば、前駆体質量差、保持時間、同位体分布差、タンパク質証拠)を組み合わせて、所望の統計的解釈を有する単一の基準を得ることができる。この基準は、所望の割合の、真の一致を除去することが期待されるように構築される。
目的(例えば、前駆体質量差および保持時間)のいくつかのスペクトルマッチの、特定の基準c
Figure 0007218019000031
について、単一の値
Figure 0007218019000032
が計算される。それぞれのcついて、その結果から維持される真のマッチの割合f(c)が計算される。
Figure 0007218019000033
基準とのペプチドスペクトルマッチの新しい例
Figure 0007218019000034
について、その単一の値dが(31)のように計算され、そのときのその値f(d)が計算される。これは、最も近い値cをdに対して調べること、およびf(c)(これは、例えば、1つの隣接を有するk最近傍の挙動に等しい)を得ることによって実施される。もちろん、このステップには様々なオプションが存在するが、多くのデータが利用可能であるので、単純さおよび明白な解釈のために、1つの隣接を有するk最近傍の隣接が好ましい。次に、我々は、所望の割合の真の解釈の予想される消失を有する結果を、しかし使用される全ての追加の/裏付ける基準に基づいて、フィルタリングすることができる。
本発明の方法の第4のステップは、分析された存在物の独自性を決定することに関する。
解釈の最大確率Pmaxは、予測可能な長期的挙動を用いた、見込みのない一致を除去するための理論的根拠を与える。例えば、pmax=Pを有している、多数のn個の解釈候補の選択は、多くてもn~p個の正しい解釈を有している結果と予想される。したがって、特定の解釈が所定の値より小さいという知識は、その除去にとっての理論的根拠をもたらす。
maxの最も厳密な設定は、Pmax=1の解釈に対応し、好ましい実施形態である。
候補解釈の確率Pは、予測可能な長期の挙動との一致の選択にとっての理論的根拠を提供する。例えば、pより高い確率を有する多数nの候補解釈の選択は、少なくともn・p個の正しい解釈をもたらすと期待される。
追加の/裏付ける基準のための確率論的解釈は、観察されるときと同様の極端な裏付ける基準を真の解釈が有することはどれくらい起こるかを表すように、構築される。したがって、真の解釈が極端な基準として有することはほとんどない(例えば10%以下)なら、そのとき、これらの解釈の除去によって、正しい一致の同じ割合(例えば10%以下)が除去可能であると期待される。
以下の段落では、本発明の方法のいくつかの用途を説明する。
1つの好ましい実施形態において、本発明の方法は、起源のデータベースへのマッチングのために利用され得る。以下の部分は既知の出現率の同定されたペプチドまたは核酸バリアントの、起源のデータベース(各起源がバリアントの集合を含む)へのマッチングを説明する;図7はプロセスを概略的に記載する。
分析されるサンプルsについて、サンプルsの真の起源Γ(s)および一致Φ(s,C)を目的としており、その確定に候補起源Cを使用できる。さらに、サンプルsは、サンプルsにおいて同定される一連のバリアントの集合{v,...,v}とみなされ、
Figure 0007218019000035
と示される。一致(s,Ci)は、例えば、多数のマッチするバリアントであり得る。しかし、一致を
Figure 0007218019000036
(ここで、Φが得られた結果に対する確率的な解釈を与えるので、Φはバリアントの出現率を表す)と規定することがより好ましい。すべてのCの合計が1に等しくなる(真の起源が考慮された起源の範囲内にある)ような(35)のリスケーリングは、起源Cが真の起源である確率:
Figure 0007218019000037
を与える。
ここに、(36)の導出のための式(35)の使用の論理的根拠が示されている。最後に、一致(s,C
Figure 0007218019000038
を実際にマッチするバリアントとみなす。
前記一致(37)は、起源の決定の確率の導出を可能にするために使用される。サンプルsにおいて同定されたv(s)={v,v}バリアントを仮定し、それらが正しく同定された(真の起源がこれらのバリアントを有する)と仮定する。2つの起源を考えると、
Figure 0007218019000039
まず、以下の次の表記を定める:バリアントCを有している集団におけるすべての起源であるCを表す。起源C およびC の集合内にある真の起源の確率は、同数のマッチングバリアントが与えられると、
Figure 0007218019000040
と等しいとみなされ得る。
したがって、真の起源が、同じ確率を有しているC またはC 内にあるなら、両方の集合の大きさを調べることができる。個々の起源(C およびC 範囲内にある)が、推測的にほぼ等しいと仮定する。そのとき、起源C、Cの確率における相対的な差は、対応するバリアントを有する存在物の数に反比例する:
Figure 0007218019000041
さらに、前記存在物の数の間にある相対的な差は、集団内頻度を用いて、
Figure 0007218019000042
として、導出され得る。
個々の起源間にある相対差は維持され、もし真の起源が考慮される起源の範囲内にあるなら、それらは1の値に正規化され得、このようにして(36)は容易に定められる。
仮定(39)は、同数のマッチングバリアントに基づいていたが、それは、任意の集団のマッチングバリアントについて成り立つと一般に仮定され得る。
本発明の方法の別の用途は、患者の身体から採取されたサンプル(例えば血液または他の流体)における、腫瘍に起因する体細胞変異体ペプチドを同定することによる癌の診断にある。腫瘍に固有に起因する体細胞変異体ペプチドの同定は、非侵襲的な診断、ならびに疾患の進行および再発のモニタリングに用いることができる。
バリアント(体細胞または生殖系列)の状態を決定するために、様々な基準を使用することができる。本明細書では、この目的のための全地球的なヌクレオチド変化が使用される。
生殖系列バリアントは、以下の通りであるとみなされる:バリアントがdbSNP(v.147)またはExAC(TCGAなしのExACコンパイルのバージョン)に存在し、好ましくは、1.10より高い集団内頻度(dbSNPまたはExACのいずれにおいても)である。体細胞バリアントは、COSMIC、ICGCまたはTCGAに存在するが、dbSNPに存在しないし、ExACにも存在しないバリアントと規定される。
体細胞変異体タンパク質バリアントの存在(例えば、個体の血液における)は、それ自体、腫瘍の存在の徴候であり得る。これは、高い変異率を有している腫瘍(例えば黒色腫)特に当てはまる。
腫瘍に排他的に起因する体細胞変異体タンパク質のより正確な同定のために、患者のサンプル(例えば、血液または血漿または血清または涙または尿または唾液または便または呼気凝縮液または洗浄液または滲出液または髄液などの)を、処置(例えば、手術、放射線、化学療法、生物学的療法、免疫療法など)の前後に分析してもよい。処置後の体細胞変異体タンパク質の減少は、腫瘍との排他的な関連性および最終的にはそれらの腫瘍応答を確定させる。これは、そのような測定または患者のモニタリングのために行うことができる。
本発明の方法の、考えられる他の用途は、移植後のレシピエントの応答を、レシピエントの身体から採取されたサンプル中のドナーのペプチドの選択および定量によって、モニターすることである。レシピエントのサンプル(例えば、血液または血漿または血清または涙または尿または唾液または便または呼気凝縮液または洗浄液または滲出液または髄液などの)におけるドナーペプチドの増加量の同定は、移植された臓器の拒絶反応または拒絶のリスクの徴候である。
タンパク質における多型の解析は、ドナーおよびレシピエントの両方で別々に行われる。これらの多型がいったんドナーおよびレシピエントと結び付けられると、多型ペプチドの同定は、ドナーおよびレシピエントにも固有に関連付けられる。非排他的な多型は考慮されない。
定量は、任意の標識を含まない定量法を用いて、例えばLC/MSスペクトルにおける曲線の下にある面積の積分によって、行うことができる。正確な定量のために、SRM/MRMなどの標的化されている定量法を使用することができる。多型が確立され、多型ペプチドの転位が利用可能になると、個体におけるそれらのモニタリングを容易に行うことができる。
さらに、個体間における、ペアワイズなバリアントに基づく一致の計算が実行される。この方法は図8に概略的に示されており;存在物802と存在物804との間における、それらのバリアント803および805に基づく、対応806が、決定される。被検者からの2つのサンプルs,sを分析し、それらの一致Φ(s,s)を、任意に確率的な解釈を用いて、本発明の方法を用いて決定する。本方法の以下の説明において、φはバリアントに基づく、その集団内頻度に対する関数を示す(このような関数は、例えばdbSNPデータベースにおける集団内頻度から導出され得る)。
一致は、特定の方法m,mを用いて同定されたマッチングバリアントの数に明確に基づいており、例えば、以下の通り:
Figure 0007218019000043
代替的に、一致は確率論的な用語であり得る。前記目的のために、Γは、サンプルに基づく、その真の起源に対する関数であり、ここで、起源eは、全てのバリアントの部分集合である(2つの異なる起源が同じバリアントを有する確率を無視する)。同じ起源を有する2つのサンプルの確率は、観察された一致が与えられると、
Figure 0007218019000044
である。
さらに代替的に、ランダムに少なくともx以上の極端なマッチの確率が使用され得る:
Figure 0007218019000045
サンプルに適用されるバリアントの同定の方法mは、起源におけるバリアントを正確に同定することができ、もし同定されたバリアントが両方のサンプルにおいて等しいなら、かつそうであるときに限り、起源は同じであるが、このような状況は実際にはほとんどない。
いくつかの実施形態では、サンプルに適用される方法mは、サンプルにおけるバリアントの割合rを同定する。この割合は、事前には未知であり得る(またはそれは、サンプルの濃度などに依存し得る)が、サンプルが既知の集団から引き出されるという事実は、その導出のために利用され得る。この場合に、既知の集団内頻度を有しているサンプルにおけるバリアントの予想される数は、
Figure 0007218019000046
である。バリアントvの存在および方法mを用いたその同定の両方の確率は、Pm+(v)と示される。
いくつかの実施形態において、バリアントの同定は、バリアント自体と独立であり得、したがって、同定の確率は各バリアントについて等しい。他の実施形態では、当該確率は異なり得る。それにもかかわらず、nのバリアントが方法mを用いてサンプルにおいて同定されるなら、そのとき、用い同定の確率は、
同定されたバリアントの実数である同定されたバリアントの予想数:
Figure 0007218019000047
と表され得る。
ショットガンプロテオミクスでは、バリアントの同定の確率をモデル化することが有用である。このような同定は、タンパク質が豊富であるほど測定され易いので、バリアントの存在量の関数としてモデル化され得る。これは、偶然による一致の確立にも重要である。なぜなら、非常に豊富なタンパク質における高い集団内頻度のバリアントの同定は、ランダムな個体についてさえほぼ完全に同等だからである。バリアントの同定の確率は、その存在量としてタンパク質ごとの基準よってモデル化することができる。しかし、0-1値域にある存在量を有効に正規化する、(同定された基準ペプチドによる)タンパク質pのカバレッジC(p)として、モデル化することが好ましい。複数のペプチドによって高度に網羅されているタンパク質は、低いカバレッジを有しているタンパク質とは逆に、(バリアントが存在するなら)高い確率の、バリアントの同定をもたらす。さらに単純化のために、カバレッジは遺伝子に対して計算され、遺伝子に対して固有にアラインメント可能なペプチド(約90%)に制限され得る。そのとき、遺伝子のカバレッジ範囲は、タンパク質(遺伝子に対応する)の平均のカバレッジと規定され得る。これに続いて、以下の通りに(46)が成り立つように、同定の確率のさらなる正規化が行われる。
Figure 0007218019000048
一致モデルに応じて、少なくとも同等に良好な一致(44)が、異なるアプローチを使用して計算されてもよい。一般に、確率は、実行可能な方法、例えばモンテカルロ・シミュレーションを用いて数値的に計算することができる。以下の段落は、マッチングバリアントの数(42)を論じる。
通常、特定のバリアントvの、方法m、mを用いたランダムなマッチの確率は、これらの事象が統計的に独立しているなら、
Figure 0007218019000049
である。しかし、いくつかのペプチドが他のペプチドより同定に適している(例えば、イオン化特性のために)ので、その状況は、ショットガンプロテオミクスではより複雑である。換言すれば、第1のサンプル変化におけるバリアントの同定は、通常、第2のサンプルにおけるバリアントの同定の確率を上昇させる。
この効果は、両方のサンプルにおけるマッチングタンパク質のカバレッジのペアワイズ比較によってモデル化され得る。C(p)がサンプルaにおけるタンパク質pのカバレッジであり、C(p)がサンプルbにおけるタンパク質pのカバレッジであると仮定する。均一に分散されるなら、期待される共通のカバレッジは、C(p)・C(p))である。しかし、個々のペプチドには優先傾向があるので、実際の共通のカバレッジは一般により高い。関係は、様々な方法でモデル化することができる。巨大な集合の利用可能なデータを与えると、それは、k最近傍回帰を用いてもモデル化することができる。ここで、回帰モデルは、関数k(5近傍、ユークリッド距離)として表される。したがって、(48)のような確率の乗算の代わりに、それは、
Figure 0007218019000050
のように計算される。
一致モデルが、多数のマッチングバリアント(42)であるなら、(44)の計算は例えば、2項分布を使用して近似することができ、1試行における成功の確率は、全バリアントにわたる(49)の平均値に等しい。
存在物の独自性の決定は、ショットガンプロテオミクスおよび多くの他の分野で一般に出くわす質量スペクトルの解釈の問題を解決する。
本発明の方法はまた、独自性の決定のため、特にプロテオームの質量スペクトルに基づく細胞株の鑑定または個体の同定のために、使用され得る。
前記方法はまた、宿主生物のプロテオームの質量スペクトルに基づく非宿主生物の同定のために、特に微生物感染またはコロニー形成の診断のために使用され得る。
前記方法はまた、体液タンパク質の質量スペクトルに基づく腫瘍の存在の同定、または体細胞変異体の存在または非存在による腫瘍特性の推定のために使用され得る。
前記方法はまた、レシピエントの生物学的材料の質量スペクトルに基づく、臓器移植のモニタリングおよび移植拒絶の早期検出のために使用され得る。
〔発明を実施する例〕
(実施例1-存在物の独自性の決定)
分析データの収集
本実施例は、ショットガンプロテオミクスにおける未知のペプチドについて収集された分析データの断片質量スペクトルを示す。MS/MSスペクトルの具体例は、図9に示され、存在物の決定工程は図9にさらに説明されている。
独自性候補の、計数による取得
図9におけるスペクトルに関する独自性候補は、その説明が以下の通りである計数によって得られる。特定のアミノ酸(修飾されていても)の後における切断の確率は、図6bに指定されている。いくつかの修飾の確率は、図6(c)のように設定された。残りの修飾(置換ではない)は、0.001の事前類似確率に設定された。アミノ酸置換の事前類似確率は、所定のコドンのヌクレオチド置換の数に少なくとも依存するように設定された。置換が1つのヌクレオチド変化において(コドンの任意の組合せについて)生じ得るなら、それは0.0002=qであり、そうでなければ、その累乗であり;したがって、nがヌクレオチド置換の最小数であるなら、そのときの事前類似確率はnである。コードされているアミノ酸および末端の事前類似確率は、アミノ酸およびその全修飾の事前類似確率の和が1に等しくなるように設定された。アミノ酸の修飾の小部分リストを、それらの事前類似確率と共に、以下の表に示す。
Figure 0007218019000051
次のステップでは、4・10-6より高い出現率を有する全ての独自性候補が取得され、計算された前駆体質量の5ppm(百万分率)以内の候補のみが考慮され、最高出現率から順序付けられている。抜粋は以下の表に示されている。
Figure 0007218019000052
前駆体質量の、5ppmの違いを、使用した質量分析計(Orbitrap Elite)の精度にしたがって、選択した。実験条件に依存して、前駆体許容範囲は、オープンサーチまたは総体(前駆体質量に依存しない全ての独自性候補が考慮される)であるとき、大きく広げられ得る(例えば、500Da)。これらの場合には、質量差は、オープンサーチにおいて通常のように、さらに一部に局在される(または複数の修飾およびそれらの局在に分解される)が、局在化された質量を有する独自性候補の出現率は、修飾の対応する出現率によってさらに更新される。
4・10-6の限界出現率は、現在の大部分の実験にとって十分に低くなければならない。実験当たりのスペクトルの数は、数十万のオーダーであり;このような場合、より低い最小出現率を考慮に入れると、多くても数ペプチドが同定されると予想される。
スコアの計算
一致
この項目は、ペプチドの理論上のスペクトル、および実験理論上の(測定された)スペクトルの一致を説明する。(実験上のスペクトルおよび理論上のスペクトルの)マッチングピークの数は、特定の一致モデルとして使用される(図10)。この例では、一価イオン(b、y)のみが理論上のスペクトルの予測に使用される。図10における一致は、上下にわけて置かれている2つのペプチド(前のステップで計数されたものから)について示されている。プレフィックス(b)イオンは、MS/MSスペクトルのより近く示され、サフィックス(y)イオンはより遠くに示されている(上および下の両方において)。実験上のスペクトルにマッチするイオン(0.3Daの断片許容範囲)は、より濃い部分である。一致は、マッチングピークの総数に対応する。個々のペプチドの一致は、以下の表(最初の数個のペプチドは、最も高いスペクトルマッチングから順に並べられている)に示されている。
Figure 0007218019000053
最大確率
以下の表は、一致および事前類似確率から計算された、独自性候補の最大確率(Pmax列)を用いた独自性の決定を示しいる。
Figure 0007218019000054
確率
以下の記載は、ベイズの定理を用いた正確さ確率(P)の関連付けを説明する。本目的のために、真の一致およびランダムな一致のモデルを明確にする。
真の解釈の一致は、以下のようにモデル化される。一致は、X!Hunterのスペクトルデータベースからの、解釈された複数のスペクトル(真の解釈と仮定される)によって評価される。挙動(図11)は、二価の断片質量スペクトルについてのみ示される。この例では、モデルは、残基数の全体にわたる平均の挙動とみなされている。これは、残基数の全体にわたる挙動がペプチドの長さに全く依存しないので、重要である。
このスペクトルについてのランダムな解釈の一致は、図12に可視化されている。この例では、ランダムな一致の確率がマッチングピーク数の増加につれて20倍だけ減少するように、ランダムな一致は、モデル化される。
事前類似確率からの事前確率の導出において、(23)のcは、1.0に等しく(これは、真の解釈が候補の範囲内にあるという仮定である)、確率の確立を可能にする。独自性候補の、関連する確率を、以下の表に示す。
Figure 0007218019000055
追加の/裏付ける基準
分析データに対応する一連のもの(トリプシン処理した基準ヒトペプチド、5ppm 前駆体質量差、0.1の統計的有意さ)を、さきに説明されているような真の解釈の選択に、使用した。
前駆体質量差
図13は、真の解釈のための前駆体質量差の分布を示す。
保持時間
図14は、予測される特定の理論上の時間およびその付近に対する、実験上の時間の分布(理論上の時間と明らかにずれている)を示している。対称差を仮定して、図15は、分布の両端付近(<5%)の解釈、および中心付近(>95%)の解釈の抽出を示す。
同位体分布差
前駆体質量差と同様に、図16は、理論および実験同位体分布の間における差の分布を示す。
タンパク質証拠
タンパク質証拠の場合、仮定された真の解釈の8.129%は、同じタンパク質からの他のペプチドの存在なしであった。
追加の/裏付ける基準の組み合わせ
図17は、裏付ける証拠の組み合わせを示し、類似する結果(≦5%)および類似しない結果(≧95%)について分けている。例えば、類似する結果の場合に、保持時間が分布の中心に近づく(pが1に近づく)につれて、前駆体質量の差は、より大きくなり、95%を超える確率を依然として達成し得ることが分かる。したがって、図は、これらの支持基準と、結果として生じる確率との間の数的な関係を捉えている。
図18のROC曲線は、裏付け証拠の使用による不正確な解釈の除去能力を示す。フィルタリングは、バリアントペプチドの解釈(X!Tandemにおける0.1の、スペクトルの統計的な有意性のE値)によって評価される。ROC曲線において、真の解釈は、配列決定による裏付け(配列決定において見られるバリアントも)を有する解釈と仮定される。証拠を裏付けることが、誤った解釈の除去に役立つことは、明らかである。例えば、ここでは、配列決定によって裏付けられていない結果の約50%が除去され、配列決定によって裏付けられている結果の約90%が維持される。
以下の表は、裏付ける基準に基づく関連する証拠、およびそれらの組み合わせの値を含む。
Figure 0007218019000056
組み合わされたpは、おそらく正しくないマッチの除去に使用され得る。この場合、10%の正しい結果の、予想される除去を選択すると、第1の解釈(スペクトルマッチの観点から最も高いスコア)は除去されない。
独自性の決定
最大確率
この実施例における独自性の決定は、最大の一致でありかつPmax=1を有する解釈を、選択することに基づいている。このような解釈は、せいぜい1つであり得り、所定の一致モデリングおよび出現率モデリングにとって最良の候補であり;それは、先の表における第1の解釈である。
確率
この実施例における独自性の決定は、0.5より高い確率を有する解釈の選択に基づいており;このような解釈は、せいぜい1つであり得り、最も有望な解釈である。この実施例では、それは第1の解釈であり、決定される独自性はPmaxおよび最大の一致を用いる先の例と同じである。
実施例2-観察された変異バリアントタンパク質および多型タンパク質の同定
システム概要(図19)は、バリアントペプチドの同定用のショットガンプロテオミクスにおける、出現率モデル(図1)の組み込みの例102を表す。本実施例では、独自性候補は、最初にデータベース検索において採点され、出現率の使用によってさらに再評価されて、それらの正しさの最大確率を得る。
一般に、同定システム1901は102.1に対応し、排斥システム1902は出現率モデル102.2を含むシステムに対応する。X!Tandem用の検索データベースは、バリアントmRNAの翻訳によって構築されたバリアントペプチドfastaファイルの形態として表され、それからの抜粋は以下の通り:
>ID-00000000 なし
NEIPIR (配列番号19)
>ID-00000001 なし
AAVAAITQALVGR (配列番号20)
>ID-00000002 なし
SPPLPGDLGGPSK (配列番号21)
>ID-00000003 なし
LSAAQTNGGGSAGMEGIMNPYTALPTPQQLLAIEQSVYSSDPFR (配列番号22)
>ID-00000004 なし
NTEILTGSWSDQTYPEGTHAIYK (配列番号23)。
計数を介して得られ(図6)、かつ事前類似確率と共にペプチドデータベースとして記憶されたディープデータベース1902.1は、出現率モデルに対応する。所定の前駆体質量範囲について解釈がロードされるので、データベースを記憶すること、および前駆体質量によってデータベースに索引を付けることが好ましい;そのような記録の抜粋が、ここに示される。
Figure 0007218019000057
さらに、広範な質量(例えば、700Da~2500Da)のためのデータベースをまず構築し、より狭い範囲(例えば、0.01Da)にあるペプチドに索引をさらにつけて、計算時間を節約することが好ましい。
排斥システム1902は、独自性候補の再評価のための出現率モデル(図2、203.Bに対応する)の組み込みの例である。独自性候補の正しさの最大確率が評価され、候補の排斥のために使用される排斥は、独自性候補の再評価を指示する。
独自性候補の取得、バリアントのペプチドデータベースにおけるデータベース検索
処理は、結腸直腸癌細胞株HCT116について評価された、サンプルにおけるバリアントペプチドの同定について、段階的に示される。複数のステップは、3つの段階:i)データベース検索を使用するスペクトルマッチ、ii)追加情報の割り当て、iii)追加の独自性候補の取得に分けられ得る。
第1のステップでは、バリアントペプチドデータベースがデータベース検索方法、ここではX!Tandemを用いて検索される。スペクトルおよびバリアントペプチドのマッチングは、初期結果を与え、1つの例が、最も有意な一致(E値)を先頭にすることによって順序付けられている以下の表に示されている。
Figure 0007218019000058
バリアントペプチドには、それらが正しい解釈であることを意味しないが、非常に重要な多くのマッチがある。
第2のステップにおいて、バリアントペプチドは、基準タンパク質をコードする配列(ENSEMBL、ヒトゲノム)に対してアラインメントされ、基準ゲノムに対するそれらの距離が計算され、追加の情報が付される。1ヌクレオチド変化の結果であり得る基準ペプチドのみが、本実施例では考慮される(これはまた、このようなペプチドの出現率が非常に高く、同定タスクを単純化するためである)。さらに、ここでは、1つのゲノム位置にアラインメントされ得るペプチドのみが考慮される(このような決定は、いくつかの利点(例えば、集団内頻度を導く利点、またはマッチングサンプルのヌクレオチド配列決定に対する対応を算出する利点をさらに有している、ペプチドから導かれるヌクレオチド変異を明らかにことがより容易である)を有している)。この処理の結果の抜粋が、以下の表に示されている。
Figure 0007218019000059
第3のステップでは、バリアントペプチドの解釈を伴うそれぞれのスペクトルについて、全ての独自性候補(4・10-6の最小事前類似確率)が、(上述のように)計数される。
スコアの計算-最大確率
解釈の最大確率が明らかにされる。この手順の結果を以下の表に示す。
Figure 0007218019000060
さらに、欄「裏付け」は、細胞株と一致する配列決定による裏付けを含み;このようなバリアントが配列決定において観察されるか否かを示す。統計的に有意な多くの結果は、配列決定によって裏付けられないことがわかる。しかし、それはまた、低いPmaxを有しており、排斥され得る。この例における、ただ2つの、配列決定によって裏付けられた結果は、Pmax=1を有する。
独自性の決定-最大確率
ここで用いられている独自性の決定ための基準は、最大スペクトル一致およびPmax=1であった。
結果-最大確率
同定されたバリアント
方法を、人の家族構成員(図21)におけるバリアントの同定のために使用した。以下の表は、同定されたバリアントペプチドの数およびそれらの配列決定による裏付け(エキソーム配列決定に対して評価される)を、各家族構成員について分けて含んでいる。
Figure 0007218019000061
なお、特定のサンプルのエキソーム配列決定は、グローバルデータベースの構築には使用されなかった。エキソーム配列決定に対する、配列決定による裏付けの評価は、生殖系列バリアントが十分な割合で常に存在するので、生殖系列バリアントにとって最も重要である。
翻訳されたエキソームからのプロテオームとの比較
先の表はまた、エキソーム配列決定の知識を使用して全てのバリアントを有するプロテオームを作製したときの、同定されたバリアントの数の比較を示す。このような場合、生殖系列バリアントは、以下の状態(バリアントが少なくとも1人の親および1人の子に認められた)において、エキソーム配列決定に基づいていた。結果は、サンプルの配列決定が利用可能であっても、生殖系列バリアントの約80%がグローバルヌクレオチドデータベースの使用によって、(約95%の配列決定との一致において)同定されるので、その利点が制限されることを示唆する。
エキソーム配列決定による裏付けの不完全性
配列決定による裏付けが評価されるいくつかの場合において、結果は、配列決定によって裏付けられていないが、正しいいくつかの解釈を含み得る。これは、いくつかのバリアントが、図20に示されるような周囲領域の低い配列決定カバレッジのために、配列決定によってほとんど裏付けられないためである。そのため、事前の比較において、10リードカバレッジを有している領域が、比較から排除された。
実施例3-細胞株の鑑定
本実施例は、細胞株の同定のための請求されている方法の利用を示す。分析は、NCI60パネル(Gholamiら(2013)Cell Reports,4(3):609-620)の一般に入手可能なデータによって実施される。バリアントは、先の実施例(図19のシステムアーキテクチャ)と同様に同定した。遺伝的起源の確立のために、高い集団内頻度(dbSNPにおいて特定されるときの1%以上)のバリアントのみが考慮された;この種のバリアントは、ほとんど生殖細胞系バリアントであり、同定が容易であり(より有望な解釈が経験的に少なく、E値<0.1の統計的有意さがしばしば十分である)、起源の同定に適している。
起源のデータベースに対するマッチング
起源の同定は、NCI60エキソームデータベース(Shankavaram et al.(2009)BMC Genomics、10(1):277)に対して行われ、真の起源は、考慮される起源の範囲内(したがって、NCI60エキソームデータベース内)にあると仮定された。
起源のデータベースをマッチングする処理は、NCI60プロテオームからの特定のサンプル(P0001751)によってさらに示される。多型ペプチドに限定されたバリアントペプチド同定の結果の抜粋を、以下の表に示す。
Figure 0007218019000062
多型ペプチドは、エキソーム配列決定データとのマッチを計算するために使用され、起源の正確な決定の確率の計算のために使用され、結果の抜粋は以下の表に示される。
Figure 0007218019000063
データは、考慮される起源内では最も有望な細胞株がPR:PC3であることを示す。P0001751のメタデータでは、細胞株は、RE:SN12Cとして要求されていることが分かり、したがって、細胞株が誤って識別されている可能性が高いと結論付けられ得る。
手順を、データセット中の全てのプロテオームにわたってさらに実施した;結果は、以下の表に視覚化されており、おそらく誤って識別されている2つの細胞株を示している。
Figure 0007218019000064
誤って識別された細胞株の同定は、不正確に引き出された結論の伝播を防ぎ、科学的結果の再現性に寄与するので、非常に重要である。
実施例4-人の識別
本実施例は、人の同定のための方法の利用を示す。分析は、特定の構成を有している家族の内部データ(図21)に対して行われる。
起源のデータベースに対するマッチング
本実施例は、細胞株のマッチングに類似している。起源のデータベースは、家族構成員の配列決定データベースに対応する。同じ方法が割り当てに使用される。
結果
同定結果を以下の表に示す。
Figure 0007218019000065
唯一の誤同定が、一卵性双生児の場合に起こり、高確率のエラー(0.4)によって示された。
実施例5-2個体間における遺伝的関連性の存在
本実施例は、遺伝的関連性の決定のための、同定されたバリアントの利用を示す。この目的のために、家族構成員(図21)の血中リンパ球におけるバリアントを、プロテオミクスデータにおいて同定した(バリアント同定のアーキテクチャは、独自性候補内の最大の一致としての独自性の決定、およびPmax=1を用いて、図19のように行われた)。
マッチの有意さの計算
マッチの有意さの計算が、さらにここで説明される。遺伝的起源の同定と同様に、1%(dbSNPにおける集団内頻度としての)を超える出現率のバリアントのみが、マッチ(これらのバリアントはほぼ生殖細胞バリアントである)の算出のために用いられた。
ペアワイズマッチの計算には、データの組織化に役立つ表構造を確立することが有益である。このような表構造の小さい部分集合は、以下の表に視覚化されている。
Figure 0007218019000066
上記表において、各行は特定のバリアントに対応する。「p+」は、データベースからのバリアントの集団内頻度を、Pm+(v)は、サンプルaにおける個体の遺伝子のカバレッジの増加および集団内頻度を指す。bについても同様である。k(Pm+(v)、Pm+(v))は、両方のサンプルにおけるその同定の確率を指す。
マッチの有意さの計算は
Figure 0007218019000067
の平均値を用いた二項分布によって近似された。
この方法(二項分布による近似)の結果は、さらにここに示されている。
Figure 0007218019000068
結果
方法は、すべての家族構成員(図21)に対してペアワイズにさらに適用され、ヒートマップ(図23)は、少なくとも良好な、それらの間のマッチである結果を示す。関心は、ランダムに少なくとも良好なマッチである確率(43)の算出にあり、当該確率はヒートマップ上の色として可視化されている。
実施例6-ヒトにおける腫瘍の存在
本実施例は、血清にある腫瘍特異的な循環タンパク質の同定のための実施形態を示す。本実施例において、PRIDE上にあるアクセス可能な、一般に利用可能なデータ(識別子:PXD004624、PXD004625、PXD004626)を、変異タンパク質の同定のために使用した。バリアントの同定のために、図19に対応する同じ方法を使用した。
バリアント状態の決定
腫瘍に起因する変異の選択
本実施例では、腫瘍に起因する変異は、すべて体細胞変異と同定されると仮定された。
結果
結果(図24)は、メラノーマがん患者における変異ペプチドの存在を示しており、進行した悪液質の患者により多く存在し、あまり進行していない非悪液質の患者により少なく存在し、コントロールにはほとんどない。本実施例では、変異ペプチドは、腫瘍の存在およびがんの程度/段階と大まかに関連し得る。
実施例7-異種移植モデルにおける移植ペプチドの同定
本実施例では、ヒトの基準タンパク質およびバリアントタンパク質は、マウス異種移植から得られた血清中で同定される。実験の構成は図19に基づいており、独自性候補の計数における差が、さらに説明される。
独自性候補の取得、独自性候補の計数
候補の計数において、ペプチドは、両方の生物(ここではマウスおよびヒト)について、4・10-6の事前類似確率である条件を限定して、計数された。ヒトについて計数されたペプチドの事前類似確率は、マウスに対するヒトの出現率の相対的な差によって乗算される(ここでは、実際に、線型的に縮尺される)。数は、特定の実験環境について導出される。
異種移植におけるペプチドの出現率
p=0.25の、本実施例における割合は、相同ペプチド、および異種タンパク質証拠から推定され、先に説明されている。相同ペプチドおよびそれらの異種タンパク質証拠に対応する表構造をここに示す。
Figure 0007218019000069
独自性の決定
max=1および最大のスペクトル一致を有しているペプチドが、維持される。
結果
同定方法は、マウスに移植された広範ながん組織にわたるヒトタンパク質バイオマーカーの同定のために使用された。結果(図25)は、免疫不全のSCIDマウスにおける、ヒトペプチドの存在およびそのようなペプチドの全体的な欠如を示し、結果の信頼性を示している。
実施例8-非宿主生物の同定
本実施例は、宿主生物におけるマイコプラズマの診断のための、出現率の利用を示す。この場合、非宿主生物の出現率は、未知と仮定されるため、上述のときより、複雑な状況を指す。
独自性候補の取得
特定の質量スペクトルのために、基準マイコプラズマペプチドに対して(全生物のなかから)、およびすべてのヒトペプチドに対して((4・10-6の事前類似確率))、排他的にマッピングするペプチドを、取得した。以前に記載されたように、マイコプラズマペプチドは、計数された任意のヒトペプチドより非常に低い出現率と規定された。
独自性の決定
最大の一致およびPmax=1のマイコプラズマペプチドのみが維持された。
結果
この同定アプローチは、PRIDE集積における一部の計画に適用され、マイコプラズマの診断の結果は、図26(配列番号96~131)に示されている。
実施例9-変異の同定のための同位体標識の使用
以下の実施例は、サンプルの細胞培養におけるアミノ酸による安定同位体標識(SILAC)を用いた軽同位体および重同位体形態の両方の存在の、バリアントの同定のための有用性を示す。バリアントの同定は、先の実施例(図19)と同様に行った。
独自性の決定
この場合における追加の基準は、目的のペプチドの、軽い形態および重い形態の両方の同定である。
結果
SILAC対形成、およびバリアントの配列決定による裏付けに対するその影響の分析を、2つの基準(最初の有意性:E値≦0.1)および排斥後(Pmax=1)について解析した。以下の表の結果は、対で同定されたペプチドが、非常に高度な配列決定による裏付け(マッチングサンプルの配列決定に対して評価されるとき)を有することを示す。
Figure 0007218019000070
この差は、低い集団内頻度のバリアント(ほぼ体細胞変異)に最も顕著であった。したがって、同位体標識は、体細胞変異の同定の特異性を高めるために利用され得る。
実施例10-スプライシングバリアントの同定
独自性候補の取得、独自性候補の計数
スキーム(図27)は、代替的にスプライスされたタンパク質(およびそれらの出現率)が基準エキソンに基づくタンパク質モデルから構成される、計数を指す。このスキーマは、一般的な計数(図5)と、構成単位の直接的な対応関係にある。
特定のタンパク質の計数は、対応する遺伝子の個々のエキソンが存在するまたは存在しない、基準エキソンに基づくタンパク質モデル2701から始める。このようなモデルは、モデルにおけるエキソンの存在を表すバイナリベクトルによって表すことができる。様々なタンパク質モデル2702は、出現率に対して関連する影響を有しているエキソンインクルージョン事象またはエキソン排除事象2703によって構築される。
いくつかの実施形態において、出現率は事前類似確率で表され、エキソンインクルージョンまたはエキソン排除は、これらの事象の割り当てられている確率である。
計数処理は、制限する最小出現率条件2704が満たされるまで続く。タンパク質モデルは、個々のエキソンの連結によって変形され、対応するそれらの出現率を有するタンパク質2705に翻訳され、当該出現率は出現率モデル2706をさらに構成する。このように構築されたタンパク質は、例えば、同定におけるトップダウンプロテオミクスにおいて直接に使用され得る、またはタンパク質は、ボトムアッププロテオミクスにおける使用のためにさらに消化され得る。
実施例11-腫瘍、タンパク質バリアント、臨床的特徴との相関の同定
この実施例は、腫瘍サイズおよび対応する疾患段階の同定のための実施形態を示す。ここでは、Clinical Proteomic Tumor Analysis Consortiumの一般に利用可能なデータ、特にTCGA Colorectal Cancerは、図19に対応する同じ方法を用いた変異タンパク質の同定のために使用された。
結果
体細胞バリアントおよび生殖系列バリアントの決定パラメータは以下の通りである。生殖系列バリアントは、以下のようにみなされる:バリアントはdbSNP(v.147)またはExAC(TCGAなしのExAC編集のバージョン)に存在し、好ましくは1.10-4より高い集団内頻度(dbSNPまたはExACのいずれにおいても)のバリアントである。
図28の結果は、同定されたバリアントの挙動を示す。全ての基準ペプチドのなかの、同定された体細胞変異ペプチドの割合は、図28aに視覚化され、腫瘍段階の進行にしたがった、変異の割合の明らかな増加を示す。したがって、特定の基準測定システムによれば、体細胞変異の増加は、腫瘍段階と強い相関を示す。同様の、しかしより顕著な影響が、ヌクレオチド配列決定を用して導出されるときに、認められ得る(図28b)。最後に、プロテオミクスを用いて導出された、生殖系列バリアントの割合は、腫瘍段階との関連を示さず、それは、体細胞変異の影響(より進行した段階における、より大きい腫瘍の異種性に起因して増大する)であることを示している。
同定方法への出現率モデル組み込み物の模式図である。 再評価のための出現率モデルの組み込み物の模式図である。 同定システム内にある出現率モデルの組み込み物の模式図である。 独自性候補の選択に影響する、出現率モデルの組み込み物の模式図である。 計数の模式図である。 ショットガンプロテオミクスにおけるペプチドの計数の模式図である。 起源の同定のためのバリアントの使用を示す。 存在物間の対応を評価するための模式図である。 タンデム質量分析を用いて測定された特定の前駆体のMS/MSスペクトルを示す。 ショットガンプロテオミクスにおける特定の一致モデルの挙動を示す。 ショットガンプロテオミクスにおける真の解釈の特定の一致モデルの挙動を示す。 ショットガンプロテオミクスにおけるランダムな解釈の特定の一致モデルの挙動を示す。 真のマッチのための、前駆体質量差の分布の例である。 所定の理論上の保持時間における、保持時間の、実験上の分布の例である。 保持時間の極端な挙動に基づく真のマッチの選択を示す。 理論上の同位体分布および実験上の同位体分布の差の分布を示す。 前駆体質量差および保持時間の、1つの値への合成の例を示す。 前駆体質量差、同位体分布差、保持時間、およびタンパク質証拠が単一の基準に組み合わされているときのフィルタリングの出力を示す。 ショットガンプロテオミクスにおける出現率モデルの組み込み物の特定の例の模式図である。 低い配列決定カバレッジの領域のための、エキソーム配列決定データの起こり得る不完全性を示す。 対応の計算のための、家族構成を示す。 ペアワイズ比較における基準タンパク質のカバレージの挙動を示す。 家族構成員間における、ランダムに少なくとも良好なマッチであることの計算を示す。 腫瘍特異的な循環タンパク質の同定の結果を示す。 マウス異種移植モデルにおけるヒト変異バイオマーカーの同定を示す。 微生物ペプチドの同定を例示し、ヒト材料および動物材料におけるの微生物病原体の診断のための、実用的な用途を実証する。 プロテオミクスにおけるスプライスバリアントの計数の模式図である。 腫瘍サイズ 対 同定されたペプチド間の体細胞バリアントの割合の対応を示す。

Claims (13)

  1. 少なくとも1つの存在物の質量スペクトル、および任意に当該少なくとも1つの存在物の化学的、物理的、生化学的または生物学的な分析からの追加のデータから当該少なくとも1つの存在物の独自性決定するための方法であって、
    前記存在物は、ペプチド、タンパク質、脂質、核酸、代謝産物、および2000mol/g以下の分子量を有する分子から選択され、
    a)前記存在物の質量スペクトルから分析データを収集し、任意に、前記存在物の化学的、物理的、生化学的または生物学的な分析から追加の分析データを収集するステップと
    b)前記存在物の複数の独自性候補を取得するとともに、当該存在物の当該複数の独自性候補の事前確率もしくは事前類似確率を取得するステップであって、各独自性候補に関しては、該複数の独自性候補に含まれた独自性候補の事前確率もしくは事前類似確率よりも高い事前確率もしくは事前類似確率の独自性候補があればその全てが当該複数の独自性候補に含まれるようにする、ステップと、
    c)少なくとも存在物の事前確率もしくは事前類似確率、または少なくとも、存在物の事前確率もしくは事前類似確率および質量スペクトルとの一致に関する、存在物の独自性候補のそれぞれについての、独自性候補のスコアの計算を行うステップと
    d)存在物の独自性を、当該存在物の真の独自性におそらく対応するスコアに最も近いスコアを有している独自性候補として定するステップと、
    を含んでいる、方法。
  2. 前記ステップc)において、前記計算は、任意にベイズの定理を用いて、独自性候補の最大確率を計算すること、または独自性候補の確率を計算することを含んでいる、請求項1に記載の方法。
  3. 前記ステップb)において、事前確率もしくは事前類似確率の値は、前記存在物の集団内頻度、環境における前記存在物の修飾の確率、および、前記分析における前記存在物の修飾の確率のうちの少なくとも1つに基づいて計算される、請求項1または2に記載の方法。
  4. 前記ステップb)において、独自性候補得することおよび/または独自性候補の事前確率もしくは事前類似確率の取得は計数を含んでおり、当該計数が、
    b.a)初期事前確率もしくは事前類似確率を有する初期独自性候補を選択するステップと;
    b.b)前記初期独自性候補を、独自性候補のベースに送るステップと;
    b.c)前記独自性候補のベースに対する事象の適用によって新たな独自性候補を生成して、前記新たな独自性候補を前記独自性候補のベースに取り込限条件が満たされる限り記生成継続するステップと;
    b.d)ステップb.c)において取得された前記独自性候補のベースを、関連する事前確率もしくは事前類似確率を有する独自性候補に変換するステップ
    を含んでいる、請求項1~のいずれか1項に記載の方法。
  5. 前記独自性候補がペプチドであり;前類似確率が用いられ;前記初期独自性候補が、基準タンパク質の、N末端で切断されている直鎖状の部分配列であり;前記適用可能な事象が、修飾、置換および切断を含んでおり;前記制限条件が、所定の形態のペプチドの、最小事前類似確率であ;または
    前記独自性候補がタンパク質であり;前記前類似確率が用いられ;前記初期独自性候補が、基準エキソンに基づくタンパク質モデルであり;前記適用可能な事象がエキソン排除およびエキソンインクルージョンを含んでおり;前記制限条件がエキソンに基づくモデルの最小事前類似確率であり;在物の前記変換がタンパク質コード配列へのエキソンの連結およびインシリコにおける翻訳である、請求項に記載の方法。
  6. 前記存在物がタンパク質であり、前記ステップb)において存在物の前記独自性候補を取得するステップにはヌクレオチドレベルで既知の変異を含むペプチドバリアントのデータベースにおけるデータベース検索を含んでおり、前記方法変異体で形性を有するタンパク質の、プロテオームの質量スペクトルからの、同定のために使用される、請求項1~のいずれか1項に記載の方法。
  7. 前記存在物がペプチドであり、
    e)多型ペプチドまたは生殖系列ペプチドとして決定されている存在物を、由来物のデータベースマッチングさせるステップ
    をさらに含んでおり、
    前記方法、プロテオームの質量スペクトルからの、細胞株の鑑定または人の同定のために使用される、請求項1~のいずれか1項に記載の方法。
  8. 前記存在物が非宿主ペプチドであり、前記ステップb)において、非宿主ペプチドの事前確率もしくは事前類似確率非宿主生物の事前確率もしくは事前類似確率にしたがって、縮小されており、
    前記方法は、事前確率もしくは事前類似確率が既知非宿主生物の、宿主生物のプロテオームの質量スペクトルからの同定のために、例えば宿主の微生物感染または宿主の微生物によるコロニー形成を同定するために、使用される、請求項1~のいずれか1項に記載の方法。
  9. 前記存在物が非宿主ペプチドであり、前記独自性候補を取得することにおける前記ステップb)において、非宿主生物に対して一意にマッピングするペプチドが、宿主生物の計数されたペプチドに加えられ、非宿主ペプチドの事前確率もしくは事前類似確率が任意の宿主ペプチドより低く、
    前記方法が、宿主生物のプロテオームの質量スペクトルからの、事前確率もしくは事前類似確率が未知の非宿主生物の同定のために使用される、請求項のいずれか1項に記載の方法。
  10. 前記存在物がドナーペプチドであり、前記ステップb)において、ドナーペプチドの事前確率もしくは事前類似確率が、レシピエントペプチドの間におけるそれらの事前確率もしくは事前類似確率にしたがって、倍率をかけられており、
    前記方法が、レシピエントにおける移植された組織に由来するタンパク質の同定のために使用される、請求項1~のいずれか1項に記載の方法。
  11. 前記存在物がペプチドであり、前記方法が、
    e)腫瘍に起因する体細胞変異体バリアントペプチドを選択するステップ
    をさらに含んでおり、
    前記方法が、循環するタンパク質の質量スペクトルからの、腫瘍の存在の同定、または体細胞変異の数の増加を介した、腫瘍生物学的特性の評価のために使用される、請求項1~10のいずれか1項に記載の方法。
  12. 前記存在物がペプチドであり、前記方法が、
    e)ドナーに起因する多型ペプチドの選択および定量を行うステップ
    をさらに含んでおり、
    前記方法が、レシピエントの生物材料の質量スペクトルから、移植する組織もしくは器官の監視、および移植片拒絶の早期検出のために使用される、請求項1~11のいずれか1項に記載の方法。
  13. 前記存在物がペプチドであり、前記方法が、
    e)多型ペプチドに基づく2個体間の一致の有意さを見積もるステップ
    をさらに含んでおり、
    前記方法が、プロテオームの測定された質量スペクトルからの、2以上の個体間の遺伝的関係の存在の同定のために使用される、請求項1~12のいずれか1項に記載の方法。
JP2021503069A 2018-07-20 2019-07-19 質量スペクトルからの存在物の同定の方法 Active JP7218019B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18184710.4A EP3598135A1 (en) 2018-07-20 2018-07-20 Method of identification of entities from mass spectra
EP18184710.4 2018-07-20
PCT/EP2019/069552 WO2020016428A1 (en) 2018-07-20 2019-07-19 Method of identification of entities from mass spectra

Publications (2)

Publication Number Publication Date
JP2021531586A JP2021531586A (ja) 2021-11-18
JP7218019B2 true JP7218019B2 (ja) 2023-02-06

Family

ID=63144797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021503069A Active JP7218019B2 (ja) 2018-07-20 2019-07-19 質量スペクトルからの存在物の同定の方法

Country Status (5)

Country Link
US (1) US20210241851A1 (ja)
EP (2) EP3598135A1 (ja)
JP (1) JP7218019B2 (ja)
CA (1) CA3106053A1 (ja)
WO (1) WO2020016428A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112415208A (zh) * 2020-11-17 2021-02-26 北京航空航天大学 一种评价蛋白组学质谱数据质量的方法
CN115436347A (zh) 2021-06-02 2022-12-06 布鲁克科学有限公司 用于离子光谱中的结构识别的理化性质评分

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005057208A1 (en) 2003-12-03 2005-06-23 Prolexys Pharmaceuticals, Inc. Methods of identifying peptides and proteins
US20080300795A1 (en) 2007-06-01 2008-12-04 Rovshan Goumbatoglu Sadygov Evaluating the probability that MS/MS spectral data matches candidate sequence data
WO2008151140A2 (en) 2007-05-31 2008-12-11 The Regents Of The University Of California Method for identifying peptides using tandem mass spectra by dynamically determining the number of peptide reconstructions required
WO2017114943A1 (en) 2015-12-30 2017-07-06 Vito Nv Methods for mass spectrometry-based structure determination of biomacromolecules

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60026452T2 (de) * 1999-04-06 2006-08-10 Micromass Uk Ltd. Verfahren zur Identifizierung von Peptidensequenzen und Proteinensequenzen mittels Massenspektromterie
US9354236B2 (en) * 2009-07-01 2016-05-31 Consejo Superior De Investigaciones Cientificas Method for identifying peptides and proteins from mass spectrometry data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005057208A1 (en) 2003-12-03 2005-06-23 Prolexys Pharmaceuticals, Inc. Methods of identifying peptides and proteins
WO2008151140A2 (en) 2007-05-31 2008-12-11 The Regents Of The University Of California Method for identifying peptides using tandem mass spectra by dynamically determining the number of peptide reconstructions required
US20080300795A1 (en) 2007-06-01 2008-12-04 Rovshan Goumbatoglu Sadygov Evaluating the probability that MS/MS spectral data matches candidate sequence data
WO2017114943A1 (en) 2015-12-30 2017-07-06 Vito Nv Methods for mass spectrometry-based structure determination of biomacromolecules

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Peter Mortensen, et al.,MSQuant, an Open Source Platform for Mass Spectrometry-Based Quantitative Proteomics,Journal of proteome[online],2009年11月04日,[検索日:2022年5月30日], <URL:https://pubs.acs.org/doi/10.2021/pr900721e>

Also Published As

Publication number Publication date
EP3598135A1 (en) 2020-01-22
WO2020016428A1 (en) 2020-01-23
EP3824292A1 (en) 2021-05-26
JP2021531586A (ja) 2021-11-18
CA3106053A1 (en) 2020-01-23
US20210241851A1 (en) 2021-08-05

Similar Documents

Publication Publication Date Title
Shi et al. Reliability of whole-exome sequencing for assessing intratumor genetic heterogeneity
Bielow et al. Proteomics quality control: quality control software for MaxQuant results
Fusaro et al. Prediction of high-responding peptides for targeted protein assays by mass spectrometry
US9354236B2 (en) Method for identifying peptides and proteins from mass spectrometry data
Tabb et al. DirecTag: accurate sequence tags from peptide MS/MS through statistical scoring
DK2209893T3 (en) The use of aptamers in proteomics
Higdon et al. Randomized sequence databases for tandem mass spectrometry peptide and protein identification
Hill et al. A statistical model for iTRAQ data analysis
Colaert et al. Analysis of the resolution limitations of peptide identification algorithms
Ning et al. Computational analysis of unassigned high‐quality MS/MS spectra in proteomic data sets
US20200240996A1 (en) Identification and use of biological parameters for diagnosis and treatment monitoring
US20040153249A1 (en) System, software and methods for biomarker identification
Higdon et al. A predictive model for identifying proteins by a single peptide match
JP7218019B2 (ja) 質量スペクトルからの存在物の同定の方法
Welker Elucidation of cross-species proteomic effects in human and hominin bone proteome identification through a bioinformatics experiment
JP2006510875A (ja) コンステレーションマッピングおよびそれらの使用
Barbieri et al. Proteogenomics: key driver for clinical discovery and personalized medicine
Zhu et al. Chi-square comparison of tryptic peptide-to-protein distributions of tandem mass spectrometry from blood with those of random expectation
Ryu et al. Detecting differential protein expression in large-scale population proteomics
Mallikarjun et al. BayesENproteomics: Bayesian elastic nets for quantification of peptidoforms in complex samples
EP2674758A1 (en) A computational method for mapping peptides to proteins using sequencing data
Touil et al. A structured evaluation of cryopreservation in generating single-cell transcriptomes from cerebrospinal fluid
JP4286075B2 (ja) タンパク質同定処理方法
CN117051102B (zh) 生物标志物组合在制备预测帕金森病的产品中的应用
Hughes et al. Using Public Data for Comparative Proteome Analysis in Precision Medicine Programs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230118

R150 Certificate of patent or registration of utility model

Ref document number: 7218019

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150