JP2003530858A - 質量分析法に基づくプロテオームデータベース調査による微生物同定のための方法およびシステム - Google Patents

質量分析法に基づくプロテオームデータベース調査による微生物同定のための方法およびシステム

Info

Publication number
JP2003530858A
JP2003530858A JP2001577506A JP2001577506A JP2003530858A JP 2003530858 A JP2003530858 A JP 2003530858A JP 2001577506 A JP2001577506 A JP 2001577506A JP 2001577506 A JP2001577506 A JP 2001577506A JP 2003530858 A JP2003530858 A JP 2003530858A
Authority
JP
Japan
Prior art keywords
proteome
microorganisms
database
unknown source
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001577506A
Other languages
English (en)
Inventor
ピネダ,フェルナンド,ジェイ.
リン,ジェフリー,エス.
Original Assignee
ザ ジョンズ ホプキンズ ユニバーシティ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ザ ジョンズ ホプキンズ ユニバーシティ filed Critical ザ ジョンズ ホプキンズ ユニバーシティ
Publication of JP2003530858A publication Critical patent/JP2003530858A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/569Immunoassay; Biospecific binding assay; Materials therefor for microorganisms, e.g. protozoa, bacteria, viruses
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • G01N33/6851Methods of protein analysis involving laser desorption ionisation mass spectrometry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2570/00Omics, e.g. proteomics, glycomics or lipidomics; Methods of analysis focusing on the entire complement of classes of biological molecules or subsets thereof, i.e. focusing on proteomes, glycomes or lipidomes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Chemical & Material Sciences (AREA)
  • Urology & Nephrology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hematology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Bioethics (AREA)
  • Pathology (AREA)
  • Cell Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Microbiology (AREA)
  • Databases & Information Systems (AREA)
  • Food Science & Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Optics & Photonics (AREA)
  • Tropical Medicine & Parasitology (AREA)
  • Virology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

(57)【要約】 マトリックス補助されたレーザ脱着/イオン化質量スペクトルにおけるピークと、プロテオームデータベースにおけるタンパク質との誤整合の分布を予想する統計的なモデルが得られ、確認される。煩雑かつ不完全であるというデータの性質上、大量の候補微生物からの真に正確な微生物の同定において、単純なランキングや単純な仮説検証は不十分となりがちである。微生物同定の正確さを増すために、プロテオームデータベースは、全てのタンパク質ではなく、特定のタンパク質の集まりに関連するものを含むことに限定される。プロテオームデータベースからデータを削除することによって、上記モデルはより確かなものとなる。言い換えれば、誤整合の数が減少する。

Description

【発明の詳細な説明】
〔1.発明の分野〕 本発明は、微生物の同定に関する。より詳細には、本発明は、質量分析法に基
づいたプロテオームデータベース調査による微生物同定のための方法およびシス
テムに関する。
【0001】 〔2.関連技術の説明〕 微生物同定のためのバイオマーカーとして、微生物を表すタンパク質を用いる
ことができる。特に、マトリックス補助されたレーザ脱着/イオン化(MALD
I)飛行時間(TOF)機器により得られる質量スペクトルを、高速の微生物の
分化および分類に用いることが可能である。同定作業は、異なる微生物について
観察された”指紋”タンパク質プロフィールにおける相違に基づくものであり、
特に質量の幅が4〜20kDaにおけるものである。指紋技術を用いた認証を成
功させるためには、スペクトル再現性が重要となる。しかしながら、複雑なタン
パク質混合物の質量スペクトルは、サンプルの準備およびイオン化技術(MAL
DIマトリックス、レーザフルエンス)、細菌の培養成長回数および培地等を含
む数多くの要因に、複雑かつあまり特徴のないような態様で依存している。
【0002】 原核生物のゲノムおよびプロテオームのデータベースに含まれている豊富な情
報を利用して、質量分析法をベースとする微生物の同定をより確実に行おうとす
る試みが提案されている(Demirev, P.A.;Ho, Y.P.;Ryzhov, V.;Fenselau, C.等
によるAnal. Chem 1999,71,2732-8参照)。このアプローチは、採用済みのイオ
ン化および質量分析モデルとは、独立したものである。この提案されたアプロー
チの中心となるアイディアは、未知の微生物のスペクトルのピークを、プロテオ
ームデータベース(たとえばインターネットアクセスが可能なSWISS−PR
OTプロテオームデータベース)における既知の微生物の注釈付タンパク質のピ
ークと整合するというものである。
【0003】 提案されたアプローチの信憑性は、ゲノムが既知である(バシルス サブチリ
ス(B.subtilis)とエッセリシア コリ(E.coli))2つの微生物を同定するこ
とにより実証された。同定作業は、整合スコアkをそれぞれの微生物に割り当て
ることにより実行された。このスコアは、単に、データベースにおける各微生物
の注釈付タンパク質と(特定の質量許容範囲において)整合したスペクトルピー
クの数である。微生物は、そのスコアに従って連続してランク付けされ、最高ス
コアの微生物は、スペクトルの未知のソース(source)であると同定される。
【0004】 この単純なランキングアルゴリズムにより、比較的小さなデータベースから2
つの微生物を同定することに成功したが、それにもかかわらず、より総合的なデ
ータベース上のより幅広い微生物を確実に同定すべく、より厳密な方法が当初か
ら必要とされていた。確実な微生物の同定において鍵となる要素は、定量的に誤
同定の危険性を評価する能力である。現在の設定では、関係のない微生物のプロ
テオーム中のタンパク質の質量と多数のスペクトルピークとが偶然一致した場合
に、誤同定が発生する可能性がある。質量許容範囲が増加したり、既知のプロテ
オームのサイズが増加すると、偶然一致の可能性が増加し、それゆえ誤同定の可
能性が増加する。
【0005】 一般的に、実験で得られた数多くのスペクトルと、数多くのプロテオームスペ
クトルとの比較を徹底的に実行することによる、誤同定のリスクを見積もること
は不可能である。その代わり、定量的な方法を整合および測定プロセスのモデル
に基礎付けることが必要となる。
【0006】 したがって、整合および測定プロセスのアルゴリズムモデルを開発、実証、適
用するとともに、それを用いて誤同定の可能性を見積もり、微生物誤同定の問題
における本質を洞察する必要がある。また、プロテオームデータベースにおける
既知のタンパク質の数を制限して、誤整合数を減少させる必要性もある。
【0007】 〔発明の概要〕 本発明は、誤整合の統計モデルを利用する、質量分析法を基本とするプロテオ
ームデータベース調査によって、微生物の同定の有意性を定量化するためのシス
テムおよび方法に関する。誤整合モデルへの鍵は、微生物のプロテオーム内のタ
ンパク質は、特定の質量範囲において均一に配分されていると単純に仮定するこ
とである。これにより、質量スペクトルにおけるピークとプロテオームにおける
ピークとの間での予想整合数を計算することができる。したがって、質量スペク
トルは、調査対象の微生物によって生成されたものではないという帰無仮説(nu
ll hypothesis)を即時にテストすることができる。
【0008】 特に、本発明は、未知のソースのスペクトルピークと、既知の微生物のスペク
トルピークとの間における誤整合観測の確率を決定するシステムを提供する。該
システムは、既知の微生物のデータを蓄積するプロテオームデータベースと、該
プロテオームデータベースを用いて既知の微生物のスペクトルピークを決定する
処理モジュールと、未知のソースのスペクトルピークと既知の微生物について上
記処理モジュールにより決定されたスペクトルピークとを比較するためのスコア
リングアルゴリズムとを含んでいる。スコアリングアルゴリズムは、未知のソー
スについて、該未知のソースのスペクトルピークと既知の微生物のスペクトルピ
ークとが整合した数に基づくスコアを獲得する。上記システムは、さらに、少な
くとも上記の獲得スコアと既知の微生物に相当するプロテオームとを用いて、未
知のソースのスペクトルピークと既知の微生物のスペクトルピークとの間におい
て誤整合を観測する確率を決定する確率モジュールを含んでいる。
【0009】 〔好適な実施形態の説明〕 誤同定の可能性を評価するため、本発明は誤整合に伴うスコアのモデルベース
の分布を得る。対応する注釈付のプロテオームを備える所定の公知の微生物につ
いて、発明モデルはこの分布をPK(k)で表している。なお、Kは未知のスペ
クトルピークの数であり、kはプロテオーム内におけるタンパク質に整合するピ
ークの数である。得られた分布は、プロテオーム内に存在するタンパク質は均一
に分布しているという推定に基づいている。この推定により、第1モーメントま
でにタンパク質の真の分布を特徴付けることができる。この推定を試験するため
、得られた分布PK(k)は、プロテオームデータベース内に含まれる真のタン
パク質分布から模擬スペクトルをサンプリングすることにより実行される模擬実
験から得られるヒストグラムと比較される。
【0010】 分布PK(k)によって、仮試験によるスコアの有意性を試験することができ
るとともに、データベースのサイズ(個々のプロテオームの数)およびデータベ
ース内のプロテオームのサイズに限度を設けることによる、アプローチの拡張性
を定量化することができる。最終的に、無帰仮説H0は、未知と既知の微生物と
は同一ではないということを試験する。
【0011】 (I.理論) (I.a.設定) 本セクションでは、未知の微生物からのスペクトルが、本発明により既知の微
生物のプロテオームと比較された場合のk個の誤整合を正確に観測するための近
似確率分布を得るとともに、それを正当化する。質量範囲が[mmin,mmax]で
あれば、スペクトルにはK個のピークがあり、プロテオームにはn個のタンパク
質があると推定される。統計分析を行うためには、不明瞭でない課題を設定して
行うことが有益である。本発明の好適なシステムセッティングは、図1に示され
ており、3つの主要素、すなわち1)データベース10、2)処理モジュール2
0、および3)スコアリングアルゴリズム30を含んでいる。
【0012】 上記データベース10は、観察可能な微生物それぞれについて、1つのラベル
とそれに対応するプロテオームとを含んでいる。上記データベース10における
プロテオームは必ずしも完全ではないし、誤りが除かれているわけでもないと解
されてきた。問題の微生物のシークエンシングがまだ完全ではないので、あるい
は、誤整合の可能性を減少させるために発生量の低いタンパク質は取り除かれて
いるので、プロテオームは不完全であるかもしれない。プロテオームは、遺伝子
の変異性、言い換えれば、菌株による相違に起因する誤りを有しているかもしれ
ないし、注釈の工程自身が不完全な工程であるために誤りを有しているかもしれ
ない。それにもかかわらず、本発明のシステムおよび方法においては、各プロテ
オームが充分に包括的であり、かつ充分に正確であり、上記プロテオーム中のタ
ンパク質のいくつかは物理的な質量分析で当然に見出されるであろうと仮定され
る。上述のような設定で、スペクトルがプロテオームと比較されるのは理にかな
っている。
【0013】 処理モジュール20の工程は生化学的モジュール22と測定モジュール24と
を含んでなる。微生物のプロテオームは、直接観察することはできない。その代
わり、測定から推測される。本発明の目的を達成するために、プロテオームで始
まり、生化学的工程と測定工程(即ち物理的工程)との複合である1組の確率的
な変換から可視スペクトルを生み出すランダム過程で測定は行われる。生化学的
工程42の例は、翻訳後修飾や、RNA修復(RNA edits)である。測定工程
44の例は、複合チャージ状態、付加イオン形成、迅速かつ準安定状態のイオン
分別である。
【0014】 偽のピークを作り出すノイズ工程も、上記測定工程の複雑さの原因となる。予
備分析を容易に行うために、これらのあらゆる複雑さを無視し、ソースプロテオ
ーム中のタンパク質の単純な無作為抽出(置換は含まない)で上記測定工程を形
成することが有用である。無作為抽出された各タンパク質の質量は、”ピーク”
として言及され、上記質量の一まとまりは、”スペクトル”として言及される。
【0015】 上記スコアリングアルゴリズム30は単純であり、本技術分野における通常の
技能を有するものの知るところである。例えば、上記スコアリングアルゴリズム
は、デミレフ(Demirev)等によって使用されている。未知のソースから得られ
たスペクトルは、スペクトル中のピークをプロテオームに含まれるタンパク質に
整合させることによって、既知のプロテオームと比較される。上記データベース
10におけるタンパク質の質量と、スペクトルピークの質量との差が大きくとも
Δm/2以内である場合に、データベースのヒットが起こる。一つあるいはそれ
以上のデータベースのヒットを有するスペクトルピークを、”整合したピーク”
と称する。ある微生物のプロテオーム中のタンパク質と整合したスペクトルピー
クの数は、上記微生物の”スコア”と称される。
【0016】 (I.b.誤整合の理論上の分布) 誤整合の近似分布を得るために、未知のソース(s)と既知の微生物(t)と
を別々に想定する(即ちs≠t)。その結果、定義上は全ての整合が誤整合であ
る。我々は、プロテオーム中のタンパク質は質量範囲[mmin,mmax]の全体に
渡って一様に分配されると単純化して仮定する。一様な分配において唯一自由な
パラメーターは、タンパク質の濃度(即ち、単位量間隔当たりのタンパク質の数
)である。この仮定条件下で、Pmatchをそのまま記録する。このPmatchは、得ら
れたピークが整合したピークであるだろうという確率である。特に、質量mにつ
いての幅Δmのあらゆる間隔が得られれば、正確に得られるq個のデータベース
ヒットの確率P(q)は、ポアソン(Poisson)分布:
【0017】
【数1】
【0018】 であり、ここで、ρ=n/(mmax−mmin)は、上記質量範囲[mmin,mmax
におけるプロテオーム中のタンパク質の濃度である。結果として、データベース
ヒットが得られない確率は、P(0)=exp(−ρΔm)であり、少なくとも一
つのデータベースヒットが得られる確率は、
【0019】
【数2】
【0020】 である。Pmatchの形態、及びk整合がKピークから選択され得るという方法の数
を考慮すると、
【0021】
【数3】
【0022】 が導き出される。等式(3)において、我々は臨界プロテオームサイズとして、
【0023】
【数4】
【0024】 に言及する。もし、等式(3)が整合したピークのフラクションf≡k/Kに関
して、標準正規近似によって近似されれば、
【0025】
【数5】
【0026】 が得られ、ここで、
【0027】
【数6】
【0028】 は、整合したピークの予想フラクションである。そして、
【0029】
【数7】
【0030】 は、整合したフラクションの標準偏差である。二項分布への正規近似は、一般に
【0031】
【数8】
【0032】 のときKPmatch>5にとって適しており、Pmatch>0.5のときK(1−Pmatch )>5にとって適している。n>>n*のとき
【0033】
【数9】
【0034】 であり、n<<n*のとき
【0035】
【数10】
【0036】 であるので、f0に関する式は、n*は臨界プロテオームサイズであるという上述
の仮定を正当化する。その結果、我々はn>>n*を満たすプロテオームを”濃
い(dense)”プロテオームと称し、n<<n*を満たすプロテオームを”薄い(
sparse)”プロテオームと称する。
【0037】 上記モデルは、1)薄いプロテオームに関しては、プロテオームサイズの関数
として整合したフラクションに一次従属性を有すること、2)濃いプロテオーム
に関しては、整合したフラクションに100%の飽和状態であること、3)プロ
テオームサイズにおいて、一次従属性から飽和状態への推移は整合している許容
誤差Δmに反比例するということ、を予報する。これらの一般的な特徴は、理論
上の形態から容易に導き出されるが、直観的にも理解され得る。
【0038】 特に、整合したフラクションの線形的性質は、上記質竜範囲[mmin,mmax
の全体にわたってランダムに分配される少ない数のタンパク質について考慮する
と理解できる。少なくとも一つのデータベースヒットがあるという可能性は、[
min,mmax]におけるタンパク質の数に比例する。あらゆるΔm間隔において
少なくとも一つのタンパク質が存在する傾向にあるため、濃いプロテオームでは
飽和状態が発生する。それゆえ、ほとんど全てのピークは少なくとも一つのデー
タベースヒットを有する傾向にある。即ち、整合したピークのフラクションは〜
1である。線形性状態と飽和状態との間における変化は、濃いプロテオームから
薄いプロテオームへの変化、あるいは薄いプロテオームから濃いプロテオームへ
の変化が起こった場合に生じる。我々は、この点を平均してタンパク質間の間隔
がΔmである濃度と任意に捉えることができる。これは、臨界プロテオームサイ
【0039】
【数11】
【0040】 と一致し、上述の整合している許容誤差に反比例する。
【0041】 (I.c.誤整合の実験に基づく分布) 前述のセクションでは、タンパク質の分布は根本的に均一であるという想定の
もとで誤整合の分布を導き出している。タンパク質の分布は根本的には均一では
ないので(図2参照)、導き出された誤整合の分布が観察された分布を再現する
ということを証明することが必要である。これを実施するために、実験分布の2
つの第1モーメント(平均偏差と標準偏差)が模擬的な整合実験を行うことによ
って見積もられた後、観察されたモーメントを理論上の分布によって予測される
モーメントと比較する。
【0042】 模擬実験を行うために、スイスプロット(SWISS−PROT)プロテオー
ムデータベース(リリース37(release37))の部分集合(サブセット)が
使用される。現在、スイスプロットにて表される微生物のごく小さなフラクショ
ンのみが、完全に配列決定されている。さらに、データベース10に蓄積された
タンパク質は10個よりも少ないという意味で、上記微生物の多く(約85%)
は十分な特徴付けがなされていない。これら十分な特徴付けがなされてないもの
(後者)は、データベース10から削除されている。なぜなら、その蓄積された
タンパク質の分布は、あらゆる自然分布を代表するものであるというよりはむし
ろ、科学的な研究の知的風潮を反映している傾向にあるからである。
【0043】 以前に行われた実験(Demirev等)で質量範囲として使用されたことから、上
記データベース10はさらに限定され、質量範囲が4000〜20000Daに
絞られる。これによって、219の微生物中に分布する17652のタンパク質
の実用的なデータベースが得られる。上記実用的なデータベースにおいては、ス
イスプロットから3つの事項のみが保存される。この3つの事項とは、タンパク
質量(質量の精度は1Da)、スイスプロットアクセッション番号、微生物の名
称である。
【0044】 各ソース微生物(source microorganism)に関して、そのプロテオームから(
置換を含まない)15個のタンパク質を無作為に選択することによって、300
0スペクトル(in silico)がシミュレートされた。各タンパク質は、等しく選
択される傾向にあった。これら3000のスペクトルが固有のものであることを
確かめるために、上記ソース微生物が50以上のタンパク質を含む58個の微生
物に限定された。これらの微生物は、それぞれが2×1012以上の別個の15ピ
ークのスペクトルを有している。従って、一つのスペクトルがシミュレーション
において二度以上現れるということほとんど有り得ない。
【0045】 シミュレートされた各スペクトルは、残存する218の微生物のプロテオーム
と比較される。各ソース微生物に関して、3000×218=6.5×105
の比較が行われる。58のソース微生物が存在するため、プロテオームのスペク
トル比較の合計数は、3.8×107となる。ソフトウエアは、移動可能なAN
SI−Cにおいて実行され、PowerPCあるいはPentium(登録商標)搭載のマシ
ンで稼動された。Pentium(登録商標)−II Xeon 400MHzプロセッサーを使用し
て、このセクションで報告された全てのシミュレーションを実行するのに、約1
/2時間を要する。
【0046】 理論上の分布は、誤整合の予想フラクションが単純にプロテオームサイズに依
存していることを予報する。それに応じて、Δm={1,3,10,30}Da
のプロテオームサイズの関数として、上記シミュレーションから得られる誤整合
の予想フラクションからプロットが形成される(図3)。シミュレートされたス
ペクトルは、正確に15ピークにまとめられた。その質量範囲は、4000から
20000Daであった。この質量範囲において8個の生物に関するプロテオー
ムサイズが示されている。そのデータポイントは理論的に予想される曲線上に重
ね合わされる。シミュレーション結果と理論上の予想とは、きれいに一致するこ
とが明らかである。図3における誤差幅は、経験的に観察された分布の標準偏差
によって決定され、平均値の算出に使用される無作為な整合試験の数の平方根の
逆関数に比例している。
【0047】 図4A及び図4Bは、上述の観察された誤差幅と予想された誤差幅とを比較し
ている。シミュレートされたスペクトルは正確に15ピークにまとめられた。そ
の質量範囲は、4000〜20000Daであった。より大きなプロテオームサ
イズについては、m/Δm〜400の分離で約10%の系統的な偏差が見られ(
図4A)、m/Δm〜4000の分離ではよりきれいに一致する(図4B)。不
一致は、実際のプロテオーム分布が均一ではないことに起因する。この仮説は、
均一に分布したプロテオームからなる人工的に作られたデータベースでの反復試
験によってテストされた。この場合、理論とシミュレーションデータとのきれい
な一致が観察された。
【0048】 結論として、根本的なプロテオームの質量分布が均一ではないにもかかわらず
、ここに表される理論は、上記のシミュレーション結果とよく適合している。一
握りのプロテオームを除いて、個々の微生物のタンパク質量分布はスイスプロッ
トにおける全ての細菌のタンパク質量分布に類似している(図2参照)。この分
布は、特に4000〜20000Daの質量範囲において全く均一ではない。さ
らに、モデルは均一な質量分布を想定しているので、4000Da付近のタンパ
ク質濃度は過大に見積もられ、20000Da付近のタンパク質濃度は過少に見
積もられ得る。直観的に、4000Da付近の過大評価は、20000Da付近
の過少評価を打ち消す傾向にあり、結局数値PK(k)は真の分布に近似される
【0049】 厳密に言えば、実際のタンパク質分布と均一な分布との大きな不一致は、期待
値における系統的な偏りの原因となる。当面の問題にとって、これらの偏りは小
さなものである。しかし、ピークとなるタンパク質分布の場合や、例えば酵素化
学的なタンパク質消化に起因する典型的なペプチドの指数関数的な質量分布のよ
うに幅広いダイナミックレンジを有するタンパク質分布の場合には、上記の偏り
は小さくなく、誤整合の経験的な分布が均一な近似を基礎としたモデルによって
上手く表されない。
【0050】 (II.理論) (II.a.質量の正確さ及びプロテオーム濃度) 濃いプロテオームを有する微生物に関して、未知のスペクトルにおいて全ての
ピークが高い確率で整合するという事実は、単純なランキングアルゴリズムがこ
のような微生物を含むデータベースで使用されると、失敗する可能性が高いこと
を暗示している。特に、単純なランキングアルゴリズムは、最も濃いプロテオー
ムを有する微生物の属する任意のスペクトルを間違って認識して、そのスペクト
ルの方へ片寄らせる。このように、単純なランキングアルゴリズムを使用するた
めに、濃いプロテオームを有する微生物を除外したデータベースを使用する必要
がある。もし、取り除かれた微生物が未知の質量スペクトルを有するものを起源
とするものであった場合、このことは問題となる。複雑な物理的工程(例えば、
翻訳後修飾、複合荷電状態、付加物など)を考慮することによって、同定アルゴ
リズムを複雑化させることは、これらの工程に関わる分子種を含むことで、上記
臨界プロテオームサイズを超えてプロテオームのサイズを効果的に増大させるか
どうかという問題を悪化させ得る。
【0051】 臨界プロテオーム濃度が存在することは、単純なランキングアルゴリズムとと
もに使用され得る質量精度の限界をより低くするということを意味する。特に、
データベース10における最も濃いプロテオームが、質量範囲[mmin,mmax
においてnmax個のタンパク質を有していたらどうであろうか。濃いプロテオー
ムが上記データベース10から除外されるという要求は、nmax<n*ということ
をほのめかし、これは最大のプロテオームサイズと質量の正確さとの関係が、
【0052】
【数12】
【0053】 となることを意味している。
【0054】 例えば、E.coli(スイスプロット、リリース37)は、4−20kDaの質量
範囲において、ずば抜けて最大のタンパク質数(現在2番目に多い微生物のプロ
テオームであるB.subtilisの1464個に対して2124個)を含んでいる。そ
れに応じて、質量スペクトルデータが単純なランキングアルゴリズムから微生物
を同定するために有用になるには、〜7.5Daあるいはそれ以上の質量の正確
さが必要とされる。これは、m/Δm〜2×103、あるいは質量解度〜500
ppmに相当する。質量の厳密さが比較的緩やかであれば、微生物の同定には小
さく安価な実験器具を使用することができると見込める。なぜなら、この程度の
質量の厳密さは、近い将来フィールドポータブル器具において獲得できるかもし
れないからである。
【0055】 (II.b.有意性試験及びデータベースサイズ) 例えば処理モジュールあるいはその他のモジュールなどの本発明のシステムは
、スコアが観察されたスコアkobsを超える確率、
【0056】
【数13】
【0057】 を算出することによって、H0(未知及び既知のプロテオームが同一ではないと
いう帰無仮説)を試験するという派生的な誤整合の確率分布を使用している。こ
の総計は、式(3)から正確に求められ、整合したフラクションという点に関し
て式(6)から近似的に求められる。この試験は、質量範囲4−20kDaが得
られれば、n*=5333.3を導き出すΔm=3Daで実行される。この臨界
プロテオームサイズはnmax=2124を超えるため、我々のスイスプロットに
おける細菌の部分集合中には濃いプロテオームは存在しない。さらに、上記デー
タベース10は完全に配列決定された微生物のみに限定されている。Demirev等
によって公表された、B.subtilts及びE.coliのMALDI質量スペクトルに関して算
出された有意レベル及びスコアは、表1に要約されている。B.subtilts、E.coli
の両者とも、有意レベルに基づいて、スペクトルのソースとして正しい微生物が
同定されている。E.coliの場合は、α=0.311の有意レベルで帰無仮説は否
定された。一方、B.subtilisの場合は、α=0.095の有意レベルで帰無仮説
は否定された。
【0058】
【表1】
【0059】 これらは特別意義深い帰無仮説の否定というわけではない。さらに、この有意
レベルは、完全なプロテオームでの微生物の同定に使用され得るデータベース1
0のサイズにおける非常に厳しい制限を意味する。例えば、E.coliの場合、デー
タベース10がE.coliのプロテオームサイズ(2124タンパク質)と比較でき
る3個又はそれ以上の微生物を含んでいたとしたら、これら他の微生物の少なく
とも一つがE.coliのスコアを超えるスコアを誤って獲得してしまっていたであろ
う。その結果、誤同定を招いてしまっていたであろう。同様に、B.subtilisのプ
ロテオームサイズと比較できるプロテオームを10以上含むデータベースであれ
ば、B.subtilisiのプロテオームに対して観察される整合数を超える微生物が得
られてしまうであろう。
【0060】 データベース10が完全に配列決定された微生物に制限されていなければ、非
常に有意度の高い低スコアを有する微生物の数が増加していたであろう。帰無仮
説をより強固に拒否する一つの方法は、より多くの整合を観察することである。
特に、0.05及び0.01よりも良い有意レベルを出すためには、それぞれ1
4ピークから9個の整合というスコア、あるいは、14ピークから10個の整合
というスコアを必要となるであろう。帰無仮説をより強固に拒否するもう一つの
方法は、観察される見込みの無いタンパク質を取り除くことによってプロテオー
ムサイズを減らすことである。これによって、誤整合の可能性が減少するであろ
う。
【0061】 (III.考察) 算出された有意レベルは、検討中に微生物の数が制限されれば、微生物を同定
するという機能を発揮するためには十分である。それほど大きくない有意レベル
を出発として、実験技術およびデータ処理技術の両方において改良の余地が少な
からず存在するということは明らかである。特に、真の整合を最大化し、誤整合
を最小化することによって同定の正確さは改良され得る。真の整合は、次のよう
にして増加させることができるであろう。1)より多くのタンパク質を検出する
という測定技術の改良、2)名目上のプロテオームの分子量を修飾する生化学的
工程(例えば、翻訳後修飾)及び測定工程(例えば、複合チャージ状態付加イオ
ンなど)の把握。誤整合は、次のようにして減少させることができるであろう。
1)質量測定の正確さを増すこと、2)所望の質量範囲においてタンパク質濃度
を減少させるプロテオームを取り除くこと(例えば、発生量の少ないタンパク質
、あるいは発現しないタンパク質を除外すること)。好適な実施形態においては
、リボゾームタンパク質のみがプロテオームデータベース10に含まれている。
【0062】 すでに指摘されているように、生化学的工程及び測定工程を考慮することによ
って、潜在的な整合の数を効果的に増加させ、それによって誤整合の機会を増加
させる。事実上、これはプロテオームサイズを増加させることに等しく、臨界プ
ロテオームサイズn*を超えないように倹約して実施されなければならない。そ
のため、余分なプロテオームを取り除くことから始め、そして、モデルに含まれ
る生化学的工程及び測定工程の数を制限しなければならない。
【0063】 最後に、これら複雑な工程がプロテオーム内の各タンパク質の観察され得る質
量の不確かさを招いているという程度まで、分布の幅広さが生化学および測定の
不確かさの範囲を表現し、その分布で根本的な分布を巻き込んでいるという効果
を有するであろうということが記載される。その結果として生ずる効果的なタン
パク質分布の不鮮明さは、その効果的なタンパク質分布をより不均一にする傾向
にあり、そのために、ここに開示される近似的な理論分布は、より正確なものに
なる。
【0064】 結論として、本発明は、質量スペクトルに基づくプロテオームデータベースが
誤整合の統計的モデルを使用して探索することによって、微生物の同定の有意性
を数量化している。上記モデルは、同定スコアの有意性、および実験技術とデー
タ解析技術との両方に改良が必要な注目分野の評価にとって有用なツールである
。煩雑かつ不完全であるというデータの性質上、単純なランキング及び単純な仮
説検証はともに、真に正確な微生物同定には不十分となりがちであろう。それに
応じて、微生物同定を増加し、誤整合の数を減少させるための努力において、プ
ロテオームデータベース10はリボゾームタンパク質のような広く用いられてい
るプロテオームを含むということのみに限定されている。
【0065】 ここに記載されていることには、本発明の原理を応用した実例に過ぎない。例
えば、本発明を実施するためのベストモードとして実行される上述の関数は、例
解するためのものに過ぎない。本技術分野における熟練者によって他の組み合わ
せや方法によって実行されるものも、本発明の範囲及び本発明の精神から逸脱す
るものではない。
【図面の簡単な説明】
【図1】 図1は、プロテオームデータベース、プロセシングモジュール、及びスコアリ
ングアルゴリズムを備えて未知のソースの同定を行う、本発明に係るシステムの
ブロック図である。
【図2】 図2は、スイスプロットプロテオームデータベースにおける細菌タンパク質の
質量の確率密度関数(p.d.f.)を示すグラフである。
【図3】 図3は、本発明に係るΔm={1,3,10,30}Daのプロテオームサイ
ズの関数として誤整合されたピークのフラクションを示すグラフである。
【図4A】 図4Aは、本発明を利用してΔm={30}Daのプロテオームサイズの関数
として、誤整合されたピークのフラクションにおける標準偏差を示すグラフであ
る。
【図4B】 図4Bは、本発明を利用してΔm={3}Daのプロテオームサイズの関数と
して、誤整合されたピークのフラクションにおける標準偏差を示すグラフである
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE,TR),OA(BF ,BJ,CF,CG,CI,CM,GA,GN,GW, ML,MR,NE,SN,TD,TG),AP(GH,G M,KE,LS,MW,MZ,SD,SL,SZ,TZ ,UG,ZW),EA(AM,AZ,BY,KG,KZ, MD,RU,TJ,TM),AE,AG,AL,AM, AT,AU,AZ,BA,BB,BG,BR,BY,B Z,CA,CH,CN,CO,CR,CU,CZ,DE ,DK,DM,DZ,EE,ES,FI,GB,GD, GE,GH,GM,HR,HU,ID,IL,IN,I S,JP,KE,KG,KP,KR,KZ,LC,LK ,LR,LS,LT,LU,LV,MA,MD,MG, MK,MN,MW,MX,MZ,NO,NZ,PL,P T,RO,RU,SD,SE,SG,SI,SK,SL ,TJ,TM,TR,TT,TZ,UA,UG,US, UZ,VN,YU,ZA,ZW (72)発明者 リン,ジェフリー,エス. アメリカ合衆国,メリーランド州 20906, シルバー スプリング,キャロハン コー ト 15127 Fターム(参考) 2G045 AA28 CB21 DA36 FB20 JA01 4B063 QA18 QQ79 QS40 QX10

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 未知のソースのスペクトルピークと既知の微生物のスペクトルピークとの間に
    見られる誤整合の確率を決定するためのシステムにおいて、 既知の微生物のデータが蓄積されているプロテオームデータベースと、 上記プロテオームデータベースを使用して既知の微生物のスペクトルピークを
    決定する処理モジュールと、 未知のソースのスペクトルピークを、上記既知の微生物について処理モジュー
    ルによって決定されたスペクトルピークと比較し、既知の微生物のスペクトルピ
    ークに整合する上記未知のソースのスペクトルの数に基づいて上記未知のソース
    のスコアを得るスコアリングアルゴリズムと、 上記得られたスコアと上記既知の微生物に相当するプロテオームとを少なくと
    も使用して、上記未知のソースのスペクトルピークと上記既知の微生物のスペク
    トルピークとの間において誤整合が見られる確率を決定する確率モジュールとを
    含んでなることを特徴とするシステム。
  2. 【請求項2】 上記プロテオームデータベース内に蓄積されたデータは上記既知の微生物のプ
    ロテオームデータ及び/又はゲノムデータを含んでいることを特徴とする請求項
    1に記載のシステム。
  3. 【請求項3】 上記確率モジュールは誤整合の確率分布を決定することを特徴とする請求項1
    に記載のシステム。
  4. 【請求項4】 上記既知の微生物のタンパク質は、所定の質量範囲の全体に渡って均一に分布
    していることを特徴とする請求項1に記載のシステム。
  5. 【請求項5】 上記所定の質量範囲は、4000Da以上20000Da以内であることを特
    徴とする請求項4に記載のシステム。
  6. 【請求項6】 上記プロテオームデータベースは、濃いプロテオームを有する微生物を除外し
    ていることを特徴とする請求項1に記載のシステム。
  7. 【請求項7】 上記処理モジュールは、上記未知のソースが既知の微生物であるという帰無仮
    説をテストすることを特徴とする請求項1に記載のシステム。
  8. 【請求項8】 上記プロテオームデータベースは、完全に配列決定された微生物に限定されて
    いることを特徴とする請求項1に記載のシステム。
  9. 【請求項9】 上記プロテオームデータベースは、リボゾームタンパク質のみを含むことを特
    徴とする請求項1に記載のシステム。
  10. 【請求項10】 未知のソースのスペクトルピークと既知の微生物のスペクトルピークとの間に
    見られる誤整合の確率を決定する方法において、 既知の微生物のデータを蓄積するためのプロテオームデータベースを準備する
    工程と、 上記プロテオームデータベースを使用して既知の微生物のスペクトルピークを
    決定する工程と、 未知のソースのスペクトルピークを、上記既知の微生物のスペクトルピークと
    比較し、既知の微生物のスペクトルピークに整合する上記未知のソースのスペク
    トルの数に基づいて上記未知のソースのスコアを獲得する工程と、 上記未知のソースのスペクトルピークと上記既知の微生物のスペクトルピーク
    との間において誤整合が見られる確率を決定するために、上記獲得されたスコア
    と上記既知の微生物に相当するプロテオームとを少なくとも使用する工程とを含
    んでなることを特徴とする方法。
  11. 【請求項11】 上記獲得されたスコアと上記既知の微生物に相当するプロテオームとを少なく
    とも使用する工程は、誤整合の確率分布を決定することを特徴とする請求項10
    に記載の方法。
  12. 【請求項12】 上記の方法は、実験に基づく確率分布を使用して決定された確率を確認する工
    程をさらに含むことを特徴とする請求項10に記載の方法。
  13. 【請求項13】 上記プロテオームデータベースは、所定の質量範囲の全体に渡って均一に分布
    している上記既知の微生物のタンパク質を含むことを特徴とする請求項10に記
    載の方法。
  14. 【請求項14】 上記所定の質量範囲は、4000Da以上20000Da以下であることを特
    徴とする請求項13に記載の方法。
  15. 【請求項15】 上記の方法は、上記プロテオームデータベースから濃いプロテオームを有する
    微生物を除外する工程をさらに含むことを特徴とする請求項10に記載の方法。
  16. 【請求項16】 上記の方法は、上記未知のソースが既知の微生物であるという帰無仮説をテス
    トする工程をさらに含むことを特徴とする請求項10に記載の方法。
  17. 【請求項17】 上記の方法は、上記プロテオームデータベースを完全に配列決定された微生物
    に限定する工程をさらに含むことを特徴とする請求項10に記載の方法。
  18. 【請求項18】 上記の方法は、上記プロテオームデータベースにおいてリボゾームタンパク質
    のみを含む工程をさらに含むことを特徴とする請求項10に記載の方法。
  19. 【請求項19】 上記の方法は、プロテオームサイズの関数として模擬実験から得られる誤整合
    の予想フラクションをプロットする工程をさらに含むことを特徴とする請求項1
    0に記載の方法。
  20. 【請求項20】 上記獲得されたスコアと上記既知の微生物に相当するプロテオームとを少なく
    とも使用する工程は、さらに、理論的及び経験的に確率分布を決定する工程と、
    理論的及び経験的に確率分布を比較する工程とをさらに含んでなることを特徴と
    する請求項10に記載の方法。
  21. 【請求項21】 上記の方法は、誤整合が見られる確率を使用して上記未知のソースを同定する
    工程をさらに含むことを特徴とする請求項10に記載の方法。
JP2001577506A 2000-04-12 2001-04-11 質量分析法に基づくプロテオームデータベース調査による微生物同定のための方法およびシステム Withdrawn JP2003530858A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US19636800P 2000-04-12 2000-04-12
US60/196,368 2000-04-12
PCT/US2001/011649 WO2001079523A2 (en) 2000-04-12 2001-04-11 Method and system for microorganism identification by mass spectrometry-based proteome database searching

Publications (1)

Publication Number Publication Date
JP2003530858A true JP2003530858A (ja) 2003-10-21

Family

ID=22725109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001577506A Withdrawn JP2003530858A (ja) 2000-04-12 2001-04-11 質量分析法に基づくプロテオームデータベース調査による微生物同定のための方法およびシステム

Country Status (4)

Country Link
EP (1) EP1272657A2 (ja)
JP (1) JP2003530858A (ja)
AU (1) AU764402B2 (ja)
WO (1) WO2001079523A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012500399A (ja) * 2008-08-21 2012-01-05 ネーデルランツ オルガニサティー フォール トゥーゲパストナトゥールヴェテンシャッペリーク オンデルズーク テーエンオー 生物物質の同定のための方法および装置
JP2020144491A (ja) * 2019-03-05 2020-09-10 株式会社島津製作所 微生物同定システム及び微生物同定用プログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10155707B4 (de) 2001-11-13 2006-11-16 Bruker Daltonik Gmbh Massenbestimmung für Biopolymere
EP2439536A1 (en) 2010-10-01 2012-04-11 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO New classification method for spectral data
WO2014014353A1 (en) 2012-07-18 2014-01-23 Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno New classification method for spectral data
CN112614542B (zh) * 2020-12-29 2024-02-20 北京携云启源科技有限公司 一种微生物鉴定方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2308917B (en) * 1996-01-05 2000-04-12 Maxent Solutions Ltd Reducing interferences in elemental mass spectrometers
US6059724A (en) * 1997-02-14 2000-05-09 Biosignal, Inc. System for predicting future health

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012500399A (ja) * 2008-08-21 2012-01-05 ネーデルランツ オルガニサティー フォール トゥーゲパストナトゥールヴェテンシャッペリーク オンデルズーク テーエンオー 生物物質の同定のための方法および装置
JP2020144491A (ja) * 2019-03-05 2020-09-10 株式会社島津製作所 微生物同定システム及び微生物同定用プログラム
JP7151556B2 (ja) 2019-03-05 2022-10-12 株式会社島津製作所 微生物同定システム及び微生物同定用プログラム

Also Published As

Publication number Publication date
AU5529301A (en) 2001-10-30
AU764402B2 (en) 2003-08-21
WO2001079523A3 (en) 2002-03-21
EP1272657A2 (en) 2003-01-08
WO2001079523A2 (en) 2001-10-25

Similar Documents

Publication Publication Date Title
US9354236B2 (en) Method for identifying peptides and proteins from mass spectrometry data
JP5750676B2 (ja) 細胞識別装置及びプログラム
CN110060733B (zh) 基于单样本的二代测序肿瘤体细胞变异检测装置
CA2493956A1 (en) System and method for scoring peptide matches
WO2014116711A1 (en) Methods and apparatuses involving mass spectrometry to identify proteins in a sample
US20110264377A1 (en) Method and system for analysing data sequences
JP2019505780A (ja) 質量分析法に基づく生体高分子の構造決定方法
CN113096737B (zh) 一种用于对病原体类型进行自动分析的方法及系统
JP2003530858A (ja) 質量分析法に基づくプロテオームデータベース調査による微生物同定のための方法およびシステム
CN108491690B (zh) 一种蛋白质组学中肽段的肽段定量效率预测方法
Martens Bioinformatics challenges in mass spectrometry-driven proteomics
Halpin et al. Multimapping confounds ribosome profiling analysis: A case‐study of the Hsp90 molecular chaperone
Khatun et al. Incorporating sequence information into the scoring function: a hidden Markov model for improved peptide identification
US20030065451A1 (en) Method and system for microorganism identification by mass spectrometry-based proteome database searching
US20210214774A1 (en) Method for the identification of organisms from sequencing data from microbial genome comparisons
US20210005285A1 (en) System and method using local unique features to interpret transcript expression levels for rna sequencing data
JP2021503128A (ja) アラインされていないシーケンシングデータの高速品質管理のためのk−merの使用
Lysiak et al. Interpreting Mass Spectra Differing from Their Peptide Models by Several Modifications
CN111524549B (zh) 一种基于离子索引的整体蛋白质鉴定方法
WO2002057993A2 (en) Method for evaluating conditional probabilities in biotechnology
Wu et al. MSDash: mass spectrometry database and search
US20210233613A1 (en) Method for creation of a consistent reference basis for genomic comparisons
An et al. Entropy-based decoy generation methods for accurate FDR estimation in large-scale metabolomics annotations.
Cottingham Name that peptide
CN114420213A (zh) 一种生物信息分析方法及装置、电子设备及存储介质

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080701