JP2009025287A - タンパク質ペプチドデータを処理する方法及びシステム - Google Patents

タンパク質ペプチドデータを処理する方法及びシステム Download PDF

Info

Publication number
JP2009025287A
JP2009025287A JP2008122287A JP2008122287A JP2009025287A JP 2009025287 A JP2009025287 A JP 2009025287A JP 2008122287 A JP2008122287 A JP 2008122287A JP 2008122287 A JP2008122287 A JP 2008122287A JP 2009025287 A JP2009025287 A JP 2009025287A
Authority
JP
Japan
Prior art keywords
peptide
protein
data set
data
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008122287A
Other languages
English (en)
Inventor
Nikolaos Berntenis
ニコラオス・ベルントゥニス
Christian Miess
クリスティアン・ミース
Bernd Mueller
ベルント・ミューラー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Publication of JP2009025287A publication Critical patent/JP2009025287A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

【課題】ペプチドの後処理、即ち、タンパク質及びタンパク質群に同定ペプチドを割当てる段階を改善して加速する方法及びシステムを提供する。
【解決手段】分析するために健康又は病的試料から得たタンパク質ペプチドデータを処理する方法であって、ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意する段階と、ペプチド配列リストのペプチド配列の重複を除去することにより、入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする段階と、同じタンパク質を起源とするペプチドデータの組のメンバを共に分類し、それによって、タンパク質データの組を生成する段階と、を含む方法を提供する。
【選択図】なし

Description

本発明は、タンパク質同定に関し、好ましくは健康又は病的試料、例えば組織試料から得たタンパク質ペプチドデータを処理する方法及びシステムを提供する。複雑な混合物中のタンパク質を同定するほか、相対発現プロファイルの差を検出することが必要とされている。十分な数のそのペプチドが同定される場合には、所定のタンパク質が試料に存在すると考えられる。当技術分野では、多数のペプチドを高速で平行して同定するためにMSMS(タンデム質量分析)を用いることが公知である。最初に、質量分析計を用いて、断片化パターン、即ちペプチドのスペクトルを生成し、生成したスペクトルに基づいてペプチド配列を同定する。この工程は、手短に言うと、基本的には次のように行う。試料の複雑さを減少させる分離段階(例えば液体クロマトグラフィーを用いる)の後、適切な酵素(例えばトリプシン)で消化し、検出するペプチドを生成する。次に、質量分析計を用いて質量に基づく選別を行い、質量分析計の第2のチャンバで、断片化が起こるように衝突誘起解離を行う。第2の分光計チャンバで不活性ガスと衝突するため、ペプチドが、切断され、質量が0から非切断ペプチドの質量までの複数の断片が得られる。次に、同定するために、断片化スペクトルを配列に結び付ける。このように、配列(又はその一部)は、スペクトルから読み取ることができる。最後に、データベース検索が必要であり、最良の一致が見出されるまで、経験的スペクトルを用いてスペクトル比較を行う。即ち、ペプチドの断片化スペクトルは、候補ペプチドの理論的に生成されたスペクトルに比較する。この比較により多数のデータが生成されるため、データの後処理が極めて時間集約的である。これにより、予め実験する範囲が制約される。異なる実験の結果を比較するか操作して得られるデータの後処理は、膨大な数の生成データを処理するための実用的な解決策が存在しないため、極めて困難で時間がかかるようになる。
従って、本発明の目的は、ペプチドの後処理、即ち、タンパク質及びタンパク質群に同定ペプチドを割当てる段階を改善して加速する方法及びシステムを提供することである。この目的は、請求の範囲の特徴により達成される。
本発明の第1の態様は、分析のために、健康又は病的試料から得られるタンパク質ペプチドデータを処理する方法に関し、これは、(a)ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意する段階と、(b)入力データの組からペプチド配列リストのペプチド配列重複を除去することにより、ペプチドデータの組を表す新しいペプチド配列をコンパイルする段階と、(c)同じタンパク質を起源とするペプチドデータの組のメンバを共に分類し、それによってタンパク質データの組を生成する段階と、を含む。
補助情報は、以下の事項、即ち、対応するメトリック値、起源タンパク質、ペプチドの物理化学特性、タンパク質配列でのペプチドのオフセットの少なくとも1つを含むことが好ましい。
段階b)では、ペプチド重複は、単一入力(single entry)により新しいペプチド配列リストに表されることが好ましい。単一入力のペプチドメトリック値は、対応する全ての重複ペプチド配列の値を考慮することにより計算することが好ましい。
段階c)は、そのペプチドの各々の測定値に基づき、各タンパク質に対して全てのタンパク質メトリックを計算する段階を含むことが好ましい。
入力データの組、タンパク質データの組、及びペプチドデータの組は、関係データベースに記憶することが好ましい。各ペプチド配列は、例えば、独自の番号にマッピングされ、1つのタンパク質のペプチドの独自の番号の合計が、各タンパク質に対する独自の同定番号となる。分類は、これらの独自の同定番号に基づくことが好ましい。
好ましい実施形態によれば、データの少なくともいくつかは視覚化される。
第1の態様の方法は、更に、(d)タンパク質データの組内で、同一のペプチドを共用するタンパク質を決定して分類し、それによって、タンパク質群のデータの組を形成する段階と、それによって、タンパク質の組内に重複を検出する段階と、を更に含むことが好ましい。
本発明によれば、健康組織には見出すことができない患部組織内のタンパク質を見出すために、1つは健康組織、1つは患部組織のための2つのデータの組が提供されて処理される。従って、その結果、本発明では、患部組織に存在するが健康組織にしないかその逆のタンパク質のリストが生成される。
本発明の第2の態様は、(a)健康又は患部組織に関する少なくとも2つのペプチドデータの組又はタンパク質データの組を提供する段階と、(b)前記ペプチドデータの組又はタンパク質データの組を併合して複合データの組を生成する段階と、(c)複合データの組を出力する段階と、を含む方法に関する。
第2の態様の方法によれば、健康組織のペプチドデータの組又はタンパク質データの組は、健康組織の他のペプチドデータの組又はタンパク質データの組と併合することが好ましい。或いは、患部組織のペプチドデータの組又はタンパク質データの組は、患部組織の他のペプチドデータの組又はタンパク質データの組と併合する。或いは、健康組織のペプチドデータの組又はタンパク質データの組は、患部組織のペプチドデータの組又はタンパク質データの組と併合する。
段階(b)での併合は、ブール演算の規則及びその組み合わせに従って行うことが好ましい。好ましくは、併合する段階では、各々の元のデータの組からの寄与を含むために、各メンバタンパク質又はメンバペプチドに対する種々のメトリックを計算する。
好ましい選択肢によれば、第2の態様の方法は、第1の複合データの組を少なくとも1つの別の複合データの組と併合して高世代複合データの組を生成する段階を更に含む。
ペプチドデータの組は、ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意する段階と、ペプチド配列リストのペプチド配列重複を除去し、入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする段階と、により得ることが好ましい。
タンパク質データの組は、ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意する段階と、ペプチド配列リストのペプチド配列重複を除去して入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする段階と、同じタンパク質を起源とするペプチドデータの組のメンバを共に分類し、それによってタンパク質データの組を生成する段階と、により得られることが好ましい。
第1又は第2の態様によれば、事前設定判定基準を満たさないメンバを除外することにより、単一のペプチドデータの組又はタンパク質データの組から制限されたペプチドデータの組又はタンパク質データの組を生成することが好ましい。事前設定判定基準は、使用者が入力する判定基準とすることができる。ペプチドの組を制限するための判定基準は、例えば、メトリック閾値、特定のアミノ酸の存在又は不在のような配列特徴、質量制約、又は他の物理化学特性に関する制約である。更に、タンパク質の組を制限するための判定基準は、例えば、メトリック閾値、タンパク質の配列含量、物理化学特性である。
第1又は第2の態様の方法は、第1のタンパク質データの組及び第2のタンパク質データの組を比較して2つのタンパク質の組のタンパク質発現パターンの間の類似性の程度を求める段階を含むことが好ましい。比較する段階は、例えば共通タンパク質のペプチド計数の数に関するか、或いは異なる検出ペプチド/タンパク質に関する統計的順位相関試験を用いることにより行うことができる。また、統計的順位相関試験は、タンパク質カバー率(protein coverage)に行うこともできる。
比較の結果は、タンパク質存在度(abundance)パターンに関する情報を含む。
また、本発明は、分析するために健康又は病的試料から得られたタンパク質ペプチドデータを処理するためのシステムであって、ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意するための手段と、ペプチド配列リストからペプチド配列重複を除去することにより入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする手段と、同じタンパク質を起源とするペプチドデータの組のメンバを共に分類し、それによってタンパク質データの組を生成するための手段と、を含むシステムも提供する。
更に、本発明は、健康又は患部組織に関する少なくとも2つのペプチドデータの組又はタンパク質データの組を用意するための手段と、前記ペプチドデータの組又はタンパク質データの組を併合して複合データの組を生成するための手段と、複合データの組を出力するための手段と、を含むシステムを提供する。
本発明は、添付の図面を参照してこれから説明することにする。
本発明の第1の態様の方法によれば、ペプチド配列のリスト及び関連する補助情報のような入力データが提供される。ペプチド配列のリスト及び関連する補助情報は、入力データの組(図1「入力」参照)を表す。
各実験で、本発明は、適切に設計されたデータ構造に、入力配列、及び対応するメトリック値、起源タンパク質、その他のような関連する情報を記憶する。入力配列は、単一のペプチド配列(ペプチド及び配列という用語は、交換可能に用いられ、ペプチドは、その配列により独自に同定される)である。このような各ペプチドは、タンパク質に属するが、試料に存在するタンパク質の全ての可能性のあるペプチドが、入力の一部である(即ち実験で検出される)必要は全く無い。これらのペプチド配列(実験試料に最も存在しそうなもの)は、種々の判定基準に基づき、前述の工程で求められる。付加的な情報には、注釈(所定のペプチドが実際に試料に存在したという実際の判断工程)が正しくない尤度を定量化する前述の注釈(各)アルゴリズムにより導かれる種々のメトリック、ペプチドの種々の物理化学特性、タンパク質配列でのそのオフセット、注釈ルーチンが結果を記憶する実際のコンピュータデータファイルの名前、実験設計/手順全体に関する情報、使用者の名前、その他を含むことができる。
このような入力データの組のメンバは、ペプチドヒットと呼ばれる。
入力データの組に基づき、ペプチド配列リストのペプチド配列の重複(同一のペプチド配列の組)を除去することにより新しいペプチド配列リストをコンパイルするか生成する。新しいペプチド配列リストは、ペプチドデータの組を表し、このようなペプチドデータの組のメンバはペプチドと呼ばれる。すると、ペプチド重複は、単一の入力により表され、それに付随する測定値は、全ての重複メンバの対応する値を考慮することにより計算される。この新しい非重複ペプチドリストは、ペプチドの組を構成する。これは、図3の例を用いて示される。各行は、複数回同定することができたペプチドに対応する。これは、列「重複」及び「修正重複」に示される。例えば、第1の行のペプチドは、2回同定されており(列「重複」の「2」+列「修正重複」の「0」)、第2の行は1回、第3の行は2回である。更に詳細には、これは、第1の配列は2回同定されており、その入力データの組に2回入力があることを意味する。ペプチドの組は現在のレベルでは、これらの2回の入力が1つに統合され、即ち、全てのペプチド重複が除去され、前述の2つの列が、この重複に関する情報を提供する。
本発明の次の段階又はレベルは、いわゆるタンパク質の組の生成である。タンパク質の組は、(配列データベースで定義されるように)同じタンパク質を起源とするペプチド(ペプチドの組のメンバ)を共に分類することにより生成されたタンパク質のリストである。これは、図4に示す。また、この段階は、対応するペプチドの測定値に基づき、各タンパク質のための種々のメトリックを計算する段階も伴う。このようなメトリックは、いわゆるタンパク質カバー率である。これは、実験で注釈を付けたタンパク質の配列のパーセントである。更に詳細には、実験により、ペプチドが検出され、これらは、タンパク質断片に対応する。所定の実験により、1組のタンパク質(その数千のものであることもある)にマッピングされる数千の検出ペプチドを得ることができる。タンパク質は、原則として、実験では、全てのその可能性のある断片ペプチド(100%カバー率)により表すことができる。しかし、その部分集合しか確実には検出されず、従ってカバー率が小さくなる。各タンパク質の組のメンバに対しては、全てのその検出ペプチドは、共に分類され、その後それを用いてパーセントカバー率(タンパク質配列の全長にわたって実験で「見える」タンパク質配列の長さの比)を計算する。このような計算は、二重計数等を避けるために、種々の検出タンパク質の部分配列(即ち、ペプチド配列)が最終的に重なる全ての可能性を考慮に入れる必要がある。これに関連して計算することができる別のメトリックは、いわゆる「タンパク価」である。これは、通常、簡単に言うと、所定のタンパク質に対して、(各)アルゴリズムに注釈をつける段階が、タンパク質が実験試料に存在しないという事実にかかわらず、その出力にそのペプチドを含む尤度の尺度である。その理由は、どのように正確であると主張されていても、各アルゴリズムが誤った同定を生成するためである。これらの誤った同定は、当然タンパク質レベルに伝わる。しかし、全てのアルゴリズムは、このような誤った同定が起こる尤度を定量化するのを助けるメトリックを与える。各同定ペプチドは、このようなメトリックを伴う。各タンパク質に対して、本発明によれば、タンパク質に対する全ての同定ペプチドのメトリックを組み合わせて全メトリックを生成することが好ましい。このようなタンパク質の組は、図4に示す。図4に示す表により、付加的な出力情報として、タンパク質のカバー率、異なるペプチドの数、及び共用ペプチドの数が得られる。更に、群の重なりに関する情報が提供される。例えば、群「3」は、群「28」「42」、及び「53」も含み、それ自身は群「2」に含まれる。
好ましい実施形態によれば、方法は、任意的に、タンパク質データの組内に同一のペプチドを共用するタンパク質を求めて分類し、それによってタンパク質群のデータの組を形成する段階と、それによってタンパク質の組内の重複を検出する段階と、を含む。本発明のこの好ましい態様では、その検出したペプチドの組が同一であるタンパク質の組のあらゆるメンバは、同じタンパク質群のメンバであると呼ばれる。これは、タンパク質6及びタンパク質7に対するデータ入力を含む群6に関して図4にも見ることができる。非自明なタンパク質群(2つ以上のメンバを有する群)が存在することは、実験に用いられる配列データベースに重複が存在する信号となる。これは、単純に、用いる実験手順が、所定のタンパク質群の1つ又はそれ以上のメンバが分析中の試料に実際に存在するかどうかを区別することができないという事実を反映する。従って、データ編成のこの任意的な最高部分は、タンパク質群と呼ばれる。
或いは、既にペプチドのレベルでこのような分類を行うことが可能であることになる。
最後に、入力データの組、タンパク質データの組、及びペプチドデータの組は、使用者に出力するか使用者にアクセスされるために、関係データベースに記憶する(図1の「出力」参照)。
ここまでに記載した方法のデータ構造は、図2の上側の図に示す。データの組、ペプチドの組、タンパク質の組、及び任意的なタンパク質群の間には、1対1の関係がある。
本発明の第1の態様による方法で得られる結果に基づき、新しいデータの組は、例えば制限により生成することが好ましい。制限により、事前設定判定基準、例えば使用者入力の判定基準を満たさない古い組のメンバを除外することにより、単一のペプチドの組又はタンパク質の組から新しいペプチドの組又はタンパク質の組が生成されることを意味する。ペプチドの組の制限に対する可能性のある判定基準は、閾値である。各ペプチドの組のメンバは、元の注釈付け工程の品質を定量化するメトリックにより特徴を示される。そのようなメトリックに閾値を課すことにより、元のペプチドの組の機能的部分集合、例えば、新しいペプチドの組を生成することができる。別の方法は、特定の配列特徴(例えば、特定のアミノ酸の存在又は不在)を備えるペプチドのみを維持し、質量制約(所定の値より質量が大きい/小さい等のペプチドのみを維持する)のほか、他の物理化学特性に関する制約を実施することである。タンパク質の組の制限に関して、本発明は、(例えば、タンパク質カバー率及び/又はタンパク価に関する)メトリック閾値、タンパク質の配列含量、物理化学特性(質量、等電点等)のほか、関連する生物学的情報に関する制約(例えば、特定の経路に活性があるか又は特定の細胞小器官、組織、その他にのみ発現されるタンパク質のみを維持する)を実施することにより所定のタンパク質の組から新しい機能的タンパク質の(各)組を生成する段階を含む。
本発明の別の態様によれば、併合する段階により新しい組のデータが生成される。併合する段階は、多数のペプチドの組又はタンパク質の組から新しいペプチドの組又はタンパク質の組を生成する段階を意味する。併合する規則は、異なる組に関するブール演算のあらゆる可能性のある組み合わせとすることができる。全ての併合作業で、各元の組からの寄与を含む(take include)ために、各メンバペプチド/タンパク質に対する種々のメトリックを計算する。
従って、本発明の第2の態様による方法は、健康又は患部組織に関する少なくとも2つのペプチドデータの組又はタンパク質データの組を用意し、前記ペプチドデータの組又はタンパク質データの組を併合して複合データの組を生成する段階と、複合データの組を出力する段階と、を含む。例えば、健康組織のペプチドデータの組又はタンパク質データの組は、他の健康組織のペプチドデータの組又はタンパク質データの組と併合する。或いは、患部組織のペプチドデータの組又はタンパク質データの組は、他の患部組織のペプチドデータの組又はタンパク質データの組と併合する。或いは、健康組織のペプチドデータの組又はタンパク質データの組は、患部組織のペプチドデータの組又はタンパク質データの組と併合する。
ペプチドの組又はタンパク質の組の併合に関するデータ構造の従属性は、図2の下側の図に示す。例えば、4つのペプチドの組又はタンパク質の組は、単一の組に併合され、次に、上に記載するように、それにも分類する段階を行うことができる。この筋書きは、対応する入力データの組が無い多対1の関係を表す。
制限又は併合の何れかにより生成されたあらゆるペプチドの組又はタンパク質の組は、複合体と呼ばれる。複合体の組は、データの組に直接は対応していない。しかし、データが構成されて記憶される方法は、あらゆる複合体の組をその生成ペプチドの(各)組又はタンパク質の(各)組の対応するデータの(各)組に結びつけることができる。
本発明の別の選択肢によれば、制限及び/又は併合する段階は、更に、このような複合ペプチドの組/タンパク質の組に適用し、このように、新しい複合体の組の第2の(又はそれより高い)世代を生成することができる。それらをオリジナルを生成するペプチドの(各)組/タンパク質の(各)組(及び当然データの(各)組)に結び付けることは常に可能である。更に、各複合タンパク質の組に対しては、本発明のシステムは、対応するタンパク質群を生成することができることが好ましい。
データの新しい組を生成するこれらの2つの方法は、図1の右の部分に示される。全ての情報を保持するために、最初に併合する段階を行い、次に、データの量を更に制限するために制限する段階を行うことが好ましい。
別の好ましい実施形態によれば、本発明は、実験の比較を提供する(図1の右の部分を参照)。2つの実験を比較することにより、観察したタンパク質存在度(abundance)パターンの間の類似性を推定することを意味する。単一のタンパク質に対して、その存在度の尺度は、実験的に同定されたペプチド配列の数(ペプチド計数)であると見なされる。タンパク質存在度パターンの比較は、2つのタンパク質の組の共通タンパク質の数が十分に大きい場合にのみ理に適う。これが真である場合には、例えば、共通タンパク質のペプチド計数に統計的順位相関試験を行い、観察した存在度パターンの間の類似性の確固とした尺度とする。タンパク質存在度パターンは、大体において、同定ペプチドの数/タンパク質に対応する。2つの同様の試料では、タンパク質は、匹敵する濃度であることが予想され、すると、これは、2つの並列する実験のその対応する検出ペプチドの数が匹敵するということを意味する。(例えばスピアマン)統計的順位相関試験は、2つの実験での検出ペプチド/タンパク質の対になるリストを生成し、次に、1つのタンパク質の組のタンパク質存在度パターンが他の組に反映されるかどうかを示す統計的に意味のある値を生成する。
このように、本発明は、データの組を制限又は併合する能力を提供し、新しい機能的組を生成するほか、種々の測定可能な特性に基づいて比較することを可能にする。例の1つとして、比較は、タンパク質の組の間のみで行われ、統計的順位相関試験は、専ら検出ペプチドの数/タンパク質に基づく。しかし、本発明は、このような比較が基づくことができる他のパラメータ、例えば、異なる検出ペプチドの数/タンパク質(この数は、検出ペプチドの数/タンパク質以下である。前者は、同じペプチドの全ての存在する複数の検出(重複)を1として計数し、後者は、それを独立のものと計数する)も含む。更に比較に用いられる別のこのようなパラメータは、タンパク質カバー率である。
本発明の特定の実施形態は、上に詳細に記載したが、この記載は、単に説明のためのものであることは理解されると考える。当業者は、請求の範囲で定められる本発明の精神から逸脱することなく、好ましい実施形態の開示した態様に対応する種々の変更形態及び同等物を作ることができる。
本発明の第1の態様の好ましい実施形態による方法及び好ましい付加的な段階を示す概略図である。 データ構造従属性を視覚化した図である。 ペプチドの組を構成する非重複ペプチドリストの例を示す図である。 タンパク質の組の例を示す図である。

Claims (31)

  1. 分析するために健康又は病的試料から得たタンパク質ペプチドデータを処理する方法であって、
    a)入力データの組を表すペプチド配列のリスト及び付随する補助情報を用意する段階と、
    b)ペプチド配列リストのペプチド配列の重複性を除去することにより、入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする段階と、
    c)同じタンパク質を起源とするペプチドデータの組のメンバを共に分類し、タンパク質データの組を生成する段階と、
    を含むことを特徴とする方法。
  2. 前記補助情報が、対応するメトリック値、起源タンパク質、前記ペプチドの物理化学特性、前記タンパク質配列の前記ペプチドのオフセットの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  3. 段階b)において、ペプチド重複性が、単一の入力により前記新しいペプチド配列リストに表されることを特徴とする請求項1又は請求項2の何れか1項に記載の方法。
  4. 前記単一の入力のペプチドメトリック値が、全ての重複ペプチド配列の対応する値を考慮に入れることにより計算されることを特徴とする請求項3に記載の方法。
  5. 段階c)が、各タンパク質に対して、そのペプチドの各々の前記測定値に基づき、全タンパク質メトリックを計算する段階を含むことを特徴とする前記請求項の何れか1項に記載の方法。
  6. 関係データベースに、前記入力データの組、タンパク質データの組、及びペプチドデータの組を記憶する段階を更に含むことを特徴とする前記請求項の何れか1項に記載の方法。
  7. 各ペプチド配列が、独自の番号にマッピングされ、1つのタンパク質のペプチドの独自の番号の合計が、各タンパク質に対する独自の同定番号を生成することを特徴とする請求項6に記載の方法。
  8. 分類する段階が、前記独自の同定番号に基づくことを特徴とする請求項7に記載の方法。
  9. 前記データの組の少なくともいくつかを視覚化する段階を更に含むことを特徴とする前記請求項の何れか1項に記載の方法。
  10. タンパク質データの組内で同一のペプチドを共用するタンパク質を判別して分類し、それによってタンパク質群データの組を形成する段階と、それによって、前記タンパク質の組内の重複を検出する段階と、
    を更に含むことを特徴とする前記請求項の何れか1項に記載の方法。
  11. a)健康又は患部組織に関する少なくとも2つのペプチドデータの組又はタンパク質データの組を用意する段階と、
    b)前記ペプチドデータの組又はタンパク質データの組を併合して複合データの組を生成する段階と、
    c)前記複合データの組を出力する段階と、
    を含むことを特徴とする方法。
  12. 健康組織のペプチドデータの組又はタンパク質データの組が、健康組織の他のペプチドデータの組又はタンパク質データの組と併合されることを特徴とする請求項11に記載の方法。
  13. 患部組織のペプチドデータの組又はタンパク質データの組が、患部組織の他のペプチドデータの組又はタンパク質データの組と併合されることを特徴とする請求項11に記載の方法。
  14. 健康組織のペプチドデータの組又はタンパク質データの組が、患部組織のペプチドデータの組又はタンパク質データの組と併合されることを特徴とする請求項11に記載の方法。
  15. 前記段階b)の併合する段階が、ブール演算の規則及びその組み合わせに従って行われることを特徴とする請求項11から14の何れか1項に記載の方法。
  16. 前記併合する段階で、各々の元のデータの組からの寄与を含むために、各メンバタンパク質又はメンバペプチドに対する前記種々のメトリックを計算することを特徴とする請求項11から15の何れか1項に記載の方法。
  17. 第1の複合データの組を少なくとも1つの別の複合データの組と併合してそれより高い世代の複合データの組を生成する段階を更に含むことを特徴とする請求項11から16の何れか1項に記載の方法。
  18. 前記ペプチドデータの組が、ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意する段階と、前記ペプチド配列リストのペプチド配列の重複を除去することにより前記入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする段階と、により得られることを特徴とする請求項11から17の何れか1項に記載の方法。
  19. 前記タンパク質データの組が、ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意する段階と、前記ペプチド配列リストのペプチド配列の重複を除去することにより、前記入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする段階と、同じタンパク質を起源とする前記ペプチドデータの組のメンバを共に分類し、それによってタンパク質データの組を生成する段階と、により得られることを特徴とする請求項11から17の何れか1項に記載の方法。
  20. 事前設定判定基準を満たさないメンバを除外することにより、ペプチドデータの組又はタンパク質データの組から制限ペプチドデータの組又はタンパク質データの組を生成する段階を更に含むことを特徴とする請求項1から19の何れか1項に記載の方法。
  21. 前記事前設定判定基準が、使用者が入力する判定基準であることを特徴とする請求項20に記載の方法。
  22. ペプチドの組を制限するための判定基準が、メトリック閾値、特定のアミノ酸の存在又は不在のような配列特徴、質量制約、又は他の物理化学特性の制約であることを特徴とする請求項20又は21に記載の方法。
  23. タンパク質の組の制限メトリック閾値に対する判定基準が、前記タンパク質の配列含有量、物理化学特性であることを特徴とする請求項20又は21に記載の方法。
  24. 第1のタンパク質データの組及び第2のタンパク質データの組を比較して前記2つのタンパク質の組のタンパク質発現パターンの間の類似性の程度を求める段階を更に含むことを特徴とする請求項1から23の何れか1項に記載の方法。
  25. 前記比較する段階が、統計的順位相関試験を用いて行われることを特徴とする請求項24に記載の方法。
  26. 前記統計的順位相関試験が、前記共通タンパク質のペプチド計数の数に関して行われることを特徴とする請求項25に記載の方法。
  27. 前記統計的順位相関試験が、前記異なる検出ペプチド/タンパク質に関して行われることを特徴とする請求項25に記載の方法。
  28. 前記統計的順位相関試験が、前記タンパク質カバー率に関して行われることを特徴とする請求項25に記載の方法。
  29. 前記比較する段階の結果が、タンパク質存在度パターンに関する情報を含むことを特徴とする請求項25又は26に記載の方法。
  30. 分析するために健康又は病的試料から得られるタンパク質ペプチドデータを処理するためのシステムであって、
    a)ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意するための手段と、
    b)前記ペプチド配列リストのペプチド配列の重複を除去することにより、前記入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルするための手段と、
    c)前記同じタンパク質を起源とする前記ペプチドデータの組のメンバを共に分類し、それによってタンパク質データの組を生成するための手段と、
    を含むことを特徴とするシステム。
  31. a)健康又は患部組織に関する少なくとも2つのペプチドデータの組又はタンパク質データの組を用意するための手段と、
    b)前記ペプチドデータの組又はタンパク質データの組を併合して複合データの組を生成するための手段と、
    c)前記複合データの組を出力するための手段と、
    を含むことを特徴とするシステム。
JP2008122287A 2007-05-10 2008-05-08 タンパク質ペプチドデータを処理する方法及びシステム Pending JP2009025287A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP07107948 2007-05-10

Publications (1)

Publication Number Publication Date
JP2009025287A true JP2009025287A (ja) 2009-02-05

Family

ID=39876759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008122287A Pending JP2009025287A (ja) 2007-05-10 2008-05-08 タンパク質ペプチドデータを処理する方法及びシステム

Country Status (6)

Country Link
US (1) US20080281847A1 (ja)
EP (1) EP2000935A3 (ja)
JP (1) JP2009025287A (ja)
CN (1) CN101303713A (ja)
CA (1) CA2630948A1 (ja)
SG (1) SG148105A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411666B (zh) * 2010-09-26 2014-04-16 中国科学院计算技术研究所 一种蛋白质鉴定的大规模分布式并行加速方法及其系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001067299A1 (fr) * 2000-03-10 2001-09-13 Daiichi Pharmaceutical Co., Ltd. Procede servant a prevoir une interaction entre proteines
JP2004147640A (ja) * 2002-09-06 2004-05-27 Celestar Lexico-Sciences Inc insituハイブリダイゼーション解析管理方法およびinsituハイブリダイゼーション解析管理装置
JP2005017090A (ja) * 2003-06-25 2005-01-20 Hitachi Ltd タンパク質同定処理方法
JP2005504263A (ja) * 2001-02-01 2005-02-10 シファーゲン バイオシステムズ, インコーポレイテッド タンデム質量分析によるタンパク質同定、特徴付けおよび配列決定のための改良された方法
JP2006507476A (ja) * 2002-06-03 2006-03-02 ザ インスティテュート フォー システムズ バイオロジー 糖タンパク質を定量的プロテオ−ム分析する方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6023659A (en) * 1996-10-10 2000-02-08 Incyte Pharmaceuticals, Inc. Database system employing protein function hierarchies for viewing biomolecular sequence data
DE19745665C1 (de) * 1997-10-17 1999-05-12 Deutsches Krebsforsch Verfahren zur Eingruppierung von Sequenzen in Familien
EP1762954B1 (en) * 2005-08-01 2019-08-21 F.Hoffmann-La Roche Ag Automated generation of multi-dimensional structure activity and structure property relationships
SG141319A1 (en) * 2006-09-08 2008-04-28 Hoffmann La Roche Method for predicting biological, biochemical, biophysical, or pharmacological characteristics of a substance

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001067299A1 (fr) * 2000-03-10 2001-09-13 Daiichi Pharmaceutical Co., Ltd. Procede servant a prevoir une interaction entre proteines
JP2005504263A (ja) * 2001-02-01 2005-02-10 シファーゲン バイオシステムズ, インコーポレイテッド タンデム質量分析によるタンパク質同定、特徴付けおよび配列決定のための改良された方法
JP2006507476A (ja) * 2002-06-03 2006-03-02 ザ インスティテュート フォー システムズ バイオロジー 糖タンパク質を定量的プロテオ−ム分析する方法
JP2004147640A (ja) * 2002-09-06 2004-05-27 Celestar Lexico-Sciences Inc insituハイブリダイゼーション解析管理方法およびinsituハイブリダイゼーション解析管理装置
JP2005017090A (ja) * 2003-06-25 2005-01-20 Hitachi Ltd タンパク質同定処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6013041833; J Proteome Res. Vol.1, No.1,, 2002, p21-26 *

Also Published As

Publication number Publication date
EP2000935A2 (en) 2008-12-10
US20080281847A1 (en) 2008-11-13
EP2000935A3 (en) 2012-07-18
CN101303713A (zh) 2008-11-12
SG148105A1 (en) 2008-12-31
CA2630948A1 (en) 2008-11-10

Similar Documents

Publication Publication Date Title
Kong et al. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry–based proteomics
Fusaro et al. Prediction of high-responding peptides for targeted protein assays by mass spectrometry
Yadav et al. A systematic analysis of eluted fraction of plasma post immunoaffinity depletion: implications in biomarker discovery
Nesvizhskii et al. Analysis and validation of proteomic data generated by tandem mass spectrometry
Jin et al. Binary function clustering using semantic hashes
Faust et al. YAHA: fast and flexible long-read alignment with optimal breakpoint detection
Colinge et al. Introduction to computational proteomics
Yang et al. Tcrklass: a new k-string–based algorithm for human and mouse tcr repertoire characterization
Yang et al. GproDIA enables data-independent acquisition glycoproteomics with comprehensive statistical control
Luo et al. Protein quantitation using iTRAQ: Review on the sources of variations and analysis of nonrandom missingness
Samaras et al. Reanalysis of ProteomicsDB using an accurate, sensitive, and scalable false discovery rate estimation approach for protein groups
Barceló et al. MALDI-TOF analysis of blood serum proteome can predict the presence of monoclonal gammopathy of undetermined significance
Valledor et al. The different proteomes of Chlamydomonas reinhardtii
Shadforth et al. Confident protein identification using the average peptide score method coupled with search‐specific, ab initio thresholds
JP2009025287A (ja) タンパク質ペプチドデータを処理する方法及びシステム
Song A new parameterized algorithm for rapid peptide sequencing
Menzel et al. NoPeak: k-mer-based motif discovery in ChIP-Seq data without peak calling
Burke et al. False discovery rate estimation for hybrid mass spectral library search identifications in bottom-up proteomics
Kern et al. Predicting interacting residues using long-distance information and novel decoding in hidden markov models
Zhang et al. ICPD-a new peak detection algorithm for LC/MS
JP2019185224A (ja) 内在性修飾ペプチドの同定品質評価方法及び装置
JP4651341B2 (ja) マススペクトル測定方法
Degroeve et al. The effect of peptide identification search algorithms on MS2-based label-free protein quantification
Hamady et al. Does protein structure influence trypsin miscleavage?
van Puyenbroeck Using reprocessed public proteomic data to detect cell line specific protein patterns

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130822

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140225