JP2009025287A

JP2009025287A - タンパク質ペプチドデータを処理する方法及びシステム

Info

Publication number: JP2009025287A
Application number: JP2008122287A
Authority: JP
Inventors: Nikolaos Berntenis; ニコラオス・ベルントゥニス; Christian Miess; クリスティアン・ミース; Bernd Mueller; ベルント・ミューラー
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2007-05-10
Filing date: 2008-05-08
Publication date: 2009-02-05
Also published as: EP2000935A3; SG148105A1; CA2630948A1; CN101303713A; EP2000935A2; US20080281847A1

Abstract

【課題】ペプチドの後処理、即ち、タンパク質及びタンパク質群に同定ペプチドを割当てる段階を改善して加速する方法及びシステムを提供する。
【解決手段】分析するために健康又は病的試料から得たタンパク質ペプチドデータを処理する方法であって、ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意する段階と、ペプチド配列リストのペプチド配列の重複を除去することにより、入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする段階と、同じタンパク質を起源とするペプチドデータの組のメンバを共に分類し、それによって、タンパク質データの組を生成する段階と、を含む方法を提供する。
【選択図】なし

Description

本発明は、タンパク質同定に関し、好ましくは健康又は病的試料、例えば組織試料から得たタンパク質ペプチドデータを処理する方法及びシステムを提供する。複雑な混合物中のタンパク質を同定するほか、相対発現プロファイルの差を検出することが必要とされている。十分な数のそのペプチドが同定される場合には、所定のタンパク質が試料に存在すると考えられる。当技術分野では、多数のペプチドを高速で平行して同定するためにＭＳＭＳ（タンデム質量分析）を用いることが公知である。最初に、質量分析計を用いて、断片化パターン、即ちペプチドのスペクトルを生成し、生成したスペクトルに基づいてペプチド配列を同定する。この工程は、手短に言うと、基本的には次のように行う。試料の複雑さを減少させる分離段階（例えば液体クロマトグラフィーを用いる）の後、適切な酵素（例えばトリプシン）で消化し、検出するペプチドを生成する。次に、質量分析計を用いて質量に基づく選別を行い、質量分析計の第２のチャンバで、断片化が起こるように衝突誘起解離を行う。第２の分光計チャンバで不活性ガスと衝突するため、ペプチドが、切断され、質量が０から非切断ペプチドの質量までの複数の断片が得られる。次に、同定するために、断片化スペクトルを配列に結び付ける。このように、配列（又はその一部）は、スペクトルから読み取ることができる。最後に、データベース検索が必要であり、最良の一致が見出されるまで、経験的スペクトルを用いてスペクトル比較を行う。即ち、ペプチドの断片化スペクトルは、候補ペプチドの理論的に生成されたスペクトルに比較する。この比較により多数のデータが生成されるため、データの後処理が極めて時間集約的である。これにより、予め実験する範囲が制約される。異なる実験の結果を比較するか操作して得られるデータの後処理は、膨大な数の生成データを処理するための実用的な解決策が存在しないため、極めて困難で時間がかかるようになる。

従って、本発明の目的は、ペプチドの後処理、即ち、タンパク質及びタンパク質群に同定ペプチドを割当てる段階を改善して加速する方法及びシステムを提供することである。この目的は、請求の範囲の特徴により達成される。

本発明の第１の態様は、分析のために、健康又は病的試料から得られるタンパク質ペプチドデータを処理する方法に関し、これは、（ａ）ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意する段階と、（ｂ）入力データの組からペプチド配列リストのペプチド配列重複を除去することにより、ペプチドデータの組を表す新しいペプチド配列をコンパイルする段階と、（ｃ）同じタンパク質を起源とするペプチドデータの組のメンバを共に分類し、それによってタンパク質データの組を生成する段階と、を含む。

補助情報は、以下の事項、即ち、対応するメトリック値、起源タンパク質、ペプチドの物理化学特性、タンパク質配列でのペプチドのオフセットの少なくとも１つを含むことが好ましい。

段階ｂ）では、ペプチド重複は、単一入力（ｓｉｎｇｌｅｅｎｔｒｙ）により新しいペプチド配列リストに表されることが好ましい。単一入力のペプチドメトリック値は、対応する全ての重複ペプチド配列の値を考慮することにより計算することが好ましい。

段階ｃ）は、そのペプチドの各々の測定値に基づき、各タンパク質に対して全てのタンパク質メトリックを計算する段階を含むことが好ましい。

入力データの組、タンパク質データの組、及びペプチドデータの組は、関係データベースに記憶することが好ましい。各ペプチド配列は、例えば、独自の番号にマッピングされ、１つのタンパク質のペプチドの独自の番号の合計が、各タンパク質に対する独自の同定番号となる。分類は、これらの独自の同定番号に基づくことが好ましい。

好ましい実施形態によれば、データの少なくともいくつかは視覚化される。

第１の態様の方法は、更に、（ｄ）タンパク質データの組内で、同一のペプチドを共用するタンパク質を決定して分類し、それによって、タンパク質群のデータの組を形成する段階と、それによって、タンパク質の組内に重複を検出する段階と、を更に含むことが好ましい。

本発明によれば、健康組織には見出すことができない患部組織内のタンパク質を見出すために、１つは健康組織、１つは患部組織のための２つのデータの組が提供されて処理される。従って、その結果、本発明では、患部組織に存在するが健康組織にしないかその逆のタンパク質のリストが生成される。

本発明の第２の態様は、（ａ）健康又は患部組織に関する少なくとも２つのペプチドデータの組又はタンパク質データの組を提供する段階と、（ｂ）前記ペプチドデータの組又はタンパク質データの組を併合して複合データの組を生成する段階と、（ｃ）複合データの組を出力する段階と、を含む方法に関する。

第２の態様の方法によれば、健康組織のペプチドデータの組又はタンパク質データの組は、健康組織の他のペプチドデータの組又はタンパク質データの組と併合することが好ましい。或いは、患部組織のペプチドデータの組又はタンパク質データの組は、患部組織の他のペプチドデータの組又はタンパク質データの組と併合する。或いは、健康組織のペプチドデータの組又はタンパク質データの組は、患部組織のペプチドデータの組又はタンパク質データの組と併合する。

段階（ｂ）での併合は、ブール演算の規則及びその組み合わせに従って行うことが好ましい。好ましくは、併合する段階では、各々の元のデータの組からの寄与を含むために、各メンバタンパク質又はメンバペプチドに対する種々のメトリックを計算する。

好ましい選択肢によれば、第２の態様の方法は、第１の複合データの組を少なくとも１つの別の複合データの組と併合して高世代複合データの組を生成する段階を更に含む。

ペプチドデータの組は、ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意する段階と、ペプチド配列リストのペプチド配列重複を除去し、入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする段階と、により得ることが好ましい。

タンパク質データの組は、ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意する段階と、ペプチド配列リストのペプチド配列重複を除去して入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする段階と、同じタンパク質を起源とするペプチドデータの組のメンバを共に分類し、それによってタンパク質データの組を生成する段階と、により得られることが好ましい。

第１又は第２の態様によれば、事前設定判定基準を満たさないメンバを除外することにより、単一のペプチドデータの組又はタンパク質データの組から制限されたペプチドデータの組又はタンパク質データの組を生成することが好ましい。事前設定判定基準は、使用者が入力する判定基準とすることができる。ペプチドの組を制限するための判定基準は、例えば、メトリック閾値、特定のアミノ酸の存在又は不在のような配列特徴、質量制約、又は他の物理化学特性に関する制約である。更に、タンパク質の組を制限するための判定基準は、例えば、メトリック閾値、タンパク質の配列含量、物理化学特性である。

第１又は第２の態様の方法は、第１のタンパク質データの組及び第２のタンパク質データの組を比較して２つのタンパク質の組のタンパク質発現パターンの間の類似性の程度を求める段階を含むことが好ましい。比較する段階は、例えば共通タンパク質のペプチド計数の数に関するか、或いは異なる検出ペプチド／タンパク質に関する統計的順位相関試験を用いることにより行うことができる。また、統計的順位相関試験は、タンパク質カバー率（ｐｒｏｔｅｉｎｃｏｖｅｒａｇｅ）に行うこともできる。

比較の結果は、タンパク質存在度（ａｂｕｎｄａｎｃｅ）パターンに関する情報を含む。

また、本発明は、分析するために健康又は病的試料から得られたタンパク質ペプチドデータを処理するためのシステムであって、ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意するための手段と、ペプチド配列リストからペプチド配列重複を除去することにより入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする手段と、同じタンパク質を起源とするペプチドデータの組のメンバを共に分類し、それによってタンパク質データの組を生成するための手段と、を含むシステムも提供する。

更に、本発明は、健康又は患部組織に関する少なくとも２つのペプチドデータの組又はタンパク質データの組を用意するための手段と、前記ペプチドデータの組又はタンパク質データの組を併合して複合データの組を生成するための手段と、複合データの組を出力するための手段と、を含むシステムを提供する。

本発明は、添付の図面を参照してこれから説明することにする。

本発明の第１の態様の方法によれば、ペプチド配列のリスト及び関連する補助情報のような入力データが提供される。ペプチド配列のリスト及び関連する補助情報は、入力データの組（図１「入力」参照）を表す。

各実験で、本発明は、適切に設計されたデータ構造に、入力配列、及び対応するメトリック値、起源タンパク質、その他のような関連する情報を記憶する。入力配列は、単一のペプチド配列（ペプチド及び配列という用語は、交換可能に用いられ、ペプチドは、その配列により独自に同定される）である。このような各ペプチドは、タンパク質に属するが、試料に存在するタンパク質の全ての可能性のあるペプチドが、入力の一部である（即ち実験で検出される）必要は全く無い。これらのペプチド配列（実験試料に最も存在しそうなもの）は、種々の判定基準に基づき、前述の工程で求められる。付加的な情報には、注釈（所定のペプチドが実際に試料に存在したという実際の判断工程）が正しくない尤度を定量化する前述の注釈（各）アルゴリズムにより導かれる種々のメトリック、ペプチドの種々の物理化学特性、タンパク質配列でのそのオフセット、注釈ルーチンが結果を記憶する実際のコンピュータデータファイルの名前、実験設計／手順全体に関する情報、使用者の名前、その他を含むことができる。

このような入力データの組のメンバは、ペプチドヒットと呼ばれる。

入力データの組に基づき、ペプチド配列リストのペプチド配列の重複（同一のペプチド配列の組）を除去することにより新しいペプチド配列リストをコンパイルするか生成する。新しいペプチド配列リストは、ペプチドデータの組を表し、このようなペプチドデータの組のメンバはペプチドと呼ばれる。すると、ペプチド重複は、単一の入力により表され、それに付随する測定値は、全ての重複メンバの対応する値を考慮することにより計算される。この新しい非重複ペプチドリストは、ペプチドの組を構成する。これは、図３の例を用いて示される。各行は、複数回同定することができたペプチドに対応する。これは、列「重複」及び「修正重複」に示される。例えば、第１の行のペプチドは、２回同定されており（列「重複」の「２」＋列「修正重複」の「０」）、第２の行は１回、第３の行は２回である。更に詳細には、これは、第１の配列は２回同定されており、その入力データの組に２回入力があることを意味する。ペプチドの組は現在のレベルでは、これらの２回の入力が１つに統合され、即ち、全てのペプチド重複が除去され、前述の２つの列が、この重複に関する情報を提供する。

本発明の次の段階又はレベルは、いわゆるタンパク質の組の生成である。タンパク質の組は、（配列データベースで定義されるように）同じタンパク質を起源とするペプチド（ペプチドの組のメンバ）を共に分類することにより生成されたタンパク質のリストである。これは、図４に示す。また、この段階は、対応するペプチドの測定値に基づき、各タンパク質のための種々のメトリックを計算する段階も伴う。このようなメトリックは、いわゆるタンパク質カバー率である。これは、実験で注釈を付けたタンパク質の配列のパーセントである。更に詳細には、実験により、ペプチドが検出され、これらは、タンパク質断片に対応する。所定の実験により、１組のタンパク質（その数千のものであることもある）にマッピングされる数千の検出ペプチドを得ることができる。タンパク質は、原則として、実験では、全てのその可能性のある断片ペプチド（１００％カバー率）により表すことができる。しかし、その部分集合しか確実には検出されず、従ってカバー率が小さくなる。各タンパク質の組のメンバに対しては、全てのその検出ペプチドは、共に分類され、その後それを用いてパーセントカバー率（タンパク質配列の全長にわたって実験で「見える」タンパク質配列の長さの比）を計算する。このような計算は、二重計数等を避けるために、種々の検出タンパク質の部分配列（即ち、ペプチド配列）が最終的に重なる全ての可能性を考慮に入れる必要がある。これに関連して計算することができる別のメトリックは、いわゆる「タンパク価」である。これは、通常、簡単に言うと、所定のタンパク質に対して、（各）アルゴリズムに注釈をつける段階が、タンパク質が実験試料に存在しないという事実にかかわらず、その出力にそのペプチドを含む尤度の尺度である。その理由は、どのように正確であると主張されていても、各アルゴリズムが誤った同定を生成するためである。これらの誤った同定は、当然タンパク質レベルに伝わる。しかし、全てのアルゴリズムは、このような誤った同定が起こる尤度を定量化するのを助けるメトリックを与える。各同定ペプチドは、このようなメトリックを伴う。各タンパク質に対して、本発明によれば、タンパク質に対する全ての同定ペプチドのメトリックを組み合わせて全メトリックを生成することが好ましい。このようなタンパク質の組は、図４に示す。図４に示す表により、付加的な出力情報として、タンパク質のカバー率、異なるペプチドの数、及び共用ペプチドの数が得られる。更に、群の重なりに関する情報が提供される。例えば、群「３」は、群「２８」「４２」、及び「５３」も含み、それ自身は群「２」に含まれる。

好ましい実施形態によれば、方法は、任意的に、タンパク質データの組内に同一のペプチドを共用するタンパク質を求めて分類し、それによってタンパク質群のデータの組を形成する段階と、それによってタンパク質の組内の重複を検出する段階と、を含む。本発明のこの好ましい態様では、その検出したペプチドの組が同一であるタンパク質の組のあらゆるメンバは、同じタンパク質群のメンバであると呼ばれる。これは、タンパク質６及びタンパク質７に対するデータ入力を含む群６に関して図４にも見ることができる。非自明なタンパク質群（２つ以上のメンバを有する群）が存在することは、実験に用いられる配列データベースに重複が存在する信号となる。これは、単純に、用いる実験手順が、所定のタンパク質群の１つ又はそれ以上のメンバが分析中の試料に実際に存在するかどうかを区別することができないという事実を反映する。従って、データ編成のこの任意的な最高部分は、タンパク質群と呼ばれる。

或いは、既にペプチドのレベルでこのような分類を行うことが可能であることになる。

最後に、入力データの組、タンパク質データの組、及びペプチドデータの組は、使用者に出力するか使用者にアクセスされるために、関係データベースに記憶する（図１の「出力」参照）。

ここまでに記載した方法のデータ構造は、図２の上側の図に示す。データの組、ペプチドの組、タンパク質の組、及び任意的なタンパク質群の間には、１対１の関係がある。

本発明の第１の態様による方法で得られる結果に基づき、新しいデータの組は、例えば制限により生成することが好ましい。制限により、事前設定判定基準、例えば使用者入力の判定基準を満たさない古い組のメンバを除外することにより、単一のペプチドの組又はタンパク質の組から新しいペプチドの組又はタンパク質の組が生成されることを意味する。ペプチドの組の制限に対する可能性のある判定基準は、閾値である。各ペプチドの組のメンバは、元の注釈付け工程の品質を定量化するメトリックにより特徴を示される。そのようなメトリックに閾値を課すことにより、元のペプチドの組の機能的部分集合、例えば、新しいペプチドの組を生成することができる。別の方法は、特定の配列特徴（例えば、特定のアミノ酸の存在又は不在）を備えるペプチドのみを維持し、質量制約（所定の値より質量が大きい／小さい等のペプチドのみを維持する）のほか、他の物理化学特性に関する制約を実施することである。タンパク質の組の制限に関して、本発明は、（例えば、タンパク質カバー率及び／又はタンパク価に関する）メトリック閾値、タンパク質の配列含量、物理化学特性（質量、等電点等）のほか、関連する生物学的情報に関する制約（例えば、特定の経路に活性があるか又は特定の細胞小器官、組織、その他にのみ発現されるタンパク質のみを維持する）を実施することにより所定のタンパク質の組から新しい機能的タンパク質の（各）組を生成する段階を含む。

本発明の別の態様によれば、併合する段階により新しい組のデータが生成される。併合する段階は、多数のペプチドの組又はタンパク質の組から新しいペプチドの組又はタンパク質の組を生成する段階を意味する。併合する規則は、異なる組に関するブール演算のあらゆる可能性のある組み合わせとすることができる。全ての併合作業で、各元の組からの寄与を含む（ｔａｋｅｉｎｃｌｕｄｅ）ために、各メンバペプチド／タンパク質に対する種々のメトリックを計算する。

従って、本発明の第２の態様による方法は、健康又は患部組織に関する少なくとも２つのペプチドデータの組又はタンパク質データの組を用意し、前記ペプチドデータの組又はタンパク質データの組を併合して複合データの組を生成する段階と、複合データの組を出力する段階と、を含む。例えば、健康組織のペプチドデータの組又はタンパク質データの組は、他の健康組織のペプチドデータの組又はタンパク質データの組と併合する。或いは、患部組織のペプチドデータの組又はタンパク質データの組は、他の患部組織のペプチドデータの組又はタンパク質データの組と併合する。或いは、健康組織のペプチドデータの組又はタンパク質データの組は、患部組織のペプチドデータの組又はタンパク質データの組と併合する。

ペプチドの組又はタンパク質の組の併合に関するデータ構造の従属性は、図２の下側の図に示す。例えば、４つのペプチドの組又はタンパク質の組は、単一の組に併合され、次に、上に記載するように、それにも分類する段階を行うことができる。この筋書きは、対応する入力データの組が無い多対１の関係を表す。

制限又は併合の何れかにより生成されたあらゆるペプチドの組又はタンパク質の組は、複合体と呼ばれる。複合体の組は、データの組に直接は対応していない。しかし、データが構成されて記憶される方法は、あらゆる複合体の組をその生成ペプチドの（各）組又はタンパク質の（各）組の対応するデータの（各）組に結びつけることができる。

本発明の別の選択肢によれば、制限及び／又は併合する段階は、更に、このような複合ペプチドの組／タンパク質の組に適用し、このように、新しい複合体の組の第２の（又はそれより高い）世代を生成することができる。それらをオリジナルを生成するペプチドの（各）組／タンパク質の（各）組（及び当然データの（各）組）に結び付けることは常に可能である。更に、各複合タンパク質の組に対しては、本発明のシステムは、対応するタンパク質群を生成することができることが好ましい。

データの新しい組を生成するこれらの２つの方法は、図１の右の部分に示される。全ての情報を保持するために、最初に併合する段階を行い、次に、データの量を更に制限するために制限する段階を行うことが好ましい。

別の好ましい実施形態によれば、本発明は、実験の比較を提供する（図１の右の部分を参照）。２つの実験を比較することにより、観察したタンパク質存在度（ａｂｕｎｄａｎｃｅ）パターンの間の類似性を推定することを意味する。単一のタンパク質に対して、その存在度の尺度は、実験的に同定されたペプチド配列の数（ペプチド計数）であると見なされる。タンパク質存在度パターンの比較は、２つのタンパク質の組の共通タンパク質の数が十分に大きい場合にのみ理に適う。これが真である場合には、例えば、共通タンパク質のペプチド計数に統計的順位相関試験を行い、観察した存在度パターンの間の類似性の確固とした尺度とする。タンパク質存在度パターンは、大体において、同定ペプチドの数／タンパク質に対応する。２つの同様の試料では、タンパク質は、匹敵する濃度であることが予想され、すると、これは、２つの並列する実験のその対応する検出ペプチドの数が匹敵するということを意味する。（例えばスピアマン）統計的順位相関試験は、２つの実験での検出ペプチド／タンパク質の対になるリストを生成し、次に、１つのタンパク質の組のタンパク質存在度パターンが他の組に反映されるかどうかを示す統計的に意味のある値を生成する。

このように、本発明は、データの組を制限又は併合する能力を提供し、新しい機能的組を生成するほか、種々の測定可能な特性に基づいて比較することを可能にする。例の１つとして、比較は、タンパク質の組の間のみで行われ、統計的順位相関試験は、専ら検出ペプチドの数／タンパク質に基づく。しかし、本発明は、このような比較が基づくことができる他のパラメータ、例えば、異なる検出ペプチドの数／タンパク質（この数は、検出ペプチドの数／タンパク質以下である。前者は、同じペプチドの全ての存在する複数の検出（重複）を１として計数し、後者は、それを独立のものと計数する）も含む。更に比較に用いられる別のこのようなパラメータは、タンパク質カバー率である。

本発明の特定の実施形態は、上に詳細に記載したが、この記載は、単に説明のためのものであることは理解されると考える。当業者は、請求の範囲で定められる本発明の精神から逸脱することなく、好ましい実施形態の開示した態様に対応する種々の変更形態及び同等物を作ることができる。

本発明の第１の態様の好ましい実施形態による方法及び好ましい付加的な段階を示す概略図である。データ構造従属性を視覚化した図である。ペプチドの組を構成する非重複ペプチドリストの例を示す図である。タンパク質の組の例を示す図である。

Claims

分析するために健康又は病的試料から得たタンパク質ペプチドデータを処理する方法であって、
ａ）入力データの組を表すペプチド配列のリスト及び付随する補助情報を用意する段階と、
ｂ）ペプチド配列リストのペプチド配列の重複性を除去することにより、入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする段階と、
ｃ）同じタンパク質を起源とするペプチドデータの組のメンバを共に分類し、タンパク質データの組を生成する段階と、
を含むことを特徴とする方法。
前記補助情報が、対応するメトリック値、起源タンパク質、前記ペプチドの物理化学特性、前記タンパク質配列の前記ペプチドのオフセットの少なくとも１つを含むことを特徴とする請求項１に記載の方法。
段階ｂ）において、ペプチド重複性が、単一の入力により前記新しいペプチド配列リストに表されることを特徴とする請求項１又は請求項２の何れか１項に記載の方法。
前記単一の入力のペプチドメトリック値が、全ての重複ペプチド配列の対応する値を考慮に入れることにより計算されることを特徴とする請求項３に記載の方法。
段階ｃ）が、各タンパク質に対して、そのペプチドの各々の前記測定値に基づき、全タンパク質メトリックを計算する段階を含むことを特徴とする前記請求項の何れか１項に記載の方法。
関係データベースに、前記入力データの組、タンパク質データの組、及びペプチドデータの組を記憶する段階を更に含むことを特徴とする前記請求項の何れか１項に記載の方法。
各ペプチド配列が、独自の番号にマッピングされ、１つのタンパク質のペプチドの独自の番号の合計が、各タンパク質に対する独自の同定番号を生成することを特徴とする請求項６に記載の方法。
分類する段階が、前記独自の同定番号に基づくことを特徴とする請求項７に記載の方法。
前記データの組の少なくともいくつかを視覚化する段階を更に含むことを特徴とする前記請求項の何れか１項に記載の方法。
タンパク質データの組内で同一のペプチドを共用するタンパク質を判別して分類し、それによってタンパク質群データの組を形成する段階と、それによって、前記タンパク質の組内の重複を検出する段階と、
を更に含むことを特徴とする前記請求項の何れか１項に記載の方法。
ａ）健康又は患部組織に関する少なくとも２つのペプチドデータの組又はタンパク質データの組を用意する段階と、
ｂ）前記ペプチドデータの組又はタンパク質データの組を併合して複合データの組を生成する段階と、
ｃ）前記複合データの組を出力する段階と、
を含むことを特徴とする方法。
健康組織のペプチドデータの組又はタンパク質データの組が、健康組織の他のペプチドデータの組又はタンパク質データの組と併合されることを特徴とする請求項１１に記載の方法。
患部組織のペプチドデータの組又はタンパク質データの組が、患部組織の他のペプチドデータの組又はタンパク質データの組と併合されることを特徴とする請求項１１に記載の方法。
健康組織のペプチドデータの組又はタンパク質データの組が、患部組織のペプチドデータの組又はタンパク質データの組と併合されることを特徴とする請求項１１に記載の方法。
前記段階ｂ）の併合する段階が、ブール演算の規則及びその組み合わせに従って行われることを特徴とする請求項１１から１４の何れか１項に記載の方法。
前記併合する段階で、各々の元のデータの組からの寄与を含むために、各メンバタンパク質又はメンバペプチドに対する前記種々のメトリックを計算することを特徴とする請求項１１から１５の何れか１項に記載の方法。
第１の複合データの組を少なくとも１つの別の複合データの組と併合してそれより高い世代の複合データの組を生成する段階を更に含むことを特徴とする請求項１１から１６の何れか１項に記載の方法。
前記ペプチドデータの組が、ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意する段階と、前記ペプチド配列リストのペプチド配列の重複を除去することにより前記入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする段階と、により得られることを特徴とする請求項１１から１７の何れか１項に記載の方法。
前記タンパク質データの組が、ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意する段階と、前記ペプチド配列リストのペプチド配列の重複を除去することにより、前記入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルする段階と、同じタンパク質を起源とする前記ペプチドデータの組のメンバを共に分類し、それによってタンパク質データの組を生成する段階と、により得られることを特徴とする請求項１１から１７の何れか１項に記載の方法。
事前設定判定基準を満たさないメンバを除外することにより、ペプチドデータの組又はタンパク質データの組から制限ペプチドデータの組又はタンパク質データの組を生成する段階を更に含むことを特徴とする請求項１から１９の何れか１項に記載の方法。
前記事前設定判定基準が、使用者が入力する判定基準であることを特徴とする請求項２０に記載の方法。
ペプチドの組を制限するための判定基準が、メトリック閾値、特定のアミノ酸の存在又は不在のような配列特徴、質量制約、又は他の物理化学特性の制約であることを特徴とする請求項２０又は２１に記載の方法。
タンパク質の組の制限メトリック閾値に対する判定基準が、前記タンパク質の配列含有量、物理化学特性であることを特徴とする請求項２０又は２１に記載の方法。
第１のタンパク質データの組及び第２のタンパク質データの組を比較して前記２つのタンパク質の組のタンパク質発現パターンの間の類似性の程度を求める段階を更に含むことを特徴とする請求項１から２３の何れか１項に記載の方法。
前記比較する段階が、統計的順位相関試験を用いて行われることを特徴とする請求項２４に記載の方法。
前記統計的順位相関試験が、前記共通タンパク質のペプチド計数の数に関して行われることを特徴とする請求項２５に記載の方法。
前記統計的順位相関試験が、前記異なる検出ペプチド／タンパク質に関して行われることを特徴とする請求項２５に記載の方法。
前記統計的順位相関試験が、前記タンパク質カバー率に関して行われることを特徴とする請求項２５に記載の方法。
前記比較する段階の結果が、タンパク質存在度パターンに関する情報を含むことを特徴とする請求項２５又は２６に記載の方法。
分析するために健康又は病的試料から得られるタンパク質ペプチドデータを処理するためのシステムであって、
ａ）ペプチド配列のリスト及び入力データの組を表す関連する補助情報を用意するための手段と、
ｂ）前記ペプチド配列リストのペプチド配列の重複を除去することにより、前記入力データの組からペプチドデータの組を表す新しいペプチド配列リストをコンパイルするための手段と、
ｃ）前記同じタンパク質を起源とする前記ペプチドデータの組のメンバを共に分類し、それによってタンパク質データの組を生成するための手段と、
を含むことを特徴とするシステム。
ａ）健康又は患部組織に関する少なくとも２つのペプチドデータの組又はタンパク質データの組を用意するための手段と、
ｂ）前記ペプチドデータの組又はタンパク質データの組を併合して複合データの組を生成するための手段と、
ｃ）前記複合データの組を出力するための手段と、
を含むことを特徴とするシステム。