JP2007526243A

JP2007526243A - 相関の測度の使用によるペプチド及びその機能的類縁関係の同定及び特性決定のための方法及びシステム

Info

Publication number: JP2007526243A
Application number: JP2006548227A
Authority: JP
Inventors: ツフトハンス−ディーター; ラメアツイェンス; カメニアヴァレリー
Original assignee: Digilab Biovision GmbH
Current assignee: Digilab Biovision GmbH
Priority date: 2004-01-07
Filing date: 2005-01-07
Publication date: 2007-09-13
Also published as: US20110093204A1; CA2553172A1; DE602005016650D1; ATE443296T1; WO2005069187A3; EP1704507B1; EP1704507A2; EP1553515A1; WO2005069187A2

Abstract

本発明は、相関の測度の使用によって、ペプチド及びそれらの類縁関係を同定する及び特徴つけるためのそれらの方法を履行する方法及びシステムを提供する。これらの方法は、相関連合ネットワークと、配列ネットワークモジュール、示差ネットワークモジュール、マーカーパネルネットワークモジュール及び代理ネットワークモジュールを含む数種の応用モジュールとの相互作用を基礎とし、例えば、生物学的試料のペプチド内容物の代表的概観の規定、ペプチド配列の予想、マーカーパネルとして使用されることに好適なペプチドの同定及び既知ペプチドの代理として好適なペプチドの同定を可能とする。

Description

本発明は、相関の測度の使用によるペプチド及びその機能的類縁関係を同定及び特性決定するための、ペプチド内容物を有する試料の高‐スループット分析の分野、及び特に、コンピュータ実施法及びこれらの方法を実施するシステムに関する。

ヒト遺伝子コードをマップ化するヒトゲノム計画（Human Genome Project）の成功は、医学的研究に驚異的な可能性を示す。しかし、この情報を使用するための必要条件は、遺伝子生成物の、特にタンパク質及びペプチドの同定である。ペプチドは、一定配列で、様々なアミノ酸の結合から形成される分子の一族である。１個のアミノ酸残基と次の基との間の結合はアミド結合であり、時によりペプチド結合として言及される。ペプチドは天然に産出し、様々な機能に反応し、その多くは判明されていない。それらは、アミノ酸の長鎖でもあるタンパク質とは、それらの大きさによって異なる。

世界的に広まったゲノム科学の成果に平行して、様々な発見的技法は、ペプチド内容物を有する試料の分析のために発展した。正にゲノム科学がヒトゲノムを解読することに照準するので、これらの技法は、約０．５〜２０ｋＤａの分子量を有する無数の生物学的に関連したタンパク質及びペプチドの包括的分析に使用され、その内のインスリンは顕著な例である。

質量分析法によるヒト体液及び組織のペプチド及びタンパク質のプロフィール化は、多数のペプチド信号を明らかにする。そのような高‐スループット分析法は、データの巨大集合における生物学的及び製薬学的整合性を理解し、分析するための、高度に洗練された生物情報科学研究を要求する。

ペプチド及び小タンパク質の質量分析的同定を補助する慣用のコンピュータ実施法は、スペクトルを解読し、１個のスペクトルにおける断片の質量差を測定し、かつそれらの差をアミノ酸欠如に帰することによって、候補的ペプチド信号の同定のための提案を生み出す。次いで、一連の欠如アミノ酸は、提案されたアミノ酸配列に構成され、その後に、何万もの既知タンパク質の配列を包含する巨大なデータベース、例えば、スイス‐プロット（Swiss‐Prot）データベースで質問される。しかし、分析されるペプチド又はタンパク質が豊富ではない及び／又は複合混合物である場合には、そのような研究方法はあまり有効ではないことが判り、従って、時間を浪費する試料の濃縮又は分別段階が行なわれなければならない。

更に洗練された研究は、既知配列の知識をスペクトルで考慮する。ここで、既知配列のタンパク質分解消化を、"シリコ中（in silico）"で提案し、次いで、仮説的に得られるスペクトルを、実測の１つと相関させる。しかし、これらの研究は、それらの断片信号が計算を変化させ、かつ実測の１つと仮説的に計算されたスペクトルとの相関係数を低くするので、スペクトルの給源が少しの異なった分析物だけを含有する場合だけ成功する。多くの可能なタンパク質前駆体が、与えられたペプチドについて存在し、その後に、各未知ペプチド及び各可能な前駆体について、そのような仮説的なスペクトルを生成させる場合には、仮説的スペクトルと測定スペクトルとの相関過程は、全く苦労が多く、時には不成功にすらなる。

例えば、Eng et al (Joum. Am. Soc. Mass Spectrom. 5, 976 - 989, 1994）は、タンデム質量分析法の統計的得点法を記載し、これは、データベースからペプチドの予想スペクトルと実測スペクトルを交差‐相関させることを頼りにする（Havilio et al, Anal. Chem. 75[3], 435 - 444, 2003）。ペプチドの質量以外のペプチドについての付加的な情報（例えば、ペプチドを生じさせるために使用される酵素特異性）は使用されない。第一段階で、タンデム質量分析法データは減少され、それによって、最多の信号以外は全て除去される。第二段階で、タンパク質配列は、ペプチドの質量に適合するアミノ酸の組み合わせについてデータベースから質問され、その際、検索算法は、変性部位のあらゆる出現で、翻訳後変性の典型的な質量変化だけを考慮する。第三段階で、予備的適合は、スペクトルにおいて観察されるイオンに適合する断片化イオンの数を合計することによって得点される。インモニウムイオンは、配列が、アミノ酸チロシン、トリプトファン、メチオニン又はフェニルアラニンを含有する場合に考慮される。このことと断片の合計が、得点関数で勘定に入れられる。最後に、スペクトルは、推定アミノ酸配列から再構築され、最高の得点予想は、交差‐相関分析によって評価される。交差‐相関関数は、実際には、１つの信号を他方に交叉翻訳することによって、再構築及び測定されるスペクトル信号の整合性を測定する。周知の応用、例えばSEQUEST及びSonarは、この研究方法を使用する。しかし、この研究の不利な点は、ピーク強度が、イオン型、イオン質量及び他の実験的パラメーターに強く依存し、かつ多くの因子はペプチド断片化に寄与することも未だ十分には理解されていないことである。

Perkins et al（Electrophoresis 20[18], 3551 - 3567, 1999）は、タンパク質データベース中の検出断片の収集を発見する確率を評価する統計的得点法を記載している（Havilio et al, Anal. Chem. 75[3], 435 - 444, 2003）。応用、例えば、Mascot、MOWSE、Protocallは、この研究に基づいている。しかし、この研究の不利な点は、測定スペクトルの信号強度がデータ分析に考慮されないことである。

Weinberger et al（United State Patent Application 2002/0182649）は、基本的に２つの研究を記載している。第一の研究において、タンパク質候補は、データベース中のタンパク質の質量スペクトルと理論的に計算された質量スペクトルとの間の適合の密接性（closeness-of-fit）測度に基づくデータベースでの試験タンパク質の少なくとも１つのタンパク質候補を同定するタンパク質データベース発掘手段に、質量スペクトルを用いることによって同定される。第二の研究方法において、タンパク質候補は、質量分析法によって直接配列される。この方法では、未知ペプチドは質量分析法において直接断片化され、生じた断片の質量は質量分析法によって決定され、未知ペプチドの配列を計算するために使用される。

Eng et al及びWeinberger et alによる研究は、共通して、適合の密接性分析又は交差‐相関が２つのスペクトルの全信号、即ち、測定スペクトル及び予想スペクトル全体に行なわれることを有する。

従って、前記の全ての研究は、時に、それらがあまり有効でなく、全く苦労が多く、時間を浪費し、しばしば不成功となるというそれらの不利な点を有する。

従って、ペプチド内容物で試料を分析する方法及び公知方法と関連した不利な点を克服する又は少なくとも軽減するこれらの方法を実行するシステムが必要とされる。

本発明の総括
本発明による次の方法は、後記分節での詳説から明らかなように、相関連合ネットワーク（Correlation Associated Networks）及びペプチドトポロジーの概念に基づいている。

本発明により、CANsに基づく方法は、そのペプチドトポロジーを使用する多数の試料を分析することによって、試料型のペプチド内容物の代表的で非‐冗長な概要を得るために得られ、この際、この方法は、前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは、潜在的ペプチドに相応し、前記の潜在的ペプチドの信号強度間の相関の測度をコンピュータ処理し、一定の閾値以上の相互間の相関度を示す潜在的ペプチドを一緒に集めて、それによって潜在的ペプチドの多数の相関連合ネットワークを得て、かつ前記の試料型の前記の相関連合ネットワークに、代表的なペプチドとして各相関連合ネットワークから１つの代表的な潜在的ペプチドを割り当てるという段階を包含する。

更に、CANsに基づく方法は、既知前駆体を有するペプチドを含有する多数の試料のペプチドトポロジーを用いてペプチドの配列を予想するために得られ、この際、この方法は、前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは、潜在的ペプチドに相応し、前記ペプチドの質量を用いて既知前駆体を有する前記ペプチドを同定し、この際、既知前駆体の配列は既知であり、既知前駆体を有する前記ペプチドの信号強度と他の潜在的ペプチドの信号強度との間の相関の測度をコンピュータ処理し、一定の閾値以上の既知前駆体を有する前記ペプチドとの相関度を示す潜在的ペプチドを選択し、かつ既知前駆体の配列の推定断片の測度を、既知前駆体を有する前記ペプチドと相関する潜在的ペプチドの測度と適合させることによって潜在的ペプチドの配列を予想するという段階を包含する。

なお更に、CANsに基づく方法は、既知配列を有するペプチドを含有する多数の試料のペプチドトポロジーを用いて、ペプチドの配列を予想するために得られ、この際、この方法は、前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、その質量を用いて既知配列を有するペプチドを同定し、前記の既知ペプチドの信号強度と潜在的ペプチドの信号強度との間の相関の測度をコンピュータ処理し、一定の閾値以上の既知ペプチドとの相関度を示す潜在的ペプチドを選択し、潜在的ペプチドと既知ペプチドの各々の間の質量差をコンピュータ処理し、かつ先行の段階において決定された質量差を適合させる生物学的、化学的又は物理的方法によって引き起こされる質量差についてのデータを用いて、潜在的ペプチドの配列及び／又は生物学的、化学的又は物理的変性化配列を予想するという段階を包含する。

なお未だ更に、CANsに基づく方法は、状態A及び状態Bを表わす少なくとも２つの異なった実験群から採取される多数の試料のペプチドトポロジーを用いて、マーカーパネルとして使用されることに好適なペプチドを同定するために得られ、この際、この方法は、前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは、潜在的ペプチドに相応し、各実験群内で別々に各多数の試料について前記の潜在的ペプチドの信号強度の間の相関測度をコンピュータ処理し、かつ一定の閾値以上の異なった実験群の間の相関度における差を示す潜在的ペプチドペアを選択し、それによって、状態A及び状態Bの間で区別するための診断目的のマーカーパネルとして使用されるために好適であるペプチドを得るという段階を包含する。

なお未だ更に、CANsに基づく方法は、状態A及び状態Bを表わす少なくとも２つの異なった実験群から採取される多数の試料のペプチドトポロジーを用いて、マーマーパネルとして使用されることに好適なペプチドを同定するために得られ、この際、この方法は、前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、状態A又は状態Bの代表であるパラメーターと相関する潜在的ペプチドを選択し、各多数の試料について前記の選択された潜在的ペプチドの信号強度間での相関の測度をコンピュータ処理し、かつ一定の閾値以上のそれらの各信号強度の相関を示さない潜在的ペプチドペアを選択し、それによって、状態A及び状態Bの間で区別するための診断目的のマーカーパネルにおける相補ペプチドとして使用されることに好適な潜在的ペプチドを得るという段階を包含する。

最後に、CANsに基づく方法は、多数の試料のペプチドトポロジーを用いて、既知ペプチドの代理として好適なペプチドを同定するために得られ、この際、この方法は、前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、前記の既知ペプチドの信号強度と潜在的ペプチドの信号強度との間の相関の測度をコンピュータ処理し、かつ一定の閾値以上の前記の既知ペプチドとの相関度を示す潜在的ペプチドを選択し、それによって、前記の既知ペプチドのための代理として好適な潜在的ペプチドを得るという段階を包含する。

本発明の有利な実施態様は、従属する請求の範囲に記載されている。

図面の簡単な説明
図１は、本発明によるハードウエア要素及びソフトウエアモジュール、それらのインターフェース、同様にハードウエア要素及びソフトウエアモジュールの間の情報のフローを図式で示す。

図２は、数人の患者からの脳脊髄液（CSF）の平均ペプチド質量指紋を示す。各試料の９６個のクロマトグラフィー画分の各々を、NALDI‐ToF‐質量分析法によって分析し、１試料から発生される全９６個の質量スペクトルを、"２‐D ゲル‐様画像"として映像化させ、この際、ｘ‐及びｙ‐軸は、質量‐対‐荷電比率（m/z）及びクロマトグラフィー画分（F）各々に相応する。線条はペプチドピークを表わし、この際、カラー強度は質量分析法による信号強度を表わす。アミノ酸数を含有する若干の同定ペプチドは、このマップで同定される。

図３は、機能的に関連するペプチドの相関的行動を例証する図式を示す。４種の異なる試料からのスペクトルの４種のトレースは、ヒトオステオポンチン（osteopontin）（m/z＝７６５３．６Da）及び１（m/z＝７７３３．５Da）、２（m/z＝７８１３．５Da）、３（m/z＝７８９３．４Da）又はもっと多くの燐酸化基を有する、その燐酸化誘導体のアミノ酸２４９‐３１４を含むヒトオステオポンチンペプチドの信号に照準される。試料間のペプチドの保存濃縮率は、各ペプチドペアの信号強度の高度の相関に結び付く。

図４は、本発明による相関連合ネットワークの（CAN）の図式例を示す。任意のCANはハブペプチドから出発し、そのような１次ハブペプチドの１次隣接の任意の一員も、次の次数の隣接等のハブペプチドであってよい。

図５は、本発明によるCANモジュールの適用の方法段階を図式するフローチャートを示す。

図６は、試料の典型的なペプチドトポロジーの図形的表現を示し、この際、ペプチドは、黒丸によって表わされ、その相互の関係はこれらの黒丸を結ぶ線によって表わされる。そのようなペプチドネットワークは、その結果の更なる直覚的な分析のための図２のように、ペプチドマップ上に投影され得る。

図７は、本発明によるCANモジュールと配列ネットワークモジュールとの相互作用の方法段階を図式するフローチャートを示す。

図８aは、予想される配列が未知ペプチドの実験的特性と適合するかどうかを検査する方法を図式したフローチャートを示す。

図８ｂは、図８aに従って検査される配列予想の発生を例証するフローチャートを示す。

図８ｃは、既知ペプチドP1に関連される全未知ペプチドの質問を図式するフローチャートを示す。配列予想は、図８ｂに従って、任意の未知ペプチドP2について生じる。

図８ｄは、既知配列と任意のペプチドP1についての図８ｃに示されたような方法の繰り返しを例証するフローチャートを示す。

図９は、各変性でのペプチドの単一同位体及び平均質量変化の表を示す。

図１０は、化学的及び酵素的反応、その各機構／酵素及びその結果生じる変性化ペプチドの平均質量差の例証主題を有する表を示す。

図１１は、最も普通のアミノ酸、その３‐及び１つの文字コード、同様にその脱水型での単一同位体及び平均質量を挙げる表を示す。

図１２は、ペプチドの普通のアミノ‐末端及びカルボキシ‐末端基、化学的組成と同様に、その各単一同位体平均質量を挙げる表を示す。

図１３は、試料給源として脳脊髄液を用いて、前記の実験的装置下に、ペプチド配列への各アミノ酸の添加によって引き起こされるペプチドの画分シフトに関する表を示す。

図１４aは、前駆体配列中のペプチドのＮ‐末端開裂部位（出発部位）前のアミノ酸及びそれらの実験的に誘導される発生、決定全配列中の与えられたアミノ酸の各全体的発生及びその割合を有する表を示す。

図１４ｂは、前駆体配列中のペプチドのＮ‐末端開裂部位（出発部位）後のアミノ酸及びその実験的に誘導される発生、測度される全配列中の与えられるアミノ酸の各全体的発生及びその比率を有する表を示す。

図１４ｃは、前駆体配列中のペプチドのＣ‐末端開裂部位（末端部位）前のアミノ酸及びそれらの実験的に誘導される発生、決定全配列中の与えられたアミノ酸の各全体的発生及びその比率を有する表を示す。

図１４ｄは、前駆体配列中のペプチドのＣ‐末端開裂部位（末端部位）後のアミノ酸及びそれらの実験的に誘導される発生、決定全配列中の与えられたアミノ酸の各全体的発生及びその比率を有する表を示す。

図１５は、本発明によるCANモジュールと示差ネットワークモジュールとの相互作用の方法段階を図示したフローチャートを示す。

図１６は、本発明によるCANモジュールとマーカーパネルネットワークモジュールとの相互作用の方法段階を図示したフローチャートを示す。

図１７は、本発明によるCANモジュールと代理ネットワークモジュールとの相互作用の方法段階を図示したフローチャートを示す。

図１８a及び１８ｂは、７４個の試料から採取される座標画分５４；ｍ／ｚ２７４３．０、画分５４；ｍ／ｚ１３７１．５、画分５６；ｍ／ｚ２９２７．２及び画分２０；ｍ／ｚ１１１４．３を有するペプチドの信号強度値の表を示す。更に、│ｒ│≧０．８のスペアマンの順位（Spearman's Rank Order）相関係数閾値を有する関連ペプチドｋの数を示す。

図１９は、異なる相関の測度法を用いる、若干の典型的ペプチドとの座標画分５４；ｍ／ｚ２７４３．０を有するペプチドの信号強度の相関の測度を有する表を示す。

図２０は、スペアマンの順位相関係数確率のヒストグラムを示す。ペプチド‐対‐ペプチド関係の相関係数の値（ｘ‐軸）は、そのペプチドペアがその値を達成する確率に対してプロットされる（ｙ‐軸）。低い絶対相関係数を有するペプチド‐対‐ペプチドペアは、多分、関係されない。これは、ランダムデータ（Ｐ（ｒ）シミュレーション）からのペプチド‐対‐ペプチド関係のゼロでの最高によって表現される。真の正関係は、多分、より高い絶対相関係数で見出される。従って、測定データ（Ｐ（ｒ）測定）からのペプチド‐対‐ペプチド関係の相関係数のプロットは、Ｐ（ｒ）シミュレーションから逸脱し、それというのも、機能的に関係するペプチドの相関係数は、多分、ランダムデータから得られるそれらよりも高いからである。そのようなプロットは、与えられたＣＡＮの閾値が、できるだけ多くの真の正ペプチド‐対‐ペプチド関係を包含する一方で、同じだけ偽のそれを排除するために選択されなければならない場合に発生される。

図２１は、クロモグラニンＡ９７‐１３１に関係する同定ペプチド、前記のペプチドと関係のペプチドとのスペアマンの順位相関係数値、それらの相対的単一同位体質量及びそれらのアミノ酸配列の表を示す。

図２２は、ペプチドＳＧＩ８８‐１３２及びクロモグラニンＡ９７‐１３１の示差ネットワークの有用性をグラフで例証したものを示す。前立腺切除前（黒い三角）の仮説患者では、これらのペプチド間で相関は存在し（ｒ＝０．９７）、約１０／１の信号強度比率が保存される。前立腺切除後（白い四角）の仮説試料では、この比率は存在せず、セクレトグラニンＩ／クロモグラニンＡ相関は"破棄"される。

図２３a及び２３ｂは、座標画分５４；ｍ／ｚ２７４３．０を有するペプチドの信号強度の分散の除去後の、７４個の試料の座標画分５４；ｍ／ｚ１３７１．５、画分５６；ｍ／ｚ２９２７．２及び画分２０；ｍ／ｚ１１１４．３を有するペプチドの信号強度値の表を示す。更に、前記の分散の除去後のスペアマンの順位相関係数│ｒ│≧０．８を有する関係ペプチドｋの数が示される。

図２４aは、質量‐対‐荷電比率２７４３．０（Ｆ５４；ｍ／ｚ２７４３．０）を有する画分５４でのペプチドの信号強度を、質量‐対‐荷電比率１１１４．３（Ｆ２０；ｍ／ｚ１１１４．３）を有する画分２０でのペプチドの信号強度に対してグラフでプロットしたものを示す。このプロットは相関を示さないペプチドペアを例証する。

図２４ｂは、質量‐対‐荷電比率２７４３．０（Ｆ５４；ｍ／ｚ２７４３．０）を有する画分５４中のペプチドの信号強度を、質量‐対‐荷電比率１３７１．５（Ｆ５４；ｍ／ｚ１３７１．５）を有する同じ画分中のペプチドの信号強度に対してグラフでプロットしたものを示す。このプロットは、単一荷電及び二重荷電ペプチドイオンを含むペプチド‐対‐ペプチドペアの間の相関を例証する。

図２４ｃは、質量‐対‐荷電比率２７４３．０（Ｆ５４；ｍ／ｚ２７４３．０）を有する画分５４中のペプチドの信号強度を、質量‐対‐荷電比率２９２７．２（Ｆ５６；ｍ／ｚ２９２７．２）を有する画分５４中のペプチドの信号強度に対してグラフでプロットしたものを示す。このプロットは、機能的相関を示すペプチド‐対‐ペプチドペアを例証する。

図２５aは、質量‐対‐荷電比率２７４３．０（Ｆ５４；ｍ／ｚ２７４３．０）を有する画分５４中のペプチドのスチューデント化された（studentized）信号強度を、質量‐対‐荷電比率１１１４．３（Ｆ２０；ｍ／ｚ１１１４．３）を有する画分２０でのペプチド、即ち、図２４aのペプチドペアのスチューデント化された信号強度に対してグラフでスポットしたものを示す。最小全域木（minimum spanning tree）算法は、最も近い頂点を結ぶために行なわれた。最多の頂点を有する経路、即ち、ＭＳＴ直径は、太線で強調されている。この例では、経路は２９個の頂点を含む。

図２５ｂは、質量‐対‐荷電比率２７４３．０（Ｆ５４；ｍ／ｚ２７４３．０）を有する画分５４でのペプチドのスチューデント化された信号強度を、質量‐対‐荷電比率１３７１．５（Ｆ５４；ｍ／ｚ１３７１．５）を有する同じ画分でのペプチド、即ち、図２４ｂのペプチドペアのスチューデント化された信号強度に対してグラフでスポットしたものを示す。このスポットは、単一荷電及び二重荷電ペプチドイオンを含むペプチド‐対‐ペプチドペア間の相関を例証する。最小全域木算法は、最も近い頂点を結ぶために行なわれた。最多の頂点を有する経路、即ち、ＭＳＴ直径は、太線で強調されている。この例では、経路は５０個の頂点を含む。

図２５ｃは、質量‐対‐荷電比率２７４３．０（Ｆ５４；ｍ／ｚ２７４３．０）を有する画分５４でのペプチドのスチューデント化された信号強度を、質量‐対‐荷電比率２９２７．２（Ｆ５６；ｍ／ｚ２９２７．２）を有する画分５６でのペプチド、即ち、図２４ｃのペプチドペアのスチューデント化された信号強度に対してグラフでスポットしたものを示す。このプロットは、機能的関係を示すペプチド‐対‐ペプチドペアを例証する。最小全域木算法は、最も近い頂点を結ぶために行なわれた。最多の頂点を有する経路、即ち、ＭＳＴ直径は、太線で強調されている。この例では、経路は４０個の頂点を含む。

図２６は、本発明の方法に従って、座標画分５４；ｍ／ｚ１３７１．５及び画分５６；ｍ／ｚ２９２７．２を有するペプチドを、与えられたペプチドが座標画分５４；ｍ／ｚ２７４３．０を有するペプチドの電位的にn回荷電されたイオンであるかどうかを、試験した表を示す。

図２７は、１‐文字コードを用いる"仮説前駆体"（ＨＰ）の前駆体配列を示す。ペプチドＨＰ２５‐４８の配列は下線され、ＨＰ２５‐５０は太字である。

図２８は、例６で論議されたように、６６人の患者から集められたＣＳＦの平均ペプチド表示（ペプチドマップ）を示す。各試料のクロマトグラフィー画分は、ＭＡＬＤＩ‐ＴｏＦ質量分析法によって分析される；パネルＡ：１試料から発生した全９６個の画分は、図２に示されたように"２‐Ｄゲル‐様画像"として映像化される。ｘ‐及びｙ‐軸は、各々、質量‐対‐荷電比率（ｍ／ｚ）及びクロマトグラフィー画分である；"２‐Ｄゲル‐様画像"における灰色‐目盛線は、ペプチドピークを表わし、この際、灰色目盛線の強度は質量分析信号強度に相応し、これは、ＭＡＬＤＩによって測定されるペプチドの相対量に相応する。挿入図Ｂ及びＣは、パネルＡ中の線で囲まれた四角部分の拡大範囲であり、これは、若干のペプチドが１個以上の画分中に存在することを示す。

図２９は、ネットワークハブとしてのＶＧＦ２６‐５８（１）と、ＶＧＦ１７７‐１９１（２）、ＣＧＦ３５０‐３７０（３）、ＶＧＦ２６‐５９（４、５、隣接画分）、ＶＧＦ２３‐５９（７）、ＶＧＦ２６‐６１（８）、ＶＧＦ２６‐６２（９）、ＶＧＦ２５‐６２（１０）、ＶＧＦ４８５−５２２（１１）及びＶＧＦ３７３‐４１７（１２‐１４、隣接画分）との相関連合ネットワークを示す。（６）はＶＧＦペプチドではない。相関の閾値は、│ｒ│≧０．６８であった。ペプチドは黒丸として表わされ、ペプチド‐対‐ペプチド関係は、２個の黒丸を結ぶ線として表示される。このネットワークは、付属する図２８のＣＳＦペプチドマップ上に投影される。括弧中の数は、図にも示される（括弧なし）。

図３０は、ＶＧＦのタンパク質前駆体配列上に作成された図２９のネットワーク員を示す。その数は図２９のそれらに相応する。矢印は、ペプチドの各配列の始まり及び終わりに及ぶ。ＶＧＦ２６‐５８ペプチドネットワークは、タンパク質前駆体全体に渡って広がる、異なった部分に及ぶ。

図３１は、ネットワークハブとしてのアルブミン２５‐４８（１）と、アルブミン２５‐４５（２）、α‐１‐アンチトリプシン３９７‐４１８（３）、アルブミン２５‐４８（４、５、隣接画分）、アルブミン２７‐５０（６、７、隣接画分）及びアルブミン２５‐５０（８、９、隣接画分）との相関連合ネットワークを示す。相関の閾値は、│ｒ│≧０．６７であった。このネットワークは、付属する図２８のＣＳＦペプチドマップ上に投影される。

図３２は、相関係数の閾値ｒの関数として、任意のペプチド‐ペプチド関係の正及び偽の前駆体予想を挙げる表を示す。

図３３は、ペプチド開裂に使用される名称を示す。

図３４は、アミノ‐末端前、アミノ‐末端後（Ｎ＋１）、カルボキシ‐末端前（Ｃ‐１）、カルボキシ末端後の開裂部位（Ｃ＋１）及び全タンパク質前駆体配列中の任意の位置で見出されるアミノ酸残基の数及び％、例えば、％（Ｎ−１）＝n（Ｎ−１）／ｎ（任意の位置）を挙げる表を示す。１３９個のペプチドから３個はタンパク質前駆体の始まりで出発し、３４個のペプチドはタンパク質前駆体配列で終了し、従って、ｎ（Ｎ‐１）及びｎ（Ｃ‐１）の合計は１３９から逸脱する。各位置で見出されるべきアミノ酸の％は、その特別なアミノ酸に隣接する開裂の確率のｘ‐倍増加又は減少、例えば、ｘ（Ｎ‐１）＝％（Ｎ‐１）／％（任意の位置）を示す、任意の位置での％に比較される。

図３５は、タンパク質前駆体配列中のアミノ‐末端／カルボキシ‐末端前／後開裂部位及び任意の位置で見出される選択されたアミノ酸ペアの数及び％を挙げる表を示す。各位置で見出されるべきアミノ酸ペアの％は、この集合が開裂に影響する確率の増加又は減少を示す、任意の位置での％に比較された。

図３６は、ＥＳＩ‐ＭＳ／ＭＳ同定の結果によって確認されたペプチド座標の予想のための２例を挙げた表を示す。

図３７は、モデルの予想力の評価を示す：全部ＥＳＩ‐ＭＳ／ＭＳによって前以て同定された１３９個のペプチドは２群に分割された。７０個のペプチドの第一群は、第二群の推定配列を予想した。第二群のペプチド配列情報は、予想過程中は抑制された。計算の終了後に、推定提案をＥＳＩ‐ＭＳ／ＭＳ同定の結果によって確認した。豊富なペプチドが１以上の画分中に存在するので、１３９個の異なったペプチドは、ペプチド質量指紋上の２２４個の異なったペプチド座標に相応した。

図３８は、前駆体タンパク質の正しい提案及び任意の蓄積提案及び最多のボーナス点を有する提案について別々に評価される６種の異なったモデルの出発‐停止位置の％を挙げた表を示す。│ｒ│≧０．７５で、提案は１１２個のペプチド座標からの２７個に生じた。任意のペプチド座標は３つまでの提案のリストを蓄積し得るので、８１の提案が生じた。

図３９は、血液‐ＣＳＦ関門の異なった重い破壊の患者から採取されるＣＳＦ試料のペプチドアルブミン２５‐４８に相応するペプチドを有する表を示す。損傷脳関門の患者のアルブミン商（完全なアルブミンタンパク質）に対する相関ｒ（例７、図４０）、損傷脳関門の患者のアルブミン２５‐４８質量分析法信号強度に対する相関ｒ（例６）、ペプチドの名称（アルブミン２５‐４８、２７‐５０、２５‐５１及びα‐１‐アンチトリプシン３９７‐４１８）、ペプチドの理論的単一同位体質量及びペプチドの配列が示される。

図４０は、損傷脳関門の患者で測定されるアルブミン商に相対するペプチドアルブミン２５‐４８、２７‐５０、２５‐５０、２５‐５１及びα‐１‐アンチトリプシン３９７‐４１８の相対的ＭＡＬＤＩ信号強度の５つのプロットを示す（例７）。全事例で、ＭＡＬＤＩ信号強度とアルブミン商との間は、殆ど直線的関係である。

本発明の詳細な説明
本発明の実施態様の詳細ではあるが模範的な説明をする前に、次の定義を用意し、この際、技術的な用語が如何に理解されるべきであるかを確立する。

定義
他の記載のない限り、ここで使用される技術的及び科学的用語は、本発明が属する技術分野における当業者によって普通に理解される意味を有する。ここで使用されるように、次の用語は他の特記のない限り、それに帰する意味を有する。

"試料"は、ペプチドを含有する又は潜在的に含有する任意の原料、物質又は同種のものを示す。

"ペプチド"は、少なくとも２つのアミノ酸を含むペプチド結合によって結合されるアミノ酸のポリマーを示す。これらのアミノ酸は、２０の標準アミノ酸及び付加的にＤ‐及びＬ‐アミノ酸を含む技術分野で公知の稀なアミノ酸であってよい。ペプチドは、付加的な変態、例えば、翻訳後の、酵素的及び／又は化学的変態を含有することができる。

"試料又は有機体の状態"は、試料の発生、例えば、採血時の試料の状態又は型が、試料の内容物又は活性によって反映されることを意味する。試料の発生（例えば、採血）時の有機体の実状は、試料中に存在する内容物及び活性に反映される。試料は、スナップ撮影画像と同様な状態を保存する。試料の状態は、一定の病気の存在又は不在、妊娠の存在又は不在、それから試料が生じる個体の性、一定の遺伝的変異、例えば、遺伝子のノックアウト又は多形性の存在、一定の遺伝子又は遺伝子産物の過度表現又は減少活性（例えば、薬剤又は遺伝子産物についてコードする遺伝子のトランスフェクションの影響として、又は遺伝子産物の直接的付加によって、等）、一定の遺伝子又は遺伝子産物の発現又は活性の抑制（例えば、薬剤、アンチセンスのヌクレオチド、ＲＮＡｉ（ＲＮＡインターフェース）ヌクレオチド、リボザイム、トリプレックス‐形成ヌクレオチド、抗体等の影響として）、食物、化粧品又は他の製品中の遺伝子変性成分の存在、それから試料が生じる有機体の年齢、それから試料が生じる有機体の種類、それから試料が生じる有機体の一定の治療（例えば、治療的活性物質、食物成分又は化粧品中に存在する物質で、殺虫剤、殺菌剤又は他の毒性物質での治療等）、試料の地理的起源、それから試料が生じる有機体の発達段階（例えば、受精卵、胚芽、成体の段階、細胞内／細胞外細菌／ウイルス、例えば、蝶の卵／幼虫／さなぎ／成体‐段階、変形体の異なった発展段階等）、それから試料が生じる有機体の代謝段階（例えば、冬眠、概日リズム段階、等）、物質での有機体の治療前、その間又はその後の時点、試料がそこから採取される有機体内の局在（又は組織）等を表わす。

"ペプチドの測定パラメーター"は、公知又は調査者によって測定可能な任意のパラメーター、例えば、ペプチドの分子量、ペプチドの質量／荷電比率、測定ペプチドの信号強度、測定ペプチドの実際の濃度、試料に属する一定の分離プロトコルの結果としてペプチドが存在する画分‐数、又はペプチドの測定活性を示す。

"相関"又は"関係"は、２つのペプチドの少なくとも１つのパラメーターの仮定の相互依存性を示し、この依存性は、対称又は非対称、既知又は未知、統計的に重要又は否であってよい。２つのペプチドの関係は、一方のペプチドから片方への化学的及び生化学的反応によって、分析物の協同遺伝子調節によって、普通の前駆体ペプチド等によって引き起こされ得る。

"相関の測度"、"相関測度"又は"関連の測度"は、その"関係"の用語において、ペプチドペアの測定パラメーターの対称又は非対称的な統計的依存性を説明するための統計的意味を示す。相関の測度の例は次のものである："ペアソン乗積‐モーメント相関係数（Pearson Product - Moment Correlation Coefficient）"、"スペアマンの順位相関係数"、"ケンダルのタウ（Kendall's Tau）"、"ケンダルの一致係数（Kendall's Coefficient of Concordance）"、"グットマン（Goodman）及びクルスカルのガンマ（Kruskal's Gamma）"、"マンハッタン距離（Manhattan distance）"、"ユークリッド距離（Euclidean distance）"及び"最小全域木直径（Minimal Spanning Tree Diameter）"。

"相関連合ネットワーク（Correlation associated network）（ＣＡＮ）"は、１つの状態を表わす試料内で同定される、又は異なった状態を表わす試料の異なった群内で同定される全相関の測度の完全ネットワークを示す。２つ以上のペプチドが相互に相関し、ＣＡＮが互いに相関する少なくとも２つのペプチドを有することが可能である。"試料"に基づくペプチドＣＡＮは、１回の実験から得られる結果を必ずしも包含しないことが注目されるべきである。むしろ、ペプチドＣＡＮを完全に決定するために、多重の実験がしばしば必要とされ、その合同の結果がその特別な試料のためのペプチドＣＡＮを構築するために使用される。ＣＡＮの計算の結果（第一次のＣＡＮ）は、他の相関の測度を巡回的に計算することに使用され得る。これらの種類の計算の結果は、ＣＡＮｓ又は第二次又はより高い次数の更に特別なＣＡＮｓとも称される。

"ペプチド‐トポロジー"は、ペプチドの質量を含む試料の、測定され、かつコンピュータ処理されたペプチドデータ（"ペプチドの測定パラメーター"）、ペプチドの信号強度（質量分析法又はペプチドの量を決めるために好適な他の測定によって有利に測定される）、画分数（試料が質量分析法に先立って分別された場合に）及びこれらのデータを用いて計算された相関の測度の全体を示す。

"試料の群"は、一定の状態に相応する一組の試料を示す。１群の試料は、例えば、糖尿病患者の１０個の血漿試料を含むことができる。１群の試料は、正確に同じ起源である必要はない。例えば、１群の試料は、糖尿病患者の５個の血漿試料及び糖尿病患者の５個の尿試料を含有してもよい。この理由は、血漿中に存在する多くのペプチドは尿中にも存在し、例えば、試料が糖尿病患者から由来する限り、同じ糖尿病‐特異性ペプチドは血漿及び尿中にも存在し得るからである。

"既知ペプチド"は、試料中のその特別な配列又は配列の一部を有するペプチドが、本発明の利用者に既知であることを意味する。未知ペプチドは、その配列が本発明の利用者に未知であるが、ペプチドの配列は、文献又は他の情報源、例えば、配列データベースから知られ得る。

"潜在的ペプチド"は、多分、ペプチドを表わす質量分析法信号を示す。

"ペプチドの前駆体"は、ペプチドの配列を含む天然に存在する最長のアミノ酸配列を示し、即ち、それからペプチドが発生し得る。

"ペプチドの座標"は、質量‐対‐荷電比率及び任意に更に、前記のペプチド／ペプチドイオンの検出又は同定及び／又は数量化に含まれる同定法によって得られ得る特異的に測定可能な特性を示す。本発明の例では、ペプチド座標は、クロマトグラフィー法の溶離時間／画分数及び質量‐対‐荷電比率（従って２つの座標を含む）である。本発明では、これらの座標は、しばしば、短絡形で、例えば、"Ｆ５６；ｍ／ｚ２８７３．０"で記載され、これは、質量‐対‐荷電比率２８７３．０を有する画分５６中で見出されるペプチドの信号と同じである。勿論、更なる次元、例えば、前以ての毛細管電気泳動法、又は順流式第二質量分析法を必要とし得る。"ペプチドの座標"、"信号座標"又は"ペプチド"は、しばしば、同意語的に使用される。

"適合値"は、未知ペプチドの実験的特性に基づく予想配列の評価を示す。任意の予想配列は、実験的特性、例えば、画分数の正確な予想に適合する特性のための点を得る。"適合値"が高くなればなるほど、予想配列の正確性がより確実になる。本発明により、適合値は、各試料型について手動的又は自動的に提案され、適合について実験的に試験される。

"標識ペプチド"は、多数の他のペプチド信号に関係され、相互には殆ど関係しないペプチドを示す。これらの標識ペプチドの同定、例えば、配列化は、試料のペプチド組成について速やかな概要を得るために優先されるべきである。

データ供給
図１は、本発明によるハードウエア要素及びソフトウエアモジュール、それらのインターフェース及びハードウエア要素及びソフトウエアモジュール間の情報の流れを図式で示す。測定データは、質量分析法を行なう前の試料の分別をしないでも得られるが、例えば、クロマトグラフィーによる、例えば９６個の画分への分画が有利である。クロマトグラフィーの用語における"画分"は、分離段階中に回収される溶離液又はその一部である。通例、数個の画分が収集される。画分は、通例、試料からペプチドの異なった"部分集合"を含有する。ペプチドの好適な分離法は、クロマトグラフィー、例えば、イオン交換、疎水性相互作用、等電点電気泳動、ゲル濾過又は親和性クロマトグラフィー、電気泳動、例えば、自然、等電点、マトリックス、例えば、ポリアクリルアミド又はアガロースゲルを用いる変性又はＳＤＳ‐ゲル電気泳動、ペーパー電気泳動、薄層クロマトグラフィー、毛細管電気泳動、分離のために遠心分離を用いる方法、例えば、蔗糖又は塩化セシウム勾配遠心分離等である。次いで、これらのクロマトグラフィー画分を、スペクトルの測定を受けさせて、例えば、図２に示したような２Ｄゲル‐様フォーマットで映像化され得る９６個の質量スペクトルを得る。この最後に、本発明では、ペプチドの質量を決定するのに好適な全種類の方法及び有利に全種類の質量分析法、例えば、マトリックス支援レーザー脱離飛行時間型（matrix-assisted laser desorption time of flight）（ＭＡＬＤＩ‐ＴＯＦ）質量分析法、液体クロマトグラフィーエレクトロスプレーイオン化（ＥＳＩ）四重極飛行時間型（quadrupoletime of flight）質量分析法（ＬＣ‐ＥＳＩｑＴＯＦ）等を使用することができる。更に、全画分ではなく選択された画分だけを質量分析法によって分析することが可能である。

図２における各線条は、９６個の質量スペクトルの１つに存在するピークを描写し、この際、その線条の色強度は、相応する質量分析信号の強度に相応する。図２のｘ‐軸は、質量対荷電比率ｍ／ｚを表わし、ｙ‐軸はクロマトグラフィー画分数を表わす。ｍ／ｚ値は、有利に１０００〜１５０００の範囲にあるが、より高い又はより低いｍ／ｚ値は、それらの値が質量分析法又は他の方法によって解析される限り包含され得る。このｍ／ｚ値の範囲内で、検出されたペプチドは、極めて大きい分子量のペプチド、例えば、分子量７２５ｋＤａを有するα‐２マクログロブリンまでの、より低い末端で２個だけのアミノ酸を含み得る。

同様の２Ｄゲル‐様マップは、分析されるべき試料組から全試料について作成される。これらのマップは、図２に示されるような平均化ペプチド質量指紋マップを得るために平均化され得る。この平均化マップは、通常、約１０００個のピーク座標、即ち、ｍ／ｚ値に相応するｘ‐座標及び画分数に相応するｙ‐座標を限定するためのテンプレートとして用いられる。実際に、１つは、一定の閾値以上の信号を示すそれらのピーク座標を選択する。

データ前処理
相関分析に好適であり、有意義な結果を与える測定データを得るために、有利にデータの前処理を、例えば、ベースライン調整、スペクトル規格化、孤立値検出等の方法を用いて行なう。ベースライン調整の方法は、当業者に周知である（例えば、Fuller et al, Applied Spectroscopy, 42, 217 1988）。有利な１実施態様では、データの前処理は、ソフトウエアRAZOR Library 4.0, Specturum Square Associates, Ithaca NY, USAの一部であるベースライン調整を適用することによって行なわれる。任意に質量スペクトルの規格化は、信号強度又は集積された質量スペクトルを使用することによって行なわれ得る。孤立値試料は、市販で得られるソフトウエアパッケージPirouette 3.0, Informetrix Inc., WA, USAによって得られるような主成分分析によって同定される。この主成分分析に基づき、個々の質量スペクトル又は臨界閾値以上のマハラノビス距離（Mahalanobis distance）M_Dを示す全試料ですら、更なる分析には考慮されず、従って、捨てられる。更に後記の例において、マハラノビス距離M_D＞１１．５は、７４個の試料に選択された。

本発明によるデータの前処理、処理及び表示は、例えば、Apple G4 Computer上で行なうことができ、この際、そのCPUは、各８００MHzを有する２つのプロセッサーを含み、メモリーサイズは１．２５ギガバイトである。ペプチド‐対‐ペプチド関係のローカルデータ記憶装置（相関の測度、ペプチドの座標）は、ローカルバレンチナデータベースシステム（Valentina 1.9 for Realbasic, Paradigma Software, Beaverton, Oregon, USA）によって行なわれる。ペプチド配列情報は、専用インターベースサーバー（Interbase６、Borland Software Corp., Scotts Valley, CA, USA）によって得られる。Apple computer systemsのMicrosoft internet Explorer 5.1を、インターネットリソースからの結果の再現に使用することができる。CANソフトウエアは、Swiss - Prot、Pub Med及びUS Patentデータベースに問い合わせのキーワードを含んだ特別なアドレスでインターネットエクスプローラーを起動させる。三次元対象物の映像化は、Realbasic RB3D engine（RealBasic 3.5, Realsoft, Austin, Texas, USA）を用いて行なわれ得る。

また、他のデジタルコンピュータシステム構成を、本発明の方法を行なうために使用することもでき、かつ特別なシステム構成が本発明の方法を行なうことができる限り、これは、図２で図示した代表的なデジタルコンピュータシステムと同等である。それらは、本発明の方法を実施するプログラムソフトウエアからの命令に従って特別な機能を行なうためにプログラム化されれば、そのようなデジタルコンピュータシステムは、本質的に、本発明の方法に特別な専用コンピュータになる。

本発明による方法を行なうコンピュータプログラムは、分配媒体、例えばフロッピーデスク又はCD‐ROM上で、利用者に普通に分配される。そこから、しばしば、ハードディスク又は同様の中間蓄積媒体にコピーされる。プログラムを流すべき場合には、それらはそれらの分配媒体から、又はその中間蓄積媒体から、本発明の方法に従って作動するためのコンピュータを構成する、コンピュータの実行メモリーへ書き込まれる。全てのこれらの操作は、コンピュータシステムの当業者に周知である。用語"コンピュータ読取媒体"は、分配媒体、中間蓄積媒体、コンピュータの実行メモリー及びコンピュータによって後でアクセスするための、本発明の方法を実行するコンピュータプログラムを蓄積することが可能である他のどんな媒体又はデバイスも包含する。

相関連合ネットワークモジュール
図１で矢印によって例証したように、測定粗データ又は有利に前処理測定データは、いわゆる相関連合ネットワーク（ＣＡＮ）モジュール４２に供給される。本発明のモジュール４０の内で、ＣＡＮモジュール４２は、最も基本的な１つである。基本的に、ＣＡＮモジュール４２は、例えば、液体クロマトグラフィー‐質量分析法（ＬＣ‐ＭＳ）実験２２から得られる測定データを走査する。このデータに基づき、ペプチドの相関は、例えば、質量分析法によって測定されるような、それらの相対濃度の間の、相関の測度を計算することによって探索される。

相関の測度は、多くの観察を通して、２つの変数間の、類縁関係の程度を表わすために使用され得る。これらの変数は、相関、非相間又は抗‐相関され得る。本発明に関連して、相関の測度は、１組の試料中のそのような相関、非相間又は抗‐相関ペプチドを検出するために使用される。これは、例えば、数試料で測定される２つのペプチドの信号強度のスペアマンズ順位相関係数を計算することによって行なわれ得る。これは、全ペプチドペアについて行なわれることが有利である。これらの相関の測度が計算されれば、一定の行動、即ち、一定の相関度、一定の抗‐相関度を示す、又は一定の相間度を少しも示さないペプチドペアだけが選択される。そのように選択されたペプチドペアのパラメーター、例えば、各ペプチドペアの２つのペプチドの座標、相関の測度等は、蓄積され、ディスプレーデバイス上で表示され又は更に処理され得る。このデータは、有利に、データベース中で、テキストファイルとして又は他のコンピュータ読取可能な形式で蓄積される。スペアマンズ順位相関係数に選択的に、相関の測度は、ペアソン乗積‐モーメント相関係数、ケンダルのタウ、ケンダルの一致係数、グットマン及びクルスカルのガンマ及び最小全域木直径である。

最小全域木（Minimal Spanning Tree）（ＭＳＴ）（最小全域木（Minimum Spanning Tree）としても知られている）は、全点を一緒に結合して、接続された１組のデータ点にさせる接線を集めることによって、接線値の可能な最少合計で定義される（例えば、Evan, Graph Algorithms, Computer Science Press, 1979）。接線は、２つのデータ点を結合する線によって図示され得る。ＭＳＴは、相互に最小線によって結合する１組の点（データ点）によって図示され得る。ＭＳＴの例は、後でより詳細に記載される図２５a〜２５ｃで示される。また、ＭＳＴは、全データ点の間の最小結合経路を同定する"外交員（Traveling Salesman)"問題を解決することに接近する、もっともらしい"結合者（connectionist）"を供給する（例えば、Kruskal, Proc. American Math. Soc., 7, 48 - 50, 1956; Sun et al, Physica A, 199, 232 - 242, 1993）。ＭＳＴ直径は、ＭＳＴのグラフの経路での接線の最小数として定義され得る。通例、相関、例えば、スペアマンズ順位相関係数は、変数、即ち、データ点の間の相関又は関連又は従属の測度を見出すために使用される。問題は、相関が線傾向に感受性であり、線傾向は２つの関連する変数のために常に都合よく存在するとは限らないことである。本発明においては、ＭＳＴの直径は、２つの変数の間の、相関の選択的測度として使用される。与えられた１組のｎ回の統計的観察を分析するために、ＭＳＴの直径を使用するために、全観察を、ＭＳＴを経由して結合させ、次いで、ＭＳＴ直径を計算すべきである。ＭＳＴ直径が大きくなればなるほど、２つの変数の間の関連はより強くなる。質量分析法信号強度データ（本発明では、有利に、ＭＡＬＤＩ質量分析法信号強度データ）に関連して、ＭＳＴ直径＞０．４２５掛けるｎは、ペプチド座標の信号強度間の注目に値する関連を示すことが判明した。一般に、全種類の質量分析法信号強度データ、例えば、ＭＡＬＤＩ又はＥＳＩ質量分析法データは、本発明に従って使用され得る。

既に前記したように、ペプチドペアは、多くの観察を通してその信号強度間を評価することによって、例えば、スペアマンズ順位相関係数によって、それらの相関の程度について試験される。生物学的に又は機能的に関係されるペプチドペアは、意外にもしばしば、偶然によって予期される相関係数よりもずっと高い相関係数を示すことが判明する。非相間ペプチドペアは、相関係数の低い絶対値を有する。図３は、関連ペプチドの相関行動を例証する。４つの異なった試料からのスペクトルの４つのトレースは、ヒトオステオポンチン（osteopontin）及び１個（ｍ／ｚ＝７７３３．５Ｄａ）、２個（ｍ／ｚ＝７８１３．５Ｄａ）、３個（ｍ／ｚ＝７８９３．４Ｄａ）又はそれ以上の燐酸化基を有するその燐酸化誘導体のアミノ酸２４９‐３１４を含むヒトオステオポンチンペプチド（ｍ／ｚ＝７６５３．６Ｄａ）の信号に照準される。試料間のペプチドの保存濃縮比率は、各ペプチドペアの信号強度の高度の相関に結び付く。

前記の相関の測度の、コンピュータ処理の結果を用いて、いわゆる相関連合ネットワーク（ＣＡＮｓ）を定義することができる。ＣＡＮ、即ち、ペプチド関連のネットワークは、関与ペプチド、いわゆるハブペプチド、及びこれらの全ペプチド及びハブペプチドと一定の程度に相関する試料パラメーターを包含する。用語ハブは、ネットワークトポロジー理論の場合と同様に使用され、車輪のハブにハブペプチドの類似点を特徴付けることができ、ハブペプチドは、ペプチド‐対‐ペプチド関係を表わすスポークの中心であり、相関するペプチドは、スポークの各末端である。実際に、ＣＡＮの組成は、利用者によって選択されるような相関の閾値に高度に依存している。この閾値は、利用者の目的に従って選択される。利用者が関与ペプチドに強く相関するペプチド、例えば、同じ前駆体から由来するペプチドを捜している場合には、関与ペプチドとの最強の相関の５％以上だけの選択を引き起こす閾値が選択される。例えば、スペアマンズ順位相関係数について選択されるべき閾値は、試料の数及び関与ペプチド上のこうして選択された部分集合に依存する。利用者が機能的関連ペプチド、例えば、小胞から同時‐分泌されるペプチドを捜すことに関心を有する場合には、利用者は、例えば、最強相関の１０％以上を選択する閾値を選択する。

ハブペプチド及びそれに関連し、前記のように選択されるペプチドは、第一次のＣＡＮを表わす。対象物により、生物学的ネットワーク及び経路の複合により、より高い次数のＣＡＮｓを計算することが必要になり得る。前記のように、ＣＡＮｓは、高度の相関を示す関連ペプチドに直結する。閾値をより低い値に調整することは、あまり関連しないペプチドをネットワークへ含める結果となり、同様に偽の関係を予想する確率を増加させる結果となる。この理由のために、本発明の有利な１実施態様は、より高い次数、例えば、二次及び三次のＣＡＮｓの計算を意図する。関与ネットワークの直接員は、一次隣接を構成するので、これらの全員は、図４に示すように、二次隣接の計算のための有効な出発点である。高次のＣＡＮｓをコンピュータ処理することは結果を改善するが、コンピュータ処理の努力はＣＡＮｓの次数と共に増加するので、コンピュータ処理の要求は上位限度を設定する。ｎ次（この際、ｎは５以上である）のＣＡＮの計算は、計算の数百万以上を要求し得る。従って、この研究は、むしろ、間接的に関連するペプチドを含む故の複合試料の分析のために有利に使用されるべきであり、そうして、相関閾値の値を下げなければならないこと、及び偽の関係を多分含むことが避けられる。

任意の種類の試料について、ペプチドの組成は変化し、新規のペプチド座標が現われ、他のものは消滅し、かつ多くのペプチド座標はそれに整列する、異なったペプチド配列を有する。これは、新規の試料給源（試料の型）で操作する場合に、多くの未知ペプチド座標と関係することになる。関与リストの分析を促進させるために、又はもっと一般的に、試料のペプチド組成の全体を分析するために、本発明により、ＣＡＮｓを使用して、代表的なペプチド、いわゆる、標識ペプチドのリストを定義することによって複合生物学的試料中のペプチドの同定を促進させることが、例えば、更に後記のＣＡＮｓに基づき配列するペプチドの更なる分析のために可能である。この方法は、図５に示される次の段階を含む。段階８０で、質量スペクトルが前記のように得られ、この際、質量スペクトルにおける信号強度のピークは潜在的ペプチドに相応する。次いで、潜在的ペプチドに相応する測定信号強度間の相関の測度をコンピュータ処理する（段階８２）。その後に、段階８４で、それらのペプチドを、調整可能な閾値以上の相関度を示すものと一緒に群にする。これらの選択されたペプチドは、分析試料中に存在するＣＡＮを構成する。最後に、各測定ＣＡＮから１つのペプチドを、段階８６でその各ＣＡＮを表示するために割り当てる。そのようにして、多数の標識ペプチドが分析試料を代表して得られる。これらの標識ペプチドは、ハブペプチドである特性を有し、これらは同じ型の試料内の他のペプチドに殆ど関係しない。これらの標識又は優先ペプチドのリストを同定することは、複合生物学的試料中に存在するペプチド組成について迅速な概略を与え、大多数の類似ペプチドを、例えば、同じ前駆体ペプチドから省略する。これは、試料中又はその試料からの関与リスト中に存在するキーペプチドの全体的概要を得るために有用である。

優先標識ペプチドのそのように形成された関与リストは、ｎ個のペプチド座標の１組を含有し、かつ任意のペプチドｚについて、ペプチドｚが定義された閾値ｒで、ｋ_z,rを有する関係の数が決定されることが意図される。最高値ｋ_z,rを有するペプチドｚはｙとして定義され、優先リスト上で順位１位などである。次いで、その決定されたペプチド座標ｙの信号強度の分散は、例えば、後記の式１、２及び３の組み合わせによる、データマトリックス中の関連ペプチドの信号強度から除去される。次いで、このペプチドは、データマトリックスから除去される。任意のｋ及びｒの計算は、優先リスト等で２番に順位つけられた代表的ペプチドを決定することを開始することから出発する。計算は、例えば、データマトリックスがそれ以上ペプチド座標を含有しない時、又はゼロ以上の関係を有するペプチドがなくなったとき、又は所望されるペプチド座標の数が達成した時に終了する。

式１〜３：ペプチド座標ｘ上の代表的ペプチド座標ｙの分散の除去

［式中、
Ｘ_VR,P：観測ｐでのペプチドｘの信号強度、除去されるペプチドｙの分散
Ｘ_P：観測ｐでのペプチドｘの信号強度
Ｙ_P：観測ｐでのペプチドｙの信号強度
ｍ：観測数］

及び

更に、ＣＡＮの一部分であるペプチドは、有利に、図式対象、例えば、黒丸によって表わされ、かつこれらの黒丸を結合する線によって、それらの相互関係が表わされることが意図される。その結果のより直覚的な分析を可能にするために、このネットワークを図６に示したように、ペプチドマップ上に映像させることができる。同定されたペプチドは、データベースへの連結、これらのペプチドについての付加的な情報を有するリスト、又は前記のペプチドに関する付加的な情報の他の給源を供給され得る。

関連ペプチドの座標又は測定パラメーターは、相応するペプチドの潜在的特性、機能又は用途についての更なるデータを同定するために、公共の、商業的な及び／又は専有のデータベースで問われ得る。好適な公共のデータベースは、例えば、PubMed文献データベース、OMIM病気データベース、NCBI‐配列データベース（全て、Medicine, MD, USAのUS National Libraryによって得られる）、Swiss - Prot及びTrEMBL配列データベース、酵素データベース、Swiss 3D画像データベース、Prositeタンパク質族及びドメインデータベース（全て、Swiss Institute of Bioinformatics, Swizerlandによって得られる）、ＵＳ、欧州、日本、ドイツ国特許事務所の特許データベース、Weizmann Instituteの遺伝子カードデータベース等を包含する。好適な商業的データベースは、例えば、特許を受けたアミノ酸又は核酸配列を有する商業的特許データベース、例えば、DGENE（Thomson Derwent, USA）又はREGISTRY（Chemical Abstracts Service, USA）である。好適な専有のデータベースは、様々な給源及び種類からのペプチド配列を有する利用者のデータベースである。ペプチドネットワークの映像化及び多くの情報源への接続のこの組み合せは、潜在的使用、例えば、更に詳しく後記される治療的ペプチドとして又は生体マーカーとしてのその使用のための、同定ペプチドの評価を軽減させる。

前記から明らかなように、相関連合ネットワークは、構造的及び／又は生物学的関連ペプチド間の関係についての仮説を生じさせるために使用され得る。これらの仮説は、独立した試料からの信号強度及び相応する相対的ペプチド濃度の相関分析に基づいている。更に後節に記載した例は、相関連合ネットワークが、タンパク質合成、翻訳後変性及び分解をつかさどる機能的類縁関係を明らかにするための、大きなペプチドミック（peptidomic）及びプロテオミック（proteomic）データの組織的分析及び解釈のために強力な手段である。ＣＡＮｓは、病気によって引き起こされるペプチド濃度変化の単なる比較を超える、新規の生体活性的及び診断的ペプチドの発見を支持する。

本発明により、ＣＡＮモジュール４２は、図１に示されたように、配列ネットワークモジュール４６、示差ネットワークモジュール４８、マーカーパネルネットワークモジュール５０及び代理ネットワークモジュール５２を含む数種の応用モジュール４４と相互作用をしている。本発明のこれらの応用モジュール４４及び基本的ＣＡＮモジュール４２とのそれらの相互作用を後節で詳しく説明する。

配列ネットワークモジュール
本発明による配列ネットワークモジュールと基本的ＣＡＮモジュールとの相互作用は、配列の変性を有する又はそれを有しない未知ペプチドのアミノ酸配列を予想すること及び／又は既知又は未知ペプチド配列の未知の変性を予想することを可能にする。ペプチドの特性は未知であるが、未知ペプチド信号の一定の物理化学的及び生化学的特性は既知であり、アミノ酸配列予想、例えば、質量‐対‐荷電比率（ｍ／ｚ）又はクロマトグラフィー反応（画分数／保留時間）のために利用することができる。更に、図１中の５６で示される生体情報支持データ、例えば、関連ペプチドの相関連合ネットワーク、質量差及び相関連合ネットワークのペプチド間の画分数の差等が入手可能であり、それというのも、それらは、実験的データ及び、多分、既に既知の相関連合ネットワークの他の一員のアミノ酸配列を用いてコンピュータ処理され得るからである。

図７は、既知前駆体を有するペプチドを含有する多数の試料のペプチドトポロジーを用いて、ペプチドの配列の予想を可能にする、本発明によるＣＡＮモジュールと配列ネットワークモジュールとの相互作用の方法段階を図式するフローチャートを示す。段階８０で、前記の多数の試料の各試料についての各質量スペクトルが得られ、この際、信号強度ピークは潜在的ペプチドに相応する。その後に、段階８８で、既知前駆体を有するペプチドは、前記のペプチドの質量を用いて同定され、この際、既知前駆体の配列が判明する。次いで、既知前駆体を有するペプチドの信号強度と、他の潜在的ペプチドの信号強度との間の相関の測度は、段階９０でコンピュータ処理される。段階９２で、一定の調整可能な閾値以上で既知前駆体を有するペプチドとの相関度を示す潜在的ペプチドが選択され、最後に、潜在的ペプチドの配列は、段階９４で、既知前駆体を有する前記のペプチドと相関する潜在的ペプチドの質量と既知前駆体の配列の推定断片の質量を適合させることによって予想される。

選択的に、段階９２後に、潜在的ペプチド及び既知ペプチド各々の間の質量差を、段階９６でコンピュータ処理することができ、その後に、段階９６で決定された質量差を適合する生物学的、化学的又は物理的方法によって引き起こされる質量差についてのデータを用いることによって、潜在的ペプチドの配列及び／又は生物学的、化学的又は物理的変性配列が、段階９８で予想され得る。

前記の研究の第一は更に包括的であり、それというのも、もっともらしい全ての推定的配列が既知ペプチドの前駆体配列から生じるからである（段階９０〜９８）。第二の研究（段階９０〜９６、１００〜１０２）は、より信頼できる予想を殆ど生じさせない。関連ペプチドは、極めて類似の配列／配列変性を極めて頻繁に有し、これらのペプチドは、第二の研究によって促進されることが観察された。それにもかかわらず、２つの研究は、共通して段階９０〜９６を有するので、本発明で意図されるように、２つの研究が１つの操作に合同される場合には、コンピュータ電源は"保存される（saved）"である。

質量差は、Ｎ‐又はＣ‐末端アミノ酸残基又はアミノ酸側鎖の翻訳後変性、例えば、燐酸化、アミド化、硫酸化（sulfatation）、グリコシル化、脂肪酸又はユビキチン変性等又は化学的変性、例えば、酸化、ジスルフィド結合等又はＮ‐又はＣ‐末端変性、例えば、ピログルタメート変性等の付加又は除去から生じ得る。これらの全変性は、相応するペプチドの分子量の明白な増加又は減少を生じさせる。内部挿入又は欠失又は１つのアミノ酸の、他のアミノ酸との交換、いわゆる、点突然変異は、ペプチドの正確に予想可能な質量変化を生じさせる。

本発明により、配列の予想は、関連ペプチドの１つの個性が既知であるか否かにかかわらず可能である。殊に、１つのペプチドの個性が既知である場合には、アミノ酸残基の分子量に相応する質量差は、高い確実性で未知ペプチドの完全な配列を直接予想することが可能である。ペプチドの個性が未知である場合には、例えば、未知ペプチド１及び未知ペプチド２は、同一であることが予想され得て（例えば、ペプチド２が付加的なアミノ酸残基、例えば、チロシン基を含有することを除いて）、又は、例えば、ペプチド２が、ペプチド１と同じペプチドである（それが燐酸化される等のことを除いて）。予想は、常に正しいとは限らないが、独立した情報をもっと得られれば得られるほど、もっと信頼できる予想が得られる。例えば、質量差がチロシンアミノ酸残基の付加に適合し、かつ付加的なチロシンでのペプチドの画分‐シフトの予想に適合する画分中に、ペプチドが存在する場合には、予想の全体的な信頼性は増加する。

この実施態様について、専有及び／又は商業的及び／又は公共のデータベースの使用が可能である。好適なデータベースは、例えば、アミノ酸又は核酸配列情報を含有するデータベース、例えば、NCBI配列データベース、Swiss‐Prot、EMBEL配列データベース、日本のDNAデータベース、特許を受けた配列のデータベース等、炭水化物の構造についての情報を有するデータベース、例えば、PROSITE（Falquet et al, Nucleic Acids Res., 30, 235 - 238, 2002）、翻訳後、酵素的又は化学的ペプチド変性、例えば、ペプチドの燐酸化部位、ペプチドのグリコシル化部位、稀なアミノ酸、例えば、ヒドロキシ‐プロリン又はヒドロキシ‐リジンのペプチド内での位置についての情報を有するデータベース、ペプチド配列内でのプロテアーゼ、リガーゼ、ホスファターゼ、キナーゼ等の認識部位についての情報を有するデータベース、一定のアミノ酸又はアミノ酸配列の化学的変性、例えば、酸化、還元、分子内‐転位への感受性についての情報を有するデータベース、ペプチド、炭水化物又は他の生物学的構造等についての三次元的構造についてのデータを有するデータベース（Falquet et al, Nucleic Acids Res., 30, 235 - 238, 2002）である。これらの異なった種類の全データベースは、これらのペプチドの一定の漸次的に増加又は減少される分子量に基づく、ペプチド間の構造的差を予想することができる。例えば：
（ｉ）データベース中に蓄積されたアミノ酸配列は、連続的に短縮又は延長されたペプチド又はその配列の突然変異を包含するペプチドの質量の計算を可能にする
（ｉｉ）例えば、キナーゼの認識部位（配列）を有するデータベースは、そのような認識部位を有する一定のペプチドの分子量が、ホスフェート基の質量によって増加又は減少される分子量を有し得ることを予想することを可能とする
（ｉｉｉ）プロテアーゼの認識部位のデータベースは、一定のペプチドの潜在的タンパク質分解断片の分子量を予想することを可能にする
（ｉｖ）ペプチドの物理的特性、例えば、例として疎水性相互作用クロマトグラフィー中の溶離時間についての実験的データを有するデータベースは、一定の分子量を有する一定のペプチド配列が、クロマトグラフィー中に一定の時点で溶離しそうであるかどうかを予想することを可能にする
（ｖ）アミノ酸組成及び／又はペプチドの配列に基づく、クロマトグラフィー保留時間又は画分数の予想値を有するデータベース：一定のクロマトグラフィーカラムを使用する場合には、付加的なチロシン基を有するペプチドは、付加的なチロシン基を持たないペプチドよりも３画分遅く溶離する。例えば、質量ｙを有する画分ｘ中のペプチドIは既知であり、画分ｘ＋３内の関連ペプチドIIは、分子量ｙ＋チロシン基の質量を有する。これは、その配列内のどこかに付加的なチロシン基を有することを除いて、ペプチドIIがペプチドIと同じペプチドであることを高い確率で示す。
（ｖｉ）例えば、ペプチドの三次元構造のデータベースは、潜在的な相応するペプチドの分子量を増加させることになる、例えば、一定のアミノ酸側鎖で、例えば、ホスフェート基又は糖半分によって変性されるのに十分な空間があるかどうかを予想することを可能にする。

推定アミノ酸配列の物理化学的及び生化学的特性の予想は、実験的に測定された特性に驚異的にも良く適合する。この研究は、図１に示した補助データ５６によって得られるような、及び前記したような、前駆体アミノ酸配列及び既知の関連ペプチドの翻訳後、化学的及び酵素的変性についての知識を利用して、拡大され得る。更に、既知ペプチドについての情報、例えば、その前駆体の名称、その前駆体の配列、その前駆体配列内の出発及び終止‐位置は、予想過程前又はその間に検索し得る。プロテアーゼ認識部位、ドメインの予想、及びタンパク質分解消化に感受性の構造についての情報も検索することができる。この情報は、データベース又はリストから、又は比較可能な情報給源から、手動的に供給され得る。単一同位体ｍ／ｚ比率から平均ｍ／ｚ比率への変換、荷電イオンのｍ／ｚ比率から非‐荷電イオンのｍ／ｚ比率への変換は、合理的な許容誤差の範囲内で、当業者に公知である。

本発明は、前記の１方法によって誘導される推定アミノ酸配列が、未知ペプチドのペプチド信号座標に適合するかどうかを決定する特殊な規則を包含する。図８ａ〜８ｄ図示されるこれらの規則を、任意の順序で適用することができるが、それらの全ての規則を、任意の与えられた場合に適用する必要はない：
規則ａ：
この規則は、未知のペプチド座標が、次の条件によって、既知ペプチド座標のｎ‐倍荷電されたイオンであるかどうかを検査するために、式４（後記）を適用し、この際、ｎは、１よりも大きい正数であってよく、ｍ／ｚ_{未知ペプチド}は、未知ペプチドのｍ／ｚ比率であり、ｍ／ｚ_{既知ペプチド}は、既知ペプチドのｍ／ｚ比率であり、かつ質量_閾値は、測定質量から計算された質量の最大差である。有利な質量_閾値は、機器及びその後のデータ処理工程の質量精度に等しい。この条件が応じられる場合には、この提案は、高い適合値で報いられ、かつ未知ペプチドが、既知ペプチドのｎ‐倍荷電されたイオンであるという提案は蓄積され得る。

式４：ｎ回荷電されたペプチドイオンについての検査

［式中、星印（^*）は、数学的乗法操作を示す］。

規則ｂ：
既知のハブペプチドＰ１及び関連ペプチドＰ２の質量差が、例えば、図９に示された表"ペプチド及びタンパク質の翻訳後変性による質量変化"中に挙げられたように、又は公知技術水準（Falquet et al, Nucleic Acids Res., 30, 235 - 238, 2002）から公知であるように、翻訳後変性の質量に相応する場合には、Ｐ２は、Ｐ１の翻訳後変性化誘導体であると提案される。既知のハブペプチドＰ１のアミノ酸配列が、翻訳後変性のための特殊部位を含有する場合、又はＰ１が翻訳後変性される又はされ得ることが公知である場合、及び既知及び未知ペプチド間の質量差がその翻訳後変性の存在又は不在から生じる質量差に相応する場合には、適合値は増加される。図１５に示した表は、モチーフ、これらのモチーフを認識する酵素及び生じる質量差を例証する。多数の他の翻訳後変性又は一定の翻訳後変性を有する推定配列モチーフは、公知技術水準で公知であり、Ｎ‐グリコシル化又はＯ‐グリコシル化部位（モチーフ）、燐酸化部位、スルフェート化部位等と同様に使用され得る（例えば、Alberts et al, Molecular Biology of the Cell, Garland Publications, 2002; Coligan et al, Short Protocols in Protein Science, John Wiley & Sons, 2003; Falquet et al, Nucleic Acids Res., 30, 235- -238, 2002）。

規則ｃ：
推定配列又は推定断片は、ハブペプチドの既知前駆体配列の潜在的アミノ‐及びカルボキシ‐末端切断又はアミノ酸の付加から生じられ、それらが未知ペプチド座標の実測ｍ／ｚ比率に適合するかどうかを検査される。推定配列は、図８ｂで例証されるように、ハブペプチドの与えられた前駆体配列中の出発‐及び終止‐位置、ｉ及びｊを組織的に及び反復的に定義することによって生じられる。推定アミノ酸配列の質量Ｍ_計算は、アミノ酸、アミノ酸残基の仮説された翻訳後変性及び／又は推定アミノ酸配列の末端基の質量を総合計することによって計算される（図９、１１及び１１中の表及び後記の式５参照）。規則ｃは、計算された質量が、与えられた質量閾値Ｔ_質量よりも少ないことにより、未知ペプチド信号の測定された質量Ｍ_実測と異なる場合には、この推定アミノ酸配列＋翻訳後変性が提案され、更に規則ｄ〜ｉが適用され得るが、そうでなければ、この提案は拒絶されることを定義する。これは、１個以上の推定ペプチド配列で、又は既知の関連ペプチド信号座標の前駆体配列から推論され得る全ての仮説的に可能なペプチド配列で行なわれ得る。

式５：質量の計算

［ここで、
Ｍ_計算は、与えられた／推定の配列を有するペプチドの計算された質量であり、
Ｍ_{1文字アミノ酸コード}は、特定のアミノ酸の質量であり、
ｎ_{1文字アミノ酸コード}は、与えられた／推定の配列中の特定アミノ酸の数であり、
Ｍ_{N‐末端基}は、Ｎ‐末端基の質量であり、
Ｍ_{C‐末端基}は、Ｃ‐末端基の質量であり、かつ
Ｍ_変性は、１回以上の変性による質量変化であり、変性のない場合には、
Ｍ_変性＝０である］。

規則ｄ：
アミノ酸の数及び個性は、使用されるクロマトグラフィーカラムの大きさ及び種類及びクロマトグラフィー条件に依存して、溶離時間／画分数に影響する。ペプチドの画分数／溶離時間は、いわゆる、データの群方法（Group Method of Data）（GMDH, e. g. Mueller and Lemke, Self - Organising Data Mining Extracting Knowledge From Data, Trafford Publishing, 2003）、後記の式６に例証されるのと同じクロマトグラフィー条件下で分離される、既知配列を有する１組の訓練ペプチドを用いる多重回帰又は比較可能な数学的方法によって、そのアミノ酸配列に基づき、驚異的にも良好に予想され得る。前記の訓練組において、ペプチドの任意のアミノ酸残基型の数は独立した変数であるが、ペプチドの画分数は従属的な変数である。予想されたアミノ酸配列の計算された画分数（例えば、式６）が、与えられた許容誤差の範囲内で、未知ペプチドの誘導された画分数に適合する場合には、モデル適合点は増加される。質量差が、明確なアミノ酸欠失／付加から生じることが提案され、かつ画分数における差が、これらの前記のアミノ酸配列差と適合され得る場合には（図１３参照）、モデル適合点は増加される。

式６：提案された配列に基づく画分数の評価

［ここで、
Ｆ_計算は、与えられた配列の計算された画分数であり、
ｎ_{1文字アミノ酸コード}は、与えられた配列中の特定アミノ酸の数である］。

規則ｅ：
予想されたアミノ酸配列のＮ‐末端位が、既知ペプチドのＮ‐末端位と同じである場合には、適合値は増加される。これは、基礎信号の既知ペプチド及び未知ペプチドが、驚異的にもしばしば観察されるＣ‐末端タンパク質分解反応を経由して、関連されるからである。

規則ｆ：
予想されたアミノ酸配列のＣ‐末端位が、既知ペプチドのＣ‐末端位と同じである場合には、適合値は増加される。これは、基礎信号の既知ペプチド及び未知ペプチドが、驚異的にもしばしば観察されるＮ‐末端タンパク質分解反応を経由して、関連されるからである。

規則ｇ：
予想される配列の出発位置及び／又は終止‐位置が、滅多に起こらないタンパク質分解反応の部位によって先行される又は後追される場合には、この提案の適合値は減少される。予想配列の出発位置及び／又は終止‐位置が、常習的に起こるタンパク質分解反応の部位によって先行される又は後追いされる場合には、この提案の適合値は増加される。これは、ペプチドがしばしば特異的及び／又は非特異的プロテアーゼの生成物であることが観察されたからである。試料の給源及び製法に依存して、プロテアーゼ及び分子内転位、例えば、ジスルフィド結合は変化し得る。例えば、試料給源として、脳脊髄液（ＣＳＦ）を用いて、配列"Ｒ‐Ｒ"又は"Ｒ‐Ｋ"は、それらがＣＳＦ中のプロホルモン転換酵素（convertase）ＰＣ２の認識部位であるので、前駆体中のペプチドのＮ‐末端位を常習的に先行する。既知酵素認識部位の次に、若干のアミノ酸がもっと常習的であり、他方は常習性が劣る。ペプチドのＮ‐及びＣ‐末端位を先行又は後追する位置は、その特別な方法で処理される特別な試料中で、そのほんのパーセントの発生に基づいて予想され得る。この種類の情報は、容易に実験的に決定することができ、ヒト脳脊髄液中に存在するペプチドの例が、図１４ａ〜１４ｄ中の表に示される。表"ＣＳＦ：第一開裂前のアミノ酸"、"ＣＳＦ：第一開裂後のアミノ酸"、"ＣＳＦ：最終開裂前のアミノ酸"、及び"ＣＳＦ：最終開裂後のアミノ酸"が、タンパク質分解反応の結果として、実測されたＮ‐又はＣ‐末端アミノ酸頻度を要約する。図１４ａ〜１４ｄに示された表の上部のそれらのアミノ酸が、予想された配列中の相応する位置に存在する場合には、規則ｈは適合値を増加させるが、これらの表の下部のそれらのアミノ酸は予想の適合値を減少させる。図１４ａ〜１４ｄに示された表は、ＣＳＦ試料が本発明の例のＣＳＦ試料と同じ方法で処理される限り、ヒト脳脊髄液中の存在するペプチドのＮ‐又はＣ‐末端での一定のアミノ酸残基の存在の可能性を予想することに好適である。図１４ａ〜１４ｄに示された１表と同様の表は、実験的に任意の試料、例えば、全血、血清、血漿、尿等について生じられ、試料の処理は、全試料が同様の方法で処理される限り、任意の種類であってよい。

規則ｈ：
既知及び未知ペプチドのペプチド座標間の質量差が、１個以上の明確なＮ‐又はＣ‐末端アミノ酸の損失によって説明される場合には、この予想の適合値は増加される。

規則ｉ：
規則ｂ〜ｈの１つ又はそれらの組み合わせによって、予想が生じられ、未知ペプチドが既知ペプチドの翻訳語変性の反応体又は生成物であることを提案する場合には、この提案は、与えられた翻訳後変性を行なう酵素による、タンパク質配列内での反応部位の接近可能性の観点で決定することによって試験される。従って、ペプチド又はタンパク質の三次元データを蓄積するデータベースにおける検索が、提案された部位がタンパク質の表面及び／又はその構造上で、その酵素の反応を立体的に可能にさせることを示す場合には、その予想の適合値は増加する。同様の方法で、配列の領域が翻訳後変性法によって変更されることが提案される場合には、その配列領域の酵素への接近可能性は、その特別な領域の疎水性を評価する算法によって評価される（Engelman et al, Ann. Rev. Biophys. Chem. 15, 321, 1986; Heijne著、Eur. J. Biochem., 116, 419, 1981）。例えば、高親水性配列領域は、翻訳後変性を行なう酵素によって、疎水性配列領域よりももっと接近されやすそうであり、従って、その予想の適合値は増加される。

規則ａ〜ｉ及び任意に付加的な規則を適用してコンピュータ処理された結果を、コンピュータ読取可能なフォーマット中のリスト又はデータベース中に蓄積させることができ、及び／又は好適なユーザーインターフェース、例えば、モニターを介して印刷又はディスプレーすることができる。未知のアミノ酸配列についての１つ以上の予想が、前記の規則で得られる結果に適合する場合には、予想された配列は、図８ｂ中の段階１４８で示されるような上部の未知ペプチドについての最適配列で順位をつけられ得る。既知ペプチドＰ１が１個以上の関連の未知ペプチドＰ２を有する場合には、前記の研究は、図８ｃに示されたような全ての未知ペプチドＰ２について繰り返しされ得る。前記の研究は、図８ｄ中に例証されたようなペプチドのリスト中の任意の既知ペプチド信号Ｐ１に拡大され得る。

示差ネットワークモジュール
本発明により、示差ネットワークモジュールと基本的ＣＡＮモジュールとの相互作用は、試料Ａ及び試料Ｂとの間で相互から独立して区別するペプチドを同定することを可能にする。Ａ状態は、若い、年取った、健康な、病気の、甘味、苦味、形質転換の、非‐形質転換の、黄色、緑色、男性、女性、妊娠の、非‐妊娠の、喫煙者、非喫煙者又は試料の群又は小群又は試料がそれから誘導される有機体を定義する任意の他の基準である。任意に、示差ネットワークモジュールは、本発明の他のモジュール及び殊に、図１中に示したような基礎的ＣＡＮモジュールと同様に、データ、例えば、試料の状態を有する様々なデータベースと結合される。示差ネットワークモジュールは、明確な基準、例えば、試料の状態によって定義される試料の小群を定義すること、及び更に、任意の状態又は１つ以上の状態の任意の組み合わせについてのペプチド‐対‐ペプチド関係を別々に計算することを、ＣＡＮモジュールに指示する。第一に、状態Ａを表わす試料の群で相関の閾値を満足させるそれらのペプチドペア、第二に、状態Ｂを表わす試料の群で相関の閾値を満足させるそれらのペプチドペア、及び第三に、関係は、比較される状態Ａ及び状態Ｂの相関間の差に基づいて定義され得る。利用者が、２つの異なった状態Ａ及びＢから試料中の最も異なっているペプチド‐対‐ペプチド関係に関心を持つ場合には、利用者は、各ペプチド‐対‐ペプチド関係の相関係数が異なっていて、かつΔｒ＝│ｒ_状態A−ｒ_状態B│が、有利に、全ペプチド‐対‐ペプチドΔｒの８５％よりも大きいペプチドについて検索する。

図１５は、状態Ａ及び状態Ｂを表わす少なくとも２つの異なった実験群から採取される多数の試料のペプチドトポロジーを用いて、マーカーパネルとして使用されるために好適なペプチドの同定を可能にする本発明によるＣＡＮモジュールと示差ネットワークモジュールとの相互作用の前記の処理段階を図示するフローチャートを示す。段階１７０ａで、前記の多数の試料の各試料についての各質量スペクトルが得られ、この際、信号強度ピークは潜在的ペプチドに相応する。次に、段階１７２で、前記の潜在的ペプチドの信号強度間の相関の測度が、各実験群内で別々に多数の各試料についてコンピュータ処理される。最後に、状態Ａ及び状態Ｂの間で区別するための診断目的用のマーカーパネルとして使用されることに好適であるペプチドがそれによって得られる、一定の閾値以上の異なった実験的群の間の相関度における差を示す潜在的ペプチドペアが、段階１７４で選択される。

示差ネットワークモジュールの結果は、状態Ｂに比較される状態Ａの試料内でのペプチドの異なった関係について、次のような説明を可能にする：状態ＡでのペプチドＩとペプチドIIとの相関係数引く状態Bでの相応する相関係数の差が、与えられた閾値よりも大きい場合には、ペプチドペアの信号座標、観察される状態Ａ及び状態Ｂ内でのそれらの相互距離又は後の情報の差又は組み合わせの程度が、データベース又はリスト中に蓄積される。示差ネットワークモジュールは、ペプチド座標を意味する他のモジュールと同じ映像化法を任意に提供し、それらの関係は、各々、図６で示されるように、線によって結合される黒丸として表わされ得て、かつ同定されたペプチドは、補助的なデータ給源を有するデータベース又はリストへの好都合の結合を介して検査され得る。

本発明のこの観点の他の使用は、１又は少なくとも２つの異なる状態、相応する試料を有する状態Ａ及び相応する試料を有する状態Ｂを表わす、少なくとも３種の試料中に存在するペプチドの分子量の比較である。例えば、一定の病気を有する個体からの試料対その一定の病気を持たない個体からの試料、妊娠している個体からの試料対非‐妊娠個体からの試料、発現ベクターで形質転換された細菌からの試料対非‐形質転換細菌からの試料、強酸性味のヨーグルトからの試料対緩和な酸性味のヨーグルトからの試料等は、これらの試料中に存在するペプチドの相関測度をコンピュータ処理することによって比較され得る。２つの異なった状態Ａ及びＢに相応する２つの試料内でのペプチドの測定パラメーターの比較は、ペプチドが、状態Ａの試料中にのみ存在し、状態Ｂの試料中には存在しないことも示し得る。また、この場合には、状態Ａ及び状態Ｂでのこのペプチドの測定パラメーターは、多分、相関の測度によって関連され得る。少なくとも２つの異なったペプチド、例えば、ペプチドＩ及びペプチドIIが同定される場合には、ペプチドI及びペプチドIIについてのパラメーターの測定値は合同され得る。状態Ａの代表である少なくとも３つの試料及び状態Ｂの代表である少なくとも３つの試料の測定値を用いて、数学的関数をコンピュータ処理することができる。この数学的関数は、ペプチドＩ及びペプチドIIの相関‐ネットワークを描く。１つの相関‐ネットワーク中に２つ以上の異なったペプチドを含有すること、例えば、相関‐ネットワークを描く１つの数学的関数中に２つ以上の異なったペプチドを含有することが可能である。得られた数学的関数は、少なくとも２つのペプチド（ペプチドＩ及びペプチドII）の相関の測度の組み合わせが、状態Ｂから状態Ａを区別することを可能にすることを描く。

更に、本発明のこの観点の他の使用は、回帰モデルによって試料の状態の予想を可能にする、ペプチド集合の自動同定を包含する。本発明は、少なくとも２種のペプチド間の関係を検出し、この際、関係は、与えられた状態Ａの代表である。次の段階で、直線又は非‐直線回帰モデルは、見出されたペプチドの入力パラメーター、例えば、それらの各MALDI信号強度を使用し、かつそれらの入力パラメーターを終点パラメーター、例えば、診断（はい／いいえ＝１／０）に適合させ、又はこの誘導された集合のペプチドの他のパラメーターに適合させるように設定される。

未知状態の試料が状態Ａの一員であるかどうかを検査するために、その試料からのこれらのペプチドの入力パラメーターを誘導モデルに応用させる。その試料から得られる出力値が、決定された機能によって得られる予想値から、状態Ａからの他の試料としての範囲で逸脱する場合には、この未知の試料が状態Ａからであると考えられ得る。さもないと、多分、試料は他の状態を有する。

マーカーパネルネットワークモジュール
本発明により、マーカーパネルネットワークモジュールと基本的ＣＡＮモジュールとの相互作用は、状態Ａを表わす試料と状態Ｂを表わす試料との間で相互から独立して区別するペプチドを同定することを可能にする。例えば、病気は、異なった因子、例えば、炎症及び増加鼓動率によって引き起こされる。これらの各病気因子は、例えば、患者の血漿中の明確なペプチドの変化濃度を引き起こす。例えば、２つのペプチドマーカーのパネルが病気の診断に使用される場合には、ペプチドマーカーの１つが炎症を指示し、他方のペプチドマーカーが増加鼓動率を指示する。これらの２つのマーカーの組み合わせは、炎症及び増加鼓動率の組み合わせによって引き起こされる病気を検出するためのマーカーパネルの特異性及び感受性を増加させる。マーカーパネルネットワークモジュールは、病気に関連されるが、多分、異なった病気因子（この仮説的症例では、炎症及び増加鼓動率）に関連されるそれらの潜在的ペプチドを選択し、それというのも、これらのペプチド座標は、相互に相関の低測度を有するが、２つとも病気への高い相関を有するからである。従って、診断的試験の特異性及び感受性は、マーカーパネルへのこれらの相補的ペプチド座標を組み合せることによって改善され得る。

例えば、炎症と関連される病気１（状態Ａ）は、炎症と関連されない他の病気２（状態Ｂ）と区別されるべきである。例えば、病気１と病気２とを区別する４種のペプチドが見出される。ペプチド１及びペプチド２は、同じタンパク質から、例えば、ＴＮＦ‐αからの断片であり、ペプチド３は、例えば、ＩＬ‐６の断片であり、かつペプチド４は、未知タンパク質の断片である。これらの全４種のペプチドは、相関の測度によって病気１及び病気２を区別するが、ペプチド１及び２は、それらが同じ分子（ＴＮＦ‐α）から起源するので、当然、相互に相関する。付加的に、ペプチド１及びペプチド３は、ＴＮＦ‐α及びＩＬ‐６が類似の前‐炎症機能を有するので、同様に当然、相互に相関する。結果的に、これらは２つの群のペプチドであり、ペプチド１、２及び３は１つの群に属し、ペプチド４は第二群を表わす。診断的試験を得るために、ペプチド１及び２又は１及び３又は２及び３の検出の、改善された特異性及び／又は感受性との組み合わせでは、ペプチド１及び４又は２及び４又は３及び４の組み合わせが行なうのと同様には、特異性及び／又は感受性を増加させない。この方法は、付加的又は相乗的値（診断的、治療的、機能的等）を有するペプチドパネルを同定することを可能にする。

図１６は、状態Ａ及び状態Ｂを表わす少なくとも２つの異なった実験群から採取される多数の試料のペプチドトポロジーを用いて、マーカーパネルとして使用されるのに好適なペプチドの同定を可能にする、本発明によるＣＡＮモジュールとマーカーパネルネットワークモジュールの相互作用の方法段階を図示するフローチャートを示す。段階１８０ａで、前記の多数の試料の各試料についての各質量スペクトルが得られ、この際、信号強度ピークは潜在的ペプチドに相応する。次いで、段階１８２で、状態Ａ又は状態Ｂを表わすパラメーターと相関する潜在的ペプチドが選択される。その後に、段階１８４で、多数の各試料についての前記の選択された潜在的ペプチドの信号強度間の相関の測度がコンピュータ処理され、最後に、段階１８６で、一定の閾値以上のそれらの各信号強度の相関を示さない潜在的ペプチドペアが選択され、それによって、状態Ａ及び状態Ｂの間で区別するための診断目的用のマーカーパネル中で、相補ペプチドとして使用されることに好適である潜在的ペプチドを得る。

言い換えれば、マーカーパネルネットワークモジュールは、状態Ａ又は状態Ｂを表わすパラメーターと相関する潜在的ペプチドを選択する。次いで、マーカーパネルネットワークモジュールは、相互にそれらの各信号強度の相関の極めて低い測度を有する、選択されたペプチド座標のそれらのペアについての相関連合ネットワーク（ＣＡＮ）を問いただす。その結果は、状態Ａ又はＢに関連されるが、直接的には相互に関連せず、状態Ａ及びＢ間で区別するためのマーカーパネルのために組み合わされ得るペプチドペアである。マーカーパネルに２つ以上のペプチドを組合させることが可能である。

前節で記載した示差ネットワークモジュールは、その濃度比率が一定の状態を示すペプチド及びそれから比率が異なった状態を示す偏差の組み合わせを発見する。前記の比率を計算するために、２つの／任意のペプチドの信号強度（例えば、濃度）を測定することは必須である。２つのペプチド間の関係は、状態Ａでのみ存在していてよいが、一方で、同じ２つのペプチド間の関係は、異なっている又は状態Ｂで存在しない、であってよい。

対照的に、本節で記載されるマーカーパネルネットワークモジュールによって発見された任意のペプチドは、単独で診断用マーカーとして用いられるが、２つのマーカーの組み合せは、診断試験の感受性／特異性等を改善する。理想的には、マーカーパネル員は、２つの状態の任意で、相互に関連すべきでない。マーカーパネル員が相互に関連する場合には、それらの組み合わせは、多分、診断の感受性／特異性を改善しない。

代理ネットワークモジュール
代理ネットワークモジュールは、確立された診断的又は治療的ペプチド又は他の使用のペプチドを置換又は相補ペプチド（いわゆる、代理ペプチド）の同定に関係する。例えば、ペプチドが既知の生体活性の治療的ペプチドと相関し、これらのペプチドは、治療的測定のための代理として用いられ、又はそれどころか、より高い／より大きい能力、効力、特異性、選択性及び／又はより少ない不所望な副作用を示し得ることが発見された。これらの種類のペプチドは、図１７に示される段階を適用することによって、本発明によるＣＡＮモジュールと組み合せた代理ネットワークモジュールを使用して発見され得る。最初に、分析される各試料の各質量スペクトルが得られ、その際、信号強度ピークは潜在的ペプチドに相応する（段階１９０）。その後に、段階１９２で、既知ペプチドの信号強度と潜在的ペプチドの信号強度との間の相関の測度がコンピュータ処理され、最後に、段階１９４で、一定の閾値以上の既知ペプチドとの相関度を示すそれらの潜在的ペプチドは選択され、それによって、既知ペプチドを置換又は相補することに好適な潜在的ペプチドが得られる。代理ネットワークモジュールの２つの例証的適用を後記する。

例えば、血漿試料は、ペプチドインシュリンを含有することが公知であり、同じ血漿試料内で潜在的に未知のペプチドＸはペプチドインシュリンと相関する。この場合には、ペプチドＸは、その相関測度が、それとインシュリンとが関連することを示すので、インシュリンと同じ機能を有する。その理由は、ペプチドＸが、インシュリンの誘導体、例えば、インシュリンのグリコシル化型、又はインシュリンのアミノ酸配列と完全に異なるが、インシュリンと同じ機能的または代謝的循環で包含される他のペプチドであるからである。２つの場合には、ペプチドＸは、例えば、糖尿病治療でインシュリンの使用に二者択一として用いられ得る。また、ペプチドＸはインシュリンと組んで、それ自体によってインシュリンの治療的効果を改善することが判明する。

更なる例で、前立腺癌患者の組織試料は、前立腺癌の既知マーカーである前立腺特異性抗体（ＰＳＡ）を含有する。他の潜在的に未知のペプチドＹは、相関測度によってＰＳＡペプチドに関連され、従って、ペプチドＹは、ＰＳＡペプチドと同様の前立腺癌の生体マーカーとしての診断的価値を有し、又はペプチドＹの測定は、ＰＳＡ測定による前立腺癌診断を補足する。

モジュールの相互作用
前記の任意のモジュールは、独立的に使用され得るが、これらのモジュールの任意の組み合わせを使用することができ、かつ能力的に１種以上のモジュールの結果を相乗的に改善することができる。

例えば、代理ネットワークモジュールの結果は、配列ネットワークモジュールによって分析され得る。代理ネットワークモジュールが未だ配列されないペプチド信号を生じさせる場合には、配列の予想は生物学的解釈のための早期の手掛りを与え、そうして、例えば、治療的又は診断的ペプチドの確証過程を促進させ得る。しかし、引続いて、配列化によるこれらのペプチドの同定が推奨される。

示差ネットワークモジュールの結果は、代理ネットワークモジュールで分析され得る。示差ネットワークモジュールが、例えば、潜在的生体マーカーを生じさせる場合には、同様の反応を示し、従って関与性でもある可能な代理マーカーを同定することが高度に所望される。従って、代理ネットワークモジュールと示差ネットワークモジュールとの組み合わせは、新規の治療的、診断的又は他のペプチドの発見を促進し、かつ高度に相乗的である。

更に、示差ネットワークモジュールの結果は、配列ネットワークモジュールで分析され得る。示差ネットワークモジュールが未だ配列されていないペプチド信号を生じさせる場合には、未知ペプチドの配列の予想は、生物学的解釈のための早期の手掛りを与え、そうして、治療的、診断的又は他のペプチドの確証過程を促進させ得る。しかし、その後の、配列化によるこれらのペプチドの同定が推奨される。

実施例
次の例は、本発明による方法が、如何にして真のデータに適用され得るかを記載することを意図される。明確性のために、模範的測定パラメーターの限定数だけを計算し、図に表わす。しかし、当業者によって速やかに観察可能であるように、本発明による方法の利点は、データの大集合に適用される場合により明白になる。一般に、現在のコンピュータシステムでは、６０００個までの潜在的ペプチドを含むデータ集合の相関の測度が普通に計算され、１０００００個までの潜在的ペプチドのデータ集合は、不当な努力をせずに、本発明による方法によって分析され得る。

例１
基本的ＣＡＮモジュールは、試料中で測定される各個の潜在的ペプチドについて、１つの潜在的ペプチドが、その試料中の各々他の潜在的ペプチドに、どの程度相関するかを計算する。ＣＡＮモジュールは、若干程度の相関の場合に、多分、一般の前駆体、ペプチドの起源又は相関するペプチドの異なった前駆体の同じ生物学的機能のような、一定の理由について相互に関連されるペプチド間の相関のネットワークを決定する。

本例で、データの集合、即ち、データマトリックスは、各試料が６０００個のペプチド座標を生じさせる独立した７４個の試料の測定パラメーター、この場合には、信号強度を包含する４４４０００個の値を含む。図１８ａ、１８ｂに示される表は、合計６０００個のペプチド座標から４個についての相応する粗データを挙げる。相関の測度を決定するための４つの異なる方法、つまり、スペアマンの順位相関、ペアソンの乗積モーメント相関、ケンダルの順位相関タウ及び最小全域木（ＭＳＴ）は、ペプチド座標画分５４；ｍ／ｚ２７４３．０を３つの他のペプチド座標（画分５４；ｍ／ｚ１３７１．５、画分５６；ｍ／ｚ２９２７．２及び画分２０；ｍ／ｚ１１１４．３）と比較する３つの例証されるペプチドペアについて計算される（図１９に示される表参照）。閾値の定義は、詳細に前記されたように、相関連合ネットワークの発生での重要な段階であり、慎重に行なわれるべきである。データマトリックスで６０００×６０００×０．５＝１．８×１０⁷個の可能なペプチド‐対‐ペプチドペアを合同することができ、これらの各ペアは、一定の相関係数ｒを示す。図２０は、一定の相関係数ｒを有するために、ペプチドペアの確率のプロットＰ（ｒ）を示す。ゼロ又はゼロに近いｒ値は、完全にランダムである関係を描くが、１又は−１に近いｒ値は、それぞれに相関する又は極めて強く抗‐相関する関係を描く。ペプチドペアを相関の測度、例えば、スペアマンの順位相関係数によって、相関について試験すればするほど、ペプチドペアは、偶然に、ある程度相互に相関する。これは、情報を与え、かつ真実であると見なされる相関係数が、より高い閾値を通過すべきであることを意味する。与えられた相関係数の情報内容を評価するために、図２０におけるように、プロットを行なうことが推奨される。この図における１本の曲線（黒丸）は、６０００個のペプチド座標を含む前記のデータマトリックスからの全ペプチド‐対‐ペプチドペアについて、与えられた相関係数（ｘ‐軸）に対する可能性（ｙ‐軸）をプロットする。図２０中の白枠で示された他の曲線は、偶然に生じる相関の可能性を描く。

最も有望な真の正関係は、曲線下の領域が小さい場合に見出され、一方で、曲線の最大は、殆ど偽の正相関である相関係数を表わす。スペアマンの順位相関係数が、相関の測度として選択され、かつ│ｔ_閾値│≧０．８が、ペプチド‐対‐ペプチド関係の定義のための閾値として選択される場合には、ペプチド座標画分２０；ｍ／ｚ１１１４．３は、ペプチド座標画分５４；ｍ／ｚ２７４３．０に関連されない（図１９に示された表参照）。対照的に、ペプチド座標画分５４；ｍ／ｚ１３７１．５及び画分５６；ｍ／ｚ２９３７．３は、座標画分５４；ｍ／ｚ２７４３．０を有するペプチドに高く関連する（図１９に示された表参照）。これらのペプチド関係は、フィルタを通過して、ローカルバレンチナデータベースファイル（local Valentina Database file）に蓄積され得る。

例２
１つは、仮説的前立腺癌患者におけるクロモグラニンＡの代理マーカーを見出すことに関係され、かつ前記の７４個の試料の若干は健康な男性から起源され、かつ若干の試料は前立腺癌患者から起源されると仮定する。クロモグラニンＡ、アミノ酸９７‐１３１から起源するペプチドは同定されたという、更なる仮定の下に、代理ネットワークモジュールは、ここで、ハブ‐ペプチドクロモグラニンＡ、９７‐１３１と相関測定によって高度に関連されるペプチド座標の基本的ＣＡＮモジュールに質問する。これは、例えば、ペプチド‐対‐ペプチド関係のスペアマンの順位相関係数│ｒ│が、関係│ｒ│≧０．６７に応じるべきであることを定義することによって行なわれ得る。次いで、代理ネットワークモジュールは、バレンチナデータベースに質問することをＣＡＮモジュールに指示し、この条件に適合する約１４個のペプチド座標があることを報告する。これらのペプチド座標は、これらの座標に適合する任意の既知ペプチドについてデータベース中で検索される。この方法で、データベースから知られて１４個のペプチドのリスト中に存在する３種のペプチドが、図２１中に示された表に図解されたように、クロモグラニン／セクレトグラニン系統に属することが判明する。代理ネットワークモジュールは、関連ペプチド及びハブペプチドのペプチド座標を、二次元又は三次元平面上の黒丸として、例えば、図６に示されたような血清試料のペプチドマップ指紋として投影する。ペプチド座標間の関係は、黒丸間の線として描写される。直線は、コンピュータポインティングデバイス、例えば、マウスによって選択することができ、小さい情報ウインドウは、相関測度の種類についての情報を有してポップアップし、連結ペプチド座標の相関の測度値が示される。黒丸は、コンピュータマウスクリックによって選択することができ、情報ウインドウはペプチド座標についての情報を示し、このペプチド座標が既に同定されている場合には、次いで前駆体ペプチドの名称、同定されたペプチドの出発‐及び終止位置が、図１中の５６で例証されたように、"配列情報データベース"の検索によって得られる。また、他のデータベース、例えば、スイス‐プロット及び遺伝子カードへの連結が得られ、及び／又は他のデータベース、例えば、USPTOの特許データベースは、検索用語"ペプチドの名称"及び"診断"について質問され得る。インタネットブラウザウインドウは、US‐特許データベースからの結果を表示することができる。代理ネットワークモジュールによるペプチド‐対‐ペプチド関係及びインターネット及びイントラネットリソースへの便利な結合及びアクセスの映像化は、結果の評価に必要とされるデータ取得の速度を著しく増加させる。クロモグラニンＡの例は、セクレトグラニン‐クロモグラニン系統の一員から起源する他のペプチドが、ＣＡＮモジュールによって自動的に見出されることを示す。これらのペプチドは、図２１に示された表に挙げられ、仮説的前立腺癌患者における治療的成功の予想への診断的マーカーとして用いられ得る。

例３
模範的な仮説的血清集合データにおいて、４８個の試料を前立腺切除前の患者から採取し、２６個の試料を前立腺切除後の患者から採取する。示差ネットワークモジュールのために、ペプチド間の相関測度、例えば、スペアマンの順位相関係数ｒを、前立腺切除前の患者からの試料及び前立腺切除後の患者からの試料について別々に計算する。全７４個の試料についてのクロモグラニンＡ９７‐１３１及びセクレトグラニンＩ８８‐１３２の相関係数は、ｒ＝０．６７であり、前立腺切除前のそれらの患者についてはｒ＝０．２３であり、前立腺切除後のそれらについてはｒ＝０．９７である（図２２参照）。これは、ペプチドのクロモグラニンＡ９７‐１３１及びセクレトグラニンＩ８８‐１３２が、前立腺切除前よりも前立腺切除後に関連が更に少なくなることを示す。また、これは、全患者について相関の損失を説明する。与えられた例について、これは、セクレトグラニンＩ８８‐１３２が、前立腺切除前だけ、クロモグラニンＡ９７‐１３１の潜在的代理マーカーであり、その後に、関係は破断されることを意味する。これは、クロモグラニンＡの代理マーカーとしてのセクレトグラニンＩ８８‐１３２の臨床的評価計画への著しい衝撃を有し、莫大な経費を節約し得る。更に、クロモグラニンＡ９７‐１３１及びセクレトグラニンＩ８８‐１３２の濃度の比率は、診断的パラメーターそれ自体である。その比率が１０／１から著しく逸脱する場合には、前立腺切除は達成された。図２２は、診断的パラメーターとしてのクロモグラニンＡ９７‐１３１及びセクレトグラニンＩ８８‐１３２の信号強度の比率の使用を例証する：１０／１の比率は、前立腺切除前の患者からの全試料に存在する。前立腺切除後の試料中には、この比率は存在しない、即ち、セクレトグラニンＩ／クロモグラニンＡ関係は"破断される"。

例４
この節は、"ランドマークペプチド"とも称される、代表的ペプチドの同定を例証し、また、前例で既に説明した６０００個のペプチド座標の７４個の観察の与えられたデータマトリックスに言及する。

２つのペプチド座標は、それらの信号強度のスペアマンの順位相関が│ｒ│＞０．８以上である場合に、関連されると見なされる。各ペプチドが異なったペプチド座標と共に有する関係数ｋは、図１８ａ中に示された表の第二行に示される。全ペプチド座標から、画分５４；ｍ／ｚ２７４３．０は最多の関係、即ち、ｋ＝２０を有する。従って、このペプチド座標は、優先化リストでＮｏ．１である。次いで、画分５４；ｍ／ｚ２７４３．０の信号分散は、２０個の関連ペプチド座標の信号強度から除去され、この際、式１、２及び３が適用される。次いで、画分５４；ｍ／ｚ２７４３．０のデータは、データマトリックスから除去される。図２３ａ及び２３ｂに示された表は、関連ペプチド座標上の画分５４；ｍ／ｚ２７４３．０の分散が除去された後に、図１８ａ及び１８ｂに示された表に与えられた値を示す。この過程は、配列されるべきペプチドの数が達成されるまで、配列優先化リストのための候補として次のペプチド座標を決定するために繰り返される。

例５
この例では、７４個の試料の４つの架空ペプチド座標の信号強度、それらの各質量‐対‐荷電比率及びそれらの画分数が与えられる（図１８ａ中に示された表参照）。その計算は、第５ペプチド座標Ｆ５３；ｍ／ｚ２８２３．０として使用する５個の架空ペプチド座標を用いて行なわれる。５つの信号座標の１つ、画分５４；ｍ／ｚ２７４３．０２９における架空ペプチドＨＰ２５‐４８は既に同定され、配列ネットワークモジュールの規則によって導かれ、残った４つの未知ペプチドの同定が提案される。

４つの未知ペプチド座標とＨＰ２５‐４８との相関の測度を、スペアマンの順位係数によってＣＡＮモジュール中で計算した：
ｒ（ＨＰ２５‐４８及びＦ２０；ｍ／ｚ１１１４．３）＝＋０．００
ｒ（ＨＰ２５‐４８及びＦ５４；ｍ／ｚ１３７１．５）＝＋０．９２
ｒ（ＨＰ２５‐４８及びＦ５６；ｍ／ｚ２９２７．３）＝＋０．８４
ｒ（ＨＰ２５‐４８及びＦ５３；ｍ／ｚ２８２３．０）＝＋０．８７
図２４ａ〜２４ｃ中で見られるように、かつ後記の低相関係数及びＭＳＴ直径によって、各々、Ｆ２０；ｍ／ｚ１１１４．３は、ＨＰ２５‐４８に関連されず、従って、ＨＰ前駆体タンパク質に関連されることは仮説されない。このペプチド座標についての提案の発生はこの点で終了する。

同様の方法で、ＭＳＴ直径を、相関の測度として計算した：
ＭＳＴ直径（ＨＰ２５‐４８及びＦ２０；ｍ／ｚ１１１４．３）＝２９（図２５ａ参照）
ＭＳＴ直径（ＨＰ２５‐４８及びＦ５４；ｍ／ｚ１３７１．５）＝５０（図２５ｂ参照）
ＭＳＴ直径（ＨＰ２５‐４８及びＦ５６；ｍ／ｚ２９２７．３）＝３０
ＭＳＴ直径（ＨＰ２５‐４８及びＦ５３；ｍ／ｚ２８２３．０）＝４０（図２５ｃ参照）
対照的に、ペプチド座標Ｆ５４；ｍ／ｚ１３７１．５、Ｆ５３；ｍ／ｚ２８２３．０及びＦ５６；ｍ／ｚ２９２７．３は、ＨＰ２５‐４８に高度に関連される（図２４ｂ、２４ｃ及び図２５ｂ、２５ｃ参照）。タンパク質ＨＰの前駆体の配列を用いる提案は、これらのペプチド座標に割り当てられ、本発明の配列ネットワークモジュールによる規則は、配列予想に適用される。

規則ａは、関連ペプチド座標がＨＰ２５‐４８のｎ‐荷電イオンであるかどうかを決定する。質量_偏差の計算は、ｎ＝１、２、３又は４及び、図４を用いて、図２６中に示された表に与えられた、Ｆ５４；ｍ／ｚ１３７１．５及びＦ５６；ｍ／ｚ２９２７．２６の質量‐対荷電比率で例証される。ｎ＝２質量_偏差＜質量_閾値＝０．５の場合におけるように、Ｆ５６；ｍ／ｚ１３７１．５は、ＨＰ２５‐４８の二重荷電イオンであることは高度に有望であり、従って、これは、ＨＰ２５‐４８²⁺、すなわち、ＨＰ２５‐４８の二重荷電イオンとして提案される。

規則ｂ〜ｉは、ここで、Ｆ５３；ｍ／ｚ２８２３．０及びＦ５６；ｍ／ｚ２９２７．３に適用される。規則ｂは、既知個性の画分Ｆ５４；ｍ／ｚ２７４３．０２９中のハブペプチドＰ１と未知ペプチドＰ２（ペプチド座標Ｆ５３；ｍ／ｚ２８２３．０）との相関が、翻訳後変性から導かれることを仮定する。この場合には、ハブペプチドＰ１及び未知ペプチドＰ２の質量差Ｍ_差＝│Ｍ_P1−Ｍ_P2│＝７９．９７１は、燐酸化又はスルフェート化によって引き起こされ得る（図９に示された表参照）。ＨＰ２５‐４８の、タンパク質及びペプチドの燐酸化能力を有するペプチドであるタンパク質キナーゼの認識配列モティーフでの整列は、仮説的タンパク質キナーゼＨＰＫＣの潜在的標的である"ＴＹＤ"に配列ＨＰ３５‐３７を同定する。従って、Ｆ５３；ｍ／ｚ２８２３．０についての提案は、ペプチドＨＰ２５‐４８の位置３６上のチロシン残基での１燐酸化を有するＨＰ２５‐４８である。

前記のように、未知ペプチド及び既知ハブペプチドが関連される場合には、未知ペプチドが、既知ハブペプチドと同じ前駆体タンパク異質から誘導され、従って、同じ前駆体配列を有することが仮説される。算法は、未知ペプチドＰ２の配列であってよい前駆体配列から潜在的に誘導される推定配列断片を提案するハブペプチドＰ１の前駆体配列中で、推定上の出発及び終止位置Ｉ及びＥを組織的に定義する（図８ｂ参照）。勿論、アミノ酸残基の質量プラスそれらのアミノ酸カルボキシ‐末端及びプラス潜在的翻訳後変性の質量の合計は、与えられた閾値Ｔ内での未知ペプチドＰ２の測定されたｍ／ｚ比率Ｍ_実測に適合するべきである。推定配列の質量は、Ｐ２の推定配列を有するアミノ酸残基の質量プラス水素及びヒドロキシル基の質量を合計することによって計算される。式５に適用される質量の模範的な値は、図１１及び１２中に示された表にある。

ハブペプチドとしてのＨＰ２５‐４８及びペプチド座標画分５６；ｍ／ｚ２９２７．３を有するＰ２で、配列ネットワークモジュールは、閾値Ｔ_質量＝０．５よりも低い質量偏差を有する、図２７に定義されたようなＨＰのタンパク質前駆体配列中の出発及び終止位置の可能な集合について検索する。

１つの可能な組み合わせは、潜在的ペプチドＨＰ２５‐５０に生じるＨＰのアミノ酸No．２５での出発位置及びアミノ酸No.５０での終止位置である：
式５中、

は、Ｍ_計算＝２９２７．３３７となる。

この提案は、Ｐ２についての提案のリストに加えられる。

配列ネットワークモジュールは、ここで、規則ｃ〜ｉを適用することによるＰ２のための提案ＨＰ２５‐５０の評価に取り掛かる。規則ｄでは、提案された配列Ｆ_計算のクロマトグラフィー画分が評価され、Ｐ２の実測ペプチド座標（Ｆ_実測）と比較される。Ｆ_計算が、分別のための閾値Ｔ_画分よりも少ないことによってＦ_実測から逸脱する場合には、提案は、２モデル適合点で判定される。式６"提案配列に基づく画分数の評価"を、ＨＰ２５‐５０に適用する場合には、計算画分は、Ｆ_計算＝５６になる。Ｐ２としてＨＰ２５‐５０が画分５６中に発見され、この提案のためのモデル適合点の数は、２点によって増加される。式６は、特殊ソフトウエアを用いる特殊ＨＰＬＣ‐カラム（特許出願ＷＯ０３／０４８７７５Ａ２に記載されているような）を用いて分離される脳脊髄液試料から起源するデータを用いる数学的モデルから実験的に発生された。勿論、異なった型の試料及び異なった分離法について、他の実験的に決定されるモデルが同じ方法で計算され得る。

規則ｅは、それらの出発‐位置がハブペプチドＰ１の出発位置に適合するＰ２のためのそれらの提案に報いる。Ｐ１ハブペプチドとしてＨＰ２５‐４８及び関連ペプチドＰ２のための提案としてＨＰ２５‐５０の場合には、提案ＨＰ２５‐５０は、３モデル適合点で報いられる。

規則ｆは、それらの終止‐位置がハブペプチドＰ１の終止‐位置に等しいＰ２のためのそれらの提案に報いる。これは、提案としてＨＰ２５‐５０での場合ではなく、従って、この規則はＰ２のためのこの提案のモデル適合点を増加させない。

規則ｇは、出発位置２５がアミノ酸配列"Ｒ‐Ｒ"（１‐文字アミノ酸コードで記載）によって先行されるように、３点によって提案ＨＰ２５‐５０のモデル適合点を増加させる。配列"Ｒ‐Ｒ"は、プロホルモン転換酵素の認識部位であり、これは、一般に、第二"Ｒ"後で開裂する。更に、規則ｇは、"Ｄ‐Ａ"配列が脳脊髄液中に存在するペプチド配列のための有利な出発の１つであるように、他の３点によってこの提案のためのモデル適合点を増加させる。規則ｆによって報いられる出発位置での常習的なタンパク分解的開裂の更なる部位は、当業者に周知である。

規則ｇは、未知ペプチドＰ２が既知ハブペプチドＰ１のＮ‐又はＣ‐末端タンパク質分解の生成物であり、逆も同様であることを仮定する。Ｐ１及びＰ２の質量差Ｍ_差＝│Ｍ_P1−Ｍ_P2│は決定され、かつ前駆体配列ＨＰ中のＰ２の出発‐及び終止位置を先行又は後続するアミノ酸の質量と整列される。Ｐ１としてＨＰ２５‐４８及びＰ２としてＨＰ２８‐５０の例では、質量差はＭ_差＝１８４．２であり、Ｐ１の終止位置を後続するアミノ酸"Ｉ‐Ａ"（Ｍ_I＋Ｍ_A＝１８４．２）によって説明され得る。従って、Ｐ２はモデルに適合し、Ｐ２のためのこの提案のモデル適合点は、３点によって増加される。

明白にも、規則ｃ〜ｉを、任意の順序で試験することができ、規則は生物学的考慮を省くことができるが、これらの規則の任意の組み合わせ及び任意の省略は、なお本発明の範囲内である。

前記の方法は、ＨＰ２５‐４８と関連される全ての未知ペプチド座標Ｐ２について繰り返され得る。

例６
この例は、相関‐連合‐ペプチドネットワークと脳脊髄液中のペプチダーゼ及びプロテアーゼの有望な開裂部位の認識とを組み合わせることによる、本発明による方法と関連する利点を示し、その結果、極めて正確に未知ペプチドの配列を予想する事ができるモデルが得られる。この研究をベースとして、例えば、ペプチド配列の同定を優先させることができ、新規の試料給源のペプチド内容物の速やかな概要を得ることができる。

脳脊髄液（ＣＳＦ）は、脳の多くの部分と緊密に接触している。ＣＳＦは、中枢神経系への安定した化学的環境を保つことを目的とし、脳代謝産物を除去する経路である。ＣＳＦは、中枢神経系内で多数の生物学的活性物質を流通させる。ＣＳＦが脳の生理学的及び病理生理学的症状を反映し、従って、ＣＳＦからのペプチドが潜在的な診断的及び治療的標的分子の給源を表わすことを仮定することは受け入れられる。

ここで、ＣＳＦからのペプチドの相関反応を分析し、同じタンパク質前駆体からもっと詳細に引き出し、かつ未知ペプチドの推定配列の予想のための相関的依存を利用する。ペプチド‐対‐ペプチドペアの既知ペプチド及び未知ペプチド信号は、共通のタンパク質前駆体を有することを仮定する場合には、既知タンパク質前駆体配列を、未知ペプチドの質量に相応する質量を有する信号の発生を説明し得るタンパク質分解開裂について分析する。ＣＳＦ中のペプチダーゼ及びプロテアーゼの可能な開裂部位の統計的分析（ＣＡＮ）及び認識の組み合わせが、タンパク質前駆体に、又は配列にさえも、未知ペプチド信号を適正に割り当てるための高度の予想力を有するモデルを生じさせ、従って、配列されるべきペプチドの数を減少させることが示される。

地方倫理委員会（the local ethics committees）による認可後に、インフォームドコンセントの書類がこの研究に関係する患者から得られた。ヒトＣＳＦを、認知障害のない神経患者（ｎ＝３９）及び痴呆、例えば、血管性痴呆、レビー‐小体（Lewy-body）痴呆、前頭側頭葉痴呆又はパーキンソン病を病む患者（n＝２７）から腰椎穿刺によって収集した。全ＣＳＦ試料を、試料変化の危険を最少にする緩和な条件を用いて調製した。液体を、吸引せずに、かつ血液汚染を避けて収集した。試料を２０００ｇで１０分間遠心分離させ、上澄液を、分析まで−８０℃で貯蔵した。

ペプチドを、逆相Ｃ１８クロマトグラフィーで分離した。ＣＳＦ３００〜１５００μＬを水１：３．７５で溶離させ、ｐＨを２〜３に調整した。試料をＲＰシリカカラム（２５０ｘ４ｍｍカラム、Vydac, Hesperia, CA, USA; HP-ChemStation 1100 Agilent Technologies, Palo Alto, CA, USA）上に装填させた。保留ペプチドを、０．０５％トリフルオロ酢酸中のアセトニトリル勾配（４〜８０％）で溶離させ、９６個の画分に集め、凍結乾燥させた。溶離液をＵＶ検出で監視した。繰り返し装填された抽出物からの大部分のペプチドピークの保持時間は、この方法の再現性を確認するために使用された。

凍結乾燥後に、各ＨＰＬＣ画分をマトリックス溶液（０．１％アセトニトリル／トリフルオロ酢酸（１：１ｖ／ｖ）中のα‐シアノ‐４‐ヒドロキシ桂皮酸及びＬ‐フコース（コ‐マトリックス）の混合物中に再懸濁させ、マトリックス‐補助レーザー‐脱着／イオン化（ＭＡＬＤＩ）標的に適用させ、次いで、環境温度で空気乾燥させた。試料イオン化は、試料スポットの代表的範囲をおおう繰り返しの単一レーザー発射を適用して行なわれた。加速されたイオンを、飛行時間（time-of-flight）（ToF）質量分光計（Voyager - DE STR, Applied Biosystems, Framingham, MA, USA）で、直線モードで分析した。

関係対象のペプチドを、ナノESI-qTOF-MS/MS（QSTAR pulsar, Sciex, Toronto, Canada）を用いる質量分析法配列化によって同定し、その後に、タンパク質データベース検索した。生じるペプチド断片スペクトルは、プロダクトイオンスキャンモードで捕捉された（スプレー電圧９５０Ｖ、衝突エネルギー２０〜４０ｅＶ）。１試料当たり、２００スキャンまで累算した。データベース検索に先立つデータ処理は、荷電‐状態脱‐回旋（BioAnalyst program package, Sciex, Concord, CanadaのBayesian reconstruct tool）及び脱‐同位元素化（customized Analyst QS macro; Sciex, Concord, Canada）を含む。生じたスペクトルを、MASCOT（Matrix Science, London,UK）一般ファイルフォーマット中に蓄積させ、かつMASCOT検索機関に付託した。スイス‐プロット（バージョン３９以上、www.expasy.ch）及びMSDB（バージョン030212以上、EBI、Cambridge、UK)での数回の翻訳後変性を含む段階的検索を、配列決定の他に、ペプチドの配列内のそれらの位置の決定と同様に、変性化アミノ酸の同定を可能にするMASCOT DAEMONクライアント（バージョン1.9、Matrix Science）によって行なった。

クロマトグラフィーの同じ画分数を有する全質量スペクトルを、ベースライン‐修正で平均させ、全９６個の平均質量スペクトル画分を、"２Dゲル‐様"フォーマット（ペプチド表示）で映像化させ、平均ペプチド表示を得た（図２８参照）。各ピーク（質量分析法信号）は、測定されたペプチドの相対量に一致する、相応するMALDI‐ピークの信号強度に相応するそのグレー‐スケール強度を有するバーとして描かれる。ｘ‐、ｙ‐及びｚ‐軸は、質量対荷電比率（ｍ／ｚ）、クロマトグラフィー画分及び質量分析法信号強度を各々表わす。質量は、１０００〜１５０００ｍ／ｚ比率の範囲である（ｘ‐軸）。個々のペプチド表示のデータマトリックスは、１６００万データ点を含み、その内の、ノイズに与えられた信号比率については、信号座標は取り出される。従って、全試料について、信号座標の同じ集合が存在し、統計的分析に使用される。

捕捉されたMALDI-ToF‐質量スペクトルのデータ前処理は、一定の整数値への質量スペクトルの正規化と組み合わせた、ベースライン修正（RAZOR Library 4.0, Spectrum Square Associates, Ithaca, NY, USA）を適用して行なわれた。単純性及び均一性のために、全ｍ／ｚ‐比率を、非荷電分析物の平均質量として定めた。必要な場合には、データは、このフォーマットへのｍ／ｚ‐比率データの変換によって、モデルに有効に作成された。

全ペプチド‐対‐ペプチド関係の分析のために、相関の計算は、患者試料のペプチド表示中の任意の既知ペプチド座標に対して、全ての存在する（未知の）ペプチド座標集合データの信号強度（即ち、相対ペプチド量）で行なわれた：２つのペプチドの任意のペア‐法関係は、全試料中のそれらの各信号強度のスペアマンの順位相関によって評価された。ｍ／ｚ比率、クロマトグラフィー画分及びスペアマンの順位相関係数と組み合せたペプチドペアは、ローカルペプチド‐対‐ペプチドデータベース中に蓄積された。

自動化研究で、全ペプチド座標は、ペプチド配列データベースで個々に質問された。次の規則が適用された：
・各ペプチド座標について：
・与えられた閾値内での質量‐対‐荷電比率及びクロマトグラフィー画分に適合するためのペプチド配列データベースへの登録のための検索。
・ペプチド座標がペプチド配列データベース中に発見された場合：
・ペプチド座標の情報を検索する（配列、平均質量、名称、前駆体タンパク質、前駆体タンパク質上の出発‐終止位置、前駆体タンパク質配列）。
・同定の個々のリストにおける蓄積情報。

ここで、この同定リストの一員は、その後の相関分析のために"ハブペプチド"として利用される。
・ペプチド配列データベースへの登録を有する各ペプチド座標（＝ハブペプチド）について：
・ペプチド‐対‐ペプチドデータベース中の与えられた閾値以上の相関係数を有するペプチド座標を検索し、そうしてハブペプチドのＣＡＮの一員となることによって個々の相関連合ネットワークを生成させる。
・ＣＡＮの各員について：
・ＣＡＮ員のペプチド座標が、ペプチド配列データベース中に発見されなかった場合：
・ＣＡＮ員ペプチド座標の質量‐対‐荷電比率に概算的に適合する推定配列についてのハブペプチドのタンパク質前駆体配列を分析する：タンパク質前駆体配列上の出発‐及び終止位置を置換させ、同時に、推定配列のアミノ酸残基の質量を合計することによって、質量の正確さの範囲内で（ここでは：５００ｐｐｍ以下）ＣＡＮ員ペプチド座標の質量‐対‐荷電比率に適合する推定配列のリストを作成する。
・生成されたリスト中の各推定配列について：
・ボーナス点で推定配列を評価する（規則は後記参照）。
・ボーナス点の数により推定配列を評価する。
・各ペプチド座標について
・Top３推定配列の存在。

ボーナス点の決定は、更に後記で説明される。

ａ）前駆体配列上の推定ペプチド配列のアミノ‐末端／カルボキシ‐末端開裂部位前／後のアミノ酸残基が、次のアミノ酸残基（１文字コード）に相応する場合には、提案は、各ボーナス点（bpt）を授与される：
１．アミノ‐末端開裂部位前：Ｍ：２bpt；Ｒ：５bpt
２．アミノ‐末端開裂部位後（Ｎ＋１）：Ｄ：３bpt Ｍ：２bpt
３．カルボキシ‐末端開裂部位前（Ｃ−１）：規則なし
４．カルボキシ‐末端開裂部位後（Ｃ＋１）：Ｋ：３bpt Ｒ：４bpt
ｂ）前駆体配列上の推定ペプチド配列のアミノ‐末端／カルボキシ‐末端開裂部位前／後のアミノ酸ペアが、次のアミノ酸ペアに相応する場合には、提案は、各ボーナス点（bpt）を授与される：
１．アミノ‐末端開裂部位前：ＫＲ：１８bpt；ＲＲ：２２bpt
２．アミノ‐末端開裂部位後：ＤＡ：４３bpt ＧＲ：１１bpt
３．カルボキシ‐末端開裂部位前：ＧＡ：２０bpt ＱＫ：２０bpt
ＶＮ：１６bpt
４．カルボキシ‐末端開裂部位後：ＫＲ：２２bpt
ｃ）推定配列が既知ハブペプチドと同じ出発位置を有する場合には、この配列の提案は６９ボーナス点を授与される。推定配列が既知ハブペプチドと同じ終止位置を有する場合には、この配列の提案は６３ボーナス点を授与される。

ボーナス点の決定は、更に後記で説明される。

６６個の独立したＣＳＦ試料のペプチドーム（peptidome）は、クロマトグラフィー分離（９６個の画分）と後続する質量分析法との組み合わせを用いて分析され、7104 MALDI-ToF前処理質量スペクトルを有するデータベースに導かれた。同じ画分数を有する全質量スペクトルは平均され、平均化ペプチド表示を生じさせた（図２８参照）。３１個のタンパク質前駆体からの１３９個の異なったペプチドが、６６個のＣＳＦ試料と同様の方法で実施されるＣＳＦ‐調製からの配列決定よって先立って同定された。ペプチド座標は、平均ペプチド表示上に位置された。豊富なペプチドが、１以上の画分で発見されたので、１３９個のペプチド座標の代わりに２２４個が位置された。２２４個のペプチド座標のMALDI質量分析法信号強度は、６６個の試料の各々で決定された。スペアマンの順位相関分析は、２２４²／２個のピーク信号強度の相関となる、任意に与えられた信号‐対‐信号の組み合わせについて行なわれた。

詳細に前記されたように、ネットワークは、関係対象のペプチド、いわゆる、ハブペプチド及びこのペプチドと高度に相関し、任意に定義された相関閾値を超過することによって全ペプチドから選択されるペプチドの集団として定義される。この概念は、VGF及びアルブミンペプチドの２つのネットワークによって例証される：相関閾値│ｒ│≧０．６８で計算されるハブペプチドとしてのVGF２６‐５８のネットワーク（図２９参照）は、VGF前駆体タンパク質の数個の領域から誘導されるペプチドを集める（図３０参照）。相関閾値│ｒ│≧０．６７で計算されるハブペプチドアルブミン２５‐４８を有するネットワーク（図３１参照）は、アルブミンタンパク質前駆体のアミノ‐末端領域から誘導されるペプチドを主に含有する。VGF２６‐５８及びアルブミン２５‐４８のネットワークの観察は、相関の閾値が著しく高い場合には、ネットワークは同じタンパク質前駆体から誘導されるペプチドを主に含有するという仮説を生み出す。この仮説は次のように試験された：２２４個の信号座標のネットワークは、相関係数の閾値の増加と共に生成された（図３２参照）。これらのネットワークの一員は、ハブペプチド及びESI-MS/MSによって先に定義されたペプチドと適合した予想を含有する、同じ前駆体タンパク質からの誘導体として予想された。図３２の表は、タンパク質前駆体の正及び偽の予想の数を挙げる：相関の高い閾値での予想は、前駆体タンパク質の少ない予想を生む；相関係数の低い閾値での予想は、前駆体タンパク質の数百の予想を生む。前駆体予想の正当性は│ｒ│≧０．９５で１００％に達し、相関のより低い閾値では急速に減少する。

ネットワークのどの一員も、未知信号座標の配列を実験的に決定せずに、同じタンパク質前駆体から誘導されることが仮定された。従って、その前駆体タンパク質配列上の出発‐及び終止位置は、組織的に順序を変え、かつ繰り返して、推定のペプチド配列を生じさせた。図３３は、タンパク質前駆体上のペプチドの出発及び終止のための命名法の概要を与える。５００ｐｐｍよりも少ない与えられた質量許容誤差内で、未知ペプチド座標のｍ／ｚ‐比率に適合する推定配列を生じさせる出発‐／終止‐位置の任意の組み合わせは、妥当な提案として考慮された。この必須基準を遂行しない組み合わせは拒絶された。次の調査は、若干の妥当な提案が他よりももっと有望であることを示し、それというのも、それらの出発‐／終止位置が、多分、ヒトＣＳＦにおける開裂部位であるからである。提案が、次の基準の１つ以上に合する場合には、そのボーナス点は増加させる。

ペプチドは、タンパク質分解酵素によるペプチド結合の開裂によって生じられる。これらのプロテアーゼは、開裂が起きる特異的部位を認識する（アミノ酸配列モティーフ）。特定アミノ酸の機能としての開裂の確率及び開裂部位に関係するアミノ酸の位置は、調査され、かつ全前駆体配列中の任意の位置での各アミノ酸の発生と比較された。図３４中の表は、１３９個のペプチドを載せる集合データから得られる結果を示す。例えば、全ペプチドの３１％で、アルギニン基（Ｒ）はアミノ‐末端開裂部位に先行するが、観察される前駆体配列のアルギニンの平均含量は６％に過ぎない。アルギニン基がＮ‐１位で発見された場合には、開裂の確率は５倍増加されたことが結論づけられた。規則は、関係対象の位置で異なったアミノ酸を検討することを定義された：開裂の確率のｘ‐倍の増加は、ｘボーナス点を授与された：例えば、Ｎ‐１でアルギニンでの提案のボーナス点の得点は、確率の５‐倍増加を反映する５点で増加された。規則の数は、モデルの過度の適合超過を避けるために制限された：１つの規則は、少なくとも５つのペプチド及び確率の２倍の増加に基づくべきである。

単一アミノ酸の調査のほかに、アミノ酸ペアを、開裂の確率を増加させるその影響について調査した。アミノ酸ペアの機能としての開裂の確率及び開裂部位に関するそのようなペアの位置が調査され、かつ全前駆体配列中の任意の位置での各アミノ酸ペアの発生と比較された（図３５中の表参照）。例えば、アルギニン‐アルギニン基（ＲＲ）は、アミノ‐末端開裂部位前のペプチドの１８／１３９＝１２．９％で発見されたが、ＲＲは、任意の他の位置で３９８／６８５１６＝０．５８％で発見されただけであった。従って、ＲＲ後の開裂の確率は、１２．９％／０．５８％＝任意の位置に比較して２２倍増加である。従って、ＲＲ前アミノ‐末端開列を考慮する規則は、相応する提案のボーナス点の得点を２２ボーナス点によって増加させる。こうして規則は、関係対象の位置でのアミノ酸ペアを考慮して定義された：確率のｘ‐倍の増加は、ｘボーナス点を授与された。それでもなお、規則は、少なくとも５つのペプチド及び確率の１０−倍の増加に基づかなければならず、そうでなければ、それは拒絶される。

多くの関連ペプチドは、ＶＧＦ２６‐５８、ＶＧＦ２６‐５９、ＶＧＦ２６‐６１及びＶＧＦ２６‐６２（図２９＆３０＃１、＃４、＃５、＃８、＃９参照）又はアルブミン２５‐４８、アルブミン２５‐４５及びアルブミン２５‐５０（図３１＃１、＃４／＃５、＃２、＃８／＃９参照）によって例証されるような前駆体タンパク質上の同じ出発位置を有することが判明した。同様に、関連ペプチドの多くの配列は同じ終止位置で終止する：ＶＧＦ２５‐５９及びＶＧＦ２６‐５９（図２９＆３０＃４／＃５、＃７参照）又はアルブミン２７‐５０（図３１＃６／＃７参照）及びアルブミン２５‐５０（図３１＃８／＃９参照）。集合データ中の同じ前駆体からの全ペプチドの１４．１％が、同じ出発位置を有し、かつ１２，７％が同じ終止位置を有する。偶然に同じ出発‐又は終止‐位置を有する２つのペプチドの確率は、１／ｎであると仮定され、この際、ｎは前駆体の長さである。集合データ中で、ｎ＝４９２の平均前駆体長さでは、確率の増加は、同じ出発‐位置を有する２つのペプチドについて６９倍であり、同じ終止位置を有する２つのペプチドについては６３倍であった。従って、ハブペプチドと同じ出発‐位置での提案は、６９ボーナス点を授与され、同じ終止‐位置でのそれらは６３ボーナス点を授与された。

前記の規則の適用は、ESI-MS/MSによって実証される２つの提案によって例証される（図３６中の表参照）：モデルに従って、既知ペプチドＶＧＦ２６‐５８は、ＶＧＦ２６‐６２のようにｍ／ｚ_平均３６８８．０を有する未知ペプチド座標を予想し、それというのも、推定配列の計算ｍ／ｚ‐比率は、実測ｍ／ｚ‐比率に適合するからである（必要条件）。ハブペプチド及び推定配列は、同じ出発位置を有し（＋６９ボーナス点）、推定配列は、アルギニン基の前で終止する（＋４ボーナス点）（図３０＃１、＃４参照）。更に、ＶＧＦ２６‐５８は、ＶＧＦ３５０‐３７０のように、ｍ／ｚ_平均２４１９．４１を有する未知ペプチド座標を予想する。推定配列の計算ｍ／ｚ‐比率は、実測ｍ／ｚ‐比率に適合し（必要条件）、単一アルギニンは先行し（＋５ボーナス点）、二塩基部位ＲＲは推定配列に後続する（＋２２ボーナス点）（図３０＃１、＃３参照）。

前記モデルの予想力を評価するために、ESI-MS/MSによって同定された１３９個のペプチドを、７０個のペプチド群に分割し、それを、その配列個性が予想過程中に抑制された６９個のペプチドの第二群の予想のために使用した（図３７参照）：全２２４個の単一座標について、相関連合ネットワークを、相関係数│ｒ│＝０．７５で計算した。７０個の単一座標を、前駆体タンパク質、出発‐及び終止位置及び、従って、単一座標の配列を予想するために使用し、これらは、相応に予想するハブペプチドのネットワークの一員であった。任意の単一座標について、殆どのボーナス点が頂点にある提案を有する３つまでの提案が挙げられた。複雑性水準の増加した６つのモデルを、前駆体タンパク質、出発及び終止位置の予想でそれらの力に関して比較した（図３８中の表参照）。６９個のペプチドの第二群についての予想を、ESI-MS/MSによって同定した。統計学は、任意の蓄積提案及び最多のボーナス点を有する提案について区別した：全モデルにおいて、正しく予想された出発及び終止位置の％は、全提案のそれらに比較される最多のボーナス点を有する提案についてより良好である。正しい前駆体配列及び出発‐／終止‐位置の％は、モデルの複雑性と共に増加した。単一アミノ酸及びアミノ酸ペアの近くの２つの開裂の確率を考慮する規則の２組を組み合わせたモデル５は、規則の１組だけを適用したモデル２及びモデル３よりも良好な結果を生んだ。最良の結果は、前記の全規則、特に、最多のボーナス点でのそれらの提案を組み込んだモデル６によって達成された：全提案の８５％は、前駆体配列、出発‐及び終止位置に関して正しく、全提案の８９％は、正しいタンパク質前駆体予想を生み、たったの１１％は２つとも悪かった。

従って、前記の例は、関連ペプチドが自動的にＣＡＮｓによって分類されることを示す。基礎にある算法は、先に、ＣＳＦ−誘導ペプチドについて前記したように、連鎖過程の異なった段階からのペプチドの濃度が保存比率を表示することができるという事実を利用する。関連ペプチドのこれらの保存比率は、ＣＡＮ相関の定義の基礎であるスペアマンの順位相関分析によって確実に発見された。その結果は、ＣＡＮｓが、ペプチド過程の中間生成物を自動的に分類するために使用され得ることを示す。相関係数の高い閾値で、予想数は低いが、各々高度の正確性を有する。閾値を減少させることは、偽の予想の数を増加させ、最後に正しい予想を上回せることになる。本例は、ネットワークの一員が同じタンパク質前駆体だけから誘導されるネットワークを、厳密な閾値が生じさせるという仮定／条件に基づいた。これは、未知ネットワーク員の配列の予想のための本質的基本であった。ネットワークは質量分析法データに基づくので、全ペプチド信号は、それらの質量‐対‐荷電比率によって特徴付けられた。先に配列されたハブペプチドのタンパク質前駆体配列上の出発及び流れを下り終止位置を繰り返すことによって、推定ペプチド配列は発生され、かつ選択された未知ＭＡＬＤＩ質量分析法ペプチド信号の実験的分子量に適合した。直線モードのＭＡＬＤＩ‐ＴｏＦの５００ｐｐｍ以下の質量の正確さは、簡潔な選択のための前駆体の出発‐及び終止位置の理論的組み合わせの圧倒的な数を減少させるために十分である。推定配列は、ヒトＣＳＦにおける実測のタンパク質分解開裂パターンと組み合わせた、推定のタンパク質前駆体の配列に基づくモデルによって評価された。この研究で、翻訳後変性は考慮されず、可能な予想のための自由度をかなり減少させた。しかし、翻訳後は、他の変性と同様に、一般にペプチド信号での相関の検索に使用され得る。

異なった規則集合及びその組み合わせに基づいて構築された６つのモデルを試験した。タンパク質前駆体の開裂は、配列‐及び組織‐特異性であるので、ヒトＣＳＦ中のプロテアーゼの配列特異性を調査した：アミノ酸ペア、"モティーフ"、４つの位置で、アミノ‐末端及びカルボキシ‐末端前及び後開裂部位を、開裂パターン分析について区別した（図３８）。

配列予想に適用される前記の規則は一般的であり、それというのも、それらは与えられた場合の確率のｘ‐倍の増加に基づいていて、各提案をｘボーナス点で得点をつけるからである。ボーナス点を合計することによって各規則を組み合わせることは、基本的に予想の正確さを増加させた。このことは、異なった研究の規則が相補的で矛盾しないことを確認する。ボーナス点の重要度は、各単一パラメーターについての各定義により、著しく異なった。

しかし、算法が他の試料マトリックスに適用される場合には、示された規則は、多分、再定義されるべきである。その規則は、これらの他の試料マトリックスを実験的に用いて決定され得る。また、ペプチド配列の予想のための使用に先行して、偽の正の比率を決定するために、与えられた集合データ中のパラメーターｒ及びボーナス点を、既知ペプチドで試験することが推薦される。パラメーターは、偽の正の比率及び予想数が実験的目的の計画及び要求に適合するまで再調整されるべきである。

１組の特異的規則の定義のために、統計的分析及びペプチド生物学の組み合わせの結果として、高い正確さを有するペプチド配列を予想する有望なモデルが考慮される。ボーナス点のシステムは、モデルに最も適合した予想を選択するために使用された。ボーナス点の最高得点での提案は、ＥＳＩ‐ＭＳ／ＭＳ同定と比較され、タンパク質前駆体の８５％、出発‐及び終止位置及び前駆体タンパク質の８９％だけを正しく予想することが判明した。更なる改善は、３０ｐｐｍ以下の質量正確さ及びモデルを再定義するためのより広い配列範囲を有するリフレクトロン（reflectron）モードでのＭＡＬＤＩ‐ＴｏＦ測定法を用いることによって期待される。

この概念の証明（proof-of-concept）研究の有望な結果の帰結として、新規試料給源のペプチド内容物の迅速な概要が得られるべきである場合には、次の方法が提案される：新規試料給源のペプチド座標は、代表的ペプチド表示に基づき定義される。その後に、関連ペプチド座標は、任意のペプチド座標のＣＡＮを計算することによって決定される：最多のネットワーク員を有するハブは、多数の他のペプチド座標に関連され、従ってこれは最多の代表的な１つであると考えられる（Lamerz et al., 2005, Proteomics, 5:x-xx）。これらのペプチド座標は、最初に定義されるべきである。これらの同定に基づき、ＣＡＮは、残留している非定義のペプチド座標の配列を予想するために使用される。モデルによって適当に記載されるペプチド信号座標の同定は、後回しにされる又は同定リストから捨てられ、それほど豊富ではないペプチド又はモデルによって不満足に記載されたペプチドの同定については、より多くの給源を残す。この方法は、過程中に発生される付加的な配列情報で数回繰り返すことができ、ＭＳ／ＭＳ同定作業を減少させるが、一方で、新規試料給源の内容物で、比較可能に深い洞察を達成する。

ペプチド配列の翻訳後及び他の変性は、例えば、燐酸化、脱燐酸化、酸化、還元、グリコシル化、脱グリコシル化、アセチル化及びペプチドについて公知の他の変性に特徴的又は感受性の特異的モティーフについて、ハブペプチドの配列をスキャンすることによって包含され得る。その後に、ハブペプチドとその関連ペプチドとの間の質量差を、質量差が各翻訳後変性に相応するかどうかを評価するために分析する。このことは、ＰＲＯＳＩＴＥ（Falquet et al., 2002, Nucleic Acids Res. 30:235-238）に論じられているように、多くの、それどころか何千のモティーフの実施を暗示し、そのスキャンニング過程はコンピュータ処理で苦心し得る。

例７
また、ＣＡＮｓは、生体マーカーの代理の発見に利用され得る。全アルブミン分子は、脳関門（血液‐脳関門、血液‐ＣＳＦ関門）の完全性を決定するための金本位制として診断法で日常的に使用される。ＣＳＦ及び血液中のアルブミン濃度の比率"アルブミン比率"は、関門破壊の範囲と相関し（Reiber et al., 1980, J. Neurobiol., 224:89-99）、"血液産出"ペプチド及びタンパク質のＣＳＦへの転移を増加させる。先行の作業は、ヒトアルブミンのアミノ酸２５‐４８を表わすアルブミンペプチドが、損傷脳関門のマーカーとして用いられることを示す（Heine et al.,2002,J. Chromatogr. B Analyt. Technol. Biomed. Life. Sci. 782(1-2):353-61）。この例を介して（図３９及び４０参照）、ハブペプチドとしてアルブミン２５‐４８ペプチドの使用によって計算されるＣＡＮ員は、アルブミン２５‐４８ペプチドのように脳関門の破壊を評価するための代理マーカーと同じ能力を有し、従って、そのＣＡＮｓは、既知マーカーの代理マーカーを同定することに好適であることが示される（このアルブミン２５‐４８の場合において）。

このことは、血液‐ＣＳＦ関門の異なった重大な破壊を有する患者から採取しされた、十分に考証されたＣＳＦ試料を用いて、独立した実験的設定で試験された。その後に、アルブミン２５−４８についてこれらの潜在的代理を同定するために、同定される代理を、先行の作業で記載された原集合データで検索した（heine et al., 2002, J. Chromatogr. B Analyt. Technol. Biomed. Life. Sci. 782(1-2): 353-61）。提案された代理（図３９及び４０参照）は、先行の作業で分析された患者の損傷脳関門を診断することに好適である（heine et al., 2002, J. Chromatogr. B Analyt. Technol. Biomed. Life. Sci. 782(1-2): 353-61）ことが確認された。このことは、本発明で請求されるように、そのＣＡＮｓが、既知マーカーの代理を同定することに好適であることを示す。

本発明で行なわれる研究に使用される試料は、例えば、血管性痴呆、レビー‐小体（Lewy-body）痴呆、前頭側頭葉痴呆、パーキンソン病、鬱病、腰痛、顔面麻痺、めまい、多発神経障害又は視神経炎を病む７４人の患者から腰椎穿刺によって集めたヒトＣＳＦであった。

これらの試料は、例６での試料と同じ条件下に、逆相クロマトグラフィー及びＭＡＬＤＩ質量分析法によって分析された。ハブペプチドとしてのアルブミン２５‐４８は、２５個の異なるペプチド信号との強い相関（│ｒ│＞０．７５）を表示し、かつ、最も重要では、当業者に公知であるような標準アルブミン‐ＥＬＩＳＡ試験を用いて決定された新規の試料集合におけるアルブミン比率との著しい相関（│ｒ│＝０．７３）を表示した。全ネットワーク員は、アルブミン商と正相関し、かつ２５個の中から１６個が有効水準（│ｒ│＞０．７、ｎ＝９、ｐ＜０．０５）に達したことが判明した。血液‐ＣＳＦ関門破壊の測度として、確立されかつ受け入れられたアルブミン比率とのこの正相関は、ＣＳＦ中の予想されたペプチド‐対‐ペプチド関係の正当性を示す。その後に、５個の顕著なネットワーク員は、アルブミンの構造的に類似のアミノ‐末端断片、つまり、アルブミン２５‐４８、アルブミン２５‐５０、アルブミン２５‐５１及びアルブミン２７‐５０として、配列化によって同定された。アルブミン２５‐４８ＣＡＮの新規ペプチドα‐１‐アンチトリプシン３９７‐４１８は、むしろ、アルブミン断片それ自体（│ｒ│＝０．７３）より強く、アルブミン商に相関した（│ｒ│＝０．８３）。アルブミンＣＡＮの一員としてのα‐１‐アンチトリプシン３９７‐４１８の同定は、診断的高能力を有する新規の化学的に無関連のペプチド代理の同定のための、請求された方法論の効力を強調する。重要なことに、全タンパク質としてのα‐１‐アンチトリプシンは、既に、ＣＳＦ中のアルブミンと血清中のそれとのの比率の評価によって決定される、血液‐脳関門での障害と直接相関するタンパク質として記載されていて（Pearl et al., 1985, Arch. Neurolo. 42: 775-777）、更に、ＣＡＮｓが既知マーカーの代理を予想することに好適であることを支持する。

当業者は、ＣＡＮｓの適用範囲が、成分、例えば、二次元ゲル（２Ｄ‐ゲル）からのデータの半‐定量的分析を可能にする任意のプロテオミック（proteomic）研究に拡張可能であることを、前記のことから認識する。そのようなペア法では、成分の相関係数は計算され得るが、汚染タンパク質から誘導されるスポットの含有を避けて、スポット個性を証明することは最大に重要である。ここで、ペプチドミクス（peptidomics）ＣＡＮの二次元の精度、即ち、ＲＰ‐ＨＰＬＣ（通例、１％より良好）及びＭＡＬＤＩ‐ＭＳ（通例、１００ｐｐｍより良好）のクロマトグラフィー画分が、２Ｄ‐ゲル電気泳動法によって得られる分離より遥かに優っている（Schulz-Knappe et al., 2001, Comb. Chem. High Throughput. Screen., 4: 207-217）。他方で、本発明の例中に記載された研究に基づくＣＡＮｓは、タンパク質＜１５ｋＤａに制限されるが、２Ｄ‐ゲルに基づくＣＡＮは、より大きいタンパク質のネットワークにアドレスすることもできる。

また、ＣＡＮｓは、同位体‐コード化親和標識（Isotope-Coded Affinity Tag）（ＩＣＡＴ）質量分析法実験から、ペプチド及びタンパク質数量化データに適用可能である。ＩＣＡＴ実験で、試料中に存在するペプチド及びタンパク質は、システイン基に特異的に結合する反応基を通じて同位体で標識化される。低分子量（ペプチドーム）領域で、ＩＣＡＴ標識化に必要なシステインを含有しないペプチド及び小タンパク質の数は、プロテオミックス分野に高度に比較され、従って、ＩＣＡＴの効力を減少させる。新規標識、例えば、応用生体システム（Applied Biosystems）、Foster City, CA, USAによって開発されたアミン特異的同位体標識化技術であるｉＴＲＡＱは、ＣＡＮ実験における全小タンパク質／ペプチドの検出を可能にする。

また、ＣＡＮｓは、タンパク質又はペプチド含有試料のトリプチック（tryptic）消化からのデータの解釈を支持することが考慮される。ここで示されたＣＡＮ法は、未消化の、天然ペプチドに基づくが、トリプチック消化後の同じ前駆体から誘導される、異なったペプチド種の類似群団化が可能である。本発明は、有利な実施態様に関して記載されたが、次の特許請求に定義されるような本発明の範囲から逸脱することなく、形及び詳細で様々な変化又は変性が成され得ることは当業者によって理解される。

例えば、本発明は、有利に、ペプチドを潜在的に含有する試料、例えば、動物、植物、菌類、人間、寄生虫、微生物、例えば、細菌、酵母、ウイルス等からの試料、食物又は他の農産物、例えば、肉、牛乳、穀粒、野菜、羊毛、木綿、絹からの試料、ペプチドを含有する化粧品又は他の製品、例えば、クリーニング剤（しばしば、タンパク質分解酵素を含有する）からの試料等の全種類で基本的に利用され得ることが容易に明らかである。試料は、例えば、血漿、血清、血‐濾液、全血、血液細胞、組織試料、試験管内生長細胞、細胞培養上澄液、尿、脳脊髄液、リンパ液、つば、涙液、腹水、細胞オルガネラの製剤、組織ホモジネート又はウイルス、微生物、寄生虫、多細胞生物、動物、菌類又は植物等のホモジネート、又はそれらの組み合わせであってよい。組み合わせの例は、微生物で汚染された又は製薬学的物質で処理された試験管内培養細胞、微生物で汚染されたヒトの組織試料、微生物を含有する食物製品、食物又は化粧製品中に存在するペプチド又はペプチド混合物で処理された細胞の組織培養上澄液等である。

情報の流れを示した説明図である。ＮＡＬＤＩ‐ＴｏＦ‐質量分析法による平均ペプチド質量指紋の映像である。関連するペプチドの相関スペクトルのトレースである。本発明による相関連合ネットワークを示す説明図である。本発明によるＣＡＮモジュールの適用の方法段階を示すフローチャートである。試料の典型的なペプチドトポロジーの映像を示す。本発明によるＣＡＮモジュールと配列ネットワークモジュールとの相互作用の方法段階を示すフローチャートである。適合検査方法を示すフローチャートである。配列予想の発生を示すフローチャートである。質問方法を示すフローチャートである。質問方法の繰り返しを示すフローチャートである。ペプチドの単一同位体及び平均質量変化を示す表である。変性化ペプチドの平均質量差を示す表である。アミノ酸の特性を示す表である。ペプチドの特性を示す表である。ペプチドの画分シフトに関する表である。アミノ酸のＮ‐末端開裂前に関する表である。アミノ酸のＮ‐末端開裂後に関する表である。アミノ酸のＣ‐末端開裂前に関する表である。アミノ酸のＣ‐末端開裂後に関する表である。本発明によるＣＡＮモジュールと示差ネットワークモジュールとの相互作用の方法段階を示すフローチャートである。本発明によるＣＡＮモジュールとマーカーパネルネットワークモジュールとの相互作用の方法段階を示すフローチャートである。本発明によるＣＡＮモジュールと代理ネットワークモジュールとの相互作用の方法段階を示すフローチャートである。ペプチドの信号強度を示す表である。ペプチドの信号強度を示す表である。ペプチドの信号強度の相関の測度を示す表である。スペアマンの相関係数角質を示すヒストグラムである。クロモグラニンＡ９７‐１３１に関する表である。ペプチドＧＳＩ８８‐１３２とクロモグラニン９７‐１３１との示差ネットワークを示すグラフである。７４個の座標画分を有するペプチドの信号強度の表を示す。７４個の座標画分を有するペプチドの信号強度の表を示す。ペプチドの信号強度のプロット図である。ペプチドの信号強度のプロット図である。ペプチドの信号強度のプロット図である。ペプチドの信号強度を示すグラフである。ペプチドの信号強度を示すグラフである。ペプチドの信号強度を示すグラフである。ペプチドの荷電イオン試験を示す表である。仮説の前駆体の配列を示す表である。ＣＳＦのペプチドマップを示す映像である。相関連合ネットワークを示す映像である。ネットワーク員を示す表である。相関連合ネットワークを示す映像である。正及び偽の前駆体予想を示す表である。ペプチド開裂に使用される名称を示す説明図である。アミノ酸残基の数及び％を示す表である。アミノ酸ペアの数及び％を示す表である。ＥＳＩ−ＭＳ／ＭＳ同定によるペプチド座標の予想の確認を示す説明図である。モジュールの予想力の評価を示す説明図である。６種のモジュールの提案及びボーナス点を評価した表である。ＣＳＦ試料の含有ペプチドを示す表である。アルブミン商に対するＭＡＬＤＩ信号強度を示すプロット図である。

Claims

多数の試料をそのペプチドトポロジーを用いて分析することによって、試料型のペプチド内容物の代表的な、非冗長的概観を得る方法において、次の段階：
ａ）前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、
ｂ）前記の潜在的ペプチドの信号強度間の相関の測度をコンピュータ処理し、
ｃ）一定の閾値以上の相互間の相関度を示す潜在的ペプチドを一緒に集め、それによって潜在的ペプチドの多数の相関連合ネットワークを得て、かつ
ｄ）前記の試料型の前記の相関連合ネットワークに、代表的ペプチドとして少なくとも１つの相関連合ネットワークから少なくとも１つの代表的な潜在的ペプチドを割り当てる
を包含することを特徴とする方法。
既知前駆体を有するペプチドを含有する多数の試料のペプチドトポロジーを用いるペプチドの配列を予想する方法において、次の段階：
ａ）前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、
ｂ）前記ペプチドの質量を用いて既知前駆体を有する前記ペプチドを同定し、この際、既知前駆体の配列は既知であり、
ｃ）既知前駆体を有する前記ペプチドの信号強度及び他の潜在的ペプチドの信号強度の間の相関の測度をコンピュータ処理し、
ｄ）一定の閾値以上の既知前駆体を有する前記ペプチドとの相関度を示す潜在的ペプチドを選択し、かつ
ｅ）既知前駆体の配列の推定断片の質量を、既知前駆体を有する前記ペプチドと相関する潜在的ペプチドの質量と適合させることによって潜在的ペプチドの配列を予想する
を包含することを特徴とする方法。
既知配列を有するペプチドを含有する多数の試料のペプチドトポロジーを用いて、ペプチドの配列を予想する方法において、次の段階：
ａ）前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、
ｂ）その質量を用いて、既知配列を有するペプチドを同定し、
ｃ）前記既知ペプチドの信号強度と潜在的ペプチドの信号強度との間の相関の測度をコンピュータ処理し、
ｄ）一定の閾値以上の既知ペプチドとの相間度を示す潜在的ペプチドを選択し、
ｅ）潜在的ペプチド及び既知ペプチド各々の間の質量差をコンピュータ処理し、かつ
ｆ）段階ｅ）で決定された質量差に適合する、生物学的、化学的又は物理的方法によって引き起こされる質量差についてのデータを用いることによって、潜在的ペプチドの配列及び／又は生物学的、化学的又は物理的変性化配列を予想する
を包含することを特徴とする方法。
状態Ａ及び状態Ｂを表わす少なくとも２つの異なった実験群から採取された多数の試料のペプチドトポロジーを用いる、マーカーパネルとして使用されることに好適なペプチドを同定する方法において、次の段階：
ａ）前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、
ｂ）各実験群内で、多数の各試料について、別々に、前記の潜在的ペプチドの信号強度の間での相関の測度をコンピュータ処理し、かつ
ｃ）一定の閾値以上の異なった実験群の間での相関度における差を示す潜在的ペプチドペアを選択し、それによって、状態Ａ及び状態Ｂの間で区別するための診断目的用のマーカーパネルとして使用されることに好適であるペプチドを得る
を包含することを特徴とする方法。
状態Ａ及び状態Ｂを表わす少なくとも２つの異なった実験群から採取された多数の試料のペプチドトポロジーを用いる、マーカーパネルとして使用されることに好適なペプチドを同定する方法において、次の段階：
ａ）前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、
ｂ）状態Ａ及び状態Ｂを表わすパラメーターと相関する潜在的ペプチドを選択し、
ｃ）多数の各試料について前記の選択された潜在的ペプチドの信号強度の間の相関の測度をコンピュータ処理し、かつ
ｄ）一定の閾値以上のそれらの各信号強度の相関を示さない潜在的ペプチドペアを選択し、それによって、状態Ａ及び状態Ｂの間で区別するための診断目的用のマーカーパネル中の相補ペプチドとして使用されることに好適である潜在的ペプチドを得る
を包含することを特徴とする方法。
多数の試料のペプチドトポロジーを用いる既知ペプチドの代理として好適なペプチドを同定する方法において、次の段階：
ａ）前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、
ｂ）前記の既知ペプチドの信号強度と潜在的ペプチドの信号強度との間の相関の測度をコンピュータ処理し、かつ
ｃ）一定の閾値以上の前記の既知ペプチドとの相関度を示す潜在的ペプチドを選択し、それによって、前記の既知ペプチドのための代理として好適な潜在的ペプチドを得る
を包含することを特徴とする方法。
多数の最小全域木直径を、前記の試料中の前記の潜在的ペプチドの信号強度を用いて、相関の測度としてコンピュータ処理し、この際、潜在的ペプチドの選択は、最小全域木直径閾値を使用することによって行なわれ、この際、２つの潜在的ペプチドの関連についての最小全域木直径は、試料の数の少なくとも０．４２５倍の調整可能な閾値以上であるべきである、請求項１から３までのいずれか１項又は６項に記載の方法。
多数の最小全域木直径を、前記試料中の前記の潜在的ペプチドの信号強度を用いて、相関の測度としてコンピュータ処理し、この際、潜在的ペプチドペアの選択は、最小全域木直径閾値を用いることによって行なわれ、この際、前記の異なった実験群中で実測される最小全域木直径間の差は、試料の数の少なくとも０．１倍の調整可能な閾値以上である、請求項４又は５に記載の方法。
方法は、前記の試料の質量スペクトルを得ることに先行する、前記試料の少なくとも１分画化段階の付加的段階を包含し、かつ前記試料の少なくとも１画分を、前記質量スペクトルを得るために使用する、請求項１から８までのいずれか１項に記載の方法。
"ペアソン乗積‐モーメント相関係数"、"スペアマンの順位相関係数"、"ケンダルのタウ"、"ケンダルの一致の係数"、"グッドマン及びクルスカルのガンマ"及び"最小全域木直径"を含む群から選択される少なくとも１つの相関の測度法を使用する、請求項１から９までのいずれか１項に記載の方法。
"単一オフセット相関"、"２‐点基線相関"、"多重‐点基線相関"、"相互作用の多項式基線相関"、"機能適合基線相関"及び"ＧＩＦＴＳ（自動平準化法）基線相関"を含む群から選択される質量分析法データを計測するための少なくとも１方法を使用する、請求項１から１０までのいずれか１項に記載の方法。
"主成分分析"、"多変量計測部分的最小‐平方"及び"レプリケーター神経ネットワーク"を含む群から選択される孤値試料を同定するための少なくとも１方法を使用する、請求項１から１１までのいずれか１項に記載の方法。
相関の測度の計算は、相関の測度の計算の、先行の一巡から得られるペプチド座標を使用して少なくとも１回繰り返され、それによって第２以上の近隣の相関の測度を得る、請求項１から１２までのいずれか１項に記載の方法。
画分数、溶離時間、保持時間、タンパク質チップ座標、ペプチド濃度、酵素活性、構造特性、化学特性及び生物学特性を含む群から選択される質量のほかに、付加的な座標を使用する、請求項１から１３までのいずれか１項に記載の方法。
ＭＡＬＤＩ質量分析法又はＥＳＩ質量分析法が、質量スペクトルを生じさせるために使用される、請求項１から１４までのいずれか１項に記載の方法。
試料又は試料群は均質である、請求項１から１５までのいずれか１項に記載の方法。
相関の測度のコンピュータ処理は、相関の測度を予備‐決定された値を使用して、分析の測度を促進させるために、有利に分析に先行して行なわれる、請求項１から１６までのいずれか１項に記載の方法。
必要な配列情報は、データベースから手動的インプット又は自動的に質問されることによって得られる、請求項１から１７までのいずれか１項に記載の方法。
相応する結果は、配列データベース、特許データベース、文献データベース、医学的データベース、３Ｄ構造データベース、酵素認識部位についての情報を有するデータベース、翻訳後変性、遺伝的多形性、臨床的試行を含む群から選択される他の給源からのデータと自動的に組み合わせられる、請求項１から１８までのいずれか１項に記載の方法。
データ処理又はデータ供給の少なくとも１段階は、遠隔コンピュータシステムを使用して行なわれ、かつ利用者は、インターネット、イントラネット又は他のネットワークを経由して遠隔コンピュータシステムに接続される、請求項１から１９までのいずれか１項に記載の方法。
請求項１から２０までのいずれか１項に記載の方法を行なうためにプログラムされたデジタルコンピュータシステム。
請求項１から２０までのいずれか１項に記載の方法を履行するコンピュータプログラムを蓄積するコンピュータ読取媒体。
データ‐分析の少なくとも一部分は、異なった地域に置かれた遠隔コンピュータシステムを経由して行なわれる、請求項１から２２までのいずれか１項に記載の方法の使用。
アミノ酸配列の長さにおける変更を決定するための、及び／又はそのペプチドが試料に加えられた既知特性のペプチドの化学的又は翻訳後変性を決定するための、請求項２、３又は６から２３までのいずれか１項に記載の方法の使用。