JP2007526243A - 相関の測度の使用によるペプチド及びその機能的類縁関係の同定及び特性決定のための方法及びシステム - Google Patents
相関の測度の使用によるペプチド及びその機能的類縁関係の同定及び特性決定のための方法及びシステム Download PDFInfo
- Publication number
- JP2007526243A JP2007526243A JP2006548227A JP2006548227A JP2007526243A JP 2007526243 A JP2007526243 A JP 2007526243A JP 2006548227 A JP2006548227 A JP 2006548227A JP 2006548227 A JP2006548227 A JP 2006548227A JP 2007526243 A JP2007526243 A JP 2007526243A
- Authority
- JP
- Japan
- Prior art keywords
- peptide
- peptides
- correlation
- potential
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6893—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids related to diseases not provided for elsewhere
- G01N33/6896—Neurological disorders, e.g. Alzheimer's disease
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K14/00—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- C07K14/435—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
- C07K14/46—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
- C07K14/47—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
- C07K14/4701—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals not used
- C07K14/4711—Alzheimer's disease; Amyloid plaque core protein
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/94—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving narcotics or drugs or pharmaceuticals, neurotransmitters or associated receptors
- G01N33/9406—Neurotransmitters
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Urology & Nephrology (AREA)
- Immunology (AREA)
- Hematology (AREA)
- Medicinal Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Food Science & Technology (AREA)
- Cell Biology (AREA)
- Neurology (AREA)
- Microbiology (AREA)
- Zoology (AREA)
- Biophysics (AREA)
- Gastroenterology & Hepatology (AREA)
- Pharmacology & Pharmacy (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Genetics & Genomics (AREA)
- Toxicology (AREA)
- Neurosurgery (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Peptides Or Proteins (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本発明は、相関の測度の使用によって、ペプチド及びそれらの類縁関係を同定する及び特徴つけるためのそれらの方法を履行する方法及びシステムを提供する。これらの方法は、相関連合ネットワークと、配列ネットワークモジュール、示差ネットワークモジュール、マーカーパネルネットワークモジュール及び代理ネットワークモジュールを含む数種の応用モジュールとの相互作用を基礎とし、例えば、生物学的試料のペプチド内容物の代表的概観の規定、ペプチド配列の予想、マーカーパネルとして使用されることに好適なペプチドの同定及び既知ペプチドの代理として好適なペプチドの同定を可能とする。
Description
本発明は、相関の測度の使用によるペプチド及びその機能的類縁関係を同定及び特性決定するための、ペプチド内容物を有する試料の高‐スループット分析の分野、及び特に、コンピュータ実施法及びこれらの方法を実施するシステムに関する。
ヒト遺伝子コードをマップ化するヒトゲノム計画(Human Genome Project)の成功は、医学的研究に驚異的な可能性を示す。しかし、この情報を使用するための必要条件は、遺伝子生成物の、特にタンパク質及びペプチドの同定である。ペプチドは、一定配列で、様々なアミノ酸の結合から形成される分子の一族である。1個のアミノ酸残基と次の基との間の結合はアミド結合であり、時によりペプチド結合として言及される。ペプチドは天然に産出し、様々な機能に反応し、その多くは判明されていない。それらは、アミノ酸の長鎖でもあるタンパク質とは、それらの大きさによって異なる。
世界的に広まったゲノム科学の成果に平行して、様々な発見的技法は、ペプチド内容物を有する試料の分析のために発展した。正にゲノム科学がヒトゲノムを解読することに照準するので、これらの技法は、約0.5〜20kDaの分子量を有する無数の生物学的に関連したタンパク質及びペプチドの包括的分析に使用され、その内のインスリンは顕著な例である。
質量分析法によるヒト体液及び組織のペプチド及びタンパク質のプロフィール化は、多数のペプチド信号を明らかにする。そのような高‐スループット分析法は、データの巨大集合における生物学的及び製薬学的整合性を理解し、分析するための、高度に洗練された生物情報科学研究を要求する。
ペプチド及び小タンパク質の質量分析的同定を補助する慣用のコンピュータ実施法は、スペクトルを解読し、1個のスペクトルにおける断片の質量差を測定し、かつそれらの差をアミノ酸欠如に帰することによって、候補的ペプチド信号の同定のための提案を生み出す。次いで、一連の欠如アミノ酸は、提案されたアミノ酸配列に構成され、その後に、何万もの既知タンパク質の配列を包含する巨大なデータベース、例えば、スイス‐プロット(Swiss‐Prot)データベースで質問される。しかし、分析されるペプチド又はタンパク質が豊富ではない及び/又は複合混合物である場合には、そのような研究方法はあまり有効ではないことが判り、従って、時間を浪費する試料の濃縮又は分別段階が行なわれなければならない。
更に洗練された研究は、既知配列の知識をスペクトルで考慮する。ここで、既知配列のタンパク質分解消化を、"シリコ中(in silico)"で提案し、次いで、仮説的に得られるスペクトルを、実測の1つと相関させる。しかし、これらの研究は、それらの断片信号が計算を変化させ、かつ実測の1つと仮説的に計算されたスペクトルとの相関係数を低くするので、スペクトルの給源が少しの異なった分析物だけを含有する場合だけ成功する。多くの可能なタンパク質前駆体が、与えられたペプチドについて存在し、その後に、各未知ペプチド及び各可能な前駆体について、そのような仮説的なスペクトルを生成させる場合には、仮説的スペクトルと測定スペクトルとの相関過程は、全く苦労が多く、時には不成功にすらなる。
例えば、Eng et al (Joum. Am. Soc. Mass Spectrom. 5, 976 - 989, 1994)は、タンデム質量分析法の統計的得点法を記載し、これは、データベースからペプチドの予想スペクトルと実測スペクトルを交差‐相関させることを頼りにする(Havilio et al, Anal. Chem. 75[3], 435 - 444, 2003)。ペプチドの質量以外のペプチドについての付加的な情報(例えば、ペプチドを生じさせるために使用される酵素特異性)は使用されない。第一段階で、タンデム質量分析法データは減少され、それによって、最多の信号以外は全て除去される。第二段階で、タンパク質配列は、ペプチドの質量に適合するアミノ酸の組み合わせについてデータベースから質問され、その際、検索算法は、変性部位のあらゆる出現で、翻訳後変性の典型的な質量変化だけを考慮する。第三段階で、予備的適合は、スペクトルにおいて観察されるイオンに適合する断片化イオンの数を合計することによって得点される。インモニウムイオンは、配列が、アミノ酸チロシン、トリプトファン、メチオニン又はフェニルアラニンを含有する場合に考慮される。このことと断片の合計が、得点関数で勘定に入れられる。最後に、スペクトルは、推定アミノ酸配列から再構築され、最高の得点予想は、交差‐相関分析によって評価される。交差‐相関関数は、実際には、1つの信号を他方に交叉翻訳することによって、再構築及び測定されるスペクトル信号の整合性を測定する。周知の応用、例えばSEQUEST及びSonarは、この研究方法を使用する。しかし、この研究の不利な点は、ピーク強度が、イオン型、イオン質量及び他の実験的パラメーターに強く依存し、かつ多くの因子はペプチド断片化に寄与することも未だ十分には理解されていないことである。
Perkins et al(Electrophoresis 20[18], 3551 - 3567, 1999)は、タンパク質データベース中の検出断片の収集を発見する確率を評価する統計的得点法を記載している(Havilio et al, Anal. Chem. 75[3], 435 - 444, 2003)。応用、例えば、Mascot、MOWSE、Protocallは、この研究に基づいている。しかし、この研究の不利な点は、測定スペクトルの信号強度がデータ分析に考慮されないことである。
Weinberger et al(United State Patent Application 2002/0182649)は、基本的に2つの研究を記載している。第一の研究において、タンパク質候補は、データベース中のタンパク質の質量スペクトルと理論的に計算された質量スペクトルとの間の適合の密接性(closeness-of-fit)測度に基づくデータベースでの試験タンパク質の少なくとも1つのタンパク質候補を同定するタンパク質データベース発掘手段に、質量スペクトルを用いることによって同定される。第二の研究方法において、タンパク質候補は、質量分析法によって直接配列される。この方法では、未知ペプチドは質量分析法において直接断片化され、生じた断片の質量は質量分析法によって決定され、未知ペプチドの配列を計算するために使用される。
Eng et al及びWeinberger et alによる研究は、共通して、適合の密接性分析又は交差‐相関が2つのスペクトルの全信号、即ち、測定スペクトル及び予想スペクトル全体に行なわれることを有する。
従って、前記の全ての研究は、時に、それらがあまり有効でなく、全く苦労が多く、時間を浪費し、しばしば不成功となるというそれらの不利な点を有する。
従って、ペプチド内容物で試料を分析する方法及び公知方法と関連した不利な点を克服する又は少なくとも軽減するこれらの方法を実行するシステムが必要とされる。
本発明の総括
本発明による次の方法は、後記分節での詳説から明らかなように、相関連合ネットワーク(Correlation Associated Networks)及びペプチドトポロジーの概念に基づいている。
本発明による次の方法は、後記分節での詳説から明らかなように、相関連合ネットワーク(Correlation Associated Networks)及びペプチドトポロジーの概念に基づいている。
本発明により、CANsに基づく方法は、そのペプチドトポロジーを使用する多数の試料を分析することによって、試料型のペプチド内容物の代表的で非‐冗長な概要を得るために得られ、この際、この方法は、前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは、潜在的ペプチドに相応し、前記の潜在的ペプチドの信号強度間の相関の測度をコンピュータ処理し、一定の閾値以上の相互間の相関度を示す潜在的ペプチドを一緒に集めて、それによって潜在的ペプチドの多数の相関連合ネットワークを得て、かつ前記の試料型の前記の相関連合ネットワークに、代表的なペプチドとして各相関連合ネットワークから1つの代表的な潜在的ペプチドを割り当てるという段階を包含する。
更に、CANsに基づく方法は、既知前駆体を有するペプチドを含有する多数の試料のペプチドトポロジーを用いてペプチドの配列を予想するために得られ、この際、この方法は、前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは、潜在的ペプチドに相応し、前記ペプチドの質量を用いて既知前駆体を有する前記ペプチドを同定し、この際、既知前駆体の配列は既知であり、既知前駆体を有する前記ペプチドの信号強度と他の潜在的ペプチドの信号強度との間の相関の測度をコンピュータ処理し、一定の閾値以上の既知前駆体を有する前記ペプチドとの相関度を示す潜在的ペプチドを選択し、かつ既知前駆体の配列の推定断片の測度を、既知前駆体を有する前記ペプチドと相関する潜在的ペプチドの測度と適合させることによって潜在的ペプチドの配列を予想するという段階を包含する。
なお更に、CANsに基づく方法は、既知配列を有するペプチドを含有する多数の試料のペプチドトポロジーを用いて、ペプチドの配列を予想するために得られ、この際、この方法は、前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、その質量を用いて既知配列を有するペプチドを同定し、前記の既知ペプチドの信号強度と潜在的ペプチドの信号強度との間の相関の測度をコンピュータ処理し、一定の閾値以上の既知ペプチドとの相関度を示す潜在的ペプチドを選択し、潜在的ペプチドと既知ペプチドの各々の間の質量差をコンピュータ処理し、かつ先行の段階において決定された質量差を適合させる生物学的、化学的又は物理的方法によって引き起こされる質量差についてのデータを用いて、潜在的ペプチドの配列及び/又は生物学的、化学的又は物理的変性化配列を予想するという段階を包含する。
なお未だ更に、CANsに基づく方法は、状態A及び状態Bを表わす少なくとも2つの異なった実験群から採取される多数の試料のペプチドトポロジーを用いて、マーカーパネルとして使用されることに好適なペプチドを同定するために得られ、この際、この方法は、前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは、潜在的ペプチドに相応し、各実験群内で別々に各多数の試料について前記の潜在的ペプチドの信号強度の間の相関測度をコンピュータ処理し、かつ一定の閾値以上の異なった実験群の間の相関度における差を示す潜在的ペプチドペアを選択し、それによって、状態A及び状態Bの間で区別するための診断目的のマーカーパネルとして使用されるために好適であるペプチドを得るという段階を包含する。
なお未だ更に、CANsに基づく方法は、状態A及び状態Bを表わす少なくとも2つの異なった実験群から採取される多数の試料のペプチドトポロジーを用いて、マーマーパネルとして使用されることに好適なペプチドを同定するために得られ、この際、この方法は、前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、状態A又は状態Bの代表であるパラメーターと相関する潜在的ペプチドを選択し、各多数の試料について前記の選択された潜在的ペプチドの信号強度間での相関の測度をコンピュータ処理し、かつ一定の閾値以上のそれらの各信号強度の相関を示さない潜在的ペプチドペアを選択し、それによって、状態A及び状態Bの間で区別するための診断目的のマーカーパネルにおける相補ペプチドとして使用されることに好適な潜在的ペプチドを得るという段階を包含する。
最後に、CANsに基づく方法は、多数の試料のペプチドトポロジーを用いて、既知ペプチドの代理として好適なペプチドを同定するために得られ、この際、この方法は、前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、前記の既知ペプチドの信号強度と潜在的ペプチドの信号強度との間の相関の測度をコンピュータ処理し、かつ一定の閾値以上の前記の既知ペプチドとの相関度を示す潜在的ペプチドを選択し、それによって、前記の既知ペプチドのための代理として好適な潜在的ペプチドを得るという段階を包含する。
本発明の有利な実施態様は、従属する請求の範囲に記載されている。
図面の簡単な説明
図1は、本発明によるハードウエア要素及びソフトウエアモジュール、それらのインターフェース、同様にハードウエア要素及びソフトウエアモジュールの間の情報のフローを図式で示す。
図1は、本発明によるハードウエア要素及びソフトウエアモジュール、それらのインターフェース、同様にハードウエア要素及びソフトウエアモジュールの間の情報のフローを図式で示す。
図2は、数人の患者からの脳脊髄液(CSF)の平均ペプチド質量指紋を示す。各試料の96個のクロマトグラフィー画分の各々を、NALDI‐ToF‐質量分析法によって分析し、1試料から発生される全96個の質量スペクトルを、"2‐D ゲル‐様画像"として映像化させ、この際、x‐及びy‐軸は、質量‐対‐荷電比率(m/z)及びクロマトグラフィー画分(F)各々に相応する。線条はペプチドピークを表わし、この際、カラー強度は質量分析法による信号強度を表わす。アミノ酸数を含有する若干の同定ペプチドは、このマップで同定される。
図3は、機能的に関連するペプチドの相関的行動を例証する図式を示す。4種の異なる試料からのスペクトルの4種のトレースは、ヒトオステオポンチン(osteopontin)(m/z=7653.6Da)及び1(m/z=7733.5Da)、2(m/z=7813.5Da)、3(m/z=7893.4Da)又はもっと多くの燐酸化基を有する、その燐酸化誘導体のアミノ酸249‐314を含むヒトオステオポンチンペプチドの信号に照準される。試料間のペプチドの保存濃縮率は、各ペプチドペアの信号強度の高度の相関に結び付く。
図4は、本発明による相関連合ネットワークの(CAN)の図式例を示す。任意のCANはハブペプチドから出発し、そのような1次ハブペプチドの1次隣接の任意の一員も、次の次数の隣接等のハブペプチドであってよい。
図5は、本発明によるCANモジュールの適用の方法段階を図式するフローチャートを示す。
図6は、試料の典型的なペプチドトポロジーの図形的表現を示し、この際、ペプチドは、黒丸によって表わされ、その相互の関係はこれらの黒丸を結ぶ線によって表わされる。そのようなペプチドネットワークは、その結果の更なる直覚的な分析のための図2のように、ペプチドマップ上に投影され得る。
図7は、本発明によるCANモジュールと配列ネットワークモジュールとの相互作用の方法段階を図式するフローチャートを示す。
図8aは、予想される配列が未知ペプチドの実験的特性と適合するかどうかを検査する方法を図式したフローチャートを示す。
図8bは、図8aに従って検査される配列予想の発生を例証するフローチャートを示す。
図8cは、既知ペプチドP1に関連される全未知ペプチドの質問を図式するフローチャートを示す。配列予想は、図8bに従って、任意の未知ペプチドP2について生じる。
図8dは、既知配列と任意のペプチドP1についての図8cに示されたような方法の繰り返しを例証するフローチャートを示す。
図9は、各変性でのペプチドの単一同位体及び平均質量変化の表を示す。
図10は、化学的及び酵素的反応、その各機構/酵素及びその結果生じる変性化ペプチドの平均質量差の例証主題を有する表を示す。
図11は、最も普通のアミノ酸、その3‐及び1つの文字コード、同様にその脱水型での単一同位体及び平均質量を挙げる表を示す。
図12は、ペプチドの普通のアミノ‐末端及びカルボキシ‐末端基、化学的組成と同様に、その各単一同位体平均質量を挙げる表を示す。
図13は、試料給源として脳脊髄液を用いて、前記の実験的装置下に、ペプチド配列への各アミノ酸の添加によって引き起こされるペプチドの画分シフトに関する表を示す。
図14aは、前駆体配列中のペプチドのN‐末端開裂部位(出発部位)前のアミノ酸及びそれらの実験的に誘導される発生、決定全配列中の与えられたアミノ酸の各全体的発生及びその割合を有する表を示す。
図14bは、前駆体配列中のペプチドのN‐末端開裂部位(出発部位)後のアミノ酸及びその実験的に誘導される発生、測度される全配列中の与えられるアミノ酸の各全体的発生及びその比率を有する表を示す。
図14cは、前駆体配列中のペプチドのC‐末端開裂部位(末端部位)前のアミノ酸及びそれらの実験的に誘導される発生、決定全配列中の与えられたアミノ酸の各全体的発生及びその比率を有する表を示す。
図14dは、前駆体配列中のペプチドのC‐末端開裂部位(末端部位)後のアミノ酸及びそれらの実験的に誘導される発生、決定全配列中の与えられたアミノ酸の各全体的発生及びその比率を有する表を示す。
図15は、本発明によるCANモジュールと示差ネットワークモジュールとの相互作用の方法段階を図示したフローチャートを示す。
図16は、本発明によるCANモジュールとマーカーパネルネットワークモジュールとの相互作用の方法段階を図示したフローチャートを示す。
図17は、本発明によるCANモジュールと代理ネットワークモジュールとの相互作用の方法段階を図示したフローチャートを示す。
図18a及び18bは、74個の試料から採取される座標画分54;m/z2743.0、画分54;m/z1371.5、画分56;m/z2927.2及び画分20;m/z1114.3を有するペプチドの信号強度値の表を示す。更に、│r│≧0.8のスペアマンの順位(Spearman's Rank Order) 相関係数閾値を有する関連ペプチドkの数を示す。
図19は、異なる相関の測度法を用いる、若干の典型的ペプチドとの座標画分54;m/z2743.0を有するペプチドの信号強度の相関の測度を有する表を示す。
図20は、スペアマンの順位相関係数確率のヒストグラムを示す。ペプチド‐対‐ペプチド関係の相関係数の値(x‐軸)は、そのペプチドペアがその値を達成する確率に対してプロットされる(y‐軸)。低い絶対相関係数を有するペプチド‐対‐ペプチドペアは、多分、関係されない。これは、ランダムデータ(P(r)シミュレーション)からのペプチド‐対‐ペプチド関係のゼロでの最高によって表現される。真の正関係は、多分、より高い絶対相関係数で見出される。従って、測定データ(P(r)測定)からのペプチド‐対‐ペプチド関係の相関係数のプロットは、P(r)シミュレーションから逸脱し、それというのも、機能的に関係するペプチドの相関係数は、多分、ランダムデータから得られるそれらよりも高いからである。そのようなプロットは、与えられたCANの閾値が、できるだけ多くの真の正ペプチド‐対‐ペプチド関係を包含する一方で、同じだけ偽のそれを排除するために選択されなければならない場合に発生される。
図21は、クロモグラニンA97‐131に関係する同定ペプチド、前記のペプチドと関係のペプチドとのスペアマンの順位相関係数値、それらの相対的単一同位体質量及びそれらのアミノ酸配列の表を示す。
図22は、ペプチドSGI88‐132及びクロモグラニンA97‐131の示差ネットワークの有用性をグラフで例証したものを示す。前立腺切除前(黒い三角)の仮説患者では、これらのペプチド間で相関は存在し(r=0.97)、約10/1の信号強度比率が保存される。前立腺切除後(白い四角)の仮説試料では、この比率は存在せず、セクレトグラニンI/クロモグラニンA相関は"破棄"される。
図23a及び23bは、座標画分54;m/z2743.0を有するペプチドの信号強度の分散の除去後の、74個の試料の座標画分54;m/z1371.5、画分56;m/z2927.2及び画分20;m/z1114.3を有するペプチドの信号強度値の表を示す。更に、前記の分散の除去後のスペアマンの順位相関係数│r│≧0.8を有する関係ペプチドkの数が示される。
図24aは、質量‐対‐荷電比率2743.0(F54;m/z2743.0)を有する画分54でのペプチドの信号強度を、質量‐対‐荷電比率1114.3(F20;m/z1114.3)を有する画分20でのペプチドの信号強度に対してグラフでプロットしたものを示す。このプロットは相関を示さないペプチドペアを例証する。
図24bは、質量‐対‐荷電比率2743.0(F54;m/z2743.0)を有する画分54中のペプチドの信号強度を、質量‐対‐荷電比率1371.5(F54;m/z1371.5)を有する同じ画分中のペプチドの信号強度に対してグラフでプロットしたものを示す。このプロットは、単一荷電及び二重荷電ペプチドイオンを含むペプチド‐対‐ペプチドペアの間の相関を例証する。
図24cは、質量‐対‐荷電比率2743.0(F54;m/z2743.0)を有する画分54中のペプチドの信号強度を、質量‐対‐荷電比率2927.2(F56;m/z2927.2)を有する画分54中のペプチドの信号強度に対してグラフでプロットしたものを示す。このプロットは、機能的相関を示すペプチド‐対‐ペプチドペアを例証する。
図25aは、質量‐対‐荷電比率2743.0(F54;m/z2743.0)を有する画分54中のペプチドのスチューデント化された(studentized)信号強度を、質量‐対‐荷電比率1114.3(F20;m/z1114.3)を有する画分20でのペプチド、即ち、図24aのペプチドペアのスチューデント化された信号強度に対してグラフでスポットしたものを示す。最小全域木(minimum spanning tree)算法は、最も近い頂点を結ぶために行なわれた。最多の頂点を有する経路、即ち、MST直径は、太線で強調されている。この例では、経路は29個の頂点を含む。
図25bは、質量‐対‐荷電比率2743.0(F54;m/z2743.0)を有する画分54でのペプチドのスチューデント化された信号強度を、質量‐対‐荷電比率1371.5(F54;m/z1371.5)を有する同じ画分でのペプチド、即ち、図24bのペプチドペアのスチューデント化された信号強度に対してグラフでスポットしたものを示す。このスポットは、単一荷電及び二重荷電ペプチドイオンを含むペプチド‐対‐ペプチドペア間の相関を例証する。最小全域木算法は、最も近い頂点を結ぶために行なわれた。最多の頂点を有する経路、即ち、MST直径は、太線で強調されている。この例では、経路は50個の頂点を含む。
図25cは、質量‐対‐荷電比率2743.0(F54;m/z2743.0)を有する画分54でのペプチドのスチューデント化された信号強度を、質量‐対‐荷電比率2927.2(F56;m/z2927.2)を有する画分56でのペプチド、即ち、図24cのペプチドペアのスチューデント化された信号強度に対してグラフでスポットしたものを示す。このプロットは、機能的関係を示すペプチド‐対‐ペプチドペアを例証する。最小全域木算法は、最も近い頂点を結ぶために行なわれた。最多の頂点を有する経路、即ち、MST直径は、太線で強調されている。この例では、経路は40個の頂点を含む。
図26は、本発明の方法に従って、座標画分54;m/z1371.5及び画分56;m/z2927.2を有するペプチドを、与えられたペプチドが座標画分54;m/z2743.0を有するペプチドの電位的にn回荷電されたイオンであるかどうかを、試験した表を示す。
図27は、1‐文字コードを用いる"仮説前駆体"(HP)の前駆体配列を示す。ペプチドHP25‐48の配列は下線され、HP25‐50は太字である。
図28は、例6で論議されたように、66人の患者から集められたCSFの平均ペプチド表示(ペプチドマップ)を示す。各試料のクロマトグラフィー画分は、MALDI‐ToF質量分析法によって分析される;パネルA:1試料から発生した全96個の画分は、図2に示されたように"2‐Dゲル‐様画像"として映像化される。x‐及びy‐軸は、各々、質量‐対‐荷電比率(m/z)及びクロマトグラフィー画分である;"2‐Dゲル‐様画像"における灰色‐目盛線は、ペプチドピークを表わし、この際、灰色目盛線の強度は質量分析信号強度に相応し、これは、MALDIによって測定されるペプチドの相対量に相応する。挿入図B及びCは、パネルA中の線で囲まれた四角部分の拡大範囲であり、これは、若干のペプチドが1個以上の画分中に存在することを示す。
図29は、ネットワークハブとしてのVGF26‐58(1)と、VGF177‐191(2)、CGF350‐370(3)、VGF26‐59(4、5、隣接画分)、VGF23‐59(7)、VGF26‐61(8)、VGF26‐62(9)、VGF25‐62(10)、VGF485−522(11)及びVGF373‐417(12‐14、隣接画分)との相関連合ネットワークを示す。(6)はVGFペプチドではない。相関の閾値は、│r│≧0.68であった。ペプチドは黒丸として表わされ、ペプチド‐対‐ペプチド関係は、2個の黒丸を結ぶ線として表示される。このネットワークは、付属する図28のCSFペプチドマップ上に投影される。括弧中の数は、図にも示される(括弧なし)。
図30は、VGFのタンパク質前駆体配列上に作成された図29のネットワーク員を示す。その数は図29のそれらに相応する。矢印は、ペプチドの各配列の始まり及び終わりに及ぶ。VGF26‐58ペプチドネットワークは、タンパク質前駆体全体に渡って広がる、異なった部分に及ぶ。
図31は、ネットワークハブとしてのアルブミン25‐48(1)と、アルブミン25‐45(2)、α‐1‐アンチトリプシン397‐418(3)、アルブミン25‐48(4、5、隣接画分)、アルブミン27‐50(6、7、隣接画分)及びアルブミン25‐50(8、9、隣接画分)との相関連合ネットワークを示す。相関の閾値は、│r│≧0.67であった。このネットワークは、付属する図28のCSFペプチドマップ上に投影される。
図32は、相関係数の閾値rの関数として、任意のペプチド‐ペプチド関係の正及び偽の前駆体予想を挙げる表を示す。
図33は、ペプチド開裂に使用される名称を示す。
図34は、アミノ‐末端前、アミノ‐末端後(N+1)、カルボキシ‐末端前(C‐1)、カルボキシ末端後の開裂部位(C+1)及び全タンパク質前駆体配列中の任意の位置で見出されるアミノ酸残基の数及び%、例えば、%(N−1)=n(N−1)/n(任意の位置)を挙げる表を示す。139個のペプチドから3個はタンパク質前駆体の始まりで出発し、34個のペプチドはタンパク質前駆体配列で終了し、従って、n(N‐1)及びn(C‐1)の合計は139から逸脱する。各位置で見出されるべきアミノ酸の%は、その特別なアミノ酸に隣接する開裂の確率のx‐倍増加又は減少、例えば、x(N‐1)=%(N‐1)/%(任意の位置)を示す、任意の位置での%に比較される。
図35は、タンパク質前駆体配列中のアミノ‐末端/カルボキシ‐末端前/後開裂部位及び任意の位置で見出される選択されたアミノ酸ペアの数及び%を挙げる表を示す。各位置で見出されるべきアミノ酸ペアの%は、この集合が開裂に影響する確率の増加又は減少を示す、任意の位置での%に比較された。
図36は、ESI‐MS/MS同定の結果によって確認されたペプチド座標の予想のための2例を挙げた表を示す。
図37は、モデルの予想力の評価を示す:全部ESI‐MS/MSによって前以て同定された139個のペプチドは2群に分割された。70個のペプチドの第一群は、第二群の推定配列を予想した。第二群のペプチド配列情報は、予想過程中は抑制された。計算の終了後に、推定提案をESI‐MS/MS同定の結果によって確認した。豊富なペプチドが1以上の画分中に存在するので、139個の異なったペプチドは、ペプチド質量指紋上の224個の異なったペプチド座標に相応した。
図38は、前駆体タンパク質の正しい提案及び任意の蓄積提案及び最多のボーナス点を有する提案について別々に評価される6種の異なったモデルの出発‐停止位置の%を挙げた表を示す。│r│≧0.75で、提案は112個のペプチド座標からの27個に生じた。任意のペプチド座標は3つまでの提案のリストを蓄積し得るので、81の提案が生じた。
図39は、血液‐CSF関門の異なった重い破壊の患者から採取されるCSF試料のペプチドアルブミン25‐48に相応するペプチドを有する表を示す。損傷脳関門の患者のアルブミン商(完全なアルブミンタンパク質)に対する相関r(例7、図40)、損傷脳関門の患者のアルブミン25‐48質量分析法信号強度に対する相関r(例6)、ペプチドの名称(アルブミン25‐48、27‐50、25‐51及びα‐1‐アンチトリプシン397‐418)、ペプチドの理論的単一同位体質量及びペプチドの配列が示される。
図40は、損傷脳関門の患者で測定されるアルブミン商に相対するペプチドアルブミン25‐48、27‐50、25‐50、25‐51及びα‐1‐アンチトリプシン397‐418の相対的MALDI信号強度の5つのプロットを示す(例7)。全事例で、MALDI信号強度とアルブミン商との間は、殆ど直線的関係である。
本発明の詳細な説明
本発明の実施態様の詳細ではあるが模範的な説明をする前に、次の定義を用意し、この際、技術的な用語が如何に理解されるべきであるかを確立する。
本発明の実施態様の詳細ではあるが模範的な説明をする前に、次の定義を用意し、この際、技術的な用語が如何に理解されるべきであるかを確立する。
定義
他の記載のない限り、ここで使用される技術的及び科学的用語は、本発明が属する技術分野における当業者によって普通に理解される意味を有する。ここで使用されるように、次の用語は他の特記のない限り、それに帰する意味を有する。
他の記載のない限り、ここで使用される技術的及び科学的用語は、本発明が属する技術分野における当業者によって普通に理解される意味を有する。ここで使用されるように、次の用語は他の特記のない限り、それに帰する意味を有する。
"試料"は、ペプチドを含有する又は潜在的に含有する任意の原料、物質又は同種のものを示す。
"ペプチド"は、少なくとも2つのアミノ酸を含むペプチド結合によって結合されるアミノ酸のポリマーを示す。これらのアミノ酸は、20の標準アミノ酸及び付加的にD‐及びL‐アミノ酸を含む技術分野で公知の稀なアミノ酸であってよい。ペプチドは、付加的な変態、例えば、翻訳後の、酵素的及び/又は化学的変態を含有することができる。
"試料又は有機体の状態"は、試料の発生、例えば、採血時の試料の状態又は型が、試料の内容物又は活性によって反映されることを意味する。試料の発生(例えば、採血)時の有機体の実状は、試料中に存在する内容物及び活性に反映される。試料は、スナップ撮影画像と同様な状態を保存する。試料の状態は、一定の病気の存在又は不在、妊娠の存在又は不在、それから試料が生じる個体の性、一定の遺伝的変異、例えば、遺伝子のノックアウト又は多形性の存在、一定の遺伝子又は遺伝子産物の過度表現又は減少活性(例えば、薬剤又は遺伝子産物についてコードする遺伝子のトランスフェクションの影響として、又は遺伝子産物の直接的付加によって、等)、一定の遺伝子又は遺伝子産物の発現又は活性の抑制(例えば、薬剤、アンチセンスのヌクレオチド、RNAi(RNAインターフェース)ヌクレオチド、リボザイム、トリプレックス‐形成ヌクレオチド、抗体等の影響として)、食物、化粧品又は他の製品中の遺伝子変性成分の存在、それから試料が生じる有機体の年齢、それから試料が生じる有機体の種類、それから試料が生じる有機体の一定の治療(例えば、治療的活性物質、食物成分又は化粧品中に存在する物質で、殺虫剤、殺菌剤又は他の毒性物質での治療等)、試料の地理的起源、それから試料が生じる有機体の発達段階(例えば、受精卵、胚芽、成体の段階、細胞内/細胞外細菌/ウイルス、例えば、蝶の卵/幼虫/さなぎ/成体‐段階、変形体の異なった発展段階等)、それから試料が生じる有機体の代謝段階(例えば、冬眠、概日リズム段階、等)、物質での有機体の治療前、その間又はその後の時点、試料がそこから採取される有機体内の局在(又は組織)等を表わす。
"ペプチドの測定パラメーター"は、公知又は調査者によって測定可能な任意のパラメーター、例えば、ペプチドの分子量、ペプチドの質量/荷電比率、測定ペプチドの信号強度、測定ペプチドの実際の濃度、試料に属する一定の分離プロトコルの結果としてペプチドが存在する画分‐数、又はペプチドの測定活性を示す。
"相関"又は"関係"は、2つのペプチドの少なくとも1つのパラメーターの仮定の相互依存性を示し、この依存性は、対称又は非対称、既知又は未知、統計的に重要又は否であってよい。2つのペプチドの関係は、一方のペプチドから片方への化学的及び生化学的反応によって、分析物の協同遺伝子調節によって、普通の前駆体ペプチド等によって引き起こされ得る。
"相関の測度"、"相関測度"又は"関連の測度"は、その"関係"の用語において、ペプチドペアの測定パラメーターの対称又は非対称的な統計的依存性を説明するための統計的意味を示す。相関の測度の例は次のものである:"ペアソン乗積‐モーメント相関係数(Pearson Product - Moment Correlation Coefficient)"、"スペアマンの順位相関係数"、"ケンダルのタウ(Kendall's Tau)"、"ケンダルの一致係数(Kendall's Coefficient of Concordance)"、"グットマン(Goodman)及びクルスカルのガンマ(Kruskal's Gamma)"、"マンハッタン距離(Manhattan distance)"、"ユークリッド距離(Euclidean distance)"及び"最小全域木直径(Minimal Spanning Tree Diameter)"。
"相関連合ネットワーク(Correlation associated network)(CAN)"は、1つの状態を表わす試料内で同定される、又は異なった状態を表わす試料の異なった群内で同定される全相関の測度の完全ネットワークを示す。2つ以上のペプチドが相互に相関し、CANが互いに相関する少なくとも2つのペプチドを有することが可能である。"試料"に基づくペプチドCANは、1回の実験から得られる結果を必ずしも包含しないことが注目されるべきである。むしろ、ペプチドCANを完全に決定するために、多重の実験がしばしば必要とされ、その合同の結果がその特別な試料のためのペプチドCANを構築するために使用される。CANの計算の結果(第一次のCAN)は、他の相関の測度を巡回的に計算することに使用され得る。これらの種類の計算の結果は、CANs又は第二次又はより高い次数の更に特別なCANsとも称される。
"ペプチド‐トポロジー"は、ペプチドの質量を含む試料の、測定され、かつコンピュータ処理されたペプチドデータ("ペプチドの測定パラメーター")、ペプチドの信号強度(質量分析法又はペプチドの量を決めるために好適な他の測定によって有利に測定される)、画分数(試料が質量分析法に先立って分別された場合に)及びこれらのデータを用いて計算された相関の測度の全体を示す。
"試料の群"は、一定の状態に相応する一組の試料を示す。1群の試料は、例えば、糖尿病患者の10個の血漿試料を含むことができる。1群の試料は、正確に同じ起源である必要はない。例えば、1群の試料は、糖尿病患者の5個の血漿試料及び糖尿病患者の5個の尿試料を含有してもよい。この理由は、血漿中に存在する多くのペプチドは尿中にも存在し、例えば、試料が糖尿病患者から由来する限り、同じ糖尿病‐特異性ペプチドは血漿及び尿中にも存在し得るからである。
"既知ペプチド"は、試料中のその特別な配列又は配列の一部を有するペプチドが、本発明の利用者に既知であることを意味する。未知ペプチドは、その配列が本発明の利用者に未知であるが、ペプチドの配列は、文献又は他の情報源、例えば、配列データベースから知られ得る。
"潜在的ペプチド"は、多分、ペプチドを表わす質量分析法信号を示す。
"ペプチドの前駆体"は、ペプチドの配列を含む天然に存在する最長のアミノ酸配列を示し、即ち、それからペプチドが発生し得る。
"ペプチドの座標"は、質量‐対‐荷電比率及び任意に更に、前記のペプチド/ペプチドイオンの検出又は同定及び/又は数量化に含まれる同定法によって得られ得る特異的に測定可能な特性を示す。本発明の例では、ペプチド座標は、クロマトグラフィー法の溶離時間/画分数及び質量‐対‐荷電比率(従って2つの座標を含む)である。本発明では、これらの座標は、しばしば、短絡形で、例えば、"F56;m/z2873.0"で記載され、これは、質量‐対‐荷電比率2873.0を有する画分56中で見出されるペプチドの信号と同じである。勿論、更なる次元、例えば、前以ての毛細管電気泳動法、又は順流式第二質量分析法を必要とし得る。"ペプチドの座標"、"信号座標"又は"ペプチド"は、しばしば、同意語的に使用される。
"適合値"は、未知ペプチドの実験的特性に基づく予想配列の評価を示す。任意の予想配列は、実験的特性、例えば、画分数の正確な予想に適合する特性のための点を得る。"適合値"が高くなればなるほど、予想配列の正確性がより確実になる。本発明により、適合値は、各試料型について手動的又は自動的に提案され、適合について実験的に試験される。
"標識ペプチド"は、多数の他のペプチド信号に関係され、相互には殆ど関係しないペプチドを示す。これらの標識ペプチドの同定、例えば、配列化は、試料のペプチド組成について速やかな概要を得るために優先されるべきである。
データ供給
図1は、本発明によるハードウエア要素及びソフトウエアモジュール、それらのインターフェース及びハードウエア要素及びソフトウエアモジュール間の情報の流れを図式で示す。測定データは、質量分析法を行なう前の試料の分別をしないでも得られるが、例えば、クロマトグラフィーによる、例えば96個の画分への分画が有利である。クロマトグラフィーの用語における"画分"は、分離段階中に回収される溶離液又はその一部である。通例、数個の画分が収集される。画分は、通例、試料からペプチドの異なった"部分集合"を含有する。ペプチドの好適な分離法は、クロマトグラフィー、例えば、イオン交換、疎水性相互作用、等電点電気泳動、ゲル濾過又は親和性クロマトグラフィー、電気泳動、例えば、自然、等電点、マトリックス、例えば、ポリアクリルアミド又はアガロースゲルを用いる変性又はSDS‐ゲル電気泳動、ペーパー電気泳動、薄層クロマトグラフィー、毛細管電気泳動、分離のために遠心分離を用いる方法、例えば、蔗糖又は塩化セシウム勾配遠心分離等である。次いで、これらのクロマトグラフィー画分を、スペクトルの測定を受けさせて、例えば、図2に示したような2Dゲル‐様フォーマットで映像化され得る96個の質量スペクトルを得る。この最後に、本発明では、ペプチドの質量を決定するのに好適な全種類の方法及び有利に全種類の質量分析法、例えば、マトリックス支援レーザー脱離飛行時間型(matrix-assisted laser desorption time of flight)(MALDI‐TOF)質量分析法、液体クロマトグラフィーエレクトロスプレーイオン化(ESI)四重極飛行時間型(quadrupoletime of flight)質量分析法(LC‐ESIqTOF)等を使用することができる。更に、全画分ではなく選択された画分だけを質量分析法によって分析することが可能である。
図1は、本発明によるハードウエア要素及びソフトウエアモジュール、それらのインターフェース及びハードウエア要素及びソフトウエアモジュール間の情報の流れを図式で示す。測定データは、質量分析法を行なう前の試料の分別をしないでも得られるが、例えば、クロマトグラフィーによる、例えば96個の画分への分画が有利である。クロマトグラフィーの用語における"画分"は、分離段階中に回収される溶離液又はその一部である。通例、数個の画分が収集される。画分は、通例、試料からペプチドの異なった"部分集合"を含有する。ペプチドの好適な分離法は、クロマトグラフィー、例えば、イオン交換、疎水性相互作用、等電点電気泳動、ゲル濾過又は親和性クロマトグラフィー、電気泳動、例えば、自然、等電点、マトリックス、例えば、ポリアクリルアミド又はアガロースゲルを用いる変性又はSDS‐ゲル電気泳動、ペーパー電気泳動、薄層クロマトグラフィー、毛細管電気泳動、分離のために遠心分離を用いる方法、例えば、蔗糖又は塩化セシウム勾配遠心分離等である。次いで、これらのクロマトグラフィー画分を、スペクトルの測定を受けさせて、例えば、図2に示したような2Dゲル‐様フォーマットで映像化され得る96個の質量スペクトルを得る。この最後に、本発明では、ペプチドの質量を決定するのに好適な全種類の方法及び有利に全種類の質量分析法、例えば、マトリックス支援レーザー脱離飛行時間型(matrix-assisted laser desorption time of flight)(MALDI‐TOF)質量分析法、液体クロマトグラフィーエレクトロスプレーイオン化(ESI)四重極飛行時間型(quadrupoletime of flight)質量分析法(LC‐ESIqTOF)等を使用することができる。更に、全画分ではなく選択された画分だけを質量分析法によって分析することが可能である。
図2における各線条は、96個の質量スペクトルの1つに存在するピークを描写し、この際、その線条の色強度は、相応する質量分析信号の強度に相応する。図2のx‐軸は、質量対荷電比率m/zを表わし、y‐軸はクロマトグラフィー画分数を表わす。m/z値は、有利に1000〜15000の範囲にあるが、より高い又はより低いm/z値は、それらの値が質量分析法又は他の方法によって解析される限り包含され得る。このm/z値の範囲内で、検出されたペプチドは、極めて大きい分子量のペプチド、例えば、分子量725kDaを有するα‐2マクログロブリンまでの、より低い末端で2個だけのアミノ酸を含み得る。
同様の2Dゲル‐様マップは、分析されるべき試料組から全試料について作成される。これらのマップは、図2に示されるような平均化ペプチド質量指紋マップを得るために平均化され得る。この平均化マップは、通常、約1000個のピーク座標、即ち、m/z値に相応するx‐座標及び画分数に相応するy‐座標を限定するためのテンプレートとして用いられる。実際に、1つは、一定の閾値以上の信号を示すそれらのピーク座標を選択する。
データ前処理
相関分析に好適であり、有意義な結果を与える測定データを得るために、有利にデータの前処理を、例えば、ベースライン調整、スペクトル規格化、孤立値検出等の方法を用いて行なう。ベースライン調整の方法は、当業者に周知である(例えば、Fuller et al, Applied Spectroscopy, 42, 217 1988)。有利な1実施態様では、データの前処理は、ソフトウエアRAZOR Library 4.0, Specturum Square Associates, Ithaca NY, USAの一部であるベースライン調整を適用することによって行なわれる。任意に質量スペクトルの規格化は、信号強度又は集積された質量スペクトルを使用することによって行なわれ得る。孤立値試料は、市販で得られるソフトウエアパッケージPirouette 3.0, Informetrix Inc., WA, USAによって得られるような主成分分析によって同定される。この主成分分析に基づき、個々の質量スペクトル又は臨界閾値以上のマハラノビス距離(Mahalanobis distance)MDを示す全試料ですら、更なる分析には考慮されず、従って、捨てられる。更に後記の例において、マハラノビス距離MD>11.5は、74個の試料に選択された。
相関分析に好適であり、有意義な結果を与える測定データを得るために、有利にデータの前処理を、例えば、ベースライン調整、スペクトル規格化、孤立値検出等の方法を用いて行なう。ベースライン調整の方法は、当業者に周知である(例えば、Fuller et al, Applied Spectroscopy, 42, 217 1988)。有利な1実施態様では、データの前処理は、ソフトウエアRAZOR Library 4.0, Specturum Square Associates, Ithaca NY, USAの一部であるベースライン調整を適用することによって行なわれる。任意に質量スペクトルの規格化は、信号強度又は集積された質量スペクトルを使用することによって行なわれ得る。孤立値試料は、市販で得られるソフトウエアパッケージPirouette 3.0, Informetrix Inc., WA, USAによって得られるような主成分分析によって同定される。この主成分分析に基づき、個々の質量スペクトル又は臨界閾値以上のマハラノビス距離(Mahalanobis distance)MDを示す全試料ですら、更なる分析には考慮されず、従って、捨てられる。更に後記の例において、マハラノビス距離MD>11.5は、74個の試料に選択された。
本発明によるデータの前処理、処理及び表示は、例えば、Apple G4 Computer上で行なうことができ、この際、そのCPUは、各800MHzを有する2つのプロセッサーを含み、メモリーサイズは1.25ギガバイトである。ペプチド‐対‐ペプチド関係のローカルデータ記憶装置(相関の測度、ペプチドの座標)は、ローカルバレンチナデータベースシステム(Valentina 1.9 for Realbasic, Paradigma Software, Beaverton, Oregon, USA)によって行なわれる。ペプチド配列情報は、専用インターベースサーバー(Interbase6、Borland Software Corp., Scotts Valley, CA, USA)によって得られる。Apple computer systemsのMicrosoft internet Explorer 5.1を、インターネットリソースからの結果の再現に使用することができる。CANソフトウエアは、Swiss - Prot、Pub Med及びUS Patentデータベースに問い合わせのキーワードを含んだ特別なアドレスでインターネットエクスプローラーを起動させる。三次元対象物の映像化は、Realbasic RB3D engine(RealBasic 3.5, Realsoft, Austin, Texas, USA)を用いて行なわれ得る。
また、他のデジタルコンピュータシステム構成を、本発明の方法を行なうために使用することもでき、かつ特別なシステム構成が本発明の方法を行なうことができる限り、これは、図2で図示した代表的なデジタルコンピュータシステムと同等である。それらは、本発明の方法を実施するプログラムソフトウエアからの命令に従って特別な機能を行なうためにプログラム化されれば、そのようなデジタルコンピュータシステムは、本質的に、本発明の方法に特別な専用コンピュータになる。
本発明による方法を行なうコンピュータプログラムは、分配媒体、例えばフロッピーデスク又はCD‐ROM上で、利用者に普通に分配される。そこから、しばしば、ハードディスク又は同様の中間蓄積媒体にコピーされる。プログラムを流すべき場合には、それらはそれらの分配媒体から、又はその中間蓄積媒体から、本発明の方法に従って作動するためのコンピュータを構成する、コンピュータの実行メモリーへ書き込まれる。全てのこれらの操作は、コンピュータシステムの当業者に周知である。用語"コンピュータ読取媒体"は、分配媒体、中間蓄積媒体、コンピュータの実行メモリー及びコンピュータによって後でアクセスするための、本発明の方法を実行するコンピュータプログラムを蓄積することが可能である他のどんな媒体又はデバイスも包含する。
相関連合ネットワークモジュール
図1で矢印によって例証したように、測定粗データ又は有利に前処理測定データは、いわゆる相関連合ネットワーク(CAN)モジュール42に供給される。本発明のモジュール40の内で、CANモジュール42は、最も基本的な1つである。基本的に、CANモジュール42は、例えば、液体クロマトグラフィー‐質量分析法(LC‐MS)実験22から得られる測定データを走査する。このデータに基づき、ペプチドの相関は、例えば、質量分析法によって測定されるような、それらの相対濃度の間の、相関の測度を計算することによって探索される。
図1で矢印によって例証したように、測定粗データ又は有利に前処理測定データは、いわゆる相関連合ネットワーク(CAN)モジュール42に供給される。本発明のモジュール40の内で、CANモジュール42は、最も基本的な1つである。基本的に、CANモジュール42は、例えば、液体クロマトグラフィー‐質量分析法(LC‐MS)実験22から得られる測定データを走査する。このデータに基づき、ペプチドの相関は、例えば、質量分析法によって測定されるような、それらの相対濃度の間の、相関の測度を計算することによって探索される。
相関の測度は、多くの観察を通して、2つの変数間の、類縁関係の程度を表わすために使用され得る。これらの変数は、相関、非相間又は抗‐相関され得る。本発明に関連して、相関の測度は、1組の試料中のそのような相関、非相間又は抗‐相関ペプチドを検出するために使用される。これは、例えば、数試料で測定される2つのペプチドの信号強度のスペアマンズ順位相関係数を計算することによって行なわれ得る。これは、全ペプチドペアについて行なわれることが有利である。これらの相関の測度が計算されれば、一定の行動、即ち、一定の相関度、一定の抗‐相関度を示す、又は一定の相間度を少しも示さないペプチドペアだけが選択される。そのように選択されたペプチドペアのパラメーター、例えば、各ペプチドペアの2つのペプチドの座標、相関の測度等は、蓄積され、ディスプレーデバイス上で表示され又は更に処理され得る。このデータは、有利に、データベース中で、テキストファイルとして又は他のコンピュータ読取可能な形式で蓄積される。スペアマンズ順位相関係数に選択的に、相関の測度は、ペアソン乗積‐モーメント相関係数、ケンダルのタウ、ケンダルの一致係数、グットマン及びクルスカルのガンマ及び最小全域木直径である。
最小全域木(Minimal Spanning Tree)(MST)(最小全域木(Minimum Spanning Tree)としても知られている)は、全点を一緒に結合して、接続された1組のデータ点にさせる接線を集めることによって、接線値の可能な最少合計で定義される(例えば、Evan, Graph Algorithms, Computer Science Press, 1979)。接線は、2つのデータ点を結合する線によって図示され得る。MSTは、相互に最小線によって結合する1組の点(データ点)によって図示され得る。MSTの例は、後でより詳細に記載される図25a〜25cで示される。また、MSTは、全データ点の間の最小結合経路を同定する"外交員(Traveling Salesman)"問題を解決することに接近する、もっともらしい"結合者(connectionist)"を供給する(例えば、Kruskal, Proc. American Math. Soc., 7, 48 - 50, 1956; Sun et al, Physica A, 199, 232 - 242, 1993)。MST直径は、MSTのグラフの経路での接線の最小数として定義され得る。通例、相関、例えば、スペアマンズ順位相関係数は、変数、即ち、データ点の間の相関又は関連又は従属の測度を見出すために使用される。問題は、相関が線傾向に感受性であり、線傾向は2つの関連する変数のために常に都合よく存在するとは限らないことである。本発明においては、MSTの直径は、2つの変数の間の、相関の選択的測度として使用される。与えられた1組のn回の統計的観察を分析するために、MSTの直径を使用するために、全観察を、MSTを経由して結合させ、次いで、MST直径を計算すべきである。MST直径が大きくなればなるほど、2つの変数の間の関連はより強くなる。質量分析法信号強度データ(本発明では、有利に、MALDI質量分析法信号強度データ)に関連して、MST直径>0.425掛けるnは、ペプチド座標の信号強度間の注目に値する関連を示すことが判明した。一般に、全種類の質量分析法信号強度データ、例えば、MALDI又はESI質量分析法データは、本発明に従って使用され得る。
既に前記したように、ペプチドペアは、多くの観察を通してその信号強度間を評価することによって、例えば、スペアマンズ順位相関係数によって、それらの相関の程度について試験される。生物学的に又は機能的に関係されるペプチドペアは、意外にもしばしば、偶然によって予期される相関係数よりもずっと高い相関係数を示すことが判明する。非相間ペプチドペアは、相関係数の低い絶対値を有する。図3は、関連ペプチドの相関行動を例証する。4つの異なった試料からのスペクトルの4つのトレースは、ヒトオステオポンチン(osteopontin)及び1個(m/z=7733.5Da)、2個(m/z=7813.5Da)、3個(m/z=7893.4Da)又はそれ以上の燐酸化基を有するその燐酸化誘導体のアミノ酸249‐314を含むヒトオステオポンチンペプチド(m/z=7653.6Da)の信号に照準される。試料間のペプチドの保存濃縮比率は、各ペプチドペアの信号強度の高度の相関に結び付く。
前記の相関の測度の、コンピュータ処理の結果を用いて、いわゆる相関連合ネットワーク(CANs)を定義することができる。CAN、即ち、ペプチド関連のネットワークは、関与ペプチド、いわゆるハブペプチド、及びこれらの全ペプチド及びハブペプチドと一定の程度に相関する試料パラメーターを包含する。用語ハブは、ネットワークトポロジー理論の場合と同様に使用され、車輪のハブにハブペプチドの類似点を特徴付けることができ、ハブペプチドは、ペプチド‐対‐ペプチド関係を表わすスポークの中心であり、相関するペプチドは、スポークの各末端である。実際に、CANの組成は、利用者によって選択されるような相関の閾値に高度に依存している。この閾値は、利用者の目的に従って選択される。利用者が関与ペプチドに強く相関するペプチド、例えば、同じ前駆体から由来するペプチドを捜している場合には、関与ペプチドとの最強の相関の5%以上だけの選択を引き起こす閾値が選択される。例えば、スペアマンズ順位相関係数について選択されるべき閾値は、試料の数及び関与ペプチド上のこうして選択された部分集合に依存する。利用者が機能的関連ペプチド、例えば、小胞から同時‐分泌されるペプチドを捜すことに関心を有する場合には、利用者は、例えば、最強相関の10%以上を選択する閾値を選択する。
ハブペプチド及びそれに関連し、前記のように選択されるペプチドは、第一次のCANを表わす。対象物により、生物学的ネットワーク及び経路の複合により、より高い次数のCANsを計算することが必要になり得る。前記のように、CANsは、高度の相関を示す関連ペプチドに直結する。閾値をより低い値に調整することは、あまり関連しないペプチドをネットワークへ含める結果となり、同様に偽の関係を予想する確率を増加させる結果となる。この理由のために、本発明の有利な1実施態様は、より高い次数、例えば、二次及び三次のCANsの計算を意図する。関与ネットワークの直接員は、一次隣接を構成するので、これらの全員は、図4に示すように、二次隣接の計算のための有効な出発点である。高次のCANsをコンピュータ処理することは結果を改善するが、コンピュータ処理の努力はCANsの次数と共に増加するので、コンピュータ処理の要求は上位限度を設定する。n次(この際、nは5以上である)のCANの計算は、計算の数百万以上を要求し得る。従って、この研究は、むしろ、間接的に関連するペプチドを含む故の複合試料の分析のために有利に使用されるべきであり、そうして、相関閾値の値を下げなければならないこと、及び偽の関係を多分含むことが避けられる。
任意の種類の試料について、ペプチドの組成は変化し、新規のペプチド座標が現われ、他のものは消滅し、かつ多くのペプチド座標はそれに整列する、異なったペプチド配列を有する。これは、新規の試料給源(試料の型)で操作する場合に、多くの未知ペプチド座標と関係することになる。関与リストの分析を促進させるために、又はもっと一般的に、試料のペプチド組成の全体を分析するために、本発明により、CANsを使用して、代表的なペプチド、いわゆる、標識ペプチドのリストを定義することによって複合生物学的試料中のペプチドの同定を促進させることが、例えば、更に後記のCANsに基づき配列するペプチドの更なる分析のために可能である。この方法は、図5に示される次の段階を含む。段階80で、質量スペクトルが前記のように得られ、この際、質量スペクトルにおける信号強度のピークは潜在的ペプチドに相応する。次いで、潜在的ペプチドに相応する測定信号強度間の相関の測度をコンピュータ処理する(段階82)。その後に、段階84で、それらのペプチドを、調整可能な閾値以上の相関度を示すものと一緒に群にする。これらの選択されたペプチドは、分析試料中に存在するCANを構成する。最後に、各測定CANから1つのペプチドを、段階86でその各CANを表示するために割り当てる。そのようにして、多数の標識ペプチドが分析試料を代表して得られる。これらの標識ペプチドは、ハブペプチドである特性を有し、これらは同じ型の試料内の他のペプチドに殆ど関係しない。これらの標識又は優先ペプチドのリストを同定することは、複合生物学的試料中に存在するペプチド組成について迅速な概略を与え、大多数の類似ペプチドを、例えば、同じ前駆体ペプチドから省略する。これは、試料中又はその試料からの関与リスト中に存在するキーペプチドの全体的概要を得るために有用である。
優先標識ペプチドのそのように形成された関与リストは、n個のペプチド座標の1組を含有し、かつ任意のペプチドzについて、ペプチドzが定義された閾値rで、kz,rを有する関係の数が決定されることが意図される。最高値kz,rを有するペプチドzはyとして定義され、優先リスト上で順位1位などである。次いで、その決定されたペプチド座標yの信号強度の分散は、例えば、後記の式1、2及び3の組み合わせによる、データマトリックス中の関連ペプチドの信号強度から除去される。次いで、このペプチドは、データマトリックスから除去される。任意のk及びrの計算は、優先リスト等で2番に順位つけられた代表的ペプチドを決定することを開始することから出発する。計算は、例えば、データマトリックスがそれ以上ペプチド座標を含有しない時、又はゼロ以上の関係を有するペプチドがなくなったとき、又は所望されるペプチド座標の数が達成した時に終了する。
式1〜3:ペプチド座標x上の代表的ペプチド座標yの分散の除去
[式中、
XVR,P:観測pでのペプチドxの信号強度、除去されるペプチドyの分散
XP:観測pでのペプチドxの信号強度
YP:観測pでのペプチドyの信号強度
m:観測数]
及び
XVR,P:観測pでのペプチドxの信号強度、除去されるペプチドyの分散
XP:観測pでのペプチドxの信号強度
YP:観測pでのペプチドyの信号強度
m:観測数]
更に、CANの一部分であるペプチドは、有利に、図式対象、例えば、黒丸によって表わされ、かつこれらの黒丸を結合する線によって、それらの相互関係が表わされることが意図される。その結果のより直覚的な分析を可能にするために、このネットワークを図6に示したように、ペプチドマップ上に映像させることができる。同定されたペプチドは、データベースへの連結、これらのペプチドについての付加的な情報を有するリスト、又は前記のペプチドに関する付加的な情報の他の給源を供給され得る。
関連ペプチドの座標又は測定パラメーターは、相応するペプチドの潜在的特性、機能又は用途についての更なるデータを同定するために、公共の、商業的な及び/又は専有のデータベースで問われ得る。好適な公共のデータベースは、例えば、PubMed文献データベース、OMIM病気データベース、NCBI‐配列データベース(全て、Medicine, MD, USAのUS National Libraryによって得られる)、Swiss - Prot及びTrEMBL配列データベース、酵素データベース、Swiss 3D画像データベース、Prositeタンパク質族及びドメインデータベース(全て、Swiss Institute of Bioinformatics, Swizerlandによって得られる)、US、欧州、日本、ドイツ国特許事務所の特許データベース、Weizmann Instituteの遺伝子カードデータベース等を包含する。好適な商業的データベースは、例えば、特許を受けたアミノ酸又は核酸配列を有する商業的特許データベース、例えば、DGENE(Thomson Derwent, USA)又はREGISTRY(Chemical Abstracts Service, USA)である。好適な専有のデータベースは、様々な給源及び種類からのペプチド配列を有する利用者のデータベースである。ペプチドネットワークの映像化及び多くの情報源への接続のこの組み合せは、潜在的使用、例えば、更に詳しく後記される治療的ペプチドとして又は生体マーカーとしてのその使用のための、同定ペプチドの評価を軽減させる。
前記から明らかなように、相関連合ネットワークは、構造的及び/又は生物学的関連ペプチド間の関係についての仮説を生じさせるために使用され得る。これらの仮説は、独立した試料からの信号強度及び相応する相対的ペプチド濃度の相関分析に基づいている。更に後節に記載した例は、相関連合ネットワークが、タンパク質合成、翻訳後変性及び分解をつかさどる機能的類縁関係を明らかにするための、大きなペプチドミック(peptidomic)及びプロテオミック(proteomic)データの組織的分析及び解釈のために強力な手段である。CANsは、病気によって引き起こされるペプチド濃度変化の単なる比較を超える、新規の生体活性的及び診断的ペプチドの発見を支持する。
本発明により、CANモジュール42は、図1に示されたように、配列ネットワークモジュール46、示差ネットワークモジュール48、マーカーパネルネットワークモジュール50及び代理ネットワークモジュール52を含む数種の応用モジュール44と相互作用をしている。本発明のこれらの応用モジュール44及び基本的CANモジュール42とのそれらの相互作用を後節で詳しく説明する。
配列ネットワークモジュール
本発明による配列ネットワークモジュールと基本的CANモジュールとの相互作用は、配列の変性を有する又はそれを有しない未知ペプチドのアミノ酸配列を予想すること及び/又は既知又は未知ペプチド配列の未知の変性を予想することを可能にする。ペプチドの特性は未知であるが、未知ペプチド信号の一定の物理化学的及び生化学的特性は既知であり、アミノ酸配列予想、例えば、質量‐対‐荷電比率(m/z)又はクロマトグラフィー反応(画分数/保留時間)のために利用することができる。更に、図1中の56で示される生体情報支持データ、例えば、関連ペプチドの相関連合ネットワーク、質量差及び相関連合ネットワークのペプチド間の画分数の差等が入手可能であり、それというのも、それらは、実験的データ及び、多分、既に既知の相関連合ネットワークの他の一員のアミノ酸配列を用いてコンピュータ処理され得るからである。
本発明による配列ネットワークモジュールと基本的CANモジュールとの相互作用は、配列の変性を有する又はそれを有しない未知ペプチドのアミノ酸配列を予想すること及び/又は既知又は未知ペプチド配列の未知の変性を予想することを可能にする。ペプチドの特性は未知であるが、未知ペプチド信号の一定の物理化学的及び生化学的特性は既知であり、アミノ酸配列予想、例えば、質量‐対‐荷電比率(m/z)又はクロマトグラフィー反応(画分数/保留時間)のために利用することができる。更に、図1中の56で示される生体情報支持データ、例えば、関連ペプチドの相関連合ネットワーク、質量差及び相関連合ネットワークのペプチド間の画分数の差等が入手可能であり、それというのも、それらは、実験的データ及び、多分、既に既知の相関連合ネットワークの他の一員のアミノ酸配列を用いてコンピュータ処理され得るからである。
図7は、既知前駆体を有するペプチドを含有する多数の試料のペプチドトポロジーを用いて、ペプチドの配列の予想を可能にする、本発明によるCANモジュールと配列ネットワークモジュールとの相互作用の方法段階を図式するフローチャートを示す。段階80で、前記の多数の試料の各試料についての各質量スペクトルが得られ、この際、信号強度ピークは潜在的ペプチドに相応する。その後に、段階88で、既知前駆体を有するペプチドは、前記のペプチドの質量を用いて同定され、この際、既知前駆体の配列が判明する。次いで、既知前駆体を有するペプチドの信号強度と、他の潜在的ペプチドの信号強度との間の相関の測度は、段階90でコンピュータ処理される。段階92で、一定の調整可能な閾値以上で既知前駆体を有するペプチドとの相関度を示す潜在的ペプチドが選択され、最後に、潜在的ペプチドの配列は、段階94で、既知前駆体を有する前記のペプチドと相関する潜在的ペプチドの質量と既知前駆体の配列の推定断片の質量を適合させることによって予想される。
選択的に、段階92後に、潜在的ペプチド及び既知ペプチド各々の間の質量差を、段階96でコンピュータ処理することができ、その後に、段階96で決定された質量差を適合する生物学的、化学的又は物理的方法によって引き起こされる質量差についてのデータを用いることによって、潜在的ペプチドの配列及び/又は生物学的、化学的又は物理的変性配列が、段階98で予想され得る。
前記の研究の第一は更に包括的であり、それというのも、もっともらしい全ての推定的配列が既知ペプチドの前駆体配列から生じるからである(段階90〜98)。第二の研究(段階90〜96、100〜102)は、より信頼できる予想を殆ど生じさせない。関連ペプチドは、極めて類似の配列/配列変性を極めて頻繁に有し、これらのペプチドは、第二の研究によって促進されることが観察された。それにもかかわらず、2つの研究は、共通して段階90〜96を有するので、本発明で意図されるように、2つの研究が1つの操作に合同される場合には、コンピュータ電源は"保存される(saved)"である。
質量差は、N‐又はC‐末端アミノ酸残基又はアミノ酸側鎖の翻訳後変性、例えば、燐酸化、アミド化、硫酸化(sulfatation)、グリコシル化、脂肪酸又はユビキチン変性等又は化学的変性、例えば、酸化、ジスルフィド結合等又はN‐又はC‐末端変性、例えば、ピログルタメート変性等の付加又は除去から生じ得る。これらの全変性は、相応するペプチドの分子量の明白な増加又は減少を生じさせる。内部挿入又は欠失又は1つのアミノ酸の、他のアミノ酸との交換、いわゆる、点突然変異は、ペプチドの正確に予想可能な質量変化を生じさせる。
本発明により、配列の予想は、関連ペプチドの1つの個性が既知であるか否かにかかわらず可能である。殊に、1つのペプチドの個性が既知である場合には、アミノ酸残基の分子量に相応する質量差は、高い確実性で未知ペプチドの完全な配列を直接予想することが可能である。ペプチドの個性が未知である場合には、例えば、未知ペプチド1及び未知ペプチド2は、同一であることが予想され得て(例えば、ペプチド2が付加的なアミノ酸残基、例えば、チロシン基を含有することを除いて)、又は、例えば、ペプチド2が、ペプチド1と同じペプチドである(それが燐酸化される等のことを除いて)。予想は、常に正しいとは限らないが、独立した情報をもっと得られれば得られるほど、もっと信頼できる予想が得られる。例えば、質量差がチロシンアミノ酸残基の付加に適合し、かつ付加的なチロシンでのペプチドの画分‐シフトの予想に適合する画分中に、ペプチドが存在する場合には、予想の全体的な信頼性は増加する。
この実施態様について、専有及び/又は商業的及び/又は公共のデータベースの使用が可能である。好適なデータベースは、例えば、アミノ酸又は核酸配列情報を含有するデータベース、例えば、NCBI配列データベース、Swiss‐Prot、EMBEL配列データベース、日本のDNAデータベース、特許を受けた配列のデータベース等、炭水化物の構造についての情報を有するデータベース、例えば、PROSITE(Falquet et al, Nucleic Acids Res., 30, 235 - 238, 2002)、翻訳後、酵素的又は化学的ペプチド変性、例えば、ペプチドの燐酸化部位、ペプチドのグリコシル化部位、稀なアミノ酸、例えば、ヒドロキシ‐プロリン又はヒドロキシ‐リジンのペプチド内での位置についての情報を有するデータベース、ペプチド配列内でのプロテアーゼ、リガーゼ、ホスファターゼ、キナーゼ等の認識部位についての情報を有するデータベース、一定のアミノ酸又はアミノ酸配列の化学的変性、例えば、酸化、還元、分子内‐転位への感受性についての情報を有するデータベース、ペプチド、炭水化物又は他の生物学的構造等についての三次元的構造についてのデータを有するデータベース(Falquet et al, Nucleic Acids Res., 30, 235 - 238, 2002)である。これらの異なった種類の全データベースは、これらのペプチドの一定の漸次的に増加又は減少される分子量に基づく、ペプチド間の構造的差を予想することができる。例えば:
(i)データベース中に蓄積されたアミノ酸配列は、連続的に短縮又は延長されたペプチド又はその配列の突然変異を包含するペプチドの質量の計算を可能にする
(ii)例えば、キナーゼの認識部位(配列)を有するデータベースは、そのような認識部位を有する一定のペプチドの分子量が、ホスフェート基の質量によって増加又は減少される分子量を有し得ることを予想することを可能とする
(iii)プロテアーゼの認識部位のデータベースは、一定のペプチドの潜在的タンパク質分解断片の分子量を予想することを可能にする
(iv)ペプチドの物理的特性、例えば、例として疎水性相互作用クロマトグラフィー中の溶離時間についての実験的データを有するデータベースは、一定の分子量を有する一定のペプチド配列が、クロマトグラフィー中に一定の時点で溶離しそうであるかどうかを予想することを可能にする
(v)アミノ酸組成及び/又はペプチドの配列に基づく、クロマトグラフィー保留時間又は画分数の予想値を有するデータベース:一定のクロマトグラフィーカラムを使用する場合には、付加的なチロシン基を有するペプチドは、付加的なチロシン基を持たないペプチドよりも3画分遅く溶離する。例えば、質量yを有する画分x中のペプチドIは既知であり、画分x+3内の関連ペプチドIIは、分子量y+チロシン基の質量を有する。これは、その配列内のどこかに付加的なチロシン基を有することを除いて、ペプチドIIがペプチドIと同じペプチドであることを高い確率で示す。
(vi)例えば、ペプチドの三次元構造のデータベースは、潜在的な相応するペプチドの分子量を増加させることになる、例えば、一定のアミノ酸側鎖で、例えば、ホスフェート基又は糖半分によって変性されるのに十分な空間があるかどうかを予想することを可能にする。
(i)データベース中に蓄積されたアミノ酸配列は、連続的に短縮又は延長されたペプチド又はその配列の突然変異を包含するペプチドの質量の計算を可能にする
(ii)例えば、キナーゼの認識部位(配列)を有するデータベースは、そのような認識部位を有する一定のペプチドの分子量が、ホスフェート基の質量によって増加又は減少される分子量を有し得ることを予想することを可能とする
(iii)プロテアーゼの認識部位のデータベースは、一定のペプチドの潜在的タンパク質分解断片の分子量を予想することを可能にする
(iv)ペプチドの物理的特性、例えば、例として疎水性相互作用クロマトグラフィー中の溶離時間についての実験的データを有するデータベースは、一定の分子量を有する一定のペプチド配列が、クロマトグラフィー中に一定の時点で溶離しそうであるかどうかを予想することを可能にする
(v)アミノ酸組成及び/又はペプチドの配列に基づく、クロマトグラフィー保留時間又は画分数の予想値を有するデータベース:一定のクロマトグラフィーカラムを使用する場合には、付加的なチロシン基を有するペプチドは、付加的なチロシン基を持たないペプチドよりも3画分遅く溶離する。例えば、質量yを有する画分x中のペプチドIは既知であり、画分x+3内の関連ペプチドIIは、分子量y+チロシン基の質量を有する。これは、その配列内のどこかに付加的なチロシン基を有することを除いて、ペプチドIIがペプチドIと同じペプチドであることを高い確率で示す。
(vi)例えば、ペプチドの三次元構造のデータベースは、潜在的な相応するペプチドの分子量を増加させることになる、例えば、一定のアミノ酸側鎖で、例えば、ホスフェート基又は糖半分によって変性されるのに十分な空間があるかどうかを予想することを可能にする。
推定アミノ酸配列の物理化学的及び生化学的特性の予想は、実験的に測定された特性に驚異的にも良く適合する。この研究は、図1に示した補助データ56によって得られるような、及び前記したような、前駆体アミノ酸配列及び既知の関連ペプチドの翻訳後、化学的及び酵素的変性についての知識を利用して、拡大され得る。更に、既知ペプチドについての情報、例えば、その前駆体の名称、その前駆体の配列、その前駆体配列内の出発及び終止‐位置は、予想過程前又はその間に検索し得る。プロテアーゼ認識部位、ドメインの予想、及びタンパク質分解消化に感受性の構造についての情報も検索することができる。この情報は、データベース又はリストから、又は比較可能な情報給源から、手動的に供給され得る。単一同位体m/z比率から平均m/z比率への変換、荷電イオンのm/z比率から非‐荷電イオンのm/z比率への変換は、合理的な許容誤差の範囲内で、当業者に公知である。
本発明は、前記の1方法によって誘導される推定アミノ酸配列が、未知ペプチドのペプチド信号座標に適合するかどうかを決定する特殊な規則を包含する。図8a〜8d図示されるこれらの規則を、任意の順序で適用することができるが、それらの全ての規則を、任意の与えられた場合に適用する必要はない:
規則a:
この規則は、未知のペプチド座標が、次の条件によって、既知ペプチド座標のn‐倍荷電されたイオンであるかどうかを検査するために、式4(後記)を適用し、この際、nは、1よりも大きい正数であってよく、m/z未知ペプチドは、未知ペプチドのm/z比率であり、m/z既知ペプチドは、既知ペプチドのm/z比率であり、かつ質量閾値は、測定質量から計算された質量の最大差である。有利な質量閾値は、機器及びその後のデータ処理工程の質量精度に等しい。この条件が応じられる場合には、この提案は、高い適合値で報いられ、かつ未知ペプチドが、既知ペプチドのn‐倍荷電されたイオンであるという提案は蓄積され得る。
規則a:
この規則は、未知のペプチド座標が、次の条件によって、既知ペプチド座標のn‐倍荷電されたイオンであるかどうかを検査するために、式4(後記)を適用し、この際、nは、1よりも大きい正数であってよく、m/z未知ペプチドは、未知ペプチドのm/z比率であり、m/z既知ペプチドは、既知ペプチドのm/z比率であり、かつ質量閾値は、測定質量から計算された質量の最大差である。有利な質量閾値は、機器及びその後のデータ処理工程の質量精度に等しい。この条件が応じられる場合には、この提案は、高い適合値で報いられ、かつ未知ペプチドが、既知ペプチドのn‐倍荷電されたイオンであるという提案は蓄積され得る。
規則b:
既知のハブペプチドP1及び関連ペプチドP2の質量差が、例えば、図9に示された表"ペプチド及びタンパク質の翻訳後変性による質量変化"中に挙げられたように、又は公知技術水準(Falquet et al, Nucleic Acids Res., 30, 235 - 238, 2002)から公知であるように、翻訳後変性の質量に相応する場合には、P2は、P1の翻訳後変性化誘導体であると提案される。既知のハブペプチドP1のアミノ酸配列が、翻訳後変性のための特殊部位を含有する場合、又はP1が翻訳後変性される又はされ得ることが公知である場合、及び既知及び未知ペプチド間の質量差がその翻訳後変性の存在又は不在から生じる質量差に相応する場合には、適合値は増加される。図15に示した表は、モチーフ、これらのモチーフを認識する酵素及び生じる質量差を例証する。多数の他の翻訳後変性又は一定の翻訳後変性を有する推定配列モチーフは、公知技術水準で公知であり、N‐グリコシル化又はO‐グリコシル化部位(モチーフ)、燐酸化部位、スルフェート化部位等と同様に使用され得る(例えば、Alberts et al, Molecular Biology of the Cell, Garland Publications, 2002; Coligan et al, Short Protocols in Protein Science, John Wiley & Sons, 2003; Falquet et al, Nucleic Acids Res., 30, 235- -238, 2002)。
既知のハブペプチドP1及び関連ペプチドP2の質量差が、例えば、図9に示された表"ペプチド及びタンパク質の翻訳後変性による質量変化"中に挙げられたように、又は公知技術水準(Falquet et al, Nucleic Acids Res., 30, 235 - 238, 2002)から公知であるように、翻訳後変性の質量に相応する場合には、P2は、P1の翻訳後変性化誘導体であると提案される。既知のハブペプチドP1のアミノ酸配列が、翻訳後変性のための特殊部位を含有する場合、又はP1が翻訳後変性される又はされ得ることが公知である場合、及び既知及び未知ペプチド間の質量差がその翻訳後変性の存在又は不在から生じる質量差に相応する場合には、適合値は増加される。図15に示した表は、モチーフ、これらのモチーフを認識する酵素及び生じる質量差を例証する。多数の他の翻訳後変性又は一定の翻訳後変性を有する推定配列モチーフは、公知技術水準で公知であり、N‐グリコシル化又はO‐グリコシル化部位(モチーフ)、燐酸化部位、スルフェート化部位等と同様に使用され得る(例えば、Alberts et al, Molecular Biology of the Cell, Garland Publications, 2002; Coligan et al, Short Protocols in Protein Science, John Wiley & Sons, 2003; Falquet et al, Nucleic Acids Res., 30, 235- -238, 2002)。
規則c:
推定配列又は推定断片は、ハブペプチドの既知前駆体配列の潜在的アミノ‐及びカルボキシ‐末端切断又はアミノ酸の付加から生じられ、それらが未知ペプチド座標の実測m/z比率に適合するかどうかを検査される。推定配列は、図8bで例証されるように、ハブペプチドの与えられた前駆体配列中の出発‐及び終止‐位置、i及びjを組織的に及び反復的に定義することによって生じられる。推定アミノ酸配列の質量M計算は、アミノ酸、アミノ酸残基の仮説された翻訳後変性及び/又は推定アミノ酸配列の末端基の質量を総合計することによって計算される(図9、11及び11中の表及び後記の式5参照)。規則cは、計算された質量が、与えられた質量閾値T質量よりも少ないことにより、未知ペプチド信号の測定された質量M実測と異なる場合には、この推定アミノ酸配列+翻訳後変性が提案され、更に規則d〜iが適用され得るが、そうでなければ、この提案は拒絶されることを定義する。これは、1個以上の推定ペプチド配列で、又は既知の関連ペプチド信号座標の前駆体配列から推論され得る全ての仮説的に可能なペプチド配列で行なわれ得る。
推定配列又は推定断片は、ハブペプチドの既知前駆体配列の潜在的アミノ‐及びカルボキシ‐末端切断又はアミノ酸の付加から生じられ、それらが未知ペプチド座標の実測m/z比率に適合するかどうかを検査される。推定配列は、図8bで例証されるように、ハブペプチドの与えられた前駆体配列中の出発‐及び終止‐位置、i及びjを組織的に及び反復的に定義することによって生じられる。推定アミノ酸配列の質量M計算は、アミノ酸、アミノ酸残基の仮説された翻訳後変性及び/又は推定アミノ酸配列の末端基の質量を総合計することによって計算される(図9、11及び11中の表及び後記の式5参照)。規則cは、計算された質量が、与えられた質量閾値T質量よりも少ないことにより、未知ペプチド信号の測定された質量M実測と異なる場合には、この推定アミノ酸配列+翻訳後変性が提案され、更に規則d〜iが適用され得るが、そうでなければ、この提案は拒絶されることを定義する。これは、1個以上の推定ペプチド配列で、又は既知の関連ペプチド信号座標の前駆体配列から推論され得る全ての仮説的に可能なペプチド配列で行なわれ得る。
式5:質量の計算
[ここで、
M計算は、与えられた/推定の配列を有するペプチドの計算された質量であり、
M1文字アミノ酸コードは、特定のアミノ酸の質量であり、
n1文字アミノ酸コードは、与えられた/推定の配列中の特定アミノ酸の数であり、
MN‐末端基は、N‐末端基の質量であり、
MC‐末端基は、C‐末端基の質量であり、かつ
M変性は、1回以上の変性による質量変化であり、変性のない場合には、
M変性=0である]。
M計算は、与えられた/推定の配列を有するペプチドの計算された質量であり、
M1文字アミノ酸コードは、特定のアミノ酸の質量であり、
n1文字アミノ酸コードは、与えられた/推定の配列中の特定アミノ酸の数であり、
MN‐末端基は、N‐末端基の質量であり、
MC‐末端基は、C‐末端基の質量であり、かつ
M変性は、1回以上の変性による質量変化であり、変性のない場合には、
M変性=0である]。
規則d:
アミノ酸の数及び個性は、使用されるクロマトグラフィーカラムの大きさ及び種類及びクロマトグラフィー条件に依存して、溶離時間/画分数に影響する。ペプチドの画分数/溶離時間は、いわゆる、データの群方法(Group Method of Data)(GMDH, e. g. Mueller and Lemke, Self - Organising Data Mining Extracting Knowledge From Data, Trafford Publishing, 2003)、後記の式6に例証されるのと同じクロマトグラフィー条件下で分離される、既知配列を有する1組の訓練ペプチドを用いる多重回帰又は比較可能な数学的方法によって、そのアミノ酸配列に基づき、驚異的にも良好に予想され得る。前記の訓練組において、ペプチドの任意のアミノ酸残基型の数は独立した変数であるが、ペプチドの画分数は従属的な変数である。予想されたアミノ酸配列の計算された画分数(例えば、式6)が、与えられた許容誤差の範囲内で、未知ペプチドの誘導された画分数に適合する場合には、モデル適合点は増加される。質量差が、明確なアミノ酸欠失/付加から生じることが提案され、かつ画分数における差が、これらの前記のアミノ酸配列差と適合され得る場合には(図13参照)、モデル適合点は増加される。
アミノ酸の数及び個性は、使用されるクロマトグラフィーカラムの大きさ及び種類及びクロマトグラフィー条件に依存して、溶離時間/画分数に影響する。ペプチドの画分数/溶離時間は、いわゆる、データの群方法(Group Method of Data)(GMDH, e. g. Mueller and Lemke, Self - Organising Data Mining Extracting Knowledge From Data, Trafford Publishing, 2003)、後記の式6に例証されるのと同じクロマトグラフィー条件下で分離される、既知配列を有する1組の訓練ペプチドを用いる多重回帰又は比較可能な数学的方法によって、そのアミノ酸配列に基づき、驚異的にも良好に予想され得る。前記の訓練組において、ペプチドの任意のアミノ酸残基型の数は独立した変数であるが、ペプチドの画分数は従属的な変数である。予想されたアミノ酸配列の計算された画分数(例えば、式6)が、与えられた許容誤差の範囲内で、未知ペプチドの誘導された画分数に適合する場合には、モデル適合点は増加される。質量差が、明確なアミノ酸欠失/付加から生じることが提案され、かつ画分数における差が、これらの前記のアミノ酸配列差と適合され得る場合には(図13参照)、モデル適合点は増加される。
規則e:
予想されたアミノ酸配列のN‐末端位が、既知ペプチドのN‐末端位と同じである場合には、適合値は増加される。これは、基礎信号の既知ペプチド及び未知ペプチドが、驚異的にもしばしば観察されるC‐末端タンパク質分解反応を経由して、関連されるからである。
予想されたアミノ酸配列のN‐末端位が、既知ペプチドのN‐末端位と同じである場合には、適合値は増加される。これは、基礎信号の既知ペプチド及び未知ペプチドが、驚異的にもしばしば観察されるC‐末端タンパク質分解反応を経由して、関連されるからである。
規則f:
予想されたアミノ酸配列のC‐末端位が、既知ペプチドのC‐末端位と同じである場合には、適合値は増加される。これは、基礎信号の既知ペプチド及び未知ペプチドが、驚異的にもしばしば観察されるN‐末端タンパク質分解反応を経由して、関連されるからである。
予想されたアミノ酸配列のC‐末端位が、既知ペプチドのC‐末端位と同じである場合には、適合値は増加される。これは、基礎信号の既知ペプチド及び未知ペプチドが、驚異的にもしばしば観察されるN‐末端タンパク質分解反応を経由して、関連されるからである。
規則g:
予想される配列の出発位置及び/又は終止‐位置が、滅多に起こらないタンパク質分解反応の部位によって先行される又は後追される場合には、この提案の適合値は減少される。予想配列の出発位置及び/又は終止‐位置が、常習的に起こるタンパク質分解反応の部位によって先行される又は後追いされる場合には、この提案の適合値は増加される。これは、ペプチドがしばしば特異的及び/又は非特異的プロテアーゼの生成物であることが観察されたからである。試料の給源及び製法に依存して、プロテアーゼ及び分子内転位、例えば、ジスルフィド結合は変化し得る。例えば、試料給源として、脳脊髄液(CSF)を用いて、配列"R‐R"又は"R‐K"は、それらがCSF中のプロホルモン転換酵素(convertase)PC2の認識部位であるので、前駆体中のペプチドのN‐末端位を常習的に先行する。既知酵素認識部位の次に、若干のアミノ酸がもっと常習的であり、他方は常習性が劣る。ペプチドのN‐及びC‐末端位を先行又は後追する位置は、その特別な方法で処理される特別な試料中で、そのほんのパーセントの発生に基づいて予想され得る。この種類の情報は、容易に実験的に決定することができ、ヒト脳脊髄液中に存在するペプチドの例が、図14a〜14d中の表に示される。表"CSF:第一開裂前のアミノ酸"、"CSF:第一開裂後のアミノ酸"、"CSF:最終開裂前のアミノ酸"、及び"CSF:最終開裂後のアミノ酸"が、タンパク質分解反応の結果として、実測されたN‐又はC‐末端アミノ酸頻度を要約する。図14a〜14dに示された表の上部のそれらのアミノ酸が、予想された配列中の相応する位置に存在する場合には、規則hは適合値を増加させるが、これらの表の下部のそれらのアミノ酸は予想の適合値を減少させる。図14a〜14dに示された表は、CSF試料が本発明の例のCSF試料と同じ方法で処理される限り、ヒト脳脊髄液中の存在するペプチドのN‐又はC‐末端での一定のアミノ酸残基の存在の可能性を予想することに好適である。図14a〜14dに示された1表と同様の表は、実験的に任意の試料、例えば、全血、血清、血漿、尿等について生じられ、試料の処理は、全試料が同様の方法で処理される限り、任意の種類であってよい。
予想される配列の出発位置及び/又は終止‐位置が、滅多に起こらないタンパク質分解反応の部位によって先行される又は後追される場合には、この提案の適合値は減少される。予想配列の出発位置及び/又は終止‐位置が、常習的に起こるタンパク質分解反応の部位によって先行される又は後追いされる場合には、この提案の適合値は増加される。これは、ペプチドがしばしば特異的及び/又は非特異的プロテアーゼの生成物であることが観察されたからである。試料の給源及び製法に依存して、プロテアーゼ及び分子内転位、例えば、ジスルフィド結合は変化し得る。例えば、試料給源として、脳脊髄液(CSF)を用いて、配列"R‐R"又は"R‐K"は、それらがCSF中のプロホルモン転換酵素(convertase)PC2の認識部位であるので、前駆体中のペプチドのN‐末端位を常習的に先行する。既知酵素認識部位の次に、若干のアミノ酸がもっと常習的であり、他方は常習性が劣る。ペプチドのN‐及びC‐末端位を先行又は後追する位置は、その特別な方法で処理される特別な試料中で、そのほんのパーセントの発生に基づいて予想され得る。この種類の情報は、容易に実験的に決定することができ、ヒト脳脊髄液中に存在するペプチドの例が、図14a〜14d中の表に示される。表"CSF:第一開裂前のアミノ酸"、"CSF:第一開裂後のアミノ酸"、"CSF:最終開裂前のアミノ酸"、及び"CSF:最終開裂後のアミノ酸"が、タンパク質分解反応の結果として、実測されたN‐又はC‐末端アミノ酸頻度を要約する。図14a〜14dに示された表の上部のそれらのアミノ酸が、予想された配列中の相応する位置に存在する場合には、規則hは適合値を増加させるが、これらの表の下部のそれらのアミノ酸は予想の適合値を減少させる。図14a〜14dに示された表は、CSF試料が本発明の例のCSF試料と同じ方法で処理される限り、ヒト脳脊髄液中の存在するペプチドのN‐又はC‐末端での一定のアミノ酸残基の存在の可能性を予想することに好適である。図14a〜14dに示された1表と同様の表は、実験的に任意の試料、例えば、全血、血清、血漿、尿等について生じられ、試料の処理は、全試料が同様の方法で処理される限り、任意の種類であってよい。
規則h:
既知及び未知ペプチドのペプチド座標間の質量差が、1個以上の明確なN‐又はC‐末端アミノ酸の損失によって説明される場合には、この予想の適合値は増加される。
既知及び未知ペプチドのペプチド座標間の質量差が、1個以上の明確なN‐又はC‐末端アミノ酸の損失によって説明される場合には、この予想の適合値は増加される。
規則i:
規則b〜hの1つ又はそれらの組み合わせによって、予想が生じられ、未知ペプチドが既知ペプチドの翻訳語変性の反応体又は生成物であることを提案する場合には、この提案は、与えられた翻訳後変性を行なう酵素による、タンパク質配列内での反応部位の接近可能性の観点で決定することによって試験される。従って、ペプチド又はタンパク質の三次元データを蓄積するデータベースにおける検索が、提案された部位がタンパク質の表面及び/又はその構造上で、その酵素の反応を立体的に可能にさせることを示す場合には、その予想の適合値は増加する。同様の方法で、配列の領域が翻訳後変性法によって変更されることが提案される場合には、その配列領域の酵素への接近可能性は、その特別な領域の疎水性を評価する算法によって評価される(Engelman et al, Ann. Rev. Biophys. Chem. 15, 321, 1986; Heijne著、Eur. J. Biochem., 116, 419, 1981)。例えば、高親水性配列領域は、翻訳後変性を行なう酵素によって、疎水性配列領域よりももっと接近されやすそうであり、従って、その予想の適合値は増加される。
規則b〜hの1つ又はそれらの組み合わせによって、予想が生じられ、未知ペプチドが既知ペプチドの翻訳語変性の反応体又は生成物であることを提案する場合には、この提案は、与えられた翻訳後変性を行なう酵素による、タンパク質配列内での反応部位の接近可能性の観点で決定することによって試験される。従って、ペプチド又はタンパク質の三次元データを蓄積するデータベースにおける検索が、提案された部位がタンパク質の表面及び/又はその構造上で、その酵素の反応を立体的に可能にさせることを示す場合には、その予想の適合値は増加する。同様の方法で、配列の領域が翻訳後変性法によって変更されることが提案される場合には、その配列領域の酵素への接近可能性は、その特別な領域の疎水性を評価する算法によって評価される(Engelman et al, Ann. Rev. Biophys. Chem. 15, 321, 1986; Heijne著、Eur. J. Biochem., 116, 419, 1981)。例えば、高親水性配列領域は、翻訳後変性を行なう酵素によって、疎水性配列領域よりももっと接近されやすそうであり、従って、その予想の適合値は増加される。
規則a〜i及び任意に付加的な規則を適用してコンピュータ処理された結果を、コンピュータ読取可能なフォーマット中のリスト又はデータベース中に蓄積させることができ、及び/又は好適なユーザーインターフェース、例えば、モニターを介して印刷又はディスプレーすることができる。未知のアミノ酸配列についての1つ以上の予想が、前記の規則で得られる結果に適合する場合には、予想された配列は、図8b中の段階148で示されるような上部の未知ペプチドについての最適配列で順位をつけられ得る。既知ペプチドP1が1個以上の関連の未知ペプチドP2を有する場合には、前記の研究は、図8cに示されたような全ての未知ペプチドP2について繰り返しされ得る。前記の研究は、図8d中に例証されたようなペプチドのリスト中の任意の既知ペプチド信号P1に拡大され得る。
示差ネットワークモジュール
本発明により、示差ネットワークモジュールと基本的CANモジュールとの相互作用は、試料A及び試料Bとの間で相互から独立して区別するペプチドを同定することを可能にする。A状態は、若い、年取った、健康な、病気の、甘味、苦味、形質転換の、非‐形質転換の、黄色、緑色、男性、女性、妊娠の、非‐妊娠の、喫煙者、非喫煙者又は試料の群又は小群又は試料がそれから誘導される有機体を定義する任意の他の基準である。任意に、示差ネットワークモジュールは、本発明の他のモジュール及び殊に、図1中に示したような基礎的CANモジュールと同様に、データ、例えば、試料の状態を有する様々なデータベースと結合される。示差ネットワークモジュールは、明確な基準、例えば、試料の状態によって定義される試料の小群を定義すること、及び更に、任意の状態又は1つ以上の状態の任意の組み合わせについてのペプチド‐対‐ペプチド関係を別々に計算することを、CANモジュールに指示する。第一に、状態Aを表わす試料の群で相関の閾値を満足させるそれらのペプチドペア、第二に、状態Bを表わす試料の群で相関の閾値を満足させるそれらのペプチドペア、及び第三に、関係は、比較される状態A及び状態Bの相関間の差に基づいて定義され得る。利用者が、2つの異なった状態A及びBから試料中の最も異なっているペプチド‐対‐ペプチド関係に関心を持つ場合には、利用者は、各ペプチド‐対‐ペプチド関係の相関係数が異なっていて、かつΔr=│r状態A−r状態B│が、有利に、全ペプチド‐対‐ペプチドΔrの85%よりも大きいペプチドについて検索する。
本発明により、示差ネットワークモジュールと基本的CANモジュールとの相互作用は、試料A及び試料Bとの間で相互から独立して区別するペプチドを同定することを可能にする。A状態は、若い、年取った、健康な、病気の、甘味、苦味、形質転換の、非‐形質転換の、黄色、緑色、男性、女性、妊娠の、非‐妊娠の、喫煙者、非喫煙者又は試料の群又は小群又は試料がそれから誘導される有機体を定義する任意の他の基準である。任意に、示差ネットワークモジュールは、本発明の他のモジュール及び殊に、図1中に示したような基礎的CANモジュールと同様に、データ、例えば、試料の状態を有する様々なデータベースと結合される。示差ネットワークモジュールは、明確な基準、例えば、試料の状態によって定義される試料の小群を定義すること、及び更に、任意の状態又は1つ以上の状態の任意の組み合わせについてのペプチド‐対‐ペプチド関係を別々に計算することを、CANモジュールに指示する。第一に、状態Aを表わす試料の群で相関の閾値を満足させるそれらのペプチドペア、第二に、状態Bを表わす試料の群で相関の閾値を満足させるそれらのペプチドペア、及び第三に、関係は、比較される状態A及び状態Bの相関間の差に基づいて定義され得る。利用者が、2つの異なった状態A及びBから試料中の最も異なっているペプチド‐対‐ペプチド関係に関心を持つ場合には、利用者は、各ペプチド‐対‐ペプチド関係の相関係数が異なっていて、かつΔr=│r状態A−r状態B│が、有利に、全ペプチド‐対‐ペプチドΔrの85%よりも大きいペプチドについて検索する。
図15は、状態A及び状態Bを表わす少なくとも2つの異なった実験群から採取される多数の試料のペプチドトポロジーを用いて、マーカーパネルとして使用されるために好適なペプチドの同定を可能にする本発明によるCANモジュールと示差ネットワークモジュールとの相互作用の前記の処理段階を図示するフローチャートを示す。段階170aで、前記の多数の試料の各試料についての各質量スペクトルが得られ、この際、信号強度ピークは潜在的ペプチドに相応する。次に、段階172で、前記の潜在的ペプチドの信号強度間の相関の測度が、各実験群内で別々に多数の各試料についてコンピュータ処理される。最後に、状態A及び状態Bの間で区別するための診断目的用のマーカーパネルとして使用されることに好適であるペプチドがそれによって得られる、一定の閾値以上の異なった実験的群の間の相関度における差を示す潜在的ペプチドペアが、段階174で選択される。
示差ネットワークモジュールの結果は、状態Bに比較される状態Aの試料内でのペプチドの異なった関係について、次のような説明を可能にする:状態AでのペプチドIとペプチドIIとの相関係数引く状態Bでの相応する相関係数の差が、与えられた閾値よりも大きい場合には、ペプチドペアの信号座標、観察される状態A及び状態B内でのそれらの相互距離又は後の情報の差又は組み合わせの程度が、データベース又はリスト中に蓄積される。示差ネットワークモジュールは、ペプチド座標を意味する他のモジュールと同じ映像化法を任意に提供し、それらの関係は、各々、図6で示されるように、線によって結合される黒丸として表わされ得て、かつ同定されたペプチドは、補助的なデータ給源を有するデータベース又はリストへの好都合の結合を介して検査され得る。
本発明のこの観点の他の使用は、1又は少なくとも2つの異なる状態、相応する試料を有する状態A及び相応する試料を有する状態Bを表わす、少なくとも3種の試料中に存在するペプチドの分子量の比較である。例えば、一定の病気を有する個体からの試料対その一定の病気を持たない個体からの試料、妊娠している個体からの試料対非‐妊娠個体からの試料、発現ベクターで形質転換された細菌からの試料対非‐形質転換細菌からの試料、強酸性味のヨーグルトからの試料対緩和な酸性味のヨーグルトからの試料等は、これらの試料中に存在するペプチドの相関測度をコンピュータ処理することによって比較され得る。2つの異なった状態A及びBに相応する2つの試料内でのペプチドの測定パラメーターの比較は、ペプチドが、状態Aの試料中にのみ存在し、状態Bの試料中には存在しないことも示し得る。また、この場合には、状態A及び状態Bでのこのペプチドの測定パラメーターは、多分、相関の測度によって関連され得る。少なくとも2つの異なったペプチド、例えば、ペプチドI及びペプチドIIが同定される場合には、ペプチドI及びペプチドIIについてのパラメーターの測定値は合同され得る。状態Aの代表である少なくとも3つの試料及び状態Bの代表である少なくとも3つの試料の測定値を用いて、数学的関数をコンピュータ処理することができる。この数学的関数は、ペプチドI及びペプチドIIの相関‐ネットワークを描く。1つの相関‐ネットワーク中に2つ以上の異なったペプチドを含有すること、例えば、相関‐ネットワークを描く1つの数学的関数中に2つ以上の異なったペプチドを含有することが可能である。得られた数学的関数は、少なくとも2つのペプチド(ペプチドI及びペプチドII)の相関の測度の組み合わせが、状態Bから状態Aを区別することを可能にすることを描く。
更に、本発明のこの観点の他の使用は、回帰モデルによって試料の状態の予想を可能にする、ペプチド集合の自動同定を包含する。本発明は、少なくとも2種のペプチド間の関係を検出し、この際、関係は、与えられた状態Aの代表である。次の段階で、直線又は非‐直線回帰モデルは、見出されたペプチドの入力パラメーター、例えば、それらの各MALDI信号強度を使用し、かつそれらの入力パラメーターを終点パラメーター、例えば、診断(はい/いいえ=1/0)に適合させ、又はこの誘導された集合のペプチドの他のパラメーターに適合させるように設定される。
未知状態の試料が状態Aの一員であるかどうかを検査するために、その試料からのこれらのペプチドの入力パラメーターを誘導モデルに応用させる。その試料から得られる出力値が、決定された機能によって得られる予想値から、状態Aからの他の試料としての範囲で逸脱する場合には、この未知の試料が状態Aからであると考えられ得る。さもないと、多分、試料は他の状態を有する。
マーカーパネルネットワークモジュール
本発明により、マーカーパネルネットワークモジュールと基本的CANモジュールとの相互作用は、状態Aを表わす試料と状態Bを表わす試料との間で相互から独立して区別するペプチドを同定することを可能にする。例えば、病気は、異なった因子、例えば、炎症及び増加鼓動率によって引き起こされる。これらの各病気因子は、例えば、患者の血漿中の明確なペプチドの変化濃度を引き起こす。例えば、2つのペプチドマーカーのパネルが病気の診断に使用される場合には、ペプチドマーカーの1つが炎症を指示し、他方のペプチドマーカーが増加鼓動率を指示する。これらの2つのマーカーの組み合わせは、炎症及び増加鼓動率の組み合わせによって引き起こされる病気を検出するためのマーカーパネルの特異性及び感受性を増加させる。マーカーパネルネットワークモジュールは、病気に関連されるが、多分、異なった病気因子(この仮説的症例では、炎症及び増加鼓動率)に関連されるそれらの潜在的ペプチドを選択し、それというのも、これらのペプチド座標は、相互に相関の低測度を有するが、2つとも病気への高い相関を有するからである。従って、診断的試験の特異性及び感受性は、マーカーパネルへのこれらの相補的ペプチド座標を組み合せることによって改善され得る。
本発明により、マーカーパネルネットワークモジュールと基本的CANモジュールとの相互作用は、状態Aを表わす試料と状態Bを表わす試料との間で相互から独立して区別するペプチドを同定することを可能にする。例えば、病気は、異なった因子、例えば、炎症及び増加鼓動率によって引き起こされる。これらの各病気因子は、例えば、患者の血漿中の明確なペプチドの変化濃度を引き起こす。例えば、2つのペプチドマーカーのパネルが病気の診断に使用される場合には、ペプチドマーカーの1つが炎症を指示し、他方のペプチドマーカーが増加鼓動率を指示する。これらの2つのマーカーの組み合わせは、炎症及び増加鼓動率の組み合わせによって引き起こされる病気を検出するためのマーカーパネルの特異性及び感受性を増加させる。マーカーパネルネットワークモジュールは、病気に関連されるが、多分、異なった病気因子(この仮説的症例では、炎症及び増加鼓動率)に関連されるそれらの潜在的ペプチドを選択し、それというのも、これらのペプチド座標は、相互に相関の低測度を有するが、2つとも病気への高い相関を有するからである。従って、診断的試験の特異性及び感受性は、マーカーパネルへのこれらの相補的ペプチド座標を組み合せることによって改善され得る。
例えば、炎症と関連される病気1(状態A)は、炎症と関連されない他の病気2(状態B)と区別されるべきである。例えば、病気1と病気2とを区別する4種のペプチドが見出される。ペプチド1及びペプチド2は、同じタンパク質から、例えば、TNF‐αからの断片であり、ペプチド3は、例えば、IL‐6の断片であり、かつペプチド4は、未知タンパク質の断片である。これらの全4種のペプチドは、相関の測度によって病気1及び病気2を区別するが、ペプチド1及び2は、それらが同じ分子(TNF‐α)から起源するので、当然、相互に相関する。付加的に、ペプチド1及びペプチド3は、TNF‐α及びIL‐6が類似の前‐炎症機能を有するので、同様に当然、相互に相関する。結果的に、これらは2つの群のペプチドであり、ペプチド1、2及び3は1つの群に属し、ペプチド4は第二群を表わす。診断的試験を得るために、ペプチド1及び2又は1及び3又は2及び3の検出の、改善された特異性及び/又は感受性との組み合わせでは、ペプチド1及び4又は2及び4又は3及び4の組み合わせが行なうのと同様には、特異性及び/又は感受性を増加させない。この方法は、付加的又は相乗的値(診断的、治療的、機能的等)を有するペプチドパネルを同定することを可能にする。
図16は、状態A及び状態Bを表わす少なくとも2つの異なった実験群から採取される多数の試料のペプチドトポロジーを用いて、マーカーパネルとして使用されるのに好適なペプチドの同定を可能にする、本発明によるCANモジュールとマーカーパネルネットワークモジュールの相互作用の方法段階を図示するフローチャートを示す。段階180aで、前記の多数の試料の各試料についての各質量スペクトルが得られ、この際、信号強度ピークは潜在的ペプチドに相応する。次いで、段階182で、状態A又は状態Bを表わすパラメーターと相関する潜在的ペプチドが選択される。その後に、段階184で、多数の各試料についての前記の選択された潜在的ペプチドの信号強度間の相関の測度がコンピュータ処理され、最後に、段階186で、一定の閾値以上のそれらの各信号強度の相関を示さない潜在的ペプチドペアが選択され、それによって、状態A及び状態Bの間で区別するための診断目的用のマーカーパネル中で、相補ペプチドとして使用されることに好適である潜在的ペプチドを得る。
言い換えれば、マーカーパネルネットワークモジュールは、状態A又は状態Bを表わすパラメーターと相関する潜在的ペプチドを選択する。次いで、マーカーパネルネットワークモジュールは、相互にそれらの各信号強度の相関の極めて低い測度を有する、選択されたペプチド座標のそれらのペアについての相関連合ネットワーク(CAN)を問いただす。その結果は、状態A又はBに関連されるが、直接的には相互に関連せず、状態A及びB間で区別するためのマーカーパネルのために組み合わされ得るペプチドペアである。マーカーパネルに2つ以上のペプチドを組合させることが可能である。
前節で記載した示差ネットワークモジュールは、その濃度比率が一定の状態を示すペプチド及びそれから比率が異なった状態を示す偏差の組み合わせを発見する。前記の比率を計算するために、2つの/任意のペプチドの信号強度(例えば、濃度)を測定することは必須である。2つのペプチド間の関係は、状態Aでのみ存在していてよいが、一方で、同じ2つのペプチド間の関係は、異なっている又は状態Bで存在しない、であってよい。
対照的に、本節で記載されるマーカーパネルネットワークモジュールによって発見された任意のペプチドは、単独で診断用マーカーとして用いられるが、2つのマーカーの組み合せは、診断試験の感受性/特異性等を改善する。理想的には、マーカーパネル員は、2つの状態の任意で、相互に関連すべきでない。マーカーパネル員が相互に関連する場合には、それらの組み合わせは、多分、診断の感受性/特異性を改善しない。
代理ネットワークモジュール
代理ネットワークモジュールは、確立された診断的又は治療的ペプチド又は他の使用のペプチドを置換又は相補ペプチド(いわゆる、代理ペプチド)の同定に関係する。例えば、ペプチドが既知の生体活性の治療的ペプチドと相関し、これらのペプチドは、治療的測定のための代理として用いられ、又はそれどころか、より高い/より大きい能力、効力、特異性、選択性及び/又はより少ない不所望な副作用を示し得ることが発見された。これらの種類のペプチドは、図17に示される段階を適用することによって、本発明によるCANモジュールと組み合せた代理ネットワークモジュールを使用して発見され得る。最初に、分析される各試料の各質量スペクトルが得られ、その際、信号強度ピークは潜在的ペプチドに相応する(段階190)。その後に、段階192で、既知ペプチドの信号強度と潜在的ペプチドの信号強度との間の相関の測度がコンピュータ処理され、最後に、段階194で、一定の閾値以上の既知ペプチドとの相関度を示すそれらの潜在的ペプチドは選択され、それによって、既知ペプチドを置換又は相補することに好適な潜在的ペプチドが得られる。代理ネットワークモジュールの2つの例証的適用を後記する。
代理ネットワークモジュールは、確立された診断的又は治療的ペプチド又は他の使用のペプチドを置換又は相補ペプチド(いわゆる、代理ペプチド)の同定に関係する。例えば、ペプチドが既知の生体活性の治療的ペプチドと相関し、これらのペプチドは、治療的測定のための代理として用いられ、又はそれどころか、より高い/より大きい能力、効力、特異性、選択性及び/又はより少ない不所望な副作用を示し得ることが発見された。これらの種類のペプチドは、図17に示される段階を適用することによって、本発明によるCANモジュールと組み合せた代理ネットワークモジュールを使用して発見され得る。最初に、分析される各試料の各質量スペクトルが得られ、その際、信号強度ピークは潜在的ペプチドに相応する(段階190)。その後に、段階192で、既知ペプチドの信号強度と潜在的ペプチドの信号強度との間の相関の測度がコンピュータ処理され、最後に、段階194で、一定の閾値以上の既知ペプチドとの相関度を示すそれらの潜在的ペプチドは選択され、それによって、既知ペプチドを置換又は相補することに好適な潜在的ペプチドが得られる。代理ネットワークモジュールの2つの例証的適用を後記する。
例えば、血漿試料は、ペプチドインシュリンを含有することが公知であり、同じ血漿試料内で潜在的に未知のペプチドXはペプチドインシュリンと相関する。この場合には、ペプチドXは、その相関測度が、それとインシュリンとが関連することを示すので、インシュリンと同じ機能を有する。その理由は、ペプチドXが、インシュリンの誘導体、例えば、インシュリンのグリコシル化型、又はインシュリンのアミノ酸配列と完全に異なるが、インシュリンと同じ機能的または代謝的循環で包含される他のペプチドであるからである。2つの場合には、ペプチドXは、例えば、糖尿病治療でインシュリンの使用に二者択一として用いられ得る。また、ペプチドXはインシュリンと組んで、それ自体によってインシュリンの治療的効果を改善することが判明する。
更なる例で、前立腺癌患者の組織試料は、前立腺癌の既知マーカーである前立腺特異性抗体(PSA)を含有する。他の潜在的に未知のペプチドYは、相関測度によってPSAペプチドに関連され、従って、ペプチドYは、PSAペプチドと同様の前立腺癌の生体マーカーとしての診断的価値を有し、又はペプチドYの測定は、PSA測定による前立腺癌診断を補足する。
モジュールの相互作用
前記の任意のモジュールは、独立的に使用され得るが、これらのモジュールの任意の組み合わせを使用することができ、かつ能力的に1種以上のモジュールの結果を相乗的に改善することができる。
前記の任意のモジュールは、独立的に使用され得るが、これらのモジュールの任意の組み合わせを使用することができ、かつ能力的に1種以上のモジュールの結果を相乗的に改善することができる。
例えば、代理ネットワークモジュールの結果は、配列ネットワークモジュールによって分析され得る。代理ネットワークモジュールが未だ配列されないペプチド信号を生じさせる場合には、配列の予想は生物学的解釈のための早期の手掛りを与え、そうして、例えば、治療的又は診断的ペプチドの確証過程を促進させ得る。しかし、引続いて、配列化によるこれらのペプチドの同定が推奨される。
示差ネットワークモジュールの結果は、代理ネットワークモジュールで分析され得る。示差ネットワークモジュールが、例えば、潜在的生体マーカーを生じさせる場合には、同様の反応を示し、従って関与性でもある可能な代理マーカーを同定することが高度に所望される。従って、代理ネットワークモジュールと示差ネットワークモジュールとの組み合わせは、新規の治療的、診断的又は他のペプチドの発見を促進し、かつ高度に相乗的である。
更に、示差ネットワークモジュールの結果は、配列ネットワークモジュールで分析され得る。示差ネットワークモジュールが未だ配列されていないペプチド信号を生じさせる場合には、未知ペプチドの配列の予想は、生物学的解釈のための早期の手掛りを与え、そうして、治療的、診断的又は他のペプチドの確証過程を促進させ得る。しかし、その後の、配列化によるこれらのペプチドの同定が推奨される。
実施例
次の例は、本発明による方法が、如何にして真のデータに適用され得るかを記載することを意図される。明確性のために、模範的測定パラメーターの限定数だけを計算し、図に表わす。しかし、当業者によって速やかに観察可能であるように、本発明による方法の利点は、データの大集合に適用される場合により明白になる。一般に、現在のコンピュータシステムでは、6000個までの潜在的ペプチドを含むデータ集合の相関の測度が普通に計算され、100000個までの潜在的ペプチドのデータ集合は、不当な努力をせずに、本発明による方法によって分析され得る。
次の例は、本発明による方法が、如何にして真のデータに適用され得るかを記載することを意図される。明確性のために、模範的測定パラメーターの限定数だけを計算し、図に表わす。しかし、当業者によって速やかに観察可能であるように、本発明による方法の利点は、データの大集合に適用される場合により明白になる。一般に、現在のコンピュータシステムでは、6000個までの潜在的ペプチドを含むデータ集合の相関の測度が普通に計算され、100000個までの潜在的ペプチドのデータ集合は、不当な努力をせずに、本発明による方法によって分析され得る。
例1
基本的CANモジュールは、試料中で測定される各個の潜在的ペプチドについて、1つの潜在的ペプチドが、その試料中の各々他の潜在的ペプチドに、どの程度相関するかを計算する。CANモジュールは、若干程度の相関の場合に、多分、一般の前駆体、ペプチドの起源又は相関するペプチドの異なった前駆体の同じ生物学的機能のような、一定の理由について相互に関連されるペプチド間の相関のネットワークを決定する。
基本的CANモジュールは、試料中で測定される各個の潜在的ペプチドについて、1つの潜在的ペプチドが、その試料中の各々他の潜在的ペプチドに、どの程度相関するかを計算する。CANモジュールは、若干程度の相関の場合に、多分、一般の前駆体、ペプチドの起源又は相関するペプチドの異なった前駆体の同じ生物学的機能のような、一定の理由について相互に関連されるペプチド間の相関のネットワークを決定する。
本例で、データの集合、即ち、データマトリックスは、各試料が6000個のペプチド座標を生じさせる独立した74個の試料の測定パラメーター、この場合には、信号強度を包含する444000個の値を含む。図18a、18bに示される表は、合計6000個のペプチド座標から4個についての相応する粗データを挙げる。相関の測度を決定するための4つの異なる方法、つまり、スペアマンの順位相関、ペアソンの乗積モーメント相関、ケンダルの順位相関タウ及び最小全域木(MST)は、ペプチド座標画分54;m/z2743.0を3つの他のペプチド座標(画分54;m/z1371.5、画分56;m/z2927.2及び画分20;m/z1114.3)と比較する3つの例証されるペプチドペアについて計算される(図19に示される表参照)。閾値の定義は、詳細に前記されたように、相関連合ネットワークの発生での重要な段階であり、慎重に行なわれるべきである。データマトリックスで6000×6000×0.5=1.8×107個の可能なペプチド‐対‐ペプチドペアを合同することができ、これらの各ペアは、一定の相関係数rを示す。図20は、一定の相関係数rを有するために、ペプチドペアの確率のプロットP(r)を示す。ゼロ又はゼロに近いr値は、完全にランダムである関係を描くが、1又は−1に近いr値は、それぞれに相関する又は極めて強く抗‐相関する関係を描く。ペプチドペアを相関の測度、例えば、スペアマンの順位相関係数によって、相関について試験すればするほど、ペプチドペアは、偶然に、ある程度相互に相関する。これは、情報を与え、かつ真実であると見なされる相関係数が、より高い閾値を通過すべきであることを意味する。与えられた相関係数の情報内容を評価するために、図20におけるように、プロットを行なうことが推奨される。この図における1本の曲線(黒丸)は、6000個のペプチド座標を含む前記のデータマトリックスからの全ペプチド‐対‐ペプチドペアについて、与えられた相関係数(x‐軸)に対する可能性(y‐軸)をプロットする。図20中の白枠で示された他の曲線は、偶然に生じる相関の可能性を描く。
最も有望な真の正関係は、曲線下の領域が小さい場合に見出され、一方で、曲線の最大は、殆ど偽の正相関である相関係数を表わす。スペアマンの順位相関係数が、相関の測度として選択され、かつ│t閾値│≧0.8が、ペプチド‐対‐ペプチド関係の定義のための閾値として選択される場合には、ペプチド座標画分20;m/z1114.3は、ペプチド座標画分54;m/z2743.0に関連されない(図19に示された表参照)。対照的に、ペプチド座標画分54;m/z1371.5及び画分56;m/z2937.3は、座標画分54;m/z2743.0を有するペプチドに高く関連する(図19に示された表参照)。これらのペプチド関係は、フィルタを通過して、ローカルバレンチナデータベースファイル(local Valentina Database file)に蓄積され得る。
例2
1つは、仮説的前立腺癌患者におけるクロモグラニンAの代理マーカーを見出すことに関係され、かつ前記の74個の試料の若干は健康な男性から起源され、かつ若干の試料は前立腺癌患者から起源されると仮定する。クロモグラニンA、アミノ酸97‐131から起源するペプチドは同定されたという、更なる仮定の下に、代理ネットワークモジュールは、ここで、ハブ‐ペプチドクロモグラニンA、97‐131と相関測定によって高度に関連されるペプチド座標の基本的CANモジュールに質問する。これは、例えば、ペプチド‐対‐ペプチド関係のスペアマンの順位相関係数│r│が、関係│r│≧0.67に応じるべきであることを定義することによって行なわれ得る。次いで、代理ネットワークモジュールは、バレンチナデータベースに質問することをCANモジュールに指示し、この条件に適合する約14個のペプチド座標があることを報告する。これらのペプチド座標は、これらの座標に適合する任意の既知ペプチドについてデータベース中で検索される。この方法で、データベースから知られて14個のペプチドのリスト中に存在する3種のペプチドが、図21中に示された表に図解されたように、クロモグラニン/セクレトグラニン系統に属することが判明する。代理ネットワークモジュールは、関連ペプチド及びハブペプチドのペプチド座標を、二次元又は三次元平面上の黒丸として、例えば、図6に示されたような血清試料のペプチドマップ指紋として投影する。ペプチド座標間の関係は、黒丸間の線として描写される。直線は、コンピュータポインティングデバイス、例えば、マウスによって選択することができ、小さい情報ウインドウは、相関測度の種類についての情報を有してポップアップし、連結ペプチド座標の相関の測度値が示される。黒丸は、コンピュータマウスクリックによって選択することができ、情報ウインドウはペプチド座標についての情報を示し、このペプチド座標が既に同定されている場合には、次いで前駆体ペプチドの名称、同定されたペプチドの出発‐及び終止位置が、図1中の56で例証されたように、"配列情報データベース"の検索によって得られる。また、他のデータベース、例えば、スイス‐プロット及び遺伝子カードへの連結が得られ、及び/又は他のデータベース、例えば、USPTOの特許データベースは、検索用語"ペプチドの名称"及び"診断"について質問され得る。インタネットブラウザウインドウは、US‐特許データベースからの結果を表示することができる。代理ネットワークモジュールによるペプチド‐対‐ペプチド関係及びインターネット及びイントラネットリソースへの便利な結合及びアクセスの映像化は、結果の評価に必要とされるデータ取得の速度を著しく増加させる。クロモグラニンAの例は、セクレトグラニン‐クロモグラニン系統の一員から起源する他のペプチドが、CANモジュールによって自動的に見出されることを示す。これらのペプチドは、図21に示された表に挙げられ、仮説的前立腺癌患者における治療的成功の予想への診断的マーカーとして用いられ得る。
1つは、仮説的前立腺癌患者におけるクロモグラニンAの代理マーカーを見出すことに関係され、かつ前記の74個の試料の若干は健康な男性から起源され、かつ若干の試料は前立腺癌患者から起源されると仮定する。クロモグラニンA、アミノ酸97‐131から起源するペプチドは同定されたという、更なる仮定の下に、代理ネットワークモジュールは、ここで、ハブ‐ペプチドクロモグラニンA、97‐131と相関測定によって高度に関連されるペプチド座標の基本的CANモジュールに質問する。これは、例えば、ペプチド‐対‐ペプチド関係のスペアマンの順位相関係数│r│が、関係│r│≧0.67に応じるべきであることを定義することによって行なわれ得る。次いで、代理ネットワークモジュールは、バレンチナデータベースに質問することをCANモジュールに指示し、この条件に適合する約14個のペプチド座標があることを報告する。これらのペプチド座標は、これらの座標に適合する任意の既知ペプチドについてデータベース中で検索される。この方法で、データベースから知られて14個のペプチドのリスト中に存在する3種のペプチドが、図21中に示された表に図解されたように、クロモグラニン/セクレトグラニン系統に属することが判明する。代理ネットワークモジュールは、関連ペプチド及びハブペプチドのペプチド座標を、二次元又は三次元平面上の黒丸として、例えば、図6に示されたような血清試料のペプチドマップ指紋として投影する。ペプチド座標間の関係は、黒丸間の線として描写される。直線は、コンピュータポインティングデバイス、例えば、マウスによって選択することができ、小さい情報ウインドウは、相関測度の種類についての情報を有してポップアップし、連結ペプチド座標の相関の測度値が示される。黒丸は、コンピュータマウスクリックによって選択することができ、情報ウインドウはペプチド座標についての情報を示し、このペプチド座標が既に同定されている場合には、次いで前駆体ペプチドの名称、同定されたペプチドの出発‐及び終止位置が、図1中の56で例証されたように、"配列情報データベース"の検索によって得られる。また、他のデータベース、例えば、スイス‐プロット及び遺伝子カードへの連結が得られ、及び/又は他のデータベース、例えば、USPTOの特許データベースは、検索用語"ペプチドの名称"及び"診断"について質問され得る。インタネットブラウザウインドウは、US‐特許データベースからの結果を表示することができる。代理ネットワークモジュールによるペプチド‐対‐ペプチド関係及びインターネット及びイントラネットリソースへの便利な結合及びアクセスの映像化は、結果の評価に必要とされるデータ取得の速度を著しく増加させる。クロモグラニンAの例は、セクレトグラニン‐クロモグラニン系統の一員から起源する他のペプチドが、CANモジュールによって自動的に見出されることを示す。これらのペプチドは、図21に示された表に挙げられ、仮説的前立腺癌患者における治療的成功の予想への診断的マーカーとして用いられ得る。
例3
模範的な仮説的血清集合データにおいて、48個の試料を前立腺切除前の患者から採取し、26個の試料を前立腺切除後の患者から採取する。示差ネットワークモジュールのために、ペプチド間の相関測度、例えば、スペアマンの順位相関係数rを、前立腺切除前の患者からの試料及び前立腺切除後の患者からの試料について別々に計算する。全74個の試料についてのクロモグラニンA97‐131及びセクレトグラニンI88‐132の相関係数は、r=0.67であり、前立腺切除前のそれらの患者についてはr=0.23であり、前立腺切除後のそれらについてはr=0.97である(図22参照)。これは、ペプチドのクロモグラニンA97‐131及びセクレトグラニンI88‐132が、前立腺切除前よりも前立腺切除後に関連が更に少なくなることを示す。また、これは、全患者について相関の損失を説明する。与えられた例について、これは、セクレトグラニンI88‐132が、前立腺切除前だけ、クロモグラニンA97‐131の潜在的代理マーカーであり、その後に、関係は破断されることを意味する。これは、クロモグラニンAの代理マーカーとしてのセクレトグラニンI88‐132の臨床的評価計画への著しい衝撃を有し、莫大な経費を節約し得る。更に、クロモグラニンA97‐131及びセクレトグラニンI88‐132の濃度の比率は、診断的パラメーターそれ自体である。その比率が10/1から著しく逸脱する場合には、前立腺切除は達成された。図22は、診断的パラメーターとしてのクロモグラニンA97‐131及びセクレトグラニンI88‐132の信号強度の比率の使用を例証する:10/1の比率は、前立腺切除前の患者からの全試料に存在する。前立腺切除後の試料中には、この比率は存在しない、即ち、セクレトグラニンI/クロモグラニンA関係は"破断される"。
模範的な仮説的血清集合データにおいて、48個の試料を前立腺切除前の患者から採取し、26個の試料を前立腺切除後の患者から採取する。示差ネットワークモジュールのために、ペプチド間の相関測度、例えば、スペアマンの順位相関係数rを、前立腺切除前の患者からの試料及び前立腺切除後の患者からの試料について別々に計算する。全74個の試料についてのクロモグラニンA97‐131及びセクレトグラニンI88‐132の相関係数は、r=0.67であり、前立腺切除前のそれらの患者についてはr=0.23であり、前立腺切除後のそれらについてはr=0.97である(図22参照)。これは、ペプチドのクロモグラニンA97‐131及びセクレトグラニンI88‐132が、前立腺切除前よりも前立腺切除後に関連が更に少なくなることを示す。また、これは、全患者について相関の損失を説明する。与えられた例について、これは、セクレトグラニンI88‐132が、前立腺切除前だけ、クロモグラニンA97‐131の潜在的代理マーカーであり、その後に、関係は破断されることを意味する。これは、クロモグラニンAの代理マーカーとしてのセクレトグラニンI88‐132の臨床的評価計画への著しい衝撃を有し、莫大な経費を節約し得る。更に、クロモグラニンA97‐131及びセクレトグラニンI88‐132の濃度の比率は、診断的パラメーターそれ自体である。その比率が10/1から著しく逸脱する場合には、前立腺切除は達成された。図22は、診断的パラメーターとしてのクロモグラニンA97‐131及びセクレトグラニンI88‐132の信号強度の比率の使用を例証する:10/1の比率は、前立腺切除前の患者からの全試料に存在する。前立腺切除後の試料中には、この比率は存在しない、即ち、セクレトグラニンI/クロモグラニンA関係は"破断される"。
例4
この節は、"ランドマークペプチド"とも称される、代表的ペプチドの同定を例証し、また、前例で既に説明した6000個のペプチド座標の74個の観察の与えられたデータマトリックスに言及する。
この節は、"ランドマークペプチド"とも称される、代表的ペプチドの同定を例証し、また、前例で既に説明した6000個のペプチド座標の74個の観察の与えられたデータマトリックスに言及する。
2つのペプチド座標は、それらの信号強度のスペアマンの順位相関が│r│>0.8以上である場合に、関連されると見なされる。各ペプチドが異なったペプチド座標と共に有する関係数kは、図18a中に示された表の第二行に示される。全ペプチド座標から、画分54;m/z2743.0は最多の関係、即ち、k=20を有する。従って、このペプチド座標は、優先化リストでNo.1である。次いで、画分54;m/z2743.0の信号分散は、20個の関連ペプチド座標の信号強度から除去され、この際、式1、2及び3が適用される。次いで、画分54;m/z2743.0のデータは、データマトリックスから除去される。図23a及び23bに示された表は、関連ペプチド座標上の画分54;m/z2743.0の分散が除去された後に、図18a及び18bに示された表に与えられた値を示す。この過程は、配列されるべきペプチドの数が達成されるまで、配列優先化リストのための候補として次のペプチド座標を決定するために繰り返される。
例5
この例では、74個の試料の4つの架空ペプチド座標の信号強度、それらの各質量‐対‐荷電比率及びそれらの画分数が与えられる(図18a中に示された表参照)。その計算は、第5ペプチド座標F53;m/z2823.0として使用する5個の架空ペプチド座標を用いて行なわれる。5つの信号座標の1つ、画分54;m/z2743.029における架空ペプチドHP25‐48は既に同定され、配列ネットワークモジュールの規則によって導かれ、残った4つの未知ペプチドの同定が提案される。
この例では、74個の試料の4つの架空ペプチド座標の信号強度、それらの各質量‐対‐荷電比率及びそれらの画分数が与えられる(図18a中に示された表参照)。その計算は、第5ペプチド座標F53;m/z2823.0として使用する5個の架空ペプチド座標を用いて行なわれる。5つの信号座標の1つ、画分54;m/z2743.029における架空ペプチドHP25‐48は既に同定され、配列ネットワークモジュールの規則によって導かれ、残った4つの未知ペプチドの同定が提案される。
4つの未知ペプチド座標とHP25‐48との相関の測度を、スペアマンの順位係数によってCANモジュール中で計算した:
r(HP25‐48及びF20;m/z1114.3)=+0.00
r(HP25‐48及びF54;m/z1371.5)=+0.92
r(HP25‐48及びF56;m/z2927.3)=+0.84
r(HP25‐48及びF53;m/z2823.0)=+0.87
図24a〜24c中で見られるように、かつ後記の低相関係数及びMST直径によって、各々、F20;m/z1114.3は、HP25‐48に関連されず、従って、HP前駆体タンパク質に関連されることは仮説されない。このペプチド座標についての提案の発生はこの点で終了する。
r(HP25‐48及びF20;m/z1114.3)=+0.00
r(HP25‐48及びF54;m/z1371.5)=+0.92
r(HP25‐48及びF56;m/z2927.3)=+0.84
r(HP25‐48及びF53;m/z2823.0)=+0.87
図24a〜24c中で見られるように、かつ後記の低相関係数及びMST直径によって、各々、F20;m/z1114.3は、HP25‐48に関連されず、従って、HP前駆体タンパク質に関連されることは仮説されない。このペプチド座標についての提案の発生はこの点で終了する。
同様の方法で、MST直径を、相関の測度として計算した:
MST直径(HP25‐48及びF20;m/z1114.3)=29(図25a参照)
MST直径(HP25‐48及びF54;m/z1371.5)=50(図25b参照)
MST直径(HP25‐48及びF56;m/z2927.3)=30
MST直径(HP25‐48及びF53;m/z2823.0)=40(図25c参照)
対照的に、ペプチド座標F54;m/z1371.5、F53;m/z2823.0及びF56;m/z2927.3は、HP25‐48に高度に関連される(図24b、24c及び図25b、25c参照)。タンパク質HPの前駆体の配列を用いる提案は、これらのペプチド座標に割り当てられ、本発明の配列ネットワークモジュールによる規則は、配列予想に適用される。
MST直径(HP25‐48及びF20;m/z1114.3)=29(図25a参照)
MST直径(HP25‐48及びF54;m/z1371.5)=50(図25b参照)
MST直径(HP25‐48及びF56;m/z2927.3)=30
MST直径(HP25‐48及びF53;m/z2823.0)=40(図25c参照)
対照的に、ペプチド座標F54;m/z1371.5、F53;m/z2823.0及びF56;m/z2927.3は、HP25‐48に高度に関連される(図24b、24c及び図25b、25c参照)。タンパク質HPの前駆体の配列を用いる提案は、これらのペプチド座標に割り当てられ、本発明の配列ネットワークモジュールによる規則は、配列予想に適用される。
規則aは、関連ペプチド座標がHP25‐48のn‐荷電イオンであるかどうかを決定する。質量偏差の計算は、n=1、2、3又は4及び、図4を用いて、図26中に示された表に与えられた、F54;m/z1371.5及びF56;m/z2927.26の質量‐対荷電比率で例証される。n=2質量偏差<質量閾値=0.5の場合におけるように、F56;m/z1371.5は、HP25‐48の二重荷電イオンであることは高度に有望であり、従って、これは、HP25‐482+、すなわち、HP25‐48の二重荷電イオンとして提案される。
規則b〜iは、ここで、F53;m/z2823.0及びF56;m/z2927.3に適用される。規則bは、既知個性の画分F54;m/z2743.029中のハブペプチドP1と未知ペプチドP2(ペプチド座標F53;m/z2823.0)との相関が、翻訳後変性から導かれることを仮定する。この場合には、ハブペプチドP1及び未知ペプチドP2の質量差M差=│MP1−MP2│=79.971は、燐酸化又はスルフェート化によって引き起こされ得る(図9に示された表参照)。HP25‐48の、タンパク質及びペプチドの燐酸化能力を有するペプチドであるタンパク質キナーゼの認識配列モティーフでの整列は、仮説的タンパク質キナーゼHPKCの潜在的標的である"TYD"に配列HP35‐37を同定する。従って、F53;m/z2823.0についての提案は、ペプチドHP25‐48の位置36上のチロシン残基での1燐酸化を有するHP25‐48である。
前記のように、未知ペプチド及び既知ハブペプチドが関連される場合には、未知ペプチドが、既知ハブペプチドと同じ前駆体タンパク異質から誘導され、従って、同じ前駆体配列を有することが仮説される。算法は、未知ペプチドP2の配列であってよい前駆体配列から潜在的に誘導される推定配列断片を提案するハブペプチドP1の前駆体配列中で、推定上の出発及び終止位置I及びEを組織的に定義する(図8b参照)。勿論、アミノ酸残基の質量プラスそれらのアミノ酸カルボキシ‐末端及びプラス潜在的翻訳後変性の質量の合計は、与えられた閾値T内での未知ペプチドP2の測定されたm/z比率M実測に適合するべきである。推定配列の質量は、P2の推定配列を有するアミノ酸残基の質量プラス水素及びヒドロキシル基の質量を合計することによって計算される。式5に適用される質量の模範的な値は、図11及び12中に示された表にある。
ハブペプチドとしてのHP25‐48及びペプチド座標画分56;m/z2927.3を有するP2で、配列ネットワークモジュールは、閾値T質量=0.5よりも低い質量偏差を有する、図27に定義されたようなHPのタンパク質前駆体配列中の出発及び終止位置の可能な集合について検索する。
この提案は、P2についての提案のリストに加えられる。
配列ネットワークモジュールは、ここで、規則c〜iを適用することによるP2のための提案HP25‐50の評価に取り掛かる。規則dでは、提案された配列F計算のクロマトグラフィー画分が評価され、P2の実測ペプチド座標(F実測)と比較される。F計算が、分別のための閾値T画分よりも少ないことによってF実測から逸脱する場合には、提案は、2モデル適合点で判定される。式6"提案配列に基づく画分数の評価"を、HP25‐50に適用する場合には、計算画分は、F計算=56になる。P2としてHP25‐50が画分56中に発見され、この提案のためのモデル適合点の数は、2点によって増加される。式6は、特殊ソフトウエアを用いる特殊HPLC‐カラム(特許出願WO03/048775A2に記載されているような)を用いて分離される脳脊髄液試料から起源するデータを用いる数学的モデルから実験的に発生された。勿論、異なった型の試料及び異なった分離法について、他の実験的に決定されるモデルが同じ方法で計算され得る。
規則eは、それらの出発‐位置がハブペプチドP1の出発位置に適合するP2のためのそれらの提案に報いる。P1ハブペプチドとしてHP25‐48及び関連ペプチドP2のための提案としてHP25‐50の場合には、提案HP25‐50は、3モデル適合点で報いられる。
規則fは、それらの終止‐位置がハブペプチドP1の終止‐位置に等しいP2のためのそれらの提案に報いる。これは、提案としてHP25‐50での場合ではなく、従って、この規則はP2のためのこの提案のモデル適合点を増加させない。
規則gは、出発位置25がアミノ酸配列"R‐R"(1‐文字アミノ酸コードで記載)によって先行されるように、3点によって提案HP25‐50のモデル適合点を増加させる。配列"R‐R"は、プロホルモン転換酵素の認識部位であり、これは、一般に、第二"R"後で開裂する。更に、規則gは、"D‐A"配列が脳脊髄液中に存在するペプチド配列のための有利な出発の1つであるように、他の3点によってこの提案のためのモデル適合点を増加させる。規則fによって報いられる出発位置での常習的なタンパク分解的開裂の更なる部位は、当業者に周知である。
規則gは、未知ペプチドP2が既知ハブペプチドP1のN‐又はC‐末端タンパク質分解の生成物であり、逆も同様であることを仮定する。P1及びP2の質量差M差=│MP1−MP2│は決定され、かつ前駆体配列HP中のP2の出発‐及び終止位置を先行又は後続するアミノ酸の質量と整列される。P1としてHP25‐48及びP2としてHP28‐50の例では、質量差はM差=184.2であり、P1の終止位置を後続するアミノ酸"I‐A"(MI+MA=184.2)によって説明され得る。従って、P2はモデルに適合し、P2のためのこの提案のモデル適合点は、3点によって増加される。
明白にも、規則c〜iを、任意の順序で試験することができ、規則は生物学的考慮を省くことができるが、これらの規則の任意の組み合わせ及び任意の省略は、なお本発明の範囲内である。
前記の方法は、HP25‐48と関連される全ての未知ペプチド座標P2について繰り返され得る。
例6
この例は、相関‐連合‐ペプチドネットワークと脳脊髄液中のペプチダーゼ及びプロテアーゼの有望な開裂部位の認識とを組み合わせることによる、本発明による方法と関連する利点を示し、その結果、極めて正確に未知ペプチドの配列を予想する事ができるモデルが得られる。この研究をベースとして、例えば、ペプチド配列の同定を優先させることができ、新規の試料給源のペプチド内容物の速やかな概要を得ることができる。
この例は、相関‐連合‐ペプチドネットワークと脳脊髄液中のペプチダーゼ及びプロテアーゼの有望な開裂部位の認識とを組み合わせることによる、本発明による方法と関連する利点を示し、その結果、極めて正確に未知ペプチドの配列を予想する事ができるモデルが得られる。この研究をベースとして、例えば、ペプチド配列の同定を優先させることができ、新規の試料給源のペプチド内容物の速やかな概要を得ることができる。
脳脊髄液(CSF)は、脳の多くの部分と緊密に接触している。CSFは、中枢神経系への安定した化学的環境を保つことを目的とし、脳代謝産物を除去する経路である。CSFは、中枢神経系内で多数の生物学的活性物質を流通させる。CSFが脳の生理学的及び病理生理学的症状を反映し、従って、CSFからのペプチドが潜在的な診断的及び治療的標的分子の給源を表わすことを仮定することは受け入れられる。
ここで、CSFからのペプチドの相関反応を分析し、同じタンパク質前駆体からもっと詳細に引き出し、かつ未知ペプチドの推定配列の予想のための相関的依存を利用する。ペプチド‐対‐ペプチドペアの既知ペプチド及び未知ペプチド信号は、共通のタンパク質前駆体を有することを仮定する場合には、既知タンパク質前駆体配列を、未知ペプチドの質量に相応する質量を有する信号の発生を説明し得るタンパク質分解開裂について分析する。CSF中のペプチダーゼ及びプロテアーゼの可能な開裂部位の統計的分析(CAN)及び認識の組み合わせが、タンパク質前駆体に、又は配列にさえも、未知ペプチド信号を適正に割り当てるための高度の予想力を有するモデルを生じさせ、従って、配列されるべきペプチドの数を減少させることが示される。
地方倫理委員会(the local ethics committees)による認可後に、インフォームドコンセントの書類がこの研究に関係する患者から得られた。ヒトCSFを、認知障害のない神経患者(n=39)及び痴呆、例えば、血管性痴呆、レビー‐小体(Lewy-body)痴呆、前頭側頭葉痴呆又はパーキンソン病を病む患者(n=27)から腰椎穿刺によって収集した。全CSF試料を、試料変化の危険を最少にする緩和な条件を用いて調製した。液体を、吸引せずに、かつ血液汚染を避けて収集した。試料を2000gで10分間遠心分離させ、上澄液を、分析まで−80℃で貯蔵した。
ペプチドを、逆相C18クロマトグラフィーで分離した。CSF300〜1500μLを水1:3.75で溶離させ、pHを2〜3に調整した。試料をRPシリカカラム(250x4mmカラム、Vydac, Hesperia, CA, USA; HP-ChemStation 1100 Agilent Technologies, Palo Alto, CA, USA)上に装填させた。保留ペプチドを、0.05%トリフルオロ酢酸中のアセトニトリル勾配(4〜80%)で溶離させ、96個の画分に集め、凍結乾燥させた。溶離液をUV検出で監視した。繰り返し装填された抽出物からの大部分のペプチドピークの保持時間は、この方法の再現性を確認するために使用された。
凍結乾燥後に、各HPLC画分をマトリックス溶液(0.1%アセトニトリル/トリフルオロ酢酸(1:1v/v)中のα‐シアノ‐4‐ヒドロキシ桂皮酸及びL‐フコース(コ‐マトリックス)の混合物中に再懸濁させ、マトリックス‐補助レーザー‐脱着/イオン化(MALDI)標的に適用させ、次いで、環境温度で空気乾燥させた。試料イオン化は、試料スポットの代表的範囲をおおう繰り返しの単一レーザー発射を適用して行なわれた。加速されたイオンを、飛行時間(time-of-flight)(ToF)質量分光計(Voyager - DE STR, Applied Biosystems, Framingham, MA, USA)で、直線モードで分析した。
関係対象のペプチドを、ナノESI-qTOF-MS/MS(QSTAR pulsar, Sciex, Toronto, Canada)を用いる質量分析法配列化によって同定し、その後に、タンパク質データベース検索した。生じるペプチド断片スペクトルは、プロダクトイオンスキャンモードで捕捉された(スプレー電圧950V、衝突エネルギー20〜40eV)。1試料当たり、200スキャンまで累算した。データベース検索に先立つデータ処理は、荷電‐状態脱‐回旋(BioAnalyst program package, Sciex, Concord, CanadaのBayesian reconstruct tool)及び脱‐同位元素化(customized Analyst QS macro; Sciex, Concord, Canada)を含む。生じたスペクトルを、MASCOT(Matrix Science, London,UK)一般ファイルフォーマット中に蓄積させ、かつMASCOT検索機関に付託した。スイス‐プロット(バージョン39以上、www.expasy.ch)及びMSDB(バージョン030212以上、EBI、Cambridge、UK)での数回の翻訳後変性を含む段階的検索を、配列決定の他に、ペプチドの配列内のそれらの位置の決定と同様に、変性化アミノ酸の同定を可能にするMASCOT DAEMONクライアント(バージョン1.9、Matrix Science)によって行なった。
クロマトグラフィーの同じ画分数を有する全質量スペクトルを、ベースライン‐修正で平均させ、全96個の平均質量スペクトル画分を、"2Dゲル‐様"フォーマット(ペプチド表示)で映像化させ、平均ペプチド表示を得た(図28参照)。各ピーク(質量分析法信号)は、測定されたペプチドの相対量に一致する、相応するMALDI‐ピークの信号強度に相応するそのグレー‐スケール強度を有するバーとして描かれる。x‐、y‐及びz‐軸は、質量対荷電比率(m/z)、クロマトグラフィー画分及び質量分析法信号強度を各々表わす。質量は、1000〜15000m/z比率の範囲である(x‐軸)。個々のペプチド表示のデータマトリックスは、1600万データ点を含み、その内の、ノイズに与えられた信号比率については、信号座標は取り出される。従って、全試料について、信号座標の同じ集合が存在し、統計的分析に使用される。
捕捉されたMALDI-ToF‐質量スペクトルのデータ前処理は、一定の整数値への質量スペクトルの正規化と組み合わせた、ベースライン修正(RAZOR Library 4.0, Spectrum Square Associates, Ithaca, NY, USA)を適用して行なわれた。単純性及び均一性のために、全m/z‐比率を、非荷電分析物の平均質量として定めた。必要な場合には、データは、このフォーマットへのm/z‐比率データの変換によって、モデルに有効に作成された。
全ペプチド‐対‐ペプチド関係の分析のために、相関の計算は、患者試料のペプチド表示中の任意の既知ペプチド座標に対して、全ての存在する(未知の)ペプチド座標集合データの信号強度(即ち、相対ペプチド量)で行なわれた:2つのペプチドの任意のペア‐法関係は、全試料中のそれらの各信号強度のスペアマンの順位相関によって評価された。m/z比率、クロマトグラフィー画分及びスペアマンの順位相関係数と組み合せたペプチドペアは、ローカルペプチド‐対‐ペプチドデータベース中に蓄積された。
自動化研究で、全ペプチド座標は、ペプチド配列データベースで個々に質問された。次の規則が適用された:
・各ペプチド座標について:
・与えられた閾値内での質量‐対‐荷電比率及びクロマトグラフィー画分に適合するためのペプチド配列データベースへの登録のための検索。
・ペプチド座標がペプチド配列データベース中に発見された場合:
・ペプチド座標の情報を検索する(配列、平均質量、名称、前駆体タンパク質、前駆体タンパク質上の出発‐終止位置、前駆体タンパク質配列)。
・同定の個々のリストにおける蓄積情報。
・各ペプチド座標について:
・与えられた閾値内での質量‐対‐荷電比率及びクロマトグラフィー画分に適合するためのペプチド配列データベースへの登録のための検索。
・ペプチド座標がペプチド配列データベース中に発見された場合:
・ペプチド座標の情報を検索する(配列、平均質量、名称、前駆体タンパク質、前駆体タンパク質上の出発‐終止位置、前駆体タンパク質配列)。
・同定の個々のリストにおける蓄積情報。
ここで、この同定リストの一員は、その後の相関分析のために"ハブペプチド"として利用される。
・ペプチド配列データベースへの登録を有する各ペプチド座標(=ハブペプチド)について:
・ペプチド‐対‐ペプチドデータベース中の与えられた閾値以上の相関係数を有するペプチド座標を検索し、そうしてハブペプチドのCANの一員となることによって個々の相関連合ネットワークを生成させる。
・CANの各員について:
・CAN員のペプチド座標が、ペプチド配列データベース中に発見されなかった場合:
・CAN員ペプチド座標の質量‐対‐荷電比率に概算的に適合する推定配列についてのハブペプチドのタンパク質前駆体配列を分析する:タンパク質前駆体配列上の出発‐及び終止位置を置換させ、同時に、推定配列のアミノ酸残基の質量を合計することによって、質量の正確さの範囲内で(ここでは:500ppm以下)CAN員ペプチド座標の質量‐対‐荷電比率に適合する推定配列のリストを作成する。
・生成されたリスト中の各推定配列について:
・ボーナス点で推定配列を評価する(規則は後記参照)。
・ボーナス点の数により推定配列を評価する。
・各ペプチド座標について
・Top3推定配列の存在。
・ペプチド配列データベースへの登録を有する各ペプチド座標(=ハブペプチド)について:
・ペプチド‐対‐ペプチドデータベース中の与えられた閾値以上の相関係数を有するペプチド座標を検索し、そうしてハブペプチドのCANの一員となることによって個々の相関連合ネットワークを生成させる。
・CANの各員について:
・CAN員のペプチド座標が、ペプチド配列データベース中に発見されなかった場合:
・CAN員ペプチド座標の質量‐対‐荷電比率に概算的に適合する推定配列についてのハブペプチドのタンパク質前駆体配列を分析する:タンパク質前駆体配列上の出発‐及び終止位置を置換させ、同時に、推定配列のアミノ酸残基の質量を合計することによって、質量の正確さの範囲内で(ここでは:500ppm以下)CAN員ペプチド座標の質量‐対‐荷電比率に適合する推定配列のリストを作成する。
・生成されたリスト中の各推定配列について:
・ボーナス点で推定配列を評価する(規則は後記参照)。
・ボーナス点の数により推定配列を評価する。
・各ペプチド座標について
・Top3推定配列の存在。
ボーナス点の決定は、更に後記で説明される。
a)前駆体配列上の推定ペプチド配列のアミノ‐末端/カルボキシ‐末端開裂部位前/後のアミノ酸残基が、次のアミノ酸残基(1文字コード)に相応する場合には、提案は、各ボーナス点(bpt)を授与される:
1.アミノ‐末端開裂部位前: M:2bpt; R:5bpt
2.アミノ‐末端開裂部位後(N+1): D:3bpt M:2bpt
3.カルボキシ‐末端開裂部位前(C−1): 規則なし
4.カルボキシ‐末端開裂部位後(C+1): K:3bpt R:4bpt
b)前駆体配列上の推定ペプチド配列のアミノ‐末端/カルボキシ‐末端開裂部位前/後のアミノ酸ペアが、次のアミノ酸ペアに相応する場合には、提案は、各ボーナス点(bpt)を授与される:
1.アミノ‐末端開裂部位前: KR:18bpt; RR:22bpt
2.アミノ‐末端開裂部位後: DA:43bpt GR:11bpt
3.カルボキシ‐末端開裂部位前: GA:20bpt QK:20bpt
VN:16bpt
4.カルボキシ‐末端開裂部位後: KR:22bpt
c)推定配列が既知ハブペプチドと同じ出発位置を有する場合には、この配列の提案は69ボーナス点を授与される。推定配列が既知ハブペプチドと同じ終止位置を有する場合には、この配列の提案は63ボーナス点を授与される。
1.アミノ‐末端開裂部位前: M:2bpt; R:5bpt
2.アミノ‐末端開裂部位後(N+1): D:3bpt M:2bpt
3.カルボキシ‐末端開裂部位前(C−1): 規則なし
4.カルボキシ‐末端開裂部位後(C+1): K:3bpt R:4bpt
b)前駆体配列上の推定ペプチド配列のアミノ‐末端/カルボキシ‐末端開裂部位前/後のアミノ酸ペアが、次のアミノ酸ペアに相応する場合には、提案は、各ボーナス点(bpt)を授与される:
1.アミノ‐末端開裂部位前: KR:18bpt; RR:22bpt
2.アミノ‐末端開裂部位後: DA:43bpt GR:11bpt
3.カルボキシ‐末端開裂部位前: GA:20bpt QK:20bpt
VN:16bpt
4.カルボキシ‐末端開裂部位後: KR:22bpt
c)推定配列が既知ハブペプチドと同じ出発位置を有する場合には、この配列の提案は69ボーナス点を授与される。推定配列が既知ハブペプチドと同じ終止位置を有する場合には、この配列の提案は63ボーナス点を授与される。
ボーナス点の決定は、更に後記で説明される。
66個の独立したCSF試料のペプチドーム(peptidome)は、クロマトグラフィー分離(96個の画分)と後続する質量分析法との組み合わせを用いて分析され、7104 MALDI-ToF前処理質量スペクトルを有するデータベースに導かれた。同じ画分数を有する全質量スペクトルは平均され、平均化ペプチド表示を生じさせた(図28参照)。31個のタンパク質前駆体からの139個の異なったペプチドが、66個のCSF試料と同様の方法で実施されるCSF‐調製からの配列決定よって先立って同定された。ペプチド座標は、平均ペプチド表示上に位置された。豊富なペプチドが、1以上の画分で発見されたので、139個のペプチド座標の代わりに224個が位置された。224個のペプチド座標のMALDI質量分析法信号強度は、66個の試料の各々で決定された。スペアマンの順位相関分析は、2242/2個のピーク信号強度の相関となる、任意に与えられた信号‐対‐信号の組み合わせについて行なわれた。
詳細に前記されたように、ネットワークは、関係対象のペプチド、いわゆる、ハブペプチド及びこのペプチドと高度に相関し、任意に定義された相関閾値を超過することによって全ペプチドから選択されるペプチドの集団として定義される。この概念は、VGF及びアルブミンペプチドの2つのネットワークによって例証される:相関閾値│r│≧0.68で計算されるハブペプチドとしてのVGF26‐58のネットワーク(図29参照)は、VGF前駆体タンパク質の数個の領域から誘導されるペプチドを集める(図30参照)。相関閾値│r│≧0.67で計算されるハブペプチドアルブミン25‐48を有するネットワーク(図31参照)は、アルブミンタンパク質前駆体のアミノ‐末端領域から誘導されるペプチドを主に含有する。VGF26‐58及びアルブミン25‐48のネットワークの観察は、相関の閾値が著しく高い場合には、ネットワークは同じタンパク質前駆体から誘導されるペプチドを主に含有するという仮説を生み出す。この仮説は次のように試験された:224個の信号座標のネットワークは、相関係数の閾値の増加と共に生成された(図32参照)。これらのネットワークの一員は、ハブペプチド及びESI-MS/MSによって先に定義されたペプチドと適合した予想を含有する、同じ前駆体タンパク質からの誘導体として予想された。図32の表は、タンパク質前駆体の正及び偽の予想の数を挙げる:相関の高い閾値での予想は、前駆体タンパク質の少ない予想を生む;相関係数の低い閾値での予想は、前駆体タンパク質の数百の予想を生む。前駆体予想の正当性は│r│≧0.95で100%に達し、相関のより低い閾値では急速に減少する。
ネットワークのどの一員も、未知信号座標の配列を実験的に決定せずに、同じタンパク質前駆体から誘導されることが仮定された。従って、その前駆体タンパク質配列上の出発‐及び終止位置は、組織的に順序を変え、かつ繰り返して、推定のペプチド配列を生じさせた。図33は、タンパク質前駆体上のペプチドの出発及び終止のための命名法の概要を与える。500ppmよりも少ない与えられた質量許容誤差内で、未知ペプチド座標のm/z‐比率に適合する推定配列を生じさせる出発‐/終止‐位置の任意の組み合わせは、妥当な提案として考慮された。この必須基準を遂行しない組み合わせは拒絶された。次の調査は、若干の妥当な提案が他よりももっと有望であることを示し、それというのも、それらの出発‐/終止位置が、多分、ヒトCSFにおける開裂部位であるからである。提案が、次の基準の1つ以上に合する場合には、そのボーナス点は増加させる。
ペプチドは、タンパク質分解酵素によるペプチド結合の開裂によって生じられる。これらのプロテアーゼは、開裂が起きる特異的部位を認識する(アミノ酸配列モティーフ)。特定アミノ酸の機能としての開裂の確率及び開裂部位に関係するアミノ酸の位置は、調査され、かつ全前駆体配列中の任意の位置での各アミノ酸の発生と比較された。図34中の表は、139個のペプチドを載せる集合データから得られる結果を示す。例えば、全ペプチドの31%で、アルギニン基(R)はアミノ‐末端開裂部位に先行するが、観察される前駆体配列のアルギニンの平均含量は6%に過ぎない。アルギニン基がN‐1位で発見された場合には、開裂の確率は5倍増加されたことが結論づけられた。規則は、関係対象の位置で異なったアミノ酸を検討することを定義された:開裂の確率のx‐倍の増加は、xボーナス点を授与された:例えば、N‐1でアルギニンでの提案のボーナス点の得点は、確率の5‐倍増加を反映する5点で増加された。規則の数は、モデルの過度の適合超過を避けるために制限された:1つの規則は、少なくとも5つのペプチド及び確率の2倍の増加に基づくべきである。
単一アミノ酸の調査のほかに、アミノ酸ペアを、開裂の確率を増加させるその影響について調査した。アミノ酸ペアの機能としての開裂の確率及び開裂部位に関するそのようなペアの位置が調査され、かつ全前駆体配列中の任意の位置での各アミノ酸ペアの発生と比較された(図35中の表参照)。例えば、アルギニン‐アルギニン基(RR)は、アミノ‐末端開裂部位前のペプチドの18/139=12.9%で発見されたが、RRは、任意の他の位置で398/68516=0.58%で発見されただけであった。従って、RR後の開裂の確率は、12.9%/0.58%=任意の位置に比較して22倍増加である。従って、RR前アミノ‐末端開列を考慮する規則は、相応する提案のボーナス点の得点を22ボーナス点によって増加させる。こうして規則は、関係対象の位置でのアミノ酸ペアを考慮して定義された:確率のx‐倍の増加は、xボーナス点を授与された。それでもなお、規則は、少なくとも5つのペプチド及び確率の10−倍の増加に基づかなければならず、そうでなければ、それは拒絶される。
多くの関連ペプチドは、VGF26‐58、VGF26‐59、VGF26‐61及びVGF26‐62(図29&30#1、#4、#5、#8、#9参照)又はアルブミン25‐48、アルブミン25‐45及びアルブミン25‐50(図31#1、#4/#5、#2、#8/#9参照)によって例証されるような前駆体タンパク質上の同じ出発位置を有することが判明した。同様に、関連ペプチドの多くの配列は同じ終止位置で終止する:VGF25‐59及びVGF26‐59(図29&30#4/#5、#7参照)又はアルブミン27‐50(図31#6/#7参照)及びアルブミン25‐50(図31#8/#9参照)。集合データ中の同じ前駆体からの全ペプチドの14.1%が、同じ出発位置を有し、かつ12,7%が同じ終止位置を有する。偶然に同じ出発‐又は終止‐位置を有する2つのペプチドの確率は、1/nであると仮定され、この際、nは前駆体の長さである。集合データ中で、n=492の平均前駆体長さでは、確率の増加は、同じ出発‐位置を有する2つのペプチドについて69倍であり、同じ終止位置を有する2つのペプチドについては63倍であった。従って、ハブペプチドと同じ出発‐位置での提案は、69ボーナス点を授与され、同じ終止‐位置でのそれらは63ボーナス点を授与された。
前記の規則の適用は、ESI-MS/MSによって実証される2つの提案によって例証される(図36中の表参照):モデルに従って、既知ペプチドVGF26‐58は、VGF26‐62のようにm/z平均3688.0を有する未知ペプチド座標を予想し、それというのも、推定配列の計算m/z‐比率は、実測m/z‐比率に適合するからである(必要条件)。ハブペプチド及び推定配列は、同じ出発位置を有し(+69ボーナス点)、推定配列は、アルギニン基の前で終止する(+4ボーナス点)(図30#1、#4参照)。更に、VGF26‐58は、VGF350‐370のように、m/z平均2419.41を有する未知ペプチド座標を予想する。推定配列の計算m/z‐比率は、実測m/z‐比率に適合し(必要条件)、単一アルギニンは先行し(+5ボーナス点)、二塩基部位RRは推定配列に後続する(+22ボーナス点)(図30#1、#3参照)。
前記モデルの予想力を評価するために、ESI-MS/MSによって同定された139個のペプチドを、70個のペプチド群に分割し、それを、その配列個性が予想過程中に抑制された69個のペプチドの第二群の予想のために使用した(図37参照):全224個の単一座標について、相関連合ネットワークを、相関係数│r│=0.75で計算した。70個の単一座標を、前駆体タンパク質、出発‐及び終止位置及び、従って、単一座標の配列を予想するために使用し、これらは、相応に予想するハブペプチドのネットワークの一員であった。任意の単一座標について、殆どのボーナス点が頂点にある提案を有する3つまでの提案が挙げられた。複雑性水準の増加した6つのモデルを、前駆体タンパク質、出発及び終止位置の予想でそれらの力に関して比較した(図38中の表参照)。69個のペプチドの第二群についての予想を、ESI-MS/MSによって同定した。統計学は、任意の蓄積提案及び最多のボーナス点を有する提案について区別した:全モデルにおいて、正しく予想された出発及び終止位置の%は、全提案のそれらに比較される最多のボーナス点を有する提案についてより良好である。正しい前駆体配列及び出発‐/終止‐位置の%は、モデルの複雑性と共に増加した。単一アミノ酸及びアミノ酸ペアの近くの2つの開裂の確率を考慮する規則の2組を組み合わせたモデル5は、規則の1組だけを適用したモデル2及びモデル3よりも良好な結果を生んだ。最良の結果は、前記の全規則、特に、最多のボーナス点でのそれらの提案を組み込んだモデル6によって達成された:全提案の85%は、前駆体配列、出発‐及び終止位置に関して正しく、全提案の89%は、正しいタンパク質前駆体予想を生み、たったの11%は2つとも悪かった。
従って、前記の例は、関連ペプチドが自動的にCANsによって分類されることを示す。基礎にある算法は、先に、CSF−誘導ペプチドについて前記したように、連鎖過程の異なった段階からのペプチドの濃度が保存比率を表示することができるという事実を利用する。関連ペプチドのこれらの保存比率は、CAN相関の定義の基礎であるスペアマンの順位相関分析によって確実に発見された。その結果は、CANsが、ペプチド過程の中間生成物を自動的に分類するために使用され得ることを示す。相関係数の高い閾値で、予想数は低いが、各々高度の正確性を有する。閾値を減少させることは、偽の予想の数を増加させ、最後に正しい予想を上回せることになる。本例は、ネットワークの一員が同じタンパク質前駆体だけから誘導されるネットワークを、厳密な閾値が生じさせるという仮定/条件に基づいた。これは、未知ネットワーク員の配列の予想のための本質的基本であった。ネットワークは質量分析法データに基づくので、全ペプチド信号は、それらの質量‐対‐荷電比率によって特徴付けられた。先に配列されたハブペプチドのタンパク質前駆体配列上の出発及び流れを下り終止位置を繰り返すことによって、推定ペプチド配列は発生され、かつ選択された未知MALDI質量分析法ペプチド信号の実験的分子量に適合した。直線モードのMALDI‐ToFの500ppm以下の質量の正確さは、簡潔な選択のための前駆体の出発‐及び終止位置の理論的組み合わせの圧倒的な数を減少させるために十分である。推定配列は、ヒトCSFにおける実測のタンパク質分解開裂パターンと組み合わせた、推定のタンパク質前駆体の配列に基づくモデルによって評価された。この研究で、翻訳後変性は考慮されず、可能な予想のための自由度をかなり減少させた。しかし、翻訳後は、他の変性と同様に、一般にペプチド信号での相関の検索に使用され得る。
異なった規則集合及びその組み合わせに基づいて構築された6つのモデルを試験した。タンパク質前駆体の開裂は、配列‐及び組織‐特異性であるので、ヒトCSF中のプロテアーゼの配列特異性を調査した:アミノ酸ペア、"モティーフ"、4つの位置で、アミノ‐末端及びカルボキシ‐末端前及び後開裂部位を、開裂パターン分析について区別した(図38)。
配列予想に適用される前記の規則は一般的であり、それというのも、それらは与えられた場合の確率のx‐倍の増加に基づいていて、各提案をxボーナス点で得点をつけるからである。ボーナス点を合計することによって各規則を組み合わせることは、基本的に予想の正確さを増加させた。このことは、異なった研究の規則が相補的で矛盾しないことを確認する。ボーナス点の重要度は、各単一パラメーターについての各定義により、著しく異なった。
しかし、算法が他の試料マトリックスに適用される場合には、示された規則は、多分、再定義されるべきである。その規則は、これらの他の試料マトリックスを実験的に用いて決定され得る。また、ペプチド配列の予想のための使用に先行して、偽の正の比率を決定するために、与えられた集合データ中のパラメーターr及びボーナス点を、既知ペプチドで試験することが推薦される。パラメーターは、偽の正の比率及び予想数が実験的目的の計画及び要求に適合するまで再調整されるべきである。
1組の特異的規則の定義のために、統計的分析及びペプチド生物学の組み合わせの結果として、高い正確さを有するペプチド配列を予想する有望なモデルが考慮される。ボーナス点のシステムは、モデルに最も適合した予想を選択するために使用された。ボーナス点の最高得点での提案は、ESI‐MS/MS同定と比較され、タンパク質前駆体の85%、出発‐及び終止位置及び前駆体タンパク質の89%だけを正しく予想することが判明した。更なる改善は、30ppm以下の質量正確さ及びモデルを再定義するためのより広い配列範囲を有するリフレクトロン(reflectron)モードでのMALDI‐ToF測定法を用いることによって期待される。
この概念の証明(proof-of-concept)研究の有望な結果の帰結として、新規試料給源のペプチド内容物の迅速な概要が得られるべきである場合には、次の方法が提案される:新規試料給源のペプチド座標は、代表的ペプチド表示に基づき定義される。その後に、関連ペプチド座標は、任意のペプチド座標のCANを計算することによって決定される:最多のネットワーク員を有するハブは、多数の他のペプチド座標に関連され、従ってこれは最多の代表的な1つであると考えられる(Lamerz et al., 2005, Proteomics, 5:x-xx)。これらのペプチド座標は、最初に定義されるべきである。これらの同定に基づき、CANは、残留している非定義のペプチド座標の配列を予想するために使用される。モデルによって適当に記載されるペプチド信号座標の同定は、後回しにされる又は同定リストから捨てられ、それほど豊富ではないペプチド又はモデルによって不満足に記載されたペプチドの同定については、より多くの給源を残す。この方法は、過程中に発生される付加的な配列情報で数回繰り返すことができ、MS/MS同定作業を減少させるが、一方で、新規試料給源の内容物で、比較可能に深い洞察を達成する。
ペプチド配列の翻訳後及び他の変性は、例えば、燐酸化、脱燐酸化、酸化、還元、グリコシル化、脱グリコシル化、アセチル化及びペプチドについて公知の他の変性に特徴的又は感受性の特異的モティーフについて、ハブペプチドの配列をスキャンすることによって包含され得る。その後に、ハブペプチドとその関連ペプチドとの間の質量差を、質量差が各翻訳後変性に相応するかどうかを評価するために分析する。このことは、PROSITE(Falquet et al., 2002, Nucleic Acids Res. 30:235-238)に論じられているように、多くの、それどころか何千のモティーフの実施を暗示し、そのスキャンニング過程はコンピュータ処理で苦心し得る。
例7
また、CANsは、生体マーカーの代理の発見に利用され得る。全アルブミン分子は、脳関門(血液‐脳関門、血液‐CSF関門)の完全性を決定するための金本位制として診断法で日常的に使用される。CSF及び血液中のアルブミン濃度の比率"アルブミン比率"は、関門破壊の範囲と相関し(Reiber et al., 1980, J. Neurobiol., 224:89-99)、"血液産出"ペプチド及びタンパク質のCSFへの転移を増加させる。先行の作業は、ヒトアルブミンのアミノ酸25‐48を表わすアルブミンペプチドが、損傷脳関門のマーカーとして用いられることを示す(Heine et al.,2002,J. Chromatogr. B Analyt. Technol. Biomed. Life. Sci. 782(1-2):353-61)。この例を介して(図39及び40参照)、ハブペプチドとしてアルブミン25‐48ペプチドの使用によって計算されるCAN員は、アルブミン25‐48ペプチドのように脳関門の破壊を評価するための代理マーカーと同じ能力を有し、従って、そのCANsは、既知マーカーの代理マーカーを同定することに好適であることが示される(このアルブミン25‐48の場合において)。
また、CANsは、生体マーカーの代理の発見に利用され得る。全アルブミン分子は、脳関門(血液‐脳関門、血液‐CSF関門)の完全性を決定するための金本位制として診断法で日常的に使用される。CSF及び血液中のアルブミン濃度の比率"アルブミン比率"は、関門破壊の範囲と相関し(Reiber et al., 1980, J. Neurobiol., 224:89-99)、"血液産出"ペプチド及びタンパク質のCSFへの転移を増加させる。先行の作業は、ヒトアルブミンのアミノ酸25‐48を表わすアルブミンペプチドが、損傷脳関門のマーカーとして用いられることを示す(Heine et al.,2002,J. Chromatogr. B Analyt. Technol. Biomed. Life. Sci. 782(1-2):353-61)。この例を介して(図39及び40参照)、ハブペプチドとしてアルブミン25‐48ペプチドの使用によって計算されるCAN員は、アルブミン25‐48ペプチドのように脳関門の破壊を評価するための代理マーカーと同じ能力を有し、従って、そのCANsは、既知マーカーの代理マーカーを同定することに好適であることが示される(このアルブミン25‐48の場合において)。
このことは、血液‐CSF関門の異なった重大な破壊を有する患者から採取しされた、十分に考証されたCSF試料を用いて、独立した実験的設定で試験された。その後に、アルブミン25−48についてこれらの潜在的代理を同定するために、同定される代理を、先行の作業で記載された原集合データで検索した(heine et al., 2002, J. Chromatogr. B Analyt. Technol. Biomed. Life. Sci. 782(1-2): 353-61)。提案された代理(図39及び40参照)は、先行の作業で分析された患者の損傷脳関門を診断することに好適である(heine et al., 2002, J. Chromatogr. B Analyt. Technol. Biomed. Life. Sci. 782(1-2): 353-61)ことが確認された。このことは、本発明で請求されるように、そのCANsが、既知マーカーの代理を同定することに好適であることを示す。
本発明で行なわれる研究に使用される試料は、例えば、血管性痴呆、レビー‐小体(Lewy-body)痴呆、前頭側頭葉痴呆、パーキンソン病、鬱病、腰痛、顔面麻痺、めまい、多発神経障害又は視神経炎を病む74人の患者から腰椎穿刺によって集めたヒトCSFであった。
これらの試料は、例6での試料と同じ条件下に、逆相クロマトグラフィー及びMALDI質量分析法によって分析された。ハブペプチドとしてのアルブミン25‐48は、25個の異なるペプチド信号との強い相関(│r│>0.75)を表示し、かつ、最も重要では、当業者に公知であるような標準アルブミン‐ELISA試験を用いて決定された新規の試料集合におけるアルブミン比率との著しい相関(│r│=0.73)を表示した。全ネットワーク員は、アルブミン商と正相関し、かつ25個の中から16個が有効水準(│r│>0.7、n=9、p<0.05)に達したことが判明した。血液‐CSF関門破壊の測度として、確立されかつ受け入れられたアルブミン比率とのこの正相関は、CSF中の予想されたペプチド‐対‐ペプチド関係の正当性を示す。その後に、5個の顕著なネットワーク員は、アルブミンの構造的に類似のアミノ‐末端断片、つまり、アルブミン25‐48、アルブミン25‐50、アルブミン25‐51及びアルブミン27‐50として、配列化によって同定された。アルブミン25‐48CANの新規ペプチドα‐1‐アンチトリプシン397‐418は、むしろ、アルブミン断片それ自体(│r│=0.73)より強く、アルブミン商に相関した(│r│=0.83)。アルブミンCANの一員としてのα‐1‐アンチトリプシン397‐418の同定は、診断的高能力を有する新規の化学的に無関連のペプチド代理の同定のための、請求された方法論の効力を強調する。重要なことに、全タンパク質としてのα‐1‐アンチトリプシンは、既に、CSF中のアルブミンと血清中のそれとのの比率の評価によって決定される、血液‐脳関門での障害と直接相関するタンパク質として記載されていて(Pearl et al., 1985, Arch. Neurolo. 42: 775-777)、更に、CANsが既知マーカーの代理を予想することに好適であることを支持する。
当業者は、CANsの適用範囲が、成分、例えば、二次元ゲル(2D‐ゲル)からのデータの半‐定量的分析を可能にする任意のプロテオミック(proteomic)研究に拡張可能であることを、前記のことから認識する。そのようなペア法では、成分の相関係数は計算され得るが、汚染タンパク質から誘導されるスポットの含有を避けて、スポット個性を証明することは最大に重要である。ここで、ペプチドミクス(peptidomics)CANの二次元の精度、即ち、RP‐HPLC(通例、1%より良好)及びMALDI‐MS(通例、100ppmより良好)のクロマトグラフィー画分が、2D‐ゲル電気泳動法によって得られる分離より遥かに優っている(Schulz-Knappe et al., 2001, Comb. Chem. High Throughput. Screen., 4: 207-217)。他方で、本発明の例中に記載された研究に基づくCANsは、タンパク質<15kDaに制限されるが、2D‐ゲルに基づくCANは、より大きいタンパク質のネットワークにアドレスすることもできる。
また、CANsは、同位体‐コード化親和標識(Isotope-Coded Affinity Tag)(ICAT)質量分析法実験から、ペプチド及びタンパク質数量化データに適用可能である。ICAT実験で、試料中に存在するペプチド及びタンパク質は、システイン基に特異的に結合する反応基を通じて同位体で標識化される。低分子量(ペプチドーム)領域で、ICAT標識化に必要なシステインを含有しないペプチド及び小タンパク質の数は、プロテオミックス分野に高度に比較され、従って、ICATの効力を減少させる。新規標識、例えば、応用生体システム(Applied Biosystems)、Foster City, CA, USAによって開発されたアミン特異的同位体標識化技術であるiTRAQは、CAN実験における全小タンパク質/ペプチドの検出を可能にする。
また、CANsは、タンパク質又はペプチド含有試料のトリプチック(tryptic)消化からのデータの解釈を支持することが考慮される。ここで示されたCAN法は、未消化の、天然ペプチドに基づくが、トリプチック消化後の同じ前駆体から誘導される、異なったペプチド種の類似群団化が可能である。本発明は、有利な実施態様に関して記載されたが、次の特許請求に定義されるような本発明の範囲から逸脱することなく、形及び詳細で様々な変化又は変性が成され得ることは当業者によって理解される。
例えば、本発明は、有利に、ペプチドを潜在的に含有する試料、例えば、動物、植物、菌類、人間、寄生虫、微生物、例えば、細菌、酵母、ウイルス等からの試料、食物又は他の農産物、例えば、肉、牛乳、穀粒、野菜、羊毛、木綿、絹からの試料、ペプチドを含有する化粧品又は他の製品、例えば、クリーニング剤(しばしば、タンパク質分解酵素を含有する)からの試料等の全種類で基本的に利用され得ることが容易に明らかである。試料は、例えば、血漿、血清、血‐濾液、全血、血液細胞、組織試料、試験管内生長細胞、細胞培養上澄液、尿、脳脊髄液、リンパ液、つば、涙液、腹水、細胞オルガネラの製剤、組織ホモジネート又はウイルス、微生物、寄生虫、多細胞生物、動物、菌類又は植物等のホモジネート、又はそれらの組み合わせであってよい。組み合わせの例は、微生物で汚染された又は製薬学的物質で処理された試験管内培養細胞、微生物で汚染されたヒトの組織試料、微生物を含有する食物製品、食物又は化粧製品中に存在するペプチド又はペプチド混合物で処理された細胞の組織培養上澄液等である。
Claims (24)
- 多数の試料をそのペプチドトポロジーを用いて分析することによって、試料型のペプチド内容物の代表的な、非冗長的概観を得る方法において、次の段階:
a)前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、
b)前記の潜在的ペプチドの信号強度間の相関の測度をコンピュータ処理し、
c)一定の閾値以上の相互間の相関度を示す潜在的ペプチドを一緒に集め、それによって潜在的ペプチドの多数の相関連合ネットワークを得て、かつ
d)前記の試料型の前記の相関連合ネットワークに、代表的ペプチドとして少なくとも1つの相関連合ネットワークから少なくとも1つの代表的な潜在的ペプチドを割り当てる
を包含することを特徴とする方法。 - 既知前駆体を有するペプチドを含有する多数の試料のペプチドトポロジーを用いるペプチドの配列を予想する方法において、次の段階:
a)前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、
b)前記ペプチドの質量を用いて既知前駆体を有する前記ペプチドを同定し、この際、既知前駆体の配列は既知であり、
c)既知前駆体を有する前記ペプチドの信号強度及び他の潜在的ペプチドの信号強度の間の相関の測度をコンピュータ処理し、
d)一定の閾値以上の既知前駆体を有する前記ペプチドとの相関度を示す潜在的ペプチドを選択し、かつ
e)既知前駆体の配列の推定断片の質量を、既知前駆体を有する前記ペプチドと相関する潜在的ペプチドの質量と適合させることによって潜在的ペプチドの配列を予想する
を包含することを特徴とする方法。 - 既知配列を有するペプチドを含有する多数の試料のペプチドトポロジーを用いて、ペプチドの配列を予想する方法において、次の段階:
a)前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、
b)その質量を用いて、既知配列を有するペプチドを同定し、
c)前記既知ペプチドの信号強度と潜在的ペプチドの信号強度との間の相関の測度をコンピュータ処理し、
d)一定の閾値以上の既知ペプチドとの相間度を示す潜在的ペプチドを選択し、
e)潜在的ペプチド及び既知ペプチド各々の間の質量差をコンピュータ処理し、かつ
f)段階e)で決定された質量差に適合する、生物学的、化学的又は物理的方法によって引き起こされる質量差についてのデータを用いることによって、潜在的ペプチドの配列及び/又は生物学的、化学的又は物理的変性化配列を予想する
を包含することを特徴とする方法。 - 状態A及び状態Bを表わす少なくとも2つの異なった実験群から採取された多数の試料のペプチドトポロジーを用いる、マーカーパネルとして使用されることに好適なペプチドを同定する方法において、次の段階:
a)前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、
b)各実験群内で、多数の各試料について、別々に、前記の潜在的ペプチドの信号強度の間での相関の測度をコンピュータ処理し、かつ
c)一定の閾値以上の異なった実験群の間での相関度における差を示す潜在的ペプチドペアを選択し、それによって、状態A及び状態Bの間で区別するための診断目的用のマーカーパネルとして使用されることに好適であるペプチドを得る
を包含することを特徴とする方法。 - 状態A及び状態Bを表わす少なくとも2つの異なった実験群から採取された多数の試料のペプチドトポロジーを用いる、マーカーパネルとして使用されることに好適なペプチドを同定する方法において、次の段階:
a)前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、
b)状態A及び状態Bを表わすパラメーターと相関する潜在的ペプチドを選択し、
c)多数の各試料について前記の選択された潜在的ペプチドの信号強度の間の相関の測度をコンピュータ処理し、かつ
d)一定の閾値以上のそれらの各信号強度の相関を示さない潜在的ペプチドペアを選択し、それによって、状態A及び状態Bの間で区別するための診断目的用のマーカーパネル中の相補ペプチドとして使用されることに好適である潜在的ペプチドを得る
を包含することを特徴とする方法。 - 多数の試料のペプチドトポロジーを用いる既知ペプチドの代理として好適なペプチドを同定する方法において、次の段階:
a)前記の多数の試料の各試料についての各質量スペクトルを得て、この際、信号強度ピークは潜在的ペプチドに相応し、
b)前記の既知ペプチドの信号強度と潜在的ペプチドの信号強度との間の相関の測度をコンピュータ処理し、かつ
c)一定の閾値以上の前記の既知ペプチドとの相関度を示す潜在的ペプチドを選択し、それによって、前記の既知ペプチドのための代理として好適な潜在的ペプチドを得る
を包含することを特徴とする方法。 - 多数の最小全域木直径を、前記の試料中の前記の潜在的ペプチドの信号強度を用いて、相関の測度としてコンピュータ処理し、この際、潜在的ペプチドの選択は、最小全域木直径閾値を使用することによって行なわれ、この際、2つの潜在的ペプチドの関連についての最小全域木直径は、試料の数の少なくとも0.425倍の調整可能な閾値以上であるべきである、請求項1から3までのいずれか1項又は6項に記載の方法。
- 多数の最小全域木直径を、前記試料中の前記の潜在的ペプチドの信号強度を用いて、相関の測度としてコンピュータ処理し、この際、潜在的ペプチドペアの選択は、最小全域木直径閾値を用いることによって行なわれ、この際、前記の異なった実験群中で実測される最小全域木直径間の差は、試料の数の少なくとも0.1倍の調整可能な閾値以上である、請求項4又は5に記載の方法。
- 方法は、前記の試料の質量スペクトルを得ることに先行する、前記試料の少なくとも1分画化段階の付加的段階を包含し、かつ前記試料の少なくとも1画分を、前記質量スペクトルを得るために使用する、請求項1から8までのいずれか1項に記載の方法。
- "ペアソン乗積‐モーメント相関係数"、"スペアマンの順位相関係数"、"ケンダルのタウ"、"ケンダルの一致の係数"、"グッドマン及びクルスカルのガンマ"及び"最小全域木直径"を含む群から選択される少なくとも1つの相関の測度法を使用する、請求項1から9までのいずれか1項に記載の方法。
- "単一オフセット相関"、"2‐点基線相関"、"多重‐点基線相関"、"相互作用の多項式基線相関"、"機能適合基線相関"及び"GIFTS(自動平準化法)基線相関"を含む群から選択される質量分析法データを計測するための少なくとも1方法を使用する、請求項1から10までのいずれか1項に記載の方法。
- "主成分分析"、"多変量計測部分的最小‐平方"及び"レプリケーター神経ネットワーク"を含む群から選択される孤値試料を同定するための少なくとも1方法を使用する、請求項1から11までのいずれか1項に記載の方法。
- 相関の測度の計算は、相関の測度の計算の、先行の一巡から得られるペプチド座標を使用して少なくとも1回繰り返され、それによって第2以上の近隣の相関の測度を得る、請求項1から12までのいずれか1項に記載の方法。
- 画分数、溶離時間、保持時間、タンパク質チップ座標、ペプチド濃度、酵素活性、構造特性、化学特性及び生物学特性を含む群から選択される質量のほかに、付加的な座標を使用する、請求項1から13までのいずれか1項に記載の方法。
- MALDI質量分析法又はESI質量分析法が、質量スペクトルを生じさせるために使用される、請求項1から14までのいずれか1項に記載の方法。
- 試料又は試料群は均質である、請求項1から15までのいずれか1項に記載の方法。
- 相関の測度のコンピュータ処理は、相関の測度を予備‐決定された値を使用して、分析の測度を促進させるために、有利に分析に先行して行なわれる、請求項1から16までのいずれか1項に記載の方法。
- 必要な配列情報は、データベースから手動的インプット又は自動的に質問されることによって得られる、請求項1から17までのいずれか1項に記載の方法。
- 相応する結果は、配列データベース、特許データベース、文献データベース、医学的データベース、3D構造データベース、酵素認識部位についての情報を有するデータベース、翻訳後変性、遺伝的多形性、臨床的試行を含む群から選択される他の給源からのデータと自動的に組み合わせられる、請求項1から18までのいずれか1項に記載の方法。
- データ処理又はデータ供給の少なくとも1段階は、遠隔コンピュータシステムを使用して行なわれ、かつ利用者は、インターネット、イントラネット又は他のネットワークを経由して遠隔コンピュータシステムに接続される、請求項1から19までのいずれか1項に記載の方法。
- 請求項1から20までのいずれか1項に記載の方法を行なうためにプログラムされたデジタルコンピュータシステム。
- 請求項1から20までのいずれか1項に記載の方法を履行するコンピュータプログラムを蓄積するコンピュータ読取媒体。
- データ‐分析の少なくとも一部分は、異なった地域に置かれた遠隔コンピュータシステムを経由して行なわれる、請求項1から22までのいずれか1項に記載の方法の使用。
- アミノ酸配列の長さにおける変更を決定するための、及び/又はそのペプチドが試料に加えられた既知特性のペプチドの化学的又は翻訳後変性を決定するための、請求項2、3又は6から23までのいずれか1項に記載の方法の使用。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04000170A EP1553515A1 (en) | 2004-01-07 | 2004-01-07 | Methods and system for the identification and characterization of peptides and their functional relationships by use of measures of correlation |
PCT/EP2005/000090 WO2005069187A2 (en) | 2004-01-07 | 2005-01-07 | Methods and system for the identification and characterization of peptides and their functional relationships by use of measures of correlation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007526243A true JP2007526243A (ja) | 2007-09-13 |
Family
ID=34585950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006548227A Pending JP2007526243A (ja) | 2004-01-07 | 2005-01-07 | 相関の測度の使用によるペプチド及びその機能的類縁関係の同定及び特性決定のための方法及びシステム |
Country Status (7)
Country | Link |
---|---|
US (1) | US20110093204A1 (ja) |
EP (2) | EP1553515A1 (ja) |
JP (1) | JP2007526243A (ja) |
AT (1) | ATE443296T1 (ja) |
CA (1) | CA2553172A1 (ja) |
DE (1) | DE602005016650D1 (ja) |
WO (1) | WO2005069187A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014112068A (ja) * | 2012-04-27 | 2014-06-19 | Shimadzu Corp | 質量分析におけるピーク検出方法及びそのシステム |
JPWO2021245798A1 (ja) * | 2020-06-02 | 2021-12-09 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1760464B1 (en) * | 2004-06-07 | 2015-08-26 | Tsumura & Co. | Multi-component medicine evaluation method |
US8818787B2 (en) * | 2011-01-31 | 2014-08-26 | Yahoo! Inc. | Method and system for predicting performance of software applications on prospective hardware architecture |
GB2515284B (en) * | 2013-06-17 | 2020-07-22 | Micromass Ltd | A mass spectrometer, control system and methods of operating and assembling a mass spectrometer |
US20170082634A1 (en) * | 2015-07-21 | 2017-03-23 | The General Hospital Corporation | Multiplexed Proteomics and Phosphoproteomics |
WO2019040757A1 (en) * | 2017-08-23 | 2019-02-28 | The General Hospital Corporation | MULTIPLEXED PROTEOMIC AND PREDICTIVE EVALUATION OF CANDIDATE MEDICINE |
US11262337B2 (en) * | 2018-03-14 | 2022-03-01 | Hitachi High-Tech Corporation | Chromatography mass spectrometry and chromatography mass spectrometer |
US20210333251A1 (en) * | 2020-04-24 | 2021-10-28 | Waters Technologies Ireland Limited | Methods, mediums, and systems to compare data within and between cohorts |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10038694C2 (de) * | 2000-07-28 | 2003-09-25 | Anagnostec Ges Fuer Analytisch | Verfahren zur Identifizierung von Mikroorganismen mittels MALDI-TOF-MS |
WO2002058533A2 (en) * | 2000-11-17 | 2002-08-01 | Slanetz Alfred E | Process for determining target function and identifying drug leads |
CA2453725A1 (en) * | 2001-07-13 | 2003-01-23 | Syngenta Participations Ag | System and method of determining proteomic differences |
EP1520243A1 (en) * | 2002-07-10 | 2005-04-06 | Institut Suisse de Bioinformatique | Peptide and protein identification method |
-
2004
- 2004-01-07 EP EP04000170A patent/EP1553515A1/en not_active Withdrawn
-
2005
- 2005-01-07 CA CA002553172A patent/CA2553172A1/en not_active Abandoned
- 2005-01-07 DE DE602005016650T patent/DE602005016650D1/de not_active Expired - Fee Related
- 2005-01-07 JP JP2006548227A patent/JP2007526243A/ja active Pending
- 2005-01-07 EP EP05706844A patent/EP1704507B1/en not_active Not-in-force
- 2005-01-07 AT AT05706844T patent/ATE443296T1/de not_active IP Right Cessation
- 2005-01-07 WO PCT/EP2005/000090 patent/WO2005069187A2/en active Application Filing
- 2005-01-07 US US10/585,380 patent/US20110093204A1/en not_active Abandoned
Non-Patent Citations (2)
Title |
---|
JPN6010056917, Pavel A. Pevzner et al., "Efficiency of Database Search for Identification of Mutated and Modified Proteins via Mass Spectrome", Genome Research, 200102, Vol.11,No.2, pages.290−299 * |
JPN6010056918, Jon G. Wilkes et al., "Defining and using microbial spectral databases", Journal of the American Society for Mass Spectrometry, 200207, Vol.13,No.7, pages.875−887 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014112068A (ja) * | 2012-04-27 | 2014-06-19 | Shimadzu Corp | 質量分析におけるピーク検出方法及びそのシステム |
JPWO2021245798A1 (ja) * | 2020-06-02 | 2021-12-09 | ||
WO2021245798A1 (ja) * | 2020-06-02 | 2021-12-09 | 株式会社島津製作所 | 微生物識別用マーカーの特定方法 |
JP7364073B2 (ja) | 2020-06-02 | 2023-10-18 | 株式会社島津製作所 | 微生物識別用マーカーの特定方法 |
Also Published As
Publication number | Publication date |
---|---|
US20110093204A1 (en) | 2011-04-21 |
CA2553172A1 (en) | 2005-07-28 |
DE602005016650D1 (de) | 2009-10-29 |
ATE443296T1 (de) | 2009-10-15 |
WO2005069187A3 (en) | 2006-03-02 |
EP1704507B1 (en) | 2009-09-16 |
EP1704507A2 (en) | 2006-09-27 |
EP1553515A1 (en) | 2005-07-13 |
WO2005069187A2 (en) | 2005-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Andjelković et al. | Mass spectrometry based proteomics as foodomics tool in research and assurance of food quality and safety | |
Panchaud et al. | Mass spectrometry for nutritional peptidomics: How to analyze food bioactives and their health effects | |
Silberring et al. | Biomarker discovery and clinical proteomics | |
JP2007526243A (ja) | 相関の測度の使用によるペプチド及びその機能的類縁関係の同定及び特性決定のための方法及びシステム | |
Schulz-Knappe et al. | Peptidomics the comprehensive analysis of peptides in complex biological mixtures | |
Montowska et al. | Rapid detection of peptide markers for authentication purposes in raw and cooked meat using ambient liquid extraction surface analysis mass spectrometry | |
EP3260866B1 (en) | Novel biomarkers for cognitive impairment and methods for detecting cognitive impairment using such biomarkers | |
Tsai et al. | Mass spectrometry-based strategies for protein disulfide bond identification | |
US20060287834A1 (en) | Virtual mass spectrometry | |
Bowler et al. | Proteomics in pulmonary medicine | |
US20100261215A1 (en) | Non-invasive method for collecting biological data for establishing a diagnosis of a cutaneous pathology | |
Ghodasara et al. | Clinical veterinary proteomics: Techniques and approaches to decipher the animal plasma proteome | |
EP1887351A1 (en) | Screening method for specific protein in proteome comprehensive analysis | |
Mari et al. | Proteomic analysis in the identification of allergenic molecules | |
Cantrell et al. | Proteomic characterization of the human lens and Cataractogenesis | |
Cumova et al. | Proteomic analysis in multiple myeloma research | |
WO2008047086A2 (en) | Biomarker | |
Page et al. | Proteomics: applications relevant to transfusion medicine | |
Gałązka-Czarnecka et al. | Bioactive Peptide Analysis | |
CN101535812A (zh) | 蛋白水解加工的质谱法分析 | |
Wu et al. | A novel approach for characterizing variations in serum peptides in rheumatic heart disease | |
Li et al. | Neuroproteomics and its applications in research on nicotine and other drugs of abuse | |
US20140243432A1 (en) | Peptide biomarkers of cardiovascular disease | |
Lucchi et al. | Mass-spectrometry based characterisation of infant whole saliva peptidome | |
Gandhi et al. | Effect of iTRAQ labeling on the relative abundance of peptide fragment ions produced by MALDI-MS/MS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101001 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110309 |