JP4051400B2

JP4051400B2 - プロテオーム網羅的解析における特異的蛋白質のスクリーニング方法

Info

Publication number: JP4051400B2
Application number: JP2007518865A
Authority: JP
Inventors: 理恵子後藤; 昇平塩山; 善三郎戸塚; 邦男籾山; 靖司中村; 健一覚道
Original assignee: JCL Bioassay Corp
Current assignee: JCL Bioassay Corp
Priority date: 2005-05-31
Filing date: 2006-02-08
Publication date: 2008-02-20
Anticipated expiration: 2026-02-08
Also published as: EP1887351A1; WO2006129401A1; US20090132171A1; EP1887351A4; JPWO2006129401A1

Description

本発明は、プロテオーム網羅的解析における特異的蛋白質のハイスループットスクリーニング方法に関する。

創薬や医療診断の基礎研究としてゲノミクスやプロテオミクスがある。ゲノミクスは、ＤＮＡマイクロアレイ、ＤＮＡチップなどの有効な分析ツールの開発およびこれらの実用化により、ヒト遺伝子が全て解明されるなどの成果を修めている。プロテオームの網羅的解析（プロテオミクス）も、蛋白質の構造および量の異常で起こる病気に対して、その蛋白質を特定し、診断方法、治療方法、および治療薬を開発するために盛んに行われている。しかし、プロテオミクスは１９８０年代にスタートしたにもかかわらず、サンプルの倫理的問題やゲノミクスにおけるＤＮＡチップのような包括的に解析できるツールが開発されていないことなどのため、未だ大きな成果を挙げていない（ゲノミクス・プロテオミクスの新展開，今中忠行監修，２００４年，株式会社エヌ・ティー・エス）。
一般に、蛋白質の研究において、分離精製には電気泳動や特異的吸着を利用するカラムクロマトグラフィーを用い、分析にはプロテインシーケンサー、ＮＭＲ、Ｘ線解析を用いる（ゲノミクス・プロテオミクスの新展開，今中忠行監修，２００４年，株式会社エヌ・ティー・エスおよびタンパク質実験ノート（上・下），改訂第３版，岡田雅人および宮崎香編，２００４年，羊土社）。これらの手法は、コストがかかること、再現性のあるデータの取得が困難であること、分析時間が長いことなどの問題があった。近年、質量分析計の著しい発展に伴い、質量分析計を用いたプロテオミクスが行われている。蛋白質分離後の測定方法としては、ＥＳＩ、ＭＡＬＤＩなどのイオン化方法を用いた質量分析計を用いる。
現在使用されている蛋白質混合物の分離方法として、蛋白質の等電点および大きさの違いに基づいて分離する２次元電気泳動がある。また、酵素消化後のペプチドを分離する方法として、イオン交換カラムと逆相カラムとを組み合わせた２次元ＨＰＬＣもある（Ｓ．Ｐ．Ｇｙｇｉら，Ｊ．ＰｒｏｔｅｏｍｅＲｅｓｅａｒｃｈ，２００３年，４３巻，ｐｐ．４３−５０）。このような２次元電気泳動あるいは２次元ＨＰＬＣ（２ＤＬＣ）と質量分析計とを組み合わせることによって、蛋白質の分離精製の必要がないプロテオーム解析方法が開発されている（Ｓ．Ｐ．Ｇｙｇｉら，Ｊ．ＰｒｏｔｅｏｍｅＲｅｓｅａｒｃｈ，２００３年，４３巻，ｐｐ．４３−５０およびＳ．Ｐ．Ｇｙｇｉら，Ｊ．ＭａｓｓＳｐｅｃｔｒｏｍ．，２００１年，３６巻，ｐｐ．１０８３−１０９１）。最近の測定方法では、蛋白質をそのまま質量分析計に注入する、ＥＣＤ−ＦＴＩＣＲＭＳ^ｎやＥＴＤ／ＬＴＱＭＳ^ｎのトップダウンシーケンスの手法もある（Ｒ．Ａ．Ｚｕｂａｒｅｖら，Ｊ．Ａｍ．Ｃｈｅｍ．Ｓｏｃ．，１９９８年，１２０巻，ｐｐ．３２６５−３２６６；Ｒ．Ａ．Ｚｕｂａｒｅｖら，Ｃｕｒｒ．Ｏｐｉｎ．Ｂｉｏｔｅｃｈｎｏｌ．，２００４年，１５巻，ｐｐ．１２−１６；Ｊ．Ｅ．Ｓｙｋａら，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．Ｕ．Ｓ．Ａ．，２００４年，１０１巻，ｐｐ．９５２８−９５３３；およびＪ．Ｊ．Ｃｏｏｎら，Ｉｎｔ．Ｊ．ＭａｓｓＳｐｅｃｔｒｏｍ．，２００４年，２３６巻，ｐｐ．３３−４２）。
一般的に、特異的蛋白質をスクリーニングする場合、目的蛋白質を含む細胞または組織、および目的蛋白質を含まない細胞または組織の２種類を用意し、この２種類の細胞または組織から抽出された各試料について蛋白質の同定を行い、その同定結果を比較する。プロテオーム解析の場合は、各細胞または組織から蛋白質を分画・精製し、得られた蛋白質混合物を、蛋白質分解酵素によりペプチドフラグメントに分解し、ペプチドフラグメントを測定する。測定結果と蛋白質分解酵素の情報とを組み合わせて、ゲノムのデータベースと照合し、蛋白質を同定する。これらの質量分析によって得られたデータについてのデータベース検索ソフトが市販されている。
上述のように、プロテオーム解析方法については、様々な方法がある。しかし、いずれの方法においても、例えば以下の理由から、種類の異なる蛋白質検索結果を比較して、効率的に特異的蛋白質をスクリーニングする方法は確立されていない。
（１）検索結果から得られる蛋白質の種類が非常に多く、データが膨大であること；
（２）蛋白質の多くは発現量の多い蛋白質であり（Ｓ．Ｐ．Ｇｙｇｉら，Ｍｏｌ．ＣｅｌｌＢｉｏｌ．，１９９９年，１９巻，ｐ．１７２０およびＳ．Ｐ．Ｇｙｇｉら，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．Ｕ．Ｓ．Ａ．，２０００年，９７巻，ｐｐ．９３９０−９３９５）、発現量の少ない蛋白質は、その発現量の変化を見つけることが非常に困難であること；
（３）溶解性の悪い蛋白質では細胞からの抽出による再現性が要求されること；
（４）細胞分画や蛋白質の粗精製・濃縮操作による再現性が要求されること；
（５）酵素消化処理での再現性が要求されること；
（６）上記（３）〜（５）の問題を解消するために、内部標準物質を加える方法があるが、適切な内部標準物質が必要であり、多量の内部標準物質と発現量の少ない蛋白質とが重なると、その蛋白質を検出することが困難となること；および
（７）上記（３）〜（５）の問題を解消するために、ＩＣＡＴ（ｉｓｏｔｏｐｅ−ｃｏｄｅｄａｆｆｉｎｉｔｙｔａｇ；同位体標識アフィニティータグ）の試薬を蛋白質のシステイン残基に結合させる方法があり、これは微量な蛋白質の発現を比較するために有効な手段であるが、ＩＣＡＴ試薬を必要とすること（Ｓ．Ｐ．Ｇｙｇｉら，Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．，１９９９年，１７巻，ｐｐ．９９４−９９９）。
上記のような膨大なデータを解析するためのデータ処理方法も検討されている（特開２００５−０３１０２１号公報）。しかし、処理して得られたデータが、実際に特異的蛋白質のスクリーニングに有効であるかどうかについては十分に検討されていない。

上述のプロテオミクスの手法は、コスト面や分析時間、データの再現性の問題をある程度解消し、多量の未知の蛋白質混合物を包括的に分析できる手法として将来的に医療診断に応用が期待されている。しかし、包括的な分析を行うには非常に膨大なデータ処理が必要であること、さらに質量分析計を用いたプロテオミクス特有の擬陽性データを排除しきれないこと、定量的な考察が困難であることなどの問題点があり、実用化は非常に困難な状況にある。
本発明は、膨大な蛋白質のハイスループットな機能解析が求められるプロテオーム解析において、特異的蛋白質を効率よくハイスループットにスクリーニングするための新規な方法を提供することを目的とする。
本発明は、プロテオーム解析における特異的蛋白質のスクリーニング方法を提供し、該方法は、
（ａ１）特異群の細胞または組織から、蛋白質または蛋白質消化物を含む試料を得る工程；
（ａ２）対照群の細胞または組織から、蛋白質または蛋白質消化物を含む試料を得る工程；
（ｂ１）該工程（ａ１）で得られた試料を質量分析計で分析して、質量分析データを得る工程；
（ｂ２）該工程（ａ２）で得られた試料を質量分析計で分析して、質量分析データを得る工程；
（ｃ１）該工程（ｂ１）により得られた質量分析データを、任意のデータベース検索ソフトウェアを用いて解析し、該試料ごとに、蛋白質を特定する要素および蛋白質を同定するための指標を含む蛋白質リストを取得する工程；
（ｃ２）該工程（ｂ２）により得られた質量分析データを、任意のデータベース検索ソフトウェアを用いて解析し、該試料ごとに、蛋白質を特定する要素および蛋白質を同定するための指標を含む蛋白質リストを取得する工程；
（ｄ１）該工程（ｃ１）で取得したすべての蛋白質リストにおいて、該要素ごとに該指標の値を平均化し、該指標の平均値を含む特異群の蛋白質リストモデルを取得する工程；
（ｄ２）該工程（ｃ２）で取得したすべての蛋白質リストにおいて、該要素ごとに該指標の値を平均化し、該指標の平均値を含む対照群の蛋白質リストモデルを取得する工程；
（ｅ）該工程（ｄ１）で得られた特異群の蛋白質リストモデルと該工程（ｄ２）で得られた対照群の蛋白質リストモデルとの間で該要素ごとに該平均値の差を算出して、該要素を該平均値の差の順に並べ替えた１つの蛋白質リストを取得する工程；および
（ｆ）該工程（ｅ）で取得した蛋白質リストから、該平均値の差が大きい蛋白質を選択する工程；
を含む。
好適な実施態様では、上記蛋白質を同定するための指標は、スコア、Ｃｏｖｅｒａｇｅ、またはランキングである。
より好適な実施態様では、上記蛋白質を同定するための指標は、スコアである。
好適な実施態様では、上記蛋白質を特定する要素は、Ａｃｃｅｓｓｉｏｎｎｕｍｂｅｒまたは蛋白質名である。
好適な実施態様では、上記工程（ｄ１）、（ｄ２）、および（ｅ）は、任意のコンピュータプログラムによって実行される。
本発明の方法によれば、多量の未知の蛋白質混合物を包括的に分析した際の膨大なデータを解析するための手法が提供され、実験誤差および擬陽性データを取り除いて、特異的蛋白質の候補を効率よく絞り込むことができる。本発明の方法では、従来のプロテオーム解析と比較して、スクリーニングの結果の再現性および正確性が向上している。また、本発明の方法は、比較的低コストかつハイスループットでのスクリーニングが可能である。さらに、本発明のスクリーニング方法によって選択された特異的蛋白質についての半定量的な判定も可能である。

図１は、従来のスクリーニング方法および本発明のスクリーニング方法の原理を説明するための概念図である。
図２は、ヒト由来肝細胞のエストロゲンレセプター（Ａ）およびグルタミン酸レセプター（Ｂ）についてのスコア値を示すグラフである。
図３は、各症例別のスコアの分布を示すグラフである。
図４は、特異的な３種類の蛋白質（Ａ〜Ｃ）についての、各試料のスコア値を示すグラフである。
図５は、特異的な３種類の蛋白質（Ｄ〜Ｆ）についての、各試料のスコア値を示すグラフである。
図６は、種々の範囲のモデルスコア値に対応する蛋白質名およびＡｃｃｅｓｓｉｏｎｎｕｍｂｅｒの数を示すグラフである。
図７は、各試料のスコア３５以上のＡｃｃｅｓｓｉｏｎｎｕｍｂｅｒの数および蛋白質の濃度を示すグラフである。

本発明のプロテオーム解析における特異的蛋白質のスクリーニング方法は、種々の要因（例えば、病態、薬物への曝露など）によって発現量が特異的に変動する蛋白質を特定するために特に有用な方法である。
一般的に、プロテオーム解析における特異的蛋白質のスクリーニングにおいては、特異的蛋白質が発現していると予想される場合であっても、蛋白質が存在するか否かは不明であり、特異的と判断するための基準も、蛋白質の種類、処理方法、試料濃度、個体差などのため一定ではない。これに対しては、ｎ数を増やすことにより、スクリーニング結果の信頼性を高めることができる。しかし、ｎ数の増加に伴って、リストアップされる蛋白質の数が増え、処理すべきデータが膨大になる。これらを個々について検討することは、非常に大きな労力および時間を必要とする（図１の従来のスクリーニング方法の概念図を参照のこと）。
そこで、本発明者らは、蛋白質を特異的と判断する基準が曖昧であること、試料間で再現性の問題があること、ならびに個体差が各検索結果に反映されていることに注目した。試料を、例えば、特異的蛋白質の変動があると予想される群とそれに対する対照群とに群分けし、各群内で個々の試料の質量分析データの解析によって得られる蛋白質を特定する要素（蛋白質名、Ａｃｃｅｓｓｉｏｎｎｕｍｂｅｒなど）ごとに、蛋白質の同定をするための指標（スコア、Ｃｏｖｅｒａｇｅ、ランキングなど）の平均値を算出することにより、各群の各蛋白質のモデル的な指標値を求めることができる。図１の本発明のスクリーニング方法の概念図に基づいて説明すると、Ａ群の各試料Ａ１〜Ａ３についての蛋白質リストモデルＡおよびＢ群の各試料Ｂ１〜Ｂ３についての蛋白質リストモデルＢをそれぞれ作成し、このモデル間で比較を行う。比較とは、具体的には、各要素の指標の差を求めることである。次いで、その差に基づいて蛋白質リストを整理する。こうして得られた蛋白質リストを用いると、特異的蛋白質を絞り込むことが容易である。例えば、整理された蛋白質リストの蛋白質Ｘという要素のモデル指標値をＸ_ＡおよびＸ_Ｂとすると、Ｘ_Ａ−Ｘ_Ｂ値が大きい場合はＸがＡ群に特異的な蛋白質であり、小さい場合はＢ群に特異的な蛋白質であると容易に判断できる。
したがって、本発明のプロテオーム解析における特異的蛋白質のスクリーニング方法は、以下の工程：
（ａ１）特異群の細胞または組織から、蛋白質または蛋白質消化物を含む試料を得る工程；
（ａ２）対照群の細胞または組織から、蛋白質または蛋白質消化物を含む試料を得る工程；
（ｂ１）該工程（ａ１）で得られた試料を質量分析計で分析して、質量分析データを得る工程；
（ｂ２）該工程（ａ２）で得られた試料を質量分析計で分析して、質量分析データを得る工程；
（ｃ１）該工程（ｂ１）により得られた質量分析データを、任意のデータベース検索ソフトウェアを用いて解析し、該試料ごとに、蛋白質を特定する要素および蛋白質を同定するための指標を含む蛋白質リストを取得する工程；
（ｃ２）該工程（ｂ２）により得られた質量分析データを、任意のデータベース検索ソフトウェアを用いて解析し、該試料ごとに、蛋白質を特定する要素および蛋白質を同定するための指標を含む蛋白質リストを取得する工程；
（ｄ１）該工程（ｃ１）で取得したすべての蛋白質リストにおいて、該要素ごとに該指標の値を平均化し、該指標の平均値を含む特異群の蛋白質リストモデルを取得する工程；
（ｄ２）該工程（ｃ２）で取得したすべての蛋白質リストにおいて、該要素ごとに該指標の値を平均化し、該指標の平均値を含む対照群の蛋白質リストモデルを取得する工程；
（ｅ）該工程（ｄ１）で得られた特異群の蛋白質リストモデルと（ｄ２）で得られた対照群の蛋白質リストモデルとの間で該要素ごとに該平均値の差を算出して、該要素を該平均値の差の順に並べ替えた１つの蛋白質リストを取得する工程；および
（ｆ）該工程（ｅ）で取得した蛋白質リストから、該平均値の差が大きい蛋白質を選択する工程；
を含む。
以下、本発明を工程の順に詳細に説明する。
工程（ａ１）および（ａ２）：
本発明の方法では、まず、工程（ａ１）および（ａ２）において、特異群および対照群の細胞または組織から、それぞれ蛋白質または蛋白質消化物を含む試料を得る。
「特異群」とは、スクリーニングの対象となる群をいい、発現量が特異的に変動している蛋白質の存在が予想される群をいう。例えば、特定の病態群；化学物質、光、温度などの特定の条件への曝露群が挙げられる。「対照群」とは、上記特異群と比較するための群であり、例えば、特定の病態ではない群（例えば、正常群）；種々の条件の曝露などを受けていない群が挙げられる。「細胞または組織」とは、上記の特異群および対照群に由来する、単離された細胞または組織をいう。例えば、培養細胞、血液細胞、バイオプシーにより体内から取り出された組織または細胞などが挙げられる。
まず、組織を用いる場合は、蛋白質分解酵素処理、例えば、コラゲナーゼ処理などの当業者が通常用いる手段によって細胞を分離する。細胞または組織から分離した細胞は、適切な緩衝液中で、例えば、ホモジナイザーなどの当業者が通常用いる手段を用いて破砕される。蛋白質を含む試料は、この破砕によって得られた懸濁液自体であってもよく、あるいは必要に応じてさらに分画して得られた画分であってもよい。蛋白質を含む試料は、必要に応じて、さらにトリプシンなどの蛋白質消化酵素で消化してもよく、この消化処理によって、蛋白質消化物を含む試料を得ることができる。
これらの工程（ａ１）および（ａ２）において、各群の試料のｎ数は、特に限定されないが、試料の個体差の影響を除くことができる点で、ｎ数が多い方が好ましい。
工程（ｂ１）および（ｂ２）：
この工程（ｂ１）および（ｂ２）では、上記工程（ａ１）および（ａ２）で得られた各群の試料を質量分析計で分析して、試料ごとの質量分析データを得る。
「質量分析」（ＭＳ）とは、分析する試料をイオン化させて導入し、電気力や磁気力により質量ごとの差をつくり、イオンの質量を分析することである。ＭＳの測定原理としては、イオントラップ型ＭＳ法、フーリエ変換イオンサイクロトロン共鳴質量分析（ＦＴ−ＩＣＲ／ＭＳ）法、イオンスキャン法、Ｑ−ＴＯＦ型ＭＳ法などが挙げられ、それぞれの原理に基づく質量分析計が存在する。本発明の方法においては、１方法だけ（すなわち、１つの質量分析計のみ）で分析してもよく、あるいは複数の質量分析計を連結させて分析（以下ＭＳ／ＭＳ解析）してもよい。
工程（ｃ１）および（ｃ２）：
これらの工程（ｃ１）および（ｃ２）では、上記工程（ｂ１）および（ｂ２）で得られた各試料の質量分析データを、任意のデータベース検索ソフトウェアを用いて解析し、試料ごとに、蛋白質を特定する要素および蛋白質を同定するための指標を含む蛋白質リストを取得する。
「データベース検索ソフトウェア」は、ＭＳデータから分子量が合致するペプチドフラグメントの候補の検出、さらにこのフラグメントから、任意のデータベースを検索して蛋白質全体を予測する解析ソフトウェアであればよい。市販されているソフトウェアとしては、Ｍａｓｃｏｔ（ＭａｔｒｉｘＳｃｉｅｎｃｅ社）、ＴｕｒｂｏＳｅｑｕｅｓｔ（サーモエレクトロン社）などが挙げられる。利用可能なデータベースとしては、例えば、ＢＬＡＳＴ、Ｓｗｉｓｓ−Ｐｒｏｔが挙げられる。このようなデータベース検索ソフトウェアは、ＭＳデータを出力するために質量分析計とともに備えられているコンピュータ部に、予め組み込まれていることが好ましい。
上記データベース検索ソフトウェアによる解析の結果、蛋白質を特定する要素および該特定された蛋白質の同定をするための指標などを含む、試料ごとの蛋白質リストが得られる。蛋白質を特定する要素としては、Ａｃｃｅｓｓｉｏｎｎｕｍｂｅｒ、蛋白質名などが挙げられる。また、蛋白質の同定をするための指標としては、スコア（Ｓｃｏｒｅ）、Ｃｏｖｅｒａｇｅ、ランキングなどが挙げられる。
工程（ｄ１）および（ｄ２）：
これらの工程（ｄ１）および（ｄ２）では、上記工程（ｃ１）および（ｃ２）で取得した各群のすべての蛋白質リストにおいて、要素ごとに指標の値を平均化し、指標の平均値を含む特異群および対照群のそれぞれの蛋白質リストモデルを取得する。言い換えると、各群について、蛋白質リストに挙げられたすべての蛋白質を特定する要素と、該要素に対応する指標の平均値とを、１つのリストに統合することによって、各群のモデル的な蛋白質リストを得ることができる。
これらの工程において、平均化する指標は、スコア、Ｃｏｖｅｒａｇｅ、ランキングなどのいずれか１つであり、好ましくはスコアである。
工程（ｅ）：
工程（ｅ）では、上記工程（ｄ１）および（ｄ２）で得られた特異群および対照群の２つの蛋白質リストモデル間で、要素ごとに指標の平均値の差を算出して、要素を平均値の差の順に並べ替えた１つの蛋白質リストを取得する。平均値の差は、（特異群の値）−（対照群の値）で表され得る。したがって、平均値の差は、正の値から負の値まで種々であり得る。差の順は、昇順であっても降順であってもよい。並べ替えることによって、特異的蛋白質の情報として有用なものの順に蛋白質を整理することができるため、以下の工程（ｆ）において、差の大きな蛋白質の選択が容易になる。
ここで、工程（ｄ１）および（ｄ２）ならびに（ｅ）では、これらの工程を実行するようにプログラムされたコンピュータソフトウェアを用いてデータ処理され得る。例えば、上記のデータベース検索ソフトウェアとともに、質量分析計のコンピュータ部に組み込まれていてもよい。あるいは、上記の工程（ｃ１）および（ｃ２）でデータベース検索ソフトウェアによって得られた蛋白質リストは、サーバーやパーソナルコンピュータ（ＰＣ）などにエクスポートされ得る。例えば、ＴｕｒｂｏＳｅｑｕｅｓｔで得られたデータを、ＰＣ用の表計算ソフトウェアであるマイクロソフト社のＭｉｃｒｏｓｏｆｔＥｘｃｅｌ登録商標にエクスポートするためのソフトウェアがある。データがエクスポートされ得るソフトウェアにおいて、上記工程（ｄ１）および（ｄ２）ならびに（ｅ）を実行するためのマクロプログラムを組むことが可能である。したがって、ＰＣなどにおいてこのプログラムを実行することによって、平均値の差の順に並べ替えた１つの蛋白質リストを取得することも可能である。
工程（ｆ）：
工程（ｆ）では、上記工程（ｅ）において得られた平均値の差の順に並べ替えた１つの蛋白質リストから、平均値の差が大きい蛋白質を選択する。ここで、平均値の差が大きいとは、その絶対値が大きいことをいう。これによって、蛋白質リストに挙げられた膨大な数の蛋白質から、特異的蛋白質の候補を効率よく絞り込むことができる。
この工程で選択した蛋白質は、必ずしも特異的蛋白質ではない。なぜなら、例えば、ｎ数が小さい場合には、特異群および対照群のいずれにおいても非常に発現量の多い蛋白質において、差の値が大きくなる場合があり、その差が発現量の変動の範囲内であることがある。したがって、候補として選択された蛋白質について、特異的蛋白質であるかどうかを個々に検証する必要がある。
検証の手段は、特に限定されない。例えば、上記のスクリーニング方法で使用した特異群および対照群に属する別の複数の試料について、質量分析データを解析し、候補蛋白質の各試料における指標値を蛋白質リストモデル中の候補蛋白質の指標値と比較することによって、変動の範囲内の可能性が高いかどうか、あるいは特異的蛋白質であると同定し得るかどうかを検証し得る。本発明の方法によれば、この検証の作業はやや煩雑なように見える。しかし、１つの試料から数万の蛋白質がリストアップされ、それらを個々に比較検討／検証しなければならない従来のスクリーニング作業を比較すると、本発明の方法では、検証すべき蛋白質が数種から数十種に絞り込まれ得るため、非常に効率よく特異的蛋白質を同定できる。
さらに、本発明の方法によって同定された特異的蛋白質については、未知試料の質量分析データの解析によって得られた蛋白質リスト中のスコアなどの要素の値から、蛋白質リストモデル中の平均値との比較によって、特異群であるか否かの半定量的判定を行うことも可能である。

以下の実施例において、蛋白質試料またはペプチド試料の質量分析には、ｎａｎｏ２ＤＬＣ−ＭＳ^ｎＬＴＱＭＳシステム（サーモエレクトロン社）を用いた。このシステムは、質量分析計として２ＤＬＣ／ＥＳＩ／リニアイオントラップ／ＭＳ／ＭＳ（サーモエレクトロン社）が採用され、得られた質量分析データはデータベース検索ソフトウェアであるＴｕｒｂｏＳｅｑｕｅｓｔ（サーモエレクトロン社）によって解析される。
上記システムによる解析結果として、各蛋白質のスコア値を含む個々の試料についての蛋白質リストが得られる。試料群についての平均のスコア値を求める場合は、各試料群内において蛋白質ごとにスコア値の平均値を算出する。算出した平均値について、蛋白質ごとに群間で平均スコア値の差を算出し、その順に蛋白質リストを並べ替える。以下の実施例においては、上記データベース検索ソフトウェアから得られた解析結果を、マイクロソフト社のＭｉｃｒｏｓｏｆｔＥｘｃｅｌ登録商標にエクスポートし、各試料群において蛋白質ごとの平均スコア値を含む蛋白質リストモデルを取得し、群間で蛋白質の平均スコア値の差を求めて、その差が大きい順に並べ替えた蛋白質リストを作成するようにマクロプログラムを組み、これを実行することによって、整理された蛋白質リストを得た。
（実施例１）
ウシ血清アルブミン（ＢＳＡ）を、以下の表１に記載の種々の濃度の水溶液に調製し、トリプシン消化した後、質量分析計でそれぞれ２回分析し、質量分析データをデータベース検索ソフトウェアで解析して、蛋白質リストを得た。各濃度におけるＢＳＡと同定された蛋白質のスコア値を表１に示す。
表１からわかるように、得られたスコア値と蛋白質濃度との間に相関関係が見られた。
（実施例２）
以下の表２に示すヒト由来の肝細胞を洗浄後、緩衝液を加えて、氷冷下にて破砕した。得られた懸濁液をトリプシン消化し、質量分析計で測定を行い、質量分析データをデータベース検索ソフトウェアで解析して、蛋白質リストを得た。
エストロゲンレセプターおよびグルタミン酸レセプターについてのスコア値を、それぞれ図２ＡおよびＢに示す。
エストロゲンレセプター（Ａ）については、女性のスコア値の平均値は約９０であり、男性では約３０であった。エストロゲンは女性ホルモンであるため、その受容体が女性群でスコア値が大きいのは妥当な結果である。グルタミン酸レセプター（Ｂ）では、試料番号３（６４歳女性）のスコア値が大きく、これが老化に関与する蛋白質である可能性が示唆された。なお、本実施例においては、各試料の蛋白質リストの蛋白質数は５〜６万個であり、そのうちの約３割に相当する２万個が全ての試料で見られた蛋白質であった。
（実施例３）
ヒトにおけるある疾患において異なる病態を示す症例から採取した組織を用いた。一方の病態を示す６症例を対照群（試料番号１〜６）、および他方の病態を示す１３症例を特異群（試料番号７〜１９）とした。得られた組織をそれぞれコラゲナーゼ処理して、細胞を分離した。細胞を洗浄後、氷冷下にて破砕した。得られた懸濁液を１，０００×ｇで遠心分離し、上清を回収して細胞質画分を得た。上清をトリプシン消化し、質量分析計で測定を行い、質量分析データをデータベース検索ソフトウェアで解析して、それぞれの症例に由来する試料についての蛋白質リストを得た。
各試料においてスコア＞２．０を満たすＡｃｃｅｓｓｉｏｎｎｕｍｂｅｒは、平均で５６，０５０個であった。スコアの範囲は、２．０〜２０００強であった。各試料別のスコアの分布を図３に示す。１症例あたりのＡｃｃｅｓｓｉｏｎｎｕｍｂｅｒ数は平均で、スコア２．０以上３．５未満が５０６７７、スコア３．０以上１００．０未満が４９４２、およびスコア１００以上が４３１であった。
上記の解析結果、すなわち各試料の蛋白質リストを、ＭｉｃｒｏｓｏｆｔＥｘｃｅｌ登録商標にエクスポートし、Ａｃｃｅｓｓｉｏｎｎｕｍｂｅｒでスコアの平均値を求めて整理するマクロプログラムを実行した。対照群については、試料番号１〜６のすべての試料についてマクロプログラムを実行し、対照群モデルスコア値を得た。特異群については、試料番号７〜１９のすべてについて蛋白質リストをＡｃｃｅｓｓｉｏｎｎｕｍｂｅｒごとに整理させたが、蛋白質リストモデルの作成については、特に病態の著しい試料番号７、１０、１１、および１２のみを用いて実行し、特異群モデルスコア値を得た。
特異群モデルスコア値と対照群モデルスコア値との差（Ｓｃｏｒｅｏｆｄｉｆｆｅｒｅｎｃｅｎｕｍｂｅｒ）の大きい順に並べ替えたところ、１９症例由来の試料の１６３７８０の総Ａｃｃｅｓｓｉｏｎｎｕｍｂｅｒ数のうち、Ｓｃｏｒｅｏｆｄｉｆｆｅｒｅｎｃｅｎｕｍｂｅｒの上位２０番以内で、６種類の特異的蛋白質Ａ〜Ｆを同定した。これらの蛋白質についての各試料のスコアを、図４および５に示す。これらの蛋白質は、対照群よりも特異群でスコア値が高い傾向にあるため、この病態の指標になり得ることがわかる。
例えば、特異的な蛋白質の一例である蛋白質Ｄ（図５）を検証してみると、特異群では、１１５〜５５８７までのランキング値であり、対照群では、該当なしならびに６３５４〜２５５１５であった（データは示さず）。このように、蛋白質Ｄは、蛋白質の発現量が非常に少ないため、本発明の方法では特異的蛋白質であると同定可能であったが、従来のスクリーニング方法では見出すことができなかったと考えられる。
スクリーニング方法の信頼性を確保するために、蛋白質を特定する要素として、Ａｃｃｅｓｓｉｏｎｎｕｍｂｅｒの代わりに蛋白質名を用いて上記と同様に蛋白質リストモデルを作成し、モデルスコア値の差（特異群モデルスコア値−対照群モデルスコア値）を算出した。種々の範囲のモデルスコア値の差に対応する蛋白質名およびＡｃｃｅｓｓｉｏｎｎｕｍｂｅｒの数を、図６に示す。
１９試料の総蛋白質数は、蛋白質名で検索した場合は７５１９５個であり、Ａｃｃｅｓｓｉｏｎｎｕｍｂｅｒで検索した場合は１６３７８０個であった。Ａｃｃｅｓｓｉｏｎｎｕｍｂｅｒの方が８８５８５個多いが、これは総蛋白質数の集計ではＵｎｎａｍｅｄｐｒｏｔｅｉｎが含まれていないこと、ならびに異なるＡｃｃｅｓｓｉｏｎｎｕｍｂｅｒでも同じ蛋白質名であるものは、蛋白質数の集計に含まれていないためである。
特異群モデルスコア−対照群モデルスコア値は、ほとんどが±５以内にあり、特異的な蛋白質の検索にはどちらを用いても、大差はなかった。また、スコア値の差が１０以上の蛋白質は、いずれの場合も総蛋白質の量と比較するとごく僅かとなっていることが確認できる。特異的蛋白質は、スコア値の差が１０以上の枠にあると考えられ、蛋白質名およびＡｃｃｅｓｓｉｏｎｎｕｍｂｅｒのいずれで検索した場合も、選択された特異的蛋白質な同じであった（データは示さず）。
さらに、蛋白質の濃度の違いによるスコア値への影響についても確認した。ここでは、スクリーニング結果より、スコア３５以上のＡｃｃｅｓｓｉｏｎｎｕｍｂｅｒの数と蛋白質の濃度とを比較した結果を図７に示す。蛋白質の濃度に依存して、スコア値が変動していることがわかる。また試料番号３および９のように、濃度が高いにもかかわらず、スコア値３５以上のＡｃｃｅｓｓｉｏｎｎｕｍｂｅｒの数が少ないものもあった。この原因として、質量分析測定での噴霧状態が悪くイオン化効率が悪かったこと、酵素消化での消化効率が悪かったことなどが考えられる。この結果からも、各試料を全く同条件で測定することが困難であることがわかる。したがって、このようなばらつきのある試料の場合でも、本発明のスクリーニング方法が有効に利用できることがわかる。

本発明の方法によれば、多量の未知の蛋白質混合物を包括的に分析した際の膨大なデータを解析するための手法が提供され、実験誤差および擬陽性データを統計的に取り除いて、特異的蛋白質の候補を効率よく絞り込むことができる。本発明の方法では、従来のプロテオーム解析と比較して、スクリーニングの結果の再現性および正確性が向上している。また、本発明の方法は、比較的低コストかつハイスループットでのスクリーニングが可能である。さらに、本発明のスクリーニング方法によって選択された特異的蛋白質についての半定量的な判定も可能である。
したがって、本発明のスクリーニング方法によって種々の病態時や薬物などの曝露によって発現する特異的蛋白質を同定できる。そのため、この蛋白質が関連する疾患などの診断、治療、または予防、あるいはそのための薬剤の開発に非常に有用である。

Claims

プロテオーム解析における特異的蛋白質のスクリーニング方法であって：
（ａ１）特異群の細胞または組織から、蛋白質または蛋白質消化物を含む各試料を得る工程；
（ａ２）対照群の細胞または組織から、蛋白質または蛋白質消化物を含む各試料を得る工程；
（ｂ１）該工程（ａ１）で得られた各試料を質量分析計で分析して、質量分析データを得る工程；
（ｂ２）該工程（ａ２）で得られた各試料を質量分析計で分析して、質量分析データを得る工程；
（ｃ１）該工程（ｂ１）により得られた質量分析データを、任意のデータベース検索ソフトウェアを用いて解析し、該試料ごとに、蛋白質を特定する要素および蛋白質を同定するための指標を含む蛋白質リストを取得する工程；
（ｃ２）該工程（ｂ２）により得られた質量分析データを、任意のデータベース検索ソフトウェアを用いて解析し、該試料ごとに、蛋白質を特定する要素および蛋白質を同定するための指標を含む蛋白質リストを取得する工程；
（ｄ１）該工程（ｃ１）で取得したすべての蛋白質リストにおいて、該すべてのタンパク質リストの該指標の値を該要素ごとに平均化し、１つの蛋白質リストに統合することによって、該指標の平均値を含む特異群の蛋白質リストモデルを取得する工程；
（ｄ２）該工程（ｃ２）で取得したすべての蛋白質リストにおいて、該すべてのタンパク質リストの該指標の値を該要素ごとに平均化し、１つの蛋白質リストに統合することによって、該指標の平均値を含む対照群の蛋白質リストモデルを取得する工程；
（ｅ）該工程（ｄ１）で得られた特異群の蛋白質リストモデルと該工程（ｄ２）で得られた対照群の蛋白質リストモデルとの間で該要素ごとに該平均値の差を算出して、該要素を該平均値の差の順に並べ替えた１つの蛋白質リストを取得する工程；および
（ｆ）該工程（ｅ）で取得した蛋白質リストから、該平均値の差が大きい蛋白質を選択する工程；
を含み、
該蛋白質を同定するための指標が、スコア、 Coverage 、またはランキングであり、そして
該蛋白質を特定する要素が、 Accession number または蛋白質名である、
方法。
前記蛋白質を同定するための指標が、スコアである、請求項１に記載の方法。
前記工程（ｄ１）、（ｄ２）、および（ｅ）が、任意のコンピュータプログラムによって実行される、請求項１または２に記載の方法。