JP4286075B2

JP4286075B2 - タンパク質同定処理方法

Info

Publication number: JP4286075B2
Application number: JP2003181654A
Authority: JP
Inventors: 健坂本; 明人金子
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2003-06-25
Filing date: 2003-06-25
Publication date: 2009-06-24
Anticipated expiration: 2023-06-25
Also published as: JP2005017090A

Description

【０００１】
【発明の属する技術分野】
本発明は、サンプルに含まれているタンパク質を同定するための方法に関する。
【０００２】
【従来の技術】
ゲノム解析がほぼ終了した現在、生体内の遺伝子より作られるタンパク質の全容を明らかにすることに焦点が移り、プロテオーム解析に対する期待が高まっている。生体から抽出されたサンプル中に含まれるタンパク質を同定するタンパク質同定処理は、サンプル中のタンパク質に様々な前処理を施して断片化し、分離した複数のサンプル分画に含まれるペプチド断片のアミノ酸配列を決定し、そのペプチド断片の由来となるタンパク質を一意的に決定することである。個々のサンプル分画は質量分析計にかけられ、含まれるペプチド断片に対応するプリカーサーイオンの１つ又は複数のピークを有する質量スペクトル（ＭＳスペクトル）のデータを得る。さらに、質量分析計内の衝突室においてプリカーサーイオンが更に断片化され、生じたフラグメントイオンの質量スペクトル（ＭＳ／ＭＳスペクトル）のデータが得られる場合もある。得られたデータをソフトウェアで処理し、各ピークからアミノ酸配列を推定し、そのアミノ酸配列を持っているタンパク質をアミノ酸配列データベースから検索することで、サンプル中に含まれるタンパク質の同定が行われる。
【０００３】
【非特許文献１】
原田健一、田口良、橋本豊編「生命科学のための最新マススペクトロメトリー」講談社（2002）
【非特許文献２】
谷口寿章他「最新プロテオーム解析プロトコル」、細胞工学、Vol.21, p.322-326, 412-421, 524-534, 637-643, 757-770, 893-908, 1033-1047, 1332-1343, 1501-1516 (2002), Vol.22, p.57-69, 197-208, 329-344 (2003)、秀潤社
【非特許文献３】
R. Aebersold and M. Mann, "Mass spectrometry-based proteomics", Nature, Vol. 422, p.198-207 (2003)
【０００４】
【発明が解決しようとする課題】
サンプル分画の質量スペクトルデータを元にタンパク質同定処理を行うソフトウェアは存在するが、ペプチド断片のアミノ酸配列をユニークに決定することが困難な場合が多く、その場合、タンパク質の同定もユニークにはできない。ソフトウェアから出力されるのは数多くの候補ペプチド断片及び候補タンパク質であり、それらの中から、研究者が自ら結果を精査することにより同定作業を遂行することになる。サンプルに含まれるタンパク質が１種類であっても、既存の解析システムでは人手によるデータの確認、解釈が必要であり、分析結果を組み合わせて結果の精度を上げるには熟練を要する。その原因は、主に、ペプチド断片のイオン化が一様には起こらないためサンプルに含まれる全てのペプチド断片が質量分析される訳ではないこと、予想外の位置で結合が切断されて生成されたフラグメントイオンについてはアミノ酸配列が推定できないことと、参照する公共のアミノ酸配列データベースの精度と網羅性が十分高くないことから、既存のタンパク質同定処理システムによる同定精度が低くなり、同定結果を目視で確認し、場合によっては各種パラメータの調整後に再処理が必要なためである。今後、タンパク質同定処理に対する需要の拡大によって、大量のサンプルを処理する必要が生じた場合、質量分析計から出力されるデータに専門の研究者による精査が追いつかず、研究者の経験に頼った最終的なタンパク質同定処理が全工程のボトルネックとなることが予想される。
【０００５】
本発明は、このようなタンパク質同定処理の現状に鑑み、既存のタンパク質同定処理ソフトウェアから出力される情報をもとに、自動的にペプチド断片のアミノ酸配列及びその由来となるタンパク質を一意的に同定するシステムを構築することを目的とする。
【０００６】
【課題を解決するための手段】
本発明は、質量分析計を用いてサンプル中のタンパク質群を同定する際に、ある１つのサンプルあるいは複数のサンプルからさまざまな質量分析計を用いて得られた分析データを統合し、サンプル中に含まれるタンパク質群を同定する方法を提供する。
【０００７】
本発明によると、１あるいは複数のサンプル分画に対する質量スペクトルのピークと各ピークに対応する候補アミノ酸配列に関する多数のデータを目的に合わせた基準に従って統合し解析する。統合されたデータ中の候補アミノ酸配列について、アミノ酸配列データベースを相同性検索して所定の閾値以上の相同性を有するタンパク質をリストアップし、リストアップされた各タンパク質のアミノ酸配列のうちで候補アミノ酸配列と相同性のあるアミノ酸範囲に関する情報を取得する。そして、リストアップされたタンパク質のアミノ酸配列が候補アミノ酸配列によってカバーされる割合を指標として可能性の低いタンパク質を消去する方法、あるいは、質量スペクトルの１つのピークに対して複数の候補アミノ酸があるとき、対応するタンパク質との相同性の高さ等を指標として可能性の低い候補アミノ酸を消去する等の方法によって、候補アミノ酸及びタンパク質の絞込みを行う。
【０００８】
【発明の実施の形態】
以下、図面を参照して発明の実施の形態を説明する。
【０００９】
図１は、サンプルの分析からデータの処理まで含めた本発明のシステム全体の概略図である。生体から採取された検体（疾患患者及び健常人の血液、体液、排泄物、各種組織等）から、抽出・精製等の処理を経て得られるサンプルは複数のタンパク質の混合物からなり、サンプルの種類に応じて含まれるタンパク質の種類及び量が異なる。このシステムの目的は、サンプル中に含まれるなるべく多数のタンパク質を、質量分析計を用いて自動的かつ高精度に同定することである。
【００１０】
個々のサンプル１１には、それぞれサンプルの属性を示す付帯情報が付与されている。付帯情報には、そのサンプル提供者の性別、年齢、サンプルの由来（臓器、組織等）、臨床情報等が含まれ、付帯情報はサンプル付帯情報管理部１２でサンプルＩＤ（Identification Number）と共に管理される。各サンプルは、サンプル分画分離処理部１３によって様々な分画手段により、複数のサンプル分画に分けられる。識別のためのＩＤが付された各サンプル分画はそれぞれ１あるいは複数の質量分析計１４で分析される。分析制御部１５は、各サンプルＩＤ、分画ＩＤ、それを分析した質量分析計のＩＤを管理する。質量分析によって得られたデータはデータ統合部１６で後述するように統合される。統合されたデータはデータ保存部１７に保存される。また、データ統合部１６で統合されたデータは蛋白質群同定処理部１８に渡され、蛋白質群同定処理部１８ではアミノ酸配列データ管理部１９で管理されている公共データベースを利用して後述する処理を行い、サンプルに含まれる蛋白質を同定する。同定された蛋白質のデータはデータ保存部１７に保存される。
【００１１】
図２は、サンプルが質量分析計にかけられるまでの処理の流れを示す図である。サンプルは多種類あり（図ではＮ個）、各サンプルは、液体クロマトグラフ等の分画手段によってＭ種類のサンプル分画（フラクション）に分けられる。さらに、分画の過程でタンパク質分解酵素の処理により、タンパク質はペプチド断片に切断されている。また、ペプチド中の特定のアミノ酸に化学修飾が入っている場合がある。従って、各サンプル分画には、元のサンプルに含まれていたタンパク質混合物のペプチド断片の混合物が、修飾された状態あるいは未修飾の状態で含まれている。各サンプル分画には、その分画が得られるに至った実験情報が付帯情報としてついてくる（分画情報）。分画情報は、分析制御部１５で分画ＩＤと共に管理される。分画ＩＤはサンプルＩＤの下位概念である。すなわち、各分画ＩＤには、サンプルＩＤが一意に対応している。
【００１２】
個々のサンプル分画は、１種類あるいは複数種類の質量分析計にかけ分析される。図２の例では、イオン化の方法など機能の異なる２種類の質量分析計１，２がそれぞれｎ台、ｎ’台用意され、各サンプル分画は、その２種類の質量分析計によって分析される。個々のサンプル分画がいかなる質量分析計によって分析されたかは、分析制御部１５で質量分析計ＩＤと共に管理される。複数種類の異なる分析結果を使うのは、それぞれの分析結果に足りない部分を補完しあうためである。質量分析計ＩＤは分画ＩＤの下位概念である。すなわち、各質量分析計ＩＤには、分画ＩＤ及びサンプルＩＤが一意に対応している。
【００１３】
質量分析計の測定データとして、タンパク質あるいはタンパク質断片（以下、タンパク質断片と総称する）がイオン化することによって生じるプリカーサーイオンの質量スペクトルが得られる（ＭＳスペクトル）。質量分析計から出力されるＭＳスペクトルの例を図３に示す。ＭＳスペクトルのピークが個々のタンパク質断片に対応し、ピークの横軸で示される質量対電荷比（ｍ／ｚ）から、タンパク質断片の分子量を決定できる。質量分析計からは、ＭＳスペクトルの各ピークに対応する分子量のリストが出力される。
【００１４】
各スペクトルピークについて、そのピークに対応するタンパク質断片のアミノ酸配列を推定するために、そのピークを構成するプリカーサーイオンを質量分析計内において更に断片化して詳細分析し、ＭＳ／ＭＳスペクトルを得る。このＭＳ／ＭＳスペクトルのピークデータを元に、各タンパク質断片に対して、１つあるいは複数の候補アミノ酸配列を導出することが、既存のソフトウェアによって可能である。この機能を有する代表的なソフトウェアとして、Matrix Science社のMascotがある（Electrophoresis 20:3551-3567 (1999)）。
【００１５】
以上の操作により、サンプルＩＤ、分画ＩＤ、質量分析計ＩＤが指定された一連のＭＳスペクトル及びＭＳ／ＭＳスペクトルから、上記ソフトウェアを用いることにより、各スペクトルピークに対応するタンパク質断片の分子量と推定される1つ又は複数の候補アミノ酸配列から成るリスト（候補アミノ酸配列リスト）が得られる。候補アミノ酸配列リストには、対応するサンプルＩＤ、分画ＩＤ、質量分析計ＩＤが一意に付与されている。
【００１６】
各スペクトルピークに対応するタンパク質断片の候補アミノ酸配列について、その由来となるタンパク質を推定することは、既存の相同性検索ソフトウェアによって可能である。すなわち、アミノ酸配列データベースを構成している、登録番号：Accession Number（AccNo）が付与されたタンパク質群のアミノ酸配列に対し、当該候補アミノ酸配列の相同性（アミノ酸レベルで一致している割合と一致している部分の連続性等）を検索することにより、当該タンパク質断片の由来となる、１つあるいは複数の候補タンパク質を導出することができる。その際、相同性検索の結果に対し、あらかじめ定める基準値以上の相同性をもつ、アミノ酸配列とタンパク質の組合せのみを相同性検索の結果として残すことにより、上記候補アミノ酸配列と１つ又は複数のタンパク質AccNo及びそれらの間の数値化された相同性（以下、相同性指標と呼ぶ）から成る組合せのリスト(候補タンパク質リスト)が得られる。この処理も、既存のソフトウェアによって実行することができる。これらの相同性検索を実行することのできる代表的なソフトウェアとして、米国National Center for Biotechnology Information (NCBI)のBlastがある（Nucleic Acids Res. 25:3389-3402 (1997)）。また、スペクトルピークから対応するタンパク質断片のアミノ酸配列を推定する、Mascot等のソフトウェアの大部分は、上記相同性検索機能を有している。
【００１７】
以上の方法は、従来から行われている方法である。しかしながら、従来の方法で得られる候補アミノ酸配列リスト及び候補タンパク質リストでは、アミノ酸配列及び由来タンパク質の複数の候補が提供されるのみであり、更なる絞込みは研究者自らが実行することになる。
【００１８】
本発明においては、サンプルＩＤ、分画ＩＤ及び質量分析計ＩＤの組合せを複数指定することにより、この組合せに属する全ての候補アミノ酸配列リストが図１に示すデータ統合部１６に入力される。サンプルＩＤ、分画ＩＤ、質量分析計ＩＤの組合せを指定する方法としては、特定のサンプルＩＤに対応する全ての分画ＩＤ及び質量分析計ＩＤを指定する方法、サンプル付帯情報管理部により類縁性の高いサンプルとして選別された複数のサンプルＩＤに対応する全ての分画ＩＤ及び質量分析計ＩＤを指定する方法などがある。
【００１９】
以下にサンプルＩＤ、分画ＩＤ、及び質量分析計ＩＤの組み合わせの指定の仕方の例についての具体例をいくつか示すが、本発明はこれらに限定されるものではない。
1) サンプルが１種類の場合、サンプルＩＤ、分画ＩＤ、ピークＩＤを結合して、それを新たにピークＩＤとして扱うことによって、前に示したデータ処理により、あるサンプルに含まれる蛋白質の種類を示すリストを出来るだけ絞りこまれた形で得ることが出来る。
2) 複数のサンプルがある場合、特にサンプルに共通する性質に着目しなければ、逐次 1) に示した方法により、それぞれのサンプルに含まれる蛋白質の種類を示すリストを出来るだけ絞りこまれた形で得ることが出来る。
3) 複数のサンプルがあって、それらが付帯情報から、ある同一の性質を持つと考えられる場合(同一疾患など)、サンプルＩＤの違いは無視して、単にサンプルＩＤと分画ＩＤとピークＩＤを結合して、あたかも１つのサンプルからのデータとして扱うことによって、付帯情報を利用した、ある性質に共通する蛋白質のリストを得ることが出来る。これにより、例えば、糖尿病と健常者の違いを発現している蛋白質から見ることが可能となる。
4) 複数のサンプルがあって、それらが付帯情報からある同一の性質を持つと考えられる場合、それらを分画ＩＤが同じものを同一のサンプルと見做して、それらをまとめて解析することにより、分画ＩＤごとの特徴 (イオン的性質や、断片のおおよその長さの情報) を反映した蛋白質のリストを得ることが出来る。
【００２０】
図４は、本発明によるタンパク質群分析データ処理方法の処理手順を示した図である。全体の処理は、準備処理とイテレーション処理に分けられる。準備処理とは、データ統合部１６に候補アミノ酸配列リストを入力する処理である。本発明では、以下に説明する準備処理とイテレーションとにより、各タンパク質断片に対応する候補アミノ酸配列と対応するタンパク質（AccNo）のリストを作成する。イテレーションは、後に示す終了条件に到達するまで、繰り返し行なわれる。
【００２１】
図５は、データ統合部１６に入力される候補アミノ酸配列リストの模式図である。最初に、図６のフローチャートを参照して、準備処理について説明する。準備処理においては、まず、サンプルＩＤ、分画ＩＤ、質量分析計ＩＤの組合せを指定し、データ統合部１６に入力された候補アミノ酸配列リストの中から指定されたサンプルＩＤ、分画ＩＤ、質量分析計ＩＤの組合せに属するピークを選別し（Ｓ１１）、選別された全てのスペクトルピークに由来するデータを、以下の通りリスト化する。
【００２２】
各スペクトルピークに対し、一意なピークＩＤを付ける（Ｓ１２）。各ピークＩＤには、タンパク質断片の分子量が一意に対応している。Mascot等の既存のソフトウェアにより、各ピークＩＤについて１つ又は複数の候補アミノ酸配列が得られる。ここで、各候補アミノ酸配列に対し、一意な候補アミノ酸ＩＤを付ける（Ｓ１３）。候補アミノ酸配列リストに含まれるピークＩＤ、１つあるいは複数の候補アミノ酸ＩＤ及びそれに対応する候補アミノ酸配列を組とするデータセットを作る。これをデータセットＡとする（Ｓ１４）。図７（ａ）に、データセットＡの例を示す。各ピークＩＤについて複数の候補アミノ酸ＩＤが存在する場合は、候補アミノ酸ＩＤの数だけデータセットＡのレコードが生成される。
【００２３】
また、図７（ｂ）に示すように、アミノ酸配列データベースを構成するタンパク質のAccNo、対応するアミノ酸配列、及びアミノ酸総数を組とするデータセットを作成する。これをデータセットＢとする（Ｓ１５）。データベースの代表的なものとして、Swiss-Prot（Nucleic Acids Res., 31, 365-70 (2003)）やNCBI-nr（GenBankに登録されている遺伝子コード領域の翻訳配列、RefSeq蛋白質、PDB登録配列、SwissProt登録配列、PIR登録配列、PRF登録配列をマージして冗長性を除いたもの）がある。
【００２４】
次に、データセットＡに含まれる全ての候補アミノ酸配列について、相同性検索ソフトウェアを用いてデータセットＢに含まれる全てのタンパク質を対象に相同性検索を行い（Ｓ１６）、候補アミノ酸配列の情報からピークＩＤと候補アミノ酸ＩＤを、相同性検索の結果からAccNo、相同性指標、及び相同性のあるアミノ酸範囲（アミノ酸番号で記述する）をそれぞれ集め、それを１つの組とするデータセットを作成する。これをデータセットＣとする（Ｓ１７）。
【００２５】
図８に、データセットＣの一例を示す。相同性検索の結果、ある候補アミノ酸配列に対して基準値以上の相同性指標を有する複数のタンパク質が残された場合は、当該タンパク質の数だけデータセットＣのレコードが生成される。ここでは、相同性による選択基準は相同性指標９５％以上とした。図８に示すデータセットＣの例は、例えばピークＩＤ“２”、候補アミノ酸ＩＤ“２”の候補アミノ酸は、データセットＢに含まれるAccNo "P00001"のタンパク質と相同性指標９９の相同性を有し、AccNo "P99908"のタンパク質と相同性指標９５の相同性を有すること、また、AccNo "P00001"のタンパク質と相同性のあるアミノ酸範囲は１０１−１９０であり、AccNo "P99908"のタンパク質と相同性のあるアミノ酸範囲は２３９−３９６であることを示している。
【００２６】
以上で準備処理が終了し、次にイテレーション処理に移る。図９は、イテレーション処理の概要を説明するフローチャートである。データセットＡに対する一連の相同性検索が終了し、データセットＣが作成された後、データセットＣについて以下の候補アミノ酸削除処理を実行する。
【００２７】
▲１▼ データセットＣ内に存在するAccNoごとに、レコード中の相同性のあるアミノ酸範囲を集め、それら全てによってカバーされるアミノ酸範囲を求め、その範囲を構成しているアミノ酸数を、当該AccNoに対応するアミノ酸総数で除算することにより、候補アミノ酸配列によってカバーされる割合を数値化する（この数値を単純カバー率と呼ぶ）。例えば、あるAccNoのタンパク質のアミノ酸総数が500であるとする。このAccNoに対応するデータセットＣのレコードが３つあり、相同性のあるアミノ酸範囲がそれぞれ1-50、40-200、351-450であったとする。この場合、これら3つの候補アミノ酸配列によってカバーされる部分はオーバーラップを考慮して1-200と351-450となり、対応するアミノ酸数は200と100を加えて300となる。従って単純カバー率は300を500で割って0.6となる。実際には、各候補アミノ酸ＩＤにはそれぞれ相同性指標がついており、これらを考慮することにより、より実効的なカバー率を定義することが可能である（これを実効カバー率と呼ぶ）。例えば、単純カバー率に相同性指標の平均値を乗じたものを実効カバー率と定義することが可能であり、上記の例で相同性指標の平均値が90％である場合、実効カバー率は0.6×0.9=0.54となる。以上のように、データベースＣに属するタンパク質ごとに、基準値以上の相同性指標を有する候補アミノ酸配列によってカバーされる部分を実効カバー率という指標で定量化する（Ｓ２1）。
【００２８】
▲２▼ データセットＣ内の全てのAccNoについて求められた実効カバー率に対し、当該実効カバー率が最小となるAccNoを含むデータセットＣ内の該当レコードを消去する（Ｓ２２）。すなわち、実効カバー率が最も小さいタンパク質については、指定されたサンプル及びサンプル分画に存在している確率は低いと判断して、データセットＣより消去する。この処理は、一度に消去するタンパク質数を可変として、実効カバー率が最小となるものから順に複数個のAccNo対応レコードを消去するという処理に置き換えてもよい。但し、この▲２▼の処理において、該当レコードを消去することによって、データセットＣ内のあるピークＩＤに対する全ての候補アミノ酸ＩＤが消去されてしまう場合は、この消去処理は実行しない。
【００２９】
図１０は、実効カバー率の比較によるデータセットＣ内のレコード消去処理の説明図である。図１０中の太い横線は各AccNoで表されるタンパク質のアミノ酸総数に対応し、その下に（ａ）〜（ｋ）によって示されている細い横線はデータセットＣに含まれている候補アミノ酸がカバーしている範囲を示している（図８の各レコードの右横に示した符号（ａ）〜（ｋ）印と、図１０中に示した符号（ａ）〜（ｋ）とは対応している）。また、図１０の右側には、各AccNoのタンパク質に対してデータセットＣの候補アミノ酸によってカバーされる実効カバー率を示した。例えば、データセットＣ中のAccNo "P00001"によって表されるタンパク質には、ピークＩＤ“１”、候補アミノ酸ＩＤ“２”のアミノ酸と、ピークＩＤ“２”、候補アミノ酸ＩＤ“２”、相同性検索番号“１”のアミノ酸が対応し、その実効カバー率は４６％であること、AccNo "P99901"によって表されるタンパク質には、ピークＩＤ“１”、候補アミノ酸ＩＤ“１”のアミノ酸が対応し、その実効カバー率は１９％であることを示している。この例では、AccNo "P99906"のタンパク質の実効カバー率が１１％で最小である。従って、この場合、図８に示すデータセットＣから矢印で指し示したAccNo "P99906"のエントリが消去される。
【００３０】
▲３▼ データセットＣ内に存在するピークＩＤごとに、以下の処理を実施する。候補アミノ酸ＩＤが２つ以上ある場合は、各候補アミノ酸ＩＤに対応する相同性指標（候補アミノ酸ＩＤに対してAccNoが複数存在する場合は、対応する相同性指標の中で最大のもの）同士を比較して、一番低い相同性指標を取る候補アミノ酸ＩＤに対応するデータセットＣのレコードを消去する（Ｓ２３）。候補アミノ酸ＩＤが１つの場合、又は候補アミノ酸ＩＤは複数存在するが対応する相同性指標がすべて同一の場合は、消去処理を行わない。図１１に、この処理によってデータセットＣから消去されるレコードを矢印で示す。
【００３１】
ここでは、▲２▼タンパク質の実効カバー率によるデータセットＣ消去処理、▲３▼最小相同性指標によるデータセットＣ消去処理の順で説明したが、▲２▼及び▲３▼の順番については、どちらが先でも構わない。
【００３２】
▲４▼ (イテレーション終了判定) データセットＣ内の全てのピークＩＤに対して、ピークＩＤごとのデータセットＣ内のデータが、以下のいずれかの条件を満たす場合、データセットＣを最終出力して、イテレーションを終了する（Ｓ２４）。
(1) AccNoが1種類
(2) 全ての AccNo に対応する相同性指標が同じ値
上記▲４▼以外の場合、▲１▼からイテレーションを継続する。
【００３３】
図１２に、イテレーションが終了し、最終出力されたデータセットＣの例を示す。この例にある通り、４種類のピークＩＤそれぞれについて、一意の候補アミノ酸ＩＤが対応していることが分かる。
【００３４】
以上のイテレーション処理により、
(1) 各ピークＩＤに対し、データセットＡで記述された複数のアミノ酸配列候補がデータセットＣ中で一意に絞りこまれる。
(2) 各ピークＩＤに対し、データセットＣに記述される、候補蛋白質に対応するAccNoが得られる。
(3) 与えられた初期データセットに対し、その初期データセットに対応するサンプルに含まれると想定される、蛋白質の組を表わす AccNo の集合としてデータセットＣが得られる。
【００３５】
よって、各ピークＩＤに一部例外を除き、一意な候補蛋白質が対応付けられる。ここで、一部例外とは、スプライスバリアントと呼ばれる蛋白質の多様性に起因するものが考えられるが、その場合、一方が他方に配列が挿入される状況を除けば、基本的には配列は同一であり、その意味では一意な候補蛋白質が得られていると見做せる。図１２の例では、ピークＩＤ３及び４について、P00002とP00012の2種類のタンパク質が同一の相同性指標によって対応しており、これらのタンパク質は一部に挿入・欠失部分がある点を除けば同じタンパク質であることが分かる。
【００３６】
以上は、各サンプルに対し、サンプルＩＤ、分画ＩＤ、ピークＩＤを結合して、サンプルに含まれる蛋白質の種類を示すリストをできるだけ絞り込む例である。続いて、複数のサンプルがあって、それらの付帯情報から、ある共通の性質を持つと考えられるサンプルが存在する場合、当該付帯情報を利用して、その共通の性質に由来する蛋白質のリストを得る例を説明する。
【００３７】
サンプルに付随する付帯情報を参照することにより、複数のサンプルの中から共通の性質を有するサンプルを選別することが出来る。複数のサンプルの中から性別、年齢、血圧の情報を参照することにより、例えば31歳から50歳までで最高血圧が140以上の男性に由来するサンプルを選別することが出来る。また、糖尿病と診断されている人とそうでない人に由来するサンプルをそれぞれグルーピングすることもできる。以上選別されたサンプル群については、サンプルＩＤの違いは無視して、単にサンプルＩＤと分画ＩＤとピークＩＤを結合して、あたかも１つのサンプルからのデータとして取り扱うことができる。これにより、個体差によるデータのばらつきを平均化してシグナル感度を高めることが可能となり、単一のサンプルによる解析ではノイズと区別し難いピークについて、タンパク質の同定が可能となる。その結果、例えば、糖尿病の患者から得られた血液中に含まれる蛋白質と、健常者の血液中に含まれる蛋白質とを比較し、違いの見られた蛋白質のリストを作成することが可能となり、診断マーカーや創薬ターゲットの発見に寄与することができる。
【００３８】
【発明の効果】
本発明によると、タンパク質群同定処理において、質量スペクトルのピークと各ピークに対応する候補アミノ酸配列に関するデータをもとに、候補タンパク質絞り込みを自動化することが可能となる。
【図面の簡単な説明】
【図１】サンプルの分析からデータの処理まで含めたシステム全体の概略図。
【図２】サンプルが質量分析計にかけられるまでの処理の流れを示す図。
【図３】ＭＳスペクトルの例を示す図。
【図４】本発明によるタンパク質群分析データ処理方法の処理手順を示す図。
【図５】データ統合部に入力されるデータ説明する模式図。
【図６】準備処理の手順を説明するフローチャート。
【図７】データセットＡ及びデータセットＢの例を示す図。
【図８】データセットＣの例を示す図。
【図９】イテレーション処理の概要を説明するフローチャート。
【図１０】カバー率の比較によるデータセットＣ内のレコード消去処理の説明図。
【図１１】イテレーション過程でのデータセットＣの変化を示す説明図。
【図１２】イテレーションが終了したデータセットＣの最終出力を示す説明図。
【符号の説明】
１１：サンプル、１２：サンプル付帯情報管理部、１３：サンプル分画分離処理部、１４：質量分析計、１５：分析制御部、１６：データ統合部、１７：データ保存部、１８：タンパク質群同定処理部、１９：タンパク質辞書データ管理部

Claims

タンパク質含有サンプルを質量分析して得られた質量スペクトルの複数のピークと、各ピークに対応する候補アミノ酸配列に関する情報とを含む情報を取得するステップと、
前記候補アミノ酸配列を、既知のアミノ酸配列データベースに蓄積された各タンパク質のアミノ酸配列に対して相同性検索して所定の閾値以上の相同性を有するタンパク質をリストアップし、リストアップされた各タンパク質のアミノ酸配列のうちで前記候補アミノ酸配列と相同性のあるアミノ酸範囲に関する情報を取得するステップと、
前記候補アミノ酸配列と相同性のあるアミノ酸範囲に関する情報を用いて、前記リストアップされた各タンパク質を構成するアミノ酸配列のうち１又は複数の候補アミノ酸配列によってカバーされる割合を算出するステップと、
前記算出されたカバー割合が相対的に小さいタンパク質を前記リストから削除するステップと、
前記質量スペクトルの１つのピークに対して複数の候補アミノ酸があるとき、前記複数の候補アミノ酸のうち、対応するタンパク質との相同性が相対的に低い方の候補アミノ酸を削除するステップとを含むことを特徴とするタンパク質同定処理方法。
タンパク質含有サンプルを分画処理した複数のサンプル分画を質量分析して得られた質量スペクトルの複数のピークと、各ピークに対応する候補アミノ酸配列に関するデータの中から所望のデータを選択するステップと、
選択されたデータから、前記質量スペクトルのピークのＩＤとそのピークに対応する候補アミノ酸のＩＤ及び配列の組をレコードとするデータセットＡを作成するステップと、
既知のアミノ酸配列データベースに蓄積されたタンパク質のＩＤとそのアミノ酸配列、及びアミノ酸総数の組をレコードとするデータセットＢを作成するステップと、
前記データセットＡに含まれる各候補アミノ酸配列に関し、前記データセットＢに含まれるタンパク質のアミノ酸配列との相同性検索を行い、所定の閾値以上の相同性を有するタンパク質のＩＤ、相同性指標、相同性のあるアミノ酸範囲のデータを取得し、前記質量スペクトルのピークのＩＤとそのピークに対応する候補アミノ酸ＩＤ、当該候補アミノ酸ＩＤに対応するタンパク質ＩＤ、相同性指標、相同性のあるアミノ酸範囲の組をレコードとするデータセットＣを作成するステップと、
前記データセットＣに含まれるタンパク質ＩＤ毎に、当該タンパク質のアミノ酸総数のうち前記相同性のあるアミノ酸範囲の集合によってカバーされる割合を求めるステップと、
前記算出されたカバー割合が相対的に小さなタンパク質ＩＤのレコードをデータセットＣから消去するステップと、
データセットＣにおいて、１つのピークＩＤに対して複数の候補アミノ酸ＩＤが存在するとき、当該複数の候補アミノ酸ＩＤのうち相同性指標が一番低い候補アミノ酸ＩＤに対応する前記データセットＣのレコードを消去するステップとを含むことを特徴とするタンパク質同定処理方法。
請求項２記載のタンパク質同定処理方法において、前記データセットＣに含まれるタンパク質ＩＤ毎に、当該タンパク質のアミノ酸総数のうち前記相同性のあるアミノ酸範囲の集合によってカバーされる割合を求めるステップ、前記算出されたカバー割合が相対的に小さなタンパク質ＩＤのレコードをデータセットＣから消去するステップ、及び、データセットＣにおいて１つのピークＩＤに対して複数の候補アミノ酸ＩＤが存在するとき当該複数の候補アミノ酸ＩＤのうち相同性指標が一番低い候補アミノ酸ＩＤに対応する前記データセットＣのレコードを消去するステップを、すべてのピークＩＤについて、一意のタンパク質ＩＤ又は相同性指標の一致する複数のタンパク質ＩＤが対応するまで反復することを特徴とするタンパク質同定処理方法。
請求項２記載のタンパク質同定処理方法において、前記算出されたカバー割合が相対的に小さなタンパク質ＩＤのレコードをデータセットＣから消去するステップは、前記データセットＣの前記ピークＩＤに対する全ての候補アミノ酸ＩＤが消去されてしまう場合は実行されないことを特徴とするタンパク質同定処理方法。
請求項２記載のタンパク質同定処理方法において、前記データセットＣにおいて、１つのピークＩＤに対して複数の候補アミノ酸ＩＤが存在するとき、当該複数の候補アミノ酸ＩＤのうち相同性指標が一番低い候補アミノ酸ＩＤに対応する前記データセットＣのレコードを消去するステップは、前記候補アミノ酸ＩＤが１つの場合、又は、複数の前記候補アミノ酸ＩＤが同一の相同性指標を持つ場合は実行されないことを特徴とするタンパク質同定処理方法。
複数のタンパク質含有サンプルから、付帯情報を参照して選別されたサンプル群を得るステップと、
前記サンプル群を分画処理した複数のサンプル分画を質量分析して得られた質量スペクトルの複数のピークと、各ピークに対応する候補アミノ酸配列に関するデータの中から所望のデータを選択するステップと、
選択されたデータから、前記質量スペクトルのピークのＩＤとそのピークに対応する候補アミノ酸のＩＤ及び配列の組をレコードとするデータセットＡを作成するステップと、
既知のアミノ酸配列データベースに蓄積されたタンパク質のＩＤとそのアミノ酸配列、及びアミノ酸総数の組をレコードとするデータセットＢを作成するステップと、
前記データセットＡに含まれる各候補アミノ酸配列に関し、前記データセットＢに含まれるタンパク質のアミノ酸配列との相同性検索を行い、所定の閾値以上の相同性を有するタンパク質のＩＤ、相同性指標、相同性のあるアミノ酸範囲のデータを取得し、前記質量スペクトルのピークのＩＤとそのピークに対応する候補アミノ酸ＩＤ、当該候補アミノ酸ＩＤに対応するタンパク質ＩＤ、相同性指標、相同性のあるアミノ酸範囲の組をレコードとするデータセットＣを作成するステップと、
前記データセットＣに含まれるタンパク質ＩＤ毎に、当該タンパク質のアミノ酸総数のうち前記相同性のあるアミノ酸範囲の集合によってカバーされる割合を求めるステップと、
前記算出されたカバー割合が相対的に小さなタンパク質ＩＤのレコードをデータセットＣから消去するステップと、
データセットＣにおいて、１つのピークＩＤに対して複数の候補アミノ酸ＩＤが存在するとき、当該複数の候補アミノ酸ＩＤのうち相同性指標が一番低い候補アミノ酸ＩＤに対応する前記データセットＣのレコードを消去するステップとを含むことを特徴とするタンパク質同定処理方法。
請求項６記載のタンパク質同定処理方法において、ある疾患にかかっている患者と健常者に由来する情報を付帯情報として参照して選別されたサンプル群を得ることを特徴とするタンパク質同定処理方法。
請求項６又は７記載のタンパク質同定処理方法において、前記付帯情報は、性別、年齢、サンプルの由来、臨床情報のうちいずれか１つ以上であることを特徴とするタンパク質同定処理方法。