JP2005017090A - タンパク質同定処理方法 - Google Patents

タンパク質同定処理方法 Download PDF

Info

Publication number
JP2005017090A
JP2005017090A JP2003181654A JP2003181654A JP2005017090A JP 2005017090 A JP2005017090 A JP 2005017090A JP 2003181654 A JP2003181654 A JP 2003181654A JP 2003181654 A JP2003181654 A JP 2003181654A JP 2005017090 A JP2005017090 A JP 2005017090A
Authority
JP
Japan
Prior art keywords
amino acid
protein
data set
candidate
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003181654A
Other languages
English (en)
Other versions
JP4286075B2 (ja
Inventor
Takeshi Sakamoto
健 坂本
Akito Kaneko
明人 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003181654A priority Critical patent/JP4286075B2/ja
Publication of JP2005017090A publication Critical patent/JP2005017090A/ja
Application granted granted Critical
Publication of JP4286075B2 publication Critical patent/JP4286075B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

【課題】ペプチド断片のアミノ酸配列及びその由来となるタンパク質を一意的に同定する自動化システムを構築する。
【解決手段】質量スペクトルのピークと各ピークに対応する候補アミノ酸配列に関するデータをもとに、タンパク質データベースを相同性検索して所定の閾値以上の相同性を有するタンパク質をリストアップし、リストアップされた各タンパク質のアミノ酸配列のうちで候補アミノ酸配列と相同性のあるアミノ酸範囲に関する情報を取得する。リストアップされたタンパク質のアミノ酸配列が候補アミノ酸配列によってカバーされる割合、あるいは、質量スペクトルの1つのピークに対して複数の候補アミノ酸があるとき、対応するタンパク質との相同性の高さ等を指標として、候補アミノ酸及びタンパク質の絞込みを行う。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、サンプルに含まれているタンパク質を同定するための方法に関する。
【0002】
【従来の技術】
ゲノム解析がほぼ終了した現在、生体内の遺伝子より作られるタンパク質の全容を明らかにすることに焦点が移り、プロテオーム解析に対する期待が高まっている。生体から抽出されたサンプル中に含まれるタンパク質を同定するタンパク質同定処理は、サンプル中のタンパク質に様々な前処理を施して断片化し、分離した複数のサンプル分画に含まれるペプチド断片のアミノ酸配列を決定し、そのペプチド断片の由来となるタンパク質を一意的に決定することである。個々のサンプル分画は質量分析計にかけられ、含まれるペプチド断片に対応するプリカーサーイオンの1つ又は複数のピークを有する質量スペクトル(MSスペクトル)のデータを得る。さらに、質量分析計内の衝突室においてプリカーサーイオンが更に断片化され、生じたフラグメントイオンの質量スペクトル(MS/MSスペクトル)のデータが得られる場合もある。得られたデータをソフトウェアで処理し、各ピークからアミノ酸配列を推定し、そのアミノ酸配列を持っているタンパク質をアミノ酸配列データベースから検索することで、サンプル中に含まれるタンパク質の同定が行われる。
【0003】
【非特許文献1】
原田健一、田口良、橋本豊編「生命科学のための最新マススペクトロメトリー」講談社(2002)
【非特許文献2】
谷口寿章他「最新プロテオーム解析プロトコル」、細胞工学、Vol.21, p.322−326, 412−421, 524−534, 637−643, 757−770, 893−908, 1033−1047, 1332−1343, 1501−1516 (2002), Vol.22, p.57−69, 197−208, 329−344 (2003)、秀潤社
【非特許文献3】
R. Aebersold and M. Mann, ”Mass spectrometry−based proteomics”, Nature, Vol. 422, p.198−207 (2003)
【0004】
【発明が解決しようとする課題】
サンプル分画の質量スペクトルデータを元にタンパク質同定処理を行うソフトウェアは存在するが、ペプチド断片のアミノ酸配列をユニークに決定することが困難な場合が多く、その場合、タンパク質の同定もユニークにはできない。ソフトウェアから出力されるのは数多くの候補ペプチド断片及び候補タンパク質であり、それらの中から、研究者が自ら結果を精査することにより同定作業を遂行することになる。サンプルに含まれるタンパク質が1種類であっても、既存の解析システムでは人手によるデータの確認、解釈が必要であり、分析結果を組み合わせて結果の精度を上げるには熟練を要する。その原因は、主に、ペプチド断片のイオン化が一様には起こらないためサンプルに含まれる全てのペプチド断片が質量分析される訳ではないこと、予想外の位置で結合が切断されて生成されたフラグメントイオンについてはアミノ酸配列が推定できないことと、参照する公共のアミノ酸配列データベースの精度と網羅性が十分高くないことから、既存のタンパク質同定処理システムによる同定精度が低くなり、同定結果を目視で確認し、場合によっては各種パラメータの調整後に再処理が必要なためである。今後、タンパク質同定処理に対する需要の拡大によって、大量のサンプルを処理する必要が生じた場合、質量分析計から出力されるデータに専門の研究者による精査が追いつかず、研究者の経験に頼った最終的なタンパク質同定処理が全工程のボトルネックとなることが予想される。
【0005】
本発明は、このようなタンパク質同定処理の現状に鑑み、既存のタンパク質同定処理ソフトウェアから出力される情報をもとに、自動的にペプチド断片のアミノ酸配列及びその由来となるタンパク質を一意的に同定するシステムを構築することを目的とする。
【0006】
【課題を解決するための手段】
本発明は、質量分析計を用いてサンプル中のタンパク質群を同定する際に、ある1つのサンプルあるいは複数のサンプルからさまざまな質量分析計を用いて得られた分析データを統合し、サンプル中に含まれるタンパク質群を同定する方法を提供する。
【0007】
本発明によると、1あるいは複数のサンプル分画に対する質量スペクトルのピークと各ピークに対応する候補アミノ酸配列に関する多数のデータを目的に合わせた基準に従って統合し解析する。統合されたデータ中の候補アミノ酸配列について、アミノ酸配列データベースを相同性検索して所定の閾値以上の相同性を有するタンパク質をリストアップし、リストアップされた各タンパク質のアミノ酸配列のうちで候補アミノ酸配列と相同性のあるアミノ酸範囲に関する情報を取得する。そして、リストアップされたタンパク質のアミノ酸配列が候補アミノ酸配列によってカバーされる割合を指標として可能性の低いタンパク質を消去する方法、あるいは、質量スペクトルの1つのピークに対して複数の候補アミノ酸があるとき、対応するタンパク質との相同性の高さ等を指標として可能性の低い候補アミノ酸を消去する等の方法によって、候補アミノ酸及びタンパク質の絞込みを行う。
【0008】
【発明の実施の形態】
以下、図面を参照して発明の実施の形態を説明する。
【0009】
図1は、サンプルの分析からデータの処理まで含めた本発明のシステム全体の概略図である。生体から採取された検体(疾患患者及び健常人の血液、体液、排泄物、各種組織等)から、抽出・精製等の処理を経て得られるサンプルは複数のタンパク質の混合物からなり、サンプルの種類に応じて含まれるタンパク質の種類及び量が異なる。このシステムの目的は、サンプル中に含まれるなるべく多数のタンパク質を、質量分析計を用いて自動的かつ高精度に同定することである。
【0010】
個々のサンプル11には、それぞれサンプルの属性を示す付帯情報が付与されている。付帯情報には、そのサンプル提供者の性別、年齢、サンプルの由来(臓器、組織等)、臨床情報等が含まれ、付帯情報はサンプル付帯情報管理部12でサンプルID(Identification Number)と共に管理される。各サンプルは、サンプル分画分離処理部13によって様々な分画手段により、複数のサンプル分画に分けられる。識別のためのIDが付された各サンプル分画はそれぞれ1あるいは複数の質量分析計14で分析される。分析制御部15は、各サンプルID、分画ID、それを分析した質量分析計のIDを管理する。質量分析によって得られたデータはデータ統合部16で後述するように統合される。統合されたデータはデータ保存部17に保存される。また、データ統合部16で統合されたデータは蛋白質群同定処理部18に渡され、蛋白質群同定処理部18ではアミノ酸配列データ管理部19で管理されている公共データベースを利用して後述する処理を行い、サンプルに含まれる蛋白質を同定する。同定された蛋白質のデータはデータ保存部17に保存される。
【0011】
図2は、サンプルが質量分析計にかけられるまでの処理の流れを示す図である。サンプルは多種類あり(図ではN個)、各サンプルは、液体クロマトグラフ等の分画手段によってM種類のサンプル分画(フラクション)に分けられる。さらに、分画の過程でタンパク質分解酵素の処理により、タンパク質はペプチド断片に切断されている。また、ペプチド中の特定のアミノ酸に化学修飾が入っている場合がある。従って、各サンプル分画には、元のサンプルに含まれていたタンパク質混合物のペプチド断片の混合物が、修飾された状態あるいは未修飾の状態で含まれている。各サンプル分画には、その分画が得られるに至った実験情報が付帯情報としてついてくる(分画情報)。分画情報は、分析制御部15で分画IDと共に管理される。分画IDはサンプルIDの下位概念である。すなわち、各分画IDには、サンプルIDが一意に対応している。
【0012】
個々のサンプル分画は、1種類あるいは複数種類の質量分析計にかけ分析される。図2の例では、イオン化の方法など機能の異なる2種類の質量分析計1,2がそれぞれn台、n’台用意され、各サンプル分画は、その2種類の質量分析計によって分析される。個々のサンプル分画がいかなる質量分析計によって分析されたかは、分析制御部15で質量分析計IDと共に管理される。複数種類の異なる分析結果を使うのは、それぞれの分析結果に足りない部分を補完しあうためである。質量分析計IDは分画IDの下位概念である。すなわち、各質量分析計IDには、分画ID及びサンプルIDが一意に対応している。
【0013】
質量分析計の測定データとして、タンパク質あるいはタンパク質断片(以下、タンパク質断片と総称する)がイオン化することによって生じるプリカーサーイオンの質量スペクトルが得られる(MSスペクトル)。質量分析計から出力されるMSスペクトルの例を図3に示す。MSスペクトルのピークが個々のタンパク質断片に対応し、ピークの横軸で示される質量対電荷比(m/z)から、タンパク質断片の分子量を決定できる。質量分析計からは、MSスペクトルの各ピークに対応する分子量のリストが出力される。
【0014】
各スペクトルピークについて、そのピークに対応するタンパク質断片のアミノ酸配列を推定するために、そのピークを構成するプリカーサーイオンを質量分析計内において更に断片化して詳細分析し、MS/MSスペクトルを得る。このMS/MSスペクトルのピークデータを元に、各タンパク質断片に対して、1つあるいは複数の候補アミノ酸配列を導出することが、既存のソフトウェアによって可能である。この機能を有する代表的なソフトウェアとして、Matrix Science社のMascotがある(Electrophoresis 20:3551−3567 (1999))。
【0015】
以上の操作により、サンプルID、分画ID、質量分析計IDが指定された一連のMSスペクトル及びMS/MSスペクトルから、上記ソフトウェアを用いることにより、各スペクトルピークに対応するタンパク質断片の分子量と推定される1つ又は複数の候補アミノ酸配列から成るリスト(候補アミノ酸配列リスト)が得られる。候補アミノ酸配列リストには、対応するサンプルID、分画ID、質量分析計IDが一意に付与されている。
【0016】
各スペクトルピークに対応するタンパク質断片の候補アミノ酸配列について、その由来となるタンパク質を推定することは、既存の相同性検索ソフトウェアによって可能である。すなわち、アミノ酸配列データベースを構成している、登録番号:Accession Number(AccNo)が付与されたタンパク質群のアミノ酸配列に対し、当該候補アミノ酸配列の相同性(アミノ酸レベルで一致している割合と一致している部分の連続性等)を検索することにより、当該タンパク質断片の由来となる、1つあるいは複数の候補タンパク質を導出することができる。その際、相同性検索の結果に対し、あらかじめ定める基準値以上の相同性をもつ、アミノ酸配列とタンパク質の組合せのみを相同性検索の結果として残すことにより、上記候補アミノ酸配列と1つ又は複数のタンパク質AccNo及びそれらの間の数値化された相同性(以下、相同性指標と呼ぶ)から成る組合せのリスト(候補タンパク質リスト)が得られる。この処理も、既存のソフトウェアによって実行することができる。これらの相同性検索を実行することのできる代表的なソフトウェアとして、米国National Center for Biotechnology Information (NCBI)のBlastがある(Nucleic Acids Res. 25:3389−3402 (1997))。また、スペクトルピークから対応するタンパク質断片のアミノ酸配列を推定する、Mascot等のソフトウェアの大部分は、上記相同性検索機能を有している。
【0017】
以上の方法は、従来から行われている方法である。しかしながら、従来の方法で得られる候補アミノ酸配列リスト及び候補タンパク質リストでは、アミノ酸配列及び由来タンパク質の複数の候補が提供されるのみであり、更なる絞込みは研究者自らが実行することになる。
【0018】
本発明においては、サンプルID、分画ID及び質量分析計IDの組合せを複数指定することにより、この組合せに属する全ての候補アミノ酸配列リストが図1に示すデータ統合部16に入力される。サンプルID、分画ID、質量分析計IDの組合せを指定する方法としては、特定のサンプルIDに対応する全ての分画ID及び質量分析計IDを指定する方法、サンプル付帯情報管理部により類縁性の高いサンプルとして選別された複数のサンプルIDに対応する全ての分画ID及び質量分析計IDを指定する方法などがある。
【0019】
以下にサンプルID、分画ID、及び質量分析計IDの組み合わせの指定の仕方の例についての具体例をいくつか示すが、本発明はこれらに限定されるものではない。
1) サンプルが1種類の場合、サンプルID、分画ID、ピークIDを結合して、それを新たにピークIDとして扱うことによって、前に示したデータ処理により、あるサンプルに含まれる蛋白質の種類を示すリストを出来るだけ絞りこまれた形で得ることが出来る。
2) 複数のサンプルがある場合、特にサンプルに共通する性質に着目しなければ、逐次 1) に示した方法により、それぞれのサンプルに含まれる蛋白質の種類を示すリストを出来るだけ絞りこまれた形で得ることが出来る。
3) 複数のサンプルがあって、それらが付帯情報から、ある同一の性質を持つと考えられる場合(同一疾患など)、サンプルIDの違いは無視して、単にサンプルIDと分画IDとピークIDを結合して、あたかも1つのサンプルからのデータとして扱うことによって、付帯情報を利用した、ある性質に共通する蛋白質のリストを得ることが出来る。これにより、例えば、糖尿病と健常者の違いを発現している蛋白質から見ることが可能となる。
4) 複数のサンプルがあって、それらが付帯情報からある同一の性質を持つと考えられる場合、それらを分画IDが同じものを同一のサンプルと見做して、それらをまとめて解析することにより、分画IDごとの特徴 (イオン的性質や、断片のおおよその長さの情報) を反映した蛋白質のリストを得ることが出来る。
【0020】
図4は、本発明によるタンパク質群分析データ処理方法の処理手順を示した図である。全体の処理は、準備処理とイテレーション処理に分けられる。準備処理とは、データ統合部16に候補アミノ酸配列リストを入力する処理である。本発明では、以下に説明する準備処理とイテレーションとにより、各タンパク質断片に対応する候補アミノ酸配列と対応するタンパク質(AccNo)のリストを作成する。イテレーションは、後に示す終了条件に到達するまで、繰り返し行なわれる。
【0021】
図5は、データ統合部16に入力される候補アミノ酸配列リストの模式図である。最初に、図6のフローチャートを参照して、準備処理について説明する。準備処理においては、まず、サンプルID、分画ID、質量分析計IDの組合せを指定し、データ統合部16に入力された候補アミノ酸配列リストの中から指定されたサンプルID、分画ID、質量分析計IDの組合せに属するピークを選別し(S11)、選別された全てのスペクトルピークに由来するデータを、以下の通りリスト化する。
【0022】
各スペクトルピークに対し、一意なピークIDを付ける(S12)。各ピークIDには、タンパク質断片の分子量が一意に対応している。Mascot等の既存のソフトウェアにより、各ピークIDについて1つ又は複数の候補アミノ酸配列が得られる。ここで、各候補アミノ酸配列に対し、一意な候補アミノ酸IDを付ける(S13)。候補アミノ酸配列リストに含まれるピークID、1つあるいは複数の候補アミノ酸ID及びそれに対応する候補アミノ酸配列を組とするデータセットを作る。これをデータセットAとする(S14)。図7(a)に、データセットAの例を示す。各ピークIDについて複数の候補アミノ酸IDが存在する場合は、候補アミノ酸IDの数だけデータセットAのレコードが生成される。
【0023】
また、図7(b)に示すように、アミノ酸配列データベースを構成するタンパク質のAccNo、対応するアミノ酸配列、及びアミノ酸総数を組とするデータセットを作成する。これをデータセットBとする(S15)。データベースの代表的なものとして、Swiss−Prot(Nucleic Acids Res., 31, 365−70 (2003))やNCBI−nr(GenBankに登録されている遺伝子コード領域の翻訳配列、RefSeq蛋白質、PDB登録配列、SwissProt登録配列、PIR登録配列、PRF登録配列をマージして冗長性を除いたもの)がある。
【0024】
次に、データセットAに含まれる全ての候補アミノ酸配列について、相同性検索ソフトウェアを用いてデータセットBに含まれる全てのタンパク質を対象に相同性検索を行い(S16)、候補アミノ酸配列の情報からピークIDと候補アミノ酸IDを、相同性検索の結果からAccNo、相同性指標、及び相同性のあるアミノ酸範囲(アミノ酸番号で記述する)をそれぞれ集め、それを1つの組とするデータセットを作成する。これをデータセットCとする(S17)。
【0025】
図8に、データセットCの一例を示す。相同性検索の結果、ある候補アミノ酸配列に対して基準値以上の相同性指標を有する複数のタンパク質が残された場合は、当該タンパク質の数だけデータセットCのレコードが生成される。ここでは、相同性による選択基準は相同性指標95%以上とした。図8に示すデータセットCの例は、例えばピークID“2”、候補アミノ酸ID“2”の候補アミノ酸は、データセットBに含まれるAccNo ”P00001”のタンパク質と相同性指標99の相同性を有し、AccNo ”P99908”のタンパク質と相同性指標95の相同性を有すること、また、AccNo ”P00001”のタンパク質と相同性のあるアミノ酸範囲は101−190であり、AccNo ”P99908”のタンパク質と相同性のあるアミノ酸範囲は239−396であることを示している。
【0026】
以上で準備処理が終了し、次にイテレーション処理に移る。図9は、イテレーション処理の概要を説明するフローチャートである。データセットAに対する一連の相同性検索が終了し、データセットCが作成された後、データセットCについて以下の候補アミノ酸削除処理を実行する。
【0027】
▲1▼ データセットC内に存在するAccNoごとに、レコード中の相同性のあるアミノ酸範囲を集め、それら全てによってカバーされるアミノ酸範囲を求め、その範囲を構成しているアミノ酸数を、当該AccNoに対応するアミノ酸総数で除算することにより、候補アミノ酸配列によってカバーされる割合を数値化する(この数値を単純カバー率と呼ぶ)。例えば、あるAccNoのタンパク質のアミノ酸総数が500であるとする。このAccNoに対応するデータセットCのレコードが3つあり、相同性のあるアミノ酸範囲がそれぞれ1−50、40−200、351−450であったとする。この場合、これら3つの候補アミノ酸配列によってカバーされる部分はオーバーラップを考慮して1−200と351−450となり、対応するアミノ酸数は200と100を加えて300となる。従って単純カバー率は300を500で割って0.6となる。実際には、各候補アミノ酸IDにはそれぞれ相同性指標がついており、これらを考慮することにより、より実効的なカバー率を定義することが可能である(これを実効カバー率と呼ぶ)。例えば、単純カバー率に相同性指標の平均値を乗じたものを実効カバー率と定義することが可能であり、上記の例で相同性指標の平均値が90%である場合、実効カバー率は0.6×0.9=0.54となる。以上のように、データベースCに属するタンパク質ごとに、基準値以上の相同性指標を有する候補アミノ酸配列によってカバーされる部分を実効カバー率という指標で定量化する(S21)。
【0028】
▲2▼ データセットC内の全てのAccNoについて求められた実効カバー率に対し、当該実効カバー率が最小となるAccNoを含むデータセットC内の該当レコードを消去する(S22)。すなわち、実効カバー率が最も小さいタンパク質については、指定されたサンプル及びサンプル分画に存在している確率は低いと判断して、データセットCより消去する。この処理は、一度に消去するタンパク質数を可変として、実効カバー率が最小となるものから順に複数個のAccNo対応レコードを消去するという処理に置き換えてもよい。但し、この▲2▼の処理において、該当レコードを消去することによって、データセットC内のあるピークIDに対する全ての候補アミノ酸IDが消去されてしまう場合は、この消去処理は実行しない。
【0029】
図10は、実効カバー率の比較によるデータセットC内のレコード消去処理の説明図である。図10中の太い横線は各AccNoで表されるタンパク質のアミノ酸総数に対応し、その下に(a)〜(k)によって示されている細い横線はデータセットCに含まれている候補アミノ酸がカバーしている範囲を示している(図8の各レコードの右横に示した符号(a)〜(k)印と、図10中に示した符号(a)〜(k)とは対応している)。また、図10の右側には、各AccNoのタンパク質に対してデータセットCの候補アミノ酸によってカバーされる実効カバー率を示した。例えば、データセットC中のAccNo ”P00001”によって表されるタンパク質には、ピークID“1”、候補アミノ酸ID“2”のアミノ酸と、ピークID“2”、候補アミノ酸ID“2”、相同性検索番号“1”のアミノ酸が対応し、その実効カバー率は46%であること、AccNo ”P99901”によって表されるタンパク質には、ピークID“1”、候補アミノ酸ID“1”のアミノ酸が対応し、その実効カバー率は19%であることを示している。この例では、AccNo ”P99906”のタンパク質の実効カバー率が11%で最小である。従って、この場合、図8に示すデータセットCから矢印で指し示したAccNo ”P99906”のエントリが消去される。
【0030】
▲3▼ データセットC内に存在するピークIDごとに、以下の処理を実施する。候補アミノ酸IDが2つ以上ある場合は、各候補アミノ酸IDに対応する相同性指標(候補アミノ酸IDに対してAccNoが複数存在する場合は、対応する相同性指標の中で最大のもの)同士を比較して、一番低い相同性指標を取る候補アミノ酸IDに対応するデータセットCのレコードを消去する(S23)。候補アミノ酸IDが1つの場合、又は候補アミノ酸IDは複数存在するが対応する相同性指標がすべて同一の場合は、消去処理を行わない。図11に、この処理によってデータセットCから消去されるレコードを矢印で示す。
【0031】
ここでは、▲2▼タンパク質の実効カバー率によるデータセットC消去処理、▲3▼最小相同性指標によるデータセットC消去処理の順で説明したが、▲2▼及び▲3▼の順番については、どちらが先でも構わない。
【0032】
▲4▼ (イテレーション終了判定) データセットC内の全てのピークIDに対して、ピークIDごとのデータセットC内のデータが、以下のいずれかの条件を満たす場合、データセットCを最終出力して、イテレーションを終了する(S24)。
(1) AccNoが1種類
(2) 全ての AccNo に対応する相同性指標が同じ値
上記▲4▼以外の場合、▲1▼からイテレーションを継続する。
【0033】
図12に、イテレーションが終了し、最終出力されたデータセットCの例を示す。この例にある通り、4種類のピークIDそれぞれについて、一意の候補アミノ酸IDが対応していることが分かる。
【0034】
以上のイテレーション処理により、
(1) 各ピークIDに対し、データセットAで記述された複数のアミノ酸配列候補がデータセットC中で一意に絞りこまれる。
(2) 各ピークIDに対し、データセットCに記述される、候補蛋白質に対応するAccNoが得られる。
(3) 与えられた初期データセットに対し、その初期データセットに対応するサンプルに含まれると想定される、蛋白質の組を表わす AccNo の集合としてデータセットCが得られる。
【0035】
よって、各ピークIDに一部例外を除き、一意な候補蛋白質が対応付けられる。ここで、一部例外とは、スプライスバリアントと呼ばれる蛋白質の多様性に起因するものが考えられるが、その場合、一方が他方に配列が挿入される状況を除けば、基本的には配列は同一であり、その意味では一意な候補蛋白質が得られていると見做せる。図12の例では、ピークID3及び4について、P00002とP00012の2種類のタンパク質が同一の相同性指標によって対応しており、これらのタンパク質は一部に挿入・欠失部分がある点を除けば同じタンパク質であることが分かる。
【0036】
以上は、各サンプルに対し、サンプルID、分画ID、ピークIDを結合して、サンプルに含まれる蛋白質の種類を示すリストをできるだけ絞り込む例である。続いて、複数のサンプルがあって、それらの付帯情報から、ある共通の性質を持つと考えられるサンプルが存在する場合、当該付帯情報を利用して、その共通の性質に由来する蛋白質のリストを得る例を説明する。
【0037】
サンプルに付随する付帯情報を参照することにより、複数のサンプルの中から共通の性質を有するサンプルを選別することが出来る。複数のサンプルの中から性別、年齢、血圧の情報を参照することにより、例えば31歳から50歳までで最高血圧が140以上の男性に由来するサンプルを選別することが出来る。また、糖尿病と診断されている人とそうでない人に由来するサンプルをそれぞれグルーピングすることもできる。以上選別されたサンプル群については、サンプルIDの違いは無視して、単にサンプルIDと分画IDとピークIDを結合して、あたかも1つのサンプルからのデータとして取り扱うことができる。これにより、個体差によるデータのばらつきを平均化してシグナル感度を高めることが可能となり、単一のサンプルによる解析ではノイズと区別し難いピークについて、タンパク質の同定が可能となる。その結果、例えば、糖尿病の患者から得られた血液中に含まれる蛋白質と、健常者の血液中に含まれる蛋白質とを比較し、違いの見られた蛋白質のリストを作成することが可能となり、診断マーカーや創薬ターゲットの発見に寄与することができる。
【0038】
【発明の効果】
本発明によると、タンパク質群同定処理において、質量スペクトルのピークと各ピークに対応する候補アミノ酸配列に関するデータをもとに、候補タンパク質絞り込みを自動化することが可能となる。
【図面の簡単な説明】
【図1】サンプルの分析からデータの処理まで含めたシステム全体の概略図。
【図2】サンプルが質量分析計にかけられるまでの処理の流れを示す図。
【図3】MSスペクトルの例を示す図。
【図4】本発明によるタンパク質群分析データ処理方法の処理手順を示す図。
【図5】データ統合部に入力されるデータ説明する模式図。
【図6】準備処理の手順を説明するフローチャート。
【図7】データセットA及びデータセットBの例を示す図。
【図8】データセットCの例を示す図。
【図9】イテレーション処理の概要を説明するフローチャート。
【図10】カバー率の比較によるデータセットC内のレコード消去処理の説明図。
【図11】イテレーション過程でのデータセットCの変化を示す説明図。
【図12】イテレーションが終了したデータセットCの最終出力を示す説明図。
【符号の説明】
11:サンプル、12:サンプル付帯情報管理部、13:サンプル分画分離処理部、14:質量分析計、15:分析制御部、16:データ統合部、17:データ保存部、18:タンパク質群同定処理部、19:タンパク質辞書データ管理部

Claims (8)

  1. タンパク質含有サンプルを質量分析して得られた質量スペクトルの複数のピークと、各ピークに対応する候補アミノ酸配列に関する情報とを含む情報を取得するステップと、
    前記候補アミノ酸配列を、既知のアミノ酸配列データベースに蓄積された各タンパク質のアミノ酸配列に対して相同性検索して所定の閾値以上の相同性を有するタンパク質をリストアップし、リストアップされた各タンパク質のアミノ酸配列のうちで前記候補アミノ酸配列と相同性のあるアミノ酸範囲に関する情報を取得するステップと、
    前記候補アミノ酸配列と相同性のあるアミノ酸範囲に関する情報を用いて、前記リストアップされた各タンパク質を構成するアミノ酸配列のうち1又は複数の候補アミノ酸配列によってカバーされる割合を算出するステップと、
    前記算出されたカバー割合が相対的に小さいタンパク質を前記リストから削除するステップと、
    前記質量スペクトルの1つのピークに対して複数の候補アミノ酸があるとき、前記複数の候補アミノ酸のうち、対応するタンパク質との相同性が相対的に低い方の候補アミノ酸を削除するステップとを含むことを特徴とするタンパク質同定処理方法。
  2. タンパク質含有サンプルを分画処理した複数のサンプル分画を質量分析して得られた質量スペクトルの複数のピークと、各ピークに対応する候補アミノ酸配列に関するデータの中から所望のデータを選択するステップと、
    選択されたデータから、前記質量スペクトルのピークのIDとそのピークに対応する候補アミノ酸のID及び配列の組をレコードとするデータセットAを作成するステップと、
    既知のアミノ酸配列データベースに蓄積されたタンパク質のIDとそのアミノ酸配列、及びアミノ酸総数の組をレコードとするデータセットBを作成するステップと、
    前記データセットAに含まれる各候補アミノ酸配列に関し、前記データセットBに含まれるタンパク質のアミノ酸配列との相同性検索を行い、所定の閾値以上の相同性を有するタンパク質のID、相同性指標、相同性のあるアミノ酸範囲のデータを取得し、前記質量スペクトルのピークのIDとそのピークに対応する候補アミノ酸ID、当該候補アミノ酸IDに対応するタンパク質ID、相同性指標、相同性のあるアミノ酸範囲の組をレコードとするデータセットCを作成するステップと、
    前記データセットCに含まれるタンパク質ID毎に、当該タンパク質のアミノ酸総数のうち前記相同性のあるアミノ酸範囲の集合によってカバーされる割合を求めるステップと、
    前記算出されたカバー割合が相対的に小さなタンパク質IDのレコードをデータセットCから消去するステップと、
    データセットCにおいて、1つのピークIDに対して複数の候補アミノ酸IDが存在するとき、当該複数の候補アミノ酸IDのうち相同性指標が一番低い候補アミノ酸IDに対応する前記データセットCのレコードを消去するステップとを含むことを特徴とするタンパク質同定処理方法。
  3. 請求項2記載のタンパク質同定処理方法において、前記データセットCに含まれるタンパク質ID毎に、当該タンパク質のアミノ酸総数のうち前記相同性のあるアミノ酸範囲の集合によってカバーされる割合を求めるステップ、前記算出されたカバー割合が相対的に小さなタンパク質IDのレコードをデータセットCから消去するステップ、及び、データセットCにおいて1つのピークIDに対して複数の候補アミノ酸IDが存在するとき当該複数の候補アミノ酸IDのうち相同性指標が一番低い候補アミノ酸IDに対応する前記データセットCのレコードを消去するステップを、すべてのピークIDについて、一意のタンパク質ID又は相同性指標の一致する複数のタンパク質IDが対応するまで反復することを特徴とするタンパク質同定処理方法。
  4. 請求項2記載のタンパク質同定処理方法において、前記算出されたカバー割合が相対的に小さなタンパク質IDのレコードをデータセットCから消去するステップは、前記データセットCの前記ピークIDに対する全ての候補アミノ酸IDが消去されてしまう場合は実行されないことを特徴とするタンパク質同定処理方法。
  5. 請求項2記載のタンパク質同定処理方法において、前記データセットCにおいて、1つのピークIDに対して複数の候補アミノ酸IDが存在するとき、当該複数の候補アミノ酸IDのうち相同性指標が一番低い候補アミノ酸IDに対応する前記データセットCのレコードを消去するステップは、前記候補アミノ酸IDが1つの場合、又は、複数の前記候補アミノ酸IDが同一の相同性指標を持つ場合は実行されないことを特徴とするタンパク質同定処理方法。
  6. 複数のタンパク質含有サンプルから、付帯情報を参照して選別されたサンプル群を得るステップと、
    前記サンプル群を分画処理した複数のサンプル分画を質量分析して得られた質量スペクトルの複数のピークと、各ピークに対応する候補アミノ酸配列に関するデータの中から所望のデータを選択するステップと、
    選択されたデータから、前記質量スペクトルのピークのIDとそのピークに対応する候補アミノ酸のID及び配列の組をレコードとするデータセットAを作成するステップと、
    既知のアミノ酸配列データベースに蓄積されたタンパク質のIDとそのアミノ酸配列、及びアミノ酸総数の組をレコードとするデータセットBを作成するステップと、
    前記データセットAに含まれる各候補アミノ酸配列に関し、前記データセットBに含まれるタンパク質のアミノ酸配列との相同性検索を行い、所定の閾値以上の相同性を有するタンパク質のID、相同性指標、相同性のあるアミノ酸範囲のデータを取得し、前記質量スペクトルのピークのIDとそのピークに対応する候補アミノ酸ID、当該候補アミノ酸IDに対応するタンパク質ID、相同性指標、相同性のあるアミノ酸範囲の組をレコードとするデータセットCを作成するステップと、
    前記データセットCに含まれるタンパク質ID毎に、当該タンパク質のアミノ酸総数のうち前記相同性のあるアミノ酸範囲の集合によってカバーされる割合を求めるステップと、
    前記算出されたカバー割合が相対的に小さなタンパク質IDのレコードをデータセットCから消去するステップと、
    データセットCにおいて、1つのピークIDに対して複数の候補アミノ酸IDが存在するとき、当該複数の候補アミノ酸IDのうち相同性指標が一番低い候補アミノ酸IDに対応する前記データセットCのレコードを消去するステップとを含むことを特徴とするタンパク質同定処理方法。
  7. 請求項6記載のタンパク質同定処理方法において、ある疾患にかかっている患者と健常者に由来する情報を付帯情報として参照して選別されたサンプル群を得ることを特徴とするタンパク質同定処理方法。
  8. 請求項6又は7記載のタンパク質同定処理方法において、前記付帯情報は、性別、年齢、サンプルの由来、臨床情報のうちいずれか1つ以上であることを特徴とするタンパク質同定処理方法。
JP2003181654A 2003-06-25 2003-06-25 タンパク質同定処理方法 Expired - Fee Related JP4286075B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003181654A JP4286075B2 (ja) 2003-06-25 2003-06-25 タンパク質同定処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003181654A JP4286075B2 (ja) 2003-06-25 2003-06-25 タンパク質同定処理方法

Publications (2)

Publication Number Publication Date
JP2005017090A true JP2005017090A (ja) 2005-01-20
JP4286075B2 JP4286075B2 (ja) 2009-06-24

Family

ID=34182296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003181654A Expired - Fee Related JP4286075B2 (ja) 2003-06-25 2003-06-25 タンパク質同定処理方法

Country Status (1)

Country Link
JP (1) JP4286075B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006294014A (ja) * 2005-03-16 2006-10-26 Kumamoto Technology & Industry Foundation 解析プログラム、プロテインチップ、プロテインチップの製造方法、および、抗体カクテル
JP2009025287A (ja) * 2007-05-10 2009-02-05 F Hoffmann La Roche Ag タンパク質ペプチドデータを処理する方法及びシステム
JP2015031618A (ja) * 2013-08-05 2015-02-16 株式会社島津製作所 タンパク質の同定方法及び同定装置
JP2021501332A (ja) * 2017-10-23 2021-01-14 ノーティラス バイオテクノロジー インコーポレイテッド タンパク質同定のための方法およびシステム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006294014A (ja) * 2005-03-16 2006-10-26 Kumamoto Technology & Industry Foundation 解析プログラム、プロテインチップ、プロテインチップの製造方法、および、抗体カクテル
JP2009025287A (ja) * 2007-05-10 2009-02-05 F Hoffmann La Roche Ag タンパク質ペプチドデータを処理する方法及びシステム
JP2015031618A (ja) * 2013-08-05 2015-02-16 株式会社島津製作所 タンパク質の同定方法及び同定装置
JP2021501332A (ja) * 2017-10-23 2021-01-14 ノーティラス バイオテクノロジー インコーポレイテッド タンパク質同定のための方法およびシステム
JP7434161B2 (ja) 2017-10-23 2024-02-20 ノーティラス・サブシディアリー・インコーポレイテッド タンパク質同定のための方法およびシステム

Also Published As

Publication number Publication date
JP4286075B2 (ja) 2009-06-24

Similar Documents

Publication Publication Date Title
DK2209893T3 (en) The use of aptamers in proteomics
Schwartz et al. Predicting protein post-translational modifications using meta-analysis of proteome scale data sets
Teo et al. SAINTq: Scoring protein‐protein interactions in affinity purification–mass spectrometry experiments with fragment or peptide intensity data
KR20020075265A (ko) 임상 진단 서비스를 제공하는 방법
CA2655685A1 (en) Apparatus, compositions, and methods for assessment of chronic obstructive pulmonary disease progression among rapid and slow decline conditions
CN107208131A (zh) 用于肺癌分型的方法
CN107849613A (zh) 用于肺癌分型的方法
JP2006510875A (ja) コンステレーションマッピングおよびそれらの使用
US7691643B2 (en) Mass analysis method and mass analysis apparatus
JP7218019B2 (ja) 質量スペクトルからの存在物の同定の方法
Mavrogeorgis et al. Urinary peptidomic liquid biopsy for non-invasive differential diagnosis of chronic kidney disease
JP4286075B2 (ja) タンパク質同定処理方法
Bowden et al. Tandem mass spectrometry of human tryptic blood peptides calculated by a statistical algorithm and captured by a relational database with exploration by a general statistical analysis system
CN107847866B (zh) 细胞周期蛋白依赖性激酶抑制剂2A(p16)的SRM/MRM测定
CN115287347B (zh) 犬无症状二尖瓣粘液瘤样病变生物标志物及其应用
JP2024527461A (ja) 組織特異的調節領域の無細胞dna分布を用いた人工知能基盤の癌早期診断方法
CN106255766B (zh) 针对雄激素受体(ar)蛋白质的srm/mrm测定
CN106489075A (zh) 针对GTP酶KRas蛋白质 (KRas) 的SRM/MRM测定
US20200232987A1 (en) Proteomic And Genomic Analysis For Colon Cancer Prognosis
Prakash et al. Integrated view of baseline protein expression in human tissues using public data independent acquisition datasets
CN116286895B (zh) Ror2突变体及其应用
Hamady et al. Does protein structure influence trypsin miscleavage?
Esim et al. Determination of malignant melanoma by analysis of variation values
CN113699235B (zh) 免疫原性细胞死亡相关基因在头颈鳞癌生存预后及放疗应答性中的应用
WO2002034877A2 (en) A method and system useful for structural classification of unknown polypeptides

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090317

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090324

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130403

Year of fee payment: 4

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140403

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees