JP2006162556A - Amino acid sequence identifying method using mass spectrometry - Google Patents

Amino acid sequence identifying method using mass spectrometry Download PDF

Info

Publication number
JP2006162556A
JP2006162556A JP2004358487A JP2004358487A JP2006162556A JP 2006162556 A JP2006162556 A JP 2006162556A JP 2004358487 A JP2004358487 A JP 2004358487A JP 2004358487 A JP2004358487 A JP 2004358487A JP 2006162556 A JP2006162556 A JP 2006162556A
Authority
JP
Japan
Prior art keywords
amino acid
mass
value
peptide
acid sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004358487A
Other languages
Japanese (ja)
Other versions
JP4541122B2 (en
Inventor
Mitsuhiro Kanazawa
光洋 金澤
Hisae Anyoji
久栄 安養寺
Atsushi Ogiwara
淳 荻原
Unpei Nagashima
雲兵 長嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Medical Proteoscope Co Ltd
Original Assignee
Medical Proteoscope Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Medical Proteoscope Co Ltd filed Critical Medical Proteoscope Co Ltd
Priority to JP2004358487A priority Critical patent/JP4541122B2/en
Publication of JP2006162556A publication Critical patent/JP2006162556A/en
Application granted granted Critical
Publication of JP4541122B2 publication Critical patent/JP4541122B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To make calculation processing efficient, and to provide an amino acid sequence identifying method of high accuracy. <P>SOLUTION: An amino acid sequence identifying device is provided with an input means of inputting a mass spectrum; a candidate amino acid retrieving means for calculating an amino acid combination considered, based on the mass of a precursor, for calculating a difference between a theoretical mass value of amino acid, observed mass value, calculated from a mass charge ratio of the specified mass spectra out of the mass spectra input from the input means, for identifying the difference within a prescribed range out of the calculated differences, and for determining N number of amino acids used for calculating the identified difference as the candidate amino acid of (d+1)th-(d+N)th amino acid; an evaluation value computing means for narrowing the amino acid identifying candidates according to the amino acid combinations, and for computing evaluation values respectively by using a normalized relative ionic strength calculated from an ionic strength as to each of the candidate amino acids, and the probability of the ease of cleavage of an amino acid helix, in evaluation functions; and an identification means for identifying an amino acid sequence in a peptide fragment, by using the evaluation values. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、質量分析法により得られたマススペクトルを用いてアミノ酸配列を同定する新規な方法に関する。   The present invention relates to a novel method for identifying an amino acid sequence using a mass spectrum obtained by mass spectrometry.

質量分析(マススペクトロメトリー)とは、分子等の粒子を気体状のイオンとし、このイオンを真空の電磁界中で運動させることでイオンの質量電荷比(m/z)に応じて分離・検出する技術である。また、その測定を行う装置を質量分析器(マススペクトロメーター)、これによって得られた検出シグナルを質量電荷比に対するイオン強度のグラフとして表したものをマススペクトルと呼ぶ。   Mass spectrometry (mass spectrometry) uses molecular particles as gaseous ions, and these ions are moved in a vacuum electromagnetic field to separate and detect according to the mass-to-charge ratio (m / z) of the ions. Technology. An apparatus for performing the measurement is referred to as a mass spectrometer, and a detection signal obtained thereby is represented as a graph of ionic strength against mass-to-charge ratio.

質量分析を用いたタンパク質の同定解析(非特許文献1参照)では、タンパク質分解酵素によって消化したペプチド断片を質量分析器に導入して、それぞれのペプチド分子イオンの質量電荷比を測定する。使用する酵素によって、タンパク質のアミノ酸配列上で消化される位置は特定のいくつかの場所に限定される。タンパク質の消化生成物として得られるペプチドのMSスペクトルからペプチド分子の質量が決まれば、アミノ酸配列データベースを用いることで、アミノ酸配列が予測できる。この手法は、ペプチド・マス・フィンガープリント法と呼ばれる。しかし、この手法で一意に配列を決定することが困難なため、通常はMS/MSスペクトルも併用したペプチド・シークエンス・タグ法が使用される。   In protein identification analysis using mass spectrometry (see Non-Patent Document 1), peptide fragments digested by proteolytic enzymes are introduced into a mass spectrometer, and the mass-to-charge ratio of each peptide molecule ion is measured. Depending on the enzyme used, the position of digestion on the amino acid sequence of the protein is limited to a few specific locations. If the mass of the peptide molecule is determined from the MS spectrum of the peptide obtained as a protein digestion product, the amino acid sequence can be predicted by using the amino acid sequence database. This technique is called peptide mass fingerprinting. However, since it is difficult to determine the sequence uniquely by this method, the peptide sequence tag method using MS / MS spectrum is usually used.

MS/MSスペクトルは、質量分析器中に導入された分子イオン(プレカーサーイオン)を、衝突誘起解離(CID)等によってランダムに分解(切断)し、得られた分解物のイオン(プロダクトイオン)を質量分析することで得られ、分解前の分子の構造に関する情報が含まれている。 アミノ酸が複数個直鎖上につながったペプチドはCIDにより、図3に示されるペプチド結合位置b-y、a-xもしくはc-zの3箇所で切断され易いことが知られている。   The MS / MS spectrum is a molecular ion (precursor ion) introduced into the mass spectrometer, which is randomly decomposed (cleaved) by collision-induced dissociation (CID), etc. It is obtained by mass spectrometry and contains information about the structure of the molecule before decomposition. It is known that a peptide in which a plurality of amino acids are connected in a straight chain is easily cleaved by CID at the three peptide binding positions by, ax, or cz shown in FIG.

この切断が一様にペプチド鎖上に起こったならば、末端からa-x, b-y, c-z切断部位までの質量に相当する全てのMS/MSスペクトルが得られることになる。末端から切断部位までのMS/MSスペクトルは、各々のアミノ酸を組み合わせた質量を示すことから、ペプチドの部分配列を予測することが出来る。実際は、全ての切断可能部位において一様な確率で切断が起こることはないため、ペプチド・マス・フィンガープリント法に加えて、部分的に読み取られたアミノ酸配列を用いてアミノ酸配列データベース検索を行う方法が、ペプチド・シークエンス・タグ法である。  If this cleavage occurs uniformly on the peptide chain, all MS / MS spectra corresponding to the mass from the end to the a-x, b-y, c-z cleavage site will be obtained. Since the MS / MS spectrum from the terminal to the cleavage site shows the combined mass of each amino acid, the partial sequence of the peptide can be predicted. In fact, since cleavage does not occur at a uniform probability at all cleavable sites, in addition to the peptide mass fingerprint method, a method of searching an amino acid sequence database using partially read amino acid sequences Is the peptide sequence tag method.

一方、データベースをまったく使用することなく、MS/MSスペクトル中に存在するa,b,c-またはx,y,z-系列のシグナルを可能な限り読み取ることで相当するアミノ酸配列を推定するde novo sequencing法も存在する。すなわち、既存のde novo sequencing法では、得られたMS/MSスペクトル全体から、個々のアミノ酸残基に相当するスペクトルを、グラフ理論及びダイナミックプログラミング法を用いた組合せ計算により同定し、ペプチドのアミノ酸配列を同定する。しかしながら、既存のde novo sequencing法には、膨大な計算処理を必要とし、またロイシンとイソロイシンといった同質量のアミノ酸を分別して同定することができないといった問題がある。   On the other hand, de novo estimates the corresponding amino acid sequence by reading as much as possible the a, b, c- or x, y, z-series signals present in the MS / MS spectrum without using any database There is also a sequencing method. That is, in the existing de novo sequencing method, spectra corresponding to individual amino acid residues are identified from the entire obtained MS / MS spectrum by combination calculation using graph theory and dynamic programming method, and the amino acid sequence of the peptide Is identified. However, the existing de novo sequencing method has a problem that it requires enormous calculation processing and cannot identify and identify amino acids having the same mass such as leucine and isoleucine.

プロテオーム解析法―タンパク質発現・機能解析の先端技術とゲノム医学・創薬研究 ISBN:4897069335, 羊土社 (2000-07-10出版) Page: 129-136Proteome analysis-advanced technology for protein expression and functional analysis and genomic medicine / drug discovery ISBN: 4897069335, Yodosha (published 2000-07-10) Page: 129-136

そこで、本発明は、上述したような従来のアミノ酸配列同定方法の諸問題に鑑み、計算処理の効率化を図り、精度の高いアミノ酸配列同定方法を提供することを目的とする。   Therefore, in view of the problems of the conventional amino acid sequence identification method as described above, an object of the present invention is to improve the efficiency of calculation processing and provide a highly accurate amino acid sequence identification method.

そこで、本発明者らは、上述した問題を解決するために鋭意検討した結果、既存のde novo sequencing法とは異なり、MS/MSスペクトルのイオン強度及びアミノ酸間の結合強度から導かれる“切れ易さ”を用いることで高精度にアミノ酸配列を同定できることを見いだし、本発明を完成するに至った。   Thus, as a result of intensive studies to solve the above-mentioned problems, the present inventors have determined that “unsuccessful” derived from the ionic strength of the MS / MS spectrum and the binding strength between amino acids, unlike the existing de novo sequencing method. It has been found that the amino acid sequence can be identified with high precision by using "", and the present invention has been completed.

また、本発明者は、MS/MSスペクトルから得られるプレカーサーイオンの質量とアミノ酸毎の質量値を格納した記憶手段と用いて、プレカーサーイオンを構成するアミノ酸の組合せを同定できることを見いだし、本発明を完成するに至った。   Further, the present inventor has found that the combination of amino acids constituting the precursor ion can be identified by using the storage means storing the mass of the precursor ion obtained from the MS / MS spectrum and the mass value for each amino acid. It came to be completed.

すなわち、本発明は以下を包含する。
(1) 配列同定対象のペプチドを含む試料から得られる、質量電荷比とイオン強度からなるマススペクトルを入力する入力手段と、アミノ酸の理論質量値をアミノ酸毎に記憶した記憶手段から、d番目(dは0以上の整数)までのペプチド断片のアミノ酸配列に基づいて推定質量値を算出し、算出した推定質量値にアミノ酸の理論質量値をそれぞれ加算して得られるd+N番目(Nは探索アミノ酸数であり、1以上の整数)までのペプチド断片の推定質量値をそれぞれ算出し、d+N番目までのペプチド断片の推定質量値と上記入力手段から入力したマススペクトルのうち特定のマススペクトルの質量電荷比から算出される実測質量値との差を算出し、算出した差のなかで所定の範囲内にあるものを同定し、同定した差を算出するのに使用したN個のアミノ酸をd+1〜d+N番目のアミノ酸の候補アミノ酸とする候補アミノ酸検索手段と、候補アミノ酸検索手段で検索した各候補アミノ酸に関して、上記同定した差に対して、上記特定のマススペクトルのイオン強度が高い場合及びd番目のアミノ酸と当該候補アミノ酸との間が切れ易い場合を正に評価する評価関数を用いてそれぞれ評価値を演算する評価値演算手段と、得られた評価値を用いて上記候補アミノ酸から1の候補アミノ酸を同定することで、上記ペプチドにおけるd+N番目までのペプチド断片におけるアミノ酸配列を同定する同定手段とを備える、アミノ酸配列同定装置。
That is, the present invention includes the following.
(1) From an input means for inputting a mass spectrum consisting of a mass-to-charge ratio and ionic strength obtained from a sample containing a peptide to be sequence-identified, and a storage means for storing amino acid theoretical mass values for each amino acid. Calculate the estimated mass value based on the amino acid sequence of the peptide fragment up to d (an integer greater than or equal to 0) and add the theoretical mass value of the amino acid to the calculated estimated mass value. The estimated mass value of each peptide fragment (the number of amino acids up to an integer of 1 or more) is calculated, and a specific mass spectrum among the estimated mass values of the peptide fragments up to d + Nth and the mass spectrum input from the above input means Calculate the difference from the measured mass value calculated from the mass-to-charge ratio, identify the calculated difference within the specified range, and use the N amino acids used to calculate the identified difference With respect to each candidate amino acid searched by the candidate amino acid search means as candidate amino acids for the d + 1 to d + N-th amino acids, and the candidate amino acid searched by the candidate amino acid search means, the ion intensity of the specific mass spectrum is An evaluation value calculating means for calculating an evaluation value using an evaluation function that positively evaluates the case where the gap between the d-th amino acid and the candidate amino acid is easily cut off, and the candidate using the obtained evaluation value An amino acid sequence identification apparatus comprising: identification means for identifying amino acid sequences in peptide fragments up to d + N in the peptide by identifying one candidate amino acid from amino acids.

(2) 上記入力手段で入力したマススペクトルに含まれるイオン強度を確率変数内で均一に分散させるようにスケーリングするイオン強度確率値演算手段を更に備え、上記評価値演算手段は、上記イオン強度確率値演算手段によって算出されたイオン強度確率値を用いて評価値を算出することを特徴とする(1)記載のアミノ酸配列同定装置。 (2) It further comprises ion intensity probability value calculating means for scaling the ion intensity included in the mass spectrum input by the input means so as to be uniformly distributed within a random variable, and the evaluation value calculating means includes the ion intensity probability. The amino acid sequence identification device according to (1), wherein the evaluation value is calculated using the ionic strength probability value calculated by the value calculation means.

(3) 上記アミノ酸間の切れ易さとして、アミノ酸間の切れ易さの統計値を確率値として算出したアミノ酸間開裂強度確率値を格納した記憶手段を更に備え、上記評価値演算手段は、上記記憶手段から読み出したアミノ酸間開裂強度確率値を用いて評価値を演算することを特徴とする(1)記載のアミノ酸配列同定装置。 (3) As the easiness between the amino acids, further comprising a storage means storing an inter-amino acid cleavage strength probability value calculated as a probability value of the easiness between the amino acids, the evaluation value calculation means, The amino acid sequence identification device according to (1), wherein an evaluation value is calculated using an interamino acid cleavage strength probability value read from a storage means.

(4) 上記記憶手段に格納されたアミノ酸の理論質量値を用いて、配列同定対象のペプチドの質量に基づいて、当該ペプチドに含まれるアミノ酸の種類及び個数で表される組合せを演算する組合せ演算手段を更に備え、上記同定手段は、最も高く評価される評価値を示す候補アミノ酸をd+N番目のアミノ酸としたペプチド断片に含まれるアミノ酸の種類及び個数を、上記組合せ演算手段で算出した組合せと照合し、これら組合せの中に当該ペプチド断片のアミノ酸の種類及び個数を含む組合せが存在しないと判断した場合には、当該候補アミノ酸を除く候補アミノ酸から、上記ペプチドにおけるd+N番目のアミノ酸を同定することを特徴とする(1)記載のアミノ酸配列同定装置。 (4) Using the theoretical mass value of amino acids stored in the storage means, based on the mass of the peptide whose sequence is to be identified, a combination calculation that calculates a combination represented by the type and number of amino acids contained in the peptide The identification means further includes a combination of the amino acid types and the number of amino acids contained in the peptide fragment in which the candidate amino acid showing the highest evaluated evaluation value is the d + N-th amino acid, calculated by the combination calculation means. And when it is determined that there is no combination including the type and number of amino acids of the peptide fragment in these combinations, from the candidate amino acids excluding the candidate amino acids, the d + N-th amino acid in the peptide The amino acid sequence identification apparatus according to (1), wherein the identification is performed.

(5) 上記アミノ酸の理論質量値には、1つのアミノ酸に関して、ペプチド結合の切断位置に対応した複数の値が含まれていることを特徴とする(1)記載のアミノ酸配列同定装置。
(6) 上記アミノ酸の理論質量値には、1つのアミノ酸に関して、化学的修飾を有する場合を想定した複数の値が含まれていることを特徴とする(1)記載のアミノ酸配列同定装置。
(5) The amino acid sequence identification device according to (1), wherein the theoretical mass value of the amino acid includes a plurality of values corresponding to peptide bond cleavage positions for one amino acid.
(6) The amino acid sequence identification device according to (1), wherein the theoretical mass value of the amino acid includes a plurality of values assuming a case where a single amino acid has chemical modification.

(7) 上記記憶手段に格納されたアミノ酸の理論質量値を用いて、配列同定対象のペプチドの質量に基づいて、当該ペプチドに含まれるアミノ酸の種類及び個数で表される組合せを演算する組合せ演算手段を更に備え、上記組合せ演算手段は、上記入力手段で入力される配列同定対象のペプチドの質量が特定の閾値より大きい場合には、上記入力手段で入力したマススペクトルを複数に分割して処理することを特徴とする(1)記載のアミノ酸配列同定装置。 (7) Combination calculation for calculating a combination represented by the type and number of amino acids contained in the peptide, based on the mass of the peptide to be sequence-identified, using the theoretical mass value of the amino acid stored in the storage means. And the combination calculation means divides the mass spectrum input by the input means into a plurality of parts when the mass of the sequence identification target peptide input by the input means is greater than a specific threshold value. The amino acid sequence identification device according to (1), wherein

(8) 上記組合せ演算手段は、制限付き組合せ問題を解くアルゴリズムを適用した処理を行うことを特徴とする(4)又は(7)記載のアミノ酸配列同定装置。
(9) 上記d+N番目の候補アミノ酸に対する評価値は、d番目までのペプチドを同定するまでに使用した評価値の累積値であることを特徴とする(1)記載のアミノ酸配列同定装置。
(8) The amino acid sequence identification device according to (4) or (7), wherein the combination calculation means performs processing using an algorithm that solves a restricted combination problem.
(9) The amino acid sequence identification device according to (1), wherein the evaluation value for the d + N-th candidate amino acid is a cumulative value of evaluation values used up to identification of peptides up to the d-th.

(10) 配列同定対象のペプチドを含む試料から得られる、当該ペプチドの質量値を入力する入力手段と、アミノ酸の理論質量値をアミノ酸毎に記憶した記憶手段から読み出したアミノ酸の理論質量値を用いて、上記入力手段で入力した配列同定対象のペプチドの質量に基づいて、当該ペプチドに含まれるアミノ酸の種類及び個数で表される組合せを演算する組合せ演算手段と、上記組合せ演算手段で演算された組合せの中から、配列同定対象のペプチドに関するアミノ酸配列を同定するアミノ酸配列同定手段とを備える、アミノ酸配列同定装置。 (10) Using the input means for inputting the mass value of the peptide obtained from the sample containing the peptide to be sequence-identified and the theoretical mass value of the amino acid read from the storage means storing the theoretical mass value of the amino acid for each amino acid. Based on the mass of the peptide whose sequence is to be identified input by the input means, the combination calculation means for calculating the combination represented by the type and number of amino acids contained in the peptide, and the combination calculation means An amino acid sequence identification device comprising an amino acid sequence identification means for identifying an amino acid sequence related to a peptide whose sequence is to be identified from among the combinations.

(11) 上記アミノ酸配列同定手段は、既知ペプチドに関するアミノ酸配列配列を格納したデータベースを用いて配列同定対象のペプチドに関するアミノ酸配列を同定することを特徴とする(10)記載のアミノ酸配列同定装置。
(12) 上記組合せ演算手段は、制限付き組合せ問題を解くアルゴリズムを適用した処理を行うことを特徴とする(10)記載のアミノ酸配列同定装置。
(11) The amino acid sequence identification device according to (10), wherein the amino acid sequence identification means identifies an amino acid sequence related to a peptide whose sequence is to be identified using a database storing amino acid sequence sequences related to known peptides.
(12) The amino acid sequence identification device according to (10), wherein the combination calculation means performs processing using an algorithm that solves a restricted combination problem.

本発明によれば、配列同定対象のペプチドについて高速且つ、高精度にアミノ酸配列を同定することができるアミノ酸配列同定装置、アミノ酸配列同定方法及びアミノ酸配列同定プログラムを提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the amino acid sequence identification apparatus, the amino acid sequence identification method, and amino acid sequence identification program which can identify an amino acid sequence at high speed and with high precision about the peptide of sequence identification object can be provided.

以下、本発明に係るアミノ酸配列同定装置、アミノ酸配列同定方法及びアミノ酸配列同定プログラムを、図面を参照して詳細に説明する。本発明に係るアミノ酸配列同定装置は、タンパク質、オリゴペプチド及びポリペプチド等のアミノ酸配列を同定対象とし、質量分析装置で得られる同定対象ペプチドのマススペクトルを用いてアミノ酸配列を同定する装置である。   Hereinafter, an amino acid sequence identification device, an amino acid sequence identification method, and an amino acid sequence identification program according to the present invention will be described in detail with reference to the drawings. The amino acid sequence identification apparatus according to the present invention is an apparatus for identifying amino acid sequences using mass spectra of identification target peptides obtained by a mass spectrometer, using amino acid sequences such as proteins, oligopeptides and polypeptides as identification targets.

<本発明に係るアミノ酸配列同定装置>
先ず、図1を用いて、本発明に係るアミノ酸配列同定装置1のハードウェア構成を説明する。アミノ酸配列同定装置1は、システム全体を制御するCPU101と、ブートプログラム等を記憶したROM102と、CPU101のワークエリアとして使用されるRAM103と、プログラムやデータ等が格納されたハードディスク(HD)104と、CPU101の制御に従ってHD104に対するデータのリード/ライトを制御するハードディスクドライブ(HDD)105と、ドキュメント、画像、機能情報等のデータに関するウインドウを表示するディスプレイ106と、外部の機器等とのインターフェイスを司る外部端子107とを備えている。また、各部はバス100により接続されている。
<Amino acid sequence identification apparatus according to the present invention>
First, the hardware configuration of the amino acid sequence identification apparatus 1 according to the present invention will be described with reference to FIG. The amino acid sequence identification apparatus 1 includes a CPU 101 that controls the entire system, a ROM 102 that stores a boot program, a RAM 103 that is used as a work area of the CPU 101, a hard disk (HD) 104 that stores programs, data, and the like, A hard disk drive (HDD) 105 that controls reading / writing of data with respect to the HD 104 according to the control of the CPU 101, a display 106 that displays a window relating to data such as documents, images, and function information, and an external device that controls an interface with an external device or the like And a terminal 107. Each part is connected by a bus 100.

なお、アミノ酸配列同定装置1は、通信回線網を介してネットワークに接続されるものでも良い。この場合、アミノ酸配列同定装置1は、ネットワークと内部のインターフェイスを司るインターフェイス(I/F)を備える。   The amino acid sequence identification apparatus 1 may be connected to a network via a communication network. In this case, the amino acid sequence identification device 1 includes an interface (I / F) that controls a network and an internal interface.

次に、図2を用いて、本発明に係るアミノ酸配列同定装置1の機能的構成について説明する。アミノ酸配列同定装置1は、質量分析装置8で出力された質量電荷比とイオン強度とからなるマススペクトル・データを入力する入力処理部2と、候補アミノ酸検索処理部3と、評価値演算処理部4と、同定処理部5とを含む構成である。   Next, the functional configuration of the amino acid sequence identification apparatus 1 according to the present invention will be described with reference to FIG. The amino acid sequence identification device 1 includes an input processing unit 2 for inputting mass spectrum data composed of the mass-to-charge ratio and ionic strength output from the mass spectrometer 8, a candidate amino acid search processing unit 3, and an evaluation value calculation processing unit. 4 and an identification processing unit 5.

また、アミノ酸配列同定装置1は、ROM102、RAM103又はHD104に記憶した、アミノ酸の理論質量値をアミノ酸毎に記憶したアミノ酸質量テーブルを有する。アミノ酸質量テーブルの一例としては、表1に示すように、20種類のアミノ酸とその質量とを関連付けたテーブルを例示することができる。   In addition, the amino acid sequence identification device 1 has an amino acid mass table that stores the theoretical mass values of amino acids stored in the ROM 102, RAM 103, or HD 104 for each amino acid. As an example of the amino acid mass table, as shown in Table 1, a table in which 20 kinds of amino acids are associated with their masses can be exemplified.

Figure 2006162556
Figure 2006162556

なお、表1において、“Average”の欄は各アミノ酸を構成している原子の同位体の存在比率により算出した各アミノ酸の質量であり、“Monoisotopic”の欄は同位体の存在比率が最も大きい質量をもとに算出した各アミノ酸の質量である。   In Table 1, the “Average” column is the mass of each amino acid calculated from the abundance ratio of the isotopes of each amino acid, and the “Monoisotopic” column has the largest isotope abundance ratio. It is the mass of each amino acid calculated based on the mass.

図3に示すように、ペプチド結合が切断される位置としては複数箇所考えることができ、切断箇所に依存して開裂したアミノ酸の質量が異なることを考慮したアミノ酸質量テーブルを使用することが好ましい。このようなアミノ酸質量テーブルとして、一例を表2に示す。   As shown in FIG. 3, it is possible to consider a plurality of positions where the peptide bond is cleaved, and it is preferable to use an amino acid mass table considering that the mass of the cleaved amino acid differs depending on the cleaved position. An example of such an amino acid mass table is shown in Table 2.

Figure 2006162556
Figure 2006162556

表2に示したアミノ酸質量テーブルにおいて、N(a)の列は、図3におけるa-xのラインでペプチドが開裂してN末端側に存在する場合の質量(“a-ion”の質量)である。同様に、N(b)の列は図3におけるb-yのラインでペプチドが開裂してN末端側に存在する場合の質量(“b-ion”の質量)、N(c)の列は図3におけるc-zのラインでペプチドが開裂してN末端側に存在する場合の質量(“c-ion”の質量)である。また、C(x)の列は図3におけるa-xのラインでペプチドが開裂してC末端側に存在する場合の質量(“x-ion”の質量)、C(y)の列は図3におけるb-yのラインでペプチドが開裂してC末端側に存在する場合の質量(“y-ion”の質量)、C(z)の列は図3におけるc-zのラインでペプチドが開裂してC末端側に存在する場合の質量(“z-ion”の質量)である。この表は、単一アミノ酸が末端に現れた場合の質量を示すが、複数個のアミノ酸が検出される場合には、表1より複数のアミノ酸の質量を計算し、以下の表3に基づき末端に存在する場合の質量を計算する。なお、表3の括弧内は、N末端に起こりやすいアセチル化した場合の質量を示している。   In the amino acid mass table shown in Table 2, the column of N (a) is the mass (the mass of “a-ion”) when the peptide is cleaved at the ax line in FIG. . Similarly, the column of N (b) is the mass when the peptide is cleaved by the by line in FIG. 3 and exists on the N-terminal side (mass of “b-ion”), and the column of N (c) is FIG. The mass when the peptide is cleaved at the cz line and is present on the N-terminal side (the mass of “c-ion”). The column of C (x) is the mass when the peptide is cleaved at the ax line in FIG. 3 and exists on the C-terminal side (mass of “x-ion”), and the column of C (y) is in FIG. The mass when the peptide is cleaved at the by line and present on the C-terminal side (mass of “y-ion”), C (z) column is the C-terminal side when the peptide is cleaved at the cz line in FIG. Is the mass (the “z-ion” mass). This table shows the mass when a single amino acid appears at the end, but when a plurality of amino acids are detected, the mass of the plurality of amino acids is calculated from Table 1, and the terminal is calculated according to Table 3 below. Calculate the mass if present. The parentheses in Table 3 indicate the mass of acetylated that is likely to occur at the N-terminus.

Figure 2006162556
Figure 2006162556

また、アミノ酸質量テーブルは、表1及び表2に示すように、20種類のアミノ酸を含むものに限定されず、例えば、アミノ酸が受け易いと考えられる修飾を考慮したアミノ酸質量を含むものであっても良い。修飾を考慮したアミノ酸の質量として表4に一例を示すが、アミノ酸の脱水、脱アミノ等、これらに限定されない。   The amino acid mass table is not limited to those containing 20 types of amino acids as shown in Tables 1 and 2, and includes, for example, amino acid masses that take into account modifications that are considered to be susceptible to amino acids. Also good. An example of the mass of amino acids in consideration of modification is shown in Table 4, but is not limited to amino acid dehydration, deamination, and the like.

Figure 2006162556
Figure 2006162556

すなわち、上述した表1及び2には、表4に示したような修飾アミノ酸とその質量とが含まれていても良い。なお、表1〜4に示したアミノ酸及び修飾アミノ酸の質量は質量電荷比で表されている。   That is, Tables 1 and 2 described above may include modified amino acids and their masses as shown in Table 4. The masses of amino acids and modified amino acids shown in Tables 1 to 4 are expressed in terms of mass to charge ratio.

さらに、アミノ酸配列同定装置1は、ROM102、RAM103又はHD104に記憶した、アミノ酸間の切れ易さを意味する値を格納することができる。アミノ酸間の切れ易さを意味する値とは、例えば、アミノ酸間の切れ易さの統計値を確率値として算出したアミノ酸間開裂強度確率値を使用することができる。   Furthermore, the amino acid sequence identification device 1 can store a value stored in the ROM 102, the RAM 103 or the HD 104, which means the ease of cutting between amino acids. As the value meaning the ease of breaking between amino acids, for example, an inter-amino acid cleavage strength probability value calculated using a statistical value of the ease of breaking between amino acids as a probability value can be used.

下記式は、Kapp, E.A., Schutz, F., Reid, G.E., Eddes, J.S., Moritz, R.L., O'Hair, R.A., Speed, T.P. and Simpson, R.J., Mining a Tandem Mass Spectrometry Database To Determine the Trends and Global Factors Influencing Peptide Fragmentation, Anal. Chem., 75, 6251-6264, 2003.により示されたアミノ酸間の切れやすさを論じた統計値の算出法である。アミノ酸間開裂強度確率値は、例えば下記式に従って算出した値を0〜1の確率変数として均一にスケーリングして算出することができる。   The following formula is Kapp, EA, Schutz, F., Reid, GE, Eddes, JS, Moritz, RL, O'Hair, RA, Speed, TP and Simpson, RJ, Mining a Tandem Mass Spectrometry Database To Determine the Trends and Global Factors Influencing Peptide Fragmentation, Anal. Chem., 75, 6251-6264, 2003. The interamino acid cleavage strength probability value can be calculated by, for example, uniformly scaling a value calculated according to the following equation as a random variable of 0 to 1.

Figure 2006162556
Figure 2006162556

なお、上記式では、ペプチド・シーケンス・タグ方において検出されたb-ion、もしくは、y-ionからなるペプチドフラグメントの出現回数により、図3に示したb-yラインにおける切れ易さを算出する。上記式においてbs j+はアミノ酸間(s)においてj価で検出されたb-ionの出現回数を意味し、ys j+はアミノ酸間(s)においてj価で検出されたy-ion出現回数を意味する。このCIRSの値を、20種類のアミノ酸から選ばれる一対の組合せ毎に切れ易さを統計値として纏めた例として図4を示す。 In the above formula, the easiness to cut in the by line shown in FIG. 3 is calculated from the number of appearances of peptide fragments consisting of b-ion or y-ion detected in the peptide, sequence, and tag. In the above formula, b s j + means the number of occurrences of b-ion detected at j valence between amino acids (s), and y s j + is the number of occurrences of y-ion detected at j valence between amino acids (s). Means. FIG. 4 shows an example in which the CIR S values are summarized as statistical values of the ease of cutting for each pair of combinations selected from 20 types of amino acids.

すなわち、アミノ酸配列同定装置は、20種類のアミノ酸から選ばれる一対の組合せに対して、上記式に従って算出されたCIRs値を関連付けたテーブルとしてROM102、RAM103又はHD104に記憶している。なお、アミノ酸間開裂強度確率値を算出する式としては、上記式に限定されず、例えば、非経験的分子軌道法により、アミノ酸間の結合強度を算出し、各アミノ酸間の結合強度を相対比として表すことも可能である。 In other words, the amino acid sequence identification device stores in the ROM 102, RAM 103 or HD 104 as a table in which CIR s values calculated according to the above formula are associated with a pair of combinations selected from 20 types of amino acids. The formula for calculating the probability value of cleavage strength between amino acids is not limited to the above formula, and for example, the bond strength between amino acids is calculated by the ab initio molecular orbital method, and the bond strength between amino acids is calculated as a relative ratio. It can also be expressed as

また、アミノ酸配列同定装置1は、入力処理部2で入力したマススペクトル・データに含まれるマススペクトル(各ピーク)のイオン強度を確率値として演算するイオン強度確率値演算処理部6と、同定対象のペプチドの質量に基づいてペプチドに含まれるアミノ酸の種類及び個数で表される組合せを演算する組合せ演算手段7と、同定処理部5において同定したアミノ酸配列の累積質量Mを演算する質量累積演算処理部9を備える構成であってもよい。   In addition, the amino acid sequence identification device 1 includes an ion intensity probability value calculation processing unit 6 that calculates the ion intensity of a mass spectrum (each peak) included in the mass spectrum data input by the input processing unit 2 as a probability value, and an identification target Combination calculation means 7 for calculating the combination represented by the type and number of amino acids contained in the peptide based on the mass of the peptide, and the mass accumulation calculation processing for calculating the accumulated mass M of the amino acid sequence identified in the identification processing unit 5 The structure provided with the part 9 may be sufficient.

入力処理部2は、例えば外部端子107を介して接続された質量分析装置8から出力されたマススペクトル・データを入力する。入力処理部2は、CD-ROMやDVD-ROM等の情報記録媒体に記録されたマススペクトル・データを入力するものであっても良いし、サーバに格納されたマススペクトル・データをネットワークを介して入力するものであっても良い。   The input processing unit 2 inputs the mass spectrum data output from the mass spectrometer 8 connected via, for example, the external terminal 107. The input processing unit 2 may input mass spectrum data recorded on an information recording medium such as a CD-ROM or DVD-ROM, or the mass spectrum data stored in the server via a network. May be input.

本発明において、入力として使用するマススペクトルを得る質量分析装置8としては、特に限定されず、如何なる質量分析装置を用いていても良い。ここで、質量分析装置8としては、分子等の粒子を気体状のイオンとし、このイオンを真空の電磁界中で運動させることでイオンの質量電荷比(m/z)に応じて分離・検出する装置である。質量分析装置8は、一般的に、試料に含まれる分子をイオン化するためのイオン源と、生じたイオンを質量電荷比に依存して分離する質量分析部と、質量分析部で分離したイオンを検出するイオン検出部とを備える。   In the present invention, the mass spectrometer 8 for obtaining a mass spectrum to be used as an input is not particularly limited, and any mass spectrometer may be used. Here, as the mass spectrometer 8, particles such as molecules are made into gaseous ions, and these ions are moved in a vacuum electromagnetic field to separate and detect according to the mass-to-charge ratio (m / z) of the ions. It is a device to do. The mass spectrometer 8 generally includes an ion source for ionizing molecules contained in a sample, a mass analyzer for separating generated ions depending on a mass-to-charge ratio, and ions separated by the mass analyzer. An ion detection unit for detection.

イオン源としては、マトリックス支援レーザ脱離イオン化法(MALDI)を採用したもの、エレクトロンスプレーイオン化法(ESI)を採用したもの、電子衝突法(EI)を採用したもの、化学イオン化法(CI)を採用したもの、高速原子衝突法(FAB)を採用したもの、誘導結合プラズマ法(ICP)を採用したもの、サーモスプレーを採用したもの、大気圧化学イオン化法(APCI)を採用したものを使用できる。特に、本発明においては、ペプチド又はタンパク質をイオン化するため、ソフトイオン化であるMALDI又はESIを採用したイオン源を有する質量分析装置が好ましい。   Ion sources include those that use matrix-assisted laser desorption ionization (MALDI), those that use electron spray ionization (ESI), those that use electron impact (EI), and chemical ionization (CI). The one that adopts the fast atom collision method (FAB), the one that adopts the inductively coupled plasma method (ICP), the one that adopts the thermospray, the one that adopts the atmospheric pressure chemical ionization method (APCI) can be used. . In particular, in the present invention, in order to ionize a peptide or protein, a mass spectrometer having an ion source employing MALDI or ESI which is soft ionization is preferable.

また、質量分析部としては、単収束磁場偏向型質量分析計、四重極型質量分析計、イオントラップ型質量分析計、飛行時間型質量分析計、フーリエ変換型質量分析計及び二重収束型質量分析計等を挙げることができる。さらに、質量分析部をタンデムに連結することで、イオン源で生成した全イオンを第1の質量分析計で分離するとともに選択したプレカーサーイオンのみを通過させてフラグメント化し、フラグメント化されたプロダクトイオンを第2の質量分析計において分析するタンデム型質量分析装置(以降、MS/MSと呼ぶ)を挙げることができる。なお、イオントラップ型質量分析計は、それ単独でMS/MSスペクトルの測定が可能である。また、飛行時間型質量分析計では、イオン源を出たイオンが、飛行中に分解するポストソース分解(PSD)を起こすことで、プレカーサーイオンと同時にそのフラグメント化されたプロダクトイオンの測定が可能なものもある。   In addition, the mass spectrometer includes a single-converging magnetic field deflection mass spectrometer, a quadrupole mass spectrometer, an ion trap mass spectrometer, a time-of-flight mass spectrometer, a Fourier transform mass spectrometer, and a double-focusing mass spectrometer. A mass spectrometer etc. can be mentioned. In addition, by connecting the mass analyzer in tandem, all ions generated in the ion source are separated by the first mass spectrometer and only the selected precursor ions are passed through to fragment, and the fragmented product ions are A tandem mass spectrometer (hereinafter referred to as MS / MS) that performs analysis in the second mass spectrometer can be given. An ion trap mass spectrometer can measure MS / MS spectra by itself. In addition, the time-of-flight mass spectrometer can measure the fragmented product ions at the same time as the precursor ions by causing post-source decomposition (PSD) in which ions exiting the ion source decompose during flight. There are also things.

本発明においては、プレカーサーイオンおよびそのフラグメント化されたプロダクトイオンのスペクトルを得ることが出来る質量分析装置、つまり、質量分析部に、イオントラップ型質量分析計、PSDスペクトルの測定が可能である飛行時間型質量分析計、タンデム型質量分析計等を有する質量分析装置が必要である。   In the present invention, a mass spectrometer that can obtain a spectrum of precursor ions and fragmented product ions thereof, that is, a mass spectrometer, an ion trap mass spectrometer, and a time of flight capable of measuring a PSD spectrum. A mass spectrometer having a mass spectrometer, a tandem mass spectrometer, and the like is required.

また、候補アミノ酸検索処理部3は、設定された探索アミノ酸数Nに一致する数のアミノ酸(ペプチド)を、配列同定対象のペプチドにおけるd番目までのアミノ酸に続くd+1〜d+N番目の候補アミノ酸(候補ペプチド)として検索する。候補アミノ酸検索処理部3は、候補アミノ酸として1又は複数のアミノ酸を検索する。評価値演算処理部4は、候補アミノ酸検索処理部3で検索した単数又は複数の候補アミノ酸に関して、詳細を後述する評価関数を用いて評価値を算出する。ここで、評価関数とは、詳細を後述するが、d+N番目のアミノ酸をある候補アミノ酸とした場合に算出される質量値(推定質量値)と、入力処理部2で入力したマススペクトルにおいて実測される質量値(実測質量値)との差を、実測質量値を算出したマススペクトルのイオン強度が高い場合及びd番目のアミノ酸と当該候補アミノ酸との間が切れ易い場合を正に評価する関数である。「正に評価」とは、評価関数に従って算出される評価値が小さいほど高く評価される場合には、上記差をより小さな値とするように反映させることを意味する。イオン強度確率値演算処理部6は、入力処理部2で入力したマススペクトルにおいて、イオン強度を相対値とし当該相対値を確率変数内で均一に分散させるようにスケーリングする処理を実行する。イオン強度確率値演算処理部6によって算出されたイオン強度確率値を評価関数に使用することができる。   In addition, the candidate amino acid search processing unit 3 sets the number of amino acids (peptides) matching the set search amino acid number N to the d + 1 to d + Nth amino acids following the amino acids up to the dth in the sequence identification target peptide. Search as a candidate amino acid (candidate peptide). The candidate amino acid search processing unit 3 searches for one or more amino acids as candidate amino acids. The evaluation value calculation processing unit 4 calculates an evaluation value with respect to one or a plurality of candidate amino acids searched by the candidate amino acid search processing unit 3 using an evaluation function described later in detail. Here, the evaluation function will be described in detail later. In the mass spectrum calculated when the d + N-th amino acid is a candidate amino acid (estimated mass value) and the mass spectrum input by the input processing unit 2 The difference from the actually measured mass value (actually measured mass value) is positively evaluated when the ionic strength of the mass spectrum from which the actually measured mass value is calculated is high or when the d-th amino acid is easily cut off from the candidate amino acid. It is a function. “Positive evaluation” means that when the evaluation value calculated in accordance with the evaluation function is smaller, the difference is reflected so as to be a smaller value. The ion intensity probability value calculation processing unit 6 executes a process of scaling the mass spectrum input by the input processing unit 2 so that the ion intensity is a relative value and the relative value is uniformly distributed within the random variable. The ion intensity probability value calculated by the ion intensity probability value calculation processing unit 6 can be used for the evaluation function.

同定処理部5は、候補アミノ酸検索処理部3で検索した候補アミノ酸について、評価演算処理部4において算出した評価値を用いてd+N番目のアミノ酸を同定する。詳細は後述するが、同定処理部5は、原則的に評価値が最も小さい値を示す候補アミノ酸をd+N番目のアミノ酸と同定するが、必ずしも、最も小さい評価値を示す候補アミノ酸をd+N番目のアミノ酸と同定しなくてもよい。   The identification processing unit 5 identifies the d + N-th amino acid using the evaluation value calculated by the evaluation calculation processing unit 4 for the candidate amino acids searched by the candidate amino acid search processing unit 3. Although details will be described later, the identification processing unit 5 identifies the candidate amino acid having the smallest evaluation value as the d + N-th amino acid in principle, but the candidate amino acid having the smallest evaluation value is not necessarily d +. It is not necessary to identify the Nth amino acid.

また、組合せ演算処理部7は、配列同定対象のペプチドの質量に基づいて、当該ペプチドに含まれるアミノ酸の種類及び個数で表される組合せを演算することができる。組合せ演算処理部7は、例えば、MS/MSの第1の質量分析計から出力されるプレカーサーイオンの電荷質量比、つまり、MSスペクトルから得られる質量電荷比から算出したプレカーサーイオンの質量値に基づいて、記憶手段に格納されたアミノ酸の理論質量値を用いてプレカーサーイオン(ペプチド)に含まれるアミノ酸の種類及び個数で表される組合せを演算することができる。組合せ演算処理部7は、いわゆるナップザック問題を例とした制限付き組合せ問題の解法アルゴリズムを適用した処理によってアミノ酸の種類及び個数で表される組合せを演算することができる。   Further, the combination calculation processing unit 7 can calculate a combination represented by the type and number of amino acids contained in the peptide based on the mass of the peptide to be sequenced. The combination calculation processing unit 7 is based on, for example, the precursor ion charge mass ratio output from the MS / MS first mass spectrometer, that is, the precursor ion mass value calculated from the mass-to-charge ratio obtained from the MS spectrum. Thus, a combination represented by the type and number of amino acids contained in the precursor ion (peptide) can be calculated using the theoretical mass value of the amino acid stored in the storage means. The combination calculation processing unit 7 can calculate a combination represented by the type and number of amino acids by a process to which a solution algorithm for a limited combination problem using a so-called knapsack problem as an example is applied.

さらに、同定処理部5は、評価演算処理部4において算出した評価値とともに、組合せ演算処理部7で演算された組合せを用いることによってd+N番目のアミノ酸を同定することができる。   Further, the identification processing unit 5 can identify the d + N-th amino acid by using the combination calculated by the combination calculation processing unit 7 together with the evaluation value calculated by the evaluation calculation processing unit 4.

<本発明に係るアミノ酸配列同定方法及びプログラム>
以下、本発明に係るアミノ酸配列同定装置1における具体的な処理について、図5に示すフローチャートを用いて説明する。本例では、質量分析装置8としてMS/MSスペクトルを検出可能な装置を例示して説明する。すなわち、所定のタンパク質消化酵素によってタンパク質を分解して得られたペプチド断片を第1の質量分析計に導入し、第1の質量分析計によってプレカーサーイオンの質量が測定される。その後、第2の質量分析計によって、特定のプレカーサーイオンの分解産物に由来するスペクトル・データを出力する。
<Amino acid sequence identification method and program according to the present invention>
Hereinafter, specific processing in the amino acid sequence identification apparatus 1 according to the present invention will be described with reference to the flowchart shown in FIG. In this example, an apparatus capable of detecting an MS / MS spectrum will be described as an example of the mass spectrometer 8. That is, a peptide fragment obtained by degrading a protein with a predetermined protein digestion enzyme is introduced into a first mass spectrometer, and the mass of the precursor ion is measured by the first mass spectrometer. Thereafter, spectral data derived from the decomposition product of a specific precursor ion is output by the second mass spectrometer.

また、本例で説明するアミノ酸配列同定装置1においては、表2に示したアミノ酸質量テーブルを記憶手段に格納し、アミノ酸間の切れ易さの統計値を確率値として算出したアミノ酸間開裂強度確率値(上記式に従って算出されたCIRs値)を一対のアミノ酸の組合せに関連付けたテーブルを記憶手段に格納している。また、以下の例では、アミノ酸配列が既知のウシ血清アルブミン(BSA)をTrypsinで消化することで得られるペプチド断片のうち、ペプチド“AEFVEVTK”(検出質量電荷比(2価):462.022)のアミノ酸配列同定を実施例として以下に例示する。また、質量分析装置1としては、具体的に、Finnigan LTQ (ThermoFinnigan)を用いた。また、液体クロマトグラフィー装置としては、Paradigm MS4 (Michrom BioResources)を用いた。得られたMS/MSスペクトルを図6に示す。 Moreover, in the amino acid sequence identification apparatus 1 demonstrated in this example, the amino acid mass table shown in Table 2 is stored in the storage means, and the inter-amino acid cleavage strength probability calculated as a statistical value of the fragility between amino acids as a probability value A table that associates values (CIR s values calculated according to the above formula) with combinations of a pair of amino acids is stored in the storage means. In the following example, among the peptide fragments obtained by digesting bovine serum albumin (BSA) with a known amino acid sequence with Trypsin, the amino acid of the peptide “AEFVEVTK” (detected mass-to-charge ratio (divalent): 462.022) Sequence identification is illustrated below as an example. As the mass spectrometer 1, specifically, Finnigan LTQ (ThermoFinnigan) was used. In addition, Paradigm MS4 (Michrom BioResources) was used as a liquid chromatography apparatus. The obtained MS / MS spectrum is shown in FIG.

また、本例で説明するアミノ酸配列同定装置1における処理に先立って、イオン強度確率値演算処理部6は、入力処理部2で入力したマススペクトル・データに含まれるピークの高さとして表されるイオン強度を確率値として演算し、各ピークの位置として表される電荷質量比と、各ピークのイオン強度確率値とを関連付けたイオン強度テーブルを記憶手段に格納する。イオン強度テーブルの一例としては、表5に示すように、マススペクトル・データに含まれるピークにおける質量電荷比(表中「m/z」)と、当該ピークについて実測されたイオン強度(表中「Intensity」)と、当該イオン強度中の最大値で各イオン強度を割って算出される相対イオン強度(表中「Relative Intensity」)と、当該相対イオン強度の各値を0〜1の確率変数として均一にスケーリングして算出される正規化相対イオン強度(表中「Normalized RI」)とを関連付けたテーブルを挙げることができる。   Prior to processing in the amino acid sequence identification device 1 described in this example, the ion intensity probability value calculation processing unit 6 is expressed as the height of a peak included in the mass spectrum data input by the input processing unit 2. The ion intensity is calculated as a probability value, and an ion intensity table that associates the charge mass ratio expressed as the position of each peak with the ion intensity probability value of each peak is stored in the storage means. As an example of the ion intensity table, as shown in Table 5, the mass-to-charge ratio (“m / z” in the table) of the peak included in the mass spectrum data and the ion intensity actually measured for the peak (“ Intensity ”), relative ion intensity calculated by dividing each ion intensity by the maximum value in the ion intensity (“ Relative Intensity ”in the table), and each value of the relative ion intensity as a random variable of 0 to 1 A table in which normalized relative ionic strength (“Normalized RI” in the table) calculated by uniformly scaling can be listed.

Figure 2006162556
Figure 2006162556
Figure 2006162556
Figure 2006162556
Figure 2006162556
Figure 2006162556

なお、上記スケーリング方法は、MS/MS装置及び測定条件等に依存して種々変更可能である。本例におけるスケーリングに際しては、f(x)=1-exp(-0.192*x)〔ここで、xは相対イオン強度を示す〕で表されるスケーリング関数を使用している。   The scaling method can be variously changed depending on the MS / MS apparatus and measurement conditions. For scaling in this example, a scaling function represented by f (x) = 1−exp (−0.192 * x) [where x represents relative ion intensity] is used.

本例で説明するアミノ酸配列同定装置1は、上述したように作成されたイオン強度確率値テーブルを記憶手段に格納した後、以下の処理を実行する。   The amino acid sequence identification device 1 described in this example executes the following processing after storing the ionic strength probability value table created as described above in the storage means.

先ず、ステップ1(図5において「S1」と記する。以下のステップも同様)では、質量累積演算処理部9によって、質量累計値Mを初期化する(M=0と設定する)、すなわち、質量累積演算処理部9がM=0を記憶手段に記憶する。   First, in step 1 (denoted as “S1” in FIG. 5 and the following steps are also the same), the mass accumulation calculation unit 9 initializes the mass accumulation value M (sets M = 0), that is, The mass accumulation calculation processing unit 9 stores M = 0 in the storage unit.

次に、ステップ2において、候補アミノ酸検索処理部3によって、探索アミノ酸数Nを初期化、すなわちN=1にセットする。すなわち、候補アミノ酸検索処理部3がN=1を記憶手段に記憶する。   Next, in step 2, the candidate amino acid search processing unit 3 initializes the search amino acid number N, that is, sets N = 1. That is, the candidate amino acid search processing unit 3 stores N = 1 in the storage unit.

次に、ステップ3では、質量累積演算処理部9によって、質量累計値Mに対して探索アミノ酸数Nにより指定された残基数のアミノ酸質量を加算し、質量累計値Mを更新する。例えば、C末端の候補アミノ酸を探索する場合は、本ステップでは、表2に示したアミノ酸質量テーブルのうち、C(y)の列で表される質量(図3におけるb-yのラインでペプチドが開裂してC末端側に存在する場合の質量)を質量累計値Mに加算する。なお、C末端のアミノ酸を探索する場合は、表2におけるC(x)やC(z)の列で表される質量をマススペクトル・データと照合しても良い。仮に、N末端のアミノ酸を探索する場合は、表2におけるN(a)、N(b)及びN(c)の列で表される質量のいずれを加算しても良い。   Next, in step 3, the mass accumulation calculation processing unit 9 adds the amino acid mass of the number of residues specified by the search amino acid number N to the mass accumulation value M, and updates the mass accumulation value M. For example, when searching for C-terminal candidate amino acids, in this step, the mass represented by the column of C (y) in the amino acid mass table shown in Table 2 (the peptide is cleaved by the by line in FIG. 3). The mass when present on the C-terminal side) is added to the cumulative mass value M. When searching for the C-terminal amino acid, the mass represented by the column of C (x) or C (z) in Table 2 may be collated with the mass spectrum data. If searching for an N-terminal amino acid, any of the masses represented by the columns N (a), N (b) and N (c) in Table 2 may be added.

ステップ3において、質量累積値Mとしては表2に示したアミノ酸質量テーブルに含まれる20種類全てのアミノ酸を用いて質量累積値Mを更新することもできるし、当該アミノ酸質量テーブルに含まれる一部のアミノ酸を用いて質量累積値Mを更新することもできる。また、第1の質量分析計に導入するペプチド断片を、特定のアミノ酸残基を認識して消化するタンパク質消化酵素によって得た場合には末端に存在しうるアミノ酸を限定することができる。従って、この場合には、アミノ酸質量テーブルを検索し、末端に存在しうるアミノ酸について優先的に質量累積値Mを更新することが好ましい。   In step 3, as the mass accumulation value M, the mass accumulation value M can be updated by using all 20 types of amino acids contained in the amino acid mass table shown in Table 2, or a part of the amino acid mass table is included. It is also possible to update the mass cumulative value M by using the amino acids. In addition, when the peptide fragment to be introduced into the first mass spectrometer is obtained by a protein digestion enzyme that recognizes and digests a specific amino acid residue, amino acids that can exist at the terminal can be limited. Therefore, in this case, it is preferable to search the amino acid mass table and preferentially update the mass cumulative value M for amino acids that may exist at the terminal.

次に、ステップ4では、候補アミノ酸検索処理部3によって、入力処理部2で入力したマススペクトル・データ又はイオン強度確率値演算処理部6で構築したイオン強度テーブル(例えば、表5に示すテーブル)を検索し、ステップ3で更新された質量累積値Mに相当する質量電荷比を有するマススペクトル・データのピークを同定する。本ステップでは、質量累積値Mに対して予め質量誤差を設定し、当該質量誤差の範囲内に質量電荷比を有するマススペクトル・データのピークを同定することができる。なお、本ステップでは、ステップ3において更新した質量累積値Mのうち、複数の質量累積値Mについてマススペクトル・データを同定する場合もある。マススペクトル・データを同定することができた質量累積値Mを示すアミノ酸は、候補アミノ酸として記憶手段に記憶される。   Next, in Step 4, the candidate amino acid search processing unit 3 uses the mass spectrum data input by the input processing unit 2 or the ion intensity table constructed by the ion intensity probability value calculation processing unit 6 (for example, the table shown in Table 5). And a peak of mass spectrum data having a mass-to-charge ratio corresponding to the mass accumulation value M updated in step 3 is identified. In this step, a mass error is set in advance for the mass accumulation value M, and a peak of mass spectrum data having a mass-to-charge ratio within the mass error range can be identified. In this step, mass spectrum data may be identified for a plurality of mass accumulation values M among the mass accumulation values M updated in step 3. The amino acid indicating the mass cumulative value M for which mass spectrum data could be identified is stored in the storage means as a candidate amino acid.

ステップ4において、質量累積値Mに相当する質量電荷比を有するマススペクトル・データのピークを同定した場合にはステップ5に進み、同定しなかった場合については後述する。   In step 4, if a mass spectrum data peak having a mass-to-charge ratio corresponding to the mass accumulation value M is identified, the process proceeds to step 5, and the case where it is not identified will be described later.

次に、ステップ5では、先ず評価値演算処理部4によって、評価関数を用いて各候補アミノ酸について評価値を算出する。ここで、評価関数としては、推定質量値と実測質量値との差、すなわち、質量累積値Mとマススペクトル・データから算出される質量値との差に対して、同定したマススペクトル・データにおけるイオン強度が高い場合及び既定のアミノ酸と候補アミノ酸との間が切れ易い場合を正に評価するような関係を示す下記式を使用することができる。   Next, in step 5, first, the evaluation value calculation processing unit 4 calculates an evaluation value for each candidate amino acid using the evaluation function. Here, as the evaluation function, the difference between the estimated mass value and the actually measured mass value, that is, the difference between the mass accumulated value M and the mass value calculated from the mass spectrum data, the identified mass spectrum data The following formula showing a relationship that positively evaluates when the ionic strength is high and when the predetermined amino acid and the candidate amino acid are easily cut off can be used.

Figure 2006162556
Figure 2006162556

上記式で算出されるScoreが評価値である。上記式中、Mdiff(i)は推定質量値と実測質量値との差として算出される値である。上記式中、Ipeak(i)は上記表5に示したイオン強度確率値テーブルから読み出される値である。上記式中、ACIR(i)はCIRs値を関連付けたテーブルから読み出される値である。また、上記式において、iは検索の深度を意味する。 Score calculated by the above formula is an evaluation value. In the above formula, M diff (i) is a value calculated as a difference between the estimated mass value and the actually measured mass value. In the above formula, I peak (i) is a value read from the ion intensity probability value table shown in Table 5 above. In the above formula, A CIR (i) is a value read from a table associated with CIR s values. In the above formula, i means the search depth.

なお、ステップ5において、候補アミノ酸が末端に位置する場合は、アミノ酸間の切れ易さは全ての候補アミノ酸において同等に評価する。すなわち、評価値演算処理部4は、各候補アミノ酸について評価値を算出するに際して上記評価関数におけるACIR(i)を全て1に固定して演算する。また、評価値演算処理部4で算出された候補アミノ酸についての評価値は、候補アミノ酸と関連付けて記憶手段に記憶する。 In step 5, when the candidate amino acid is located at the terminal, the ease of cutting between amino acids is evaluated equally for all candidate amino acids. That is, the evaluation value calculation processing unit 4 performs calculation with all A CIR (i) in the evaluation function fixed to 1 when calculating the evaluation value for each candidate amino acid. The evaluation value for the candidate amino acid calculated by the evaluation value calculation processing unit 4 is stored in the storage means in association with the candidate amino acid.

ステップ5では、次に同定処理部5によって、評価値演算処理部4で算出された候補アミノ酸についての評価値に基づいて、C末端のアミノ酸を同定する。具体的には、最も小さい評価値を示す候補アミノ酸をC末端のアミノ酸として同定する。ステップ5では、次に質量累積演算処理部9によって、質量累積値Mを同定処理部5で同定したアミノ酸の質量に更新する。   In step 5, the identification processing unit 5 then identifies the C-terminal amino acid based on the evaluation value for the candidate amino acid calculated by the evaluation value calculation processing unit 4. Specifically, the candidate amino acid showing the smallest evaluation value is identified as the C-terminal amino acid. In step 5, next, the mass accumulation calculation processing unit 9 updates the mass accumulation value M to the mass of the amino acid identified by the identification processing unit 5.

次に、ステップ6では、同定処理部5によって、ステップ5で更新した質量累積値Mとプレカーサーイオンの質量値とを比較する。比較の結果、同定処理部5が、ステップ5で更新した質量累積値Mとプレカーサーイオンの質量値とが所定の誤差範囲内で一致すると判断した場合には検索を終了し、一致しないと判断した場合にはステップ3に戻る。   Next, in Step 6, the identification processing unit 5 compares the mass accumulated value M updated in Step 5 with the mass value of the precursor ion. As a result of the comparison, if the identification processing unit 5 determines that the mass accumulated value M updated in step 5 and the mass value of the precursor ion match within a predetermined error range, the search is terminated, and it is determined that they do not match. If so, return to Step 3.

ステップ6において、質量累積値Mとプレカーサーイオンの質量値とが所定の誤差範囲内で一致すると判断するまで、ステップ3〜6を繰り返し実行することによって配列同定対象のペプチドのアミノ酸配列を同定することができる。ステップ3〜6を繰り返し実行する際、ステップ3においては、質量累積演算処理部9が、表1で表される質量を質量累計値Mに対して加算する。また、ステップ3〜6を繰り返し実行する場合、ステップ5において、評価値演算処理部4は、評価値Scoreを上記式で算出する際に候補アミノ酸毎にアミノ酸間の切れ易さを、アミノ酸間開裂強度確率値を一対のアミノ酸の組合せに関連付けたテーブルから読み出し、上記評価関数におけるACIR(i)を代入して演算する。 In step 6, the amino acid sequence of the peptide to be sequence-identified is identified by repeatedly executing steps 3 to 6 until it is determined that the mass accumulated value M and the mass value of the precursor ion match within a predetermined error range. Can do. When repeatedly executing Steps 3 to 6, in Step 3, the mass accumulation calculation processing unit 9 adds the mass represented in Table 1 to the mass accumulated value M. When Steps 3 to 6 are repeatedly executed, in Step 5, the evaluation value calculation processing unit 4 determines the ease of breaking between amino acids for each candidate amino acid when calculating the evaluation value Score using the above formula. The intensity probability value is read from a table associated with a pair of amino acids, and is calculated by substituting A CIR (i) in the evaluation function.

なお、末端からの探索開始による最初に行うステップ4において、ステップ3で更新した質量累積値Mに相当する質量電荷比を有するマススペクトル・データのピークを同定しなかった場合、ステップ7に進む。ステップ7では、候補アミノ酸検索処理部3における探索アミノ酸数Nを2に更新する。すなわち、探索アミノ酸数Nを1として検索しても、検索開始末端に位置するアミノ酸を同定できないと判断(ステップ4)したため、検索開始末端に位置するアミノ酸が開裂しなかったものと考えられる。そこで、ステップ7においては、検索開始末端に位置するアミノ酸を含むジペプチドをステップ7以降の処理で検出すべく候補アミノ酸検索処理部3における探索アミノ酸数Nを2にセットする。   If the peak of the mass spectrum data having the mass-to-charge ratio corresponding to the mass accumulation value M updated in step 3 is not identified in step 4 that is initially performed by starting the search from the end, the process proceeds to step 7. In step 7, the number of searched amino acids N in the candidate amino acid search processing unit 3 is updated to 2. That is, even if the search is performed with the search amino acid number N set to 1, it is determined that the amino acid located at the search start terminal cannot be identified (step 4), so it is considered that the amino acid located at the search start terminal was not cleaved. Therefore, in step 7, the number of search amino acids N in the candidate amino acid search processing unit 3 is set to 2 in order to detect a dipeptide containing an amino acid located at the search start terminal in the processes after step 7.

また、ステップ3〜6を繰り返し実行する際にステップ7に進んだ場合も同様に、候補アミノ酸検索処理部3における探索アミノ酸数Nを2に更新する。すなわち、ステップ3〜6を繰り返し実行することで同定されたアミノ酸配列の次のアミノ酸残基が単独で開裂しなかったものと考えられる。そこで、ステップ7においては、次の検索対象のアミノ酸をジペプチドとして検出すべく候補アミノ酸検索処理部3における探索アミノ酸数Nを2にセットする。   Similarly, when the process proceeds to step 7 when repeatedly executing steps 3 to 6, the search amino acid number N in the candidate amino acid search processing unit 3 is updated to 2. That is, it is considered that the next amino acid residue of the amino acid sequence identified by repeating Steps 3 to 6 was not cleaved alone. Therefore, in step 7, the number of search amino acids N in the candidate amino acid search processing unit 3 is set to 2 in order to detect the next search target amino acid as a dipeptide.

ステップ7の後にステップ8では、候補アミノ酸検索処理部3によって、ステップ7で更新した探索アミノ酸数Nが予め設定した閾値Nthを超過する値であるか否か判断する。すなわち、ステップ8において、候補アミノ酸検索処理部3は、ステップ7でセットした探索アミノ酸数Nを閾値Nthと照合し、探索アミノ酸数Nを閾値Nthとを比較する。ステップ8において、探索アミノ酸数Nが閾値Nthを超過していないと判断した場合には、ステップ3に進み、ステップ7でセットした探索アミノ酸数Nでステップ3以降の処理を同様に実行する。一方、ステップ8において、探索アミノ酸数Nが閾値Nthを超過していると判断した場合には、ステップ9に進む。すなわち、ステップ7〜ステップ4の処理(ステップ5及び6の処理も含む)を繰り返す場合には、探索アミノ酸数Nは2以上の値となり、探索アミノ酸数Nが閾値Nthを超過するまでステップ7〜ステップ4の処理(ステップ5及び6の処理も含む)を繰り返すこととなる。 In step 8 after step 7, the candidate amino acid search processing unit 3, the search the number of amino acids N updated in step 7 it is determined whether a value that exceeds the threshold value N th set in advance. That is, in step 8, the candidate amino acid search processing unit 3, the set was searched number of amino acids N against a threshold value N th in step 7, the search the number of amino acids N and compares the threshold value N th. If it is determined in step 8 that the search amino acid number N does not exceed the threshold value N th , the process proceeds to step 3, and the processes in and after step 3 are similarly executed with the search amino acid number N set in step 7. On the other hand, if it is determined in step 8 that the search amino acid number N exceeds the threshold value N th , the process proceeds to step 9. That is, when the processes of Step 7 to Step 4 (including the processes of Steps 5 and 6) are repeated, the number of searched amino acids N becomes 2 or more, and Step 7 is repeated until the number of searched amino acids N exceeds the threshold value N th. -The process of step 4 (including the processes of steps 5 and 6) is repeated.

なお、探索アミノ酸数Nが2以上の場合、ステップ4では、候補アミノ酸検索処理部3によって、N個のアミノ酸からなるペプチドの推定質量値を入力処理部2で入力したマススペクトル・データ(図6)の質量電荷比と照合する。このとき、ステップ4では、N個のアミノ酸からなるペプチドの中で、図4に示した統計値を用いて算出された各アミノ酸間のアミノ酸間開裂強度確率値は、N-1個目までの累積値が低く、N個目においての値が小さいペプチドから順にマススペクトル・データ(図6)の質量電荷比と照合することが望ましい。つまり、N−1個目までのアミノ酸が検出されないことは、N-1個目までのアミノ酸が開裂しづらく(切れにくく)、N個目では開裂しやすい(切れやすい)ことを想定することを意味している。   When the search amino acid number N is 2 or more, in step 4, mass spectrum data (FIG. 6) in which an estimated mass value of a peptide composed of N amino acids is input by the input processing unit 2 by the candidate amino acid search processing unit 3. ) And the mass-to-charge ratio. At this time, in Step 4, among peptides consisting of N amino acids, the inter-amino acid cleavage strength probability value between amino acids calculated using the statistical values shown in FIG. It is desirable to collate with the mass-to-charge ratio of the mass spectrum data (FIG. 6) in order from the peptide with the lowest cumulative value and the smallest value at the Nth. That is, it is assumed that the amino acids up to the (N-1) th are not detected, that the amino acids up to the (N-1) th are difficult to cleave (hard to cut), and easy to cleave (easy to cut) at the Nth. I mean.

一方、ステップ9では、質量累積演算処理部9によって、質量累積値Mを再検索すべき位置までのアミノ酸配列の質量値に戻す。すなわち、質量累積演算処理部9は、質量累積値Mから、検索開始末端とは反対の末端側のアミノ酸の質量を減算した値に更新する。ステップ9の後、ステップ2において探索アミノ酸数Nを1に初期化する。その後、ステップ3では、質量累積演算処理部9によって、上述したように質量累積値Mを更新するが、ステップ9において減算したアミノ酸以外のアミノ酸を候補アミノ酸とし、これら候補アミノ酸について質量累積値Mを更新する。なお、ステップ9の後に実行されるステップ3では、記憶手段に記憶されたそれまでに算出した評価値を検索して候補アミノ酸を選択してもよい。   On the other hand, in step 9, the mass accumulation calculation processing unit 9 returns the mass accumulation value M to the mass value of the amino acid sequence up to the position where the search should be performed again. That is, the mass accumulation calculation processing unit 9 updates the mass accumulation value M to a value obtained by subtracting the mass of the amino acid on the terminal side opposite to the search start terminal. After step 9, in step 2, the search amino acid number N is initialized to 1. Thereafter, in step 3, the mass cumulative calculation processing unit 9 updates the mass cumulative value M as described above, but amino acids other than the amino acid subtracted in step 9 are set as candidate amino acids, and the mass cumulative value M is set for these candidate amino acids. Update. In step 3 executed after step 9, candidate amino acids may be selected by searching the evaluation values calculated so far stored in the storage means.

以上、図5に示したフローチャートに従った処理を実行することによって、アミノ酸配列同定装置1は、質量分析装置8から出力されたスペクトル・データを用いて特定のプレカーサーイオンのアミノ酸配列を同定することができる。アミノ酸配列同定装置1は、ステップ5において、候補アミノ酸毎に隣接するアミノ酸との間の切れ易さ及び候補アミノ酸毎にマススペクトル・データにおけるイオン強度を反映させて評価値Scoreを算出している。また、ステップ5では、候補アミノ酸毎の評価値Scoreに基づいて、同定対象のアミノ酸を同定している。一般に、例えばイソロイシンとロイシンについては、それぞれ質量が同じであるためにマススペクトル・データの質量電荷比のみから判別することは不可能である。しかしながら、上述したステップ5によれば、候補アミノ酸がイソロイシンである場合の評価値と、候補アミノ酸がロイシンである場合の評価値とを比較することによって、より可能性の高いアミノ酸配列を同定することができる。   As described above, by executing the processing according to the flowchart shown in FIG. 5, the amino acid sequence identification device 1 identifies the amino acid sequence of a specific precursor ion using the spectrum data output from the mass spectrometer 8. Can do. In step 5, the amino acid sequence identification apparatus 1 calculates the evaluation value Score by reflecting the ease of cutting between adjacent amino acids for each candidate amino acid and the ion intensity in the mass spectrum data for each candidate amino acid. Further, in step 5, the amino acid to be identified is identified based on the evaluation value Score for each candidate amino acid. In general, for example, isoleucine and leucine have the same mass, and therefore cannot be determined only from the mass-to-charge ratio of the mass spectrum data. However, according to Step 5 described above, by comparing the evaluation value when the candidate amino acid is isoleucine and the evaluation value when the candidate amino acid is leucine, identifying a more likely amino acid sequence Can do.

このように、図5に示したフローチャートに従った処理を実行することによって、アミノ酸配列同定装置1は、アミノ酸配列等を格納した既存のデータベースを使用することなく、配列同定対象のペプチドのアミノ酸配列を決定することができる。   As described above, by executing the processing according to the flowchart shown in FIG. 5, the amino acid sequence identification device 1 allows the amino acid sequence of the peptide to be sequence-identified without using an existing database storing the amino acid sequence and the like. Can be determined.

特に、図5に示したフローチャートに従った処理は、予めプレカーサーイオンの電荷質量比から当該プレカーサーイオンの質量を演算し、当該質量からプレカーサーイオン(配列同定対象のペプチド)に含まれるアミノ酸の種類及び個数で表される組合せを演算するステップを含む処理であってもよい。この処理は、組合せ演算処理部7によって行われる。組合せ演算処理部7は、表1〜4に示したアミノ酸質量テーブルから、制限付き組合せ問題の解法の一つであるナップザック問題を解くアルゴリズムを適用した処理によってアミノ酸の種類及び個数で表される組合せを演算することができる。ナップザック問題を解くアルゴリズムとは、特定の容量のナップサックに、それぞれ異なる大きさと価値を持つ数種類の荷物をナップサックに詰め込むときに、総価値が最大になるような品物の組合せを選択するという問題として知られている。組合せ演算処理部7は、ナップサックの容量をプレカーサーイオンの質量に見立て、詰め込む荷物を各アミノ酸の質量と個数に見立てて、この問題を“ナップサック問題”の解法によってペプチドの構成、つまり、アミノ酸の種類及び個数からなる組合せを算出する。また、組合せ演算処理部7は、ナップサックの容量に相当するプレカーサーイオンの質量に対して誤差を設定し、当該誤差を加算した質量に収まるアミノ酸の種類及び個数の組合せを全て列挙する。   In particular, the process according to the flowchart shown in FIG. 5 calculates the mass of the precursor ion in advance from the charge mass ratio of the precursor ion, and from the mass, the type of amino acid contained in the precursor ion (sequence identification target peptide) and The process may include a step of calculating a combination represented by the number. This processing is performed by the combination calculation processing unit 7. The combination calculation processing unit 7 uses the amino acid mass tables shown in Tables 1 to 4 and combinations represented by the type and number of amino acids by applying an algorithm that solves the knapsack problem, which is one of the solutions for the limited combination problem. Can be calculated. An algorithm for solving the knapsack problem is known as the problem of selecting a combination of items that maximizes the total value when a knapsack of a different size and value is packed into a knapsack of a specific capacity. It has been. The combination calculation processing unit 7 considers the capacity of the knapsack as the mass of the precursor ion and the load to be packed as the mass and the number of each amino acid, and solves this problem by the solution of the “knapsack problem”, that is, the type of amino acid. And a combination of the numbers is calculated. The combination calculation processing unit 7 sets an error with respect to the mass of the precursor ion corresponding to the capacity of the knapsack, and lists all combinations of amino acid types and numbers that fall within the mass obtained by adding the error.

なお、コンピュータアルゴリズムとしてナップサック問題の解法を例にあげ説明を行ったが、組合せ演算処理部7は、所与の制約条件を満たす全解探索問題を解くコンピュータアルゴリズムを適用することでアミノ酸の組合せ全てを列挙することも可能である。なお、組合せ演算処理部7で算出したアミノ酸の種類及び個数の組合せは、例えばRAM103等の記憶手段に格納しておく。   Although the explanation has been given by taking the knapsack problem as an example of the computer algorithm, the combination calculation processing unit 7 applies all the combinations of amino acids by applying a computer algorithm that solves the entire solution search problem that satisfies a given constraint condition. Can also be listed. The combination of amino acid type and number calculated by the combination processing unit 7 is stored in a storage unit such as the RAM 103, for example.

組合せ演算処理部7がアミノ酸の種類及び個数の組合せを演算することによって、ステップ4において候補アミノ酸検索処理部3は、質量累積値Mに相当する質量電荷比を有するマススペクトル・データのピークを同定して候補アミノ酸を検索する際に、記憶手段に格納した上記組合せのデータと照合し、当該組合せを満足しうる候補アミノ酸を同定する。これにより、ステップ4において検索する候補アミノ酸を絞り込むことができるため処理速度を向上させることができ、また、アミノ酸配列同定結果の精度を向上させることができる。   When the combination calculation processing unit 7 calculates the combination of the type and number of amino acids, in step 4, the candidate amino acid search processing unit 3 identifies a peak of mass spectrum data having a mass-to-charge ratio corresponding to the mass accumulation value M. Then, when searching for candidate amino acids, the data of the above combination stored in the storage means is collated to identify candidate amino acids that can satisfy the combination. Thereby, candidate amino acids to be searched in Step 4 can be narrowed down, so that the processing speed can be improved and the accuracy of the amino acid sequence identification result can be improved.

なお、組合せ演算処理部7がアミノ酸の種類及び個数の組合せを演算するステップは、ステップ1に先立って実行してもよいし、ステップ1〜3と平行して実行しても良い。但し、本ステップは、ステップ4において候補アミノ酸検索処理部3が複数の候補アミノ酸から特定のアミノ酸を同定する前に実行される。   In addition, the step in which the combination calculation processing unit 7 calculates the combination of the type and number of amino acids may be executed prior to Step 1 or may be executed in parallel with Steps 1 to 3. However, this step is executed before the candidate amino acid search processing unit 3 identifies a specific amino acid from a plurality of candidate amino acids in step 4.

ところで、本発明に係るアミノ酸配列同定装置10は、図7に示すように、組合せ演算処理部7と、組合せ演算手段7で演算された組合せの中から、配列同定対象のペプチドに関するアミノ酸配列を同定するアミノ酸配列同定部11とを備えるものであってもよい。組合せ演算処理部7は、上述した図2に示した組合せ演算処理部7と同様であり、詳細な説明は省略する。また、アミノ酸配列同定処理部10は、上述した図2に示した候補アミノ酸検索処理部3、評価値演算処理部4、同定処理部5及び質量累積演算処理部9からなるものであっても良いし、ペプチド・シーケンス・タグ法を実行するものであっても良い。   By the way, as shown in FIG. 7, the amino acid sequence identification device 10 according to the present invention identifies an amino acid sequence related to a sequence identification target peptide from the combinations calculated by the combination calculation processing unit 7 and the combination calculation means 7. And an amino acid sequence identification unit 11 that performs the above-described process. The combination calculation processing unit 7 is the same as the combination calculation processing unit 7 shown in FIG. 2 described above, and detailed description thereof is omitted. The amino acid sequence identification processing unit 10 may be composed of the candidate amino acid search processing unit 3, the evaluation value calculation processing unit 4, the identification processing unit 5 and the mass accumulation calculation processing unit 9 shown in FIG. Alternatively, the peptide sequence tag method may be executed.

このように構成されたアミノ酸配列同定装置10は、図8に示すフローチャートに従って配列同定対象のペプチド(プレカーサーイオン)のアミノ酸配列を同定することができる。本例においても、質量分析装置8としてMS/MSスペクトルを検出可能な装置を例示して説明する。   The amino acid sequence identification device 10 configured as described above can identify the amino acid sequence of the peptide (precursor ion) to be sequenced according to the flowchart shown in FIG. Also in this example, an apparatus capable of detecting an MS / MS spectrum will be described as an example of the mass spectrometer 8.

先ず、ステップ11(図8において「S11」と記す。以下のステップも同様)において、質量分析装置8の第1の質量分析計から出力された、特定のプレカーサーイオンの質量電荷比を入力処理部2で入力し、入力したプレカーサーイオンの質量電荷比からプレカーサーイオンの質量を算出する。   First, in step 11 (denoted as “S11” in FIG. 8. The following steps are also the same), the mass-to-charge ratio of a specific precursor ion output from the first mass spectrometer of the mass analyzer 8 is input processing unit. 2. The mass of the precursor ions is calculated from the mass-to-charge ratio of the entered precursor ions.

第1の質量分析計で測定したプレカーサーイオンの質量は、質量分析装置8の第1の質量分析計で測定したプレカーサーイオンの質量電荷比を用いて、入力処理部2において、荷電していないペプチドの質量を算出する。具体的にペプチドの質量は、プレカーサーイオンの質量電荷比からプロトンの質量を差し引き、電荷との積を計算することで求められる。   The mass of the precursor ion measured by the first mass spectrometer is the peptide that is not charged in the input processing unit 2 using the mass-to-charge ratio of the precursor ion measured by the first mass spectrometer of the mass spectrometer 8. The mass of is calculated. Specifically, the mass of the peptide can be obtained by subtracting the mass of the proton from the mass-to-charge ratio of the precursor ion and calculating the product with the charge.

次に、ステップ12では、算出したプレカーサーイオン質量を、予め設定してROM102等の記憶手段に格納した閾値Mthと照合し、当該プレカーサーイオン質量がMthより大きいか判断する。プレカーサーイオン質量がMthより大きいと判断した場合にはステップ13に進み、プレカーサーイオン質量がMthより以下であると判断した場合にはステップ14に進む。 Next, in step 12, the calculated precursor ion mass, against the threshold value M th stored in the storage means of the ROM102 etc. and preset, the precursor ion mass is determined greater than M th. If it is determined that the precursor ion mass is greater than M th , the process proceeds to step 13, and if it is determined that the precursor ion mass is less than M th , the process proceeds to step 14.

ここで、閾値Mthは、コンピュータリソースに大きく掛かる負担を考慮して適宜決定することができる。すなわち、コンピュータリソースが増大すれば、閾値Mthとしては、より大きな値を設定することができる。例えば、後述の図9−1〜9−5で用いる2価のプレカーサーの質量電荷比462.022、つまり質量922.028にMthを設定した場合は、少なくとも図9−1〜9−5に示される492通りのアミノ酸の組合せがRAM103に蓄えられる必要があるが、RAM103に十分な容量とそこに蓄えられるアミノ酸の組合せを十分処理可能なコンピュータリソースが得られれば、Mthをより大きなものに設定が可能になる。 Here, the threshold value M th can be determined as appropriate in consideration of a large burden on computer resources. That is, if the computer resource increases, a larger value can be set as the threshold value M th . For example, 492 types if you set the M th divalent mass to charge ratio 462.022 of a precursor, i.e. mass 922.028 used in Figure 9-1 to 9-5 described below, as shown in at least FIG. 9-1 to 9-5 the combinations of amino acids needs to be stored in the RAM 103, as long obtained sufficiently processable computer resources the combination of amino acids to be stored therein and sufficient capacity RAM 103, to be capable of setting the M th more large Become.

次に、ステップ13では、ステップ11で入力した、プレカーサーイオンの分解産物に由来するスペクトル・データを所定の位置で複数に分割(例えば、2分割)する。ここで、分割する位置は、入力したスペクトル・データにおける質量電荷比を示すピーク位置と、イオン強度を示すピーク高さとから最適に位置を選択する。例えば、分割後の配列同定対象ペプチドの質量が上記閾値Mthを超えないようなピーク位置で分割する。 Next, in step 13, the spectrum data derived from the precursor ion decomposition product input in step 11 is divided into a plurality (for example, divided into two) at a predetermined position. Here, the position to be divided is optimally selected from the peak position indicating the mass-to-charge ratio in the input spectrum data and the peak height indicating the ion intensity. For example, the mass of the sequence-identified peptide after the division is divided by the peak position does not exceed the threshold value M th.

次に、ステップ14において、組合せ演算処理部7によって、第1の質量分析計で測定したプレカーサーイオンの質量、若しくは、ステップ13で分割した分割後の質量から配列同定対象のペプチドに含まれるアミノ酸の種類及び個数で表される組合せ(以降、候補アミノ酸セットと呼ぶ)を演算する。   Next, in step 14, the combination calculation processing unit 7 calculates the precursor ion mass measured by the first mass spectrometer, or the amino acid contained in the sequence identification target peptide from the divided mass divided in step 13. A combination represented by type and number (hereinafter referred to as a candidate amino acid set) is calculated.

組合せ演算処理部7における候補アミノ酸セットの演算では、プレカーサーの質量に対して任意の誤差を与えた質量を持つことを想定し、コンピュータアルゴリズムを用いて候補アミノ酸セットを算出する。コンピュータアルゴリズムとしては、例えば、いわゆるナップザック問題を解く際に使用されるアルゴリズムを適用することができる。任意の誤差としては、プレカーサーイオンの質量電荷比に対して±0.005を設定することができる。より具体的に、プレカーサーイオンの質量電荷比が462.022(電荷;2価)の場合には、質量電荷比462.017から462.027までの質量に相当するペプチドを構成するアミノ酸の種類及び個数の組合せ(492通り)を算出した結果を図9−1〜9−5に示す。   In the calculation of the candidate amino acid set in the combination calculation processing unit 7, the candidate amino acid set is calculated using a computer algorithm assuming that the mass has given an arbitrary error to the mass of the precursor. As the computer algorithm, for example, an algorithm used when solving a so-called knapsack problem can be applied. As an arbitrary error, ± 0.005 can be set with respect to the mass-to-charge ratio of the precursor ion. More specifically, when the mass-to-charge ratio of the precursor ion is 462.022 (charge: divalent), the combination of the types and number of amino acids constituting the peptide corresponding to the mass from mass-to-charge ratio 462.017 to 462.027 (492 ways) ) Are shown in FIGS. 9-1 to 9-5.

また、配列同定対象のペプチドがタンパク質消化酵素等の処理により取得したものである場合には、当該消化酵素の認識配列を考慮することで、算出結果の組合せを絞り込むことも可能となり、図9−1〜9−5はこれを考慮した結果である。   In addition, in the case where the peptide for sequence identification is obtained by processing of a protein digestive enzyme or the like, it is possible to narrow down combinations of calculation results by considering the recognition sequence of the digestive enzyme. 1 to 9-5 are the results in consideration of this.

ナップザック問題は、特定の容量のナップサックに、それぞれ異なる大きさと価値を持つ数種類の荷物をナップサックに詰め込むときに、総価値が最大になるような品物の組合せを選択するという問題として知られている。組合せ演算処理部7においては、ナップサック容量をプレカーサーの質量に見立て、詰め込む荷物を各アミノ酸の質量と個数に見立てて、プレカーサーイオンを構成するアミノ酸の種類と個数を算出する。組合せ演算処理部7における処理において、ナップサック問題の解法を利用する場合は、実際のナップサック問題の解法と違い、ナップサック容量に相当するプレカーサーイオンの質量に対して誤差を設定し、容量誤差内(質量誤差内)に収まる荷物(アミノ酸)の組合せを全て列挙する。   The knapsack problem is known as a problem of selecting a combination of items that maximizes the total value when several types of packages having different sizes and values are packed into a knapsack of a specific capacity. The combination calculation processing unit 7 calculates the type and number of amino acids constituting the precursor ion by regarding the knapsack capacity as the mass of the precursor and associating the packed goods with the mass and number of each amino acid. When using the knapsack problem solution in the processing of the combination processing unit 7, unlike the actual knapsack problem solution, an error is set with respect to the mass of the precursor ion corresponding to the knapsack capacity, and within the capacity error (mass All combinations of packages (amino acids) that fall within (within error) are listed.

また、組合せ演算処理部7では、ナップサック問題の解法アルゴリズムを適用する処理に限定されず、所与の制約条件を満たす全解探索問題を解くコンピュータアルゴリズムを適用する処理を行うことで、プレカーサーイオンを構成するアミノ酸の種類及び個数の組合せ全てを列挙することもできる。なお、組合せ演算処理部7で算出したアミノ酸の種類及び個数の組合せは、例えばRAM103等の記憶手段に格納しておく。   In addition, the combination calculation processing unit 7 is not limited to the process of applying the knapsack problem solving algorithm, but performs the process of applying a computer algorithm that solves the entire solution search problem that satisfies the given constraint condition, thereby obtaining the precursor ion. It is also possible to list all combinations of types and numbers of amino acids constituting the amino acid. The combination of amino acid type and number calculated by the combination processing unit 7 is stored in a storage unit such as the RAM 103, for example.

次に、ステップ15では、適用する配列同定方法を選択する。ステップ14において算出され、記憶手段に格納されたアミノ酸の種類及び個数の組合せを用いる場合(方法1)にはステップ16に進み、配列同定対象ペプチドのアミノ酸配列を同定する手法としては、上述した図5に示したフローチャートに従った処理を挙げることができる。また、記憶手段に格納されたアミノ酸の種類及び個数の組合せを用いる場合、いわゆるペプチド・シーケンス・タグ法を適用して、配列同定対象ペプチドのアミノ酸配列を同定することもできる(方法2)。   Next, in step 15, a sequence identification method to be applied is selected. When the combination of the type and number of amino acids calculated in step 14 and stored in the storage means is used (method 1), the process proceeds to step 16, and a method for identifying the amino acid sequence of the sequence identification target peptide is as described above. Processing according to the flowchart shown in FIG. Moreover, when using the combination of the kind and number of amino acids stored in the storage means, the so-called peptide sequence tag method can be applied to identify the amino acid sequence of the sequence identification target peptide (Method 2).

ペプチド・シーケンス・タグ法では、ステップ17において、先ず、アミノ酸の種類及び個数からなる組合せを格納した記憶手段をデータベースとして用いるため、組合せから想定される全てのアミノ酸の順列を算出する。順列算出時には、消化酵素を踏まえ、所定のアミノ酸を末端として有するように考慮して、アミノ酸配列を列挙する。例えば、図9−1〜9−5に示した組合せ(492通り)のなかで、組合せ”AE(2)FKTV(2)”を例に取ると、以下を含む1,260種類のアミノ酸配列が得られる。ペプチド・シーケンス・タグ法では、これらの配列をアミノ酸配列データベースと見立てることで、アミノ酸配列同定に使用する。   In the peptide sequence tag method, first, in step 17, since a storage means storing a combination of amino acid types and numbers is used as a database, a permutation of all amino acids assumed from the combination is calculated. At the time of permutation calculation, amino acid sequences are listed in consideration of having a predetermined amino acid as a terminal in consideration of digestive enzymes. For example, taking the combination “AE (2) FKTV (2)” as an example among the combinations (492) shown in FIGS. 9-1 to 9-5, 1,260 kinds of amino acid sequences including the following are obtained. . In the peptide sequence tag method, these sequences are regarded as an amino acid sequence database and used for amino acid sequence identification.

Figure 2006162556
Figure 2006162556

次に、ステップ16において、このように構築したアミノ酸配列の順列をデータベースとすることでペプチド・シーケンス・タグ法によるアミノ酸配列同定を行うことができる。ここで、ペプチド・シーケンス・タグ法とは、質量分析計中で特定のプレカーサーイオンを選択後、更に、選択したプレカーサーイオンから得られるプロダクトイオンのスペクトル(MS/MSスペクトル)を用い、ステップ17により算出したアミノ酸配列をデータベースとして、データベースサーチを行う方法を意味する。衝突によるペプチドイオンの開裂はほぼ決まった位置(主に主鎖:図2参照)で起こる為、ステップ17におけるアミノ酸配列のプロダクトイオン質量は予測可能である。そこで、本例におけるペプチド・シーケンス・タグ法では、ステップ17により算出したアミノ酸配列から想定されるプロダクトイオンの質量とMS/MSスペクトルの示す質量値を比較する。   Next, in step 16, the amino acid sequence can be identified by the peptide sequence tag method by using the permutation of the amino acid sequence thus constructed as a database. Here, the peptide sequence tag method means that after a specific precursor ion is selected in a mass spectrometer, a product ion spectrum (MS / MS spectrum) obtained from the selected precursor ion is used. This means a method of performing a database search using the calculated amino acid sequence as a database. Since peptide ion cleavage by collision occurs at almost a fixed position (mainly the main chain: see FIG. 2), the product ion mass of the amino acid sequence in step 17 can be predicted. Therefore, in the peptide sequence tag method in this example, the mass of the product ion assumed from the amino acid sequence calculated in step 17 is compared with the mass value indicated by the MS / MS spectrum.

具体的に、アミノ酸配列が既知のウシ血清アルブミン(BSA)をTrypsinにて消化することで得られるペプチド断片 “AEFVEVTK”(検出質量電荷比(2価):462.022) の質量分析結果をもとに、アミノ酸配列同定を実施した。ステップ17により求められたアミノ酸配列が質量分析結果として得られる場合の各イオンの質量電荷比(Average)、つまり、プロダクトイオンの質量電荷比と、表5に示したms/ms ピークリストに±0.5の誤差を与えた質量電荷比を比較することで、以下の’AEFVEVTK’といったアミノ酸配列を同定した。例として、ステップ17において算出されたペプチド配列中の”AVFVEVTK”が、b-ion、y-ion、またそれらが多価イオン、脱水、脱アミノとして検出された場合の質量の内、表5と±0.5の誤差で一致した質量値を表7に示す。
Specifically, based on the results of mass spectrometry of peptide fragment “AEFVEVTK” (detected mass-to-charge ratio (divalent): 462.022) obtained by digesting bovine serum albumin (BSA) with known amino acid sequence with Trypsin Amino acid sequence identification was performed. When the amino acid sequence obtained in step 17 is obtained as a mass analysis result, the mass-to-charge ratio (Average) of each ion, that is, the mass-to-charge ratio of the product ions and the ms / ms peak list shown in Table 5 are ± 0.5 The following amino acid sequences such as 'AEFVEVTK' were identified by comparing the mass-to-charge ratios that gave the above error. As an example, “AVFVEVTK” in the peptide sequence calculated in Step 17 is b-ion, y-ion, and the mass when they are detected as multivalent ions, dehydration, and deamination. Table 7 shows the mass values that matched with an error of ± 0.5.

Figure 2006162556
Figure 2006162556

ステップ17において算出されたアミノ酸配列のうち”AEFVEVTK”が配列全体に渡り、表5のMS/MSSピークリストと一致していることにより、配列同定結果として認められる。なお、表7において、y、b は各開裂イオン系列を示し、++は2価イオン、*は脱アミノ、Oは脱水時の質量を示す。   Of the amino acid sequences calculated in step 17, “AEFVEVTK” is recognized as a sequence identification result by being consistent with the MS / MSS peak list in Table 5 over the entire sequence. In Table 7, y and b represent each cleavage ion series, ++ represents a divalent ion, * represents deamination, and O represents a mass during dehydration.

本発明に係るアミノ酸配列同定装置のハードウェア構成を説明するための概略構成図である。It is a schematic block diagram for demonstrating the hardware constitutions of the amino acid sequence identification device which concerns on this invention. 本発明に係るアミノ酸配列同定装置1の機能的構成について説明するための概略ブロック図である。It is a schematic block diagram for demonstrating the functional structure of the amino acid sequence identification device 1 which concerns on this invention. ペプチド結合における切断位置と、切断後に生成される開裂アミノ酸の分子構造を説明するための図である。It is a figure for demonstrating the molecular structure of the cleavage position in a peptide bond, and the cleavage amino acid produced | generated after cleavage. 一対のアミノ酸間における切れ易さを示す特性図である。It is a characteristic view which shows the easiness of cutting between a pair of amino acids. 本発明に係るアミノ酸配列同定方法及びプログラムを適用した具体的な処理の一例を示すフローチャートである。It is a flowchart which shows an example of the specific process to which the amino acid sequence identification method and program which concern on this invention are applied. ウシ血清アルブミン(BSA)をTrypsinで消化することで得られるペプチド断片のうち、ペプチド“AEFVEVTK”(検出質量電荷比(2価):462.022)をプレカーサーイオンとして得られたMS/MSスペクトルを示す特性図である。Among the peptide fragments obtained by digesting bovine serum albumin (BSA) with Trypsin, a characteristic showing an MS / MS spectrum obtained by using the peptide “AEFVEVTK” (detected mass-to-charge ratio (divalent): 462.022) as a precursor ion FIG. 本発明に係るアミノ酸配列同定装置10の機能的構成について説明するための概略ブロック図である。It is a schematic block diagram for demonstrating the functional structure of the amino acid sequence identification apparatus 10 which concerns on this invention. 本発明に係るアミノ酸配列同定方法及びプログラムを適用した具体的な処理の他の例を示すフローチャートである。It is a flowchart which shows the other example of the specific process to which the amino acid sequence identification method and program which concern on this invention are applied. 質量電荷比462.017から462.027までの質量に相当するペプチドを構成するアミノ酸の種類及び個数の組合せ(492通り)を算出した結果を示す図である。It is a figure which shows the result of having calculated the combination (492 way) of the kind and number of amino acids which comprise the peptide corresponding to the mass from mass to charge ratio 462.017 to 462.027. 質量電荷比462.017から462.027までの質量に相当するペプチドを構成するアミノ酸の種類及び個数の組合せ(492通り)を算出した結果を示す図である。It is a figure which shows the result of having calculated the combination (492 way) of the kind and number of amino acids which comprise the peptide corresponding to the mass from mass to charge ratio 462.017 to 462.027. 質量電荷比462.017から462.027までの質量に相当するペプチドを構成するアミノ酸の種類及び個数の組合せ(492通り)を算出した結果を示す図である。It is a figure which shows the result of having calculated the combination (492 way) of the kind and number of amino acids which comprise the peptide corresponding to the mass from mass to charge ratio 462.017 to 462.027. 質量電荷比462.017から462.027までの質量に相当するペプチドを構成するアミノ酸の種類及び個数の組合せ(492通り)を算出した結果を示す図である。It is a figure which shows the result of having calculated the combination (492 way) of the kind and number of amino acids which comprise the peptide corresponding to the mass from mass to charge ratio 462.017 to 462.027. 質量電荷比462.017から462.027までの質量に相当するペプチドを構成するアミノ酸の種類及び個数の組合せ(492通り)を算出した結果を示す図である。It is a figure which shows the result of having calculated the combination (492 way) of the kind and number of amino acids which comprise the peptide corresponding to the mass from mass to charge ratio 462.017 to 462.027.

符号の説明Explanation of symbols

1…アミノ酸配列同定装置、2…入力処理部、3…候補アミノ酸検索処理部、4…評価値演算処理部、5…同定処理部 DESCRIPTION OF SYMBOLS 1 ... Amino acid sequence identification device, 2 ... Input processing part, 3 ... Candidate amino acid search processing part, 4 ... Evaluation value calculation processing part, 5 ... Identification processing part

Claims (12)

配列同定対象のペプチドを含む試料から得られる、質量電荷比とイオン強度からなるマススペクトルを入力する入力手段と、
アミノ酸の理論質量値をアミノ酸毎に記憶した記憶手段から、d番目(dは0以上の整数)までのペプチド断片のアミノ酸配列に基づいて推定質量値を算出し、算出した推定質量値にアミノ酸の理論質量値をそれぞれ加算して得られるd+N番目(Nは探索アミノ酸数であり、1以上の整数)までのペプチド断片の推定質量値をそれぞれ算出し、d+N番目までのペプチド断片の推定質量値と上記入力手段から入力したマススペクトルのうち特定のマススペクトルの質量電荷比から算出される実測質量値との差を算出し、算出した差のなかで所定の範囲内にあるものを同定し、同定した差を算出するのに使用したN個のアミノ酸をd+1〜d+N番目のアミノ酸の候補アミノ酸とする候補アミノ酸検索手段と、
候補アミノ酸検索手段で検索した各候補アミノ酸に関して、上記同定した差に対して、上記特定のマススペクトルのイオン強度が高い場合及びd番目のアミノ酸と当該候補アミノ酸との間が切れ易い場合を正に評価する評価関数を用いてそれぞれ評価値を演算する評価値演算手段と、
得られた評価値を用いて上記候補アミノ酸から1の候補アミノ酸を同定することで、上記ペプチドにおけるd+N番目までのペプチド断片におけるアミノ酸配列を同定する同定手段とを備える、アミノ酸配列同定装置。
An input means for inputting a mass spectrum comprising a mass-to-charge ratio and an ionic strength obtained from a sample containing a peptide to be sequenced;
From the storage means that stores the theoretical mass value of amino acids for each amino acid, the estimated mass value is calculated based on the amino acid sequence of the peptide fragments up to the d-th (d is an integer of 0 or more), and the calculated mass value of the amino acid is calculated. Calculate the estimated mass values of the peptide fragments up to d + Nth (N is the number of searched amino acids, an integer of 1 or more) obtained by adding the theoretical mass values, respectively. Calculate the difference between the estimated mass value and the measured mass value calculated from the mass-to-charge ratio of the specific mass spectrum among the mass spectra input from the input means, and the calculated difference is within a predetermined range. A candidate amino acid search means that identifies and uses the N amino acids used to calculate the identified difference as d + 1 to d + Nth amino acid,
For each candidate amino acid searched by the candidate amino acid search means, when the ionic strength of the specific mass spectrum is high and when the gap between the d-th amino acid and the candidate amino acid is easy to break, An evaluation value calculating means for calculating an evaluation value using an evaluation function to be evaluated;
An amino acid sequence identification apparatus comprising: identification means for identifying one candidate amino acid from the candidate amino acids using the obtained evaluation value, thereby identifying the amino acid sequence in the peptide fragment up to d + N in the peptide.
上記入力手段で入力したマススペクトルに含まれるイオン強度を確率変数内で均一に分散させるようにスケーリングするイオン強度確率値演算手段を更に備え、
上記評価値演算手段は、上記イオン強度確率値演算手段によって算出されたイオン強度確率値を用いて評価値を算出することを特徴とする請求項1記載のアミノ酸配列同定装置。
Ion intensity probability value calculating means for scaling the ion intensity included in the mass spectrum input by the input means so as to be uniformly distributed within the random variable,
2. The amino acid sequence identification apparatus according to claim 1, wherein the evaluation value calculating means calculates an evaluation value using the ion intensity probability value calculated by the ion intensity probability value calculating means.
上記アミノ酸間の切れ易さとして、アミノ酸間の切れ易さの統計値を確率値として算出したアミノ酸間開裂強度確率値を格納した記憶手段を更に備え、
上記評価値演算手段は、上記記憶手段から読み出したアミノ酸間開裂強度確率値を用いて評価値を演算することを特徴とする請求項1記載のアミノ酸配列同定装置。
As the ease of cutting between amino acids, further comprising a storage means for storing a probability value of cleavage strength between amino acids calculated as a probability value of the statistical value of the ease of cutting between amino acids,
2. The amino acid sequence identification apparatus according to claim 1, wherein the evaluation value calculation means calculates an evaluation value using an interamino acid cleavage strength probability value read from the storage means.
上記記憶手段に格納されたアミノ酸の理論質量値を用いて、配列同定対象のペプチドの質量に基づいて、当該ペプチドに含まれるアミノ酸の種類及び個数で表される組合せを演算する組合せ演算手段を更に備え、
上記同定手段は、最も高く評価される評価値を示す候補アミノ酸をd+N番目のアミノ酸としたペプチド断片に含まれるアミノ酸の種類及び個数を、上記組合せ演算手段で算出した組合せと照合し、これら組合せの中に当該ペプチド断片のアミノ酸の種類及び個数を含む組合せが存在しないと判断した場合には、当該候補アミノ酸を除く候補アミノ酸から、上記ペプチドにおけるd+N番目のアミノ酸を同定することを特徴とする請求項1記載のアミノ酸配列同定装置。
Combination calculation means for calculating a combination represented by the type and number of amino acids contained in the peptide based on the mass of the peptide to be sequence-identified using the theoretical mass value of the amino acid stored in the storage means. Prepared,
The identification means collates the type and number of amino acids contained in the peptide fragment with the candidate amino acid showing the highest evaluation value as the d + N-th amino acid with the combination calculated by the combination calculation means, and When it is determined that there is no combination including the type and number of amino acids of the peptide fragment in the combination, the d + N-th amino acid in the peptide is identified from the candidate amino acids excluding the candidate amino acid. The amino acid sequence identification device according to claim 1.
上記アミノ酸の理論質量値には、1つのアミノ酸に関して、ペプチド結合の切断位置に対応した複数の値が含まれていることを特徴とする請求項1記載のアミノ酸配列同定装置。   2. The amino acid sequence identification apparatus according to claim 1, wherein the theoretical mass value of the amino acid includes a plurality of values corresponding to peptide bond cleavage positions with respect to one amino acid. 上記アミノ酸の理論質量値には、1つのアミノ酸に関して、化学的修飾を有する場合を想定した複数の値が含まれていることを特徴とする請求項1記載のアミノ酸配列同定装置。   2. The amino acid sequence identification apparatus according to claim 1, wherein the theoretical mass value of the amino acid includes a plurality of values assuming a case where chemical modification is made with respect to one amino acid. 上記記憶手段に格納されたアミノ酸の理論質量値を用いて、配列同定対象のペプチドの質量に基づいて、当該ペプチドに含まれるアミノ酸の種類及び個数で表される組合せを演算する組合せ演算手段を更に備え、
上記組合せ演算手段は、上記入力手段で入力される配列同定対象のペプチドの質量が特定の閾値より大きい場合には、上記入力手段で入力したマススペクトルを複数に分割して処理することを特徴とする請求項1記載のアミノ酸配列同定装置。
Combination calculation means for calculating a combination represented by the type and number of amino acids contained in the peptide based on the mass of the peptide to be sequence-identified using the theoretical mass value of the amino acid stored in the storage means. Prepared,
When the mass of the peptide for sequence identification input by the input unit is larger than a specific threshold, the combination calculation unit divides the mass spectrum input by the input unit into a plurality of processes, The amino acid sequence identification device according to claim 1.
上記組合せ演算手段は、制限付き組合せ問題を解くアルゴリズムを適用した処理を行うことを特徴とする請求項4又は7記載のアミノ酸配列同定装置。   The amino acid sequence identification apparatus according to claim 4 or 7, wherein the combination calculation means performs processing using an algorithm for solving a restricted combination problem. 上記d+N番目の候補アミノ酸に対する評価値は、d番目までのペプチドを同定するまでに使用した評価値の累積値であることを特徴とする請求項1記載のアミノ酸配列同定装置。   2. The amino acid sequence identification device according to claim 1, wherein the evaluation value for the d + N-th candidate amino acid is a cumulative value of evaluation values used until the peptides up to the d-th are identified. 配列同定対象のペプチドを含む試料から得られる、当該ペプチドの質量値を入力する入力手段と、
アミノ酸の理論質量値をアミノ酸毎に記憶した記憶手段から読み出したアミノ酸の理論質量値を用いて、上記入力手段で入力した配列同定対象のペプチドの質量に基づいて、当該ペプチドに含まれるアミノ酸の種類及び個数で表される組合せを演算する組合せ演算手段と、
上記組合せ演算手段で演算された組合せの中から、配列同定対象のペプチドに関するアミノ酸配列を同定するアミノ酸配列同定手段とを備える、アミノ酸配列同定装置。
An input means for inputting a mass value of the peptide obtained from a sample containing the peptide to be sequenced;
The type of amino acid contained in the peptide based on the mass of the peptide to be sequence-identified input by the input means, using the theoretical mass value of the amino acid read from the storage means storing the theoretical mass value of the amino acid for each amino acid. And a combination calculation means for calculating a combination represented by the number,
An amino acid sequence identification device comprising: an amino acid sequence identification unit that identifies an amino acid sequence related to a peptide whose sequence is to be identified from the combinations calculated by the combination calculation unit.
上記アミノ酸配列同定手段は、既知ペプチドに関するアミノ酸配列配列を格納したデータベースを用いて配列同定対象のペプチドに関するアミノ酸配列を同定することを特徴とする請求項10記載のアミノ酸配列同定装置。   11. The amino acid sequence identification apparatus according to claim 10, wherein the amino acid sequence identification means identifies an amino acid sequence related to a sequence identification target peptide using a database storing amino acid sequence sequences related to known peptides. 上記組合せ演算手段は、制限付き組合せ問題を解くアルゴリズムを適用した処理を行うことを特徴とする請求項10記載のアミノ酸配列同定装置。   11. The amino acid sequence identification apparatus according to claim 10, wherein the combination calculation means performs processing to which an algorithm for solving a restricted combination problem is applied.
JP2004358487A 2004-12-10 2004-12-10 Amino acid sequence identification method using mass spectrometry Expired - Fee Related JP4541122B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004358487A JP4541122B2 (en) 2004-12-10 2004-12-10 Amino acid sequence identification method using mass spectrometry

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004358487A JP4541122B2 (en) 2004-12-10 2004-12-10 Amino acid sequence identification method using mass spectrometry

Publications (2)

Publication Number Publication Date
JP2006162556A true JP2006162556A (en) 2006-06-22
JP4541122B2 JP4541122B2 (en) 2010-09-08

Family

ID=36664731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004358487A Expired - Fee Related JP4541122B2 (en) 2004-12-10 2004-12-10 Amino acid sequence identification method using mass spectrometry

Country Status (1)

Country Link
JP (1) JP4541122B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145221A (en) * 2006-12-08 2008-06-26 Shimadzu Corp Method, apparatus, and program for analyzing amino acid sequence using mass spectrometry and recording medium recording this program
JP2013160595A (en) * 2012-02-03 2013-08-19 Shimadzu Corp Amino acid sequence analysis method and device
JP2013257311A (en) * 2012-06-13 2013-12-26 Agilent Technologies Inc Method for mapping peptide onto protein by using array data
JP2014112068A (en) * 2012-04-27 2014-06-19 Shimadzu Corp Peak detection method for mass spectrometry and system therefor
JP2015031618A (en) * 2013-08-05 2015-02-16 株式会社島津製作所 Protein identifying method and identifying device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09510780A (en) * 1994-03-14 1997-10-28 ユニバーシティ オブ ワシントン Identification of nucleotides, amino acids or carbohydrates by mass spectrometry
JP2002505740A (en) * 1997-05-22 2002-02-19 オックスフォード・グリコサイエンシーズ・(ユーケイ)・リミテッド New peptide sequencing method
JP2004012355A (en) * 2002-06-07 2004-01-15 Nec Corp Method and system for analyzing proteome

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09510780A (en) * 1994-03-14 1997-10-28 ユニバーシティ オブ ワシントン Identification of nucleotides, amino acids or carbohydrates by mass spectrometry
JP2002505740A (en) * 1997-05-22 2002-02-19 オックスフォード・グリコサイエンシーズ・(ユーケイ)・リミテッド New peptide sequencing method
JP2004012355A (en) * 2002-06-07 2004-01-15 Nec Corp Method and system for analyzing proteome

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EUGENE A. KAPP ET AL.: "Mining a Tandem Mass Spectrometry Database To Determine the Trends and Global Factors Influencing Pe", ANAL. CHEM., vol. 75, JPN6009057306, 2003, pages 6251 - 6264, XP009058388, ISSN: 0001637210, DOI: 10.1021/ac034616t *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145221A (en) * 2006-12-08 2008-06-26 Shimadzu Corp Method, apparatus, and program for analyzing amino acid sequence using mass spectrometry and recording medium recording this program
JP2013160595A (en) * 2012-02-03 2013-08-19 Shimadzu Corp Amino acid sequence analysis method and device
JP2014112068A (en) * 2012-04-27 2014-06-19 Shimadzu Corp Peak detection method for mass spectrometry and system therefor
JP2013257311A (en) * 2012-06-13 2013-12-26 Agilent Technologies Inc Method for mapping peptide onto protein by using array data
JP2015031618A (en) * 2013-08-05 2015-02-16 株式会社島津製作所 Protein identifying method and identifying device

Also Published As

Publication number Publication date
JP4541122B2 (en) 2010-09-08

Similar Documents

Publication Publication Date Title
Savitski et al. New data base-independent, sequence tag-based scoring of peptide MS/MS data validates Mowse scores, recovers below threshold data, singles out modified peptides, and assesses the quality of MS/MS techniques
JP4988884B2 (en) Mass spectrometry system
US11456164B2 (en) Systems and methods for identifying compounds from MS/MS data without precursor ion information
JP4515819B2 (en) Mass spectrometry system
JP5008564B2 (en) Method and apparatus for identifying proteins in a mixture
US8278115B2 (en) Methods for processing tandem mass spectral data for protein sequence analysis
US20100288918A1 (en) System and method for performing tandem mass spectrometry analysis
JP5024390B2 (en) Mass spectrometry system
JP2004191077A (en) Compound structure analysis system, mass spectrometric data analysis method, mass spectrometric data analysis device and mass spectrometric data analysis program
JP4922819B2 (en) Protein database search method and recording medium
US7979214B2 (en) Peptide identification
JP6136770B2 (en) Mass spectrometry data analysis apparatus and analysis method
Good et al. Advancing Proteomics with ion/ion Chemistry: Mass Spectrometry For Proteomics Analysis
Yan et al. A graph-theoretic approach for the separation of b and y ions in tandem mass spectra
JP4821400B2 (en) Structural analysis system
JP4541122B2 (en) Amino acid sequence identification method using mass spectrometry
JP5751126B2 (en) Mass spectrometry data analysis method and analysis apparatus
JP2007121134A (en) Tandem mass analyzing system
US10141169B2 (en) Systems and methods for identifying compounds from MS/MS data without precursor ion information
CN112014515A (en) Operating a mass spectrometer with a mass spectral database search
JP5696592B2 (en) Mass spectrometry data analysis method and analysis apparatus
JP6107594B2 (en) Mass spectrometry method and mass spectrometer
JP5983371B2 (en) Peptide structure analysis method and apparatus
US11600359B2 (en) Methods and systems for analysis of mass spectrometry data
JP2006284509A (en) Mass spectrometric system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100623

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees