JP2015152556A - Sequencing method and apparatus of amino acid of protein - Google Patents

Sequencing method and apparatus of amino acid of protein Download PDF

Info

Publication number
JP2015152556A
JP2015152556A JP2014029414A JP2014029414A JP2015152556A JP 2015152556 A JP2015152556 A JP 2015152556A JP 2014029414 A JP2014029414 A JP 2014029414A JP 2014029414 A JP2014029414 A JP 2014029414A JP 2015152556 A JP2015152556 A JP 2015152556A
Authority
JP
Japan
Prior art keywords
amino acid
protein
acid sequence
terminal
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014029414A
Other languages
Japanese (ja)
Inventor
謙一 谷口
Kenichi Taniguchi
謙一 谷口
明康 吉沢
Akiyasu Yoshizawa
明康 吉沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Priority to JP2014029414A priority Critical patent/JP2015152556A/en
Publication of JP2015152556A publication Critical patent/JP2015152556A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Peptides Or Proteins (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

PROBLEM TO BE SOLVED: To accurately estimate the sequence of the terminal portion of a protein and also improve the reliability of the sequence estimation of other parts than the terminal parts even in the case of using protein DB based on the cDNA.SOLUTION: Based on the amino acid sequence on the protein DB based on the cDNA, multiple amino acid sequences from each end of which one amino acid residue is removed is created among the amino acid sequences of a predetermined length from the distal end of the terminal portion for each protein and a terminal sequence DB is created in association with each protein. Based on the result of the MSanalysis of the peptide mixture derived from the target protein, the MS/MS ion search using the terminal sequence DB is performed. Since, on the terminal sequence DB, the sequence which matches the amino acid sequence of the terminal portion of the measured protein from which a signal peptide is left out is recorded, the terminal peptide can be also identified and it is possible to identify the whole protein by matching the search results using the Swiss-Prot.

Description

本発明は、解析対象であるタンパク質由来のペプチド混合物を含む被検試料を質量分析することで得られた質量分析データを用いて、該タンパク質のアミノ酸配列を決定する方法及びそのための装置に関し、さらに詳しくは、タンパク質のN末端やC末端などの末端部分のアミノ酸配列を決定する方法及び装置に関する。   The present invention relates to a method for determining an amino acid sequence of a protein using mass spectrometry data obtained by mass spectrometry of a test sample containing a peptide mixture derived from a protein to be analyzed, and an apparatus therefor, Specifically, the present invention relates to a method and apparatus for determining the amino acid sequence of the terminal portion such as the N-terminus or C-terminus of a protein.

近年、タンパク質を網羅的に解析するプロテオーム解析の手法は広く用いられており、その技術的な進歩には著しいものがある。プロテオーム解析分野において、MALDI−TOFMS(マトリクス支援レーザ脱離イオン化飛行時間型質量分析装置)を始めとする質量分析装置を用いたタンパク質の同定手法として、データベース検索法がよく知られている。一般に、データベース検索法では、解析対象であるタンパク質由来のペプチド混合物を含む試料に対しMSn分析(nは2以上の整数)を行うことで得られたMSnスペクトルに現れるピークの質量電荷比(m/z)情報(場合によっては強度情報も)を集めたピークリストと、タンパク質データベースに登録されているタンパク質の情報から理論的に算出される質量電荷比のリストなどとを照合し、その一致度を手がかりとしてペプチドのアミノ酸配列を決定し、その結果に基づき元のタンパク質を同定(つまりタンパク質全体のアミノ酸配列を決定)する。 In recent years, proteome analysis methods for comprehensive analysis of proteins have been widely used, and there are significant technological advances. In the field of proteome analysis, a database search method is well known as a protein identification technique using a mass spectrometer such as MALDI-TOFMS (matrix-assisted laser desorption / ionization time-of-flight mass spectrometer). In general, in the database search method, the mass-to-charge ratio of peaks appearing in the MS n spectrum obtained by performing MS n analysis (n is an integer of 2 or more) on a sample containing a peptide mixture derived from a protein to be analyzed ( m / z) Check the peak list that collects information (and possibly intensity information) against the list of mass-to-charge ratios that are theoretically calculated from the protein information registered in the protein database. The amino acid sequence of the peptide is determined based on the degree, and the original protein is identified based on the result (that is, the amino acid sequence of the entire protein is determined).

上記のようなデータベース検索のために利用される検索エンジンとしては、英国マトリクス・サイエンス(Matrix Science)社が提供しているマスコット(Mascot)に含まれるMS/MSイオンサーチ(MS/MS Ion Search)がよく知られている(非特許文献1参照)。   MS / MS Ion Search included in Mascot provided by Matrix Science, UK, as a search engine used for database search as described above. Is well known (see Non-Patent Document 1).

一方、こうしたタンパク質のアミノ酸配列の決定等に利用されるデータベースは、様々な研究機関や大学などから提供され、実際に使用されている。そうしたデータベースの一つとして、相補的DNA(以下、慣用に従って「cDNA」と記す)に基づいて作成されたデータベースがある。このデータベースは、一般にmRNAと称されるメッセンジャリボ核酸を逆転写して得られるデータに基づいて決定された各タンパク質のアミノ酸配列情報を収録したものである。近年、ゲノム解析の進展は著しく、その結果が反映されたcDNAに基づくタンパク質同定用データベースは、例えば実測等により解明された既知のタンパク質のアミノ酸配列情報を収録したデータベースなどと比較してもかなり充実したものとなっている。   On the other hand, databases used for determining the amino acid sequence of such proteins are provided by various research institutions and universities and are actually used. One such database is a database created on the basis of complementary DNA (hereinafter referred to as “cDNA” in accordance with common practice). This database contains amino acid sequence information of each protein determined based on data obtained by reverse transcription of messenger ribonucleic acid generally called mRNA. In recent years, the progress of genome analysis has been remarkable, and the database for protein identification based on cDNA that reflects the results is quite substantial compared to the database containing amino acid sequence information of known proteins elucidated by actual measurement etc. It has become.

しかしながら、上記MS/MSイオンサーチによりタンパク質のN末端やC末端などの末端部分のアミノ酸配列を同定する際に、cDNAから作成されたデータベースを用いると、多くの場合、通常の検索条件ではアミノ酸配列を決定することができない。この理由を図11、図12を参照して簡単に説明する。図11及び図12はいずれもタンパク質のアミノ酸配列を決定する際の処理手順を説明するための図である。   However, when the amino acid sequence of the terminal portion such as the N-terminal or C-terminal of the protein is identified by the above MS / MS ion search, a database created from cDNA is often used under normal search conditions. Can not be determined. The reason for this will be briefly described with reference to FIGS. 11 and 12 are diagrams for explaining a processing procedure when determining the amino acid sequence of a protein.

即ち、上述したようにcDNAに基づくデータベースには、mRNAの逆転写のデータに基づいて決定されたアミノ酸配列情報が収録されており、この情報では元の成熟mRNAのコーディング領域(5’非翻訳領域と3’非翻訳領域との間にある開始コドンと終止コドンに挟まれたタンパク質に翻訳される領域)の末端まで、N末端及びC末端共にアミノ酸残基が配列されている。これに対し、実際に生体中に存在するタンパク質では、多くの場合、mRNAからタンパク質への翻訳後に、N末端側においてシグナルペプチドが除去されるなどの翻訳後修飾が生じたり、C末端側でも数個のアミノ酸残基の切断が生じたりする。このため、図11(a)に示すように、生体中に存在するタンパク質はcDNAに基づくデータベース中のアミノ酸配列よりも短い状態で存在している。   That is, as described above, the cDNA-based database contains amino acid sequence information determined based on the reverse transcription data of mRNA, and this information contains the coding region (5 ′ untranslated region) of the original mature mRNA. Amino acid residues are arranged at both the N-terminal and C-terminal to the end of the protein (translated into a protein sandwiched between a start codon and a stop codon between the 3 ′ untranslated region and the 3 ′ untranslated region). On the other hand, in proteins that are actually present in the living body, in many cases, after translation from mRNA to protein, post-translational modifications such as removal of the signal peptide on the N-terminal side occur, or even on the C-terminal side. Or a single amino acid residue may be cleaved. For this reason, as shown in FIG. 11A, proteins existing in the living body exist in a shorter state than the amino acid sequences in the database based on cDNA.

図11(a)上側の図中の「1−」及び「−A」(ここではAはX)は、この「データベースに登録されているアミノ酸配列」が、N末端を1として、A個のアミノ酸残基からなることを示す。また同図中の「M」はメチオニン残基であり、mRNAの開始コドンがコードするアミノ酸残基である。なお、バリンをコードする塩基配列が開始コドンとして働く生物もきわめて希に存在するものの、多くの生物の場合、開始コドンはメチオニン残基をコードするため、以下、開始コドンがコードするアミノ酸はメチオニンであるとして説明を行う。図11(a)下側の図中の「p−」及び「−B」(ここではBはY)は、「データベースに登録されているアミノ酸配列」のN末端を1としたときに、「タンパク質の実際のアミノ酸配列」のN末端がp番目のアミノ酸残基から始まり、同じくB(<A)番目のアミノ酸残基で終了していることを示す。図11のほか、図2、図3、図7、図8、図12も同様である。   In FIG. 11 (a), “1-” and “-A” (here, A is X) indicate that the “amino acid sequence registered in the database” is A It shows that it consists of amino acid residues. In the figure, “M” is a methionine residue, which is an amino acid residue encoded by the start codon of mRNA. Although there are very rare organisms in which the base sequence encoding valine serves as the start codon, in many organisms the start codon encodes a methionine residue, so the amino acid encoded by the start codon is methionine hereinafter. The explanation will be given assuming that there is. “P-” and “-B” (here, B is Y) in the lower diagram of FIG. 11 (a) are “when the N-terminal of the“ amino acid sequence registered in the database ”is 1,” It shows that the N-terminus of the “actual amino acid sequence of the protein” starts with the p-th amino acid residue and ends with the B (<A) -th amino acid residue. The same applies to FIG. 2, FIG. 3, FIG. 7, FIG. 8, and FIG.

図11(a)に示したようなタンパク質を酵素消化すると、その酵素に特有の位置で結合が切断されて複数のペプチドの混合物が生成される。このペプチド混合物に対し質量分析(例えばMS2分析)が行われ、その結果がMS/MSイオンサーチを用いたデータベース検索に供される。このとき、酵素消化に用いられた酵素の種類が検索条件の一つとして設定される。 When a protein as shown in FIG. 11 (a) is enzymatically digested, the bond is cleaved at a position peculiar to the enzyme to generate a mixture of a plurality of peptides. The peptide mixture is subjected to mass spectrometry (for example, MS 2 analysis), and the result is subjected to database search using MS / MS ion search. At this time, the type of enzyme used for enzyme digestion is set as one of the search conditions.

MS/MSイオンサーチの実行過程では、データベース中のタンパク質のアミノ酸配列を、酵素の種類に対応した既知の切断位置で切断することで生成された各種ペプチド断片のアミノ酸配列が計算される。そして、そのアミノ酸配列が、質量分析結果(例えばMS2スペクトル結果)から推定されるアミノ酸配列と照合される(図11(b)参照)。このとき、元のタンパク質のアミノ酸配列の末端部分以外については、実測結果によるアミノ酸配列に対応した計算上のアミノ酸配列が存在し、それらペプチドはそれぞれ同定される。ところが、上述の通り、実際のタンパク質ではN末端におけるシグナルペプチドの脱落やC末端における数個程度のアミノ酸残基の脱落が生じているため、末端部分のペプチド断片のアミノ酸配列はcDNAに基づくデータベース由来の計算上のアミノ酸配列とは通常一致しない。その結果、図11(c)に示すように、MS/MSイオンサーチではタンパク質の末端部分のアミノ酸配列を決定することができない。 In the execution process of MS / MS ion search, amino acid sequences of various peptide fragments generated by cleaving the amino acid sequences of proteins in the database at known cleavage positions corresponding to the types of enzymes are calculated. And the amino acid sequence is collated with the amino acid sequence estimated from the mass spectrometry result (for example, MS 2 spectrum result) (refer FIG.11 (b)). At this time, except for the terminal portion of the amino acid sequence of the original protein, there are calculated amino acid sequences corresponding to the amino acid sequences based on the actual measurement results, and these peptides are identified. However, as described above, in the actual protein, the signal peptide at the N-terminal is dropped or several amino acid residues are dropped at the C-terminal, so the amino acid sequence of the peptide fragment at the terminal is derived from a database based on cDNA. The calculated amino acid sequence generally does not match. As a result, as shown in FIG. 11C, the amino acid sequence of the terminal portion of the protein cannot be determined by the MS / MS ion search.

こうしたことから、従来一般的に、cDNAに基づくデータベースを使用する場合には、検索条件の中の一つの酵素選択条件において「None」が指定される。上述したように、或る酵素が酵素選択条件として指定されると、該酵素により特異的に切断された結果得られるアミノ酸配列についてデータベースとの照合が実施される。   Therefore, conventionally, when a database based on cDNA is generally used, “None” is designated in one enzyme selection condition in the search conditions. As described above, when an enzyme is designated as an enzyme selection condition, the amino acid sequence obtained as a result of specific cleavage by the enzyme is collated with a database.

これに対し、酵素選択条件として「None」が指定されると、図12(b)に示すように、データベース中のそれぞれのタンパク質のアミノ酸配列について、任意の2箇所で切断されたアミノ酸配列全てに対してデータベース照合が実施される。実際のタンパク質の末端アミノ酸配列がcDNAに基づくデータベース中の或るタンパク質の末端部分のアミノ酸配列と一致することは殆どないが、該cDNAに基づくデータベース中の或るタンパク質のアミノ酸配列の一部分とは多くの場合、一致する。そのため、図12(c)に示すように、酵素選択条件として「None」を指定することで、タンパク質の末端部分のアミノ酸配列も決定することが可能となり、それによって該タンパク質を同定することができる。   On the other hand, when “None” is designated as the enzyme selection condition, as shown in FIG. 12B, the amino acid sequences of the respective proteins in the database are all included in the amino acid sequences cleaved at two arbitrary positions. Database matching is performed on the database. The actual terminal amino acid sequence of a protein rarely matches the amino acid sequence of a terminal portion of a protein in a cDNA-based database, but it is often a part of the amino acid sequence of a protein in the cDNA-based database. If it matches. Therefore, as shown in FIG. 12C, by specifying “None” as the enzyme selection condition, it is possible to determine the amino acid sequence of the terminal portion of the protein, thereby identifying the protein. .

しかしながら、こうしたタンパク質の同定手法には次のような問題がある。
即ち、cDNAに基づくデータベースには膨大な数のタンパク質が収録されているうえ、タンパク質の長いアミノ酸配列の中の任意の2箇所で切断することで生成されるアミノ酸配列の数は非常に多い。そのため、この場合、データベース照合の対象となるアミノ酸配列の数はかなり膨大なものとなる。MS/MSイオンサーチでは、同定結果の信頼性を示す指標値として、誤同定が生じる度合いを表す「Expectation Value」(以下、本明細書中ではこのExpectation Valueを誤同定予測値という)が出力されるが、その値は照合を必要とするデータベースのサイズに依存し、データベースのサイズが大きいほど誤同定予測値は悪化する。そのため、上述したように酵素選択条件として「None」を指定した結果、照合すべきアミノ酸配列の数が膨大になると、それによって誤同定予測値が悪化してしまい、信頼性の高い同定が行えないという問題がある。
However, these protein identification methods have the following problems.
That is, a huge number of proteins are recorded in a database based on cDNA, and the number of amino acid sequences generated by cleaving at any two positions in the long amino acid sequence of the protein is very large. Therefore, in this case, the number of amino acid sequences to be subjected to database collation is quite enormous. In MS / MS ion search, “Expectation Value” (hereinafter referred to as “Expected Value” in this specification) indicating the degree of erroneous identification is output as an index value indicating the reliability of the identification result. However, the value depends on the size of the database that needs to be collated. The larger the database size, the worse the misidentification prediction value. Therefore, as described above, when "None" is specified as the enzyme selection condition, if the number of amino acid sequences to be collated becomes enormous, the erroneous identification prediction value deteriorates, and reliable identification cannot be performed. There is a problem.

図13は、酵素選択条件として「None」を指定してMS/MSイオンサーチを実行した場合と酵素選択条件として「Trypsin」を指定してMS/MSイオンサーチを実行した場合とにおける、同定結果である誤同定予測値を比較した図である。図13で「Trypsin」に対応する横バーが描かれていないのは、同定ができなかったことを意味している。この図を見ると、酵素選択条件として「None」を指定するとN末端ペプチドのアミノ酸配列の同定は可能となるものの、N末端以外での誤同定予測値は、酵素選択条件として「Trypsin」を指定した場合に比べて確実に悪化している(大きくなっている)ことが分かる。   FIG. 13 shows identification results when MS / MS ion search is executed with “None” specified as the enzyme selection condition and when MS / MS ion search is executed with “Trypsin” specified as the enzyme selection condition. It is the figure which compared the misidentification prediction value which is. The fact that the horizontal bar corresponding to “Trypsin” is not drawn in FIG. 13 means that identification could not be performed. This figure shows that if "None" is specified as the enzyme selection condition, the amino acid sequence of the N-terminal peptide can be identified, but the misidentification prediction value other than at the N-terminal specifies "Trypsin" as the enzyme selection condition. It turns out that it is definitely worse (larger) than the case.

「サーチング・アンインタープリテッド・MS/MS・データ(Searching uninterpreted MS/MS data)」、[online]、英国マトリクス・サイエンス社(Matrix Science Ltd.)、[平成26年2月4日検索]、インターネット<URL: http://www.matrixscience.com/help/mis_help.html>"Searching uninterpreted MS / MS data", [online], UK Matrix Science Ltd., [February 4, 2014 search] , Internet <URL: http://www.matrixscience.com/help/mis_help.html>

本発明は上記課題を解決するためになされたものであり、その目的とするところは、cDNAに基づくデータベースを利用したMS/MSイオンサーチなどのデータベース検索により目的のタンパク質のアミノ酸配列を推定する場合に、実際のタンパク質では一部が除去されてしまっていることが多い末端部分のアミノ酸配列をも的確に決定することができるとともに、末端部分以外のアミノ酸配列も高い確度で以て推定することができるタンパク質のアミノ酸配列決定方法及び装置を提供することにある。   The present invention has been made to solve the above-mentioned problems, and its object is to estimate the amino acid sequence of a target protein by database search such as MS / MS ion search using a database based on cDNA. In addition, it is possible to accurately determine the amino acid sequence of the terminal portion, which is often partially removed in the actual protein, and to estimate the amino acid sequence other than the terminal portion with high accuracy. An object is to provide a method and apparatus for determining the amino acid sequence of a protein.

上記課題を解決するために成された本発明に係るタンパク質のアミノ酸配列決定方法の第1の態様は、目的タンパク質由来のペプチド混合物を質量分析することで得られたマススペクトル情報に基づくデータベース検索を行うことにより、前記目的タンパク質のアミノ酸配列を決定する又は該アミノ酸配列を決定するための情報を提供するタンパク質のアミノ酸配列決定方法において、
a)既知のタンパク質のアミノ酸配列が収録されるデータベースであって、各既知タンパク質のアミノ酸配列のN末端アミノ酸残基の位置Sが、1≦S≦p(但し、当該既知タンパク質をコードするmRNA上のコーディング領域の開始コドンに対応するアミノ酸残基を1番目、当該既知タンパク質をコードするmRNA上のコーディング領域の塩基配列情報に基づき生体内に存在する状態のタンパク質のN末端アミノ酸残基をp番目とする)であるアミノ酸配列からなる、既知のタンパク質のデータベースから得られるアミノ酸配列情報に基づいて、各既知タンパク質についてN末端から所定長さのアミノ酸残基からなるアミノ酸配列を抽出し、その所定長さのアミノ酸配列中のアミノ酸残基をN末端側の最末端から順に除去した前記所定長さ以下の長さの末端近傍アミノ酸配列を求め、該アミノ酸配列によりN末端配列データベースを作成するN末端配列データベース作成ステップと、
b)目的タンパク質由来の前記マススペクトル情報を、前記N末端配列データベースに収録されているアミノ酸配列又は該配列から求まる情報と照合することにより、前記目的タンパク質の末端部分のアミノ酸配列を推定するデータベース検索ステップと、
を有することを特徴としている。
The first aspect of the method for determining the amino acid sequence of a protein according to the present invention, which has been made to solve the above problems, is to perform a database search based on mass spectral information obtained by mass spectrometry of a peptide mixture derived from a target protein. In the method for determining the amino acid sequence of a protein that determines the amino acid sequence of the target protein by performing or provides information for determining the amino acid sequence,
a) A database in which amino acid sequences of known proteins are recorded, and the position S of the N-terminal amino acid residue of the amino acid sequence of each known protein is 1 ≦ S ≦ p (provided that on the mRNA encoding the known protein) The first amino acid residue corresponding to the start codon of the coding region of p, and the p-th amino acid residue of the N-terminal protein present in the living body based on the base sequence information of the coding region on the mRNA encoding the known protein On the basis of amino acid sequence information obtained from a database of known proteins, and an amino acid sequence consisting of amino acid residues of a predetermined length from the N-terminal for each known protein, and the predetermined length The predetermined length obtained by sequentially removing amino acid residues in the amino acid sequence from the N-terminal end in order. Seek terminal near the following amino acid sequences in length, and N-terminal sequence database creation step of creating an N-terminal sequence database by the amino acid sequence,
b) Database search for estimating the amino acid sequence of the terminal portion of the target protein by collating the mass spectrum information derived from the target protein with the amino acid sequence recorded in the N-terminal sequence database or information obtained from the sequence. Steps,
It is characterized by having.

上記課題を解決するために成された本発明に係るタンパク質のアミノ酸配列決定方法の第2の態様は、目的タンパク質由来のペプチド混合物を質量分析することで得られたマススペクトル情報に基づくデータベース検索を行うことにより、前記目的タンパク質のアミノ酸配列を決定する又は該アミノ酸配列を決定するための情報を提供するタンパク質のアミノ酸配列決定方法において、
a)既知のタンパク質のアミノ酸配列が収録されるデータベースであって、各既知タンパク質のアミノ酸配列のC末端アミノ酸残基の位置Yが、q≦Y≦L(但し、当該既知タンパク質をコードするmRNA上のコーディング領域の開始コドンに対応するアミノ酸残基を1番目、当該既知タンパク質をコードするmRNA上のコーディング領域の塩基配列情報に基づき生体内に存在する状態のタンパク質のC末端アミノ酸残基をq番目、当該既知タンパク質をコードするmRNA上のコーディング領域の終止コドンの5’上流側に隣接するコドンに対応するアミノ酸残基をL番目とする)であるアミノ酸配列からなる、既知のタンパク質のデータベースから得られるアミノ酸配列情報に基づいて、各既知タンパク質についてC末端から所定長さのアミノ酸残基からなるアミノ酸配列を抽出し、その所定長さのアミノ酸配列中のアミノ酸残基をC末端側の最末端から順に除去した前記所定長さ以下の長さの末端近傍アミノ酸配列を求め、該アミノ酸配列によりC末端配列データベースを作成するC末端配列データベース作成ステップと、
b)目的タンパク質由来の前記マススペクトル情報を、前記C末端配列データベースに収録されているアミノ酸配列又は該配列から求まる情報と照合することにより、前記目的タンパク質の末端部分のアミノ酸配列を推定するデータベース検索ステップと、
を有することを特徴としている。
The second aspect of the protein amino acid sequence determination method according to the present invention, which has been made to solve the above problems, is to perform a database search based on mass spectral information obtained by mass spectrometry of a peptide mixture derived from a target protein. In the method for determining the amino acid sequence of a protein that determines the amino acid sequence of the target protein by performing or provides information for determining the amino acid sequence,
a) A database in which amino acid sequences of known proteins are recorded, and the position Y of the C-terminal amino acid residue of each amino acid sequence of each known protein is q ≦ Y ≦ L (provided that on the mRNA encoding the known protein) 1st amino acid residue corresponding to the start codon of the coding region, and q-th amino acid residue C-terminal amino acid residue of the protein in the living body based on the base sequence information of the coding region on the mRNA encoding the known protein Obtained from a database of known proteins consisting of an amino acid sequence that is the Lth amino acid residue corresponding to the codon adjacent to the 5 'upstream of the stop codon of the coding region on the mRNA encoding the known protein) Based on the amino acid sequence information obtained, each known protein has a predetermined length from the C-terminus. An amino acid sequence consisting of amino acid residues is extracted, and amino acid residues in the amino acid sequence of a predetermined length are sequentially removed from the most terminal on the C-terminal side to obtain a near-terminal amino acid sequence having a length shorter than the predetermined length. C-terminal sequence database creation step of creating a C-terminal sequence database from the amino acid sequence;
b) Database search for estimating the amino acid sequence of the terminal portion of the target protein by collating the mass spectrum information derived from the target protein with the amino acid sequence recorded in the C-terminal sequence database or information obtained from the sequence Steps,
It is characterized by having.

また上記課題を解決するために成された本発明に係るタンパク質のアミノ酸配列決定装置の第1の態様は、上記本発明に係るタンパク質のアミノ酸配列決定方法の第1の態様を具現化するための装置であり、目的タンパク質由来のペプチド混合物を質量分析することで得られたマススペクトル情報に基づくデータベース検索を行うことにより、前記目的タンパク質のアミノ酸配列を決定する又は該アミノ酸配列を決定するための情報を提供するタンパク質のアミノ酸配列決定装置において、
a)既知のタンパク質のアミノ酸配列が収録されるデータベースであって、各既知タンパク質のアミノ酸配列のN末端アミノ酸残基の位置Sが、1≦S≦p(但し、当該既知タンパク質をコードするmRNA上のコーディング領域の開始コドンに対応するアミノ酸残基を1番目、当該既知タンパク質をコードするmRNA上のコーディング領域の塩基配列情報に基づき生体内に存在する状態のタンパク質のN末端アミノ酸残基をp番目とする)であるアミノ酸配列からなる既知のタンパク質のデータベースから得られるアミノ酸配列情報に基づいて作成された、各既知タンパク質についてN末端から所定長さのアミノ酸残基からなるアミノ酸配列中の、アミノ酸残基をN末端側の最末端から順に除去した前記所定長さ以下の長さの末端近傍アミノ酸配列が収録されているN末端配列データベースと、
b)目的タンパク質由来の前記マススペクトル情報を、前記N末端配列データベースに収録されているアミノ酸配列又は該配列から求まる情報と照合することにより、前記目的タンパク質の末端部分のアミノ酸配列を推定するデータベース検索部と、
を備えることを特徴としている。
Moreover, the 1st aspect of the amino acid sequence determination apparatus of the protein based on this invention made | formed in order to solve the said subject is for embodying the 1st aspect of the amino acid sequence determination method of the protein based on the said invention. Information for determining an amino acid sequence of the target protein or determining the amino acid sequence by performing a database search based on mass spectral information obtained by mass spectrometry of a peptide mixture derived from the target protein. In a protein amino acid sequencing apparatus that provides
a) A database in which amino acid sequences of known proteins are recorded, and the position S of the N-terminal amino acid residue of the amino acid sequence of each known protein is 1 ≦ S ≦ p (provided that on the mRNA encoding the known protein) The first amino acid residue corresponding to the start codon of the coding region of p, and the p-th amino acid residue of the N-terminal protein present in the living body based on the base sequence information of the coding region on the mRNA encoding the known protein The amino acid residue in the amino acid sequence consisting of amino acid residues of a predetermined length from the N-terminus for each known protein, created based on the amino acid sequence information obtained from the database of known proteins consisting of amino acid sequences The amino acids in the vicinity of the end having a length equal to or shorter than the predetermined length in which the groups are sequentially removed from the N-terminal side from the most end. And N-terminal sequence database acid sequence has been recorded,
b) Database search for estimating the amino acid sequence of the terminal portion of the target protein by collating the mass spectrum information derived from the target protein with the amino acid sequence recorded in the N-terminal sequence database or information obtained from the sequence. And
It is characterized by having.

また上記課題を解決するために成された本発明に係るタンパク質のアミノ酸配列決定装置の第2の態様は、上記本発明に係るタンパク質のアミノ酸配列決定方法の第2の態様を具現化するための装置であり、目的タンパク質由来のペプチド混合物を質量分析することで得られたマススペクトル情報に基づくデータベース検索を行うことにより、前記目的タンパク質のアミノ酸配列を決定する又は該アミノ酸配列を決定するための情報を提供するタンパク質のアミノ酸配列決定装置において、
a)既知のタンパク質のアミノ酸配列が収録されるデータベースであって、各既知タンパク質のアミノ酸配列のC末端アミノ酸残基の位置Yが、q≦Y≦L(但し、当該既知タンパク質をコードするmRNA上のコーディング領域の開始コドンに対応するアミノ酸残基を1番目、当該既知タンパク質をコードするmRNA上のコーディング領域の塩基配列情報に基づき生体内に存在する状態のタンパク質のC末端アミノ酸残基をq番目、当該既知タンパク質をコードするmRNA上のコーディング領域の終止コドンの5’上流側に隣接するコドンに対応するアミノ酸残基をL番目とする)であるアミノ酸配列からなる、既知のタンパク質のデータベースから得られるアミノ酸配列情報に基づいて作成された、各既知タンパク質についてC末端から所定長さのアミノ酸残基からなるアミノ酸配列中の、アミノ酸残基をC末端側の最末端から順に除去した前記所定長さ以下の長さの末端近傍アミノ酸配列が収録されているC末端配列データベースと、
b)目的タンパク質由来の前記マススペクトル情報を、前記C末端配列データベースに収録されているアミノ酸配列又は該配列から求まる情報と照合することにより、前記目的タンパク質の末端部分のアミノ酸配列を推定するデータベース検索部と、
を備えることを特徴としている。
The second aspect of the protein amino acid sequence determination apparatus according to the present invention, which has been made to solve the above-mentioned problems, is to realize the second aspect of the protein amino acid sequence determination method according to the present invention. Information for determining an amino acid sequence of the target protein or determining the amino acid sequence by performing a database search based on mass spectral information obtained by mass spectrometry of a peptide mixture derived from the target protein. In a protein amino acid sequencing apparatus that provides
a) A database in which amino acid sequences of known proteins are recorded, and the position Y of the C-terminal amino acid residue of each amino acid sequence of each known protein is q ≦ Y ≦ L (provided that on the mRNA encoding the known protein) 1st amino acid residue corresponding to the start codon of the coding region, and q-th amino acid residue C-terminal amino acid residue of the protein in the living body based on the base sequence information of the coding region on the mRNA encoding the known protein Obtained from a database of known proteins consisting of an amino acid sequence that is the Lth amino acid residue corresponding to the codon adjacent to the 5 'upstream of the stop codon of the coding region on the mRNA encoding the known protein) For each known protein created based on the amino acid sequence information obtained from the C-terminus A C-terminal sequence database in which amino acid residues in the amino acid sequence consisting of amino acid residues of a fixed length are removed in order from the most terminal end on the C-terminal side, and the amino acid sequences near the terminal of the predetermined length or less are recorded. When,
b) Database search for estimating the amino acid sequence of the terminal portion of the target protein by collating the mass spectrum information derived from the target protein with the amino acid sequence recorded in the C-terminal sequence database or information obtained from the sequence And
It is characterized by having.

本発明に係るタンパク質のアミノ酸配列決定方法の第1の態様及び本発明に係るタンパク質のアミノ酸配列決定装置の第1の態様はN末端部分のアミノ酸配列を決定するものであり、本発明に係るタンパク質のアミノ酸配列決定方法の第2の態様及び本発明に係るタンパク質のアミノ酸配列決定装置の第2の態様はC末端部分のアミノ酸配列を決定するものである。   1st aspect of the amino acid sequence determination method of the protein which concerns on this invention, and 1st aspect of the amino acid sequence determination apparatus of the protein which concerns on this invention determine the amino acid sequence of N terminal part, The protein which concerns on this invention The second aspect of the amino acid sequence determination method of the present invention and the second aspect of the protein amino acid sequence determination apparatus according to the present invention determine the amino acid sequence of the C-terminal portion.

本発明に係るタンパク質のアミノ酸配列決定方法及び装置において、上記既知のタンパク質データベースは例えばゲノムデータに基づいて作成されたタンパク質データベース、より詳しくは、ゲノムデータの1種である相補的DNAに基づいて作成されたデータベースや核酸情報の網羅的解析に基づいて作成されたデータベースなどとすることができる。こうしたタンパク質データベースには、生体中でしばしば起こるシグナルペプチドの脱落が考慮されない(反映されない)アミノ酸配列、つまり、実質上、理論的であるタンパク質のアミノ酸配列、が収録されている。このため、上記タンパク質データベースでは、タンパク質の末端部分のアミノ酸残基がRNAの塩基配列に基づく最末端まで揃っている。ただし、両末端部分のアミノ酸残基が共にRNAの塩基配列に基づく最末端まで揃っている必要はなく、アミノ酸配列を決定したい側の末端部分のアミノ酸残基がRNAの塩基配列に基づく最末端まで揃っていれば十分である。   In the method and apparatus for determining the amino acid sequence of a protein according to the present invention, the known protein database is created based on, for example, a protein database created based on genomic data, and more specifically, based on complementary DNA that is one type of genomic data. Or a database created based on a comprehensive analysis of nucleic acid information. These protein databases contain amino acid sequences that do not take into account (do not reflect) the loss of signal peptides that often occur in the body, that is, protein amino acid sequences that are theoretical in nature. For this reason, in the protein database, the amino acid residues at the end of the protein are aligned to the end based on the base sequence of RNA. However, it is not necessary that both amino acid residues at both ends are aligned to the end based on the RNA base sequence, and the amino acid residue at the end portion on the side where the amino acid sequence is to be determined extends to the end based on the RNA base sequence. It is enough if they are ready.

また、上記既知のタンパク質データベースとしては、エドマン分解、質量分析などを利用して、タンパク質のアミノ酸配列を直接的に計測することで構築したタンパク質データベースを用いることもできる。特に、大腸菌など原核生物により生合成されたタンパク質に基づいて作成されたデータベースの場合、真核生物により生合成されるタンパク質において起こる翻訳後のN末端のシグナルペプチドの切断等の翻訳後修飾が起きないため、真核生物により生合成されるタンパク質の末端よりも長い場合がある。   As the known protein database, a protein database constructed by directly measuring the amino acid sequence of a protein using Edman degradation, mass spectrometry, or the like can be used. In particular, in the case of databases created based on proteins biosynthesized by prokaryotes such as E. coli, post-translational modifications such as cleavage of the N-terminal signal peptide after translation that occur in proteins biosynthesized by eukaryotes occur. It may be longer than the end of a protein biosynthesized by eukaryotes.

本発明に係るタンパク質のアミノ酸配列決定方法の第1の態様では、N末端配列データベース作成ステップにおいて、また本発明に係るタンパク質のアミノ酸配列決定方法の第2の態様では、C末端配列データベース作成ステップにおいて、上述した既知のタンパク質データベースに収録されているタンパク質のアミノ酸配列情報に基づいて、各タンパク質のN末端又はC末端部分の最末端から所定長さのアミノ酸残基からなるアミノ酸配列が抽出される。このときの「所定長さ」はデータベース検索ステップで用いられる検索手法に依存する。   In the first aspect of the protein amino acid sequence determination method according to the present invention, in the N-terminal sequence database creation step, and in the second aspect of the protein amino acid sequence determination method according to the present invention, in the C-terminal sequence database creation step. Based on the amino acid sequence information of the proteins recorded in the above-mentioned known protein database, an amino acid sequence consisting of amino acid residues having a predetermined length is extracted from the most terminal of the N-terminal or C-terminal part of each protein. The “predetermined length” at this time depends on the search method used in the database search step.

具体的には、MSn分析で得られるプロダクトイオン情報を対象とするMS/MSイオンサーチを用いる場合には、N末端、C末端などの末端部分を含む末端ペプチドのアミノ酸配列が推定できさえすればよい。そのため、上記「所定長さ」は脱落するシグナルペプチドの長さ以上であればよい。実際には、シグナルペプチドの全てが解明されているわけではないので、想定されるシグナルペプチドの長さ(概ね35個以下のアミノ酸残基)に対し所定のマージンを見込んだ長さを予め定めておけばよい。もちろん、35個を超えるアミノ酸残基長のシグナルペプチドの存在も確認されているので、上記「所定長さ」をより長く定めるようにしてもよい。 Specifically, when using MS / MS ion search for product ion information obtained by MS n analysis, the amino acid sequence of the terminal peptide including the terminal portion such as the N-terminal and C-terminal can be estimated. That's fine. Therefore, the “predetermined length” may be longer than the length of the signal peptide to be dropped. Actually, not all of the signal peptides have been elucidated. Therefore, a length that allows for a predetermined margin with respect to the expected length of the signal peptide (approximately 35 amino acid residues or less) is determined in advance. Just keep it. Of course, since the presence of a signal peptide having a length of more than 35 amino acid residues has also been confirmed, the “predetermined length” may be set longer.

これに対し、衝突誘起解離等による開裂を生じていないMS1イオンのみを用いた質量分析で得られるイオン情報を対象とするペプチドマスフィンガープリンティング(PMF)を用いる場合には、N末端、C末端などの末端部分だけでなく末端部分以外のアミノ酸配列も含むようなアミノ酸配列でないと検索が行えない。そのため、上記「所定長さ」を例えばタンパク質の全長、又は全長よりも所定数だけ短い(ただし、PMFのために十分な長さである)アミノ酸配列長とするとよい。 On the other hand, when peptide mass fingerprinting (PMF) targeting ion information obtained by mass spectrometry using only MS 1 ions that have not been cleaved by collision-induced dissociation or the like is used, the N-terminal and C-terminal are used. Search is not possible unless the amino acid sequence includes not only the terminal portion but also the amino acid sequence other than the terminal portion. Therefore, the “predetermined length” may be, for example, the full length of the protein, or an amino acid sequence length shorter than the full length by a predetermined number (however, it is a sufficient length for PMF).

いずれにしても、N末端配列データベース作成ステップ又はC末端配列データベース作成ステップでは、或る1種類のタンパク質に対する最末端のアミノ酸残基を含む所定長さのアミノ酸配列について、該最末端から順に1個ずつアミノ酸残基を除去して得られる複数の末端近傍アミノ酸配列を求め、これを例えばタンパク質に対応付けてデータベース化する。例えば最末端からN番目までのアミノ酸残基を最大限除去するものとすると、1種類のタンパク質あたりN種類の、長さが異なる末端近傍アミノ酸配列が得られることになる。これは、生体中で起こるタンパク質末端部分のシグナルペプチドの脱落を模擬して得られるアミノ酸配列であると捉えることができる。   In any case, in the N-terminal sequence database creation step or the C-terminal sequence database creation step, one amino acid sequence of a predetermined length including the most terminal amino acid residue for one kind of protein is sequentially ordered from the most terminal. A plurality of near-terminal amino acid sequences obtained by removing amino acid residues one by one are obtained, and this is associated with, for example, a protein and made into a database. For example, assuming that the amino acid residues from the most terminal to the Nth are removed to the maximum, N types of amino acid sequences near the terminal having different lengths are obtained for each type of protein. This can be regarded as an amino acid sequence obtained by simulating the loss of the signal peptide at the end of the protein that occurs in the living body.

データベース検索ステップにおいては、目的タンパク質由来のマススペクトル情報を、上記N末端配列データベース又はC末端配列データベースに収録されているアミノ酸配列又は該配列から求まる情報と照合することにより、目的タンパク質におけるN末端側又はC末端側の末端部分のアミノ酸配列を推定する。なお、ここで「アミノ酸配列から求まる情報」とは、例えば末端近傍アミノ酸配列を指定された酵素に特有の位置で切断して得られる断片に対応するイオン情報又はプロダクトイオン情報(典型的には質量電荷比値)である。前述したように、末端近傍アミノ酸配列は最末端からアミノ酸残基を擬似的に除去することで生成されたアミノ酸配列であるから、実測された目的タンパク質において脱落しているシグナルペプチド自体は不明であっても、その目的タンパク質における一方の末端側の末端部分のアミノ酸配列又は末端部分を含むアミノ酸配列に該当するアミノ酸配列はN末端配列データベース又はC末端配列データベース中に収録されている可能性が極めて高い。これにより、データベース検索ステップでは、従来の手法では同定が困難であった目的タンパク質の末端部分のアミノ酸配列を高い確度で推定することができる。   In the database search step, the mass spectrum information derived from the target protein is collated with the amino acid sequence recorded in the N-terminal sequence database or the C-terminal sequence database or information obtained from the sequence, whereby the N-terminal side in the target protein is Alternatively, the amino acid sequence of the terminal portion on the C-terminal side is estimated. Here, “information obtained from amino acid sequence” means, for example, ion information or product ion information (typically mass) corresponding to a fragment obtained by cleaving the amino acid sequence near the terminal at a position specific to the designated enzyme. Charge ratio value). As described above, since the amino acid sequence near the terminal is an amino acid sequence generated by pseudo-removing the amino acid residue from the most terminal, the signal peptide itself dropped in the actually measured target protein is unknown. However, it is highly likely that the amino acid sequence corresponding to the amino acid sequence of the terminal portion on one terminal side or the amino acid sequence including the terminal portion in the target protein is recorded in the N-terminal sequence database or the C-terminal sequence database. . Thereby, in the database search step, the amino acid sequence of the terminal portion of the target protein, which has been difficult to identify by the conventional method, can be estimated with high accuracy.

このようにして、少なくとも一方の末端部分のアミノ酸配列が推定されれば、それを利用してタンパク質全体のアミノ酸配列を推定したり、或いは、分析者自身がアミノ酸配列を推定するために有益な情報を提示したりすることができる。   In this way, if the amino acid sequence of at least one terminal portion is estimated, it can be used to estimate the amino acid sequence of the entire protein, or useful information for the analyst himself to estimate the amino acid sequence. Can be presented.

上述したように、データベース検索にはMS/MSイオンサーチを用いる場合とPMFを用いる場合とが考えられる。
即ち、本発明に係るタンパク質のアミノ酸配列決定方法の一態様では、
前記マススペクトル情報はnが2以上の整数であるMSn分析結果に基づくプロダクトイオン情報であり、
前記データベース検索ステップは、MS/MSイオンサーチを用いて、前記プロダクトイオン情報を前記末端配列データベースに収録されているそれぞれのアミノ酸配列から求まるプロダクトイオン情報と照合することにより目的タンパク質の末端部分のアミノ酸配列を推定するものとすることができる。
As described above, the database search can be performed using either MS / MS ion search or PMF.
That is, in one aspect of the method for determining an amino acid sequence of a protein according to the present invention,
The mass spectrum information is product ion information based on an MS n analysis result where n is an integer of 2 or more,
The database search step uses MS / MS ion search to match the product ion information with the product ion information obtained from each amino acid sequence recorded in the terminal sequence database, thereby determining the amino acid at the terminal portion of the target protein. The sequence can be deduced.

また、本発明に係るタンパク質のアミノ酸配列決定方法の他の態様では、
前記所定の長さはタンパク質の全長であり、前記マススペクトル情報はMS1イオンのみを用いた質量分析結果に基づくイオン情報であり、
前記データベース検索ステップは、ペプチドマスフィンガープリンティングを用いて、前記イオン情報を前記末端配列データベースに収録されているそれぞれのアミノ酸配列から求まるイオン情報と照合することにより目的タンパク質の末端部分を含むアミノ酸配列を推定するものとすることができる。
In another aspect of the method for determining an amino acid sequence of a protein according to the present invention,
The predetermined length is the total length of the protein, and the mass spectrum information is ion information based on a mass analysis result using only MS 1 ions,
The database search step uses peptide mass fingerprinting to match the ion information with the ion information obtained from each amino acid sequence recorded in the terminal sequence database to obtain an amino acid sequence including the terminal portion of the target protein. It can be estimated.

本発明に係るタンパク質のアミノ酸配列決定方法及び装置によれば、実際のタンパク質では除去されてしまっていることが多いシグナルペプチドが脱落した末端部分のアミノ酸配列も高い確度で以て決定することができる。また、酵素検索条件として「None」を指定したMS/MSイオンサーチなどの従来手法に比べると、データベース照合の対象であるアミノ酸配列の数を減らすことができるので、末端部分以外のペプチドのアミノ酸配列の推定の信頼度も高めることができる。それにより、目的タンパク質のアミノ酸配列の推定、つまりは目的タンパク質の同定の正確性も向上させることができる。   According to the method and apparatus for determining the amino acid sequence of a protein according to the present invention, it is possible to determine with high accuracy the amino acid sequence of the terminal portion from which a signal peptide that has often been removed in an actual protein is dropped. . In addition, compared to conventional methods such as MS / MS ion search that specifies “None” as the enzyme search condition, the number of amino acid sequences that are subject to database verification can be reduced. The reliability of the estimation can be increased. Thereby, estimation of the amino acid sequence of the target protein, that is, accuracy of identification of the target protein can be improved.

本発明に係るタンパク質のアミノ酸配列決定方法を実施するための第1実施例であるタンパク質同定システムの全体構成図。BRIEF DESCRIPTION OF THE DRAWINGS The whole block diagram of the protein identification system which is 1st Example for enforcing the amino acid sequence determination method of the protein based on this invention. 第1実施例のタンパク質同定システムにおいてN末端配列データベースに収録されるアミノ酸配列の一例を示す図。The figure which shows an example of the amino acid sequence recorded in the N terminal sequence database in the protein identification system of 1st Example. 第1実施例のタンパク質同定システムにおいてタンパク質のアミノ酸配列を決定する際の処理手順の説明図。Explanatory drawing of the process sequence at the time of determining the amino acid sequence of protein in the protein identification system of 1st Example. 第1実施例のタンパク質同定システムにおいてタンパク質のアミノ酸配列を決定する際の、マスコットの検索条件設定画面(a)及びその検索結果(b)の一例を示す図。The figure which shows an example of the search condition setting screen (a) of a mascot, and the search result (b) when determining the amino acid sequence of protein in the protein identification system of 1st Example. 第1実施例のタンパク質同定システムにおいて、N末端配列データベースとSwiss-Protとを用いてAGP由来の10種類の糖ペプチドに対しそれぞれMS/MSイオンサーチを実施した際に得られた誤同定予測値の比較を示す図。In the protein identification system of the first embodiment, the misidentification prediction value obtained when MS / MS ion search was performed for each of 10 types of AGP-derived glycopeptides using the N-terminal sequence database and Swiss-Prot. FIG. 本発明に係るタンパク質のアミノ酸配列決定方法を実施するための第2実施例であるタンパク質同定システムの全体構成図。The whole block diagram of the protein identification system which is 2nd Example for enforcing the amino acid sequence determination method of the protein based on this invention. 第2実施例のタンパク質同定システムにおいてPMF用N末端配列データベースに収録されるアミノ酸配列の一例を示す図。The figure which shows an example of the amino acid sequence recorded in the N terminal sequence database for PMF in the protein identification system of 2nd Example. 第2実施例のタンパク質同定システムにおいてタンパク質のアミノ酸配列を決定する際の処理手順の説明図。Explanatory drawing of the process sequence at the time of determining the amino acid sequence of protein in the protein identification system of 2nd Example. N末端配列データベースを用いてペプチドマスフィンガープリンティング(PMF)法によりタンパク質のアミノ酸配列を決定する際の、マスコットの検索条件設定画面(a)及びその検索結果(b)の一例を示す図。The figure which shows an example of the search condition setting screen (a) of a mascot, and its search result (b) when determining the amino acid sequence of a protein by the peptide mass fingerprinting (PMF) method using an N-terminal sequence database. 第2実施例のタンパク質同定システムにおいてタンパク質のアミノ酸配列を決定する際の、マスコットの検索条件設定画面(a)及びその検索結果(b)の一例を示す図。The figure which shows an example of the search condition setting screen (a) of a mascot, and its search result (b) when determining the amino acid sequence of protein in the protein identification system of 2nd Example. MS/MSイオンサーチによりタンパク質のアミノ酸配列を決定する際の従来の処理手順の説明図。Explanatory drawing of the conventional process sequence at the time of determining the amino acid sequence of protein by MS / MS ion search. MS/MSイオンサーチによりタンパク質のアミノ酸配列を決定する際の従来の処理手順の説明図。Explanatory drawing of the conventional process sequence at the time of determining the amino acid sequence of protein by MS / MS ion search. MS/MSイオンサーチの酵素選択条件として「None」を指定した場合と「Trypsin」を指定した場合とにおける誤同定予測値を比較した図。The figure which compared the misidentification prediction value in the case where "None" is designated as an enzyme selection condition of MS / MS ion search, and the case where "Trypsin" is designated.

[第1実施例]
以下、本発明に係るタンパク質のアミノ酸決定方法を実施するタンパク質同定システムの第1実施例について、添付図面を参照して説明する。
[First embodiment]
Hereinafter, a first embodiment of a protein identification system for carrying out a method for determining amino acids of a protein according to the present invention will be described with reference to the accompanying drawings.

図1は第1実施例のタンパク質同定システムの全体構成図である。
本実施例のタンパク質同定システムは、質量分析計1、データ処理部2、入力部3、及び表示部4を備える。
FIG. 1 is an overall configuration diagram of the protein identification system of the first embodiment.
The protein identification system of this example includes a mass spectrometer 1, a data processing unit 2, an input unit 3, and a display unit 4.

質量分析計1は特にその構成を問わないが、高い質量精度、質量分解能が要求されるとともに、衝突誘起解離(CID=Collision-Induced Dissociation)、赤外多光子吸収解離(IRMPD=InfraRed MultiPhoton Dissociation)、光誘起解離(PID=Photo-Induced Dissociation)、電子捕獲解離(ECD=Electron Capture Dissociation)、電子伝達解離(ETD=Electron Transfer Dissociation)、ポストソース分解(PSD=Post-Source Decay)、インソース分解(ISD=In-Source Decay)などを伴うMSn分析を実行する必要があることから、イオントラップ飛行時間型質量分析計又はTOF/TOF質量分析計などが好ましい。 The mass spectrometer 1 is not particularly limited in its configuration, but high mass accuracy and mass resolution are required, as well as collision-induced dissociation (CID) and infrared multiphoton absorption dissociation (IRMPD). , Photo-induced dissociation (PID = Photo-Induced Dissociation), electron capture dissociation (ECD), electron transfer dissociation (ETD = Electron Transfer Dissociation), post-source decomposition (PSD = Post-Source Decay), in-source decomposition Since it is necessary to perform MS n analysis with (ISD = In-Source Decay) or the like, an ion trap time-of-flight mass spectrometer or TOF / TOF mass spectrometer is preferable.

データ処理部2は本発明に係るタンパク質のアミノ酸決定方法を実施するための特徴的な構成要素であり、MSnスペクトルデータ収集部20、ピーク情報抽出部21、データベース検索部22、同定用タンパク質データベース23、既知情報読込部24、末端配列データベース作成・管理部25、末端配列データベース26、などの機能ブロックを含む。このデータ処理部2は、例えば汎用のパーソナルコンピュータを中心に構成することができ、主要な機能は該コンピュータにインストールされた専用の制御・処理用ソフトウエアをコンピュータ上で実行することにより実現されるものとすることができる。また、データベース検索部22は、典型的には上記マスコットに含まれるMS/MSイオンサーチを利用すればよいが、利用可能なデータベース検索エンジンはこれに限るものではない。 The data processing unit 2 is a characteristic component for carrying out the amino acid determination method for a protein according to the present invention, and includes an MS n spectrum data collection unit 20, a peak information extraction unit 21, a database search unit 22, and an identification protein database. 23, a functional block such as a known information reading unit 24, a terminal sequence database creation / management unit 25, and a terminal sequence database 26. The data processing unit 2 can be configured mainly by a general-purpose personal computer, for example, and main functions are realized by executing dedicated control / processing software installed in the computer on the computer. Can be. The database search unit 22 may typically use the MS / MS ion search included in the mascot, but the database search engine that can be used is not limited to this.

データ処理部2に含まれる同定用タンパク質データベース23は、一般的にタンパク質同定に使用される任意のデータベースを用いることができる。一方、図1においてデータ処理部2の外側に置かれた参照用タンパク質データベース5はcDNAに基づくタンパク質データベースであり、例えばSwiss-Prot(UniProt)などである。もちろん、同定用タンパク質データベース23としてcDNAに基づくタンパク質データベースを用いてもよく、ここではデータ処理部2に含まれる同定用タンパク質データベース23もSwiss-Protであるものとする。また、参照用タンパク質データベース5としては、cDNAに基づくタンパク質データベースではなく、次世代シーケンサなどを用いた核酸情報の網羅的解析に基づいて作成されたデータベース、さらには、エドマン分解、質量分析などを利用して、タンパク質のアミノ酸配列を直接的に計測することで構築したタンパク質データベースなどを用いてもよい。   As the identification protein database 23 included in the data processing unit 2, any database generally used for protein identification can be used. On the other hand, the reference protein database 5 placed outside the data processing unit 2 in FIG. 1 is a cDNA-based protein database, such as Swiss-Prot (UniProt). Of course, a protein database based on cDNA may be used as the identification protein database 23. Here, the identification protein database 23 included in the data processing unit 2 is also Swiss-Prot. The reference protein database 5 is not a cDNA-based protein database, but a database created based on comprehensive analysis of nucleic acid information using a next-generation sequencer, etc., and further, Edman degradation, mass spectrometry, etc. A protein database constructed by directly measuring the amino acid sequence of a protein may be used.

本実施例のタンパク質同定システムでは、実際の解析処理に先立って、次のようにして末端配列データベース26が構築される。即ち、既知情報読込部24は、参照用タンパク質データベース5と同定用タンパク質データベース23との一方又は両方からタンパク質の既知のアミノ酸配列を読み込む。このとき読み込まれるアミノ酸配列は、末端部分のシグナルペプチドが結合している状態、つまりはRNAの塩基配列に基づく最末端までアミノ酸残基が揃っているアミノ酸配列である。末端配列データベース作成・管理部25は、読み込まれたアミノ酸配列に基づいて、タンパク質の末端部分のアミノ酸配列が部分的に存在する、様々な長さの末端アミノ酸配列が収録された末端配列データベース26を作成する。   In the protein identification system of this embodiment, the terminal sequence database 26 is constructed as follows prior to actual analysis processing. That is, the known information reading unit 24 reads a known amino acid sequence of a protein from one or both of the reference protein database 5 and the identification protein database 23. The amino acid sequence read at this time is an amino acid sequence in which the amino acid residues are aligned up to the end based on the RNA base sequence, that is, the terminal peptide peptide is bound. The terminal sequence database creating / managing unit 25 creates a terminal sequence database 26 in which terminal amino acid sequences of various lengths are recorded, in which the amino acid sequence of the terminal portion of the protein partially exists based on the read amino acid sequence. create.

図2は末端配列データベース26に収録されるアミノ酸配列の一例である。
この例では、cDNAに基づくタンパク質データベースから読み込まれた、シグナルペプチドを含むタンパク質全長のアミノ酸配列の中で、そのN末端の端部(図2中のメチオニン残基Mの位置)からm=50番目までのアミノ酸配列を抽出する。そして、そのm個のアミノ酸残基が連なったアミノ酸配列の中で、jを1からmまでの全ての整数としたときの、j番目からm番目までのアミノ酸配列全てを含むペプチドの配列リストを作成する。
FIG. 2 is an example of amino acid sequences recorded in the terminal sequence database 26.
In this example, m = 50th from the N-terminal end (position of methionine residue M in FIG. 2) in the amino acid sequence of the full length protein including the signal peptide read from the protein database based on cDNA. Extract the amino acid sequence up to. A sequence list of peptides including all the amino acid sequences from the jth to the mth, where j is all integers from 1 to m in the amino acid sequence in which the m amino acid residues are connected, create.

即ち、図2に示すように、1番目から50番目までのアミノ酸残基が存在するアミノ酸配列、2番目から50番目までのアミノ酸残基が存在するアミノ酸配列、…、50番目から50番目までのアミノ酸残基が存在する(つまりは50番目のアミノ酸残基のみが存在する)アミノ酸配列、を含む50個のアミノ酸配列を、本発明における「末端近傍アミノ酸配列」として求め、このアミノ酸配列を新規のインデクスとし、それに合致する、つまりはそうしたアミノ酸配列を末端部分に持つタンパク質の情報、エントリ名やアクセッション番号などをデータベース化する。同様の処理を、データベース5、23から読み込まれた全てのタンパク質について行うことで、末端配列データベース26を構築する。換言すれば、この末端配列データベース26は、実際のタンパク質では脱落することが多く、しかもアミノ酸配列自体は、不明であるシグナルペプチドが脱落したことを想定した末端部分のアミノ酸配列であるようなデータベースである。   That is, as shown in FIG. 2, an amino acid sequence in which the first to 50th amino acid residues are present, an amino acid sequence in which the second to 50th amino acid residues are present,..., 50th to 50th A 50 amino acid sequence including an amino acid sequence in which an amino acid residue is present (that is, only the 50th amino acid residue is present) is obtained as a “near terminal amino acid sequence” in the present invention. It is indexed, and information on proteins that match that, that is, proteins having such amino acid sequences at the end, entry names, accession numbers, etc., is made into a database. The terminal sequence database 26 is constructed by performing the same processing for all the proteins read from the databases 5 and 23. In other words, the terminal sequence database 26 is a database in which an actual protein is often dropped, and the amino acid sequence itself is an amino acid sequence of a terminal portion assuming that an unknown signal peptide is dropped. is there.

解析対象であるタンパク質は、例えばトリプシン等適宜の消化酵素を用いた前処理によりペプチド断片に分解される。このペプチド混合物は、タンパク質の末端アミノ酸配列を含むペプチドと、内部アミノ酸配列のみを含むペプチドとが混在したものである。このペプチド断片の混合物が被検試料として質量分析計1による分析に供される。質量分析計1では、被検試料に対し質量分析を実行するとともに、それにより得られるマススペクトル中でペプチド由来の分子イオンであると推測されるイオンを抽出し、該イオンをプリカーサイオンに設定してMS2分析を実行する。また、場合によっては、nが3以上のMSn分析を実行する。これらは従来の手法と同じである。 The protein to be analyzed is decomposed into peptide fragments by pretreatment using an appropriate digestive enzyme such as trypsin. This peptide mixture is a mixture of a peptide containing a terminal amino acid sequence of a protein and a peptide containing only an internal amino acid sequence. This mixture of peptide fragments is subjected to analysis by the mass spectrometer 1 as a test sample. In the mass spectrometer 1, mass analysis is performed on the test sample, ions that are estimated to be peptide-derived molecular ions are extracted from the mass spectrum obtained thereby, and the ions are set as precursor ions. Perform MS 2 analysis. In some cases, MS n analysis in which n is 3 or more is performed. These are the same as the conventional methods.

MSnスペクトルデータ収集部20は質量分析計1によって得られたMSnスペクトルデータを収集して一旦記憶する。ピーク情報抽出部21は収集されたMSnスペクトルデータに基づき、例えばプリカーサイオン毎にMS2スペクトル上に現れるピーク、つまりはプロダクトイオン情報(質量電荷比m/z及び信号強度)を抽出する。このプロダクトイオン情報をデータベース検索部22に入力し、酵素消化の際に用いた酵素の種類(例えばトリプシン)を検索条件の一つである酵素選択条件として指定し、同定用タンパク質データベース23及び末端配列データベース26を用いたデータベース検索を実行することで、プロダクトイオン情報に該当するアミノ酸配列を推定する。 MS n spectrum data collecting unit 20 temporarily stores to collect and MS n spectra data obtained by the mass spectrometer 1. The peak information extraction unit 21 extracts, for example, a peak appearing on the MS 2 spectrum for each precursor ion, that is, product ion information (mass-to-charge ratio m / z and signal intensity) based on the collected MS n spectrum data. This product ion information is input to the database search unit 22, the type of enzyme used for enzyme digestion (for example, trypsin) is designated as an enzyme selection condition that is one of the search conditions, and the identification protein database 23 and terminal sequences are specified. By executing a database search using the database 26, an amino acid sequence corresponding to product ion information is estimated.

図3を参照して、このときの処理を説明する。図3(a)に示すように、cDNAに基づくタンパク質データベースに格納されているタンパク質のアミノ酸配列は、メチオニン残基M側(N末端側)の末端端部までアミノ酸残基が揃っているのに対し、実測されるタンパク質のアミノ酸配列は同じ末端部分のシグナルペプチドが脱落している。一般に、シグナルペプチドの長さは不明であるものの、現在判明している限りでは、シグナルペプチドの多くはアミノ酸残基が35個程度以下である。したがって、実測されたタンパク質が元のcDNAに基づくタンパク質データベースに収録されているものであれば、その実測されたタンパク質のN末端側の末端部分のアミノ酸配列に一致するアミノ酸配列は、末端配列データベース26にほぼ収録されている(図3(b)参照)。   The process at this time will be described with reference to FIG. As shown in FIG. 3 (a), the amino acid sequence of the protein stored in the protein database based on cDNA is aligned to the end of the methionine residue M side (N terminal side). On the other hand, the signal peptide of the same terminal part is omitted from the amino acid sequence of the actually measured protein. In general, the length of the signal peptide is unknown, but as far as it is currently known, most of the signal peptides have about 35 amino acid residues or less. Therefore, if the actually measured protein is recorded in the protein database based on the original cDNA, the amino acid sequence that matches the amino acid sequence of the terminal portion on the N-terminal side of the actually measured protein is the terminal sequence database 26. (See FIG. 3B).

そのため、データベース検索部22が、入力されたプロダクトイオン情報を末端配列データベース26中のアミノ酸配列から出現が予測されるプロダクトイオン情報と照合すると、殆どの場合、正解であるタンパク質を含む1乃至複数の候補が挙げられる。即ち、MS/MSイオンサーチにおいて、使用するデータベースとして末端配列データベースを指定し、酵素選択条件として使用した酵素を指定した上で検索を実行させると、シグナルペプチドが含まれない(脱落した)N末端ペプチドについても、末端配列データベース26の中で合致するアミノ酸配列のリストが得られる。   Therefore, when the database search unit 22 collates the input product ion information with the product ion information predicted to appear from the amino acid sequence in the terminal sequence database 26, in most cases, one or more including a protein that is a correct answer. Candidates are listed. In other words, in MS / MS ion search, when a terminal sequence database is designated as the database to be used and the enzyme used as the enzyme selection condition is designated and the search is executed, the N-terminus that does not contain (dropped out) the signal peptide. For peptides, a list of matching amino acid sequences in the terminal sequence database 26 is obtained.

一方、元のタンパク質の末端部分以外のアミノ酸配列については、末端配列データベース26ではなく通常の同定用タンパク質データベース23を用いてアミノ酸配列の推定が可能である。これは図11を参照して説明した従来のタンパク質同定手法と同じである。このようにして、実測されたタンパク質の末端部分は末端配列データベース26を使用して同定され、末端部分以外の部分は通常の同定用タンパク質データベース23を使用して同定されるので、それら結果を合わせることで、タンパク質の全長のアミノ酸配列を推定し、該タンパク質を同定することができる(図3(c)参照)。こうした、それぞれのデータベース検索結果やそれらを合わせた総合的なデータベース検索結果は表示部4に出力され、これを確認した分析者が、最終的に解析対象のタンパク質のアミノ酸配列を決定し、該タンパク質を同定する。   On the other hand, for amino acid sequences other than the terminal portion of the original protein, the amino acid sequence can be estimated using the normal identification protein database 23 instead of the terminal sequence database 26. This is the same as the conventional protein identification method described with reference to FIG. Thus, the terminal portion of the actually measured protein is identified using the terminal sequence database 26, and the portion other than the terminal portion is identified using the normal identification protein database 23. Thus, the amino acid sequence of the full length of the protein can be estimated and the protein can be identified (see FIG. 3 (c)). These database search results and a comprehensive database search result combining them are output to the display unit 4, and an analyst who has confirmed this finally determines the amino acid sequence of the protein to be analyzed, Is identified.

次に、本実施例のタンパク質同定システムにおける特徴的なアミノ酸決定方法の効果を、実測結果に基づく実際の解析処理結果を用いて説明する。   Next, the effect of the characteristic amino acid determination method in the protein identification system of the present embodiment will be described using actual analysis processing results based on actual measurement results.

図4は、末端配列データベース26を使用してMS/MSイオンサーチを実施する際の、マスコットの検索条件設定画面(a)及びその検索結果表示画面(b)の一例を示す図である。この例では、データベースとして、「NTERM_human」(独自に構築したN末端配列データベース)と既存のSwiss-Protとを同時に指定している。また、酵素選択条件(「Enzyme」)として、消化に使用したトリプシン(Trypsin)を指定している。この条件で以てMS/MSイオンサーチを実行すると、AGP(Acid GlycoProtein)由来の複数のN末端糖ペプチドが同定された(A1G1_HUMAN_19, A1G2_HUMAN_19)。   FIG. 4 is a diagram showing an example of a mascot search condition setting screen (a) and a search result display screen (b) when an MS / MS ion search is performed using the terminal sequence database 26. In this example, “NTERM_human” (N-terminal sequence database uniquely constructed) and the existing Swiss-Prot are simultaneously specified as the database. In addition, trypsin used for digestion is designated as an enzyme selection condition (“Enzyme”). When MS / MS ion search was performed under these conditions, a plurality of N-terminal glycopeptides derived from AGP (Acid GlycoProtein) were identified (A1G1_HUMAN_19, A1G2_HUMAN_19).

N末端配列データベースとSwiss-Protとを用いて、AGP由来の10種類の糖ペプチドに対しそれぞれMS/MSイオンサーチを実施した結果得られた誤同定予測値の比較を、図5に示す。   FIG. 5 shows a comparison of misidentification prediction values obtained as a result of MS / MS ion search for each of 10 types of AGP-derived glycopeptides using the N-terminal sequence database and Swiss-Prot.

N末端配列データベースを用いることなく酵素選択条件として通常の酵素(「Tripsin」)を指定した場合には、全体的に低い誤同定予測値(つまり誤同定が少ないとの予測を示す値)で以てペプチドを同定することが可能であるものの、N末端に位置するGP1及びGP1*は同定されなかった。一方、N末端配列データベースを用いることなく酵素選択条件として「None」を指定してMS/MSイオンサーチを実施すると、酵素を指定した場合には同定されなかったN末端由来の糖ペプチドGP1−1、GP1−1*、GP1−2、及びGP1−2*がいずれも同定されるようになった。しかしながら、その反面、酵素選択条件として酵素の種類を指定した場合と比較して、誤同定予測値は1000倍程度大きくなる(つまりは誤同定が増加する)傾向がみられた。 When a normal enzyme (“Tripsin”) is designated as an enzyme selection condition without using the N-terminal sequence database, an overall low misprediction prediction value (that is, a value indicating a prediction that there are few misidentifications) is used. Although it was possible to identify the peptides, GP1 and GP1 * located at the N-terminus were not identified. On the other hand, when MS / MS ion search is performed by specifying “None” as the enzyme selection condition without using the N-terminal sequence database, the N-terminal glycopeptide GP1-1 that was not identified when the enzyme was specified was used. , GP1-1 * , GP1-2, and GP1-2 * are all identified. On the other hand, however, the misidentification prediction value tended to be about 1000 times larger (that is, misidentification increased) than when the enzyme type was designated as the enzyme selection condition.

これら従来の手法に対し、上述したようなN末端配列データベースと通常のタンパク質データベース(Swiss-Prot)とを併用して、AGP由来の糖ペプチドのMS2スペクトルに対してMS/MSイオンサーチを用いると、酵素選択条件として「None」を指定した際と同様に、N末端由来の糖ペプチドGP1−1、GP1−1*、GP1−2、及びGP1−2*が同定された。さらに、誤同定予測値は、酵素選択条件として「None」を指定した場合と比較して、10倍から100倍程度改善している。これは次のような理由によると考えられる。 In contrast to these conventional methods, MS / MS ion search is used for MS 2 spectra of glycopeptides derived from AGP, using an N-terminal sequence database as described above and a normal protein database (Swiss-Prot). In the same manner as when “None” was designated as the enzyme selection condition, glycopeptides GP1-1, GP1-1 * , GP1-2, and GP1-2 * derived from the N-terminus were identified. Furthermore, the erroneous identification prediction value is improved by about 10 to 100 times compared to the case where “None” is designated as the enzyme selection condition. This is considered to be due to the following reasons.

上述したように、第1実施例のタンパク質同定システムにおいて使用している末端配列データベースには、一つのタンパク質におけるRNAの塩基配列に基づく末端端部からm番目までのアミノ酸配列について、アミノ酸残基を1個ずつ削ったものが全てリストに挙げられている。このため、図2に示したように、タンパク質1種類あたりのアミノ酸配列数の増加度合いは最大でもm倍である(図2の例ではm=50である)。一方、酵素選択条件として「None」を指定する場合、アミノ酸残基数がx個(ただしx>1)であるアミノ酸配列を持つタンパク質において、(x+1)X/2個のアミノ酸配列のバリエーションが出現する。ここで、xはアミノ酸配列全体のアミノ酸残基数であり、必ずm≦xとなるので、m≦x<(x+1)X/2、となり、酵素選択条件として「None」を指定する場合よりもN末端配列データベースを使用した場合のほうが、照合すべきデータベース中のアミノ酸配列数は常に少なくて済む。   As described above, the terminal sequence database used in the protein identification system of the first embodiment includes amino acid residues for the amino acid sequences from the terminal end to the m-th based on the base sequence of RNA in one protein. Everything you cut off one by one is listed. Therefore, as shown in FIG. 2, the degree of increase in the number of amino acid sequences per protein is at most m times (in the example of FIG. 2, m = 50). On the other hand, when “None” is designated as the enzyme selection condition, (x + 1) X / 2 amino acid sequence variations appear in a protein having an amino acid sequence with x amino acid residues (x> 1). To do. Here, x is the number of amino acid residues in the entire amino acid sequence, and m ≦ x, and therefore m ≦ x <(x + 1) X / 2, which is more than when “None” is designated as the enzyme selection condition. When the N-terminal sequence database is used, the number of amino acid sequences in the database to be verified is always smaller.

通常、酵素選択条件として「None」を指定した場合におけるデータベースの実質的なサイズは、酵素選択条件として特定の酵素を指定した場合の数百から数千倍のサイズとなる。一方、N末端配列データベースを使用した場合のデータベースの実質的なサイズは該データベースを使用しなかった場合の数十倍のサイズで済む。このように、両者は照合する必要のあるデータベースの実質的なサイズに大きな差があるため、結果として、第1実施例のタンパク質同定システムで用いられるタンパク質同定手法における誤同定予測値は、酵素選択条件として「None」を用いた場合に比べて、大きく改善されることになる。   Usually, the substantial size of the database when “None” is designated as the enzyme selection condition is several hundred to several thousand times the size when a specific enzyme is designated as the enzyme selection condition. On the other hand, the substantial size of the database when the N-terminal sequence database is used can be several tens of times the size when the database is not used. As described above, since there is a large difference in the substantial size of the databases that need to be collated, as a result, the erroneous identification prediction value in the protein identification method used in the protein identification system of the first embodiment is the enzyme selection. Compared to the case where “None” is used as a condition, this is a significant improvement.

以上のように、N末端アミノ酸配列を含む糖ペプチドの同定において、第1実施例のタンパク質同定システムによるアミノ酸決定方法によれば、酵素選択条件として「None」を指定した場合に比べて十分に信頼性の高い同定結果が得られることが確認できた。
なお、図3に例示した末端配列データベース26では、ここでアミノ酸配列を決定しようとしているN末端とは反対側のC末端側の末端部分のアミノ酸残基が、RNAの塩基配列に基づく最末端まで揃っている状態を想定しているが、そうである必要はなく、同定対象である目的タンパク質のC末端側端部よりも或る程度短くても同定に支障はない。
As described above, in the identification of a glycopeptide containing the N-terminal amino acid sequence, the amino acid determination method using the protein identification system of the first embodiment is sufficiently reliable as compared with the case where “None” is designated as the enzyme selection condition. It was confirmed that a highly reliable identification result was obtained.
In the terminal sequence database 26 illustrated in FIG. 3, the amino acid residue of the terminal portion on the C-terminal side opposite to the N-terminal for which the amino acid sequence is to be determined up to the end based on the base sequence of RNA. Although it is assumed that they are aligned, this need not be the case, and even if the length is shorter than the C-terminal side end of the target protein to be identified, there is no problem in identification.

[第2実施例]
次に、本発明に係るタンパク質のアミノ酸決定方法を実施する第2実施例のタンパク質同定システムについて、添付図面を参照して説明する。
[Second Embodiment]
Next, a protein identification system according to a second embodiment that implements the protein amino acid determination method according to the present invention will be described with reference to the accompanying drawings.

第1実施例のタンパク質同定システムで用いた末端配列データベースを使用すると、MS/MSイオンサーチではタンパク質の末端部分のアミノ酸配列の同定が可能であるものの、MS/MSイオンサーチとともによく用いられるペプチドマスフィンガープリンティング(PMF)法では帰属が行えない。これは、PMF法ではMS2分析を行わず、タンパク質の酵素消化物に対して得られるマススペクトルのピークリストをデータベースと照合してタンパク質の同定を行うため、N末端アミノ酸配列が末端部分ではない他のアミノ酸配列と共に一つのアミノ酸配列に含まれていないと、一つのタンパク質として帰属されないためである。また、酵素選択条件として「None」を指定すると、つまり具体的な酵素を指定しないと、PMF法ではタンパク質の同定すら行えず、「Data not shown」との結果が出力されてしまう。 When the terminal sequence database used in the protein identification system of the first embodiment is used, the amino acid sequence of the terminal portion of the protein can be identified by MS / MS ion search, but the peptide mass often used with MS / MS ion search is used. Assignment cannot be performed by the fingerprinting (PMF) method. This is because MS 2 analysis is not performed in the PMF method, and the peak list of the mass spectrum obtained for the enzyme digest of the protein is collated with the database to identify the protein, so the N-terminal amino acid sequence is not the terminal part. This is because it is not assigned as one protein unless it is included in one amino acid sequence together with other amino acid sequences. If “None” is designated as the enzyme selection condition, that is, if a specific enzyme is not designated, protein identification cannot be performed by the PMF method, and the result “Data not shown” is output.

図9は第1実施例のシステムにおけるN末端配列データベースを用いてPMF法によりタンパク質の同定を試みたときの、マスコットの検索条件設定画面(a)及びその検索結果(b)の一例を示す図である。   FIG. 9 is a diagram showing an example of a mascot search condition setting screen (a) and a search result (b) when an attempt is made to identify a protein by the PMF method using the N-terminal sequence database in the system of the first embodiment. It is.

即ち、PMF法の場合には、PMF法のための専用の末端配列データベースを用いる必要がある。この第2実施例のタンパク質同定システムは、PMF法によるタンパク質同定を行うためのシステムである。図6は第2実施例のタンパク質同定システムの全体構成図、図7は第2実施例のタンパク質同定システムにおいてPMF用N末端配列データベースに収録されるアミノ酸配列の一例を示す図、図8は第2実施例のタンパク質同定システムにおいてタンパク質のアミノ酸配列を決定する際の処理手順の説明図である。   That is, in the case of the PMF method, it is necessary to use a dedicated terminal sequence database for the PMF method. The protein identification system of the second embodiment is a system for performing protein identification by the PMF method. FIG. 6 is an overall configuration diagram of the protein identification system of the second embodiment, FIG. 7 is a diagram showing an example of amino acid sequences recorded in the N-terminal sequence database for PMF in the protein identification system of the second embodiment, and FIG. It is explanatory drawing of the process sequence at the time of determining the amino acid sequence of protein in the protein identification system of 2 Example.

図6において、図1に示した第1実施例のシステムと同一の又は相当する構成要素には同一符号を付して詳しい説明を省略する。この第2実施例のシステムにおいて、質量分析計1はCID等によるイオン解離を実行しない一般的な飛行時間型質量分析計や四重極型質量分析計である。マススペクトルデータ収集部27はマススペクトルデータを収集し、ピーク情報抽出部21は該マススペクトルに現れるピークに対応するMS1イオン情報を抽出する。データベース検索部22はプロダクトイオン情報ではなく、このMS1イオン情報(特に質量電荷比値)に基づくデータベース検索を実行する。 In FIG. 6, the same or corresponding components as those in the system of the first embodiment shown in FIG. In the system of the second embodiment, the mass spectrometer 1 is a general time-of-flight mass spectrometer or quadrupole mass spectrometer that does not execute ion dissociation by CID or the like. The mass spectrum data collection unit 27 collects mass spectrum data, and the peak information extraction unit 21 extracts MS 1 ion information corresponding to the peak appearing in the mass spectrum. The database search unit 22 performs a database search based on this MS 1 ion information (particularly, mass-to-charge ratio value), not product ion information.

既知情報読込部24は、例えばcDNAに基づく参照用タンパク質データベース5から各タンパク質のアミノ酸配列情報を読み込み、PMF用末端配列データベース作成・管理部28は、タンパク質毎にシグナルペプチドを含むその全長又はC末端側のアミノ酸配列の一部が欠けた所定長のアミノ酸配列に基づいてPMF用の末端アミノ酸配列を含むアミノ酸配列を生成し、これを集めてPMF用末端配列データベース29を作成する。   The known information reading unit 24 reads the amino acid sequence information of each protein from the reference protein database 5 based on, for example, cDNA, and the PMF terminal sequence database creation / management unit 28 includes the full length or C-terminal including a signal peptide for each protein. An amino acid sequence including a terminal amino acid sequence for PMF is generated based on an amino acid sequence of a predetermined length lacking a part of the amino acid sequence on the side, and this is collected to create a terminal sequence database 29 for PMF.

第1実施例における末端配列データベース26とこの第2実施例におけるPMF用末端配列データベース29との相違は、図2と図7とを比較すれば明らかである。即ち、第1実施例における末端配列データベース26は、配列長が最大でmである、タンパク質の末端部分のみのアミノ酸配列を集めたデータベースである。これに対し、この第2実施例におけるPMF用末端配列データベース29は、配列長が最大で元のタンパク質の全長X又はC末端側のアミノ酸配列の一部が欠けた所定長Yであり、配列長の最小がX−m又はY−m(この例ではm=30)である、末端部分と末端以外の部分とを共に含むアミノ酸配列を集めたデータベースである。   The difference between the terminal sequence database 26 in the first embodiment and the terminal sequence database 29 for PMF in the second embodiment is apparent when FIG. 2 and FIG. 7 are compared. That is, the terminal sequence database 26 in the first embodiment is a database in which amino acid sequences of only the terminal portion of the protein having a maximum sequence length of m are collected. On the other hand, the PMF terminal sequence database 29 in the second embodiment has a maximum sequence length of the full length X of the original protein or a predetermined length Y lacking a part of the amino acid sequence on the C-terminal side. Is a database in which amino acid sequences including both a terminal portion and a portion other than the terminal are collected, the minimum of which is Xm or Ym (m = 30 in this example).

図7に示した例でも、タンパク質1種類に対して生成されるアミノ酸配列の数はm個であり、各タンパク質について同様に配列長が相違するm個のアミノ酸配列が生成されてPMF用末端配列データベース29に収録される。   Also in the example shown in FIG. 7, the number of amino acid sequences generated for one type of protein is m, and m amino acid sequences having different sequence lengths are similarly generated for each protein, and the end sequence for PMF is generated. Recorded in database 29.

データベース検索部22は、このようなPMF用末端配列データベース29を用いて、与えられたマススペクトルのピーク情報に該当するタンパク質を検索する。図8(a)に示すように、通常、実測されるタンパク質ではN末端のシグナルペプチドが脱落しているが、その脱落状態である末端部分に合致する(ただし、他方の末端部分は合致するとは限らない)アミノ酸配列はPMF用末端配列データベース29に収録されている。そのため、図8(b)に示すように、シグナルペプチドが脱落したN末端ペプチドも同定される。この例では、他方のC末端ペプチドは同定されないが、N末端ペプチドを含め、C末端ペプチド以外の殆どのペプチドが同定されていることで、元のタンパク質を高い確度で同定することができる。   The database search unit 22 searches for the protein corresponding to the peak information of the given mass spectrum using such a PMF end sequence database 29. As shown in FIG. 8 (a), the N-terminal signal peptide is usually dropped in the actually measured protein, but it matches the terminal portion in the dropped state (however, the other terminal portion does not match). The amino acid sequence is recorded in the terminal sequence database 29 for PMF. Therefore, as shown in FIG. 8 (b), the N-terminal peptide from which the signal peptide has been dropped is also identified. In this example, the other C-terminal peptide is not identified, but most of the peptides other than the C-terminal peptide including the N-terminal peptide have been identified, so that the original protein can be identified with high accuracy.

図10はPMF用末端配列データベース28を使用してPMF法を実施する際の、マスコットの検索条件設定画面(a)及びその検索結果表示画面(b)の一例を示す図である。この例では、データベースとして「PMF_human」(独自に構築したPMF用N末端配列データベース)を指定し、酵素選択条件(「Enzyme」)として、消化に使用したトリプシン(Trypsin)を指定している。この条件で以てPMFを実行したところ、2種類のN末端のバリアントのAGPがヒットした。   FIG. 10 is a diagram showing an example of a mascot search condition setting screen (a) and a search result display screen (b) when the PMF method is performed using the PMF terminal sequence database 28. In this example, “PMF_human” (an originally constructed N-terminal sequence database for PMF) is designated as the database, and trypsin used for digestion is designated as the enzyme selection condition (“Enzyme”). When PMF was executed under these conditions, two types of N-terminal variant AGP hit.

なお、AGPは、「A1AG1_Human」と「A1G2_Human」との混合物であるので、実質的には4種類のタンパク質がヒットしたことになる。この検索結果を詳細に解析すると、それぞれシグナルペプチドが脱落して残っている末端の最初のアミノ酸残基に連なるアミノ酸配列によって帰属が決定されており、シグナルペプチドの脱落を考慮しないSwiss-Protを使用した場合には帰属されないAGPのN末端も的確に帰属されていることが判明した。こうした結果から、上述したPMF用末端配列データベースを用いることで、PMF法でも末端ペプチドを帰属させることができ、タンパク質の同定が可能であることが確認できる。   In addition, since AGP is a mixture of “A1AG1_Human” and “A1G2_Human”, substantially four types of proteins are hit. When this search result is analyzed in detail, the assignment is determined by the amino acid sequence connected to the first amino acid residue at the end of each remaining signal peptide, and Swiss-Prot that does not consider signal peptide loss is used. It was found that the N-terminal of AGP that was not assigned was also assigned correctly. From these results, it is possible to confirm that the terminal peptide can be assigned even by the PMF method and the protein can be identified by using the above-described PMF terminal sequence database.

なお、上記実施例において使用した末端配列データベース26、29はタンパク質のN末端側のみのアミノ酸配列を集めた又はN末端側のみが処理されたアミノ酸配列を集めたデータベースであるため、N末端側の脱落にしか対応していない。しかしながら、当然のことながら、C末端側についても同様の処理を行った末端配列データベースを作成することは可能であるので、それを用いることで一部のアミノ酸が脱落したC末端ペプチドを同定することもできる。その場合、末端配列データベースに収録されているアミノ酸配列のN末端側のアミノ酸残基はRNAの塩基配列に基づく最末端まで揃っていてもよいが、一部が欠けていても問題ないことは上記説明から明らかである。さらにまた、N末端側の末端配列データベースとC末端側の末端配列データベースとを併用し、N末端部分、C末端部分それぞれのアミノ酸配列を推定することで、同定可能なタンパク質の範囲を一層広げることができる。   In addition, since the terminal sequence databases 26 and 29 used in the above-mentioned examples are databases in which amino acid sequences only on the N-terminal side of proteins are collected or amino acid sequences in which only the N-terminal side is processed are collected, It only supports dropping out. However, as a matter of course, it is possible to create a terminal sequence database in which the same processing is performed on the C-terminal side, so that it is possible to identify a C-terminal peptide from which some amino acids have been dropped. You can also. In that case, the amino acid residue on the N-terminal side of the amino acid sequence recorded in the terminal sequence database may be aligned up to the end based on the base sequence of RNA, but it is not a problem even if a part is missing. It is clear from the explanation. Furthermore, the range of identifiable proteins can be further expanded by using both the terminal sequence database on the N-terminal side and the terminal sequence database on the C-terminal side and estimating the amino acid sequences of the N-terminal part and the C-terminal part, respectively. Can do.

また、上記説明では、末端配列データベース26を作成するための参照用タンパク質データベース(例えばcDNAに基づくタンパク質データベース)5には、メチオニン残基Mの位置にN末端アミノ酸残基があるアミノ酸配列は収録されているものとしていたが、N末端アミノ酸残基は必ずしもメチオニン残基Mの位置になくてもよい。具体的には、収録されているアミノ酸配列のN末端アミノ酸残基は、メチオニン残基Mの位置、つまり、既知タンパク質をコードするmRNA上のコーディング領域の開始コドンに対応するアミノ酸残基の位置から、既知タンパク質をコードするmRNA上のコーディング領域の塩基配列情報に基づき生体内に存在する状態のタンパク質のN末端アミノ酸残基の位置までの間のいずれにあってもよい。   In the above description, the amino acid sequence having the N-terminal amino acid residue at the position of the methionine residue M is recorded in the reference protein database (for example, protein database based on cDNA) 5 for creating the terminal sequence database 26. However, the N-terminal amino acid residue is not necessarily located at the methionine residue M position. Specifically, the N-terminal amino acid residue of the recorded amino acid sequence is determined from the position of the methionine residue M, that is, the position of the amino acid residue corresponding to the start codon of the coding region on the mRNA encoding the known protein. , Any position between the position of the N-terminal amino acid residue of the protein existing in the living body based on the base sequence information of the coding region on the mRNA encoding the known protein may be used.

さらにまた、上記実施例や変形例はいずれも本発明の一例にすぎず、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。   Furthermore, the above-described embodiments and modifications are merely examples of the present invention, and it will be understood that they are included in the scope of the claims of the present application even if appropriate changes, modifications, additions, etc. are made within the scope of the present invention. It is.

1…質量分析計
2…データ処理部
20…MSnスペクトルデータ収集部
21…ピーク情報抽出部
22…データベース検索部
23…同定用タンパク質データベース
24…既知情報読込部
25…末端配列データベース作成・管理部
26…末端配列データベース
27…マススペクトルデータ収集部
28…PMF用末端配列データベース作成・管理部
29…PMF用末端配列データベース
3…入力部
4…表示部
5…参照用タンパク質データベース
DESCRIPTION OF SYMBOLS 1 ... Mass spectrometer 2 ... Data processing part 20 ... MS n spectrum data collection part 21 ... Peak information extraction part 22 ... Database search part 23 ... Identification protein database 24 ... Known information reading part 25 ... Terminal sequence database creation and management part 26 ... Terminal sequence database 27 ... Mass spectrum data collection unit 28 ... PMF terminal sequence database creation / management unit 29 ... PMF terminal sequence database 3 ... Input unit 4 ... Display unit 5 ... Reference protein database

Claims (10)

目的タンパク質由来のペプチド混合物を質量分析することで得られたマススペクトル情報に基づくデータベース検索を行うことにより、前記目的タンパク質のアミノ酸配列を決定する又は該アミノ酸配列を決定するための情報を提供するタンパク質のアミノ酸配列決定方法において、
a)既知のタンパク質のアミノ酸配列が収録されるデータベースであって、各既知タンパク質のアミノ酸配列のN末端アミノ酸残基の位置Sが、1≦S≦p(但し、当該既知タンパク質をコードするmRNA上のコーディング領域の開始コドンに対応するアミノ酸残基を1番目、当該既知タンパク質をコードするmRNA上のコーディング領域の塩基配列情報に基づき生体内に存在する状態のタンパク質のN末端アミノ酸残基をp番目とする)であるアミノ酸配列からなる、既知のタンパク質のデータベースから得られるアミノ酸配列情報に基づいて、各既知タンパク質についてN末端から所定長さのアミノ酸残基からなるアミノ酸配列を抽出し、その所定長さのアミノ酸配列中のアミノ酸残基をN末端側の最末端から順に除去した前記所定長さ以下の長さの末端近傍アミノ酸配列を求め、該アミノ酸配列によりN末端配列データベースを作成するN末端配列データベース作成ステップと、
b)目的タンパク質由来の前記マススペクトル情報を、前記N末端配列データベースに収録されているアミノ酸配列又は該配列から求まる情報と照合することにより、前記目的タンパク質の末端部分のアミノ酸配列を推定するデータベース検索ステップと、
を有することを特徴とするタンパク質のアミノ酸配列決定方法。
A protein that determines the amino acid sequence of the target protein or provides information for determining the amino acid sequence by performing a database search based on mass spectral information obtained by mass spectrometry of a peptide mixture derived from the target protein In the amino acid sequencing method of
a) A database in which amino acid sequences of known proteins are recorded, and the position S of the N-terminal amino acid residue of the amino acid sequence of each known protein is 1 ≦ S ≦ p (provided that on the mRNA encoding the known protein) The first amino acid residue corresponding to the start codon of the coding region of p, and the p-th amino acid residue of the N-terminal protein present in the living body based on the base sequence information of the coding region on the mRNA encoding the known protein On the basis of amino acid sequence information obtained from a database of known proteins, and an amino acid sequence consisting of amino acid residues of a predetermined length from the N-terminal for each known protein, and the predetermined length The predetermined length obtained by sequentially removing amino acid residues in the amino acid sequence from the N-terminal end in order. Seek terminal near the following amino acid sequences in length, and N-terminal sequence database creation step of creating an N-terminal sequence database by the amino acid sequence,
b) Database search for estimating the amino acid sequence of the terminal portion of the target protein by collating the mass spectrum information derived from the target protein with the amino acid sequence recorded in the N-terminal sequence database or information obtained from the sequence. Steps,
A method for determining the amino acid sequence of a protein, comprising:
目的タンパク質由来のペプチド混合物を質量分析することで得られたマススペクトル情報に基づくデータベース検索を行うことにより、前記目的タンパク質のアミノ酸配列を決定する又は該アミノ酸配列を決定するための情報を提供するタンパク質のアミノ酸配列決定方法において、
a)既知のタンパク質のアミノ酸配列が収録されるデータベースであって、各既知タンパク質のアミノ酸配列のC末端アミノ酸残基の位置Tが、q≦T≦L(但し、当該既知タンパク質をコードするmRNA上のコーディング領域の開始コドンに対応するアミノ酸残基を1番目、当該既知タンパク質をコードするmRNA上のコーディング領域の塩基配列情報に基づき生体内に存在する状態のタンパク質のC末端アミノ酸残基をq番目、当該既知タンパク質をコードするmRNA上のコーディング領域の終止コドンの5’上流側に隣接するコドンに対応するアミノ酸残基をL番目とする)であるアミノ酸配列からなる、既知のタンパク質のデータベースから得られるアミノ酸配列情報に基づいて、各既知タンパク質についてC末端から所定長さのアミノ酸残基からなるアミノ酸配列を抽出し、その所定長さのアミノ酸配列中のアミノ酸残基をC末端側の最末端から順に除去した前記所定長さ以下の長さの末端近傍アミノ酸配列を求め、該アミノ酸配列によりC末端配列データベースを作成するC末端配列データベース作成ステップと、
b)目的タンパク質由来の前記マススペクトル情報を、前記C末端配列データベースに収録されているアミノ酸配列又は該配列から求まる情報と照合することにより、前記目的タンパク質の末端部分のアミノ酸配列を推定するデータベース検索ステップと、
を有することを特徴とするタンパク質のアミノ酸配列決定方法。
A protein that determines the amino acid sequence of the target protein or provides information for determining the amino acid sequence by performing a database search based on mass spectral information obtained by mass spectrometry of a peptide mixture derived from the target protein In the amino acid sequencing method of
a) A database in which amino acid sequences of known proteins are recorded, where the position T of the C-terminal amino acid residue of each amino acid sequence of each known protein is q ≦ T ≦ L (provided that on the mRNA encoding the known protein) 1st amino acid residue corresponding to the start codon of the coding region, and q-th amino acid residue C-terminal amino acid residue of the protein in the living body based on the base sequence information of the coding region on the mRNA encoding the known protein Obtained from a database of known proteins consisting of an amino acid sequence that is the Lth amino acid residue corresponding to the codon adjacent to the 5 'upstream of the stop codon of the coding region on the mRNA encoding the known protein) Based on the amino acid sequence information obtained, each known protein has a predetermined length from the C-terminus. An amino acid sequence consisting of amino acid residues is extracted, and amino acid residues in the amino acid sequence of a predetermined length are sequentially removed from the most terminal on the C-terminal side to obtain a near-terminal amino acid sequence having a length shorter than the predetermined length. C-terminal sequence database creation step of creating a C-terminal sequence database from the amino acid sequence;
b) Database search for estimating the amino acid sequence of the terminal portion of the target protein by collating the mass spectrum information derived from the target protein with the amino acid sequence recorded in the C-terminal sequence database or information obtained from the sequence Steps,
A method for determining the amino acid sequence of a protein, comprising:
請求項1又は2に記載のタンパク質のアミノ酸配列決定方法であって、
前記既知のタンパク質データベースはゲノムデータに基づいて作成されたタンパク質データベースであることを特徴とするタンパク質のアミノ酸配列決定方法。
A method for determining an amino acid sequence of the protein according to claim 1 or 2,
The method for determining an amino acid sequence of a protein, wherein the known protein database is a protein database created based on genomic data.
請求項1〜3のいずれかに記載のタンパク質のアミノ酸配列決定方法であって、
前記マススペクトル情報はnが2以上の整数であるMSn分析結果に基づくプロダクトイオン情報であり、
前記データベース検索ステップは、MS/MSイオンサーチを用いて、前記プロダクトイオン情報を前記末端配列データベースに収録されているそれぞれのアミノ酸配列から求まるプロダクトイオン情報と照合することにより目的タンパク質の末端部分のアミノ酸配列を推定することを特徴とするタンパク質のアミノ酸配列決定方法。
A method for determining an amino acid sequence of a protein according to any one of claims 1 to 3,
The mass spectrum information is product ion information based on an MS n analysis result where n is an integer of 2 or more,
The database search step uses MS / MS ion search to match the product ion information with the product ion information obtained from each amino acid sequence recorded in the terminal sequence database, thereby determining the amino acid at the terminal portion of the target protein. A method for determining an amino acid sequence of a protein, comprising estimating the sequence.
請求項1〜3のいずれかに記載のタンパク質のアミノ酸配列決定方法であって、
前記所定の長さはタンパク質の全長であり、前記マススペクトル情報はMS1イオンのみを用いた質量分析結果に基づくイオン情報であり、
前記データベース検索ステップは、ペプチドマスフィンガープリンティングを用いて、前記イオン情報を前記末端配列データベースに収録されているそれぞれのアミノ酸配列から求まるイオン情報と照合することにより目的タンパク質の末端部分を含むアミノ酸配列を推定することを特徴とするタンパク質のアミノ酸配列決定方法。
A method for determining an amino acid sequence of a protein according to any one of claims 1 to 3,
The predetermined length is the total length of the protein, and the mass spectrum information is ion information based on a mass analysis result using only MS 1 ions,
The database search step uses peptide mass fingerprinting to match the ion information with the ion information obtained from each amino acid sequence recorded in the terminal sequence database to obtain an amino acid sequence including the terminal portion of the target protein. A method for determining an amino acid sequence of a protein, comprising estimating.
目的タンパク質由来のペプチド混合物を質量分析することで得られたマススペクトル情報に基づくデータベース検索を行うことにより、前記目的タンパク質のアミノ酸配列を決定する又は該アミノ酸配列を決定するための情報を提供するタンパク質のアミノ酸配列決定装置において、
a)既知のタンパク質のアミノ酸配列が収録されるデータベースであって、各既知タンパク質のアミノ酸配列のN末端アミノ酸残基の位置Sが、1≦S≦p(但し、当該既知タンパク質をコードするmRNA上のコーディング領域の開始コドンに対応するアミノ酸残基を1番目、当該既知タンパク質をコードするmRNA上のコーディング領域の塩基配列情報に基づき生体内に存在する状態のタンパク質のN末端アミノ酸残基をp番目とする)であるアミノ酸配列からなる既知のタンパク質のデータベースから得られるアミノ酸配列情報に基づいて作成された、各既知タンパク質についてN末端から所定長さのアミノ酸残基からなるアミノ酸配列中の、アミノ酸残基をN末端側の最末端から順に除去した前記所定長さ以下の長さの末端近傍アミノ酸配列が収録されているN末端配列データベースと、
b)目的タンパク質由来の前記マススペクトル情報を、前記N末端配列データベースに収録されているアミノ酸配列又は該配列から求まる情報と照合することにより、前記目的タンパク質の末端部分のアミノ酸配列を推定するデータベース検索部と、
を備えることを特徴とするタンパク質のアミノ酸配列決定装置。
A protein that determines the amino acid sequence of the target protein or provides information for determining the amino acid sequence by performing a database search based on mass spectral information obtained by mass spectrometry of a peptide mixture derived from the target protein In the amino acid sequencing apparatus of
a) A database in which amino acid sequences of known proteins are recorded, and the position S of the N-terminal amino acid residue of the amino acid sequence of each known protein is 1 ≦ S ≦ p (provided that on the mRNA encoding the known protein) The first amino acid residue corresponding to the start codon of the coding region of p, and the p-th amino acid residue of the N-terminal protein present in the living body based on the base sequence information of the coding region on the mRNA encoding the known protein The amino acid residue in the amino acid sequence consisting of amino acid residues of a predetermined length from the N-terminus for each known protein, created based on the amino acid sequence information obtained from the database of known proteins consisting of amino acid sequences The amino acids in the vicinity of the end having a length equal to or shorter than the predetermined length in which the groups are sequentially removed from the N-terminal side from the most end. And N-terminal sequence database acid sequence has been recorded,
b) Database search for estimating the amino acid sequence of the terminal portion of the target protein by collating the mass spectrum information derived from the target protein with the amino acid sequence recorded in the N-terminal sequence database or information obtained from the sequence. And
A protein amino acid sequence determination apparatus comprising:
目的タンパク質由来のペプチド混合物を質量分析することで得られたマススペクトル情報に基づくデータベース検索を行うことにより、前記目的タンパク質のアミノ酸配列を決定する又は該アミノ酸配列を決定するための情報を提供するタンパク質のアミノ酸配列決定装置において、
a)既知のタンパク質のアミノ酸配列が収録されるデータベースであって、各既知タンパク質のアミノ酸配列のC末端アミノ酸残基の位置Tが、q≦T≦L(但し、当該既知タンパク質をコードするmRNA上のコーディング領域の開始コドンに対応するアミノ酸残基を1番目、当該既知タンパク質をコードするmRNA上のコーディング領域の塩基配列情報に基づき生体内に存在する状態のタンパク質のC末端アミノ酸残基をq番目、当該既知タンパク質をコードするmRNA上のコーディング領域の終止コドンの5’上流側に隣接するコドンに対応するアミノ酸残基をL番目とする)であるアミノ酸配列からなる、既知のタンパク質のデータベースから得られるアミノ酸配列情報に基づいて作成された、各既知タンパク質についてC末端から所定長さのアミノ酸残基からなるアミノ酸配列中の、アミノ酸残基をC末端側の最末端から順に除去した前記所定長さ以下の長さの末端近傍アミノ酸配列が収録されているC末端配列データベースと、
b)目的タンパク質由来の前記マススペクトル情報を、前記C末端配列データベースに収録されているアミノ酸配列又は該配列から求まる情報と照合することにより、前記目的タンパク質の末端部分のアミノ酸配列を推定するデータベース検索部と、
を備えることを特徴とするタンパク質のアミノ酸配列決定装置。
A protein that determines the amino acid sequence of the target protein or provides information for determining the amino acid sequence by performing a database search based on mass spectral information obtained by mass spectrometry of a peptide mixture derived from the target protein In the amino acid sequencing apparatus of
a) A database in which amino acid sequences of known proteins are recorded, where the position T of the C-terminal amino acid residue of each amino acid sequence of each known protein is q ≦ T ≦ L (provided that on the mRNA encoding the known protein) 1st amino acid residue corresponding to the start codon of the coding region, and q-th amino acid residue C-terminal amino acid residue of the protein in the living body based on the base sequence information of the coding region on the mRNA encoding the known protein Obtained from a database of known proteins consisting of an amino acid sequence that is the Lth amino acid residue corresponding to the codon adjacent to the 5 'upstream of the stop codon of the coding region on the mRNA encoding the known protein) For each known protein created based on the amino acid sequence information obtained from the C-terminus A C-terminal sequence database in which amino acid residues in the amino acid sequence consisting of amino acid residues of a fixed length are removed in order from the most terminal end on the C-terminal side, and the amino acid sequences near the terminal of the predetermined length or less are recorded. When,
b) Database search for estimating the amino acid sequence of the terminal portion of the target protein by collating the mass spectrum information derived from the target protein with the amino acid sequence recorded in the C-terminal sequence database or information obtained from the sequence And
A protein amino acid sequence determination apparatus comprising:
請求項6又は7に記載のタンパク質のアミノ酸配列決定装置であって、
前記既知のタンパク質データベースはゲノムデータに基づいて作成されたタンパク質データベースであることを特徴とするタンパク質のアミノ酸配列決定装置。
A protein amino acid sequence determination apparatus according to claim 6 or 7,
The amino acid sequence determination apparatus for proteins, wherein the known protein database is a protein database created based on genomic data.
請求項6〜8のいずれかに記載のタンパク質のアミノ酸配列決定装置であって、
前記マススペクトル情報はnが2以上の整数であるMSn分析結果に基づくプロダクトイオン情報であり、
前記データベース検索部は、MS/MSイオンサーチを用いて、前記プロダクトイオン情報を前記末端配列データベースに収録されているそれぞれのアミノ酸配列から求まるプロダクトイオン情報と照合することにより目的タンパク質の末端部分のアミノ酸配列を推定することを特徴とするタンパク質のアミノ酸配列決定装置。
An amino acid sequence determination device for a protein according to any one of claims 6 to 8,
The mass spectrum information is product ion information based on an MS n analysis result where n is an integer of 2 or more,
The database search unit uses MS / MS ion search to match the product ion information with the product ion information obtained from each amino acid sequence recorded in the terminal sequence database, thereby determining the amino acid at the terminal portion of the target protein. A protein amino acid sequencing apparatus characterized by estimating a sequence.
請求項6〜8のいずれかに記載のタンパク質のアミノ酸配列決定装置であって、
前記所定の長さはタンパク質の全長であり、前記マススペクトル情報はMS1イオンのみを用いた質量分析結果に基づくイオン情報であり、
前記データベース検索部は、ペプチドマスフィンガープリンティングを用いて、前記イオン情報を前記末端配列データベースに収録されているそれぞれのアミノ酸配列から求まるイオン情報と照合することにより目的タンパク質の末端部分を含むアミノ酸配列を推定することを特徴とするタンパク質のアミノ酸配列決定装置。
An amino acid sequence determination device for a protein according to any one of claims 6 to 8,
The predetermined length is the total length of the protein, and the mass spectrum information is ion information based on a mass analysis result using only MS 1 ions,
The database search unit uses peptide mass fingerprinting to check an amino acid sequence including a terminal portion of a target protein by comparing the ion information with ion information obtained from each amino acid sequence recorded in the terminal sequence database. A protein amino acid sequencing apparatus characterized by estimating.
JP2014029414A 2014-02-19 2014-02-19 Sequencing method and apparatus of amino acid of protein Pending JP2015152556A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014029414A JP2015152556A (en) 2014-02-19 2014-02-19 Sequencing method and apparatus of amino acid of protein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014029414A JP2015152556A (en) 2014-02-19 2014-02-19 Sequencing method and apparatus of amino acid of protein

Publications (1)

Publication Number Publication Date
JP2015152556A true JP2015152556A (en) 2015-08-24

Family

ID=53894950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014029414A Pending JP2015152556A (en) 2014-02-19 2014-02-19 Sequencing method and apparatus of amino acid of protein

Country Status (1)

Country Link
JP (1) JP2015152556A (en)

Similar Documents

Publication Publication Date Title
US7932486B2 (en) Mass spectrometer system
US20100288918A1 (en) System and method for performing tandem mass spectrometry analysis
JP5299060B2 (en) Glycopeptide structure analysis method and apparatus
JPH09510780A (en) Identification of nucleotides, amino acids or carbohydrates by mass spectrometry
JP6362611B2 (en) System and method for identifying compounds from MS / MS data without using precursor ion information
US10796784B2 (en) Mass spectrometric data analyzing apparatus and analyzing method
JP2007256126A (en) Mass spectrometry system
Ma Challenges in computational analysis of mass spectrometry data for proteomics
JP4058449B2 (en) Mass spectrometry method and mass spectrometer
JP6365863B2 (en) Database creation method for peptide peak identification and quantification in mass spectrometry
JP5751126B2 (en) Mass spectrometry data analysis method and analysis apparatus
JP6489224B2 (en) Peptide assignment method and peptide assignment system
JP5874587B2 (en) Amino acid sequence analysis method and apparatus
JP5776443B2 (en) Modified protein identification method and identification apparatus using mass spectrometry
JP2015230262A (en) Mass analysis data analysis method and device
JP2015152556A (en) Sequencing method and apparatus of amino acid of protein
JP6003842B2 (en) Protein identification method and identification apparatus
JP2015230261A (en) Sugar peptide analysis method and analysis device
JP2012251878A (en) Mass spectrometric data analysis method and analysis device
US20050192755A1 (en) Methods and systems for identification of macromolecules
JP4702284B2 (en) Protein analysis method
JP5983371B2 (en) Peptide structure analysis method and apparatus
KR100699437B1 (en) Apparatus and Method for Analysis of Amino Acid Sequence
JP2019185224A (en) Identification quality evaluation method and apparatus for endogenous modified peptide
JP2015031618A5 (en)