JP2017096668A - Identification support method and identification support device for living matter derived substance - Google Patents

Identification support method and identification support device for living matter derived substance Download PDF

Info

Publication number
JP2017096668A
JP2017096668A JP2015226510A JP2015226510A JP2017096668A JP 2017096668 A JP2017096668 A JP 2017096668A JP 2015226510 A JP2015226510 A JP 2015226510A JP 2015226510 A JP2015226510 A JP 2015226510A JP 2017096668 A JP2017096668 A JP 2017096668A
Authority
JP
Japan
Prior art keywords
protein
identification
biological substance
analysis
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015226510A
Other languages
Japanese (ja)
Inventor
明康 吉沢
Akiyasu Yoshizawa
明康 吉沢
田畑 剛
Takeshi Tabata
剛 田畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Priority to JP2015226510A priority Critical patent/JP2017096668A/en
Publication of JP2017096668A publication Critical patent/JP2017096668A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

PROBLEM TO BE SOLVED: To support a work for identifying protein, and improve identification accuracy.SOLUTION: An identification support method is configured to clearly indicate and display a portion corresponding to peptide which is estimated in database retrieval in an amino acid sequence for every protein candidate, when database retrieval based on a mass spectrum acquired by mass analysis, is performed, plural candidates whose scores are close, are obtained, namely a result is not determined (S9). If plural mass spectra are included in one analysis unit, determined peptide and non-determined peptide obtained from the plural mass spectra are clearly indicated and displayed in the amino acid sequence of the protein candidate. An analyzer looks at the display, then selects a proper candidate by determining possibility of attribution such as, the determined peptide is included (S10). Then, through a manual attribution of the analyzer, a final identification result is determined and displayed (S11).SELECTED DRAWING: Figure 2

Description

本発明は、生体由来物質を含む被検試料を質量分析し、これにより得られた質量分析データを用いてその生体由来物質を同定する作業を支援する方法、及びその支援を行うための装置に関する。本発明は特に、生体由来物質の一つであるタンパク質由来のペプチ混合物を含む被検試料を質量分析し、これにより得られた質量分析データを用いてペプチドのアミノ酸配列を推定することによってタンパク質を同定する作業を支援するのに好適な同定支援方法及び装置に関する。   The present invention relates to a method for supporting the work of mass-analyzing a test sample containing a biological substance and identifying the biological substance using mass spectrometry data obtained thereby, and an apparatus for performing the support. . In particular, the present invention mass-analyzes a test sample containing a peptide mixture derived from a protein that is one of biological substances, and estimates the amino acid sequence of the peptide using the mass spectrometry data obtained thereby. The present invention relates to an identification support method and apparatus suitable for supporting an identifying operation.

近年、ポストゲノム研究としてタンパク質の構造や機能の解析が急速に進められている。このようなタンパク質の構造・機能解析手法(プロテオミクス)の一つとして、質量分析計を用いたタンパク質の発現解析や一次構造解析が広く行われるようになってきており、四重極型イオントラップや衝突誘起解離(CID)などによって特定のピークの捕捉と開裂を行う、いわゆるMSn分析(nは2以上の整数)が威力を発揮している。一般にMS2分析では、まず、分析対象物から特定の質量電荷比を有するイオンをプリカーサイオンとして選別し、該プリカーサイオンをCID等により開裂させる。その後、開裂によって生成した各種プロダクトイオンを質量分析することによって、目的とするイオンの質量や化学構造についての情報を得ることができる。 In recent years, protein structures and functions have been rapidly analyzed as post-genomic research. As one of such protein structure / function analysis methods (proteomics), protein expression analysis and primary structure analysis using mass spectrometers have been widely performed. So-called MS n analysis (n is an integer of 2 or more), which captures and cleaves specific peaks by collision-induced dissociation (CID) or the like, is effective. In general, in MS 2 analysis, ions having a specific mass-to-charge ratio are first selected as precursor ions from an analysis target, and the precursor ions are cleaved by CID or the like. Thereafter, by analyzing the mass of various product ions generated by cleavage, information on the mass and chemical structure of the target ion can be obtained.

MSn分析を利用してタンパク質を同定する場合には、まず、同定対象であるタンパク質を適当な酵素で消化してペプチド断片の混合物としてから、該ペプチド混合物を質量分析してマススペクトルを取得する。続いて、ペプチド混合物のマススペクトルデータの中から、例えば単一のペプチドに由来する一組の同位体ピーク群をプリカーサイオンとして選択し、該プリカーサイオンをCID等により開裂させ、生成されたプロダクトイオンに対する質量分析、つまりMS2分析を行う。また、1回の開裂操作によっては十分に小さな断片にまで開裂しない場合には、開裂操作を複数回行う、つまりnが3以上のMSn分析を行うこともある。 When identifying a protein using MS n analysis, first, the protein to be identified is digested with an appropriate enzyme to form a mixture of peptide fragments, and then mass spectrometry is performed on the peptide mixture to obtain a mass spectrum. . Subsequently, from a mass spectrum data of the peptide mixture, for example, a set of isotope peaks derived from a single peptide is selected as a precursor ion, the precursor ion is cleaved by CID or the like, and the generated product ion Mass spectrometry for MS, ie MS 2 analysis. In addition, when the cleavage operation is not performed to a sufficiently small fragment by one cleavage operation, the cleavage operation is performed a plurality of times, that is, MS n analysis in which n is 3 or more may be performed.

以上のようにして1段又は2以上の多段の開裂操作を伴う質量分析によりMSnスペクトルが得られたならば、例えば、そのMSnスペクトルから求まるプロダクトイオンの質量と、タンパク質データベースに登録されているタンパク質のアミノ酸配列から計算によって求まるペプチド断片の質量とを比較し、その一致度を手がかりとして複数の被検ペプチドのアミノ酸配列をそれぞれ決定し、さらに目的とするタンパク質を同定する。
こうしたデータベース検索をコンピュータにより行うための解析ソフトウエアとしては、英国マトリクスサイエンス(Matrix Science)社のマスコット(Mascot)に含まれるMS/MSイオンサーチがよく知られている。また、GPM(The Global Proteome Machine Organization)が提供しているX! Tandemなどの他の解析ソフトウエアにも同様の機能が搭載されている。
If an MS n spectrum is obtained by mass spectrometry with one or two or more multi-stage cleavage operations as described above, for example, the mass of the product ion obtained from the MS n spectrum and the protein ion database are registered. The mass of the peptide fragment obtained by calculation from the amino acid sequence of the protein in question is compared, the amino acid sequences of a plurality of test peptides are determined using the degree of coincidence as a clue, and the target protein is identified.
As analysis software for performing such a database search by a computer, MS / MS ion search included in Mascot of Matrix Science, UK is well known. The same function is also installed in other analysis software such as X! Tandem provided by GPM (The Global Proteome Machine Organization).

MS/MSイオンサーチなどを用いた従来のタンパク質同定システムでは、MSnスペクトルに現れているピークから、対応するペプチドを同定するだけでなくタンパク質まで自動的に同定している。しかしながら、一つのMSnスペクトルから帰属可能なペプチドの候補が複数得られる場合がある、一つのペプチドに帰属されてもそのペプチドが単一のタンパク質のみでなく複数種のタンパク質に出現している場合がある、さらには、翻訳後修飾によってペプチドの質量電荷比がデータベースに収録されているアミノ酸配列のそれと異なっている場合がある、といった理由のため、自動的にタンパク質が一意に決定できるという保証はない。特に、プロテオミクス研究を目的とした同定作業においては、被検試料が、単一のタンパク質由来のペプチド混合物ではなく、複数種のタンパク質由来のペプチドが混在した状態であることが多い。そうした場合、自動的に導出されるタンパク質の同定結果の信頼性は必ずしも高くないため、その信頼性を分析者自身が判断する必要がある。 In a conventional protein identification system using MS / MS ion search or the like, not only the corresponding peptide but also the protein is automatically identified from the peak appearing in the MS n spectrum. However, multiple candidate peptides that can be assigned from one MS n spectrum may be obtained. Even if the peptide is assigned to one peptide, the peptide appears not only in a single protein but also in multiple types of proteins. There is also a guarantee that the protein can be automatically determined uniquely because, for example, the post-translational modification may cause the peptide mass-to-charge ratio to differ from that of the amino acid sequence recorded in the database. Absent. In particular, in identification work aiming at proteomics research, the test sample is often in a state in which peptides derived from a plurality of types of proteins are mixed, not a peptide mixture derived from a single protein. In such a case, the reliability of the automatically derived protein identification result is not necessarily high, and it is necessary for the analyst to judge the reliability.

そのために、上述したMascotなどのソフトウエアを使用した解析では、プロダクトイオンの質量電荷比に基づいて該当すると推定されるペプチドの候補が、そのそれぞれをアミノ酸配列に含むタンパク質のエントリ名とともに、また、データベース検索における一致の程度を示す指標であるスコアが候補毎に付された状態で、出力されるようになっている。また、Mascotに搭載されているプロテインビュー(Protein View)機能(非特許文献1参照)を用いると、データベース検索によって帰属されたペプチドが、同じく帰属されたタンパク質のアミノ酸配列中のどの位置に存在しているのかが強調した状態で表示される(例えば、帰属されたペプチドのアミノ酸配列は赤色で、それ以外は黒色で表示される)ようになっている。さらにまた、同定されたペプチドがタンパク質全体のアミノ酸配列中においてどの程度の割合を占めるかが、プロテインシーケンスカバレージ(Protein sequence coverage)という指標で表示されるようになっている。こうした表示に基づいて、分析者は、その解析においてタンパク質を同定した結果がどの程度信頼できるのかを判断することができる。   Therefore, in the analysis using the software such as Mascot described above, the candidate peptides that are estimated to be applicable based on the mass-to-charge ratio of the product ions, together with the entry names of the proteins that each include the amino acid sequence, A score, which is an index indicating the degree of matching in database search, is output for each candidate. In addition, when using the protein view (Protein View) function (refer to Non-Patent Document 1) installed in Mascot, the peptide assigned by database search is located at any position in the amino acid sequence of the assigned protein. (For example, the amino acid sequence of the assigned peptide is displayed in red and the others are displayed in black). Furthermore, the proportion of the identified peptide in the amino acid sequence of the entire protein is displayed by an index called protein sequence coverage. Based on such a display, the analyst can determine how reliable the result of identifying the protein in the analysis is.

従来のタンパク質同定システムにおいて、分析者に提供される上述したような情報はいずれも、データベース検索を行った結果として推定されたペプチドをタンパク質に帰属した上で、そのタンパク質への帰属の信頼性を自動的な同定処理の実行後に評価しているものである。そのため、タンパク質同定結果の信頼性が低いと分析者が判断した場合には、例えばタンパク質を同定する過程で得られたペプチドの推定結果などを検証し、ペプチドをタンパク質に帰属する段階での選択を分析者自身がやり直すといった作業が必要になる。そうした際に参照される一つの指標は同定結果として得られたペプチド候補毎に与えられているスコアであるが、実際には、複数の候補に与えられているスコアの中で最も高いスコアでも、統計的にみると有意といえる程度のスコアに達していないことがよくある。また、複数の同定候補が導出され、そのいずれもが有意ではあっても充分に高いスコアではなくしかもスコアの値が近接している、という状態になることもよくある。こうした状態は少なくとも一部の帰属結果が一意に決まらない状態であるということができ、このような場合、最も適切と考えられるタンパク質の候補を選択することは容易ではない。   In the conventional protein identification system, any of the above-mentioned information provided to the analyst assigns the estimated peptide as a result of the database search to the protein, and then determines the reliability of the assignment to the protein. It is evaluated after execution of automatic identification processing. Therefore, if the analyst determines that the reliability of the protein identification result is low, for example, the peptide estimation result obtained in the process of identifying the protein is verified, and the selection at the stage of assigning the peptide to the protein is performed. The analyst himself needs to start over. One index referred to in such a case is a score given to each candidate peptide obtained as an identification result, but in fact, even the highest score among the scores given to multiple candidates, Often, a statistically significant score has not been reached. In addition, a plurality of identification candidates are derived, and even if all of them are significant, the score is not high enough, and the score values are often close to each other. It can be said that such a state is a state in which at least a part of the assignment result is not uniquely determined. In such a case, it is not easy to select a protein candidate considered to be most appropriate.

即ち、従来のタンパク質同定システムでは、MSnスペクトルに基づくペプチドの同定結果を利用してタンパク質の同定(帰属)を分析者が自らの判断の下に行おうとしても、分析者がそうした判断を行うための材料が充分には提供されない。そのため、分析者が手動でタンパク質を同定する作業は大変煩わしいのみならず、その同定の精度を高めることも困難である。 In other words, in the conventional protein identification system, even if the analyst tries to perform protein identification (assignment) based on his / her own judgment using the peptide identification result based on the MS n spectrum, the analyst makes such judgment. Are not provided with sufficient materials. Therefore, the task of manually identifying a protein by an analyst is not only very troublesome, but it is also difficult to increase the accuracy of the identification.

また、上述した解析ソフトウエアを用いた従来のタンパク質同定システムでは、同定作業によって抽出された複数のタンパク質候補がランキング形式で表示され、多くの分析者は、表示されるランキングにおいて第1順位のタンパク質候補をそのまま採用し、第2順位以下の結果を検討しない。しかしながら、アイソフォーム(isoform)など類似したアミノ酸配列が複数存在している場合には、第2順位以下の候補の中に、より適切な結果が含まれている可能性が否定できない。解析対象のアミノ酸配列中に翻訳後修飾が含まれている場合、特にペプチドのアミノ酸配列が異なっていて翻訳後修飾も異なっている複数のタンパク質候補が得られた場合には、第1順位である候補が適切あるかどうかを判断するのは容易ではない。現状では、こうした場合に、どの帰属を選択するのが最も適切かという判断をコンピュータに完全に任せることができるほど信頼性の高い判定アルゴリズムや評価関数はまだ存在していない。そのため、最終的なタンパク質の帰属の判断は分析者自身が行うことが望ましいものの、こうした判断を容易に行うための適切な支援方法、特に分析者がそうした判断をするために有用な情報を視覚的に把握し易く表示する手法は存在していない。   In addition, in the conventional protein identification system using the analysis software described above, a plurality of protein candidates extracted by the identification work are displayed in a ranking format, and many analysts indicate that the first ranking protein in the displayed ranking. Candidates are adopted as they are, and results below the second rank are not considered. However, when there are a plurality of similar amino acid sequences such as isoforms, the possibility that a more appropriate result is included in the candidates of the second rank or lower cannot be denied. When the post-translational modification is included in the amino acid sequence to be analyzed, especially when a plurality of protein candidates having different amino acid sequences of the peptide and different post-translational modifications are obtained, the ranking is first. It is not easy to determine whether a candidate is appropriate. At present, in such a case, there is not yet a determination algorithm or an evaluation function that is reliable enough to allow the computer to completely decide which attribution is most appropriate to select. Therefore, although it is desirable for the analyst to make the final determination of protein assignment, appropriate support methods for making such a determination easily, especially information useful for the analyst to make such a determination visually There is no method for displaying the information easily.

さらにまた、生体由来物質の解析においては、上述したようなデータベース検索などにより得られた同定結果(例えば帰属されたタンパク質のリスト)が、他のオミックス(Omics)測定によるデータ、例えば、ゲノミクス、メタボロミクス、トランスクリプトミクスなどの測定や解析で得られたデータと統合されるオミックス解析が行われることがよくある。例えばオミックス解析を利用したタンパク質の同定においては、質量分析の結果に基づいてペプチドが同定され、その上で、そのペプチドの元となったタンパク質が同じ質量分析結果に基づいて求まったゲノム情報を利用して自動的に同定されることがある。   Furthermore, in the analysis of biological materials, identification results (for example, a list of assigned proteins) obtained by database search as described above are obtained from other omics measurement data such as genomics and metabolomics. Often, omics analysis is performed that is integrated with data obtained by measurement and analysis such as transcriptomics. For example, in the identification of proteins using omics analysis, peptides are identified based on the results of mass spectrometry, and then the genome information obtained based on the same mass analysis results is used for the protein that is the basis of the peptides. May be automatically identified.

しかしながら、実際には、既に述べたように質量分析結果を利用したペプチドやタンパク質の帰属の過程では自動的にペプチドやタンパク質が一意に決定できるという保証はないため、上述のようにゲノム情報を利用したとしてもタンパク質が正確に同定できるとは限らない。   However, in fact, as described above, there is no guarantee that peptides and proteins can be uniquely determined automatically in the process of assigning peptides and proteins using mass spectrometry results, so genomic information is used as described above. Even so, the protein cannot always be identified accurately.

なお、オミックス解析における同様の問題は、タンパク質以上に開裂パターンなどが把握されておらず、ゲノム情報も直接的には利用できず、且つ同定のためのデータベースも充分には完備されていない、タンパク質以外の生体由来物質、例えば脂質や糖鎖などの化合物を同定する際にも生じる。   The same problem in omics analysis is that the cleavage pattern is not grasped more than the protein, genome information is not directly available, and the database for identification is not fully prepared. It also occurs when identifying other biological substances such as lipids and sugar chains.

「マスコット・データベース・サーチ リザルト・レポート・オーバービュー(Mascot database search Result report overview」、[online]、英国マトリックス・サイエンス社(Matrix Science Ltd.)、[平成27年5月15日検索]、インターネット<URL : http://www.matrixscience.com/help/results_help.html#PROT>“Mascot database search Result report overview” [online], Matrix Science Ltd., UK [May 15, 2015 search], Internet < URL: http://www.matrixscience.com/help/results_help.html#PROT>

本発明は上記課題を解決するために成されたものであり、その第1の目的は、生体由来物質の中で特にタンパク質を同定する際に、その同定の過程において分析者に適切な情報を提供することによって、該分析者の判断を一部に利用した精度の高い同定を行うことができる生体由来物質の同定支援方法及び同定支援装置を提供することにある。   The present invention has been made in order to solve the above-mentioned problems. The first object of the present invention is to provide appropriate information to the analyst during the identification process, particularly when identifying proteins among biological materials. By providing, the identification assistance method and identification assistance apparatus of the biological substance which can perform the identification with the high precision which utilized the judgment of this analyst in part are provided.

また本発明の第2の目的は、例えばプロテオミクス解析におけるゲノミクス測定結果の利用など他のオミックス情報やそのほかの関連した情報を利用することで、生体由来物質の同定精度を向上させることができる生体由来物質の同定支援方法及び同定支援装置を提供することにある。   In addition, the second object of the present invention is to be able to improve the identification accuracy of biological substances by using other omics information such as use of genomics measurement results in proteomic analysis and other related information. The object is to provide a substance identification support method and an identification support apparatus.

上記第1の目的を達成するためになされた本発明の第1の態様による生体由来物質の同定支援方法は、生体由来物質である目的タンパク質を断片化したペプチド混合物を含む試料を質量分析した結果に基づいて目的タンパク質を同定する同定作業を支援する生体由来物質の同定支援方法であって、
a)試料に対する質量分析によって得られたマススペクトルデータに基づいて該試料に含まれる少なくとも一部のペプチドのアミノ酸配列を推定するとともに、その推定結果に基づき目的タンパク質として複数のタンパク質候補を抽出する候補抽出ステップと、
b)前記候補抽出ステップで抽出された複数のタンパク質候補それぞれについて、そのタンパク質のアミノ酸配列の表記の中で前記候補抽出ステップにおいて推定されたペプチドのアミノ酸配列をそれ以外のアミノ酸配列とは識別可能であるように表示する表示処理ステップと、
を有し、前記表示処理ステップにおける表示結果を参照して分析者自らがタンパク質候補の中から候補の選択を行えるようにしたことを特徴としている。
The identification support method for a biological substance according to the first aspect of the present invention made to achieve the first object is a result of mass spectrometry of a sample containing a peptide mixture obtained by fragmenting a target protein that is a biological substance. An identification support method for a biological substance that supports identification work for identifying a target protein based on
a) Candidates that estimate the amino acid sequences of at least some of the peptides contained in the sample based on mass spectral data obtained by mass spectrometry of the sample and extract a plurality of protein candidates as target proteins based on the estimation result An extraction step;
b) For each of a plurality of protein candidates extracted in the candidate extraction step, the amino acid sequence of the peptide estimated in the candidate extraction step can be distinguished from other amino acid sequences in the description of the amino acid sequence of the protein. A display processing step to display as it is,
And the analyst can select a candidate from protein candidates by referring to the display result in the display processing step.

また上記第1の目的を達成するためになされた本発明の第1の態様による生体由来物質の同定支援装置は、生体由来物質である目的タンパク質を断片化したペプチド混合物を含む試料を質量分析した結果に基づいて目的タンパク質を同定する同定作業を支援する生体由来物質の同定支援装置であって、
a)試料に対する質量分析によって得られたマススペクトルデータに基づいて該試料に含まれる少なくとも一部のペプチドのアミノ酸配列を推定するとともに、その推定結果に基づき目的タンパク質として複数のタンパク質候補を抽出する候補抽出部と、
b)前記候補抽出部により抽出された複数のタンパク質候補それぞれについて、そのタンパク質のアミノ酸配列の表記の中で前記候補抽出部により推定されたペプチドのアミノ酸配列をそれ以外のアミノ酸配列とは識別可能であるように表示する表示処理部と、
を備え、前記表示処理部による表示結果を参照して分析者自らがタンパク質候補の中から候補の選択を行えるようにしたことを特徴としている。
Moreover, the identification support apparatus for a biological substance according to the first aspect of the present invention, which has been made to achieve the first object, mass-analyzed a sample containing a peptide mixture obtained by fragmenting a target protein that is a biological substance. An identification support apparatus for a biological substance that supports identification work for identifying a target protein based on a result,
a) Candidates that estimate the amino acid sequences of at least some of the peptides contained in the sample based on mass spectral data obtained by mass spectrometry of the sample and extract a plurality of protein candidates as target proteins based on the estimation result An extractor;
b) For each of a plurality of protein candidates extracted by the candidate extraction unit, the amino acid sequence of the peptide estimated by the candidate extraction unit can be distinguished from other amino acid sequences in the description of the amino acid sequence of the protein. A display processing unit for displaying as it is,
The analyzer is capable of selecting a candidate from protein candidates by referring to the display result by the display processing unit.

ここでマススペクトルデータは、nが2以上のMSnスペクトルデータを含む。 Here, the mass spectrum data includes MS n spectrum data in which n is 2 or more.

上述したMascotのProtein Viewでは、マススペクトルデータに基づくデータベース検索によって帰属が決定されたペプチドが、同じく自動的に帰属が決定されたタンパク質のアミノ酸配列の表記の中で強調して表示されていた。これに対して本発明の第1の態様による同定支援装置により実現される本発明の第1の態様による同定支援方法では、タンパク質の帰属が決定される前の段階、つまりマススペクトルデータに基づいて推定されたペプチドが含まれるタンパク質が目的タンパク質の候補として挙げられた段階で、その推定されたペプチドがタンパク質候補のアミノ酸配列中のどの部分に該当するかを明示した表示を分析者に提供する。例えば推定されるペプチドが一つのみであっても、一般に、その一つのペプチドを含むタンパク質は複数存在するから、複数のタンパク質候補が抽出される。その複数のタンパク質候補の一つ一つについて、推定されたペプチドの位置が明確になるように例えば他とは異なる文字色で該ペプチドに対応するアミノ酸配列を表示する。分析者はこの表示を見て、いずれの候補を採用するのかを自身で判断する、つまりは手動での帰属決定作業を行えばよい。   In the Mascot Protein View described above, peptides whose attribution was determined by database search based on mass spectrum data were highlighted in the notation of the amino acid sequence of the protein whose attribution was also automatically determined. On the other hand, in the identification support method according to the first aspect of the present invention realized by the identification support device according to the first aspect of the present invention, based on the stage before the protein assignment is determined, that is, based on the mass spectrum data. When a protein containing the estimated peptide is listed as a candidate for the target protein, the analyst is provided with a display that clearly indicates which part of the amino acid sequence of the protein candidate the estimated peptide corresponds to. For example, even if there is only one estimated peptide, generally, there are a plurality of proteins containing the one peptide, and therefore a plurality of protein candidates are extracted. For each of the plurality of protein candidates, for example, the amino acid sequence corresponding to the peptide is displayed in a different character color so that the estimated position of the peptide becomes clear. The analyst may look at this display and determine himself / herself which candidate is to be adopted, that is, perform an attribution determination manually.

例えば、解析しようとしているMSnスペクトルが一つであるとすると、通常、それは一つのペプチドに由来するから、タンパク質候補のアミノ酸配列中に明示されるペプチドは一つである。これに対し、ペプチド混合物である一つの試料から得られた複数のMSnスペクトルに基づいてそれぞれ推定されたペプチドの全てをタンパク質候補のアミノ酸配列中で明示すれば、タンパク質候補毎に明示されているペプチドの数がばらつく等、分析者が候補を選択する際に参照する材料が増える。また、これは分析者による判断が容易になるだけでなく、的確な選択を行える、つまりは正解であるタンパク質を選択する確率を高めることにもなる。 For example, if there is one MS n spectrum to be analyzed, it is usually derived from one peptide, so there is only one peptide specified in the amino acid sequence of the protein candidate. On the other hand, if all of the peptides estimated based on multiple MS n spectra obtained from one sample that is a peptide mixture are clearly shown in the amino acid sequence of the protein candidate, this is clearly indicated for each protein candidate. More material is referred to when the analyst selects candidates such as the number of peptides varies. This not only facilitates the judgment by the analyst, but also increases the probability that an accurate selection can be made, that is, a correct protein is selected.

そこで本発明の第1の態様による生体由来物質の同定支援方法において、好ましくは、
一つの解析単位として1回の解析に反映させるデータの範囲を分析者が指定する解析単位指定ステップをさらに有し、
前記候補抽出ステップでは、一つの解析単位として指定された全てのデータに基づいてペプチドのアミノ酸配列の推定及びタンパク質候補の抽出を行い、
前記表示処理ステップでは、一つの解析単位として指定された全てのデータに基づくペプチドの推定結果をタンパク質候補毎に統合して表示するようにするとよい。
Therefore, in the identification support method for a biological substance according to the first aspect of the present invention, preferably,
An analysis unit specifying step in which an analyst specifies a range of data to be reflected in one analysis as one analysis unit;
In the candidate extraction step, the estimation of the amino acid sequence of the peptide and the extraction of protein candidates are performed based on all data designated as one analysis unit,
In the display processing step, peptide estimation results based on all data designated as one analysis unit may be integrated and displayed for each protein candidate.

ここで「1回の解析に反映させるデータの範囲」の指定とは例えば、一つのマススペクトルを構成するデータ、一つの試料に対して得られた全てのマススペクトルを構成するデータ、さらには、1回の実験において実施された複数の試料に対して得られた全てのマススペクトルを構成するデータなどの選択を意味するものとすることができる。一つの解析単位として、一つの目的タンパク質由来のペプチド混合物を含む一つの試料に対して得られた全てのマススペクトルを構成するデータを選択すれば、上述したようにタンパク質候補のアミノ酸配列において複数のペプチドが明示される可能性があるから、例えばそのペプチドの数などを一つの材料として適当な候補を選択することができる。
一方、一つの解析単位として、1回の実験において実施された複数の試料に対して得られた全てのマススペクトルを構成するデータを選択すれば、その実験の条件の下で発現している全てのタンパク質を同定対象とすることになるので、網羅的な、つまりはプロテオミクス的な解析を実行することになる。
Here, the designation of “data range to be reflected in one analysis” is, for example, data constituting one mass spectrum, data constituting all mass spectra obtained for one sample, It may mean selection of data or the like constituting all mass spectra obtained for a plurality of samples performed in one experiment. As one analysis unit, if data constituting all mass spectra obtained for one sample containing a peptide mixture derived from one target protein is selected, a plurality of amino acid sequences of protein candidates as described above are selected. Since a peptide may be clearly specified, an appropriate candidate can be selected using, for example, the number of peptides as one material.
On the other hand, if data constituting all mass spectra obtained for a plurality of samples carried out in one experiment is selected as one analysis unit, all data expressed under the conditions of the experiment Therefore, exhaustive, that is, proteomic analysis is performed.

なお、MS/MSイオンサーチなどを用いたデータベース検索ではペプチドを推定する際にスコアが計算され、そのスコア値が極端に高ければそのペプチドはほぼ確定的であるといえる。逆に、スコアが低ければ、そのペプチドは可能性はあるものの確定的であるとまではいえない。そこで、タンパク質候補のアミノ酸配列中でペプチドを明示する際に、スコアなどに応じて確定的であると判断されるペプチドと非確定的であると判断されるペプチドとを識別可能に表示するようにしてもよい。また、各ペプチドに与えられたスコア値の範囲が視覚的に分かるような表示としてもよい。   In a database search using MS / MS ion search or the like, a score is calculated when a peptide is estimated. If the score value is extremely high, the peptide is almost deterministic. Conversely, if the score is low, the peptide is likely but not deterministic. Therefore, when specifying peptides in the amino acid sequences of protein candidates, peptides that are determined to be deterministic and peptides that are determined to be non-deterministic are displayed in a distinguishable manner according to the score. May be. Moreover, it is good also as a display which can understand the range of the score value provided to each peptide visually.

上記第2の目的を達成するためになされた本発明の第2の態様による生体由来物質の同定支援方法は、目的の生体由来物質を含む試料を質量分析した結果に基づいて該目的の生体由来物質を同定する同定作業を支援する生体由来物質の同定支援方法であって、
a)試料に対する質量分析によって得られたマススペクトルデータに基づいて目的の生体由来物質の候補物質を複数抽出する候補抽出ステップと、
b)前記マススペクトルデータからは導出できない前記目的の生体由来物質に関連した参照情報を用いて、複数の前記候補物質の中から蓋然性の高い物質候補を選択する物質選択ステップと、
を有することを特徴としている。
The identification support method for a biological substance according to the second aspect of the present invention made to achieve the second object is based on the result of mass spectrometry of a sample containing the target biological substance. A method for supporting identification of a biological substance that supports identification work for identifying a substance,
a) a candidate extraction step of extracting a plurality of candidate substances of a target biological substance based on mass spectral data obtained by mass spectrometry on a sample;
b) a substance selection step of selecting a highly probable substance candidate from among the plurality of candidate substances using reference information related to the target biological substance that cannot be derived from the mass spectrum data;
It is characterized by having.

また上記第1の目的を達成するためになされた本発明の第2の態様による生体由来物質の同定支援装置は、目的の生体由来物質を含む試料を質量分析した結果に基づいて該目的の生体由来物質を同定する同定作業を支援する生体由来物質の同定支援装置であって、
a)試料に対する質量分析によって得られたマススペクトルデータに基づいて目的の生体由来物質の候補物質を複数抽出する候補抽出部と、
b)前記マススペクトルデータからは導出できない前記目的の生体由来物質に関連した参照情報を用いて、複数の前記候補物質の中から蓋然性の高い物質候補を選択する物質選択部と、
を備えることを特徴としている。
Moreover, the identification support apparatus for a biological substance according to the second aspect of the present invention, which has been made to achieve the first object, provides a target biological substance based on the result of mass spectrometry of a sample containing the target biological substance. An identification support apparatus for a biological substance that supports identification work for identifying a derived substance,
a) a candidate extraction unit that extracts a plurality of candidate substances of a target biological substance based on mass spectral data obtained by mass spectrometry of a sample;
b) using a reference information related to the target biological substance that cannot be derived from the mass spectrum data, a substance selection unit that selects a highly probable substance candidate from the plurality of candidate substances;
It is characterized by having.

ここでいう生体由来物質とは、タンパク質のほか、核酸、糖鎖、脂質などである。本発明の第2の態様による同定支援方法において、例えば生体由来物質がタンパク質である場合、候補抽出ステップではMS/MSイオンサーチなどを用いたデータベース検索によって、或いは、デノボシーケンシングを利用したアミノ酸配列解析によって、マススペクトルデータに基づいて目的のタンパク質の候補が複数抽出される。従来の一般的な同定作業では、タンパク質のアミノ酸配列を推定する過程で得られたペプチドの信頼度などの情報つまりはあくまでも質量分析結果に基づいて、蓋然性の高いタンパク質候補が選択される。これに対し、本発明の第2の態様による同定支援方法では、質量分析結果を用いて求めたものではない情報であって且つ信頼性のある参照情報を利用して、複数のタンパク質候補の中から蓋然性の高い候補を選択する。   The term “biologically derived material” as used herein refers to proteins, nucleic acids, sugar chains, lipids, and the like. In the identification support method according to the second aspect of the present invention, for example, when the biological substance is a protein, the candidate extraction step uses a database search using MS / MS ion search or the like, or an amino acid sequence using de novo sequencing. By the analysis, a plurality of target protein candidates are extracted based on the mass spectrum data. In the conventional general identification work, a highly probable protein candidate is selected based on information such as the reliability of the peptide obtained in the process of estimating the amino acid sequence of the protein, that is, based on the result of mass spectrometry. On the other hand, in the identification support method according to the second aspect of the present invention, information that is not obtained by using the mass spectrometry result and reliable reference information is used to select a plurality of protein candidates. Select a candidate with a high probability.

上記参照情報として利用できる情報としては、候補抽出ステップにおいて候補物質を抽出するために用いた解析手法とは異なる種類のオミックス解析による情報が挙げられる。具体的に言うと、目的の生体由来物質がタンパク質であり、候補抽出ステップにおいて質量分析法によるプロテオミクス解析の手法でタンパク質候補を抽出している場合、上記参照情報として質量分析法によるプロテオミクス解析結果以外の他のオミックス情報を利用することができる。こうしたオミックス情報として、例えばゲノミクス解析による遺伝子発現量の情報や同じくゲノミクス解析における遺伝子発現ネットワークを示すパスウェイマップ、或いはメタボロミクス解析における代謝物ネットワークを示すパスウェイマップなどが有用である。また、質量分析法によるもの以外の、例えば抗体を用いたプロテオミクス解析結果をオミックス情報として用いることも考えられる。   Information that can be used as the reference information includes information obtained by an omics analysis of a type different from the analysis method used for extracting candidate substances in the candidate extraction step. Specifically, when the target biological substance is a protein, and protein candidates are extracted by a mass spectrometry proteomic analysis method in the candidate extraction step, the above reference information other than the results of the mass spectrometry proteomic analysis Other omics information can be used. As such omics information, for example, information on gene expression level by genomics analysis, pathway map showing gene expression network in genomics analysis, pathway map showing metabolite network in metabolomics analysis, etc. are useful. It is also conceivable to use proteomic analysis results using, for example, antibodies other than those obtained by mass spectrometry as omics information.

こうしたオミックス情報は、質量分析法によるプロテオミクス解析とは異なる手法で得られたものであり、過去からの知見が積み上げられてきた結果であるので充分な信頼性もある。そこで、こうしたオミックス情報は質量分析結果に基づくタンパク質の帰属の決定に際し有力な情報となり得る。   Such omics information is obtained by a method different from proteomics analysis by mass spectrometry, and is a result obtained by accumulating knowledge from the past, and thus has sufficient reliability. Thus, such omics information can be useful information in determining protein attribution based on mass spectrometry results.

また、目的の生体由来物質がタンパク質であり、候補抽出ステップにおいて質量分析法によるプロテオミクス解析の手法でタンパク質候補を抽出している場合に、上記参照情報としてオミックス情報以外にタンパク質の立体構造情報などを利用することもできる。一般にタンパク質の立体構造情報は、質量分析結果から推定されるアミノ酸配列だけからは推定が困難な情報であり、質量分析とは全く異なる手法で得られた例えばX線構造解析情報などに基づいて得られるものである。   In addition, when the target biological substance is a protein and protein candidates are extracted by a proteomic analysis method using mass spectrometry in the candidate extraction step, the three-dimensional structure information of the protein, in addition to the omics information, is used as the reference information. It can also be used. In general, protein three-dimensional structure information is difficult to estimate from only the amino acid sequence estimated from the results of mass spectrometry, and is obtained based on, for example, X-ray structure analysis information obtained by a method completely different from mass spectrometry. It is

本発明の第1の態様による生体由来物質の同定支援方法及び同定支援装置によれば、マススペクトルに基づいて自動的にタンパク質の帰属が決定されてしまうのではなく、マススペクトルに基づいて推定された結果を分析者が視覚的に比較し、分析者が判断したうえでタンパク質の帰属を決定することができる。そのため、一部の帰属結果が一意に決まらない状態にあって自動的なタンパク質の帰属の信頼性が低いような場合でも、分析者自身の知見や経験等に基づく判断を加え、適切なタンパク質候補を簡便に選択することが可能となる。それによって、タンパク質の帰属が一旦行われたあとに信頼度の低い結果であった場合に分析者が再度帰属をやり直すような煩雑な作業がなくなり、しかもタンパク質の同定の精度を高めることもできる。   According to the identification support method and the identification support apparatus for a biological substance according to the first aspect of the present invention, protein assignment is not automatically determined based on the mass spectrum, but is estimated based on the mass spectrum. The result of the analysis can be compared visually by the analyst, and the attribution of the protein can be determined based on the judgment of the analyst. For this reason, even if some of the attribution results are not uniquely determined and the reliability of automatic protein attribution is low, judgment based on the analyst's own knowledge and experience is added, and appropriate protein candidates are added. Can be easily selected. This eliminates the troublesome task of an analyst re-assigning again when the result of the protein assignment is low after the result of the protein assignment, and the accuracy of protein identification can be improved.

また本発明の第2の態様による生体由来物質の同定支援方法及び同定支援装置によれば、質量分析結果のみに基づいた生体由来物質の推定においては、複数の候補のスコアが近接していていずれが正解であるのか判断できないような場合でも、既に一定程度以上の信頼性があるオミックス情報などの参照情報を併用することによって、正解の候補を選択できる可能性が高まる。このようにして、タンパク質などの生体由来物質の同定の精度を向上させることができる。   According to the biological substance-derived substance identification support method and the identification support apparatus according to the second aspect of the present invention, in the estimation of the biological substance based only on the mass analysis result, the scores of a plurality of candidates are close to each other. Even when it is impossible to determine whether the correct answer is correct, the possibility of selecting a correct candidate is increased by using reference information such as omics information that already has a certain degree of reliability. In this way, the accuracy of identification of biological substances such as proteins can be improved.

本発明の第1実施例であるタンパク質同定システムの全体構成図。BRIEF DESCRIPTION OF THE DRAWINGS The whole block diagram of the protein identification system which is 1st Example of this invention. 第1実施例のタンパク質同定システムにおける同定処理手順を示すフローチャート。The flowchart which shows the identification process procedure in the protein identification system of 1st Example. 第1実施例のタンパク質同定システムにおける表示出力の例を示す図。The figure which shows the example of the display output in the protein identification system of 1st Example. 本発明の第2実施例であるタンパク質同定システムの全体構成図。The whole block diagram of the protein identification system which is 2nd Example of this invention. 第2実施例のタンパク質同定システムにおける同定処理手順を示すフローチャート。The flowchart which shows the identification process procedure in the protein identification system of 2nd Example. 第2実施例のタンパク質同定システムにおける同定例の説明図。Explanatory drawing of the identification example in the protein identification system of 2nd Example. 第2実施例のタンパク質同定システムにおける同定例の説明図。Explanatory drawing of the identification example in the protein identification system of 2nd Example. 第2実施例のタンパク質同定システムにおける同定例の説明図。Explanatory drawing of the identification example in the protein identification system of 2nd Example.

[第1実施例]
以下、本発明の第1実施例であるタンパク質同定システムについて、添付図面を参照して説明する。
図1は第1実施例のタンパク質同定システムの全体構成図、図2は第1実施例のタンパク質同定システムにおける同定処理手順を示すフローチャートである。
[First embodiment]
Hereinafter, a protein identification system according to a first embodiment of the present invention will be described with reference to the accompanying drawings.
FIG. 1 is an overall configuration diagram of the protein identification system of the first embodiment, and FIG. 2 is a flowchart showing an identification processing procedure in the protein identification system of the first embodiment.

第1実施例のタンパク質同定システムは、質量分析部1、データ解析部2、入力部3、及び、表示部4を含む。データ解析部2は、データベース検索部21、タンパク質データベース22、検索結果抽出部23、非確定結果記憶部24、確定結果記憶部25、検索結果統合部26、表示処理部27、結果確定処理部28、を機能ブロックとして含む。質量分析部1以外は、パーソナルコンピュータ等を中心に構成することができ、主要な機能はコンピュータにインストールされた専用のソフトウエアをコンピュータ上で実行することにより実現される。   The protein identification system of the first embodiment includes a mass analysis unit 1, a data analysis unit 2, an input unit 3, and a display unit 4. The data analysis unit 2 includes a database search unit 21, a protein database 22, a search result extraction unit 23, a non-confirmed result storage unit 24, a confirmation result storage unit 25, a search result integration unit 26, a display processing unit 27, and a result confirmation processing unit 28. Are included as function blocks. Other than the mass analysis unit 1, it can be configured mainly by a personal computer or the like, and main functions are realized by executing dedicated software installed in the computer on the computer.

質量分析部1は例えばイオントラップ飛行時間型質量分析計であり、図示しないが、目的試料中の分子や原子をイオン化するイオン源と、発生したイオンを一時的に捕捉し、必要に応じて質量電荷比に応じたイオンの選別とCIDによるイオンの開裂とを実行する3次元四重極型のイオントラップと、該イオントラップから射出された各種イオンを質量電荷比に応じて分離して検出する飛行時間型質量分析部と、を備える。生体試料を対象としたイオン化を行うイオン源としては、マトリクス支援レーザ脱離イオン化(MALDI)法によるもの、エレクトロスプレイイオン化(ESI)法によるものなどが一般的である。   The mass analyzer 1 is, for example, an ion trap time-of-flight mass spectrometer. Although not shown, the ion source that ionizes molecules and atoms in the target sample and the generated ions are temporarily captured, and the mass is obtained as necessary. A three-dimensional quadrupole ion trap that performs ion selection according to charge ratio and ion cleavage by CID, and various ions ejected from the ion trap are separated and detected according to mass-to-charge ratio. A time-of-flight mass spectrometer. As an ion source for performing ionization on a biological sample, one using a matrix-assisted laser desorption ionization (MALDI) method, one using an electrospray ionization (ESI) method, or the like is generally used.

データベース検索部21は、上述したMascot等の既存の解析ソフトウエアに搭載されているMS/MSイオンサーチの検索エンジンを利用したデータベース検索を行うものである。タンパク質データベース22は既知のタンパク質のアミノ酸配列が収録されたものであり、例えばSwiss-Prot等、一般に公開されているデータベースを用いることができる。   The database search unit 21 performs database search using an MS / MS ion search search engine installed in the existing analysis software such as Mascot described above. The protein database 22 contains the amino acid sequences of known proteins. For example, a publicly available database such as Swiss-Prot can be used.

第1実施例のタンパク質同定システムを用いたタンパク質同定の手順の一例を図2を参照しつつ説明する。
まず、目的とするタンパク質を酵素消化して調製したペプチド混合物を被検試料とし、質量分析部1でMS2分析を実行する。具体的には、一つの被検試料に対してCID操作を伴わない通常の質量分析を実行してマススペクトルを取得し、そのマススペクトルに現れているペプチド由来であると推測されるピークを対象としてMS2分析を行ってMS2スペクトルを取得する。通常、被検試料に対するマススペクトルには複数のペプチド由来のピークが現れるから、その各ピークについてそれぞれMS2分析を行ってMS2スペクトルを取得する。こうして取得されたマススペクトル、MS2スペクトルを構成するデータはスペクトルデータ格納部20に一旦格納される。また、被検試料が複数ある場合には、その複数の被検試料それぞれについてマススペクトル、MS2スペクトルが取得され、それを構成するデータがスペクトルデータ格納部20に一旦格納される。
An example of a protein identification procedure using the protein identification system of the first embodiment will be described with reference to FIG.
First, a peptide mixture prepared by enzymatic digestion of a target protein is used as a test sample, and MS 2 analysis is performed in the mass spectrometer 1. Specifically, a mass spectrum is obtained by performing normal mass spectrometry without CID operation on one test sample, and a peak that is assumed to be derived from a peptide appearing in the mass spectrum is targeted. MS 2 analysis is performed to obtain an MS 2 spectrum. Usually, since a plurality of peptides-derived peaks appear in the mass spectrum for the test sample, MS 2 analysis is performed on each of the peaks to obtain an MS 2 spectrum. The data constituting the mass spectrum and the MS 2 spectrum thus acquired are temporarily stored in the spectrum data storage unit 20. Further, when there are a plurality of test samples, a mass spectrum and an MS 2 spectrum are acquired for each of the plurality of test samples, and data constituting them are temporarily stored in the spectrum data storage unit 20.

こうして収集されたデータに基づいてタンパク質同定を行う際に、分析者はまず、1回の解析で処理する解析単位を入力部3から指定する(ステップS1)。解析単位としては、特定の一つのMS2スペクトル、一つの被検試料から得られたMS2スペクトル全て、1回の実験で測定された全ての被検試料から得られたMS2スペクトル全て、などのいずれかを選択できるようにすればよい。また、一つの被検試料から得られたMS2スペクトルの中で特定の複数のMS2スペクトルを指定できるようにしてもよい。
ステップS1で一つの解析単位として指定されたMS2スペクトル全てが以降の解析の対象となる。
When performing protein identification based on the data collected in this way, the analyst first designates an analysis unit to be processed in one analysis from the input unit 3 (step S1). As analysis units, one specific MS 2 spectrum, all MS 2 spectra obtained from one test sample, all MS 2 spectra obtained from all test samples measured in one experiment, etc. Any one of the above may be selected. Further, a plurality of MS 2 spectra particular in the MS 2 spectra obtained from one of the test sample may be designated.
All of the MS 2 spectra specified as one analysis unit in step S1 are subjected to subsequent analysis.

解析が開始されるとデータベース検索部21は、ステップS1において指定された解析単位に含まれるスペクトルデータを格納部20から読み出し(ステップS2)、タンパク質データベース22を利用して通常のデータベース検索を実施することでペプチドを推定するとともにタンパク質の同定を試みる(ステップS3)。そして、表示処理部27を介して表示部4の画面上に同定結果のリスト、即ち同定されたペプチドやタンパク質の情報の表示する(ステップS4)。分析者はこのリストを確認し、例えば同定の信頼度を示すスコアの値に基づいてその帰属が信頼できるか否かを判断し、その判断結果を入力部3から入力する(ステップS5)。   When the analysis is started, the database search unit 21 reads out the spectrum data included in the analysis unit designated in step S1 from the storage unit 20 (step S2), and performs a normal database search using the protein database 22. Thus, the peptide is estimated and the protein is identified (step S3). Then, a list of identification results, that is, information on the identified peptides and proteins is displayed on the screen of the display unit 4 via the display processing unit 27 (step S4). The analyst confirms this list, determines, for example, whether or not the attribution is reliable based on a score value indicating the reliability of identification, and inputs the determination result from the input unit 3 (step S5).

同定結果が信頼できると入力されると、検索結果抽出部23は同定結果を確定結果記憶部25に格納する(ステップS6)。一方、同定結果が信頼できないと入力されると、検索結果抽出部23は同定結果を非確定結果記憶部24に格納する(ステップS7)。即ち、ステップS5〜S7の処理によって、データベース検索によって得られた同定結果が信頼に足る確定的なものか、或いはあまり信頼できない非確定的なものか分析者の判断の下で区別され、それぞれ別の記憶部に格納される。そして、ステップS1で指定された解析単位に含まれる全てのマススペクトルについてステップS2〜S7の処理がなされたか否かが判定され(ステップS8)、未処理のマススペクトルがあればステップS8からS2へと戻り、ステップS2〜S8の処理を繰り返す。   When it is input that the identification result is reliable, the search result extraction unit 23 stores the identification result in the confirmation result storage unit 25 (step S6). On the other hand, if it is input that the identification result is not reliable, the search result extraction unit 23 stores the identification result in the non-confirmed result storage unit 24 (step S7). That is, by the processing of steps S5 to S7, whether the identification result obtained by the database search is deterministic that is reliable or non-deterministic that is not reliable is discriminated based on the judgment of the analyst. Stored in the storage unit. Then, it is determined whether or not the processing in steps S2 to S7 has been performed for all the mass spectra included in the analysis unit specified in step S1 (step S8). If there is an unprocessed mass spectrum, the processing proceeds from step S8 to S2. And the process of steps S2 to S8 is repeated.

したがって、ステップS1において複数の試料に対するマススペクトル全てが一つの解析単位に指定された場合には、各試料に対して得られた全てのマススペクトルに基づいてそれぞれデータベース検索が実行され、その同定結果、つまりは推定されたペプチドやタンパク質を示す情報が二つの記憶部24、25のいずれかに格納されることになる。
上記処理によって確定結果記憶部25に格納された同定結果は信頼性が高いため、分析者の判断を加えた手動の帰属決定処理を実施する必要はない。一方、非確定結果記憶部24に格納された同定結果は信頼性が低いため、分析者の判断を加えた手動の帰属決定処理を実施する。
Therefore, when all the mass spectra for a plurality of samples are designated as one analysis unit in step S1, a database search is executed based on all the mass spectra obtained for each sample, and the identification result That is, information indicating the estimated peptide or protein is stored in one of the two storage units 24 and 25.
Since the identification result stored in the determination result storage unit 25 by the above process is highly reliable, it is not necessary to perform a manual attribution determination process with the judgment of the analyst. On the other hand, since the identification result stored in the non-confirmed result storage unit 24 has low reliability, a manual attribution determination process with an analyst's judgment is performed.

即ち、検索結果統合部26は、一つの解析単位について非確定結果として格納された全てのタンパク質候補を抽出し、その候補をタンパク質のエントリ毎に、異なるマススペクトルに基づいて推定されたペプチドの情報を集約する。そして、表示処理部27を介して、タンパク質のアミノ酸配列の中で、推定されたペプチドに対応するアミノ酸配列をそれ以外の部分と視覚的に識別可能な形式で明示した状態で表示部4に表示する(ステップS9)。即ち、或るマススペクトルに基づいて存在が推定される一つのペプチドが、タンパク質a、b、cに含まれるアミノ酸配列を有している場合には、そのタンパク質a、b、cそれぞれの場合について、その該当するペプチドがそのタンパク質のアミノ酸配列中のどの位置に存在しているのかを分かり易く表示する。また同時に、同じ試料から同定された他のペプチドで、同じタンパク質a、b、cに含まれる可能性があるペプチドも、同じアミノ酸配列中に明示する。つまりは、そのタンパク質に帰属され得る、一つの解析単位から求まる全てのペプチドをアミノ酸配列中に明示する。典型的には、タンパク質のアミノ酸配列の表記(いわゆる3文字表記や1文字表記)において、推定されたペプチドに対応するアミノ酸配列とそれ以外の部分とを異なる文字色で表示すればよい。   That is, the search result integration unit 26 extracts all protein candidates stored as non-deterministic results for one analysis unit, and information about the peptides estimated based on different mass spectra for each protein entry. Aggregate. Then, via the display processing unit 27, the amino acid sequence corresponding to the estimated peptide in the amino acid sequence of the protein is displayed on the display unit 4 in a state that is clearly identified in a form that can be visually distinguished from the other parts. (Step S9). That is, when one peptide estimated to exist based on a certain mass spectrum has an amino acid sequence contained in proteins a, b, and c, for each of the proteins a, b, and c The position of the corresponding peptide in the amino acid sequence of the protein is displayed in an easy-to-understand manner. At the same time, other peptides identified from the same sample, which may be included in the same protein a, b, c, are also clearly indicated in the same amino acid sequence. That is, all peptides obtained from one analysis unit that can be assigned to the protein are specified in the amino acid sequence. Typically, in the notation of the amino acid sequence of a protein (so-called three-letter notation or one-letter notation), the amino acid sequence corresponding to the estimated peptide may be displayed in a different character color.

なお、データベース検索の過程でペプチドを推定する際にもその推定の信頼度を示すスコアが与えられ、そのスコア値が極端に高い場合にはそのペプチドは確かに存在しているとみなすことができる。そこで、こうした確定的なペプチドとそうでない(スコア値が低い又はそこまでは高くない)非確定的なペプチドとを区別し、タンパク質のアミノ酸配列の中で、推定されたペプチドを明示する際に、そのペプチドが確定的であるか非確定的であるかが識別できるような表示とすることが好ましい。   In addition, when estimating a peptide in the process of database search, a score indicating the reliability of the estimation is given, and if the score value is extremely high, it can be considered that the peptide surely exists. . Therefore, when distinguishing between these deterministic peptides and non-deterministic peptides that are not (or score values are low or not so high) and clearly indicate the estimated peptide in the amino acid sequence of the protein, It is preferable to display such that the peptide can be identified as deterministic or non-deterministic.

ここで、具体的な表示例を図3を用いて説明する。
いま、一つの解析単位として指定されたデータ群に、A、B、C、Dなる4種のマススペクトル(MS2スペクトル)データが含まれているものとする。これは例えば、同一の条件で一つの試料をそれぞれ測定した結果、それぞれ異なる4種のマススペクトルA、B、C、Dが得られたような場合である。マススペクトルデータに基づくデータベース検索によって、マススペクトルBは特定のタンパク質b由来のペプチドに、マススペクトルDは特定のタンパク質c由来のペプチドに、それぞれ確定的に帰属され、一方、マススペクトルAとマススペクトルCからは確定的な帰属結果が得られなかったとする。また、マススペクトルAに基づくデータベース検索では、いずれも低いスコアで、つまりは非確定的な結果として3種のタンパク質a、b、cが候補として見出されたとする。この場合に、マススペクトルAを手動での同定対象とすると、例えば図3に示したような表示がなされる。
Here, a specific display example will be described with reference to FIG.
Now, it is assumed that four types of mass spectrum (MS 2 spectrum) data A, B, C, and D are included in a data group designated as one analysis unit. This is the case, for example, when four different mass spectra A, B, C, and D are obtained as a result of measuring one sample under the same conditions. By database search based on mass spectrum data, mass spectrum B is definitely assigned to a peptide derived from a specific protein b, and mass spectrum D is assigned to a peptide derived from a specific protein c, while mass spectrum A and mass spectrum are assigned. Suppose that no definitive attribution result was obtained from C. In the database search based on the mass spectrum A, it is assumed that three proteins a, b, and c are found as candidates with low scores, that is, as uncertain results. In this case, if the mass spectrum A is manually identified, for example, a display as shown in FIG. 3 is made.

図3(a)〜(c)は、説明の便宜上、アミノ酸配列を簡略化して示したもの(実際の表示はアミノ酸配列の3文字表記又は1文字表記)であり、点線はタンパク質データベース22に収録されているタンパク質のアミノ酸配列、実線はマススペクトルAと同一の解析単位に属するA以外のマススペクトルから非確定的に推定帰属されたペプチド候補のアミノ酸配列をそれぞれ示している。また、波線は手動で同定対象であるマススペクトル(即ち、この場合にはマススペクトルA)に基づくデータベース検索によって推定された不確かなつまりは非確定的なペプチド候補を示し、二重波線は同じデータ群における別のマススペクトルに基づくデータベース検索によって存在が確定的であると判定されたペプチド(即ち、この場合、タンパク質bにおいてはマススペクトルBから推定されたペプチド、タンパク質cにおいてはマススペクトルDから推定されたペプチド)を示している。したがって、実線はマススペクトルC由来の非確定なペプチド候補ということになる。即ち、この表示形式自体は、上述した既存のMascotにおけるProtein Viewと同じ表示形式であるとみなすことができ、波線はMascotのProtein Viewにおいて赤色で表示される部分に相当する。なお、逆三角形の中にPを記載した記号は、翻訳後修飾のリン酸化、同じく逆三角形の中にGを記載した記号は翻訳後修飾の糖鎖を示している。   3 (a) to 3 (c) show simplified amino acid sequences for the sake of convenience (actual display is 3-letter code or single-character code of amino acid sequence), and dotted lines are recorded in the protein database 22. The amino acid sequence of the protein is shown as a solid line, and the amino acid sequences of the peptide candidates that are indeterminately assigned from the mass spectrum other than A belonging to the same analysis unit as the mass spectrum A are shown. A wavy line indicates an uncertain or non-deterministic peptide candidate estimated by a database search based on a mass spectrum to be manually identified (ie, mass spectrum A in this case), and a double wavy line indicates the same data. Peptides determined to be deterministic by database search based on another mass spectrum in the group (ie, in this case, the peptide estimated from mass spectrum B for protein b and the mass spectrum D for protein c) Peptide). Therefore, the solid line is an undefined peptide candidate derived from the mass spectrum C. That is, this display format itself can be regarded as the same display format as the above-described existing Protein view in Mascot, and the wavy line corresponds to a portion displayed in red in the Mascot Protein View. The symbol with P in the inverted triangle indicates post-translational modification phosphorylation, and the symbol with G in the inverted triangle also indicates the post-translational modification sugar chain.

図3(a)に示すように、タンパク質aには4個のペプチドが帰属されている。上述した表記の定義に従えば、これら4個のペプチドはマススペクトルA以外のマススペクトル(つまりはB、C、D)由来であって、これらのマススペクトルはMS2スペクトルであるので、それはマススペクトルC由来であることが判る。その4個のペプチドのうちの1個にはリン酸化の翻訳後修飾が存在すると推定されているが、これら4個には、確定的である、即ち、そのタンパク質以外のタンパク質には含まれないことがその生物のゲノム情報から確認されているようなペプチドは1個も含まれていない。 As shown in FIG. 3A, four peptides are assigned to protein a. According to the notation definition described above, these four peptides are derived from mass spectra other than mass spectrum A (ie B, C, D), and these mass spectra are MS 2 spectra, so that It can be seen that it is derived from spectrum C. One of the four peptides is presumed to have a post-translational modification of phosphorylation, but these four are definitive, ie not included in proteins other than the protein This does not include any peptides that have been confirmed from the genome information of the organism.

一方、図3(b)、(c)に示すように、タンパク質b及びタンパク質cにはそれぞれ確定的なペプチド(マススペクトルB又はマススペクトルD由来)が含まれるため、タンパク質b及びタンパク質cはこのデータ群で測定された試料中に含まれていたと推察することができる。したがって、タンパク質aに対する帰属よりもタンパク質b及びタンパク質cに対する帰属のほうが正しい解析であるという可能性は高いといえる。もちろん、解析単位として指定されたデータ群中にタンパク質a由来のデータが存在していないと結論付ける十分な根拠があるわけではない。しかしながら、タンパク質b及びタンパク質cの存在が明らかである以上、測定によって存在が明らかになったペプチドはタンパク質aよりもタンパク質bやタンパク質cに対して優先的に帰属させることが望ましい。   On the other hand, as shown in FIGS. 3B and 3C, protein b and protein c each contain a definitive peptide (derived from mass spectrum B or mass spectrum D). It can be inferred that it was included in the samples measured in the data group. Therefore, it can be said that there is a higher possibility that the assignment to protein b and protein c is the correct analysis than the assignment to protein a. Of course, there is no sufficient basis to conclude that there is no data derived from protein a in the data group designated as the analysis unit. However, as long as the presence of the protein b and the protein c is clear, it is desirable that the peptide whose presence is clarified by the measurement is preferentially assigned to the protein b and the protein c over the protein a.

手動同定対象であるマススペクトルをタンパク質bとタンパク質cのいずれへ帰属させるのが適切であるかの判断は、他の情報を利用して行う必要がある。例えば、タンパク質のアミノ酸配列においてヒットしている部分が多い、即ち、帰属が決定されたペプチドの、タンパク質全体に対するカバー率が高いものが正解あると判断するといった基準に従って、最終的なタンパク質への帰属の決定を行えばよい。これはパスウェイ解析に類似した方法である。即ち、単一のヒットではなく、関連のある一連の複数のヒットがあるか否かによって正解を判定する。このような判定を行うために従来もカバー率は用いられてきたが、本実施例のシステムによれば、推定されたペプチドがタンパク質をカバーしている状態(分布)を視覚的に確認したうえで、カバー率を判定に使用するのが適切か否かも併せて判断できる。そのため、判断の正確性が向上する。   It is necessary to use other information to determine whether it is appropriate to assign the mass spectrum to be manually identified to protein b or protein c. For example, there are many hits in the amino acid sequence of the protein, that is, the assignment to the final protein is determined according to a criterion such as judging that the peptide with a high assignment to the whole protein is the correct answer. The decision may be made. This is a method similar to pathway analysis. That is, the correct answer is determined by whether or not there is a series of related hits rather than a single hit. Conventionally, the cover rate has been used to make such a determination. However, according to the system of this example, the state (distribution) in which the estimated peptide covers the protein is visually confirmed. Thus, it can also be determined whether or not it is appropriate to use the coverage ratio for the determination. Therefore, the accuracy of judgment is improved.

また、こうした手動同定作業を支援する視覚的な表示によって、仮に図3に示したタンパク質a、タンパク質bの2種類しかタンパク質の候補が得られなかった場合には、手動同定の対象であるマススペクトルは既に存在が確定的であるタンパク質bに帰属させるといった判断が容易に行える。   Further, if only two types of protein candidates, protein a and protein b, shown in FIG. 3 are obtained by visual display supporting such manual identification work, the mass spectrum that is the object of manual identification is obtained. Can be easily determined to be attributed to the protein b whose existence is already definite.

本実施例のシステムでは、上述したようなタンパク質候補毎のアミノ酸配列の表示を、データベース検索によって確定的でない結果が得られた全てのタンパク質候補について、つまりは検索結果の順位や翻訳後修飾の有無などを問わずに行うようにする。そして、分析者は上記表示を表示部4の画面上で確認し、最適と思われる結果を選択して入力部3から指示する(ステップS10)。この指示を受けて結果確定処理部28は、確定的なタンパク質の帰属結果を含め、最終的な帰属結果を確定し、表示処理部27を介して最終的な解析結果を表示部4の画面上に表示する(ステップS11)。即ち、最終的な解析結果はデータベース検索によって自動的に帰属が決定されたものと、データベース検索では結果が非確定的であったために分析者による判断が加わり手動で帰属が決定されたものとが混在したものとなる。   In the system of this example, the display of the amino acid sequence for each protein candidate as described above is displayed for all protein candidates for which indeterminate results are obtained by database search, that is, the ranking of search results and the presence or absence of post-translational modification Do it regardless of any. Then, the analyst confirms the display on the screen of the display unit 4, selects a result that seems to be optimal, and gives an instruction from the input unit 3 (step S10). In response to this instruction, the result determination processing unit 28 determines the final attribution result including the definite protein attribution result, and the final analysis result is displayed on the screen of the display unit 4 via the display processing unit 27. (Step S11). In other words, the final analysis results are automatically assigned by the database search, and the results of the database search are indeterminate, so the judgment by the analyst is added and the attribution is manually determined. It will be mixed.

〔第1実施例の変形例〕
上記第1実施例のタンパク質同定システムでは、上述したような表示に加えて、分析者が手動で帰属を決定したペプチドと自動的に帰属が決定されたペプチドとを視覚的に区別できるように表示するようにしてもよい。
例えば図3において実線で示されている帰属されたペプチド候補を青色で表示し、確定的であるペプチドを黒色のボールド体(太字)で表示し、現在の手動同定の対象であるマススペクトルに対応するペプチドを赤色で表示したとき、それまでにその解析単位おいて実施された手動同定作業で帰属が決定されたペプチドを下線で明示するようにすればよい。これにより、表示されているタンパク質候補の中でどのアミノ酸配列範囲のペプチドが確定的に又は手動で帰属が決定されているかを分析者が視覚的に把握することができるため、手動同定作業を進める際に同定作業の効率改善が期待される。また、アミノ酸配列全体を見渡して、既に行った手動同定の結果を見直すことも容易になる。このように既に行った手動同定の結果の確認が可能になることによって、人間(分析者)の判断基準に基づいて、より正解に近い同定結果を得ることが可能になる。
[Modification of the first embodiment]
In the protein identification system of the first embodiment, in addition to the display as described above, a display is provided so that an analyst can manually distinguish between a peptide whose assignment has been manually determined and a peptide whose assignment has been automatically determined. You may make it do.
For example, the assigned peptide candidates shown in solid lines in FIG. 3 are displayed in blue, and the definitive peptides are displayed in black bold (bold), corresponding to the current mass spectrum that is the object of manual identification. When the peptide to be displayed is displayed in red, the peptide to which the assignment has been determined by the manual identification work performed in the analysis unit so far may be clearly indicated with an underline. This allows the analyst to visually grasp which amino acid sequence range of the displayed protein candidates has been assigned deterministically or manually. The efficiency of identification work is expected to be improved. In addition, it is easy to review the result of manual identification already performed by looking over the entire amino acid sequence. Since the result of manual identification already performed can be confirmed in this way, an identification result closer to the correct answer can be obtained on the basis of a human (analyst) judgment criterion.

[第2実施例]
次に、本発明の第2実施例であるタンパク質同定システムについて、添付図面を参照して説明する。
図4は第2実施例のタンパク質同定システムの全体構成図、図5は第2実施例のタンパク質同定システムにおける同定処理手順を示すフローチャートである。図4において図1に示した第1実施例のシステムと同じ構成要素には同じ符号を付している。
[Second Embodiment]
Next, a protein identification system according to a second embodiment of the present invention will be described with reference to the accompanying drawings.
FIG. 4 is an overall configuration diagram of the protein identification system of the second embodiment, and FIG. 5 is a flowchart showing an identification processing procedure in the protein identification system of the second embodiment. In FIG. 4, the same components as those of the system of the first embodiment shown in FIG.

この第2実施例のタンパク質同定システムにおいてデータ解析部2は、データベース検索部21、タンパク質データベース22、検索結果抽出部203、関連情報検索/演算部204、関連情報データベース205、結果統合部206、表示処理部207、結果確定処理部208、を機能ブロックとして含む。   In the protein identification system of the second embodiment, the data analysis unit 2 includes a database search unit 21, a protein database 22, a search result extraction unit 203, a related information search / calculation unit 204, a related information database 205, a result integration unit 206, and a display. A processing unit 207 and a result confirmation processing unit 208 are included as functional blocks.

関連情報データベース205には、マススペクトルデータを用いたタンパク質同定以外の手法によるタンパク質の同定に利用可能な各種のデータが関連情報としてタンパク質に対応付けて収録される。具体的には、関連情報としては例えば、各種のタンパク質に該当する遺伝子のマイクロアレイ解析を行うことで得られた遺伝子発現情報などの解析結果(つまりはゲノミクス解析情報)、既知のパスウェイマップ(ゲノミクス解析における遺伝子発現ネットワークを示すパスウェイマップやメタボロミクス解析における代謝物ネットワークを示すパスウェイマップなど)、などのオミックス情報や、X線構造解析などによって得られた各種タンパク質の立体構造情報などが挙げられる。なお、この関連情報データベース205は必ずしもユーザが用意したデータベースではなく、Semantic Web技術などを用いて、複数の外部のデータベースからオンデマンドで必要な情報を得るようにしてもよい。   In the related information database 205, various types of data that can be used for protein identification by methods other than protein identification using mass spectrum data are recorded in association with the protein as related information. Specifically, as related information, for example, analysis results of gene expression information obtained by performing microarray analysis of genes corresponding to various proteins (that is, genomics analysis information), known pathway maps (genomics analysis) , Such as pathway maps indicating gene expression networks and pathway maps indicating metabolite networks in metabolomics analysis), and three-dimensional structure information of various proteins obtained by X-ray structural analysis. Note that the related information database 205 is not necessarily a database prepared by the user, but may be obtained on-demand necessary information from a plurality of external databases by using Semantic Web technology or the like.

第2実施例のタンパク質同定システムを用いたタンパク質同定の手順の一例を図5を参照しつつ説明する。
スペクトルデータ格納部20には、目的タンパク質由来のペプチド混合物を含む被検試料に対し質量分析部1でMS2分析を実行することで得られたマススペクトルデータが格納されているものとする。
An example of a protein identification procedure using the protein identification system of the second embodiment will be described with reference to FIG.
It is assumed that the spectrum data storage unit 20 stores mass spectrum data obtained by performing MS 2 analysis in the mass analysis unit 1 on a test sample including a peptide mixture derived from the target protein.

分析者の指示により解析が開始されると、データベース検索部21は分析者によって指定されたスペクトルデータを格納部20から読み出し(ステップS21)、タンパク質データベース22を利用して通常のデータベース検索を実施することでペプチドを推定するとともにタンパク質の同定を試みる(ステップS22)。そして、表示処理部207を介して表示部4の画面上に同定結果のリスト、即ち同定されたペプチドやタンパク質の情報の表示する(ステップS23)。このステップS21〜S23は上記第1実施例のステップS2〜S4と同じ処理である。   When the analysis is started according to the analyst's instruction, the database search unit 21 reads out the spectrum data designated by the analyst from the storage unit 20 (step S21), and performs a normal database search using the protein database 22. Thus, the peptide is estimated and protein identification is attempted (step S22). Then, a list of identification results, that is, information on the identified peptides and proteins is displayed on the screen of the display unit 4 via the display processing unit 207 (step S23). Steps S21 to S23 are the same processes as steps S2 to S4 of the first embodiment.

この同定結果のリストには、帰属されたペプチド候補やタンパク質候補がデータベース検索の過程で付与されるスコアとともに挙げられる。分析者はこのリストを確認し、例えば同定の信頼度を示すスコアの値が低くその帰属の信頼性が乏しいと判断した同定結果を、本実施例に特徴的な同定処理の対象として入力部3を介して選択する(ステップS24)。或る一つのマススペクトルに基づくデータベース検索によって非確定な複数のタンパク質候補が得られた場合、それらの候補の全てを選択してもよい。また、複数のマススペクトルに基づいてそれぞれ得られた複数の同定結果をまとめて、本実施例に特徴的な同定処理の対象として選択できるようにしてもよい。   This list of identification results includes the assigned peptide candidates and protein candidates together with the scores given in the database search process. The analyst confirms this list, and, for example, the identification result determined that the score value indicating the reliability of identification is low and the reliability of the attribution is poor is input to the input unit 3 as an object of identification processing characteristic of the present embodiment. (Step S24). When a plurality of uncertain protein candidates are obtained by database search based on a certain mass spectrum, all of these candidates may be selected. In addition, a plurality of identification results respectively obtained based on a plurality of mass spectra may be collected and selected as a target of identification processing characteristic of the present embodiment.

検索結果抽出部203はステップS24において選択された同定結果を抽出しリストを作成する(ステップS25)。関連情報検索/演算部204はステップS25において作成されたリストに示されている同定結果のそれぞれについて、関連情報データベース205にアクセスし、帰属決定に利用可能なオミックス情報やそのほかの関連情報を検索して取得する(ステップS26)。   The search result extraction unit 203 extracts the identification result selected in step S24 and creates a list (step S25). The related information search / calculation unit 204 accesses the related information database 205 for each of the identification results shown in the list created in step S25, and searches for omics information and other related information that can be used to determine attribution. (Step S26).

関連情報データベース205において該当する関連情報が見つかった場合、関連情報検索/演算部204はその関連情報を利用して不確定であったタンパク質候補の帰属を試みる。言い換えれば、マススペクトルデータに基づくデータベース検索による同定とオミックス情報等の関連情報とを統合した帰属決定処理を実施する(ステップS27)。この帰属決定処理の仕方は関連情報の種類によって異なるため、あとで詳しく述べる。上述したように関連情報はマススペクトルデータとは直接関係のない情報であるから、上記帰属決定処理はデータベース検索で得られた不確定な同定結果を別の観点から絞り込むことになり、帰属の精度を上げることができる。
ここで、関連情報の具体例とそれを利用した帰属解析処理について説明する。
When the relevant information is found in the relevant information database 205, the relevant information search / calculation unit 204 attempts to attribute the uncertain protein candidate using the relevant information. In other words, an attribution determination process in which identification by database search based on mass spectrum data and related information such as omics information are integrated is performed (step S27). Since the method of the attribution determination process varies depending on the type of related information, it will be described in detail later. As described above, since the related information is information that is not directly related to the mass spectrum data, the attribution determination process narrows down the uncertain identification result obtained by the database search from another viewpoint, and the accuracy of attribution. Can be raised.
Here, a specific example of related information and attribution analysis processing using the related information will be described.

[関連情報としてマイクロアレイ解析結果を利用する場合]
タンパク質の帰属を決定する際に有用な関連情報の一つは、マイクロアレイ解析によって得られる遺伝子の発現量の情報である。近年、生体組織や細胞を質量分析装置を用いて測定する際に、同一の生体組織や同等の細胞についてマイクロアレイ解析を行うことが多くなっている。そこで、このマイクロアレイ解析結果を関連情報データベース205に予め格納しておき、マススペクトルに基づくタンパク質の帰属決定の際に利用すればよい。即ち、帰属決定処理の仕方としては、マイクロアレイ解析結果から検出量が多いmRNAに対応するタンパク質を優先的に帰属すればよい。なお、こうした目的のためのマイクロアレイ解析においてはmRNAの相対量が測定できさえすればよいので、いわゆる次世代シーケンサ(NGS)を用いたRNAシーケンス法による解析結果を関連情報として用いてもよい。
[When using microarray analysis results as related information]
One of the relevant information useful in determining protein assignment is information on the expression level of genes obtained by microarray analysis. In recent years, when a biological tissue or cells are measured using a mass spectrometer, microarray analysis is often performed on the same biological tissue or equivalent cells. Therefore, the microarray analysis result may be stored in advance in the related information database 205 and used when determining protein attribution based on the mass spectrum. That is, as a method of the attribution determination process, a protein corresponding to mRNA having a large detection amount from the microarray analysis result may be attributed preferentially. In the microarray analysis for such purpose, it is only necessary to measure the relative amount of mRNA. Therefore, the analysis result by the RNA sequencing method using a so-called next-generation sequencer (NGS) may be used as related information.

[関連情報としてパスウェイマップを利用する場合]
例えば遺伝子発現ネットワークを示すパスウェイマップやメタボロミクス解析における代謝物ネットワークを示すパスウェイマップが関連情報として利用可能である場合には、同定結果であるリストに挙げられた信頼度の低い複数の候補タンパク質を全て、既知である種々のパスウェイマップ上にそれぞれマッピングする。このとき、最も多数のタンパク質候補がマッピングされたパスウェイマップが最も信頼性が高いと考えられるから、そのパスウェイマップに対応したタンパク質を帰属結果として選択すればよい。
[When using pathway maps as related information]
For example, when a pathway map showing a gene expression network or a pathway map showing a metabolite network in metabolomics analysis is available as related information, all candidate proteins with low reliability listed in the identification result list are all , Each of them is mapped onto various known pathway maps. At this time, since the pathway map in which the most protein candidates are mapped is considered to have the highest reliability, a protein corresponding to the pathway map may be selected as an assignment result.

なお、データベース検索によって十分に高いスコアが与えられて帰属されたタンパク質については、パスウェイマップを利用した解析に先だって、該当するタンパク質を含むパスウェイマップ全てにおいてそのタンパク質をマッピングしておくとよい。その上で、スコアが近接している等、不確定なタンパク質候補を全てパスウェイ上にマッピングし、最終的にマッピングされたタンパク質が最も多く、経路が最も多く繋がっているパスウェイマップを採用し、そこにマッピングされたタンパク質を指定されたマススペクトルに対する帰属結果とすればよい。   For proteins assigned with a sufficiently high score by database search, the protein may be mapped in all pathway maps including the corresponding protein prior to analysis using the pathway map. In addition, all uncertain protein candidates such as scores that are close to each other are mapped onto the pathway, and the pathway map with the most mapped proteins and the most connected routes is adopted. The protein mapped to can be assigned to the designated mass spectrum.

また、通常のプロテオミクス解析では、特徴的なタンパク質のリストを抽出するために差異解析やエンリッチメント解析(Enrichment Analysis)を行うことがあるが、このような情報を関連情報としてもよい。特にパスウェイマップが十分に整備されていない生体由来物質を同定する際には、パスウェイマップ上にマッピングする代わりにエンンリッチメント解析が有用である。   In normal proteomic analysis, a difference analysis or an enrichment analysis may be performed to extract a list of characteristic proteins. Such information may be used as related information. In particular, when identifying a biological substance whose pathway map is not sufficiently prepared, enrichment analysis is useful instead of mapping on the pathway map.

もちろん、関連情報としてマイクロアレイ解析結果とパスウェイマップとを併用しても構わない。即ち、質量分析結果に対応するマイクロアレイ解析結果(又はNGS解析結果)をパスウェイマップ上にマッピングしておき、発現している可能性の高いパスウェイを推定する。そこにマススペクトルに基づいて得られたタンパク質候補をマッピングすることによって、mRNAの発現量とタンパク質の存在量とが比例していない場合(例えば生体内でタンパク質が別の場所に輸送されている場合など)であっても、適切なタンパク質候補を選出できることがある。   Of course, the microarray analysis result and the pathway map may be used together as related information. That is, a microarray analysis result (or NGS analysis result) corresponding to a mass analysis result is mapped on a pathway map, and a pathway having a high possibility of expression is estimated. If the protein expression obtained based on the mass spectrum is mapped there, the expression level of mRNA and the abundance of the protein are not proportional (for example, when the protein is transported to another place in vivo) May be able to select an appropriate protein candidate.

図6はこの場合の具体的な解析例を示す模式図である。図6(a)〜(c)はそれぞれパスウェイマップの例であり、円形の記号○で示す各ノードはタンパク質又はその遺伝子を示し、矢印で示すエッジは反応の進行方向を示す。
ここでは、多数の既知の遺伝子発現ネットワークを示すパスウェイマップの中から、解析対象である全てのマススペクトルに対するタンパク質の帰属結果(不確定、確定に拘わらず)と対応するマイクロアレイ解析結果との両方を含むパスウェイマップを選出し、データベース検索によって帰属されたタンパク質を示すノードと、マイクロアレイ解析によって転写に変動があったことが検出された遺伝子に対応するノードにマークを付す。この例では、帰属されたタンパク質に対応するノードにはハロ(halo)を、検出された遺伝子に対応するノードには七芒星を付加して示している。
FIG. 6 is a schematic diagram showing a specific analysis example in this case. FIGS. 6A to 6C are examples of pathway maps, where each node indicated by a circular symbol ◯ indicates a protein or its gene, and an edge indicated by an arrow indicates the progress direction of the reaction.
Here, from the pathway maps showing a number of known gene expression networks, both the protein attribution results (indeterminate and uncertain) and the corresponding microarray analysis results for all mass spectra to be analyzed A pathway map is selected, and a node indicating a protein assigned by database search and a node corresponding to a gene detected to have a transcriptional change by microarray analysis are marked. In this example, halo is added to the node corresponding to the assigned protein, and a seven-pointed star is added to the node corresponding to the detected gene.

図6(a)では、mRNAの発現を示す七芒星の記号とタンパク質の発現を示すハロの記号との重なりが全くない。このような状態は実際の細胞では殆どあり得ない状態であり、このパスウェイマップで示される現象が生じている可能性はかなり低い。図6(b)では、七芒星の記号とハロの記号とがAで示す一つのノードのみで重なっているが、全体にハロの数が少なく、この測定によって実際にこのタンパク質が検出できたのか、依然として不明確である。図6(c)では、四つのノードで七芒星の記号とハロの記号とが重なっており、左上の開始点から右下の終了点まで概ね繋がっているパスウェイがある。したがって、mRNAとタンパク質との両方の測定データから、おそらくこのパスウェイマップ中のこの左上の開始点から右下の終了点までの経路が実際に発現していると推測することができる。このような場合には、その経路上でハロの記号が付されたタンパク質をそれぞれ対応するマススペクトルに帰属させればよい。   In FIG. 6 (a), there is no overlap between the seven-pointed star indicating mRNA expression and the halo symbol indicating protein expression. Such a state is almost impossible in an actual cell, and it is very unlikely that the phenomenon shown in this pathway map has occurred. In FIG. 6 (b), the symbol of the seven-pointed star and the symbol of halo overlap at only one node indicated by A, but the number of halos is small as a whole, and this protein was actually detected by this measurement. It is still unclear. In FIG. 6C, there is a pathway in which the symbol of the seven-pointed star and the symbol of halo overlap at four nodes, and are generally connected from the upper left start point to the lower right end point. Therefore, from the measurement data of both mRNA and protein, it can be inferred that the path from the upper left starting point to the lower right end point in the pathway map is actually expressed. In such a case, a protein with a halo symbol on the pathway may be assigned to the corresponding mass spectrum.

なお、上述したようなパスウェイマップの利用はイメージング質量顕微鏡において特に有用である。
例えば、ガン細胞においては特定の脂質が増加するということが既に知られており、脂質合成系又は脂肪酸合成系のパスウェイマップ上にある遺伝子全ての発現量が増加しているならば、その遺伝子に対応するタンパク質の帰属結果の信頼性が増す。一般に、MALDIイオン源を用いた質量分析装置では、質量分析装置の前段に液体クロマトグラフを結合した液体クロマトグラフ質量分析装置よりも一層、物質が混在した状態で測定される。即ち、一つの実験ロットの結果がまとめて測定されるため、上述したようなパスウェイ解析やエンリッチメント解析の手法が効果的であると推定できる。
The use of the pathway map as described above is particularly useful in an imaging mass microscope.
For example, it is already known that specific lipids increase in cancer cells, and if the expression level of all genes on the pathway map of lipid synthesis system or fatty acid synthesis system is increased, Increased reliability of corresponding protein assignment results. In general, in a mass spectrometer using a MALDI ion source, measurement is performed in a state where substances are mixed even more than in a liquid chromatograph mass spectrometer in which a liquid chromatograph is coupled to the previous stage of the mass spectrometer. That is, since the results of one experimental lot are measured together, it can be estimated that the above-described methods of pathway analysis and enrichment analysis are effective.

[関連情報としてタンパク質の立体構造情報を利用する場合]
上述したマイクロアレイ解析結果やパスウェイマップはプロテオミクス解析以外のゲノミクス解析やメタボロミクス解析によって得られるオミックス情報であるが、オミックス情報以外の情報としてタンパク質の立体構造情報なども関連情報として利用することができる。
[When using protein structure information as related information]
The microarray analysis results and pathway maps described above are omics information obtained by genomics analysis and metabolomics analysis other than proteomics analysis, but protein three-dimensional structure information and the like can also be used as related information as information other than omics information.

図8(a)、(b)は関連情報としてタンパク質の立体構造情報を利用したときのタンパク質の帰属決定処理の説明図であり、図3と同様に、タンパク質候補のアミノ酸配列を簡略的に示したものである。図3と同様に、点線は、データベースに収録されているアミノ酸配列であり、実線が質量分析結果に基づくデータベース検索によって同定されたペプチド候補である。また、アミノ酸配列に沿って薄い影で示した範囲は、既知であるタンパク質の立体構造情報に基づいて、タンパク質の内部である(正確にいえば、外部の水環境に曝される形になっていない)と判定される範囲である。図8(a)の例において、帰属されたペプチドとタンパク質の立体構造情報とを併せると、タンパク質の内部、おそらく疎水性コアを形成していて少なくとも外部の水環境とは遮断されている部位にリン酸化が生じていることになるが、これは技術常識から考えにくい。その結果、図8(a)に示したような帰属が正解である可能性はきわめて低いと判断することができる。   FIGS. 8A and 8B are explanatory diagrams of protein attribution determination processing using the three-dimensional structure information of the protein as related information. As in FIG. 3, the amino acid sequences of protein candidates are simply shown. It is a thing. Similar to FIG. 3, the dotted line is the amino acid sequence recorded in the database, and the solid line is the peptide candidate identified by the database search based on the mass analysis result. In addition, the shaded area along the amino acid sequence is the interior of the protein based on the known protein structure information (more precisely, it is exposed to the external water environment). No). In the example of FIG. 8 (a), when the assigned peptide and the three-dimensional structure information of the protein are combined, at the site where the inside of the protein, possibly a hydrophobic core, is formed and at least blocked from the outside water environment. Phosphorylation has occurred, but this is difficult to think from the technical common sense. As a result, it can be determined that the possibility that the attribution as shown in FIG. 8A is correct is very low.

一方、図8(b)に示した例の場合、糖鎖修飾を受けたペプチドがタンパク質の内部には存在しておらず、外部の水環境に曝されている可能性がある。これは、糖鎖の存在と整合性がとれる結果である。したがって、図8(a)と(b)とを比べた場合、(b)の例のほうが起こり得る蓋然性が高いと判断することができる。   On the other hand, in the case of the example shown in FIG. 8B, there is a possibility that the peptide subjected to the sugar chain modification does not exist inside the protein and is exposed to the external water environment. This is a result consistent with the presence of sugar chains. Therefore, when FIG. 8A and FIG. 8B are compared, it can be determined that the probability that the example of FIG. 8B can occur is higher.

なお、上述したようなタンパク質の立体構造情報は、構造が既知である場合には、タンパク質構造データバンク(PDB)から取得することができる。一方、構造が未知である場合には、タンパク質候補について3D−1D法などの適切な手法で立体構造を推定し、アミノ酸配列上にマッピングすればよい。   The three-dimensional structure information of the protein as described above can be acquired from the protein structure data bank (PDB) when the structure is known. On the other hand, if the structure is unknown, the three-dimensional structure of the protein candidate may be estimated by an appropriate technique such as the 3D-1D method and mapped onto the amino acid sequence.

図5に戻り説明を続ける。上述のように、タンパク質を帰属する作業の際に既知であるオミックス情報やそれ以外の関連情報を利用することによって、データベース検索等では帰属が困難であったマススペクトルを、一定の根拠を以て既知のタンパク質に帰属させることができる可能性が高まる。そこで、タンパク質候補が1又は複数に絞り込めたならばその結果を表示部4の画面上に表示する。なお、最終的に分析者が関連情報を利用して適切な結果を選択するには、データベース検索による帰属結果と関連情報とを統合した結果を表示することが好ましい。そこで、使用した関連情報の種類に応じて、例えば図6に示した形式や図8に示した形式で結果を表示するとよい。分析者はこの結果を画面上で確認し、まだ複数の候補がある場合には最適と思われる候補を選択する(ステップS28)。結果確定処理部208は分析者の選択に応じて最終的な同定結果を確定し、帰属したタンパク質やペプチド、さらには帰属決定処理に利用した関連情報などを併せて表示部4の画面上に表示する(ステップS29)。   Returning to FIG. As described above, by using omics information known at the time of protein assignment work and other related information, mass spectra that were difficult to assign by database search etc. are known with a certain basis. The possibility of assigning to a protein increases. Therefore, if the protein candidates are narrowed down to one or more, the result is displayed on the screen of the display unit 4. In order for the analyst to finally select an appropriate result using the related information, it is preferable to display a result obtained by integrating the attribution result by the database search and the related information. Therefore, the result may be displayed in the format shown in FIG. 6 or the format shown in FIG. 8 according to the type of related information used. The analyst confirms this result on the screen, and if there are still a plurality of candidates, selects the candidate that seems to be optimal (step S28). The result confirmation processing unit 208 confirms the final identification result according to the selection of the analyst, and displays on the screen of the display unit 4 together with the protein or peptide to which it belongs, as well as related information used for the attribution determination processing. (Step S29).

なお、上記第2実施例は、生体由来物質としてタンパク質を同定する場合を例に挙げたが、同じ帰属決定手法は生体由来であるタンパク質以外の化合物、脂質、糖質などに対しても適用することができる。   In addition, although the said 2nd Example gave as an example the case where a protein is identified as a biological substance, the same attribution determination method is applied also to compounds, lipids, carbohydrates, etc. other than the protein derived from a biological body. be able to.

例えば、糖鎖や脂質、或いはそれ以外の生体由来の化合物などにも例えばMassBankなどのデータベースが存在するから、そうしたデータベースを利用することで試料に対して得られたマススペクトルに基づくデータベース検索によって、タンパク質と同程度の信頼性で化合物候補を同定することができる。こうして得られた化合物候補をメタボロミクス解析等で得られる代謝物のパスウェイマップにマッピングすれば、タンパク質と全く同様に代謝物を選択することができる。   For example, since there is a database such as MassBank for sugar chains, lipids, or other biological compounds, for example, by database search based on mass spectra obtained for samples by using such a database, Candidate candidates can be identified with the same degree of reliability as proteins. If the compound candidates obtained in this way are mapped to a pathway map of metabolites obtained by metabolomics analysis or the like, metabolites can be selected just like proteins.

こうした非タンパク質の化合物を同定したい場合には、その化合物を生産するパスウェイを参照し、関与する酵素のmRNAの量を利用し、発現している可能性の高いパスウェイを推定すればよい。   When it is desired to identify such a non-protein compound, a pathway that is likely to be expressed may be estimated by referring to the pathway that produces the compound and using the amount of mRNA of the enzyme involved.

図7は図6と同様の表記法で、化合物の代謝を示すパスウェイマップの例を示したものである。化合物の代謝を示すパスウェイマップでは、ノードに化合物を割り当て、その化合物を生成するのに必要な化学反応を司る酵素、即ちタンパク質を矢印のエッジで表すのが一般的である。そこで、このパスウェイマップでも同様の表記を用いている。即ち、データベース検索の結果或る化合物が存在する場合には七芒星の記号をノードに重ね、タンパク質が存在する場合にはエッジにハロの記号を表示している。
この図7の例では(b)に示すパスウェイマップの左上の開始点から右下の終了点にまで、薄く影をつけたパスウェイがmRNAとタンパク質で概ね繋がっている。したがって、このパスウェイが発現している可能性が高いと考えられる。そこで、該経路上で該当する、ハロを表示したタンパク質を帰属することが適切であると判断できる。
FIG. 7 shows an example of a pathway map showing the metabolism of a compound in the same notation as FIG. In a pathway map showing the metabolism of a compound, a compound is generally assigned to a node, and an enzyme that manages a chemical reaction necessary to generate the compound, that is, a protein is generally represented by an arrow edge. Therefore, the same notation is used in this pathway map. That is, when a certain compound exists as a result of the database search, the symbol of a seven-pointed star is superimposed on the node, and when a protein exists, a halo symbol is displayed on the edge.
In the example of FIG. 7, the lightly shaded pathway is generally connected by mRNA and protein from the upper left start point to the lower right end point of the pathway map shown in FIG. Therefore, it is considered that this pathway is highly likely to be manifested. Therefore, it can be determined that it is appropriate to assign a protein displaying halo corresponding to the route.

また、上記実施例はいずれも本発明の一例にすぎず、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。   The above-described embodiments are merely examples of the present invention, and it is a matter of course that modifications, corrections, additions, and the like are appropriately included within the scope of the present invention.

1…質量分析部
2…データ解析部
20…スペクトルデータ格納部
21…データベース検索部
22…タンパク質データベース
23、203…検索結果抽出部
24…非確定結果記憶部
25…確定結果記憶部
26…検索結果統合部
27、207…表示処理部
28、208…結果確定処理部
204…関連情報検索/演算部
205…関連情報データベース
3…入力部
4…表示部
DESCRIPTION OF SYMBOLS 1 ... Mass analysis part 2 ... Data analysis part 20 ... Spectral data storage part 21 ... Database search part 22 ... Protein database 23, 203 ... Search result extraction part 24 ... Unconfirmed result storage part 25 ... Confirmation result storage part 26 ... Search result Integration unit 27, 207 ... Display processing unit 28, 208 ... Result determination processing unit 204 ... Related information search / calculation unit 205 ... Related information database 3 ... Input unit 4 ... Display unit

Claims (14)

生体由来物質である目的タンパク質を断片化したペプチド混合物を含む試料を質量分析した結果に基づいて目的タンパク質を同定する同定作業を支援する生体由来物質の同定支援方法であって、
a)試料に対する質量分析によって得られたマススペクトルデータに基づいて該試料に含まれる少なくとも一部のペプチドのアミノ酸配列を推定するとともに、その推定結果に基づき目的タンパク質として複数のタンパク質候補を抽出する候補抽出ステップと、
b)前記候補抽出ステップで抽出された複数のタンパク質候補それぞれについて、そのタンパク質のアミノ酸配列の表記の中で前記候補抽出ステップにおいて推定されたペプチドのアミノ酸配列をそれ以外のアミノ酸配列とは識別可能であるように表示する表示処理ステップと、
を有し、前記表示処理ステップにおける表示結果を参照して分析者自らがタンパク質候補の中から候補の選択を行えるようにしたことを特徴とする生体由来物質の同定支援方法。
An identification support method for a biological substance that supports identification work for identifying a target protein based on the result of mass spectrometry of a sample containing a peptide mixture obtained by fragmenting a target protein that is a biological substance,
a) Candidates that estimate the amino acid sequences of at least some of the peptides contained in the sample based on mass spectral data obtained by mass spectrometry of the sample and extract a plurality of protein candidates as target proteins based on the estimation result An extraction step;
b) For each of a plurality of protein candidates extracted in the candidate extraction step, the amino acid sequence of the peptide estimated in the candidate extraction step can be distinguished from other amino acid sequences in the description of the amino acid sequence of the protein. A display processing step to display as it is,
A method for assisting identification of a biological substance, characterized in that, by referring to the display result in the display processing step, the analyst can select a candidate from among protein candidates.
請求項1に記載の生体由来物質の同定支援方法であって、
一つの解析単位として1回の解析に反映させるデータの範囲を分析者が指定する解析単位指定ステップをさらに有し、
前記候補抽出ステップでは、一つの解析単位として指定された全てのデータに基づいてペプチドのアミノ酸配列の推定及びタンパク質候補の抽出を行い、
前記表示処理ステップでは、一つの解析単位として指定された全てのデータに基づくペプチドの推定結果をタンパク質候補毎に統合して表示することを特徴とする生体由来物質の同定支援方法。
A method for supporting identification of a biological substance according to claim 1,
An analysis unit specifying step in which an analyst specifies a range of data to be reflected in one analysis as one analysis unit;
In the candidate extraction step, the estimation of the amino acid sequence of the peptide and the extraction of protein candidates are performed based on all data designated as one analysis unit,
In the display processing step, the estimation result of peptides based on all data designated as one analysis unit is integrated and displayed for each protein candidate, and the identification support method for a biological substance is characterized.
生体由来物質である目的タンパク質を断片化したペプチド混合物を含む試料を質量分析した結果に基づいて目的タンパク質を同定する同定作業を支援する生体由来物質の同定支援装置であって、
a)試料に対する質量分析によって得られたマススペクトルデータに基づいて該試料に含まれる少なくとも一部のペプチドのアミノ酸配列を推定するとともに、その推定結果に基づき目的タンパク質として複数のタンパク質候補を抽出する候補抽出部と、
b)前記候補抽出部により抽出された複数のタンパク質候補それぞれについて、そのタンパク質のアミノ酸配列の表記の中で前記候補抽出部により推定されたペプチドのアミノ酸配列をそれ以外のアミノ酸配列とは識別可能であるように表示する表示処理部と、
を備え、前記表示処理部による表示結果を参照して分析者自らがタンパク質候補の中から候補の選択を行えるようにしたことを特徴とする生体由来物質の同定支援装置。
A biological substance identification support device that supports identification work for identifying a target protein based on the result of mass spectrometry of a sample containing a peptide mixture obtained by fragmenting a target protein that is a biological substance,
a) Candidates that estimate the amino acid sequences of at least some of the peptides contained in the sample based on mass spectral data obtained by mass spectrometry of the sample and extract a plurality of protein candidates as target proteins based on the estimation result An extractor;
b) For each of a plurality of protein candidates extracted by the candidate extraction unit, the amino acid sequence of the peptide estimated by the candidate extraction unit can be distinguished from other amino acid sequences in the description of the amino acid sequence of the protein. A display processing unit for displaying as it is,
An identification support apparatus for biologically derived substances, characterized in that an analyst can select a candidate from protein candidates by referring to a display result by the display processing unit.
請求項3に記載の生体由来物質の同定支援装置であって、
一つの解析単位として1回の解析に反映させるデータの範囲を分析者が指定する解析単位指定部をさらに備え、
前記候補抽出部は、一つの解析単位として指定された全てのデータに基づいてペプチドのアミノ酸配列の推定及びタンパク質候補の抽出を行い、
前記表示処理部は、一つの解析単位として指定された全てのデータに基づくペプチドの推定結果をタンパク質候補毎に統合して表示することを特徴とする生体由来物質の同定支援装置。
An identification support apparatus for a biological substance according to claim 3,
An analysis unit designating unit for the analyst to specify the range of data to be reflected in one analysis as one analysis unit,
The candidate extraction unit performs estimation of peptide amino acid sequences and extraction of protein candidates based on all data designated as one analysis unit,
The display processing unit integrates and displays the estimation results of peptides based on all data designated as one analysis unit for each protein candidate, and the identification support apparatus for a biological substance.
目的の生体由来物質を含む試料を質量分析した結果に基づいて該目的の生体由来物質を同定する同定作業を支援する生体由来物質の同定支援方法であって、
a)試料に対する質量分析によって得られたマススペクトルデータに基づいて目的の生体由来物質の候補物質を複数抽出する候補抽出ステップと、
b)前記マススペクトルデータからは導出できない前記目的の生体由来物質に関連した参照情報を用いて、複数の前記候補物質の中から蓋然性の高い物質候補を選択する物質選択ステップと、
を有することを特徴とする生体由来物質の同定支援方法。
A method for assisting identification of a biological substance that supports identification work for identifying the target biological substance based on the result of mass spectrometry of a sample containing the target biological substance,
a) a candidate extraction step of extracting a plurality of candidate substances of a target biological substance based on mass spectral data obtained by mass spectrometry on a sample;
b) a substance selection step of selecting a highly probable substance candidate from among the plurality of candidate substances using reference information related to the target biological substance that cannot be derived from the mass spectrum data;
A method for assisting identification of a biological substance, characterized by comprising:
請求項5に記載の生体由来物質の同定支援方法であって、
目的の生体由来物質はタンパク質であり、前記参照情報は質量分析法によるプロテオミクス解析結果以外の他のオミックス情報であることを特徴とする生体由来物質の同定支援方法。
A method for assisting identification of a biological substance according to claim 5,
The target biological substance is a protein, and the reference information is omics information other than the proteomic analysis result by mass spectrometry.
請求項6に記載の生体由来物質の同定支援方法であって、
前記参照情報はゲノミクス解析による遺伝子発現量の情報であることを特徴とする生体由来物質の同定支援方法。
It is the identification assistance method of the biological substance of Claim 6, Comprising:
The reference information is information on gene expression level by genomics analysis, and a method for assisting identification of a biological substance, characterized in that:
請求項5に記載の生体由来物質の同定支援方法であって、
前記参照情報は、ゲノミクス解析における遺伝子発現ネットワークを示すパスウェイマップ、又はメタボロミクス解析における代謝物ネットワークを示すパスウェイマップであることを特徴とする生体由来物質の同定支援方法。
A method for assisting identification of a biological substance according to claim 5,
The reference information is a pathway map showing a gene expression network in genomics analysis, or a pathway map showing a metabolite network in metabolomics analysis.
請求項5に記載の生体由来物質の同定支援方法であって、
目的の生体由来物質はタンパク質であり、前記参照情報はタンパク質の立体構造情報であることを特徴とする生体由来物質の同定支援方法。
A method for assisting identification of a biological substance according to claim 5,
The biological support substance identification support method, wherein the target biological substance is a protein, and the reference information is three-dimensional structure information of the protein.
目的の生体由来物質を含む試料を質量分析した結果に基づいて該目的の生体由来物質を同定する同定作業を支援する生体由来物質の同定支援装置であって、
a)試料に対する質量分析によって得られたマススペクトルデータに基づいて目的の生体由来物質の候補物質を複数抽出する候補抽出部と、
b)前記マススペクトルデータからは導出できない前記目的の生体由来物質に関連した参照情報を用いて、複数の前記候補物質の中から蓋然性の高い物質候補を選択する物質選択部と、
を備えることを特徴とする生体由来物質の同定支援装置。
A biological material identification support device that supports identification work for identifying a target biological material based on the result of mass spectrometry of a sample containing the target biological material,
a) a candidate extraction unit that extracts a plurality of candidate substances of a target biological substance based on mass spectral data obtained by mass spectrometry of a sample;
b) using a reference information related to the target biological substance that cannot be derived from the mass spectrum data, a substance selection unit that selects a highly probable substance candidate from the plurality of candidate substances;
A biological material-derived substance identification support apparatus comprising:
請求項10に記載の生体由来物質の同定支援装置であって、
目的の生体由来物質はタンパク質であり、前記参照情報は質量分析法によるプロテオミクス解析結果以外の他のオミックス情報であることを特徴とする生体由来物質の同定支援装置。
It is an identification assistance device for a biological substance according to claim 10,
The target biological substance is a protein, and the reference information is omics information other than the proteomic analysis result by mass spectrometry.
請求項11に記載の生体由来物質の同定支援装置であって、
前記参照情報はゲノミクス解析による遺伝子発現量の情報であることを特徴とする生体由来物質の同定支援装置。
It is an identification assistance apparatus of the biological substance of Claim 11, Comprising:
The reference information is information on a gene expression level by genomics analysis, an identification support apparatus for a biological substance, characterized in that:
請求項10に記載の生体由来物質の同定支援装置であって、
前記参照情報は、ゲノミクス解析における遺伝子発現ネットワークを示すパスウェイマップ、又はメタボロミクス解析における代謝物ネットワークを示すパスウェイマップであることを特徴とする生体由来物質の同定支援装置。
It is an identification assistance device for a biological substance according to claim 10,
The reference information is a pathway map showing a gene expression network in genomics analysis, or a pathway map showing a metabolite network in metabolomics analysis.
請求項10に記載の生体由来物質の同定支援装置であって、
目的の生体由来物質はタンパク質であり、前記参照情報はタンパク質の立体構造情報であることを特徴とする生体由来物質の同定支援装置。
It is an identification assistance device for a biological substance according to claim 10,
An identification support apparatus for a biological substance, wherein the target biological substance is a protein, and the reference information is three-dimensional structure information of the protein.
JP2015226510A 2015-11-19 2015-11-19 Identification support method and identification support device for living matter derived substance Pending JP2017096668A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015226510A JP2017096668A (en) 2015-11-19 2015-11-19 Identification support method and identification support device for living matter derived substance

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015226510A JP2017096668A (en) 2015-11-19 2015-11-19 Identification support method and identification support device for living matter derived substance

Publications (1)

Publication Number Publication Date
JP2017096668A true JP2017096668A (en) 2017-06-01

Family

ID=58817211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015226510A Pending JP2017096668A (en) 2015-11-19 2015-11-19 Identification support method and identification support device for living matter derived substance

Country Status (1)

Country Link
JP (1) JP2017096668A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019197371A (en) * 2018-05-09 2019-11-14 株式会社島津製作所 Data search device, data storage system, and data search method
WO2021005821A1 (en) * 2019-07-10 2021-01-14 フロンティア・ラボ株式会社 Content determination assistance system and content determination assistance method
CN113748419A (en) * 2019-05-10 2021-12-03 国立大学法人大阪大学 Analysis device and analysis method
CN114295706A (en) * 2021-09-28 2022-04-08 岛津企业管理(中国)有限公司 Statistic-based pathological typing method for non-targeted non-small cell lung cancer

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019197371A (en) * 2018-05-09 2019-11-14 株式会社島津製作所 Data search device, data storage system, and data search method
JP7087650B2 (en) 2018-05-09 2022-06-21 株式会社島津製作所 Data search device, data storage system and data search method
CN113748419A (en) * 2019-05-10 2021-12-03 国立大学法人大阪大学 Analysis device and analysis method
WO2021005821A1 (en) * 2019-07-10 2021-01-14 フロンティア・ラボ株式会社 Content determination assistance system and content determination assistance method
US11927575B2 (en) 2019-07-10 2024-03-12 Frontier Laboratories Ltd. Content determination assistance system and content determination assistance method
CN114295706A (en) * 2021-09-28 2022-04-08 岛津企业管理(中国)有限公司 Statistic-based pathological typing method for non-targeted non-small cell lung cancer

Similar Documents

Publication Publication Date Title
Giese et al. A study into the collision-induced dissociation (CID) behavior of cross-linked peptides
JP5590156B2 (en) Mass spectrometry method and apparatus
EP2418481B1 (en) Mass analysis data processing method and mass analysis data processing apparatus
Colinge et al. Introduction to computational proteomics
Krug et al. Mass spectrometry at the interface of proteomics and genomics
JP2017096668A (en) Identification support method and identification support device for living matter derived substance
JPWO2018037569A1 (en) Imaging mass spectrometry data processing apparatus and method
EP3544016A2 (en) Methods for combining predicted and observed mass spectral fragmentation data
JP6136770B2 (en) Mass spectrometry data analysis apparatus and analysis method
JP5776443B2 (en) Modified protein identification method and identification apparatus using mass spectrometry
US7691643B2 (en) Mass analysis method and mass analysis apparatus
JP2014215172A (en) Mass analysis data analyzer for peptide structural analysis
JP6489224B2 (en) Peptide assignment method and peptide assignment system
JP5751126B2 (en) Mass spectrometry data analysis method and analysis apparatus
JP2014052331A (en) Analysis method and apparatus for amino acid sequence
JP2008145221A (en) Method, apparatus, and program for analyzing amino acid sequence using mass spectrometry and recording medium recording this program
JP2007010509A (en) Analysis supporting system and method
JP2015230262A (en) Mass analysis data analysis method and device
JP2008039608A (en) Mass spectrometry system
Khatun et al. Incorporating sequence information into the scoring function: a hidden Markov model for improved peptide identification
JP5181908B2 (en) Mass spectrometry data analyzer
JP5983371B2 (en) Peptide structure analysis method and apparatus
JP2012251878A (en) Mass spectrometric data analysis method and analysis device
JP2006284509A (en) Mass spectrometric system
JP6996451B2 (en) Analysis support device and analysis support method