JP2016061670A - 時系列データ解析装置及び方法 - Google Patents

時系列データ解析装置及び方法 Download PDF

Info

Publication number
JP2016061670A
JP2016061670A JP2014189691A JP2014189691A JP2016061670A JP 2016061670 A JP2016061670 A JP 2016061670A JP 2014189691 A JP2014189691 A JP 2014189691A JP 2014189691 A JP2014189691 A JP 2014189691A JP 2016061670 A JP2016061670 A JP 2016061670A
Authority
JP
Japan
Prior art keywords
time
peak
pair
series
series data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014189691A
Other languages
English (en)
Inventor
藤田 雄一郎
Yuichiro Fujita
雄一郎 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Priority to JP2014189691A priority Critical patent/JP2016061670A/ja
Publication of JP2016061670A publication Critical patent/JP2016061670A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

【課題】時間経過に伴って順次マススペクトルを取得することで収集した時系列マススペクトルデータの中から、未知、既知の化学修飾に関連した有用な情報を簡単な解析によって得る。
【解決手段】ピークマトリクス作成部13は、時系列マススペクトルデータから横軸がm/z、縦軸が時系列であるピークマトリクスを作成する。ペアピーク間相関係数算出部14は、ピークマトリクスに対し二つのm/zの全ての組み合わせ(ペアピーク)について時系列方向の相関係数を算出し、ペアピーク選出部15は相関係数が所定閾値以上のペアピークを選出する。ただし、確率論的にかなりの数の擬陽性のペアピークが選出されてしまうため、これを極力排除するために、共通ペアピーク選出部16は異なる被検者から得られた複数の時系列マススペクトルデータから求まったペアピークで共通のものをさらに選出する。これによって、化学修飾等に由来する可能性の高いペアピークを抽出できる。
【選択図】図1

Description

本発明は、第1のディメンジョンとそれに対する強度との関係を示す2次元的なグラフが時系列順に並べられた時系列グラフを構成する時系列データを解析処理する時系列データ解析装置及び方法に関する。本発明は、特に、1時間毎、1日毎、1週間毎など、略一定の時間間隔又は非一定の時間間隔で、或る程度長い期間に亘り質量分析装置により得られたマススペクトルの時系列データを解析処理し有意な情報を導出するための質量分析データ解析装置及び方法に好適である。
タンパク質は様々な要因により翻訳後修飾を受け、その修飾の種類も非常に多様である。こうした翻訳後修飾を受けたタンパク質は生体組織における生体活動に重要な役割を果たしていることも多い。例えば典型的な翻訳後修飾の一つであるリン酸化は生体内での情報伝達に大きな役割を果たしていることが知られており、タンパク質のリン酸化・脱リン酸化を調べることは各種疾病の診断、疾病の要因解明、などに非常に重要である。
近年、MALDI−TOFMS(マトリクス支援レーザ脱離イオン化飛行時間型質量分析装置)を始めとする質量分析装置を用いてタンパク質を網羅的に解析する手法は著しく進展しており、翻訳後修飾を受けたタンパク質やペプチドの構造解析や同定が行える技術も開発されている。
質量分析を行うことで得られたマススペクトル(nが2以上のMSnスペクトルを含む)の情報に基づいてペプチドの構造解析を行う手法として、現在幅広く用いられているのはデータベース検索法である。一般に、データベース検索法では、MSn分析を行うことで得られたMSnスペクトルに現れるピークの質量電荷比情報を集めたピークリストと、データベースに登録されているタンパク質より理論的に算出される質量電荷比や実際に実験を行って得られたタンパク質のピークリストなどとを照合し、その一致度を手がかりとしてペプチドのアミノ酸配列を決定する。こうしたデータベース検索法としては、英国マトリックス・サイエンス社製のソフトウエアであるマスコット(Mascot)に含まれる、MS/MSイオンサーチ(MS/MS Ion Search)やX!Tandemなどの検索エンジンがよく知られている。
例えばMS/MSイオンサーチ(非特許文献1参照)では、データベース検索を行う検索条件として、タンパク質の分解に使用した消化酵素の種類、許容誤差などのほかに、翻訳後修飾の種類(「Variable modifications」)をユーザが設定することができる。或る種類の翻訳後修飾が検索条件の一つとして設定されると、その翻訳後修飾が発生する可能性があるとの前提の下に、データベース検索が実行され、その翻訳後修飾を受けたペプチドが候補ペプチドとして選出されることになる。マスコットのMS/MSイオンサーチでは、一度に設定可能な「Variable modifications」の最大数は9に制限されている。
解析対象であるMSnスペクトルデータから翻訳後修飾を探索する別の手法として、非特許文献2に記載のものが知られている。この文献では、二つのマススペクトルの間の相関係数及び一つのマススペクトルの自己相関係数を用いて、それらスペクトル中における下記三つのマスシフト(mass shift)、つまりはペアピークの質量差、を簡易的に探索する手法が提案されている。
(1)安定同位体標識由来のマスシフト
(2)ニュートラルロス由来のマスシフト
(3)特定のイオン系列(例えばb系列等)を除外した場合のマスシフト
このうち、翻訳後修飾の探索に利用できるのはニュートラルロス由来のマスシフトである。上記非特許文献2中で示されている、或るマススペクトル中の自己相関関数の計算結果によれば、Offset(=mass shift)=79.96における自己相関関数値が高いことから、マススペクトル中にm/z=79.96差であるペアピークが多く存在する、と判断でき、これはm/z差から推測してリン酸化由来のペアピークであると判断できる。
ところで、或る時点において被検体から採取した試料を質量分析することによって得られるマススペクトルは、その時点での被検体(例えば疾病診断を受ける被検者)の状態を反映している。これに対し、疾病の診断方法の開発や疾病原因の究明などを行う際には、或る程度の長い期間における生体内のタンパク質の動態調査が重要であることがある。例えば被検者の体表面から毎日(一日に一回)採取した体表成分を試料としてマススペクトルデータを取得し、これを例えば数ヶ月単位で継続することにより、マススペクトルの時系列データ(つまりは数ヶ月に亘るマススペクトルの変化を示すデータ)が得られる(以下、このようなマススペクトルデータの集合を「時系列マススペクトルデータ」という)。
こうした時系列マススペクトルデータに対し特定の既知の又は未知の翻訳後修飾がある物質の時間的な変化が把握できれば、上記のような目的に有用な情報となり得る。また特に、複数の被検体において同様の時間的な変化をする又は全く反対の時間的な変化をする翻訳後修飾を受けた物質が判明すれば、それは重要な情報である。
しかしながら、こうした解析に適した手法は従来存在しないのが実状である。
例えば上述したMS/MSイオンサーチは翻訳後修飾を探索する一つの方法であるが、一つのマススペクトル(又は複数のマススペクトルを統合して作成した一つのマススペクトル)に対してのみ翻訳後修飾の探索が可能である。複数のマススペクトルに対して一括して特定の翻訳後修飾の探索を行うような処理は可能であるものの、それは、あくまでも個別のマススペクトルに対する翻訳後修飾の探索を繰り返すだけであり、当然のことながら、時系列マススペクトルデータや複数の時系列マススペクトルデータについては想定されていない。また、MS/MSイオンサーチでは未知の翻訳後修飾を探索することができず、既知の翻訳後修飾についても一度に探索可能な翻訳後修飾の数が限られる。
また上述した非特許文献2に記載の手法でも、一つ又は二つのマススペクトルにおける翻訳後修飾の探索のみが可能であり、時系列マススペクトルデータや複数の時系列マススペクトルデータについては全く想定されていない。また、二つのマススペクトルの間の相関係数及び一つのマススペクトルの自己相関係数に基づいて特定の翻訳後修飾の存在が高い確率で推定されても、その翻訳後修飾に対応するペアピークがマススペクトル上のどの位置にどの程度の数存在するのかを把握することはできない。
デビッド(David M. Creasy)ほか、「エラー・トレラント・サーチング・オブ・アンインタプリテッド・タンデム・マス・スペクトロメトリ・データ(Error Tolerant Searching of Uninterpreted Tandem Mass Spectrometry Data)」、プロテオミクス(Proteomics)、2002年、Vol.2、Issue 10、pp.1426-1434 マチュー(Matthew J. Sniatynski,)ほか、「コリレイション・アンド・コンボリューション・アナリシス・オブ・ペプチド・マス・スペクトラ(Correlation and Convolution Analysis of Peptide Mass Spectra.)」、アナリティカル・ケミストリ(Anal. Chem.)、2006年、Vol.78、pp.2600-2607
上述したように、既知の手法では、時系列マススペクトルデータに対し、特定の既知の又は未知の翻訳後修飾がある物質の時間的な変化を把握するために、有意なペアピークを抽出することは困難であるし、ましてや、複数の時系列マススペクトルデータの間で、同様の時間的な変化をしたり全く反対の時間的な変化したりするペアピークを抽出することは実質的に不可能である。
本発明はこうした点に鑑みて成されたものであり、その主たる目的は、時系列マススペクトルデータから翻訳後修飾などの化学修飾に由来するペアピークを探索し、有意なペアピークの位置(質量電荷比)や質量電荷比差、ペアピークの数などの情報を簡便に得ることができる質量分析データ解析装置及び方法を提供することである。
また、質量分析により得られたマススペクトル以外に、各種分析機器により一定又は非一定の時間間隔でスペクトルやグラフを取得することで得られたデータも、上記時系列マススペクトルデータと同様の時系列データである。例えば、液体クロマトグラフで得られた吸光スペクトル、赤外ガス分析装置で得られた吸収スペクトルなどを一定時間間隔で収集して得られた時系列データにおいても、さらには、それ以外の様々なチャートやグラフによる時系列データにおいても、上記のようなペアピークが求まれば、複数の検体や事象を比較したり、特異的な現象を導出したりするのに有益である。そこで、本発明は、こうした複数の時系列データに基づいて解析に有益なペアピークを容易に得ることも目的としている。
上記課題を解決するために成された本発明に係る時系列データ解析装置は、第1のディメンジョンとそれに対する強度との関係を示す2次元的なグラフが時系列順に並べられた時系列グラフを構成する時系列データを複数受け、その複数の時系列データを解析処理することによって有意な情報を取得する時系列データ解析装置であって、
a)複数の時系列データについて、第1のディメンジョンを横軸又は縦軸に割り当てるとともに、時系列の時間情報を縦軸又は横軸に割り当て、強度値を要素として配置したピークマトリクスをそれぞれ作成することで、複数のピークマトリクスを取得するマトリクス作成部と、
b)前記マトリクス作成部で作成された複数のピークマトリクスのそれぞれにおいて、異なる二つの第1のディメンジョンの値の全ての組み合わせについてそれぞれ、時系列方向に並ぶ要素の間の相関係数を計算するペアピーク間相関係数算出部と、
c)前記複数の時系列データそれぞれについて、少なくとも前記ペアピーク間相関係数算出部により算出された相関係数が所定条件を満たす二つの第1のディメンジョンの値の組み合わせであって、前記複数の時系列データそれぞれから選出された第1のディメンジョンの値の組み合わせの中で、その複数の時系列データに共通する組み合わせを抽出するペアピーク探索部と、
を備えることを特徴としている。
また上記課題を解決するために成された本発明に係る時系列データ解析方法は、上記時系列データ解析装置により具現化される解析方法であり、第1のディメンジョンとそれに対する強度との関係を示す2次元的なグラフが時系列順に並べられた時系列グラフを構成する時系列データを複数受け、その複数の時系列データを解析処理することによって有意な情報を取得する時系列データ解析方法であって、
a)複数の時系列データについて、第1のディメンジョンを横軸又は縦軸に割り当てるとともに、時系列の時間情報を縦軸又は横軸に割り当て、強度値を要素として配置したピークマトリクスをそれぞれ作成することで、複数のピークマトリクスを取得するマトリクス作成ステップと、
b)前記マトリクス作成ステップにおいて作成された複数のピークマトリクスのそれぞれにおいて、異なる二つの第1のディメンジョンの値の全ての組み合わせについてそれぞれ、時系列方向に並ぶ要素の間の相関係数を計算するペアピーク間相関係数算出ステップと、
c)前記複数の時系列データそれぞれについて、少なくとも前記ペアピーク間相関係数ステップにおいて算出された相関係数が所定条件を満たす二つの第1のディメンジョンの値の組み合わせであって、前記複数の時系列データそれぞれから選出された第1のディメンジョンの値の組み合わせの中で、その複数の時系列データに共通する組み合わせを抽出するペアピーク探索ステップと、
を有することを特徴としている。
本発明に係る時系列データ解析装置の典型的な一態様として、
前記第1のディメンジョンは質量電荷比であり、前記2次元的なグラフは質量分析により得られたマススペクトルであり、前記時系列データは時系列マススペクトルデータである構成とすることができる。
また、前記2次元的なグラフが吸光スペクトルや発光スペクトルなどである場合には、前記第1のディメンジョンは波長である。また、第1のディメンジョンは、時系列上の時間間隔に比べて遙かに短い間隔の時間であってもよい。
また、時系列データは、一定の時間間隔の測定時点毎に得られたデータからなるものでもよいが、非一定の時間間隔の測定時点毎に得られたデータからなるものでもよい。さらにまた、複数の時系列データの測定点数(つまりは例えばマススペクトルの数)は必ずしも揃っている必要はない。
例えば上述のように時系列データが時系列マススペクトルデータである場合、マススペクトルはイオンの解離操作を伴わない通常のマススペクトルでもよいが、n−1段階(ただしnは2以上の整数)にイオンを解離させ、それにより生成されるプロダクトイオンを質量分析することで得られるMSnスペクトルであってもよい。
いま一例として、時系列データが上述したように時系列マススペクトルデータであるとする。この場合、マトリクス作成部は、多数のマススペクトルデータを含む時系列マススペクトルデータ毎に、信号強度値を要素としたピークマトリクスを作成する。このピークマトリクスは例えば、横方向に質量電荷比軸をとり、縦方向に時間軸をとったものである。この場合、横方向に並ぶ一つの行中の複数の要素、つまり信号強度値は、一つのマススペクトルを構成するものである。
なお、それぞれ異なる時系列マススペクトルデータに対応する複数のピークマトリクスにおいて、質量電荷比軸、つまりは第1のディメンジョンの軸は揃っている必要がある。そのためには、マトリクス作成部は例えば、処理対象である全ての時系列マススペクトルデータについて、ピークの質量電荷比値を全て抽出し、そのピークの質量電荷比値を質量電荷比軸に対応付け、或る質量電荷比値に対応するデータ(信号強度値)が存在しない場合にはその要素の信号強度値をゼロにすればよい。即ち、時系列マススペクトルデータ上に存在しないデータについては信号強度値をゼロとして、複数のピークマトリクスの列数を合わせるとよい。
なお、時系列に沿った時間軸については、各ピークマトリクス間でなるべく揃っていることが望ましいものの、それは必須要件ではない。
マトリクス作成部により時系列マススペクトルデータの数と同数のピークマトリクスが作成されると、ペアピーク間相関係数算出部は、ピークマトリクス毎に、異なる二つの質量電荷比値の全ての組み合わせについてそれぞれ、時系列方向に並ぶ要素の間の相関係数を計算する。したがって、ピークマトリクスの質量電荷比軸上の要素の数がm個であれば、m2個の数のピーク間相関係数が得られる。このピーク間相関係数は、二つの質量電荷比における信号強度の時間的変化の相似性を示すものである。そこで、ペアピーク探索部はまず、例えば、ピーク間相関係数が所定閾値以上であって「1」に近い、つまりは正の相関性が高い組み合わせを選出する。又は逆に、ピーク間相関係数が所定値以下であって「−1」に近い、つまりは負の相関性が高い組み合わせを選出してもよい。
通常、マススペクトルにおいて異なる質量電荷比に現れる二つのピークは、互いに異なる物質に由来していると考えられる。したがって、ピーク間相関係数が所定閾値以上である二つの質量電荷比値の組み合わせを選出するということは、異なる物質であるにも拘わらず同じような時間的変化をしている二つの物質由来のピークを探索することを意味する。化学修飾を受けている或る物質に対するピークと、該物質から化学修飾が脱離した、つまりはニュートラルロスが起こっている物質に対するピークとにおいて、それらピーク同士の時系列に沿った相関係数を計算すると、比較的高い相関を示すことが期待できる。それ故に、ピーク間相関係数が所定閾値以上であるとの条件の下でペアピーク探索部により選出されたペアピークは、化学修飾を受けている或る物質由来のピークと、その化学修飾が脱離した物質由来のピークとの組である可能性がある。
なお、元素組成が同じで質量電荷比が異なる同位体ピークのペアもピーク間相関係数が高くなるから、これをノイズとして排除することが好ましい。そこで、共通ペアピーク選出部では、相関係数の値以外に、ペアピークの質量電荷比差が所定値以上であることも条件としてペアピークを選出するとよい。
さらにペアピーク探索部は、複数のピークマトリクスにおいてそれぞれ上述したように選出されたペアピークを比較し、質量電荷比の組み合わせが共通であるペアピークを探索する。実際上、一つのピークマトリクスの中だけは、ピーク間の相関が無いにも拘わらず偶然に相関係数が高くなってしまうケースがかなり多くある。これに対し、実質的に無相関である複数の時系列マススペクトルデータに対して作成された複数のピークマトリクスにおいてそれぞれ選出されたペアピークの質量電荷比が同じであれば、そのペアピークは、化学修飾を受けている或る物質由来のピークと、その化学修飾が脱離した物質由来のピークとの組である可能性が高いとみなせる。そこで、ペアピーク探索部により最終的に見いだされたペアピークは化学修飾に由来するものであるとみなし、例えばその選出されたペアピークについての情報、例えばピークの位置(質量電荷比)、ピーク間の質量電荷比差、ペアピークの数などの情報を適当な形式で出力するとよい。
なお、本発明に係る時系列データ解析装置は、典型的には、上述したように化合物と該化合物に翻訳後修飾等の化学修飾がなされた化合物とに由来するペアピークを探索するのに有用であるが、それに限らず様々な目的に対するペアピークを探索することができる。
本発明に係る時系列データ解析装置及び方法によれば、例えば時系列マススペクトルデータに対し、質量電荷比差が特定の値であるペアピークではなく、全てのペアピークにおけるピーク間相関係数を評価しているので、既知の化学修飾だけでなく、未知の化学修飾に由来するペアピークも見つけることができる。また、そうした化学修飾由来であると想定されるペアピークの存在が確認されるだけでなく、そのペアピークを構成する各ピークの質量電荷比やピーク間の質量電荷比差、さらにはペアピークの数なども判明する。
こうしたことにより、時系列マススペクトルデータにおいて観測される、化学修飾に由来するペアピークに関する詳細で有用な情報を、分析者に提供することができる。それによって、例えば被検者の体表から採取した試料などに対するタンパク質やペプチドなどの解析において、翻訳後修飾を受けたペプチドの種類や量などについての有用な情報を分析者に提供することができる。
もちろん、本発明に係る時系列データ解析装置及び方法によれば、時系列マススペクトルデータ以外の様々な複数の時系列データに基づいて、それらデータで表される現象や事象を解析するのに有益な情報を収集することができる。
さらにまた、本発明に係る時系列データ解析装置及び方法によれば、解析のための演算はごく簡単なものであって処理時間も掛からず、また得られる結果の解釈も容易である。
本発明に係る質量分析データ解析装置の一実施例の概略ブロック構成図。 処理対象である時系列マススペクトルデータの概念図。 本実施例の質量分析データ解析装置におけるデータ処理の説明図。 実際に処理したデータの一例を示す図。 作成したピークマトリクスの一例を示す図。 被検者[ID001]における全てのペアピークのピーク間相関係数の分布を示す図。 被検者[ID002]における全てのペアピークのピーク間相関係数の分布を示す図。 被検者[ID007]における全てのペアピークのピーク間相関係数の分布を示す図。 実際に処理を行った結果、選出されたペアピークの詳細情報を示す図。 代表的なペアピークの信号強度の時系列変化を示す図。
以下、本発明に係る時系列データ解析装置の一実施例である質量分析データ解析装置について、添付図面を参照して説明する。
図1は本実施例の質量分析データ解析装置の概略ブロック構成図、図2はこの装置による処理対象である時系列マススペクトルデータの概念図、図3は本実施例の質量分析データ解析装置におけるデータ処理の説明図である。
本実施例の質量分析データ解析装置には、処理対象の時系列データとして、複数の時系列マススペクトルデータが入力される。ここでいう時系列マススペクトルデータとは、図2に示すように、時間経過に伴う各測定時点で得られる所定の質量電荷比範囲に亘るマススペクトルを示すデータである。
複数の時系列マススペクトルデータ毎の時間間隔は、その分析の目的等によって異なる。後述する実測例においては「1日」を単位として時系列変化が調査されているが、例えば、研究や調査の目的によっては、1分や1時間を単位とする場合もあり得る。例えば、或る毒素などを溶媒に加え、10分毎に試料を測定し、毒素が分解されていく状態を観察する、といった場合の時系列データの解析にも本実施例を用いることができる。
なお、液体クロマトグラフ質量分析装置(又はガスクロマトグラフ質量分析装置)において、質量分析装置でスキャン測定を繰り返し実行する(つまりは試料に含まれる複数の化合物に対応する保持時間付近毎にマススペクトルを取得する)ことにより得られるデータ(以下、これをLC−MSデータと呼ぶ)も、広い意味では時系列マススペクトルデータである。ただし、この場合には、LCのカラムで溶出時間に差が生じるために、結果として各時刻毎に分かれたデータになっているだけであり、このLC−MSデータは本発明で処理対象としている時系列データとは意味付けが異なる。
このようなLC−MSデータを本発明の手法によって処理するとすれば、例えば日時1、日時2、日時3、…、においてそれぞれ測定した、保持時間a、b、c、…でのLC−MSデータのうち、保持時間aでのマススペクトルの日時1、日時2、日時3、…という時系列変化、保持時間bでのマススペクトルの日時1、日時2、日時3、…という時系列変化、保持時間cのマススペクトルの日時1、日時2、日時3、…という時系列変化、…を対象とすることが想定される。もちろん、この際に、名目上の保持時間aにずれがあると好ましくないから、保持時間を合わせるために補正が必要になる場合もある。
図1に示すように、本実施例の質量分析データ解析装置におけるデータ解析部1は、データ読み込み部11、ピーク検出部12、ピークマトリクス作成部13、ペアピーク間相関係数算出部14、ペアピーク選出部15、共通ペアピーク選出部16、及び表示情報作成部17、を備え、データ解析部1には分析者がパラメータを設定したり何らかの指示を行ったりするための入力部2と、解析結果が表示される表示部3とが接続されている。
なお、このデータ解析部1は例えばパーソナルコンピュータをハードウエア資源とし、該コンピュータにインストールされた専用のデータ解析処理ソフトウエアを実行することにより、上記各機能ブロックが具現化される構成とすることができる。
データ読み込み部11は入力部2からの指示に応じて、図示しないデータ記憶部から処理対象である複数の時系列マススペクトルデータを読み込む。
ピーク検出部12は、読み込まれた時系列マススペクトルデータ毎に、各マススペクトルに現れるピークを所定基準の下で検出し、ピーク位置(質量電荷比値)とピーク強度とを求める。これによって、マススペクトル毎に、ピーク位置Mpとピーク強度Ipとの組(Mp,Ip)(ただし、p=1,2,…)を多数集めたピークリストを作成する。
ピークマトリクス作成部13は、読み込まれた時系列マススペクトルデータ毎に、上記ピークリストを利用してピークマトリクスを作成する。
即ち、一つの時系列マススペクトルデータに対し、複数のマススペクトルにおけるピークリストが得られるから、処理対象である複数の時系列マススペクトルデータに対するピークリストを集め、その全てのピークリストにおけるピーク位置(質量電荷比値)を抽出する。そして、抽出した質量電荷比値を小さい順に横方向に並べてマトリクスの横軸とする。一方、処理対象である複数の時系列マススペクトルデータにおける全ての測定時点を時系列順に縦方向に並べてマトリクスの縦軸とする。こうして設定横軸、縦軸で決まるマトリクスの2次元的な位置に、一つの時系列マススペクトルデータ中の各マススペクトルに対応するピークリストのピーク強度値を要素として配置することで、ピークマトリクスを生成する。
もちろん、上述したように横軸と縦軸とを決めているため、マトリクスの或る2次元的な位置に配置すべきピーク強度値が存在しないことは当然起こり得る。そのときには該位置の要素はゼロとすればよい。こうして図3(a)に示すようなピークマトリクスを作成することができる。質量電荷比値の総数がN、測定時点の総数がMであれば、ピークマトリクスはM行N列となる。また、入力された全ての時系列マトリクスデータに対するピークマトリクスの行数、列数はそれぞれ同じになる。
ペアピーク間相関係数算出部14は、上記のように時系列マトリクスデータ毎に作成されたピークマトリクスそれぞれにおいて、ペアピーク間相関係数を算出する。
即ち、図3(b)に示すように、二つの質量電荷比値を選択し、各質量電荷比値に対応する縦方向の要素、つまりピーク強度値の列を抽出する。そして、その二つのピーク強度値の時間方向のピーク間相関係数を計算する。同様の計算を、二つの質量電荷比値の全ての組み合わせについて行う。
例えば、横軸上でm/z=100、101、102、…の位置に要素(ピーク強度値)があるとすると、m/z=100におけるピーク強度値とm/z=101におけるピーク強度値との間の時間方向のピーク間相関係数、m/z=100におけるピーク強度値とm/z=102におけるピーク強度値の間のピーク間相関係数、m/z=101におけるピーク強度値とm/z=102におけるピーク強度値の間のピーク間相関係数、…を順番に計算する。一つのピークマトリクスにおいて、横方向の要素数がPであるとすると、全部でP2の数のペアピークが存在するから、P2個のピーク間相関係数が求まることになる。
ペアピーク選出部15及び共通ペアピーク選出部16は本発明におけるペアピーク探索部に相当し、このうち、ペアピーク選出部15は、ピークマトリクス毎に、少なくとも上記のようにP2個のペアピーク毎に算出されたピーク間相関係数の値rに基づいて、所定の条件に適合するペアピーク(二つの質量電荷比値の組み合わせ)を選出する。ピーク間相関係数は−1〜+1の範囲の値をとるから、典型的には、強い正の相関を有するペアピークを選出するためにピーク間相関係数値rが所定閾値以上、例えば+0.9以上であるペアピークを選出するとよい。
また、ペアピークの選出にピーク間相関係数値以外の条件を加えてもよい。具体的には、後述するように或る化合物とそれに特定の物質(修飾物)が付加した化合物とに由来するペアピークを探索したい場合には、ノイズとなり得る同位体ピークを排除するために、ペアピークの二つの質量電荷比の差が所定値以上(又は所定範囲内)であるとの条件を満たし、且つピーク間相関係数が所定閾値以上であるペアピークを選出するとよい。
上記ペアピーク選出部15ではあくまでも、各ピークマトリクスの中での妥当な(又はそれらしい)ペアピークが選出されるだけである。通常、ピークマトリクスの横方向の要素数Pは非常に大きな値であるため、P2の数も非常に大きくなり、ピーク間相関係数が算出されるペアピークの数は膨大である。そのため、実際には全く無相関であるにも拘わらずピーク間相関係数が例えば+0.9以上になるようなケースは確率的には小さいものの、そうなるペアピークの数はかなり多くなってしまう。そこで、こうしたいわば擬陽性のペアピークを減らすために、共通ペアピーク選出部16は、複数の時系列マススペクトルデータに対してそれぞれペアピーク選出部15で選出されたペアピークの中で共通に選出されたペアピークを探索して選出する。
複数の時系列マススペクトルデータ同士が全く無相関であれば、それら複数の時系列マススペクトルデータに基づいて作成されたピークマトリクスからそれぞれ、質量電荷比が同じである擬陽性のペアピークが選出されるという確率はかなり低くなる筈である。したがって、共通ペアピーク選出部16により選出されたペアピーク、つまりは二つの質量電荷比値の組み合わせは、真にピーク強度値の時間方向の相関性が高いペアピークであるものとみなすことができる。即ち、擬陽性のペアピークの多くを排除して、信頼性の高いペアピークを残すことができる。
表示情報作成部17は、共通ペアピーク選出部16により選出されたペアピークに関する情報、具体的には、そのペアピークの質量電荷比値、ピーク間の質量電荷比の差、さらには、ペアピークの数などを例えば表形式など適宜の形式にまとめて、表示部3の画面上に表示する。
続いて、本実施例の質量分析データ解析装置による実際の解析例を挙げつつ、より具体的に処理を説明する。この解析例で処理対象とした時系列マススペクトルデータは以下のような条件で得られたものである。
・データの種類:被検者の体表成分(皮脂)を測定したデータ
・測定方法:MALDI用のサンプルプレートに被検者の人差し指を押し付けることで該プレートに皮脂を付着させ、それを島津製作所製のMALDI−TOFMSにより直接測定してマススペクトルを取得した。
・被検者数:3人
・データ取得期間:2012年3月初旬〜2013年3月下旬(計約13ヶ月)
図4は3人の被検者の属性とデータ取得計日数を示す図である。原則的には1日に1回測定を行うが、実際には、被検者の都合等によって、1日又は数日に亘り、測定が行われない空間期間が生じ、データ取得計日数は被検者毎に異なっている。なお、以下の説明では、IDがIDXXXである被験者を被験者[IDXXX]と記す。
図5は、被検者[ID001]における時系列マススペクトルデータに基づいてマトリクス作成部13により作成されたピークマトリクスの一部を示す図である。
このピークマトリクスは、図3(a)と同様に横軸が質量電荷比であり、縦軸が時系列である。ここでは、各測定時点は測定日である。例えば、3行目の2012年3月5日のマススペクトルデータでは、m/z=31.89208及びm/z=32.89202にピークが存在しないためにその質量電荷比値に対応するピーク強度値は0になっている。こうしたピークマトリクスが、被検者[ID002]、被検者[ID007]についても作成される。
この解析例では、ピークはm/z=31.0からm/z=991.6までの幅広い質量電荷比範囲に亘っており、ピーク位置、つまり横軸上の質量電荷比値の総数は996である。したがって、ピークマトリクスから抽出されるペアピークの数は9962=495510であり、ペアピーク間相関係数算出部14では被検者毎に495510個のピーク間相関係数rが計算される。3人の被検者のピーク間相関係数rのヒストグラムを図6〜図8に示す。
ペアピーク選出部15は、三つのピークマトリクスからそれぞれ495510個の抽出されるペアピークに対して、次の[A]、[B]二つの条件に従ってペアピークを選出する。
[A]質量電荷比m/z差が3Da以上
この条件は質量電荷比差が小さい同位体ピークを除去するためのものであり、「3」という数値は一例である。
[B]ピーク間相関計数が0.9以上
即ち、ここでは上述したように正の相関が強いペアピークを選出する。
上記のような条件によって、被検者毎に、数千程度の数のペアピークが選出される。この数は膨大であるように思われるが、確率論的に考えれば妥当である。それは次のような理由による。
即ち、全くの無相関(r=0)である二つのグループ(ただし、各グループに含まれるデータは正規分布している)からランダムにそれぞれデータをサンプリングして相関係数を計算し、その相関計数値のヒストグラムを描くと、r=0を中心とする正規分布に近い形状となることが知られている。
本解析例では、いずれの被検者においても、上記条件を満たすペアピークの数は数千になるが、全てのペアピークのうちの殆どは無相関であることが予測される。このことから、図6〜図8に示した各被検者におけるピーク間相関係数のヒストグラムの形状が正規分布に近い形状となっていることは、妥当であるといえる。つまり、ピーク間相関係数が高いペアピークの殆どは、本質的には無相関であって相関が偶然に大きくなったペアピークであると考えられる。さらに換言すれば、約50万個ものペアピークが存在すれば、その中で数千個程度は、実際には相関がなくてもピーク間相関係数が偶然に高く計算されてしまうことが確率論的に十分にあり得る、ということができる。
そこで、共通ペアピーク選出部16により、被検者毎にペアピーク選出部15により選出されたペアピークの中から、三人の被検者の間で共通に選出されているペアピークをさらに選出する。全く独立である異なる時系列マススペクトルデータの間で、同じペアピークのピーク間相関係数が偶然に高くなるということは、確率的に起こりにくい。したがって、共通に選出されているペアピークに絞ることで、ピーク間相関係数が統計的に偶然大きくなったペアピークが除外される可能性が高くなる。
上記解析例では、三人の被検者に共通に選出されたペアピークは202個となった。つまり、先に選出された数千程度のペアピークのうち、95%程度は擬陽性のペアピークであったと考えられる。最終的に選出された202個のペアピークを、質量電荷比範囲及びペアピークの質量電荷比差毎にまとめた結果を図9に示す。表示情報作成部17は単に選出されたペアピークの情報をテーブル等で出力するのみならず、図9に示したような形式で整理し出力するとよい。なお、ここでは質量電荷比の誤差を±0.5Daと見込み、この誤差以内の質量電荷比は同じであるとみなしている。
また、最終的に選出された202個のペアピークの中で、m/z=800〜900の質量電荷比範囲内の代表的な4組のペアピークの時系列変化を図10に示す。ここでは、被検者[ID001]のデータの中で、質量電荷比差が異なるグループ中で平均ピーク間相関係数が最も大きいペアピークを選択して示している。
図9の結果から分かることは、質量電荷比差が14Daの整数倍であるペアピークが特に多いという点である。この14Daという質量電荷比差は、メチレン基(methylene:−CH2−)の数の差(代表的な化学修飾の一つであるエステル化)によるものであると考えられる。また、m/z=800〜900の質量電荷比範囲にある、質量電荷比差が12Da、13Daの整数倍であるペアピークは、上記メチレン基又はその多重結合の同位体であると考えられる。このような結果は、ヒトの皮脂の分析結果としてはきわめて妥当である。
このことから、上述した本実施例の質量分析データ解析処理装置による解析処理は、妥当な解析結果を高い信頼度で得られる手法であると結論付けることができる。また、結果の解釈や判断を容易に行えるものであることも分かる。
また、それ以外のペアピークについても、特定の質量電荷比差を有するペアピークの数が多いものについては、偶然に存在するものではなく、本質的に時系列マススペクトルデータ中に存在する意味のあるペアピークであると考えられる。さらにまた、数が少ないペアピークについても、本質的に時系列マススペクトルデータ中に存在する可能性のあるペアピークである。こうしたことは、図10に示した結果において、ペアピークに含まれるピーク同士の時系列変化の様子がかなり類似していることからも確認できる。したがって、こうしたペアピークの質量電荷範囲や質量電荷比差に着目することで、時系列マススペクトルデータに存在する化学修飾等の有意な情報が得られる可能性が高いといえる。
なお、上記実施例の構成では、ペアピーク選出部15と共通ペアピーク選出部16とを分けているが、ペアピーク選出部15におけるペアピーク選出と共通ペアピーク選出部16におけるペアピーク選出とは、実際上、同時に実施することもできる。
また、上記実施例は本発明の一例にすぎず、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。
例えば、上記実施例は、時系列データとして時系列マススペクトルデータを処理した例であるが、それ以外の様々なスペクトルやグラフを構成するデータを時系列に沿って取得した時系列データに対して本発明を適用し、有用なペアピークを抽出可能であることは当然である。
1…データ解析部
11…データ読み込み部
12…ピーク検出部
13…ピークマトリクス作成部
14…ペアピーク間相関係数算出部
15…ペアピーク選出部
16…共通ペアピーク選出部
17…表示情報作成部
2…入力部
3…表示部

Claims (6)

  1. 第1のディメンジョンとそれに対する強度との関係を示す2次元的なグラフが時系列順に並べられた時系列グラフを構成する時系列データを複数受け、その複数の時系列データを解析処理することによって有意な情報を取得する時系列データ解析装置であって、
    a)複数の時系列データについて、第1のディメンジョンを横軸又は縦軸に割り当てるとともに、時系列の時間情報を縦軸又は横軸に割り当て、強度値を要素として配置したピークマトリクスをそれぞれ作成することで、複数のピークマトリクスを取得するマトリクス作成部と、
    b)前記マトリクス作成部で作成された複数のピークマトリクスのそれぞれにおいて、異なる二つの第1のディメンジョンの値の全ての組み合わせについてそれぞれ、時系列方向に並ぶ要素の間の相関係数を計算するペアピーク間相関係数算出部と、
    c)前記複数の時系列データそれぞれについて、少なくとも前記ペアピーク間相関係数算出部により算出された相関係数が所定条件を満たす二つの第1のディメンジョンの値の組み合わせであって、前記複数の時系列データそれぞれから選出された第1のディメンジョンの値の組み合わせの中で、その複数の時系列データに共通する組み合わせを抽出するペアピーク探索部と、
    を備えることを特徴とする時系列データ解析装置。
  2. 請求項1に記載の時系列データ解析装置であって、
    前記第1のディメンジョンは質量電荷比であり、前記2次元的なグラフは質量分析により得られたマススペクトルであり、前記時系列データは時系列マススペクトルデータであることを特徴とする時系列データ解析装置。
  3. 請求項2に記載の時系列データ解析装置であって、
    前記ペアピーク探索部は、相関係数の値以外に、組である質量電荷比の差が所定値以上であることを条件として二つの質量電荷比値の組み合わせを選出することを特徴とする質量分析データ解析装置。
  4. 請求項2又は3に記載の時系列データ解析装置であって、
    或る化合物と該化合物に化学的修飾がなされた化合物とのペアピークを探索することを特徴とする時系列データ解析装置。
  5. 請求項4に記載の時系列データ解析装置であって、
    前記或る化合物はタンパク質又はペプチドであり、翻訳後修飾を受けていないタンパク質又はペプチドと該翻訳後修飾を受けているタンパク又はペプチドとのペアピークを探索することを特徴とする時系列データ解析装置。
  6. 第1のディメンジョンとそれに対する強度との関係を示す2次元的なグラフが時系列順に並べられた時系列グラフを構成する時系列データを複数受け、その複数の時系列データを解析処理することによって有意な情報を取得する時系列データ解析方法であって、
    a)複数の時系列データについて、第1のディメンジョンを横軸又は縦軸に割り当てるとともに、時系列の時間情報を縦軸又は横軸に割り当て、強度値を要素として配置したピークマトリクスをそれぞれ作成することで、複数のピークマトリクスを取得するマトリクス作成ステップと、
    b)前記マトリクス作成ステップにおいて作成された複数のピークマトリクスのそれぞれにおいて、異なる二つの第1のディメンジョンの値の全ての組み合わせについてそれぞれ、時系列方向に並ぶ要素の間の相関係数を計算するペアピーク間相関係数算出ステップと、
    c)前記複数の時系列データそれぞれについて、少なくとも前記ペアピーク間相関係数ステップにおいて算出された相関係数が所定条件を満たす二つの第1のディメンジョンの値の組み合わせであって、前記複数の時系列データそれぞれから選出された第1のディメンジョンの値の組み合わせの中で、その複数の時系列データに共通する組み合わせを抽出するペアピーク探索ステップと、
    を有することを特徴とする時系列データ解析方法。
JP2014189691A 2014-09-18 2014-09-18 時系列データ解析装置及び方法 Pending JP2016061670A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014189691A JP2016061670A (ja) 2014-09-18 2014-09-18 時系列データ解析装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014189691A JP2016061670A (ja) 2014-09-18 2014-09-18 時系列データ解析装置及び方法

Publications (1)

Publication Number Publication Date
JP2016061670A true JP2016061670A (ja) 2016-04-25

Family

ID=55795931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014189691A Pending JP2016061670A (ja) 2014-09-18 2014-09-18 時系列データ解析装置及び方法

Country Status (1)

Country Link
JP (1) JP2016061670A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019035719A (ja) * 2017-08-21 2019-03-07 日本電子株式会社 質量分析データ処理装置、質量分析システム及び質量分析データ処理方法
WO2021005821A1 (ja) * 2019-07-10 2021-01-14 フロンティア・ラボ株式会社 含有判定支援システム及び含有判定支援方法
WO2021106087A1 (ja) * 2019-11-26 2021-06-03 株式会社資生堂 香りの経時的な変化を表わす立体物の生成方法、プログラム、装置、および立体物
JP2022069775A (ja) * 2020-10-26 2022-05-12 日本電子株式会社 マススペクトル処理装置及び方法
JP2022142620A (ja) * 2021-03-16 2022-09-30 トヨタ自動車株式会社 質量分析データの解析方法、プログラム及び質量分析データの解析装置
CN115545082A (zh) * 2022-10-20 2022-12-30 广东省麦思科学仪器创新研究院 质谱图生成方法、装置、系统及可读存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019035719A (ja) * 2017-08-21 2019-03-07 日本電子株式会社 質量分析データ処理装置、質量分析システム及び質量分析データ処理方法
US10522335B2 (en) 2017-08-21 2019-12-31 Jeol Ltd. Mass spectrometry data processing apparatus, mass spectrometry system, and method for processing mass spectrometry data
WO2021005821A1 (ja) * 2019-07-10 2021-01-14 フロンティア・ラボ株式会社 含有判定支援システム及び含有判定支援方法
US11927575B2 (en) 2019-07-10 2024-03-12 Frontier Laboratories Ltd. Content determination assistance system and content determination assistance method
WO2021106087A1 (ja) * 2019-11-26 2021-06-03 株式会社資生堂 香りの経時的な変化を表わす立体物の生成方法、プログラム、装置、および立体物
JP2022069775A (ja) * 2020-10-26 2022-05-12 日本電子株式会社 マススペクトル処理装置及び方法
JP7249980B2 (ja) 2020-10-26 2023-03-31 日本電子株式会社 マススペクトル処理装置及び方法
US11721535B2 (en) 2020-10-26 2023-08-08 Jeol Ltd. Apparatus and method for processing mass spectrum
JP2022142620A (ja) * 2021-03-16 2022-09-30 トヨタ自動車株式会社 質量分析データの解析方法、プログラム及び質量分析データの解析装置
JP7327431B2 (ja) 2021-03-16 2023-08-16 トヨタ自動車株式会社 質量分析データの解析方法、プログラム及び質量分析データの解析装置
CN115545082A (zh) * 2022-10-20 2022-12-30 广东省麦思科学仪器创新研究院 质谱图生成方法、装置、系统及可读存储介质
CN115545082B (zh) * 2022-10-20 2024-07-09 广东省麦思科学仪器创新研究院 质谱图生成方法、装置、系统及可读存储介质

Similar Documents

Publication Publication Date Title
Barbier Saint Hilaire et al. Comparative evaluation of data dependent and data independent acquisition workflows implemented on an orbitrap fusion for untargeted metabolomics
Courant et al. Basics of mass spectrometry based metabolomics
Gillet et al. Targeted data extraction of the MS/MS spectra generated by data-independent acquisition: a new concept for consistent and accurate proteome analysis
CN106055895B (zh) 产物离子谱的数据独立获取及参考谱库匹配
America et al. Comparative LC‐MS: A landscape of peaks and valleys
Li et al. Strategy for comparative untargeted metabolomics reveals honey markers of different floral and geographic origins using ultrahigh-performance liquid chromatography-hybrid quadrupole-orbitrap mass spectrometry
JP4768189B2 (ja) 非標的化複雑試料分析の方法
JP2016061670A (ja) 時系列データ解析装置及び方法
JP4522910B2 (ja) 質量分析方法及び質量分析装置
Jiang et al. An automated data analysis pipeline for GC− TOF− MS metabonomics studies
US10928363B2 (en) Method and device for chromatographic mass spectrometry
JP2008519262A (ja) 定性的なおよび定量的な質量スペクトル分析
JP4857000B2 (ja) 質量分析システム
Mattoli et al. Mass spectrometry‐based metabolomic analysis as a tool for quality control of natural complex products
JP4782579B2 (ja) タンデム型質量分析システム及び方法
JP2016180599A (ja) データ解析装置
CN108982729A (zh) 用于提取质量迹线的系统和方法
JP4317083B2 (ja) 質量分析方法及び質量分析システム
JPWO2020044435A1 (ja) データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法
JP2024526079A (ja) 質量スペクトル中の分子種を同定するための方法及び装置
JP4929149B2 (ja) 質量分析スペクトル分析方法
JP6571770B2 (ja) 修飾化合物の識別の決定
JP2014215172A (ja) ペプチド構造解析のための質量分析データ解析装置
Laursen et al. Enhanced monitoring of biopharmaceutical product purity using liquid chromatography–mass spectrometry
Erny et al. Algorithm for comprehensive analysis of datasets from hyphenated high resolution mass spectrometric techniques using single ion profiles and cluster analysis