JP2016061670A

JP2016061670A - 時系列データ解析装置及び方法

Info

Publication number: JP2016061670A
Application number: JP2014189691A
Authority: JP
Inventors: 藤田　雄一郎; Yuichiro Fujita; 雄一郎藤田
Original assignee: Shimadzu Corp
Current assignee: Shimadzu Corp
Priority date: 2014-09-18
Filing date: 2014-09-18
Publication date: 2016-04-25

Abstract

【課題】時間経過に伴って順次マススペクトルを取得することで収集した時系列マススペクトルデータの中から、未知、既知の化学修飾に関連した有用な情報を簡単な解析によって得る。
【解決手段】ピークマトリクス作成部１３は、時系列マススペクトルデータから横軸がm/z、縦軸が時系列であるピークマトリクスを作成する。ペアピーク間相関係数算出部１４は、ピークマトリクスに対し二つのm/zの全ての組み合わせ（ペアピーク）について時系列方向の相関係数を算出し、ペアピーク選出部１５は相関係数が所定閾値以上のペアピークを選出する。ただし、確率論的にかなりの数の擬陽性のペアピークが選出されてしまうため、これを極力排除するために、共通ペアピーク選出部１６は異なる被検者から得られた複数の時系列マススペクトルデータから求まったペアピークで共通のものをさらに選出する。これによって、化学修飾等に由来する可能性の高いペアピークを抽出できる。
【選択図】図１

Description

本発明は、第１のディメンジョンとそれに対する強度との関係を示す２次元的なグラフが時系列順に並べられた時系列グラフを構成する時系列データを解析処理する時系列データ解析装置及び方法に関する。本発明は、特に、１時間毎、１日毎、１週間毎など、略一定の時間間隔又は非一定の時間間隔で、或る程度長い期間に亘り質量分析装置により得られたマススペクトルの時系列データを解析処理し有意な情報を導出するための質量分析データ解析装置及び方法に好適である。

タンパク質は様々な要因により翻訳後修飾を受け、その修飾の種類も非常に多様である。こうした翻訳後修飾を受けたタンパク質は生体組織における生体活動に重要な役割を果たしていることも多い。例えば典型的な翻訳後修飾の一つであるリン酸化は生体内での情報伝達に大きな役割を果たしていることが知られており、タンパク質のリン酸化・脱リン酸化を調べることは各種疾病の診断、疾病の要因解明、などに非常に重要である。

近年、ＭＡＬＤＩ−ＴＯＦＭＳ（マトリクス支援レーザ脱離イオン化飛行時間型質量分析装置）を始めとする質量分析装置を用いてタンパク質を網羅的に解析する手法は著しく進展しており、翻訳後修飾を受けたタンパク質やペプチドの構造解析や同定が行える技術も開発されている。

質量分析を行うことで得られたマススペクトル（ｎが２以上のＭＳⁿスペクトルを含む）の情報に基づいてペプチドの構造解析を行う手法として、現在幅広く用いられているのはデータベース検索法である。一般に、データベース検索法では、ＭＳⁿ分析を行うことで得られたＭＳⁿスペクトルに現れるピークの質量電荷比情報を集めたピークリストと、データベースに登録されているタンパク質より理論的に算出される質量電荷比や実際に実験を行って得られたタンパク質のピークリストなどとを照合し、その一致度を手がかりとしてペプチドのアミノ酸配列を決定する。こうしたデータベース検索法としては、英国マトリックス・サイエンス社製のソフトウエアであるマスコット（Mascot）に含まれる、ＭＳ／ＭＳイオンサーチ（MS/MS Ion Search）やX!Tandemなどの検索エンジンがよく知られている。

例えばＭＳ／ＭＳイオンサーチ（非特許文献１参照）では、データベース検索を行う検索条件として、タンパク質の分解に使用した消化酵素の種類、許容誤差などのほかに、翻訳後修飾の種類（「Variable modifications」）をユーザが設定することができる。或る種類の翻訳後修飾が検索条件の一つとして設定されると、その翻訳後修飾が発生する可能性があるとの前提の下に、データベース検索が実行され、その翻訳後修飾を受けたペプチドが候補ペプチドとして選出されることになる。マスコットのＭＳ／ＭＳイオンサーチでは、一度に設定可能な「Variable modifications」の最大数は９に制限されている。

解析対象であるＭＳⁿスペクトルデータから翻訳後修飾を探索する別の手法として、非特許文献２に記載のものが知られている。この文献では、二つのマススペクトルの間の相関係数及び一つのマススペクトルの自己相関係数を用いて、それらスペクトル中における下記三つのマスシフト（mass shift）、つまりはペアピークの質量差、を簡易的に探索する手法が提案されている。
（１）安定同位体標識由来のマスシフト
（２）ニュートラルロス由来のマスシフト
（３）特定のイオン系列（例えばｂ系列等）を除外した場合のマスシフト
このうち、翻訳後修飾の探索に利用できるのはニュートラルロス由来のマスシフトである。上記非特許文献２中で示されている、或るマススペクトル中の自己相関関数の計算結果によれば、Offset（＝mass shift）＝79.96における自己相関関数値が高いことから、マススペクトル中にm/z＝79.96差であるペアピークが多く存在する、と判断でき、これはm/z差から推測してリン酸化由来のペアピークであると判断できる。

ところで、或る時点において被検体から採取した試料を質量分析することによって得られるマススペクトルは、その時点での被検体（例えば疾病診断を受ける被検者）の状態を反映している。これに対し、疾病の診断方法の開発や疾病原因の究明などを行う際には、或る程度の長い期間における生体内のタンパク質の動態調査が重要であることがある。例えば被検者の体表面から毎日（一日に一回）採取した体表成分を試料としてマススペクトルデータを取得し、これを例えば数ヶ月単位で継続することにより、マススペクトルの時系列データ（つまりは数ヶ月に亘るマススペクトルの変化を示すデータ）が得られる（以下、このようなマススペクトルデータの集合を「時系列マススペクトルデータ」という）。
こうした時系列マススペクトルデータに対し特定の既知の又は未知の翻訳後修飾がある物質の時間的な変化が把握できれば、上記のような目的に有用な情報となり得る。また特に、複数の被検体において同様の時間的な変化をする又は全く反対の時間的な変化をする翻訳後修飾を受けた物質が判明すれば、それは重要な情報である。

しかしながら、こうした解析に適した手法は従来存在しないのが実状である。
例えば上述したＭＳ／ＭＳイオンサーチは翻訳後修飾を探索する一つの方法であるが、一つのマススペクトル（又は複数のマススペクトルを統合して作成した一つのマススペクトル）に対してのみ翻訳後修飾の探索が可能である。複数のマススペクトルに対して一括して特定の翻訳後修飾の探索を行うような処理は可能であるものの、それは、あくまでも個別のマススペクトルに対する翻訳後修飾の探索を繰り返すだけであり、当然のことながら、時系列マススペクトルデータや複数の時系列マススペクトルデータについては想定されていない。また、ＭＳ／ＭＳイオンサーチでは未知の翻訳後修飾を探索することができず、既知の翻訳後修飾についても一度に探索可能な翻訳後修飾の数が限られる。

また上述した非特許文献２に記載の手法でも、一つ又は二つのマススペクトルにおける翻訳後修飾の探索のみが可能であり、時系列マススペクトルデータや複数の時系列マススペクトルデータについては全く想定されていない。また、二つのマススペクトルの間の相関係数及び一つのマススペクトルの自己相関係数に基づいて特定の翻訳後修飾の存在が高い確率で推定されても、その翻訳後修飾に対応するペアピークがマススペクトル上のどの位置にどの程度の数存在するのかを把握することはできない。

デビッド（David M. Creasy）ほか、「エラー・トレラント・サーチング・オブ・アンインタプリテッド・タンデム・マス・スペクトロメトリ・データ（Error Tolerant Searching of Uninterpreted Tandem Mass Spectrometry Data）」、プロテオミクス（Proteomics）、2002年、Vol.2、Issue 10、pp.1426-1434 マチュー（Matthew J. Sniatynski,）ほか、「コリレイション・アンド・コンボリューション・アナリシス・オブ・ペプチド・マス・スペクトラ（Correlation and Convolution Analysis of Peptide Mass Spectra.）」、アナリティカル・ケミストリ（Anal. Chem.）、2006年、Vol.78、pp.2600-2607

上述したように、既知の手法では、時系列マススペクトルデータに対し、特定の既知の又は未知の翻訳後修飾がある物質の時間的な変化を把握するために、有意なペアピークを抽出することは困難であるし、ましてや、複数の時系列マススペクトルデータの間で、同様の時間的な変化をしたり全く反対の時間的な変化したりするペアピークを抽出することは実質的に不可能である。

本発明はこうした点に鑑みて成されたものであり、その主たる目的は、時系列マススペクトルデータから翻訳後修飾などの化学修飾に由来するペアピークを探索し、有意なペアピークの位置（質量電荷比）や質量電荷比差、ペアピークの数などの情報を簡便に得ることができる質量分析データ解析装置及び方法を提供することである。

また、質量分析により得られたマススペクトル以外に、各種分析機器により一定又は非一定の時間間隔でスペクトルやグラフを取得することで得られたデータも、上記時系列マススペクトルデータと同様の時系列データである。例えば、液体クロマトグラフで得られた吸光スペクトル、赤外ガス分析装置で得られた吸収スペクトルなどを一定時間間隔で収集して得られた時系列データにおいても、さらには、それ以外の様々なチャートやグラフによる時系列データにおいても、上記のようなペアピークが求まれば、複数の検体や事象を比較したり、特異的な現象を導出したりするのに有益である。そこで、本発明は、こうした複数の時系列データに基づいて解析に有益なペアピークを容易に得ることも目的としている。

上記課題を解決するために成された本発明に係る時系列データ解析装置は、第１のディメンジョンとそれに対する強度との関係を示す２次元的なグラフが時系列順に並べられた時系列グラフを構成する時系列データを複数受け、その複数の時系列データを解析処理することによって有意な情報を取得する時系列データ解析装置であって、
a)複数の時系列データについて、第１のディメンジョンを横軸又は縦軸に割り当てるとともに、時系列の時間情報を縦軸又は横軸に割り当て、強度値を要素として配置したピークマトリクスをそれぞれ作成することで、複数のピークマトリクスを取得するマトリクス作成部と、
b)前記マトリクス作成部で作成された複数のピークマトリクスのそれぞれにおいて、異なる二つの第１のディメンジョンの値の全ての組み合わせについてそれぞれ、時系列方向に並ぶ要素の間の相関係数を計算するペアピーク間相関係数算出部と、
c)前記複数の時系列データそれぞれについて、少なくとも前記ペアピーク間相関係数算出部により算出された相関係数が所定条件を満たす二つの第１のディメンジョンの値の組み合わせであって、前記複数の時系列データそれぞれから選出された第１のディメンジョンの値の組み合わせの中で、その複数の時系列データに共通する組み合わせを抽出するペアピーク探索部と、
を備えることを特徴としている。
また上記課題を解決するために成された本発明に係る時系列データ解析方法は、上記時系列データ解析装置により具現化される解析方法であり、第１のディメンジョンとそれに対する強度との関係を示す２次元的なグラフが時系列順に並べられた時系列グラフを構成する時系列データを複数受け、その複数の時系列データを解析処理することによって有意な情報を取得する時系列データ解析方法であって、
a)複数の時系列データについて、第１のディメンジョンを横軸又は縦軸に割り当てるとともに、時系列の時間情報を縦軸又は横軸に割り当て、強度値を要素として配置したピークマトリクスをそれぞれ作成することで、複数のピークマトリクスを取得するマトリクス作成ステップと、
b)前記マトリクス作成ステップにおいて作成された複数のピークマトリクスのそれぞれにおいて、異なる二つの第１のディメンジョンの値の全ての組み合わせについてそれぞれ、時系列方向に並ぶ要素の間の相関係数を計算するペアピーク間相関係数算出ステップと、
c)前記複数の時系列データそれぞれについて、少なくとも前記ペアピーク間相関係数ステップにおいて算出された相関係数が所定条件を満たす二つの第１のディメンジョンの値の組み合わせであって、前記複数の時系列データそれぞれから選出された第１のディメンジョンの値の組み合わせの中で、その複数の時系列データに共通する組み合わせを抽出するペアピーク探索ステップと、
を有することを特徴としている。

本発明に係る時系列データ解析装置の典型的な一態様として、
前記第１のディメンジョンは質量電荷比であり、前記２次元的なグラフは質量分析により得られたマススペクトルであり、前記時系列データは時系列マススペクトルデータである構成とすることができる。
また、前記２次元的なグラフが吸光スペクトルや発光スペクトルなどである場合には、前記第１のディメンジョンは波長である。また、第１のディメンジョンは、時系列上の時間間隔に比べて遙かに短い間隔の時間であってもよい。

また、時系列データは、一定の時間間隔の測定時点毎に得られたデータからなるものでもよいが、非一定の時間間隔の測定時点毎に得られたデータからなるものでもよい。さらにまた、複数の時系列データの測定点数（つまりは例えばマススペクトルの数）は必ずしも揃っている必要はない。

例えば上述のように時系列データが時系列マススペクトルデータである場合、マススペクトルはイオンの解離操作を伴わない通常のマススペクトルでもよいが、ｎ−１段階（ただしｎは２以上の整数）にイオンを解離させ、それにより生成されるプロダクトイオンを質量分析することで得られるＭＳⁿスペクトルであってもよい。

いま一例として、時系列データが上述したように時系列マススペクトルデータであるとする。この場合、マトリクス作成部は、多数のマススペクトルデータを含む時系列マススペクトルデータ毎に、信号強度値を要素としたピークマトリクスを作成する。このピークマトリクスは例えば、横方向に質量電荷比軸をとり、縦方向に時間軸をとったものである。この場合、横方向に並ぶ一つの行中の複数の要素、つまり信号強度値は、一つのマススペクトルを構成するものである。
なお、それぞれ異なる時系列マススペクトルデータに対応する複数のピークマトリクスにおいて、質量電荷比軸、つまりは第１のディメンジョンの軸は揃っている必要がある。そのためには、マトリクス作成部は例えば、処理対象である全ての時系列マススペクトルデータについて、ピークの質量電荷比値を全て抽出し、そのピークの質量電荷比値を質量電荷比軸に対応付け、或る質量電荷比値に対応するデータ（信号強度値）が存在しない場合にはその要素の信号強度値をゼロにすればよい。即ち、時系列マススペクトルデータ上に存在しないデータについては信号強度値をゼロとして、複数のピークマトリクスの列数を合わせるとよい。
なお、時系列に沿った時間軸については、各ピークマトリクス間でなるべく揃っていることが望ましいものの、それは必須要件ではない。

マトリクス作成部により時系列マススペクトルデータの数と同数のピークマトリクスが作成されると、ペアピーク間相関係数算出部は、ピークマトリクス毎に、異なる二つの質量電荷比値の全ての組み合わせについてそれぞれ、時系列方向に並ぶ要素の間の相関係数を計算する。したがって、ピークマトリクスの質量電荷比軸上の要素の数がｍ個であれば、_mＣ₂個の数のピーク間相関係数が得られる。このピーク間相関係数は、二つの質量電荷比における信号強度の時間的変化の相似性を示すものである。そこで、ペアピーク探索部はまず、例えば、ピーク間相関係数が所定閾値以上であって「１」に近い、つまりは正の相関性が高い組み合わせを選出する。又は逆に、ピーク間相関係数が所定値以下であって「−１」に近い、つまりは負の相関性が高い組み合わせを選出してもよい。

通常、マススペクトルにおいて異なる質量電荷比に現れる二つのピークは、互いに異なる物質に由来していると考えられる。したがって、ピーク間相関係数が所定閾値以上である二つの質量電荷比値の組み合わせを選出するということは、異なる物質であるにも拘わらず同じような時間的変化をしている二つの物質由来のピークを探索することを意味する。化学修飾を受けている或る物質に対するピークと、該物質から化学修飾が脱離した、つまりはニュートラルロスが起こっている物質に対するピークとにおいて、それらピーク同士の時系列に沿った相関係数を計算すると、比較的高い相関を示すことが期待できる。それ故に、ピーク間相関係数が所定閾値以上であるとの条件の下でペアピーク探索部により選出されたペアピークは、化学修飾を受けている或る物質由来のピークと、その化学修飾が脱離した物質由来のピークとの組である可能性がある。

なお、元素組成が同じで質量電荷比が異なる同位体ピークのペアもピーク間相関係数が高くなるから、これをノイズとして排除することが好ましい。そこで、共通ペアピーク選出部では、相関係数の値以外に、ペアピークの質量電荷比差が所定値以上であることも条件としてペアピークを選出するとよい。

さらにペアピーク探索部は、複数のピークマトリクスにおいてそれぞれ上述したように選出されたペアピークを比較し、質量電荷比の組み合わせが共通であるペアピークを探索する。実際上、一つのピークマトリクスの中だけは、ピーク間の相関が無いにも拘わらず偶然に相関係数が高くなってしまうケースがかなり多くある。これに対し、実質的に無相関である複数の時系列マススペクトルデータに対して作成された複数のピークマトリクスにおいてそれぞれ選出されたペアピークの質量電荷比が同じであれば、そのペアピークは、化学修飾を受けている或る物質由来のピークと、その化学修飾が脱離した物質由来のピークとの組である可能性が高いとみなせる。そこで、ペアピーク探索部により最終的に見いだされたペアピークは化学修飾に由来するものであるとみなし、例えばその選出されたペアピークについての情報、例えばピークの位置（質量電荷比）、ピーク間の質量電荷比差、ペアピークの数などの情報を適当な形式で出力するとよい。

なお、本発明に係る時系列データ解析装置は、典型的には、上述したように化合物と該化合物に翻訳後修飾等の化学修飾がなされた化合物とに由来するペアピークを探索するのに有用であるが、それに限らず様々な目的に対するペアピークを探索することができる。

本発明に係る時系列データ解析装置及び方法によれば、例えば時系列マススペクトルデータに対し、質量電荷比差が特定の値であるペアピークではなく、全てのペアピークにおけるピーク間相関係数を評価しているので、既知の化学修飾だけでなく、未知の化学修飾に由来するペアピークも見つけることができる。また、そうした化学修飾由来であると想定されるペアピークの存在が確認されるだけでなく、そのペアピークを構成する各ピークの質量電荷比やピーク間の質量電荷比差、さらにはペアピークの数なども判明する。
こうしたことにより、時系列マススペクトルデータにおいて観測される、化学修飾に由来するペアピークに関する詳細で有用な情報を、分析者に提供することができる。それによって、例えば被検者の体表から採取した試料などに対するタンパク質やペプチドなどの解析において、翻訳後修飾を受けたペプチドの種類や量などについての有用な情報を分析者に提供することができる。
もちろん、本発明に係る時系列データ解析装置及び方法によれば、時系列マススペクトルデータ以外の様々な複数の時系列データに基づいて、それらデータで表される現象や事象を解析するのに有益な情報を収集することができる。
さらにまた、本発明に係る時系列データ解析装置及び方法によれば、解析のための演算はごく簡単なものであって処理時間も掛からず、また得られる結果の解釈も容易である。

本発明に係る質量分析データ解析装置の一実施例の概略ブロック構成図。処理対象である時系列マススペクトルデータの概念図。本実施例の質量分析データ解析装置におけるデータ処理の説明図。実際に処理したデータの一例を示す図。作成したピークマトリクスの一例を示す図。被検者[ID001]における全てのペアピークのピーク間相関係数の分布を示す図。被検者[ID002]における全てのペアピークのピーク間相関係数の分布を示す図。被検者[ID007]における全てのペアピークのピーク間相関係数の分布を示す図。実際に処理を行った結果、選出されたペアピークの詳細情報を示す図。代表的なペアピークの信号強度の時系列変化を示す図。

以下、本発明に係る時系列データ解析装置の一実施例である質量分析データ解析装置について、添付図面を参照して説明する。
図１は本実施例の質量分析データ解析装置の概略ブロック構成図、図２はこの装置による処理対象である時系列マススペクトルデータの概念図、図３は本実施例の質量分析データ解析装置におけるデータ処理の説明図である。

本実施例の質量分析データ解析装置には、処理対象の時系列データとして、複数の時系列マススペクトルデータが入力される。ここでいう時系列マススペクトルデータとは、図２に示すように、時間経過に伴う各測定時点で得られる所定の質量電荷比範囲に亘るマススペクトルを示すデータである。
複数の時系列マススペクトルデータ毎の時間間隔は、その分析の目的等によって異なる。後述する実測例においては「１日」を単位として時系列変化が調査されているが、例えば、研究や調査の目的によっては、１分や１時間を単位とする場合もあり得る。例えば、或る毒素などを溶媒に加え、１０分毎に試料を測定し、毒素が分解されていく状態を観察する、といった場合の時系列データの解析にも本実施例を用いることができる。

なお、液体クロマトグラフ質量分析装置（又はガスクロマトグラフ質量分析装置）において、質量分析装置でスキャン測定を繰り返し実行する（つまりは試料に含まれる複数の化合物に対応する保持時間付近毎にマススペクトルを取得する）ことにより得られるデータ（以下、これをＬＣ−ＭＳデータと呼ぶ）も、広い意味では時系列マススペクトルデータである。ただし、この場合には、ＬＣのカラムで溶出時間に差が生じるために、結果として各時刻毎に分かれたデータになっているだけであり、このＬＣ−ＭＳデータは本発明で処理対象としている時系列データとは意味付けが異なる。
このようなＬＣ−ＭＳデータを本発明の手法によって処理するとすれば、例えば日時１、日時２、日時３、…、においてそれぞれ測定した、保持時間ａ、ｂ、ｃ、…でのＬＣ−ＭＳデータのうち、保持時間ａでのマススペクトルの日時１、日時２、日時３、…という時系列変化、保持時間ｂでのマススペクトルの日時１、日時２、日時３、…という時系列変化、保持時間ｃのマススペクトルの日時１、日時２、日時３、…という時系列変化、…を対象とすることが想定される。もちろん、この際に、名目上の保持時間ａにずれがあると好ましくないから、保持時間を合わせるために補正が必要になる場合もある。

図１に示すように、本実施例の質量分析データ解析装置におけるデータ解析部１は、データ読み込み部１１、ピーク検出部１２、ピークマトリクス作成部１３、ペアピーク間相関係数算出部１４、ペアピーク選出部１５、共通ペアピーク選出部１６、及び表示情報作成部１７、を備え、データ解析部１には分析者がパラメータを設定したり何らかの指示を行ったりするための入力部２と、解析結果が表示される表示部３とが接続されている。
なお、このデータ解析部１は例えばパーソナルコンピュータをハードウエア資源とし、該コンピュータにインストールされた専用のデータ解析処理ソフトウエアを実行することにより、上記各機能ブロックが具現化される構成とすることができる。

データ読み込み部１１は入力部２からの指示に応じて、図示しないデータ記憶部から処理対象である複数の時系列マススペクトルデータを読み込む。

ピーク検出部１２は、読み込まれた時系列マススペクトルデータ毎に、各マススペクトルに現れるピークを所定基準の下で検出し、ピーク位置（質量電荷比値）とピーク強度とを求める。これによって、マススペクトル毎に、ピーク位置Ｍpとピーク強度Ｉpとの組（Ｍp，Ｉp）（ただし、ｐ＝１，２，…）を多数集めたピークリストを作成する。

ピークマトリクス作成部１３は、読み込まれた時系列マススペクトルデータ毎に、上記ピークリストを利用してピークマトリクスを作成する。
即ち、一つの時系列マススペクトルデータに対し、複数のマススペクトルにおけるピークリストが得られるから、処理対象である複数の時系列マススペクトルデータに対するピークリストを集め、その全てのピークリストにおけるピーク位置（質量電荷比値）を抽出する。そして、抽出した質量電荷比値を小さい順に横方向に並べてマトリクスの横軸とする。一方、処理対象である複数の時系列マススペクトルデータにおける全ての測定時点を時系列順に縦方向に並べてマトリクスの縦軸とする。こうして設定横軸、縦軸で決まるマトリクスの２次元的な位置に、一つの時系列マススペクトルデータ中の各マススペクトルに対応するピークリストのピーク強度値を要素として配置することで、ピークマトリクスを生成する。

もちろん、上述したように横軸と縦軸とを決めているため、マトリクスの或る２次元的な位置に配置すべきピーク強度値が存在しないことは当然起こり得る。そのときには該位置の要素はゼロとすればよい。こうして図３（ａ）に示すようなピークマトリクスを作成することができる。質量電荷比値の総数がＮ、測定時点の総数がＭであれば、ピークマトリクスはＭ行Ｎ列となる。また、入力された全ての時系列マトリクスデータに対するピークマトリクスの行数、列数はそれぞれ同じになる。

ペアピーク間相関係数算出部１４は、上記のように時系列マトリクスデータ毎に作成されたピークマトリクスそれぞれにおいて、ペアピーク間相関係数を算出する。
即ち、図３（ｂ）に示すように、二つの質量電荷比値を選択し、各質量電荷比値に対応する縦方向の要素、つまりピーク強度値の列を抽出する。そして、その二つのピーク強度値の時間方向のピーク間相関係数を計算する。同様の計算を、二つの質量電荷比値の全ての組み合わせについて行う。
例えば、横軸上でm/z＝１００、１０１、１０２、…の位置に要素（ピーク強度値）があるとすると、m/z＝１００におけるピーク強度値とm/z＝１０１におけるピーク強度値との間の時間方向のピーク間相関係数、m/z＝１００におけるピーク強度値とm/z＝１０２におけるピーク強度値の間のピーク間相関係数、m/z＝１０１におけるピーク強度値とm/z＝１０２におけるピーク強度値の間のピーク間相関係数、…を順番に計算する。一つのピークマトリクスにおいて、横方向の要素数がＰであるとすると、全部で_PＣ₂の数のペアピークが存在するから、_PＣ₂個のピーク間相関係数が求まることになる。

ペアピーク選出部１５及び共通ペアピーク選出部１６は本発明におけるペアピーク探索部に相当し、このうち、ペアピーク選出部１５は、ピークマトリクス毎に、少なくとも上記のように_PＣ₂個のペアピーク毎に算出されたピーク間相関係数の値ｒに基づいて、所定の条件に適合するペアピーク（二つの質量電荷比値の組み合わせ）を選出する。ピーク間相関係数は−１〜＋１の範囲の値をとるから、典型的には、強い正の相関を有するペアピークを選出するためにピーク間相関係数値ｒが所定閾値以上、例えば＋０．９以上であるペアピークを選出するとよい。
また、ペアピークの選出にピーク間相関係数値以外の条件を加えてもよい。具体的には、後述するように或る化合物とそれに特定の物質（修飾物）が付加した化合物とに由来するペアピークを探索したい場合には、ノイズとなり得る同位体ピークを排除するために、ペアピークの二つの質量電荷比の差が所定値以上（又は所定範囲内）であるとの条件を満たし、且つピーク間相関係数が所定閾値以上であるペアピークを選出するとよい。

上記ペアピーク選出部１５ではあくまでも、各ピークマトリクスの中での妥当な（又はそれらしい）ペアピークが選出されるだけである。通常、ピークマトリクスの横方向の要素数Ｐは非常に大きな値であるため、_PＣ₂の数も非常に大きくなり、ピーク間相関係数が算出されるペアピークの数は膨大である。そのため、実際には全く無相関であるにも拘わらずピーク間相関係数が例えば＋０．９以上になるようなケースは確率的には小さいものの、そうなるペアピークの数はかなり多くなってしまう。そこで、こうしたいわば擬陽性のペアピークを減らすために、共通ペアピーク選出部１６は、複数の時系列マススペクトルデータに対してそれぞれペアピーク選出部１５で選出されたペアピークの中で共通に選出されたペアピークを探索して選出する。

複数の時系列マススペクトルデータ同士が全く無相関であれば、それら複数の時系列マススペクトルデータに基づいて作成されたピークマトリクスからそれぞれ、質量電荷比が同じである擬陽性のペアピークが選出されるという確率はかなり低くなる筈である。したがって、共通ペアピーク選出部１６により選出されたペアピーク、つまりは二つの質量電荷比値の組み合わせは、真にピーク強度値の時間方向の相関性が高いペアピークであるものとみなすことができる。即ち、擬陽性のペアピークの多くを排除して、信頼性の高いペアピークを残すことができる。

表示情報作成部１７は、共通ペアピーク選出部１６により選出されたペアピークに関する情報、具体的には、そのペアピークの質量電荷比値、ピーク間の質量電荷比の差、さらには、ペアピークの数などを例えば表形式など適宜の形式にまとめて、表示部３の画面上に表示する。

続いて、本実施例の質量分析データ解析装置による実際の解析例を挙げつつ、より具体的に処理を説明する。この解析例で処理対象とした時系列マススペクトルデータは以下のような条件で得られたものである。
・データの種類：被検者の体表成分（皮脂）を測定したデータ
・測定方法：ＭＡＬＤＩ用のサンプルプレートに被検者の人差し指を押し付けることで該プレートに皮脂を付着させ、それを島津製作所製のＭＡＬＤＩ−ＴＯＦＭＳにより直接測定してマススペクトルを取得した。
・被検者数：３人
・データ取得期間：２０１２年３月初旬〜２０１３年３月下旬（計約１３ヶ月）

図４は３人の被検者の属性とデータ取得計日数を示す図である。原則的には１日に１回測定を行うが、実際には、被検者の都合等によって、１日又は数日に亘り、測定が行われない空間期間が生じ、データ取得計日数は被検者毎に異なっている。なお、以下の説明では、IDがIDXXXである被験者を被験者[IDXXX]と記す。

図５は、被検者[ID001]における時系列マススペクトルデータに基づいてマトリクス作成部１３により作成されたピークマトリクスの一部を示す図である。
このピークマトリクスは、図３（ａ）と同様に横軸が質量電荷比であり、縦軸が時系列である。ここでは、各測定時点は測定日である。例えば、３行目の２０１２年３月５日のマススペクトルデータでは、m/z＝３１．８９２０８及びm/z＝３２．８９２０２にピークが存在しないためにその質量電荷比値に対応するピーク強度値は０になっている。こうしたピークマトリクスが、被検者[ID002]、被検者[ID007]についても作成される。

この解析例では、ピークはm/z＝３１．０からm/z＝９９１．６までの幅広い質量電荷比範囲に亘っており、ピーク位置、つまり横軸上の質量電荷比値の総数は９９６である。したがって、ピークマトリクスから抽出されるペアピークの数は₉₉₆Ｃ₂＝４９５５１０であり、ペアピーク間相関係数算出部１４では被検者毎に４９５５１０個のピーク間相関係数ｒが計算される。３人の被検者のピーク間相関係数ｒのヒストグラムを図６〜図８に示す。

ペアピーク選出部１５は、三つのピークマトリクスからそれぞれ４９５５１０個の抽出されるペアピークに対して、次の［Ａ］、［Ｂ］二つの条件に従ってペアピークを選出する。
［Ａ］質量電荷比m/z差が３Da以上
この条件は質量電荷比差が小さい同位体ピークを除去するためのものであり、「３」という数値は一例である。
［Ｂ］ピーク間相関計数が０．９以上
即ち、ここでは上述したように正の相関が強いペアピークを選出する。

上記のような条件によって、被検者毎に、数千程度の数のペアピークが選出される。この数は膨大であるように思われるが、確率論的に考えれば妥当である。それは次のような理由による。

即ち、全くの無相関（ｒ＝０）である二つのグループ（ただし、各グループに含まれるデータは正規分布している）からランダムにそれぞれデータをサンプリングして相関係数を計算し、その相関計数値のヒストグラムを描くと、ｒ＝０を中心とする正規分布に近い形状となることが知られている。
本解析例では、いずれの被検者においても、上記条件を満たすペアピークの数は数千になるが、全てのペアピークのうちの殆どは無相関であることが予測される。このことから、図６〜図８に示した各被検者におけるピーク間相関係数のヒストグラムの形状が正規分布に近い形状となっていることは、妥当であるといえる。つまり、ピーク間相関係数が高いペアピークの殆どは、本質的には無相関であって相関が偶然に大きくなったペアピークであると考えられる。さらに換言すれば、約５０万個ものペアピークが存在すれば、その中で数千個程度は、実際には相関がなくてもピーク間相関係数が偶然に高く計算されてしまうことが確率論的に十分にあり得る、ということができる。

そこで、共通ペアピーク選出部１６により、被検者毎にペアピーク選出部１５により選出されたペアピークの中から、三人の被検者の間で共通に選出されているペアピークをさらに選出する。全く独立である異なる時系列マススペクトルデータの間で、同じペアピークのピーク間相関係数が偶然に高くなるということは、確率的に起こりにくい。したがって、共通に選出されているペアピークに絞ることで、ピーク間相関係数が統計的に偶然大きくなったペアピークが除外される可能性が高くなる。
上記解析例では、三人の被検者に共通に選出されたペアピークは２０２個となった。つまり、先に選出された数千程度のペアピークのうち、９５％程度は擬陽性のペアピークであったと考えられる。最終的に選出された２０２個のペアピークを、質量電荷比範囲及びペアピークの質量電荷比差毎にまとめた結果を図９に示す。表示情報作成部１７は単に選出されたペアピークの情報をテーブル等で出力するのみならず、図９に示したような形式で整理し出力するとよい。なお、ここでは質量電荷比の誤差を±０．５Daと見込み、この誤差以内の質量電荷比は同じであるとみなしている。

また、最終的に選出された２０２個のペアピークの中で、m/z＝８００〜９００の質量電荷比範囲内の代表的な４組のペアピークの時系列変化を図１０に示す。ここでは、被検者[ID001]のデータの中で、質量電荷比差が異なるグループ中で平均ピーク間相関係数が最も大きいペアピークを選択して示している。

図９の結果から分かることは、質量電荷比差が１４Daの整数倍であるペアピークが特に多いという点である。この１４Daという質量電荷比差は、メチレン基（methylene：−ＣＨ₂−）の数の差（代表的な化学修飾の一つであるエステル化）によるものであると考えられる。また、m/z＝８００〜９００の質量電荷比範囲にある、質量電荷比差が１２Da、１３Daの整数倍であるペアピークは、上記メチレン基又はその多重結合の同位体であると考えられる。このような結果は、ヒトの皮脂の分析結果としてはきわめて妥当である。
このことから、上述した本実施例の質量分析データ解析処理装置による解析処理は、妥当な解析結果を高い信頼度で得られる手法であると結論付けることができる。また、結果の解釈や判断を容易に行えるものであることも分かる。

また、それ以外のペアピークについても、特定の質量電荷比差を有するペアピークの数が多いものについては、偶然に存在するものではなく、本質的に時系列マススペクトルデータ中に存在する意味のあるペアピークであると考えられる。さらにまた、数が少ないペアピークについても、本質的に時系列マススペクトルデータ中に存在する可能性のあるペアピークである。こうしたことは、図１０に示した結果において、ペアピークに含まれるピーク同士の時系列変化の様子がかなり類似していることからも確認できる。したがって、こうしたペアピークの質量電荷範囲や質量電荷比差に着目することで、時系列マススペクトルデータに存在する化学修飾等の有意な情報が得られる可能性が高いといえる。

なお、上記実施例の構成では、ペアピーク選出部１５と共通ペアピーク選出部１６とを分けているが、ペアピーク選出部１５におけるペアピーク選出と共通ペアピーク選出部１６におけるペアピーク選出とは、実際上、同時に実施することもできる。

また、上記実施例は本発明の一例にすぎず、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。
例えば、上記実施例は、時系列データとして時系列マススペクトルデータを処理した例であるが、それ以外の様々なスペクトルやグラフを構成するデータを時系列に沿って取得した時系列データに対して本発明を適用し、有用なペアピークを抽出可能であることは当然である。

１…データ解析部
１１…データ読み込み部
１２…ピーク検出部
１３…ピークマトリクス作成部
１４…ペアピーク間相関係数算出部
１５…ペアピーク選出部
１６…共通ペアピーク選出部
１７…表示情報作成部
２…入力部
３…表示部

Claims

第１のディメンジョンとそれに対する強度との関係を示す２次元的なグラフが時系列順に並べられた時系列グラフを構成する時系列データを複数受け、その複数の時系列データを解析処理することによって有意な情報を取得する時系列データ解析装置であって、
a)複数の時系列データについて、第１のディメンジョンを横軸又は縦軸に割り当てるとともに、時系列の時間情報を縦軸又は横軸に割り当て、強度値を要素として配置したピークマトリクスをそれぞれ作成することで、複数のピークマトリクスを取得するマトリクス作成部と、
b)前記マトリクス作成部で作成された複数のピークマトリクスのそれぞれにおいて、異なる二つの第１のディメンジョンの値の全ての組み合わせについてそれぞれ、時系列方向に並ぶ要素の間の相関係数を計算するペアピーク間相関係数算出部と、
c)前記複数の時系列データそれぞれについて、少なくとも前記ペアピーク間相関係数算出部により算出された相関係数が所定条件を満たす二つの第１のディメンジョンの値の組み合わせであって、前記複数の時系列データそれぞれから選出された第１のディメンジョンの値の組み合わせの中で、その複数の時系列データに共通する組み合わせを抽出するペアピーク探索部と、
を備えることを特徴とする時系列データ解析装置。
請求項１に記載の時系列データ解析装置であって、
前記第１のディメンジョンは質量電荷比であり、前記２次元的なグラフは質量分析により得られたマススペクトルであり、前記時系列データは時系列マススペクトルデータであることを特徴とする時系列データ解析装置。
請求項２に記載の時系列データ解析装置であって、
前記ペアピーク探索部は、相関係数の値以外に、組である質量電荷比の差が所定値以上であることを条件として二つの質量電荷比値の組み合わせを選出することを特徴とする質量分析データ解析装置。
請求項２又は３に記載の時系列データ解析装置であって、
或る化合物と該化合物に化学的修飾がなされた化合物とのペアピークを探索することを特徴とする時系列データ解析装置。
請求項４に記載の時系列データ解析装置であって、
前記或る化合物はタンパク質又はペプチドであり、翻訳後修飾を受けていないタンパク質又はペプチドと該翻訳後修飾を受けているタンパク又はペプチドとのペアピークを探索することを特徴とする時系列データ解析装置。
第１のディメンジョンとそれに対する強度との関係を示す２次元的なグラフが時系列順に並べられた時系列グラフを構成する時系列データを複数受け、その複数の時系列データを解析処理することによって有意な情報を取得する時系列データ解析方法であって、
a)複数の時系列データについて、第１のディメンジョンを横軸又は縦軸に割り当てるとともに、時系列の時間情報を縦軸又は横軸に割り当て、強度値を要素として配置したピークマトリクスをそれぞれ作成することで、複数のピークマトリクスを取得するマトリクス作成ステップと、
b)前記マトリクス作成ステップにおいて作成された複数のピークマトリクスのそれぞれにおいて、異なる二つの第１のディメンジョンの値の全ての組み合わせについてそれぞれ、時系列方向に並ぶ要素の間の相関係数を計算するペアピーク間相関係数算出ステップと、
c)前記複数の時系列データそれぞれについて、少なくとも前記ペアピーク間相関係数ステップにおいて算出された相関係数が所定条件を満たす二つの第１のディメンジョンの値の組み合わせであって、前記複数の時系列データそれぞれから選出された第１のディメンジョンの値の組み合わせの中で、その複数の時系列データに共通する組み合わせを抽出するペアピーク探索ステップと、
を有することを特徴とする時系列データ解析方法。