JP2016176811A - 分析データ解析装置 - Google Patents
分析データ解析装置 Download PDFInfo
- Publication number
- JP2016176811A JP2016176811A JP2015057156A JP2015057156A JP2016176811A JP 2016176811 A JP2016176811 A JP 2016176811A JP 2015057156 A JP2015057156 A JP 2015057156A JP 2015057156 A JP2015057156 A JP 2015057156A JP 2016176811 A JP2016176811 A JP 2016176811A
- Authority
- JP
- Japan
- Prior art keywords
- peak
- value
- loading
- analysis
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】判別分析を利用して二つのサンプル群を区別するマーカーを探索する際に、信頼性を向上させる。【解決手段】複数のサンプル群に属する各試料のマススペクトルデータからピークマトリクスを作成し(S1、S2)、そのピークマトリクスに対しPLS-DAを実行してピーク毎のローディング値を算出するS3。また、ピークマトリクスから、サンプル群毎に、各ピークのピーク値の平均値及び標準偏差を求めCV値を計算しS4、ピーク毎に、ローディング値を該ピークにおけるサンプル群毎のCV値の積で除することにより、ローディング修正値を求めるS5。同じm/z値におけるピーク値のばらつきが大きい場合や特定の試料のみで極端にピーク値が大きい場合にはCV値が小さくなるため、ローディング値が大きくても修正値は小さくなるので、各ピークのローディング修正値に基づくことで、信頼性の高いマーカーの探索が可能となる。【選択図】図2
Description
本発明は、質量分析装置で得られたマススペクトルデータ、ガスクロマトグラフ装置や液体クロマトグラフ装置で得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータ、DNAマイクロアレイ解析で得られたデータなどの、各種分析データを解析処理する分析データ解析装置に関し、さらに詳しくは、複数のサンプル群の間での含有物質の相違などを調べる差異解析を行う際に有用な分析データ解析装置に関する。
近年、特定の疾病や疾患の早期診断や治療効果の確認などのために、質量分析法を利用したバイオマーカーの解析の研究が進められ、一部は実用に供されている。
例えばm人の健常者から採取した血液等の生体試料には全く又は殆ど存在せず、ガンなどの疾患を罹患しているn人の患者から採取した同様の生体試料に明確に存在している物質が見つかれば、その物質はその疾患における有力なバイオマーカー候補であるといえる。なお、「バイオマーカー」とは生体を対象としたものであるが、ここでは測定対象は生体試料とは限らないので、以下の説明では単に「マーカー」という。
例えばm人の健常者から採取した血液等の生体試料には全く又は殆ど存在せず、ガンなどの疾患を罹患しているn人の患者から採取した同様の生体試料に明確に存在している物質が見つかれば、その物質はその疾患における有力なバイオマーカー候補であるといえる。なお、「バイオマーカー」とは生体を対象としたものであるが、ここでは測定対象は生体試料とは限らないので、以下の説明では単に「マーカー」という。
図14は、液体クロマトグラフ質量分析装置(LC−MS)により得られた質量分析データを用いた差異解析によるマーカー探索の概念図である(非特許文献1参照)。図14において、左はm人の健常者から成る健常者群に対する質量分析データであり、右はn人の患者から成る患者群に対する質量分析データである。2次元的なグラフで示される一つの質量分析データの縦軸は保持時間RT、横軸は質量電荷比m/zであり、これら両軸に直交する方向、つまりは紙面に直交する方向がイオン強度軸である。この例では、ピークb、c、dは健常者群、患者群に共通しており、ピークaだけが健常者群には存在せず患者群に存在している。したがって、このピークaに対応する物質がマーカー候補である。
質量分析データに基づいてマーカーを探索する際に、次のような条件を満たす物質は優れたマーカーであるといえる。
<条件1>マススペクトル上でのピーク値の再現性が高い。
何故なら、これは、その物質が試料(検体)の個体差に依らず或る程度同じような存在量がある物質である、又は、測定方法や使用する装置に依存せずにばらつきの少ない測定値が得られる物質である、ことを意味するからである。
<条件2>マススペクトル上でのピークのデータ値(ピーク値)が大きい。
何故なら、これは、少なくとも一方のサンプル群において或る程度以上の存在量があれば各種装置による検出が比較的容易である、からである。
こうしたことから、マススペクトルにおいて或るピークのピーク値が大きければ大きいほど、またそのピーク値の再現性が高ければ高いほど、そのピークに対応する物質は優れたマーカーであるということができる。
<条件1>マススペクトル上でのピーク値の再現性が高い。
何故なら、これは、その物質が試料(検体)の個体差に依らず或る程度同じような存在量がある物質である、又は、測定方法や使用する装置に依存せずにばらつきの少ない測定値が得られる物質である、ことを意味するからである。
<条件2>マススペクトル上でのピークのデータ値(ピーク値)が大きい。
何故なら、これは、少なくとも一方のサンプル群において或る程度以上の存在量があれば各種装置による検出が比較的容易である、からである。
こうしたことから、マススペクトルにおいて或るピークのピーク値が大きければ大きいほど、またそのピーク値の再現性が高ければ高いほど、そのピークに対応する物質は優れたマーカーであるということができる。
特に生体由来の試料では、質量分析を行うことで得られるマススペクトルには非常に多くの数のピークが現れる。そのため、複数のサンプル群の間でマススペクトル同士を比較する際に、比較すべきピークの数は非常に多いのに対し、マーカー候補であるピークの数は少数である。このように膨大な数のピークの中からサンプル群間で存在量に有意な差があるマーカー候補のピークを探索するには様々な方法があるが、広く用いられている方法として、多変量解析の一つである判別分析におけるローディングプロットを利用する方法がある。
判別分析におけるローディングプロットを利用するマーカー探索方法を簡単に説明する。
まず、与えられた全ての試料に対するマススペクトルデータに基づいてピークマトリクスを作成する。即ち、マススペクトル毎にピーク検出を行ってピーク情報(質量電荷比、ピーク値)を収集し、そのピーク情報に基づいて、試料毎に質量電荷比値とピーク値との関係を示すピークマトリクスを作成する。図14に示したようなLC−MSにより収集されたデータに基づいて作成されるピークマトリクスの一例を図15に示す。
まず、与えられた全ての試料に対するマススペクトルデータに基づいてピークマトリクスを作成する。即ち、マススペクトル毎にピーク検出を行ってピーク情報(質量電荷比、ピーク値)を収集し、そのピーク情報に基づいて、試料毎に質量電荷比値とピーク値との関係を示すピークマトリクスを作成する。図14に示したようなLC−MSにより収集されたデータに基づいて作成されるピークマトリクスの一例を図15に示す。
LC−MSでは、保持時間RT毎にマススペクトルが得られるから、図15に示すように、保持時間RTと質量電荷比m/z値との組毎にピーク値が示される。このピークマトリクスでは、縦方向の一列は、或る保持時間で且つ或る質量電荷比値における各試料に対するピーク値を示しており、横方向の一行は、或る一つの試料に対する保持時間と質量電荷比値との各組におけるピーク値を示している。例えば、保持時間RT=18.21、質量電荷比m/z=447.2746において、「sample1」という試料のピーク値は7200736であり、「sample2」という試料のピーク値は6136016である。このピークマトリクスは与えられた全ての試料に対するマススペクトルに現れるピークを網羅している。
こうしたピークマトリクスに対して判別分析の一つであるPLS−DA(Partial Least Squares Discriminant Analysis)を実施する。よく知られているように、PLS−DAでは2次元マップとしてスコアプロットとローディングプロットを得ることができる(非特許文献2など参照)。スコアプロットでは一つの点が一つの試料を示しており、類似した特徴を有する試料をグループ分けすることができる。一方、ローディングプロットでは、一つの点が一つのピーク(LC−MSの場合には一つの保持時間と一つの質量電荷比値との組におけるピーク)を示しており、試料のグループ分けに寄与するピークの情報が得られる。
ローディングプロットでは、通常、サンプル群間で存在量に有意な差がある物質(ここでは一つのピークに相当)を示す点は第1軸(横軸)上で絶対値が大きい領域にプロットされる。この第1軸のローディング値の絶対値が大きければ大きいほど、サンプル群の区別に寄与しているピークであるといえる。ローディングプロットの縦軸には一般にはローディング値の第2軸をとるが、ここではそれは重要でないので説明を省略する。同じ理由により、以下、単にローディングやローディング値と記した場合には、それぞれローディングの第1軸及びその第1軸上の値を指すものとする。
基本的には、マススペクトルに出現する全てのピークをローディングプロット上にプロットするため、ローディングプロットに基づいて分析者は、或るピークがその他のピークに比べてどの程度、サンプル群の区別に寄与しているかを視覚的に把握することができ、その結果からマーカー候補を抽出することができる。
基本的には、マススペクトルに出現する全てのピークをローディングプロット上にプロットするため、ローディングプロットに基づいて分析者は、或るピークがその他のピークに比べてどの程度、サンプル群の区別に寄与しているかを視覚的に把握することができ、その結果からマーカー候補を抽出することができる。
しかしながら、本発明者らの検討によれば、例えば健常者群とガン患者群などの二つのサンプル群の間で、非常に多くのピークからごく少数のマーカー候補を探索しようとした場合に、上述した従来の方法では次のような二つの問題があることが判明した。
<問題1>ローディングプロット上でローディングの絶対値が大きい場合であっても、そのプロット点に対応するピークが二つのサンプル群の間で発現に差があるとは限らないことがある。
<問題2>マススペクトルにおいてピーク値の再現性が高いものであっても、ピーク値自体が小さい場合には、ローディングを利用したマーカーの探索が困難である場合がある。
<問題1>ローディングプロット上でローディングの絶対値が大きい場合であっても、そのプロット点に対応するピークが二つのサンプル群の間で発現に差があるとは限らないことがある。
<問題2>マススペクトルにおいてピーク値の再現性が高いものであっても、ピーク値自体が小さい場合には、ローディングを利用したマーカーの探索が困難である場合がある。
藤田 雄一郎、ほか9名、「Mass++:差異解析のための統計・多変量解析機能」、最先端研究開発支援プロジェクト発表資料、[online]、[平成27年3月4日検索]、インターネット<URL: http://www.first-ms3d.jp/files/MSSJ2013/MSSJ13_1P-07_Fujita.pdf>
「Metabolomics Fiehn Lab OPLS vs PLSDA VS PLS」、[online]、[平成27年3月11日検索]、インターネット<URL:http://fiehnlab.ucdavis.edu/staff/kind/Statistics/Concepts/OPLS-PLSDA>
「多変量解析ソフトウェア SIMCA」、インフォコム株式会社、[online]、[平成27年3月11日検索]、インターネット<URL:http://infocom-science.jp/product/detail/simca.html>
上記のような問題のために、従来方法では、ローディング値を利用してマーカー候補を探索しようとしても、適切でないピーク(物質)がマーカー候補に挙がってしまったり逆にマーカーとして適したピーク(物質)がマーカー候補から漏れてしまったりすることがしばしば起こる。即ち、マーカー候補の探索の正確性が十分に上がらないという問題がある。
また、質量分析装置で得られたマススペクトルデータのみならず、例えば、ガスクロマトグラフ装置や液体クロマトグラフ装置で得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータなどに基づいて、サンプル群間で存在量に有意な差があるマーカー候補のピークを探索したり、或いは、DNAマイクロアレイ解析で得られたデータに基づいて、サンプル群間で発現量に有意な差がある遺伝子を探索したりする際にも同様の問題がある。
本発明はこうした課題を解決するために成されたものであり、その主たる目的は、複数のサンプル群の間で存在量に有意な差がありマーカーとして好適であるような物質を精度良く探索することができる分析データ解析装置を提供することである。
本発明者は、処理対象であるデータと判別分析結果との関係を詳細に解析し、少なくとも次の二つのケースで、PLS−DAなどの判別分析において、或るピークがグループの区別に寄与していると過大に評価されてしまい、その結果、ローディングの絶対値が大きく算出されてしまうことを見いだした。
(i)特定の試料におけるピーク値が他の試料に比べて非常に大きい値となっている場合。
(ii)試料全体としては或る程度の大きさのピーク値であるものの、そのピーク値のばらつきが非常に大きい場合。
即ち、上記の二つのケースにおいて、上記<問題1>、つまりは、二つのサンプル群の間でピークの発現に差があまりないにも拘わらず、そのピークに対するローディングの絶対値が大きくなってしまうという問題が生じるといえる。
(i)特定の試料におけるピーク値が他の試料に比べて非常に大きい値となっている場合。
(ii)試料全体としては或る程度の大きさのピーク値であるものの、そのピーク値のばらつきが非常に大きい場合。
即ち、上記の二つのケースにおいて、上記<問題1>、つまりは、二つのサンプル群の間でピークの発現に差があまりないにも拘わらず、そのピークに対するローディングの絶対値が大きくなってしまうという問題が生じるといえる。
一方、一般に、或るピークのピーク値がそれほど大きくなくても、二つのサンプル群の間で存在量に明確な差があり、両サンプル群においてそのピークの再現性が高ければ、それは信頼性の高いマーカー候補であると考えることができる。しかしながら、判別分析を含む多変量解析においては、そもそもピーク値が小さければ計算されるローディング値は小さくなり、ピーク値が或る程度大きな別のピークに埋もれてしまうということが起こり得る。そのため、ローディングプロットを描いたときに、本来はマーカーとして好適であるピークがそうでない別のピークに埋もれてしまい、マーカーの探索が困難になる。これが上述した<問題2>の主たる原因である。
上述した(i)、(ii)のようなケースではいずれも、ピーク値の再現性は低いものと考えられる。そこで、本発明者は、単なるローディング値をマーカーの探索に用いるのではなく、そのローディング値を算出するためのピーク値の再現性を表す統計量を導入することに想到した。そして、ピーク値の再現性を表す統計量でローディング値を除することで得たローディングの修正値を利用することによって、従来の方法ではマーカー候補として誤って挙げられていたピークをマーカー候補から排除するとともに、同じく従来の方法ではマーカー候補から漏れていたマーカーとして適したピークをマーカー候補に加えることが可能であることを確認した。即ち、上記<問題1>を解決できるのみならず、<問題2>も併せて解決できることを確認した。
即ち、上記課題を解決するために成された本発明は、各々が測定対象である複数の試料を含む複数の群について、その複数の群の間で試料に含まれる存在量や試料による発現量に有意な差がある要素を探索するために、各試料に対して所定の分析を行うことで得られた分析データを解析する分析データ解析装置であって、
a)与えられた各群の各試料に対する分析データからそれぞれピークを検出し、試料毎にピークが得られるパラメータとピーク値とを含むピーク情報を収集するピーク情報収集部と、
b)前記ピーク情報収集部により収集された全ての試料に対するピーク情報に対し判別分析による多変量解析を行って、ピーク毎のローディング値を計算する判別分析実行部と、
c)各ピークについて各群におけるピーク値の再現性を表す統計量を計算する再現性統計量計算部と、
d)ピーク毎に、前記判別分析実行部で得られたローディング値を前記再現性統計量計算部で得られた各群における再現性統計量の積で除することで、該ローディング値を修正したローディング修正値を計算するローディング修正値算出部と、
e)前記ローディング修正値算出部で得られた各ピークに対するローディング修正値を反映したグラフを作成して表示する表示処理部と、
を備えることを特徴としている。
a)与えられた各群の各試料に対する分析データからそれぞれピークを検出し、試料毎にピークが得られるパラメータとピーク値とを含むピーク情報を収集するピーク情報収集部と、
b)前記ピーク情報収集部により収集された全ての試料に対するピーク情報に対し判別分析による多変量解析を行って、ピーク毎のローディング値を計算する判別分析実行部と、
c)各ピークについて各群におけるピーク値の再現性を表す統計量を計算する再現性統計量計算部と、
d)ピーク毎に、前記判別分析実行部で得られたローディング値を前記再現性統計量計算部で得られた各群における再現性統計量の積で除することで、該ローディング値を修正したローディング修正値を計算するローディング修正値算出部と、
e)前記ローディング修正値算出部で得られた各ピークに対するローディング修正値を反映したグラフを作成して表示する表示処理部と、
を備えることを特徴としている。
例えば分析データが質量分析装置で得られたマススペクトルデータである場合には、上記「ピークが得られるパラメータ」とは質量電荷比である。また分析データがガスクロマトグラフ装置や液体クロマトグラフ装置で得られたクロマトグラムデータである場合には、上記「ピークが得られるパラメータ」とは保持時間である。また分析データが分光測定装置で得られた吸光スペクトルデータである場合には、上記「ピークが得られるパラメータ」とは波長又は波数である。さらに、分析データがDNAマイクロアレイ解析で得られたデータである場合には、上記「ピークが得られるパラメータ」とは遺伝子の種類である。
本発明に係る分析データ解析装置において、上記再現性統計量としては例えば変動係数(CV=Coefficient of Variation)を用いることができる。変動係数とは、そのデータの標準偏差(つまりは「ばらつき」の指標)を平均値で除した統計量であり、再現性の評価を行う場合に最もよく用いられる統計量の一つである。変動係数がどの程度の値であれば再現性がある、と判断するかは目的によって異なるが、変動係数が0.2以下であれば再現性が高いとすることが多い。また、再現性統計量としては標準偏差そのものを利用することもできる。
また本発明に係る分析データ解析装置において、判別分析としては典型的にはPLS−DAを利用するのが好ましいが、それ以外の解析法、例えばPLS−DAの改良版であるOPLS−DAやO2LS−DA(非特許文献3参照)などを用いてもよい。
本発明に係る分析データ解析装置では、例えば二つのサンプル群の間で試料に含まれる存在量に有意な差がある物質をマーカーとして探索するために、各試料に対して例えば質量分析を行うことで得られたマススペクトルデータが与えられる。このデータはLC−MSやGC−MSにおいて保持時間毎に得られたマススペクトルデータでもよいし、或いはMSn分析が可能である質量分析装置により得られたMSnスペクトルデータでもよい。
ピーク情報収集部は、全てのマススペクトルデータについてピーク検出処理を行い、試料毎の質量電荷比値とピーク値とを少なくとも含むピーク情報を収集する。LC−MSやGC−MSにより得られたデータであれば、ピーク情報にはさらに保持時間が加わる。
ピーク情報収集部は、全てのマススペクトルデータについてピーク検出処理を行い、試料毎の質量電荷比値とピーク値とを少なくとも含むピーク情報を収集する。LC−MSやGC−MSにより得られたデータであれば、ピーク情報にはさらに保持時間が加わる。
判別分析実行部は、上記ピーク情報を例えばマトリクス形式に整理し、そのピークマトリクスに対してPLS−DA等の判別分析を行い、ピーク毎のローディング値を算出する。従来方法では、このローディング値を2次元グラフ上に描いたローディングプロットを作成し、そのローディングプロット上のプロット点の位置等に基づいて特徴的なピークを抽出しマーカー候補とする。これに対し本発明では、ローディング値の計算とは別に、再現性統計量計算部が、各ピークについて各群におけるピーク値の再現性統計量として変動係数等を計算する。上記ピークマトリクスでは、同じ質量電荷比(又は同じ保持時間で且つ同じ質量電荷比)における試料毎のピーク値が列方向又は行方向に整理されているから、その列方向又は行方向にピーク値の平均値と標準偏差を求めれば、各群でピーク毎の変動係数を容易に求めることができる。
ローディング修正値算出部は、ピーク毎に、上述したように得られたローディング値を、各群における変動係数や標準偏差の積で以て除し、該ローディング値を修正したローディング修正値を求める。データのばらつきが大きいほど変動係数や標準偏差は大きくなる。したがって、ローディング値が同じでも、変動係数や標準偏差が大きいほどローディング修正値は小さくなる。そのため、上述した(i)、(ii)のようなケースのために<問題1>が生じた場合には、元のローディング値は大きくてもローディング修正値は相対的に小さくなる。逆に、ピーク値のばらつきが小さくピーク値の再現性が高い場合には、元のローディング値は小さくてもローディング修正値は相対的に大きくなる。
表示処理部は、各ピークに対するローディング修正値を反映したグラフを作成して表示部の画面上に表示する。このグラフとしては、例えば、互いに直交する二軸の一方に判別分析によるローディング値をとり、他方にローディング修正値をとったものとするとよい。こうしたグラフでは、ローディング値では上述したように他の(つまりはマーカーに適さない)ピークに埋もれてしまうようなピークでも、ローディング修正値で差がつけば他のピークと視覚的に区別が可能となる。これによって、マーカーに適したピークを的確にマーカー候補として抽出することができる。
また本発明に係る分析データ解析装置において、さらに好ましくは、ピーク毎にローディング修正値を用いた統計的仮説検定を行って、該ピークが両群の間で存在量に有意な差があるか否かを判定するための指標値を算出する仮説検定実行部をさらに備え、
前記表示処理部は、互いに直交する一方の軸に前記ローディング修正値、他方の軸に仮説検定実行部で得られる指標値をとったグラフを作成する構成とするとよい。
前記表示処理部は、互いに直交する一方の軸に前記ローディング修正値、他方の軸に仮説検定実行部で得られる指標値をとったグラフを作成する構成とするとよい。
具体的には、上記統計的仮説検定としてt検定を利用し、上記指標値としてp値を用いればよい。この構成によれば、両群の間で存在量や発現量に有意差があるかどうかの判定結果がより明確に示されるので、例えばこうしたデータの解析作業に不慣れな作業者であっても、ミスなくマーカー候補を抽出することが可能となる。
本発明に係る分析データ解析装置によれば、従来のマーカー探索方法に比べて、誤ったマーカー候補の抽出やマーカーとして適した候補の見落としを減らすことができ、高い信頼性及び正確性で以てマーカー候補を探索することができる。また、解析結果が分かり易いグラフで表示されることで、分析者がマーカー候補を抽出する作業も簡便になる。
さらにまた、本発明に係る分析データ解析装置において、ローディング値を修正するための再現性を表す統計量は例えば変動係数や標準偏差などごく簡単な計算によって得られるものであるので、ローディング修正値やそれを得るためのアルゴリズムを分析者が理解し易い。そのため、例えば仮に何らかの原因で誤った結果が出た場合でも、分析者がそのことに気付き易く、誤った結果をそのまま採用してしまうことを回避することができる。
さらにまた、本発明に係る分析データ解析装置において、ローディング値を修正するための再現性を表す統計量は例えば変動係数や標準偏差などごく簡単な計算によって得られるものであるので、ローディング修正値やそれを得るためのアルゴリズムを分析者が理解し易い。そのため、例えば仮に何らかの原因で誤った結果が出た場合でも、分析者がそのことに気付き易く、誤った結果をそのまま採用してしまうことを回避することができる。
以下、本発明の一実施例である質量分析データ解析装置について、添付図面を参照して説明する。
図1は本実施例の質量分析データ解析装置の概略構成図である。
図1は本実施例の質量分析データ解析装置の概略構成図である。
本実施例の質量分析データ解析装置は、データ読み込み部11、ピークマトリクス作成部12、判別分析ローディング計算部13、再現性統計量計算部14、ローディング値修正部15、及び、統計量表示処理部16、を機能ブロックとして有するデータ解析部1と、分析者がパラメータを設定したり何らかの指示を行ったりするための入力部2と、解析結果等が表示される表示部3と、を備える。
ここでは、一例として、A群とB群という二つのサンプル群を想定し、各サンプル群にそれぞれ含まれる複数の試料に対して質量分析を実行することで得られたマススペクトルデータを処理することで、両群の間で存在量に有意な差があるピーク(物質)をマーカー候補として抽出するものとする。
なお、データ解析部1は例えばパーソナルコンピュータをハードウエア資源とし、該コンピュータにインストールされた専用のデータ処理ソフトウエアを該コンピュータ上で実行することにより、上記各機能ブロックが具現化される構成とすることができる。
ここでは、一例として、A群とB群という二つのサンプル群を想定し、各サンプル群にそれぞれ含まれる複数の試料に対して質量分析を実行することで得られたマススペクトルデータを処理することで、両群の間で存在量に有意な差があるピーク(物質)をマーカー候補として抽出するものとする。
なお、データ解析部1は例えばパーソナルコンピュータをハードウエア資源とし、該コンピュータにインストールされた専用のデータ処理ソフトウエアを該コンピュータ上で実行することにより、上記各機能ブロックが具現化される構成とすることができる。
図2に示すフローチャートを参照して、本実施例の質量分析データ解析装置における特徴的な解析動作を説明する。
データ読み込み部11は入力部2からの指示に応じて、図示しないデータ記憶部から処理対象である二つのサンプル群、即ちA群とB群それぞれについてマススペクトルデータを読み込む(ステップS1)。なお、ここでいうマススペクトルデータはセントロイド処理されていないプロファイルデータである。
データ読み込み部11は入力部2からの指示に応じて、図示しないデータ記憶部から処理対象である二つのサンプル群、即ちA群とB群それぞれについてマススペクトルデータを読み込む(ステップS1)。なお、ここでいうマススペクトルデータはセントロイド処理されていないプロファイルデータである。
ピークマトリクス作成部12は、読み込まれたマススペクトルデータ毎に、各マススペクトルに現れるピークを所定のピーク検出アルゴリズムに従って検出し、ピーク位置(質量電荷比値)とピーク強度(ピーク値)とを求める。そして、マススペクトル毎に、ピーク位置Mpとピーク強度Ipとの組(Mp,Ip)(ただし、p=1,2,…)を多数集めたピークリストを作成する。さらにピークマトリクス作成部12は、各サンプル群に含まれる全ての試料に対するピークリストを用いてピークマトリクスを作成する。あとで詳述するが、図3はピークマトリクスの一例である。図3の例では、横方向にピーク位置つまりは質量電荷比値が、縦方向に異なる試料(この例では同一被検者からそれぞれ異なる日に採取された試料)が配置され、各欄中に示されている数値がピークのデータ値、つまりピーク値となっている。こうしたピークマトリクスをA群とB群とでそれぞれ作成し、それ合わせて一つのピークマトリクスとする(ステップS2)。
なお、ピークマトリクスの横軸と縦軸とを上述したように定めているため、ピークマトリクスの或る欄に配置すべきピーク値が存在しないことは当然起こり得る。そのときには該位置の値はゼロとすればよい。
ピークマトリクスが作成されたならば、判別分析ローディング計算部13はピークマトリクスに対して判別分析の一つであるPLS−DAの演算を実行し、ピークマトリクスに挙げられているピーク毎にローディング値を計算する(ステップS3)。一方、再現性統計量計算部14は、A群、B群それぞれにおいて同じ質量電荷比であるピーク毎に、ピーク値の平均値と標準分散とを計算し、さらにその標準分散を平均値で除することで各ピークのCV値を算出する(ステップS4)。これにより、ピーク毎に、A群におけるCV値CVa、B群におけるCV値CVbが求まる。
ローディング値修正部15はステップS3で得られた各ピークのローディング値を、ステップS4で得られた同じピークについてのA群及びB群のCV値の積CVa・CVbで除する。即ち、或るピークのローディング値がLであるとすると、L’=L/(CVa・CVb)によりローディング修正値L’を求める(ステップS5)。基本的には、本実施例におけるマーカー探索方法では、このローディング修正値L’に基づいてマーカー候補を選定する。
ここで、ローディング値を両サンプル群のCV値の積で除することの意義を説明する。
判別分析では、一般に、着目する物質に対応するピーク値が或る程度大きければ、ローディング値は或る程度大きくなる。また、両サンプル群における各ピークのピーク値の再現性が或る程度高ければ、標準偏差は小さくなるのでCV値は小さくなる。その結果、1/(CVa・CVb)は大きい値となる。即ち、ローディング値と1/(CVa・CVb)とは以下のような関係となる。
判別分析では、一般に、着目する物質に対応するピーク値が或る程度大きければ、ローディング値は或る程度大きくなる。また、両サンプル群における各ピークのピーク値の再現性が或る程度高ければ、標準偏差は小さくなるのでCV値は小さくなる。その結果、1/(CVa・CVb)は大きい値となる。即ち、ローディング値と1/(CVa・CVb)とは以下のような関係となる。
(1)ピーク値が或る程度大きく且つ両サンプル群の各ピークの再現性が高く、マーカー候補として極めて優れている場合
→ ローディング値L:大、1/(CVa・CVb):大→L’=L/(CVa・CVb)は極めて大きな値となる。
(2)サンプル群の中の少数の試料が非常に大きいピーク値を示している又はピーク値のばらつきが非常に大きい場合
→ ローディング値L:大、1/(CVa・CVb):小→過大評価されたローディング値Lを1/(CVa・CVb)で抑えることになるので、L’=L/(CVa・CVb)は小さくなる。
(3)ピーク値は全般に小さいもののその再現性が高い場合
→ ローディング値L:小、1/(CVa・CVb):大→ローディング値Lを1/(CVa・CVb)で強調することになるので、L’=L/(CVa・CVb)は大きくなる。
(4)ピーク値が小さくその再現性も低い場合
→ ローディング値L:小、1/(CVa・CVb):小→L’=L/(CVa・CVb)は極めて小さな値となる。
→ ローディング値L:大、1/(CVa・CVb):大→L’=L/(CVa・CVb)は極めて大きな値となる。
(2)サンプル群の中の少数の試料が非常に大きいピーク値を示している又はピーク値のばらつきが非常に大きい場合
→ ローディング値L:大、1/(CVa・CVb):小→過大評価されたローディング値Lを1/(CVa・CVb)で抑えることになるので、L’=L/(CVa・CVb)は小さくなる。
(3)ピーク値は全般に小さいもののその再現性が高い場合
→ ローディング値L:小、1/(CVa・CVb):大→ローディング値Lを1/(CVa・CVb)で強調することになるので、L’=L/(CVa・CVb)は大きくなる。
(4)ピーク値が小さくその再現性も低い場合
→ ローディング値L:小、1/(CVa・CVb):小→L’=L/(CVa・CVb)は極めて小さな値となる。
上述したように、特定の試料におけるピーク値が他の試料に比べて非常に大きい値となっていたり、試料全体としては或る程度の大きさのピーク値であるもののピーク値のばらつきが非常に大きかったりした場合には、計算上、こうしたピークのローディング値は大きくなるが、マーカー候補としては不適切である。従来方法ではこうしたピークもマーカー候補としてしまうが、本実施例では上記(2)のケースに相当し、ローディング修正値は小さくなるので、このピークはマーカー候補として挙げられにくくなる。
一方、ピーク値の再現性は高いがピーク値自体はあまり大きくない(ただし、極端に小さいというわけではない)場合、マーカー候補として適しているものの、計算上、こうしたピークのローディング値は小さくなる。従来方法ではこうしたピークはマーカー候補から漏れ易いが、本実施例では上記(3)のケースに相当し、ローディング修正値は相対的に大きくなるので、このピークはマーカー候補として挙げられ易くなる。
一方、ピーク値の再現性は高いがピーク値自体はあまり大きくない(ただし、極端に小さいというわけではない)場合、マーカー候補として適しているものの、計算上、こうしたピークのローディング値は小さくなる。従来方法ではこうしたピークはマーカー候補から漏れ易いが、本実施例では上記(3)のケースに相当し、ローディング修正値は相対的に大きくなるので、このピークはマーカー候補として挙げられ易くなる。
もちろん、ピーク値自体が大きくその再現性も良好であるようなピークについては、本実施例では上記(1)のケースに相当し、ローディング修正値も大きくなるので、このピークはマーカー候補として挙げられる。逆に、ピーク値自体は小さめでその再現性も悪いピークについては、本実施例では上記(4)のケースに相当し、ローディング修正値は小さくなるので、このピークはマーカー候補とはならない。
このように、本実施例において両サンプル群のCV値の積で除すことで得られたローディング修正値は、元のローディング値に比べて、マーカーにより適したピークを選択するために利用できる統計量であるということができる。そこで、全てのピークについてのローディング修正値が求まったならば、統計量表示処理部16は、各ピークのローディング修正値L’をユーザーに分かりやすいグラフ形式で表示部3の画面上に表示する(ステップS6)。具体的には、例えばローディング値Lを横軸に、ローディング修正値L’を縦軸にとった2次元グラフ上に各ピークに対応するプロット点を位置付けるとよい。
ユーザー(分析者)はこうして表示されるグラフに基づいて、両サンプル群を区別するのに特徴的であるピークを特定し、該ピーク又はそれに対応する物質をマーカー候補とすればよい。また、そうした分析者の判断に依らず、2次元グラフ上のプロット点の分布状況を自動的に判断して閾値を設定し、その閾値に基づいてマーカー候補を抽出するようにしてもよい。
次に、具体的な解析例を挙げて、従来方法に対する上記実施例におけるマーカー候補探索方法の優位性を説明する。
この解析例に使用したデータは次のとおりである。
・データの種類:被検者の体表成分(皮脂)を測定したデータ
・データの測定方法:LDI(レーザ脱離イオン化法)用のサンプルプレートに被検者が人差し指を押し付けて皮脂を付着させ、それを島津製作所製のMALDI−TOFMS(マトリクス支援レーザ脱離イオン化飛行時間型質量分析装置)により直接測定してマススペクトルを取得した。
・被検者数:2人(30歳代の女性1人、40歳代の男性1人)
・データ取得期間:10日間
・ピーク数:996個
以下の説明では、女性被検者を識別番号:ID001、男性被検者を識別番号:ID007とし、ID001をA群とし、ID007をB群とする。
即ち、上述したように、一つのサンプル群には複数の試料が含まれるが、この解析例では、便宜上、その複数の試料は異なる被検者から得られたものではなく、同じ被検者から異なる日に採取されたものである。
この解析例に使用したデータは次のとおりである。
・データの種類:被検者の体表成分(皮脂)を測定したデータ
・データの測定方法:LDI(レーザ脱離イオン化法)用のサンプルプレートに被検者が人差し指を押し付けて皮脂を付着させ、それを島津製作所製のMALDI−TOFMS(マトリクス支援レーザ脱離イオン化飛行時間型質量分析装置)により直接測定してマススペクトルを取得した。
・被検者数:2人(30歳代の女性1人、40歳代の男性1人)
・データ取得期間:10日間
・ピーク数:996個
以下の説明では、女性被検者を識別番号:ID001、男性被検者を識別番号:ID007とし、ID001をA群とし、ID007をB群とする。
即ち、上述したように、一つのサンプル群には複数の試料が含まれるが、この解析例では、便宜上、その複数の試料は異なる被検者から得られたものではなく、同じ被検者から異なる日に採取されたものである。
図3は上記データに基づいて作成されたピークマトリクスの一部である。
ここでは、質量電荷比が異なる各ピーク(全996ピーク)について、ID001とID007という二つのサンプル群の間で発現に差がある、つまり、個人差があるピークの探索に、上述した手法を用いる。
ここでは、質量電荷比が異なる各ピーク(全996ピーク)について、ID001とID007という二つのサンプル群の間で発現に差がある、つまり、個人差があるピークの探索に、上述した手法を用いる。
まず、従来のマーカー探索方法として、PLS−DAのローディングプロットを利用した方法による解析結果を説明する。
図7は上記データにPLS−DAを適用して得られたローディングプロットである。一つのプロット点が一つのピークに相当する。このローディングプロットでは、ID001であるサンプル群中の試料に多く含まれていると判定されたピークは−(マイナス)軸方向に、逆にID007であるサンプル群中の試料に多く含まれていると判定されたピークは+(プラス)軸方向にプロットされている。したがって、中央のゼロよりも+方向又は−方向に離れるほど、各サンプル群に特徴的なピークであるといえる。各サンプル群に特徴的であるマーカー候補のピークにはm/z値に下線を記してある。例えば、m/z 228.3、m/z 284.3などはマーカー候補のピークである。
図7は上記データにPLS−DAを適用して得られたローディングプロットである。一つのプロット点が一つのピークに相当する。このローディングプロットでは、ID001であるサンプル群中の試料に多く含まれていると判定されたピークは−(マイナス)軸方向に、逆にID007であるサンプル群中の試料に多く含まれていると判定されたピークは+(プラス)軸方向にプロットされている。したがって、中央のゼロよりも+方向又は−方向に離れるほど、各サンプル群に特徴的なピークであるといえる。各サンプル群に特徴的であるマーカー候補のピークにはm/z値に下線を記してある。例えば、m/z 228.3、m/z 284.3などはマーカー候補のピークである。
マーカー候補であるピークについてのピーク値の分布などの詳細な情報を図8〜図11に示す。また図12はマーカー候補から漏れた或るピークについてのピーク値の分布などの詳細な情報である。図8〜図12において、各質量電荷比値に対応する上下二つのグラフのうち、上のグラフは、左部10点がID001に対するピーク値、右部10点がID007に対するピーク値であり、それぞれ左から測定日が古い順に並べてある。一方、下のグラフは各サンプル群のピーク値のばらつきのみを示すグラフである。
図8〜図11に示したピーク値の分布をみると、m/z 382.5(図9参照)、m/z 383.5(図9参照)である二つのピークはローディング値からマーカー候補であると判定されているが、ごく一部の試料に対するピーク値が極めて高くなっていることが分かる。つまり、これは一部の極端なピーク値によってローディング値が高くなっていることを示しており、これは上述した<問題1>の(i)のケースそのものである。したがって、これらピークは実際にはマーカー候補としては適さないといえる。
一方、図12に示したピーク値の分布を見ると、m/z 304.3であるピークはローディングからはマーカー候補として判定されていないものの、図7におけるプロットの位置からID007のサンプル群に特徴的なピークと判定されていることが分かる。しかしながら、このピークは全体として或る程度のピーク値はあるものの、試料間でのピーク値のばらつきが大きい。つまり、これは、上述した<問題2>の(ii)のケースであるといえ、このピークをID007に特徴的なピークであるとするのは適切でない。
また、図7においてマーカー候補であるとして判定されたピークはいずれもピーク値が1000程度以上であり、本データにおけるピーク値の中でもかなり大きいものしかマーカー候補として挙げられていない。即ち、ピーク値が小さいものはマーカー候補と判定されておらず、このことは、サンプル群間で差があってもピーク値が小さいようなピークが探索できないという、上述した<問題2>の状況が起こっていることを示唆している。
参考のために、この解析例に用いた両サンプル群の合計20個のマススペクトルをオーバーラップ表示させたグラフを図13(a)に示す。図13(b)はサンプル群毎にマススペクトルを分けて描いたグラフである。図7と同様に、マーカー候補とされたピークにはm/z値に下線を記してある。この図から、マーカー候補であると判定されたピークは、いずれもマススペクトルにおける全てのピークの中で、ピーク値が比較的高いことが分かる。
図4は、上述した本実施例におけるマーカー探索方法によって作成される2次元グラフである。ここでは、横軸にローディング値、縦軸にローディング修正値をとっている。つまり、横軸は図7に示したグラフと同じであるが、縦軸が相違する。このようなグラフでは、横軸上及び縦軸上のいずれにおいてもゼロから離れた右上部及び左下部にプロットされたピークをマーカー候補であると判断することができる。ここでは、二つの矩形状の点線領域にプロットされたピークをマーカー候補と判断している。
図4から、従来方法でマーカー候補であると判定されたピークのうち、m/z 382.5、383.5の二つのピーク以外の、或る程度のピーク値を持ち再現性も悪くない全てのピークが点線領域内にプロットされており、マーカー候補と正しく判定されていることが確認できる。一方、マーカーとして適さないにも拘わらず、従来方法では誤ってマーカー候補のピークであると判定されてしまっていたm/z 382.5、383.5の二つのピークは、ローディング修正値がかなり低くなるため点線領域から外れている。そのため、これら二つのピークはマーカー候補にはならず、正しく判定されていることが確認できる。
さらにまた、ID007に特徴的なピークであるとみなせるもののマーカーとしては適さないm/z 304.3のピークも、ローディング修正値が極めて低くなるため、点線領域から外れたところにプロットされており、マーカー候補ではないと正しく判定できる。
さらにまた、ID007に特徴的なピークであるとみなせるもののマーカーとしては適さないm/z 304.3のピークも、ローディング修正値が極めて低くなるため、点線領域から外れたところにプロットされており、マーカー候補ではないと正しく判定できる。
一方、本実施例におけるマーカー探索方法では、従来方法ではマーカー候補となっていなかった、m/z 57.1、60.1、59.1、41.0という四つのピークが新たにマーカー候補と判定されている。これらのピークのピーク値の分布の詳細を図5に示す。また、これらピーク付近のマススペクトルをオーバーラップ表示させたグラフを図6に示す。図5は図8〜図12と同様のグラフである。また、図6(a)中の右上のマススペクトルは図13と同じである。
m/z 57.1、60.1、59.1のピークはいずれもピーク値が100以下と小さい。しかしながら、そのピーク値の再現性は極めて良好であり、マーカー候補として適切であるといえる。m/z 41.0のピークはサンプル群間でのピーク値の差が他の三つのピークほど大きくないものの、ピーク値の再現性は十分に良好である。またピーク値自体も約400と十分に大きい。そのため、このピークについてもマーカー候補として適切であるといえる。
このように、本実施例におけるマーカー探索方法を用いれば、従来方法では誤ってマーカー候補のピークと判定してしまっていたピークをマーカー候補から除外することができる。また逆に、従来方法では見落としていたマーカー候補のピークを、正しくマーカー候補として選び出すことができる。それによって、マーカー探索の精度向上が図れ、信頼性の高いマーカーを選定することができる。
なお、上記実施例は、各試料に対して得られたマススペクトルデータについて本発明を適用したものであるが、LC−MSやGC−MSで得られたデータを解析する場合には、質量電荷比のほかに保持時間(この場合には時間ずれが補正された保持時間が望ましい)が同一であるピークをマーカー候補として同様の処理を行えばよい。
また上記実施例では、判別分析としてPLS−DAを利用していたが、それ以外の判別分析、例えばOPLS−DAやO2LS−DAを用いてもよい。また、上記実施例では、ヒトから採取された生体試料を測定することで得られたマススペクトルデータを解析していたが、試料は生体試料である必要はなく、本発明は医療、医薬品開発、生理学などの分野だけでなく、様々な分野で利用することができる。
さらにまた、上記実施例は質量分析装置で得られたマススペクトルデータの解析に本発明を使用したものであるが、そうしたデータのみならず、質量分析装置と組み合わせないLC装置やGC装置で得られたクロマトグラムデータや分光測定装置で得られた吸光スペクトルデータなどの解析にも本発明を使用できることは明らかである。さらにまた、DNAマイクロアレイ解析で得られたデータ(画像を数値化したデータ)の解析にも本発明を使用することができる。
また、上記実施例は本発明の一例にすぎず、上記に記載された以外の点で、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。
1…データ解析部
11…データ取り込み部
12…ピークマトリクス作成部
13…判別分析ローディング計算部
14…再現性統計量計算部
15…ローディング値修正部
16…統計量表示処理部
2…入力部
3…表示部
11…データ取り込み部
12…ピークマトリクス作成部
13…判別分析ローディング計算部
14…再現性統計量計算部
15…ローディング値修正部
16…統計量表示処理部
2…入力部
3…表示部
Claims (5)
- 各々が測定対象である複数の試料を含む複数の群について、その複数の群の間で試料に含まれる存在量や試料による発現量に有意な差がある要素を探索するために、各試料に対して所定の分析を行うことで得られた分析データを解析する分析データ解析装置であって、
a)与えられた各群の各試料に対する分析データからそれぞれピークを検出し、試料毎にピークが得られるパラメータとピーク値とを含むピーク情報を収集するピーク情報収集部と、
b)前記ピーク情報収集部により収集された全ての試料に対するピーク情報に対し判別分析による多変量解析を行って、ピーク毎のローディング値を計算する判別分析実行部と、
c)各ピークについて各群におけるピーク値の再現性を表す統計量を計算する再現性統計量計算部と、
d)ピーク毎に、前記判別分析実行部で得られたローディング値を前記再現性統計量計算部で得られた各群における再現性統計量の積で除することで、該ローディング値を修正したローディング修正値を計算するローディング修正値算出部と、
e)前記ローディング修正値算出部で得られた各ピークに対するローディング修正値を反映したグラフを作成して表示する表示処理部と、
を備えることを特徴とする分析データ解析装置。 - 請求項1に記載の分析データ解析装置であって、
前記再現性統計量は変動係数であることを特徴とする分析データ解析装置。 - 請求項1に記載の質量分析データ解析装置であって、
前記再現性統計量は標準偏差であることを特徴とする分析データ解析装置。 - 請求項1〜3のいずれか1項に記載の質量分析データ解析装置であって、
前記判別分析はPLS−DAであることを特徴とする分析データ解析装置。 - 請求項1〜4のいずれか1項に記載の分析データ解析装置であって、
前記表示処理部は、互いに直交する一方の軸に前記判別分析によるローディング値、他方の軸に前記ローディング修正値算出部で得られるローディング修正値をとったグラフを作成することを特徴とする分析データ解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015057156A JP2016176811A (ja) | 2015-03-20 | 2015-03-20 | 分析データ解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015057156A JP2016176811A (ja) | 2015-03-20 | 2015-03-20 | 分析データ解析装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016176811A true JP2016176811A (ja) | 2016-10-06 |
Family
ID=57069304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015057156A Pending JP2016176811A (ja) | 2015-03-20 | 2015-03-20 | 分析データ解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016176811A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018197662A (ja) * | 2017-05-23 | 2018-12-13 | 株式会社島津製作所 | 質量分析データ解析装置及び質量分析データ解析用プログラム |
-
2015
- 2015-03-20 JP JP2015057156A patent/JP2016176811A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018197662A (ja) * | 2017-05-23 | 2018-12-13 | 株式会社島津製作所 | 質量分析データ解析装置及び質量分析データ解析用プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7057913B2 (ja) | ビッグデータ解析方法及び該解析方法を利用した質量分析システム | |
Naz et al. | Method validation strategies involved in non-targeted metabolomics | |
Wang et al. | Urine metabolomics analysis for biomarker discovery and detection of jaundice syndrome in patients with liver disease | |
Choi et al. | QPROT: Statistical method for testing differential expression using protein-level intensity data in label-free quantitative proteomics | |
JP4602374B2 (ja) | クロマトグラフィー質量分析方法、及びクロマトグラフ質量分析装置 | |
Barbier Saint Hilaire et al. | Comparative evaluation of data dependent and data independent acquisition workflows implemented on an orbitrap fusion for untargeted metabolomics | |
CN103109345B (zh) | 产物离子光谱的数据独立获取及参考光谱库匹配 | |
Jiang et al. | An automated data analysis pipeline for GC− TOF− MS metabonomics studies | |
US7949475B2 (en) | System and method for analyzing metabolomic data | |
JP4951752B2 (ja) | 易動度の正規化装置、正規化方法、正規化プログラムおよび自己組織化マップ、並びに、物質の検出方法、検出プログラム、検出ルール生成方法およびデータ構造 | |
CA2618123C (en) | A system, method, and computer program product using a database in a computing system to compile and compare metabolomic data obtained from a plurality of samples | |
JP4860575B2 (ja) | クロマトグラフィー質量分析の分析結果表示方法及び表示装置 | |
JP2016180599A (ja) | データ解析装置 | |
JP2011191222A (ja) | 質量分析データ処理方法及び装置 | |
JP2016061670A (ja) | 時系列データ解析装置及び方法 | |
JP5272822B2 (ja) | 代謝物解析用データ処理装置 | |
Fan et al. | Fully automatic resolution of untargeted GC-MS data with deep learning assistance | |
EP3454058A1 (en) | Mass spectrometry data analysis device and program for mass spectrometry data analysis | |
JP2016176811A (ja) | 分析データ解析装置 | |
EP2486504B1 (en) | Apparatus and associated method for analyzing small molecule components in a complex mixture | |
JP5007326B2 (ja) | クロマトグラフィー質量分析方法、及びクロマトグラフ質量分析装置 | |
JP2013506843A5 (ja) | ||
Akbari Lakeh et al. | Discriminating normal regions within cancerous hen ovarian tissue using multivariate hyperspectral image analysis | |
US9892895B2 (en) | Method for analyzing small molecule components of a complex mixture in a multi-sample process, and associated apparatus and computer program product | |
US11387087B2 (en) | Method for analyzing small molecule components of a complex mixture, and associated apparatus and computer program product |