JP2016180599A - データ解析装置 - Google Patents

データ解析装置 Download PDF

Info

Publication number
JP2016180599A
JP2016180599A JP2015059502A JP2015059502A JP2016180599A JP 2016180599 A JP2016180599 A JP 2016180599A JP 2015059502 A JP2015059502 A JP 2015059502A JP 2015059502 A JP2015059502 A JP 2015059502A JP 2016180599 A JP2016180599 A JP 2016180599A
Authority
JP
Japan
Prior art keywords
group
data
peak
average value
scaling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015059502A
Other languages
English (en)
Inventor
藤田 雄一郎
Yuichiro Fujita
雄一郎 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Priority to JP2015059502A priority Critical patent/JP2016180599A/ja
Publication of JP2016180599A publication Critical patent/JP2016180599A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

【課題】複数のサンプル群の間における同じ物質の存在量の差を、定量的に且つ視覚的に把握し易く表示する。【解決手段】二つのサンプル群に含まれるマススペクトルデータから群毎にピークマトリクスを作成したあと(S1、S2)、一方のサンプル群を標準群とし、該群のピーク毎にピーク値の平均値と標準偏差を算出し、平均値が0、標準偏差が±1になるようにスケーリングする(S3)。他方のサンプル群においてピーク毎にデータ値の平均値と標準偏差を算出したら、その平均値と標準偏差を標準群の標準化に用いたスケーリング係数でスケーリングする(S4)。そして、スケーリング後の[平均値]±[標準偏差]を示す棒グラフを、横軸をm/z、縦軸をスケーリング後のピーク値としたグラフに配置する(S5)。こうして作成及び表示されるグラフでは標準群における[平均値]±[標準偏差]が統一されているので、ピーク間の存在量の差などの比較が容易になり、一方の群に特異的に出現するピークの抽出が容易になる。【選択図】図2

Description

本発明は、質量分析装置で得られたマススペクトルデータ、ガスクロマトグラフ装置や液体クロマトグラフ装置で得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータ、DNAマイクロアレイ解析で得られたデータなどの、各種の分析装置や測定装置で得られたデータや、より一般的な測定や計測によって収集されたデータ、さらには統計資料や日常的に公開・公表される経済的・社会的な指標を表すデータなど、様々なデータを解析処理するデータ解析装置に関し、さらに詳しくは、複数のサンプル群の間における含有物質や因子などの要素の相違を調べる差異解析を行う際に有用なデータ解析装置に関する。
近年、特定の疾病や疾患の早期診断や治療効果の確認などのために、質量分析法を利用したバイオマーカーの解析の研究が進められ、一部は実用化されつつある。
例えばn人の健常者から採取した血液等の生体試料には存在せず、ガンなどの特定の疾患を罹患しているm人の患者から採取した同様の生体試料に存在している物質が見つかれば、その物質はその疾患における有力なバイオマーカー候補であるといえる。
なお、「バイオマーカー」とは生体を対象としたものであるが、ここでは測定対象は生体試料とは限らないので、以下の説明では単に「マーカー」という。
図10は、液体クロマトグラフ質量分析装置(LC−MS)により得られた質量分析データを用いた差異解析によるマーカー探索の概念図である(非特許文献1参照)。図10において、左はm人の健常者から成る健常者群に対する質量分析データであり、右はn人の患者から成る患者群に対する質量分析データである。2次元的なグラフで示される一つの質量分析データの縦軸は液体クロマトグラフにおける保持時間RT、横軸は質量分析装置における質量電荷比m/zであり、これら両軸に直交する方向、つまりは紙面に直交する方向がイオン強度軸である。この例では、ピークb、c、dは健常者群、患者群に共通しており、ピークaだけが健常者群には存在せず患者群に存在している。したがって、このピークaに対応する物質がマーカー候補である。
質量分析データに基づいてマーカー候補を探索するには様々な方法があるが、着目している物質の存在量の差を複数のサンプル群の間で定量的に且つ視覚的に調べたい場合には、[平均値]±[標準偏差]のグラフを利用する方法がよく用いられる(非特許文献2参照)。
この方法では例えば、着目している物質Aについて、健常者群と患者群それぞれにおいて質量分析結果から求まる存在量の平均値及び標準偏差を計算し、これら数値を図11に示すようなグラフ形式で表示する。図11では、各群に含まれる複数の検体における物質Aの存在量の平均値を棒グラフで、標準偏差を「ひげ」で表している。分析者は、健常者群と患者群とのひげの重なり具合などを目視で観察し、存在量に明確な差がある、又は、存在量に差はあるものの測定誤差の範囲内であって有意な差とはみなせない、などと判断する。着目している物質が複数ある場合には、非特許文献2でも示されているように、図11に示したグラフを例えば横方向に並べて表示すればよい。
マーカー候補を探索するために複数のサンプル群の質量分析データを比較する際に、分析者が知りたい情報は主として次の二つである。
(1)検出されている全ての物質を網羅的に捉え、両サンプル群の間で存在量に有意差があるピークつまりは物質を抽出したい。
(2)或る着目しているピークについての両サンプル群の間での存在量の差が、別のピークと比べてどの程度異なるのか或いは同じ程度であるのか、を確認したい。
マーカー探索においては着目している物質の数がかなり多いのが一般的であるが、そうした場合に、上述した従来の方法で上記のような情報を得ようとすると次のような問題がある。
即ち、上記従来の方法では、着目している物質が複数ある場合に、図11に示したような[平均値]±[標準偏差]のグラフを物質の数だけ横方向に並べて表示する。一般に、測定対象が生体由来の試料であるような場合には、検体に含まれている物質の種類が非常に多く、マススペクトルに現れるピークの数が数百以上になることもある。そのため、着目している物質の数も非常に多くなり、各サンプル群の[平均値]±[標準偏差]のグラフのセットをそうした数だけ横方向に並べても、非常に煩雑で見づらくなる。
また、検体に含まれる物質毎の絶対的な存在量は大きく異なることがあるから、各物質に対する[平均値]±[標準偏差]のグラフは図11において縦軸方向に大きく散らばる。特にマススペクトルのピーク値は非常に広いレンジ(数万倍)をとるため、そのピーク値の[平均値]±[標準偏差]のグラフは縦軸方向に非常に大きく散らばることになる。そのため、こうしたグラフに基づいて分析者が異なる物質の間での存在量の差を比較しようとしても、視覚上での比較はかなり困難であり、それを見て分析者が適切な判断を下すことは難しい。
もちろん、上述した問題は質量分析装置で得られたマススペクトルデータを利用した差異解析に限らず、例えば、ガスクロマトグラフ装置や液体クロマトグラフ装置で得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータ、DNAマイクロアレイ解析で得られたデータなどの、各種分析データに基づくサンプル群間の差異解析においても同様の問題がある。さらにまた、そうした特定の分析装置や測定装置を用いて得られるデータだけでなく、濃度、温度、湿度、時間等の様々なパラメータの変化に応じた物理量や統計量を示すデータを用いてサンプル群間の差異を調べる際にも同様の問題がある。
藤田 雄一郎、ほか9名、「Mass++:差異解析のための統計・多変量解析機能」、最先端研究開発支援プロジェクト発表資料、[online]、[平成27年3月4日検索]、インターネット<URL: http://www.first-ms3d.jp/files/MSSJ2013/MSSJ13_1P-07_Fujita.pdf> ミハイル・ボグダノフ(Mikhail Bogdanov)、ほか6名、「メタボロミック・プロファイリング・トゥー・デベロップ・ブラッド・バイオマーカーズ・フォー・パーキンソンズ・ディジーズ(Metabolomic profiling to develop blood biomarkers for Parkinson's diseae)」、ブレイン(Brain)、2008年、Vol. 131、pp.389-396
本発明は上記課題に鑑みて成されたものであり、その主たる目的は、各サンプル群がそれぞれ多数の検体や試料を含み、複数のサンプル群の間で同じ物質の存在量の差や同じ因子による発現量の差などを、多数の物質や因子について網羅的に調べたい場合に、分析者が物質毎の存在量の差や因子毎の発現量の差を定量的に且つ視覚的に把握することが容易であるデータ解析装置を提供することである。
上記課題を解決するために成された本発明は、各々が複数の検体や試料を含む複数の群について、その複数の群の間で検体や試料における着目している要素の存在や発現の程度の差を要素毎に調べるために、各検体や試料に対して得られているデータを解析するデータ解析装置であって、
a)標準とする一つの群に含まれる複数の検体や試料に対して各々得られているデータを用い、着目している要素毎に、その要素に対応するデータ値に基づく所定の統計量をそれぞれ所定の値にスケーリングすることにより、その群において着目している要素についてのデータ値に基づく所定の統計量をそれぞれ要素間で揃える標準群標準化処理部と、
b)前記標準とする一つの群以外の他の群に含まれる複数の検体や試料に対して得られているデータを用い、前記着目している要素毎に、その要素に対応するデータ値に基づく所定の統計量を、前記標準群標準化処理部におけるスケーリングの際に用いられたスケーリング係数を用いてスケーリングする比較群スケーリング実行部と、
c)前記着目している要素のそれぞれについて前記比較群スケーリング実行部でスケーリングされたあとの所定の統計量を示すグラフを縦方向又は横方向に延伸するように配置し、且つ、異なる要素同士の前記所定の統計量を示すグラフを横方向又は縦方向に並べて描画する表示処理部と、
を備えることを特徴としている。
本発明に係るデータ解析装置は例えば、各々が測定対象である複数の検体を含む複数の群について、その複数の群の間で検体に含まれる着目している物質の存在量の差を物質毎に調べるために、各検体に対して質量分析を行うことで得られた質量分析データを解析する質量分析データ解析装置である。この場合、質量分析データとは典型的にはマススペクトルデータである。ここでいうマススペクトルはnが2以上の整数であるMSnスペクトルも含む。また、液体クロマトグラフ質量分析装置やガスクロマトグラフ質量分析装置により、保持時間毎に得られたマススペクトルでもよい。
また、上記「データ値に基づく所定の統計量」としては、平均値、最大値、最頻値、標準偏差、標準誤差、第1四分位点(最小値のデータ点から数えて25%目に相当するデータ点)などのうちの一つ又は複数が考えられるが、典型的には、平均値及び標準偏差を用いるのがよい。
本発明に係るデータ解析装置において、所定の統計量として平均値及び標準偏差を用いる場合、上記標準群標準化処理部は、例えば、データ値の平均値をゼロ、該データ値の標準偏差を1とするようにスケーリングを行うとよいが、それ以外の値にスケーリングしてもかまわない。
また本発明に係るデータ解析装置において、所定の統計量として平均値及び標準偏差を用いる場合、上記表示処理部は、平均値及び標準偏差を示すグラフとして、典型的には[平均値]±[標準偏差]のグラフを用いればよい。また、スケーリングされた平均値、標準偏差のほかに、スケーリングされた最大値、最小値も併せて示すグラフとしてもよい。
本発明に係るデータ解析装置が上述した質量分析データ解析装置であって、質量分析データが一つのマススペクトルデータである場合には、着目している物質に対応するデータ値とは、通常、その物質に対応する質量電荷比値に現れるピークのピーク値である。ただし、着目している物質の種類自体は必ずしも既知である必要はなく、未知であっても構わない。即ち、マススペクトル上で或る質量電荷比にピークが現れるとき、そのピークが着目している物質に対応するピークであるとみなし、そのピーク値に対する所定の統計量、例えば平均値や標準偏差をスケーリングすればよい。
当然のことながら、標準群標準化処理部によるスケーリングが行われると、標準群において、全ての着目している物質等の要素に対応するピークのピーク値の平均値及び標準偏差などはそれぞれ等しくなる。標準群におけるこのスケーリングの際には、要素毎に、例えば平均値を所定の値に変換するためのスケーリング係数と標準偏差を所定の値に変換するためのスケーリング係数とが得られる。比較群スケーリング実行部は、このスケーリング係数を用いて、標準群以外の他の群において、同じ要素に対応するデータ値の平均値及び標準偏差をスケーリングすることで値を変換する。標準群において、もともとピーク値が小さい要素についてはピーク値が大きい要素に比べて、平均値のスケーリング係数は相対的に大きくなるから、比較群スケーリング実行部によるスケーリングの結果、もとのピーク値の相違の影響が小さくなるように各要素の平均値が調整されることになる。標準偏差についても同様である。
表示処理部は、上述したように要素毎に異なるスケーリング係数で以てスケーリングされた平均値及び標準偏差を示すグラフを作成して表示する。着目している要素に対応するデータ値がその要素に対応する質量電荷比値に現れるピークのピーク値である場合には、表示処理部は例えば、群毎に、横軸を質量電荷比値とし、縦方向に各物質の[平均値]±[標準偏差]の棒グラフをとったグラフを作成し表示すればよい。標準群以外の群が複数存在する場合には、その複数の群に対応するグラフを群毎に表示色を変えて重ねて表示するようにしてもよい。また、標準群と他の一つの群に対応するグラフを群毎に表示色を変えて重ねて表示するようにしてもよい。
例えば、健常者を集めた健常者群を標準群とし、特定の疾病を罹患する患者のみを集めた患者群を他の群(比較群)とした場合には、表示処理部により作成及び表示されるグラフでは、各要素つまり物質について、標準群におけるデータに対する比較群における存在量が統一した基準で比較可能となる。即ち、比較群のグラフにおいて各物質に対応するデータ値の平均値及び標準偏差を示す棒グラフが上下方向にあまり散らばらないため、物質間での存在量のばらつきの差異が比較し易い。また、標準群と比較群とでの同じ物質に対する存在量の差やデータのばらつきも定量的に且つ視覚的に把握し易くなる。
本発明に係る質量分析データ解析装置では、好ましくは、前記表示処理部により描画された各要素に対応するグラフの並びを、所定の統計量に基づいて入れ替えるソート処理部をさらに備える構成とするとよい。
この構成によれば、例えばスケーリング後の平均値が大きい順に各物質に対応するグラフを並べ替えて示すことができるから、標準群におけるデータに対する比較群における存在量が多い順に、各物質の存在量のばらつきなどを容易に評価することができるようになる。具体的には、比較群においてスケーリング後の平均値の大きい順、つまりは存在量の多い順にソートを行えば、標準群に対して何倍の存在量があるピーク(物質)がどの程度存在するか、或いは、その際のデータのばらつきは一方を基準にしたときにどの程度であるか、といったことが視覚的に一目で分かるようになる。
また、マーカー候補を探索する場合には、通常、群の間で或る物質の存在量に差があるがどうかについては、その存在量そのものより、データのばらつきがどれくらいか、或いは、データのばらつきを基準としたとき存在量の差がどの程度あるか、といったことのほうが重要視される。特に、健常者群と患者群との間でマーカー探索を行う場合、或る物質の存在量に有意差があるか否かの最終的な判定にはt検定などの統計的仮説検定が用いられる。t検定では、健常者検体数と患者検体数とがそれぞれ固定されている場合には、平均値と標準偏差という二つの統計量を重要なパラメータとし、データのばらつきが小さければ小さいほど、またデータのばらつきを基準としたときの存在量の差があればあるほど、小さな値となるp値に基づいて有意差の有無が判定される。
そこで、本発明に係る質量分析データ解析装置では、
各要素について統計的仮説検定により標準群に対する有意差があるか否かを判定する検定実行部をさらに備え、
前記表示処理部は、前記検定実行部による検定結果をグラフ上に重ねて表示する構成としてもよい。
ここで、統計的仮説検定としては上述したt検定などを用いればよい。また表示処理部は、検定によって有意差があると判断された要素を識別可能なマーカーをグラフ上に重ねて表示すればよい。これによれば、分析者はグラフから単に視覚的な判断を行うだけでなく、統計的仮説検定による定量的な情報もグラフから読み取って、的確にマーカー候補を抽出することができる。
本発明に係るデータ解析装置によれば、例えば、比較したい複数のサンプル群において全ての着目している物質を網羅的に捉えて、存在量に有意な差があるピーク、つまりは物質を定量的に且つ視覚的に容易に探索することができる。また、複数のサンプル群の間で、着目している物質の存在量が他の物質と比べてどの程度差があるのかについても、定量的に且つ視覚的に確認することができる。それによって、例えばマーカー候補として適した物質を容易に抽出することができるようになり、マーカー候補の探索を効率的に行うことができるとともに、その探索の正確性も向上する。
本発明の一実施例である質量分析データ解析装置の概略ブロック構成図。 本実施例の質量分析データ解析装置における特徴的な解析処理のフローチャート。 本実施例の質量分析データ解析装置における特徴的な解析処理の説明図。 一つの群のピークマトリクスの一例を示す図。 従来方法による[平均値]±[標準偏差]表示の具体例を示す図。 本発明による方法を用いた[平均値]±[標準偏差]表示の具体例を示す図。 従来方法と本発明の方法による[平均値]±[標準偏差]表示の具体例を示す図。 図7に示した表示にt検定結果を加えた例を示す図。 平均値の大きい順にソートした結果を示す図。 LC−MSにより得られた質量分析データを用いた差異解析によるマーカー探索の概念図。 従来方法による物質の存在量の比較のためのグラフを示す図。
以下、本発明の一実施例である質量分析データ解析装置について、添付図面を参照して説明する。
図1は本実施例の質量分析データ解析装置の概略構成図である。
ここでは、一例として、健常者群と特定の疾患を罹患している患者群との二つのサンプル群を想定し、各サンプル群にそれぞれ含まれる複数の検体に対して質量分析を実行することで得られたマススペクトルデータを処理することで、物質毎の存在量の差を調べるものとする。
本実施例の質量分析データ解析装置は、データ読み込み部11、ピークマトリクス作成部12、標準群標準化処理部13、比較群スケーリング処理部14、スケーリング後データ表示処理部15、及び、ソート処理部16、を機能ブロックとして有するデータ解析部1と、分析者がパラメータを設定したり何らかの指示を行ったりするための入力部2と、解析結果等が表示される表示部3と、を備える。
なお、データ解析部1は例えばパーソナルコンピュータをハードウエア資源とし、該コンピュータにインストールされた専用のデータ処理ソフトウエアを該コンピュータ上で実行することにより、上記各機能ブロックが具現化される構成とすることができる。
図2に示すフローチャートを参照して、本実施例の質量分析データ解析装置における特徴的な解析動作を説明する。
データ読み込み部11は入力部2からの指示に応じて、図示しないデータ記憶部から処理対象である二つのサンプル群、即ち標準群と比較群それぞれについてマススペクトルデータを読み込む(ステップS1)。なお、ここでいうマススペクトルデータはセントロイド処理されていないプロファイルデータである。
ピークマトリクス作成部12は、読み込まれたマススペクトルデータ毎に、各マススペクトルに現れるピークを所定のピーク検出アルゴリズムに従って検出し、ピーク位置(質量電荷比値)とピーク強度(ピーク値)とを求める。そして、マススペクトル毎に、ピーク位置Mpとピーク強度Ipとの組(Mp,Ip)(ただし、p=1,2,…)を多数集めたピークリストを作成する。さらにピークマトリクス作成部12は、サンプル群毎に、そのサンプル群に含まれる全ての検体に対するピークリストを用いてピークマトリクスを作成する。あとで詳述するが、図4はピークマトリクスの一例である。図4の例では、横方向にピーク位置つまりは質量電荷比値が、縦方向に異なる検体(この例では同一被検者からそれぞれ異なる日に採取された検体)が配置され、各欄中に示されている数値がピーク強度となっている。こうしたピークマトリクスを標準群と比較群とでそれぞれ作成する(ステップS2)。
なお、ピークマトリクスの横軸と縦軸と上述したように定めているため、ピークマトリクスの或る欄に配置すべきピーク強度値が存在しないことは当然起こり得る。そのときには該位置の要素はゼロとするか、或いは、何らかの適切な値で補間すればよい。
次に、標準群標準化処理部13は、標準群に対するピークマトリクスにおいて、同じ質量電荷比であるピーク毎に、つまりは図4に示したピークマトリクスの縦1列のピーク値毎に、その平均値及び標準偏差を計算する。そうして計算された平均値及び標準偏差を[平均値]±[標準偏差]の棒グラフで横軸が質量電荷比軸であるグラフに示すと、図3(a)左に示すようになる。一般的に、マススペクトルにおける一つのピークは一つの物質に対応しているから、物質の絶対的な存在量の相違によって、図3(a)左に示すように、異なる質量電荷比M1、M2、M3における[平均値]±[標準偏差]の棒グラフの縦軸上での位置は縦方向にずれたものとなる。
そのあと標準群標準化処理部13は、ピーク毎に、つまりは質量電荷比値毎又は物質毎に、標準群におけるピーク値の平均値を「0」、標準偏差を「±1」とするようにスケーリングを行う。図3(a)右は図3(a)左に示した各ピーク値の平均値及び標準偏差をスケーリングした結果のグラフである。当然のことながら、上記のようなスケーリングを行うと、図3(a)右に示したように、異なる質量電荷比M1、M2、M3における[平均値]±[標準偏差]の棒グラフの縦軸上での位置が揃う。つまり、標準化される。このとき、この平均値、標準偏差のほか、スケーリング前のピーク値の平均値に乗じるスケーリング係数Pと、スケーリング前の標準偏差に乗じるスケーリング係数Qとを、ピーク毎に取得して記憶しておく(ステップS3)。
比較群スケーリング処理部14は、比較群に対するピークマトリクスにおいて、比較対象である比較群における各ピークのピーク値の平均値及び標準偏差を求める。そして、それぞれ同じ質量電荷比のピークについて標準群において取得されたスケーリング係数P、Qを乗じることによって、比較群における各ピークのピーク値の平均値及び標準偏差のスケーリングを行う(ステップS4)。仮に標準群と比較群との間で同じ質量電荷比におけるピーク値の平均値及び標準偏差が同じであるとすると、上述したスケーリングによって、比較群におけるそのピーク値の平均値は「0」になり、標準偏差は「1」になる。しかしながら、一般には、標準群と比較群との間で同じ質量電荷比におけるピーク値の平均値と標準偏差とは同じではないため、上記スケーリングによって、比較群における各ピークの平均値は「0」でない値となり、標準偏差は「1」でない値となる。
図3(b)は、比較群において質量電荷比M1に現れるピークについてピーク値の平均値及び標準偏差のスケーリングを行った場合の例である。通常、スケーリング係数P、Qはピーク毎に相違するから、異なる質量電荷比におけるピーク値の平均値及び標準偏差は、それぞれ異なるスケーリング係数で以て変換されることになる。
比較群における全てのピーク値の平均値及び標準偏差がスケーリングされたならば、スケーリング後データ表示処理部15は、そのスケーリング後のピーク値の平均値及び標準偏差を用いて、各ピークにおける[平均値]±[標準偏差]の棒グラフを、横軸が質量電荷比軸であるグラフにプロットしたグラフを作成し、これを表示部3の画面上に表示する(ステップS5)。なお、標準群のグラフと比較群のグラフとを別々に作成し、それらを縦方向や横方向に並べて表示してもよいが、それら二つのサンプル群のグラフを異なる表示色で示して重ねて表示するようにしてもよい。
スケーリング後データ表示処理部15により作成されるグラフの横軸は標準的にはマススペクトルと同様の、右方向に向かって質量電荷比が大きくなるような質量電荷比軸とすればよいが、ソート処理部16はその質量電荷比軸上の質量電荷比の順序を入れ替える機能を有する。即ち、分析者が入力部2から所定の操作を行うと、ソート処理部16は、質量電荷比とは無関係に、ピーク値の平均値の大きい順又は小さい順に各ピークにおける[平均値]±[標準偏差]の棒グラフを並べ替える。それによって、表示部3の画面上に表示されているグラフは更新される(ステップS6)。
上述した解析処理による具体的な解析例を、以下に説明する。
この解析例に用いたデータは次のとおりである。
・データの種類:被検者の体表成分(皮脂)を測定したデータ
・データの測定方法:LDI(レーザ脱離イオン化法)用のサンプルプレートに被検者が人差し指を押し付けて皮脂を付着させ、それを島津製作所製のMALDI−TOFMS(マトリクス支援レーザ脱離イオン化飛行時間型質量分析装置)により直接測定してマススペクトルを取得した。
・被検者数:2人(30歳代の女性1人、40歳代の男性1人)
・データ取得期間:10日間
・ピーク数:996個
以下の説明では、女性被検者を識別番号:ID001、男性被検者を識別番号:ID007とし、ID001を標準群とし、ID007を比較群とする。
即ち、上述したように、一つのサンプル群には複数の検体が含まれるが、この解析例では、便宜上、その複数の検体は同じ被検者から異なる日に採取されたものである。
図4は上記データに基づき作成されたピークマトリクスの一部である。質量電荷比が異なる各ピーク(全996ピーク)について、ID001とID007という二つのサンプル群の間で発現に差がある、つまり、ここでは個人差があるピークの探索に、上述した手法を用いるものとする。
まず、標準群標準化処理部13は、各被検者(つまりは各サンプル群)におけるピーク毎に、データ値の平均値及び標準偏差を計算する。ここでは、ID001及びID007における或るピークのデータ値の平均値及び標準偏差をそれぞれ、[av_ID001]、[sigma_ID001]、[av_ID007]、[sigma_ID007]とする。
さらに、標準群であるID001に対する[av_ID001]を0に、[sigma_ID001]を1にスケーリングする。比較群スケーリング処理部14は、その標準群のスケーリングに用いたスケーリング係数を利用して、比較群であるID007における同じ質量電荷比におけるピークの平均値及び標準偏差をスケーリングする。具体的には、ID007に対する[av_ID007]を([av_ID007]−[av_ID001])/[sigma_ID001]に、[sigma_ID007]を[sigma_ID007]/[sigma_ID001]に変換する。
全てのピークについて同様にスケーリングし、そのあと、スケーリング後データ表示処理部14はスケーリング後の平均値、標準偏差を用いて[平均値]±[標準偏差]の棒グラフをピーク数だけ配置したグラフを描く。
図6は上述した本発明に係る解析手法による[平均値]±[標準偏差]表示のグラフであり、図5は同じデータに基づく従来の手法による[平均値]±[標準偏差]表示のグラフである。図5及び図6において、(a)は標準群(ID001)と比較群(ID007)とを異なる表示色で重ねて表示したグラフ、(b)はID001のみを描いたグラフ、(c)はID007のみを描いたグラフである。本来、表示部3の画面上に表示するのは(a)のグラフのみであるが、ここでは参考のために(b)、(c)のグラフも併せて示している。なお、ここいう従来の手法は非特許文献2に記載された手法そのものではなく、本発明に係る解析手法において標準群及び比較群におけるスケーリングを全く行わない手法である。
図5に示したグラフから明らかであるように、従来の手法では縦軸をピーク値そのものとしているため、ID001、ID007共に[平均値]±[標準偏差]を示す棒グラフが縦方向にかなりばらついている。そのため、他方のサンプル群に比べていずれのピークがどの程度存在量や存在量比が大きいのか、を分析者が把握するのは困難である。
これに対し、図6に示したグラフでは、ID001の全てのピークのピーク値の平均値を0、標準偏差を±1に統一しているため、両サンプル群の存在量の差を比較する際の基準が定まっており、異なるピークが比較し易くなっている。例えば、図5(a)、図6(a)中で(X)で示している質量電荷比範囲において、従来の手法(図5(a))ではID001のほうが存在量が極めて多いように見えるが、本発明の手法(図6(a))では他の質量電荷比範囲に比べて特段に存在量の差が大きいというわけでないことが分かる。一方、図5(a)、図6(a)中で(Y)で示している質量電荷比範囲において、従来の手法ではID001とID007との間に差がないように見えるが、本発明の方法では全体的にID007の方が存在量が多いことが分かる。このように本発明の手法によれば、標準群に対する存在量の差が大きい、つまりは標準群に対して存在量が多いピーク(物質)を視覚的に容易に見つけることができる。また、その存在量の差の程度も定量的に把握することができる。
図5、図6は質量電荷比範囲全体のグラフを比較したものであるが、図7は質量電荷比範囲をm/z=250〜350に限定したときのグラフの比較である。図7の(a)は従来方法によるグラフ、(b)は本発明の方法によるグラフである。図7(a)に示すグラフでは、ID001、ID007共に[平均値]±[標準偏差]を示す棒グラフが縦方向にばらついている。また、存在量の多いピークの棒グラフによって他のピークの棒グラフが潰れてしまい、両サンプル群の間で存在量に差があるのか否かを把握しにくい。また、この表示からは、存在量がどの程度ばらついているかの比較も困難である。
これに対し、図7(b)に示すグラフでは、ID001の[平均値]±[標準偏差]を示す棒グラフが標準化されているため、ID001におけるばらつきを1としたときにID001とID007とで発現量の差が何倍くらいあるかが一目で確認できる。例えば、図中に矢印で示したピーク(A)、(B)、(C)は他のピークと比べて存在量の差は小さいが、ID007でのデータのばらつきは小さいことが分かる。また、ピーク(D)はID007でのデータのばらつきは大きいが、存在量の差は充分にあることが分かる。
ここで、本発明の手法の優位性を確認するために、統計的仮説検定の一つであるt検定におけるp値を用いる。一般的にマーカー候補の選択の際には、p値<0.05以下であるピークについて存在量に有意差がある可能性が高いと判断し、マーカー候補として挙げる。ただし、本実施例の場合には、各ピークにおいてt検定を1回ずつ、つまりピークマトリクス全体ではt検定を996回行う。このように仮説検定を複数回行う場合、有意差がないにも拘わらずあると判定してしまう誤判定が起こり易くなるため、有意差があると判定するp値を小さくする補正をする必要がある。p値の補正方法はいくつか知られているが、ここでは、最も一般的な方法であるボンフェローニの補正を採用する。ボンフェローニの補正では、設定した有意水準(ここでは0.05)を実施した検定数で除した値を新たな有意水準とする。したがって、p値<0.00005(0.05を996で除し、有効数字を1桁とした数値)であるならば存在量に有意差があると判断する。
図8(a)、(b)はそれぞれ図7(a)、(b)に示したグラフにおいて、上記t検定において有意差があると判断されたピークの上部又は下部にマーカーとして●をプロットした図である。図7(a)に示した従来方法によるグラフを見ても、図8(a)に示したグラフのような結果を推測するのは困難である。一方、図8(b)を見ると、ピーク(A)、(B)、(C)、(D)は全て有意差ありと判定されている。また他のピークについても、存在量の差やID007におけるデータのばらつきから有意差ありと判断できるピークについては、t検定でも有意差ありと判定されていることが分かる。このことから、本発明の方法によるグラフを用いた視覚的な判断によって、十分に信頼に足る有意差の有無の判断が可能であるということができる。
もちろん、上記のようなt検定の結果、つまりはp値による有意差の有無の判定結果を図8(b)に示したように、グラフ上に重ねて表示するようにしてもよい。
なお、実際には、或るピーク(物質)がマーカーとなり得るかどうかの最終的な判断は、統計的仮説検定の結果だけでなく、多変量解析結果やスペクトル元波形の確認など別の方法も併せて用いることでなされるのが一般的である。
図9はソート処理を加えたときのグラフの一例であり、この図でも図8(b)と同様にt検定の結果によるマーカーを重ねて示している。図9では、スケーリング後のID007のピーク値の平均値の降順で[平均値]±[標準偏差]を示す棒グラフをソートしている。ID001に対する[平均値]±[標準偏差]を示す棒グラフは全て0±1にプロットされており、それを基準としつつID007のピーク値が徐々に小さくなっていき、或る位置よりも右方ではピーク値の大きさがID001とID007とで逆転する様子がみてとれる。このように、いずれのピークがサンプル群間で差があるのかが分かり易くなっている。
このように、ソート処理を行って[平均値]±[標準偏差]を示す棒グラフを並べ替えることにより、より簡便に、定量的及び視覚的にマーカー候補となるピークの探索や絞り込みが可能となる。
なお、上記実施例は本発明の一例にすぎず、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。
例えば上記実施例では、二つのサンプル群のマススペクトルデータを比較していたが、三以上のサンプル群のマススペクトルデータを比較する場合にも本発明を利用することができる。その場合にも、いずれか一つのサンプル群を標準群とし、それ以外のサンプル群に含まれるデータ値を標準群の標準化に利用されたスケーリング係数を用いてスケーリングすればよい。また、LC−MSやGC−MSで得られたデータを解析する場合には、質量電荷比のほかに保持時間(この場合には時間ずれが補正された保持時間が望ましい)が同一であるピークが同じ物質であるとみなせばよい。
また、上記実施例は質量分析装置で得られたマススペクトルデータの解析に本発明を使用したものであるが、そうしたデータのみならず、質量分析装置と組み合わせないLC装置やGC装置で得られたクロマトグラムデータや分光測定装置で得られた吸光スペクトルデータなどの解析にも本発明を使用できることは明らかである。さらにまた、DNAマイクロアレイ解析で得られたデータ(画像を数値化したデータ)の解析にも本発明を使用することができる。
さらにまた、本発明に係るデータ解析装置はより一般的なデータを用いた差異解析にも利用することができる。例えば、農業分野では、時間、温度、湿度、肥料濃度、土壌含水率、日照量といった各種パラメータと特定の作物の収穫量との関係を異なる品種毎にしらべたデータを利用して品種間の差異を解析するようなことがある。また、或る製品を製造する際に、様々な環境条件で製造した複数の製品の耐久性のデータを収集し、製品群の差異を解析することもある。このような複数の群について得られた様々なデータに基づく差異解析にも本発明が有効であることは明らかである。
1…データ処理部
11…スペクトルデータ読み込み部
12…ピークマトリクス作成部
13…標準群標準化処理部
14…比較群スケールリング処理部
15…スケーリング後データ表示処理部
16…ソート処理部
2…入力部
3…表示部

Claims (5)

  1. 各々が複数の検体や試料を含む複数の群について、その複数の群の間で検体や試料における着目している要素の存在や発現の程度の差を要素毎に調べるために、各検体や試料に対して得られているデータを解析するデータ解析装置であって、
    a)標準とする一つの群に含まれる複数の検体や試料に対して各々得られているデータを用い、着目している要素毎に、その要素に対応するデータ値に基づく所定の統計量をそれぞれ所定の値にスケーリングすることにより、その群において着目している要素についてのデータ値に基づく所定の統計量をそれぞれ要素間で揃える標準群標準化処理部と、
    b)前記標準とする一つの群以外の他の群に含まれる複数の検体や試料に対して得られているデータを用い、前記着目している要素毎に、その要素に対応するデータ値に基づく所定の統計量を、前記標準群標準化処理部におけるスケーリングの際に用いられたスケーリング係数を用いてスケーリングする比較群スケーリング実行部と、
    c)前記着目している要素のそれぞれについて前記比較群スケーリング実行部でスケーリングされたあとの所定の統計量を示すグラフを縦方向又は横方向に延伸するように配置し、且つ、異なる要素同士の前記所定の統計量を示すグラフを横方向又は縦方向に並べて描画する表示処理部と、
    を備えることを特徴とするデータ解析装置。
  2. 請求項1に記載のデータ解析装置であって、
    各々が測定対象である複数の検体を含む複数の群について、その複数の群の間で検体に含まれる着目している物質の存在量の差を物質毎に調べるために、各検体に対して質量分析を行うことで得られた質量分析データを解析する質量分析データ解析装置であることを特徴とするデータ解析装置。
  3. 請求項1又は2に記載のデータ解析装置であって、
    前記表示処理部により描画された各物質に対応するグラフの並びを、前記所定の統計量に基づいて入れ替えるソート処理部をさらに備えることを特徴とするデータ解析装置。
  4. 請求項1〜3のいずれか1項に記載のデータ解析装置であって、
    前記所定の統計量は平均値及び標準偏差であることを特徴とするデータ解析装置。
  5. 請求項1〜4のいずれか1項に記載のデータ解析装置であって、
    各要素について統計的仮説検定により標準群に対する有意差があるか否かを判定する検定実行部をさらに備え、
    前記表示処理部は、前記検定実行部による検定結果をグラフ上に重ねて表示することを特徴とするデータ解析装置。
JP2015059502A 2015-03-23 2015-03-23 データ解析装置 Pending JP2016180599A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015059502A JP2016180599A (ja) 2015-03-23 2015-03-23 データ解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015059502A JP2016180599A (ja) 2015-03-23 2015-03-23 データ解析装置

Publications (1)

Publication Number Publication Date
JP2016180599A true JP2016180599A (ja) 2016-10-13

Family

ID=57132667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015059502A Pending JP2016180599A (ja) 2015-03-23 2015-03-23 データ解析装置

Country Status (1)

Country Link
JP (1) JP2016180599A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018169377A (ja) * 2017-03-30 2018-11-01 株式会社島津製作所 クロマトグラフ質量分析方法及び装置
JP2018197662A (ja) * 2017-05-23 2018-12-13 株式会社島津製作所 質量分析データ解析装置及び質量分析データ解析用プログラム
WO2020050774A1 (en) * 2018-09-03 2020-03-12 Scinopharm Taiwan Ltd. Analyzing high dimensional data based on hypothesis testing for assessing the similarity between complex organic molecules using mass spectrometry
CN112597144A (zh) * 2020-12-29 2021-04-02 农业农村部环境保护科研监测所 一种产地环境监测数据的自动化清洗方法
WO2022049811A1 (ja) * 2020-09-02 2022-03-10 株式会社島津製作所 質量分析装置
WO2023157887A1 (ja) * 2022-02-17 2023-08-24 株式会社アイシン 成分評価装置、成分評価方法及びプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018169377A (ja) * 2017-03-30 2018-11-01 株式会社島津製作所 クロマトグラフ質量分析方法及び装置
JP2018197662A (ja) * 2017-05-23 2018-12-13 株式会社島津製作所 質量分析データ解析装置及び質量分析データ解析用プログラム
WO2020050774A1 (en) * 2018-09-03 2020-03-12 Scinopharm Taiwan Ltd. Analyzing high dimensional data based on hypothesis testing for assessing the similarity between complex organic molecules using mass spectrometry
WO2022049811A1 (ja) * 2020-09-02 2022-03-10 株式会社島津製作所 質量分析装置
JPWO2022049811A1 (ja) * 2020-09-02 2022-03-10
JP7347686B2 (ja) 2020-09-02 2023-09-20 株式会社島津製作所 質量分析装置
CN112597144A (zh) * 2020-12-29 2021-04-02 农业农村部环境保护科研监测所 一种产地环境监测数据的自动化清洗方法
CN112597144B (zh) * 2020-12-29 2022-11-08 农业农村部环境保护科研监测所 一种产地环境监测数据的自动化清洗方法
WO2023157887A1 (ja) * 2022-02-17 2023-08-24 株式会社アイシン 成分評価装置、成分評価方法及びプログラム

Similar Documents

Publication Publication Date Title
Broadhurst et al. Guidelines and considerations for the use of system suitability and quality control samples in mass spectrometry assays applied in untargeted clinical metabolomic studies
JP7057913B2 (ja) ビッグデータ解析方法及び該解析方法を利用した質量分析システム
Barbier Saint Hilaire et al. Comparative evaluation of data dependent and data independent acquisition workflows implemented on an orbitrap fusion for untargeted metabolomics
Naz et al. Method validation strategies involved in non-targeted metabolomics
JP2016180599A (ja) データ解析装置
Choi et al. QPROT: Statistical method for testing differential expression using protein-level intensity data in label-free quantitative proteomics
Avula et al. Authentication of true cinnamon (Cinnamon verum) utilising direct analysis in real time (DART)-QToF-MS
US7949475B2 (en) System and method for analyzing metabolomic data
US20160216244A1 (en) Method and electronic nose for comparing odors
JP4951752B2 (ja) 易動度の正規化装置、正規化方法、正規化プログラムおよび自己組織化マップ、並びに、物質の検出方法、検出プログラム、検出ルール生成方法およびデータ構造
US20070032969A1 (en) System, method, and computer program product using a database in a computing system to compile and compare metabolomic data obtained from a plurality of samples
JP2009530648A (ja) サンプル内の個々の要素を識別及び定量化するために分光測定データを分析するシステム、方法及びコンピュータプログラム製品
Colby et al. Optimization and validation of high-resolution mass spectrometry data analysis parameters
JP6132073B2 (ja) 包括的2次元クロマトグラフ用データ処理装置
JP2018169377A (ja) クロマトグラフ質量分析方法及び装置
JP5272822B2 (ja) 代謝物解析用データ処理装置
EP3570020B1 (en) Data analysing device and program for data analysis
JP2016061670A (ja) 時系列データ解析装置及び方法
Fan et al. Fully automatic resolution of untargeted GC-MS data with deep learning assistance
CN112415208A (zh) 一种评价蛋白组学质谱数据质量的方法
JP7255597B2 (ja) データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法
Erny et al. Algorithm for comprehensive analysis of datasets from hyphenated high resolution mass spectrometric techniques using single ion profiles and cluster analysis
JP2016176811A (ja) 分析データ解析装置
CN111474287A (zh) 一种计算机辅助药物分析组成成份的系统及方法
Woldegebriel et al. A new Bayesian approach for estimating the presence of a suspected compound in routine screening analysis