JP2016180599A

JP2016180599A - データ解析装置

Info

Publication number: JP2016180599A
Application number: JP2015059502A
Authority: JP
Inventors: 藤田　雄一郎; Yuichiro Fujita; 雄一郎藤田
Original assignee: Shimadzu Corp
Current assignee: Shimadzu Corp
Priority date: 2015-03-23
Filing date: 2015-03-23
Publication date: 2016-10-13

Abstract

【課題】複数のサンプル群の間における同じ物質の存在量の差を、定量的に且つ視覚的に把握し易く表示する。【解決手段】二つのサンプル群に含まれるマススペクトルデータから群毎にピークマトリクスを作成したあと（Ｓ１、Ｓ２）、一方のサンプル群を標準群とし、該群のピーク毎にピーク値の平均値と標準偏差を算出し、平均値が０、標準偏差が±１になるようにスケーリングする（Ｓ３）。他方のサンプル群においてピーク毎にデータ値の平均値と標準偏差を算出したら、その平均値と標準偏差を標準群の標準化に用いたスケーリング係数でスケーリングする（Ｓ４）。そして、スケーリング後の［平均値］±［標準偏差］を示す棒グラフを、横軸をm/z、縦軸をスケーリング後のピーク値としたグラフに配置する（Ｓ５）。こうして作成及び表示されるグラフでは標準群における［平均値］±［標準偏差］が統一されているので、ピーク間の存在量の差などの比較が容易になり、一方の群に特異的に出現するピークの抽出が容易になる。【選択図】図２

Description

本発明は、質量分析装置で得られたマススペクトルデータ、ガスクロマトグラフ装置や液体クロマトグラフ装置で得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータ、ＤＮＡマイクロアレイ解析で得られたデータなどの、各種の分析装置や測定装置で得られたデータや、より一般的な測定や計測によって収集されたデータ、さらには統計資料や日常的に公開・公表される経済的・社会的な指標を表すデータなど、様々なデータを解析処理するデータ解析装置に関し、さらに詳しくは、複数のサンプル群の間における含有物質や因子などの要素の相違を調べる差異解析を行う際に有用なデータ解析装置に関する。

近年、特定の疾病や疾患の早期診断や治療効果の確認などのために、質量分析法を利用したバイオマーカーの解析の研究が進められ、一部は実用化されつつある。
例えばｎ人の健常者から採取した血液等の生体試料には存在せず、ガンなどの特定の疾患を罹患しているｍ人の患者から採取した同様の生体試料に存在している物質が見つかれば、その物質はその疾患における有力なバイオマーカー候補であるといえる。
なお、「バイオマーカー」とは生体を対象としたものであるが、ここでは測定対象は生体試料とは限らないので、以下の説明では単に「マーカー」という。

図１０は、液体クロマトグラフ質量分析装置（ＬＣ−ＭＳ）により得られた質量分析データを用いた差異解析によるマーカー探索の概念図である（非特許文献１参照）。図１０において、左はｍ人の健常者から成る健常者群に対する質量分析データであり、右はｎ人の患者から成る患者群に対する質量分析データである。２次元的なグラフで示される一つの質量分析データの縦軸は液体クロマトグラフにおける保持時間RT、横軸は質量分析装置における質量電荷比m/zであり、これら両軸に直交する方向、つまりは紙面に直交する方向がイオン強度軸である。この例では、ピークｂ、ｃ、ｄは健常者群、患者群に共通しており、ピークａだけが健常者群には存在せず患者群に存在している。したがって、このピークａに対応する物質がマーカー候補である。

質量分析データに基づいてマーカー候補を探索するには様々な方法があるが、着目している物質の存在量の差を複数のサンプル群の間で定量的に且つ視覚的に調べたい場合には、［平均値］±［標準偏差］のグラフを利用する方法がよく用いられる（非特許文献２参照）。
この方法では例えば、着目している物質Ａについて、健常者群と患者群それぞれにおいて質量分析結果から求まる存在量の平均値及び標準偏差を計算し、これら数値を図１１に示すようなグラフ形式で表示する。図１１では、各群に含まれる複数の検体における物質Ａの存在量の平均値を棒グラフで、標準偏差を「ひげ」で表している。分析者は、健常者群と患者群とのひげの重なり具合などを目視で観察し、存在量に明確な差がある、又は、存在量に差はあるものの測定誤差の範囲内であって有意な差とはみなせない、などと判断する。着目している物質が複数ある場合には、非特許文献２でも示されているように、図１１に示したグラフを例えば横方向に並べて表示すればよい。

マーカー候補を探索するために複数のサンプル群の質量分析データを比較する際に、分析者が知りたい情報は主として次の二つである。
（１）検出されている全ての物質を網羅的に捉え、両サンプル群の間で存在量に有意差があるピークつまりは物質を抽出したい。
（２）或る着目しているピークについての両サンプル群の間での存在量の差が、別のピークと比べてどの程度異なるのか或いは同じ程度であるのか、を確認したい。
マーカー探索においては着目している物質の数がかなり多いのが一般的であるが、そうした場合に、上述した従来の方法で上記のような情報を得ようとすると次のような問題がある。

即ち、上記従来の方法では、着目している物質が複数ある場合に、図１１に示したような［平均値］±［標準偏差］のグラフを物質の数だけ横方向に並べて表示する。一般に、測定対象が生体由来の試料であるような場合には、検体に含まれている物質の種類が非常に多く、マススペクトルに現れるピークの数が数百以上になることもある。そのため、着目している物質の数も非常に多くなり、各サンプル群の［平均値］±［標準偏差］のグラフのセットをそうした数だけ横方向に並べても、非常に煩雑で見づらくなる。

また、検体に含まれる物質毎の絶対的な存在量は大きく異なることがあるから、各物質に対する［平均値］±［標準偏差］のグラフは図１１において縦軸方向に大きく散らばる。特にマススペクトルのピーク値は非常に広いレンジ（数万倍）をとるため、そのピーク値の［平均値］±［標準偏差］のグラフは縦軸方向に非常に大きく散らばることになる。そのため、こうしたグラフに基づいて分析者が異なる物質の間での存在量の差を比較しようとしても、視覚上での比較はかなり困難であり、それを見て分析者が適切な判断を下すことは難しい。

もちろん、上述した問題は質量分析装置で得られたマススペクトルデータを利用した差異解析に限らず、例えば、ガスクロマトグラフ装置や液体クロマトグラフ装置で得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータ、ＤＮＡマイクロアレイ解析で得られたデータなどの、各種分析データに基づくサンプル群間の差異解析においても同様の問題がある。さらにまた、そうした特定の分析装置や測定装置を用いて得られるデータだけでなく、濃度、温度、湿度、時間等の様々なパラメータの変化に応じた物理量や統計量を示すデータを用いてサンプル群間の差異を調べる際にも同様の問題がある。

藤田雄一郎、ほか９名、「Mass++：差異解析のための統計・多変量解析機能」、最先端研究開発支援プロジェクト発表資料、［online］、［平成２７年３月４日検索］、インターネット＜URL： http://www.first-ms3d.jp/files/MSSJ2013/MSSJ13_1P-07_Fujita.pdf＞ミハイル・ボグダノフ（Mikhail Bogdanov）、ほか６名、「メタボロミック・プロファイリング・トゥー・デベロップ・ブラッド・バイオマーカーズ・フォー・パーキンソンズ・ディジーズ（Metabolomic profiling to develop blood biomarkers for Parkinson's diseae）」、ブレイン（Brain）、2008年、Vol. 131、pp.389-396

本発明は上記課題に鑑みて成されたものであり、その主たる目的は、各サンプル群がそれぞれ多数の検体や試料を含み、複数のサンプル群の間で同じ物質の存在量の差や同じ因子による発現量の差などを、多数の物質や因子について網羅的に調べたい場合に、分析者が物質毎の存在量の差や因子毎の発現量の差を定量的に且つ視覚的に把握することが容易であるデータ解析装置を提供することである。

上記課題を解決するために成された本発明は、各々が複数の検体や試料を含む複数の群について、その複数の群の間で検体や試料における着目している要素の存在や発現の程度の差を要素毎に調べるために、各検体や試料に対して得られているデータを解析するデータ解析装置であって、
a)標準とする一つの群に含まれる複数の検体や試料に対して各々得られているデータを用い、着目している要素毎に、その要素に対応するデータ値に基づく所定の統計量をそれぞれ所定の値にスケーリングすることにより、その群において着目している要素についてのデータ値に基づく所定の統計量をそれぞれ要素間で揃える標準群標準化処理部と、
b)前記標準とする一つの群以外の他の群に含まれる複数の検体や試料に対して得られているデータを用い、前記着目している要素毎に、その要素に対応するデータ値に基づく所定の統計量を、前記標準群標準化処理部におけるスケーリングの際に用いられたスケーリング係数を用いてスケーリングする比較群スケーリング実行部と、
c)前記着目している要素のそれぞれについて前記比較群スケーリング実行部でスケーリングされたあとの所定の統計量を示すグラフを縦方向又は横方向に延伸するように配置し、且つ、異なる要素同士の前記所定の統計量を示すグラフを横方向又は縦方向に並べて描画する表示処理部と、
を備えることを特徴としている。

本発明に係るデータ解析装置は例えば、各々が測定対象である複数の検体を含む複数の群について、その複数の群の間で検体に含まれる着目している物質の存在量の差を物質毎に調べるために、各検体に対して質量分析を行うことで得られた質量分析データを解析する質量分析データ解析装置である。この場合、質量分析データとは典型的にはマススペクトルデータである。ここでいうマススペクトルはｎが２以上の整数であるＭＳⁿスペクトルも含む。また、液体クロマトグラフ質量分析装置やガスクロマトグラフ質量分析装置により、保持時間毎に得られたマススペクトルでもよい。
また、上記「データ値に基づく所定の統計量」としては、平均値、最大値、最頻値、標準偏差、標準誤差、第１四分位点（最小値のデータ点から数えて２５％目に相当するデータ点）などのうちの一つ又は複数が考えられるが、典型的には、平均値及び標準偏差を用いるのがよい。

本発明に係るデータ解析装置において、所定の統計量として平均値及び標準偏差を用いる場合、上記標準群標準化処理部は、例えば、データ値の平均値をゼロ、該データ値の標準偏差を１とするようにスケーリングを行うとよいが、それ以外の値にスケーリングしてもかまわない。

また本発明に係るデータ解析装置において、所定の統計量として平均値及び標準偏差を用いる場合、上記表示処理部は、平均値及び標準偏差を示すグラフとして、典型的には［平均値］±［標準偏差］のグラフを用いればよい。また、スケーリングされた平均値、標準偏差のほかに、スケーリングされた最大値、最小値も併せて示すグラフとしてもよい。

本発明に係るデータ解析装置が上述した質量分析データ解析装置であって、質量分析データが一つのマススペクトルデータである場合には、着目している物質に対応するデータ値とは、通常、その物質に対応する質量電荷比値に現れるピークのピーク値である。ただし、着目している物質の種類自体は必ずしも既知である必要はなく、未知であっても構わない。即ち、マススペクトル上で或る質量電荷比にピークが現れるとき、そのピークが着目している物質に対応するピークであるとみなし、そのピーク値に対する所定の統計量、例えば平均値や標準偏差をスケーリングすればよい。

当然のことながら、標準群標準化処理部によるスケーリングが行われると、標準群において、全ての着目している物質等の要素に対応するピークのピーク値の平均値及び標準偏差などはそれぞれ等しくなる。標準群におけるこのスケーリングの際には、要素毎に、例えば平均値を所定の値に変換するためのスケーリング係数と標準偏差を所定の値に変換するためのスケーリング係数とが得られる。比較群スケーリング実行部は、このスケーリング係数を用いて、標準群以外の他の群において、同じ要素に対応するデータ値の平均値及び標準偏差をスケーリングすることで値を変換する。標準群において、もともとピーク値が小さい要素についてはピーク値が大きい要素に比べて、平均値のスケーリング係数は相対的に大きくなるから、比較群スケーリング実行部によるスケーリングの結果、もとのピーク値の相違の影響が小さくなるように各要素の平均値が調整されることになる。標準偏差についても同様である。

表示処理部は、上述したように要素毎に異なるスケーリング係数で以てスケーリングされた平均値及び標準偏差を示すグラフを作成して表示する。着目している要素に対応するデータ値がその要素に対応する質量電荷比値に現れるピークのピーク値である場合には、表示処理部は例えば、群毎に、横軸を質量電荷比値とし、縦方向に各物質の［平均値］±［標準偏差］の棒グラフをとったグラフを作成し表示すればよい。標準群以外の群が複数存在する場合には、その複数の群に対応するグラフを群毎に表示色を変えて重ねて表示するようにしてもよい。また、標準群と他の一つの群に対応するグラフを群毎に表示色を変えて重ねて表示するようにしてもよい。

例えば、健常者を集めた健常者群を標準群とし、特定の疾病を罹患する患者のみを集めた患者群を他の群（比較群）とした場合には、表示処理部により作成及び表示されるグラフでは、各要素つまり物質について、標準群におけるデータに対する比較群における存在量が統一した基準で比較可能となる。即ち、比較群のグラフにおいて各物質に対応するデータ値の平均値及び標準偏差を示す棒グラフが上下方向にあまり散らばらないため、物質間での存在量のばらつきの差異が比較し易い。また、標準群と比較群とでの同じ物質に対する存在量の差やデータのばらつきも定量的に且つ視覚的に把握し易くなる。

本発明に係る質量分析データ解析装置では、好ましくは、前記表示処理部により描画された各要素に対応するグラフの並びを、所定の統計量に基づいて入れ替えるソート処理部をさらに備える構成とするとよい。

この構成によれば、例えばスケーリング後の平均値が大きい順に各物質に対応するグラフを並べ替えて示すことができるから、標準群におけるデータに対する比較群における存在量が多い順に、各物質の存在量のばらつきなどを容易に評価することができるようになる。具体的には、比較群においてスケーリング後の平均値の大きい順、つまりは存在量の多い順にソートを行えば、標準群に対して何倍の存在量があるピーク（物質）がどの程度存在するか、或いは、その際のデータのばらつきは一方を基準にしたときにどの程度であるか、といったことが視覚的に一目で分かるようになる。

また、マーカー候補を探索する場合には、通常、群の間で或る物質の存在量に差があるがどうかについては、その存在量そのものより、データのばらつきがどれくらいか、或いは、データのばらつきを基準としたとき存在量の差がどの程度あるか、といったことのほうが重要視される。特に、健常者群と患者群との間でマーカー探索を行う場合、或る物質の存在量に有意差があるか否かの最終的な判定にはｔ検定などの統計的仮説検定が用いられる。ｔ検定では、健常者検体数と患者検体数とがそれぞれ固定されている場合には、平均値と標準偏差という二つの統計量を重要なパラメータとし、データのばらつきが小さければ小さいほど、またデータのばらつきを基準としたときの存在量の差があればあるほど、小さな値となるｐ値に基づいて有意差の有無が判定される。

そこで、本発明に係る質量分析データ解析装置では、
各要素について統計的仮説検定により標準群に対する有意差があるか否かを判定する検定実行部をさらに備え、
前記表示処理部は、前記検定実行部による検定結果をグラフ上に重ねて表示する構成としてもよい。

ここで、統計的仮説検定としては上述したｔ検定などを用いればよい。また表示処理部は、検定によって有意差があると判断された要素を識別可能なマーカーをグラフ上に重ねて表示すればよい。これによれば、分析者はグラフから単に視覚的な判断を行うだけでなく、統計的仮説検定による定量的な情報もグラフから読み取って、的確にマーカー候補を抽出することができる。

本発明に係るデータ解析装置によれば、例えば、比較したい複数のサンプル群において全ての着目している物質を網羅的に捉えて、存在量に有意な差があるピーク、つまりは物質を定量的に且つ視覚的に容易に探索することができる。また、複数のサンプル群の間で、着目している物質の存在量が他の物質と比べてどの程度差があるのかについても、定量的に且つ視覚的に確認することができる。それによって、例えばマーカー候補として適した物質を容易に抽出することができるようになり、マーカー候補の探索を効率的に行うことができるとともに、その探索の正確性も向上する。

本発明の一実施例である質量分析データ解析装置の概略ブロック構成図。本実施例の質量分析データ解析装置における特徴的な解析処理のフローチャート。本実施例の質量分析データ解析装置における特徴的な解析処理の説明図。一つの群のピークマトリクスの一例を示す図。従来方法による［平均値］±［標準偏差］表示の具体例を示す図。本発明による方法を用いた［平均値］±［標準偏差］表示の具体例を示す図。従来方法と本発明の方法による［平均値］±［標準偏差］表示の具体例を示す図。図７に示した表示にｔ検定結果を加えた例を示す図。平均値の大きい順にソートした結果を示す図。ＬＣ−ＭＳにより得られた質量分析データを用いた差異解析によるマーカー探索の概念図。従来方法による物質の存在量の比較のためのグラフを示す図。

以下、本発明の一実施例である質量分析データ解析装置について、添付図面を参照して説明する。
図１は本実施例の質量分析データ解析装置の概略構成図である。
ここでは、一例として、健常者群と特定の疾患を罹患している患者群との二つのサンプル群を想定し、各サンプル群にそれぞれ含まれる複数の検体に対して質量分析を実行することで得られたマススペクトルデータを処理することで、物質毎の存在量の差を調べるものとする。

本実施例の質量分析データ解析装置は、データ読み込み部１１、ピークマトリクス作成部１２、標準群標準化処理部１３、比較群スケーリング処理部１４、スケーリング後データ表示処理部１５、及び、ソート処理部１６、を機能ブロックとして有するデータ解析部１と、分析者がパラメータを設定したり何らかの指示を行ったりするための入力部２と、解析結果等が表示される表示部３と、を備える。
なお、データ解析部１は例えばパーソナルコンピュータをハードウエア資源とし、該コンピュータにインストールされた専用のデータ処理ソフトウエアを該コンピュータ上で実行することにより、上記各機能ブロックが具現化される構成とすることができる。

図２に示すフローチャートを参照して、本実施例の質量分析データ解析装置における特徴的な解析動作を説明する。
データ読み込み部１１は入力部２からの指示に応じて、図示しないデータ記憶部から処理対象である二つのサンプル群、即ち標準群と比較群それぞれについてマススペクトルデータを読み込む（ステップＳ１）。なお、ここでいうマススペクトルデータはセントロイド処理されていないプロファイルデータである。

ピークマトリクス作成部１２は、読み込まれたマススペクトルデータ毎に、各マススペクトルに現れるピークを所定のピーク検出アルゴリズムに従って検出し、ピーク位置（質量電荷比値）とピーク強度（ピーク値）とを求める。そして、マススペクトル毎に、ピーク位置Ｍpとピーク強度Ｉpとの組（Ｍp，Ｉp）（ただし、ｐ＝１，２，…）を多数集めたピークリストを作成する。さらにピークマトリクス作成部１２は、サンプル群毎に、そのサンプル群に含まれる全ての検体に対するピークリストを用いてピークマトリクスを作成する。あとで詳述するが、図４はピークマトリクスの一例である。図４の例では、横方向にピーク位置つまりは質量電荷比値が、縦方向に異なる検体（この例では同一被検者からそれぞれ異なる日に採取された検体）が配置され、各欄中に示されている数値がピーク強度となっている。こうしたピークマトリクスを標準群と比較群とでそれぞれ作成する（ステップＳ２）。

なお、ピークマトリクスの横軸と縦軸と上述したように定めているため、ピークマトリクスの或る欄に配置すべきピーク強度値が存在しないことは当然起こり得る。そのときには該位置の要素はゼロとするか、或いは、何らかの適切な値で補間すればよい。

次に、標準群標準化処理部１３は、標準群に対するピークマトリクスにおいて、同じ質量電荷比であるピーク毎に、つまりは図４に示したピークマトリクスの縦１列のピーク値毎に、その平均値及び標準偏差を計算する。そうして計算された平均値及び標準偏差を［平均値］±［標準偏差］の棒グラフで横軸が質量電荷比軸であるグラフに示すと、図３（ａ）左に示すようになる。一般的に、マススペクトルにおける一つのピークは一つの物質に対応しているから、物質の絶対的な存在量の相違によって、図３（ａ）左に示すように、異なる質量電荷比Ｍ1、Ｍ2、Ｍ3における［平均値］±［標準偏差］の棒グラフの縦軸上での位置は縦方向にずれたものとなる。

そのあと標準群標準化処理部１３は、ピーク毎に、つまりは質量電荷比値毎又は物質毎に、標準群におけるピーク値の平均値を「０」、標準偏差を「±１」とするようにスケーリングを行う。図３（ａ）右は図３（ａ）左に示した各ピーク値の平均値及び標準偏差をスケーリングした結果のグラフである。当然のことながら、上記のようなスケーリングを行うと、図３（ａ）右に示したように、異なる質量電荷比Ｍ1、Ｍ2、Ｍ3における［平均値］±［標準偏差］の棒グラフの縦軸上での位置が揃う。つまり、標準化される。このとき、この平均値、標準偏差のほか、スケーリング前のピーク値の平均値に乗じるスケーリング係数Ｐと、スケーリング前の標準偏差に乗じるスケーリング係数Ｑとを、ピーク毎に取得して記憶しておく（ステップＳ３）。

比較群スケーリング処理部１４は、比較群に対するピークマトリクスにおいて、比較対象である比較群における各ピークのピーク値の平均値及び標準偏差を求める。そして、それぞれ同じ質量電荷比のピークについて標準群において取得されたスケーリング係数Ｐ、Ｑを乗じることによって、比較群における各ピークのピーク値の平均値及び標準偏差のスケーリングを行う（ステップＳ４）。仮に標準群と比較群との間で同じ質量電荷比におけるピーク値の平均値及び標準偏差が同じであるとすると、上述したスケーリングによって、比較群におけるそのピーク値の平均値は「０」になり、標準偏差は「１」になる。しかしながら、一般には、標準群と比較群との間で同じ質量電荷比におけるピーク値の平均値と標準偏差とは同じではないため、上記スケーリングによって、比較群における各ピークの平均値は「０」でない値となり、標準偏差は「１」でない値となる。

図３（ｂ）は、比較群において質量電荷比Ｍ1に現れるピークについてピーク値の平均値及び標準偏差のスケーリングを行った場合の例である。通常、スケーリング係数Ｐ、Ｑはピーク毎に相違するから、異なる質量電荷比におけるピーク値の平均値及び標準偏差は、それぞれ異なるスケーリング係数で以て変換されることになる。

比較群における全てのピーク値の平均値及び標準偏差がスケーリングされたならば、スケーリング後データ表示処理部１５は、そのスケーリング後のピーク値の平均値及び標準偏差を用いて、各ピークにおける［平均値］±［標準偏差］の棒グラフを、横軸が質量電荷比軸であるグラフにプロットしたグラフを作成し、これを表示部３の画面上に表示する（ステップＳ５）。なお、標準群のグラフと比較群のグラフとを別々に作成し、それらを縦方向や横方向に並べて表示してもよいが、それら二つのサンプル群のグラフを異なる表示色で示して重ねて表示するようにしてもよい。

スケーリング後データ表示処理部１５により作成されるグラフの横軸は標準的にはマススペクトルと同様の、右方向に向かって質量電荷比が大きくなるような質量電荷比軸とすればよいが、ソート処理部１６はその質量電荷比軸上の質量電荷比の順序を入れ替える機能を有する。即ち、分析者が入力部２から所定の操作を行うと、ソート処理部１６は、質量電荷比とは無関係に、ピーク値の平均値の大きい順又は小さい順に各ピークにおける［平均値］±［標準偏差］の棒グラフを並べ替える。それによって、表示部３の画面上に表示されているグラフは更新される（ステップＳ６）。

上述した解析処理による具体的な解析例を、以下に説明する。
この解析例に用いたデータは次のとおりである。
・データの種類：被検者の体表成分（皮脂）を測定したデータ
・データの測定方法：ＬＤＩ（レーザ脱離イオン化法）用のサンプルプレートに被検者が人差し指を押し付けて皮脂を付着させ、それを島津製作所製のＭＡＬＤＩ−ＴＯＦＭＳ（マトリクス支援レーザ脱離イオン化飛行時間型質量分析装置）により直接測定してマススペクトルを取得した。
・被検者数：２人（30歳代の女性１人、40歳代の男性１人）
・データ取得期間：10日間
・ピーク数：996個
以下の説明では、女性被検者を識別番号：ID001、男性被検者を識別番号：ID007とし、ID001を標準群とし、ID007を比較群とする。
即ち、上述したように、一つのサンプル群には複数の検体が含まれるが、この解析例では、便宜上、その複数の検体は同じ被検者から異なる日に採取されたものである。

図４は上記データに基づき作成されたピークマトリクスの一部である。質量電荷比が異なる各ピーク（全996ピーク）について、ID001とID007という二つのサンプル群の間で発現に差がある、つまり、ここでは個人差があるピークの探索に、上述した手法を用いるものとする。

まず、標準群標準化処理部１３は、各被検者（つまりは各サンプル群）におけるピーク毎に、データ値の平均値及び標準偏差を計算する。ここでは、ID001及びID007における或るピークのデータ値の平均値及び標準偏差をそれぞれ、[av_ID001]、[sigma_ID001]、[av_ID007]、[sigma_ID007]とする。
さらに、標準群であるID001に対する[av_ID001]を０に、[sigma_ID001]を１にスケーリングする。比較群スケーリング処理部１４は、その標準群のスケーリングに用いたスケーリング係数を利用して、比較群であるID007における同じ質量電荷比におけるピークの平均値及び標準偏差をスケーリングする。具体的には、ID007に対する[av_ID007]を（[av_ID007]−[av_ID001]）／[sigma_ID001]に、[sigma_ID007]を[sigma_ID007]／[sigma_ID001]に変換する。

全てのピークについて同様にスケーリングし、そのあと、スケーリング後データ表示処理部１４はスケーリング後の平均値、標準偏差を用いて［平均値］±［標準偏差］の棒グラフをピーク数だけ配置したグラフを描く。

図６は上述した本発明に係る解析手法による［平均値］±［標準偏差］表示のグラフであり、図５は同じデータに基づく従来の手法による［平均値］±［標準偏差］表示のグラフである。図５及び図６において、（ａ）は標準群（ID001）と比較群（ID007）とを異なる表示色で重ねて表示したグラフ、（ｂ）はID001のみを描いたグラフ、（ｃ）はID007のみを描いたグラフである。本来、表示部３の画面上に表示するのは（ａ）のグラフのみであるが、ここでは参考のために（ｂ）、（ｃ）のグラフも併せて示している。なお、ここいう従来の手法は非特許文献２に記載された手法そのものではなく、本発明に係る解析手法において標準群及び比較群におけるスケーリングを全く行わない手法である。

図５に示したグラフから明らかであるように、従来の手法では縦軸をピーク値そのものとしているため、ID001、ID007共に［平均値］±［標準偏差］を示す棒グラフが縦方向にかなりばらついている。そのため、他方のサンプル群に比べていずれのピークがどの程度存在量や存在量比が大きいのか、を分析者が把握するのは困難である。

これに対し、図６に示したグラフでは、ID001の全てのピークのピーク値の平均値を０、標準偏差を±１に統一しているため、両サンプル群の存在量の差を比較する際の基準が定まっており、異なるピークが比較し易くなっている。例えば、図５（ａ）、図６（ａ）中で（Ｘ）で示している質量電荷比範囲において、従来の手法（図５（ａ））ではID001のほうが存在量が極めて多いように見えるが、本発明の手法（図６（ａ））では他の質量電荷比範囲に比べて特段に存在量の差が大きいというわけでないことが分かる。一方、図５（ａ）、図６（ａ）中で（Ｙ）で示している質量電荷比範囲において、従来の手法ではID001とID007との間に差がないように見えるが、本発明の方法では全体的にID007の方が存在量が多いことが分かる。このように本発明の手法によれば、標準群に対する存在量の差が大きい、つまりは標準群に対して存在量が多いピーク（物質）を視覚的に容易に見つけることができる。また、その存在量の差の程度も定量的に把握することができる。

図５、図６は質量電荷比範囲全体のグラフを比較したものであるが、図７は質量電荷比範囲をm/z＝250〜350に限定したときのグラフの比較である。図７の（ａ）は従来方法によるグラフ、（ｂ）は本発明の方法によるグラフである。図７（ａ）に示すグラフでは、ID001、ID007共に［平均値］±［標準偏差］を示す棒グラフが縦方向にばらついている。また、存在量の多いピークの棒グラフによって他のピークの棒グラフが潰れてしまい、両サンプル群の間で存在量に差があるのか否かを把握しにくい。また、この表示からは、存在量がどの程度ばらついているかの比較も困難である。

これに対し、図７（ｂ）に示すグラフでは、ID001の［平均値］±［標準偏差］を示す棒グラフが標準化されているため、ID001におけるばらつきを１としたときにID001とID007とで発現量の差が何倍くらいあるかが一目で確認できる。例えば、図中に矢印で示したピーク(A)、(B)、(C)は他のピークと比べて存在量の差は小さいが、ID007でのデータのばらつきは小さいことが分かる。また、ピーク(D)はID007でのデータのばらつきは大きいが、存在量の差は充分にあることが分かる。

ここで、本発明の手法の優位性を確認するために、統計的仮説検定の一つであるｔ検定におけるｐ値を用いる。一般的にマーカー候補の選択の際には、ｐ値＜0.05以下であるピークについて存在量に有意差がある可能性が高いと判断し、マーカー候補として挙げる。ただし、本実施例の場合には、各ピークにおいてｔ検定を１回ずつ、つまりピークマトリクス全体ではｔ検定を996回行う。このように仮説検定を複数回行う場合、有意差がないにも拘わらずあると判定してしまう誤判定が起こり易くなるため、有意差があると判定するｐ値を小さくする補正をする必要がある。ｐ値の補正方法はいくつか知られているが、ここでは、最も一般的な方法であるボンフェローニの補正を採用する。ボンフェローニの補正では、設定した有意水準（ここでは0.05）を実施した検定数で除した値を新たな有意水準とする。したがって、ｐ値＜0.00005（0.05を996で除し、有効数字を１桁とした数値）であるならば存在量に有意差があると判断する。

図８（ａ）、（ｂ）はそれぞれ図７（ａ）、（ｂ）に示したグラフにおいて、上記ｔ検定において有意差があると判断されたピークの上部又は下部にマーカーとして●をプロットした図である。図７（ａ）に示した従来方法によるグラフを見ても、図８（ａ）に示したグラフのような結果を推測するのは困難である。一方、図８（ｂ）を見ると、ピーク(A)、(B)、(C)、(D)は全て有意差ありと判定されている。また他のピークについても、存在量の差やID007におけるデータのばらつきから有意差ありと判断できるピークについては、ｔ検定でも有意差ありと判定されていることが分かる。このことから、本発明の方法によるグラフを用いた視覚的な判断によって、十分に信頼に足る有意差の有無の判断が可能であるということができる。

もちろん、上記のようなｔ検定の結果、つまりはｐ値による有意差の有無の判定結果を図８（ｂ）に示したように、グラフ上に重ねて表示するようにしてもよい。
なお、実際には、或るピーク（物質）がマーカーとなり得るかどうかの最終的な判断は、統計的仮説検定の結果だけでなく、多変量解析結果やスペクトル元波形の確認など別の方法も併せて用いることでなされるのが一般的である。

図９はソート処理を加えたときのグラフの一例であり、この図でも図８（ｂ）と同様にｔ検定の結果によるマーカーを重ねて示している。図９では、スケーリング後のID007のピーク値の平均値の降順で［平均値］±［標準偏差］を示す棒グラフをソートしている。ID001に対する［平均値］±［標準偏差］を示す棒グラフは全て０±１にプロットされており、それを基準としつつID007のピーク値が徐々に小さくなっていき、或る位置よりも右方ではピーク値の大きさがID001とID007とで逆転する様子がみてとれる。このように、いずれのピークがサンプル群間で差があるのかが分かり易くなっている。
このように、ソート処理を行って［平均値］±［標準偏差］を示す棒グラフを並べ替えることにより、より簡便に、定量的及び視覚的にマーカー候補となるピークの探索や絞り込みが可能となる。

なお、上記実施例は本発明の一例にすぎず、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。

例えば上記実施例では、二つのサンプル群のマススペクトルデータを比較していたが、三以上のサンプル群のマススペクトルデータを比較する場合にも本発明を利用することができる。その場合にも、いずれか一つのサンプル群を標準群とし、それ以外のサンプル群に含まれるデータ値を標準群の標準化に利用されたスケーリング係数を用いてスケーリングすればよい。また、ＬＣ−ＭＳやＧＣ−ＭＳで得られたデータを解析する場合には、質量電荷比のほかに保持時間（この場合には時間ずれが補正された保持時間が望ましい）が同一であるピークが同じ物質であるとみなせばよい。

また、上記実施例は質量分析装置で得られたマススペクトルデータの解析に本発明を使用したものであるが、そうしたデータのみならず、質量分析装置と組み合わせないＬＣ装置やＧＣ装置で得られたクロマトグラムデータや分光測定装置で得られた吸光スペクトルデータなどの解析にも本発明を使用できることは明らかである。さらにまた、ＤＮＡマイクロアレイ解析で得られたデータ（画像を数値化したデータ）の解析にも本発明を使用することができる。

さらにまた、本発明に係るデータ解析装置はより一般的なデータを用いた差異解析にも利用することができる。例えば、農業分野では、時間、温度、湿度、肥料濃度、土壌含水率、日照量といった各種パラメータと特定の作物の収穫量との関係を異なる品種毎にしらべたデータを利用して品種間の差異を解析するようなことがある。また、或る製品を製造する際に、様々な環境条件で製造した複数の製品の耐久性のデータを収集し、製品群の差異を解析することもある。このような複数の群について得られた様々なデータに基づく差異解析にも本発明が有効であることは明らかである。

１…データ処理部
１１…スペクトルデータ読み込み部
１２…ピークマトリクス作成部
１３…標準群標準化処理部
１４…比較群スケールリング処理部
１５…スケーリング後データ表示処理部
１６…ソート処理部
２…入力部
３…表示部

Claims

各々が複数の検体や試料を含む複数の群について、その複数の群の間で検体や試料における着目している要素の存在や発現の程度の差を要素毎に調べるために、各検体や試料に対して得られているデータを解析するデータ解析装置であって、
a)標準とする一つの群に含まれる複数の検体や試料に対して各々得られているデータを用い、着目している要素毎に、その要素に対応するデータ値に基づく所定の統計量をそれぞれ所定の値にスケーリングすることにより、その群において着目している要素についてのデータ値に基づく所定の統計量をそれぞれ要素間で揃える標準群標準化処理部と、
b)前記標準とする一つの群以外の他の群に含まれる複数の検体や試料に対して得られているデータを用い、前記着目している要素毎に、その要素に対応するデータ値に基づく所定の統計量を、前記標準群標準化処理部におけるスケーリングの際に用いられたスケーリング係数を用いてスケーリングする比較群スケーリング実行部と、
c)前記着目している要素のそれぞれについて前記比較群スケーリング実行部でスケーリングされたあとの所定の統計量を示すグラフを縦方向又は横方向に延伸するように配置し、且つ、異なる要素同士の前記所定の統計量を示すグラフを横方向又は縦方向に並べて描画する表示処理部と、
を備えることを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
各々が測定対象である複数の検体を含む複数の群について、その複数の群の間で検体に含まれる着目している物質の存在量の差を物質毎に調べるために、各検体に対して質量分析を行うことで得られた質量分析データを解析する質量分析データ解析装置であることを特徴とするデータ解析装置。
請求項１又は２に記載のデータ解析装置であって、
前記表示処理部により描画された各物質に対応するグラフの並びを、前記所定の統計量に基づいて入れ替えるソート処理部をさらに備えることを特徴とするデータ解析装置。
請求項１〜３のいずれか１項に記載のデータ解析装置であって、
前記所定の統計量は平均値及び標準偏差であることを特徴とするデータ解析装置。
請求項１〜４のいずれか１項に記載のデータ解析装置であって、
各要素について統計的仮説検定により標準群に対する有意差があるか否かを判定する検定実行部をさらに備え、
前記表示処理部は、前記検定実行部による検定結果をグラフ上に重ねて表示することを特徴とするデータ解析装置。