JP2016176811A

JP2016176811A - 分析データ解析装置

Info

Publication number: JP2016176811A
Application number: JP2015057156A
Authority: JP
Inventors: 藤田　雄一郎; Yuichiro Fujita; 雄一郎藤田; 梶原　茂樹; Shigeki Kajiwara; 茂樹梶原
Original assignee: Shimadzu Corp
Current assignee: Shimadzu Corp
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2016-10-06

Abstract

【課題】判別分析を利用して二つのサンプル群を区別するマーカーを探索する際に、信頼性を向上させる。【解決手段】複数のサンプル群に属する各試料のマススペクトルデータからピークマトリクスを作成し（Ｓ１、Ｓ２）、そのピークマトリクスに対しPLS-DAを実行してピーク毎のローディング値を算出するＳ３。また、ピークマトリクスから、サンプル群毎に、各ピークのピーク値の平均値及び標準偏差を求めCV値を計算しＳ４、ピーク毎に、ローディング値を該ピークにおけるサンプル群毎のCV値の積で除することにより、ローディング修正値を求めるＳ５。同じm/z値におけるピーク値のばらつきが大きい場合や特定の試料のみで極端にピーク値が大きい場合にはCV値が小さくなるため、ローディング値が大きくても修正値は小さくなるので、各ピークのローディング修正値に基づくことで、信頼性の高いマーカーの探索が可能となる。【選択図】図２

Description

本発明は、質量分析装置で得られたマススペクトルデータ、ガスクロマトグラフ装置や液体クロマトグラフ装置で得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータ、ＤＮＡマイクロアレイ解析で得られたデータなどの、各種分析データを解析処理する分析データ解析装置に関し、さらに詳しくは、複数のサンプル群の間での含有物質の相違などを調べる差異解析を行う際に有用な分析データ解析装置に関する。

近年、特定の疾病や疾患の早期診断や治療効果の確認などのために、質量分析法を利用したバイオマーカーの解析の研究が進められ、一部は実用に供されている。
例えばｍ人の健常者から採取した血液等の生体試料には全く又は殆ど存在せず、ガンなどの疾患を罹患しているｎ人の患者から採取した同様の生体試料に明確に存在している物質が見つかれば、その物質はその疾患における有力なバイオマーカー候補であるといえる。なお、「バイオマーカー」とは生体を対象としたものであるが、ここでは測定対象は生体試料とは限らないので、以下の説明では単に「マーカー」という。

図１４は、液体クロマトグラフ質量分析装置（ＬＣ−ＭＳ）により得られた質量分析データを用いた差異解析によるマーカー探索の概念図である（非特許文献１参照）。図１４において、左はｍ人の健常者から成る健常者群に対する質量分析データであり、右はｎ人の患者から成る患者群に対する質量分析データである。２次元的なグラフで示される一つの質量分析データの縦軸は保持時間RT、横軸は質量電荷比m/zであり、これら両軸に直交する方向、つまりは紙面に直交する方向がイオン強度軸である。この例では、ピークｂ、ｃ、ｄは健常者群、患者群に共通しており、ピークａだけが健常者群には存在せず患者群に存在している。したがって、このピークａに対応する物質がマーカー候補である。

質量分析データに基づいてマーカーを探索する際に、次のような条件を満たす物質は優れたマーカーであるといえる。
＜条件１＞マススペクトル上でのピーク値の再現性が高い。
何故なら、これは、その物質が試料（検体）の個体差に依らず或る程度同じような存在量がある物質である、又は、測定方法や使用する装置に依存せずにばらつきの少ない測定値が得られる物質である、ことを意味するからである。
＜条件２＞マススペクトル上でのピークのデータ値（ピーク値）が大きい。
何故なら、これは、少なくとも一方のサンプル群において或る程度以上の存在量があれば各種装置による検出が比較的容易である、からである。
こうしたことから、マススペクトルにおいて或るピークのピーク値が大きければ大きいほど、またそのピーク値の再現性が高ければ高いほど、そのピークに対応する物質は優れたマーカーであるということができる。

特に生体由来の試料では、質量分析を行うことで得られるマススペクトルには非常に多くの数のピークが現れる。そのため、複数のサンプル群の間でマススペクトル同士を比較する際に、比較すべきピークの数は非常に多いのに対し、マーカー候補であるピークの数は少数である。このように膨大な数のピークの中からサンプル群間で存在量に有意な差があるマーカー候補のピークを探索するには様々な方法があるが、広く用いられている方法として、多変量解析の一つである判別分析におけるローディングプロットを利用する方法がある。

判別分析におけるローディングプロットを利用するマーカー探索方法を簡単に説明する。
まず、与えられた全ての試料に対するマススペクトルデータに基づいてピークマトリクスを作成する。即ち、マススペクトル毎にピーク検出を行ってピーク情報（質量電荷比、ピーク値）を収集し、そのピーク情報に基づいて、試料毎に質量電荷比値とピーク値との関係を示すピークマトリクスを作成する。図１４に示したようなＬＣ−ＭＳにより収集されたデータに基づいて作成されるピークマトリクスの一例を図１５に示す。

ＬＣ−ＭＳでは、保持時間RT毎にマススペクトルが得られるから、図１５に示すように、保持時間RTと質量電荷比m/z値との組毎にピーク値が示される。このピークマトリクスでは、縦方向の一列は、或る保持時間で且つ或る質量電荷比値における各試料に対するピーク値を示しており、横方向の一行は、或る一つの試料に対する保持時間と質量電荷比値との各組におけるピーク値を示している。例えば、保持時間RT＝18.21、質量電荷比m/z＝447.2746において、「sample1」という試料のピーク値は7200736であり、「sample2」という試料のピーク値は6136016である。このピークマトリクスは与えられた全ての試料に対するマススペクトルに現れるピークを網羅している。

こうしたピークマトリクスに対して判別分析の一つであるＰＬＳ−ＤＡ（Partial Least Squares Discriminant Analysis）を実施する。よく知られているように、ＰＬＳ−ＤＡでは２次元マップとしてスコアプロットとローディングプロットを得ることができる（非特許文献２など参照）。スコアプロットでは一つの点が一つの試料を示しており、類似した特徴を有する試料をグループ分けすることができる。一方、ローディングプロットでは、一つの点が一つのピーク（ＬＣ−ＭＳの場合には一つの保持時間と一つの質量電荷比値との組におけるピーク）を示しており、試料のグループ分けに寄与するピークの情報が得られる。

ローディングプロットでは、通常、サンプル群間で存在量に有意な差がある物質（ここでは一つのピークに相当）を示す点は第１軸（横軸）上で絶対値が大きい領域にプロットされる。この第１軸のローディング値の絶対値が大きければ大きいほど、サンプル群の区別に寄与しているピークであるといえる。ローディングプロットの縦軸には一般にはローディング値の第２軸をとるが、ここではそれは重要でないので説明を省略する。同じ理由により、以下、単にローディングやローディング値と記した場合には、それぞれローディングの第１軸及びその第１軸上の値を指すものとする。
基本的には、マススペクトルに出現する全てのピークをローディングプロット上にプロットするため、ローディングプロットに基づいて分析者は、或るピークがその他のピークに比べてどの程度、サンプル群の区別に寄与しているかを視覚的に把握することができ、その結果からマーカー候補を抽出することができる。

しかしながら、本発明者らの検討によれば、例えば健常者群とガン患者群などの二つのサンプル群の間で、非常に多くのピークからごく少数のマーカー候補を探索しようとした場合に、上述した従来の方法では次のような二つの問題があることが判明した。
＜問題１＞ローディングプロット上でローディングの絶対値が大きい場合であっても、そのプロット点に対応するピークが二つのサンプル群の間で発現に差があるとは限らないことがある。
＜問題２＞マススペクトルにおいてピーク値の再現性が高いものであっても、ピーク値自体が小さい場合には、ローディングを利用したマーカーの探索が困難である場合がある。

藤田雄一郎、ほか９名、「Mass++：差異解析のための統計・多変量解析機能」、最先端研究開発支援プロジェクト発表資料、［online］、［平成２７年３月４日検索］、インターネット＜URL： http://www.first-ms3d.jp/files/MSSJ2013/MSSJ13_1P-07_Fujita.pdf＞「Metabolomics Fiehn Lab OPLS vs PLSDA VS PLS」、［online］、［平成２７年３月１１日検索］、インターネット＜URL：http://fiehnlab.ucdavis.edu/staff/kind/Statistics/Concepts/OPLS-PLSDA＞「多変量解析ソフトウェア SIMCA」、インフォコム株式会社、［online］、［平成２７年３月１１日検索］、インターネット＜URL：http://infocom-science.jp/product/detail/simca.html＞

上記のような問題のために、従来方法では、ローディング値を利用してマーカー候補を探索しようとしても、適切でないピーク（物質）がマーカー候補に挙がってしまったり逆にマーカーとして適したピーク（物質）がマーカー候補から漏れてしまったりすることがしばしば起こる。即ち、マーカー候補の探索の正確性が十分に上がらないという問題がある。

また、質量分析装置で得られたマススペクトルデータのみならず、例えば、ガスクロマトグラフ装置や液体クロマトグラフ装置で得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータなどに基づいて、サンプル群間で存在量に有意な差があるマーカー候補のピークを探索したり、或いは、ＤＮＡマイクロアレイ解析で得られたデータに基づいて、サンプル群間で発現量に有意な差がある遺伝子を探索したりする際にも同様の問題がある。

本発明はこうした課題を解決するために成されたものであり、その主たる目的は、複数のサンプル群の間で存在量に有意な差がありマーカーとして好適であるような物質を精度良く探索することができる分析データ解析装置を提供することである。

本発明者は、処理対象であるデータと判別分析結果との関係を詳細に解析し、少なくとも次の二つのケースで、ＰＬＳ−ＤＡなどの判別分析において、或るピークがグループの区別に寄与していると過大に評価されてしまい、その結果、ローディングの絶対値が大きく算出されてしまうことを見いだした。
（ｉ）特定の試料におけるピーク値が他の試料に比べて非常に大きい値となっている場合。
（ii）試料全体としては或る程度の大きさのピーク値であるものの、そのピーク値のばらつきが非常に大きい場合。
即ち、上記の二つのケースにおいて、上記＜問題１＞、つまりは、二つのサンプル群の間でピークの発現に差があまりないにも拘わらず、そのピークに対するローディングの絶対値が大きくなってしまうという問題が生じるといえる。

一方、一般に、或るピークのピーク値がそれほど大きくなくても、二つのサンプル群の間で存在量に明確な差があり、両サンプル群においてそのピークの再現性が高ければ、それは信頼性の高いマーカー候補であると考えることができる。しかしながら、判別分析を含む多変量解析においては、そもそもピーク値が小さければ計算されるローディング値は小さくなり、ピーク値が或る程度大きな別のピークに埋もれてしまうということが起こり得る。そのため、ローディングプロットを描いたときに、本来はマーカーとして好適であるピークがそうでない別のピークに埋もれてしまい、マーカーの探索が困難になる。これが上述した＜問題２＞の主たる原因である。

上述した（ｉ）、（ii）のようなケースではいずれも、ピーク値の再現性は低いものと考えられる。そこで、本発明者は、単なるローディング値をマーカーの探索に用いるのではなく、そのローディング値を算出するためのピーク値の再現性を表す統計量を導入することに想到した。そして、ピーク値の再現性を表す統計量でローディング値を除することで得たローディングの修正値を利用することによって、従来の方法ではマーカー候補として誤って挙げられていたピークをマーカー候補から排除するとともに、同じく従来の方法ではマーカー候補から漏れていたマーカーとして適したピークをマーカー候補に加えることが可能であることを確認した。即ち、上記＜問題１＞を解決できるのみならず、＜問題２＞も併せて解決できることを確認した。

即ち、上記課題を解決するために成された本発明は、各々が測定対象である複数の試料を含む複数の群について、その複数の群の間で試料に含まれる存在量や試料による発現量に有意な差がある要素を探索するために、各試料に対して所定の分析を行うことで得られた分析データを解析する分析データ解析装置であって、
a)与えられた各群の各試料に対する分析データからそれぞれピークを検出し、試料毎にピークが得られるパラメータとピーク値とを含むピーク情報を収集するピーク情報収集部と、
b)前記ピーク情報収集部により収集された全ての試料に対するピーク情報に対し判別分析による多変量解析を行って、ピーク毎のローディング値を計算する判別分析実行部と、
c)各ピークについて各群におけるピーク値の再現性を表す統計量を計算する再現性統計量計算部と、
d)ピーク毎に、前記判別分析実行部で得られたローディング値を前記再現性統計量計算部で得られた各群における再現性統計量の積で除することで、該ローディング値を修正したローディング修正値を計算するローディング修正値算出部と、
e)前記ローディング修正値算出部で得られた各ピークに対するローディング修正値を反映したグラフを作成して表示する表示処理部と、
を備えることを特徴としている。

例えば分析データが質量分析装置で得られたマススペクトルデータである場合には、上記「ピークが得られるパラメータ」とは質量電荷比である。また分析データがガスクロマトグラフ装置や液体クロマトグラフ装置で得られたクロマトグラムデータである場合には、上記「ピークが得られるパラメータ」とは保持時間である。また分析データが分光測定装置で得られた吸光スペクトルデータである場合には、上記「ピークが得られるパラメータ」とは波長又は波数である。さらに、分析データがＤＮＡマイクロアレイ解析で得られたデータである場合には、上記「ピークが得られるパラメータ」とは遺伝子の種類である。

本発明に係る分析データ解析装置において、上記再現性統計量としては例えば変動係数（ＣＶ＝Coefficient of Variation）を用いることができる。変動係数とは、そのデータの標準偏差（つまりは「ばらつき」の指標）を平均値で除した統計量であり、再現性の評価を行う場合に最もよく用いられる統計量の一つである。変動係数がどの程度の値であれば再現性がある、と判断するかは目的によって異なるが、変動係数が0.2以下であれば再現性が高いとすることが多い。また、再現性統計量としては標準偏差そのものを利用することもできる。

また本発明に係る分析データ解析装置において、判別分析としては典型的にはＰＬＳ−ＤＡを利用するのが好ましいが、それ以外の解析法、例えばＰＬＳ−ＤＡの改良版であるＯＰＬＳ−ＤＡやＯ２ＬＳ−ＤＡ（非特許文献３参照）などを用いてもよい。

本発明に係る分析データ解析装置では、例えば二つのサンプル群の間で試料に含まれる存在量に有意な差がある物質をマーカーとして探索するために、各試料に対して例えば質量分析を行うことで得られたマススペクトルデータが与えられる。このデータはＬＣ−ＭＳやＧＣ−ＭＳにおいて保持時間毎に得られたマススペクトルデータでもよいし、或いはＭＳⁿ分析が可能である質量分析装置により得られたＭＳⁿスペクトルデータでもよい。
ピーク情報収集部は、全てのマススペクトルデータについてピーク検出処理を行い、試料毎の質量電荷比値とピーク値とを少なくとも含むピーク情報を収集する。ＬＣ−ＭＳやＧＣ−ＭＳにより得られたデータであれば、ピーク情報にはさらに保持時間が加わる。

判別分析実行部は、上記ピーク情報を例えばマトリクス形式に整理し、そのピークマトリクスに対してＰＬＳ−ＤＡ等の判別分析を行い、ピーク毎のローディング値を算出する。従来方法では、このローディング値を２次元グラフ上に描いたローディングプロットを作成し、そのローディングプロット上のプロット点の位置等に基づいて特徴的なピークを抽出しマーカー候補とする。これに対し本発明では、ローディング値の計算とは別に、再現性統計量計算部が、各ピークについて各群におけるピーク値の再現性統計量として変動係数等を計算する。上記ピークマトリクスでは、同じ質量電荷比（又は同じ保持時間で且つ同じ質量電荷比）における試料毎のピーク値が列方向又は行方向に整理されているから、その列方向又は行方向にピーク値の平均値と標準偏差を求めれば、各群でピーク毎の変動係数を容易に求めることができる。

ローディング修正値算出部は、ピーク毎に、上述したように得られたローディング値を、各群における変動係数や標準偏差の積で以て除し、該ローディング値を修正したローディング修正値を求める。データのばらつきが大きいほど変動係数や標準偏差は大きくなる。したがって、ローディング値が同じでも、変動係数や標準偏差が大きいほどローディング修正値は小さくなる。そのため、上述した（ｉ）、（ii）のようなケースのために＜問題１＞が生じた場合には、元のローディング値は大きくてもローディング修正値は相対的に小さくなる。逆に、ピーク値のばらつきが小さくピーク値の再現性が高い場合には、元のローディング値は小さくてもローディング修正値は相対的に大きくなる。

表示処理部は、各ピークに対するローディング修正値を反映したグラフを作成して表示部の画面上に表示する。このグラフとしては、例えば、互いに直交する二軸の一方に判別分析によるローディング値をとり、他方にローディング修正値をとったものとするとよい。こうしたグラフでは、ローディング値では上述したように他の（つまりはマーカーに適さない）ピークに埋もれてしまうようなピークでも、ローディング修正値で差がつけば他のピークと視覚的に区別が可能となる。これによって、マーカーに適したピークを的確にマーカー候補として抽出することができる。

また本発明に係る分析データ解析装置において、さらに好ましくは、ピーク毎にローディング修正値を用いた統計的仮説検定を行って、該ピークが両群の間で存在量に有意な差があるか否かを判定するための指標値を算出する仮説検定実行部をさらに備え、
前記表示処理部は、互いに直交する一方の軸に前記ローディング修正値、他方の軸に仮説検定実行部で得られる指標値をとったグラフを作成する構成とするとよい。

具体的には、上記統計的仮説検定としてｔ検定を利用し、上記指標値としてｐ値を用いればよい。この構成によれば、両群の間で存在量や発現量に有意差があるかどうかの判定結果がより明確に示されるので、例えばこうしたデータの解析作業に不慣れな作業者であっても、ミスなくマーカー候補を抽出することが可能となる。

本発明に係る分析データ解析装置によれば、従来のマーカー探索方法に比べて、誤ったマーカー候補の抽出やマーカーとして適した候補の見落としを減らすことができ、高い信頼性及び正確性で以てマーカー候補を探索することができる。また、解析結果が分かり易いグラフで表示されることで、分析者がマーカー候補を抽出する作業も簡便になる。
さらにまた、本発明に係る分析データ解析装置において、ローディング値を修正するための再現性を表す統計量は例えば変動係数や標準偏差などごく簡単な計算によって得られるものであるので、ローディング修正値やそれを得るためのアルゴリズムを分析者が理解し易い。そのため、例えば仮に何らかの原因で誤った結果が出た場合でも、分析者がそのことに気付き易く、誤った結果をそのまま採用してしまうことを回避することができる。

本発明の一実施例である質量分析データ解析装置の概略ブロック構成図。本実施例の質量分析データ解析装置における特徴的な解析処理のフローチャート。一つの群のピークマトリクスの一例を示す図。本発明によるマーカー探索方法で作成される２次元グラフの一例を示す図。図４に基づいて新たにマーカー候補として抽出されるピークのピーク値の分布（ばらつき）を示す図。図４に基づいて新たにマーカー候補として抽出されるピーク（m/z値）付近の実際のマススペクトルを重ねて示した図。従来のマーカー探索方法で作成される２次元グラフ（ローディングプロット）の一例を示す図。図７に基づいてマーカー候補として抽出されるピークのピーク値の分布（ばらつき）を示す図。図７に基づいてマーカー候補として抽出されるピークのピーク値の分布（ばらつき）を示す図。図７に基づいてマーカー候補として抽出されるピークのピーク値の分布（ばらつき）を示す図。図７に基づいてマーカー候補として抽出されるピークのピーク値の分布（ばらつき）を示す図。マーカーとして適しているものの図７に基づいてマーカー候補として抽出されないピークのピーク値の分布（ばらつき）を示す図。全てのマススペクトルと従来のマーカー探索方法でマーカー候補として抽出されたピークとの関係を示す図。ＬＣ−ＭＳにより得られた質量分析データを用いた差異解析によるマーカー探索の概念図。ＬＣ−ＭＳにより収集されたデータに基づいて作成されるピークマトリクスの一例を示す図。

以下、本発明の一実施例である質量分析データ解析装置について、添付図面を参照して説明する。
図１は本実施例の質量分析データ解析装置の概略構成図である。

本実施例の質量分析データ解析装置は、データ読み込み部１１、ピークマトリクス作成部１２、判別分析ローディング計算部１３、再現性統計量計算部１４、ローディング値修正部１５、及び、統計量表示処理部１６、を機能ブロックとして有するデータ解析部１と、分析者がパラメータを設定したり何らかの指示を行ったりするための入力部２と、解析結果等が表示される表示部３と、を備える。
ここでは、一例として、Ａ群とＢ群という二つのサンプル群を想定し、各サンプル群にそれぞれ含まれる複数の試料に対して質量分析を実行することで得られたマススペクトルデータを処理することで、両群の間で存在量に有意な差があるピーク（物質）をマーカー候補として抽出するものとする。
なお、データ解析部１は例えばパーソナルコンピュータをハードウエア資源とし、該コンピュータにインストールされた専用のデータ処理ソフトウエアを該コンピュータ上で実行することにより、上記各機能ブロックが具現化される構成とすることができる。

図２に示すフローチャートを参照して、本実施例の質量分析データ解析装置における特徴的な解析動作を説明する。
データ読み込み部１１は入力部２からの指示に応じて、図示しないデータ記憶部から処理対象である二つのサンプル群、即ちＡ群とＢ群それぞれについてマススペクトルデータを読み込む（ステップＳ１）。なお、ここでいうマススペクトルデータはセントロイド処理されていないプロファイルデータである。

ピークマトリクス作成部１２は、読み込まれたマススペクトルデータ毎に、各マススペクトルに現れるピークを所定のピーク検出アルゴリズムに従って検出し、ピーク位置（質量電荷比値）とピーク強度（ピーク値）とを求める。そして、マススペクトル毎に、ピーク位置Ｍpとピーク強度Ｉpとの組（Ｍp，Ｉp）（ただし、ｐ＝１，２，…）を多数集めたピークリストを作成する。さらにピークマトリクス作成部１２は、各サンプル群に含まれる全ての試料に対するピークリストを用いてピークマトリクスを作成する。あとで詳述するが、図３はピークマトリクスの一例である。図３の例では、横方向にピーク位置つまりは質量電荷比値が、縦方向に異なる試料（この例では同一被検者からそれぞれ異なる日に採取された試料）が配置され、各欄中に示されている数値がピークのデータ値、つまりピーク値となっている。こうしたピークマトリクスをＡ群とＢ群とでそれぞれ作成し、それ合わせて一つのピークマトリクスとする（ステップＳ２）。

なお、ピークマトリクスの横軸と縦軸とを上述したように定めているため、ピークマトリクスの或る欄に配置すべきピーク値が存在しないことは当然起こり得る。そのときには該位置の値はゼロとすればよい。

ピークマトリクスが作成されたならば、判別分析ローディング計算部１３はピークマトリクスに対して判別分析の一つであるＰＬＳ−ＤＡの演算を実行し、ピークマトリクスに挙げられているピーク毎にローディング値を計算する（ステップＳ３）。一方、再現性統計量計算部１４は、Ａ群、Ｂ群それぞれにおいて同じ質量電荷比であるピーク毎に、ピーク値の平均値と標準分散とを計算し、さらにその標準分散を平均値で除することで各ピークのＣＶ値を算出する（ステップＳ４）。これにより、ピーク毎に、Ａ群におけるＣＶ値CVa、Ｂ群におけるＣＶ値CVbが求まる。

ローディング値修正部１５はステップＳ３で得られた各ピークのローディング値を、ステップＳ４で得られた同じピークについてのＡ群及びＢ群のＣＶ値の積CVa・CVbで除する。即ち、或るピークのローディング値がＬであるとすると、Ｌ’＝Ｌ／（CVa・CVb）によりローディング修正値Ｌ’を求める（ステップＳ５）。基本的には、本実施例におけるマーカー探索方法では、このローディング修正値Ｌ’に基づいてマーカー候補を選定する。

ここで、ローディング値を両サンプル群のＣＶ値の積で除することの意義を説明する。
判別分析では、一般に、着目する物質に対応するピーク値が或る程度大きければ、ローディング値は或る程度大きくなる。また、両サンプル群における各ピークのピーク値の再現性が或る程度高ければ、標準偏差は小さくなるのでＣＶ値は小さくなる。その結果、１／（CVa・CVb）は大きい値となる。即ち、ローディング値と１／（CVa・CVb）とは以下のような関係となる。

（１）ピーク値が或る程度大きく且つ両サンプル群の各ピークの再現性が高く、マーカー候補として極めて優れている場合
→ ローディング値Ｌ：大、１／（CVa・CVb）：大→Ｌ’＝Ｌ／（CVa・CVb）は極めて大きな値となる。
（２）サンプル群の中の少数の試料が非常に大きいピーク値を示している又はピーク値のばらつきが非常に大きい場合
→ ローディング値Ｌ：大、１／（CVa・CVb）：小→過大評価されたローディング値Ｌを１／（CVa・CVb）で抑えることになるので、Ｌ’＝Ｌ／（CVa・CVb）は小さくなる。
（３）ピーク値は全般に小さいもののその再現性が高い場合
→ ローディング値Ｌ：小、１／（CVa・CVb）：大→ローディング値Ｌを１／（CVa・CVb）で強調することになるので、Ｌ’＝Ｌ／（CVa・CVb）は大きくなる。
（４）ピーク値が小さくその再現性も低い場合
→ ローディング値Ｌ：小、１／（CVa・CVb）：小→Ｌ’＝Ｌ／（CVa・CVb）は極めて小さな値となる。

上述したように、特定の試料におけるピーク値が他の試料に比べて非常に大きい値となっていたり、試料全体としては或る程度の大きさのピーク値であるもののピーク値のばらつきが非常に大きかったりした場合には、計算上、こうしたピークのローディング値は大きくなるが、マーカー候補としては不適切である。従来方法ではこうしたピークもマーカー候補としてしまうが、本実施例では上記（２）のケースに相当し、ローディング修正値は小さくなるので、このピークはマーカー候補として挙げられにくくなる。
一方、ピーク値の再現性は高いがピーク値自体はあまり大きくない（ただし、極端に小さいというわけではない）場合、マーカー候補として適しているものの、計算上、こうしたピークのローディング値は小さくなる。従来方法ではこうしたピークはマーカー候補から漏れ易いが、本実施例では上記（３）のケースに相当し、ローディング修正値は相対的に大きくなるので、このピークはマーカー候補として挙げられ易くなる。

もちろん、ピーク値自体が大きくその再現性も良好であるようなピークについては、本実施例では上記（１）のケースに相当し、ローディング修正値も大きくなるので、このピークはマーカー候補として挙げられる。逆に、ピーク値自体は小さめでその再現性も悪いピークについては、本実施例では上記（４）のケースに相当し、ローディング修正値は小さくなるので、このピークはマーカー候補とはならない。

このように、本実施例において両サンプル群のＣＶ値の積で除すことで得られたローディング修正値は、元のローディング値に比べて、マーカーにより適したピークを選択するために利用できる統計量であるということができる。そこで、全てのピークについてのローディング修正値が求まったならば、統計量表示処理部１６は、各ピークのローディング修正値Ｌ’をユーザーに分かりやすいグラフ形式で表示部３の画面上に表示する（ステップＳ６）。具体的には、例えばローディング値Ｌを横軸に、ローディング修正値Ｌ’を縦軸にとった２次元グラフ上に各ピークに対応するプロット点を位置付けるとよい。

ユーザー（分析者）はこうして表示されるグラフに基づいて、両サンプル群を区別するのに特徴的であるピークを特定し、該ピーク又はそれに対応する物質をマーカー候補とすればよい。また、そうした分析者の判断に依らず、２次元グラフ上のプロット点の分布状況を自動的に判断して閾値を設定し、その閾値に基づいてマーカー候補を抽出するようにしてもよい。

次に、具体的な解析例を挙げて、従来方法に対する上記実施例におけるマーカー候補探索方法の優位性を説明する。
この解析例に使用したデータは次のとおりである。
・データの種類：被検者の体表成分（皮脂）を測定したデータ
・データの測定方法：ＬＤＩ（レーザ脱離イオン化法）用のサンプルプレートに被検者が人差し指を押し付けて皮脂を付着させ、それを島津製作所製のＭＡＬＤＩ−ＴＯＦＭＳ（マトリクス支援レーザ脱離イオン化飛行時間型質量分析装置）により直接測定してマススペクトルを取得した。
・被検者数：２人（30歳代の女性１人、40歳代の男性１人）
・データ取得期間：10日間
・ピーク数：996個
以下の説明では、女性被検者を識別番号：ID001、男性被検者を識別番号：ID007とし、ID001をＡ群とし、ID007をＢ群とする。
即ち、上述したように、一つのサンプル群には複数の試料が含まれるが、この解析例では、便宜上、その複数の試料は異なる被検者から得られたものではなく、同じ被検者から異なる日に採取されたものである。

図３は上記データに基づいて作成されたピークマトリクスの一部である。
ここでは、質量電荷比が異なる各ピーク（全996ピーク）について、ID001とID007という二つのサンプル群の間で発現に差がある、つまり、個人差があるピークの探索に、上述した手法を用いる。

まず、従来のマーカー探索方法として、ＰＬＳ−ＤＡのローディングプロットを利用した方法による解析結果を説明する。
図７は上記データにＰＬＳ−ＤＡを適用して得られたローディングプロットである。一つのプロット点が一つのピークに相当する。このローディングプロットでは、ID001であるサンプル群中の試料に多く含まれていると判定されたピークは−（マイナス）軸方向に、逆にID007であるサンプル群中の試料に多く含まれていると判定されたピークは＋（プラス）軸方向にプロットされている。したがって、中央のゼロよりも＋方向又は−方向に離れるほど、各サンプル群に特徴的なピークであるといえる。各サンプル群に特徴的であるマーカー候補のピークにはm/z値に下線を記してある。例えば、m/z 228.3、m/z 284.3などはマーカー候補のピークである。

マーカー候補であるピークについてのピーク値の分布などの詳細な情報を図８〜図１１に示す。また図１２はマーカー候補から漏れた或るピークについてのピーク値の分布などの詳細な情報である。図８〜図１２において、各質量電荷比値に対応する上下二つのグラフのうち、上のグラフは、左部10点がID001に対するピーク値、右部10点がID007に対するピーク値であり、それぞれ左から測定日が古い順に並べてある。一方、下のグラフは各サンプル群のピーク値のばらつきのみを示すグラフである。

図８〜図１１に示したピーク値の分布をみると、m/z 382.5（図９参照）、m/z 383.5（図９参照）である二つのピークはローディング値からマーカー候補であると判定されているが、ごく一部の試料に対するピーク値が極めて高くなっていることが分かる。つまり、これは一部の極端なピーク値によってローディング値が高くなっていることを示しており、これは上述した＜問題１＞の（ｉ）のケースそのものである。したがって、これらピークは実際にはマーカー候補としては適さないといえる。

一方、図１２に示したピーク値の分布を見ると、m/z 304.3であるピークはローディングからはマーカー候補として判定されていないものの、図７におけるプロットの位置からID007のサンプル群に特徴的なピークと判定されていることが分かる。しかしながら、このピークは全体として或る程度のピーク値はあるものの、試料間でのピーク値のばらつきが大きい。つまり、これは、上述した＜問題２＞の（ii）のケースであるといえ、このピークをID007に特徴的なピークであるとするのは適切でない。

また、図７においてマーカー候補であるとして判定されたピークはいずれもピーク値が1000程度以上であり、本データにおけるピーク値の中でもかなり大きいものしかマーカー候補として挙げられていない。即ち、ピーク値が小さいものはマーカー候補と判定されておらず、このことは、サンプル群間で差があってもピーク値が小さいようなピークが探索できないという、上述した＜問題２＞の状況が起こっていることを示唆している。

参考のために、この解析例に用いた両サンプル群の合計２０個のマススペクトルをオーバーラップ表示させたグラフを図１３（ａ）に示す。図１３（ｂ）はサンプル群毎にマススペクトルを分けて描いたグラフである。図７と同様に、マーカー候補とされたピークにはm/z値に下線を記してある。この図から、マーカー候補であると判定されたピークは、いずれもマススペクトルにおける全てのピークの中で、ピーク値が比較的高いことが分かる。

図４は、上述した本実施例におけるマーカー探索方法によって作成される２次元グラフである。ここでは、横軸にローディング値、縦軸にローディング修正値をとっている。つまり、横軸は図７に示したグラフと同じであるが、縦軸が相違する。このようなグラフでは、横軸上及び縦軸上のいずれにおいてもゼロから離れた右上部及び左下部にプロットされたピークをマーカー候補であると判断することができる。ここでは、二つの矩形状の点線領域にプロットされたピークをマーカー候補と判断している。

図４から、従来方法でマーカー候補であると判定されたピークのうち、m/z 382.5、383.5の二つのピーク以外の、或る程度のピーク値を持ち再現性も悪くない全てのピークが点線領域内にプロットされており、マーカー候補と正しく判定されていることが確認できる。一方、マーカーとして適さないにも拘わらず、従来方法では誤ってマーカー候補のピークであると判定されてしまっていたm/z 382.5、383.5の二つのピークは、ローディング修正値がかなり低くなるため点線領域から外れている。そのため、これら二つのピークはマーカー候補にはならず、正しく判定されていることが確認できる。
さらにまた、ID007に特徴的なピークであるとみなせるもののマーカーとしては適さないm/z 304.3のピークも、ローディング修正値が極めて低くなるため、点線領域から外れたところにプロットされており、マーカー候補ではないと正しく判定できる。

一方、本実施例におけるマーカー探索方法では、従来方法ではマーカー候補となっていなかった、m/z 57.1、60.1、59.1、41.0という四つのピークが新たにマーカー候補と判定されている。これらのピークのピーク値の分布の詳細を図５に示す。また、これらピーク付近のマススペクトルをオーバーラップ表示させたグラフを図６に示す。図５は図８〜図１２と同様のグラフである。また、図６（ａ）中の右上のマススペクトルは図１３と同じである。

m/z 57.1、60.1、59.1のピークはいずれもピーク値が100以下と小さい。しかしながら、そのピーク値の再現性は極めて良好であり、マーカー候補として適切であるといえる。m/z 41.0のピークはサンプル群間でのピーク値の差が他の三つのピークほど大きくないものの、ピーク値の再現性は十分に良好である。またピーク値自体も約400と十分に大きい。そのため、このピークについてもマーカー候補として適切であるといえる。

このように、本実施例におけるマーカー探索方法を用いれば、従来方法では誤ってマーカー候補のピークと判定してしまっていたピークをマーカー候補から除外することができる。また逆に、従来方法では見落としていたマーカー候補のピークを、正しくマーカー候補として選び出すことができる。それによって、マーカー探索の精度向上が図れ、信頼性の高いマーカーを選定することができる。

なお、上記実施例は、各試料に対して得られたマススペクトルデータについて本発明を適用したものであるが、ＬＣ−ＭＳやＧＣ−ＭＳで得られたデータを解析する場合には、質量電荷比のほかに保持時間（この場合には時間ずれが補正された保持時間が望ましい）が同一であるピークをマーカー候補として同様の処理を行えばよい。

また上記実施例では、判別分析としてＰＬＳ−ＤＡを利用していたが、それ以外の判別分析、例えばＯＰＬＳ−ＤＡやＯ２ＬＳ−ＤＡを用いてもよい。また、上記実施例では、ヒトから採取された生体試料を測定することで得られたマススペクトルデータを解析していたが、試料は生体試料である必要はなく、本発明は医療、医薬品開発、生理学などの分野だけでなく、様々な分野で利用することができる。

さらにまた、上記実施例は質量分析装置で得られたマススペクトルデータの解析に本発明を使用したものであるが、そうしたデータのみならず、質量分析装置と組み合わせないＬＣ装置やＧＣ装置で得られたクロマトグラムデータや分光測定装置で得られた吸光スペクトルデータなどの解析にも本発明を使用できることは明らかである。さらにまた、ＤＮＡマイクロアレイ解析で得られたデータ（画像を数値化したデータ）の解析にも本発明を使用することができる。

また、上記実施例は本発明の一例にすぎず、上記に記載された以外の点で、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。

１…データ解析部
１１…データ取り込み部
１２…ピークマトリクス作成部
１３…判別分析ローディング計算部
１４…再現性統計量計算部
１５…ローディング値修正部
１６…統計量表示処理部
２…入力部
３…表示部

Claims

各々が測定対象である複数の試料を含む複数の群について、その複数の群の間で試料に含まれる存在量や試料による発現量に有意な差がある要素を探索するために、各試料に対して所定の分析を行うことで得られた分析データを解析する分析データ解析装置であって、
a)与えられた各群の各試料に対する分析データからそれぞれピークを検出し、試料毎にピークが得られるパラメータとピーク値とを含むピーク情報を収集するピーク情報収集部と、
b)前記ピーク情報収集部により収集された全ての試料に対するピーク情報に対し判別分析による多変量解析を行って、ピーク毎のローディング値を計算する判別分析実行部と、
c)各ピークについて各群におけるピーク値の再現性を表す統計量を計算する再現性統計量計算部と、
d)ピーク毎に、前記判別分析実行部で得られたローディング値を前記再現性統計量計算部で得られた各群における再現性統計量の積で除することで、該ローディング値を修正したローディング修正値を計算するローディング修正値算出部と、
e)前記ローディング修正値算出部で得られた各ピークに対するローディング修正値を反映したグラフを作成して表示する表示処理部と、
を備えることを特徴とする分析データ解析装置。
請求項１に記載の分析データ解析装置であって、
前記再現性統計量は変動係数であることを特徴とする分析データ解析装置。
請求項１に記載の質量分析データ解析装置であって、
前記再現性統計量は標準偏差であることを特徴とする分析データ解析装置。
請求項１〜３のいずれか１項に記載の質量分析データ解析装置であって、
前記判別分析はＰＬＳ−ＤＡであることを特徴とする分析データ解析装置。
請求項１〜４のいずれか１項に記載の分析データ解析装置であって、
前記表示処理部は、互いに直交する一方の軸に前記判別分析によるローディング値、他方の軸に前記ローディング修正値算出部で得られるローディング修正値をとったグラフを作成することを特徴とする分析データ解析装置。