JP2017211762A

JP2017211762A - データ分類方法、データ分類装置およびデータ分類プログラム

Info

Publication number: JP2017211762A
Application number: JP2016103425A
Authority: JP
Inventors: 大介櫛部; Daisuke Kushibe; 剛史江崎; Tsuyoshi Esaki; 努升島; Tsutomu Masujima; 政仁山口; Masahito Yamaguchi
Original assignee: Fujitsu Ltd; RIKEN Institute of Physical and Chemical Research
Current assignee: Fujitsu Ltd; RIKEN Institute of Physical and Chemical Research
Priority date: 2016-05-24
Filing date: 2016-05-24
Publication date: 2017-11-30
Also published as: US20170344659A1

Abstract

【課題】データの分類の精度を高める。【解決手段】物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得し、前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、処理をコンピュータが実行する。【選択図】図２

Description

本発明は、データ分類方法、データ分類装置およびデータ分類プログラムに関する。

試料に含まれる物質（分子）を調べるために、質量分析装置が用いられる。質量分析装置は、一例として、高電圧をかけた真空中でイオン化された物質が静電力によって装置内を飛行する際に、飛行経路に沿って加えられる電気的・磁気的な作用で質量電荷比（ｍ／ｚ）に応じて飛行方向と直行する方向に分離されることを利用している。そして、質量分析装置は、分離された物質（イオン）の到達量をそれぞれ検出することで、質量電荷比と検出強度（Intensity）とが対となる複数のデータを取得する。質量電荷比を横軸、検出強度を縦軸として表したグラフまたは同内容のデータは、ＭＳスペクトル（マススペクトル）と呼ばれる。なお、質量分析装置から出力される生データにおける質量電荷比の分解能は、測定の対象となる物質の質量電荷比の違いを区別し得るものよりも高い。そのため、生データの検出強度を繋いだ波形からピークを検出（ピークピック）し、検出されたピークについての質量電荷比と検出強度の対のデータに変換する場合がある。このようなピークピック後のデータもＭＳスペクトルと呼ばれる。

ところで、質量分析装置による１回の測定により１組のＭＳスペクトルの生データが得られるが、１回の測定では精度を担保することが困難であるため、同一の試料に対し同一の測定条件で複数回の測定を行うのが一般的である。複数回の測定により得られた、測定回数と同数のＭＳスペクトルに対応する生データから、質量電荷比が同一の複数のピークを特定して、特定した複数のピークの検出強度を平均化している。質量分析における情報処理技術として、特許文献１−３が知られている。

特開２０１４−１１２０６８号公報特開２０１３−４０８０８号公報特開２０１２−２４７１９８号公報

ところが、精密な分析が必要な場合、質量電荷比が同一の複数のピークを特定したとしても、測定値のゆらぎの影響によって、同一の物質に対応するピークを正確に特定できないことがある。すなわち、ゆらぎの影響を考慮しない場合、質量分析の精度が低下することもある。このため、質量分析の精度を高めるためには、複数回の測定により得られた、複数のピークのデータを物質別に正確に分類することは重要である。ここでは、ＭＳスペクトルを例に説明したが、ＭＳスペクトルに限らず、例えば分光スペクトル（赤外分光スペクトル、紫外分光スペクトル等）や核磁気共鳴スペクトル等の離散スペクトルの処理でも同等の課題が生じる。

一側面では、本発明は、データの分類の精度を高めることを目的とする。

開示の形態は、物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得し、前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、処理をコンピュータが実行する。

データの分類の精度を高めることができる。

一実施形態にかかるシステムの構成例を示す図である。情報処理装置のソフトウェア構成例を示す図である。情報処理装置のハードウェア構成例を示す図である。実施形態の処理例を示すフローチャートである。生データのデータ構造例を示す図である。ピークピックの例を示す図である。ピークピック済のＭＳスペクトルのデータ構造例を示す図である。アライメントの例を示す図である。アライメントの処理例を示すフローチャートである。クラスタ分解の処理例を示すフローチャートである。ピーククラスタ分解の処理例を示すフローチャートである。データ列の例を示す図である。クラスタ分解の例を示す図である。ピーククラスタ分解の例を示す図である。アライメントの結果の例を示す図である。ノイズ除去の例を示す図である。

以下、本発明の好適な実施形態につき説明する。

＜構成＞
図１は一実施形態にかかるシステムの構成例を示す図である。図１において、システムは、質量分析装置１と情報処理装置３を備えている。質量分析装置１は、試料２に対して測定（質量分析）を行い、質量電荷比（ｍ／ｚ）と検出強度（Intensity）の対のデータを複数含むＭＳスペクトル（データ群）の生データを出力する。生データには、ＭＳスペクトルの他に、測定条件等の他の情報を含んでいてもよい。なお、一般に同一の試料２について複数回の測定が行われ、生データにおいては、１回の測定分のＭＳスペクトルが区別可能とされている。情報処理装置３は、質量分析装置１の出力する生データをオフライン経由またはオンライン経由で読み込んで情報処理を行い、最終的に平均化ＭＳスペクトルをデータ形式またはグラフ形式で出力する。なお、情報処理装置３は、１台である必要はなく、複数台としてもよい。

図２は情報処理装置３のソフトウェア構成例を示す図である。図２において、情報処理装置３は、ピークピック処理部３０１と平均化ＭＳスペクトル計算部３０４とを備えている。ピークピック処理部３０１は、ピークピック処理を行う機能を有しており、データ読込部３０２とピークピック部３０３とを備えている。データ読込部３０２は、質量分析装置１の出力する生データを読み込む機能を有している。ピークピック部３０３は、データ読込部３０２により読み込まれた生データからピークピックを行い、ピークピック済のＭＳスペクトルのデータを出力する機能を有している。なお、ピークピックは、生データから１回の測定分のＭＳスペクトルを区別して行い、ピークピック済のＭＳスペクトルのデータにはＭＳスペクトルの識別情報としてスペクトル番号を付与し、出力するデータに含める。

平均化ＭＳスペクトル計算部３０４は、平均化ＭＳスペクトルの計算を行う機能を有している。平均化ＭＳスペクトル計算部３０４は、データ読込部３０５とアライメント部３０６とクラスタ分解部３０７とピーククラスタ分解部３０８と平均値計算部３０９と統計情報計算・ノイズ除去部３１０とデータ出力部３１１とを備えている。データ読込部３０５は、ピークピック処理部３０１の出力するピークピック済のＭＳスペクトルのデータを読み込む機能を有している。アライメント部３０６は、データ読込部３０５により読み込まれた複数のピークピック済のＭＳスペクトルのデータから、測定値のゆらぎを考慮して、複数のＭＳスペクトルにおける対応するピークのデータの同定（アライメント）を行う機能を有している。

クラスタ分解部３０７は、アライメント部３０６またはピーククラスタ分解部３０８から呼び出されてクラスタ分解の処理を行う機能を有している。クラスタ分解は、複数のＭＳスペクトルに含まれる全データを質量電荷比でソートした対象データ群（データ列）に対し、隣り合うデータの質量電荷比の差が所定の許容値以内である場合は同じ点集合に入れ、許容値以内でない場合は異なる点集合に入れる処理である。この処理では、質量電荷比の差が所定の許容値以内であるか否かにより分類（クラスタリング）されるものであるため、１つの点集合の中に同じスペクトル番号のデータが含まれる場合がある。しかし、同じ点集合に同じスペクトル番号のデータが含まれるということは、本来は別のピークとして認識されるべきデータが同じ点集合に分類されてしまっていることになる。そのため、同じスペクトル番号のデータが含まれないものをピーククラスタと呼び、同じスペクトル番号のデータが含まれているものを準クラスタと呼んで区別することにする。ピーククラスタ分解部３０８は、アライメント部３０６から呼び出されて、準クラスタについてピーククラスタ分解を行う機能を有している。ピーククラスタ分解は、準クラスタをピーククラスタに分解するものである。

平均値計算部３０９は、アライメント部３０６の処理結果に基づき、各ピーククラスタに含まれるデータの質量電荷比と検出強度のそれぞれの平均値を計算する機能を有している。各ピーククラスタに入れられたデータは複数のＭＳスペクトルにおいて対応するピークとして同定されたものであるため、それらを代表する平均値を求めるものである。統計情報計算・ノイズ除去部３１０は、統計情報の一つとして、ＭＳスペクトルの数に対する各クラスタに含まれるデータ数の比から検出頻度（観測確率）を算出する。検出頻度はデータの評価に関する情報として用いることができる。例えば、ＭＳスペクトルの数と同数のデータがクラスタに含まれる場合、検出頻度は１００％となり、全てのＭＳスペクトルにおいて対応するピークが検出されていることから、信頼性の高いデータであることがわかる。反対に、ＭＳスペクトルの数に比して少ないデータしかクラスタに含まれてない場合、検出頻度は小さな値となり、質量分析装置１に紛れ込む再現性のない超微量の夾雑物や電気的なノイズ等に起因する信頼性の低いデータであることがわかる。

統計情報計算・ノイズ除去部３１０は、上記の検出頻度に基づき、信頼性の低いデータのピーククラスタをノイズ等であるとして除去する機能も有している。データ出力部３１１は、ノイズ除去の行われた後の各ピーククラスタの質量電荷比の平均値と検出強度の平均値の対のデータからなるデータ群を、平均化ＭＳスペクトルのデータとして出力する機能を有している。なお、データ出力部３１１は、グラフ形式に加工した平均化ＭＳスペクトルを出力する機能を有してもよい。

図３は情報処理装置３のハードウェア構成例を示す図である。図３において、情報処理装置３は、システムバス３２１に接続されたＣＰＵ（Central Processing Unit）３２２、ＲＯＭ（Read Only Memory）３２３、ＲＡＭ（Random Access Memory）３２４、ＮＶＲＡＭ（Non-Volatile Random Access Memory）３２５を備えている。また、情報処理装置３は、Ｉ／Ｆ（Interface）３２６と、Ｉ／Ｆ３２６に接続された、Ｉ／Ｏ（Input/Output Device）３２７、ＨＤＤ（Hard Disk Drive）３２８、ＮＩＣ（Network Interface Card）３２９と、Ｉ／Ｏ３２７に接続されたモニタ３３０、キーボード３３１、マウス３３２等を備えている。Ｉ／Ｏ３２７にはＣＤ／ＤＶＤ（Compact Disk/Digital Versatile Disk）ドライブ等を接続することもできる。

図３のＣＰＵ３２２上で実行されるプログラムにより、図２に示した各部は実現される。プログラムは、記録媒体で提供されてもよいし、ネットワーク経由で提供されてもよいし、ＲＯＭ組込でもよい。

＜動作＞
図４は上記の実施形態の処理例を示すフローチャートである。図４において、測定担当者は、質量分析装置１により、同一の試料２および同一の測定条件によって複数回の測定を行う（ステップＳ１）。測定により、測定結果として生データが出力される。

次いで、情報処理装置３のデータ読込部３０２は、質量分析装置１の出力する生データをオフライン経由またはオンライン経由で読み込む（ステップＳ２）。図５は生データのデータ構造例を示す図であり、第１回測定分から第Ｎ回測定分までについて、質量電荷比と検出強度の対のデータが複数含まれている。

図４に戻り、情報処理装置３のピークピック部３０３は、データ読込部３０２により読み込まれた生データからピークピックを行い、ピークピック済のＭＳスペクトルのデータを出力する（ステップＳ３）。図６はピークピックの例を示す図であり、（ａ）は生データにおけるデータ、（ｂ）はピークピックされたピークを示している。図に示すように、生データの検出強度を繋いだ波形からピークを検出する。なお、ピークピックのアルゴリズムとしては、既知のものを利用することができる。実装上は、既存のスペクトル解析ソフトウェア（ProteoWizard等）に搭載されたピークピックの機能を利用することを想定している。図７はピークピック済のＭＳスペクトルのデータ構造例を示す図であり、スペクトル番号：１（第１回測定分に対応）からスペクトル番号：Ｎ（第Ｎ回測定分に対応）までについて、質量電荷比と検出強度の対のデータが複数含まれている。

図４に戻り、情報処理装置３のデータ読込部３０５は、ピークピック処理部３０１の出力するピークピック済のＭＳスペクトルのデータを読み込む（ステップＳ４）。

次いで、アライメント部３０６は、データ読込部３０５により読み込まれた複数のピークピック済のＭＳスペクトルのデータから、測定値のゆらぎを考慮して、複数のＭＳスペクトルにおける対応するピークのデータの同定（アライメント）を行う（ステップＳ５）。

図８はアライメントの例を示す図である。図８において、スペクトル番号１、２、・・、ＮのＭＳスペクトルにおいて、測定値のゆらぎにより、あるピークに対応する横軸の質量電荷比の値は完全には一致しないが、同じピークに対応するものと考えられるピークを対応付けることをアライメントと呼ぶ。本実施形態では、アライメントをクラスタリングの技術により実現している。

図９はアライメント部３０６によるアライメントの処理例を示すフローチャートである。また、図１０はアライメント部３０６またはピーククラスタ分解部３０８から呼び出されたクラスタ分解部３０７によるクラスタ分解の処理例を示すフローチャートである。図１１はアライメント部３０６から呼び出されたピーククラスタ分解部３０８によるピーククラスタ分解の処理例を示すフローチャートである。

図９において、アライメント部３０６は、データ読込部３０５により読み込まれた複数のピークピック済のＭＳスペクトルのデータから処理対象のデータ列を作成する（ステップＳ１０１）。すなわち、ピークピック済の複数のＭＳスペクトルに含まれる全データを質量電荷比でソートすることでデータ列を作成する。データ列に含まれるデータの数はＶとする。図１２はデータ列の例を示す図であり、質量電荷比（m/z）と検出強度（Intensity）とスペクトル番号を１組とした複数のデータが、質量電荷比によりソート（この例では昇順にソート）されて列挙されている。

図９に戻り、アライメント部３０６は、質量電荷比のゆらぎに対して同一のピークであると判断する許容値Ｘに初期値（例：１０ｐｐｍ）を設定する（ステップＳ１０２）。

次いで、アライメント部３０６は、クラスタ分解部３０７を呼び出し、クラスタ分解を行う（ステップＳ１０３）。クラスタ分解の処理の詳細については後述する。クラスタ分解により、揺れ幅が許容値Ｘ以内に収まり、隣の集合とは許容値Ｘより離れた点集合に分類される。分類された点集合の数はＭとする。図１３はクラスタ分解の例を示す図であり、左欄のデータ列をクラスタ分解した結果が右欄である。点集合番号「１」の点集合はスペクトル番号「５」のデータが重複していることから準クラスタであり、その他の点集合はピーククラスタである。

図９に戻り、アライメント部３０６は、点集合のインデックスｉに初期値「１」を設定し、ピーククラスタ番号Ｃに初期値「１」を設定する（ステップＳ１０４）。

次いで、アライメント部３０６は、インデックスｉにより特定される点集合Ｓｉはスペクトル番号が重複しないか否か判断する（ステップＳ１０５）。重複しない場合（ステップＳ１０５のＹｅｓ）、ピーククラスタ番号Ｃの結果を格納する変数Ｙ（Ｃ）に点集合Ｓｉの情報を保存する（ステップＳ１０６）。点集合Ｓｉの情報として、点集合Ｓｉに含められたデータの質量電荷比と検出強度をそのまま格納してもよいし、データに識別番号を付して質量電荷比と検出強度を他に格納する場合は、データの識別番号を格納してもよい。次いで、アライメント部３０６は、ピーククラスタ番号Ｃをインクリメントする（ステップＳ１０７）。

一方、点集合Ｓｉはスペクトル番号が重複する場合（ステップＳ１０５のＮｏ）、アライメント部３０６は、ピーククラスタ分解部３０８を呼び出し、点集合Ｓｉについてピーククラスタ分解を行う（ステップＳ１０８）。ピーククラスタ分解の処理の詳細については後述する。ピーククラスタ分解により、準クラスタであった点集合Ｓｉは複数のピーククラスタに分解される。図１４はピーククラスタ分解の例を示す図であり、点集合番号「１」の点集合が２つのピーククラスタに分解された様子を示している。

図９に戻り、アライメント部３０６は、ピーククラスタ分解により得られたピーククラスタの個数Ｍ_ｉを取得し（ステップＳ１０９）、変数Ｙ（Ｃ）、Ｙ（Ｃ＋１）、・・Ｙ（Ｃ＋Ｍ_ｉ−１）に各ピーククラスタの情報を保存する（ステップＳ１１０）。次いで、アライメント部３０６は、ピーククラスタ番号Ｃにピーククラスタの個数Ｍ_ｉを加算する（ステップＳ１１１）。

ピーククラスタ番号Ｃの更新（ステップＳ１０７、Ｓ１１１）の後、アライメント部３０６は、点集合のインデックスｉが点集合の数Ｍと等しいか否か判断する（ステップＳ１１２）。等しくない場合（ステップＳ１１２のＮｏ）、インデックスｉをインクリメントし（ステップＳ１１３）、点集合Ｓｉについての重複の判断（ステップＳ１０５）に戻る。点集合のインデックスｉが点集合の数Ｍと等しい場合（ステップＳ１１２のＹｅｓ）、変数Ｙのデータを記憶領域に保存し（ステップＳ１１４）、処理を終了する。図１５は記憶領域に保存されるアライメントの結果の例を示す図であり、ピーククラスタ番号で特定されるピーククラスタに質量電荷比と検出強度のデータが対応付けられたものとなる。

次に、クラスタ分解部３０７によるクラスタ分解の処理の詳細を説明する。図１０において、クラスタ分解部３０７は、インデックスｉに初期値「１」を設定する（ステップＳ１２１）。

次いで、クラスタ分解部３０７は、データ列からｉ番目のデータとｉ＋１番目のデータを取得し（ステップＳ１２２）、ｉ番目のデータとｉ＋１番目のデータのｍ／ｚ（質量電荷比）の差が許容値Ｘ以内であるか否か判断する（ステップＳ１２３）。

許容値Ｘ以内である場合（ステップＳ１２３のＹｅｓ）、クラスタ分解部３０７は、ｉ番目のデータとｉ＋１番目のデータを同じ点集合に分類する（ステップＳ１２４）。許容値Ｘ以内でない場合（ステップＳ１２３のＮｏ）、クラスタ分解部３０７は、ｉ番目のデータとｉ＋１番目のデータを異なる点集合に分類する（ステップＳ１２５）。

次いで、クラスタ分解部３０７は、インデックスｉをインクリメントし（ステップＳ１２６）、インデックスｉがデータ列のデータ数Ｖを超えたか否か判断する（ステップＳ１２７）。超えていない場合（ステップＳ１２７のＮｏ）、データの取得（ステップＳ１２２）に戻り、超えた場合（ステップＳ１２７のＹｅｓ）、処理を終了する。

次に、ピーククラスタ分解部３０８によるピーククラスタ分解の処理の詳細を説明する。図１１において、ピーククラスタ分解部３０８は、許容値の最大値Ｘｍａｘに初期値（例：１０ｐｐｍ）を設定し、最小値Ｘｍｉｎに初期値（例：０ｐｐｍ）を設定し、ピーククラスタ分解の成功回数ｃｏｕｎｔに初期値「０」を設定する（ステップＳ１３１）。

次いで、ピーククラスタ分解部３０８は、許容値Ｘを
Ｘ＝（Ｘｍａｘ＋Ｘｍｉｎ）／２
により計算する（ステップＳ１３２）。そして、クラスタ分解部３０７を呼び出し、クラスタ分解を行う（ステップＳ１３３）。クラスタ分解の処理の詳細については既に説明（図１０）した通りである。

次いで、ピーククラスタ分解部３０８は、スペクトル番号が重複する点集合はないか否か判断する（ステップＳ１３４）。スペクトル番号が重複する点集合はない場合（ステップＳ１３４のＹｅｓ）、最小値Ｘｍｉｎに現時点の許容値Ｘを設定し、クラスタリング情報（どのデータをどの点集合に分類したかを示す情報）を変数に保存し、成功回数ｃｏｕｎｔをインクリメントする（ステップＳ１３５）。スペクトル番号が重複する点集合がある場合（ステップＳ１３４のＮｏ）、最大値Ｘｍａｘに現時点の許容値Ｘを設定する（ステップＳ１３６）。

次いで、ピーククラスタ分解部３０８は、最大値Ｘｍａｘと最小値Ｘｍｉｎの差が所定の閾値（例：０．０１ｐｐｍ）より小さいか否か判断する（ステップＳ１３７）。そして、その閾値よりも小さくなければ（ステップＳ１３７のＮｏ）、更に最適化が可能であるものとして、許容値Ｘの計算（ステップＳ１３２）に戻る。

最大値Ｘｍａｘと最小値Ｘｍｉｎの差が所定の閾値よりも小さい場合（ステップＳ１３７のＹｅｓ）、成功回数ｃｏｕｎｔが０より大きいか（１以上であるか）否か判断する（ステップＳ１３８）。成功回数ｃｏｕｎｔが０より大きい場合（ステップＳ１３８のＹｅｓ）、クラスタリング情報を記録した変数のデータを記憶領域に保存し（ステップＳ１３９）、処理を終了する。成功回数ｃｏｕｎｔが０より大きくない場合（０の場合）（ステップＳ１３８のＮｏ）、ピーククラスタ分解が失敗した旨のエラーコードを出力し（ステップＳ１４０）、処理を終了する。なお、二分法を用いて最適化する例について示したが、他の手法（例えばニュートン法など）を用いて最適化することもできる。

すなわち、許容値Ｘを極限まで小さくすることで準クラスタはなくなるが、許容値Ｘを小さくし過ぎると本来は同じピークにまとめるべきデータを異なるピーククラスタに分類してしまう。そのため、ピーククラスタ分解部３０８は、許容値Ｘを変動させることで、準クラスタが生じない範囲で最大の許容値Ｘを求めるように動作する。なお、ピークの分布は正規分布的となり、その分布の分散はピーク毎に異なるため、上記の動作によって、ピーク毎に適切な許容値Ｘで分類を行うことができる。

図４に戻り、平均値計算部３０９は、アライメント部３０６による処理結果に基づき、各ピーククラスタに含まれるデータの質量電荷比と検出強度のそれぞれの平均値を計算する（ステップＳ６）。ここで、質量電荷比の平均値は、クラスタに含まれるデータの質量電荷比の合計値をデータ数（観測回数）で除算することにより求める。検出強度の平均値は、クラスタに含まれるデータの検出強度の合計値をＭＳスペクトルの数（測定回数）Ｎで除算することにより求める。これは、観測されなかった検出強度はゼロであるという物理的解釈に基づくものである。

次いで、統計情報計算・ノイズ除去部３１０は、統計情報の一つとして、ＭＳスペクトルの数に対する各ピーククラスタに含まれるデータ数の比から検出頻度を算出し、その検出頻度に基づいて信頼性の低いデータのピーククラスタをノイズ等であるとして除去する（ステップＳ７）。図１６はノイズ除去の例を示す図であり、（ａ）はノイズ除去前の質量電荷比に対する検出頻度、（ｂ）はノイズ除去前の質量電荷比に対する検出強度、（ｃ）はノイズ除去後の質量電荷比に対する検出強度を示している。（ａ）において、下辺に小さな検出頻度で密集するピークはノイズと判断できるため、それらを（ｂ）の状態から除去することで（ｃ）のようなノイズのないシンプルな平均化ＭＳスペクトルを得ることができる。なお、ここで重要なのは、検出強度に依存するのではなく、検出頻度に基づいてノイズ除去を行っているため、検出強度が小さいピークであっても、検出頻度が高いものはノイズと判断されず、意味のある測定結果として残されることである。

また、検出頻度（観測確率）は、対象物質の内部での存在確率を反映しており、物質の試料２内部での偏りの評価に使用することもできる。

図４に戻り、データ出力部３１１は、ノイズ除去の行われた後の各ピーククラスタの質量電荷比の平均値と検出強度の平均値の対のデータからなるデータ群を、平均化ＭＳスペクトルのデータとして出力する（ステップＳ８）。なお、データ出力部３１１は、グラフ形式に加工した平均化ＭＳスペクトルを出力するようにしてもよい。

＜応用＞
上述した実施形態は、質量分析の対象について制約を伴うものではないが、例えば、ヒト（人間）の１細胞分子（ヒトの細胞内から抽出した物質）を質量分析の対象とすることで、医師による診断の支援に用いることができる。

また、上述した実施形態ではＭＳスペクトルについて処理を行う場合について説明したが、ＭＳスペクトルに限らず、例えば分光スペクトル（赤外分光スペクトル、紫外分光スペクトル等）や核磁気共鳴スペクトル等の離散スペクトルの処理に適用することができる。

＜総括＞
以上説明したように、本実施形態によれば、データの分類の精度を高めることができる。

以上、好適な実施の形態により説明した。ここでは特定の具体例を示して説明したが、特許請求の範囲に定義された広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により限定されるものと解釈してはならない。

なお、「質量電荷比（ｍ／ｚ）」は「物理的な指標値」の一例である。「ＭＳスペクトル」は「データ群」の一例である。「スペクトル番号」は「識別情報」の一例である。

以上の説明に関し、更に以下の項を開示する。
（付記１）物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
処理をコンピュータが実行することを特徴とするデータ分類方法。
（付記２）前記複数のクラスタそれぞれに含まれる複数のデータ間で前記識別情報の重複が生じないように、前記複数のデータ群に含まれる複数のデータを前記複数のクラスタに分類する、
ことを特徴とする付記１に記載のデータ分類方法。
（付記３）前記複数のクラスタそれぞれ毎に、前記検出強度に関する計算を実行する、
ことを特徴とする付記１または２に記載のデータ分類方法。
（付記４）前記計算は、前記複数のクラスタそれぞれ毎に、前記検出強度の平均値を算出する計算である、
ことを特徴とする付記３に記載のデータ分類方法。
（付記５）前記データ群の数と、前記クラスタそれぞれに含まれるデータの数とに基づき、前記クラスタそれぞれに含まれる前記データの評価に関する情報を出力する、
ことを特徴とする付記１乃至４の何れかに記載のデータ分類方法。
（付記６）前記複数のデータ群は、対象の試料について行われた複数の質量分析の結果に関するデータ群であって、前記検出強度に関する複数のデータは、前記試料に含まれる複数の物質の検出量に関するデータであって、前記物理的な指標値は、前記物質の質量に関する指標値である、
ことを特徴とする付記１乃至５の何れかに記載のデータ分類方法。
（付記７）前記特定の試料は、ヒトの細胞内に存在する物質である、
ことを特徴とする付記６に記載のデータ分類方法。
（付記８）同じ分析手法を適用して得られた複数回分の計測データを取得し、
前記複数回分の計測により得られた物理的な指標値毎の計測値を物理的な指標値の近似性に応じてクラスタリングする際に、計測値がいずれの計測で得られたかを識別する計測識別情報に基づいて、同じ計測で得られた計測値は同じグループに属さないようにする、
処理をコンピュータが実行する
ことを特徴とするデータ分類方法。
（付記９）複数の物質それぞれの質量に関する指標値にそれぞれが対応づけられた、物質の検出量に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
前記複数のデータ群それぞれの識別情報と、前記複数の物質それぞれの質量に関する指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
処理をコンピュータが実行する
ことを特徴とするデータ分類方法。
（付記１０）物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得する手段と、
前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する手段と、
を備えたことを特徴とするデータ分類装置。
（付記１１）前記複数のクラスタそれぞれに含まれる複数のデータ間で前記識別情報の重複が生じないように、前記複数のデータ群に含まれる複数のデータを前記複数のクラスタに分類する、
ことを特徴とする付記１０に記載のデータ分類装置。
（付記１２）前記複数のクラスタそれぞれ毎に、前記検出強度に関する計算を実行する、
ことを特徴とする付記１０または１１に記載のデータ分類装置。
（付記１３）前記計算は、前記複数のクラスタそれぞれ毎に、前記検出強度の平均値を算出する計算である、
ことを特徴とする付記１２に記載のデータ分類装置。
（付記１４）前記データ群の数と、前記クラスタそれぞれに含まれるデータの数とに基づき、前記クラスタそれぞれに含まれる前記データの評価に関する情報を出力する、
ことを特徴とする付記１０乃至１３の何れかに記載のデータ分類装置。
（付記１５）前記複数のデータ群は、対象の試料について行われた複数の質量分析の結果に関するデータ群であって、前記検出強度に関する複数のデータは、前記試料に含まれる複数の物質の検出量に関するデータであって、前記物理的な指標値は、前記物質の質量に関する指標値である、
ことを特徴とする付記１０乃至１４の何れかに記載のデータ分類装置。
（付記１６）前記特定の試料は、ヒトの細胞内に存在する物質である、
ことを特徴とする付記１５に記載のデータ分類装置。
（付記１７）同じ分析手法を適用して得られた複数回分の計測データを取得する手段と、
前記複数回分の計測により得られた物理的な指標値毎の計測値を物理的な指標値の近似性に応じてクラスタリングする際に、計測値がいずれの計測で得られたかを識別する計測識別情報に基づいて、同じ計測で得られた計測値は同じグループに属さないようにする手段と、
を備えたことを特徴とするデータ分類装置。
（付記１８）複数の物質それぞれの質量に関する指標値にそれぞれが対応づけられた、物質の検出量に関する複数のデータをそれぞれが含む複数のデータ群を取得する手段と、
前記複数のデータ群それぞれの識別情報と、前記複数の物質それぞれの質量に関する指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する手段と、
を備えたことを特徴とするデータ分類装置。
（付記１９）物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
処理をコンピュータに実行させるデータ分類プログラム。
（付記２０）前記複数のクラスタそれぞれに含まれる複数のデータ間で前記識別情報の重複が生じないように、前記複数のデータ群に含まれる複数のデータを前記複数のクラスタに分類する、
ことを特徴とする付記１９に記載のデータ分類プログラム。
（付記２１）前記複数のクラスタそれぞれ毎に、前記検出強度に関する計算を実行する、
ことを特徴とする付記１９または２０に記載のデータ分類プログラム。
（付記２２）前記計算は、前記複数のクラスタそれぞれ毎に、前記検出強度の平均値を算出する計算である、
ことを特徴とする付記２１に記載のデータ分類プログラム。
（付記２３）前記データ群の数と、前記クラスタそれぞれに含まれるデータの数とに基づき、前記クラスタそれぞれに含まれる前記データの評価に関する情報を出力する、
ことを特徴とする付記１９乃至２２の何れかに記載のデータ分類プログラム。
（付記２４）前記複数のデータ群は、対象の試料について行われた複数の質量分析の結果に関するデータ群であって、前記検出強度に関する複数のデータは、前記試料に含まれる複数の物質の検出量に関するデータであって、前記物理的な指標値は、前記物質の質量に関する指標値である、
ことを特徴とする付記１９乃至２３の何れかに記載のデータ分類プログラム。
（付記２５）前記特定の試料は、ヒトの細胞内に存在する物質である、
ことを特徴とする付記２４に記載のデータ分類プログラム。
（付記２６）同じ分析手法を適用して得られた複数回分の計測データを取得し、
前記複数回分の計測により得られた物理的な指標値毎の計測値を物理的な指標値の近似性に応じてクラスタリングする際に、計測値がいずれの計測で得られたかを識別する計測識別情報に基づいて、同じ計測で得られた計測値は同じグループに属さないようにする、
処理をコンピュータに実行させるデータ分類プログラム。
（付記２７）複数の物質それぞれの質量に関する指標値にそれぞれが対応づけられた、物質の検出量に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
前記複数のデータ群それぞれの識別情報と、前記複数の物質それぞれの質量に関する指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
処理をコンピュータに実行させるデータ分類プログラム。

１質量分析装置
２試料
３情報処理装置
３０１ピークピック処理部
３０２データ読込部
３０３ピークピック部
３０４平均化ＭＳスペクトル計算部
３０５データ読込部
３０６アライメント部
３０７クラスタ分解部
３０８ピーククラスタ分解部
３０９平均値計算部
３１０統計情報計算・ノイズ除去部
３１１データ出力部

Claims

物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
処理をコンピュータが実行することを特徴とするデータ分類方法。
前記複数のクラスタそれぞれに含まれる複数のデータ間で前記識別情報の重複が生じないように、前記複数のデータ群に含まれる複数のデータを前記複数のクラスタに分類する、
ことを特徴とする請求項１に記載のデータ分類方法。
前記複数のクラスタそれぞれ毎に、前記検出強度に関する計算を実行する、
ことを特徴とする請求項１または２に記載のデータ分類方法。
前記計算は、前記複数のクラスタそれぞれ毎に、前記検出強度の平均値を算出する計算である、
ことを特徴とする請求項３に記載のデータ分類方法。
前記データ群の数と、前記クラスタそれぞれに含まれるデータの数とに基づき、前記クラスタそれぞれに含まれる前記データの評価に関する情報を出力する、
ことを特徴とする請求項１乃至４の何れかに記載のデータ分類方法。
前記複数のデータ群は、対象の試料について行われた複数の質量分析の結果に関するデータ群であって、前記検出強度に関する複数のデータは、前記試料に含まれる複数の物質の検出量に関するデータであって、前記物理的な指標値は、前記物質の質量に関する指標値である、
ことを特徴とする請求項１乃至５の何れかに記載のデータ分類方法。
前記特定の試料は、ヒトの細胞内に存在する物質である、
ことを特徴とする請求項６に記載のデータ分類方法。
同じ分析手法を適用して得られた複数回分の計測データを取得し、
前記複数回分の計測により得られた物理的な指標値毎の計測値を物理的な指標値の近似性に応じてクラスタリングする際に、計測値がいずれの計測で得られたかを識別する計測識別情報に基づいて、同じ計測で得られた計測値は同じグループに属さないようにする、
処理をコンピュータが実行する
ことを特徴とするデータ分類方法。
複数の物質それぞれの質量に関する指標値にそれぞれが対応づけられた、物質の検出量に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
前記複数のデータ群それぞれの識別情報と、前記複数の物質それぞれの質量に関する指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
処理をコンピュータが実行する
ことを特徴とするデータ分類方法。
物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得する手段と、
前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する手段と、
を備えたことを特徴とするデータ分類装置。
物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
処理をコンピュータに実行させるデータ分類プログラム。