JP2017211762A - データ分類方法、データ分類装置およびデータ分類プログラム - Google Patents

データ分類方法、データ分類装置およびデータ分類プログラム Download PDF

Info

Publication number
JP2017211762A
JP2017211762A JP2016103425A JP2016103425A JP2017211762A JP 2017211762 A JP2017211762 A JP 2017211762A JP 2016103425 A JP2016103425 A JP 2016103425A JP 2016103425 A JP2016103425 A JP 2016103425A JP 2017211762 A JP2017211762 A JP 2017211762A
Authority
JP
Japan
Prior art keywords
data
index value
classification method
data classification
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016103425A
Other languages
English (en)
Inventor
大介 櫛部
Daisuke Kushibe
大介 櫛部
剛史 江崎
Tsuyoshi Esaki
剛史 江崎
努 升島
Tsutomu Masujima
努 升島
政仁 山口
Masahito Yamaguchi
政仁 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
RIKEN Institute of Physical and Chemical Research
Original Assignee
Fujitsu Ltd
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, RIKEN Institute of Physical and Chemical Research filed Critical Fujitsu Ltd
Priority to JP2016103425A priority Critical patent/JP2017211762A/ja
Priority to US15/601,004 priority patent/US20170344659A1/en
Publication of JP2017211762A publication Critical patent/JP2017211762A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/4833Physical analysis of biological material of solid biological material, e.g. tissue samples, cell cultures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Urology & Nephrology (AREA)
  • Biochemistry (AREA)
  • Hematology (AREA)
  • Molecular Biology (AREA)
  • Optics & Photonics (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Software Systems (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データの分類の精度を高める。【解決手段】物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得し、前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、処理をコンピュータが実行する。【選択図】図2

Description

本発明は、データ分類方法、データ分類装置およびデータ分類プログラムに関する。
試料に含まれる物質(分子)を調べるために、質量分析装置が用いられる。質量分析装置は、一例として、高電圧をかけた真空中でイオン化された物質が静電力によって装置内を飛行する際に、飛行経路に沿って加えられる電気的・磁気的な作用で質量電荷比(m/z)に応じて飛行方向と直行する方向に分離されることを利用している。そして、質量分析装置は、分離された物質(イオン)の到達量をそれぞれ検出することで、質量電荷比と検出強度(Intensity)とが対となる複数のデータを取得する。質量電荷比を横軸、検出強度を縦軸として表したグラフまたは同内容のデータは、MSスペクトル(マススペクトル)と呼ばれる。なお、質量分析装置から出力される生データにおける質量電荷比の分解能は、測定の対象となる物質の質量電荷比の違いを区別し得るものよりも高い。そのため、生データの検出強度を繋いだ波形からピークを検出(ピークピック)し、検出されたピークについての質量電荷比と検出強度の対のデータに変換する場合がある。このようなピークピック後のデータもMSスペクトルと呼ばれる。
ところで、質量分析装置による1回の測定により1組のMSスペクトルの生データが得られるが、1回の測定では精度を担保することが困難であるため、同一の試料に対し同一の測定条件で複数回の測定を行うのが一般的である。複数回の測定により得られた、測定回数と同数のMSスペクトルに対応する生データから、質量電荷比が同一の複数のピークを特定して、特定した複数のピークの検出強度を平均化している。質量分析における情報処理技術として、特許文献1−3が知られている。
特開2014−112068号公報 特開2013−40808号公報 特開2012−247198号公報
ところが、精密な分析が必要な場合、質量電荷比が同一の複数のピークを特定したとしても、測定値のゆらぎの影響によって、同一の物質に対応するピークを正確に特定できないことがある。すなわち、ゆらぎの影響を考慮しない場合、質量分析の精度が低下することもある。このため、質量分析の精度を高めるためには、複数回の測定により得られた、複数のピークのデータを物質別に正確に分類することは重要である。ここでは、MSスペクトルを例に説明したが、MSスペクトルに限らず、例えば分光スペクトル(赤外分光スペクトル、紫外分光スペクトル等)や核磁気共鳴スペクトル等の離散スペクトルの処理でも同等の課題が生じる。
一側面では、本発明は、データの分類の精度を高めることを目的とする。
開示の形態は、物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得し、前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、処理をコンピュータが実行する。
データの分類の精度を高めることができる。
一実施形態にかかるシステムの構成例を示す図である。 情報処理装置のソフトウェア構成例を示す図である。 情報処理装置のハードウェア構成例を示す図である。 実施形態の処理例を示すフローチャートである。 生データのデータ構造例を示す図である。 ピークピックの例を示す図である。 ピークピック済のMSスペクトルのデータ構造例を示す図である。 アライメントの例を示す図である。 アライメントの処理例を示すフローチャートである。 クラスタ分解の処理例を示すフローチャートである。 ピーククラスタ分解の処理例を示すフローチャートである。 データ列の例を示す図である。 クラスタ分解の例を示す図である。 ピーククラスタ分解の例を示す図である。 アライメントの結果の例を示す図である。 ノイズ除去の例を示す図である。
以下、本発明の好適な実施形態につき説明する。
<構成>
図1は一実施形態にかかるシステムの構成例を示す図である。図1において、システムは、質量分析装置1と情報処理装置3を備えている。質量分析装置1は、試料2に対して測定(質量分析)を行い、質量電荷比(m/z)と検出強度(Intensity)の対のデータを複数含むMSスペクトル(データ群)の生データを出力する。生データには、MSスペクトルの他に、測定条件等の他の情報を含んでいてもよい。なお、一般に同一の試料2について複数回の測定が行われ、生データにおいては、1回の測定分のMSスペクトルが区別可能とされている。情報処理装置3は、質量分析装置1の出力する生データをオフライン経由またはオンライン経由で読み込んで情報処理を行い、最終的に平均化MSスペクトルをデータ形式またはグラフ形式で出力する。なお、情報処理装置3は、1台である必要はなく、複数台としてもよい。
図2は情報処理装置3のソフトウェア構成例を示す図である。図2において、情報処理装置3は、ピークピック処理部301と平均化MSスペクトル計算部304とを備えている。ピークピック処理部301は、ピークピック処理を行う機能を有しており、データ読込部302とピークピック部303とを備えている。データ読込部302は、質量分析装置1の出力する生データを読み込む機能を有している。ピークピック部303は、データ読込部302により読み込まれた生データからピークピックを行い、ピークピック済のMSスペクトルのデータを出力する機能を有している。なお、ピークピックは、生データから1回の測定分のMSスペクトルを区別して行い、ピークピック済のMSスペクトルのデータにはMSスペクトルの識別情報としてスペクトル番号を付与し、出力するデータに含める。
平均化MSスペクトル計算部304は、平均化MSスペクトルの計算を行う機能を有している。平均化MSスペクトル計算部304は、データ読込部305とアライメント部306とクラスタ分解部307とピーククラスタ分解部308と平均値計算部309と統計情報計算・ノイズ除去部310とデータ出力部311とを備えている。データ読込部305は、ピークピック処理部301の出力するピークピック済のMSスペクトルのデータを読み込む機能を有している。アライメント部306は、データ読込部305により読み込まれた複数のピークピック済のMSスペクトルのデータから、測定値のゆらぎを考慮して、複数のMSスペクトルにおける対応するピークのデータの同定(アライメント)を行う機能を有している。
クラスタ分解部307は、アライメント部306またはピーククラスタ分解部308から呼び出されてクラスタ分解の処理を行う機能を有している。クラスタ分解は、複数のMSスペクトルに含まれる全データを質量電荷比でソートした対象データ群(データ列)に対し、隣り合うデータの質量電荷比の差が所定の許容値以内である場合は同じ点集合に入れ、許容値以内でない場合は異なる点集合に入れる処理である。この処理では、質量電荷比の差が所定の許容値以内であるか否かにより分類(クラスタリング)されるものであるため、1つの点集合の中に同じスペクトル番号のデータが含まれる場合がある。しかし、同じ点集合に同じスペクトル番号のデータが含まれるということは、本来は別のピークとして認識されるべきデータが同じ点集合に分類されてしまっていることになる。そのため、同じスペクトル番号のデータが含まれないものをピーククラスタと呼び、同じスペクトル番号のデータが含まれているものを準クラスタと呼んで区別することにする。ピーククラスタ分解部308は、アライメント部306から呼び出されて、準クラスタについてピーククラスタ分解を行う機能を有している。ピーククラスタ分解は、準クラスタをピーククラスタに分解するものである。
平均値計算部309は、アライメント部306の処理結果に基づき、各ピーククラスタに含まれるデータの質量電荷比と検出強度のそれぞれの平均値を計算する機能を有している。各ピーククラスタに入れられたデータは複数のMSスペクトルにおいて対応するピークとして同定されたものであるため、それらを代表する平均値を求めるものである。統計情報計算・ノイズ除去部310は、統計情報の一つとして、MSスペクトルの数に対する各クラスタに含まれるデータ数の比から検出頻度(観測確率)を算出する。検出頻度はデータの評価に関する情報として用いることができる。例えば、MSスペクトルの数と同数のデータがクラスタに含まれる場合、検出頻度は100%となり、全てのMSスペクトルにおいて対応するピークが検出されていることから、信頼性の高いデータであることがわかる。反対に、MSスペクトルの数に比して少ないデータしかクラスタに含まれてない場合、検出頻度は小さな値となり、質量分析装置1に紛れ込む再現性のない超微量の夾雑物や電気的なノイズ等に起因する信頼性の低いデータであることがわかる。
統計情報計算・ノイズ除去部310は、上記の検出頻度に基づき、信頼性の低いデータのピーククラスタをノイズ等であるとして除去する機能も有している。データ出力部311は、ノイズ除去の行われた後の各ピーククラスタの質量電荷比の平均値と検出強度の平均値の対のデータからなるデータ群を、平均化MSスペクトルのデータとして出力する機能を有している。なお、データ出力部311は、グラフ形式に加工した平均化MSスペクトルを出力する機能を有してもよい。
図3は情報処理装置3のハードウェア構成例を示す図である。図3において、情報処理装置3は、システムバス321に接続されたCPU(Central Processing Unit)322、ROM(Read Only Memory)323、RAM(Random Access Memory)324、NVRAM(Non-Volatile Random Access Memory)325を備えている。また、情報処理装置3は、I/F(Interface)326と、I/F326に接続された、I/O(Input/Output Device)327、HDD(Hard Disk Drive)328、NIC(Network Interface Card)329と、I/O327に接続されたモニタ330、キーボード331、マウス332等を備えている。I/O327にはCD/DVD(Compact Disk/Digital Versatile Disk)ドライブ等を接続することもできる。
図3のCPU322上で実行されるプログラムにより、図2に示した各部は実現される。プログラムは、記録媒体で提供されてもよいし、ネットワーク経由で提供されてもよいし、ROM組込でもよい。
<動作>
図4は上記の実施形態の処理例を示すフローチャートである。図4において、測定担当者は、質量分析装置1により、同一の試料2および同一の測定条件によって複数回の測定を行う(ステップS1)。測定により、測定結果として生データが出力される。
次いで、情報処理装置3のデータ読込部302は、質量分析装置1の出力する生データをオフライン経由またはオンライン経由で読み込む(ステップS2)。図5は生データのデータ構造例を示す図であり、第1回測定分から第N回測定分までについて、質量電荷比と検出強度の対のデータが複数含まれている。
図4に戻り、情報処理装置3のピークピック部303は、データ読込部302により読み込まれた生データからピークピックを行い、ピークピック済のMSスペクトルのデータを出力する(ステップS3)。図6はピークピックの例を示す図であり、(a)は生データにおけるデータ、(b)はピークピックされたピークを示している。図に示すように、生データの検出強度を繋いだ波形からピークを検出する。なお、ピークピックのアルゴリズムとしては、既知のものを利用することができる。実装上は、既存のスペクトル解析ソフトウェア(ProteoWizard等)に搭載されたピークピックの機能を利用することを想定している。図7はピークピック済のMSスペクトルのデータ構造例を示す図であり、スペクトル番号:1(第1回測定分に対応)からスペクトル番号:N(第N回測定分に対応)までについて、質量電荷比と検出強度の対のデータが複数含まれている。
図4に戻り、情報処理装置3のデータ読込部305は、ピークピック処理部301の出力するピークピック済のMSスペクトルのデータを読み込む(ステップS4)。
次いで、アライメント部306は、データ読込部305により読み込まれた複数のピークピック済のMSスペクトルのデータから、測定値のゆらぎを考慮して、複数のMSスペクトルにおける対応するピークのデータの同定(アライメント)を行う(ステップS5)。
図8はアライメントの例を示す図である。図8において、スペクトル番号1、2、・・、NのMSスペクトルにおいて、測定値のゆらぎにより、あるピークに対応する横軸の質量電荷比の値は完全には一致しないが、同じピークに対応するものと考えられるピークを対応付けることをアライメントと呼ぶ。本実施形態では、アライメントをクラスタリングの技術により実現している。
図9はアライメント部306によるアライメントの処理例を示すフローチャートである。また、図10はアライメント部306またはピーククラスタ分解部308から呼び出されたクラスタ分解部307によるクラスタ分解の処理例を示すフローチャートである。図11はアライメント部306から呼び出されたピーククラスタ分解部308によるピーククラスタ分解の処理例を示すフローチャートである。
図9において、アライメント部306は、データ読込部305により読み込まれた複数のピークピック済のMSスペクトルのデータから処理対象のデータ列を作成する(ステップS101)。すなわち、ピークピック済の複数のMSスペクトルに含まれる全データを質量電荷比でソートすることでデータ列を作成する。データ列に含まれるデータの数はVとする。図12はデータ列の例を示す図であり、質量電荷比(m/z)と検出強度(Intensity)とスペクトル番号を1組とした複数のデータが、質量電荷比によりソート(この例では昇順にソート)されて列挙されている。
図9に戻り、アライメント部306は、質量電荷比のゆらぎに対して同一のピークであると判断する許容値Xに初期値(例:10ppm)を設定する(ステップS102)。
次いで、アライメント部306は、クラスタ分解部307を呼び出し、クラスタ分解を行う(ステップS103)。クラスタ分解の処理の詳細については後述する。クラスタ分解により、揺れ幅が許容値X以内に収まり、隣の集合とは許容値Xより離れた点集合に分類される。分類された点集合の数はMとする。図13はクラスタ分解の例を示す図であり、左欄のデータ列をクラスタ分解した結果が右欄である。点集合番号「1」の点集合はスペクトル番号「5」のデータが重複していることから準クラスタであり、その他の点集合はピーククラスタである。
図9に戻り、アライメント部306は、点集合のインデックスiに初期値「1」を設定し、ピーククラスタ番号Cに初期値「1」を設定する(ステップS104)。
次いで、アライメント部306は、インデックスiにより特定される点集合Siはスペクトル番号が重複しないか否か判断する(ステップS105)。重複しない場合(ステップS105のYes)、ピーククラスタ番号Cの結果を格納する変数Y(C)に点集合Siの情報を保存する(ステップS106)。点集合Siの情報として、点集合Siに含められたデータの質量電荷比と検出強度をそのまま格納してもよいし、データに識別番号を付して質量電荷比と検出強度を他に格納する場合は、データの識別番号を格納してもよい。次いで、アライメント部306は、ピーククラスタ番号Cをインクリメントする(ステップS107)。
一方、点集合Siはスペクトル番号が重複する場合(ステップS105のNo)、アライメント部306は、ピーククラスタ分解部308を呼び出し、点集合Siについてピーククラスタ分解を行う(ステップS108)。ピーククラスタ分解の処理の詳細については後述する。ピーククラスタ分解により、準クラスタであった点集合Siは複数のピーククラスタに分解される。図14はピーククラスタ分解の例を示す図であり、点集合番号「1」の点集合が2つのピーククラスタに分解された様子を示している。
図9に戻り、アライメント部306は、ピーククラスタ分解により得られたピーククラスタの個数Mを取得し(ステップS109)、変数Y(C)、Y(C+1)、・・Y(C+M−1)に各ピーククラスタの情報を保存する(ステップS110)。次いで、アライメント部306は、ピーククラスタ番号Cにピーククラスタの個数Mを加算する(ステップS111)。
ピーククラスタ番号Cの更新(ステップS107、S111)の後、アライメント部306は、点集合のインデックスiが点集合の数Mと等しいか否か判断する(ステップS112)。等しくない場合(ステップS112のNo)、インデックスiをインクリメントし(ステップS113)、点集合Siについての重複の判断(ステップS105)に戻る。点集合のインデックスiが点集合の数Mと等しい場合(ステップS112のYes)、変数Yのデータを記憶領域に保存し(ステップS114)、処理を終了する。図15は記憶領域に保存されるアライメントの結果の例を示す図であり、ピーククラスタ番号で特定されるピーククラスタに質量電荷比と検出強度のデータが対応付けられたものとなる。
次に、クラスタ分解部307によるクラスタ分解の処理の詳細を説明する。図10において、クラスタ分解部307は、インデックスiに初期値「1」を設定する(ステップS121)。
次いで、クラスタ分解部307は、データ列からi番目のデータとi+1番目のデータを取得し(ステップS122)、i番目のデータとi+1番目のデータのm/z(質量電荷比)の差が許容値X以内であるか否か判断する(ステップS123)。
許容値X以内である場合(ステップS123のYes)、クラスタ分解部307は、i番目のデータとi+1番目のデータを同じ点集合に分類する(ステップS124)。許容値X以内でない場合(ステップS123のNo)、クラスタ分解部307は、i番目のデータとi+1番目のデータを異なる点集合に分類する(ステップS125)。
次いで、クラスタ分解部307は、インデックスiをインクリメントし(ステップS126)、インデックスiがデータ列のデータ数Vを超えたか否か判断する(ステップS127)。超えていない場合(ステップS127のNo)、データの取得(ステップS122)に戻り、超えた場合(ステップS127のYes)、処理を終了する。
次に、ピーククラスタ分解部308によるピーククラスタ分解の処理の詳細を説明する。図11において、ピーククラスタ分解部308は、許容値の最大値Xmaxに初期値(例:10ppm)を設定し、最小値Xminに初期値(例:0ppm)を設定し、ピーククラスタ分解の成功回数countに初期値「0」を設定する(ステップS131)。
次いで、ピーククラスタ分解部308は、許容値Xを
X=(Xmax+Xmin)/2
により計算する(ステップS132)。そして、クラスタ分解部307を呼び出し、クラスタ分解を行う(ステップS133)。クラスタ分解の処理の詳細については既に説明(図10)した通りである。
次いで、ピーククラスタ分解部308は、スペクトル番号が重複する点集合はないか否か判断する(ステップS134)。スペクトル番号が重複する点集合はない場合(ステップS134のYes)、最小値Xminに現時点の許容値Xを設定し、クラスタリング情報(どのデータをどの点集合に分類したかを示す情報)を変数に保存し、成功回数countをインクリメントする(ステップS135)。スペクトル番号が重複する点集合がある場合(ステップS134のNo)、最大値Xmaxに現時点の許容値Xを設定する(ステップS136)。
次いで、ピーククラスタ分解部308は、最大値Xmaxと最小値Xminの差が所定の閾値(例:0.01ppm)より小さいか否か判断する(ステップS137)。そして、その閾値よりも小さくなければ(ステップS137のNo)、更に最適化が可能であるものとして、許容値Xの計算(ステップS132)に戻る。
最大値Xmaxと最小値Xminの差が所定の閾値よりも小さい場合(ステップS137のYes)、成功回数countが0より大きいか(1以上であるか)否か判断する(ステップS138)。成功回数countが0より大きい場合(ステップS138のYes)、クラスタリング情報を記録した変数のデータを記憶領域に保存し(ステップS139)、処理を終了する。成功回数countが0より大きくない場合(0の場合)(ステップS138のNo)、ピーククラスタ分解が失敗した旨のエラーコードを出力し(ステップS140)、処理を終了する。なお、二分法を用いて最適化する例について示したが、他の手法(例えばニュートン法など)を用いて最適化することもできる。
すなわち、許容値Xを極限まで小さくすることで準クラスタはなくなるが、許容値Xを小さくし過ぎると本来は同じピークにまとめるべきデータを異なるピーククラスタに分類してしまう。そのため、ピーククラスタ分解部308は、許容値Xを変動させることで、準クラスタが生じない範囲で最大の許容値Xを求めるように動作する。なお、ピークの分布は正規分布的となり、その分布の分散はピーク毎に異なるため、上記の動作によって、ピーク毎に適切な許容値Xで分類を行うことができる。
図4に戻り、平均値計算部309は、アライメント部306による処理結果に基づき、各ピーククラスタに含まれるデータの質量電荷比と検出強度のそれぞれの平均値を計算する(ステップS6)。ここで、質量電荷比の平均値は、クラスタに含まれるデータの質量電荷比の合計値をデータ数(観測回数)で除算することにより求める。検出強度の平均値は、クラスタに含まれるデータの検出強度の合計値をMSスペクトルの数(測定回数)Nで除算することにより求める。これは、観測されなかった検出強度はゼロであるという物理的解釈に基づくものである。
次いで、統計情報計算・ノイズ除去部310は、統計情報の一つとして、MSスペクトルの数に対する各ピーククラスタに含まれるデータ数の比から検出頻度を算出し、その検出頻度に基づいて信頼性の低いデータのピーククラスタをノイズ等であるとして除去する(ステップS7)。図16はノイズ除去の例を示す図であり、(a)はノイズ除去前の質量電荷比に対する検出頻度、(b)はノイズ除去前の質量電荷比に対する検出強度、(c)はノイズ除去後の質量電荷比に対する検出強度を示している。(a)において、下辺に小さな検出頻度で密集するピークはノイズと判断できるため、それらを(b)の状態から除去することで(c)のようなノイズのないシンプルな平均化MSスペクトルを得ることができる。なお、ここで重要なのは、検出強度に依存するのではなく、検出頻度に基づいてノイズ除去を行っているため、検出強度が小さいピークであっても、検出頻度が高いものはノイズと判断されず、意味のある測定結果として残されることである。
また、検出頻度(観測確率)は、対象物質の内部での存在確率を反映しており、物質の試料2内部での偏りの評価に使用することもできる。
図4に戻り、データ出力部311は、ノイズ除去の行われた後の各ピーククラスタの質量電荷比の平均値と検出強度の平均値の対のデータからなるデータ群を、平均化MSスペクトルのデータとして出力する(ステップS8)。なお、データ出力部311は、グラフ形式に加工した平均化MSスペクトルを出力するようにしてもよい。
<応用>
上述した実施形態は、質量分析の対象について制約を伴うものではないが、例えば、ヒト(人間)の1細胞分子(ヒトの細胞内から抽出した物質)を質量分析の対象とすることで、医師による診断の支援に用いることができる。
また、上述した実施形態ではMSスペクトルについて処理を行う場合について説明したが、MSスペクトルに限らず、例えば分光スペクトル(赤外分光スペクトル、紫外分光スペクトル等)や核磁気共鳴スペクトル等の離散スペクトルの処理に適用することができる。
<総括>
以上説明したように、本実施形態によれば、データの分類の精度を高めることができる。
以上、好適な実施の形態により説明した。ここでは特定の具体例を示して説明したが、特許請求の範囲に定義された広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により限定されるものと解釈してはならない。
なお、「質量電荷比(m/z)」は「物理的な指標値」の一例である。「MSスペクトル」は「データ群」の一例である。「スペクトル番号」は「識別情報」の一例である。
以上の説明に関し、更に以下の項を開示する。
(付記1) 物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
処理をコンピュータが実行することを特徴とするデータ分類方法。
(付記2) 前記複数のクラスタそれぞれに含まれる複数のデータ間で前記識別情報の重複が生じないように、前記複数のデータ群に含まれる複数のデータを前記複数のクラスタに分類する、
ことを特徴とする付記1に記載のデータ分類方法。
(付記3) 前記複数のクラスタそれぞれ毎に、前記検出強度に関する計算を実行する、
ことを特徴とする付記1または2に記載のデータ分類方法。
(付記4) 前記計算は、前記複数のクラスタそれぞれ毎に、前記検出強度の平均値を算出する計算である、
ことを特徴とする付記3に記載のデータ分類方法。
(付記5) 前記データ群の数と、前記クラスタそれぞれに含まれるデータの数とに基づき、前記クラスタそれぞれに含まれる前記データの評価に関する情報を出力する、
ことを特徴とする付記1乃至4の何れかに記載のデータ分類方法。
(付記6) 前記複数のデータ群は、対象の試料について行われた複数の質量分析の結果に関するデータ群であって、前記検出強度に関する複数のデータは、前記試料に含まれる複数の物質の検出量に関するデータであって、前記物理的な指標値は、前記物質の質量に関する指標値である、
ことを特徴とする付記1乃至5の何れかに記載のデータ分類方法。
(付記7) 前記特定の試料は、ヒトの細胞内に存在する物質である、
ことを特徴とする付記6に記載のデータ分類方法。
(付記8) 同じ分析手法を適用して得られた複数回分の計測データを取得し、
前記複数回分の計測により得られた物理的な指標値毎の計測値を物理的な指標値の近似性に応じてクラスタリングする際に、計測値がいずれの計測で得られたかを識別する計測識別情報に基づいて、同じ計測で得られた計測値は同じグループに属さないようにする、
処理をコンピュータが実行する
ことを特徴とするデータ分類方法。
(付記9) 複数の物質それぞれの質量に関する指標値にそれぞれが対応づけられた、物質の検出量に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
前記複数のデータ群それぞれの識別情報と、前記複数の物質それぞれの質量に関する指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
処理をコンピュータが実行する
ことを特徴とするデータ分類方法。
(付記10) 物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得する手段と、
前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する手段と、
を備えたことを特徴とするデータ分類装置。
(付記11) 前記複数のクラスタそれぞれに含まれる複数のデータ間で前記識別情報の重複が生じないように、前記複数のデータ群に含まれる複数のデータを前記複数のクラスタに分類する、
ことを特徴とする付記10に記載のデータ分類装置。
(付記12) 前記複数のクラスタそれぞれ毎に、前記検出強度に関する計算を実行する、
ことを特徴とする付記10または11に記載のデータ分類装置。
(付記13) 前記計算は、前記複数のクラスタそれぞれ毎に、前記検出強度の平均値を算出する計算である、
ことを特徴とする付記12に記載のデータ分類装置。
(付記14) 前記データ群の数と、前記クラスタそれぞれに含まれるデータの数とに基づき、前記クラスタそれぞれに含まれる前記データの評価に関する情報を出力する、
ことを特徴とする付記10乃至13の何れかに記載のデータ分類装置。
(付記15) 前記複数のデータ群は、対象の試料について行われた複数の質量分析の結果に関するデータ群であって、前記検出強度に関する複数のデータは、前記試料に含まれる複数の物質の検出量に関するデータであって、前記物理的な指標値は、前記物質の質量に関する指標値である、
ことを特徴とする付記10乃至14の何れかに記載のデータ分類装置。
(付記16) 前記特定の試料は、ヒトの細胞内に存在する物質である、
ことを特徴とする付記15に記載のデータ分類装置。
(付記17) 同じ分析手法を適用して得られた複数回分の計測データを取得する手段と、
前記複数回分の計測により得られた物理的な指標値毎の計測値を物理的な指標値の近似性に応じてクラスタリングする際に、計測値がいずれの計測で得られたかを識別する計測識別情報に基づいて、同じ計測で得られた計測値は同じグループに属さないようにする手段と、
を備えたことを特徴とするデータ分類装置。
(付記18) 複数の物質それぞれの質量に関する指標値にそれぞれが対応づけられた、物質の検出量に関する複数のデータをそれぞれが含む複数のデータ群を取得する手段と、
前記複数のデータ群それぞれの識別情報と、前記複数の物質それぞれの質量に関する指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する手段と、
を備えたことを特徴とするデータ分類装置。
(付記19) 物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
処理をコンピュータに実行させるデータ分類プログラム。
(付記20) 前記複数のクラスタそれぞれに含まれる複数のデータ間で前記識別情報の重複が生じないように、前記複数のデータ群に含まれる複数のデータを前記複数のクラスタに分類する、
ことを特徴とする付記19に記載のデータ分類プログラム。
(付記21) 前記複数のクラスタそれぞれ毎に、前記検出強度に関する計算を実行する、
ことを特徴とする付記19または20に記載のデータ分類プログラム。
(付記22) 前記計算は、前記複数のクラスタそれぞれ毎に、前記検出強度の平均値を算出する計算である、
ことを特徴とする付記21に記載のデータ分類プログラム。
(付記23) 前記データ群の数と、前記クラスタそれぞれに含まれるデータの数とに基づき、前記クラスタそれぞれに含まれる前記データの評価に関する情報を出力する、
ことを特徴とする付記19乃至22の何れかに記載のデータ分類プログラム。
(付記24) 前記複数のデータ群は、対象の試料について行われた複数の質量分析の結果に関するデータ群であって、前記検出強度に関する複数のデータは、前記試料に含まれる複数の物質の検出量に関するデータであって、前記物理的な指標値は、前記物質の質量に関する指標値である、
ことを特徴とする付記19乃至23の何れかに記載のデータ分類プログラム。
(付記25) 前記特定の試料は、ヒトの細胞内に存在する物質である、
ことを特徴とする付記24に記載のデータ分類プログラム。
(付記26) 同じ分析手法を適用して得られた複数回分の計測データを取得し、
前記複数回分の計測により得られた物理的な指標値毎の計測値を物理的な指標値の近似性に応じてクラスタリングする際に、計測値がいずれの計測で得られたかを識別する計測識別情報に基づいて、同じ計測で得られた計測値は同じグループに属さないようにする、
処理をコンピュータに実行させるデータ分類プログラム。
(付記27) 複数の物質それぞれの質量に関する指標値にそれぞれが対応づけられた、物質の検出量に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
前記複数のデータ群それぞれの識別情報と、前記複数の物質それぞれの質量に関する指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
処理をコンピュータに実行させるデータ分類プログラム。
1 質量分析装置
2 試料
3 情報処理装置
301 ピークピック処理部
302 データ読込部
303 ピークピック部
304 平均化MSスペクトル計算部
305 データ読込部
306 アライメント部
307 クラスタ分解部
308 ピーククラスタ分解部
309 平均値計算部
310 統計情報計算・ノイズ除去部
311 データ出力部

Claims (11)

  1. 物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
    前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
    処理をコンピュータが実行することを特徴とするデータ分類方法。
  2. 前記複数のクラスタそれぞれに含まれる複数のデータ間で前記識別情報の重複が生じないように、前記複数のデータ群に含まれる複数のデータを前記複数のクラスタに分類する、
    ことを特徴とする請求項1に記載のデータ分類方法。
  3. 前記複数のクラスタそれぞれ毎に、前記検出強度に関する計算を実行する、
    ことを特徴とする請求項1または2に記載のデータ分類方法。
  4. 前記計算は、前記複数のクラスタそれぞれ毎に、前記検出強度の平均値を算出する計算である、
    ことを特徴とする請求項3に記載のデータ分類方法。
  5. 前記データ群の数と、前記クラスタそれぞれに含まれるデータの数とに基づき、前記クラスタそれぞれに含まれる前記データの評価に関する情報を出力する、
    ことを特徴とする請求項1乃至4の何れかに記載のデータ分類方法。
  6. 前記複数のデータ群は、対象の試料について行われた複数の質量分析の結果に関するデータ群であって、前記検出強度に関する複数のデータは、前記試料に含まれる複数の物質の検出量に関するデータであって、前記物理的な指標値は、前記物質の質量に関する指標値である、
    ことを特徴とする請求項1乃至5の何れかに記載のデータ分類方法。
  7. 前記特定の試料は、ヒトの細胞内に存在する物質である、
    ことを特徴とする請求項6に記載のデータ分類方法。
  8. 同じ分析手法を適用して得られた複数回分の計測データを取得し、
    前記複数回分の計測により得られた物理的な指標値毎の計測値を物理的な指標値の近似性に応じてクラスタリングする際に、計測値がいずれの計測で得られたかを識別する計測識別情報に基づいて、同じ計測で得られた計測値は同じグループに属さないようにする、
    処理をコンピュータが実行する
    ことを特徴とするデータ分類方法。
  9. 複数の物質それぞれの質量に関する指標値にそれぞれが対応づけられた、物質の検出量に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
    前記複数のデータ群それぞれの識別情報と、前記複数の物質それぞれの質量に関する指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
    処理をコンピュータが実行する
    ことを特徴とするデータ分類方法。
  10. 物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得する手段と、
    前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する手段と、
    を備えたことを特徴とするデータ分類装置。
  11. 物理的な指標値にそれぞれが対応づけられた、検出強度に関する複数のデータをそれぞれが含む複数のデータ群を取得し、
    前記複数のデータ群それぞれの識別情報と、前記物理的な指標値とに基づき、前記複数のデータ群に含まれる複数のデータを複数のクラスタに分類する、
    処理をコンピュータに実行させるデータ分類プログラム。
JP2016103425A 2016-05-24 2016-05-24 データ分類方法、データ分類装置およびデータ分類プログラム Pending JP2017211762A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016103425A JP2017211762A (ja) 2016-05-24 2016-05-24 データ分類方法、データ分類装置およびデータ分類プログラム
US15/601,004 US20170344659A1 (en) 2016-05-24 2017-05-22 Method for classifying data, data classification apparatus, and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016103425A JP2017211762A (ja) 2016-05-24 2016-05-24 データ分類方法、データ分類装置およびデータ分類プログラム

Publications (1)

Publication Number Publication Date
JP2017211762A true JP2017211762A (ja) 2017-11-30

Family

ID=60418712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016103425A Pending JP2017211762A (ja) 2016-05-24 2016-05-24 データ分類方法、データ分類装置およびデータ分類プログラム

Country Status (2)

Country Link
US (1) US20170344659A1 (ja)
JP (1) JP2017211762A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021036202A (ja) * 2019-08-30 2021-03-04 株式会社島津製作所 質量分析データ処理方法、質量分析データ処理システム、及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7124648B2 (ja) * 2018-11-06 2022-08-24 株式会社島津製作所 データ処理装置及びデータ処理プログラム
CN112579581B (zh) * 2020-11-30 2023-04-14 贵州力创科技发展有限公司 一种数据分析引擎的数据接入方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021036202A (ja) * 2019-08-30 2021-03-04 株式会社島津製作所 質量分析データ処理方法、質量分析データ処理システム、及びプログラム
JP7156213B2 (ja) 2019-08-30 2022-10-19 株式会社島津製作所 質量分析データ処理方法、質量分析データ処理システム、及びプログラム

Also Published As

Publication number Publication date
US20170344659A1 (en) 2017-11-30

Similar Documents

Publication Publication Date Title
EP2836958B1 (en) Method for classification of a sample on the basis of spectral data and corresponding data storage medium and system
CN110139702B (zh) 利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控
US8010296B2 (en) Apparatus and method for removing non-discriminatory indices of an indexed dataset
JP2017211762A (ja) データ分類方法、データ分類装置およびデータ分類プログラム
KR20200050434A (ko) 질량 스펙트럼에 기초한 균주 동정 방법 및 장치
CN109257383B (zh) 一种bgp异常检测方法及系统
CN116522268B (zh) 一种配电网的线损异常识别方法
WO2022121055A1 (zh) 基于代谢组学的生理预测方法、装置、计算机设备和介质
CN115982602A (zh) 一种光伏变压器电故障检测方法
Kuschner et al. A Bayesian network approach to feature selection in mass spectrometry data
KR102483787B1 (ko) 반도체 장치의 결함 모델링 장치 및 방법, 이를 위한 컴퓨터 프로그램과, 이를 이용한 반도체 장치의 결함 검사 시스템
Reif et al. Anomaly detection by combining decision trees and parametric densities
CN114406409B (zh) 一种焊接机故障状态的确定方法、装置及设备
Elmasry et al. Enhanced anomaly-based fault detection system in electrical power grids
JP2016048485A (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
US11990327B2 (en) Method, system and program for processing mass spectrometry data
CN115078519A (zh) 基于迭代算法的谱峰识别方法、设备、介质及产品
CN113407591A (zh) 一种基于统计学习的心电图数据处理方法
Gordon et al. Local-shapelets for fast classification of spectrographic measurements
JP2017227542A (ja) 質量分析データ処理装置、質量分析装置、質量分析データ処理方法、及び質量分析データ処理用プログラム
CN113360899A (zh) 一种机器行为的识别方法及系统
CN112782365A (zh) 一种基于多级分类器的混合气体识别方法
CN110647915A (zh) 一种用于高维数据一致性分析的动态模式判断方法
CN111258788A (zh) 磁盘故障预测方法、装置及计算机可读存储介质
Hussong et al. Efficient analysis of mass spectrometry data using the isotope wavelet

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160829

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20160829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160829