JP7255597B2 - データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法 - Google Patents

データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法 Download PDF

Info

Publication number
JP7255597B2
JP7255597B2 JP2020539899A JP2020539899A JP7255597B2 JP 7255597 B2 JP7255597 B2 JP 7255597B2 JP 2020539899 A JP2020539899 A JP 2020539899A JP 2020539899 A JP2020539899 A JP 2020539899A JP 7255597 B2 JP7255597 B2 JP 7255597B2
Authority
JP
Japan
Prior art keywords
data
analysis
learning
parameter set
reference data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020539899A
Other languages
English (en)
Other versions
JPWO2020044435A1 (ja
Inventor
雄一郎 藤田
陽 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Publication of JPWO2020044435A1 publication Critical patent/JPWO2020044435A1/ja
Application granted granted Critical
Publication of JP7255597B2 publication Critical patent/JP7255597B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、分析装置を用いて試料を測定することにより得られた測定データをはじめとする各種のデータを解析プログラムにより解析する際に用いられる技術に関する。
試料に含まれる目的化合物を同定したり定量したりするために、クロマトグラフと質量分析装置を組み合わせたクロマトグラフ質量分析装置が広く用いられている。クロマトグラフ質量分析装置ではクロマトグラフのカラムに試料を導入し、保持時間(Retention Time, RT)の違いにより試料に含まれる複数の物質を分離し質量分析装置(Mass Spectrometer, MS)に導入する。質量分析装置に導入された物質はイオン化された後、質量電荷比(m/z)に応じて分離され検出される。これにより、保持時間(RT)と質量電荷比(m/z)の二軸に対してイオンの検出強度をプロットした三次元データが得られる。この三次元データにおいて、各質量電荷比イオンの検出強度(信号強度)は、その質量電荷比を有するイオンを生成する物質の、試料中の含有量を反映している。
この三次元データの保持時間(RT)軸の各点において質量電荷比(m/z)軸の方向の信号強度を積算することによりトータルイオンカレント(Total Ion Current, TIC)が得られる。そして、トータルイオンカレントを保持時間軸に沿ってプロットすることによりトータルイオンカレントクロマトグラム(Total Ion Current Chromatogram, TICC)が得られる。
試料に含まれる各物質がクロマトグラフのカラムで互いに十分に分離されていれば、TICCの波形(TICC波形)には、その物質の保持時間の位置に単峰性の釣鐘型のピークが現れる。その保持時間におけるマススペクトルから物質を同定することで、その保持時間に溶出した物質が何であるかを特定することができる。物質の同定は、同定対象のマススペクトルと、データベース(Data Base, DB)に保存されている既知物質の実測マススペクトルもしくは理論マススペクトルとを比較することにより行われる。その比較項目は、マスピークが存在する質量電荷比(m/z)値、マスピークの強度などである。マススペクトルの一致度(スコア)により、物質の同定結果がどの程度の信頼性を有するかを定量的に評価することができる。また、TICC波形のピークの面積や高さから、クロマトグラフにより分離された各物質の量を推定することができる。
しかし、保持時間が同じあるいは近い複数の物質が試料に含まれていると、それらの物質の保持時間やその前後の時間にクロマトグラフから溶出する溶出物に複数の物質が混在してしまう。すると、当該保持時間やその前後の時間におけるマススペクトルには複数の物質に由来するマスピークが混在し、それらのマスピークを積算することにより得られるTICC波形のピークも複数の物質に由来するピークが重畳したものになる。通常は、TICC波形に現れる単峰性のピークのピークトップの保持時間に何らかの物質が溶出したと考えるが、重畳ピークになっていると、ピークの形がいびつであったり、大きい単峰性ピークに小さい単峰性ピークが埋もれてしまっていたり、あるいはピークが多峰性になってしまったりする。こうした場合、ピークトップにあたる保持時間を正しく求めることができない。また、測定データにノイズが含まれていたり、信号強度にベースライン成分が含まれていたりすると、状況はより複雑になり、試料に少量しか含まれていない物質に由来する小さなTICCピークの保持時間を求めることがより困難になる。
そこで、信号処理や統計処理等によって重畳ピークを分離し、一つのマススペクトルに単一の物質に由来するマスピーク群しか含まれないようにTICCピークを純化するピーク分離(Peak Deconvolution)を行う。こうしてTICCピークを純化すると、測定データのTICC波形にどのようなTICCピークが重畳していたのかを推定することができる。多くの場合、ピーク分離を実行するために専用の解析プログラムが用いられる。ガスクロマトグラフィー/質量分析(GC/MS)で得られた測定データ(GCMSデータ)のピークを純化するために用いられる代表的な解析プログラムとして、アメリカ国立標準技術研究所(National Institute of Standards and Technology, NIST)から提供されているAMDIS(Automated Mass Spectral Deconvolution and Identification System)が知られている(非特許文献1参照)。AMDISでは、ピークを純化するために6つの解析パラメータ(ピーク幅、除外質量電荷比、近傍ピークの数、ピーク間隔、ピーク検出感度、及びモデル適合度)が用いられる。これらの解析パラメータにはそれぞれ初期値が用意されており、多くの場合、解析にはその初期値がそのまま用いられる。
特開2007-41234号公報
"Automated Mass Spectral Deconvolution & Identification System",[online],The National Institute of Standards and Technology (NIST) ,[平成30年6月22日検索],インターネット<URL:https://chemdata.nist.gov/mass-spc/amdis/explanation.html> "Mass++",[online],株式会社島津製作所,[平成30年6月22日検索],インターネットURL:https://www.shimadzu.co.jp/aboutus/ms_r/masspp.html 岡谷貴之著「深層学習(機械学習プロフェッショナルシリーズ)」講談社、2015年4月
AMDISにおける解析パラメータの初期値は様々なGCMSデータに対して汎用的に用いることを想定して設定された値であり、GCMSデータの状態(重畳ピークの形状、質量走査速度、ノイズの状態等)によっては、必ずしも適切なものであるとは限らない。すなわち、解析対象のGCMSデータのピーク分離に初期値をそのまま用いても十分にピークを分離することができない場合がある。こうした場合には、使用者が各解析パラメータの値を初期値から変更してピークを分離し、解析者が妥当であると考える結果が得られるまで、例えば十分な信頼性でもって物質が同定される、つまり十分に高いスコアが得られるまでパラメータ調整を行う。この際に、解析者は自らが培ってきた勘や経験でもってパラメータ調整を行うため、解析の結果が使用者の能力や感覚に依存したものとなる、つまり解析者の熟練度によって得られる結果にばらつきが生じる、という問題があった。また、パラメータ調整を繰り返す必要があることから解析作業に手間と時間がかかるという問題があった。
ここでは従来技術の一例として、GCMSデータをAMDISにより解析する場合を説明したが、他の分析装置を用いた試料の測定により得られた測定データ等の様々なデータを、何らかの解析パラメータを用いて解析する際に上記同様の問題があった。
本発明が解決しようとする課題は、分析装置を用いて試料を測定することにより得られた測定データなどの各種のデータを解析パラメータを用いて解析する際に、簡便に適切な解析結果を得ることができる技術を提供することである。
上記課題を解決するために成された本発明の第1の態様は、分析装置を用いた試料の測定により取得された測定データを、1乃至複数の解析パラメータにそれぞれ値を設定して所定の解析プログラムにより解析する方法であって、
前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成ステップと、
前記測定データと同種のデータであり解析結果が既知である複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、該解析の結果の妥当性を表す評価値が最も高いもの、または該評価値が予め決められた基準値以上であるものを解析に適した1乃至複数の学習用パラメータセットとして決定する学習用パラメータセット決定ステップと、
前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成ステップと、
前記分析装置を用いた試料の測定により取得された測定データである未解析データを入力する未解析データ入力ステップと、
記未解析データと前記参照データ群の一致度を求め、該一致度を用いて1乃至複数の前記参照データ群のそれぞれに対応付けられた学習用パラメータセットから実解析用パラメータセットを決定する実解析用パラメータセット決定ステップと、
前記実解析用パラメータセットを用いて前記解析プログラムにより前記未解析データの解析を実行する実解析ステップと
を含むことを特徴とする。
本発明に係るデータの解析方法では、まず、データの解析に使用する1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する。そして、複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する。これは、例えば、複数の参照データのそれぞれについて、作成した複数の学習用パラメータセットのそれぞれを用いて解析プログラムによる解析を実行することにより得られた解析結果に対する妥当性を表す評価値を求め、その評価値が最も高いものを最適な学習用パラメータセットとすることにより行うことができる。あるいは、評価値が予め決められた基準値以上であるものを解析に適した学習用パラメータセットとしてもよい。前者の場合は参照データのそれぞれについて、その解析に適した1つの学習用パラメータセットが決定され、後者の場合は1乃至複数の学習用パラメータセットが決定される。
続いて、複数の学習用パラメータセットのそれぞれについて、学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を作成する。これにより解析に適した学習用パラメータセットが共通する参照データがグループ化され、未解析データの解析に用いるパラメータセットを決める元となる情報が得られる。先の学習用パラメータセット決定ステップにおいて、1つの参照データについて解析に適したパラメータセットを複数決定した場合、その参照データが複数の参照データ群に含まれるようにしてもよい。
次に、未解析データを入力する。そして、所定の基準により未解析データと参照データ群の共通性に基づいて、前記1乃至複数の解析パラメータのそれぞれについて未解析データの解析に適した値を求めることにより実解析用パラメータセットを決定する。この所定の基準は解析対象データの種類によって異なるが、例えば解析対象データがGCMSデータのTICC波形である場合、未解析データのピークに近い形状のピークを有する参照データから構成される参照データ群を、共通性が高い参照データ群とすることができる。
実解析用パラメータセット決定ステップは、例えば、未解析データと最も高い共通性を持つ参照データ群を決定し、該参照データ群に対応する学習用パラメータセットをそのまま実解析用パラメータセットとすることにより行うことができる。複数の学習用パラメータセットに付されたパラメータセット番号の中の1つを予測する場合は、最も共通性が高い参照データ群に対応付けられているパラメータセット番号を選択する。これは前記1乃至複数のパラメータの組を1つの「パラメータセット」として扱い、どのパラメータセットで解析すべきかを考える場合である。これは機械学習の用語でいえば「識別」のアプローチである。
また、実解析用パラメータセット決定ステップを行う別の方法として、参照データ群(各参照データ群は1つの参照データのみで構成されてもよい)に各解析パラメータの値を直接対応付け、未解析データの解析で用いるべき各解析パラメータの値を推定するというアプローチも考えられる。これは機械学習の用語でいれば「回帰」のアプローチである。回帰の場合、ある1つの解析パラメータについて、学習用パラメータセットにその値が2つ(例えば5と10)しか含まれていない場合であっても、未解析データと各参照データ群(あるいは各参照データ)との共通性(例えばTICC波形の類似性)に基づく回帰分析を行い、前記2つの値のいずれでもない中間的な値(例えば7)を未解析データの解析に最適な解析パラメータの値として求めることができる。こうした回帰分析は、1乃至複数の解析パラメータについて個別に行うこともでき、あるいは1乃至複数の解析パラメータについて一括して(即ちパラメータセット単位で)行うこともできる。最後に、上記の回帰分析により求めた1乃至複数の解析パラメータの値で構成された実解析用パラメータセットを用いて解析プログラムにより未解析データの解析を実行する。
このように、本発明に係るデータ解析方法では、未解析データの解析に先立ち、複数の参照データを用いた解析により、解析に適した学習用パラメータセットが共通する1乃至複数の参照データを参照データ群としてグループ化しておく。そして、未解析データと参照データ群の共通性に基づいて、該参照データ群に対応づけられた学習用パラメータセットから前記1乃至複数の解析パラメータのそれぞれについて該未解析データの解析に適した値を求め、それらを実解析用パラメータセットとして決定する。そのため、使用者が自ら解析パラメータの値を設定する必要がなく、また未解析データの解析に適したパラメータセットが一義的に決まるため、簡便に適切な解析結果を得ることができる。また、使用者の熟練度によって得られる結果にばらつきが生じることもない。
上記課題を解決するために成された本発明の第2の態様は、分析装置を用いた試料の測定により取得された測定データを所定の解析プログラムにより解析する際に使用する1乃至複数の解析パラメータの値を決定するために用いられる学習モデルを作成する装置であって、
前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成部と、
前記測定データと同種のデータであり解析結果が既知である複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、該解析の結果の妥当性を表す評価値が最も高いもの、または該評価値が予め決められた基準値以上であるものを解析に適した1乃至複数の学習用パラメータセットとして決定する学習用パラメータセット決定と、
前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定において当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成部と、
前記複数の学習用パラメータセットのそれぞれに前記参照データ群を対応付けたものを学習データとする機械学習により学習モデルを作成する学習モデル作成部と
を有することを特徴とする。
本発明の第2の態様であるデータ解析用学習モデルの作成方法では、第1の態様のデータ解析方法と同様の学習用パラメータセット作成ステップ、学習用パラメータセット決定ステップ、及び参照データ群作成ステップを行うことにより作成される、複数の学習用パラメータセットのそれぞれに前記参照データ群を対応付けたものを学習データとする機械学習により学習モデルを作成する。近年、機械学習の様々な手法が提案されており(例えば特許文献1)、前記機械学習には、例えばディープラーニング(Deep Learning)、そのディープラーニングの一形態である畳み込みニューラルネットワーク(Convolution Neural Network, CNN)、サポートベクターマシン(Support Vector Machine, SVM)、アダブースト(AdaBoost)を用いることができる。こうして作成した学習モデルは、本発明の第1の態様であるデータ解析方法の実解析用パラメータセット決定ステップにおいて好適に用いることができる。
さらに、上記課題を解決するために成された本発明の第3の態様は、分析装置を用いた試料の測定により取得された測定データを、1乃至複数の解析パラメータにそれぞれ値を設定して所定の解析プログラムにより解析する装置であって、
前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成部と、
前記測定データと同種のデータであり解析結果が既知である複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、該解析の結果の妥当性を表す評価値が最も高いもの、または該評価値が予め決められた基準値以上であるものを解析に適した1乃至複数の学習用パラメータセットとして決定する学習用パラメータセット決定部と、
前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定部により当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成部と、
前記分析装置を用いた試料の測定により取得された測定データである未解析データを入力する未解析データ入力部と、
記未解析データと前記参照データ群の一致度を求め、該一致度を用いて1乃至複数の前記参照データ群のそれぞれに対応付けられた学習用パラメータセットから実解析用パラメータセットを決定する実解析用パラメータセット決定部と、
前記実解析用パラメータセットを用いて前記解析プログラムにより前記未解析データの解析を実行する実解析実行部と
を備えることを特徴とする。
分析装置を用いた試料を測定することにより得られた測定データなどの各種データを解析パラメータを用いて解析する際に、本発明に係るデータ解析方法、データ解析装置、あるいはデータ解析用の学習モデル作成方法を用いることにより、簡便に適切な解析結果を得ることができる。
本発明に係るデータ解析装置の一実施例である制御・処理装置をガスクロマトグラフ質量分析装置と組み合わせた分析システムの要部構成図。 本発明に係るデータ解析方法の一実施例に関するフローチャート。 ガスクロマトグラフ質量分析装置を用いた試料の測定により得られる三次元データのヒートマップの例(a)、及びトータルイオンカレントクロマトグラムの例(b)。 AMDISで用いられる解析パラメータの説明。 本実施例において用いられる学習用パラメータセットの一部。 本実施例において複数の学習用パラメータセットを用いた分割参照データの解析結果を表すヒストグラム。 本実施例において用いた3種類の学習用パラメータセットのそれぞれについて、その学習用パラメータセットが解析に最適であったピークを重ね描きしたもの。 機械学習により作成した学習モデルの評価に用いたデータの構成。 本実施例における機械学習において用いた畳み込みニュートラルネットワークの構造を説明する図。 本実施例において最も正答率が高くなった、畳み込みニュートラルネットワークのハイパーパラメータ及びネットワーク構成。 本実施例の学習モデルにより最適なパラメータセットを選択する解析処理を5分割交差検証により評価した際の正答率。 未解析データから分割未解析データを取り出す処理を説明する図。 本発明に係るデータ解析方法及び解析装置の概念図。 本発明に係るデータ解析装置の変形例のブロック図。
本発明に係るデータ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法の実施例について、以下、図面を参照して説明する。
本実施例における解析対象のデータは、ガスクロマトグラフ質量分析装置を用いた測定により取得された三次元のGCMSデータである。また、本実施例では、解析プログラムとしてAMDISを使用し、GCMSデータから得られるトータルイオンカレントクロマトグラムの波形(TICC波形)のピークを分離することにより純化したマススペクトルを、物質データベース(物質DB)に予め保存されている各種の既知の物質のマススペクトルと照合して、試料に含まれる物質を同定するとともに、その一致度を表す評価値(スコア)を算出する。このスコアは、その値が高いほど物質同定の信頼性が高いことを表す。
図1は本実施例のデータ解析装置を含む分析システムの要部構成図、図2は本実施例のデータ解析方法に関するフローチャートである。本実施例の分析システムは、ガスクロマトグラフ質量分析装置1と制御・処理装置3を備えている。
ガスクロマトグラフ質量分析装置1は、ガスクロマトグラフ10と質量分析計20から構成される。ガスクロマトグラフ10では、オートサンプラ14に予めセットされた液体試料が順次、インジェクタ13に送られ、インジェクタ13から試料気化室12に注入される。また、試料気化室12にはヘリウム等のキャリアガスが供給される。試料気化室12は加熱されており、インジェクタ13から注入された液体試料は気化してキャリアガスの流れに乗り、カラムオーブン11に収容されたキャピラリカラム15に送り込まれる。試料ガスに含まれる各種の化合物はキャピラリカラム15を通過する間に時間方向に分離され、質量分析計20に順次導入される。
質量分析計20は図示しない真空ポンプにより真空排気される真空チャンバ23を備えており、その内部にはイオン源21、レンズ電極22、四重極マスフィルタ24、及びイオン検出器25が配設されている。ガスクロマトグラフ10から導入された試料ガス中の物質は順次、イオン源21に導入される。イオン源21は例えばEI(電子イオン化)源であり、イオン化室211に導入された試料ガスにフィラメント212で生成された熱電子が照射されることによってイオンが生成される。イオン源21で生成されたイオンは、レンズ電極22により収束され四重極マスフィルタ24で質量電荷比に応じて分離されたあと、イオン検出器25で検出される。イオン検出器25からの出力信号は制御・処理装置3が有する記憶部31に保存される。
制御・処理装置3は、ガスクロマトグラフ質量分析装置1の各部を制御する分析制御部としての機能と、該ガスクロマトグラフ質量分析装置1等を用いた測定により得られたデータを処理する機能を有している。後者が本発明に係るデータ解析装置に対応する。制御・処理装置3は記憶部31と物質データベース(物質DB)32を備えており、また所定の解析プログラム(本実施例ではAMDIS)33が予めインストールされている。物質データベース32は、解析プログラム33によるデータの解析において試料に含まれる物質を同定するために用いられるデータベースであり、多数の既知の物質のそれぞれについて物質名、化学式、理論保持時間、マススペクトル等の情報が対応付けられて保存されている。
制御・処理装置3は、さらに、機能ブロックとして、参照データ取得部41、学習用パラメータセット作成部42、学習用パラメータセット決定部43、参照データ分割部44、学習モデル作成部45、未解析データ入力受付部46、未解析データ分割部47、実解析用パラメータ決定部48、実解析実行部49、解析結果出力部50、学習モデル更新部51を備えている。制御・処理装置3の実体はコンピュータであり、これらの機能ブロックは、制御・処理装置3に予めインストールされたデータ解析用プログラム40をプロセッサで実行することにより具現化される。また、制御・処理装置3にはマウスやキーボード等の入力部6と表示部7が接続されている。
次に、本実施例においてGCMSデータを解析する手順を、図2のフローチャートを参照して、実際の解析例とともに説明する。なお、図2のフローチャートにおけるステップS1~ステップS8は本発明に係る学習モデルの作成方法の一実施形態の手順である。
使用者が入力部6を通じた操作により参照データの取得を指示すると、参照データ取得部41は、ガスクロマトグラフ質量分析装置1の各部を動作させ、使用者が予めオートサンプラ14にセットした試料を順にガスクロマトグラフ質量分析装置1に導入し、各試料を測定する。各試料の測定により得られたGCMSデータは順次、制御・処理装置3の記憶部31に保存される。ここでは実際に試料を測定することにより参照データを取得する場合を説明したが、使用者による指示に従って、参照データ取得部41が事前に取得された参照データを記憶部31から読み出すようにしてもよい。こうして複数の参照データが取得される(ステップS1)。
本実施例では、504種類の既知の物質のうちの一部又は全部を含む生体試料を32種類作製し、それぞれについてガスクロマトグラフ質量分析装置1を用いて測定を実行することにより32個のGCMSデータを取得した。これら504種類の既知物質については、いずれも保持時間とマススペクトルの情報が物質データベース32に保存されている。また、測定時間は、試料注入後4~24分の間とし、この時間内に質量電荷比範囲80~500において24000scanの測定を行った。
図3(a)に、GCMSデータの一例を示す。これは、保持時間(RT)と質量電荷比(m/z)を二軸とするグラフのピーク強度をlog10スケールに変換して、その値を寒色~暖色の差で表現したもの(ただし図3(a)ではモノクロ表示)である。また、このGCMSデータから作成したTICC波形の一部(40scan分のデータ)を図3(b)に示す。本実施例のように多数の物質を含む試料の場合、保持時間が同じあるいは近い複数の物質が含まれていることが多く、それらの物質の保持時間やその前後の時間にクロマトグラフから溶出する溶出物には複数の物質が混在する。その結果、それらの物質の保持時間やその前後の時間におけるマススペクトルに複数の物質に由来するマスピークが混在することになり、それらのマスピークを積算することにより得られるTICC波形のピークも、図3(b)に示すように複数の物質に由来するピークが重畳したもの(重畳ピーク)となる。
使用者が入力部6を通じた操作により学習用パラメータセットの作成を指示すると、学習用パラメータセット作成部42は、予め制御・処理装置3にインストールされている解析プログラム33を実行し、パラメータを設定する画面を表示部7に表示する。本実施例の解析プログラムはAMDISである。AMDISでは、Component width, Omit m/z, Adjacent peak subtraction, Resolution, Sensitivity, Shape requirementという6つの解析パラメータが用いられる。図4に各パラメータの内容を示す。本実施例では、初期値(Parameter Set Number: 0)を基準としてAdjacent peak subtractionをTwoからOneに下げる、ResolutionをHighからMediumに下げるなどして45種類のパラメータセットを作成した。図5にその一部(初期値及び10種類のパラメータセット)を示す。ここでは、参照データの取得後に、学習用パラメータセットを作成する順で説明したが、両者の実行順は逆であってもよく、また両者を並行して行ってもよい。また、使用者による指示に従って、学習用パラメータセット作成部42が事前に作成された学習用パラメータセットを記憶部31から読み出すようにしてもよい。こうして複数の学習用パラメータセットが作成される(ステップS2)。
参照データが取得され、また学習用パラメータセットが作成されると、学習用パラメータセット決定部43は、32個のGCMSデータのそれぞれについて、45種類の学習用パラメータセットを個別に用いてAMDISによる解析を実行する(ステップS3)。具体的には、GCMSデータと学習用パラメータセットの組ごとに、そのGCMSデータに含まれるTICC波形のピークを純化し、各ピークに対応するマススペクトルを物質データベース32に保存されているマススペクトルと照合することにより各ピークに対応する物質を同定する。さらに、マススペクトルの一致度から評価値(スコア)を求める。AMDISでは同定、物質の同定の信頼度を表す1~100のスコアが求められる。本実施例では、スコアが60以上であればピークを同定完了とし、スコアが60未満のピークは未同定とした。同定を完了したピークについては、同定された物質名、保持時間、解析に用いたパラメータセット番号、及びスコアが対応付けられ記憶部31に保存される。
学習用パラメータセット決定部43は、次に、32個のGCMSデータのピークのそれぞれについて、同定に最適な学習用パラメータセットを決定する(ステップS4)。同じ保持時間のピークが複数の学習用パラメータセットを用いた解析により同定された場合には、それら複数の学習用パラメータセットのうち、最もスコアが高い解析結果が得られた学習用パラメータセットをそのピークの同定に最適な学習用パラメータセットとする。また、最高スコアが複数ある場合は、学習用パラメータセットの番号が小さい方を最適な学習用パラメータセットとする。こうした処理を全てのピーク(物質が同定されたピーク)について行い、最適な学習用パラメータセットを決定する。ただし、ピークの保持時間と、同定された物質の理論保持時間の差が0.25分よりも大きい場合には、スコアに関わらず誤同定とし、次にスコアが大きく保持時間の差が0.25分以下である学習用パラメータセットをそのピークの同定に最適な学習用パラメータセットとした。
本実施例では、最高スコアが複数存在する場合に学習用パラメータセットの番号が小さい方を最適な学習用パラメータセットとしたが、学習用パラメータセットの番号が大きい方を最適な学習用パラメータセットとしてもよく、あるいは両方を最適な学習用パラメータセットとしてもよい。
全てのピークについて最適な学習用パラメータセットが決まると、参照データ分割部44は、各ピークについて保持時間(ピークトップ)を中心とする40scan分のデータを抽出(参照データを分割)する(ステップS5)。本実施例では、これにより1806個のデータ(分割参照データ)を得た。図6にこれら1806個のデータと最適な学習用パラメータセットの関係(各学習用パラメータセットに対応付けられた分割参照データの数を示すヒストグラム)を示す。
本実施例では、解析パラメータの初期値である学習用パラメータセット0が最適な学習用パラメータセットであるとされた分割参照データが667個、それ以外の学習用パラメータセットが最適な学習用パラメータセットであるとされた分割参照データが1,139個となった。このように、多くの場合、解析パラメータの初期値が最適ではないデータが一定の割合で存在している。
次に、学習モデル作成部45が、45種類の学習用パラメータセットの中から、対応付けられている分割参照データの数が200個以上である3つの学習用パラメータセット(0, 1, 12)を、実解析に使用する実解析用パラメータセットの候補として選択し、それぞれに対応付けられた分割参照データとともに抽出する。ここで1つの学習用パラメータセットに対応付けられた1乃至複数の分割参照データのグループが1つの参照データ群を構成する。即ち、本実施例の学習モデル作成部45は、本発明に係る参照データ群作成部としての機能を有している。こうして作成されたデータが後述する機械学習で使用される学習データとなる(ステップS6)。200個よりも少ない数の分割参照データが対応付けられた学習用パラメータセットを抽出することも可能であるが、対応付けられている分割参照データの数が少なすぎると、それらに共通する特徴的な部分(例えばピークの形状)を機械学習で特定することが困難である。本実施例に限らず機械学習解析のためにはデータ数がいくつ必要であるかは、解析対象のデータの種類や解析の内容などによって異なるが、一般に、この段階で抽出する学習用パラメータセットには、少なくとも数10~100程度の(分割)参照データが対応付けられていることが望ましい。
図7は、3つの学習用パラメータセットのそれぞれについて、その学習用パラメータセットに対応付けられた分割参照データのTICC波形(40scan分のデータを、その最高強度で規格化したもの)を重ね描きしたものである。図7(a)はパラメータセット0(初期値)、図7(b)はパラメータセット1、図7(c)はパラメータセット12のものである。図7(a)~(c)に含まれているTICC波形のピーク形状を相互に目視で比較するのみでは、各グループ(参照データ群)に特徴的なピークの形状を見出すことが困難である。また、多くのピークは中央にピークトップが現れているが、一見すると中央にピークが存在する事が分からないものも含まれている。AMDISのような解析プログラムを用いることで、視覚的には抽出する事が困難なピークも抽出されていることが分かる。
次に、学習モデル作成部45は、3つの学習用パラメータセット0, 1, 12のそれぞれに対応付けられた、合計1,092個の分割参照データ(パラメータセット0:667個、パラメータセット1:212個、パラメータセット12:213個)を学習データとする機械学習によって学習モデルを作成する(ステップS7)。本実施例では畳み込みニューラルネットワーク(Convolution Neural Network, CNN)を用いて学習モデルを構築した。また、その学習モデルを評価する方法として5分割交差検証(Cross Validation, CV)法を用いた。5分割CV法とは、CV番号1~4のデータを用いて学習モデルを構築し、CV番号0のデータに適用してCV番号0のデータに対する正答率を算出する、次にCV番号0, 2~4のデータを用いて学習モデルを構築し、CV番号1のデータに適用してCV番号1のデータに対する正答率を算出する、という処理を順に行って求めた5つの正答率の平均値をモデルの性能とするものである。こうした交差検証法では、「モデル構築に用いたデータ」と「構築モデルの評価に用いるデータ」が異なるため、未知データに対する予測性能を評価する手法といえる。本実施例では、図8に示すように分割参照データを5つのデータ(CV番号0~4)に分割した。
本実施例における上記学習モデルは、入力されたデータの特徴に応じた結果を出力する一種の識別器と捉えることができる。本実施例ではCNNを用いたが、その他、CNN以外のディープラーニング、サポートベクターマシン(Support Vector Machine, SVM)、アダブースト(AdaBoost)などを用いて学習モデルを構築することもできる。
図9は、本実施例において学習モデルの作成に用いたCNNのネットワークの概略構成図である。本実施例では一次元の畳み込みを行った。そして、この学習モデルを元に、最もCV正答率が高くなるハイパーパラメータ及びネットワーク構成(例えば非特許文献3)を決定した(ステップS8)。その結果を図10に示す。図11に示すとおり、このハイパーパラメータとネットワーク構成により得られた正答率の平均値は88.1%であった。言い換えると、未知データ(含有物質が不明である試料のGCMSデータからピークが存在する部分を抽出した、分割未解析データ)に対して、最適なパラメータセットを約90%の確率で予測できる予測モデルが構築された。
本実施例では、上記のとおり、学習データとして1,092個の分割参照データを用いている。このうち、AMDISの解析パラメータの初期値(パラメータセット0)が最適なパラメータセットであるものは667個、つまり学習データのうちの61.1%であった。これに対し、本実施例で作成した学習モデルでは88.1%の正答率が得られている。これらの比較から、本実施例の学習モデルを用いることにより、データの解析に最適なパラメータセットを選択して最も高い精度で試料に含まれる物質を同定することができる可能性が従来よりも高まったといえる。
学習モデル作成部45により学習モデルが作成されると、未解析データ入力受付部46は、解析対象のデータを入力させる画面を表示部7に表示する。使用者は、参照データの取得時と同様に、オートサンプラ14にセットした試料をガスクロマトグラフ質量分析装置1により測定し、取得したGCMSデータを未解析データとして入力する。あるいは、既に測定済みのデータを解析する場合には、予め記憶部31に保存しておいた未解析データを読み出して入力する。本実施例の未解析データは、参照データと同様に、試料注入後4~24分の間に質量電荷比範囲80~500を24000scanして得たGCMSデータである。こうして解析対象のデータが未解析データとして入力される(ステップS9)。なお、未解析データの測定条件は、必ずしも参照データの測定条件と同じでなくてもよい。
未解析データが入力されると、未解析データ分割部47は、図12に示すように、入力された未解析データの保持時間が短い側から例えば10scan分ずつ、取り出し開始位置をずらしながら40scan分のデータを取り出していく。これにより、未解析データから2397個の分割未解析データが作成される(ステップS10)。
分割未解析データが得られると、実解析用パラメータ決定部48は、分割未解析データを1つずつ、未知データとして学習モデルに入力し、パラメータセット0, 1, 12の中からその分割未解析データの解析に最も適したパラメータセットを出力させる。学習モデルは、分割未解析データに含まれるピークの特徴と最も高い共通性を有する参照データ群を決定し、その参照データ群に対応する実解析用パラメータセットを決定する(ステップS11)。
通常、1つの未解析データから生成された全ての分割未解析データにピークが含まれているわけではなく、その一部にのみピークが存在する。ピークを含まない分割未解析データについては、そのデータと共通する特徴を有する参照データ群が存在しないため、最適なパラメータセットも存在しない。従って、こうした分割未解析データに対しては解析対象(ピーク)なしと判定し、解析対象(ピーク)が存在する分割未解析データについてのみ最適なパラメータセットを選択する。
実解析実行部49は、学習モデルにより選択されたパラメータセットを用いてAMDISによる解析を行ってピークを純化し、各ピークに対応する物質を同定してスコアを求める(ステップS12)。実解析実行部49によりピークに対応する物質の同定が完了すると、解析結果出力部50は、同定された物質の名称、保持時間、及びスコアを表示部7に表示(出力)する(ステップS13)。これらの情報と併せて、ピークの同定に用いたパラメータセットの番号を出力するようにしてもよい。また、ステップS12において、同定されたピークの保持時間と同定された物質の理論保持時間が所定の時間(例えば0.25分)以上異なる場合に、その同定結果を廃棄する(あるいは注意喚起する表示を加える)ような構成を付加することもできる。これにより、マススペクトルの偶然の一致によって誤同定される可能性を排除し、同定精度をより高くすることができる。
本実施例におけるデータ解析方法及び装置の主たる目的は、上述した未解析データの解析であるが、本実施例のデータ解析装置は、さらに学習モデル更新部51を備えている。
実解析実行部49により解析された未解析データ(以下、これを「解析済データ」と呼ぶ。)が所定数(例えば30個)蓄積されると、学習モデル更新部51は、それらの解析済データを先に説明した参照データに設定する。こうして参照データが設定されると、上述したステップS1~S8と同様の処理が順に行われる。そして、5分割CV法における正答率が最も高くなるように学習モデルのハイパーパラメータとネットワーク構成が再調整され、学習モデルが更新される。このように、解析済データを順次、参照データとして用いることにより、より多様なデータに対応可能となるように学習モデルを更新することができる。ここでは、所定数の解析済データが蓄積される毎に学習モデル更新部51により学習モデルを更新する構成としたが、解析済データが発生する毎に学習モデルを更新(再構成)するようにしてもよい。ここでは新たに追加された解析済データのみを参照データとして機械学習を実行するオンライン学習(逐次学習)により学習モデルを更新する場合を例に説明したが、既に機械学習に使用した参照データと解析済データの両方を用いたバッチ学習により学習モデルを更新してもよい。
図13は、本実施例のデータ解析方法及び解析装置の概念を模式的に示したものである。図13に示すように、本実施例では、機械学習により、入力されたデータxの特徴に応じた結果f(x)を出力する識別器としての学習モデル(予測モデルf(x))を予め作成しておく。解析対象のGCMSデータを入力するとそのGCMSデータから分割未解析データが作成され、さらに該分割未解析データから作成されたトータルイオンカレントクロマトグラムの波形データが学習モデルに入力され、最適なパラメータセットが出力される。そして、これを解析パラメータとしてAMDISによるピーク純化(ピーク分離等)とそのピークに対応する物質の同定が行われ、それらの結果(同定物質名と同定スコア)が出力される。
本実施例のデータ解析方法やデータ解析装置では、機械学習によって作成された学習モデルによって、学習用パラメータセットのうちの1つが解析対象のデータに最も適したパラメータセット(実解析用パラメータセット)として選択され、その実解析用パラメータセットを用いてAMDISによる解析が行われる。そのため、使用者が自ら解析パラメータの値を変更する必要がなく、簡便に高い確率で最適な解析結果を得ることができる。また、使用者の熟練度によって解析結果に差が生じることもない。さらに、解析済データが所定数蓄積される毎に学習モデルが更新されていくため、常に高い精度で多様なデータを解析する事ができる。
次に、本発明に係るデータ解析装置の変形例を説明する。上記実施例のデータ解析装置(制御・処理装置3)では、学習モデルの作成とデータの解析の両方を行ったが、変形例のデータ解析装置では、予め作成された学習モデルを用いてデータを解析する。
図14は、本発明に係るデータ解析装置の変形例である制御・処理装置3aのブロック図である。上記実施例の制御・処理装置3と共通する構成要素には同一の符号を付し、適宜説明を省略する。上記実施例と同様に、変形例の制御・処理装置3aの実体もパーソナルコンピュータであり、解析用プログラム40aを実行することにより図14に記載の各機能ブロックが具現化される。
この制御・処理装置3aには、解析プログラム(上記実施例ではAMDIS)に対応する学習モデル(CNN)34が予めインストールされており、学習モデル34を構築する際に用いられた学習用パラメータセットが記憶部31aに保存されているという点で上記実施例の制御・処理装置3と異なる。この学習モデル34は、上記実施例で説明したステップS1~S8を実行することにより作成された学習モデル34を移植したものであり、変形例の制御・処理装置3aとして構成されたパーソナルコンピュータの出荷前の段階でインストールされる。
従って、変形例の制御・処理装置3aの使用者は、上記実施例のS1~S8を自ら実行することなく、ステップS9~S13のみを実行することにより学習モデルを用いてデータを解析することができる。
変形例の制御・処理装置3aも上記実施例と同様に学習モデル更新部51aを備えており、上記実施例と同様に、所定数の解析済データが蓄積される毎に学習モデル更新部50aにより学習モデル34のパラメータ及びネットワーク構成が適宜に更新される。なお、上記実施例ではバッチ学習とオンライン学習のいずれかにより学習モデルの更新を行ったが、変形例の制御・処理装置3aではオンライン学習によって学習モデルが更新される。
上記実施例は一例であって、本発明の趣旨に沿って適宜に変更することができる。
上記実施例では、学習用パラメータセット決定部43が、各ピークについて最適な学習用パラメータセットを決定する構成としたが、予め決められた値以上のスコア(評価値)が得られた学習用パラメータセットの全てを、解析に適したパラメータセットとしてもよい。あるいは、同じ保持時間のピークについて得られた最高スコアに対して一定の割合(例えば90%)以上のスコアが得られた学習用パラメータセット全てを解析に適したパラメータセットとすることもできる。これらの場合には、同一のピークデータ(分割参照データ)が複数の解析パラメータに対応付けられることになる。
また、上記実施例では、未解析データ全体から分割未解析データを作成して学習モデルに入力する構成としたが、未解析データから予めピーク(解析対象)が存在する部分を抽出しておき、その部分のみから分割未解析データを作成するようにしてもよい。例えば、解析パラメータの初期値をそのまま用いてAMDISにより未解析データを解析してピークを抽出したり、あるいは別のピーク検出用のソフトウェアを用いて未解析データからピークが存在する部分を特定したりするようにしてもよい。さらには、ピークが存在すると考えられる範囲を使用者が自ら特定するようにしてもよい。
さらに、上記実施例では、1乃至複数の解析パラメータの値の組を1つの学習用パラメータセットとし、複数の学習用パラメータの中から未解析データの解析に最も適したものを実解析用パラメータセットとした。つまり、予め用意された複数の学習用パラメータセットに対応するパラメータセット番号というカテゴリーの1つを予測する場合を例に説明した。これは機械学習の用語でいえば「識別」のアプローチである。
これに対し「回帰」のアプローチにより実解析用パラメータセットを決定することもできる。具体的には、参照データ群(各参照データ群は1つの参照データのみで構成されてもよい)に各解析パラメータの値を直接対応付け、未解析データの解析で用いるべき各解析パラメータの値を直接推定するというアプローチである。このアプローチでは、ある1つの解析パラメータについて、学習用パラメータセットに値が2つ(例えば5と10)しか含まれていない場合であっても、未解析データと各参照データ群(あるいは各参照データ)との共通性(例えばTICC波形の類似性)に基づく回帰分析を行い、前記2つの値のいずれでもない中間的な値(例えば7)を未解析データの解析に最適な解析パラメータの値として求めることができる。こうした回帰分析は、1乃至複数の解析パラメータのそれぞれについて個別に行うこともでき、あるいは1乃至複数の解析パラメータについて一括で(即ちパラメータセット単位で)行うこともできる。
上記実施例では、ガスクロマトグラフ質量分析装置を用いた試料の測定により得られた三次元データをデータとして試料に含まれる物質を同定する場合を説明したが、本発明に係るデータ解析方法、データ解析装置、及び学習モデルの作成方法は、様々なデータの解析に広く用いることができる。
例えば、試料の質量分析データを解析するソフトウェアの1つにMass++がある(非特許文献2参照)。Mass++は、ペプチドやタンパク質を含む試料を液体クロマトグラフ質量分析装置(MALDIを含む)により測定することにより得られたLCMSデータを読み込んで、クロマトグラムやマススペクトルのスムージング、ベースライン除去、ピーク検出などの処理を行い、マススペクトルのピークリストを作成してデータベース検索サーバ(Mascotサーバ)に送信してペプチドを同定し、同定されたペプチドから予測されるタンパク質を同定するという解析を行うことが可能なソフトウェアである。AMDISと同様に、Mass++でも同定されたペプチドやタンパク質の同定の信頼度を表すスコア(信頼度スコア)が求められる。
Mass++を用いてLCMSデータからマススペクトルのリストを作成する際には各種の解析パラメータが用いられる。また、作成したピークリストに対応する物質の同定にも各種の解析パラメータが用いられる。従来、これらの解析パラメータの初期値をそのまま使用して解析を行うか、使用者が自らの経験に基づいて解析パラメータを変更する必要があったが、本発明を適用することにより、簡便に最適な同定結果を得ることができる。
また、クロマトグラフや質量分析装置以外の分析装置、例えばフーリエ変換赤外分光光度計等の分光測定装置を用いた試料の測定により得られた分光スペクトルデータを所定の解析プログラムにより解析することにより試料に含まれる物質を同定する等の解析にも本発明を適用することができる。さらに、核磁気共鳴装置(NMR)、近赤外光脳機能イメージング装置(NIRS)等により得られたデータの解析にも用いることができる。さらに、過去の株価の変動データを元に、直近の株価の変動データから未来の株価の変動データを予測する等の解析にも用いることが可能である。即ち、最適な解析パラメータを用いて解析を行うことにより評価値が高くなる(例えば、与えられた問題に対する正答率が高くなる、目的物質の純度が上がる、消費電力が少なくなる、収益が大きくなる)ことを定義可能である限りにおいて、種々のデータ解析に本発明を適用することができる。
上記実施例では、参照データ(及び解析済データ)の全てについて複数の学習用パラメータセットを用いた網羅的な解析を実行し、全てのピークについて最適なパラメータセットが事前に分かっている学習データのみを用いる、いわゆる教師あり学習を行うことにより学習モデルを作成したが、こうした参照データに加えて、最適なパラメータセットが不明であるピークのデータを追加した学習データを用いる半教師あり学習により学習モデルを作成することもできる。
上記実施例及び変形例では、機械学習の手法としてバッチ学習とオンライン学習を用いる場合を説明したが、その他、転移学習(学習モデルが作成されたドメインと異なるドメインに属する学習データを用いて学習モデルを追加で学習するもの)や強化学習(入力に対する出力を明示的に示す教師が存在しない代わりに、一連の行動に対する結果の良し悪しの評価としての報酬が与えられるものであり、行動と結果の情報を更新しながら試行錯誤により報酬が最大化する行動を学習するもの)など、様々な手法を用いることができる。
例えば、変形例の制御・処理装置3aであるパーソナルコンピュータの製造者が、その会社で培養したクローンの細胞の良否の判定を行うためのCNN34をインストールしており、これを購入した者が、クローン細胞の良否の判定に加えて未分化維持培養の細胞の良否の判定にも用いるといった場合が考えられる。つまり、CNN34が作成された環境とは別の環境で取得されるデータの解析に用いられる場合、学習モデル更新部51aは、クローン細胞の良否の判定用に作成されたCNN34を別の環境で取得されたデータにより更新することになる。このような転移学習が行われる場合でも、上記実施例や変形例で説明した構成を用いることが可能である。また、光学顕微鏡により試料を撮像した画像データからノイズを除去して試料の特徴的な構造を検出する解析を行うために作成された学習モデルを、イメージング質量分析装置を用いた試料の質量分析により取得したデータからノイズを除去して試料の特徴的な構造を検出する等の解析に適用する場合にも転移学習が行われる。
また、質量分析装置の電圧や温度などの制御パラメータを変化させるという行動について、測定の結果得られるピークの強度を報酬として、その報酬を最大化するように制御パラメータを調整する行動を学習するような場合にも、本発明に係る方法及び装置を用いることができる。
1…ガスクロマトグラフ質量分析装置
10…ガスクロマトグラフ部
11…カラムオーブン
12…試料気化室
13…インジェクタ
14…オートサンプラ
15…キャピラリカラム
20…質量分析部
21…イオン源
211…イオン化室
212…フィラメント
22…レンズ電極
23…四重極マスフィルタ
23…真空チャンバ
24…イオン検出器
3、3a…制御・処理装置
31、31a…記憶部
32…物質データベース
33…解析プログラム
34…CNN
40、40a…データ解析用プログラム
41…参照データ取得部
42…学習用パラメータセット作成部
43…学習用パラメータセット決定部
44…参照データ分割部
45…学習モデル作成部
46…未解析データ入力受付部
47…未解析データ分割部
48…実解析用パラメータセット決定部
49…実解析実行部
50…解析結果出力部
51、51a…学習モデル更新部
6…入力部
7…表示部

Claims (14)

  1. 分析装置を用いた試料の測定により取得された測定データを、1乃至複数の解析パラメータにそれぞれ値を設定して所定の解析プログラムにより解析する方法であって、
    前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成ステップと、
    前記測定データと同種のデータであり解析結果が既知である複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、該解析の結果の妥当性を表す評価値が最も高いもの、または該評価値が予め決められた基準値以上であるものを解析に適した1乃至複数の学習用パラメータセットとして決定する学習用パラメータセット決定ステップと、
    前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成ステップと、
    前記分析装置を用いた試料の測定により取得された測定データである未解析データを入力する未解析データ入力ステップと、
    前記未解析データと前記参照データ群の一致度を求め、該一致度を用いて1乃至複数の前記参照データ群のそれぞれに対応付けられた学習用パラメータセットから実解析用パラメータセットを決定する実解析用パラメータセット決定ステップと、
    前記実解析用パラメータセットを用いて前記解析プログラムにより前記未解析データの解析を実行する実解析ステップと
    を有することを特徴とするデータ解析方法。
  2. さらに、
    前記複数の学習用パラメータセットのそれぞれに前記参照データ群を対応付けたものを学習データとする機械学習により学習モデルを作成する学習モデル作成ステップ
    を有し、
    前記実解析用パラメータセット決定ステップにおいて、前記学習モデルを用いてパラメータセットを決定する
    ことを特徴とする請求項1に記載のデータ解析方法。
  3. 前記機械学習が、ディープラーニング、サポートベクターマシン、又はアダブーストを用いたものであることを特徴とする請求項2に記載のデータ解析方法。
  4. さらに、
    前記未解析データを前記参照データとして前記学習用パラメータセット決定ステップを実行することにより前記解析に適した学習用パラメータセットを決定し、該解析に適した学習用パラメータセットに前記未解析データを対応付けたものを学習データとして前記機械学習を行う学習モデル更新ステップ
    を有することを特徴とする請求項2に記載のデータ解析方法。
  5. 前記参照データ及び前記未解析データが、マスクロマトグラム、トータルイオンカレントクロマトグラム、マススペクトル、分光スペクトル、又は画像データであることを特徴とする請求項1に記載のデータ解析方法。
  6. 前記学習用パラメータセット決定ステップにおいて、前記参照データを分割した分割参照データの一部又は全部について前記解析に適したパラメータセットを決定し、
    前記参照データ群作成ステップにおいて、前記分割参照データをグループ化することにより前記参照データ群を作成する
    ことを特徴とする請求項1に記載のデータ解析方法。
  7. 前記解析プログラムが、前記未解析データに含まれる1乃至複数のピークのデータを抽出し、既知の物質に関するデータベースと照合することによって該1乃至複数のピークに対応する物質を同定するものであることを特徴とする請求項6に記載のデータ解析方法。
  8. 前記未解析データに含まれる1乃至複数のピークのデータのそれぞれについて、同定された物質について前記データベースに保存されているデータとの一致度を求めることを特徴とする請求項7に記載のデータ解析方法。
  9. 前記実解析用パラメータセット決定ステップにおいて、前記一致度が最も高い参照データ群に対応付けられた学習用パラメータセットを前記実解析用パラメータセットに決定することを特徴とする請求項8に記載のデータ解析方法。
  10. 前記測定データを所定の基準で分割することにより複数の分割未解析データを作成し、
    前記未解析データ入力ステップにおいて前記複数の分割未解析データの一部又は全部を前記未解析データとして入力する
    ことを特徴とする請求項6に記載のデータ解析方法。
  11. 前記分割未解析データが、1乃至複数のピークのデータである
    ことを特徴とする請求項10に記載のデータ解析方法。
  12. 前記実解析用パラメータセット決定ステップにおいて、予め決められた基準以上の高い一致度を有する参照データ群が存在する場合にのみ、前記実解析用パラメータセットを決定することを特徴とする請求項1に記載のデータ解析方法。
  13. 分析装置を用いた試料の測定により取得された測定データを、1乃至複数の解析パラメータにそれぞれ値を設定して所定の解析プログラムにより解析する装置であって、
    前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成部と、
    前記測定データと同種のデータであり解析結果が既知である複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、該解析の結果の妥当性を表す評価値が最も高いもの、または該評価値が予め決められた基準値以上であるものを解析に適した1乃至複数の学習用パラメータセットとして決定する学習用パラメータセット決定部と、
    前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定部により当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成部と、
    前記分析装置を用いた試料の測定により取得された測定データである未解析データを入力する未解析データ入力部と、
    前記未解析データと前記参照データ群の一致度を求め、該一致度を用いて1乃至複数の前記参照データ群のそれぞれに対応付けられた学習用パラメータセットから実解析用パラメータセットを決定する実解析用パラメータセット決定部と、
    前記実解析用パラメータセットを用いて前記解析プログラムにより前記未解析データの解析を実行する実解析実行部と
    を備えることを特徴とする測定データ解析装置。
  14. 分析装置を用いた試料の測定により取得された測定データを所定の解析プログラムにより解析する際に使用する1乃至複数の解析パラメータの値を決定するために用いられる学習モデルを作成する装置であって、
    前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成部と、
    前記測定データと同種のデータであり解析結果が既知である複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、該解析の結果の妥当性を表す評価値が最も高いもの、または該評価値が予め決められた基準値以上であるものを解析に適した1乃至複数の学習用パラメータセットとして決定する学習用パラメータセット決定部と、
    前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定において当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成部と、
    前記複数の学習用パラメータセットのそれぞれに前記参照データ群を対応付けたものを学習データとする機械学習により学習モデルを作成する学習モデル作成部と
    を備えることを特徴とするデータ解析用の学習モデル作成装置。
JP2020539899A 2018-08-28 2018-08-28 データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法 Active JP7255597B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/031742 WO2020044435A1 (ja) 2018-08-28 2018-08-28 データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法

Publications (2)

Publication Number Publication Date
JPWO2020044435A1 JPWO2020044435A1 (ja) 2021-08-10
JP7255597B2 true JP7255597B2 (ja) 2023-04-11

Family

ID=69644836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020539899A Active JP7255597B2 (ja) 2018-08-28 2018-08-28 データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法

Country Status (3)

Country Link
US (1) US20210319364A1 (ja)
JP (1) JP7255597B2 (ja)
WO (1) WO2020044435A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11841373B2 (en) * 2019-06-28 2023-12-12 Canon Kabushiki Kaisha Information processing apparatus, method for controlling information processing apparatus, and program
CN114391099A (zh) * 2019-10-02 2022-04-22 株式会社岛津制作所 波形解析方法和波形解析装置
US20240167988A1 (en) * 2021-03-19 2024-05-23 Shimadzu Corporation Learning Data Creation Method and Learning Data Creation Device
JP2023000828A (ja) * 2021-06-18 2023-01-04 富士フイルム株式会社 情報処理装置、情報処理方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006003345A (ja) 2004-05-18 2006-01-05 Omron Corp 知識作成支援装置および表示方法
JP2017189394A (ja) 2016-04-13 2017-10-19 キヤノン株式会社 情報処理装置および情報処理システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2616164A1 (en) * 2005-07-25 2007-02-01 Metanomics Gmbh Means and methods for analyzing a sample by means of chromatography-mass spectrometry
JP5509773B2 (ja) * 2009-01-21 2014-06-04 オムロン株式会社 パラメータ決定支援装置およびパラメータ決定支援プログラム
US10153146B2 (en) * 2014-03-28 2018-12-11 Wisconsin Alumni Research Foundation High mass accuracy filtering for improved spectral matching of high-resolution gas chromatography-mass spectrometry data against unit-resolution reference databases
US10113910B2 (en) * 2014-08-26 2018-10-30 Digimarc Corporation Sensor-synchronized spectrally-structured-light imaging
EP3557261B1 (en) * 2018-04-20 2021-12-08 F. Hoffmann-La Roche AG Just in time availability of analytical test results

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006003345A (ja) 2004-05-18 2006-01-05 Omron Corp 知識作成支援装置および表示方法
JP2017189394A (ja) 2016-04-13 2017-10-19 キヤノン株式会社 情報処理装置および情報処理システム

Also Published As

Publication number Publication date
WO2020044435A1 (ja) 2020-03-05
US20210319364A1 (en) 2021-10-14
JPWO2020044435A1 (ja) 2021-08-10

Similar Documents

Publication Publication Date Title
JP7255597B2 (ja) データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法
CN103109345B (zh) 产物离子光谱的数据独立获取及参考光谱库匹配
EP2728350B1 (en) Method and system for processing analysis data
JP5327388B2 (ja) 分析データ処理方法及び装置
CA2763991C (en) Systems and methods for identifying correlated variables in large amounts of spectrometry data
Kuich et al. Maui-VIA: a user-friendly software for visual identification, alignment, correction, and quantification of gas chromatography–mass spectrometry data
JP5682540B2 (ja) 質量分析データ処理方法、質量分析データ処理装置、及び質量分析装置
JP5757264B2 (ja) クロマトグラフ質量分析データ処理装置
JP2016180599A (ja) データ解析装置
JP2016061670A (ja) 時系列データ解析装置及び方法
US6944549B2 (en) Method and apparatus for automated detection of peaks in spectroscopic data
EP3497709B1 (en) Automated spectral library retention time correction
JP2018504600A (ja) 干渉検出および着目ピークのデコンボルーション
JP4984617B2 (ja) 質量分析データ解析方法
CN117461087A (zh) 用于鉴别质谱中的分子种类的方法和装置
US7691643B2 (en) Mass analysis method and mass analysis apparatus
WO2017158673A1 (ja) 質量分析データ解析装置及び質量分析データ解析用プログラム
Bunkowski MCC-IMS data analysis using automated spectra processing and explorative visualisation methods
CN117871761A (zh) 一种液相色谱-质谱联用分析模型及其构建方法
JPWO2008053531A1 (ja) クロマトグラフ質量分析装置
Ju et al. A graph density-based strategy for features fusion from different peak extract software to achieve more metabolites in metabolic profiling from high-resolution mass spectrometry
CN108287200A (zh) 质谱参照数据库的建立方法及基于其的物质分析方法
CN116642989A (zh) 一种靶向液-质代谢组学数据的自动定量分析方法
JP7334788B2 (ja) 波形解析方法及び波形解析装置
CN114096839B (zh) 成像质量分析装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220405

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230313

R151 Written notification of patent or utility model registration

Ref document number: 7255597

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151