JP2023110159A - 解析装置および解析方法 - Google Patents
解析装置および解析方法 Download PDFInfo
- Publication number
- JP2023110159A JP2023110159A JP2022011415A JP2022011415A JP2023110159A JP 2023110159 A JP2023110159 A JP 2023110159A JP 2022011415 A JP2022011415 A JP 2022011415A JP 2022011415 A JP2022011415 A JP 2022011415A JP 2023110159 A JP2023110159 A JP 2023110159A
- Authority
- JP
- Japan
- Prior art keywords
- peak
- waveform
- processor
- determination result
- trained model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 abstract description 18
- 238000012986 modification Methods 0.000 description 19
- 230000004048 modification Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 13
- 238000012795 verification Methods 0.000 description 11
- 238000005259 measurement Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 150000002500 ions Chemical class 0.000 description 3
- 239000007788 liquid Substances 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 2
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 description 2
- 238000004949 mass spectrometry Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 description 1
- 238000002025 liquid chromatography-photodiode array detection Methods 0.000 description 1
- 238000001294 liquid chromatography-tandem mass spectrometry Methods 0.000 description 1
- 238000002705 metabolomic analysis Methods 0.000 description 1
- 230000001431 metabolomic effect Effects 0.000 description 1
- 229930010796 primary metabolite Natural products 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
- G01N30/8631—Peaks
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8696—Details of Software
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8693—Models, e.g. prediction of retention times, method development and validation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/88—Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
【課題】セマンティックセグメンテーション技術を用いたピークピッキングをする場合において、ピークピッキングの確信度を計算可能にする。【解決手段】解析装置(1)は、対象波形を複数の部分波形に分割し(S12)、学習済みモデルを用いて、分割された複数の部分波形のうちピーク部分となるピーク波形を判定し(S14)、学習済みモデルを用いて対象波形のピーク部分を判定するときに学習済みモデルから出力されたデータを用いて、ピーク波形の判定結果の確信度を計算する(S17)。【選択図】図5
Description
本開示は、クロマトグラムおよびスペクトルの波形を解析する解析装置および解析方法に関する。
従来より、試料に含まれる成分を同定または定量するためにクロマトグラフが用いられている。クロマトグラフでは、試料中の成分をカラムで分離し、カラムから流出する成分を順に検出する。その後、横軸を時間および縦軸を検出強度とするクロマトグラムを作成する。
クロマトグラムからピークの高さおよび面積を求めるためには、クロマトグラムのベースラインから立ち上がるピーク開始点および終了点を特定する必要がある。クロマトグラムのピーク開始点および終了点を特定する作業は、ピークピッキングと呼ばれる。ピーク開始点および終了点が特定されることによって、ピークの高さおよび面積が定まる。ピークの高さおよび面積から、ピークに対応する化合物の濃度などを計算することができる。
近年、ディープラーニングを用いてピークピッキングを自動化する試みが進められている。ディープラーニングを用いたピークピッキングの手法として、物体検知の技術を利用する手法と、セマンティックセグメンテーションの技術を利用する手法とが知られている。
特許文献1には、ピークピッキングの問題を画像認識分野の物体検知として定式化することで、SSD(Single Shot Multibox Detector)を用いたピークピッキング結果の確信度を表示する手法が開示されている。SSDは、ピークピッキングの結果と、その結果に対する確信度とを併せて出力する。これに対して、非特許文献1は、ピークピッキングをセマンティックセグメンテーションの問題として定式化することで、U-Netを用いてピークピッキングを実行する手法を開示する。
Kanazawa S、ほか10名、Fake metabolomics chromatogram generation for facilitating deep learning of peak-picking neural networks . J Biosci Bioeng. 2021 Feb;131(2):207-212. doi: 10.1016/j.jbiosc.2020.09.013. Epub 2020 Oct 10. PMID: 33051155.
しかし、セマンティックセグメンテーション技術を用いたピークピッキングにおいて確信度を計算する手法は、これまでのところ存在しない。このため、セマンティックセグメンテーション技術を用いた従来のピークピッキングの手法では、ピークピッキングの結果が出力されるものの、出力結果の確信度が出力されることはなかった。
本開示の目的は、セマンティックセグメンテーション技術を用いたピークピッキングをする場合において、ピークピッキングの確信度を計算可能にすることである。
本開示のある局面に従う解析装置は、クロマトグラムまたはスペクトルである対象波形を解析する解析装置であって、プロセッサと、ピーク部分の位置が既知である参照波形を分割することにより作成された複数の部分波形からなる組を複数組用いた機械学習によって作成された学習済みモデルが格納されたメモリとを備え、プロセッサは、対象波形を複数の部分波形に分割し、学習済みモデルを用いて、対象波形のピーク部分を判定し、対象波形のピーク部分の判定結果に基づき、対象波形を、ピーク部分が連続するピーク領域と、ピーク領域以外の非ピーク領域とに分類し、学習済みモデルを用いて対象波形のピーク部分を判定するときに学習済みモデルから出力されたデータを用いて、ピーク部分の判定結果の確信度を計算する。
本開示のある局面に従う解析方法は、クロマトグラムまたはスペクトルである対象波形を解析する解析方法であって、ピーク部分の位置が既知である参照波形を分割することにより作成された複数の部分波形からなる組を複数組用いた機械学習によって、入力される波形に含まれるピーク部分を特定する学習済みモデルを作成するステップと、対象波形を複数の部分波形に分割するステップと、学習済みモデルを用いて、対象波形のピーク部分を判定するステップと、対象波形のピーク部分の判定結果に基づき、対象波形を、ピーク部分が連続するピーク領域と、ピーク領域以外の非ピーク領域とに分類するステップと、学習済みモデルを使用して対象波形のピーク部分を判定するときに学習済みモデルから出力されたデータを用いて、判定結果の確信度を計算するステップとを含む。
本開示によれば、セマンティックセグメンテーション技術を用いたピークピッキングをする場合において、ピークピッキングの確信度を計算可能となる。
以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。
図1は、解析装置1の全体構成を示すブロック図である。解析装置1は、制御部として機能するプロセッサ10と、記憶部として機能するメモリ20と、入出力ポート30とを備える。入出力ポート30には、マウス40、キーボード50、および表示装置60が接続される。入出力ポート30には、質量分析計などを接続してもよい。入出力ポート30には、インターネットあるいは構内ネットワークなどを通じて1または複数の端末装置を接続してもよい。
解析装置1は、たとえば、パーソナルコンピュータをベースとして構成される。解析装置1は、インターネットなどのネットワークを通じて1または複数の端末装置からアクセスすることが可能なサーバによって構成されてもよい。
入出力ポート30には、解析対象の測定データ(クロマトグラムデータ)と、機械学習に用いられる学習用データとが入力される。入出力ポート30に接続された質量分析計を通じて、解析対象の測定データが入力されるように構成してもよい。質量分析計、質量分析計に接続される液体クロマトグラフ、および解析装置1によって、液体クロマトグラフ質量分析システムを構成することも可能である。
メモリ20には、入出力ポート30に入力された学習用データ210と、入出力ポート30に入力された測定データ213と、機械学習に用いられる推定モデル300と、解析処理および機械学習の処理を実行するための解析用プログラム200とが少なくとも格納される。
学習用データ210は、訓練用データ211および検証用データ212に分類される。訓練用データ211および検証用データ212は、各種の成分を含有する試料をクロマトグラフ質量分析装置で測定することにより得られたクロマトグラムの波形のデータである。クロマトグラムは、たとえば、液体クロマトグラフで分離された成分を質量分析計でMSスキャン測定し、検出した全ての質量電荷比のイオンの合計強度の時間変化を表すトータルイオンクロマトグラムである。クロマトグラムは、SIM測定またはMRM測定し、特定の質量電荷比のイオンの強度の時間変化を表すマスクロマトグラムであってもよい。
これらの訓練用データ211および検証用データ212は、予めピークピッキングにより特定されたピークの位置のデータを含む。これらの波形のデータは、強度値の所定の範囲内(たとえば±1.0)となるように予め規格化されている。規格化により強度スケールが異なる複数のクロマトグラムを共通の強度スケールに統一しておくことで、学習済みモデルの精度を高めることができる。ここでは、訓練用データ211および検証用データ212として、実試料の測定により得られたクロマトグラムを用いるが、シミュレーションにより作成したクロマトグラムを用いてもよい。
クロマトグラムの波形は、時間軸方向に所定数の部分波形に分割されている。所定数は、たとえば512または1024などであり、各部分波形の幅(時間軸方向の長さ)が少なくともピーク幅よりも小さくなるように設定される。所定数は、たとえば、ピーク幅の大きさと1つのピークを構成するために必要なデータ点数とに基づいて定められる。
各部分波形データには、部分波形の特性に関する情報(特性情報)が対応付けられている。部分波形に対応付けられる特性情報には、少なくとも、当該部分波形がピーク領域に属するものであるか非ピーク領域に属するものであるかを示す情報が含まれている。
解析用プログラム200により、分割部201、モデル作成部202、判定部203、計算部204、画像処理部205、および出力部206が構成される。
分割部201は、クロマトグラムの波形を予め決められた数の部分波形に分割する。モデル作成部202は、学習用データ210を用いて、推定モデル300の機械学習を進め、学習済みの推定モデル300を作成する。判定部203は、学習済みの推定モデル300を用いて、クロマトグラムのピークピッキングを行う。以下、学習済みの推定モデル300を「学習済みモデル」と称する場合がある。
計算部204は、判定部203の判定結果の確信度を計算する。画像処理部205は、判定結果および確信度を含む画像データを作成する。出力部206は、画像データを含む表示信号を入出力ポート30から表示装置60へ出力する。なお、解析装置1が表示装置60を備えていてもよい。
図2は、クロマトグラムの一例を示す図である。ここでは、クロマトグラムから特定される各部の名称を簡単に説明する。クロマトグラムは、ベースラインの部分と、ピーク領域とに分類することができる。ベースラインからの立ち上がり部分は、ピーク開始点およびピーク終了点と称される。ピーク開始点とピーク終了点との間の領域は、ピーク領域と称される。ピーク領域のうち、検出強度が非常に強い部分(最も強い部分)は、ピークトップと称される。
ピーク領域には、図2に例示されるように、単体ピークが含まれる。クロマトグラフの波形に未分離ピークが現れる場合、ピーク領域には、単体ピークおよび未分離ピークが含まれる。たとえば、ピークトップを頂上とする山状波形が2つ連なっており、かつ、2つの山状波形の間の谷に該当する部分の検出強度がベースラインに対応する強度まで落ちていない部分は、未分離ピークと称される。
次に、学習済みモデルを作成する手順について、フローチャートを参照して説明する。図3は、学習済みモデルを作成する手順を説明するためのブロック図である。図3に示されるように、解析装置1のモデル作成部202は、学習装置として機能する。モデル作成部202は、入力された学習用データ210に基づいて、推定モデル300を学習させる。推定モデル300は、ニューラルネットワークを用いることで、ディープラーニングを行う。推定モデル300は、ニューラルネットワークによる計算に用いられる重み付け係数などのパラメータを含む。
推定モデル300を学習させるため、たとえば、教師あり学習のアルゴリズムが用いられる。モデル作成部202は、学習用データ210を用いた教師あり学習によって、推定モデル300を学習させる。
推定モデル300の学習には、セマンティックセグメンテーション(Semantic Segmentation)の技術が用いられる。セマンティックセグメンテーションは、一般に、二次元的に分布する画素データで構成された画像を解析するために用いられる。本実施の形態では、時間軸に沿って一次元的に並ぶデータで構成されるクロマトグラムの波形の解析にセマンティックセグメンテーションを適用する。セマンティックセグメンテーションを実行可能な学習モデルとして、たとえば、U-Net、SeGNet、PSPNetなどを用いることができる。本実施の形態では、U-Netを用いる。
モデル作成部202は、クロマトグラムの部分波形と、それに対応する正解データとが入力される。正解データは、たとえば、既に特定されたピークピッキングの結果である。ピークピッキングの結果にピークトップを含めてもよい。
モデル作成部202は、入力された学習用データ210と推定モデル300とに基づいてピークピッキングの結果を判定し、判定結果と正解データとに基づき、推定モデル300を学習させる。具体的には、モデル作成部202は、推定モデル300によって得られた結果が、正解データに近づくように、推定モデル300内のパラメータを調整することにより、推定モデル300を学習させる。
図4は、学習済みモデルを作成する手順を説明するためのフローチャートである。解析装置1のプロセッサ10が解析用プログラム200の一部を実行することにより、本フローチャートの処理が実現される。
はじめに、プロセッサ10は、推定モデル300の学習を開始させる操作を検出する(ステップS1)。たとえば、ユーザがマウス40およびキーボード50を用いて、推定モデル300の学習を開始させる操作をした場合、その操作がステップS1において検出される。
次に、プロセッサ10は、メモリ20から学習用データ210(訓練用データ211および検証用データ212)を読み出す(ステップS2)。次に、プロセッサ10は、推定モデル300に訓練用データ211を入力する(ステップS3)。次に、推定モデル300において、ディープラーニングによる学習処理が実行される(ステップS4)。本実施の形態において推定モデル300の学習に用いるU-Netでは、部分波形から正しい特性情報が得られるように、ニューラルネットワークの重みづけが調整される。
より具体的には、訓練用データ211の部分波形および部分波形に対応付けられた特性情報に基づいて、推定モデル300のパラメータが調整される。パラメータを調整する過程では、単体ピーク、未分離ピーク、ピーク開始点、ピーク終了点、およびベースラインなどを推定する処理と、推定結果と正解データとを照らし合わせる処理とが実行される。
次に、プロセッサ10は、ステップS4の学習処理の結果に応じて作成された推定モデル300をメモリ20に格納する(ステップS5)。次に、プロセッサ10は、推定モデル300が検証用データ212の部分波形を解析して付与した特性情報の正答率を確認する(ステップS6)。
次に、プロセッサ10は、予め定められた終了条件が成立しているか否かを判定する(ステップS7)。たとえば、訓練用データ211を用いて繰り返し実施する学習処理の回数が予め決められた回数に達している場合、プロセッサ10は、終了条件が成立していると判定する。終了条件が成立していない場合、プロセッサ10は、終了条件が成立するまで、ステップS3からステップS6の処理を繰り返す。
プロセッサ10は、終了条件が成立した場合、メモリ20に保存されている複数の推定モデル300の中から適切なものを選択し、選択した推定モデル300を学習済みモデルとしてメモリ20に保存する(ステップS8)。
これにより、プロセッサ10は、図4の一連の処理を終了する。学習済みモデルは、たとえば、検証用データ212に対する正答率が最も高いこと、あるいは過学習が生じていないことなどを基準に選択される。なお、ここでは、学習回毎に推定モデル300をメモリ20に格納する例を示した。しかし、学習回数が予め定めた回数に達するまで、同じ推定モデル300を繰り返し更新し、学習回数が予め定めた回数に達したときに推定モデル300をメモリ20に格納してもよい。
次に、未解析のクロマトグラムの波形を解析する手順について、フローチャートを参照して説明する。図5は、学習済みモデル(学習済みの推定モデル300)を用いてクロマトグラムデータを判定する手順を説明するためのフローチャートである。解析装置1のプロセッサ10が解析用プログラム200の一部を実行することにより、本フローチャートの処理が実現される。
はじめに、プロセッサ10は、クロマトグラムデータ(測定データ)を取得する(ステップS11)。クロマトグラムデータは、入出力ポート30に接続された質量分析計などの計測機器を通じて、または、入出力ポート30に接続された端末装置などを通じて、解析装置1に入力される。
次に、プロセッサ10は、取得されたクロマトグラムの波形を予め決められた数の部分波形に分割する(ステップS12)。クロマトグラム波形の分割数は、訓練用データ211および検証用データ212と同数であってもよく、異なる数であってもよい。
ただし、各部分波形の幅(時間軸方向の長さ)が少なくとも、クロマトグラムに含まれることが予測されるピークの幅よりも小さくなるように、波形の長さ(クロマトグラフ質量分析の実行時間の長さ)に応じて分割数が決定される。たとえば、512または1024などに分割数を設定することが考えられる。
次に、プロセッサ10は、学習済みの推定モデル300(学習済みモデル)に部分波形を入力する(ステップS13)。次に、学習済みモデルによって、部分波形がピーク領域に属するものであるか否かが判定され、ラベル付け処理を実行する(ステップS14)。より具体的には、部分波形から、ピーク開始点および終了点、ベースライン、単体ピーク、未分離ピーク、ピークトップなどが判定される。また、それぞれの判定結果の重みが算出される。また、ステップS14では、各部分波形に特性情報(ピーク領域に属するものであるか否かの情報)が付される。
次に、プロセッサ10は、ピークの確信度を計算する(ステップS17)。ピークの確信度は、学習済みモデルによって判定されたピーク開始点に対応する重みと、学習済みモデルによって判定されたピーク終了点に対応する重みとの平均値によって計算される。
次に、プロセッサ10は、判定結果および確信度を示すグラフを作成する(ステップS18)。本実施の形態では、複数種類のグラフがプロセッサ10により作成される。プロセッサ10は、作成されたグラフを表示するための表示信号を表示装置60へ出力する(ステップS19)。これにより、表示装置60には、判定結果および確信度が表示される。たとえば、表示装置60の画面には、クロマトグラムの波形上に、ピーク開始点、ピーク終了点、および確信度が表示される。
次に、プロセッサ10は、ピーク開始点および終了点の修正指示を検出したか否かを判定する(ステップS20)。本実施の形態では、表示装置60の画面上でユーザがピーク開始点および終了点を修正する操作を行うことが可能である。修正指示が検出されない場合、プロセッサ10は、ステップS22に処理を進める。
ユーザがマウス40およびキーボード50により、ピーク開始点および終了点を修正する操作をした場合、プロセッサ10は、修正指示に応じて画面上のデータを修正する(ステップS21)。このように、プロセッサ10は、ユーザの修正指示を受け付けて、ピーク開始点および終了点を修正する。
プロセッサ10は、データを修正した後、データを確定させる操作を検出したか否かを判定する(ステップS22)。データを確定させる操作が検出されない場合、プロセッサ10は、ステップS20に処理を戻す。プロセッサ10は、データを確定させる操作が検出された場合、判定結果(データが修正された場合には修正後の判定結果)をメモリ20に格納し(ステップS23)、本フローチャートに基づく処理を終える。
図6は、学習済みモデルの判定結果の一例を示す図である。図6の上のグラフは、入力されたクロマトグラムの波形W0を示す。図6の下のグラフは、入力されたクロマトグラムに対する学習済みモデルの判定結果を示す。両グラフの横軸(インデックス)は、時間軸に対応する。図6の上のグラフの縦軸は強度を示す。図6の下のグラフの縦軸は学習済みモデルにより出力された重みを示す。重みは、0~1の範囲に正規化されている。
学習済みモデルの判定結果として示される波形W1~W5は、それぞれ、ベースライン、単体ピーク、未分離ピーク、ピーク開始点、およびピーク終了点に対応する。クロマトグラムの波形W0と波形W1~W5とを対比することにより、たとえば、クロマトグラムの波形W0のうち、インデックスIsの位置において、ピーク開始点に対応する重みが最も高くなることがわかる。同様に、クロマトグラムの波形W0のうち、インデックスIeの位置において、ピーク終了点に対応する重みが最も高くなることがわかる。この場合、たとえば、解析装置1は、クロマトグラムの波形W0のうち、インデックスIsの位置をピーク開始点と判定し、インデックスIeの位置をピーク終了点と判定する。
ここでは、判定対象として、ピーク開始点、ピーク終了点、単体ピーク、未分離ピーク、およびベースラインを例に挙げているが、ピークトップなど、他の要素を判定対象に加えることもできる。
プロセッサ10は、図6に示されるように、学習済みモデルによって判定されたピーク開始点Isに対応する重みWsと、学習済みモデルによって判定されたピーク終了点Ieに対応する重みWeとの平均値を計算することにより、ピークの確信度を特定する。
図7は、判定結果に基づいてラベル付け処理が行われたグラフの一例を示す図である。図7の上のグラフは、図6の下に示したグラフと同一である。図7の下のグラフは、入力されたクロマトグラムの波形W0(図6参照)を、波形W1~波形W5に基づいてラベル付けしたグラフである。ラベル0~4は、それぞれ、ベースライン、単体ピーク、未分離ピーク、ピーク開始点、およびピーク終了点に対応する。
たとえば、ラベル付け処理は、次の手順で行われる。すなわち、波形W1~W5のうち、あるインデックスIxの位置で最も重みが大きい波形を選択し、その選択した波形でインデックスIxの値をラベル付けする。xをインデックスの初期値から最終値まで変化させて同じ処理を繰り返すことによって、ラベル付け処理が終了する。たとえば、図7には、インデックス0~Isまでの区間がベースラインにラベル付け(ラベル=0)されたグラフが示されている。
図8は、判定結果とともに確信度を表示する画像61の一例を示す図である。画像61は、表示装置60によって表示される。画像61には、測定対象であるクロマトグラムの波形とともに、判定結果に対応するピーク開始点Isおよびピーク終了点Ieが示される。さらに、画像61には、判定されたピーク開始点Isおよびピーク終了点Ieに対する確信度が表示される。ユーザは、画像61を見ることにより、判定結果の確からしさを認識することができる。
なお、プロセッサ10は、画像61の他、図6に示す態様の2つのグラフを含む画像と、図7に示す態様の2つのグラフを含む画像と、図6および図7に含まれる3つのグラフを縦方向に並べた画像とを選択的に表示装置60に表示することが可能である。いずれの画像にも、図8に示される態様で確信度が併せて表示される。ユーザは、マウス40およびキーボード50を用いて、いずれの画像を表示するかを示す指示を解析装置1に入力することができる。
図9は、判定結果を修正する操作を受け付ける画像62の一例を示す図である。画像62は、表示装置60によって表示される。画像62には、図8に示した内容に加えて、ピーク開始点Isおよびピーク終了点Ieの位置を修正するためのアイコン65,66が表示される。
アイコン65は、ピーク開始点Isに対応する。ユーザがマウス40およびキーボード50を用いて、アイコン65を操作することにより、ピーク開始点Isの位置が変化する。ユーザがマウス40およびキーボード50を用いて、アイコン66を操作することにより、ピーク終了点Ieの位置が変化する。ピーク開始点Isおよびピーク終了点Ieの位置が変化することに連動して、グラフの下に表示されるインデックス位置および確信度も変化する。
ユーザは、ピーク開始点Isおよびピーク終了点Ieの位置を適切な位置に修正した後、データを確定させる操作を行う。データを確定させる操作がプロセッサ10により検出されると、修正後の結果がメモリ20に格納される。
なお、ここでは、図8に示される画像61をベースにして、アイコン65,66が表示される例を示した。しかし、図6に示す態様の2つのグラフを含む画像と、図7に示す態様の2つのグラフを含む画像と、図6および図7に含まれる3つのグラフを縦方向に並べた画像とに対して、判定結果を修正するためのアイコン65,66を表示してもよい。
このように、本実施の形態では、学習済みモデルの判定結果および確信度が表示装置60に表示される。このため、ユーザは、確からしいピーク情報とそれよりも信頼性の低いピーク情報とを目視で識別できる。その結果、ユーザによる目視での確認や修正の指示が一層簡単になり、そうした作業におけるユーザの負担を軽減することができる。また、多数のピークが観測される波形を解析する際、ユーザが確認すべきピークの数が減ることで確認作業のミスや見落としなどを防止することもできる。
次に、実際のクロマトグラムデータを用いて学習済みモデルを作成し、またクロマトグラムの波形解析を行った例を説明する。学習済みモデルを作成するにあたり、一次代謝物のクロマトグラムを30セット用意した。なお、1セットには、475個のクロマトグラムが含まれていた。用意した各々のクロマトグラムを対象としてマニュアルでピークピッキングをした。その後、クロマトグラムの波形をベースライン、ピーク開始点、ピーク終了点、単体ピーク、および未分離ピークの5クラスに分類し、それぞれにラベルを付与した。これにより、学習用データを作成した。用意した学習用データを用いて、クロスバリデーション評価をした。クロスバリデーション評価では、30セットのうち1セットを検証用データにして評価する作業を30回実施した。
学習済みモデルから出力されたピーク開始点の重みと、学習済みモデルから出力されたピーク開始点の重みとを足し合わせて2で除することにより、その重もの平均値を算出し、これをピークの確信度とした。その上で、確信度と正解率との関係を検証した。図10検証結果が示されている。
図10は、ピークの確信度と正解率との関係を示す図である。図10において、TPは、正解数を示し、FPは不正解数を示す。図10に示されるとおり、確信度(confidence)が高くなればなるほど、正解率が上がっている。このことから、本実施の形態で開示される確信度の計算方法が有効であることがわかる。
次に、図11を参照して、ピークの確信度の計算手法に関する変形例を説明する。図11は、ピークの確信度を計算する手法の変形例1~7を示す図である。なお、以下の変形例の説明に用いる波形W1~W5は、図6および図7に示されている。
図11に示されるように、ベースライン(変形例1)、単体ピーク(変形例2)、ピーク開始点(変形例3)、ピーク終了点(変形例4)、およびピークトップ(変形例5)のいずれかを単体で用いて、ピークの確信度を計算することが可能である。
変形例1は、ベースラインを用いてピークの確信度を計算する例である。図11に示されるように、確信度は、「1-(ベースラインの波形W1のうち、ピーク領域に属するインデックス部分の重みの平均値)」によって計算することができる。ここで、ピーク領域に属するインデックス部分は、たとえば、図6において、インデックスIs~Ieの範囲を意味する。
変形例2は、単体ピークを用いてピークの確信度を計算する例である。図11に示されるように、確信度は、「単体ピークの波形W2のうち、ピーク領域に属するインデックス部分の重みの平均値」によって計算することができる。
変形例3は、ピーク開始点を用いてピークの確信度を計算する例である。図11に示されるように、確信度は、「ピーク開始点の波形W4に対応するインデックス部分の重みの平均値」によって計算することができる。たとえば、図6において、インデックスの初期値から終端値の範囲の各インデックスを対象にして波形W4に対応する重みを特定し、特定した全ての重みの平均値を計算することによって、確信度が導出される。
変形例4は、ピーク終了点を用いてピークの確信度を計算する例である。図11に示されるように、確信度は、「ピーク終了点の波形W5に対応するインデックス部分の重みの平均値」によって計算することができる。
変形例5は、ピークトップを用いてピークの確信度を計算する例である。図11に示されるように、確信度は、「ピークトップに対応するインデックス部分の重みの平均値」によって計算することができる。
変形例6は、単体ピーク、未分離ピーク、およびベースラインを組み合わせて、ピークの確信度を計算する例である。図11に示されるように、確信度は、「(B+C)/(A+B+C)」によって計算される。ここで、A、B、およびCは、それぞれ以下のとおりである。
A:ベースラインの波形W1のうち、ピーク領域に属するインデックス部分の重みの総和
B:単体ピークの波形W2のうち、ピーク領域に属するインデックス部分の重みの総和
C:未分離ピークの波形W3のうち、ピーク領域に属するインデックス部分の重みの総和
変形例7は、ベースライン、未分離ピーク、ピーク開始点、およびピーク終了点を組み合わせて、ピークの確信度を計算する例である。図11に示されるように、確信度は、「X/(X+Y)」によって計算される。ここで、XおよびYは、それぞれ以下のとおりである。
B:単体ピークの波形W2のうち、ピーク領域に属するインデックス部分の重みの総和
C:未分離ピークの波形W3のうち、ピーク領域に属するインデックス部分の重みの総和
変形例7は、ベースライン、未分離ピーク、ピーク開始点、およびピーク終了点を組み合わせて、ピークの確信度を計算する例である。図11に示されるように、確信度は、「X/(X+Y)」によって計算される。ここで、XおよびYは、それぞれ以下のとおりである。
X:ピーク領域において、ラベル2~4のいずれか対応するインデックス数
Y:ピーク領域において、ラベル0に対応するインデックス数
変形例7に関して、図12を参照して、より詳細に説明する。図12は、変形例7を説明するための図である。図12は、判定結果に対してラベル付け処理をしたグラフに対して、変形例7を説明するための各種の領域Xa、領域Xb、および領域Yaを付与した図面である。図12に示されるグラフでは、ピーク領域の一部にベースラインが含まれている。学習済みモデルと測定対象との関係により、図12に示されるようなグラフが作図される判定結果が得られる場合がある。
Y:ピーク領域において、ラベル0に対応するインデックス数
変形例7に関して、図12を参照して、より詳細に説明する。図12は、変形例7を説明するための図である。図12は、判定結果に対してラベル付け処理をしたグラフに対して、変形例7を説明するための各種の領域Xa、領域Xb、および領域Yaを付与した図面である。図12に示されるグラフでは、ピーク領域の一部にベースラインが含まれている。学習済みモデルと測定対象との関係により、図12に示されるようなグラフが作図される判定結果が得られる場合がある。
変形例7に関わる確信度の計算式において、Xは、ピーク領域において、ラベル2~4のいずれか対応するインデックス数である。これは、領域Xaのインデックス数と領域Xbのインデックス数とを足し合わせた数に該当する。
変形例7に関わる確信度の計算式において、Yは、ピーク領域において、ラベル0に対応するインデックス数である。これは、領域Yaのインデックス数に該当する。
以上、説明したように、本実施の形態に関わる解析装置1は、判定結果の確信度を計算することができる。特に、本実施の形態に関わる解析装置1は、セマンティックセグメンテーションの技術を用いたピークピッキングを実施しつつ、判定結果の確信度を計算する点に特徴を有する。
ディープラーニングを用いたピークピッキングでは、画像認識分野の物体検知の技術を適用する手法と、セマンティックセグメンテーションの技術を適用する手法とが知られている。非特許文献1では、ピークピッキングの問題を物体検知で定式化するよりもセマンティックセグメンテーションで定式化することで、性能が向上することが述べられている。しかし、従来、セマンティックセグメンテーション技術を用いたピークピッキングにおいて確信度を計算する手法が存在しなかった。
本実施の形態に関わる解析装置1は、セマンティックセグメンテーションの技術を用いたピークピッキングを実施し、しかも、その判定結果の確信度を計算するとともに、判定結果および確信度を表示装置60に表示することができる。さらに、解析装置1は、ユーザが判定結果を修正することが可能なインターフェイスを提供する。これにより、ユーザは、ピークピッキングによって検出されたピーク開始点および終了点等のピーク情報を簡便にかつ効率よく確認しつつ、必要に応じて修正することができる。その結果、本実施の形態によれば、高い精度のピーク検出結果を出力することが可能な解析装置1を提供することができる。
本実施の形態は、いずれも一例であって、本開示の趣旨に沿って適宜に変更することが可能である。ここではクロマトグラフ質量分析により得られたクロマトグラムの波形を処理する場合を例に説明した。しかし、質量分析計以外の検出器(分光光度計)を有するクロマトグラフ、およびガスクロマトグラフで取得されたクロマトグラムも同様に解析装置1により解析することができる。さらに、解析の対象はクロマトグラムに限定されない。たとえば、分光光度計による測定で取得された分光スペクトル(波長または波数軸に対する検出強度の変化を表した波形)を解析対象としてもよい。LC、GC、LC-PDA、LC/MS、GC/MS、LC/MS/MS、GC/MS/MS、LC/MS-IT-TOFなどで得られたいずれの波形を解析対象としてもよい。
[態様]
上記した実施の形態およびその変形例は、以下の態様の具体例であることが当業者により理解される。
上記した実施の形態およびその変形例は、以下の態様の具体例であることが当業者により理解される。
(第1項)一態様に係る解析装置は、クロマトグラムまたはスペクトルである対象波形を解析する解析装置であって、プロセッサと、ピーク部分の位置が既知である参照波形を分割することにより作成された複数の部分波形からなる組を複数組用いた機械学習によって作成された学習済みモデルが格納されたメモリとを備え、プロセッサは、対象波形を複数の部分波形に分割し、学習済みモデルを用いて、分割された複数の部分波形のうちピーク部分となるピーク波形を判定し、学習済みモデルを用いて対象波形のピーク部分を判定するときに学習済みモデルから出力されたデータを用いて、ピーク波形の判定結果の確信度を計算する。
第1項に記載の解析装置によれば、セマンティックセグメンテーション技術を用いたピークピッキングをする場合において、ピークピッキングの確信度を計算可能となる。
(第2項)第1項に記載の解析装置において、プロセッサは、学習済みモデルから出力されたデータから特定される値、または学習済みモデルから出力されたデータにラベルを付けるラベル付け処理したデータを用いて、確信度を計算する。
第2項に記載の解析装置によれば、学習済みモデルから出力されたデータから特定される値、または学習済みモデルから出力されたデータにラベルを付けるラベル付け処理したデータを用いて、確信度を適切に計算することができる。
(第3項)第1項に記載の解析装置において、プロセッサは、ピーク波形にラベル付けを行い、確信度を計算する。
第3項に記載の解析装置によれば、ピーク波形にラベル付けが行われ、確信度が計算される。
(第4項)第2項または第3項に記載の解析装置において、ラベルには単体ピーク、未分離ピーク、ピーク開始点、ピーク終了点、ピークトップ、およびベースラインのうちの少なくとも1つが含まれる。
第4項に記載の解析装置によれば、単体ピーク、未分離ピーク、ピーク開始点、ピーク終了点、ピークトップ、およびベースラインのうちの少なくとも1つのラベルを利用することができる。
(第5項)第1項に記載の解析装置において、プロセッサは、確信度として、対象波形のピーク開始点に対応する重みの値と、対象波形のピーク終了点に対応する重みの値との平均値を計算する。
第5項に記載の解析装置によれば、対象波形のピーク開始点に対応する重みの値と、対象波形のピーク終了点に対応する重みの値との平均値によって、確信度を比較的簡単な演算式で算出することができる。
(第6項)第1項~第5項のいずれか1項に記載の解析装置において、判定結果および確信度を表示するための表示信号を出力する出力ポートをさらに備える。
第6項に記載の解析装置によれば、表示信号を表示装置に入力することによって、ユーザは、判定結果と確信度との関係を認識することができる。
(第7項)第6項に記載の解析装置において、表示信号に基づいて判定結果および確信度を表示する表示装置をさらに備え、プロセッサは、判定結果および確信度が表示装置に表示されているときに、判定結果を修正する操作を受け付ける。
第7項に記載の解析装置によれば、ユーザは、確信度を考慮しつつ、判定結果をより適切と考えられる結果に修正することができる。
(第8項)他の態様に係る解析方法は、クロマトグラムまたはスペクトルである対象波形を解析する解析方法であって、ピーク部分の位置が既知である参照波形を分割することにより作成された複数の部分波形からなる組を複数組用いた機械学習によって、入力される波形に含まれるピーク部分を特定する学習済みモデルを作成するステップと、対象波形を複数の部分波形に分割するステップと、学習済みモデルを用いて、分割された複数の部分波形のうちピーク部分となるピーク波形を判定するステップと、学習済みモデルを使用して対象波形のピーク部分を判定するときに学習済みモデルから出力されたデータを用いて、ピーク波形の判定結果の確信度を計算するステップとを含む。
第8項に記載の解析方法によれば、セマンティックセグメンテーション技術を用いたピークピッキングをする場合において、ピークピッキングの確信度を計算可能となる。
なお、プロセッサは、ベースラインの推定結果のうち、ピーク領域に属する部分の重みの総和を第1総和とし、単体ピークの推定結果のうち、ピーク領域に属する部分の重みの総和を第2総和とし、未分離ピークの推定結果のうち、ピーク領域に属する部分の重みの総和を第3総和としたとき、プロセッサは、(第2総和+第3総和)/(第1総和+第2総和+第3総和)を計算することによって、確信度を計算してもよい(変形例6)。
また、プロセッサは、学習済みモデルから出力されたデータをラベル付け処理することが可能であり、ピーク領域に属するラベルのうち、未分離ピーク、ピーク開始点、およびピーク終了点のいずれかに対応するラベルの総数を第1総数とし、ピーク領域に属するラベルのうち、ベースラインに対応するラベルの総数を第2総数としたとき、プロセッサは、(第1総数)/(第1総数+第2総数)を計算することによって、確信度を計算してもよい(変形例7)。
今回開示された実施の形態は、全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。
1 解析装置、10 プロセッサ、20 メモリ、30 入出力ポート、40 マウス、50 キーボード、60 表示装置、61 画像、62 画像、65,66 アイコン、200 解析用プログラム、201 分割部、202 モデル作成部、203 判定部、204 計算部、205 画像処理部、206 出力部、210 学習用データ、211 訓練用データ、212 検証用データ、213 測定データ、300 推定モデル、Xa,Xb,Ya 領域、W0 波形(クロマトグラム)、W1 波形(ベースライン)、W2 波形(単体ピーク)、W3 波形(未分離ピーク)、W4 波形(ピーク開始点)、W5 波形(ピーク終了点)。
Claims (8)
- クロマトグラムまたはスペクトルである対象波形を解析する解析装置であって、
プロセッサと、
ピーク部分の位置が既知である参照波形を分割することにより作成された複数の部分波形からなる組を複数組用いた機械学習によって作成された学習済みモデルが格納されたメモリとを備え、
前記プロセッサは、
前記対象波形を複数の部分波形に分割し、
前記学習済みモデルを用いて、分割された前記複数の部分波形のうちピーク部分となるピーク波形を判定し、
前記学習済みモデルを用いて前記対象波形のピーク部分を判定するときに前記学習済みモデルから出力されたデータを用いて、前記ピーク波形の判定結果の確信度を計算する、解析装置。 - 前記プロセッサは、前記学習済みモデルから出力されたデータから特定される値、または前記学習済みモデルから出力されたデータにラベルを付けるラベル付け処理したデータを用いて、前記確信度を計算する、請求項1に記載の解析装置。
- 前記プロセッサは、前記ピーク波形にラベル付けを行い、前記確信度を計算する、請求項1または2に記載の解析装置。
- 前記ラベルには単体ピーク、未分離ピーク、ピーク開始点、ピーク終了点、ピークトップ、およびベースラインのうちの少なくとも1つが含まれる、請求項2または請求項3に記載の解析装置。
- 前記プロセッサは、前記確信度として、前記対象波形のピーク開始点に対応する重みの値と、前記対象波形のピーク終了点に対応する重みの値との平均値を計算する、請求項1に記載の解析装置。
- 前記判定結果および前記確信度を表示するための表示信号を出力する出力ポートをさらに備える、請求項1~請求項5のいずれか1項に記載の解析装置。
- 前記表示信号に基づいて前記判定結果および前記確信度を表示する表示装置をさらに備え、
前記プロセッサは、前記判定結果および前記確信度が表示装置に表示されているときに、前記判定結果を修正する操作を受け付ける、請求項6に記載の解析装置。 - クロマトグラムまたはスペクトルである対象波形を解析する解析方法であって、
ピーク部分の位置が既知である参照波形を分割することにより作成された複数の部分波形からなる組を複数組用いた機械学習によって、入力される波形に含まれるピーク部分を特定する学習済みモデルを作成するステップと、
前記対象波形を複数の部分波形に分割するステップと、
前記学習済みモデルを用いて、分割された前記複数の部分波形のうちピーク部分となるピーク波形を判定するステップと、
前記学習済みモデルを使用して前記対象波形のピーク部分を判定するときに前記学習済みモデルから出力されたデータを用いて、前記ピーク波形の判定結果の確信度を計算するステップとを含む、解析方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022011415A JP2023110159A (ja) | 2022-01-28 | 2022-01-28 | 解析装置および解析方法 |
CN202310012285.XA CN116519861A (zh) | 2022-01-28 | 2023-01-05 | 解析装置及解析方法 |
US18/096,857 US20230243789A1 (en) | 2022-01-28 | 2023-01-13 | Analysis device and analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022011415A JP2023110159A (ja) | 2022-01-28 | 2022-01-28 | 解析装置および解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023110159A true JP2023110159A (ja) | 2023-08-09 |
Family
ID=87405301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022011415A Pending JP2023110159A (ja) | 2022-01-28 | 2022-01-28 | 解析装置および解析方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230243789A1 (ja) |
JP (1) | JP2023110159A (ja) |
CN (1) | CN116519861A (ja) |
-
2022
- 2022-01-28 JP JP2022011415A patent/JP2023110159A/ja active Pending
-
2023
- 2023-01-05 CN CN202310012285.XA patent/CN116519861A/zh active Pending
- 2023-01-13 US US18/096,857 patent/US20230243789A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230243789A1 (en) | 2023-08-03 |
CN116519861A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11486866B2 (en) | Waveform analyzer | |
US11302039B2 (en) | Waveform analyzer | |
US8428889B2 (en) | Methods of automated spectral peak detection and quantification having learning mode | |
CN110214271B (zh) | 分析数据解析方法以及分析数据解析装置 | |
JPWO2018025361A1 (ja) | 分析データ処理方法及び分析データ処理装置 | |
JP7108136B2 (ja) | 分析装置 | |
JP7424595B2 (ja) | 識別器の生成方法及び装置 | |
JP2023159214A (ja) | 波形解析方法及び波形解析装置 | |
JP2023110159A (ja) | 解析装置および解析方法 | |
JP6610782B2 (ja) | ピーク検出方法及びデータ処理装置 | |
JP7414125B2 (ja) | 波形情報推定方法及び装置、並びに、ピーク波形処理方法及び装置 | |
JP2019211301A (ja) | クロマトグラフ質量分析システム及び測定条件表示方法 | |
US20230280316A1 (en) | Learning data producing method, waveform analysis device, waveform analysis method, and recording medium | |
US20230280318A1 (en) | Learning data producing method, waveform analysis device, waveform analysis method, and recording medium | |
JP2015200532A (ja) | 信号波形データ処理装置 | |
US20220198177A1 (en) | Waveform processing assistance device and waveform processing assistance method | |
US20230296572A1 (en) | Training Method | |
JP7480843B2 (ja) | ピークトラッキング装置、ピークトラッキング方法およびピークトラッキングプログラム | |
JP2023032197A (ja) | スペクトル推定装置、スペクトル推定システム、コンピュータプログラム及びスペクトル推定方法 |