JP2023110159A

JP2023110159A - 解析装置および解析方法

Info

Publication number: JP2023110159A
Application number: JP2022011415A
Authority: JP
Inventors: 慎司金澤; Shinji Kanazawa
Original assignee: Shimadzu Corp
Current assignee: Shimadzu Corp
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2023-08-09
Also published as: US20230243789A1; CN116519861A

Abstract

【課題】セマンティックセグメンテーション技術を用いたピークピッキングをする場合において、ピークピッキングの確信度を計算可能にする。【解決手段】解析装置（１）は、対象波形を複数の部分波形に分割し（Ｓ１２）、学習済みモデルを用いて、分割された複数の部分波形のうちピーク部分となるピーク波形を判定し（Ｓ１４）、学習済みモデルを用いて対象波形のピーク部分を判定するときに学習済みモデルから出力されたデータを用いて、ピーク波形の判定結果の確信度を計算する（Ｓ１７）。【選択図】図５

Description

本開示は、クロマトグラムおよびスペクトルの波形を解析する解析装置および解析方法に関する。

従来より、試料に含まれる成分を同定または定量するためにクロマトグラフが用いられている。クロマトグラフでは、試料中の成分をカラムで分離し、カラムから流出する成分を順に検出する。その後、横軸を時間および縦軸を検出強度とするクロマトグラムを作成する。

クロマトグラムからピークの高さおよび面積を求めるためには、クロマトグラムのベースラインから立ち上がるピーク開始点および終了点を特定する必要がある。クロマトグラムのピーク開始点および終了点を特定する作業は、ピークピッキングと呼ばれる。ピーク開始点および終了点が特定されることによって、ピークの高さおよび面積が定まる。ピークの高さおよび面積から、ピークに対応する化合物の濃度などを計算することができる。

近年、ディープラーニングを用いてピークピッキングを自動化する試みが進められている。ディープラーニングを用いたピークピッキングの手法として、物体検知の技術を利用する手法と、セマンティックセグメンテーションの技術を利用する手法とが知られている。

特許文献１には、ピークピッキングの問題を画像認識分野の物体検知として定式化することで、ＳＳＤ（Single Shot Multibox Detector）を用いたピークピッキング結果の確信度を表示する手法が開示されている。ＳＳＤは、ピークピッキングの結果と、その結果に対する確信度とを併せて出力する。これに対して、非特許文献１は、ピークピッキングをセマンティックセグメンテーションの問題として定式化することで、Ｕ－Ｎｅｔを用いてピークピッキングを実行する手法を開示する。

国際公開第２０２０／２２５８６４号

Kanazawa S、ほか10名、Fake metabolomics chromatogram generation for facilitating deep learning of peak-picking neural networks . J Biosci Bioeng. 2021 Feb;131(2):207-212. doi: 10.1016/j.jbiosc.2020.09.013. Epub 2020 Oct 10. PMID: 33051155.

しかし、セマンティックセグメンテーション技術を用いたピークピッキングにおいて確信度を計算する手法は、これまでのところ存在しない。このため、セマンティックセグメンテーション技術を用いた従来のピークピッキングの手法では、ピークピッキングの結果が出力されるものの、出力結果の確信度が出力されることはなかった。

本開示の目的は、セマンティックセグメンテーション技術を用いたピークピッキングをする場合において、ピークピッキングの確信度を計算可能にすることである。

本開示のある局面に従う解析装置は、クロマトグラムまたはスペクトルである対象波形を解析する解析装置であって、プロセッサと、ピーク部分の位置が既知である参照波形を分割することにより作成された複数の部分波形からなる組を複数組用いた機械学習によって作成された学習済みモデルが格納されたメモリとを備え、プロセッサは、対象波形を複数の部分波形に分割し、学習済みモデルを用いて、対象波形のピーク部分を判定し、対象波形のピーク部分の判定結果に基づき、対象波形を、ピーク部分が連続するピーク領域と、ピーク領域以外の非ピーク領域とに分類し、学習済みモデルを用いて対象波形のピーク部分を判定するときに学習済みモデルから出力されたデータを用いて、ピーク部分の判定結果の確信度を計算する。

本開示のある局面に従う解析方法は、クロマトグラムまたはスペクトルである対象波形を解析する解析方法であって、ピーク部分の位置が既知である参照波形を分割することにより作成された複数の部分波形からなる組を複数組用いた機械学習によって、入力される波形に含まれるピーク部分を特定する学習済みモデルを作成するステップと、対象波形を複数の部分波形に分割するステップと、学習済みモデルを用いて、対象波形のピーク部分を判定するステップと、対象波形のピーク部分の判定結果に基づき、対象波形を、ピーク部分が連続するピーク領域と、ピーク領域以外の非ピーク領域とに分類するステップと、学習済みモデルを使用して対象波形のピーク部分を判定するときに学習済みモデルから出力されたデータを用いて、判定結果の確信度を計算するステップとを含む。

本開示によれば、セマンティックセグメンテーション技術を用いたピークピッキングをする場合において、ピークピッキングの確信度を計算可能となる。

解析装置の全体構成を示すブロック図である。クロマトグラムの一例を示す図である。学習済みモデルを作成する手順を説明するためのブロック図である。学習済みモデルを作成する手順を説明するためのフローチャートである。学習済みモデルを用いてクロマトグラムデータを判定する手順を説明するためのフローチャートである。学習済みモデルの判定結果の一例を示す図である。判定結果に基づいてラベル付け処理が行われたグラフの一例を示す図である。判定結果とともに確信度を表示する画像の一例を示す図である。判定結果を修正する操作を受け付ける画像の一例を示す図である。ピークの確信度と正解率との関係を示す図である。ピークの確信度を計算する手法の様々な変形例１～７を示す図である。変形例７を説明するための図である。

以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。

図１は、解析装置１の全体構成を示すブロック図である。解析装置１は、制御部として機能するプロセッサ１０と、記憶部として機能するメモリ２０と、入出力ポート３０とを備える。入出力ポート３０には、マウス４０、キーボード５０、および表示装置６０が接続される。入出力ポート３０には、質量分析計などを接続してもよい。入出力ポート３０には、インターネットあるいは構内ネットワークなどを通じて１または複数の端末装置を接続してもよい。

解析装置１は、たとえば、パーソナルコンピュータをベースとして構成される。解析装置１は、インターネットなどのネットワークを通じて１または複数の端末装置からアクセスすることが可能なサーバによって構成されてもよい。

入出力ポート３０には、解析対象の測定データ（クロマトグラムデータ）と、機械学習に用いられる学習用データとが入力される。入出力ポート３０に接続された質量分析計を通じて、解析対象の測定データが入力されるように構成してもよい。質量分析計、質量分析計に接続される液体クロマトグラフ、および解析装置１によって、液体クロマトグラフ質量分析システムを構成することも可能である。

メモリ２０には、入出力ポート３０に入力された学習用データ２１０と、入出力ポート３０に入力された測定データ２１３と、機械学習に用いられる推定モデル３００と、解析処理および機械学習の処理を実行するための解析用プログラム２００とが少なくとも格納される。

学習用データ２１０は、訓練用データ２１１および検証用データ２１２に分類される。訓練用データ２１１および検証用データ２１２は、各種の成分を含有する試料をクロマトグラフ質量分析装置で測定することにより得られたクロマトグラムの波形のデータである。クロマトグラムは、たとえば、液体クロマトグラフで分離された成分を質量分析計でＭＳスキャン測定し、検出した全ての質量電荷比のイオンの合計強度の時間変化を表すトータルイオンクロマトグラムである。クロマトグラムは、ＳＩＭ測定またはＭＲＭ測定し、特定の質量電荷比のイオンの強度の時間変化を表すマスクロマトグラムであってもよい。

これらの訓練用データ２１１および検証用データ２１２は、予めピークピッキングにより特定されたピークの位置のデータを含む。これらの波形のデータは、強度値の所定の範囲内（たとえば±１．０）となるように予め規格化されている。規格化により強度スケールが異なる複数のクロマトグラムを共通の強度スケールに統一しておくことで、学習済みモデルの精度を高めることができる。ここでは、訓練用データ２１１および検証用データ２１２として、実試料の測定により得られたクロマトグラムを用いるが、シミュレーションにより作成したクロマトグラムを用いてもよい。

クロマトグラムの波形は、時間軸方向に所定数の部分波形に分割されている。所定数は、たとえば５１２または１０２４などであり、各部分波形の幅（時間軸方向の長さ）が少なくともピーク幅よりも小さくなるように設定される。所定数は、たとえば、ピーク幅の大きさと１つのピークを構成するために必要なデータ点数とに基づいて定められる。

各部分波形データには、部分波形の特性に関する情報（特性情報）が対応付けられている。部分波形に対応付けられる特性情報には、少なくとも、当該部分波形がピーク領域に属するものであるか非ピーク領域に属するものであるかを示す情報が含まれている。

解析用プログラム２００により、分割部２０１、モデル作成部２０２、判定部２０３、計算部２０４、画像処理部２０５、および出力部２０６が構成される。

分割部２０１は、クロマトグラムの波形を予め決められた数の部分波形に分割する。モデル作成部２０２は、学習用データ２１０を用いて、推定モデル３００の機械学習を進め、学習済みの推定モデル３００を作成する。判定部２０３は、学習済みの推定モデル３００を用いて、クロマトグラムのピークピッキングを行う。以下、学習済みの推定モデル３００を「学習済みモデル」と称する場合がある。

計算部２０４は、判定部２０３の判定結果の確信度を計算する。画像処理部２０５は、判定結果および確信度を含む画像データを作成する。出力部２０６は、画像データを含む表示信号を入出力ポート３０から表示装置６０へ出力する。なお、解析装置１が表示装置６０を備えていてもよい。

図２は、クロマトグラムの一例を示す図である。ここでは、クロマトグラムから特定される各部の名称を簡単に説明する。クロマトグラムは、ベースラインの部分と、ピーク領域とに分類することができる。ベースラインからの立ち上がり部分は、ピーク開始点およびピーク終了点と称される。ピーク開始点とピーク終了点との間の領域は、ピーク領域と称される。ピーク領域のうち、検出強度が非常に強い部分（最も強い部分）は、ピークトップと称される。

ピーク領域には、図２に例示されるように、単体ピークが含まれる。クロマトグラフの波形に未分離ピークが現れる場合、ピーク領域には、単体ピークおよび未分離ピークが含まれる。たとえば、ピークトップを頂上とする山状波形が２つ連なっており、かつ、２つの山状波形の間の谷に該当する部分の検出強度がベースラインに対応する強度まで落ちていない部分は、未分離ピークと称される。

次に、学習済みモデルを作成する手順について、フローチャートを参照して説明する。図３は、学習済みモデルを作成する手順を説明するためのブロック図である。図３に示されるように、解析装置１のモデル作成部２０２は、学習装置として機能する。モデル作成部２０２は、入力された学習用データ２１０に基づいて、推定モデル３００を学習させる。推定モデル３００は、ニューラルネットワークを用いることで、ディープラーニングを行う。推定モデル３００は、ニューラルネットワークによる計算に用いられる重み付け係数などのパラメータを含む。

推定モデル３００を学習させるため、たとえば、教師あり学習のアルゴリズムが用いられる。モデル作成部２０２は、学習用データ２１０を用いた教師あり学習によって、推定モデル３００を学習させる。

推定モデル３００の学習には、セマンティックセグメンテーション（Semantic Segmentation）の技術が用いられる。セマンティックセグメンテーションは、一般に、二次元的に分布する画素データで構成された画像を解析するために用いられる。本実施の形態では、時間軸に沿って一次元的に並ぶデータで構成されるクロマトグラムの波形の解析にセマンティックセグメンテーションを適用する。セマンティックセグメンテーションを実行可能な学習モデルとして、たとえば、Ｕ－Ｎｅｔ、ＳｅＧＮｅｔ、ＰＳＰＮｅｔなどを用いることができる。本実施の形態では、Ｕ－Ｎｅｔを用いる。

モデル作成部２０２は、クロマトグラムの部分波形と、それに対応する正解データとが入力される。正解データは、たとえば、既に特定されたピークピッキングの結果である。ピークピッキングの結果にピークトップを含めてもよい。

モデル作成部２０２は、入力された学習用データ２１０と推定モデル３００とに基づいてピークピッキングの結果を判定し、判定結果と正解データとに基づき、推定モデル３００を学習させる。具体的には、モデル作成部２０２は、推定モデル３００によって得られた結果が、正解データに近づくように、推定モデル３００内のパラメータを調整することにより、推定モデル３００を学習させる。

図４は、学習済みモデルを作成する手順を説明するためのフローチャートである。解析装置１のプロセッサ１０が解析用プログラム２００の一部を実行することにより、本フローチャートの処理が実現される。

はじめに、プロセッサ１０は、推定モデル３００の学習を開始させる操作を検出する（ステップＳ１）。たとえば、ユーザがマウス４０およびキーボード５０を用いて、推定モデル３００の学習を開始させる操作をした場合、その操作がステップＳ１において検出される。

次に、プロセッサ１０は、メモリ２０から学習用データ２１０（訓練用データ２１１および検証用データ２１２）を読み出す（ステップＳ２）。次に、プロセッサ１０は、推定モデル３００に訓練用データ２１１を入力する（ステップＳ３）。次に、推定モデル３００において、ディープラーニングによる学習処理が実行される（ステップＳ４）。本実施の形態において推定モデル３００の学習に用いるＵ－Ｎｅｔでは、部分波形から正しい特性情報が得られるように、ニューラルネットワークの重みづけが調整される。

より具体的には、訓練用データ２１１の部分波形および部分波形に対応付けられた特性情報に基づいて、推定モデル３００のパラメータが調整される。パラメータを調整する過程では、単体ピーク、未分離ピーク、ピーク開始点、ピーク終了点、およびベースラインなどを推定する処理と、推定結果と正解データとを照らし合わせる処理とが実行される。

次に、プロセッサ１０は、ステップＳ４の学習処理の結果に応じて作成された推定モデル３００をメモリ２０に格納する（ステップＳ５）。次に、プロセッサ１０は、推定モデル３００が検証用データ２１２の部分波形を解析して付与した特性情報の正答率を確認する（ステップＳ６）。

次に、プロセッサ１０は、予め定められた終了条件が成立しているか否かを判定する（ステップＳ７）。たとえば、訓練用データ２１１を用いて繰り返し実施する学習処理の回数が予め決められた回数に達している場合、プロセッサ１０は、終了条件が成立していると判定する。終了条件が成立していない場合、プロセッサ１０は、終了条件が成立するまで、ステップＳ３からステップＳ６の処理を繰り返す。

プロセッサ１０は、終了条件が成立した場合、メモリ２０に保存されている複数の推定モデル３００の中から適切なものを選択し、選択した推定モデル３００を学習済みモデルとしてメモリ２０に保存する（ステップＳ８）。

これにより、プロセッサ１０は、図４の一連の処理を終了する。学習済みモデルは、たとえば、検証用データ２１２に対する正答率が最も高いこと、あるいは過学習が生じていないことなどを基準に選択される。なお、ここでは、学習回毎に推定モデル３００をメモリ２０に格納する例を示した。しかし、学習回数が予め定めた回数に達するまで、同じ推定モデル３００を繰り返し更新し、学習回数が予め定めた回数に達したときに推定モデル３００をメモリ２０に格納してもよい。

次に、未解析のクロマトグラムの波形を解析する手順について、フローチャートを参照して説明する。図５は、学習済みモデル（学習済みの推定モデル３００）を用いてクロマトグラムデータを判定する手順を説明するためのフローチャートである。解析装置１のプロセッサ１０が解析用プログラム２００の一部を実行することにより、本フローチャートの処理が実現される。

はじめに、プロセッサ１０は、クロマトグラムデータ（測定データ）を取得する（ステップＳ１１）。クロマトグラムデータは、入出力ポート３０に接続された質量分析計などの計測機器を通じて、または、入出力ポート３０に接続された端末装置などを通じて、解析装置１に入力される。

次に、プロセッサ１０は、取得されたクロマトグラムの波形を予め決められた数の部分波形に分割する（ステップＳ１２）。クロマトグラム波形の分割数は、訓練用データ２１１および検証用データ２１２と同数であってもよく、異なる数であってもよい。

ただし、各部分波形の幅（時間軸方向の長さ）が少なくとも、クロマトグラムに含まれることが予測されるピークの幅よりも小さくなるように、波形の長さ（クロマトグラフ質量分析の実行時間の長さ）に応じて分割数が決定される。たとえば、５１２または１０２４などに分割数を設定することが考えられる。

次に、プロセッサ１０は、学習済みの推定モデル３００（学習済みモデル）に部分波形を入力する（ステップＳ１３）。次に、学習済みモデルによって、部分波形がピーク領域に属するものであるか否かが判定され、ラベル付け処理を実行する（ステップＳ１４）。より具体的には、部分波形から、ピーク開始点および終了点、ベースライン、単体ピーク、未分離ピーク、ピークトップなどが判定される。また、それぞれの判定結果の重みが算出される。また、ステップＳ１４では、各部分波形に特性情報（ピーク領域に属するものであるか否かの情報）が付される。

次に、プロセッサ１０は、ピークの確信度を計算する（ステップＳ１７）。ピークの確信度は、学習済みモデルによって判定されたピーク開始点に対応する重みと、学習済みモデルによって判定されたピーク終了点に対応する重みとの平均値によって計算される。

次に、プロセッサ１０は、判定結果および確信度を示すグラフを作成する（ステップＳ１８）。本実施の形態では、複数種類のグラフがプロセッサ１０により作成される。プロセッサ１０は、作成されたグラフを表示するための表示信号を表示装置６０へ出力する（ステップＳ１９）。これにより、表示装置６０には、判定結果および確信度が表示される。たとえば、表示装置６０の画面には、クロマトグラムの波形上に、ピーク開始点、ピーク終了点、および確信度が表示される。

次に、プロセッサ１０は、ピーク開始点および終了点の修正指示を検出したか否かを判定する（ステップＳ２０）。本実施の形態では、表示装置６０の画面上でユーザがピーク開始点および終了点を修正する操作を行うことが可能である。修正指示が検出されない場合、プロセッサ１０は、ステップＳ２２に処理を進める。

ユーザがマウス４０およびキーボード５０により、ピーク開始点および終了点を修正する操作をした場合、プロセッサ１０は、修正指示に応じて画面上のデータを修正する（ステップＳ２１）。このように、プロセッサ１０は、ユーザの修正指示を受け付けて、ピーク開始点および終了点を修正する。

プロセッサ１０は、データを修正した後、データを確定させる操作を検出したか否かを判定する（ステップＳ２２）。データを確定させる操作が検出されない場合、プロセッサ１０は、ステップＳ２０に処理を戻す。プロセッサ１０は、データを確定させる操作が検出された場合、判定結果（データが修正された場合には修正後の判定結果）をメモリ２０に格納し（ステップＳ２３）、本フローチャートに基づく処理を終える。

図６は、学習済みモデルの判定結果の一例を示す図である。図６の上のグラフは、入力されたクロマトグラムの波形Ｗ０を示す。図６の下のグラフは、入力されたクロマトグラムに対する学習済みモデルの判定結果を示す。両グラフの横軸（インデックス）は、時間軸に対応する。図６の上のグラフの縦軸は強度を示す。図６の下のグラフの縦軸は学習済みモデルにより出力された重みを示す。重みは、０～１の範囲に正規化されている。

学習済みモデルの判定結果として示される波形Ｗ１～Ｗ５は、それぞれ、ベースライン、単体ピーク、未分離ピーク、ピーク開始点、およびピーク終了点に対応する。クロマトグラムの波形Ｗ０と波形Ｗ１～Ｗ５とを対比することにより、たとえば、クロマトグラムの波形Ｗ０のうち、インデックスＩｓの位置において、ピーク開始点に対応する重みが最も高くなることがわかる。同様に、クロマトグラムの波形Ｗ０のうち、インデックスＩｅの位置において、ピーク終了点に対応する重みが最も高くなることがわかる。この場合、たとえば、解析装置１は、クロマトグラムの波形Ｗ０のうち、インデックスＩｓの位置をピーク開始点と判定し、インデックスＩｅの位置をピーク終了点と判定する。

ここでは、判定対象として、ピーク開始点、ピーク終了点、単体ピーク、未分離ピーク、およびベースラインを例に挙げているが、ピークトップなど、他の要素を判定対象に加えることもできる。

プロセッサ１０は、図６に示されるように、学習済みモデルによって判定されたピーク開始点Ｉｓに対応する重みＷｓと、学習済みモデルによって判定されたピーク終了点Ｉｅに対応する重みＷｅとの平均値を計算することにより、ピークの確信度を特定する。

図７は、判定結果に基づいてラベル付け処理が行われたグラフの一例を示す図である。図７の上のグラフは、図６の下に示したグラフと同一である。図７の下のグラフは、入力されたクロマトグラムの波形Ｗ０（図６参照）を、波形Ｗ１～波形Ｗ５に基づいてラベル付けしたグラフである。ラベル０～４は、それぞれ、ベースライン、単体ピーク、未分離ピーク、ピーク開始点、およびピーク終了点に対応する。

たとえば、ラベル付け処理は、次の手順で行われる。すなわち、波形Ｗ１～Ｗ５のうち、あるインデックスＩｘの位置で最も重みが大きい波形を選択し、その選択した波形でインデックスＩｘの値をラベル付けする。ｘをインデックスの初期値から最終値まで変化させて同じ処理を繰り返すことによって、ラベル付け処理が終了する。たとえば、図７には、インデックス０～Ｉｓまでの区間がベースラインにラベル付け（ラベル＝０）されたグラフが示されている。

図８は、判定結果とともに確信度を表示する画像６１の一例を示す図である。画像６１は、表示装置６０によって表示される。画像６１には、測定対象であるクロマトグラムの波形とともに、判定結果に対応するピーク開始点Ｉｓおよびピーク終了点Ｉｅが示される。さらに、画像６１には、判定されたピーク開始点Ｉｓおよびピーク終了点Ｉｅに対する確信度が表示される。ユーザは、画像６１を見ることにより、判定結果の確からしさを認識することができる。

なお、プロセッサ１０は、画像６１の他、図６に示す態様の２つのグラフを含む画像と、図７に示す態様の２つのグラフを含む画像と、図６および図７に含まれる３つのグラフを縦方向に並べた画像とを選択的に表示装置６０に表示することが可能である。いずれの画像にも、図８に示される態様で確信度が併せて表示される。ユーザは、マウス４０およびキーボード５０を用いて、いずれの画像を表示するかを示す指示を解析装置１に入力することができる。

図９は、判定結果を修正する操作を受け付ける画像６２の一例を示す図である。画像６２は、表示装置６０によって表示される。画像６２には、図８に示した内容に加えて、ピーク開始点Ｉｓおよびピーク終了点Ｉｅの位置を修正するためのアイコン６５，６６が表示される。

アイコン６５は、ピーク開始点Ｉｓに対応する。ユーザがマウス４０およびキーボード５０を用いて、アイコン６５を操作することにより、ピーク開始点Ｉｓの位置が変化する。ユーザがマウス４０およびキーボード５０を用いて、アイコン６６を操作することにより、ピーク終了点Ｉｅの位置が変化する。ピーク開始点Ｉｓおよびピーク終了点Ｉｅの位置が変化することに連動して、グラフの下に表示されるインデックス位置および確信度も変化する。

ユーザは、ピーク開始点Ｉｓおよびピーク終了点Ｉｅの位置を適切な位置に修正した後、データを確定させる操作を行う。データを確定させる操作がプロセッサ１０により検出されると、修正後の結果がメモリ２０に格納される。

なお、ここでは、図８に示される画像６１をベースにして、アイコン６５，６６が表示される例を示した。しかし、図６に示す態様の２つのグラフを含む画像と、図７に示す態様の２つのグラフを含む画像と、図６および図７に含まれる３つのグラフを縦方向に並べた画像とに対して、判定結果を修正するためのアイコン６５，６６を表示してもよい。

このように、本実施の形態では、学習済みモデルの判定結果および確信度が表示装置６０に表示される。このため、ユーザは、確からしいピーク情報とそれよりも信頼性の低いピーク情報とを目視で識別できる。その結果、ユーザによる目視での確認や修正の指示が一層簡単になり、そうした作業におけるユーザの負担を軽減することができる。また、多数のピークが観測される波形を解析する際、ユーザが確認すべきピークの数が減ることで確認作業のミスや見落としなどを防止することもできる。

次に、実際のクロマトグラムデータを用いて学習済みモデルを作成し、またクロマトグラムの波形解析を行った例を説明する。学習済みモデルを作成するにあたり、一次代謝物のクロマトグラムを３０セット用意した。なお、１セットには、４７５個のクロマトグラムが含まれていた。用意した各々のクロマトグラムを対象としてマニュアルでピークピッキングをした。その後、クロマトグラムの波形をベースライン、ピーク開始点、ピーク終了点、単体ピーク、および未分離ピークの５クラスに分類し、それぞれにラベルを付与した。これにより、学習用データを作成した。用意した学習用データを用いて、クロスバリデーション評価をした。クロスバリデーション評価では、３０セットのうち１セットを検証用データにして評価する作業を３０回実施した。

学習済みモデルから出力されたピーク開始点の重みと、学習済みモデルから出力されたピーク開始点の重みとを足し合わせて２で除することにより、その重もの平均値を算出し、これをピークの確信度とした。その上で、確信度と正解率との関係を検証した。図１０検証結果が示されている。

図１０は、ピークの確信度と正解率との関係を示す図である。図１０において、ＴＰは、正解数を示し、ＦＰは不正解数を示す。図１０に示されるとおり、確信度（ｃｏｎｆｉｄｅｎｃｅ）が高くなればなるほど、正解率が上がっている。このことから、本実施の形態で開示される確信度の計算方法が有効であることがわかる。

次に、図１１を参照して、ピークの確信度の計算手法に関する変形例を説明する。図１１は、ピークの確信度を計算する手法の変形例１～７を示す図である。なお、以下の変形例の説明に用いる波形Ｗ１～Ｗ５は、図６および図７に示されている。

図１１に示されるように、ベースライン（変形例１）、単体ピーク（変形例２）、ピーク開始点（変形例３）、ピーク終了点（変形例４）、およびピークトップ（変形例５）のいずれかを単体で用いて、ピークの確信度を計算することが可能である。

変形例１は、ベースラインを用いてピークの確信度を計算する例である。図１１に示されるように、確信度は、「１－（ベースラインの波形Ｗ１のうち、ピーク領域に属するインデックス部分の重みの平均値）」によって計算することができる。ここで、ピーク領域に属するインデックス部分は、たとえば、図６において、インデックスＩｓ～Ｉｅの範囲を意味する。

変形例２は、単体ピークを用いてピークの確信度を計算する例である。図１１に示されるように、確信度は、「単体ピークの波形Ｗ２のうち、ピーク領域に属するインデックス部分の重みの平均値」によって計算することができる。

変形例３は、ピーク開始点を用いてピークの確信度を計算する例である。図１１に示されるように、確信度は、「ピーク開始点の波形Ｗ４に対応するインデックス部分の重みの平均値」によって計算することができる。たとえば、図６において、インデックスの初期値から終端値の範囲の各インデックスを対象にして波形Ｗ４に対応する重みを特定し、特定した全ての重みの平均値を計算することによって、確信度が導出される。

変形例４は、ピーク終了点を用いてピークの確信度を計算する例である。図１１に示されるように、確信度は、「ピーク終了点の波形Ｗ５に対応するインデックス部分の重みの平均値」によって計算することができる。

変形例５は、ピークトップを用いてピークの確信度を計算する例である。図１１に示されるように、確信度は、「ピークトップに対応するインデックス部分の重みの平均値」によって計算することができる。

変形例６は、単体ピーク、未分離ピーク、およびベースラインを組み合わせて、ピークの確信度を計算する例である。図１１に示されるように、確信度は、「（Ｂ＋Ｃ）／（Ａ＋Ｂ＋Ｃ）」によって計算される。ここで、Ａ、Ｂ、およびＣは、それぞれ以下のとおりである。

Ａ：ベースラインの波形Ｗ１のうち、ピーク領域に属するインデックス部分の重みの総和
Ｂ：単体ピークの波形Ｗ２のうち、ピーク領域に属するインデックス部分の重みの総和
Ｃ：未分離ピークの波形Ｗ３のうち、ピーク領域に属するインデックス部分の重みの総和
変形例７は、ベースライン、未分離ピーク、ピーク開始点、およびピーク終了点を組み合わせて、ピークの確信度を計算する例である。図１１に示されるように、確信度は、「Ｘ／（Ｘ＋Ｙ）」によって計算される。ここで、ＸおよびＹは、それぞれ以下のとおりである。

Ｘ：ピーク領域において、ラベル２～４のいずれか対応するインデックス数
Ｙ：ピーク領域において、ラベル０に対応するインデックス数
変形例７に関して、図１２を参照して、より詳細に説明する。図１２は、変形例７を説明するための図である。図１２は、判定結果に対してラベル付け処理をしたグラフに対して、変形例７を説明するための各種の領域Ｘａ、領域Ｘｂ、および領域Ｙａを付与した図面である。図１２に示されるグラフでは、ピーク領域の一部にベースラインが含まれている。学習済みモデルと測定対象との関係により、図１２に示されるようなグラフが作図される判定結果が得られる場合がある。

変形例７に関わる確信度の計算式において、Ｘは、ピーク領域において、ラベル２～４のいずれか対応するインデックス数である。これは、領域Ｘａのインデックス数と領域Ｘｂのインデックス数とを足し合わせた数に該当する。

変形例７に関わる確信度の計算式において、Ｙは、ピーク領域において、ラベル０に対応するインデックス数である。これは、領域Ｙａのインデックス数に該当する。

以上、説明したように、本実施の形態に関わる解析装置１は、判定結果の確信度を計算することができる。特に、本実施の形態に関わる解析装置１は、セマンティックセグメンテーションの技術を用いたピークピッキングを実施しつつ、判定結果の確信度を計算する点に特徴を有する。

ディープラーニングを用いたピークピッキングでは、画像認識分野の物体検知の技術を適用する手法と、セマンティックセグメンテーションの技術を適用する手法とが知られている。非特許文献１では、ピークピッキングの問題を物体検知で定式化するよりもセマンティックセグメンテーションで定式化することで、性能が向上することが述べられている。しかし、従来、セマンティックセグメンテーション技術を用いたピークピッキングにおいて確信度を計算する手法が存在しなかった。

本実施の形態に関わる解析装置１は、セマンティックセグメンテーションの技術を用いたピークピッキングを実施し、しかも、その判定結果の確信度を計算するとともに、判定結果および確信度を表示装置６０に表示することができる。さらに、解析装置１は、ユーザが判定結果を修正することが可能なインターフェイスを提供する。これにより、ユーザは、ピークピッキングによって検出されたピーク開始点および終了点等のピーク情報を簡便にかつ効率よく確認しつつ、必要に応じて修正することができる。その結果、本実施の形態によれば、高い精度のピーク検出結果を出力することが可能な解析装置１を提供することができる。

本実施の形態は、いずれも一例であって、本開示の趣旨に沿って適宜に変更することが可能である。ここではクロマトグラフ質量分析により得られたクロマトグラムの波形を処理する場合を例に説明した。しかし、質量分析計以外の検出器（分光光度計）を有するクロマトグラフ、およびガスクロマトグラフで取得されたクロマトグラムも同様に解析装置１により解析することができる。さらに、解析の対象はクロマトグラムに限定されない。たとえば、分光光度計による測定で取得された分光スペクトル（波長または波数軸に対する検出強度の変化を表した波形）を解析対象としてもよい。ＬＣ、ＧＣ、ＬＣ－ＰＤＡ、ＬＣ／ＭＳ、ＧＣ／ＭＳ、ＬＣ／ＭＳ／ＭＳ、ＧＣ／ＭＳ／ＭＳ、ＬＣ／ＭＳ－ＩＴ－ＴＯＦなどで得られたいずれの波形を解析対象としてもよい。

［態様］
上記した実施の形態およびその変形例は、以下の態様の具体例であることが当業者により理解される。

（第１項）一態様に係る解析装置は、クロマトグラムまたはスペクトルである対象波形を解析する解析装置であって、プロセッサと、ピーク部分の位置が既知である参照波形を分割することにより作成された複数の部分波形からなる組を複数組用いた機械学習によって作成された学習済みモデルが格納されたメモリとを備え、プロセッサは、対象波形を複数の部分波形に分割し、学習済みモデルを用いて、分割された複数の部分波形のうちピーク部分となるピーク波形を判定し、学習済みモデルを用いて対象波形のピーク部分を判定するときに学習済みモデルから出力されたデータを用いて、ピーク波形の判定結果の確信度を計算する。

第１項に記載の解析装置によれば、セマンティックセグメンテーション技術を用いたピークピッキングをする場合において、ピークピッキングの確信度を計算可能となる。

（第２項）第１項に記載の解析装置において、プロセッサは、学習済みモデルから出力されたデータから特定される値、または学習済みモデルから出力されたデータにラベルを付けるラベル付け処理したデータを用いて、確信度を計算する。

第２項に記載の解析装置によれば、学習済みモデルから出力されたデータから特定される値、または学習済みモデルから出力されたデータにラベルを付けるラベル付け処理したデータを用いて、確信度を適切に計算することができる。

（第３項）第１項に記載の解析装置において、プロセッサは、ピーク波形にラベル付けを行い、確信度を計算する。

第３項に記載の解析装置によれば、ピーク波形にラベル付けが行われ、確信度が計算される。

（第４項）第２項または第３項に記載の解析装置において、ラベルには単体ピーク、未分離ピーク、ピーク開始点、ピーク終了点、ピークトップ、およびベースラインのうちの少なくとも１つが含まれる。

第４項に記載の解析装置によれば、単体ピーク、未分離ピーク、ピーク開始点、ピーク終了点、ピークトップ、およびベースラインのうちの少なくとも１つのラベルを利用することができる。

（第５項）第１項に記載の解析装置において、プロセッサは、確信度として、対象波形のピーク開始点に対応する重みの値と、対象波形のピーク終了点に対応する重みの値との平均値を計算する。

第５項に記載の解析装置によれば、対象波形のピーク開始点に対応する重みの値と、対象波形のピーク終了点に対応する重みの値との平均値によって、確信度を比較的簡単な演算式で算出することができる。

（第６項）第１項～第５項のいずれか１項に記載の解析装置において、判定結果および確信度を表示するための表示信号を出力する出力ポートをさらに備える。

第６項に記載の解析装置によれば、表示信号を表示装置に入力することによって、ユーザは、判定結果と確信度との関係を認識することができる。

（第７項）第６項に記載の解析装置において、表示信号に基づいて判定結果および確信度を表示する表示装置をさらに備え、プロセッサは、判定結果および確信度が表示装置に表示されているときに、判定結果を修正する操作を受け付ける。

第７項に記載の解析装置によれば、ユーザは、確信度を考慮しつつ、判定結果をより適切と考えられる結果に修正することができる。

（第８項）他の態様に係る解析方法は、クロマトグラムまたはスペクトルである対象波形を解析する解析方法であって、ピーク部分の位置が既知である参照波形を分割することにより作成された複数の部分波形からなる組を複数組用いた機械学習によって、入力される波形に含まれるピーク部分を特定する学習済みモデルを作成するステップと、対象波形を複数の部分波形に分割するステップと、学習済みモデルを用いて、分割された複数の部分波形のうちピーク部分となるピーク波形を判定するステップと、学習済みモデルを使用して対象波形のピーク部分を判定するときに学習済みモデルから出力されたデータを用いて、ピーク波形の判定結果の確信度を計算するステップとを含む。

第８項に記載の解析方法によれば、セマンティックセグメンテーション技術を用いたピークピッキングをする場合において、ピークピッキングの確信度を計算可能となる。

なお、プロセッサは、ベースラインの推定結果のうち、ピーク領域に属する部分の重みの総和を第１総和とし、単体ピークの推定結果のうち、ピーク領域に属する部分の重みの総和を第２総和とし、未分離ピークの推定結果のうち、ピーク領域に属する部分の重みの総和を第３総和としたとき、プロセッサは、（第２総和＋第３総和）／（第１総和＋第２総和＋第３総和）を計算することによって、確信度を計算してもよい（変形例６）。

また、プロセッサは、学習済みモデルから出力されたデータをラベル付け処理することが可能であり、ピーク領域に属するラベルのうち、未分離ピーク、ピーク開始点、およびピーク終了点のいずれかに対応するラベルの総数を第１総数とし、ピーク領域に属するラベルのうち、ベースラインに対応するラベルの総数を第２総数としたとき、プロセッサは、（第１総数）／（第１総数＋第２総数）を計算することによって、確信度を計算してもよい（変形例７）。

今回開示された実施の形態は、全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。

１解析装置、１０プロセッサ、２０メモリ、３０入出力ポート、４０マウス、５０キーボード、６０表示装置、６１画像、６２画像、６５，６６アイコン、２００解析用プログラム、２０１分割部、２０２モデル作成部、２０３判定部、２０４計算部、２０５画像処理部、２０６出力部、２１０学習用データ、２１１訓練用データ、２１２検証用データ、２１３測定データ、３００推定モデル、Ｘａ，Ｘｂ，Ｙａ領域、Ｗ０波形（クロマトグラム）、Ｗ１波形（ベースライン）、Ｗ２波形（単体ピーク）、Ｗ３波形（未分離ピーク）、Ｗ４波形（ピーク開始点）、Ｗ５波形（ピーク終了点）。

Claims

クロマトグラムまたはスペクトルである対象波形を解析する解析装置であって、
プロセッサと、
ピーク部分の位置が既知である参照波形を分割することにより作成された複数の部分波形からなる組を複数組用いた機械学習によって作成された学習済みモデルが格納されたメモリとを備え、
前記プロセッサは、
前記対象波形を複数の部分波形に分割し、
前記学習済みモデルを用いて、分割された前記複数の部分波形のうちピーク部分となるピーク波形を判定し、
前記学習済みモデルを用いて前記対象波形のピーク部分を判定するときに前記学習済みモデルから出力されたデータを用いて、前記ピーク波形の判定結果の確信度を計算する、解析装置。
前記プロセッサは、前記学習済みモデルから出力されたデータから特定される値、または前記学習済みモデルから出力されたデータにラベルを付けるラベル付け処理したデータを用いて、前記確信度を計算する、請求項１に記載の解析装置。
前記プロセッサは、前記ピーク波形にラベル付けを行い、前記確信度を計算する、請求項１または２に記載の解析装置。
前記ラベルには単体ピーク、未分離ピーク、ピーク開始点、ピーク終了点、ピークトップ、およびベースラインのうちの少なくとも１つが含まれる、請求項２または請求項３に記載の解析装置。
前記プロセッサは、前記確信度として、前記対象波形のピーク開始点に対応する重みの値と、前記対象波形のピーク終了点に対応する重みの値との平均値を計算する、請求項１に記載の解析装置。
前記判定結果および前記確信度を表示するための表示信号を出力する出力ポートをさらに備える、請求項１～請求項５のいずれか１項に記載の解析装置。
前記表示信号に基づいて前記判定結果および前記確信度を表示する表示装置をさらに備え、
前記プロセッサは、前記判定結果および前記確信度が表示装置に表示されているときに、前記判定結果を修正する操作を受け付ける、請求項６に記載の解析装置。
クロマトグラムまたはスペクトルである対象波形を解析する解析方法であって、
ピーク部分の位置が既知である参照波形を分割することにより作成された複数の部分波形からなる組を複数組用いた機械学習によって、入力される波形に含まれるピーク部分を特定する学習済みモデルを作成するステップと、
前記対象波形を複数の部分波形に分割するステップと、
前記学習済みモデルを用いて、分割された前記複数の部分波形のうちピーク部分となるピーク波形を判定するステップと、
前記学習済みモデルを使用して前記対象波形のピーク部分を判定するときに前記学習済みモデルから出力されたデータを用いて、前記ピーク波形の判定結果の確信度を計算するステップとを含む、解析方法。