JP2021009135A

JP2021009135A - 情報処理装置、情報処理装置の制御方法、及びプログラム

Info

Publication number: JP2021009135A
Application number: JP2020076006A
Authority: JP
Inventors: 河村　英孝; Hidetaka Kawamura; 英孝河村; 彰大田谷; Akihiro Taya; 泰吉正; Yasushi Yoshimasa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-06-28
Filing date: 2020-04-22
Publication date: 2021-01-28

Abstract

【課題】被検物質を含む試料に、被検物質のピークと重なるピークを持つ別の物質が含まれる場合であっても、被検物質の定量的な情報を高精度に得ることができる情報処理装置を提供する。【解決手段】被検物質と夾雑物とを含む試料の複数のスペクトル情報のうち、選択された２以上のスペクトル情報を学習モデルに入力することにより推定された、前記被検物質の定量的な情報を取得する情報取得手段を有することを特徴とする情報処理装置。【選択図】図１

Description

本発明は、情報処理装置、情報処理装置の制御方法、及びプログラムに関する。

様々な試料中に含まれる特定成分（以下、被検物質と記載）の濃度や量を知る方法としてスペクトル解析が広く用いられている。スペクトル解析では、試料に何らかの刺激を与えた際の応答を検出し、得られた信号をもとに試料を構成する成分に関する情報（スペクトル情報）を得ることができる。刺激や応答を特徴づける、光を含む電磁波の強度の他、温度、質量、そして特定の質量をもった破片のカウント数がスペクトル情報である。刺激として電子衝突を用いて、分解によって生じた破片の質量に対してその量を記録し構造などの情報を得ることもスペクトル解析に含まれる。

スペクトル解析の中にはあらかじめ構成成分間の立体的な大きさや、電荷、親・疎水性の違いを利用して分離を試みた後、電磁波を照射して解析を行う方法もある。これは分離分析と呼ばれる。高速液体クロマトグラフィー（ＨＰＬＣ）では、カラム種や移動相種、そして温度や流速などの分析条件を最適化することにより被検物質とその他の物質（以下、夾雑物と記載）を分離する。そして、分離した被検物質のスペクトルを計測することで、濃度や量を知ることができる。また、夾雑物との分離ができない場合は、演算処理によるピーク分割が試みられる。

従来のピーク分割法としては、ベースラインを設ける方法（図３参照）や、ピーク間の極小値を利用して垂直に分割する方法（図４参照）、特許文献１及び２に記載されたガウス関数など適当な関数を、最小二乗法を用いてフィッティングし分割する方法がある。図３及び４において、ピークの面積は、斜線部分とする。また、ピークの高さは、Ｙとする。

ここで、生体由来のサンプルの分析にはＨＰＬＣが使われることが多い。しかし、尿や血液など生体由来のサンプルでは夾雑物が多いことや、摂取物由来の未知の夾雑物が含まれているケースがあることから、被検物質を夾雑物から分離するための分離条件の検討や、前処理、ピーク分割法などに習熟した操作者が必要になる。

その他、食品の残留農薬の分析や環境分析などに用いるサンプルには、夾雑物が多く含まれている場合がある。そのため、初心者でも前処理が必要なく簡便に、かつ、精度よくサンプル中の被検物質を分析できる方法が望まれている。

特開平６−３２４０２９号公報特開２００６−１７７９８０号公報特開２０１８−１５２０００号公報

上記の通り、従来、スペクトル情報から被検物質の濃度や量といった定量的な情報を得るためには、夾雑物を得るための前処理や、ピーク分割法などの演算処理が必要である。そこで、被検物質を含む試料のスペクトル情報を基にした学習モデルを利用し、定量的な情報を算出することが可能な情報処理装置を用いると、試料中の被検物質を簡便に分析できると考える。しかし、試料に、被検物質のピークと重なるピークを持つ夾雑物が含まれると、試料中の被検物質の定量的な情報の予測精度が低下したり、そもそも定量的な情報を算出できなかったりするといった課題があることが判明した。

したがって、本発明の目的は、試料に、被検物質のピークと重なるピークを持つ夾雑物が含まれる場合であっても、被検物質の定量的な情報を高精度に予測できる情報処理装置を提供することにある。また、本発明の別の目的は、前記情報処理装置の制御方法、及びプログラムを提供することにある。

本発明の情報処理装置は、被検物質と夾雑物とを含む試料の複数のスペクトル情報のうち、選択された２以上のスペクトル情報を学習モデルに入力することにより推定された、前記被検物質の定量的な情報を取得する情報取得手段を有することを特徴とする。

また、本発明の情報処理装置の制御方法は、被検物質と夾雑物とを含む試料の複数のスペクトル情報のうち、選択された２以上のスペクトル情報を学習モデルに入力することにより推定された、前記被検物質の定量的な情報を取得する情報取得工程を有することを特徴とする。

本発明によれば、試料に、被検物質のピークと重なるピークを持つ夾雑物が含まれる場合であっても、被検物質の定量的な情報を高精度に予測できる情報処理装置、前記情報処理装置の制御方法、及びプログラムを提供することにある。

本実施形態に係る情報処理装置を含む情報処理システムの全体構成を示す図である。本実施形態に係る試料中の被検物質の量を算出処理する処理のフローチャートである。従来のベースラインを設けるピーク分割法を示す図である。従来のピーク間の極小値を利用して垂直に分割するピーク分割法を示す図である。バニリルマンデル酸（ＶＭａ）とクレアチニン（Ｃｒｅ）単体の３つの波長（２１０ｎｍ、２３０ｎｍ、２４５ｎｍ）におけるクロマトグラムの図である。ＶＭａとＣｒｅの混合物の３つの波長（２１０ｎｍ、２３０ｎｍ、２４５ｎｍ）におけるクロマトグラムの図である。ＶＭａとＣｒｅの混合物の２つの波長（２３０ｎｍ、２４５ｎｍ）におけるクロマトグラムの図である。ＶＭａとＣｒｅ各単体の３つの波長のクロマトグラムを結合させて作成したシミュレーショングラムの図である。ＶＭａとＣｒｅの混合物のシミュレーショングラムの図である。

以下に、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。但し、本発明の範囲は以下で説明する各実施形態に限定されるものではない。

本発明において、被検物質の定量的な情報を高精度に予測するためには、複数のスペクトル情報を用いて、被検物質の量を算出する。ここで、複数のスペクトル情報とは、スペクトルを測定する際の波長が互いに異なるスペクトル情報などのことである。複数のスペクトル情報を用いることで、あるスペクトル情報では、被検物質のピークと夾雑物のピークが重なり、被検物質の量を予測しにくい場合であっても、別のスペクトル情報を用いることで、被検物質のピークと夾雑物のピークとの判別がつく場合がある。これにより、被検物質の量を予測できる。このように、複数のスペクトル情報を用いるためには、情報処理装置の有するスペクトル選択部で２以上のスペクトル情報を選択することが重要となる。スペクトル選択部については、後述する。

（試料）
本実施形態における試料とは、複数種の化合物を含む混合物である。本実施形態では、試料は、被検物質と夾雑物とを含む混合物である。また、混合物の成分が特定されている必要はなく、未知の成分が含有されていてもよい。例えば、血液、尿、唾液などの生体由来の混合物でもよいし、飲食物でもよい。生体由来のサンプルの分析は、サンプル提供者の健康状態を知るための手がかりを含むため、その分析は医学的に価値がある。

例えば、尿に含まれるバニリルマンデル酸は、小児がんのマーカーであるため、腫瘍の発見に役立つ。また、尿に含まれるクレアチニンは、その排泄量が推定できれば、腎機能の状態を知ることができる。

（被検物質）
本実施形態における被検物質とは、試料に含まれる１以上の既知の成分である。被検物質は、タンパク質、ＤＮＡ、ウイルス、菌類、水溶性ビタミン類、脂溶性ビタミン類、有機酸類、脂肪酸類、アミノ酸類、糖類、農薬、及び環境ホルモンからなる群より選択される少なくとも１種であることが好ましい。

（定量的な情報）
本実施形態における定量的な情報としては、試料中の被検物質の量、試料中の被検物質の濃度、試料中の被検物質の有無などが挙げられる。また、その他の定量的な情報としては、被検物質の基準量に対する、試料中の被検物質の量又は濃度の比率、試料中の被検物質の量又は濃度の比率などが挙げられる。

（スペクトル情報）
本実施形態におけるスペクトル情報とは、クロマトグラム、光電子スペクトル、赤外線吸収スペクトル（ＩＲスペクトル）、核磁気共鳴スペクトル（ＮＭＲスペクトル）、蛍光スペクトル、蛍光Ｘ線スペクトル、紫外／可視吸収スペクトル（ＵＶ／Ｖｉｓスペクトル）、ラマンスペクトル、原子吸光スペクトル、フレーム発光スペクトル、発光分光スペクトル、Ｘ線吸収スペクトル、Ｘ線回折スペクトル、常磁性共鳴吸収スペクトル、電子スピン共鳴スペクトル、熱分析スペクトルなどのことである。

（情報処理システム、情報処理装置）
次に、図１を用いて、本実施形態における情報処理システムを説明する。図１は、本実施形態に係る情報処理装置を含む情報処理システムの全体構成を示す図である。

情報処理システムは、情報処理装置１０とデータベース２２と分析装置２３とを含んでいる。情報処理装置１０とデータベース２２とは、通信手段を介して互いに通信可能に接続されている。本実施形態においては、通信手段はＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）２１で構成される。また、情報処理装置１０と分析装置２３とは、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などの規格の通信手段で接続されている。なお、ＬＡＮは、有線ＬＡＮでも無線ＬＡＮでもよいし、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）であってもよい。また、ＵＳＢはＬＡＮであってもよい。

データベース２２は、分析装置２３による分析によって取得されたスペクトル情報を管理する。また、データベース２２は、後述する学習モデル生成部４２により生成された学習モデル（学習済みモデル）を管理する。情報処理装置１０は、データベース２２で管理されたスペクトル情報や学習モデルを、ＬＡＮ２１を介して取得する。

（学習モデル）
本実施形態における学習モデルとは、回帰学習モデルであり、深層学習などの機械学習によって生成されたものを用いることができる。機械学習アルゴリズムに教師データを用いて学習を行い、適切な予測が行えるように構築したものをここでは学習モデルと呼ぶ。学習モデルに用いる機械学習アルゴリズムには多様な種類がある。例えば、ニューラルネットワークを用いた深層学習を使用することができる。ニューラルネットワークは、入力層、出力層、及び複数の隠れ層から構成され、各層は、活性化関数と呼ばれる計算式で結合されている。ラベル（入力に対応する出力）付き教師データを用いる場合、入力と出力の関係が成り立つように活性化関数の係数を決定していく。複数の教師データを用いて係数を決定することで、高い精度で入力に対する出力を予測できる学習モデルを生成することができる。

（分析装置）
分析装置２３は、試料や被検物質などを分析するための装置である。分析装置２３は、分析手段の一例に相当する。なお、前述したように、本実施形態では、情報処理装置１０と分析装置２３とが通信可能に接続されている。しかし、情報処理装置１０の内部に分析装置２３を備える形態であってもよいし、分析装置２３の内部に情報処理装置１０を備える形態であってもよい。さらに、不揮発メモリなどの記録媒体を介して分析結果（スペクトル情報）を分析装置２３から情報処理装置１０へ受け渡す形態であってもよい。

本実施形態における分析装置２３は、スペクトル情報を取得できるものであれば限定されず、化学的な分析手法や物理的な分析手法を用いた装置を利用できる。本実施形態において、化学的な分析手法としては、液体クロマトグラフィーやガスクロマトグラフィーなどのクロマトグラフィー、キャピラリー電気泳動法などが挙げられる。物理的な分析手法としては、光電子分光法、赤外吸収分光法、核磁気共鳴分光法、蛍光分光法、蛍光Ｘ線分光法、可視・紫外線吸収分光法、ラマン分光法、原子吸光法、フレーム発光分光法、発光分光法、Ｘ線吸収分光法、Ｘ線回折法、常磁性共鳴吸収などを利用した電子スピン共鳴分光法、熱分析法などが挙げられる。

例えば、液体クロマトグラフィーを用いた装置では、移動相容器、送液ポンプ、試料注入部、カラム、検出器、Ａ／Ｄ変換機を備える。検出器としては、紫外線や可視光線、赤外線などを用いた電磁波検出器をはじめ、電気化学検出器、イオン検出器などが挙げられる。この場合、得られるスペクトル情報は、時間に対する検出器からの出力強度となる。

情報処理装置１０は、その機能的な構成として、通信ＩＦ３１、ＲＯＭ３２、ＲＡＭ３３、記憶部３４、操作部３５、表示部３６、及び制御部３７を具備する。

通信ＩＦ（Ｉｎｔｅｒｆａｃｅ）３１は、例えば、ＬＡＮカード及びＵＳＢのインターフェースカードで実現される。通信ＩＦ３１は、ＬＡＮ２１とＵＳＢを介した外部装置（例えば、データベース２２と分析装置２３）と情報処理装置１０との間の通信を司る。ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）３２は、不揮発性のメモリなどで実現され、各種プログラムなどを記憶する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３３は、揮発性のメモリなどで実現され、各種情報を一時的に記憶する。記憶部３４は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などで実現され、各種情報を記憶する。操作部３５は、例えば、キーボードやマウスなどで実現され、ユーザからの指示を装置内に入力する。表示部３６は、例えば、ディスプレイなどで実現され、各種情報をユーザに向けて表示する。操作部３５や表示部３６は、制御部３７からの制御により、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）としての機能を提供する。

（制御部）
制御部３７は、例えば、少なくとも１つのＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などで実現され、情報処理装置１０における処理を統括制御する。制御部３７は、その機能的な構成として、受付部４８、スペクトル情報選択部４７、スペクトル情報取得部４１、学習モデル生成部４２、学習モデル取得部４３、推定部４４、情報取得部４５、及び表示制御部４６を具備する。

（受付部４８）
受付部４８では、分析装置２３から得られる分析結果、具体的には試料のスペクトル情報などを取得することができる。また、受付部４８では、あらかじめ分析結果を格納したデータベース（図中のデータベース２２）を用意し、データベースから分析結果、すなわち試料のスペクトル情報を取得してもよい。

（スペクトル情報選択部４７）
スペクトル情報選択部４７では、被検物質と夾雑物とを含む試料の分析結果、具体的には複数の試料のスペクトル情報を分析装置２３から取得し、複数の試料のスペクトル情報から少なくとも２以上のスペクトル情報を選択する。なお、あらかじめ分析結果が格納されたデータベース２２から、複数の試料のスペクトル情報を取得し、複数の試料のスペクトル情報から少なくとも２以上のスペクトル情報を選択してもよい。

また、スペクトル情報選択部４７は、複数の被検物質のスペクトル情報を同様に取得し、複数の被検物質のスペクトル情報から少なくとも２以上のスペクトル情報を選択する。この被検物質のスペクトル情報は、被検物質が単一で存在した場合のスペクトル情報である。ここで、複数のスペクトル情報は、測定する際の波長が互いに異なるスペクトル情報であることが好ましい。また、波長が異なるスペクトル情報を取得する場合、試料、及び被検物質のスペクトル情報それぞれから選択するスペクトル情報の波長は、同じであることが好ましい。

（スペクトル情報取得部４１）
スペクトル情報取得部４１は、スペクトル情報選択部４７で選択した試料、及び被検物質のスペクトル情報をそれぞれ結合させたコネクテッドスペクトル情報を取得する。ここで、コネクテッドスペクトル情報とは、測定した複数のスペクトルのデータを結合させて得られる情報のことである。例えば、スペクトルを取得する際に測定波長を選択できる場合、複数の波長で測定した複数のスペクトルのデータを結合させて得られる情報のことである。そして、スペクトル情報取得部４１は、取得した試料のコネクテッドスペクトル情報を、推定部４４に出力する。また、取得した被検物質のコネクテッドスペクトル情報を学習モデル生成部４２に出力する。

（学習モデル生成部４２）
学習モデル生成部４２は、スペクトル情報取得部４１が取得した複数の被検物質のスペクトル情報を結合させたコネクテッドスペクトル情報を用いて教師データを生成する。そして、学習モデル生成部４２は、教師データを用いて深層学習を実行し、学習モデルを生成する。教師データの生成及び学習モデルの生成に関する詳細な説明は、後述する。そして、学習モデル生成部４２は、生成した学習モデルを学習モデル取得部４３へ出力する。なお、学習モデル生成部４２は、生成した学習モデルをデータベース２２へ出力してもよい。

（学習モデル取得部４３）
学習モデル取得部４３は、学習モデル生成部４２が生成した学習モデルを取得する。なお、学習モデルがデータベース２２に格納されている場合には、学習モデル取得部４３は、データベース２２から学習モデルを取得する。そして、学習モデル取得部４３は、取得した学習モデルを推定部４４へ出力する。

（推定部４４）
推定部４４は、学習モデル取得部４３が取得した学習モデルに、スペクトル情報取得部４１が取得した試料のスペクトル情報を結合させたコネクテッドスペクトル情報を入力することにより、試料に含まれる被検物質の定量的な情報を学習モデルに推定させる。そして、推定部４４は、推定された定量的な情報を、情報取得部４５へ出力する。推定部４４は、試料のスペクトル情報を学習モデルに入力することにより、被検物質の定量的な情報を推定する推定手段の一例に相当する。

（情報取得部４５）
情報取得部４５は、学習モデルが推定した定量的な情報を取得する。すなわち、情報取得部４５は、被検物質と夾雑物とを含む試料のコネクテッドスペクトル情報を学習モデルに入力することにより推定された、被検物質の定量的な情報を取得する情報取得手段の一例に相当する。そして、情報取得部４５は、取得した定量的な情報を表示制御部４７へ出力する。

（表示制御部４６）
表示制御部４６は、情報取得部４５が取得した定量的な情報を表示部３６に表示させる。表示制御部４７は、表示制御手段の一例に相当する。

なお、制御部３７が具備する各部の少なくとも一部は、独立した装置として実現してもよい。また、それぞれが機能を実現するソフトウェアとして実現してもよい。この場合、機能を実現するソフトウェアは、クラウドをはじめとするネットワークを介したサーバ上で動作してもよい。本実施形態では各部はローカル環境におけるソフトウェアによりそれぞれ実現されているものとする。

また、図１に示す情報処理システムの構成はあくまで一例である。例えば、情報処理装置１０の記憶部３４がデータベース２２の機能を具備し、記憶部３４が各種情報を保持してもよい。

次に、図２を用いて、本実施形態における処理手順を説明する。図２は、試料中の被検物質の量を算出処理する処理のフローチャートである。

（Ｓ１：被検物質単体の分析）
まず、分析装置２３は、被検物質単体を分析する（ステップＳ１）。分析条件は、感度や分析時間などの観点から適宜選択すればよい。その際、被検物質の濃度を何通りか変化させて分析する。どの程度の数が必要であるかは、物質の性質などによっても異なるが、一般的に３点以上変化させることが好ましい。被検物質が複数種ある場合は、それぞれ分析することが好ましいが、被検物質同士の信号が十分に分離できる場合は、同時に測定してもよい。また、被検物質単体の分析結果には、複数のスペクトル情報が含まれている。スペクトル情報には、測定波長が異なるスペクトル情報が含まれていることが好ましい。

そして、分析装置２３は、取得したスペクトル情報を情報処理装置１０に出力する。情報処理装置１０は、分析装置２３からスペクトル情報を受信し、ＲＡＭ３３又は記憶部３４に保持する。スペクトル情報取得部４１は、こうして保持されたスペクトル情報を取得する。

なお、前述したように、分析結果であるスペクトル情報は、データベース２２が保持してもよい。この場合、スペクトル情報取得部４１は、データベース２２からスペクトル情報を取得する。また、分析装置２３が被検物質を分析するタイミングは、ステップＳ３におけるスペクトル情報の選択よりも前に実行されれば、どのようなタイミングであってもよい。

（Ｓ２：被検物質と夾雑物とを含む目的試料の分析）
分析装置２３は、被検物質と夾雑物とを含む目的試料を分析する（ステップＳ２）。測定条件は、前記ステップＳ１と同一条件で設定する。目的試料の分析結果には、複数のスペクトル情報が含まれている。スペクトル情報には、測定波長が異なるスペクトル情報が含まれていることが好ましい。また、分析装置２３が目的試料を分析するタイミングは、ステップＳ３におけるスペクトル情報の選択よりも前に実行されればよく、どのようなタイミングであってもよい。

（Ｓ３：スペクトル情報の選択）
スペクトル情報選択部４７は、ステップＳ１で得られた被検物質単体の分析結果に含まれる複数のスペクトル情報、及びステップＳ２で得られた目的試料の分析結果に含まれる複数のスペクトル情報から、２以上のスペクトル情報を選択する。そして、選択した被検物質単体のスペクトル情報を結合させた被検物質単体のコネクテッドスペクトル情報、及び選択した目的試料のスペクトル情報を結合させた目的試料のコネクテッドスペクトル情報を得る。

（Ｓ４：学習モデルの生成）
続いて、学習モデル生成部４２は、ステップＳ３で得られた被検物質単体のコネクテッドスペクトル情報を用いて、複数の教師データを生成する。

教師データの生成方法について、具体的に説明する。教師データは、被検物質単体のコネクテッドスペクトル情報に乱数で生成した任意の波形を加算することで生成される。例えば、液体クロマトグラフィーでは、スペクトル情報（クロマトグラム）が示す波形は、ガウス分布であることが多い。そのため、学習モデル生成部４２は、ピークの高さ、中央値、標準偏差を乱数で決定した複数のガウス曲線を足し合わせて、複数のランダムノイズを生成する。

スペクトル情報は、リテンションタイム（試料の注入からある化合物が検出器で検出されるまでに要する時間）全域に渡って用意する必要はない。被検物質のピークを中央にしてトリミングしたデータを用意すればよい。トリミングする範囲が広いほど、後の算出部で定量する際の精度は上がるが、精度を上げるのに必要となる教師データの数は増える。トリミングする範囲は、被検物質ピークの標準偏差（σ）の６倍以上３０倍以下であることが好ましく、１０倍以上２０倍以下であることがより好ましく、１４倍以上１８倍以下であることがさらに好ましい。

次に、トリミングしたデータに任意の波形を加算する。加算する波形の数は、クロマトグラム上で分離できずピークが重複してしまう可能性のある数であることが好ましいが、通常は２個以上８個以下であることが好ましい。加算する波形の数が８個を超えると、被検物質のピークの形状予測が難しくなり、定量精度が低下する場合がある。加算する波形の数が２個未満であると、ピークが重複しているクロマトグラムに対して精度よく定量できない場合がある。加算する波形の数は、３個以上６個以下であることがより好ましく、４個以上５個以下であることがさらに好ましい。任意の波形の形状は、下記式１に示すガウス関数とする。

ここで、ａは、想定される被検物質のピーク高さに対して０からα％の値、ｂは、トリミングした範囲に対してβ％までの値の範囲で乱数によって決定する。例えば、被検物質のピーク中央に対して±８σの範囲をトリミングした場合、ｂは、−８σ×β％から＋８σ×β％の範囲の任意の値である。α及びβは、５０以上３００以下であることが好ましく、５０以上２５０以下であることがより好ましく、５０以上２００以下であることがさらに好ましい。ｃは、被検物質ピークの標準偏差の好ましくは０．１倍以上１０倍以下、より好ましくは０．２倍以上８倍以下、さらに好ましくは０．５倍以上５倍以下の範囲で乱数によって決定する。

学習モデル生成部４２は、この複数のランダムノイズそれぞれと被検物質のコネクテッドスペクトル情報が示す波形とを足し合わせた複数の波形を生成する。こうして生成された複数の波形は、被検物質と夾雑物とを含む仮想的な試料のスペクトル情報（学習用スペクトル情報）として用いられる。つまり、生成された複数の学習用スペクトル情報を、教師データを構成する入力データとして決定する。

さらに、学習モデル生成部４２は、生成された学習用スペクトル情報のもととなった、被検物質のスペクトル情報から特定されるピークの高さ（定量的な情報）を、教師データを構成する正解データとして決定する。このようにして、学習モデル生成部４２は、入力データと正解データの組である複数の教師データを生成する。すなわち、選択された被検物質単体のスペクトル情報に基づいて生成された学習用スペクトル情報と、選択された被検物質単体のスペクトル情報から特定された定量的な情報とを関連付けることとなる。そして、ステップＳ１において、学習モデル生成部４２は、被検物質の濃度に応じたスペクトル情報を取得しているので、この濃度ごとに複数の教師データを生成する。なお、クロマトグラムの波形は、リテンションタイムが大きくなるにつれて、ピークの幅が大きくなる傾向にあることを踏まえて、学習モデル生成部４２は、生成する波形の幅を広くしてもよい。

特許文献３では検体のマススペクトルデータを癌の有無と紐付けて機械学習させる方法が開示されている。しかし、機械学習の精度を上げる為には多量の教師データを必要とする。特許文献３では教師データとして９万種のデータを用意している。つまり、機械学習は複雑な分析結果に対して精度良く解析できるが、多量の教師データを用意する必要がある点が難点である。本実施形態では、機械学習の難点である教師データを多量に用意する必要がないため、ユーザの負担を軽減することができる。

なお、このようにして教師データを生成したが、複数の試料を分析装置２３で分析することで、学習用の試料のスペクトル情報を取得し、被検物質の定量的な情報と併せて教師データとしてもよい。また、前述した方法とは異なる方法で、仮想的な試料のスペクトル情報を生成してもよい。

生成した教師データを用いて、所定のアルゴリズムに従った機械学習を実施して学習モデルを構築する（ステップＳ４）。具体的な学習の手法としては、たとえば、一般的な機械学習手法であるニューラルネットワークやサポートベクターマシンなどを用いてもよい。また、隠れ層が多層になった深層学習手法として、ＤＮＮ（ディープニューラルネットワーク）やＣＮＮ（コンボリューショナルニューラルネットワーク）などを用いてもよい。被検物質が複数種ある場合には、それぞれの物質に対して学習モデルを生成する。

（Ｓ５：被検物質の量の推定）
続いて、推定部４４は、上記ステップＳ４で生成された学習モデルを、ステップＳ３で得られた目的試料のコネクテッドスペクトル情報に適用して、被検物質の量を推定する。その際、量は、表示部３６において表示する形式に換算する。表示部において表示する形式としては、ｇ／Ｌ、ｍｏｌ／Ｌなどの濃度でもよいし、標準量に対する割合でもよい。

（Ｓ６：被検物質の量の表示）
次いで、表示部は、上記ステップＳ５において推定された被検物質の量を表示し、ユーザに提示する。その際、グラフ形式や表形式に整理して表示してもよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

＜実施例＞
以下に、実施例および比較例を挙げて本発明をより詳細に説明する。なお、本発明は以下の実施例に限定されるものではない。

（実施例１）
以下、上述したデータ処理の手法の効果を評価するために、バニリルマンデル酸（ＶＭａ）とクレアチニン（Ｃｒｅ）との混合物中のＶＭａの定量に上述した手法を適用した例である。ここで、高速液体クロマトグラフィー（ＨＰＬＣ）により得られるクロマトグラムの縦軸は信号強度（ＡＵ）であり、横軸は時間（秒）である。以下、試料の注入からある化合物が検出器で検出されるまでに要する時間をその化合物の保持時間（リテンションタイム）という。

〔リテンションタイムの確認〕
まず、ＶＭａ（１０μｇ／ｍＬ）とＣｒｅ（１０μｇ／ｍＬ）をそれぞれＨＰＬＣで分析して、３つの波長（２１０ｎｍ、２３０ｎｍ、２４５ｎｍ）におけるクロマトグラムを得た（図５参照）。図５より、ＶＭａとＣｒｅのリテンションタイムがほぼ同じであることが判明した。

〔教師データの作成〕
次に、教師データを作成した。濃度の異なるＶＭａ（０．００μｇ／ｍＬ、２．００μｇ／ｍＬ、４．００μｇ／ｍＬ、６．００μｇ／ｍＬ、８．００μｇ／ｍＬ、１０．００μｇ／ｍＬ）とＣｒｅをそれぞれ混合した混合物において、３つの波長（２１０ｎｍ、２３０ｎｍ、２４５ｎｍ）におけるクロマトグラムをそれぞれ準備した。その際、Ｃｒｅの濃度は、１０μｇ／ｍＬ以下の範囲で無作為に選んだものである。そして、各混合物において測定された３つの波長のクロマトグラムを結合させ、シミュレーションクロマトグラムを作成した。図８及び９を用いて、詳細に説明する。

図８は、１０．００μｇ／ｍＬのＣｒｅ単体の３つの波長のクロマトグラムを結合させて作成したシミュレーショングラムの図である。また、図８は、１０．００μｇ／ｍＬのＶＭａ単体の３つの波長のクロマトグラムを結合させて作成したシミュレーショングラムの図である。図９は、図８の２つのシミュレーショングラムから作成した、１０．００μｇ／ｍＬのＶＭａと１０．００μｇ／ｍＬのＣｒｅとの混合物のシミュレーショングラムの図である。

これらシミュレーションクロマトグラムに対して、中央値、標準偏差、及びピーク高さを乱数で設定した４つの正規分布波形を加算し、試料データを作成した。試料データは、特定のＶＭａ濃度の１データに対して、１０００種類準備した。各試料データとその試料データに含まれるＶＭａのピーク高さを組にして、５０００の教師データを作成した。

〔学習モデルの生成〕
作成した教師データをもとに、機械学習を行い、学習モデルを生成した。機械学習の手法としては、全結合ニューラルネットワークを用い、活性化関数としてｒｅｌｕ関数、及びｌｉｎｅａｒ関数を用いた。損失関数として平均二乗誤差を用い、最適化アルゴリズムにはＡｄａｍを用いた。十分な定量精度を得るためには、１００エポック程度の繰り返し演算が必要であった。

〔学習モデルを用いた精度の確認〕
濃度の異なるＶＭａ（２．００μｇ／ｍＬ、４．００μｇ／ｍＬ、６．００μｇ／ｍＬ、８．００μｇ／ｍＬ、１０．００μｇ／ｍＬ）と濃度の異なるＣｒｅ（４．００μｇ／ｍＬ、１０．００μｇ／ｍＬ）をそれぞれ混合した混合物において、３つの波長（２１０ｎｍ、２３０ｎｍ、２４５ｎｍ）におけるクロマトグラムをそれぞれ準備した（図６参照）。そして、各混合物で測定された３つの波長のクロマトグラムを結合させて、シミュレーションクロマトグラムを作成した。

各シミュレーションクロマトグラムを生成した学習モデルに適用し、ＶＭａに対応するピークの高さを予測した。表１には、その予測結果と相関係数について記載する。このように、ＶＭａの仕込み量とＶＭａの予測値との間の相関係数Ｒ^２の値が０．６７４と大きく、ＶＭａの定量的な情報を高精度に予測できたことを示している。

（実施例２）
測定するクロマトグラムの波長を３種から２種（２３０ｎｍ、２４５ｎｍ）に変更したこと以外は、実施例１と同様の方法で学習モデルを用いた精度の確認を行った。各シミュレーションクロマトグラムを生成した学習モデルに適用し、ＶＭａに対応するピークの高さを予測した。表２には、その予測結果と相関係数について記載する。このように、ＶＭａの仕込み量とＶＭａの予測値との間の相関係数Ｒ^２の値が０．６３４と大きく、ＶＭａの定量的な情報を高精度に予測できたことを示している。

（比較例１）
測定するクロマトグラムの波長を３種から１種（２３０ｎｍ）に変更したこと以外は、実施例１と同様の方法で学習モデルを用いた精度の確認を行った。各シミュレーションクロマトグラムを生成した学習モデルに適用し、ＶＭａに対応するピークの高さを予測した。表３には、その予測結果と相関係数について記載する。このように、ＶＭａの仕込み量とＶＭａの予測値との間の相関係数Ｒ^２の値が０．０６９と小さく、ＶＭａの定量的な情報を高精度に予測できなかったことを示している。

（比較例２）
測定するクロマトグラムの波長を３種から１種（２４５ｎｍ）に変更したこと以外は、実施例１と同様の方法で学習モデルを用いた精度の確認を行った。各シミュレーションクロマトグラムを生成した学習モデルに適用し、ＶＭａに対応するピークの高さを予測した。表４には、その予測結果と相関係数について記載する。このように、ＶＭａの仕込み量とＶＭａの予測値との間の相関係数Ｒ^２の値が０．０３５と小さく、ＶＭａの定量的な情報を高精度に予測できなかったことを示している。

（実施例３）
以下、上述したデータ処理の手法の効果を評価するために、ＶＭａとＣｒｅの両方の定量に上述した手法を適用した例である。

〔教師データの作成〕
教師データを作成した。濃度の異なるＶＭａ（０．００μｇ／ｍＬ、２．００μｇ／ｍＬ、４．００μｇ／ｍＬ、６．００μｇ／ｍＬ、８．００μｇ／ｍＬ、１０．００μｇ／ｍＬ）とＣｒｅをそれぞれ混合した混合物において、２つの波長（２３０ｎｍ、２４５ｎｍ）におけるクロマトグラムをそれぞれ準備した。その際、Ｃｒｅの濃度は、１０μｇ／ｍＬ以下の範囲で無作為に選んだものである。そして、各混合物において測定された２つの波長のクロマトグラムを結合させ、シミュレーションクロマトグラムを作成した。

これらシミュレーションクロマトグラムに対して、中央値、標準偏差、及びピーク高さを乱数で設定した４つの正規分布波形を加算し、試料データを作成した。試料データは、特定のＶＭａ濃度の１データに対して、１０００種類準備した。各試料データとその試料データに含まれるＶＭａとＣｒｅのピーク高さを組にして、５０００の教師データを作成した。

〔学習モデルを用いた精度の確認〕
濃度の異なるＶＭａ（２．００μｇ／ｍＬ、４．００μｇ／ｍＬ、６．００μｇ／ｍＬ、８．００μｇ／ｍＬ、１０．００μｇ／ｍＬ）と濃度の異なるＣｒｅ（約４．００μｇ／ｍＬ、約１０．００μｇ／ｍＬ）をそれぞれ混合した混合物において、２つの波長（２３０ｎｍ、２４５ｎｍ）におけるクロマトグラムをそれぞれ準備した（図７参照）。そして、各混合物で測定された２つの波長のクロマトグラムを結合させて、シミュレーションクロマトグラムを作成した。

各シミュレーションクロマトグラムを生成した学習モデルに適用し、ＶＭａとＣｒｅに対応するピークの高さを予測した。表５には、その予測結果と相関係数について記載する。このように、ＶＭａの仕込み量とＶＭａの予測値との間の相関係数Ｒ^２の値が１．０００、Ｃｒｅの仕込み量とＣｒｅの予測値との間の相関係数Ｒ^２の値が０．９７５と大きく、ＶＭａ及びＣｒｅの定量的な情報を高精度に予測できたことを示している。

Claims

被検物質と夾雑物とを含む試料の複数のスペクトル情報のうち、選択された２以上のスペクトル情報を学習モデルに入力することにより推定された、前記被検物質の定量的な情報を取得する情報取得手段を有することを特徴とする情報処理装置。
前記スペクトル情報の選択が、スペクトルを測定する波長に基づいて行われる請求項１に記載の情報処理装置。
前記選択されたスペクトル情報の数が、前記被検物質の種類の数よりも多い請求項１又は２に記載の情報処理装置。
前記スペクトル情報が、クロマトグラム、光電子スペクトル、赤外線吸収スペクトル、核磁気共鳴スペクトル、蛍光スペクトル、蛍光Ｘ線スペクトル、紫外／可視吸収スペクトル、ラマンスペクトル、原子吸光スペクトル、フレーム発光スペクトル、発光分光スペクトル、Ｘ線吸収スペクトル、Ｘ線回折スペクトル、常磁性共鳴吸収スペクトル、電子スピン共鳴スペクトル、及び熱分析スペクトルからなる群より選択される少なくとも１種である請求項１乃至３のいずれか１項に記載の情報処理装置。
前記試料の複数のスペクトル情報を取得するための分析を行う分析手段をさらに有する請求項１乃至４のいずれか１項に記載の情報処理装置。
前記分析手段が、クロマトグラフィー、キャピラリー電気泳動、光電子分光法、赤外吸収分光法、核磁気共鳴分光法、蛍光分光法、蛍光Ｘ線分光法、可視・紫外線吸収分光法、ラマン分光法、原子吸光法、フレーム発光分光法、発光分光法、Ｘ線吸収分光法、Ｘ線回折法、電子スピン共鳴分光法、及び熱分析法からなる群より選択される少なくとも１種の手法を用いる請求項５に記載の情報処理装置。
前記学習モデルが、前記選択されたスペクトル情報に基づいて生成された学習用スペクトル情報と、前記選択されたスペクトル情報に基づいて特定される、前記被検物質の定量的な情報との複数の組を教師データとして用いて学習された学習モデルである請求項１乃至６のいずれか１項に記載の情報処理装置。
前記学習用スペクトル情報が、前記選択されたスペクトル情報とランダムノイズとを用いて生成される請求項７に記載の情報処理装置。
前記ランダムノイズが、複数のガウス関数の組み合わせによって得られる波形である請求項８に記載の情報処理装置。
前記被検物質が、タンパク質、ＤＮＡ、ウイルス、菌類、水溶性ビタミン類、脂溶性ビタミン類、有機酸類、脂肪酸類、アミノ酸類、糖類、農薬、及び環境ホルモンからなる群より選択される少なくとも１種である請求項１乃至９のいずれか１項に記載の情報処理装置。
前記被検物質が、有機酸類である請求項１０に記載の情報処理装置。
前記有機酸類が、バニリルマンデル酸、及びクレアチニンのいずれかである請求項１０又は１１に記載の情報処理装置。
前記定量的な情報が、前記試料中の前記被検物質の量、前記試料中の前記被検物質の濃度、前記試料中の被検物質の有無、前記被検物質の基準量に対する前記試料中の前記被検物質の濃度又は量の比率、及び前記試料中の前記被検物質の濃度又は量の比率からなる群より選択される少なくとも１種である請求項１乃至１２のいずれか１項に記載の情報処理装置。
被検物質と夾雑物とを含む試料の複数のスペクトル情報のうち、選択された２以上のスペクトル情報を学習モデルに入力することにより推定された、前記被検物質の定量的な情報を取得する情報取得工程を有することを特徴とする情報処理装置の制御方法。
前記スペクトル情報の選択が、スペクトルを測定する波長に基づいて行われる請求項１４に記載の情報処理装置の制御方法。
前記選択されたスペクトル情報の数が、前記被検物質の種類の数よりも多い請求項１４又は１５に記載の情報処理装置の制御方法。
前記スペクトル情報が、クロマトグラム、光電子スペクトル、赤外線吸収スペクトル、核磁気共鳴スペクトル、蛍光スペクトル、蛍光Ｘ線スペクトル、紫外／可視吸収スペクトル、ラマンスペクトル、原子吸光スペクトル、フレーム発光スペクトル、発光分光スペクトル、Ｘ線吸収スペクトル、Ｘ線回折スペクトル、常磁性共鳴吸収スペクトル、電子スピン共鳴スペクトル、及び熱分析スペクトルからなる群より選択される少なくとも１種である請求項１４乃至１６のいずれか１項に記載の情報処理装置の制御方法。
前記試料の複数のスペクトル情報を取得するための分析を行う分析工程をさらに有する請求項１４乃至１７のいずれか１項に記載の情報処理装置の制御方法。
前記分析工程が、クロマトグラフィー、キャピラリー電気泳動、光電子分光法、赤外吸収分光法、核磁気共鳴分光法、蛍光分光法、蛍光Ｘ線分光法、可視・紫外線吸収分光法、ラマン分光法、原子吸光法、フレーム発光分光法、発光分光法、Ｘ線吸収分光法、Ｘ線回折法、電子スピン共鳴分光法、及び熱分析法からなる群より選択される少なくとも１種の手法を用いて行う請求項１８に記載の情報処理装置の制御方法。
前記学習モデルが、前記選択されたスペクトル情報に基づいて生成された学習用スペクトル情報と、前記選択されたスペクトル情報に基づいて特定される、前記被検物質の定量的な情報との複数の組を教師データとして用いて学習された学習モデルである請求項１４乃至１９のいずれか１項に記載の情報処理装置の制御方法。
前記学習用スペクトル情報が、前記選択されたスペクトル情報とランダムノイズとを用いて生成される請求項２０に記載の情報処理装置の制御方法。
前記ランダムノイズが、複数のガウス関数の組み合わせによって得られる波形である請求項２１に記載の情報処理装置の制御方法。
前記被検物質が、タンパク質、ＤＮＡ、ウイルス、菌類、水溶性ビタミン類、脂溶性ビタミン類、有機酸類、脂肪酸類、アミノ酸類、糖類、農薬、及び環境ホルモンからなる群より選択される少なくとも１種である請求項１４乃至２２のいずれか１項に記載の情報処理装置の制御方法。
前記被検物質が、有機酸類である請求項２３に記載の情報処理装置の制御方法。
前記有機酸類が、バニリルマンデル酸、及びクレアチニンのいずれかである請求項２３又は２４に記載の情報処理装置の制御方法。
前記定量的な情報が、前記試料中の前記被検物質の量、前記試料中の前記被検物質の濃度、前記試料中の被検物質の有無、前記被検物質の基準量に対する前記試料中の前記被検物質の濃度又は量の比率、及び前記試料中の前記被検物質の濃度又は量の比率からなる群より選択される少なくとも１種である請求項１４乃至２５のいずれか１項に記載の情報処理装置の制御方法。
請求項１乃至１３のいずれか１項に記載の情報処理装置の各手段としてコンピュータを機能させることを特徴とするプログラム。
被検物質と夾雑物とを含む試料の複数のスペクトル情報のうち、選択された２以上のスペクトル情報を学習モデルに入力することにより推定された、前記被検物質の定量的な情報を取得する情報取得手段を有する情報処理装置であって、
前記学習モデルが、前記選択された試料のスペクトル情報に基づいて選択された被検物質単体のスペクトル情報から生成された学習用スペクトル情報と、前記選択された被検物質単体のスペクトル情報から特定された定量的な情報とを関連付けて学習した学習モデルであることを特徴とする情報処理装置。