JP2021009135A - 情報処理装置、情報処理装置の制御方法、及びプログラム - Google Patents

情報処理装置、情報処理装置の制御方法、及びプログラム Download PDF

Info

Publication number
JP2021009135A
JP2021009135A JP2020076006A JP2020076006A JP2021009135A JP 2021009135 A JP2021009135 A JP 2021009135A JP 2020076006 A JP2020076006 A JP 2020076006A JP 2020076006 A JP2020076006 A JP 2020076006A JP 2021009135 A JP2021009135 A JP 2021009135A
Authority
JP
Japan
Prior art keywords
information
spectrum
test substance
information processing
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020076006A
Other languages
English (en)
Inventor
河村 英孝
Hidetaka Kawamura
英孝 河村
彰大 田谷
Akihiro Taya
彰大 田谷
泰 吉正
Yasushi Yoshimasa
泰 吉正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to US16/896,690 priority Critical patent/US11841373B2/en
Publication of JP2021009135A publication Critical patent/JP2021009135A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

【課題】 被検物質を含む試料に、被検物質のピークと重なるピークを持つ別の物質が含まれる場合であっても、被検物質の定量的な情報を高精度に得ることができる情報処理装置を提供する。【解決手段】 被検物質と夾雑物とを含む試料の複数のスペクトル情報のうち、選択された2以上のスペクトル情報を学習モデルに入力することにより推定された、前記被検物質の定量的な情報を取得する情報取得手段を有することを特徴とする情報処理装置。【選択図】 図1

Description

本発明は、情報処理装置、情報処理装置の制御方法、及びプログラムに関する。
様々な試料中に含まれる特定成分(以下、被検物質と記載)の濃度や量を知る方法としてスペクトル解析が広く用いられている。スペクトル解析では、試料に何らかの刺激を与えた際の応答を検出し、得られた信号をもとに試料を構成する成分に関する情報(スペクトル情報)を得ることができる。刺激や応答を特徴づける、光を含む電磁波の強度の他、温度、質量、そして特定の質量をもった破片のカウント数がスペクトル情報である。刺激として電子衝突を用いて、分解によって生じた破片の質量に対してその量を記録し構造などの情報を得ることもスペクトル解析に含まれる。
スペクトル解析の中にはあらかじめ構成成分間の立体的な大きさや、電荷、親・疎水性の違いを利用して分離を試みた後、電磁波を照射して解析を行う方法もある。これは分離分析と呼ばれる。高速液体クロマトグラフィー(HPLC)では、カラム種や移動相種、そして温度や流速などの分析条件を最適化することにより被検物質とその他の物質(以下、夾雑物と記載)を分離する。そして、分離した被検物質のスペクトルを計測することで、濃度や量を知ることができる。また、夾雑物との分離ができない場合は、演算処理によるピーク分割が試みられる。
従来のピーク分割法としては、ベースラインを設ける方法(図3参照)や、ピーク間の極小値を利用して垂直に分割する方法(図4参照)、特許文献1及び2に記載されたガウス関数など適当な関数を、最小二乗法を用いてフィッティングし分割する方法がある。図3及び4において、ピークの面積は、斜線部分とする。また、ピークの高さは、Yとする。
ここで、生体由来のサンプルの分析にはHPLCが使われることが多い。しかし、尿や血液など生体由来のサンプルでは夾雑物が多いことや、摂取物由来の未知の夾雑物が含まれているケースがあることから、被検物質を夾雑物から分離するための分離条件の検討や、前処理、ピーク分割法などに習熟した操作者が必要になる。
その他、食品の残留農薬の分析や環境分析などに用いるサンプルには、夾雑物が多く含まれている場合がある。そのため、初心者でも前処理が必要なく簡便に、かつ、精度よくサンプル中の被検物質を分析できる方法が望まれている。
特開平6−324029号公報 特開2006−177980号公報 特開2018−152000号公報
上記の通り、従来、スペクトル情報から被検物質の濃度や量といった定量的な情報を得るためには、夾雑物を得るための前処理や、ピーク分割法などの演算処理が必要である。そこで、被検物質を含む試料のスペクトル情報を基にした学習モデルを利用し、定量的な情報を算出することが可能な情報処理装置を用いると、試料中の被検物質を簡便に分析できると考える。しかし、試料に、被検物質のピークと重なるピークを持つ夾雑物が含まれると、試料中の被検物質の定量的な情報の予測精度が低下したり、そもそも定量的な情報を算出できなかったりするといった課題があることが判明した。
したがって、本発明の目的は、試料に、被検物質のピークと重なるピークを持つ夾雑物が含まれる場合であっても、被検物質の定量的な情報を高精度に予測できる情報処理装置を提供することにある。また、本発明の別の目的は、前記情報処理装置の制御方法、及びプログラムを提供することにある。
本発明の情報処理装置は、被検物質と夾雑物とを含む試料の複数のスペクトル情報のうち、選択された2以上のスペクトル情報を学習モデルに入力することにより推定された、前記被検物質の定量的な情報を取得する情報取得手段を有することを特徴とする。
また、本発明の情報処理装置の制御方法は、被検物質と夾雑物とを含む試料の複数のスペクトル情報のうち、選択された2以上のスペクトル情報を学習モデルに入力することにより推定された、前記被検物質の定量的な情報を取得する情報取得工程を有することを特徴とする。
本発明によれば、試料に、被検物質のピークと重なるピークを持つ夾雑物が含まれる場合であっても、被検物質の定量的な情報を高精度に予測できる情報処理装置、前記情報処理装置の制御方法、及びプログラムを提供することにある。
本実施形態に係る情報処理装置を含む情報処理システムの全体構成を示す図である。 本実施形態に係る試料中の被検物質の量を算出処理する処理のフローチャートである。 従来のベースラインを設けるピーク分割法を示す図である。 従来のピーク間の極小値を利用して垂直に分割するピーク分割法を示す図である。 バニリルマンデル酸(VMa)とクレアチニン(Cre)単体の3つの波長(210nm、230nm、245nm)におけるクロマトグラムの図である。 VMaとCreの混合物の3つの波長(210nm、230nm、245nm)におけるクロマトグラムの図である。 VMaとCreの混合物の2つの波長(230nm、245nm)におけるクロマトグラムの図である。 VMaとCre各単体の3つの波長のクロマトグラムを結合させて作成したシミュレーショングラムの図である。 VMaとCreの混合物のシミュレーショングラムの図である。
以下に、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。但し、本発明の範囲は以下で説明する各実施形態に限定されるものではない。
本発明において、被検物質の定量的な情報を高精度に予測するためには、複数のスペクトル情報を用いて、被検物質の量を算出する。ここで、複数のスペクトル情報とは、スペクトルを測定する際の波長が互いに異なるスペクトル情報などのことである。複数のスペクトル情報を用いることで、あるスペクトル情報では、被検物質のピークと夾雑物のピークが重なり、被検物質の量を予測しにくい場合であっても、別のスペクトル情報を用いることで、被検物質のピークと夾雑物のピークとの判別がつく場合がある。これにより、被検物質の量を予測できる。このように、複数のスペクトル情報を用いるためには、情報処理装置の有するスペクトル選択部で2以上のスペクトル情報を選択することが重要となる。スペクトル選択部については、後述する。
(試料)
本実施形態における試料とは、複数種の化合物を含む混合物である。本実施形態では、試料は、被検物質と夾雑物とを含む混合物である。また、混合物の成分が特定されている必要はなく、未知の成分が含有されていてもよい。例えば、血液、尿、唾液などの生体由来の混合物でもよいし、飲食物でもよい。生体由来のサンプルの分析は、サンプル提供者の健康状態を知るための手がかりを含むため、その分析は医学的に価値がある。
例えば、尿に含まれるバニリルマンデル酸は、小児がんのマーカーであるため、腫瘍の発見に役立つ。また、尿に含まれるクレアチニンは、その排泄量が推定できれば、腎機能の状態を知ることができる。
(被検物質)
本実施形態における被検物質とは、試料に含まれる1以上の既知の成分である。被検物質は、タンパク質、DNA、ウイルス、菌類、水溶性ビタミン類、脂溶性ビタミン類、有機酸類、脂肪酸類、アミノ酸類、糖類、農薬、及び環境ホルモンからなる群より選択される少なくとも1種であることが好ましい。
(定量的な情報)
本実施形態における定量的な情報としては、試料中の被検物質の量、試料中の被検物質の濃度、試料中の被検物質の有無などが挙げられる。また、その他の定量的な情報としては、被検物質の基準量に対する、試料中の被検物質の量又は濃度の比率、試料中の被検物質の量又は濃度の比率などが挙げられる。
(スペクトル情報)
本実施形態におけるスペクトル情報とは、クロマトグラム、光電子スペクトル、赤外線吸収スペクトル(IRスペクトル)、核磁気共鳴スペクトル(NMRスペクトル)、蛍光スペクトル、蛍光X線スペクトル、紫外/可視吸収スペクトル(UV/Visスペクトル)、ラマンスペクトル、原子吸光スペクトル、フレーム発光スペクトル、発光分光スペクトル、X線吸収スペクトル、X線回折スペクトル、常磁性共鳴吸収スペクトル、電子スピン共鳴スペクトル、熱分析スペクトルなどのことである。
(情報処理システム、情報処理装置)
次に、図1を用いて、本実施形態における情報処理システムを説明する。図1は、本実施形態に係る情報処理装置を含む情報処理システムの全体構成を示す図である。
情報処理システムは、情報処理装置10とデータベース22と分析装置23とを含んでいる。情報処理装置10とデータベース22とは、通信手段を介して互いに通信可能に接続されている。本実施形態においては、通信手段はLAN(Local Area Network)21で構成される。また、情報処理装置10と分析装置23とは、USB(Universal Serial Bus)などの規格の通信手段で接続されている。なお、LANは、有線LANでも無線LANでもよいし、WAN(Wide Area Network)であってもよい。また、USBはLANであってもよい。
データベース22は、分析装置23による分析によって取得されたスペクトル情報を管理する。また、データベース22は、後述する学習モデル生成部42により生成された学習モデル(学習済みモデル)を管理する。情報処理装置10は、データベース22で管理されたスペクトル情報や学習モデルを、LAN21を介して取得する。
(学習モデル)
本実施形態における学習モデルとは、回帰学習モデルであり、深層学習などの機械学習によって生成されたものを用いることができる。機械学習アルゴリズムに教師データを用いて学習を行い、適切な予測が行えるように構築したものをここでは学習モデルと呼ぶ。学習モデルに用いる機械学習アルゴリズムには多様な種類がある。例えば、ニューラルネットワークを用いた深層学習を使用することができる。ニューラルネットワークは、入力層、出力層、及び複数の隠れ層から構成され、各層は、活性化関数と呼ばれる計算式で結合されている。ラベル(入力に対応する出力)付き教師データを用いる場合、入力と出力の関係が成り立つように活性化関数の係数を決定していく。複数の教師データを用いて係数を決定することで、高い精度で入力に対する出力を予測できる学習モデルを生成することができる。
(分析装置)
分析装置23は、試料や被検物質などを分析するための装置である。分析装置23は、分析手段の一例に相当する。なお、前述したように、本実施形態では、情報処理装置10と分析装置23とが通信可能に接続されている。しかし、情報処理装置10の内部に分析装置23を備える形態であってもよいし、分析装置23の内部に情報処理装置10を備える形態であってもよい。さらに、不揮発メモリなどの記録媒体を介して分析結果(スペクトル情報)を分析装置23から情報処理装置10へ受け渡す形態であってもよい。
本実施形態における分析装置23は、スペクトル情報を取得できるものであれば限定されず、化学的な分析手法や物理的な分析手法を用いた装置を利用できる。本実施形態において、化学的な分析手法としては、液体クロマトグラフィーやガスクロマトグラフィーなどのクロマトグラフィー、キャピラリー電気泳動法などが挙げられる。物理的な分析手法としては、光電子分光法、赤外吸収分光法、核磁気共鳴分光法、蛍光分光法、蛍光X線分光法、可視・紫外線吸収分光法、ラマン分光法、原子吸光法、フレーム発光分光法、発光分光法、X線吸収分光法、X線回折法、常磁性共鳴吸収などを利用した電子スピン共鳴分光法、熱分析法などが挙げられる。
例えば、液体クロマトグラフィーを用いた装置では、移動相容器、送液ポンプ、試料注入部、カラム、検出器、A/D変換機を備える。検出器としては、紫外線や可視光線、赤外線などを用いた電磁波検出器をはじめ、電気化学検出器、イオン検出器などが挙げられる。この場合、得られるスペクトル情報は、時間に対する検出器からの出力強度となる。
情報処理装置10は、その機能的な構成として、通信IF31、ROM32、RAM33、記憶部34、操作部35、表示部36、及び制御部37を具備する。
通信IF(Interface)31は、例えば、LANカード及びUSBのインターフェースカードで実現される。通信IF31は、LAN21とUSBを介した外部装置(例えば、データベース22と分析装置23)と情報処理装置10との間の通信を司る。ROM(Read Only Memory)32は、不揮発性のメモリなどで実現され、各種プログラムなどを記憶する。RAM(Random Access Memory)33は、揮発性のメモリなどで実現され、各種情報を一時的に記憶する。記憶部34は、例えば、HDD(Hard Disk Drive)などで実現され、各種情報を記憶する。操作部35は、例えば、キーボードやマウスなどで実現され、ユーザからの指示を装置内に入力する。表示部36は、例えば、ディスプレイなどで実現され、各種情報をユーザに向けて表示する。操作部35や表示部36は、制御部37からの制御により、GUI(Graphical User Interface)としての機能を提供する。
(制御部)
制御部37は、例えば、少なくとも1つのCPU(Central Processing Unit)などで実現され、情報処理装置10における処理を統括制御する。制御部37は、その機能的な構成として、受付部48、スペクトル情報選択部47、スペクトル情報取得部41、学習モデル生成部42、学習モデル取得部43、推定部44、情報取得部45、及び表示制御部46を具備する。
(受付部48)
受付部48では、分析装置23から得られる分析結果、具体的には試料のスペクトル情報などを取得することができる。また、受付部48では、あらかじめ分析結果を格納したデータベース(図中のデータベース22)を用意し、データベースから分析結果、すなわち試料のスペクトル情報を取得してもよい。
(スペクトル情報選択部47)
スペクトル情報選択部47では、被検物質と夾雑物とを含む試料の分析結果、具体的には複数の試料のスペクトル情報を分析装置23から取得し、複数の試料のスペクトル情報から少なくとも2以上のスペクトル情報を選択する。なお、あらかじめ分析結果が格納されたデータベース22から、複数の試料のスペクトル情報を取得し、複数の試料のスペクトル情報から少なくとも2以上のスペクトル情報を選択してもよい。
また、スペクトル情報選択部47は、複数の被検物質のスペクトル情報を同様に取得し、複数の被検物質のスペクトル情報から少なくとも2以上のスペクトル情報を選択する。この被検物質のスペクトル情報は、被検物質が単一で存在した場合のスペクトル情報である。ここで、複数のスペクトル情報は、測定する際の波長が互いに異なるスペクトル情報であることが好ましい。また、波長が異なるスペクトル情報を取得する場合、試料、及び被検物質のスペクトル情報それぞれから選択するスペクトル情報の波長は、同じであることが好ましい。
(スペクトル情報取得部41)
スペクトル情報取得部41は、スペクトル情報選択部47で選択した試料、及び被検物質のスペクトル情報をそれぞれ結合させたコネクテッドスペクトル情報を取得する。ここで、コネクテッドスペクトル情報とは、測定した複数のスペクトルのデータを結合させて得られる情報のことである。例えば、スペクトルを取得する際に測定波長を選択できる場合、複数の波長で測定した複数のスペクトルのデータを結合させて得られる情報のことである。そして、スペクトル情報取得部41は、取得した試料のコネクテッドスペクトル情報を、推定部44に出力する。また、取得した被検物質のコネクテッドスペクトル情報を学習モデル生成部42に出力する。
(学習モデル生成部42)
学習モデル生成部42は、スペクトル情報取得部41が取得した複数の被検物質のスペクトル情報を結合させたコネクテッドスペクトル情報を用いて教師データを生成する。そして、学習モデル生成部42は、教師データを用いて深層学習を実行し、学習モデルを生成する。教師データの生成及び学習モデルの生成に関する詳細な説明は、後述する。そして、学習モデル生成部42は、生成した学習モデルを学習モデル取得部43へ出力する。なお、学習モデル生成部42は、生成した学習モデルをデータベース22へ出力してもよい。
(学習モデル取得部43)
学習モデル取得部43は、学習モデル生成部42が生成した学習モデルを取得する。なお、学習モデルがデータベース22に格納されている場合には、学習モデル取得部43は、データベース22から学習モデルを取得する。そして、学習モデル取得部43は、取得した学習モデルを推定部44へ出力する。
(推定部44)
推定部44は、学習モデル取得部43が取得した学習モデルに、スペクトル情報取得部41が取得した試料のスペクトル情報を結合させたコネクテッドスペクトル情報を入力することにより、試料に含まれる被検物質の定量的な情報を学習モデルに推定させる。そして、推定部44は、推定された定量的な情報を、情報取得部45へ出力する。推定部44は、試料のスペクトル情報を学習モデルに入力することにより、被検物質の定量的な情報を推定する推定手段の一例に相当する。
(情報取得部45)
情報取得部45は、学習モデルが推定した定量的な情報を取得する。すなわち、情報取得部45は、被検物質と夾雑物とを含む試料のコネクテッドスペクトル情報を学習モデルに入力することにより推定された、被検物質の定量的な情報を取得する情報取得手段の一例に相当する。そして、情報取得部45は、取得した定量的な情報を表示制御部47へ出力する。
(表示制御部46)
表示制御部46は、情報取得部45が取得した定量的な情報を表示部36に表示させる。表示制御部47は、表示制御手段の一例に相当する。
なお、制御部37が具備する各部の少なくとも一部は、独立した装置として実現してもよい。また、それぞれが機能を実現するソフトウェアとして実現してもよい。この場合、機能を実現するソフトウェアは、クラウドをはじめとするネットワークを介したサーバ上で動作してもよい。本実施形態では各部はローカル環境におけるソフトウェアによりそれぞれ実現されているものとする。
また、図1に示す情報処理システムの構成はあくまで一例である。例えば、情報処理装置10の記憶部34がデータベース22の機能を具備し、記憶部34が各種情報を保持してもよい。
次に、図2を用いて、本実施形態における処理手順を説明する。図2は、試料中の被検物質の量を算出処理する処理のフローチャートである。
(S1:被検物質単体の分析)
まず、分析装置23は、被検物質単体を分析する(ステップS1)。分析条件は、感度や分析時間などの観点から適宜選択すればよい。その際、被検物質の濃度を何通りか変化させて分析する。どの程度の数が必要であるかは、物質の性質などによっても異なるが、一般的に3点以上変化させることが好ましい。被検物質が複数種ある場合は、それぞれ分析することが好ましいが、被検物質同士の信号が十分に分離できる場合は、同時に測定してもよい。また、被検物質単体の分析結果には、複数のスペクトル情報が含まれている。スペクトル情報には、測定波長が異なるスペクトル情報が含まれていることが好ましい。
そして、分析装置23は、取得したスペクトル情報を情報処理装置10に出力する。情報処理装置10は、分析装置23からスペクトル情報を受信し、RAM33又は記憶部34に保持する。スペクトル情報取得部41は、こうして保持されたスペクトル情報を取得する。
なお、前述したように、分析結果であるスペクトル情報は、データベース22が保持してもよい。この場合、スペクトル情報取得部41は、データベース22からスペクトル情報を取得する。また、分析装置23が被検物質を分析するタイミングは、ステップS3におけるスペクトル情報の選択よりも前に実行されれば、どのようなタイミングであってもよい。
(S2:被検物質と夾雑物とを含む目的試料の分析)
分析装置23は、被検物質と夾雑物とを含む目的試料を分析する(ステップS2)。測定条件は、前記ステップS1と同一条件で設定する。目的試料の分析結果には、複数のスペクトル情報が含まれている。スペクトル情報には、測定波長が異なるスペクトル情報が含まれていることが好ましい。また、分析装置23が目的試料を分析するタイミングは、ステップS3におけるスペクトル情報の選択よりも前に実行されればよく、どのようなタイミングであってもよい。
(S3:スペクトル情報の選択)
スペクトル情報選択部47は、ステップS1で得られた被検物質単体の分析結果に含まれる複数のスペクトル情報、及びステップS2で得られた目的試料の分析結果に含まれる複数のスペクトル情報から、2以上のスペクトル情報を選択する。そして、選択した被検物質単体のスペクトル情報を結合させた被検物質単体のコネクテッドスペクトル情報、及び選択した目的試料のスペクトル情報を結合させた目的試料のコネクテッドスペクトル情報を得る。
(S4:学習モデルの生成)
続いて、学習モデル生成部42は、ステップS3で得られた被検物質単体のコネクテッドスペクトル情報を用いて、複数の教師データを生成する。
教師データの生成方法について、具体的に説明する。教師データは、被検物質単体のコネクテッドスペクトル情報に乱数で生成した任意の波形を加算することで生成される。例えば、液体クロマトグラフィーでは、スペクトル情報(クロマトグラム)が示す波形は、ガウス分布であることが多い。そのため、学習モデル生成部42は、ピークの高さ、中央値、標準偏差を乱数で決定した複数のガウス曲線を足し合わせて、複数のランダムノイズを生成する。
スペクトル情報は、リテンションタイム(試料の注入からある化合物が検出器で検出されるまでに要する時間)全域に渡って用意する必要はない。被検物質のピークを中央にしてトリミングしたデータを用意すればよい。トリミングする範囲が広いほど、後の算出部で定量する際の精度は上がるが、精度を上げるのに必要となる教師データの数は増える。トリミングする範囲は、被検物質ピークの標準偏差(σ)の6倍以上30倍以下であることが好ましく、10倍以上20倍以下であることがより好ましく、14倍以上18倍以下であることがさらに好ましい。
次に、トリミングしたデータに任意の波形を加算する。加算する波形の数は、クロマトグラム上で分離できずピークが重複してしまう可能性のある数であることが好ましいが、通常は2個以上8個以下であることが好ましい。加算する波形の数が8個を超えると、被検物質のピークの形状予測が難しくなり、定量精度が低下する場合がある。加算する波形の数が2個未満であると、ピークが重複しているクロマトグラムに対して精度よく定量できない場合がある。加算する波形の数は、3個以上6個以下であることがより好ましく、4個以上5個以下であることがさらに好ましい。任意の波形の形状は、下記式1に示すガウス関数とする。
Figure 2021009135
ここで、aは、想定される被検物質のピーク高さに対して0からα%の値、bは、トリミングした範囲に対してβ%までの値の範囲で乱数によって決定する。例えば、被検物質のピーク中央に対して±8σの範囲をトリミングした場合、bは、−8σ×β%から+8σ×β%の範囲の任意の値である。α及びβは、50以上300以下であることが好ましく、50以上250以下であることがより好ましく、50以上200以下であることがさらに好ましい。cは、被検物質ピークの標準偏差の好ましくは0.1倍以上10倍以下、より好ましくは0.2倍以上8倍以下、さらに好ましくは0.5倍以上5倍以下の範囲で乱数によって決定する。
学習モデル生成部42は、この複数のランダムノイズそれぞれと被検物質のコネクテッドスペクトル情報が示す波形とを足し合わせた複数の波形を生成する。こうして生成された複数の波形は、被検物質と夾雑物とを含む仮想的な試料のスペクトル情報(学習用スペクトル情報)として用いられる。つまり、生成された複数の学習用スペクトル情報を、教師データを構成する入力データとして決定する。
さらに、学習モデル生成部42は、生成された学習用スペクトル情報のもととなった、被検物質のスペクトル情報から特定されるピークの高さ(定量的な情報)を、教師データを構成する正解データとして決定する。このようにして、学習モデル生成部42は、入力データと正解データの組である複数の教師データを生成する。すなわち、選択された被検物質単体のスペクトル情報に基づいて生成された学習用スペクトル情報と、選択された被検物質単体のスペクトル情報から特定された定量的な情報とを関連付けることとなる。そして、ステップS1において、学習モデル生成部42は、被検物質の濃度に応じたスペクトル情報を取得しているので、この濃度ごとに複数の教師データを生成する。なお、クロマトグラムの波形は、リテンションタイムが大きくなるにつれて、ピークの幅が大きくなる傾向にあることを踏まえて、学習モデル生成部42は、生成する波形の幅を広くしてもよい。
特許文献3では検体のマススペクトルデータを癌の有無と紐付けて機械学習させる方法が開示されている。しかし、機械学習の精度を上げる為には多量の教師データを必要とする。特許文献3では教師データとして9万種のデータを用意している。つまり、機械学習は複雑な分析結果に対して精度良く解析できるが、多量の教師データを用意する必要がある点が難点である。本実施形態では、機械学習の難点である教師データを多量に用意する必要がないため、ユーザの負担を軽減することができる。
なお、このようにして教師データを生成したが、複数の試料を分析装置23で分析することで、学習用の試料のスペクトル情報を取得し、被検物質の定量的な情報と併せて教師データとしてもよい。また、前述した方法とは異なる方法で、仮想的な試料のスペクトル情報を生成してもよい。
生成した教師データを用いて、所定のアルゴリズムに従った機械学習を実施して学習モデルを構築する(ステップS4)。具体的な学習の手法としては、たとえば、一般的な機械学習手法であるニューラルネットワークやサポートベクターマシンなどを用いてもよい。また、隠れ層が多層になった深層学習手法として、DNN(ディープニューラルネットワーク)やCNN(コンボリューショナルニューラルネットワーク)などを用いてもよい。被検物質が複数種ある場合には、それぞれの物質に対して学習モデルを生成する。
(S5:被検物質の量の推定)
続いて、推定部44は、上記ステップS4で生成された学習モデルを、ステップS3で得られた目的試料のコネクテッドスペクトル情報に適用して、被検物質の量を推定する。その際、量は、表示部36において表示する形式に換算する。表示部において表示する形式としては、g/L、mol/Lなどの濃度でもよいし、標準量に対する割合でもよい。
(S6:被検物質の量の表示)
次いで、表示部は、上記ステップS5において推定された被検物質の量を表示し、ユーザに提示する。その際、グラフ形式や表形式に整理して表示してもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
<実施例>
以下に、実施例および比較例を挙げて本発明をより詳細に説明する。なお、本発明は以下の実施例に限定されるものではない。
(実施例1)
以下、上述したデータ処理の手法の効果を評価するために、バニリルマンデル酸(VMa)とクレアチニン(Cre)との混合物中のVMaの定量に上述した手法を適用した例である。ここで、高速液体クロマトグラフィー(HPLC)により得られるクロマトグラムの縦軸は信号強度(AU)であり、横軸は時間(秒)である。以下、試料の注入からある化合物が検出器で検出されるまでに要する時間をその化合物の保持時間(リテンションタイム)という。
〔リテンションタイムの確認〕
まず、VMa(10μg/mL)とCre(10μg/mL)をそれぞれHPLCで分析して、3つの波長(210nm、230nm、245nm)におけるクロマトグラムを得た(図5参照)。図5より、VMaとCreのリテンションタイムがほぼ同じであることが判明した。
〔教師データの作成〕
次に、教師データを作成した。濃度の異なるVMa(0.00μg/mL、2.00μg/mL、4.00μg/mL、6.00μg/mL、8.00μg/mL、10.00μg/mL)とCreをそれぞれ混合した混合物において、3つの波長(210nm、230nm、245nm)におけるクロマトグラムをそれぞれ準備した。その際、Creの濃度は、10μg/mL以下の範囲で無作為に選んだものである。そして、各混合物において測定された3つの波長のクロマトグラムを結合させ、シミュレーションクロマトグラムを作成した。図8及び9を用いて、詳細に説明する。
図8は、10.00μg/mLのCre単体の3つの波長のクロマトグラムを結合させて作成したシミュレーショングラムの図である。また、図8は、10.00μg/mLのVMa単体の3つの波長のクロマトグラムを結合させて作成したシミュレーショングラムの図である。図9は、図8の2つのシミュレーショングラムから作成した、10.00μg/mLのVMaと10.00μg/mLのCreとの混合物のシミュレーショングラムの図である。
これらシミュレーションクロマトグラムに対して、中央値、標準偏差、及びピーク高さを乱数で設定した4つの正規分布波形を加算し、試料データを作成した。試料データは、特定のVMa濃度の1データに対して、1000種類準備した。各試料データとその試料データに含まれるVMaのピーク高さを組にして、5000の教師データを作成した。
〔学習モデルの生成〕
作成した教師データをもとに、機械学習を行い、学習モデルを生成した。機械学習の手法としては、全結合ニューラルネットワークを用い、活性化関数としてrelu関数、及びlinear関数を用いた。損失関数として平均二乗誤差を用い、最適化アルゴリズムにはAdamを用いた。十分な定量精度を得るためには、100エポック程度の繰り返し演算が必要であった。
〔学習モデルを用いた精度の確認〕
濃度の異なるVMa(2.00μg/mL、4.00μg/mL、6.00μg/mL、8.00μg/mL、10.00μg/mL)と濃度の異なるCre(4.00μg/mL、10.00μg/mL)をそれぞれ混合した混合物において、3つの波長(210nm、230nm、245nm)におけるクロマトグラムをそれぞれ準備した(図6参照)。そして、各混合物で測定された3つの波長のクロマトグラムを結合させて、シミュレーションクロマトグラムを作成した。
各シミュレーションクロマトグラムを生成した学習モデルに適用し、VMaに対応するピークの高さを予測した。表1には、その予測結果と相関係数について記載する。このように、VMaの仕込み量とVMaの予測値との間の相関係数Rの値が0.674と大きく、VMaの定量的な情報を高精度に予測できたことを示している。
Figure 2021009135
(実施例2)
測定するクロマトグラムの波長を3種から2種(230nm、245nm)に変更したこと以外は、実施例1と同様の方法で学習モデルを用いた精度の確認を行った。各シミュレーションクロマトグラムを生成した学習モデルに適用し、VMaに対応するピークの高さを予測した。表2には、その予測結果と相関係数について記載する。このように、VMaの仕込み量とVMaの予測値との間の相関係数Rの値が0.634と大きく、VMaの定量的な情報を高精度に予測できたことを示している。
Figure 2021009135
(比較例1)
測定するクロマトグラムの波長を3種から1種(230nm)に変更したこと以外は、実施例1と同様の方法で学習モデルを用いた精度の確認を行った。各シミュレーションクロマトグラムを生成した学習モデルに適用し、VMaに対応するピークの高さを予測した。表3には、その予測結果と相関係数について記載する。このように、VMaの仕込み量とVMaの予測値との間の相関係数Rの値が0.069と小さく、VMaの定量的な情報を高精度に予測できなかったことを示している。
Figure 2021009135
(比較例2)
測定するクロマトグラムの波長を3種から1種(245nm)に変更したこと以外は、実施例1と同様の方法で学習モデルを用いた精度の確認を行った。各シミュレーションクロマトグラムを生成した学習モデルに適用し、VMaに対応するピークの高さを予測した。表4には、その予測結果と相関係数について記載する。このように、VMaの仕込み量とVMaの予測値との間の相関係数Rの値が0.035と小さく、VMaの定量的な情報を高精度に予測できなかったことを示している。
Figure 2021009135
(実施例3)
以下、上述したデータ処理の手法の効果を評価するために、VMaとCreの両方の定量に上述した手法を適用した例である。
〔教師データの作成〕
教師データを作成した。濃度の異なるVMa(0.00μg/mL、2.00μg/mL、4.00μg/mL、6.00μg/mL、8.00μg/mL、10.00μg/mL)とCreをそれぞれ混合した混合物において、2つの波長(230nm、245nm)におけるクロマトグラムをそれぞれ準備した。その際、Creの濃度は、10μg/mL以下の範囲で無作為に選んだものである。そして、各混合物において測定された2つの波長のクロマトグラムを結合させ、シミュレーションクロマトグラムを作成した。
これらシミュレーションクロマトグラムに対して、中央値、標準偏差、及びピーク高さを乱数で設定した4つの正規分布波形を加算し、試料データを作成した。試料データは、特定のVMa濃度の1データに対して、1000種類準備した。各試料データとその試料データに含まれるVMaとCreのピーク高さを組にして、5000の教師データを作成した。
〔学習モデルの生成〕
作成した教師データをもとに、機械学習を行い、学習モデルを生成した。機械学習の手法としては、全結合ニューラルネットワークを用い、活性化関数としてrelu関数、及びlinear関数を用いた。損失関数として平均二乗誤差を用い、最適化アルゴリズムにはAdamを用いた。十分な定量精度を得るためには、100エポック程度の繰り返し演算が必要であった。
〔学習モデルを用いた精度の確認〕
濃度の異なるVMa(2.00μg/mL、4.00μg/mL、6.00μg/mL、8.00μg/mL、10.00μg/mL)と濃度の異なるCre(約4.00μg/mL、約10.00μg/mL)をそれぞれ混合した混合物において、2つの波長(230nm、245nm)におけるクロマトグラムをそれぞれ準備した(図7参照)。そして、各混合物で測定された2つの波長のクロマトグラムを結合させて、シミュレーションクロマトグラムを作成した。
各シミュレーションクロマトグラムを生成した学習モデルに適用し、VMaとCreに対応するピークの高さを予測した。表5には、その予測結果と相関係数について記載する。このように、VMaの仕込み量とVMaの予測値との間の相関係数Rの値が1.000、Creの仕込み量とCreの予測値との間の相関係数Rの値が0.975と大きく、VMa及びCreの定量的な情報を高精度に予測できたことを示している。
Figure 2021009135

Claims (28)

  1. 被検物質と夾雑物とを含む試料の複数のスペクトル情報のうち、選択された2以上のスペクトル情報を学習モデルに入力することにより推定された、前記被検物質の定量的な情報を取得する情報取得手段を有することを特徴とする情報処理装置。
  2. 前記スペクトル情報の選択が、スペクトルを測定する波長に基づいて行われる請求項1に記載の情報処理装置。
  3. 前記選択されたスペクトル情報の数が、前記被検物質の種類の数よりも多い請求項1又は2に記載の情報処理装置。
  4. 前記スペクトル情報が、クロマトグラム、光電子スペクトル、赤外線吸収スペクトル、核磁気共鳴スペクトル、蛍光スペクトル、蛍光X線スペクトル、紫外/可視吸収スペクトル、ラマンスペクトル、原子吸光スペクトル、フレーム発光スペクトル、発光分光スペクトル、X線吸収スペクトル、X線回折スペクトル、常磁性共鳴吸収スペクトル、電子スピン共鳴スペクトル、及び熱分析スペクトルからなる群より選択される少なくとも1種である請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記試料の複数のスペクトル情報を取得するための分析を行う分析手段をさらに有する請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記分析手段が、クロマトグラフィー、キャピラリー電気泳動、光電子分光法、赤外吸収分光法、核磁気共鳴分光法、蛍光分光法、蛍光X線分光法、可視・紫外線吸収分光法、ラマン分光法、原子吸光法、フレーム発光分光法、発光分光法、X線吸収分光法、X線回折法、電子スピン共鳴分光法、及び熱分析法からなる群より選択される少なくとも1種の手法を用いる請求項5に記載の情報処理装置。
  7. 前記学習モデルが、前記選択されたスペクトル情報に基づいて生成された学習用スペクトル情報と、前記選択されたスペクトル情報に基づいて特定される、前記被検物質の定量的な情報との複数の組を教師データとして用いて学習された学習モデルである請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 前記学習用スペクトル情報が、前記選択されたスペクトル情報とランダムノイズとを用いて生成される請求項7に記載の情報処理装置。
  9. 前記ランダムノイズが、複数のガウス関数の組み合わせによって得られる波形である請求項8に記載の情報処理装置。
  10. 前記被検物質が、タンパク質、DNA、ウイルス、菌類、水溶性ビタミン類、脂溶性ビタミン類、有機酸類、脂肪酸類、アミノ酸類、糖類、農薬、及び環境ホルモンからなる群より選択される少なくとも1種である請求項1乃至9のいずれか1項に記載の情報処理装置。
  11. 前記被検物質が、有機酸類である請求項10に記載の情報処理装置。
  12. 前記有機酸類が、バニリルマンデル酸、及びクレアチニンのいずれかである請求項10又は11に記載の情報処理装置。
  13. 前記定量的な情報が、前記試料中の前記被検物質の量、前記試料中の前記被検物質の濃度、前記試料中の被検物質の有無、前記被検物質の基準量に対する前記試料中の前記被検物質の濃度又は量の比率、及び前記試料中の前記被検物質の濃度又は量の比率からなる群より選択される少なくとも1種である請求項1乃至12のいずれか1項に記載の情報処理装置。
  14. 被検物質と夾雑物とを含む試料の複数のスペクトル情報のうち、選択された2以上のスペクトル情報を学習モデルに入力することにより推定された、前記被検物質の定量的な情報を取得する情報取得工程を有することを特徴とする情報処理装置の制御方法。
  15. 前記スペクトル情報の選択が、スペクトルを測定する波長に基づいて行われる請求項14に記載の情報処理装置の制御方法。
  16. 前記選択されたスペクトル情報の数が、前記被検物質の種類の数よりも多い請求項14又は15に記載の情報処理装置の制御方法。
  17. 前記スペクトル情報が、クロマトグラム、光電子スペクトル、赤外線吸収スペクトル、核磁気共鳴スペクトル、蛍光スペクトル、蛍光X線スペクトル、紫外/可視吸収スペクトル、ラマンスペクトル、原子吸光スペクトル、フレーム発光スペクトル、発光分光スペクトル、X線吸収スペクトル、X線回折スペクトル、常磁性共鳴吸収スペクトル、電子スピン共鳴スペクトル、及び熱分析スペクトルからなる群より選択される少なくとも1種である請求項14乃至16のいずれか1項に記載の情報処理装置の制御方法。
  18. 前記試料の複数のスペクトル情報を取得するための分析を行う分析工程をさらに有する請求項14乃至17のいずれか1項に記載の情報処理装置の制御方法。
  19. 前記分析工程が、クロマトグラフィー、キャピラリー電気泳動、光電子分光法、赤外吸収分光法、核磁気共鳴分光法、蛍光分光法、蛍光X線分光法、可視・紫外線吸収分光法、ラマン分光法、原子吸光法、フレーム発光分光法、発光分光法、X線吸収分光法、X線回折法、電子スピン共鳴分光法、及び熱分析法からなる群より選択される少なくとも1種の手法を用いて行う請求項18に記載の情報処理装置の制御方法。
  20. 前記学習モデルが、前記選択されたスペクトル情報に基づいて生成された学習用スペクトル情報と、前記選択されたスペクトル情報に基づいて特定される、前記被検物質の定量的な情報との複数の組を教師データとして用いて学習された学習モデルである請求項14乃至19のいずれか1項に記載の情報処理装置の制御方法。
  21. 前記学習用スペクトル情報が、前記選択されたスペクトル情報とランダムノイズとを用いて生成される請求項20に記載の情報処理装置の制御方法。
  22. 前記ランダムノイズが、複数のガウス関数の組み合わせによって得られる波形である請求項21に記載の情報処理装置の制御方法。
  23. 前記被検物質が、タンパク質、DNA、ウイルス、菌類、水溶性ビタミン類、脂溶性ビタミン類、有機酸類、脂肪酸類、アミノ酸類、糖類、農薬、及び環境ホルモンからなる群より選択される少なくとも1種である請求項14乃至22のいずれか1項に記載の情報処理装置の制御方法。
  24. 前記被検物質が、有機酸類である請求項23に記載の情報処理装置の制御方法。
  25. 前記有機酸類が、バニリルマンデル酸、及びクレアチニンのいずれかである請求項23又は24に記載の情報処理装置の制御方法。
  26. 前記定量的な情報が、前記試料中の前記被検物質の量、前記試料中の前記被検物質の濃度、前記試料中の被検物質の有無、前記被検物質の基準量に対する前記試料中の前記被検物質の濃度又は量の比率、及び前記試料中の前記被検物質の濃度又は量の比率からなる群より選択される少なくとも1種である請求項14乃至25のいずれか1項に記載の情報処理装置の制御方法。
  27. 請求項1乃至13のいずれか1項に記載の情報処理装置の各手段としてコンピュータを機能させることを特徴とするプログラム。
  28. 被検物質と夾雑物とを含む試料の複数のスペクトル情報のうち、選択された2以上のスペクトル情報を学習モデルに入力することにより推定された、前記被検物質の定量的な情報を取得する情報取得手段を有する情報処理装置であって、
    前記学習モデルが、前記選択された試料のスペクトル情報に基づいて選択された被検物質単体のスペクトル情報から生成された学習用スペクトル情報と、前記選択された被検物質単体のスペクトル情報から特定された定量的な情報とを関連付けて学習した学習モデルであることを特徴とする情報処理装置。
JP2020076006A 2019-06-28 2020-04-22 情報処理装置、情報処理装置の制御方法、及びプログラム Pending JP2021009135A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/896,690 US11841373B2 (en) 2019-06-28 2020-06-09 Information processing apparatus, method for controlling information processing apparatus, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019121955 2019-06-28
JP2019121955 2019-06-28

Publications (1)

Publication Number Publication Date
JP2021009135A true JP2021009135A (ja) 2021-01-28

Family

ID=74199825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020076006A Pending JP2021009135A (ja) 2019-06-28 2020-04-22 情報処理装置、情報処理装置の制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2021009135A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023145810A1 (ja) * 2022-01-28 2023-08-03 アトナープ株式会社 体液に含まれる成分の濃度を測定するシステムおよび方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023145810A1 (ja) * 2022-01-28 2023-08-03 アトナープ株式会社 体液に含まれる成分の濃度を測定するシステムおよび方法

Similar Documents

Publication Publication Date Title
WO2020129895A1 (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
Ortiz et al. Quantitative determination in chromatographic analysis based on n-way calibration strategies
WO2020105566A1 (ja) 情報処理装置、情報処理装置の制御方法、プログラム、算出装置、及び算出方法
Hantao et al. Multivariate curve resolution combined with gas chromatography to enhance analytical separation in complex samples: A review
JP5651176B2 (ja) ガスクロマトグラフ分析方法およびシステム
US20160252484A1 (en) System and method for modified gas chromatographic data analysis
CN108629365A (zh) 分析数据解析装置以及分析数据解析方法
Maddux et al. High throughput prediction of the long-term stability of pharmaceutical macromolecules from short-term multi-instrument spectroscopic data
JP6692226B2 (ja) かび毒の分析方法及びかび毒の分析装置
Ortiz et al. Usefulness of PARAFAC for the quantification, identification, and description of analytical data
CN107505346A (zh) 预测流体类别样本中特别是生物流体样本中nmr自旋系统的化学位移值的方法
US11841373B2 (en) Information processing apparatus, method for controlling information processing apparatus, and program
Pathmasiri et al. Analysis of NMR metabolomics data
Jones et al. An introduction to metabolomics and its potential application in veterinary science
JP2021009135A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
Sattlecker et al. Assessment of robustness and transferability of classification models built for cancer diagnostics using Raman spectroscopy
Forouzangohar et al. Mid-infrared spectra predict nuclear magnetic resonance spectra of soil carbon
Padayachee et al. The impact of the method of extracting metabolic signal from 1H-NMR data on the classification of samples: A case study of binning and BATMAN in lung cancer
Rohnisch et al. Improved automated quantification algorithm (AQuA) and its application to NMR-based metabolomics of EDTA-containing plasma
JP2020106340A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
WO2021085581A1 (ja) 情報処理装置、及び情報処理装置の制御方法
JP6280910B2 (ja) 分光システムの性能を測定するための方法
Féraud et al. Two data pre-processing workflows to facilitate the discovery of biomarkers by 2D NMR metabolomics
Rivera‐Velez et al. Applying metabolomics to veterinary pharmacology and therapeutics
Akbari Lakeh et al. Discriminating normal regions within cancerous hen ovarian tissue using multivariate hyperspectral image analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230412

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231212

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20231213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240409