JP7096174B2 - 組成推定装置及び方法 - Google Patents

組成推定装置及び方法 Download PDF

Info

Publication number
JP7096174B2
JP7096174B2 JP2019009588A JP2019009588A JP7096174B2 JP 7096174 B2 JP7096174 B2 JP 7096174B2 JP 2019009588 A JP2019009588 A JP 2019009588A JP 2019009588 A JP2019009588 A JP 2019009588A JP 7096174 B2 JP7096174 B2 JP 7096174B2
Authority
JP
Japan
Prior art keywords
composition
composition formula
evaluation
ratio
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019009588A
Other languages
English (en)
Other versions
JP2020118542A (ja
Inventor
歩 久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jeol Ltd
Original Assignee
Jeol Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jeol Ltd filed Critical Jeol Ltd
Priority to JP2019009588A priority Critical patent/JP7096174B2/ja
Publication of JP2020118542A publication Critical patent/JP2020118542A/ja
Application granted granted Critical
Publication of JP7096174B2 publication Critical patent/JP7096174B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Description

本発明は、組成推定装置及び方法に関し、特に、推定結果のフィルタリングに関する。
サンプルに対する質量分析によりマススペクトルが得られる。マススペクトルは、サンプルに含まれる複数の成分に対応した複数のピークを有する。その中で注目するピークの質量電荷比(m/z)から、そのピークに対応した成分の精密質量が特定される。精密質量から組成(実際には組成式)が推定される。組成式は分子を構成する元素ごとに原子数を表したものである。組成推定は組成式推定又は元素組成推定とも呼ばれる。
組成推定に際しては、それに先立って、元素ごとに推定範囲(探索範囲)が指定される。各推定範囲は、元素ごとの原子数下限及び原子数上限によって画定される。通常、組成推定の結果として、多数の組成式からなる組成式リストが生成される。組成式リストの中から、分析者により、化学的知見その他に基づき、真である可能性の高い1つ組成式(場合によっては複数の組成式)が選択される。
非特許文献1には、組成推定結果に対するフィルタリングが開示されている。フィルタリングに際しては幾つかのルールが適用されている。その中には、推定された組成式から算出される特徴量(attribute)を利用したルールが含まれる。具体的には、特徴量として原子数比率が利用されている。推定された組成式に含まれる炭素(C)の原子数をαと表記し、推定された組成式に含まれる他の元素(H,N,O等)の原子数をβと表記した場合、β/αが原子数比率である。例えば、推定された組成式から求められたいずれかの原子数比率が一般的範囲から外れる場合、その組成式はフィルタリングでの除外対象とされる。なお、非特許文献1には、組成式それ全体と特定の元素との関係を示す特徴量の利用については開示されていない。
Tobias Kind and Oliver Fiehn, Seven Golden Rules for heuristic filtering of molecular formulas obtained by accurate mass spectrometry (BMC Bioinforma 8:105), BMC Bioinformatics, 2007.
組成推定の精度を高めることが望まれている。特に、原子数比率と共に参照される又は原子数比率に代わる新たな特徴量を利用したフィルタリングの実現が望まれている。
本発明の目的は、組成推定の精度を高めることにある。あるいは、本発明の目的は、分析者にとって分かり易い又は分析者の直感的な認識に合致する特徴量を利用したフィルタリングを実現することある。
本発明に係る組成推定装置は、組成式を推定する推定手段、組成式に基づいて複数の特徴量を演算する特徴量演算手段、及び、複数の特徴量に基づいて組成式を評価する評価手段を含む。複数の特徴量の中には、組成式それ全体の中で基本元素が占める割合を示す基本特徴量が含まれる。
化合物の推定、解析等においては、化合物の中での基本元素の占める割合が考慮され易い。例えば、有機化合物においては炭素の占める割合が考慮され易い。上記構成は、そのような経験則に従って、基本特徴量を含む複数の特徴量を利用して、一次推定結果である組成式を二次的に評価するものである。組成式リストの中から真である可能性の高い組成式を抽出できるならば、あるいは、組成式リストの中から真である可能性の低い組成式を除外できるならば、二次推定結果を最適化することが可能となる。上記基本特徴量は、一般に、分析者の思考に馴染み易い又は分析者において直感的に理解し易い特徴量である。
組成式それ全体に対する基本元素の割合として、原子数割合及び質量割合の2つが考えられる。それらはいずれも基本特徴量になり得るものである。原子数割合を基本特徴量とした場合、化合物中において比較的に多く存在する他の元素(例えば水素)の原子数が基本特徴量に影響を与え易くなる。その観点からは、質量割合を基本特徴量とした方がよい。特に、他の特徴量の計算において基本元素の原子数が考慮されている場合においては、基本元素の質量割合を基本特徴量とした方がよい。
実施形態において、推定手段は、有機化合物の質量分析により生成されたマススペクトルから特定される精密質量に基づいて組成式を推定するものである。実施形態において、基本元素は炭素である。炭素は有機化合物の基本的構成要素である。
実施形態において、複数の特徴量には、基本元素の原子数と注目元素の原子数の比率が含まれる。注目元素は、基本元素以外の元素であり、有機化合物においては、H,N,O等が注目元素の候補となる。基本元素の原子数と注目元素の原子数の比率には、統計上、一定の傾向が認められるため(例えば非特許文献1を参照)、それをフィルタリング条件として利用するものである。基本特徴量と他の特徴量の組合せを利用して多面的にフィルタリングを行えば、組成推定の精度を高められる。更に、他のフィルタリング、例えば同位体パターンによるフィルタリング、を併せて適用してもよい。
実施形態に係る組成推定装置は、学習用組成式集合に基づいて、複数の特徴量を評価するための複数の評価条件からなる評価条件群を演算する評価条件演算手段を含む。評価手段は、複数の評価条件に従って複数の特徴量を個別的に評価することにより、組成式を総合的に評価する。この構成は、学習結果を利用して評価の精度を高めるものである。
実施形態において、評価条件演算手段は、複数のカテゴリに対応する複数の学習用組成式集合に基づいて複数の評価条件群を演算し、複数のカテゴリの中から特定のカテゴリを選択する選択手段が設けられ、評価手段は、複数の評価条件群の中から、特定のカテゴリに対応する評価条件群を特定し、当該評価条件群を利用して複数の特徴量を個別的に評価する。カテゴリに応じて、個々の特徴量が変化する。そこで、上記構成は、カテゴリごとに学習を実行して評価条件群を用意しておくものである。最適な評価条件群を利用することにより、推定精度をより高められる。カテゴリの例として、アプリケーション、ユーザー等があげられる。例えば、ある特徴量がそれに対応する特徴量範囲に属する場合に評価条件が満たされたと判断されてもよい。
実施形態において、評価手段は、組成式リスト中の組成式ごとに評価を行い、複数の組成式についての評価の結果に基づいて二次組成式リストを生成する。一次組成式リスト及び二次組成式リストが表示されれば、評価が適正に遂行されたことを事後的に確認し易くなる。
実施形態においては、二次組成式リストには特徴量ごとにその評価結果を示す情報が含まれる。この構成によれば、評価手段による具体的な個別的な評価結果を事後的に確認することが可能となる。例えば、各特徴量がその評価結果を示す態様で表示されてもよい。
実施形態に係る組成推定方法は、推定された組成式から複数の特徴量を演算する工程と、複数の特徴量に基づいて組成式を評価する工程と、を含む。複数の特徴量には、組成式それ全体の質量の中で基本元素の質量が占める割合を示す第1特徴量と、基本元素の原子数と注目元素の原子数の比率を示す第2特徴量と、が含まれる。
上記組成推定方法は、ハードウエアの機能として、又は、ソフトウエアの機能として実現され得る。後者の場合、組成推定方法を実行するプログラムが、ネットワークを介して又は可搬型記憶媒体を介して、情報処理装置へインストールされる。情報処理装置の概念には、コンピュータ、質量分析装置、質量分析システム等が含まれる。
本発明によれば、組成推定の精度を高められる。あるいは、本発明によれば、分析者にとって分かり易い又は分析者の直感的な認識に合致する特徴量を利用したフィルタリングを実現できる。
実施形態に係る組成推定装置を示すブロック図である。 特徴量空間を示す図である。 二次推定部の構成例を示す図である。 特徴量テーブルの一例を示す図である。 出現率テーブルの一例を示す図である。 C質量割合についてのヒストグラムの一例を示す図である。 H/C比率についてのヒストグラムの一例を示す図である。 X/C比率についてのヒストグラムの一例を示す図である。 基本特徴量についての評価条件の一例を示す図である。 他の特徴量についての評価条件の一例を示す図である。 一次推定結果の一例を示す図である。 二次推定結果の一例を示す図である。 ポイントを利用した評価方法を説明するための図である。 C質量割合とH/C比率の間の関係を示す図である。
以下、好適な実施形態を図面に基づいて説明する。
図1には、実施形態に係る組成推定装置がブロック図として示されている。図示された組成推定装置10は、実施形態に係る組成推定方法を実行するものであり、情報処理装置としてのコンピュータによって構成される。組成推定装置10は、マススペクトル処理装置とも言い得る。通常、質量分析装置とマススペクトル処理装置とにより質量分析システムが構成される。質量分析装置の前段に、ガスクロマトグラフ装置、液体クロマトグラフ装置等が設けられてもよい。質量分析装置の演算制御部が組成推定装置10として機能してもよい。
図1において、組成推定装置10は、演算部12、入力部14、及び、表示部16を有する。演算部12は、プログラムを実行するCPU、並びに、プログラム及びデータを記憶した複数の記憶部によって構成される。各記憶部は、半導体メモリ、ハードディスク等によって構成される。入力部14は、キーボード、ポインティングデバイス等によって構成される。表示部16は、液晶表示器、有機EL表示器等によって構成される。図1においては、演算部12により発揮される複数の機能が複数のブロックによって表現されている。以下に、個々の機能について説明する。
マススペクトル作成部18は、マススペクトル作成手段として機能するものであり、質量分析装置から出力された検出信号20に基づいてマススペクトルを作成する。マススペクトルの横軸は質量電荷比(m/z比)を示す軸であり、その縦軸はイオンの相対強度を示す軸である。作成されたマススペクトルを示すデータは、表示処理部22を介して表示部16に送られている。表示部16の画面上には、必要に応じて、マススペクトルが表示される。表示処理部22は、グラフィック画像生成機能、画像合成機能、カラー処理機能、等を有する。
ピーク検出部24は、マススペクトルに含まれる複数のピークを自動的に検出するものである。これにより、個々のピークごとにm/zが特定される。ピーク検出の結果は、必要に応じて、表示部16の画面上に表示される。表示された複数のピークの中から、ユーザーにより、特定のピークが選択されてもよい。
一次推定部28は、推定手段として機能するものであり、精密質量から組成式を推定するものである。マススペクトル上において特定のピークが自動的に又はマニュアルで選択されると、それが有するm/zから精密質量が特定され、その精密質量が一次推定部28へ送られる。一次推定部28は、事前に設定された推定条件に従って、精密質量に該当し得る組成式を推定する。通常、1つの精密質量から多数の組成式が推定される。それらによって一次組成式リストが構成される。入力部14を用いて一次推定部28に対して精密質量が与えられてもよい。符号30で示されるように、外部装置からm/z又は精密質量が与えられてもよい。
通常、組成推定に先立って、個々の元素ごとに推定範囲(探索範囲)が指定される。例えば、水素原子数の範囲、炭素原子数の範囲、等が指定される。また、精密質量を中心とした誤差範囲等が指定される。それらによって推定条件が構成される。実施形態によれば、一次推定に続いて二次推定(フィルタリング)が実行されるので、一次推定に際して元素の種類や原子数の範囲に対して限定的な条件を設定しなくてもよいという利点を得られる。
二次推定部34は、評価手段又はフィルタ手段として機能するものであり、それは特徴量演算部36及びフィルタ群38により構成される。特徴量演算部36は、組成式ごとにその組成式に基づいて複数の特徴量を演算する。個々の特徴量は組成式の特徴を示す固有値と言い得るものである。特徴量については後に詳述する。
フィルタ群38は、複数のカテゴリに対応した複数のフィルタ38Aにより構成される。個々のフィルタ38Aは、以下に説明するように、一次推定結果を絞り込む作用を発揮するものである。いずれかのカテゴリを選択すると、それに対応したフィルタ38Aが選択され、それが利用される。符号46はフィルタ選択信号を示している。ユーザーごとにフィルタ38Aが用意されてもよいし、アプリケーションごとにフィルタ38Aが用意されてもよいし、化合物属性ごとにフィルタ38Aが用意されてもよい。カテゴリのマニュアル指定によってフィルタ38Aが選択されてもよいし、測定条件や設定内容等に基づいて自動的にフィルタ38Aが選択されてもよい。
個々のフィルタ38Aは、一次組成式リスト中の個々の組成式を二次的に評価し、これによって二次組成式リストに含める組成式を選別し、あるいは、二次組成式リストの上位に格付けする組成式を選別するものである。その際には、特徴量演算部36によって演算された複数の特徴量が個別的に評価される。重み付け評価方式、スコア評価方式、等の多様な評価方式を採用し得る。カテゴリごとにフィルタ38Aが用意されているので、組成式の評価精度を高められる。フィルタリングの結果として二次組成式リストが生成される。その場合、一次組成式リストの並び換え、一次組成式リストからの組成式の除外、等により、二次組成式リストが生成されてもよい。
表示部16には、一次組成式リスト及び二次組成式リストが表示される。一次組成式リストと二次組成式リストの対比により、フィルタリングが適正に行われたことを事後的に確認できる。また、フィルタリングで除外されてしまった組成式や順位を落とされてしまった組成式を再考慮することが可能となる。後述するように、二次組成式リストの表示に際しては、個々の特徴量ごとに、その妥当性を示す情報として個別評価結果が表示される。それを参照することにより、具体的な評価結果を事後的に確認できる。画面上に表示する内容をユーザーにより選択できるように構成してもよい。例えば、一次組成式リストの表示の要否がユーザー(分析者)により選択されてもよい。
演算部12は、フィルタ作成部50を有している。フィルタ作成部50は、学習手段、フィルタ作成手段等として機能する。記憶部52には、学習用組成式集合が格納される。実施形態においては、カテゴリごとに学習用組成式集合が用意される。符号54で示されるように、外部装置から複数の学習用組成式が与えられてもよい。二次組成式リストの中から、ユーザーによって選択された組成式が学習用組成式として記憶部52へ格納されてもよい(符号44を参照)。組成推定と同時進行で学習を行わせれば、個々のフィルタ38Aの内容をより最適化できる。
特徴量演算部56は、上記の特徴量演算部36と同様の機能を有する。両者が一体化されてもよい。特徴量演算部56は、記憶部52から読み出された学習用組成式ごとに、その学習用組成式に基づいて、複数の特徴量からなる特徴量セットを演算するものである。記憶部58には、特徴量テーブルが格納される。特徴量テーブルは、複数の学習用組成式に対応した複数のレコードからなる。個々のレコードは特徴量セットを含んでいる。実施形態においては、記憶部58上に複数のカテゴリに対応した複数の特徴量テーブルが構築される。ユーザーにより又は自動的にカテゴリが選択される。ユーザーによるカテゴリの選択は例えば入力部14を用いて行われる。その場合、入力部14はカテゴリ選択手段として機能する。
範囲演算部60は、評価条件演算手段として機能するものである。実施形態において、範囲演算部60は、カテゴリごとに、特徴量テーブルの内容に基づいて、複数の個別評価条件として、複数の特徴量範囲を演算する。具体的には、特徴量種別ごとに、特徴量テーブル上に記録された複数の特徴量が参照され、それらを統計的に処理することにより、特徴量範囲として、標準範囲及び推奨範囲が演算される。標準範囲は、組成式の妥当性の有無を一般的に判断するためのものであり、推奨範囲は、確度の高い組成式を選別するためのものである。カテゴリごとに演算された複数の特徴量範囲により、フィルタ38Aが構成される。複数のカテゴリに対応して生成された複数のフィルタ38Aが二次推定部34において選択的に機能する。
なお、各フィルタ38Aの内容は評価条件として機能し、フィルタ群38それ全体として評価条件群が構成される。特徴量範囲以外の評価条件が採用されてもよい。組成推定装置10がそれ単体で利用されてもよい。組成推定装置10が複数の情報処理装置上に跨がって構成されてもよい。その場合、複数の情報処理装置がネットワークを介して相互に接続されてもよい。
図2を用いてフィルタの作用を概説する。図2においては、説明のため、3つの特徴量を示す3つの軸が示されている。3つの軸によって特徴量空間が定義されている。個々の軸上において特徴量範囲が指定されると、それらによって抽出空間61が定義される。評価対象となった組成式から3つの特徴量が求められ、それらによって特徴量空間内に1つの点62が定まる。その点62は原点から出る特徴量ベクトル64によって定義されるものである。点62が抽出空間61内にあれば、評価対象となった組成式が真である可能性は高いと評価され、それに対応する組成式が抽出される。一方、評価対象となった組成式から求まる3つの特徴量によって点66が定義され、その点66が抽出空間61の外にあれば、評価対象となった組成式が真である可能性は低いと評価され、その組成式は除外される。図2には、3つの特徴量が示されているが、2つの特徴量によって組成式が評価されてもよいし、4つ以上の特徴量によって組成式が評価されてもよい。
図3には、図1に示した二次評価部において実行されるフィルタリングの内容(アルゴリズム)が模式的に示されている。符号200で示す部分が図1に示した特徴量演算部に相当し、符号202で示す部分が、選択されたフィルタに相当する。推定された組成式が候補68として示されている。図示の例では、候補68から複数の特徴量70~76が演算される。
特徴量70は基本特徴量であり、それは、組成式それ全体の質量(分子質量)の中で、基本元素である炭素Cの質量が占める割合を示すものである。炭素Cの質量は、炭素原子1個当たりの質量に対して炭素原子の個数(原子数)を乗ずることにより求められる。図3においては、それが「C質量割合」70と表現されている。有機化合物には炭素が含まれ、それは基本元素と言い得る。そのような観点から「C質量割合」が基本特徴量とされている。炭素の質量割合に代えて、炭素の原子数割合を利用することも考えられる。
組成式中の基本元素(つまり炭素)の原子数をαと表現し、組成式中の他の注目元素の原子数をβと表現した場合に、β/αという比率が定義される。特徴量72,74,76は、それぞれ、そのような比率を示す特徴量である。具体的には、特徴量72は、炭素Cの原子数に対する水素Hの原子数の比率を示すものであり、それが「H/C比率」と表現されている。同様に、特徴量74は、炭素Cの原子数に対する窒素Nの原子数の比率を示すものであり、それが「N/C比率」と表現されている。同様に、特徴量76は、炭素Cの原子数に対する酸素Oの原子数の比率を示すものであり、それが「O/C比率」と表現されている。それ以外の特徴量が利用されてもよい。例えば、C質量割合70とH/C比率72の組合せを基本形とし、必要に応じて、それに他の特徴量を加えるようにしてもよい。カテゴリに応じて、利用する特徴量の個数や組合せが適応的に変更されてもよい。
演算された複数の特徴量は、それぞれ個別的に評価される(符号78~84を参照)。個別評価78では、C質量割合70がそれに対応する標準範囲(及び推奨範囲)に属するか否かが判断される。個別評価80では、H/C比率72がそれに対応する標準範囲(及び推奨範囲)に属するか否かが判断される。個別評価82では、N/C比率74がそれに対応する標準範囲(及び推奨範囲)に属するか否かが判断される。個別評価84では、O/C比率76がそれに対応する標準範囲(及び個別範囲)に含まれるか否かが判断される。それら以外の特徴量が演算されている場合、その特徴量も個別的に評価される。
総合評価86では、複数の個別評価結果に基づいて、候補68が総合的に評価される。例えば、候補68が真である可能性の度合いが評価される。真である可能性の高い候補は、選別88の過程で、二次組成式リストに含められ、あるいは、二次組成式リストにおいて上位にランキングされる。真である可能性の低い候補は、選別88の過程で、二次組成式リストから除外され、あるいは、二次組成式リストにおいて下位にランキングされる。
図4には、特徴量テーブルが例示されている。図示された特徴量テーブル58Aは、学習対象となった複数の組成式92に対応する複数のレコード90によって構成される。各レコードは、精密質量94、及び、組成式から演算された複数の特徴量を有する。複数の特徴量には、C質量割合96、H/C比率98、O/C比率100、S/C比率102、N/C比率104、等が含まれる。
図4において、白色のセル106は0以外の比率であることを示しており、グレーのセル108は、学習対象となった分子の中に注目元素(H,O,S,N等)が存在しないことを示している。高分子等が学習対象となった場合、基本特徴量であるC質量割合96は比較的に高い数値となる。また、多くの化合物には水素が含まれるため、H/C比率98は通常、0以外の数値となる。
図5には、フィルタ作成に際して生成される出現率テーブルが例示されている。出現率テーブル110は、上記の特徴量テーブルにおいて複数のレコードを横断的に参照することにより生成される。出現率テーブル110には、注目元素112ごとの出現率114が含まれる。例えば、学習対象となった組成式の個数をMとし、その中で、ある注目元素の原子を1個でも含んでいる組成式の個数をNとした場合、当該元素についての出現率がN/Mで演算される。以下に説明するように出現率に応じて特徴量の評価方法又は評価条件が変更される。
図6~図10を用いて特徴量範囲(標準範囲及び推奨範囲)の求め方について説明する。ある特徴量種別についての特徴量範囲を求めたい場合、特徴量テーブルから当該特徴量種別に属する複数の特徴量が読み出され、それに基づいて標準偏差が演算される。標準偏差を1/n倍することにより、以下に説明する積算ヒストグラムを作成するに際しての個々の区間の幅が決定される。nはユーザーにより変更し得る。個々の区間ごとに、特徴量データから読み出された複数の特徴量が積算されて積算ヒストグラムが作成される。
図6には、積算ヒストグラムが例示されている。図示された積算ヒストグラム116は、C質量割合の積算ヒストグラムである。横軸はC質量割合の大きさを示している。縦軸は度数を示しており、具体的には、個々の区間内での度数積算値を示している。符号118は区間の幅を示している。最も大きな度数積算値を有する区間から、度数積算値の大きさ順で区間が順次選択されつつ、選択された度数積算値が順次、累積加算される。その処理は、累積加算値が第1閾値を超えるまで実行される。第1閾値は例えば度数の総和の99%に相当する値である。累積加算値が第1閾値を超えた時点までに選択された複数の区間の集合として標準範囲120が決定される。累積加算の過程で、累積加算値が第1閾値よりも小さな第2閾値を超えた時点までに選択された複数の区間の集合として推奨範囲122が決定される。第2閾値は例えば度数の総和の80%に相当する値である。
実施形態においては、特徴量範囲(標準範囲及び推奨範囲)の決定に際して各元素の出現率が考慮される。具体的には、出現率が所定値(例えば50%)以上の元素については、離散的に存在する複数の部分範囲からなる特徴量範囲の決定が許容される。一方、出現率が所定値未満の元素については、単一範囲又は連続範囲としての特徴量範囲の決定のみが許容される。
図7には、H/C比率の積算ヒストグラム124が例示されている。積算ヒストグラム124は2つの山124A,124Bを有する。水素Hの出現率は上記の所定値以上である。これにより複数の部分範囲からなる特徴量範囲の決定が許容されている。その状況下で、標準範囲として、第1部分範囲126及び第2部分範囲128が決定されており、また、推奨範囲として、第1部分範囲130及び第2部分範囲132が決定されている。特徴量範囲が3つ以上の部分範囲により構成されてもよい。
図8には、X/C比率の積算ヒストグラム134が例示されている。元素X(例えば窒素N)の出現率が上記の所定値未満であるため、単一範囲としての特徴量範囲の決定のみが許容されている。元素Xの出現率が低いため、X/C比率0を含む最低区間において度数積算値135が最高値となっている。単一範囲として標準範囲136が決定されており、同じく、単一範囲として推奨範囲138が設定されている。
図9及び図10には、図6~図8に示した処理により作成される複数のテーブルが例示されている。図9に示されているテーブル140においては、C質量割合についての標準範囲142及び推奨範囲144が管理されている。それらの範囲142,144はいずれも単一範囲である。
図10に示されているテーブル146は複数の元素150に対応した複数のレコード148を有する。複数のレコード148にわたって、H/C比率、O/C比率、N/C比率等について、それぞれの標準範囲154及び推奨範囲156が管理されている。水素H及び酸素Oの出現率152が所定値以上であったため、H/C比率及びO/C比率については複数の部分範囲の決定が許容されている(符号158A,158Bを参照)。
図11には、一次推定結果としての一次組成式リストが例示されている。一次組成式リスト160は、推定された複数の組成式に対応する複数のレコード162により構成される。個々のレコード162は複数の情報により構成され、複数の情報には、組成式番号164、組成式166、精密質量(理論値)168、精密質量(理論値)からの精密質量(実測値)のずれ170、C質量割合174、H/C比率176、N/C比率178、O/C比率180、等が含まれる。
図11には、個々の特徴量の評価結果も示されている。白いセル182は、推奨範囲に属している特徴量を示しており、比較的に薄いグレーのセル184は、推奨範囲外であって標準範囲に属している特徴量を示している。比較的に濃いグレーのセル186は、標準範囲外に属している特徴量を示している。一次組成式リスト160において、すべての特徴量が推奨範囲に属している優良レコードは、レコード188及びレコード190の2つのみである。それらに続く準優良レコードは、レコード192である。レコード192においては、H/C比率176が、標準範囲に属しているものの、それは推奨範囲からは外れている。但し、他の3つの特徴量はいずれも標準範囲に属している。
図12には、二次推定結果としての二次組成式リストが例示されている。二次組成式リスト160Aは、図11に示した一次組成式リストに対するレコード並び替えにより生成されたものである。二次組成式リスト160Aにおいては、2つの優良レコード及び1つの準優良レコードが、符号193で示すように、上位を占めている。優良レコードは、優良候補(優良組成式)に対応するレコードであり、準優良レコードは、準優良候補(準優良組成式)に対応するレコードである。すなわち、二次組成式リスト160Aにおいては、優良候補及び準優良候補が上位に位置している。それら3つのレコード以外のレコードは、真である可能性の低い組成式に対応するものであって、符号194で示すように、元の順番を維持しつつ下位に表示されている。
図12に示した並び替えは一例であり、真である可能性の低い組成式に対応するレコードが削除されてもよい。また、個々の組成式をより細かく評価し、その評価結果に基づいて、全レコードについての並び替えを行ってもよい。
図13には、変形例が示されている。この変形例は、個々の候補ごとにポイント累積値を計算し、その大きさ順で個々の候補を並び替えるものである。図13においては、第1特徴量を示す第1特徴量軸と第2特徴量を示す第2特徴量軸によって二次元の評価空間が定義されている。
第1特徴量軸上においては、第1範囲200、第2範囲202及び第3範囲204が設定されている。符号212で示すように、第1特徴量軸上の複数の区間に対して複数のポイントが与えられている。具体的には、第1範囲200の外側にある区間206a,206bにはポイント0が与えられている。第1範囲200と第2範囲202の間にある区間208a,208bにはポイント1が与えられている。第2範囲202と第3範囲204の間にある区間210a,210bにはポイント2が与えられている。第3範囲204内の区間にはポイント3が与えられている。
第2特徴量軸上においては、第1範囲214、第2範囲216及び第3範囲218が設定されている。符号226で示すように、第2特徴量軸上の複数の区間に対して複数のポイントが与えられている。具体的には、第1範囲214の外側にある区間220a,220bにはポイント0が与えられている。第1範囲214と第2範囲216の間にある区間222a,222bにはポイント1が与えられている。第2範囲216と第3範囲218の間にある区間224a,224bにはポイント2が与えられている。第3範囲218内の区間にはポイント3が与えられている。
ある組成式について第1特徴量及び第2特徴量が演算された場合、それらの特徴量が属する区間に従ってポイントが決定され、それらを合計したポイントにより、その組成式が評価される。合計ポイントの大きさ順で、一次組成式リストに対して並び替えが実行されてもよいし、合計ポイントが一定値以下となる組成式を一次組成式リストから除外することにより二次組成式リストが生成されてもよい。なお、第1特徴量は例えば主特徴量としてのC質量割合であり、第2特徴量は例えば代表的な副特徴量としてのH/C比率である。3つの以上の特徴量がポイントによって評価されてもよい。図13に示した複数のポイントは一例に過ぎず、例えば、積算ヒストグラムに基づいて上位から20%刻みで5,4,3,・・・といったポイントを付与するようにしてもよい。
図14には、様々な既知の有機化合物サンプルについてC質量割合及びH/C比率を調査した結果が示されている。横軸はC質量割合を示しており、縦軸はH/C比率を示している。それらの特徴量によって、二次元座標系において、個々の有機化合物サンプルごとに特定の座標(サンプル点)が決定される。範囲230は、複数の農薬サンプル点の広がり範囲である。範囲232は、複数のペプチドサンプル点の広がり範囲である。範囲234は、複数の添加剤サンプルの広がり範囲である。範囲236は、複数の樹脂サンプル点の広がり範囲である。範囲238は、複数の脂質サンプル点の広がり範囲である。なお、個々の有機化合物種別ごとに、少なくとも数十個のサンプルについて調査を行った。図示のように有機化合物種別に応じて広がり範囲が変化する。C質量割合及びH/C比率を利用して一次推定結果を絞り込むことの有効性が図14に見てとれる。
炭素以外を基本元素とし、その基本元素についての質量割合を特徴量としてもよい。その場合、基本元素の原子数と他の元素の原子数とから求まる原子数比率を特徴量としてもよい。特徴量の計算に際して、保持時間(RT)又は保持指標(RI)を考慮してもよい。上記以外の条件を更に組み合わせて一次推定結果の絞り込みを行ってもよい。そのような条件として同位体パターン等があげられる。最終的にユーザーにより選択された組成式を順次、学習対象とすることにより、特徴量範囲を徐々に最適化できる。
10 組成推定装置、18 マススペクトル作成部、24 ピーク検出部、28 一次推定部、34 二次推定部、36 特徴量演算部、38フィルタ群、50 フィルタ作成部、56 特徴量演算部、58 記憶部(特徴量テーブル)、60 範囲演算部。

Claims (10)

  1. 組成式を推定する推定手段と、
    前記組成式から複数の特徴量を演算する特徴量演算手段と、
    前記複数の特徴量に基づいて前記組成式を評価する評価手段と、
    を含み、
    前記複数の特徴量には、前記組成式それ全体の中で基本元素が占める割合を示す基本特徴量が含まれる、
    ことを特徴とする組成推定装置。
  2. 請求項1記載の装置において、
    前記基本特徴量は、前記組成式それ全体の質量の中で前記基本元素の質量が占める割合を示す特徴量である、
    ことを特徴とする組成推定装置。
  3. 請求項1記載の装置において、
    前記推定手段は、有機化合物の質量分析により生成されたマススペクトルから特定される精密質量に基づいて前記組成式を推定し、
    前記基本元素は炭素である、
    ことを特徴とする組成推定装置。
  4. 請求項1記載の装置において、
    前記複数の特徴量には、前記基本元素の原子数と注目元素の原子数の比率が含まれる、
    ことを特徴とする組成推定装置。
  5. 請求項1記載の装置において、
    学習用組成式集合に基づいて、前記複数の特徴量を評価するための複数の評価条件からなる評価条件群を演算する評価条件演算手段を含み、
    前記評価手段は、前記複数の評価条件に従って前記複数の特徴量を個別的に評価することにより、前記組成式を総合的に評価する、
    ことを特徴とする組成推定装置。
  6. 請求項5記載の装置において、
    前記評価条件演算手段は、複数のカテゴリに対応する複数の学習用組成式集合に基づいて複数の評価条件群を演算し、
    前記複数のカテゴリの中から特定のカテゴリを選択する選択手段が設けられ、
    前記評価手段は、前記複数の評価条件群の中から前記特定のカテゴリに対応する評価条件群を選択し、当該評価条件群を利用して前記複数の特徴量を個別的に評価する、
    ことを特徴とする組成推定装置。
  7. 請求項1記載の装置において、
    複数の組成式からなる一次組成式リストを生成する推定手段を含み、
    前記評価手段は、
    前記一次組成式リスト中の組成式ごとに評価を行う手段と、
    前記複数の組成式についての評価結果に基づいて二次組成式リストを生成する手段と、
    を含み、
    前記一次組成式リスト及び前記二次組成式リストが表示される、
    ことを特徴とする組成推定装置。
  8. 請求項7記載の装置において、
    前記二次組成式リストには特徴量ごとにその評価結果を示す情報が含まれる、
    ことを特徴とする組成推定装置。
  9. 推定された組成式から複数の特徴量を演算する工程と、
    前記複数の特徴量に基づいて前記組成式を評価する工程と、
    を含み、
    前記複数の特徴量には、
    前記組成式それ全体の質量の中で基本元素の質量が占める割合を示す第1特徴量と、
    前記基本元素の原子数と注目元素の原子数の比率を示す第2特徴量と、
    が含まれる、ことを特徴とする組成推定方法。
  10. 情報処理装置において組成推定方法を実行するためのプログラムであって、
    推定された組成式から複数の特徴量を演算する機能と、
    前記複数の特徴量に基づいて前記組成式を評価する機能と、
    を含み、
    前記複数の特徴量には、
    前記組成式それ全体の質量の中で基本元素の質量が占める割合を示す第1特徴量と、
    前記基本元素の原子数と注目元素の原子数の比率を示す第2特徴量と、
    が含まれる、ことを特徴とするプログラム。
JP2019009588A 2019-01-23 2019-01-23 組成推定装置及び方法 Active JP7096174B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019009588A JP7096174B2 (ja) 2019-01-23 2019-01-23 組成推定装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019009588A JP7096174B2 (ja) 2019-01-23 2019-01-23 組成推定装置及び方法

Publications (2)

Publication Number Publication Date
JP2020118542A JP2020118542A (ja) 2020-08-06
JP7096174B2 true JP7096174B2 (ja) 2022-07-05

Family

ID=71890520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019009588A Active JP7096174B2 (ja) 2019-01-23 2019-01-23 組成推定装置及び方法

Country Status (1)

Country Link
JP (1) JP7096174B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007163212A (ja) 2005-12-12 2007-06-28 Nara Institute Of Science & Technology 分子式構築装置、分子式構築装置の制御方法、分子式構築制御プログラム、およびコンピュータ読み取り可能な記録媒体
JP2012515902A (ja) 2009-01-21 2012-07-12 ボッカー,セバスチアン マススペクトロメトリーにより特に未知物質を同定するための方法
JP2014173851A (ja) 2013-03-05 2014-09-22 Ayako Sato 有機化合物の分子式決定システム
JP2017129534A (ja) 2016-01-22 2017-07-27 日本電子株式会社 マススペクトル解析装置、マススペクトル解析方法、質量分析装置、およびプログラム
US20180120327A1 (en) 2015-03-12 2018-05-03 Mars, Incorporated Ultra high resolution mass spectrometry and methods of using the same

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0817391A (ja) * 1994-06-28 1996-01-19 Hitachi Ltd 質量スペクトル解析法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007163212A (ja) 2005-12-12 2007-06-28 Nara Institute Of Science & Technology 分子式構築装置、分子式構築装置の制御方法、分子式構築制御プログラム、およびコンピュータ読み取り可能な記録媒体
JP2012515902A (ja) 2009-01-21 2012-07-12 ボッカー,セバスチアン マススペクトロメトリーにより特に未知物質を同定するための方法
JP2014173851A (ja) 2013-03-05 2014-09-22 Ayako Sato 有機化合物の分子式決定システム
US20180120327A1 (en) 2015-03-12 2018-05-03 Mars, Incorporated Ultra high resolution mass spectrometry and methods of using the same
JP2017129534A (ja) 2016-01-22 2017-07-27 日本電子株式会社 マススペクトル解析装置、マススペクトル解析方法、質量分析装置、およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JAYASEELAN, K. V. et al.,Building blocks for automated elucidation of metabolites: natural product-likeness for candidate ranking,BMC Bioinformatics,2014年,Vol.15, No.234,pp.1-9
KIND, T. et al.,Seven Golden Rules for heuristic filtering of molecular formulas obtained by accurate mass spectrometry,BMC Bioinformatics,2007年03月27日,Vol.8, No.105,pp.1-20

Also Published As

Publication number Publication date
JP2020118542A (ja) 2020-08-06

Similar Documents

Publication Publication Date Title
US11645581B2 (en) Meaningfully explaining black-box machine learning models
Michaelsen Cross-validation in statistical climate forecast models
JP5071475B2 (ja) 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
CA2801379C (en) A method of quantifying soil carbon
Liang et al. Matrix model of forest dynamics: An overview and outlook
Vasko et al. Estimating the number of segments in time series data using permutation tests
AU2005201997A1 (en) Anomaly detection in data perspectives
CN109871479A (zh) 一种基于用户项目类及评分可靠性的协同过滤方法
US8928663B2 (en) Visualizing correlations in multi-dimensional data
CN111429980A (zh) 一种材料晶体结构特征的自动化获取方法
US9417981B2 (en) Data processing system, data processing method, and program
Bazil et al. A global parallel model based design of experiments method to minimize model output uncertainty
EP2612256A1 (en) Performing what-if analysis
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN112149737A (zh) 选择模型训练方法、模型选择方法、装置及电子设备
KR20030081416A (ko) 투자 대상의 선택을 쉽게하는 시스템
JP7096174B2 (ja) 組成推定装置及び方法
US20110009995A1 (en) Production index information generating device, program therefore, and production information generating method
CN110737600A (zh) 崩溃统计数据显示方法、装置、计算机设备及存储介质
JP6622938B1 (ja) 相関性抽出方法および相関性抽出プログラム
Beilschmidt et al. A linear-time algorithm for the aggregation and visualization of big spatial point data
KR20140079639A (ko) 협업 필터링을 위한 emd 기반 유사 사용자 선별 방법
Cromley et al. A concentration-based approach to data classification for choropleth mapping
RU2603491C2 (ru) Управление справочной спектральной информацией и поиск
Wang et al. IOHanalyzer: Detailed Performance Analyses for Iterative Optimization Heuristics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210707

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220531

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220623

R150 Certificate of patent or registration of utility model

Ref document number: 7096174

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150