JP7096174B2

JP7096174B2 - 組成推定装置及び方法

Info

Publication number: JP7096174B2
Application number: JP2019009588A
Authority: JP
Inventors: 歩久保
Original assignee: Jeol Ltd
Current assignee: Jeol Ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2022-07-05
Anticipated expiration: 2039-01-23
Also published as: JP2020118542A

Description

本発明は、組成推定装置及び方法に関し、特に、推定結果のフィルタリングに関する。

サンプルに対する質量分析によりマススペクトルが得られる。マススペクトルは、サンプルに含まれる複数の成分に対応した複数のピークを有する。その中で注目するピークの質量電荷比（m/z）から、そのピークに対応した成分の精密質量が特定される。精密質量から組成（実際には組成式）が推定される。組成式は分子を構成する元素ごとに原子数を表したものである。組成推定は組成式推定又は元素組成推定とも呼ばれる。

組成推定に際しては、それに先立って、元素ごとに推定範囲（探索範囲）が指定される。各推定範囲は、元素ごとの原子数下限及び原子数上限によって画定される。通常、組成推定の結果として、多数の組成式からなる組成式リストが生成される。組成式リストの中から、分析者により、化学的知見その他に基づき、真である可能性の高い１つ組成式（場合によっては複数の組成式）が選択される。

非特許文献１には、組成推定結果に対するフィルタリングが開示されている。フィルタリングに際しては幾つかのルールが適用されている。その中には、推定された組成式から算出される特徴量（attribute）を利用したルールが含まれる。具体的には、特徴量として原子数比率が利用されている。推定された組成式に含まれる炭素（Ｃ）の原子数をαと表記し、推定された組成式に含まれる他の元素（Ｈ，Ｎ，Ｏ等）の原子数をβと表記した場合、β／αが原子数比率である。例えば、推定された組成式から求められたいずれかの原子数比率が一般的範囲から外れる場合、その組成式はフィルタリングでの除外対象とされる。なお、非特許文献１には、組成式それ全体と特定の元素との関係を示す特徴量の利用については開示されていない。

Tobias Kind and Oliver Fiehn, Seven Golden Rules for heuristic filtering of molecular formulas obtained by accurate mass spectrometry (BMC Bioinforma 8:105), BMC Bioinformatics, 2007.

組成推定の精度を高めることが望まれている。特に、原子数比率と共に参照される又は原子数比率に代わる新たな特徴量を利用したフィルタリングの実現が望まれている。

本発明の目的は、組成推定の精度を高めることにある。あるいは、本発明の目的は、分析者にとって分かり易い又は分析者の直感的な認識に合致する特徴量を利用したフィルタリングを実現することある。

本発明に係る組成推定装置は、組成式を推定する推定手段、組成式に基づいて複数の特徴量を演算する特徴量演算手段、及び、複数の特徴量に基づいて組成式を評価する評価手段を含む。複数の特徴量の中には、組成式それ全体の中で基本元素が占める割合を示す基本特徴量が含まれる。

化合物の推定、解析等においては、化合物の中での基本元素の占める割合が考慮され易い。例えば、有機化合物においては炭素の占める割合が考慮され易い。上記構成は、そのような経験則に従って、基本特徴量を含む複数の特徴量を利用して、一次推定結果である組成式を二次的に評価するものである。組成式リストの中から真である可能性の高い組成式を抽出できるならば、あるいは、組成式リストの中から真である可能性の低い組成式を除外できるならば、二次推定結果を最適化することが可能となる。上記基本特徴量は、一般に、分析者の思考に馴染み易い又は分析者において直感的に理解し易い特徴量である。

組成式それ全体に対する基本元素の割合として、原子数割合及び質量割合の２つが考えられる。それらはいずれも基本特徴量になり得るものである。原子数割合を基本特徴量とした場合、化合物中において比較的に多く存在する他の元素（例えば水素）の原子数が基本特徴量に影響を与え易くなる。その観点からは、質量割合を基本特徴量とした方がよい。特に、他の特徴量の計算において基本元素の原子数が考慮されている場合においては、基本元素の質量割合を基本特徴量とした方がよい。

実施形態において、推定手段は、有機化合物の質量分析により生成されたマススペクトルから特定される精密質量に基づいて組成式を推定するものである。実施形態において、基本元素は炭素である。炭素は有機化合物の基本的構成要素である。

実施形態において、複数の特徴量には、基本元素の原子数と注目元素の原子数の比率が含まれる。注目元素は、基本元素以外の元素であり、有機化合物においては、Ｈ，Ｎ，Ｏ等が注目元素の候補となる。基本元素の原子数と注目元素の原子数の比率には、統計上、一定の傾向が認められるため（例えば非特許文献１を参照）、それをフィルタリング条件として利用するものである。基本特徴量と他の特徴量の組合せを利用して多面的にフィルタリングを行えば、組成推定の精度を高められる。更に、他のフィルタリング、例えば同位体パターンによるフィルタリング、を併せて適用してもよい。

実施形態に係る組成推定装置は、学習用組成式集合に基づいて、複数の特徴量を評価するための複数の評価条件からなる評価条件群を演算する評価条件演算手段を含む。評価手段は、複数の評価条件に従って複数の特徴量を個別的に評価することにより、組成式を総合的に評価する。この構成は、学習結果を利用して評価の精度を高めるものである。

実施形態において、評価条件演算手段は、複数のカテゴリに対応する複数の学習用組成式集合に基づいて複数の評価条件群を演算し、複数のカテゴリの中から特定のカテゴリを選択する選択手段が設けられ、評価手段は、複数の評価条件群の中から、特定のカテゴリに対応する評価条件群を特定し、当該評価条件群を利用して複数の特徴量を個別的に評価する。カテゴリに応じて、個々の特徴量が変化する。そこで、上記構成は、カテゴリごとに学習を実行して評価条件群を用意しておくものである。最適な評価条件群を利用することにより、推定精度をより高められる。カテゴリの例として、アプリケーション、ユーザー等があげられる。例えば、ある特徴量がそれに対応する特徴量範囲に属する場合に評価条件が満たされたと判断されてもよい。

実施形態において、評価手段は、組成式リスト中の組成式ごとに評価を行い、複数の組成式についての評価の結果に基づいて二次組成式リストを生成する。一次組成式リスト及び二次組成式リストが表示されれば、評価が適正に遂行されたことを事後的に確認し易くなる。

実施形態においては、二次組成式リストには特徴量ごとにその評価結果を示す情報が含まれる。この構成によれば、評価手段による具体的な個別的な評価結果を事後的に確認することが可能となる。例えば、各特徴量がその評価結果を示す態様で表示されてもよい。

実施形態に係る組成推定方法は、推定された組成式から複数の特徴量を演算する工程と、複数の特徴量に基づいて組成式を評価する工程と、を含む。複数の特徴量には、組成式それ全体の質量の中で基本元素の質量が占める割合を示す第１特徴量と、基本元素の原子数と注目元素の原子数の比率を示す第２特徴量と、が含まれる。

上記組成推定方法は、ハードウエアの機能として、又は、ソフトウエアの機能として実現され得る。後者の場合、組成推定方法を実行するプログラムが、ネットワークを介して又は可搬型記憶媒体を介して、情報処理装置へインストールされる。情報処理装置の概念には、コンピュータ、質量分析装置、質量分析システム等が含まれる。

本発明によれば、組成推定の精度を高められる。あるいは、本発明によれば、分析者にとって分かり易い又は分析者の直感的な認識に合致する特徴量を利用したフィルタリングを実現できる。

実施形態に係る組成推定装置を示すブロック図である。特徴量空間を示す図である。二次推定部の構成例を示す図である。特徴量テーブルの一例を示す図である。出現率テーブルの一例を示す図である。Ｃ質量割合についてのヒストグラムの一例を示す図である。Ｈ／Ｃ比率についてのヒストグラムの一例を示す図である。Ｘ／Ｃ比率についてのヒストグラムの一例を示す図である。基本特徴量についての評価条件の一例を示す図である。他の特徴量についての評価条件の一例を示す図である。一次推定結果の一例を示す図である。二次推定結果の一例を示す図である。ポイントを利用した評価方法を説明するための図である。Ｃ質量割合とＨ／Ｃ比率の間の関係を示す図である。

以下、好適な実施形態を図面に基づいて説明する。

図１には、実施形態に係る組成推定装置がブロック図として示されている。図示された組成推定装置１０は、実施形態に係る組成推定方法を実行するものであり、情報処理装置としてのコンピュータによって構成される。組成推定装置１０は、マススペクトル処理装置とも言い得る。通常、質量分析装置とマススペクトル処理装置とにより質量分析システムが構成される。質量分析装置の前段に、ガスクロマトグラフ装置、液体クロマトグラフ装置等が設けられてもよい。質量分析装置の演算制御部が組成推定装置１０として機能してもよい。

図１において、組成推定装置１０は、演算部１２、入力部１４、及び、表示部１６を有する。演算部１２は、プログラムを実行するＣＰＵ、並びに、プログラム及びデータを記憶した複数の記憶部によって構成される。各記憶部は、半導体メモリ、ハードディスク等によって構成される。入力部１４は、キーボード、ポインティングデバイス等によって構成される。表示部１６は、液晶表示器、有機ＥＬ表示器等によって構成される。図１においては、演算部１２により発揮される複数の機能が複数のブロックによって表現されている。以下に、個々の機能について説明する。

マススペクトル作成部１８は、マススペクトル作成手段として機能するものであり、質量分析装置から出力された検出信号２０に基づいてマススペクトルを作成する。マススペクトルの横軸は質量電荷比（m/z比）を示す軸であり、その縦軸はイオンの相対強度を示す軸である。作成されたマススペクトルを示すデータは、表示処理部２２を介して表示部１６に送られている。表示部１６の画面上には、必要に応じて、マススペクトルが表示される。表示処理部２２は、グラフィック画像生成機能、画像合成機能、カラー処理機能、等を有する。

ピーク検出部２４は、マススペクトルに含まれる複数のピークを自動的に検出するものである。これにより、個々のピークごとにm/zが特定される。ピーク検出の結果は、必要に応じて、表示部１６の画面上に表示される。表示された複数のピークの中から、ユーザーにより、特定のピークが選択されてもよい。

一次推定部２８は、推定手段として機能するものであり、精密質量から組成式を推定するものである。マススペクトル上において特定のピークが自動的に又はマニュアルで選択されると、それが有するm/zから精密質量が特定され、その精密質量が一次推定部２８へ送られる。一次推定部２８は、事前に設定された推定条件に従って、精密質量に該当し得る組成式を推定する。通常、１つの精密質量から多数の組成式が推定される。それらによって一次組成式リストが構成される。入力部１４を用いて一次推定部２８に対して精密質量が与えられてもよい。符号３０で示されるように、外部装置からm/z又は精密質量が与えられてもよい。

通常、組成推定に先立って、個々の元素ごとに推定範囲（探索範囲）が指定される。例えば、水素原子数の範囲、炭素原子数の範囲、等が指定される。また、精密質量を中心とした誤差範囲等が指定される。それらによって推定条件が構成される。実施形態によれば、一次推定に続いて二次推定（フィルタリング）が実行されるので、一次推定に際して元素の種類や原子数の範囲に対して限定的な条件を設定しなくてもよいという利点を得られる。

二次推定部３４は、評価手段又はフィルタ手段として機能するものであり、それは特徴量演算部３６及びフィルタ群３８により構成される。特徴量演算部３６は、組成式ごとにその組成式に基づいて複数の特徴量を演算する。個々の特徴量は組成式の特徴を示す固有値と言い得るものである。特徴量については後に詳述する。

フィルタ群３８は、複数のカテゴリに対応した複数のフィルタ３８Ａにより構成される。個々のフィルタ３８Ａは、以下に説明するように、一次推定結果を絞り込む作用を発揮するものである。いずれかのカテゴリを選択すると、それに対応したフィルタ３８Ａが選択され、それが利用される。符号４６はフィルタ選択信号を示している。ユーザーごとにフィルタ３８Ａが用意されてもよいし、アプリケーションごとにフィルタ３８Ａが用意されてもよいし、化合物属性ごとにフィルタ３８Ａが用意されてもよい。カテゴリのマニュアル指定によってフィルタ３８Ａが選択されてもよいし、測定条件や設定内容等に基づいて自動的にフィルタ３８Ａが選択されてもよい。

個々のフィルタ３８Ａは、一次組成式リスト中の個々の組成式を二次的に評価し、これによって二次組成式リストに含める組成式を選別し、あるいは、二次組成式リストの上位に格付けする組成式を選別するものである。その際には、特徴量演算部３６によって演算された複数の特徴量が個別的に評価される。重み付け評価方式、スコア評価方式、等の多様な評価方式を採用し得る。カテゴリごとにフィルタ３８Ａが用意されているので、組成式の評価精度を高められる。フィルタリングの結果として二次組成式リストが生成される。その場合、一次組成式リストの並び換え、一次組成式リストからの組成式の除外、等により、二次組成式リストが生成されてもよい。

表示部１６には、一次組成式リスト及び二次組成式リストが表示される。一次組成式リストと二次組成式リストの対比により、フィルタリングが適正に行われたことを事後的に確認できる。また、フィルタリングで除外されてしまった組成式や順位を落とされてしまった組成式を再考慮することが可能となる。後述するように、二次組成式リストの表示に際しては、個々の特徴量ごとに、その妥当性を示す情報として個別評価結果が表示される。それを参照することにより、具体的な評価結果を事後的に確認できる。画面上に表示する内容をユーザーにより選択できるように構成してもよい。例えば、一次組成式リストの表示の要否がユーザー（分析者）により選択されてもよい。

演算部１２は、フィルタ作成部５０を有している。フィルタ作成部５０は、学習手段、フィルタ作成手段等として機能する。記憶部５２には、学習用組成式集合が格納される。実施形態においては、カテゴリごとに学習用組成式集合が用意される。符号５４で示されるように、外部装置から複数の学習用組成式が与えられてもよい。二次組成式リストの中から、ユーザーによって選択された組成式が学習用組成式として記憶部５２へ格納されてもよい（符号４４を参照）。組成推定と同時進行で学習を行わせれば、個々のフィルタ３８Ａの内容をより最適化できる。

特徴量演算部５６は、上記の特徴量演算部３６と同様の機能を有する。両者が一体化されてもよい。特徴量演算部５６は、記憶部５２から読み出された学習用組成式ごとに、その学習用組成式に基づいて、複数の特徴量からなる特徴量セットを演算するものである。記憶部５８には、特徴量テーブルが格納される。特徴量テーブルは、複数の学習用組成式に対応した複数のレコードからなる。個々のレコードは特徴量セットを含んでいる。実施形態においては、記憶部５８上に複数のカテゴリに対応した複数の特徴量テーブルが構築される。ユーザーにより又は自動的にカテゴリが選択される。ユーザーによるカテゴリの選択は例えば入力部１４を用いて行われる。その場合、入力部１４はカテゴリ選択手段として機能する。

範囲演算部６０は、評価条件演算手段として機能するものである。実施形態において、範囲演算部６０は、カテゴリごとに、特徴量テーブルの内容に基づいて、複数の個別評価条件として、複数の特徴量範囲を演算する。具体的には、特徴量種別ごとに、特徴量テーブル上に記録された複数の特徴量が参照され、それらを統計的に処理することにより、特徴量範囲として、標準範囲及び推奨範囲が演算される。標準範囲は、組成式の妥当性の有無を一般的に判断するためのものであり、推奨範囲は、確度の高い組成式を選別するためのものである。カテゴリごとに演算された複数の特徴量範囲により、フィルタ３８Ａが構成される。複数のカテゴリに対応して生成された複数のフィルタ３８Ａが二次推定部３４において選択的に機能する。

なお、各フィルタ３８Ａの内容は評価条件として機能し、フィルタ群３８それ全体として評価条件群が構成される。特徴量範囲以外の評価条件が採用されてもよい。組成推定装置１０がそれ単体で利用されてもよい。組成推定装置１０が複数の情報処理装置上に跨がって構成されてもよい。その場合、複数の情報処理装置がネットワークを介して相互に接続されてもよい。

図２を用いてフィルタの作用を概説する。図２においては、説明のため、３つの特徴量を示す３つの軸が示されている。３つの軸によって特徴量空間が定義されている。個々の軸上において特徴量範囲が指定されると、それらによって抽出空間６１が定義される。評価対象となった組成式から３つの特徴量が求められ、それらによって特徴量空間内に１つの点６２が定まる。その点６２は原点から出る特徴量ベクトル６４によって定義されるものである。点６２が抽出空間６１内にあれば、評価対象となった組成式が真である可能性は高いと評価され、それに対応する組成式が抽出される。一方、評価対象となった組成式から求まる３つの特徴量によって点６６が定義され、その点６６が抽出空間６１の外にあれば、評価対象となった組成式が真である可能性は低いと評価され、その組成式は除外される。図２には、３つの特徴量が示されているが、２つの特徴量によって組成式が評価されてもよいし、４つ以上の特徴量によって組成式が評価されてもよい。

図３には、図１に示した二次評価部において実行されるフィルタリングの内容（アルゴリズム）が模式的に示されている。符号２００で示す部分が図１に示した特徴量演算部に相当し、符号２０２で示す部分が、選択されたフィルタに相当する。推定された組成式が候補６８として示されている。図示の例では、候補６８から複数の特徴量７０～７６が演算される。

特徴量７０は基本特徴量であり、それは、組成式それ全体の質量（分子質量）の中で、基本元素である炭素Ｃの質量が占める割合を示すものである。炭素Ｃの質量は、炭素原子１個当たりの質量に対して炭素原子の個数（原子数）を乗ずることにより求められる。図３においては、それが「Ｃ質量割合」７０と表現されている。有機化合物には炭素が含まれ、それは基本元素と言い得る。そのような観点から「Ｃ質量割合」が基本特徴量とされている。炭素の質量割合に代えて、炭素の原子数割合を利用することも考えられる。

組成式中の基本元素（つまり炭素）の原子数をαと表現し、組成式中の他の注目元素の原子数をβと表現した場合に、β／αという比率が定義される。特徴量７２，７４，７６は、それぞれ、そのような比率を示す特徴量である。具体的には、特徴量７２は、炭素Ｃの原子数に対する水素Ｈの原子数の比率を示すものであり、それが「Ｈ／Ｃ比率」と表現されている。同様に、特徴量７４は、炭素Ｃの原子数に対する窒素Ｎの原子数の比率を示すものであり、それが「Ｎ／Ｃ比率」と表現されている。同様に、特徴量７６は、炭素Ｃの原子数に対する酸素Ｏの原子数の比率を示すものであり、それが「Ｏ／Ｃ比率」と表現されている。それ以外の特徴量が利用されてもよい。例えば、Ｃ質量割合７０とＨ／Ｃ比率７２の組合せを基本形とし、必要に応じて、それに他の特徴量を加えるようにしてもよい。カテゴリに応じて、利用する特徴量の個数や組合せが適応的に変更されてもよい。

演算された複数の特徴量は、それぞれ個別的に評価される（符号７８～８４を参照）。個別評価７８では、Ｃ質量割合７０がそれに対応する標準範囲（及び推奨範囲）に属するか否かが判断される。個別評価８０では、Ｈ／Ｃ比率７２がそれに対応する標準範囲（及び推奨範囲）に属するか否かが判断される。個別評価８２では、Ｎ／Ｃ比率７４がそれに対応する標準範囲（及び推奨範囲）に属するか否かが判断される。個別評価８４では、Ｏ／Ｃ比率７６がそれに対応する標準範囲（及び個別範囲）に含まれるか否かが判断される。それら以外の特徴量が演算されている場合、その特徴量も個別的に評価される。

総合評価８６では、複数の個別評価結果に基づいて、候補６８が総合的に評価される。例えば、候補６８が真である可能性の度合いが評価される。真である可能性の高い候補は、選別８８の過程で、二次組成式リストに含められ、あるいは、二次組成式リストにおいて上位にランキングされる。真である可能性の低い候補は、選別８８の過程で、二次組成式リストから除外され、あるいは、二次組成式リストにおいて下位にランキングされる。

図４には、特徴量テーブルが例示されている。図示された特徴量テーブル５８Ａは、学習対象となった複数の組成式９２に対応する複数のレコード９０によって構成される。各レコードは、精密質量９４、及び、組成式から演算された複数の特徴量を有する。複数の特徴量には、Ｃ質量割合９６、Ｈ／Ｃ比率９８、Ｏ／Ｃ比率１００、Ｓ／Ｃ比率１０２、Ｎ／Ｃ比率１０４、等が含まれる。

図４において、白色のセル１０６は０以外の比率であることを示しており、グレーのセル１０８は、学習対象となった分子の中に注目元素（Ｈ，Ｏ，Ｓ，Ｎ等）が存在しないことを示している。高分子等が学習対象となった場合、基本特徴量であるＣ質量割合９６は比較的に高い数値となる。また、多くの化合物には水素が含まれるため、Ｈ／Ｃ比率９８は通常、０以外の数値となる。

図５には、フィルタ作成に際して生成される出現率テーブルが例示されている。出現率テーブル１１０は、上記の特徴量テーブルにおいて複数のレコードを横断的に参照することにより生成される。出現率テーブル１１０には、注目元素１１２ごとの出現率１１４が含まれる。例えば、学習対象となった組成式の個数をＭとし、その中で、ある注目元素の原子を１個でも含んでいる組成式の個数をＮとした場合、当該元素についての出現率がＮ／Ｍで演算される。以下に説明するように出現率に応じて特徴量の評価方法又は評価条件が変更される。

図６～図１０を用いて特徴量範囲（標準範囲及び推奨範囲）の求め方について説明する。ある特徴量種別についての特徴量範囲を求めたい場合、特徴量テーブルから当該特徴量種別に属する複数の特徴量が読み出され、それに基づいて標準偏差が演算される。標準偏差を１／ｎ倍することにより、以下に説明する積算ヒストグラムを作成するに際しての個々の区間の幅が決定される。ｎはユーザーにより変更し得る。個々の区間ごとに、特徴量データから読み出された複数の特徴量が積算されて積算ヒストグラムが作成される。

図６には、積算ヒストグラムが例示されている。図示された積算ヒストグラム１１６は、Ｃ質量割合の積算ヒストグラムである。横軸はＣ質量割合の大きさを示している。縦軸は度数を示しており、具体的には、個々の区間内での度数積算値を示している。符号１１８は区間の幅を示している。最も大きな度数積算値を有する区間から、度数積算値の大きさ順で区間が順次選択されつつ、選択された度数積算値が順次、累積加算される。その処理は、累積加算値が第１閾値を超えるまで実行される。第１閾値は例えば度数の総和の９９％に相当する値である。累積加算値が第１閾値を超えた時点までに選択された複数の区間の集合として標準範囲１２０が決定される。累積加算の過程で、累積加算値が第１閾値よりも小さな第２閾値を超えた時点までに選択された複数の区間の集合として推奨範囲１２２が決定される。第２閾値は例えば度数の総和の８０％に相当する値である。

実施形態においては、特徴量範囲（標準範囲及び推奨範囲）の決定に際して各元素の出現率が考慮される。具体的には、出現率が所定値（例えば５０％）以上の元素については、離散的に存在する複数の部分範囲からなる特徴量範囲の決定が許容される。一方、出現率が所定値未満の元素については、単一範囲又は連続範囲としての特徴量範囲の決定のみが許容される。

図７には、Ｈ／Ｃ比率の積算ヒストグラム１２４が例示されている。積算ヒストグラム１２４は２つの山１２４Ａ，１２４Ｂを有する。水素Ｈの出現率は上記の所定値以上である。これにより複数の部分範囲からなる特徴量範囲の決定が許容されている。その状況下で、標準範囲として、第１部分範囲１２６及び第２部分範囲１２８が決定されており、また、推奨範囲として、第１部分範囲１３０及び第２部分範囲１３２が決定されている。特徴量範囲が３つ以上の部分範囲により構成されてもよい。

図８には、Ｘ／Ｃ比率の積算ヒストグラム１３４が例示されている。元素Ｘ（例えば窒素Ｎ）の出現率が上記の所定値未満であるため、単一範囲としての特徴量範囲の決定のみが許容されている。元素Ｘの出現率が低いため、Ｘ／Ｃ比率０を含む最低区間において度数積算値１３５が最高値となっている。単一範囲として標準範囲１３６が決定されており、同じく、単一範囲として推奨範囲１３８が設定されている。

図９及び図１０には、図６～図８に示した処理により作成される複数のテーブルが例示されている。図９に示されているテーブル１４０においては、Ｃ質量割合についての標準範囲１４２及び推奨範囲１４４が管理されている。それらの範囲１４２，１４４はいずれも単一範囲である。

図１０に示されているテーブル１４６は複数の元素１５０に対応した複数のレコード１４８を有する。複数のレコード１４８にわたって、Ｈ／Ｃ比率、Ｏ／Ｃ比率、Ｎ／Ｃ比率等について、それぞれの標準範囲１５４及び推奨範囲１５６が管理されている。水素Ｈ及び酸素Ｏの出現率１５２が所定値以上であったため、Ｈ／Ｃ比率及びＯ／Ｃ比率については複数の部分範囲の決定が許容されている（符号１５８Ａ，１５８Ｂを参照）。

図１１には、一次推定結果としての一次組成式リストが例示されている。一次組成式リスト１６０は、推定された複数の組成式に対応する複数のレコード１６２により構成される。個々のレコード１６２は複数の情報により構成され、複数の情報には、組成式番号１６４、組成式１６６、精密質量（理論値）１６８、精密質量（理論値）からの精密質量（実測値）のずれ１７０、Ｃ質量割合１７４、Ｈ／Ｃ比率１７６、Ｎ／Ｃ比率１７８、Ｏ／Ｃ比率１８０、等が含まれる。

図１１には、個々の特徴量の評価結果も示されている。白いセル１８２は、推奨範囲に属している特徴量を示しており、比較的に薄いグレーのセル１８４は、推奨範囲外であって標準範囲に属している特徴量を示している。比較的に濃いグレーのセル１８６は、標準範囲外に属している特徴量を示している。一次組成式リスト１６０において、すべての特徴量が推奨範囲に属している優良レコードは、レコード１８８及びレコード１９０の２つのみである。それらに続く準優良レコードは、レコード１９２である。レコード１９２においては、Ｈ／Ｃ比率１７６が、標準範囲に属しているものの、それは推奨範囲からは外れている。但し、他の３つの特徴量はいずれも標準範囲に属している。

図１２には、二次推定結果としての二次組成式リストが例示されている。二次組成式リスト１６０Ａは、図１１に示した一次組成式リストに対するレコード並び替えにより生成されたものである。二次組成式リスト１６０Ａにおいては、２つの優良レコード及び１つの準優良レコードが、符号１９３で示すように、上位を占めている。優良レコードは、優良候補（優良組成式）に対応するレコードであり、準優良レコードは、準優良候補（準優良組成式）に対応するレコードである。すなわち、二次組成式リスト１６０Ａにおいては、優良候補及び準優良候補が上位に位置している。それら３つのレコード以外のレコードは、真である可能性の低い組成式に対応するものであって、符号１９４で示すように、元の順番を維持しつつ下位に表示されている。

図１２に示した並び替えは一例であり、真である可能性の低い組成式に対応するレコードが削除されてもよい。また、個々の組成式をより細かく評価し、その評価結果に基づいて、全レコードについての並び替えを行ってもよい。

図１３には、変形例が示されている。この変形例は、個々の候補ごとにポイント累積値を計算し、その大きさ順で個々の候補を並び替えるものである。図１３においては、第１特徴量を示す第１特徴量軸と第２特徴量を示す第２特徴量軸によって二次元の評価空間が定義されている。

第１特徴量軸上においては、第１範囲２００、第２範囲２０２及び第３範囲２０４が設定されている。符号２１２で示すように、第１特徴量軸上の複数の区間に対して複数のポイントが与えられている。具体的には、第１範囲２００の外側にある区間２０６ａ，２０６ｂにはポイント０が与えられている。第１範囲２００と第２範囲２０２の間にある区間２０８ａ，２０８ｂにはポイント１が与えられている。第２範囲２０２と第３範囲２０４の間にある区間２１０ａ，２１０ｂにはポイント２が与えられている。第３範囲２０４内の区間にはポイント３が与えられている。

第２特徴量軸上においては、第１範囲２１４、第２範囲２１６及び第３範囲２１８が設定されている。符号２２６で示すように、第２特徴量軸上の複数の区間に対して複数のポイントが与えられている。具体的には、第１範囲２１４の外側にある区間２２０ａ，２２０ｂにはポイント０が与えられている。第１範囲２１４と第２範囲２１６の間にある区間２２２ａ，２２２ｂにはポイント１が与えられている。第２範囲２１６と第３範囲２１８の間にある区間２２４ａ，２２４ｂにはポイント２が与えられている。第３範囲２１８内の区間にはポイント３が与えられている。

ある組成式について第１特徴量及び第２特徴量が演算された場合、それらの特徴量が属する区間に従ってポイントが決定され、それらを合計したポイントにより、その組成式が評価される。合計ポイントの大きさ順で、一次組成式リストに対して並び替えが実行されてもよいし、合計ポイントが一定値以下となる組成式を一次組成式リストから除外することにより二次組成式リストが生成されてもよい。なお、第１特徴量は例えば主特徴量としてのＣ質量割合であり、第２特徴量は例えば代表的な副特徴量としてのＨ／Ｃ比率である。３つの以上の特徴量がポイントによって評価されてもよい。図１３に示した複数のポイントは一例に過ぎず、例えば、積算ヒストグラムに基づいて上位から２０％刻みで５，４，３，・・・といったポイントを付与するようにしてもよい。

図１４には、様々な既知の有機化合物サンプルについてＣ質量割合及びＨ／Ｃ比率を調査した結果が示されている。横軸はＣ質量割合を示しており、縦軸はＨ／Ｃ比率を示している。それらの特徴量によって、二次元座標系において、個々の有機化合物サンプルごとに特定の座標（サンプル点）が決定される。範囲２３０は、複数の農薬サンプル点の広がり範囲である。範囲２３２は、複数のペプチドサンプル点の広がり範囲である。範囲２３４は、複数の添加剤サンプルの広がり範囲である。範囲２３６は、複数の樹脂サンプル点の広がり範囲である。範囲２３８は、複数の脂質サンプル点の広がり範囲である。なお、個々の有機化合物種別ごとに、少なくとも数十個のサンプルについて調査を行った。図示のように有機化合物種別に応じて広がり範囲が変化する。Ｃ質量割合及びＨ／Ｃ比率を利用して一次推定結果を絞り込むことの有効性が図１４に見てとれる。

炭素以外を基本元素とし、その基本元素についての質量割合を特徴量としてもよい。その場合、基本元素の原子数と他の元素の原子数とから求まる原子数比率を特徴量としてもよい。特徴量の計算に際して、保持時間（ＲＴ）又は保持指標（ＲＩ）を考慮してもよい。上記以外の条件を更に組み合わせて一次推定結果の絞り込みを行ってもよい。そのような条件として同位体パターン等があげられる。最終的にユーザーにより選択された組成式を順次、学習対象とすることにより、特徴量範囲を徐々に最適化できる。

１０組成推定装置、１８マススペクトル作成部、２４ピーク検出部、２８一次推定部、３４二次推定部、３６特徴量演算部、３８フィルタ群、５０フィルタ作成部、５６特徴量演算部、５８記憶部（特徴量テーブル）、６０範囲演算部。

Claims

組成式を推定する推定手段と、
前記組成式から複数の特徴量を演算する特徴量演算手段と、
前記複数の特徴量に基づいて前記組成式を評価する評価手段と、
を含み、
前記複数の特徴量には、前記組成式それ全体の中で基本元素が占める割合を示す基本特徴量が含まれる、
ことを特徴とする組成推定装置。
請求項１記載の装置において、
前記基本特徴量は、前記組成式それ全体の質量の中で前記基本元素の質量が占める割合を示す特徴量である、
ことを特徴とする組成推定装置。
請求項１記載の装置において、
前記推定手段は、有機化合物の質量分析により生成されたマススペクトルから特定される精密質量に基づいて前記組成式を推定し、
前記基本元素は炭素である、
ことを特徴とする組成推定装置。
請求項１記載の装置において、
前記複数の特徴量には、前記基本元素の原子数と注目元素の原子数の比率が含まれる、
ことを特徴とする組成推定装置。
請求項１記載の装置において、
学習用組成式集合に基づいて、前記複数の特徴量を評価するための複数の評価条件からなる評価条件群を演算する評価条件演算手段を含み、
前記評価手段は、前記複数の評価条件に従って前記複数の特徴量を個別的に評価することにより、前記組成式を総合的に評価する、
ことを特徴とする組成推定装置。
請求項５記載の装置において、
前記評価条件演算手段は、複数のカテゴリに対応する複数の学習用組成式集合に基づいて複数の評価条件群を演算し、
前記複数のカテゴリの中から特定のカテゴリを選択する選択手段が設けられ、
前記評価手段は、前記複数の評価条件群の中から前記特定のカテゴリに対応する評価条件群を選択し、当該評価条件群を利用して前記複数の特徴量を個別的に評価する、
ことを特徴とする組成推定装置。
請求項１記載の装置において、
複数の組成式からなる一次組成式リストを生成する推定手段を含み、
前記評価手段は、
前記一次組成式リスト中の組成式ごとに評価を行う手段と、
前記複数の組成式についての評価結果に基づいて二次組成式リストを生成する手段と、
を含み、
前記一次組成式リスト及び前記二次組成式リストが表示される、
ことを特徴とする組成推定装置。
請求項７記載の装置において、
前記二次組成式リストには特徴量ごとにその評価結果を示す情報が含まれる、
ことを特徴とする組成推定装置。
推定された組成式から複数の特徴量を演算する工程と、
前記複数の特徴量に基づいて前記組成式を評価する工程と、
を含み、
前記複数の特徴量には、
前記組成式それ全体の質量の中で基本元素の質量が占める割合を示す第１特徴量と、
前記基本元素の原子数と注目元素の原子数の比率を示す第２特徴量と、
が含まれる、ことを特徴とする組成推定方法。
情報処理装置において組成推定方法を実行するためのプログラムであって、
推定された組成式から複数の特徴量を演算する機能と、
前記複数の特徴量に基づいて前記組成式を評価する機能と、
を含み、
前記複数の特徴量には、
前記組成式それ全体の質量の中で基本元素の質量が占める割合を示す第１特徴量と、
前記基本元素の原子数と注目元素の原子数の比率を示す第２特徴量と、
が含まれる、ことを特徴とするプログラム。