以下、好適な実施形態を図面に基づいて説明する。
図1には、実施形態に係る組成推定装置がブロック図として示されている。図示された組成推定装置10は、実施形態に係る組成推定方法を実行するものであり、情報処理装置としてのコンピュータによって構成される。組成推定装置10は、マススペクトル処理装置とも言い得る。通常、質量分析装置とマススペクトル処理装置とにより質量分析システムが構成される。質量分析装置の前段に、ガスクロマトグラフ装置、液体クロマトグラフ装置等が設けられてもよい。質量分析装置の演算制御部が組成推定装置10として機能してもよい。
図1において、組成推定装置10は、演算部12、入力部14、及び、表示部16を有する。演算部12は、プログラムを実行するCPU、並びに、プログラム及びデータを記憶した複数の記憶部によって構成される。各記憶部は、半導体メモリ、ハードディスク等によって構成される。入力部14は、キーボード、ポインティングデバイス等によって構成される。表示部16は、液晶表示器、有機EL表示器等によって構成される。図1においては、演算部12により発揮される複数の機能が複数のブロックによって表現されている。以下に、個々の機能について説明する。
マススペクトル作成部18は、マススペクトル作成手段として機能するものであり、質量分析装置から出力された検出信号20に基づいてマススペクトルを作成する。マススペクトルの横軸は質量電荷比(m/z比)を示す軸であり、その縦軸はイオンの相対強度を示す軸である。作成されたマススペクトルを示すデータは、表示処理部22を介して表示部16に送られている。表示部16の画面上には、必要に応じて、マススペクトルが表示される。表示処理部22は、グラフィック画像生成機能、画像合成機能、カラー処理機能、等を有する。
ピーク検出部24は、マススペクトルに含まれる複数のピークを自動的に検出するものである。これにより、個々のピークごとにm/zが特定される。ピーク検出の結果は、必要に応じて、表示部16の画面上に表示される。表示された複数のピークの中から、ユーザーにより、特定のピークが選択されてもよい。
一次推定部28は、推定手段として機能するものであり、精密質量から組成式を推定するものである。マススペクトル上において特定のピークが自動的に又はマニュアルで選択されると、それが有するm/zから精密質量が特定され、その精密質量が一次推定部28へ送られる。一次推定部28は、事前に設定された推定条件に従って、精密質量に該当し得る組成式を推定する。通常、1つの精密質量から多数の組成式が推定される。それらによって一次組成式リストが構成される。入力部14を用いて一次推定部28に対して精密質量が与えられてもよい。符号30で示されるように、外部装置からm/z又は精密質量が与えられてもよい。
通常、組成推定に先立って、個々の元素ごとに推定範囲(探索範囲)が指定される。例えば、水素原子数の範囲、炭素原子数の範囲、等が指定される。また、精密質量を中心とした誤差範囲等が指定される。それらによって推定条件が構成される。実施形態によれば、一次推定に続いて二次推定(フィルタリング)が実行されるので、一次推定に際して元素の種類や原子数の範囲に対して限定的な条件を設定しなくてもよいという利点を得られる。
二次推定部34は、評価手段又はフィルタ手段として機能するものであり、それは特徴量演算部36及びフィルタ群38により構成される。特徴量演算部36は、組成式ごとにその組成式に基づいて複数の特徴量を演算する。個々の特徴量は組成式の特徴を示す固有値と言い得るものである。特徴量については後に詳述する。
フィルタ群38は、複数のカテゴリに対応した複数のフィルタ38Aにより構成される。個々のフィルタ38Aは、以下に説明するように、一次推定結果を絞り込む作用を発揮するものである。いずれかのカテゴリを選択すると、それに対応したフィルタ38Aが選択され、それが利用される。符号46はフィルタ選択信号を示している。ユーザーごとにフィルタ38Aが用意されてもよいし、アプリケーションごとにフィルタ38Aが用意されてもよいし、化合物属性ごとにフィルタ38Aが用意されてもよい。カテゴリのマニュアル指定によってフィルタ38Aが選択されてもよいし、測定条件や設定内容等に基づいて自動的にフィルタ38Aが選択されてもよい。
個々のフィルタ38Aは、一次組成式リスト中の個々の組成式を二次的に評価し、これによって二次組成式リストに含める組成式を選別し、あるいは、二次組成式リストの上位に格付けする組成式を選別するものである。その際には、特徴量演算部36によって演算された複数の特徴量が個別的に評価される。重み付け評価方式、スコア評価方式、等の多様な評価方式を採用し得る。カテゴリごとにフィルタ38Aが用意されているので、組成式の評価精度を高められる。フィルタリングの結果として二次組成式リストが生成される。その場合、一次組成式リストの並び換え、一次組成式リストからの組成式の除外、等により、二次組成式リストが生成されてもよい。
表示部16には、一次組成式リスト及び二次組成式リストが表示される。一次組成式リストと二次組成式リストの対比により、フィルタリングが適正に行われたことを事後的に確認できる。また、フィルタリングで除外されてしまった組成式や順位を落とされてしまった組成式を再考慮することが可能となる。後述するように、二次組成式リストの表示に際しては、個々の特徴量ごとに、その妥当性を示す情報として個別評価結果が表示される。それを参照することにより、具体的な評価結果を事後的に確認できる。画面上に表示する内容をユーザーにより選択できるように構成してもよい。例えば、一次組成式リストの表示の要否がユーザー(分析者)により選択されてもよい。
演算部12は、フィルタ作成部50を有している。フィルタ作成部50は、学習手段、フィルタ作成手段等として機能する。記憶部52には、学習用組成式集合が格納される。実施形態においては、カテゴリごとに学習用組成式集合が用意される。符号54で示されるように、外部装置から複数の学習用組成式が与えられてもよい。二次組成式リストの中から、ユーザーによって選択された組成式が学習用組成式として記憶部52へ格納されてもよい(符号44を参照)。組成推定と同時進行で学習を行わせれば、個々のフィルタ38Aの内容をより最適化できる。
特徴量演算部56は、上記の特徴量演算部36と同様の機能を有する。両者が一体化されてもよい。特徴量演算部56は、記憶部52から読み出された学習用組成式ごとに、その学習用組成式に基づいて、複数の特徴量からなる特徴量セットを演算するものである。記憶部58には、特徴量テーブルが格納される。特徴量テーブルは、複数の学習用組成式に対応した複数のレコードからなる。個々のレコードは特徴量セットを含んでいる。実施形態においては、記憶部58上に複数のカテゴリに対応した複数の特徴量テーブルが構築される。ユーザーにより又は自動的にカテゴリが選択される。ユーザーによるカテゴリの選択は例えば入力部14を用いて行われる。その場合、入力部14はカテゴリ選択手段として機能する。
範囲演算部60は、評価条件演算手段として機能するものである。実施形態において、範囲演算部60は、カテゴリごとに、特徴量テーブルの内容に基づいて、複数の個別評価条件として、複数の特徴量範囲を演算する。具体的には、特徴量種別ごとに、特徴量テーブル上に記録された複数の特徴量が参照され、それらを統計的に処理することにより、特徴量範囲として、標準範囲及び推奨範囲が演算される。標準範囲は、組成式の妥当性の有無を一般的に判断するためのものであり、推奨範囲は、確度の高い組成式を選別するためのものである。カテゴリごとに演算された複数の特徴量範囲により、フィルタ38Aが構成される。複数のカテゴリに対応して生成された複数のフィルタ38Aが二次推定部34において選択的に機能する。
なお、各フィルタ38Aの内容は評価条件として機能し、フィルタ群38それ全体として評価条件群が構成される。特徴量範囲以外の評価条件が採用されてもよい。組成推定装置10がそれ単体で利用されてもよい。組成推定装置10が複数の情報処理装置上に跨がって構成されてもよい。その場合、複数の情報処理装置がネットワークを介して相互に接続されてもよい。
図2を用いてフィルタの作用を概説する。図2においては、説明のため、3つの特徴量を示す3つの軸が示されている。3つの軸によって特徴量空間が定義されている。個々の軸上において特徴量範囲が指定されると、それらによって抽出空間61が定義される。評価対象となった組成式から3つの特徴量が求められ、それらによって特徴量空間内に1つの点62が定まる。その点62は原点から出る特徴量ベクトル64によって定義されるものである。点62が抽出空間61内にあれば、評価対象となった組成式が真である可能性は高いと評価され、それに対応する組成式が抽出される。一方、評価対象となった組成式から求まる3つの特徴量によって点66が定義され、その点66が抽出空間61の外にあれば、評価対象となった組成式が真である可能性は低いと評価され、その組成式は除外される。図2には、3つの特徴量が示されているが、2つの特徴量によって組成式が評価されてもよいし、4つ以上の特徴量によって組成式が評価されてもよい。
図3には、図1に示した二次評価部において実行されるフィルタリングの内容(アルゴリズム)が模式的に示されている。符号200で示す部分が図1に示した特徴量演算部に相当し、符号202で示す部分が、選択されたフィルタに相当する。推定された組成式が候補68として示されている。図示の例では、候補68から複数の特徴量70~76が演算される。
特徴量70は基本特徴量であり、それは、組成式それ全体の質量(分子質量)の中で、基本元素である炭素Cの質量が占める割合を示すものである。炭素Cの質量は、炭素原子1個当たりの質量に対して炭素原子の個数(原子数)を乗ずることにより求められる。図3においては、それが「C質量割合」70と表現されている。有機化合物には炭素が含まれ、それは基本元素と言い得る。そのような観点から「C質量割合」が基本特徴量とされている。炭素の質量割合に代えて、炭素の原子数割合を利用することも考えられる。
組成式中の基本元素(つまり炭素)の原子数をαと表現し、組成式中の他の注目元素の原子数をβと表現した場合に、β/αという比率が定義される。特徴量72,74,76は、それぞれ、そのような比率を示す特徴量である。具体的には、特徴量72は、炭素Cの原子数に対する水素Hの原子数の比率を示すものであり、それが「H/C比率」と表現されている。同様に、特徴量74は、炭素Cの原子数に対する窒素Nの原子数の比率を示すものであり、それが「N/C比率」と表現されている。同様に、特徴量76は、炭素Cの原子数に対する酸素Oの原子数の比率を示すものであり、それが「O/C比率」と表現されている。それ以外の特徴量が利用されてもよい。例えば、C質量割合70とH/C比率72の組合せを基本形とし、必要に応じて、それに他の特徴量を加えるようにしてもよい。カテゴリに応じて、利用する特徴量の個数や組合せが適応的に変更されてもよい。
演算された複数の特徴量は、それぞれ個別的に評価される(符号78~84を参照)。個別評価78では、C質量割合70がそれに対応する標準範囲(及び推奨範囲)に属するか否かが判断される。個別評価80では、H/C比率72がそれに対応する標準範囲(及び推奨範囲)に属するか否かが判断される。個別評価82では、N/C比率74がそれに対応する標準範囲(及び推奨範囲)に属するか否かが判断される。個別評価84では、O/C比率76がそれに対応する標準範囲(及び個別範囲)に含まれるか否かが判断される。それら以外の特徴量が演算されている場合、その特徴量も個別的に評価される。
総合評価86では、複数の個別評価結果に基づいて、候補68が総合的に評価される。例えば、候補68が真である可能性の度合いが評価される。真である可能性の高い候補は、選別88の過程で、二次組成式リストに含められ、あるいは、二次組成式リストにおいて上位にランキングされる。真である可能性の低い候補は、選別88の過程で、二次組成式リストから除外され、あるいは、二次組成式リストにおいて下位にランキングされる。
図4には、特徴量テーブルが例示されている。図示された特徴量テーブル58Aは、学習対象となった複数の組成式92に対応する複数のレコード90によって構成される。各レコードは、精密質量94、及び、組成式から演算された複数の特徴量を有する。複数の特徴量には、C質量割合96、H/C比率98、O/C比率100、S/C比率102、N/C比率104、等が含まれる。
図4において、白色のセル106は0以外の比率であることを示しており、グレーのセル108は、学習対象となった分子の中に注目元素(H,O,S,N等)が存在しないことを示している。高分子等が学習対象となった場合、基本特徴量であるC質量割合96は比較的に高い数値となる。また、多くの化合物には水素が含まれるため、H/C比率98は通常、0以外の数値となる。
図5には、フィルタ作成に際して生成される出現率テーブルが例示されている。出現率テーブル110は、上記の特徴量テーブルにおいて複数のレコードを横断的に参照することにより生成される。出現率テーブル110には、注目元素112ごとの出現率114が含まれる。例えば、学習対象となった組成式の個数をMとし、その中で、ある注目元素の原子を1個でも含んでいる組成式の個数をNとした場合、当該元素についての出現率がN/Mで演算される。以下に説明するように出現率に応じて特徴量の評価方法又は評価条件が変更される。
図6~図10を用いて特徴量範囲(標準範囲及び推奨範囲)の求め方について説明する。ある特徴量種別についての特徴量範囲を求めたい場合、特徴量テーブルから当該特徴量種別に属する複数の特徴量が読み出され、それに基づいて標準偏差が演算される。標準偏差を1/n倍することにより、以下に説明する積算ヒストグラムを作成するに際しての個々の区間の幅が決定される。nはユーザーにより変更し得る。個々の区間ごとに、特徴量データから読み出された複数の特徴量が積算されて積算ヒストグラムが作成される。
図6には、積算ヒストグラムが例示されている。図示された積算ヒストグラム116は、C質量割合の積算ヒストグラムである。横軸はC質量割合の大きさを示している。縦軸は度数を示しており、具体的には、個々の区間内での度数積算値を示している。符号118は区間の幅を示している。最も大きな度数積算値を有する区間から、度数積算値の大きさ順で区間が順次選択されつつ、選択された度数積算値が順次、累積加算される。その処理は、累積加算値が第1閾値を超えるまで実行される。第1閾値は例えば度数の総和の99%に相当する値である。累積加算値が第1閾値を超えた時点までに選択された複数の区間の集合として標準範囲120が決定される。累積加算の過程で、累積加算値が第1閾値よりも小さな第2閾値を超えた時点までに選択された複数の区間の集合として推奨範囲122が決定される。第2閾値は例えば度数の総和の80%に相当する値である。
実施形態においては、特徴量範囲(標準範囲及び推奨範囲)の決定に際して各元素の出現率が考慮される。具体的には、出現率が所定値(例えば50%)以上の元素については、離散的に存在する複数の部分範囲からなる特徴量範囲の決定が許容される。一方、出現率が所定値未満の元素については、単一範囲又は連続範囲としての特徴量範囲の決定のみが許容される。
図7には、H/C比率の積算ヒストグラム124が例示されている。積算ヒストグラム124は2つの山124A,124Bを有する。水素Hの出現率は上記の所定値以上である。これにより複数の部分範囲からなる特徴量範囲の決定が許容されている。その状況下で、標準範囲として、第1部分範囲126及び第2部分範囲128が決定されており、また、推奨範囲として、第1部分範囲130及び第2部分範囲132が決定されている。特徴量範囲が3つ以上の部分範囲により構成されてもよい。
図8には、X/C比率の積算ヒストグラム134が例示されている。元素X(例えば窒素N)の出現率が上記の所定値未満であるため、単一範囲としての特徴量範囲の決定のみが許容されている。元素Xの出現率が低いため、X/C比率0を含む最低区間において度数積算値135が最高値となっている。単一範囲として標準範囲136が決定されており、同じく、単一範囲として推奨範囲138が設定されている。
図9及び図10には、図6~図8に示した処理により作成される複数のテーブルが例示されている。図9に示されているテーブル140においては、C質量割合についての標準範囲142及び推奨範囲144が管理されている。それらの範囲142,144はいずれも単一範囲である。
図10に示されているテーブル146は複数の元素150に対応した複数のレコード148を有する。複数のレコード148にわたって、H/C比率、O/C比率、N/C比率等について、それぞれの標準範囲154及び推奨範囲156が管理されている。水素H及び酸素Oの出現率152が所定値以上であったため、H/C比率及びO/C比率については複数の部分範囲の決定が許容されている(符号158A,158Bを参照)。
図11には、一次推定結果としての一次組成式リストが例示されている。一次組成式リスト160は、推定された複数の組成式に対応する複数のレコード162により構成される。個々のレコード162は複数の情報により構成され、複数の情報には、組成式番号164、組成式166、精密質量(理論値)168、精密質量(理論値)からの精密質量(実測値)のずれ170、C質量割合174、H/C比率176、N/C比率178、O/C比率180、等が含まれる。
図11には、個々の特徴量の評価結果も示されている。白いセル182は、推奨範囲に属している特徴量を示しており、比較的に薄いグレーのセル184は、推奨範囲外であって標準範囲に属している特徴量を示している。比較的に濃いグレーのセル186は、標準範囲外に属している特徴量を示している。一次組成式リスト160において、すべての特徴量が推奨範囲に属している優良レコードは、レコード188及びレコード190の2つのみである。それらに続く準優良レコードは、レコード192である。レコード192においては、H/C比率176が、標準範囲に属しているものの、それは推奨範囲からは外れている。但し、他の3つの特徴量はいずれも標準範囲に属している。
図12には、二次推定結果としての二次組成式リストが例示されている。二次組成式リスト160Aは、図11に示した一次組成式リストに対するレコード並び替えにより生成されたものである。二次組成式リスト160Aにおいては、2つの優良レコード及び1つの準優良レコードが、符号193で示すように、上位を占めている。優良レコードは、優良候補(優良組成式)に対応するレコードであり、準優良レコードは、準優良候補(準優良組成式)に対応するレコードである。すなわち、二次組成式リスト160Aにおいては、優良候補及び準優良候補が上位に位置している。それら3つのレコード以外のレコードは、真である可能性の低い組成式に対応するものであって、符号194で示すように、元の順番を維持しつつ下位に表示されている。
図12に示した並び替えは一例であり、真である可能性の低い組成式に対応するレコードが削除されてもよい。また、個々の組成式をより細かく評価し、その評価結果に基づいて、全レコードについての並び替えを行ってもよい。
図13には、変形例が示されている。この変形例は、個々の候補ごとにポイント累積値を計算し、その大きさ順で個々の候補を並び替えるものである。図13においては、第1特徴量を示す第1特徴量軸と第2特徴量を示す第2特徴量軸によって二次元の評価空間が定義されている。
第1特徴量軸上においては、第1範囲200、第2範囲202及び第3範囲204が設定されている。符号212で示すように、第1特徴量軸上の複数の区間に対して複数のポイントが与えられている。具体的には、第1範囲200の外側にある区間206a,206bにはポイント0が与えられている。第1範囲200と第2範囲202の間にある区間208a,208bにはポイント1が与えられている。第2範囲202と第3範囲204の間にある区間210a,210bにはポイント2が与えられている。第3範囲204内の区間にはポイント3が与えられている。
第2特徴量軸上においては、第1範囲214、第2範囲216及び第3範囲218が設定されている。符号226で示すように、第2特徴量軸上の複数の区間に対して複数のポイントが与えられている。具体的には、第1範囲214の外側にある区間220a,220bにはポイント0が与えられている。第1範囲214と第2範囲216の間にある区間222a,222bにはポイント1が与えられている。第2範囲216と第3範囲218の間にある区間224a,224bにはポイント2が与えられている。第3範囲218内の区間にはポイント3が与えられている。
ある組成式について第1特徴量及び第2特徴量が演算された場合、それらの特徴量が属する区間に従ってポイントが決定され、それらを合計したポイントにより、その組成式が評価される。合計ポイントの大きさ順で、一次組成式リストに対して並び替えが実行されてもよいし、合計ポイントが一定値以下となる組成式を一次組成式リストから除外することにより二次組成式リストが生成されてもよい。なお、第1特徴量は例えば主特徴量としてのC質量割合であり、第2特徴量は例えば代表的な副特徴量としてのH/C比率である。3つの以上の特徴量がポイントによって評価されてもよい。図13に示した複数のポイントは一例に過ぎず、例えば、積算ヒストグラムに基づいて上位から20%刻みで5,4,3,・・・といったポイントを付与するようにしてもよい。
図14には、様々な既知の有機化合物サンプルについてC質量割合及びH/C比率を調査した結果が示されている。横軸はC質量割合を示しており、縦軸はH/C比率を示している。それらの特徴量によって、二次元座標系において、個々の有機化合物サンプルごとに特定の座標(サンプル点)が決定される。範囲230は、複数の農薬サンプル点の広がり範囲である。範囲232は、複数のペプチドサンプル点の広がり範囲である。範囲234は、複数の添加剤サンプルの広がり範囲である。範囲236は、複数の樹脂サンプル点の広がり範囲である。範囲238は、複数の脂質サンプル点の広がり範囲である。なお、個々の有機化合物種別ごとに、少なくとも数十個のサンプルについて調査を行った。図示のように有機化合物種別に応じて広がり範囲が変化する。C質量割合及びH/C比率を利用して一次推定結果を絞り込むことの有効性が図14に見てとれる。
炭素以外を基本元素とし、その基本元素についての質量割合を特徴量としてもよい。その場合、基本元素の原子数と他の元素の原子数とから求まる原子数比率を特徴量としてもよい。特徴量の計算に際して、保持時間(RT)又は保持指標(RI)を考慮してもよい。上記以外の条件を更に組み合わせて一次推定結果の絞り込みを行ってもよい。そのような条件として同位体パターン等があげられる。最終的にユーザーにより選択された組成式を順次、学習対象とすることにより、特徴量範囲を徐々に最適化できる。