JP7443135B2

JP7443135B2 - 情報処理装置およびデータベース生成方法

Info

Publication number: JP7443135B2
Application number: JP2020066861A
Authority: JP
Inventors: 博史姫野
Original assignee: Sumika Chemical Analysis Service Ltd
Current assignee: Sumika Chemical Analysis Service Ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2024-03-05
Anticipated expiration: 2040-04-02
Also published as: JP2021162532A

Description

本発明は、対象試料のスペクトルを解析して当該対象試料の性状を特定する情報処理装置等に関する。

対象試料のスペクトルを解析して当該対象試料の性状を特定する技術が従来から知られている。例えば、下記の特許文献１には、土壌の光スペクトルから土壌の成分等を推定する土壌分析方法が開示されている。より詳細には、上記土壌分析方法では、土壌の新規スペクトルと、全圃場の全土壌スペクトルをその形状で分類した各クラスタの平均スペクトルとの類似度を比較する。そして、検出スペクトルが属するクラスタのキャリブレーション式を使って土壌成分を推定する。

特開２００６－０３８５１１号公報

上述のような従来技術における、スペクトルの形状の類似度に基づいて検出スペクトルが属するクラスタの特定を行うという手法には、クラスタの特定方法を改良し、これにより、土壌成分の推定精度を改善する余地がある。また、特許文献１の技術は、土壌成分の推定に限られず、任意の試料について、任意の方法で測定されたスペクトルを解析して、当該試料の任意の性状を特定する場合にも適用できるが、このような適用においても同様の改善の余地が生じる。

本発明の一態様は、試料のスペクトルからその試料の性状を高精度に特定することが可能な情報処理装置等を実現することを目的とする。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、性状が既知である複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データの中から、対象試料のスペクトルの特徴データと類似したものを特定する類似データ特定部と、上記類似データ特定部が特定した既知試料特徴データに対応する上記既知試料についてのスペクトルと性状との関係を示す性状導出データを用いて、上記対象試料のスペクトルから当該対象試料の性状を特定する性状特定部と、を備えている。

上記の課題を解決するために、本発明の一態様に係るスペクトル解析方法は、１または複数の情報処理装置を用いたスペクトル解析方法であって、性状が既知である複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データの中から、対象試料のスペクトルの特徴データと類似したものを特定する類似データ特定ステップと、上記類似データ特定ステップで特定された既知試料特徴データに対応する上記既知試料についてのスペクトルと性状との関係を示す性状導出データを用いて、上記対象試料のスペクトルから当該対象試料の性状を特定する性状特定ステップと、を含む。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、性状が既知である複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データを生成する特徴データ生成部と、上記既知試料のスペクトルと性状との関係を示す性状導出データを生成する性状導出データ生成部と、上記既知試料特徴データと、該既知試料特徴データに対応する上記性状導出データとを対応付けてデータベース化するデータベース生成部と、を備えている。

上記の課題を解決するために、本発明の一態様に係るデータベース生成方法は、１または複数の情報処理装置を用いたデータベース生成方法であって、性状が既知である複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データを生成する特徴データ生成ステップと、上記既知試料のスペクトルと性状との関係を示す性状導出データを生成する性状導出データ生成ステップと、上記既知試料特徴データと、該既知試料特徴データに対応する上記性状導出データと、を対応付けてデータベース化するデータベース生成ステップと、を含む。

本発明の一態様によれば、対象試料のスペクトルから、当該対象試料の性状を高精度に特定することが可能になる。

本発明の一実施形態に係る情報処理装置の要部構成の一例を示すブロック図である。上記情報処理装置が構築し、使用するデータベースの構成例を示す図である。特徴データを座標平面上にプロットした例を示す図である。クラスタ化の結果の例を示す図である。対象試料のスペクトルの特徴データと類似した特徴データを特定した例を示す図である。上記データベースを構築する処理の一例を示すフローチャートである。前処理条件と因子数を決定する処理の一例を示すフローチャートである。対象試料の性状を特定する処理の一例を示すフローチャートである。上記データベースを更新する処理の一例を示すフローチャートである。前処理条件を段階的に更新する処理の一例を示すフローチャートである。

〔装置構成〕
本発明の一実施形態に係る情報処理装置１の構成を図１に基づいて説明する。図１は、情報処理装置１の要部構成の一例を示すブロック図である。情報処理装置１は、（１）性状が未知の対象試料について測定されたスペクトルから、その対象試料の性状を特定する機能、（２）対象試料の性状の特定に用いるデータベースを構築する機能、および（３）上記データベースを更新する機能を備えている。各機能の詳細は以下で順次説明する。

なお、以下では、対象試料が土壌試料であり、スペクトルは所定の光源から照射された光が土壌試料で反射した反射光を集光して測定したものである例を説明する。また、以下では、対象試料の性状として、対象試料に含まれる対象成分の濃度を特定する例を説明する。対象成分は、当該成分の濃度がスペクトルに反映されるものであればよい。

図１に示すように、情報処理装置１は、情報処理装置１の各部を統括して制御する制御部１０、情報処理装置１が使用する各種データを記憶する記憶部２０、情報処理装置１に対する入力を受け付ける入力部３０、およびデータを出力する出力部４０を備えている。なお、記憶部２０、入力部３０、および出力部４０は、情報処理装置１に外付けされた、情報処理装置１とは別体の装置であってもよい。

また、制御部１０には、入力受付部１０１、最適化部１０２、前処理部１０３、性状導出データ生成部１０４、評価部１０５、クラスタリング部１０６、およびデータベース生成部１０７が含まれている。また、制御部１０には、特徴データ生成部１０８、類似データ特定部１０９、および性状特定部１１０が含まれている。

また、記憶部２０にはデータベース２０１が記憶されている。データベース２０１は、情報処理装置１により構築および更新されるデータベースである。そして、データベース２０１は、情報処理装置１が対象試料の性状特定に用いるデータベースである。

入力受付部１０１は、入力部３０に入力されたデータを制御部１０の各部に受け渡す。具体的には、入力受付部１０１は、データベース２０１の構築時には、入力部３０に入力されたデータベース構築用の各データを最適化部１０２に渡す。一方、入力受付部１０１は、対象試料の性状判定時には、入力部３０に入力された対象試料のスペクトルを前処理部１０３に渡す。また、データベース２０１に新たに追加するデータが入力部３０に入力された場合にも、入力受付部１０１は、そのデータを前処理部１０３に渡す。

最適化部１０２は、スペクトルから試料の性状を精度よく特定するために当該スペクトルに対して行う前処理の最適条件の探索を行う。詳細は図１０に基づいて後述するが、最適化部１０２は、最適条件の探索を、その精度を段階的に上げながら詳細まで行ってもよい。また、最適化部１０２は、後述する多変量解析における最適な説明変数の数（以下、因子数とも呼ぶ）の決定も行う。

前処理部１０３は、上述の前処理をスペクトルに対して行う。例えば、上記前処理は、スペクトルの微分、移動平均の算出、および波長範囲の絞り込み等であってもよい。スペクトルを微分する前処理の最適化は、最適な微分次数の算出であり、スペクトルの移動平均を算出する前処理の最適化は、移動平均を算出する対象とする波長範囲（測定点の範囲）の最適化であり、波長範囲の絞り込みは最適な波長範囲の特定である。

性状導出データ生成部１０４は、性状が既知である既知試料のスペクトルと性状との関係を示す性状導出データを生成する。より詳細には、性状導出データ生成部１０４は、複数の既知試料のスペクトルを多変量解析して、スペクトルと性状との関係を示す性状導出データを生成する。性状が既知の既知試料とは、具体的には対象成分の濃度が既知の土壌試料である。また、上記性状導出データは、具体的には対象成分の濃度を算出するための検量線である。既知試料の対象成分の濃度は例えば化学分析等によって特定されたものであってもよい。

多変量解析の具体的な手法は特に限定されず、例えばＰＣＡ（Principal Component Analysis：主成分分析）を行ってもよいし、ＰＬＳ（Partial Least Squares）による解析を行ってもよい。ＰＬＳでは、目的変数の情報も使って解析を行うため、目的変数と関連性の高い説明変数（因子）を特定し、この説明変数に基づく検量線を算出することができる。目的変数の情報としては、スペクトルに対応する既知試料の性状を示すデータ、すなわち既知試料に含まれる対象成分の濃度を示すデータを用いればよい。

ＰＬＳを適用する場合、性状導出データ生成部１０４は、ＰＬＳＲ（Partial Least Squares Regression：部分的最小二乗回帰）により、下記の数式で表される検量線を算出する。
Ｙ＝ａ_０＋ａ_１Ｘ_１＋ａ_２Ｘ_２＋ａ_３Ｘ_３＋…＋ａ_ｎＸ_ｎ
なお、上記数式において、Ｙは対象成分の濃度、ａ_０は切片の値、Ｘ_１～Ｘ_ｎは移動平均および微分された波長の吸光度の値、ａ_１～ａ_ｎは重み（回帰係数）であり、ｎは移動平均化後の波長の数に等しい。性状導出データ生成部１０４は、複数の既知試料のスペクトルデータと、その対象成分濃度から、上記数式のａ_１～ａ_ｎの値を算出して、検量線を生成する。

評価部１０５は、性状導出データ生成部１０４が生成した性状導出データの妥当性を評価する。具体的には、評価部１０５は、上述の検量線の妥当性を示す評価値として、当該検量線で算出した濃度と、化学分析等により測定した濃度との相関係数を算出する。

クラスタリング部１０６は、スペクトルの特徴が類似した既知試料をクラスタ化する。詳細は後述するが、クラスタ化は、特徴データ生成部１０８が生成する特徴データに基づいて行われる。

データベース生成部１０７は、既知試料について特徴データ生成部１０８が生成する特徴データと、該特徴データに対応する性状導出データである検量線とを対応付けてデータベース化する。このようにして生成されたデータベースがデータベース２０１である。

特徴データ生成部１０８は、複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した特徴データを生成する。具体的には、特徴データ生成部１０８は、各既知試料のスペクトルから、性状導出データ生成部１０４による多変量解析で特定された説明変数（因子）の値を特定して、それを各既知試料の特徴データとする。例えば、多変量解析にＰＣＡを適用した場合に、第１～第ｎ主成分の各値がそれぞれａ_１～ａ_ｎであったとすれば、特徴データは（ａ_１，…，ａ_ｎ）となる。多変量解析にＰＬＳを適用した場合にも同様にして特徴データを生成することができる。なお、ＰＬＳＲで算出した検量線の重みａ_１～ａ_ｎを特徴データとしてもよい。これらの特徴データもデータベース２０１に記録される。

類似データ特定部１０９は、データベース２０１に記録されている複数の既知試料の特徴データの中から、対象試料のスペクトルの特徴データと類似したものを特定する。例えば、類似データ特定部１０９は、特徴データを構成する因子の値を、当該特徴データの位置を示す値とみなして、対象試料のスペクトルの特徴データと、各既知試料の特徴データとの間の距離をそれぞれ算出してもよい。そして、類似データ特定部１０９は、当該距離が最も短かった既知試料の特徴データを、対象試料のスペクトルの特徴データと類似した特徴データであると特定してもよい。

性状特定部１１０は、類似データ特定部１０９が特定した特徴データに対応する検量線を用いて、対象試料のスペクトルから当該対象試料に含まれる対象成分の濃度を算出する。

以上のように、情報処理装置１は、複数の既知試料の特徴データの中から対象試料のスペクトルの特徴データと類似したものを特定する類似データ特定部１０９と、類似データ特定部１０９が特定した特徴データに対応する性状導出データを用いて、対象試料のスペクトルから当該対象試料の性状を特定する性状特定部１１０と、を備えている。

上記の構成によれば、スペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データの中から、対象試料のスペクトルの特徴データと類似したものを特定する。これにより、スペクトルの特徴が類似した既知試料特徴データを精度よく特定することができる。

そして、上記の構成によれば、類似データ特定部が特定した既知試料特徴データに対応する既知試料の性状導出データを用いて、対象試料の性状を特定する。これにより、対象試料用の性状導出データを作成することなく、対象試料の性状を速やかに特定することができる。

また、以上のように、情報処理装置１は、各既知試料のスペクトルの特徴データを生成する特徴データ生成部１０８と、既知試料のスペクトルと性状との関係を示す性状導出データを生成する性状導出データ生成部１０４と、既知試料の特徴データと、該特徴データに対応する性状導出データとを対応付けてデータベース化するデータベース生成部１０７と、を備えている。

上記の構成によれば、既知試料の特徴データと、該特徴データに対応する性状導出データとが対応付けられたデータベース２０１を構築することができる。上述のように、このデータベース２０１を用いることにより、対象試料のスペクトルの特徴データから、その特徴データと類似した特徴データを特定することができる。そして、特定した特徴データに対応する性状導出データを用いて、対象試料のスペクトルから当該対象試料の性状を特定することができる。

〔データベースの構成例〕
データベース２０１の構成例を図２に基づいて説明する。図２は、データベース２０１の構成例を示す図である。図示のデータベース２０１は、試料ＩＤ、測定成分、特徴データ、検量線、相関係数、因子数、更新日時、および前処理条件が対応付けられたデータ構造である。

試料ＩＤは、各既知試料を識別する識別情報であり、１つの既知試料に対して固有のＩＤが１つ付与される。また、測定成分は、濃度を測定する対象となる対象成分を示す。図２の例ではＦｅ_２Ｏ_３である。

特徴データは、既知試料のスペクトルの特徴を示すデータであり、特徴データ生成部１０８が生成する。具体的には、特徴データは、多変量解析で特定された説明変数（因子）の値で構成される。また、検量線は、スペクトルから対象成分の濃度を算出するための数式であり、性状導出データ生成部１０４が算出する。クラスタリング部１０６が決定したクラスタが同じである既知試料については、同一の検量線が対応付けられる。

相関係数は、性状導出データ生成部１０４が生成した検量線を用いて算出した濃度と、化学分析等により測定した濃度との相関の程度を表した数値であり、評価部１０５が算出する。また、因子数は、性状導出データ生成部１０４が行った多変量解析における説明変数の数である。因子数は最適化部１０２が決定する。

更新日時は、各既知試料に関するデータが更新された日時を示す。具体的には、検量線、相関係数、因子数、および前処理条件は更新の対象となっているので、これらのデータの少なくとも何れかが更新されると、その日時が更新日時としてデータベース２０１に記録される。また、前処理条件は、スペクトルに対して行う前処理の条件を示す。前処理条件は最適化部１０２が決定する。

〔特徴データの分布〕
特徴データ生成部１０８が生成する特徴データを座標平面上にプロットすることにより、特徴データ間の関連性を視覚的に分かりやすく表現することができる。図３は、特徴データ生成部１０８が生成した特徴データを座標平面上にプロットした例を示す図である。なお、図３では、特徴データを構成する複数の因子のうち因子１と因子２の値に基づいてプロットしている。特徴データを構成する因子の数は３以上であってもよい。

図３に示す特徴データは、５つの圃場から採取した土壌試料のスペクトル測定結果に基づいて生成されたものである。図３では、同じ圃場から採取した土壌試料の特徴データのプロットが分布するエリアをＡ１～Ａ５で示している。

この結果から、同じ圃場から採取した土壌試料の特徴データのプロットは、ある程度近い範囲にまとまっていることが分かる。ただし、同じ圃場から採取した土壌試料であっても、特徴データのプロット位置に大きな幅があるものも見られ、同じ圃場から採取した土壌試料であっても、必ずしも同様の特徴を有しているとはいえないことが分かる。

〔土壌試料のクラスタリング〕
クラスタリング部１０６は、特徴データの類似性に基づいて土壌試料をクラスタ化する。すなわち、クラスタリング部１０６は、上記のプロット位置が近いものが同じクラスタに分類されるようにクラスタ化する。

図４は、クラスタ化の結果の例を示す図である。同図では、圃場については考慮せず、特徴データのプロット位置が近い所定数のプロットを特定し、それらのプロットに対応する土壌試料を１つのクラスタとしており、このクラスタ化の結果を円Ｃで示している。クラスタの作成においては、クラスタの中心とするプロットからの距離と、１つのクラスタに含めるプロットの個数を任意に設定してもよい。この場合、クラスタリング部１０６は、当該設定に従ってクラスタ化を行う。

図示のように、１つの圃場から得られた土壌試料であっても、特徴データのプロット位置が離れていれば異なるクラスタに分類されている。また、異なる圃場から得られた土壌試料であっても、特徴データのプロット位置が近接していれば同じクラスタに分類されている。

〔類似データの特定〕
図３および図４のように特徴データをプロットした場合、類似した特徴データは近い位置にプロットされる。したがって、類似データ特定部１０９は、対象試料のスペクトルの特徴データと類似した特徴データを特定する際には、対象試料のスペクトルの特徴データとプロット位置が近い特徴データを類似データであると特定すればよい。

図５は、対象試料のスペクトルの特徴データと類似した特徴データを特定した例を示す図である。図５に示す座標平面には、上述の５つの圃場から採取した土壌試料のスペクトル測定結果に基づいて生成された特徴データをプロットすると共に、対象試料のスペクトルの特徴データについてもプロットしている（点Ｐ）。

図示のように、点Ｐから最も近い位置にある点はＱである。よって、この例では、類似データ特定部１０９は、対象試料のスペクトルの特徴データと最も類似した特徴データは、点Ｑの特徴データであると特定すればよい。具体的には、類似データ特定部１０９は、対象試料のスペクトルの特徴データのプロット位置と、各既知試料のスペクトルの特徴データのプロット位置との距離を算出し、その距離が最も短いものを類似データと特定する。

〔処理の流れ（データベース構築）〕
情報処理装置１がデータベース２０１を構築する処理（データベース生成方法）の流れを図６に基づいて説明する。図６は、データベース２０１を構築する処理の一例を示すフローチャートである。なお、以下では、土壌試料のスペクトルから、その土壌試料に含まれる対象成分の濃度を算出するためのデータベース２０１を構築する例を説明する。

Ｓ１１では、入力受付部１０１が、複数の既知試料について、そのスペクトルと化学分析結果の入力を受け付ける。なお、化学分析結果は、既知試料に含まれる対象成分の濃度を示すデータである。また、既知試料は、できるだけ多様なものとすることが好ましい。例えば、既知試料として、図３～図５の例のように複数の圃場の複数個所で採取された土壌試料を用意してもよい。この場合、Ｓ１１では、それらの既知試料について測定されたスペクトルと化学分析結果の入力を受け付ける。

Ｓ１２では、最適化部１０２等により、Ｓ１１で入力を受け付けた各スペクトルと対応する化学分析結果（濃度）に対する前処理条件と、ＰＬＳＲ解析の因子数とが決定される。Ｓ１２の処理の詳細は図７に基づいて後述する。

Ｓ１３では、前処理部１０３が、Ｓ１２で決定された前処理条件を適用して、Ｓ１１で入力を受け付けた各スペクトルの前処理を行う。そして、Ｓ１４では、性状導出データ生成部１０４が、Ｓ１３で前処理された各スペクトルについて、Ｓ１１で入力を受け付けた化学分析結果を目的変数としてＰＬＳＲ解析を行い、対象成分の濃度を算出するための検量線を算出する。

Ｓ１５（特徴データ生成ステップ）では、特徴データ生成部１０８が、Ｓ１４のＰＬＳＲ解析結果に基づいて、各既知試料の特徴データを生成する。具体的には、特徴データ生成部１０８は、Ｓ１３で前処理された各スペクトルについて、ＰＬＳＲ解析によって特定された説明変数の値を算出し、それらを各既知試料の特徴データとする。

Ｓ１６では、クラスタリング部１０６が、Ｓ１５で生成された特徴データに基づいて既知試料をクラスタ化する。例えば、クラスタリング部１０６は、クラスタの中心とする特徴データを選択して、その特徴データからの距離が近いものから順に当該クラスタに分類してもよい。この処理は、上記クラスタに分類した特徴データが所定数に達するまで行う。そして、クラスタの中心とする特徴データを変更しながら、上述の処理を繰り返すことにより、各既知試料のクラスタを決定してもよい。

Ｓ１７では、最適化部１０２等により、Ｓ１６で設定されたクラスタのそれぞれについて、スペクトルに対する前処理条件とＰＬＳＲ解析の因子数とが決定される。Ｓ１７の処理は、前処理条件と因子数の決定がクラスタ単位で行われることを除けばＳ１２の処理と同様である。

Ｓ１８では、前処理部１０３が、Ｓ１７で決定された前処理条件を適用して、各クラスタのスペクトルの前処理を行う。つまり、Ｓ１８では、クラスタごとに決定された前処理条件で当該クラスタに対応する各スペクトルの前処理が行われる。

Ｓ１９（性状導出データ生成ステップ）では、性状導出データ生成部１０４が、Ｓ１６で設定された各クラスタについて、Ｓ１８で前処理されたスペクトルから検量線を得る処理を行う。具体的には、性状導出データ生成部１０４は、クラスタごとに前処理したスペクトルを対象として、Ｓ１１で入力を受け付けた化学分析結果を目的変数としたＰＬＳＲ解析を行って、クラスタごとの検量線を算出する。

Ｓ２０（データベース生成ステップ）では、データベース生成部１０７が、各既知試料のデータをデータベース２０１に記録し、図６の処理は終了する。なお、既知試料のデータとは、既知試料のＩＤ、測定成分、特徴データ、検量線、クラスタ等、データベース２０１に記録する各種データである（図２参照）。以上の処理により、対象試料のスペクトルから当該対象試料に含まれる対象成分の濃度を算出するためのデータベース２０１が構築される。

以上のように、クラスタリング部１０６は、既知試料の特徴データに基づいて、スペクトルの特徴が類似した既知試料をクラスタ化する（Ｓ１６）。そして、性状導出データ生成部１０４は、既知試料のクラスタごとにスペクトルの多変量解析を行うことにより性状導出データである検量線を算出する（Ｓ１９）。

上記の構成によれば、スペクトルの特徴が類似した既知試料のクラスタごとにスペクトルの多変量解析を行って検量線を算出するので、確度の高い検量線を算出することが可能になる。

〔処理の流れ（前処理条件と因子数の決定）〕
図６のＳ１２処理の詳細を図７に基づいて説明する。図７は、前処理条件と因子数を決定する処理の一例を示すフローチャートである。また、図７には、前処理条件の評価基準の例も併せて示している。

Ｓ１２１では、最適化部１０２が、前処理条件を初期値に設定し、Ｓ１２２では、前処理部１０３が、Ｓ１２１で設定された前処理条件で各スペクトルの前処理を行う。そして、Ｓ１２３では、性状導出データ生成部１０４が、Ｓ１２２で前処理されたスペクトルから検量線を得る。具体的には、性状導出データ生成部１０４は、図６のＳ１１で入力を受け付けた化学分析結果を目的変数としたＰＬＳＲ解析を行って検量線を算出する。

Ｓ１２４では、評価部１０５が、Ｓ１２３で算出された検量線について相関係数を算出する。具体的には、評価部１０５は、Ｓ１２１で設定された前処理条件で前処理したスペクトルとＳ１２３で算出された検量線とを用いて算出した対象成分の濃度と、図６のＳ１１で入力を受け付けた当該成分の濃度とに基づいて相関係数を算出する。

また、Ｓ１２４では、最適化部１０２が、ＰＬＳＲ解析における因子数を算出する。最適化部１０２は、例えばクロスバリデーションによる予測値を用いて算出した分散の値を指標として因子数を算出してもよい。この場合、最適化部１０２は、分散値が最大となる因子数を算出してもよい。ただし、検量線の汎用性を考慮すれば、因子数は少ないほど好ましいため、分散値が大きく下がらない範囲で（例えば最大値から１％以内の範囲で）最小の因子数を算出してもよい。

また、上記のとおり、因子数は少ないほど好ましいため、因子数に上限（例えば１０個）を設定してもよい。この場合、最適化部１０２は、算出した因子数が上限を超えていた場合には、上限の個数を因子数とする。なお、因子数の算出方法は、ここに挙げた例に限られない。

Ｓ１２５では、最適化部１０２が、Ｓ１２４で算出された相関関数と因子数を一時的に記録する。そして、Ｓ１２６では、最適化部１０２は、最適化のための試行、すなわちＳ１２２～Ｓ１２７の処理の繰り返しを終了するか否かを判定する。具体的には、最適化部１０２は、試行すべき全ての前処理条件を用いた相関係数と因子数の算出および記録が終了していれば、試行を終了すると判定する。

Ｓ１２６で試行を終了する（Ｓ１２６でＹＥＳ）と判定された場合にはＳ１２８の処理に進む。一方、試行を継続する（Ｓ１２６でＮＯ）と判定された場合にはＳ１２７の処理に進む。そして、Ｓ１２７では、最適化部１０２が前処理条件を変更して、処理はＳ１２２に戻る。

Ｓ１２８では、最適化部１０２は、Ｓ１２５で一時的に記録した相関係数と因子数の組み合わせの中で、因子数が小さく、相関係数が高い前処理条件を選択する。因子数が小さいものを選択する理由は、因子数が多いほど相関係数は高くなる傾向があるが、因子数が多いほど汎用性が下がるためである。

例えば、最適化部１０２は、所定の評価基準に従って因子数と前処理条件の組み合わせを評価し、評価結果が最良であった因子数と前処理条件の組み合わせを、最適な因子数と前処理条件として選択してもよい。上記評価基準は、因子数が少ないほど、また、相関係数が高いほど高評価となるような基準とすればよい。

〔処理の流れ（対象試料の性状特定）〕
情報処理装置１が対象試料の性状を特定する処理（スペクトル解析方法）の流れを図８に基づいて説明する。図８は、対象試料の性状を特定する処理の一例を示すフローチャートである。なお、以下では、対象試料が土壌試料であり、上記性状として対象試料に含まれる対象成分の濃度を特定する例を説明する。

Ｓ３１では、入力受付部１０１が対象試料のスペクトルの入力を受け付ける。対象試料は対象成分の濃度が未知である土壌試料である。そして、Ｓ３２では、前処理部１０３が、図６のＳ１２で決定された前処理条件を適用して、Ｓ３１で入力を受け付けたスペクトルを前処理する。

Ｓ３３では、特徴データ生成部１０８が、対象試料の特徴データを生成する。具体的には、特徴データ生成部１０８は、Ｓ３２で前処理されたスペクトルについて、図６のＳ１４の検量線算出の際に行われたＰＬＳＲ解析によって特定された説明変数の値を算出し、その値を対象試料の特徴データとする。

Ｓ３４（類似データ特定ステップ）では、類似データ特定部１０９が、図６のＳ１５で生成された既知試料の特徴データの中から、対象試料のスペクトルの特徴データと類似したものを特定する。

Ｓ３５では、性状特定部１１０が、Ｓ３４で特定された特徴データに対応する検量線を特定する。より詳細には、性状特定部１１０は、データベース２０１において、Ｓ３４で特定された特徴データに対応付けられている検量線を特定する。この検量線は、図６のＳ１９でクラスタごとに算出されたものである。つまり、Ｓ３５では、対象試料と類似した特徴データの既知試料が属するクラスタについて算出された検量線が取得される。

Ｓ３６（性状特定ステップ）では、性状特定部１１０は、Ｓ３５で特定された検量線を用いて、Ｓ３１で入力を受け付けた対象試料のスペクトルから当該対象試料における対象成分の濃度を算出する。これにより、図８の処理は終了する。なお、性状特定部１１０は、算出した濃度を出力部４０に出力させてもよい。

〔処理の流れ（データベース更新）〕
情報処理装置１がデータベース２０１を更新する処理の流れを図９に基づいて説明する。図９は、データベース２０１を更新する処理の一例を示すフローチャートである。

Ｓ５１では、入力受付部１０１が新たな既知試料のスペクトルと対象成分の濃度を示すデータの入力を受け付ける。新たな既知試料も、データベース２０１を構築する際に用いた既知試料と同様に土壌試料である。なお、Ｓ５１では、データベース２０１を構築するにあたり必要な他のデータの入力についても受け付けてもよい。例えば、図２のようなデータベース２０１を構築する場合には、測定成分を示すデータ等の入力についても受け付けてもよい。

Ｓ５２では、前処理部１０３が、図６のＳ１２で決定された前処理条件を適用して、Ｓ５１で入力を受け付けたスペクトルを前処理する。そして、Ｓ５３では、特徴データ生成部１０８が、新たな既知試料の特徴データを生成する。具体的には、特徴データ生成部１０８は、Ｓ５２で前処理されたスペクトルについて、図６のＳ１４で行われたＰＬＳＲ解析によって特定された説明変数の値を算出し、その値を新たな既知試料の特徴データとする。

Ｓ５４では、クラスタリング部１０６が、新たな既知試料の追加に伴うクラスタの更新を行う。具体的には、クラスタリング部１０６は、Ｓ５３で生成された特徴データと、図６のＳ１５で生成済みの各特徴データとを含む全特徴データを対象として、再度クラスタ化を行う。なお、Ｓ５４におけるクラスタの更新態様はこの例に限られない。例えば、新たな既知試料の特徴データと最も類似した特徴データが属するクラスタを、新たな既知試料の特徴データのクラスタに設定し、他の特徴データのクラスタは変更しないようにしてもよい。

Ｓ５５では、Ｓ５４で更新されたクラスタのそれぞれについて、最適化部１０２等により、スペクトルに対する前処理条件と、ＰＬＳＲ解析の因子数とが決定される。Ｓ５５の処理の詳細は図１０に基づいて後述する。

Ｓ５６では、前処理部１０３が、Ｓ５５で決定された前処理条件を適用して、更新後の各クラスタのスペクトルの前処理を行う。このように、Ｓ５６では図６のＳ１８と同様にクラスタごとに決定された前処理条件で当該クラスタに対応する各スペクトルの前処理が行われる。

Ｓ５７では、性状導出データ生成部１０４が、Ｓ５４の更新後のクラスタごとに、Ｓ５６で前処理されたスペクトルのＰＬＳＲ解析を行って、更新後の各クラスタの検量線を算出する。ＰＬＳＲ解析における目的変数は、Ｓ５１で入力を受け付けた化学分析結果と、図６のＳ１１で入力を受け付けた化学分析結果である。

Ｓ５８では、データベース生成部１０７が、新たな既知試料のデータをデータベース２０１に追加すると共に、クラスタの更新を反映させ、これにより図９の処理は終了する。新たな既知試料のデータとは、新たな既知試料のＩＤ、特徴データ、および検量線等のデータベース２０１に記録する各種データである（図２参照）。また、クラスタに更新があった既知試料については、検量線、相関係数、因子数、前処理条件、および更新日時を更新する。また、図２の例のように、データベース２０１に更新日時を記録する構成となっている場合、データベース生成部１０７は更新日時についても記録する。

以上のように、新たな既知試料のスペクトルと化学分析結果の入力を受け付けた場合、特徴データ生成部１０８は、入力されたスペクトルおよび化学分析結果に基づいて既知試料の特徴データを生成する。また、クラスタリング部１０６は、新たな既知試料の特徴データに基づいてクラスタの更新を行う。そして、性状導出データ生成部１０４は、更新後のクラスタの検量線を算出し、データベース生成部１０７は、新たな既知試料の特徴データをデータベース２０１に追加すると共に、更新されたクラスタに属する各既知試料に対応付ける検量線を更新する。

上記の構成によれば、新たな既知試料のスペクトルと、当該新たな既知試料の性状を示す化学分析結果との入力を受け付けた場合に、新たな既知試料の特徴データがデータベース２０１に追加される。また、上記の構成によれば、クラスタとクラスタに対応する性状導出データが更新され、これに伴って、更新後のクラスタに属する各既知試料に対応付ける検量線も更新される。これにより、性状が未知の対象試料に対して、より類似性の高い既知試料を特定できる可能性を高めて、性状の特定結果の確度を高めることができる。

〔処理の流れ（前処理条件の段階的な更新）〕
図９のＳ５５の処理の詳細を図１０に基づいて説明する。図１０は、前処理条件を段階的に更新する処理の一例を示すフローチャートである。なお、図１０のＳ５５１～Ｓ５５８は、図７のＳ１２１～Ｓ１２８と概ね同様である。以下では、図７との相違点を中心に説明する。

図１０の処理では、初回に最適な前処理条件を決定する際には粗い探索を行い、その後、探索精度を段階的に高めて前処理条件をより最適なものに更新する。このため、Ｓ５５７の前処理条件の変更において、最初にＳ５５８で前処理条件と因子数が選択されるまでの期間は、最適化部１０２は、予め設定された複数段階の探索精度のうち、最も粗いものを適用して前処理条件を変更する。

Ｓ５５８において、最も粗い探索精度での探索の結果に基づき、最適な因子数と前処理条件が選択されると、図９のＳ５６で当該前処理条件での前処理が行われ、Ｓ５７でＰＬＳＲ解析と検量線の算出が行われる。そして、Ｓ５８でこれらの算出結果がデータベース２０１に反映される。

図９のＳ５６以降の処理と並行して、あるいはそれらの処理の後に、最適化部１０２がＳ５５９の処理を行う。Ｓ５５９では、最適化部１０２は、直近の最適化における探索精度が最大であるか否かを判定する。ここで最大ではないと判定された場合（Ｓ５５９でＮＯ）にはＳ５６０の処理に進む。Ｓ５６０では、最適化部１０２は、直近の最適化における探索精度を一段階上げて前処理条件を変更する。この後、処理はＳ５５２に戻る。一方、Ｓ５５９で探索精度が最大であると判定された場合（Ｓ５５９でＹＥＳ）には、図１０の処理は終了する。

以上のように、最適化部１０２は、前処理の最適条件の探索を、探索精度を段階的に上げながら詳細まで行う。そして、性状導出データ生成部１０４は、最適化部１０２が検出した最適条件での前処理後のスペクトルを用いて、更新後のクラスタの検量線を算出する。そして、性状導出データ生成部１０４は、最適化部１０２がより精度の高い探索で最適条件を検出したときには、当該最適条件での前処理後のスペクトルを用いて、更新後のクラスタの検量線を算出し、データベース２０１における検量線を更新させる。

上記の構成によれば、最初は相対的に粗い探索精度で最適条件を探索するので、この最適条件を適用して速やかに検量線を算出し、データベース２０１を使用可能な状態とすることができる。そして、データベース２０１が使用可能な状態となった後、より高い探索精度で探索された最適条件に基づいてデータベース２０１における検量線を更新するので、検量線の精度を段階的に高めることができる。

例えば、１０～４０の範囲で最適な移動平均を求める場合、Ｓ５５７で移動平均を１０ずつ変化させれば４回の変更（Ｓ５５２～Ｓ５５７の処理の４回の繰り返し）で１０～４０の範囲における最適な移動平均を求めることができる。そして、Ｓ５５８で因子数と前処理条件の選択が行われた後のＳ５６０で探索精度が上げられる。例えば、移動平均の変更幅を上記より小さい５にすれば、７回の変更で１０～４０の範囲における最適な移動平均を求めることができる。この場合、Ｓ５５２～Ｓ５５７の繰り返し回数は多くなるが、移動平均を１０ずつ変化させた場合と比べてより妥当な移動平均を求めることができる可能性が高くなる。

〔変形例〕
対象試料は土壌試料に限られない。対象試料は、その性状を示すスペクトルを測定可能な試料であればよく、固体、液体、および気体の何れであってもよい。また、情報処理装置１が特定する性状は対象成分の濃度に限られず、スペクトルの測定に用いる光および測定方法も特に限定されない。特定したい性状に応じた方法で測定したスペクトルを用いればよい。

例えば、対象試料をＩＣＰ（inductively coupled plasma）分析により得られるスペクトルを用いて当該対象試料の性状を特定する構成とすることもできる。この他にも、例えば、ガスクロマトグラフィー、ＧＣ／ＭＳ（ガスクロマトグラフ質量分析）、あるいは液体クロマトグラフィー等によって得られるチャートを用いて当該対象試料の性状を特定する構成とすることもできる。

また、特定する性状としては任意のものを適用可能である。例えば、土壌試料であれば、上記実施形態の例のように土壌に含まれる各種成分の定量を行うこともできるし、土壌のｐＨ等を特定することも可能である。また、スペクトルと土壌成分との関係をモデル化しておくことにより、土壌成分の定性分析を行うことや、土壌の分類を行うことも可能でなる。

情報処理装置１は、データベース２０１の構築、更新、並びにデータベース２０１を用いた特性予測を行う構成であるが、これらを個別の情報処理装置で行う構成としてもよい。例えば、データベースの構築を行うが特性予測は行わない情報処理装置や、特性予測を行うがデータベースの構築は行わない情報処理装置等も本発明の範疇に含まれる。また、上記実施形態で説明した各処理は、複数の情報処理装置で実行してもよい。つまり、上記実施形態で説明した各処理は、１または複数の情報処理装置に実行させることができる。

〔ソフトウェアによる実現例〕
情報処理装置１の制御ブロック（特に制御部１０に含まれる各部）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

後者の場合、情報処理装置１は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば１つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばＣＰＵ（Central Processing Unit）を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ＲＯＭ（Read Only Memory）等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するＲＡＭ（Random Access Memory）などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

１情報処理装置
１０２最適化部
１０３前処理部
１０４性状導出データ生成部
１０６クラスタリング部
１０７データベース生成部
１０８特徴データ生成部
１０９類似データ特定部
１１０性状特定部
２０１データベース

Claims

対象成分の濃度が既知である複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データを生成する特徴データ生成部と、
上記既知試料のスペクトルと上記対象成分の濃度との関係を示す検量線を算出する性状導出データ生成部と、
上記既知試料特徴データと、該既知試料特徴データに対応する上記検量線とを対応付けてデータベース化するデータベース生成部と、
既知試料のスペクトルに対して行う前処理の最適条件の探索を、探索精度を段階的に上げながら詳細まで行う最適化部と、を備え、
上記性状導出データ生成部は、
上記最適化部が検出した最適条件での前処理後のスペクトルを用いて、スペクトルの特徴が類似した上記既知試料のクラスタごとの検量線を算出し、
上記最適化部がより精度の高い探索で最適条件を検出したときには、当該最適条件での前処理後のスペクトルを用いて上記クラスタの上記検量線を算出し、上記データベースにおける該検量線を更新させる、情報処理装置。
上記既知試料特徴データに基づいて、スペクトルの特徴が類似した上記既知試料をクラスタ化するクラスタリング部を備え、
上記性状導出データ生成部は、上記既知試料のクラスタごとにスペクトルの多変量解析を行うことにより上記検量線を生成する、請求項１に記載の情報処理装置。
新たな既知試料のスペクトルと当該新たな既知試料における上記対象成分の濃度を示すデータとの入力を受け付けた場合、
上記特徴データ生成部は、入力された上記スペクトルおよび濃度を示す上記データに基づいて既知試料特徴データを生成し、
上記クラスタリング部は、新たな上記既知試料の上記既知試料特徴データに基づいて上記クラスタの更新を行い、
上記性状導出データ生成部は、更新後の上記クラスタの上記検量線を生成し、
上記データベース生成部は、新たな上記既知試料の上記既知試料特徴データを上記データベースに追加すると共に、更新された上記クラスタに属する各既知試料に対応付ける検量線を更新する、請求項２に記載の情報処理装置。
上記性状導出データ生成部は、
上記最適化部が検出した最適条件での前処理後のスペクトルを用いて更新後の上記クラスタの上記検量線を生成し、
上記最適化部がより精度の高い探索で最適条件を検出したときには、当該最適条件での前処理後のスペクトルを用いて更新後の上記クラスタの上記検量線を生成し、上記データベースにおける該検量線を更新させる、請求項３に記載の情報処理装置。
１または複数の情報処理装置を用いたデータベース生成方法であって、
対象成分の濃度が既知である複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データを生成する特徴データ生成ステップと、
上記既知試料のスペクトルと上記対象成分の濃度との関係を示す検量線を生成する性状導出データ生成ステップと、
上記既知試料特徴データと、該既知試料特徴データに対応する上記検量線とを対応付けてデータベース化するデータベース生成ステップと、
既知試料のスペクトルに対して行う前処理の最適条件の探索を、探索精度を段階的に上げながら詳細まで行う最適化ステップと、を含み、
上記最適化ステップでは、
検出した最適条件での前処理後のスペクトルを用いて、スペクトルの特徴が類似した上記既知試料のクラスタごとの検量線を生成し、
より精度の高い探索で最適条件を検出したときには、当該最適条件での前処理後のスペクトルを用いて上記クラスタの上記検量線を生成し、上記データベースにおける該検量線を更新させる、データベース生成方法。