JP4177933B2

JP4177933B2 - スペクトルデータ処理方法

Info

Publication number: JP4177933B2
Application number: JP15074699A
Authority: JP
Inventors: 純小勝負; 哲郎岩田
Original assignee: Jasco Corp
Current assignee: Jasco Corp
Priority date: 1999-05-28
Filing date: 1999-05-28
Publication date: 2008-11-05
Anticipated expiration: 2019-05-28
Also published as: JP2000338038A

Description

【０００１】
【発明の属する技術分野】
本発明はスペクトルデータの処理方法、特にスペクトルの多変量解析による特定成分含量の予測機構の改良に関する。
【０００２】
【従来の技術】
生体成分、或いは石油などの、特に天然に由来する標本は通常の場合、極めて多くの成分を含んでおり、その中から特定成分の定量を行うため分光分析などにより得られるスペクトルデータは、該特定成分のスペクトルのみならず、他の多くの成分のスペクトルが重畳されたものとなる。従って、これら多くの不純物の存在割合などが不明の場合には、単にその標本のスペクトルを得ただけでは特定成分の定量を行うことはできない。
【０００３】
そこで、近年、このような多くの成分を含む標本より特定成分の定量分析を行うため、多変量解析技術が注目されている。
すなわち、この多変量解析技術においては、既知量の特定成分が含まれた較正用標本のスペクトルデータを多く採取し、その特定成分含量とスペクトルデータの関係を統計的に処理することで、両者間の定量モデルを見いだし、未知標本の特定成分含量予測に適用するものである。
【０００４】
一方、較正用標本のスペクトルデータの中には明らかに特定成分の含有量とは関連のない波長（波数）領域も存在し、これらは定量モデルを算出する際の過剰な負荷となるばかりでなく、場合によっては予測精度を低下させるノイズともなる。
従来において、これらのノイズをとるデータ処理技術としてマザート（Massart et al）らにより開発されたＵＶＥ−ＰＬＳ法（Uninformative Variable Elimination - Partial Least Squares method；非情報性変数除去−偏最小自乗法）などが適用されていた。
【０００５】
このＵＶＥ−ＰＬＳ法は、通常のＰＬＳ法の予測能力を向上させるアルゴリズムであり、定量モデル形成に寄与しない波長（或いは独立の）変数を除去することができる。この方法で重要なのは、実験変数と故意に加えられた人為的ノイズ変数とを、定量モデル形成への寄与という観点から比較することである。ノイズ変数の数は実験変数と同一である。
【０００６】
【発明が解決しようとする課題】
しかしながら、前記較正用標本は、その特定成分含量については別途の方法により定量されてはいるものの、その測定自体が必ずしも正確とは限らず、多くの較正用標本のスペクトルデータの中には大きなエラーを含むものも存在し、これは特定成分含量とスペクトルデータの定量モデルを算出する際のノイズとなる。
【０００７】
これらの予期しない実験的エラーや測定ノイズが波長変数と同様に濃度（或いは独立の）変数に導入されてしまうと、ＰＬＳモデルの予測能力を低下させる。例えば、較正データとしてまったく用いることのできない標本を何らかの理由により偶然に較正用標本として導入することもあり得る。このような問題に対処する多くのロバストモデリング技術が開発されてきたにも関わらず、その多くは与えられた波長変数のすべてを用いるものであった。このため、波長変数の中には、モデルの形成に寄与しない非情報性のものが含まれている。モデルの予測能力を増強するためにはこのような非情報性波長変数の除去を適切に行い、その後に非情報性標本の除去を行うことが効果的である。換言すれば、非情報性標本の除去は、情報性波長変数のみに対して情報の有無を考慮し除去されなければならない。
【０００８】
更に、前記マザートらのＵＶＥ−ＰＬＳ法を実際に測定された較正用スペクトルデータに適用したところ、場合によりＰＬＳ法での定量モデル算出時の因子数が予期したものよりも大きくなる傾向にあり、特にノイズの多いスペクトルデータにおいてこの傾向が顕著であることが明らかとなった。ここで、因子数の大きさは主成分分析における主因子（Principal Components (PCs)）のそれと同じである。これはＰＣｓの数が最低のＲＭＳＥＰ標準値を用いることによって決定されていることによる。ＲＭＳＥＰ標準値は、それ自体は明瞭であるが、モデルがオーバーフィッティングの状態で形成される危険性がある。この場合、次の二つの状態が発生する。すなわち除去されるべき非情報性波長変数が除去されず、或いは残されるべき情報性波長変数が残されない状態である。この二つの状態では、ＰＬＳの予測能力は低下する。
【０００９】
本発明は前記従来技術の課題に鑑みなされたものであり、その第一の目的は、非情報性の標本を適切に除去することであり、第二の目的は、非情報性変数の適切な除去および情報性変数の適切な保持を行うため、定量モデル算出時に適切な因子数を選択することである。
【００１０】
【課題を解決するための手段】
前記目的を達成するために本発明は、既知含量の特定成分を含む多数の較正用標本群のスペクトルデータを多変量解析し、該特定成分含量とスペクトルの相関を算出し、未知標本中の特定成分含量をそのスペクトルより予測するスペクトルデータ処理方法であって、
前記多数（ｎ個）の較正用標本群のうち、一の較正用標本（ｉ番目）のスペクトルデータを除外して多変量解析を行うleave-one-out法により特定成分含量とスペクトルの仮定量モデルを演算し、該ｉ番目の較正用標本の特定成分含量とそのスペクトルを前記仮定量モデルに適用した場合の予想含量を比較して予測エラー値ｅ(i)を演算する予測エラー値演算工程と、
前記予測エラー値ｅ(i)が、該ｉ番目の較正用標本の前記予測エラー値ｅ(i)を除外して得た所定分散範囲内であるか否かを判定する判定工程と、
前記予測エラー値ｅ(i)が所定分散範囲外である場合に、該ｉ番目の較正用標本を較正用標本群から除外し、残存較正用標本群について前記予測エラー値演算工程以降を繰り返し行い、前記予測エラー値ｅ(i)が所定分散範囲内である場合に残存較正用標本群に対して多変量解析を行う分岐工程と、
を含む非情報性標本除外機構を有することを特徴とする。
【００１１】
また、本発明にかかる方法において、前記予測エラー値ｅ(i)は
【数７】
ｅ(i)＝ｙ_i−ｙ_i ^p
（ここで、ｙ_ｉはｉ番目の較正用標本の特定成分含量、ｙ_ｉ ^ｐはその較正用標本を除いた較正用標本群から得た定量モデルより算出した予測値）
前記分散範囲は、次記数８により算出されるσ(i)に所定係数を乗算したもの、例えば３σ(i)であることが好適である。
【００１２】
【数８】

また、本発明にかかる方法において、前記非情報性標本除外機構の前段階に非情報性変数除外機構を有することが好適である。
【００１３】
また、本発明にかかるスペクトルデータ処理方法において、非情報性変数除外機構は、従属変数である濃度変数ｙ(n,1)と、独立変数である波長変数Ｘ(n,p)の関係を下記数３で表現した場合、
【数３】
ｙ＝Ｘｂ＋ｅ
（ここで、ｂ(1,p)はＰＬＳ回帰係数のベクトルであり、ｅ(n,1)はモデルで説明することのできない誤差のベクトルである。）
（パラメータｐはマトリックスＸの列とベクトル b の成分数であり、主因子数すなわち PC ｓ数である。）
波長変数マトリックスＸ(n,p)に対して、下記＜１＞，＜２＞によるＰＲＥＳＳ基準で定量モデル算出時における主因子（ＰＣｓ）数の最適値の決定を行い、
｛＜１＞Ｆ（Ａ）＝ＰＲＥＳＳ（ＡＰＣｓのモデル）／ＰＲＥＳＳ（Ａ^＊ＰＣｓのモデル）をＡ＝１〜Ａ^＊について演算する。ここで相互確認モデルについてＰＲＥＳＳ（Prediction Error Sum of Square）を以下の等式により定義する。
【００１４】
【数１０】

最小ＰＲＥＳＳを生じさせるＰＣｓの数はＡ^＊で表される。
＜２＞ＰＣｓの最適数として前記＜１＞において計算したＦ（Ａ）についてＦ（Ａ）＜Ｆa:n,nとなるような最小のＡを選択する。ここでＦa;n,nは自由度対［ｎ,ｎ］のＦ分布の（１−α）パーセントを示し、ｎは較正標本の数である。｝
【００１５】
前記マトリックスＸ(n,p)と同じ大きさのノイズマトリックスＲ(n,p)を形成し、両者を合成してマトリックスＸＲ(n,2p)を作成し、
前記合成マトリックスＸＲ(n,2p)からleave-one-out法により前記ＰＣｓ数に基づきＰＬＳ法モデルの演算を行い、ｂ−係数マトリックスＢ(n,2p)を作成し、前記マトリックスＢ(n,2p)の各カラムに対して標準偏差ｓ(b_j)の演算を行い、
【数１１】

（ここで、ｂ_ｊはＢ(n,2p)からのカラムベクトルｊの平均であり、ｂ_ijはＢ(n,2p)のｉ，ｊの要素である。）
【００１６】
更にｃ_ｊ＝ｂ_ｊ／ｓ（ｂ_ｊ）（ｊ＝１〜２ｐ）を各波長変数ｊについて演算を行い、
ノイズマトリックスＲに対応する波長変数の中から最も大きいｃ_ｊの絶対値であるｑ値を次式に基づき決定し、
【数１２】
ｑ＝ｍａｘ｛ａｂｓ（ｃ_ｊ）｝，ｊ＝ｐ＋１〜２ｐ
ｊ＝１〜ｐにおいてａｂｓ（ｃ_ｊ）＜ｑとなる実験波長変数をＸより除外し、残存変数により新たなマトリックスＸnew(N,p')を形成する、
該非情報性波長変数除外機構により、前記マトリックスＸから前記マトリックスＸ new を形成する改変ＵＶＥ−ＰＬＳ法であることを特徴とするスペクトルデータの処理方法。
以上
【００１７】
また、前記方法において、Ｆa:n,nは１．１に固定されていることが好適である。
また、前記方法において、非情報性標本除外後に、ＰＬＳ法により情報性較正用標本の多変量解析を行うことが好適である。
さらに、前記改変ＵＶＥ−ＰＬＳ法による非情報性変数除去後に、前記非情報性標本除去を行うことが好適である。
【００１８】
【発明の実施の形態】
以下、図面に基づき本発明の好適な実施形態を説明する。
本発明にかかる好適な実施形態においては、以下の手順でスペクトルデータの多変量解析が行われる。
【００１９】
▲１▼スペクトルデータの採取
既知含量の特定成分を含む多数の較正用標本のスペクトルデータを採取する。
▲２▼情報性波長変数の選択
前記較正用標本スペクトルデータのうち、特定成分の含量とＰＬＳ法などの多変量解析において定量モデル算出時に関連性を有する波長（波数）部分（情報性変数）と、関連性を有しない波長（波数）部分（非情報性変数）とを分離し情報性波長（波数）領域を選択する。
【００２０】
▲３▼情報性標本の選択
前記較正用標本スペクトルデータのうち、特定成分の含量とＰＬＳ法などの多変量解析において定量モデル算出時に関連性を有する較正用標本スペクトル（情報性標本スペクトル）と、関連性を有しない較正用標本スペクトル（非情報性標本スペクトル）とを分離し、情報性標本スペクトルを選択する。
▲４▼前記情報性標本及び情報性変数が選択された較正用標本スペクトルデータについてＰＬＳ法などの多変量解析を行い、特定成分の含量とスペクトルの定量モデルを得る。
【００２１】
▲５▼未知標本のスペクトルをとり、前記▲４▼で得られた特定成分の含量とスペクトルの定量モデルより、該特定成分の含量を予測する。
前記情報性変数の選択、情報性標本の選択はそれぞれ単独でも特定成分含量の予測性能の改善を行うことができるが、特に前記▲２▼、▲３▼順番で両者を適用することにより、優れた予測性能を得ることができる。
【００２２】
以下、本発明において特徴的な情報性波長変数の選択、情報性標本の選択についてそれぞれ説明する。なお、以下の説明においては、非情報性波長変数の除去方法についてはＵＶＥ（Uninformative Variable Elimination）と呼び、情報性標本の選択方法についてはＵＳＥ（Uninformative Sample Elimination）法とよぶ。また、ＵＶＥについて、本発明者らはその予測性能及び演算負荷をさらに改良した方法を開発しており、これについてはＭＵＶＥ（Modified Uninformative Variable Elimination）と称呼する。さらに、全体の方法についてはその処理順番を考慮しつつ、例えばＭＵＶＥ−ＵＳＥ−ＰＬＳ法とよぶこととする。
【００２３】
［非情報性波長変数の除去］
非情報性波長変数の除去方法については、本発明者らが新たに開発したＭＵＶＥ−ＰＬＳ法のほか、ＵＶＥ−ＰＬＳ法、ｂ−係数法、相関係数法などの従来法があるが、これらはいずれも非情報性波長変数の除去方法として、前記非情報性標本の除去方法とともに用いることができる。このうち、特に好適なものは、ＭＵＶＥ−ＰＬＳ法である。
以下に、それぞれの非情報性変数除去方法について説明する。
【００２４】
ＵＶＥ−ＰＬＳ法
標準ＰＬＳモデルは濃度変数（或いは従属変数）ｙ(n,1)と、波長（或いは波数）変数（或いは独立変数）Ｘ(n,p)の関係を下記等式１で表現する。
【数１３】
ｙ＝Ｘｂ＋ｅ …（１）
ここで、ｂ(1,p)はＰＬＳ回帰係数のベクトルであり、ｅ(n,1)はモデルで説明することのできないエラーのベクトルである。
【００２５】
マトリックスＸ(n,p)のｐカラム（或いはｐ変数）の中で一部は重要であるが、そのすべてがモデル形成に寄与するものではない。このような非情報性波長変数を除去するため、マザートらはＵＶＥ−ＰＬＳ法を提案した。図１（ａ）はそのアルゴリズムの概略を示す。
（１）予測マトリックスＸ(n,p)および濃度ベクトルｙ(n,1)からもっとも小さいＲＭＳＥＰとなるＰＣｓ（Ａ１）の数を決定する。ここで、ＲＭＳＥＰは次の等式（２）により定義される。
【００２６】
【数１４】

ここで、ｙ_iおよびｙ_i ^ｐはそれぞれｙ(n,1)の中のｉ番目の測定値および予測値である。そして、Ａ２＝Ａ１とする。
【００２７】
（２）Ｘ(n,p)と同じ大きさの人為的ノイズマトリックスＲ(n,p)を形成する。このマトリックスＲ(n,p)をＸ(n,p)に合成する。この結果得られるマトリックスはＸＲ(n,2p）と呼ばれ、最初のカラムのｐはＸのそれとなり、最後のカラムのｐはＲのそれとなる。
（３）ＸＲ(n,2p)からleave-one-out法によりＰＣｓＡ２の数に基づきｎ個のＰＬＳモデルの演算を行う。この結果ｂ−係数マトリックスＢ(n,2p)が得られる。
（４）次の等式（３）に基づき、Ｂ(n,2p)の各カラムに対して標準偏差ｓ(b_j)を演算する。
【００２８】
【数１５】

ここで、ｂ_ｊはＢ(n,2p)からのカラムベクトルｊの平均であり、ｂ_ijはＢ（ｎ，２ｐ）のｉ，ｊの要素である。そして、各変数ｊに対してｃ_j＝ｂ_j／ｓ(b_j)（ｊ＝１〜２ｐ）の値を演算する。
（５）ノイズマトリックスＲに対応する波長変数の中からもっとも大きいｃ_jの値の絶対値であるｑ値を次の式に基づき決定する。
【００２９】
【数１６】
ｑ＝ｍａｘ｛ａｂｓ(j)｝，ｊ＝ｐ＋１〜２ｐ …（４）
（６）ｊ＝１〜ｐにおいてａｂｓ(c_j)＜ｑとなる波長変数をＸから除去する。
（７）残存変数により新たなマトリックスＸnew(N,p')を形成する。ｐ’はカラムの新たな数である。
（８）ＰＣｓＡ２の数に基づきＸnewに対してleave-one-out法でＰＬＳモデルを形成し、前記式２に従ってＲＭＳＥＰnewを算出して、新たなモデルの予測能力の評価を行う。
【００３０】
（９）ＲＭＳＥＰnewとＲＭＳＥＰの間で比較を行う。
（１０）もし、ＲＭＳＥＰnew≧ＲＭＳＥＰであれば、非情報性波長変数の除去はＰＬＳにおけるモデル化を改善しないから処理を終了し、最後のＰＬＳモデルをＡ２ＰＣｓに基づき形成する。
（１１）もし、ＲＭＳＥＰnew＜ＲＭＳＥＰであれば、Ａ２の値が大きすぎることによるオーバーフィッティングによりモデルが形成された可能性がある。この場合前記（２）よりＡ２＝Ａ２−１およびＲＭＳＥＰ＝ＲＭＳＥＰnewに基づきアルゴリズムを繰り返す。
【００３１】
ＭＵＶＥ−ＰＬＳ法
ＭＵＶＥ−ＰＬＳ法には、前記ＵＶＥ−ＰＬＳ法の改善を行うため、ハーランドおよびトーマスらにより指摘されたＰＣｓの最適数の選定のガイドラインを採用した。この手法の要約は以下の通りである。
（１）Ｆ（Ａ）＝ＰＲＥＳＳ（ＡＰＣｓのモデル）／ＰＲＥＳＳ（Ａ^＊ＰＣｓのモデル）をＡ＝１〜Ａ^＊について演算する。ここで相互確認モデルについてＰＲＥＳＳ（Prediction Error Sum of Square）は以下の等式により定義される。
【００３２】
【数１７】

最小ＰＲＥＳＳを生じさせるＰＣｓの数はＡ^＊で表される。
（２）ＰＣｓの最適数としてＦ（Ａ）＜Ｆa:n,nとなるような最小のＡを選択する。ここでＦa;n,nは自由度対［ｎ,ｎ］のＦ分布の（１−α）パーセントを示し、ｎは較正標本の数である。Ａの最適数を決定するため、αの値を決定しなければならない。αの値を決定する代わりに、経験的にＦa;n,nの値を通常もっとも適合する１．１に固定することができる。換言すれば、ＰＣｓの最適値は、そのモデルに対するＰＲＥＳＳがＡ＊ＰＣｓのモデルに対するよりも著しく大きくはならない最小モデル（或いはＰＣｓの最小数）により決定でき、これはＰＲＥＳＳ（Ａ）＜１．１×ＰＲＥＳＳ（Ａ＊）となることを意味する。ここではこのガイドラインをＰＲＥＳＳ標準値と呼ぶこととする。
【００３３】
ＭＵＶＥ−ＰＬＳアルゴリズムは図１（ｂ）に示すように従来法と近似した手順を経ており、（２）〜（７）はＰＲＥＳＳ標準値から誘導されるＡ３ＰＣｓを用いて処理される。結果として得られるマトリックスＸnewに対して最終的なＰＣｓの最適値を決定するためＰＲＥＳＳ標準値を再度適用する。最終的なＰＬＳはＡ４ＰＣｓに基づき形成される。従来法と比較し、繰り返しループが存在しないためＵＶＥ−ＰＬＳ法と比較して演算時間がＵＶＥ−ＰＬＳ法でのループの回数分の一に短縮される。
【００３４】
ｂ−係数法
ｂ−係数法の手順は、オートスケールされたデータＸＲ(n,2p)のＰＬＳｂ−係数を用いる。ｂ−係数（ｂ_j，ｊ＝１〜２ｐ）を得た後、波長変数（ｂ_j，ｊ＝１〜ｐ）および人為的ノイズ変数（ｂ_j，ｊ＝ｐ＋１〜２ｐ）でのｂ−係数を比較する。ノイズ変数よりも小さなｂ−係数を有する波長変数は非情報性であるとして棄却される。
【００３５】
相関係数方法
相関係数方法においては、次式に基づきｙ(n,1)とＸＲ(n,2p)のｊ番目のカラムの間で２ｐ相関係数（ρ_j，ｊ＝１〜２ｐ）を計算した。
【数１８】

ここでｙ_iおよびＸＲ_ijは、それぞれｙおよびＸＲのｉ番目およびｉ，ｊの要素であり、ｙ_ｉ ^ＡＶおよびＸＲ_ij ^ＡＶはそれぞれｙおよびＸＲのｉに関する平均値である。そして、波長変数（ｊ＝１〜ｐ）に対するρj値、および人為的ノイズ変数（ｊ＝ｐ＋１〜２ｐ）に対するそれを比較する。これは、ノイズ変数よりも小さな相関係数を有する波長変数は除去されることを意味する。
【００３６】
［非情報性標本の除去］
図２には本発明にかかるＭＵＶＥ−ＵＳＥ−ＰＬＳ法の概略構成が示されている。
同図において、
（１）まず、ＭＵＶＥ法を主因子（Principal Components ＰＣｓ）Ａに基づき較正データ群に適用する。この段階で非情報性波長変数は除去される。
（２）ｉ番目（１≦ｉ≦ｎ）標本について、予測エラー値ｅ(i)を演算する。同時に、ＲＭＳＥＰ（Root Mean Squares Error of Prediction）が評価される。
【００３７】
（３）ｉ番目の標本について、予測エラー値の標準偏差σ(i)が「leave-one-out法」により演算される。すなわち、σ(i)はｅ(i)を除く他の（ｎ−１）ｅ(j)から、以下の等式により演算される。
【数１９】

ここで、ｙ_i ^ｐはｉ番目の標本の予測値である。
【００３８】
（４）ｅ(i)（ａｂｓ｛ｅ(i)｝）および３σ(i)の絶対値でどちらが大きいかの比較を各ｉについて行う。
（５）もし、ａｂｓ｛ｅ(i)｝≧３σ(i)であれば、ｉ番目の標本は非情報性標本であるとして除去され、ＰＬＳモデルはＡＰＣｓとともに残りの較正データから形成される。そして、前記（２）に帰還する。
（６）もし、ａｂｓ｛ｅ(i)｝＜３σ(i)であれば、最終的なＰＬＳモデルを用いて形成する。
【００３９】
前記方法において、通常の標本に対して例外的な標本を判別する能力は、leave-one-out法によりσ(i)値の演算を行うことで向上する。このＭＵＶＥ−ＵＳＥ−ＰＬＳ法は従来のＭＵＶＥ−ＰＬＳプログラムの若干の修正により行うことができる。
【００４０】
【実施例】
以下、本発明のより具体的な実施例について説明する。
スペクトルデータ群
較正を行うスペクトルデータ群として、ここでは各種モル分率を有した水−エタノール混合物の中赤外吸収スペクトル３０種を用いた。これらのスペクトルは、温度コントロール全反射（ＡＴＲ）アタッチメントセル（モデルＡＴＲ−ＬＧ）を備えた顕微フーリエ変換吸収スペクトル測定装置（ＭＦＴ−２０００日本分光株式会社製）を用いて測定した。各スペクトルについて、波数範囲６００〜４６００cm^-1に対して３．５９cm^-1のスペクトル分解能で１６回積算で測定を行った。データポイント数は１０３８である。混合物の温度は２５℃に維持した。３０種の混合物のエタノールモル分率χethを表１に示す。水はＭｉｌｌｉ−Ｑシステム（ミリポア製）により調製し、エタノールは試薬級（和光純薬製）を用いた。図３は前記混合物の３０種のスペクトルを示す。５つの特徴的な振動バンドが認められる：（１）水およびエタノールのＯＨ−伸縮バンドの重複した部分（３０５０〜３９００cm^-1）、（２）エタノールのＣＨ−伸縮バンド（２６００〜３０５０cm^-1）、（３）水およびエタノールのベンディングバンド（１５００〜１８１０cm^-1）、（４）エタノールのＣＨ_２−ベンディングバンド（１２００〜１５２０cm^-1）および（５）エタノールのＣＯ−伸縮バンド（９５０〜１２００cm^-1）。
【００４１】
【表１】

【００４２】
［非情報性波長変数除去方法に対する予測能力の比較］
異なる非情報性波長変数除去方法を用いた較正方法から得られた最適予測結果を表２および図４に示す。
【表２】

較正方法ＲＭＳＥＰ ^ａＰＣｓ数情報性変数残存数
（１）ＰＬＳ 1680 15 1038
（２）UVE-PLS 889 A1=15,A2=11 65
（３）MUVE-PLS 852 A3=8, A4=4 70
（４）b-係数法 4194 15 26
（５）相関係数法 1157 15 791
ａ：×１０^−５
標準ＰＬＳ法は１５ＰＣｓについてＲＭＳＥＰ＝１６８０×１０^−５を与えたのに対し、従来のＵＶＥ−ＰＬＳ法は１１ＰＣｓ（Ａ１＝１５，Ａ２＝１１）についてＲＭＳＥＰ＝８８９×１０^−５を与えた。１０３８点のうち、維持された波長変数は６５点であった。これは従来のＰＬＳ法に対するＵＶＥ−ＰＬＳ法の優位性を示している。一方、ＭＵＶＥ−ＰＬＳ法は４ＰＣｓ（Ａ３＝８，Ａ４＝４）に対してＲＭＳＥＰ＝８５２×１０^−５であり、維持された波長変数の数は７０であった。維持された７０変数に対する波数領域は、図４（ｂ）に示されており、混合物の典型的スペクトル（χeth＝０．４９３）は図４（ａ）に、対応を明らかにするため示されている。水およびエタノール混合物の特徴的な５種の振動バンドが選択されており、維持された波数領域は合理的である。ここで、二本の点線は標準値の±ｑを示しており、±ｑの間の値の変数は非情報性であるとして除去されている。ＭＵＶＥ法の演算時間は従来法のそれと比較して約１／６となっている。この結果はＭＵＶＥ法が実際的な状態で極めてよく機能することを示している。
【００４３】
図４（ｃ）および（ｄ）は、ｂ−係数法と相関法の結果をそれぞれ示している。ｂ−係数法は１５ＰＣｓについてＲＭＳＥＰ＝４１９４×１０^−５であり、維持された波長変数の数は２６である。維持波長変数の数は大きく減少しているが、ＲＭＳＥＰの値は標準ＰＬＳ法よりも大きくなっている。加えて、維持された波数領域は、むしろ物理的な意味にかけており、重要な３５００cm^-1付近のＯＨ−伸縮バンドが非情報性であるとして除去されている。一方、相関係数法は１５ＰＣｓについてＲＭＳＥＰ＝１１５７×１０^−５を与えており、維持された波長変数の数は７９１である。この場合、ＲＭＳＥＰの値は標準ＰＬＳ法のそれに比べて大きく改善はされておらず、大きくスペクトル領域が情報性であるとして維持されている。
【００４４】
図５（ｂ）は、ＵＶＥ−ＰＬＳ法における波長変数選択時のＰＣｓの数をパラメータとして保持された情報性波長変数と変数ｊの関係を示している。ここで、レベル１および０は保持された情報性波長変数と除去された非情報性波長変数をそれぞれ示している。図４（ｂ）は図３（ａ）と同じ典型的なスペクトルを示している。これらの図において、従来のＵＶＥ＝ＰＬＳ法はＰＣｓ＝１１（Ａ１＝１５，Ａ２＝１１）の場合に相当し、ＭＵＶＥ法はＰＣｓ＝８（Ａ３＝８，Ａ４＝４）の場合に相当する。ＰＣｓ≧８の場合の維持変数の数は、ほぼ同一であり、得られたＲＭＳＥＰも変化がない。この結果はこのＭＵＶＥ−ＰＬＳ法の有効性を再度示している。
【００４５】
以上のように従来のＵＶＥ−ＰＬＳ法は、人為的に導入されたノイズ変数との比較において直接的に非情報性波長変数の除去が行われるという点では、他の方法に比較して優れている。しかしながらこの方法は、実際上次の２点の問題を有する。すなわち波長変数選択時および定量モデル算出時におけるＰＣｓの数が相対的に大きくなってしまいオーバーフィッティングが行われ、また演算時間が長いことである。本発明はＰＲＥＳＳ標準を取り入れることによりこれらの二つの問題を解決した。ＭＵＶＥ−ＰＬＳ法の実際的な有効性を示すため行った各種モル分率の水−エタノール混合物の中赤外吸収スペクトルの較正データ群に適用した場合にも、本発明が優れた結果を示した。
【００４６】
［非情報性標本の除去と非情報性波長変数除去方法の組み合わせ効果］
本実施例において用いられるスペクトル較正データ群は、前記同様３０種の各種モル比の水−エタノール混合物の中赤外吸収スペクトルを用いた。ＵＳＥアルゴリズムの標本除去能を示すため、ここでは１９番目の標本のエタノールモル分率を真値（χeth＝０．１１）から偽値（χeth＝０．０８）に故意に変更した。混合物のモル分率比は前記表１に示されている。
【００４７】
較正方法
前記較正データ群に対して、５種のモデリング方法を適用した。それらの関係は図６に示される。
（１）ＰＬＳ：与えられた較正データ群に対して標準最小ＲＭＳＥＰ法として標準ＰＬＳ法を適用した。
（２）ＭＵＶＥ−ＰＬＳ：較正データ群に対してＭＵＶＥ−ＰＬＳ法を適用した。
（３）ＵＳＥ−ＰＬＳ：与えられた較正データ群に対してＵＳＥアルゴリズムの適用を行った。ＵＳＥ適用の後、ＭＵＶＥ法を除く標準ＰＬＳ法を適用した。
【００４８】
（４）ＭＵＶＥ−ＵＳＥ−ＰＬＳ：ＭＵＶＥ法により処理された較正データ群に対してＵＳＥアルゴリズムの適用を行った。この後、標準ＰＬＳ法を実行した。
（５）ＵＳＥ−ＭＵＶＥ−ＰＬＳ：与えられた較正データに対してまず最初にＵＳＥアルゴリズムの適用を行う。ＵＳＥの後、ＭＵＶＥ−ＰＬＳを実行した。この方法は、ＭＵＶＥ−ＵＳＥ−ＰＬＳ法と適用手法は同じであるが、ＭＵＶＥとＵＳＥの順番が逆になっている。
【００４９】
図７はＭＵＶＥ−ＵＳＥ−ＰＬＳ法を前記表１に示した３０種のエタノール−水混合物のスペクトルデータ群に適用した結果を示している。図７（ａ）は、予測エラーｅ(i)を標本番号ｉの関数としてプロットしたものであり、第一繰り返しループから得られる。図中二本の点線は±３σ(i)値を示しており、非情報性標本の除去の基準として用いている。前記第一繰り返しから、Ｎｏ．１およびＮｏ．１９の二つの標本が除去される。標本Ｎｏ．１９はその濃度値が故意に変更されたものであり、有意に除去される。図７（ｂ）は第二繰り返しループから得られた結果である。ここでは、標本Ｎｏ．２が除去されている。図７（ｃ）は第三繰り返しループから得られた結果を示しており、ここでは標本除去が行われておらず、各予測エラー値が±３σ(i)値以下であることを意味する。３０種の較正データの中で２種の標本Ｎｏ．１とＮｏ．２が非情報性であるとして除去された。この理由は（１）スペクトル強度の非直線性、及び（２）χethの高濃度領域におけるデータの粗頻度によるものと考えられる。ＭＵＶＥ−ＵＳＥ−ＰＬＳアルゴリズムにおいて、最終ＰＬＳモデルは残りの２７標本を用いて形成された。
【００５０】
前記５種の異なる較正方法で得られた最適の予測結果は、表３に要約される。
【表３】

較正方法ＲＭＳＥＰ ^ａＰＣｓ数変数残存数残存標本数
（１）ＰＬＳ 1757 21 1038 30
（２）MUVE-PLS 1053 4 43 30
（３）USE-PLS 1521 15 1038 29
（４）MUVE-USE-PLS 442 4 43 27
（５） USE-MUVE-PLS 794 6 59 29
【００５１】
ＭＵＶＥ−ＵＳＥ−ＰＬＳ法は、従来のＭＵＶＥ−ＰＬＳ法よりも、ＲＭＳＥＰ値が小さいことが理解される。これは非情報性標本の除去が行われたためである。一方、ＵＳＥ−ＭＵＶＥ−ＰＬＳ法はＭＵＶＥ−ＵＳＥ−ＰＬＳ法よりもよい結果を与えることはできなかった。これは非情報性標本の除去よりも前に非情報性波長変数の除去を行うことの重要性を示している。これは波長変数の数は通常の場合濃度変数のそれよりも遥かに大きいことによる。
【００５２】
以上の結果より、標準ＰＬＳモデルの予測能力を改善するため、非情報性標本を較正データ群から除去するＭＵＶＥ−ＵＳＥ−ＰＬＳ法が好適であることが理解される。標本除去の指標としては３σを個々の予測エラーと比較され、σ値はleave-one-out法により演算される。これは正確なモデルが必要となるときに有用且つ現実的な手法である。
【００５３】
【発明の効果】
以上説明したように本発明にかかるスペクトルデータ処理方法によれば、較正用標本のスペクトルデータより測定のエラーなどにより発生した非情報性標本に関するデータを除去して多変量解析を行うこととしたので、特定成分の含量予測精度を大きく向上させることができる。
また、本発明において、前記標本除去とともに、非情報性波長変数の除去を行うと、より予測精度の向上が図られるとともに、演算負荷の軽減を図ることができる。
特に、非情報性波長変数の除去にＰＲＥＳＳ基準を導入することにより、従来のＵＶＥ−ＰＬＳ法などに見られるオーバーフィッティング等の問題を良好に改善することができる。
【図面の簡単な説明】
【図１】本発明において用いられる非情報性変数の除去方法の説明図である。
【図２】本発明において用いられる非情報性標本の除去方法の説明図である。
【図３】水−エタノール混合物の各種モル分率における吸収スペクトルである。
【図４】本発明における非情報性変数除去方法の効果の説明図である。
【図５】ＰＣｓの数をパラメータとして、保持された情報性変数と変数ｊの関係を示す説明図である。
【図６】本発明における非情報性標本の除去方法の効果試験のモデリングの説明図である。
【図７】本発明において最も好適なＭＵＶＥ−ＵＳＥ−ＰＬＳ法の較正用スペクトルデータへの適用例の説明図である。

Claims

既知含量の特定成分を含む多数の較正用標本群のスペクトルデータを多変量解析し、該特定成分含量とスペクトルの関連性から定量モデルを算出し、未知標本中の特定成分含量をそのスペクトルより予測するスペクトルデータ処理方法であって、
前記多数（ｎ個）の較正用標本群のうち、一の較正用標本（ｉ番目）のスペクトルデータを除外して未知標本とし、多変量解析を行うleave-one-out法により特定成分含量とスペクトルの仮定量モデルａを演算し、該ｉ番目の較正用標本の特定成分含量とそのスペクトルを前記仮定量モデルに適用した場合の予想含量を比較して予測エラー値ｅ(i)を演算する予測エラー値演算工程と、
前記予測エラー値ｅ(i)が、該ｉ番目の較正用標本の前記予測エラー値ｅ(i)を除外して得た所定分散範囲内であるか否かを判定する判定工程と、
前記予測エラー値ｅ(i)が所定分散範囲外である場合に、該ｉ番目の較正用標本を較正用標本群から除外し、残存較正用標本群について前記予測エラー値演算工程以降を繰り返し行い、前記予測エラー値ｅ(i)が所定分散範囲内である場合に残存較正用標本群に対して多変量解析を行う分岐工程と、
を含む非情報性標本除外機構を有することを特徴とするスペクトルデータ処理方法。
請求項１記載の方法において、前記予測エラー値ｅ(i)は
（数１）
ｅ(i)＝ｙ_i−ｙ_i ^p
（ここで、ｙ_ｉはｉ番目の較正用標本の特定成分含量、ｙ_ｉ ^ｐはその較正用標本を除いた較正用標本群から得た定量モデルより算出した予測値）
前記分散範囲は、次記数２により算出されるσ(i)に所定係数を乗算したものであることを特徴とするスペクトルデータ処理方法。
請求項１又は２記載の方法において、前記非情報性標本除外機構の前段階に非情報性波長変数除外機構を有することを特徴とするスペクトルデータ処理方法。
既知含量の特定成分を含む多数の較正用標本群のスペクトルデータを非情報性波長変数除外機構を含むＰＬＳ法によって多変量解析し、該特定成分含量とスペクトルの定量モデルを算出し、未知標本中の特定成分含量をそのスペクトルより予測するスペクトルデータ処理方法であって、
非情報性波長変数除外機構は、
従属変数である濃度変数ｙ(n,1)と、独立変数である波長変数Ｘ(n,p)の関係を下記数３で表現した場合、
（数３）
ｙ＝Ｘｂ＋ｅ
（ここで、ｂ(1,p)はＰＬＳ回帰係数のベクトルであり、ｅ(n,1)はモデルで説明することのできない誤差のベクトルである。）
（パラメータｐはマトリックスＸの列とベクトル b の成分数であり、主因子数すなわち PC ｓ数である。）
波長変数マトリックスＸ(n,p)に対して、下記＜１＞，＜２＞によるＰＲＥＳＳ基準で定量モデル算出時における主因子（ＰＣｓ）数の最適値の決定を行い、
｛＜１＞Ｆ（Ａ）＝ＰＲＥＳＳ（ＡＰＣｓのモデル）／ＰＲＥＳＳ（Ａ^＊ＰＣｓのモデル）をＡ＝１〜Ａ^＊について演算する。ここで相互確認モデルについてＰＲＥＳＳ（Prediction Error Sum of Square）を以下の等式により定義する。

最小ＰＲＥＳＳを生じさせるＰＣｓの数はＡ^＊で表される。
＜２＞ＰＣｓの最適数として前記＜１＞において計算したＦ（Ａ）についてＦ（Ａ）＜Ｆa:n,nとなるような最小のＡを選択する。ここでＦa;n,nは自由度対［ｎ,ｎ］のＦ分布の（１−α）パーセントを示し、ｎは較正標本の数である。｝
前記マトリックスＸ(n,p)と同じ大きさのノイズマトリックスＲ(n,p)を形成し、両者を合成してマトリックスＸＲ(n,2p)を作成し、
前記合成マトリックスＸＲ(n,2p)からleave-one-out法により前記ＰＣｓ数に基づきＰＬＳ法モデルの演算を行い、ｂ−係数マトリックスＢ(n,2p)を作成し、
前記マトリックスＢ(n,2p)の各カラムに対して標準偏差ｓ(b_j)の演算を行い、

（ここで、ｂ_ｊはＢ(n,2p)からのカラムベクトルｊの平均であり、ｂ_ijはＢ(n,2p)のｉ，ｊの要素である。）
更にｃ_ｊ＝ｂ_ｊ／ｓ（ｂ_ｊ）（ｊ＝１〜２ｐ）を各波長変数ｊについて演算を行い、
ノイズマトリックスＲに対応する波長変数の中から最も大きいｃ_ｊの絶対値であるｑ値を次式に基づき決定し、
（数６）
ｑ＝ｍａｘ｛ａｂｓ（ｃ_ｊ）｝，ｊ＝ｐ＋１〜２ｐ
ｊ＝１〜ｐにおいてａｂｓ（ｃ_ｊ）＜ｑとなる波長変数をＸより除外し、残存変数により新たなマトリックスＸnew(N,p')を形成する、
該非情報性波長変数除外機構により、前記マトリックスＸから前記マトリックスＸ new を形成する改変ＵＶＥ−ＰＬＳ法であることを特徴とするスペクトルデータの処理方法。
請求項４記載の方法において、Ｆa:n,nは１．１に固定されていることを特
徴とするスペクトルデータの処理方法。
請求項１〜５記載の方法において、非情報性標本除外後に、ＰＬＳ法により情報性較正用標本の多変量解析を行うことを特徴とするスペクトルデータの処理方法。
請求項３記載の方法において、非情報性波長変数除外機構は、請求項３記載の方法において、非情報性波長変数除外機構は、「従属変数である濃度変数ｙ (n,1) と、独立変数である波長変数Ｘ (n,p) の関係を下記数３で表現した場合、
（数３）
ｙ＝Ｘｂ＋ｅ
（ここで、ｂ (1,p) はＰＬＳ回帰係数のベクトルであり、ｅ (n,1) はモデルで説明することのできない誤差のベクトルである。）
（パラメータｐはマトリックスＸの列とベクトル b の成分数であり、主因子数すなわち PC ｓ数である。）
波長変数マトリックスＸ (n,p) に対して、下記＜１＞，＜２＞によるＰＲＥＳＳ基準で定量モデル算出時における主因子（ＰＣｓ）数の最適値の決定を行い、
｛＜１＞Ｆ（Ａ）＝ＰＲＥＳＳ（ＡＰＣｓのモデル）／ＰＲＥＳＳ（Ａ ^＊ＰＣｓのモデル）をＡ＝１〜Ａ ^＊について演算する。ここで相互確認モデルについてＰＲＥＳＳ（ Prediction Error Sum of Square ）を以下の等式により定義する。

最小ＰＲＥＳＳを生じさせるＰＣｓの数はＡ ^＊で表される。
＜２＞ＰＣｓの最適数として前記＜１＞において計算したそれぞれのＦ（Ａ）について次式に代入してＦ（Ａ）＜Ｆ a:n,n となるような最小のＡを選択する。ここでＦ a;n,n は自由度対［ｎ , ｎ］のＦ分布の（１−α）パーセントを示し、ｎは較正標本の数である。｝
前記マトリックスＸ (n,p) と同じ大きさのノイズマトリックスＲ (n,p) を形成し、両者を合成してマトリックスＸＲ (n,2p) を作成し、
前記合成マトリックスＸＲ (n,2p) から leave-one-out 法により前記ＰＣｓ数に基づきＰＬＳ法モデルの演算を行い、ｂ−係数マトリックスＢ (n,2p) を作成し、
前記マトリックスＢ (n,2p) の各カラムに対して標準偏差ｓ (b _j ) の演算を行い、

（ここで、ｂ _ｊはＢ (n,2p) からのカラムベクトルｊの平均であり、ｂ _ij はＢ (n,2p) のｉ，ｊの要素である。）
更にｃ _ｊ＝ｂ _ｊ／ｓ（ｂ _ｊ）（ｊ＝１〜２ｐ）を各波長変数ｊについて演算を行い、
ノイズマトリックスＲに対応する波長変数の中から最も大きいｃ _ｊの絶対値であるｑ値を次式に基づき決定し、
（数６）
ｑ＝ｍａｘ｛ａｂｓ（ｃ _ｊ）｝，ｊ＝ｐ＋１〜２ｐ
ｊ＝１〜ｐにおいてａｂｓ（ｃ _ｊ）＜ｑとなる波長変数をＸより除外し、残存変数により新たなマトリックスＸ new(N,p') を形成する、
該非情報性波長変数除外機構により、前記マトリックスＸから前記マトリックスＸ new を形成する改変ＵＶＥ−ＰＬＳ法であること、又は該非情報性波長変数除外機構において前記＜２＞はＦ a:n,n は１．１に固定されていることを特徴とするスペクトルデータの処理方法。