JP4177933B2 - スペクトルデータ処理方法 - Google Patents

スペクトルデータ処理方法 Download PDF

Info

Publication number
JP4177933B2
JP4177933B2 JP15074699A JP15074699A JP4177933B2 JP 4177933 B2 JP4177933 B2 JP 4177933B2 JP 15074699 A JP15074699 A JP 15074699A JP 15074699 A JP15074699 A JP 15074699A JP 4177933 B2 JP4177933 B2 JP 4177933B2
Authority
JP
Japan
Prior art keywords
matrix
model
calculated
pls
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP15074699A
Other languages
English (en)
Other versions
JP2000338038A (ja
Inventor
純 小勝負
哲郎 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jasco Corp
Original Assignee
Jasco Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jasco Corp filed Critical Jasco Corp
Priority to JP15074699A priority Critical patent/JP4177933B2/ja
Publication of JP2000338038A publication Critical patent/JP2000338038A/ja
Application granted granted Critical
Publication of JP4177933B2 publication Critical patent/JP4177933B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Spectrometry And Color Measurement (AREA)

Description

【0001】
【発明の属する技術分野】
本発明はスペクトルデータの処理方法、特にスペクトルの多変量解析による特定成分含量の予測機構の改良に関する。
【0002】
【従来の技術】
生体成分、或いは石油などの、特に天然に由来する標本は通常の場合、極めて多くの成分を含んでおり、その中から特定成分の定量を行うため分光分析などにより得られるスペクトルデータは、該特定成分のスペクトルのみならず、他の多くの成分のスペクトルが重畳されたものとなる。従って、これら多くの不純物の存在割合などが不明の場合には、単にその標本のスペクトルを得ただけでは特定成分の定量を行うことはできない。
【0003】
そこで、近年、このような多くの成分を含む標本より特定成分の定量分析を行うため、多変量解析技術が注目されている。
すなわち、この多変量解析技術においては、既知量の特定成分が含まれた較正用標本のスペクトルデータを多く採取し、その特定成分含量とスペクトルデータの関係を統計的に処理することで、両者間の定量モデルを見いだし、未知標本の特定成分含量予測に適用するものである。
【0004】
一方、較正用標本のスペクトルデータの中には明らかに特定成分の含有量とは関連のない波長(波数)領域も存在し、これらは定量モデルを算出する際の過剰な負荷となるばかりでなく、場合によっては予測精度を低下させるノイズともなる。
従来において、これらのノイズをとるデータ処理技術としてマザート(Massart et al)らにより開発されたUVE−PLS法(Uninformative Variable Elimination - Partial Least Squares method;非情報性変数除去−偏最小自乗法)などが適用されていた。
【0005】
このUVE−PLS法は、通常のPLS法の予測能力を向上させるアルゴリズムであり、定量モデル形成に寄与しない波長(或いは独立の)変数を除去することができる。この方法で重要なのは、実験変数と故意に加えられた人為的ノイズ変数とを、定量モデル形成への寄与という観点から比較することである。ノイズ変数の数は実験変数と同一である。
【0006】
【発明が解決しようとする課題】
しかしながら、前記較正用標本は、その特定成分含量については別途の方法により定量されてはいるものの、その測定自体が必ずしも正確とは限らず、多くの較正用標本のスペクトルデータの中には大きなエラーを含むものも存在し、これは特定成分含量とスペクトルデータの定量モデルを算出する際のノイズとなる。
【0007】
これらの予期しない実験的エラーや測定ノイズが波長変数と同様に濃度(或いは独立の)変数に導入されてしまうと、PLSモデルの予測能力を低下させる。例えば、較正データとしてまったく用いることのできない標本を何らかの理由により偶然に較正用標本として導入することもあり得る。このような問題に対処する多くのロバストモデリング技術が開発されてきたにも関わらず、その多くは与えられた波長変数のすべてを用いるものであった。このため、波長変数の中には、モデルの形成に寄与しない非情報性のものが含まれている。モデルの予測能力を増強するためにはこのような非情報性波長変数の除去を適切に行い、その後に非情報性標本の除去を行うことが効果的である。換言すれば、非情報性標本の除去は、情報性波長変数のみに対して情報の有無を考慮し除去されなければならない。
【0008】
更に、前記マザートらのUVE−PLS法を実際に測定された較正用スペクトルデータに適用したところ、場合によりPLS法での定量モデル算出時の因子数が予期したものよりも大きくなる傾向にあり、特にノイズの多いスペクトルデータにおいてこの傾向が顕著であることが明らかとなった。ここで、因子数の大きさは主成分分析における主因子(Principal Components (PCs))のそれと同じである。これはPCsの数が最低のRMSEP標準値を用いることによって決定されていることによる。RMSEP標準値は、それ自体は明瞭であるが、モデルがオーバーフィッティングの状態で形成される危険性がある。この場合、次の二つの状態が発生する。すなわち除去されるべき非情報性波長変数が除去されず、或いは残されるべき情報性波長変数が残されない状態である。この二つの状態では、PLSの予測能力は低下する。
【0009】
本発明は前記従来技術の課題に鑑みなされたものであり、その第一の目的は、非情報性の標本を適切に除去することであり、第二の目的は、非情報性変数の適切な除去および情報性変数の適切な保持を行うため、定量モデル算出時に適切な因子数を選択することである。
【0010】
【課題を解決するための手段】
前記目的を達成するために本発明は、既知含量の特定成分を含む多数の較正用標本群のスペクトルデータを多変量解析し、該特定成分含量とスペクトルの相関を算出し、未知標本中の特定成分含量をそのスペクトルより予測するスペクトルデータ処理方法であって、
前記多数(n個)の較正用標本群のうち、一の較正用標本(i番目)のスペクトルデータを除外して多変量解析を行うleave-one-out法により特定成分含量とスペクトルの仮定量モデルを演算し、該i番目の較正用標本の特定成分含量とそのスペクトルを前記仮定量モデルに適用した場合の予想含量を比較して予測エラー値e(i)を演算する予測エラー値演算工程と、
前記予測エラー値e(i)が、該i番目の較正用標本の前記予測エラー値e(i)を除外して得た所定分散範囲内であるか否かを判定する判定工程と、
前記予測エラー値e(i)が所定分散範囲外である場合に、該i番目の較正用標本を較正用標本群から除外し、残存較正用標本群について前記予測エラー値演算工程以降を繰り返し行い、前記予測エラー値e(i)が所定分散範囲内である場合に残存較正用標本群に対して多変量解析を行う分岐工程と、
を含む非情報性標本除外機構を有することを特徴とする。
【0011】
また、本発明にかかる方法において、前記予測エラー値e(i)は
【数7】
e(i)=yi−yi p
(ここで、yはi番目の較正用標本の特定成分含量、y はその較正用標本を除いた較正用標本群から得た定量モデルより算出した予測値)
前記分散範囲は、次記数8により算出されるσ(i)に所定係数を乗算したもの、例えば3σ(i)であることが好適である。
【0012】
【数8】
Figure 0004177933
また、本発明にかかる方法において、前記非情報性標本除外機構の前段階に非情報性変数除外機構を有することが好適である。
【0013】
また、本発明にかかるスペクトルデータ処理方法において、非情報性変数除外機構は、従属変数である濃度変数y(n,1)と、独立変数である波長変数X(n,p)の関係を下記数3で表現した場合、
【数3】
y=Xb+e
(ここで、b(1,p)はPLS回帰係数のベクトルであり、e(n,1)はモデルで説明することのできない誤差のベクトルである。)
(パラメータpはマトリックスXの列とベクトル b の成分数であり、主因子数すなわち PC s数である。)
長変数マトリックスX(n,p)に対して、下記<1>,<2>によるPRESS基準で定量モデル算出時における主因子(PCs)数の最適値の決定を行い、
{<1>F(A)=PRESS(APCsのモデル)/PRESS(APCsのモデル)をA=1〜Aについて演算する。ここで相互確認モデルについてPRESS(Prediction Error Sum of Square)を以下の等式により定義する。
【0014】
【数10】
Figure 0004177933
最小PRESSを生じさせるPCsの数はAで表される。
<2>PCsの最適数として前記<1>において計算したF(A)についてF(A)<Fa:n,nとなるような最小のAを選択する。ここでFa;n,nは自由度対[n,n]のF分布の(1−α)パーセントを示し、nは較正標本の数である。}
【0015】
前記マトリックスX(n,p)と同じ大きさのノイズマトリックスR(n,p)を形成し、両者を合成してマトリックスXR(n,2p)を作成し、
前記合成マトリックスXR(n,2p)からleave-one-out法により前記PCs数に基づきPLS法モデルの演算を行い、b−係数マトリックスB(n,2p)を作成し、前記マトリックスB(n,2p)の各カラムに対して標準偏差s(bj)の演算を行い、
【数11】
Figure 0004177933
(ここで、bはB(n,2p)からのカラムベクトルjの平均であり、bijはB(n,2p)のi,jの要素である。)
【0016】
更にc=b/s(b)(j=1〜2p)を各波長変数jについて演算を行い、
ノイズマトリックスRに対応する波長変数の中から最も大きいcの絶対値であるq値を次式に基づき決定し、
【数12】
q=max{abs(c)},j=p+1〜2p
j=1〜pにおいてabs(c)<qとなる実験波長変数をXより除外し、残存変数により新たなマトリックスXnew(N,p')を形成する、
該非情報性波長変数除外機構により、前記マトリックスXから前記マトリックスX new を形成する改変UVE−PLS法であることを特徴とするスペクトルデータの処理方法。
以上
【0017】
また、前記方法において、Fa:n,nは1.1に固定されていることが好適である。
また、前記方法において、非情報性標本除外後に、PLS法により情報性較正用標本の多変量解析を行うことが好適である。
さらに、前記改変UVE−PLS法による非情報性変数除去後に、前記非情報性標本除去を行うことが好適である。
【0018】
【発明の実施の形態】
以下、図面に基づき本発明の好適な実施形態を説明する。
本発明にかかる好適な実施形態においては、以下の手順でスペクトルデータの多変量解析が行われる。
【0019】
▲1▼スペクトルデータの採取
既知含量の特定成分を含む多数の較正用標本のスペクトルデータを採取する。
▲2▼情報性波長変数の選択
前記較正用標本スペクトルデータのうち、特定成分の含量とPLS法などの多変量解析において定量モデル算出時に関連性を有する波長(波数)部分(情報性変数)と、関連性を有しない波長(波数)部分(非情報性変数)とを分離し情報性波長(波数)領域を選択する。
【0020】
▲3▼情報性標本の選択
前記較正用標本スペクトルデータのうち、特定成分の含量とPLS法などの多変量解析において定量モデル算出時に関連性を有する較正用標本スペクトル(情報性標本スペクトル)と、関連性を有しない較正用標本スペクトル(非情報性標本スペクトル)とを分離し、情報性標本スペクトルを選択する。
▲4▼前記情報性標本及び情報性変数が選択された較正用標本スペクトルデータについてPLS法などの多変量解析を行い、特定成分の含量とスペクトルの定量モデルを得る。
【0021】
▲5▼未知標本のスペクトルをとり、前記▲4▼で得られた特定成分の含量とスペクトルの定量モデルより、該特定成分の含量を予測する。
前記情報性変数の選択、情報性標本の選択はそれぞれ単独でも特定成分含量の予測性能の改善を行うことができるが、特に前記▲2▼、▲3▼順番で両者を適用することにより、優れた予測性能を得ることができる。
【0022】
以下、本発明において特徴的な情報性波長変数の選択、情報性標本の選択についてそれぞれ説明する。なお、以下の説明においては、非情報性波長変数の除去方法についてはUVE(Uninformative Variable Elimination)と呼び、情報性標本の選択方法についてはUSE(Uninformative Sample Elimination)法とよぶ。また、UVEについて、本発明者らはその予測性能及び演算負荷をさらに改良した方法を開発しており、これについてはMUVE(Modified Uninformative Variable Elimination)と称呼する。さらに、全体の方法についてはその処理順番を考慮しつつ、例えばMUVE−USE−PLS法とよぶこととする。
【0023】
[非情報性波長変数の除去]
非情報性波長変数の除去方法については、本発明者らが新たに開発したMUVE−PLS法のほか、UVE−PLS法、b−係数法、相関係数法などの従来法があるが、これらはいずれも非情報性波長変数の除去方法として、前記非情報性標本の除去方法とともに用いることができる。このうち、特に好適なものは、MUVE−PLS法である。
以下に、それぞれの非情報性変数除去方法について説明する。
【0024】
UVE−PLS法
標準PLSモデルは濃度変数(或いは従属変数)y(n,1)と、波長(或いは波数)変数(或いは独立変数)X(n,p)の関係を下記等式1で表現する。
【数13】
y=Xb+e …(1)
ここで、b(1,p)はPLS回帰係数のベクトルであり、e(n,1)はモデルで説明することのできないエラーのベクトルである。
【0025】
マトリックスX(n,p)のpカラム(或いはp変数)の中で一部は重要であるが、そのすべてがモデル形成に寄与するものではない。このような非情報性波長変数を除去するため、マザートらはUVE−PLS法を提案した。図1(a)はそのアルゴリズムの概略を示す。
(1)予測マトリックスX(n,p)および濃度ベクトルy(n,1)からもっとも小さいRMSEPとなるPCs(A1)の数を決定する。ここで、RMSEPは次の等式(2)により定義される。
【0026】
【数14】
Figure 0004177933
ここで、yiおよびyi はそれぞれy(n,1)の中のi番目の測定値および予測値である。そして、A2=A1とする。
【0027】
(2)X(n,p)と同じ大きさの人為的ノイズマトリックスR(n,p)を形成する。このマトリックスR(n,p)をX(n,p)に合成する。この結果得られるマトリックスはXR(n,2p)と呼ばれ、最初のカラムのpはXのそれとなり、最後のカラムのpはRのそれとなる。
(3)XR(n,2p)からleave-one-out法によりPCsA2の数に基づきn個のPLSモデルの演算を行う。この結果b−係数マトリックスB(n,2p)が得られる。
(4)次の等式(3)に基づき、B(n,2p)の各カラムに対して標準偏差s(bj)を演算する。
【0028】
【数15】
Figure 0004177933
ここで、bはB(n,2p)からのカラムベクトルjの平均であり、bijはB(n,2p)のi,jの要素である。そして、各変数jに対してcj=bj/s(bj)(j=1〜2p)の値を演算する。
(5)ノイズマトリックスRに対応する波長変数の中からもっとも大きいcjの値の絶対値であるq値を次の式に基づき決定する。
【0029】
【数16】
q=max{abs(j)},j=p+1〜2p …(4)
(6)j=1〜pにおいてabs(cj)<qとなる波長変数をXから除去する。
(7)残存変数により新たなマトリックスXnew(N,p')を形成する。p’はカラムの新たな数である。
(8)PCsA2の数に基づきXnewに対してleave-one-out法でPLSモデルを形成し、前記式2に従ってRMSEPnewを算出して、新たなモデルの予測能力の評価を行う。
【0030】
(9)RMSEPnewとRMSEPの間で比較を行う。
(10)もし、RMSEPnew≧RMSEPであれば、非情報性波長変数の除去はPLSにおけるモデル化を改善しないから処理を終了し、最後のPLSモデルをA2PCsに基づき形成する。
(11)もし、RMSEPnew<RMSEPであれば、A2の値が大きすぎることによるオーバーフィッティングによりモデルが形成された可能性がある。この場合前記(2)よりA2=A2−1およびRMSEP=RMSEPnewに基づきアルゴリズムを繰り返す。
【0031】
MUVE−PLS法
MUVE−PLS法には、前記UVE−PLS法の改善を行うため、ハーランドおよびトーマスらにより指摘されたPCsの最適数の選定のガイドラインを採用した。この手法の要約は以下の通りである。
(1)F(A)=PRESS(APCsのモデル)/PRESS(APCsのモデル)をA=1〜Aについて演算する。ここで相互確認モデルについてPRESS(Prediction Error Sum of Square)は以下の等式により定義される。
【0032】
【数17】
Figure 0004177933
最小PRESSを生じさせるPCsの数はAで表される。
(2)PCsの最適数としてF(A)<Fa:n,nとなるような最小のAを選択する。ここでFa;n,nは自由度対[n,n]のF分布の(1−α)パーセントを示し、nは較正標本の数である。Aの最適数を決定するため、αの値を決定しなければならない。αの値を決定する代わりに、経験的にFa;n,nの値を通常もっとも適合する1.1に固定することができる。換言すれば、PCsの最適値は、そのモデルに対するPRESSがA*PCsのモデルに対するよりも著しく大きくはならない最小モデル(或いはPCsの最小数)により決定でき、これはPRESS(A)<1.1×PRESS(A*)となることを意味する。ここではこのガイドラインをPRESS標準値と呼ぶこととする。
【0033】
MUVE−PLSアルゴリズムは図1(b)に示すように従来法と近似した手順を経ており、(2)〜(7)はPRESS標準値から誘導されるA3PCsを用いて処理される。結果として得られるマトリックスXnewに対して最終的なPCsの最適値を決定するためPRESS標準値を再度適用する。最終的なPLSはA4PCsに基づき形成される。従来法と比較し、繰り返しループが存在しないためUVE−PLS法と比較して演算時間がUVE−PLS法でのループの回数分の一に短縮される。
【0034】
b−係数法
b−係数法の手順は、オートスケールされたデータXR(n,2p)のPLS b−係数を用いる。b−係数(bj,j=1〜2p)を得た後、波長変数(bj,j=1〜p)および人為的ノイズ変数(bj,j=p+1〜2p)でのb−係数を比較する。ノイズ変数よりも小さなb−係数を有する波長変数は非情報性であるとして棄却される。
【0035】
相関係数方法
相関係数方法においては、次式に基づきy(n,1)とXR(n,2p)のj番目のカラムの間で2p 相関係数(ρj,j=1〜2p)を計算した。
【数18】
Figure 0004177933
ここでyiおよびXRijは、それぞれyおよびXRのi番目およびi,jの要素であり、y AVおよびXRij AVはそれぞれyおよびXRのiに関する平均値である。そして、波長変数(j=1〜p)に対するρj値、および人為的ノイズ変数(j=p+1〜2p)に対するそれを比較する。これは、ノイズ変数よりも小さな相関係数を有する波長変数は除去されることを意味する。
【0036】
[非情報性標本の除去]
図2には本発明にかかるMUVE−USE−PLS法の概略構成が示されている。
同図において、
(1)まず、MUVE法を主因子(Principal Components PCs)Aに基づき較正データ群に適用する。この段階で非情報性波長変数は除去される。
(2)i番目(1≦i≦n)標本について、予測エラー値e(i)を演算する。同時に、RMSEP(Root Mean Squares Error of Prediction)が評価される。
【0037】
(3)i番目の標本について、予測エラー値の標準偏差σ(i)が「leave-one-out法」により演算される。すなわち、σ(i)はe(i)を除く他の(n−1)e(j)から、以下の等式により演算される。
【数19】
Figure 0004177933
ここで、yi はi番目の標本の予測値である。
【0038】
(4)e(i)(abs{e(i)})および3σ(i)の絶対値でどちらが大きいかの比較を各iについて行う。
(5)もし、abs{e(i)}≧3σ(i)であれば、i番目の標本は非情報性標本であるとして除去され、PLSモデルはAPCsとともに残りの較正データから形成される。そして、前記(2)に帰還する。
(6)もし、abs{e(i)}<3σ(i)であれば、最終的なPLSモデルを用いて形成する。
【0039】
前記方法において、通常の標本に対して例外的な標本を判別する能力は、leave-one-out法によりσ(i)値の演算を行うことで向上する。このMUVE−USE−PLS法は従来のMUVE−PLSプログラムの若干の修正により行うことができる。
【0040】
【実施例】
以下、本発明のより具体的な実施例について説明する。
スペクトルデータ群
較正を行うスペクトルデータ群として、ここでは各種モル分率を有した水−エタノール混合物の中赤外吸収スペクトル30種を用いた。これらのスペクトルは、温度コントロール全反射(ATR)アタッチメントセル(モデルATR−LG)を備えた顕微フーリエ変換吸収スペクトル測定装置(MFT−2000 日本分光株式会社製)を用いて測定した。各スペクトルについて、波数範囲600〜4600cm-1に対して3.59cm-1のスペクトル分解能で16回積算で測定を行った。データポイント数は1038である。混合物の温度は25℃に維持した。30種の混合物のエタノールモル分率χethを表1に示す。水はMilli−Qシステム(ミリポア製)により調製し、エタノールは試薬級(和光純薬製)を用いた。図3は前記混合物の30種のスペクトルを示す。5つの特徴的な振動バンドが認められる:(1)水およびエタノールのOH−伸縮バンドの重複した部分(3050〜3900cm-1)、(2)エタノールのCH−伸縮バンド(2600〜3050cm-1)、(3)水およびエタノールのベンディングバンド(1500〜1810cm-1)、(4)エタノールのCH−ベンディングバンド(1200〜1520cm-1)および(5)エタノールのCO−伸縮バンド(950〜1200cm-1)。
【0041】
【表1】
Figure 0004177933
【0042】
[非情報性波長変数除去方法に対する予測能力の比較]
異なる非情報性波長変数除去方法を用いた較正方法から得られた最適予測結果を表2および図4に示す。
【表2】

較正方法 RMSEP PCs数 情報性変数残存数
(1)PLS 1680 15 1038
(2)UVE-PLS 889 A1=15,A2=11 65
(3)MUVE-PLS 852 A3=8, A4=4 70
(4)b-係数法 4194 15 26
(5)相関係数法 1157 15 791
a:×10−5
標準PLS法は15PCsについてRMSEP=1680×10−5を与えたのに対し、従来のUVE−PLS法は11PCs(A1=15,A2=11)についてRMSEP=889×10−5を与えた。1038点のうち、維持された波長変数は65点であった。これは従来のPLS法に対するUVE−PLS法の優位性を示している。一方、MUVE−PLS法は4PCs(A3=8,A4=4)に対してRMSEP=852×10−5であり、維持された波長変数の数は70であった。維持された70変数に対する波数領域は、図4(b)に示されており、混合物の典型的スペクトル(χeth=0.493)は図4(a)に、対応を明らかにするため示されている。水およびエタノール混合物の特徴的な5種の振動バンドが選択されており、維持された波数領域は合理的である。ここで、二本の点線は標準値の±qを示しており、±qの間の値の変数は非情報性であるとして除去されている。MUVE法の演算時間は従来法のそれと比較して約1/6となっている。この結果はMUVE法が実際的な状態で極めてよく機能することを示している。
【0043】
図4(c)および(d)は、b−係数法と相関法の結果をそれぞれ示している。b−係数法は15PCsについてRMSEP=4194×10−5であり、維持された波長変数の数は26である。維持波長変数の数は大きく減少しているが、RMSEPの値は標準PLS法よりも大きくなっている。加えて、維持された波数領域は、むしろ物理的な意味にかけており、重要な3500cm-1付近のOH−伸縮バンドが非情報性であるとして除去されている。一方、相関係数法は15PCsについてRMSEP=1157×10−5を与えており、維持された波長変数の数は791である。この場合、RMSEPの値は標準PLS法のそれに比べて大きく改善はされておらず、大きくスペクトル領域が情報性であるとして維持されている。
【0044】
図5(b)は、UVE−PLS法における波長変数選択時のPCsの数をパラメータとして保持された情報性波長変数と変数jの関係を示している。ここで、レベル1および0は保持された情報性波長変数と除去された非情報性波長変数をそれぞれ示している。図4(b)は図3(a)と同じ典型的なスペクトルを示している。これらの図において、従来のUVE=PLS法はPCs=11(A1=15,A2=11)の場合に相当し、MUVE法はPCs=8(A3=8,A4=4)の場合に相当する。PCs≧8の場合の維持変数の数は、ほぼ同一であり、得られたRMSEPも変化がない。この結果はこのMUVE−PLS法の有効性を再度示している。
【0045】
以上のように従来のUVE−PLS法は、人為的に導入されたノイズ変数との比較において直接的に非情報性波長変数の除去が行われるという点では、他の方法に比較して優れている。しかしながらこの方法は、実際上次の2点の問題を有する。すなわち波長変数選択時および定量モデル算出時におけるPCsの数が相対的に大きくなってしまいオーバーフィッティングが行われ、また演算時間が長いことである。本発明はPRESS標準を取り入れることによりこれらの二つの問題を解決した。MUVE−PLS法の実際的な有効性を示すため行った各種モル分率の水−エタノール混合物の中赤外吸収スペクトルの較正データ群に適用した場合にも、本発明が優れた結果を示した。
【0046】
[非情報性標本の除去と非情報性波長変数除去方法の組み合わせ効果]
本実施例において用いられるスペクトル較正データ群は、前記同様30種の各種モル比の水−エタノール混合物の中赤外吸収スペクトルを用いた。USEアルゴリズムの標本除去能を示すため、ここでは19番目の標本のエタノールモル分率を真値(χeth=0.11)から偽値(χeth=0.08)に故意に変更した。混合物のモル分率比は前記表1に示されている。
【0047】
較正方法
前記較正データ群に対して、5種のモデリング方法を適用した。それらの関係は図6に示される。
(1)PLS:与えられた較正データ群に対して標準最小RMSEP法として標準PLS法を適用した。
(2)MUVE−PLS:較正データ群に対してMUVE−PLS法を適用した。
(3)USE−PLS:与えられた較正データ群に対してUSEアルゴリズムの適用を行った。USE適用の後、MUVE法を除く標準PLS法を適用した。
【0048】
(4)MUVE−USE−PLS:MUVE法により処理された較正データ群に対してUSEアルゴリズムの適用を行った。この後、標準PLS法を実行した。
(5)USE−MUVE−PLS:与えられた較正データに対してまず最初にUSEアルゴリズムの適用を行う。USEの後、MUVE−PLSを実行した。この方法は、MUVE−USE−PLS法と適用手法は同じであるが、MUVEとUSEの順番が逆になっている。
【0049】
図7はMUVE−USE−PLS法を前記表1に示した30種のエタノール−水混合物のスペクトルデータ群に適用した結果を示している。図7(a)は、予測エラーe(i)を標本番号iの関数としてプロットしたものであり、第一繰り返しループから得られる。図中二本の点線は±3σ(i)値を示しており、非情報性標本の除去の基準として用いている。前記第一繰り返しから、No.1およびNo.19の二つの標本が除去される。標本No.19はその濃度値が故意に変更されたものであり、有意に除去される。図7(b)は第二繰り返しループから得られた結果である。ここでは、標本No.2が除去されている。図7(c)は第三繰り返しループから得られた結果を示しており、ここでは標本除去が行われておらず、各予測エラー値が±3σ(i)値以下であることを意味する。30種の較正データの中で2種の標本No.1とNo.2が非情報性であるとして除去された。この理由は(1)スペクトル強度の非直線性、及び(2)χethの高濃度領域におけるデータの粗頻度によるものと考えられる。MUVE−USE−PLSアルゴリズムにおいて、最終PLSモデルは残りの27標本を用いて形成された。
【0050】
前記5種の異なる較正方法で得られた最適の予測結果は、表3に要約される。
【表3】

較正方法 RMSEP PCs数 変数残存数 残存標本数
(1)PLS 1757 21 1038 30
(2)MUVE-PLS 1053 4 43 30
(3)USE-PLS 1521 15 1038 29
(4)MUVE-USE-PLS 442 4 43 27
(5) USE-MUVE-PLS 794 6 59 29
【0051】
MUVE−USE−PLS法は、従来のMUVE−PLS法よりも、RMSEP値が小さいことが理解される。これは非情報性標本の除去が行われたためである。一方、USE−MUVE−PLS法はMUVE−USE−PLS法よりもよい結果を与えることはできなかった。これは非情報性標本の除去よりも前に非情報性波長変数の除去を行うことの重要性を示している。これは波長変数の数は通常の場合濃度変数のそれよりも遥かに大きいことによる。
【0052】
以上の結果より、標準PLSモデルの予測能力を改善するため、非情報性標本を較正データ群から除去するMUVE−USE−PLS法が好適であることが理解される。標本除去の指標としては3σを個々の予測エラーと比較され、σ値はleave-one-out法により演算される。これは正確なモデルが必要となるときに有用且つ現実的な手法である。
【0053】
【発明の効果】
以上説明したように本発明にかかるスペクトルデータ処理方法によれば、較正用標本のスペクトルデータより測定のエラーなどにより発生した非情報性標本に関するデータを除去して多変量解析を行うこととしたので、特定成分の含量予測精度を大きく向上させることができる。
また、本発明において、前記標本除去とともに、非情報性波長変数の除去を行うと、より予測精度の向上が図られるとともに、演算負荷の軽減を図ることができる。
特に、非情報性波長変数の除去にPRESS基準を導入することにより、従来のUVE−PLS法などに見られるオーバーフィッティング等の問題を良好に改善することができる。
【図面の簡単な説明】
【図1】本発明において用いられる非情報性変数の除去方法の説明図である。
【図2】本発明において用いられる非情報性標本の除去方法の説明図である。
【図3】水−エタノール混合物の各種モル分率における吸収スペクトルである。
【図4】本発明における非情報性変数除去方法の効果の説明図である。
【図5】PCsの数をパラメータとして、保持された情報性変数と変数jの関係を示す説明図である。
【図6】本発明における非情報性標本の除去方法の効果試験のモデリングの説明図である。
【図7】本発明において最も好適なMUVE−USE−PLS法の較正用スペクトルデータへの適用例の説明図である。

Claims (7)

  1. 既知含量の特定成分を含む多数の較正用標本群のスペクトルデータを多変量解析し、該特定成分含量とスペクトルの関連性から定量モデルを算出し、未知標本中の特定成分含量をそのスペクトルより予測するスペクトルデータ処理方法であって、
    前記多数(n個)の較正用標本群のうち、一の較正用標本(i番目)のスペクトルデータを除外して未知標本とし、多変量解析を行うleave-one-out法により特定成分含量とスペクトルの仮定量モデルaを演算し、該i番目の較正用標本の特定成分含量とそのスペクトルを前記仮定量モデルに適用した場合の予想含量を比較して予測エラー値e(i)を演算する予測エラー値演算工程と、
    前記予測エラー値e(i)が、該i番目の較正用標本の前記予測エラー値e(i)を除外して得た所定分散範囲内であるか否かを判定する判定工程と、
    前記予測エラー値e(i)が所定分散範囲外である場合に、該i番目の較正用標本を較正用標本群から除外し、残存較正用標本群について前記予測エラー値演算工程以降を繰り返し行い、前記予測エラー値e(i)が所定分散範囲内である場合に残存較正用標本群に対して多変量解析を行う分岐工程と、
    を含む非情報性標本除外機構を有することを特徴とするスペクトルデータ処理方法。
  2. 請求項1記載の方法において、前記予測エラー値e(i)は
    (数1)
    e(i)=yi−yi p
    (ここで、yはi番目の較正用標本の特定成分含量、y はその較正用標本を除いた較正用標本群から得た定量モデルより算出した予測値)
    前記分散範囲は、次記数2により算出されるσ(i)に所定係数を乗算したものであることを特徴とするスペクトルデータ処理方法。
    Figure 0004177933
  3. 請求項1又は2記載の方法において、前記非情報性標本除外機構の前段階に非情報性波長変数除外機構を有することを特徴とするスペクトルデータ処理方法。
  4. 既知含量の特定成分を含む多数の較正用標本群のスペクトルデータを非情報性波長変数除外機構を含むPLS法によって多変量解析し、該特定成分含量とスペクトルの定量モデルを算出し、未知標本中の特定成分含量をそのスペクトルより予測するスペクトルデータ処理方法であって、
    非情報性波長変数除外機構は、
    従属変数である濃度変数y(n,1)と、独立変数である波長変数X(n,p)の関係を下記数3で表現した場合、
    (数3)
    y=Xb+e
    (ここで、b(1,p)はPLS回帰係数のベクトルであり、e(n,1)はモデルで説明することのできない誤差のベクトルである。)
    (パラメータpはマトリックスXの列とベクトル b の成分数であり、主因子数すなわち PC s数である。)
    長変数マトリックスX(n,p)に対して、下記<1>,<2>によるPRESS基準で定量モデル算出時における主因子(PCs)数の最適値の決定を行い、
    {<1>F(A)=PRESS(APCsのモデル)/PRESS(APCsのモデル)をA=1〜Aについて演算する。ここで相互確認モデルについてPRESS(Prediction Error Sum of Square)を以下の等式により定義する。
    Figure 0004177933
    最小PRESSを生じさせるPCsの数はAで表される。
    <2>PCsの最適数として前記<1>において計算したF(A)についてF(A)<Fa:n,nとなるような最小のAを選択する。ここでFa;n,nは自由度対[n,n]のF分布の(1−α)パーセントを示し、nは較正標本の数である。}
    前記マトリックスX(n,p)と同じ大きさのノイズマトリックスR(n,p)を形成し、両者を合成してマトリックスXR(n,2p)を作成し、
    前記合成マトリックスXR(n,2p)からleave-one-out法により前記PCs数に基づきPLS法モデルの演算を行い、b−係数マトリックスB(n,2p)を作成し、
    前記マトリックスB(n,2p)の各カラムに対して標準偏差s(bj)の演算を行い、
    Figure 0004177933
    (ここで、bはB(n,2p)からのカラムベクトルjの平均であり、bijはB(n,2p)のi,jの要素である。)
    更にc=b/s(b)(j=1〜2p)を各波長変数jについて演算を行い、
    ノイズマトリックスRに対応する波長変数の中から最も大きいcの絶対値であるq値を次式に基づき決定し、
    (数6)
    q=max{abs(c)},j=p+1〜2p
    j=1〜pにおいてabs(c)<qとなる波長変数をXより除外し、残存変数により新たなマトリックスXnew(N,p')を形成する、
    該非情報性波長変数除外機構により、前記マトリックスXから前記マトリックスX new を形成する改変UVE−PLS法であることを特徴とするスペクトルデータの処理方法。
  5. 請求項4記載の方法において、Fa:n,nは1.1に固定されていることを特
    徴とするスペクトルデータの処理方法。
  6. 請求項1〜5記載の方法において、非情報性標本除外後に、PLS法により情報性較正用標本の多変量解析を行うことを特徴とするスペクトルデータの処理方法。
  7. 請求項3記載の方法において、非情報性波長変数除外機構は、請求項3記載の方法において、非情報性波長変数除外機構は、「従属変数である濃度変数y (n,1) と、独立変数である波長変数X (n,p) の関係を下記数3で表現した場合、
    (数3)
    y=Xb+e
    (ここで、b (1,p) はPLS回帰係数のベクトルであり、e (n,1) はモデルで説明することのできない誤差のベクトルである。)
    (パラメータpはマトリックスXの列とベクトル b の成分数であり、主因子数すなわち PC s数である。)
    波長変数マトリックスX (n,p) に対して、下記<1>,<2>によるPRESS基準で定量モデル算出時における主因子(PCs)数の最適値の決定を行い、
    {<1>F(A)=PRESS(APCsのモデル)/PRESS(A PCsのモデル)をA=1〜A について演算する。ここで相互確認モデルについてPRESS( Prediction Error Sum of Square )を以下の等式により定義する。
    Figure 0004177933
    最小PRESSを生じさせるPCsの数はA で表される。
    <2>PCsの最適数として前記<1>において計算したそれぞれのF(A)について次式に代入してF(A)<F a:n,n となるような最小のAを選択する。ここでF a;n,n は自由度対[n , n]のF分布の(1−α)パーセントを示し、nは較正標本の数である。}
    前記マトリックスX (n,p) と同じ大きさのノイズマトリックスR (n,p) を形成し、両者を合成してマトリックスXR (n,2p) を作成し、
    前記合成マトリックスXR (n,2p) から leave-one-out 法により前記PCs数に基づきPLS法モデルの演算を行い、b−係数マトリックスB (n,2p) を作成し、
    前記マトリックスB (n,2p) の各カラムに対して標準偏差s (b j ) の演算を行い、
    Figure 0004177933
    (ここで、b はB (n,2p) からのカラムベクトルjの平均であり、b ij はB (n,2p) のi,jの要素である。)
    更にc =b /s(b )(j=1〜2p)を各波長変数jについて演算を行い、
    ノイズマトリックスRに対応する波長変数の中から最も大きいc の絶対値であるq値を次式に基づき決定し、
    (数6)
    q=max{abs(c )},j=p+1〜2p
    j=1〜pにおいてabs(c )<qとなる波長変数をXより除外し、残存変数により新たなマトリックスX new(N,p') を形成する、
    該非情報性波長変数除外機構により、前記マトリックスXから前記マトリックスX new を形成する改変UVE−PLS法であること、又は該非情報性波長変数除外機構において前記<2>はF a:n,n は1.1に固定されていることを特徴とするスペクトルデータの処理方法。
JP15074699A 1999-05-28 1999-05-28 スペクトルデータ処理方法 Expired - Fee Related JP4177933B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15074699A JP4177933B2 (ja) 1999-05-28 1999-05-28 スペクトルデータ処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15074699A JP4177933B2 (ja) 1999-05-28 1999-05-28 スペクトルデータ処理方法

Publications (2)

Publication Number Publication Date
JP2000338038A JP2000338038A (ja) 2000-12-08
JP4177933B2 true JP4177933B2 (ja) 2008-11-05

Family

ID=15503525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15074699A Expired - Fee Related JP4177933B2 (ja) 1999-05-28 1999-05-28 スペクトルデータ処理方法

Country Status (1)

Country Link
JP (1) JP4177933B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003057178A (ja) * 2001-08-17 2003-02-26 Horiba Ltd 多成分分析装置
JP6436649B2 (ja) * 2013-05-31 2018-12-12 キヤノン株式会社 データの処理方法及び装置
KR101437410B1 (ko) 2014-04-16 2014-09-11 대한민국 태양광흡수분광장치 및 태양광흡수분광장치의 스펙트럼 처리 방법
CN113340874B (zh) * 2020-03-02 2023-07-18 中国科学院沈阳自动化研究所 一种基于结合岭回归和递归特征消除的定量分析方法
CN111751364B (zh) * 2020-06-28 2023-05-23 浙江省农业科学院 蜂王浆水溶性蛋白和总糖快速测定方法
CN113065095B (zh) * 2021-03-31 2023-09-19 三峡大学 一种基于紫外光谱的水中氮含量检测算法
CN115266583B (zh) * 2022-07-16 2023-07-04 北京津发科技股份有限公司 环境光滤除方法、系统、计算机设备及计算机可读存储介质
CN117851979B (zh) * 2024-03-07 2024-05-03 常熟市宏宇钙化物有限公司 基于近红外光谱技术的氢氧化钙浓度检测方法

Also Published As

Publication number Publication date
JP2000338038A (ja) 2000-12-08

Similar Documents

Publication Publication Date Title
Karagiannis et al. Constraining primordial non-Gaussianity with bispectrum and power spectrum from upcoming optical and radio surveys
Demattê et al. Soil analytical quality control by traditional and spectroscopy techniques: Constructing the future of a hybrid laboratory for low environmental impact
US20200257015A1 (en) Model based discriminant analysis
Filzmoser et al. Repeated double cross validation
Beaudoin et al. Tracking forest attributes across Canada between 2001 and 2011 using ak nearest neighbors mapping approach applied to MODIS imagery
Tan et al. Analysis of different hyperspectral variables for diagnosing leaf nitrogen accumulation in wheat
Guo et al. Rapid quantitative analysis of adulterated rice with partial least squares regression using hyperspectral imaging system
JP4177933B2 (ja) スペクトルデータ処理方法
US8635258B2 (en) Alignment of multiple liquid chromatography-mass spectrometry runs
Yu et al. Prediction of soil properties based on characteristic wavelengths with optimal spectral resolution by using Vis-NIR spectroscopy
JP5945365B2 (ja) Nmrスペクトルから物質を同定するための方法
EP2859313B1 (en) System and method for determining the presence of spectral components in the spectra of mixture
CN108960193B (zh) 一种基于迁移学习的跨组分红外光谱模型移植方法
Goldshleger et al. Using reflectance spectroscopy and artificial neural network to assess water infiltration rate into the soil profile
Danesh et al. Modeling of soil sand particles using spectroscopy technology
Xia et al. Non-destructive analysis the dating of paper based on convolutional neural network
Xu et al. Optimizing machine learning models for predicting soil pH and total P in intact soil profiles with visible and near-infrared reflectance (VNIR) spectroscopy
KR20050080818A (ko) 가중된 회귀모델 결정 방법 및 이를 이용한 혼합물의 성분농도 예측 방법
CN113435115B (zh) 一种荧光光谱特征波长筛选方法、装置、计算机设备及可读储存介质
Pétry et al. Uncertainty evaluation in atomic force microscopy measurement of nanoparticles based on statistical mixed model in a Bayesian framework
Westfall et al. Measurement variability error for estimates of volume change
Amasaki et al. A replication study on the effects of weighted moving windows for software effort estimation
CN110579467B (zh) 一种时间分辨激光诱导击穿光谱定量方法
Németh et al. Detectability of concentration‐dependent factors by application of PCA. An indicator curve for the determination of important principal components and a post‐correction for transformation of principal components to factors
Hromadka A rainfall-runoff probabilistic simulation program: 2. Synthetic data analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080401

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080602

TRDD Decision of grant or rejection written
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080602

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080805

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080825

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130829

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees