JP2000338038A

JP2000338038A - スペクトルデータ処理方法

Info

Publication number: JP2000338038A
Application number: JP11150746A
Authority: JP
Inventors: Jun Koshobu; 純小勝負; Tetsuo Iwata; 哲郎岩田
Original assignee: Jasco Corp
Current assignee: Jasco Corp
Priority date: 1999-05-28
Filing date: 1999-05-28
Publication date: 2000-12-08
Anticipated expiration: 2019-05-28
Also published as: JP4177933B2

Abstract

(57)【要約】【課題】本発明の第一の目的は、非情報性の標本を適
切に除去することであり、第二の目的は、非情報性波長
変数の適切な除去および情報性波長変数の適切な保持を
行うことである。【解決手段】本発明にかかるスペクトルデータ処理方
法は、較正用標本のスペクトルデータより測定のエラー
などにより発生した非情報性標本に関するデータを除去
して多変量解析を行うこととしたので、特定成分の含量
予測精度を大きく向上させることができる。また、本発
明において、前記標本除去とともに、非情報性変数の除
去を行うと、より予測精度の向上が図られるとともに、
演算負荷の軽減を図ることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はスペクトルデータの
処理方法、特にスペクトルの多変量解析による特定成分
含量の予測機構の改良に関する。

【０００２】

【従来の技術】生体成分、或いは石油などの、特に天然
に由来する標本は通常の場合、極めて多くの成分を含ん
でおり、その中から特定成分の定量を行うため分光分析
などにより得られるスペクトルデータは、該特定成分の
スペクトルのみならず、他の多くの成分のスペクトルが
重畳されたものとなる。従って、これら多くの不純物の
存在割合などが不明の場合には、単にその標本のスペク
トルを得ただけでは特定成分の定量を行うことはできな
い。

【０００３】そこで、近年、このような多くの成分を含
む標本より特定成分の定量分析を行うため、多変量解析
技術が注目されている。すなわち、この多変量解析技術
においては、既知量の特定成分が含まれた較正用標本の
スペクトルデータを多く採取し、その特定成分含量とス
ペクトルデータの関係を統計的に処理することで、両者
間の定量モデルを見いだし、未知標本の特定成分含量予
測に適用するものである。

【０００４】一方、較正用標本のスペクトルデータの中
には明らかに特定成分の含有量とは関連のない波長（波
数）領域も存在し、これらは定量モデルを算出する際の
過剰な負荷となるばかりでなく、場合によっては予測精
度を低下させるノイズともなる。従来において、これら
のノイズをとるデータ処理技術としてマザート（Massar
t et al）らにより開発されたＵＶＥ−ＰＬＳ法（Uninf
ormative Variable Elimination - Partial Least Squa
res method；非情報性変数除去−偏最小自乗法）などが
適用されていた。

【０００５】このＵＶＥ−ＰＬＳ法は、通常のＰＬＳ法
の予測能力を向上させるアルゴリズムであり、定量モデ
ル形成に寄与しない波長（或いは独立の）変数を除去す
ることができる。この方法で重要なのは、実験変数と故
意に加えられた人為的ノイズ変数とを、定量モデル形成
への寄与という観点から比較することである。ノイズ変
数の数は実験変数と同一である。

【０００６】

【発明が解決しようとする課題】しかしながら、前記較
正用標本は、その特定成分含量については別途の方法に
より定量されてはいるものの、その測定自体が必ずしも
正確とは限らず、多くの較正用標本のスペクトルデータ
の中には大きなエラーを含むものも存在し、これは特定
成分含量とスペクトルデータの定量モデルを算出する際
のノイズとなる。

【０００７】これらの予期しない実験的エラーや測定ノ
イズが波長変数と同様に濃度（或いは独立の）変数に導
入されてしまうと、ＰＬＳモデルの予測能力を低下させ
る。例えば、較正データとしてまったく用いることので
きない標本を何らかの理由により偶然に較正用標本とし
て導入することもあり得る。このような問題に対処する
多くのロバストモデリング技術が開発されてきたにも関
わらず、その多くは与えられた波長変数のすべてを用い
るものであった。このため、波長変数の中には、モデル
の形成に寄与しない非情報性のものが含まれている。モ
デルの予測能力を増強するためにはこのような非情報性
波長変数の除去を適切に行い、その後に非情報性標本の
除去を行うことが効果的である。換言すれば、非情報性
標本の除去は、情報性波長変数のみに対して情報の有無
を考慮し除去されなければならない。

【０００８】更に、前記マザートらのＵＶＥ−ＰＬＳ法
を実際に測定された較正用スペクトルデータに適用した
ところ、場合によりＰＬＳ法での定量モデル算出時の因
子数が予期したものよりも大きくなる傾向にあり、特に
ノイズの多いスペクトルデータにおいてこの傾向が顕著
であることが明らかとなった。ここで、因子数の大きさ
は主成分分析における主因子（Principal Components
(PCs)）のそれと同じである。これはＰＣｓの数が最低
のＲＭＳＥＰ標準値を用いることによって決定されてい
ることによる。ＲＭＳＥＰ標準値は、それ自体は明瞭で
あるが、モデルがオーバーフィッティングの状態で形成
される危険性がある。この場合、次の二つの状態が発生
する。すなわち除去されるべき非情報性波長変数が除去
されず、或いは残されるべき情報性波長変数が残されな
い状態である。この二つの状態では、ＰＬＳの予測能力
は低下する。

【０００９】本発明は前記従来技術の課題に鑑みなされ
たものであり、その第一の目的は、非情報性の標本を適
切に除去することであり、第二の目的は、非情報性変数
の適切な除去および情報性変数の適切な保持を行うた
め、定量モデル算出時に適切な因子数を選択することで
ある。

【００１０】

【課題を解決するための手段】前記目的を達成するため
に本発明は、既知含量の特定成分を含む多数の較正用標
本群のスペクトルデータを多変量解析し、該特定成分含
量とスペクトルの相関を算出し、未知標本中の特定成分
含量をそのスペクトルより予測するスペクトルデータ処
理方法であって、前記多数（ｎ個）の較正用標本群のう
ち、一の較正用標本（ｉ番目）のスペクトルデータを除
外して多変量解析を行うleave-one-out法により特定成
分含量とスペクトルの仮定量モデルを演算し、該ｉ番目
の較正用標本の特定成分含量とそのスペクトルを前記仮
定量モデルに適用した場合の予想含量を比較して予測エ
ラー値ｅ(i)を演算する予測エラー値演算工程と、前記
予測エラー値ｅ(i)が、該ｉ番目の較正用標本の前記予
測エラー値ｅ(i)を除外して得た所定分散範囲内である
か否かを判定する判定工程と、前記予測エラー値ｅ(i)
が所定分散範囲外である場合に、該ｉ番目の較正用標本
を較正用標本群から除外し、残存較正用標本群について
前記予測エラー値演算工程以降を繰り返し行い、前記予
測エラー値ｅ(i)が所定分散範囲内である場合に残存較
正用標本群に対して多変量解析を行う分岐工程と、を含
む非情報性標本除外機構を有することを特徴とする。

【００１１】また、本発明にかかる方法において、前記
予測エラー値ｅ(i)は

【数７】ｅ(i)＝ｙ_i−ｙ_i ^p （ここで、ｙ_ｉはｉ番目の較正用標本の特定成分含量、
ｙ_ｉ ^ｐはその較正用標本を除いた較正用標本群から得た
定量モデルより算出した予測値）前記分散範囲は、次記数８により算出されるσ(i)に所
定係数を乗算したもの、例えば３σ(i)であることが好
適である。

【００１２】

【数８】また、本発明にかかる方法において、前記非情報性標本
除外機構の前段階に非情報性変数除外機構を有すること
が好適である。

【００１３】また、本発明にかかるスペクトルデータ処
理方法において、非情報性変数除外機構は、濃度変数
（或いは従属変数）ｙ(n,1)と、波長（或いは波数）変
数（或いは独立変数）Ｘ(n,p)の関係を下記数３で表現
した場合、

【数９】ｙ＝Ｘｂ＋ｅ（ここで、ｂ(1,p)はＰＬＳ回帰係数のベクトルであ
り、ｅ(n,1)はモデルで説明することのできない誤差の
ベクトルである。）波長（又は波数）変数マトリックスＸ(n,p)に対して、
下記，によるＰＲＥＳＳ基準で定量モデル算出時に
おける主因子（ＰＣｓ）数の最適値の決定を行い、Ｆ
（Ａ）＝ＰＲＥＳＳ（ＡＰＣｓのモデル）／ＰＲＥＳＳ
（Ａ^＊ＰＣｓのモデル）をＡ＝１〜Ａ^＊について演算す
る。ここで相互確認モデルについてＰＲＥＳＳ（Predic
tion Error Sum of Square）を以下の等式により定義す
る。

【００１４】

【数１０】最小ＰＲＥＳＳを生じさせるＰＣｓの数はＡ^＊で表され
る。ＰＣｓの最適数としてＦ（Ａ）＜Ｆa:n,nとなるよう
な最小のＡを選択する。ここでＦa;n,nは自由度対［ｎ,
ｎ］のＦ分布の（１−α）パーセントを示し、ｎは較正
標本の数である。｝

【００１５】前記マトリックスＸ(n,p)と同じ大きさの
ノイズマトリックスＲ(n,p)を形成し、両者を合成して
マトリックスＸＲ(n,2p)を作成し、前記合成マトリック
スＸＲ(n,2p)からleave-one-out法により前記ＰＣｓ数
に基づきＰＬＳ法モデルの演算を行い、ｂ−係数マトリ
ックスＢ(n,2p)を作成し、前記マトリックスＢ(n,2p)の
各カラムに対して標準偏差ｓ(b_j)の演算を行い、

【数１１】（ここで、ｂ_ｊはＢ(n,2p)からのカラムベクトルｊの平
均であり、ｂ_ijはＢ(n,2p)のｉ，ｊの要素である。）

【００１６】更にｃ_ｊ＝ｂ_ｊ／ｓ（ｂ_ｊ）（ｊ＝１〜２
ｐ）を各波長変数ｊについて演算を行い、ノイズマトリ
ックスＲに対応する波長変数の中から最も大きいｃ_ｊの
絶対値であるｑ値を次式に基づき決定し、

【数１２】ｑ＝ｍａｘ｛ａｂｓ（ｃ_ｊ）｝，ｊ＝ｐ＋１〜２ｐｊ＝１〜ｐにおいてａｂｓ（ｃ_ｊ）＜ｑとなる実験波長
変数をＸより除外し、残存変数により新たなマトリック
スＸnew(N,p')を形成する、改変ＵＶＥ−ＰＬＳ法であ
ることを特徴とする。

【００１７】また、前記方法において、Ｆa:n,nは１．
１に固定されていることが好適である。また、前記方法
において、非情報性標本除外後に、ＰＬＳ法により情報
性較正用標本の多変量解析を行うことが好適である。さ
らに、前記改変ＵＶＥ−ＰＬＳ法による非情報性変数除
去後に、前記非情報性標本除去を行うことが好適であ
る。

【００１８】

【発明の実施の形態】以下、図面に基づき本発明の好適
な実施形態を説明する。本発明にかかる好適な実施形態
においては、以下の手順でスペクトルデータの多変量解
析が行われる。

【００１９】スペクトルデータの採取既知含量の特定成分を含む多数の較正用標本のスペクト
ルデータを採取する。情報性波長変数の選択前記較正用標本スペクトルデータのうち、特定成分の含
量とＰＬＳ法などの多変量解析において定量モデル算出
時に関連性を有する波長（波数）部分（情報性変数）
と、関連性を有しない波長（波数）部分（非情報性変
数）とを分離し情報性波長（波数）領域を選択する。

【００２０】情報性標本の選択前記較正用標本スペクトルデータのうち、特定成分の含
量とＰＬＳ法などの多変量解析において定量モデル算出
時に関連性を有する較正用標本スペクトル（情報性標本
スペクトル）と、関連性を有しない較正用標本スペクト
ル（非情報性標本スペクトル）とを分離し、情報性標本
スペクトルを選択する。前記情報性標本及び情報性変数が選択された較正用標
本スペクトルデータについてＰＬＳ法などの多変量解析
を行い、特定成分の含量とスペクトルの定量モデルを得
る。

【００２１】未知標本のスペクトルをとり、前記で
得られた特定成分の含量とスペクトルの定量モデルよ
り、該特定成分の含量を予測する。前記情報性変数の選
択、情報性標本の選択はそれぞれ単独でも特定成分含量
の予測性能の改善を行うことができるが、特に前記、
順番で両者を適用することにより、優れた予測性能を
得ることができる。

【００２２】以下、本発明において特徴的な情報性波長
変数の選択、情報性標本の選択についてそれぞれ説明す
る。なお、以下の説明においては、非情報性波長変数の
除去方法についてはＵＶＥ（Uninformative Variable E
limination）と呼び、情報性標本の選択方法については
ＵＳＥ（Uninformative Sample Elimination）法とよ
ぶ。また、ＵＶＥについて、本発明者らはその予測性能
及び演算負荷をさらに改良した方法を開発しており、こ
れについてはＭＵＶＥ（Modified UninformativeVariab
le Elimination）と称呼する。さらに、全体の方法につ
いてはその処理順番を考慮しつつ、例えばＭＵＶＥ−Ｕ
ＳＥ−ＰＬＳ法とよぶこととする。

【００２３】［非情報性波長変数の除去］非情報性波長
変数の除去方法については、本発明者らが新たに開発し
たＭＵＶＥ−ＰＬＳ法のほか、ＵＶＥ−ＰＬＳ法、ｂ−
係数法、相関係数法などの従来法があるが、これらはい
ずれも非情報性波長変数の除去方法として、前記非情報
性標本の除去方法とともに用いることができる。このう
ち、特に好適なものは、ＭＵＶＥ−ＰＬＳ法である。以
下に、それぞれの非情報性変数除去方法について説明す
る。

【００２４】ＵＶＥ−ＰＬＳ法標準ＰＬＳモデルは濃度変数（或いは従属変数）ｙ(n,
1)と、波長（或いは波数）変数（或いは独立変数）Ｘ
(n,p)の関係を下記等式１で表現する。

【数１３】ｙ＝Ｘｂ＋ｅ …（１）ここで、ｂ(1,p)はＰＬＳ回帰係数のベクトルであり、
ｅ(n,1)はモデルで説明することのできないエラーのベ
クトルである。

【００２５】マトリックスＸ(n,p)のｐカラム（或いは
ｐ変数）の中で一部は重要であるが、そのすべてがモデ
ル形成に寄与するものではない。このような非情報性波
長変数を除去するため、マザートらはＵＶＥ−ＰＬＳ法
を提案した。図１（ａ）はそのアルゴリズムの概略を示
す。（１）予測マトリックスＸ(n,p)および濃度ベクトルｙ
(n,1)からもっとも小さいＲＭＳＥＰとなるＰＣｓ（Ａ
１）の数を決定する。ここで、ＲＭＳＥＰは次の等式
（２）により定義される。

【００２６】

【数１４】ここで、ｙ_iおよびｙ_i ^ｐはそれぞれｙ(n,1)の中のｉ番
目の測定値および予測値である。そして、Ａ２＝Ａ１と
する。

【００２７】（２）Ｘ(n,p)と同じ大きさの人為的ノイ
ズマトリックスＲ(n,p)を形成する。このマトリックス
Ｒ(n,p)をＸ(n,p)に合成する。この結果得られるマトリ
ックスはＸＲ(n,2p）と呼ばれ、最初のカラムのｐはＸ
のそれとなり、最後のカラムのｐはＲのそれとなる。
（３）ＸＲ(n,2p)からleave-one-out法によりＰＣｓＡ
２の数に基づきｎ個のＰＬＳモデルの演算を行う。この結果ｂ−係数マトリック
スＢ(n,2p)が得られる。（４）次の等式（３）に基づき、Ｂ(n,2p)の各カラムに
対して標準偏差ｓ(b_j)を演算する。

【００２８】

【数１５】ここで、ｂ_ｊはＢ(n,2p)からのカラムベクトルｊの平均
であり、ｂ_ijはＢ（ｎ，２ｐ）のｉ，ｊの要素である。
そして、各変数ｊに対してｃ_j＝ｂ_j／ｓ(b_j)（ｊ＝１〜
２ｐ）の値を演算する。（５）ノイズマトリックスＲに対応する波長変数の中か
らもっとも大きいｃ_jの値の絶対値であるｑ値を次の式
に基づき決定する。

【００２９】

【数１６】ｑ＝ｍａｘ｛ａｂｓ(j)｝，ｊ＝ｐ＋１〜２ｐ …（４）（６）ｊ＝１〜ｐにおいてａｂｓ(c_j)＜ｑとなる波長変
数をＸから除去する。（７）残存変数により新たなマトリックスＸnew(N,p')
を形成する。ｐ’はカラムの新たな数である。（８）ＰＣｓＡ２の数に基づきＸnewに対してleave-one
-out法でＰＬＳモデルを形成し、前記式２に従ってＲＭ
ＳＥＰnewを算出して、新たなモデルの予測能力の評価
を行う。

【００３０】（９）ＲＭＳＥＰnewとＲＭＳＥＰの間で
比較を行う。（１０）もし、ＲＭＳＥＰnew≧ＲＭＳＥＰであれば、
非情報性波長変数の除去はＰＬＳにおけるモデル化を改
善しないから処理を終了し、最後のＰＬＳモデルをＡ２
ＰＣｓに基づき形成する。（１１）もし、ＲＭＳＥＰnew＜ＲＭＳＥＰであれば、
Ａ２の値が大きすぎることによるオーバーフィッティン
グによりモデルが形成された可能性がある。この場合前
記（２）よりＡ２＝Ａ２−１およびＲＭＳＥＰ＝ＲＭＳ
ＥＰnewに基づきアルゴリズムを繰り返す。

【００３１】ＭＵＶＥ−ＰＬＳ法ＭＵＶＥ−ＰＬＳ法には、前記ＵＶＥ−ＰＬＳ法の改善
を行うため、ハーランドおよびトーマスらにより指摘さ
れたＰＣｓの最適数の選定のガイドラインを採用した。
この手法の要約は以下の通りである。（１）Ｆ（Ａ）＝ＰＲＥＳＳ（ＡＰＣｓのモデル）／Ｐ
ＲＥＳＳ（Ａ^＊ＰＣｓのモデル）をＡ＝１〜Ａ^＊につい
て演算する。ここで相互確認モデルについてＰＲＥＳＳ
（Prediction Error Sum of Square）は以下の等式によ
り定義される。

【００３２】

【数１７】最小ＰＲＥＳＳを生じさせるＰＣｓの数はＡ^＊で表され
る。（２）ＰＣｓの最適数としてＦ（Ａ）＜Ｆa:n,nとなる
ような最小のＡを選択する。ここでＦa;n,nは自由度対
［ｎ,ｎ］のＦ分布の（１−α）パーセントを示し、ｎ
は較正標本の数である。Ａの最適数を決定するため、α
の値を決定しなければならない。αの値を決定する代わ
りに、経験的にＦa;n,nの値を通常もっとも適合する
１．１に固定することができる。換言すれば、ＰＣｓの
最適値は、そのモデルに対するＰＲＥＳＳがＡ＊ＰＣｓ
のモデルに対するよりも著しく大きくはならない最小モ
デル（或いはＰＣｓの最小数）により決定でき、これは
ＰＲＥＳＳ（Ａ）＜１．１×ＰＲＥＳＳ（Ａ＊）となる
ことを意味する。ここではこのガイドラインをＰＲＥＳ
Ｓ標準値と呼ぶこととする。

【００３３】ＭＵＶＥ−ＰＬＳアルゴリズムは図１
（ｂ）に示すように従来法と近似した手順を経ており、
（２）〜（７）はＰＲＥＳＳ標準値から誘導されるＡ３
ＰＣｓを用いて処理される。結果として得られるマトリ
ックスＸnewに対して最終的なＰＣｓの最適値を決定す
るためＰＲＥＳＳ標準値を再度適用する。最終的なＰＬ
ＳはＡ４ＰＣｓに基づき形成される。従来法と比較し、
繰り返しループが存在しないためＵＶＥ−ＰＬＳ法と比
較して演算時間がＵＶＥ−ＰＬＳ法でのループの回数分
の一に短縮される。

【００３４】ｂ−係数法ｂ−係数法の手順は、オートスケールされたデータＸＲ
(n,2p)のＰＬＳｂ−係数を用いる。ｂ−係数（ｂ_j，
ｊ＝１〜２ｐ）を得た後、波長変数（ｂ_j，ｊ＝１〜
ｐ）および人為的ノイズ変数（ｂ_j，ｊ＝ｐ＋１〜２
ｐ）でのｂ−係数を比較する。ノイズ変数よりも小さな
ｂ−係数を有する波長変数は非情報性であるとして棄却
される。

【００３５】相関係数方法相関係数方法においては、次式に基づきｙ(n,1)とＸＲ
(n,2p)のｊ番目のカラムの間で２ｐ相関係数（ρ_j，
ｊ＝１〜２ｐ）を計算した。

【数１８】ここでｙ_iおよびＸＲ_ijは、それぞれｙおよびＸＲのｉ
番目およびｉ，ｊの要素であり、ｙ_ｉ ^ＡＶおよびＸＲ_ij
^ＡＶはそれぞれｙおよびＸＲのｉに関する平均値であ
る。そして、波長変数（ｊ＝１〜ｐ）に対するρj値、
および人為的ノイズ変数（ｊ＝ｐ＋１〜２ｐ）に対する
それを比較する。これは、ノイズ変数よりも小さな相関
係数を有する波長変数は除去されることを意味する。

【００３６】［非情報性標本の除去］図２には本発明に
かかるＭＵＶＥ−ＵＳＥ−ＰＬＳ法の概略構成が示され
ている。同図において、（１）まず、ＭＵＶＥ法を主因子（Principal Componen
ts ＰＣｓ）Ａに基づき較正データ群に適用する。この
段階で非情報性波長変数は除去される。（２）ｉ番目（１≦ｉ≦ｎ）標本について、予測エラー
値ｅ(i)を演算する。同時に、ＲＭＳＥＰ（Root Mean S
quares Error of Prediction）が評価される。

【００３７】（３）ｉ番目の標本について、予測エラー
値の標準偏差σ(i)が「leave-one-out法」により演算さ
れる。すなわち、σ(i)はｅ(i)を除く他の（ｎ−１）ｅ
(j)から、以下の等式により演算される。

【数１９】ここで、ｙ_i ^ｐはｉ番目の標本の予測値である。

【００３８】（４）ｅ(i)（ａｂｓ｛ｅ(i)｝）および３
σ(i)の絶対値でどちらが大きいかの比較を各ｉについ
て行う。（５）もし、ａｂｓ｛ｅ(i)｝≧３σ(i)であれば、ｉ番
目の標本は非情報性標本であるとして除去され、ＰＬＳ
モデルはＡＰＣｓとともに残りの較正データから形成さ
れる。そして、前記（２）に帰還する。（６）もし、ａｂｓ｛ｅ(i)｝＜３σ(i)であれば、最終
的なＰＬＳモデルを用いて形成する。

【００３９】前記方法において、通常の標本に対して例
外的な標本を判別する能力は、leave-one-out法により
σ(i)値の演算を行うことで向上する。このＭＵＶＥ−
ＵＳＥ−ＰＬＳ法は従来のＭＵＶＥ−ＰＬＳプログラム
の若干の修正により行うことができる。

【００４０】

【実施例】以下、本発明のより具体的な実施例について
説明する。スペクトルデータ群較正を行うスペクトルデータ群として、ここでは各種モ
ル分率を有した水−エタノール混合物の中赤外吸収スペ
クトル３０種を用いた。これらのスペクトルは、温度コ
ントロール全反射（ＡＴＲ）アタッチメントセル（モデ
ルＡＴＲ−ＬＧ）を備えた顕微フーリエ変換吸収スペク
トル測定装置（ＭＦＴ−２０００日本分光株式会社
製）を用いて測定した。各スペクトルについて、波数範
囲６００〜４６００cm^-1に対して３．５９cm^-1のスペク
トル分解能で１６回積算で測定を行った。データポイン
ト数は１０３８である。混合物の温度は２５℃に維持し
た。３０種の混合物のエタノールモル分率χethを表１
に示す。水はＭｉｌｌｉ−Ｑシステム（ミリポア製）に
より調製し、エタノールは試薬級（和光純薬製）を用い
た。図３は前記混合物の３０種のスペクトルを示す。５
つの特徴的な振動バンドが認められる：（１）水および
エタノールのＯＨ−伸縮バンドの重複した部分（３０５
０〜３９００cm^-1）、（２）エタノールのＣＨ−伸縮バ
ンド（２６００〜３０５０cm^-1）、（３）水およびエタ
ノールのベンディングバンド（１５００〜１８１０c
m^-1）、（４）エタノールのＣＨ_２−ベンディングバン
ド（１２００〜１５２０cm^-1）および（５）エタノール
のＣＯ−伸縮バンド（９５０〜１２００cm^-1）。

【００４１】

【表１】Ｎｏ． χeth Ｎｏ． χeth Ｎｏ． χeth １ 1.000 １１ 0.317 ２１ 0.072 ２ 0.881 １２ 0.281 ２２ 0.058 ３ 0.788 １３ 0.248 ２３ 0.041 ４ 0.695 １４ 0.224 ２４ 0.036 ５ 0.621 １５ 0.198 ２５ 0.024 ６ 0.553 １６ 0.171 ２６ 0.019 ７ 0.493 １７ 0.150 ２７ 0.012 ８ 0.441 １８ 0.124 ２８ 0.006 ９ 0.399 １９ 0.110 ２９ 0.002 １０ 0.358 ２０ 0.090 ３０ 0.000

【００４２】［非情報性波長変数除去方法に対する予測
能力の比較］異なる非情報性波長変数除去方法を用いた
較正方法から得られた最適予測結果を表２および図４に
示す。

【表２】較正方法ＲＭＳＥＰ^ａＰＣｓ数情報性変数残存数（１）ＰＬＳ 1680 15 1038 （２）UVE-PLS 889 A1=15,A2=11 65 （３）MUVE-PLS 852 A3=8, A4=4 70 （４）b-係数法 4194 15 26（５）相関係数法 1157 15 791 ａ：×１０^−５標準ＰＬＳ法は１５ＰＣｓについてＲＭＳＥＰ＝１６８
０×１０^−５を与えたのに対し、従来のＵＶＥ−ＰＬＳ
法は１１ＰＣｓ（Ａ１＝１５，Ａ２＝１１）についてＲ
ＭＳＥＰ＝８８９×１０^−５を与えた。１０３８点のう
ち、維持された波長変数は６５点であった。これは従来
のＰＬＳ法に対するＵＶＥ−ＰＬＳ法の優位性を示して
いる。一方、ＭＵＶＥ−ＰＬＳ法は４ＰＣｓ（Ａ３＝
８，Ａ４＝４）に対してＲＭＳＥＰ＝８５２×１０^−５
であり、維持された波長変数の数は７０であった。維持
された７０変数に対する波数領域は、図４（ｂ）に示さ
れており、混合物の典型的スペクトル（χeth＝０．４
９３）は図４（ａ）に、対応を明らかにするため示され
ている。水およびエタノール混合物の特徴的な５種の振
動バンドが選択されており、維持された波数領域は合理
的である。ここで、二本の点線は標準値の±ｑを示して
おり、±ｑの間の値の変数は非情報性であるとして除去
されている。ＭＵＶＥ法の演算時間は従来法のそれと比
較して約１／６となっている。この結果はＭＵＶＥ法が
実際的な状態で極めてよく機能することを示している。

【００４３】図４（ｃ）および（ｄ）は、ｂ−係数法と
相関法の結果をそれぞれ示している。ｂ−係数法は１５
ＰＣｓについてＲＭＳＥＰ＝４１９４×１０^−５であ
り、維持された波長変数の数は２６である。維持波長変
数の数は大きく減少しているが、ＲＭＳＥＰの値は標準
ＰＬＳ法よりも大きくなっている。加えて、維持された
波数領域は、むしろ物理的な意味にかけており、重要な
３５００cm^-1付近のＯＨ−伸縮バンドが非情報性である
として除去されている。一方、相関係数法は１５ＰＣｓ
についてＲＭＳＥＰ＝１１５７×１０^−５を与えてお
り、維持された波長変数の数は７９１である。この場
合、ＲＭＳＥＰの値は標準ＰＬＳ法のそれに比べて大き
く改善はされておらず、大きくスペクトル領域が情報性
であるとして維持されている。

【００４４】図５（ｂ）は、ＵＶＥ−ＰＬＳ法における
波長変数選択時のＰＣｓの数をパラメータとして保持さ
れた情報性波長変数と変数ｊの関係を示している。ここ
で、レベル１および０は保持された情報性波長変数と除
去された非情報性波長変数をそれぞれ示している。図４
（ｂ）は図３（ａ）と同じ典型的なスペクトルを示して
いる。これらの図において、従来のＵＶＥ＝ＰＬＳ法は
ＰＣｓ＝１１（Ａ１＝１５，Ａ２＝１１）の場合に相当
し、ＭＵＶＥ法はＰＣｓ＝８（Ａ３＝８，Ａ４＝４）の
場合に相当する。ＰＣｓ≧８の場合の維持変数の数は、
ほぼ同一であり、得られたＲＭＳＥＰも変化がない。こ
の結果はこのＭＵＶＥ−ＰＬＳ法の有効性を再度示して
いる。

【００４５】以上のように従来のＵＶＥ−ＰＬＳ法は、
人為的に導入されたノイズ変数との比較において直接的
に非情報性波長変数の除去が行われるという点では、他
の方法に比較して優れている。しかしながらこの方法
は、実際上次の２点の問題を有する。すなわち波長変数
選択時および定量モデル算出時におけるＰＣｓの数が相
対的に大きくなってしまいオーバーフィッティングが行
われ、また演算時間が長いことである。本発明はＰＲＥ
ＳＳ標準を取り入れることによりこれらの二つの問題を
解決した。ＭＵＶＥ−ＰＬＳ法の実際的な有効性を示す
ため行った各種モル分率の水−エタノール混合物の中赤
外吸収スペクトルの較正データ群に適用した場合にも、
本発明が優れた結果を示した。

【００４６】［非情報性標本の除去と非情報性波長変数
除去方法の組み合わせ効果］本実施例において用いられ
るスペクトル較正データ群は、前記同様３０種の各種モ
ル比の水−エタノール混合物の中赤外吸収スペクトルを
用いた。ＵＳＥアルゴリズムの標本除去能を示すため、
ここでは１９番目の標本のエタノールモル分率を真値
（χeth＝０．１１）から偽値（χeth＝０．０８）に故
意に変更した。混合物のモル分率比は前記表１に示され
ている。

【００４７】較正方法前記較正データ群に対して、５種のモデリング方法を適
用した。それらの関係は図６に示される。（１）ＰＬＳ：与えられた較正データ群に対して標準最
小ＲＭＳＥＰ法として標準ＰＬＳ法を適用した。（２）ＭＵＶＥ−ＰＬＳ：較正データ群に対してＭＵＶ
Ｅ−ＰＬＳ法を適用した。（３）ＵＳＥ−ＰＬＳ：与えられた較正データ群に対し
てＵＳＥアルゴリズムの適用を行った。ＵＳＥ適用の
後、ＭＵＶＥ法を除く標準ＰＬＳ法を適用した。

【００４８】（４）ＭＵＶＥ−ＵＳＥ−ＰＬＳ：ＭＵＶ
Ｅ法により処理された較正データ群に対してＵＳＥアル
ゴリズムの適用を行った。この後、標準ＰＬＳ法を実行
した。（５）ＵＳＥ−ＭＵＶＥ−ＰＬＳ：与えられた較正デー
タに対してまず最初にＵＳＥアルゴリズムの適用を行
う。ＵＳＥの後、ＭＵＶＥ−ＰＬＳを実行した。この方
法は、ＭＵＶＥ−ＵＳＥ−ＰＬＳ法と適用手法は同じで
あるが、ＭＵＶＥとＵＳＥの順番が逆になっている。

【００４９】図７はＭＵＶＥ−ＵＳＥ−ＰＬＳ法を前記
表１に示した３０種のエタノール−水混合物のスペクト
ルデータ群に適用した結果を示している。図７（ａ）
は、予測エラーｅ(i)を標本番号ｉの関数としてプロッ
トしたものであり、第一繰り返しループから得られる。
図中二本の点線は±３σ(i)値を示しており、非情報性
標本の除去の基準として用いている。前記第一繰り返し
から、Ｎｏ．１およびＮｏ．１９の二つの標本が除去さ
れる。標本Ｎｏ．１９はその濃度値が故意に変更された
ものであり、有意に除去される。図７（ｂ）は第二繰り
返しループから得られた結果である。ここでは、標本Ｎ
ｏ．２が除去されている。図７（ｃ）は第三繰り返しル
ープから得られた結果を示しており、ここでは標本除去
が行われておらず、各予測エラー値が±３σ(i)値以下
であることを意味する。３０種の較正データの中で２種
の標本Ｎｏ．１とＮｏ．２が非情報性であるとして除去
された。この理由は（１）スペクトル強度の非直線性、
及び（２）χethの高濃度領域におけるデータの粗頻度
によるものと考えられる。ＭＵＶＥ−ＵＳＥ−ＰＬＳア
ルゴリズムにおいて、最終ＰＬＳモデルは残りの２７標
本を用いて形成された。

【００５０】前記５種の異なる較正方法で得られた最適
の予測結果は、表３に要約される。

【表３】較正方法ＲＭＳＥＰ^ａＰＣｓ数変数残存数残存標本数（１）ＰＬＳ 1757 21 1038 30 （２）MUVE-PLS 1053 4 43 30 （３）USE-PLS 1521 15 1038 29 （４）MUVE-USE-PLS 442 4 43 27（５）USE-MUVE-PLS 794 6 59 29

【００５１】ＭＵＶＥ−ＵＳＥ−ＰＬＳ法は、従来のＭ
ＵＶＥ−ＰＬＳ法よりも、ＲＭＳＥＰ値が小さいことが
理解される。これは非情報性標本の除去が行われたため
である。一方、ＵＳＥ−ＭＵＶＥ−ＰＬＳ法はＭＵＶＥ
−ＵＳＥ−ＰＬＳ法よりもよい結果を与えることはでき
なかった。これは非情報性標本の除去よりも前に非情報
性波長変数の除去を行うことの重要性を示している。こ
れは波長変数の数は通常の場合濃度変数のそれよりも遥
かに大きいことによる。

【００５２】以上の結果より、標準ＰＬＳモデルの予測
能力を改善するため、非情報性標本を較正データ群から
除去するＭＵＶＥ−ＵＳＥ−ＰＬＳ法が好適であること
が理解される。標本除去の指標としては３σを個々の予
測エラーと比較され、σ値はleave-one-out法により演
算される。これは正確なモデルが必要となるときに有用
且つ現実的な手法である。

【００５３】

【発明の効果】以上説明したように本発明にかかるスペ
クトルデータ処理方法によれば、較正用標本のスペクト
ルデータより測定のエラーなどにより発生した非情報性
標本に関するデータを除去して多変量解析を行うことと
したので、特定成分の含量予測精度を大きく向上させる
ことができる。また、本発明において、前記標本除去と
ともに、非情報性波長変数の除去を行うと、より予測精
度の向上が図られるとともに、演算負荷の軽減を図るこ
とができる。特に、非情報性波長変数の除去にＰＲＥＳ
Ｓ基準を導入することにより、従来のＵＶＥ−ＰＬＳ法
などに見られるオーバーフィッティング等の問題を良好
に改善することができる。

【図面の簡単な説明】

【図１】本発明において用いられる非情報性変数の除去
方法の説明図である。

【図２】本発明において用いられる非情報性標本の除去
方法の説明図である。

【図３】水−エタノール混合物の各種モル分率における
吸収スペクトルである。

【図４】本発明における非情報性変数除去方法の効果の
説明図である。

【図５】ＰＣｓの数をパラメータとして、保持された情
報性変数と変数ｊの関係を示す説明図である。

【図６】本発明における非情報性標本の除去方法の効果
試験のモデリングの説明図である。

【図７】本発明において最も好適なＭＵＶＥ−ＵＳＥ−
ＰＬＳ法の較正用スペクトルデータへの適用例の説明図
である。

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 2G020 AA03 BA02 BA14 CA02 CB42 CD03 CD11 CD35 CD38 2G059 AA01 BB04 DD16 EE01 EE12 FF03 HH01 MM03

Claims

【特許請求の範囲】

【請求項１】既知含量の特定成分を含む多数の較正用
標本群のスペクトルデータを多変量解析し、該特定成分
含量とスペクトルの関連性から定量モデルを算出し、未
知標本中の特定成分含量をそのスペクトルより予測する
スペクトルデータ処理方法であって、前記多数（ｎ個）の較正用標本群のうち、一の較正用標
本（ｉ番目）のスペクトルデータを除外して未知標本と
し、多変量解析を行うleave-one-out法により特定成分
含量とスペクトルの仮定量モデルａを演算し、該ｉ番目
の較正用標本の特定成分含量とそのスペクトルを前記仮
定量モデルに適用した場合の予想含量を比較して予測エ
ラー値ｅ(i)を演算する予測エラー値演算工程と、前記予測エラー値ｅ(i)が、該ｉ番目の較正用標本の前
記予測エラー値ｅ(i)を除外して得た所定分散範囲内で
あるか否かを判定する判定工程と、前記予測エラー値ｅ(i)が所定分散範囲外である場合
に、該ｉ番目の較正用標本を較正用標本群から除外し、
残存較正用標本群について前記予測エラー値演算工程以
降を繰り返し行い、前記予測エラー値ｅ(i)が所定分散
範囲内である場合に残存較正用標本群に対して多変量解
析を行う分岐工程と、を含む非情報性標本除外機構を有
することを特徴とするスペクトルデータ処理方法。
【請求項２】請求項１記載の方法において、前記予測
エラー値ｅ(i)は【数１】ｅ(i)＝ｙ_i−ｙ_i ^p （ここで、ｙ_ｉはｉ番目の較正用標本の特定成分含量、
ｙ_ｉ ^ｐはその較正用標本を除いた較正用標本群から得た
定量モデルより算出した予測値）前記分散範囲は、次記数２により算出されるσ(i)に所
定係数を乗算したものであることを特徴とするスペクト
ルデータ処理方法。【数２】
【請求項３】請求項１又は２記載の方法において、前
記非情報性標本除外機構の前段階に非情報性波長変数除
外機構を有することを特徴とするスペクトルデータ処理
方法。
【請求項４】既知含量の特定成分を含む多数の較正用
標本群のスペクトルデータをＰＬＳ法によって多変量解
析し、該特定成分含量とスペクトルの定量モデルを算出
し、未知標本中の特定成分含量をそのスペクトルより予
測するスペクトルデータ処理方法であって、非情報性波
長変数除外機構は、濃度変数（或いは従属変数）ｙ(n,
1)と、波長（或いは波数）変数（或いは独立変数）Ｘ
(n,p)の関係を下記数３で表現した場合、【数３】ｙ＝Ｘｂ＋ｅ（ここで、ｂ(1,p)はＰＬＳ回帰係数のベクトルであ
り、ｅ(n,1)はモデルで説明することのできない誤差の
ベクトルである。）波長（又は波数）変数マトリックスＸ(n,p)に対して、
下記，によるＰＲＥＳＳ基準で定量モデル算出時に
おける主因子（ＰＣｓ）数の最適値の決定を行い、｛
Ｆ（Ａ）＝ＰＲＥＳＳ（ＡＰＣｓのモデル）／ＰＲＥＳ
Ｓ（Ａ^＊ＰＣｓのモデル）をＡ＝１〜Ａ^＊について演算
する。ここで相互確認モデルについてＰＲＥＳＳ（Pred
iction Error Sum of Square）を以下の等式により定義
する。【数４】最小ＰＲＥＳＳを生じさせるＰＣｓの数はＡ^＊で表され
る。ＰＣｓの最適数としてＦ（Ａ）＜Ｆa:n,nとなるよう
な最小のＡを選択する。ここでＦa;n,nは自由度対［ｎ,
ｎ］のＦ分布の（１−α）パーセントを示し、ｎは較正
標本の数である。｝前記マトリックスＸ(n,p)と同じ大きさのノイズマトリ
ックスＲ(n,p)を形成し、両者を合成してマトリックス
ＸＲ(n,2p)を作成し、前記合成マトリックスＸＲ(n,2p)
からleave-one-out法により前記ＰＣｓ数に基づきＰＬ
Ｓ法モデルの演算を行い、ｂ−係数マトリックスＢ(n,2
p)を作成し、前記マトリックスＢ(n,2p)の各カラムに対
して標準偏差ｓ(b_j)の演算を行い、【数５】（ここで、ｂ_ｊはＢ(n,2p)からのカラムベクトルｊの平
均であり、ｂ_ijはＢ(n,2p)のｉ，ｊの要素である。）更にｃ_ｊ＝ｂ_ｊ／ｓ（ｂ_ｊ）（ｊ＝１〜２ｐ）を各波長
変数ｊについて演算を行い、ノイズマトリックスＲに対
応する波長変数の中から最も大きいｃ_ｊの絶対値である
ｑ値を次式に基づき決定し、【数６】ｑ＝ｍａｘ｛ａｂｓ（ｃ_ｊ）｝，ｊ＝ｐ＋１〜２ｐｊ＝１〜ｐにおいてａｂｓ（ｃ_ｊ）＜ｑとなる波長変数
をＸより除外し、残存変数により新たなマトリックスＸ
new(N,p')を形成する、改変ＵＶＥ−ＰＬＳ法であるこ
とを特徴とするスペクトルデータの処理方法。
【請求項５】請求項４記載の方法において、Ｆa:n,n
は１．１に固定されていることを特徴とするスペクトル
データの処理方法。
【請求項６】請求項１〜５記載の方法において、非情
報性標本除外後に、ＰＬＳ法により情報性較正用標本の
多変量解析を行うことを特徴とするスペクトルデータの
処理方法。
【請求項７】請求項３記載の方法において、非情報性
波長変数除外機構は、請求項４又は５記載のものである
ことを特徴とするスペクトルデータの処理方法。