JP5454356B2

JP5454356B2 - データ分類装置およびプログラム

Info

Publication number: JP5454356B2
Application number: JP2010118510A
Authority: JP
Inventors: 司村田
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2010-05-24
Filing date: 2010-05-24
Publication date: 2014-03-26
Anticipated expiration: 2030-05-24
Also published as: JP2011248457A

Description

本発明は、データ分類装置およびプログラムに関する。

従来から、複数の変数を有するデータについて、変数間の相互関連を分析することでデータの分類を行う多変量解析の手法として、例えば主成分分析や判別分析が広く知られている。

これらの手法は、多次元の特徴量空間中で射影により新たな特徴量を算出する手法である。主成分分析では、特徴量の分散が大きくなれば各要素が広範囲に散らばってより容易に分類を行えるため、上記の射影軸は全要素の分散が大きくなるように決定される。

一方、判別分析は主成分分析を拡張した考えであって、データを分類した各グループ内の分散値は小さく、かつグループ間の分散値が大きくなるように射影軸を決定する手法である（例えば、特許文献１参照）。

特許第３４８０５６３号公報

従来の主成分分析や判別分析の各手法では、固有値方程式から導出される固有ベクトルのうちから固有値の大きな順に主軸が決定される。しかし、本願の発明者は、固有値の大きさに基づいて決定された主軸でデータの分類を行うと、精度よくデータの分類ができる特徴を必ずしも抽出できないことを見いだした。

上記事情に鑑み、データを精度よく分類できる特徴がより容易に抽出される手段を提供する。

データ分類装置の一態様は、第１ベクトル演算部と、第２ベクトル演算部と、データ分類部とを備える。第１ベクトル演算部は、ｐ個の成分を含む分類対象データから、それぞれｑ個（ｑ≦ｐ）の変換ベクトル候補を求める。第２ベクトル演算部は、ｑ個の変換ベクトル候補のうちから、ｒ個（ｒ＜ｑ）の変換ベクトルを求める。データ分類部は、変換ベクトルを用いて、複数種類の分類対象データを、注目すべき分類対象データを抽出する第１グループと、第１グループと異なる第２グループとに分類する。そして、第２ベクトル演算部は、第１グループに属する分類対象データを用いて変換ベクトル候補の第１分散値をそれぞれ求めるとともに、第２グループに属する分類対象データを用いて変換ベクトル候補の第２分散値をそれぞれ求める。また、第２ベクトル演算部は、第１分散値に対する第２分散値の比（第２分散値／第１分散値）が大きい順に変換ベクトル候補のうちから変換ベクトルを求める。

なお、一の態様のデータ分類装置を含む撮像装置、コンピュータを一の態様のデータ分類装置として動作させるプログラム、上記のプログラムを記憶した記憶媒体、一の態様に係るデータ分類装置の動作を方法のカテゴリで表現したものは、いずれも本発明の具体的態様として有効である。

データ分類装置の一態様では、注目すべき分類対象データを抽出する第１グループから第１分散値を求め、第１グループと異なる第２グループから第２分散値を求める。そして、データ分類装置の一態様では、第１分散値に対する第２分散値の比が大きくなる順に変換ベクトルを求めることで、データを精度よく分類できる特徴をより容易に抽出できる。

一の実施形態でのデータ分類装置の構成例を示すブロック図主成分分析の手法の概念図判別分析でのクラス分布の概念図判別分析でのベクトルの関係を示す図一の実施形態のデータ分類処理におけるＷ軸上での要素の分布例を示す図一の実施形態での学習処理の例を示す流れ図一の実施形態での学習処理の例を示す流れ図各実施例および比較例について、グループＡおよびＢでの画像分類の正解率を示す図

＜一の実施形態での装置構成例＞
図１は、一の実施形態でのデータ分類装置の構成例を示すブロック図である。一の実施形態では、撮像装置で撮像されたカラー画像のデータをデータ分類装置での分類対象とする例を説明する。

また、一の実施形態でのデータ分類装置は、データ分類プログラムがインストールされたパーソナルコンピュータで構成される。

図１に示すコンピュータ１１は、データ読込部１２、記憶装置１３、ＣＰＵ１４、メモリ１５および入出力Ｉ／Ｆ１６、バス１７を有している。データ読込部１２、記憶装置１３、ＣＰＵ１４、メモリ１５および入出力Ｉ／Ｆ１６は、バス１７を介して相互に接続されている。さらに、コンピュータ１１には、入出力Ｉ／Ｆ１６を介して、入力デバイス１８（キーボード、ポインティングデバイスなど）とモニタ１９とがそれぞれ接続されている。なお、入出力Ｉ／Ｆ１６は、入力デバイス１８からの各種入力を受け付けるとともに、モニタ１９に対して表示用のデータを出力する。

データ読込部１２は、上記の分類対象データ（画像データ）や、上記のデータ分類プログラムを外部から読み込むときに用いられる。例えば、データ読込部１２は、着脱可能な記憶媒体からデータを取得する読込デバイス（光ディスク、磁気ディスク、光磁気ディスクの読込装置など）や、公知の通信規格に準拠して外部の装置と通信を行う通信デバイス（ＵＳＢインターフェース、ＬＡＮモジュール、無線ＬＡＮモジュールなど）で構成される。

記憶装置１３は、例えば、ハードディスクや、不揮発性の半導体メモリなどの記憶媒体で構成される。この記憶装置１３には、データ分類プログラムや、プログラムの実行に必要となる各種のデータが記録されている。なお、記憶装置１３には、データ読込部１２から読み込んだ分類対象データを記憶しておくこともできる。

ＣＰＵ１４は、コンピュータ１１の各部を統括的に制御するプロセッサである。このＣＰＵ１４は、上記のデータ分類プログラムの実行によって、第１ベクトル演算部２１、第２ベクトル演算部２２、データ分類部２３、パラメータ決定部２４、画像処理部２５としてそれぞれ機能する（第１ベクトル演算部２１、第２ベクトル演算部２２、データ分類部２３、パラメータ決定部２４、画像処理部２５の各動作は後述する）。

メモリ１５は、データ分類プログラムでの各種演算結果を一時的に記憶する。このメモリ１５は、例えば揮発性のＳＤＲＡＭなどで構成される。

＜データ分類処理の概念説明＞
次に、一の実施形態でのデータ分類処理を説明する。なお、本明細書では、理解の便宜のため、従来技術である主成分分析および判別分析の概略を最初に説明し、その後に一の実施形態でのデータ分類処理の手法を詳細に説明する。

（主成分分析の概略説明）
図２は、主成分分析の手法の概念を示す図である。例えば、注目する１つの要素（分類対象データ）が、ｎ次元の特徴量ベクトルを用いてｎ次元の特徴量空間中の１点で表現されているとする。また、上記の特徴量空間中にはＮ個の要素が存在し、かつ各要素がグループＡか、グループＡ以外のグループＢに属している場合を考える。

主成分分析は、各要素を表現するときにｎより小さい数の特徴量で、各要素を分離する最適な特徴量を求める手法であり、特徴量空間で分散値が最大となる射影軸Ｗを求める。この分散値が最大となるＷ軸上では、各要素から得られる特徴量が最も重ならずに分布するため、より少ない次元数で各要素を表現できることが分かる。

したがって、上記の式（１）は、下式（３）で表現できる。

なお、上記の各式において、ベクトルはｎ×１の行列で表現し、添字のＴは行列の転置を意味している。また、式（３）のＳ_totは、下式（４）で表わされるｎ×ｎの対称行列であって、分散共分散行列と称される。

上記の式（３），式（４）によれば、分散共分散行列を単位射影ベクトルで挟むと、注目する射影軸での分散値が得られることが分かる。

そして、主成分分析の演算では、上記の式（３）で定義される分散が最大となる単位射影ベクトルを求めればよい。

（判別分析の概略説明）
図３は、判別分析でのクラス分布の概念図である。判別分析では、Ｎ個の要素がｋ個のクラスに分類されるとともに、各要素がいずれかのクラスに属していることを前提とする。なお、以下の説明では、それぞれのクラスをＣ_kと表記する。

式（６）−（８）の関係を用いると、上記の式（４）で定義された系全体の分散共分散行列を下式（９）のように書き換えることができる。

ただし、上記の式（９）の導出において、

を導入した。

上記の式（４）と同様に考えると、クラスＣ_jでのクラス内分散共分散行列は、Ｃ_jのみの要素を用いて下式（１１）で定義できる。また、各クラスの平均ベクトルの分散は下式（１２）で定義できる。

よって、式（１１），（１２）から、上記の式（９）は下式（１３）で表現できることが分かる。

上記の式（１３）は、式（４）で定義された系全体の分散共分散行列が、各クラスのクラス内分散共分散行列と、クラス間の分散共分散行列とに分離可能であることを示している。また、上記の式（３），（１３）から、各グループの分散共分散行列をそれぞれ単位射影ベクトルで挟むと、射影軸（ｗ軸）における各グループの分散値が得られることが分かる。

判別分析の手法では、クラス内分散の総和を小さくする一方で、クラス間分散を大きくする条件を満たす単位射影ベクトルを求める。

（一の実施形態でのデータ分類処理）
本願の発明者は、複数の分類対象データのうちから注目するものとそれ以外のものとを分類する場合において、以下の問題点を見いだした。

例えば、複数の分類対象データ（要素）のうちから、注目すべき要素（注目要素）とそれ以外の要素（非注目要素）とを２つのグループに分類する場合を考える。このとき、注目要素を分類するグループを第１グループ（グループＡとも称する）とし、非注目要素を分類するグループを第２グループ（グループＢとも称する）とする。

従来の手法では、第１グループと第２グループとのそれぞれが共に小さい分布となるような固有値方程式を立てる。そして、従来の手法では、その固有値方程式の固有値の大きい順に単位射影ベクトルを主軸として抽出し、この主軸を用いて各要素を分類している。この場合、クラス間分散が十分大きくないと、グループＡとグループＢとの分布の重なりが急激に大きくなるので、グループＡとグループＢとの分離の正解率は非常に悪くなる。また、非注目グループに様々な異なる種類の要素があるときには、本来注目すべきグループＡの分散が大きい軸がグループＢの影響によって抽出される場合がある。すなわち、上記の手法によれば、第１グループの要素を分類するときに、非注目要素にも共通する特徴を反映する主軸が優先的に抽出されてしまうおそれがあった。

本願の発明者は、上記の問題点に着眼し、第１グループでの要素の分散値（第１分散値）に対する第２グループでの要素の分散値（第２分散値）の比（第２分散値／第１分散値）が大きいほど、注目要素の特徴をよく反映した主軸が抽出できることを見いだした。すなわち、第１分散値が小さければ、主軸上で第１グループの要素がまとまった状態となり、注目要素に共通する特徴を絞り込める可能性が高くなる。また、第１分散値に対して第２分散値が十分に大きくなれば、主軸上で第２グループの要素が大きく分散し、第１グループの要素を正しく抽出できる可能性が向上する。なお、一の実施形態のデータ分類処理におけるＷ軸上での要素の分布例を図５に模式的に示す。

一例として、一の実施形態でのデータ分類処理では、以下の式（１４）−（１６）で定義される固有値λの極大値を求める場合を考える。なお、本明細書において、「σ_Ａ」はグループＡ内での要素の分散値（第１分散値）を示し、「σ_Ｂ」はグループＢ内での要素の分散値（第２分散値）を示し、「σ_ＡＢ」はグループＡ，Ｂのグループ間分散値を示す。

このとき、一の実施形態でのデータ分類処理で解くべき問題は、以下の式（１７）に示す固有値問題に帰着する。なお、式（１７）の添字ｌは序数を示す変数である。

ただし、式（１４）のケースでは、式（１７）の分散共分散行列Ｓは以下の式（１８）で得られる。式（１５）のケースでは、式（１７）の分散共分散行列Ｓは以下の式（１９）で得られる。式（１６）のケースでは、式（１７）の分散共分散行列Ｓは以下の式（２０）で得られる。

また、本明細書において、「Ｓ_A」は、グループＡの要素で算出される分散共分散行列（ｎ×ｎの対称行列）であり、「Ｓ_B」は、グループＢの要素で算出される分散共分散行列（ｎ×ｎの対称行列）である。

一般に、ｎ次元の行列Ｓで定義された固有値方程式（式（１７））を解くと、ｎ個の固有ベクトルが得られる。そして、一の実施形態でのデータ分類処理では、下式（２２）で各固有ベクトルの評価値βをそれぞれ求め、この評価値βの大きい順に主軸を選択すればよい。

なお、上記のデータ分類処理での射影演算は、単純な線形演算であるため、比較的少ない負荷でコンピュータに実行させることができる。

＜一の実施形態でのデータ分類装置の動作例＞
以下、図１に示すデータ分類装置の動作例を説明する。図１のデータ分類装置は、教師付き学習によってデータ分類処理で用いる変換ベクトルを予め決定するとともに、教師付き学習で求めた変換ベクトルを用いてデータ分類処理を実行する。また、一の実施形態では、データ分類処理の一例として、撮像装置で撮像された画像を、第１グループおよび第２グループに分類する場合を説明する。

（学習処理の一例）
まず、図６の流れ図を参照しつつ、一の実施形態での学習処理の例を説明する。ここで、図６の流れ図の処理は、プログラムの実行指示に応じてＣＰＵ１４が実行する。なお、以下に示す学習処理は、データ分類装置（またはプログラム）の製造者が予め製造工程で実行してもよく、あるいはデータ分類装置を購入したユーザが実行するものであってもよい。

ステップＳ１０１：ＣＰＵ１４は、複数の教師画像データをデータ読込部１２から読み込んで取得する。

ここで、各々の教師画像データは、上記の分類対象データと同様のカラー画像（ＲＧＢのベイヤ画像）のデータであって、評価者によってシーン別（例えば、「ポートレート」、「夜景」、「風景・造形（構造物など）」などのシーン）に予め分類されている。また、各画像に相応するシーンを示す正解データは、各々の教師画像データに対応付けされている。なお、Ｓ１０１で取得された教師画像データおよび正解データは、ＣＰＵ１４の制御によって、記憶装置１３またはメモリ１５に記録される。

ステップＳ１０２：ＣＰＵ１４は、各々の教師画像について画像の特徴量を取得する。例えば、一の実施形態では、各々の教師画像につき、ＣＰＵ１４が以下の（ａ）−（ｅ）の処理を行うことで特徴量を求めればよい。

（ａ）ＣＰＵ１４は、教師画像のＲＧＢ面の３画像をそれぞれ同じサイズで生成する。例えば、ＣＰＵ１４は、画像のＲ画素を用いてＲ面の画像を生成するとともに、画像のＢ画素を用いてＢ面の画像を生成する。また、ＣＰＵ１４は、画像内の近接するＧｒ画素およびＧｂ画素を平均化し、教師画像に対応するＧ面の画像を生成する。

（ｂ）ＣＰＵ１４は、Ｂ面とＧ面との間で対応する画素の差分をとる（Ｂ−Ｇ）ことで、Ｃｂ面の画像を擬似的に生成する。ＣＰＵ１４は、同様に、Ｒ面とＧ面との間で対応する画素の差分をとる（Ｒ−Ｇ）ことで、Ｃｒ面の画像を擬似的に生成する。これにより、ＣＰＵ１４は、教師画像に対応するＧ面、Ｃｂ面、Ｃｒ面の画像を取得する。なお、Ｃｂ面、Ｃｒ面の生成時に、撮影時のホワイトバランス情報は用いないものとする。

（ｃ）ＣＰＵ１４は、Ｇ面、Ｃｂ面、Ｃｒ面の各画像につき、各画素で縦方向および横方向の差分をとる。これにより、ＣＰＵ１４は、Ｇ面のエッジ画像、Ｃｂ面のエッジ画像、Ｃｒ面のエッジ画像をそれぞれ生成する。

（ｄ）ＣＰＵ１４は、上記（ｂ），（ｃ）の処理で取得した６画像（Ｇ面の画像、Ｃｂ面の画像、Ｃｒ面の画像、Ｇ面のエッジ画像、Ｃｂ面のエッジ画像、Ｃｒ面のエッジ画像）につき、それぞれ画像内を１０×１０の１００領域に分割し、各分割領域でそれぞれ平均画素値を求める。そして、ＣＰＵ１４は、各分割領域での平均画素値を特徴量成分の１つとして取得する。これにより、１画像につき１００個の特徴量成分が生成される。

（ｅ）ＣＰＵ１４は、上記（ｂ），（ｃ）の処理で取得した６画像につき、特徴量成分として、撮影時のＡＦ領域での画素平均値と、面全体での画素平均値とをそれぞれ求める。なお、上記（ｄ），（ｅ）で求まる特徴量成分は、１画像につき１０２個となる。

ステップＳ１０３：ＣＰＵ１４は、正解データを参照して、全ての教師画像のデータを、グループＡとグループＢとに分類する。例えば、注目する特性を「ポートレート」とした場合、ＣＰＵ１４は、正解データを参照して、「ポートレート」の教師画像データ（要素）をグループＡに属させるとともに、残りの教師画像データ（要素）をグループＢに属させる。

ステップＳ１０４：第１ベクトル演算部２１は、グループＡの要素から算出される分散共分散行列Ｓ_Aと、グループＢの要素から算出される分散共分散行列Ｓ_Bとをそれぞれ求める。

ここで、特徴量成分の数がｐ個であれば、各要素での特徴量成分のベクトルはｐ×１の行列で表現され、各々の分散共分散行列はｐ×ｐの対称行列で表現される。例えば、ある教師画像でのＧ面画像での特徴量成分のベクトルは１０２×１の行列で表現される。

ステップＳ１０５：第１ベクトル演算部２１は、分散共分散行列Ｓ_Aの逆行列と、分散共分散行列Ｓ_Bと、単位射影ベクトルとを用いた行列の固有値方程式（式（１４）−（２０））を解く。上記のように分散共分散行列はｐ×ｐの対称行列である。ここでの固有値問題は、解に重複がある場合には重複分だけ解の数が少なくなるため、ｑ個の固有値と、各固有値に対応したｑ個の異なる単位射影ベクトル（変換ベクトル候補）とをもつ（ただしｑ≦ｐ）。

なお、一の実施形態において、Ｓ１０５での第１ベクトル演算部２１は、各面（６面）でそれぞれ独立してｑ個（最大１０２個）の変換ベクトル候補を求めるものとする。

ステップＳ１０６：第２ベクトル演算部２２は、ｑ個の変換ベクトル候補のうちから、データ分類処理に用いるｒ個（ｒ＜ｑ）の変換ベクトルを求める。このとき、第２ベクトル演算部２２は、各々の変換ベクトル候補について、上記の式（２２）により、第２分散値／第１分散値の比となる評価値βをそれぞれ求める。そして、第２ベクトル演算部２２は、この評価値βの大きい順にｒ個の変換ベクトルを決定すればよい。

なお、一の実施形態において、Ｓ１０６での第２ベクトル演算部２２は、各面でそれぞれ求めた全ての変換ベクトル候補のうちから、評価値βの上位６つを変換ベクトルとして抽出するものとする。

（データ分類処理の一例）
次に、図７の流れ図を参照しつつ、一の実施形態でのデータ分類処理の例を説明する。なお、図７の流れ図の処理は、プログラムの実行指示に応じてＣＰＵ１４が実行する。

ステップＳ２０１：ＣＰＵ１４は、分類対象データ（画像データ）をデータ読込部１２から読み込んで取得する。ここで、Ｓ２０１で取得される分類対象データとしての画像は、上記の教師画像とは異なり、データ分類装置にとってシーンが未知の画像である。なお、上記の分類対象データは、ＣＰＵ１４の制御によって、記憶装置１３またはメモリ１５に記録される。

ステップＳ２０２：ＣＰＵ１４は、分類対象データの画像の特徴量を取得する。なお、Ｓ２０２での処理は、上記のＳ１０２の処理と同一であるので重複説明を省略する。

ステップＳ２０３：第１ベクトル演算部２１は、上記の学習処理で決定された変換ベクトルの成分をそれぞれ求める。

ステップＳ２０４：データ分類部２３は、変換ベクトル（Ｓ２０３）に基づいて、分類対象データを特徴量空間に射影する。そして、データ分類部２３は、特徴量空間に射影された分類対象データの値と、特徴量空間でのグループＡの中心値との距離に応じて、分類対象データがグループＡに属するか否かを判定する。

例えば、変換ベクトルの各成分（ｉ軸）でのグループＡの平均値、偏差値をそれぞれ「ｃ_i，σ_i」とし、分類対象データのｉ軸への射影成分を「ｘ_i」としたとき、データ分類部２３は、下式（２３）の演算を行い、グループＡの要素との判別パラメータγを求める。そして、データ分類部２３は、判別パラメータγの値が１以下であれば、分類対象データがグループＡに属すると判定する。

上記の式（２３）において「ａｌｌ．ｃｏｍ」は変換ベクトルの全成分を示している。また、上記の式（２３）において「α」は、ｉ軸に射影された値がグループＡの平均値から離れているかどうかを判断するパラメータである。

ステップＳ２０５：ＣＰＵ１４は、Ｓ２０４での判定結果に基づいて各種の処理を実行する。

一例として、Ｓ２０５でのＣＰＵ１４は、Ｓ２０４での判定結果（分類対象データがグループＡに属するか否か）をモニタ１９に表示してもよい。また、ＣＰＵ１４は、分類対象データがグループＡに属する場合には、画像のシーンを示す情報を付帯情報として分類対象データに対応づけて記録してもよい。

また、Ｓ２０５でのＣＰＵ１４は、複数の分類対象データについて、それぞれＳ２０２からＳ２０４の処理をそれぞれ実行し、複数の分類対象データのうちからグループＡに属する画像のみを抽出してもよい。

また、Ｓ２０５でのパラメータ決定部２４は、Ｓ２０４の判定結果に応じて、所定のグループの画像データに施す画像処理を変更してもよい。

一例として、Ｓ２０５において、グループＡの画像として「ポートレート」の画像を抽出する場合、パラメータ決定部２４は、グループＡに属する画像の画像処理のパラメータを以下のように決定する。まず、パラメータ決定部２４は、階調変換処理のパラメータとして、デフォルトの階調曲線よりも相対的にコントラストが低めになる軟調の階調曲線を選択する。また、パラメータ決定部２４は、色変換処理のパラメータとして、肌色の彩度を向上させる色変換マトリクスを選択する。

そして、画像処理部２５は、上記の各パラメータを用いて、グループＡに属する画像のデータに画像処理を施す。これにより、データ分類装置は、ポートレートと判定された画像について、顔の柔らかさの表現が強調されるとともに、人物の肌色のくすみなどが軽減されるレタッチ処理を行うことができる。

なお、上記の画像処理は一例にすぎず、パラメータ決定部２４は、ポートレートの画像に対する画像処理のパラメータとして、他のパラメータを変更してもよい。勿論、パラメータ決定部２４は、グループＡの画像として「ポートレート」以外の画像が抽出される場合には、グループＡのシーンに相応する画像処理のパラメータを選択することはいうまでもない。以上で図７の流れ図の説明を終了する。

上記実施形態のデータ分類装置は、教師付き学習により、第１分散値に対する第２分散値の比が大きくなる順に変換ベクトルを求める（Ｓ１０６）。そして、データ分類装置は、上記の変換ベクトルを用いてデータの分類を行う（Ｓ２０４）。上記の変換ベクトルは、注目要素のみに共通する特徴をよく反映したものであるので、データ分類装置は、注目要素と非注目要素とを比較的高い精度で分類することが可能となる。

＜実施例＞
以下、上記実施形態のデータ分類装置によるデータ分類処理の実施例を説明する。この実施例１−３では、予めシーンが評価されている複数のサンプル画像（ＹＣｂＣｒ色空間）を用いて、上記実施形態の学習処理およびデータ分類処理で画像の分類を行った。なお、比較例として、従来の判別分析の手法で得た変換ベクトルでも画像の分類を行った。

ここで、実施例１では、上記の式（１６）の固有値方程式により変換ベクトル候補を求めている。実施例２では、上記の式（１４）の固有値方程式により変換ベクトル候補を求めている。実施例３では、上記の式（１５）の固有値方程式により変換ベクトル候補を求めている。

また、上記のサンプル画像の内訳は、注目すべき風景画像が３５０枚であり、それ以外の画像が４５００枚である。各実施例および比較例では、上記のＳ１０２の処理とほぼ同様の手法で、各サンプル画像から６面分の画像（Ｙ面の画像、Ｃｂ面の画像、Ｃｒ面の画像、Ｙ面のエッジ画像、Ｃｂ面のエッジ画像、Ｃｒ面のエッジ画像）を生成した。そして、上記の各面からそれぞれ１０２個の特徴量成分を求めた。

また、各実施例では、上記のＳ１０６の処理と同様の手法で、全ての変換ベクトル候補のうちから、評価値βの上位６つを変換ベクトルとして抽出している。一方、比較例では、各面で固有値の大きい上位３個の変換ベクトルを用いて、１８個の主成分で判別を行っている。なお、各実施例および比較例では、グループＡの正解率を正規化するために、データ分類の判定式である式（２３）の「α」の値を個別に調整した（比較例：α＝７．０、実施例１：α＝７．５、実施例２：α＝９．０、実施例３：α＝６．０）。

また、各実施例および比較例では、上記のサンプル画像を用いた３０回の交差妥当化（30-fold cross validation）をそれぞれ実行した。すなわち、各実施例および比較例では、サンプル画像から９５％の画像を教師画像としてランダムに抽出した。そして、この教師画像を用いて上記実施形態の手法で変換ベクトルを決定するとともに、残りの５％のサンプル画像を用いて分類の正解率を求めた。以上の処理を３０回繰り返して正解率の平均を求めた。

図８は、各実施例および比較例について、グループＡおよびＢでの画像分類の正解率を示している。各実施例および比較例は、グループＡの正解率がほぼ同程度になるように上記αを設定している。その結果、各実施例は、グループＡおよびＢでの正解率にさほど大きな違いはないことが確認できる。一方、比較例ではグループＡの正解率に対してグループＢの正解率が約半分と大きく低下しているが、本手法ではグループＡの正解率に対するグループＢの正解率があまり低下していないことが分かる。これにより、一の実施形態の手法では、グループＡの要素のみに共通する特徴が反映された射影ベクトルを選択して分類が行われていることが分かる。

＜実施形態の補足事項＞
（１）上記実施形態では、データ分類装置が行列による線形変換によって、複数の要素のうちから注目する要素を分類する例を説明した。しかし、本発明のデータ分類装置は、公知の非線形変換の手法を用いて、複数の要素のうちから注目する要素を分類するものであってもよい。

（２）上記実施形態では、第２ベクトル演算部２２が導出した変換ベクトルをそのまま用いてデータを分類する例を説明した。しかし、本発明では、学習処理で得た変換ベクトルを例えばサポートベクターマシン（ＳＶＭ）に入力して、要素の判別モデルを構築するようにしてもよい。

（３）上記実施形態では、第１ベクトル演算部２１、第２ベクトル演算部２２、データ分類部２３、画像処理部２４の各処理をソフトウエア的に実現する例を説明したが、ＡＳＩＣによってこれらの各処理をハードウエア的に実現しても勿論かまわない。

（４）本発明のデータ分類装置は、電子カメラ、イメージスキャナを含む撮像装置に実装されるものであってもよい（なお、撮像装置の構成の図示は省略する）。この場合、データ分類装置は、撮像部から分類対象となる画像のデータを取得し、製造工程等で行われた学習処理によって取得した変換ベクトルを用いて、画像のデータを分類すればよい。なお、電子カメラに実装されたデータ分類装置では、シーン判別の結果に基づいて、パラメータ決定部が、撮影条件のパラメータ（絞り値、露光期間、撮像感度など）や、画像処理のパラメータ（階調特性、ホワイトバランス、色変換マトリクスなど）を設定することも可能である。

（５）上記実施形態では、分類対象の画像自体から特徴量成分を得る例を説明した。しかし、本発明では、撮像装置の各種センサが画像撮影時に取得した撮影情報（各ＡＦエリアの測距情報など）を特徴量成分としてもよい。

（６）上記実施形態でのデータ分類装置は、分類対象となる画像のシーン分類を行う例を説明したが、本発明における分類対象は上記実施形態の例に限定されるものではない。

例えば、本発明のデータ分類装置は、多様な人物の顔を撮影した画像を教師データとし、特定の表情（笑顔や目を閉じた顔）の画像を抽出する用途に応用することもできる。または、本発明のデータ分類装置は、顕微鏡観察で同一種類の培養細胞を撮像した画像を教師データとし、特定状態の培養細胞（例えば分化誘導された細胞）の画像を抽出する用途に応用することもできる。

さらに、本発明のデータ分類装置は、画像の分類を行う構成に限定されず、多次元の特徴量成分を有する統計データの分類に広く応用できる。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲が、その精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずであり、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物によることも可能である。

１１…コンピュータ、１２…データ読込部、１３…記憶装置、１４…ＣＰＵ、１５…メモリ、１６…入出力Ｉ／Ｆ、１７…バス、１８…入力デバイス、１９…モニタ、２１…第１ベクトル演算部、２２…第２ベクトル演算部、２３…データ分類部、２４…パラメータ決定部、２５…画像処理部

Claims

ｐ個の成分を含む分類対象データから、それぞれｑ個（ｑ≦ｐ）の変換ベクトル候補を求める第１ベクトル演算部と、
ｑ個の前記変換ベクトル候補のうちから、ｒ個（ｒ＜ｑ）の変換ベクトルを求める第２ベクトル演算部と、
前記変換ベクトルを用いて、複数種類の分類対象データを、注目すべき分類対象データを抽出する第１グループと、前記第１グループと異なる第２グループとに分類するデータ分類部と、を備え、
前記第２ベクトル演算部は、前記第１グループに属する分類対象データを用いて前記変換ベクトル候補の第１分散値をそれぞれ求めるとともに、前記第２グループに属する分類対象データを用いて前記変換ベクトル候補の第２分散値をそれぞれ求め、前記第１分散値に対する前記第２分散値の比が大きい順に前記変換ベクトル候補のうちから前記変換ベクトルを求めるデータ分類装置。
請求項１に記載のデータ分類装置において、
前記第１ベクトル演算部は、固有値方程式に基づいて前記変換ベクトル候補を求めるデータ分類装置。
請求項２に記載のデータ分類装置において、
前記第１ベクトル演算部は、下式で固有値λが定義される固有値方程式に基づいて前記変換ベクトル候補を求めるデータ分類装置。

但し、σ_Ａは前記第１分散値を示し、σ_Ｂは前記第２分散値を示し、σ_ＡＢは前記第１グループと前記第２グループとのグループ間分散を示す。
請求項２に記載のデータ分類装置において、
前記第１ベクトル演算部は、下式で固有値λが定義される固有値方程式に基づいて前記変換ベクトル候補を求めるデータ分類装置。

但し、σ_Ａは前記第１分散値を示し、σ_Ｂは前記第２分散値を示し、σ_ＡＢは前記第１グループと前記第２グループとのグループ間分散を示す。
請求項２に記載のデータ分類装置において、
前記第１ベクトル演算部は、下式で固有値λが定義される固有値方程式に基づいて前記変換ベクトル候補を求めるデータ分類装置。

但し、σ_Ａは前記第１分散値を示し、σ_Ｂは前記第２分散値を示し、σ_ＡＢは前記第１グループと前記第２グループとのグループ間分散を示す。
請求項１から請求項５のいずれか１項に記載のデータ分類装置において、
前記分類対象データが画像データであるデータ分類装置。
請求項６に記載のデータ分類装置において、
前記データ分類部による分類結果に応じて、入力される画像に対する画像処理のパラメータを決定するパラメータ決定部をさらに備えるデータ分類装置。
コンピュータを、請求項１から請求項７のいずれか１項に記載のデータ分類装置として機能させるプログラム。