JP2011141866A - データ分類装置、データ分類システムおよびプログラム - Google Patents

データ分類装置、データ分類システムおよびプログラム Download PDF

Info

Publication number
JP2011141866A
JP2011141866A JP2010259021A JP2010259021A JP2011141866A JP 2011141866 A JP2011141866 A JP 2011141866A JP 2010259021 A JP2010259021 A JP 2010259021A JP 2010259021 A JP2010259021 A JP 2010259021A JP 2011141866 A JP2011141866 A JP 2011141866A
Authority
JP
Japan
Prior art keywords
data
group
classification
data classification
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010259021A
Other languages
English (en)
Inventor
Tsukasa Murata
司 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP2010259021A priority Critical patent/JP2011141866A/ja
Publication of JP2011141866A publication Critical patent/JP2011141866A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 多次元の特徴量を有するデータの分類精度をより高めたデータ分類の手段を提供する。
【解決手段】 データ分類装置は、特徴量演算部と、データ分類部とを備える。特徴量演算部は、n個の成分を含む第1特徴量を有する分類対象データから、nより小さいm個の成分からなる第2特徴量を求める。データ分類部は、第2特徴量を用いて、複数種類の分類対象データを、第1グループと、第1グループと異なる第2グループとに分類する。また、特徴量演算部は、第2特徴量の少なくとも1以上の成分として、第1グループに属する分類対象データを用いて求めた第1分散値と、第2グループに属する分類対象データを用いて求めた第2分散値との比が極値をとる成分を含める。
【選択図】 図1

Description

本発明は、データ分類装置、データ分類システムおよびプログラムに関する。
従来から、複数の変数を有するデータについて、変数間の相互関連を分析することでデータの分類を行う多変量解析の手法として、例えば主成分分析や判別分析が広く知られている。
主成分分析は、多次元の特徴量空間中で射影により新たな特徴量を算出する手法である。主成分分析では、特徴量の分散が大きくなれば各要素が広範囲に散らばってより容易に分類を行えるため、上記の射影軸は全要素の分散が大きくなるように決定される。
一方、判別分析は、主成分分析を拡張した考えであって、データを分類した各グループ内の分散値は小さく、かつグループ間の分散値が大きくなるような特徴量を求める手法である。例えば、特許文献1には、判別分析の一手法の例が開示されている。
特許第3480563号公報
ところで、従来の主成分分析の手法では、分類対象のデータ全体で特徴量の分散が最も大きくなる射影軸を探すため、注目するグループに属する要素が射影によってばらつくことで、データの分類精度が不十分となる場合も生じうる。
また、従来の判別分析の手法では、例えば分類対象のデータ群に、いずれのグループとも相関の低い特殊なデータが含まれていた場合、このような特殊なデータの振る舞いによってデータ全体の分類精度が低下しうる点で改善の余地があった。
そこで、本発明は、多次元の特徴量を有するデータの分類精度をより高めたデータ分類の手段を提供することを目的とする。
一の態様のデータ分類装置は、特徴量演算部と、データ分類部とを備える。特徴量演算部は、n個の成分を含む第1特徴量を有する分類対象データから、nより小さいm個の成分からなる第2特徴量を求める。データ分類部は、第2特徴量を用いて、複数種類の分類対象データを、第1グループと、第1グループと異なる第2グループとに分類する。また、特徴量演算部は、第2特徴量の少なくとも1以上の成分として、第1グループに属する分類対象データを用いて求めた第1分散値と、第2グループに属する分類対象データを用いて求めた第2分散値との比が極値をとる成分を含める。
上記の一の態様において、第1グループは、注目すべき特性が共通する分類対象データを抽出したグループであってもよい。また、特徴量演算部は、第1分散値に対して第2分散値が大きくなる成分を第2特徴量に含めてもよい。
上記の一の態様において、特徴量演算部は、第1特徴量による特徴量空間での特徴量の射影から第2特徴量を求めてもよい。また、特徴量演算部は、第1グループでの射影成分による第1分散値に対して、第2グループでの射影成分による第2分散値の比が大きくなるように、第2特徴量の成分を決定してもよい。
このとき、特徴量演算部は、第1グループに対応した複数の第1教師データから得られた第1分散共分散行列の逆行列と、第2グループに対応した複数の第2教師データから得られた第2分散共分散行列とを用いて求めた行列の固有値方程式により、第2特徴量の成分を決定してもよい。
上記の一の態様において、特徴量演算部は、第2特徴量の成分の候補が、第1分散値に対する第2分散値の比が閾値を超えるときに、上記の候補を第2特徴量の成分に決定してもよい。
また、上記の候補の第1分散値に対する第2分散値の比が閾値を超えないときに、特徴量演算部は、上記の候補について第1グループおよび第2グループでの射影成分の平均値の差分と第2グループの偏差値との比が所定値を超える場合に、上記の候補を第2特徴量の成分に決定してもよい。
上記の一の態様において、分類対象データが画像データであってもよい。このとき、データ分類装置は、データ分類部による分類結果に応じて、入力される画像に対する画像処理のパラメータを決定するパラメータ決定部をさらに備えていてもよい。
なお、一の態様のデータ分類装置を含む撮像装置またはデータ分類システム、コンピュータを一の態様のデータ分類装置として動作させるプログラム、上記のプログラムを記憶した記憶媒体、一の態様に係るデータ分類装置の動作を方法のカテゴリで表現したものは、いずれも本発明の具体的態様として有効である。
一の態様のデータ分類装置は、2つのグループの分類対象データに基づく各分散値の比が極値をとる成分を用いてデータの分類を行い、分類対象データの分類精度をより高めることができる。
一の実施形態でのデータ分類装置の構成例を示すブロック図 主成分分析の手法の概念図 主成分分析におけるW軸上での要素の分布例を示す図 判別分析でのクラス分布の概念図 判別分析でのベクトルの関係を示す図 判別分析におけるW軸上での要素の分布例を示す図 一の実施形態のデータ分類処理におけるW軸上での要素の分布例を示す図 一の実施形態での学習処理の例を示す流れ図 一の実施形態でのデータ分類処理の例を示す流れ図 グループA,Bの中心が一致する場合において、独立した成分の数と誤確率IBとの相関を示す図 グループA,Bの中心のズレによる誤確率IBの推移の例を示す図 グループA,Bの中心がズレている場合において、独立した成分の数と誤確率IBとの相関を示す図 実施例における3次元特徴量空間での要素の分布例を示す図 実施例における3次元特徴量空間での要素の分布例を示す図 実施例における3次元特徴量空間での要素の分布例を示す図 比較例における3次元特徴量空間での要素の分布例を示す図 比較例における3次元特徴量空間での要素の分布例を示す図 比較例における3次元特徴量空間での要素の分布例を示す図
<一の実施形態での装置構成例>
図1は、一の実施形態でのデータ分類装置の構成例を示すブロック図である。一の実施形態では、撮像装置で撮像された画像データをデータ分類装置での分類対象とする例を説明する。なお、分類対象の画像データには、撮像時のAFで取得した画像内の51点の測距情報や、撮像時に分割測光センサで取得した画像内の308ブロック(22×14ブロック)でのRGBの階調値を含む撮影情報が付帯情報として記録されている。
また、一の実施形態でのデータ分類装置は、データ分類プログラムがインストールされたパーソナルコンピュータで構成される。
図1に示すコンピュータ11は、データ読込部12、記憶装置13、CPU14、メモリ15および入出力I/F16、バス17を有している。データ読込部12、記憶装置13、CPU14、メモリ15および入出力I/F16は、バス17を介して相互に接続されている。さらに、コンピュータ11には、入出力I/F16を介して、入力デバイス18(キーボード、ポインティングデバイスなど)とモニタ19とがそれぞれ接続されている。なお、入出力I/F16は、入力デバイス18からの各種入力を受け付けるとともに、モニタ19に対して表示用のデータを出力する。
データ読込部12は、上記の分類対象データ(画像データ)や、上記のデータ分類プログラムを外部から読み込むときに用いられる。例えば、データ読込部12は、着脱可能な記憶媒体からデータを取得する読込デバイス(光ディスク、磁気ディスク、光磁気ディスクの読込装置など)や、公知の通信規格に準拠して外部の装置と通信を行う通信デバイス(USBインターフェース、LANモジュール、無線LANモジュールなど)で構成される。
記憶装置13は、例えば、ハードディスクや、不揮発性の半導体メモリなどの記憶媒体で構成される。この記憶装置13には、データ分類プログラムや、プログラムの実行に必要となる各種のデータが記録されている。なお、記憶装置13には、データ読込部12から読み込んだ分類対象データを記憶しておくこともできる。
CPU14は、コンピュータ11の各部を統括的に制御するプロセッサである。このCPU14は、上記のデータ分類プログラムの実行によって、特徴量演算部21、データ分類部22、パラメータ決定部23、画像処理部24としてそれぞれ機能する(特徴量演算部21、データ分類部22、パラメータ決定部23、画像処理部24の各動作は後述する)。
メモリ15は、データ分類プログラムでの各種演算結果を一時的に記憶する。このメモリ15は、例えば揮発性のSDRAMなどで構成される。
<データ分類処理の概念説明>
次に、一の実施形態でのデータ分類処理を説明する。なお、本明細書では、理解の便宜のため、従来技術である主成分分析および判別分析の概略を最初に説明し、その後に一の実施形態でのデータ分類処理の手法を詳細に説明する。
(主成分分析の概略説明)
図2は、主成分分析の手法の概念を示す図である。例えば、注目する1つの要素(分類対象データ)が、n次元の特徴量ベクトルを用いてn次元の特徴量空間中の1点で表現されているとする。また、上記の特徴量空間中にはN個の要素が存在し、かつ各要素がグループAか、グループA以外のグループBに属している場合を考える。
主成分分析は、各要素を表現するときにnより小さい数の特徴量で、各要素を分離表現する最適な特徴量を求める手法であり、特徴量空間で分散値が最大となる射影軸Wを求める。なお、主成分分析におけるW軸上での要素の分布例を図3に模式的に示す。このW軸上ではそれぞれの特徴点が最も重ならずに分布するため、より少ない次元数で各要素を分離させて表現できることが分かる。
Figure 2011141866
したがって、上記の式(1)は、下式(3)で表現できる。
Figure 2011141866
なお、上記の各式において、ベクトルはn×1の行列であるものとし、添字のTは行列の転置を意味している。また、式(3)のStotは、下式(4)で表現できるn×nの対称行列であって、分散共分散行列と称される。
Figure 2011141866
上記の式(3),式(4)によれば、分散共分散行列を単位射影ベクトルで挟むと、注目する射影軸での分散値が得られることが分かる。
そして、主成分分析の演算では、上記の式(3)で定義される分散が最大となる単位射影ベクトルを求めればよい。
Figure 2011141866
一般に、上記の式(5)ではStotがn次のとき、n個の独立な解が存在することが知られている。よって、主成分分析では、添字lがl番目の解を表すときに、下式(6)の極値を求める問題を解くことが行われている。
Figure 2011141866
(判別分析の概略説明)
図4は、判別分析でのクラス分布の概念図である。判別分析では、N個の要素がk個のクラスに分類されるとともに、各要素がいずれかのクラスに属していることを前提とする。なお、以下の説明では、それぞれのクラスをCkと表記する。
Figure 2011141866
式(8)−(10)の関係を用いると、上記の式(4)で定義された系全体の分散共分散行列を下式(11)のように書き換えることができる。
Figure 2011141866
ただし、上記の式(11)の導出において、
Figure 2011141866
を導入した。
上記の式(4)と同様に考えると、クラスCjでのクラス内分散共分散行列は、Cjのみの要素を用いて下式(13)で定義できる。また、各クラスの平均ベクトルの分散は下式(14)で定義できる。
Figure 2011141866
よって、式(13),(14)から、上記の式(11)は下式(15)で表現できることが分かる。
Figure 2011141866
上記の式(15)は、式(4)で定義された系全体の分散共分散行列が、各クラスのクラス内分散共分散行列と、クラス間の分散共分散行列とに分離可能であることを示している。
ここで、分散共分散行列を単位射影ベクトルで挟むと、下式(16)に示すように射影軸での分散値を得ることができる。
Figure 2011141866
上記の式(16)により、単位射影ベクトルによって射影されたW軸での系全体の分散が、各クラスのクラス内分散の総和と、クラス間分散の和とに分解できることが分かる。
Figure 2011141866
なお、判別分析におけるW軸上での要素の分布例を図6に模式的に示す。
よって、判別分析では、
Figure 2011141866
このとき、上記の式(17)に対して、
Figure 2011141866
となる。
上記の式(18)において、
Figure 2011141866
そのため、クラス内の分散値の総和とクラス間の分散値とを個別に求める場合は、式(18)で得られる単位射影ベクトルを、式(13)および式(14)で定義された分散共分散行列に作用させて演算すればよい。
(主成分分析および判別分析の検討)
本願の発明者は、従来技術の主成分分析および判別分析をそれぞれ検討し、以下の問題点を見いだした。
まず、主成分分析について発明者が見いだした問題点を述べる。各要素の座標点の距離が離れていた方が、各要素を区別しやすいという概念は自然な考えである。しかし、注目すべき特性が共通し、1つのグループにまとめたい要素の集合はなるべく座標上の位置に集めた方がより自然である。
次に、判別分析について発明者が見いだした問題点を述べる。各種の要素を想定したときに、いずれのグループ(クラス)にも属さない無意味な要素は必ず存在する。判別分析では、すべての要素がいずれかのクラスに属し、各クラスのクラス内分散が小さくなる特徴量を求める。しかし、上記した無意味な要素をいずれかのグループに属させてクラス内分散を小さくする特徴量を求めると、あるグループでは、グループ内の要素の相関が低いため、却って全体の分析結果に悪影響を及ぼすおそれがある。
(一の実施形態でのデータ分類処理の基本概念)
本願の発明者は、上記の主成分分析および判別分析の問題点に鑑みて、一の実施形態でのデータ分類処理の手法を案出した。このデータ分類処理の手法は、n個の成分を含む第1特徴量を有する分類対象データ(要素)から、nより小さいm個の成分からなる第2特徴量を求め、この第2特徴量を用いて要素を分類する。また、一の実施形態でのデータ分類処理の手法は、以下の(A)−(C)の特徴を有している。
(A)分類対象データを、注目すべき特性が共通する分類対象データを抽出したグループAと、グループAと異なるグループBとの2つのグループに分類する。
(B)グループAでの要素のクラス内分散は小さくする。
(C)グループBでの要素のクラス内分散は大きくする。
なお、特に限定するものではないが、一の実施形態でのデータ分類処理では、さらに以下に示す(D)の条件を付加してもよい。
(D)グループAとグループBとの中心点(平均特徴量)はなるべく離す。
一の実施形態のデータ分類処理におけるW軸上での要素の分布例を図7に模式的に示す。一の実施形態では、注目する特性が共通する要素を含むグループAのクラス内分散を小さくし、かつ注目する要素以外の要素を主に含むグループBのクラス内分散を大きくするような成分を求める。
この場合、グループAの要素はW軸上で小さくまとまる一方で、グループBの要素はW軸上に広く分布することとなる。これにより、一の実施形態のデータ分類処理では、グループAおよびグループBの要素の重なりは小さくなり、全要素からグループAの要素を十分抽出しうる。また、一の実施形態のデータ分類処理では、グループBの要素の分散が大きくなるため、グループAの要素と相関の低い要素が分類対象データに含まれる場合でも、分類結果に悪影響を及ぼすおそれがより低くなる。
ここで、一の実施形態でのデータ分類処理で解くべき問題は、上記の(A)−(C)の条件から、上記の式(18)とほぼ同様な以下の固有値問題(式(20))に帰着する。また、さらに上記の(D)の条件を考慮に入れた場合には、下式(21)のようになる。
Figure 2011141866
ただし、上記の式(20),式(21)において、「SA」は、グループAの要素で算出される分散共分散行列(n×nの対称行列)である。同様に、「SB」は、グループBの要素で算出される分散共分散行列(n×nの対称行列)である。
Figure 2011141866
また、上記の式(14)と比較して、上記の式(22)の定義式には、各クラスの要素数と全要素数との割合(nCj)の項が含まれていない。これは、学習においてグループAとグループBとの要素数が違いすぎるときに、要素数の多いグループの効果が学習結果に大きく影響することを防ぐためである。
なお、上記のデータ分類処理の射影演算は、入力特徴量を用いる単純な線形演算であるため、比較的少ない負荷でコンピュータに実行させることができる。
<一の実施形態でのデータ分類装置の動作例>
以下、図1に示すデータ分類装置の動作例を説明する。図1のデータ分類装置は、教師付き学習によってデータ分類処理で用いる成分を予め決定するとともに、教師付き学習で求めた成分を用いてデータ分類処理を実行する。また、一の実施形態では、データ分類処理の一例として、撮像装置で撮像された画像をシーン別に分類する場合を説明する。
(学習処理の一例)
まず、図8の流れ図を参照しつつ、一の実施形態での学習処理の例を説明する。ここで、図8の流れ図の処理は、プログラムの実行指示に応じてCPU14が実行する。なお、以下に示す学習処理は、データ分類装置(またはプログラム)の製造者が予め製造工程で実行してもよく、あるいはデータ分類装置を購入したユーザが実行するものであってもよい。
ステップS101:CPU14は、複数の教師画像データをデータ読込部12から読み込んで取得する。
ここで、各々の教師画像データは、上記の分類対象データとほぼ同様の画像データであって、n個の成分を含む第1特徴量をそれぞれ有している。一の実施形態では、画像データに対応付けされた撮影情報を第1特徴量として用いる例を説明する。具体的には、CPU14は、画像内の51点の測距情報や、画像内の308ブロックのR面,G面,B面での階調値情報のいずれかを第1特徴量とする。
また、各々の教師画像は、予め評価者によってシーンごとに分類されている。一の実施形態でのシーンは、例えば、「ポートレート」、「夜景」、「風景・造形(構造物など)」、「その他」の4種類の分類を含むものとする。また、各画像に相応するシーンを示す正解データは、各々の教師画像データに対応付けされている。なお、S101で取得された教師画像データ、第1特徴量のデータおよび正解データは、CPU14の制御によって、記憶装置13またはメモリ15に記録される。
ステップS102:CPU14は、正解データを参照して、全ての教師画像のデータを、注目する特性が共通する要素を含むグループAと、グループAとは異なるグループBとに分類する。例えば、CPU14は、注目する特性を「ポートレート」とした場合、正解データを参照して、「ポートレート」の教師画像データ(要素)をグループAに属させるとともに、残りの教師画像データ(要素)をグループBに属させる。
ステップS103:特徴量演算部21は、グループAの要素から算出される分散共分散行列SAと、グループBの要素から算出される分散共分散行列SBとをそれぞれ求める。なお、一の実施形態では、各要素の第1特徴量のベクトルはn×1の行列で表現され、各々の分散共分散行列はn×nの対称行列で表現される。例えば、51点の測距情報を第1特徴量とした場合、第1特徴量のベクトルは51×1の行列で表現される。
ステップS104:特徴量演算部21は、分散共分散行列SAの逆行列と、分散共分散行列SBと、単位射影ベクトルとを用いた行列の固有値方程式(上記の式(20)または式(21)の演算)を解く。なお、分散共分散行列はn×nの対称行列であるので、ここでの固有値問題は、n個の固有値と、各固有値に対応したn個の異なる単位射影ベクトルとをもつ。上記の射影ベクトルは、第2特徴量の成分候補となる。
なお、S104での特徴量演算部21は、上述の主成分分析の手法または判別分析の手法で第2特徴量の成分候補となる複数の射影ベクトルを求めてもよい。また、S104での特徴量演算部21は、上記の式(20)または式(21)の演算で求めた射影ベクトルと、主成分分析の手法および判別分析の手法で求めた射影ベクトルとを、すべて第2特徴量の成分候補としてもよい。
ステップS105:特徴量演算部21は、上記の固有値(S104で求めたもの)に基づいて、データ分類処理に用いる第2特徴量の成分(単位射影ベクトル)を選択する。このとき、特徴量演算部21は、グループAの第1分散値に対するグループBの第2分散値の比(第2分散値/第1分散値)が最大の極値をとる固有値に対応する単位射影ベクトルを第1成分に選択する。また、特徴量演算部21は、第2分散値/第1分散値の大きさの順で、第2成分以下の成分を選択してもよい。
ここで、S105での特徴量演算部21は、第2特徴量の成分の候補(ある固有値と単位射影ベクトルとの組み合わせ)について、第1分散値に対する第2分散値の比(第2分散値/第1分散値)が閾値を超えるときに、上記の候補を第2特徴量の成分に決定することができる。グループBの第2分散値が小さいときには、W軸上でグループAの要素とグループBの要素とが大きく重なることで、誤判定率が高くなるからである。なお、一例として、上記の閾値は、第2分散値/第1分散値の比が少なくとも4倍を超える範囲で適宜設定される。
また、第2特徴量の成分の候補について、第1分散値に対する第2分散値の比が閾値を超えないときでも、特徴量演算部21は、上記の候補についてグループAおよびグループBでの射影成分の平均値の差とグループBの偏差値との比が所定値を超えて十分に大きい場合は、上記の候補を第2特徴量の成分に決定してもよい。
この場合は、グループAおよびグループBの偏差比が小さいが、W軸上においてグループAの中心とグループBの中心とが十分離れているケースに相当する。上記のケースの成分を適用して分類処理を行う場合には、問題は少ないと考えられるからである。なお、一例として、上記の所定値は、少なくとも3倍よりも大きな値の範囲で適宜設定される。
以上で、図8の流れ図の説明を終了する。なお、データ分類装置は、上記の学習処理において、例えば、51点の測距情報を第1特徴量として求めた成分と、308ブロックのR面の階調値を第1特徴量として求めた成分と、308ブロックのG面の階調値を第1特徴量として求めた成分と、308ブロックのB面の階調値を第1特徴量として求めた成分と、を求める。そして、特徴量演算部21は、例えば、第2分散値/第1分散値の比の大きい順に成分を抽出することで、最終的にm個の成分からなる第2特徴量を決定することができる。なお、限定するものではないが、第2特徴量の成分は3つ以上であることが好ましい(理由は後述する)。
なお、図8は、「ポートレート」の画像がグループAに属するときの第2特徴量の例を説明したが、他のシーンを分類する場合の学習処理についても上記と同様の手順で行うことができる。
(データ分類処理の一例)
次に、図9の流れ図を参照しつつ、一の実施形態でのデータ分類処理の例を説明する。なお、図9の流れ図の処理は、プログラムの実行指示に応じてCPU14が実行する。
ステップS201:CPU14は、分類対象データ(画像データ)をデータ読込部12から読み込んで取得する。ここで、S201で取得される分類対象データとしての画像は、上記の教師画像とは異なり、データ分類装置にとってシーンが未知の画像である。なお、上記の分類対象データは、CPU14の制御によって、記憶装置13またはメモリ15に記録される。
ステップS202:特徴量演算部21は、分類対象データ(S201)の撮影情報を用いて、上記の学習処理で決定された第2特徴量の成分をそれぞれ求める。
ステップS203:データ分類部22は、第2特徴量(S202)に基づいて、分類対象データを特徴量空間に射影する。そして、データ分類部22は、特徴量空間に射影された分類対象データの値と、特徴量空間でのグループAの中心値との距離に応じて、分類対象データがグループAに属するか否かを判定する。
例えば、第2特徴量の各成分(i軸)でのグループAの平均値、偏差値をそれぞれ「ci,σi」とし、分類対象データのi軸への射影成分を「xi」としたとき、データ分類部22は、下式(23)の演算を行い、グループAの要素との判別パラメータγを求める。そして、データ分類部22は、判別パラメータγの値が1以下であれば、分類対象データがグループAに属すると判定する。
Figure 2011141866
上記の式(23)において「all.com」は第2特徴量の全成分を示している。また、上記の式(23)において「α」は、i軸に射影された値がグループAの平均値から離れているかどうかを判断するパラメータである。このパラメータαの値は、理想的なGauss分布で分布するサンプルの99%が含まれる距離に基づいて、通常は3.0程度の値に設定される。もっとも、パラメータαの値は必要に応じて適宜調整してもよい。
例えば、グループAとグループBとの偏差の比が十分大きなときには、グループAとグループBとの分布が重なる部分が少ないので、αの値を大きくしてもよい。また、グループAとグループBとの偏差の比が同程度であって、グループAおよびグループBのi軸での平均値が、グループAの偏差値と比べて十分に離れている場合も、グループAとグループBとの分布が重ならないため、αの値を大きくしてもよい。
ステップS204:CPU14は、S203での判定結果に基づいて各種の処理を実行する。
一例として、S204でのCPU14は、S203での判定結果(分類対象データがグループAに属するか否か)をモニタ19に表示してもよい。また、CPU14は、分類対象データがグループAに属する場合には、画像のシーンを示す情報を付帯情報として分類対象データに対応づけて記録してもよい。
また、S204でのCPU14は、複数の分類対象データについて、それぞれS202、S203の処理を実行し、複数の分類対象データのうちからグループAに属する画像のみを抽出してもよい。
また、S204でのデータ分類装置は、S203の判定結果に応じて、所定のグループの画像データに施す画像処理を変更してもよい。
一例として、S203において、グループAの画像として「ポートレート」の画像を抽出する場合、パラメータ決定部23は、グループAに属する画像の画像処理のパラメータを以下のように決定する。まず、パラメータ決定部23は、階調変換処理のパラメータとして、デフォルトの階調曲線よりも相対的にコントラストが低めになる軟調の階調曲線を選択する。また、パラメータ決定部23は、色変換処理のパラメータとして、肌色の彩度を向上させる色変換マトリクスを選択する。
そして、画像処理部24は、パラメータ決定部23が決定した上記のパラメータを用いて、グループAに属する画像のデータに画像処理を施す。これにより、データ分類装置は、ポートレートと判定された画像について、顔の柔らかさの表現が強調されるとともに、人物の肌色のくすみなどが軽減されるレタッチ処理を行うことができる。
なお、上記の画像処理は一例にすぎず、パラメータ決定部23は、ポートレートの画像に対する画像処理のパラメータとして、他のパラメータを変更してもよい。勿論、パラメータ決定部23は、グループAの画像として「ポートレート」以外の画像が抽出される場合には、グループAのシーンに相応する画像処理のパラメータを選択することはいうまでもない。以上で図9の流れ図の説明を終了する。
<一の実施形態の手法における正誤確率について>
ここで、一の実施形態のデータ分類手法における正誤確率について説明する。以下の説明では、簡単のため、理想的な分布で要素が分布する系を考えることとし、上記の手法で算出された射影軸Wにおいて、グループA,Bの各要素が、下式(24)に示すGauss分布で分布するものとする。
Figure 2011141866
ただし、式(24)で添字iは、グループA,Bを区別するために記した。このとき、式(24)の分布では、中心周りの±σに分布する確率は積分により求めることができ、下式(25)で表すことができる。
Figure 2011141866
いま、上記の式(20)を解いた結果として、σB〜10σAとなる射影ベクトルが見つかった場合を考える。
Figure 2011141866
σB〜10σAを式(25)に用いると、グループAに属すべき要素がグループAと正しく判定される正解確率IAと、グループBに属すべき要素がグループAと誤って判定される誤確率IBとがそれぞれ下式(26)で求められる。
Figure 2011141866
式(26)によれば、式(20)で得られる1つの成分Wについて、おおまかな正誤確率を見積もることができる。さらに独立した成分を複数存在する場合、各成分でそれぞれ上記の正誤確率(IA,IB)を求めることができる。
仮にn個の独立した成分Wが存在する場合、式(26)による正誤確率は図10のように推移する。一例として、独立した成分Wを3種類見つけた場合、上記の正誤確率(IA,IB)は下式(27)で表すことができる。
Figure 2011141866
以上から、一の実施形態でのデータ分類手法では、線形射影で得られる独立な成分が3種類存在すれば、単純な線形3次元特徴空間での判別で誤確率を非常に小さくできることが分かる。
なお、上記の見積もりでは、グループA,Bにおいて要素の分布の平均値が等しいことを前提としている。しかし、上記(D)の条件(「グループAとグループBとの中心点はなるべく離す」)を考慮し、上記の式(21)によって成分Wを求めれば、誤確率をさらに抑制できることが予想できる。
一例として、グループA,Bの分布関数の中心(平均ベクトルのW方向の成分)LσAだけズレている場合を考える。この場合、式(26)の計算において、誤判定率IBは下式(28)に示すように変化する。
Figure 2011141866
図11は、グループA,Bの中心のズレによる誤確率IBの推移の例を示す図である。図11によれば、σ=10σAの条件からグループBの分布がなだらかなため、中心のズレによる誤確率の推移も比較的になだらかであると分かる。
一方、図12は、グループA,Bの中心がズレている場合において、独立した成分の数と誤確率IBとの相関を示す図である。図12によれば、独立した成分の軸が増加すると、誤確率が急激に低下することが分かる。
よって、一の実施形態でのデータ分類手法の誤確率IBは、グループA,Bの中心のズレよりも、第2特徴量の成分の数に大きく依存する。また、一の実施形態でのデータ分類手法では、第2特徴量の成分として、独立した3種類の成分があれば誤確率IBを非常に小さくできることが分かる。
<実施例>
以下、上記実施形態のデータ分類装置によるデータ分類処理の実施例を説明する。この実施例では、上記実施形態と同様の分類対象データを用いて、上記実施形態の手法によるデータ分類処理で画像のシーンの判別を行った。このとき、第1特徴量として、51点の測距情報(実施例ではAF面と称する)と、分割測光センサの出力から生成されたYCbCr各面での308ブロック(22×14)の階調値とを用いた。なお、Cb面の308ブロックの階調値は、B面からG面を減算して擬似的に生成した。また、Cr面の308ブロックの階調値は、R面からG面を減算して擬似的に生成した。また、Y面の308ブロックの階調値には、G面の階調値を用いている。
そして、実施例では、複数の教師画像データを用いて、「風景・造形」の画像をグループAとし、それ以外の画像をグループBとする学習処理をデータ分類装置に実行させた。これにより、AF面、Y面、Cb面、Cr面において、それぞれ上位3つの成分を抽出した。実施例では、上記の成分のうち、Y面、Cb面、Cr面の各第1成分を第2特徴量とした。その後、実施例のデータ分類装置は、814枚の「風景造形画像」と、1210枚の「それ以外の画像」とを分類対象として、上記の式(23)の判別式でα=6.0としてデータ分類処理を実行した。表1に実施例での分類結果を示す。
Figure 2011141866
また、図13−図15は、実施例における3次元特徴量空間での要素の分布例を示す図である。図13は、グループAの要素の分布を示し、図14は、グループBの要素の分布を示している。また、図15は、グループA,Bの要素の分布を示している。実施例では、グループAの要素は3次元特徴量空間で比較的まとまっている一方で、グループBの要素は3次元特徴量空間に広く分布していることが分かる。
また、比較例として、従来の判別分析によって実施例と同様のデータ分類を行った結果を表2に示す。比較例では、グループAの画像の正解確率は実施例とほぼ同様であるが、グループBの画像の正解確率および誤確率は実施例よりも大きく低下していることが確認できる。
Figure 2011141866
また、図16−図18は、比較例における3次元特徴量空間での要素の分布例を示す図である。図16は、グループAの要素の分布を示し、図17は、グループBの要素の分布を示している。また、図18は、グループA,Bの要素の分布を示している。従来の判別分析の場合は、グループA,Bの要素はいずれも3次元特徴量空間で類似した分布を示している。このことからも、比較例では、実施例と比べて分類の誤確率が高くなることが推測できる。
<実施形態の補足事項>
(1)上記実施形態では、データ分類装置が行列による線形変換で第2特徴量の成分を導出する例を説明した。しかし、本発明のデータ分類装置は、公知の非線形変換の手法を用いて第2特徴量の成分を導出するものであってもよい。
(2)上記実施形態では、注目する要素を分類するグループが1つである例を説明した。しかし、本発明のデータ分類装置は、注目する要素を分類するグループが複数ある場合にも応用できる。
例えば、それぞれ注目する要素を分類するためのグループA,B,Cと、その他の要素を分類するグループZとを設定する場合を考える。このとき、グループA,B,Cの各偏差値をσA,σB,σCとし、グループA,B,C間でのグループ間の偏差値をσAB,σBC,σCAとする。また、グループZの偏差値をσZとする。
Figure 2011141866
なお、上記の式(29)の手法は、グループZの分散を小さくする条件がない点と、グループZと他のグループとの距離は考慮する必要がない点が、従来の判別分析の手法と相違する。
(3)上記実施形態では、第1特徴量から演算で導出された成分をそのまま第2特徴量の成分として用いる例を説明した。しかし、本発明では、学習処理での実験結果に基づいて、第1特徴量から導出された成分をチューニングし、チューニング後の成分を第2特徴量の成分としてもよい。
(4)上記実施形態では、特徴量演算部21、データ分類部22、パラメータ決定部23、画像処理部24の各処理をソフトウエア的に実現する例を説明したが、ASICによってこれらの各処理をハードウエア的に実現しても勿論かまわない。
(5)上記実施形態で開示されるデータ分類装置は、抽出すべき第2特徴量の成分(射影ベクトル)を規定した変換式を学習処理で求める第1の装置と、上記の変換式を用いてデータ分類処理を行う第2の装置とを含むデータ分類システムとして把握することもできる。上記実施形態では、簡単のため、第1の装置および第2の装置が同一の装置である場合を説明したが、第1の装置と第2の装置とは異なる装置であっても勿論かまわない。なお、一例として、上記実施形態において図8に示す学習処理が第1の装置の動作に相当し、図9に示すデータ分類処理が第2の装置の動作に相当する。
(6)本発明のデータ分類装置(上記(5)のデータ分類システムにおける第2の装置)は、電子カメラ、イメージスキャナを含む撮像装置に実装されるものであってもよい(なお、撮像装置の構成の図示は省略する)。この場合、データ分類装置は、撮像部から分類対象となる画像のデータを取得し、製造工程等で行われた学習処理によって取得した第2特徴量を用いて、画像のデータを分類すればよい。なお、電子カメラに実装されたデータ分類装置では、シーン判別の結果に基づいて、パラメータ決定部が、撮影条件のパラメータ(絞り値、露光期間、撮像感度など)や、画像処理のパラメータ(階調特性、ホワイトバランス、色変換マトリクスなど)を設定することも可能である。
(7)上記実施形態では、撮像装置の各種センサが画像撮影時に取得した撮影情報を第1特徴量とする例を説明したが、例えば、分類対象の画像自体を解析して得た特徴ベクトルを第1特徴量としてもよい。また、上記実施形態の例において、画像の輝度勾配成分(エッジ成分)などから第1特徴量を抽出してもよい。
(8)上記実施形態でのデータ分類装置は、分類対象となる画像のシーン分類を行う例を説明したが、本発明における分類対象は上記実施形態の例に限定されるものではない。
例えば、本発明のデータ分類装置は、多様な人物の顔を撮影した画像を教師データとし、特定の表情(笑顔や目を閉じた顔)の画像を抽出する用途に応用することもできる。または、本発明のデータ分類装置は、顕微鏡観察で同一種類の培養細胞を撮像した画像を教師データとし、特定状態の培養細胞(例えば分化誘導された細胞)の画像を抽出する用途に応用することもできる。
さらに、本発明のデータ分類装置は、画像の分類を行う構成に限定されず、主成分分析や判別分析が適用可能であって、多次元の特徴量を有する統計データの分類に広く応用できる。
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲が、その精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずであり、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物によることも可能である。
11…コンピュータ、12…データ読込部、13…記憶装置、14…CPU、15…メモリ、16…入出力I/F、17…バス、18…入力デバイス、19…モニタ、21…特徴量演算部、22…データ分類部、23…パラメータ決定部、24…画像処理部

Claims (19)

  1. n個の成分を含む第1特徴量を有する分類対象データから、nより小さいm個の成分からなる第2特徴量を求める特徴量演算部と、
    前記第2特徴量を用いて、複数種類の前記分類対象データを、第1グループと、前記第1グループと異なる第2グループとに分類するデータ分類部と、を備え、
    前記特徴量演算部は、前記第2特徴量の少なくとも1以上の成分として、前記第1グループに属する前記分類対象データを用いて求めた第1分散値と、前記第2グループに属する前記分類対象データを用いて求めた第2分散値との比が極値をとる成分を含めるデータ分類装置。
  2. 請求項1に記載のデータ分類装置において、
    前記第1グループは、注目すべき特性が共通する前記分類対象データを抽出したグループであり、
    前記特徴量演算部は、前記第1分散値に対して前記第2分散値が大きくなる成分を前記第2特徴量に含めるデータ分類装置。
  3. 請求項1または請求項2に記載のデータ分類装置において、
    前記特徴量演算部は、前記第1特徴量による特徴量空間での特徴量の射影から前記第2特徴量を求めるとともに、
    前記第1グループでの射影成分による前記第1分散値に対して、前記第2グループでの射影成分による前記第2分散値が大きくなるように、前記第2特徴量の成分を決定するデータ分類装置。
  4. 請求項3に記載のデータ分類装置において、
    前記特徴量演算部は、前記第1グループに対応した複数の第1教師データから得られた第1分散共分散行列の逆行列と、前記第2グループに対応した複数の第2教師データから得られた第2分散共分散行列とを用いて求めた行列の固有値方程式により、前記第2特徴量の成分を決定するデータ分類装置。
  5. 請求項1から請求項4のいずれか1項に記載のデータ分類装置において、
    前記特徴量演算部は、前記第2特徴量の成分の候補が、前記第1分散値に対する前記第2分散値の比が閾値を超えるときに、前記候補を前記第2特徴量の成分に決定するデータ分類装置。
  6. 請求項5に記載のデータ分類装置において、
    前記候補の前記第1分散値に対する前記第2分散値の比が閾値を超えないときに、
    前記特徴量演算部は、前記候補について前記第1グループおよび前記第2グループでの射影成分の平均値の差分と前記第2グループの偏差値との比が所定値を超える場合に、前記候補を前記第2特徴量の成分に決定するデータ分類装置。
  7. 請求項1から請求項6のいずれか1項に記載のデータ分類装置において、
    前記分類対象データが画像データであるデータ分類装置。
  8. 請求項7に記載のデータ分類装置において、
    前記データ分類部による分類結果に応じて、入力される画像に対する画像処理のパラメータを決定するパラメータ決定部をさらに備えるデータ分類装置。
  9. コンピュータを、請求項1から請求項8のいずれか1項に記載のデータ分類装置として機能させるプログラム。
  10. 複数種類の分類対象データを、注目する第1グループと、前記第1グループと異なる第2グループとに分類するための変換式を求める第1の装置と、第2の装置とを含むデータ分類システムであって、
    前記第2の装置は、
    入力された分類対象データからn個の成分を含む第1特徴量を抽出するとともに、前記変換式を用いて、nより小さいm個の成分からなる第2特徴量を前記第1特徴量から求める特徴量演算部と、
    前記第2特徴量を用いて、前記入力された分類対象データが前記第1グループに属するか否かを判定するデータ分類部と、
    を備えるデータ分類システム。
  11. 請求項10に記載のデータ分類システムにおいて、
    前記第1の装置は、予め与えられた学習用分類対象データを用いて、前記第1グループに属する前記学習用分類対象データを用いて求めた第1分散値と、前記第2グループに属する前記学習用分類対象データを用いて求めた第2分散値との比が極値をとる射影ベクトルを決定し、
    前記特徴量演算部は、前記第2特徴量の少なくとも1つの成分を、前記第1の装置で決定された射影ベクトルを用いて算出するデータ分類システム。
  12. 請求項10に記載のデータ分類システムにおいて、
    前記第1の装置は、予め与えられた学習用分類対象データを用いて複数の射影ベクトルを求め、複数の射影ベクトルのうちで、前記第1グループに属する前記学習用分類対象データを用いて求めた第1分散値と、前記第2グループに属する前記学習用分類対象データを用いて求めた第2分散値との比が所定条件を満たす射影ベクトルを決定し、
    前記特徴量演算部は、前記第2特徴量の少なくとも1つの成分を、前記第1の装置で決定された射影ベクトルを用いて算出するデータ分類システム。
  13. 請求項12に記載のデータ分類システムにおいて、
    前記第1の装置は、前記所定条件として、前記第1分散値に対する前記第2分散値の比が大きな順に前記射影ベクトルを決定するデータ分類システム。
  14. 請求項12に記載のデータ分類システムにおいて、
    前記第1の装置は、前記所定条件として、前記第1分散値に対する前記第2分散値の比が閾値を超えるときに前記射影ベクトルとして決定するデータ分類システム。
  15. 請求項12から請求項14のいずれか1項に記載のデータ分類システムにおいて、
    前記複数の射影ベクトルは、前記第1グループに対応した複数の前記学習用分類対象データから得られた第1分散共分散行列の逆行列と、前記第2グループに対応した複数の前記学習用分類対象データから得られた第2分散共分散行列とを用いて求めた行列の固有値方程式により算出されるデータ分類システム。
  16. 請求項12から請求項14のいずれか1項に記載のデータ分類システムにおいて、
    前記複数の射影ベクトルは、主成分分析の手法で算出されるデータ分類システム。
  17. 請求項12から請求項14のいずれか1項に記載のデータ分類システムにおいて、
    前記複数の射影ベクトルは、判別分析の手法で算出されるデータ分類システム。
  18. 請求項10から請求項17のいずれか1項に記載のデータ分類システムにおいて、
    前記第2の装置は撮像装置であって、
    前記第2の装置は、前記データ分類部による分類結果に応じて、撮影条件を決定する撮影条件決定部をさらに備えるデータ分類システム。
  19. 請求項10から請求項17のいずれか1項に記載のデータ分類システムにおいて、
    前記第2の装置は、前記データ分類部による分類結果に応じて、入力される画像に対する画像処理のパラメータを決定するパラメータ決定部をさらに備えるデータ分類システム。

JP2010259021A 2009-12-09 2010-11-19 データ分類装置、データ分類システムおよびプログラム Withdrawn JP2011141866A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010259021A JP2011141866A (ja) 2009-12-09 2010-11-19 データ分類装置、データ分類システムおよびプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009279431 2009-12-09
JP2009279431 2009-12-09
JP2010259021A JP2011141866A (ja) 2009-12-09 2010-11-19 データ分類装置、データ分類システムおよびプログラム

Publications (1)

Publication Number Publication Date
JP2011141866A true JP2011141866A (ja) 2011-07-21

Family

ID=44457624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010259021A Withdrawn JP2011141866A (ja) 2009-12-09 2010-11-19 データ分類装置、データ分類システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP2011141866A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013109479A (ja) * 2011-11-18 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム
KR101768202B1 (ko) * 2016-10-25 2017-08-16 엘아이지넥스원 주식회사 패턴화를 이용한 데이터 분석 장치 및 방법
CN107423447A (zh) * 2017-08-11 2017-12-01 网易乐得科技有限公司 数据分层方法、介质、装置和计算设备
JP2021143887A (ja) * 2020-03-11 2021-09-24 東海光学株式会社 光学レンズのクラス判別方法
DE112021004540T5 (de) 2020-10-14 2023-06-22 Hitachi Astemo, Ltd. Bildverarbeitungsvorrichtung

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013109479A (ja) * 2011-11-18 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム
KR101768202B1 (ko) * 2016-10-25 2017-08-16 엘아이지넥스원 주식회사 패턴화를 이용한 데이터 분석 장치 및 방법
CN107423447A (zh) * 2017-08-11 2017-12-01 网易乐得科技有限公司 数据分层方法、介质、装置和计算设备
JP2021143887A (ja) * 2020-03-11 2021-09-24 東海光学株式会社 光学レンズのクラス判別方法
JP7460122B2 (ja) 2020-03-11 2024-04-02 東海光学株式会社 光学レンズのクラス判別方法
DE112021004540T5 (de) 2020-10-14 2023-06-22 Hitachi Astemo, Ltd. Bildverarbeitungsvorrichtung

Similar Documents

Publication Publication Date Title
US10216979B2 (en) Image processing apparatus, image processing method, and storage medium to detect parts of an object
US10395103B2 (en) Object detection method, object detection apparatus, and program
JP5554984B2 (ja) パターン認識方法およびパターン認識装置
JP5375823B2 (ja) 画像照合装置、画像照合方法および画像照合用プログラム
JP5418991B2 (ja) 個人認証システム、個人認証方法
JP6270182B2 (ja) 属性要因分析方法、装置、およびプログラム
JP6393230B2 (ja) オブジェクト検出方法及び画像検索システム
WO2022042348A1 (zh) 医学影像标注方法和装置、设备及存储介质
JP6071002B2 (ja) 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
CN103562964A (zh) 图像处理装置、信息生成装置、图像处理方法、信息生成方法、控制程序及记录介质
JP2011141866A (ja) データ分類装置、データ分類システムおよびプログラム
KR101556603B1 (ko) 랭크 정보를 이용한 영상 분리 장치 및 그 방법
JP2019180749A (ja) 画像処理プログラム、画像処理装置、および画像処理方法
CN112927235B (zh) 基于多尺度超像素与核低秩表示的脑肿瘤图像分割方法
JP6202938B2 (ja) 画像認識装置および画像認識方法
CN107729863B (zh) 人体指静脉识别方法
US11379999B2 (en) Feature extraction method, comparison system, and storage medium
JP2014199519A (ja) 物体識別装置、物体識別方法及びプログラム
JP2016058018A (ja) 画像処理方法、画像処理プログラムおよび画像処理装置
JP2012234497A (ja) オブジェクト識別装置、オブジェクト識別方法、及びプログラム
JP5454356B2 (ja) データ分類装置およびプログラム
JP2019204288A (ja) 生体認証装置、生体認証方法及び生体認証プログラム
CN110781802B (zh) 一种基于信息论流形的人脸图像识别方法
JP7335204B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
US20220398867A1 (en) Information processing apparatus and facial expression determination method

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140204