JP2011013886A - 代表特徴抽出システム、方法およびプログラム - Google Patents

代表特徴抽出システム、方法およびプログラム Download PDF

Info

Publication number
JP2011013886A
JP2011013886A JP2009156830A JP2009156830A JP2011013886A JP 2011013886 A JP2011013886 A JP 2011013886A JP 2009156830 A JP2009156830 A JP 2009156830A JP 2009156830 A JP2009156830 A JP 2009156830A JP 2011013886 A JP2011013886 A JP 2011013886A
Authority
JP
Japan
Prior art keywords
data
representative
hierarchy
partial
representative feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009156830A
Other languages
English (en)
Other versions
JP5391876B2 (ja
Inventor
Hiroshi Kadota
啓 門田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009156830A priority Critical patent/JP5391876B2/ja
Publication of JP2011013886A publication Critical patent/JP2011013886A/ja
Application granted granted Critical
Publication of JP5391876B2 publication Critical patent/JP5391876B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】特徴量に外れ値がある場合にも対応できる代表特徴抽出システムを提供する。
【解決手段】入力データから代表特徴を選択する代表特徴抽出システムは、入力データを階層的に複数の部分データ群に分割する分割手段と、処理済みでない階層のうちで最も下位の階層を処理階層として、処理階層の各部分データ群においてデータごとに当該データから当該部分データ群に含まれる他のデータまでの距離の和を算出して評価値を求める評価値算出手段と、評価値が最小のものを当該部分データ群の代表データとして選択するデータ選択手段と、処理階層が最上位の階層であれば代表データを入力データに対する代表特徴とし、処理階層が最上位の階層以外の階層であるときには、代表データを集約して処理階層より1階層上の階層の部分データ群を生成する集約手段と、を有する。
【選択図】図3

Description

本発明は、複数のデータからなるデータ群から当該データ群を代表する特徴データを抽出する代表特徴抽出システム、方法およびプログラムに関する。
多数のデータからなるデータ群の中から、そのデータ群を代表する特徴を抽出する代表特徴抽出技術は、画像処理、画像認識、データマイニングなどの幅広い分野に応用される技術である。例えば、画像データから、画像全体や部分画像の性質をよく表す代表特徴を抽出し、代表特徴とその代表特徴に対する差分として画像を表現することで、画像を圧縮することができる。また、海面を上空から撮影した画像から、海面の画素値を代表する画素を抽出して代表特徴とし、さらに、代表特徴とは異なる画素を検出することにより、溺れた人や漂流物等を検出し、海難救助等へ応用することも可能である。さらにまた、それぞれが似通った行動パターンとなるように一連の行動パターンを部分パターンに分割し、各部分パターンごとにその部分パターンを代表する特徴を抽出することによって、代表特徴を用いて行動を解析する行動マイニング等への応用も可能である。
代表特徴抽出を行うものの例として特許文献1(特開2007−142883号公報)に記載された画像処理装置では、動きが似通ったグループに動きベクトルをグルーピングし、各グループごとに平均ベクトルを求めることによって、各グループを代表する代表ベクトルを求めている。特許文献2(特開平11−167634号公報)に記載の画像の領域分割方法では、画像の各画素のRGB値をヒストグラム化することによってその画像を色の似通った領域に分割し、各領域ごとに、平均色もしくは最頻色を求め代表色としている。特許文献3(特開2008−065803号公報)に記載の画像処理装置では、色空間でのヒストグラムの極大値を選択して代表色とし、代表色でもって表現することにより、入力画像中で使用されている色数を低減する限定色化の処理を行っている。
なお、関連技術におけるデータの階層化に関するものとして、特許文献4(特開平9−294277号公報)に記載の予測符号化画像データ管理システムでは、画像データ列をそのデータ構造に応じて階層に分離し、分離された階層からその画像データが持つ物理的特徴を抽出し、画像を特徴づける特徴ベクトルを生成している。また、特徴ベクトルの類似度を算出し、類似度に応じて映像を構造化している。特許文献5(特開2006−338298号公報)に記載のマルチデータの分割管理方法では、メモリにおける小容量データの管理の効率化のために、分割データを階層化して管理している。特許文献6(特開平7−219968号公報)に記載の文書保存検索装置では、入力された文書データを視覚的な観点に基づいて複数の階層に分離して格納することにより、ページめくり形態で文書データを表示させる際に、目的とするページを高速で見つけ出せるようにしている。
特開2007−142883号公報 特開平11−167634号公報 特開2008−065803号公報 特開平9−294277号公報 特開2006−338298号公報 特開平7−219968号公報
上述した関連技術における代表特徴抽出技術のうち、特許文献1及び2には、特徴量の平均を求めて代表特徴とする方法が記載されている。しかしながら平均を用いて代表特徴を抽出する技術では、特徴量に外れ値がある場合に対応できない、という課題がある。外れ値とは、ノイズなどの影響によって本来の値から大きく外れてしまった値のことである。平均に対しては、その平均から距離の離れた特徴量の影響が大きく寄与するため、特徴量に外れ値がある場合に、特徴量の平均に基づいて適切な代表値を求めることができなくなる。
特許文献2,3には、ヒストグラムでの極大値や最大値を求めて代表特徴とする方法が記載されている。しかしながらヒストグラムを用いる方法では、データが疎の場合には対応できない、という課題がある。データが疎であり、同じ値をとるデータが少ない場合には、ヒストグラムを作成することができない。特に、特徴の次元が高い場合、相対的にデータは疎となるため、高次元の特徴を用いる場合には、ヒストグラムを作成することが困難となることが多い。
そこで本発明の目的は、特徴量に外れ値がある場合に、あるいはデータが疎である場合にも対応できる代表特徴抽出システムを提供することにある。
本発明の別の目的は、特徴量に外れ値がある場合に、あるいはデータが疎である場合にも対応できる代表特徴抽出方法を提供することにある。
本発明の代表特徴抽出システムは、入力データから代表特徴を選択する代表特徴抽出システムであって、入力データを階層的に複数の部分データ群に分割する分割手段と、処理済みでない階層のうちで最も下位の階層を処理階層として、処理階層の各部分データ群においてその部分データ群に含まれるデータごとにそのデータからその部分データ群に含まれる他のデータまでの距離の和を算出して評価値を求める評価値算出手段と、処理階層の各部分データ群について、その部分データ群に含まれるデータの中で評価値が最小のものを代表データとして選択するデータ選択手段と、処理階層が最上位の階層であればデータ選択手段が選択した代表データを入力データに対する代表特徴とし、処理階層が最上位の階層以外の階層であるときには、データ選択手段が選択した代表データを集約して処理階層より1階層上の階層の部分データ群を生成する集約手段と、を有する。
本発明の代表特徴抽出方法は、入力データから代表特徴を選択する代表特徴抽出方法であって、入力データを階層的に複数の部分データ群に分割することと、処理済みでない階層のうちで最も下位の階層を処理階層として、処理階層の各部分データ群においてその部分データ群に含まれるデータごとにそのデータからその部分データ群に含まれる他のデータまでの距離の和を算出して評価値を求め、評価値が最小のものをその部分データ群の代表データとして選択することと、処理階層が最上位の階層であれば選択された代表データを入力データに対する代表特徴とすることと、処理階層が最上位の階層以外の階層であるときには、選択された代表データを集約して処理階層より1階層上の階層の部分データ群を生成し、評価値を求めることと代表データを選択することとを繰り返すことと、を有する。
本発明によれば、特徴量に外れ値がある場合にも代表特徴を安定して選択できるようになる。その理由は、各データ群内の他のデータとの距離の合計が最小となるデータを各データ群を代表するデータとすることを階層的に行っているからである。外れ値を含むデータは下位の階層において選択から外されるので、上位の階層では、外れ値を含まないデータから代表特徴を選択することになる。また本発明では、データが疎であっても代表特徴を求めることができる。その理由は、他のデータとの距離の合計を最小にするデータは、データ数にかかわりなく、必らず求めることができるからである。
本発明の第1の例示実施形態の代表特徴抽出システムの構成を示すブロック図である。 図1に示すシステムの動作を説明するフローチャートである。 本発明の第2の例示実施形態の代表特徴抽出システムの構成を示すブロック図である。 図3に示すシステムの動作を説明するフローチャートである。 本発明の第3の例示実施形態の代表特徴抽出システムの構成を示すブロック図である。 図5に示すシステムの動作を説明するフローチャートである。 本発明の第4の例示実施形態の代表特徴抽出システムの構成を示すブロック図である。 図7に示すシステムの動作を説明するフローチャートである。 本発明のさらに別の例示実施形態の代表特徴抽出システムの構成を示すブロック図である。 入力画像の一例を示す図である。 分割方法の一例を示す図である。 階層構造の一例を示す図である。 処理対象の一例を示す図である。 処理対象の一例を示す図である。 クラスタリング結果の一例を示す図である。 部分画像ごとの代表データの一例を示す図である。 処理対象の一例を示す図である。 実施例4での代表特徴抽出システムの構成を示すブロック図である。
次に、発明を実施するための形態について、図面を参照して詳細に説明する。
図1に示す本発明の第1の例示実施形態の代表特徴抽出システムは、処理対象のデータ群を読み込む入力部11と、読み込まれたデータ群を格納するデータ群格納部12と、データ群格納部12に格納されたデータ群の中の各データについて評価値を求める評価値計算部13と、データ群格納部12に格納されたデータ群の各データの中から、評価値計算部13で計算された評価値が最小のデータをデータ群の代表特徴として選択するデータ選択部14と、データ選択部14で選択されたデータをデータ群の代表特徴として外部に出力する出力部15と、を備えている。ここで評価値計算部13は、データ群中の各データについて、データ群の中の他のデータとの類似度を表す距離を計算し、距離の合計を用いて各データの評価値を求める。入力部11、データ群格納部12、評価値計算部13、データ選択部14及び出力部15は、それぞれ、入力手段、格納手段、評価値計算手段、データ選択手段及び出力手段として機能する。
次に、図1に示した代表特徴抽出システムの動作について、図2のフローチャートを説明する。
まず、ステップA1において入力部11が処理対象のデータ群を読みこみ、それをデータ群格納部12内に格納する。次に評価値計算部13は、ステップA2において、データ群格納部12内のデータ群の中の各データについて、データ群の中の他のデータとの類似度を表す距離を計算し、距離の合計を用いて各データの評価値を求める。その後、ステップA3においてデータ選択部14は、データ群格納部12内のデータ群の中の各データについて、ステップA2で得られた評価値が最小のものをデータ群の代表特徴として選択する。ステップA4において、出力部15は、ステップA3で選択されたデータを代表特徴として出力する。後述するように、評価値は、例えば他のデータとの距離の合計が小さいほど小さくなるように定められ、これによって、距離の合計が小さい、すなわち、データ群中の他のデータとの類似度が大きいデータが代表特徴として選択されることになる。
第1の例示実施形態の代表特徴抽出システムは、パーソナルコンピュータやワークステーションなどのコンピュータを用い、それらのコンピュータ上でプログラムを実行することによっても実現できる。それらのコンピュータは、カメラなどが入力部11として接続され、ディスプレイなどが出力部15として接続されたものであり、一般に、中央処理ユニット(CPU)と、プログラムやデータを格納するためのハードディスク装置と、主メモリと、コマンド等を入力するためのキーボードやマウスなどの入力装置と、CD−ROM等の記録媒体を読み取る読み取り装置と、外部ネットワークとの接続に用いられるインタフェースなどを備えている。主メモリあるいはハードディスク装置上に記憶領域を確保することによってデータ群格納部12が構成されることになる。そして、上述の評価値計算部13及びデータ選択部14の機能を実現するためのコンピュータプログラムをそのコンピュータに読み込ませて実行させることにより、第1の例示実施形態の代表特徴抽出システムがコンピュータによって実現されたことになる。プログラムは、CD−ROMなどの記録媒体から、あるいネットワークを介して、コンピュータに読み込まれる。
次に、本発明の第2の例示実施形態の代表特徴抽出システムについて説明する。第2の例示実施形態は、データを階層的に複数の部分データ群に分割し、各部分データ群で、その部分データ群内の他のデータとの距離の合計が最小となるデータをその部分データ群を代表するデータとし、このような代表データを選択する処理を階層的に実行して代表特徴を選択することを特徴とするものである。
図3に示す第2の例示実施形態の代表特徴抽出システムは、処理対象のデータ(入力データ)を読み込む入力部21と、入力データを複数の部分データ群に階層的に分割するデータ分割部22と、階層ごとの部分データ群を格納する部分データ群格納部23と、階層ごとに各部分データ群の中の各データについて評価値を求める評価値計算部24と、階層ごとに各部分データ群の代表データを選択するデータ選択部25と、データ選択部25で選択されたデータを集約するデータ集約部26と、データ集約部26により入力データに対する代表特徴とされたデータを外部に出力する出力部27と、を備えている。ここで評価値計算部24は、部分データ群格納部23に格納された処理対象の階層の各部分データ群中の各データについて、その部分データ群の中の他のデータとの類似度を表す距離を計算し、距離の合計を用いて各データの評価値を求める。データ選択部25は、部分データ群格納部23に格納された処理対象の階層の各部分データ群のデータの中から、評価値計算部24による評価値が最小のデータをその部分データ群の代表データとして選択する。データ集約部26は、データ選択部25によって選択された代表データが最上位階層のものであれば、その代表データを入力データに対する代表特徴とし、最上位以外の階層のものであるときは、その代表データから当該階層より1階層上の階層の部分データ群を生成して部分データ群格納部23に格納する。
この構成においては、入力部21、データ分割部22、部分データ群格納部23、評価値計算部24、データ選択部25、データ集約部26及び出力部27は、それぞれ、入力手段、分割手段、格納手段、評価値計算手段、データ選択手段、集約手段及び出力手段として機能する。
次に、図3に示した代表特徴抽出システムの動作について、図4のフローチャートを説明する。
まず、ステップB1において入力部21が処理対象のデータ(入力データ)を読みこみ、ステップB2においてデータ分割部22が入力データを複数の部分データ群に階層的に分割して部分データ群格納部23内に格納する。そして評価値計算部24は、ステップB3において、複数の階層のうちその時点で未処理となっている階層で最も下位の階層を処理階層として、部分データ群格納部23内のその処理階層の各部分データ群ごとにその部分データ群中の各データについて、当該部分データ群の中の他のデータとの類似度を表す距離を計算し、距離の合計を用いて各データの評価値を求める。ここでいう未処理の階層とは、評価値計算や以下に述べるデータ選択の処理がその時点で完了していない階層のことである。その後、ステップB4においてデータ選択部25は、部分データ群格納部23内のその時点での処理階層の各部分データ群について、ステップB3で得られた評価値が最小のデータをその部分データ群の代表データとして選択する。ステップB5において、データ集約部26は、現在の処理階層が最上位の階層かどうかを判断する。ステップB5において最上位の階層である場合と判断した場合には、データ集約部26は、その処理階層での代表データを入力データに対する代表特徴とし、出力部27がステップB7においてその代表特徴を外部に出力する。一方、ステップB5において最上位の階層でないと判断した場合には、ステップB6において、データ集約部26は、現在の処理階層の各部分データ群の代表データを集約することにより、現在の処理階層より1階層上の階層に属する部分データ群を生成して部分データ群格納部23に格納する。その後、現在の処理階層より1階層上の階層を対象として上述した処理を繰り返すために、ステップB3からの処理が繰り返される。したがって、データ集約部26が生成した1階層上の階層の部分データ群が、評価値計算部24による次の評価値算出の対象となる。
このように第2の例示実施形態では、入力データを階層的に複数の部分データ群に分割するデータ分割部22と、階層ごとの各部分データ群を格納する部分データ群格納部23と、階層ごとに各部分データ群の代表データを集めて次の階層の部分データ群を作成するデータ集約部26とを設けることにより、評価値計算及び代表データのためのデータ選択を階層的に行えるようになる。評価値計算部24及びデータ選択部25は、各部分データ群に対し、第1の例示実施形態における評価値計算部13及びデータ選択部14と同様の処理を行うことによって、各部分データ群ごとに代表データを選択する。
このような第2の例示実施形態では、評価値計算を階層的な部分データ群ごとに行うことで、全体の計算量を削減することができる。また、下位の階層を処理している段階で、外れ値を含むデータを除去することができるため、外れ値の影響を少なくし、安定して代表特徴を選択することができる。
第2の例示実施形態の代表特徴抽出システムも、第1の例示実施形態の場合と同様に、コンピュータ上でプログラムを実行することによっても実現できる。その場合、コンピュータの主メモリあるいはハードディスク装置上に記憶領域を確保することによって部分データ群格納部23が構成されることになる。また、コンピュータで実行されるプログラムは、上述のデータ分割部22、評価値計算部24、データ選択部25及びデータ集約部26の機能を実現するプログラムである。
次に、本発明の第3の例示実施形態の代表特徴抽出システムについて説明する。図5に示す第3の例示実施形態の代表特徴抽出システムは、図1に示した第1の例示実施形態のシステムにおいて、入力が想定される特徴量の生起分布を記憶する生起分布記憶部15を設け、生起分布記憶部15から特徴量の生起分布が評価値計算部13に与えられるようにしたものである。生起分布記憶部15は、生起分布記憶手段として機能するものである。
本例示実施形態では、評価値計算部13は、入力が想定される特徴量の生起分布を用いて、評価値を計算する。入力が想定される特徴量の生起分布とは、入力部12に入力されるデータ群において各データがとると予想される値の分布のことである。具体的には第1の例示実施形態の場合と同様に、データ群中の各データについて、データ群の中の他のデータとの類似度を表す距離を計算し、距離の合計を用いて各データの評価値を求める。その際、2つのデータの距離値を、生起分布記憶部15に記憶されている生起分布に基づいて仮想的にデータを発生させたとしてその仮想的に発生させたデータが現在比較している二つのデータの間のものとなる確率で表すものとする。言いかえれば、特徴量の生起分布から仮想的にパターンを発生させたとして、データ群内のあるデータAから当該データ群内の他のデータBへの距離を、データAから見てデータBよりも近いパターンが観測される確率とする。そして評価値計算部13は、この距離値あるいはその合計をそのまま評価値とする。あるいは評価値計算部13は、距離値が大きければ評価値が大きくなるような適宜の関数を用いて、距離値から評価値を定める。
次に、図5に示した代表特徴抽出システムの動作について、図6のフローチャートを説明する。
まず、ステップA1において入力部11が処理対象のデータ群を読みこみ、それをデータ群格納部12内に格納する。次に評価値計算部13は、生起分布記憶部15に記憶されている生起分布を使用して、ステップA2aにおいて、データ群格納部12内のデータ群の中の各データについて、データ群の中の他のデータとの類似度を表す距離値を上述のようにして求めし、距離の合計を用いて各データの評価値を求める。その後、ステップA3においてデータ選択部14は、データ群格納部12内のデータ群の中の各データについて、ステップA2で得られた評価値が最小のものをデータ群の代表特徴として選択する。ステップA4において、出力部15は、ステップA3で選択されたデータを代表特徴として出力する。
このような第3の例示実施形態によれば、特徴量における生起分布を考慮していることにより、あるデータから見て、外れ値を含むデータよりも生起分布から仮想的に生成したパターンの方が近いデータとなる確率は大きくなり、1に近くなる。すなわち、あるデータから見て、外れ値を含むデータは他のデータよりも遠くなる。特徴量の生起分布の本来的な意味を考えれば、確率1とは、その特徴がない場合と同じ評価である。したがって、外れ値が他のデータの評価値へ与える影響が小さくなる。そのため、データの特徴量に外れ値が含まれていても、本例示実施形態の処理を行うことによって、さらに適切な代表特徴抽出を行うことができる。
第3の例示実施形態の代表特徴抽出システムも、第1の例示実施形態の場合と同様に、コンピュータ上でプログラムを実行することによっても実現できる。この場合、コンピュータの主メモリあるいはハードディスク装置上に記憶領域を確保することによって、データ群格納部12及び生起分布記憶部16が構成されることになる。
次に、本発明の第4の例示実施形態の代表特徴抽出システムについて説明する。図7に示す第4の例示実施形態の代表特徴抽出システムは、図3に示した第2の例示実施形態のシステムに対し、クラスタリング部28とクラスタ代表抽出部29とを付加したものである。クラスタリング部28及びクラスタ代表抽出部29は、それぞれ、クラスタリング手段及びクラスタ代表抽出手段として機能するものである。クラスタリング部28は、データ集約部26の出力側に設けられ、部分データ群の代表特徴として選択された代表特徴を、その性質が似通った複数のクラスタに分割する。クラスタ代表抽出部29は、クラスタリング部28によって分割されたクラスタから、各クラスタを代表する代表特徴を抽出し、出力部29に送る。その結果、出力部29は、各クラスタを代表する代表特徴を、入力データの代表特徴として出力することになる。
次に、図7に示した代表特徴抽出システムの動作について、図8のフローチャートを説明する。
ステップB1からステップB6までは、図4に示したものと同様に処理が実行される。そして、ステップB5の実行後、その時点での処理階層が最上位階層であるときに、ステップC1において、クラスタリング部28は、そこへの入力データを特徴量の似通ったクラスタに分割(クラスタリング)する。そしてステップC2において、クラスタ代表抽出部29は、クラスタリング部28で作成されたクラスタごとに代表特徴を抽出する。その後、ステップC3において出力部27は、ステップC2で抽出された代表特徴を外部に出力する。
このような第4の例示実施形態によれば、クラスタリングの手法を用いることにより、入力データが複数の性質のデータ群からなる場合に、各データ群に対応する代表特徴を選択することができるようになる。
第4の例示実施形態の代表特徴抽出システムも、第1の例示実施形態の場合と同様に、コンピュータ上でプログラムを実行することによっても実現できる。その場合、コンピュータの主メモリあるいはハードディスク装置上に記憶領域を確保することによって部分データ群格納部23が構成されることになる。また、コンピュータで実行されるプログラムは、上述のデータ分割部22、評価値計算部24、データ選択部25、データ集約部26、クラスタリング部28及びクラスタ代表抽出部29の機能を実現するプログラムである。
図9は本発明のさらに別の例示実施形態の代表特徴抽出システムの構成を示すブロック図である。
図9に示す代表特徴抽出システムは、図3に示した第2の例示実施形態の代表特徴抽出システムと同様のものであるが、入力部21、部分データ群格納部23及び出力部27が設けられていない点で、図3に示したものと相違する。すなわちこの構成は、入力データを複数の部分データ群に階層的に分割するデータ分割部22と、階層ごとに各部分データ群の中の各データについて評価値を求める評価値計算部24と、階層ごとに各部分データ群の代表データを選択するデータ選択部25と、データ選択部25で選択されたデータを集約するデータ集約部26と、を備えている。データ分割部22は、最下位の階層の各部分データ群を評価値計算部24に与える。評価値計算部24は、処理対象の階層の各部分データ群中の各データについて、その部分データ群の中の他のデータとの類似度を表す距離を計算し、距離の合計を用いて各データの評価値を求める。データ選択部25は、処理対象の階層の各部分データ群のデータの中から、評価値計算部24による評価値が最小のデータをその部分データ群の代表データとして選択する。データ集約部26は、データ選択部25によって選択された代表データが最上位階層のものであれば、その代表データを入力データに対する代表特徴として出力し、最上位以外の階層のものであるときは、その代表データから当該階層より1階層上の階層の部分データ群を生成して評価値計算部24に出力する。この構成においても第2の例示実施形態と同様の手順によって代表特徴の抽出が行われる。
図9に示した例示実施形態の代表特徴抽出システムも、上述の各例示実施形態の場合と同様に、コンピュータ上で、上述のデータ分割部22、評価値計算部24、データ選択部25及びデータ集約部26の機能を実現するプログラムを実行することによっても実現できる。
次に、具体的な実施例を用いて上述した例示実施形態の動作を説明する。
[実施例1]
実施例1は、上述の第2の例示実施形態に対応するものである。
実施例1は、ハイパースペクトルカメラによって海面を撮像した画像から海面自体を表す特徴を抽出し、人や漂流物などの海面ではない画素を検出することにより溺者や漂流者等の要救助者を探す海難救助システムに対し、第2の例示実施形態を適用したものである。具体的には、海面のデータを表す特徴を抽出する際に、第2の例示実施形態の代表特徴抽出システムを使用する。
ハイパースペクトルカメラとは、高い波長分解能により対象物のスペクトルを細かく計測する機能を有するカメラであり、例えば、各画素に対して、数nm〜数十nmのバンド幅で、数十〜数百バンドのバンド数でスペクトル強度を計測することができる。各画素の情報は、バンド数をDとすると、D個のスペクトル強度からなるD次元ベクトルのデータとして表現できる。画像の画素数をNとすると、全画像の情報は、D次元ベクトルのN個のデータの集まり(データ列)として表現できる。
本実施例では、N個のデータ列の中から、全体の特徴をよく表すK個の代表特徴を抽出し、これらK個の代表特徴とは性質の異なるデータを異常データとして検知することで、海面を撮像した画像から海面ではない画素を検出し、溺者等の要救助者を検出する。例えば図10で示すように、対象画像のほとんどが海の領域であってその中に溺者がいる場合に、画像のほとんどを占める海面自体の特徴ベクトルを参照データとし、参照データとは異なる画素を見つけることで溺者を検出し、救助活動の助けとすることができる。
本実施例では、入力部21としてハイパースペクトルカメラ、出力部27としてディスプレイを使用し、また、データ分割部22、評価値計算部24、データ選択部25及びデータ集約部26は、コンピュータ上でプログラムを実行することによりソフトウェアによって実現されている。部分データ群格納部23としては、コンピュータの記憶装置が用いられている。
入力部21としてのハイパースペクトルカメラから、画像の情報を入力する。画像は2次元であり、画素iの情報をIiとし、全入力データの集合をG={I1,I2,…,IN}とする。各画素の情報は、スペクトル強度を特徴量とし、D個の特徴量からなるD次元ベクトルとして、Ii=(vi (1),vi (2),…,vi (D))と表現される。
データ分割部22は、入力データG={Ii}を複数の部分データ群に分割する。部分データ群への分割は図11で示すように、2次元の格子状に分割し、図12で示すような階層構造にする。これは、空間的に近い領域は近いスペクトルの性質を持つであろうと考えられるため、空間的に近い領域を同じ部分データ群とするためである。
例えば入力画像が256×256画素(=65536データ)であって、出力する代表特徴の数kが1の場合で、各階層では、1階層下の2×2の領域のデータが1つのデータとなるように階層構造に分割する場合、256=28であるので、
G=(G1 (1),G2 (1),G3 (1),G4 (1))
i (1)=(Gi,1 (2),Gi,2 (2),Gi,3 (2),Gi,4 (2))
i,j (2)=(Gi,j,1 (3),Gi,j,2 (3),Gi,j,3 (3),Gi,j,4 (3))

i,,k (7)=(Gi,,k,1 (8),Gi,,k,2 (8),Gi,,k,3 (8),Gi,,k,4 (8))
と、8階層に階層分割することができ、各階層を2×2の部分データ群に分割することができる。分割が終わるとこれらの部分データ群は部分データ群格納部23に格納される。
次に評価値計算部24は、複数の階層のうちその時点で未処理となっている階層で最も下位の階層を処理階層として、処理階層の部分データ群を部分データ群格納部23から取り出し、取り出された各部分データ群内の各データについて、当該部分データ群内の他のデータとの距離を計算する。部分データ群に対する処理は、階層ごとに実行されるが、一番最初には、評価値計算部24は、データ分割部22から部分データ群格納部23を介して渡された、最下位の階層に属する部分データ群に対して評価値算出の処理を実行する。
画素Iaと画素Ibの距離としては、式(1)で表されるL2距離や、式(2)で表されるL1距離など任意の距離基準を用いることができる。なお、L2距離は、2次元ユークリッド空間での距離の定義に基づくものであって、一般的に距離として用いられているものである。
Figure 2011013886
Figure 2011013886
評価値計算部24は、部分データ群内の各データについて、部分データ群内の他のデータとの距離の合計として、各データの評価値を求める。例えば、部分データ群が{(Ii,Ij,Ik,Il)}の4つのデータからなる場合、IaとIbの距離をDabとして、Iiの評価値Vi
Figure 2011013886
として求め、同様にVj,Vk,Vlも他のデータとの距離の合計として求める。
このようにして処理階層の各部分データ群の中の各データに対して評価値が算出されると、次にデータ選択部25は、部分データ群ごとにその部分データ群のデータの中から、評価値が最小のものを選択する。例えば、ある部分データ群が{(Ii,Ij,Ik,Il)}の4つのデータからなり、各データの評価値が{(Vi,Vj,Vk,Vl)}であるとし、{(Vi,Vj,Vk,Vl)}のうち最小のものがViであったとすると、データ選択部25は、この部分データ群の代表データをIiとする。
処理階層の各部分データ群に関して代表データが選択されると、データ集約部26は、現在の処理階層が、予め定められている最上位の階層か否かを判定する。最上位の階層であった場合、データ集約部26はその代表データを出力部27へ通知する。一方、最上位でなかった場合、データ集約部26は、現在の処理階層より一つ上の階層について、部分データ群を作成する。上の階層の部分データ群は、データ選択部25により選択された現在の処理階層に属する代表データをいくつか集めたものからなる。上の階層の部分データ群を作成すると、データ集約部26はその作成した各部分データ群を部分データ群格納部22に格納することによって評価値計算部24に供給する。
例えば入力画像が256×256画素(=65536データ)であって、出力する代表特徴の数kが1であり、各階層では1階層下の2×2のデータが1データとなるようにして、入力データを階層構造に分割する場合、1番下の階層には、それぞれが2×2のデータからなる部分データ群が16384(=128×128)個存在することになる。下から2番目の階層に対しては、最下位の階層の128×128個の代表データに基づいて、4096(=64×64)個の部分データ群が作成される。この処理を8階層にわたって行うことで、最上位の階層では、2×2個の部分データ群から1つの代表データを選ぶことになる。最上位の階層で目的の1つの代表データが得られるので、最終的にデータ集約部26は、この代表データを出力部27へ通知することになる。
出力部27として設けられているディスプレイは、代表データを表示する。
この実施例1では、評価値計算部24において、各データの評価値として部分データ群内の他のデータとの距離の合計を計算し、データ選択部25では、部分データ群ごとに、その部分データ群のデータの中から、評価値が最小のものを選択するようにしている。そのため、代表値をヒストグラムを求めることで定める方法と異なり、データ数に比べて特徴の次元が高い場合であっても、確実に代表データを求めることができる。
ヒストグラムを求めて代表データを定める場合、ヒストグラムにおける一つの区切りに十分な数のデータが入るだけのデータがなければ、正しく代表データを求めることができない。例えばデータ数が少なく、一つの区切りに入るデータの数が1つとか2つになった場合、たまたまデータが2つ入った区切りが代表として選ばれてしまい、全体を代表するものとはならない。このことは特徴の次元が多くなると顕著となる。なぜならば、次元の数のべき乗に比例して区切りの数が増えるからである。一つの特徴を100に区切る場合、1次元の特徴であれば100個の区切りができるが、60次元の特徴であれば10060個(=10120個)の区切りができることになる。
ヒストグラムを用いる方法と比べ、実施例1の方法であれば、特徴量における次元が高くても必らず代表データを求めることが可能である。
また本実施例では、評価値計算部24が各データの評価値として部分データ群内の他のデータとの距離の合計を計算し、データ選択部25が部分データ群ごとにその部分データ群のデータの中から評価値が最小のものを選択する、ということを階層的に行うようにしている。そのため、データに外れ値が含まれていても、安定して代表特徴を抽出することができる。
これに対して平均値を代表特徴とする場合、平均値には外れ値の影響が含まれることになる。通常、平均値を計算する場合、平均を求めるという操作そのものの性質から、距離の離れたものの影響が大きくなるので、外れ値の影響がどうしても大きくなってしまうという問題がある。
本実施例の場合、例えば、図13に示すように最下層の部分データ群が{(I1,I2,I3,I4)}の4つのデータからなるとし、I4はノイズの影響による外れ値を含んでいるデータとする。各データ間の距離をDijとする。I4は外れ値を含んでいるデータであるので、距離D14,D24,D34は、距離D12,D13,D23と比べ大きくなる。よって、他のデータとの距離の合計である各データの評価値(V1,V2,V3,V4)のうちV4は、その他の評価値(V1,V2,V3)に比べて大きくなる。評価値が小さいものを代表データとするので、この場合、データI4が代表データとして選ばれることはない。そのため、本実施例によれば、外れ値を含むデータが代表データとして上の階層に伝播する可能性は非常に低い。このような選択を階層的に行うことにより、実施例1によれば、ノイズ等の影響を受けて外れ値を含むようなデータが上位の階層のデータに含まれることがなくなり、安定して代表特徴を抽出することができる。
さらに本実施例には、ノイズ等による外れ値だけでなく、性質の異なる極小数のデータの影響も受けないという効果もある。例えば、海面を撮影した画像から溺れている人を探すために、海面自体のスペクトルを代表特徴として抽出する場合、単純に平均をとると、海面だけではなく、検出対象の溺れた人などの海面自体以外のものも含めた平均を代表特徴としてしまうことになる。この実施例によれば、階層的にデータを選別し、下の階層で性質の異なるものを排除することで、最終的に性質の異なるものを含めずに代表特徴を選択することができる。
さらに本実施例には、高速に代表特徴を選択できるという効果もある。
例えば、入力データがN=a×b個のデータからなるとする。階層化することなくデータごとに他のデータとの距離を全て求めるとすると、ab(ab−1)/2回の距離計算が必要となる。
これに対し、n=a×b個のデータをそれぞれがb個のデータからなるa個の部分データ群へと1階層に分割するものとする。b個のデータからなる部分データ群内の距離計算の回数がb(b−1)/2回であり、これがa個の部分データ群のそれぞれごとに実行するので、1階層目の距離計算は全部でab(b−1)/2回である。2階層目の距離計算は、a個のデータ内の距離計算であるので、a(a−1)/2回である。よって、階層化することで、ab(b−1)/2+a(a−1)/2回の計算で済むことなる。階層化しない場合と階層化する場合とでの距離計算回数の差はa(b2−1)(a−1)となる。ここでa,bは1より大きいので、階層化により必らず計算量は削減されることになる。ここでは1階層に分割する場合の計算量を示したが、複数の階層に分割すると、計算量についてのより大きな削減効果を得ることができる。
上述の実施例1では、最終的に求める代表特徴の数Kを1とし、全体を一つの特徴で象徴させるようにしているが、Kを1よりも大きな値とし、複数あるいは多数の代表特徴を抽出してもよい。例えば、画像を4×4画素ごとに区切った領域ごとに代表特徴を選択することで、画像を16分の1に縮小した圧縮画像とすることもできる。入力データが異なる性質を有する複数の要素からなることが想定される場合には、全体を一つの特徴で代表させるよりも、複数の代表特徴を求め、性質の異なる複数の要素をそれぞれ代表させるようにする方が好ましい。
上述の説明では、部分データ群を求めるために2次元空間を連続する正方格子状に分割したが、例えば長方形格子や、三角形格子、六角形格子など、他の形状を用いて2次元空間を階層的に分割することも可能である。あるいは所定数の画素おきに分割するなど、空間的に不連続に分割することも可能である。
本実施例では、分割に際しては、隙間なくかつ重なりなく分割したが、隙間や重なりがあるように分割することも可能である。隙間があって全てのデータを利用しない場合であっても、あるいは重なりがある場合であって、全体の特徴を求めることはできる。例えば、一般に2のべき乗に分割するとコンピュータでの実装が容易であるため、入力データ数が2の巾乗でない場合には、端数を含めないようにすることも可能である。同様に、入力データにある程度の一様性が仮定できるのであれば、重なりがあっても影響は少ない。
上述の実施例1では、入力手段としてはハイパースペクトルカメラを用い、このカメラからコンピュータに対して画像データを直接入力したが、カメラとコンピュータとをネットワークを介して接続された別の場所に配置することも可能である。例えば航空機にカメラを積み、カメラからのデータを無線ネットワークを介して地上の管制基地に送信し、地上の管制基地のコンピュータによって代表特徴抽出を行うように構成することもできる。また、カメラからその場の画像をコンピュータに直接入力してリアルタイムで処理を行うように構成することもできるし、データを記憶装置に保存しておき、例えば問題発生後の事後調査のように、データ採取と代表特徴抽出とを別のタイミングで行うこともできる。
代表特徴の出力方法としては、本実施例で説明したディスプレイに代表特徴を表示するものだけでなく、ネットワークを通して電子的に他の装置へ代表特徴を通知する、あるいはハードディスク装置やUSB(Universal Serial Bus)メモリ等の記録媒体に代表特徴を記録するなど、任意の方法を用いることができる。
本実施例では、海面の画像から溺者や漂流物を検出するシステムのために代表特徴抽出システムを使用する場合を説明したが、土砂災害現場の画像から土砂ではないものを検出するために土砂を代表する特徴を抽出するシステムや、砂漠の画像からオアシスを検出するために砂漠を代表する特徴を抽出するシステムへも本実施例を同様に応用することができる。また、代表特徴の抽出の対象となるデータとしては、本実施例で用いたハイパースペクトルカメラによるスペクトルデータだけではなく、任意のデータを用いることができる。例えば、移動速度、滞在時間などの行動を表現する複数の特徴量を用いて行動を表現し、一連の行動履歴から代表的な行動を抽出し、代表的な行動と比較して異常な行動を検知し、障害発生などを検出する障害検知システムなどに本実施例を応用することができる。さらに、一語の発話音声を多次元ベクトルとして表現し、一連の会話から、通常の会話にみられる発話を代表特徴として検出して、代表特徴と異なる会話を検出することで、犯罪捜査等にも本実施例を応用することもできる。さらにまた、通常ではないデータを検出する異常検知のための代表特徴選択だけでなく、画像を圧縮するために、その画像の特徴をよく表す代表画素を選択することにも本実施例は応用可能である。本実施例は、代表特徴を用いてデータの分類を行うことにも応用できる。
[実施例2]
実施例2は上述した第4の例示実施形態に対応するものである。この実施例2は、実施例1と同様のものであるが、図7に示すようにクラスタリング部28及びクラスタ代表抽出部29を備えている点で実施例1とは異なっている。また入力データについても異なる性質を有する複数の要素からなることが想定されるとし、最終的に求める代表特徴の数は複数とする。また、また代表データ数Kも2以上であるとする。
例えば、画像を8×8画素ごとに区切った領域ごとに代表データを選択するものとすると、実施例1と同様の処理を行うことにより、クラスタリング部28へ入力されるデータは、入力画像を64分の1に縮小した代表データ(圧縮画像)となる。クラスタリング部28では、そこへの入力画像を特徴量の似通った部分画像(クラスタ)に分割する。例えば処理対象の画像が図14に示すように海の領域と砂浜の領域からなるとすると、クラスタリング部28は、入力画像全体をクラスタリング処理し、図15に示すように、海の領域と、砂浜の領域とに対応する2つの部分画像1,2に入力画像を分割する。クラスタリング処理には、例えばk−平均法(k-means)などの任意の方法を用いることができる。
このようにクラスタが生成されたとしてクラスタ代表抽出部29は、作成されたクラスタごとに代表特徴を抽出する。例えば、図15に示すように海の領域と砂浜の領域とを示す二つのクラスタ(部分画像1,2)が作成された場合、図16においてスペクトル曲線で示すように、海を表すクラスタの代表値と砂浜を表すクラスタの代表値を求める。
クラスタの代表値の求め方としては、評価値計算部24及びデータ選択部25での処理と同様に、他のデータまでの距離の合計が最小となるデータを代表値とする方法がある。あるいは、クラスタ内のデータの平均値として代表値を求めることもできる。本実施例の場合、クラスタリングを行う前に階層的に代表特徴を選択しており、外れ値のデータや少数の性質の異なるデータは予め除かれている。また、似た性質を持つクラスタへ分割されている。そのため、1つのクラスタ内にはほぼ同じ性質を持つデータのみが存在するたので、ここで平均を求めても、外れ値や性質の異なるデータに影響されることはない。
クラスタリングとしては、空間的な連続性を用いて似た領域に分割する方法を用いてよいし、空間的な連続性は用いずにスペクトルの類似性だけで似た領域に分割する方法を用いてもよい。図16で示すような、入力画像が空間的に区別できる複数の領域からなる場合には、空間的な連続性を用いて似た領域に分割する方が、好ましい代表特徴を選択することができる。一方、森の中から部分的に土が見えているような画像を入力画像とする場合には、空間的な連続性を用いずにスペクトルの類似性だけに着目することで、入力画像を森の木と土のそれぞれにクラスタリングすることができる。
このような実施例2によれば、特徴量の似通ったクラスタに入力画像を分割し、各クラスタに対して代表特徴抽出を行うことで、入力画像がいくつかの異なった性質を持つ複数の領域からなる場合にも対応できるようになる。
本実施例では、クラスタリングの前に階層的な選択を行っているので、入力画像を高速に処理することが可能となる。階層的な選択を行わずに入力データに対してクラスタリングを直接行うことも考えられる。しかしながら、k−平均法などのクラスタリングアルゴリズムは繰り返し演算を使用するので、非常に処理時間のかかるアルゴリズムである。したがって階層的な選択をあらかじめ行い、クラスタリング対象のデータ数を減らしておくことで、大幅な高速化が実現できる。
[実施例3]
実施例3は、図5を用いて説明した第3の例示実施形態に対応するものである。
生起分布記憶部16は、各データIiの生起分布Q(X)=(q(1)(x),q(2)(x),…,q(D)(x))、つまり各特徴量vi (j)の生起分布q(j)(x)を記憶している。例えば、第j成分の特徴量の分布は、平均がm(j)であって分散がσ(j)である正規分布であるとか、あるいは、[min(j),max(j)]の間の一様分布である、といったことが生起分布記憶部16に記憶されている。特徴量vi (j)は生起分布記憶部16に記憶された分布に従って生起するとする。撮影対象についての事前知識に基づいて平均や分散等のパラメータを含めて事前に生起分布を与えることもできるし、分布の形状だけは既知であるとした上で、平均や分散等のパラメータを実際に入力されたデータから求めることにより生起分布を与えることもできる。さらに、生起分布についての事前知識が得られない場合や、事前知識から生起分布を定められない場合には、一様分布を仮定し、その一様分布の最大値max(j)、最小値min(j)を実際に入力された全ての画像のデータの第j成分の最大値、最小値から定めることもできる。
評価値計算部13は、生起分布記憶部16に記憶されている生起分布Q(x)を用いて仮想的に生成した値がデータIaとIbの間の値となる確率P(Ia,Ib)として、これらのデータIaとIbの距離を定義する。第j成分の生起分布がq(j)(x)であるので、生起分布から仮想的に生成されるパターンの第j成分の値がデータIaの第j成分の値va (j)とIbの第j成分の値vb (j)の間の値となる確率p(va (j),Ib (j))は、式(4)で表される。よって、仮想的に生成した値がIaとIbの間の値となる確率P(Ia,Ib)は、各成分の生起分布が独立であるとすると、式(5)によって表される。通常の場合、距離についてその値が大きいほど二つのデータは異なっており、値が小さいほど二つのデータが近いと言える。式(5)で定義した確率も、その値が小さいということは、二つの値の間にあたる値を取る事象がめったに起こらない、つまり二つのデータの間が距離が短く、二つのデータが類似していることを表している。逆に確率値が大きいということは、二つのデータの値の間の値を取る事象が珍しくない、つまり二つのデータの間が距離が長く、二つのデータが非類似であることを表わしている。
Figure 2011013886
Figure 2011013886
iとIRの距離D(Ii,IR)として、この確率pの対数をとることで、式(6)のようにすることもできる。対数関数(log)は単調増加関数であるため、対数をとっても距離としての性質に変化はない。
Figure 2011013886
ここで、式(1)で表される一般的な距離を用いる場合と比較し、本実施例で規定するような距離を用いることの効果について、図17を用いて説明する。
例えば第d成分に相当するセンサに欠損が生じたり、ノイズの影響で外れ値をとったりすることで、本来、IiとIRは似たデータであるにもかかわらず、それらのデータにおける第d成分の差(vi (d)−vR (d))が大きな値になったとする。図17において、横軸が第n成分を示し、縦軸が第n成分の特徴量の値を示している。データISはIRと同じ対象のデータであるが、ISの第d成分にノイズが入り、特徴量vS (d)が外れ値となっている。データITはIRとは別の対象のデータであり、IRとは全体的に異なる特徴量となっている。しかしながら、通常の距離L2を用いる場合には、vS (d)が外れ値であるため、(vS (d)−vR (d)2が非常に大きな値となり、第d成分以外の特徴量がほぼ同じ値であるにもかかわらず、距離L2(IS,IR)は大きな値となり、その結果、データISとIRは似ていないと判定されてしまう。一方、ITとIRは全体的に少しずつ異なるが、大きな差のある成分がないため、距離L2(IT,IR)はそれほど大きくならず、ITとIRは、ISとIRより似ていると判断されてしまう。
一方、本実施例で用いる式(6)で示される距離の場合、第d成分の寄与を考えると、外れ値のためvS (d)とvR (d)の差が大きくなったときにp(vS (d),vR (d))が1に近くなり、式(6)の第d成分の対数値log(p(vS (d),vR (d)))は0に近くなる。そのため、外れ値を含む第d成分の全体への寄与は小さくなる。それ以外の外れ値を含まない第i成分(i≠d)については、vS (i)とvR (i)の差が小さく、p(vS (i),vR (i))は0に近くなり、式(6)の第i成分の対数値log(p(vS (i),vR (i)))は小さな値(絶対値が大きな負の値)となる。外れ値を含む第d成分が0で、外れ値を含まない成分が絶対値の大きな負の値であるため、その合計D(IS,IR)は絶対値の大きな負の値となり、本実施例で定義する距離としては小さな値となる。したがってデータISとIRは似ていると判断される。一方、ITとIRは全体的に異なるため、全ての成分についてp(vT (i),vR (i))が1に近い値となり、式(6)の各成分の対数値log(p(vT (i),vR (i)))はいずれも0に近くなる。0に近い値を加えてもやはり0に近い値となるため、D(IT,IR)は0に近い値となる。式(6)で表される距離は、0が最大値であるので、データITとIRの距離は大きな値となる。
式(6)で示す距離の持つこの性質により、特徴量の一部に欠損や外れ値がある場合にもそのことの影響を受けにくくなる。したがって実施例3の手法は、入力データに外れ値が含まれていても安定して代表特徴を抽出することができるという性質を有する。
同様に、式(6)で示す距離の持つ、差が大きな成分の全体に対する寄与は小さくなるという性質により、本実施例の手法は、特徴の次元が高い場合でも安定して代表特徴を抽出することができるという性質を有する。
これに対して式(1)に示す通常の距離L2を用いる場合には、特徴の次元が高くなると安定して代表特徴を抽出できなくなる。一般に、通常の距離L2を用いる場合には、次元が高くなるとデータの近さの判定が不安定となると言われている。高次元では通常の距離による近さの判定が不安定になることの原因は、通常の距離尺度では、Dが大きな自然数であるとして、D次元パターンの各成分のうち、距離が小さい成分の寄与が、距離が大きい成分の寄与に比べてはるかに小さくなることにある。距離が小さい成分の寄与よりも、外れ値のような距離が大きい成分の微小変化の影響の方が大きくなり、近さの判定の不安定性を引き起こしている。また、次元Dが大きくなると距離が大きい成分が現れる確率が高くなるため、高次元パターンではこのような近傍判定の不安定性が生じる確率が高くなる。
これに対して本実施例にように任意パターンの特徴量の生起分布から仮想的にパターンを発生させた場合に、各データごとに、各データの特徴量よりも正常データに近いパターンとなる確率は、特徴量の差の大きな成分については1に近くなる。1に近いほど影響が小さいので、特徴量の差の大きな成分の他の成分への影響が小さくなり、このため、他の成分が似ていれば二つのパターン間の距離は小さくなる。このように、次元が高くなっても、本実施例の方法によれば、距離が不安定となることはない。
ここでは、特徴が複数の特徴量からなる高次元ベクトルとして表せる場合で、複数の特徴量のうちのある特徴量に外れ値が含まれる場合に対する効果を示した。次に、複数のデータのうちに異常なデータが含まれる場合に対する本実施例の効果を説明する。
図13に示すように、{(I1,I2,I3,I4)}の4つのデータから代表値を選ぶ場合に、I4はノイズの影響による外れ値を含んでいるデータであるとする。各データ間の距離をDijとする。I4は外れ値を含んでいるデータであるので、距離D14,D24,D34は距離D12,D13,D23と比べて大きくなる。
先に述べたように、通常の距離L2を使う場合、離れているものの影響が大きいので、例えばI2から他のデータへの距離の合計を考えると、D12やD23に比べD24ははるかに大きくなってD24の影響は小さくなり、D12やD23の影響が大きくなる。そのため、データの密集しているI1,I2,I3の位置関係を中心にして評価値が定まることとなり、外れ値を除いた、データの性質をよく表す代表特徴が選ばれることになる。
[実施例4]
次に実施例4について説明する。実施例4は、実施例1と同様のものであるが、実施例3に示した生起分布記憶部16をさらに備え、評価値計算部24では実施例3における評価値計算部13と同様の手順で距離が算出され評価値が求められる点で、実施例1のものとは相違している。図18は、このような実施例4における代表特徴抽出システムの構成を示している。
生起分布記憶部16は、入力が想定される特徴量の生起分布を記憶している。また、実施例1と同様に、入力データは複数の階層の部分データ群に分割されてデータは階層的に処理される。すなわちデータ分割部22は、入力データを複数の部分データ群に階層的に分割し、評価値計算、データ選択を階層的に行えるようにしている。評価値計算部24及びデータ選択部25は、階層ごとの各部分データ群の中の各データについて、その部分データ群の中の他のデータとの類似度を表す距離を計算し、その距離を用いて各データの評価値を求める。ここでの距離は、生起分布記憶部16に記憶されている生起分布から仮想的にパターンを発生させた場合に、そのパターンの値が比較しようとしている二つのデータの値の間の値となる確率とするものである。データ集約部26は、部分データ群ごとの代表データを集め、それに基づいて次の階層の部分データ群を作成することで、評価値計算及びデータ選択を階層的に行えるようにする。
このような実施例4は、実施例1に基づく階層的な代表特徴選択と実施例3に基づく生起分布に基づく評価値算出とを組み合わせたものであるため、両方の実施例に基づく効果を合わせ持つ。
具体的には、本実施例によれば、階層構造を用いることにより、外れ値を含むデータや性質の異なる少数のデータの影響が下位の階層から上位の階層に伝播することがないので、実施例1の場合と同様に、外れ値や性質の異なる少数のデータの影響を受けずに代表特徴を抽出することができる。階層構造を用いることのほかに、生起分布から仮想的にパターンを発生させたとして現在の比較対象の2つのデータの値の間の値をそのパターンが取る確率を用いることにより、実施例3と同様に、外れ値や性質の異なる少数のデータの影響をより受けにくくなる。
階層的に計算し、かつ距離の総和によって代表特徴を求めることにより、実施例1と同様に、データ数が少なくても代表特徴を求めることができ、また、高速に代表特徴を求めることができる。
生起分布から仮想的にパターンを発生させたとして現在の比較対象の2つのデータの値の間の値をそのパターンが取る確率を用いることにより、実施例3と同様に、特徴が高次元になっても安定して代表特徴を求めることができる
なお、実施例4においては、実施例2と同様に、クラスタリング部とクラスタ代表抽出部を追加することも可能である。その場合には、入力画像が異なった性質を有する複数の領域からなる場合にも安定して代表特徴を抽出できるようになる。
本発明は、例えば、画像・音声・スペクトルパターン・行動パターン等から代表特徴を抽出して、異常検知やデータ圧縮、分類等を行う技術分野に適用できる。
11,21 入力部
12 データ群格納部
13,24 評価値計算部
14,25 データ選択部
15,27 出力部
16 生起分布記憶部
22 データ分割部
23 部分データ群格納部
26 データ集約部
28 クラスタリング部
29 クラスタ代表抽出部

Claims (19)

  1. 入力データから代表特徴を選択する代表特徴抽出システムであって、
    前記入力データを階層的に複数の部分データ群に分割する分割手段と、
    処理済みでない階層のうちで最も下位の階層を処理階層として、処理階層の各部分データ群において当該部分データ群に含まれるデータごとに当該データから当該部分データ群に含まれる他のデータまでの距離の和を算出して評価値を求める評価値算出手段と、
    前記処理階層の各部分データ群について、当該部分データ群に含まれる前記データの中で前記評価値が最小のものを代表データとして選択するデータ選択手段と、
    前記処理階層が最上位の階層であれば前記データ選択手段が選択した前記代表データを前記入力データに対する前記代表特徴とし、前記処理階層が最上位の階層以外の階層であるときには、前記データ選択手段が選択した前記代表データを集約して前記処理階層より1階層上の階層の部分データ群を生成する集約手段と、
    を有する代表特徴抽出システム。
  2. 前記集約手段によって得られた前記代表特徴をクラスタに分割するクラスタリング手段と、
    前記クラスタごとに代表特徴を抽出するクラスタ代表抽出手段と、
    さらを有する、請求項1に記載の代表特徴抽出システム。
  3. 前記クラスタ代表抽出手段は、前記評価値計算手段で用いられる距離基準とは異なる距離基準を用いて前記クラスタから代表特徴を抽出する、請求項2に記載の代表特徴抽出システム。
  4. 前記分割手段は、前記入力データにおける空間的な連続性を用いて前記入力データを部分データ群へ分割する、請求項1乃至3のいずれか1項に記載の代表特徴抽出システム。
  5. 入力が想定される特徴量についての生起分布を記憶する生起分布記憶手段を備え、
    前記評価値計算手段は、2つのデータ間の距離を、前記生起分布によって仮想的にパターンを発生させた場合に当該パターンによるデータ値が前記2つのデータの値の間に存在する確率として求める、請求項1乃至3のいずれか1項に記載の代表特徴抽出システム。
  6. 入力が想定される特徴量についての生起分布を記憶する生起分布記憶手段を備え、
    前記評価値計算手段は、2つのデータ間の距離を、前記生起分布によって仮想的にパターンを発生させた場合に当該パターンによるデータ値が前記2つのデータの値の間に存在する確率として求め、
    前記クラスタ代表抽出手段は、クラスタ内のデータの平均を前記代表特徴とする、
    請求項4に記載の代表特徴抽出システム。
  7. 前記入力データを読み込む入力手段と、
    前記部分データ群を格納する格納手段と、
    前記代表特徴を出力する出力手段と、
    さらに備える請求項1乃至6のいずれか1項に記載の代表特徴抽出システム。
  8. 入力データから代表特徴を選択する代表特徴抽出方法であって、
    前記入力データを階層的に複数の部分データ群に分割することと、
    処理済みでない階層のうちで最も下位の階層を処理階層として、処理階層の各部分データ群において当該部分データ群に含まれるデータごとに当該データから当該部分データ群に含まれる他のデータまでの距離の和を算出して評価値を求め、前記評価値が最小のものを当該部分データ群の代表データとして選択することと、
    前記処理階層が最上位の階層であれば前記選択された代表データを前記入力データに対する前記代表特徴とすることと、
    前記処理階層が最上位の階層以外の階層であるときには、前記選択された代表データを集約して前記処理階層より1階層上の階層の部分データ群を生成し、前記評価値を求めることと前記代表データを選択することとを繰り返すことと、
    を有する代表特徴抽出方法。
  9. 前記代表特徴をクラスタに分割するクラスタリングすることと、
    前記クラスタごとに代表特徴を抽出することと、
    をさらに有する、請求項8に記載の代表特徴抽出方法。
  10. 前記クラスタごとに代表特徴を抽出する際に用いられる距離基準は、前記データ間の距離を求める際の距離基準とは異なる、請求項9に記載の代表特徴抽出方法。
  11. 前記入力データにおける空間的な連続性を用いて前記入力データが前記部分データ群に分割される、請求項8乃至10のいずれか1項に記載の代表特徴抽出方法。
  12. 前記2つのデータ間の距離は、入力が想定される特徴量についての予め用意された生起分布によって仮想的にパターンを発生させた場合に当該パターンによるデータ値が前記2つのデータの値の間に存在する確率として表される、請求項8乃至10のいずれか1項に記載の代表特徴抽出方法。
  13. 前記2つのデータ間の距離は、入力が想定される特徴量についての予め用意された生起分布によって仮想的にパターンを発生させた場合に当該パターンによるデータ値が前記2つのデータの値の間に存在する確率として表され、
    前記クラスタ内のデータの平均を前記クラスタから抽出される代表特徴とする、請求項11に記載の代表特徴抽出方法。
  14. 前記特徴量の生起分布として、入力データにおける最大値と最小値の間の一様分布を用いることを特徴とする、請求項12または13に記載の代表特徴抽出方法。
  15. ハイパースペクトルカメラのスペクトルデータを多次元データとしたものを前記入力データとする、請求項8乃至14のいずれか1項に記載の代表特徴抽出方法。
  16. 前記入力データから前記代表特徴を抽出した後、代表特徴とは異なるデータを異常なデータとして検出することをさらに有する、請求項8乃至15のいずれか1項に記載の代表抽出方法。
  17. コンピュータに、
    入力データを階層的に複数の部分データ群に分割する処理と、
    処理済みでない階層のうちで最も下位の階層を処理階層として、処理階層の各部分データ群において当該部分データ群に含まれるデータごとに当該データから当該部分データ群に含まれる他のデータまでの距離の和を算出して評価値を求め、前記評価値が最小のものを当該部分データ群の代表データとして選択するデータ選択処理と、
    前記処理階層が最上位の階層であれば前記選択された代表データを前記入力データに対する前記代表特徴とする処理と、
    前記処理階層が最上位の階層以外の階層であるときには、前記選択された代表データを集約して前記処理階層より1階層上の階層の部分データ群を生成して前記データ選択処理を繰り返させる処理と、
    と実行させるプログラム。
  18. 前記コンピュータに、
    前記代表特徴をクラスタに分割するクラスタリングする処理と、
    前記クラスタごとに代表特徴を抽出する処理と、
    をさらに実行させる、請求項17に記載のプログラム。
  19. 前記2つのデータ間の距離は、入力が想定される特徴量についての予め用意された生起分布によって仮想的にパターンを発生させた場合に当該パターンによるデータ値が前記2つのデータの値の間に存在する確率として表される、請求項17または18に記載のプログラム。
JP2009156830A 2009-07-01 2009-07-01 代表特徴抽出システム、方法およびプログラム Expired - Fee Related JP5391876B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009156830A JP5391876B2 (ja) 2009-07-01 2009-07-01 代表特徴抽出システム、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009156830A JP5391876B2 (ja) 2009-07-01 2009-07-01 代表特徴抽出システム、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2011013886A true JP2011013886A (ja) 2011-01-20
JP5391876B2 JP5391876B2 (ja) 2014-01-15

Family

ID=43592709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009156830A Expired - Fee Related JP5391876B2 (ja) 2009-07-01 2009-07-01 代表特徴抽出システム、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5391876B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5668157B1 (ja) * 2014-02-05 2015-02-12 佐鳥 新 対象物探索装置、対象物探索プログラムおよび人命救助用探索システム
CN107451524A (zh) * 2016-06-01 2017-12-08 丰田自动车株式会社 行为识别装置、学习装置、行为识别方法、学习方法及计算机可读的记录介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04247585A (ja) * 1991-02-04 1992-09-03 Seiko Epson Corp パターン認識方法
JPH07222157A (ja) * 1994-01-31 1995-08-18 Sony Corp 動き量検出方法及び動き量検出装置
JP2002170117A (ja) * 2000-11-13 2002-06-14 Samsung Electronics Co Ltd 色−テクスチャ距離の測定方法及び装置並びにこれらを用いた映像の領域区分方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04247585A (ja) * 1991-02-04 1992-09-03 Seiko Epson Corp パターン認識方法
JPH07222157A (ja) * 1994-01-31 1995-08-18 Sony Corp 動き量検出方法及び動き量検出装置
JP2002170117A (ja) * 2000-11-13 2002-06-14 Samsung Electronics Co Ltd 色−テクスチャ距離の測定方法及び装置並びにこれらを用いた映像の領域区分方法及び装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5668157B1 (ja) * 2014-02-05 2015-02-12 佐鳥 新 対象物探索装置、対象物探索プログラムおよび人命救助用探索システム
CN107451524A (zh) * 2016-06-01 2017-12-08 丰田自动车株式会社 行为识别装置、学习装置、行为识别方法、学习方法及计算机可读的记录介质
CN107451524B (zh) * 2016-06-01 2020-07-07 丰田自动车株式会社 行为识别装置、学习装置、行为识别方法、学习方法及计算机可读的记录介质

Also Published As

Publication number Publication date
JP5391876B2 (ja) 2014-01-15

Similar Documents

Publication Publication Date Title
JP5333589B2 (ja) 代表特徴抽出システムおよび方法
Gao et al. Change detection from synthetic aperture radar images based on channel weighting-based deep cascade network
US10019657B2 (en) Joint depth estimation and semantic segmentation from a single image
JP6378855B1 (ja) 画像検索システム、画像検索方法およびプログラム
JP6798619B2 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
US8675974B2 (en) Image processing apparatus and image processing method
US8594385B2 (en) Predicting the aesthetic value of an image
US20160155016A1 (en) Method for Implementing a High-Level Image Representation for Image Analysis
WO2010035659A1 (ja) 入力データの分類に用いる特徴を選択するための情報処理装置
JP5408139B2 (ja) 異常検知システム、異常検知方法及び異常検知プログラム
JP6341650B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN113658100A (zh) 三维目标物体检测方法、装置、电子设备及存储介质
JP5591178B2 (ja) テスト画像内のオブジェクトを分類するための方法
US9449395B2 (en) Methods and systems for image matting and foreground estimation based on hierarchical graphs
JP5180922B2 (ja) 画像検索システム及び画像検索方法
US20150356350A1 (en) unsupervised non-parametric multi-component image segmentation method
JP5391876B2 (ja) 代表特徴抽出システム、方法およびプログラム
US9607398B2 (en) Image processing apparatus and method of controlling the same
CN116129345A (zh) 变压器的油枕油位检测方法、装置和计算机设备
CN114565752A (zh) 一种基于类不可知前景挖掘的图像弱监督目标检测方法
JP4964798B2 (ja) 画像辞書生成装置,画像辞書生成方法,画像辞書生成プログラムおよびその記録媒体
CN117280356A (zh) 学习装置、学习方法、图像处理装置和图像处理方法
Doringa et al. Comparison of two image segmentation algorithms
Parenteau Violence detection in crowd footage: engineering statistical features using transformed optical flow
Neelam A Multi-Level Hierarchical Framework for the Classification of Weather Conditions and Hazard Prediction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130930

R150 Certificate of patent or registration of utility model

Ref document number: 5391876

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees