JP2011013886A

JP2011013886A - 代表特徴抽出システム、方法およびプログラム

Info

Publication number: JP2011013886A
Application number: JP2009156830A
Authority: JP
Inventors: Hiroshi Kadota; 啓門田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-07-01
Filing date: 2009-07-01
Publication date: 2011-01-20
Anticipated expiration: 2029-07-01
Also published as: JP5391876B2

Abstract

【課題】特徴量に外れ値がある場合にも対応できる代表特徴抽出システムを提供する。
【解決手段】入力データから代表特徴を選択する代表特徴抽出システムは、入力データを階層的に複数の部分データ群に分割する分割手段と、処理済みでない階層のうちで最も下位の階層を処理階層として、処理階層の各部分データ群においてデータごとに当該データから当該部分データ群に含まれる他のデータまでの距離の和を算出して評価値を求める評価値算出手段と、評価値が最小のものを当該部分データ群の代表データとして選択するデータ選択手段と、処理階層が最上位の階層であれば代表データを入力データに対する代表特徴とし、処理階層が最上位の階層以外の階層であるときには、代表データを集約して処理階層より１階層上の階層の部分データ群を生成する集約手段と、を有する。
【選択図】図３

Description

本発明は、複数のデータからなるデータ群から当該データ群を代表する特徴データを抽出する代表特徴抽出システム、方法およびプログラムに関する。

多数のデータからなるデータ群の中から、そのデータ群を代表する特徴を抽出する代表特徴抽出技術は、画像処理、画像認識、データマイニングなどの幅広い分野に応用される技術である。例えば、画像データから、画像全体や部分画像の性質をよく表す代表特徴を抽出し、代表特徴とその代表特徴に対する差分として画像を表現することで、画像を圧縮することができる。また、海面を上空から撮影した画像から、海面の画素値を代表する画素を抽出して代表特徴とし、さらに、代表特徴とは異なる画素を検出することにより、溺れた人や漂流物等を検出し、海難救助等へ応用することも可能である。さらにまた、それぞれが似通った行動パターンとなるように一連の行動パターンを部分パターンに分割し、各部分パターンごとにその部分パターンを代表する特徴を抽出することによって、代表特徴を用いて行動を解析する行動マイニング等への応用も可能である。

代表特徴抽出を行うものの例として特許文献１（特開２００７−１４２８８３号公報）に記載された画像処理装置では、動きが似通ったグループに動きベクトルをグルーピングし、各グループごとに平均ベクトルを求めることによって、各グループを代表する代表ベクトルを求めている。特許文献２（特開平１１−１６７６３４号公報）に記載の画像の領域分割方法では、画像の各画素のＲＧＢ値をヒストグラム化することによってその画像を色の似通った領域に分割し、各領域ごとに、平均色もしくは最頻色を求め代表色としている。特許文献３（特開２００８−０６５８０３号公報）に記載の画像処理装置では、色空間でのヒストグラムの極大値を選択して代表色とし、代表色でもって表現することにより、入力画像中で使用されている色数を低減する限定色化の処理を行っている。

なお、関連技術におけるデータの階層化に関するものとして、特許文献４（特開平９−２９４２７７号公報）に記載の予測符号化画像データ管理システムでは、画像データ列をそのデータ構造に応じて階層に分離し、分離された階層からその画像データが持つ物理的特徴を抽出し、画像を特徴づける特徴ベクトルを生成している。また、特徴ベクトルの類似度を算出し、類似度に応じて映像を構造化している。特許文献５（特開２００６−３３８２９８号公報）に記載のマルチデータの分割管理方法では、メモリにおける小容量データの管理の効率化のために、分割データを階層化して管理している。特許文献６（特開平７−２１９９６８号公報）に記載の文書保存検索装置では、入力された文書データを視覚的な観点に基づいて複数の階層に分離して格納することにより、ページめくり形態で文書データを表示させる際に、目的とするページを高速で見つけ出せるようにしている。

特開２００７−１４２８８３号公報特開平１１−１６７６３４号公報特開２００８−０６５８０３号公報特開平９−２９４２７７号公報特開２００６−３３８２９８号公報特開平７−２１９９６８号公報

上述した関連技術における代表特徴抽出技術のうち、特許文献１及び２には、特徴量の平均を求めて代表特徴とする方法が記載されている。しかしながら平均を用いて代表特徴を抽出する技術では、特徴量に外れ値がある場合に対応できない、という課題がある。外れ値とは、ノイズなどの影響によって本来の値から大きく外れてしまった値のことである。平均に対しては、その平均から距離の離れた特徴量の影響が大きく寄与するため、特徴量に外れ値がある場合に、特徴量の平均に基づいて適切な代表値を求めることができなくなる。

特許文献２，３には、ヒストグラムでの極大値や最大値を求めて代表特徴とする方法が記載されている。しかしながらヒストグラムを用いる方法では、データが疎の場合には対応できない、という課題がある。データが疎であり、同じ値をとるデータが少ない場合には、ヒストグラムを作成することができない。特に、特徴の次元が高い場合、相対的にデータは疎となるため、高次元の特徴を用いる場合には、ヒストグラムを作成することが困難となることが多い。

そこで本発明の目的は、特徴量に外れ値がある場合に、あるいはデータが疎である場合にも対応できる代表特徴抽出システムを提供することにある。

本発明の別の目的は、特徴量に外れ値がある場合に、あるいはデータが疎である場合にも対応できる代表特徴抽出方法を提供することにある。

本発明の代表特徴抽出システムは、入力データから代表特徴を選択する代表特徴抽出システムであって、入力データを階層的に複数の部分データ群に分割する分割手段と、処理済みでない階層のうちで最も下位の階層を処理階層として、処理階層の各部分データ群においてその部分データ群に含まれるデータごとにそのデータからその部分データ群に含まれる他のデータまでの距離の和を算出して評価値を求める評価値算出手段と、処理階層の各部分データ群について、その部分データ群に含まれるデータの中で評価値が最小のものを代表データとして選択するデータ選択手段と、処理階層が最上位の階層であればデータ選択手段が選択した代表データを入力データに対する代表特徴とし、処理階層が最上位の階層以外の階層であるときには、データ選択手段が選択した代表データを集約して処理階層より１階層上の階層の部分データ群を生成する集約手段と、を有する。

本発明の代表特徴抽出方法は、入力データから代表特徴を選択する代表特徴抽出方法であって、入力データを階層的に複数の部分データ群に分割することと、処理済みでない階層のうちで最も下位の階層を処理階層として、処理階層の各部分データ群においてその部分データ群に含まれるデータごとにそのデータからその部分データ群に含まれる他のデータまでの距離の和を算出して評価値を求め、評価値が最小のものをその部分データ群の代表データとして選択することと、処理階層が最上位の階層であれば選択された代表データを入力データに対する代表特徴とすることと、処理階層が最上位の階層以外の階層であるときには、選択された代表データを集約して処理階層より１階層上の階層の部分データ群を生成し、評価値を求めることと代表データを選択することとを繰り返すことと、を有する。

本発明によれば、特徴量に外れ値がある場合にも代表特徴を安定して選択できるようになる。その理由は、各データ群内の他のデータとの距離の合計が最小となるデータを各データ群を代表するデータとすることを階層的に行っているからである。外れ値を含むデータは下位の階層において選択から外されるので、上位の階層では、外れ値を含まないデータから代表特徴を選択することになる。また本発明では、データが疎であっても代表特徴を求めることができる。その理由は、他のデータとの距離の合計を最小にするデータは、データ数にかかわりなく、必らず求めることができるからである。

本発明の第１の例示実施形態の代表特徴抽出システムの構成を示すブロック図である。図１に示すシステムの動作を説明するフローチャートである。本発明の第２の例示実施形態の代表特徴抽出システムの構成を示すブロック図である。図３に示すシステムの動作を説明するフローチャートである。本発明の第３の例示実施形態の代表特徴抽出システムの構成を示すブロック図である。図５に示すシステムの動作を説明するフローチャートである。本発明の第４の例示実施形態の代表特徴抽出システムの構成を示すブロック図である。図７に示すシステムの動作を説明するフローチャートである。本発明のさらに別の例示実施形態の代表特徴抽出システムの構成を示すブロック図である。入力画像の一例を示す図である。分割方法の一例を示す図である。階層構造の一例を示す図である。処理対象の一例を示す図である。処理対象の一例を示す図である。クラスタリング結果の一例を示す図である。部分画像ごとの代表データの一例を示す図である。処理対象の一例を示す図である。実施例４での代表特徴抽出システムの構成を示すブロック図である。

次に、発明を実施するための形態について、図面を参照して詳細に説明する。

図１に示す本発明の第１の例示実施形態の代表特徴抽出システムは、処理対象のデータ群を読み込む入力部１１と、読み込まれたデータ群を格納するデータ群格納部１２と、データ群格納部１２に格納されたデータ群の中の各データについて評価値を求める評価値計算部１３と、データ群格納部１２に格納されたデータ群の各データの中から、評価値計算部１３で計算された評価値が最小のデータをデータ群の代表特徴として選択するデータ選択部１４と、データ選択部１４で選択されたデータをデータ群の代表特徴として外部に出力する出力部１５と、を備えている。ここで評価値計算部１３は、データ群中の各データについて、データ群の中の他のデータとの類似度を表す距離を計算し、距離の合計を用いて各データの評価値を求める。入力部１１、データ群格納部１２、評価値計算部１３、データ選択部１４及び出力部１５は、それぞれ、入力手段、格納手段、評価値計算手段、データ選択手段及び出力手段として機能する。

次に、図１に示した代表特徴抽出システムの動作について、図２のフローチャートを説明する。

まず、ステップＡ１において入力部１１が処理対象のデータ群を読みこみ、それをデータ群格納部１２内に格納する。次に評価値計算部１３は、ステップＡ２において、データ群格納部１２内のデータ群の中の各データについて、データ群の中の他のデータとの類似度を表す距離を計算し、距離の合計を用いて各データの評価値を求める。その後、ステップＡ３においてデータ選択部１４は、データ群格納部１２内のデータ群の中の各データについて、ステップＡ２で得られた評価値が最小のものをデータ群の代表特徴として選択する。ステップＡ４において、出力部１５は、ステップＡ３で選択されたデータを代表特徴として出力する。後述するように、評価値は、例えば他のデータとの距離の合計が小さいほど小さくなるように定められ、これによって、距離の合計が小さい、すなわち、データ群中の他のデータとの類似度が大きいデータが代表特徴として選択されることになる。

第１の例示実施形態の代表特徴抽出システムは、パーソナルコンピュータやワークステーションなどのコンピュータを用い、それらのコンピュータ上でプログラムを実行することによっても実現できる。それらのコンピュータは、カメラなどが入力部１１として接続され、ディスプレイなどが出力部１５として接続されたものであり、一般に、中央処理ユニット（ＣＰＵ）と、プログラムやデータを格納するためのハードディスク装置と、主メモリと、コマンド等を入力するためのキーボードやマウスなどの入力装置と、ＣＤ−ＲＯＭ等の記録媒体を読み取る読み取り装置と、外部ネットワークとの接続に用いられるインタフェースなどを備えている。主メモリあるいはハードディスク装置上に記憶領域を確保することによってデータ群格納部１２が構成されることになる。そして、上述の評価値計算部１３及びデータ選択部１４の機能を実現するためのコンピュータプログラムをそのコンピュータに読み込ませて実行させることにより、第１の例示実施形態の代表特徴抽出システムがコンピュータによって実現されたことになる。プログラムは、ＣＤ−ＲＯＭなどの記録媒体から、あるいネットワークを介して、コンピュータに読み込まれる。

次に、本発明の第２の例示実施形態の代表特徴抽出システムについて説明する。第２の例示実施形態は、データを階層的に複数の部分データ群に分割し、各部分データ群で、その部分データ群内の他のデータとの距離の合計が最小となるデータをその部分データ群を代表するデータとし、このような代表データを選択する処理を階層的に実行して代表特徴を選択することを特徴とするものである。

図３に示す第２の例示実施形態の代表特徴抽出システムは、処理対象のデータ（入力データ）を読み込む入力部２１と、入力データを複数の部分データ群に階層的に分割するデータ分割部２２と、階層ごとの部分データ群を格納する部分データ群格納部２３と、階層ごとに各部分データ群の中の各データについて評価値を求める評価値計算部２４と、階層ごとに各部分データ群の代表データを選択するデータ選択部２５と、データ選択部２５で選択されたデータを集約するデータ集約部２６と、データ集約部２６により入力データに対する代表特徴とされたデータを外部に出力する出力部２７と、を備えている。ここで評価値計算部２４は、部分データ群格納部２３に格納された処理対象の階層の各部分データ群中の各データについて、その部分データ群の中の他のデータとの類似度を表す距離を計算し、距離の合計を用いて各データの評価値を求める。データ選択部２５は、部分データ群格納部２３に格納された処理対象の階層の各部分データ群のデータの中から、評価値計算部２４による評価値が最小のデータをその部分データ群の代表データとして選択する。データ集約部２６は、データ選択部２５によって選択された代表データが最上位階層のものであれば、その代表データを入力データに対する代表特徴とし、最上位以外の階層のものであるときは、その代表データから当該階層より１階層上の階層の部分データ群を生成して部分データ群格納部２３に格納する。

この構成においては、入力部２１、データ分割部２２、部分データ群格納部２３、評価値計算部２４、データ選択部２５、データ集約部２６及び出力部２７は、それぞれ、入力手段、分割手段、格納手段、評価値計算手段、データ選択手段、集約手段及び出力手段として機能する。

次に、図３に示した代表特徴抽出システムの動作について、図４のフローチャートを説明する。

まず、ステップＢ１において入力部２１が処理対象のデータ（入力データ）を読みこみ、ステップＢ２においてデータ分割部２２が入力データを複数の部分データ群に階層的に分割して部分データ群格納部２３内に格納する。そして評価値計算部２４は、ステップＢ３において、複数の階層のうちその時点で未処理となっている階層で最も下位の階層を処理階層として、部分データ群格納部２３内のその処理階層の各部分データ群ごとにその部分データ群中の各データについて、当該部分データ群の中の他のデータとの類似度を表す距離を計算し、距離の合計を用いて各データの評価値を求める。ここでいう未処理の階層とは、評価値計算や以下に述べるデータ選択の処理がその時点で完了していない階層のことである。その後、ステップＢ４においてデータ選択部２５は、部分データ群格納部２３内のその時点での処理階層の各部分データ群について、ステップＢ３で得られた評価値が最小のデータをその部分データ群の代表データとして選択する。ステップＢ５において、データ集約部２６は、現在の処理階層が最上位の階層かどうかを判断する。ステップＢ５において最上位の階層である場合と判断した場合には、データ集約部２６は、その処理階層での代表データを入力データに対する代表特徴とし、出力部２７がステップＢ７においてその代表特徴を外部に出力する。一方、ステップＢ５において最上位の階層でないと判断した場合には、ステップＢ６において、データ集約部２６は、現在の処理階層の各部分データ群の代表データを集約することにより、現在の処理階層より１階層上の階層に属する部分データ群を生成して部分データ群格納部２３に格納する。その後、現在の処理階層より１階層上の階層を対象として上述した処理を繰り返すために、ステップＢ３からの処理が繰り返される。したがって、データ集約部２６が生成した１階層上の階層の部分データ群が、評価値計算部２４による次の評価値算出の対象となる。

このように第２の例示実施形態では、入力データを階層的に複数の部分データ群に分割するデータ分割部２２と、階層ごとの各部分データ群を格納する部分データ群格納部２３と、階層ごとに各部分データ群の代表データを集めて次の階層の部分データ群を作成するデータ集約部２６とを設けることにより、評価値計算及び代表データのためのデータ選択を階層的に行えるようになる。評価値計算部２４及びデータ選択部２５は、各部分データ群に対し、第１の例示実施形態における評価値計算部１３及びデータ選択部１４と同様の処理を行うことによって、各部分データ群ごとに代表データを選択する。

このような第２の例示実施形態では、評価値計算を階層的な部分データ群ごとに行うことで、全体の計算量を削減することができる。また、下位の階層を処理している段階で、外れ値を含むデータを除去することができるため、外れ値の影響を少なくし、安定して代表特徴を選択することができる。

第２の例示実施形態の代表特徴抽出システムも、第１の例示実施形態の場合と同様に、コンピュータ上でプログラムを実行することによっても実現できる。その場合、コンピュータの主メモリあるいはハードディスク装置上に記憶領域を確保することによって部分データ群格納部２３が構成されることになる。また、コンピュータで実行されるプログラムは、上述のデータ分割部２２、評価値計算部２４、データ選択部２５及びデータ集約部２６の機能を実現するプログラムである。

次に、本発明の第３の例示実施形態の代表特徴抽出システムについて説明する。図５に示す第３の例示実施形態の代表特徴抽出システムは、図１に示した第１の例示実施形態のシステムにおいて、入力が想定される特徴量の生起分布を記憶する生起分布記憶部１５を設け、生起分布記憶部１５から特徴量の生起分布が評価値計算部１３に与えられるようにしたものである。生起分布記憶部１５は、生起分布記憶手段として機能するものである。

本例示実施形態では、評価値計算部１３は、入力が想定される特徴量の生起分布を用いて、評価値を計算する。入力が想定される特徴量の生起分布とは、入力部１２に入力されるデータ群において各データがとると予想される値の分布のことである。具体的には第１の例示実施形態の場合と同様に、データ群中の各データについて、データ群の中の他のデータとの類似度を表す距離を計算し、距離の合計を用いて各データの評価値を求める。その際、２つのデータの距離値を、生起分布記憶部１５に記憶されている生起分布に基づいて仮想的にデータを発生させたとしてその仮想的に発生させたデータが現在比較している二つのデータの間のものとなる確率で表すものとする。言いかえれば、特徴量の生起分布から仮想的にパターンを発生させたとして、データ群内のあるデータＡから当該データ群内の他のデータＢへの距離を、データＡから見てデータＢよりも近いパターンが観測される確率とする。そして評価値計算部１３は、この距離値あるいはその合計をそのまま評価値とする。あるいは評価値計算部１３は、距離値が大きければ評価値が大きくなるような適宜の関数を用いて、距離値から評価値を定める。

次に、図５に示した代表特徴抽出システムの動作について、図６のフローチャートを説明する。

まず、ステップＡ１において入力部１１が処理対象のデータ群を読みこみ、それをデータ群格納部１２内に格納する。次に評価値計算部１３は、生起分布記憶部１５に記憶されている生起分布を使用して、ステップＡ２ａにおいて、データ群格納部１２内のデータ群の中の各データについて、データ群の中の他のデータとの類似度を表す距離値を上述のようにして求めし、距離の合計を用いて各データの評価値を求める。その後、ステップＡ３においてデータ選択部１４は、データ群格納部１２内のデータ群の中の各データについて、ステップＡ２で得られた評価値が最小のものをデータ群の代表特徴として選択する。ステップＡ４において、出力部１５は、ステップＡ３で選択されたデータを代表特徴として出力する。

このような第３の例示実施形態によれば、特徴量における生起分布を考慮していることにより、あるデータから見て、外れ値を含むデータよりも生起分布から仮想的に生成したパターンの方が近いデータとなる確率は大きくなり、１に近くなる。すなわち、あるデータから見て、外れ値を含むデータは他のデータよりも遠くなる。特徴量の生起分布の本来的な意味を考えれば、確率１とは、その特徴がない場合と同じ評価である。したがって、外れ値が他のデータの評価値へ与える影響が小さくなる。そのため、データの特徴量に外れ値が含まれていても、本例示実施形態の処理を行うことによって、さらに適切な代表特徴抽出を行うことができる。

第３の例示実施形態の代表特徴抽出システムも、第１の例示実施形態の場合と同様に、コンピュータ上でプログラムを実行することによっても実現できる。この場合、コンピュータの主メモリあるいはハードディスク装置上に記憶領域を確保することによって、データ群格納部１２及び生起分布記憶部１６が構成されることになる。

次に、本発明の第４の例示実施形態の代表特徴抽出システムについて説明する。図７に示す第４の例示実施形態の代表特徴抽出システムは、図３に示した第２の例示実施形態のシステムに対し、クラスタリング部２８とクラスタ代表抽出部２９とを付加したものである。クラスタリング部２８及びクラスタ代表抽出部２９は、それぞれ、クラスタリング手段及びクラスタ代表抽出手段として機能するものである。クラスタリング部２８は、データ集約部２６の出力側に設けられ、部分データ群の代表特徴として選択された代表特徴を、その性質が似通った複数のクラスタに分割する。クラスタ代表抽出部２９は、クラスタリング部２８によって分割されたクラスタから、各クラスタを代表する代表特徴を抽出し、出力部２９に送る。その結果、出力部２９は、各クラスタを代表する代表特徴を、入力データの代表特徴として出力することになる。

次に、図７に示した代表特徴抽出システムの動作について、図８のフローチャートを説明する。

ステップＢ１からステップＢ６までは、図４に示したものと同様に処理が実行される。そして、ステップＢ５の実行後、その時点での処理階層が最上位階層であるときに、ステップＣ１において、クラスタリング部２８は、そこへの入力データを特徴量の似通ったクラスタに分割（クラスタリング）する。そしてステップＣ２において、クラスタ代表抽出部２９は、クラスタリング部２８で作成されたクラスタごとに代表特徴を抽出する。その後、ステップＣ３において出力部２７は、ステップＣ２で抽出された代表特徴を外部に出力する。

このような第４の例示実施形態によれば、クラスタリングの手法を用いることにより、入力データが複数の性質のデータ群からなる場合に、各データ群に対応する代表特徴を選択することができるようになる。

第４の例示実施形態の代表特徴抽出システムも、第１の例示実施形態の場合と同様に、コンピュータ上でプログラムを実行することによっても実現できる。その場合、コンピュータの主メモリあるいはハードディスク装置上に記憶領域を確保することによって部分データ群格納部２３が構成されることになる。また、コンピュータで実行されるプログラムは、上述のデータ分割部２２、評価値計算部２４、データ選択部２５、データ集約部２６、クラスタリング部２８及びクラスタ代表抽出部２９の機能を実現するプログラムである。

図９は本発明のさらに別の例示実施形態の代表特徴抽出システムの構成を示すブロック図である。

図９に示す代表特徴抽出システムは、図３に示した第２の例示実施形態の代表特徴抽出システムと同様のものであるが、入力部２１、部分データ群格納部２３及び出力部２７が設けられていない点で、図３に示したものと相違する。すなわちこの構成は、入力データを複数の部分データ群に階層的に分割するデータ分割部２２と、階層ごとに各部分データ群の中の各データについて評価値を求める評価値計算部２４と、階層ごとに各部分データ群の代表データを選択するデータ選択部２５と、データ選択部２５で選択されたデータを集約するデータ集約部２６と、を備えている。データ分割部２２は、最下位の階層の各部分データ群を評価値計算部２４に与える。評価値計算部２４は、処理対象の階層の各部分データ群中の各データについて、その部分データ群の中の他のデータとの類似度を表す距離を計算し、距離の合計を用いて各データの評価値を求める。データ選択部２５は、処理対象の階層の各部分データ群のデータの中から、評価値計算部２４による評価値が最小のデータをその部分データ群の代表データとして選択する。データ集約部２６は、データ選択部２５によって選択された代表データが最上位階層のものであれば、その代表データを入力データに対する代表特徴として出力し、最上位以外の階層のものであるときは、その代表データから当該階層より１階層上の階層の部分データ群を生成して評価値計算部２４に出力する。この構成においても第２の例示実施形態と同様の手順によって代表特徴の抽出が行われる。

図９に示した例示実施形態の代表特徴抽出システムも、上述の各例示実施形態の場合と同様に、コンピュータ上で、上述のデータ分割部２２、評価値計算部２４、データ選択部２５及びデータ集約部２６の機能を実現するプログラムを実行することによっても実現できる。

次に、具体的な実施例を用いて上述した例示実施形態の動作を説明する。

［実施例１］
実施例１は、上述の第２の例示実施形態に対応するものである。

実施例１は、ハイパースペクトルカメラによって海面を撮像した画像から海面自体を表す特徴を抽出し、人や漂流物などの海面ではない画素を検出することにより溺者や漂流者等の要救助者を探す海難救助システムに対し、第２の例示実施形態を適用したものである。具体的には、海面のデータを表す特徴を抽出する際に、第２の例示実施形態の代表特徴抽出システムを使用する。

ハイパースペクトルカメラとは、高い波長分解能により対象物のスペクトルを細かく計測する機能を有するカメラであり、例えば、各画素に対して、数ｎｍ〜数十ｎｍのバンド幅で、数十〜数百バンドのバンド数でスペクトル強度を計測することができる。各画素の情報は、バンド数をＤとすると、Ｄ個のスペクトル強度からなるＤ次元ベクトルのデータとして表現できる。画像の画素数をＮとすると、全画像の情報は、Ｄ次元ベクトルのＮ個のデータの集まり（データ列）として表現できる。

本実施例では、Ｎ個のデータ列の中から、全体の特徴をよく表すＫ個の代表特徴を抽出し、これらＫ個の代表特徴とは性質の異なるデータを異常データとして検知することで、海面を撮像した画像から海面ではない画素を検出し、溺者等の要救助者を検出する。例えば図１０で示すように、対象画像のほとんどが海の領域であってその中に溺者がいる場合に、画像のほとんどを占める海面自体の特徴ベクトルを参照データとし、参照データとは異なる画素を見つけることで溺者を検出し、救助活動の助けとすることができる。

本実施例では、入力部２１としてハイパースペクトルカメラ、出力部２７としてディスプレイを使用し、また、データ分割部２２、評価値計算部２４、データ選択部２５及びデータ集約部２６は、コンピュータ上でプログラムを実行することによりソフトウェアによって実現されている。部分データ群格納部２３としては、コンピュータの記憶装置が用いられている。

入力部２１としてのハイパースペクトルカメラから、画像の情報を入力する。画像は２次元であり、画素ｉの情報をＩ_iとし、全入力データの集合をＧ＝｛Ｉ₁，Ｉ₂，…，Ｉ_N｝とする。各画素の情報は、スペクトル強度を特徴量とし、Ｄ個の特徴量からなるＤ次元ベクトルとして、Ｉ_i＝(ｖ_i ⁽¹⁾，ｖ_i ⁽²⁾，…，ｖ_i ^(D))と表現される。

データ分割部２２は、入力データＧ＝｛Ｉ_i｝を複数の部分データ群に分割する。部分データ群への分割は図１１で示すように、２次元の格子状に分割し、図１２で示すような階層構造にする。これは、空間的に近い領域は近いスペクトルの性質を持つであろうと考えられるため、空間的に近い領域を同じ部分データ群とするためである。

例えば入力画像が２５６×２５６画素（＝６５５３６データ）であって、出力する代表特徴の数ｋが１の場合で、各階層では、１階層下の２×２の領域のデータが１つのデータとなるように階層構造に分割する場合、２５６＝２⁸であるので、
Ｇ＝(Ｇ₁ ⁽¹⁾，Ｇ₂ ⁽¹⁾，Ｇ₃ ⁽¹⁾，Ｇ₄ ⁽¹⁾)
Ｇ_i ⁽¹⁾＝(Ｇ_i,1 ⁽²⁾，Ｇ_i,2 ⁽²⁾，Ｇ_i,3 ⁽²⁾，Ｇ_i,4 ⁽²⁾)
Ｇ_i,j ⁽²⁾＝(Ｇ_i,j,1 ⁽³⁾，Ｇ_i,j,2 ⁽³⁾，Ｇ_i,j,3 ⁽³⁾，Ｇ_i,j,4 ⁽³⁾)
…
Ｇ_i,…_,k ⁽⁷⁾＝(Ｇ_i,…_,k,1 ⁽⁸⁾，Ｇ_i,…_,k,2 ⁽⁸⁾，Ｇ_i,…_,k,3 ⁽⁸⁾，Ｇ_i,…_,k,4 ⁽⁸⁾)
と、８階層に階層分割することができ、各階層を２×２の部分データ群に分割することができる。分割が終わるとこれらの部分データ群は部分データ群格納部２３に格納される。

次に評価値計算部２４は、複数の階層のうちその時点で未処理となっている階層で最も下位の階層を処理階層として、処理階層の部分データ群を部分データ群格納部２３から取り出し、取り出された各部分データ群内の各データについて、当該部分データ群内の他のデータとの距離を計算する。部分データ群に対する処理は、階層ごとに実行されるが、一番最初には、評価値計算部２４は、データ分割部２２から部分データ群格納部２３を介して渡された、最下位の階層に属する部分データ群に対して評価値算出の処理を実行する。

画素Ｉ_aと画素Ｉ_bの距離としては、式(1)で表されるＬ₂距離や、式(2)で表されるＬ₁距離など任意の距離基準を用いることができる。なお、Ｌ₂距離は、２次元ユークリッド空間での距離の定義に基づくものであって、一般的に距離として用いられているものである。

評価値計算部２４は、部分データ群内の各データについて、部分データ群内の他のデータとの距離の合計として、各データの評価値を求める。例えば、部分データ群が｛(Ｉ_i，Ｉ_j，Ｉ_k，Ｉ_l)｝の４つのデータからなる場合、Ｉ_aとＩ_bの距離をＤ_abとして、Ｉ_iの評価値Ｖ_iを

として求め、同様にＶ_j，Ｖ_k，Ｖ_lも他のデータとの距離の合計として求める。

このようにして処理階層の各部分データ群の中の各データに対して評価値が算出されると、次にデータ選択部２５は、部分データ群ごとにその部分データ群のデータの中から、評価値が最小のものを選択する。例えば、ある部分データ群が｛(Ｉ_i，Ｉ_j，Ｉ_k，Ｉ_l)｝の４つのデータからなり、各データの評価値が｛(Ｖ_i，Ｖ_j，Ｖ_k，Ｖ_l)｝であるとし、｛(Ｖ_i，Ｖ_j，Ｖ_k，Ｖ_l)｝のうち最小のものがＶ_iであったとすると、データ選択部２５は、この部分データ群の代表データをＩ_iとする。

処理階層の各部分データ群に関して代表データが選択されると、データ集約部２６は、現在の処理階層が、予め定められている最上位の階層か否かを判定する。最上位の階層であった場合、データ集約部２６はその代表データを出力部２７へ通知する。一方、最上位でなかった場合、データ集約部２６は、現在の処理階層より一つ上の階層について、部分データ群を作成する。上の階層の部分データ群は、データ選択部２５により選択された現在の処理階層に属する代表データをいくつか集めたものからなる。上の階層の部分データ群を作成すると、データ集約部２６はその作成した各部分データ群を部分データ群格納部２２に格納することによって評価値計算部２４に供給する。

例えば入力画像が２５６×２５６画素（＝６５５３６データ）であって、出力する代表特徴の数ｋが１であり、各階層では１階層下の２×２のデータが１データとなるようにして、入力データを階層構造に分割する場合、１番下の階層には、それぞれが２×２のデータからなる部分データ群が１６３８４（＝１２８×１２８）個存在することになる。下から２番目の階層に対しては、最下位の階層の１２８×１２８個の代表データに基づいて、４０９６（＝６４×６４）個の部分データ群が作成される。この処理を８階層にわたって行うことで、最上位の階層では、２×２個の部分データ群から１つの代表データを選ぶことになる。最上位の階層で目的の１つの代表データが得られるので、最終的にデータ集約部２６は、この代表データを出力部２７へ通知することになる。

出力部２７として設けられているディスプレイは、代表データを表示する。

この実施例１では、評価値計算部２４において、各データの評価値として部分データ群内の他のデータとの距離の合計を計算し、データ選択部２５では、部分データ群ごとに、その部分データ群のデータの中から、評価値が最小のものを選択するようにしている。そのため、代表値をヒストグラムを求めることで定める方法と異なり、データ数に比べて特徴の次元が高い場合であっても、確実に代表データを求めることができる。

ヒストグラムを求めて代表データを定める場合、ヒストグラムにおける一つの区切りに十分な数のデータが入るだけのデータがなければ、正しく代表データを求めることができない。例えばデータ数が少なく、一つの区切りに入るデータの数が１つとか２つになった場合、たまたまデータが２つ入った区切りが代表として選ばれてしまい、全体を代表するものとはならない。このことは特徴の次元が多くなると顕著となる。なぜならば、次元の数のべき乗に比例して区切りの数が増えるからである。一つの特徴を１００に区切る場合、１次元の特徴であれば１００個の区切りができるが、６０次元の特徴であれば１００⁶⁰個（＝１０¹²⁰個）の区切りができることになる。

ヒストグラムを用いる方法と比べ、実施例１の方法であれば、特徴量における次元が高くても必らず代表データを求めることが可能である。

また本実施例では、評価値計算部２４が各データの評価値として部分データ群内の他のデータとの距離の合計を計算し、データ選択部２５が部分データ群ごとにその部分データ群のデータの中から評価値が最小のものを選択する、ということを階層的に行うようにしている。そのため、データに外れ値が含まれていても、安定して代表特徴を抽出することができる。

これに対して平均値を代表特徴とする場合、平均値には外れ値の影響が含まれることになる。通常、平均値を計算する場合、平均を求めるという操作そのものの性質から、距離の離れたものの影響が大きくなるので、外れ値の影響がどうしても大きくなってしまうという問題がある。

本実施例の場合、例えば、図１３に示すように最下層の部分データ群が｛(Ｉ₁，Ｉ₂，Ｉ₃，Ｉ₄)｝の４つのデータからなるとし、Ｉ₄はノイズの影響による外れ値を含んでいるデータとする。各データ間の距離をＤ_ijとする。Ｉ₄は外れ値を含んでいるデータであるので、距離Ｄ₁₄，Ｄ₂₄，Ｄ₃₄は、距離Ｄ₁₂，Ｄ₁₃，Ｄ₂₃と比べ大きくなる。よって、他のデータとの距離の合計である各データの評価値（Ｖ₁，Ｖ₂，Ｖ₃，Ｖ₄）のうちＶ₄は、その他の評価値（Ｖ₁，Ｖ₂，Ｖ₃）に比べて大きくなる。評価値が小さいものを代表データとするので、この場合、データＩ₄が代表データとして選ばれることはない。そのため、本実施例によれば、外れ値を含むデータが代表データとして上の階層に伝播する可能性は非常に低い。このような選択を階層的に行うことにより、実施例１によれば、ノイズ等の影響を受けて外れ値を含むようなデータが上位の階層のデータに含まれることがなくなり、安定して代表特徴を抽出することができる。

さらに本実施例には、ノイズ等による外れ値だけでなく、性質の異なる極小数のデータの影響も受けないという効果もある。例えば、海面を撮影した画像から溺れている人を探すために、海面自体のスペクトルを代表特徴として抽出する場合、単純に平均をとると、海面だけではなく、検出対象の溺れた人などの海面自体以外のものも含めた平均を代表特徴としてしまうことになる。この実施例によれば、階層的にデータを選別し、下の階層で性質の異なるものを排除することで、最終的に性質の異なるものを含めずに代表特徴を選択することができる。

さらに本実施例には、高速に代表特徴を選択できるという効果もある。

例えば、入力データがＮ＝ａ×ｂ個のデータからなるとする。階層化することなくデータごとに他のデータとの距離を全て求めるとすると、ａｂ（ａｂ−１）／２回の距離計算が必要となる。

これに対し、ｎ＝ａ×ｂ個のデータをそれぞれがｂ個のデータからなるａ個の部分データ群へと１階層に分割するものとする。ｂ個のデータからなる部分データ群内の距離計算の回数がｂ（ｂ−１）／２回であり、これがａ個の部分データ群のそれぞれごとに実行するので、１階層目の距離計算は全部でａｂ（ｂ−１）／２回である。２階層目の距離計算は、ａ個のデータ内の距離計算であるので、ａ（ａ−１）／２回である。よって、階層化することで、ａｂ（ｂ−１）／２＋ａ（ａ−１）／２回の計算で済むことなる。階層化しない場合と階層化する場合とでの距離計算回数の差はａ（ｂ²−１）（ａ−１）となる。ここでａ，ｂは１より大きいので、階層化により必らず計算量は削減されることになる。ここでは１階層に分割する場合の計算量を示したが、複数の階層に分割すると、計算量についてのより大きな削減効果を得ることができる。

上述の実施例１では、最終的に求める代表特徴の数Ｋを１とし、全体を一つの特徴で象徴させるようにしているが、Ｋを１よりも大きな値とし、複数あるいは多数の代表特徴を抽出してもよい。例えば、画像を４×４画素ごとに区切った領域ごとに代表特徴を選択することで、画像を１６分の１に縮小した圧縮画像とすることもできる。入力データが異なる性質を有する複数の要素からなることが想定される場合には、全体を一つの特徴で代表させるよりも、複数の代表特徴を求め、性質の異なる複数の要素をそれぞれ代表させるようにする方が好ましい。

上述の説明では、部分データ群を求めるために２次元空間を連続する正方格子状に分割したが、例えば長方形格子や、三角形格子、六角形格子など、他の形状を用いて２次元空間を階層的に分割することも可能である。あるいは所定数の画素おきに分割するなど、空間的に不連続に分割することも可能である。

本実施例では、分割に際しては、隙間なくかつ重なりなく分割したが、隙間や重なりがあるように分割することも可能である。隙間があって全てのデータを利用しない場合であっても、あるいは重なりがある場合であって、全体の特徴を求めることはできる。例えば、一般に２のべき乗に分割するとコンピュータでの実装が容易であるため、入力データ数が２の巾乗でない場合には、端数を含めないようにすることも可能である。同様に、入力データにある程度の一様性が仮定できるのであれば、重なりがあっても影響は少ない。

上述の実施例１では、入力手段としてはハイパースペクトルカメラを用い、このカメラからコンピュータに対して画像データを直接入力したが、カメラとコンピュータとをネットワークを介して接続された別の場所に配置することも可能である。例えば航空機にカメラを積み、カメラからのデータを無線ネットワークを介して地上の管制基地に送信し、地上の管制基地のコンピュータによって代表特徴抽出を行うように構成することもできる。また、カメラからその場の画像をコンピュータに直接入力してリアルタイムで処理を行うように構成することもできるし、データを記憶装置に保存しておき、例えば問題発生後の事後調査のように、データ採取と代表特徴抽出とを別のタイミングで行うこともできる。

代表特徴の出力方法としては、本実施例で説明したディスプレイに代表特徴を表示するものだけでなく、ネットワークを通して電子的に他の装置へ代表特徴を通知する、あるいはハードディスク装置やＵＳＢ(Universal Serial Bus)メモリ等の記録媒体に代表特徴を記録するなど、任意の方法を用いることができる。

本実施例では、海面の画像から溺者や漂流物を検出するシステムのために代表特徴抽出システムを使用する場合を説明したが、土砂災害現場の画像から土砂ではないものを検出するために土砂を代表する特徴を抽出するシステムや、砂漠の画像からオアシスを検出するために砂漠を代表する特徴を抽出するシステムへも本実施例を同様に応用することができる。また、代表特徴の抽出の対象となるデータとしては、本実施例で用いたハイパースペクトルカメラによるスペクトルデータだけではなく、任意のデータを用いることができる。例えば、移動速度、滞在時間などの行動を表現する複数の特徴量を用いて行動を表現し、一連の行動履歴から代表的な行動を抽出し、代表的な行動と比較して異常な行動を検知し、障害発生などを検出する障害検知システムなどに本実施例を応用することができる。さらに、一語の発話音声を多次元ベクトルとして表現し、一連の会話から、通常の会話にみられる発話を代表特徴として検出して、代表特徴と異なる会話を検出することで、犯罪捜査等にも本実施例を応用することもできる。さらにまた、通常ではないデータを検出する異常検知のための代表特徴選択だけでなく、画像を圧縮するために、その画像の特徴をよく表す代表画素を選択することにも本実施例は応用可能である。本実施例は、代表特徴を用いてデータの分類を行うことにも応用できる。

［実施例２］
実施例２は上述した第４の例示実施形態に対応するものである。この実施例２は、実施例１と同様のものであるが、図７に示すようにクラスタリング部２８及びクラスタ代表抽出部２９を備えている点で実施例１とは異なっている。また入力データについても異なる性質を有する複数の要素からなることが想定されるとし、最終的に求める代表特徴の数は複数とする。また、また代表データ数Ｋも２以上であるとする。

例えば、画像を８×８画素ごとに区切った領域ごとに代表データを選択するものとすると、実施例１と同様の処理を行うことにより、クラスタリング部２８へ入力されるデータは、入力画像を６４分の１に縮小した代表データ（圧縮画像）となる。クラスタリング部２８では、そこへの入力画像を特徴量の似通った部分画像（クラスタ）に分割する。例えば処理対象の画像が図１４に示すように海の領域と砂浜の領域からなるとすると、クラスタリング部２８は、入力画像全体をクラスタリング処理し、図１５に示すように、海の領域と、砂浜の領域とに対応する２つの部分画像１，２に入力画像を分割する。クラスタリング処理には、例えばｋ−平均法(k-means)などの任意の方法を用いることができる。

このようにクラスタが生成されたとしてクラスタ代表抽出部２９は、作成されたクラスタごとに代表特徴を抽出する。例えば、図１５に示すように海の領域と砂浜の領域とを示す二つのクラスタ（部分画像１，２）が作成された場合、図１６においてスペクトル曲線で示すように、海を表すクラスタの代表値と砂浜を表すクラスタの代表値を求める。

クラスタの代表値の求め方としては、評価値計算部２４及びデータ選択部２５での処理と同様に、他のデータまでの距離の合計が最小となるデータを代表値とする方法がある。あるいは、クラスタ内のデータの平均値として代表値を求めることもできる。本実施例の場合、クラスタリングを行う前に階層的に代表特徴を選択しており、外れ値のデータや少数の性質の異なるデータは予め除かれている。また、似た性質を持つクラスタへ分割されている。そのため、１つのクラスタ内にはほぼ同じ性質を持つデータのみが存在するたので、ここで平均を求めても、外れ値や性質の異なるデータに影響されることはない。

クラスタリングとしては、空間的な連続性を用いて似た領域に分割する方法を用いてよいし、空間的な連続性は用いずにスペクトルの類似性だけで似た領域に分割する方法を用いてもよい。図１６で示すような、入力画像が空間的に区別できる複数の領域からなる場合には、空間的な連続性を用いて似た領域に分割する方が、好ましい代表特徴を選択することができる。一方、森の中から部分的に土が見えているような画像を入力画像とする場合には、空間的な連続性を用いずにスペクトルの類似性だけに着目することで、入力画像を森の木と土のそれぞれにクラスタリングすることができる。

このような実施例２によれば、特徴量の似通ったクラスタに入力画像を分割し、各クラスタに対して代表特徴抽出を行うことで、入力画像がいくつかの異なった性質を持つ複数の領域からなる場合にも対応できるようになる。

本実施例では、クラスタリングの前に階層的な選択を行っているので、入力画像を高速に処理することが可能となる。階層的な選択を行わずに入力データに対してクラスタリングを直接行うことも考えられる。しかしながら、ｋ−平均法などのクラスタリングアルゴリズムは繰り返し演算を使用するので、非常に処理時間のかかるアルゴリズムである。したがって階層的な選択をあらかじめ行い、クラスタリング対象のデータ数を減らしておくことで、大幅な高速化が実現できる。

［実施例３］
実施例３は、図５を用いて説明した第３の例示実施形態に対応するものである。

生起分布記憶部１６は、各データＩ_iの生起分布Ｑ(Ｘ)＝(ｑ⁽¹⁾(ｘ)，ｑ⁽²⁾(ｘ)，…，ｑ^(D)(ｘ))、つまり各特徴量ｖ_i ^(j)の生起分布ｑ^(j)(ｘ)を記憶している。例えば、第ｊ成分の特徴量の分布は、平均がｍ^(j)であって分散がσ^(j)である正規分布であるとか、あるいは、［ｍｉｎ^(j)，ｍａｘ^(j)］の間の一様分布である、といったことが生起分布記憶部１６に記憶されている。特徴量ｖ_i ^(j)は生起分布記憶部１６に記憶された分布に従って生起するとする。撮影対象についての事前知識に基づいて平均や分散等のパラメータを含めて事前に生起分布を与えることもできるし、分布の形状だけは既知であるとした上で、平均や分散等のパラメータを実際に入力されたデータから求めることにより生起分布を与えることもできる。さらに、生起分布についての事前知識が得られない場合や、事前知識から生起分布を定められない場合には、一様分布を仮定し、その一様分布の最大値ｍａｘ^(j)、最小値ｍｉｎ^(j)を実際に入力された全ての画像のデータの第ｊ成分の最大値、最小値から定めることもできる。

評価値計算部１３は、生起分布記憶部１６に記憶されている生起分布Ｑ(ｘ)を用いて仮想的に生成した値がデータＩ_aとＩ_bの間の値となる確率Ｐ(Ｉ_a，Ｉ_b)として、これらのデータＩ_aとＩ_bの距離を定義する。第ｊ成分の生起分布がｑ^(j)(ｘ)であるので、生起分布から仮想的に生成されるパターンの第ｊ成分の値がデータＩ_aの第ｊ成分の値ｖ_a ^(j)とＩ_bの第ｊ成分の値ｖ_b ^(j)の間の値となる確率ｐ(ｖ_a ^(j)，Ｉ_b ^(j))は、式(4)で表される。よって、仮想的に生成した値がＩ_aとＩ_bの間の値となる確率Ｐ(Ｉ_a，Ｉ_b)は、各成分の生起分布が独立であるとすると、式(5)によって表される。通常の場合、距離についてその値が大きいほど二つのデータは異なっており、値が小さいほど二つのデータが近いと言える。式(5)で定義した確率も、その値が小さいということは、二つの値の間にあたる値を取る事象がめったに起こらない、つまり二つのデータの間が距離が短く、二つのデータが類似していることを表している。逆に確率値が大きいということは、二つのデータの値の間の値を取る事象が珍しくない、つまり二つのデータの間が距離が長く、二つのデータが非類似であることを表わしている。

Ｉ_iとＩ_Rの距離Ｄ(Ｉ_i，Ｉ_R)として、この確率ｐの対数をとることで、式(6)のようにすることもできる。対数関数（ｌｏｇ）は単調増加関数であるため、対数をとっても距離としての性質に変化はない。

ここで、式(1)で表される一般的な距離を用いる場合と比較し、本実施例で規定するような距離を用いることの効果について、図１７を用いて説明する。

例えば第ｄ成分に相当するセンサに欠損が生じたり、ノイズの影響で外れ値をとったりすることで、本来、Ｉ_iとＩ_Rは似たデータであるにもかかわらず、それらのデータにおける第ｄ成分の差（ｖ_i ^(d)−ｖ_R ^(d)）が大きな値になったとする。図１７において、横軸が第ｎ成分を示し、縦軸が第ｎ成分の特徴量の値を示している。データＩ_SはＩ_Rと同じ対象のデータであるが、Ｉ_Sの第ｄ成分にノイズが入り、特徴量ｖ_S ^(d)が外れ値となっている。データＩ_TはＩ_Rとは別の対象のデータであり、Ｉ_Rとは全体的に異なる特徴量となっている。しかしながら、通常の距離Ｌ₂を用いる場合には、ｖ_S ^(d)が外れ値であるため、（ｖ_S ^(d)−ｖ_R ^(d)）²が非常に大きな値となり、第ｄ成分以外の特徴量がほぼ同じ値であるにもかかわらず、距離Ｌ₂(Ｉ_S，Ｉ_R)は大きな値となり、その結果、データＩ_SとＩ_Rは似ていないと判定されてしまう。一方、Ｉ_TとＩ_Rは全体的に少しずつ異なるが、大きな差のある成分がないため、距離Ｌ₂(Ｉ_T，Ｉ_R)はそれほど大きくならず、Ｉ_TとＩ_Rは、Ｉ_SとＩ_Rより似ていると判断されてしまう。

一方、本実施例で用いる式(6)で示される距離の場合、第ｄ成分の寄与を考えると、外れ値のためｖ_S ^(d)とｖ_R ^(d)の差が大きくなったときにｐ(ｖ_S ^(d)，ｖ_R ^(d))が１に近くなり、式(6)の第ｄ成分の対数値ｌｏｇ(ｐ(ｖ_S ^(d)，ｖ_R ^(d)))は０に近くなる。そのため、外れ値を含む第ｄ成分の全体への寄与は小さくなる。それ以外の外れ値を含まない第ｉ成分（ｉ≠ｄ）については、ｖ_S ⁽ⁱ⁾とｖ_R ⁽ⁱ⁾の差が小さく、ｐ(ｖ_S ⁽ⁱ⁾，ｖ_R ⁽ⁱ⁾)は０に近くなり、式(6)の第ｉ成分の対数値ｌｏｇ(ｐ(ｖ_S ⁽ⁱ⁾，ｖ_R ⁽ⁱ⁾))は小さな値（絶対値が大きな負の値）となる。外れ値を含む第ｄ成分が０で、外れ値を含まない成分が絶対値の大きな負の値であるため、その合計Ｄ(Ｉ_S，Ｉ_R)は絶対値の大きな負の値となり、本実施例で定義する距離としては小さな値となる。したがってデータＩ_SとＩ_Rは似ていると判断される。一方、Ｉ_TとＩ_Rは全体的に異なるため、全ての成分についてｐ(ｖ_T ⁽ⁱ⁾，ｖ_R ⁽ⁱ⁾)が１に近い値となり、式(6)の各成分の対数値ｌｏｇ(ｐ(ｖ_T ⁽ⁱ⁾，ｖ_R ⁽ⁱ⁾))はいずれも０に近くなる。０に近い値を加えてもやはり０に近い値となるため、Ｄ(Ｉ_T，Ｉ_R)は０に近い値となる。式(6)で表される距離は、０が最大値であるので、データＩ_TとＩ_Rの距離は大きな値となる。

式(6)で示す距離の持つこの性質により、特徴量の一部に欠損や外れ値がある場合にもそのことの影響を受けにくくなる。したがって実施例３の手法は、入力データに外れ値が含まれていても安定して代表特徴を抽出することができるという性質を有する。

同様に、式(6)で示す距離の持つ、差が大きな成分の全体に対する寄与は小さくなるという性質により、本実施例の手法は、特徴の次元が高い場合でも安定して代表特徴を抽出することができるという性質を有する。

これに対して式(1)に示す通常の距離Ｌ₂を用いる場合には、特徴の次元が高くなると安定して代表特徴を抽出できなくなる。一般に、通常の距離Ｌ₂を用いる場合には、次元が高くなるとデータの近さの判定が不安定となると言われている。高次元では通常の距離による近さの判定が不安定になることの原因は、通常の距離尺度では、Ｄが大きな自然数であるとして、Ｄ次元パターンの各成分のうち、距離が小さい成分の寄与が、距離が大きい成分の寄与に比べてはるかに小さくなることにある。距離が小さい成分の寄与よりも、外れ値のような距離が大きい成分の微小変化の影響の方が大きくなり、近さの判定の不安定性を引き起こしている。また、次元Ｄが大きくなると距離が大きい成分が現れる確率が高くなるため、高次元パターンではこのような近傍判定の不安定性が生じる確率が高くなる。

これに対して本実施例にように任意パターンの特徴量の生起分布から仮想的にパターンを発生させた場合に、各データごとに、各データの特徴量よりも正常データに近いパターンとなる確率は、特徴量の差の大きな成分については１に近くなる。１に近いほど影響が小さいので、特徴量の差の大きな成分の他の成分への影響が小さくなり、このため、他の成分が似ていれば二つのパターン間の距離は小さくなる。このように、次元が高くなっても、本実施例の方法によれば、距離が不安定となることはない。

ここでは、特徴が複数の特徴量からなる高次元ベクトルとして表せる場合で、複数の特徴量のうちのある特徴量に外れ値が含まれる場合に対する効果を示した。次に、複数のデータのうちに異常なデータが含まれる場合に対する本実施例の効果を説明する。

図１３に示すように、｛(Ｉ₁，Ｉ₂，Ｉ₃，Ｉ₄)｝の４つのデータから代表値を選ぶ場合に、Ｉ₄はノイズの影響による外れ値を含んでいるデータであるとする。各データ間の距離をＤ_ijとする。Ｉ₄は外れ値を含んでいるデータであるので、距離Ｄ₁₄，Ｄ₂₄，Ｄ₃₄は距離Ｄ₁₂，Ｄ₁₃，Ｄ₂₃と比べて大きくなる。

先に述べたように、通常の距離Ｌ₂を使う場合、離れているものの影響が大きいので、例えばＩ₂から他のデータへの距離の合計を考えると、Ｄ₁₂やＤ₂₃に比べＤ₂₄ははるかに大きくなってＤ₂₄の影響は小さくなり、Ｄ₁₂やＤ₂₃の影響が大きくなる。そのため、データの密集しているＩ₁，Ｉ₂，Ｉ₃の位置関係を中心にして評価値が定まることとなり、外れ値を除いた、データの性質をよく表す代表特徴が選ばれることになる。

［実施例４］
次に実施例４について説明する。実施例４は、実施例１と同様のものであるが、実施例３に示した生起分布記憶部１６をさらに備え、評価値計算部２４では実施例３における評価値計算部１３と同様の手順で距離が算出され評価値が求められる点で、実施例１のものとは相違している。図１８は、このような実施例４における代表特徴抽出システムの構成を示している。

生起分布記憶部１６は、入力が想定される特徴量の生起分布を記憶している。また、実施例１と同様に、入力データは複数の階層の部分データ群に分割されてデータは階層的に処理される。すなわちデータ分割部２２は、入力データを複数の部分データ群に階層的に分割し、評価値計算、データ選択を階層的に行えるようにしている。評価値計算部２４及びデータ選択部２５は、階層ごとの各部分データ群の中の各データについて、その部分データ群の中の他のデータとの類似度を表す距離を計算し、その距離を用いて各データの評価値を求める。ここでの距離は、生起分布記憶部１６に記憶されている生起分布から仮想的にパターンを発生させた場合に、そのパターンの値が比較しようとしている二つのデータの値の間の値となる確率とするものである。データ集約部２６は、部分データ群ごとの代表データを集め、それに基づいて次の階層の部分データ群を作成することで、評価値計算及びデータ選択を階層的に行えるようにする。

このような実施例４は、実施例１に基づく階層的な代表特徴選択と実施例３に基づく生起分布に基づく評価値算出とを組み合わせたものであるため、両方の実施例に基づく効果を合わせ持つ。

具体的には、本実施例によれば、階層構造を用いることにより、外れ値を含むデータや性質の異なる少数のデータの影響が下位の階層から上位の階層に伝播することがないので、実施例１の場合と同様に、外れ値や性質の異なる少数のデータの影響を受けずに代表特徴を抽出することができる。階層構造を用いることのほかに、生起分布から仮想的にパターンを発生させたとして現在の比較対象の２つのデータの値の間の値をそのパターンが取る確率を用いることにより、実施例３と同様に、外れ値や性質の異なる少数のデータの影響をより受けにくくなる。

階層的に計算し、かつ距離の総和によって代表特徴を求めることにより、実施例１と同様に、データ数が少なくても代表特徴を求めることができ、また、高速に代表特徴を求めることができる。

生起分布から仮想的にパターンを発生させたとして現在の比較対象の２つのデータの値の間の値をそのパターンが取る確率を用いることにより、実施例３と同様に、特徴が高次元になっても安定して代表特徴を求めることができる
なお、実施例４においては、実施例２と同様に、クラスタリング部とクラスタ代表抽出部を追加することも可能である。その場合には、入力画像が異なった性質を有する複数の領域からなる場合にも安定して代表特徴を抽出できるようになる。

本発明は、例えば、画像・音声・スペクトルパターン・行動パターン等から代表特徴を抽出して、異常検知やデータ圧縮、分類等を行う技術分野に適用できる。

１１，２１入力部
１２データ群格納部
１３，２４評価値計算部
１４，２５データ選択部
１５，２７出力部
１６生起分布記憶部
２２データ分割部
２３部分データ群格納部
２６データ集約部
２８クラスタリング部
２９クラスタ代表抽出部

Claims

入力データから代表特徴を選択する代表特徴抽出システムであって、
前記入力データを階層的に複数の部分データ群に分割する分割手段と、
処理済みでない階層のうちで最も下位の階層を処理階層として、処理階層の各部分データ群において当該部分データ群に含まれるデータごとに当該データから当該部分データ群に含まれる他のデータまでの距離の和を算出して評価値を求める評価値算出手段と、
前記処理階層の各部分データ群について、当該部分データ群に含まれる前記データの中で前記評価値が最小のものを代表データとして選択するデータ選択手段と、
前記処理階層が最上位の階層であれば前記データ選択手段が選択した前記代表データを前記入力データに対する前記代表特徴とし、前記処理階層が最上位の階層以外の階層であるときには、前記データ選択手段が選択した前記代表データを集約して前記処理階層より１階層上の階層の部分データ群を生成する集約手段と、
を有する代表特徴抽出システム。
前記集約手段によって得られた前記代表特徴をクラスタに分割するクラスタリング手段と、
前記クラスタごとに代表特徴を抽出するクラスタ代表抽出手段と、
さらを有する、請求項１に記載の代表特徴抽出システム。
前記クラスタ代表抽出手段は、前記評価値計算手段で用いられる距離基準とは異なる距離基準を用いて前記クラスタから代表特徴を抽出する、請求項２に記載の代表特徴抽出システム。
前記分割手段は、前記入力データにおける空間的な連続性を用いて前記入力データを部分データ群へ分割する、請求項１乃至３のいずれか１項に記載の代表特徴抽出システム。
入力が想定される特徴量についての生起分布を記憶する生起分布記憶手段を備え、
前記評価値計算手段は、２つのデータ間の距離を、前記生起分布によって仮想的にパターンを発生させた場合に当該パターンによるデータ値が前記２つのデータの値の間に存在する確率として求める、請求項１乃至３のいずれか１項に記載の代表特徴抽出システム。
入力が想定される特徴量についての生起分布を記憶する生起分布記憶手段を備え、
前記評価値計算手段は、２つのデータ間の距離を、前記生起分布によって仮想的にパターンを発生させた場合に当該パターンによるデータ値が前記２つのデータの値の間に存在する確率として求め、
前記クラスタ代表抽出手段は、クラスタ内のデータの平均を前記代表特徴とする、
請求項４に記載の代表特徴抽出システム。
前記入力データを読み込む入力手段と、
前記部分データ群を格納する格納手段と、
前記代表特徴を出力する出力手段と、
さらに備える請求項１乃至６のいずれか１項に記載の代表特徴抽出システム。
入力データから代表特徴を選択する代表特徴抽出方法であって、
前記入力データを階層的に複数の部分データ群に分割することと、
処理済みでない階層のうちで最も下位の階層を処理階層として、処理階層の各部分データ群において当該部分データ群に含まれるデータごとに当該データから当該部分データ群に含まれる他のデータまでの距離の和を算出して評価値を求め、前記評価値が最小のものを当該部分データ群の代表データとして選択することと、
前記処理階層が最上位の階層であれば前記選択された代表データを前記入力データに対する前記代表特徴とすることと、
前記処理階層が最上位の階層以外の階層であるときには、前記選択された代表データを集約して前記処理階層より１階層上の階層の部分データ群を生成し、前記評価値を求めることと前記代表データを選択することとを繰り返すことと、
を有する代表特徴抽出方法。
前記代表特徴をクラスタに分割するクラスタリングすることと、
前記クラスタごとに代表特徴を抽出することと、
をさらに有する、請求項８に記載の代表特徴抽出方法。
前記クラスタごとに代表特徴を抽出する際に用いられる距離基準は、前記データ間の距離を求める際の距離基準とは異なる、請求項９に記載の代表特徴抽出方法。
前記入力データにおける空間的な連続性を用いて前記入力データが前記部分データ群に分割される、請求項８乃至１０のいずれか１項に記載の代表特徴抽出方法。
前記２つのデータ間の距離は、入力が想定される特徴量についての予め用意された生起分布によって仮想的にパターンを発生させた場合に当該パターンによるデータ値が前記２つのデータの値の間に存在する確率として表される、請求項８乃至１０のいずれか１項に記載の代表特徴抽出方法。
前記２つのデータ間の距離は、入力が想定される特徴量についての予め用意された生起分布によって仮想的にパターンを発生させた場合に当該パターンによるデータ値が前記２つのデータの値の間に存在する確率として表され、
前記クラスタ内のデータの平均を前記クラスタから抽出される代表特徴とする、請求項１１に記載の代表特徴抽出方法。
前記特徴量の生起分布として、入力データにおける最大値と最小値の間の一様分布を用いることを特徴とする、請求項１２または１３に記載の代表特徴抽出方法。
ハイパースペクトルカメラのスペクトルデータを多次元データとしたものを前記入力データとする、請求項８乃至１４のいずれか１項に記載の代表特徴抽出方法。
前記入力データから前記代表特徴を抽出した後、代表特徴とは異なるデータを異常なデータとして検出することをさらに有する、請求項８乃至１５のいずれか１項に記載の代表抽出方法。
コンピュータに、
入力データを階層的に複数の部分データ群に分割する処理と、
処理済みでない階層のうちで最も下位の階層を処理階層として、処理階層の各部分データ群において当該部分データ群に含まれるデータごとに当該データから当該部分データ群に含まれる他のデータまでの距離の和を算出して評価値を求め、前記評価値が最小のものを当該部分データ群の代表データとして選択するデータ選択処理と、
前記処理階層が最上位の階層であれば前記選択された代表データを前記入力データに対する前記代表特徴とする処理と、
前記処理階層が最上位の階層以外の階層であるときには、前記選択された代表データを集約して前記処理階層より１階層上の階層の部分データ群を生成して前記データ選択処理を繰り返させる処理と、
と実行させるプログラム。
前記コンピュータに、
前記代表特徴をクラスタに分割するクラスタリングする処理と、
前記クラスタごとに代表特徴を抽出する処理と、
をさらに実行させる、請求項１７に記載のプログラム。
前記２つのデータ間の距離は、入力が想定される特徴量についての予め用意された生起分布によって仮想的にパターンを発生させた場合に当該パターンによるデータ値が前記２つのデータの値の間に存在する確率として表される、請求項１７または１８に記載のプログラム。