JP2004523840A

JP2004523840A - モデル集合によるオブジェクトの分類

Info

Publication number: JP2004523840A
Application number: JP2002568309A
Authority: JP
Inventors: グッタ　スリニヴァス; ヴァサンスフィロミン
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-02-27
Filing date: 2002-02-13
Publication date: 2004-08-05
Also published as: US6778705B2; CN1561503A; KR20020093092A; US20020181785A1; EP1421557A2; WO2002069267A2; WO2002069267A3

Abstract

【課題】いくつかの分類子（モデル）からの個々の見解から、オブジェクト分類に関する合意見解を導く、画像データ内のオブジェクトの分類のための方法を提供すること。
【解決手段】ビデオ画像データ内のオブジェクトの分類のための方法。前記画像データ内の移動オブジェクトを検出する検出ステップと、前記画像データ内に検出された各移動オブジェクトから２つ以上の特徴を抽出する抽出ステップと、１つの分類方法に従って前記２つ以上の特徴の各々に対して各移動オブジェクトを分類する分類ステップと、前記２つ以上の特徴の各々に対する前記分類方法に基づく各移動オブジェクトに対する分類を導出する導出ステップと、を有する方法。ビデオ画像データ内のオブジェクトの分類のための装置も、また、提供される。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、一般的にはオブジェクトの分類に関し、とりわけ、いくつかの分類子（モデル）からの個々の見解に基づいて合意見解を導く、画像データ内のオブジェクトの分類に関する。
【０００２】
【従来の技術】
どのパターン認識システムの設計においてもその究極の目標は、可能な限りの分類（予報）性能を達成することである。この目標は、伝統的に、特定のパターン認識問題の解決に、複数の異なる分類スキームを発展させてきた。そして、相異なる設計を実験に基づいて査定した結果が、この問題に対する最終的な解として分類子の中の１つを選択する（モデル選出）ための根拠となってきた。このような設計研究において、設計の内の１つは最も優れた性能を与えるが、異なる分類子によって分類が誤っているパターンの組が、必ずしも重複しないということが観察されてきている。
【０００３】
【課題を解決するための手段】
このような従来技術を考慮すると、こうした観察を利用して可能な限りの分類性能を達成する、画像データ内でオブジェクトを分類する方法が必要となる。
【０００４】
したがって、本発明の目的は、いくつかの分類子（モデル）からの個々の見解から、オブジェクト分類に関する合意見解を導く、画像データ内のオブジェクトの分類のための方法を提供することである。
【０００５】
それゆえに、ビデオ画像データ内のオブジェクトを分類するための方法が提供される。本方法は、前記画像データ内の移動オブジェクトを検出する検出ステップと、前記画像データ内に検出された各移動オブジェクトから２つ以上の特徴を抽出する抽出ステップと、１つの分類方法に従って前記２つ以上の特徴の各々に対して各移動オブジェクトを分類する分類ステップと、前記２つ以上の特徴の各々に対する前記分類方法に基づく各移動オブジェクトに対する分類を導出する導出ステップと、を有する。
【０００６】
本方法は、さらに、前記検出された移動オブジェクトから意図されない移動オブジェクトを除去するフィルタリングステップを有し、前記フィルタリングステップが、前記検出された各移動オブジェクトの検出された速度および縦横比に応じて、前記意図されない移動オブジェクトを除去することが望ましい。
【０００７】
前記抽出ステップが、前記検出された移動オブジェクトの各々からｘグラジエント特徴、ｙグラジエント特徴、組合せｘｙグラジエント特徴のうちの少なくとも２つを抽出することを有し、また、さらに、ノイズの効果を軽減するために前記画像データを平滑化するステップと、その後、前記抽出ステップに先立って前記画像データに微分演算子を作用させるステップと、を有することが、さらに望ましい。
【０００８】
前記分類ステップは、前記２つ以上の特徴の各々に同一の分類方法を用いるか、あるいは、前記２つ以上の特徴のうちの少なくとも２つに少なくとも２つの相異なる分類方法を用いるか、のいずれかを有する。
【０００９】
前記分類方法は、前記検出された移動オブジェクトのうちの少なくとも１つをトレーニングし、また、分類するために、動径基底関数ネットワークを有し、また、前記分類ステップは、前記検出された移動オブジェクトが対応するクラスを同定するクラスラベルと、未知パターンが前記２つ以上の特徴の各々に対するクラスに属する確率を指示する確率値と、を出力することを有することが望ましい。
【００１０】
また、ビデオ画像データ内のオブジェクトの分類のための装置も、提供される。本装置は、前記画像データ内の移動オブジェクトを検出する検出手段と、前記画像データ内に検出された各移動オブジェクトから２つ以上の特徴を抽出する抽出手段と、１つの分類方法に従って前記２つ以上の特徴の各々に対して各移動オブジェクトを分類する分類手段と、前記２つ以上の特徴の各々に対する前記分類方法に基づく各移動オブジェクトに対する分類を導出する導出手段と、を有する。
【００１１】
さらにまた、本発明の前記方法のステップを実行するためのマシンによって実行可能なインストラクションのプログラムを実際に収容している、前記マシンによって読み取り可能なプログラム収納デバイス、および、本発明の前記方法のステップを遂行するためのコンピュータ読み取り可能なプログラムコード手段を有する、ビデオ画像データ内のオブジェクトの分類のためにコンピュータによって読み取り可能な媒体に収容されている、コンピュータプログラム製品、が提供される。
【００１２】
【発明の実施の形態】
本発明の装置および方法のこれらの、そして、他の特徴、観点および利点は、以下の説明、添付の請求項、および、添付図面を参照して、より良く理解されるであろう。
【００１３】
本発明は、多数の、また、多種の型の分類モデルに適用可能であるが、とりわけ動径基底関数（ＲＢＦ）分類子の環境に有用であることが判明している。したがって、本発明は、ＲＢＦ分類子のような環境において説明される。しかしながら、本発明の適用可能性は、ＲＢＦ分類子に限定されることはない。当業者にとって、任意の蓋然論的／確率論的な分類の方法が、本発明の範囲あるいは精神から逸脱することなく、開示されている方法に使用することが出来ることは容易に理解されるであろう。さらに、本明細書に記載されているＲＢＦモデルに用いられている特徴は、画像データのグラジエントであるが、これは、一例としてのみ説明されているものであって、本発明の範囲を限定するものではない。当業者には、他の特徴も、他の型のグラジエントに加えてさらに使用することが出来ることは、容易に理解されるであろう。
【００１４】
本発明の分類方法は、単一の決定制定スキームに頼らない。そうではなくて、全ての分類子（分類子は、ある特定のタスクに最も適合するものであるけれども、エキスパート的性能も発揮するので、エキスパートとも言われる）、あるいは、それらの部分集合が、それらの個々の見解の組み合わせによる決定制定のために用いられ、それによって、合意による決定が導出される。言い換えれば、相異なる手順あるいは相異なる特徴を持つ複数の分類子は、互いに相補的であることが判明している。したがって、相異なる複数の分類子の組み合わせは、エラーを劇的に減少させ、より高い性能を獲得するであろう。
【００１５】
ここで、本発明の分類方法を、その分類方法が参照番号１００で示されている図１のフローチャートに関して説明する。ステップ１０２において、ビデオ画像データが、分類方法１００に入力される。ステップ１０４において、その画像データが、その中の任意の移動オブジェクトを検出するために、解析される。本発明の分類方法１００には、ビデオ画像データ内の移動オブジェクトを検出するための既知の如何なる方法も、採用することが出来る。移動オブジェクトは、Ｅｌｇａｍｍａｌ他， “Ｎｏｎ−ｐａｒａｍｅｔｒｉｃＭｏｄｅｌｆｏｒＢａｃｋｇｒｏｕｎｄＳｕｂｔｒａｃｔｉｏｎ” ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ）２０００，Ｄｕｂｌｉｎ，Ｉｒｅｌａｎｄ，Ｊｕｎｅ２０００によって開示されているような背景抜去スキームを採用することによって、ビデオ画像データ内に検出させることが望ましい。しかしながら、背景抜去は、一例として与えられているだけであって、本発明の範囲あるいは精神を限定するものではない。当業者にとって、セグメントオブジェクトに対して慣習的に用いられる色情報を利用する方法のような、ビデオ画像データ内の移動オブジェクトを検出するための既知の、あるいは、今後発展する任意の他の方法が、本発明の方法に採用され得ることは、容易に理解されるであろう。そのような方法の一例が、Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３ｒｄＡｓｉａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，Ｖｏｌ．Ｉ，ｐｐ．６０７−６１４，ＨｏｎｇＫｏｎｇ，Ｃｈｉｎａ，Ｊａｎｕａｒｙ１９９８内のＲａｊａ他による”ＳｅｇｍｅｎｔａｔｉｏｎａｎｄＴｒａｃｋｉｎｇＵｓｉｎｇＣｏｌｏｕｒＭｉｘｔｕｒｅＭｏｄｅｌｓ”に開示されている。
【００１６】
ステップ１０６において、意図されない移動オブジェクトは、検出された移動オブジェクトから取除くことが望ましい。例えば、分類方法の目的が、移動オブジェクトを人間か動物のいずれかとに分類することであった場合、椅子のような、ビデオ画像データ内の他の移動オブジェクトの分類は、不必要であり、分類解析を劣化さえさせる場合がある。したがって、検出された移動オブジェクトの速度および縦横比を見ることによって、このような意図されない移動オブジェクトは取除くことが好ましい。
【００１７】
ステップ１１０において、２つ以上の特徴が、ビデオ画像データ内に検出された各移動オブジェクトから抽出される。このような特徴は、検出された移動オブジェクトの各々において、ｘグラジエント特徴、ｙグラジエント特徴、組合せｘｙグラジエント特徴のうちの少なくとも２つを含んでいてもよい。ｘグラジエント特徴、ｙグラジエント特徴、組合せｘｙグラジエント特徴の３つ全てを、検出された移動オブジェクトの各々から抽出することが望ましい。図２は、ビデオ画像データ内に検出された移動オブジェクト（歩行中の女性）の入力画像２００を示している。図２０２，２０４，２０６は、各々、入力画像２００のｘグラジエント、ｙグラジエント、組合せｘ−ｙグラジエントを示している。グラジエントは、関数の変化の大きさで、画像は、画像強度のある連続関数のサンプルのアレイであると考えることが出来る。
【００１８】
分類方法は，種々のポーズおよび照明条件の下でオブジェクトを分類できなければならないので、同じクラスの複数のインスタンスは、互いに非常に異なって見え場合がある（例えば、異なる衣装を着ている人々）という事実を所与のものとすれば、あるオブジェクトクラスのインスタンスが占める全空間をモデル化することが不可能ではないということは、重要であろう。これに代えて、望ましいことは、それらの相異なる筋書きの下でもあまり変化しない特徴を同定し、モデル化することである。グラジエントは、形状情報をとらえるのみでオブジェクト空間の規模を劇的に減少させるので、そのような特徴の１つである。
【００１９】
ｘグラジエント特徴、ｙグラジエント特徴、組合せｘｙグラジエント特徴が望ましいけれども、オブジェクトによって行われる動作の型のように、既知の、あるいは、今後発展される画像データの他の特徴が、本発明の分類方法１００に採用され得ることは、当業者には、容易に理解されるであろう。例えば、動物（例えば、犬や猫）が行う動作の型は、人間が行うそれとは異なる。さらに、人間と動物の分類に用いることが出来る他の特徴には、顔領域の探索あるいは皮膚検出のように、外見に基づく特徴も含まれる。
【００２０】
代って、図１に戻ると、ステップ１０８において、入力画像データを、最初に、ノイズの効果を軽減するために平滑化し、その後、微分演算子（水平／垂直／組合せ）を、画像全体に適用する。ステップ１０８の両方の演算を同時に実行するソーベル演算子を使用することが望ましい。
【００２１】
ステップ１１２において、特定の分類方法が、検出された各移動オブジェクトに対して抽出された特徴の各々に適用される。上述したように、同一の、あるいは、相異なる分類方法を、検出された各移動オブジェクトから抽出された特徴の各々に対して使用することが出来る。この分類方法は、検出された移動オブジェクトの少なくとも１つをトレーニングし、分類するため、動径基底関数（ＲＢＦ）を有することが望ましい。さらに、分類のためにＲＢＦ分類子が、ｘグラジエント画像、ｙグラジエント画像、組合せｘｙグラジエント画像の各々を使用することが、望ましい。
【００２２】
ここで、ＲＢＦ分類子について図３を参照しながら説明する。ＲＢＦネットワークの構成は、３つの異なる層、入力層３００、第２の層３１０、出力層３２０、を有している。入力層３１０は、ソースノード（感覚ユニット）（ｋ）から成る。第２の層３１０は、データをクラスタ化し、その広さ（ｄｉｍｅｎｓｉｏｎａｌｉｔｙ）を縮小させることを目標にする隠れ層である。出力層３２０は、入力層３００に印加された特徴パターンに対するＲＢＦネットワークの応答を供給する。入力空間３００から隠れユニット空間３１０への変換は、非線形で、一方、隠れユニット空間３１０から出力空間３２０への変換は、線形である。
【００２３】
とりわけ、ＲＢＦ分類子は、２通りに考察することが出来る。１つは、入力ベクトルを高次元空間に展開する一連の核関数としてＲＢＦ分類子を解釈するものである。これは、高次元空間に投げ込まれた分類問題の方が、低次元空間内のそれよりも線形分離しやすいという数学的な事実を活用しようとするものである。もう１つの視点は、基底関数（ＢＦ）の線形結合を行なうことによって、超曲面（各クラスに対して１つ）を構築しようとする関数写像補間法としてＲＢＦ分類子を解釈するものである。これらの超曲面は、判別関数と捉えられることができる。この曲面は、それが表現しているクラスに対しては高い値を持ち、他の全てに対しては低い値を持つ。未知入力ベクトルは、その点において最大出力を持つ超曲面に連係するクラスに属するものとして分類される。この場合、ＢＦは、高次元空間の基底として働かず、成分係数（即ち、重み）がトレーニングされなければならない望ましい超曲面の有限の広がり内の成分として働く。
【００２４】
ＲＢＦ分類子は、図３に示されるように伝統的な三層誤差逆伝搬ネットワークのアーキテクチャに良く似たアーキテクチャを持っている。入力３００と中間層３１０との結合は、単位重みを持っており、その結果、トレーニングの必要は無い。中間層３１０内のノードは、ＢＦノード（ｉ）と呼ばれ、ある特定の平均ベクトルμ_ｉと分散（平方偏差）ベクトルσ_ｉ ^２によって条件指定されるガウシアンパルスの非線形を持つ。ここで、ｉ＝１， … ，Ｆであり、Ｆは、ＢＦノード（ｉ）の数である。σ_ｉ ^２は、ガウシアンパルス（ｉ）の共分散行列の対角エントリを表わすことに留意すべきである。Ｄ次元の入力ベクトルＸが与えられると、各ＢＦノード（ｉ）は、その入力によってもたらされるＢＦの活性化を反映して、以下のスカラー値を出力する。

ここで、ｈは、分散の比例定数であり、ｘ_ｋは、入力ベクトルＸ＝［ｘ_１，ｘ_２， … ，ｘ_Ｄ］のｋ番目の成分であり、μ_ｉｋとσ_ｉｋ ^２とは、各々、基底ノード（ｉ）の平均ベクトルと分散ベクトルとのｋ番目の成分である。ガウシアンＢＦの中心に近い入力は、相対的に高い活性化となり、一方、ガウシアンＢＦの中心から遠い入力は、相対的に低い活性化となる。ＲＢＦネットワークの各出力ノード（ｊ）は、ＢＦノード活性化の線形結合を形成するから、中間層と出力層とを結合するネットワークは、次のように線形である。

ここで、ｚ_ｊは、ｊ番目の出力ノードの出力であり、ｙ_ｉは、ｉ番目のＢＦノードの活性化であり、ｗ_ｉｊは、ｉ番目のＢＦノードをｊ番目の出力ノードに結合させる重みであり、ｗ_ｏｊは、ｊ番目の出力ノードのバイアスすなわち閾値である。このバイアスは、入力に関係なく一定の単位出力を持つＢＦノードに連係する重みに由来する。
【００２５】
未知ベクトルＸは、最大出力ｚ_ｊを持つ出力ノードｊに連係するクラスに属するものに分類される。線形ネットワーク内の重みｗ_ｉｊは、勾配降下のような反復最小化法を用いて解くことはできない。これらは、擬逆行列技術を用いて、迅速かつ厳密に決定することができる。
【００２６】
好適に用いられるＲＢＦ分類子の詳細なアルゴリズムの説明が、以下の表１，２に示されている。まず、ＲＢＦネットワークのサイズが、ＢＦの数Ｆを選出することによって決定される。Ｆの適正な値は、問題特有のものであり、通常、問題の広さと形成される決定領域の複雑さとに依存する。一般に、Ｆは、種々のＦを試してみることによって実験的に決定することができるし、あるいは、その問題の入力次元よりも通常大きい、ある定数に設定することができる。
【００２７】
Ｆを設定した後、ＢＦの平均ベクトルμ_ｌと分散ベクトルσ_ｌ ^２とを、種々の方法を用いて決定することができる。これらは、誤差逆伝搬勾配降下技術を用いて出力重みとともにトレーニングすることが出来るが、これは、通常、長いトレーニング時間を必要とし、また、最適状態に及ばない局所最小に導くこともある。あるいはまた、平均ベクトルと分散ベクトルとは、出力重みをトレーニングする前に決定することもできる。この場合には、ネットワークのトレーニングには、重みを決定することしか含まれない。
【００２８】
ＢＦ中心および分散は、標準的には、関係している空間を満たすように選ばれる。種々の技術、例えば、入力空間をサンプルする等間隔のＢＦの格子や、ＢＦ中心のセットを決定する、即ち、各クラスが表わされていることを確保しながら、ＢＦ中心としてトレーニングセットからランダムベクトルを決定するＫ−ｍｅａｎｓのようなクラスタリングアルゴリズム、を用いることが出来る。
【００２９】
ＢＦ中心即ち平均が決定されると、ＢＦ分散即ち幅？ _ｉ ^２を、設定することができる。これらは、ある大域的な値に固定することができる、即ち、ＢＦ中心の近傍内のデータベクトル密度を反映するように設定することができる。さらに、分散に対する大域的な比例因数Ｈには、ＢＦ幅の拡大・縮小のし直しを考慮することも含まれている。良好な性能に帰着するようにＨの広がりを探すことによって，その適切な値が決定される。
【００３０】
ＢＦパラメータが設定されると、次のステップは、出力重みをトレーニングすることである。個々のトレーニングパターンＸ（ｐ）とそれらのクラスラベルＣ（ｐ）とを、分類子に提供し、そして、その結果としてのＢＦノード出力ｙ_Ｉ（ｐ）を計算する。そうすると、これらの出力および望ましい出力ｄ_ｊ（ｐ）を、ＦｘＦ相関行列ＲおよびＦｘＭ出力行列Ｂを決定するために用いることが出来る。各トレーニングパターンが、１つのＲ行列と１つのＢ行列とを生成することに留意すべきである。最終的なＲ行列およびＢ行列は、Ｎ個の個々のＲ行列およびＢ行列の和となる。ここで、Ｎは、トレーニングパターンの総数である。Ｎ個のパターン全てが、分類子に供給されると、出力重みｗ_ｉｊを、決定することができる。最終的な相関行列Ｒが、逆行列化されて、各ｗ_ｉｊを決定するために用いられる。
【００３１】
表１好適なＲＢＦ分類の詳細なアルゴリズム説明

【００３２】
トレーニングされた分類子に未知入力ベクトルＸ_ｔｅｓｔを供給し、その結果としてのＢＦノード出力ｙ_Ｉを計算することによって、分類が実行される。次に、それらの値が、出力値ｚ_ｊを計算するために、重みｗ_ｉｊとともに用いられる。次に、Ｘ_ｔｅｓｔが、最大のｚ_ｊ出力を持つ出力ノードｊに連係するクラスに属するとして分類される。
【００３３】
表２好適なＲＢＦ分類の詳細なアルゴリズム説明

【００３４】
本発明の方法においては、ＲＢＦ入力３００は、１次元ベクトルとしてネットワークにフィードされたｎ個のサイズが規格化されたグラジエント画像（ビデオ画像データ内に検出される移動オブジェクト）を有している。隠れ（監督されていない）層３１０は、ガウシアンクラスタノードの数およびその分散の両方が動的に設定される、拡張されたｋ−ｍｅａｎｓクラスタリング手続きを遂行する。クラスタの数は、トレーニング画像数の１／５倍からトレーニング画像の総数ｎまで５段階に変化する。各クラスタに対するガウシアンの幅は、最大値｛クラスタの中心と最も離れたメンバとの間の距離−クラス直径内では、クラスタの中心と他のクラスタ全ての中からの最も近いパターンとの間の距離｝に重なり因子ｏ（ここでは、２に等しい）を乗じた値までに設定される。この幅は、さらに、種々の比例定数ｈを用いて動的に精緻化される。隠れ層３１０は、同値な関数形状ベースをもたらし、各クラスタノードが、形状空間を横切って共通のいくつかの特質をエンコードする。出力（監督されている）層は、このような空間に沿う形状エンコーデング（‘広がり（ｅｘｐａｎｓｉｏｎｓ）’）を対応するＩＤクラスに写像し、疑逆行列技術を用いて対応する広がり（‘重み’）係数を見出す。クラスタの数は、同じトレーニング画像で試験したときにＩＤ分類に１００％の正確さを与えるこの構成（クラスタの数および特定の比例定数ｈ）に対し凍結されることに留意すべきである。
【００３５】
最後に、ステップ１１４において、特徴の各々に対する分類方法に基づいて、各移動オブジェクトに対する分類が導かれる。コネクショニスト・アーキテクチャが成功するためには、これは、画像習得処理に使用できる可変性に対処できるものでなければならない。上述の問題に対する解は、動径基底関数の集合（ＥＲＢＦ）を用いた合意によって同値の質問を遂行することであることが望ましい。この場合、各ＲＢＦネットワークが、個々の陪審員メンバとして行動し、そして、集団的にある決定に到達する。ネットワーク集合は、これらの特定のトポロジー（結合およびＲＢＦノード）やこれらがトレーニングされるデータで規定されることになる。一例として、図２は、相異なるグラジエント画像、即ち、合意見解２０８が形成されるｘグラジエント２０２、ｙグラジエント２０４、組合せｘ−ｙグラジエント２０６にトレーニングされた多重の分類子ＲＢＦ１，ＲＢＦ２，ＲＢＦ３を含む集合を示している。
【００３６】
未知画像２００が各分類子ＲＢＦ１，ＲＢＦ２，ＲＢＦ３に渡されると、それ（各分類子）は、望ましくは、２つの値を出力する。１つの値は、クラスラベル（その画像２００が対応するクラス、例えば、人間、動物、あるいは、オブジェクト）に対応し、他の値は、未知画像２００が、指示されているクラスに属する確率を指示する確率値である。
【００３７】
図２に示されるように、本発明の分類方法１００の望ましい遂行において、各々がｘグラジエント、ｙグラジエント、ｘｙグラジエントにトレーニングされた３つの分類子が使用される。したがって、３つの分類子ＲＢＦ１，ＲＢＦ２，ＲＢＦ３の各々は、未知画像２００がそれらに渡されたとき、３つのクラスラベルと３つの確率値とを与える。
【００３８】
抽出された特徴の各々に対するクラスラベルと確率値から、未知画像２００に対する最終的な分類を決定する多くの方法が存在するが、次の２つの方法が、その簡単さのために望ましい。
【００３９】
（１）全確率値の平均を取る。その平均が、ある閾値よりも大きければ、その画像２００は、指示されているクラスに属するものと決定する。
あるいは、
（２）分類子の過半数が、考慮中の未知画像２００に対して特定のクラスに賛成したら、その未知画像２００をそのクラスに属すると決定する票決スキームが、採用される。例えば、ＲＢＦ１が、画像２００はクラス１に属すると指示し、ＲＢＦ２が、画像２００はクラス２に属すると指示し、ＲＢＦ３が、画像２００はクラス１に属すると指示した場合、３つの分類子のうちの２つが賛成したので、クラス１は、画像２００に割り当てられる。
【００４０】
図４には、本発明の分類方法１００を実施するための装置の線図的な表現が、示されている。この装置全体は、参照数字４００で示されている。装置４００は、分類されシーン４０４のデジタル画像データを取り込むための少なくとも１つのビデオカメラ４０２を含有している。ビデオカメラ４０２は、シーン４０４のデジタル画像データを取り込むのが好ましいが、そうでなければ、この装置は、さらに、ビデオ画像データをデジタルフォーマットに変換するためのアナログ−デジタルコンバータ（図示せず）を有している。デジタルビデオ画像データは、その中の移動オブジェクトを検出するための検出システム４０６に入力される。検出システム４０６によって検出された如何なる移動オブジェクトも、その移動オブジェクトの画像データを解析（即ち、その画像データ内に検出された各移動オブジェクトから２つ以上の特徴を抽出）し、抽出された特徴の各々に対して分類解析を実行し、検出された移動オブジェクトの各々に対して合意見解を導出するために、パーソナルコンピュータのようなプロセッサ４０８に入力することが望ましい。
【００４１】
当業者には、本発明のオブジェクト分類方法が、セキュリティシステム、好ましくはホームセキュリティシステム、の分野に際立った有用性を有することが、容易に理解されるであろう。従来技術に係るセキュリティシステムは、警報をトリガするための電気−機械センサを使用している。このようなシステムに伴う問題は、多数の誤報が発生するということである。警報が発生したときには常に、信号が、通常、中央監視センタに送られる。そうすると、中央監視センタは、その警報が誤報であるかどうかを確認するために、その家または連絡用の電話番号に通話する。このような確認ができない場合には、中央監視センタは、通常、その警報を調べるために警察に連絡する。しばしば、相当数の警報が、誤報である。統計によると、発生した警報のおよそ９０％が誤報である。この問題を抑止するために、より新しいシステムは、誤報を減少させるように家の内部にカメラを設置している。これらのシステムでは、中央監視センタのオペレータが、目に見える画像を受け取るが、依然として、そのオブジェクトが鮮明でないこともあるという意味において、付加的な仕事が伴う。オペレータの負荷を軽減するための他の様式は、オブジェクトを分類し、分類されたオブジェクトの画像をオペレータに送ることである。したがって、そのオブジェクトがペットであると分類されると、オペレータは、家の中の誰か、あるいは、連絡用の人物に電話することなく、誤報を確認することができる。
【００４２】
本発明の分類方法１００は、とりわけ、好ましくは本方法の個々のステップに対応するモジュールを含有するコンピュータソフトウェアプログラムのようなコンピュータソフトウェアプログラムによって実行させるのに適している。このようなソフトウェアは、当然、集積チップや周辺デバイスのようなコンピュータ読み取り可能な媒体に収納させることができる。
【００４３】
本発明の好適な実施例であると考えられるものが示され、説明されているが、当然のことながら、構造的な、あるいは、細部に渡る種々な変形および変化が、本発明の精神を逸脱することなく容易になされ得るということは理解できるであろう。したがって、本発明は、説明され、また、図示されているものと正確に等しい形態に限定されることはなく、記されている請求の範囲内に収まる全ての変形に及ぶように構成されていると解釈しなければならない。
【図面の簡単な説明】
【図１】本発明の分類方法のステップを示すフローチャートを示す。
【図２】図１の分類方法によってビデオ画像中に検出された移動オブジェクト、および、その分類を示す。
【図３】図１の分類方法に用いられる動径基底関数ネットワークを示す。
【図４】図１の分類方法を遂行するための装置の線図的な概観を示す。
【符号の説明】
１００分類方法
２００入力画像
２０２ｙグラジエント
２０４ｘグラジエント
２０６ｘｙグラジエント
２０８合意見解
３００入力層
３１０第２の層
３２０出力層
４００分類装置
４０２カメラ
４０４シーン
４０６検出システム
４０８プロセッサ

Claims

ビデオ画像データ内のオブジェクトの分類のための方法であって、
前記画像データ内の移動オブジェクトを検出する検出ステップと、
前記画像データ内に検出された各移動オブジェクトから２つ以上の特徴を抽出する抽出ステップと、
１つの分類方法に従って前記２つ以上の特徴の各々に対して各移動オブジェクトを分類する分類ステップと、
前記２つ以上の特徴の各々に対して前記分類方法に基づく各移動オブジェクトに対する分類を導出する導出ステップと、を有する方法。
前記検出ステップが、前記画像データから背景シーンを取り去ることを有する請求項１に記載の方法。
前記検出された移動オブジェクトから意図されない移動オブジェクトを除去するフィルタリングステップを、さらに、有する請求項１に記載の方法。
前記フィルタリングステップが、検出された各移動オブジェクトの速度および縦横比に応じて、意図されない移動オブジェクトを除去することを有する請求項３に記載の方法。
前記抽出ステップが、前記検出された移動オブジェクトの各々からｘグラジエント特徴、ｙグラジエント特徴、組合せｘｙグラジエント特徴のうちの少なくとも２つを抽出することを有する請求項１に記載の方法。
ノイズの効果を軽減するために前記画像データを平滑化するステップと、その後、前記抽出ステップに先立って、前記画像データに微分演算子を作用させるステップとを、さらに、有する請求項５に記載の方法。
前記分類ステップが、前記２つ以上の特徴の各々に対して同一の分類方法を用いることを有する請求項１に記載の方法。
前記分類ステップが、前記２つ以上の特徴のうちの少なくとも２つに対して、少なくとも２つ以上の相異なる分類方法を用いることを有する請求項１に記載の方法。
前記検出された移動オブジェクトのうちの少なくとも１つをトレーニングし、また、分類するために、動径基底関数ネットワークを有する請求項１に記載の方法。
前記トレーニングステップが、
（ａ）前記動径基底関数ネットワークを初期化する初期化ステップであって、
− 基底関数の数Ｆを選出することによって前記ネットワーク構造を固定するステップであって、各基底関数Ｉがガウシアン非線形の出力を持っているステップと、
− Ｋ−ｍｅａｎｓクラスタリングアルゴリズムを用いて、前記基底関数の平均？ _Ｉ（ここで、Ｉ＝１， … ，Ｆ）を決定するステップと、
− 前記基底関数の分散？ _Ｉ ^２を決定するステップと、
− 実験探索によって前記基底関数の分散に対して、大域的な比例因子Ｈを決定するステップとを、
有する初期化ステップと、
（ｂ）前記トレーニングを供給する供給ステップであって、
− 前記分類方法に、トレーニングパターンＸ（ｐ）およびそれらのクラスラベルＣ（ｐ）（ここで、パターン因子：ｐ＝１， … ，Ｎ）を入力するステップと、
− パターンＸ（ｐ）に由来する前記基底関数ノードＦの出力ｙ_Ｉ（ｐ）を計算するステップと、
− 前記基底関数出力のＦｘＦ相関マトリクスＲを計算するステップと、
− ＦｘＭ出力マトリクスＢを計算するステップであって、ｄ_ｊが望ましい出力であり、Ｍが出力クラスの数であり、ｊ＝１， … ，Ｍであるステップとを、
有する供給ステップと、
（ｃ）重みを決定する決定ステップであって、
− ＦｘＦ相関マトリクスＲを逆行列化してＲ^−１を得るステップと、
− 前記ネットワーク内で前記重みを解くステップとを、有する決定ステップとを
有する請求項９に記載の方法。
前記分類ステップが、
前記分類方法に、前記検出された各移動オブジェクトに対する前記２つ以上の特徴Ｘ_ｔｅｓｔの各々を供給することと、
Ｆ個の全ての基底関数に対して、前記基底関数出力を計算し、
−出力ノード活性化を計算し、そして、
−最大値を持つ前記出力を選出することにより、Ｘ_ｔｅｓｔをクラスｊであると分類することによって、
各Ｘ_ｔｅｓｔを分類することとを、
有する請求項１０に記載の方法。
前記分類ステップが、前記検出された移動オブジェクトが対応するクラスを同定するクラスラベルと、未知パターンが前記２つ以上の特徴の各々に対するクラスに属する確率を指示する確率値と、を出力することを有する請求項１に記載の方法。
前記導出ステップが、前記検出された各移動オブジェクトに対する前記２つ以上の特徴に対する確率値を平均化することと、前記平均が一定の閾値よりも大きいか否かを決定することと、を有する請求項１２に記載の方法。
前記導出ステップが、同一のクラスに同定する過半数のクラスレベルが存在するか否かを決定することを有する請求項１２に記載の方法。
ビデオ画像データ内のオブジェクトの分類のための装置であって、
前記画像データ内の移動オブジェクトを検出する検出手段と、
前記画像データ内に検出された各移動オブジェクトから２つ以上の特徴を抽出する抽出手段と、
１つの分類方法に従って前記２つ以上の特徴の各々に対して各移動オブジェクトを分類する分類手段と、
前記２つ以上の特徴の各々に対する前記分類方法に基づく各移動オブジェクトに対する分類を導出する導出手段と、を有する装置。
前記検出された移動オブジェクトから意図されない移動オブジェクトを除去するフィルタリング手段を、さらに、有する請求項１５に記載の装置。
前記抽出ステップが、前記検出された移動オブジェクトの各々からｘグラジエント特徴、ｙグラジエント特徴、組合せｘｙグラジエント特徴のうちの少なくとも２つを抽出し、また、前記装置が
、さらに、ノイズの効果を軽減するために前記画像データを平滑化する手段と、前記抽出に先立って前記画像データに微分演算子を作用させる手段と、を有する請求項１５に記載の装置。
ビデオ画像データ内のオブジェクトを分類する方法のステップを実行するためのマシンによって実行可能なインストラクションのプログラムを実際に収容している、前記マシンによって読み取り可能なプログラム収納デバイスであって、前記方法が、
前記画像データ内の移動オブジェクトを検出する検出ステップと、
前記画像データ内に検出された各移動オブジェクトから２つ以上の特徴を抽出する抽出ステップと、
１つの分類方法に従って前記２つ以上の特徴の各々に対して各移動オブジェクトを分類する分類ステップと、
前記２つ以上の特徴の各々に対する前記分類方法に基づく各移動オブジェクトに対する分類を導出する導出ステップと、を有するプログラム収納デバイス。
ビデオ画像データ内のオブジェクトの分類のために、コンピュータ読み取り可能な媒体に収容されているコンピュータプログラム製品であって、
前記画像データ内の移動オブジェクトを検出するためのコンピュータ読み取り可能なプログラムコード手段と、
前記画像データ内に検出された各移動オブジェクトから２つ以上の特徴を抽出するためのコンピュータ読み取り可能なプログラムコード手段と、
１つの分類方法に従って前記２つ以上の特徴の各々に対して各移動オブジェクトを分類するためのコンピュータ読み取り可能なプログラムコード手段と、
前記２つ以上の特徴の各々に対する前記分類方法に基づく各移動オブジェクトに対する分類を導出するためのコンピュータ読み取り可能なプログラムコード手段と、を有するコンピュータプログラム製品。