JP2004523840A - モデル集合によるオブジェクトの分類 - Google Patents
モデル集合によるオブジェクトの分類 Download PDFInfo
- Publication number
- JP2004523840A JP2004523840A JP2002568309A JP2002568309A JP2004523840A JP 2004523840 A JP2004523840 A JP 2004523840A JP 2002568309 A JP2002568309 A JP 2002568309A JP 2002568309 A JP2002568309 A JP 2002568309A JP 2004523840 A JP2004523840 A JP 2004523840A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- image data
- moving object
- features
- classifying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】ビデオ画像データ内のオブジェクトの分類のための方法。前記画像データ内の移動オブジェクトを検出する検出ステップと、前記画像データ内に検出された各移動オブジェクトから2つ以上の特徴を抽出する抽出ステップと、1つの分類方法に従って前記2つ以上の特徴の各々に対して各移動オブジェクトを分類する分類ステップと、前記2つ以上の特徴の各々に対する前記分類方法に基づく各移動オブジェクトに対する分類を導出する導出ステップと、を有する方法。ビデオ画像データ内のオブジェクトの分類のための装置も、また、提供される。
【選択図】図1
Description
【発明の属する技術分野】
本発明は、一般的にはオブジェクトの分類に関し、とりわけ、いくつかの分類子(モデル)からの個々の見解に基づいて合意見解を導く、画像データ内のオブジェクトの分類に関する。
【0002】
【従来の技術】
どのパターン認識システムの設計においてもその究極の目標は、可能な限りの分類(予報)性能を達成することである。この目標は、伝統的に、特定のパターン認識問題の解決に、複数の異なる分類スキームを発展させてきた。そして、相異なる設計を実験に基づいて査定した結果が、この問題に対する最終的な解として分類子の中の1つを選択する(モデル選出)ための根拠となってきた。このような設計研究において、設計の内の1つは最も優れた性能を与えるが、異なる分類子によって分類が誤っているパターンの組が、必ずしも重複しないということが観察されてきている。
【0003】
【課題を解決するための手段】
このような従来技術を考慮すると、こうした観察を利用して可能な限りの分類性能を達成する、画像データ内でオブジェクトを分類する方法が必要となる。
【0004】
したがって、本発明の目的は、いくつかの分類子(モデル)からの個々の見解から、オブジェクト分類に関する合意見解を導く、画像データ内のオブジェクトの分類のための方法を提供することである。
【0005】
それゆえに、ビデオ画像データ内のオブジェクトを分類するための方法が提供される。本方法は、前記画像データ内の移動オブジェクトを検出する検出ステップと、前記画像データ内に検出された各移動オブジェクトから2つ以上の特徴を抽出する抽出ステップと、1つの分類方法に従って前記2つ以上の特徴の各々に対して各移動オブジェクトを分類する分類ステップと、前記2つ以上の特徴の各々に対する前記分類方法に基づく各移動オブジェクトに対する分類を導出する導出ステップと、を有する。
【0006】
本方法は、さらに、前記検出された移動オブジェクトから意図されない移動オブジェクトを除去するフィルタリングステップを有し、前記フィルタリングステップが、前記検出された各移動オブジェクトの検出された速度および縦横比に応じて、前記意図されない移動オブジェクトを除去することが望ましい。
【0007】
前記抽出ステップが、前記検出された移動オブジェクトの各々からxグラジエント特徴、yグラジエント特徴、組合せxyグラジエント特徴のうちの少なくとも2つを抽出することを有し、また、さらに、ノイズの効果を軽減するために前記画像データを平滑化するステップと、その後、前記抽出ステップに先立って前記画像データに微分演算子を作用させるステップと、を有することが、さらに望ましい。
【0008】
前記分類ステップは、前記2つ以上の特徴の各々に同一の分類方法を用いるか、あるいは、前記2つ以上の特徴のうちの少なくとも2つに少なくとも2つの相異なる分類方法を用いるか、のいずれかを有する。
【0009】
前記分類方法は、前記検出された移動オブジェクトのうちの少なくとも1つをトレーニングし、また、分類するために、動径基底関数ネットワークを有し、また、前記分類ステップは、前記検出された移動オブジェクトが対応するクラスを同定するクラスラベルと、未知パターンが前記2つ以上の特徴の各々に対するクラスに属する確率を指示する確率値と、を出力することを有することが望ましい。
【0010】
また、ビデオ画像データ内のオブジェクトの分類のための装置も、提供される。本装置は、前記画像データ内の移動オブジェクトを検出する検出手段と、前記画像データ内に検出された各移動オブジェクトから2つ以上の特徴を抽出する抽出手段と、1つの分類方法に従って前記2つ以上の特徴の各々に対して各移動オブジェクトを分類する分類手段と、前記2つ以上の特徴の各々に対する前記分類方法に基づく各移動オブジェクトに対する分類を導出する導出手段と、を有する。
【0011】
さらにまた、本発明の前記方法のステップを実行するためのマシンによって実行可能なインストラクションのプログラムを実際に収容している、前記マシンによって読み取り可能なプログラム収納デバイス、および、本発明の前記方法のステップを遂行するためのコンピュータ読み取り可能なプログラムコード手段を有する、ビデオ画像データ内のオブジェクトの分類のためにコンピュータによって読み取り可能な媒体に収容されている、コンピュータプログラム製品、が提供される。
【0012】
【発明の実施の形態】
本発明の装置および方法のこれらの、そして、他の特徴、観点および利点は、以下の説明、添付の請求項、および、添付図面を参照して、より良く理解されるであろう。
【0013】
本発明は、多数の、また、多種の型の分類モデルに適用可能であるが、とりわけ動径基底関数(RBF)分類子の環境に有用であることが判明している。したがって、本発明は、RBF分類子のような環境において説明される。しかしながら、本発明の適用可能性は、RBF分類子に限定されることはない。当業者にとって、任意の蓋然論的/確率論的な分類の方法が、本発明の範囲あるいは精神から逸脱することなく、開示されている方法に使用することが出来ることは容易に理解されるであろう。さらに、本明細書に記載されているRBFモデルに用いられている特徴は、画像データのグラジエントであるが、これは、一例としてのみ説明されているものであって、本発明の範囲を限定するものではない。当業者には、他の特徴も、他の型のグラジエントに加えてさらに使用することが出来ることは、容易に理解されるであろう。
【0014】
本発明の分類方法は、単一の決定制定スキームに頼らない。そうではなくて、全ての分類子(分類子は、ある特定のタスクに最も適合するものであるけれども、エキスパート的性能も発揮するので、エキスパートとも言われる)、あるいは、それらの部分集合が、それらの個々の見解の組み合わせによる決定制定のために用いられ、それによって、合意による決定が導出される。言い換えれば、相異なる手順あるいは相異なる特徴を持つ複数の分類子は、互いに相補的であることが判明している。したがって、相異なる複数の分類子の組み合わせは、エラーを劇的に減少させ、より高い性能を獲得するであろう。
【0015】
ここで、本発明の分類方法を、その分類方法が参照番号100で示されている図1のフローチャートに関して説明する。ステップ102において、ビデオ画像データが、分類方法100に入力される。ステップ104において、その画像データが、その中の任意の移動オブジェクトを検出するために、解析される。本発明の分類方法100には、ビデオ画像データ内の移動オブジェクトを検出するための既知の如何なる方法も、採用することが出来る。移動オブジェクトは、Elgammal他, “Non−parametric Model for Background Subtraction” European Conference on Computer Vision (ECCV) 2000, Dublin, Ireland, June 2000によって開示されているような背景抜去スキームを採用することによって、ビデオ画像データ内に検出させることが望ましい。しかしながら、背景抜去は、一例として与えられているだけであって、本発明の範囲あるいは精神を限定するものではない。当業者にとって、セグメントオブジェクトに対して慣習的に用いられる色情報を利用する方法のような、ビデオ画像データ内の移動オブジェクトを検出するための既知の、あるいは、今後発展する任意の他の方法が、本発明の方法に採用され得ることは、容易に理解されるであろう。そのような方法の一例が、Proceedings of the 3rd Asian Conference on Computer Vision, Vol. I, pp. 607−614, Hong Kong, China, January 1998内のRaja他による”Segmentation and Tracking Using Colour Mixture Models”に開示されている。
【0016】
ステップ106において、意図されない移動オブジェクトは、検出された移動オブジェクトから取除くことが望ましい。例えば、分類方法の目的が、移動オブジェクトを人間か動物のいずれかとに分類することであった場合、椅子のような、ビデオ画像データ内の他の移動オブジェクトの分類は、不必要であり、分類解析を劣化さえさせる場合がある。したがって、検出された移動オブジェクトの速度および縦横比を見ることによって、このような意図されない移動オブジェクトは取除くことが好ましい。
【0017】
ステップ110において、2つ以上の特徴が、ビデオ画像データ内に検出された各移動オブジェクトから抽出される。このような特徴は、検出された移動オブジェクトの各々において、xグラジエント特徴、yグラジエント特徴、組合せxyグラジエント特徴のうちの少なくとも2つを含んでいてもよい。xグラジエント特徴、yグラジエント特徴、組合せxyグラジエント特徴の3つ全てを、検出された移動オブジェクトの各々から抽出することが望ましい。図2は、ビデオ画像データ内に検出された移動オブジェクト(歩行中の女性)の入力画像200を示している。図202, 204, 206は、各々、入力画像200のxグラジエント、yグラジエント、組合せx−yグラジエントを示している。グラジエントは、関数の変化の大きさで、画像は、画像強度のある連続関数のサンプルのアレイであると考えることが出来る。
【0018】
分類方法は,種々のポーズおよび照明条件の下でオブジェクトを分類できなければならないので、同じクラスの複数のインスタンスは、互いに非常に異なって見え場合がある(例えば、異なる衣装を着ている人々)という事実を所与のものとすれば、あるオブジェクトクラスのインスタンスが占める全空間をモデル化することが不可能ではないということは、重要であろう。これに代えて、望ましいことは、それらの相異なる筋書きの下でもあまり変化しない特徴を同定し、モデル化することである。グラジエントは、形状情報をとらえるのみでオブジェクト空間の規模を劇的に減少させるので、そのような特徴の1つである。
【0019】
xグラジエント特徴、yグラジエント特徴、組合せxyグラジエント特徴が望ましいけれども、オブジェクトによって行われる動作の型のように、既知の、あるいは、今後発展される画像データの他の特徴が、本発明の分類方法100に採用され得ることは、当業者には、容易に理解されるであろう。例えば、動物(例えば、犬や猫)が行う動作の型は、人間が行うそれとは異なる。さらに、人間と動物の分類に用いることが出来る他の特徴には、顔領域の探索あるいは皮膚検出のように、外見に基づく特徴も含まれる。
【0020】
代って、図1に戻ると、ステップ108において、入力画像データを、最初に、ノイズの効果を軽減するために平滑化し、その後、微分演算子(水平/垂直/組合せ)を、画像全体に適用する。ステップ108の両方の演算を同時に実行するソーベル演算子を使用することが望ましい。
【0021】
ステップ112において、特定の分類方法が、検出された各移動オブジェクトに対して抽出された特徴の各々に適用される。上述したように、同一の、あるいは、相異なる分類方法を、検出された各移動オブジェクトから抽出された特徴の各々に対して使用することが出来る。この分類方法は、検出された移動オブジェクトの少なくとも1つをトレーニングし、分類するため、動径基底関数(RBF)を有することが望ましい。さらに、分類のためにRBF分類子が、xグラジエント画像、yグラジエント画像、組合せxyグラジエント画像の各々を使用することが、望ましい。
【0022】
ここで、RBF分類子について図3を参照しながら説明する。RBFネットワークの構成は、3つの異なる層、入力層300、第2の層310、出力層320、を有している。入力層310は、ソースノード(感覚ユニット)(k)から成る。第2の層310は、データをクラスタ化し、その広さ(dimensionality)を縮小させることを目標にする隠れ層である。出力層320は、入力層300に印加された特徴パターンに対するRBFネットワークの応答を供給する。入力空間300から隠れユニット空間310への変換は、非線形で、一方、隠れユニット空間310から出力空間320への変換は、線形である。
【0023】
とりわけ、RBF分類子は、2通りに考察することが出来る。1つは、入力ベクトルを高次元空間に展開する一連の核関数としてRBF分類子を解釈するものである。これは、高次元空間に投げ込まれた分類問題の方が、低次元空間内のそれよりも線形分離しやすいという数学的な事実を活用しようとするものである。もう1つの視点は、基底関数 (BF)の線形結合を行なうことによって、超曲面(各クラスに対して1つ)を構築しようとする関数写像補間法としてRBF分類子を解釈するものである。これらの超曲面は、判別関数と捉えられることができる。この曲面は、それが表現しているクラスに対しては高い値を持ち、他の全てに対しては低い値を持つ。未知入力ベクトルは、その点において最大出力を持つ超曲面に連係するクラスに属するものとして分類される。この場合、BFは、高次元空間の基底として働かず、成分係数(即ち、重み)がトレーニングされなければならない望ましい超曲面の有限の広がり内の成分として働く。
【0024】
RBF分類子は、図3に示されるように伝統的な三層誤差逆伝搬ネットワークのアーキテクチャに良く似たアーキテクチャを持っている。入力300と中間層310との結合は、単位重みを持っており、その結果、トレーニングの必要は無い。中間層310内のノードは、BFノード(i)と呼ばれ、ある特定の平均ベクトルμiと分散(平方偏差)ベクトルσi 2によって条件指定されるガウシアンパルスの非線形を持つ。ここで、i = 1, … , Fであり、Fは、BFノード(i)の数である。σi 2は、ガウシアンパルス(i)の共分散行列の対角エントリを表わすことに留意すべきである。D次元の入力ベクトルXが与えられると、各BFノード(i)は、その入力によってもたらされるBFの活性化を反映して、以下のスカラー値を出力する。
ここで、hは、分散の比例定数であり、xkは、入力ベクトルX = [x1, x2, … , xD]のk番目の成分であり、μikとσik 2とは、各々、基底ノード(i)の平均ベクトルと分散ベクトルとのk番目の成分である。ガウシアンBFの中心に近い入力は、相対的に高い活性化となり、一方、ガウシアンBFの中心から遠い入力は、相対的に低い活性化となる。RBFネットワークの各出力ノード(j)は、BFノード活性化の線形結合を形成するから、中間層と出力層とを結合するネットワークは、次のように線形である。
ここで、zjは、j番目の出力ノードの出力であり、yiは、i番目のBFノードの活性化であり、wijは、i番目のBFノードをj番目の出力ノードに結合させる重みであり、wojは、j番目の出力ノードのバイアスすなわち閾値である。このバイアスは、入力に関係なく一定の単位出力を持つBFノードに連係する重みに由来する。
【0025】
未知ベクトルXは、最大出力zjを持つ出力ノードjに連係するクラスに属するものに分類される。線形ネットワーク内の重みwijは、勾配降下のような反復最小化法を用いて解くことはできない。これらは、擬逆行列技術を用いて、迅速かつ厳密に決定することができる。
【0026】
好適に用いられるRBF分類子の詳細なアルゴリズムの説明が、以下の表1, 2に示されている。まず、RBFネットワークのサイズが、BFの数Fを選出することによって決定される。Fの適正な値は、問題特有のものであり、通常、問題の広さと形成される決定領域の複雑さとに依存する。一般に、Fは、種々のFを試してみることによって実験的に決定することができるし、あるいは、その問題の入力次元よりも通常大きい、ある定数に設定することができる。
【0027】
Fを設定した後、BFの平均ベクトルμlと分散ベクトルσl 2とを、種々の方法を用いて決定することができる。これらは、誤差逆伝搬勾配降下技術を用いて出力重みとともにトレーニングすることが出来るが、これは、通常、長いトレーニング時間を必要とし、また、最適状態に及ばない局所最小に導くこともある。あるいはまた、平均ベクトルと分散ベクトルとは、出力重みをトレーニングする前に決定することもできる。この場合には、ネットワークのトレーニングには、重みを決定することしか含まれない。
【0028】
BF中心および分散は、標準的には、関係している空間を満たすように選ばれる。種々の技術、例えば、入力空間をサンプルする等間隔のBFの格子や、BF中心のセットを決定する、即ち、各クラスが表わされていることを確保しながら、BF中心としてトレーニングセットからランダムベクトルを決定するK−meansのようなクラスタリングアルゴリズム、を用いることが出来る。
【0029】
BF中心即ち平均が決定されると、BF分散即ち幅? i 2を、設定することができる。これらは、ある大域的な値に固定することができる、即ち、BF中心の近傍内のデータベクトル密度を反映するように設定することができる。さらに、分散に対する大域的な比例因数Hには、BF幅の拡大・縮小のし直しを考慮することも含まれている。良好な性能に帰着するようにHの広がりを探すことによって,その適切な値が決定される。
【0030】
BFパラメータが設定されると、次のステップは、出力重みをトレーニングすることである。個々のトレーニングパターンX(p)とそれらのクラスラベルC(p)とを、分類子に提供し、そして、その結果としてのBFノード出力yI(p)を計算する。そうすると、これらの出力および望ましい出力dj(p)を、F x F相関行列RおよびF x M出力行列Bを決定するために用いることが出来る。各トレーニングパターンが、1つのR行列と1つのB行列とを生成することに留意すべきである。最終的なR行列およびB行列は、N個の個々のR行列およびB行列の和となる。ここで、Nは、トレーニングパターンの総数である。N個のパターン全てが、分類子に供給されると、出力重みwijを、決定することができる。最終的な相関行列Rが、逆行列化されて、各wijを決定するために用いられる。
【0031】
表1 好適なRBF分類の詳細なアルゴリズム説明
【0032】
トレーニングされた分類子に未知入力ベクトルXtestを供給し、その結果としてのBFノード出力yIを計算することによって、分類が実行される。次に、それらの値が、出力値zjを計算するために、重みwijとともに用いられる。次に、Xtestが、最大のzj出力を持つ出力ノードjに連係するクラスに属するとして分類される。
【0033】
表2 好適なRBF分類の詳細なアルゴリズム説明
【0034】
本発明の方法においては、RBF入力300は、1次元ベクトルとしてネットワークにフィードされたn個のサイズが規格化されたグラジエント画像(ビデオ画像データ内に検出される移動オブジェクト)を有している。隠れ(監督されていない)層310は、ガウシアンクラスタノードの数およびその分散の両方が動的に設定される、拡張されたk−meansクラスタリング手続きを遂行する。クラスタの数は、トレーニング画像数の1/5倍からトレーニング画像の総数nまで5段階に変化する。各クラスタに対するガウシアンの幅は、最大値{クラスタの中心と最も離れたメンバとの間の距離−クラス直径内では、クラスタの中心と他のクラスタ全ての中からの最も近いパターンとの間の距離}に重なり因子o(ここでは、2に等しい)を乗じた値までに設定される。この幅は、さらに、種々の比例定数hを用いて動的に精緻化される。隠れ層310は、同値な関数形状ベースをもたらし、各クラスタノードが、形状空間を横切って共通のいくつかの特質をエンコードする。出力(監督されている)層は、このような空間に沿う形状エンコーデング(‘広がり(expansions)’)を対応するIDクラスに写像し、疑逆行列技術を用いて対応する広がり(‘重み’)係数を見出す。クラスタの数は、同じトレーニング画像で試験したときにID分類に100%の正確さを与えるこの構成(クラスタの数および特定の比例定数h)に対し凍結されることに留意すべきである。
【0035】
最後に、ステップ114において、特徴の各々に対する分類方法に基づいて、各移動オブジェクトに対する分類が導かれる。コネクショニスト・アーキテクチャが成功するためには、これは、画像習得処理に使用できる可変性に対処できるものでなければならない。上述の問題に対する解は、動径基底関数の集合(ERBF)を用いた合意によって同値の質問を遂行することであることが望ましい。この場合、各RBFネットワークが、個々の陪審員メンバとして行動し、そして、集団的にある決定に到達する。ネットワーク集合は、これらの特定のトポロジー(結合およびRBFノード)やこれらがトレーニングされるデータで規定されることになる。一例として、図2は、相異なるグラジエント画像、即ち、合意見解208が形成されるxグラジエント202、yグラジエント204、組合せx−yグラジエント206にトレーニングされた多重の分類子RBF1, RBF2, RBF3を含む集合を示している。
【0036】
未知画像200が各分類子RBF1, RBF2, RBF3に渡されると、それ(各分類子)は、望ましくは、2つの値を出力する。1つの値は、クラスラベル(その画像200が対応するクラス、例えば、人間、動物、あるいは、オブジェクト)に対応し、他の値は、未知画像200が、指示されているクラスに属する確率を指示する確率値である。
【0037】
図2に示されるように、本発明の分類方法100の望ましい遂行において、各々がxグラジエント、yグラジエント、xyグラジエントにトレーニングされた3つの分類子が使用される。したがって、3つの分類子RBF1, RBF2, RBF3の各々は、未知画像200がそれらに渡されたとき、3つのクラスラベルと3つの確率値とを与える。
【0038】
抽出された特徴の各々に対するクラスラベルと確率値から、未知画像200に対する最終的な分類を決定する多くの方法が存在するが、次の2つの方法が、その簡単さのために望ましい。
【0039】
(1)全確率値の平均を取る。その平均が、ある閾値よりも大きければ、その画像200は、指示されているクラスに属するものと決定する。
あるいは、
(2)分類子の過半数が、考慮中の未知画像200に対して特定のクラスに賛成したら、その未知画像200をそのクラスに属すると決定する票決スキームが、採用される。例えば、RBF1が、画像200はクラス1に属すると指示し、RBF2が、画像200はクラス2に属すると指示し、RBF3が、画像200はクラス1に属すると指示した場合、3つの分類子のうちの2つが賛成したので、クラス1は、画像200に割り当てられる。
【0040】
図4には、本発明の分類方法100を実施するための装置の線図的な表現が、示されている。この装置全体は、参照数字400で示されている。装置400は、分類されシーン404のデジタル画像データを取り込むための少なくとも1つのビデオカメラ402を含有している。ビデオカメラ402は、シーン404のデジタル画像データを取り込むのが好ましいが、そうでなければ、この装置は、さらに、ビデオ画像データをデジタルフォーマットに変換するためのアナログ−デジタルコンバータ(図示せず)を有している。デジタルビデオ画像データは、その中の移動オブジェクトを検出するための検出システム406に入力される。検出システム406によって検出された如何なる移動オブジェクトも、その移動オブジェクトの画像データを解析(即ち、その画像データ内に検出された各移動オブジェクトから2つ以上の特徴を抽出)し、抽出された特徴の各々に対して分類解析を実行し、検出された移動オブジェクトの各々に対して合意見解を導出するために、パーソナルコンピュータのようなプロセッサ408に入力することが望ましい。
【0041】
当業者には、本発明のオブジェクト分類方法が、セキュリティシステム、好ましくはホームセキュリティシステム、の分野に際立った有用性を有することが、容易に理解されるであろう。従来技術に係るセキュリティシステムは、警報をトリガするための電気−機械センサを使用している。このようなシステムに伴う問題は、多数の誤報が発生するということである。警報が発生したときには常に、信号が、通常、中央監視センタに送られる。そうすると、中央監視センタは、その警報が誤報であるかどうかを確認するために、その家または連絡用の電話番号に通話する。このような確認ができない場合には、中央監視センタは、通常、その警報を調べるために警察に連絡する。しばしば、相当数の警報が、誤報である。統計によると、発生した警報のおよそ90%が誤報である。この問題を抑止するために、より新しいシステムは、誤報を減少させるように家の内部にカメラを設置している。これらのシステムでは、中央監視センタのオペレータが、目に見える画像を受け取るが、依然として、そのオブジェクトが鮮明でないこともあるという意味において、付加的な仕事が伴う。オペレータの負荷を軽減するための他の様式は、オブジェクトを分類し、分類されたオブジェクトの画像をオペレータに送ることである。したがって、そのオブジェクトがペットであると分類されると、オペレータは、家の中の誰か、あるいは、連絡用の人物に電話することなく、誤報を確認することができる。
【0042】
本発明の分類方法100は、とりわけ、好ましくは本方法の個々のステップに対応するモジュールを含有するコンピュータソフトウェアプログラムのようなコンピュータソフトウェアプログラムによって実行させるのに適している。このようなソフトウェアは、当然、集積チップや周辺デバイスのようなコンピュータ読み取り可能な媒体に収納させることができる。
【0043】
本発明の好適な実施例であると考えられるものが示され、説明されているが、当然のことながら、構造的な、あるいは、細部に渡る種々な変形および変化が、本発明の精神を逸脱することなく容易になされ得るということは理解できるであろう。したがって、本発明は、説明され、また、図示されているものと正確に等しい形態に限定されることはなく、記されている請求の範囲内に収まる全ての変形に及ぶように構成されていると解釈しなければならない。
【図面の簡単な説明】
【図1】本発明の分類方法のステップを示すフローチャートを示す。
【図2】図1の分類方法によってビデオ画像中に検出された移動オブジェクト、および、その分類を示す。
【図3】図1の分類方法に用いられる動径基底関数ネットワークを示す。
【図4】図1の分類方法を遂行するための装置の線図的な概観を示す。
【符号の説明】
100 分類方法
200 入力画像
202 yグラジエント
204 xグラジエント
206 xyグラジエント
208 合意見解
300 入力層
310 第2の層
320 出力層
400 分類装置
402 カメラ
404 シーン
406 検出システム
408 プロセッサ
Claims (19)
- ビデオ画像データ内のオブジェクトの分類のための方法であって、
前記画像データ内の移動オブジェクトを検出する検出ステップと、
前記画像データ内に検出された各移動オブジェクトから2つ以上の特徴を抽出する抽出ステップと、
1つの分類方法に従って前記2つ以上の特徴の各々に対して各移動オブジェクトを分類する分類ステップと、
前記2つ以上の特徴の各々に対して前記分類方法に基づく各移動オブジェクトに対する分類を導出する導出ステップと、を有する方法。 - 前記検出ステップが、前記画像データから背景シーンを取り去ることを有する請求項1に記載の方法。
- 前記検出された移動オブジェクトから意図されない移動オブジェクトを除去するフィルタリングステップを、さらに、有する請求項1に記載の方法。
- 前記フィルタリングステップが、検出された各移動オブジェクトの速度および縦横比に応じて、意図されない移動オブジェクトを除去することを有する請求項3に記載の方法。
- 前記抽出ステップが、前記検出された移動オブジェクトの各々からxグラジエント特徴、yグラジエント特徴、組合せxyグラジエント特徴のうちの少なくとも2つを抽出することを有する請求項1に記載の方法。
- ノイズの効果を軽減するために前記画像データを平滑化するステップと、その後、前記抽出ステップに先立って、前記画像データに微分演算子を作用させるステップとを、さらに、有する請求項5に記載の方法。
- 前記分類ステップが、前記2つ以上の特徴の各々に対して同一の分類方法を用いることを有する請求項1に記載の方法。
- 前記分類ステップが、前記2つ以上の特徴のうちの少なくとも2つに対して、少なくとも2つ以上の相異なる分類方法を用いることを有する請求項1に記載の方法。
- 前記検出された移動オブジェクトのうちの少なくとも1つをトレーニングし、また、分類するために、動径基底関数ネットワークを有する請求項1に記載の方法。
- 前記トレーニングステップが、
(a)前記動径基底関数ネットワークを初期化する初期化ステップであって、
− 基底関数の数Fを選出することによって前記ネットワーク構造を固定するステップであって、各基底関数Iがガウシアン非線形の出力を持っているステップと、
− K−meansクラスタリングアルゴリズムを用いて、前記基底関数の平均? I (ここで、I = 1, … , F)を決定するステップと、
− 前記基底関数の分散? I 2を決定するステップと、
− 実験探索によって前記基底関数の分散に対して、大域的な比例因子Hを決定するステップとを、
有する初期化ステップと、
(b)前記トレーニングを供給する供給ステップであって、
− 前記分類方法に、トレーニングパターンX(p)およびそれらのクラスラベルC(p)(ここで、パターン因子:p = 1, … , N)を入力するステップと、
− パターンX(p)に由来する前記基底関数ノードFの出力yI(p)を計算するステップと、
− 前記基底関数出力のF x F相関マトリクスRを計算するステップと、
− F x M出力マトリクスBを計算するステップであって、djが望ましい出力であり、Mが出力クラスの数であり、j = 1, … , Mであるステップとを、
有する供給ステップと、
(c)重みを決定する決定ステップであって、
− F x F相関マトリクスRを逆行列化してR−1を得るステップと、
− 前記ネットワーク内で前記重みを解くステップとを、有する決定ステップとを
有する請求項9に記載の方法。 - 前記分類ステップが、
前記分類方法に、前記検出された各移動オブジェクトに対する前記2つ以上の特徴Xtestの各々を供給することと、
F個の全ての基底関数に対して、前記基底関数出力を計算し、
−出力ノード活性化を計算し、そして、
−最大値を持つ前記出力を選出することにより、Xtestをクラスjであると分類することによって、
各Xtestを分類することとを、
有する請求項10に記載の方法。 - 前記分類ステップが、前記検出された移動オブジェクトが対応するクラスを同定するクラスラベルと、未知パターンが前記2つ以上の特徴の各々に対するクラスに属する確率を指示する確率値と、を出力することを有する請求項1に記載の方法。
- 前記導出ステップが、前記検出された各移動オブジェクトに対する前記2つ以上の特徴に対する確率値を平均化することと、前記平均が一定の閾値よりも大きいか否かを決定することと、を有する請求項12に記載の方法。
- 前記導出ステップが、同一のクラスに同定する過半数のクラスレベルが存在するか否かを決定することを有する請求項12に記載の方法。
- ビデオ画像データ内のオブジェクトの分類のための装置であって、
前記画像データ内の移動オブジェクトを検出する検出手段と、
前記画像データ内に検出された各移動オブジェクトから2つ以上の特徴を抽出する抽出手段と、
1つの分類方法に従って前記2つ以上の特徴の各々に対して各移動オブジェクトを分類する分類手段と、
前記2つ以上の特徴の各々に対する前記分類方法に基づく各移動オブジェクトに対する分類を導出する導出手段と、を有する装置。 - 前記検出された移動オブジェクトから意図されない移動オブジェクトを除去するフィルタリング手段を、さらに、有する請求項15に記載の装置。
- 前記抽出ステップが、前記検出された移動オブジェクトの各々からxグラジエント特徴、yグラジエント特徴、組合せxyグラジエント特徴のうちの少なくとも2つを抽出し、また、前記装置が
、さらに、ノイズの効果を軽減するために前記画像データを平滑化する手段と、前記抽出に先立って前記画像データに微分演算子を作用させる手段と、を有する請求項15に記載の装置。 - ビデオ画像データ内のオブジェクトを分類する方法のステップを実行するためのマシンによって実行可能なインストラクションのプログラムを実際に収容している、前記マシンによって読み取り可能なプログラム収納デバイスであって、前記方法が、
前記画像データ内の移動オブジェクトを検出する検出ステップと、
前記画像データ内に検出された各移動オブジェクトから2つ以上の特徴を抽出する抽出ステップと、
1つの分類方法に従って前記2つ以上の特徴の各々に対して各移動オブジェクトを分類する分類ステップと、
前記2つ以上の特徴の各々に対する前記分類方法に基づく各移動オブジェクトに対する分類を導出する導出ステップと、を有するプログラム収納デバイス。 - ビデオ画像データ内のオブジェクトの分類のために、コンピュータ読み取り可能な媒体に収容されているコンピュータプログラム製品であって、
前記画像データ内の移動オブジェクトを検出するためのコンピュータ読み取り可能なプログラムコード手段と、
前記画像データ内に検出された各移動オブジェクトから2つ以上の特徴を抽出するためのコンピュータ読み取り可能なプログラムコード手段と、
1つの分類方法に従って前記2つ以上の特徴の各々に対して各移動オブジェクトを分類するためのコンピュータ読み取り可能なプログラムコード手段と、
前記2つ以上の特徴の各々に対する前記分類方法に基づく各移動オブジェクトに対する分類を導出するためのコンピュータ読み取り可能なプログラムコード手段と、を有するコンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/794,443 US6778705B2 (en) | 2001-02-27 | 2001-02-27 | Classification of objects through model ensembles |
PCT/IB2002/000425 WO2002069267A2 (en) | 2001-02-27 | 2002-02-13 | Classification of objects through model ensembles |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004523840A true JP2004523840A (ja) | 2004-08-05 |
JP2004523840A5 JP2004523840A5 (ja) | 2005-12-22 |
Family
ID=25162631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002568309A Pending JP2004523840A (ja) | 2001-02-27 | 2002-02-13 | モデル集合によるオブジェクトの分類 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6778705B2 (ja) |
EP (1) | EP1421557A2 (ja) |
JP (1) | JP2004523840A (ja) |
KR (1) | KR20020093092A (ja) |
CN (1) | CN1561503A (ja) |
WO (1) | WO2002069267A2 (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7043075B2 (en) * | 2001-09-27 | 2006-05-09 | Koninklijke Philips Electronics N.V. | Computer vision system and method employing hierarchical object classification scheme |
US7308133B2 (en) * | 2001-09-28 | 2007-12-11 | Koninklijke Philips Elecyronics N.V. | System and method of face recognition using proportions of learned model |
US20030063781A1 (en) * | 2001-09-28 | 2003-04-03 | Koninklijke Philips Electronics N.V. | Face recognition from a temporal sequence of face images |
US7020336B2 (en) * | 2001-11-13 | 2006-03-28 | Koninklijke Philips Electronics N.V. | Identification and evaluation of audience exposure to logos in a broadcast event |
JP2003228706A (ja) * | 2002-02-05 | 2003-08-15 | Fuji Xerox Co Ltd | データ分類装置 |
JP2003256443A (ja) * | 2002-03-05 | 2003-09-12 | Fuji Xerox Co Ltd | データ分類装置 |
US7181062B2 (en) * | 2002-08-30 | 2007-02-20 | Lockheed Martin Corporation | Modular classification architecture for a pattern recognition application |
US7801361B2 (en) * | 2002-10-15 | 2010-09-21 | Definiens Ag | Analyzing pixel data using image, thematic and object layers of a computer-implemented network structure |
US8594410B2 (en) * | 2006-08-28 | 2013-11-26 | Definiens Ag | Context driven image mining to generate image-based biomarkers |
US7873223B2 (en) * | 2002-10-15 | 2011-01-18 | Definiens Ag | Cognition integrator and language |
EP1573658A1 (en) * | 2002-12-13 | 2005-09-14 | Koninklijke Philips Electronics N.V. | Expression invariant face recognition |
US7212651B2 (en) * | 2003-06-17 | 2007-05-01 | Mitsubishi Electric Research Laboratories, Inc. | Detecting pedestrians using patterns of motion and appearance in videos |
ITMI20031449A1 (it) * | 2003-07-15 | 2005-01-16 | St Microelectronics Srl | Metodo per classificare una immagine digitale |
US20050058350A1 (en) * | 2003-09-15 | 2005-03-17 | Lockheed Martin Corporation | System and method for object identification |
US7599530B2 (en) * | 2003-10-01 | 2009-10-06 | Authentec, Inc. | Methods for matching ridge orientation characteristic maps and associated finger biometric sensor |
US8200477B2 (en) * | 2003-10-22 | 2012-06-12 | International Business Machines Corporation | Method and system for extracting opinions from text documents |
US7710452B1 (en) | 2005-03-16 | 2010-05-04 | Eric Lindberg | Remote video monitoring of non-urban outdoor sites |
ITBG20050013A1 (it) * | 2005-03-24 | 2006-09-25 | Celin Technology Innovation Srl | Metodo per il riconoscimento tra un primo oggetto ed un secondo oggetto rappresentati da immagini. |
US20070058836A1 (en) * | 2005-09-15 | 2007-03-15 | Honeywell International Inc. | Object classification in video data |
WO2007051118A2 (en) | 2005-10-25 | 2007-05-03 | Nxstage Medical, Inc | Safety features for medical devices requiring assistance and supervision |
US7728839B2 (en) * | 2005-10-28 | 2010-06-01 | Honda Motor Co., Ltd. | Discriminative motion modeling for human motion tracking |
US20070160123A1 (en) * | 2006-01-11 | 2007-07-12 | Gillespie Richard P | System for isolating an object in a broadcast signal |
US20080123959A1 (en) * | 2006-06-26 | 2008-05-29 | Ratner Edward R | Computer-implemented method for automated object recognition and classification in scenes using segment-based object extraction |
US20080112593A1 (en) * | 2006-11-03 | 2008-05-15 | Ratner Edward R | Automated method and apparatus for robust image object recognition and/or classification using multiple temporal views |
US8195734B1 (en) | 2006-11-27 | 2012-06-05 | The Research Foundation Of State University Of New York | Combining multiple clusterings by soft correspondence |
US8989468B2 (en) * | 2007-05-25 | 2015-03-24 | Definiens Ag | Generating an anatomical model using a rule-based segmentation and classification process |
CN101079109B (zh) * | 2007-06-26 | 2011-11-30 | 北京中星微电子有限公司 | 基于制服特征的身份识别方法和系统 |
US8542872B2 (en) | 2007-07-03 | 2013-09-24 | Pivotal Vision, Llc | Motion-validating remote monitoring system |
US8718363B2 (en) * | 2008-01-16 | 2014-05-06 | The Charles Stark Draper Laboratory, Inc. | Systems and methods for analyzing image data using adaptive neighborhooding |
US8737703B2 (en) * | 2008-01-16 | 2014-05-27 | The Charles Stark Draper Laboratory, Inc. | Systems and methods for detecting retinal abnormalities |
US8150169B2 (en) * | 2008-09-16 | 2012-04-03 | Viewdle Inc. | System and method for object clustering and identification in video |
DE102008043954A1 (de) * | 2008-11-21 | 2010-05-27 | Robert Bosch Gmbh | Sensornetzwerksystem, Übertragunsprotokoll, Verfahren zum Wiedererkennen eines Objekts sowie Computerprogramm |
KR101268520B1 (ko) * | 2009-12-14 | 2013-06-04 | 한국전자통신연구원 | 영상 인식 장치 및 방법 |
CN101908153B (zh) * | 2010-08-21 | 2012-11-21 | 上海交通大学 | 低分辨率图像处理中的头部姿态估计的方法 |
KR101425170B1 (ko) * | 2010-11-16 | 2014-08-04 | 한국전자통신연구원 | 영상 촬영 장치의 객체 추적 장치 및 방법과 보안 관리 시스템의 객체 추적 장치 |
CN103108151A (zh) * | 2011-11-09 | 2013-05-15 | 华为技术有限公司 | 视频监控的方法和系统 |
CN102521565B (zh) * | 2011-11-23 | 2014-02-26 | 浙江晨鹰科技有限公司 | 低分辨率视频的服装识别方法及系统 |
US8917934B2 (en) * | 2012-06-14 | 2014-12-23 | International Business Machines Corporation | Multi-cue object detection and analysis |
KR20150031985A (ko) * | 2013-09-17 | 2015-03-25 | 한국전자통신연구원 | 모바일 기기와 협력하여 위험 상황을 추적하기 위한 시스템 및 그 방법 |
CN104217216B (zh) * | 2014-09-01 | 2017-10-17 | 华为技术有限公司 | 生成检测模型的方法和设备、用于检测目标的方法和设备 |
CN104361363B (zh) * | 2014-11-25 | 2018-01-16 | 中国科学院自动化研究所 | 深度反卷积特征学习网络、生成方法及图像分类方法 |
US10332028B2 (en) * | 2015-08-25 | 2019-06-25 | Qualcomm Incorporated | Method for improving performance of a trained machine learning model |
CN106650806B (zh) * | 2016-12-16 | 2019-07-26 | 北京大学深圳研究生院 | 一种用于行人检测的协同式深度网络模型方法 |
CN107085704A (zh) * | 2017-03-27 | 2017-08-22 | 杭州电子科技大学 | 基于elm自编码算法的快速人脸表情识别方法 |
CN108178037A (zh) * | 2017-12-30 | 2018-06-19 | 武汉大学 | 一种基于卷积神经网络的电梯故障识别方法 |
CN110276411B (zh) * | 2019-06-28 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、设备、存储介质和医疗电子设备 |
CN111784709B (zh) * | 2020-07-07 | 2023-02-17 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、电子设备和计算机可读介质 |
CN111625672B (zh) * | 2020-07-30 | 2020-10-30 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2953712B2 (ja) * | 1989-09-27 | 1999-09-27 | 株式会社東芝 | 移動物体検知装置 |
GB2266638B (en) * | 1992-04-01 | 1996-09-25 | Kenneth Stanley Jones | Multiple visual display from motion classifications for digital TV |
KR100213015B1 (ko) * | 1994-03-31 | 1999-08-02 | 윤종용 | 양자화 방법 및 회로 |
JP3569992B2 (ja) * | 1995-02-17 | 2004-09-29 | 株式会社日立製作所 | 移動体検出・抽出装置、移動体検出・抽出方法及び移動体監視システム |
US5854856A (en) * | 1995-07-19 | 1998-12-29 | Carnegie Mellon University | Content based video compression system |
US6263088B1 (en) * | 1997-06-19 | 2001-07-17 | Ncr Corporation | System and method for tracking movement of objects in a scene |
JP3141004B2 (ja) * | 1998-08-31 | 2001-03-05 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 動画中のオブジェクトを分類する方法 |
US6678413B1 (en) * | 2000-11-24 | 2004-01-13 | Yiqing Liang | System and method for object identification and behavior characterization using video analysis |
-
2001
- 2001-02-27 US US09/794,443 patent/US6778705B2/en not_active Expired - Fee Related
-
2002
- 2002-02-13 WO PCT/IB2002/000425 patent/WO2002069267A2/en not_active Application Discontinuation
- 2002-02-13 KR KR1020027014469A patent/KR20020093092A/ko not_active Application Discontinuation
- 2002-02-13 CN CNA028004264A patent/CN1561503A/zh active Pending
- 2002-02-13 EP EP02710261A patent/EP1421557A2/en not_active Withdrawn
- 2002-02-13 JP JP2002568309A patent/JP2004523840A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US6778705B2 (en) | 2004-08-17 |
CN1561503A (zh) | 2005-01-05 |
KR20020093092A (ko) | 2002-12-12 |
US20020181785A1 (en) | 2002-12-05 |
EP1421557A2 (en) | 2004-05-26 |
WO2002069267A2 (en) | 2002-09-06 |
WO2002069267A3 (en) | 2004-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004523840A (ja) | モデル集合によるオブジェクトの分類 | |
Hu et al. | Dense crowd counting from still images with convolutional neural networks | |
Alani et al. | Hand gesture recognition using an adapted convolutional neural network with data augmentation | |
Nguyen et al. | Gaussian-mixture-model-based spatial neighborhood relationships for pixel labeling problem | |
EP1433118B1 (en) | System and method of face recognition using portions of learned model | |
US7043075B2 (en) | Computer vision system and method employing hierarchical object classification scheme | |
Lin et al. | Human activity recognition for video surveillance | |
Ryan et al. | Scene invariant multi camera crowd counting | |
Khan et al. | Situation recognition using image moments and recurrent neural networks | |
Bedagkar-Gala et al. | Multiple person re-identification using part based spatio-temporal color appearance model | |
JP2006024210A (ja) | ビデオ中の通常事象を検出する方法 | |
CN104063719A (zh) | 基于深度卷积网络的行人检测方法及装置 | |
JP2006012174A (ja) | ビデオ中の異常事象を検出する方法 | |
CN103605972A (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
CN107767416B (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN112464730B (zh) | 一种基于域无关前景特征学习的行人再识别方法 | |
Khandelwal et al. | Segmentation-grounded scene graph generation | |
US20060013475A1 (en) | Computer vision system and method employing illumination invariant neural networks | |
CN109271932A (zh) | 基于颜色匹配的行人再识别方法 | |
Song et al. | Feature extraction and target recognition of moving image sequences | |
JP2005512172A (ja) | 顔画像の時系列からの顔認識 | |
Venkat et al. | Recognizing occluded faces by exploiting psychophysically inspired similarity maps | |
WO2018173848A1 (ja) | オブジェクト追跡システム、インテリジェント撮像装置、オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及び記憶媒体 | |
Abdallah et al. | Facial-expression recognition based on a low-dimensional temporal feature space | |
US20080019595A1 (en) | System And Method For Identifying Patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050120 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070327 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080821 |