JP2004282535A

JP2004282535A - 画角調整装置

Info

Publication number: JP2004282535A
Application number: JP2003073037A
Authority: JP
Inventors: Shinya Taguchi; 進也田口; Shoji Tanaka; 昭二田中
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-03-18
Filing date: 2003-03-18
Publication date: 2004-10-07

Abstract

【課題】手持ちカメラ等による瞬時変動が大きい画像入力に対しても対象物体を安定して抽出し、画像表示を行う。
【解決手段】広角で撮影した入力画像から所定の対象部分を中心とする画像範囲を抽出表示する構成において、入力画像の特定部分を色相と彩度を基に色を特定する物体色学習部１と、この特定した色情報を参照して入力画像のそれぞれの物体領域範囲を推定する物体領域候補検出部２と、入力画像の時間変動を抑える変動除去部５と、時間変動を抑えた物体領域の動きを予測して特定物体領域を追跡する物体追跡部３とを備えて、この追跡する特定物体を中心として所定の画角範囲を画像表示するようにした。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、カメラで撮像した画像から通話者あるいは特定の物体の位置を抽出して検出し、常にこの検出された部分が画面の中心となるように画角を調整する画角調整に関するものである。
【０００２】
【従来の技術】
携帯電話やＰＤＡを使用したテレビ電話では、ユーザは端末を手で持ちながら、さらには移動中に通話を行う場合がある。このような状況では、ともすれば捕らえられた通話者の顔が画面のあちこちに移動するので、この場合は顔を常に画面の中心とするようにカメラの画角を調整する必要がある。
この画角調整の技術として、従来から、移動物体の動きにカメラを追従させる方法が用いられてきた。しかしカメラを追従させる方法では、カメラの画角内に移動物体が存在しないと機能しないため、目的とする移動物体の移動速度が速く、カメラの画角から外れてしまった場合には、自動追跡ができなくなってしまう。
【０００３】
これを解決する別の方法として、パノラマカメラにより周囲３６０゜の全方位画像を取り込み、その撮像画像から物体を検出して追跡する方法が提案されている。
例えば、第１の従来例として特許文献１では、１台の静止した魚眼レンズカメラを用いて複数の人物像を同時に追跡し、多画面表示やシーケンス表示により追跡した人物をわかりやすく表示する。
図１８に、この監視装置の構成を示す。この監視装置は、全方位画像の移動領域を検出する移動領域検知手段５１と、検出された移動領域の画素を移動物体ごとにグループ化してラベリングするラベリング手段５２と、ラベリングされた物体の移動を追跡する移動領域追跡手段５３と、全方位画像からラベリングされた移動物体の画像領域を切り出し、画像領域の画像データを補正する正像変換手段５４と、ラベリングされた移動物体の数に応じて表示画面を制御する表示制御手段５５とを備える。
【０００４】
この監視装置では、移動物体を検出するアルゴリズムとして、キャプチャされた画像データと背景画像との差分を計算する方法を採用している。図１９は、この監視装置の移動領域検知手段が行う機能を説明する図である。この移動領域検知手段は、まず入力する画像に（１−α）を乗じ、また背景画像にαを乗じてこれらを加算部４５で加算する。このことで、入力画像の動きを示す部分が減衰された画像データを得ることができる。次に、背景映像出力部４７は、加算部４５の出力を取得すると、減算部４８に出力し、減算部４８は、入力画像から、背景映像出力部４７が出力した画像データを減算して、２値化部４９に出力する。この一連の処理によって、入力画像から移動物体の領域のみを検出することが可能となる。
【０００５】
また、例えば、第２の従来例として特許文献２では、１台の静止したパノラマカメラにより周囲３６０゜の画像を撮像し、画像処理技術により周囲の移動物体を検知して追尾する。この移動物体追尾装置では、移動物体を検出するアルゴリズムとして、２５６階調の画像を背景と移動物体（追尾対象）との２階調に階調変換し、フレーム差分をとる方法を採用している。この処理により、移動量の無い背景は輝度差の値が０となり、移動物体は前フレームと現フレームとの間で輝度差ができるため、この輝度差の値がある値以上のものを移動物体として検出している。
【０００６】
【特許文献１】
特開２００１−３３３４２２号公報
【特許文献２】
特開２００２−６４８１２号公報
【０００７】
【発明が解決しようとする課題】
しかしながら、上記の従来例１又は従来例２に示される装置は、例えば、携帯電話やＰＤＡにおけるテレビ電話など、カメラが固定されていない状況では使用不可能である。なぜなら、携帯電話やＰＤＡを使用したテレビ電話では、通常ユーザは端末を手で持ちながら、さらには移動中に通話を行うため、このような状況ではカメラが細かく振動して、撮像した全体の画像にずれが生じる。このような状況では、上記のようなフレーム間の差分を取るアルゴリズムでは全てが移動物体となり、正しい移動物体部分の特定や検出ができないという課題がある。
【０００８】
本発明は、上記の課題を解決するためになされたもので、カメラを手で持つ場合や、さらには移動中にカメラを使用する場合のように、カメラが固定されていない状況でも、パノラマカメラにより周囲３６０゜の全方位画像を撮像し、その撮像画像情報から画像処理技術により画像のブレを補正し、適切に移動物体を検出して追跡し、その物体が常に画像の中心となるように画角調整を行うことを目的とする。
【０００９】
【課題を解決するための手段】
この発明に係る画角調整装置は、広角で撮影した入力画像から所定の対象部分を中心とする画像範囲を抽出表示する構成において、
入力画像の特定部分を色相と彩度を基に色を特定する物体色学習部と、この特定した色情報を参照して入力画像のそれぞれの物体領域範囲を推定する物体領域候補検出部と、入力画像の時間変動を抑える変動除去部と、時間変動を抑えた物体領域の動きを予測して特定物体領域を追跡する物体追跡部とを備えて、
この追跡する特定物体を中心として所定の画角範囲を画像表示するようにした。
【００１０】
【発明の実施の形態】
実施の形態１．
以下に、図１から図１４を用いて、本実施の形態における画角調整装置の構成と動作を説明する。
図１は、本実施の形態における画角調整装置の構成を示す図である。また、図２は、その動作を示したフローチャートである。更に、図３は、本実施の形態における動作を説明するための具体事例を示す説明図である。
本実施の形態１では、パノラマ画像からある一つの特定物体又は部分を検出し、常にその物体又は部分が画面の中心に表示されるように画角を調整する動作を説明する。
【００１１】
図１示す画角調整装置１０は、予め用意した画像データベース１１からある特定物体の色を学習する物体色学習部１と、パノラマカメラ１２によりキャプチャした全方位画像から、物体色学習部１により学習した特定物体が存在する候補領域を求める物体領域候補検出部２と、手ブレに伴う画像中の振動ノイズを除去して、特定物体を追跡する物体追跡部３と、特定物体を中心とする画像を切り出す画像生成部８とを備える。
【００１２】
次に、図１に示す画角調整装置１０の各構成要素の機能を説明する。
この装置は、物体領域候補検出部２で検出した複数の特定物体の候補領域から、前フレームのノイズ除去部５において推定した特定物体位置座標に最も近い領域を求め、求めた領域の中心位置座標と画素数を取得する領域選択部４と、物体領域候補検出部２により取得した特定物体中心位置座標と前フレームで予測した特定物体中心位置座標に基づき、現フレームの特定物体中心位置座標を推定することにより、手ブレに伴うカメラの振動ノイズを除去する変動除去部の一種であるノイズ除去部５と、前記ノイズ除去部において特定物体中心位置座標を推定するために必要な、次フレームの特定物体中心位置座標の予測をする、同じく組み合わせて変動除去を行う、動き予測部６と、現時点での照明条件下における物体の色を再学習する再学習部７とを備えている。
【００１３】
次に、図２に示すフローチャートを用いてパノラマカメラによる画角調整装置１０の概略動作を説明する。
本実施の形態における画角調整装置の動作は、物体の色を画像データベースに基づき各物体の色を学習するフェイズ１と、フェイズ１で学習した色を持つ特定物体が常に画角に入るよう調整するフェイズ２の２段階に分かれる。
【００１４】
（フェイズ１）
まず、物体色学習部１は、予め用意した画像データベース１１を用いて、追跡すべき特定物体の色を学習する（ステップＳ１１０）。学習した色は、キャプチャ画像から特定物体の候補領域を検出する際（ステップＳ１３０）の基準として利用する。なお、画像データベース１１は、全色の色相と彩度を細かく基準として持ってもよいし、幾つかを間引き、省略した簡略色彩のデータベースであってもよい。
（フェイズ２）
まず、パノラマカメラ等の広角カメラを使用して全方位画像をキャプチャする（ステップＳ１２０）。
【００１５】
続くステップＳ１３０では、物体領域候補検出部２において、キャプチャした全方位画像から、ステップＳ１１０で学習した特定物体が存在する候補領域を検出する。一般に複数の候補領域が検出される。例えば、テレビ電話において人物を検出する場合には、通話者の他に、通話者の周りに存在する人物や、壁にかけられた人物のポスター等を同時に検出される場合があるが、これらすべてを人物の候補領域とする。
【００１６】
続くステップＳ１４０では、領域選択部４において、前のステップＳ１３０で検出した複数の特定物体の候補領域から、前フレームのノイズ除去部５において推定した特定物体位置座標に最も近い領域を求め、求めた領域の中心位置座標を取得する。
ただし、初期フレームにおいては、領域選択部４はステップＳ１３０で検出した複数の特定物体の候補領域の中から、予め決められた画像中のある位置（例えば、Ｘとする）に最も近い領域を求め、求めた領域の中心位置座標を取得する。例えば、テレビ電話において常に通話者が中心となる画像を切り出す場合には、始めに通話者が画像中の上記のＸの位置に映るように設定して、以降、画角調整装置１０の動作を開始する。
【００１７】
続くステップＳ１５０では、ノイズ除去部５において、前のステップＳ１４０で取得した領域中心位置座標と前フレームで予測した特定物体中心位置座標に基づき、現フレームの特定物体中心位置座標を推定する。
続くステップＳ１６０では、動き予測部６は、前のステップＳ１５０で推定した特定物体中心位置を用いて、物体が等速直線運動するという仮定から次フレームにおける特定物体中心位置の予測を行う。この予測値は、次フレームでノイズ除去部５において物体位置を正確に求めるために使用する。
【００１８】
続くステップＳ１７０では、照明条件等により毎フレームに変化する物体の色に適応するために、再学習部７において特定物体の色を再学習する。
続くステップＳ１８０では、画像生成部８は、ステップＳ１６０で推定した特定物体中心位置を中心とする画像を切り出す。
最後に、ステップＳ１２０に戻り、上記の処理を繰り返す。
上記の処理をフレーム毎に繰り返すことで、動画中の物体検出を行い、その物体が中心となる動画を生成する。
【００１９】
図３は、実施の形態１における動作を説明するための説明図である。
始めに、図３（ａ）に示すように、パノラマカメラ１３で周囲３６０゜の全方位の画像を取得する。次に、撮像した（ｂ）に示す全方位画像１４から、画像処理によって通話者の位置を検出し、図５（ｃ）のように、通話者の顔が常に中心になる画像１５を切り出す。切り出した中心になる画像１５は相手端末１６に送信される。切り出された物体画像をテレビ電話の送信画像として使用することで、通話者は画角を気にしなくとも常に自分を撮像でき、通話相手は、常に人物の顔が画面の中心となる安定した映像を受信することができる。
【００２０】
次に、図１に記載の画角調整装置１０の各構成要素の動作を詳細に説明する。物体色学習部１）
まず、図４から図６を用いて、物体色学習部１の動作について説明する。
図４は、物体色学習部１の動作を説明するためのフローチャートである。また、図５は、肌色領域からサンプリングを行い、サンプリングされた肌色画素の色相と彩度をプロットしたグラフである。更に、図６は、物体の色を認識する閾値を示す図である。
ここでは、特定物体を記号Ａで表す。本実施の形態では、特定物体Ａの色の特徴として、色相と彩度に着目する。これは、どの物体も色相と彩度の空間で固有の分布を持ち、物体認識の基準として使用できるためである。図５に、肌色領域からサンプリングを行い、サンプリングされた画素の色相と彩度をプロットしたグラフを示す。
【００２１】
まず、ステップＳ２００で特定の物体画像を抽出し、その画像から均一に十分な数だけ画素をサンプリングする。次いで、ステップＳ２１０で、このサンプリングされたデータから特定物体Ａの色相と彩度に関する確率分布Ｐ_Ｃ（ｆ｜Ａ）を求め、物体認識のための基準として利用する。ここでｆは色相（Ｈ）と彩度（Ｓ）のベクトルｆ＝（Ｈ，Ｓ）である。色相と彩度は赤（Ｒ）と緑（Ｇ）と青（Ｂ）の情報から、例えば、次式に従って求める。
【００２２】
【数１】

【００２３】
この確率分布Ｐ_Ｃ（ｆ｜Ａ）は、物体領域候補検出部２における検出基準となり、例えば、ある適当な閾値Ｐ_{ｃｏｌｏｒ} を設定し、ある画素のｆが次の式（６）を満たすならば、その画素はその物体領域に属するとみなすことができる。
Ｐ_Ｃ（ｆ｜Ａ）＞Ｐ_{ｃｏｌｏｒ} （６）
反対に式（６）を満たさないならば、その画素はその物体領域に属さないと判断することができる。図６に、この上記式（６）による物体認識の概念を示す。図６では、簡略化のため色相Ｈの一次元確率分布を図示している。図６で、ある色相ｈ１における確率密度は閾値Ｐ_{ｃｏｌｏｒ} よりも小さいため、この色相ｈ１を持つ画素は物体に属すると判断されない。一方、ある色相ｈ２における確率密度は閾値Ｐ_{ｃｏｌｏｒ} よりも大きいため、この色相ｈ２を持つ画素は物体としてその領域に存在していると判断される。
【００２４】
次に、確率分布Ｐ_Ｃ（ｆ｜Ａ）を正規混合モデル（ガウス分布に重みを掛けて重ね合わせたもの）で近似的に学習する。正規混合モデルは次式（７）で与えられる。
【００２５】
【数２】

【００２６】
ここで、色相と彩度の２次元空間をＵとし、Ｎとして次式（８）を定義する。
【００２７】
【数３】

【００２８】
上記式（８）において、Ｎは平均がμで、分散がΣの正規分布である。なお、式（８）において、Ｔは行列の転置を表し、｜Σ｜はΣの行列式を表すものとする。また、平均μと分散Σの次元は、それぞれ式（９）と式（１０）で定義される。また、式（７）におけるＫは重ね合わせる正規分布の数、つまり、混合数を表し、更に、式（１１）のω_ｉは混合比（ｉ番目の正規分布から色相と彩度のデータが発生する比率）である。
【００２９】
以上のモデル化により、次の式（１２）で表されるパラメータ集合θを求めて、物体領域検出の基準となる確率分布Ｐ_ｃ（ｆ｜Ａ）を求めることができる。
【００３０】
【数４】

【００３１】
次に、図４のフローチャートを用いて、予め用意した物体の画像に基づいてパラメータ集合を決定する方法を説明する。
まず、予め用意した物体の画像からランダムに画素をサンプリングし、画素のＲＧＢ値を、色相（Ｈ）と彩度（Ｓ）に変換する。サンプリングをＪ回繰り返し、次式（１３）で表される色相と彩度の２次元データ集合Ｄを得る（ステップＳ２００）。
【００３２】
【数５】

【００３３】
ここで、ｆ_ｈはｎ番目にサンプリングされた画素の色相と彩度のベクトルである。図５に、肌色領域のサンプリングの例を示す。
次に、パラメータ集合を、例えば、最尤推定によって決定する（ステップＳ２１０）。即ち、式（１４）に記載のデータ集合Ｄに基づいて対数尤度を最大化するようなパラメータ集合を求める。
【００３４】
【数６】

【００３５】
例えば、最尤推定によりパラメータを求める方法として、ＥＭアルゴリズム（Ａ．Ｏ．Ｄｅｍｐｓｔｅｒ，Ｎ．Ｍ．Ｌａｉｒｄ，ａｎｄＤ．Ｂ．Ｒｕｂｉｎ，Ｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｆｒｏｍｉｎｃｏｍｐｌｅｔｅｄａｔａｖｉａｔｈｅｅｍａｌｇｏｒｉｔｈｍ．，ＪｏｕｒｎａｌｏｆｔｈｅＲｏｙａｌＳｔａｔｉｓｔｉｃａｌＳｏｃｉｅｔｙ，ＳｅｒｉｅｓＢ（Ｍｅｔｈｏｄｏｌｏｇｉｃａｌ），ｖｏｌ．３９，ｎｏ．１，ｐｐ．１−−３８，１９７７．）が使用できる。ＥＭアルゴリズムとは、次に示すＥ（Ｅｓｔｉｍａｔｉｏｎ、推定）−ｓｔｅｐとＭ（Ｍａｘｉｍｉｚａｔｉｏｎ、最大化）−ｓｔｅｐを繰り返すことで、対数尤度を増加させ、漸近的に最尤推定値を求める方法である。パラメータ集合を上記の式（１２）に示すθとする。
【００３６】
Ｅ−ｓｔｅｐ
θバーを現在の推定パラメータとする。このとき、観測値ｆ_ｎがｉ番目の正規分布より発生する確率を次式（１５）に従って求める。
【００３７】
【数７】

【００３８】
上記式（１５）で求めた確率から、上式（１６）に示す対数尤度の期待値Ｑを計算し、これを最大化するようなパラメータθを求める。即ち、これがＭ−ｓｔｅｐである。
θバー＝θとおいて、Ｅ−ｓｔｅｐ（式（１５）を求めるステップ）に戻る。
【００３９】
本発明におけるＥ−ｓｔｅｐ，Ｍ−ｓｔｅｐアルゴリズムの動作を以下に示す。このとき、混合数をＫとする。Ｅ−ｓｔｅｐとＭ−ｓｔｅｐを収束するまで繰り返すことにより、逐次的にパラメータ集合θと、確率π_ｉ，ｎを次式（１７）で表して求める。
【００４０】
【数８】

【００４１】
即ち、Ｅ−ｓｔｅｐでは、現在推定しているパラメータ集合θから、確率π_ｉ，ｎを式（１９）に基づいて計算する。
【００４２】
【数９】

【００４３】
ここで、確率π_ｉ，ｎはデータｆ_ｎが与えられたときに、それがｉ番目の正規分布に属する確率である。
Ｍ−ｓｔｅｐでは、Ｅ−ｓｔｅｐで計算した確率を使用して期待値や分散を計算することで、パラメータ集合を次式により求める。ここで、Ｔは行列の転置を表す。
【００４４】
【数１０】

【００４５】
パラメータを求める際には、混合数Ｋを予め与えておく。ここで、例えば、肌色を学習する場合は、その確率分布は１つの正規分布で十分近似できるため、Ｋ＝１と予め決めてからパラメータを決定することができる。
【００４６】
物体領域候補検出部２）
次に、図７から図１３を用いて、物体領域候補検出部２の動作の詳細を説明する。
図７は、物体領域候補検出部の動作を示すフローチャートである。図８は、正規混合モデルによって１次元の確率分布を近似する例を示した説明図である。図９は、物体領域候補検出部で全方位画像から肌色を検出する例を示した説明である。図１０は、混合数決定における正規分布生成の一例を示す図である。図１１は、混合数決定における正規分布消滅の一例を示す図である。図１２は、混合数決定における正規分布分割の一例を示す図である。図１３は、混合数決定における正規分布合併の一例を示す図である。
【００４７】
本手段では、画像中から特定物体Ａが存在する候補領域を求める。そのために、まず、画像上のある位置ｕ＝（ｘ，ｙ）に物体Ａが存在する条件付確率分布Ｐ（ｕ｜Ａ）を正規混合モデルによって求める。ここで、ｕ＝（ｘ，ｙ）は画像の左上を原点とし、下方向にＹ軸を、右方向にＸ軸を取る場合の２次元ベクトルである。
【００４８】
正規混合モデルを使用することで、複数の物体領域候補を同時に検出することができる。例えば、テレビ電話において人物を検出する場合には、通話者の他に、通話者の周りに存在する人物や、壁にかけられた人物のポスター等が存在する。このような場合、１つの顔に１つの正規分布を対応させて表現できれば、確率分布Ｐ（ｕ｜Ａ）は各正規分布を統合したものとして表現される。
図８に、正規混合モデルによる１次元の確率分布を近似する際の例を示す。肌色領域からサンプリングを行い１次元のデータ集合（図８（ａ）では、ヒストグラムとして表示している）を得る。このデータ集合を発生させる確率分布Ｐ（ｕ｜Ａ）を３つの正規分布で近似する。このとき、正規分布の平均μ_ｉを各物体の中心とみなすことができ、次式（２５）で表される楕円の面積（画素数）を物体の大きさとみなすことができる。
【００４９】
【数１１】

【００５０】
また、この方法を用いれば、例えば、図８のように２つの顔が重なっていても、２つの正規分布の重ね合わせとして推定できる。
正規混合モデルは次式で与えられる。
【００５１】
【数１２】

【００５２】
ここでＮ（ｕ｜μ_ｉ，Σ_ｉ）は平均がμ_ｉで分散がΣ_ｉの正規分布であり、ｍは正規分布の混合数（正規分布の数）であり、ω_ｉは混合比（ｉ番目の正規分布からデータが発生する比率、あるいは、画像中にあるｍ個の物体のうちｉ番目の物体の存在比率）である。
以上のモデル化によって、物体の中心と大きさを求めることは、次式（２７）で表されるパラメータ集合を求めることに帰着する。
【００５３】
【数１３】

【００５４】
以下では、図７に示すフローチャートとともに、キャプチャした画像からパラメータ集合を決定する方法を説明する。
始めに、パノラマカメラによりキャプチャされた全方位画像から均一に十分な数だけ画素をサンプリングする。サンプリングされた画素のＲＧＢ値を色相と彩度ｆ＝（Ｈ，Ｓ）に変換する。物体色学習部１において求めた確率分布Ｐ_ｃ＝（ｆ｜Ａ）を基準として物体領域の検出を行う。ここで、閾値Ｐ_{ｃｏｌｏｒ} を設定し、もし、次式（２８）を満足するなら、データとして採用し、それ以外ならば棄却する。このようにして得られたデータ集合を式（２９）とする（ステップＳ３１０）。ここで、Ｂはデータ数、ｕ_ｎはデータとして採用された各画素の位置である。
【００５５】
【数１４】

【００５６】
この操作により、サンプリングした画素のうち、学習した物体の色に近いものだけをデータとすることができる。
次に、Ｅ−ｓｔｅｐ，Ｍ−ｓｔｅｐアルゴリズムにより、次式（３０）で表されるパラメータ集合を求める（ステップＳ３２０，ステップＳ３３０）。
【００５７】
【数１５】

【００５８】
本手段におけるＥ−ｓｔｅｐ，Ｍ−ｓｔｅｐアルゴリズムの動作を以下に示す。
上記ステップＳ３１０で求めたデータ集合である式（３１）を基に、次のＥ−ｓｔｅｐとＭ−ｓｔｅｐを３〜５回交互に繰り返し、式（３０）で表されるパラメータ集合と、式（３２）で表される確率を求める。パラメータの初期値としては、前フレームで計算された値を使用する。
【００５９】
・Ｅ−ｓｔｅｐ（ステップＳ３２０）
現在推定しているパラメータ集合から、次式（３３）により、確率を求める。
【００６０】
【数１６】

【００６１】
・Ｍ−ｓｔｅｐ（ステップＳ３３０）
式（３３）の確率を使用して期待値や分散を計算することで、式（３０）のパラメータ集合を次式（３４）ないし式（３８）により求める。ここで、Ｔは行列の転置を表す。
【００６２】
【数１７】

【００６３】
また、π_ｉ，ｎはデータｕ_ｎがｉ番目の正規分布に属する確率である。
上記アルゴリズムにより求めた正規分布の平均μ_ｉを物体の中心とし、式（２５）の楕円の面積（画素数）を物体の大きさとする。式（３０）のパラメータ集合をフレーム毎に求めることで、動画中の物体検出ができる。
図９に、全方位画像から肌色領域をサンプリングし、そのデータが発生する確率分布を正規混合モデルで求めた例を示す。図９（ｃ）には、各正規分布の輪郭と平均を図示している。
【００６４】
混合数の決定法を説明する。
上記の計算では、混合数（物体の数）は固定であったが、動画において物体の数は変化する。そこで、Ｅ−ｓｔｅｐ，Ｍ−ｓｔｅｐの次に混合数ｍを決定する。一般にＥ−ｓｔｅｐ，Ｍ−ｓｔｅｐアルゴリズムで正規混合分布のパラメータ推定を行う場合、混合数（重ね合わせる正規分布の数）を予め決めておく必要がある。しかし、例えば、テレビ電話のような状況では入退場などにより人物の数が時間的に変化するため、予め混合数を決めておくことはできない。そこで、ブロッブ（連結した物体の色の領域）数の検出と、例えば、確率を規範とする方法で混合数を決定する。
【００６５】
まず、ブロッブ数を求める手順を示す。始めに、各画素の色相と彩度ｆ＝（Ｈ，Ｓ）を求める。物体色学習部もしくは再学習部で求めたＰ_ｃ（ｆ｜Ａ）を使用し、もし、次式（３９）が成立するなら１、それ以外ならば０とすることで、キャプチャ画像と同じサイズの２値のマスクを作る。
Ｐ_ｃ（ｆ｜Ａ）＞Ｐ_{ｃｏｌｏｒ} （３９）
ここで、Ｐ_{ｃｏｌｏｒ} は適切な閾値である。マスクの中で１が連結した領域数を求め、ブロッブ数とする。
【００６６】
ブロッブ数と、ある確率を規範とし混合数を決定する動作手順を説明する。
（初期フレーム）ブロッブ数を検出し、混合数とする（ステップＳ３５０）。
（２フレーム目以降）以下の手順に従い各フレームにおいて正規分布の生成（ステップＳ３６０）、消滅（ステップＳ３７０）、分割（ステップＳ３８０）、合併（ステップＳ３９０）を、この順番で実行する。
生成（ステップＳ３６０）：図１０に正規分布が生成される例を示す。例えば、物体が急に画面に現れた場合には、この物体を検出するために混合数を増やす必要がある。そこで、あるサンプリングデータｕ_ｎがどの正規分布の中心からも離れた位置座標にあるならば、新たに物体が現れたと判断し、再びブロッブ数の検出を行い新しい混合数とする。
サンプリングデータｕ_ｎと正規分布の中心の距離を判断する基準として、例えば、ｉ番目の正規分布からあるサンプリングデータｕ_ｎが発生する次式（４０）で表される確率を使用する。具体的な手順として、先ず十分に小さい閾値Ｐ_ｇｅｎｅを設定し、次にあるサンプリングデータｕ_ｎに対して次式（４１）を評価する。次式（４１）が成り立つ場合には、このサンプリングデータｕ_ｎはどの正規分布からも離れた位置座標に存在することを意味する。そこで、再びブロッブ数を検出し、新しい混合数として設定する。
【００６７】
【数１８】

【００６８】
消滅（ステップＳ３７０）：図１１に正規分布が消滅する例を示す。例えば、物体が急に画面から消えた場合には、即ち、対応部分の入力画像がなくなるので、この物体に対応する正規分布は余計となり、消滅する必要がある。そこで物体が画面から消えたことを判断するために、正規分布の中心から一定の距離に存在するデータ量を計算し、そのデータ量が少なければ余計な正規分布とみなして消滅させる。
あるｉ番目の正規分布の中心から一定の距離に存在するデータ量の大小を測る基準として、例えば、ｉ番目の正規分布からデータが発生する割合ω_ｉを使う。具体的な手順として、先ず、式（４２）を満たす閾値Ｐ_ｄｅｌを設定する。ここで、ｍは現フレームにおける合数であり、１／ｍは混合比の平均値である。
０＜Ｐ_ｄｅｌ ≪１／ｍ（４２）
【００６９】
次に、次式（４３）を評価する。もし、次式（４３）が成立するならば、例えば、物体が急に画面から消えたために、これに対応していたｉ番目の正規分布は必要でないことを意味するので、これを消滅させることで混合数を１つ減らす。
ω_ｉ＜Ｐ_ｄｅｌ（４３）
分割（ステップＳ３８０）：図１２に正規分布が分割される例を示す。即ち、大きい面積を持つ領域は、１つの物体領域として認識されない。そこで、次式（４４）で表される楕円の面積（画素数）がある程度大きければ、２つの正規分布に分割することで混合数を１つ増やす。
【００７０】
【数１９】

【００７１】
合併（ステップＳ３９０）：図１３に正規分布が合併される例を示す。小さい面積を持つ領域は、独立の物体領域として認識されない。そこで、楕円の面積（画素数）がある程度小さければ、近くの正規分布と統合することで混合数を１つ減らす。
以上のように、物体のブロッブ検出と確率による判断を合わせた混合数の計算により、物体の数が突然変化する場合でも、オンラインで物体の数を推定することが可能である。
【００７２】
物体追跡部３）
次に、その動作を説明するためのフローチャートである図１４を用いて、物体追跡部３が行う動作ついて説明する。これは、更に以下の要素で構成される。
領域選択部４）
領域選択部では、物体領域候補検出部２で検出した複数の候補領域から、次に示す方法で、特定領域（特定物体を表現している正規分布）を選択し、選択した領域の中心位置座標ｕ_ｔバー＝（ｘ_ｔバー，ｙ_ｔバー）と、選択した領域の中心速度ベクトルｖ_ｔバー＝（ｘ_ｔバー−ｘ_ｔ−１バー，ｙ_ｔバー−ｙ_ｔ−１バー）を取得する。ここで、ｔはフレーム番号である。
【００７３】
領域選択部では、始めに、式（２５）で示される楕円の１．５倍から２倍の範囲を探索領域に設定する（ステップＳ４００）。ここでｉは、前フレームの領域候補検出部において、特定物体を表現している正規分布の番号であり、μ_ｉはその正規分布の平均であり、Σ_ｉはその正規分布の分散である。即ち、これは現フレームの物体領域候補検出部で求められた式（４５）で示される複数の物体領域候補の中心において、この探索領域の中に入るものを調べる。
【００７４】
【数２０】

【００７５】
このうち、探索領域の中心と最も距離が小さい物体領域中心（すなわち正規分布の中心）を、観測データｕ_ｔバーとする（ステップＳ４１０）。
しかし、初期フレームにおいては、領域選択部４は、物体領域候補検出部２で検出した複数の候補領域の中から、予め決められた画像中のある位置（例えば、Ｘとする）に最も近い領域を求め、求めた領域の中心位置座標を取得する。
なお、例えば、物体が一時的に遮蔽されている場合など、探索領域の中に物体候補領域の中心が入らない場合は、観測データは無しとみなし、後述する予測ステップを実行する（ステップＳ４９０）。
さらに、もし、一定の時間、観測データ無しの場合は、現フレームの探索領域の面積を大きくし、次フレームの探索領域として設定する（ステップＳ５１０）。
【００７６】
観測データｕ_ｔバーを取得後、ｔ番目のフレームにおける式（４６）で与えられる速度ベクトルを計算する。ここで、２つのベクトルｕ_ｔバーとｖ_ｔバーを合わせて式（４７）のｄ_ｔと表現する。なお、Ｔは行列の転置を表す。
【００７７】
【数２１】

【００７８】
ノイズ除去部５と動き予測部６）
次に、ノイズ除去部５と動き予測部６の動作ついて詳しい説明をする。
ノイズ除去部５は、領域選択部４で取得したデータｄ_ｔと、次の式（４８）で示す前フレームで予測した特定物体中心位置座標ｕ_ｔチルダと、特定物体中心速度ベクトルｖ_ｔチルダに基づき、現フレームの特定物体中心位置座標ｕ_ｔハットと特定物体中心速度ベクトルｖ_ｔハットを推定する（ステップＳ４４０）。ここで、予測した値には“〜”（チルダ）を、推定した値には“＾”（ハット）をつけて区別している。
【００７９】
【数２２】

【００８０】
以下では、位置と速度の推定ベクトルをまとめて式（５０）と表記し、同様に、位置と速度の予測ベクトルを式（５１）と表記する。
【００８１】
【数２３】

【００８２】
この表記を用いると、ノイズ除去部５の動作は、ｚ_ｔチルダとｄ_ｔからｚ_ｔハットを推定することである、と言い換えることができる。
このように、ノイズ除去部５は、観測したデータｄ_ｔだけでなく、前フレームで予測したベクトルｚ_ｔチルダを用いることで正確に物体位置の推定が行える。
【００８３】
続いて、動き予測部６は、ノイズ除去部５において推定したｚ_ｔハットの情報を用いて、次フレームにおける特定物体中心位置と特定物体中心速度の予測ベクトルｚ_ｔ＋１チルダを計算する（ステップＳ４５０）。計算の際に、物体のダイナミクスを記述した状態遷移行列Ａを使用する。
例えば、物体が等速直線運度する場合、Ａは次式で与えられる。
【００８４】
【数２４】

【００８５】
ここで、Δｔは各フレームの時間間隔である。
ノイズ除去部５と、動き予測部６の計算は、例えば、パーティクルフィルタ（ＤｏｕｃｅｔＡ，ＦｒｅｉｔａｓＮ，ａｎｄＧｏｒｄｏｎＮ，ｅｄｉｔｏｒｓ．ＳｅｑｕｅｎｔｉａｌＭｏｎｔｅＣａｒｌｏＭｅｔｈｏｄｓｉｎＰｒａｃｔｉｃｅ．Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ，２００１．）によって実行することができる。パーティクルフィルタとは、後述する推定ステップと予測ステップを実行し、時間的に伝播する確率分布を求めることで、フィルタリングや物体運動の追跡を行うアルゴリズムである。
ノイズ除去部５の計算は、後述する推定ステップに相当する。また、動き予測部６の計算は後述する予測ステップに相当する。
【００８６】
以下で使用する記号の説明をする。
特定物体中心位置座標と特定物体中心速度ベクトルを確率変数とみなし、それぞれの値をｕ_ｔとｖ_ｔで表記する。
また、これらを合わせた式（５３）で示されるベクトルｚ_ｔを定義する。更に、式（５４）で示されるＰは領域選択部４で求めたデータｄ_ｔに基づいた次フレームの特定物体中心位置座標と特定物体中心速度ベクトルの確率分布であり、式（５５）のＰは領域選択部４で求めたデータｄ_ｔに基づいた現フレームの特定物体中心位置座標と特定物体中心速度ベクトルの確率分布である。
【００８７】
【数２５】

【００８８】
・推定ステップ
次式（５６）を用いて、領域選択部で求めたデータｄ_ｔと、前フレームで求めた確率分布から、現フレームの確率分布を計算する。
【００８９】
【数２６】

【００９０】
ここで、Ｐ（ｄ_ｔ｜ｚ_ｔ）は尤度と呼ばれ、システムの観測モデルを確率の形で表現したものである。例えば、観測モデルを次式（５７）で与える。
ｄ_ｔ＝ｚ_ｔ＋ｎ_１（５７）
【００９１】
ここで、ｎ_１は平均が０で、分散がΣ_ｅの、物体領域の観測に伴う正規ノイズである。これは、例えば、手ブレに伴うカメラの振動ノイズ等に相当する。このとき、尤度は式（５８）で表現される。
Ｐ（ｄ_ｔ｜ｚ_ｔ）＝Ｎ（ｄ_ｔ｜ｚ_ｔ，Σ_ｅ）（５８）
式（５６）の計算で求めた確率分布Ｐ（ｚ_ｔ｜ｄ_ｔ）から、次式（５９）に示すように、特定物体領域位置座標と特定物体領域速度ベクトルの期待値を計算し、特定物体中心位置座標の推定値ｕ_ｔハットと、特定物体中心速度ベクトルｖ_ｔハットを求める（ステップＳ４４０）。
【００９２】
【数２７】

【００９３】
画像生成部８は、このｕ_ｔハットが中心となるような画像を全方位画像から切り出すことで、自動画角調整を実現する。
【００９４】
・予測ステップ
次式（６０）を用いて、推定ステップで求めた現フレームの確率分布Ｐ（ｚ_ｔ｜ｄ_ｔ）から次フレーム用の確率分布Ｐ（ｚ_ｔ＋１｜ｄ_ｔ）を計算する。
【００９５】
【数２８】

【００９６】
ここで、Ｐ（ｚ_ｔ＋１｜ｚ_ｔ）は状態遷移確率であり、物体の運動を確率分布で表現したものである。例えば、物体の運動を次式（６１）でモデル化する。
ｚ_ｔ＋１＝Ａｚ_ｔ＋ｎ_２（６１）
ここで、Ａは状態遷移行列であり、前出の式（５２）と同一である。式（６１）に示すｎ_２は平均が０で、分散がΣ_ｐの、物体の移動に伴う正規ノイズとする。このとき、状態遷移確率は次式（６２）となる。
Ｐ（ｚ_ｔ＋１｜ｚ_ｔ）＝Ｎ（ｚ_ｔ＋１｜Ａｚ_ｔ，Σ_ｐ）（６２）
式（６０）により、前フレームで求めた確率分布Ｐ（ｚ_ｔ｜ｄ_ｔ−１）から、次式（６３）で表される期待値ｚ_ｔチルダを計算する。
【００９７】
【数２９】

【００９８】
ｕ_ｔチルダを特定物体中心位置座標の予測値とし、ｖ_ｔチルダを特定物体中心速度ベクトルの予測値とする。物体が遮蔽されると、画像生成部は、この予測値ｕ_ｔチルダが中心となるような画像を全方位画像から切り出すことで、自動画角調整を実現する（ステップＳ４９０）。
【００９９】
再学習部７）
次に、現フレームの照明条件下における物体の色を再学習する再学習部７の動作を説明する。
物体色学習部１において学習した確率分布Ｐ_ｃ（ｆ｜Ａ）の再学習を行う手順を以下に示す。
【０１００】
【数３０】

【０１０１】
式（６４）の楕円の１．５〜２倍の領域からサンプリングを行い、画素のＲＧＢ値を、色相（Ｈ）と彩度（Ｓ）に変換する。
ここでｉは、物体領域候補検出部２において、特定物体を表現している正規分布の番号であり、μ_ｉはその正規分布の平均であり、Σ_ｉはその正規分布の分散である。サンプリングをＪ回繰り返し、式（６５）の色相と彩度の２次元データ集合Ｄを得る。
【０１０２】
【数３１】

【０１０３】
ここで、ｆ_ｈはｎ番目にサンプリングされた画素の色相と彩度のベクトルである。
【０１０４】
次に、確率分布Ｐ_ｃ（ｆ｜Ａ）を正規混合モデルによってモデル化し、上記式（６５）のデータＤを基に、物体色学習部１と同様の方法で式（６６）のパラメータ集合θを求める。
【０１０５】
【数３２】

【０１０６】
このとき、前フレームで学習したパラメータ集合θを初期値として使用する（初期フレームのみ、前記物体色学習部１により予め学習しておいたパラメータ集合を使用する）。
以上のように、物体色の学習をフレーム毎に行うため、照明条件の変化等による物体色の変化に適応することができる。
【０１０７】
実施の形態２．
本発明の実施の形態２では、全方位画像から複数の物体を検出し、その中からユーザによって選択された物体が中心となる画像を切り出す装置を説明する。
本発明の実施の形態２における画角調整装置を図１５から図１７を用いて説明する。
図１５は、実施の形態２における画角調整装置の構成図であり、図１６は、実施の形態２における画角調整装置の動作手順を示すフローチャートである。図１７は、実施の形態２における動作を説明するための具体例を用いた説明図である。
【０１０８】
実施の形態２における画角調整装置７０は、予め用意した画像データベースから物体の色を学習する物体色学習部６１と、キャプチャした全方位画像から物体色学習部により学習した物体が存在する領域の候補を求める物体領域候補検出部６２と、物体領域候補検出部６２により検出された複数の候補領域の中から、ユーザが指定した物体を選択する物体指定部６０と、カメラの手ブレに伴う画像中の振動ノイズを除去し物体を追跡する物体追跡部６３と、特定物体を中心とする画像を切り出す画像生成部６８とを備える。
実施の形態２における画角調整装置７０は、実施の形態１における画角調整装置１０に、物体指定部６０を加えた装置である。即ち、実施の形態２における物体色学習部６１と、物体領域候補検出部６２と、物体追跡部６３と、画像生成部６８は、それぞれ実施の形態１に記載の物体色学習部１、物体領域候補検出部２、物体追跡部３、画像生成部８と同一機能の要素である。
【０１０９】
次に、図１６を用いてパノラマカメラによる画角調整装置７０の動作を説明する。
本実施の形態における画角調整装置７０の動作は、物体の色を画像データベースに基づき学習するフェイズ１と、フェイズ１で学習した色を持つ特定物体が常に画角に入るよう自動調整するフェイズ２の２段階に分かれる。
【０１１０】
（フェイズ１）
まず、物体色学習部６１は、予め用意した画像データベース７５を用いて、追跡すべき物体の色を学習する（ステップＳ５９０）。学習した色は、キャプチャ画像から特定物体の候補領域を検出する際（ステップＳ６１０）の基準として利用する。
【０１１１】
（フェイズ２）
まず、パノラマカメラ７４を使用して全方位画像をキャプチャする（ステップＳ６００）。
続くステップＳ６１０では、物体領域候補検出部６２において、キャプチャした全方位画像から、ステップＳ５９０で学習した物体が存在する候補領域を抽出する。一般に複数の候補領域が検出され抽出される。例えば、テレビ電話において人物を検出する場合には、通話者の他に、通話者の周りに存在する人物や、壁にかけられた人物のポスター等を同時に検出される場合があるが、ここではすべて人物の候補領域となる。
【０１１２】
続くステップＳ６１５では、物体指定部６０において、まず、ユーザによる物体指定要求があればそれを受け取り、ステップＳ６１０で検出した複数の領域候補から、ユーザにより指定された領域を求め、その領域中心位置座標を取得する。
次に、物体指定部６０は、前フレームのノイズ除去部６５において推定した特定物体位置座標の値を、この取得した領域中心位置座標の値に置き換える。この処理により、追跡対象となる特定物体をユーザにより指定された物体に変更する。
もし、ユーザによる物体指定要求がない場合、物体指定部６０は処理を行わずにステップＳ６２０に進む。
【０１１３】
続くステップＳ６２０では、領域選択部６４において、ステップＳ６１０で検出した複数の特定物体の候補領域から、前フレームのノイズ除去部６５において推定した特定物体位置座標に最も近い領域を求め、求めた領域の中心位置座標を取得する。
しかし、初期フレームにおいては、領域選択部６４は、ステップＳ６１０で検出した複数の特定物体の候補領域の中から、予め決められた画像中のある位置（例えば、Ｘとする）に最も近い領域を求め、求めた領域の中心位置座標を取得する。例えば、テレビ電話において常に通話者が中心となる画像を切り出す場合には、始めに通話者が画像中のＸの位置に映るように設定して、次に画角調整装置７０の動作を開始する。
続くステップＳ６３０では、ノイズ除去部６５において、ステップＳ６２０で取得した特定物体中心位置座標と前フレームで予測した特定物体中心位置座標に基づき、現フレームの特定物体中心位置座標を推定する。
【０１１４】
続くステップＳ６４０では、動き予測部６６は、ステップＳ１５０で推定した特定物体中心位置を用いて、物体が等速直線運動するという仮定から次フレームにおける特定物体中心位置の予測を行う。この予測値は、次フレームでノイズ除去部６５において物体位置を正確に求めるために使用する。
続くステップＳ６５０では、照明条件等により毎フレームに変化する物体の色に適応するために、再学習部６７において特定物体の色を再学習する。
続くステップＳ６６０では、画像生成部６８は、ステップＳ６４０で推定した特定物体中心位置を中心とする画像を切り出す。
最後に、ステップＳ６００に戻り、上記の処理を繰り返す。
上記の処理をフレーム毎に繰り返すことで、映像中からユーザが指定した物体検出を行い、その物体が中心となる動画の生成を実現する。
【０１１５】
図１７に、上記で説明した実施の形態２における具体例を示す。例えば、物体領域候補検出部６２により求められた複数の顔領域候補のうち、現在画角の中心にいる人物を“Ｃ”、その左右に存在する人物を“Ｌ”，“Ｒ”とする（図１７（ａ））。
例えば、図１７に示すように、携帯電話（端末）の十字キー４３を右側に押す操作で、ユーザが“Ｒ”の人物を指定すれば、物体指定部６０は“Ｒ”の人物領域を指定し、物体追跡部６３に信号を送る。続く物体追跡部６３と画像生成部６８の処理により、物体指定部６０で指定した人物が中心となる画像が生成され、携帯電話の端末４１に映し出される。
上記の例のように、本発明を携帯電話やＰＤＡのテレビ電話において人物の検出に使用すれば、画像を受信しているユーザは、通話先にいる複数の人物の中から選択した人物が中心となる映像を自分の端末に取得することが可能となる。
【０１１６】
【発明の効果】
以上のようにこの発明によれば、物体色学習部と物体領域候補検出部と変動除去部と物体追跡部とを備えたので、手持ちカメラ等による瞬時変動が大きい画像入力に対しても、対象物体を安定して抽出し、画像表示できる効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態における画角調整装置の構成を示す図である。
【図２】実施の形態１における画角調整装置の動作を示すフロー図である。
【図３】実施の形態１における画角調整装置の具体的な動作を説明するための説明図である。
【図４】実施の形態１における物体色学習部の動作を示すフロー図である。
【図５】実施の形態１において肌色のサンプル部分における画素の色相と彩度を２次元化表現した図である。
【図６】実施の形態１における物体認識の概念を示す図である。
【図７】実施の形態１における物体領域候補検出部の動作を示すフロー図である。
【図８】実施の形態１において、各画素を正規混合モデルによって１次元の確率分布として近似する例を示す図である。
【図９】実施の形態１における物体領域候補検出部が全方位画像から肌色領域を検出する例を示す図である。
【図１０】実施の形態１における物体領域候補検出部が行う正規分布生成の例を示す図である。
【図１１】実施の形態１における物体領域候補検出部が行う正規分布消滅の例を示す図である。
【図１２】実施の形態１における物体領域候補検出部が行う正規分布分割の例を示す図である。
【図１３】実施の形態１における物体領域候補検出部が行う正規分布合併の例を示す図である。
【図１４】実施の形態１における物体追跡部の動作を示すフロー図である。
【図１５】この発明の実施の形態２における画角調整装置の構成を示す図である。
【図１６】実施の形態２における画角調整装置の動作を示すフロー図である。
【図１７】実施の形態２における画角調整装置の具体的な動作を説明するための説明図である。
【図１８】第１の従来例としての画像監視装置の構成図である。
【図１９】第１の従来例としての画像監視装置装置における物体移動検知部の動作フロー図である。
【符号の説明】
１物体色学習部、２物体領域候補検出部、３物体追跡部、４領域選択部、５ノイズ除去部、６動き予測部、７再学習部、８画像生成部、９ディスプレイ、１０画角調整装置、１１画像データベース、１２パノラマカメラ、１３パノラマカメラ、１４全方位画像、１５中心になる画像、１６相手端末、１７パノラマカメラ、１８ディスプレイ、１９画像データベース、２０予め用意した画像、２１色相と彩度の空間、２２ガウス分布の輪郭、２３色相Ｈの一次元確率分布、２４顔、２５正規分布、２６パノラマ画像、２７肌色のサンプリング結果、２８サンプリングデータを正規混合分布で近似、２９各ガウス分布の輪郭と中心、３０新規データの発生、３１正規分布の生成、３２データ発生源の消滅、３３正規分布の消滅、３４２つのデータ発生源を１つの正規分布で近似している例、３５正規分布の分割、３６１つのデータ発生源を２つの正規分布で近似している例、３７正規分布の合併、３８ラベル付けされたパノラマ画像、３９切り出された画像、４０ラベル付けされたパノラマ画像、４１携帯電話の端末、４２通話相手、４３携帯端末の十字キー、４４（１−α）乗算部、４５加算部、４６α乗算部、４７背景映像出力部、４８減算部、４９パノラマカメラ、５０Ａ／Ｄ変換部、５１移動領域検知部、５２ラベリング部、５３移動領域追跡部、５４正像変換部、５５表示制御部、６０物体指定部、６１物体色学習部、６２物体領域候補検出部、６３物体追跡部、６４領域選択部、６５ノイズ除去部、６６動き予測部、６７再学習部、６８画像生成部、６９ディスプレイ、７０画角調整装置、７１画像データベース、７２パノラマカメラ。

Claims

広角で撮影した入力画像から所定の対象部分を中心とする画像範囲にある部分を抽出表示する構成において、
上記入力画像の特定部分を色相と彩度を基に色を特定する物体色学習部と、
上記特定した色情報を参照して上記入力画像のそれぞれの物体領域範囲を推定する物体領域候補検出部と、
上記入力画像の時間変動を抑える変動除去部と、
上記時間変動を抑えた物体領域の動きを予測して特定物体領域を追跡する物体追跡部とを備えて、上記追跡する特定物体を中心として所定の画角範囲を画像表示するようにしたことを特徴とする画角調整装置。
複数の物体の色相と彩度をサンプルとして記憶する画像データベースを備え、物体色学習部は上記画像データベースを参照して特定部分の色を識別するようにしたことを特徴とする請求項１記載の画角調整装置。
物体色学習部は、画像データベースに記憶している識別基準の物体の画像サンプルを色相と彩度で表現し、該色相と彩度で入力画像を識別し、物体領域候補検出部は、上記識別結果に基づいて物体領域を定めて候補とするようにしたことを特徴とする請求項２記載の画角調整装置。
物体領域候補検出部は、入力画像から切り出して複数の物体領域を定める際に、所定色における確率密度が閾値以上であるものを物体領域として検出し、かつ所定の大きさの領域に分割／合併を行なって物体領域の数を定めるようにしたことを特徴とする請求項１記載の画角調整装置。
物体領域候補検出部は、求めた候補領域数と、確率を規範とする方法とで混合数を決定し、改めて候補領域を求めるようにしたことを特徴とする請求項４記載の画角調整装置。
動き予測は、前フレームの入力画像において物体追跡部が特定した特定物体領域の位置情報と、現フレームの入力画像における上記特定物体領域の位置情報とから速度情報とを求めて、該求めた位置と速度情報とに基づいて次フレームの画像範囲を定めるようにしたことを特徴とする請求項１記載の画角調整装置。
変動除去部は、特定物体領域の位置情報と、速度情報とを用いて次フレームの特定物体領域の位置をフィルタリングして推定し、物体追跡部は、該推定結果に基づいて動き予測して画像範囲を定めるようにしたことを特徴とする請求項６記載の画角調整装置。
特定物体領域における色の色相と彩度を再学習する再学習部を備えて、該再学習により得られた色を以後のフレームにおける特定物体領域の識別基準としたことを特徴とする請求項１記載の画角調整装置。
特定物体領域を指定する物体指定部を備えて、識別基準として上記特定物体領域を指定されると、物体追跡手段は、上記追跡する特定物体領域を中心として所定の画像範囲を画像表示するようにしたことを特徴とする請求項１記載の画角調整装置。