JP2005004799A

JP2005004799A - 物体抽出装置

Info

Publication number: JP2005004799A
Application number: JP2004273818A
Authority: JP
Inventors: Yoko Sanbonsugi; 陽子三本杉; Toshiaki Watanabe; 敏明渡邊; Takashi Ida; 孝井田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-01-07
Filing date: 2004-09-21
Publication date: 2005-01-06
Anticipated expiration: 2019-01-07
Also published as: JP3930504B2

Abstract

【課題】目的の物体以外の周囲の余分な動きに影響されずに、動画像から目的の物体を精度良く抽出／追跡する。
【解決手段】時間的に連続な３つのフレームｆ（ｉ−１），ｆ（ｉ），ｆ（ｉ＋１）それぞれには、物体を囲む長方形Ｒ（ｉ−１），Ｒ（ｉ），Ｒ（ｉ＋１）が設定される。現フレームｆ（ｉ）と第１参照フレームｆ（ｉ−１）との間のフレーム間差分、および現フレームｆ（ｉ）と第２参照フレームｆ（ｉ＋１）との間のフレーム間差分により、差分画像ｆｄ（ｉ−１，ｉ）、ｆｄ（ｉ，ｉ＋１）が得られる。多角形Ｒｄ（ｉ−１，ｉ）＝Ｒ（ｉ−１）ｏｒＲ（ｉ）と多角形Ｒｄ（ｉ，ｉ＋１）＝Ｒ（ｉ）ｏｒＲ（ｉ＋１）について、それぞれ背景領域が決定され、残りの領域が物体領域候補として選ばれる。これら物体領域候補の交わりを取ることにより、現フレームｆ（ｉ）の物体領域Ｏ（ｉ）が抽出できる。
【選択図】図８

Description

本発明は画像の物体抽出装置に関し、特に入力動画像から目的とする物体の位置を検出して動物体の追跡／抽出を行う物体抽出装置に関する。

従来より、動画像中の物体を追跡／抽出するためのアルゴリズムが考えられている。これは、様々な物体と背景が混在する画像からある物体だけを抽出するための技術である。この技術は、動画像の加工や編集に有用であり、例えば、動画像から抽出した人物を別の背景に合成することなどができる。

物体抽出に使用される方法としては、時空間画像領域分割（越後、飯作、「ビデオモザイクのための時空間画像領域分割」、１９９７年電子情報通信学会情報・システムソサイエティ大会、Ｄ−１２−８１、ｐ．２７３、１９９７年９月）を利用した領域分割技術が知られている。

この時空間画像領域分割を用いた領域分割方法では、動画像の１フレーム内のカラーテクスチャによる小領域の分割を行ない、フレーム間の動きの関係を使ってその領域を併合する。フレーム内の画像を分割する際には、初期分割を与える必要があり、それによって分割結果が大きく左右されるという問題がある。そこで、これを逆に利用して、この時空間画像領域分割を用いた領域分割法では、別のフレームで初期分割を変えて、結果的に異なる分割結果を得て、フレーム間の動きで矛盾する分割を併合するという手法をとっている。

しかし、この手法を動画像中の物体の追跡および抽出にそのまま適用すると、動きベクトルが、目的とする動物体以外の余分な動きに影響されてしまい、信頼度が十分でないことが多く、誤った併合を行なう点が問題となる。

また、特開平８−２４１４１４号公報には、複数の動物体検出装置を併用した動物体検出・追跡装置が開示されている。この従来の動物体検出・追跡装置は、例えば監視カメラを用いた監視システムなどに用いられるものであり、入力動画像から動物体を検出してその追跡を行う。この動物体検出・追跡装置においては、入力動画像は、画像分割部、フレーム間差分型動物体検出部、背景差分型動物体検出部、動物体追跡部にそれぞれ入力される。画像分割部では、入力動画像が予め定められた大きさのブロックに分割される。分割結果は、フレーム間差分型動物体検出部、および背景差分型動物体検出部にそれぞれ送られる。フレーム間差分型動物体検出部では、分割結果毎に、フレーム間差分を用いて入力動画像中の動物体が検出される。この場合、フレーム間差分を取る際のフレーム間隔は、動物体の移動速度に影響されずにその動物体を検出できるようにするために、背景差分型動物体検出部の検出結果に基づいて設定される。背景差分型動物体検出部では、これまでに入力された動画像を用いて分割結果毎に作成した背景画像と動物体との差分を取ることにより、動物体が検出される。統合処理部では、フレーム間差分型動物体検出部および背景差分型動物体検出部それぞれの検出結果が統合されて、動物体の動き情報が抽出される。各フレームで物体を抽出した後、動物体追跡部では、フレーム間において対応する動物体同士の対応付けが行われる。

この構成においては、フレーム間差分のみならず、背景差分をも用いて動物体の検出を行っているため、フレーム間差分だけを用いる場合に比べ検出精度は高くなる。しかし、入力動画像全体を対象としてその画像の中から動きのある物体をフレーム間差分および背景差分によって検出する仕組みであるため、フレーム間差分および背景差分それぞれの検出結果は、目的とする動物体以外の余分な動きに影響されてしまい、背景に複雑な動きがある画像ではうまく目的とする動物体を抽出・追跡できないという問題がある。

また、別の物体抽出技術としては、複数のフレームを用いてまず背景画像を生成し、その背景画像と入力画像の画素値の差分が大きい領域を物体として抽出する方法も知られている。

この背景画像を用いる物体抽出の既存の技術一例が、例えば、特開平８−５５２２２号公報の「移動物体検出装置および背景抽出装置ならびに放置物体検出装置」に開示されている。

現処理フレームの画像信号は、１フレーム分の画像を蓄えるフレームメモリ、第１の動き検出手段、第２の動き検出手段、スイッチに入力される。フレームメモリからは、１フレーム前の画像信号が読み出され、第１の動き検出手段に入力される。一方、背景画像を保持するために用意されたフレームメモリからは、その時点までに生成されている背景画像信号が読み出され、第２の動き検出手段と、スイッチに入力される。第１の動き検出手段と第２の動き検出手段では、各々入力される２つの画像信号の差分値などを用いて物体領域および物体領域が抽出され、いずれも論理演算回路に送られる。論理演算回路では、入力される２つの画像の論理積がとられ、それが最終的な物体領域として出力される。また、物体領域は、スイッチにも送られる。スイッチでは、物体領域によって、物体領域に属する画素については、背景画素信号が選択され、逆に、物体領域に属さない画素については、現処理フレームの画像信号が選択され、上書き信号としてフレームメモリに送られ、フレームメモリの画素値が上書きされる。

この手法では、特開平８−５５２２２号公報に示されている様に、処理が進行するにつれて、次第に背景画像が正しくなっていき、やがては、物体が正しく抽出されるようになる。しかし、動画像シーケンスの初めの部分においては背景画像に物体が混入しているために、物体の抽出精度が悪い。また、物体の動きが小さい場合には、いつまでたっても、その物体の画像が背景画像の中に残り、抽出精度は高くならない。

上述したように、従来の物体抽出／追跡方法では、入力動画像全体を対象としてその画像の中から動きのある物体を検出する仕組みであるため、目的とする動物体以外の余分な動きに影響を受けてしまい、目的の動物体を精度良く抽出・追跡することができないという問題があった。

また、背景画像を用いる物体抽出法では、動画像シーケンスの初めの部分において抽出精度が悪く、また、物体の動きが小さい場合には、いつまでも背景画像が完成しないために抽出精度が良くならないという問題点があった。

本発明は、目的の物体以外の周囲の余分な動きに影響を受けずにその物体の抽出／追跡を精度良く行うことが可能な動画像の物体抽出装置を提供することを目的とする。

また、本発明は、背景画像を精度良く決定できるようにして、物体の動きの大小によらずに、且つ動画像シーケンスの初めの部分も最後の部分と同様に高い抽出精度が得られる物体抽出装置を提供することを目的とする。

本発明は、物体抽出対象となる現フレームと、この現フレームに対し時間的に異なる第１の参照フレームとの差分に基づいて、前記現フレームと前記第１の参照フレームに共通の第１の背景領域を決定し、前記現フレームと、この現フレームに対し時間的に異なる第２の参照フレームとの差分に基づいて、前記現フレームと前記第２の参照フレームに共通の第２の背景領域を決定する背景領域決定手段と、前記現フレームの図形内画像の中で、前記第１の背景領域と前記第２の背景領域のどちらにも属さない領域を、物体領域として抽出する手段と、静止している物体領域を検出する物体静止検出手段とを具備する物体抽出装置を提供する。

この物体抽出装置においては、物体抽出対象の現フレーム毎に二つの参照フレームが用意され、その現フレームと第１の参照フレームとの間の第１の差分画像により、現フレームと第１の参照フレームとで共通に用いられている第１の共通背景領域が決定され、また現フレームと第２の参照フレームとの間の第２の差分画像により、現フレームと第２の参照フレームとで共通に用いられている第２の共通背景領域が決定される。第１および第２のどちらの差分画像にも現フレーム上の物体領域が共通に含まれているため、第１の共通背景領域と第２の共通背景領域のどちらにも属さない領域の中で、現フレームの図形内画像に含まれる領域を検出することにより、現フレーム上の物体領域が抽出される。この物体領域が静止物体に相当する場合には、前の物体領域と現物体領域とに差分が存在しないとき静止物体領域が検出される。

このようにして、時間的に異なる参照フレームに基づいて決定された複数の共通背景領域にいずれにも属さない領域を抽出対象物体と決定して物体の追跡を行うことにより、目的の物体以外の周囲の余分な動きに影響を受けずに、目的の物体を精度良く抽出・追跡することが可能となる。

また、前記第１および第２の各参照フレームと前記現フレームとの間で背景の動きが相対的に零となるように、前記各参照フレームまたは現フレームの背景の動きを補正する背景補正手段をさらに具備することが好ましい。この背景補正手段を図形設定手段の入力段、あるいは背景領域決定手段の入力段のいずれかに設けることにより、例えばカメラをパンした時などのように背景映像が連続するフレーム間で徐々に変化するような場合であってもそれらフレーム間で背景映像を擬似的に一定にすることができる。よって、現フレームと第１または第２の参照フレームとの差分を取ることによって、それらフレーム間で背景を相殺することが可能となり、背景変化に影響されない共通背景領域検出処理および物体領域抽出処理を行うことができる。背景補正手段は動き補償処理によって実現できる。

また、前記背景領域決定手段は、前記現フレームと前記第１または第２の参照フレームとの差分画像の中で、前記現フレームの図形内画像または前記第１または第２の参照フレームの図形内画像に属する領域の輪郭線近傍における各画素の差分値を検出する手段と、前記輪郭線近傍の各画素の差分値を用いて、前記共通の背景領域と判定すべき差分値を決定する手段とを具備し、この決定された差分値を背景／物体領域判定のためのしきい値として使用して、前記差分画像から前記共通の背景領域を決定するように構成することが好ましい。このように輪郭線近傍における各画素の差分値に着目することにより、差分画像全体を調べることなく、容易にしきい値を決定することが可能となる。

また、前記図形設定手段は、前記参照フレームの図形内画像を複数のブロックに分割する手段と、複数のブロックそれぞれについて、前記入力フレームとの誤差が最小となる前記入力フレーム上の領域を探索する手段と、探索された複数の領域を囲む図形を前記入力フレームに設定する手段とから構成することが好ましい。これにより、初期設定された図形の形状や大きさによらず、対象となる入力フレームに最適な新たな図形を設定することが可能となる。

また、本発明は、既に物体領域を抽出したフレームから、物体抽出対象となる現フレーム上の物体の位置または形状を予測する予測手段と、この予測手段によって予測された現フレーム上の物体の位置または形状に基づいて、前記背景領域決定手段によって使用すべき前記第１および第２の参照フレームを選択する手段とをさらに具備する。

このように、使用すべき参照フレームとして適切なフレームを選択することにより、常に良好な抽出結果を得ることが可能となる。

ここで、Ｏ_i，Ｏ_j，Ｏ_currをそれぞれ参照フレームｆ_i，ｆ_j及び抽出対象の現フレームｆcurrの物体とすると、正しく物体の形状を抽出するための最適な参照フレームｆ_i，ｆ_jとは、
（Ｏ_i∩Ｏ_j）⊆ Ｏ_curr
を満たすフレーム、つまり、Ｏ_i，Ｏ_jの交わり部分がＯ_curr内に属するようなフレームｆ_i，ｆ_jである。

また、本発明は、互いに異なる方法によって物体抽出を行う複数の物体抽出手段を設け、これら物体抽出手段を選択的に切替ながら物体抽出を行うことを特徴とする。この場合、現フレームと、この現フレームとは時間的にずれた少なくとも２つの参照フレームそれぞれの差分を用いて物体抽出を行う第１の物体抽出手段と、フレーム間予測を使用して既に物体抽出が行われたフレームから現フレームの物体領域を予測することにより物体抽出を行う第２の物体抽出手段とを組み合わせて使用することが望ましい。これにより、物体が部分的に静止していて参照フレームとの差分が検出できないときでも、フレーム間予測を用いた物体抽出手段によってそれを補うことが可能となる。

また、複数の物体抽出手段を設けた場合には、物体抽出対象となる現フレームから、その少なくとも一部の領域についての画像の特徴量を抽出する手段をさらに具備し、前記抽出された特徴量に基づいて、前記複数の物体抽出手段を切り替えることが好ましい。

例えば、背景の動きがあるかどうか予めわかるならば、その性質を使った方がよい。背景の動きがある場合は、背景動き補償を行なうが、完全に補償できるとは限らない。複雑な動きをするフレームではほとんど補償できないこともある。このようなフレームは、背景動き補償の補償誤差量によって予め選別できるので、参照フレーム候補にしないなどの工夫が可能である。しかし、背景の動きがない場合は、この処理は不必要である。別の物体が動いていると、誤った背景動き補償を行なったり、参照フレーム候補から外れたりして参照フレーム選択条件に最適なフレームであっても選ばれず、抽出精度が落ちることがあるからである。また、一つの画像中にも多様な性質が混在していることがある。物体の動きやテクスチャも部分的に異なり、同じ追跡・抽出方法及び装置やパラメータではうまく抽出できないことがある。従って、ユーザが画像中の特殊な性質を持つ一部を指定したり、画像中の違いを自動的に特徴量として検出し、その特徴量に基づいて、例えばフレーム内のブロック単位などで部分的に追跡・抽出方法を切替えて抽出したり、パラメータを変更した方がよい。

このようにして、画像の特徴量に基づいて、複数の物体抽出手段を切替えれば、様々な画像中の物体の形状を精度良く抽出することが可能になる。

また、現フレームと、この現フレームと時間的にずれた少なくとも２つの参照フレームとの差分を用いた第１の物体抽出手段と、フレーム間予測を使用した第２の物体抽出手段とを組み合わせて使用する場合には、第２の物体抽出手段による予測誤差が所定の範囲内であるときは、第２の物体抽出手段による抽出結果が物体領域として使用され、予測誤差が所定の範囲を越えたときは第１の物体抽出手段による抽出結果が物体領域として使用されるように、予測誤差量に基づいて、フレーム内のブロック単位で第１および第２の物体抽出手段を選択的に切り替えて使用することが望ましい。

また、第２の物体抽出手段は、参照フレームと物体抽出対象となる現フレームとの間のフレーム間隔が所定フレーム以上あくように入力フレーム順とは異なる順序でフレーム間予測を行うことを特徴とする。これにより、入力フレーム順でフレーム間予測を順次行う場合に比べフレーム間の動き量が大きくなるため、予測精度を向上でき、結果的に抽出精度を高めることが可能となる。

すなわち、フレームの間隔によっては動きが小さ過ぎたり、複雑過ぎて、フレーム間予測による形状予測手法では対応できないことがある。従って、例えば形状予測の誤差が閾値以下にならない場合は、予測に用いる抽出済みフレームとの間隔をあけることにより、予測精度が上がり、結果的に抽出精度が向上する。また、背景に動きがある場合は、参照フレーム候補は抽出フレームとの背景動きを求め補償するが、背景の動きがフレームの間隔によっては小さ過ぎたり複雑過ぎたりして、背景動き補償が精度良くできない場合がある。この場合もフレーム間隔をあけることによって動き補償精度を上げることができる。このようにして抽出フレームの順序を適応的に制御すれば、より確実に物体の形状を抽出することが可能になる。

また、本発明は、動画像データと、その動画像データを構成する複数フレーム内の所定フレーム上における物体領域を表すシェイプデータとを入力し、そのシェイプデータを用いて前記動画像データから物体領域を抽出する物体抽出装置において、前記動画像データが記録されている記憶装置から前記動画像データを読み出し、前記シェイプデータを動き補償することにより、前記読み出した動画像データを構成する各フレーム毎にシェイプデータを生成する手段と、前記生成されたシェイプデータによって決定される各フレームの背景領域の画像データを背景メモリ上に逐次上書きすることによって、前記動画像データの背景画像を生成する手段と、前記動画像データが記録されている記憶装置から前記動画像データを再度読み出し、前記読み出した動画像データを構成する各フレーム毎に前記背景メモリ上に蓄積されている背景画像の対応する画素との差分を求め、差分の絶対値が所定のしきい値よりも大きい画素を物体領域として決定する手段とを具備する。

この物体抽出装置においては、記憶装置からの動画像データを読み出す１回目のスキャン処理にて、背景画像が背景メモリ上に生成される。次いで、２回目のスキャン処理が行われ、１回目のスキャンで完成された背景画像を用いた物体領域の抽出が行われる。このようにして、動画像データが記憶装置に蓄積されていることを利用して動画像データを２回スキャンすることにより、動画像シーケンスの最初から十分に高い精度で物体領域を抽出することが可能となる。

また、本発明は、前記各フレームのシェイプデータによって決定される物体領域と、前記背景画像との差分の絶対値に基づいて決定される物体領域のいずれかを物体抽出結果として選択的に出力する手段をさらに具備する。画像によっては、１スキャン目で得たシェイプデータによって決定される物体領域の方が、２スキャン目で、背景画像との差分を利用して得た物体領域よりも抽出精度が高い場合がある。したがって、１スキャン目で得た物体領域と２スキャン目で得た物体領域とを選択的に出力できるようにすることにより、さらに抽出精度の向上を図ることが可能となる。

また、本発明は、動画像データと、この動画像データを構成する複数のフレーム内の所定フレーム上の物体領域を表すシェイプデータとを入力し、前記シェイプデータが与えられたフレームあるいは既にシェイプデータを求めたフレームを参照フレームとして使用することにより、前記各フレームのシェイプデータを逐次求めていく物体抽出装置であって、現処理フレームをブロックに分割する手段と、前記ブロック毎に、画像データの図柄が相似であり、且つ面積が現処理ブロックよりも大きい相似ブロックを前記参照フレームから探索する手段と、前記参照フレームから相似ブロックのシェイプデータを切り出して縮小したものを、前記現処理フレームの各ブロックに貼り付ける手段と、前記貼り付けられたシェイプデータを現処理フレームのシェイプデータとして出力する手段とを具備する。

この物体抽出装置においては、物体抽出対象の現フレームの各ブロック毎に、画像データ（テクスチャ）の図柄が相似であり、且つ面積が現処理ブロックよりも大きい相似ブロックの探索処理と、探索された相似ブロックのシェイプデータを切り出して縮小したものを現処理フレームのブロックに貼り付ける処理とが行われる。このように現処理ブロックよりも大きい相似ブロックのシェイプデータを縮小して張り付けることにより、シェイプデータで与えられる物体領域の輪郭線がずれていてもそれを正しい位置に補正することが可能となる。したがって、例えばユーザがマウスなどで最初のフレーム上の物体領域の輪郭を大まかになぞったものをシェイプデータとして与えるだけで、以降の入力フレーム全てにおいて物体領域を高い精度で抽出することが可能となる。

また、本発明は、画像データと、その画像の物体領域を表すシェイプデータを入力し、そのシェイプデータを用いて前記画像データから物体領域を抽出する物体抽出装置において、前記シェイプデータの輪郭部分にブロックを設定し、各ブロック毎に、前記画像データの図柄が相似であり、且つ前記ブロックよりも大きい相似ブロックを同じ画像の中から探索する手段と、前記各ブロックのシェイプデータを各々の前記相似ブロックのシェイプデータを縮小したもので置き換える手段と、前記置き換えを所定の回数だけ繰り返す手段と、前記置き換えを繰り返されたシェイプデータを補正されたシェイプデータとして出力する手段とを具備する。

このようにフレーム内のブロックマッチングによって、相似ブックを用いた置き換え処理を行うことにより、シェイプデータによって与えられる輪郭線を正しい位置に補正することが可能となる。また、フレーム内のブロックマッチングであるので相似ブックの探索および置き換えを同一ブロックについて繰り返し行うことができ、これにより補正精度をさらに高めることが可能となる。

本発明によれば、目的とする物体を囲む図形を用いてその物体を追跡することにより、目的の物体以外の周囲の余分な動きに影響を受けずに、目的の物体を精度良く抽出・追跡することが可能となる。

また、入力画像によらずに高い抽出精度を得ることが可能となる。さらに、動画シーケンスの初めの部分も最後の部分と同様に高い抽出精度が得られる。また、物体の動きが小さかったり、全く動かない場合でも正しく抽出される。

図１には、本発明の第１実施形態に係る動画像の物体追跡／抽出装置の全体の構成が示されている。この物体追跡／抽出装置は、入力動画像信号から目的とする物体の動きを追跡するためのものであり、初期図形設定部１と、物体追跡・抽出部２とから構成されている。初期図形設定部１は、外部からの初期図形設定指示信号ａ０に基づいて、追跡／抽出対象となる目的の物体を囲むような図形を入力動画像信号ａ１に対して初期設定するために使用され、初期図形設定指示信号ａ０によって例えば長方形、円、楕円などの任意の形状の図形が目的の物体を囲むように入力動画像信号ａ１の初期フレーム上に設定される。初期図形設定指示信号ａ０の入力方法としては、例えば入力動画像信号ａ１を表示する画面上に利用者がペンやマウスなどのポインティングデバイスを用いて図形そのものを直接書き込んだり、あるいはそれらポインティングデバイスを用いて入力する図形の位置や大きさを指定するなどの手法を用いることができる。これにより、目的の物体が現れる初期フレーム画像上において、追跡／抽出対象となる物体を外部から容易に指示することが可能となる。

また、ユーザによる図形入力ではなく、図形の初期設定は、通常のフレーム画像を解析する処理によって例えば人や動物の顔、体の輪郭などを検出し、それを囲むように図形を自動設定することによっても実現できる。

物体追跡・抽出部２は、初期図形設定部１で設定された図形内に含まれる図形内画像を基準として物体の追跡および抽出を行う。この場合、動物体の追跡・抽出処理では、図形で指定された物体に着目してその物体の動きが追跡される。従って、目的とする動物体以外の周囲の余分な動きに影響を受けずに目的とする動物体の抽出／追跡を行える。

図２には、物体追跡・抽出部２の好ましい構成の一例が示されている。

この物体追跡・抽出部は、図示のように、メモリ（Ｍ）１１，１４、図形設定部１１、背景領域決定部１２、および物体抽出部１３から構成されている。

図形設定部１１は、これまでに入力および図形設定した任意のフレームを参照フレームとして使用しながら入力フレームに対して順次図形を設定するために使用される。この図形設定部１１は、現フレーム画像１０１、参照フレームの図形内画像およびその位置１０３と、参照フレームの物体抽出結果１０６を入力し、現フレームの任意の図形で囲まれた領域内を表す画像１０２を出力する。すなわち、図形設定部１１による図形設定処理では、参照フレームの図形内画像１０３と現フレーム画像１０１との相関に基づいて、参照フレームの図形内画像１０３との誤差が最小となる現フレーム画像上の領域が探索され、その領域を囲むような図形が現フレーム画像１０１に対して設定される。設定する図形は、長方形、円、楕円、エッジで囲まれた領域、など、何でも良い。以下では、簡単のために長方形の場合について述べる。また、図形設定部１１の具体的な構成については、図５を参照して後述する。なお、物体を囲む図形を用いない場合は、図形内画像は全画像とし、位置を入出力する必要がない。

メモリ１０には、これまでに入力および図形設定されたフレームが少なくとも３つ程度保持される。保持される情報は、図形設定されたフレームの画像、設定された図形の位置や形状、図形内の画像などである。また、入力フレームの画像全体ではなく、その図形内画像だけを保持するようにしても良い。

背景領域決定部１２は、物体抽出対象の現フレーム毎にその現フレームとは時間的に異なるフレームの中の少なくとも二つの任意のフレームを参照フレームとして使用し、各参照フレーム毎に現フレームとの差分を取ることによってそれら各参照フレームと現フレーム間の共通の背景領域を決定する。この背景領域決定部１２は、メモリ１０で保持された、現フレームの任意の図形内画像およびその位置１０２と、少なくとも２つのフレームの任意の図形内画像およびその位置１０３と、該少なくとも２つのフレームの物体抽出結果１０６を入力し、現フレームと該少なくとも２つのフレームそれぞれの図形内画像との共通の背景領域１０４を出力する。すなわち、参照フレームとして第１および第２の２つのフレームを使用する場合には、現フレームと第１の参照フレームとの間のフレーム間差分を取ることなどによって得られた第１の差分画像により、現フレームと第１の参照フレームのどちらにおいても背景領域として用いられている共通の第１の背景領域が決定されると共に、現フレームと第２の参照フレームとの間のフレーム間差分を取ることなどによって得られた第２の差分画像により、現フレームと第２の参照フレームのどちらにおいても背景領域として用いられている共通の第２の背景領域が決定されることになる。この背景領域決定部１２の具体的な構成は、図４を参照して後述する。また、背景メモリを使って、共通の背景を得る手法もある。

なお、物体を囲む図形を用いない場合は、図形内画像は全画像とし、位置を入出力する必要がない。

物体抽出部１３は、背景領域決定部１２にて決定された共通の背景領域を用いて現フレームの図形内画像から物体領域のみを抽出するために使用され、該現フレームと少なくとも２つのフレームそれぞれとの共通の背景領域１０４を入力し、現フレームの物体抽出結果１０６を出力する。第１および第２の差分画像のどちらにも現フレーム上の物体領域が共通に含まれているため、第１の共通背景領域と第２の共通背景領域のどちらにも属さない領域の中で、現フレームの図形内画像に含まれる領域を検出することにより、現フレーム上の物体領域が抽出される。これは、共通の背景領域以外の領域が物体領域の候補となることを利用している。つまり、第１の差分画像上においては第１の共通背景領域以外の領域が物体領域候補となり、第２の差分画像上においては第２の共通背景領域以外の領域が物体領域候補となるので、２つの物体領域候補の重複する領域を、現フレームの物体領域と判定することができる。物体抽出結果１０６としては、物体領域の位置や形状を示す情報を使用することができる。また、その情報を用いて実際に現フレームから物体領域の画像を取り出すようにしても良い。

メモリ１４は、少なくとも２つの物体抽出結果を保持し、既に抽出されている結果をフイードバックして抽出精度をあげるために用いられる。

ここで、図８を参照して、本実施形態で用いられる物体抽出・追跡処理の方法について説明する。

ここでは、時間的に連続する３つのフレームｆ（ｉ−１），ｆ（ｉ），ｆ（ｉ＋１）を用いて、現フレームｆ（ｉ）から物体を抽出する場合を例示して説明する。

まず、前述の図形設定部１１によって図形設定処理が行われる。３つのフレームｆ（ｉ−１），ｆ（ｉ），ｆ（ｉ＋１）についてもそれぞれ任意の参照フレームを使用することにより図形設定処理が行われ、そのフレーム上の物体を囲むように長方形Ｒ（ｉ−１），Ｒ（ｉ），Ｒ（ｉ＋１）が設定される。なお、長方形の図形Ｒ（ｉ−１），Ｒ（ｉ），Ｒ（ｉ＋１）は位置および形状の情報であり、画像として存在するものではない。

次に、背景領域決定部１２にて共通背景領域が決定される。

この場合、まず、現フレームｆ（ｉ）と第１の参照フレームｆ（ｉ−１）との間のフレーム間差分が取られ、第１の差分画像ｆｄ（ｉ−１，ｉ）が求められる。同様にして、現フレームｆ（ｉ）と第２の参照フレームｆ（ｉ＋１）との間のフレーム間差分も取られ、第２の差分画像ｆｄ（ｉ，ｉ＋１）が求められる。

第１の差分画像ｆｄ（ｉ−１，ｉ）を得ることにより、現フレームｆ（ｉ）と第１の参照フレームｆ（ｉ−１）とで共通の画素値を持つ部分については画素値が相殺されるためその画素の差分値は零となる。したがって、フレームｆ（ｉ−１）とｆ（ｉ）の背景がほぼ同様であれば、基本的には、第１の差分画像ｆｄ（ｉ−１，ｉ）には、長方形Ｒ（ｉ−１）の図形内画像と、長方形Ｒ（ｉ）の図形内画像とのＯＲに相当する画像が残ることになる。この残存画像を囲む図形は、図示のように、多角形Ｒｄ（ｉ−１，ｉ）＝Ｒ（ｉ−１）ＯＲＲ（ｉ）となる。現フレームｆ（ｉ）と第１の参照フレームｆ（ｉ−１）の共通の背景領域は、多角形Ｒｄ（ｉ−１，ｉ）内の実際の物体領域（ここでは、２つの丸を一部重ねた結果得られる８の字の形状をした領域）以外の全領域となる。

また、第２の差分画像ｆｄ（ｉ，ｉ＋１）についても、長方形Ｒ（ｉ）の図形内画像と、長方形Ｒ（ｉ＋１）の図形内画像とのＯＲに相当する画像が残ることになる。この残存画像を囲む図形は、図示のように、多角形Ｒｄ（ｉ，ｉ＋１）＝Ｒ（ｉ）ＯＲＲ（ｉ＋１）となる。現フレームｆ（ｉ）と第２の参照フレームｆ（ｉ＋１）の共通の背景領域は、多角形Ｒｄ（ｉ，ｉ＋１）内の実際の物体領域（ここでは、２つの丸を一部重ねた結果得られる８の字の形状をしたもの）以外の全領域となる。

この後、第１の差分画像ｆｄ（ｉ−１，ｉ）から現フレームｆ（ｉ）と第１の参照フレームｆ（ｉ−１）の共通の背景領域を決定する処理が行われる。

共通背景領域・物体領域の判定のためのしきい値となる差分値が必要になる。これは、ユーザーが与えてもよいし、画像のノイズや性質を検出して自動設定してもよい。その場合、一画面で一つのしきい値でなくとも、画像中の部分的な性質に応じて部分的に決定してもよい。画像の性質は、エッジの強さや差分画素の分散などが考えれれる。また、物体を追跡する図形を用いて求めることもできる。

この場合、共通背景領域／物体領域の判定のためのしきい値となる差分値が求められ、しきい値以下の差分値を持つ画素の領域が共通背景領域として決定される。このしきい値は、第１の差分画像ｆｄ（ｉ−１，ｉ）の多角形Ｒｄ（ｉ−１，ｉ）の外側の一ライン、つまり多角形Ｒｄ（ｉ−１，ｉ）の輪郭線上に沿った各画素の差分値のヒストグラムを用いて決定することができる。ヒストグラムの横軸は画素値（差分値）、縦軸はその差分値を持つ画素数である。たとえば、画素数が多角形Ｒｄ（ｉ−１，ｉ）からなる枠線上に存在する全画素数の半分となるような差分値が、前述のしきい値として決定される。このようにしきい値を決定することにより、第１の差分画像ｆｄ（ｉ−１，ｉ）全体にわたって画素値の分布を調べることなく、容易にしきい値を決定することが可能となる。

次に、このしきい値を用いて、第１の差分画像ｆｄ（ｉ−１，ｉ）の多角形Ｒｄ（ｉ−１，ｉ）内における共通背景領域が決定される。共通背景領域以外の領域はオクルージョンを含んだ物体領域となる。これにより、多角形Ｒｄ（ｉ−１，ｉ）内の領域は背景領域と物体領域に２分され、背景領域の画素値が“０”、物体領域の画素値が“１”の２値画像に変換される。

第２の差分画像ｆｄ（ｉ，ｉ＋１）についても、同様にして、現フレームｆ（ｉ）と第２の参照フレームｆ（ｉ＋１）の共通の背景領域を決定する処理が行われ、多角形Ｒｄ（ｉ，ｉ＋１）内の領域が画素値“０”の背景領域と、画素値“１”の物体領域に変換される。

この後、物体抽出部１３による物体抽出力が行われる。

ここでは、第１および第２の差分画像との間で、多角形Ｒｄ（ｉ−１，ｉ）内の２値画像と多角形Ｒｄ（ｉ，ｉ＋１）内の２値画像とのＡＮＤ処理を画素毎に行う演算処理が行われ、これによってオクルージヨン入りの物体の交わりが求められ、現フレームｆ（ｉ）上の物体Ｏ（ｉ）が抽出される。

なお、ここでは、フレーム差分画像内の物体領域以外の他の全ての領域を共通背景領域として求める場合について説明したが、各フレームから図形内画像だけを取り出し、フレーム上での各図形内画像の位置を考慮してそれら図形内画像同士の差分演算を行うようにしてもよく、この場合には、図形外の背景領域を意識することなく、多角形Ｒｄ（ｉ−１，ｉ）内、および多角形Ｒｄ（ｉ，ｉ＋１）内の共通背景領域だけが決定されることになる。

このように、本実施形態では、
１）現フレームとこの現フレームに対し時間的に異なる第１および第２の少なくとも２つの参照フレームそれぞれとの差分画像を求めることにより、現フレームと第１参照フレーム間の図形内画像のＯＲと、現フレームと第２参照フレーム間の図形内画像のＯＲとを求め、
２）それら図形内画像のＯＲ処理により得られた差分画像をＡＮＤ処理し、これによって、現フレームの図形内画像から目的の物体領域を抽出するという、図形内画像に着目したＯＲＡＮＤ法による物体抽出が行われる。

また、現フレームと２つの参照フレームとの時間関係は前述の例に限らず、例えば、現フレームｆ（ｉ）に対して時間的に先行する２つのフレームｆ（ｉ−ｍ），ｆ（ｉ−ｎ）を参照フレームとして使用したり、時間的に連続する２つのフレームｆ（ｉ＋ｍ），ｆ（ｉ＋ｎ）を参照フレームとして使用することも可能である。

例えば、図８において、フレームｆ（ｉ−１），ｆ（ｉ）を参照フレームとして使用し、これら参照フレームそれぞれとフレームｆ（ｉ＋１）との差分を取って、それら差分画像に対して同様の処理を行えば、フレームｆ（ｉ＋１）から物体を抽出することができる。

図３には、物体追跡・抽出部２の第２の構成例が示されている。

図２の構成との主な違いは、背景動き削除部２１が設けられている点である。この背景動き削除部２１は、各参照フレームと現フレームとの間で背景の動きが相対的に零となるように背景の動きを補正するために使用される。

以下、図３の装置について、具体的に説明する。

背景動き削除部２１は、現フレーム２０１と時間的にずれた少なくとも２つのフレームの任意の図形内画像およびその位置２０６を入力し、時間的にずれた少なくとも２つのフレームの背景の動きを削除した画像２０２を出力する。この背景動き削除部２１の具体的な構成例については、図６で後述する。

図形設定部２２は、図２の図形設定部１１に対応し、現フレーム２０１と、該背景の動きを削除した少なくとも２つの画像２０２と、画像２０２の物休抽出結果２０６を入力し、現フレームおよび該少なくとも２つの画像２０２の、任意の図形に囲まれた領域内を表す画像２０３を出力する。

メモリ２６は、任意の図形内画像とその位置を保持する。

背景領域決定部２３は、図２の背景領域決定部１２に対応し、該任意の図形内画像およびその位置２０３と、画像２０２の物体抽出結果２０６を入力し、現フレームと該少なくとも２つの画像２０２との共通の背景領域２０４を出力する。物体抽出部２４は、図２の物体抽出部１３に対応し、該現フレームと少なくとも２つの画像との共通の背景領域２０４を入力し、現フレームの物体抽出結果２０５を出力する。メモリ２５は、少なくとも２つの物体抽出結果を保持する。これは、図２のメモリ１４に相当する。

このように背景動き削除部２１を設けることにより、例えばカメラをパンした時などのように背景映像が連続するフレーム間で徐々に変化するような場合であってもそれらフレーム間で背景映像を擬似的に一定にすることができる。よって、現フレームと参照フレームとの差分を取った時に、それらフレーム間で背景を相殺することが可能となり、背景変化に影響されない共通背景領域検出処理および物体領域抽出処理を行うことができる。

なお、背景動き削除部２１を背景領域決定部２３の入力段に設け、これにより参照フレームの背景の動きを現フレームに合わせて削除するようにしても良い。

図４（ａ）には、背景領域決定部１２（または２３）の具体的な構成利一例が示されている。

変化量検出部３１は、現フレームと前述の第１および第２の参照フレームとの差分を取るために使用され、現フレームと、時間的にずれたフレームの任意の図形内画像およびその位置３０２と、時間的にずれたフレームの物体抽出結果３０１を入力し、現フレームと時間的にずれたフレームの任意の図形内画像間の変化量３０３を出力する。変化量は、例えば、フレーム間の輝度差分や色の変化、オプティカルフロー、などを用いることができる。時間的にずれたフレームの物体抽出結果を使えば、フレーム間で物体が変化しない場合でも物体は抽出できる。例えば、変化量をフレーム間差分とすると、物体に属するフレーム間差分ゼロの部分は、物体が静止しているということなので、時間的にずれたフレームの物体抽出結果と同じになる。

代表領域決定部３２では、現フレームの任意の図形内画像およびその位置３０２を入力し、任意の図形内画像の背景を代表領域３０４として出力する。代表領域は、任意の図形内で最も背景が多いと予想される領域を選ぶ。例えば、図８で説明した差分画像上の図形の輪郭線などのように、図形内の最も外側に帯状の領域を設定する。図形は物体を囲むように設定されるので、背景となる可能性が高い。

背景変化量決定部３３では、代表領域３０４と、該変化量３０３を入力し、背景を判定する変化量３０５を出力する。背景変化量の決定は、図８で説明したように代表領域の差分値の変化量のヒストグラムをとり、例えば、全体の両素数の半分（過半数）以上の画素数に相当する変化量、つまり差分値をもつ領域を背景領域と決定する。

代表領域の背景決定部３４では、背景の変化量３０５を入力し、代表領域の背景３０６を判定し、出力する。代表領域の背景領域の決定は、先に決定した背景変化量かどうかで判定する。背景領域決定部３５では、変化量３０３と、背景判定のしきい値３０５と、代表領域の背景３０６を入力し、代表領域以外の領域の背景３０７を出力する。代表領域以外の背景領域の決定は、代表領域から成長法で行う。例えば、決定済みの画素と図形の内部方向に隣接する未決定画素が、背景変化量と一致すれば、背景と決定する。背景と隣接しない画素や、背景変化量と一致しない画素は、背景以外と判定される。また、単純に先に決定した背景変化量かどうかで判定してもよい。このようにして、差分画像上の図形の輪郭線から内周に向かって絞り込みを行うことにより、図形内画像の中でどこまでが背景領域であるかを決定することができる。

また、逆に、図形の輪郭線から外側に向かって図形からはみ出した物体領域を検出する。例えば、背景以外と決定された画素と図形の外側方向に隣接売る未決定画素が、背景変化量と一致しなければ、背景以外と決定する。背景以外の画素と隣接しない画素や背景変化量と一致する画素は背景と判定される。このようにして差分画像上の図形の輪郭線から外側に向かって広げることにより、図形外の画像のどこまでが背景外領域であるかを決定することができる。この場合は、図形外でも変化量を求める必要があるので、任意の図形を数画素太くして充分物体がはみ出さない図形を新たに設定して、その内部で変化量を求めるか、単純にフレーム全体で変化量を求めてもよい。また、図形内部だけ変化量を求めておき、図形外部の判定の時に随時変化量を求めながら上記処理を行ってもよい。当然、物体が図形をはみ出さない場合は、例えば、輪郭線上に背景以外の画素がない場合は、図形外部の処理を行う必要がない。

ところで、現フレームと参照フレームとの間で物体または物体の一部が静止している場合、現フレームと参照フレームとの差分が検出されず、物体の形状が正しく抽出されない場合がある。そこで、既に抽出されている参照フレームを使って現フレームの物体を検出する方法を図４（ｂ）を参照して説明する。

図４（ｂ）は、静止物体領域検出部３７を備えた背景領域決定部１２（または２３）を示している。これによると、変化量検出部３１は現フレームの図形内画像及びその位置と、時間的にずれた少なくとも２つのフレームの任意の図形内画像及びその位置３１１を入力とし、現フレームと参照フレームの図形内画像の変化量３１３を検出する。

形状予測部３６は、現フレームの図形内画像及びその位置と、時間的にずれた少なくとも２つのフレームの任意の図形内画像及びその位置３１１と、既に抽出されたフレームの画像及び物体形状３１７とを入力とし、現フレームと時間的にずれたフレームのうち未だ物体が抽出されていないフレームについては物体の形状３１２を予測し、出力する。

静止物体領域決定部３７は予測した物体形状３１２と、参照フレームと現フレームとの変化量３１３と、既に抽出されたフレームの物体形状３１７を入力とし、少なくとも２つのフレームから現フレームに対して静止している物体領域３１４を決定する。

背景領域決定部３５は少なくとも２つのフレームに関する、現フレームに対して静止している物体領域３１４と、参照フレームと現フレームとの変化量３１３とを入力とし、少なくとも２つのフレームと現フレームとのそれぞれの共通の背景領域３１６を決定し、出力する。

まず、参照フレームの物体が抽出されている場合は、現フレームで参照フレームとのフレーム間差分がゼロの領域について、参照フレームでは同じ位置の領域が物体の一部であれば、現フレームでのその領域は静止した物体の一部として抽出できる。逆に、その領域が参照フレームでは、背景の一部であれば、現フレームでのその領域は背景となる。

しかし、参照フレームの物体が未だ抽出されていない場合、静止した物体または物体の一部は上記方法では抽出できない。その場合、既に物体が抽出されている他のフレームを用いて、未だ抽出されていない参照フレームの物体形状を予測して、物体の一部であるかどうかを判定することができる。予測の方法は、画像の符号化でよく用いられるブロックマッチング法やアフェイン変換法などを用いる。

一例として、図１３で示すようなブロックマッチング法が考えられる。このようにして物体の形状が予測されれば、フレーム間差分が検出されない領域について静止した物体の一部か、背景かを判定することが可能となる。

物体を囲む図形を用いない場合は、図形内画像は全画像とし、位置を入出力する必要がない。この形状予測は、参照フレームを選択する場合の形状予測と同じものを使うことができる。また、別の物体抽出法と切り換える実施例では、別の物体抽出法で得た物体形状を用いることができる。

図５には、図形設定部１１（または２２）の具体的な構成の一例が示されている。

分割部４１では、現フレームと時間的にずれたフレームの任意の図形内画像とその位置４０２を入力し、分割された該画像４０３を出力する。任意の図形内画像の分割は、２等分、４等分、でもよいし、エッジを検出し、エッジにそった分割をおこなってもよい。以下、簡単に、２等分とし、分割された図形は、ブロックと呼ぶことにする。動き検出部４２では、該分割された任意の図形内画像とその位置４０３と、現フレームの任意の図形内画像とその位置４０１を入力し、該分割された画像の動きと誤差４０４を出力する。ここでは、ブロックが現フレームに対応する位置を、誤差が最小になるよう探索し、動きと誤差を求める。分割判定部４３では、該動きと誤差４０４と、時間的にずれたフレームの物体抽出結果４０７を入力し、時間的にずれたフレームの任意の図形内画像を分割するか否かの判定結果４０６と、分割しない場合、動き４０５を出力する。ここでは、時間的にずれたフレームの物体抽出結果が分割されたブロック内に含まれていなければ、そのブロックは図形内から削除する。そうでなけれは、求めた誤差から、誤差が閾値以上であれば、更に分割し、動きを求め直す。そうでなければ、ブロックの動きを決定する。図形決定部４４は、動き４０５を入力とし、現フレームの図形内画像とその位置４０７を出力する。ここでは、図形決定部４４は、各ブロックの、現フレームへの位置対応を求め、対応した位置のブロックを全て含むように、新しい図形を決定する。新しい図形は、全ブロックの結びつきも良く、全てのブロックを含むような長方形や円でもよい。

このようにして、参照フレームの図形内画像を複数のブロックに分割し、複数のブロックそれぞれについて現フレームとの誤差が最小となる領域を探索し、そして探索された複数の領域を囲む図形を現フレームに設定することにより、初期設定された図形の形状や大きさによらず、図形設定対象となる入力フレームに対して最適な形状の新たな図形を設定することが可能となる。

なお、図形設定に用いる参照フレームは既に図形が設定されていて且つ現フレームと時間的にずれたフレームであればよく、通常の符号化技術で前方向予測と後方向予測とが使用されていることと同様、現フレームよりも時間的に後のフレームを図形設定のための参照フレームとして用いることも可能である。

図６には、背景動き削除部２１の具体的な構成の一例が示されている。

代表背景領域設定部５１は、時間的にずれた任意の図形内画像とその位置５０１を入力とし、代表背景領域５０３を出力する。代表背景領域とは、任意の図形内のグローバルな動き、つまり図形内における背景の動きを代表して表す領域で、例えば、任意の図形を長方形にした場合、図７に示すような、長方形を囲む数画素幅の帯状の枠領域を設定する。また、図形内の外側の数画素を使っても良い。動き検出部５２では、現フレーム５０２と、該代表背景領域５０３を入力し、動き５０４を出力する。先の例を用いると、長方形周囲の帯状の枠領域の現フレームに対する動きを検出する。枠領域をーつの領域として検出しても良い。また、図７のように、複数のブロックに分割して動きを求め、各々の平均動きを出力しても良いし、最も多い動きを出力しても良い。

動き補償部５３では、該時間的にずれたフレーム５０１と、該動き５０４を入力とし、動き補償画像５０５を出力する。先に求めた動きを使って、時間的にずれたフレームの動きを現フレームに合わせて削除する。動き補償は、ブロックマッチング動き補償またはアフィン変換を使った動き補償でもよい。

なお、動き削除は、図形内の背景に対してのみならず、フレーム全体に対して行うようにしても良い。

以上のように、本実施形態においては、（１）物体の輪郭ではなく、その物体を大まかに囲む図形を用いて物体を追跡していくこと、（２）現フレームに任意の図形を設定し、現フレームと少なくとも２つのフレームそれぞれの図形内画像との共通の背景領域を決定し、現フレームの物体を抽出すること、（３）該時間的にずれた少なくとも２つのフレームの背景の動きを削除すること、（４）任意の図形内画像間の変化量を検出し、代表領域を決定し、現フレームと少なくとも２つのフレームの図形内画像とその位置の、背景に対応する変化量を決定し、変化量と代表領域との関係から背景かどうかを判定すること、（５）図形内画像を分割し、任意の図形内画像又は分割された図形内画像の一部の動きを検出し、任意の図形内画像又は分割された図形内画像の一部を分割するか否かを判定し、現フレームの任意の図形内画像と位置を決定すること、（６）背景を代表する領域を設定し、背景の動きを検出し、該時間的にずれたフレームの背景の動きを削除した画像を作ることにより、目的の物体以外の周囲の余分な動きに影響を受けずに、且つ比較的簡単な処理で、目的の物体を精度良く抽出・追跡することが可能となる。

また、本実施形態の物体抽出・追跡処理の手順はソフトウェア制御によって実現することもできる。この場合でも、基本的な手順は全く同じであり、図形の初期設定を行った後に、入力フレームに対して順次図形設定処理を行い、この図形設定処理と並行してあるいは図形設定処理完了後に、背景領域決定処理、物体抽出処理を行えばよい。

次に、本発明の第２実施形態を説明する。

前述の第１実施形態では、ＯＲＡＮＤ法による一つの物体抽出手段のみを備えていたが、入力画像によってはその手段だけでは十分な抽出性能が得られないこともある。また、第１実施形態のＯＲＡＮＤ法では、物体抽出対象となる現フレームと、この現フレームに対し時間的に異なる第１の参照フレームとの差分に基づいて共通の背景を設定し、また別の現フレームと時間的に異なる第２の参照フレームとの差分に基づいて共通の背景を設定している。しかし、この第１及び第２の参照フレームの選択方法は特に与えられていない。第１及び第２の参照フレームの選択によっては、物体の抽出結果に大きな差が生まれ、良好な結果を得られないことがあり得る。

そこで、本第２実施形態では、入力画像によらずに物体を高精度に抽出できるように第１実施形態を改良している。

まず、図９のブロック図を用いて、第２実施形態に係る物体追跡／抽出装置の第１の構成例について説明をする。

以下では、第１実施形態の物体追跡／抽出部２に対応する構成のみについて説明する。

図形設定部６０は、図２で説明した第１実施形態の図形設定部１１と同じものであり、フレーム画像６０１と、初期フレームまたは既に他の入力フレームに対して設定した図形６０２とを入力とし、フレーム画像６０１に図形を設定して出力する。スイッチ部ＳＷ６１は、既に行われた物体抽出の結果６０５を入力とし、それに基づいて、使用すべき物体抽出部を切り替えるための信号６０４を出力する。

物体追跡・抽出部６２は、図示のように第１乃至第Ｋの複数の物体追跡・抽出部から構成されている。これら物体追跡・抽出部はそれぞれ異なる手法で物体抽出を行う。物体追跡・抽出部６２の中には、第１実施形態で説明したＯＲＡＮＤ法を用いるものが少なくとも含まれている。また、別の方法による物体追跡・抽出部としては、例えばブロックマッチングによる形状予測法を用いたものや、アフィン変換による物体形状予測などを使用することができる。これら形状予測では、既に物体抽出されたフレームと現フレームとのフレーム間予測により現フレーム上の物体領域の位置または形状が予測され、その予測結果に基づいて現フレームの図形内画像６０３から物体領域が抽出される。

ブロックマッチングによる形状予測の一例を図１３に示す。現フレームの図形内画像は図示のように同じ大きさのブロックに分割される。各ブロック毎に絵柄（テクスチャ）が最も類似したブロックが、既に物体の形状及び位置が抽出されている参照フレームから探索される。この参照フレームについては、物体領域を表すシェイプデータが既に生成されている。シェイプデータは、物体領域に属する画素の画素値を“２５５”、それ以外の画素値を“０”で表したものである。この探索されたブロックに対応するシェイプデータが、現フレームの対応するブロック位置に張り付けられる。このようなテクスチャの探索およびシェイプデータの張り付け処理を現フレームの図形内画像を構成する全ブロックについて行うことにより、現フレームの図形内画像は、物体領域と背景領域を区別するシェイプデータによって埋められる。よって、このシェイプデータを用いることにより、物体領域に対応する画像（テクスチャ）を抽出することができる。

スイッチ部ＳＷ６１は、例えば第１の物体追跡抽出部と同様の操作を行ない、抽出精度が良い場合は第１の物体追跡抽部を選ぶよう切り替え、そうでない場合は別の物体追跡抽出部を選ぶよう切り替える。例えば、第１の物体追跡抽出部が、ブロックマッチングによる物体形状予測手段であるとすれば、マッチング誤差の大きさによって物体追跡抽出部の切り替えを制御すればよい。また、アフィン変換による物体形状予測であれば、アフィン変換係数の推定誤差の大きさによって物体追跡抽出部を切り替えることができる。スイッチ部ＳＷ６１での切替の単位は、フレーム単位ではなく、フレーム内の小領域、例えばブロック毎や、輝度や色に基づいて分割した領域毎である。これにより、使用する物体抽出法をよりきめ細かに選択することが出来、抽出精度を高めることができる。

図１０には、第２実施形態に係る動画像物体追跡／抽出装置の第２の例が示されている。

図形設定部７０は図２で説明した第１実施形態の図形設定部１１と同じものであり、画像７０１と、初期フレームまたは既に他の入力フレームに対して設定した図形７０２とを入力し、フレーム画像７０１に図形を設定して出力する。

第２の物体追跡・抽出部７１は、ブロックマッチング法やアフィン変換などの形状予測によって物体領域を抽出するために使用され、図形設定部７０から出力される現フレームの図形内画像７０３と、既に抽出されている別の参照フレーム上の物体の形状及び位置７０７を入力とし、現フレームの図形内画像７０３から物体の形状及び位置を予測する。

参照フレーム選択部７２は、第２の物体追跡・抽出部７１によって予測された現フレームの物体の予測形状及び位置７０４と、既に抽出されている物体の形状及び位置７０７とを入力し、少なくとも２つの参照フレームを選択する。ここで、参照フレームの選択方法について説明する。

Ｏ_i，Ｏ_j，Ｏ_currは各々フレームｉ，ｊ及び抽出中のフレームcurrの物体とする。２つの時間的に異なる参照フレームｆ_i，ｆ_jとの差分ｄ_i，ｄ_jを取って、これら差分をＡＮＤ処理して現フレームｆ_currの物体を抽出すると、抽出したい物体Ｏ_curr以外に、物体Ｏ_i ，Ｏ_jの重なり部分が時間的に異なるフレームのＡＮＤ処理により抽出される。勿論、Ｏ_i∩ Ｏ_j＝φ、つまり物体Ｏ_i ，Ｏ_jの重なり部分が存在せず、物体Ｏ_i ，Ｏ_jの重なりが空集合となる場合には問題ない。

しかし物体Ｏ_i ，Ｏ_jの重なり部分が存在し（Ｏ_i∩ Ｏ_j≠φ）、かつ、この重なり部分が抽出したい物体の外部に存在する場合は、Ｏ_currと、Ｏ_i∩ Ｏ_jの二つが抽出結果として残る。

この場合、図１４（ａ）のように、Ｏ_currの背景領域（Ｏ_curr￣）と、物体Ｏi と、Ｏ_jとの全ての共通領域が存在しない場合｛Ｏ_curr￣∩ （Ｏ_i∩ Ｏ_j）＝φ｝であれば、問題はない。しかし、図１４（ｂ）のように、Ｏ_currの背景領域（Ｏ_curr￣）と、物体Ｏ_i と、Ｏ_jとの全ての共通領域が存在する場合｛Ｏ_curr￣ ∩ （Ｏ_i∩ Ｏ_j）≠φ｝は、Ｏ_currが斜線で示すような誤った形状で抽出される。

従って、正しく物体の形状を抽出する最適な参照フレームｆ_i，ｆ_jとは、
（Ｏ_i∩ Ｏ_j）∩ Ｏ_curr …（１）
を満たすフレーム、つまり、Ｏ_i，Ｏ_{jの重なり部分が}Ｏ_{curr内に属するような}フレームｆ_i，ｆ_jである（図１４（ａ））。

また、２つ以上の参照フレームを選ぶ場合は、
（Ｏ_i∩ Ｏ_j∩…∩Ｏ_k）∩ Ｏ_curr …（２）
となる。

したがって、物体抽出対象となる現フレーム上の物体の位置または形状の予測結果に基づいて、（１）式または（２）式を満足するような参照フレームを選択することにより、確実に物体の形状を抽出することが可能になる。

第１の物体追跡・抽出部７３では、参照フレーム選択部７２で選択された少なくとも２つの参照フレーム７０５と、現画像７０１を入力し、ＯＲＡＮＤ法により物体を抽出してその形状及び位置７０６を出力する。

メモリ７４には、抽出された物体形状及び位置７０６が保持されている。

図１１には、第２実施形態に係る物体追跡／抽出装置の第３の構成例が示されている。

この物体追跡／抽出装置は、図示のように、図形設定部８０、第２の物体追跡・抽出部８１、スイッチ部ＳＷ８２、および第１の物体抽出部８３から構成されている。図形設定部８０、第２の物体追跡・抽出部８１、および第１の物体抽出部８３は、それぞれ図１０の図形設定部７０、第２の物体追跡・抽出部７１、および第１の物体抽出部７３に対応している。本例では、スイッチ部ＳＷ８２によって、第２の物体追跡・抽出部８１の抽出結果と第１の物体抽出部８３の抽出結果が選択的に使用される。

すなわち、図形設定部８０では、画像８０１と初期図形の形状及び位置８０２を入力し、図形の形状及び位置８０３を出力する。第２の物体追跡・抽出部８１では、図形の形状及び位置８０３と、既に抽出されている物体の形状及び位置８０６を入力し、未だ抽出されていない物体の予測形状及び位置８０４を予測し、出力する。スイッチ部ＳＷ８２では、第２の物体抽出部で予測された物体の形状及び位置８０４を入力し、第１の物体追跡・抽出部を行なうかどうかを切り替える信号８０５を出力する。物体追跡・抽出部８３では、既に抽出されている物体の形状及び位置８０６と、未だ抽出されていない物体の予測形状及び位置８０４を入力し、物体の形状及び位置８０５を決定し、出力する。

スイッチ部ＳＷ８２での切替の単位は、上記で述べた例と同様にブロック毎に切り替えても良いし、輝度や色に基づいて分割した領域毎に切り替えても良い。切替を判断する方法として、例えば物体予測したときの予測誤差を用いることができる。すなわち、フレーム間予測を用いて物体抽出を行う第２の物体追跡・抽出部８１における予測誤差が所定のしきい値以下の場合には、第２の物体追跡・抽出部８１によって得られた予測形状が抽出結果として使用されるようにスイッチ部ＳＷ８２による切替が行われ、第２の物体追跡・抽出部８１における予測誤差が所定のしきい値を越えた場合には、第１の物体追跡・抽出部８３によってＯＲＡＮＤ法にて物体抽出が行われるようにスイッチ部ＳＷ８２による切替が行われ、その抽出結果が外部に出力される。

図１５は、予測の単位となるブロック毎にマッチング誤差に基づいて、使用する抽出部を切り替えた場合の抽出結果の例を示している。

ここで、網目で示した領域は第２の物体追跡・抽出部８１による予測で得られた物体形状であり、斜線で示した領域は第１の物体追跡・抽出部８３によって得られた物体形状である。

図１２には、本第２実施形態に係る動画像物体追跡／抽出装置の第４の構成例が示されている。

この物体追跡／抽出装置は、図１１の構成に加え、図１０の参照フレーム選択部を追加したものである。

図形設定部９０では、画像９０１と初期図形の形状及び位置９０２を入力し、図形の形状及び位置９０３を出力する。第２の物体追跡・抽出部９１では、図形の形状及び位置９０３と、既に抽出されている物体の形状及び位置９０８を入力し、未だ抽出されていない物体の予測形状及び位置９０４を予測し、出力する。スイッチ部ＳＷ９２は、その予測した物体の形状及び位置９０４を入力とし、予測物体の精度が良いか否かを判断し、第２の物体抽出部で抽出された物体の出力を切り替える信号９０５を出力する。参照フレーム選択部９３は、未だ抽出されていない物体の予測形状及び位置９０４と既に抽出されている物体の形状及び位置９０８を入力とし、少なくとも２つの参照フレームの物体または予測物体の形状及び位置９０６を選択し、出力する。物体追跡・抽出部９４は、現画像９０１と、少なくとも２つの参照フレームの物体又は予測物体の形状及び位置９０６を入力とし、物体を抽出して、その形状及び位置９０７を出力する。メモリ９５は、抽出した物体の形状及び位置９０７と、その予測した物体の形状及び位置９０４いずれかを保持する。

以下、図１６を参照して、本例における物体追跡／抽出方法の手順を説明する。

（ステップＳ１）
参照フレームの候補としては、現フレームと時間的にずれたフレームが予め設定される。これは現フレーム以外の全てのフレームでも良いし、現フレーム前後の数フレームと限定してもよい。例えば、初期フレームと、現フレームより前３フレーム、現フレームより後１フレームの合計５フレームに限定する。ただし、前フレームが３フレームない場合はその分後のフレームの候補を増やし、後フレームが１フレームない場合はその分前４フレームを候補とする。

（ステップＳ２）
まず、ユーザが初期フレームに抽出したい物体を書こむ図形を例えば長方形で設定する。以降のフレームの図形は初期設定の図形をブロックに分割し、マッチングを取って対応する位置にブロックを張り付ける。全ての張り付けたブロックを含むように新たに長方形を設定することで物体を追跡する。全ての参照フレーム候補に物体追跡の図形を設定する。物体が抽出される度にそれを使って先のフレームの物体追跡図形を求め直すほうが抽出エラーを防ぐことができる。また、ユーザは初期フレームの物体形状を入力する。

以下、抽出するフレームは現フレームとし、現フレームより前のフレームは物体が既に抽出されており、先のフレームは抽出されていないとする。

（ステップＳ３）
参照フレーム候補の図形の周辺に適当な領域を設定し、現フレームとの背景の動きを検出して参照フレームの図形内の背景を削除する。背景の動きを検出する方法として、図形の周囲数画素の幅の領域を設定し、この領域を現フレームに対してマッチングを取り、マッチング誤差が最小となる動きベクトルを背景の動きとする。

（ステップＳ４）
背景動き削除時の動きベクトル検出誤差が大きい参照フレームは候補から外すことにより、背景動き削除が適当でない場合の抽出エラーを防ぐことができる。また、参照フレーム候補が減った場合、新たに参照フレーム候補を選び直してもよい。新たに付け加えた参照フレーム候補の図形設定や背景動き削除が行なわれていない場合は、新たに図形設定および背景動き削除を行なう必要がある。

（ステップＳ５）
次に、未だ物体が抽出されていない現フレームと、現フレームより先の参照フレームの候補の物体形状を予測する。現フレーム又は先の参照フレームの候補に設定された長方形を例えばブロックに分割して既に物体が抽出されているフレーム（前のフレーム）とマッチングを取り、対応する物体形状を張り付けて物体形状を予測する。物体が抽出される度にそれを使って先のフレームの物体予測をやり直すほうが抽出エラーを防ぐことができる。

（ステップＳ６）
この時、予測誤差が小さいブロックは、予測した形状を抽出結果としてそのまま出力する。また物体形状の予測をブロック単位で処理を行なうとマッチング誤差によりブロック歪みが生じる場合があるので、それを消去するようなフィルターをかけ、全体の物体形状を滑らかにしてもよい。

物体追跡及び物体形状予測の時に行なう長方形の分割は、固定ブロックサイズで行なっても良いし、マッチング閾値によって階層的ブロックマッチングによって行なっても良い。

予測誤差が大きいブロックについては、以下の処理を行う。

（ステップＳ７）
参照フレームの候補から仮の参照フレームを設定し、各々の組合せについて、式（１）又は式（２）を満たす参照フレームのセットを選ぶ。全参照フレーム候補のどの組合せも式（１）又は式（２）を満たさなかった場合、Ｏ_{i ∩} Ｏ_j内の画素数が最小のものを選ぶのがよい。また、背景動き削除時の動きベクトル検出誤差がなるべく小さいフレームを選ぶように、参照フレーム候補の組合せを考慮するほうがよい。具体的には、式（１）又は式（２）による条件が同じ参照フレームセットがあるばあい、背景動き削除時の動きベクトル検出誤差が小さい方を選ぶ、などの方法がある。以下、参照フレームは２フレーム選択されたとする。

（ステップＳ８）
参照フレームが選択されると、現フレームとのフレーム間差分を求め、設定された図形内のフレーム間差分に注目する。設定された図形の外側１ライン画素の差分の絶対値のヒストグラムを求め、多く現れる差分の絶対値を背景領域の差分値とし、設定された図形外側の１ライン画素の背景画素を決定する。設定された図形外側の１ライン画素の背景画素から内側に向けて、隣接する背景領域の差分値をもつ画素を背景画素と決定し、背景画素でないと判定されるまで順次続ける。この背景画素は、現フレームと一つの参照フレームとの共通の背景領域となる。この時、ノイズの影響で背景領域とそれ以外の部分の境界が不自然であることがあるので、境界を滑らかにするフィルターや、余分やノイズ領域を削除するフィルターをかけてもよい。

（ステップＳ９）
各々の参照フレームに対して共通の背景領域が求まると、二つの共通背景領域に含まれない領域を検出し、それを物体領域として抽出する。先に予測した物体の形状を用いない部分について、ここでの結果を出力し、物体全体の形状を出力する。

共通の背景から求めた形状を用いる部分と先に予測した物体形状を用いる部分の整合性が取れない場合、最後にフィルターをかけて出力結果を見ために良いものにできる。

以上説明したように、本第２実施形態によれば、入力画像によらずに物体を精度良く抽出できる。又は、物体抽出に適した参照フレームを選択することができる。

次に、本発明の第３実施形態を説明する。

まず、図１７のブロック図を用いて、第３実施形態に係る物体追跡／抽出装置の第１の例を説明をする。

ここでは、物体抽出対象となる現フレームから、その少なくとも一部の領域についての画像の特徴量を抽出し、その特徴量に基づいて複数の物体抽出手段を切り替える構成が採用されている。

すなわち、本物体追跡／抽出装置は、図示のように、図形設定部１１０、特徴量抽出部１１１、スイッチ部ＳＷ１１２、複数の物体追跡・抽出部１１３、およびメモリ１１４から構成されている。図形設定部１１０、スイッチ部ＳＷ１１２、複数の物体追跡・抽出部１１３は、それぞれ第２実施形態で説明した図９の図形設定部６０、スイッチ部ＳＷ６１、および複数の物体追跡・抽出部６２と同じであり、特徴量抽出部１１１によって抽出された現フレームの画像の特徴量に基づいて、使用する物体追跡・抽出部の切替が行われる点が異なっている。

図形設定部１１０は、抽出フレーム１１０１と、ユーザ設定による初期図形１１０２と、既に抽出されたフレームの抽出結果１１０６を入力とし、抽出フレームに図形を設定してその図形を出力する。図形は長方形、円、楕円、など幾何図形でもよいし、ユーザが物体形状を図形設定部１１０に入力してもよい。その場合、図形は精密な形状でなくても、大まかな形状でもよい。特徴量検出部１１１は、図形が設定された抽出フレーム１１０３と、既に抽出されたフレームの抽出結果１１０６とを入力とし、特徴量１１０４を出力する。スイッチ部ＳＷ１１２は、特徴量１１０４と、既に抽出されたフレームの抽出結果１１０６とを入力とし、図形が設定された抽出フレーム１１０３の物体追跡・抽出部への入力を制御する。

スイッチ部ＳＷ１１２は、画像全体に対して特徴量を得た場合は、画像の性質を検出し、画像に対して適当な物体追跡・抽出部への入力の制御に用いることができる。図形内部は適当な大きさに分割され、特徴量は各分割図形毎に与えても良い。特徴量は分散や輝度勾配、エッジ強度などであり、この場合は、これらを自動的に算出することができる。また、人間が視覚的に認知した物体の性質がユーザによってスイッチ部Ｗ１１２に与えられてもよい。例えば、目的とする物体が人物であれば、エッジが不鮮明な髪の毛を指定して抽出時のパラメータが特別に選ばれ、前処理にエッジ補正してから抽出されてもよい。

特徴量は、設定された図形内部（物体及びその周辺）に関してだけでなく、図形外部（背景部）に関する特徴量でも良い。

複数（第１〜ｋ）の物体追跡・抽出部１１３の各々では、図形が設定された抽出フレーム１１０３と、既に抽出されたフレームの抽出結果１１０６とを入力とし、物体を追跡・抽出した結果１１０５を出力する。

複数の物体追跡・抽出部１１３は、ＯＲＡＮＤ法を使用して物体を抽出するもの、クロマキーを使用して物体を抽出するもの、ブロックマッチングやアフィン変換によって物体を抽出するものなどを含む。

なお、実施形態１では、設定された図形の周囲の画素値のフレーム間差分のヒストグラムを用いて、背景画素が決定されているが、単純に、フレーム間差分が閾値以下の画素が背景画素と決定されても良い。また、実施形態１では、設定された図形から図形内部に向かって背景画素（差分値が一定値以下）が決定されているが、図形から図形外部へ向けて物体画素（差分値が一定値以上）も決定されても良いし、任意の操作順でもよい。

メモリ１１４は、物体を追跡・抽出した結果１１０５を入力とし、それを保持する。

以下、画像の性質を示す特徴量によって、追跡／抽出方法を切替えると、よりよい抽出結果が得られる理由について説明する。

例えば、背景の動きがあるかどうか予め分かるならば、その性質を使った方がよい。背景の動きがある場合は、背景動き補償が行なわれるが、完全に補償できるかわからない。複雑な動きをするフレームではほとんど動き補償できない。このようなフレームは、背景動き補償の補償誤差で予め分かるので、参照フレーム候補にしないなど工夫が可能である。しかし、背景の動きがない場合は、この処理は不必要である。別の物体が動いていると、誤った背景動き補償が行なわれたり、そのフレームは参照フレーム候補から外れたりして参照フレーム選択条件に最適なフレームであっても選ばれず、抽出精度が落ちることがある。

また、一つの画像中にも多様な性質が混在している。物体の動きやテクスチャも部分的に異なり、同じ追跡・抽出方法及び装置やパラメータではうまく物体が抽出できないことがある。従って、ユーザが画像中の特殊な性質を持つ一部を指定したり、画像中の違いを自動的に特徴量として検出して、部分的に追跡・抽出方法を切替えて物体を抽出したり、パラメータを変更した方がよい。

このようにして、複数の物体の追跡・抽出手段を切替えれば、様々な画像中の物体の形状を精度良く抽出することが可能になる。

次に、図１８のブロック図を用いて、第３実施形態に係る動画像物体追跡／抽出装置の第２の構成例について説明する。

図形設定部１２０は、抽出フレーム１２０１と、ユーザ設定による初期図形１２０２と、既に抽出されたフレームの抽出結果１２０７を入力とし、抽出フレームに図形を設定して出力する。第２の物体追跡・抽出部１２１は、ブロックマッチング法やアフィン変換などの形状予測によって物体領域を抽出するために使用され、図形が設定された抽出フレーム１２０３と、既に抽出されたフレームの抽出結果１２０７を入力とし、物体の追跡・抽出結果１２０４を出力する。

特徴量抽出部１２２は、物体の追跡・抽出結果１２０４を入力とし、物体の特徴量１２０５をスイッチ部ＳＷ１２３に出力する。スイッチ部ＳＷ１２３は、物体の特徴量１２０５を入力として、第一の物体追跡・抽出部への物体の追跡・抽出結果１２０４の入力を制御する。例えば、第２の物体追跡・抽出部１２１でブロックマッチング法により物体形状が追跡・抽出された場合、特徴量をマッチング誤差として、このマッチング誤差が小さい部分は第２の物体追跡・抽出部１２１による予測形状の抽出結果として出力される。また他の特徴量として、ブロック毎に輝度勾配や分散、テクスチャの複雑さを表すパラメータ（フラクタル次元など）がある。輝度勾配を用いた場合、輝度勾配がほとんどないブロックに対しては、ＯＲＡＮＤ法による第１の物体追跡・抽出部１２４の結果が使用されるように第一の物体追跡・抽出部への入力が制御される。またエッジ検出をして、エッジの有無や強度を特徴量とした場合、エッジのない所、弱い所では第１の物体追跡・抽出部１２４の結果が使用されるように第一の物体追跡・抽出部への入力が制御される。このように、画像の一部分であるブロック単位や領域単位で、切替の制御が変えられる。切替の閾値を大きくしたり小さくしたりすることで、適応的な制御ができる。

第１の物体追跡・抽出部１２４は、抽出フレーム１２０１と、物体の追跡・抽出結果１２０４と、既に抽出されたフレームの抽出結果１２０７を入力とし、抽出フレームの追跡・抽出結果１２０６をメモリ１２５に出力する。

メモリ１２５は、抽出フレームの追跡・抽出結果１２０６を入力とし、保持する。

次に、図１９のブロック図を用いて、本第３実施形態に係る物体追跡／抽出装置の第３の構成例をする。

この物体追跡／抽出装置は、図１８の構成に加え、第２実施形態で説明した参照フレーム選択部を追加したものである。すなわち、この物体追跡／抽出装置は、図示のように、図形設定部１３０、第２の物体追跡・抽出部１３１、特徴量抽出部１３２、スイッチ部ＳＷ１３３、参照フレーム選択部１３４、第１の物体追跡・抽出部１３５、およびメモリ１３６から構成されている。

図形設定部１３０では、抽出フレーム１３０１と、ユーザ設定による初期図形１３０２と、既に抽出されたフレームの抽出結果１３０８を入力とし、抽出フレームに図形を設定して出力する。第２の物体追跡・抽出部１３１は、ブロックマッチング法やアフィン変換などの形状予測によって物体領域を抽出するためのものであり、図形を設定された抽出フレーム１３０３と、既に抽出されたフレームの抽出結果１３０８を入力とし、物体の追跡・抽出結果１３０４を出力する。

特徴量抽出部１３２は、物体の追跡・抽出結果１３０４を入力とし、物体の特徴量１３０５を出力する。スイッチ部ＳＷ１３３は、物体の特徴量１３０５を入力とし、第１の物体追跡・抽出部１３５への物体の追跡・抽出結果１３０４の入力を制御する。

参照フレーム選択部１３４は、第１の物体追跡・抽出部１３５への物体の追跡・抽出結果１３０４と、既に抽出されたフレームの抽出結果１３０８を入力とし、参照フレーム１３０６を出力する。

物体の特徴の一例として、動きの複雑さがある。第２の物体追跡・抽出部１３１でブロックマッチング法により物体を追跡・抽出する場合、マッチング誤差が大きい部分に対して、第１の物体抽出結果が出力される。部分的に複雑な動きがあると、その部分はマッチング誤差が大きくなり、第１の物体追跡・抽出部１３５で抽出されることになる。従って、このマッチング誤差を特徴量として第１の物体追跡・抽出部１３５で用いる参照フレームの選択方法が切替えられる。具体的には物体形状全体ではなく、第１の物体追跡・抽出部１３５で抽出する部分だけについて第２実施形態で説明した式（１）または（２）の選択条件を満たすように参照フレームの選択方法を選ぶのがよい。

背景の特徴量の例は、１）背景が静止している画像である、２）ズームがある、３）パーンがあるという情報等である。この特徴量はユーザが入力しても良いし、カメラから得たパラメータが特徴量として入力されても良い。背景の特徴量としては、背景の動きベクトル、背景動き補正画像の精度、背景の輝度分布、テクスチャ、エッジなどがある。例えば背景動き補正画像の精度を背景動き補正画像と補正前画像との差分平均を特徴量として、参照フレーム選択方法が制御できる。制御例としては、差分平均が非常に多い場合、そのフレームは参照フレームの候補にしなかったり、そのフレームの選択順位を下げてフレームを選んだりできる。背景が静止している場合や、背景動き補正がすべてのフレームについて完全であると差分がゼロとなる。参照フレーム選択法は、第２実施形態と同じ方法を用いることができる。

第１の物体追跡・抽出部１３５は、抽出フレーム１３０１と、参照フレーム１３０６と、既に抽出されたフレームの抽出結果１３０８を入力とし、ＯＲＡＮＤ法により抽出フレームの追跡・抽出結果１３０７をメモリ１３５に出力する。メモリ１３５は、抽出フレームの追跡・抽出結果１３０７を入力し、保持する。

次に、図２２を用いて、先に挙げた例のうち、第２の物体追跡・抽出部からの出力から特徴量を得て、それによって複数の参照フレーム選択部を切替える例を第４の構成例として説明する。

図形設定部１６０は、抽出フレーム１６０１と、ユーザが設定した初期図形１６０２と、既に物体が抽出されたフレーム１６０８を入力とし、設定図形１６０３を出力する。第２の物体追跡・抽出部１６１は、ブロックマッチング法やアフィン変換などの形状予測によって物体領域を抽出するために使用され、設定図形１６０３と、既に物体が抽出されたフレーム１６０８を入力とし、物体追跡・抽出結果１６０４を出力する。特徴量検出部１６３は、物体追跡・抽出結果１６０４を入力とし、特徴量１６０５をスイッチ部ＳＷ１６４に出力する。スイッチ部ＳＷ１６４は、特徴量１６０５を入力し、参照フレーム選択部への物体追跡・抽出結果１６０４の入力を制御する。

複数の参照フレーム選択部１６５は、物体追跡・抽出結果１６０４と、既に物体が抽出されたフレーム１６０８を入力とし、少なくとも２つの参照フレーム１６０６を出力する。

第１の物体追跡・抽出部１６６は、ＯＲＡＮＤ法により物体抽出を行うために使用され、参照フレーム１６９６と、抽出フレーム１６０１を入力とし、物体の追跡・抽出結果１６０７をメモリ１６７に出力する。メモリ１６７は、物体の追跡・抽出結果１６０７を入力とし、保持する。

次に、ブロック図２３を用いて、先に述べた例のうち、背景の情報を得て、背景動き補正の誤差によって複数の参照フレーム選択部の入力を制御する例について説明する。

図形設定部１７０は、抽出フレーム１７０１と、ユーザが設定した初期図形１７０２と、既に物体が抽出されたフレーム１７１０を入力とし、設定図形１７０３を出力する。第２の物体追跡・抽出部１７１は、設定図形１７０３と、既に物体が抽出されたフレーム１７１０を入力とし、物体の追跡・抽出結果１７０４を出力する。スイッチ部ＳＷ１７２では、ユーザが指定した背景の情報１７０５を入力し、背景動き補正部１７３への抽出フレーム１７０１の入力を制御する。

背景動き補正部１７３は、抽出フレーム１７０１と、既に物体が抽出されたフレーム１７１０を入力とし、背景動きを補正したフレーム１７０６を出力する。

背景特徴量検出部１７４は、抽出フレーム１７０１と、背景動きを補正したフレーム１７０６を入力とし、背景の特徴量１７０７をスイッチ部ＳＷ１７５へ出力する。このスイッチ部ＳＷ１７５は、背景の特徴量１７０７を受け、参照フレーム選択部１７６への物体の追跡・抽出結果１７０４の入力を制御する。参照フレーム選択部１７６は、物体の追跡・抽出結果１７０４と、既に物体が抽出されたフレーム１７１０を入力し、少なくとも２つの参照フレーム１７０８を出力する。

第１の物体追跡・抽出部１７７は、少なくとも２つの参照フレーム１７０８と、抽出フレーム１７０１を入力とし、物体の追跡・抽出結果１７０９をメモリ１７８に出力する。メモリ１７８は、物体の追跡・抽出結果１７０９を受け、保持する。

次に、図２０のブロック図を用いて、本第３実施形態に係る物体追跡／抽出装置の第５の構成例を説明する。

抽出フレーム出力制御部１４０は、画像１４０１と抽出するフレームの順序１４０５を入力とし、抽出フレーム１４０２を出力する。フレーム順序制御部１４１は、ユーザが与えたフレーム順序に関する情報１４０５を入力とし、フレーム順序１４０６を出力する。物体追跡・抽出装置１４２は、動画像信号から目的とする物体の抽出／追跡を行なう物体追跡／抽出方法及び装置であり、抽出フレーム１４０２を入力とし、追跡・抽出結果１４０３を追跡・抽出結果出力制御部１４３に出力する。追跡・抽出結果出力制御部１４３は、追跡・抽出結果１４０３と、フレーム順序１４０６を入力とし、フレーム順序を画像１４０１の順序に並び変えて出力する。

フレームの順序は、ユーザが与えても良いし、物体の動きに応じて適応的に決定しても良い。物体の動きが検出しやすいフレーム間隔が決定され、物体が抽出される。すなわち、参照フレームと物体抽出対象となる現フレームとの間のフレーム間隔が少なくとも２フレーム以上となるように入力フレーム順とは異なる順序で物体抽出処理が行われるようにフレーム順の制御が行われる。これにより、入力フレーム順にフレーム間予測による形状予測や、ＯＲＡＮＤ演算を行う場合に比べ、予測精度を向上でき、結果的に抽出精度を高めることが可能となる。ＯＲＡＮＤ法の場合には適切な参照フレームを選択することによって抽出精度を高めることが可能となるため、ブロックマッチングなどによるフレーム間予測による形状予測法について特に効果がある。

次に、図２１のブロック図を用いて、本第３実施形態に係る物体追跡／抽出装置の第６の例を説明をする。

抽出フレーム出力制御部１５０は、画像１５０１と抽出するフレームの順序１５０５を入力とし、抽出フレーム１５０２を出力する。フレーム順序制御部１５１は、ユーザが与えたフレーム順序に関する情報１５０５を入力とし、フレーム順序１５０６を出力する。すなわち、フレーム順序制御部１５１は、フレーム間隔が与えられ、フレームの抽出順序を決定する。複数の物体追跡／抽出装置１５２は、動画像信号から目的とする物体の抽出／追跡を行なう物体追跡／抽出方法及び装置であり、フレーム順序１５０６にしたがって抽出フレーム１５０２の入力が制御され、追跡・抽出結果１５０３を出力する。追跡・抽出結果出力制御部１５３は、追跡・抽出結果１５０３と、フレーム順序１５０６を入力とし、それを画像１５０１の順序に並び変えて出力する。

飛ばされた間のフレームは、既に抽出されたフレームから内挿しても良いし、参照フレーム候補の選び方を変えて同じアルゴリズムで抽出しても良い。

ここで、図２５を用いて、図２１の物体の追跡／抽出装置の処理の例について説明する。

図２５で、斜線で示すフレームは２フレーム間隔開けて先に抽出するフレームである。飛ばされたフレームは第２の物体追跡・抽出装置によって抽出される。図２５のように両脇のフレームが抽出された後に、両脇のフレームの抽出結果から内挿して物体形状を求めてもよい。また、閾値などのパラメータを変えたり、これら両脇のフレームを参照フレーム候補に加えて、両脇のフレームと同じ方法で抽出してもよい。

次に、図２４のブロック図を用いて、物体追跡・抽出装置の他の構成例を説明する。

スイッチ部ＳＷ１８２は、ユーザが指定した背景の情報１８０５を入力とし、背景動き補正部１８３への抽出フレーム１８０１の入力を制御する。背景動き
補正部１８３は、抽出フレーム１８０１と、既に物体が抽出されたフレーム１８１１を入力とし、背景動きを補正したフレーム１８０６を出力する。背景特徴量検出部１８４は、抽出フレーム１８０１と、背景動きを補正したフレーム１８０６を入力とし、背景の特徴量１８０７を出力する。スイッチ部ＳＷ１８７は、背景の特徴量１８０７を入力とし、参照フレーム選択部１８８への物体の追跡・抽出結果１８０４の入力を制御する。図形設定部１８０は、抽出フレーム１８０１と既に物体が抽出されたフレーム１８１１並びにユーザが設定した初期図形１８０２を入力とし、図形を設定した抽出フレーム１８０３を出力する。第二の物体追跡・抽出部１８５は、図形を設定した抽出フレーム１８０３と既に物体が抽出されたフレーム１８１１を入力とし、物体追跡・抽出結果１８０４を出力する。特徴量検出部１８５は、物体追跡・抽出結果１８０４を入力とし、特徴量１８０８を出力する。スイッチ部ＳＷ１８６は、特徴量１８０８を入力とし、参照フレーム選択部への物体追跡・抽出結果１８０４の入力を制御する。参照フレーム選択部１８８は、物体追跡・抽出結果１８０４と、既に物体が抽出されたフレーム１８１１を入力とし、少なくとも２つの参照フレーム１８０９を出力する。

第一の物体追跡・抽出部１８９は、少なくとも２つの参照フレーム１８０９と、抽出フレーム１８０１を入力とし、物体の追跡・抽出結果１８１０をメモリ１９０に出力する。メモリ１９０は、物体の追跡・抽出結果１８１０を保持する。

処理の流れは以下のようになる。

ユーザが初期フレームにおいて抽出したい物体を大まかに囲む。以降のフレームの長方形は既に抽出された物体を囲む長方形を上下左右に数画素広げて設定する。この長方形をブロックに分割し、抽出済みのフレームとマッチングを取って対応する位置に抽出済み物体の形状を張り付ける。この処理によって得られた物体形状（予測物体形状）が大まかな物体を表す。予測の精度がある閾値以下にならない場合、別のフレームから予測を直してより予測精度を上げるように処理しても良い。

予測精度が良い場合、この予測形状全部又は一部をそのまま抽出結果として出力する。この方法は、物体を追跡しつつ、物体も抽出できる。

物体追跡及び物体形状予測の時に行なうブロック化は、長方形を固定ブロックサイズで分割しても良いし、マッチング閾値によって階層的ブロックマッチングによって行なっても良い。フレームを固定のサイズで分割し、物体を含むブロックだけを用いても良い。

予測が悪い場合を考えて、物体予測形状を数画素分拡張して、予測エラーによる凹凸や穴が修正される。この方法で全ての参照フレーム候補に予測物体形状が設定される。物体が抽出される度にその物体を使って先のフレームの物体追跡図形が求め直されそれにより抽出エラーが防がれる。この追跡図形が物体を囲むように設定された追跡図形とする。

以下、抽出フレームより前のフレームについては物体が既に抽出されており、先のフレームについては物体が抽出されていないものとする。

参照フレームの候補は、一定間隔おきに抽出するフレームに対して時間的に一定間隔毎にずれた前後５フレームとする。参照フレームの候補は、例えば、初期フレームと現フレームより前３フレーム、現フレームより後１フレーム、の合計５フレームのように限定する。ただし、前フレームが３フレームない場合はその分後のフレームの候補を増やし、後フレームが１フレームない場合はその分前４フレームを候補とする。

参照フレーム候補の物体の周辺に適当な領域が設定され、この領域と現フレームとの背景の動きが検出され、これにより参照フレームの図形内の背景が削除される。背景の動きを検出する方法として、物体を除いた全領域で現フレームに対してマッチングを取り、マッチング誤差が最小となる動きベクトルが背景の動きと判定される。

背景動き削除時の動きベクトル検出誤差が大きい参照フレームは候補から外すことにより、背景動き削除が適当でない場合の抽出エラーを防ぐことができる。また、参照フレーム候補が減った場合、新たに参照フレーム候補を選び直してもよい。新たに付け加えた参照フレーム候補の図形設定や背景動き削除が行なわれていない場合は、新たに図形設定や背景動き削除を行なう必要がある。

予め背景の動きがないと分かる場合は、この処理は行なわない。

参照フレームの候補から仮の参照フレームを設定し、これらフレームの組合せについて、第２実施形態の式（１）又は式（２）を満たす参照フレームのセットを選ぶ。全参照フレーム候補のどの組合せも式（１）又は式（２）を満たさなかった場合、Ｏ_{i ∩} Ｏ_j内の画素数が最小のフレームを選ぶのがよい。

また、背景動き削除時の動きベクトル検出誤差がなるべく小さいフレームを選ぶように、参照フレーム候補の組合せを考慮するほうがよい。具体的には、式（１）又は式（２）による条件が同じ参照フレームセットがある場合、背景動き削除時の動きベクトル検出誤差が小さい方のフレームを選ぶなどの方法がある。背景の動きがない場合は、フレーム間差分が十分検出できるフレームを優先的に選ぶようにできる。

また、物体予測の精度がよく、物体の一部をそのまま出力する場合、物体予測結果を抽出結果としない領域のみを対象に、式（１）又は式（２）による条件を満たすフレームを選ぶ。

以下、２参照フレームが選択されたときの処理を説明する。

参照フレームが選択されると、抽出フレームとのフレーム間差分を求め、設定された図形内のフレーム間差分に注目する。

設定された閾値でフレーム間差分を２値化する。２値化に用いる閾値は画像に対して一定でもよいし、背景動き補償の精度に応じてフレーム毎に変えても良い。制御例としては、背景動き補償の精度が悪ければ、背景に余分な差分が多く発生しているので、２値化の閾値を大きくする例などがある。また、物体の部分的な輝度勾配やテクスチャ、エッジ強度に応じて変えても良い。この制御例として、輝度勾配が少ない領域や、エッジ強度が小さい領域のように比較的平坦な領域は２値化の閾値を小さくする。更に、ユーザが物体の性質から閾値を与えても良い。

物体追跡図形の外側の画素について、隣接する背景領域の差分値を持つ画素を背景画素と決定する。また、同時に物体追跡図形の内側の画素についても、隣接する背景領域の差分値をもたない画素を背景画素でない、と決定する。

フレーム間差分は、物体の静止領域では検出できない。従って、予測に用いたフレームとのフレーム間差分がゼロで、かつ予測に用いたフレームでは物体内部の画素である場合は、静止領域画素として背景画素に加えない。

この背景画素は、現フレームと一つの参照フレームとの共通の背景領域となる。この時、ノイズの影響で背景領域とそれ以外の部分の境界が不自然であることがあるので、画像信号に境界を滑らかにするフィルターや、余分なノイズ領域を削除するフィルターをかけてもよい。

各々の参照フレームに対して共通の背景領域が求まると、二つの共通背景領域に含まれない領域が検出され、それが物体領域として抽出される。先に予測した物体の形状を用いない部分に対しては抽出結果が出力され、物体全体の形状が抽出される。共通の背景から求めた形状を用いる部分と先に予測した物体形状を用いる部分の整合性が取れない場合、最後にフィルターをかけて得た出力結果は見ために良いものにできる。

最後に抽出順が入力フレームの順序に置き換えて抽出された物体領域が出力する。

本発明のような物体の形状を抽出する方法及び装置は、現在標準化が固まりつつあるＭＰＥＧ−４のオブジェクト符号化の入力手段として用いることができる。このＭＰＥＧ−４と物体抽出の応用例として、物体形状をウインドウ形式とする表示システムがある。このような表示システムは、多地点会議システムに有効である。限られた大きさのディスプレイにテキスト資料と、各地点で会議に参加する人物を四角いウインドウで表示するよりも、図２６のように人物は人物の形状で表示することにより、省スペース化できる。ＭＰＥＧ−４の機能を使えば、発言中の人物だけを大きくしたり、発言していない人物を半透明にしたりでき、システムの使用感がよくなる。

以上説明したように、本第３実施形態によれば、画像の性質に応じて方法及び装置で物体を選ぶことによって、不必要な処理を省き、安定な抽出精度が得られる。また、時間順という制約を外すことによって物体の動きによらずに十分な抽出精度が得ることができる。

また、本第３実施形態は、第１実施形態及び第２実施形態の性能を改善するものであり、第１実施形態及び第２実施形態の各構成と第３実施形態で説明した構成とを適宜組み合わせて使用することもできる。

図２７には、本発明の第４実施形態に係る物体抽出装置の第１の構成例が示されている。

外部のカメラで撮像されたり、ビデオテープ、ビデオディスクなどの蓄積媒体から読み出されたりした後に、本物体抽出装置に入力されるテクスチャ画像２２１は、記録装置２２２、スイッチ部２２３、動き補償による物体抽出回路２２４に入力される。記録装置２２２は、入力されたテクスチャ画像２２１を保持するものである。例えば、パソコンなどで用いられているハードディスク、光磁気ディスクなどである。記録装置２２２は後にテクスチャ画像２２１を再び用いるために必要であり、テクスチャ画像２２１が外部の蓄積媒体に記録されていた画像である場合は、記録装置２２２を別に用意する必要はなく、その蓄積媒体が記録装置２２２として用いられる。この際は、記録装置２２２にテクスチャ画像２２１を入力しなおす必要はない。テクスチャ画像は、例えば、各画素の輝度（Ｙ）を０〜２５５の値で表した画素をラスタ順序（画像の左上の画素から右方向へ、上のラインから下のラインへの順序）で並べて形成され、一般に画像信号と呼ばれている。後に述べるシェイプ画像と区別するために、ここではテクスチャ画像と呼ぶことにする。テクスチャ画像としては、輝度以外にも、色差（Ｕ，Ｖなど）、色（Ｒ，Ｇ，Ｂなど）が用いられても良い。

一方、最初のフレームにおいて、操作者が抽出したい物体を別途抽出しておいたシェイプ画像２２５が、動き補償による物体抽出回路２２４に入力される。シェイプ画像は、例えば、物体に属する画素の画素値を“２５５”、それ以外の画素の画素値を“０”で表した画素をテクスチャ画像と同様にラスタ順序で並べて生成される。

ここで、最初のフレームのシェイプ画像２５を生成する実施例を図３４などを用いて詳しく説明する。

図３４では、省略しているが、背景や前景にも図柄があり、そのうちで、家の形をした物体２２６を抽出したいとする。操作者は、モニタに表示された画像２２７に対して、物体２２６の輪郭をマウスやペンでなぞる。その輪郭線の内側の画素に“２５５”、外側の画素に“０”を代入して得た画像をシェイプ画像とする。操作者が細心の注意をはらって輪郭線を描けば、このシェイプ画像の精度は高いものになるが、ある程度精度が低い場合でも、以下の方法を用いれば、精度を上げることができる。

図３５には、操作者によって描かれた線２２８と、物体２２６の輪郭線２２９が示されている。この段階では、輪郭線２２９の正しい位置はもちろん抽出されていないが、線２２８との位置関係を表すために輪郭線２２９が示している。

まず、輪郭線２２８を含むようにブロックが設定される。具体的には、画面をラスタ順でスキャンし、輪郭線２２８があった時、つまり、輪郭線２２８のシェイプ画像において、隣接する画素値に差があった時、その画素を中心にして所定のサイズのブロックを設ける。この際、既に設定したブロックと今回のブロックが重なる場合には、今回のブロック設定は行わずに、スキャンを進めるようにすると、図３６のように互いに重なりがなく、なおかつ接するようにブロックが設定できる。しかし、これだけでは、部分２３０，２３１，２３２がブロックに入っていない。そこで、もう一度スキャンを行い、ブロックに含まれない輪郭線があった時、やはり、その画素を中心にしてブロックが設けられる。但し、２度目のスキャンの時には、今回のブロックが既に設定したブロックと重なる部分があっても、中心とする画素が既に設定したブロックに含まれない限り、今回のブロックの設定を行う。図３７において斜線で示すブロック２３３，２３４，２３５，２３６が２スキャン目で設定されたブロックである。ブロックサイズは、固定にしてもよいが、輪郭線２２８によって囲まれる画素数が多い場合には大きく、その画素数が少ない場合には小さく、輪郭線２２８の凸凹が少ない場合には大きく、凸凹が多い場合には小さく、あるいは、画像の図柄が平坦な場合には大きく、図柄が細かい場合には小さく、設定してもよい。

画面の端では、普通にブロックを設定すると画面からはみだしてしまうことがある。そういう場合は、そのブロックだけ、画面からはみ出さないようにブロックの端を切って長方形のブロックにする。この場合は相似ブロックも長方形とする。

以上がシェイプ画像におけるブロックの設定方法である。

次に、ブロック毎に、その相似なブロックをテクスチャ画像を用いて探索する。ここで、相似とは、ブロックサイズが異なるブロック同士で、一方のブロックサイズを他方と同じになるように、拡大あるいは縮小した時に、対応する画素の画素値がほぼ等しくなることをいう。例えば、図３８のブロック２３７に対しては、ブロック２３８が、テクスチャ画像の図柄が相似になる。同様に、ブロック２３９に対しては、ブロック２４０が、ブロック２４１に対してはブロック２４２が、相似である。本実施形態では、相似ブロックは、輪郭線上に設定したブロックよりも大きくする。また、相似ブロックは、画面全体を探索するのではなく、例えば、図３９に示す様に、ブロック２４３の近くのブロック２４４，２４５，２４６，２４７を四隅とするある一定の範囲内で探索すれば十分である。図３９は各ブロックの中心を起点におき、ブロック２４３の起点を用いて、ブロック２４４，２４５，２４６，２４７の起点を所定の画素幅だけ、上下方向と左右方向に動かした場合である。起点をブロックの左上角においた場合を図４０に示す。

探索範囲内でも、一部が画面からはみ出す相似ブロックは、探索の対象から外すのであるが、ブロックが画面の端にあると、探索範囲にある全ての相似ブロックが探索の対象から外れてしまうことがある。そういう場合には、画面の端のブロックについては、探索範囲を画面の内側にずらして対応する。

相似ブロックの探索は、多段階探索を行うと、演算量を少なくできる。多段階探索とは、例えば１画素や半画素ずつ起点をずらしながら、探索範囲全体を探索するのではなく、初めに、とびとびの位置の起点で誤差を調べる。次に、その中で誤差が小さかった起点の周囲だけを少し細かく起点を動かして誤差を調べるということを繰り返しながら、相似ブロックの位置をしぼりこんでいく方法である。

相似ブロックの探索において、相似ブロックの縮小処理を毎回行うと、処理時間が多く必要である。そこで、予め画像全体を縮小したものを生成し、別のメモリに保持しておけば、相似ブロックに対応する部分のデータをそのメモリから読み出すだけで済む。

図３８では３つのブロック２３７，２３９，２４１についてだけ、相似ブロックを示しているが、実際には、図３７で示した全てのブロックに対して相似ブロックを求める。以上が相似ブロックの探索方法である。相似ブロックの探索はシェイプ画像ではなく、テクスチャ画像を用いることが肝要である。画面内で相似ブロックをブロックに写像する一次変換を考えた時に、テクスチャ画像の輪郭線は、この一次変換において不変である。

次に、各ブロックとその相似ブロックの位置関係を用いて、シェイプ画像の輪郭がテクスチャ画像の輪郭に合うように補正する方法を説明する。

図４１において、輪郭線２２８が操作者によって描かれた線である。この線が、正しい輪郭線２２９に近づけばよい。そのために、シェイプ画像の相似ブロック２３８の部分を読み出し、それをブロック２３７と同じサイズに縮小したもので、シェイプ画像のブロック２３７の部分を置き換える。この操作には、輪郭線を、相似ブロックからブロックへの一次変換の不動点を含む不変集合に近づける性質があるので、輪郭線２２８は輪郭線２２９に近づく。相似ブロックの一辺がブロックの一辺の２倍の長さの時、１回の置き換えで、輪郭線２２８と正しい輪郭線２２９の隔たりは概して、１／２になる。この置き換えを全てのブロックに対して１回行った結果が図４２の輪郭線２４８である。このブロックの置き換えを繰り返せば輪郭線２４８は、正しい輪郭線にさらに近づき、やがて、図４３に示すように、正しい輪郭線に一致する。実際には、２本の輪郭線のずれが画素間距離よりも小さい状態は意味がないので適当な回数で置き換えを終了する。本手法は、シェイプ画像で設定したＮ×Ｎ画素のブロックにテクスチャ画像での輪郭線が含まれる時に有効なのであるが、その場合、シェイプ画像の輪郭線とテクスチャ画像の輪郭線の距離は最大でおよそＮ／２である。相似ブロックの一辺の長さが、ブロックの一辺の長さのＡ倍とした時、１回の置き換えにつき、２本の輪郭線の距離は１／Ａになるのであるから、この距離が１画素よりも短くなることを式で表すと、置き換え回数をｘとして、
（Ｎ／２）×（１／Ａ）＾ｘ＜１
となる。ここで＾はべき乗を表し、上式では（１／Ａ）をｘ回乗ずるという意味である。上式から、
ｘ＞ｌｏｇ（２／Ｎ）／ｌｏｇ（１／Ａ）
となる。例えばＮ＝８，Ａ＝２の時は、
ｘ＞２
であり、置き換え回数は３回で十分である。

この物体抽出装置のブロック図を図３０に示す。まず、操作者によって入力されるシェイプ画像２４９が、シェイプメモリ２５０に記録される。シェイプメモリ２５０においては、図３６，３７を用いて前述した様にブロックが設定される。一方、テクスチャ画像２５１は、テクスチャメモリ２５２に記録される。テクスチャメモリ２５２からは、シェイプメモリ２５０から送られる、ブロックの位置情報２５３を参照して、ブロックのテクスチャ画像２５４が探索回路２５５に送られる。同時に、図３９や図４０を用いて説明した様に相似ブロックの候補もテクスチャメモリ２５２から、探索回路２５５に送られる。探索回路２５５では、相似ブロックの各候補を縮小した後に、ブロックとの誤差を計算し、その誤差が最小となったものを相似ブロックとして決定する。誤差としては輝度値の差分の絶対値和や、それに色差の差分の絶対値和を加えたものなどが考えられる。輝度だけに比べて、色差も用いると、演算量は多くなるが、物体の輪郭において輝度の段差が小さくても、色差の段差が大きい場合に正しく相似ブロックを決定できるので精度が向上する。相似ブロックの位置の情報２５６は縮小変換回路２５７に送られる。縮小変換回路２５７には、シェイプメモリ２５０から、相似ブロックのシェイプ画像２５８も送られる。縮小変換回路２５７では、相似ブロックのシェイプ画像が縮小され、その縮小された相似ブロックは輪郭線が補正されたシェイプ画像２５９として、シェイプメモリ２５０に返され、対応するブロックのシェイプ画像が上書きされる。このシェイプメモリ２５０の置き換えが所定の回数に達した時は、補正されたシェイプ画像２５９は外部に出力される。シェイプメモリ２５０の書き換えは、ブロック毎に逐次上書きしても良いし、メモリを２画面分用意して、一方から他方へ、初めに画面全体のシェイプ画像をコピーした後に、輪郭部分のブロックは相似ブロックを縮小したもので置き換えるようにしても良い。

この物体抽出方法を図４８のフローチャートを参照して説明する。

（フレーム内の縮小ブロックマッチングによる物体抽出方法）
ステップＳ３１では、シェイプデータの輪郭部分にブロックが設定される。ステップＳ３２では、現処理ブロックと画像データの図柄が相似である相似ブロックが同じ画像データから見つけられる。ステップＳ３３では、現処理ブロックのシェイプデータを相似ブロックのシェイプデータが縮小したデータで置き換えられる。

ステップＳ３４で処理済みブロック数が所定の数に達したらステップ３５に進む、そうでない場合は次のブロックに処理対象を進めてステップ３２に戻る。

ステップＳ３５では置き換えの繰り返し回数が所定の数に達したらステップ３６に進む、そうでない場合は、置き換えられたシェイプデータを処理対象としてステップ３１に戻る。ステップＳ３６では、置き換えを繰り返されたシェイプデータが物体領域として出力される。

この方法はブロックのエッジと相似ブロックのエッジが合った場合に効果がある。従って、ブロックに複数のエッジがある場合には、エッジが正しく合わないことがあるので、そういうブロックについては置き換えをせずに入力されたままのエッジを保持する。具体的には、ブロックのシェイプ画像を左右方向と上下方向に各ラインをスキャンし、１つのラインで“０”から“２５５”へ、あるいは“２５５”から“０”に変化する点が２つ以上あるラインが所定の数以上あるブロックは置き換えをしない。また、物体と背景の境界であっても部分によっては、輝度などが平坦な場合がある。このような場合もエッジ補正の効果が期待できないのでテクスチャ画像の分散が所定値以下のブロックについても置き換えをせずに、入力されたままのエッジを保持する。

相似ブロックの誤差が所定値よりも小さくならない場合、縮小をあきらめ、同じサイズで相似ブロックを求めても良い。この際、自分とはなるべく重ならないように相似ブロックを選ぶ。縮小を行わないブロックだけでは、エッジが補正される効果はないが、縮小を行うことによってエッジが補正されたブロックから、その補正されたエッジをコピーすることで、縮小を行わないブロックについても、間接的にエッジが補正される。

図４８に示したフローチャートは相似ブロックを見つけた直後にシェイプ画像の置き換えを行う例であったが、全ブロックの相似ブロックの位置情報を保持するようにすることで、初めに、相似ブロックの探索を全ブロックについて行い、次に、シェイプ画像の置き換えを全ブロックについて行う方法を図５０のフローチャートを参照して説明する。

この例では、１回の相似ブロックの探索に対してシェイプ画像の置き換えが複数回反復できる。

ステップＳ４１では、シェイプデータの輪郭部分にブロックが設定される。ステッブＳ４２では、現処理ブロックと画像データの図柄が相似である相似ブロックが同じ画像データ内から見つけられる。ステップＳ４３では、全てのブロックについて相似ブロックを見つける処理が終わったとき、つまり、処理済みブロック数が所定の数に達したときにはステップＳ４４に進む。そうでない場合はステップＳ４２に戻る。ステップＳ４４では、現処理ブロックのシェイプデータを相似ブロックのシェイプデータを縮小したもので置き換える。

ステップＳ４５では、全てのブロックについて置き換える処理が終わったとき、つまり、処理済みブロック数が所定の数に違したときにはステップＳ４６に進む。そうでない場合はステップＳ４４に戻る。ステップＳ４６では全ブロックの置き換え回数が所定の回数に達した場合はＳ４７に進む。そうでない場合はＳ４４に戻る。ステップＳ４７では、置き換え変換を繰り返されたシェイプデータが物体領域として出力される。

次にエッジ補正の精度を上げることができるブロックの設定方法を説明する。

前述したようにシェイブ画像の輪郭線の周囲にブロックを設定する方法では、図５１（ａ）に示されるように、正しい輪郭線３０１の一部がブロックに含まれなくなることがある。ここで、シェイプ画像の輪郭線３０２は太い線で示してある。仮に輪郭線の右下側が物体で左上側が背景だとすると、本当は背景である部分３０３は物体と誤って設定されているにもかかわらず、ブロックに含まれないために修正される可能性がない。このようにブロックと正しい輪郭線の間に隙間があると、正しく補正されない。

ブロックと正しい輪郭線の隙間を小さくするには、図５１（ｂ）に示したようにブロックをある程度重なり合わせる方法がある。こうすると、ブロックの数が増えるので、演算量は増加するが隙間３０４は小さくなる。従って抽出の精度は向上する。しかし、この例では、まだ隙間は完全にはなくならない。

隙間を小さくするには、図５１（ｃ）に示したようにブロックサイズを大きくすることも有効である。この例では、前述したブロックの重ねあわせを併用した。これにより、この例では隙間が完全になくなる。

このように、輪郭線の補正可能な範囲を広げるにはブロックサイズを大きくすることが有効である。しかし、ブロックサイズが大きすぎると、ブロックに含まれる輪郭線の形状が複雑になり、相似ブロツクが見つかりにくくなる。その例が図５２に示されている。

図５２（ａ）では、斜線の部分３０５が物体領域、白色の部分３０６が背景領域を表す。与えられたシェイプ画像の輪郭線３０７は黒線で示されている。このように、シェイプ画像の輪郭線３０７は正しい輪郭線と大きく隔たっており、また、正しい輪郭線には凹凸がある。これに対して、前に説明した方法とは異なる方法でブロックを配置した結果が図５２（ｂ）に示されている。ここでは、まず、互いに重ならず、かつ、隙間がないような矩形ブロックで画像が分割される。ブロック毎にテクスチャ画像での分散が計算され、分散が所定値よりも小さいブロックはその設定を解消した。従って図５２（ｂ）では、分散が所定値以上のブロックだけが残っている。これらのブロック毎に相似ブロックを求めるのであるが、例えばブロック３０８の近くにこれを縦横２倍にした図柄は存在しないし、他の多くのブロックについても同様である。従って、誤差最小な部分を相似ブロックとして選択はするものの、その位置関係を用いてシェィブ画像の置き換え変換を反復しても図５２（ｃ）に示す通り正しい輪郭線には合致しない。ただ、図５２（ａ）のシェイプ画像の輪郭線３０７と比較して、エッジ補正後の図５２（ｃ）のシェイプ画像の輪郭線３０９は、テクスチャ画像の輪郭線の大まかな凹凸（左と右に山があってその間に谷があるという程度のもの）は反映されている。この例で仮にブロックサィズを小さくすると、この大まかな補正さえされなくなってしまう。

このように、補正の範囲を広げるためにブロックサイズを大きくすると、ブロックに含まれる輪郭線の形状が複雑になり、相似ブロックが見つかりにくくなることがある。その結果エッジの補正が大まかにしかされなくなる。このような場合には、ブロックのサイズを初めは大きなサイズでエッジ補正を行い、その結果に対して、再度ブロックサイズを小さくしてエッジ補正を行うと、補正の精度が向上する。図５２（ｃ）に対して、ブロックサイズを縦横１／２にして補正を再度行い、さらに１／４にして補正を行クた結果が図５２（ｄ）に示される。このように、ブロックサイズを次第に小さくしながら補正を繰り返せば補正の精度を向上できる。

ブロックサイズを次第に小さくする方法を図５３のフローチャートを参照して説明する。

ステップＳ５１ではブロックサイズｂ＝Ａと設定する。ステップＳ５２では、図４８または図５０に示したエッジ補正と同様なエッジ補正を行う。ステップＳ５３では、ｂを観察し、ｂがＺ（＜Ａ）より小さくなると、この処理は終了する。ｂがｚ以上の場合にはステップＳ５４に進む。ステップＳ５４でブロックサイズｂを半分にしてＳ５２に進む。

以上、ブロックサイズを初めは大きめにし、次第に小さくしながら補正を繰り返すことで補正の精度を向上する例を示した。

図５４（ａ）に、ブロックを４５度傾けることで、ブロックと正しい輪郭線の間に隙間をできにくくする例が示されている。このように、輪郭線が斜めの場合にはブロックサイズを図５１（ｃ）ほど大きくしなくても、ブロックを傾ければ正しい輪郭線を覆うことができる。また、この例では、ブロックの重なりを無くしても図５４（ｂ）のように正しい輪郭線を覆える。このように、シェイプ画像の輪郭線と同じ向きにブロックの辺を傾けることで、ブロックと正しい輪郭線の間に隙間を生じにくくすることができる。具体的には、アルフア画像の輪郭線の傾きを検知しそれが水平か垂直に近い場合にはブロツクの向きは図５１（ｃ）のようにし、そうでない場合にはブロックの傾きは図５４（ｂ）のようにする。水平や垂直に近いという判断はしきい値との比較で行う。

以上が、最初のフレームの物体抽出処理である。これは、必ずしも動画像の最初のフレームだけではなく、静止画像一般に用いることができる手法である。なお、置き換えを１回行ったシェイプ画像に対して、ブロックを設定しなおし、その相似ブロックを求めなおして、２回目の置き換えを行うというように、置き換えの度にブロック設定と相似ブロックの探索を行えば、演算量は増えるが、より補正の効果が得られる。

また、相似ブロックはブロックのなるべく近い部分から選ばれるのが好ましいので、相似ブロックを探す範囲をブロックサイズによって切り換えるとよい。即ち、ブロックサイズが大きい場合には、相似ブロックを探す範囲を広くし、ブロックサイズが小さい場合には、相似ブロックを探す範囲を狭くする。

また、本手法では、シェイプデータの置き換えの過程で、シェイプデータに小さい穴や、孤立した小領域が誤差として出現することがある。そこで、ステップＳ３４，Ｓ３５，Ｓ３６，Ｓ４５，Ｓ４６，Ｓ４７，Ｓ５３の前などで、シェイプデータから、小さい穴や、孤立した小領域を除くことにより、補正の精度を向上することができる。小さい穴や、孤立した小領域を除くには、例えば、画像解析ハンドブック（高木、下田監修、東京大学出版会、初版１９９１年１月）５７５〜５７６頁に記載されている膨張と収縮を組み合わせた処理や、６７７頁に記載された多数決フィルタなどを用いる。

また、ブロックは図４９に示すように、より簡易的に設定しても良い。すなわち、画面を単純にブロック分割し、そのうちブロック２２００など、輪郭線２２８を含むブロックについてのみ、相似ブロックの探索や置き換えの処理を行う。

また、与えられるテクスチャ画像が予めフラクタル符号化（特公平０８−３２９２５５号公報「画像の領域分割方法及び装置」）によって圧縮されているのであれば、その圧縮データに、各ブロックの相似ブロックの情報が含まれている。従って、輪郭線２２８を含むブロックの相似ブロックとしては、圧縮データを流用すれば、改めて相似ブロックを探索する必要はない。

図２７に戻り、動画から物体を抽出する物体抽出装置の説明を続ける。

動き補償による物体抽出回路２４２では、テクスチャ画像２２１から検出される動きベクトルを用いながら、最初のフレームのシェイプ画像２５を元にして、２フレーム目以降のフレームのシェイプ画像２６０を生成する。

図２９に動き補償による物体抽出回路２２４の例が示される。最初のフレームのシェイプ画像２２５が、シェイプメモリ２６１に記録される。シェイプメモリ２６１においては、図４５のフレーム２６２に示した様に、画面全体にブロックが設定される。一方、テクスチャ画像２２１は、動き推定回路２６４に送られ、また、テクスチャメモリ２６３に記録される。テクスチャメモリ２６３からは、１フレーム前のテクスチャ画像２６５が動き推定回路２６４に送られる。動き推定回路２６４では、現処理フレームのブロック毎に、１フレーム前のフレーム内から誤差が最小となる参照ブロックを見つける。図４５に、ブロック２６７と、１フレーム前のフレーム２６６から選ばれた参照ブロック２６８の例が示される。ここで、誤差が所定のしきい値よりも小さくなるのであれば、参照ブロックはブロックよりも大きくする。ブロック２６９と縦横２倍の大きさの参照ブロック７０の例も図４５に示す。

図２９に戻り、参照ブロックの位置の情報２７１は動き補償回路２７２に送られる。動き補償回路２７２には、シェイプメモリ２６１から、参照ブロックのシェイプ画像２７３も送られる。動き補償回路２７２では、参照ブロックの大きさがブロックと同じ場合は、そのまま、参照ブロックの大きさがブロックよりも大きい場合は、参照ブロックのシェイプ画像が縮小され、その参照ブロックのシェイプ画像は現処理フレームのシェイプ画像２６０として出力される。また、次のフレームに備えて、現処理フレームのシェイプ画像２６０はシェイプメモリ２６１に送られて、画面全体のシェイプ画像が上書きされる。

参照ブロックがブロックよりも大きい場合、先に図４１，４２を用いて説明したのと同様に、輪郭線が正しい位置からずれていた場合に補正する効果がある。従って、与えられる最初のフレームのシェイプ画像に続く、動画シーケンスの全てのフレームにおいて、物体が高い精度で抽出される。従来手法のように、動画シーケンスの最初の方や、物体の動きが小さい時に、精度が悪いという不具合はない。

フレーム間の動き補償による物体抽出を図４７のフローチャートを参照して説明する。

ステップＳ２１で現処理フレームがブロックに分割される。ステップＳ２２では現処理ブロックと画像データの図柄が相似であり、かつ、現処理ブロックよりも大きい参照ブロックを各フレームあるいは、既にシェイプデータを求めたフレーム内から見つける。ステップＳ２３では参照ブロックのシェイプデータを切り出して縮小したサブブロックを現処理ブロックに貼り付ける。

ステップＳ２４では処理済みブロック数が所定の数に達したらステップ２５に進む、そうでない場合は次のブロックに処理対象を進めてステップ２２に戻る。ステップＳ２５では貼り合わされたシェイプデータを物体領域として出力する。

ここで、各フレームとは、本実施例では最初のフレームであり、予めシェイプ画像が与えられるフレームのことである。また、参照ブロックは必ずしも１フレーム前のフレームでなくても、ここで述べたように、既にシェイプ画像が求まっているフレームならよい。

以上が動き補償を用いた物体抽出の説明である。物体抽出回路２２４としては、以上で説明した方法の他に、先に出願した、特開平１０−００１８４７「動画像の物体追跡／抽出装置」にあるフレーム間差分画像を用いる方法などもある。

図２７に戻り、動画から物体を抽出する物体抽出装置の実施例の説明を続ける。

シェイプ画像２６０はスイッチ部２２３とスイッチ部２８１に送られる。スイッチ部２２３では、シェイプ画像２６０が“０”（背景）の時には、テクスチャ画像２２１が、背景メモリ２７４に送られ、記録される。シェイプ画像２６０が“２５５”（物体）の時には、テクスチャ画像２２１は、背景メモリ２７４には送られない。これをいくつかのフレームに対して行い、そのシェイプ画像２６０がある程度正確であれば、物体を含まない、背景部分だけの画像が、背景メモリ２７４に生成される。

次に、記録装置２２２から、テクスチャ画像２７５が再度最初のフレームから順に読み出され、あるいは、操作者が指定する物体を抽出したいフレームだけが読み出され差分回路２７６に入力される。同時に、背景メモリ２７４から、背景画像２７７が読み出され、差分回路２７６に入力される。差分回路２７６では、テクスチャ画像２７５と背景画像２７７の、互いに画面内で同じ位置にある画素同士の差分値２７８が求められ、背景画像を用いた物体抽出回路２７９に入力される。物体抽出回路２７９では、シェイプ画像２８０が生成されるのであるが、これは、差分値２７８の絶対値が予め定めるしきい値よりも大きい画素は、物体に属するとして画素値を“２５５”とし、そうでない画素は、背景に属するとして画素値“０”とすることで生成される。テクスチャ画像として、輝度だけでなく、色差や色も用いる場合は、各信号の差分の絶対値の和をしきい値と比較して物体か背景かが決定される。あるいは、輝度や色差毎に別々にしきい値を定めて、輝度、色差のいずれかにおいて、差分の絶対値がそのしきい値よりも大きい場合に物体、そうでない場合に背景とが判定される。このようにして生成されたシェイプ画像２８０がスイッチ部２８１に送られる。また、操作者によって決定される選択信号２８２が外部からスイッチ部２８１に入力され、この選択信号２８２によって、シェイプ画像２６０とシェイプ画像２８０のうちのいずれかが選択され、シェイプ画像２８３として外部に出力される。操作者は、シェイプ画像２６０とシェイプ画像２８０を各々、ディスプレイなどに表示し、正確な方を選択する。あるいは、シェイプ画像２６０が生成された段階でそれを表示し、その精度が満足するものでなかった場合に、シェイプ画像２８０を生成し、シェイプ画像２６０の精度が満足するものであった場合には、シェイプ画像２８０を生成せずに、シェイプ画像２６０をシェイプ画像２８３として外部に出力するようにすれば、処理時間を節約できる。選択は、フレーム毎に行ってもよいし、動画像シーケンス毎に行ってもよい。

図２７の物体抽出装置に対応する物体抽出方法を図４６のフローチャートを参照して説明する。

（背景画像を用いる物体抽出方法）
ステップＳ１１では与えられる各フレームにおけるシェイプデータを動き補償することにより各フレームのシェイプデータが生成される。ステップＳ１２ではシェイプデータによって決定される背景領域の画像データが背景画像としてメモリに記憶される。

ステップＳ１３では処理済みフレーム数が所定の数に達したらステップ１４に進む、そうでない場合は次のフレームに処理対象を進めてステップ１１に戻る。ステップＳ１４では画像データと背景画像との差分の絶対値が大きい画素を物体領域とし、そうでない画素を背景領域とする。

本実施形態においては、例えば撮像するカメラに動きがあると背景が動く。この場合は、前のフレームからの背景全体の動き（グローバル動きベクトル）を検出し、１スキャン目ではグローバル動きベクトルの分だけ前のフレームからずらして背景メモリに記録し、２スキャン目では、グローバル動きベクトルの分だけ前のフレームからずらした部分を背景メモリから読み出す。１スキャン目で検出したグローバル動きベクトルをメモりに記録しておき、２スキャン目では、それを読み出して用いれば、グローバル動きベクトルを求める時間を節約できる。また、カメラが固定していることなどから、背景が静止していることが既知の場合は、操作者がスイッチを切り替えることなどによって、グローバル動きベクトルの検出を行わないようにして、グローバル動きベクトルは常にゼロにするようにすれば、処理時間はさらに節約できる。グローバル動きベクトルを半画素精度で求める時は、背景メモリは、入力される画像の縦横とも２倍の画素密度とする。すなわち、入力画像の画素値は１画素おきに背景メモリに書き込まれる。例えば次のフレームでは背景が横方向に０．５画素動いていた場合には、先に書き込まれた画素の間にやはり１画素おきに画素値が書き込まれる。このようにすると、１スキャン目が終了した時点で、背景画像に一度も書き込まれない画素ができることがある。その場合は、周囲の書き込まれた画素から内挿してその隙間を埋める。

また、半画素の動きベクトルを用いる／用いないに関わらず、動画シーケンス全体を通じて、一度も背景領域にならない部分は、１スキャン目を終わっても背景メモリに画素値が代入されない。このような未定義の部分は、２スキャン目では、常に物体と判定する。これは、特に未定義の部分を記録するためのメモリを用意して、未定義か否かをいちいち判定しなくても、背景に希にしか出てこないと予想される画素値（Ｙ，Ｕ，Ｖ）＝（０，０，０）などで、予め背景メモリを初期化してから１スキャン目を開始すればよい。未定義の画素にはこの初期画素値が残るので２スキャン目では、自動的に物体と判定される。

これまでの説明では、背景メモリを生成する時に、既に背景の画素値が代入されている画素についても、背景領域であれば、画素値が上書きされている。この場合、動画シーケンスの最初の方でも最後の方にでも背景である部分には、動画シーケンスの最後の方の背景の画素値が背景メモリに記録される。動画シーケンスの最初と最後でそういった背景が全く同じ画素値ならば問題はないが、カメラが非常にゆっくりと動いたり、背景の明るさが少しずつ変化するなどして、画素値がフレーム間で微少に変動する場合には、動画シーケンスの最初の方の背景と最後の方の背景とでは、画素値の差が大きくなるので、この背景メモリを用いると、動画シーケンスの最初の方のフレームで背景部分も物体と誤検出されてしまう。そこで、その前までのフレームでは、一度も背景領域にはならずに、現処理フレームで初めて背景領域となった画素についてのみ背景メモリへの書き込みを行い、既に背景の画素値が代入されている画素の上書きはしないようにすれば、背景メモリには動画シーケンスの最初の方の背景が記録されるので、正しく物体が抽出される。そして、２スキャン目にも、その物体抽出結果に応じて、現処理フレームの背景領域を背景メモリに上書きするようにすれば、現処理フレームの直前のフレームの背景と現処理フレームの背景という相関の高い背景同士を比較することになり、その部分が物体と誤検出されにくくなる。２スキャン目の上書きは、背景に微少な変動がある場合に有効なので、操作者が背景の動きは無しという意味にスイッチを切り替えるなどした場合は、上書きは行わない。このスイッチは、先のグローバル動きベクトルを行うか行わないかを切り替えるスイッチと共通でも構わない。

１スキャン目は背景画像を生成するのが目的であるから、必ずしも全てのフレームを用いる必要はない。１フレームおき、２フレームおきなどとフレームを間引いても、ほぼ同じ背景画像が得られ、処理時間は短くなる。

背景領域のうち、フレーム間差分がしきい値以下の画素だけを背景メモリに記録するようにすれば、画面に入り込んでくる他の物体が背景メモリに記録されずに済む。また、１スキャン目の物体領域が実際よりも物体側に誤検出された場合、物体の画素値が背景メモリに記録されてしまう。そこで、背景領域でも物体領域に近い画素は背景メモリに入力しないようにする。

観光地で撮影した画像などで、前景の人などを除いた背景画像だけが必要な場合は、背景メモリに記録された背景画像を外部に出力する。

以上が本実施形態の第１の構成例の説明である。本例によれば、動画シーケンスの初めの部分も最後の部分と同様に高い抽出精度が得られる。また、物体の動きが小さかったり、全く動かない場合でも正しく抽出される。

次に、図２８を用いて、生成されたシェイプ画像２８０を修正する例を説明する。シェイプ画像２８０が生成されるまでは、図２７と同じなので説明を省略する。

シェイプ画像２８０は、背景パレットを用いるエッジ補正回路２８４に入力される。また、テクスチャ画像２７５が、背景パレットによるエッジ補正回路２８４と縮小ブロックマッチングによるエッジ補正回路２８５に入力される。エッジ補正回路２８４の詳細なブロック図を図３１に示す。

図３１において、シェイプ画像２８０は、補正回路２８６に入力され、同じフレームのテクスチャ画像２７５は比較回路２８７に入力される。背景パレットを保持するメモリ２８８からは、背景色２８９が読み出され、比較回路２８７に入力される。ここで、背景パレットは、背景部分に存在する輝度（Ｙ）と色差（Ｕ，Ｖ）の組すなわちベクトルの集まり、
（Ｙ１，Ｕ１，Ｖ１）
（Ｙ２，Ｕ２，Ｖ２）
（Ｙ３，Ｕ３，Ｖ３）
……………………
のことで、予め用意される。具体的には、背景パレットは、最初のフレームにおいて、背景領域に属する画素のＹ，Ｕ，Ｖの組を集めたものである。ここで、例えばＹ，Ｕ，Ｖが各々２５６通りの値をとるとすると、その組み合わせは膨大な数になり、背景の（Ｙ，Ｕ，Ｖ）の組み合わせ数も多くなり、後に説明する処理の演算量が多くなってしまうので、所定のステップサイズでＹ，Ｕ，Ｖの値を各々量子化することにより、組み合わせ数を抑制できる。これは、量子化をしない場合は異なるベクトル値だったもの同士が、量子化により同じベクトル値になる場合があるからである。

比較回路２８７では、テクスチャ画像２７５の各画素のＹ，Ｕ，Ｖが量子化され、そのベクトルがメモリ２８８から順次送られてくる背景パレットに登録されているベクトル、すなわち背景色２８９のいずれかと一致するかどうかが調べられる。画素毎に、その画素の色が背景色かどうかの比較結果２９０が、比較回路２８７から補正回路２８６へ送られる。補正回路２８６では、シェイプ画像２８０のある画素の画素値が“２５５”（物体）であるにもかかわらず、比較結果２９０が背景色であった場合に、その画素の画素値を“０”（背景）に置き換えて、補正されたシェイプ画像２９１として出力する。この処理により、シェイプ画像２８０において物体領域が背景領域にはみ出して誤抽出されていた場合に、その背景領域を正しく分離できる。ただ、背景と物体に共通の色があり、背景パレットに物体の色も混じって登録されていると、物体のその色の部分もが背景と判定されてしまう。そこで、最初のフレームでは、先に説明したパレットを背景の仮のパレットとしておき、同様の方法で最初のフレームの物体のパレットも作る。次に、背景の仮のパレットの中で物体のパレットにも含まれる色については、背景の仮のパレットから除き、残ったものを背景パレットとする。これにより、物体の一部が背景になってしまう不具合を回避できる。

また、最初のフレームで与えられるシェイプ画像に誤差がある場合を考慮し、シェイプ画像のエッジの近傍の画素は、パレットの生成に用いないようにしても良い。また、各ベクトルの出現頻度を数え、頻度が所定値以下のベクトルはパレットに登録しないようにしても良い。量子化ステップサイズを小さくしすぎると、処理時間が多くなったり、背景色に非常に似た色でもベクトル値がわずかに異なるために背景と判定されなかったりし、逆に量子化ステップサイズを大きくしすぎると、背景と物体に共通するベクトルばかりになってしまう。そこで、最初のフレームに対して、いくつかの量子化ステップサイズを試し、与えられるシェイプ画像の様に背景色と物体色が分離される量子化ステップサイズが選ばれる。

また、途中から新しい色が背景や物体に現れることがあるので、途中のフレームで背景パレットを作りなおしても良い。

図２８に戻り、シェイプ画像２９１は、エッジ補正回路２８５に入力される。エッジ補正回路２８５は、先に説明した図３０の回路において、シェイプ画像２４９をシェイプ画像２９１、テクスチャ画像２５１をテクスチャ画像２７５とする回路と同じであるので、説明は省略するが、シェイプ画像のエッジがテクスチャ画像のエッジに合うようにシェイプ画像の補正を行う。補正されたシェイプ画像２９２はスイッチ部２８１に送られる。スイッチ部２８１からは、シェイプ画像２９２とシェイプ画像２６０のうちから選択されたシェイプ画像２９３が出力される。

本例では、エッジ補正回路を物体抽出回路２７９の後段に設けたが、物体抽出回路２２４の後段に設ければ、シェイプ画像２６０の精度を向上できる。

また、エッジ補正によって、抽出精度がかえって悪化する場合も希にある。そういう時に、悪化したシェイプ画像２９２が出力されてしまわないように、図２８において、シェイプ画像２８０やシェイプ画像２９１もスイッチ部２８１に入力すれば、エッジ補正を行わないシェイプ画像２８０や、背景パレットによるエッジ補正だけを施したシェイプ画像２９１を選択することも可能となる。

図４４は、背景パレットに登録された背景色の画素をクロスハッチで示しており、先に図３０や図２９を用いて説明した相似ブロックの探索の時に、図４４の情報を用いると、輪郭抽出の精度をさらに高めることができる。背景に図柄がある場合に、物体と背景のエッジではなく、背景の図柄のエッジに沿うように相似ブロックが選ばれてしまうことがある。このような場合、ブロックと相似ブロックを縮小したブロックとの誤差を求める時に、対応画素がいずれも背景色同士の時は、その画素の誤差は、計算に含めないようにすると、背景の図柄のエッジがずれていても、誤差が発生せず、従って、物体と背景のエッジが合うように相似ブロックが正しく選択される。

図３２は、本実施形態の物体抽出装置２９４を組み込んだ画像合成装置の例である。テクスチャ画像２９５はスイッチ部２９６と物体抽出装置２９４に入力され、最初のフレームのシェイプ画像２１００は物体抽出装置２９４に入力される。物体抽出装置２９４は、図２７や図２８で構成されており、各フレームのシェイプ画像２９７が生成され、スイッチ部２９６に送られる。一方、記録回路２９８には、予め合成用背景画像２９９が保持されており、現処理フレームの背景画像２９９が記録回路２９８から読み出され、スイッチ部２９６に送られる。スイッチ部２９６では、シェイプ画像の画素値が“２５５”（物体）の画素ではテクスチャ画像２９５が選択されて合成画像２１０１として出力され、シェイプ画像の画素値が“０”（背景）の画素では、背景画像２９９が選択されて合成画像２１０１として出力される。これにより、背景画像２９９の前景にテクスチャ画像２９５内の物体を合成した画像が生成される。

図３３はエッジ補正を行う別の例を示す。図３３のように設定されたブロックのうちの一つが、図３３のブロック２１０２であるとする。輪郭線を境界にして、ブロックは物体領域と背景領域に分けられている。この輪郭を左右方向にずらして得られたブロックが２１０３，２１０４，２１０５，２１０６である。それぞれずらす幅と向きが異なる。文献：福井「領域間の分離度に基づく物体輪郭抽出」（電子情報通信学会論文誌、Ｄ−II、Ｖｏｌ．Ｊ８０−Ｄ−II、Ｎｏ．６、ｐｐ．１４０６−１４１４、１９９７年６月）の１４０８ページに記述されている分離度を各々の輪郭線について求め、ブロック２１０２〜２１０６のうちで分離度が最も高い輪郭線を採用する。これにより、シェイプ画像の輪郭がテクスチャ画像のエッジに合う。

以上述べてきたように、本第４実施形態によれば、動画シーケンスの初めの部分も最後の部分と同様に高い抽出精度が得られる。また、物体の動きが小さかったり、全く動かない場合でも正しく抽出される。さらに、現処理ブロックよりも大きい相似ブロックのシェイプデータを縮小して張り付けることにより、シェイプデータで与えられる物体領域の輪郭線がずれていてもそれを正しい位置に補正することが可能となり、物体領域の輪郭を大まかになぞったものをシェイプデータとして与えるだけで、以降の入力フレーム全てにおいて物体領域を高い精度で抽出することが可能となる。

なお、以上の第１乃至第４実施形態は適宜組み合わせて利用することもできる。また、第１乃至第４実施形態の物体抽出方法の手順はすべてソフトウェアによって実現することもでき、この場合には、その手順を実行するコンピュータプログラムを記録媒体を介して通常のコンピュータに導入するだけで、第１乃至第４実施形態と同様の効果を得ることができる。

本発明の第１実施形態に係る動画像の物体追跡／抽出装置の基本構成を示すブロック図。同実施形態の物体追跡／抽出装置の第１の構成例を示すブロック図。同実施形態の物体追跡／抽出装置の第２の構成例を示すブロック図。同実施形態の物体追跡／抽出装置に設けられた背景領域決定部の具体的な構成の一例を示すブロック図。同実施形態の物体追跡／抽出装置に設けられた図形設定部の具体的な構成の一例を示すブロック図。同実施形態の物体追跡／抽出装置に設けられた背景動き削除部の具体的な構成の一例を示すブロック図。同実施形態の物体追跡／抽出装置に設けられた背景動き削除部で使用される代表背景領域の一例を示す図。同実施形態の物体追跡／抽出装置の動作を説明するための図。本発明の第２実施形態に係る第１の動画像物体追跡／抽出装置を表すブロック図。同第２実施形態に係る第２の動画像物体追跡／抽出装置を表すブロック図。同第２実施形態に係る第３の動画像の物体追跡／抽出装置を表すブロック図。同第２実施形態に係る第４の動画像の物体追跡／抽出装置を表すブロック図。同第２実施形態の物体追跡／抽出装置で用いられる物体予測の方法を説明するための図。同第２実施形態の物体追跡／抽出装置で用いられる参照フレーム選択方法を説明するための図。同第２実施形態の物体追跡／抽出装置において第１の物体追跡／抽出部と第２の物体抽出部を切り替えて物体を抽出した結果の例を表す図。同第２実施形態の物体追跡／抽出装置を用いた動画像の物体追跡／抽出処理の流れを説明する図。本発明の第３実施形態に係る第１の動画像物体追跡／抽出装置を表すブロック図。同第３実施形態に係る第２の動画像物体追跡／抽出装置を表すブロック図。同第３実施形態に係る第３の動画像物体追跡／抽出装置を表すブロック図。同第３実施形態に係る第５の動画像物体追跡／抽出装置を表すブロック図。同第３実施形態に係る第６の動画像物体追跡／抽出装置を表すブロック図。同第３実施形態に係る第４の動画像物体追跡／抽出装置を表すブロック図。同第３実施形態に係る動画像物体追跡／抽出装置の他の構成例を表すブロック図。同第３実施形態に係る動画像物体追跡／抽出装置のさらに他の構成例を表すブロック図。同第３実施形態に係る動画像物体追跡／抽出装置に適用されるフレーム順序制御による抽出フレーム順の例を説明する図。同第３実施形態に係る動画像物体追跡／抽出装置の応用例を表す図。本発明の第４実施形態に係る物体抽出装置を示すブロック図。同第４実施形態に係る物体抽出装置にエッジ補正処理を適用した場合の構成例を示すブロック図。同第４実施形態に係る物体抽出装置に適用される動き補償部の構成例を示すブロック図。同第４実施形態に係る物体抽出装置に適用される縮小ブロックマッチングによる物体抽出部の構成例を示すブロック図。同第４実施形態に係る物体抽出装置で使用される背景パレットによるエッジ補正回路を示す図。同第４実施形態に係る物体抽出装置に適用される画像合成装置を示す図。同第４実施形態に係る物体抽出装置で使用される分離度を用いたエッジ補正の原理を説明する図。同第４実施形態に係る物体抽出装置で処理される処理画像全体を示す図。同第４実施形態で用いられる操作者によって描かれた輪郭線を示す図。同第４実施形態で用いられるブロック設定（１スキャン目）の様子を示す図。同第４実施形態で用いられるブロック設定（２スキャン目）の様子を示す図。同第４実施形態で用いられる相似ブロックを説明するための図。同第４実施形態で用いられる相似ブロックの探索範囲を説明するための図。同第４実施形態で用いられる相似ブロックの探索範囲の別の例を説明するための図。同第４実施形態で用いられるシェイプ画像の置き換え変換前の様子を示す図。同第４実施形態で用いられるシェイプ画像の置き換え変換後の様子を示す図。同第４実施形態において抽出された輪郭線を示す図。同第４実施形態において抽出された背景色の部分を表す図。同第４実施形態で使用される動き補償を説明するための図。同第４実施形態で使用される背景画像を用いた物体抽出方法のフローチャート。同第４実施形態で使用される動き補償による物体抽出方法のフローチャート。同第４実施形態で使用されるフレーム内の縮小ブロックマッチングによる物体抽出方法のフローチャート。同第４実施形態で用いられるブロック設定の他の例を示す図。エッジ補正を説明するためのフローチャート図。ブロック設定の例を示す図。物体領域の輪郭線を探索する過程を示す図。ブロックサイズを次第に小さくする方法を説明するフローチャート図ブロック設定の他の例を示す図。

符号の説明

１…初期図形設定部、２…物体追跡・抽出部、１１…図形設定部、１２…背景領域決定部、１３…物体抽出部、２１…背景動き削除部、２２…図形設定部、２３…背景領域決定部、２４…物体抽出部、３１…変化量検出部、３２…代表領域決定部、３３…背景変化量決定部、３４…代表領域の背景決定部、３５…背景領域決定部、３６…形状予測部、３７…静止物体領域決定部、４１…分離部、４２…動き検出部、４３…分割判定部、４４…図形決定部、５１…背景代表領域設定部、５２…動き検出部、５３…動き補償部、６１…図形設定部、６２…複数の物体追跡・抽出部、７０…図形設定部、７１…第２の物体追跡・抽出部、７２…参照フレーム選択部、７３…第１の物体追跡・抽出部、１１１…特徴量抽出部、１４１…フレーム順序制御部、２２４…物体抽出部、２７９…物体抽出部、２８４…エッジ補正部、２８５…エッジ補正部

Claims

動画像データと、この動画像データを構成する複数のフレーム内の所定フレーム上の物体領域を表すシェイプデータとを入力とする画像入力手段と、
現処理フレームを複数のブロックに分割する手段と、
前記ブロック毎に、画像データの図柄が相似であり、且つ面積が現処理ブロックよりも大きい相似ブロックを前記参照フレームから探索する手段と、
前記参照フレームから相似ブロックのシェイプデータを切り出して縮小したシェイプデータを、前記現処理フレームの各ブロックに貼り付ける手段と、
前記貼り付けられたシェイプデータを現処理フレームのシェイプデータとして出力する手段と、
により構成される物体抽出装置。
画像データと、その画像の物体領域を表すシェイプデータを入力とする画像入力手段と、
前記シェイプデータの輪郭部分にブロックを設定し、各ブロック毎に、前記画像データの図柄が相似であり、且つ前記ブロックよりも大きい相似ブロックを同じ画像の中から探索する手段と、
前記各ブロックのシェイプデータを各々の前記相似ブロックのシェイプデータを縮小したシェイプデータで置き換える手段と、
前記置き換えを所定の回数だけ繰り返す手段と、
前記置き換えを繰り返されたシェイプデータを補正されたシェイプデータとして出力する手段と、
により構成される物体抽出装置。
前記相似ブロックの探索と所定の回数のシェイプデータの置き換えを複数回行う反復手段を有し、その反復の始めより終わりの方がブロックサイズを小さくすることを特徴とする請求項２に記載の物体抽出装置。
画像データと、画像内の物体領域を表すシェイプデータを入力とし、前記シェイプデータの輪郭部分にブロックを設定する第１のステップと、
各ブロック毎に前記画像データの図柄が相似であり、かつ、前記ブロックよりも大きい相似ブロックを同じ画像の中から見つける第２のステップと、
前記各ブロックのシェイプデータを各々の前記相似ブロックのシェイプデータを縮小したシェイプデータで置き換える第３のステップとから成り、
前記第３のステップを所定の回数繰り返すことにより、シェイプデータの輪郭線を前記物体の輪郭線に一致させる物体抽出方法。
前記第１のステップ、第２のステップ、第３のステップの繰り返しを複数回行い、その反復の始めよりも終わりの方がブロックサイズを小さくすることを特徴とする請求項４に記載の物体抽出方法。