JP2021047793A

JP2021047793A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2021047793A
Application number: JP2019171443A
Authority: JP
Inventors: 知頼岩尾; Tomoyori IWAO
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2021-03-25

Abstract

【課題】撮像中に微動するオブジェクトについて、精度よくシルエット画像を得る。【解決手段】撮像画像内に存在する微動オブジェクトについて、その基準シルエットを含む基準画像をまず取得する。そして、基準画像に含まれる基準シルエットに対して処理を行ってシルエット画像を生成する。【選択図】図４

Description

本発明は、オブジェクトの形状を示すシルエット画像を生成する技術に関する。

画像内のオブジェクト（被写体）について、形状推定を行ったり、輝度やコントラスト補正を行ったりする際には、その前段階の処理として、そのオブジェクトのシルエットを表す画像（「シルエット画像」と表記）を生成する必要がある。シルエット画像を生成する手法として、これまで様々な手法が考案されてきた。特許文献１には、以下のような手順でシルエット画像を生成して、高精度なマスクを生成する技術が開示されている。
１）オブジェクトの基準となるシルエットを準備する。
２）そのオブジェクトのエッジを算出する。
３）そのオブジェクトのエッジを、基準となるシルエットを収縮処理したシルエットに加算する。
４）クロージング処理を行って、エッジとシルエットとの間の空白を埋める。

特表２０１５−５０４５６０号公報

例えばサッカーやラグビーといった競技で用いられるゴールポストなど、オブジェクトの中には風などの影響によって微動するものも存在し得る。この点、上記特許文献１の方法では、微動の大きさや方向によって、シルエット画像が精度よく生成できなくなる。

そこで本発明では、撮像中に微動するオブジェクトのシルエット画像を精度よく生成することを目的とする。

本開示に係る画像処理装置は、撮像画像内のオブジェクトのシルエット画像を生成する画像処理装置であって、前記オブジェクトの基準シルエットを含む基準画像を取得する取得手段と、前記オブジェクトが微動オブジェクトである場合、前記基準画像に含まれる前記基準シルエットに対して処理を行うことにより前記シルエット画像を生成して出力する第１の処理手段と、を有し、前記撮像画像と基準画像とは同じ視点に対応する画像であり、前記微動オブジェクトとは、一定時間撮像を行って得られた撮像画像内のオブジェクトのシルエットが、前記基準画像に含まれる前記基準シルエットに対して重畳する所定の範囲内で移動するオブジェクトである、ことを特徴とする。

本発明によれば、撮像中に微動するオブジェクトであっても、精度よくそのシルエット画像を生成することができる。

仮想視点映像を生成する画像処理システムの構成の一例を示す図。カメラアダプタの内部構成を示す機能ブロック図。撮像画像の一例を示す図。シルエット画像が生成されるまでの過程の一例を説明した図。（ａ）〜（ｃ）は、３種類のオブジェクトの定義を説明する図。カメラアダプタ１２０の機能ブロック図。シルエット画像生成処理の流れを示すフローチャート。（ａ）〜（ｃ）は、オブジェクト種毎に得られる種別判定用画像の一例を示す図。中間値画像を用いて種別判定用画像を生成する場合の説明図。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

［実施形態１］
また、本実施形態では、動画像から生成した微動するオブジェクト（以下、「微動オブジェクト」と呼ぶ。）のシルエット画像を、仮想視点映像の生成に利用するケースを例に説明を行うものとする。すなわち、微動オブジェクトについて得られたシルエット画像からその３次元形状データを生成し、仮想視点情報に基づいてその微動オブジェクト含んだ仮想視点映像を生成する、というユースケースを想定する。

（システム構成）
図１は、仮想視点映像を生成する画像処理システムの構成の一例を示す図である。画像処理システム１００は、撮影モジュール１１０ａ〜１１０ｚ、データベース（ＤＢ）２５０、サーバ２７０、制御装置３００、スイッチングハブ１８０、及びエンドユーザ端末１９０を有する。すなわち、画像処理システム１００は、映像収集ドメイン、データ保存ドメイン、及び映像生成ドメインという３つの機能ドメインを有する。映像収集ドメインは撮影モジュール１１０ａ〜１１０ｚを含み、データ保存ドメインはＤＢ２５０とサーバ２７０を含み、映像生成ドメインは制御装置３００及びエンドユーザ端末１９０を含む。

制御装置３００は、画像処理システム１００を構成するそれぞれのブロックに対してネットワークを通じて動作状態の管理及びパラメータ設定制御などを行う。ここで、ネットワークはＥｔｈｅｒｎｅｔ（登録商標）であるＩＥＥＥ標準準拠のＧｂＥ（ギガビットイーサーネット）や１０ＧｂＥでもよいし、インターコネクトＩｎｆｉｎｉｂａｎｄ、産業用ローカルエリアネットワーク等を組合せて構成されてもよい。また、これらに限定されず、他の種類のネットワークであってもよい。

最初に、撮影モジュール１１０ａ〜１１０ｚの２６セット分の撮像画像を撮影モジュール１１０ｚからサーバ２７０へ送信する動作を説明する。撮影モジュール１１０ａ〜１１０ｚは、それぞれ１台ずつのカメラ１１２ａ〜１１２ｚを有する。以下では、撮影モジュール１１０ａ〜１１０ｚまでの２６セットのシステムを区別せず、単に「撮影モジュール１１０」と記載する場合がある。各撮影モジュール１１０内の装置についても同様に、「カメラ１１２」、「カメラアダプタ１２０」と記載する場合がある。なお、撮影モジュール１１０の台数を２６セットとしているが、あくまでも一例でありこれに限定されない。

撮影モジュール１１０ａ〜１１０ｚはデイジーチェーンにより接続される。この接続形態により、撮影画像の４Ｋや８Ｋなどへの高解像度化及び高フレームレート化に伴う画像データの大容量化において、接続ケーブル数の削減や配線作業の省力化ができる効果がある。なお、接続形態は任意であり、例えば撮影モジュール１１０ａ〜１１０ｚがスイッチングハブ１８０にそれぞれ接続されて、スイッチングハブ１８０を経由して撮影モジュール１１０間のデータ送受信を行うスター型のネットワーク構成としてもよい。

本実施形態では、各撮影モジュール１１０はカメラ１１２とカメラアダプタ１２０とで構成されているがこれに限定されない。例えば、マイク、雲台、外部センサを有していてもよい。また、本実施形態では、カメラ１１２とカメラアダプタ１２０とが分離された構成となっているが、同一筺体で一体化されていてもよい。撮影モジュール１１０ａ内のカメラ１１２ａにて得られた撮像画像は、カメラアダプタ１２０ａにおいて後述の画像処理が施された後、撮影モジュール１１０ｂのカメラアダプタ１２０ｂに伝送される。同様に撮影モジュール１１０ｂは、カメラ１１２ｂにて得られた撮像画像を、撮影モジュール１１０ａから取得した撮像画像と合わせて撮影モジュール１１０ｃに伝送する。このような動作を続けることにより、２６セット分の撮像画像が、撮影モジュール１１０ｚからスイッチングハブ１８０に伝わり、その後、サーバ２７０へ伝送される。

なお、本実施形態では、個々のカメラアダプタ１２０内でシルエット画像の生成までを行うものとして説明する。ただし、このような態様に限定されるものではなく、２６セット分の撮像画像を受け取ったサーバ２７０にて、個々の撮像画像に対応するシルエット画像の生成を行うような構成であってもよい。

（カメラアダプタの構成）
次に、カメラアダプタ１２０の詳細について説明する。図２は、カメラアダプタ１２０の内部構成を示す機能ブロック図である。カメラアダプタ１２０は、ネットワークアダプタ１２１、伝送部１２２、画像処理部１２３及びカメラ制御部１２４から構成される。

ネットワークアダプタ１２１は、他のカメラアダプタ１２０やサーバ２７０、制御装置３００とデータ通信を行う。また、例えばＩＥＥＥ１５８８規格のＯｒｄｉｎａｙＣｌｏｃｋに準拠し、サーバ２７０との間で送受信したデータのタイムスタンプの保存や、サーバ２７０との時刻同期も行う。なお、他のＥｔｈｅｒＡＶＢ規格や、独自プロトコルによってタイムサーバとの時刻同期を実現してもよい。本実施形態では、ネットワークアダプタ１２１としてＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）を利用するが、これに限定されない。

伝送部１２２は、ネットワークアダプタ１２１を介してスイッチングハブ１８０等に対するデータの伝送を制御する。伝送部１２２は、送受信されるデータに対して所定の圧縮方式、圧縮率、及びフレームレートを適用した圧縮を行う機能と、圧縮されたデータを伸張する機能とを有している。また、受信したデータ及び画像処理部１２３で処理されたデータのルーティング先を決定する機能や、決定したルーティング先へデータを送信する機能を有している。また、画像データを、他のカメラアダプタ１２０またはサーバ２７０へ転送するためのメッセージを作成する機能も有している。メッセージには画像データのメタ情報が含まれる。このメタ情報には、画像撮影のサンプリング時のタイムコードまたはシーケンス番号、データ種別、及びカメラ１１２の識別子などが含まれる。なお、送信する画像データは圧縮されていてもよい。また、他のカメラアダプタ１２０からメッセージを受け取り、メッセージに含まれるデータ種別に応じて、伝送プロトコル規定のパケットサイズにフラグメントされたデータ情報を画像データに復元する。

画像処理部１２３は、カメラ制御部１２４の制御によりカメラ１１２が撮影した画像データに基づき、オブジェクトのシルエット画像を生成する処理を行う。また、動的キャリブレーションなどの処理も行う。シルエット画像の生成を複数のカメラアダプタ１２０それぞれが行うことで、画像処理システム１００における負荷を分散させることができる。動的キャリブレーションは、撮影中に行うキャリブレーションで、カメラ毎の色のばらつきを抑えるための色補正処理や、カメラの振動に起因するブレに対して画像の位置を安定させるためのブレ補正処理（電子防振処理）などが含まれる。

カメラ制御部１２４は、カメラ１１２と接続し、カメラ１１２の制御、撮影画像取得、同期信号提供、時刻設定などを行う。カメラ１１２の制御には、例えば撮影パラメータ（画素数、色深度、フレームレート、及びホワイトバランスの設定など）の設定及び参照、カメラ１１２の状態情報（撮影中、停止中、同期中、及びエラーなど）の取得、撮影の開始及び停止や、ピント調整などがある。

（シルエット画像生成の概要）
続いて、本実施形態におけるシルエット画像生成の概要を説明する。ここで、「シルエット」とは、画像内のオブジェクトに対応する領域情報を意味する。シルエット画像は、マスク画像とも呼ばれる。本実施形態のシルエット画像は、画像内のオブジェクト形状を示す領域を“１”、それ以外の領域を“０”で表す二値の画素値を持つ画像とするが、さらにオブジェクト形状を示す領域の確からしさを表す値を加えた二値以上の画素値を持つ画像としてもよい。

いま、図３に示す撮像画像（動画像中の１フレームに相当）１０には、円柱の形状を持つ均一色のオブジェクト１１が写っている。なお、形状を円柱とし、かつ、均一色としているのは説明を簡単化するためであり、形状がより複雑であったり均一色でないオブジェクトの場合にも本実施形態は適用可能である。図４は、図３に示すオブジェクト１１が微動オブジェクトである場合の、あるカメラ視点（撮像視点）からのシルエット画像が生成されるまでの過程の一例を説明した図である。図４に示すように、Ｓｔｅｐ．１〜Ｓｔｅｐ．５の５段階で微動オブジェクトについてのシルエット画像が生成される。
Ｓｔｅｐ．１：微動オブジェクトの基準となるシルエットを含む画像と、撮像画像とを合成する。
Ｓｔｅｐ．２：合成後の画像から、微動オブジェクトのシルエットとして不要な領域を削除する。
Ｓｔｅｐ．３：撮像画像から微動オブジェクトのエッジを検出する。
Ｓｔｅｐ．４：不要領域削除後のシルエットに対し、検出されたエッジを加算する。
Ｓｔｅｐ．５：エッジ加算後のシルエットに対し、隙間を埋める穴埋め処理（クロージング処理）を行う。

本実施形態では、撮像画像内のオブジェクトを三種類に分類する。具体的には、人物など撮像中にその位置・形状が変化する動的オブジェクト、球技で用いられるゴールなど風等の影響によって僅かにその位置・形状が変化し得る微動オブジェクト、観客席や看板などその位置・形状が変化しない静的オブジェクトの３種類である。図５（ａ）〜（ｃ）は、上記３種類のオブジェクトそれぞれの定義を図示したものである。図５（ａ）は動的オブジェクトの定義を示している。固定されたあるカメラ視点から一定時間撮像を行ったときに、時間経過と共に、基準となるシルエット（以下、「基準シルエット」と呼ぶ。）に対して任意のフレームにおけるシルエットが重畳することなく大きく移動する。図５（ｂ）は微動オブジェクトの定義を示しており、同様の撮像を行った場合に基準シルエットに対して任意のフレームにおけるシルエットが重畳する範囲内で移動する。図５（ｃ）は静的オブジェクトの定義を示しており、同様の撮像を行った場合に基準シルエットに対して任意のフレームにおけるシルエットが一致し移動しない。

なお、上述の通りシルエットの重畳の有無がオブジェクトの種類を区別する目安となるため、実際のオブジェクト種の判定処理では、後述のように重畳の程度（閾値処理）によって、どの種類のオブジェクトであるか特定できる。

（シルエット画像生成処理の詳細）
続いて、本実施形態に係る、カメラアダプタ１２０でのシルエット画像生成処理について、図６に示す機能ブロック図及び図７に示すフローチャートを参照して、詳しく説明する。図６に示すとおり、カメラアダプタ１２０は、シルエット画像の生成に関わる６つの機能部を有する。具体的には、画像入力部６０１、基準画像取得部６０２、種別判定用画像生成部６０３、静的オブジェクト処理部６０４、動的オブジェクト処理部６０５、微動オブジェクト処理部６０６を有する。そして、微動オブジェクト処理部６０６には、削除処理部６０７と追加処理部６０８が含まれる。また、図７のフローチャートに示す一連の処理は、カメラアダプタ１２０内の不図示のＣＰＵが、所定のプログラムを不図示のワークメモリ（ＲＡＭ）に展開して実行することで実現される。

Ｓ７０１では、画像入力部６０１が、カメラ１１２から撮像画像データの入力を受け付ける。前述の通り、入力される撮像画像は複数フレームからなる動画像である。例えば、６０ｆｐｓのフレームレートで撮像された動画像データが１０秒分入力された場合は、全６００フレームの連番画像がストリームとして入力され、順に処理されることになる。入力撮像画像のデータは、カメラアダプタ１２０内のＲＡＭ等に保持される。

Ｓ７０２では、基準画像取得部６０２が、入力撮像画像に写っているオブジェクトの基準シルエットを含む画像（以下、「基準画像」と呼ぶ。）を取得する。ここでは、背景差分法を用いて取得する方法を説明する。背景差分法の場合、例えば競技会場の設営段階など対象オブジェクトが存在しない状態で撮像して得られた画像（背景画像）と、試合開始直前や試合中など対象オブジェクトが存在する状態で撮像された画像との差分をとることで、基準画像が得られる。この際、対象オブジェクトが存在する状態の画像としては、入力撮像画像とは別のタイミングで撮像されたスチル画像や、入力撮像画像における任意フレーム（先頭フレームや中間フレーム）を用いることができる。例えば、風によって時折振動するような微動オブジェクトについては、風が吹いていないときに撮像したスチル画像を、対象オブジェクトが存在する状態の画像として用いることができる。

Ｓ７０３では、種別判定用画像生成部６０３が、入力撮像画像内の注目フレームに存在する対象オブジェクトの種別を判定するための画像（以下、「種別判定用画像」と呼ぶ。）を生成する。具体的には、入力撮像画像の全フレームの中の特定フレームと注目フレームとの差分をとることで、種別判定用画像を生成する。この際の特定フレームは、上述のＳ７０２にて基準画像の生成に用いた任意フレームと同じフレームでもよいし、異なるフレームでもよい。あるいは注目フレームの直前のフレームを特定フレームとしてもよい。図８（ａ）〜（ｃ）は、上記３種類のオブジェクトがいずれも前述の図３で示した円柱のオブジェクト１１であったと仮定した場合の、オブジェクト種毎に得られる種別判定用画像の一例を示している。図中の白領域がオブジェクトに対応する領域である。そして、図８（ａ）はオブジェクト１１が静的オブジェクトであった場合、同（ｂ）は動的オブジェクトであった場合、同（ｃ）は微動オブジェクトであった場合の種別判定用画像をそれぞれ示している。図８（ａ）に示すように、静的オブジェクトの場合は注目フレームと特定フレームとの間に差分が生じない若しくはあっても極僅かである。そのため、両者の差分として現れる白領域は限りなくゼロに近い。これに対して動的オブジェクトの場合は、図８（ｂ）に示すように、注目フレームにおけるシルエットと特定フレームにおけるシルエットとに重複する部分がない。そのため、両者の差分として現れる白領域は非常に大きい。そして、微動オブジェクトの場合は、図８（ｃ）に示すように、注目フレームにおけるシルエットと特定フレームにおけるシルエットとの重複部分が生じる。そのため、両者の差分として現れる白領域は、動的オブジェクトのときよりも小さくなり、かつ、静的オブジェクトのときよりも大きくなる。つまり、種別判定用画像におけるオブジェクト領域の構成画素数について、以下の関係式が成り立つことになる。
静的オブジェクトの場合＜微動オブジェクトの場合＜動的オブジェクトの場合

こうして、撮像対象のオブジェクトが、動的オブジェクト、微動オブジェクト、静的オブジェクトのいずれであるのかを識別するための種別判定用画像が、注目フレーム内のオブジェクトについて生成される。なお、Ｓ７０２における基準画像の生成に入力撮像画像における任意のフレームを用いた場合において、本ステップにて同じフレームを処理する場合は、生成済みの基準画像を種別判定用画像として用いればよい。

Ｓ７０４では、静的オブジェクト処理部６０４が、Ｓ７０３にて生成された種別判定用画像を用いて、注目フレームに存在する対象オブジェクトが静的オブジェクトであるかどうかを判定する。前述の通り、静的オブジェクトである場合に生成される種別判定用画像におけるシルエットは非常に小さい。そのため、例えば以下の式（１）及び／又は式（２）を用いて、静的オブジェクトであるか否かを判定する。

上記式（１）は基準画像と種別判定用画像との差分に基づき判定する場合の式であり、上記式（２）は種別判定用画像のみを用いて判定する場合の式である。上記式（１）におけるＩ_bは基準画像を表し、上記式（１）及び（２）において共通のＩ_kは種別判定用画像を表す。また、上記式（１）におけるｔｈ_Sは判定に用いる閾値を表し、例えば基準画像Ｉ_bにおける基準シルエット部分の画素数を用いる。上記式（１）及び（２）において共通のδは撮像時のノイズ等に依存する定数であり、ごく小さな値が設定される。いずれか一方の式を用いてその式を満たす場合に静的オブジェクトであると判定してもよいし、双方の式を用いていずれの式も満たす場合に静的オブジェクトであると判定してもよい。いま、基準画像Ｉ_bにおける基準シルエット部分の画素数（＝閾値ｔｈ_Sの値）が“70”、種別判定用画像Ｉ_kにおけるシルエット部分の画素数が“0”、δの値が“5”であったとする。上記式（１）に当て嵌めると、左辺の値は“70”、右辺が“75”となり、上記式（１）を満たすことになる。また、上記式（２）に当て嵌めると、左辺の値が“0”、右辺の値が“5”となり、上記式（２）も満たすことになる。よって、この場合は、静的オブジェクトと判定されることになる。

上記判定の結果、静的オブジェクトであればＳ７０５に進む。そして、Ｓ７０５では、静的オブジェクト処理部６０４が、Ｓ７０２で生成した基準画像を注目フレームに存在するオブジェクトのシルエット画像として出力する。出力後はＳ７１３に進む。一方、上記判定の結果、静的オブジェクトでなければ、Ｓ７０６に進む。

Ｓ７０６では、動的オブジェクト処理部６０５が、Ｓ７０３にて生成された種別判定用画像を用いて、注目フレームに存在する対象オブジェクトが動的オブジェクトであるかどうかを判定する。前述の通り、動的オブジェクトである場合に生成される種別判定用画像におけるシルエットは非常に大きい。そのため、例えば以下の式（３）及び／又は式（４）を用いて、動的オブジェクトであるか否かを判定する。

上記式（３）は基準画像と種別判定用画像との差分に基づき判定する場合の式であり、上記式（４）は種別判定用画像のみを用いて判定する場合の式である。上記式（１）と同様、上記式（３）におけるＩ_bは基準画像を表し、上記式（３）及び（４）において共通のＩ_kは種別判定用画像を表す。また、上記式（３）におけるｔｈ_mは判定に用いる閾値を表し、上記式（１）におけるｔｈ_Sと同様、例えば基準画像Ｉ_bにおける基準シルエット部分の画素数を用いる。上記式（３）及び（４）において共通のδは撮像時のノイズ等に依存する定数であり、ごく小さな値が設定される。そして、上記式（３）及び式（４）を両方満たす場合に動的オブジェクトであると判定する。

いま、基準画像Ｉ_bにおける基準シルエット部分の画素数（＝閾値ｔｈ_mの値）が“70”、種別判定用画像Ｉ_kにおけるシルエット部分の画素数が“140”、δの値が“5”であったとする。上記式（３）に当て嵌めると、左辺の値が“70”、右辺の値が“65”となり、上記式（３）を満たすことになる。また、上記式（４）に当て嵌めると、左辺の値が“140”、右辺の値が“135”となり、上記式（４）も満たすことになる。よって、この場合は、動的オブジェクトと判定されることになる。

上記判定の結果、動的オブジェクトであればＳ７０７に進む。そして、Ｓ７０７では、動的オブジェクト処理部６０５が、Ｓ７０３で生成した種別判定用画像に対し補正処理を行う。ここでの補正処理は、種別判定用画像から基準画像を差し引く処理である。上述のＳ７０３にて生成される種別判定用画像には、基準シルエットと、移動後のオブジェクトのシルエットの両方が含まれている。種別判定用画像が示すシルエットから基準シルエットに相当する部分を取り除くことで、移動後のオブジェクトのシルエットのみを含むシルエット画像が得られる。そして、Ｓ７０８において、動的オブジェクト処理部６０５は、補正処理によって得られた画像を、シルエット画像として出力する。出力後はＳ７１３に進む。一方、上記判定の結果、動的オブジェクトでなければ、Ｓ７０９に進む。

Ｓ７０９〜Ｓ７１２は、注目フレームに存在する対象オブジェクトが微動オブジェクトであった場合の処理であり、微動オブジェクト処理部６０６によって実行される。

まず、Ｓ７０９では、微動オブジェクト処理部６０６内の削除処理部６０７が、Ｓ７０２にて生成された基準画像に含まれる基準シルエットから、対象オブジェクトが微動することによって発生した、そのシルエットとして不要な領域を削除する処理を行う。基準シルエットから不要領域を削除する方法としては、基準画像と注目フレームとを合成し、合成後の画像から明らかにオブジェクトの色と異なる色の領域を基準シルエットから削除する方法がある。この場合において、オブジェクトの色が既知である場合は、そのオブジェクトの色との差分が大きい領域を削除すればよい。具体的には、以下の式（５）を用いて既知の色との差分が大きい領域を特定し、特定された領域を基準シルエットから削除する。

上記式（５）におけるＩ_Cは合成後の画像を表し、Ｃはオブジェクトの既知の色を表す。そして、ｔｈ_cは、色の差分が大きいかどうかを判定するための閾値である。一方、オブジェクト以外の色（背景色）が既知である場合は、その背景色に近い領域を上記と同様の方法を用いて特定し、特定された領域を基準シルエットから削除すればよい。

次のＳ７１０では、微動オブジェクト処理部６０６内の追加処理部６０８が、削減処理後のシルエットに対して、対象オブジェクトのシルエットとして必要な領域を追加する処理を行う。注目フレーム内の微動オブジェクトは、基準画像に含まれる基準シルエットの近傍に移動していると推測される。そこで、注目フレームに存在する微動オブジェクトのエッジを検出し、検出したエッジを削減処理後のシルエットに加算する。これにより、微動後のオブジェクトの輪郭を示す線が、削除処理後のシルエットに追加される。エッジ検出には、例えばソーベルフィルタ、ラプラシアンフィルタ、キャニーフィルタといった周知技術を適用すればよい。本ステップにおいて削除処理後のシルエットにエッジを足し合わせただけでは、削除処理後のシルエットとエッジとの間に隙間（空白）が発生する。そこで、隙間部分をシルエットの構成要素に変換する穴埋め処理（クロージング処理）が必要になる。

続くＳ７１１では、追加処理部６０８が、エッジが加算されたことによって生じた隙間を埋める穴埋め処理を行う。具体的な処理内容としては、エッジ加算後の画像に対して膨脹処理を数回行った後、同じ回数だけ収縮処理を行う。

Ｓ７１２では、微動オブジェクト処理部５０６が、穴埋め処理後の隙間のないシルエットを有する画像を、シルエット画像として出力する。出力後はＳ７１３に進む。

Ｓ７１３では、Ｓ７０１で受信した撮像画像を構成する全フレームについて処理が完了したか否かが判定される。未処理のフレームがあればＳ７０３に戻って次の注目フレームを決定して処理を続行する。一方、すべてのフレームの処理が完了していれば、本処理を終える。

以上が、本実施形態に係る、シルエット画像生成処理の流れである。なお、図７のフローでは、説明の簡単化のため、撮像画像内にオブジェクトが１つだけ存在するものとして説明を行ったが、複数のオブジェクトが含まれている場合には、上述のＳ７０３〜Ｓ７１２の各処理をオブジェクト単位の画像領域で繰り返せばよい。

＜変形例１＞
上述のＳ７０２の説明では、基準画像の生成に背景差分法を用いたがこれに限定されない。例えば、予め用意されたオブジェクトの三次元形状データを用いて、各カメラのカメラパラメータに基づき三次元形状を投影する手法を用いて、基準画像を生成してもよい。この手法は、規格が決まっているゴールやフラッグなどの構造物、スタジアムやビルなどの建築物など、その三次元空間上の位置と三次元形状が既知のオブジェクトの場合に有用である。ここで、カメラパラメータについて簡単に説明しておく。カメラパラメータには外部パラメータと内部パラメータとがある。外部パラメータは、回転行列と並進行列で構成されており、カメラの位置や姿勢を示す。内部パラメータは、カメラの焦点距離、光学的中心などを含み、カメラの画角や撮像センサの大きさなどを示す。カメラパラメータを取得するための作業はキャリブレーションと呼ばれる。キャリブレーションによって得られたカメラパラメータを基に、各カメラ視点からゴールなどその形状と位置が既知のオブジェクトを見た場合の基準画像を得ることができる。

また、図７のフローでは、Ｓ７０２は全フレームに共通の処理となっているが、フレーム毎に行ってもよい。この場合、最初に得られた基準画像をフレーム毎に補正する処理を行う。具体的には、最初に得た基準画像における基準シルエットに対応する注目フレーム内の領域の近傍領域から、色情報やエッジ情報などを用いてオブジェクトに対応していると見込まれる領域を探索し、見つかった領域を基準シルエットに組み込む処理を行う。

＜変形例２＞
上述のＳ７０３の説明では、特定フレームと注目フレームとの差分をとることで種別判定用画像を得ていた。特定フレームの代わりに中間値画像を用いてもよい。ここで、中間値画像とは、入力撮像画像を構成する複数フレーム間における対応する画素同士で画素値の中間値（平均値）を求め、得られた中間値の画素で構成される画像である。図９は中間値画像を用いて種別判定用画像を生成する場合の説明図である。フレーム間でオブジェクトの位置が大きく変化する場合（すなわち、動的オブジェクトの場合）は、オブジェクトに対応する領域のない中間値画像が得られる。また、フレーム間でオブジェクトの位置が変化しない場合（すなわち、静的オブジェクトの場合）は、オブジェクト全体に対応する領域を含む中間値画像が得られる。そして、フレーム間でオブジェクトの位置が僅かに変化する（すなわち、微動オブジェクトの場合）は、オブジェクトの一部（芯）に対応する領域を含む中間値画像が得られる。したがって、この中間値画像と注目フレームとの差分をとると、静的オブジェクトの場合に得られるシルエットは、限りなく小さくなる。一方、動的オブジェクトの場合に得られるシルエットは、オブジェクトの形状全体を示す領域とほぼ同じとなる。そして、微動オブジェクトの場合に得られるシルエットは、動的オブジェクトの場合よりも小さく、かつ、静的オブジェクトの場合よりも大きなものとなる。

そして、中間値画像を用いて種別判定用画像を生成した場合には、Ｓ７０６における判定処理では、前述の式（３）と式（４）に代えて、以下の式（３）’と式（４）’を用いればよい。

また、中間値画像を用いて生成された種別判定用画像においては、オブジェクトが移動した状態下のシルエットが現れているため補正処理を行う必要がない。そのため、Ｓ７０７はスキップされ、Ｓ７０８では種別判定用画像がそのままシルエット画像として出力されることになる。

＜変形例３＞
上述の削除処理部６０７における処理（Ｓ７０９）に関し、オブジェクトの色が既知でない場合の手法として、色のクラスタリングを利用する手法もある。この場合には、まず基準画像と特定フレームとを合成し、合成後の画像領域内の色をクラスタリングする。ここでの「特定フレーム」は、Ｓ７０３のそれと同じである。そして、クラスタリングした結果を基に、クラスタの要素数が大きい領域の色をオブジェクトの色として決定し、基準画像と注目フレームとを合成して得られたシルエットから、決定された色と異なる色を持つ画素を削除する。このような方法によって不要領域を削除してもよい。

また、必ずしも基準画像と特定フレームとを合成して、オブジェクトの色を決定しなくてもよい。例えば、基準画像と注目フレームとを合成して、合成後の画像領域内の色をクラスタリングし、クラスタの要素数が小さい領域を不要領域として削除してもよい。

＜変形例４＞
上述の追加処理部６０８では、オブジェクトのエッジを検出して加算（Ｓ７１０）した後、穴埋め処理を行なう（Ｓ７１１）ことでシルエットとして必要な領域を追加しているが、必要領域を追加する手法はこれに限定されない。具体的には、基準画像が示すシルエットの周辺画素のうち微動オブジェクトの色に近い色を持つ画素を、微動オブジェクトのシルエットを構成する画素に変更する処理を行う。この処理の場合、Ｓ７１１の穴埋め処理は不要となる。

以上説明したとおり、各変形例を含む本実施形態の手法によれば、微動オブジェクトのシルエット画像を高精度に生成することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

画像処理部１２３
画像入力部６０１
基準画像取得部６０２
微動オブジェクト処理部６０６

Claims

撮像画像内のオブジェクトのシルエット画像を生成する画像処理装置であって、
前記オブジェクトの基準シルエットを含む基準画像を取得する取得手段と、
前記オブジェクトが微動オブジェクトである場合、前記基準画像に含まれる前記基準シルエットに対して処理を行うことにより前記シルエット画像を生成して出力する第１の処理手段と、
を有し、
前記撮像画像と基準画像とは同じ視点に対応する画像であり、
前記微動オブジェクトとは、一定時間撮像を行って得られた撮像画像内のオブジェクトのシルエットが、前記基準画像に含まれる前記基準シルエットに対して重畳する所定の範囲内で移動するオブジェクトである、
ことを特徴とする画像処理装置。
前記処理には、前記基準画像に含まれる前記基準シルエットに対し、前記オブジェクトのシルエットとして不要な領域を削除する処理及び必要な領域を追加する処理を含む、ことを特徴とする請求項１に記載の画像処理装置。
前記第１の処理手段は、前記削除する処理において、前記基準画像と前記撮像画像とを合成し、合成後の画像において前記オブジェクトの色と異なる色の領域を前記基準シルエットから削除する、ことを特徴とする請求項２に記載の画像処理装置。
前記第１の処理手段は、前記追加する処理において、前記撮像画像から前記オブジェクトのエッジを検出し、不要領域を削除した後のシルエットに対して検出されたエッジを加算し、エッジ加算後のシルエットに対してクロージング処理を行う、ことを特徴とする請求項３に記載の画像処理装置。
前記第１の処理手段は、前記追加する処理において、前記基準画像に含まれる前記基準シルエットの周辺画素のうち前記微動オブジェクトの色に近い色を持つ画素を、前記オブジェクトのシルエットを構成する画素に変更する処理を行う、ことを特徴とする請求項３に記載の画像処理装置。
前記シルエット画像は、前記オブジェクトに対応する領域を示す、少なくとも二値以上の画素値を持つ画像である、ことを特徴とする請求項１乃至５のいずれか１項に記載の画像処理装置。
前記取得手段は、オブジェクトが存在しない状態で撮像された背景画像と前記撮像画像との差分に基づき前記基準画像を取得する、ことを特徴とする請求項１乃至６のいずれか１項に記載の画像処理装置。
前記取得手段は、予め用意された前記オブジェクトの三次元形状データを用いて、前記撮像画像を撮像する撮像装置の視点に前記オブジェクトの三次元形状を投影することで、前記基準画像を取得することを特徴とする請求項１乃至６のいずれか１項に記載の画像処理装置。
前記撮像画像を用いて、当該撮像画像内のオブジェクトの種別を判定するための判定用画像を生成する生成手段をさらに備え、
前記第１の処理手段は、前記判定用画像に基づいて前記オブジェクトが微動オブジェクトであると判定された場合に、前記基準画像に含まれる前記基準シルエットに対して処理を行って、前記シルエット画像を生成する、
ことを特徴とする請求項１乃至８のいずれか１項に記載の画像処理装置。
前記撮像画像は、動画像であり、
前記判定用画像は、前記動画像を構成する複数フレームの中の予め定めた特定フレームと、前記シルエット画像の生成の対象となる注目フレームとの差分に相当する画像である、ことを特徴とする請求項９に記載の画像処理装置。
前記特定フレームは、前記基準画像の取得に用いたフレーム、前記撮像画像の先頭フレーム、前記注目フレームの直前のフレームのいずれかであることを特徴とする請求項１０に記載の画像処理装置。
前記撮像画像内のオブジェクトが動的オブジェクトである場合、前記判定用画像に含まれる前記オブジェクトのシルエットから前記基準シルエットを差し引く処理を行って、前記シルエット画像を生成して出力する第２の処理手段をさらに備え、
前記動的オブジェクトとは、一定時間撮像を行ったときに前記撮像画像内のオブジェクトのシルエットが、前記基準画像に含まれる前記基準シルエットに対して重畳する範囲を超えて移動するオブジェクトである、
ことを特徴とする請求項１乃至１１のいずれか１項に記載の画像処理装置。
前記撮像画像内のオブジェクトが静的オブジェクトである場合、前記基準画像を前記シルエット画像として出力する第３の処理手段をさらに備え、
前記静的オブジェクトとは、一定時間撮像を行ったときに前記撮像画像内のオブジェクトのシルエットが、前記基準画像に含まれる前記基準シルエットに対して一致するオブジェクトである、
ことを特徴とする請求項１乃至１２のいずれか１項に記載の画像処理装置。
前記微動オブジェクトには、球技で用いられるゴールが含まれることを特徴とする請求項１乃至１３のいずれか１項に記載の画像処理装置。
撮像画像内のオブジェクトのシルエット画像を生成する画像処理方法であって、
前記オブジェクトの基準シルエットを含む基準画像を取得する取得ステップと、
前記オブジェクトが微動オブジェクトである場合、前記基準画像に含まれる前記基準シルエットに対して処理を行うことにより前記シルエット画像を生成して出力する第１の処理ステップと、
を含み、
前記基準画像に対応する視点は、前記撮像画像に対応する視点と同じであり、
前記微動オブジェクトとは、一定時間撮像を行ったときに前記撮像画像内のオブジェクトの形状を示すシルエットが、前記基準画像に含まれる前記基準シルエットに対して重畳する所定の範囲内で移動するオブジェクトである、
ことを特徴とする画像処理方法。
コンピュータを、請求項１乃至１４のいずれか１項に記載の画像処理装置として機能させるためのプログラム。