JP2022085643A

JP2022085643A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2022085643A
Application number: JP2020197430A
Authority: JP
Inventors: 翔平山内; Shohei Yamauchi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-06-08
Also published as: US12159432B2; US20220172401A1

Abstract

【課題】背景差分法によって撮像画像から前景領域を抽出する場合において、より簡便な方法で高精度に前景領域を抽出する画像処理装置、画像処理方法およびプログラムを提供する。
【解決手段】画像処理システムにおいて、画像処理装置は、前景となるオブジェクトを含む撮像画像及びオブジェクトを含まない背景画像を取得する取得手段と、背景画像を補正するためのパラメータを設定する補正パラメータ設定部３０３と、設定されたパラメータに基づいて、背景画像を構成する画素の画素値を補正する補正処理部３０２と、補正後の背景画像と撮像画像との差分に基づき、前景となるオブジェクトの領域を撮像画像から抽出する抽出手段と、を有する。
【選択図】図３

Description

本開示の技術は、撮像画像から前景領域を抽出する画像処理技術に関する。

撮像画像から前景領域（人物などの注目するオブジェクトに対応する画像領域）を抽出する技術は様々な目的で使用されており、その手法も様々である。代表的な手法としては背景差分法がある。背景差分法は、入力撮像画像と何らかの方法で取得したその背景画像（注目オブジェクトを含まない画像）とを比較し、対応関係にある画素同士の画素値の差が所定の閾値以上である画素を前景領域として抽出する手法である。この背景差分法では、前景となるオブジェクトの色と背景の色とが類似している場合は、画素値の差が小さくなり、前景領域を精度よく抽出できないという課題がある。この点、特許文献１には、可視光カメラに加えて、不可視光である赤外線を感知可能なカメラと赤外線を照射する照明器具を別途用いることで、前景と背景とで色が同一又は類似していても安定して前景領域を抽出する技術が開示されている。

特開２０２０－０２１３９７号公報

上記特許文献１の技術では、可視光カメラに加えて赤外線等の不可視光を感知・照射するための装置が別途必要になるため、撮像に要する手間が増え、設備も大掛かりになってしまうという問題がある。

本開示は、簡便に適切に撮像画像から前景領域を抽出することを目的とする。

本開示に係る画像処理装置は、前景となるオブジェクトを含む撮像画像及び前記オブジェクトを含まない背景画像を取得する取得手段と、前記背景画像を補正するためのパラメータを設定する設定手段と、前記設定されたパラメータに基づいて、前記背景画像を構成する画素の画素値を補正する補正手段と、前記補正後の背景画像と前記撮像画像との差分に基づき、前記前景となるオブジェクトの領域を前記撮像画像から抽出する抽出手段と、を有することを特徴とする。

本開示の技術によれば、簡便に適切に前景領域を抽出することが可能になる。

（ａ）は画像処理システムの概略構成を示す図、（ｂ）は画像処理装置のハードウェア構成を示す図。画像処理システムの主要な機能構成を示すブロック図。実施形態１に係る、背景生成部の内部構成を示す図。実施形態１に係る、入力画像から前景シルエット画像を生成する一連の処理の流れを示したフローチャート。（ａ）は入力画像の一例を示す図、（ｂ）は背景画像の一例を示す図。（ａ）は従来手法による前景シルエット画像の一例を示す図、（ｂ）は実施形態１の手法による前景シルエット画像の一例を示す図。（ａ）及び（ｂ）は、入力画像と背景画像との差分についてのヒストグラムの一例を示す図。実施形態２に係る、背景生成部の内部構成を示す図。（ａ）及び（ｂ）は、補正領域の設定を説明する図。補正値の設定を説明する図。実施形態２に係る、入力画像から前景シルエット画像を生成する一連の処理の流れを示したフローチャート。背景画像内の特定画像領域のみが補正された背景画像の一例を示す図。

以下、図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、図示された構成に限定されるものではない。

［実施形態１］
本実施形態では、背景差分法によって撮像画像から前景領域を抽出して、仮想視点画像の生成に必要な前景シルエット画像を生成する場面を適用例として、説明を行うものとする。

まず、仮想視点画像の概要を簡単に説明する。複数の視点で撮像された複数視点の撮像画像を用いて、任意の仮想視点における仮想視点画像を生成する技術がある。例えば、仮想視点画像を用いると、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴閲覧することができるので、通常の画像と比較してユーザに高臨場感を与えることができる。

仮想視点画像を生成する際には、オブジェクト（被写体）の形状を表す前景部分を背景部分から切り離してモデル化した上でレンダリングする処理が行われる。前景をモデル化する際には、複数の撮像装置から見たときのオブジェクトの形状（シルエット）の情報と前景のテクスチャの情報（例えば前景部分の各画素のＲ、Ｇ、Ｂの色情報）とが必要となる。前景部分を背景部分から切り離す処理は「前景背景分離処理」と呼ばれる。この前景背景分離処理には、前景を含む撮像画像とその背景画像との差分を求め、差分値が所定の閾値以上と判定された画素の集まりである領域を前景領域とする「背景差分法」が一般的に用いられる。本実施形態では、背景差分法において使用する背景画像に対して、前景を含む撮像画像との差分が大きくなるような補正を行うことで、前景領域の抽出精度を高める。

なお、本実施形態では、仮想視点画像を生成するシステムにおいて前景シルエット画像を生成するための前景領域の抽出を例に説明を行うが、本実施形態で開示する前景抽出手法の用途は前景シルエット画像の生成に限定されるものではない。例えば様々な施設内に設置された監視撮像装置や、遠隔地や屋外に設置された監視撮像装置などにおいて、危険予測等に使用するための動物体検出等にも本実施形態の前景抽出手法は有効である。

＜システム構成＞
図１（ａ）は、本実施形態の画像処理システム１００の概略構成を説明する図である。競技場１０１では、例えばサッカーなどの競技が行われ、競技場１０１の中に前景となる人物１０２が存在しているものとする。前景となるオブジェクトには、例えば選手、監督、または審判等の特定の人物、或いはボールやゴール等のように画像パターンが予め定められている物体が含まれる。また、前景となるオブジェクトは動体であってもよいし、静止体であってもよい。競技場１０１の周囲には、複数のカメラ画像処理装置１０３が配置され、競技場１０１で行われるサッカーの試合等を複数の視点から同期撮像可能なように構成されている。複数のカメラ画像処理装置１０３それぞれは、撮像機能と画像処理機能を有している。カメラ画像処理装置１０３同士は、例えばネットワークケーブル１０４を使ったリング型のネットワーク接続がされており、ネットワークを介して隣のカメラ画像処理装置１０３へ画像データを順次伝送するように構成されている。つまり、各カメラ画像処理装置１０３は、受信した画像データと、自身で撮像・処理して得られた画像データとを併せて隣のカメラ画像処理装置１０３に伝送するように構成されている。そして、各カメラ画像処理装置１０３において処理された画像データは、最終的に統合画像処理装置１０５に送られる。統合画像処理装置１０５では、受信した画像データを用いて、仮想視点画像を生成する処理が行われる。なお、図１（ａ）に示すシステム構成は一例であって、例えばリング型のネットワーク接続に限定されず、スター型など他の接続形態でもよい。

＜ハードウェア構成＞
図１（ｂ）は、カメラ画像処理装置１０３と統合画像処理装置１０５に共通する、基本的なハードウェア構成を示すブロック図である。画像処理装置１０３／１０５は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、補助記憶装置１４、表示部１５、操作部１６、通信Ｉ／Ｆ１７、及びバス１８を有する。ＣＰＵ１１は、ＲＯＭ１２やＲＡＭ１３に格納されているコンピュータプログラムやデータを用いて装置全体を制御することで、画像処理装置１０３／１０５における各機能を実現する。なお、ＣＰＵ１１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ１１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、およびＤＳＰ（デジタルシグナルプロセッサ）などがある。ＲＯＭ１２は、変更を必要としないプログラムなどを格納する。ＲＡＭ１３は、補助記憶装置１４から供給されるプログラムやデータ、及び通信Ｉ／Ｆ１７を介して外部から供給されるデータなどを一時記憶する。補助記憶装置１４は、例えばハードディスクドライブ等で構成され、画像データや音声データなどの種々のデータを記憶する。表示部１５は、例えば液晶ディスプレイやＬＥＤ等で構成され、ユーザが画像処理装置１０５を操作するためのＧＵＩ（Graphical User Interface）などを表示する。操作部１６は、例えばキーボードやマウス、ジョイスティック、タッチパネル等で構成され、ユーザによる操作を受けて各種の指示をＣＰＵ１１に入力する。ＣＰＵ１１は、表示部１５を制御する表示制御部、及び操作部１６を制御する操作制御部として動作する。通信Ｉ／Ｆ１７は、画像処理装置１０３／１０５の外部の装置との通信に用いられる。例えば、外部装置と有線で接続される場合には、通信用のケーブルが通信Ｉ／Ｆ１７に接続される。また、外部装置と無線通信する機能を有する場合には、通信Ｉ／Ｆ１７はアンテナを備える。バス１８は、装置内各部を繋いで情報を伝達する。本実施形態では表示部１５と操作部１６が装置内部に存在するものとして説明したが、表示部１５と操作部１６との少なくとも一方が装置外部に別の装置として存在していてもよい。また、カメラ画像処理装置１０３においては表示部１５や操作部１６は必須の構成ではなく、例えば外部のコントローラ（不図示）から遠隔操作可能なシステム構成であってもよい。

＜機能構成＞
図２は、本実施形態の画像処理システム１００における主要な機能構成を示すブロック図である。カメラ画像処理装置１０３は、撮像制御部２０１、画像前処理部２０２、背景生成部２０３、前景シルエット生成部２０４、前景テクスチャ生成部２０５からなる。統合画像処理装置１０５は、形状モデル生成部２１１、仮想視点画像生成部２１２からなる。以下、カメラ画像処理装置１０３と統合画像処理装置１０５を構成する各部について、順に説明する。

まず、カメラ画像処理装置１０３の内部構成について説明する。撮像制御部２０１は、不図示の光学系を制御して、所定のフレームレート（例えば60fps）の動画像による撮像を行う。撮像制御部２０１が内蔵するイメージセンサは可視光域を検知する撮像素子を有している。なお、カラーフィルターの１画素を近赤外線域用に割り当てて、通常のカラー画像（ＲＧＢ画像）とは別に近赤外線画像を同時に取得可能なイメージセンサであってもよい。この場合、後述の前景背景分離処理をＲＧＢの３チャネルにＩＲ（近赤外光）の１チャネルを加えた４チャネルで行うことができ、より高精度に前景抽出を行うことが可能になる。撮像制御部２０１によって得られた撮像画像は、画像前処理部２０２に入力される。画像前処理部２０２は、入力された撮像画像に対し、現像、歪み補正、振動補正などの前処理を行う。前処理後の撮像画像はフレーム単位で、背景生成部２０３、前景シルエット生成部２０４及び前景テクスチャ生成部２０５にそれぞれ入力される。なお、これら各部にフレーム単位で入力される前処理後の撮像画像を、以下では、「入力画像」と呼ぶこととする。背景生成部２０３は、画像前処理部２０２からの入力画像を基に背景画像を生成する。この際、生成した背景画像に対して所定の補正処理を行うが、その詳細については後述する。前景シルエット生成部２０４は、画像前処理部２０２からの入力画像と背景生成部２０３からの背景画像とを用いて、背景差分法による前景背景分離処理を行って、前景シルエット画像を生成する。なお、前景シルエット画像は、「前景マスク」とも呼ばれる。生成された前景シルエット画像のデータは、前景テクスチャ生成部２０５に入力される。前景テクスチャ生成部２０５は、画像前処理部２０２からの入力画像から前景のシルエットに相当する部分の色情報を抽出して、前景テクスチャを生成する。そして、上記のようにして得られた前景シルエット画像と前景テクスチャを一まとめにした画像データ２１０（以下、「カメラ画像データ」と呼ぶ）が、全てのカメラ画像処理装置１０３から順次送信され、統合画像処理装置１０５に集約される。

次に、統合画像処理装置１０５の内部構成について説明する。形状モデル生成部２１１は、受信した各カメラ画像処理１０３に対応するカメラ画像データ２１０に含まれる前景シルエット画像を基に、オブジェクトの三次元形状を表す形状データ（以下、「形状モデル」と呼ぶ。）を生成する。仮想視点画像生成部２１２は、仮想的な視点位置や姿勢の情報に従って、形状モデルに対し前景テクスチャを貼り付けて色付けし、背景画像と合成することにより、仮想視点からの見えを表す仮想視点画像を生成する。

上述した各機能部は、ＡＳＩＣやＦＰＧＡの内部に実装されている。或いは、ＣＰＵ１１がＲＯＭ１２等に記憶されたプログラムをＲＡＭ１３に読み出して実行することで、ＣＰＵ１１が図２に示す各部として機能する形態でもよい。すなわち、カメラ画像処理装置１０３及び統合画像処理装置１０５は、ソフトウェアのモジュールとして図２に示す各機能モジュールを実現してもよい。

＜背景生成部の詳細＞
次に、背景生成部２０３が行う処理について詳しく説明する。図３は、本実施形態に係る背景生成部２０３の内部構成を示す機能ブロック図である。図３に示す通り、背景生成部２０３は、背景領域抽出部３０１、補正処理部３０２及び補正パラメータ設定部３０３を有する。以下、各機能部について説明する。

背景領域抽出部３０１は、入力画像から背景領域を抽出して、ベースとなる背景画像を生成する。背景領域の抽出方法としては、時系列に並ぶ複数枚の入力画像から静止している領域を背景領域として抽出する手法（フレーム間差分法）がある。具体的には、入力されるｎ番目のフレームと、その一つ前の（ｎ－１）番目のフレームの画像情報との差分を取り、その差分がある一定値を越えた場合に動きのある領域とし、それ以外の領域を静止している領域と判定して、背景領域を抽出する。この手法は、隣接する２つのフレーム間で、画角が固定された状態で、撮像された時間だけが僅かに異なっていることから、両フレーム間の差分が閾値以下の画素領域を背景領域と見做すものである。抽出された背景領域を示す画像は、後述の補正処理の対象となるベースの背景画像として、補正処理部３０２に入力される。

補正処理部３０２は、背景領域抽出部３０１で生成された背景画像に対し、前景領域がより精度良く抽出できるようにするための補正処理を行う。本実施形態では、背景画像に含まれる色の色相を変化させる処理を、補正処理として行う。一般に色相は０度～３６０度の範囲で与えられ、０度と３６０度が赤、６０度が黄、１２０度が緑、１８０度がシアン、２４０度が青、３００度がマゼンタを表す。本実施形態では、入力された背景画像に含まれる各色について、その色相角度を所定角度（例えば１０度）の分だけプラス或いはマイナス方向にずらす（オフセットを掛ける）処理を行う。いま、入力画像の各画素はＲＧＢ値を持っており、当該入力画像から生成される背景画像の各画素もＲＧＢ値を持つ。そこで、補正処理部３０２は、背景画像に含まれる色の色相を補正するため、先ず、背景画像の色空間をＲＧＢからＨＳＶへ変換する。具体的には、以下の式（１）～式（３）を用いて、各画素の色相Ｈを求める。
ｍｉｎ（Ｒ，Ｇ，Ｂ）＝Ｂのとき、
Ｈ＝（Ｇ－Ｒ）／Ｓ×６０＋６０式（１）
ｍｉｎ（Ｒ，Ｇ，Ｂ）＝Ｒのとき、
Ｈ＝（Ｂ－Ｇ）／Ｓ×６０＋１８０式（２）
ｍｉｎ（Ｒ，Ｇ，Ｂ）＝Ｇのとき、
Ｈ＝（Ｒ－Ｂ）／Ｓ×６０＋３００式（３）
上記式（１）～（３）においてＳは彩度を表し、以下の式（４）により求められる。
Ｓ＝ｍａｘ（Ｒ，Ｇ，Ｂ）－ｍｉｎ（Ｒ，Ｇ，Ｂ）式（４）
そして、背景画像を構成する各画素について、その色相を表す成分値である色相角度に上記所定角度の値を加算（或いは減算）して、新たな色相Ｈを算出する。こうして、各画素の色相を補正したら、上記変換式の逆算（逆変換）によって今度はＲＧＢ色空間の画素値へと戻す。これにより、背景画像に含まれる色の色相が変更された新たな背景画像が得られる。

補正パラメータ設定部３０３は、補正処理部３０２において実行される上述のオフセットを掛ける補正処理のためのオフセット値を、補正パラメータとして設定する。背景画像に含まれる色の色相を変化させる本実施形態の場合、補正パラメータ設定部３０３は、色相の変化量を規定する上述の所定角度をオフセット値として設定し、補正パラメータとして補正処理部３０２に提供する。いま、オフセット値として例えば「＋１０度」が設定されたとする。この場合、背景画像内の黄緑色の画素については、その色相角度「９０度」に対してプラス方向に１０度だけずれる結果、青の色味が増えることになる。もしオフセット値が「－１０度」であれば、「９０度」に対してマイナス方向に１０度だけずれることになり、黄の色味が増えることになる。設定されるオフセット値はユーザ入力に基づいて、具体的には、不図示のユーザインタフェース画面等を介して、ユーザが主要なオブジェクトの色などを考慮して指定する。なお、オフセット値が大きすぎると、後述の前景領域抽出処理において本来は背景となるべき部分を前景領域として誤抽出してしまう可能性が高まるので留意が必要である。

以上のような処理によって、本実施形態では、ベースの背景画像内の特定の色が補正されて、新たな背景画像が生成されることになる。

（背景生成部及び前景シルエット生成部の処理）
図４は、本実施形態のカメラ画像処理装置１０３における、入力画像から前景シルエット画像を生成する一連の処理の流れを示したフローチャートである。以下、図４のフローチャートに沿って詳しく説明する。なお、記号「Ｓ」はステップを意味する。

Ｓ４０１では、背景生成部２０３の補正処理部３０２が、補正パラメータ設定部３０３によって設定された補正パラメータ（本実施形態では、オフセット値）を取得する。この際には、予め設定・保存されたオフセット値の情報を補助記憶装置１４等から読み込むことで取得する。或いは、補正パラメータ設定用ＵＩ画面（不図示）を表示部１５に表示させ、当該ＵＩ画面を介して入力された所定角度の値を補正パラメータ設定部３０３がまず設定し、その後に当該設定されたオフセット値の情報を取得するようにしてもよい。

Ｓ４０２では、背景生成部２０３と前景シルエット生成部２０４が、画像前処理が済んだ動画像のうち注目するフレームの画像（入力画像）を取得する。

Ｓ４０３では、背景生成部２０３内の背景領域抽出部３０１が、注目フレームの入力画像から、前述した方法にて背景画像を生成する。生成された背景画像のデータは、補正処理部３０２に入力される。

Ｓ４０４では、背景生成部２０１内の補正処理部３０２が、入力された背景画像に対し、Ｓ４０１で取得した補正パラメータに基づいて補正処理を行う。前述のとおり本実施形態では、背景画像に含まれる色の色相を、予め設定されたオフセット値の分だけ変化させる処理が補正処理として実行される。この補正処理によって得られた、各画素の色の色相が変更された背景画像（以下、「補正背景画像」と呼ぶ。）のデータは、前景シルエット生成部２０４に入力される。

Ｓ４０５では、前景シルエット生成部２０４が、Ｓ４０４で生成された補正背景画像を用いて、Ｓ４０１で取得した注目フレームの入力画像における前景領域を背景差分法により抽出して、前景シルエット画像を生成する。前景シルエット画像は、抽出された前景領域を「１」、それ以外の背景領域を「０」で表現した２値画像である。前景領域の抽出においては、まず注目フレームの入力画像と補正背景画像との差分ｄｉｆｆを求める。ここで、差分ｄｉｆｆは、以下の式（１）で表される。

上記式（１）において、（Ｒ_in、Ｇ_in、Ｂ_in）は入力画像における画素値を表し、（Ｒ_bg、Ｇ_bg、Ｂ_bg）は補正背景画像における画素値を表す。また、Ｋ_R、Ｋ_G、Ｋ_BはＲ成分、Ｇ成分、Ｂ成分それぞれの差分の重みを表す。

注目フレームの入力画像と補正背景画像との差分ｄｉｆｆを求めると、次に、所定の閾値ＴＨを用いて２値化処理を行う。これにより、前景領域を白（１）、背景領域を黒（０）で表した前景シルエット画像が得られる。なお、前景シルエット画像は、入力画像と同じサイズ（同じ解像度）でもよいし、抽出した前景領域の外接矩形の部分だけを入力画像から切り出した部分画像でもよい。生成された前景シルエット画像のデータは、前景テクスチャ生成部２０５に入力されると共に、カメラ画像データの一部として形状モデル生成部２１１に送られることになる。

Ｓ４０６では、処理対象の動画像を構成する全てのフレームについての処理が完了したか否かが判定される。全てのフレームの処理が完了していない場合はＳ４０２に戻って次の注目フレームの入力画像を取得して処理を続行する。一方、全てのフレームの処理が完了していた場合は、本処理を終了する。

以上が、本実施形態における、入力画像から前景シルエット画像を生成するまでの処理の流れである。なお、本実施形態では、注目フレームの入力画像を背景生成部２０３と前景シルエット生成部２０４がフレーム単位で画像前処理部２０２から順次取得するものとして説明を行ったがこれに限定されない。例えば、処理対象となる動画像の全フレーム分のデータを背景生成部２０３と前景シルエット生成部２０４がそれぞれ取得し、それぞれがフレーム単位での処理を同期して行ってもよい。

ここで、本実施形態の手法によって得られる前景シルエット画像について、従来技術と比較して、その違い・効果を説明する。

図５（ａ）は人物オブジェクト５０１が映っている注目フレームの入力画像を示し、同（ｂ）は当該注目フレームの背景画像を示している。この場合おいて、前景である人物５０１が着ている服の星形マーク５０２の色と、背景である床５０３の色が似ているものとする。図６（ａ）及び（ｂ）は、図５（ａ）の入力画像と同（ｂ）の背景画像とに基づき得られた前景シルエット画像を示し、図６（ａ）が従来手法、図６（ｂ）が本実施形態の手法に対応している。図６（ａ）に示す前景シルエット画像では、人物５０１のシルエット部分６０１が前景を表す白画素、それ以外の部分６０２が背景を表す黒画素となっている一方で、星形マーク５０２に対応する部分６０３も黒画素になっている。これは、服の模様である星形マーク５０２と背景である床５０３の色合いが似ていたためにその差分ｄｉｆｆが、２値化処理のための閾値ＴＨを超えず、星形マーク５０２の部分が背景領域と判断されてしまったことが原因である。図７（ａ）は、従来手法に係る図６（ａ）の前景シルエット画像生成時の２値化処理を説明する図であり、図５（ａ）におけるＡ－Ａ’断面のｘ座標を横軸、その差分ｄｉｆｆの値を縦軸にとったヒストグラムである。星形マーク５０２に対応する部分の差分ｄｉｆｆの値が閾値ＴＨを超えていないことが分かる。

一方、本実施形態に係る図６（ｂ）に示す前景シルエット画像では、星形マーク５０２に対応する部分を含めた人物５０１のシルエット全体６１１が、前景領域を表す白画素、それ以外の部分６１２が黒画素になっている。そして、図７（ｂ）は、本実施形態に係る図６（ｂ）の前景シルエット画像生成時の２値化処理を説明するヒストグラムである。上記図７（ａ）に示す従来手法のヒストグラムと異なり、星形マーク５０２に対応する部分の差分ｄｉｆｆの値も閾値ＴＨを超えていることが分かる。このように本実施形態の手法では、背景画像への補正処理によって、入力画像と背景画像との差分ｄｉｆｆが閾値ＴＨを超える程度まで大きくなり、背景と色合いが似ている星形マーク５０２の部分についても前景領域として抽出できるようになる。

＜変形例＞
本実施形態では背景画像の生成を毎フレーム行っているが、必ずしも毎フレーム生成する必要はない。例えば屋内で行われるスポーツの試合など、日照による背景変化が起きないような撮像シーンでは、固定された背景画像を用いてもよい。固定された背景画像は、例えば前景のオブジェクトが存在しない状態（例えば試合の開始前）で撮像することで得ることができる。

また、本実施形態の補正処理では、背景画像の色空間をＲＧＢからＨＳＶに変換して色相Ｈにオフセットを掛けているが、補正処理の内容はこれに限定されない。例えばＲＧＢ色空間のまま各成分値（或いはＲＧＢのうち１つ又は２つの成分値）にオフセットを掛けてもよい。また、ＨＳＶ以外の他の色空間、例えばＹＵＶに変換して輝度Ｙにオフセットを掛けてもよい。

以上のとおり本実施形態によれば、背景画像に対し補正処理を行うことで、入力画像内の前景となるオブジェクトの色と背景の色とが似ていても、大きな差分ｄｉｆｆを得られるようになる。その結果、前景背景分離のための２値化処理において前景領域の一部が背景であると判断されるような誤判定が起きにくくなり、適切に前景領域を抽出することが可能になる。

［実施形態２］
実施形態１の手法では、背景画像の全体が、予め定めた補正値で一律に補正されることになる。しかしながら、固定された補正値で背景画像全体を補正する手法の場合、実際には背景を構成する画素であるにも関わらず補正によって入力画像との差分値が却って大きくなり、誤って前景領域として抽出されてしまうという可能性がある。また、例えば専用スタジオにていわゆるクロマキー撮像を行うようなケースでは、例えばオブジェクトの一部にグリーンバッグやブルーバッグの色が反射して映り込んでしまうことがある。このような場合、入力画像内の前景領域のうち当該映り込みが生じている部分について誤って背景領域として抽出されないようにするには、背景画像の全体を固定された補正値で一律に補正する手法では対応が困難である。そこで、補正処理の対象となる領域（補正領域）と補正値を適応的に決定して、背景画像内の必要な領域だけを対象として補正を行う態様を、実施形態２として説明する。なお、基本のシステム構成など実施形態１と共通する内容については説明を省略ないしは簡略化し、以下では差異点である、背景画像に対する補正処理を中心に説明を行うこととする。

＜背景生成部の詳細＞
図８は、本実施形態に係る背景生成部２０３の内部構成を示す機能ブロック図である。図８に示す通り、背景生成部２０３の構成要素は実施形態１と基本的には同じであり、背景領域抽出部３０１、補正処理部３０２’及び補正パラメータ設定部３０３’を有する。実施形態１と大きく異なるのは、補正処理部３０２’において背景画像を限定的に補正するために必要となる、補正領域を特定するための情報が、補正パラメータとして設定される点である。以下、各機能部について、実施形態１と異なるところを中心に説明する。

背景領域抽出部３０１は、実施形態１と同様、入力画像から背景領域を抽出して、ベースとなる背景画像を生成する。但し、本実施形態では、生成された背景画像は、補正処理部３０２に加えて、補正パラメータ設定部３０３’にも入力される。

補正処理部３０２’は、背景領域抽出部３０１で生成された背景画像に対し、補正パラメータ設定部３０３’が設定した補正パラメータに基づき、背景画像内の一部の画像領域を対象として補正処理を行う。なお、本実施形態では、背景画像に対して色空間の変換を行わず、ＲＧＢ色空間のまま補正処理を行う場合を例に説明を行うものとする。

補正パラメータ設定部３０３’は、背景画像内の補正領域と補正値を適応的に決定し、補正処理部３０２’に補正パラメータとして提供する。ここで、補正領域の設定と補正値の設定とを分けて説明する。

≪補正領域の設定≫
補正領域は、例えば空間情報を用いて設定する。ここで、空間情報とは、例えばマスク画像やＲＯＩ（Region of Interest）などを指す。マスク画像の場合は白（又は黒）画素の領域によって、背景画像内の補正領域が表現される。ＲＯＩの場合は、座標位置（ｘ，ｙ）、対象とする画像領域の幅（ｗ）や高さ（ｈ）といった要素によって、背景画像内の補正領域が表現される。ここで、マスク画像によって補正領域を表現する場合の補正領域の決定方法について、前述した図５（ａ）の入力画像と同（ｂ）の背景画像の場合を例に説明する。図５（ｂ）に示す背景画像において補正処理が必要となる領域は、前景（ここでは人物オブジェクト５０１）と色合いが似ていて誤抽出の虞がある領域である。そこでまず、図５（ａ）に示す入力画像と図５（ｂ）に示す背景画像との差分ｄｉｆｆを、前述の式（１）を用いて求める。図９（ａ）は、求めた差分ｄｉｆｆについてのヒストグラムであり、縦軸が画素数を、横軸が差分値を表している。そして、図９（ａ）のヒストグラムには、差分値に対する２つの閾値（ＴＨ_lowとＴＨ_high）が示されている。この２つの閾値は、前景と背景との異同、例えば前景となる人物が背景と似た色の服を着ているといった現状に着目して、ユーザが不図示のＵＩ画面などを介して設定する。ユーザによって設定された２つの閾値に基づき、差分値が０から閾値ＴＨ_lowまでの範囲９０１が、背景である確率が高い領域となる。同様に、差分値がＴＨ_lowからＴＨ_highまでの範囲９０２が、前景であるか背景であるかが曖昧な領域となる。また、差分値がＴＨ_highを超えた範囲９０３が、前景である確率が高い領域となる。そして、図９（ｂ）は、上記２つの閾値ＴＨ_lowとＴＨ_highによって分離される上記３種類の画像領域を、それぞれ白、グレー、黒の３種類の画素で表した図である。図９（ｂ）において、白画素領域９１１が前景の範囲９０３に対応し、人物オブジェクト５０１の縁部と星形マーク５０２の２箇所あるグレー画素領域９１２が曖昧な範囲９０２に対応し、黒画素領域９１３が背景の範囲９０１に対応している。最後に、上記２つの閾値を用いた閾値処理によって得られた２か所のグレー画素領域９１２を補正領域として決定し、当該決定した補正領域を白画素、それ以外の領域を黒画素で示したマスク画像（以下、「補正領域マスク」と呼ぶ。）を生成すればよい。この補正領域マスクを用いることで、背景画像のうち前景オブジェクトと色合いが似ている画像領域のみを対象とした限定的な補正処理が可能になる。

≪補正値の設定≫
補正値については、上記２つの閾値ＴＨ_lowとＴＨ_highを用いた演算処理によって得たオフセット値を設定する。ＲＧＢ色空間のまま補正処理を行う本実施形態では、ＲＧＢ各成分のオフセット値（Ｒ_n，Ｇ_n，Ｂ_n）を、例えば、以下の式（２）或いは式（３）と、ＲＧＢそれぞれの重みＷによって求める。

この場合おいて重みＷは、例えば各成分について均等に（Ｒ_n：Ｇ_n：Ｂ_n）＝（１：１：１）のように予め決めておけばよい。いま、上記２つの閾値がそれぞれＴＨ_low＝５０、ＴＨ_high＝３０であって、上記式（３）を適用したとする。この場合、およそ前景らしい画像領域の範囲は、差分ｄｉｆｆの値が“４０”から“５０”までの範囲となり、上記式（３）により

の値は“１０”となる。そして、重みＷは各成分について均等であるため、オフセット値（Ｒ_n，Ｇ_n，Ｂ_n）＝（３，３，３）に決定されることになる。

ここで、上記式（２）や式（３）によってオフセット値を決定することの意味について確認しておく。図１０は、あるフレームｆの入力画像とその背景画像との差分ｄｉｆｆについてのヒストグラムであり、図９（ａ）のヒストグラムと同様、縦軸が画素数を、横軸が差分値を表している。前述のとおり、予め設定等された２つの閾値（ＴＨ_highとＴＨ_low）によって挟まれた範囲１０００に対応する画像領域が、前景か背景かが曖昧な画像領域（中間領域）となる。そして、この中間領域には背景と判断すべき画像領域と前景と判断すべき画像領域の両方が含まれており、そのうち前景と判断すべき画像領域は、範囲１０００のうち閾値ＴＨ_highにより近い側にあると推測される。そこで、例えば上記式（２）を用いることで、上述の挟まれた範囲１０００のうち上位半分の範囲１００１に相当する画像領域を前景として抽出できるようなオフセット値を決定している。

（背景生成部及び前景シルエット生成部の処理）
図１１は、本実施形態のカメラ画像処理装置１０３における、入力画像から前景シルエット画像を生成する一連の処理の流れを示したフローチャートである。以下、図１１のフローチャートに沿って詳しく説明する。なお、記号「Ｓ」はステップを意味する。

Ｓ１１０１では、背景生成部２０３の補正パラメータ設定部３０３’が、予め設定された２つの閾値（ＴＨ_lowとＴＨ_high）を用いて、補正パラメータとしてのオフセット値を上述の手法で決定する。なお、２つの閾値（ＴＨ_lowとＴＨ_high）については、補助記憶装置１４等に保存しておいたものを読み出すなどすればよい。決定したオフセット値の情報は、ＲＡＭ１３に保持される。
次のＳ１１０２では、実施形態１の図４のフローにおけるＳ４０２と同様、背景生成部２０３と前景シルエット生成部２０４が、処理対象の注目フレームの入力画像を取得する。本実施形態の場合、背景生成部２０３が取得した入力画像のデータは、背景領域抽出部３０１に加え、補正パラメータ設定部３０３’にも送られることになる。

Ｓ１１０３では、背景生成部２０３内の背景領域抽出部３０１が、注目フレームの入力画像を用いて背景画像を生成する。生成された背景画像のデータは、補正処理部３０２’に入力される。

Ｓ１１０４では、補正パラメータ設定部３０３’が、Ｓ１１０３で生成された背景画像と上記注目フレームの入力画像とを用いて、前述した補正領域マスクを生成する。

Ｓ１１０５では、補正処理部３０２’が、Ｓ１１０３で生成された背景画像のうち注目する画素を決定し、当該注目画素の位置が、Ｓ１１０４で生成された補正領域マスクが示すマスク領域（白画素領域）内かどうかを判定する。判定の結果、注目画素の位置がマスク領域内であればＳ１１０６に進む。一方、注目画素の位置がマスク領域外であれば、Ｓ１１０６をスキップしてＳ１１０７に進む。

Ｓ１１０６では、補正処理部３０２’が、背景画像内の注目画素の画素値を、Ｓ１１０１で決定されたオフセット値を用いて補正する。ＲＧＢ色空間のまま補正処理を行う本実施形態の場合、注目画素の位置（ｘ，ｙ）の画素値（Ｒ，Ｇ，Ｂ）にオフセット値（Ｒ_n，Ｇ_n，Ｂ_n）を加算する処理が実行される。例えば、オフセット値が（Ｒ_n，Ｇ_n，Ｂ_n）＝（３，３，３）であって、注目画素の画素値が（Ｒ，Ｇ，Ｂ）＝（１００，１００，５０）であったとする。この場合、補正後の背景画像における注目画素の画素値は、（Ｒ，Ｇ，Ｂ）＝（１０３，１０３，５３）となる。なお、オフセットを掛けられればよいので、加算する処理に代えて減算する処理を行ってもよい。

Ｓ１１０７では、補正処理部３０２’が、Ｓ１１０３で生成された背景画像内のすべての画素についてＳ１１０５の判定処理が完了したか否かを判定する。未処理の画素があればＳ１１０５に戻って次の注目画素を決定して処理を続行する。一方、背景画像内の全画素について処理が完了していれば、Ｓ１１０８に進む。

Ｓ１１０８では、実施形態１の図４のフローにおけるＳ４０５と同様、前景シルエット生成部２０４が、上記補正処理によって補正された背景画像を用いて、注目フレームの入力画像における前景領域を抽出して前景シルエット画像を生成する。図１２は、前述の図９（ｂ）に対応する、特定の補正領域だけを対象に補正処理を施した背景画像を示している。図５（ｂ）に示す補正前の背景画像と比較すると、図９（ｂ）におけるグレー領域９１２に対応する領域１２０１（すなわち、人物オブジェクト５０１の縁部と星形マーク５０２の部分）が、補正処理によって変化しているのが分かる。

Ｓ１１０９では、実施形態１の図４のフローにおけるＳ４０６と同様、処理対象の動画像を構成する全てのフレームについての処理が完了したか否かが判定される。全てのフレームの処理が完了していない場合はＳ１１０２に戻って次の注目するフレームを決定して処理を続行する。一方、全てのフレームの処理が完了していた場合は、本処理を終了する。

以上が、本実施形態における、入力画像から前景シルエット画像を生成するまでの処理の流れである。上述のような処理によって、背景画像のうち特定の画像領域に属する画素の画素値に対してのみ補正処理が実行されることになる。

＜変形例＞
上記説明では、補正領域の特定に空間情報を用いたが、色空間情報を用いてもよい。例えば、ＨＳＶ色空間における色相Ｈの最小値と最大値を指定したり、ＲＧＢ色空間におけるＲＧＢ各成分値の最小値と最大値を指定したりといった具合である。これにより、指定された範囲の色相やＲＧＢ値を持つ画素で構成される画像領域を補正領域として特定することができる。例えば、ラグビーやサッカーの試合を対象に撮像を行う場合において、選手のユニフォームの色と背景である芝生の色とが類似しているようなケースでは、このような手法が有効である。ＨＳＶ色空間を用いる場合であれば、色相Ｈの下限をＨ_min＝１００度、上限をＨ_max＝１４０度のように芝生の色周辺の色相範囲を指定すればよい。このように色空間情報を用いることでも、背景画像のうち前景であるか背景であるかが曖昧な画像領域だけを補正領域として設定することができる。

また、補正方法として、オフセットを掛ける処理に代えて、指定された範囲の画像領域に含まれる各画素を特定の色で塗り潰したり、或いはその周辺領域の画素の色に合わせるといった処理を行ってもよい。

上記のとおり本実施形態の場合、一定の条件を満たす画像領域のみを補正した背景画像に基づき前景抽出処理が行われる。これにより、実際には背景の領域を誤って前景領域として抽出したり、その逆に実際には前景の領域を誤って背景として扱ったりといった誤抽出をより効果的に抑制することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０３カメラ画像処理装置
２０３背景生成部
３０２補正処理部
３０３補正パラメータ設定部

Claims

前景となるオブジェクトを含む撮像画像及び前記オブジェクトを含まない背景画像を取得する取得手段と、
前記背景画像を補正するためのパラメータを設定する設定手段と、
前記設定されたパラメータに基づいて、前記背景画像を構成する画素の画素値を補正する補正手段と、
前記補正後の背景画像と前記撮像画像との差分に基づき、前記前景となるオブジェクトの領域を前記撮像画像から抽出する抽出手段と、
を有することを特徴とする画像処理装置。
前記設定手段は、前記画素値をどのように変化させるかを規定する補正値を、前記パラメータとして設定し、
前記補正手段は、前記補正値に基づいて、前記補正処理を行う、
ことを特徴とする請求項１に記載の画像処理装置。
前記補正は、ある色空間に従った成分値にオフセットを掛ける処理であり、
前記設定手段は、前記補正値として、オフセット値を設定する、
ことを特徴とする請求項２に記載の画像処理装置。
前記補正手段は、
前記背景画像における第１の色空間を、当該第１の色空間とは異なる第２の色空間に変換し、
前記第２の色空間に従った成分値に対し、前記オフセットを掛ける処理を行う、
ことを特徴とする請求項３に記載の画像処理装置。
前記第１の色空間は、ＲＧＢであり、
前記第２の色空間は、ＨＳＶであり、
前記設定手段は、前記ＨＳＶの成分値のうち色相を表す成分値についてのオフセット値を設定し、
前記補正手段は、色空間がＨＳＶに変換された前記背景画像を構成する画素の成分値のうち前記色相を表す成分値に対し前記オフセット値を加算又は減算する処理を行う、
ことを特徴とする請求項４に記載の画像処理装置。
前記第１の色空間は、ＲＧＢであり、
前記第２の色空間は、ＹＵＶであり、
前記設定手段は、前記ＹＵＶの成分値のうち輝度を表す成分値についてのオフセット値を設定し、
前記補正手段は、色空間がＹＵＶに変換された前記背景画像を構成する画素の成分値のうち前記輝度を表す成分値に対し前記オフセット値を加算又は減算する処理を行う、
ことを特徴とする請求項４に記載の画像処理装置。
ユーザが、前記補正値を指定するためのユーザインタフェースをさらに備え、
前記設定手段は、前記ユーザインタフェースを介したユーザ入力に基づいて、前記補正値を設定する、
ことを特徴とする請求項２乃至６のいずれか１項に記載の画像処理装置。
前記補正手段は、前記背景画像のうち特定の画像領域に属する画素の画素値に対して前記補正を行なう、
ことを特徴とする請求項２乃至７のいずれか１項に記載の画像処理装置。
前記設定手段は、前記特定の画像領域を規定する空間情報を前記パラメータとして設定することを特徴とする請求項８に記載の画像処理装置。
前記空間情報は、前記特定の画像領域とそれ以外の画像領域を２値で表現したマスク画像であることを特徴とする請求項９に記載の画像処理装置。
前記設定手段は、
前記背景画像のうち、前記撮像画像と前記背景画像との差分に基づき、２つの閾値を用いた閾値処理を行って前景であるか背景であるかが曖昧な画像領域を決定し、
前記決定された画像領域を前記特定の画像領域として前記マスク画像を生成する、
ことを特徴とする請求項１０に記載の画像処理装置。
前記設定手段は、前記特定の画像領域を規定する色空間情報を前記パラメータとして設定することを特徴とする請求項８に記載の画像処理装置。
前記色空間情報は、所定の色空間に従った成分値についての最小値と最大値の情報であり、
前記特定の画像領域は、前記最小値と前記最大値とで挟まれた範囲の成分値を持つ画素で構成される、
ことを特徴とする請求項１２に記載の画像処理装置。
前記所定の色空間に従った成分値は、ＨＳＶ色空間における色相を表す成分値、またはＲＧＢ色空間におけるＲＧＢ値であることを特徴とする請求項１３に記載の画像処理装置。
前記設定手段は、前記２つの閾値を用いた演算処理によって得た値を、前記補正値として設定することを特徴とする請求項１１に記載の画像処理装置。
前記補正は、前記特定の画像領域に属する各画素の画素値を、別の色を表す画素値に置き換える処理であり、
前記設定手段は、前記別の色を規定する色情報を、前記パラメータとして設定する、
ことを特徴とする請求項８乃至１４のいずれか１項に記載の画像処理装置。
ユーザが、前記別の色を指定するためのユーザインタフェースをさらに備え、
前記設定手段は、前記ユーザインタフェースを介したユーザ入力に基づいて、前記色情報を設定する、
ことを特徴とする請求項１６に記載の画像処理装置。
前記補正は、前記特定の画像領域に属する各画素の画素値を、当該特定の画像領域の周辺領域に属する画素の画素値に合わせる処理である、ことを特徴とする請求項８乃至１４のいずれか１項に記載の画像処理装置。
前記抽出手段で抽出された前景領域に基づき、前記オブジェクトの形状を表す前景シルエット画像を生成する生成手段をさらに備えたことを特徴とする請求項１乃至１８のいずれか１項に記載の画像処理装置。
前景となるオブジェクトを含む撮像画像及び前記オブジェクトを含まない背景画像を取得する取得ステップと、
前記背景画像を補正するためのパラメータを設定する設定ステップと、
前記設定されたパラメータに基づいて、前記背景画像を構成する画素の画素値を補正する補正ステップと、
前記補正後の背景画像と前記撮像画像との差分に基づき、前記前景となるオブジェクトの領域を前記撮像画像から抽出する抽出ステップと、
を有することを特徴とする画像処理方法。
コンピュータを、請求項１乃至１９のいずれか１項に記載の画像処理装置として機能させるためのプログラム。