JP2017228146A

JP2017228146A - 画像処理装置、画像処理方法およびコンピュータプログラム

Info

Publication number: JP2017228146A
Application number: JP2016124761A
Authority: JP
Inventors: 強要; Tsutomu Kaname; 敬介野中; Keisuke Nonaka; 内藤　整; Hitoshi Naito; 整内藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2016-06-23
Filing date: 2016-06-23
Publication date: 2017-12-28
Anticipated expiration: 2036-06-23
Also published as: JP6632134B2

Abstract

【課題】背景差分において、オブジェクトの抽出の正確さとユーザ利便性とを両立する。【解決手段】画像処理装置は、動画像の対象フレームに対して該対象フレーム内で第１背景差分を行うことで得られる第１マスクを取得する手段と、対象フレームに対してフレーム間で第２背景差分を行うことで得られる第２マスクを取得する手段と、第１マスクと第２マスクとを合成することで合成マスクを生成する手段と、を備える。【選択図】図１

Description

本発明は、画像処理装置、画像処理方法およびコンピュータプログラムに関する。

従来、スポーツシーンなどを対象として、カメラ視点以外の自由な視点からの映像（以下、自由視点映像と称す）を生成する技術が提案されている。この技術は、複数のカメラで撮影された映像を基に、それらの配置されていない仮想的な視点の映像を合成し、その結果を画面上に表示することでさまざまな視点での映像観賞を可能とするものである。

背景差分によるオブジェクトの正確な抽出は、高品質な自由視点映像を得るための最初のステップである。背景差分について、従来では例えば非特許文献１、２に記載される技術が知られている。非特許文献１には、自動的にオブジェクトを抽出する技術が開示されている。非特許文献２には、Grabcut法により正確にオブジェクトを抽出する技術が開示されている。

Elgammal, Ahmed, David Harwood, and Larry Davis. "Non-parametric model for background subtraction," Computer Vision-ECCV 2000. Springer Berlin Heidelberg, 2000. 751-767 Rother, Carsten, Vladimir Kolmogorov, and Andrew Blake. "Grabcut: Interactive foreground extraction using iterated graph cuts." ACM transactions on graphics (TOG). Vol. 23. No. 3. ACM, 2004 森田真司, 山澤一誠, 寺沢征彦, 横矢直和: "全方位画像センサを用いたネットワーク対応型遠隔監視システム", 電子情報通信学会論文誌（D-II), Vol. J88-D-II, No. 5, pp. 864-875, (2005.5)

しかしながら、非特許文献１に記載される技術では、事前に様々なパラメータを手動で設定する必要がある。したがって、ユーザにとって煩わしく、また手動で設定されたパラメータが最適なものである保証もない。また、非特許文献２に記載されるGrabcut法はユーザによる入力を必要とする。したがって、動画像からのオブジェクトの抽出にGrabcut法を適用すると、動画像のフレームごとにユーザに入力を求めることとなり、現実的ではない。

本発明はこうした課題に鑑みてなされたものであり、その目的は、オブジェクトの抽出の正確さとユーザ利便性とを両立できる背景差分技術の提供にある。

本発明のある態様は、画像処理装置に関する。この画像処理装置は、動画像の対象フレームに対して該対象フレーム内で第１背景差分を行うことで得られる第１マスクを取得する手段と、対象フレームに対してフレーム間で第２背景差分を行うことで得られる第２マスクを取得する手段と、第１マスクと第２マスクとを合成することで合成マスクを生成する手段と、を備える。

なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。

本発明によれば、オブジェクトの抽出の正確さとユーザ利便性とを両立できる背景差分技術を提供できる。

実施の形態に係る画像処理装置を備える自由視点画像配信システムを示す模式図である。図１の携帯端末の機能および構成を示すブロック図である。図１の画像処理装置の機能および構成を示すブロック図である。図３のパラメータ保持部の一例を示すデータ構造図である。図５（ａ）、（ｂ）は、関心領域設定画面の代表画面図である。図６（ａ）、（ｂ）、（ｃ）は、重み設定画面の代表画面図である。自由視点画像再生画面の代表画面図である。エラー画面の代表画面図である。図３のパラメータ設定部におけるパラメータ設定処理を説明するための説明図である。図１０（ａ）、（ｂ）、（ｃ）は、重みαの違いによる合成マスクの違いを説明するための説明図である。図１１（ａ）、（ｂ）は、改良Ｆ値による評価を説明するためのグラフである。図１２（ａ）〜（ｆ）は、フレームの平均画素強度の変動を示すグラフである。図１の画像処理装置における一連の処理の流れを示すフローチャートである。図１３の閾値設定処理ステップにおける処理の流れを示すフローチャートである。図１３の合成マスク生成処理ステップにおける処理の流れを示すチャートである。

以下、各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において説明上重要ではない部材の一部は省略して表示する。

実施の形態に係る画像処理装置は、動画像のフレームからオブジェクトを抽出する際、空間ドメイン（spatial domain）における背景差分によりフレームからマスクを生成する。空間ドメインにおける背景差分は処理対象のフレーム内で行われる背景差分であるから、以降イントラ背景差分と称す。イントラ背景差分により生成されるマスクをイントラマスクと称す。画像処理装置は、イントラ背景差分と並行して時間ドメイン（temporal domain）における背景差分によりフレームからマスクを生成する。時間ドメインにおける背景差分は処理対象のフレームを含むフレーム間で行われる背景差分であるから、以降インター背景差分と称す。インター背景差分により生成されるマスクをインターマスクと称す。画像処理装置は、生成された２つのマスク、イントラマスクおよびインターマスク、を合成することで合成マスクを生成し、生成された合成マスクをオブジェクトの抽出に利用する。これにより、ユーザによる指示や入力の必要性を抑えつつ、確度の高いオブジェクト抽出を実現できる。

本実施の形態では、イントラ背景差分として正規混合モデル（Gaussian Mixture Model）を用いた背景差分（非特許文献１参照）を採用する。この背景差分では、混合正規分布(Mixture of Gaussian Distribution, MoG)を用いて背景（background）をモデル化する。まず、オブジェクトの無い背景フレームを用意し、その背景フレームから背景の混合正規分布モデルを得る。処理対象のフレームの画素が混合正規分布モデルに属さない場合、その画素は前景（foreground）として抽出される。この属否の判定の際に閾値が用いられる。以下、この閾値をイントラ閾値（ｇｍｍ＿ｔｈ）と表記する。

本実施の形態では、インター背景差分として、画素ごとにひとつの正規モデルを適用した背景差分（非特許文献３参照）を採用する。この背景差分では、フレーム中の画素の座標を（ｉ，ｊ）と表記するとき、平均値μ_ｉ，ｊおよび標準偏差σ_ｉ，ｊを有する一つの正規分布モデルを画素（ｉ，ｊ）の強度に割り当てる。平均値μ_ｉ，ｊおよび標準偏差σ_ｉ，ｊは、動画像に含まれる複数のフレームに亘る画素（ｉ，ｊ）の強度の集合を母集団として計算される。Ｙ、Ｕ、Ｖの全てのチャネルについて、処理対象のフレームの画素（ｉ，ｊ）の強度の偏差の絶対値が、標準偏差σ_ｉ，ｊに閾値を加えた値よりも小さい場合、画素（ｉ，ｊ）は背景に属すると判定される。そうでなければ画素（ｉ，ｊ）は前景に属すると判定される。以下、Ｙ、Ｕ、Ｖのそれぞれについての上記閾値をインター閾値（Ｙ＿ｔｈ、Ｕ＿ｔｈ、Ｖ＿ｔｈ）と表記する。

図１は、実施の形態に係る画像処理装置２００を備える自由視点画像配信システム１１０を示す模式図である。自由視点画像配信システム１１０は、複数のカメラ１１６、１１８、１２０と、それらのカメラと接続された画像処理装置２００と、携帯電話やタブレットやスマートフォンやＨＭＤ（Head Mounted Display）やノートＰＣなどの携帯端末１１４と、を備える。画像処理装置２００と携帯端末１１４とはインターネットなどのネットワーク１１２を介して接続される。自由視点画像配信システム１１０では、例えば屋内に配置された複数のカメラ１１６、１１８、１２０が床１２６に立つ人物１２４を撮像する。複数のカメラ１１６、１１８、１２０は撮った映像を画像処理装置２００に送信し、画像処理装置２００はそれらの映像を処理する。携帯端末１１４のユーザは画像処理装置２００に対して希望の視点を指定し、画像処理装置２００は指定された視点（仮想視点）から人物１２４を見た場合の画像を合成し、ネットワーク１１２を介して携帯端末１１４に配信する。

なお、図１では屋内の人物を撮像する場合を説明したが、これに限られず、例えばフィットネスのインストラクタを撮像する場合やダンサーのダンスを撮像する場合やサッカーの試合を撮像する場合などに、本実施の形態の技術的思想を適用できる。また、携帯端末１１４の代わりに、デスクトップＰＣやラップトップＰＣ、ＴＶ受像機、セットトップボックス等の据え置き型端末が使用されてもよい。また、画像処理装置２００による配信形態は、予め全体をダウンロードしてから再生するものでも、ストリーミングでも、プログレッシブでもよい。配信形態がリアルタイムでない場合、画像処理装置２００はカメラから取得して保持している動画像について予め平均値μ_ｉ，ｊおよび標準偏差σ_ｉ，ｊを演算してもよい。配信形態がリアルタイムである場合、画像処理装置２００は現時点までに得られた動画像から平均値μ_ｉ，ｊおよび標準偏差σ_ｉ，ｊを演算し、新たな動画像が所定の量得られるたびにそれらの値を再演算することで更新してもよい。

図２は、図１の携帯端末１１４の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのＣＰＵ（Central Processing Unit）をはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。

携帯端末１１４は通信部２４６と表示制御部２１６とディスプレイ２１８と入力部２２０とを備える。通信部２４６は、入力部２２０を介してユーザにより指定された視点を特定する情報をネットワーク１１２を介して画像処理装置２００に送信する。通信部２４６は動画像を画像処理装置２００からネットワーク１１２を介して取得する。表示制御部２１６はディスプレイ２１８を制御し、ディスプレイ２１８に種々の画面を表示させる。表示制御部２１６は、通信部２４６によって取得された動画像をディスプレイ２１８に表示させる。ディスプレイ２１８は、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electro Luminescence）ディスプレイであってもよい。入力部２２０はユーザからの入力を受け付ける。入力部２２０は、マウスやキーボードやタッチパネルやボタンやリモートコントローラであってもよい。

図３は、図１の画像処理装置２００の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのＣＰＵ（Central Processing Unit）をはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。

画像処理装置２００は、カメラから得られた動画像から合成マスクを用いてオブジェクト、例えば人物１２４の像を抽出し、抽出されたオブジェクトに基づいて任意の仮想視点の画像を合成する。画像処理装置２００は、動画像取得部２０２と、パラメータ設定部２０４と、合成マスク生成部２０６と、オブジェクト抽出部２０８と、再設定判定部２１０と、更新判定部２１２と、パラメータ更新部２１４と、動画像配信部２４４と、動画像保持部２２２と、パラメータ保持部２２４と、を備える。

動画像取得部２０２は、画像処理装置２００と接続された各カメラ１１６、１１８、１２０から動画像を取得する。動画像取得部２０２は、取得された動画像を動画像保持部２２２に格納する。動画像保持部２２２は動画像を保持する。動画像は複数のフレームの時系列であってもよい。

パラメータ設定部２０４は、動画像からのオブジェクトの抽出を始める際に、イントラ背景差分およびインター背景差分で使用されるパラメータを設定する。イントラ背景差分のパラメータはｇｍｍ＿ｔｈを含み、インター背景差分のパラメータはＹ＿ｔｈ、Ｕ＿ｔｈ、Ｖ＿ｔｈを含む。パラメータ設定部２０４は、関心領域設定部２２６と、基準マスク生成部２２８と、重み設定部２３０と、テストマスク生成部２３２と、改良Ｆ値算出部２３４と、パラメータ決定部２３６と、を含む。

関心領域設定部２２６は、処理対象の動画像のうち基準マスクを生成するために使用される基準フレーム、例えば最初のフレームを動画像保持部２２２から取得する。関心領域設定部２２６は、取得された最初のフレームを含む関心領域設定画面４００（図５（ａ）、（ｂ）で後述）を生成し、その画面データをネットワーク１１２を介して携帯端末１１４に送信する。携帯端末１１４の表示制御部２１６は、受信した画面データに基づき関心領域設定画面４００をディスプレイ２１８に表示させる。携帯端末１１４は、表示された最初のフレームにおける関心領域（Region Of Interest）の指定をユーザから入力部２２０を介して受け付ける。携帯端末１１４の通信部２４６は、指定された関心領域の情報をネットワーク１１２を介して画像処理装置２００に送信する。画像処理装置２００の関心領域設定部２２６は、指定された関心領域の情報を受信する。

基準マスク生成部２２８は、関心領域が指定された最初のフレームに対して、イントラ背景差分、インター背景差分のいずれとも異なる背景差分を行うことで基準マスクを生成する。基準マスク生成部２２８は、最初のフレームと該最初のフレームに対して指定された関心領域とを入力とするGrabcut法（非特許文献２参照）により基準マスクを生成する。基準マスク生成部２２８は、Grabcut法により生成された基準マスクに対するユーザによる編集（ペインティング、ブラッシング等）を受け付けてもよい。

Grabcut法はイントラ背景差分やインター背景差分よりも処理に時間がかかり、かつユーザ入力すなわちユーザによる関心領域の指定を必要とするものであるが、それらの背景差分よりも正確な結果が得られる。以下で説明される最適なパラメータの探索において客観的な基準は重要である。本実施の形態では、最初のフレームからGrabcut法により基準マスクを得て、その基準マスクを探索の際の基準とする。

重み設定部２３０は、後述の改良Ｆ値の算出における重みαの指定をユーザから受け付ける。重み設定部２３０は、重み設定画面５００（図６（ａ）、（ｂ）、（ｃ）で後述）を生成し、その画面データをネットワーク１１２を介して携帯端末１１４に送信する。携帯端末１１４の表示制御部２１６は、受信した画面データに基づき重み設定画面５００をディスプレイ２１８に表示させる。携帯端末１１４は、ユーザが重み設定画面５００に対して入力部２２０を介して入力または指定した値を取得する。携帯端末１１４の通信部２４６は、取得された値をネットワーク１１２を介して画像処理装置２００に送信する。画像処理装置２００の重み設定部２３０は、受信した値を重みαとして設定する。

テストマスク生成部２３２は、インター背景差分の設定可能なインター閾値（Ｙ＿ｔｈ、Ｕ＿ｔｈ、Ｖ＿ｔｈ）の集合のなかからひとつのインター閾値を選択する。テストマスク生成部２３２は、関心領域設定部２２６によって取得された最初のフレームに対して、選択されたインター閾値を用いたインター背景差分を行うことでインターテストマスクを生成する。

改良Ｆ値算出部２３４は、テストマスク生成部２３２によって生成されたインターテストマスクを評価対象とし、基準マスク生成部２２８によって生成された基準マスクを正解とするときの適合率（Precision）と再現率（Recall）との重み付け調和平均を改良Ｆ値（Modified F-Measure）として算出する。改良Ｆ値は以下の式１で与えられる。

…（１）
ここで、重みαは０以上２以下の値であり、重み設定部２３０により設定される。重みαは、オブジェクトの抽出の際のユーザの好みを反映する。適合率（Precision）および再現率（Recall）はそれぞれ以下の式２、式３により算出される。

…（２）

…（３）
ここで、ＴＰ（True Positive）はインターテストマスクおよび基準マスクの両方で背景に属する画素の総数であり、ＦＮ（False Negative）はインターテストマスクでは前景に属するが基準マスクでは背景に属する画素の総数であり、ＦＰ（False Positive）はインターテストマスクでは背景に属するが基準マスクでは前景に属する画素の総数である。

テストマスク生成部２３２および改良Ｆ値算出部２３４は、インター閾値の選択および改良Ｆ値の算出を設定可能な全てのインター閾値が選択されるまで繰り返す。パラメータ決定部２３６は、改良Ｆ値が大きくなるようにインター閾値を決定する。パラメータ決定部２３６は、テストマスク生成部２３２および改良Ｆ値算出部２３４により得られたインター閾値と改良Ｆ値との組の集合のなかから、最も大きい改良Ｆ値を有する組を抽出する。パラメータ決定部２３６は、抽出された組のインター閾値を最適なインター閾値（Ｙ＿ｔｈ＿ｏｐｔ、Ｕ＿ｔｈ＿ｏｐｔ、Ｖ＿ｔｈ＿ｏｐｔ）として決定し、パラメータ保持部２２４に登録する。

テストマスク生成部２３２は、イントラ背景差分の設定可能なイントラ閾値（ｇｍｍ＿ｔｈ）の集合のなかからひとつのイントラ閾値を選択する。テストマスク生成部２３２は、関心領域設定部２２６によって取得された最初のフレームに対して、選択されたイントラ閾値を用いたイントラ背景差分を行うことでイントラテストマスクを生成する。テストマスク生成部２３２は、最初のフレームに対してパラメータ保持部２２４に保持される最適なインター閾値（Ｙ＿ｔｈ＿ｏｐｔ、Ｕ＿ｔｈ＿ｏｐｔ、Ｖ＿ｔｈ＿ｏｐｔ）を用いたインター背景差分を行うことでインター最適マスクを生成する。テストマスク生成部２３２は、後述の合成部２４２における合成方法と同じまたはそれに準じた合成方法により、イントラテストマスクとインター最適マスクとを合成し、合成テストマスクを生成する。

改良Ｆ値算出部２３４は、テストマスク生成部２３２によって生成された合成テストマスクを評価対象とし、基準マスク生成部２２８によって生成された基準マスクを正解とするときの改良Ｆ値を算出する。テストマスク生成部２３２および改良Ｆ値算出部２３４は、イントラ閾値の選択および改良Ｆ値の算出を全てのイントラ閾値が選択されるまで繰り返す。パラメータ決定部２３６は、改良Ｆ値が大きくなるようにイントラ閾値を決定する。パラメータ決定部２３６は、テストマスク生成部２３２および改良Ｆ値算出部２３４により得られたイントラ閾値と改良Ｆ値との組の集合のなかから、最も大きい改良Ｆ値を有する組を抽出する。パラメータ決定部２３６は、抽出された組のイントラ閾値を最適なイントラ閾値（ｇｍｍ＿ｔｈ＿ｏｐｔ）として決定し、パラメータ保持部２２４に登録する。

合成マスク生成部２０６は、処理対象の動画像に含まれるフレームに対して、パラメータ保持部２２４に保持される閾値を参照し、インター背景差分およびイントラ背景差分を適用することで合成マスクを生成する。合成マスク生成部２０６は、イントラ背景差分部２３８と、インター背景差分部２４０と、合成部２４２と、を含む。

イントラ背景差分部２３８は、パラメータ保持部２２４を参照し、最適なイントラ閾値（ｇｍｍ＿ｔｈ＿ｏｐｔ）を特定する。イントラ背景差分部２３８は、フレームに対して、特定されたイントラ閾値を用いたイントラ背景差分を行うことでイントラマスクを生成する。

インター背景差分部２４０は、パラメータ保持部２２４を参照し、最適なインター閾値（Ｙ＿ｔｈ＿ｏｐｔ、Ｕ＿ｔｈ＿ｏｐｔ、Ｖ＿ｔｈ＿ｏｐｔ）を特定する。インター背景差分部２４０は、フレームに対して、特定されたインター閾値を用いたインター背景差分を行うことでインターマスクを生成する。

合成部２４２は、イントラ背景差分部２３８によって生成されたイントラマスクとインター背景差分部２４０によって生成されたインターマスクとを合成することで合成マスクを生成する。合成部２４２は、画素ごとにイントラマスクとインターマスクとの間で論理積（ＡＮＤ演算、＆＆）を行うことで合成マスクを生成する。ＲＧＢで表した場合、マスクの背景部分の画素値は（０，０，０）すなわち黒色であり、前景部分の画素値は画素のサンプリングビットをｎとすると（２^ｎ−１，２^ｎ−１，２^ｎ−１）すなわち白色である。したがって、合成マスクの背景部分は、イントラマスクおよびインターマスクのうちの少なくとも一方における背景部分であり、合成マスクの前景部分はイントラマスクおよびインターマスクの両方における前景部分である。言い換えると、合成によりマスクの背景部分が増加する。これにより、より正確でシャープなオブジェクトの輪郭が抽出される。

オブジェクト抽出部２０８は、合成部２４２によって生成された合成マスクを用いてフレームからオブジェクトを抽出する。
動画像配信部２４４は、オブジェクト抽出部２０８における抽出結果を利用して、携帯端末１１４のユーザにより指定された視点からの動画像を合成する。動画像配信部２４４は、合成により得られた合成動画像をネットワーク１１２を介して携帯端末１１４に送信する。

再設定判定部２１０は、パラメータ設定部２０４による基準マスクの生成および生成された該基準マスクによるパラメータの再設定が必要か否かを判定する。再設定判定部２１０は、合成部２４２によって生成された合成マスクの平均画素強度の変化量を指標として再設定の要否の判定を行う。合成部２４２によって生成された合成マスクにおける画素（ｉ，ｊ）の強度をＭｏｕｔ（ｉ，ｊ）と表記する。再設定判定部２１０は、以下の式４により合成マスクの平均画素強度Ａｖｅ＿ｍｓｋを算出する。

…（４）
ここで、Ｍはフレームの幅、Ｎはフレームの高さである。再設定判定部２１０は、現在のフレームから得られた合成マスクの平均画素強度と一つ前のフレームから得られた合成マスクの平均画素強度との差の絶対値｜Δｍｓｋ｜を算出する。再設定判定部２１０は、算出された｜Δｍｓｋ｜が所定の閾値ｔｈ＿ｍｓｋを上回る場合、パラメータの再設定が必要であると判定し、そうでなければ再設定は不要と判定する。

２つの連続するフレームの内容は通常は互いによく似ているから、オブジェクトの抽出のエラーが小さい場合は｜Δｍｓｋ｜は小さい。オブジェクトの抽出のエラーが大きい場合はそのエラーに起因して｜Δｍｓｋ｜が大きくなる。再設定判定部２１０によると、｜Δｍｓｋ｜がｔｈ＿ｍｓｋより大きい場合はエラーが大きいと判定され、パラメータの再設定が行われる。このエラー検知は自動的に行われる。

更新判定部２１２は、パラメータ保持部２２４に保持されるインター閾値の更新が必要か否かを判定する。更新判定部２１２は、フレーム間の平均画素強度の差に基づいて更新の要否を判定する。位置（ｉ，ｊ）の画素の強度をＩ（ｉ，ｊ）と表記する。更新判定部２１２は、以下の式５によりフレームの平均画素強度Ａｖｅを算出する。

…（５）
更新判定部２１２は、現在のフレームの平均画素強度と一つ前のフレームの平均画素強度との差の絶対値｜Δｉｍｇ｜を算出する。更新判定部２１２は、算出された｜Δｉｍｇ｜が所定の閾値ｔｈ＿ｉｍｇを上回る場合、更新が必要であると判定し、そうでなければ更新は不要と判定する。ｔｈ＿ｉｍｇがゼロに設定される場合、フレームごとに更新が行われる。

なお、上述のマスクやフレームの平均画素強度はＹ、Ｕ、Ｖのチャネルごとに算出され、閾値と比較される。特に、ΔｉｍｇはＹチャネルに係るΔｉｍｇ＿ＹとＵチャネルに係るΔｉｍｇ＿ＵとＶチャネルに係るΔｉｍｇ＿Ｖとからなる。

パラメータ更新部２１４は、更新判定部２１２において更新が必要であると判定された場合、インター閾値を、更新判定部２１２で得られた平均画素強度の差Δｉｍｇに応じて更新する。パラメータ更新部２１４は、パラメータ保持部２２４にアクセスし、保持されているインター閾値に差Δｉｍｇを加算する。特に、Ｙチャネルのインター閾値Ｙ＿ｔｈ＿ｏｐｔにはΔｉｍｇ＿Ｙが加算される。Ｕチャネル、Ｖチャネルについても同様である。

図４は、パラメータ保持部２２４の一例を示すデータ構造図である。パラメータ保持部２２４は、イントラ閾値であるｇｍｍ＿ｔｈ＿ｏｐｔと、インター閾値であるＹ＿ｔｈ＿ｏｐｔ、Ｕ＿ｔｈ＿ｏｐｔ、Ｖ＿ｔｈ＿ｏｐｔと、を対応付けて保持する。

図５（ａ）、（ｂ）は、関心領域設定画面４００の代表画面図である。関心領域設定画面４００は、フレーム表示領域４０２と、ＯＫボタン４０４と、キャンセルボタン４０６と、を有する。フレーム表示領域４０２は最初のフレームを表示する。ユーザは、図５（ａ）に示される関心領域設定画面４００を見ながらタッチパネルを操作し、関心領域を矩形４０８で指定する。図５（ｂ）はフレーム表示領域４０２に表示される最初のフレームに対して矩形４０８を描いた状態を示す。この状態でＯＫボタン４０４がタップされると、携帯端末１１４は矩形４０８で囲まれる領域を関心領域として取得する。

図６（ａ）、（ｂ）、（ｃ）は、重み設定画面５００の代表画面図である。重み設定画面５００は、重み設定領域５０２と、代表マスク表示領域５０４と、ＯＫボタン５０６と、を有する。重み設定領域５０２はスライダバーであり、ユーザによる重みの値の指定を受け付ける。代表マスク表示領域５０４には重み設定領域５０２でユーザが指定した重みの値を用いたときの合成マスクが表示される。ユーザは、重み設定領域５０２で重みの値を様々に変えながら代表マスク表示領域５０４に表示される合成マスクを確認し、自分の好みに合致する合成マスクを与える重みを選択する。ＯＫボタン５０６がタップされると、携帯端末１１４はそのとき重み設定領域５０２で設定されている値を重みαとして取得する。

図７は、自由視点画像再生画面６００の代表画面図である。表示制御部２１６は、動画像配信部２４４から送信された合成動画像を受信し、自由視点画像再生画面６００をディスプレイ２１８に表示させる。自由視点画像再生画面６００は、自由視点画像表示領域６０２と、プログレッシブバー６０４と、視点指定領域６０６と、操作領域６０８と、ＲＯＩ指定ボタン６１０と、重み指定ボタン６１２と、を有する。自由視点画像表示領域６０２には、合成動画像が表示される。操作領域６０８は合成動画像の再生、一時停止、早送り等の操作を行うための領域である。視点指定領域６０６は、視点の上下方向の位置を指定するためのスライダバーである。ＲＯＩ指定ボタン６１０がタップされると、携帯端末１１４は画像処理装置２００にその旨を通知する。画像処理装置２００は、該通知を受けると、関心領域設定画面４００により関心領域の指定を受け付ける処理を開始する。重み指定ボタン６１２がタップされると、携帯端末１１４は画像処理装置２００にその旨を通知する。画像処理装置２００は、該通知を受けると、重み設定画面５００により重みαの指定を受け付ける処理を開始する。

図８は、エラー画面８００の代表画面図である。再設定判定部２１０は、再設定が必要であると判定すると、エラー画面８００を生成し、その画面データをネットワーク１１２を介して携帯端末１１４に送信する。携帯端末１１４の表示制御部２１６は、受信した画面データに基づきエラー画面８００をディスプレイ２１８に表示させる。ＯＫボタン８０２がタップされると、携帯端末１１４は画像処理装置２００にその旨を通知する。画像処理装置２００は、該通知を受けると、関心領域設定画面４００により関心領域の指定を受け付ける処理を開始する。

図９は、パラメータ設定部２０４におけるパラメータ設定処理を説明するための説明図である。最初のフレーム９０２において関心領域９０４が指定される。これにGrabcut法を適用することで、基準マスク９０６が生成される。種々のインター閾値を用いたインター背景差分を最初のフレーム９０２に適用することで種々のインターテストマスクが得られる。これらのインターテストマスクのなかから、基準マスク９０６に最も合致する（すなわち、改良Ｆ値が最も大きい）インター最適マスク９０８が選択される。次に、種々のイントラ閾値を用いたイントラ背景差分を最初のフレーム９０２に適用して得られるイントラテストマスクと、インター最適マスク９０８と、が合成されて種々の合成テストマスクが得られる。これらの合成テストマスクのなかから、基準マスク９０６に最も合致する（すなわち、改良Ｆ値が最も大きい）合成最適マスク９１０が選択される。インター最適マスク９０８を与えるインター閾値および合成最適マスク９１０を与えるイントラ閾値が最適な閾値としてパラメータ保持部２２４に登録される。基準マスク９０６と合成最適マスク９１０とを比べると、基準マスク９０６では人物の右脚と左脚との間の領域は前景と判断されていたが、インター最適マスク９０８を合成した後の合成最適マスク９１０ではその領域も正しく背景と認識される。

Grabcut法において、関心領域９０４の外側は背景部分として扱われる。したがって、基準マスク９０６の背景部分は、指定された関心領域９０４の外部を含む。インター最適マスク９０８の人物の像の右足と合成最適マスク９１０の人物の像の右足とを比べると、後者の方がより正確に足の輪郭を抽出していることが分かる。

図１０（ａ）、（ｂ）、（ｃ）は、重みαの違いによる合成マスクの違いを説明するための説明図である。図１０（ａ）、（ｂ）、（ｃ）はそれぞれα＝０．３、１．０、１．７のときの合成マスクを示す。式１に関して上述した通り、αが異なると、決定される最適なインター閾値（Ｙ＿ｔｈ＿ｏｐｔ、Ｕ＿ｔｈ＿ｏｐｔ、Ｖ＿ｔｈ＿ｏｐｔ）や最適なイントラ閾値（ｇｍｍ＿ｔｈ＿ｏｐｔ）も異なり、したがって、結果として得られる合成マスクの外観も異なる。具体的には、重みαを大きくすると、輪郭はぼけるが背景でないのに背景とされてしまう部分を減らすことができる。重みαを小さくすると、輪郭はよりくっきりするが、背景でないのに背景とされてしまう部分が増える。ユーザは、この違いを理解しつつ、アプリケーションや好みにより重みαを設定すればよい。

図１１（ａ）、（ｂ）は、改良Ｆ値による評価を説明するためのグラフである。図１１（ａ）はテストマスク生成部２３２が選んだインター閾値（Ｙ＿ｔｈ、Ｕ＿ｔｈ、Ｖ＿ｔｈ）を特定する番号を横軸、改良Ｆ値算出部２３４により算出された改良Ｆ値を縦軸とするグラフである。改良Ｆ値の最大は符号１５０の箇所で得られ、対応するインター閾値が最適なインター閾値（Ｙ＿ｔｈ＿ｏｐｔ、Ｕ＿ｔｈ＿ｏｐｔ、Ｖ＿ｔｈ＿ｏｐｔ）として決定される。図１１（ｂ）はテストマスク生成部２３２が選んだイントラ閾値ｇｍｍ＿ｔｈの１／１０を横軸、改良Ｆ値算出部２３４により算出された改良Ｆ値を縦軸とするグラフである。改良Ｆ値の最大は符号１５２の箇所で得られ、対応するイントラ閾値が最適なイントラ閾値（ｇｍｍ＿ｔｈ＿ｏｐｔ）として決定される。

図１２（ａ）〜（ｆ）は、フレームの平均画素強度の変動を示すグラフである。図１２（ａ）、（ｂ）、（ｃ）はそれぞれ、あるシーンをカメラで撮像して得られる６００フレーム分の動画像について、横軸をフレーム番号、縦軸をＹチャネル、Ｕチャネル、Ｖチャネルの平均画素強度としてプロットしたものである。図１２（ｄ）、（ｅ）、（ｆ）はそれぞれ、同じシーンを別のカメラで撮像して得られる６００フレーム分の動画像について、横軸をフレーム番号、縦軸をＹチャネル、Ｕチャネル、Ｖチャネルの平均画素強度としてプロットしたものである。これらのグラフから分かる通り、一般に、フレーム間の平均画素強度の変動はそれほど大きくない。したがって、フレーム間の平均画素強度の差は、閾値更新の要否の判定のための良い指標と言える。

以上の構成による画像処理装置２００の動作を説明する。
図１３は、画像処理装置２００における一連の処理の流れを示すフローチャートである。画像処理装置２００は、動画像保持部２２２に保持される処理対象の動画像からひとつのフレームを取得する（Ｓ１２）。画像処理装置２００は、ステップＳ１２で取得されたフレームが最初のフレームであるか否かを判定する（Ｓ１４）。最初のフレームである場合（Ｓ１４のＹＥＳ）、画像処理装置２００はユーザによる入力を要する閾値設定処理（Ｓ１６）を実行する。画像処理装置２００は、ステップＳ１６により設定されたインター閾値、イントラ閾値を用いて、ステップＳ１２で取得された最初のフレームから合成マスクを生成する（Ｓ１８）。最初のフレームを扱っている場合は、画像処理装置２００は以下のステップＳ２０、ステップＳ２２をスキップする。画像処理装置２００は、２番目以降のフレームについて、ステップＳ１８で生成された合成マスクを用いてΔｍｓｋを算出する（Ｓ２０）。画像処理装置２００は、マスクエラーを評価するため、ステップＳ２０で算出されたΔｍｓｋとｔｈ＿ｍｓｋとを比較する（Ｓ２２）。Δｍｓｋ＞ｔｈ＿ｍｓｋの場合（Ｓ２２のＹＥＳ）、処理はステップＳ１６に戻る。Δｍｓｋ≦ｔｈ＿ｍｓｋの場合（Ｓ２２のＮＯ）、画像処理装置２００はステップＳ１８で生成された合成マスクを出力する（Ｓ２４）。合成マスクの出力の後、画像処理装置２００は扱っているフレームが処理対象の動画像の最後のフレームであるか否かを判定する（Ｓ２６）。最後のフレームである場合（Ｓ２６のＹＥＳ）、処理は終了する。最後のフレームでない場合（Ｓ２６のＮＯ）、処理はステップＳ１２に戻る。

ステップＳ１２で取得されたフレームが最初のフレームでない場合（Ｓ１４のＮＯ）、画像処理装置２００はΔｉｍｇを算出する（Ｓ２８）。画像処理装置２００は、閾値の更新の要否を判定するため、Δｉｍｇとｔｈ＿ｉｍｇとを比較する（Ｓ３０）。Δｉｍｇ＞ｔｈ＿ｉｍｇの場合（Ｓ３０のＹＥＳ）、画像処理装置２００はインター閾値を更新する（Ｓ３２）。ステップＳ３２の後、処理はステップＳ１８に進み、画像処理装置２００は更新されたインター閾値を用いて合成マスクを生成する。Δｉｍｇ≦ｔｈ＿ｉｍｇの場合（Ｓ３０のＮＯ）、インター閾値は更新されずに処理はステップＳ１８に進む。

図１４は、図１３の閾値設定処理ステップＳ１６における処理の流れを示すフローチャートである。画像処理装置２００は、ユーザが利用する携帯端末１１４を介して、関心領域の指定を受け付ける（Ｓ３６）。画像処理装置２００は、指定された関心領域と最初のフレームとに基づくGrabcut法により基準マスクを生成する（Ｓ３８）。画像処理装置２００は、テスト用のインター閾値を選択する（Ｓ４０）。画像処理装置２００は、ステップＳ４０で選択されたインター閾値を用いて最初のフレームからインターテストマスクを生成する（Ｓ４２）。画像処理装置２００は、ステップＳ３８で生成された基準マスクとステップＳ４２で生成されたインターテストマスクとから改良Ｆ値を算出する（Ｓ４４）。選択されていないインター閾値がある場合（Ｓ４６のＮＯ）、処理はステップＳ４０に戻る。全てのインター閾値が選択された場合（Ｓ４６のＹＥＳ）、画像処理装置２００は最大の改良Ｆ値を与えるインター閾値を最適インター閾値として決定する（Ｓ４８）。画像処理装置２００は、テスト用のイントラ閾値を選択する（Ｓ５０）。画像処理装置２００は、ステップＳ５０で選択されたイントラ閾値を用いて最初のフレームからイントラテストマスクを生成する（Ｓ５２）。画像処理装置２００は、ステップＳ５２で生成されたイントラテストマスクとステップＳ４８で決定された最適インター閾値に対応するインター最適マスクとを合成し、合成テストマスクを生成する（Ｓ５４）。画像処理装置２００は、ステップＳ３８で生成された基準マスクとステップＳ５４で生成された合成テストマスクとから改良Ｆ値を算出する（Ｓ５６）。選択されていないイントラ閾値がある場合（Ｓ５８のＮＯ）、処理はステップＳ５０に戻る。全てのイントラ閾値が選択された場合（Ｓ５８のＹＥＳ）、画像処理装置２００は最大の改良Ｆ値を与えるイントラ閾値を最適イントラ閾値として決定する（Ｓ６０）。

図１５は、図１３の合成マスク生成処理ステップＳ１８における処理の流れを示すチャートである。画像処理装置２００は、処理対象のフレームを取得する（Ｓ６２）。画像処理装置２００は、ステップＳ６２で取得されたフレームに対するイントラ背景差分とインターとを並列に実行する。イントラ背景差分では、画像処理装置２００は、背景フレームを取得し（Ｓ６４）、パラメータ保持部２２４からイントラ閾値を読み出す（Ｓ６６）。画像処理装置２００は、ステップＳ６６で読み出されたイントラ閾値およびステップＳ６４で取得された背景フレームを用いて、ステップＳ６２で取得されたフレームに対してイントラ背景差分を行い、イントラマスクを生成する（Ｓ６８）。インター背景差分では、画像処理装置２００は、パラメータ保持部２２４からインター閾値を読み出す（Ｓ７０）。画像処理装置２００は、ステップＳ７０で読み出されたインター閾値を用いて、ステップＳ６２で取得されたフレームに対してインター背景差分を行い、インターマスクを生成する（Ｓ７２）。画像処理装置２００は、ステップＳ６８で生成されたイントラマスクとステップＳ７２で生成されたインターマスクとを合成し、合成マスクを生成する（Ｓ７４）。

上述の実施の形態において、保持部の例は、ハードディスクや半導体メモリである。また、本明細書の記載に基づき、各部を、図示しないＣＰＵや、インストールされたアプリケーションプログラムのモジュールや、システムプログラムのモジュールや、ハードディスクから読み出したデータの内容を一時的に記憶する半導体メモリなどにより実現できることは本明細書に触れた当業者には理解される。

本実施の形態に係る画像処理装置２００によると、基本的にはユーザは最初に関心領域を指定するだけで、より正確に抽出されたオブジェクトに基づく自由視点映像を楽しむことができる。関心領域の指定後は、イントラ背景差分およびインター背景差分に必要なパラメータは自動的に設定され、自動的に更新される。したがって、ユーザ利便性が向上する。

例えば、背景差分のパラメータの意義や背景差分そのものについての知見を有さないユーザにパラメータの設定を求めても、パラメータが適切に設定される蓋然性は低いし、ユーザも当惑するであろう。これに対して本実施の形態に係る画像処理装置２００では、そのようなパラメータの設定、更新は自動的に行われるので、ユーザは背景差分についての知見を有さなくても自由視点映像を楽しむことができる。

また、本実施の形態に係る画像処理装置２００では、イントラ背景差分の結果とインター背景差分の結果とを合成することで合成マスクを生成する。したがって、イントラ背景差分の結果、インター背景差分の結果のそれぞれに求められる正確さのレベルを下げ、代わりに処理速度を高めることができる。その結果、リアルタイムにも適用可能な程度に高速でありながら、より正確にオブジェクトを抽出できる背景差分を提供できる。

また、本実施の形態に係る画像処理装置２００では、マスクのエラーが自動的に検出される。したがって、ユーザが自らマスクのエラーを見つける必要がなくなるので、ユーザ利便性が向上する。

また、本実施の形態に係る画像処理装置２００では、改良Ｆ値を用いてテストマスクの良し悪しが評価される。この改良Ｆ値の重みαを変えることで、ユーザは抽出結果を自分の好みに合わせることができる。したがって、ユーザの好みを反映できる柔軟性の高い評価手法が実現される。例えば、ユーザがより正確な輪郭の抽出を望む場合、αを１より小さく設定すればよい。また、ユーザがオブジェクトの抽出漏れの低減を望む場合はαを１より大きく設定すればよい。

また、本実施の形態に係る画像処理装置２００では、フレームごとにインター閾値の更新の要否が判定され、必要と判定された場合はフレーム間の平均画素強度の差に基づき自動的に閾値が更新される。したがって、オブジェクトの抽出の堅牢性（Robustness）が向上する。

以上、実施の形態に係る画像処理装置２００の構成と動作について説明した。この実施の形態は例示であり、各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解される。

実施の形態では、自由視点映像の配信を例として説明したが、これに限られず、監視カメラから得られる動画像の解析などの一般的な動画像の解析に本実施の形態に係る技術的思想を適用してもよい。

実施の形態では、フレームごとにインター閾値の更新の要否が判定される場合を説明したが、これに限られず、更新の要否の判定は任意の数のフレームごとになされてもよいし、ランダムなタイミングでなされてもよい。また、Δｉｍｇに限られず任意の基準により、イントラ閾値およびインター閾値のうちの少なくとも一方の更新の要否が判定されてもよい。

実施の形態では、基準フレームとして最初のフレームが採用されたが、これに限られず、処理対象の動画像の任意のフレームが基準フレームとして採用されてもよい。

実施の形態では、イントラ背景差分の結果とインター背景差分の結果との合成により合成マスクを生成する処理を画像処理装置２００が行う場合を説明したが、これに限られず、例えば携帯端末１１４が当該合成処理を行ってもよい。このように、画像処理装置２００の機能の一部または全部を携帯端末１１４が実現する態様も可能である。

実施の形態では、イントラテストマスクを生成し、それをインター最適マスクと合成して合成テストマスクを生成する場合を説明したが、これに限られず、例えばイントラテストマスクに対して改良Ｆ値を算出し、最大の改良Ｆ値を与えるイントラ閾値を最適なイントラ閾値として決定してもよい。この場合、インター閾値、イントラ閾値は個々に基準マスクに対して最適化される。

以下に、最適なインター閾値（Ｙ＿ｔｈ＿ｏｐｔ、Ｕ＿ｔｈ＿ｏｐｔ、Ｖ＿ｔｈ＿ｏｐｔ）を決めるためのプログラムコードの例を示す。最適なイントラ閾値（ｇｍｍ＿ｔｈ＿ｏｐｔ）は同様のプログラムコードにより決められてもよい。

１１０自由視点画像配信システム、１１２ネットワーク、１１４携帯端末、２００画像処理装置。

Claims

動画像の対象フレームに対して該対象フレーム内で第１背景差分を行うことで得られる第１マスクを取得する手段と、
前記対象フレームに対してフレーム間で第２背景差分を行うことで得られる第２マスクを取得する手段と、
前記第１マスクと前記第２マスクとを合成することで合成マスクを生成する手段と、を備える画像処理装置。
前記合成マスクの背景部分は、前記第１マスクおよび前記第２マスクのうちの少なくとも一方における背景部分である請求項１に記載の画像処理装置。
生成された前記合成マスクを用いて前記対象フレームからオブジェクトを抽出する手段をさらに備える請求項１または２に記載の画像処理装置。
前記第１背景差分、前記第２背景差分のいずれとも異なる第３背景差分を行うことで基準マスクを生成する手段と、
生成された前記基準マスクに基づいて、前記第１背景差分で用いられるパラメータおよび前記第２背景差分で用いられるパラメータのうちの少なくとも一方を設定する手段と、をさらに備える請求項１から３のいずれか１項に記載の画像処理装置。
前記動画像の基準フレームにおける関心領域の指定をユーザから受け付ける手段をさらに備え、
前記基準マスクの背景部分は、指定された前記関心領域の外部を含む請求項４に記載の画像処理装置。
前記設定する手段は、前記基準マスクを正解とするときの適合率（precision）と再現率（recall）との重み付け調和平均が大きくなるようにパラメータを設定する請求項４または５に記載の画像処理装置。
前記重み付け調和平均における重みの指定をユーザから受け付ける手段をさらに備える請求項６に記載の画像処理装置。
基準マスクの生成および生成された該基準マスクによるパラメータの再設定が必要か否かを判定する手段をさらに備える請求項４から７のいずれか１項に記載の画像処理装置。
前記第１背景差分で用いられるパラメータおよび前記第２背景差分で用いられるパラメータのうちの少なくとも一方の更新が必要か否かを判定する手段をさらに備える請求項１から８のいずれか１項に記載の画像処理装置。
前記判定する手段は、フレーム間の平均画素強度の差に基づいて更新の要否を判定し、
本画像処理装置はさらに、更新が必要であると判定された場合、前記第１背景差分で用いられるパラメータおよび前記第２背景差分で用いられるパラメータのうちの少なくとも一方を前記差に応じて更新する手段を備える請求項９に記載の画像処理装置。
動画像の対象フレームに対して該対象フレーム内で第１背景差分を行うことで得られる第１マスクを取得することと、
前記対象フレームに対してフレーム間で第２背景差分を行うことで得られる第２マスクを取得することと、
前記第１マスクと前記第２マスクとを合成することで合成マスクを生成することと、を含む画像処理方法。
動画像の対象フレームに対して該対象フレーム内で第１背景差分を行うことで得られる第１マスクを取得する機能と、
前記対象フレームに対してフレーム間で第２背景差分を行うことで得られる第２マスクを取得する機能と、
前記第１マスクと前記第２マスクとを合成することで合成マスクを生成する機能と、をコンピュータに実現させるためのコンピュータプログラム。