JP7096175B2

JP7096175B2 - オブジェクト抽出方法および装置

Info

Publication number: JP7096175B2
Application number: JP2019009705A
Authority: JP
Inventors: 良亮渡邊; 軍陳
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2022-07-05
Anticipated expiration: 2039-01-23
Also published as: JP2020119250A

Description

本発明は、オブジェクト抽出方法および装置に係り、特に、動画像から前景を分離することでオブジェクトを抽出するオブジェクト抽出方法および装置に関する。

主に画像中からの移動物体の検出や、自由視点映像の制作などを目的として、前景領域と背景領域とを分離する手法が数多く提案されてきた。特に、画像中の背景領域について統計情報等に基づきモデル化を行い、背景モデルと入力画像との差分が大きい領域を前景として抽出するアプローチは背景差分法と呼ばれる。

背景差分法の例として、非特許文献１には、複数のガウス分布を混合させた混合ガウス分布を用いて背景のモデル化を行うことで、入力画像の背景領域を特定し、前景のみを抽出する技術が開示されている。

非特許文献２には、背景を単一のガウス分布でモデル化し、平均と分散とに代表される背景統計情報を各フレームで更新しつつ、背景差分を計算する手法が開示されている。この手法では、ガウス分布に基づいて前景の候補領域を抽出した後に、候補領域の形状やヒストグラムに基づいて、候補領域を前景と背景に再度分類することで、影などの本来前景とすべきではない部分を排除することができる。

非特許文献３には、背景差分を実施する際に設定する前景抽出のための閾値を、人物の追跡情報に基づいて適応的に変化させることで、背景差分の精度を高める手法が開示されている。

一方、近年では、非特許文献４に代表されるような深層学習を用いて対象オブジェクトのシルエットを抽出する技術も提案されている。本手法は、事前に訓練データを用意し、畳み込みニューラルネットワークを用いた事前学習に基づいて対象のシルエット抽出を行うことができる技術である。本手法は訓練データを基に対象オブジェクトを抽出することから、本手法を前景と背景との分離に応用した場合、影などが抽出されにくく、また照明条件などの変化に対し頑健に対象オブジェクトを抽出できるという特徴があった。

C. Stauffer and W. E. L. Grimson, "Adaptive background mixture models for real-time tracking," 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 246-252 Vol. 2 (1999). Q. Yao, H. Sankoh, H. Sabirin and S. Naito, "Accurate silhouette extraction of multiple moving objects for free viewpoint sports video synthesis," 2015 IEEE 17th International Workshop on Multimedia Signal Processing (MMSP), 2015, pp. 1-6 (2015). 寺林賢司，梅田和昇，モロアレッサンドロ，"人物追跡情報を用いた背景差分のリアルタイム適応閾値処理" ,電気学会一般産業研究会資料, GID-09-17, pp.89-90(2009). K. He, G. Gkioxari, P. Dollar and R. Girshick, "Mask R-CNN," 2017 IEEE International Conference on Computer Vision (ICCV), 2017, pp. 2980-2988 (2017). H. Sankoh, S. Naito, K. Nonaka, H. Sabirin, J. Chen, "Robust Billboard-based, Free-viewpoint Video Synthesis Algorithm to Overcome Occlusions under Challenging Outdoor Sport Scenes", Proceedings of the 26th ACM international conference on Multimedia, pp. 1724-1732(2018) Z. Cao, T. Simon, S. Wei and Y. Sheikh, "Realtime Multi-person 2D Pose Estimation Using Part Affinity Fields," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1302-1310 (2017). J. Redmon and A. Farhadi,"YOLO9000: Better, Faster, Stronger," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 6517-6525 (2017).

本発明の発明者等は、非特許文献１，２に開示されているような背景差分法ベースの手法で抽出したシルエットを用い、非特許文献５に代表されるような自由視点映像の制作を行ってきた。非特許文献５に開示されている自由視点映像技術の制作工程では、背景差分法を用いてシルエット画像を作成し、その後、各シルエットから３次元空間上の積集合を計算することで視体積を生成し、対象人物の３Ｄモデル化を行う。このときのシルエット抽出の精度が自由視点映像の品質に大きく影響を及ぼす。

非特許文献１，２に開示されている手法は、背景を統計的にモデル化し、更新を行うことから、緩やかな背景の変化や規則的な背景部分の変化に関しては、ロバストな対象オブジェクト抽出を行えるという強みがあった。しかしながら、背景が複雑かつ急峻に変化するようなシーンには適用が難しかった。ここで述べる背景が複雑なシーンの例としては、例えばスポーツの試合において選手やボールの抽出を行いたい場合に、選手の背後に頻繁に切り替わりが発生する広告表示用の液晶ディスプレイが配置されているシーンや、野球などにおいて引かれていたフィールド上の白線が選手の走塁と共に踏み荒らされてしまうようなシーン等が該当する。

このようなシーンでは、背景が急激に変化することに加えて、その背景の変化に規則性がないことから、背景を誤って前景として抽出してしまう可能性が高くなる。これらの抽出困難なシーンにおいて抽出を行うためには、非特許文献１，２の手法では精度的に不十分である。

このような技術課題に対して、非特許文献３のように、人物追跡を行い、その結果を背景差分法の閾値に作用させる手法が提案されていた。非特許文献３は人物の追跡を行い、その結果に基づき閾値の調整を行うことから、非特許文献１，２と比べると照明の変化等に頑健という特徴があった。

しかしながら、非特許文献３のような手法で前景と背景とを判別するための閾値を動的に調整したとしても、背景モデルを統計的に更新する場合、長時間に渡り静止している選手が存在する場合、徐々に静止している選手部分が背景モデルとして判定されるようになり、対象オブジェクトが背景として判定されてしまうという問題が存在する。逆に、背景を統計的に更新する機構がない場合には、照明変動などに対する頑健さが失われてしまう。

一方、非特許文献４のような深層学習ベースの手法は、画像全体の特徴量から対象オブジェクトを検出することから照明の変化に頑健で、影などが前景として抽出されにくいという利点が存在していた。

しかしながら、抽出オブジェクトが重なり合うことでオクルージョンが発生する場合には認識漏れが多く発生することに加え、輪郭を綺麗に抜くことが難しく、自由視点映像制作に用いるシルエットでは対象オブジェクトの輪郭を正確に抽出することが求められることを鑑みると、非特許文献４の手法は適用しづらかった。

本発明の目的は、上記の技術課題を解決し、静止時間の長いオブジェクトも正確に抽出できるオブジェクト抽出方法および装置を提供することにある。

上記の目的を達成するために、本発明は、動画の映像からオブジェクトを抽出するオブジェクト抽出装置において、以下の構成を具備した点に特徴がある。

(1) 映像を取得する手段と、取得した映像からオブジェクト領域を検出する手段と、オブジェクト領域の検出結果に基づいて存在尤度マップを計算する手段と、各画素の統計情報を計算する統計情報計算手段と、前記統計情報および背景差分閾値に基づく背景差分法により前景領域をオブジェクトとして抽出する背景差分計算手段とを具備し、前記統計情報計算手段は、各画素の過去の統計情報に今回の画素値を所定の更新率で反映することで今回の統計情報を求め、前記更新率を前記存在尤度マップに基づいて決定する更新率決定手段をさらに具備し、例えば、オブジェクトの存在尤度が高い画素ほど更新率を低くするようにした。

(2) 前記背景差分閾値を前記存在尤度マップに基づいて計算する閾値計算手段をさらに具備し、例えば、オブジェクトの存在尤度が高い画素ほど背景差分閾値を低くするようにした。

(3) 前記閾値計算手段は更に、前記オブジェクト領域の検出結果と背景差分計算手段の計算結果との一致比率に基づいて背景差分閾を動的に変更するようにした。

(4) 前記統計情報計算手段が、画素値の履歴に基づいて平均値および標準偏差を算出する手段を具備し、前記背景差分計算手段は、背景領域を統計情報に基づいて単一のガウス分布でモデル化するようにした。

(5) 前記存在尤度マップを計算する手段は、オブジェクト領域の今回の検出結果に前回までの検出結果を所定の学習率mで重み付けして今回の存在尤度マップを計算するようにした。

(6) 前記オブジェクト領域を検出する手段は、複数の異なる検出方式でオブジェクト領域をそれぞれ検出し、各検出結果を一つに統合するようにした。

(7) 前記抽出したオブジェクトを存在尤度マップに基づいて高精度化する後処理手段として、存在尤度マップの平均値が所定のノイズ閾値を下回る前景領域を背景領域とみなすノイズ除去手段を具備し、前記ノイズ閾値は、前景領域のサイズが大きいほど低くされるようにした。

(8) 前記抽出したオブジェクトを存在尤度マップに基づいて高精度化する後処理手段として、存在尤度マップの平均値が所定の穴埋め閾値を上回る背景領域を前景領域とみなす欠損穴埋め手段を具備した。

(9) 前記存在尤度マップを計算する手段は、抽出対象のオブジェクトごとに存在尤度マップを計算し、前記背景差分閾値および更新率が存在尤度マップごとに決定されるようにした。

(10) 前記オブジェクトの抽出結果および存在尤度マップに基づいて前記更新率を見直す更新率見直し手段を更に具備し、例えば、存在尤度マップに基づいて決定される更新率を、前景領域では背景領域よりも低くした。

本発明によれば、以下のような効果が達成される。

(1) 各画素の過去の統計情報に今回の画素値を所定の更新率で反映することで今回の統計情報を求めるにあたり、前記更新率を存在尤度マップに基づいて決定するようにしたので、例えば、存在尤度マップに基づいて設定される背景差分閾値の範囲を、オブジェクトの存在尤度が高い画素ほど低くすることにより、静止しているオブジェクトが徐々に背景として認識されてしまうためにオブジェクトとして認識されにくくなる、という技術課題を解決できるようになる。

(2) 背景差分閾値を存在尤度マップに基づいて計算するようにしたので、例えばオブジェクトの存在尤度が高い画素ほど背景差分閾値を低く設定することにより、背景領域が前景領域として誤検出されにくくすることができる。

(3) 前景と判断された領域と背景と判断された領域との比率に基づいて背景差分閾値を動的に変更するようにしたので、例えば、存在尤度マップに基づいて設定される背景差分閾値の範囲を、オブジェクトの存在尤度が高い画素ほど低くすれば、前景領域が背景領域として誤検出されにくくすることができる。

(4) 画素値の履歴に基づいて平均値および標準偏差を算出し、前記背景差分計算手段は、背景領域を統計情報に基づいて単一のガウス分布でモデル化するので、オブジェクトとみなせる背景領域を正確に抽出できるようになる。

(5) オブジェクト領域の今回の検出結果に前回までの検出結果を所定の学習率mで重み付けして今回の存在尤度マップを計算するようにしたので、一部のフレームにオブジェクトの検出漏れが生じても、その前後フレームでオブジェクトが検出されていればオブジェクトの見逃しを防止できるようになる。

(6) 映像からオブジェクト領域を検出する際に、複数の異なるアルゴリズムでオブジェクト検出をそれぞれ実行し、各検出結果を一つに統合するようにしたので、各オブジェクト検出手法の欠点を相互に補うことが可能になる。

(7) 存在尤度マップの平均値が所定のノイズ閾値を下回る前景領域を背景領域とみなすノイズ除去手段を具備したので、背景領域が前景領域として抽出されてしまうことにより生じるオブジェクト抽出の精度低下を回復できるようになる。

(8) 存在尤度マップの平均値が所定の穴埋め閾値を上回る背景領域を前景領域とみなす欠損穴埋め手段を具備したので、前景領域が背景領域として抽出されてしまうことにより生じるオブジェクト抽出の精度低下を回復できるようになる。

(9) 抽出対象のオブジェクトごとに存在尤度マップを計算し、更に背景差分閾値および更新率を存在尤度マップごとに設定すれば、存在尤度マップが各オブジェクトに固有となるので、オブジェクト抽出の精度を向上させることができる。

(10) オブジェクトの抽出結果および存在尤度マップに基づいて前記更新率を見直す手段を更に設けたので、例えば、存在尤度マップに基づいて決定される更新率の範囲を、前景領域では背景領域よりも低くすれば、静止しているオブジェクトが徐々に背景として認識されてしまうためにオブジェクトとして認識されにくくなる、という技術課題を更に高い確度で解決できるようになる。

本発明の第１実施形態に係るオブジェクト抽出装置の機能ブロック図である。 Mask R-CNN法によるオブジェクト検出の結果を示した図である。 OpenPose法によるオブジェクト検出の結果を示した図である。オブジェクト検出の結果を比較した図である。後処理部におけるノイズ除去の方法を示した図である。後処理部における欠損穴埋めの方法を示した図である。欠損穴埋めの結果を従来技術と比較して示した図である。オブジェクトの抽出例を示した図である。本発明の第２実施形態に係るオブジェクト抽出装置の機能ブロック図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は、本発明の第１実施形態に係るオブジェクト抽出装置の主要部の構成を示した機能ブロック図であり、ここでは、複数台のカメラが設置された環境への適用を例にして説明するが、カメラは１台のみであってもよい。

カメラ映像取得部１は、視野の異なる複数のカメラcamから動画像のカメラ映像を取得する。オブジェクト領域検出部２は、オブジェクトの検出手法が異なる複数の検出部２１，２２を備え、深層学習に代表される複数のオブジェクト検出手法を用いて、カメラ映像ごとにフレーム単位でオブジェクト領域N(x, y)を検出する。

本実施形態では、オブジェクト検出の信頼性を高めるために、第１検出部２１として、非特許文献４に開示されているMask R-CNN法を備えると共に、第２検出部２２として、非特許文献６に開示されているOpenPose法を備え、各検出手法を併用し、検出結果を統合することでオブジェクト検出の信頼性を高めている。

また、本実施形態ではバレーボール中継のカメラ映像からオブジェクトを抽出する場合を想定し、抽出対象のオブジェクトを選手およびボールの２種類に限定すると共に、前記OpenPose法によるオブジェクト検出では選手のみを抽出対象としている。

図２は、前記Mask R-CNN法によるオブジェクト検出の結果の一例を示した図であり、選手およびボールのシルエット画像が得られている。図３は、前記OpenPose法によるオブジェクト検出の結果の一例を示した図であり、各選手の画像から骨格情報が得られている。

なお、採用するオブジェクトの検出手法およびその組み合わせは上記の各手法およびその組み合わせに限定されるものではなく、非特許文献７に開示されているように、抽出対象オブジェクトを包含する矩形を取得するようなアルゴリズムを採用してもよいし、HOG (Histograms of Oriented Gradients) 特徴量などの画像特徴量に基づく検出手法を採用しても良い。深層学習等に基づいてオブジェクト検出を行う場合には、事前に対象オブジェクトを利用して学習させた訓練済モデルが必要となるため、本モデルは事前に計算され、用意されることを前提とする。

図１へ戻り、存在尤度マップ計算部３は、前記オブジェクト領域検出の結果に基づいて、フレーム画像の各位置にオブジェクトが存在する確率（尤度）を計算し、フレーム画像上での存在尤度の分布を表す存在尤度マップE(x, y)を計算する。

本実施形態では、次式(1)，(2)に示したように、今回（時刻t）の存在尤度マップE_t(x，y)が、前回（時刻t-1）の存在尤度マップE_t-1(x, y)の計算結果と今回のオブジェクト領域の検出結果N(x, y)との、所定の存在尤度マップ学習率mに基づく重み付け和として計算される。

前記存在尤度マップ学習率mは、オブジェクト領域検出部２等で認識漏れが生じた際の対策として、過去の存在尤度マップの値E_t-1(x, y)を次のフレームに伝播させる比率を示す。N(x, y)は、時刻tにおいてオブジェクト領域検出部２から得られる検出結果を統合した値を示し、R_iは各検出手法から得られる検出結果を示し、k_iは各検出手法の影響比率を調整するための事前に決定されるパラメータを示す。ただしt=0（最初のフレーム）の場合には(1)式のE_t-1(x, y)の項は0として計算する。

本実施例では、オブジェクト検出手法としてMask R-CNN法およびOpenPose法を用いていることから、I=2となり、R₁(x, y)としてMask R-CNN法による検出結果が、R₂(x, y)としてOpenPose法による検出結果が、それぞれ代入される。上式(2)では各検出結果に対して重み付けを行い、その和を計算しているが、和に代えて積を計算することでN(x, y)を算出してもよい。

本実施例では、Mask R-CNN法の結果R₁(x, y)は、Mask R-CNN法で抽出対象オブジェクトが存在すると判定された位置を1、存在しない位置を0としている。また、OpenPose法の結果R₂(x, y)は、抽出された各骨格から一定の距離の部分を1、それ以外を0としている。オブジェクト領域検出部２で骨格のようなオブジェクトの構造情報を抽出する場合には、その中心となる部分から距離が離れるほどR₂(x, y)の値が小さくなるように重み付けを行ってもよい。

また、オブジェクト領域検出部２がオブジェクトを検出する際に、抽出対象のオブジェクトの存在確率を計算できるような機構を持つ場合には、この存在確率をR_i(x, y)の値に反映させてもよい。

加えて、存在尤度マップE(x, y)に関して、抽出対象のオブジェクトが選手やボールのように複数ある場合には、オブジェクトごとに存在尤度マップを作成してもよい。その際、設定される閾値や更新率の範囲をオブジェクトごとに変更することで、さらに高精度な前景抽出を実現できる可能性がある。例えば、抽出し易いと思われるオブジェクトの閾値の範囲を高めに、抽出し難いと思われるオブジェクトの閾値の範囲を低めに設定することで、前景の誤抽出を減らすことができる。

閾値計算部４は、前記存在尤度マップE(x, y)を参照し、フレーム画像の各領域を各画素値に基づいて前景と背景とに分離する際の分離閾値T(x, y)を画素ごとに動的に決定する。本実施形態では、オブジェクトの存在尤度が高い領域には低い閾値が設定され、オブジェクトの存在尤度が低い領域には高い閾値が設定されるように、次式(3)に基づいて分離閾値T(x, y)が画素ごとに決定される。これにより、抽出対象のオブジェクトが存在する領域が前景と判断され易くなる効果を奏することができる。

ここで、T_min，T_maxは、それぞれ分離閾値T(x, y)が採り得る最小値および最大値であり、対象とするシーンなどを鑑みて手動で決定されてもよいが、オブジェクト領域検出部２の検出結果または存在尤度マップの値E_t(x，y)と、実際に前景として抽出された領域との一致比率を計算し、一致比率が低い場合には閾値の範囲設定が上手くできていないと判断し、一致比率が改善されるようにT_min，T_maxを自動的に変更するような機構を備えていてもよい。

なお、存在尤度マップE(x, y)を抽出対象のオブジェクトごとに作成するのであれば、T_min，T_maxもそれぞれの抽出対象のオブジェクトごと（選手とボール）に設定しても良い。そして、最終的な各画素の閾値については、各オブジェクトのT(x, y)の平均値あるいは最大値として算出するなどの方法が考えられる。

統計情報計算部６は、取得したフレーム画像の画素ごとに、現在の画素値に過去の画素値を統計的に反映させることで画素の統計情報を算出する。本実施形態では画素ごとに、平均値計算部６１が次式(4)に基づいて画素値の平均値u(x, y)を計算し、標準偏差計算部６２が次式(5)に基づいて画素値の標準偏差σ(x, y)を計算する。

前記統計情報計算部６は、統計情報の算出を新しいフレーム画像が取得される時刻tごとに繰り返すので、各統計情報u(x, y)，σ(x, y)はフレーム単位で更新されることになる。U(x, y)は、統計情報を計算する際に過去の統計情報を現在の画素値に反映させる割合（更新率）であり、更新率決定部５が、前記存在尤度マップE(x, y)の各存在尤度をパラメータとして、次式(7)に基づいて計算する。

U_min，U_maxは、それぞれ更新率が採り得る最小値、最大値であり、本実施形態では、オブジェクトの存在尤度が高い領域に低い更新率が設定されることになる。したがって、抽出対象のオブジェクトが長時間静止していた場合にも、存在尤度マップの値が高く保たれていれば、抽出対象オブジェクトが欠けてしまうことを防止することができる。

なお、前記U_minとU_maxは、後述の背景差分計算部７によって得られる各画素の前景/背景の判別結果に応じて、異なる更新率を有するように設計されていてもよい。一般に、背景と判定された画素に対して高い更新率を、前景と判定された画素に対しては低い更新率を、それぞれ設定することが望ましい。

背景差分計算部７は、フレーム画像ごとに各画素の統計情報（本実施形態では、μ_t (x, y)および標準偏差σ_t(x, y)）、分離閾値T(x, y)および画素値I_t(x, y)に基づいて画素単位で前景／背景判別を実施し、判別結果を例えばマスク形式で出力する。

本実施例では、非特許文献２と同じように、単一のガウスモデルで背景をモデル化することを考える。色空間に関しても非特許文献２と同じYUV色空間にて処理を記載するが、色空間に関してRGBなどの他の色空間を対象としていても同一に処理を行うことが可能である。ただし、カメラ映像取得部１で得られる色空間と、背景差分計算部７で計算対象とする色空間が異なる場合には、入力された画像に対して色空間の変換を行う機構を有するものとする。そして、次式(8)の条件を満たす画素(x, y)は背景と判断される。

ここで、zは標準偏差の何倍までを背景と判断するかを調節するパラメータであり、T(x, y)は、前記閾値計算部４により算出される閾値である。したがって、T(x, y)が大きいほど背景と判断される可能性が高くなる。また、本実施形態ではYUV色空間での計算を行うと述べたが、複数の色空間を持つ場合には、色空間ごとに独立して上記の条件式の計算を行い、全ての色空間にて条件を満たす場合に、当該画素を背景であると判定することとする。

さらに、上式(8)では標準偏差の項と閾値の項とが分けられているが、実際にはT(x, y)や存在尤度マップの値に応じて標準偏差項の定数値zを調節するような機能を備えていてもよい。

後処理部８は、存在尤度マップE_t(x, y)に基づいて、ノイズ除去を行うノイズ除去部８１および欠損領域の穴埋めを行う欠損穴埋め部８２を具備し、前記背景差分計算部７が出力するマスクに対して、メディアンフィルタなどのフィルタ処理によるノイズ除去や、輪郭の膨張(dilation)と縮退(erosion)を繰り返すことで細かいノイズを除去する処理などを実施する。

前記ノイズ除去部８１に関して、非特許文献２の背景差分法では、背景差分を用いて計算したマスクに対し、結合されている前景領域を一つの塊として捉え、その塊ごとに輪郭枠のサイズやアスペクト比を確認することでノイズの除去を行っている。

しかしながら、このような従来手法では、例えばボールのような小さいオブジェクトが入り込む場合、ボールが消えないようにするためにボールより小さい値をノイズ除去のパラメータとして設定せざるを得ず、効果を出すことが難しい。

加えて、何らかの原因で選手のマスクが分断された場合に、分断された部分のサイズが小さいと削除されてしまう可能性が生じる。そこで、本実施形態では分断された塊の大きさだけではなく、存在尤度マップE_t(x，y)の値も利用してノイズの除去を行うようにしている。

例えば、図５に示したように、背景差分計算部７から出力された１次マスク[同図(a)]に３つの塊P_j（P₁，P₂，P₃：jは塊識別子）が含まれていると、各塊P₁，P₂，P₃の内部の存在尤度マップ[同図(b)]の平均値d_uを計算する。そして、平均値d_uがノイズ除去用の閾値d_ref（例えば、d_ref=0.5）よりも低い塊P₁のみを除去し、他の塊P₂，P₃は残すようにすることで、存在尤度が高い位置にある小領域を残すことが可能となり[同図(c)]、高精度なノイズ除去を行うことができる。

ノイズ除去の閾値d_refは定値でも良いし、対象とする領域のサイズが大きくなればなるほど小さくし、確実に抽出対象オブジェクトではないと判断できる場合のみノイズ除去ができるような機構を備えていてもよい。

前記欠損穴埋め部８２に関して、図６に示したように、前景領域（白色部分）に囲まれるような形で、前景が背景と誤判断される小領域（欠損領域）が生じ得る。このような欠損領域は、例えば人物の衣服の色に、背景と同じような色の部分が存在している場合などに、オブジェクトの一部が背景と誤判断されることで生じる。本実施形態では、欠損領域内部の存在尤度マップE(x, y)の平均値を前記ノイズ除去部８１と同様に計算し、平均値が所定の閾値を上回る場合には穴埋めを行うことで欠損領域の修復を行う。

図７は、非特許文献２の手法で閾値を上下させながら欠損領域を穴埋めした場合[同図(a)，(b)]と、前記欠損穴埋め部８２により、存在尤度マップE(x, y)に基づいて穴埋めした場合[同図(c)]とを比較した図である。

非特許文献２の手法で閾値を低めに設定すると、オブジェクト（選手）の欠けは少ないが床や看板などの背景が前景と誤判断されている。また、非特許文献２の手法で閾値を高めに設定すると、オブジェクト（選手）の欠けが散見されるようになり、閾値の設定では欠損の防止に限界のあることが判る。

これに対して、本実施形態では前記後処理部８が、存在尤度マップE(x, y)に基づいてノイズ除去および欠損穴埋めを行うので、背景領域を確実に除去しながら、オブジェクトを綺麗に抽出できていることが判る。

出力部９は、背景差分計算部７あるいは後処理部８で計算された背景領域の情報を基に、結果となる映像（画像）を出力する。ここで出力される画像は、図７に示したように、入力画像をマスクしたことによって得られるカラー画像でも良いし、図８に示したように、背景/前景を判断するための2値からなる2値マスク画像でも良い。

本実施形態によれば、存在尤度マップに基づいて設定される背景統計情報の更新率の範囲が、オブジェクトの存在尤度が高い画素ほど低くなるので、静止しているオブジェクトが徐々に背景として認識されてしまうためにオブジェクトとして認識されにくくなるという技術課題を解決できるようになる。

図９は、本発明の第２実施形態に係るオブジェクト抽出装置の主要部の構成を示した機能ブロック図であり、前記と同一の符号は同一または同等部分を表しているので、その説明は省略する。

本実施形態では、前記更新率決定部５が更新率見直し部５１を具備し、前記背景差分計算部７の出力と前記存在尤度マップE(x，y)との比較結果に基づいて前記更新率U(x, y)の見直しを行うようにした点に特徴がある。なお、更新率見直し部５１が更新率の見直しに用いる出力マスクは、前記背景差分計算部７の出力に限定されるものではなく、後処理部８が出力するマスクを用いてもよい。

前記更新率見直し部５１は、前記背景差分計算部７により背景と判定された画素に対しては高めの更新率が、前景と判定された画素に対しては低めの更新率が設定されるように、背景差分計算部７により前景と判断された画素の更新率U_fore(x, y)を次式(9)に基づいて計算する。

一方、背景差分計算部７により背景と判断された画素の更新率U_back (x, y)は次式(10)に基づいて計算する。

ここで、U_minfore，U_minbackは、それぞれ前景と判定された画素、背景と判定された画素が採り得る更新率の最小値であり、U_minfore＜U_minbackとされる。U_maxfore，U_maxbackは、それぞれ前景と判定された画素、背景と判定された画素が採り得る更新率の最大値であり、U_maxfore＜U_maxbackとされる。

本実施形態によれば、存在尤度マップに基づいて決定される更新率の範囲が、前景領域では背景領域よりも低くされるので、静止しているオブジェクトが徐々に背景として認識されてしまうためにオブジェクトとして認識されにくくなるという技術課題を、更に高い確度で解決できるようになる。

１…カメラ映像取得部，２…オブジェクト領域検出部，３…存在尤度マップ計算部，４…閾値計算部，５…更新率決定部，６…統計情報計算部，７…背景差分計算部，８…後処理部，９…出力部，２１…第１検出部，２２…第２検出部，８１…ノイズ除去部，８２…欠損穴埋め部

Claims

動画の映像からオブジェクトを抽出するオブジェクト抽出装置において、
映像を取得する手段と、
取得した映像からオブジェクト領域を検出する手段と、
オブジェクト領域の検出結果に基づいてオブジェクトの存在尤度マップを計算する手段と、
各画素の統計情報を計算する統計情報計算手段と、
前記統計情報および背景差分閾値に基づく背景差分法により前景領域をオブジェクトとして抽出する背景差分計算手段とを具備し、
前記統計情報計算手段は、各画素の過去の統計情報に今回の画素値を所定の更新率で反映することで今回の統計情報を求め、
前記更新率を前記存在尤度マップに基づいて決定する更新率決定手段と、
前記背景差分閾値を前記存在尤度マップに基づいて計算する閾値計算手段とをさらに具備し、
前記閾値計算手段は、前記オブジェクト領域の検出結果と背景差分計算手段の計算結果との一致比率に基づいて背景差分閾値を動的に変更することを特徴とするオブジェクト抽出装置。
動画の映像からオブジェクトを抽出するオブジェクト抽出装置において、
映像を取得する手段と、
取得した映像からオブジェクト領域を検出する手段と、
オブジェクト領域の検出結果に基づいてオブジェクトの存在尤度マップを計算する手段と、
各画素の統計情報を計算する統計情報計算手段と、
前記統計情報および背景差分閾値に基づく背景差分法により前景領域をオブジェクトとして抽出する背景差分計算手段とを具備し、
前記統計情報計算手段は、各画素の過去の統計情報に今回の画素値を所定の更新率で反映することで今回の統計情報を求め、
前記更新率を前記存在尤度マップに基づいて決定する更新率決定手段をさらに具備し、
前記存在尤度マップを計算する手段は、オブジェクト領域の今回の検出結果に前回までの検出結果を所定の学習率で重み付けして今回の存在尤度マップを計算することを特徴とするオブジェクト抽出装置。
前記更新率決定手段は、オブジェクトの存在尤度が高い画素ほど更新率を低くすることを特徴とする請求項１または２に記載のオブジェクト抽出装置。
前記背景差分閾値を前記存在尤度マップに基づいて計算する閾値計算手段をさらに具備したことを特徴とする請求項２に記載のオブジェクト抽出装置。
前記閾値計算手段は、オブジェクトの存在尤度が高い画素ほど背景差分閾値を低くすることを特徴とする請求項４に記載のオブジェクト抽出装置。
前記存在尤度マップを計算する手段は、オブジェクト領域の今回の検出結果に前回までの検出結果を所定の学習率で重み付けして今回の存在尤度マップを計算することを特徴とする請求項１に記載のオブジェクト抽出装置。
前記オブジェクト領域を検出する手段は、複数の異なる検出方式でオブジェクト領域をそれぞれ検出し、各検出結果を一つに統合することを特徴とする請求項１ないし６のいずれかに記載のオブジェクト抽出装置。
前記抽出したオブジェクトを存在尤度マップに基づいて高精度化する後処理手段を更に具備したことを特徴とする請求項１ないし７のいずれかに記載のオブジェクト抽出装置。
前記後処理手段が、存在尤度マップの平均値が所定のノイズ閾値を下回る前景領域を背景領域とみなすノイズ除去手段を具備したことを特徴とする請求項８に記載のオブジェクト抽出装置。
前記ノイズ閾値は、前景領域のサイズが大きいほど低くされることを特徴とする請求項９に記載のオブジェクト抽出装置。
前記後処理手段が、存在尤度マップの平均値が所定の穴埋め閾値を上回る背景領域を前景領域とみなす欠損穴埋め手段を具備したことを特徴とする請求項８ないし１０のいずれかに記載のオブジェクト抽出装置。
前記存在尤度マップを計算する手段は、抽出対象のオブジェクトごとに存在尤度マップを計算することを特徴とする請求項１ないし１１のいずれかに記載のオブジェクト抽出装置。
前記背景差分閾値および更新率が存在尤度マップごとに決定されることを特徴とする請求項１２に記載のオブジェクト抽出装置。
前記オブジェクトの抽出結果および存在尤度マップに基づいて前記更新率を見直す更新率見直し手段を更に具備したことを特徴とする請求項１ないし１３のいずれかに記載のオブジェクト抽出装置。
前記更新率見直し手段は、前記存在尤度マップに基づいて決定される更新率を、前景領域では背景領域よりも低くすることを特徴とする請求項１４に記載のオブジェクト抽出装置。
前記統計情報計算手段が、画素値の履歴に基づいて平均値および標準偏差を算出する手段を具備したことを特徴とする請求項１ないし１５のいずれかに記載のオブジェクト抽出装置。
前記背景差分計算手段は、背景領域を前記統計情報に基づいて単一のガウス分布でモデル化することを特徴とする請求項１ないし１６のいずれかに記載のオブジェクト抽出装置。
動画の映像からオブジェクトを抽出するオブジェクト抽出方法において、
映像を取得してオブジェクト領域を検出する手順と、
オブジェクト領域の検出結果に基づいてオブジェクトの存在尤度マップを計算する手順と、
各画素の統計情報を計算する手順と、
前記統計情報および背景差分閾値に基づく背景差分法により前景領域をオブジェクトとして抽出する手順とを含み、
前記画素の統計情報を計算する手順では、各画素の過去の統計情報に今回の画素値を所定の更新率で反映することで今回の統計情報を求め、前記更新率を前記存在尤度マップに基づいて決定し、
前記背景差分閾値を前記存在尤度マップに基づいて計算し、
前記背景差分閾値を、前記オブジェクト領域の検出結果と背景差分計算手段の計算結果との一致比率に基づいて動的に変更することを特徴とするオブジェクト抽出方法。
動画の映像からオブジェクトを抽出するオブジェクト抽出方法において、
映像を取得してオブジェクト領域を検出する手順と、
オブジェクト領域の検出結果に基づいてオブジェクトの存在尤度マップを計算する手順と、
各画素の統計情報を計算する手順と、
前記統計情報および背景差分閾値に基づく背景差分法により前景領域をオブジェクトとして抽出する手順とを含み、前記画素の統計情報を計算する手順では、各画素の過去の統計情報に今回の画素値を所定の更新率で反映することで今回の統計情報を求め、前記更新率を前記存在尤度マップに基づいて決定し、
オブジェクト領域の今回の検出結果に前回までの検出結果を所定の学習率で重み付けして今回の存在尤度マップを計算することを特徴とするオブジェクト抽出方法。