JP2020160812A - 領域抽出装置及びプログラム - Google Patents

領域抽出装置及びプログラム Download PDF

Info

Publication number
JP2020160812A
JP2020160812A JP2019059632A JP2019059632A JP2020160812A JP 2020160812 A JP2020160812 A JP 2020160812A JP 2019059632 A JP2019059632 A JP 2019059632A JP 2019059632 A JP2019059632 A JP 2019059632A JP 2020160812 A JP2020160812 A JP 2020160812A
Authority
JP
Japan
Prior art keywords
viewpoint
foreground mask
foreground
image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019059632A
Other languages
English (en)
Other versions
JP7063837B2 (ja
Inventor
軍 陳
Gun Chin
軍 陳
内藤 整
Hitoshi Naito
整 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2019059632A priority Critical patent/JP7063837B2/ja
Publication of JP2020160812A publication Critical patent/JP2020160812A/ja
Application granted granted Critical
Publication of JP7063837B2 publication Critical patent/JP7063837B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】多視点画像に対して、オクルージョンがあっても適切に物体の領域を検出することのできる領域抽出装置を提供する。【解決手段】多視点画像の各視点の画像に領域分割を適用して各視点の第1前景マスクを得る分割部1と、前記各視点の第1前景マスクに交差判定を緩和した視体積交差法を適用して3次元モデルを得る逆投影部2と、前記3次元モデルを前記多視点画像の各視点の画像平面に投影して各視点の第2前景マスクを得る投影部3と、前記各視点の第2前景マスクより前景への距離マップを算出する算出部4と、前記各視点の第2前景マスクに対して、前記距離マップを考慮した背景差分法を適用して前景抽出することにより、前記多視点画像からの領域抽出結果としての、各視点の第3前景マスクを得る改良部5と、を備える。【選択図】図1

Description

本発明は、多視点画像に対して、オクルージョンがあっても適切に物体の領域を検出することのできる領域抽出装置及びプログラムに関する。
被写体輪郭(シルエット)とは、画像に写っている人物、動物、あるいはその他一般の対象物の領域を2値マスク画像として抽出したものであり、シルエット境界が写っている対象の境界に該当するものとなる。輪郭抽出技術においては、前景/背景の分離を行うことで、画像内の対象物を背景から分離する。輪郭抽出技術は大きく、深層学習を用いるものと、背景をモデル化するものと、の2タイプに分類することができる。
深層学習手法として、非特許文献1のMask R-CNN(マスクR-CNN)では、インスタンス分離、すなわち、画像内の物体マスクを検出して且つ各物体マスクの識別結果を与えること、の一般的なフレームワークが提供される。このマスクR-CNNはさらに一般化して、人物のポーズ推定、矩形囲み枠(bounding box)での物体検出、あるいはキーポイント検出といった他のタスクにおいて利用することも可能である。
背景モデル化手法においては、背景を統計処理によって数学モデル化し、小範囲でのピクセル値の分布からモデル分布のパラメータ推定を行う。非特許文献2では、背景でのピクセル値の分布が、特定値(平均値)の周りに小さい振幅(分散)を有して分布する正規分布に従うものとの仮定を利用している。
He, K., Gkioxari, G., Dollar, P., & Girshick, R. (2017, October). Mask r-cnn. In Computer Vision (ICCV), 2017 IEEE International Conference on (pp. 2980-2988). IEEE. 寺林賢司,梅田和昇,モロアレッサンドロ,"人物追跡情報を用いた背景差分のリアルタイム適応閾値処理" ,電気学会一般産業研究会資料, GID-09-17, pp.89-90(2009). Laurentini A. The visual hull concept for silhouette-based image understanding. IEEE Transactions on pattern analysis and machine intelligence, 1994, 16(2): 150-162. Lorensen, William E., and Harvey E. Cline. "Marching cubes: A high resolution 3D surface construction algorithm." ACM siggraph computer graphics. Vol. 21. No. 4. ACM, 1987.
しかしながら、上記の従来技術の輪郭抽出には以下のような課題があった。
非特許文献1のマスクR-CNNは、ノイズや対象物同士が混み合っている状況に対してロバストであるが、マスク形状を精密なものとして得ることはできず、粗い形状のマスクしか得ることができなかった。この粗い形状のマスクは、多視点映像において輪郭マスクを用いて対象物の3Dモデルを生成する自由視点映像技術に適用するには、不適切なものであった。さらに、マスクR-CNNはオクルージョン(遮蔽)に弱く、一般にオクルージョンが発生している物体を正しく分離することができなかった。
非特許文献2の背景モデル化手法は、光源が適切に制御されている環境下においては適切に機能するものの、屋外などの光源環境が動的に変化する環境においては、充分な精度を得ることができなかった。さらに、対象物の影の領域がある場合について、対象物と共に移動するものであるため、正しく検出することができなかった。
上記従来技術の課題に鑑み、本発明は、多視点画像に関して、オクルージョンがあっても適切に物体の領域を検出することのできる領域抽出装置及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明は、領域抽出装置であって、多視点画像の各視点の画像に領域分割を適用して各視点の第1前景マスクを得る分割部と、前記各視点の第1前景マスクに交差判定を緩和した視体積交差法を適用して3次元モデルを得る逆投影部と、前記3次元モデルを前記多視点画像の各視点の画像平面に投影して各視点の第2前景マスクを得る投影部と、前記各視点の第2前景マスクより前景への距離マップを算出する算出部と、前記各視点の第2前景マスクに対して、前記距離マップを考慮した背景差分法を適用して前景抽出することにより、前記多視点画像からの領域抽出結果としての、各視点の第3前景マスクを得る改良部と、を備えることを特徴とする。また、コンピュータを前記領域抽出装置として機能させるプログラムであることを特徴とする。
本発明によれば、交差判定を緩和した視体積交差法と、距離マップを考慮した背景差分法との利用により、オクルージョンがあっても適切に物体の領域を検出することができる。
一実施形態に係る領域抽出装置の機能ブロックである。 一実施形態に係る映像を対象としての領域抽出装置の動作のフローチャートである。 映像上の任意の時刻の多視点画像に対する、一実施形態に係る領域抽出装置の動作のフローチャートである。 多視点映像を得るカメラ配置の模式例を示す図である。 分割部による粗な前景マスクとしての領域抽出の模式例を示すための図である。 既存手法の視体積交差法と本実施形態における緩和条件下での視体積交差法との結果を対比で示すものである。 背景差分法のための背景画像の模式例として、図5の画像に対して用意しておく背景画像を示す図である。 今回の前景マスクと前回の前景マスクの例に対する排他的論理和(XOR)の模式例を示す図である。 領域抽出装置の処理データの模式例を示す図である。 一般的なコンピュータ装置におけるハードウェア構成を示す図である。
図1は、一実施形態に係る領域抽出装置10の機能ブロックである。領域抽出装置10は、分割部1、逆投影部2、投影部3、算出部4、改良部5及び予測部6を備える。
図2は、一実施形態に係る映像を対象としての領域抽出装置10の動作のフローチャートである。領域抽出装置10は多視点映像を読み込み、その各時刻tのフレーム画像としての多視点画像について領域抽出を行うことが可能なものであり、図2はこのように映像の各時刻フレームを処理するフローを表している。以下、図2の各ステップを説明する。
現時刻tを多視点映像の初期時刻t=1として図2のフローを開始すると、ステップS10では、多視点映像より現時刻tのフレーム画像としての多視点画像を領域抽出装置10が入力として読み込み、且つ、直前時刻t-1に予測された現時刻tのパラメータ(改良部5で背景差分法を適用するための統計パラメータ)を取得してから、ステップS11へと進む。
ステップS11では、領域抽出装置10が分割部1、逆投影部2、投影部3、算出部4及び改良部5において詳細を後述する処理を行うことにより、改良部5より現時刻tの多視点画像の前景マスクを出力してから、ステップS12へと進む。
ステップS12では、直前のステップS11で改良部5の出力結果等を用いて予測部6が次の時刻t+1でのパラメータ(背景差分法の統計パラメータ)を予測してから、ステップS13へと進む。ステップS13では現時刻tを次の時刻t+1へと更新してから、ステップS10へ戻り、以上と同様に多視点映像の各時刻tに関して図2のフローが繰り返される。
ステップS10で取得される直前時刻t-1に予測された現時刻tのパラメータとは、そのステップS10に至る直前のステップS12(時刻t-1)において予測部6で予測されたパラメータとなる。t=1(初期時刻)の場合は、予測部6の説明において後述するように、背景差分法を適用するための所定の背景画像より予め算出しておくパラメータを利用すればよい。
図2のステップS10〜S12に示されるように、領域抽出装置10においては多視点映像の各時刻tのフレームとしての多視点画像に対して共通の処理を行う。図3は、この共通の処理、すなわち映像上の任意の時刻tの多視点画像に対する、一実施形態に係る領域抽出装置10の動作のフローチャートである。
以下、図3の各ステップを説明しながら、領域抽出装置10の各機能部の処理内容の詳細に関して説明する。
(0)入力データとしての多視点映像に関して
領域抽出装置10への入力データとしての多視点映像は、共通のシーンを異なるカメラ視点で配置された複数(少なくとも2つ)のカメラで撮影して得られるものである。図4は、多視点映像を得るカメラ配置の模式例として、10台のカメラC1〜C10が共通のフィールドF(例えばスポーツが行われるフィールドF)を取り囲んで撮影している状況を示す図である。多視点映像の各カメラの映像においては時刻同期を行っておくものとする。また、各カメラに関してはそれぞれ独立にカメラキャリブレーションを行っておき、カメラパラメータを求めておくものとする。
図1中に線L1及びL2として示されるように、入力データとしての多視点映像における各時刻の多視点画像は、領域抽出装置10の分割部1及び改良部5へと入力される。
(1)ステップS1…分割部1が疎な前景マスクを得る
ステップS1では、入力される現時刻tの多視点画像の各カメラ視点の画像に対して、分割部1が領域分割を行うことにより、粗な状態の前景マスクを得て、この前景マスクを逆投影部2へと出力してから、ステップS2へと進む。
分割部1では具体的に、前掲の非特許文献1の深層学習(畳込ニューラルネットワーク)ベースのマスクR-CNNを利用することにより、粗な状態の前景マスクを得ることができる。(なお、マスクR-CNNは影があってもロバストに検出可能なことが知られている。)学習データとしては例えばCOCOデータセットを用いて、ネットワークのパラメータを学習するようにすればよい。この学習データでは20種類以上の物体を検出可能であるが、本実施形態においては、これら全てを検出するのではなく、入力される多視点画像(映像)において前景として抽出するものとして予め設定しておく、所定種類の対象のみを前景マスクとして抽出するようにしてよい。例えば、多視点映像はスポーツ映像としてのバレーボールの映像である場合に、選手とボールのみを抽出対象としてもよい。以下においても、説明例としてはバレーボール映像において選手及びボールを抽出する場合を用いることとする。
図5は分割部1による粗な前景マスクとしての領域抽出の模式例であり、あるカメラ視点の画像PにおいてフィールドFに選手PLが存在し、バレーボールネットの水平帯Bによって選手PLが遮蔽されてオクルージョンが発生している場合に、データDとして示すように、選手PLが領域R1及びR2のように分断された領域として検出されてしまうことを示している。なお、図5に示す箇所BNについては、後述の改良部5の説明の際に参照するものである。
分割部1においてはマスクR-CNNにより前景マスクを抽出するに際して、抽出される対象種別に応じた領域サイズ閾値より大きいもののみを選別して抽出結果とするようにしてもよい。例えば、選手として検出される領域は第1閾値TH1よりも大きいもののみとし、ボールとして検出される領域は第2閾値TH2よりも大きいもののみとし、閾値条件を満たさないものは抽出結果に含めないようにしてよい。閾値は縦幅、横幅、領域画素数それぞれについて設けてもよいし、いずれか一部のみについて設けてもよい。
(2)ステップS2…緩和条件の下で逆投影部2が前景マスクを逆投影して3Dモデルを得る
ステップS2では、逆投影部2が多視点画像の各視点における前景マスクをフィールドF(実空間)の3次元空間内へと逆投影し、視体積交差法を適用することにより、対象物の3Dモデルを得てこの3Dモデルを投影部3へと出力してから、ステップS3へと進む。
ここで、既存手法としての視体積交差法は前掲の非特許文献3等に開示される通りのものであり、以下の式(1)で表される。すなわち、前景マスクにおける識別された対象物の領域の視体積(Visual Cone)を、各カメラ視点に関して積集合を取ることで、対象物の3Dモデルを得ることができる。
ここで、Iは各カメラのマスクの全体のID集合であり、i∈Iはi番目のカメラマスクのIDであり、Viはi番目のカメラマスク(前景)が形成する視体積(Visual Cone)である。i番目のカメラのカメラパラメータを用いて透視投影行列(カメラ行列)を計算することで、前景マスク上にある画像座標(u,v)に対応する空間座標(x,y,z)(カメラ視点から画素位置(u,v)を通って延びる光線上の空間座標(x,y,z))を求めることにより、この視体積Viを求めることができる。式(1)の積集合は3次元空間内に設定したボクセルにおいて求め、空間内のボクセル点群(point of cloud)としてカメラマスク集合Iでの積集合VK(I)を求めた後、さらに前掲の非特許文献4のマーチングキューブ法(marching cubes algorithm)を適用することで、3次元空間内のポリゴンメッシュモデルとして、視体積を得ることができる。
本実施形態においても、逆投影部2は視体積交差法及びポリゴンメッシュ化を行うことで3Dモデルを得るが、この際、既存手法の視体積交差法(及びポリゴンメッシュ化)をそのまま適用するのではなく、緩和条件の下で視体積交差法を適用する。すなわち、既存手法の式(1)ではカメラマスク集合I内の全てのカメラ視点の画像の前景マスクにおいて積集合を求めたのに対して、本実施形態においては、例えば以下の式(1')のように交差判定を緩和する。すなわち、カメラマスク集合Iのカメラ視点の個数がN個であったとする場合に、その全部(N個)ではなく、一定割合r(0<r<1)のr*N個以上の対応するカメラ視点の視体積Viが通過するような空間領域を、緩和された積集合VK(I)として採用する。式(1')において、S(I)はカメラマスク集合Iの部分集合であって、要素数がr*Nとなるものである。
図6は、既存手法の視体積交差法と本実施形態における緩和条件下での視体積交差法との結果を対比で示すものである。上段側が既存手法であり、図4のように10個のカメラがある場合に10個の視体積が全て通過することによる結果R3としてその結果が示され、一部が結果R30として右側に拡大されている。結果R30においては、図5のデータDとして示したようなオクルージョンで分断された選手領域があったことにより、得られる3Dモデルの選手PL3も分断された状態となっていることを見て取ることができる。一方、下段側が対比例として本実施形態における緩和条件下(例えば、10個のうち少なくとも8個の視体積が通過すればよい条件)での結果R4及びその一部の拡大結果R40であり、既存手法では分断されてしまった選手が選手PL4として分断されることなく3Dモデルが得られている。
なお、ステップS2において逆投影部2が緩和条件下で3Dモデルを求めるために利用する前景マスクは、直前のステップにおいて得られるものである。直前のステップがステップS1であった場合(ステップS1からステップS2に至った際のステップS2である場合)、直前ステップS1で分割部1が出力した粗な前景マスクを逆投影部2の入力データとして利用する。一方、直前のステップが後述するステップS7であった場合(ステップS7からステップS2に戻った際のステップS2である場合)、直前ステップS7で改良部5が出力した前景マスク(図1中に線L3として示される、後述する「途中版」の前景マスク)を逆投影部2の入力データとして利用する。
(3)ステップS3…投影部3が3Dモデルを多視点画像の各画像へと投影して前景マスクを得る
ステップS3では、投影部3が、直前のステップS2において逆投影部2で得られた3Dモデルを多視点画像の各画像平面へと投影することで各視点での前景マスクを得て、この前景マスクを算出部4及び改良部5へと出力してから、ステップS4へと進む。この出力の流れは図1中にそれぞれ線L3及びL4として示される通りである。
逆投影部2においてはポリゴンメッシュモデルとして3Dモデルを得ているので、その各ポリゴン要素(三角形などの平面要素)に対して、逆投影部2でも利用した透視投影行列の関係を用いることにより、投影部3において多視点画像の各視点の画像へ投影(3Dモデルの空間座標(x,y,z)から対応する画像座標(u,v)を得る投影)を行い、投影結果としての前景マスクを得ることができる。
ここで、逆投影部2においては図6で模式例を示したように緩和条件下で3Dモデルを求めているため、この3Dモデルを投影部3において投影して得られる前景マスクは、図5で例示したような同一対象のオクルージョンによる分断(選手PLの領域R1,R2への分断)が解消ないし緩和されていることが想定されるものとなる。
なお、3Dモデルにおけるポリゴンメッシュの各ポリゴン(面要素)には、ポリゴンを一周して囲む辺に回る際の向き(面要素を3Dモデル上の表向きで見た際の回る向き)を定義しておき、3D上での面要素を回る向きが対応する投影後の2D(2次元画像)上でも同じ回る向きとなっているもの(対応する視点の画像において表向きとなるポリゴン)のみを、ポリゴン要素としての投影対象としてもよい。これにより、3Dモデル上で裏側となっており見えない箇所(対応する視点の画像において投影不要な箇所)を投影することを省略してよい。
(4)ステップS4…算出部4が前景マスクを用いて距離マップを算出する
ステップS4では、直前のステップS3で投影部3より得られた前景マスクを用いて算出部4が距離マップを算出し、この距離マップを改良部5へと出力してからステップS5へと進む。
この距離マップは、多視点画像の各視点の画像平面の画素位置(u,v)において、投影部3から得られた前景マスクに属する点への最短距離d(u,v)のマップとして求めることができる。位置(u,v)が前景に属する場合、d(u,v)=0とすればよい。
(5)ステップS5…改良部5が距離マップを用いて前景マスクを改良する
ステップS5では、直前のステップS4において算出部4より得られた距離マップを利用した可変閾値(画素位置ごとに変化しうる閾値)での背景差分法を適用することにより、直前のステップS3において投影部3から得られた前景マスク内からこの背景差分法によって前景と判定される領域のみを抽出することで、改良された前景マスクを得てから、ステップS6へと進む。
すなわち、改良部5は、投影部3で投影により得た前景マスクにおける前景領域に対して、背景差分法によって画素情報から背景と判定される部分をいわば、「削り取る」ことにより前景領域から除外して、改良された前景マスクを得るものである。従って、以下の包含関係が成立する。(なお、包含関係「⊂」は等しい場合も含むものである。)
改良部5で得る前景マスク⊂投影部3で得る前景マスク
ここで、背景差分法を適用するためには画素情報が必要であるため、改良部5は図1中に線L2で示されるように、入力される多視点画像を参照してこの画素情報を取得する。
改良部5にて適用する背景差分法は、以下の式(2),(3)による前景・背景の判定を行うものとすることができる。
式(2)は、多視点映像の現時刻tにおけるある視点画像において、画素p=(u,v)(投影部3で得た前景マスク内の各画素)を前景として残すか、背景として削除するかを判定する式であり、Mt,p=0となるような画素pは背景とし、Mt,p=1となるような画素pは前景とする。(この定義のもとでMt,pが改良部5が得る前景マスクとなる。)It,pはこの位置pでの画素値であり、線L2に示される通り当初の多視点画像(時刻tのフレーム)を参照してこの値を取得することができる。
μt,p及びo't,pは、多視点映像の現時刻tの対象としている視点画像における画素位置pでの背景画素分布(ガウシアンモデル)における平均及び標準偏差である。初期時刻t=1に関しては、これら平均及び標準偏差は事前知識として所定のモデル背景画像に対して計算しておくことで求めておき、以降の時刻t≧2での値に関しては、後述するステップS9での予測部6によって予測される値を利用するようにすればよい。
Dist,pは、多視点映像の現時刻tの対象としている視点画像における画素位置pでの、算出部4で得た距離マップの値である。本実施形態においては特に、通常の背景差分法とは異なり、距離マップDist,pに応じた関数値f(Dist,p)を利用して閾値判定(距離マップDist,pに基づく可変閾値判定)を行うようにしている。関数fとしては例えば式(3)で示されるように、k>0となる定数によって距離マップDist,pに比例する関数を利用することで、距離が大きいほど背景と判定される画素値範囲を大きくすることで、算出部4で得た距離マップ(投影部3での前景マスクの情報が反映されている)に即した適切な前景抽出が可能となる。距離Dist,pの関数fに関しては式(3)以外にも、値が非負となるその他の増加関数(非減少関数)を用いるようにしてよい。
背景差分法を適用するための、初期時刻t=1での画素分布モデル(ガウシアン分布モデル)の平均及び標準偏差を求めるための事前知識としてのモデル背景画像は、多視点映像において前景として抽出する対象以外のものを背景画像としたものとして用意しておけばよい。この際、前景として抽出する対象ではないが、前景に対してオクルージョンを発生させうる対象についても、背景画像には含めないようにすればよい。
例えば、多視点映像に対して、図5の画像Pのように選手PL(や不図示のボール)を前景として抽出する場合は、図5に示される水平帯Bを含むバレーボールネットに関しては、前景として抽出する対象以外のものであり且つオクルージョンの原因となるものであり、背景画像には含めないようにすることで、図7に模式的に示されるような背景BG(オクルージョンを発生させるバレーボールネット等を含まないフィールドFのみで構成される背景BG)を予め用意しておけばよい。
本実施形態においては式(2),(3)の判定による背景差分法を適用することで、抽出対象として設定されている選手PLにオクルージョンが発生していたとしても、オクルージョンを発生させている選手PLに重複しているような水平帯Bの部分的箇所のみが結果的に前景として抽出されることで、選手PLのオクルージョンが解消することとなる。すなわち、図5に示されるような水平帯Bを含むバレーボールネットに関しては、通常の背景差分法では全て前景として抽出されることとなるが、本実施形態においては式(2),(3)の判定により、抽出を所望する選手PLの付近のオクルージョンを発生している箇所(図5における点線楕円で囲まれるような選手PLの近傍箇所BN)のみが選手PLと共に前景として抽出され、結果としてオクルージョンを解消した選手Pの抽出が可能となる。
(6)ステップS6…改良部5で得た改良された前景マスクの収束判定
ステップS6では、改良部5が、自身が直前のステップS5で得た前景マスクに関して、収束しているか否かを判定する。具体的には、直前のステップS5で得た前景マスクをn回目(図3のステップS7からステップS2に戻ることによるループ処理構造でのn回目)の前景マスクFG(n)とすると、前回の前景マスクFG(n-1)との相違をこれらの排他的論理和(XOR)の集合XOR(FG(n),FG(n-1))のピクセル数|XOR(FG(n),FG(n-1))|として評価し、このピクセル数が所定閾値未満であれば収束したものとしてステップS8へと進み、所定閾値以上であれば収束していないものとして、ステップS7へと進む。
図8に、今回の前景マスクFG(n)と前回の前景マスクFG(n-1)の例に対する排他的論理和(XOR)の模式例を示す。
なお、図3のループ処理の回数n=1(初回)の場合、すなわち、現時刻tの多視点画像に関して、初めてこのステップS6へ至った際は、比較対象としての前回の前景マスクFG(1-1)=FG(0)は、ステップS3で投影部3が出力した前景マスクとすればよい。
あるいは、別の実施形態として、図3のループ処理の回数n=1(初回)の場合、ステップS6では必ず否定判定を行い、必ずステップS7へと進むようにしてもよい。
また、図3のループ処理の回数nがn≧2の場合は、このステップS6の直前のステップS5(ループ処理n回目)での改良部5の出力を今回(n回目)の前景マスクFG(n)とし、その前のループ処理n-1回目でのステップS5での改良部5の出力を前回(n-1)回目の前景マスクFG(n-1)とすればよい。
(7)ステップS7
ステップS7では、直前のステップS6にて収束判定が得られなかったことから、図1中に線L5として示すように、改良部5が今回の前景マスクFG(n)を最終版ではなく途中版であるものとして逆投影部2へと出力してから、ステップS2へと戻る。
(8)ステップS8
ステップS8では、直前のステップS6にて収束判定が得られたことから、図1中に線L6として示すように、改良部5が今回の前景マスクFG(n)を最終版(多視点映像の現時刻tのフレーム画像における最終的な前景抽出結果に該当するもの)として出力してから、ステップS9へと進む。
(9)ステップS9…予測部6において次時刻t+1での背景差分法のパラメータを予測
ステップS9では、線L7として示すように改良部5が現時刻tの最終結果を得た旨の通知を受けたうえで、予測部7が、次の時刻t+1で改良部5が背景差分法を適用するためのパラメータ(平均及び標準偏差)を予測して改良部5へと出力したうえで、図3のフローは終了する。なお、図3のステップS9は、図2ではステップS12に相当するものである。
予測部7では具体的に、背景差分法のパラメータを映像時系列上で更新する任意の既存手法によってパラメータ更新を行ってよく、例えば以下の式(4),(5)により更新してよい。ltは、重みづけ和による更新のための所定の重みであり、0<lt<1の範囲で設定すればよい。なお、以下の式(4),(5)により現時刻tで背景とされた箇所のパラメータを更新し、前景とされた箇所はそれより前の時刻で背景とされていた際の背景パラメータをそのまま引き継ぐようにすればよい。
図9は、領域抽出装置10の処理データの模式例を示す図である。図9では、データD1,D2,D3,D4と分けて、ある共通の視点の共通時刻での画像(バレーボールの試合の画像で選手とボールを検出対象とするもの)に対する処理結果(図3のループ処理での共通のn回目の処理結果)として、それぞれ、分割部1で得る前景マスクと、投影部3で得る前景マスクと、算出部4で得る距離マップと、改良部5で得る前景マスクと、を示している。また、データD1,D2,D3,D4の左側には、データD1,D2,D3,D4の左上領域の様子を拡大したものとして、データD10,D20,D30,D40が示されている。
データD10に見られる選手領域のオクルージョンによる欠損が、データD20では修復された状態であり、さらにデータD40においては、データD20において存在していた余分な背景が消えている状態であることを確認できる。
以上、本発明の一実施形態によれば、交差判定を緩和した視体積交差法と、距離マップを考慮した背景差分法との利用により、オクルージョンがあっても適切に物体の領域を検出することができる。以下、補足事項を説明する。
(1)図3のループ処理は行わないようにしてもよい。すなわち、ステップS6を省略してステップS5から直ちにステップS8へと進み、改良部5での一回目の出力を最終結果としてもよい。
(2)図10は、一般的なコンピュータ装置70におけるハードウェア構成を示す図であり、領域抽出装置10はこのような構成を有する1台以上のコンピュータ装置70として実現可能である。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサ72(GPU(グラフィック演算装置)や深層学習専用プロセッサ等)、CPU71や専用プロセッサ72にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、カメラ77、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース78と、これらの間でデータを授受するためのバスBと、を備える。
領域抽出装置10の各部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又は専用プロセッサ72によって実現することができる。ここで、撮影関連の処理が行われる場合にはさらに、カメラ77が連動して動作し、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。
例えば、入力される多視点映像は、通信インタフェース75を介してネットワーク上から取得してもよい。改良部5で得た最終結果をディスプレイ76において表示するようにしてもよい。2台以上のコンピュータ装置70によって領域抽出装置10がシステムとして実現される場合、ネットワーク経由で各処理に必要な情報を送受信するようにすればよい。
10…領域抽出装置、1…分割部、2…逆投影部、3…投影部、4…算出部、5…改良部

Claims (9)

  1. 多視点画像の各視点の画像に領域分割を適用して各視点の第1前景マスクを得る分割部と、
    前記各視点の第1前景マスクに交差判定を緩和した視体積交差法を適用して3次元モデルを得る逆投影部と、
    前記3次元モデルを前記多視点画像の各視点の画像平面に投影して各視点の第2前景マスクを得る投影部と、
    前記各視点の第2前景マスクより前景への距離マップを算出する算出部と、
    前記各視点の第2前景マスクに対して、前記距離マップを考慮した背景差分法を適用して前景抽出することにより、前記多視点画像からの領域抽出結果としての、各視点の第3前景マスクを得る改良部と、を備えることを特徴とする領域抽出装置。
  2. 前記分割部では、予め学習された畳込ニューラルネットワークを用いて、領域種別の識別を含めて領域分割を行うことを特徴とする請求項1に記載の領域抽出装置。
  3. 前記分割部では、前記識別された領域種別が特定のもののみを前景として、前記第1前景マスクを得ることを特徴とする請求項2に記載の領域抽出装置。
  4. 前記逆投影部では、前記多視点画像の全視点のうち少なくとも所定数の視点の第1前景マスクにおいて交差判定が得られる領域として、前記3次元モデルを得ることを特徴とする請求項1ないし3のいずれかに記載の領域抽出装置。
  5. 前記算出部では、各画素位置において第2前景マスクにおける前景への最短距離を与えたものとして前記距離マップを算出することを特徴とする請求項1ないし4のいずれかに記載の領域抽出装置。
  6. 前記改良部では、背景差分法を適用することで、各画素位置において、予め定義されている背景モデルからの画素値の相違が所定範囲内にあると判定される場合に背景として判定し、
    当該判定において、当該画素位置における前記距離マップの距離の値が大きいほど、前記判定するための所定範囲が広いことを特徴とする請求項1ないし5のいずれかに記載の領域抽出装置。
  7. 前記逆投影部、投影部、算出部及び改良部は、この順番で各回の繰り返し処理を行い、繰り返し処理における今回の改良部の処理で得た第3前景マスクが次回の逆投影部での視体積交差法の適用対象として用いられ、
    前記改良部は、繰り返し処理の今回において得られた第3前景マスクと前回において得られた第3前景マスクとを比較し、相違がなくなったと判定された場合に繰り返し処理を終えることを特徴とする請求項1ないし6のいずれかに記載の領域抽出装置。
  8. 前記改良部は、繰り返し処理の今回において得られた第3前景マスクと前回において得られた第3前景マスクとの排他的論理和を求めることにより、前記比較することを特徴とする請求項7に記載の領域抽出装置。
  9. コンピュータを請求項1ないし8のいずれかに記載の領域抽出装置として機能させることを特徴とするプログラム。
JP2019059632A 2019-03-27 2019-03-27 領域抽出装置及びプログラム Active JP7063837B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019059632A JP7063837B2 (ja) 2019-03-27 2019-03-27 領域抽出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019059632A JP7063837B2 (ja) 2019-03-27 2019-03-27 領域抽出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020160812A true JP2020160812A (ja) 2020-10-01
JP7063837B2 JP7063837B2 (ja) 2022-05-09

Family

ID=72643520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019059632A Active JP7063837B2 (ja) 2019-03-27 2019-03-27 領域抽出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7063837B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088982A1 (zh) * 2020-10-30 2022-05-05 京东方科技集团股份有限公司 三维场景构建方法、装置、系统和存储介质
KR102416218B1 (ko) * 2022-02-04 2022-07-05 국방과학연구소 영상 프레임에 포함된 객체에 대한 세그멘테이션을 획득하는 방법 및 장치
WO2022162877A1 (ja) * 2021-01-29 2022-08-04 日本電信電話株式会社 画像処理装置、画像処理方法、およびプログラム
WO2022185403A1 (ja) * 2021-03-02 2022-09-09 日本電信電話株式会社 画像処理装置、画像処理方法、およびプログラム
WO2023053229A1 (ja) * 2021-09-28 2023-04-06 富士通株式会社 画像処理プログラム、画像処理装置、及び画像処理方法
JP7482070B2 (ja) 2021-03-16 2024-05-13 株式会社東芝 学習方法、プログラム及び画像処理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271928A (ja) * 2002-03-13 2003-09-26 Nippon Hoso Kyokai <Nhk> 三次元モデリング装置及びその方法及びそのプログラム
JP2011113177A (ja) * 2009-11-25 2011-06-09 Kddi Corp 被写体3次元モデルを構築する方法およびプログラム
JP2018124890A (ja) * 2017-02-03 2018-08-09 日本電信電話株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JP2019047431A (ja) * 2017-09-06 2019-03-22 キヤノン株式会社 画像処理装置及びその制御方法、画像処理システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271928A (ja) * 2002-03-13 2003-09-26 Nippon Hoso Kyokai <Nhk> 三次元モデリング装置及びその方法及びそのプログラム
JP2011113177A (ja) * 2009-11-25 2011-06-09 Kddi Corp 被写体3次元モデルを構築する方法およびプログラム
JP2018124890A (ja) * 2017-02-03 2018-08-09 日本電信電話株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JP2019047431A (ja) * 2017-09-06 2019-03-22 キヤノン株式会社 画像処理装置及びその制御方法、画像処理システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HIROSHI SANKOH, 外3名: ""Robust background subtraction method based on 3D model projections with likelihood"", 2010 IEEE INTERNATIONAL WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING, JPN6022005718, 6 October 2010 (2010-10-06), pages 171 - 176, XP031830577, ISSN: 0004707551 *
山田健太郎, 外2名: ""シルエット抽出とモデル生成の相互フィードバックによるTime−Varying Meshの高精度化"", 電子情報通信学会論文誌, vol. 第J93-D巻, 第8号, JPN6022005719, 1 August 2010 (2010-08-01), JP, pages 1533 - 1543, ISSN: 0004707550 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088982A1 (zh) * 2020-10-30 2022-05-05 京东方科技集团股份有限公司 三维场景构建方法、装置、系统和存储介质
US11954813B2 (en) 2020-10-30 2024-04-09 Boe Technology Group Co., Ltd. Three-dimensional scene constructing method, apparatus and system, and storage medium
WO2022162877A1 (ja) * 2021-01-29 2022-08-04 日本電信電話株式会社 画像処理装置、画像処理方法、およびプログラム
WO2022185403A1 (ja) * 2021-03-02 2022-09-09 日本電信電話株式会社 画像処理装置、画像処理方法、およびプログラム
JP7482070B2 (ja) 2021-03-16 2024-05-13 株式会社東芝 学習方法、プログラム及び画像処理装置
WO2023053229A1 (ja) * 2021-09-28 2023-04-06 富士通株式会社 画像処理プログラム、画像処理装置、及び画像処理方法
KR102416218B1 (ko) * 2022-02-04 2022-07-05 국방과학연구소 영상 프레임에 포함된 객체에 대한 세그멘테이션을 획득하는 방법 및 장치

Also Published As

Publication number Publication date
JP7063837B2 (ja) 2022-05-09

Similar Documents

Publication Publication Date Title
JP7063837B2 (ja) 領域抽出装置及びプログラム
Tung et al. Self-supervised learning of motion capture
EP4002198A1 (en) Posture acquisition method and device, and key point coordinate positioning model training method and device
CN111428765B (zh) 一种基于全局卷积、局部深度卷积融合的目标检测方法
US10354129B2 (en) Hand gesture recognition for virtual reality and augmented reality devices
CN108292362B (zh) 用于光标控制的手势识别
Menze et al. Object scene flow for autonomous vehicles
EP2671384B1 (en) Mobile camera localization using depth maps
WO2020119661A1 (zh) 一种目标检测方法、装置以及行人检测方法、系统
JP6065427B2 (ja) オブジェクト追跡方法及びオブジェクト追跡装置
US9367920B2 (en) Method and apparatus for processing images
WO2019071976A1 (zh) 基于区域增长和眼动模型的全景图像显著性检测方法
CN110910452B (zh) 一种基于深度学习的低纹理工业零件位姿估计方法
Li et al. Photo-realistic simulation of road scene for data-driven methods in bad weather
CN105809716A (zh) 融合超像素与三维自组织背景减除法的前景提取方法
US20210407125A1 (en) Object recognition neural network for amodal center prediction
CN112102342B (zh) 平面轮廓识别方法、装置、计算机设备和存储介质
CN108960012A (zh) 特征点检测方法、装置及电子设备
Lee et al. Game engine-driven synthetic data generation for computer vision-based safety monitoring of construction workers
US11080861B2 (en) Scene segmentation using model subtraction
CN115841546A (zh) 一种场景结构关联的地铁站多视矢量仿真渲染方法及系统
JP6641313B2 (ja) 領域抽出装置及びプログラム
CN112926681B (zh) 一种基于深度卷积神经网络的目标检测方法及装置
CN114748872B (zh) 一种基于信息融合的游戏渲染更新方法
CN116091871B (zh) 一种针对目标检测模型的物理对抗样本生成方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220413

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220421

R150 Certificate of patent or registration of utility model

Ref document number: 7063837

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150