JP2020135525A

JP2020135525A - 画像処理装置及びプログラム

Info

Publication number: JP2020135525A
Application number: JP2019029364A
Authority: JP
Inventors: 敬介野中; Keisuke Nonaka
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2020-08-31
Anticipated expiration: 2039-02-21
Also published as: JP7078564B2

Abstract

【課題】被写体が遮蔽されている場合であっても適切な３次元モデルを得ることのできる画像処理装置を提供する。【解決手段】多視点画像の各画像より、被写体の領域を第１マスクとして抽出する第１抽出部1と、前記多視点画像の各画像より、前記被写体とは別の対象としての前景物体の領域を第２マスクとして抽出する第２抽出部2と、前記第２マスクにおける個別領域を識別する識別部3と、前記第１マスクに対して、前記第２マスクの前記識別された個別領域のうち、位置関係に基づいて、前記第１マスクにおいて遮蔽による欠損を発生させていると判定されるものを加算することにより、統合された第１マスクを得る統合部4と、前記多視点画像の各画像に対応する前記統合された第１マスクを用いて、前記被写体の３次元モデルを生成する生成部5と、を備える。【選択図】図２

Description

本発明は、被写体が遮蔽されている場合であっても適切な３次元モデルを得ることのできる画像処理装置及びプログラムに関する。

従来、スポーツシーンなどを対象として、カメラで撮影されていない自由な視点からの映像（以下、自由視点映像）を生成する技術が提案されている。この技術は複数のカメラで撮影された映像を基に、それらの配置されていない仮想的な視点の映像を合成し、その結果を画面上に表示することでさまざまな視点での映像観賞を可能とするものである。

ここで、自由視点映像合成技術のうち、視体積交差法と呼ばれる原理を利用して、被写体の3次元コンピュータグラフィクス（3DCG）モデルを生成することで高品質な自由視点映像を合成する既存技術が存在する（非特許文献１）。この方式では、複数のカメラから得られる被写体の概形情報を3次元空間に逆投影し、それらを膨大な数の点群データに記述し、被写体の概形を精緻に再現するものである。あらかじめ生成された被写体の3DCGモデルを入力として、仮想視点の位置を決めてディスプレイ上にレンダリングすることで、自由視点映像が生成される。この他に、点群データを介さずに仮想的な平面群を用いて視体積交差法を実現する技術が提案されている（特許文献１、２）。

以上のように、複数のカメラ映像から被写体を3DCGモデル化し、任意の視点の仮想映像を合成する発明は複数提案されており、その多くが視体積交差法の原理に則っている。

特願2017-167472号特願2018-161868号

Laurentini, A. "The Visual Hull Concept for Silhouette Based Image Understanding."IEEE PAMI, 16,2 (1994), 150-162

多様なシーンにおける被写体の3DCGモデル化を可能とする視体積交差法であるが、その適用には「原則、すべてのカメラで被写体を捉えていること」といった前提条件が存在する。すなわち、いずれかのカメラにおいて被写体が遮蔽され、カメラ映像上での被写体の認識結果の一部が欠落した場合、被写体モデルも同様に欠損し合成映像に著しい品質の劣化を引き起こす。特に、一般に広く用いられる人物抽出技術の多くは、人物が動いていることを前提としており、この劣化は被写体が静止物体によって遮蔽される場合において顕著となる。なお、被写体同士の前後関係により遮蔽された場合は、背景側の被写体の形状を前景の形状で補うことが可能である。機械学習を用いた人物抽出においても、被写体人物が人物以外の静止物体によって遮蔽される場合に、同様の問題が起こる。

この問題は、特に被写体と静止物体とのインタラクションを重要視するスポーツ映像などで顕著となる。例えば、図１にその会場の様子の模式例を示すスポーツクライミングを考えると、被写体である選手PLが壁Wを登るためにホールドHL（壁Wに固定されて壁Wから突出する構造物で、選手PLに登るための足場や取手を提供するもの）を掴んだ際に、手がホールドHLによって遮蔽されたためにモデル化されず、選手PLの手の部分が欠損しているような合成映像となることが多々ある。また、手に限らず、いずれかのカメラから撮影した際にホールドHLによって選出PLの一部が遮蔽されていると、同様に欠損した合成映像となってしまう。（なお、図１の模式例では、選手PLは壁Wに登る前の時点で地面GR上にいる状態が描かれている。）

以上のように、従来技術の視体積交差法においては、3DCGモデル化の対象となる被写体（例えば選手PL）が当該モデル化の対象以外のもの（例えばホールドHL）によって遮蔽されている場合に、適切なモデルを得ることができないという課題があった。そして、このような不適切なモデルから任意の視点の仮想映像を合成したとしても、被写体に欠損が発生しているような不適切な合成映像となってしまうこととなる。

上記の従来技術の課題に鑑み、本発明は、被写体が遮蔽されている場合であっても適切な３次元モデルを得ることのできる画像処理装置及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は、画像処理装置であって、多視点画像の各画像より、被写体の領域を第１マスクとして抽出する第１抽出部と、前記多視点画像の各画像より、前記被写体とは別の対象としての前景物体の領域を第２マスクとして抽出する第２抽出部と、前記第２マスクにおける個別領域を識別する識別部と、前記第１マスクに対して、前記第２マスクの前記識別された個別領域のうち、位置関係に基づいて、前記第１マスクにおいて遮蔽による欠損を発生させていると判定されるものを加算することにより、統合された第１マスクを得る統合部と、前記多視点画像の各画像に対応する前記統合された第１マスクを用いて、前記被写体の３次元モデルを生成する生成部と、を備えることを特徴とする。また、コンピュータを前記画像処理装置として機能させるプログラムであることを特徴とする。

本発明によれば、統合部において前記第２マスクの前記識別された個別領域のうち、位置関係に基づいて、前記第１マスクにおいて遮蔽による欠損を発生させていると判定されるものを加算することにより、統合された第１マスクを得たうえで、合成部において前記統合された第１マスクを用いて、前記被写体の３次元モデルを生成することにより、被写体が遮蔽されている場合であっても適切な３次元モデルを得ることができる。

課題となる状況が発生する映像が撮影される例として、スポーツクライミングの会場の様子の模式例を示す図である。一実施形態に係る画像処理装置の機能ブロック図である。識別部による処理の模式例を示す図である。識別部での追加処理のラベリングに関する第二実施形態の模式例を示す図である。統合部による統合処理の模式例を示す図である。画像処理装置を実現することが可能な一般的なコンピュータ装置のハードウェア構成の例を示す図である。

図２は、一実施形態に係る画像処理装置10の機能ブロック図である。図示するように、画像処理装置10は、第１抽出部1、第２抽出部2、識別部3、統合部4、生成部5、合成部6及び校正部7を備える。画像処理装置10は、その全体的な動作として、多視点映像の各時刻フレームとしての多視点画像を入力として第１抽出部1、第２抽出部2及び校正部7において受け取り、図示される各部での処理を経たうえで生成部5において遮蔽による欠損の影響を除外した3DCGモデルを作成し、このモデルを用いることで合成部6からユーザ入力等によって指定される仮想視点位置における合成画像を出力する。この合成画像は入力される多視点映像の各時刻に関して出力されることで、画像処理装置10は自由視点映像を出力することができる。

以下の説明では、多視点映像におけるある任意の１時刻のフレームを多視点画像として説明を行う。（すなわち、画像処理装置10において映像を扱う場合には、各時刻における処理は基本的には共通のものとすることができる。従って、以下の説明では特に明示的に映像や時刻に関して言及する場合を除いて、説明はこの各時刻での共通処理に関するものである。）

図２にも各機能部における入出力データ内容が示される通り、画像処理装置10の各機能部の処理の概要は次の通りである。なお、視体積交差法や自由視点画像生成の技術分野において既知のように、画像処理装置10に対する入力としての多視点画像は、同一のシーン（例えば図１のスポーツクライミングの会場）を取り囲むように配置された複数（少なくとも２つ）のカメラで撮影されて得られるものである。

第１抽出部1は、入力としての多視点画像の各視点の画像から、後段側の生成部5で3DCGモデルを生成する対象である被写体の領域を第１マスクとして抽出して、統合部4へと出力する。第２抽出部2は、入力としての多視点画像の各視点の画像から、後段側の生成部5で3DCGモデルを生成する対象以外のもの（静止物体）の領域を第２マスクとして抽出して、識別部3へと出力する。校正部7は、入力としての多視点画像を解析することでこの多視点画像を撮影しているカメラの校正データ（カメラキャリブレーションデータ）を求め、識別部3及び生成部5へと出力する。

識別部3は、第２抽出部2から得られる第２マスク（一般に１つ以上の閉領域として構成される）に対して、個別領域の識別を行うことで識別された第２マスクを得て、統合部4へと出力する。

識別部3において、一実施形態では、本来は２つ以上の異なる静止物体が撮影されているが画像領域としては１つの閉領域としてつながって構成されていることがあるという事情への対処処理として、第２マスク内の閉領域の各々に、１つの静止物体に起因する閉領域であるか、または、２つ以上の静止物体に起因する閉領域であるか、の識別を付与したものとして、この識別された第２マスクを統合部4へと出力することができる。識別部3ではこの識別処理を行うために、校正部7から得られる校正データを利用することができる。

ここで、１つの閉領域が２つ以上の静止物体に起因するものである場合、この１つの閉領域のうちどの部分がどの静止物体に起因するかの区別も付与されたうえで、識別された第２マスクが出力される。

いずれの実施形態においても、識別部3により識別された第２マスクとは、個別の静止物体ごとの個別領域が識別された状態の第２マスクである。（第２抽出部2から得られた際の第２マスクには、この識別が付与されていない。）

統合部4では、第１抽出部1から得られる第１マスクに対して、識別部3から得られる個別領域が識別された第２マスクを用いることで、第１マスクにおいて遮蔽が発生していると判定される箇所に対して、第２マスクの対応する個別領域を加算することによってこの遮蔽発生箇所を埋める処理（統合処理）を行い、この統合処理により得られる統合された第１マスクを生成部5へと出力する。（なお、判定によっては個別領域の加算が行われず、第１抽出部1から得られた第１マスクと、これを統合部4において統合した第１マスクとがデータとしては同じものとなることもありうる。）

なお、以上の第１抽出部1が出力する第１マスクと、第２抽出部2が出力する第２マスクと、識別部3が出力する識別された第２マスクと、統合部4が出力する統合された第１マスクとは、入力としての多視点画像の各カメラ視点の画像ごとにそれぞれ得られるものであり、得るための処理に関しては各機能部1,2,3,4においてそれぞれ共通である。

生成部5では、統合部4から得られた多視点画像の各カメラ視点の画像ごとの統合された第１マスクに対して視体積交差法を適用することにより、多視点画像に撮影されている被写体の3DCGモデルを生成して合成部6へと出力する。生成部5で当該生成する際には校正部7から得られる校正データを参照して利用することができる。

合成部6では、生成部5から得られた3DCGモデルを、ユーザ入力等によって指定される仮想視点位置においてレンダリングすることにより、合成画像を合成して出力する。既に説明した通り、入力される多視点映像の各時刻フレームにおいてこの合成画像を出力することで得られる合成映像は、指定された仮想視点位置における被写体の自由視点映像となる。

以下では、以上において概要の説明を行った各機能部の詳細に関して説明する。

＜校正部7＞
多視点画像には、所定の空間内平面（例えば図１の例における壁WLあるいは地面GRなど）が撮影されているものとする。校正部7では、多視点画像の各視点の画像における所定の空間内平面の特徴的な点（例えば、スポーツのコートの白線の交点など）と、撮影される現実空間上の空間内平面上の点との対応付けを行い、カメラパラメータ（外部パラメータ及び内部パラメータ）として校正データを算出する。例えば、多視点画像が一般的なスポーツ映像におけるものである場合は、コートのサイズが規格化されているため、これを事前知識（コートのフィールドモデル）として利用することにより、既存手法のコーナー検出や特徴点検出等によって検出される画像平面上の点が、この事前知識で与えられる実空間上（世界座標系）のどの座標に対応するかを容易に計算することが可能である。

校正部7におけるこのカメラキャリブレーションは、手動のほか、任意の既存手法の自動キャリブレーションを用いても行うことができる。例えば、手動の方法としては画面上の白線の交点をユーザ操作により選択し、あらかじめ測定されたフィールドモデルとの対応付けをとることで、カメラパラメータを推定できる。なお、画面に歪みがある場合は先に内部パラメータを推定しておけばよい。

入力される多視点映像が固定カメラでの撮影を前提としている場合には、校正部7におけるこのカメラキャリブレーションの処理は、映像の最初に一度のみ行えばよい。すなわち、ある時刻で得た校正データは時間変化しないものとして、それより後の時刻でも参照して利用するようにすればよい。また、移動カメラを前提とした場合は、前述の任意の既存手法による自動キャリブレーション処理により、各時刻フレームにおいてカメラパラメータを算出すればよい。

＜第１抽出部1＞
第１抽出部1では、多視点画像の各画像における被写体（動物体）の形状を0,1の2値マスク画像として表現した第１マスクを抽出する。すなわち、多視点画像の各画像の各画素位置において、値が0となる位置は背景であって被写体が存在しないことを意味し、値が1となる位置は前景であって被写体が存在することを意味する2値マスク画像として、第１マスクが抽出される。（なお、2値のいずれが前景か背景かの規則は、この逆の規則を用いてもよい。）抽出された2値マスク画像としての第１マスクは後段側の統合部4において統合された第１マスク（統合前と同じく、2値マスク画像のデータ形式で与えられる）へと加工されたうえで生成部5に入力され、被写体の3DCGモデル形状の生成に利用される。

第１抽出部1において、2値マスクとしての第１マスクを得るための手法には、例えば、既存技術である背景差分法を利用することができる。この技術では、あらかじめ被写体のいない映像またはその平均値などの統計情報を背景統計情報として登録し、背景統計情報と対象時刻のカメラ映像（すなわち、入力される多視点画像）との差分をとり、それに対してしきい値処理を行うことで被写体領域を抽出する。その他にも、機械学習を用いた人物等の抽出技術（物体認識技術）など広く既存技術を利用して、第１マスクを抽出することができる。

＜第２抽出部2＞
第２抽出部2では、第１抽出部1で第１マスクとして得る被写体マスクとは別に、多視点画像の各画像において被写体を遮蔽する前景の静止物になり得るもの（例えば、図１のスポーツクライミングのホールドHL）を前景物体としてマスクし、第２マスクを得る。第２抽出部2で第２マスクを得る処理には既存手法を利用することができ、例えば、画像を色情報などを用いて小領域に分割する領域分割技術を利用することができる。

具体的には、既存手法としての画像の領域分割を行いて得られた小領域ごとに、それらに含まれる色情報と、事前知識として与えられている前景物体の所定の色情報について、平均値や中央値等の統計情報を比較し類似の画像領域を抽出することで、第２マスクを得ることができる。

ここで、類似判定の閾値についてはユーザ設定による所定値を用いればよい。その後、前景物体と判定された領域の画素については1（前景）を、その他の領域の画素については0（背景）を割り当て、第１マスクと同じデータ形式の２値マスク画像として第２マスクを得ることができる。この際、前景物体マスクデータとしての第２マスクには、実際のシーンでは被写体の前に現れず（すなわち、被写体を遮蔽せず）、前景（視体積交差法の適用対象としての前景）にはならない領域も含まれることがありうるが、第２抽出部2では特にこれらを区別する必要はなく、第２マスクを得ることができる。なお、これらを区別した処理は後段側の統合部4において実現されることとなる。

その他、第２抽出部2での前景物体の抽出には、上記の領域分割以外にも機械学習による物体認識やセマンティックセグメンテーション、クロマキーによる抽出など広く既存技術を利用することができるが、上記の領域分割の場合の色情報のような前景物体に関する事前知識（物体認識であれば認識される物体の種別の情報など）は同様に与えておくものとする。また、本明細書では主に完全に静止している人工物体を対象とした説明例を用いるが、木などの微小な動きを伴う自然物であっても、同様に機械学習を用いたセグメンテーションなどを利用し、その形状マスクを抽出することで静止物体として扱うことができる。すなわち、第２マスクにおいて抽出される静止物体は静止していると判定できる対象であればよい。

なお、用語として、第１マスクにおいて前景をなす動きうる対象を被写体、この被写体とは別対象として、第２マスクにおいて前景をなす対象（静止物体（上記の通り微小動きを伴う場合も含む））を前景物体と称する。

＜識別部3＞
識別部3では、第２抽出部2から出力された前景物体マスクデータとしての第２マスクに対して、これらの画像座標上での閉領域ごとのID付（ラベリング）を行うことで、識別された第２マスクデータを得る。このラベリング処理については例えば領域拡張法などの既存技術を利用してよい。

本発明の一実施形態においてはこのような既存技術で画像座標上の閉領域ごとのラベリングを行ったうえでさらに、次の追加処理を行うようにしてもよい。すなわち、前景物体によっては複数の物体が連結し、画像上において１つの閉領域を共有する場合がある。この場合に対処すべく、同一閉領域（既存技術のラベリングにより同一ラベルが付与されている）内において異なる前景物体ごとにラベルを分けるための追加処理を行い、追加処理でのラベリング結果を最終的な識別された第２マスクとして統合部4に出力してよい。（あるいは、追加処理を行わず、既存技術による画像座標上の閉領域としてのラベリング結果を識別された第２マスクとして統合部4に出力してもよい。）

図３は、識別部3による処理の模式例を示す図であり、上段側には第２抽出部2から出力された識別前第２マスクF_[識別前]が、下段側にはこの識別前第２マスクF_[識別前]に対して識別部3による処理を経て識別された第２マスクFが、それぞれ示されている。識別前第２マスクF_[識別前]では黒色で示す領域が前景物体マスクとして得られているのみであって、個別領域の識別がなされていないのに対し、識別された第２マスクFでは合計で10個の個別領域F₁₀〜F₁₉の識別結果が得られている。

この図３の識別された第２マスクFは、識別部3において追加処理を行って識別した場合の例となっている。すなわち、２つの個別領域F₁₃及びF₁₄（このうち個別領域F₁₃は区別のために淡色で示す）は、識別前第２マスクF_[識別前]の状態において見て取れるように、画像座標上では単一閉領域をなす互いに接続されたものであり、既存技術のラベリングで同一ラベルが付与されたうえでさらに、追加処理によって２つの異なるラベルが付与されて識別されている。同様に、３つの個別領域F₁₇、F₁₈及びF₁₉（このうち個別領域F₁₇及びF₁₈は区別のために淡色で示す）は、識別前第２マスクF_[識別前]の状態において見て取れるように、画像座標上では単一閉領域をなす互いに接続されたものであり、既存技術のラベリングで同一ラベルが付与されたうえでさらに、追加処理によって３つの異なるラベルが付与されて識別されている。

なお、その他の個別領域F₁₀、F₁₁、F₁₂、F₁₅及びF₁₆に関しては、既存技術のラベリングで画像座標上の閉領域として同一ラベルが付与されたうえでさらに、追加処理を行ったが同一ラベルのままで変化しなかったものである。

以下、識別部3における追加処理のラベリングに関する第一実施形態と第二実施形態とを説明する。

第一実施形態では、以下の（１）〜（３）の手順で追加処理のラベリングを行うことができる。
（１）校正部7にてカメラキャリブレーションにて得られたカメラパラメータとしての校正データと、第２抽出部2によって抽出された前景物体マスクデータとしての第２マスクとを用いて、視体積交差法を行い前景物体の３次元形状を取得する。この際、多視点画像の各カメラ視点の画像の全てを用いて視体積交差法を適用すればよい。視体積交差法に関しては、後述する生成部5における視体積交差法と同様に、任意の既存手法を用いてよい。なお、ホールド等の前景物体を近距離で捉えられていない等の原因により画像の品質が悪いと判定される場合や、カメラパラメータの精度が悪いカメラ視点の画像は、視体積交差法の適用対象から除外してもよい。
（２）そして、当該取得した３次元形状に対して、既存技術により連結領域ごとのラベリングを行うことで、３次元空間内において異なる物体同士の区別を付与する。
（３）その後、当該３次元形状を各カメラ画像平面（前景物体マスクデータとしての第２マスク）上に再投影し、上記３次元空間内でのラベリングにより区別された異なる物体に属するマスク領域について異なるラベルを付与する。

以上の（１）〜（３）の手順により、ある前景物体マスクデータ（第２マスク）において複数の異なる物体のマスクが連結し１つの閉領域を共有していた場合においても、この２次元マスク画像としての前景物体マスクデータにおいて異なる物体（３次元空間内での分離を考慮することによる異なる物体）として識別された追加ラベリング結果を得ることができる。

なお、第一実施形態においては、第２マスクに対する前処理として、既存技術で閉領域ごとのラベリングを行っておくことは省略してもよい。（すなわち、第一実施形態では手順（３）で一意なラベルが得られるため、追加処理としてではなく、上記の（１）〜（３）の手順のみによってラベリング結果を得るようにしてもよい。）

第二実施形態は、多視点画像のほとんどすべてのカメラ画像上の前景物体マスクを利用する第一実施形態とは異なり、多視点画像のうち少ないカメラ台数の視点のもののみを利用してラベリングすることも可能な実施形態である。

第二実施形態では、第２抽出部2にて利用した領域分割や機械学習による認識の結果を利用することができる。具体的には、既に領域分割された小領域（あるいは認識された小領域）ごとに、その重心などの代表的な点（または領域）を3次元空間に投影する。同様の操作を2,3台のカメラに渡って行い、上記代表点の投影される光線（カメラの光学中心と代表点とを通って投影される光線）において、他の前景物体マスクの代表点の光線との距離がある閾値以下の場合、異なるカメラ画像間において同一の物体に対応している小領域であるとの識別情報を得る。この操作により、あるカメラ画像では連結しているが、他のカメラでは明らかに離れている前景物体マスクについて異なるラベルを付与し、ラベル付与前景マスクデータを出力することが可能となる。

図４は、識別部3での追加処理のラベリングに関する第二実施形態の模式例を示す図である。撮影される３次元空間内には、第２マップに前景物体として抽出される対象として、図１で説明したようなホールドが第１ホールドHL1及び第２ホールドHL2として２個存在するものとする。これらホールドHL1及びHL2をカメラC1は概ね正面から撮影することで、その画像P1（第２マップ）上においてそれぞれ閉領域R11及びR12（２つの単一の閉領域R11及びR12）と分離して得られており、その代表点がそれぞれ点p11及びp12である。

一方、これらホールドHL1及びHL2をカメラC2では非常に傾いた向きから撮影することで、その画像P2（第２マップ）上において単一の閉領域R20に連結して得られており、その代表点がp20である。この図４の例では以下の（処理１）〜（処理３）で追加処理のラベリング結果を得ることができる。

（処理１）
次の２つの閾値判定結果（ａ）及び（ｂ）を得ることで、カメラC2の単一の閉領域R20が２つの異なる前景物体を含んでいるという識別情報を得る。
（ａ）カメラC1での光線C1-p11とカメラC2での光線C2-p20との距離が予め設定される閾値th以下であることから、領域R11と領域R20（あるいはその代表点p11とp20）とが対応している、と判定する。
（ｂ）カメラC1での光線C1-p12とカメラC2での光線C2-p20との距離も同じ閾値th以下であることから、領域R12と領域R20（あるいはその代表点p12とp20）とが対応している、と判定する。
（ここで、例えば「光線C1-p11」という場合、C1はカメラC1の光学中心を表すものとし、光学中心C1及び点p11を通る直線としての光線が「光線C1-p11」であるものとする。）

従って、カメラC2の単一の閉領域R20に関して上記の（ａ）及び（ｂ）が成立していることにより、カメラC2の単一の閉領域R20は、これとは別のカメラC1において適切に分離されている２つの閉領域R11及びR12が連結されているものである、すなわち、２つの異なる前景物体としてのホールドHL1及びHL2が連結されているものである、という識別情報を得ることができる。

（処理２）
この識別情報を得た後に、２つの異なる前景物体としてのホールドHL1及びHL2に対応する代表点p21及びp22（図３の画像P2内に白丸○で示す）を、カメラC2の画像P2内の座標として求める。具体的には、ホールドHL1及びHL2の3次元空間内での代表点としての空間座標x1及びx2（図３では不図示）を求めたうえで、光線C2-x1と画像P2（エピポーラ幾何モデルで既知のように、投影面としての画像P2）との交点として第１ホールドHL1に対応する代表点p21を求め、同様に、光線C2-x2と画像P2との交点として第２ホールドHL2に対応する代表点p22を求めることができる。なお、交点として求めた代表点p21,p22が領域R20内に含まれなかった場合には、当該求めた点の近傍で領域R20に含まれる点を改めて代表点p21,p22とすればよい。

ここで、ホールドHL1及びHL2の3次元空間内での代表点としての空間座標x1及びx2は、次のように求めればよい。すなわち、図４では不図示であるが、カメラC1の画像P1以外に、さらに別のカメラC3の画像P3において閉領域R31及び閉領域R32（それぞれ代表点が点p31及びp32とする）としてホールドHL1及びHL2が分離されて得られており、画像P1との間でも光線同士の距離の閾値判定（上記の判定（ａ）、（ｂ）と同様の判定）によって対応関係が、すなわち、閉領域R11及びR31の対応関係と、閉領域R12及びR32の対応関係とが得られているものとする。これにより、エピポーラ幾何モデルにおいて既知のように、光線C1-p11及び光線C3-p31の交点として空間座標x1を求めることができ、同様に、光線C1-p12及び光線C3-p32の交点として空間座標x2を求めることができる。なお、これら光線が誤差などにより実際に完全に交わる交点が得られない場合には、光線同士が最も接近する位置の中点などを交点とすればよい。

（処理３）
そして、画像P2の単一の閉領域R20内の各画素位置に関して、例えば代表点p21及びp22との距離をそれぞれ計算し、代表点p21との距離の方が小さい場合にはその画素位置は第１ホールドHL1に対応するものとしてラベリングし、代表点p22との距離が小さい場合にはその画素位置は第２ホールドHL2に対応するものとしてラベリングすることができる。ここで、距離としては画像座標上のユークリッド距離のみを評価対象として用いてもよいが、さらに、色空間上での距離等も評価対象に追加することで、代表点p21,p22とテクスチャ等が類似していると判定され、且つ、代表点p21,p22にある程度近い位置にあるものとしてラベリング結果を得るようにしてもよい。色空間上での評価を行う際は、評価対象のピクセルの近傍小領域も含めてヒストグラム等で評価してもよい。以上、図４の画像P2の単一の閉領域R20の例では、２つの異なる前景物体が連結している場合に関して説明したが、３つ以上が連結している場合も全く同様にしてラベリングを行うことができる。

以上、図４で模式例を説明した第二実施形態は、より一般には次のような（手順１）〜（手順３）で実現することができる。なお、既知のように、エピポーラ幾何モデルの計算（光線に関する計算や再投影に関する計算）を行う際に、校正部7から得られる校正データを利用することができる。

（手順１）
異なる視点のカメラ画像（第２マップ）間でエピポーラ幾何モデルを利用することで、対応する光線（カメラの光学中心と領域の代表点とを通る光線、以下同様）同士の距離の閾値判定によって個別の閉領域同士の対応関係を網羅的に求め、対応関係の重複の有無により、各カメラ画像の各閉領域に関して、３次元空間内で対応している前景物体が１個であると推測されるか、２個以上であると推測されるか、の識別情報を得る。なお、異なる視点のカメラ画像の閉領域との対応関係が得られない閉領域は、前景物体が１個であるものと推測すればよい。

なお、手順１で対応関係を求めるのは、カメラ視点の相違が一定条件を満たすようなカメラ画像間のみに限定してもよい。例えば、カメラ視点の相違が一定範囲内にあるようなカメラ画像間のみに限定してよい。

（手順２）
２個以上の前景物体が対応していると推測された第１カメラ画像の第１閉領域に関して、これと異なる第２カメラ画像及び第３カメラ画像であって第１閉領域に対応する複数の閉領域（第２カメラ画像と第３カメラ画像とで等しい複数個数の閉領域）が、前景物体が１個であるものとそれぞれ推測されて求まっているものを参照し、第２カメラ画像及び第３カメラ画像の対応領域の代表点に対してエピポーラ幾何モデルの光線交点を求め、この光線交点を、第１カメラ画像の第１閉領域の内部で連結している複数の前景物体のそれぞれの代表点（空間座標）とする。

なお、第１カメラ画像の第１閉領域に関して、第２カメラ画像ではＮ個の閉領域が対応し、第３カメラ画像では異なるＭ個の閉領域が対応する（Ｎ≠Ｍで、Ｎ＞Ｍとしても一般性を失わない）場合、第３カメラ画像のＭ個の光線のそれぞれと、第２カメラ画像のＮ個の光線のうち交点を求めた際の誤差が最も小さくなる光線と、のＭ個の交点を、複数の前景物体の代表点（空間座標）として求めればよい。

（手順３）
上記求めた複数の前景物体の代表点（空間座標）を第１カメラ画像の画像座標へと再投影した代表点を求め、第１カメラ画像の第１閉領域の各画素に、当該画素との距離（画像座標上のユークリッド距離のみでなく色空間上の距離も利用してよい）が最も近い代表点に対応するIDを付与して、ラベリング結果とする。なお、再投影した画像座標が第１閉領域に含まれない点であった場合、この再投影した画像座標の近傍で第１閉領域に含まれる点を代表点とすればよい。

なお、図４の説明の際の（処理１）〜（処理３）はそれぞれ、上記の（手順１）〜（手順３）の具体例に対応するものである。なお、（手順２）が可能な前提として、多視点画像が３視点以上で構成されている必要がある。

＜統合部4＞
統合部4は、第１抽出部1より得られた被写体マスクとしての第１マスクと、識別部3より得られたラベル付与された前景物体マスクとしての識別された第２マスクとを利用して、統合部4の後段側の生成部5にて視体積交差法を実行するための入力データとしての、統合された第１マスクを生成する。

統合部4での処理は、次の考察に基づく。すなわち、視体積交差法に入力するデータとしては、画像平面上においてもノイズなどが含まれておらず、被写体の形状をよく表していることが望ましい。一方で、課題として前述した通り、静止物体によって遮蔽されている領域については、第１抽出部1で得る第１マスクにおいて欠損してしまうため、その領域を埋めるような処理が必要となる。そのため、識別部3において得られた識別された第２マスクの一部（欠損を埋めるために必要最小限と考えられる一部のみ）を第１マスクに追加することで、可能な限り上記の視体積交差法の入力データとしての性質を保つようにする。

統合部4では具体的には、第１マスクをM、第１マスクMに含まれるあるマスク閉領域をM_i（iは閉領域ごとに割り振られるインデックス）、識別された第２マスクをF、第２マスクFに含まれるある閉領域をF_l（lは識別結果としてのラベル値）としたときに、以下の式(1)及び(2)の通り、マスク閉領域M_iごとに第２マスクのそれぞれの閉領域F_lを付与するか否かを判定し、付与判定があれば付与したうえで領域M_iを領域M_i'へと更新し、式(3)のようにこれら更新された領域M_i'の和として、新たなマスク画像M'すなわち統合された第１マスクを出力する。

すなわち、式(2)にラベル値lに関して示される判定条件「TH1>|M_i∩F_l|>TH2」を満たすような閉領域F_lを、式(1)に示すように閉領域M_iに加算する（集合としての画像領域に関して和集合を求める）ことにより、閉領域M_iを閉領域M_i'へと更新し、式(3)のようにこれら更新された閉領域M_i'の全体として、当初のマスク画像Mを統合した新たなマスク画像M'を得ることができる。なお、集合Lに属する要素lの条件として判定条件が含まれる式(2)において、|・|（絶対値の記号）はその引数である画像領域「・」に含まれるピクセル数を返す演算子（後述の式(4)でも同様）であり、TH1及びTH2はそれぞれ、このピクセル数に対する所定の上側閾値及び下側閾値である。

すなわち、式(2)のように、閉領域M_iと閉領域F_lとの重複箇所M_i∩F_lのピクセル数|M_i∩F_l|が下側閾値TH2よりも大きく、且つ、上側閾値TH1よりも小さい場合に、式(1)のように閉領域F_lを閉領域M_iへと加算すればよい。閾値TH1及びTH2に関しては、ユーザ設定により固定値を与えておいてもよいし、以下の式(4-1)及び(4-2)のように、閉領域F_lのピクセル数|F_l|又は閉領域M_iのピクセル数|M_i|に一定割合r1及びr2（0<r2<r1<1）をそれぞれ乗じた数のうち小さい方として与えるようにしてもよい。
TH1=min{r1*|F_l|, r1*|M_i|} …(4-1)
TH2=min{r2*|F_l|, r2*|M_i|} …(4-2)

式(2)では、下側閾値TH2の利用により、加算すべきか判断する閉領域F_lに関して、重複箇所M_i∩F_lが小さすぎることにより、ノイズ等で偶然重複していると考えられるものを、加算対象から除外することができる。また、上側閾値TH1の利用により、加算すべきか判断する閉領域F_lに関して、閉領域M_iをその内部に完全に覆ってしまっている（集合の包含関係として「M_i⊂F_l」の関係が成立する）状況か、これに近い状況にある場合、例えば被写体の背後に前景領域が完全にあるいはほとんど覆いかぶさってしまっているような場合に関して、加算対象から除外することができる。

なお、式(2)に代えて、上側閾値TH1及び下側閾値TH2の両方を用いるのではなく、以下の式(2-1)又は(2-2)のようにいずれか片方のみを用いるようにするようにしてもよい。
L={l｜TH1>|M_i∩F_l|} …(2-1)
L={l｜|M_i∩F_l|>TH2} …(2-2)

なお、第１マスクM内において各閉領域M_iを識別する処理は、第１抽出部1において第１マスクを抽出した際に併せて行っておけばよい。この処理には、第２抽出部2において説明した既存技術のラベリングと同様の手法（画像座標上での領域拡張法など）を用いればよい。

図５は、データD1〜D4と分けて統合部4による統合処理の模式例を示す図である。データD1には入力としての第１マスクMの例として、第１マスクMが２個の閉領域M₁及びM₂で構成される例が示されている。この第１マスクMは、図１に示したような選出PLの腕の部分がホールドHLで遮蔽されて欠損が発生している例となっている。データD2には入力としての識別された第２マスクFの例として、識別された第２マスクFが２個の識別された閉領域F₁及びF₂（図１に示したようなホールドHLの各々に対応する閉領域）で構成される例が示されている。

図５にてデータD3は式(2)の条件判定を行う処理の模式例として、データD1の第１マスクMとデータD2の識別された第２マスクFとを重ねた状態が示され、データD4にはこの条件判定に基づいて式(1)の加算を行い式(3)のようにそれら全体を求めることで得られる、統合された第1マスクM'の模式例が示されている。

データD3及びD4の例は、式(2)の条件判定が閉領域M₁及び閉領域F₁の組み合わせのみに関して「TH1>|M₁∩F₁|>TH2」として成立し、それ以外の組み合わせに関しては不成立であった場合の例となっている。すなわち、閉領域M₁に関して式(2)は「L={1}」であり、閉領域M₂に関して式(2)は「L=空集合（該当なし）」であった場合の例となっている。従って、第1マスクM内のこれら２個の閉領域M₁及びM₂は式(1)を適用することによってそれぞれ以下の式(1-1),(1-2)のように更新され、これらに基づき式(3)を適用することにより、以下の式(3-1)のように統合された第１マスクM'が得られるのが、図５の例である。
M₁'=M₁+F₁ …(1-1)
M₂'=M₂ …(1-2)
M'=M₁'+M₂'
=M+F₁ …(3-1)

以上の図５の模式例では、統合処理は上記の式(3-1)で与えられるものとなっており、統合された第１マスクM'を得るに際して、第１マスクMでの欠損の原因となっている閉領域F₁のみが加算され、欠損の原因となっていない閉領域F₂は加算されていないことを見て取ることができる。

なお、既に述べたように統合部4の処理は、多視点画像の各カメラ視点の画像に対応する第１マスク及び識別された第２マスクに対して、同様の処理が独立に行われる。この際、第１マスク及び第２マスクはカメラ視点によって異なるものであるため、式(2)の判定結果がカメラ視点によって異なることがありうる。従って例えば、あるカメラ視点においては統合処理により第２マスク内の１つ以上の個別領域が加算されるが、別のカメラ視点においては統合処理によって第２マスク内の個別領域が１つも加算されない、ということもありうる。

＜生成部5＞
生成部5では、被写体の３次元形状を推定し3DCGモデルを生成する。具体的な生成処理には例えば前掲の特許文献１，２や非特許文献１や、その他の任意の既存の視体積交差法を用いてよい。一般に、視体積交差法はすべてのカメラの被写体形状情報（本実施形態においては統合部4で得た統合された第１マスク）による視体積（visual cone）の積集合を取ることで、3DCGモデルの形状を得る。そのため、複数のカメラ2値マスクのうち1つでも欠損領域を含む場合、その3DCGモデル形状も欠損する。しかしながら、本実施形態においては前述の通り統合部4により、静止物体の遮蔽による欠損を埋める処理が行われているので、生成部5において欠損の影響が排除された適切な3DCGモデルを生成することが可能となる。

＜合成部6＞
合成部6では、生成部5にて得られた3DCGモデルの形状に応じて最終的な仮想視点からの画像を合成する。当該合成処理には任意の既存のレンダリング手法を用いてよく、ユーザ入力等によって与えられた仮想視点の位置座標に応じて、その近傍のカメラテクスチャ（多視点画像のうちカメラ視点が仮想視点に近いもののテクスチャ）を利用して被写体3Dモデルの色情報を決定することができる。また、3DCGモデル化されていない被写体以外の背景等については、あらかじめ制作しておいた背景モデル（例えばスポーツを撮影している場合、背景としてのスポーツ会場や設備（スポーツクライミングの場合であればホールドなど）のCGモデル）などを利用し、上記3DCGモデルと重畳することで最終的な合成画像を得ることができる。

以上、本発明の一実施形態によれば、スポーツクライミングなどの被写体と静止物体のインタラクションが発生する映像において、被写体形状を損なうことなく自由視点映像を合成することが可能となる。以下、個別事項等に関してさらに補足説明等を行う。

（１）統合部4では前述の式(1)〜(3)により統合処理を行うが、この際の統合する対象を判定する条件を指定する式(2)、すなわち、第１マスクにおいて遮蔽による欠損を発生させていると考えられる第２マスクの閉領域の判定は、より一般には、次の式(5)を用いるようにしてもよい。
L={l｜閉領域M_iと閉領域F_lとの位置関係が所定条件を満たす。} …(5)

前述の式(2)は、上記の式(5)における位置関係が所定条件を満たすことの判定を具体的に、閉領域M_iと閉領域F_lとの重複に基づいて行っているものである。その他の実施形態として、式(5)の位置関係の条件判定を例えば、閉領域M_iと閉領域F_lとの距離が所定の閾値よりも小さいことによって判定（肯定判定）するようにしてもよい。この距離は、閉領域M_iと閉領域F_lとのそれぞれの代表点（重心など）の距離として求めてもよいし、閉領域M_i境界上の点と閉領域F_lの境界上の点との距離のうち最小のものとしても求めてもよい。距離に対する閾値は固定値を用いる他にも、重複に対する閾値に関する前述の式(4)と類似の設定として、閉領域M_i及び／又は閉領域F_lのサイズ（領域を囲む矩形のいずれかの辺のサイズ等）を基準として一定割合の値として設定してもよい。

また、式(5)の判定は、以上のような閉領域同士の重複による判定と距離による判定とを組み合わせた判定としてもよい。

（２）図６は、画像処理装置10を実現することが可能な一般的なコンピュータ装置30のハードウェア構成の例を示す図である。図６に示すように、コンピュータ装置30は、所定命令を実行するCPU（中央演算装置）101、CPU101の実行命令の一部又は全部をCPU101に代わって又はCPU101と連携して実行する専用プロセッサ102（GPU（グラフィック演算装置）や深層学習専用プロセッサ等）、CPU101や専用プロセッサ102にワークエリアを提供する主記憶装置としてのRAM103、補助記憶装置としてのROM104、通信IF（インタフェース）201及びディスプレイ202と、これらの間でデータを授受するためのバスBと、を備える。

図２に示される画像処理装置10の各機能部は、各機能部の処理内容に対応する所定のプログラムをROM104から読み込んで実行するCPU101及び／又は専用プロセッサ102によって実現することができる。ここで、ネットワークを経由したデータ送受信に関する通信関連の処理が行われる場合にはさらに通信IF201が連動して動作し、表示関連の処理が行われる場合にはさらに、ディスプレイ202が連動して動作する。例えば、入力としての多視点画像は通信IF201を介して受信され、出力としての合成画像は通信IF201を介して送信されるようにしてもよい。合成部6で得た合成画像はディスプレイ202において表示されるようにしてもよい。

また、画像処理装置10は１台のみのコンピュータ装置30において実現されてもよいし、ネットワーク経由で相互に通信する２台以上のコンピュータ装置30がそれぞれ、図２に示される画像処理装置10の機能部の１つ以上を分担して担うシステムとして実現されてもよい。

10…画像処理装置、1…第１抽出部、2…第２抽出部、3…識別部、4…統合部、5…生成部、6…合成部

Claims

多視点画像の各画像より、被写体の領域を第１マスクとして抽出する第１抽出部と、
前記多視点画像の各画像より、前記被写体とは別の対象としての前景物体の領域を第２マスクとして抽出する第２抽出部と、
前記第２マスクにおける個別領域を識別する識別部と、
前記第１マスクに対して、前記第２マスクの前記識別された個別領域のうち、位置関係に基づいて、前記第１マスクにおいて遮蔽による欠損を発生させていると判定されるものを加算することにより、統合された第１マスクを得る統合部と、
前記多視点画像の各画像に対応する前記統合された第１マスクを用いて、前記被写体の３次元モデルを生成する生成部と、を備えることを特徴とする画像処理装置。
前記統合部は、前記第１マスクに対して、前記第２マスクの前記識別された個別領域のうち重複の大きさが所定条件を満たすものを、前記欠損を発生させていると判定されるものとして加算することを特徴とする請求項１に記載の画像処理装置。
前記所定条件は、前記重複の大きさが下側閾値より大きいことを含む請求項２に記載の画像処理装置。
前記所定条件は、前記重複の大きさが上側閾値より小さいことを含む請求項２または３に記載の画像処理装置。
前記識別部では、前記多視点画像の各画像に対応する前記第２マスクを用いて視体積交差法を適用することにより前記前景物体の３次元モデルを生成してラベル付与し、当該ラベル付与された３次元モデルを前記第２マスクに再投影することで、前記第２マスクにおける個別領域を識別することを特徴とする請求項１ないし４のいずれかに記載の画像処理装置。
前記識別部では、前記多視点画像の各画像に対応する前記第２マスクに対して個別の閉領域を画像座標上において識別したうえで、
エピポーラ幾何モデルを用いることにより、
前記多視点画像における異なるカメラ視点の画像間に対応する異なる第２マスク間での当該個別の閉領域の間の対応関係を求め、
当該求めた対応関係において、第１カメラ視点の１つの閉領域に対して、第２カメラ視点及び第３カメラ視点のそれぞれで複数の閉領域が対応している場合に、当該複数の閉領域にそれぞれ対応する空間座標を求め、
前記第１つの閉領域を、前記求めた複数の空間座標に基づいて、画像座標上における複数の異なる個別領域として識別することを特徴とする請求項１ないし４のいずれかに記載の画像処理装置。
前記第１抽出部では、背景差分法または物体認識を適用することにより、前記第１マスクを抽出することを特徴とする請求項１ないし６のいずれかに記載の画像処理装置。
前記第２抽出部では、前記前景物体に関して与えられている事前知識を用いて、領域分割または物体認識を適用することにより前記第２マスクを抽出することを特徴とする請求項１ないし７のいずれかに記載の画像処理装置。
前記被写体の３次元モデルを指定される仮想視点でレンダリングすることにより前記多視点画像に対応する自由視点画像を合成する合成部をさらに備えることを特徴とする請求項１ないし８のいずれかに記載の画像処理装置。
コンピュータを請求項１ないし９のいずれかに記載の画像処理装置として機能させることを特徴とするプログラム。