JP2020016975A

JP2020016975A - 画像処理装置、方法及びプログラム

Info

Publication number: JP2020016975A
Application number: JP2018138177A
Authority: JP
Inventors: 軍陳; Gun Chin; 敬介野中; Keisuke Nonaka; 内藤　整; Hitoshi Naito; 整内藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2020-01-30
Anticipated expiration: 2038-07-24
Also published as: JP6894873B2

Abstract

【課題】自由視点画像をビルボード方式で高速生成する際のビルボードを得るための仮想視点に対応する画像上の対象の領域を効率的に得ることのできる画像処理装置を提供する。【解決手段】多視点画像から、各画像における視点位置と、前景及び背景の境界上の点と、に基づいて対象の点群データを得る点群生成部1と、点群データをクラスタリングして個別対象ごとの点群データとなす分別部2と、個別対象ごとの点群データにおいて各点の近傍点を取得する近傍取得部3と、個別対象ごとの点群データを指定される仮想視点での画像平面へと逆投影する逆投影部4と、取得された各点の近傍点を画像平面上の各点が接続する近傍点とすることで、当該接続する関係で定義される領域として、当該画像平面における個別対象の領域を抽出する抽出部5と、を備える。【選択図】図１

Description

本発明は、自由視点画像を高速に得られるビルボード方式へと適用することが可能な、当該ビルボードを生成するために必要となる、仮想視点に対応する画像上の対象の領域を高速且つ高精度に得ることのできる、画像処理装置、方法及びプログラムに関する。

自由視点映像技術は、視聴者が対話的且つ自由に視点を制御することで、任意の視点から見た映像を生成可能とするものである。当該技術によれば、自由視点ではない通常の映像コンテンツにおけるように視点がコンテンツ作成者等によって予め決められてしまうことなく、視聴者が所望の視点を設定することによって、臨場感ある映像を視聴することが可能である。当該技術においては一般に、映像の対象シーンを囲うように複数のカメラを用いて撮影を行うことで得られる多視点映像から、高品質な自由視点映像を生成させることが行われている。ここで、自由視点映像を生成するアプローチは２種類に分けることができる。１つは完全な３次元再構成に基づくものであり、もう１つは当該３次元再構成を必ずしも利用しないものである。

非特許文献１においては、３次元再構成及びテクスチャマッピングを自動で行うことによる自由視点映像技術が紹介されており、シルエット画像による視体積の交差部分（積集合）として生成されるビジュアル・ハル（Visual Hull）が抽出対象の近似的な形状を与えると共に、視点依存のテクスチャマッピングを行うことで高品質なレンダリングが可能となる旨が指摘されている。ここで、テクスチャマッピングに目立つ誤差が生じないように、ビジュアル・ハルの形状は精度を有している必要がある。

非特許文献２においては、完全な３次元再構成を行うことなく自由視点映像を半自動で生成する手法が紹介されており、具体的には対象の３次元モデルの２次元領域による近似としてのビルボード（billboard）に関してテクスチャマッピングを行うべく、対象検出、対象追跡及び対象分離を行うことにより、携帯端末上のアプリを用いて映像品質を損なうことなくスポーツの試合の自由視点映像を生成できる、とされている。

非特許文献３においては、対象のビジュアル・ハルを多面体モデルとして得る手法として、具体的に（１）視線エッジ(viewing edge)を計算し、（２）錐体交差エッジを計算し、（３）多面体の面を特定する、というステップからなる手法が紹介されている。当該手法は第一に、緻密で多様な形状に対応しうる多面体モデルを検証可能に生成可能であり、第二に、既存の最新手法よりも効率的に当該多面体モデルを生成可能である、とされている。

Grau O, Hilton A, Kilner J, et al. A free-viewpoint video system for visualization of sport scenes[J]. SMPTE motion imaging journal, 2007, 116(5-6): 213-219. Sabirin, Houari, et al. "Semi-Automatic Generation of Free Viewpoint Video Contents for Sport Events: Toward Real-time Delivery of Immersive Experience." IEEE MultiMedia (2018). Franco J S, Boyer E. Efficient polyhedral modeling from silhouettes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(3): 414-427.

しかしながら、以上のような従来技術は、自由視点映像を効率的且つ高品質に得ることに関して、依然として改良の余地を有するものであった。

すなわち、非特許文献１では高品質な自由視点映像を得るためには高精度な３次元モデルとしてのビジュアル・ハルを生成せざるを得ず、これによって計算量が顕著に増加するため効率が低下せざるを得なかった。また、非特許文献２では効率化のためのビルボード方式により完全な３次元モデルを得ること自体を回避しているが、ビルボード方式は３次元モデルを２次元で近似することによって、オクルージョン（対象同士が重なり合うことで、カメラから見えない遮蔽箇所が生じること）がある場合に最終的に生成される自由視点映像が不自然なものとなってしまうという問題があった。

さらに、非特許文献３にも改良の余地があった。例えば、多面体モデルによって非特許文献１よりも高速化が達成されるとはいえ、当該多面体モデルについてもやはり、計算には相応の負荷が伴うものであった。

以上のような従来技術の課題に鑑み、本発明は、自由視点画像を高速に得られるビルボード方式へと適用することが可能な、当該ビルボードを生成するために必要となる、仮想視点に対応する画像上の対象の領域を高速且つ高精度に得ることのできる、画像処理装置、方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は画像処理装置であって、多視点画像から、各画像における視点位置と、前景及び背景の境界上の点と、に基づいて対象の点群データを得る点群生成部と、前記点群データをクラスタリングして個別対象ごとの点群データとなす分別部と、当該個別対象ごとの点群データにおいて各点の近傍点を取得する近傍取得部と、前記個別対象ごとの点群データを指定される仮想視点での画像平面へと逆投影する逆投影部と、前記取得された各点の近傍点を前記画像平面上の各点が接続する近傍点とすることで、当該接続する関係で定義される領域として、当該画像平面における個別対象の領域を抽出する抽出部と、を備えることを特徴とする。また、当該画像処理装置に対応する方法及びプログラムであることを特徴とする。

本発明によれば、指定される仮想視点での画像における、入力された多視点画像に撮影されている個別対象の領域を、高速且つ高精度に得ることが可能となる。

一実施形態に係る画像処理装置の機能ブロック図である。点群生成部での処理を説明するための図である。図２の補助説明図である。点群生成部及び分別部での処理を説明するための図である。逆投影部及び抽出部での処理を説明するための図である。

図１は、一実施形態に係る画像処理装置の機能ブロック図である。図示するように、画像処理装置10は、点群生成部1、分別部2、近傍取得部3、逆投影部4、抽出部5及び描画部6を備える。画像処理装置10はその全体的な動作として、入力される多視点画像と、ユーザ（視聴者）により入力される仮想視点と、から、ビルボード方式に基づいて当該指定された仮想視点で見た自由視点画像を生成するものである。

また図示するように、画像処理装置10の各部1〜6の概略的な機能は次の通りである。点群生成部1は、入力される多視点画像より、当該多視点画像において撮影されている対象（一般に１つ以上の対象が想定される）の3次元空間内での配置を反映したものとして、3次元空間内での点群データを生成し、当該点群データを分別部2へと出力する。なお、入力される多視点画像にはその各視点の画像において予め前景及び背景の区別が与えられており、点群生成部1では当該与えられている前景及び背景の区別も利用することによって点群データを生成する。

分別部2は、点群生成部1から得られた点群データに対してクラスタリングを行うことで個別対象ごとに分別された点群データを得て、当該個別対象ごとの点群データを近傍取得部3及び逆投影部4へと出力する。

近傍取得部3は、分別部2から得られた個別対象ごとの点群データに属する各点について、その近傍に該当する点が同じ個別対象の点群データ内のうちのいずれであるかの情報を取得して、個別対象の点群データごとに当該取得された各点の近傍の点についての情報を抽出部5へと出力する。

逆投影部4は、分別部2から得られた個別対象ごとの点群データを、ユーザが設定する仮想視点に対応する画像平面へと逆投影して、当該逆投影した結果すなわち当該画像平面上での個別対象ごとの点群データを抽出部5へと出力する。逆投影部4での当該逆投影処理はすなわち、ユーザ設定の仮想視点に仮想カメラがあるものとして、個別対象ごとの点群データを当該仮想カメラで撮影した際のカメラ画像上での配置を求める処理に該当する。

抽出部5は、近傍取得部3から得られた個別対象ごとの点群データ（３次元空間内のデータ）の各点の近傍の点の情報を利用することにより、逆投影部4から得られた画像平面上での配置（２次元画像平面上のデータ）としての個別対象ごとの点群データに関して、対応する個別対象が当該画像平面上で占める領域の情報を求め、当該得られた画像平面上での個別対象の領域の情報を描画部6へと出力する。抽出部5では、近傍取得部3から得られた情報において互いに近傍の点であるとされる点同士は当該領域上での接続関係にあるものとして、当該領域の情報を得ることができる。

描画部6は、画像処理装置10に入力された多視点画像のうち、ユーザ設定の仮想視点に近いと判定される１つ以上の視点の画像を用いて、抽出部5で得られた画像平面（ユーザ設定の仮想視点のカメラ画像の平面に相当）上の各個別対象の領域（個別対象が占める前景に相当）へと描画（レンダリング）を行うことにより、ユーザ設定の仮想視点で見た自由視点画像を生成する。

以上、画像処理装置10の各部1〜6の概略的な処理内容を説明したが、当該処理は映像上の各時刻のフレームについてそれぞれ実行することにより、リアルタイムで実施することが可能である。すなわち、画像処理装置10は所定のフレームレートで与えられる多視点映像の各時刻t=1,2,3,…のフレームとしての多視点画像MVP(t)と、ユーザから設定される各時刻tにおける仮想視点V(t)と、を入力として受け取り、当該仮想視点V(t)で見たものとしての自由視点画像FVP(t)を、各時刻tにおける映像としてリアルタイムで出力することができる。本発明の画像処理装置10による高速な処理によって当該リアルタイムでの処理が可能となると共に、多視点映像における対象間にオクルージョンが発生しているような場合であっても高品質な自由視点映像を得ることが可能となる。

以下、画像処理装置10の各部1〜6の処理の詳細を説明する。図２ないし図５は、当該各部の処理にて扱われるデータ等を模式例によって示すものであり、以下の説明においては適宜、これらを例として参照する。図２は点群生成部1での処理を説明するための図であり、図３は図２の補助説明図である。図４は[a]〜[f]と分けて点群生成部1及び分別部2での処理を説明するための図である。図５は[g]〜[k]と分けて逆投影部4及び抽出部5での処理を説明するための図である。

＜点群生成部1＞
点群生成部1の役割は、前掲の非特許文献１のような完全な3次元再構成の結果としてポリゴンメッシュ等の形で与えられるビジュアル・ハルに相当するものを、ビルボード方式に基づいて自由視点画像を生成する画像処理装置10において高速に求めるものである。これにより、画像処理装置10は従来のビルボード方式では困難であったオクルージョン耐性を確保することができる。点群生成部1では具体的には点群として、当該ビジュアル・ハルに相当するものを求める。

ここで、点群生成部1が点群を求めるための入力としての多視点画像は、N台のカメラC1, C2, … ,CNによって撮影されたN枚の画像P1, P2, …, PNで構成されているものとし、背景差分法などの任意の既存手法を適用することによって、各画像P1, P2, …, PNにおいては前景及び背景の区別が予め付与されているものとする。ここで、各画像P1, P2, …, PNにおける前景の領域が、画像処理装置10によって生成される自由視点映像においてレンダリングの対象となる、撮影されている対象の領域に相当する。また、各カメラ及び各カメラ間のキャリブレーション情報も既知であるものとする。

点群生成部1では上記のように各視点の画像において前景及び背景の区別が付与された多視点画像よりビジュアル・ハルの近似としての点群を生成する。点群生成部1は具体的には、前掲の非特許文献３においてビジュアル・ハルの近似として生成されているポリゴンメッシュにおける視線エッジ（viewing edge、視線線分）を求めたうえでさらに、本発明の一実施形態においては特に、当該線分としての視線エッジの両端の点のみを抽出することで、点群を高速に生成することができる。

ここで、点群生成部1における処理としての視線エッジの求め方を説明する。視線エッジ（一般に多数存在する）は、入力されたN枚の多視点画像P1, P2, …, PNの中から1つをリファレンス用の画像として選び、別のもう１つをターゲット用の画像として選んだうえで、当該リファレンス用の画像及びターゲット用の画像に対応するものとして、求めることができる。ターゲット用の画像Ptとリファレンス用の画像Pr（ここで、t=1, 2, …, N, r=1, 2, …, N, t≠r）とから得られる視線エッジ集合をVE(Pt,Pr)とすると、点群生成部1においては、以下の式(1)で与えられるようにターゲット用の画像Ptとリファレンス用の画像Prとの選択の仕方の全ての組み合わせ（多視点画像がN枚の場合、当該組み合わせ総数はN(N-1)通り）における視線エッジ集合VE(Pt,Pr)を集めたVE_allとして、視線エッジの全てを求める。そして前述のように、点群生成部1は当該求めたエッジ集合VE_allに属する各エッジ（線分）の両端の点の集合を、点群として出力する。

図２は、ターゲット画像Pt及びリファレンス画像Prから視線エッジ集合VE(Pt,Pr)を求める処理を説明するための図であり、ここではPt=P1且つPr=P2（t=1且つr=2）として選んだ場合を例として示しているが、選び方によらずエッジ集合VE(Pt,Pr)を求める処理は共通である。図２では、ターゲット画像P1及びリファレンス画像P2をそれぞれ撮影するカメラC1及びカメラC2の位置を、その光学中心の位置として点（白丸〇）で示している。（従って、図２に関する説明では「光学中心C1」や「光学中心C2」としてカメラの光学中心に言及することとする。）図２では光学中心C1や光学中心C2を通る直線群などが描かれているが、当該描かれている配置は、周知のステレオビジョンに関するエピポーラ幾何における配置と同様のものである。

図２のP1,P2に関する視線エッジ集合VE(P1,P2)は以下の繰り返しステップのフローによって求めることができる。
（手順１）ターゲット画像P1の前景領域R1（図２にて画像P1内に灰色で示す領域）と背景領域との境界上の点piを新たに選択し、手順２へ進む。
（手順２）ターゲット画像P1の光学中心C1から点piへと向かう視線VL1と、各画像P1及びP2の光学中心C1及びC2を通る直線と、によって張られる平面（エピポーラ面）と、リファレンス画像P2における前景領域R2（図２にて画像P2内に灰色で示す領域）と、が交差する箇所として、前景領域R2内の線分（一般に複数）を求め、光学中心C2から当該交差箇所の線分を視線VL1へと投影することで、視線エッジ集合VE(P1,P2)に属する線分を求めてから、手順３へと進む。
（手順３）ここまでに繰り返された一連の手順１において点piを全て選択済みであれば、ここまでの一連の手順２において得られた視線エッジ集合VE(P1,P2)を出力して、当該フローを終了する。点piが全て選択済みでなければ、手順１へと戻り、それまでに選択されていない新たな点piを選択するようにする。

ここで、手順２に関して、図２の例ではエピポーラ面とリファレンス画像P2との交線（エピポーラ線）L2上において、エピポーラ面と前景領域R2とが交差する線分が２つ求まっており、従って、これを視線VL1へと光学中心C2から投影したものとして、２点pi-1及びpi-2を両端とする線分と、２点pi-3及びpi-4を両端とする線分と、の２つの線分が視線エッジ集合VE(P1,P2)に属するものとして求まっている。

また、手順１で前景領域R1と背景領域との境界上から選ぶ点piの例が、図２の例に対応するものとして図３に示されている。図３では、p1, p2, …, p8の８つの点がそれぞれ個別のpiとして選択される。従って、図３の例であれば、上記の手順１〜手順３が８回だけ繰り返されることで、全ての点piについて処理が終わり、当該フローが終了することとなる。

なお、本発明の一実施形態において手順１で境界上の点piを選択することに関しても、非特許文献３とは異なる手法である。すなわち、非特許文献３ではターゲット画像において境界(contour)を多角形近似しており、特に境界上の点を選択しているわけではない。一方、手順１では境界上の各点piを、ターゲット画像上で当該境界上にあり、且つ、ピクセル（画素）単位で、すなわち、当該ターゲット画像上の距離で、互いに一定間隔にあるものとして離散的に選択する。当該ピクセル単位で離散的に各点piを選択することにより、得られる視線エッジの分布を均一化することが可能になるという効果がある。

なお、手順１及び手順２に関して、画像P1の前景領域R1（及び背景領域）と画像P2の前景領域R2（及び背景領域）とは、前述の通り、入力される多視点画像において予め前景及び背景の区別が付与されていることによって定まるものである。

図２及び図３はt=1,r=2の１つの選び方の場合に関して視線エッジ集合VE(Pt,Pr)を求める処理を説明したが、前述の式(1)の通り、その他の選び方に関しても同様に視線エッジ集合VE(Pt,Pr)を求めることで、全ての選び方に関して求まった視線エッジ集合VE(Pt,Pr)の全体として視線エッジ集合VE_allが得られることとなる。図４では、[a]〜[d]と分けることで、当該選び方に応じた視線エッジ集合VE(Pt,Pr)が増えていく過程、すなわち、選び方がカバーされるごとに式(1)の和集合が増えて求まっていく過程の例が示されている。[a]はカメラC1をターゲット側、カメラC2をリファレンス側としてVE(P1,P2)のみを3次元空間にプロットした例であり、[b]はカメラC1をターゲット側、カメラC2〜C4をそれぞれリファレンス側としてVE(P1,P2)〜VE(P1,P4)をまとめてプロットした例であり、[c]はカメラC1をターゲット側、カメラC2〜C8をそれぞれリファレンス側としてVE(P1,P2)〜VE(P1,P8)をまとめてプロットした例であり、[d]はカメラC1をターゲット側、カメラC2〜C10をそれぞれリファレンス側としてVE(P1,P2)〜VE(P1,P10)をまとめてプロットした例である。[a]から[d]へと至るにつれ式(1)の和集合が増えて（すなわち、最終的なVE_allに近づいて）求まっていく過程を見て取ることができる。

図４の[e]は、最終的に求まった視点エッジ集合VE_allの各エッジ（線分）の両端の点として点群生成部1が出力する3次元空間における点群データの例である。図示するように、当該点群は２つの個別対象OB1,OB2（例えば、サッカーフィールド上の2人のサッカー選手としての個別対象）から構成されるものであるが、当該構成されることが判明するのは次の分別部2の処理によってである。

＜分別部2＞
分別部2では、点群生成部1で得た点群データ（3次元空間内の複数の点座標データ）に対してクラスタリングを行い、結果としての各クラスタが多視点画像において撮影されている個別対象に該当するものとして、クラスタリング結果を得る。一実施形態では、点群生成部1で得た3次元の点群データPG∋{(x, y, z)}に対して直接、クラスタリングを行うようにすればよい。別の一実施形態では、点群生成部1で得た3次元の点群データPGを所定平面（XY平面とする）上に投影した2次元データP_XY∋{(X, Y)}を対象として、クラスタリングを行うようにしてもよい。（この場合、2次元データに投影したうえでのクラスタリング結果を、元の3次元の点群データに対するクラスタリング結果として採用することとなる。）

ここで、当該投影するための所定平面XYに関しては、個別対象が移動する方向に即して張られる平面（例えば、個別対象がサッカーフィールド上における各サッカー選手である場合、当該地面としてのサッカーフィールドの平面）、又は、入力される多視点画像のキャリブレーションに利用した平面（例えば、キャリブレーションのための平面マーカを配置した平面）を採用することができる。また、その他の平面を採用してもよい。

クラスタリング結果の各クラスタをクラスタo_i(i=1, 2, …, n)とすると、分別部2での処理はクラスタリング関数clusteringによって以下の式(2A)又は(2B)のように形式的に表すことができる。式(2A)は3次元データを直接にクラスタリングする場合のものであり、式(2B)は2次元データに投影してからクラスタリングする場合のものである。ここで、入力される多視点画像における既知の対象の数として、クラスタ数nは予め与えておけばよい。

なお、クラスタリングの手法についてはk-means法（k平均化法）その他といったような任意の既存手法を用いればよい。ここで、クラスタリング対象となる点同士の距離（類似度）は、ユークリッド距離等で評価すればよい。

図４の例では[f]に示されるように、n=2として式(2B)の実施形態を適用することで、クラスタリング結果o₁,o₂が対象OB1,OB2に対応するものとして得られている。こうして[e]に示すように、元の3次元点群データにおいても対象OB1,OB2に対応するものとしてのクラスタリング結果が得られることとなる。

＜近傍取得部3＞
近傍取得部3の役割は、後段側の抽出部5において対象の領域を適切に抽出可能とするための情報としての、各点の近傍点がいずれの点であるかの情報を得ることである。なお、その意義は後述の抽出部5の説明の際にも説明する。近傍取得部3では具体的に、分別部2で得た個別対象o_i（前述の通りクラスタo_iが個別対象o_iに該当する）ごとの点群データ（個別対象ごとの各点の3次元位置座標のデータ）の各点tに関して、同クラスタo_i内での所定数k個の最近傍pt₁, pt₂, …, pt_k（∈o_i）の情報を取得する。この際、各点tについて同クラスタo_i内の他の点との距離を計算したうえで、距離が近い上位のk個を選択すればよい。すなわち、近傍取得部3の処理は、クラスタo_i内において点tのk近傍を求める関数find_nearest_pointによって形式的に以下の式(3)のように表すことができる。この際、任意の既存のk近傍法（KNN）を利用してよい。

本発明の一実施形態においては、近傍取得部3により当該得られる各点tとそのk個の近傍点との集合{t, pt₁, pt₂, …, pt_k}は凸包を形成している前提により、後段側の抽出部5において三角形化による領域抽出を行う。すなわち、場合によっては（稀に）凸包でないこともありうるが、このような前提により三角形化による領域抽出を行うことができ、結果として抽出される領域の精度も確保されることとなる。

なお、点群生成部1においてある程度だけ密に点群を生成しておくことにより、近傍取得部3により当該得られる各点tとそのk個の近傍点との3次元空間上での距離は小さくなり、後段側の逆投影部4で画像平面上へと逆投影した際に、集合{t, pt₁, pt₂, …, pt_k}の中で同一のピクセルに逆投影されるものが存在する場合もありうる。そこで、集合{t, pt₁, pt₂, …, pt_k}から少なくとも3つのピクセルが逆投影により得られる可能性を高めるように、kの値は例えば3より大きいものとする（k≧4）ことが望ましい。例えば、k=6あるいはk=7としてよい。なお、後段側の抽出部5において三角形化により領域を定めるために、近傍取得部3によって近傍と判定されている少なくとも3つの互いに異なるピクセルが必要となる。

図５の例では、[g]に示すようなある個別対象OB1の点群に関して、その一部を拡大表示したものとして[h]に示すようなある点pt1(点tの１つの例)についての、k=6として得られた6個の近傍の点pt2〜pt7が示されている。このように、[g]に示す個別対象OB1の点群に属する全ての点tに関して、近傍取得部3によってその近傍の点が求められることとなる。

＜逆投影部4＞
逆投影部4は、分別部2から得られた個別対象o_iごとの点群データを、ユーザが設定する仮想視点に対応する画像平面へと逆投影する。当該逆投影の結果は、ユーザが設定する仮想視点に対応する画像平面(u,v)での画像において、2値画像として表現することができる。すなわち、当該画像平面上のある画素位置(u,v)に関して、点群データに属する点が少なくとも1つ逆投影されていれば値を1（白色）とし、1つも逆投影される点がなければ値を0（黒色）とした2値画像として、逆投影部4の出力を得ることができる。

ここで、逆投影の処理に関しては周知の通り、次の式(4)で与えられるように、ユーザが設定する仮想視点に対応する透視投影行列Tⁱ ₃₄（3行4列）を乗ずることによって実現することができる。なお、Tⁱ ₃₄の上付きのiは仮想視点カメラの識別子である。式(4)にて[x y z 1]及び[ru rv r]（両者共に転置により列ベクトル）はそれぞれ、逆投影される対象としての点群の各点(x, y, z)と、その画像平面上への逆投影結果としての画素位置(u, v)と、の同次座標表現である。

図５の[i]の例では、ある個別対象OB1の点群に関して逆投影部4による逆投影の結果が前述の白又は黒の2値画像の形式で示されている。

＜抽出部5＞
抽出部5では、逆投影部4で得たユーザが設定する仮想視点に対応する画像上での個別対象o_iごとの点群データ（図５の[i]の例のように、当該画像上で一般に離散的且つスパースに分布するものとなっている）に関して、当該離散的且つスパースな各点の間に形成される領域のうち、個別対象o_iが占める領域に該当すると判定される領域を埋めていくことにより、個別対象o_iが占める領域を抽出する。当該埋めていく際に、近傍取得部3で各点tに関して近傍と判定されたk個の点の情報、すなわち、集合{t, pt₁, pt₂, …, pt_k}の情報を参照することにより、当該ｋ近傍と判定された（3次元空間内の）集合{t, pt₁, pt₂, …, pt_k}は、逆投影部4によって2次元画像上に投影された際にも個別対象o_iが占める領域に含まれる凸包を形成しているという前提を用いて、三角形化（三角形の３つの頂点を選んでその内部を埋める処理）によって個別対象o_iが占める領域を抽出する。

具体的には、（3次元空間内の）集合{t, pt₁, pt₂, …, pt_k}を逆投影部4によって逆投影した集合（画像上のピクセル位置の集合）を{I_t, I₁, I₂, …, I_k}として、当該点集合{I_t, I₁, I₂, …, I_k}に対して任意の既存手法による三角形化を適用するようにすればよい。三角形化は、関数triangulationによって以下の式(5)のように形式的に表現することができる。ここで、出力されるTはm行3列の行列であり、そのm個の各行（すなわち、サイズ3の行ベクトルに相当）へと、構成された三角形の頂点を表すインデクスを格納するものとする。

図５の[j]には画像上の局所的な領域における当該三角形化の例が示され、[k]には当該局所的な三角形化を個別対象OB1に関する点の全体に渡って行った結果の総和として、個別対象OB1（人物）の領域が得られた例が示されている。当該人物としての個別対象OB1は上側に頭部、中段部に胴体及び片方の手、下側に両足の領域を見て取ることができる。ここで、三角形化を式(5)のように近傍と判定された点に基づいて実施することにより、例えば下側の両足の領域が、両足の間に位置する領域が埋まってしまうことなく適切に得られている。

＜描画部6＞
描画部6では、抽出部5で得たユーザが設定する仮想視点に対応する画像内における各個別対象の領域（前景）に対して、入力された多視点画像から当該仮想視点に近いと判定される１つ以上の画像を用いてテクスチャマッピングを行うことにより、当該仮想視点での自由視点画像を生成する。ここで、各個別対象の領域（前景）に関して、入力される多視点画像に対して予めデプス情報を付与しておくことで、あるいは、多視点画像内の個別対象に対してステレオマッチングを適用することで、抽出部5で得た個別対象の領域（前景）に関してデプス情報を与えてビルボードを生成したうえで、任意の既存手法（ビルボード方式）によって自由視点画像を生成することができる。この際、背景の情報は予め既知のものとして与えておくようにすればよい。ビルボード方式での自由視点画像の生成は既存手法として例えば、前掲の非特許文献２や以下のものを利用してよい。
HAYASHI, Kunihiko; SAITO, Hideo. Synthesizing free-viewpoint images from multiple view videos in soccer stadium. In: Computer Graphics, Imaging and Visualisation, 2006 International Conference on. IEEE, 2006. p. 220-225.

以上、本発明によれば、自由視点画像を生成するためのビルボードを得るための個別対象の領域を高速且つ高精度に計算可能であることから、自由視点画像も高速且つ高精度に生成することが可能となる。なお、当該高速且つ高精度な計算を可能にしている点として、以下の全て又はその任意の一部を挙げることができる。
（１）完全な３次元モデルとしてのビジュアル・ハルを生成することに代えて、点群生成部1においてその近似として高速に計算可能な点群データを得ている。
（２）当該点群データは、多視点画像の各画像における前景及び背景の境界の点に基づいて生成するものであるため、ビジュアル・ハルの近似であっても形状を正確に反映したものとなっている。
（３）非特許文献３におけるような多面体モデルを用いることなく、分別部2においてクラスタリングにより高速に、撮影されている複数の個別対象をそれぞれ分離することができる。
（４）個別対象に凹部がある場合にも、近傍取得部3によって得られる各点の近傍点の情報によって対処することが可能である。
（５）抽出部5において局所的な三角形化という簡素な処理によって、個別対象の領域を得ることができる。

本発明は、コンピュータを画像処理装置10として機能させるプログラムとしても提供可能である。当該コンピュータには、CPU(中央演算装置)、メモリ及び各種I/Fといった周知のハードウェア構成のものを採用することができ、CPUが画像処理装置10の各部の機能に対応する命令を実行することとなる。また、当該コンピュータはさらに、CPUよりも並列処理を高速実施可能なGPU（グラフィック処理装置）を備え、CPUに代えて画像処理装置10の全部又は任意の一部分の機能を当該GPUにおいてプログラムを読み込んで実行するようにしてもよい。

10…画像処理装置、1…点群生成部、2…分別部、3…近傍取得部、4…逆投影部、5…抽出部、6…描画部

Claims

多視点画像から、各画像における視点位置と、前景及び背景の境界上の点と、に基づいて対象の点群データを得る点群生成部と、
前記点群データをクラスタリングして個別対象ごとの点群データとなす分別部と、
当該個別対象ごとの点群データにおいて各点の近傍点を取得する近傍取得部と、
前記個別対象ごとの点群データを指定される仮想視点での画像平面へと逆投影する逆投影部と、
前記取得された各点の近傍点を前記画像平面上の各点が接続する近傍点とすることで、当該接続する関係で定義される領域として、当該画像平面における個別対象の領域を抽出する抽出部と、を備えることを特徴とする画像処理装置。
前記点群生成部は、多視点画像のうちの１つをターゲット画像とし別のもう１つをリファレンス画像とし、ターゲット画像における前景及び背景上の境界上の第一点と、ターゲット画像の光学中心である第二点と、リファレンス画像の光学中心である第三点と、によって定まるエピポーラ面が、リファレンス画像の前景の領域から切り取る線分を、第二点及び第一点を通るターゲット画像における視線へと投影した線分より、前記対象の点群を得ることを特徴とする請求項１に記載の画像処理装置。
前記点群生成部は、前記投影した線分の両端の点が含まれるものとして、前記対象の点群を得ることを特徴とする請求項２に記載の画像処理装置。
前記点群生成部は、ターゲット画像における前景及び背景上の境界上の第一点を、当該境界上から画像上の距離で一定間隔ごとに選出したうえで、前記対象の点群を得ることを特徴とする請求項２または３に記載の画像処理装置。
前記分別部は、前記点群データを所定平面に投影した際の当該所定平面上での位置関係に基づいて、前記点群データをクラスタリングすることを特徴とする請求項１ないし４のいずれかに特徴の画像処理装置。
前記抽出部は、各点に関して前記取得された近傍点との間に形成される線分を、辺として有する三角形領域の和として、前記画像平面における個別対象の領域を抽出することを特徴とする請求項１ないし５のいずれかに記載の画像処理装置。
前記多視点画像と、前記抽出された個別対象の領域と、に基づいて、前記指定された仮想視点における自由視点画像を生成する描画部をさらに備えることを特徴とする請求項１ないし６のいずれかに記載の画像処理装置。
多視点画像から、各画像における視点位置と、前景及び背景の境界上の点と、に基づいて対象の点群データを得る点群生成段階と、
前記点群データをクラスタリングして個別対象ごとの点群データとなす分別段階と、
当該個別対象ごとの点群データにおいて各点の近傍点を取得する近傍取得段階と、
前記個別対象ごとの点群データを指定される仮想視点での画像平面へと逆投影する逆投影段階と、
前記取得された各点の近傍点を前記画像平面上の各点が接続する近傍点とすることで、当該接続する関係で定義される領域として、当該画像平面における個別対象の領域を抽出する抽出段階と、を備えることを特徴とする画像処理方法。
多視点画像から、各画像における視点位置と、前景及び背景の境界上の点と、に基づいて対象の点群データを得る点群生成部と、
前記点群データをクラスタリングして個別対象ごとの点群データとなす分別部と、
当該個別対象ごとの点群データにおいて各点の近傍点を取得する近傍取得部と、
前記個別対象ごとの点群データを指定される仮想視点での画像平面へと逆投影する逆投影部と、
前記取得された各点の近傍点を前記画像平面上の各点が接続する近傍点とすることで、当該接続する関係で定義される領域として、当該画像平面における個別対象の領域を抽出する抽出部と、を備える画像処理装置として、コンピュータを機能させることを特徴とする画像処理プログラム。