JP2022162653A

JP2022162653A - 描画装置及びプログラム

Info

Publication number: JP2022162653A
Application number: JP2021067557A
Authority: JP
Inventors: 晴久加藤; Haruhisa Kato
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2022-10-25
Anticipated expiration: 2041-04-13

Abstract

【課題】自由視点映像の描画に関して、効率的な描画装置を提供する。【解決手段】多視点画像より３次元モデルを構築する構築部21と、複数ユーザの各々より仮想視点の指定を受け付け、当該複数の仮想視点を統合して代表視点を得る統合部22と、前記多視点画像のテクスチャを、前記代表視点に設定される仮想カメラ位置のもとで前記３次元モデルに対して描画することで代表視点での描画結果を得る生成部23と、前記代表視点での描画結果を前記複数ユーザの各々が指定した仮想視点での描画結果に変換する変換部24と、を備える。【選択図】図４

Description

本発明は、自由視点映像の描画を行う描画装置及びプログラムに関する。

複数のカメラで撮影された映像から任意視点の映像を生成する自由視点映像システムが知られている。自由視点映像を実現する従来技術の例として特許文献１、２に開示のものがあり、ここでは次のような手法が公開されている。特許文献１では、物理カメラで撮影された映像を端末に配信し、端末で自由視点映像を生成することでサーバの負荷を軽減する。特許文献２では、注目する動領域とそれ以外との生成頻度を変えることで自由視点映像の生成負荷を軽減する。

特開２０１９－１２１８６７号公報特開２０１８－０６７１０６号公報

しかしながら、以上のような従来技術は、自由視点映像を効率的に提供することに関して課題を有していた。

特許文献１では、サーバの負荷を軽減できるが、端末の負荷が増大するという問題がある。特に、スマートフォンやスマートグラスなどの比較的処理性能に乏しい端末では負荷が大きく処理できない。特許文献２では、被写体の表面のテクスチャ生成については処理負荷軽減に言及していないという課題がある。自由視点映像では仮想視点に応じて近傍の物理カメラの映像からテクスチャを生成するが、映像が高精細であるほど映像を読みこむ処理及びメモリに展開する処理が大きい。特に、視聴者が多い場合、視点数に比例して負荷が増大するため自由視点映像をリアルタイムに生成することができないという問題がある。

上記従来の課題に鑑み、本発明は、効率的な描画装置及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は描画装置であって、多視点画像より３次元モデルを構築する構築部と、複数ユーザの各々より仮想視点の指定を受け付け、当該複数の仮想視点を統合して代表視点を得る統合部と、前記多視点画像のテクスチャを、前記代表視点に設定される仮想カメラ位置のもとで前記３次元モデルに対して描画することで代表視点での描画結果を得る描画部と、前記代表視点での描画結果を前記複数ユーザの各々が指定した仮想視点での描画結果に変換する変換部と、を備えることを特徴とする。また、コンピュータを前記描画装置として機能させるプログラムであることを特徴とする。

本発明によれば、複数の仮想視点を統合した代表視点のみについて描画を行い、各々の仮想視点での描画結果はこれを変換して得ることにより、効率的な描画が可能である。

一実施形態に係る描画システムの構成図である。撮像設備におけるカメラ配置の例を示す図である。描画システムにおいて提供される、ユーザ所望の仮想視点における自由視点映像表示の模式例を示す図である。一実施形態に係る描画システムの機能ブロック図である。一実施形態に係る描画システムの動作のフローチャートである。一実施形態に係る統合部の処理を説明するための模式例を示す図である。変換部での変換処理の模式例を示す図である。対象の注視点の区別の例を示す図である。一般的なコンピュータにおけるハードウェア構成を示す図である。

図１は、一実施形態に係る描画システムの構成図である。描画システム100は、自由視点映像の視聴を行うユーザがそれぞれ利用するM個（M≧2）の端末10-1,10-2,…,10-Mと、描画装置としてのサーバ20と、当該自由視点映像の生成対象となる共通コンテンツ（例えばスポーツ）の撮像を行うN個（N≧2）のカメラC1,C2,…,CNで構成される撮像装置30と、を備える。これら描画システム100の構成要素はネットワークNWを介して相互に通信可能である。

図２は、撮像設備30におけるカメラ配置の例を、カメラ個数N=8として示す図である。各カメラC1～C8は、自由視点映像で３次元モデルを生成して描画される対象OB（例えばスポーツ試合中の選手）を円周状に取り囲むように配置され、この対象OBを各カメラ位置において撮像し、リアルタイムの各時刻t（=1,2,…）において撮像画像を得ることにより各カメラ位置において映像を取得する。各カメラC1～C8及び対象OBは、当該撮像が行われている現実世界のフィールド上の地面PL上に概ね同じ高さで位置している。

なお、図２の撮像設備30等の配置は模式例に過ぎず、自由視点映像で３次元モデルを生成される対象OBを互いに異なるカメラ位置及びカメラ姿勢（向き）で撮像するように現実世界に配置された、任意数のN個のカメラで撮像設備30を構成してよい。例えば図２のように平面上で対象OBを円周状に取り囲んで撮像するのではなく、当該平面上に構成される半球面上で対象OBを取り囲んで撮像するようにしてもよい。対象OBを取り囲んで撮像しながら、時刻tに応じて撮像設備30内のカメラの全部または一部が現実世界のフィールド内を手動又は自動により移動してもよいし、カメラの全部または一部はフィールド上に固定設置されて位置姿勢が変化しないものであってもよい。対象OBについても、現実世界における１つ以上の対象（例えばスポーツ試合中の複数の選手）で構成されるものであってもよい。

図１の構成の描画システム100においては通信機能により、複数M個の端末10（端末10-1,10-2,…,10-Mの任意の１つを端末10とし、以下同様とする。）の各々から、端末10が送信してサーバ20で受信する情報として各ユーザが視聴したい仮想視点の座標情報を送受信し、この逆にサーバ20が送信して端末10で受信する情報として、当該仮想視点での描画結果を送受信する。

描画システム100はその全体的な動作として、例えば30fps（frame per second）といったような所定の処理レートに応じて撮像設備30の複数N個のカメラC1,C2,…,CNで時刻同期がとられた各時刻tにおいて対象OBの撮像を行い、指定された仮想視点に応じた描画処理をサーバ20において行い、描画結果を端末10において表示することで、端末10を利用するユーザに対して指定された仮想視点に応じた自由視点映像表示を提供するものである。この動作の詳細に関して図４及び図５を参照して後述する。

図３は、描画システム100において提供される、ユーザ所望の仮想視点における自由視点映像表示の模式例を示す図であり、ある共通の時刻tにおいて図２の対象OB（スポーツ選手等の人物を模式的に示す）の３次元モデルMDを生成してユーザが所望する仮想視点で描画した３つの描画結果G1～G3の例が示されている。１つめの描画結果G1は、３次元モデルMDを正面右手側の向き且つ遠距離位置から視聴する仮想視点を１人目のユーザが指定して描画されたものであり、２つめの描画結果G2は、３次元モデルMDを正面の向き且つ近距離位置から視聴する仮想視点を２人目のユーザが指定して描画されたものであり、３つめの描画結果G3は、３次元モデルMDを正面左手側の向き且つ中距離位置から視聴する仮想視点を３人目のユーザが指定して描画されたものである。

図３の例に示されるように、本実施形態の描画システム100においては、共通時刻tにおいて共通の現実世界の対象OBについての３次元モデルMDを生成したうえで、各ユーザの所望する仮想視点において当該３次元モデルMDの描画結果を提供することが可能となる。

図４は、一実施形態に係る描画システム100の機能ブロック図であり、図示するように描画システム100において、端末10は指定部11及び表示部12を備え、サーバ20（描画装置20）は構築部21、統合部22、生成部23及び変換部24を備える。なお、前述の通り、図４の端末10は図１に示すM個のうちの任意の１つとして、当該M個の端末10-1,10-2,…,10-Mにおける共通の機能ブロック構成を示すものである。図５は、一実施形態に係る描画システム100の動作のフローチャートである。以下、図５の各ステップを説明しながら、図４の各部の処理内容の詳細に関して説明する。

図５のフローはステップS1～S6を備えて構成されるが、その全体概要は次の通りである。すなわち、処理ステップ群SG(t)としてのステップS1～S5は、前述したようにリアルタイムの各時刻t=1,2,…で描画システム100が繰り返し実行することで各ユーザの端末10において仮想視点での自由視点映像の視聴を可能とするための各処理を示し、ステップS6は、このようにリアルタイムの各時刻t=1,2,…で処理が行われることを示すための時間更新（及び描画システム100での処理タイミングの管理）を表している。

ステップS1では、現時刻tにおいて以下の２つの処理を行ってから、ステップS2へと進む。

（１）撮像設備30において撮像を行い、対象OBの多視点画像MV(t)を得る。

撮像設備30のN個の各カメラC1,C2,…,CNが対象OBの撮像を行うことでN視点の多視点画像MV(t)={Pic1(t),Pic2(t),…,PicN(t)}（ここで、PicK(t)（K=1,2,…,N）はカメラCK（K=1,2,…,N）が当該時刻tで撮像した画像である）を得て、この多視点画像MV(t)をサーバ20へと送信することで構築部21及び生成部23へと出力する。

（２） M個の端末10の各々において、仮想視点の座標pi(t)及び注視方向di(t)を指定する。

M個の各々の端末10の指定部11において、ユーザ入力により仮想視点の座標pi(t)及び注視方向di(t)（iは端末10及びこの端末10を利用するユーザの識別子であり、i=1,2,…,Mとする）の指定を受け付け、この仮想視点座標pi(t)及び注視方向di(t)(i=1,2,…,M)をサーバ20へと送信することで統合部22へと出力する。

当該M人のユーザの各々における仮想視点座標pi(t) (i=1,2,…,M)は、対象OBの３次元モデルを描画する３次元仮想空間VSP内における３次元座標位置pi(t)=(xi(t),yi(t),zi(t))として指定され、空間位置を指定するための任意のインタフェースを用いて指定部11においてユーザ入力を受け付けることにより、この座標pi(t)の指定を受け付けることができる。例えば、ユーザはキーボード、タッチパネル、マウス等の入力インタフェースを操作することにより、３次元仮想空間VSP内で仮想視点を連続的に移動する指示を行うものとし、当該時刻tにおける直前時刻t-1の位置pi(t-1)からの移動量Δpi(t)=(Δxi,Δyi,Δzi)を指定することで、以下のように現時刻tの座標pi(t)の指定を受け付けるようにしてよい。
pi(t)=pi(t-1)+Δpi(t)

また、上記のようにユーザ入力による操作で３次元仮想空間VSP内の仮想視点座標pi(t)を移動させて行った結果、ユーザが望まない仮想視点の位置となってしまう場合もありうるため、このような場合は仮想視点座標pi(t)を所定位置Ref(t)（例えば当該時刻tにおいて対象OBの３次元モデルを正面から眺める位置）にリセットする旨の指示を以下のように受け付けるようにしてもよい。なお、最初の時刻t=0では当該リセットを適用することで、仮想視点座標pi(0)を初期位置Ref(0)に設定するようにしてよい。
pi(t)=Ref(t)

仮想視点の注視方向di(t)=(dxi(t),dyi(t),dzi(t)) (i=1,2,…,M)についても、以上の仮想視点座標pi(t) (i=1,2,…,M)の指定と同様に、連続的な移動の指示やリセット指示として受け付けることができる。

あるいは、仮想視点の注視方向di(t)に関しては、上記のようにユーザがマニュアル指定するのではなく、マニュアル指定された仮想視点座標pi(t)に応じて自動で指定されるものとしてもよい。例えば、ユーザは予め視聴を希望する対象OB（複数のうちのいずれか）を指定しておき、当該視聴希望される対象OBの３次元モデルMD(t)内の所定位置（例えば重心位置）をpos(t)とし、注視方向di(t)は、仮想視点座標pi(t)を始点としてこの所定位置pos(t)を終点とする方向ベクトルに平行となるように設定しておいてもよい。この設定によれば、ユーザ指定される仮想視点座標pi(t)から常に３次元モデルMD(t)の方を向いて注視する状態として、仮想視点が設定されることとなる。

ステップS2では、現時刻tにおいて以下の２つの処理を行ってから、ステップS3へと進む。

（１）構築部21が多視点画像MV(t)より現時刻tの対象OBの3次元モデルMD(t)を生成する。

構築部21は、撮像設備30から得たN視点の多視点画像MV(t)={Pic1(t),Pic2(t),…,PicN(t)}を画像処理することにより、撮像されている対象OBの現時刻tでの３次元形状を表現した３次元モデルMD(t)を構築し、生成部23及び変換部24へと出力する。多視点画像MV(t)から３次元モデルMD(t)を構築する処理には任意の既存手法を用いてよく、例えば視体積交差法により３次元モデルMD(t)を構築してよい。既知のように、視体積交差法では、多視点画像の各画像に例えば背景差分法を適用して対象OBが占める前景シルエット領域（画像平面における領域）を抽出し、各視点のカメラ位置からこの前景シルエット領域へと３次元逆投影を行って得られる錐体（視体積）の各視点での重複領域として、対象OBが３次元空間内で占める体積領域を求めることができる。当該３次元逆投影は例えばボクセル空間において行い、ボクセル領域として対象OBが３次元空間内で占める体積領域を求めたうえで、マーチングキューブ法等の任意の既存手法により、ポリゴンモデルとしての対象OBの３次元モデルMD(t)を構築することができる。

（２）統合部22がM個の仮想視点（座標pi(t)及び注視方向di(t)）を統合して代表視点を得る。

統合部22では、端末10の各々から得られたM個の仮想視点座標pi(t)に対して、クラスタリングを適用して、M個よりも少ないクラスタの各々における代表位置としての代表視点を得て、この代表視点を生成部23へと出力する。ここで、当該クラスタリングは描画の基準位置となる仮想視点（仮想カメラの位置）としての役割を考慮したものとして行われることにより、後段側の生成部23において３次元モデルMD(t)のテクスチャを生成する際に最適な仮想視点となるように統合されたものとしての代表視点を得ることができ、具体的には以下のようにすればよい。

図６は、一実施形態に係る統合部22の処理を説明するための模式例を示す図である。図６では撮像設備30の構成は、図２で示した対象OBを円周状に囲んで撮像している８個のカメラC1～C8と同一である場合を例とする。図２では現実世界において対象OB及び８個のカメラC1～C8が配置されていたが、この現実世界の３次元世界座標系をそのまま用いて、図６に示すような仮想空間VSP（対象OBをその３次元モデルMD(t)として描画するための仮想空間VSP）を定義することができる。

なお、前述の指定部11では、仮想視点（座標pi(t)及び注視方向di(t)）をこのように現実世界の３次元座標系と共通の座標系で定義される仮想空間VSPにおいて与えるようにすることで、仮想視点すなわち仮想カメラの配置を、物理カメラであるカメラC1～C8の配置と対応付けて与えることができる。（例えば、ある１つの仮想カメラを、物理カメラC1と同じ配置となるように指定するといったことが可能となる。）

以下、図６の例を参照しながら統合部22の処理を説明する。なお、当該説明においては、時刻tは当該現時刻のみであるため、時刻t依存の表記を省略して、仮想視点の座標pi(t)をpiと表記し、注視方向di(t)をdiと表記する。

まず、対象OBの注視点を原点としたとき同じ注視点を持つ仮想視点について方向単位で後記クラスタリングを実行するため、複数の任意視点を正規化する。すなわち、M個の視点座標pi(i=1,2,…,M)について、それぞれの正規化座標Piは次式で与えられる。
Pi=pi/|pi|

なお、対象OBの注視点としては例えば重心を設定すればよい。上記の正規化座標Piは、当該重心を原点として設定した視点座標piを用いて計算することにより、対象OBから視点座標piに向かう単位方向ベクトルとして算出されるものとなる。

図６の例では、M=6であるものとして、6個の仮想視点座標p1～p6と、その正規化座標P1～P6のうちP1～P3の位置が白丸（○）として、対象OBの注視点を中心とする単位球SPの表面上に示されている。（なお、正規化座標P4～P6は、当該図示する正規化座標P1～P3の背面側に位置するため、図面の煩雑化を防ぐ観点から不図示としている。）

なお、統合部22で利用される「対象OBの注視点」とは、各ユーザの視点座標piから見た注視方向diに応じて定まるものであるが、当該pi及びdiで定まる視線方向（仮想カメラの光軸方向）よりも広い概念である。すなわち、「対象OBの注視点」とは、描画システム100において描画する３Ｄコンテンツを構成する１つ以上の対象のうち、いずれを視聴対象とし、いずれを視聴対象としないかを区別するもの（すなわち、各ユーザに対して複数の３Ｄモデルのうちいずれの描画が必要となるかを特定するもの）であって、各ユーザが視点座標pi及び注視方向diを指定部11において指定することにより、描画対象の３Ｄコンテンツに応じて定まるものである。（例えば、あるユーザの視点座標piと別のユーザの視点座標pjとが同一（pi=pj）で、注視方向di,djが少し異なる場合であっても、同一の対象OBが視界に入っていれば、「対象OBの注視点」は当該両ユーザで共通となる。）図６の例は、描画される３Ｄコンテンツは単一の対象OB（例えば１人のスポーツ選手）のみで構成され、M=6人の全てのユーザが当該単一の対象OBが視聴対象に含まれるような視点座標pi及び注視方向diを指定した状態となることで、「対象OBの注視点」が全ユーザに共通の１点として定まる例である。以下この図６の例のように、「対象OBの注視点」は全ユーザに共通の１点となる場合に関して説明し、複数点の場合や共通ではない場合に関しては後述する。

次に、正規化された座標Pi（i=1,2,…,M）をクラスタリングし、当初の仮想視点の個数Mより少ないMc（Mc<M）個の各クラスタCLjの単位球面SP上に正規化された重心Gj (j=1,2,…,Mc)を以下の式のように求める。（Num_jはクラスタCLjの要素数であり、和Σ_iは当該クラスタCLjに属するNum_j個の要素Pi∈CLjの和として求める。）クラスタリングには、k-means法やクラスタ数を自動的に決定するx-means法、g-means法など既存の手法を利用することができる。
gj=Σ_i Pi/Num_j
Gj=gj/|gj|

別の実施例では、注視点から仮想視点pi（正規化座標Piではなく当初の座標pi）までの距離に比例して画像品質の劣化が目立ちにくくなることから、以下の式のように当該距離の逆数を重みwiとして単位球面SP上に正規化された重心Gj（正規化座標Piの重心）を算出する。
gj= (Σ_i wi*Pi)/(Σ_i wi)
Gj=gj/|gj|

すなわち、遠方の仮想視点における描画では描画サイズが小さくなるためテクスチャ品質の低下がわかりにくく、近い視点からはその逆であるため、この距離の逆数による重みwiにより近い視点に寄せて、近い視点でのテクスチャの方を優先的に利用させるようにすることができる。（当該利用は後段側の生成部23において行われる。）逆に近くでは動きボケなどが目立ってしまう場合には、距離の逆数ではなく距離を重みwiとして、遠い視点に寄せるようにしてもよく、遠すぎるとテクスチャが不足するため、一定値より遠距離では重みをそれ以上増やさず一定値に保ってもよい。

図６の例では、６個の正規化座標P1～P6をクラスタリングした結果として２つのクラスタCL1={P1,P2,P3}とCL2={P4,P5,P6}が形成されたとし、１つ目のクラスタCL1={P1,P2,P3}から重心G1を算出している。（２つ目のクラスタCL2={P4,P5,P6}からも重心G2が同様に算出されるが、前述の通り不図示とする。）

なお、正規化座標Piは元の仮想視点の座標piと対応しているので、正規化座標Piでのクラスタリング結果はそのまま、元の仮想視点の座標piのクラスタリング結果となる。（換言すれば、仮想視点の座標piをクラスタリングするための評価指標として、その正規化座標Piを用いている。）図６の例では以下の通りである。
CL1={P1,P2,P3}={p1,p2,p3}
CL2={P4,P5,P6}={p4,p5,p6}

続いて、対応する正規化座標Piを用いて上記クラスタリングされた仮想視点の座標piの中で最も注視点に近い距離Lj (j=1,2,…,Mc)をクラスタCLjごとに以下の式のように算出する。（前述の通り注視点を原点に設定しているため、座標piと注視点との距離は絶対値|pi|となる。）最短距離にすることで3次元モデルの模様（後段側の生成部23で描画する）の解像度を高く保持することができる効果が得られる。
Lj = min |pi|
pi ∈ Lj

図６の例では、クラスタCL1={p1,p2,p3}の中で最短となるp3の距離がL1として算出される。

あるいは、距離Ljとして最短距離ではなく、クラスタごとの注視点との距離の平均値もしくは中央値を採用することもできる。この場合、視点の奥行きの違いによる相違を抑制できる効果が得られる。以上のように、最短、平均値、中央値等として代表距離Ljを定めればよい。

最後に、各クラスタの代表距離Ljと対応するクラスタの重心座標Gjを以下の式のように乗算し生成部において生成する代表視点の座標Vjを出力する。前述の通り注視点を原点として定義しているので、以下のように乗算（ベクトルGjにスカラLjを乗算）することで、注視点から単位球SP上に正規化された重心Gj（|Gj|=1）に向かう方向に距離Ljだけ移動した位置として代表視点の座標Vjを算出することができる。
Vj = Lj*Gj

図６の例では、クラスタCL1={P1,P2,P3}={p1,p2,p3}の代表視点として、重心G1と中心点（注視点）を結ぶ延長線上でL1と同一距離（前述の通り、最短距離としての仮想視点p3の距離）を取る位置に、仮想視点V1を算出している。

以上、図５のステップS2を説明した。ステップS3では、生成部23が、統合部22で得た各クラスタCLjの代表視点Vjを仮想カメラの位置とし、且つ、注視点を統合部22におけるものと同様に設定して仮想カメラの方向を設定して、撮像設備30で得た多視点画像MV(t)のテクスチャのうち、代表視点Vjの近傍にあると判定される物理カメラの画像のテクスチャを貼り付ける（３次元モデルMD(t)のポリゴン等の面要素に貼り付ける）ことによって構築部21で構築された対象OBの３次元モデルMD(t)を描画し、得られた代表視点Vjごとの描画結果Gjを変換部24へと出力してから、ステップS4へと進む。当該描画結果Gjはすなわち、代表視点Vjを仮想カメラ位置として画像平面上に３次元モデルMD(t)を描画したものである。

生成部23での当該テクスチャ描画には任意の既存手法を用いてよい。例えば、近傍判定される物理カメラが複数存在する場合、物理カメラの位置と代表視点Vjとの距離等に応じて複数の物理カメラのテクスチャをブレンド（距離などに基づく重みづけ和）したテクスチャを貼り付けてもよいし、ポリゴン等の面要素ごとに、代表視点Vjに最も近い物理カメラのテクスチャのみを貼り付けるようにしてもよい。例えば特許文献２など既存の手法を利用することができる。なお、物理カメラの個数Nが多数である場合には、代表視点Vjの近傍の物理カメラを選択する際に、物理カメラの座標をクラスタリングして代表点を算出しておき、代表点と仮想視点との距離を階層的に比較してもよい。最短距離の代表点を含むクラスタでさらに各物理カメラの距離を算出することで処理負荷を軽減する効果が得られる。

また、現時刻tにおいて代表視点Vjからの距離が一致する（閾値判定で同じ距離だと判定される）複数の物理カメラが存在する場合、過去時刻t-1の代表視点Vjでの近傍の物理カメラを利用することができる。（この際、現時刻tと過去時刻t-1とで代表視点Vjが異なる位置にある場合、過去時刻t-1の代表視点のうち、現時刻tの代表視点Vjに最も近いものを利用すればよい。）

図６の例では、既存手法がテクスチャ画像を生成するため最寄りの物理カメラ1個を利用するとして、本発明の実施形態に対する対比例として、本発明の実施形態を適用しない方式を適用したと仮定すると、次のような処理が行われることとなる。すなわち、当該対比例では、仮想視点p1に物理カメラC1、仮想視点p2に物理カメラC2、仮想視点p3に物理カメラ３が割り当てられ、３つの各映像を読み込み展開することになるため、処理が増えてしまう。

一方、本発明の実施形態では、３つの仮想視点p1,p2,p3に対して、生成部23がこれら３つの代表視点としての仮想視点V1の最寄りの物理カメラC2だけを利用することから読み込むべき映像を対比例と比べて1/3に削減できる効果が得られる。すなわち、複数の仮想視点が類似する正規化座標を取る場合、統合部22でのクラスタリングの結果として最適な仮想視点にまとめてテクスチャ生成を行うことで処理負荷を低減することができるため、生成部23において撮像設備30の全カメラ（あるいは多数のカメラ）の撮像画像を参照する必要はなく、統合されてまとめられた代表視点Vjの近傍のカメラの撮像画像に限定することでテクスチャ生成時の画像読み込みにかかる処理時間を短縮できる効果が得られる。

また、前述の代表距離Ljとして、指定された仮想視点座標に近い距離を反映することで品質を向上させる効果が得られる。さらに、クラスタリングの個数を逐次変更することで処理負荷の低減と品質の向上とのバランスをとることができる効果が得られる。あるいは、クラスタ内の仮想視点のばらつきに応じて、テクスチャ取得のために近傍判定して利用する物理カメラ台数を比例させることで品質を向上させる効果が得られる。

すなわち、クラスタCLjに属する仮想視点の座標piのばらつきを定量化した分散（あるいは、正規化座標Pjの分散でもよい）をvar_jとして、当該クラスタCLjについて代表視点Vjを仮想カメラの視点として３次元モデルMD(t)を描画する際に、テクスチャ取得で参照する近傍の物理カメラの個数を、当該分散var_jに比例する個数（あるいは、当該分散var_jが大きいほど多い個数）として、クラスタCLjごとに最適化された個数を設定するようにしてもよい。

ステップS4では、３次元モデルMD(t)の面要素の情報を参照することにより、生成部23でクラスタCLjごとに得た描画結果Gjを、変換部24が当該面要素ごとに変換（変形）することにより、M個の各端末10においてユーザが指定した仮想視点pi(i=1,2,…,M)における描画結果を得て、当該描画結果を対応する端末10の表示部12へと送信してから、ステップS5へと進む。

変換部24では、仮想視点piが所属するクラスタ（クラスタCLjとする）における描画結果Gjを、当該描画結果Gjを描画した仮想カメラ位置である代表座標Vjが仮想視点piの位置に変更されたものとして、描画結果Gjを構成する面要素ごとに平面射影変換等の変換処理TR（仮想カメラ位置をVjからpiに変更するのに対応する変換処理TR）を適用することで、仮想視点piでの描画結果を得ることができる。

図７は、変換部24での上記変換処理の模式例を示す図である。代表視点Vjでの描画結果Gjは３次元モデルMD(t)を参照することで、複数のポリゴン等の面要素poly_k(k=1,2,…)で構成されている。これに変換TRを適用した面要素TR(poly_k)の集合として、仮想視点piでの描画結果TGi=TR(Gj)を得ることができる。なお、面要素poly_k（及びこれを変換した面要素TR(poly_k)）は一般に多数存在するため、図７ではそのうちの任意の１個のみを示し、模式図として下段側にはこれら面要素を拡大して別途に示すようにしてある。代表視点Vjで描画された２次元の面要素poly_kは、代表視点Vjでの３次元モデルMD(t)の３次元空間内の面要素3Dpoly_k（不図示）を透視投影したものであるため、当該３次元の面要素3Dpoly_kを仮想視点piに透視投影することで面要素TR(poly_k)の位置及び形状を得ることができる。この「poly_k⇒3D_poly_k⇒TR(poly_k)」の対応関係が変換TRであり、この変換TRをポリゴンごとの対応関係として記録しておき、テクスチャを変換してTR(poly_k)に割り当てる際は平面射影変換等でpoly_kのテクスチャを変形して割り当てればよい。

なお、代表視点Vjで３次元モデルMD(t)を描画する際には、オクルージョン（遮蔽）の発生しない前面側のみではなく、オクルージョンが発生する背面側のうち、当該前面側の近傍位置と判定（ポリゴン間の距離による閾値判定等で判定）される一部も含めて描画して、代表視点Vjでのポリゴンごとの描画結果として保持しておいてもよい。オクルージョン有無による前面側又は背面側の区別は、３次元コンピュータグラフィックスにおける任意の既存手法により、（例えば仮想カメラ位置に投影して最前面にあるか否かを判定する等により）ポリゴンごとに判定すればよい。代表視点Vjからの描画ではオクルージョンが発生するポリゴン3Dpoly_k（３次元モデルMD(t)のポリゴン）について、仮想視点piからはオクルージョンが発生せず前面側に現れる際に、代表視点Vjに関して当該オクルージョン領域も含めて描画しておいた結果を変換して、ポリゴンTR(poly_k)の描画結果を得ることができる。

また、ステップS3及びS4の生成部23及び変換部24の処理の変形例として、ビルボード方式（３次元モデルMD(t)を1枚の矩形（ビルボード）として簡素化して生成するもの）を用いてもよい。この場合、代表視点Vjに対して正対しているビルボードを、仮想視点piでは正対させないようにしてもよいし、正対させてもよい。

ステップS5では端末10の表示部12（ハードウェアとしてのディスプレイ）においてステップS4で得た描画結果をユーザに対して表示することで、当該時刻tにおいてユーザ所望の仮想視点における自由視点映像の視聴を実現し、ステップS6へと進む。ステップS6は前述の通り時間更新を表すステップであり、現時刻tを次の現時刻t+1へと更新してステップS1に戻ることで、以上のステップS1～S5（ステップ群GS(t)）が次の現時刻t+1に対してステップ群SG(t+1)として同様に繰り返されることとなる。

以上、本発明の一実施形態によれば、複数の仮想視点を同一方向ごとに統合し最適な仮想視点を生成することにより3次元モデルのテクスチャ生成に必要な画像の読み込み及び展開の枚数を削減し、生成された3次元モデルとテクスチャを用いて本来の仮想視点から描画することで、描画情報を得ることができる。

すなわち、本発明の一実施形態によれば、必要最低限の画像読み込み及び展開によりシステムの負荷を軽減することが可能となる。ここで、負荷の軽減により同時に処理できる端末数を増加させることも可能である。

以下、種々の補足例、追加例、代替例などについて説明する。

（１）本発明の実施形態によれば、その応用例として、遠隔地に存在する対象OB（例えばスポーツ試合中の選手）を自由視点映像として、臨場感を持って視聴することが可能となる。これにより、遠隔地への実際の移動を必ずしも必須とせずに、スポーツ試合等のコンテンツを視聴したり、あるいは、遠隔コミュニケーションの表示インタフェースとして用いて遠隔地の対象OBについてのアドバイス（例えばスポーツ上達のアドバイス）を行ったりすることが可能となり、ユーザ移動に必要となるエネルギー資源を節約することで二酸化炭素排出量を抑制できることから、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標１３「気候変動とその影響に立ち向かうため、緊急対策を取る」に貢献することが可能となる。

（２）端末10の数が多い場合、描画システム100をNs台（Nsは統合部22で得られたクラスタリング結果のクラスタ数）並列に配置する構成を利用できる際に前段の処理として統合部22を共通化することで、システム構成を簡略化するようにしてもよい。

Ns台（Ns≧2）の並列配置は、統合部22でのクラスタリング結果のクラスタ数に応じて実現する。例えば図６の例ではNs=2であり、クラスタCL1は第１サーバ20-1（図４と同様の構築部21-1、生成部23-1及び変換部24-1を備える）で描画処理し、クラスタCL2は第２サーバ20-2（図４と同様の構築部21-2、生成部23-2及び変換部24-2を備える）で描画処理するようにしてよい。このように統合部22（及び撮像設備30）の処理は描画システム100内で共通化して実施し、以降の処理はクラスタリング結果のクラスタごとのサーバに割り振って並列に実施させることで、それぞれのサーバにおいて撮像設備30から読み込む画像の枚数を限定することができる。

（３）端末10は光学シースルー型あるいはビデオシースルー型のヘッドマウントディスプレイ等の拡張現実表示を行うものとして構成し、変換部24から得た仮想視点での描画結果を、現実世界の景色に対して重畳したうえで、表示部12に表示するようにしてもよい。指定部11で指定する仮想視点は、当該ヘッドマウントディスプレイに備わるセンサ等で取得されるユーザの現実世界における視点と各時刻tで連動するものであってもよい。

（４）変換部4では仮想視点piでの３次元モデルMD(t)の描画結果に相当するものを、生成部23から得た、当該仮想視点piに「仮想視点pi∈クラスタCLj」の関係で対応する代表視点Vjでの描画結果Gjを変換して生成するが、この際、当該仮想視点piにおける背景の描画も行うことで、３次元モデルを当該背景に対して重畳させた描画結果を得るようにしてもよい。背景については３次元モデル（単純な平面などの描画負荷が少ないモデルが望ましい）を予め与えておき、仮想視点piにおいて描画すればよい。

（５）統合部22では、「対象OBの注視点」ごとに、当該注視点を原点に設定した仮想カメラの位置の正規化座標で定まる仮想カメラの方向に基づくクラスタリングを行った。この注視点は、予め描画対象として設定される１つ以上の対象OBのうちいずれが仮想カメラの視界内にあり、いずれが視界外であるかによって区別される注視シーンごとに設ければよい。図８は、対象OBの注視点の区別の例として、対象OB={OB1,OB2}と２つの対象が存在する場合の対象OBの注視点が2²=4通り存在しうることを示す図である。図８の例と同様に対象OBがn個で構成される場合、2ⁿ通りの注視点の区別が存在する。

図８では例えば仮想カメラC11はその画角範囲R11内に対象OB1のみが存在するので、注視点としては対象OB1の所定点（重心等）が設定され、仮想カメラC12はその画角範囲R12内に対象OB2のみが存在するので、注視点としては対象OB2の所定点が設定され、仮想カメラC13はその画角範囲R13内に対象OB1,OB2の両者が存在するので、注視点としては当該両対象OB1,OB2の所定点（両者の重心等）が設定され、仮想カメラC14はその画角範囲R14内に対象OB={OB1,OB2}が全く存在しないため、対象OBに関する描画処理が不要なものとして扱われる。

図８の例では、＜１＞仮想カメラC11のように対象OB1のみが画角範囲にあるもの、＜２＞仮想カメラC12のように対象OB2のみが画角範囲にあるもの、＜３＞仮想カメラC13のように両対象OB1,OB2が画角範囲にあるもの、＜４＞仮想カメラC14のように対象OB={OB1,OB2}が画角範囲にないもの、の４通りに仮想視点を予めグループ分けしたうえで、当該分けられた４グループについてそれぞれ、図６を参照して説明したような統合部22によるクラスタリングを実施し、生成部23以降の処理も行うようにすればよい。＜４＞の例のように仮想カメラC14等にグループ分けされる仮想視点については、クラスタリング処理と対象OB={OB1,OB2}についての描画処理は不要となり、背景描画を行う場合は背景描画のみを行うようにすればよい。

なお、３次元コンピュータグラフィックス等の分野において既知のように、仮想カメラについては３次元仮想空間内での位置pi及び視線方向di（カメラの外部パラメータに相当）を与えたうえで、予め設定されているカメラの内部パラメータの情報を利用することで、その画角範囲（図８の例におけるR11～R14等）が定まることとなる。構築部21にて３次元モデルMD(t)を構築する際に、当該モデル化された対象OBに何個の異なる対象が含まれているかの区別の情報も予め与えておくようにすればよい。１つ以上の対象がそれぞれの仮想カメラの画角範囲内にあるか否かの判定は、対象の少なくとも一部分が画角範囲内にあることで判定してもよいし、対象に少なくとも１つの代表点を設定しておき、代表点のうち少なくとも１つが画角範囲内にあることで判定してもよい。

（６）図９は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。描画システム100を構成する端末10、サーバ20及び撮像設備30の各々は、このような構成を有する１台以上のコンピュータ装置70として実現可能である。なお、２台以上のコンピュータ装置70で端末10、サーバ20及び撮像設備30の各々を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU（中央演算装置）71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU（グラフィックス演算装置）72、CPU71（及びGPU72）にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、カメラ78と、これらの間でデータを授受するためのバスBSと、を備える。

描画システム100の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び／又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置（プロセッサ）の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。表示部12はディスプレイ76において実現し、撮像設備30の各カメラはカメラ78として実現してよい。

100…描画システム、30…撮像設備、20…サーバ・描画装置、10…端末
11…指定部、12…表示部、21…構築部、22…統合部、23…生成部、24…変換部

Claims

多視点画像より３次元モデルを構築する構築部と、
複数ユーザの各々より仮想視点の指定を受け付け、当該複数の仮想視点を統合して代表視点を得る統合部と、
前記多視点画像のテクスチャを、前記代表視点に設定される仮想カメラ位置のもとで前記３次元モデルに対して描画することで代表視点での描画結果を得る生成部と、
前記代表視点での描画結果を前記複数ユーザの各々が指定した仮想視点での描画結果に変換する変換部と、を備えることを特徴とする描画装置。
前記統合部では、クラスタリングを行うことにより、前記複数の仮想視点の個数より少ない個数で構成されるものとして、前記代表視点を得ることを特徴とする請求項１に記載の描画装置。
前記統合部では、前記複数の仮想視点をクラスタリングするに際して、注視点から各々の仮想視点に向かう方向を当該クラスタリングのための基準とすることを特徴とする請求項２に記載の描画装置。
前記統合部では、注視点から各々の仮想視点に向かうベクトルを正規化することで前記方向を定め、当該正規化ベクトルをクラスタリングすることによって前記複数の仮想視点のクラスタリングの結果を得ることを特徴とする請求項３に記載の描画装置。
前記統合部では、前記正規化ベクトルの代表ベクトルをクラスタごとに求め、注視点を始点として当該代表ベクトルの向きに所定距離だけ離れた終点を、当該クラスタにおける代表視点とすることを特徴とする請求項４に記載の描画装置。
前記統合部では、クラスタごとの正規化ベクトルについて、当該正規化する前のベクトルの大きさによる重みづけ和を求めることにより、前記代表ベクトルを定めることを特徴とする請求項５に記載の描画装置。
前記統合部では、前記所定距離として、注視点とクラスタ内の各仮想視点との距離の中の最小値、中央値または平均値を用いることを特徴とする請求項５または６に記載の描画装置。
前記統合部では、複数ユーザの各々より受け付けた仮想視点の位置及び視線方向により定まる画角範囲内に、前記３次元モデルを構成する１つ以上の対象のうちいずれが存在していずれが存在しないかによって区別されるシーンごとに、前記注視点を設定することを特徴とする請求項３ないし７のいずれかに記載の描画装置。
前記統合部では、前記区別されるシーンごとに仮想視点をグループ分けしたうえで、各グループに属する仮想視点について前記クラスタリングを行うことを特徴とする請求項８に記載の描画装置。
前記統合部では、複数ユーザの各々より受け付けた仮想視点の位置及び視線方向により定まる画角範囲内において、前記３次元モデルの所定点として前記注視点を設定することを特徴とする請求項３ないし９のいずれかに記載の描画装置。
前記生成部では、前記多視点画像を構成する複数の視点画像のうち一部のみのテクスチャを用いて描画を行い、前記多視点画像を撮像している複数の物理カメラのうち、当該物理カメラの位置が前記代表視点に近いと判定される物理カメラによって撮像された視点画像を前記一部のものとして決定することを特徴とする請求項１ないし１０のいずれかに記載の描画装置。
前記生成部では、前記代表視点に設定される仮想カメラ位置のもとで前記３次元モデルにおいてオクルージョンが発生しない前面側と、オクルージョンが発生する背面側のうち前記前面側の近傍と、について前記３次元モデルを描画することを特徴とする請求項１ないし１１のいずれかに記載の描画装置。
前記統合部では、クラスタリングを行うことによって複数の仮想視点を統合して代表視点を得ており、
前記生成部では、前記多視点画像を構成する複数の視点画像のうち一部のみのテクスチャを用いて代表視点における描画を行い、当該用いる一部のみの画像の枚数を、当該代表視点に対応するクラスタに所属する仮想視点のばらつきに応じて決定することを特徴とする請求項１ないし１２のいずれかに記載の描画装置。
コンピュータを請求項１ないし１３のいずれかに記載の描画装置として機能させることを特徴とするプログラム。