JP2020187706A - 画像処理装置、画像処理システム、画像処理方法およびプログラム - Google Patents
画像処理装置、画像処理システム、画像処理方法およびプログラム Download PDFInfo
- Publication number
- JP2020187706A JP2020187706A JP2019093788A JP2019093788A JP2020187706A JP 2020187706 A JP2020187706 A JP 2020187706A JP 2019093788 A JP2019093788 A JP 2019093788A JP 2019093788 A JP2019093788 A JP 2019093788A JP 2020187706 A JP2020187706 A JP 2020187706A
- Authority
- JP
- Japan
- Prior art keywords
- data
- video data
- image processing
- model data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00204—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
- H04N1/00244—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server with a server, e.g. an internet server
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0084—Digital still camera
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】仮想視点映像を再生するためのデータを効率的に配信する。【解決手段】外部装置ごとに割り当てられたデータ通信に用いる通信回線の利用可能な帯域幅に基づき、仮想視点映像データを生成するために用いられるオブジェクト単位の要素から構成されたモデルデータを、第1のモデルデータと第1のモデルデータと異なる第2のモデルデータとに分類する分類手段と、第2のモデルデータをレンダリングした映像データを生成する生成手段と、第1のモデルデータと映像データとを外部装置に配信する配信手段と、を備える。【選択図】図8
Description
本開示の技術は、3次元コンピュータグラフィックスを利用した映像データを配信する技術に関する。
複数台のカメラで撮像して得られた実カメラ映像データを用いて、3次元空間内に設定した仮想視点(仮想カメラ)からの見えを表す映像データを再現する技術として、仮想視点映像技術がある。仮想視点映像データを生成するたには、まず画像処理サーバにおいて実カメラ映像データからオブジェクト(被写体)の3次元形状を推定することにより、オブジェクトのモデルデータ(3次元形状データとテクスチャデータ)を生成する。そして、生成したモデルデータに対して仮想カメラを設定してCGレンダリングを施すことにより、任意の仮想カメラの位置・方向からの見え方を表す映像データを生成することができる。
仮想カメラの位置・方向を設定するユーザ端末に画像処理サーバからオブジェクトのモデルデータを配信し、端末側でCGレンダリングを実行することで、仮想カメラを制御するためのユーザ操作に対する遅延を小さくすることができる。これにより、インタラクティブな仮想視点映像データの生成が可能になる。
しかし、モデルデータはデータ量が膨大であるため、例えば無線通信を用いて配信する際、同一セル内に存在する多数のユーザ端末にモデルデータを配信しようとすると、通信回線の帯域を圧迫して各ユーザ端末の通信速度の低下が起きる。その結果、モデルデータの送信に係る遅延が大きくなることで、仮想視点映像が再生されるまでのユーザの待ち時間が長くなってしまうという課題がある。
一方、画像処理サーバがユーザ端末から仮想カメラの制御情報を取得してレンダリングを行い、圧縮した映像データをユーザ端末に送信するという配信形態をとることで、通信データ量を低減できる。しかしこの配信形態では、圧縮ノイズによる画質劣化や、仮想カメラの制御情報の通信遅延の影響による映像配信までのレイテンシ(遅延)の増加、及び画像処理サーバの処理負荷増加等の課題もある。
特許文献1には、ゲームシステムにおいて、コンテンツに含まれる複数のオブジェクトのうちの一部をサーバ装置でレンダリングし、その他のオブジェクトを端末装置でレンダリングすることで、レンダリングの処理負荷を分散させることが開示されている。ただし、特許文献1の技術においては、端末装置が予めレンダリングのためのオブジェクトのモデルデータを保持しておく必要がある。
仮想視点映像を再生するためのデータを配信するシステムにおいては、例えばユーザ端末の性能に応じた画質の映像の再生や、通信環境に応じた配信遅延の抑制などを実現するための、効率的なデータ配信が求められる。
本開示の技術は上記の課題に鑑み、仮想視点映像を再生するためのデータを効率的に配信することを目的とする。
本開示の技術は、外部装置ごとに割り当てられたデータ通信に用いる通信回線の利用可能な帯域幅に基づき、仮想視点映像データを生成するために用いられるオブジェクト単位の要素から構成されたモデルデータを、第1のモデルデータと前記第1のモデルデータと異なる第2のモデルデータとに分類する分類手段と、前記第2のモデルデータをレンダリングした映像データを生成する生成手段と、前記第1のモデルデータと前記映像データとを前記外部装置に配信する配信手段と、を備える。
本開示の技術により、仮想視点映像を再生するためのデータを効率的に配信することができる。
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
本実施形態では、画像処理サーバからユーザ端末に向けてインターネット回線(以降WAN回線)を通じて、インタラクティブな仮想視点映像データを配信する手法を説明する。ここでは、説明を簡易にするため、配信元である画像処理サーバが単一で、受信先であるユーザ端末が複数存在するケースを用いる。また、画像処理サーバはデータセンター等に設置されており、ユーザは自宅や外出先等でユーザ端末(スマートフォンやPC、タブレットなど)を操作し、仮想視点映像データを受信・視聴するものとする。ただし、画像処理サーバが複数存在し、ユーザ端末はそれらの画像処理サーバのうちの1以上のサーバと接続してデータの通信を行ってもよい。また、ユーザ端末と画像処理サーバとの間の接続はWAN回線に限らず、LAN回線などであってもよいし、無線接続でも有線接続でもよい。
図1は、本発明の実施形態における、画像処理サーバ、撮像システム(カメラ)、ユーザ端末のシステム構成を示すブロック図である。
画像処理サーバ100は、CPU101、メインメモリ102、記憶部103、外部I/F部104、バス105を備える。CPU101は、演算処理や各種プログラムの実行を行う。メインメモリ102は、処理に必要なプログラム、データ、作業領域などをCPU101に提供する。記憶部103は、画像処理プログラムに必要な各種データを蓄積する装置で、例えばハードディスクやシリコンディスク等の不揮発性メモリが用いられる。外部I/F部104は、カメラ120やユーザ端末110などの外部装置と接続され、接続された外部装置との間での映像データや制御信号データ、モデルデータなどの送受信をWAN106やLAN108などの伝送路経由で行う。バス105は上述の各部を接続し、データ転送を行う。
カメラ120は複数存在し、カメラ120で撮像した映像データをLAN108経由で画像処理サーバ100に転送する。LAN108はローカルエリアネットワークであり、イーサネット(登録商標)ケーブルとL2およびL3スイッチにて構成する。
ユーザ端末110は、画像処理サーバ100と同様に、CPU111、メインメモリ112、記憶部113、外部I/F部114を備える。また、ユーザからの操作受付や仮想視点映像表示のため、タッチパネルである表示/操作部115も備える。ユーザ端末110と画像処理サーバ100とは各種ルータを介してWAN106に接続されており、それらの間で映像データや制御信号データ、モデルデータなどの送信を行うことができる。WAN106は、ワイドエリアネットワークである。本実施形態では、WAN106は、画像処理サーバ100には光ファイバなどのデータ通信に用いる有線通信規格の伝送路にて接続され、ユーザ端末110にはWi−fiや4G、5Gと呼ばれる無線通信規格の伝送路にて接続される。
なお、システム構成については、上記以外にも、様々な構成要素が存在するが、本発明の主眼ではないので、その説明は省略する。
図3は、仮想視点映像データの基となる、オブジェクト単位の要素で構成されたモデルデータ生成の処理過程を示したフローチャート図である。モデルデータの生成は、画像処理サーバ100で行ってもよいし、他の装置で行ってもよい。
S301では、複数のカメラ120を用いて、オブジェクトを多視点撮像、すなわち複数の異なる視点から撮像して、複数の映像データを生成する。図2(a)に、撮像の概要を示す。サッカーやラグビーなどのフィールド11上にオブジェクト10が複数存在し、競技を行っている。それを取り囲むようにカメラ120を数十台規模で配置し、全方位からオブジェクト10を撮像する(図2(b))。
S302では、複数のカメラ120で撮像して得られた映像データをLAN経由で画像処理サーバ100に送信する。
S303では、画像処理サーバ100がモデルデータ生成処理の初期化を行う。具体的には、生成する仮想視点映像データのフレーム画像データのフレーム番号を表す変数Fを作成し、0に初期化する。
S304では、オブジェクト抽出と認識処理を行う(図2(c))。オブジェクトのみを抽出した映像データは、オブジェクト10の存在しないフィールド11のみの映像データと、オブジェクト10を含む映像データとの差分値を基に生成する。フィールド11のみの映像データは、オブジェクト10がフィールド11上に存在しないときにフィールド11のみを撮像した映像データを使用しても良い。または、ィールド11のみの映像データは、オブジェクト10を含む映像データから複数のフレームを抜き出し、それらに中間値フィルタをかけて生成しても良い。認識処理は、オブジェクト10の種別を識別するもので、ここでは、ボールと人間を識別する。認識処理は、機械学習を用いても良いし、オブジェクト抽出結果から円形のものをボールと判断するような手法でも構わない。
S305では、オブジェクト10の3次元形状を点群やボクセルとして算出する(図2(d))。これは複数のオブジェクト抽出結果を基に、Shape From Silhouette(SFS)又はVisual Hull(VH)等の手法を用いて算出する。
S306では、点群やボクセルとして算出した3次元形状を三角形の面から構成するメッシュに変換する(図2(e))。メッシュ変換はBall PivotingやVCG等を用いるが、各オブジェクトのデータ量が均等となるように、メッシュを構成する三角形の個数は一定となるようにメッシュ変換時のパラメータを調整しておく。
また、このとき、メッシュに張り付ける(マッピングする)テクスチャ生成も同時に行う。テクスチャは撮像した多視点映像データから切り出して生成する。その際、テクスチャの生成単位毎にメッシュの近似平面を算出し、その近似平面の法線方向に近いカメラの映像データを用いるのが一般的である。ここで、オブジェクト10の位置を重心位置から算出しておく。このように、モデルデータは、3次元形状データとテクスチャデータとから構成されるオブジェクト単位の要素からなる。
S307では、処理を完了するか否か(試合が終了したか否か)をシステム管理者が判断する。
S307でNoの場合はS308に進み、次のフレームを処理対象として処理を続行する。
S307でYesの場合は、S309に進み、オブジェクト認識結果やオブジェクト位置をメタデータとして生成し、フレーム番号と関連付け、一連の処理を完了する。また、このとき、外部装置において手動・自動で生成されたメタデータ(プレー分析、時刻など)もWAN106経由で取り込んでおく。
図5(a)は、仮想視点映像データの生成に必要なモデルデータを表したものである。オブジェクトメッシュデータとオブジェクトテクスチャデータは、図3のフローチャートに沿って、実カメラ映像データの全フレームに対して生成する。ここで、オブジェクトメッシュデータとオブジェクトテクスチャデータを合わせてオブジェクトモデルデータと定義する。
背景メッシュデータは、背景領域である競技場(スタジアム)やフィールド、サッカーゴール、観客席等のメッシュデータである。これらは、形状が変化しないため、試合毎あるいは競技場毎に3Dレーザースキャナ等を用いて生成し、フレーム毎には生成しなくてもよい。ただし、定期的に背景メッシュデータが更新されてもよい。背景テクスチャは背景メッシュに張り付けるテクスチャデータで、実カメラ映像データから切り出してフレーム毎に生成する。これは、日照変動等による影などを再現するためである。ここで、背景メッシュデータと背景テクスチャデータを合わせて背景モデルデータと定義する。
図4は、モデルデータを用いて仮想視点映像データを生成(以降、レンダリング)する処理過程を示したフローチャートである。本処理は画像処理サーバ100もしくはユーザ端末110にて実行される。
S401では、背景メッシュデータをメモリに読み込む。
S402では、生成する仮想視点映像データのフレーム番号を保持する変数Fを生成し、0に初期化しておく。
S403では、図3で生成したFフレーム目のオブジェクトモデルデータ、および背景テクスチャデータをメモリに読み込む。
S404では、仮想カメラ(仮想視点)情報を読み込む。仮想カメラの位置情報は、仮想カメラの位置、方向、画角(焦点距離)を含む。これらはユーザの端末操作によって決定されるが、例えば画角など一部の情報には既定値が用いられてもよい。
S405では、仮想カメラからの映像データを、一般的なCGレンダリングの手法を用いてオブジェクトモデルデータ、および背景モデルデータから生成する。このとき、CGレンダリング時の副産物として生成する、仮想カメラから各オブジェクト/背景までの距離に関する距離情報を距離マップとして出力しておく。なお、距離マップは、CGレンダリングを行わなくても仮想カメラ情報、オブジェクトメッシュデータ、背景メッシュデータから生成することができる。
S406では、生成したレンダリング結果(仮想視点映像データ)および距離マップを対応付けて保存する。
S407では、仮想視点映像データの生成処理を終了するか否かを判断する。
S407でNoの場合は、S408に進み、次のフレームのレンダリング処理を続行する。
S407でYesの場合は、レンダリング処理を終了する。
図5(b)、図5(c)は、仮想視点映像データのストリーミングの概要を表した図である。なお、ストリーミングとは、データを細分化し、細分化した少量のデータを順次配信することである。モデルデータをストリーミングする手法を、以降モデルストリーミングと呼び、映像データをストリーミングする手法を、以降映像ストリーミングと呼ぶ。
図5(b)はモデルストリーミングを説明した図で、画像処理サーバ100に蓄積されたモデルデータ502を通信回線経由で、随時ユーザ端末110に送信し、ユーザ端末110においてレンダリング処理を実行する。モデルストリーミングの利点は画質劣化が発生しない点、ユーザ操作に対するレイテンシが少ない点が挙げられる。一方、課題としてはデータ量が100Mbps〜500Mbpsと大きく、通信回線であるWAN106の帯域を圧迫するため、同時に配信可能なユーザ数に制約がある点となる。
図5(c)は映像ストリーミングを説明した図で、画像処理サーバ100内で、モデルデータ502を基にレンダリングを行い、映像データ504を生成する。生成した映像データ504を通信回線経由で、随時ユーザ端末110に送信し、ユーザ端末110において再生を行う。映像ストリーミングの利点は、データ量が5Mbps程度と少なく、モデルストリーミングに比べ通信回線を圧迫し難いため、より多数のユーザに配信可能な点である。一方、課題としては、映像データをエンコード(圧縮)して送信するため、画質劣化が発生する点と、ユーザ操作に対するレイテンシが発生する点である。
図8は、モデルストリーミングと映像ストリーミングとを使用することで、画質劣化を抑えつつ、多数のユーザに仮想視点映像データを配信する画像処理システムの処理過程を説明したフローチャートである。図8の左側のS801〜S814が画像処理サーバ100の処理、右側のS821〜S833がユーザ端末110の処理である。前提として、画像処理サーバ100にてモデルデータは生成済であり、画像処理サーバ100とユーザ端末110間の通信はWAN106経由で行われる。また、既に画像処理サーバ100と接続済で、コンテンツを選択済のユーザ端末110がTn個存在するものとする。
S801では、画像処理サーバ100が、ユーザ端末110からのリクエスト待機状態に移行する。
S821では、ユーザ端末110がユーザ操作に基づき仮想視点映像視聴用アプリケーションを起動する。
S822では、ユーザ端末110が、画像処理サーバ100にコンテンツリストをリクエストする。
S802では、画像処理サーバが、コンテンツリストのリクエストを受信する。
S803では、画像処理サーバが、コンテンツリストをユーザ端末110に送信する。
S823では、ユーザ端末110が、リクエストしたコンテンツリストを画像処理サーバ100から受信する。
S824では、コンテンツリストを受信後、ユーザ端末110が、図6(a)のシーン選択601画面を表示/操作部115に表示し、ユーザが選択するまで待機する。ここでは、ユーザ端末110の表示/操作部115に試合の映像データのサムネイル画像およびメタデータが表示される。ユーザは、表示/操作部115に表示されたサムネイル画像およびメタデータの中から所望のコンテンツを選択する。例えばユーザは、サムネイル画像を指610でタッチするなどによりコンテンツを選択することができる。なお、表示しているメタデータは、S309で生成されたオブジェクト認識結果やオブジェクト位置に関するデータである。
S825では、ユーザによりコンテンツが選択されると、ユーザ端末110が画像処理サーバ100にコンテンツの選択情報を送信する。
S804では、画像処理サーバ100が、コンテンツの選択情報を受信する。
S805では、画像処理サーバ100が、コンテンツの選択情報を受信し、配信が確定したユーザ端末数をTn=Tn+1として1増やし、現状のWAN106の利用可能な帯域幅Bwと配信確定端末数Tnを更新する。
S806では、画像処理サーバ100が、WAN106の帯域幅Bwとユーザ端末数Tnとに基づき、モデルストリーミングと映像ストリーミングの使用比率(配分)を決定する。具体的には、ユーザ端末1台ごとの、単位時間あたりに送信可能な最大オブジェクトモデルデータ数Mnを算出する。式(1)に、最大オブジェクトモデルデータ数Mnの算出式を示す。
Mn=(Bw/Tn−Sv−Sb)/Sm (1)
Mn=(Bw/Tn−Sv−Sb)/Sm (1)
ここで、Svは映像ストリーミングに必要な帯域幅、Sbは後述する背景テクスチャの単位時間あたりのデータ量、Smはオブジェクト1体分のモデルデータの単位時間あたりのデータ量である。最大オブジェクトモデルデータ数Mnが1未満の場合は、モデルストリーミングは実施せず、全て映像ストリーミングで配信を行う。逆に最大オブジェクトモデルデータ数Mnが全オブジェクト数よりも大きい場合、全てモデルストリーミングで配信を行う。
S825では、ユーザ端末110が、画像処理サーバ100に仮想カメラ情報を送信する。仮想カメラ情報は、S404と同等であるが、ユーザ端末110におけるユーザ操作によってその値を変更することが可能である。例えば、仮想カメラ情報は、初期設定とし、図6(b)のようにフィールドを俯瞰するような仮想カメラ位置・方向が設定されているが、ユーザが表示/操作部115に対して操作を行うことで、図6(c)のような仮想カメラ位置・方向に再設定される。そのため、ユーザ端末110において仮想カメラ情報が再設定されるごとに、ユーザ端末110は画像処理サーバ100に仮想カメラ情報を送信する。
S807では画像処理サーバ100が仮想カメラ情報を受信する。
S808では、仮想カメラ情報と最大オブジェクトモデルデータ数Mnとに基づき、オブジェクトごとにモデルデータを、モデルストリーミングでの配信対象のモデルデータと、映像ストリーミングでの配信対象のモデルデータとに分類する。オブジェクトには選手とボールの種別が存在し、種別を用いて分類する手法の一例を図7(a)、図7(b)を用いて説明する。
図7(a)は、あるフレームにおける選手やボール、仮想カメラ701の位置を示したものである。選手やボールのオブジェクト位置は予めS309で生成したメタデータに保持されているため、各オブジェクトと仮想カメラ701との距離Lc、各オブジェクトとボールとの距離Lbを算出可能である。
図7(b)に、算出されたオブジェクトと、仮想カメラ又はボールとの距離とが格納されたモデル選択テーブルを示す。左列のオブジェクトIDは各オブジェクトを識別するためのIDであり、「選手N」、「ボール」等のコードを割り当てる。中央列は仮想カメラ701とオブジェクトとの距離Lcであり、右列はボールとオブジェクトとの距離Lbである。
ここで、オブジェクトの特性に基づく分類手法として、「仮想カメラ701に近いオブジェクトが仮想カメラに大きく写る」という前提から、仮想カメラ701に近い一部のオブジェクトのみをモデルストリーミング対象とするケースを考える。この場合、仮想カメラ701に近い、すなわちより大きく表示されるオブジェクトの画質劣化が抑制される。ユーザ端末1台あたりに送信可能な最大オブジェクトモデルデータ数Mnは算出済であるので、オブジェクトのうち、仮想カメラ701との距離Lcの値が小さい順にMn個までをモデルストリーミング対象とする。
その他の分類手法としては、「主要オブジェクトであるボールに近いオブジェクトがユーザの注目点になりやすい」という前提から、ボールに近いオブジェクトのみをモデルストリーミング対象とするケースもある。この場合、ボールに近いオブジェクトの画質劣化が抑制される。ここでも、最大オブジェクトモデルデータ数Mnは算出済であるので、ボールを除くオブジェクトのうち、ボールとの距離Lbの値が小さい順にMn個までをモデルストリーミング対象とすれば良い。
一方で背景テクスチャの一部もモデルストリーミング対象とする必要がある。これは芝生模様の画質劣化による損失を防止するためである。対象領域は、図7(a)のテクスチャ送信エリア702に示すように、仮想カメラ701の画角内かつ所定の距離内となる扇形を対象とする。
分類手法としては上記手法に限定されない。例えば、ユーザの視線をユーザ端末110の前面に搭載されたカメラでキャプチャし、ユーザの注目領域(注視点)近辺をモデルストリーミング対象とする手法などを用いても良い。
S809では、画像処理サーバ100が、ユーザ端末110に向けて、モデルストリーミング対象となったモデルデータのストリーミング配信を開始する。
S810では、映像ストリーミングが必要な場合、S809のモデルストリーミングと並行して、画像処理サーバ100が、別スレッドを用いて映像ストリーミング対象のオブジェクトおよび背景のモデルデータに基づきCGレンダリングを実行する。画像処理サーバ100でレンダリングした映像データをCGレンダリング映像データBvとし、非可逆エンコードを実施後、映像ストリーミングデータを生成する。なお、後述するオクルージョンの設定を行う場合、映像ストリーミングデータには、画像処理サーバ100がS405で生成した距離マップBdも含める。
S811では、画像処理サーバ100が、ユーザ端末110に向けて、生成した映像ストリーミングデータのストリーミング配信を開始する。
一方、S826では、ユーザ端末110が、モデルストリーミングを受信し、モデルデータを取得する。
S827では、ユーザ端末110が、取得したモデルデータに基づきCGレンダリングを実行する。ユーザ端末110がレンダリングした映像データをCGレンダリング映像データAv、距離マップAdとする。
S828では、映像ストリーミングが行われる場合、S826、827と並行して、ユーザ端末110が、別スレッドを用いて映像ストリーミングを受信して映像ストリーミングデータを取得し、取得した映像ストリーミングデータのデコード処理を行う。
S829では、ユーザ端末110が、デコードされた映像ストリーミングデータから映像データBv、距離マップBdを取得する。
ここで、映像ストリーミングの開始は、モデルデータに基づく映像データのレンダリング処理と映像データのエンコード処理とにかかる時間だけ、モデルストリーミングの開始に対して遅延が発生する。そのため、S827のレンダリング処理は、S828のデコード処理が完了し、S829で映像データBv、距離マップBdを取得するまで待機する。
S830では、ユーザ端末110が、データストリーミングと映像ストリーミングとの両方を受信した場合、CGレンダリング映像データAv、Bvを合成し、合成映像データを表示/操作部111に表示する。図7(c)に、この合成処理の概要を説明する模式図を示す。ユーザ端末110は、CGレンダリング映像データAvとCGレンダリング映像データBvを重ね合わせることで合成映像データを生成する。その際、仮想カメラからみて同一方向に並んだ複数のオブジェクトに対し、手前のオブジェクトによってその背後のオブジェクトを遮って見えなくするオクルージョンを設定するが、そのためにはオブジェクト間の前後関係を示す情報が必要となる。そこで、ユーザ端末110は、CGレンダリング映像データAvのオブジェクトとCGレンダリング映像データBvのオブジェクトとが重なる場合、距離マップAd、距離マップBdの距離の小さいオブジェクトを前面に配置してオクルージョンを設定する。なお、データストリーミングと映像ストリーミングとのどちらか一方のみを受信した場合は、合成処理は行わず、映像データをそのまま表示/操作部111に表示する。
なお、S830の合成処理は、モデルストリーミングのみを行って、映像ストリーミングが行われない場合には実施されない。
S831では、ユーザ端末110が、仮想カメラ位置・方向に関するユーザ操作を受け付けた場合、仮想カメラ情報を更新してS825に戻る。仮想カメラ位置・方向に関するユーザ操作がない場合は、コンテンツの配信終了後、S832に移行する。
S832では、コンテンツの終了後、ユーザがアプリを終了する操作を行ったか判定する。ユーザがアプリの終了する操作を行わない場合、S824に戻ってシーン選択601画面を表示/操作部115に表示し、ユーザが選択するまで待機する。ユーザがアプリの終了する操作を行った場合は、ユーザ端末110はアプリを終了する。
S812では、画像処理サーバ100が、コンテンツの配信を終了すると、配信確定端末数TnをTn=Tn−1として1減らして現状の配信確定端末数Tnを更新する。
S813では、画像処理サーバ100が、ストリーミング配信を終了する操作を受け付けない場合はS804に戻り、ストリーミング配信を終了する操作を受け付けた場合は画像処理サーバの処理を終了する。
以上説明したように、モデルストリーミングと映像ストリーミングを回線の帯域等の状況に応じた比率で併用することで、画質劣化が少ない仮想視点映像データのストリーミングが可能となる。なお、モデルストリーミングと映像ストリーミングの比率の決め方は上記の例に限定されない。例えば回線の種類(Wi−fiか4Gか、もしくは無線か有線かなど)に基づいて比率が決定されてもよいし、ユーザ操作による入力に基づいて比率が決定されてもよいし、予め定められた比率が用いられてもよい。
本実施形態では、モデルストリーミングと映像ストリーミング併用時に発生する映像ストリーミング側のレイテンシを抑制する手法に関して説明する。なお、実施形態1と重複するシステム(画像処理サーバ)、一部処理の説明は省略する。
図9は、映像ストリーミング側のレイテンシを抑制するための、仮想視点映像ストリーミング手法の処理過程を説明したフローチャートである。なお、画像処理サーバ100の処理(S801〜S813)、ユーザ端末110の処理(S821〜S824)は図8と同等であるため、説明を省略する。なお、ここではnフレーム目のフレームを処理対象としている。
S825では、ユーザ端末110が、仮想カメラ情報を画像処理サーバ100に送信する。
S826では、ユーザ端末110が、モデルストリーミングにより配信されたモデルデータを受信する。
S827では、ユーザ端末110が、受信したモデルデータに基づきCGレンダリングを実行する。ユーザ端末110でレンダリングされた映像データのn番目のフレームをCGレンダリング映像データAv(n)、その距離マップを距離マップAd(n)とする。
この後、処理を分岐させ、S904とS908を別スレッドにて並列して実行する。
S921では、ユーザ端末110が、現在ユーザ端末110においてキャッシュ(保持)している映像データBvの中で最もnフレームに近い、lフレーム前のCGレンダリング映像データBv(n−l)、距離マップBd(n−l)をメモリに読み込む。CGレンダリング映像データBv(n−l)に対してぼかし処理を実行し、ぼかし映像データBv’(n−l)を生成する。ぼかし処理はガウシアンフィルタ等を用いる。図10に、この結果の一例であるレンダリングされたぼかし映像データBv’(n−l)および距離マップBd(n−l)の模式図を示す。なお、通常、lは0<l<5程度である。
S922では、ユーザ端末110が、CGレンダリング映像データAv(n)とレンダリングぼかし映像データを合成し、表示/操作部に表示する。この合成結果の一例の模式図を、図10の合成映像(1)に示す。このように、レイテンシの発生するCGレンダリング映像データBvについては数フレーム前のデータを使用することで、レイテンシの抑制が可能となる。さらに、ユーザが操作中であれば、ユーザはCGレンダリング映像データBv(n−l)のぼかし処理による画質の劣化には気づきにくい。
S923では、ユーザ端末110が、仮想カメラ位置・方向に関するユーザ操作を受け付けた場合はS925に戻り処理を続行し、ユーザ操作がなかった場合はS830に進む。
S826〜S923と並行して実行されるS828では、ユーザ端末110が、nフレーム目の映像ストリーミングを受信する。
S829では、受信した映像ストリーミングデータをデコードしてCGレンダリング映像データBv(n)を取得する。
S830では、CGレンダリング映像データAv(n)とS929で取得したCGレンダリング映像データBv(n)を合成し、表示/操作部に表示する。この合成結果の一例を、図10の合成映像(2)に示す。これにより、ユーザ操作がなされてから一定の期間経って落ち着いたタイミングでCGレンダリング映像データBvのぼかし処理された画質劣化領域の補正を実施する。
S832では、コンテンツの終了後、ユーザがアプリを終了する操作を行ったか判定する。ユーザがアプリの終了する操作を行わない場合、S824に戻ってシーン選択601画面を表示/操作部115に表示し、ユーザが選択するまで待機する。ユーザがアプリの終了する操作を行った場合は、ユーザ端末110はアプリを終了する。
以上説明したように、既に保持している映像ストリーミングで配信された映像データBvをぼかして仮の合成映像を表示することによりレイテンシを抑制し、かつ画質劣化の目立ち難い仮想視点映像データのストリーミングが可能となる。
本実施形態では、可逆エンコードを選択的に用いることによって、伝送効率を高める手法に関して説明する。なお、実施形態1、2と重複するシステム、処理の説明は省略する。
図11は、図8のS806、S810の別手法を説明したフローチャート図である。S1101〜S1106がS806の処理を代替するものであり、S1107〜S1110がS810の処理を代替するものである。
S1101では、画像処理サーバ100が、ユーザ端末1台ごとの、単位時間あたりに送信可能な最大オブジェクトモデルデータ数Mnを算出する。
S1102では、画像処理サーバ100が、モデルストリーミングの配信対象となるオブジェクトを選出する。
S1103では、画像処理サーバ100が、最大オブジェクトモデルデータ数Mnからモデルストリーミングを実施した際のデータ量Daを算出する。
S1104では、画像処理サーバ100が、モデルストリーミングの配信対象となったオブジェクトをCGレンダリングして映像ストリーミングを実施した際のデータ量Dbを算出する。データ量Dbの算出は、仮想カメラ情報が大きく変化しないため、直前に処理を行ったフレーム情報を流用する。またここで算出するデータ量Dbは、CGレンダリングした映像データに可逆エンコードを行った後のデータ量とする。
S1105では、画像処理サーバ100が、データ量DaとDbのサイズを比較する。データ量Dbがデータ量Daより小さい場合、S1106に進み、データ量Dbがデータ量Daより大きい場合、処理を終了する。データ量Dbは、ユーザ端末110に表示させる画像の解像度に比例するため、高解像度の場合はデータ量Dbが大きくなる可能性が高いが、低解像度の場合はデータ量Dbが小さくなる可能性が高い。
S1106では、画像処理サーバ100が、モデルストリーミングの配信対象となるオブジェクトを画像処理サーバ100でCGレンダリングするためのフラグを立てておく。
S1107では、画像処理サーバ100が、映像ストリーミングの配信対象となるオブジェクトをCGレンダリングし、CGレンダリング映像データBv0を得る。
S1108では、画像処理サーバ100が、CGレンダリング映像データBv0に対して圧縮効率は高いが画質劣化の伴う不可逆エンコードを実施する。
S1109では、画像処理サーバ100が、S1106でフラグを立てられたオブジェクトをレンダリングし、CGレンダリング映像データBv1を得る。
S1110では、画像処理サーバ100が、CGレンダリング映像データBv1に対して、圧縮効率は低いが画質劣化の発生しない可逆エンコードを実施する。ユーザ端末110に配信する際は、このCGレンダリング映像データBv0、Bv1を配信することで、モデルストリーミングで配信するよりも配信するデータ量を減少させることができる。
以上説明したように、本実施形態における画像処理サーバ100は、モデルストリーミングおよび不可逆エンコードした映像データの映像ストリーミングに加え、可逆エンコードした映像データの映像ストリーミングを併用する。具体的には、画像処理装置100は、画質の高さが重要でないオブジェクトについては、不可逆エンコードした映像データBv0を配信する。そして、画質の高さが重要なオブジェクトについては、モデルストリーミングよりも可逆エンコードによる映像ストリーミングの方がデータ量を小さくできる場合には、可逆エンコードした映像データBv1を配信する。一方、画質の高さが重要なオブジェクトについて、モデルストリーミングの方が可逆エンコードによる映像ストリーミングよりもデータ量を小さくできる場合には、モデルストリーミングを行う。これにより、伝送効率の良い仮想視点映像データのストリーミング配信が可能となる。
実施形態1〜3では、全てのユーザ端末110を同等に処理したが、端末毎に優先順位をつける方法もある。ユーザ端末110のアプリケーションで課金を行っているユーザに対しては、モデルデータストリーミングを優先的に割り当て、余った通信回線の帯域を他のユーザに分配しても良い。また、ユーザ端末110によっては、処理性能が低く、レンダリングを実行できないユーザ端末110も存在する。そのようなユーザ端末110には映像ストリーミングのみで配信しても良い。
このような構成は、ユーザ端末110の各々が有する条件に応じて、最大オブジェクトモデルデータ数Mnを個別に設定することで実現可能である。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 画像処理サーバ
110 ユーザ端末
110 ユーザ端末
Claims (19)
- 外部装置ごとに割り当てられたデータ通信に用いる通信回線の利用可能な帯域幅に基づき、仮想視点映像データを生成するために用いられるオブジェクト単位の要素から構成されたモデルデータを、第1のモデルデータと前記第1のモデルデータと異なる第2のモデルデータとに分類する分類手段と、
前記第2のモデルデータをレンダリングした映像データを生成する生成手段と、
前記第1のモデルデータと前記映像データとを前記外部装置に配信する配信手段と、
を備える
ことを特徴とする画像処理装置。 - 前記分類手段は、前記外部装置の数と前記通信回線の帯域幅とに基づき、前記モデルデータを前記第1のモデルデータと前記第2のモデルデータとに分類することを特徴とする請求項1に記載の画像処理装置。
- 前記分類手段は、前記第1のモデルデータが前記外部装置の数と前記通信回線の帯域幅とに基づき設定したデータ量よりも小さくなるように、前記モデルデータを前記第1のモデルデータと前記第2のモデルデータとに分類することを特徴とする請求項1又は2に記載の画像処理装置。
- 前記分類手段は、オブジェクトの特性に基づき、前記第1のモデルデータに含める前記モデルデータにおけるオブジェクトを決定することを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。
- 前記オブジェクトの特性は、前記モデルデータにおけるオブジェクト間の距離であることを特徴とする請求項4に記載の画像処理装置。
- 前記オブジェクトの特性は、前記モデルデータにおけるオブジェクトと前記映像データを生成するために用いる仮想視点との距離であることを特徴とする請求項4に記載の画像処理装置。
- 前記外部装置におけるユーザの注視点の位置情報を取得する取得手段
をさらに備え、
前記オブジェクトの特性は、前記位置情報に基づく前記ユーザの注視点と前記モデルデータにおけるオブジェクトとの距離であることを特徴とする請求項4に記載の画像処理装置。 - 前記第1のモデルデータのデータ量である第1のデータ量を算出し、前記第1のモデルデータをレンダリングした映像データの可逆エンコードの後のデータ量である第2のデータ量を算出する算出手段、
をさらに備え、
前記配信手段は、前記第2のデータ量が前記第1のデータ量よりも少ない場合、前記第1のモデルデータに代えて、前記第1のモデルデータをレンダリングした映像データを可逆エンコードしたデータを配信する
ことを特徴とする請求項1乃至7のいずれか1項に記載の画像処理装置。 - サーバから配信される、仮想視点映像データを生成するために用いられるオブジェクト単位の要素から構成されたモデルデータと第1の映像データとを取得する取得手段と、
前記モデルデータを所定の仮想視点に基づきレンダリングして第2の映像データを生成する第1の生成手段と、
前記第1の映像データと前記第2の映像データとを合成した合成映像データを生成する合成手段と、
前記合成映像データを表示する表示手段と、
を備えたことを特徴とする画像処理装置。 - 前記所定の仮想視点を変更する変更手段と、
前記変更手段において変更された前記所定の仮想視点に関する情報を、前記第2の映像データをレンダリングする装置に送信する送信手段と、
をさらに備えたことを特徴とする請求項9に記載の画像処理装置。 - 前記第1の映像データにぼかし処理を施した第3の映像データを生成する第2の生成手段
をさらに備え、
前記変更手段が前記所定の仮想視点を変更してから所定の期間、前記合成手段は、前記第1の映像データに代えて、前記第3の映像データを前記第1の映像データと合成する
ことを特徴とする請求項10に記載の画像処理装置。 - 前記第3の映像データのフレーム画像データは、合成される前記第2の映像データのフレーム画像データよりもフレーム番号が小さい
ことを特徴とする請求項11に記載の画像処理装置。 - 前記第1の生成手段は、前記第1の映像データにおける仮想視点からの各オブジェクトまでの距離に関する距離情報を生成し、
前記取得手段は、前記第2の映像データにおける前記仮想視点からの各オブジェクトまでの距離に関する距離情報を取得し、
前記合成手段は、前記距離情報に基づき前記仮想視点からの距離が小さいオブジェクトを前面に配置するように合成を行う
ことを特徴とする請求項9乃至12のいずれか1項に記載の画像処理装置。 - 前記オブジェクト単位の要素は、複数のカメラを用いて得られた複数の画像データから生成された3次元形状データおよびテクスチャデータで構成されることを特徴とする請求項1乃至13のいずれか1項に記載の画像処理装置。
- 外部装置ごとに割り当てられたデータ通信に用いる通信回線の利用可能な帯域幅に基づき、仮想視点映像データを生成するために用いられるオブジェクト単位の要素から構成されたモデルデータを、第1のモデルデータと第2のモデルデータとに分類する分類手段、および
前記第2のモデルデータをレンダリングした第1の映像データを生成する生成手段と、
前記第1のモデルデータと前記第1の映像データとを前記外部装置に配信する配信手段、
を含むサーバ装置と、
前記サーバ装置から配信される、前記第1のモデルデータと前記第1の映像データとを取得する取得手段、
前記第1のモデルデータを所定の仮想視点に基づきレンダリングして第2の映像データを生成する生成手段、
前記第1の映像データと前記第2の映像データとを合成した合成映像データを生成する合成手段、および
前記合成映像データを表示する表示手段、
を含む端末装置と、
を備える
ことを特徴とする画像処理システム。 - 外部装置ごとに割り当てられたデータ通信に用いる通信回線の利用可能な帯域幅に基づき、仮想視点映像データを生成するために用いられるオブジェクト単位の要素から構成されたモデルデータを、第1のモデルデータと第2のモデルデータとに分類する分類ステップと、
前記第2のモデルデータをレンダリングした映像データを生成する生成ステップと、
前記第1のモデルデータと前記映像データとを前記外部装置に配信する配信ステップと、
を有する
ことを特徴とする画像処理方法。 - サーバから配信される、仮想視点映像データを生成するために用いられるオブジェクト単位の要素から構成されたモデルデータと第1の映像データとを取得する取得ステップと、
前記モデルデータを所定の仮想視点に基づきレンダリングして第2の映像データを生成する第1の生成ステップと、
前記第1の映像データと前記第2の映像データとを合成した合成映像データを生成する合成ステップと、
前記合成映像データを表示する表示ステップと、
を備えたことを特徴とする画像処理方法。 - 外部装置ごとに割り当てられたデータ通信に用いる通信回線の利用可能な帯域幅に基づき、仮想視点映像データを生成するために用いられるオブジェクト単位の要素から構成されたモデルデータを、第1のモデルデータと第2のモデルデータとに分類する分類ステップと、
前記第2のモデルデータをレンダリングした第1の映像データを生成する生成ステップと、
前記第1のモデルデータと前記第1の映像データとを前記外部装置に配信する配信ステップと、
前記配信ステップにより配信される、前記第1のモデルデータと前記第1の映像データとを取得する取得ステップと、
前記第1のモデルデータを所定の仮想視点に基づきレンダリングして第2の映像データを生成する生成ステップと、
前記第1の映像データと前記第2の映像データとを合成した合成映像データを生成する合成ステップと、
前記合成映像データを表示する表示ステップと、
を有する
ことを特徴とする画像処理方法。 - コンピュータを請求項1乃至14のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019093788A JP2020187706A (ja) | 2019-05-17 | 2019-05-17 | 画像処理装置、画像処理システム、画像処理方法およびプログラム |
US16/872,675 US11490066B2 (en) | 2019-05-17 | 2020-05-12 | Image processing apparatus that obtains model data, control method of image processing apparatus, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019093788A JP2020187706A (ja) | 2019-05-17 | 2019-05-17 | 画像処理装置、画像処理システム、画像処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020187706A true JP2020187706A (ja) | 2020-11-19 |
Family
ID=73222839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019093788A Pending JP2020187706A (ja) | 2019-05-17 | 2019-05-17 | 画像処理装置、画像処理システム、画像処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11490066B2 (ja) |
JP (1) | JP2020187706A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023010326A (ja) * | 2021-07-09 | 2023-01-20 | キヤノン株式会社 | 情報処理装置および情報処理方法、映像表示システム、プログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113794844B (zh) * | 2021-09-09 | 2023-05-26 | 北京字节跳动网络技术有限公司 | 自由视角视频采集系统、方法、装置、服务器和介质 |
CN115883962A (zh) * | 2021-09-26 | 2023-03-31 | 中兴通讯股份有限公司 | 摄像头控制方法、系统、电子设备和存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2098994A1 (en) * | 2008-03-04 | 2009-09-09 | Agfa HealthCare NV | System for real-time volume rendering on thin clients via a render server |
CN102196300A (zh) * | 2010-03-18 | 2011-09-21 | 国际商业机器公司 | 虚拟世界场景的图像的提供方法和设备及处理方法和设备 |
CN103514920A (zh) * | 2012-06-21 | 2014-01-15 | 联发科技股份有限公司 | 缓冲图像至缓冲器装置的方法及装置 |
US10015551B2 (en) * | 2014-12-25 | 2018-07-03 | Panasonic Intellectual Property Management Co., Ltd. | Video delivery method for delivering videos captured from a plurality of viewpoints, video reception method, server, and terminal device |
JP6320488B1 (ja) | 2016-11-07 | 2018-05-09 | ヤフー株式会社 | 仮想現実提供システム、仮想現実提供方法、仮想現実提供装置、およびプログラム |
JP7010292B2 (ja) * | 2017-07-25 | 2022-01-26 | 富士通株式会社 | 映像生成プログラム、映像生成方法および映像生成装置 |
US20190335166A1 (en) * | 2018-04-25 | 2019-10-31 | Imeve Inc. | Deriving 3d volumetric level of interest data for 3d scenes from viewer consumption data |
WO2019208702A1 (ja) * | 2018-04-27 | 2019-10-31 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 自由視点画像生成方法、自由視点画像表示方法、自由視点画像生成装置及び表示装置 |
US10271040B1 (en) * | 2018-08-09 | 2019-04-23 | Alive 3D | Dynamic angle viewing system |
-
2019
- 2019-05-17 JP JP2019093788A patent/JP2020187706A/ja active Pending
-
2020
- 2020-05-12 US US16/872,675 patent/US11490066B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023010326A (ja) * | 2021-07-09 | 2023-01-20 | キヤノン株式会社 | 情報処理装置および情報処理方法、映像表示システム、プログラム |
JP7324251B2 (ja) | 2021-07-09 | 2023-08-09 | キヤノン株式会社 | 情報処理装置および情報処理方法、映像表示システム、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20200366878A1 (en) | 2020-11-19 |
US11490066B2 (en) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11924394B2 (en) | Methods and apparatus for receiving and/or using reduced resolution images | |
US11303881B2 (en) | Method and client for playing back panoramic video | |
JP7368886B2 (ja) | 情報処理システム、情報処理方法、および情報処理プログラム | |
US9579574B2 (en) | Image capture method and apparatus | |
JP2019054488A (ja) | 提供装置および提供方法、プログラム | |
JP2020187706A (ja) | 画像処理装置、画像処理システム、画像処理方法およびプログラム | |
US11539935B2 (en) | Videotelephony with parallax effect | |
EP3665656B1 (en) | Three-dimensional video processing | |
JP2022051978A (ja) | 画像処理装置、画像処理方法、及び、プログラム | |
KR101922970B1 (ko) | Vr 콘텐츠에 대한 라이브 스트리밍 방법 및 시스템 | |
JP6389540B2 (ja) | 動画データ生成装置、表示システム、表示制御装置、及びプログラム |