JP7370305B2

JP7370305B2 - 提示システム、サーバ、第２端末及びプログラム

Info

Publication number: JP7370305B2
Application number: JP2020140059A
Authority: JP
Inventors: 晴久加藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2023-10-27
Anticipated expiration: 2040-08-21
Also published as: JP2022035607A

Description

本発明は、遠隔コミュニケーション等に利用可能な、アバタ描画を行う提示システム、サーバ、端末及びプログラムに関する。

遠隔コミュニケーション等に利用可能な遠隔地間の映像通信技術に関し、非特許文献１は、３Ｄ（３次元）映像伝送として深度センサで計測したユーザの点群情報を通信相手へ伝送し、相手側のデバイスで描画する取り組みを開示している。また、特許文献１は、端末で撮影した複数映像をサーバへ伝送しサーバで推定した骨格情報を通信相手に伝送した上で端末が骨格情報をアバタに適用する手法を開示している。

特開２０２０―６５２２９号公報

Ben Cutler、他２名、"holoportation"，［online］，２０１８年９月４日［令和２年７月１７日検索］、インターネット＜URL：https://www.microsoft.com/en-us/research/project/holoportation-3＞

しかしながら従来技術においては、ユーザの側で利用する端末の計算資源や通信帯域等に関して必ずしも潤沢に利用できない制約がある状況下において、高品位な情報提示を実現することができなかった。

非特許文献１は膨大な点群情報を伝送するため通信帯域が狭いと実現できないという問題がある。また、ユーザの点群情報を全方位から取得するには深度センサを複数配置する必要があり装置が大規模化する問題がある。さらに、深度センサの分解能に限界があるため利用者と背景との分離が十分ではなくユーザの点群に背景が混在し低品質であるという問題がある。なおかつ、ユーザの姿勢によっては死角が生じ当該箇所の点群を取得できないという問題がある。

特許文献１は異なる視点からの複数映像を端末からサーバへ伝送するため通信帯域が狭いと実現できないという問題がある。また、計算資源に制約がある端末でアバタを描画するため、リアルタイムに描画しようとする場合に、計算資源が潤沢なサーバでの描画と比較して低品質であるという問題がある。

上記従来技術の課題に鑑み、本発明は、効率的にアバタ描画を行うことができる提示システム、サーバ、第２端末及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は、提示システムであって、第１ユーザのコミュニケーションに関連する状態を認識して第１認識情報を得る第１認識部と、第２ユーザの位置姿勢を測位して第２測位情報を得る第２測位部と、前記第２測位情報に配置した仮想カメラ視点において、前記第１認識情報を反映して前記第１ユーザのアバタを描画した第３描画情報を得る第３描画部と、前記第２測位情報に配置した仮想カメラ視点において、前記第１認識情報を反映して前記第１ユーザのアバタを前記第３描画部の描画態様よりも高品質に描画した第４描画情報を得る第４描画部と、前記第３描画情報と前記第４描画情報との相違を第２抽出情報として抽出する抽出部と、前記第２測位情報に配置した仮想カメラ視点において、前記第１認識情報を反映して前記第１ユーザのアバタを前記第３描画部の描画態様と同一品質で描画した第２描画情報を得る第２描画部と、前記第２描画情報に前記第２抽出情報を反映することで、前記第４描画情報を模したものとしての前記第１ユーザのアバタである第２統合情報を得る第２統合部と、前記第２統合情報を前記第２ユーザに対して表示する第２提示部と、を備えることを特徴とする。また、本発明は、前記第３描画部、前記第４描画部及び前記抽出部を備えるサーバであることを特徴とする。また、本発明は、前記２測位部、前記第２描画部、前記第２統合部及び前記第２提示部を備える第２端末であることを特徴とする。さらに、本発明は、コンピュータを前記サーバまたは前記第２端末として機能させるプログラムであることを特徴とする。

本発明によれば、互いに異なる品質で描画された２つの共通のアバタの相違として第２抽出情報の形で抽出されることで通信帯域の狭い回線を利用する場合であっても高速に第２抽出情報を第２ユーザの側へと伝送し、第２ユーザの側において第４描画部による高品質な描画を行うことなく、第４描画部と同等の高品質な描画結果としての第２統合情報を得て第１ユーザのアバタとして第２ユーザに表示することが可能であるため、効率的にアバタ描画を行うことができる。

一実施形態に係る提示システムの構成図である。 N=2の場合の一実施形態に係る提示システムの機能ブロック図である。一実施形態に係る提示システムの動作のシーケンス図である。アバタによるリアルタイムでの遠隔コミュニケーションの模式例を示す図である。第１認識情報の模試例として、表情認識の場合の顔画像から抽出した表情に関する特徴点分布を示す図である。量子化ステップqiを1または4に限定して量子化誤差を最小化した模式例を示す図である。各描画情報及び第２抽出情報の模式例を示す図である。アバタ表示処理を双方向に行う場合の一実施形態に係る提示システムの機能ブロック図である。一般的なコンピュータにおけるハードウェア構成の例を示す図である。

図１は、一実施形態に係る提示システム100の構成図であり、提示システム100は、互いにインターネット等のネットワークNWを介して通信可能に構成されているN個（N≧2）の端末10,20,…、N0と、サーバ30と、を備える。端末10,20,…、N0を利用するユーザがそれぞれユーザU1,U2,…,UNであり、これらN人のユーザU1,U2,…,UNは各自の端末10,20,…、N0（例えばスマートフォン端末やヘッドマウントディスプレイ端末など）を利用することにより、各自の遠隔地に存在しながら提示システム100によってアバタ（コミュニケーション相手側ユーザのアバタ）を用いた遠隔コミュニケーションを行うことが可能である。

以下、説明のためにN=2とし、第１端末10を利用する第１ユーザU1と第２端末20を利用する第２ユーザU2との間で、サーバ30を介して提示システム100において遠隔コミュニケーションを実現する場合を例とする。N≧3の場合も、N人のユーザのうち任意の2ユーザ間での遠隔コミュニケーションを2ユーザU1,U2の場合と同様にして実現することにより、全く同様にしてN人での遠隔コミュニケーションを行うことが可能である。

図２は、N=2の場合の一実施形態に係る提示システム100の機能ブロック図である。提示システム100は、第１ユーザU1が利用する第１端末10と、第２ユーザU2が利用する第２端末20と、サーバ30と、を備える。第１端末10、第２端末20ではそれぞれユーザU1,U2より遠隔コミュニケーションを行うために必要となる情報の取得を行い、当該取得した情報を相手側の端末へと送信する。サーバ30は、当該送信された情報を中継して相手側の端末へと送信する処理を行うが、当該中継する際に送信された情報を用いて所定の描画処理等を行ったうえで相手側の端末へと送信することで、計算資源等に制約がある第１端末10及び第２端末20を利用する状況においても、ユーザU1,U2間での高品位な遠隔コミュニケーションを実現することができる。

図２に示すように、第１端末10は第１認識部11及び第１測位部12を備え、第２端末20は第２測位部22、第２描画部26、第２統合部27及び第２提示部28を備え、サーバ30は第３描画部33、第４描画部34及び抽出部35を備える。

なお、図２では、サーバ30の第３描画部33及び第４描画部34をまとめて機能部31として示しているが、これは次の情報送受を表すものである。すなわち、第１端末10の第１認識部11及び第１測位部12でそれぞれ取得する第１認識情報及び第１測位情報と、第２端末20の第２測位部22で取得する第２測位情報と、がサーバ30側へと送信され、第３描画部33及び第４描画部34においてこれらの情報が利用されることを表現するために、機能部31としてまとめて示している。

図３は、一実施形態に係る提示システム100の動作のシーケンス図であり、所定の処理レートの各時刻t=1,2,3,…においてそれぞれ図３の動作全体が行われることにより、提示システム100により第１端末10を利用する第１ユーザU1と第２端末20を利用する第２ユーザU2との間でリアルタイムに、アバタを利用した遠隔コミュニケーションを行うことが可能となる。

図２及び図３にも示されるように、当該各時刻tでのリアルタイムの処理概要は以下の通りである。（なお、各機能部の処理と、各機能部間での処理情報の授受の流れの観点から概要のみをまず説明し、各機能部の個別処理の詳細に関しては後述する。）

第１端末10において、第１認識部11はユーザU1の表情等を認識して時刻tでの第１認識情報R1(t)を得て、この第１認識情報R1(t)をサーバ30の第３描画部33及び第４描画部34へと送信する（ステップS111,S112）。第１端末10において、第１測位部12は時刻tでの第１ユーザU1の位置姿勢を測位して第１測位情報P1(t)を得て、この第１測位情報P1(t)をサーバ30の第３描画部33及び第４描画部34へと送信する（ステップS121,S122）。

第２端末20において、第２測位部22は時刻tでの第２ユーザU2の位置姿勢を測位して第２測位情報P2(t)を得て、この第２測位情報P2(t)をサーバ30の第３描画部33及び第４描画部34へと送信する（ステップS221,S222）と共に、第２端末20内の第２描画部26へと出力する（ステップS223）。

サーバ30の第３描画部33は、第１測位情報P1(t)及び第２測位情報P2(t)によって定まる位置姿勢において、時刻tでの第１ユーザU1のアバタを標準品質で描画した結果として第３描画情報G3(t)を得て、この第３描画情報G3(t)を抽出部35へと出力する（ステップS331）。第４描画部34は、第１測位情報P1(t)及び第２測位情報P2(t)によって定まる位置姿勢において、時刻tでの第１ユーザU1のアバタを高品質で描画した結果として第４描画情報G4(t)を得て、この第４描画情報G4(t)を抽出部35へと出力する（ステップS341）。

ここで、第４描画部34は、第３描画部33の描画品質と比べてより高品質に描画を行う。また、第３描画部33の描画品質は、第２端末20の第２描画部26の描画品質と同一であり、第３描画部33及び第２描画部26では同一の描画を行う。第２描画部26、第３描画部33及び第４描画部34では、第１測位情報P1(t)及び第２測位情報P2(t)によって定まる共通の位置姿勢において、それぞれの描画品質により時刻tでの第１ユーザU1のアバタを描画する。

サーバ30においてさらに、抽出部35は、第３描画情報G3(t)と第４描画情報G4(t)との相違（差分）を時刻tでの第２抽出情報E2(t)として抽出し、この第２抽出情報E2(t)を第２端末20の第２統合部27へと送信する（ステップS352）。

ここで、アバタの直接の描画結果である第３描画情報G3(t)や第４描画情報G4(t)ではなく、情報量が削減されたその差分としての第２抽出情報E2(t)をサーバ20から第２端末20へと送信することにより、ネットワークNWの通信帯域の圧迫を抑制することが可能となる。

サーバ30ではまた、第１端末10から第２端末20への情報送信の中継処理として、第１認識部11及び第１測位部12からそれぞれ得られた時刻tでの第１ユーザの第１認識情報R1(t)及び第１測位情報P1(t)を、そのまま第２端末20の第２描画部26へと送信する（ステップS351）。（なお、図２及び図３では、便宜上、第１認識情報R1(t)及び第１測位情報P1(t)の中継送信元を抽出部35として描いているが、抽出部35において特に第１認識情報R1(t)及び第１測位情報P1(t)をさらに加工する処理等が行われるわけではない。）

第２端末20の第２描画部26は、第１測位情報P1(t)及び第２測位情報P2(t)によって定まる位置姿勢において、時刻tでの第１ユーザU1のアバタを標準品質で描画した結果として第２描画情報G2(t)を得て、この第２描画情報G2(t)を第２統合部27へと出力する（ステップS261）。

既に説明したように、第２端末20の第２描画部26ではサーバ30の第３描画部33と同一品質で、第１測位情報P1(t)及び第２測位情報P2(t)によって定まる共通の位置姿勢において、時刻tでの第１ユーザU1のアバタを描画する。すなわち、第２描画部26で得られる第２描画情報G2(t)は、第３描画部33で得られる第３描画情報G3(t)と同一である。

第２統合部27は、第２描画情報G2(t)に対して、サーバ30の抽出部35から得られた第２抽出情報E2(t)を加算することにより、時刻tでの第２統合情報G2S(t)を得て、この第２統合情報G2S(t)を第２提示部28へと出力する（ステップS271）。第２提示部28はディスプレイとして構成され、第２統合情報G2S(t)を第２ユーザU2に対して表示する。

ここで、第２抽出情報E2(t)はサーバ30において高品質で描画された第４描画情報G4(t)と標準品質で描画された第３描画情報G3(t)との差分（「E2(t)=G4(t)-G3(t)」）として得られており、第３描画情報G3(t)と同一情報である第２描画情報G2(t)が第２端末20の第２描画部26で得られている。従って、第２統合部27で加算して得られる第２統合情報G2S(t)は、サーバ30において高品質で描画された第４描画情報G4(t)と同一情報となり、サーバ30の第４描画部34において高品質に描画された結果としての第１ユーザU1のアバタを、第２端末20自身において直接描画することなく、第２統合情報G2S(t)として加算により復元して第２ユーザU2に対して提示することが可能となる。

なお、後述するように第２抽出情報E2(t)は差分（「E2(t)=G4(t)-G3(t)」）として得たうえでさらに量子化による非可逆圧縮を適用する場合もあるが、この場合も、第２統合部27で加算して得られる第２統合情報G2S(t)は、サーバ30において高品質で描画された第４描画情報G4(t)とは完全には同一ではないが、これを可能な限り模したものとして得られることとなる。

図４は、以上の図２，３の構成によって実現されるアバタによるリアルタイムでの遠隔コミュニケーションの模式例を示す図である。例EX11に示すように、第１端末10を利用する第１ユーザU1は環境E1（部屋など）に存在し、これとは遠隔地に、第２端末20を利用する第２ユーザU2が環境E2（部屋など）に存在する。例EX11のような遠隔環境E1,E2に対して、例EX12には提示システム100により実現される拡張現実表示によるアバタコミュニケーションが示されている。第１端末10を利用する第１ユーザU1は環境E1に対して拡張現実表示（アバタA2の重畳表示）を加えた仮想空間V1において、コミュニケーション相手である第２ユーザU2のアバタA2が表示され、アバタA2に対してコミュニケーションを行うことで、遠隔に存在する第２ユーザU2とコミュニケーションを行うことが可能となる。同様に、第２端末20を利用する第２ユーザU2は環境E2に対して拡張現実表示（アバタA1の重畳表示）を加えた仮想空間V2において、コミュニケーション相手である第１ユーザU1のアバタA1が表示され、アバタA1に対してコミュニケーションを行うことで、遠隔に存在する第１ユーザU1とコミュニケーションを行うことが可能となる。

なお、以上の図２，３の構成は、図４の例EX12に示すうちの右側を実現するものである。（すなわち、第２統合情報G2S(t)とは、第１ユーザU1のアバタA1であり、第２ユーザU2に対して拡張現実表示として提供されるものである。）第１端末10と第２端末20の役割を入れ替えることで図４の例EX12に示すうちの左側も全く同様に実現可能となる。

ここで、アバタA1は、第２統合情報G2S(t)の形で第１ユーザU1の位置姿勢である第１測位情報P1(t)及び表情等である第１認識情報R1(t)が反映されてリアルタイムに描画されているため、アバタとして第１ユーザU1のリアルタイムの挙動がそのまま反映され、第２ユーザU2に対して仮想空間V2において拡張現実表示されるものとなる。すなわち、第１ユーザU1が位置姿勢を変えればアバタA1も追従して仮想空間V2内における３次元的な位置姿勢が変化し、第１ユーザU1が表情等を変化させればアバタA1も追従して表情等が変化する。（この逆の、仮想空間V1におけるアバタA2と第１ユーザU1との関係も全く同様となる。）

さらに、アバタA1は、第２統合情報G2S(t)の形で第２ユーザU2の視点の位置姿勢である第２測位情報P2(t)から見た状態として（画像平面へ描画するための仮想カメラの位置姿勢として第２測位情報P2(t)の位置姿勢を用いて）リアルタイムに描画されているため、第２ユーザU2が移動して、アバタA1の例えば横や後ろに回り込んだ状態で、アバタA1を見るといったことも可能となる。

このように各時刻tで第２統合情報G2S(t)として描画されるアバタA1は、時刻tを固定すると画像平面上の２次元領域として描画されるものであるが、３次元モデルのアバタの描画結果として２次元的に描画されているため、時刻tの進行に伴うユーザU1,U2の移動に応じて、３次元形状として変化しながら表示されることとなる。

なお、図４の例EX12に示される双方向でのアバタコミュニケーションは、後述する図８の構成によって実現されるが、この図８の構成は、図２，３の構成を双方向として書き換えたに過ぎないものであり、図２，３の構成に対して第１端末10及び第２端末20の役割を入れ替えた構成を追加したのが図８の構成に相当する。

以下、図３のように各時刻t=1,2,3,…についてリアルタイムに動作する図２の各機能部の詳細に関して、説明する。

第１認識部11は、第１ユーザU1のコミュニケーションに関連する状態の情報として、例えば姿勢（ポーズ）及び／又は表情を認識して、時刻tでの第１認識情報R1(t)を得る。図５は、第１認識情報の模試例として、表情認識の場合の顔画像から抽出した表情に関するランドマーク座標分布を示す図である。表情認識としては以下の非特許文献２のような顔のランドマークの座標を推定する既存技術を利用できる。姿勢認識は身体の各部に装着したセンサを用いたトラッキング技術やカメラを用いた画像認識技術のような骨格情報を推定する既存技術を利用できる。
[非特許文献２] A. Bulat and et al. ``How far are we from solving the 2D & 3D Face Alignment problem?,'' International Conference on Computer Vision, 2017

第１測位部12及び第２測位部22はそれぞれ、第１ユーザU1及び第２ユーザU2の位置姿勢として時刻tの第１測位情報P1(t)及び第２測位情報P2(t)を得る。第１測位部12及び第２測位部22の処理は共通であり、位置姿勢（カメラの外部パラメータに相当する情報）を測位する任意の既存手法として、Visual SLAM（画像ベースの自己位置推定と環境地図作成の同時実行）や６DOF（６自由度）センサなど既存技術を利用できる。測位に際しユーザが存在する環境の深度情報を得られる場合は測位情報の一部として含めることもできる。

なお、第１認識部11、第１測位部12及び第２測位部22をそれぞれ以上のような任意の既存手法により実現する際に、第１ユーザU1及び第２ユーザU2を撮像やキャプチャするためのハードウェアとしてカメラや専用センサ等を利用する場合は、当該ハードウェアは第１端末10や第２端末20に固定的に備わるもの（例えば各端末がスマートフォン等のモバイル端末である場合の当該モバイル端末の内蔵カメラ）であってもよいし、第１ユーザU1や第２ユーザU2が存在する環境E1,E2に設置されて備わるものであってもよい。

サーバ30において、第３描画部33及び第４描画部34は共に、第１測位情報P1(t)及び第２測位情報P2(t)によって定まる３次元座標（第２ユーザU2の仮想空間V2の３次元カメラ座標）に第１ユーザU1のアバタA1を配置し、第１認識情報R1(t)を反映してこのアバタA1を描画することにより、それぞれ、第３描画情報G3(t)及び第４描画情報G4(t)を得る。既に説明したように、第３描画情報G3(t)及び第４描画情報G4(t)は同一の３次元アバタを同一状態且つ同一配置で描画したものであるが、その描画品質のみが異なるものであり、描画品質を区別するものとしては3次元コンピュータグラフィックスにおける光源モデルや表面反射モデルの設定等の、レンダリングに関する設定が挙げられる。

ここで、描画対象となる第１ユーザU1のアバタA1に関しては、第１認識情報R1(t)をパラメータ（表情やポーズを決定するパラメータ）として描画に反映可能に構成されている所定の３次元モデルを予め用意しておけばよい。表情やポーズに応じた描画は、任意の既存の３次元コンピュータグラフィックスの手法を利用してよい。

第２測位情報P2(t)は、第１ユーザU1のアバタA1を見る側である第２ユーザU2の視点の位置姿勢を表すものとして、第２ユーザU2が存在する環境E2の３次元世界座標内における位置姿勢（カメラの外部パラメータ）として取得しておき、アバタA1として描画される対象である第１ユーザU1の第１測位情報P1(t)に対して所定変換（並進及び回転変換）Tを施すことにより、当該環境E2の３次元世界座標内に変換した第１測位情報T・P1(t)をアバタA1の位置姿勢として、第２測位情報P2(t)で定まる仮想カメラ位置からこのアバタA1を描画すればよい。

例えば、変換した第１測位情報T・P1(t)における位置（並進成分）をアバタの顔の位置とし、姿勢（回転成分）をアバタの顔の向きとして描画してよい。

サーバ30において抽出部35は、第３描画情報G3(t)と第４描画情報G4(t)（共に、画像平面内の同一領域のみにマスク画像としてアバタA1を描画した状態として得られている）の差分として第２抽出情報E2(t)=G4(t)-G3(t)を得る。

ここで、第２抽出情報の伝送量を抑制するため、第３描画情報G3(t)に一次変換を施した「a・G3(t)+b」と第４描画情報G4(t)との差分として以下のように第２抽出情報E2(t)を得るようにしてもよい。一次変換の係数a,bは最小二乗法により各時刻tにおいて求め、第２端末20の第２描画部26へと第２抽出情報E2(t)に付随する情報として送信するようにしてもよい。a=1とし、第３描画情報G3(t)に値bを加算（各画素位置に一律に加算）した「G3(t)+b」の画素値平均と第４描画情報G4(t)の画素値平均が一致するようにbの値を求めてもよい。
E2(t)=G4(t)- a・G3(t)-b

なお、上記の係数a,bによる一次変換で第３描画情報G3(t)と第４描画情報G4(t)との相違を抑制する際に、一次変換は第３描画情報G3(t)に対してではなく第４描画情報G4(t)に対して「a・G4(t)+b」として適用して、相違としての第２抽出情報E2(t)を以下のように求めるようにしてもよい。
E2(t)= a・G4(t)+b-G3(t)

また、上記の係数a,b等は、第３描画情報G3(t)及び第４描画情報G4(t)を画像平面内の部分領域としてのマスク画像の全体において共通の値として求めるようにしてもよいし、マスク画像全体を複数のブロック領域に区切ったうえで、当該ブロック領域ごとの値として求めるようにしてもよい。

ここで、元の画像としての第３描画情報G3(t)と第４描画情報G4(t)が例えば8ビットで画素値0～255の範囲で構成される場合、これらの差分画像として得られる第２抽出情報E2(t)は通常、当初のビット数よりも広い-255～+255の範囲の画素値で構成されうるものとなる。このため、当初の色深度B bpp(bit per pixel)（Bは例えば8ビット／ピクセル）に収まるように差分値を量子化するために、抽出部35では量子化誤差を抑制するように差分値を量子化したうえで、当該量子化された第２抽出情報E2(t)_[量子化]を第２統合部27へと送信してもよい。具体的には、以下の式のように、差分値のヒストグラムの値Pi（当該差分値に該当する画素の個数としての頻度Pi）に対して量子化誤差を最小化する量子化ステップqiを求める（貪欲法等の任意の既存手法により求める）ことで量子化すればよい。

上記の式において、int()は整数化関数、Nはヒストグラムのビン数を表す。ここでさらに、解の自由度を下げることによる解の算出の高速化のために、量子化ステップを限定する制約を課すようにしてもよく、量子化ステップの情報は、当該量子化された第２抽出情報E2(t)_[量子化]に付随する情報として第２統合部27へと送信してもよい。

図６は、量子化ステップqiの値の候補を所定の組み合わせとして例えば1または4に限定（q1=1,q2=4）して量子化誤差を最小化した模式例を示す図（B=8ビット）であり、上段側に示すヒストグラムでは取りうる範囲-255～+255の全体ではなく、min～maxの範囲で差分値が分布している。上段側の横方向の双方向矢印で示される範囲が、差分値のヒストグラムの頻度の上位q1*{2^B*q2-(max-min)}/(q2-q1)個の範囲（上位範囲）であり、下段側に量子化誤差を最小化して量子化した結果を8ビットの量子化値と差分値（範囲-255～+255）との対応付けを表すグラフとして示すように、この上位範囲は量子化ステップを細かく1とし、上位範囲以外は量子化ステップを粗く4としている。（なお、当該上位の個数の意義は次の通りである。8ビットの0～255に収まりきらない（minからmaxに存在する）画素値を8ビットの0～255にマッピングしたいとき、A個の画素値をq1=1で量子化し、残りの255－A個の画素値をq2=4で量子化する際、誤差を最小化するにはAを最大化することとなる。個数だけで考えているため、仮にヒストグラムが単調減少で0からmax-minの画素値を0から255にマッピングすると考えると、y=(1/q1)*xとy=(1/q2)*x+255-(max-min)/q2の交点が最大のA個となる。）

第２端末20において、第２描画部26で第２描画情報G2(t)を得る処理は既に説明したように、サーバ30における第３描画部33で第３描画情報G3(t)を得る処理と同一（描画品質も同一）であるため、重複する説明を省略する。

第２統合部27では、第３描画情報G3(t)と同一である第２描画情報G2(t)に対して、第２抽出情報E2(t)を加算することにより、高品質に描画された第４描画情報G4(t)と同一のものとして、または、第４描画情報G4(t)を模したものとして第２統合情報G2S(t)を得る。この第２統合部27の処理は、サーバ30の抽出部35の処理の逆に相当するものである。

なお、第２統合部27では、第２抽出情報E2(t)が前述した係数a,bによる一次変換を用いて抽出されている場合は、当該係数a,bを同様に利用して第２統合情報G2S(t)を得るようにすればよい。また、第２抽出情報E2(t)が前述した量子化ステップで量子化されている場合、第２統合部27では、逆量子化により量子化値より対応する差分値を定めたうえで、差分値分布としての第２抽出情報E2(t)を求めて、第２統合情報G2S(t)を得るようにすればよい。

第２提示部28は、ハードウェアとしてはディスプレイで構成され、第２統合部27で得た第１ユーザU1のアバタA1を描画したものとしての第２統合情報G2S(t)を第２ユーザに対して表示する。第２提示部28を構成するディスプレイが光学シースルー型の場合、アバタの描画結果である第２統合情報G2S(t)のみを表示すればよく、この光学シースルー型ディスプレイをユーザU2が装着した際の視点の位置姿勢が、第２測位部22の測位する第２測位情報P2(t)の位置姿勢と一致するように、この光学シースルー型ディスプレイを配置しておけばよい。（すなわち、第２測位部22は、当該配置されている光学シースルー型ディスプレイの位置姿勢（第２ユーザU2が装着することで第２ユーザU2の視点の位置姿勢に一致する）を、第２測位情報P2(t)（第２ユーザU2の仮想空間V2を描画するための仮想カメラの位置姿勢）として測位するようにすればよい。）また同様に、第２提示部28を構成するディスプレイがビデオシースルー型の場合、アバタの描画結果である第２統合情報G2S(t)を背景映像に対して重畳して表示すればよく、このビデオシースルー型ディスプレイに表示する背景映像は、第２測位部22の測位する第２測位情報P2(t)の位置姿勢と一致するカメラで現時刻tについて撮影したものを用いるようにすればよい。（すなわち、第２測位部22は、当該背景映像を撮影するカメラの位置姿勢を第２測位情報P2(t)として測位すればよい。第２測位部22が画像撮像を行いこの画像から第２測位情報P2(t)を測位している場合は、この画像撮像を行うカメラによる映像を、このビデオシースルー型ディスプレイに表示する背景映像とすればよい。）

図７は、各描画情報及び第２抽出情報の模式例を示す図であり、標準品質で同一のものとして描画される第３描画情報G3(t)及び第２描画情報G2(t)と、これらと比べて高品質に描画される第４描画情報G4(t)と、第３描画情報G3(t)及び第４描画情報G4(t)の差分としての第２抽出情報E2(t)と、の例が示されている。各描画情報は第１ユーザU1のアバタとして顔部分のみを描いた例となっているが、身体部分も含めたアバタを描画するようにしてもよい。第４描画情報G4(t)では方向性光源を配置し、アバタの表面での反射や陰も考慮したレンダリングを行うことにより、これらを考慮しない第３描画情報G3(t)及び第２描画情報G2(t)よりも高品質に描画されている。

以上、本実施形態の提示システム100によれば、アバタを利用した遠隔コミュニケーションにおいて、サーバ30の豊富な計算資源を利用して高品質に描画された3次元アバタと同一またはほぼ同等の３次元アバタをユーザ端末において直接描画することなく表示することにより、高品質な３次元アバタを用いて臨場感を持った遠隔コミュニケーションが可能となり、且つ、サーバ30の描画結果から得られる差分のみを伝送することでサーバ30とユーザ端末との間の通信量も抑制することが可能となる。

以下、各実施形態についての種々の補足等を説明する。

（１）概略説明において説明したように、提示システム100では所定の処理レートの各時刻t=1,2,3,…における情報を同期してリアルタイムで処理するが、第１端末10、第２端末20及びサーバ30ではネットワークタイムプロトコル等の既存手法により予め時計（計時機能）を同期しておくことにより、共通の各時刻tで処理を行うことができる。なお、最終的に第２提示部28で第２統合情報G2S(t)を提示する際の現在時刻が、伝送遅延や処理遅延により第２統合情報G2S(t)に紐づく時刻tよりも未来の時刻t+Δt(Δt>0)となっていてもよい。

第１端末10、第２端末20及びサーバ30では各情報（第１認識情報R1(t)、第１測位情報P1(t)、第２測位情報P2(t)）を取得した時刻tを同期し、これに基づいて当該時刻tをタイムスタンプとして紐づけて第２，第３，第４描画情報G2(t),G3(t),G4(t)や第２抽出情報E2(t)、第２統合情報G2S(t)を得る。時刻tをこのように同期したうえで、第１端末10、第２端末20及びサーバ30の全部または一部において、互いに処理レートが異なっていてもよい。

（２）第２測位部22の測位において深度情報を含めて第２測位情報P2(t)を得た場合、第２描画部26、第３描画部33、第４描画部34において第１ユーザU1の３次元アバタとして第２，第３，第４描画情報G2(t),G3(t),G4(t)をそれぞれ描画する際に、３次元アバタの全体のうち、深度情報よりも奥側（仮想カメラから見て遠方側）に位置する部分が存在する場合は、当該奥側に位置する部分を描画しないようにしてもよい。当該奥側に位置する部分は、第２ユーザU2の存在する環境E2においては何らかの現実物体によって遮蔽される部分であるため、描画しないことにより、現実物体によるオクルージョンを反映して自然な描画結果が得られる場合がある。（なお、位置関係によっては部分的のみ描画されたアバタが現実物体内（例えば壁の内部）に埋もれているように描画される場合もありうる。）

（３）遠隔コミュニケーションの利用設定上、第１ユーザU1のアバタA1を第２ユーザU2に対して提供される仮想空間V2内の固定位置姿勢で表示する場合は、第１測位部12において各時刻tでリアルタイムに第１測位情報P1(t)を得る処理は省略してよい。この場合、リアルタイムの第１測位情報P1(t)が時刻tによらず一定値（予め与えられる所定値）であるものとみなして、サーバ30の第３描画部33、第４描画部34及び抽出部35の処理と、第２端末20の第２描画部26、第２統合部27及び第２提示部28の処理とを、同様に行うようにすればよい。（当該一定値及び前述の所定変換Tにより、仮想空間V2内での固定位置姿勢が定まることとなる。）

（４）以上の図２や図３による説明は、概略説明で前述した通り、第１ユーザU1のアバタA1を第２ユーザU2に対してその仮想空間V2内で表示する処理（「第１アバタ表示処理」とする）に関するものであったが、第１端末10及び第２端末20の役割を入れ替えて全く同様に、第２ユーザU2のアバタA2を第１ユーザU1に対してその仮想空間V1内で表示する処理（「第２アバタ表示処理」とする）を行うことも可能である。

図８は、第１アバタ表示処理及び第２アバタ表示処理を双方向に行う場合の一実施形態に係る提示システム100の機能ブロック図である。図８において第１アバタ表示処理を行う構成は、図２と同様であるため、重複した説明は省略する。図８において、第２アバタ表示処理を行うための構成として、第１端末10は第１測位部12、第１描画部16、第１統合部17及び第１提示部18を備え、第２端末20は第２認識部21及び第２測位部22を備え、これら各部が第２アバタ表示処理を行う際の動作はそれぞれ、第１アバタ表示処理の際の第２端末20における第２測位部22、第２描画部26、第２統合部27及び第２提示部28と、第１端末10における第１認識部11及び第１測位部12と、同一である（処理対象となる第１ユーザの情報と第２ユーザの情報とを入れ替えて全く同一である）ため、重複した説明は省略する。サーバ30での処理も第２アバタ表示処理と第１アバタ表示処理とは同一である（処理対象となる第１ユーザの情報と第２ユーザの情報とを入れ替えて全く同一である）ため、重複した説明は省略する。

（５）提示システム100によりアバタを用いてユーザU1,U2間で遠隔コミュニケーションを行う際は、音声もリアルタイムで録音して相手ユーザ側で再生するようにしてもよい。第１認識情報P1(t)にユーザU1の口の動きが反映されている場合は、ユーザU1のアバタA1はユーザU1が喋る口の動きと連動して喋るようにして、相手ユーザU2に対して表示され、喋っている内容も音声として再生されることとなる。

（６）図９は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。提示システム100における第１端末10、第２端末20及びサーバ30はそれぞれ、このような構成を有する１台以上のコンピュータ装置70として実現可能である。なお、２台以上のコンピュータ装置70で第１端末10、第２端末20及びサーバ30のそれぞれを実現する場合、ネットワークNW経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU（中央演算装置）71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU（グラフィックス演算装置）72、CPU71（及びGPU72）にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、環境やユーザを撮像するカメラ78及びLiDARセンサ等の画像撮像以外を用いたセンシングや計測を行う１種類以上のセンサ79と、これらの間でデータを授受するためのバスBSと、を備える。

第１端末10、第２端末20及びサーバ30のそれぞれの各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び／又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置（プロセッサ）の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。第１提示部18及び第２提示部28はディスプレイ76として実現することで、拡張現実表示を出力してよい。

100…提示システム、10…第１端末、20…第２端末、30…サーバ
11…第１認識部、12…第１測位部
22…第２測位部、26…第２描画部、27…第２統合部、28…第２提示部
33…第３描画部、34…第４描画部、35…抽出部

Claims

第１ユーザのコミュニケーションに関連する状態を認識して第１認識情報を得る第１認識部と、
第２ユーザの位置姿勢を測位して第２測位情報を得る第２測位部と、
前記第２測位情報に配置した仮想カメラ視点において、前記第１認識情報を反映して前記第１ユーザのアバタを描画した第３描画情報を得る第３描画部と、
前記第２測位情報に配置した仮想カメラ視点において、前記第１認識情報を反映して前記第１ユーザのアバタを前記第３描画部の描画態様よりも高品質に描画した第４描画情報を得る第４描画部と、
前記第３描画情報と前記第４描画情報との相違を第２抽出情報として抽出する抽出部と、
前記第２測位情報に配置した仮想カメラ視点において、前記第１認識情報を反映して前記第１ユーザのアバタを前記第３描画部の描画態様と同一品質で描画した第２描画情報を得る第２描画部と、
前記第２描画情報に前記第２抽出情報を反映することで、前記第４描画情報を模したものとしての前記第１ユーザのアバタである第２統合情報を得る第２統合部と、
前記第２統合情報を前記第２ユーザに対して表示する第２提示部と、を備えることを特徴とする提示システム。
前記第１認識部は前記第１ユーザが利用する第１端末に備わり、
前記第２測位部、前記第２描画部、前記第２統合部及び前記第２提示部は前記第２ユーザが利用する第２端末に備わり、
前記第３描画部、前記第４描画部及び前記抽出部はサーバに備わることを特徴とする請求項１に記載の提示システム。
前記第１端末、前記第２端末及び前記サーバは、ネットワークを介して相互に通信可能に構成されることを特徴とする請求項２に記載の提示システム。
前記第１認識部は、前記第１ユーザのコミュニケーションに関連する状態として、表情及び／又はポーズを認識して前記第１認識情報を得ることを特徴とする請求項１ないし３のいずれかに記載の提示システム。
前記抽出部は、前記第３描画情報と前記第４描画情報との相違を抑制するように、前記第３描画情報と前記第４描画情報の一方に変換処理を施したものと、当該もう一方と、の相違を、当該施した変換処理の情報と共に前記第２抽出情報として抽出することを特徴とする請求項１ないし４のいずれかに記載の提示システム。
前記変換処理は、一次変換または定数加算であることを特徴とする請求項５に記載の提示システム。
前記抽出部は、前記第３描画情報と前記第４描画情報との相違として算出される画素差分値マップにおける各差分値を、量子化誤差を抑制するように量子化したものとして、前記第２抽出情報を抽出することを特徴とする請求項１ないし６のいずれかに記載の提示システム。
前記抽出部は、前記量子化する際の量子化ステップを限定することを特徴とする請求項７に記載の提示システム。
前記第２測位部では、前記第２ユーザの位置姿勢を測位して前記第２測位情報を得る際に、前記第２ユーザが存在する環境における深度情報も取得し、
前記第２描画部、前記第３描画部及び前記第４描画部では、前記第１ユーザのアバタを前記第２描画情報、前記第３描画情報及び前記第４描画情報としてそれぞれ描画する際に、前記深度情報によって遮蔽されている部分については描画しないことを特徴とする請求項１ないし８のいずれかに記載の提示システム。
前記第１ユーザの位置姿勢を測位して第１測位情報を得る第１測位部をさらに備え、
前記第２描画部、前記第３描画部及び前記第４描画部では、前記第１ユーザのアバタを前記第１測位情報に応じた位置姿勢に配置して、前記第２描画情報、前記第３描画情報及び前記第４描画情報としてそれぞれ描画することを特徴とする請求項１ないし９のいずれかに記載の提示システム。
第１ユーザが利用し、第１認識部を備える第１端末と、
第２ユーザが利用し、第２測位部、第２描画部、第２統合部及び第２提示部を備える第２端末と、
第３描画部、第４描画部及び抽出部を備えるサーバと、を備える提示システムにおけるサーバであって、
前記第１認識部は、前記第１ユーザのコミュニケーションに関連する状態を認識して第１認識情報を得て、
前記第２測位部は、前記第２ユーザの位置姿勢を測位して第２測位情報を得て、
前記第３描画部は、前記第２測位情報に配置した仮想カメラ視点において、前記第１認識情報を反映して前記第１ユーザのアバタを描画した第３描画情報を得て、
前記第４描画部は、前記第２測位情報に配置した仮想カメラ視点において、前記第１認識情報を反映して前記第１ユーザのアバタを前記第３描画部の描画態様よりも高品質に描画した第４描画情報を得て、
前記抽出部は、前記第３描画情報と前記第４描画情報との相違を第２抽出情報として抽出し、
前記第２描画部は、前記第２測位情報に配置した仮想カメラ視点において、前記第１認識情報を反映して前記第１ユーザのアバタを前記第３描画部の描画態様と同一品質で描画した第２描画情報を得て、
前記第２統合部は、前記第２描画情報に前記第２抽出情報を反映することで、前記第４描画情報を模したものとしての前記第１ユーザのアバタである第２統合情報を得て、
前記第２提示部は、前記第２統合情報を前記第２ユーザに対して表示することを特徴とするサーバ。
第１ユーザが利用し、第１認識部を備える第１端末と、
第２ユーザが利用し、第２測位部、第２描画部、第２統合部及び第２提示部を備える第２端末と、
第３描画部、第４描画部及び抽出部を備えるサーバと、を備える提示システムにおける第２端末であって、
前記第１認識部は、前記第１ユーザのコミュニケーションに関連する状態を認識して第１認識情報を得て、
前記第２測位部は、前記第２ユーザの位置姿勢を測位して第２測位情報を得て、
前記第３描画部は、前記第２測位情報に配置した仮想カメラ視点において、前記第１認識情報を反映して前記第１ユーザのアバタを描画した第３描画情報を得て、
前記第４描画部は、前記第２測位情報に配置した仮想カメラ視点において、前記第１認識情報を反映して前記第１ユーザのアバタを前記第３描画部の描画態様よりも高品質に描画した第４描画情報を得て、
前記抽出部は、前記第３描画情報と前記第４描画情報との相違を第２抽出情報として抽出し、
前記第２描画部は、前記第２測位情報に配置した仮想カメラ視点において、前記第１認識情報を反映して前記第１ユーザのアバタを前記第３描画部の描画態様と同一品質で描画した第２描画情報を得て、
前記第２統合部は、前記第２描画情報に前記第２抽出情報を反映することで、前記第４描画情報を模したものとしての前記第１ユーザのアバタである第２統合情報を得て、
前記第２提示部は、前記第２統合情報を前記第２ユーザに対して表示することを特徴とする第２端末。
コンピュータを請求項１１に記載のサーバとして機能させることを特徴とするプログラム。
コンピュータを請求項１２に記載の第２端末として機能させることを特徴とするプログラム。