JP2023117998A

JP2023117998A - システム、情報処理装置、及び方法

Info

Publication number: JP2023117998A
Application number: JP2022020857A
Authority: JP
Inventors: 航加来; Ko Kako
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2023-08-24
Also published as: US20230260076A1; CN116597110A

Abstract

【課題】３Ｄモデルのメッシュデータを生成する技術を改善する。【解決手段】互いに通信可能な第１情報処理装置１０ａ及び第２情報処理装置１０ｂを備えるシステム１であって、第１情報処理装置１０ａは、複数の頂点を含む３次元点群データであって各頂点がｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有しており且つ各頂点のｘ座標及びｙ座標の組合せが互いに異なる３次元点群データを取得し、第１情報処理装置１０ａ又は第２情報処理装置１０ｂは、３次元点群データを、複数の頂点のそれぞれがｘ座標及びｙ座標の組合せごとに値が異なるｍとｚ座標との２つのパラメータを有する２次元点群データに変換し、第２情報処理装置１０ｂは、ｘ座標及びｙ座標の組合せとｍとの対応関係を示す情報と、２次元点群データと、を用いてメッシュデータを生成する。【選択図】図１

Description

本開示は、システム、情報処理装置、及び方法に関する。

従来、３Ｄモデルのメッシュデータを生成する技術が知られている。例えば特許文献１には、解析対象物を３次元形状計測して得られた（ｘ，ｙ，ｚ）座標で表される点列データに基づいて解析メッシュを生成することが開示されている。

特開平０６－３０１７６７号公報

３Ｄモデルのメッシュデータを生成する技術には改善の余地があった。

かかる事情に鑑みてなされた本開示の目的は、３Ｄモデルのメッシュデータを生成する技術を改善することにある。

本開示の一実施形態に係るシステムは、
互いに通信可能な第１情報処理装置及び第２情報処理装置を備えるシステムであって、
前記第１情報処理装置は、
複数の頂点を含む３次元点群データであって、各頂点がｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有しており且つ各頂点のｘ座標及びｙ座標の組合せが互いに異なる、前記３次元点群データを取得し、
前記第１情報処理装置又は前記第２情報処理装置は、
前記３次元点群データを、前記複数の頂点のそれぞれがｘ座標及びｙ座標の組合せごとに値が異なるｍとｚ座標との２つのパラメータを有する２次元点群データに変換し、
前記第２情報処理装置は、
ｘ座標及びｙ座標の組合せとｍとの対応関係を示す情報と、前記２次元点群データと、を用いてメッシュデータを生成する。

本開示の一実施形態に係る情報処理装は、
制御部を備える情報処理装置であって、
前記制御部は、
各頂点がｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有しており且つ各頂点のｘ座標及びｙ座標の組合せが互いに異なる複数の頂点を含む３次元点群データから変換される２次元点群データであって、前記複数の頂点のそれぞれがｘ座標及びｙ座標の組合せごとに値が異なるｍとｚ座標との２つのパラメータを有する前記２次元点群データを取得し、
ｘ座標及びｙ座標の組合せとｍとの対応関係を示す情報と、前記２次元点群データと、を用いてメッシュデータを生成する。

本開示の一実施形態に係る方法は、
情報処理装置が実行する方法であって、
各頂点がｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有しており且つ各頂点のｘ座標及びｙ座標の組合せが互いに異なる複数の頂点を含む３次元点群データから変換される２次元点群データであって、前記複数の頂点のそれぞれがｘ座標及びｙ座標の組合せごとに値が異なるｍとｚ座標との２つのパラメータを有する前記２次元点群データを取得すること、及び
ｘ座標及びｙ座標の組合せとｍとの対応関係を示す情報と、前記２次元点群データと、を用いてメッシュデータを生成することを含む。

本開示の一実施形態によれば、３Ｄモデルのメッシュデータを生成する技術が改善される。

本開示の一実施形態に係るシステムの概略構成を示すブロック図である。可視光カメラ及び深度カメラの撮影範囲及び解像度の例を説明する図である。３次元点群データの例を示す図である。３次元点群データから変換された２次元点群データの例を示す図である。情報処理装置の概略構成を示すブロック図である。システムの動作の例を示すシーケンス図である。生成されたメッシュデータのｙ－ｚ平面による断面を示す模式図である。

以下、本開示の実施形態について説明する。

（実施形態の概要）
図１を参照して、本開示の実施形態に係るシステム１の概要について説明する。システム１は、複数の情報処理装置１０を備える。図１では２つの情報処理装置１０（１０ａ、１０ｂ）が図示されているが、システム１は３つ以上の情報処理装置１０を備えてもよい。以下の説明において、２つの情報処理装置１０（１０ａ、１０ｂ）を区別する場合、第１情報処理装置１０ａ及び第２情報処理装置１０ｂという。

情報処理装置１０は、例えばＰＣ（Personal Computer）、スマートフォン、又はタブレット端末等の、ユーザによって使用される任意のコンピュータである。複数の情報処理装置１０は、例えばインターネット等を含むネットワーク２０を介して互いに通信可能である。なお、情報処理装置１０同士の通信は、ネットワーク２０上に設けられたサーバを介して行われてもよく、或いはＰ２Ｐで行われてもよい。

本実施形態において、システム１は、各情報処理装置１０のユーザが対話相手（他のユーザ）の映像を見ながら音声で対話を行う遠隔対話サービスの提供に用いられる。具体的には、各情報処理装置１０は、後述するように可視光カメラ及び深度カメラを備えており、被写体を撮影して可視光画像及び深度画像を生成可能である。可視光画像の各ピクセルは、ｘ座標、ｙ座標、及び色情報（例えばＲＧＢ値）を有する。一方、深度画像の各ピクセルは、ｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有する。すなわち、深度画像のデータは、それぞれｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有するＮ個の頂点Ｐから成る３次元点群データである。本実施形態では説明の簡便のため、図２に示すように、可視光カメラ及び深度カメラは実質的に同一の撮影範囲及び解像度を有しており、生成される可視光画像及び深度画像の解像度はいずれも６４０ピクセル×４８０ピクセルである例を用いて説明する。かかる場合、３次元点群データを構成する頂点Ｐの数Ｎは、Ｎ＝６４０×４８０＝３０７２００である。

各情報処理装置１０は、可視光カメラ及び深度カメラの被写体となったユーザの形状に対応するメッシュデータを３次元点群データから生成し、当該メッシュデータに可視光画像をマッピングして当該ユーザの３Ｄモデルを作成し、３次元仮想空間に配置した当該３Ｄモデルを仮想カメラで撮影して得られたレンダリング画像を画面に表示可能である。なお遠隔対話の実行中には、各情報処理装置１０は、各対話相手（すなわち、他の情報処理装置１０のユーザ）の３Ｄモデルを配置した３次元仮想空間に対してリアルタイムレンダリングを行う。このようにして、遠隔対話の実行中、各情報処理装置１０の画面上に表示される対話相手の３Ｄモデルは、当該対話相手の実際の動作に追従するように動く。

ここで、本実施形態の概要について説明し、詳細については後述する。本実施形態では、３次元点群データから変換された２次元点群データを用いてメッシュデータの生成が行われる。

具体的には、第１情報処理装置１０ａは、複数の頂点Ｐを含む３次元点群データを取得する。ここで、３次元点群データの各頂点Ｐは、例えば図３に示すように、ｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有しており、且つ各頂点Ｐのｘ座標及びｙ座標の組合せが互いに異なる。図３に示すｍは、ｘ座標及びｙ座標の組合せごとに値が異なるパラメータである。このため、ｘ座標及びｙ座標の組合せとパラメータｍとは１対１の対応関係を有しており、一方が定まれば他方も一意に定まる。したがって、３次元点群データにおいて各頂点Ｐは、パラメータｍを用いてＰｍ（ｘｍ，ｙｍ，ｚｍ）と表すことができる。例えば、深度画像の解像度が６４０ピクセル×４８０ピクセルである場合、ｍは１以上３０７２００以下の値を取り得る（１≦ｍ≦３０７２００）。

続いて、第１情報処理装置１０ａ又は第２情報処理装置１０ｂは、３次元点群データを２次元点群データに変換する。ここで、２次元点群データの各頂点Ｐは、例えば図４に示すように、ｘ座標及びｙ座標の組合せごとに値が異なるｍと、ｚ座標と、の２つのパラメータを有する。したがって、２次元点群データにおいて各頂点Ｐは、パラメータｍを用いてＰｍ（ｍ，ｚｍ）と表すことができる。

そして、第２情報処理装置１０ｂは、ｘ座標及びｙ座標の組合せとパラメータｍとの対応関係を示す情報と、上記の２次元点群データと、を用いてメッシュデータを生成する。ここで、ｘ座標及びｙ座標の組合せとパラメータとの具体的な対応関係は任意に定めることができる。図３及び図４に示す例では、ｘ座標及びｙ座標の組合せとパラメータｍとの対応関係を示す情報は、ｍ＝１が（０，０）に対応し、ｍ＝２が（１，０）に対応し、ｍ＝３０７２００が（６３９，４７９）に対応することを示している。

このように、本実施形態に係る３次元点群データに含まれる各頂点Ｐは、ｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有している。ここで、各頂点Ｐのｘ座標及びｙ座標の組合せが互いに異なるので、ｘ座標及びｙ座標の組合せとパラメータｍとの対応関係を予め定義しておくことにより、３次元点群データを、各頂点Ｐがｍ及びｚ座標の２つのパラメータを有する２次元点群データに変換可能である。本実施形態によれば、２次元点群データを用いてメッシュデータが生成されるので、例えば３次元点群データを用いてメッシュデータを生成する構成と比較してメッシュデータの生成処理が高速化する点で、３Ｄモデルのメッシュデータを生成する技術が改善される。

次に、システム１の各構成について詳細に説明する。

（情報処理装置の構成）
図５に示すように、情報処理装置１０は、通信部１１と、出力部１２と、入力部１３と、センサ部１４と、記憶部１５と、制御部１６と、を備える。

通信部１１は、ネットワーク２０に接続する１つ以上の通信インタフェースを含む。当該通信インタフェースは、例えば４Ｇ（4th Generation）若しくは５Ｇ（5th Generation）等の移動体通信規格、無線ＬＡＮ（Local Area Network）、又は有線ＬＡＮに対応するが、これらに限られず任意の通信規格に対応してもよい。

出力部１２は、情報を出力してユーザに通知する１つ以上の出力装置を含む。当該出力装置は、例えば情報を映像で出力するディスプレイ、又は情報を音で出力するスピーカ等であるが、これらに限られない。或いは、出力部１２は、外部の出力装置を接続するためのインタフェースを含んでもよい。

入力部１３は、ユーザ入力を検出する１つ以上の入力装置を含む。当該入力装置は、例えば物理キー、静電容量キー、マウス、タッチパネル、出力部１２のディスプレイと一体的に設けられたタッチスクリーン、又はマイクロフォン等であるが、これらに限られない。或いは、入力部１３は、外部の入力装置を接続するためのインタフェースを含んでもよい。

センサ部１４は、１つ以上のセンサを含む。当該センサは、例えば可視光画像を生成する可視光カメラ、又は深度画像を生成する深度カメラ等であるが、これらに限られない。或いは、センサ部１４は、外部のセンサを接続するためのインタフェースを含んでもよい。例えば、可視光カメラ及び深度カメラを有するＫｉｎｅｃｔ（登録商標）が、センサ部１４として採用されてもよい。

本実施形態では、センサ部１４は可視光カメラ及び深度カメラの両方を含む。可視光カメラ及び深度カメラは、実質的に同一の撮影範囲を有するように、例えば互いに近接して設けられてもよい。図２に示す例では、可視光カメラ及び深度カメラは、規定の位置（例えば、出力部１２のディスプレイに対向する位置）に存在するユーザを正面から撮影可能である。或いは、可視光カメラ及び深度カメラは、規定の位置に存在するユーザをそれぞれ異なる角度から撮影可能となるように設けられてもよい。かかる場合、可視光画像及び深度画像の少なくとも一方に対して、ユーザを正面から撮影した画像となるように視点変換の画像処理が施されてもよい。

記憶部１５は、１つ以上のメモリを含む。メモリは、例えば半導体メモリ、磁気メモリ、又は光メモリ等であるが、これらに限られない。記憶部１５に含まれる各メモリは、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部１５は、情報処理装置１０の動作に用いられる任意の情報を記憶する。例えば、記憶部１５は、システムプログラム、アプリケーションプログラム、及び組み込みソフトウェア等を記憶してもよい。

制御部１６は、１つ以上のプロセッサ、１つ以上のプログラマブル回路、１つ以上の専用回路、又はこれらの組合せを含む。プロセッサは、例えばＣＰＵ（Central Processing Unit）若しくはＧＰＵ（Graphics Processing Unit）等の汎用プロセッサ、又は特定の処理に特化した専用プロセッサであるがこれらに限られない。プログラマブル回路は、例えばＦＰＧＡ（Field-Programmable Gate Array）であるがこれに限られない。専用回路は、例えばＡＳＩＣ（Application Specific Integrated Circuit）であるがこれに限られない。制御部１６は、情報処理装置１０全体の動作を制御する。

（システムの動作フロー）
図６を参照して、本実施形態に係るシステム１の動作について説明する。概略として当該動作は、第１情報処理装置１０ａのユーザａと第２情報処理装置１０ｂのユーザｂの遠隔対話中に実行される動作のうち、第２情報処理装置１０ｂがユーザａの３Ｄモデルのレンダリング画像を生成及び表示する動作である。当該動作は、例えば所定の又は通信速度に応じたフレームレートで、遠隔対話中に繰り返し実行される。

ステップＳ１００：第１情報処理装置１０ａは、ユーザａの可視光画像及び深度画像を取得する。

具体的には、第１情報処理装置１０ａの制御部１６ａは、センサ部１４ａの可視光カメラ及び深度カメラでユーザａを撮影することによって、ユーザａの可視光画像及び深度画像を取得する。ここで可視光カメラ及び深度カメラは、出力部１２ａのディスプレイに対向する位置に存在するユーザａを正面から撮影するものとして説明する。また図２に示すように、可視光カメラ及び深度カメラの撮影範囲は実質的に同一であり、取得される可視光画像及び深度画像の解像度は６４０ピクセル×４８０ピクセルであるものとして説明する。上述したように、取得される可視光画像の各ピクセルは、ｘ座標、ｙ座標、及び色情報（例えばＲＧＢ値）を有する。一方、取得される深度画像（３次元点群データ）に含まれる各頂点Ｐは、図３に示すように、ｘ座標及びｙ座標の組合せごとに値が異なるパラメータｍを用いて、頂点Ｐｍ（ｘｍ，ｙｍ，ｚｍ）と表される。

なお、制御部１６ａは、取得された深度画像（３次元点群データ）に対して、例えばノイズ除去及び位置合わせ等の任意の前処理を施してもよい。

ステップＳ１０１：第１情報処理装置１０ａは、ステップＳ１００の深度画像に含まれる全ての頂点Ｐのうち、被写体である人物（ここでは、ユーザａ）に対応する各頂点Ｐを特定する。

被写体である人物に対応する各頂点Ｐの特定には、任意の手法が採用可能である。例えば、制御部１６ａは、深度画像に含まれる全ての頂点Ｐのうち、ｚ座標（すなわち、深度カメラからの距離）が所定の範囲内である各頂点Ｐを、人物に対応する頂点Ｐとして特定してもよい。或いは、制御部１６ａは、可視光画像及び深度画像の少なくとも一方から人物の輪郭を画像認識により検出し、検出された輪郭の内部に位置する各頂点Ｐを、人物に対応する頂点Ｐとして特定してもよい。かかる場合において、制御部１６ａは、人物の部位（例えば、頭部、肩、体幹、及び腕等）ごとに各頂点Ｐを特定してもよい。人物の各部位の推定には、例えば可視光画像及び深度画像の少なくとも一方を用いた画像認識又は骨格検出等、任意の手法が採用可能である。

ここで制御部１６ａは、人物に対応しない各頂点Ｐ（例えば、人物の背景に対応する頂点Ｐ等）を深度画像（３次元点群データ）から削除してもよい。かかる場合、深度画像（３次元点群データ）は人物に対応する複数の頂点Ｐのみを含むことになるので、深度画像（３次元点群データ）に含まれる頂点Ｐの数がＮ個（ここでは、６４０×４８０＝３０７２００個）よりも少なくなり、結果としてデータ量が削減される。

ステップＳ１０２：第１情報処理装置１０ａは、ステップＳ１０１で特定された複数の頂点Ｐに基づいて、基準値ｚ０を決定する。

概略として、基準値ｚ０は、深度カメラと被写体である人物（ここでは、ユーザａ）の距離の代表値である。基準値ｚ０は、メッシュデータを生成するステップＳ１０７で用いられる情報であるため、詳細については後述する。

基準値ｚ０の決定には、任意の手法が採用可能である。例えば、制御部１６ａは、ステップＳ１０１で被写体である人物に対応するものとして特定された複数の頂点Ｐのうち何れか１つの頂点Ｐのｚ座標の値を、基準値ｚ０として決定してもよい。ここで制御部１６ａは、人物の頭部、肩、又は体幹に対応する何れか１つの頂点Ｐのｚ座標の値を基準値ｚ０として決定してもよい。或いは、制御部１６ａは、特定された当該複数の頂点Ｐのうち、２つ以上の頂点Ｐのｚ座標に基づいて算出される値（例えば、平均値又は中央値等）を、基準値ｚ０として決定してもよい。ここで制御部１６ａは、人物の頭部、肩、又は体幹に対応する２つ以上の頂点Ｐのｚ座標に基づいて算出される値を、基準値ｚ０として決定してもよい。

ステップＳ１０３：第１情報処理装置１０ａは、被写体である人物（ここでは、ユーザａ）の姿勢を検出する。

人物の姿勢の検出には、任意の手法が採用可能である。例えば、制御部１６ａは、可視光画像及び深度画像の少なくとも一方を用いた画像認識又は骨格検出によって、人物の姿勢を検出してもよい。本実施形態では、制御部１６ａによって検出される姿勢は、前傾姿勢、後傾姿勢、及び直立姿勢の３つの姿勢の中から選択される。前傾姿勢は、人物の上体が前傾している姿勢である。後傾姿勢は、人物の上体が後傾している姿勢である。直立姿勢は、人物の上体が前後に傾いていない姿勢である。しかしながら、当該例に限られず、より詳細な姿勢が制御部１６ａによって検出されてもよい。例えば、制御部１６ａは、人物の上体の前後方向における傾斜角度を姿勢として検出してもよい。

ステップＳ１０４：第１情報処理装置１０ａは、ステップＳ１０３で検出された姿勢に基づいて、Δｚを決定する。

概略として、Δｚは、上述した基準値ｚ０を基準とするｚ方向の距離範囲ｚ０±Δｚを定義するための数値である。距離範囲ｚ０±Δｚは、メッシュデータを生成するステップＳ１０７で用いられる情報であるため、詳細については後述する。

Δｚの決定には、任意の手法が採用可能である。例えば、被写体である人物が頭部、肩、又は体幹と深度カメラとの間を遮るように手を突き出している状況を考える。例えば、制御部１６ａは、ステップＳ１０３で検出された姿勢が直立姿勢である場合にはΔｚを所定値（例えば、３０ｃｍ）とする一方、ステップＳ１０３で検出された姿勢が前傾姿勢又は後傾姿勢である場合には、直立姿勢である場合よりもΔｚを大きくしてもよい。或いは、ステップＳ１０３で人物の上体の前後方向における傾斜角度が姿勢として検出されている場合、制御部１６ａは、傾斜角度の絶対値が大きいほどΔｚを大きくしてもよい。何れの手法であっても、検出された姿勢に応じてΔｚを適切に決定することにより、例えば、頭部、肩、及び体幹はｚ０±Δｚの範囲内に存在する一方、突き出された手はｚ０±Δｚの範囲外に存在するものと推定可能となる。

ステップＳ１０５：第１情報処理装置１０ａは、３次元点群データを２次元点群データに変換する。

ここで、２次元点群データは、各頂点がｘ座標及びｙ座標の組合せごとに値が異なるｍとｚ座標との２つのパラメータを有する点群データである。上述したように、３次元点群データに含まれる各頂点Ｐは、ｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有しており、且つ各頂点Ｐのｘ座標及びｙ座標の組合せが互いに異なる。このため、３次元点群データに含まれる各頂点Ｐは、図３に示すように、パラメータｍを用いて頂点Ｐｍ（ｘｍ，ｙｍ，ｚｍ）と表すことができる。一方、２次元点群データに含まれる各頂点Ｐは、ｍと、ｚ座標と、の２つのパラメータを有している。このため、２次元点群データに含まれる各頂点Ｐは、図４に示すように、頂点Ｐｍ（ｍ，ｚｍ）と表すことができる。

なお、図３及び図４に示す例では、ｘ座標及びｙ座標の組合せとパラメータｍとの対応関係は、ｍ＝１が（ｘ＝０，ｙ＝０）に対応し、ｍ＝２が（ｘ＝１，ｙ＝０）に対応し、ｍ＝３０７２００が（ｘ＝６３９，ｙ＝４７９）に対応するように定義されている。しかしながら、ｘ座標及びｙ座標の組合せとパラメータｍとの対応関係は、当該例に限られず任意に定義可能である。ｘ座標及びｙ座標の組合せとパラメータｍとの対応関係を示す情報は、例えば予め記憶部１５ａに記憶されていてもよい。

このように、ステップＳ１０５では、各頂点Ｐｍのデータが、ｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有する３次元のデータから、パラメータｍ及びｚ座標の２つのパラメータを有する２次元のデータに変換される。

ステップＳ１０６：第１情報処理装置１０ａは、被写体である人物（ここでは、ユーザａ）の３Ｄモデルの生成に用いられる任意の情報を第２情報処理装置１０ｂへ送信する。

本実施形態では、制御部１６ａは、ステップＳ１００で取得された可視光画像、ステップＳ１０２で決定された基準値ｚ０、ステップＳ１０４で決定されたΔｚ、ステップＳ１０５で生成された２次元点群データ、並びに、ｘ座標及びｙ座標の組合せとパラメータｍとの対応関係を示す情報を、通信部１１ａ及びネットワーク２０を介して第２情報処理装置１０ｂへ送信する。なお、ステップＳ１０１で人物に対応しない各頂点Ｐが深度画像（３次元点群データ）から削除されていない場合、制御部１６ａは、ステップＳ１０１で被写体である人物に対応するものとして特定された各頂点Ｐを示す情報（例えば、特定された各頂点Ｐに対応するパラメータｍ）を、第２情報処理装置１０ｂへ送信してもよい。

ステップＳ１０７：第２情報処理装置１０ｂは、ｘ座標及びｙ座標の組合せとパラメータｍとの対応関係を示す情報と、２次元点群データと、を用いて、被写体である人物（ここでは、ユーザａ）のメッシュデータを生成する。

上述したように、本実施形態では、各頂点Ｐのｘ座標及びｙ座標の組合せが互いに異なるので、ｘ座標及びｙ座標の組合せとパラメータｍとの対応関係を予め定義しておくことにより、３次元点群データを、各頂点Ｐがｍ及びｚ座標の２つのパラメータを有する２次元点群データに変換可能である。本実施形態によれば、２次元点群データを用いてメッシュデータが生成されるので、例えば３次元点群データを用いてメッシュデータを生成する構成と比較してメッシュデータの生成処理が高速化する。

なお、メッシュデータの生成には、例えばドロネー法又はアドバンシングフロント法など、任意のアルゴリズムが採用可能である。具体的には、第２情報処理装置１０ｂの制御部１６ｂは、２次元点群データに含まれる複数の頂点Ｐのうち、採用されるアルゴリズムに応じて特定される２つの頂点Ｐごとに、当該２つの頂点Ｐを連結する辺を形成する。制御部１６ｂは、所定数の辺で囲まれた各微小平面をポリゴンで形成する。典型的には、形成される各ポリゴンは、３つの頂点と、当該３つの頂点を連結する３つの辺と、を含んで成る三角ポリゴンであるが、ポリゴンの形状は当該例に限られない。このようにして制御部１６ｂは、頂点Ｐ、辺、及びポリゴンの集合をメッシュデータとして生成する。

メッシュデータを生成する際、制御部１６ａは、２つの頂点Ｐのうち一方の頂点Ｐのｚ座標がｚ０±Δｚの範囲内であり、且つ、他方の頂点Ｐのｚ座標がｚ０±Δｚの範囲外である場合、当該２つの頂点を含んで成るポリゴンを形成しなくてもよい。かかる構成によれば、例えば被写体である人物（ここでは、ユーザａ）が頭部、肩、又は体幹と深度カメラとの間を遮るように手を突き出していた場合に、頭部、肩、又は体幹と手との間にポリゴンが形成されてしまうという不都合の発生が低減可能である。以下、図７を参照して説明する。

図７は、生成されたメッシュデータのｙ－ｚ平面による断面を示す模式図である。メッシュＭ１は頭部（顔）に対応し、メッシュＭ２は突き出された手に対応し、メッシュＭ３は体幹に対応する。なお上述したように、本実施形態では第１情報処理装置１０ａの深度カメラはユーザａを正面から撮影しているため、ユーザａの体の一部（具体的には、背面部分、及び、突き出された手で遮られた部分）については対応するメッシュが形成されていない。しかしながら説明の簡便のため、対応するメッシュが形成されていないユーザａの体の一部を一点鎖線で図示している。

ここで、メッシュＭ１の下端に位置する頂点Ｐａと、メッシュＭ２の上端に位置する頂点Ｐｂに着目する。頂点Ｐａ及び頂点Ｐｂは、ｙ方向において隣接している。頂点Ｐａのｚ座標は、ｚ０±Δｚの範囲内である。一方、頂点Ｐｂのｚ座標は、ｚ０±Δｚの範囲外である。したがって、頂点Ｐａ及び頂点Ｐｂを含んで成るポリゴンが形成されないので、例えば頭部に対応するメッシュＭ１と突き出された手に対応するメッシュＭ２とが不自然に繋がってしまうという不都合の発生が低減される。また、メッシュＭ２の下端に位置する頂点Ｐｃと、メッシュＭ３の上端に位置する頂点Ｐｄについても同様である。頂点Ｐｃ及び頂点Ｐｄは、ｙ方向において隣接している。頂点Ｐｃのｚ座標は、ｚ０±Δｚの範囲外である。一方、頂点Ｐｄのｚ座標は、ｚ０±Δｚの範囲外である。したがって、頂点Ｐｃ及び頂点Ｐｄを含んで成るポリゴンが形成されないので、例えば突き出された手に対応するメッシュＭ２と体幹に対応するメッシュＭ３とが不自然に繋がってしまうという不都合の発生が低減される。

ステップＳ１０８：第２情報処理装置１０ｂは、ステップＳ１０７で生成されたメッシュデータに可視光画像をマッピングして、被写体である人物（ここでは、ユーザａ）の３Ｄモデルを作成する。

上述したように、本実施形態では、第１情報処理装置１０ａの可視光カメラ及び深度カメラは実質的に同一の撮影範囲及び解像度を有している。このため、可視光画像の各ピクセルは、深度画像（３次元点群データ）の各頂点Ｐと１対１の対応関係を有している。制御部１６ｂは、当該対応関係に基づいて、可視光画像のうちユーザａに対応する領域をメッシュデータにマッピングする。このようにして、ユーザａの３Ｄモデルが作成される。

ステップＳ１０９：第２情報処理装置１０ｂは、ステップＳ１０８で作成された３Ｄモデルのレンダリング画像を生成及び表示する。

具体的には、制御部１６ｂは、被写体である人物（ここでは、ユーザａ）の３Ｄモデルを３次元仮想空間に配置する。制御部１６ｂは、３次元仮想空間に配置された３Ｄモデルを仮想カメラで撮影することによってレンダリング画像を生成し、当該レンダリング画像を出力部１２ｂのディスプレイに表示させる。なお、３次元仮想空間における仮想カメラの位置は、予め定められていてもよく、或いは第２情報処理装置１０ｂのユーザｂの現実空間における位置に連動してもよい。

以上述べたように、本実施形態に係るシステム１において、第１情報処理装置１０ａは、複数の頂点Ｐを含む３次元点群データを取得する。３次元点群データにおいて、各頂点Ｐはｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有しており、且つ各頂点Ｐのｘ座標及びｙ座標の組合せが互いに異なる。第１情報処理装置１０ａは、３次元点群データを２次元点群データに変換する。２次元点群データにおいて、当該複数の頂点Ｐのそれぞれは、ｘ座標及びｙ座標の組合せごとに値が異なるｍとｚ座標との２つのパラメータを有する。そして、第２情報処理装置１０ｂは、ｘ座標及びｙ座標の組合せとｍとの対応関係を示す情報と、当該２次元点群データと、を用いてメッシュデータを生成する。

かかる構成によれば、各頂点Ｐのｘ座標及びｙ座標の組合せが互いに異なるので、ｘ座標及びｙ座標の組合せとパラメータｍとの対応関係を予め定義しておくことにより、３次元点群データを、各頂点Ｐがｍ及びｚ座標の２つのパラメータを有する２次元点群データに変換可能である。本実施形態によれば、２次元点群データを用いてメッシュデータが生成されるので、例えば３次元点群データを用いてメッシュデータを生成する構成と比較してメッシュデータの生成処理が高速化する点で、３Ｄモデルのメッシュデータを生成する技術が改善される。

本開示を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び改変を行ってもよいことに注意されたい。したがって、これらの変形及び改変は本開示の範囲に含まれることに留意されたい。例えば、各構成部又は各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の構成部又はステップ等を１つに組み合わせたり、或いは分割したりすることが可能である。

例えば、上述した実施形態において第１情報処理装置１０ａが実行した動作の一部を第２情報処理装置１０ｂに実行させる実施形態も可能である。例えば、上述したステップＳ１０１～Ｓ１０５の動作は、第２情報処理装置１０ｂが実行してもよい。かかる場合、第１情報処理装置１０ａは、ステップＳ１００で取得された可視光画像及び深度画像（３次元点群データ）を第２情報処理装置１０ｂへ送信し、第２情報処理装置１０ｂは、ステップＳ１０１～Ｓ１０５の動作を実行する。換言すると、ステップＳ１０１～Ｓ１０５の動作は、第１情報処理装置１０ａ及び第２情報処理装置１０ｂの何れか一方が実行すればよい。

また、上述した実施形態において、第２情報処理装置１０ｂは、メッシュデータを生成する際、生成するメッシュデータの解像度を、第１情報処理装置１０ａの深度カメラと被写体である人物（ここでは、ユーザａ）の距離（すなわち、ｚ座標）に応じて調整してもよい。メッシュデータの解像度は、例えば２次元点群データに含まれる一部の頂点Ｐを間引く等、任意の手法で低下させることができる。メッシュデータの解像度を低下させることにより、メッシュデータの生成及びレンダリング等の処理負荷が軽減される。例えば、第２情報処理装置１０ｂの制御部１６ｂは、深度カメラとユーザａの距離が遠いほど（すなわち、ｚ座標が大きいほど）解像度を低下させてもよい。ユーザａが深度カメラから離れている場合には、例えばユーザａの表情等の細部を３Ｄモデルで精度良く表現することが困難であるため、生成するメッシュデータの解像度を意図的に下げても画面の視認性に対する悪影響は少ない。或いは、制御部１６ｂは、深度カメラとユーザａの距離が近いほど（すなわち、ｚ座標が小さいほど）解像度を下げてもよい。かかる構成によれば、例えば遠隔対話中に深度カメラとユーザａの距離の変化に対する、ユーザａの３Ｄデータの精細さの変化が抑制可能である。

また、上述した実施形態において、第２情報処理装置１０ｂは、メッシュデータを生成する際、生成するメッシュデータの解像度を、被写体である人物（ここでは、ユーザａ）の部位ごとに調整してもよい。例えば、第２情報処理装置１０ｂの制御部１６ｂは、ユーザａの頭部以外の部位（例えば、肩、体幹、及び腕等）に対応するメッシュデータの解像度を低下させてもよい。かかる構成によれば、遠隔対話によるコミュニケーションにおいて比較的重要度の高い要素である表情の再現精度を一定の水準に維持しつつ、メッシュデータの生成及びレンダリング等の処理負荷を軽減できる。

また、上述した実施形態において、人物を被写体の具体例として示したが、人物以外の任意の対象物が被写体として採用されてもよい。

また、例えば汎用のコンピュータを、上述した実施形態に係る情報処理装置１０として機能させる実施形態も可能である。具体的には、上述した実施形態に係る情報処理装置１０の各機能を実現する処理内容を記述したプログラムを、汎用のコンピュータのメモリに格納し、プロセッサによって当該プログラムを読み出して実行させる。したがって、本開示は、プロセッサが実行可能なプログラム、又は当該プログラムを記憶する非一時的なコンピュータ可読媒体としても実現可能である。

１システム
１０情報処理装置
１１通信部
１２出力部
１３入力部
１４センサ部
１５記憶部
１６制御部
２０ネットワーク

Claims

互いに通信可能な第１情報処理装置及び第２情報処理装置を備えるシステムであって、
前記第１情報処理装置は、
複数の頂点を含む３次元点群データであって、各頂点がｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有しており且つ各頂点のｘ座標及びｙ座標の組合せが互いに異なる、前記３次元点群データを取得し、
前記第１情報処理装置又は前記第２情報処理装置は、
前記３次元点群データを、前記複数の頂点のそれぞれがｘ座標及びｙ座標の組合せごとに値が異なるｍとｚ座標との２つのパラメータを有する２次元点群データに変換し、
前記第２情報処理装置は、
ｘ座標及びｙ座標の組合せとｍとの対応関係を示す情報と、前記２次元点群データと、を用いてメッシュデータを生成する、システム。
請求項１に記載のシステムであって
前記第２情報処理装置は、メッシュデータを生成する際、２つの頂点のうち一方の頂点のｚ座標が基準値ｚ０±Δｚの範囲内であり、且つ、他方の頂点のｚ座標が前記基準値ｚ０±Δｚの範囲外である場合、前記２つの頂点を含んで成るポリゴンを形成しない、システム。
請求項２に記載のシステムであって
前記３次元点群データは、深度カメラによって人物を撮影した深度画像のデータであり、
前記第１情報処理装置又は前記第２情報処理装置は、
前記深度画像に含まれる全ての頂点のうち前記人物に対応する各頂点を、前記複数の頂点のそれぞれとして特定し、
前記複数の頂点のうち何れか１つの頂点のｚ座標の値、又は、前記複数の頂点のうち２つ以上の頂点のｚ座標に基づいて算出される値を、前記基準値ｚ０として決定する、システム。
請求項３に記載のシステムであって、
前記第１情報処理装置又は前記第２情報処理装置は、
前記人物の姿勢を検出し、
前記人物の姿勢に基づいてΔｚを決定する、システム。
請求項３又は４に記載のシステムであって、
前記第２情報処理装置は、メッシュデータを生成する際、生成するメッシュデータの解像度を前記深度カメラと前記人物の距離に応じて調整する、システム。
請求項３から５の何れか一項に記載のシステムであって、
前記第２情報処理装置は、メッシュデータを生成する際、生成するメッシュデータの解像度を前記人物の部位ごとに調整する、システム。
制御部を備える情報処理装置であって、
前記制御部は、
各頂点がｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有しており且つ各頂点のｘ座標及びｙ座標の組合せが互いに異なる複数の頂点を含む３次元点群データから変換される２次元点群データであって、前記複数の頂点のそれぞれがｘ座標及びｙ座標の組合せごとに値が異なるｍとｚ座標との２つのパラメータを有する前記２次元点群データを取得し、
ｘ座標及びｙ座標の組合せとｍとの対応関係を示す情報と、前記２次元点群データと、を用いてメッシュデータを生成する、情報処理装置。
情報処理装置が実行する方法であって、
各頂点がｘ座標、ｙ座標、及びｚ座標の３つのパラメータを有しており且つ各頂点のｘ座標及びｙ座標の組合せが互いに異なる複数の頂点を含む３次元点群データから変換される２次元点群データであって、前記複数の頂点のそれぞれがｘ座標及びｙ座標の組合せごとに値が異なるｍとｚ座標との２つのパラメータを有する前記２次元点群データを取得すること、及び
ｘ座標及びｙ座標の組合せとｍとの対応関係を示す情報と、前記２次元点群データと、を用いてメッシュデータを生成することを含む、方法。