JP2023117998A - システム、情報処理装置、及び方法 - Google Patents

システム、情報処理装置、及び方法 Download PDF

Info

Publication number
JP2023117998A
JP2023117998A JP2022020857A JP2022020857A JP2023117998A JP 2023117998 A JP2023117998 A JP 2023117998A JP 2022020857 A JP2022020857 A JP 2022020857A JP 2022020857 A JP2022020857 A JP 2022020857A JP 2023117998 A JP2023117998 A JP 2023117998A
Authority
JP
Japan
Prior art keywords
coordinate
information processing
processing device
point cloud
dimensional point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022020857A
Other languages
English (en)
Inventor
航 加来
Ko Kako
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2022020857A priority Critical patent/JP2023117998A/ja
Priority to US18/168,200 priority patent/US20230260076A1/en
Priority to CN202310110938.8A priority patent/CN116597110A/zh
Publication of JP2023117998A publication Critical patent/JP2023117998A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/06Topological mapping of higher dimensional structures onto lower dimensional surfaces
    • G06T3/067Reshaping or unfolding 3D tree structures onto 2D planes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • G06T17/205Re-meshing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/56Particle system, point based geometry or rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

【課題】3Dモデルのメッシュデータを生成する技術を改善する。【解決手段】互いに通信可能な第1情報処理装置10a及び第2情報処理装置10bを備えるシステム1であって、第1情報処理装置10aは、複数の頂点を含む3次元点群データであって各頂点がx座標、y座標、及びz座標の3つのパラメータを有しており且つ各頂点のx座標及びy座標の組合せが互いに異なる3次元点群データを取得し、第1情報処理装置10a又は第2情報処理装置10bは、3次元点群データを、複数の頂点のそれぞれがx座標及びy座標の組合せごとに値が異なるmとz座標との2つのパラメータを有する2次元点群データに変換し、第2情報処理装置10bは、x座標及びy座標の組合せとmとの対応関係を示す情報と、2次元点群データと、を用いてメッシュデータを生成する。【選択図】図1

Description

本開示は、システム、情報処理装置、及び方法に関する。
従来、3Dモデルのメッシュデータを生成する技術が知られている。例えば特許文献1には、解析対象物を3次元形状計測して得られた(x,y,z)座標で表される点列データに基づいて解析メッシュを生成することが開示されている。
特開平06-301767号公報
3Dモデルのメッシュデータを生成する技術には改善の余地があった。
かかる事情に鑑みてなされた本開示の目的は、3Dモデルのメッシュデータを生成する技術を改善することにある。
本開示の一実施形態に係るシステムは、
互いに通信可能な第1情報処理装置及び第2情報処理装置を備えるシステムであって、
前記第1情報処理装置は、
複数の頂点を含む3次元点群データであって、各頂点がx座標、y座標、及びz座標の3つのパラメータを有しており且つ各頂点のx座標及びy座標の組合せが互いに異なる、前記3次元点群データを取得し、
前記第1情報処理装置又は前記第2情報処理装置は、
前記3次元点群データを、前記複数の頂点のそれぞれがx座標及びy座標の組合せごとに値が異なるmとz座標との2つのパラメータを有する2次元点群データに変換し、
前記第2情報処理装置は、
x座標及びy座標の組合せとmとの対応関係を示す情報と、前記2次元点群データと、を用いてメッシュデータを生成する。
本開示の一実施形態に係る情報処理装は、
制御部を備える情報処理装置であって、
前記制御部は、
各頂点がx座標、y座標、及びz座標の3つのパラメータを有しており且つ各頂点のx座標及びy座標の組合せが互いに異なる複数の頂点を含む3次元点群データから変換される2次元点群データであって、前記複数の頂点のそれぞれがx座標及びy座標の組合せごとに値が異なるmとz座標との2つのパラメータを有する前記2次元点群データを取得し、
x座標及びy座標の組合せとmとの対応関係を示す情報と、前記2次元点群データと、を用いてメッシュデータを生成する。
本開示の一実施形態に係る方法は、
情報処理装置が実行する方法であって、
各頂点がx座標、y座標、及びz座標の3つのパラメータを有しており且つ各頂点のx座標及びy座標の組合せが互いに異なる複数の頂点を含む3次元点群データから変換される2次元点群データであって、前記複数の頂点のそれぞれがx座標及びy座標の組合せごとに値が異なるmとz座標との2つのパラメータを有する前記2次元点群データを取得すること、及び
x座標及びy座標の組合せとmとの対応関係を示す情報と、前記2次元点群データと、を用いてメッシュデータを生成することを含む。
本開示の一実施形態によれば、3Dモデルのメッシュデータを生成する技術が改善される。
本開示の一実施形態に係るシステムの概略構成を示すブロック図である。 可視光カメラ及び深度カメラの撮影範囲及び解像度の例を説明する図である。 3次元点群データの例を示す図である。 3次元点群データから変換された2次元点群データの例を示す図である。 情報処理装置の概略構成を示すブロック図である。 システムの動作の例を示すシーケンス図である。 生成されたメッシュデータのy-z平面による断面を示す模式図である。
以下、本開示の実施形態について説明する。
(実施形態の概要)
図1を参照して、本開示の実施形態に係るシステム1の概要について説明する。システム1は、複数の情報処理装置10を備える。図1では2つの情報処理装置10(10a、10b)が図示されているが、システム1は3つ以上の情報処理装置10を備えてもよい。以下の説明において、2つの情報処理装置10(10a、10b)を区別する場合、第1情報処理装置10a及び第2情報処理装置10bという。
情報処理装置10は、例えばPC(Personal Computer)、スマートフォン、又はタブレット端末等の、ユーザによって使用される任意のコンピュータである。複数の情報処理装置10は、例えばインターネット等を含むネットワーク20を介して互いに通信可能である。なお、情報処理装置10同士の通信は、ネットワーク20上に設けられたサーバを介して行われてもよく、或いはP2Pで行われてもよい。
本実施形態において、システム1は、各情報処理装置10のユーザが対話相手(他のユーザ)の映像を見ながら音声で対話を行う遠隔対話サービスの提供に用いられる。具体的には、各情報処理装置10は、後述するように可視光カメラ及び深度カメラを備えており、被写体を撮影して可視光画像及び深度画像を生成可能である。可視光画像の各ピクセルは、x座標、y座標、及び色情報(例えばRGB値)を有する。一方、深度画像の各ピクセルは、x座標、y座標、及びz座標の3つのパラメータを有する。すなわち、深度画像のデータは、それぞれx座標、y座標、及びz座標の3つのパラメータを有するN個の頂点Pから成る3次元点群データである。本実施形態では説明の簡便のため、図2に示すように、可視光カメラ及び深度カメラは実質的に同一の撮影範囲及び解像度を有しており、生成される可視光画像及び深度画像の解像度はいずれも640ピクセル×480ピクセルである例を用いて説明する。かかる場合、3次元点群データを構成する頂点Pの数Nは、N=640×480=307200である。
各情報処理装置10は、可視光カメラ及び深度カメラの被写体となったユーザの形状に対応するメッシュデータを3次元点群データから生成し、当該メッシュデータに可視光画像をマッピングして当該ユーザの3Dモデルを作成し、3次元仮想空間に配置した当該3Dモデルを仮想カメラで撮影して得られたレンダリング画像を画面に表示可能である。なお遠隔対話の実行中には、各情報処理装置10は、各対話相手(すなわち、他の情報処理装置10のユーザ)の3Dモデルを配置した3次元仮想空間に対してリアルタイムレンダリングを行う。このようにして、遠隔対話の実行中、各情報処理装置10の画面上に表示される対話相手の3Dモデルは、当該対話相手の実際の動作に追従するように動く。
ここで、本実施形態の概要について説明し、詳細については後述する。本実施形態では、3次元点群データから変換された2次元点群データを用いてメッシュデータの生成が行われる。
具体的には、第1情報処理装置10aは、複数の頂点Pを含む3次元点群データを取得する。ここで、3次元点群データの各頂点Pは、例えば図3に示すように、x座標、y座標、及びz座標の3つのパラメータを有しており、且つ各頂点Pのx座標及びy座標の組合せが互いに異なる。図3に示すmは、x座標及びy座標の組合せごとに値が異なるパラメータである。このため、x座標及びy座標の組合せとパラメータmとは1対1の対応関係を有しており、一方が定まれば他方も一意に定まる。したがって、3次元点群データにおいて各頂点Pは、パラメータmを用いてPm(xm,ym,zm)と表すことができる。例えば、深度画像の解像度が640ピクセル×480ピクセルである場合、mは1以上307200以下の値を取り得る(1≦m≦307200)。
続いて、第1情報処理装置10a又は第2情報処理装置10bは、3次元点群データを2次元点群データに変換する。ここで、2次元点群データの各頂点Pは、例えば図4に示すように、x座標及びy座標の組合せごとに値が異なるmと、z座標と、の2つのパラメータを有する。したがって、2次元点群データにおいて各頂点Pは、パラメータmを用いてPm(m,zm)と表すことができる。
そして、第2情報処理装置10bは、x座標及びy座標の組合せとパラメータmとの対応関係を示す情報と、上記の2次元点群データと、を用いてメッシュデータを生成する。ここで、x座標及びy座標の組合せとパラメータとの具体的な対応関係は任意に定めることができる。図3及び図4に示す例では、x座標及びy座標の組合せとパラメータmとの対応関係を示す情報は、m=1が(0,0)に対応し、m=2が(1,0)に対応し、m=307200が(639,479)に対応することを示している。
このように、本実施形態に係る3次元点群データに含まれる各頂点Pは、x座標、y座標、及びz座標の3つのパラメータを有している。ここで、各頂点Pのx座標及びy座標の組合せが互いに異なるので、x座標及びy座標の組合せとパラメータmとの対応関係を予め定義しておくことにより、3次元点群データを、各頂点Pがm及びz座標の2つのパラメータを有する2次元点群データに変換可能である。本実施形態によれば、2次元点群データを用いてメッシュデータが生成されるので、例えば3次元点群データを用いてメッシュデータを生成する構成と比較してメッシュデータの生成処理が高速化する点で、3Dモデルのメッシュデータを生成する技術が改善される。
次に、システム1の各構成について詳細に説明する。
(情報処理装置の構成)
図5に示すように、情報処理装置10は、通信部11と、出力部12と、入力部13と、センサ部14と、記憶部15と、制御部16と、を備える。
通信部11は、ネットワーク20に接続する1つ以上の通信インタフェースを含む。当該通信インタフェースは、例えば4G(4th Generation)若しくは5G(5th Generation)等の移動体通信規格、無線LAN(Local Area Network)、又は有線LANに対応するが、これらに限られず任意の通信規格に対応してもよい。
出力部12は、情報を出力してユーザに通知する1つ以上の出力装置を含む。当該出力装置は、例えば情報を映像で出力するディスプレイ、又は情報を音で出力するスピーカ等であるが、これらに限られない。或いは、出力部12は、外部の出力装置を接続するためのインタフェースを含んでもよい。
入力部13は、ユーザ入力を検出する1つ以上の入力装置を含む。当該入力装置は、例えば物理キー、静電容量キー、マウス、タッチパネル、出力部12のディスプレイと一体的に設けられたタッチスクリーン、又はマイクロフォン等であるが、これらに限られない。或いは、入力部13は、外部の入力装置を接続するためのインタフェースを含んでもよい。
センサ部14は、1つ以上のセンサを含む。当該センサは、例えば可視光画像を生成する可視光カメラ、又は深度画像を生成する深度カメラ等であるが、これらに限られない。或いは、センサ部14は、外部のセンサを接続するためのインタフェースを含んでもよい。例えば、可視光カメラ及び深度カメラを有するKinect(登録商標)が、センサ部14として採用されてもよい。
本実施形態では、センサ部14は可視光カメラ及び深度カメラの両方を含む。可視光カメラ及び深度カメラは、実質的に同一の撮影範囲を有するように、例えば互いに近接して設けられてもよい。図2に示す例では、可視光カメラ及び深度カメラは、規定の位置(例えば、出力部12のディスプレイに対向する位置)に存在するユーザを正面から撮影可能である。或いは、可視光カメラ及び深度カメラは、規定の位置に存在するユーザをそれぞれ異なる角度から撮影可能となるように設けられてもよい。かかる場合、可視光画像及び深度画像の少なくとも一方に対して、ユーザを正面から撮影した画像となるように視点変換の画像処理が施されてもよい。
記憶部15は、1つ以上のメモリを含む。メモリは、例えば半導体メモリ、磁気メモリ、又は光メモリ等であるが、これらに限られない。記憶部15に含まれる各メモリは、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部15は、情報処理装置10の動作に用いられる任意の情報を記憶する。例えば、記憶部15は、システムプログラム、アプリケーションプログラム、及び組み込みソフトウェア等を記憶してもよい。
制御部16は、1つ以上のプロセッサ、1つ以上のプログラマブル回路、1つ以上の専用回路、又はこれらの組合せを含む。プロセッサは、例えばCPU(Central Processing Unit)若しくはGPU(Graphics Processing Unit)等の汎用プロセッサ、又は特定の処理に特化した専用プロセッサであるがこれらに限られない。プログラマブル回路は、例えばFPGA(Field-Programmable Gate Array)であるがこれに限られない。専用回路は、例えばASIC(Application Specific Integrated Circuit)であるがこれに限られない。制御部16は、情報処理装置10全体の動作を制御する。
(システムの動作フロー)
図6を参照して、本実施形態に係るシステム1の動作について説明する。概略として当該動作は、第1情報処理装置10aのユーザaと第2情報処理装置10bのユーザbの遠隔対話中に実行される動作のうち、第2情報処理装置10bがユーザaの3Dモデルのレンダリング画像を生成及び表示する動作である。当該動作は、例えば所定の又は通信速度に応じたフレームレートで、遠隔対話中に繰り返し実行される。
ステップS100:第1情報処理装置10aは、ユーザaの可視光画像及び深度画像を取得する。
具体的には、第1情報処理装置10aの制御部16aは、センサ部14aの可視光カメラ及び深度カメラでユーザaを撮影することによって、ユーザaの可視光画像及び深度画像を取得する。ここで可視光カメラ及び深度カメラは、出力部12aのディスプレイに対向する位置に存在するユーザaを正面から撮影するものとして説明する。また図2に示すように、可視光カメラ及び深度カメラの撮影範囲は実質的に同一であり、取得される可視光画像及び深度画像の解像度は640ピクセル×480ピクセルであるものとして説明する。上述したように、取得される可視光画像の各ピクセルは、x座標、y座標、及び色情報(例えばRGB値)を有する。一方、取得される深度画像(3次元点群データ)に含まれる各頂点Pは、図3に示すように、x座標及びy座標の組合せごとに値が異なるパラメータmを用いて、頂点Pm(xm,ym,zm)と表される。
なお、制御部16aは、取得された深度画像(3次元点群データ)に対して、例えばノイズ除去及び位置合わせ等の任意の前処理を施してもよい。
ステップS101:第1情報処理装置10aは、ステップS100の深度画像に含まれる全ての頂点Pのうち、被写体である人物(ここでは、ユーザa)に対応する各頂点Pを特定する。
被写体である人物に対応する各頂点Pの特定には、任意の手法が採用可能である。例えば、制御部16aは、深度画像に含まれる全ての頂点Pのうち、z座標(すなわち、深度カメラからの距離)が所定の範囲内である各頂点Pを、人物に対応する頂点Pとして特定してもよい。或いは、制御部16aは、可視光画像及び深度画像の少なくとも一方から人物の輪郭を画像認識により検出し、検出された輪郭の内部に位置する各頂点Pを、人物に対応する頂点Pとして特定してもよい。かかる場合において、制御部16aは、人物の部位(例えば、頭部、肩、体幹、及び腕等)ごとに各頂点Pを特定してもよい。人物の各部位の推定には、例えば可視光画像及び深度画像の少なくとも一方を用いた画像認識又は骨格検出等、任意の手法が採用可能である。
ここで制御部16aは、人物に対応しない各頂点P(例えば、人物の背景に対応する頂点P等)を深度画像(3次元点群データ)から削除してもよい。かかる場合、深度画像(3次元点群データ)は人物に対応する複数の頂点Pのみを含むことになるので、深度画像(3次元点群データ)に含まれる頂点Pの数がN個(ここでは、640×480=307200個)よりも少なくなり、結果としてデータ量が削減される。
ステップS102:第1情報処理装置10aは、ステップS101で特定された複数の頂点Pに基づいて、基準値z0を決定する。
概略として、基準値z0は、深度カメラと被写体である人物(ここでは、ユーザa)の距離の代表値である。基準値z0は、メッシュデータを生成するステップS107で用いられる情報であるため、詳細については後述する。
基準値z0の決定には、任意の手法が採用可能である。例えば、制御部16aは、ステップS101で被写体である人物に対応するものとして特定された複数の頂点Pのうち何れか1つの頂点Pのz座標の値を、基準値z0として決定してもよい。ここで制御部16aは、人物の頭部、肩、又は体幹に対応する何れか1つの頂点Pのz座標の値を基準値z0として決定してもよい。或いは、制御部16aは、特定された当該複数の頂点Pのうち、2つ以上の頂点Pのz座標に基づいて算出される値(例えば、平均値又は中央値等)を、基準値z0として決定してもよい。ここで制御部16aは、人物の頭部、肩、又は体幹に対応する2つ以上の頂点Pのz座標に基づいて算出される値を、基準値z0として決定してもよい。
ステップS103:第1情報処理装置10aは、被写体である人物(ここでは、ユーザa)の姿勢を検出する。
人物の姿勢の検出には、任意の手法が採用可能である。例えば、制御部16aは、可視光画像及び深度画像の少なくとも一方を用いた画像認識又は骨格検出によって、人物の姿勢を検出してもよい。本実施形態では、制御部16aによって検出される姿勢は、前傾姿勢、後傾姿勢、及び直立姿勢の3つの姿勢の中から選択される。前傾姿勢は、人物の上体が前傾している姿勢である。後傾姿勢は、人物の上体が後傾している姿勢である。直立姿勢は、人物の上体が前後に傾いていない姿勢である。しかしながら、当該例に限られず、より詳細な姿勢が制御部16aによって検出されてもよい。例えば、制御部16aは、人物の上体の前後方向における傾斜角度を姿勢として検出してもよい。
ステップS104:第1情報処理装置10aは、ステップS103で検出された姿勢に基づいて、Δzを決定する。
概略として、Δzは、上述した基準値z0を基準とするz方向の距離範囲z0±Δzを定義するための数値である。距離範囲z0±Δzは、メッシュデータを生成するステップS107で用いられる情報であるため、詳細については後述する。
Δzの決定には、任意の手法が採用可能である。例えば、被写体である人物が頭部、肩、又は体幹と深度カメラとの間を遮るように手を突き出している状況を考える。例えば、制御部16aは、ステップS103で検出された姿勢が直立姿勢である場合にはΔzを所定値(例えば、30cm)とする一方、ステップS103で検出された姿勢が前傾姿勢又は後傾姿勢である場合には、直立姿勢である場合よりもΔzを大きくしてもよい。或いは、ステップS103で人物の上体の前後方向における傾斜角度が姿勢として検出されている場合、制御部16aは、傾斜角度の絶対値が大きいほどΔzを大きくしてもよい。何れの手法であっても、検出された姿勢に応じてΔzを適切に決定することにより、例えば、頭部、肩、及び体幹はz0±Δzの範囲内に存在する一方、突き出された手はz0±Δzの範囲外に存在するものと推定可能となる。
ステップS105:第1情報処理装置10aは、3次元点群データを2次元点群データに変換する。
ここで、2次元点群データは、各頂点がx座標及びy座標の組合せごとに値が異なるmとz座標との2つのパラメータを有する点群データである。上述したように、3次元点群データに含まれる各頂点Pは、x座標、y座標、及びz座標の3つのパラメータを有しており、且つ各頂点Pのx座標及びy座標の組合せが互いに異なる。このため、3次元点群データに含まれる各頂点Pは、図3に示すように、パラメータmを用いて頂点Pm(xm,ym,zm)と表すことができる。一方、2次元点群データに含まれる各頂点Pは、mと、z座標と、の2つのパラメータを有している。このため、2次元点群データに含まれる各頂点Pは、図4に示すように、頂点Pm(m,zm)と表すことができる。
なお、図3及び図4に示す例では、x座標及びy座標の組合せとパラメータmとの対応関係は、m=1が(x=0,y=0)に対応し、m=2が(x=1,y=0)に対応し、m=307200が(x=639,y=479)に対応するように定義されている。しかしながら、x座標及びy座標の組合せとパラメータmとの対応関係は、当該例に限られず任意に定義可能である。x座標及びy座標の組合せとパラメータmとの対応関係を示す情報は、例えば予め記憶部15aに記憶されていてもよい。
このように、ステップS105では、各頂点Pmのデータが、x座標、y座標、及びz座標の3つのパラメータを有する3次元のデータから、パラメータm及びz座標の2つのパラメータを有する2次元のデータに変換される。
ステップS106:第1情報処理装置10aは、被写体である人物(ここでは、ユーザa)の3Dモデルの生成に用いられる任意の情報を第2情報処理装置10bへ送信する。
本実施形態では、制御部16aは、ステップS100で取得された可視光画像、ステップS102で決定された基準値z0、ステップS104で決定されたΔz、ステップS105で生成された2次元点群データ、並びに、x座標及びy座標の組合せとパラメータmとの対応関係を示す情報を、通信部11a及びネットワーク20を介して第2情報処理装置10bへ送信する。なお、ステップS101で人物に対応しない各頂点Pが深度画像(3次元点群データ)から削除されていない場合、制御部16aは、ステップS101で被写体である人物に対応するものとして特定された各頂点Pを示す情報(例えば、特定された各頂点Pに対応するパラメータm)を、第2情報処理装置10bへ送信してもよい。
ステップS107:第2情報処理装置10bは、x座標及びy座標の組合せとパラメータmとの対応関係を示す情報と、2次元点群データと、を用いて、被写体である人物(ここでは、ユーザa)のメッシュデータを生成する。
上述したように、本実施形態では、各頂点Pのx座標及びy座標の組合せが互いに異なるので、x座標及びy座標の組合せとパラメータmとの対応関係を予め定義しておくことにより、3次元点群データを、各頂点Pがm及びz座標の2つのパラメータを有する2次元点群データに変換可能である。本実施形態によれば、2次元点群データを用いてメッシュデータが生成されるので、例えば3次元点群データを用いてメッシュデータを生成する構成と比較してメッシュデータの生成処理が高速化する。
なお、メッシュデータの生成には、例えばドロネー法又はアドバンシングフロント法など、任意のアルゴリズムが採用可能である。具体的には、第2情報処理装置10bの制御部16bは、2次元点群データに含まれる複数の頂点Pのうち、採用されるアルゴリズムに応じて特定される2つの頂点Pごとに、当該2つの頂点Pを連結する辺を形成する。制御部16bは、所定数の辺で囲まれた各微小平面をポリゴンで形成する。典型的には、形成される各ポリゴンは、3つの頂点と、当該3つの頂点を連結する3つの辺と、を含んで成る三角ポリゴンであるが、ポリゴンの形状は当該例に限られない。このようにして制御部16bは、頂点P、辺、及びポリゴンの集合をメッシュデータとして生成する。
メッシュデータを生成する際、制御部16aは、2つの頂点Pのうち一方の頂点Pのz座標がz0±Δzの範囲内であり、且つ、他方の頂点Pのz座標がz0±Δzの範囲外である場合、当該2つの頂点を含んで成るポリゴンを形成しなくてもよい。かかる構成によれば、例えば被写体である人物(ここでは、ユーザa)が頭部、肩、又は体幹と深度カメラとの間を遮るように手を突き出していた場合に、頭部、肩、又は体幹と手との間にポリゴンが形成されてしまうという不都合の発生が低減可能である。以下、図7を参照して説明する。
図7は、生成されたメッシュデータのy-z平面による断面を示す模式図である。メッシュM1は頭部(顔)に対応し、メッシュM2は突き出された手に対応し、メッシュM3は体幹に対応する。なお上述したように、本実施形態では第1情報処理装置10aの深度カメラはユーザaを正面から撮影しているため、ユーザaの体の一部(具体的には、背面部分、及び、突き出された手で遮られた部分)については対応するメッシュが形成されていない。しかしながら説明の簡便のため、対応するメッシュが形成されていないユーザaの体の一部を一点鎖線で図示している。
ここで、メッシュM1の下端に位置する頂点Paと、メッシュM2の上端に位置する頂点Pbに着目する。頂点Pa及び頂点Pbは、y方向において隣接している。頂点Paのz座標は、z0±Δzの範囲内である。一方、頂点Pbのz座標は、z0±Δzの範囲外である。したがって、頂点Pa及び頂点Pbを含んで成るポリゴンが形成されないので、例えば頭部に対応するメッシュM1と突き出された手に対応するメッシュM2とが不自然に繋がってしまうという不都合の発生が低減される。また、メッシュM2の下端に位置する頂点Pcと、メッシュM3の上端に位置する頂点Pdについても同様である。頂点Pc及び頂点Pdは、y方向において隣接している。頂点Pcのz座標は、z0±Δzの範囲外である。一方、頂点Pdのz座標は、z0±Δzの範囲外である。したがって、頂点Pc及び頂点Pdを含んで成るポリゴンが形成されないので、例えば突き出された手に対応するメッシュM2と体幹に対応するメッシュM3とが不自然に繋がってしまうという不都合の発生が低減される。
ステップS108:第2情報処理装置10bは、ステップS107で生成されたメッシュデータに可視光画像をマッピングして、被写体である人物(ここでは、ユーザa)の3Dモデルを作成する。
上述したように、本実施形態では、第1情報処理装置10aの可視光カメラ及び深度カメラは実質的に同一の撮影範囲及び解像度を有している。このため、可視光画像の各ピクセルは、深度画像(3次元点群データ)の各頂点Pと1対1の対応関係を有している。制御部16bは、当該対応関係に基づいて、可視光画像のうちユーザaに対応する領域をメッシュデータにマッピングする。このようにして、ユーザaの3Dモデルが作成される。
ステップS109:第2情報処理装置10bは、ステップS108で作成された3Dモデルのレンダリング画像を生成及び表示する。
具体的には、制御部16bは、被写体である人物(ここでは、ユーザa)の3Dモデルを3次元仮想空間に配置する。制御部16bは、3次元仮想空間に配置された3Dモデルを仮想カメラで撮影することによってレンダリング画像を生成し、当該レンダリング画像を出力部12bのディスプレイに表示させる。なお、3次元仮想空間における仮想カメラの位置は、予め定められていてもよく、或いは第2情報処理装置10bのユーザbの現実空間における位置に連動してもよい。
以上述べたように、本実施形態に係るシステム1において、第1情報処理装置10aは、複数の頂点Pを含む3次元点群データを取得する。3次元点群データにおいて、各頂点Pはx座標、y座標、及びz座標の3つのパラメータを有しており、且つ各頂点Pのx座標及びy座標の組合せが互いに異なる。第1情報処理装置10aは、3次元点群データを2次元点群データに変換する。2次元点群データにおいて、当該複数の頂点Pのそれぞれは、x座標及びy座標の組合せごとに値が異なるmとz座標との2つのパラメータを有する。そして、第2情報処理装置10bは、x座標及びy座標の組合せとmとの対応関係を示す情報と、当該2次元点群データと、を用いてメッシュデータを生成する。
かかる構成によれば、各頂点Pのx座標及びy座標の組合せが互いに異なるので、x座標及びy座標の組合せとパラメータmとの対応関係を予め定義しておくことにより、3次元点群データを、各頂点Pがm及びz座標の2つのパラメータを有する2次元点群データに変換可能である。本実施形態によれば、2次元点群データを用いてメッシュデータが生成されるので、例えば3次元点群データを用いてメッシュデータを生成する構成と比較してメッシュデータの生成処理が高速化する点で、3Dモデルのメッシュデータを生成する技術が改善される。
本開示を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び改変を行ってもよいことに注意されたい。したがって、これらの変形及び改変は本開示の範囲に含まれることに留意されたい。例えば、各構成部又は各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の構成部又はステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
例えば、上述した実施形態において第1情報処理装置10aが実行した動作の一部を第2情報処理装置10bに実行させる実施形態も可能である。例えば、上述したステップS101~S105の動作は、第2情報処理装置10bが実行してもよい。かかる場合、第1情報処理装置10aは、ステップS100で取得された可視光画像及び深度画像(3次元点群データ)を第2情報処理装置10bへ送信し、第2情報処理装置10bは、ステップS101~S105の動作を実行する。換言すると、ステップS101~S105の動作は、第1情報処理装置10a及び第2情報処理装置10bの何れか一方が実行すればよい。
また、上述した実施形態において、第2情報処理装置10bは、メッシュデータを生成する際、生成するメッシュデータの解像度を、第1情報処理装置10aの深度カメラと被写体である人物(ここでは、ユーザa)の距離(すなわち、z座標)に応じて調整してもよい。メッシュデータの解像度は、例えば2次元点群データに含まれる一部の頂点Pを間引く等、任意の手法で低下させることができる。メッシュデータの解像度を低下させることにより、メッシュデータの生成及びレンダリング等の処理負荷が軽減される。例えば、第2情報処理装置10bの制御部16bは、深度カメラとユーザaの距離が遠いほど(すなわち、z座標が大きいほど)解像度を低下させてもよい。ユーザaが深度カメラから離れている場合には、例えばユーザaの表情等の細部を3Dモデルで精度良く表現することが困難であるため、生成するメッシュデータの解像度を意図的に下げても画面の視認性に対する悪影響は少ない。或いは、制御部16bは、深度カメラとユーザaの距離が近いほど(すなわち、z座標が小さいほど)解像度を下げてもよい。かかる構成によれば、例えば遠隔対話中に深度カメラとユーザaの距離の変化に対する、ユーザaの3Dデータの精細さの変化が抑制可能である。
また、上述した実施形態において、第2情報処理装置10bは、メッシュデータを生成する際、生成するメッシュデータの解像度を、被写体である人物(ここでは、ユーザa)の部位ごとに調整してもよい。例えば、第2情報処理装置10bの制御部16bは、ユーザaの頭部以外の部位(例えば、肩、体幹、及び腕等)に対応するメッシュデータの解像度を低下させてもよい。かかる構成によれば、遠隔対話によるコミュニケーションにおいて比較的重要度の高い要素である表情の再現精度を一定の水準に維持しつつ、メッシュデータの生成及びレンダリング等の処理負荷を軽減できる。
また、上述した実施形態において、人物を被写体の具体例として示したが、人物以外の任意の対象物が被写体として採用されてもよい。
また、例えば汎用のコンピュータを、上述した実施形態に係る情報処理装置10として機能させる実施形態も可能である。具体的には、上述した実施形態に係る情報処理装置10の各機能を実現する処理内容を記述したプログラムを、汎用のコンピュータのメモリに格納し、プロセッサによって当該プログラムを読み出して実行させる。したがって、本開示は、プロセッサが実行可能なプログラム、又は当該プログラムを記憶する非一時的なコンピュータ可読媒体としても実現可能である。
1 システム
10 情報処理装置
11 通信部
12 出力部
13 入力部
14 センサ部
15 記憶部
16 制御部
20 ネットワーク

Claims (8)

  1. 互いに通信可能な第1情報処理装置及び第2情報処理装置を備えるシステムであって、
    前記第1情報処理装置は、
    複数の頂点を含む3次元点群データであって、各頂点がx座標、y座標、及びz座標の3つのパラメータを有しており且つ各頂点のx座標及びy座標の組合せが互いに異なる、前記3次元点群データを取得し、
    前記第1情報処理装置又は前記第2情報処理装置は、
    前記3次元点群データを、前記複数の頂点のそれぞれがx座標及びy座標の組合せごとに値が異なるmとz座標との2つのパラメータを有する2次元点群データに変換し、
    前記第2情報処理装置は、
    x座標及びy座標の組合せとmとの対応関係を示す情報と、前記2次元点群データと、を用いてメッシュデータを生成する、システム。
  2. 請求項1に記載のシステムであって
    前記第2情報処理装置は、メッシュデータを生成する際、2つの頂点のうち一方の頂点のz座標が基準値z0±Δzの範囲内であり、且つ、他方の頂点のz座標が前記基準値z0±Δzの範囲外である場合、前記2つの頂点を含んで成るポリゴンを形成しない、システム。
  3. 請求項2に記載のシステムであって
    前記3次元点群データは、深度カメラによって人物を撮影した深度画像のデータであり、
    前記第1情報処理装置又は前記第2情報処理装置は、
    前記深度画像に含まれる全ての頂点のうち前記人物に対応する各頂点を、前記複数の頂点のそれぞれとして特定し、
    前記複数の頂点のうち何れか1つの頂点のz座標の値、又は、前記複数の頂点のうち2つ以上の頂点のz座標に基づいて算出される値を、前記基準値z0として決定する、システム。
  4. 請求項3に記載のシステムであって、
    前記第1情報処理装置又は前記第2情報処理装置は、
    前記人物の姿勢を検出し、
    前記人物の姿勢に基づいてΔzを決定する、システム。
  5. 請求項3又は4に記載のシステムであって、
    前記第2情報処理装置は、メッシュデータを生成する際、生成するメッシュデータの解像度を前記深度カメラと前記人物の距離に応じて調整する、システム。
  6. 請求項3から5の何れか一項に記載のシステムであって、
    前記第2情報処理装置は、メッシュデータを生成する際、生成するメッシュデータの解像度を前記人物の部位ごとに調整する、システム。
  7. 制御部を備える情報処理装置であって、
    前記制御部は、
    各頂点がx座標、y座標、及びz座標の3つのパラメータを有しており且つ各頂点のx座標及びy座標の組合せが互いに異なる複数の頂点を含む3次元点群データから変換される2次元点群データであって、前記複数の頂点のそれぞれがx座標及びy座標の組合せごとに値が異なるmとz座標との2つのパラメータを有する前記2次元点群データを取得し、
    x座標及びy座標の組合せとmとの対応関係を示す情報と、前記2次元点群データと、を用いてメッシュデータを生成する、情報処理装置。
  8. 情報処理装置が実行する方法であって、
    各頂点がx座標、y座標、及びz座標の3つのパラメータを有しており且つ各頂点のx座標及びy座標の組合せが互いに異なる複数の頂点を含む3次元点群データから変換される2次元点群データであって、前記複数の頂点のそれぞれがx座標及びy座標の組合せごとに値が異なるmとz座標との2つのパラメータを有する前記2次元点群データを取得すること、及び
    x座標及びy座標の組合せとmとの対応関係を示す情報と、前記2次元点群データと、を用いてメッシュデータを生成することを含む、方法。
JP2022020857A 2022-02-14 2022-02-14 システム、情報処理装置、及び方法 Pending JP2023117998A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022020857A JP2023117998A (ja) 2022-02-14 2022-02-14 システム、情報処理装置、及び方法
US18/168,200 US20230260076A1 (en) 2022-02-14 2023-02-13 System, information processing apparatus, and method
CN202310110938.8A CN116597110A (zh) 2022-02-14 2023-02-14 系统、信息处理装置以及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022020857A JP2023117998A (ja) 2022-02-14 2022-02-14 システム、情報処理装置、及び方法

Publications (1)

Publication Number Publication Date
JP2023117998A true JP2023117998A (ja) 2023-08-24

Family

ID=87558803

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022020857A Pending JP2023117998A (ja) 2022-02-14 2022-02-14 システム、情報処理装置、及び方法

Country Status (3)

Country Link
US (1) US20230260076A1 (ja)
JP (1) JP2023117998A (ja)
CN (1) CN116597110A (ja)

Also Published As

Publication number Publication date
US20230260076A1 (en) 2023-08-17
CN116597110A (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
KR102524422B1 (ko) 객체 모델링 및 움직임 방법 및 장치, 그리고 기기
US10055879B2 (en) 3D human face reconstruction method, apparatus and server
CN109584151B (zh) 人脸美化方法、装置、终端及存储介质
JP6560480B2 (ja) 画像処理システム、画像処理方法、及びプログラム
KR102003813B1 (ko) 자동화된 3차원 모델 생성
WO2022012192A1 (zh) 三维人脸模型的构建方法、装置、设备及存储介质
JP5093053B2 (ja) 電子カメラ
KR20180100476A (ko) 이미지 및 뎁스 데이터를 사용하여 3차원(3d) 인간 얼굴 모델을 발생시키는 가상 현실 기반 장치 및 방법
WO2024169314A1 (zh) 一种可形变神经辐射场网络的构建方法和装置
JP2013101528A (ja) 情報処理装置、表示制御方法、およびプログラム
EP2852935A1 (en) Systems and methods for generating a 3-d model of a user for a virtual try-on product
JP2013101529A (ja) 情報処理装置、表示制御方法、およびプログラム
JP7197451B2 (ja) 画像処理装置、方法及びプログラム
CN109906600B (zh) 模拟景深
EP4135317A2 (en) Stereoscopic image acquisition method, electronic device and storage medium
US20210209347A1 (en) Texture map generation using multi-viewpoint color images
CN113538696A (zh) 特效生成方法、装置、存储介质及电子设备
CN113313631A (zh) 图像渲染方法和装置
CN110675413B (zh) 三维人脸模型构建方法、装置、计算机设备及存储介质
WO2019000464A1 (zh) 一种图像显示方法、装置、存储介质和终端
CN108549484A (zh) 基于人体动态姿态的人机交互方法和装置
JP2023117998A (ja) システム、情報処理装置、及び方法
CN118556254A (zh) 图像渲染方法、装置及电子设备
US20220270337A1 (en) Three-dimensional (3d) human modeling under specific body-fitting of clothes
JP2019046096A (ja) 情報処理装置及びその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20241009