JP6829922B1

JP6829922B1 - 情報処理装置、３ｄモデル生成方法、及びプログラム

Info

Publication number: JP6829922B1
Application number: JP2020545605A
Authority: JP
Inventors: 英弟謝; 彦鵬張
Original assignee: VRC Inc
Current assignee: VRC Inc
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2021-02-17
Anticipated expiration: 2040-07-27
Also published as: JP2022023755A; JPWO2022024199A1; TWI801936B; WO2022024199A1; EP4191542A4; EP4191542A1; CN114503161A; US20230290050A1; TW202209263A; TW202333115A

Abstract

情報処理装置は、所定のポーズを取った被写体の全身を撮影する第１撮影手段と、前記被写体の顔を撮影する第２撮影手段と、前記第１撮影手段により撮影された画像を用いて生成された、前記被写体の全身の３Ｄモデルを取得する第１取得手段と、前記第２撮影手段により撮影された画像を用いて生成された、前記被写体の頭部の３Ｄモデルを取得する第２取得手段と、前記全身の３Ｄモデルの頭部に、前記頭部の３Ｄモデルを合成する合成手段とを有する。

Description

本発明は３Ｄモデル又は３Ｄモデリングデータを生成する技術に関する。

被写体の３Ｄモデルを示す３Ｄモデリングデータを生成する装置が知られている。例えば特許文献１は、複数台のカメラが設置されたフレームが被写体の回りを回転しながら被写体を撮影し、３Ｄモデリングデータを生成する３Ｄスキャナを開示している。

特開２０１８−０４４８１２号公報

特許文献１の３Ｄスキャナは装置が大きく重いため、よりコンパクトな装置が求められることがあった。これに対し本発明は、コンパクトなコンピュータ装置を用いて３Ｄモデリングデータを生成する技術を提供する。

本開示の一態様は、所定のポーズを取った被写体の全身を撮影する第１撮影手段と、前記被写体の顔を撮影する第２撮影手段と、前記第１撮影手段により撮影された画像を用いて生成された、前記被写体の全身の３Ｄモデルを取得する第１取得手段と、前記第２撮影手段により撮影された画像を用いて生成された、前記被写体の頭部の３Ｄモデルを取得する第２取得手段と、前記全身の３Ｄモデルの頭部に、前記頭部の３Ｄモデルを合成する合成手段とを有する情報処理装置を提供する。

前記第１撮影手段は、前記所定のポーズを取った被写体の全身を一方向に回転しながら複数の画像を撮影し、前記第１取得手段は、前記第１撮影手段により撮影された複数の画像を用いて生成された、前記被写体の全身の３Ｄモデルを取得してもよい。

前記第１撮影手段は、前記被写体の姿勢を検知し、前記被写体の姿勢が前記所定のポーズから外れたことが検知された場合、当該被写体に警告をしてもよい。

前記第２取得手段は、前記第１撮影手段により撮影された１枚の画像を用いて生成された、前記被写体の頭部の３Ｄモデルを取得してもよい。

前記第１取得手段は、前記所定のポーズを取った複数の人について、デプス情報が無い全身の２次元画像を入力層に、全身の３Ｄモデルを出力層に、教師データとして与えて学習させた機械学習モデルを用いて生成された前記被写体の全身の３Ｄモデルを取得してもよい。

前記第１取得手段は、仮想空間において３Ｄモデルを仮想カメラで撮影して得られた疑似画像を前記入力層に与えるデータとして含む教師データを用いて機械学習させた機械学習モデルを用いて生成された前記全身の３Ｄモデルを取得してもよい。

前記第２取得手段は、複数の人について、デプス情報が無い顔の２次元画像を入力層に、頭部の３Ｄモデルを出力層に、教師データとして与えて学習させた機械学習モデルを用いて生成された前記被写体の頭部の３Ｄモデルを取得してもよい。

本開示の別の一態様は、携帯端末が、所定のポーズを取った被写体の全身を撮影するステップと、前記携帯端末が、前記被写体の顔を撮影するステップと、前記携帯端末が、前記撮影された画像から、前記被写体の全身の３Ｄモデルを取得するステップと、前記携帯端末が、前記撮影された画像を用いて生成された、前記被写体の頭部の３Ｄモデルを取得するステップと、前記携帯端末が、前記全身の３Ｄモデルの頭部に、前記頭部の３Ｄモデルを合成するステップとを有する３Ｄモデル生成方法を提供する。

本開示のさらに別の一態様は、コンピュータに、所定のポーズを取った被写体の全身を撮影するステップと、前記被写体の顔を撮影するステップと、前記第１撮影手段により撮影された画像から、前記被写体の全身の３Ｄモデルを取得するステップと、前記第２撮影手段により撮影された画像を用いて生成された、前記被写体の頭部の３Ｄモデルを取得するステップと、前記全身の３Ｄモデルの頭部に、前記頭部の３Ｄモデルを合成するステップとを実行させるためのプログラムを提供する。

本発明によれば、コンパクトなコンピュータ装置を用いて３Ｄモデリングデータを生成することができる。

一実施形態に係る３Ｄデータシステム１の概要を示す図。３Ｄデータシステム１の機能構成を例示する図。端末装置３０のハードウェア構成を例示する図。サーバ１０のハードウェア構成を例示する図。３Ｄデータシステム１の動作を例示するシーケンスチャート。全身撮影を示す模式図。顔画像の撮影を示す模式図。

１…３Ｄデータシステム、１０…サーバ、１１…記憶手段、１２…学習手段、１３…受信手段、１４…生成手段、１５…送信手段、１６…制御手段、１７…制御手段、２０…サーバ、３０…端末装置、３１…記憶手段、３２…撮影手段、３３…撮影手段、３４…取得手段、３５…取得手段、３６…合成手段、３７…制御手段、１０１…ＣＰＵ、１０２…メモリ、１０３…ストレージ、１０４…通信ＩＦ、１１１…機械学習モデル、１１２…教師データ、１１３…機械学習モデル、１１４…教師データ、３０１…ＣＰＵ、３０２…メモリ、３０３…ストレージ、３０４…通信ＩＦ、３０５…ディスプレイ、３０６…入力装置、３０７…カメラ。

１．構成
図１は、一実施形態に係る３Ｄデータシステム１の概要を示す図である。３Ｄデータシステム１は、被写体すなわち対象物の３Ｄモデルを生成する機能を有する。この例において、被写体は人間又は動物等の生き物である。３Ｄモデルとは、コンピュータ上の仮想空間において対象物を３次元的に表現する情報である。

本実施形態において、３Ｄモデルは専用の３Ｄスキャナではなく、汎用のコンピュータ装置、具体的には例えばスマートフォンを用いて生成される。専用の３Ｄスキャナと比較すると汎用のコンピュータ装置のカメラは性能が劣るのが通常である。そこで本実施形態では、被写体の全身の撮影と別に、顔のみを撮影する。この顔画像を使って全身の３Ｄモデルと別に顔の３Ｄモデルを作成し、両者を合成する。なお３Ｄモデルを表すデータを３Ｄモデリングデータというが、「３Ｄモデルを生成する」と「３Ｄモデリングデータを生成する」とは基本的に同じことを指す。

３Ｄデータシステム１は、サーバ１０、サーバ２０、及び端末装置３０を有する。端末装置３０は、被写体を撮影する。サーバ１０は、端末装置３０により撮影された画像を用いて３Ｄモデリングデータを生成する。サーバ２０は、３Ｄモデリングデータを利用するアプリケーションを提供する。サーバ１０、サーバ２０、及び端末装置３０は、インターネット等のネットワークを介して接続される。

図２は、３Ｄデータシステム１の機能構成を例示する図である。３Ｄデータシステム１において、端末装置３０は、記憶手段３１、撮影手段３２、撮影手段３３、取得手段３４、取得手段３５、合成手段３６、及び制御手段３７を有する。サーバ１０は、記憶手段１１、学習手段１２、受信手段１３、制御手段１７、及び送信手段１５を有する。

記憶手段３１は、各種のデータを記憶する。撮影手段３２は、所定のポーズを取った被写体の全身を撮影する。撮影手段３３は、被写体の顔を撮影する。取得手段３４は、撮影手段３２により撮影された画像を用いて生成された、被写体の全身の３Ｄモデルを取得する。取得手段３５は、撮影手段３３により撮影された画像を用いて生成された、被写体の頭部の３Ｄモデルを取得する。合成手段３６は、全身の３Ｄモデルの頭部に、頭部の３Ｄモデルを合成する。制御手段３７は、各種の制御を行う。

記憶手段１１は、各種のデータを記憶する。この例において、記憶手段１１が記憶するデータには、機械学習モデル１１１、教師データ１１２、機械学習モデル１１３、教師データ１１４が含まれる。機械学習モデル１１１は、教師データ１１２を用いて機械学習をした学習済モデルである。教師データ１１２は、被写体の全身画像及びその被写体の全身の３Ｄモデリングデータを含む。全身画像は特定のポーズを取った被写体を異なる複数の角度から撮影した複数の画像を含む。これらの画像はデプス情報（後述）を有していない。機械学習モデル１１３は、教師データ１１４を用いて機械学習をした学習済モデルである。教師データ１１４は、被写体の顔の画像（デプス情報無し）及びその被写体の頭部の３Ｄモデリングデータを含む。

教師データ１１２及び教師データ１１４に含まれる３Ｄモデリングデータは、異なる複数の被写体の各々について、その被写体を撮影した画像に、所定のアルゴリズムを適用して生成されたものである。教師データ１１２及び教師データ１１４の少なくとも一部は、被写体の画像を撮影する際に取得されたデプス情報を含んでもよい。この場合、対応する３Ｄモデリングデータは、被写体の画像及びデプス情報を用いて生成される。教師データ１１２及び教師データ１１４に含まれる３Ｄモデリングデータは、例えば専用の３Ｄスキャナにより生成される。

学習手段１２は、機械学習モデル１１１及び機械学習モデル１１３に機械学習をさせる。学習手段１２は、機械学習モデル１１１において、全身の２次元画像を入力層に、全身の３Ｄモデリングデータを出力層に、教師データとして与える。また、学習手段１２は、顔の２次元画像を入力層に、頭部のＤモデリングデータを出力層に、教師データとして与える。

受信手段１３は、端末装置３０から３Ｄモデルの生成要求を受信する。生成手段１４は、端末装置３０から提供された画像を用いて全身の３Ｄモデリングデータ及び頭部の３Ｄモデリングデータを生成する。送信手段１５は、生成した３Ｄモデリングデータを端末装置３０に送信する。制御手段１６は、各種の制御を行う。

図３は、端末装置３０のハードウェア構成を例示する図である。端末装置３０は、ＣＰＵ３０１、メモリ３０２、ストレージ３０３、通信ＩＦ３０４、ディスプレイ３０５、入力装置３０６、及びカメラ３０７を有するコンピュータ装置又は情報処理装置、例えば、スマートフォン、タブレット端末、又はパーソナルコンピュータである。端末装置３０は携帯端末であることが好ましい。なおパーソナルコンピュータを用いる場合、ノートＰＣであることが好ましく、デスクトップＰＣである場合には、カメラ３０７は、移動可能な外付けのカメラであることが好ましい。

ＣＰＵ３０１は、プログラムに従って各種の処理を行う処理装置である。メモリ３０２は、ＣＰＵ３０１がプログラムを実行する際のワークエリアとして機能する主記憶装置であり、例えばＲＯＭ及びＲＡＭを含む。ストレージ３０３は、各種のデータ及びプログラムを記憶する補助記憶装置であり、例えばＳＳＤ（Solid State Drive）又はＨＤＤ（Hard Disk Drive）を含む。通信ＩＦ３０４は、所定の規格に従って他の装置と通信を行う装置であり、例えば、移動体通信（ＬＴＥ等）及び近距離無線通信（ＷｉＦｉ（登録商標）及びBluetooth（登録商標）等）のモデムチップを含む。ディスプレイ３０５は、情報を表示する表示装置であり、例えばＬＣＤ又は有機ＥＬディスプレイを含む。入力装置３０６は、端末装置３０に情報を入力するための装置であり、例えば、タッチスクリーン、キーパッド、キーボード、マウス、及びマイクロフォンのうち少なくとも１種を含む。カメラ３０７は、被写体を撮影して画像データを出力する装置であり、例えば、光学レンズ及びＣＣＤセンサーを含む。端末装置３０がスマートフォン又はタブレット端末である場合、カメラ３０７は、インカメラ及びアウトカメラの２つのカメラを有する。インカメラは筐体の正面すなわちディスプレイ３０５と同じ面に設けられた、いわゆる自分撮り用のカメラである。アウトカメラは筐体の背面に設けられたカメラである。ここでは両者を総称してカメラ３０７という。

この例において、ストレージ３０３に記憶されるプログラムには、コンピュータ装置を３Ｄデータシステム１における端末装置３０として機能させるためのプログラム（以下「クライアントアプリケーション」という）が含まれる。ＣＰＵ３０１がクライアントプログラムを実行している状態において、ストレージ３０３及びメモリ３０２の少なくとも一方が記憶手段１１の一例である。カメラ３０７が撮影手段３２及び撮影手段３３の一例である。ＣＰＵ３０１が、取得手段３４、取得手段３５、合成手段３６、及び制御手段３７の一例である。

図４は、サーバ１０のハードウェア構成を例示する図である。サーバ１０は、ＣＰＵ１０１、メモリ１０２、ストレージ１０３、及び通信ＩＦ１０４を有するコンピュータ装置である。ＣＰＵ１０１は、プログラムに従って各種の処理を行う処理装置である。メモリ１０２は、ＣＰＵ１０１がプログラムを実行する際のワークエリアとして機能する主記憶装置であり、例えばＲＯＭ及びＲＡＭを含む。ストレージ１０３は、各種のデータ及びプログラムを記憶する補助記憶装置であり、例えばＳＳＤ又はＨＤＤを含む。通信ＩＦ１０４は、所定の規格に従って他の装置と通信を行う装置であり、例えばＮＩＣ（Network Interface Card）を含む。

この例において、ストレージ３０３に記憶されるプログラムには、コンピュータ装置を３Ｄデータシステム１におけるサーバ１０として機能させるためのプログラム（以下「サーバプログラム」という）が含まれる。ＣＰＵ１０１がサーバプログラムを実行している状態において、ストレージ１０３及びメモリ１０２の少なくとも一方が記憶手段１１の一例である。通信ＩＦ１０４が受信手段１３及び送信手段１５の一例である。ＣＰＵ１０１が、学習手段１２、生成手段１４、及び制御手段１６の一例である。

２．動作
図５は、３Ｄデータシステム１の動作を例示するシーケンスチャートである。以下において記憶手段３１等の機能構成要素を処理の主体として説明するが、これは、クライアントプログラム等のソフトウェアを実行しているＣＰＵ３０１等のハードウェア要素が、他のハードウェア要素と協働して処理を実行することを意味する。図５のフローが開始される前の時点において、端末装置３０にはクライアントアプリケーションがインストールされ、クライアントアプリケーションが起動される。

ステップＳ１０１において、撮影手段３２は、ユーザの全身を撮影する。このとき、撮影手段３２は、撮影中にユーザが取るべきポーズを案内する画面をディスプレイ３０５に表示する。３Ｄデータシステム１は、すべてのユーザに対して撮影中は同じポーズを取るように案内する。具体的には以下のとおりである。

ユーザは、クライアントアプリケーションにおいて３Ｄスキャンを指示する。この指示を受けると、まず、クライアントアプリケーションは被写体の全身画像を撮影する。具体的には以下のとおりである。撮影手段３２は、カメラ３０７を起動する。このとき起動されるのはインカメラであってもよいし、アウトカメラであってもよい。撮影手段３２は、ユーザの指示に応じて起動するカメラを切り替えてもよい。撮影手段３２は、全身が画面に映る位置まで離れるようユーザに案内する。ユーザは、端末装置３０をスタンドに置く、壁に立てかける、他の人に持ってもらう等をして固定した状態で、全身が映る位置まで離れる。撮影手段３２は、カメラ３０７から出力される画像中において被写体を検出する。全身が画面に収まる位置まで離れたことを検知した場合、撮影手段３２は、音を出す等をしてユーザに通知をする。

ユーザの全身が画面に収まる位置まで離れたことを検知すると、撮影手段３２は、ユーザに所定のポーズ、例えばＡポーズ又はＴポーズを取るように案内する。Ａポーズとは、両腕及び両脚を軽く開いたポーズをいう。Ｔポーズとは、Ａポーズから地面と平行になる位置まで両腕を上げたポーズをいう。このように被写体に特定のポーズを取らせることによって、機械学習の際にＰＣＡ（Principal Component Analysis）を用いた次元削減を行うことができ、機械学習の負荷を低減することができる。

撮影手段３２は、ユーザの体の向きが所定の向き、例えば顔をカメラ３０７すなわち端末装置３０の方向に向けるように案内する。撮影手段３２は、カメラ３０７から出力される画像中において被写体の特徴部分、例えば、顔、手、及び脚を検出する。画像において検出されるこれらの特徴部分の相対的位置関係が所定の状態、この例においては顔が正面を向いて、両腕及び両脚を開いた状態になったことを検知すると、撮影手段３２は、音を出す等をしてユーザに通知をする。

ユーザが所定のポーズで、端末装置３０に対して所定の向きを取ったことが検知された場合、撮影手段３２は、以降、カメラ３０７から出力される画像を所定の時間間隔で記録する。撮影手段３２は、ユーザに対し（端末装置３０の位置を固定したまま）その場で一方向に１回転するよう、すなわち、地面に垂直かつ自身の東部を貫く回転軸を中心に１回転するよう案内する。このとき、撮影手段３２は、カメラ３０７から出力される画像からユーザの向きを検知し、回転速度が基準よりも速い場合にはもっとゆっくり回転するように案内し、回転測度が基準よりも遅い場合にはもっと早く回転するように案内してもよい。また、撮影手段３２は、ユーザが回転している最中にもユーザのポーズを検知し、ユーザのポーズが所定のポーズから外れた場合には所定のポーズを取るよう警告又は案内してもよい。

図６は、全身撮影を示す模式図である。図６（Ａ）は被写体Ｕがカメラ３０７に対し正面を向いている状態を、図６（Ｂ）は図６（Ａ）の状態から被写体Ｕが右回りに９０°回転した状態を模式的に示す。被写体Ｕは、撮影手段３２からの案内に従って、Ａポーズを保ったまま、その場で例えば脚だけを動かして回転する。図６（Ｃ）は図６（Ａ）の状態で撮影された画像を、図６（Ｄ）は図６（Ｂ）の状態で撮影された画像を、それぞれ模式的に示す。図６（Ｃ）において被写体Ｕは正面を向いており、図６（Ｄ）において被写体Ｕは左を向いている。

カメラ３０７から出力される画像においてユーザが１回転したことを検知すると、撮影手段３２は、画像の記録を停止する。こうして、ユーザが所定のポーズにおいてカメラに対する角度（すなわち回転角）を変えながら撮影した画像群が得られる。この画像群は、デプス情報を含んでいない。デプス情報とは、端末装置３０から被写体の表面上の複数の点までの距離（又は深さ）を示す情報と、被写体を撮影した画像上の点との対応関係を示す情報とのセットをいう。撮影手段３２は、この画像群を記憶手段３１に記録する。

再び図５を参照する。全身画像の撮影が完了すると、取得手段３４は、サーバ１０に対し全身の３Ｄモデルの生成依頼を送信する（ステップＳ１０２）。この生成依頼は、撮影手段３２により撮影された全身画像群及びユーザＩＤを含む。ユーザＩＤは例えばクライアントアプリケーションへのログイン処理により特定される。

端末装置３０から全身の３Ｄモデルの生成依頼を受信すると、サーバ１０の生成手段１４は、全身の３Ｄモデルを生成する（ステップＳ１０３）。この例において、生成手段１４は、機械学習モデル１１１を用いて全身の３Ｄモデルを生成する。具体的には、生成手段１４は、この生成依頼に含まれる画像群を機械学習モデル１１１に入力する。機械学習モデル１１１は、画像群が入力されると、全身の３Ｄモデリングデータを出力する。送信手段１５は、生成手段１４により生成された全身の３Ｄモデリングデータを、生成依頼の要求元である端末装置３０に送信する（ステップＳ１０４）。

全身画像の撮影が完了すると、クライアントアプリケーションは、被写体の顔画像を撮影する（ステップＳ１０５）。具体的には以下のとおりである。撮影手段３３は、カメラ３０７を起動する。この場合において起動されるのはインカメラである。撮影手段３３は、顔が画面の所定範囲に映る位置関係となるよう、ユーザに案内する。ユーザは、端末装置３０を自分の手で持って位置を調整する。このとき、ディスプレイ３０５にはカメラ３０７が出力した画像が表示されるので、ユーザは画面を見ながら端末装置３０の位置を調整する。撮影手段３３は、ディスプレイ３０５にシャッターボタンを表示する。ユーザがシャッターボタンにタッチすると、撮影手段３３はそのときカメラ３０７から出力された画像を記憶手段３１に記録する。全身画像と異なり、顔画像は１枚でよい。全身画像と同様、顔画像もデプス情報を含まない。

図７は、顔画像の撮影を示す模式図である。図７（Ａ）は、被写体が撮影手段３３の案内に従って、いわゆる自撮りの要領で自身の顔を撮影する様子を模式的に示す。図７（Ｂ）は、図７（Ａ）において撮影された画像を例示する図である。この画像において、画面一杯に被写体Ｕの顔が正面から写っている。

再び図５を参照する。顔画像の撮影が完了すると、取得手段３５は、サーバ１０に対し頭部の３Ｄモデルの生成依頼を送信する（ステップＳ１０６）。この生成依頼は、撮影手段３３により撮影された顔画像及びユーザＩＤを含む。

端末装置３０から頭部の３Ｄモデルの生成依頼を受信すると、サーバ１０の生成手段１４は、全身の３Ｄモデルを生成する（ステップＳ１０７）。この例において、生成手段１４は、機械学習モデル１１３を用いて頭部の３Ｄモデルを生成する。具体的には、生成手段１４は、この生成依頼に含まれる顔画像を機械学習モデル１１３に入力する。機械学習モデル１１３は、顔画像が入力されると、全身の３Ｄモデリングデータを出力する。送信手段１５は、生成手段１４により生成された頭部の３Ｄモデリングデータを、生成依頼の要求元である端末装置３０に送信する（ステップＳ１０８）。

ステップＳ１０９において、合成手段３６は、全身の３Ｄモデルに頭部の３Ｄモデルを合成する。具体的には以下のとおりである。合成手段３６は、全身の３Ｄモデルにおいて頭部を特定する。合成手段３６は、全身の３Ｄモデルにおいて特定された頭部を、頭部の３Ｄモデルで置換する。この際、合成手段３６は、全身の３Ｄモデルに含まれる顔において特徴部分又はランドマーク（例えば、目、鼻、及び口）を検出し、これらが一致するよう、頭部の３Ｄモデルのサイズ及び位置を調整して全身の３Ｄモデルに合成する。合成手段３６は、こうして生成された３Ｄモデリングデータを記憶手段３１に記録する。

専用の３Ｄスキャナと比較すると汎用のコンピュータ装置のカメラは性能が劣るが、多くの場合、３Ｄモデルで最も重要なのは顔である。本実施形態においては顔は全身と別にアップの写真を用いるので、単に全身画像から生成した３Ｄモデルと比較してより高精細な３Ｄモデルを得ることができる。

３．変形例
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例に記載した事項のうち２つ以上のものが組み合わせて用いられてもよい。

教師データ１１２及び教師データ１１４は実施形態において例示したものに限定されない。例えば、学習手段１２は、異なる複数の被写体について専用の３Ｄスキャナにより生成された３Ｄモデリングデータを用い、仮想空間において３Ｄモデルを仮想カメラで撮影した擬似的な２次元画像（以下「疑似画像」という）を生成する。疑似画像は、例えば、３Ｄモデルを地面に平行かつその頭部を貫く回転軸を中心として回転させながら様々な回転角において仮想カメラで撮影した画像を含む。疑似画像を用いることにより、教師データを準備する手間を削減することができる。

全身画像と顔画像とを撮影する順序、及び画像から３Ｄモデルを生成する順序は実施形態において例示したものに限定されない。例えば、撮影手段３３が先に顔画像を、その後で撮影手段３２が全身画像を撮影し、取得手段３４及び取得手段３５は、両方の画像の撮影が終わった後でサーバ１０に３Ｄモデルの生成を依頼してもよい。

３Ｄモデルを生成する主体はサーバ１０に限定されない。例えば、サーバ１０ではなく端末装置３０が生成手段１４に相当する機能を有してもよい。この場合、端末装置３０は、事前に学習済モデル、すなわち機械学習モデル１１１及び機械学習モデル１１３をダウンロードする。端末装置３０は、機械学習モデル１１１及び機械学習モデル１１３を使用して３Ｄモデリングデータを生成する。

実施形態においては生成手段１４が異なる角度で撮影された複数の全身画像群から全身の３Ｄモデリングデータを生成する例を説明したが、生成手段１４は、顔画像と同様に、１枚のみの全身画像から全身の３Ｄモデリングデータを生成してもよい。この場合、教師データ１１２は１枚のみの全身画像及び対応する３Ｄモデリングデータを含み、機械学習モデル１１１は教師データ１１２を用いて学習する。

実施形態においては生成手段１４が１枚のみの顔画像から頭部の３Ｄモデリングデータを生成する例を説明したが、生成手段１４は、全身画像と同様に、被写体がその場で回転しながら、異なる角度で撮影された複数の頭部の画像群から頭部の３Ｄモデリングデータを生成してもよい。この場合、教師データ１１４は異なる角度で撮影された複数の頭部の画像群を含み、機械学習モデル１１３はこの画像群を用いて学習する。

サーバ１０及び端末装置３０のハードウェア構成は実施形態において例示したものに限定されない。要求される機能を実装できるものであれば、サーバ１０及び端末装置３０はそれぞれどのようなハードウェア構成を有してもよい。

ＣＰＵ１０１等により実行されるプログラムは、インターネット等のネットワークを介してダウンロードされてもよいし、ＣＤ−ＲＯＭ等の記録媒体に記録された状態で提供されてもよい。

Claims

所定のポーズを取った被写体の全身を撮影する第１撮影手段と、
前記被写体の顔を撮影する第２撮影手段と、
前記第１撮影手段により撮影された画像を用いて生成された、前記被写体の全身の３Ｄモデルを取得する第１取得手段と、
前記第２撮影手段により撮影された画像を用いて生成された、前記被写体の頭部の３Ｄモデルを取得する第２取得手段と、
前記全身の３Ｄモデルの頭部に、前記頭部の３Ｄモデルを合成する合成手段と
を有し、
前記第１取得手段は、前記所定のポーズを取った複数の人について、デプス情報が無い全身の２次元画像を入力層に、全身の３Ｄモデルを出力層に、教師データとして与えて学習させた機械学習モデルを用いて生成された前記被写体の全身の３Ｄモデルを取得し、
前記教師データは、仮想空間において３Ｄモデルを仮想カメラで撮影して得られた疑似画像を前記入力層に与えるデータとして含む
情報処理装置。
前記第１撮影手段は、前記所定のポーズを取った被写体の全身を一方向に回転しながら複数の画像を撮影し、
前記第１取得手段は、前記第１撮影手段により撮影された複数の画像を用いて生成された、前記被写体の全身の３Ｄモデルを取得する
請求項１に記載の情報処理装置。
前記第１撮影手段は、前記被写体の姿勢を検知し、前記被写体の姿勢が前記所定のポーズから外れたことが検知された場合、当該被写体に警告をする
請求項２に記載の情報処理装置。
前記第２取得手段は、前記第２撮影手段により撮影された１枚の画像を用いて生成された、前記被写体の頭部の３Ｄモデルを取得する
請求項１乃至３のいずれか一項に記載の情報処理装置。
前記第２取得手段は、複数の人について、デプス情報が無い顔の２次元画像を入力層に、頭部の３Ｄモデルを出力層に、教師データとして与えて学習させた機械学習モデルを用いて生成された前記被写体の頭部の３Ｄモデルを取得する
請求項１乃至４のいずれか一項に記載の情報処理装置。
携帯端末が、所定のポーズを取った被写体の全身を撮影するステップと、
前記携帯端末が、前記被写体の顔を撮影するステップと、前記携帯端末が、前記撮影された前記被写体の全身の画像から、前記被写体の全身の３Ｄモデルを取得するステップと、
前記携帯端末が、前記撮影された前記被写体の顔の画像を用いて生成された、前記被写体の頭部の３Ｄモデルを取得するステップと、
前記携帯端末が、前記全身の３Ｄモデルの頭部に、前記頭部の３Ｄモデルを合成するステップと
を有し、
前記被写体の全身の３Ｄモデルを取得するステップにおいて、前記所定のポーズを取った複数の人について、デプス情報が無い全身の２次元画像を入力層に、全身の３Ｄモデルを出力層に、教師データとして与えて学習させた機械学習モデルを用いて生成された前記被写体の全身の３Ｄモデルが取得され、
前記教師データは、仮想空間において３Ｄモデルを仮想カメラで撮影して得られた疑似画像を前記入力層に与えるデータとして含む
３Ｄモデル生成方法。
コンピュータに、
所定のポーズを取った被写体の全身を撮影するステップと、
前記被写体の顔を撮影するステップと、第１撮影手段により撮影された画像から、前記被写体の全身の３Ｄモデルを取得するステップと、
第２撮影手段により撮影された画像を用いて生成された、前記被写体の頭部の３Ｄモデルを取得するステップと、
前記全身の３Ｄモデルの頭部に、前記頭部の３Ｄモデルを合成するステップと
を実行させるためのプログラムであって、
前記被写体の全身の３Ｄモデルを取得するステップにおいて、前記所定のポーズを取った複数の人について、デプス情報が無い全身の２次元画像を入力層に、全身の３Ｄモデルを出力層に、教師データとして与えて学習させた機械学習モデルを用いて生成された前記被写体の全身の３Ｄモデルが取得され、
前記教師データは、仮想空間において３Ｄモデルを仮想カメラで撮影して得られた疑似画像を前記入力層に与えるデータとして含む
プログラム。