JP2018129007A

JP2018129007A - 学習データ生成装置、学習装置、推定装置、学習データ生成方法及びコンピュータプログラム

Info

Publication number: JP2018129007A
Application number: JP2017023666A
Authority: JP
Inventors: 和樹岡見; Kazuki Okami; 広太竹内; Kota Takeuchi; 木全　英明; Hideaki Kimata; 英明木全
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-02-10
Filing date: 2017-02-10
Publication date: 2018-08-16

Abstract

【課題】三次元の関節情報と画像とを含む複数の学習データをより容易に取得することである。【解決手段】関節を有する生物又は物体の三次元形状を表す三次元モデルについて、複数の視野によりレンダリングされた画像と、レンダリングされた際の前記三次元モデルの関節の位置及び角度を示す関節情報と、を生成するデータ生成部と、前記データ生成部によって生成された前記画像及び前記関節情報を用いて機械学習を行うことにより、処理の対象となる画像である対象画像に基づいて前記対象画像に撮像されている生物又は物体の関節情報を推定するための学習結果を取得する学習部と、を備える学習装置である。【選択図】図１

Description

本発明は、被写体の関節に関する情報を画像から取得するための技術に関する。

人間の関節の動きを計測する技術を応用することによって、映画などに登場する人を模したコンピュータグラフィックスのキャラクターに生き生きとした動作を付与することができる。そのため、人間の関節の動きを計測する技術は、コンテンツ全体の品質向上を実現するために必要不可欠な技術である。また、上記のようなエンタテインメントの分野以外にも、人間の関節の動きを計測する技術は、様々な分野で用いられている。例えば、医療の分野においては、患者の容体を把握するための情報として重要である。

このように、人間の関節の動きに関する情報（以下「関節情報」という。）は様々な分野で重要な情報である。しかし、関節情報の取得には多大な手間が伴う。関節情報の取得技術としてモーションキャプチャを用いたデータ取得技術がある。モーションキャプチャでは、計測する対象の人物に専用のスーツを着てもらう必要があり、事前に空間のキャリブレーションを行う必要もあり、と煩雑な作業が必要となる。そのほかの技術に関しても、特殊な機器を必要とするものであったり、限定的な環境でしか利用できなかったりと、様々な問題を抱えている。

このような問題に対し、ディープラーニングを用いて、画像に映る被写体の関節位置をロバストに推定する技術が近年発表された（例えば非特許文献１参照）。この技術では、画像内に複数の人物が存在していたとしても、ロバストな推定が可能である。

L. Pishchulin, E. Insafutdinov, S. Tang, B. Andres, M. Andriluka, P. Gehler, B. Schiele, "DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation," IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2016).

しかしながら、従来の方法では、推定される関節情報は、画像上の二次元の関節位置のみである。そのため、アニメーション生成などに用いる関節情報としては不十分であった。一方で、三次元の関節情報をディープラーニング等の機械学習を用いて推定しようとすると、三次元の関節情報と画像とを含む学習データを多量に予め取得する必要があり、困難を伴っていた。
上記事情に鑑み、本発明は、三次元の関節情報と画像とを含む複数の学習データをより容易に取得する事を可能とする技術の提供を目的としている。

本発明の一態様は、関節を有する生物又は物体の三次元形状を表す三次元モデルについて、複数の視野によりレンダリングされた画像と、レンダリングされた際の前記三次元モデルの関節の位置及び角度を示す関節情報と、を含む学習データを生成するデータ生成部を備える学習データ生成装置である。

本発明の一態様は、上記の学習データ生成装置であって、前記データ生成部は、同一の三次元モデルに基づいて前記関節情報が異なる複数のシーンを生成し、前記シーン毎に１又は複数の視野の画像をレンダリングする。

本発明の一態様は、上記の学習データ生成装置と、前記データ生成部によって生成された前記画像及び前記関節情報を用いて機械学習を行うことにより、処理の対象となる画像である対象画像に基づいて前記対象画像に撮像されている生物又は物体の関節情報を推定するための学習結果を取得する学習部と、を備える学習装置である。

本発明の一態様は、上記の学習装置と、前記学習装置によって取得された前記学習結果を用いることによって、前記対象画像に撮像されている生物又は物体の関節情報を推定する推定部と、を備える推定装置である。

本発明の一態様は、関節を有する生物又は物体の三次元形状を表す三次元モデルについて、複数の視野によりレンダリングされた画像と、レンダリングされた際の前記三次元モデルの関節の位置及び角度を示す関節情報と、を生成するデータ生成ステップを有する学習データ生成方法である。

本発明の一態様は、コンピュータを、上記の学習データ生成装置として機能させるためのコンピュータプログラムである。

本発明により、三次元の関節情報と画像とを含む複数の学習データをより容易に取得することが可能となる。

実施形態における推定装置１０の構成例を示す概略ブロック図である。データ生成部１１１の構成例を示す図である。学習部１１２の構成例を示す図である。ネットワーク構築部２１１によって構築されるネットワークの具体例を示す図である。入力部１２の構成例を示す図である。推定部１３の構成例を示す図である。推定装置１０の前処理の流れの具体例を示す図である。推定装置１０の推定処理の流れの具体例を示す図である。

図１は実施形態における推定装置１０の構成例を示す概略ブロック図である。推定装置１０は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、推定プログラムを実行する。推定プログラムの実行によって、推定装置１０は、学習装置１１、入力部１２及び推定部１３を備える装置として機能する。なお、推定装置１０の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。推定プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。推定プログラムは、電気通信回線を介して送信されてもよい。

学習装置１１は、データ生成部１１１及び学習部１１２を備える。
まず、データ生成部１１１について説明する。データ生成部１１１は、学習部１１２によって使用される学習データを生成する。データ生成部１１１によって生成される学習データは、画像データと、関節情報と、を有する。画像データは、予め生成された三次元人物モデルが所定の姿勢で視野に含まれるコンピュータグラフィックスとして生成される。データ生成部１１１は、１又は複数の三次元人物モデルを用いて、三次元人物モデル毎に１又は複数のシーンを形成し、シーン毎に１又は複数の視野でコンピュータグラフィックスを生成することによって、複数の画像データを生成する。

三次元人物モデルは、例えば人物の各関節の位置と、人物の表面形状と、人物の表面の画像（テクスチャ画像）と、を有するデータである。三次元人物モデルを用いることによって、所望の視野で所望の姿勢の人物の画像を生成することが可能となる。このような三次元人物モデルは、予め人間の手によって作成されたデータであってもよいし、人工知能（Artificial Intelligence：ＡＩ）によって作成されたデータであってもよいし、モーションキャプチャ等の三次元形状を記録する技術を用いて作成されたデータであってもよい。三次元人物モデルが有する関節の数は、推定部１３において求められる推定処理の精度などに応じて適宜決定されてよい。例えば、関節の数は１５であってもよいし、より少ない数であってもよいし、より多い数であってもよい。例えば、指先の動きなどをより精度よく推定する必要がある場合には、該当部分の関節をより多い数とすることが望ましい。この場合、関節の数が増加する。

所定の姿勢とは、人物の関節の位置や角度によって定義される人の姿勢を示す。三次元人物モデルが有する関節の位置や角度を変更することによって、同一の三次元人物モデルから複数の姿勢を得ることができる。

シーンとは、生成されるコンピュータグラフィックスの空間（以下「対象空間」という。）のモデリングデータを示す。シーンは、三次元人物モデルと環境情報とによって定義される。環境情報とは、対象空間内に位置する物に関する情報である。例えば、環境情報は、対象空間内に位置する光源の位置、光源の種類、光源が光を発する方向、光源が発する光の強さ、対象空間内に位置する物体（壁、家具、植物、動物など）の材質や位置などを示す。三次元人物モデルの姿勢や位置、環境情報のいずれか一つでも異なれば、異なるシーンである。複数のシーンは、予め人間の手によって作成されてもよいし、人工知能によって作成されてもよい。

データ生成部１１１は、上述したように、一つのシーンに対して複数の視野でコンピュータグラフィックスをレンダリングしてもよい。視野は例えば視点の位置と視線の方向とによって定義される。視点の位置は、シーンの全周囲と定められてもよい。また、視野は、シーンの特性や用途等の情報に合わせて変更されてもよい。例えば、後述する入力部１２に入力される実処理の対象の画像において視野が予め定められている場合には、その視野と同じ視野でコンピュータグラフィックスが生成されてもよい。

関節情報は、三次元人物モデルの各関節の位置を示す情報（関節位置情報）と、各関節が成す角度を示す情報（関節角度情報）と、を有する。関節位置情報は、例えば三次元人物モデルの所定の位置を原点としたときの各関節の三次元座標値として表されてもよい。関節位置情報は、例えばシーンにおけるカメラ座標を基準として表されてもよい。関節角度情報は、例えばオイラー角を用いて表されてもよいし、クオータニオンを用いて表されてもよいし、他の表現で表されてもよい。関節情報は、三次元人物モデルのシーン毎に生成される。視野が変わったとしても、三次元人物モデル及びシーンが変わらなければ、関節情報は変わらない。

データ生成部１１１は、同一シーン（三次元人物モデル及びシーンが同じことを示す）において１又は複数の視野でコンピュータグラフィックスを生成する。同一シーンで生成された１又は複数の視野のコンピュータグラフィックスを、シーンＣＧセットという。データ生成部１１１は、シーンＣＧセットと、そのシーンにおける関節情報と、が対応付けられたデータを単位学習データとして出力する。データ生成部１１１は、このような単位学習データを複数生成する。データ生成部１１１は、複数の単位学習データを含む学習データを出力する。

図２は、データ生成部１１１の構成例を示す図である。図面のスペースの都合により、三次元人物モデルを図２では“３Ｄモデル”と表す。データ生成部１１１には、複数（例えばＮ種類）の三次元人物モデルが入力される。データ生成部１１１は、シーン生成部２０１及び画像生成部２０２を有する。シーン生成部２０１は、入力された三次元人物モデル毎に１又は複数（例えばＭ種類）のシーンを生成する。なお、三次元人物モデル毎に異なる数のシーンが生成されてもよい。画像生成部２０２は、シーン毎に、１又は複数（例えばＬ種類）の視野のコンピュータグラフィックスを生成する。画像生成部２０２は、生成されたコンピュータグラフィックスに基づいて、複数の単位学習データを生成する。

次に学習部１１２について説明する。学習部１１２は、データ生成部１１１によって生成された複数の単位学習データに基づいて学習処理を行う。学習部１１２は、機械学習を実行することによって、推定部１３によって実行される推定処理に用いられるパラメータを取得する。推定処理とは、処理の対象となる画像（以下「対象画像」という。）から、対象画像に撮影されている人物の関節情報を推定する処理である。学習部１１２に実装される機械学習は、どのような技術であってもよい。例えば、ディープニューラルネットワーク（ＤＮＮ）やサポートベクタマシン（ＳＶＭ）等の技術が適用されてもよい。

図３は、学習部１１２の構成例を示す図である。学習部１１２には、複数の単位学習データを含む学習データが入力される。学習部１１２は、ネットワーク構築部２１１及びパラメータ学習部２１２を有する。なお、図３に示される学習部１１２は、ＤＮＮが適用された場合の具体例にすぎない。学習部１１２に他の機械学習の技術が適用される場合には、適用される機械学習に応じて学習部１１２の構成が変更されてもよい。

ネットワーク構築部２１１は、学習に用いられるネットワークを構築する。例えば、学習部１１２にＤＮＮが適用されている場合、学習部１１２は、対象画像を入力とし、被写体の三次元の関節情報を出力とするディープニューラルネットワークを構築する。ネットワーク構築部２１１によって構築されるネットワークは、出力される三次元の関節情報の数に応じて構築される。例えば、ネットワークの出力層では、求められる関節の数に応じて次元数が決定される。

図４は、ネットワーク構築部２１１によって構築されるネットワークの具体例を示す図である。ネットワークは、単位学習データに含まれるＬ個の画像が入力であり、それらの画像に対応する関節情報が出力である。例えば、単位学習データに含まれる各画像（コンピュータグラフィックスとして生成された画像）は、縦のサイズが２５６、横のサイズが２５６、ＲＧＢの３チャネルで構成される３×２５６×２５６のカラー画像である。このカラー画像が視点数分入力される。各画像に対して、チャネル数は３６で、５×５のカーネルを用いて３６×５×５の畳み込みが行われる。さらに、２×２のプーリングが実行される。この時、畳み込み層で生成されるチャネル数は３６、ストライド幅は２である。次に、これらの出力がＣＯＮＣＡＴ処理によって縦に連結される。このようなＣＯＮＣＡＴ処理によって多視点の画像が畳み込まれたデータが、以降の処理で同一のフィルタで畳み込まれる。このような構造のネットワークが用いられることによって、関節情報を求めるための空間的な特徴量を抽出することが可能となる。以降のネットワークの構造及び処理は、一般的なネットワークに準ずるものとなる。チャネル数は７２であり、３×３のカーネルを用いてチャネル数７２の７２×３×３の畳み込みが行われる。２×２でストライド幅２のプーリングといった処理が２回繰り返される。それらの結果は、並べてＦＣ層へと流し込まれる。ＦＣ層は、例えば３つの層で構成されている。それぞれの活性化関数として、ＲｅＬＵが用いられる。ノード数は上流から順に５１２、１０２４、２０４８である。出力層では、１５個の関節位置それぞれについて、ｘｙｚの座標位置と、ｘｙｚオイラー角が出力される。そのため、出力層は９０次元となる。

上述した図４のネットワークは、あくまで一つの例にすぎない。各カーネルのサイズやストライド幅については、他の値が用いられてもよい。また、活性化関数の種類については、どのような関数が用いられてもよい。ただし、出力される関節情報は、関節数が変化した場合においても、関節ごとにｘｙｚの座標位置と、ｘｙｚオイラー角とが出力されることが望ましい。

このようなネットワークを構築することによって、画像から被写体の三次元の関節情報を推定するためのネットワークが構築される。また、複数の視野の画像を重ね合わせることによって、画像上での関節情報として扱うのではなく、空間上での関節情報として扱える。そのため、三次元の関節情報を推定することが可能となる。

パラメータ学習部２１２は、ネットワーク構築部２１１によって構築されたネットワークに関して、データ生成部１１１によって生成された学習データを用いた機械学習を行うことによって、ネットワークのパラメータを取得する。この時、反復回数や初期パラメータについては、最適と考えられる値が手動で与えられてもよい。

以下、入力部１２及び推定部１３について説明する。
図５は、入力部１２の構成例を示す図である。入力部１２には、対象画像が入力される。入力部１２は、画像取得部２１及び画像加工部２２を有する。

画像取得部２１は、推定装置１０に対して入力される対象画像のデータを取得する。画像取得部２１は、例えばＣＤ−ＲＯＭやＵＳＢメモリ（Universal Serial Bus Memory）等の記録媒体に記録された対象画像のデータを記録媒体から読み出してもよい。画像取得部２１は、スチルカメラやビデオカメラによって撮像された対象画像を、カメラから受信してもよい。推定装置１０がスチルカメラやビデオカメラ若しくはカメラを備えた情報処理装置に内蔵されている場合は、画像取得部２１は撮像された対象画像又は撮像前の対象画像をバスから受信してもよい。画像取得部２１は、ネットワークを介して他の情報処理装置から対象画像のデータを受信してもよい。画像取得部２１は、対象画像のデータの入力を受けることが可能な構成であれば、さらに異なる態様で構成されてもよい。画像取得部２１は、入力された動画像の所定周期のフレームを対象画像として取得してもよい。

画像加工部２２は、画像取得部２１によって取得された対象画像に対し、所定の画像処理を実行する。画像加工部２２は、例えば、対象画像のサイズを、推定部１３によって使用可能なサイズに変更してもよい。対象画像に複数人が撮像されている場合は、画像加工部２２は、各人物の領域を切り出すことによって複数の対象画像を生成し、切り出された各対象画像のサイズを推定部１３によって使用可能なサイズに変更してもよい。この場合、画像加工部２２は、画像から人物の領域を検出する人物検出処理を行ってもよい。なお、推定部１３によって使用可能な対象画像が推定装置１０に入力される場合には、入力部１２は画像加工部２２を備えないように構成されてもよい。

図６は、推定部１３の構成例を示す図である。推定部１３には対象画像及び学習結果が入力される。推定部１３に入力される対象画像は、入力部１２が画像加工部２２を備えている場合には、画像加工部２２によって画像処理がなされた対象画像である。推定部１３に入力される学習結果は、学習装置１１によって実行された学習処理の結果である。学習結果は、例えば学習によって得られたパラメータが設定されたネットワークである。

推定部１３は、学習装置１１による機械学習の結果を用いて、対象画像に写っている被写体の関節情報を推定する。推定部１３が使用する機械学習の結果とは、例えば学習部１１２によって得られたパラメータが与えられたネットワークである。推定部１３が使用する機械学習の結果とは、例えば機械学習によって得られた識別器である。

図７は、推定装置１０の前処理の流れの具体例を示す図である。推定装置１０の前処理は、学習装置１１によって実行される。まず、データ生成部１１１は、関節情報を含む三次元人物モデルを取得する（ステップＳ１０１）。次に、データ生成部１１１は、三次元人物モデルの関節情報を変更することによって、複数の姿勢のシーンを生成する（ステップＳ１０２）。次に、データ生成部１１１は、シーン毎に複数の視野でコンピュータグラフィックス（画像）をレンダリングする（ステップＳ１０３）。データ生成部１１１は、シーン毎に生成された複数の画像と関節情報とを対応付けて単位学習データを生成する（ステップＳ１０４）。次に、学習部１１２が、データ生成部１１１によって生成された複数の単位学習データ（画像及び関節情報）に基づいて学習処理を実行する（ステップＳ１０５）。学習部１１２は、学習処理の結果に基づいて得られたパラメータをネットワークに設定する（ステップＳ１０６）。

図８は、推定装置１０の推定処理の流れの具体例を示す図である。入力部１２は、対象画像を入力する（ステップＳ２０１）。推定部１３は、入力部１２によって入力された対象画像に対し、学習装置１１の学習結果を用いた推定処理を実行する。推定部１３は、推定処理によって、対象画像に撮像されている人物の関節情報を推定する（ステップＳ２０２）。

このように構成された推定装置１０では、データ生成部１１１によってレンダリングされたコンピュータグラフィックスを用いて学習データが生成される。そのため、三次元の関節情報と画像とを含む複数の学習データをより容易に生成することができる。特にディープラーニング等の機械学習では、一般的に多量の学習データが必要となるため、上述した推定装置１０は有効である。

また、一つの三次元人物モデルの関節情報を変更することによって、一つの三次元人物モデルから多様な関節情報に基づく画像と関節情報とを生成することができる。例えば、従来のモーションキャプチャでは、たとえ同一の人物（三次元人物モデル）であっても、異なる姿勢毎に関節情報の測定を行う必要があり手間を要していた。一方、推定装置１０では、たとえモーションキャプチャを用いたとしても、一度三次元人物モデルを取得してしまえば、その後は関節情報を変更することによって容易に複数の姿勢の学習データを取得することが可能となる。

また、三次元人物モデルには関節情報が定義されているため、学習データとしてより正確な関節情報を取得する事が可能となる。

（変形例）
データ生成部１１１によって生成されるコンピュータグラフィックスは、カラー画像であってもよいし、グレースケール画像であってもよいし、２値画像であってもよい。

上述した推定装置１０による処理の対象は人物であったが、必ずしも処理の対象は人物に限定される必要は無い。処理の対象は、関節を有する生物又は物体であればどのようなものであってもよい。例えば、動物が処理の対象となってもよい。この場合、三次元人物モデルに代えて三次元動物モデルが用いられて関節情報の学習結果が得られる。推定装置１０の入力部１２には処理の対象となっている動物が撮影された画像が入力され、その動物の関節情報が推定される。例えば、ロボットが処理の対象となっても良い。この場合、三次元人物モデルに代えて三次元ロボットモデルが用いられて関節情報の学習結果が得られる。推定装置１０の入力部１２には処理の対象となっているロボットが撮影された画像が入力され、そのロボットの関節情報が推定される。

データ生成部１１１は、生成されたコンピュータグラフィックスに対して所定の処理（以下「画像前処理」という。）を実行してもよい。画像前処理とは、学習部１１２における学習処理や、推定部１３による推定処理の精度をより高める事を目的として実行される処理である。画像前処理は、例えば、サイズの変更であってもよいし、処理の対象（例えば人物）の領域の切り出しであってもよい。ただし、生成されたコンピュータグラフィックスに対して実行される画像前処理は共通しており、変更後のサイズは全て同一になるように画像前処理が実行される。また、データ生成部１１１において実行される画像前処理は、入力部１２において入力される処理対象の画像に対しても同様に実行される。この場合、入力部１２において画像前処理が実行された後の画像のサイズは、データ生成部１１１によって画像前処理が実行された後のコンピュータグラフィックスのサイズと同じであることが望ましい。言い換えれば、学習部１１２において用いられるコンピュータグラフィックスのサイズと、推定部１３において用いられる画像のサイズは同一であることが望ましい。このような画像前処理は、例えば画像加工部２２によって実行されてもよい。

学習部１１２によって使用されるネットワークは、ネットワーク構築部２１１によって構築されるのではなく、予め構築されたものが不図示の記憶部に記憶されていてもよい。この場合、パラメータ学習部２１２は、記憶部に記憶されているネットワークを読み出すことによって機械学習を実行する。

学習装置１１は、推定装置１０とは別の装置として構成されてもよい。この場合、推定システムが構築されてもよい。推定システムは、推定装置１０と学習装置１１とを備える。この場合、推定装置１０は、入力部１２及び推定部１３を備える。推定装置１０は、ネットワーク等を介して学習装置１１から学習結果を示すデータを取得し、推定処理を実行する。

データ生成部１１１は、学習装置１１とは異なる学習データ生成装置に備えられてもよい。この場合、学習データ生成装置によって生成された学習データは、ネットワークや記憶媒体などを介して学習装置１１に与えられてもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１０…推定装置，１１…学習装置，１１１…データ生成部，１１２…学習部，１２…入力部，１３…推定部，２０１…シーン生成部，２０２…画像生成部，２１１…ネットワーク構築部，２１２…パラメータ学習部，２１…画像取得部，２２…画像加工部

Claims

関節を有する生物又は物体の三次元形状を表す三次元モデルについて、複数の視野によりレンダリングされた画像と、レンダリングされた際の前記三次元モデルの関節の位置及び角度を示す関節情報と、を含む学習データを生成するデータ生成部を備える学習データ生成装置。
前記データ生成部は、同一の三次元モデルに基づいて前記関節情報が異なる複数のシーンを生成し、前記シーン毎に１又は複数の視野の画像をレンダリングする、請求項１に記載の学習データ生成装置。
請求項１又は２に記載の学習データ生成装置と、
前記データ生成部によって生成された前記画像及び前記関節情報を用いて機械学習を行うことにより、処理の対象となる画像である対象画像に基づいて前記対象画像に撮像されている生物又は物体の関節情報を推定するための学習結果を取得する学習部と、
を備える学習装置。
請求項３に記載の学習装置と、
前記学習装置によって取得された前記学習結果を用いることによって、前記対象画像に撮像されている生物又は物体の関節情報を推定する推定部と、を備える推定装置。
関節を有する生物又は物体の三次元形状を表す三次元モデルについて、複数の視野によりレンダリングされた画像と、レンダリングされた際の前記三次元モデルの関節の位置及び角度を示す関節情報と、を生成するデータ生成ステップを有する学習データ生成方法。
コンピュータを、請求項１又は２に記載の学習データ生成装置として機能させるためのコンピュータプログラム。