JP2021060734A

JP2021060734A - 学習装置、学習方法、学習プログラム

Info

Publication number: JP2021060734A
Application number: JP2019183964A
Authority: JP
Inventors: 良介丹野; Ryosuke Tanno; 秀平浅野; Shuhei Asano
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2019-10-04
Filing date: 2019-10-04
Publication date: 2021-04-15
Anticipated expiration: 2039-10-04
Also published as: JP7355588B2; CN114270414A; JP2023164709A; US20220222963A1; WO2021066173A1

Abstract

【課題】骨格推定を精度よく行うモデルを生成すること。【解決手段】学習装置１０は、人物を含む画像データを取得し、取得した画像データを入力として、人物の骨格に関する骨格データを推定する骨格推定モデルを用いて、骨格データを推定する。また、学習装置１０は、取得した画像データを入力として、画像データに含まれる前記人物の各衣服の領域を衣服の種別ごとに分割する衣服形状領域分割モデルを用いて、画像データの領域を衣服の種別ごとに分割する。続いて、学習装置１０は、推定結果と分割結果とを入力として、改良骨格推定モデルを用いて、骨格データを推定し、推定された骨格データと正解の骨格データとを識別するように学習された識別モデルを用いて、該識別モデルに入力された骨格の識別結果を出力する。そして、学習装置１０は、出力された識別結果を基に、改良骨格推定モデルおよび識別モデルを最適化する。【選択図】図１

Description

本発明は、学習装置、学習方法、学習プログラムに関する。

近年、各種の生体認証を用いて本人認証を行う技術が知られている。このような認証技術として、例えば、認証対象の人物の全身を含む画像データから骨格の位置座標を推定する骨格推定を行い、推定結果を基に本人認証を行う技術がある。

特開２０１８−０１３９９９号公報

しかしながら、従来の骨格推定の手法では、骨格推定を精度よく行えない場合があるという課題があった。例えば、従来の骨格推定の手法では、画像データにおける認証対象の人物自身のボディーラインが分かり難いような衣服を着用している場合には、骨格推定の精度が低下するという課題があった。

上述した課題を解決し、目的を達成するために、本発明の学習装置は、人物を含む画像データを取得する取得部と、前記取得部によって取得された画像データを入力として、前記人物の骨格に関する骨格データを推定する骨格推定モデルを用いて、前記骨格データを推定する第一の推定部と、前記取得部によって取得された画像データを入力として、前記画像データに含まれる前記人物の各衣服の領域を衣服の種別ごとに分割する分割モデルを用いて、前記画像データの領域を衣服の種別ごとに分割する分割部と、前記第一の推定部による推定結果と前記分割部による分割結果とを入力として、前記骨格データを推定する改良骨格推定モデルを用いて、前記骨格データを推定する第二の推定部と、前記第二の推定部によって推定された骨格データと正解の骨格データとを識別するように学習された識別モデルを用いて、該識別モデルに入力された骨格の識別結果を出力する識別部と、前記識別部によって出力された識別結果を基に、前記改良骨格推定モデルおよび前記識別モデルを最適化する学習部とを有することを特徴とする。

また、本発明の学習方法は、学習装置によって実行される学習方法であって、人物を含む画像データを取得する取得工程と、前記取得工程によって取得された画像データを入力として、前記人物の骨格に関する骨格データを推定する骨格推定モデルを用いて、前記骨格データを推定する第一の推定工程と、前記取得工程によって取得された画像データを入力として、前記画像データに含まれる前記人物の各衣服の領域を衣服の種別ごとに分割する分割モデルを用いて、前記画像データの領域を衣服の種別ごとに分割する分割工程と、前記第一の推定工程による推定結果と前記分割工程による分割結果とを入力として、前記骨格データを推定する改良骨格推定モデルを用いて、前記骨格データを推定する第二の推定工程と、前記第二の推定工程によって推定された骨格データと正解の骨格データとを識別するように学習された識別モデルを用いて、該識別モデルに入力された骨格の識別結果を出力する識別工程と、前記識別工程によって出力された識別結果を基に、前記改良骨格推定モデルおよび前記識別モデルを最適化する学習工程とを含むことを特徴とする。

また、本発明の学習プログラムは、人物を含む画像データを取得する取得ステップと、前記取得ステップによって取得された画像データを入力として、前記人物の骨格に関する骨格データを推定する骨格推定モデルを用いて、前記骨格データを推定する第一の推定ステップと、前記取得ステップによって取得された画像データを入力として、前記画像データに含まれる前記人物の各衣服の領域を衣服の種別ごとに分割する分割モデルを用いて、前記画像データの領域を衣服の種別ごとに分割する分割ステップと、前記第一の推定ステップによる推定結果と前記分割ステップによる分割結果とを入力として、前記骨格データを推定する改良骨格推定モデルを用いて、前記骨格データを推定する第二の推定ステップと、前記第二の推定ステップによって推定された骨格データと正解の骨格データとを識別するように学習された識別モデルを用いて、該識別モデルに入力された骨格の識別結果を出力する識別ステップと、前記識別ステップによって出力された識別結果を基に、前記改良骨格推定モデルおよび前記識別モデルを最適化する学習ステップとをコンピュータに実行させることを特徴とする。

本発明によれば、骨格推定を精度よく行うモデルを生成することができるという効果を奏する。

図１は、第１の実施形態に係る学習装置の構成例を示すブロック図である。図２は、骨格データの一例を説明する図である。図３は、敵対的ネットワークの学習手法の一例を説明する図である。図４は、敵対的ネットワークの学習手法の一例を説明する図である。図５は、第１の実施形態に係る学習装置における処理の流れの一例を示すフローチャートである。図６は、学習プログラムを実行するコンピュータを示す図である。

以下に、本願に係る学習装置、学習方法、学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態により本願に係る学習装置、学習方法、学習プログラムが限定されるものではない。

［第１の実施形態］
以下の実施形態では、第１の実施形態に係る学習装置の構成、学習装置１０の処理の流れを順に説明し、最後に第１の実施形態による効果を説明する。

［学習装置の構成］
まず、図１を用いて、学習装置１０の構成を説明する。図１は、第１の実施形態に係る学習装置の構成例を示すブロック図である。学習装置１０は、例えば、骨格推定を行うためのモデルを学習する。また、学習装置１０によって学習された骨格推定を行うためのモデルは、例えば、本人認証を行う認証処理システムに適用されるものとする。

学習装置１０は、学習処理において、例えば、ニューラルネットワークの一種である敵対的生成ネットワークであるＧＡＮ（Generative Adversarial Network）を利用し、いわゆる生成器および識別器という二つのニューラルネットワークを組み合わせて学習を行う。第１の実施形態に係る学習装置１０では、改良骨格推定モデルが生成器に相当し、識別モデルが識別器に相当する。例えば、敵対的生成ネットワークでは、学習処理として、生成器はフェイクデータ（推定された骨格データ）を生成するようにするとともに、識別器は入力されたデータが正解の骨格データであるのか生成器が生成したフェイクデータであるのかを識別するように構築される。

図１に示すように、この学習装置１０は、通信処理部１１、制御部１２および記憶部１３を有する。以下に学習装置１０が有する各部の処理を説明する。

通信処理部１１は、接続される装置との間でやり取りする各種情報に関する通信を制御する。例えば、通信処理部１１は、骨格推定の処理対象となる画像データを外部の装置から受信する。また、記憶部１３は、制御部１２による各種処理に必要なデータおよびプログラムを格納し、正解データ記憶部１３ａおよび学習済みモデル記憶部１３ｂを有する。例えば、記憶部１３は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子等の記憶装置である。

正解データ記憶部１３ａは、後述する識別モデルに入力する正解データとして、人物を含む画像データと該人物の骨格データとを対応付けて記憶する。なお、ここで、図２の例を用いて、骨格データの一例について説明する。図２は、骨格データの一例を説明する図である。図２に例示するように、正解データ記憶部１３ａに記憶される骨格データは、各部位を示す点と、隣接する点同士を結んだ線または矢印とで表現される。なお、図２の例では、骨格データにおける所定の点と所定の点を起点とする矢印とは関節に相当する部分であり、「右肩」、「右上腕」、「右前腕」、「左肩」、「左上腕」、「左前腕」、「右上腿」、「右下腿」、「左上腿」および「左下腿」の部分が骨格データに含まれるものとする。

学習済みモデル記憶部１３ｂは、後述する学習部１２ｆによって学習された学習済みモデルを記憶する。例えば、学習済みモデル記憶部１３ｂは、学習済みモデルとして、骨格推定を行うための骨格推定モデルおよび画像から衣服の形状領域を分割する衣服形状領域分割モデルを記憶する。なお、学習済みモデル記憶部１３ｂは、骨格推定モデルと衣服形状領域分割モデルとが一体となった一つの学習済みモデルを記憶してもよい。

制御部１２は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。例えば、制御部１２は、取得部１２ａ、第一の推定部１２ｂ、分割部１２ｃ、第二の推定部１２ｄ、識別部１２ｅおよび学習部１２ｆを有する。ここで、制御部１２は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphical Processing Unit）などの電子回路やＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路である。

取得部１２ａは、人物を含む画像データを取得する。例えば、取得部１２ａは、衣服を着用した人物の全身を含む画像データを取得する。なお、取得部１２ａは、外部の装置から画像データを取得してもよいし、学習のために予め用意された画像データを装置内から取得するようにしてもよい。

第一の推定部１２ｂは、取得部１２ａによって取得された画像データを入力として、人物の骨格に関する骨格データを推定する骨格推定モデルを用いて、骨格データを推定する。例えば、第一の推定部１２ｂは、人物の骨格における各部位の位置を特定し、各関節に相当する部分として「右肩」、「右上腕」、「右前腕」、「左肩」、「左上腕」、「左前腕」、「右上腿」、「右下腿」、「左上腿」および「左下腿」の位置を推定する。

分割部１２ｃは、取得部１２ａによって取得された画像データを入力として、画像データに含まれる前記人物の各衣服の領域を衣服の種別ごとに分割する衣服形状領域分割モデルを用いて、画像データの領域を衣服の種別ごとに分割する。例えば、分割部１２ｃは、画像データから上着、ズボン、帽子、靴下等の衣服の領域をそれぞれ特定し、画像データの領域を衣服の種別ごとに分割する。

第二の推定部１２ｄは、第一の推定部１２ｂによる推定結果と分割部１２ｃによる分割結果とを入力として、骨格データを推定する改良骨格推定モデルを用いて、骨格データを推定する。具体的には、第二の推定部１２ｄは、衣服の領域分割結果と骨格推定の結果を照らし合わせて骨格推定結果の改良を行う。つまり、第二の推定部１２ｄは、第一の推定部１２ｂにおいて骨格推定が困難な箇所の補助に分割部１２ｃによる分割結果を利用して、骨格推定結果の改良を行う。

識別部１２ｅは、第二の推定部１２ｄによって推定された骨格データと正解の骨格データとを識別するように学習された識別モデルを用いて、該識別モデルに入力された骨格の識別結果を出力する。例えば、識別部１２ｅは、第二の推定部１２ｄによって推定された骨格データ、または、正解データ記憶部１３ａに記憶された正解の骨格データのいずれかを識別モデルに入力する。ここで、識別モデルは、入力された骨格データが、画像データから推定された骨格データであるのか、もしくは、画像データに対応する正解の骨格データであるのかを識別する。

学習部１２ｆは、識別部１２ｅによって出力された識別結果を基に、改良骨格推定モデルおよび識別モデルを最適化する。つまり、学習部１２ｆは、識別モデルが入力された骨格データを、推定された骨格データであるのか正解データであるのかを正しく識別できるように識別モデルを最適化するとともに、骨格推定モデルおよび衣服形状領域分割モデルが正解データの骨格データらしい骨格データを生成できるように改良骨格推定モデルを最適化する。

このように、学習装置１０では、学習処理において、ニューラルネットワークの一種である敵対的生成ネットワークであるＧＡＮを利用し、いわゆる生成器および識別器という二つのニューラルネットワークを組み合わせて学習が行われる。ここで、図３を用いて、敵対的ネットワークの学習手法の一例を説明する。図３は、敵対的ネットワークの学習手法の一例を説明する図である。

図３に例示するように、学習装置１０は、骨格推定モデルと衣服形状領域分割モデルとにそれぞれ画像データを入力する。そして、学習装置１０は、画像データを入力データとして、骨格推定モデルを用いて、骨格を推定する。また、学習装置１０は、画像データを入力データとして、衣服形状領域分割モデルを用いて、画像データの領域を衣服の種別ごとに分割する。そして、学習装置１０は、骨格推定モデルから出力された骨格推定の結果と衣服形状領域分割モデルから出力された衣服の領域分割結果とを入力データとして、改良骨格推定モデルを用いて、骨格を推定する。

そして、学習装置１０は、推定された骨格データ、または、正解データ記憶部１３ａに記憶された正解の骨格データのいずれかを識別モデルに入力し、画像データから推定された骨格データであるのか、もしくは、画像データに対応する正解の骨格データであるのかを識別した識別結果を識別モデルから出力する。

例えば、識別モデルは、入力されたデータが推定された骨格データであるのか、または、正解データ記憶部１３ａに記憶された正解の骨格データであるのかを識別し、入力されたデータに対する正解らしさを出力する。例えば、識別モデルは、「０」〜「１」の値を出力するように設定され、「１」に近いほど正解らしさが高く、「０」に近いほど正解らしさが低いものとする。

そして、学習装置１０は、識別モデルの識別結果が正解に近くなるように、生成器および識別器を最適化する。つまり、識別モデルは、正解の骨格データが入力された場合には、高い値（１に近い値）を出力し、推定された骨格データの場合が入力された場合には、低い値（「０」に近い値）を出力することができるように、学習により最適化される。そして、学習装置１０は、識別モデルの識別結果が正解に近くなるように、生成器および識別器を最適化する。また、学習装置１０は、識別結果を基に、正解の骨格データに似ている骨格データを推定できるように改良骨格推定モデルを最適化する。

なお、骨格推定モデルと衣服形状領域分割モデルとが別モデルである場合を説明したがこれに限定されるものではない。例えば、図４に例示するように、学習装置１０は、骨格推定モデルと衣服形状領域分割モデルとが一体となった同時推定モデルに画像データを入力し、骨格を推定する処理と、画像データの領域を衣服の種別ごとに分割する処理とを行い、その後、骨格推定モデルから出力された骨格推定の結果と衣服形状領域分割モデルから出力された衣服の領域分割結果とを入力データとして、改良骨格推定モデルを用いて、骨格を推定するようにしてもよい。

［学習装置の処理手順］
次に、図５を用いて、第１の実施形態に係る学習装置１０による処理手順の例を説明する。図５は、第１の実施形態に係る学習装置における処理の流れの一例を示すフローチャートである。

図５に例示するように、学習装置１０では、取得部１２ａが衣服を着用した人物の全身を含む画像データを取得すると（ステップＳ１０１肯定）、第一の推定部１２ｂは、取得部１２ａによって取得された画像データを入力として、人物の骨格に関する骨格データを推定する骨格推定モデルを用いて、骨格データを推定する（ステップＳ１０２）。

そして、分割部１２ｃは、画像データの領域を衣服の種別ごとに分割する（ステップＳ１０３）。例えば、分割部１２ｃは、画像データから上着、ズボン、帽子、靴下等の衣服の領域をそれぞれ特定し、画像データの領域を衣服の種別ごとに分割する。

続いて、第二の推定部１２ｄは、第一の推定部１２ｂによる推定結果と分割部１２ｃによる分割結果とを用いて、骨格データを推定する改良骨格推定を行う（ステップＳ１０４）。具体的には、第二の推定部１２ｄは、骨格推定モデルから出力された骨格推定の結果と衣服形状領域分割モデルから出力された衣服の領域分割結果とを入力データとして、改良骨格推定モデルを用いて、骨格を推定する。

そして、識別部１２ｅは、推定された骨格データと正解の骨格データとを、識別モデルを用いて識別する（ステップＳ１０５）。例えば、識別部１２ｅは、第二の推定部１２ｄによって推定された骨格データ、または、正解データ記憶部１３ａに記憶された正解の骨格データのいずれかを識別モデルに入力する。

その後、学習部１２ｆは、識別部１２ｅによって出力された識別結果に基づいて、改良骨格推定モデルおよび識別モデルを学習する（ステップＳ１０６）。つまり、学習部１２ｆは、識別モデルが入力された骨格データを、推定された骨格データであるのか正解データであるのかを正しく識別できるように識別モデルを最適化するとともに、改良骨格推定モデルが正解データの骨格データらしい骨格データを生成できるように改良骨格推定モデルを最適化する。

［第１の実施形態の効果］
第１の実施形態に係る学習装置１０は、人物を含む画像データを取得し、取得した画像データを入力として、人物の骨格に関する骨格データを推定する骨格推定モデルを用いて、骨格データを推定する。また、学習装置１０は、取得した画像データを入力として、画像データに含まれる前記人物の各衣服の領域を衣服の種別ごとに分割する衣服形状領域分割モデルを用いて、画像データの領域を衣服の種別ごとに分割する。続いて、学習装置１０は、推定結果と分割結果とを入力として、改良骨格推定モデルを用いて、骨格データを推定し、推定された骨格データと正解の骨格データとを識別するように学習された識別モデルを用いて、該識別モデルに入力された骨格の識別結果を出力する。そして、学習装置１０は、出力された識別結果を基に、改良骨格推定モデルおよび識別モデルを最適化する。このため、学習装置１０は、骨格推定を精度よく行うモデルを生成することが可能である。

つまり、学習装置１０は、敵対的生成ネットワークを利用して改良骨格推定モデルおよび識別モデルを学習し、骨格推定モデルおよび衣服形状領域分割モデルとともに、学習した改良骨格推定モデルを適用して、骨格推定を行うので、衣服の形状を利用して骨格推定を行うことが可能である。

また、学習装置１０は、敵対的生成ネットワークを利用して改良骨格推定モデルおよび識別モデルを学習し、骨格推定モデルおよび衣服形状領域分割モデルとともに、学習した改良骨格推定モデルを適用して、骨格推定を行うので、衣服の形状にロバストな骨格推定が可能であり、ボディーラインが分かり難いような衣服を着用している場合であっても、骨格推定を精度よく行うモデルを生成することが可能である。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵやＧＰＵおよび当該ＣＰＵやＧＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
また、上記実施形態において説明した情報処理装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係る学習装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。

図６は、学習プログラムを実行するコンピュータを示す図である。図６に例示するように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有し、これらの各部はバス１０８０によって接続される。

メモリ１０１０は、図６に例示するように、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、図６に例示するように、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、図６に例示するように、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、図６に例示するように、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、図６に例示するように、例えばディスプレイ１１３０に接続される。

ここで、図６に例示するように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の、プログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ１０９０に記憶される。

また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出し、各種処理手順を実行する。

なお、プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０学習装置
１１通信処理部
１２制御部
１２ａ取得部
１２ｂ第一の推定部
１２ｃ分割部
１２ｄ第二の推定部
１２ｅ識別部
１２ｆ学習部
１３記憶部
１３ａ正解データ記憶部
１３ｂ学習済みモデル記憶部

Claims

人物を含む画像データを取得する取得部と、
前記取得部によって取得された画像データを入力として、前記人物の骨格に関する骨格データを推定する骨格推定モデルを用いて、前記骨格データを推定する第一の推定部と、
前記取得部によって取得された画像データを入力として、前記画像データに含まれる前記人物の各衣服の領域を衣服の種別ごとに分割する分割モデルを用いて、前記画像データの領域を衣服の種別ごとに分割する分割部と、
前記第一の推定部による推定結果と前記分割部による分割結果とを入力として、前記骨格データを推定する改良骨格推定モデルを用いて、前記骨格データを推定する第二の推定部と、
前記第二の推定部によって推定された骨格データと正解の骨格データとを識別するように学習された識別モデルを用いて、該識別モデルに入力された骨格の識別結果を出力する識別部と、
前記識別部によって出力された識別結果を基に、前記改良骨格推定モデルおよび前記識別モデルを最適化する学習部と
を有することを特徴とする学習装置。
前記識別部は、前記第二の推定部によって推定された骨格データ、または、記憶部に記憶された正解の骨格データのいずれかが識別モデルに入力され、入力された骨格データが、前記第二の推定部によって推定された骨格データであるのか、もしくは、前記正解の骨格データであるのかを識別することを特徴とする請求項１に記載の学習装置。
前記学習部は、前記識別モデルが、入力された骨格データを、推定された骨格データであるのか正解データであるのかを正しく識別できるように、前記識別モデルを最適化するとともに、前記骨格推定モデルおよび前記分割モデルが正解データの骨格データらしい骨格データを生成できるように、前記改良骨格推定モデルを最適化することを特徴とする請求項１に記載の学習装置。
学習装置によって実行される学習方法であって、
人物を含む画像データを取得する取得工程と、
前記取得工程によって取得された画像データを入力として、前記人物の骨格に関する骨格データを推定する骨格推定モデルを用いて、前記骨格データを推定する第一の推定工程と、
前記取得工程によって取得された画像データを入力として、前記画像データに含まれる前記人物の各衣服の領域を衣服の種別ごとに分割する分割モデルを用いて、前記画像データの領域を衣服の種別ごとに分割する分割工程と、
前記第一の推定工程による推定結果と前記分割工程による分割結果とを入力として、前記骨格データを推定する改良骨格推定モデルを用いて、前記骨格データを推定する第二の推定工程と、
前記第二の推定工程によって推定された骨格データと正解の骨格データとを識別するように学習された識別モデルを用いて、該識別モデルに入力された骨格の識別結果を出力する識別工程と、
前記識別工程によって出力された識別結果を基に、前記改良骨格推定モデルおよび前記識別モデルを最適化する学習工程と
を含むことを特徴とする学習方法。
人物を含む画像データを取得する取得ステップと、
前記取得ステップによって取得された画像データを入力として、前記人物の骨格に関する骨格データを推定する骨格推定モデルを用いて、前記骨格データを推定する第一の推定ステップと、
前記取得ステップによって取得された画像データを入力として、前記画像データに含まれる前記人物の各衣服の領域を衣服の種別ごとに分割する分割モデルを用いて、前記画像データの領域を衣服の種別ごとに分割する分割ステップと、
前記第一の推定ステップによる推定結果と前記分割ステップによる分割結果とを入力として、前記骨格データを推定する改良骨格推定モデルを用いて、前記骨格データを推定する第二の推定ステップと、
前記第二の推定ステップによって推定された骨格データと正解の骨格データとを識別するように学習された識別モデルを用いて、該識別モデルに入力された骨格の識別結果を出力する識別ステップと、
前記識別ステップによって出力された識別結果を基に、前記改良骨格推定モデルおよび前記識別モデルを最適化する学習ステップと
をコンピュータに実行させることを特徴とする学習プログラム。