JP6392478B1

JP6392478B1 - 情報処理装置、情報処理プログラム、及び、情報処理方法

Info

Publication number: JP6392478B1
Application number: JP2018084683A
Authority: JP
Inventors: 加藤　直樹; 直樹加藤; 祐介内田; 天▲埼▼ 李
Original assignee: DeNA Co Ltd
Current assignee: DeNA Co Ltd
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2018-09-19
Anticipated expiration: 2038-04-26
Also published as: JP2019191974A

Abstract

【課題】入力画像に含まれる人物像の姿勢を検出する学習器の姿勢検出精度を向上させる。
【解決手段】教師学習器２０は、教師画像１６及び教師ラベル１８を学習データとして用いることで、教師画像１６の画素毎に、人物像の基幹点に対応する画素である信頼度（期待度）を示す基幹点信頼度が表された基幹点信頼度マップ５２ａ、及び、入力画像の画素毎に、人物像の基幹点間（Limb）の向き及び基幹点間の関連度の大きさを示すベクトルが表された関連度マップ５２ｂを出力する。補正教師ラベル生成部２６は、基幹点信頼度マップ５２ａを用いて教師ラベル１８に含まれる基幹点信頼度マップ１８ａを補完し、関連度マップ５２ｂを用いて教師ラベル１８に含まれる関連度マップ１８ｂを補完して補正教師ラベルを生成する。学習部２８は、補正教師ラベルを用いて学習器２２を学習させる。
【選択図】図１

Description

本発明は、情報処理装置、情報処理プログラム、及び、情報処理方法に関する。

従来、画像に含まれる人物像の姿勢を検出する技術が提案されている。このような技術としては、教師画像と、教師画像に含まれる人物像の複数の基幹点（眼、鼻、肩など）の位置及び基幹点間の関連度を示す教師ラベルとを用いて学習器（例えば畳み込みニューラルネットワーク）を学習させて、学習済の学習器に入力画像を入力することで、入力画像に含まれる人物像の姿勢を検出するものがある。

そのような技術の例として、非特許文献１には、OpenPoseと呼ばれる技術が開示されている。OpenPoseにおいては、入力画像に含まれる１又は複数の人物像の複数の基幹点（鼻、首、左肩、左肘、左手、右肩、右肘、右手、左腰、左膝、左足、右腰、右足、左眼、右眼、左耳、右耳の１８箇所）を検出し、且つ、各基幹点間の関連度を識別することで、入力画像に含まれる各人物像のポーズ（姿勢）を検出している。

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, 「Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields」, arXiv:1611.08050v2.

教師ラベルにおいて人物像の基幹点の位置情報が欠損する場合がある。基幹点の位置情報の欠損は、人物像の基幹点が画像に写っていない場合に生じ得る。例えば、人物像の上半身が画像に含まれているが、当該人物像の右肘が画像の外に位置している場合、右肘の位置情報が欠損することになる。また、人物像のある基幹点が他の物体により隠れてしまっている（オクルージョンが生じた）場合に、当該基幹点の位置情報が欠損する場合がある。さらに、人物像の基幹点が画像に写っている場合であっても、基幹点の位置情報の付与不備などによって基幹点の位置情報が欠損する場合も考えられる。

基幹点の位置情報の欠損が生じると、教師ラベルには、位置情報が欠損した基幹点に係る関連度の情報も定義できないことになる。このように、位置情報が欠損した基幹点に係る関連度の情報を有さない教師ラベルを用いて学習器の学習を行うと、学習器の姿勢検出精度に悪影響を及ぼす場合がある。

本発明の目的は、入力画像に含まれる人物像の姿勢を検出する学習器の姿勢検出精度を向上させることにある。

本発明は、教師画像と、前記教師画像に含まれる人物像の複数の基幹点の位置及び前記基幹点間の関連度を示す情報を含む教師ラベルとを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習される教師学習器と、学習済みの前記教師学習器が出力した前記関連度に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点に係る前記関連度が前記教師ラベルの前記関連度を示す情報に補完された補正教師ラベルを生成する補正教師ラベル生成部と、前記補正教師ラベルを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習器を学習させる学習部と、を備えることを特徴とする情報処理装置である。

また、本発明は、教師画像と、前記教師画像に含まれる人物像の複数の基幹点の位置及び前記基幹点間の関連度を示す情報を含む教師ラベルとを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習される教師学習器と、学習済みの前記教師学習器が出力した前記複数の基幹点に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点の位置が前記教師ラベルの前記基幹点の位置を示す情報に補完された補正教師ラベルを生成する補正教師ラベル生成部と、前記補正教師ラベルを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習器を学習させる学習部と、を備えることを特徴とする情報処理装置である。

望ましくは、前記補正教師ラベル生成部は、学習済みの前記教師学習器が出力した前記複数の基幹点に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点の位置が前記教師ラベルの前記基幹点の位置を示す情報に補完された前記補正教師ラベルを生成する、ことを特徴とする。

望ましくは、前記関連度は、前記基幹点間のベクトルで表現され、前記補正教師ラベル生成部は、学習済みの前記教師学習器が出力した基幹点間の前記ベクトルと、前記教師ラベルにおける当該基幹点間の前記ベクトルとのうち、ノルムが大きい方のベクトルを当該基幹点間の関連度とする、ことを特徴とする。

望ましくは、前記基幹点の位置は、前記教師画像の画素毎の、人物像の基幹点に対応する画素である信頼度を示す基幹点信頼度で表現され、前記補正教師ラベル生成部は、前記補正教師ラベルの各画素の前記基幹点信頼度を、学習済みの前記教師学習器が出力した前記基幹点信頼度と、前記教師ラベルにおける前記基幹点信頼度のうち大きい方とする、ことを特徴とする。

望ましくは、前記教師学習器は、前記補正教師ラベルを用いてさらに学習され、前記補正教師ラベル生成部は、前記補正教師ラベルを用いて学習済みの前記教師学習器の出力に基づいて、前記補正教師ラベルをさらに補完した再補正教師ラベルを生成し、前記学習部は、前記再補正教師ラベルを用いて前記学習器を学習させる、ことを特徴とする。

望ましくは、前記学習部は、前記入力画像に対する前記学習器の出力と前記補正教師ラベルとの間の誤差、及び、前記入力画像に対する前記学習器の出力と前記入力画像に対する学習済みの前記教師学習器の出力との間の誤差に基づいて、前記学習器を学習させる、ことを特徴とする。

望ましくは、前記学習部は、前記入力画像に対する前記学習器の出力と前記再補正教師ラベルとの間の誤差、及び、前記入力画像に対する前記学習器の出力と前記入力画像に対する前記補正教師ラベルを用いて学習済みの前記教師学習器の出力との間の誤差に基づいて、前記学習器を学習させる、ことを特徴とする。

また、本発明は、コンピュータを、教師画像と、前記教師画像に含まれる人物像の複数の基幹点の位置及び前記基幹点間の関連度を示す情報を含む教師ラベルとを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習される教師学習器と、学習済みの前記教師学習器が出力した前記関連度に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点に係る前記関連度が前記教師ラベルの前記関連度を示す情報に補完された補正教師ラベルを生成する補正教師ラベル生成部と、前記補正教師ラベルを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習器を学習させる学習部と、として機能させることを特徴とする情報処理プログラムである。

また、本発明は、コンピュータを、教師画像と、前記教師画像に含まれる人物像の複数の基幹点の位置及び前記基幹点間の関連度を示す情報を含む教師ラベルとを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習される教師学習器と、学習済みの前記教師学習器が出力した前記複数の基幹点に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点の位置が前記教師ラベルの前記基幹点の位置を示す情報に補完された補正教師ラベルを生成する補正教師ラベル生成部と、前記補正教師ラベルを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習器を学習させる学習部と、として機能させることを特徴とする情報処理プログラムである。

また、本発明は、教師画像と、前記教師画像に含まれる人物像の複数の基幹点の位置及び前記基幹点間の関連度を示す情報を含む教師ラベルとを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習された教師学習器が出力した前記関連度に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点に係る前記関連度が前記教師ラベルの前記関連度を示す情報に補完された補正教師ラベルを生成する補正教師ラベル生成ステップと、前記補正教師ラベルを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習器を学習させる学習ステップと、を含むことを特徴とする情報処理方法である。

また、本発明は、教師画像と、前記教師画像に含まれる人物像の複数の基幹点の位置及び前記基幹点間の関連度を示す情報を含む教師ラベルとを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習された教師学習器が出力した前記複数の基幹点に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点の位置が前記教師ラベルの前記基幹点の位置を示す情報に補完された補正教師ラベルを生成する補正教師ラベル生成ステップと、前記補正教師ラベルを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習器を学習させる学習ステップと、を含むことを特徴とする情報処理方法である。

本発明によれば、入力画像に含まれる人物像の姿勢を検出する学習器の姿勢検出精度を向上させる。

本実施形態に係る情報処理装置の構成概略図である。教師画像及び教師ラベルの例を示す第１の図である。教師画像及び教師ラベルの例を示す第２の図である。学習済みの教師学習器が出力した基幹点信頼度マップの例を示す第１の図である。学習済みの教師学習器が出力した基幹点信頼度マップの例を示す第２の図である。学習済みの教師学習器が出力した関連度マップの例を示す第１の図である。学習済みの教師学習器が出力した関連度マップの例を示す第２の図である。補正教師ラベルの例を示す第１の図である。補正教師ラベルの例を示す第２の図である。補正教師ラベルと教師学習器の出力とに基づいて学習器を学習する様子を示す概念図である。学習器の検出精度に関する実験結果を示す図である。本実施形態に係る情報処理装置の処理の流れを示すフローチャートである。

以下、本発明の実施形態について説明する。

図１には、本実施形態に係る情報処理装置１０の構成概略図が示されている。本実施形態においては、情報処理装置１０はサーバコンピュータによって構成されるが、情報処理装置１０としては、以下に示す機能を有する限りにおいて、どのような装置であってもよい。

通信部１２は、例えばネットワークアダプタなどから構成される。通信部１２は、ＬＡＮあるいはインターネットなどの通信回線を介して、他の装置と通信する機能を発揮する。他の装置としては、例えばユーザが利用するユーザ端末などである。

記憶部１４は、例えばＲＯＭ、ＲＡＭあるいはハードディスクなどから構成される。記憶部１４には、情報処理装置１０の各部を動作させるための情報処理プログラムが記憶される。また、図１に示される通り、記憶部１４には、教師画像１６、教師ラベル１８、教師学習器２０、及び学習器２２が記憶される。

教師画像１６は、教師学習器２０及び学習器２２の学習に用いる画像である。後述のように、教師学習器２０及び学習器２２は、入力画像に含まれる人物像の複数の基幹点の位置、及び、基幹点間の関連度を検出することで、当該人物像の姿勢を検出するものである。したがって、教師画像１６には人物像が含まれる。図２（ａ）には、人物像Ａを含む教師画像１６の例が示されている。

教師ラベル１８は、教師画像１６に含まれる人物像の複数の基幹点の位置、及び、当該基幹点間の関連度を示す情報を含むものである。教師画像１６に対する教師ラベル１８は、予め用意されてよい。例えば、教師画像１６と教師ラベル１８とがセットになった教師データセットが記憶部１４に記憶されてよい。教師ラベル１８は教師学習器２０の学習に用いられる。

本実施形態では、人物像の基幹点として、人物像の鼻、首、左肩、左肘、左手、右肩、右肘、右手、左腰、左膝、左足、右腰、右足、左眼、右眼、左耳、右耳の１８箇所を用いる。教師ラベル１８には、教師画像１６に含まれる人物像の上記１８箇所の基幹点の位置を示す情報が含まれる。本実施形態では、教師画像１６において人物像の上記各基幹点の位置にアノテーションが付され、当該アノテーションの位置が、教師画像１６に含まれる人物像の複数の基幹点の位置を示す情報となる。各アノテーションには、対応する基幹点を示す情報が含まれる。例えば、人物像の鼻に付されたアノテーションには、鼻に対応するものであることを示す情報が含まれる。

図２（ｂ）に、教師画像１６に含まれる人物像Ａの複数の基幹点上に複数のアノテーション４０ａが付された様子が示されている。本実施形態では、教師画像１６の画素毎に、人物像の各基幹点に対応する画素である信頼度（期待度）を示す基幹点信頼度
が定義される。
ここで、ｐは教師画像１６の２次元座標（画素）を表し、ｊは基幹点の種類を表す。したがって、基幹点の種類毎に、教師画像１６の各座標の基幹点信頼度を示す基幹点信頼度マップ１８ａが定義されることになる。複数の基幹点に対応する複数の基幹点信頼度マップ１８ａは教師ラベル１８の一部を構成する。

本実施形態では、アノテーション４０ａが付された画素の基幹点信頼度を最大値とし、その周囲の画素の信頼度は、アノテーション４０ａが付された画素を中心とした２次元方向の正規分布を形成するように定義される。

教師画像１６に人物像の全ての基幹点が写っていない場合がある。この場合、当該基幹点に対応するアノテーション４０ａを付すことができず、教師ラベル１８には当該基幹点の位置を示す位置情報が含まれないこととなる（以後、位置情報を有さない基幹点を欠損基幹点と記載する）。例えば、図２（ｂ）の例では、教師画像１６には、人物像Ａの基幹点として、鼻、首、左肩、左手、右肩、右手、左眼、右眼、及び右耳が写っているため、これらの基幹点に対応するアノテーション４０ａが付されているが、それ以外の基幹点（欠損基幹点）に対応するアノテーション４０ａは付されていない。

人物像の基幹点間（以後「Ｌｉｍｂ」と記載する場合がある）の関連度は、ＰＡＦｓ（Part Affinity Fields）で表現される。ＰＡＦｓは、大きさと方向を有する値であり、すなわちベクトル場であるといえる。

本実施形態では、教師画像１６に付されたアノテーション４０ａに基づいて、教師ラベル１８において、教師画像１６の画素毎に、人物像の各Ｌｉｍｂの方向を示す単位ベクトル
が定義される。
ここで、ｐは教師画像１６の２次元座標（画素）を表し、ｃはＬｉｍｂの種類を表す。したがって、教師ラベル１８においては、Ｌｉｍｂの種類毎に、教師画像１６の各座標に定義された単位ベクトルを含む関連度マップ１８ｂが定義されることになる。複数のＬｉｍｂに対応する複数の関連度マップ１８ｂは教師ラベル１８の一部を構成する。

図２（ｃ）に、教師画像１６に含まれる人物像Ａの各Ｌｉｍｂについて定義されたベクトル場４０ｂが示されている。なお、各Ｌｉｍｂについてのベクトル場４０ｂ（ベクトル場４０ｂに含まれる各単位ベクトル）の向きは予め定められていてよい（例えば右眼から右耳へ向かう方向など）。

このようにして、人物像の基幹点間においてベクトル場４０ｂが定義される。なお、本実施形態では、全ての基幹点間にベクトル場４０ｂが定義されているわけではない。例えば、図２（ｃ）の例では、人物像Ａの右眼と左眼との間にベクトル場４０ｂが定義されていない。しかし、同一人物像の基幹点間であれば、ベクトル場４０ｂが定義されていてもよい。

一方、教師画像１６に複数の人物像が含まれる場合には、ある人物像の基幹点と、他の人物像の基幹点との間にはベクトル場４０ｂは定義されない。これは、異なる人物像の基幹点間には関連がないからである。

上述のように、欠損基幹点が存在する場合、当該欠損基幹点に対応するアノテーション４０ａが教師画像１６に付されない。したがって、欠損基幹点に係るベクトル場４０ｂ（欠損基幹点から他の基幹点へ向かうベクトル場４０ｂ及び他の基幹点から欠損基幹点へ向かうベクトル場４０ｂ）も定義されないことになる。つまり、教師ラベル１８には、欠損基幹点に係る関連度を示す情報が含まれないことになる。

図２（ｃ）の例では、人物像Ａの右肘が教師画像１６の撮影範囲に含まれておらず、右肘が欠損基幹点となっている。したがって、右肘に対応するアノテーション（図２（ｃ）において破線円で示されている）が付されていないために、人物像Ａの右肘と右肩との間のベクトル場（図２（ｃ）において破線で示されている）、あるいは、人物像Ａの右肘と右手との間のベクトル場（図２（ｃ）において破線で示されている）が定義されていない。

人物像の基幹点が教師画像１６の撮影範囲内に含まれている場合であっても、基幹点が他の物体により隠されている（オクルージョンが発生している）場合には、当該基幹点が欠損基幹点となり得る。図２（ｂ）及び（ｃ）の例では、人物像Ａの左耳がスマートフォンにより隠されているため欠損基幹点となっている。したがって、図２（ｂ）において、左耳に対応するアノテーション４０ａが付されておらず、図２（ｃ）において、左耳に係るベクトル場が定義されていない。

また、教師画像１６に基幹点が写っている場合であっても、当該基幹点にアノテーション４０ａが付されない場合がある。例えば、図３に示す教師画像１６は、人物像Ｂ及びＣが含まれており、人物像Ｃの複数の基幹点が写っているが、人物像Ｃに関するアノテーション４０ａが一切付されていない。このような場合、人物像Ｃに関する基幹点が全て欠損基幹点となり、人物像Ｃの欠損基幹点に係るベクトル場は定義されないこととなる。

教師学習器２０は、畳み込みニューラルネットワークを含んで構成される。一般に、畳み込みニューラルネットワークは、各種パラメータ（層構造、各層のニューロン構造、各層におけるフィルタ数、フィルタサイズ、及び各フィルタの各要素の重みなど）を有している。したがって、記憶部１４に教師学習器２０が記憶されるとは、畳み込みニューラルネットワークに関する各種パラメータ、及び、入力画像に対して処理を行うための処理実行プログラムが記憶部１４に記憶されることを意味する。

教師学習器２０は、教師画像１６及び教師ラベル１８を学習データとして用いることで、入力画像に含まれる人物像の複数の基幹点の位置、及び、当該基幹点間の関連度を出力するように学習される。これにより、学習済みの教師学習器２０は、入力画像に含まれる人物像の姿勢を検出することが可能となる。

学習済みの教師学習器２０に入力画像を入力すると、教師学習器２０は、入力画像の画素毎に、人物像の基幹点に対応する画素である信頼度（期待度）である基幹点信頼度が表された基幹点信頼度マップを出力する。基幹点信頼度マップとしては、基幹点信頼度を色で表したヒートマップであってもよい。

図４に、人物像Ａを含む入力画像５０に対して教師学習器２０が出力した基幹点信頼度マップ５２ａの例が示されている。図４に示す通り、教師学習器２０は、基幹点の種類毎に基幹点信頼度マップ５２ａを出力する。例えば、ある基幹点信頼度マップ５２ａは、人物像の左眼に対応する画素である信頼度を示すマップとなる。

ここで、教師画像１６の撮影範囲内にあるがアノテーション４０ａが付されなかった欠損基幹点を有する教師画像１６（例えば図３に示す教師画像１６）を入力画像５０として、学習済みの教師学習器２０に入力すると、教師学習器２０は、当該教師画像１６における欠損基幹点に対応する画素についても高い基幹点信頼度を示す基幹点信頼度マップ５２ａを出力し得る。例えば、図３に示すように、人物像Ｃに関するアノテーション４０ａが付されなかった教師画像１６を入力画像５０として学習済みの教師学習器２０に入力すると、図５に示すように、教師学習器２０は、人物像Ｃの基幹点に対応する画素に高い基幹点信頼度示す基幹点信頼度マップ５２ａを出力することができる。

また、学習済みの教師学習器２０に入力画像を入力すると、教師学習器２０は、入力画像の画素毎に、人物像の基幹点間（Ｌｉｍｂ）の向き及び基幹点間の関連度の大きさを示すベクトルを出力する。これにより、入力画像の画素毎に当該ベクトルが定義され、各Ｌｉｍｂに対応するベクトル場を含む関連度マップが出力される。

図６に、人物像Ａを含む入力画像５０に対して教師学習器２０が出力した、ベクトル場５４を含む関連度マップ５２ｂの例が示されている。図６に示す通り、教師学習器２０は、Ｌｉｍｂの種類毎に関連度マップ５２ｂを出力する。例えば、ある関連度マップ５２ｂは、右耳と右肩との間のＬｉｍｂに対応するマップとなる。

ここで、教師画像１６の撮影範囲に含まれてない欠損基幹点に係るベクトル場４０ｂが定義されなかった教師画像１６（例えば図２（ａ）に示す教師画像１６）を入力画像として、学習済みの教師学習器２０に入力すると、教師学習器２０は、当該教師画像１６においてベクトル場４０ｂが定義されなかったＬｉｍｂに関するベクトル場５４ａを含む関連度マップ５２ｂを出力し得る。例えば、図２（ｃ）に示すように、人物像Ａの右肘と右肩との間のベクトル場、あるいは、人物像Ａの右肘と右手との間のベクトル場が定義されなかった教師画像１６を入力画像５０として学習済みの教師学習器２０に入力すると、図６の一番下及び下から二番目の関連度マップ５２ｂに示すように、教師学習器２０は、人物像Ａの右肘と右肩との間のベクトル場５４ａ及び人物像Ａの右肘と右手との間のベクトル場５４ａを含む関連度マップ５２ｂを出力することができる。

また、教師画像１６の撮影範囲内にあるものの、アノテーション４０ａが付されなかった欠損基幹点に係るベクトル場４０ｂが定義されなかった教師画像１６（例えば図３に示す教師画像１６）を入力画像とした場合にも、学習済みの教師学習器２０は、当該教師画像１６においてベクトル場４０ｂが定義されなかったＬｉｍｂに関するベクトル場５４ａを含む関連度マップ５２ｂを出力し得る。例えば、図３に示すように、人物像Ｃの各Ｌｉｍｂについてベクトル場が定義されなかった画像を入力画像５０として学習済みの教師学習器２０に入力すると、図７に示す通り、人物像Ｃの各Ｌｉｍｂに関するベクトル場５４ａを含む関連度マップ５２ｂを出力することができる。

なお、教師学習器２０は、後述の学習部２８により学習されてもよいが（すなわち情報処理装置１０で学習されてもよいが）、予め教師画像１６及び教師ラベル１８を用いて他の装置で学習され、学習済みの教師学習器２０が記憶部１４に記憶（インストール）されてもよい。

学習器２２は、教師学習器２０同様、畳み込みニューラルネットワークを含んで構成される。したがって、記憶部１４に学習器２２が記憶されるとは、畳み込みニューラルネットワークに関する各種パラメータ、及び、入力画像に対して処理を行うための処理実行プログラムが記憶部１４に記憶されることを意味する。

学習器２２は、教師学習器２０同様、入力画像に含まれる人物像の複数の基幹点の位置、及び、当該基幹点間の関連度を出力するように学習される。これにより、学習済みの学習器２２は、入力画像に含まれる人物像の姿勢を検出することが可能となる。学習器２２は、後述の学習部２８により学習される。学習器２２の学習方法の詳細については後述する。

制御部２４は、例えばＣＰＵあるいはマイクロコントローラなどを含んで構成される。制御部２４は、記憶部１４に記憶された情報処理プログラムに従って情報処理装置１０の各部を制御する。また、図１に示される通り、制御部２４は、補正教師ラベル生成部２６及び学習部２８としても機能する。

補正教師ラベル生成部２６は、教師画像１６を学習済みの教師学習器２０に入力したときの出力に基づいて、当該教師画像１６に係る教師ラベル１８を補完することで、補正教師ラベルを生成する。生成した補正教師ラベルは記憶部１４に記憶される。以下、補正教師ラベルの生成方法の詳細について説明する。

上述の通り、教師ラベル１８（関連度マップ１８ｂ）においては、教師画像１６の撮影範囲外にある欠損基幹点に係るベクトル場４０ｂは定義されない。例えば、図２（ｃ）に示す教師ラベル１８の如くである。一方、当該教師画像１６を入力画像５０としたときの学習済みの教師学習器２０が出力する関連度マップ５２ｂには、当該教師画像１６に係る教師ラベル１８において欠損していたベクトル場５４ａが含まれる。例えば、図６の一番下及び下から二番目の関連度マップ５２ｂの如くである。

したがって、補正教師ラベル生成部２６は、当該教師画像１６を入力画像５０としたときの学習済みの教師学習器２０が出力する関連度マップ５２ｂで、教師ラベル１８の関連度マップ１８ｂを補完することで、補正関連度マップを生成する。補正関連度マップは、教師ラベル１８において欠損していたベクトル場が補完されたものとなる。当該補正関連度マップは、補正教師ラベルを構成するものとなる。

具体的には、補正教師ラベル生成部２６は、関連度マップ１８ｂ及び５２ｂの各画素について、関連度マップ１８ｂにおけるベクトルと、関連度マップ５２ｂにおけるベクトルのうち、Ｌ２ノルムすなわち大きさが大きい方を補正関連度マップにおける関連度（ベクトル）とする。上述の通り、関連度マップ１８ｂにおける各画素の関連度は
で表され、関連度マップ５２ｂにおける各画素の関連度を
で表すとすると、補正関連度マップにおける各画素の関連度
は
で表すことができる。

補正教師ラベル生成部２６は、このようにして生成した補正関連度マップと、基幹点信頼度マップ１８ａとからなる補正教師ラベルを生成することができる。図８に、補正教師ラベル６０の例が示されている。図８の補正教師ラベル６０は、（補正前の）教師ラベル１８（図２（ｃ）参照）に対して、人物像Ａの右肘と右肩との間のベクトル場５４ａ及び人物像Ａの右肘と右手との間のベクトル場５４ａが補完されたものとなっている。

また、上述の通り、教師ラベル１８においては、教師画像１６の撮影範囲内にあるものの、アノテーション４０ａが付されなかった基幹点は欠損基幹点となり、基幹点信頼度マップ１８ａにおいては、このような欠損基幹点の位置が示されていなかった。例えば、図２（ｂ）に示す基幹点信頼度マップ１８ａにおける人物像Ａの左耳や、図３に示す人物像Ｃに関する基幹点の如くである。一方、当該教師画像１６を入力画像５０としたときの学習済みの教師学習器２０が出力する基幹点信頼度マップ５２ａにおいては、当該教師画像１６に係る教師ラベル１８における欠損基幹点の位置に対応する画素も基幹点信頼度が高く示される。例えば、図５に示す如くである。

したがって、補正教師ラベル生成部２６は、当該教師画像１６を入力画像５０としたときの学習済みの教師学習器２０が出力する基幹点信頼度マップ５２ａで、教師ラベル１８の基幹点信頼度マップ１８ａを補完することで、補正基幹点信頼度マップを生成する。補正基幹点信頼度マップにおいては、教師ラベル１８における欠損基幹点の位置が補完されたものとなる。当該基幹点信頼度マップは、補正教師ラベルを構成するものとなる。

具体的には、補正教師ラベル生成部２６は、基幹点信頼度マップ１８ａ及び５２ａの各画素について、基幹点信頼度マップ１８ａにおける基幹点信頼度と、基幹点信頼度マップ５２ａにおける基幹点信頼度のうち、大きい方を補正基幹点信頼度マップにおける基幹点信頼度とする。上述の通り、関連度マップ１８ｂにおける各画素の基幹点関連度は
で表され、関連度マップ５２ｂにおける各画素の基幹点信頼度を
で表すとすると、補正関連度マップにおける各画素の基幹点信頼度
は
で表すことができる。

補正教師ラベル生成部２６は、このようにして生成した補正基幹点信頼度マップと、補正関連度マップとからなる補正教師ラベルを生成してもよい。図９に、補正教師ラベル６０の他の例が示されている。図９の補正教師ラベル６０は、（補正前の）教師ラベル１８（図３参照）に対して、補正基幹点信頼度マップにより人物像Ｃに関する各基幹点の位置が示され、且つ、補正関連度マップにより人物像Ｃに関するベクトル場５４ａが示されている。

また、補正教師ラベル生成部２６は、補正基幹点信頼度マップと、（補正していない）関連度マップ１８ｂとからなる補正教師ラベルを生成するようにしてもよい。

学習部２８は、補正教師ラベル生成部２６が生成した補正教師ラベルを用いて学習器２２を学習させる。具体的には、学習器２２の出力と補正教師ラベルとの間の誤差（本実施形態では平均二乗誤差）が小さくなるように学習器２２の各種パラメータが調整される。本明細書では、
学習器２２の出力をＰ_Ｓ＝（Ｈ^Ｓ，Ｌ^Ｓ）
補正教師ラベルをｙ_ＬＣ＝（Ｈ^ＬＣ，Ｌ^ＬＣ）
と表現し、学習器２２の出力と補正教師ラベルとの間の平均二乗誤差を
Ｅ_Ｌ２（Ｐ_Ｓ，ｙ_ＬＣ）
と表す。

上述の通り、補正教師ラベルは、教師ラベル１８に比して、基幹点間の関連度を示す情報あるいは人物像の基幹点の位置がより充実したものとなっている。したがって、学習部２８は、補正教師ラベルを用いて学習器２２を学習させることで、教師ラベル１８を用いて学習したときに比して、学習器２２は、入力画像に含まれる人物像の基幹点の位置及び基幹点間の関連度をより適切に検出することが可能となり、ひいては、入力画像に含まれる人物像の姿勢をより高精度に検出することが可能となる。

学習部２８は、補正教師ラベルを用いて、教師学習器２０をさらに学習させてもよい。そして、補正教師ラベル生成部２６は、補正教師ラベルを用いて学習済みの教師学習器２０に当該補正教師ラベルに係る教師画像１６を入力したときの出力に基づいて、当該補正教師ラベルをさらに補完することで再補正教師ラベルを生成するようにしてもよい。再補正教師ラベルの生成処理は、上述の補正教師ラベルの生成処理において教師ラベルを補正教師ラベルに置き換えた処理であるため、再補正教師ラベルの生成処理の詳細な説明は省略する。

その上で、学習部２８は、補正教師ラベル生成部２６が生成した再補正教師ラベルを用いて学習器２２を学習させてもよい。

また、学習部２８は、補正教師ラベルのみならず、学習済みの教師学習器２０の出力も考慮して学習器２２を学習させるようにしてもよい。詳しくは、図１０に示すように、学習部２８は、入力画像５０に対する学習器２２の出力と補正教師ラベルとの間の平均二乗誤差、及び、入力画像５０に対する学習器２２の出力と当該入力画像５０に対する学習済みの教師学習器２０の出力との間の平均二乗誤差に基づいて学習器２２を学習させてもよい。

上述のように、入力画像５０に対する学習器２２の出力と補正教師ラベルとの間の平均二乗誤差は
Ｅ_Ｌ２（Ｐ_Ｓ，ｙ_ＬＣ）
で表され、
学習済みの教師学習器２０の出力をＰ_Ｔ＝（Ｈ^Ｔ，Ｌ^Ｔ）と表すとすると、入力画像５０に対する学習器２２の出力と当該入力画像５０に対する学習済みの教師学習器２０の出力との間の平均二乗誤差は
Ｅ_Ｌ２（Ｐ_Ｓ，Ｐ_Ｔ）
で表される。

好ましくは、学習部２８は、Ｅ_Ｌ２（Ｐ_Ｓ，ｙ_ＬＣ）とＥ_Ｌ２（Ｐ_Ｓ，Ｐ_Ｔ）との間の加重平均Ｅ_{ＫＤ，ＬＣ}を算出した上で、当該加重平均Ｅ_{ＫＤ，ＬＣ}が小さくなるように学習器２２を学習させる。なお、加重平均Ｅ_{ＫＤ，ＬＣ}は以下の式で算出される。
Ｅ_{ＫＤ，ＬＣ}＝（１−λ）Ｅ_Ｌ２（Ｐ_Ｓ，ｙ_ＬＣ）＋λＥ_Ｌ２（Ｐ_Ｓ，Ｐ_Ｔ）
λは重みであり、適宜設定されてよい。

上述のように補正教師ラベル生成部２６により、再補正教師ラベルが生成された場合には、学習部２８は、入力画像５０に対する学習器２２の出力と再補正教師ラベルとの間の平均二乗誤差、及び、入力画像５０に対する学習器２２の出力と当該入力画像５０に対する補正教師ラベルを用いて学習済みの教師学習器２０の出力との間の平均二乗誤差に基づいて学習器２２を学習させてもよい。

図１１は、種々の条件で学習させた学習器２２の検出精度に関する実験結果が示されている。本実験では、学習器２２として、非特許文献１で提案されたモデルであるＣＭＵ−Ｐｏｓｅ（パラメータサイズ５２．３Ｍ）を用いた。学習器２２は、学習率α＝１０^−４で１０^５イテレーション、α＝１０^−５でさらに１０^５イテレーション学習させた。補正教師ラベル生成の際には、教師学習器２０としてＣＭＵ−Ｐｏｓｅを用いた。また、ＣＭＵ−ＰｏｓｅのベースネットワークであるＶＧＧ１９は、ＩｍａｇｅＮｅｔ［１８］で学習済みの重みを初期値とした。

図１１に示された検出精度の指標である各種ＡＰは、基幹点の組同士の類似度を示すＯＫＳ（Object Keypoint Similarity）に基づいて算出される。ＯＫＳは、物体認識におけるＩｏＵ（Intersection over Union）と同等の役割を果たし、入力画像５０に含まれる人物像のスケール（大きさ）、及び、学習器２２の出力と教師ラベルとの誤差に基づいて算出される値である。本実施形態では、ＯＫＳの閾値を１０段階に変化させたときの各段階の平均精度がＡＰ_Ａである。ＯＫＯＳの閾値を０．５、０．７５としたときの制度がＡＰ_５０、ＡＰ_７５である。また、入力画像５０に含まれる人物像のスケールが中サイズ、大サイズである場合のＡＰ_ＡがＡＰ_Ｍ、ＡＰ_Ｌである。各種ＡＰは数値が大きい程精度が高いことを示す。

図１１において、「Ｂａｓｅｌｉｎｅ」の各ＡＰは、（補正していない）教師ラベル１８を用いて学習器２２を学習させた場合の学習器２２の検出精度である。「ＬＣ」の各ＡＰは、補正教師ラベルを用いて学習器２２を学習させた場合の学習器２２の検出精度である。「Ｂａｓｅｌｉｎｅ」と「ＬＣ」を比較して分かるように、本実験では、補正教師ラベルを用いて学習器２２を学習させることで、全ての種類のＡＰにおいて学習器２２の検出精度が向上している。

「ＬＣ×２」の各ＡＰは、再補正教師ラベルを用いて学習器２２を学習させた場合の学習器２２の検出精度である。「ＬＣ」と「ＬＣ×２」を比較すると、本実験では、一部の種類のＡＰ（ＡＰ_Ｌ）において検出精度が向上している。つまり、補正教師ラベルを用いるよりも、再補正教師ラベルを用いて学習させた方が、学習器２２の検出精度が向上する場合があることが確認できた。

「ＫＤ（λ＝０．５）＋ＬＣ」の各ＡＰは、学習器２２の出力と補正教師ラベルとの間の平均二乗誤差と、学習器２２の出力と学習済みの教師学習器２０の出力との間の平均二乗誤差との平均値（λ＝０．５）に基づいて学習器２２を学習させた場合の学習器２２の検出精度である。「ＬＣ」と「ＫＤ（λ＝０．５）＋ＬＣ」を比較すると、本実験では、一部の種類のＡＰ（ＡＰ_７５）において検出精度が向上している。つまり、学習器２２の出力と補正教師ラベルとの間の平均二乗誤差のみに基づいて学習させるよりも、さらに、学習器２２の出力と教師学習器２０の出力との間の平均二乗誤差を考慮して学習させた方が、学習器２２の検出精度が向上する場合があることが確認できた。

「ＫＤ（λ＝０．５）＋ＬＣ×２」の各ＡＰは、学習器２２の出力と補正教師ラベルとの間の平均二乗誤差と、学習器２２の出力と学習済みの教師学習器２０の出力との間の平均二乗誤差との平均値（λ＝０．５）に基づいて学習された学習器２２を新たな教師学習器とみなし、当該新たな教師学習器の出力を用いて上述の処理で補正した教師ラベルと学習器２２の出力との間の平均二乗誤差と、学習器２２の出力と当該新たな教師学習器の出力との間の平均二乗誤差との平均値に基づいて学習器２２を学習させた場合の学習器２２の検出精度である。「ＫＤ（λ＝０．５）＋ＬＣ」と「ＫＤ（λ＝０．５）＋ＬＣ×２」を比較すると、本実験では、一部の種類のＡＰ（ＡＰ_５０及びＡＰ_Ｌ）において検出精度が向上している。つまり、学習器２２の出力と補正教師ラベルとの間の平均二乗誤差と、学習器２２の出力と学習済みの教師学習器２０の出力との間の平均二乗誤差とに基づいて学習器２２を学習させるよりも、学習器２２の出力と補正教師ラベルとの間の平均二乗誤差と、学習器２２の出力と学習済みの教師学習器２０の出力との間の平均二乗誤差とに基づいて学習された学習器２２を新たな教師学習器とみなし、当該新たな教師学習器の出力を用いて補正した教師ラベルと学習器２２の出力との間の平均二乗誤差と、学習器２２の出力と当該新たな教師学習器の出力との間の平均二乗誤差との平均値に基づいて学習器２２を学習させた方が、学習器２２の検出精度が向上する場合があることが確認できた。

以下、図１２に示すフローチャートに従って、本実施形態に係る情報処理装置１０の処理の流れを説明する。なお、図１２のフローチャートの開始時において、教師学習器２０は十分に学習済みであるとする。

ステップＳ１０において、学習部２８は、教師画像１６を学習済みの教師学習器２０に入力する。これにより、教師学習器２０は、基幹点信頼度マップ５２ａ（図４参照）及び関連度マップ５２ｂ（図６参照）を出力する。

ステップＳ１２において、補正教師ラベル生成部２６は、ステップＳ１０で教師学習器２０が出力した基幹点信頼度マップ５２ａを用いて、教師ラベル１８に含まれる基幹点信頼度マップ１８ａを補完することで、補正基幹点信頼度マップを生成する。補正基幹点信頼度マップの生成処理の詳細は上述の通りである。

ステップＳ１４において、補正教師ラベル生成部２６は、ステップＳ１０で教師学習器２０が出力した関連度マップ５２ｂを用いて、教師ラベル１８に含まれる関連度マップ１８ｂを補完することで、補正関連度マップを生成する。補正関連度マップの生成処理の詳細は上述の通りである。

ステップＳ１２及びＳ１４により、補正基幹点信頼度マップ及び補正関連度マップを含む補正教師ラベルが生成される。すなわち、ステップＳ１２及びＳ１４が補正教師ラベル生成ステップに相当する。

ステップＳ１６において、学習部２８は、ステップＳ１０で用いた教師画像１６を学習器２２入力する。

ステップＳ１８において、学習部２８は、ステップＳ１６で得た学習器２２の出力と、ステップＳ１２及びＳ１４で生成された補正教師ラベルとの間の平均二乗誤差が小さくなるように学習器２２を学習させる。ステップＳ１６及びＳ１８が学習ステップに相当する。

以上、本発明に係る実施形態を説明したが、本発明は上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない限りにおいて種々の変更が可能である。

１０情報処理装置、１２通信部、１４記憶部、１６教師画像、１８教師ラベル、２０教師学習器、２２学習器、２４制御部、２６補正教師ラベル生成部、２８学習部。

Claims

教師画像と、前記教師画像に含まれる人物像の複数の基幹点の位置及び前記基幹点間の関連度を示す情報を含む教師ラベルとを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習される教師学習器と、
学習済みの前記教師学習器が出力した前記関連度に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点に係る前記関連度が前記教師ラベルの前記関連度を示す情報に補完された補正教師ラベルを生成する補正教師ラベル生成部と、
前記補正教師ラベルを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習器を学習させる学習部と、
を備えることを特徴とする情報処理装置。
教師画像と、前記教師画像に含まれる人物像の複数の基幹点の位置及び前記基幹点間の関連度を示す情報を含む教師ラベルとを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習される教師学習器と、
学習済みの前記教師学習器が出力した前記複数の基幹点に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点の位置が前記教師ラベルの前記基幹点の位置を示す情報に補完された補正教師ラベルを生成する補正教師ラベル生成部と、
前記補正教師ラベルを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習器を学習させる学習部と、
を備えることを特徴とする情報処理装置。
前記補正教師ラベル生成部は、学習済みの前記教師学習器が出力した前記複数の基幹点に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点の位置が前記教師ラベルの前記基幹点の位置を示す情報に補完された前記補正教師ラベルを生成する、
ことを特徴とする請求項１に記載の情報処理装置。
前記関連度は、前記基幹点間のベクトルで表現され、
前記補正教師ラベル生成部は、学習済みの前記教師学習器が出力した基幹点間の前記ベクトルと、前記教師ラベルにおける当該基幹点間の前記ベクトルとのうち、ノルムが大きい方のベクトルを当該基幹点間の関連度とする、
ことを特徴とする請求項１又は３に記載の情報処理装置。
前記基幹点の位置は、前記教師画像の画素毎の、人物像の基幹点に対応する画素である信頼度を示す基幹点信頼度で表現され、
前記補正教師ラベル生成部は、前記補正教師ラベルの各画素の前記基幹点信頼度を、学習済みの前記教師学習器が出力した前記基幹点信頼度と、前記教師ラベルにおける前記基幹点信頼度のうち大きい方とする、
ことを特徴とする請求項２又は３に記載の情報処理装置。
前記教師学習器は、前記補正教師ラベルを用いてさらに学習され、
前記補正教師ラベル生成部は、前記補正教師ラベルを用いて学習済みの前記教師学習器の出力に基づいて、前記補正教師ラベルをさらに補完した再補正教師ラベルを生成し、
前記学習部は、前記再補正教師ラベルを用いて前記学習器を学習させる、
ことを特徴とする請求項１から５のいずれか１項に記載の情報処理装置。
前記学習部は、前記入力画像に対する前記学習器の出力と前記補正教師ラベルとの間の誤差、及び、前記入力画像に対する前記学習器の出力と前記入力画像に対する学習済みの前記教師学習器の出力との間の誤差に基づいて、前記学習器を学習させる、
ことを特徴とする請求項１から５のいずれか１項に記載の情報処理装置。
前記学習部は、前記入力画像に対する前記学習器の出力と前記再補正教師ラベルとの間の誤差、及び、前記入力画像に対する前記学習器の出力と前記入力画像に対する前記補正教師ラベルを用いて学習済みの前記教師学習器の出力との間の誤差に基づいて、前記学習器を学習させる、
ことを特徴とする請求項６に記載の情報処理装置。
コンピュータを、
教師画像と、前記教師画像に含まれる人物像の複数の基幹点の位置及び前記基幹点間の関連度を示す情報を含む教師ラベルとを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習される教師学習器と、
学習済みの前記教師学習器が出力した前記関連度に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点に係る前記関連度が前記教師ラベルの前記関連度を示す情報に補完された補正教師ラベルを生成する補正教師ラベル生成部と、
前記補正教師ラベルを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習器を学習させる学習部と、
として機能させることを特徴とする情報処理プログラム。
コンピュータを、
教師画像と、前記教師画像に含まれる人物像の複数の基幹点の位置及び前記基幹点間の関連度を示す情報を含む教師ラベルとを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習される教師学習器と、
学習済みの前記教師学習器が出力した前記複数の基幹点に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点の位置が前記教師ラベルの前記基幹点の位置を示す情報に補完された補正教師ラベルを生成する補正教師ラベル生成部と、
前記補正教師ラベルを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習器を学習させる学習部と、
として機能させることを特徴とする情報処理プログラム。
教師画像と、前記教師画像に含まれる人物像の複数の基幹点の位置及び前記基幹点間の関連度を示す情報を含む教師ラベルとを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習された教師学習器が出力した前記関連度に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点に係る前記関連度が前記教師ラベルの前記関連度を示す情報に補完された補正教師ラベルを生成する補正教師ラベル生成ステップと、
前記補正教師ラベルを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習器を学習させる学習ステップと、
を含むことを特徴とする情報処理方法。
教師画像と、前記教師画像に含まれる人物像の複数の基幹点の位置及び前記基幹点間の関連度を示す情報を含む教師ラベルとを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習された教師学習器が出力した前記複数の基幹点に基づいて、前記教師ラベルにおいて欠損している前記人物像の基幹点の位置が前記教師ラベルの前記基幹点の位置を示す情報に補完された補正教師ラベルを生成する補正教師ラベル生成ステップと、
前記補正教師ラベルを用いて、入力画像に含まれる人物像の複数の基幹点の位置及び当該基幹点間の関連度を出力するように学習器を学習させる学習ステップと、
を含むことを特徴とする情報処理方法。