JP2020123105A

JP2020123105A - 学習装置、学習方法、学習プログラム、及び対象物認識装置

Info

Publication number: JP2020123105A
Application number: JP2019014167A
Authority: JP
Inventors: 中村　友彦; Tomohiko Nakamura; 友彦中村
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2020-08-13
Anticipated expiration: 2039-01-30
Also published as: JP6773825B2

Abstract

【課題】計測データにおいて、一部の部位が隠蔽されて対象物が計測されると、対象物の認識が困難となる。【解決手段】所定の対象物を構成する互いに区別される複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の位置を含むが一個以上の位置が不足している当該データを入力され不足位置を補完して出力する補完器を学習する。学習用データ記憶手段４０は、付与データとして、対象物の複数のサンプルについて、必須個数を超える要導出部位の位置を付与された部位データを予め記憶する。劣化データ生成手段５０は原付与データから一個以上の位置を欠落させて、必須個数以上の位置を含む劣化データを生成する。補完器学習手段５１は劣化データを入力とし付与データを出力の目標値とする学習によって補完器を生成する。【選択図】図２

Description

本発明は、所定の対象物の部位についてのデータを補完する技術に関し、特に、対象物の部位の位置データを補完する補完器や計測データから部位を推定する推定器を学習する技術、及び対象物認識装置に関する。

撮影画像中に現れている人の複数の部位を機械学習に基づいて検出する研究が盛んに行われている。

例えば、下記の非特許文献１に記載の技術においては、人が写った多数の学習用画像を入力値とし当該学習用画像における人の部位の種別および位置を記したアノテーションを出力値の目標値とするモデルを深層学習させる。そして、学習済みモデルに撮影画像を入力することによって撮影画像に写った人の部位の種別および位置を出力させる。このアノテーションは学習用画像に現れている部位について作成される。ちなみに、アノテーションに記された各部位の情報や学習済みモデルが出力する各部位の情報はキーポイントなどと呼ばれている。

人についての各種認識に必要な部位が検出できれば、当該人について、姿勢の認識の他にも、存在領域の認識、プロポーションに基づく大人か子供か（属性）の認識等が可能となる。

"Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields.", Z. Cao, T. Simon, S. Wei and Y. Sheikh (2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1302-1310)

しかしながら、従来技術では、撮影画像に現れていない部位を推定する精度が低いため、隠蔽があると対象物の姿勢、存在領域、属性等の認識が困難となる問題があった。

例えば、人物の腰の辺りがテーブルなどの物体で隠れテーブルの天板より上に上半身、天板より下に脚が撮影された画像を、従来技術により生成した学習済みモデルに入力した場合、上半身および脚のキーポイントの両方とも検出されないか、一方のみ検出されるか、上半身および脚のキーポイントが別々に検出されるか（つまり上半身と脚とが同一人物の部位として検出されない）のいずれかとなってしまう。

そのため当該検出結果を基に人の存在領域の認識を行った場合、存在領域無し、１人分の存在領域、２人分の存在領域との認識になり、高精度の認識が難しい。また、１つの存在領域から人の一部の部位の位置しか特定できないため姿勢や属性の認識も困難である。

このように、従来技術では、学習用画像と当該画像に現れている部位との関係を学習させていたため、撮影画像に現れていない部位の検出は困難であった。そのため、従来技術では、隠蔽があると姿勢、存在領域、属性などの認識が困難となる場合があった。

また、上記問題は、二次元計測データ（画像）のみならず三次元計測データにおいても生じ、同様に二次元計測データの時系列、三次元計測データの時系列においても生じる。

本発明は上記問題を鑑みてなされたものであり、対象物のデータにおいて欠落している部位のデータを精度良く補完できる補完器または推定器を生成できる学習装置、学習方法および学習プログラムを提供することを目的とする。

また、本発明は、一部が隠蔽された対象物が計測されても隠蔽されている部位の位置を補完して当該対象物を認識できる対象物認識装置を提供することを別の目的とする。

（１）本発明に係る学習装置は、所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の前記位置を含むが一個以上の前記位置が不足している前記部位データを入力され不足位置を補完して出力する補完器を学習する学習装置であって、付与データとして、前記対象物の複数のサンプルについて、前記必須個数を超える前記要導出部位の前記位置を付与された前記部位データを予め記憶している付与データ記憶手段と、前記付与データから一個以上の前記位置を欠落させて、前記必須個数以上の前記位置を含む劣化データを生成する劣化データ生成手段と、前記劣化データを入力とし前記付与データを出力の目標値とする学習によって前記補完器を生成する補完器学習手段と、を備える。

（２）本発明に係る他の学習装置は、所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、計測データを入力され当該計測データに計測された前記対象物の前記部位データを推定する推定器を学習する学習装置であって、前記対象物の複数のサンプルについて得られ所定の必須個数を超える前記要導出部位の前記位置を付与された前記部位データを付与データとして、前記付与データから一個以上の前記位置を欠落させて生成される前記必須個数以上の前記位置を含む劣化データを入力とし前記付与データを出力の目標値とする学習によって予め生成された補完器を記憶している補完器記憶手段と、学習用の前記計測データに計測された前記対象物について得た前記部位データを前記補完器に入力して補完済み部位データを生成する補完データ生成手段と、前記学習用の計測データを入力とし前記補完済み付与データを出力の目標値とする学習によって前記推定器を生成する推定器学習手段と、を備える。

（３）本発明に係る学習方法は、所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の前記位置を含むが一個以上の前記位置が不足している前記部位データを入力され不足位置を補完して出力する補完器を学習する学習方法であって、付与データとして、前記対象物の複数のサンプルについて、前記必須個数を超える前記要導出部位の前記位置を付与された前記部位データを予め用意するステップと、前記付与データから一個以上の前記位置を欠落させて、前記必須個数以上の前記位置を含む劣化データを生成する劣化データ生成ステップと、前記劣化データを入力とし前記付与データを出力の目標値とする学習によって前記補完器を生成する補完器学習ステップと、を備える。

（４）本発明に係る他の学習方法は、所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、計測データを入力され当該計測データに計測された前記対象物の前記部位データを推定する推定器を学習する学習方法であって、前記対象物の複数のサンプルについて得られ所定の必須個数を超える前記要導出部位の前記位置を付与された前記部位データを付与データとして、前記付与データから一個以上の前記位置を欠落させて生成される前記必須個数以上の前記位置を含む劣化データを入力とし前記付与データを出力の目標値とする学習によって予め生成された補完器を用意するステップと、学習用の前記計測データに計測された前記対象物について得た前記部位データを前記補完器に入力して補完済み部位データを生成する補完データ生成ステップと、前記学習用の計測データを入力とし前記補完済み部位データを出力の目標値とする学習によって前記推定器を生成する推定器学習ステップと、を備える。

（５）本発明に係る学習プログラムは、所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の前記位置を含むが一個以上の前記位置が不足している前記部位データを入力され不足位置を補完して出力する補完器を学習する処理をコンピュータに行わせるプログラムであって、当該コンピュータを、付与データとして、前記対象物の複数のサンプルについて、前記必須個数を超える前記要導出部位の前記位置を付与された前記部位データを予め記憶している付与データ記憶手段、前記付与データから一個以上の前記位置を欠落させて、前記必須個数以上の前記位置を含む劣化データを生成する劣化データ生成手段、及び、前記劣化データを入力とし前記付与データを出力の目標値とする学習によって前記補完器を生成する補完器学習手段、として機能させる。

（６）本発明に係る他の学習プログラムは、所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、計測データを入力され当該計測データに計測された前記対象物の前記部位データを推定する推定器を学習する処理をコンピュータに行わせるプログラムであって、当該コンピュータを、前記対象物の複数のサンプルについて得られ所定の必須個数を超える前記要導出部位の前記位置を付与された前記部位データを付与データとして、前記付与データから一個以上の前記位置を欠落させて生成される前記必須個数以上の前記位置を含む劣化データを入力とし前記付与データを出力の目標値とする学習によって予め生成された補完器を記憶している補完器記憶手段、学習用の前記計測データに計測された前記対象物について得た前記部位データを前記補完器に入力して補完済み部位データを生成する補完データ生成手段、及び、前記学習用の計測データを入力とし前記補完済み部位データを出力の目標値とする学習によって前記推定器を生成する推定器学習手段、として機能させる。

（７）本発明に係る対象物認識装置は、計測データから所定の対象物について当該対象物を構成する複数の要導出部位の位置を推定する対象物認識装置であって、前記対象物の前記複数の要導出部位それぞれと対応付けて当該部位の位置を表す付与データであって学習用の前記計測データにおける前記対象物の複数のサンプルから得たものを学習用付与データとし、当該学習用付与データから一個以上の前記位置を欠落させた劣化データを入力とし前記学習用付与データを出力の目標値とする学習によって生成された補完器に前記学習用付与データを入力して得た出力を補完済み付与データとして、前記学習用の計測データを入力とし前記補完済み付与データを出力の目標値とする学習によって生成された前記推定器を記憶している推定器記憶手段と、前記計測データを前記推定器に入力して前記要導出部位の位置を推定する部位推定手段と、を備える。

本発明の学習装置、学習方法および学習プログラムによれば、対象物のデータにおいて欠落している部位のデータを精度良く補完できる補完器または推定器を生成することが可能となる。

また、本発明の対象物認識装置によれば、一部が隠蔽されて対象物が計測されても、隠蔽されている部位の位置を補完して当該対象物を認識することが可能となる。

本発明の実施形態に係る対象物認識装置の概略の構成を示す図である。本発明の実施形態に係る対象物認識装置の学習段階に関する概略の機能ブロック図である。付与データの例を説明する模式図である。補完前の画像と付与データの例を示す模式図である。図４の各人物の補完前と補完後の付与データを表した模式図である。本発明の実施形態に係る対象物認識装置の認識段階に関する機能ブロック図である。本発明の実施形態に係る対象物認識装置の学習段階に関するフロー図である。本発明の実施形態に係る対象物認識装置の認識段階に関するフロー図である。

以下、本発明の実施の形態（以下実施形態という）である対象物認識装置１について、図面に基づいて説明する。本発明に係る対象物認識装置は、計測データから所定の対象物について当該対象物を構成する複数の部位の位置を推定し、その結果に基づいて計測データにおける対象物の有無や位置を求めるものであり、本実施形態にて一例として示す対象物認識装置１は、監視空間を撮影した撮影画像から監視空間に現れた人の領域を抽出する。すなわち、本実施形態において、計測データは二次元画像であり、対象物は人である。対象物認識装置１は二次元画像において人を構成する複数の部位の位置を推定して、部位を囲む領域を抽出する。
上記対象物認識に用いる複数の部位を要導出部位、要導出部位の代表点をキーポイントと称する。キーポイントの情報は、少なくとも対応する部位の種別と位置の組み合わせで表され、この組み合わせを含むデータを部位データと称する。そして、各キーポイントを推定することによって、対応する要導出部位の位置が推定される。なお、要導出部位とする部位の種別は、対象物や認識の目的に応じて予め定められる。

特に、対象物認識装置１は、学習用画像に現れる部位のアノテーション（付与データ）を用いて、隠れた部位を補完する補完器を学習し、当該補完器によって学習用画像にて隠れている部位の付与データを補完する。ここで、付与データは、学習用の計測データに現れている対象物や、対象物の三次元モデルなどに対して付与される部位データである。また、学習用画像と当該学習用画像についての補完した付与データとを用いて、隠れた部位を含む部位の位置を推定する推定器を学習し、当該推定器によって撮影画像における部位の位置の推定を行う。すなわち、対象物認識装置１は、補完器を学習する学習装置、および推定器を学習する学習装置を含む。

［対象物認識装置１の構成］
図１は対象物認識装置１の概略の構成を示すブロック図である。対象物認識装置１は撮影部２、通信部３、記憶部４、画像処理部５および出力部６からなる。

撮影部２は、計測データを取得する計測部であり、本実施形態においては監視カメラである。撮影部２は通信部３を介して画像処理部５と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部５に入力する。例えば、撮影部２は、監視空間であるイベント会場の一角に設置されたポールに当該監視空間を俯瞰する所定の固定視野を有して設置され、監視空間をフレーム周期１秒で撮影してカラー画像を生成する。なお、撮影部２はカラー画像の代わりにモノクロ画像を生成してもよい。

通信部３は通信回路であり、その一端が画像処理部５に接続され、他端が撮影部２および出力部６と接続される。通信部３は撮影部２から撮影画像を取得して画像処理部５に入力し、画像処理部５から対象物の認識結果を入力され出力部６へ出力する。

なお、撮影部２、通信部３、記憶部４、画像処理部５および出力部６の間は各部の設置場所に応じた形態で適宜接続される。例えば、撮影部２と通信部３および画像処理部５とが遠隔に設置される場合、撮影部２と通信部３との間をインターネット回線にて接続することができる。また、通信部３と画像処理部５との間はバスで接続する構成とすることができる。その他、接続手段として、ＬＡＮ（Local Area Network）、各種ケーブルなどを用いることができる。

記憶部４は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等のメモリ装置であり、各種プログラムや各種データを記憶する。例えば、記憶部４は学習用画像、学習用画像に対する付与データ、学習済みモデルである補完器や推定器の情報を記憶する。記憶部４は画像処理部５と接続されて、画像処理部５との間でこれらの情報を入出力する。すなわち、対象物の認識に必要な情報や、認識処理の過程で生じた情報が記憶部４と画像処理部５との間で入出力される。

画像処理部５は、計測データを処理する計測データ処理部であり、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）、ＧＰＵ(Graphics Processing Unit)等の演算装置で構成される。画像処理部５は記憶部４からプログラムを読み出して実行することにより各種の処理手段・制御手段として動作し、必要に応じて、各種データを記憶部４から読み出し、生成したデータを記憶部４に記憶させる。例えば、画像処理部５は補完器、推定器を学習し生成する。また、画像処理部５は、生成した補完器、推定器を通信部３経由で記憶部４に記憶させる。また、画像処理部５は推定器を用いて、撮影画像における対象物を認識する処理を行う。

出力部６は、液晶ディスプレイまたは有機ＥＬ（Electro-Luminescence）ディスプレイ等であり、通信部３から入力された認識結果を表示する。監視員は表示された認識結果に応じて対処の要否等を判断し、必要に応じて対処員を急行させる等の対処を行う。

対象物認識装置１は、画像に現れている人についてキーポイントを推定する推定器を構築する学習動作を行い、それにより構築された推定器を用いて画像に写った人のキーポイントを推定し、人の姿勢や外接矩形を検出する認識動作を行う。つまり、対象物認識装置１は、補完器および推定器の学習装置として先に動作される。そこで、以下、対象物認識装置１の構成について、先ず、学習段階に関する構成について説明し、次いで、認識段階に関する構成について説明する。

［学習段階に関する対象物認識装置１の構成］
図２は学習段階に関する対象物認識装置１の概略の機能ブロック図であり、記憶部４が学習用データ記憶手段４０、補完器記憶手段４１および推定器記憶手段４２として機能し、画像処理部５が劣化データ生成手段５０、補完器学習手段５１、キーポイント補完手段５２および推定器学習手段５３として機能する。

学習用データ記憶手段４０は多数の学習用の画像を予め記憶する学習用画像記憶手段であると共に、当該学習用画像に撮影されている人について付与された部位データを付与データとして予め記憶している付与データ記憶手段である。学習用データ記憶手段４０は、学習用画像と当該画像に撮影されている各人（以下、サンプルと称する。別人物は別サンプルであり、同一人物であっても画像が異なれば別サンプルである）の付与データとを紐づけて保持する。具体的には、各サンプルには互いに識別するためのサンプルＩＤが付与され、学習用画像には画像ＩＤが付与され、学習用データ記憶手段４０にはこれらＩＤの対応関係が記憶される。学習用画像は、カメラで実際に撮影された実画像でなくてもよく、例えば、コンピュータグラフィックス（ＣＧ）などで作られた画像であってもよい。付与データは、各サンプルのキーポイントそれぞれについての種別および位置の情報を含む。また、位置が不明なキーポイントについてはその旨を示す情報とすることができる。つまり、付与データにより、各サンプルの複数のキーポイントについてその種別ごとに当該キーポイントの位置が付与されたか否かと付与された位置がわかる。付与データは、人手によって作成されてもよいし、機械が抽出したものを人が確認し必要に応じて修正することによって作成されてもよいし、それらが混在していてもよい。

図３は付与データの例を説明する模式図である。図３（ａ）は、要導出部位を１７個とし、対象物のキーポイントのトポロジーを図化した例である。キーポイントの位置を表す１７個の白丸と、キーポイント間の連結関係を表す１６本の線分にて図化されている。図３（ｂ）は付与データをテーブル形式のデータベースとして定義した例を示している。テーブルの各行がサンプルごとの付与データのレコードを表す。各レコードにおいては、先頭（左側）にサンプルＩＤを表すインデックスｎ（ｎ＝１，２，…，Ｎ）が格納され、続いてキーポイントの情報を表す３つの値の組がキーポイントの種別に対応に対応するインデックスｉ（ｉ＝１，２，…，１７）の昇順に１７組格納される。

上記３つの値の組は、各キーポイントのｘ座標ｘ_ｎ，ｉ、ｙ座標ｙ_ｎ，ｉ、および当該キーポイントが欠落していないかを表すフラグ（付与フラグ）ｖ_ｎ，ｉである。付与フラグｖ_ｎ，ｉに設定する値は、座標が付与されていれば“１”、座標が付与されていなければ“０”としている。各組において３つの値はｘ_ｎ，ｉ、ｙ_ｎ，ｉ、ｖ_ｎ，ｉの順に格納されている。

なお、キーポイントの位置は画像上にて相対位置で表されているため、劣化データ生成手段５０は付与データにおけるキーポイントの位置を正規化してから劣化データを生成する。例えば、正規化は、各サンプルの付与フラグが１であるキーポイントに対して、当該サンプルの両肩に対応するキーポイントの中心を原点とした座標系に平行移動するといった方法で行うことができる。ちなみに、この場合、右肩および左肩のいずれかの付与フラグが０であるサンプルについては正規化されないことになるが、このように正規化されないサンプルについては学習に用いないこととすればよい。

劣化データ生成手段５０は、学習用データ記憶手段４０から付与データを読み出し、当該付与データにおける各サンプルのキーポイントの一部を欠落させて劣化データを作成する。そして、付与データと劣化データとをセットにして補完器学習手段５１へ出力する。例えば、劣化データ生成手段５０は、欠落させるキーポイントをランダムに或いは規則的に選択して選択したキーポイントの位置を不明値に置換することによって劣化データを作成することができ、具体的には、劣化データ生成手段５０は、選択したキーポイントのｘ座標、ｙ座標、および付与フラグをそれぞれ０に置換して劣化データを作成する。ただし、劣化データ生成手段５０は、付与フラグが１であるキーポイントを予め定めた必須個数以上残す。また、欠落数の最大値を事前に決めておき、劣化データ生成手段５０は、最大値を超えない個数のキーポイントを欠落させる。

すなわち、劣化データ生成手段５０は学習用データ記憶手段４０から、必須個数を超えるキーポイントの位置を付与された付与データを読み出し、当該付与データから１個以上の位置を欠落させて、必須個数以上の位置を含む劣化データを生成する。一方、付与データのうち、付与フラグが１のキーポイントが必須個数以下であるものは補完器の学習に用いない。本実施形態では必須個数は１個とする。

また、本実施形態では、魚眼レンズ画像や全天球画像などに写っている人の姿勢についても適切に補完できるように、ｘｙ座標が（０，０）の点を中心としてランダムな角度でサンプルを回転させ、補完器の学習に用いる。すなわち、劣化データ生成手段５０は、正規化後の付与データに対し回転処理を行ってキーポイントのｘｙ座標を変換してから劣化データを生成する。

補完器学習手段５１は、劣化データ生成手段５０から入力された、付与データと劣化データとのペアを用いて補完器を学習する。すなわち、補完器学習手段５１は、劣化データを入力とし付与データを出力の目標値とする学習によって補完器を生成する。ここでの学習とは、補完器のパラメータを求めることである。

本実施形態においては、補完器を変分自己符号化器（variational autoencoder：ＶＡＥ）でモデル化する。ＶＡＥは線形変換処理、活性化関数等から構成され、ここでは、活性化関数としてＲｅＬＵ関数を用いる。本実施形態では、補完器学習手段５１はＶＡＥを構成する各要素のパラメータについて誤差関数を最小化する学習を行う。誤差関数として、劣化データを補完器に入力して得られたキーポイントの座標と、付与データのキーポイントの座標との二乗誤差などを用いる。このとき、付与フラグが０であるキーポイントについては誤差関数に含めない。最小化には確率的最急降下法などを用いる。

補完器記憶手段４１は、補完器学習手段５１によって得られた補完器のパラメータを記憶する。また、補完器記憶手段４１には補完器として用いるＶＡＥの構造が格納される。

キーポイント補完手段５２は、補完器記憶手段４１に格納されている学習済みの補完器を用いて、学習用データ記憶手段４０に記憶されている各サンプルの付与データに対して補完を行う。つまり、キーポイント補完手段５２は、学習用画像に写るサンプルについて得た付与データを、補完器に入力して補完済み付与データを生成する補完データ生成手段である。キーポイント補完手段５２により、各サンプルについて全てのキーポイントの座標が算出される。つまり、キーポイント補完手段５２への入力時に欠落していたキーポイントの位置が補完され、当該キーポイントについて、算出された座標と付与フラグの値“１”とからなる位置情報を格納した補完済み付与データが生成される。なお、入力時に既に位置が付与されていたキーポイントについては、補完済み付与データにおける位置情報として、入力時の座標を用いてもよいし、補完器の出力の座標を用いてもよい。本実施形態では入力時の値を用いる。

キーポイント補完手段５２は生成した補完済み付与データを、補完前の付与データのサンプルＩＤと共に推定器学習手段５３へ供する。補完済み付与データとサンプルＩＤとをセットにすることで、当該サンプルＩＤを介して補完済み付与データと学習用画像との対応関係を保持することができる。補完済み付与データはキーポイント補完手段５２から推定器学習手段５３に直接入力してもよいし、一旦、学習用データ記憶手段４０に格納し、推定器学習手段５３が学習用データ記憶手段４０から読み出して利用してもよい。

ここで、補完前の付与データに含まれるキーポイントの位置は、画像上にて相対位置で表されているため、キーポイント補完手段５２は付与データに劣化データ生成手段５０と同様の正規化処理を行ってから補完処理を行う。そして、キーポイント補完手段５２での補完処理で得られた位置に対して、補完前に正規化により平行移動した分を元に戻す処理を行って、補完済み付与データのキーポイントの位置とする。なお、上述のように正規化できないサンプルが存在し得るが、当該サンプルについては補完前の付与データを補完済み付与データとしてそのまま出力することにする。

本実施形態でのキーポイント補完手段５２による処理の例を図４、図５を用いて説明する。図４は補完前の画像と付与データの例を示す模式図である。図４（ａ）は学習用画像の例であり、当該画像にはサンプルとして２人が写っており、一方の人物６０（サンプルＩＤ＝００１）は全身が画像に現れているが、他方の人物６１（サンプルＩＤ＝００２）は腰の辺りが机で隠蔽されている。図４（ｂ）は人物６０，６１についての付与データを模式的に表しており、人物６１の２つのキーポイント“９”，“１０”について付与フラグが“０”に設定され、これらの部位の位置が付与されていないことを示している。

図５は図４の人物６０，６１の部位データであって、キーポイント補完手段５２へ入力される補完前の付与データと、キーポイント補完手段５２から出力される補完後の補完済み付与データとを図３（ａ）と同様に図化した模式図である。ただし、黒丸は補完されたキーポイントを表している。図５（ａ），（ｂ）はそれぞれ人物６０，人物６１について表しており、左側の付与データ６２，６３が補完前、右側の付与データ６４，６５が補完後である。人物６０に関しては補完前時点で欠落がないので、付与データ６２と補完済みの付与データ６４との間に変化はないが、人物６１に関しては補完前の付与データ６３では腰の辺りのキーポイント“９”，“１０”が欠落し、これら欠落したキーポイントがキーポイント補完手段５２の出力の付与データ６４では黒丸で示す位置に補完されている。

推定器学習手段５３は、学習用画像と、当該画像に対応する補完済み付与データとを用いて、後述するキーポイント推定手段５４が用いる推定器を学習する。つまり、推定器学習手段５３は、学習用画像を入力とし、当該画像に対応する補完済み付与データを出力の目標値（正解データ）とする学習によって推定器を生成する。目標値は、全サンプルについての付与フラグを含む補完済み付与データであってもよいし、付与フラグが０のキーポイントを有するサンプルを除いた付与フラグ抜きの補完済み付与データであってもよい。推定器学習手段５３は学習により得られた推定器を推定器記憶手段４２へ出力する。

なお、推定器は、画像を入力として対象物ごとのキーポイントを出力するものであれば、どのような手段を用いてもよい。本実施形態では、推定器として非特許文献１で提案された手法を用いる。また、推定器学習手段５３は補完済み付与データのうち、全てのキーポイントを用いて学習してもよいし、事前に定めた一部の種別のキーポイントのみを用いて学習してもよい。

推定器記憶手段４２は推定器学習手段５３により学習した学習済みモデルである推定器を記憶する。

上述したように本発明の推定器は補完済みのキーポイントを用いて学習されるので、撮影画像に写る対象物にて欠落しているキーポイントを推定する能力が向上する。

これに対して、補完されたキーポイントを用いずに推定器を学習する従来の構成にて当該推定器の精度向上を図るには、サンプルとする対象物の大量の画像に対し、全てのキーポイントについてアノテーションが適切になされていることが望ましい。しかし、実際には図４（ａ）の人物６１のように対象物である人の手前に物体があり、人の像に隠蔽が生じる場合がある。このように隠蔽が存在する人画像に対して、適切にキーポイントの座標を付与することは難しい。また、作業負荷の観点からも、隠蔽が多い画像に対して全キーポイントの座標を適切に付与することは現実的でない。

このような隠蔽の多いサンプルを用いて推定器を生成する場合に、隠蔽に対する補完をせずに学習を行う、つまり、見えている部分のみで学習を行ったり、隠蔽されているキーポイントの大部分に対してアノテーションを行わずに学習を行ったりすると、それにより得られた推定器では、同様に隠蔽の多い人画像に関して正しく姿勢を推定できない場合が多く、十分な性能が得られない要因となっている。

本発明はこの問題に対処したものであり、一部の要導出部位が欠落した付与データを補完器により自動的に補完し、補完済み付与データを用いて推定器を学習することで、コストを低く抑えつつ推定器の性能向上を図ることができる。

［認識段階に関する対象物認識装置１の構成］
図６は認識段階に関する対象物認識装置１の概略の機能ブロック図であり、記憶部４が推定器記憶手段４２として機能し、画像処理部５がキーポイント推定手段５４および対象物領域検出手段５５として機能し、通信部３が画像処理部５と協働し、撮影画像取得手段３０および認識結果出力手段３１として機能する。

撮影画像取得手段３０は撮影部２から撮影画像を順次取得して画像処理部５に出力する。

推定器記憶手段４２は上述したように、学習段階で生成された推定器を記憶している。

キーポイント推定手段５４（部位推定手段）は、推定器記憶手段４２に格納されている推定器を用いて、撮影部２から順次取得した撮影画像を入力として、当該画像に写っている各人物のキーポイントの位置を人物ごとに推定する。ただし、一部のキーポイントしか推定できない場合もあるため、複数のキーポイントについてその種別ごとに画像上での当該キーポイントを推定できたか否かを示す推定フラグとともに当該キーポイントの位置を出力する。

対象物領域検出手段５５は、キーポイント推定手段５４で推定されたキーポイントをもとに対象物領域を検出する。例えば、各人の像に含まれるキーポイントの外接矩形を対象物領域として検出する。

認識結果出力手段３１は、対象物領域検出手段５５が検出した対象物領域を出力部６に出力する。例えば、認識結果出力手段３１は、撮影画像に対象物領域を表す矩形を表示した画像を生成して出力部６に出力する。

［対象物認識装置１の動作］
次に、対象物認識装置１の動作を、学習段階と認識段階とに分けて説明する。

［学習段階での対象物認識装置１の動作］
図７は学習段階での対象物認識装置１の動作に関する概略のフロー図である。

対象物認識装置１は撮影画像に現れる対象物を認識する動作に先立って、補完器を学習し、さらに当該補完器による補完済み付与データを用いて推定器を学習する動作を行う。

当該学習の動作が開始されると、画像処理部５は、補完器の学習に用いるデータとして学習用データ記憶手段４０からサンプルごとの付与データを読み込む（ステップＳ１００）。画像処理部５は当該付与データに対して正規化処理を行い、さらに劣化データ生成手段５０として機能し、正規化された付与データに対して欠落処理を行い劣化データを生成する（ステップＳ１０５）。

画像処理部５は補完器学習手段５１として機能し、劣化データ生成手段５０により生成された劣化データを入力とし、欠落処理前の付与データを出力の目標値とする学習によって補完器を生成する（ステップＳ１１０）。補完器学習手段５１は、生成した補完器を補完器記憶手段４１に記憶させる。

画像処理部５は、補完器を学習により生成すると、続いて推定器の学習動作を開始する。まず、画像処理部５はキーポイント補完手段５２として機能する。キーポイント補完手段５２は推定器の学習に用いるデータとして、学習用データ記憶手段４０から、サンプルＩＤと対応付けて格納されている各サンプルの付与データを読み込む（ステップＳ１１５）。キーポイント補完手段５２は当該付与データを、上述の処理で生成された補完器に入力して補完済み付与データを生成する（ステップＳ１２０）。

画像処理部５は推定器学習手段５３として機能し、補完済み付与データのサンプルＩＤに対応する学習用画像を学習用データ記憶手段４０から読み込み、当該画像を入力とし、当該画像に写るサンプルについての補完済み付与データを出力の目標値とする学習によって推定器を生成する（ステップＳ１２５）。推定器学習手段５３は、生成した推定器を推定器記憶手段４２に記憶させる。

［認識段階での対象物認識装置１の動作］
図８は認識段階での対象物認識装置１の動作に関する概略のフロー図である。

対象物認識装置１は上述の学習段階にて生成した推定器を用いて、撮影画像に現れる対象物を認識する動作を行う。

対象物認識装置１が当該動作を開始すると、イベント会場に設置されている撮影部２は所定時間おきに監視空間を撮影して撮影画像を順次、画像処理部５が設置されている画像解析センター宛に送信する。画像処理部５は通信部３と協働して、撮影部２から撮影画像を受信するたびに図８のフロー図に示す動作を繰り返す。

通信部３は撮影画像取得手段３０として機能し、撮影画像を受信すると当該撮影画像を画像処理部５に出力する（ステップＳ２００）。

画像処理部５はキーポイント推定手段５４として機能し、推定器記憶手段４２に記憶されている推定器を用いて、入力された撮影画像から人ごとにキーポイントを推定する（ステップＳ２０５）。

続いて画像処理部５は対象物領域検出手段５５として機能し、キーポイント推定手段５４が推定したキーポイントを入力として、各人のキーポイントの外接矩形を対象物領域として算出する対象物認識処理を行う（ステップＳ２１０）。

対象物領域検出手段５５による認識処理の結果は、通信部３を介して出力部６に出力される（ステップＳ２１５）。具体的には、画像処理部５と通信部３とが協働して認識結果出力手段３１として機能し、対象物領域検出手段５５から入力された人ごとの外接矩形などの情報から認識画像を作成し、これを出力部６に出力する。

［変形例］
（１）上記実施形態では、人の全身を対象物とする例を示したが、対象物は、人の上半身などの人体の一部としてもよいし、車両や椅子などの人以外の物体としてもよい。

（２）上記実施形態では、対象物が計測される計測データが二次元画像であり、計測データを取得する計測部は撮影部２とし二次元画像を撮影するカメラである例を示したが、計測データ、計測部はこの例に限られない。例えば、計測データは三次元空間を計測したものであってもよい。三次元計測データの例として、距離画像センサを計測部に用いて得られる距離画像や、多視点カメラで撮影した画像から構築した三次元データを挙げることができる。また、計測データは、二次元画像の時系列（二次元計測データの時系列）、三次元計測データの時系列とすることもできる。

（３）上記実施形態では、両肩のキーポイントの中点を正規化後の原点に定めるという１通りのキーポイントの組を用いて正規化を行う例を示した。別の実施形態においては、他のキーポイントの組を用いた正規化を含めて複数通りの正規化を定義しておき、正規化の対象とする付与データごとに当該付与データにおいて利用可能なキーポイントの組に応じた正規化を選択する手法とすることもできる。このようにすることで、サンプルを無駄なく用いた学習を行うことが可能になり、補完器および推定器をより高精度化できる。

また、上記実施形態では原点を２つのキーポイントを用いて決める例としたが、原点は１つのキーポイント、または３つ以上のキーポイントを用いて定めてもよい。

（４）上記実施形態では、部位データはキーポイントの位置を座標で表現する形態としたが、画像の形態で表現したものとすることもできる。例えば、キーポイントの座標位置のみ画素値が１となるようなバイナリ画像を各キーポイントに対して作成したものや、そのバイナリ画像に対してガウシアンフィルタを適用したものを用いてもよい。その場合、各キーポイントの座標は当該画像での最大値をとる点に対応する。また、劣化データ生成手段５０や補完器学習手段５１の入力と出力とでキーポイントの位置の表現形態を異ならせてもよく、入力では位置を座標で表し出力では画像で表す構成や、逆に入力を画像とし出力を座標で表す構成とすることができる。

（５）補完器への入力は、キーポイントの位置の情報だけでなく、属性情報などを含むものとしてもよい。例えば、キーポイントの位置の情報に加え、子供か大人であるかを属性情報として入力に与えて補完器の学習を行うことで、子供のような体格、大人のような体格に対応したキーポイントの推定ができるようになる。この場合、学習用データ記憶手段４０は属性情報などを含んだ付与データを格納する。

（６）補完器は、キーポイントの座標の推定値に加えて、座標推定値の信頼度を出力してもよい。この場合、キーポイント補完手段５２は、一定以上の信頼度を有するキーポイントのみ、補完済み付与データにおける付与フラグを“１”に設定することができる。例えば、サンプルに元から付与されているキーポイントが少なく座標の推定が難しいような場合には、誤った座標の推定がなされやすい。この点、得られた座標推定値の信頼度が低いキーポイントについては付与フラグを“１”に設定しないことで、補完済み付与データに含まれるキーポイントの位置情報の誤りを抑制できる。例えば、この補完済み付与データを用いることで、推定器学習手段５３ではフラグが“１”ではない信頼度の低いキーポイントを無視して推定器を学習することができる。

また、信頼度をバイナリで表現される付与フラグに変換せずに補完済み付与データと合わせてそのまま保持すれば、推定器の学習時にサンプルごとの複数のキーポイントそれぞれに対して信頼度で重みづけして学習に利用することもできる。

（７）上記実施形態では、補完器としてＶＡＥを用いたが、ニューラルネットワークやガウシアンプロセスなど連続値を出力可能な他のモデルを用いてもよい。また、事前にキーポイントの座標を離散化して、部位の位置の推定を各キーポイントはそれらのいずれかに属するクラス分類問題として定式化することにより、補完器として、アダブースト（AdaBoost）などの識別モデルを用いることもできる。

（８）上記実施形態では、キーポイント補完手段５２での活性化関数としてＲｅＬＵ関数を用いたが、活性化関数としてｔａｎｈ関数、シグモイド（Sigmoid）関数などを用いてもよい。また、ＲｅｓＮｅｔ（residual network：残差ネットワーク）で用いられるようなショートカット構造を有する構成としてもよい。

（９）推定器学習手段５３において、入力となる補完済み付与データのうち、一定数以上の部位が欠落した付与データから生成された補完済み付与データについては、それに代えて補完前の付与データを用いて学習してもよい。これによって、例えば、画像内では立っている人物の上半身のみ付与データから生成された補完済み付与データが座っている姿勢のものとなってしまうことによる推定器の精度低下を防ぐことができる。

（１０）上記実施形態では、補完器と推定器の学習に、共通の学習用データ（学習用画像（学習用の計測データ）と付与データの組）を用いる例を示したが、互いに異なる学習用データを用いてもよい。なお、補完器の学習用データには、付与データが含まれていれば十分であり、学習用の計測データは含まれていなくてもよい。また、補完器のみに用いる付与データは学習用画像と無関係に作成したものでもよい（例えば、対象物の部位データ付き三次元モデルを二次元投影して作成）。また、補完器の学習段階、推定器の学習段階および認識段階に時期差があってもよい。すなわち、推定器の学習段階や認識段階に学習済みの補完器が補完器記憶手段４１に記憶されており、認識段階に学習済みの推定器が推定器記憶手段４２に記憶されていればよい。

（１１）上記実施形態では、対象物領域検出手段５５は各人の像に含まれるキーポイントの外接矩形を対象物領域としたが、対象物領域は他の方法で定めてもよく、例えば、キーポイントが存在する領域を、事前に定めた規則で変換して（例えばマージンを加えて）対象物領域としてもよい。また、キーポイントの配置から外接矩形への変換を学習して得られた方法を用いてもよい。

（１２）上記実施形態では、推定器記憶手段４２、キーポイント推定手段５４、対象物領域検出手段５５を画像センター側に設ける例を示したが、これらを撮影部２側に設けてもよい。

１対象物認識装置、２撮影部、３通信部、４記憶部、５画像処理部、６出力部、３０撮影画像取得手段、３１認識結果出力手段、４０学習用データ記憶手段、４１補完器記憶手段、４２推定器記憶手段、５０劣化データ生成手段、５１補完器学習手段、５２キーポイント補完手段、５３推定器学習手段、５４キーポイント推定手段、５５対象物領域検出手段。

（７）本発明に係る対象物認識装置は、計測データから所定の対象物について当該対象物を構成する複数の要導出部位の位置を推定する対象物認識装置であって、前記対象物の前記複数の要導出部位それぞれと対応付けて当該部位の位置を表す付与データであって学習用の前記計測データにおける前記対象物の複数のサンプルから得たものを学習用付与データとし、当該学習用付与データから一個以上の前記位置を欠落させた劣化データを入力とし前記学習用付与データを出力の目標値とする学習によって生成された補完器に前記学習用付与データを入力して得た出力を補完済み付与データとして、前記学習用の計測データを入力とし前記補完済み付与データを出力の目標値とする学習によって生成された推定器を記憶している推定器記憶手段と、前記計測データを前記推定器に入力して前記要導出部位の位置を推定する部位推定手段と、を備える。

Claims

所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の前記位置を含むが一個以上の前記位置が不足している前記部位データを入力され不足位置を補完して出力する補完器を学習する学習装置であって、
付与データとして、前記対象物の複数のサンプルについて、前記必須個数を超える前記要導出部位の前記位置を付与された前記部位データを予め記憶している付与データ記憶手段と、
前記付与データから一個以上の前記位置を欠落させて、前記必須個数以上の前記位置を含む劣化データを生成する劣化データ生成手段と、
前記劣化データを入力とし前記付与データを出力の目標値とする学習によって前記補完器を生成する補完器学習手段と、
を備えたことを特徴とする学習装置。
所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、計測データを入力され当該計測データに計測された前記対象物の前記部位データを推定する推定器を学習する学習装置であって、
前記対象物の複数のサンプルについて得られ所定の必須個数を超える前記要導出部位の前記位置を付与された前記部位データを付与データとして、前記付与データから一個以上の前記位置を欠落させて生成される前記必須個数以上の前記位置を含む劣化データを入力とし前記付与データを出力の目標値とする学習によって予め生成された補完器を記憶している補完器記憶手段と、
学習用の前記計測データに計測された前記対象物について得た前記部位データを前記補完器に入力して補完済み部位データを生成する補完データ生成手段と、
前記学習用の計測データを入力とし前記補完済み部位データを出力の目標値とする学習によって前記推定器を生成する推定器学習手段と、
を備えたことを特徴とする学習装置。
所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の前記位置を含むが一個以上の前記位置が不足している前記部位データを入力され不足位置を補完して出力する補完器を学習する学習方法であって、
付与データとして、前記対象物の複数のサンプルについて、前記必須個数を超える前記要導出部位の前記位置を付与された前記部位データを予め用意するステップと、
前記付与データから一個以上の前記位置を欠落させて、前記必須個数以上の前記位置を含む劣化データを生成する劣化データ生成ステップと、
前記劣化データを入力とし前記付与データを出力の目標値とする学習によって前記補完器を生成する補完器学習ステップと、
を備えたことを特徴とする学習方法。
所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、計測データを入力され当該計測データに計測された前記対象物の前記部位データを推定する推定器を学習する学習方法であって、
前記対象物の複数のサンプルについて得られ所定の必須個数を超える前記要導出部位の前記位置を付与された前記部位データを付与データとして、前記付与データから一個以上の前記位置を欠落させて生成される前記必須個数以上の前記位置を含む劣化データを入力とし前記付与データを出力の目標値とする学習によって予め生成された補完器を用意するステップと、
学習用の前記計測データに計測された前記対象物について得た前記部位データを前記補完器に入力して補完済み部位データを生成する補完データ生成ステップと、
前記学習用の計測データを入力とし前記補完済み部位データを出力の目標値とする学習によって前記推定器を生成する推定器学習ステップと、
を備えたことを特徴とする学習方法。
所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の前記位置を含むが一個以上の前記位置が不足している前記部位データを入力され不足位置を補完して出力する補完器を学習する処理をコンピュータに行わせるプログラムであって、
当該コンピュータを、
付与データとして、前記対象物の複数のサンプルについて、前記必須個数を超える前記要導出部位の前記位置を付与された前記部位データを予め記憶している付与データ記憶手段、
前記付与データから一個以上の前記位置を欠落させて、前記必須個数以上の前記位置を含む劣化データを生成する劣化データ生成手段、及び、
前記劣化データを入力とし前記付与データを出力の目標値とする学習によって前記補完器を生成する補完器学習手段、
として機能させることを特徴とする学習プログラム。
所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、計測データを入力され当該計測データに計測された前記対象物の前記部位データを推定する推定器を学習する処理をコンピュータに行わせるプログラムであって、
当該コンピュータを、
前記対象物の複数のサンプルについて得られ所定の必須個数を超える前記要導出部位の前記位置を付与された前記部位データを付与データとして、前記付与データから一個以上の前記位置を欠落させて生成される前記必須個数以上の前記位置を含む劣化データを入力とし前記付与データを出力の目標値とする学習によって予め生成された補完器を記憶している補完器記憶手段、
学習用の前記計測データに計測された前記対象物について得た前記部位データを前記補完器に入力して補完済み部位データを生成する補完データ生成手段、及び、
前記学習用の計測データを入力とし前記補完済み部位データを出力の目標値とする学習によって前記推定器を生成する推定器学習手段、
として機能させることを特徴とする学習プログラム。
計測データから所定の対象物について当該対象物を構成する複数の要導出部位の位置を推定する対象物認識装置であって、
前記対象物の前記複数の要導出部位それぞれと対応付けて当該部位の位置を表す付与データであって学習用の前記計測データにおける前記対象物の複数のサンプルから得たものを学習用付与データとし、当該学習用付与データから一個以上の前記位置を欠落させた劣化データを入力とし前記学習用付与データを出力の目標値とする学習によって生成された補完器に前記学習用付与データを入力して得た出力を補完済み付与データとして、前記学習用の計測データを入力とし前記補完済み付与データを出力の目標値とする学習によって生成された前記推定器を記憶している推定器記憶手段と、
前記計測データを前記推定器に入力して前記要導出部位の位置を推定する部位推定手段と、
を備えたことを特徴とする対象物認識装置。