JP7349288B2

JP7349288B2 - 対象物認識装置、対象物認識方法、及び対象物認識プログラム

Info

Publication number: JP7349288B2
Application number: JP2019146452A
Authority: JP
Inventors: 友彦中村
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2023-09-22
Anticipated expiration: 2039-08-08
Also published as: JP2021026685A

Description

本発明は、画像等の計測データから対象物の位置（部位や存在領域など）といった対象物に関する所定情報を検出して対象物を認識する技術に関する。

撮影画像中に現れている人の複数の部位を機械学習に基づいて検出する研究が盛んに行われている。

例えば、非特許文献１に記載の技術においては、人が写った多数の学習用画像を入力値とし当該学習用画像における人の部位の種別および位置を記したアノテーションを出力値の目標値とするモデルを深層学習させる。そして、学習済みモデルに撮影画像を入力することによって撮影画像に写った人の部位の種別および位置を出力させる。このアノテーションは学習用画像に現れている部位について作成される。ちなみに、アノテーションに記された各部位の情報や学習済みモデルが出力する各部位の情報はキーポイントなどと呼ばれている。

人についての各種認識に必要な部位が検出できれば、当該人について、姿勢の認識の他にも、存在領域の認識、プロポーションに基づく大人か子供か（属性）の認識等が可能となる。

"Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields.", Z. Cao, T. Simon, S. Wei and Y. Sheikh (2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1302-1310)

しかしながら、従来技術では、撮影画像に現れていない部位を推定する精度が低いため、隠蔽があると対象物の姿勢、存在領域、属性等の認識が困難となる問題があった。

例えば、人物の腰の辺りがテーブルなどの物体で隠れてテーブルの天板より上に上半身、天板より下に脚が撮影された画像を、従来技術により生成した学習済みモデルに入力した場合、上半身および脚のキーポイントの両方とも検出されないか、一方のみ検出されるか、上半身および脚のキーポイントが別々に検出されるか（つまり上半身と脚とが同一人物の部位として検出されない）のいずれかとなってしまう。

そのため当該検出結果を基に人の存在領域の認識を行った場合、存在領域無し、１人分の部分的な存在領域または２人分の存在領域との認識になり、高精度の認識が難しい。また、１つの存在領域から人の一部の部位の位置しか特定できないため姿勢や属性の認識も困難である。

すなわち従来技術では、学習用画像と当該画像に現れていない部位との関係を明示的に学習させていなかったため、撮影画像に現れていない部位の検出は困難であった。そのため、従来技術では、隠蔽があると姿勢、存在領域、属性などの認識が困難となる場合があった。

また、上記問題は、二次元計測データ（画像）のみならず三次元計測データにおいても生じ、同様に二次元計測データの時系列、三次元計測データの時系列においても生じる。

本発明は上記問題を鑑みてなされたものであり、一部が隠蔽されて対象物が計測されても、隠蔽されている部分を含めて対象物を認識できる対象物認識装置、対象物認識方法および対象物認識プログラムを提供することを目的とする。

（１）本発明に係る対象物認識装置は、所定の空間を計測した計測データから前記空間に存在する所定の対象物に関する所定情報を認識する装置であって、前記対象物のサンプルが計測されたサンプルデータにおいて当該サンプルの領域の一部と重なるマスク領域をマスク処理して得られたデータと、当該マスク領域の情報とを入力とし、当該サンプルに関する前記所定情報を出力の目標値とする学習によって予め生成された検出器を記憶している検出器記憶手段と、前記対象物を遮蔽し得る遮蔽物候補について、前記計測データにて前記遮蔽物候補のデータが計測され得る遮蔽候補領域を記憶する遮蔽候補領域記憶手段と、前記計測データに対して、当該計測データにおいて前記遮蔽候補領域をマスク処理して得られるデータと前記遮蔽候補領域の情報とからなるマスク処理データを生成するマスク手段と、前記マスク処理データを前記検出器に入力して前記計測データにおける前記対象物に関する前記所定情報を検出する検出手段と、を備える。

（２）上記（１）に記載の対象物認識装置において、前記計測データが前記空間に対応して分布する複数の要素から構成され、当該対象物認識装置が、前記計測データを解析して当該計測データを構成する前記複数の要素のそれぞれを前記空間に出現し得る物体に対して予め定義されたクラスのいずれかに分類し、前記遮蔽物候補と対応する前記クラスに分類された前記要素からなる前記遮蔽候補領域を設定する遮蔽候補領域設定手段をさらに備えた構成とすることができる。

（３）上記（１）に記載の対象物認識装置において、利用者の操作に応じて前記遮蔽候補領域を設定する遮蔽候補領域設定手段をさらに備えた構成とすることができる。

（４）上記（１）に記載の対象物認識装置において、前記計測データが三次元空間を撮影した画像であり、当該対象物認識装置が、前記遮蔽物候補の三次元モデルを前記画像に対応する撮影面にレンダリングして前記遮蔽候補領域を設定する遮蔽候補領域設定手段をさらに備えた構成とすることができる。

（５）上記（１）～（４）に記載の対象物認識装置において、前記所定情報が前記対象物を構成する部位の位置に関する情報である構成とすることができる。

（６）上記（１）～（５）に記載の対象物認識装置において、前記サンプルデータに基づく前記学習により前記検出器を生成する学習手段をさらに備えた構成とすることができる。

（７）本発明に係る対象物認識方法は、所定の空間を計測した計測データから前記空間に存在する所定の対象物に関する所定情報を認識する方法であって、前記対象物のサンプルが計測されたサンプルデータにおいて当該サンプルの領域の一部と重なるマスク領域をマスク処理して得られたデータと、当該マスク領域の情報とを入力とし、当該サンプルに関する前記所定情報を出力の目標値とする学習によって生成された検出器を用意するステップと、前記対象物を遮蔽し得る遮蔽物候補について、前記計測データにて前記遮蔽物候補のデータが計測され得る遮蔽候補領域を用意するステップと、前記計測データに対して、当該計測データにおいて前記遮蔽候補領域をマスク処理して得られるデータと前記遮蔽候補領域の情報とからなるマスク処理データを生成するステップと、前記マスク処理データを前記検出器に入力して前記計測データにおける前記対象物に関する前記所定情報を検出するステップと、を備える。

（８）本発明に係る対象物認識プログラムは、所定の空間を計測した計測データから前記空間に存在する所定の対象物に関する所定情報を認識する処理をコンピュータに行わせるプログラムであって、当該コンピュータを、前記対象物のサンプルが計測されたサンプルデータにおいて当該サンプルの領域の一部と重なるマスク領域をマスク処理して得られたデータと、当該マスク領域の情報とを入力とし、当該サンプルに関する前記所定情報を出力の目標値とする学習によって予め生成された検出器を記憶している検出器記憶手段、前記対象物を遮蔽し得る遮蔽物候補について、前記計測データにて前記遮蔽物候補のデータが計測され得る遮蔽候補領域を記憶する遮蔽候補領域記憶手段、前記計測データに対して、当該計測データにおいて前記遮蔽候補領域をマスク処理して得られるデータと前記遮蔽候補領域の情報とからなるマスク処理データを生成するマスク手段、及び、前記マスク処理データを前記検出器に入力して前記計測データにおける前記対象物に関する前記所定情報を検出する検出手段、として機能させる。

本発明の対象物認識装置、対象物認識方法および対象物認識プログラムによれば、一部が隠蔽されて対象物が計測されても、隠蔽されている部分を含めて対象物を認識することが可能となる。

本発明の実施形態に係る対象物認識装置の概略の構成を示すブロック図である。本発明の実施形態に係る対象物認識装置の学習段階に関する概略の機能ブロック図である。本発明の実施形態に係る対象物認識装置の学習段階に関する学習用データの例を説明する模式図である。本発明の実施形態に係る対象物認識装置の認識段階に関する概略の機能ブロック図である。本発明の実施形態に係る対象物認識装置の学習段階での動作に関する概略のフロー図である。本発明の実施形態に係る対象物認識装置の認識段階での動作に関する概略のフロー図である。本発明の実施形態に係る対象物認識装置の認識段階での処理例を説明するための模式図である。本発明とは異なる処理で得られうる認識結果を示す模式図である。

以下、本発明の実施の形態（以下実施形態という）である対象物認識装置１について、図面に基づいて説明する。本発明に係る対象物認識装置は、計測データから所定の対象物に関する所定情報を求めるものであり、本実施形態にて一例として示す対象物認識装置１は、監視空間を撮影した撮影画像から監視空間に現れた人物を構成する複数の部位の位置および当該人物の存在領域（対象物領域）を検出する。すなわち、本実施形態において、計測データは二次元画像であり、対象物は人であり、対象物に関する所定情報は、当該対象物の位置に関する情報であって、具体的には人の部位の位置および人の存在領域である。ちなみに対象物認識装置１は各人物について検出された複数の部位を囲む領域を当該人物の対象物領域として検出する。なお、計測データにおいては部位の一部が遮蔽物に隠されている場合がある。本発明では、隠された部位を推定することを含めて部位の検出と称し、隠された部位の推定結果を用いた対象物領域の推定を含めて対象物領域の検出と称する。

上記対象物認識に用いる複数の部位を要検出部位、要検出部位の代表点をキーポイントと称する。キーポイントの情報は、少なくとも対応する部位の種別と位置の組み合わせで表され、この組み合わせを含むデータを部位データと称する。そして、各キーポイントを検出することによって、対応する要検出部位の位置が検出される。なお、要検出部位とする部位の種別は、対象物や認識の目的に応じて予め定められる。

対象物認識装置１は、学習用画像と学習用画像に対するアノテーション（付与データ）とを用いて、部位データを検出する検出器を学習し記憶する。ここで、付与データは、学習用の計測データに現れている対象物に対して付与される部位データである。そして、対象物認識装置１は、記憶している検出器を用いて撮影画像における部位データの検出を行う。特に、対象物認識装置１は、学習用画像の一部にマスク処理を施して学習する。これにより、隠れた部位を含めて検出可能な検出器を学習する。そして、対象物認識装置１は、撮影画像の遮蔽物が現れ得る領域にマスク処理を施して検出器を適用する。これにより、隠れた部位を含めた検出を行う。

［対象物認識装置１の構成］
図１は対象物認識装置１の概略の構成を示すブロック図である。対象物認識装置１は撮影部２、通信部３、記憶部４、画像処理部５、表示部６および操作入力部７からなる。

撮影部２は、計測データを取得する計測手段であり、本実施形態においては監視カメラである。撮影部２は通信部３を介して画像処理部５と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部５に入力する。例えば、撮影部２は、監視空間である部屋の一角に当該監視空間を俯瞰する所定の固定視野を有して設置され、監視空間をフレーム周期１秒で撮影してカラー画像を生成する。なお、撮影部２はカラー画像の代わりにモノクロ画像を生成してもよい。また、画像処理部５は例えば、画像解析センターなどに設置される。

通信部３は通信回路であり、その一端が画像処理部５に接続され、他端が撮影部２、表示部６および操作入力部７と接続される。通信部３は撮影部２から撮影画像を取得して画像処理部５に入力し、また、操作入力部７からユーザの指示等を取得して画像処理部５に入力する。また、通信部３は画像処理部５から対象物の認識結果を入力され表示部６へ出力する。

なお、撮影部２、通信部３、記憶部４、画像処理部５、表示部６および操作入力部７の間は各部の設置場所に応じた形態で適宜接続される。例えば、撮影部２と通信部３および画像処理部５とが遠隔に設置される場合、撮影部２と通信部３との間をインターネット回線にて接続することができる。また、通信部３と画像処理部５との間はバスで接続する構成とすることができる。その他、接続手段として、ＬＡＮ（Local Area Network）、各種ケーブルなどを用いることができる。

記憶部４は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等のメモリ装置であり、各種プログラムや各種データを記憶する。例えば、記憶部４は学習用画像、学習用画像に対する付与データ、学習済みモデルである検出器の情報を記憶する。記憶部４は画像処理部５と接続されて、画像処理部５との間でこれらの情報を入出力する。すなわち、対象物の認識に必要な情報や、認識処理の過程で生じた情報が記憶部４と画像処理部５との間で入出力される。

画像処理部５は、計測データを処理する計測データ処理部であり、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）、ＧＰＵ(Graphics Processing Unit)等の演算装置で構成される。画像処理部５は記憶部４からプログラムを読み出して実行することにより各種の処理手段・制御手段として動作し、必要に応じて、各種データを記憶部４から読み出し、生成したデータを記憶部４に記憶させる。例えば、画像処理部５は学習により検出器を生成し、生成した検出器を通信部３経由で記憶部４に記憶させる。また、画像処理部５は検出器を用いて、撮影画像における対象物を認識する処理を行う。

表示部６は、液晶ディスプレイまたは有機ＥＬ（Electro-Luminescence）ディスプレイ等であり、通信部３から入力された認識結果を表示する。監視員は表示された認識結果に応じて対処の要否等を判断し、必要に応じて対処員を急行させる等の対処を行う。

操作入力部７は画像処理部５に対する入力機器であり、キーボードおよびマウス等で構成される。

なお、本実施形態では、記憶部４および画像処理部５を画像解析センター側に設けることとするが、これらを撮影部２側に設けてもよい。

以下、対象物認識装置１の構成について、先ず、検出器を学習する学習段階に関する構成について説明し、次いで、検出器を用いて対象物を認識する認識段階に関する構成について説明する。

［学習段階に関する対象物認識装置１の構成］
図２は学習段階に関する対象物認識装置１の概略の機能ブロック図であり、記憶部４が学習用データ記憶手段４０、学習モデル記憶手段４１として機能し、画像処理部５が学習用マスク手段５０および学習手段５１として機能する。

学習用データ記憶手段４０は多数の学習用の画像を記憶する学習用画像記憶手段であると共に、当該学習用画像に対する付与データを記憶する付与データ記憶手段である。学習用画像と付与データには学習に先立って予め記憶されているものと学習時に生成されるものとが含まれる。学習用データ記憶手段４０は、学習用画像と当該画像に撮影されている各人の付与データとを紐づけて保持する。以下、学習用画像に撮影されている人物をサンプルと称する。別人物は別サンプルであり、同一人物であっても画像が異なれば別サンプルである。また、学習用画像はサンプルが計測された計測データ（サンプルデータ）である。具体的には、各サンプルには互いを識別するためのサンプルＩＤが付与され、学習用画像には画像ＩＤが付与され、学習用データ記憶手段４０にはこれらＩＤの対応関係が記憶される。付与データは、各サンプルのキーポイントそれぞれについての情報を含む。つまり、付与データにより、各サンプルの複数の要検出部位についてその種別ごとにその代表点の位置がわかる。また、学習用データ記憶手段４０は学習用マスク手段５０により生成される学習用データを記憶する。

学習用マスク手段５０は、学習用データ記憶手段４０から学習用画像を取得し、学習用画像の一部分をマスクすることでマスク済み学習用画像を作成する。その後、マスクした領域を表す情報（マスク領域情報）とマスク済み学習用画像を学習用データ記憶手段４０へ出力する。マスク領域情報は例えば、マスク済み学習用画像と同一の幅および高さの二値画像であり、マスクした領域に１、それ以外に０が格納されている。

学習用マスク手段５０はマスク領域の位置と大きさをランダムに設定する。具体的には、学習用マスク手段５０は、０から画像の幅の画素数までの範囲内の整数値から重複なく乱数を２つとりｘ１，ｘ２（ｘ１＜ｘ２）とし、０から画像の高さまでの画素数の範囲内の整数値からも重複なく２つ乱数をとりｙ１，ｙ２（ｙ１＜ｙ２）とする。そして、ｘ１≦ｘ＜ｘ２かつｙ１≦ｙ＜ｙ２となる画像上の領域をマスクする範囲とし、事前に定められた値（マスク値）で埋める。ここで、マスク値は全学習用画像の全画素値の平均色とした。

なお、乱数によっては対象物の像と重ならないマスク領域が設定される場合もあるため、学習用マスク手段５０は、各学習用画像に対して十分な数の生成処理を繰り返し行って、対象物の像の一部とマスク領域とが重なったマスク済み学習用画像が生成されることを保証する。あるいは、学習用マスク手段５０は、付与データを参照して、１以上のキーポイントの位置がマスク領域内であることを確認した場合のみマスク済み学習用画像を生成する、という処理を各学習用画像に対して一定数繰り返すようにしても良い。

図３は学習用データの例を説明する模式図であり、サンプルが写る学習用画像１００と当該サンプルの付与データ１０１とから生成される学習用データが示されている。

学習用画像１００は学習用データ記憶手段４０に予め記憶されている学習用画像の一例である。予め用意される学習用画像は、カメラで実際に撮影された実画像でなくてもよく、例えば、コンピュータグラフィックス（ＣＧ）などで作られた画像であってもよい。付与データ１０１は学習用画像１００に対応付けて学習用データ記憶手段４０に予め記憶されている付与データである。予め用意される付与データは、人手によって作成されてもよいし、機械が抽出したものを人が確認し必要に応じて修正することによって作成されてもよいし、それらが混在していてもよい。なお、ここで示す付与データは要検出部位を１７個とし、人のキーポイントのトポロジーを図化した例である。キーポイントの位置を表す１７個の白丸と、キーポイント間の連結関係を表す１６本の線分にて図化されている。

学習用マスク手段５０は学習用データ記憶手段４０に予め用意された学習用画像１００に基づき、マスク済み学習用画像とマスク領域情報とを互いに対応付けて複数通り生成する。図３では、学習用マスク手段５０が学習用画像１００から生成する多様なマスク済み学習用画像のうち３つの例としてマスク済み学習用画像１１０，１２０，１３０を示している。これらマスク済み学習用画像にて斜線部がマスク領域であり、人の下半身のみがマスクされたマスク済み学習用画像１１０、人の中央部の大半がマスクされたマスク済み学習用画像１２０、人の左半身の大半がマスクされたマスク済み学習用画像１３０が示されている。

マスク領域情報１１１，１２１，１３１は、学習用マスク手段５０がマスク済み学習用画像１１０，１２０，１３０のそれぞれに対応して生成するマスク領域情報である。また、付与データ１１２，１２２，１３２は、マスク済み学習用画像１１０，１２０，１３０のそれぞれに対応付けられる付与データである。ちなみに、これらは付与データ１１０の複製である。

なお、上記例において学習用マスク手段５０はランダムにマスク領域を生成したが、マスク領域の大きさおよび位置を規則的且つ網羅的に設定してもよい。また、上記例において学習用マスク手段５０は長方形のマスク領域を生成したが、マスク領域の形状を楕円に設定してもよいし、想定される遮蔽物の形状に設定してもよく、適宜の形状とすることができる。

学習手段５１は、学習用マスク手段５０から得られたマスク済み学習用画像、マスク領域情報および付与データを用いて検出器を学習する。すなわち、学習手段５１は、マスク済み学習用画像とマスク領域情報とを入力とし付与データを出力の目標値とする学習によって検出器を生成する。具体的には、学習モデル記憶手段４１に記憶される検出器の学習モデルが、マスク済み学習用画像とマスク領域情報を入力として人ごとのキーポイントを出力するように学習される。なお、ここでの学習とは、検出器のパラメータを与えられたデータから求めることである。

本実施形態では検出器を、畳み込み層、線形変換処理、活性化関数などから構成される畳み込みニューラルネットワーク（Convolutional Neural Networks;ＣＮＮｓ）を用いてモデル化する。活性化関数としてはＲｅＬＵ関数を用いる。学習手段５１は、ＣＮＮｓを構成する各要素のパラメータについて、その出力と対応する付与データとの乖離度を定量化する誤差関数を最小化することで学習を行う。誤差関数は事前に定めておく。最小化には確率的最急降下法などを用いる。

ここで、検出器ではマスク領域情報を手掛かりとして、マスク済み画像のマスクされていない部分のみを用いて、出力を計算する。このようにマスキングされた部分を用いずにマスキングされる前の目標値を検出するよう学習を行うことで、検出器は、マスクされた領域内にキーポイントがあった場合でも、その周囲のマスクされていない部分の情報を用いて、マスクされた領域内のキーポイントを検出できるようになる。

検出器として、マスク領域情報を手掛かりとしマスク済み学習用画像のマスクされていない部分を用いて、出力を計算するためのモジュールであればどんなものを用いてもよいが、本実施形態では下記文献で提案されたパーシャルコンボリューション（Partial Convolution）を畳み込み層として用いることでこのモジュールを構成する。

Guilin Liu, Fitsum A. Reda, Kevin J. Shih, Ting-Chun Wang, Andrew Tao and Bryan Catanzaro, “Image Inpainting for Irregular Holes Using Partial Convolutions,” The European Conference on Computer Vision (ECCV), pp. 85--100, 2018.

ここで、ＣＮＮｓに入力する際に、マスク済み学習用画像は各画素値に対して全学習用画像の全画素値から求めた平均色を引くことで正規化される。つまり、マスクされた領域の画素値が０となるように正規化される。

学習モデル記憶手段４１は、検出器についての学習モデルを記憶する。具体的には、学習手段５１によって得られた検出器のパラメータを記憶する。また、検出器として用いるＣＮＮｓの構造が格納される。学習手段５１による学習処理に伴い、学習モデル記憶手段４１に記憶される学習モデルは更新される。そして、学習が完了すると、学習モデル記憶手段４１は検出器の学習済みモデルを記憶し、検出器記憶手段４３として機能する。

［認識段階に関する対象物認識装置１の構成］
図４は認識段階に関する対象物認識装置１の概略の機能ブロック図であり、記憶部４が遮蔽候補領域記憶手段４２および検出器記憶手段４３として機能し、画像処理部５が遮蔽候補領域設定手段５２、遮蔽候補マスク手段５３、キーポイント検出手段５４および対象物領域検出手段５５として機能し、通信部３が画像処理部５と協働し、撮影画像取得手段３０および認識結果出力手段３１として機能する。

撮影画像取得手段３０は撮影部２から撮影画像を順次取得して画像処理部５に出力する。

検出器記憶手段４３は上述したように、学習段階で生成された検出器を記憶している。

遮蔽候補領域設定手段５２は、撮影画像を入力として、監視空間内に写る対象物を遮蔽し得る物体が存在する画像上の領域（遮蔽候補領域）を遮蔽候補領域記憶手段４２に格納する。

遮蔽候補領域は例えば、ユーザが事前に指定することができる。その場合、ユーザは例えば、操作入力部７を通じて遮蔽候補領域を指定し、遮蔽候補領域設定手段５２はユーザの操作に応じて遮蔽候補領域を設定する。

また、遮蔽候補領域設定手段５２は、遮蔽物候補の三次元モデルを撮影画像に対応する撮影面にレンダリングして遮蔽候補領域を設定する構成とすることもできる。この場合、例えば、遮蔽物候補の情報として監視空間における什器情報などを操作入力部７を通じて設定し、遮蔽候補領域設定手段５２は当該情報から遮蔽候補領域を事前に作成する。

また、遮蔽候補領域設定手段５２は、マスク処理を行う前の撮影画像に対してセマンティックセグメンテーションを行い、その結果に基づいて撮影画像ごとに遮蔽候補領域を設定する構成とすることもできる。すなわち、遮蔽候補領域設定手段５２は、撮影画像を解析して当該撮影画像を構成する複数の画素のそれぞれを監視空間に出現し得る物体に対して予め定義されたクラスのいずれかに分類する。例えば、分類処理を学習した分類器に撮影画像を入力して分類を行う。そして、遮蔽候補領域設定手段５２は、事前に定められた遮蔽物候補の物体に対応するクラスに分類された画素からなる領域を遮蔽候補領域としたり、事前に定めた遮蔽物ではない物体のクラスに対応する領域以外を遮蔽候補領域としたりすることができる。本実施形態では壁、床、人クラスに対応する画素以外を遮蔽候補領域とする。分類器は、学習用画像を入力とし、当該学習用画像の画素ごとに当該画素に撮影されている各物体のクラスを付与した正解クラスデータを出力の目標値とする学習によって生成された学習済みモデルであり、記憶部４が不図示の分類器記憶手段として機能し、分類器を予め記憶する。そして、遮蔽候補領域設定手段５２は分類器記憶手段から分類器を読み出して利用する。

また、ユーザの操作に基づく領域設定、三次元モデルに基づく領域設定、およびセマンティックセグメンテーションに基づく領域設定のうちの２以上の設定手法を組み合わせて用いてもよい。

遮蔽候補マスク手段５３は、撮影画像に対して、当該撮影画像において遮蔽候補領域をマスク処理して得られるデータと当該遮蔽候補領域の情報（遮蔽候補領域情報）とからなるマスク処理データを生成するマスク手段である。具体的には、遮蔽候補マスク手段５３は、遮蔽候補領域記憶手段４２に格納された遮蔽候補領域を用いて、撮影部２から順次取得した撮影画像を入力として、遮蔽候補領域をマスクしたマスク済み撮影画像を生成する。マスク済み撮影画像のマスクした領域の画素値は、学習段階の学習用マスク手段５０が用いたマスク値で置き換える。その後、遮蔽候補マスク手段５３はマスク済み撮影画像と、遮蔽候補領域情報とをキーポイント検出手段５４へ出力する。遮蔽候補領域情報は、入力画像と画像の幅および高さが同一の二値画像であり、マスクした領域に１、それ以外には０が格納されている。

キーポイント検出手段５４は検出器記憶手段４３に格納されている検出器を読み出し、遮蔽候補マスク手段５３から得たマスク済み撮影画像と遮蔽候補領域情報とを当該検出器に入力する。検出器は当該画像に写っている人物ごとの部位データ（検出部位データ）を出力し、キーポイント検出手段５４は検出部位データを対象物領域検出手段５５へ出力する。

ここで、従来のキーポイントの検出器は、画像における人が存在する領域から要検出部位を検出するように学習される。また、遮蔽物で隠れた部分にも目標値を付与して検出器を学習したとしても、原理的には学習データに含まれる遮蔽物にしか対応できない。また、学習データに含まれる遮蔽物に偏りがあった場合（例えば、机の後ろに必ず人がいるという学習データだった場合）、特定の遮蔽物の後ろにキーポイントが検出されるように検出器が学習されることが多く、そのような遮蔽物がある場所で誤報が多発しうる。このような誤報を抑制するためには、起こりうる遮蔽物を網羅した学習データを作成する必要があるが、実際にそのようなデータを作成することは非常に困難である。

そこで、本発明における検出器では、敢えて画像上の遮蔽物の領域をマスクしたマスク済み撮影画像を入力し、また遮蔽候補領域情報を補助情報として入力してキーポイントの検出を行う。ここで、遮蔽候補領域情報を検出器に入力するのは、マスク済み撮影画像のみでは、当該領域の画素値が元からマスク値となっている画像なのか、マスクすることで当該領域の画素値がマスク値となったのかを判定できないためである。上述の学習段階のようにマスク済み学習用画像とマスク領域情報とを用いて学習をした検出器は、マスクしていない領域の情報に基づいてマスクされた領域の情報を補完して検出することができるように学習されているため、遮蔽物により一部分が隠蔽されてしまった人について、他の部分が画像上のマスクされていない領域に存在すれば、その情報を用いて遮蔽物の背後にある要検出部位を検出することができる。これにより、学習データにない遮蔽物であっても、検出器を再度学習することなく対応できる。そして、検出部位データには、計測データ上で隠れているキーポイントが補完されているため、隠れによって極端に小さな対象物領域が検出されてしまう不具合や、隠れによって１つの対象物に係る対象物領域が複数に分かれて検出されてしまう不具合を格段に低減できる。

対象物領域検出手段５５はキーポイント検出手段５４から検出部位データを入力され、検出部位データが示す要検出部位を基準とした所定範囲を計測データにおける対象物領域として検出し、検出した対象物領域の情報を認識結果出力手段３１に出力する。例えば、対象物領域検出手段５５は、各人物の検出部位データに含まれるキーポイント群に外接する外接矩形を、当該人物に関する対象物領域である人物領域として検出する。後述する図７の例では、矩形２３２が人物領域である。

また、外接矩形を予め定めた比率で拡大して人物領域としてもよい。つまり人物領域の設定に際し、キーポイントが真の領域のやや内側に検出されることや検出誤差を考慮して上下左右にマージンを設ける。また、各キーポイントの定義や各キーポイントの検出誤差の見積もりに応じて上下左右の各方向に対する比率を異なるものとしてもよい。

または、人の部位データから人物領域への変換を学習した変換器に各人物の検出部位データを入力することにより、検出部位データを当該人物の人物領域に変換してもよい。変換器は、学習用画像に撮影された対象物のサンプルの付与データを入力とし当該学習用画像における当該サンプルの対象物領域を出力の目標値とする学習によって生成された学習済みモデルであり、記憶部４が不図示の変換器記憶手段として機能し、変換器を予め記憶する。そして、対象物領域検出手段５５は変換器記憶手段から変換器を読み出して利用する。

認識結果出力手段３１は、対象物領域検出手段５５が出力した対象物領域を表示部６に出力する。例えば、認識結果出力手段３１は、撮影画像に対象物領域を表す矩形を描画した画像を生成して表示部６に出力する。なお、対象物領域が検出されなかった場合、認識結果は対象物無しであるとして撮影画像をそのまま出力してもよい。

［対象物認識装置１の動作］
次に、対象物認識装置１の動作を、学習段階と認識段階とに分けて説明する。

［学習段階での対象物認識装置１の動作］
図５は学習段階での対象物認識装置１の動作に関する概略のフロー図である。

対象物認識装置１は撮影画像に現れる対象物を認識する動作に先立って、検出器を学習する動作を行う。

当該学習の動作が開始されると、画像処理部５は検出器の学習を行うために、学習モデル記憶手段４１から検出器の学習モデルを読み出す。この時点での学習モデルのパラメータは初期値である（ステップＳ１０）。

続いて画像処理部５は学習用マスク手段５０として機能し、学習用データ記憶手段４０から、学習用画像および当該画像内のサンプル群に対する付与データを読み込む（ステップＳ１１）。学習用マスク手段５０は、当該画像に対しマスクする領域をランダムに設定する（ステップＳ１２）。さらに、学習用マスク手段５０は、設定した領域をマスクすることでマスク済み画像を作成する（ステップＳ１３）。学習用画像から生成されたマスク済み画像およびマスク領域情報は、当該学習用画像についての付与データと対応付けて学習用データ記憶手段４０に保存される。

次に画像処理部５は学習手段５１として機能し、学習用マスク手段５０で生成されたマスク済み学習用画像とマスク領域情報とを入力とし、キーポイントを検出する（ステップＳ１４）。そして、検出されたキーポイントと、当該マスク済み学習用画像に対応付けられているマスクする前の学習用画像の付与データとの乖離度を、誤差関数を用いて計算し（ステップＳ１５）、誤差を用いて学習モデルのパラメータを更新する（ステップＳ１６）。

さらに、画像処理部５は学習手段５１として機能し、反復終了条件が満たされているかを判定する（ステップＳ１７）。満たされた場合（ステップＳ１７にて「ＹＥＳ」の場合）は、学習済みモデルを検出器として学習モデル記憶手段４１に格納する（ステップＳ１８）。一方、満たされない場合（ステップＳ１７にて「ＮＯ」の場合）は、反復終了条件が満たされるまでステップＳ１１からステップＳ１７の動作を反復する。反復終了条件は、例えば、誤差関数の値やその変化量が事前に定めた閾値よりも小さくなったことや、事前に定めた反復回数に達したことなどを用いることができる。

［認識段階での対象物認識装置１の動作］
図６は認識段階での対象物認識装置１の動作に関する概略のフロー図である。

対象物認識装置１は上述の学習段階にて生成した検出器を用いて、撮影画像に現れる対象物を認識する動作を行う。

対象物認識装置１が当該動作を開始すると、撮影部２は所定時間おきに監視空間を撮影して撮影画像を順次、画像処理部５が設置されている画像解析センター宛に送信する。画像処理部５は通信部３と協働して、撮影部２から撮影画像を受信するたびに図６のフロー図に示す動作を繰り返す。

通信部３は撮影画像取得手段３０として機能し、撮影画像を受信すると当該撮影画像を画像処理部５に出力する（ステップＳ２０）。

画像処理部５は遮蔽候補領域設定手段５２として機能し、入力された撮影画像を用いて遮蔽候補領域を設定し、遮蔽候補領域記憶手段４２に出力する（ステップＳ２１）。

続いて画像処理部５は遮蔽候補マスク手段５３として機能し、遮蔽候補領域記憶手段４２に記憶されている遮蔽候補領域を用いて、入力された撮影画像に対して遮蔽候補領域をマスクし、マスク済み撮影画像を生成する（ステップＳ２２）。生成されたマスク済み撮影画像と遮蔽候補領域情報はキーポイント検出手段５４へ渡される。

画像処理部５はキーポイント検出手段５４として機能して、検出器記憶手段４３に記憶されている検出器を読み出し、遮蔽候補マスク手段５３から入力されたマスク済み撮影画像および遮蔽候補領域情報を検出器に入力してキーポイントを人ごとに検出し検出部位データとして出力する（ステップＳ２３）。

次に画像処理部５は対象物領域検出手段５５として機能し、キーポイント検出手段５４が検出した検出部位データを入力として、各人のキーポイントの外接矩形を対象物領域として算出する対象物認識処理を行う（ステップＳ２４）。

対象物領域検出手段５５による認識処理の結果は、通信部３を介して表示部６に出力される（ステップＳ２５）。具体的には、画像処理部５と通信部３とが協働して認識結果出力手段３１として機能し、対象物領域検出手段５５から入力された人ごとの外接矩形などの情報から認識画像を作成し、これを表示部６に出力する。

［処理例］
図７は、対象物認識装置１の認識段階での処理例を説明するための模式図である。一方、図８は本発明とは異なる処理で得られうる認識結果を示す模式図であり、図７の対象物認識装置１による認識結果と対比される例を示している。

図７に例として示す撮影画像２００には、テーブル２０１および、テーブル２０１により腰の辺りが隠蔽された人２０２、並びに背景として壁２０３および床２０４が写っている。

ここで、この撮影画像２００に直接、キーポイントの検出器を適用すると、図８（ａ）の認識結果データ３００のように、上半身のキーポイント３０１は検出されるが隠蔽された腰から下の脚部にあるキーポイントを検出できず、人物領域３０２として上半身のみしか得られない。あるいは、図８（ｂ）の認識結果データ３１０のように、上半身のキーポイント３１１に加え、脚部のキーポイント３１３，３１４も検出されるが、上半身から人物領域３１２、脚部から人物領域３１４が得られ、上半身と脚部が異なる人物のものとして別々に認識される。

これに対して、対象物認識装置１による処理では、撮影画像における遮蔽物の領域をマスク処理し、この画像に対して、マスク済み画像で学習した検出器を適用してキーポイント検出を行う。具体的には、本実施形態では、遮蔽候補領域設定手段５２が撮影画像２００に対するセマンティックセグメンテーションの結果２１０に基づいて遮蔽候補領域を設定する。当該結果２１０では、領域２１１はテーブルのクラス、領域２１２は人のクラス、領域２１３は壁のクラス、領域２１４は床のクラスにそれぞれ分類される。遮蔽候補領域設定手段５２は壁、床、人クラスに対応する画素以外を遮蔽候補領域とする。その結果、テーブルの領域２１１が遮蔽候補領域として設定され、遮蔽候補マスク手段５３は画像２２０にて斜線部で示す遮蔽候補領域２２１をマスクした画像を生成し、キーポイント検出手段５４は、当該画像に、検出器記憶手段４３に記憶されている検出器を適用してキーポイント検出を行う。検出器記憶手段４３にはマスク済み学習用画像を用いて学習された検出器が記憶されており、当該検出器はマスクされなかった領域の情報を用いて、マスクされた内部にキーポイントがあればその位置を検出しようとする。マスクされた領域２２１の上下にそれぞれ上半身と脚部があるため、その中間には腰の部分があるということが推測される。そのため、キーポイント検出手段５４は図７の認識結果２３０のようにマスクされた領域内に腰に対応するキーポイントを検出し、全身のキーポイント２３１を得ることができ、対象物領域検出手段５５は全身を含む人物領域２３２を検出する。

［変形例］
（１）上記実施形態では、人の全身を対象物とする例を示したが、対象物は、人の上半身などの人体の一部としてもよいし、車両や椅子などの人以外の物体としてもよい。

（２）上記実施形態では、対象物が計測される計測データが二次元画像であり、計測データを取得する計測手段は撮影部２とし二次元画像を撮影するカメラである例を示したが、計測データ、計測手段はこの例に限られない。例えば、計測データは三次元空間を計測したものであってもよい。三次元計測データの例として、距離画像センサを計測手段に用いて得られる距離画像や、多視点カメラで撮影した画像から構築した三次元データや、ＬｉＤＡＲ（Light Detection and Ranging）で計測した点群データを挙げることができる。また、計測データは、二次元画像の時系列（二次元計測データの時系列）、三次元計測データの時系列とすることもできる。なお、点群データの場合のマスク処理はデータを欠落させる処理となる。

（３）上記実施形態では、マスク済み学習用画像およびマスク済み撮影画像を生成する際にマスク値として学習画像の画素値の平均値を用いる例を示した。別の実施形態においては、マスクされた領域の画素値を予め定めた単一値とする、ランダムな値（ランダムノイズ）とするなど、検出器の構成に適したマスク値とすることができる。

（４）上記実施形態では、サンプル毎の部位データを目標値とした検出器を用いたが、認識対象が異なるタスクにも適用することができる。

例えば、画像からサンプル毎の外接矩形を検出する物体検知器を検出器として利用することで、隠蔽に頑健な物体検知を行うことができる。この場合、部位データの代わりに外接矩形が検出器学習の目標値となり、キーポイント検出手段５４の出力がサンプル毎の外接矩形の検出値となるため、対象物領域検出手段５５を用いなくてもよい。

また、認識結果として対象物の密集度合いや過度に密集した領域を認識したい場合（例えば、監視空間内で人が過度に密集している領域を認識したい場合）、画像から画素毎の対象物の密度を推定する密度推定器を検出器として用いればよい。この場合、対象物領域検出手段５５では推定された画素毎の対象物の密度から事前に定めた一定値以上の領域を、対象物が過度に密集した領域として出力すればよい。また、この領域の外接矩形を算出し、それを出力としてもよい。

（５）上記実施形態では、遮蔽候補領域は画像に写っている物体の種別を画素毎で出力するセマンティックセグメンテーションを用いて得られた壁、床、人クラスに対応する画素以外の領域としたが、他の方法で遮蔽候補領域を指定してもよい。

例えば、既に述べたユーザによる指定や、什器情報などから作成する方法以外の例として、カメラに同期して撮影画像の各画素の深度を計測できるセンサを利用する方法が挙げられる。この方法では例えば、対象物はカメラに対して一定の深度より近い位置に存在しないと仮定できるのであれば、深度が一定以上カメラに近い領域を遮蔽候補領域とすることができる。これにより、例えばカメラのレンズの近くに虫がとまった場合など、人として誤報しやすい物体の領域をマスクしたまま扱えるため、誤報を抑制することができる。

（６）遮蔽候補領域は、認識段階の対象物認識装置１を動作させる前に定め、動作している間は変更しなくてもよいし、動作中に変更してもよい。

（７）上記実施形態では、検出器での活性化関数としてＲｅＬＵ関数を用いたが、活性化関数としてｔａｎｈ関数、シグモイド（Sigmoid）関数などを用いてもよい。また、ＲｅｓＮｅｔ（residual network：残差ネットワーク）で用いられるようなショートカット構造を有する構成としてもよい。

（８）上記実施形態およびその変形例では、遮蔽物領域が設定される場合のみについて説明したが、マスク無しの学習用画像を含めて学習した検出器を用いれば、遮蔽物が有る場合と無い場合の両方にひとつの検出器で対応できる。その場合、学習用マスク手段５０はマスク無しの学習用画像に対応して全要素の値が０のマスク領域情報を生成し、学習手段５１はマスク無しの学習用画像と全要素の値が０のマスク領域情報との組み合わせを学習用データに含ませて検出器を学習させる。また、遮蔽候補マスク手段５３は、遮蔽候補領域が設定されていない場合、全要素の値が０の遮蔽候補領域情報を生成して撮影画像とともにキーポイント検出手段５４に出力する。

１対象物認識装置、２撮影部、３通信部、４記憶部、５画像処理部、６表示部、７操作入力部、３０撮影画像取得手段、３１認識結果出力手段、４０学習用データ記憶手段、４１学習モデル記憶手段、４２遮蔽候補領域記憶手段、４３検出器記憶手段、５０学習用マスク手段、５１学習手段、５２遮蔽候補領域設定手段、５３遮蔽候補マスク手段、５４キーポイント検出手段、５５対象物領域検出手段。

Claims

所定の空間を計測した計測データから前記空間に存在する所定の対象物の位置に関する情報である所定情報を認識する対象物認識装置であって、
前記対象物のサンプルが計測されたサンプルデータにおいて当該サンプルの領域の一部と重なるマスク領域をマスク処理して得られたマスク済みサンプルデータと、当該マスク領域の当該サンプルデータ上の位置を示すマスク領域情報とを入力とし、当該マスク領域を含む領域における当該サンプルの前記所定情報を出力の目標値とする学習によって予め生成された検出器を記憶している検出器記憶手段と、
前記対象物を遮蔽し得る遮蔽物候補について、前記計測データにて前記遮蔽物候補のデータが計測され得る遮蔽候補領域の当該計測データ上の位置を示す遮蔽候補領域情報を記憶する遮蔽候補領域記憶手段と、
前記計測データに対して、当該計測データにおいて前記遮蔽候補領域をマスク処理して得られるマスク済み計測データと前記遮蔽候補領域情報とからなるマスク処理データを生成するマスク手段と、
前記マスク処理データを前記検出器に入力して前記計測データにおける前記遮蔽候補領域を含む領域における前記対象物の前記所定情報を検出する検出手段と、
を備えたことを特徴とする対象物認識装置。
前記計測データは前記空間に対応して分布する複数の要素から構成され、
前記計測データを解析して当該計測データを構成する前記複数の要素のそれぞれを前記空間に出現し得る物体に対して予め定義されたクラスのいずれかに分類し、前記遮蔽物候補と対応する前記クラスに分類された前記要素からなる前記遮蔽候補領域を設定する遮蔽候補領域設定手段、をさらに備えたことを特徴とする請求項１に記載の対象物認識装置。
利用者の操作に応じて前記遮蔽候補領域を設定する遮蔽候補領域設定手段、をさらに備えたことを特徴とする請求項１に記載の対象物認識装置。
前記計測データは三次元空間を撮影した画像であり、
前記遮蔽物候補の三次元モデルを前記画像に対応する撮影面にレンダリングして前記遮蔽候補領域を設定する遮蔽候補領域設定手段、をさらに備えたことを特徴とする請求項１に記載の対象物認識装置。
前記所定情報は前記対象物を構成する部位の位置に関する情報であること、を特徴とする請求項１から請求項４のいずれか１つに記載の対象物認識装置。
前記サンプルデータに基づく前記学習により前記検出器を生成する学習手段、をさらに備えたことを特徴とする請求項１から請求項５のいずれか１つに記載の対象物認識装置。
所定の空間を計測した計測データから前記空間に存在する所定の対象物の位置に関する情報である所定情報を認識する対象物認識方法であって、
前記対象物のサンプルが計測されたサンプルデータにおいて当該サンプルの領域の一部と重なるマスク領域をマスク処理して得られたマスク済みサンプルデータと、当該マスク領域の当該サンプルデータ上の位置を示すマスク領域情報とを入力とし、当該マスク領域を含む領域における当該サンプルの前記所定情報を出力の目標値とする学習によって生成された検出器を用意するステップと、
前記対象物を遮蔽し得る遮蔽物候補について、前記計測データにて前記遮蔽物候補のデータが計測され得る遮蔽候補領域の当該計測データ上の位置を示す遮蔽候補領域情報を用意するステップと、
前記計測データに対して、当該計測データにおいて前記遮蔽候補領域をマスク処理して得られるマスク済み計測データと前記遮蔽候補領域情報とからなるマスク処理データを生成するステップと、
前記マスク処理データを前記検出器に入力して前記計測データにおける前記遮蔽候補領域を含む領域における前記対象物の前記所定情報を検出するステップと、
を備えたことを特徴とする対象物認識方法。
所定の空間を計測した計測データから前記空間に存在する所定の対象物の位置に関する情報である所定情報を認識する処理をコンピュータに行わせるプログラムであって、
当該コンピュータを、
前記対象物のサンプルが計測されたサンプルデータにおいて当該サンプルの領域の一部と重なるマスク領域をマスク処理して得られたマスク済みサンプルデータと、当該マスク領域の当該サンプルデータ上の位置を示すマスク領域情報とを入力とし、当該マスク領域を含む領域における当該サンプルの前記所定情報を出力の目標値とする学習によって予め生成された検出器を記憶している検出器記憶手段、
前記対象物を遮蔽し得る遮蔽物候補について、前記計測データにて前記遮蔽物候補のデータが計測され得る遮蔽候補領域の当該計測データ上の位置を示す遮蔽候補領域情報を記憶する遮蔽候補領域記憶手段、
前記計測データに対して、当該計測データにおいて前記遮蔽候補領域をマスク処理して得られるマスク済み計測データと前記遮蔽候補領域情報とからなるマスク処理データを生成するマスク手段、及び、
前記マスク処理データを前記検出器に入力して前記計測データにおける前記遮蔽候補領域を含む領域における前記対象物の前記所定情報を検出する検出手段、
として機能させることを特徴とする対象物認識プログラム。