JP7128578B2

JP7128578B2 - 物体検出装置、物体検出プログラム、物体検出方法、及び学習装置

Info

Publication number: JP7128578B2
Application number: JP2018126596A
Authority: JP
Inventors: 龍佑野坂
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2022-08-31
Anticipated expiration: 2038-07-03
Also published as: JP2020008916A

Description

本発明は、画像等の計測データから人や車両等の所定物体を検出する物体検出装置に関する。

空間を計測した計測データから当該空間に存在する物体を検出する場合、計測データ上での物体の回転によるデータ変動が問題となる。例えば、画像から物体を検出する場合、物体の検出に有効とされている特徴量の１つであるエッジ方向は、同じ物体であっても、物体が立っていたり倒れていたりして画像上の物体が回転することで、或いはカメラが正対したり傾いていたりして画像上の物体が回転することで変わってしまう。

このような物体の回転によるデータ変動に対して頑強に物体を検出するために、回転不変な特徴量（以下、回転不変量と称する）が用いられる。例えば、非特許文献１には、ディープラーニング技術の１つであって畳み込み処理によって特徴量（以下、回転依存量と称する。）を抽出する処理を含んだＣＮＮ（Convolutional Neural Network）をベースにして画像から物体を検出するＯＲＮ（Oriented Response Networks）と呼ばれる手法が提案されている。このＯＲＮには、回転依存量を回転不変量に変換する回転不変化処理が組み込まれている。

具体的には、ＯＲＮでは、畳み込み処理で用いるフィルタを回転させて回転角度ごとの畳み込み処理を行って、畳み込み処理によって得た値を回転角度の順に並べた回転依存量を抽出し、回転依存量の要素のうちの最大値が所定の順序（先頭など）となるように要素を循環シフトさせる回転不変化処理を施して回転不変量に変換し、変換した回転不変量に基づいて物体を検出する。

Zhou, Yanzhao, et al. "Oriented response networks." 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017.

しかしながら、計測データ上での回転の生じ易さは、物体のカテゴリによって（ないし物体のカテゴリと計測系の位置関係によって）異なる。そのため、計測データに依らずに一律に回転不変量を用いたり、一律に回転依存量を用いたりすると検出精度が低下する場合があった。

例えば、小さな俯角で設置したカメラ（例えば水平方向に向けた広角カメラ）で撮影した画像においては、車両や船舶のような被写体は撮影される向きが限定的であり、つまり画像上での回転が生じにくい。一方、人や航空機のような被写体は撮影される向きが様々となり、画像上での回転が生じ易い。この場合、車両や船舶に対して回転不変量を用いると、回転依存量を用いた場合よりも検出精度が低下し易くなる。一方、人や航空機に対して回転依存量を用いると、回転不変量を用いた場合よりも検出精度が低下し易くなる。

この問題は２次元データの画像に限られず、３次元データであるポイントクラウドから物体を検出する際にも生じる。また、当該問題は、非剛体である物体における部位間でも生じる。例えば、人を検出対象とした場合、胴体は回転が生じ難く、腕、脚および頭は回転が生じ易い。そのため、同一計測データ内の１つの物体であってもその全体に回転不変量および回転依存量のいずれかを一律に用いると検出精度が低下する場合があった。

本発明は上記問題を解決するためになされたものであり、画像等の計測データに含まれている物体に回転が生じていても、当該計測データから当該物体を高精度に検出可能な物体検出装置を提供することを目的とする。

（１）本発明に係る物体検出装置は、処理対象の計測データから所定の物体を検出する装置であって、前記計測データに基づいて、当該計測データから抽出される、前記物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定手段と、前記計測データから、前記有用度比率決定手段が定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出手段と、前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出手段と、前記存在度に基づいて前記物体を検出する物体検出手段と、を備える。

（２）本発明に係る物体検出プログラムは、処理対象の計測データから所定の物体を検出する処理をコンピュータに行わせるためのプログラムであって、当該コンピュータを、前記計測データに基づいて、当該計測データから抽出される、前記物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定手段、前記計測データから、前記有用度比率決定手段が定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出手段、前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出手段、及び、前記存在度に基づいて前記物体を検出する物体検出手段、として機能させる。

（３）本発明に係る物体検出方法は、処理対象の計測データから所定の物体を検出する方法であって、前記計測データに基づいて、当該計測データから抽出される、前記物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定ステップと、前記計測データから、前記有用度比率決定ステップにて定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出ステップと、前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出ステップと、前記存在度に基づいて前記物体を検出する物体検出ステップと、を備える。

（４）本発明に係る学習装置は、上記（１）に記載の物体検出装置に関する学習に用いる学習装置であって、学習用の前記計測データ、及び当該学習用の前記計測データに関する前記存在度の教師データを取得する手段と、前記学習用の前記計測データを前記物体検出装置に入力する入力手段と、前記学習用の前記計測データに対して前記存在度算出手段が算出した前記存在度と、前記教師データとを比較する比較手段と、前記比較の結果に基づいて、前記有用度比率決定手段にて前記有用度比率を定める算出器のパラメータを変更するパラメータ変更手段と、を備える。

本発明によれば、計測データに含まれている物体に回転が生じていても、当該計測データから当該物体を高精度に検出可能となる。

本発明の実施形態に係る画像監視装置の概略の構成を示すブロック図である。本発明の実施形態に係る画像監視装置の概略の機能ブロック図である。本発明の実施形態に係る画像監視装置の動作の概略のフロー図である。撮影画像の一例の模式図である。図４に示す２つの自動車の一方の回転依存量、回転不変量、検出用特徴量の例を示す模式図である。図４に示す２つの自動車の他方の回転依存量、回転不変量、検出用特徴量の例を示す模式図である。図４に示す２つの鳥の一方の回転依存量、回転不変量、検出用特徴量の例を示す模式図である。図４に示す２つの鳥の他方の回転依存量、回転不変量、検出用特徴量の例を示す模式図である。

［画像監視装置］
以下、本発明の実施の形態（以下実施形態という）である画像監視装置１について、図面に基づいて説明する。当該画像監視装置１は本発明に係る物体検出装置を含んで構成され、検出結果を報知する。物体検出装置は例えば、自動車や自転車・鳥などの物体が存在し得る空間が撮影された画像を解析することで、当該撮影画像に写った物体を検出しそのカテゴリを認識する。なお、ここでは、物体検出にて撮影画像を解析するが、当該撮影画像は本発明における「処理対象の計測データ」の一例である。

図１は実施形態に係る画像監視装置１の概略の構成を示すブロック図である。画像監視装置１は、撮影部２、通信部３、記憶部４、画像処理部５および表示部６を含んで構成される。

撮影部２は監視カメラであり、通信部３を介して画像処理部５と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部５に入力する。例えば、撮影部２はイベント会場に設置され、監視空間である当該会場を所定のフレーム周期（例えば、１秒）で撮影してカラー画像又はモノクロ画像を生成する。

通信部３は通信回路であり、その一端が画像処理部５に接続され、他端が同軸ケーブルまたはＬＡＮ（Local Area Network）、インターネットなどの通信網を介して撮影部２および表示部６と接続される。通信部３は撮影部２から撮影画像を取得して画像処理部５に入力し、画像処理部５から入力された検出結果を表示部６に出力する。

記憶部４はＨＤＤ（Hard Disk Drive）、半導体メモリなどで構成される記憶装置であり、各種プログラムや各種データを記憶する。記憶部４は画像処理部５と接続されて画像処理部５との間でこれらの情報を入出力する。例えば、記憶部４は、画像処理部５を後述する候補領域設定手段５０、有用度比率決定手段５１、特徴量抽出手段５２、存在度算出手段５３、物体検出手段５４として機能させるためのプログラムを記憶する。

画像処理部５はＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）、ＧＰＵ(Graphics Processing Unit)、ＦＰＧＡ(field-programmable gate array)等の演算装置で構成される。画像処理部５は記憶部４と接続され、記憶部４からプログラムを読み出して実行することにより各種の処理手段、制御手段として動作し、また記憶部４との間で各種データを入出力する。また、画像処理部５は通信部３を介して撮影部２および表示部６とも接続され、通信部３経由で撮影部２から取得した撮影画像を解析することにより物体を検出し、検出結果を通信部３経由で表示部６に表示させる。

表示部６はディスプレイ装置であり、通信部３を介して画像処理部５と接続され、画像処理部５による検出結果を表示する。例えば、監視員が表示された検出結果を視認して状況を判断し、必要に応じて対処員を派遣する。

図２は画像監視装置１の概略の機能ブロック図である。通信部３は画像取得手段３０等として機能する。また、記憶部４は回転依存量生成器記憶手段４０、有用度比率算出器記憶手段４１、存在度算出器記憶手段４２等として機能し、画像処理部５は、候補領域設定手段５０、有用度比率決定手段５１、特徴量抽出手段５２、存在度算出手段５３、物体検出手段５４および検出結果出力手段５５として機能する。

特徴量抽出手段５２は、回転依存量生成手段５２０、特徴量不変化手段５２１および特徴量統合手段５２２を含む。

画像取得手段３０は、撮影手段である撮影部２から撮影画像を順次取得して、候補領域設定手段５０、回転依存量生成手段５２０に入力する。

候補領域設定手段５０は、撮影画像が入力されると、その画像において物体が撮影され得る位置・領域を網羅的に候補領域として設定する。本実施形態では、画像上の格子状の位置、つまり画像内にて水平方向および垂直方向に所定間隔ずつずらした各位置に、高さ・幅が異なる複数の矩形の候補領域を設定する。

回転依存量生成手段５２０は撮影画像から候補領域ごとに特徴量を生成する。本実施形態では、回転依存量生成手段５２０は撮影画像を得ると、まず、回転依存量生成器記憶手段４０から読み込んだ回転依存量生成器を用いて、撮影画像の各位置について特徴量を算出し、当該各位置点の座標と特徴量とを対応付けた特徴量マップを生成する。そして、後段の処理で或る候補領域に対応する特徴量が必要になると、回転依存量生成手段５２０は特徴量マップから、候補領域と同じ位置にある特徴量を読み出して、回転依存量として出力する。

本実施形態では回転依存量生成器としてＣＮＮを用いる。ちなみにＣＮＮは畳み込み層とプーリング層と呼ばれる２種類の層を交互に積み重ねた構造を持つネットワークである。畳み込み層では、少なくとも畳み込み処理が行われる。プーリング層では、少なくとも、受容野と呼ばれる領域内の値を１つの値に集約するプーリング処理が行われる。プーリング処理として例えば平均プーリング（average pooling）を用いる。畳み込み層とプーリング層には活性化関数を用いた処理を含む場合がある。活性化関数として例えばＲｅＬＵ（Rectified Linear Units）関数を用いることができる。回転依存量生成器を構成するＣＮＮは事前学習によりフィルタの係数が決定され、当該学習されたＣＮＮが回転依存量生成器記憶手段４０に予め記憶されている。回転依存量生成手段５２０は入力画像に畳み込み処理、プーリング処理および活性化関数による処理を組み合わせた処理を施して特徴量を抽出する。

本実施形態のＣＮＮでは、上述したＯＲＮと同様に、畳み込み処理で用いるフィルタを複数通りの角度に回転させることで、当該フィルタにより抽出される特徴量について複数通りの回転角度での出力を得ることができる。

従って、特徴量マップは特徴量の種類ごとに生成され、また、回転角度ごとに生成される。フィルタの数は特徴量の種類と回転角度の種別に応じた値となり、特徴量の種類を表すフィルタ識別番号をｃ、回転角度を識別する角度識別番号をｋとすると、特徴量マップは、画像における位置を表すｘ座標、ｙ座標と、フィルタ識別番号ｃと、角度識別番号ｋとを次元に有するデータとして表される。本実施形態では、回転依存量生成手段５２０は、候補領域の位置のｘ座標、ｙ座標に対応付けられた複数種類、複数通りの回転角度の特徴量を要素とした次式に示すベクトルを候補領域に対応付く回転依存量として出力する。なお、ｃは回転依存量生成器を構成するＣＮＮの最後の畳み込み処理のフィルタに関する識別番号とする。

ここで、Ｃはフィルタ識別番号ｃの最大値である。また、Ｋは回転角度の段階数であり、θ_ｋはｋ番目の回転角度である。本実施形態ではフィルタの大きさを３×３画素、回転角数Ｋを４とする。ちなみに、フィルタの回転はフィルタの外側の８要素を循環シフトさせることで実現でき、１つずつ循環シフトさせればＫ＝８、また２つずつ循環シフトさせればＫ＝４とすることができる。

特徴量不変化手段５２１は、物体の回転角度に対する依存性が高い特徴量である回転依存量から、当該依存性が低い回転不変量を生成する。つまり、特徴量不変化手段５２１は、候補領域ごとに、それと対応付いた回転依存量に対して、回転に対して不変となるような不変化処理を施し、回転不変量として出力する。本実施形態では、不変化処理として、循環シフトを用いた不変化処理を用いる。具体的にはｈ_ｃ，θｋをフィルタ識別番号ｃごとのベクトル、つまりＣ個のＫ次元ベクトルと捉える。そして、当該Ｃ個のベクトルのそれぞれにて値が最大の要素を特定し、特定した要素が１番目の要素となるように当該ベクトルの要素を循環シフトする。

特徴量統合手段５２２は、候補領域ごとに有用度比率決定手段５１が定める有用度比率をもとに当該候補領域における回転依存量と回転不変量を統合し、当該候補領域における検出用特徴量として存在度算出手段５３へ出力する。

有用度比率決定手段５１は、撮影画像に基づいて、物体の存在度算出又は検出における回転依存量の有用度と回転不変量の有用度との比率を定め、決定した有用度比率を特徴抽出手段５２へ出力する。特徴抽出手段５２において有用度比率は特徴量統合手段５２２に入力される。本実施形態においては、有用度比率決定手段５１は、回転依存量生成手段５２０が撮影画像から生成した候補領域ごとの回転依存量を入力され、当該回転依存量に基づいて候補領域ごとに有用度比率を決定する。

有用度比率決定手段５１は有用度比率算出器記憶手段４１から読み込んだ有用度比率算出器により有用度比率を算出する。有用度比率算出器は、事前の学習によりパラメータを定められた関数を用いて構成される。本実施形態では回転不変量の重みをα（０≦α≦１）、回転依存量の重みを（１－α）とし、これらの比α：（１－α）を有用度比率と定義し、有用度比率算出器は重みαを算出する。例えば、有用度比率決定手段５１は学習によって求めたパラメータと入力された回転依存量との内積にシグモイド（Sigmoid）関数を施してαを算出する。

特徴量統合手段５２２は次式に示す、αを用いた重み付き和により、検出用特徴量ｇ_ｃ，θｋを算出する。

ここで、ｆは不変化処理を表す関数であり、ｆ(ｈ_ｃ，θｋ)は回転依存量ｈ_ｃ，θｋに対応して特徴量不変化手段５２１が算出する回転不変量である。ｇ_ｃ，θｋは、αが０に近いほど回転依存量に近づき、αが１に近いほど回転不変量に近づく。すなわち、有用度比率に応じて、特徴量抽出手段５２から出力される特徴量が変化する。

以上のように、特徴量抽出手段５２は、画像取得手段３０から計測データである撮影画像を入力され、当該撮影画像から、候補領域設定手段５０が設定した候補領域ごとに、有用度比率決定手段５１が定めた有用度比率に従って回転依存量及び回転不変量の少なくとも一方を含んだ検出用特徴量を抽出し、抽出した検出用特徴量を存在度算出手段５３へ出力する。

具体的には、特徴量抽出手段５２は、回転依存量生成手段５２０によって撮影画像から候補領域における回転依存量を抽出し、及び特徴量不変化手段５２１によって回転依存量を変換することで撮影画像から当該候補領域における回転不変量を抽出し、特徴量統合手段５２２によって当該回転依存量と当該回転不変量とを有用度比率に応じて重み付け加算することにより当該候補領域における検出用特徴量を抽出する。

存在度算出手段５３は、候補領域ごとに検出用特徴量を入力されて撮影画像に物体が現れている度合いを表す存在度を算出する。本実施形態では、存在度算出手段５３は存在度算出器記憶手段４２から存在度算出器を読み出し、これに検出用特徴量を入力して、対象カテゴリごとに存在度を算出する。対象カテゴリの存在度は候補領域の画像の対象カテゴリらしさを表すスコアとすることができる。以下、存在度をスコアで例示する。

本実施形態では、候補領域の高さ・幅ごとに事前に用意した存在度算出器を用いる。具体的には、検出用特徴量と事前に学習データから算出したパラメータとの内積をスコアとして対象カテゴリごとに算出する。内積値は、大きいほどより対象カテゴリらしいという値である。

物体検出手段５４は、候補領域設定手段５０により設定される候補領域ごとに、存在度算出手段５３からスコアを入力され、当該スコアが閾値以上の候補領域を最終的に出力する対象領域として出力する。具体的には、物体検出手段５４は、候補領域設定手段５０から候補領域の情報を入力され、これとスコアとを用いて、同一物体に対して少しずれた位置の複数の対象領域が検出されてしまうことを抑制する統合処理を行い、その処理結果の対象領域を最終的な対象領域とする。

統合処理では対象カテゴリごとに複数の候補領域の中から真に当該カテゴリの物体を捉えているものを対象領域として選択する。具体的には、候補領域群の中で対象カテゴリについてのスコアが一番高いものを注目領域とする。そして、注目領域より低いスコアの候補領域を順に比較領域とし、注目領域と比較領域との重なりが予め定めた割合より大きい場合は比較領域を候補領域群から削除する。この処理をスコアが注目領域より低い候補領域全てに対して行った後、現在の注目領域を最終的な対象の領域として選択し、候補領域群から除外する。注目領域を設定して行った上記処理で更新された候補領域群に対して、同様に注目領域を設定し、上と同様にして比較領域を削除し、注目領域を最終的な対象の領域として選択する。この処理を注目領域に設定する対象領域がなくなる、つまり候補領域群が空になるまで繰り返す。こうして得られた最終的な対象領域が統合処理結果として物体検出手段５４から出力される。

検出結果出力手段５５は、物体検出手段５４から入力された対象領域などの情報から表示用の結果画像を作成する。例えば、結果画像として対象領域を表す矩形とそのカテゴリ名とを撮影画像に重畳した画像を作成する。

回転依存量生成器記憶手段４０が記憶している回転依存量生成器、有用度比率算出器記憶手段４１が記憶している有用度比率算出器、存在度算出器記憶手段４２が記憶している存在度算出器のそれぞれのパラメータは、学習用の計測データとして用意された画像を用いた学習により予め生成され、各記憶手段に格納される。具体的には、回転依存量生成器記憶手段４０には、ＣＮＮの畳み込み処理で用いるフィルタの係数などが記憶されている。有用度比率算出器記憶手段４１には、有用度比率算出器で行う内積処理の係数などが記憶されている。また、存在度算出器記憶手段４２には、存在度算出器で行う内積処理の係数などが記憶されている。

図３は画像監視装置１の動作の概略のフロー図であり、これを参照して画像監視装置１の動作を説明する。

画像監視装置１が動作を開始すると、撮影部２は撮影画像を順次、画像処理部５に送信する。画像処理部５は撮影画像を受信するたびに図３のフロー図に従った動作を繰り返す。

まず、通信部３は画像取得手段３０として動作し、撮影部２からの撮影画像の受信待ち状態となる。撮影画像を取得した画像取得手段３０は当該撮影画像を画像処理部５に出力する（ステップＳ１０）。

撮影画像を入力された画像処理部５は候補領域設定手段５０として動作し、撮影画像にて候補領域を設定する（ステップＳ２０）。候補領域の情報は回転依存量生成手段５２０、物体検出手段５４に入力される。

次に、画像処理部５は回転依存量生成手段５２０として動作し、候補領域ごとに回転依存量を算出する（ステップＳ３０）。

さらに、画像処理部５は特徴量不変化手段５２１として動作し、回転依存量生成手段５２０から回転依存量を入力され、候補領域ごとに回転不変量を算出する（ステップＳ４０）。生成された候補領域ごとの回転不変量は特徴量統合手段５２２に入力される。

次に、画像処理部５は候補領域ごとに検出用特徴量を算出する（ステップＳ５０）。画像処理部５は有用度比率決定手段５１として動作し、回転依存量生成手段５２０から入力された回転依存量から有用度比率を定める。また画像処理部５は特徴量統合手段５２２として動作し、回転依存量、回転不変量および有用度比率から検出用特徴量を生成する。

続いて、画像処理部５は存在度算出手段５３として動作し、特徴量統合手段５２２から入力される検出用特徴量に基づいて、候補領域ごとに、対象らしさをあらわすスコアを算出する（ステップＳ６０）。

さらに、画像処理部５は物体検出手段５４として動作し、候補領域およびスコアの情報を入力され、最終的に出力する対象領域を算出する（ステップＳ７０）。

そして、画像処理部５は検出結果出力手段５５として動作し、物体検出手段５４から入力された対象領域などの情報から結果画像を作成し、通信部３を通して表示部６に出力する（ステップＳ８０）。

以下、図４～図８を参照して、本実施形態の物体検出装置の処理例を説明する。

図４は撮影画像の一例を模式的に示した図である。撮影画像４００には候補領域が、様々なサイズの矩形で且つ位置をずらして設定される。そのように撮影画像４００に網羅的に設定される候補領域のうち、候補領域４０２，４０４，４０６，４０８は、それぞれ物体の像を含むものであり、候補領域４０２は自動車４０１、候補領域４０４は自動車４０３、候補領域４０６は鳥４０５、候補領域４０８は鳥４０７を含む。ここで、自動車４０１，４０３の車種は相違しているが向きは類似している。また鳥４０７の像は９０度回転した鳥４０５の像と類似しているとする。

図５～図８はそれぞれ候補領域４０２，４０４，４０６，４０８と対応付く回転依存量ｈ_ｃ，θｋ、回転不変量ｆ(ｈ_ｃ，θｋ)、検出用特徴量ｇ_ｃ，θｋの例を示す模式図である。この例ではＣ＝２、つまりｃは１と２の２通りであり、またＫ＝４で回転角度θ_ｋは０°，９０°，１８０°，２７０°の４通りである。図では、ｈ_ｃ，θｋ、ｆ(ｈ_ｃ，θｋ)およびｇ_ｃ，θｋがそれぞれＣ個のＫ次元ベクトルの形で表現されている。

自動車のような対象カテゴリは、自動車４０１，４０３のように画像に写る向きは限られている。そのため、不変化処理を施さずとも候補領域４０２，４０４それぞれの回転依存量５００と回転依存量６００は類似する。これに対応して、有用度比率算出器は、物体検出にて回転不変量よりも回転依存量を重視して用いるように、比較的に０に近いαを候補領域４０２，４０４において算出する。このとき、検出用特徴量５０２，６０２はそれぞれ回転依存量５００，６００とほぼ同じ量（ベクトル）となる。回転依存量５００，６００の類似により検出用特徴量５０２と検出用特徴量６０２も類似する。

一方、鳥のような対象カテゴリは鳥４０５，４０７のように様々な方向を向き得る。鳥４０５と鳥４０７は向きが異なるため、候補領域４０６，４０８の回転依存量７００と回転依存量８００は大きく異なるが、不変化処理により回転不変量７０１と回転不変量８０１は類似する。有用度比率算出器は、物体検出にて回転依存量よりも回転不変量を重視して用いるように、比較的に１に近いαを候補領域４０６，４０８において算出する。これにより、検出用特徴量７０２と検出用特徴量８０２は類似し、回転依存量を用いる場合に比べ、候補領域４０６，４０８に写る物体が同じ対象カテゴリであるとの認識がより容易になっていることが分かる。

このように、候補領域ごとに入力に応じて特徴量が適切に切り替わることで、認識精度が向上する。

［学習装置］
回転依存量生成器記憶手段４０が記憶している回転依存量生成器、有用度比率算出器記憶手段４１が記憶している有用度比率算出器、存在度算出器記憶手段４２が記憶している存在度算出器のそれぞれのパラメータは、学習用の計測データによって予め学習しておく。

学習用の計測データとして、対象カテゴリの物体が写り、予め正解対象領域を付与した多数の撮影画像を用いる。当該撮影画像における対象カテゴリの物体の存在度の教師データとして、正解対象領域と候補領域との重なり度合いなどから候補領域ごとに正解の存在度を付ける。具体的には、例えば、或る対象カテゴリの正解対象領域と一定以上の重なり度合いの候補領域に対しては、その対象カテゴリのスコアを１とし他の対象カテゴリのスコアを０とする正解スコアを付与する。一方、重なり度合いが一定未満の候補領域には全対象カテゴリのスコアを０とする正解スコアを付与する（「背景」の対象カテゴリを設けて当該カテゴリのスコアのみを１としてもよい）。

学習ではこれらの教師データを用いて、対象カテゴリらしさの推定精度を表す交差エントロピー関数などを用いて誤差を計算する。この誤差を最小化することで、回転依存量生成器、有用度比率算出器、存在度算出器の各パラメータを求める。最小化には確率的最急降下法などを用いる。

学習は、例えば、画像処理部５を構成する演算装置にて学習プログラムを実行させて実現される学習装置を用いて行うことができる。例えば、有用度比率算出器のパラメータを学習する学習装置は、まず、学習用の計測データ、及び当該学習用の計測データに関する存在度の教師データを取得する手段と、学習用の計測データを前記物体検出装置に入力する入力手段とを備える。上述の例では、画像処理部５は、学習用の画像に対して候補領域を設定し、候補領域に対応する画像データと正解スコアを抽出する。そして、抽出した画像データを、学習中の物体検出装置に入力する。具体的には、上述の物体検出装置では当該画像データは有用度比率決定手段５１と特徴量抽出手段５２に入力する。物体検出装置は、入力された学習用の画像データと学習中の有用度比率算出器等を用いて、特徴量抽出手段５２および存在度算出手段５３の処理を行ってスコアを算出する。

学習装置は、さらに、学習用の画像データに対して存在度算出手段５３が算出した存在度（スコア）と、教師データである「正解の存在度」（正解スコア）とを比較する比較手段と、その比較の結果に基づいて、有用度比率算出器のパラメータを変更するパラメータ変更手段と、を備える。これらにより、上述の誤差最小化を図るようにパラメータが調節される。

［変形例］
（１）上記実施形態においては、回転依存量生成器を構成するＣＮＮについては本発明の要旨を逸脱しない範囲で各種の改変を行うことができる。例えば、活性化関数としてＲｅＬＵ関数に代えて、ｔａｎｈ関数、Sigmoid関数などを用いることができる。

また、プーリング処理として平均プーリングに代えて、一定間隔でサンプリングする方法や、最大プーリング（max pooling）などを用いてもよい。

また、重み付き平均プーリングを用いてもよい。重みは、例えば４×４などの窓に対して中心の重みを大きくし、中心から離れるほど重みを小さくする。具体的に重みの係数は次のように求める。いま、画像の補間としてバイリニア補間を仮定する。プーリングの処理として４×４の窓の中心から半径１の円を考え、その円周上にてピクセルの平均値を算出する。画像の補間を仮定しているので、円周上のピクセルの平均値は４×４ピクセルの重み付き平均として求められる。重みの係数は、円周上での補間の重みを積分することで、解析的に平均化の重みが求まる。この処理において、円周上のピクセルの平均に限らず、円内のピクセルの平均などでもよい。

（２）上記実施形態およびその変形例においては、フィルタを回転させるために、循環シフトによる回転を用いていたがこれに限らない。より正確な値を算出するために、フィルタ回転させたときにフィルタの或る要素が撮影画像のピクセルの間に位置する場合、その要素の位置に対応する撮影画像のピクセル値を周辺のピクセル値からバイリニア補間などで補間して求め、当該補間で得たピクセル値を用いて畳み込みを行ってもよい。

さらに、補間の係数を考慮したフィルタ係数を予め求めておき、畳み込むときの補間処理を省くことで、より高速な畳み込み処理を行ってもよい。これについて具体的に説明する。例えばバイリニア補間を用いる場合、補間したいピクセルの位置の周囲４ピクセルの線形和によって補間値を算出する。この線形和の係数は補間したい位置と周囲４ピクセルの位置関係から求まる。一方、回転したフィルタによる畳み込みは補間によって求めたピクセルとフィルタの係数による線形和である。補間によって求めたピクセルは入力のピクセルの線形和であるから、回転したフィルタによる畳み込みも入力のピクセルの線形和で書き直すことができる。すなわち、この線形和の係数で畳み込みをすれば、補間処理を行った畳み込みと同じ計算結果を少ない計算量で得られる。

（３）上記実施形態およびその各変形例においては、回転依存量生成器のパラメータは、有用度比率算出器と同じ「学習用の計測データ」を用いて学習したが、異なる「学習用の計測データ」で学習してもよい。

（４）上記実施形態およびその各変形例においては、特徴量不変化手段５２１にて、循環シフトを用いた不変化処理を用いていたが、これに限らない。不変化処理として、フィルタ番号ｃごとに回転角度θ_ｋの次元において回転依存量ｈ_ｃ，θｋを降順または昇順にソートし、それを回転不変量とする方法などでもよい。

また、複数種類の不変化処理を用いて、不変化処理をしない、もしくはいずれかの不変化処理を行うようにしてもよい。その場合は、softmax関数などを用いて処理ごとに有用度比率を算出し、それらの有用度比率を用いて検出用特徴量を生成するようにすればよい。

（５）上記実施形態およびその各変形例においては、有用度比率決定手段５１にて、算出する有用度比率の精度をより高めるために、内積値を算出する前に、線形変換や活性化関数を繰り返す構造にしてもよい。

（６）上記実施形態およびその各変形例においては、候補領域ごとに有用度比率を算出していたが、これに限らない。画像の平均特徴量などを用いて、撮影画像で１つの有用度比率を算出してもよいし、特徴量のフィルタ番号ごとに有用度比率を算出してもよい。

（７）上記実施形態およびその各変形例においては、有用度比率決定手段５１に回転依存量を入力していたが、処理対象の計測データから抽出された特徴量であればこれに限らない。検出用特徴量の基となる回転不変量や両特徴量を入力してもよいし、これらとは別に処理対象の計測データから抽出した特徴量を入力してもよい。

（８）上記実施形態およびその各変形例においては、特徴量統合手段５２２にて、候補領域に対応づく特徴量として特徴マップにおける１×１の領域（単位領域）ひとつ分の特徴量を用いていたが、複数個の単位領域を候補領域に対応させてもよい。その場合、不変化処理は、単位領域ごとに行えばよい。統合処理は、不変化処理前後の特徴マップを単位領域ごとに統合すればよい。有用度比率決定手段５１は、特徴マップ全体で１つの有用度比率を算出してもよいし、対象の部位に応じた統合などの、よりきめ細やかな統合を行うために、単位領域ごと（すなわち候補領域内の局所領域ごと）や、特徴量の種類ごと、単位領域と特徴量の種類の組み合わせごとに行ってもよい。スコアを算出する際は、切り抜いた特徴マップの平均特徴量などを用いればよい。

（９）上記実施形態およびその各変形例においては、ＣＮＮによる回転依存量生成手段５２０にて生成された特徴量に対して特徴量統合手段５２２にて統合処理を行っていたが、当該統合処理はＣＮＮの処理の中間で行ってもよい。このとき、中間の特徴マップの各位置で有用度比率を算出したり、特徴マップのフィルタ番号ごとに有用度比率を算出したりすればよい。特徴マップ全体で１つの有用度比率を算出してもよい。また、ＣＮＮの処理の複数の中間で、それぞれ統合処理を行ってもよい。

（１０）上記実施形態およびその各変形例においては、存在度算出手段５３にて算出される内積値をそのまま出力していたが、スコアを扱いやすくするために、内積値に対してSigmoid関数によって変換してもよい。また、算出するスコアの精度をより高めるために、内積値を算出する前に、線形変換や活性化関数を繰り返す構造にしてもよい。

（１１）上記実施形態およびその各変形例においては、カテゴリを推定していたが、それに限らない。物体の色やテクスチャ、車種、性別などの属性を推定してもよい。また複数種類の属性を同時に推定してもよい。このとき、属性の種類ごとにそれぞれ異なる統合処理を行ってもよい。

（１２）上記実施形態およびその各変形例においては、物体検出装置に入力する計測データは２次元の画像であったが、３次元ボリュームやポイントクラウドでもよい。この場合、畳み込みのフィルタは高さ・幅・奥行きの３次元になる。フィルタの回転をロール・ピッチ・ヨーの３つの角度で表現すると、この３つの角度において様々な角度を考え、それらの全組合せでフィルタを回転させて、それらのフィルタを用いて畳み込みをする。このとき回転依存量はフィルタ番号・ロール・ピッチ・ヨーの次元を持つ。不変化処理は、例えば、回転依存量のフィルタ番号ごとにロール・ピッチ・ヨーのすべての組合せの中から回転依存量の値が最大となるロール・ピッチ・ヨーの組を求め、それらの角度を基準に回転依存量をシフトさせればよい。

（１３）上記実施形態およびその各変形例においては、特徴量抽出手段５２は、有用度比率に応じた回転依存量ｈ_ｃ，θｋと回転不変量ｆ(ｈ_ｃ，θｋ)との両特徴量の重み付け和を算出し、検出用特徴量ｇ_ｃ，θｋとして存在度算出手段５３に入力している。この構成に代えて、特徴量抽出手段５２は計測データから両特徴量のうちの有用度比率が高い一方を検出用特徴量として抽出する構成としてもよい。例えば、上述のパラメータαが所定の閾値以上の場合は回転不変量を選択し、当該閾値未満の場合は回転依存量を選択する。また、有用度比率決定手段５１が求めた有用度比率を閾値と比較していずれを選択するかを決めるのではなく、有用度比率自体が選択結果を示すように有用度比率決定手段５１を学習させることもできる。

また、当該構成は、両特徴量を生成した上で選択結果を受けて択一的に出力する構成でもよいし、選択結果を受けて、両特徴量のうち不要な方の生成を省略する構成としてもよい。例えば、回転依存量から不変化処理で回転不変量を生成する構成では、検出用特徴量として回転不変量が選択された場合にのみ回転不変量を生成することができる。

（１４）上記実施形態およびその各変形例においては、物体検出装置は物体の有無を検出しているが、さらに検出された物体の位置、領域、回転角度（領域の主軸の傾き）のうちの一又は複数の情報を求めてもよい。ちなみに、回転角度の情報は回転依存量から抽出することができる。

（１５）上記実施形態およびその各変形例においては、回転依存量生成器としてＣＮＮを用いたが、ＨＯＧ(Histograms of Oriented Gradients)特徴量やＬＢＰ(Local Binary Patterns)特徴などを用いてもよい。ＨＯＧは勾配方向のヒストグラムであるから、ＨＯＧの場合、各ビンの値を１つ１つの特徴量として出力すれば複数通りの回転角度の特徴量を抽出する構成とすることができる。

ＬＢＰの場合、回転同値なパターンと回転同値でないパターンを含めた複数通りのパターンで抽出を行い、互いに回転同値でないパターンにより抽出した特徴量同士を種類の異なる特徴量、また、互いに回転同値なパターンにより抽出した特徴量同士を種類が共通で回転角度が異なる特徴量として出力する構成とすればよい。

また、ＨＯＧやＬＢＰなどを組み合わせて用いてもよい。

以上、実施形態およびその各変形例により説明した本発明によれば、物体の検出における回転依存量と回転不変量の有用度の比率が計測データから決定され、当該有用度比率は当該計測データに含まれている物体に応じて変えることができる。そして、計測データから、当該有用度比率に従って回転依存量及び回転不変量の少なくとも一方を含んだ検出用特徴量を抽出し、これを用いて物体を検出することで、回転が生じ易い物体も生じ難い物体も精度良く検出できる。すなわち、画像から様々な向きで写り得る物体のカテゴリ・属性などを認識する物体認識技術に関して、より高い精度の認識が可能となる。

３０画像取得手段、４０回転依存量生成器記憶手段、４１有用度比率算出器記憶手段、４２存在度算出器記憶手段、５０候補領域設定手段、５１有用度比率決定手段、５２特徴量抽出手段、５３存在度算出手段、５４物体検出手段、５５検出結果出力手段、５２０回転依存量生成手段、５２１特徴量不変化手段、５２２特徴量統合手段。

Claims

処理対象の計測データから所定の物体を検出する物体検出装置であって、
前記計測データに基づいて、当該計測データから抽出される、前記物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定手段と、
前記計測データから、前記有用度比率決定手段が定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出手段と、
前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出手段と、
前記存在度に基づいて前記物体を検出する物体検出手段と、
を備え、
前記有用度比率決定手段は、学習用の前記計測データとそれに対する前記存在度の正解とを用いた教師あり学習であって、当該有用度比率決定手段が与える前記有用度比率に応じて前記特徴量抽出手段が前記学習用の計測データから抽出する検出用特徴量に対し、前記存在度算出手段が算出する前記存在度と前記正解との間の誤差を最小化する学習が予め行われた関数であること、
を特徴とする物体検出装置。
前記特徴量抽出手段は、前記計測データから前記回転依存量及び前記回転不変量を抽出し、当該回転依存量と当該回転不変量とを前記有用度比率に応じて重み付け加算することにより前記検出用特徴量を抽出すること、を特徴とする請求項１に記載の物体検出装置。
前記特徴量抽出手段は、前記計測データから、前記回転依存量及び前記回転不変量のうちの前記有用度比率が高い一方を前記検出用特徴量として抽出すること、を特徴とする請求項１に記載の物体検出装置。
前記有用度比率決定手段は、前記計測データを取得した空間内の複数の局所領域それぞれについて前記有用度比率を定め、
前記特徴量抽出手段は、前記複数の局所領域ごとに前記検出用特徴量を抽出し、
前記存在度算出手段は、前記複数の局所領域それぞれについて、前記検出用特徴量から前記物体の部位について部位存在度を算出し、当該部位存在度を統合して前記存在度を求めること、
を特徴とする請求項１から請求項３のいずれか１つに記載の物体検出装置。
処理対象の計測データから所定の物体を検出する処理をコンピュータに行わせるためのプログラムであって、当該コンピュータを、
前記計測データに基づいて、当該計測データから抽出される、前記物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定手段、
前記計測データから、前記有用度比率決定手段が定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出手段、
前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出手段、及び、
前記存在度に基づいて前記物体を検出する物体検出手段、
として機能させ、
前記有用度比率決定手段は、学習用の前記計測データとそれに対する前記存在度の正解とを用いた教師あり学習であって、当該有用度比率決定手段が与える前記有用度比率に応じて前記特徴量抽出手段が前記学習用の計測データから抽出する検出用特徴量に対し、前記存在度算出手段が算出する前記存在度と前記正解との間の誤差を最小化する学習が予め行われた関数であること、
を特徴とする物体検出プログラム。
処理対象の計測データから所定の物体を検出する物体検出方法であって、
前記計測データに基づいて、当該計測データから抽出される、前記物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定ステップと、
前記計測データから、前記有用度比率決定ステップにて定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出ステップと、
前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出ステップと、
前記存在度に基づいて前記物体を検出する物体検出ステップと、
を備え、
前記有用度比率決定ステップは、学習用の前記計測データとそれに対する前記存在度の正解とを用いた教師あり学習であって、当該有用度比率決定ステップが与える前記有用度比率に応じて前記特徴量抽出ステップが前記学習用の計測データから抽出する検出用特徴量に対し、前記存在度算出ステップが算出する前記存在度と前記正解との間の誤差を最小化する学習が予め行われた関数を用いて前記有用度の比率を定めること、
を特徴とする物体検出方法。
請求項１から請求項４のいずれか１つに記載の物体検出装置に関する学習に用いる学習装置であって、
学習用の前記計測データ、及び当該学習用の計測データに関する前記存在度の教師データを取得する手段と、
前記学習用の計測データを前記物体検出装置に入力する入力手段と、
前記学習用の計測データに対して前記存在度算出手段が算出した前記存在度と、前記教師データとを比較する比較手段と、
前記比較の結果に基づいて、前記有用度比率決定手段にて前記有用度比率を定める算出器のパラメータを変更するパラメータ変更手段と、
を備えることを特徴とする学習装置。
処理対象の計測データに基づいて、当該計測データから抽出される、所定の物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定手段と、
前記計測データから、前記有用度比率決定手段が定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出手段と、
前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出手段と、
前記存在度に基づいて前記物体を検出する物体検出手段とを備える物体検出装置に関する学習に用いる学習装置であって、
学習用の前記計測データ、及び当該学習用の計測データに関する前記存在度の教師データを取得する手段と、
前記学習用の計測データを前記物体検出装置に入力する入力手段と、
前記学習用の計測データに対して前記存在度算出手段が算出した前記存在度と、前記教師データとを比較する比較手段と、
前記比較の結果に基づいて、前記有用度比率決定手段にて前記有用度比率を定める算出器のパラメータを変更するパラメータ変更手段と、
を備えることを特徴とする学習装置。