JP7128578B2 - 物体検出装置、物体検出プログラム、物体検出方法、及び学習装置 - Google Patents

物体検出装置、物体検出プログラム、物体検出方法、及び学習装置 Download PDF

Info

Publication number
JP7128578B2
JP7128578B2 JP2018126596A JP2018126596A JP7128578B2 JP 7128578 B2 JP7128578 B2 JP 7128578B2 JP 2018126596 A JP2018126596 A JP 2018126596A JP 2018126596 A JP2018126596 A JP 2018126596A JP 7128578 B2 JP7128578 B2 JP 7128578B2
Authority
JP
Japan
Prior art keywords
measurement data
rotation
usefulness
learning
amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018126596A
Other languages
English (en)
Other versions
JP2020008916A (ja
JP2020008916A5 (ja
Inventor
龍佑 野坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP2018126596A priority Critical patent/JP7128578B2/ja
Publication of JP2020008916A publication Critical patent/JP2020008916A/ja
Publication of JP2020008916A5 publication Critical patent/JP2020008916A5/ja
Application granted granted Critical
Publication of JP7128578B2 publication Critical patent/JP7128578B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、画像等の計測データから人や車両等の所定物体を検出する物体検出装置に関する。
空間を計測した計測データから当該空間に存在する物体を検出する場合、計測データ上での物体の回転によるデータ変動が問題となる。例えば、画像から物体を検出する場合、物体の検出に有効とされている特徴量の1つであるエッジ方向は、同じ物体であっても、物体が立っていたり倒れていたりして画像上の物体が回転することで、或いはカメラが正対したり傾いていたりして画像上の物体が回転することで変わってしまう。
このような物体の回転によるデータ変動に対して頑強に物体を検出するために、回転不変な特徴量(以下、回転不変量と称する)が用いられる。例えば、非特許文献1には、ディープラーニング技術の1つであって畳み込み処理によって特徴量(以下、回転依存量と称する。)を抽出する処理を含んだCNN(Convolutional Neural Network)をベースにして画像から物体を検出するORN(Oriented Response Networks)と呼ばれる手法が提案されている。このORNには、回転依存量を回転不変量に変換する回転不変化処理が組み込まれている。
具体的には、ORNでは、畳み込み処理で用いるフィルタを回転させて回転角度ごとの畳み込み処理を行って、畳み込み処理によって得た値を回転角度の順に並べた回転依存量を抽出し、回転依存量の要素のうちの最大値が所定の順序(先頭など)となるように要素を循環シフトさせる回転不変化処理を施して回転不変量に変換し、変換した回転不変量に基づいて物体を検出する。
Zhou, Yanzhao, et al. "Oriented response networks." 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017.
しかしながら、計測データ上での回転の生じ易さは、物体のカテゴリによって(ないし物体のカテゴリと計測系の位置関係によって)異なる。そのため、計測データに依らずに一律に回転不変量を用いたり、一律に回転依存量を用いたりすると検出精度が低下する場合があった。
例えば、小さな俯角で設置したカメラ(例えば水平方向に向けた広角カメラ)で撮影した画像においては、車両や船舶のような被写体は撮影される向きが限定的であり、つまり画像上での回転が生じにくい。一方、人や航空機のような被写体は撮影される向きが様々となり、画像上での回転が生じ易い。この場合、車両や船舶に対して回転不変量を用いると、回転依存量を用いた場合よりも検出精度が低下し易くなる。一方、人や航空機に対して回転依存量を用いると、回転不変量を用いた場合よりも検出精度が低下し易くなる。
この問題は2次元データの画像に限られず、3次元データであるポイントクラウドから物体を検出する際にも生じる。また、当該問題は、非剛体である物体における部位間でも生じる。例えば、人を検出対象とした場合、胴体は回転が生じ難く、腕、脚および頭は回転が生じ易い。そのため、同一計測データ内の1つの物体であってもその全体に回転不変量および回転依存量のいずれかを一律に用いると検出精度が低下する場合があった。
本発明は上記問題を解決するためになされたものであり、画像等の計測データに含まれている物体に回転が生じていても、当該計測データから当該物体を高精度に検出可能な物体検出装置を提供することを目的とする。
(1)本発明に係る物体検出装置は、処理対象の計測データから所定の物体を検出する装置であって、前記計測データに基づいて、当該計測データから抽出される、前記物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定手段と、前記計測データから、前記有用度比率決定手段が定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出手段と、前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出手段と、前記存在度に基づいて前記物体を検出する物体検出手段と、を備える。
(2)本発明に係る物体検出プログラムは、処理対象の計測データから所定の物体を検出する処理をコンピュータに行わせるためのプログラムであって、当該コンピュータを、前記計測データに基づいて、当該計測データから抽出される、前記物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定手段、前記計測データから、前記有用度比率決定手段が定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出手段、前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出手段、及び、前記存在度に基づいて前記物体を検出する物体検出手段、として機能させる。
(3)本発明に係る物体検出方法は、処理対象の計測データから所定の物体を検出する方法であって、前記計測データに基づいて、当該計測データから抽出される、前記物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定ステップと、前記計測データから、前記有用度比率決定ステップにて定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出ステップと、前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出ステップと、前記存在度に基づいて前記物体を検出する物体検出ステップと、を備える。
(4)本発明に係る学習装置は、上記(1)に記載の物体検出装置に関する学習に用いる学習装置であって、学習用の前記計測データ、及び当該学習用の前記計測データに関する前記存在度の教師データを取得する手段と、前記学習用の前記計測データを前記物体検出装置に入力する入力手段と、前記学習用の前記計測データに対して前記存在度算出手段が算出した前記存在度と、前記教師データとを比較する比較手段と、前記比較の結果に基づいて、前記有用度比率決定手段にて前記有用度比率を定める算出器のパラメータを変更するパラメータ変更手段と、を備える。
本発明によれば、計測データに含まれている物体に回転が生じていても、当該計測データから当該物体を高精度に検出可能となる。
本発明の実施形態に係る画像監視装置の概略の構成を示すブロック図である。 本発明の実施形態に係る画像監視装置の概略の機能ブロック図である。 本発明の実施形態に係る画像監視装置の動作の概略のフロー図である。 撮影画像の一例の模式図である。 図4に示す2つの自動車の一方の回転依存量、回転不変量、検出用特徴量の例を示す模式図である。 図4に示す2つの自動車の他方の回転依存量、回転不変量、検出用特徴量の例を示す模式図である。 図4に示す2つの鳥の一方の回転依存量、回転不変量、検出用特徴量の例を示す模式図である。 図4に示す2つの鳥の他方の回転依存量、回転不変量、検出用特徴量の例を示す模式図である。
[画像監視装置]
以下、本発明の実施の形態(以下実施形態という)である画像監視装置1について、図面に基づいて説明する。当該画像監視装置1は本発明に係る物体検出装置を含んで構成され、検出結果を報知する。物体検出装置は例えば、自動車や自転車・鳥などの物体が存在し得る空間が撮影された画像を解析することで、当該撮影画像に写った物体を検出しそのカテゴリを認識する。なお、ここでは、物体検出にて撮影画像を解析するが、当該撮影画像は本発明における「処理対象の計測データ」の一例である。
図1は実施形態に係る画像監視装置1の概略の構成を示すブロック図である。画像監視装置1は、撮影部2、通信部3、記憶部4、画像処理部5および表示部6を含んで構成される。
撮影部2は監視カメラであり、通信部3を介して画像処理部5と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部5に入力する。例えば、撮影部2はイベント会場に設置され、監視空間である当該会場を所定のフレーム周期(例えば、1秒)で撮影してカラー画像又はモノクロ画像を生成する。
通信部3は通信回路であり、その一端が画像処理部5に接続され、他端が同軸ケーブルまたはLAN(Local Area Network)、インターネットなどの通信網を介して撮影部2および表示部6と接続される。通信部3は撮影部2から撮影画像を取得して画像処理部5に入力し、画像処理部5から入力された検出結果を表示部6に出力する。
記憶部4はHDD(Hard Disk Drive)、半導体メモリなどで構成される記憶装置であり、各種プログラムや各種データを記憶する。記憶部4は画像処理部5と接続されて画像処理部5との間でこれらの情報を入出力する。例えば、記憶部4は、画像処理部5を後述する候補領域設定手段50、有用度比率決定手段51、特徴量抽出手段52、存在度算出手段53、物体検出手段54として機能させるためのプログラムを記憶する。
画像処理部5はCPU(Central Processing Unit)、DSP(Digital Signal Processor)、MCU(Micro Control Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)等の演算装置で構成される。画像処理部5は記憶部4と接続され、記憶部4からプログラムを読み出して実行することにより各種の処理手段、制御手段として動作し、また記憶部4との間で各種データを入出力する。また、画像処理部5は通信部3を介して撮影部2および表示部6とも接続され、通信部3経由で撮影部2から取得した撮影画像を解析することにより物体を検出し、検出結果を通信部3経由で表示部6に表示させる。
表示部6はディスプレイ装置であり、通信部3を介して画像処理部5と接続され、画像処理部5による検出結果を表示する。例えば、監視員が表示された検出結果を視認して状況を判断し、必要に応じて対処員を派遣する。
図2は画像監視装置1の概略の機能ブロック図である。通信部3は画像取得手段30等として機能する。また、記憶部4は回転依存量生成器記憶手段40、有用度比率算出器記憶手段41、存在度算出器記憶手段42等として機能し、画像処理部5は、候補領域設定手段50、有用度比率決定手段51、特徴量抽出手段52、存在度算出手段53、物体検出手段54および検出結果出力手段55として機能する。
特徴量抽出手段52は、回転依存量生成手段520、特徴量不変化手段521および特徴量統合手段522を含む。
画像取得手段30は、撮影手段である撮影部2から撮影画像を順次取得して、候補領域設定手段50、回転依存量生成手段520に入力する。
候補領域設定手段50は、撮影画像が入力されると、その画像において物体が撮影され得る位置・領域を網羅的に候補領域として設定する。本実施形態では、画像上の格子状の位置、つまり画像内にて水平方向および垂直方向に所定間隔ずつずらした各位置に、高さ・幅が異なる複数の矩形の候補領域を設定する。
回転依存量生成手段520は撮影画像から候補領域ごとに特徴量を生成する。本実施形態では、回転依存量生成手段520は撮影画像を得ると、まず、回転依存量生成器記憶手段40から読み込んだ回転依存量生成器を用いて、撮影画像の各位置について特徴量を算出し、当該各位置点の座標と特徴量とを対応付けた特徴量マップを生成する。そして、後段の処理で或る候補領域に対応する特徴量が必要になると、回転依存量生成手段520は特徴量マップから、候補領域と同じ位置にある特徴量を読み出して、回転依存量として出力する。
本実施形態では回転依存量生成器としてCNNを用いる。ちなみにCNNは畳み込み層とプーリング層と呼ばれる2種類の層を交互に積み重ねた構造を持つネットワークである。畳み込み層では、少なくとも畳み込み処理が行われる。プーリング層では、少なくとも、受容野と呼ばれる領域内の値を1つの値に集約するプーリング処理が行われる。プーリング処理として例えば平均プーリング(average pooling)を用いる。畳み込み層とプーリング層には活性化関数を用いた処理を含む場合がある。活性化関数として例えばReLU(Rectified Linear Units)関数を用いることができる。回転依存量生成器を構成するCNNは事前学習によりフィルタの係数が決定され、当該学習されたCNNが回転依存量生成器記憶手段40に予め記憶されている。回転依存量生成手段520は入力画像に畳み込み処理、プーリング処理および活性化関数による処理を組み合わせた処理を施して特徴量を抽出する。
本実施形態のCNNでは、上述したORNと同様に、畳み込み処理で用いるフィルタを複数通りの角度に回転させることで、当該フィルタにより抽出される特徴量について複数通りの回転角度での出力を得ることができる。
従って、特徴量マップは特徴量の種類ごとに生成され、また、回転角度ごとに生成される。フィルタの数は特徴量の種類と回転角度の種別に応じた値となり、特徴量の種類を表すフィルタ識別番号をc、回転角度を識別する角度識別番号をkとすると、特徴量マップは、画像における位置を表すx座標、y座標と、フィルタ識別番号cと、角度識別番号kとを次元に有するデータとして表される。本実施形態では、回転依存量生成手段520は、候補領域の位置のx座標、y座標に対応付けられた複数種類、複数通りの回転角度の特徴量を要素とした次式に示すベクトルを候補領域に対応付く回転依存量として出力する。なお、cは回転依存量生成器を構成するCNNの最後の畳み込み処理のフィルタに関する識別番号とする。
Figure 0007128578000001
ここで、Cはフィルタ識別番号cの最大値である。また、Kは回転角度の段階数であり、θはk番目の回転角度である。本実施形態ではフィルタの大きさを3×3画素、回転角数Kを4とする。ちなみに、フィルタの回転はフィルタの外側の8要素を循環シフトさせることで実現でき、1つずつ循環シフトさせればK=8、また2つずつ循環シフトさせればK=4とすることができる。
特徴量不変化手段521は、物体の回転角度に対する依存性が高い特徴量である回転依存量から、当該依存性が低い回転不変量を生成する。つまり、特徴量不変化手段521は、候補領域ごとに、それと対応付いた回転依存量に対して、回転に対して不変となるような不変化処理を施し、回転不変量として出力する。本実施形態では、不変化処理として、循環シフトを用いた不変化処理を用いる。具体的にはhc,θkをフィルタ識別番号cごとのベクトル、つまりC個のK次元ベクトルと捉える。そして、当該C個のベクトルのそれぞれにて値が最大の要素を特定し、特定した要素が1番目の要素となるように当該ベクトルの要素を循環シフトする。
特徴量統合手段522は、候補領域ごとに有用度比率決定手段51が定める有用度比率をもとに当該候補領域における回転依存量と回転不変量を統合し、当該候補領域における検出用特徴量として存在度算出手段53へ出力する。
有用度比率決定手段51は、撮影画像に基づいて、物体の存在度算出又は検出における回転依存量の有用度と回転不変量の有用度との比率を定め、決定した有用度比率を特徴抽出手段52へ出力する。特徴抽出手段52において有用度比率は特徴量統合手段522に入力される。本実施形態においては、有用度比率決定手段51は、回転依存量生成手段520が撮影画像から生成した候補領域ごとの回転依存量を入力され、当該回転依存量に基づいて候補領域ごとに有用度比率を決定する。
有用度比率決定手段51は有用度比率算出器記憶手段41から読み込んだ有用度比率算出器により有用度比率を算出する。有用度比率算出器は、事前の学習によりパラメータを定められた関数を用いて構成される。本実施形態では回転不変量の重みをα(0≦α≦1)、回転依存量の重みを(1-α)とし、これらの比α:(1-α)を有用度比率と定義し、有用度比率算出器は重みαを算出する。例えば、有用度比率決定手段51は学習によって求めたパラメータと入力された回転依存量との内積にシグモイド(Sigmoid)関数を施してαを算出する。
特徴量統合手段522は次式に示す、αを用いた重み付き和により、検出用特徴量gc,θkを算出する。
Figure 0007128578000002
ここで、fは不変化処理を表す関数であり、f(hc,θk)は回転依存量hc,θkに対応して特徴量不変化手段521が算出する回転不変量である。gc,θkは、αが0に近いほど回転依存量に近づき、αが1に近いほど回転不変量に近づく。すなわち、有用度比率に応じて、特徴量抽出手段52から出力される特徴量が変化する。
以上のように、特徴量抽出手段52は、画像取得手段30から計測データである撮影画像を入力され、当該撮影画像から、候補領域設定手段50が設定した候補領域ごとに、有用度比率決定手段51が定めた有用度比率に従って回転依存量及び回転不変量の少なくとも一方を含んだ検出用特徴量を抽出し、抽出した検出用特徴量を存在度算出手段53へ出力する。
具体的には、特徴量抽出手段52は、回転依存量生成手段520によって撮影画像から候補領域における回転依存量を抽出し、及び特徴量不変化手段521によって回転依存量を変換することで撮影画像から当該候補領域における回転不変量を抽出し、特徴量統合手段522によって当該回転依存量と当該回転不変量とを有用度比率に応じて重み付け加算することにより当該候補領域における検出用特徴量を抽出する。
存在度算出手段53は、候補領域ごとに検出用特徴量を入力されて撮影画像に物体が現れている度合いを表す存在度を算出する。本実施形態では、存在度算出手段53は存在度算出器記憶手段42から存在度算出器を読み出し、これに検出用特徴量を入力して、対象カテゴリごとに存在度を算出する。対象カテゴリの存在度は候補領域の画像の対象カテゴリらしさを表すスコアとすることができる。以下、存在度をスコアで例示する。
本実施形態では、候補領域の高さ・幅ごとに事前に用意した存在度算出器を用いる。具体的には、検出用特徴量と事前に学習データから算出したパラメータとの内積をスコアとして対象カテゴリごとに算出する。内積値は、大きいほどより対象カテゴリらしいという値である。
物体検出手段54は、候補領域設定手段50により設定される候補領域ごとに、存在度算出手段53からスコアを入力され、当該スコアが閾値以上の候補領域を最終的に出力する対象領域として出力する。具体的には、物体検出手段54は、候補領域設定手段50から候補領域の情報を入力され、これとスコアとを用いて、同一物体に対して少しずれた位置の複数の対象領域が検出されてしまうことを抑制する統合処理を行い、その処理結果の対象領域を最終的な対象領域とする。
統合処理では対象カテゴリごとに複数の候補領域の中から真に当該カテゴリの物体を捉えているものを対象領域として選択する。具体的には、候補領域群の中で対象カテゴリについてのスコアが一番高いものを注目領域とする。そして、注目領域より低いスコアの候補領域を順に比較領域とし、注目領域と比較領域との重なりが予め定めた割合より大きい場合は比較領域を候補領域群から削除する。この処理をスコアが注目領域より低い候補領域全てに対して行った後、現在の注目領域を最終的な対象の領域として選択し、候補領域群から除外する。注目領域を設定して行った上記処理で更新された候補領域群に対して、同様に注目領域を設定し、上と同様にして比較領域を削除し、注目領域を最終的な対象の領域として選択する。この処理を注目領域に設定する対象領域がなくなる、つまり候補領域群が空になるまで繰り返す。こうして得られた最終的な対象領域が統合処理結果として物体検出手段54から出力される。
検出結果出力手段55は、物体検出手段54から入力された対象領域などの情報から表示用の結果画像を作成する。例えば、結果画像として対象領域を表す矩形とそのカテゴリ名とを撮影画像に重畳した画像を作成する。
回転依存量生成器記憶手段40が記憶している回転依存量生成器、有用度比率算出器記憶手段41が記憶している有用度比率算出器、存在度算出器記憶手段42が記憶している存在度算出器のそれぞれのパラメータは、学習用の計測データとして用意された画像を用いた学習により予め生成され、各記憶手段に格納される。具体的には、回転依存量生成器記憶手段40には、CNNの畳み込み処理で用いるフィルタの係数などが記憶されている。有用度比率算出器記憶手段41には、有用度比率算出器で行う内積処理の係数などが記憶されている。また、存在度算出器記憶手段42には、存在度算出器で行う内積処理の係数などが記憶されている。
図3は画像監視装置1の動作の概略のフロー図であり、これを参照して画像監視装置1の動作を説明する。
画像監視装置1が動作を開始すると、撮影部2は撮影画像を順次、画像処理部5に送信する。画像処理部5は撮影画像を受信するたびに図3のフロー図に従った動作を繰り返す。
まず、通信部3は画像取得手段30として動作し、撮影部2からの撮影画像の受信待ち状態となる。撮影画像を取得した画像取得手段30は当該撮影画像を画像処理部5に出力する(ステップS10)。
撮影画像を入力された画像処理部5は候補領域設定手段50として動作し、撮影画像にて候補領域を設定する(ステップS20)。候補領域の情報は回転依存量生成手段520、物体検出手段54に入力される。
次に、画像処理部5は回転依存量生成手段520として動作し、候補領域ごとに回転依存量を算出する(ステップS30)。
さらに、画像処理部5は特徴量不変化手段521として動作し、回転依存量生成手段520から回転依存量を入力され、候補領域ごとに回転不変量を算出する(ステップS40)。生成された候補領域ごとの回転不変量は特徴量統合手段522に入力される。
次に、画像処理部5は候補領域ごとに検出用特徴量を算出する(ステップS50)。画像処理部5は有用度比率決定手段51として動作し、回転依存量生成手段520から入力された回転依存量から有用度比率を定める。また画像処理部5は特徴量統合手段522として動作し、回転依存量、回転不変量および有用度比率から検出用特徴量を生成する。
続いて、画像処理部5は存在度算出手段53として動作し、特徴量統合手段522から入力される検出用特徴量に基づいて、候補領域ごとに、対象らしさをあらわすスコアを算出する(ステップS60)。
さらに、画像処理部5は物体検出手段54として動作し、候補領域およびスコアの情報を入力され、最終的に出力する対象領域を算出する(ステップS70)。
そして、画像処理部5は検出結果出力手段55として動作し、物体検出手段54から入力された対象領域などの情報から結果画像を作成し、通信部3を通して表示部6に出力する(ステップS80)。
以下、図4~図8を参照して、本実施形態の物体検出装置の処理例を説明する。
図4は撮影画像の一例を模式的に示した図である。撮影画像400には候補領域が、様々なサイズの矩形で且つ位置をずらして設定される。そのように撮影画像400に網羅的に設定される候補領域のうち、候補領域402,404,406,408は、それぞれ物体の像を含むものであり、候補領域402は自動車401、候補領域404は自動車403、候補領域406は鳥405、候補領域408は鳥407を含む。ここで、自動車401,403の車種は相違しているが向きは類似している。また鳥407の像は90度回転した鳥405の像と類似しているとする。
図5~図8はそれぞれ候補領域402,404,406,408と対応付く回転依存量hc,θk、回転不変量f(hc,θk)、検出用特徴量gc,θkの例を示す模式図である。この例ではC=2、つまりcは1と2の2通りであり、またK=4で回転角度θは0°,90°,180°,270°の4通りである。図では、hc,θk、f(hc,θk)およびgc,θkがそれぞれC個のK次元ベクトルの形で表現されている。
自動車のような対象カテゴリは、自動車401,403のように画像に写る向きは限られている。そのため、不変化処理を施さずとも候補領域402,404それぞれの回転依存量500と回転依存量600は類似する。これに対応して、有用度比率算出器は、物体検出にて回転不変量よりも回転依存量を重視して用いるように、比較的に0に近いαを候補領域402,404において算出する。このとき、検出用特徴量502,602はそれぞれ回転依存量500,600とほぼ同じ量(ベクトル)となる。回転依存量500,600の類似により検出用特徴量502と検出用特徴量602も類似する。
一方、鳥のような対象カテゴリは鳥405,407のように様々な方向を向き得る。鳥405と鳥407は向きが異なるため、候補領域406,408の回転依存量700と回転依存量800は大きく異なるが、不変化処理により回転不変量701と回転不変量801は類似する。有用度比率算出器は、物体検出にて回転依存量よりも回転不変量を重視して用いるように、比較的に1に近いαを候補領域406,408において算出する。これにより、検出用特徴量702と検出用特徴量802は類似し、回転依存量を用いる場合に比べ、候補領域406,408に写る物体が同じ対象カテゴリであるとの認識がより容易になっていることが分かる。
このように、候補領域ごとに入力に応じて特徴量が適切に切り替わることで、認識精度が向上する。
[学習装置]
回転依存量生成器記憶手段40が記憶している回転依存量生成器、有用度比率算出器記憶手段41が記憶している有用度比率算出器、存在度算出器記憶手段42が記憶している存在度算出器のそれぞれのパラメータは、学習用の計測データによって予め学習しておく。
学習用の計測データとして、対象カテゴリの物体が写り、予め正解対象領域を付与した多数の撮影画像を用いる。当該撮影画像における対象カテゴリの物体の存在度の教師データとして、正解対象領域と候補領域との重なり度合いなどから候補領域ごとに正解の存在度を付ける。具体的には、例えば、或る対象カテゴリの正解対象領域と一定以上の重なり度合いの候補領域に対しては、その対象カテゴリのスコアを1とし他の対象カテゴリのスコアを0とする正解スコアを付与する。一方、重なり度合いが一定未満の候補領域には全対象カテゴリのスコアを0とする正解スコアを付与する(「背景」の対象カテゴリを設けて当該カテゴリのスコアのみを1としてもよい)。
学習ではこれらの教師データを用いて、対象カテゴリらしさの推定精度を表す交差エントロピー関数などを用いて誤差を計算する。この誤差を最小化することで、回転依存量生成器、有用度比率算出器、存在度算出器の各パラメータを求める。最小化には確率的最急降下法などを用いる。
学習は、例えば、画像処理部5を構成する演算装置にて学習プログラムを実行させて実現される学習装置を用いて行うことができる。例えば、有用度比率算出器のパラメータを学習する学習装置は、まず、学習用の計測データ、及び当該学習用の計測データに関する存在度の教師データを取得する手段と、学習用の計測データを前記物体検出装置に入力する入力手段とを備える。上述の例では、画像処理部5は、学習用の画像に対して候補領域を設定し、候補領域に対応する画像データと正解スコアを抽出する。そして、抽出した画像データを、学習中の物体検出装置に入力する。具体的には、上述の物体検出装置では当該画像データは有用度比率決定手段51と特徴量抽出手段52に入力する。物体検出装置は、入力された学習用の画像データと学習中の有用度比率算出器等を用いて、特徴量抽出手段52および存在度算出手段53の処理を行ってスコアを算出する。
学習装置は、さらに、学習用の画像データに対して存在度算出手段53が算出した存在度(スコア)と、教師データである「正解の存在度」(正解スコア)とを比較する比較手段と、その比較の結果に基づいて、有用度比率算出器のパラメータを変更するパラメータ変更手段と、を備える。これらにより、上述の誤差最小化を図るようにパラメータが調節される。
[変形例]
(1)上記実施形態においては、回転依存量生成器を構成するCNNについては本発明の要旨を逸脱しない範囲で各種の改変を行うことができる。例えば、活性化関数としてReLU関数に代えて、tanh関数、Sigmoid関数などを用いることができる。
また、プーリング処理として平均プーリングに代えて、一定間隔でサンプリングする方法や、最大プーリング(max pooling)などを用いてもよい。
また、重み付き平均プーリングを用いてもよい。重みは、 例えば4×4などの窓に対して中心の重みを大きくし、中心から離れるほど重みを小さくする。具体的に重みの係数は次のように求める。いま、画像の補間としてバイリニア補間を仮定する。プーリングの処理として4×4の窓の中心から半径1の円を考え、その円周上にてピクセルの平均値を算出する。画像の補間を仮定しているので、円周上のピクセルの平均値は4×4ピクセルの重み付き平均として求められる。重みの係数は、円周上での補間の重みを積分することで、解析的に平均化の重みが求まる。この処理において、円周上のピクセルの平均に限らず、円内のピクセルの平均などでもよい。
(2)上記実施形態およびその変形例においては、フィルタを回転させるために、循環シフトによる回転を用いていたがこれに限らない。より正確な値を算出するために、フィルタ回転させたときにフィルタの或る要素が撮影画像のピクセルの間に位置する場合、その要素の位置に対応する撮影画像のピクセル値を周辺のピクセル値からバイリニア補間などで補間して求め、当該補間で得たピクセル値を用いて畳み込みを行ってもよい。
さらに、補間の係数を考慮したフィルタ係数を予め求めておき、畳み込むときの補間処理を省くことで、より高速な畳み込み処理を行ってもよい。これについて具体的に説明する。例えばバイリニア補間を用いる場合、補間したいピクセルの位置の周囲4ピクセルの線形和によって補間値を算出する。この線形和の係数は補間したい位置と周囲4ピクセルの位置関係から求まる。一方、回転したフィルタによる畳み込みは補間によって求めたピクセルとフィルタの係数による線形和である。補間によって求めたピクセルは入力のピクセルの線形和であるから、回転したフィルタによる畳み込みも入力のピクセルの線形和で書き直すことができる。すなわち、この線形和の係数で畳み込みをすれば、補間処理を行った畳み込みと同じ計算結果を少ない計算量で得られる。
(3)上記実施形態およびその各変形例においては、回転依存量生成器のパラメータは、有用度比率算出器と同じ「学習用の計測データ」を用いて学習したが、異なる「学習用の計測データ」で学習してもよい。
(4)上記実施形態およびその各変形例においては、特徴量不変化手段521にて、循環シフトを用いた不変化処理を用いていたが、これに限らない。不変化処理として、フィルタ番号cごとに回転角度θの次元において回転依存量hc,θkを降順または昇順にソートし、それを回転不変量とする方法などでもよい。
また、複数種類の不変化処理を用いて、不変化処理をしない、もしくはいずれかの不変化処理を行うようにしてもよい。その場合は、softmax関数などを用いて処理ごとに有用度比率を算出し、それらの有用度比率を用いて検出用特徴量を生成するようにすればよい。
(5)上記実施形態およびその各変形例においては、有用度比率決定手段51にて、算出する有用度比率の精度をより高めるために、内積値を算出する前に、線形変換や活性化関数を繰り返す構造にしてもよい。
(6)上記実施形態およびその各変形例においては、候補領域ごとに有用度比率を算出していたが、これに限らない。画像の平均特徴量などを用いて、撮影画像で1つの有用度比率を算出してもよいし、特徴量のフィルタ番号ごとに有用度比率を算出してもよい。
(7)上記実施形態およびその各変形例においては、有用度比率決定手段51に回転依存量を入力していたが、処理対象の計測データから抽出された特徴量であればこれに限らない。検出用特徴量の基となる回転不変量や両特徴量を入力してもよいし、これらとは別に処理対象の計測データから抽出した特徴量を入力してもよい。
(8)上記実施形態およびその各変形例においては、特徴量統合手段522にて、候補領域に対応づく特徴量として特徴マップにおける1×1の領域(単位領域)ひとつ分の特徴量を用いていたが、複数個の単位領域を候補領域に対応させてもよい。その場合、不変化処理は、単位領域ごとに行えばよい。統合処理は、不変化処理前後の特徴マップを単位領域ごとに統合すればよい。有用度比率決定手段51は、特徴マップ全体で1つの有用度比率を算出してもよいし、対象の部位に応じた統合などの、よりきめ細やかな統合を行うために、単位領域ごと(すなわち候補領域内の局所領域ごと)や、特徴量の種類ごと、単位領域と特徴量の種類の組み合わせごとに行ってもよい。スコアを算出する際は、切り抜いた特徴マップの平均特徴量などを用いればよい。
(9)上記実施形態およびその各変形例においては、CNNによる回転依存量生成手段520にて生成された特徴量に対して特徴量統合手段522にて統合処理を行っていたが、当該統合処理はCNNの処理の中間で行ってもよい。このとき、中間の特徴マップの各位置で有用度比率を算出したり、特徴マップのフィルタ番号ごとに有用度比率を算出したりすればよい。特徴マップ全体で1つの有用度比率を算出してもよい。また、CNNの処理の複数の中間で、それぞれ統合処理を行ってもよい。
(10)上記実施形態およびその各変形例においては、存在度算出手段53にて算出される内積値をそのまま出力していたが、スコアを扱いやすくするために、内積値に対してSigmoid関数によって変換してもよい。また、算出するスコアの精度をより高めるために、内積値を算出する前に、線形変換や活性化関数を繰り返す構造にしてもよい。
(11)上記実施形態およびその各変形例においては、カテゴリを推定していたが、それに限らない。物体の色やテクスチャ、車種、性別などの属性を推定してもよい。また複数種類の属性を同時に推定してもよい。このとき、属性の種類ごとにそれぞれ異なる統合処理を行ってもよい。
(12)上記実施形態およびその各変形例においては、物体検出装置に入力する計測データは2次元の画像であったが、3次元ボリュームやポイントクラウドでもよい。この場合、畳み込みのフィルタは高さ・幅・奥行きの3次元になる。フィルタの回転をロール・ピッチ・ヨーの3つの角度で表現すると、この3つの角度において様々な角度を考え、それらの全組合せでフィルタを回転させて、それらのフィルタを用いて畳み込みをする。このとき回転依存量はフィルタ番号・ロール・ピッチ・ヨーの次元を持つ。不変化処理は、例えば、回転依存量のフィルタ番号ごとにロール・ピッチ・ヨーのすべての組合せの中から回転依存量の値が最大となるロール・ピッチ・ヨーの組を求め、それらの角度を基準に回転依存量をシフトさせればよい。
(13)上記実施形態およびその各変形例においては、特徴量抽出手段52は、有用度比率に応じた回転依存量hc,θkと回転不変量f(hc,θk)との両特徴量の重み付け和を算出し、検出用特徴量gc,θkとして存在度算出手段53に入力している。この構成に代えて、特徴量抽出手段52は計測データから両特徴量のうちの有用度比率が高い一方を検出用特徴量として抽出する構成としてもよい。例えば、上述のパラメータαが所定の閾値以上の場合は回転不変量を選択し、当該閾値未満の場合は回転依存量を選択する。また、有用度比率決定手段51が求めた有用度比率を閾値と比較していずれを選択するかを決めるのではなく、有用度比率自体が選択結果を示すように有用度比率決定手段51を学習させることもできる。
また、当該構成は、両特徴量を生成した上で選択結果を受けて択一的に出力する構成でもよいし、選択結果を受けて、両特徴量のうち不要な方の生成を省略する構成としてもよい。例えば、回転依存量から不変化処理で回転不変量を生成する構成では、検出用特徴量として回転不変量が選択された場合にのみ回転不変量を生成することができる。
(14)上記実施形態およびその各変形例においては、物体検出装置は物体の有無を検出しているが、さらに検出された物体の位置、領域、回転角度(領域の主軸の傾き)のうちの一又は複数の情報を求めてもよい。ちなみに、回転角度の情報は回転依存量から抽出することができる。
(15)上記実施形態およびその各変形例においては、回転依存量生成器としてCNNを用いたが、HOG(Histograms of Oriented Gradients)特徴量やLBP(Local Binary Patterns)特徴などを用いてもよい。HOGは勾配方向のヒストグラムであるから、HOGの場合、各ビンの値を1つ1つの特徴量として出力すれば複数通りの回転角度の特徴量を抽出する構成とすることができる。
LBPの場合、回転同値なパターンと回転同値でないパターンを含めた複数通りのパターンで抽出を行い、互いに回転同値でないパターンにより抽出した特徴量同士を種類の異なる特徴量、また、互いに回転同値なパターンにより抽出した特徴量同士を種類が共通で回転角度が異なる特徴量として出力する構成とすればよい。
また、HOGやLBPなどを組み合わせて用いてもよい。
以上、実施形態およびその各変形例により説明した本発明によれば、物体の検出における回転依存量と回転不変量の有用度の比率が計測データから決定され、当該有用度比率は当該計測データに含まれている物体に応じて変えることができる。そして、計測データから、当該有用度比率に従って回転依存量及び回転不変量の少なくとも一方を含んだ検出用特徴量を抽出し、これを用いて物体を検出することで、回転が生じ易い物体も生じ難い物体も精度良く検出できる。すなわち、画像から様々な向きで写り得る物体のカテゴリ・属性などを認識する物体認識技術に関して、より高い精度の認識が可能となる。
30 画像取得手段、40 回転依存量生成器記憶手段、41 有用度比率算出器記憶手段、42 存在度算出器記憶手段、50 候補領域設定手段、51 有用度比率決定手段、52 特徴量抽出手段、53 存在度算出手段、54 物体検出手段、55 検出結果出力手段、520 回転依存量生成手段、521 特徴量不変化手段、522 特徴量統合手段。

Claims (8)

  1. 処理対象の計測データから所定の物体を検出する物体検出装置であって、
    前記計測データに基づいて、当該計測データから抽出される、前記物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定手段と、
    前記計測データから、前記有用度比率決定手段が定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出手段と、
    前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出手段と、
    前記存在度に基づいて前記物体を検出する物体検出手段と、
    を備え、
    前記有用度比率決定手段は、学習用の前記計測データとそれに対する前記存在度の正解とを用いた教師あり学習であって、当該有用度比率決定手段が与える前記有用度比率に応じて前記特徴量抽出手段が前記学習用の計測データから抽出する検出用特徴量に対し、前記存在度算出手段が算出する前記存在度と前記正解との間の誤差を最小化する学習が予め行われた関数であること、
    特徴とする物体検出装置。
  2. 前記特徴量抽出手段は、前記計測データから前記回転依存量及び前記回転不変量を抽出し、当該回転依存量と当該回転不変量とを前記有用度比率に応じて重み付け加算することにより前記検出用特徴量を抽出すること、を特徴とする請求項1に記載の物体検出装置。
  3. 前記特徴量抽出手段は、前記計測データから、前記回転依存量及び前記回転不変量のうちの前記有用度比率が高い一方を前記検出用特徴量として抽出すること、を特徴とする請求項1に記載の物体検出装置。
  4. 前記有用度比率決定手段は、前記計測データを取得した空間内の複数の局所領域それぞれについて前記有用度比率を定め、
    前記特徴量抽出手段は、前記複数の局所領域ごとに前記検出用特徴量を抽出し、
    前記存在度算出手段は、前記複数の局所領域それぞれについて、前記検出用特徴量から前記物体の部位について部位存在度を算出し、当該部位存在度を統合して前記存在度を求めること、
    を特徴とする請求項1から請求項3のいずれか1つに記載の物体検出装置。
  5. 処理対象の計測データから所定の物体を検出する処理をコンピュータに行わせるためのプログラムであって、当該コンピュータを、
    前記計測データに基づいて、当該計測データから抽出される、前記物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定手段、
    前記計測データから、前記有用度比率決定手段が定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出手段、
    前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出手段、及び、
    前記存在度に基づいて前記物体を検出する物体検出手段、
    として機能させ
    前記有用度比率決定手段は、学習用の前記計測データとそれに対する前記存在度の正解とを用いた教師あり学習であって、当該有用度比率決定手段が与える前記有用度比率に応じて前記特徴量抽出手段が前記学習用の計測データから抽出する検出用特徴量に対し、前記存在度算出手段が算出する前記存在度と前記正解との間の誤差を最小化する学習が予め行われた関数であること、
    を特徴とする物体検出プログラム。
  6. 処理対象の計測データから所定の物体を検出する物体検出方法であって、
    前記計測データに基づいて、当該計測データから抽出される、前記物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定ステップと、
    前記計測データから、前記有用度比率決定ステップにて定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出ステップと、
    前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出ステップと、
    前記存在度に基づいて前記物体を検出する物体検出ステップと、
    を備え
    前記有用度比率決定ステップは、学習用の前記計測データとそれに対する前記存在度の正解とを用いた教師あり学習であって、当該有用度比率決定ステップが与える前記有用度比率に応じて前記特徴量抽出ステップが前記学習用の計測データから抽出する検出用特徴量に対し、前記存在度算出ステップが算出する前記存在度と前記正解との間の誤差を最小化する学習が予め行われた関数を用いて前記有用度の比率を定めること、
    特徴とする物体検出方法。
  7. 請求項1から請求項のいずれか1つに記載の物体検出装置に関する学習に用いる学習装置であって、
    学習用の前記計測データ、及び当該学習用の計測データに関する前記存在度の教師データを取得する手段と、
    前記学習用の計測データを前記物体検出装置に入力する入力手段と、
    前記学習用の計測データに対して前記存在度算出手段が算出した前記存在度と、前記教師データとを比較する比較手段と、
    前記比較の結果に基づいて、前記有用度比率決定手段にて前記有用度比率を定める算出器のパラメータを変更するパラメータ変更手段と、
    を備えることを特徴とする学習装置。
  8. 処理対象の計測データに基づいて、当該計測データから抽出される、所定の物体の回転角度に対する依存性が高い回転依存量と前記依存性が低い回転不変量との有用度の比率を定める有用度比率決定手段と、
    前記計測データから、前記有用度比率決定手段が定めた有用度比率に従って前記回転依存量及び前記回転不変量の少なくとも一方を含んだ検出用特徴量を抽出する特徴量抽出手段と、
    前記検出用特徴量を入力されて前記計測データに前記物体が現れている度合いを表す存在度を算出する存在度算出手段と、
    前記存在度に基づいて前記物体を検出する物体検出手段とを備える物体検出装置に関する学習に用いる学習装置であって、
    学習用の前記計測データ、及び当該学習用の計測データに関する前記存在度の教師データを取得する手段と、
    前記学習用の計測データを前記物体検出装置に入力する入力手段と、
    前記学習用の計測データに対して前記存在度算出手段が算出した前記存在度と、前記教師データとを比較する比較手段と、
    前記比較の結果に基づいて、前記有用度比率決定手段にて前記有用度比率を定める算出器のパラメータを変更するパラメータ変更手段と、
    を備えることを特徴とする学習装置。
JP2018126596A 2018-07-03 2018-07-03 物体検出装置、物体検出プログラム、物体検出方法、及び学習装置 Active JP7128578B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018126596A JP7128578B2 (ja) 2018-07-03 2018-07-03 物体検出装置、物体検出プログラム、物体検出方法、及び学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018126596A JP7128578B2 (ja) 2018-07-03 2018-07-03 物体検出装置、物体検出プログラム、物体検出方法、及び学習装置

Publications (3)

Publication Number Publication Date
JP2020008916A JP2020008916A (ja) 2020-01-16
JP2020008916A5 JP2020008916A5 (ja) 2021-07-26
JP7128578B2 true JP7128578B2 (ja) 2022-08-31

Family

ID=69151767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018126596A Active JP7128578B2 (ja) 2018-07-03 2018-07-03 物体検出装置、物体検出プログラム、物体検出方法、及び学習装置

Country Status (1)

Country Link
JP (1) JP7128578B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022180870A1 (ja) * 2021-02-26 2022-09-01 日本電気株式会社 学習装置、学習方法および記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133445A (ja) 2010-12-20 2012-07-12 Panasonic Corp 目的物検出装置および目的物検出方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133445A (ja) 2010-12-20 2012-07-12 Panasonic Corp 目的物検出装置および目的物検出方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
須賀 晃,外2名,複数特徴量の重み付け統合による一般物体認識,[online],2009年07月,pp.589-594,http://www.me.cs.scitec.kobe-u.ac.jp/publications/papers/2009/IS1-29.pdf

Also Published As

Publication number Publication date
JP2020008916A (ja) 2020-01-16

Similar Documents

Publication Publication Date Title
CN110363182B (zh) 基于深度学习的车道线检测方法
CN106874894B (zh) 一种基于区域全卷积神经网络的人体目标检测方法
US10346720B2 (en) Rotation variant object detection in Deep Learning
JP7094702B2 (ja) 画像処理装置及びその方法、プログラム
US10216979B2 (en) Image processing apparatus, image processing method, and storage medium to detect parts of an object
US7912253B2 (en) Object recognition method and apparatus therefor
JP7272024B2 (ja) 物体追跡装置、監視システムおよび物体追跡方法
JP6397379B2 (ja) 変化領域検出装置、方法、及びプログラム
JP6112801B2 (ja) 画像認識装置及び画像認識方法
CN112364873A (zh) 弯曲文本图像的文字识别方法、装置及计算机设备
WO2012046426A1 (ja) 物体検出装置、物体検出方法および物体検出プログラム
CN108550165A (zh) 一种基于局部不变特征的图像匹配方法
CN110516731B (zh) 一种基于深度学习的视觉里程计特征点检测方法及系统
CN111160169A (zh) 人脸检测方法、装置、设备及计算机可读存储介质
CN115019201B (zh) 一种基于特征精细化深度网络的弱小目标检测方法
JP2015103188A (ja) 画像解析装置、画像解析方法及び画像解析プログラム
WO2022219402A1 (en) Semantically accurate super-resolution generative adversarial networks
JP7128578B2 (ja) 物体検出装置、物体検出プログラム、物体検出方法、及び学習装置
Bisht et al. Integration of hough transform and inter-frame clustering for road lane detection and tracking
CN110910497B (zh) 实现增强现实地图的方法和系统
CN108959355B (zh) 一种船只分类方法、装置及电子设备
CN115937991A (zh) 人体摔倒识别方法、装置、计算机设备及存储介质
JP6920949B2 (ja) 物体分布推定装置
JP7112893B2 (ja) 対象領域検出装置、対象領域検出方法、対象領域検出プログラム及び学習プログラム
WO2022019747A1 (en) System and method for identification of text region in video

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210611

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220817

R150 Certificate of patent or registration of utility model

Ref document number: 7128578

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150