JP6972756B2

JP6972756B2 - 制御プログラム、制御方法、及び情報処理装置

Info

Publication number: JP6972756B2
Application number: JP2017155262A
Authority: JP
Inventors: 卓也深貝
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-08-10
Filing date: 2017-08-10
Publication date: 2021-11-24
Anticipated expiration: 2037-08-10
Also published as: US10803364B2; JP2019036008A; US20190050694A1

Description

本発明は、制御プログラム、制御方法、及び情報処理装置に関する。

情報処理、例えば、画像処理において、ニューラルネットワークが用いられることがある。一例として、ニューラルネットワークは、画像或いは画像系列のどの位置にどの物体が存在するかの推定に用いられることがある。

ニューラルネットワークを用いた物体の位置・種類の推定の手法として、ＦａｓｔｅｒＲ−ＣＮＮが知られている。Ｒ−ＣＮＮはRegions with Convolutional Neural Networkの略称である。

ＦａｓｔｅｒＲ−ＣＮＮでは、コンピュータは、静止画の特徴量に基づき、物体の候補位置を推測し、静止画の特徴量と推測した候補位置とに基づいて、物体の位置をスコア付きで決定する。

なお、関連する技術では、コンピュータが、各静止画で特定した物体の検出位置により物体の動きを追尾することも知られている。

米国特許公開第２０１６／０１０４０５８号公報特開２００８−１１２２１０号公報

"Rich feature hierarchies for accurate object detection and semantic segmentation"、Ross Girshick, Jeff Donahue, Trevor Darrell, Jetendra Malik、IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、2014 "Fast R-CNN"、Ross Girshick、IEEE International Conference on Computer Vision (ICCV)、2015 "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks"、Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun、Neural Information Processing Systems (NIPS)、2015 "Deep Learning-based Multiple Pedestrians Detection-Tracking Framework"、Xuan-Phung Huynh, Yong-Guk Kim、Proceedings of HCI Korea 2016、2016 Ingemar J. Cox and Sunita L. Hingorani, "An efficient implementation and evaluation of reid’s multiple hypothesis tracking algorithm for visual tracking," in ICPR, pp. A:437-442, 1994 Ingemar J. Cox and Sunita L. Hingorani. An Efficient Implementation of Reid’s Multiple Hypothesis Tracking Algorithm and Its Evaluation for the Purpose of Visual Tracking. IEEE Transactions On Pattern Analysis And Machine Intelligence, Vol 18, No. 2, pp.138-150, 1996

しかし、各静止画で特定した物体の検出位置により物体の動きを追尾する手法において、注目物体の候補位置を正しく推定できない場合があり、物体の検出が正しく行なわれないことがある。注目物体の候補位置を正しく推定できない場合としては、一例として、或る静止画において注目物体が他の物体に隠れてしまっている場合等が挙げられる。また、他の例として、推測された物体の候補位置と、スコアの算出基準となる基準領域との位置関係により当該推測された物体のスコアが低く見積もられる場合等が挙げられる。

１つの側面では、本発明は、ニューラルネットワークを用いた物体の位置の検出処理において、物体の位置の検出精度を向上させることを目的とする。

１つの側面では、制御プログラムは、コンピュータに以下の処理を実行させる。前記処理は、画像系列内の第１画像よりも時間的に過去の複数の画像から物体の移動に関する移動情報を取得してよい。また、前記処理は、前記第１画像において物体の存在が推定される候補領域及び当該候補領域における物体の存在の可能性を示す指標の組を、前記第１画像の画像特徴量に従い推定してよい。さらに、前記処理は、推定した前記候補領域及び前記指標の組を用いて前記第１画像における前記物体の位置を決定してよい。また、前記候補領域及び前記指標の組の推定は、取得した前記移動情報に基づき、前記推定の過程で取得される情報に対する補正処理を施すこと、を含んでよい。

１つの側面では、ニューラルネットワークを用いた物体の位置の検出処理において、物体の位置の検出精度を向上させることができる。

一実施形態に係る検出装置の構成例を示すブロック図である。特徴マップ計算部への入力データ及び出力データの一例を示す図である。提案領域計算部への入力データ及び出力データの一例を示す図である。１組のアンカー群の一例を示す図である。画像に配置された複数のアンカー群の一例を示す図である。物体位置・種類推定部への入力データ及び出力データの一例を示す図である。推定結果選択部への入力データ及び出力データの一例を示す図である。認識結果分析部による予測領域の推定処理の一例を示す図である。認識結果分析部による第１の例における予測領域の推定処理を説明する図である。図９に示す予測領域の推定処理の一例を示す図である。認識結果分析部による第２の例における予測領域の推定処理を説明する図である。図１１に示す予測領域の推定処理の一例を示す図である。ＦａｓｔｅｒＲ−ＣＮＮに移動情報を追加する前後の認識結果の一例を示す図である。検出装置の第１の例による動作フローの一例を示す図である。図１４に示す認識結果分析処理の動作フローの一例を示す図である。検出装置の第２の例による動作フローの一例を示す図である。図１６に示す認識結果分析処理の動作フローの一例を示す図である。予測領域の推定処理の第１の手法の一例を示す図である。予測領域の推定処理の第２の手法の一例を示す図である。予測領域の推定処理の第３の手法の一例を示す図である。予測領域の推定処理の第３の手法の一例を示す図である。予測領域の推定処理の第３の手法の一例を示す図である。ゲート領域の断面の一例を示す図である。予測領域の推定処理の第４の手法の一例を示す図である。四次元ユークリッド空間の観測点の対応付けの一例を説明する図である。各フレームで複数観測される観測点を追尾物体に割り当てる手法の一例を説明する図である。未観測事象への仮説の割り当て、及び、カルマンフィルタの予測・更新処理の一例を説明する図である。未観測事象への仮説の割り当て、及び、カルマンフィルタの予測・更新処理の一例を説明する図である。複数フレームに亘る仮説の生成及び枝刈の一例を説明する図である。コンピュータのハードウェア構成例を示すブロック図である。

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

〔１〕一実施形態
〔１−１〕構成例
一実施形態に係る検出装置１（図１参照）は、ニューラルネットワーク（以下、「ＮＮ」と表記する場合がある）を用いて、例えば、画像或いは画像系列のどの位置にどの物体が存在するかを推定する。検出装置１は、例示的に、１台以上のコンピュータをそなえるコンピュータシステムにより実現されてよい。なお、コンピュータとしては、サーバ、ＰＣ（Personal Computer）等の種々の情報処理装置が挙げられる。

図１に示すように、一実施形態に係る検出装置１は、例示的に、メモリ部１１及び１８、画像前処理部１２、特徴マップ計算部１３、提案領域計算部１４、物体位置・種類推定部１５、推定結果選択部１６、及び認識結果分析部１７をそなえてよい。

ここで、一実施形態に係る検出装置１は、後述する手法により、画像系列、例えば、動画像等の時系列に並んだ複数の画像（「フレーム」と称されてもよい）に対して、画像系列の画像内を移動する移動物体の認識・追跡を可能とする。以下の説明において、画像前処理部１２、特徴マップ計算部１３、提案領域計算部１４、物体位置・種類推定部１５、推定結果選択部１６、及び認識結果分析部１７は、画像系列の１フレームごとに処理を行なうものとする。

メモリ部１１及び１８は、種々のデータを記憶する。例えば、メモリ部１１は検出装置１への入力データの一例である画像データ１１１（例えば画像系列のデータ）を記憶してよく、メモリ部１８は検出装置１からの出力データの一例である認識結果１８１を記憶してよい。メモリ部１１及び１８は、検出装置１として動作するコンピュータがそなえるメモリ又は記憶装置等のハードウェアの少なくとも一部の記憶領域により実現されてよい。なお、メモリ部１１及び１８は、１つのメモリ部として統合して管理されてもよい。

画像前処理部１２は、メモリ部１１の画像データ１１１から１画像（フレーム）ずつ入力画像を取得し、入力画像に対して前処理を行なう。前処理には、入力画像を後段の処理に適した画像に変更するためのサイズ変更、ピクセル値変更、輝度補正等が含まれてよい。

サイズ変更では、後述する特徴マップ計算部１３への入力画像サイズとして、例えば、画像の短辺の長さを６００ピクセル（ｐｉｘｅｌ）とし、長辺の長さを１０００ピクセル以下とするリサイズ処理が行なわれてよい。ピクセル値変更では、例えば、各ピクセルの値を３２ビット（ｂｉｔ）浮動小数点とする変更処理が行なわれてよい。輝度補正では、例えば、入力画像のＲＧＢ（ＲｅｄＧｒｅｅｎＢｌｕｅ）値の平均輝度から所定の値（例示的に、１２２．７７，１１５．９５，１０２．９８）を減算する処理が行なわれてよい。

なお、画像前処理部１２による処理は、上述した処理に限定されるものではなく、特徴マップ計算部１３におけるＣＮＮ層等の仕様に応じて、種々変形して実行されてよい。画像前処理部１２により前処理が行なわれた入力画像は、特徴マップ計算部１３に入力される。

特徴マップ計算部１３は、入力画像をＣＮＮ層１３０（図２参照）に入力し、入力画像の特徴を表す画像特徴量の一例である特徴マップ（ｆｅａｔｕｒｅｍａｐｓ）を出力する。

ＣＮＮ層１３０は、複数の処理層を有するＮＮの一例である。ＣＮＮ層１３０としては、非限定的な一例として、ＶＧＧ（Visual Geometry Group）１６等が挙げられる。

ＣＮＮ層１３０は、図２に例示するように、入力画像（「入力データ」と表記する場合がある）に基づき、ＮＮの学習によって当該入力画像を解析し、当該入力画像のｆｅａｔｕｒｅｍａｐｓを抽出・出力する。ＣＮＮ層１３０から出力されたｆｅａｔｕｒｅｍａｐｓは、提案領域計算部１４及び物体位置・種類推定部１５にそれぞれ入力される。なお、ｆｅａｔｕｒｅｍａｐｓとともに、入力画像が特徴マップ計算部１３から提案領域計算部１４及び物体位置・種類推定部１５の一方又は双方に入力されてもよい。

図２の例では、ＣＮＮ層１３０への入力データとして、画像前処理部１２での前処理が行なわれた高さ６００ピクセル、幅８００ピクセルのＲＧＢ（３チャネル）の画像データが入力されるものとする。

ＣＮＮ層１３０は、例えば、上述した入力データに対して、高さ３８ピクセル、幅５０ピクセル、５１２チャネルのｆｅａｔｕｒｅｍａｐｓを出力する。ｆｅａｔｕｒｅｍａｐｓには、１チャネルあたり１つの特徴を表す情報が含まれてよい。

なお、図２に例示するＣＮＮ層１３０は、ＶＧＧ１６のｒｅｌｕ５＿３層を想定している。この場合、ＣＮＮ層１３０には、ｆｅａｔｕｒｅｍａｐｓの一辺のサイズを１／２にするｐｏｏｌｉｎｇｌａｙｅｒが４つ存在するため、ｆｅａｔｕｒｅｍａｐｓの高さ及び幅は、入力画像の高さ及び幅の１／１６になっている。

なお、ＣＮＮ層１３０は、既知の種々の手法により実現可能であるため、ＣＮＮ層１３０内部の処理や学習手法等の詳細については説明を省略する。

以上のように、特徴マップ計算部１３は、画像系列から順次入力される入力画像に基づき、入力画像の特徴量を取得する。

提案領域計算部１４は、ＣＮＮ層１３０から得られるｆｅａｔｕｒｅｍａｐｓをＲＰＮ（Region Proposal Network）層１４０（図３参照）に入力し、物体が存在する候補位置の一例である提案領域（ＰｒｏｐｏｓｅｄＲｅｇｉｏｎｓ）を出力する。

ＲＰＮ層１４０は、複数の処理層を有するＮＮの一例である。ＲＰＮ層１４０は、図３に例示するように、ｆｅａｔｕｒｅｍａｐｓに基づき、当該ｆｅａｔｕｒｅｍａｐｓを解析し、当該ｆｅａｔｕｒｅｍａｐｓのｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓを計算・出力する。ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓは、物体の存在しそうな候補領域の一例である。ＲＰＮ層１４０から出力されたｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓは、物体位置・種類推定部１５に入力される。なお、ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓとともに、入力画像が提案領域計算部１４から物体位置・種類推定部１５に入力されてもよい。

図３の例では、ＲＰＮ層１４０への入力データとして、特徴マップ計算部１３で抽出された高さ３８ピクセル、幅５０ピクセル、５１２チャネルのｆｅａｔｕｒｅｍａｐｓが入力されるものとする。

ＲＰＮ層１４０は、例えば、上述した入力データに対して、ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓ付きの入力画像を出力してよい。なお、ＲＰＮ層１４０から出力されるデータは、入力画像を含まないｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓの情報に限定されてもよい。

また、図３の例では、ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓとして矩形の領域が用いられているが、これに限定されるものではなく、楕円等の種々の形状が用いられてもよい。

ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓには、物体が領域に存在する確度を示す「スコア」が含まれてよい。図３に示す例では、スコアは“１．０００”を最大値として、小数点以下３桁の数値（値が大きいほど確度が高い数値）で表されている。ＲＰＮ層１４０から出力されるｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓの数は、スコアが所定の数値（例えば“０．８００”以上の数値）を持つｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓに制限されてもよい。なお、図３では、図の見易さのために全てのｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓのうちの一部のｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓのみにスコアを付している。また、ＲＰＮ層１４０から出力されるｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓの数は、所定数（例えば１５０個等）に制限されてもよい。

図１に示すように、提案領域計算部１４は、例示的に、候補領域・スコア計算部１４１及び候補領域選択部１４２をそなえてよい。

候補領域・スコア計算部１４１は、上述したスコアを含むｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓの算出を行なう。

候補領域選択部１４２は、候補領域・スコア計算部１４１が算出したｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓの数を、例えば所定数に絞り込む。一例として、候補領域選択部１４２は、スコアの高い順に重なりの少ない領域を選択していくＮＭＳ（Non-Maximum Suppression）処理を実行してよい。

ここで、提案領域計算部１４（候補領域・スコア計算部１４１及び候補領域選択部１４２）は、「アンカー」（anchor）と呼ばれる入力画像に固定的に配置された基準領域を用いて、ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓを推定する。例えば、提案領域計算部１４は、ｆｅａｔｕｒｅｍａｐｓに基づいて、各アンカーの領域又は複数のアンカーの組み合わせにより形成される領域における物体の有無、物体が存在する領域のサイズ、並びに、上述したスコアを推定してよい。

図４に示すように、１組のアンカー群１４３は、例示的に、中心位置（基準中心位置）を共通とするＫ＝９個のアンカーにより形成されてよい。一実施形態では、図５に例示するように、当該１組のアンカー群１４３が或る間隔（デフォルト値として例えば１６ピクセル）で画像１４４全体に配置される。例えば、高さ：６００×幅：８００［ピクセル］の画像１４４の場合、画像１４４には、Ｈ（高さ方向の分割数；例えば３８）×Ｗ（幅方向の分割数；例えば５０）で示される各位置を基準中心位置とするアンカーが、それぞれの位置に９個ずつ配置される。このように、提案領域計算部１４はＨ×Ｗ×Ｋ個のアンカーを用いてよい。なお、図５の例では、図の簡略化のため、Ｈ：２、Ｗ：３、Ｋ：９としたアンカーの例を示している。

なお、図４及び図５の例では、アンカーとして矩形の領域が用いられているが、これに限定されるものではなく、楕円等の種々の形状が用いられてもよい。

ＲＰＮ層１４０、ＮＭＳ処理、及びアンカーを用いたｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓの推定手法は、既知の種々の手法により実現可能であるため、これらの詳細については説明を省略する。

物体位置・種類推定部１５は、ＣＮＮ層１３０から得られるｆｅａｔｕｒｅｍａｐｓと、ＲＰＮ層１４０から得られるｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓとをＦａｓｔＲ−ＣＮＮ層１５０（図６参照）に入力する。そして、物体位置・種類推定部１５は、入力された情報に基づいて、ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓをより高精度に分析するとともに、物体の種類を推定する。

ＦａｓｔＲ−ＣＮＮ層１５０は、複数の処理層を有するＮＮの一例である。ＦａｓｔＲ−ＣＮＮ層１５０は、図６に例示するように、ｆｅａｔｕｒｅｍａｐｓ及びｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓに基づき、画像領域のどこの矩形領域にどの種類の物体が存在するかをスコア付きで示した推定結果を出力する。なお、物体の種類は、ＮＮに学習させることで決定されてよい。ＦａｓｔＲ−ＣＮＮ層１５０から出力された推定結果は、推定結果選択部１６に入力される。なお、推定結果とともに、ＲＰＮ層１４０からのｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓが物体位置・種類推定部１５から推定結果選択部１６に入力されてもよい。

図６の例では、ＦａｓｔＲ−ＣＮＮ層１５０への入力データとして、特徴マップ計算部１３で抽出された高さ３８ピクセル、幅５０ピクセル、５１２チャネルのｆｅａｔｕｒｅｍａｐｓが入力されるものとする。また、ＦａｓｔＲ−ＣＮＮ層１５０への入力データとして、提案領域計算部１４で計算された、スコアを含むｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓ付きの入力画像が入力されるものとする。

ＦａｓｔＲ−ＣＮＮ層１５０は、例えば、上述した入力データに対して、推定結果付きの入力画像を出力してよい。なお、ＦａｓｔＲ−ＣＮＮ層１５０から出力されるデータは、入力画像を含まない推定結果の情報に限定されてもよい。

図６の例では、推定結果付き入力画像は、スコアとアンカーに対する位置関係とに応じて、ＲＰＮ層１４０からのｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓよりも絞り込まれたｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓが示されている。また、推定結果付き入力画像は、ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓに対して、推定された物体の種類（例えば、“Person”、“Horse”、“Dog”等）がスコアとともに示されている。

なお、ＦａｓｔＲ−ＣＮＮ層１５０は、既知の種々の手法により実現可能であるため、その詳細については説明を省略する。

以上のように、特徴マップ計算部１３、提案領域計算部１４、及び、物体位置・種類推定部１５は、画像系列内の第１画像について、第１画像において物体の存在が推定される候補領域及び当該候補領域における物体の存在の可能性を示す指標の組を、第１画像の画像特徴量に従い推定する推定部の一例である。この場合、提案領域計算部１４の候補領域・スコア計算部１４１は、候補領域及び指標の組を複数推定する第１の処理を行ない、候補領域選択部１４２は、複数の組の各々の指標に基づき複数の組を所定数の組に絞り込む第２の処理を行なう。また、物体位置・種類推定部１５は、所定数の組の候補領域及び指標と、画像特徴量とに基づき、候補領域に存在すると推定される物体の種類を推定する第３の処理を行なう。

推定結果選択部１６は、図７に例示するように、物体位置・種類推定部１５から入力された推定結果付き入力画像に基づき、推定結果から物体の種類ごとの位置を絞り込み、絞り込みの結果として、物体の位置・種類の認識結果付き入力画像を出力する。なお、推定結果選択部１６は、絞り込みの処理において、ＲＰＮ層１４０から出力されるｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓの情報を用いてもよい。推定結果選択部１６から出力された認識結果付き入力画像は、認識結果分析部１７に入力される。

なお、推定結果選択部１６は、例えば、上述した推定結果或いは推定結果付き入力画像に基づき、入力画像を含まない認識結果の情報を出力してもよい。

推定結果選択部１６は、提案領域計算部１４と同様に、スコアの高い順に重なりの少ない領域を選択していくＮＭＳ処理等を実行してよい。

なお、推定結果選択部１６による推定結果の絞り込みの処理は、既知の種々の手法により実現可能であるため、これらの詳細については説明を省略する。

以上のように、推定結果選択部１６は、推定した前記候補領域及び前記指標の組を用いて第１画像における物体の位置を決定する決定部の一例である。

上述した特徴マップ計算部１３、提案領域計算部１４、物体位置・種類推定部１５、及び推定結果選択部１６は、ＦａｓｔｅｒＲ−ＣＮＮとして機能する。ＦａｓｔｅｒＲ−ＣＮＮによれば、入力画像のどの矩形領域に、ＮＮに学習させた種類のうちのどの種類の物体が存在するかを、トレーニングデータを用いて学習させたＮＮの重みを用いて高速に認識（検出）することができる。

認識結果分析部１７は、推定結果選択部１６から入力される認識結果（或いは認識結果付き入力画像）を分析し、分析結果に基づいて、次のフレーム以降のＦａｓｔｅｒＲ−ＣＮＮにおける物体の位置・種類の推定精度を向上させる。換言すれば、認識結果分析部１７は、過去のフレームの認識結果（或いは認識結果付き入力画像）を分析し、分析結果に基づいて、現在の入力画像についてのＦａｓｔｅｒＲ−ＣＮＮにおける物体の位置・種類の推定精度を向上させる。このため、推定結果選択部１６は、過去数フレームに亘る推定結果、或いは、推定結果の分析結果を記憶し蓄積する記憶部を有してよい。当該記憶部は、検出装置１が有するメモリ又は記憶装置の記憶領域の少なくとも一部により実現されてよい。なお、認識結果分析部１７は、推定結果選択部１６からの認識結果を、認識結果１８１としてメモリ部１８に格納し蓄積してよい。

一例として、認識結果分析部１７は、過去のフレームの認識結果に基づいて、現在のフレームにおける物体の移動位置を示す移動情報を算出し、算出した移動情報をＦａｓｔｅｒＲ−ＣＮＮに与えてよい。移動情報は、現在のフレームにおける、過去のフレームの認識結果から予測された物体の位置に関する情報である。

移動情報の第１の例としては、現在のフレームにおける、予測された物体の位置を表す予測領域が挙げられる。予測領域は、追加のｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓ（ａｄｄｉｔｉｏｎａｌｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓ）と位置付けられてよく、ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓと同様のデータ構造であってよい。なお、予測領域には、当該予測領域のスコアが含まれてもよい。

第１の例の場合、移動情報は、例えば、図１の符号（ａ）で示すように、提案領域計算部１４から物体位置・種類推定部１５までの区間に与えられてよい。一例として、移動情報は、提案領域計算部１４から出力されるｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓとともに、物体位置・種類推定部１５への入力データとして物体位置・種類推定部１５に入力されてよい。

また、移動情報の第２の例としては、提案領域計算部１４から出力されるｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓのうちの、予測領域に近い（例えば重なりが大きい）ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓのスコアを高くする補正情報が挙げられる。補正情報としては、例えば、ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓの補正後のスコアそのものであってもよいし、当該スコアを、他のｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓのスコアよりも高くするような重み付けのための係数等であってもよい。

第２の例の場合、移動情報は、例えば、図１の符号（ｂ）で示すように、提案領域計算部１４に与えられてよい。一例として、移動情報は、提案領域計算部１４の候補領域選択部１４２に入力されてよい。例えば、移動情報は、候補領域選択部１４２においてスコアの高い順に重なりの少ない領域を選択していくＮＭＳ処理への入力とされてよい。

なお、第２の例における移動情報には、例えば、上述した補正情報に代えて、第１の例における予測領域と、当該予測領域のスコアを高くする補正情報とが含まれてもよい。

以上のように、認識結果分析部１７は、画像系列から物体の移動に関する移動情報を取得する取得部の一例である。例えば、認識結果分析部１７は、画像系列内の第１画像よりも時間的に過去の複数の画像の各々について当該画像ごとに決定した物体の位置に基づき同一物体と認識される物体の位置の時間的な変化に基づいて、移動情報を取得するといえる。そして、推定部の一例としての提案領域計算部１４及び物体位置・種類推定部１５は、取得した移動情報に基づき、推定の過程で取得される情報に対する補正処理を施すのである。

このように、認識結果分析部１７によれば、動画内を移動する物体の予測領域（例えば矩形領域）を過去の画像系列データから推定し、ＦａｓｔｅｒＲ−ＣＮＮ内部の処理に用いることができる。これにより、ニューラルネットワークを用いた物体の位置の検出処理において、物体の位置の検出精度を向上させることができる。

ここで、上述のように、ＦａｓｔｅｒＲ−ＣＮＮの計算は、静止画を対象としている。換言すれば、ＦａｓｔｅｒＲ−ＣＮＮは本来静止画を対象とした物体検出（Object Detection）のためのＮＮとして提案された手法である。

このため、例えば、上述した関連する技術（各静止画で特定した物体の検出位置により物体の動きを追尾する手法）において、移動する人物を追尾対象とした場合、ＦａｓｔｅｒＲ−ＣＮＮは追尾処理とは独立した処理として実行される。すなわち、ＦａｓｔｅｒＲ−ＣＮＮを用いた物体検出（Object Detection）においては、ＦａｓｔｅｒＲ−ＣＮＮの処理の内部で、追尾処理によって得られる計算結果は用いられていない。

具体的に、上述した関連する技術では、ＦａｓｔｅｒＲ−ＣＮＮにより、「歩行者」と「歩行者の位置（例えば矩形領域）」とを繰り返し推定する処理と、得られた推定結果をベースにトラッキングを行なう処理とが行なわれる。しかし、ＦａｓｔｅｒＲ−ＣＮＮ内部の処理は変更されていない。

これに対し、認識結果分析部１７は、ＦａｓｔｅｒＲ−ＣＮＮ内部の処理に、物体の運動から推定可能な予測領域の情報を活用させること、換言すれば、トラッキングの結果を利用させることで、物体検出及び追尾の精度を高めることができる。

このように、静止画の情報と移動物体追尾による予測領域の情報とは質的に異なる情報であり、この質的に異なる情報をＦａｓｔｅｒＲ−ＣＮＮの内部の処理に用いることで、動画を対象とした物体検出の精度を高めることができる。

また、ＮＮにおいて、物体検出のための学習データのラベル付けには多くの手間が必要になる。これに対し、認識結果分析部１７からの移動情報により、ＦａｓｔｅｒＲ−ＣＮＮでは、フレーム間で移動する物体が同一の物体であることを認識できる。従って、例えば、学習データのラベルとして、フレーム間で連続性を有する物体に対して同一のラベル（例えば物体の種類等）を付加することができる。

さらに、例えば、或るフレームにおいて、物体が障害物（例えば木）の後ろ等に入り、一部が隠れた場合であっても、認識結果分析部１７は、過去の認識結果から推定される物体の位置や種類の情報を用いることで予測領域を推定できる。これにより、静止画ではｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓとして提案されてこなかった領域が、移動情報を用いた予測領域として提案されるため、移動物体を認識できる。

また、遠くの方に遠ざかり、粗い画素の情報でしか表現されなくなった物体にも、予測領域の情報を用いることで、ＦａｓｔｅｒＲ−ＣＮＮの認識精度を高めることができる。

さらに、上述した検出装置１では、学習済みのＦａｓｔｅｒＲ−ＣＮＮのネットワークを用い、候補領域・スコア計算部１４１により、物体候補領域（ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓ）がスコア付きで計算される。その後、候補領域選択部１４２により、近いスコアの領域が重なった領域からＮＭＳ処理を用い、スコア順に領域を選択しながら、選択済みの領域と重なりの大きな領域を選択対象から外していく処理が実行される。

このとき、ほとんどスコアの変わらない複数の領域が重なっていることがある。このとき、非常にスコアが近く、領域が重なったｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓのうちの、例えばスコア０．９９５の領域と０．９９の領域とは、アンカーの配置等により偶然これらのスコアになっただけという場合がある。例えば、実際にはこれらのスコアが逆である場合のほうが正解に近い場合も起こり得る。

また、領域に割り当てられたスコア情報以外に、アンカーの配置（アンカー中心位置の配置や予め用意した９つのアンカー）により、偶然、検出したい物体の候補領域が候補に上がってこないようなことも起こり得る。

以上のような場合であっても、認識結果分析部１７によれば、静止画レベルでＦａｓｔｅｒＲ−ＣＮＮの処理を各フレームで独立して実行するだけでなく、移動物体の過去の存在領域の情報から推定される最新フレームにおける予測領域の情報を併用できる。従って、物体検出及び追尾の精度を高めることができる。

〔１−２〕認識結果分析部の説明
以下、認識結果分析部１７の詳細について説明する。

上述のように、認識結果分析部１７は、動画内を移動する物体の予測領域を、過去の画像系列データから推定し、ＦａｓｔｅｒＲ−ＣＮＮ内部の処理に用いることで、ＦａｓｔｅｒＲ−ＣＮＮによる物体の種類や位置の推定精度を向上させる。

図１に示すように、認識結果分析部１７は、例示的に、推定部１７１及び出力部１７２をそなえてよい。

推定部１７１は、過去のフレームにおけるＦａｓｔｅｒＲ−ＣＮＮでの認識結果に基づき、最新のフレームにおける物体の予測領域（「予測存在領域」と称されてもよい）を推定する。なお、推定部１７１は、後述するように、予測存在領域の推定とともにスコア又はスコアの係数を取得してもよい。

予測存在領域は、例えば、物体の予測存在位置（ｘ，ｙ）及び存在領域（ｗ，ｈ）を結合した（ｘ，ｙ，ｗ，ｈ）によって表されてよい。なお、ｘは画像内の縦方向（第１方向）における矩形領域の代表点（例えば中心点）の位置、ｙは画像内の横方向（第１方向に直交する第２方向）における矩形領域の代表点の位置を示す。また、ｗは矩形領域の縦方向（第１方向）の幅（長さ）、ｈは矩形領域の横方向（第２方向）の高さ（長さ）を示す。

推定部１７１は、図８に例示するように、大きさが変化するような移動物体の検出及びトラッキングにおいて、過去の画像系列データから、ＫａｌｍａｎＦｉｌｔｅｒ等の追尾フィルタを用いて、物体の予測存在領域を推定してよい。物体の予測存在領域は、フレーム毎かつ対象物体毎のベクトルＳを算出することで推定されてよい。

なお、推定部１７１は、矩形領域以外の領域パラメータを推定することも可能である。換言すれば、推定部１７１は、検出装置１において矩形領域以外（例えば楕円形状）のアンカーが用いられる場合、アンカーの形状に応じた予測存在領域を推定できる。以下の説明では、アンカーの形状が矩形であるものとする。

推定部１７１は、例えば、１度目に通常のＦａｓｔｅｒＲ−ＣＮＮによって推定された矩形領域の位置と大きさ、物体の種類（人、車、馬等）、観測時のフレームレート等に基づき、次にその物体が検出され得る矩形領域を定めてよい。そして、推定部１７１は、定めた矩形領域内で認識された同じ種類の対象物体を、前フレームで認識された物体と同じ物体であると推定してよい。

このように、推定部１７１は、フレーム毎に対象物体を特定し、対象物体毎に、予め用意した運動モデルに当て嵌めることで、ベクトルＳを求め、予測存在領域を推定してよい。運動モデルとしては、等速運動モデルや加速度運動モデル等の種々の運動モデルが挙げられる。

なお、物体の予測存在領域の推定には、運動モデルに代えて、画像のピクセル値の相関を取る等の他の手法が用いられてもよい。また、ＭＨＴ（Multiple Hypothesis Tracking）等のような、追尾物体と検出物体との対応付けを行なうデータアソシエーション（Data Association）による未観測状態を考慮した追尾モデルが用いられてもよい。

推定部１７１による物体の予測存在領域の推定の詳細については後述する。

出力部１７２は、推定部１７１が推定した予測存在領域及び／又はスコアに基づいて、移動情報をＦａｓｔｅｒＲ−ＣＮＮに出力する。出力部１７２による移動情報の出力処理は、上述した移動情報の第１及び第２の例に応じて、以下のように実施されてよい。なお、以下の例において、図９及び図１１では、メモリ部１１及び１８の図示を省略している。

（第１の例）
出力部１７２は、図９及び図１０に例示するように、推定部１７１が例えばｔ＝２のときにｔ＝１及びｔ＝２の移動物体の位置情報等に基づき推定したｔ＝３の予測存在領域の情報を、ｔ＝３のときに、提案領域計算部１４の出力結果に追加してよい。例えば、出力部１７２は、移動物体毎の予測存在領域（ａｄｄｉｔｉｏｎａｌｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓ）（ｘ，ｙ，ｗ，ｈ）のセットαを、提案領域計算部１４の出力結果であるｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓに追加してよい。

一例として、図１０に示すように、ｔ＝３の予測領域について、出力部１７２は、当該予測領域を、矩形領域Ｃ（ａｄｄｉｔｉｏｎａｌｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓ）として、提案領域計算部１４からのｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓに追加してよい。

（第２の例）
出力部１７２は、図１１及び図１２に例示するように、推定部１７１が例えばｔ＝２のときにｔ＝１及びｔ＝２の移動物体の位置情報等に基づき推定したｔ＝３の予測存在領域の情報を、ｔ＝３のときに、提案領域計算部１４に追加してよい。例えば、出力部１７２は、ＲＰＮ層１４０におけるＮＭＳ処理実行前の矩形領域のスコアを予測存在領域からの矩形領域の距離に応じて変更する補正情報を、候補領域選択部１４２に出力してよい。なお、出力部１７２は、予測存在領域と、当該予測存在領域のスコアを変更する補正情報とを、候補領域選択部１４２に出力してよい。

一例として、図１２に示すように、出力部１７２は、ｔ＝３の予測領域の位置・大きさに近い候補領域のスコアを高くする補正情報を提案領域計算部１４に出力してよい。予測領域の位置・大きさに近い候補領域としては、例えば、矩形領域のうちの予測領域と重なる領域の割合ｐが最大の矩形領域（図１２の例では矩形領域Ａ）が選択されてよい。このとき、出力部１７２は、例えば、ｐが最大の矩形領域Ａのスコアに（１．０＋ｐ）を乗じることで、矩形領域Ａのスコアを補正してよい。（１．０＋ｐ）は補正情報の一例である。

以上のように、認識結果分析部１７により、物体検出の認識精度を高めることができる。なお、認識結果分析部１７によりメモリ部１８に格納される認識結果１８１（図１参照）は、ＦａｓｔｅｒＲ−ＣＮＮにおけるラベル付き学習データとして利用されてもよい。

上述のように、ＦａｓｔｅｒＲ−ＣＮＮでは、物体の位置や種類の推定において、限られた数のアンカー位置を基準とするｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓが利用される。ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓの推定の手法は、経験則に基づく独特なものである。例えば、ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓは、予め指定したサイズやアスペクト比のアンカーをあるピクセル間隔で配置し、これらのアンカー基準位置に静止画を入力としＮＮを用いて計算される補正値を加算することで推定される。

上記の手法による物体候補領域（ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓ）の計算には、静止画の情報のみが用いられている。これに対し、一実施形態に係る検出装置１は、静止画の情報とは質的に異なる情報である、物体の運動から予測される物体候補領域（位置、高さ、幅）をｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓに加えて利用することで、物体検知の精度を向上させることができる。

図１３は、海辺に６艘〜１０艘ほどの船（boat）が浮かぶ画像において、ＦａｓｔｅｒＲ−ＣＮＮに移動情報を追加する前後の認識結果の一例を示す図である。なお、図１３では、ＲＰＮ層１４０から出力されるｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓに、移動情報の一例としてのａｄｄｉｔｉｏｎａｌｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓ（例えば、実際にｂｏａｔが存在しそうな矩形領域）を追加して評価した例を示している。

これにより、適切なａｄｄｉｔｉｏａｌｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓが指定された領域で、新たに高スコアでｂｏａｔが検出されるようになった（図１３の右側参照）。ＦａｓｔｅｒＲ−ＣＮＮに移動情報の一例としての補正情報が与えられる場合にも、図１３に示す例と同様の効果が得られることが期待できる。

〔１−３〕動作例
次に、上述の如く構成された検出装置１の動作例を説明する。

（第１の例）
第１の例では、図１４に例示するように、検出装置１においては、メモリ部１１に記憶された画像データ１１１（例えば画像系列のデータ）から、１つの入力画像（例えば１フレーム）が取得される（ステップＳ１）。

画像前処理部１２は、入力画像に対して前処理を行なう（ステップＳ２）。前処理には、入力画像を後段の処理に適した画像に変更するためのサイズ変更、ピクセル値変更、輝度補正等が含まれてよい。

画像前処理部１２は、前処理後の入力画像を特徴マップ計算部１３に入力する（ステップＳ３）。特徴マップ計算部１３では、ＣＮＮ層１３０からｆｅａｔｕｒｅｍａｐｓが出力される（ステップＳ４）。

特徴マップ計算部１３は、ｆｅａｔｕｒｅｍａｐｓを提案領域計算部１４に入力する（ステップＳ５）。提案領域計算部１４では、ＲＰＮ層１４０からｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓが出力される（ステップＳ６）。

ここで、認識結果分析部１７における移動情報の発生有無に応じて、処理が分岐する（ステップＳ７）。移動情報が発生していない場合（ステップＳ７でＮｏ）、特徴マップ計算部１３からのｆｅａｔｕｒｅｍａｐｓと提案領域計算部１４からのｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓとが物体位置・種類推定部１５に入力される（ステップＳ８）。そして、処理がステップＳ１０に移行する。

なお、移動情報が発生していない場合としては、例示的に、認識結果分析部１７で分析が行なえない（例えば過去の入力画像が存在しない）場合が挙げられる。図９の例ではｔ＝１又はｔ＝２の場合である。或いは、移動情報の発生がない場合として、予測存在領域が認識されなかった（例えば過去の入力画像に物体が存在しない）場合等も挙げられる。

一方、移動情報が発生している場合（ステップＳ７でＹｅｓ）、ｆｅａｔｕｒｅｍａｐｓ及びｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓに加えて、認識結果分析部１７からの予測存在領域が物体位置・種類推定部１５に入力される（ステップＳ９）。なお、予測存在領域としては、ａｄｄｉｔｉｏｎａｌｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓが挙げられる。そして、処理がステップＳ１０に移行する。

ステップＳ１０において、物体位置・種類推定部１５では、ＦａｓｔＲ−ＣＮＮ層１５０から物体の位置・種類の推定結果が出力される。

推定結果選択部１６は、物体位置・種類推定部１５からの推定結果に基づき物体の種類ごとの位置を絞り込み、絞り込みの結果として、物体の位置・種類の認識結果を出力する（ステップＳ１１）。

認識結果分析部１７は、推定結果選択部１６から入力される認識結果に基づき、第１の例に係る認識結果分析処理を実行し（ステップＳ１２）、ステップＳ１で入力された１つの入力画像（例えば１フレーム）に対する処理が終了する。

認識結果分析処理では、図１５に例示するように、認識結果分析部１７の推定部１７１は、過去の入力画像に対する認識結果に基づき、物体の予測存在領域を推定する（ステップＳ２１）。

そして、認識結果分析部１７の出力部１７２は、推定した予測存在領域を例えば提案領域計算部１４に出力し（ステップＳ２２）、処理が終了する。

なお、ステップＳ２１の物体の予測存在領域の推定処理の詳細は、後述する。

（第２の例）
第２の例では、図１６に例示するように、ステップＳ１〜Ｓ５の処理は図１４に示す第１の例と同様である。

ステップＳ５において特徴マップ計算部１３がｆｅａｔｕｒｅｍａｐｓを提案領域計算部１４（ＲＰＮ層１４０）に入力する際に、移動情報の発生有無に応じて、処理が分岐する（ステップＳ１４）。

移動情報が発生していない場合（ステップＳ１４でＮｏ）、提案領域計算部１４では、ＲＰＮ層１４０からｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓが出力される（ステップＳ６）。

次いで、特徴マップ計算部１３からのｆｅａｔｕｒｅｍａｐｓと提案領域計算部１４からのｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓとが物体位置・種類推定部１５に入力される（ステップＳ８）。そして、処理がステップＳ１０に移行する。

一方、移動情報が発生している場合（ステップＳ１４でＹｅｓ）、ステップＳ５のｆｅａｔｕｒｅｍａｐｓに加えて、認識結果分析部１７からの補正情報が提案領域計算部１４に入力される（ステップＳ１５）。なお、補正情報は、予測領域に近い（例えば重なりが大きい）ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓのスコアを高くする情報であってよい。補正情報としては、例えば、ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓの補正後のスコアそのものであってもよいし、当該スコアを、他のｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓのスコアよりも高くするような重み付けのための係数等であってもよい。

提案領域計算部１４では、ＲＰＮ層１４０から補正情報によるスコアの補正を受けたｍｏｄｉｆｉｅｄｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓが出力される（ステップＳ１６）。

次いで、特徴マップ計算部１３からのｆｅａｔｕｒｅｍａｐｓと提案領域計算部１４からのｍｏｄｉｆｉｅｄｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓとが物体位置・種類推定部１５に入力される（ステップＳ１７）。そして、処理がステップＳ１０に移行する。

認識結果分析部１７は、推定結果選択部１６から入力される認識結果に基づき、第２の例に係る認識結果分析処理を実行し（ステップＳ１８）、ステップＳ１で入力された１つの入力画像（例えば１フレーム）に対する処理が終了する。

認識結果分析処理では、図１７に例示するように、認識結果分析部１７の推定部１７１は、過去の入力画像に対する認識結果に基づき、物体の予測存在領域を推定する（ステップＳ２１）。

そして、認識結果分析部１７の出力部１７２は、推定した予測存在領域に基づく補正情報を例えば提案領域計算部１４に出力し（ステップＳ２３）、処理が終了する。

〔１−４〕予測存在領域の推定処理の説明
次に、認識結果分析部１７による物体の予測存在領域の推定処理について説明する。認識結果分析部１７の推定部１７１は、推定処理において、以下の手法のうちのいずれか１つ、又は、２つ以上の組み合わせにより、予測存在領域を推定してよい。

（第１の手法）
はじめに、第１の手法の一例について説明する。

図１８の左側に例示するように、ｔ＝ｔ_０において、ＦａｓｔｅｒＲ−ＣＮＮにより、矩形領域として、物体の一例である犬が存在する領域ｓ（ｔ_０）＝（ｘ（ｔ_０），ｙ（ｔ_０），ｗ（ｔ_０），ｈ（ｔ_０））が検出された場合を想定する。なお、（ｘ（ｔ_０），ｙ（ｔ_０））は検出領域の中心位置、（ｗ（ｔ_０），ｈ（ｔ_０））は検出領域の幅及び高さであるものとする。なお、ｔは画像データ１１１の画像系列における時刻（タイミング）を特定する値であり、以下の例では、フレームに対応するものとする。

また、図１８の左側に例示する犬がｔ＝ｔ_０＋１において検出され得る領域は、ｔ＝ｔ_０で検出されたｓ（ｔ_０）＝（ｘ（ｔ_０），ｙ（ｔ_０），ｗ（ｔ_０），ｈ（ｔ_０））を中心とする、或る範囲の領域に限定されるものと仮定する。

例えば、図１８の右側に示すように、ｔ＝ｔ_０＋１において犬が検出された場合を想定する。なお、ｔ＝ｔ_０＋１のときの検出領域を、ｓ（ｔ_０＋１）＝（ｘ（ｔ_０＋１），ｙ（ｔ_０＋１），ｗ（ｔ_０＋１），ｈ（ｔ_０＋１））と表記する。

このとき、推定部１７１は、（Δｘ，Δｙ，Δｗ，Δｈ）＝ｓ（ｔ_０＋１）−ｓ（ｔ_０）の値が、予め定めた或る範囲の大きさ以下であれば、ｔ＝ｔ_０＋１で検出された犬は、前フレーム（ｔ＝ｔ_０）で検出された犬と同じ犬であると判定してよい。

或るフレームで検出された物体が前フレームで検出された物体と同一であるか否かを判定するための手法として、以下の（ａ）〜（ｃ）のいずれか、或いは、（ａ）〜（ｃ）の２つ以上の組み合わせが用いられてよい。

（ａ）例えば、推定部１７１は、（Δｘ^２＋Δｙ^２）^１／２＜ｒのように中心位置が可変な範囲ｒを定め、｜Δｗ｜＜Δｗ＿ｍａｘ，｜Δｈ｜＜Δｈ＿ｍａｘのように領域の幅及び高さが可変な範囲を定めてよい。なお、ｒの値、Δｗ＿ｍａｘ、Δｈ＿ｍａｘの値は、検出された物体の種類、観測時のフレームレート、検出された矩形領域の大きさ（ｗ，ｈ）等に基づき調節可能な値であってよい。或いは、ｒの値、Δｗ＿ｍａｘ、Δｈ＿ｍａｘの値は、所定のルールに従う固定値であってもよい。

（ｂ）また、推定部１７１は、或るフレームにおける物体の検出領域と前フレームにおける物体の検出領域との重なりの大きさをＩｏＵ（Intersection of Union）値で評価し、ＩｏＵ値が或る閾値以上であれば同じ物体であると判定してもよい。

（ｃ）或いは、推定部１７１は、ｔ＝ｔ_０で検出された領域とｔ＝ｔ_０＋１で検出された領域とのピクセル値の相関値を用いてもよい。

推定部１７１は、ｔ＝ｔ_０で検出された犬とｔ＝ｔ_０＋１で検出された犬とが同じ犬であると判定した場合、ｔ＝ｔ_０及びｔ＝ｔ_０＋１でそれぞれ検出した（ｘ，ｙ，ｗ，ｈ）の値に基づき、ｘ，ｙ，ｗ，ｈの時間変化ｄｓ／ｄｔを求めてよい。ここで、時間変化ｄｓ／ｄｔ＝（ｄｘ／ｄｔ，ｄｙ／ｄｔ，ｄｗ／ｄｔ，ｄｈ／ｄｔ）である。

また、推定部１７１は、ｔ＝ｔ_０＋２の場合、上記で求めたｄｓ／ｄｔの値を用いて、ｓ（ｔ＝ｔ_０＋２｜ｔ_０＋１）＝ｓ（ｔ_０＋１）＋ｄｓ／ｄｔ×Δｔにより、時刻ｔ＝ｔ_０＋２における予測領域ｓ（ｔ_０＋２｜ｔ_０＋１）の値を推定してよい。なお、Δｔはフレーム間の時間間隔である。ここで、予測領域ｓ（ｔ_０＋２｜ｔ_０＋１）＝（ｘ（ｔ_０＋２｜ｔ_０＋１），ｙ（ｔ_０＋２｜ｔ_０＋１），ｗ（ｔ_０＋２｜ｔ_０＋１），ｈ（ｔ_０＋２｜ｔ_０＋１））である。

出力部１７２は、上記により得られた予測領域の値に基づいて、ＦａｓｔｅｒＲ−ＣＮＮに移動情報を出力してよい。

なお、ｔ＝ｔ_３の場合における予測領域の値は、上述した時刻ｔ＝ｔ_０，ｔ_０＋１，ｔ_０＋２を時刻ｔ＝ｔ_０＋１，ｔ_０＋２，ｔ_０＋３に置き換えることで推定されてよい。ｔ＝ｔ_４以降も同様である。

（第２の手法）
次に、第２の手法の一例について説明する。第２の手法では、カルマンフィルタ（Kalman Filter）等速運動モデルを用いて予測領域を推定する一例について説明する。

例えば、カルマンフィルタ等速運動モデルは、図１９に例示する状態ベクトルｘ_{ｃ，ｉ，ｋ}を有してよい。なお、状態ベクトルにおけるｃは追尾物体の種類、ｉは追尾物体の識別情報（例えば番号）、ｋは時刻（例えばフレーム番号）である。

推定部１７１は、図１９に例示するように、追尾対象ごとに、物体の種類ｃ、存在領域（ｘ，ｙ，ｗ，ｈ）及びその速度（ｘ（ドット），ｙ（ドット），ｗ（ドット），ｈ（ドット））を並べた状態ベクトルｘ_{ｃ，ｉ，ｋ}を保持してよい。推定部１７１は、物体検出ＮＮが検出した同じ種類の物体のうち、四次元観測ベクトル空間（ｘ，ｙ，ｗ，ｈ）内の予測位置に近い検出領域を持つ物体が存在すれば、当該検出領域を観測値としてカルマンフィルタの更新処理を実行してよい。なお、観測値として、図１９に例示する観測ベクトルｚ_{ｃ，ｊ，ｋ}が定義されてよい。観測ベクトルにおけるｃは検出物体の種類、ｊは検出物体の識別情報（例えば番号）、ｋは時刻（例えばフレーム番号）である。

なお、図１９に例示するように、“ｘ_ｋ”で示される遷移モデルは以下の式（１）で表されてよく、“ｚ_ｋ”で示される観測モデルは以下の式（２）で表されてよい。ここで、下記式（１）中の“Ｆ”は状態遷移行列（図１９参照）であり、“ｗ_ｋ”はプロセスノイズである。また、下記式（２）中の“Ｈ”は観測行列（図１９参照）であり、“ｖ_ｋ”は観測ノイズである。

追尾物体と検出物体との対応付け（Data Association）には、以下の（ｉ）〜（iv）のうちのいずれかの手法が適用されてよい。

（ｉ）カルマンフィルタの更新処理に用いる観測値として追尾物体の予測位置に最も近い検出物体を用いる手法（Nearest Neighbor）。

（ii）上記（ｉ）の手法を追尾対象と検出物体とを１対１で対応付けた制約条件下で行なう手法（Global Nearest Neighbor）。

（iii）割り当て候補の重み付き和で平均をとり、追尾物体の状態ベクトルを推定する手法（ＪＰＤＡ（Joint Probabilistic Data Association））。

（iv）複数フレームに亘る割り当て仮説の仮説ツリーを構築し、その後に遡って枝刈する手法（ＭＨＴ（Multiple Hypothesis Tracking））。

また、カルマンフィルタの予測処理では、以下の式（３）及び（４）が用いられてよい。なお、式（３）は予測推定値を表し、式（４）は予測誤差行列を表す。

推定部１７１は、中心位置、幅、高さの変化量の単位として、１フレームあたりのピクセル値・ピクセル長の変化量を基準にとる場合、ｄｔ＝１として計算してよい。

さらに、カルマンフィルタの更新処理では、以下の式（５）〜（９）が用いられてよい。なお、式（５）は観測残差の共分散を表し、式（６）は最適カルマンゲインを表し、式（７）は観測残差（innovation）を表し、式（８）は更新された状態の推定値を表し、式（９）は更新された誤差の共分散を表す。

推定部１７１は、物体検出ＮＮによって検出された物体の種類、大きさ（ｗ，ｈ）等に応じて、予測誤差行列の初期値Ｐ_０｜０、プロセスノイズ共分散行列Ｑ（図１９参照）の定数ｑ_ｘ，ｑ_ｙ等の大きさを変えてよい。なお、プロセスノイズ共分散行列Ｑは、予測領域の変化量に関連するパラメータである。

これにより、推定部１７１は、素早く動く動物や乗り物等の初期位置からの移動範囲を大きく見積もったり、近くの物体の移動範囲を大きく見積もったりでき、より精度の高い物体追尾・物体検出を実現できる。また、物体の種別、例えば、「馬」及び「馬に乗った騎手」、といった文脈情報を推定できれば、運動の予測精度をさらに向上させることもできる。

なお、追尾対象の大きさは、各フレームで変化するため、Ｑの大きさを定めるｑ_ｘ，ｑ_ｙ等の大きさを追尾物体の大きさ（ｗ，ｈ）の関数として定めてもよい。

（第３の手法）
次に、第３の手法の一例について説明する。第３の手法では、追尾物体と検出物体との対応付け（Data Association）の一例として、ＭＨＴ（Multiple Hypothesis Tracking）が用いられる場合の一例について説明する。

以下の説明では、第２の手法で説明したカルマンフィルタ等速運動モデル等の追尾フィルタを用いて追尾物体の予測領域を推定する手法において、さらに、以下の（Ｉ）及び（II）の手法をＭＨＴを用いて適用する場合の例を説明する。

（Ｉ）追尾フィルタへの観測ベクトルの提供。

（II）得られた予測領域の値を信用し、一実施形態に係る手法に適用する判定条件の妥当な設定手法。

ＭＨＴを用いて画像特徴点のトラッキングを実現する手法が知られている（例えば、非特許文献５及び６参照）。

上記の手法の例では、画像から抽出されたコーナー特徴点の座標（ｘ，ｙ）を対象とし、追尾フィルタによって推定された複数の追尾対象点の座標位置（ｘ，ｙ）と複数のコーナー特徴点位置（ｘ，ｙ）との対応付け（Data Association）が行なわれる。

一実施形態では、図２０に例示するように、上記の手法を拡張して、物体検出領域を表す四次元座標（ｘ，ｙ，ｗ，ｈ）を用いることで、複数の追尾物体と複数の検出物体との対応付けを行なう。

例えば、図２１に示す観測データが取得された場合を想定する。この場合、推定部１７１は、複数種類の追尾物体と検出物体とを対応付けてよい。例えば、図２１に示すように、追尾物体である犬に検出物体（スコア：dog 0.958）が対応付けられており、当該検出物体の座標は、（ｘ_{ｃ＝ｄｏｇ，ｊ＝１，ｋ}，ｙ_{ｃ＝ｄｏｇ，ｊ＝１，ｋ}），ｗ_{ｃ＝ｄｏｇ，ｊ＝１，ｋ}，ｈ_{ｃ＝ｄｏｇ，ｊ＝１，ｋ}となる。

図２２に例示するように、推定部１７１は、各フレームにおいて、物体検出領域（ｘ，ｙ，ｗ，ｈ）を表す四次元の観測ベクトルｚ_{ｃ，ｊ，ｋ}を検出物体の種類ごとに取得してよい。

各観測ベクトルベクトルｚ_{ｃ，ｊ，ｋ}はそのフレームから追尾を開始する追尾の起点になり得る。なお、推定部１７１は、追尾を開始するとき、図２２の上段（ｔ＝ｋ）に示す状態ベクトルｘ_{ｃ，ｊ，ｋ}の速度成分は“０”とし、観測点の値（ｘ，ｙ，ｗ，ｈ）を追尾物体の初期位置（ｘ，ｙ，ｗ，ｈ）としてよい。

推定部１７１は、各フレームにおいて、前フレームまでに観測された四次元空間（ｘ，ｙ，ｗ，ｈ）内の観測点系列のデータに基づき、最新フレームにおける追尾物体の状態ベクトルｘ_{ｃ，ｊ，ｋ}の値を推定してよい。状態ベクトルの予測値は、第２の手法を用いて説明したような、カルマンフィルタの予測処理の計算式を用いて行なわれてよい（式（３）及び（４）参照）。

そして、推定部１７１は、画像から検出される観測点（ｘ，ｙ，ｗ，ｈ）を追尾物体の観測値として割り当ててよい。割り当てられる観測点（検出物体）は、追尾物体と同じ種類の物体のみに制限されてよい。例えば、推定部１７１は、追尾物体の予測位置を中心とするゲート領域に含まれる観測点を、或る条件の下で割り当ててよい。

第３の手法のカルマンフィルタで予測される予測観測位置ｚ_ｋの確率密度は、物体検出領域を定める矩形領域のパラメータ、（ｘ，ｙ，ｗ，ｈ）を軸とする四次元ユークリッド空間における、下記式（１０）のような多次元正規分布となる。

ここで、Ｓ_ｋは、時刻ｔ＝ｋにおいて、下記式（１１）（上記式（５）と同様）で計算される観測残差の共分散行列である。

この残差共分散行列Ｓ_ｋの値は、カルマンフィルタの更新処理の一部として計算されるが、ここでは、追尾物体に割り当てられ得る観測点の位置の範囲、ゲート領域を定める目的でも用いられる。

ここで、Ｒは、観測ノイズ共分散行列である。例えば、カメラが動くような利用シーンにおいては、カメラの動きにより物体の位置も変化する。この場合、推定部１７１は、観測ノイズ共分散行列Ｒの値を大きくすることで、カメラの動きによる物体の位置をモデルに反映させることができる。このように、過去のフレームで検出した結果を用いることで、物体検出の精度を向上できる可能性がある。

なお、上記式（１０）の多次元正規分布に含まれる下記式（１２）（上記式（７）と同様）の項は観測残差である。観測残差は、時刻ｔ＝ｋのフレームにおける状態ベクトルの予測値（下記式（１３）参照）から推定される予測位置（下記式（１４）参照）と、実際に観測される観測点の座標との差を表す。

この観測残差の分布は、観測時の観測ノイズや状態遷移時のプロセスノイズを反映した分布になっており、第３の手法のモデルでは、上記式（１０）のような多次元正規分布となっている。

推定部１７１は、この確率密度関数の値が或る閾値以上の値をとる領域としてゲート領域を定めてよい。ゲート領域は、上記の確率密度関数をゲート領域内の（ｘ，ｙ，ｗ，ｈ）について積分した値が或る閾値、例えば０．９９となる領域として定められてもよい。この場合も、推定部１７１は、ゲート領域の内と外とを隔てる境界領域で確率密度関数の値が一定となるようにゲート領域を定めてよい。

推定部１７１は、上記のようにして定めたゲート領域内の観測点を割り当て候補とし、予測位置に観測点を割り当ててよい。

なお、ゲート領域として、上記のような密度関数の積分値が或る値（例えば０．９９）となる領域を用いた場合、ゲート領域は四次元の楕円体領域となる。

この楕円体を（ｗ，ｈ）＝（ｃｏｎｓｔ＿ｗ，ｃｏｎｓｔ＿ｈ）及び（ｘ，ｙ）＝（ｃｏｎｓｔ＿ｘ，ｃｏｎｓｔ＿ｙ）と固定して得た断面のイメージの一例を図２３に示す。図２３ではゲート領域内部を網掛けで示している。

推定部１７１は、以上のようにして定めたゲート領域内の観測点を割り当て候補とし、追尾物体に観測点を割り当てる割り当て仮説を生成してよい。

予測位置に近い位置に観測点が観測され続ければ、割り当ての尤度は高くなっていく。この割り当ての尤度が或る閾値を超えたとき、推定部１７１は、得られた予測領域の値に基づいて、ＦａｓｔｅｒＲ−ＣＮＮに移動情報を出力してよい。

なお、ＭＨＴにおいては、ゲート領域内の観測点を割り当てない未観測事象も割り当ての候補となり得る。このため、追尾物体が一時的に他の物体の後ろに隠れる等により、追尾物体が見えなくなったときにも、追尾を継続することができる。

例えば、推定部１７１は、ＭＨＴの枠組みに従い、複数の追尾物体を複数の検出物体に割り当てる割り当て仮説を生成してよい。割り当て仮説は、各フレームの画像が観測されるごとに生成されてよい。

前フレームまでに生成した複数の割り当て仮説から最新フレームにおける複数の割り当て仮説を生成する処理が繰り返し実施されるため、割り当て仮説の仮説ツリーは大きくなっていく。検出装置１のメモリやプロセッサ等の計算資源の制約に応じて、推定部１７１は、尤度の低い割り当て仮説については枝刈を行なって削除してもよい。

このように、１フレームごとに割り当て仮説を確定させるのではなく、複数フレームに亘って仮説を多段に生成し、後で遡って割り当て仮説を確定させるため、１フレームごとに生じるノイズやオクルージョン等に頑健なData Associationを実現できる。

一実施形態に係る検出装置１は、上記の手法により得られた予測領域の情報を用いて、ＦａｓｔｅｒＲ−ＣＮＮによる物体の位置・種類の検出を行なってよい。これにより、物体検出の精度を向上させることができる。

（第４の手法）
第４の手法では、推定部１７１が、観測データとして、ＮＭＳ処理により矩形領域の絞り込みが行なわれる前の物体検出ＮＮの出力（スコア付き矩形領域）を用いる例について説明する。なお、第４の手法は、移動情報の第２の例に適用されてよい。

図２４は、検出物体の種類が“person”の場合における、矩形領域の絞り込みが行なわれる前の検出領域の一例を示す図である。例えば、図２４に示す検出領域は、提案領域計算部１４の候補領域・スコア計算部１４１からの出力情報（ｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓ）である。

なお、図２４に例示するように、各矩形領域に対応する観測ベクトルをｚ_{ｃ，ｊ，ｋ}と表記し、各検出領域に割り当てられたスコアをｐ_{ｃ，ｊ，ｋ}と表記する。ここで、ｃは検出物体の種類を示し、ｊは検出物体の番号を示し、ｋは時刻（例えばフレーム番号）を示す。

推定部１７１は、第３の手法と同様に、各フレームで複数観測される観測点（検出領域）を追尾物体に割り当ててよい。

なお、第４の手法では、各フレームで検出対象の周りに多数観測される観測点（図２４に例示するような検出物体候補領域）が、重なりの小さな検出結果として絞り込まれる前に追尾物体に割り当てられる。

ＭＨＴのようなData Association方式の割り当ての尤度を計算する際、推定部１７１は、追尾物体の運動から予想される上記式（１０）のような観測点（矩形領域）の確率密度だけでなく、検出候補領域のスコアｐ_{ｃ，ｊ，ｋ}の値も考慮してよい。候補領域のスコアを考慮した尤度としては、例えば、ｐ_{ｃ，ｊ，ｋ}・ｆ（ｚ_{ｃ，ｊ，ｋ}）のような式が用いられてもよい。

なお、上述した観測点空間内での割り当て仮説の生成過程は、前フレームまでの検出領域から推定される予測領域と最新フレームの検出領域とを対応付ける処理（観測領域の対応付け）と位置付けられてよい。

図２５は、このような観測領域の対応付けを四次元ユークリッド空間の観測点の対応付けとして例示する図である。図２５では、ｗ軸及びｈ軸のいずれか１つを省略した三次元のイメージ図を示している。

図２６は、ＭＨＴを用いて、各フレームで複数観測される観測点（検出領域）を追尾物体に割り当てる手法の一例を示す図である。図２６では、ｔ＝ｋ＋１において２つの観測点が観測されており、それ以外の時刻では１つの観測点が観測されている。なお、図２６では、四次元ではなく二次元のイメージ図を示している。

図２７は、ＭＨＴによる未観測事象への仮説の割り当てとカルマンフィルタの予測・更新処理とを説明する図である。図２７には、ゲート領域に１つの観測点が含まれる場合における、追尾フィルタによる追尾物体の予測位置、推定位置、観測点位置、ゲート領域の計算例を示す。図２７から、ＭＨＴにより、ゲート領域内の観測点を追尾物体に割り当てていく様子がわかる。

図２７の例では、時刻ｔ＝ｋ−１，ｋ＋１，ｋ＋２フレーム目において観測点が、時刻ｔ＝ｋフレーム目において未観測事象が、それぞれ割り当てられている。なお、画像内の観測点のうちのゲート領域内部の観測点のみが割り当ての候補となってよい。また、観測点が割り当てられるとき、追尾物体の推定位置は、予測位置に比べて観測点位置側に補正されてよい。

図２８は、ＭＨＴによる未観測事象への仮説の割り当てとカルマンフィルタの予測・更新処理とを説明する図である。図２８には、ゲート領域に複数の観測点が観測され、追尾仮説が分岐する場合における、追尾フィルタによる追尾物体の予測位置、推定位置、観測点位置、ゲート領域の計算例を示す。

図２８の例では、時刻ｔ＝ｋ−１で１つの観測点が、ｔ＝ｋで未観測事象が、ｔ＝ｋ＋１で２つの観測点が、それぞれ割り当てられている。また、時刻ｔ＝ｋ＋２で分岐後の追尾仮説に対し、観測点が１つずつ割り当てられている。

なお、図２５〜図２８を参照して説明した手法は、第３の手法にも適用可能である。

図２９は、ＭＨＴによる複数フレームに亘る仮説の生成及び枝刈の一例を説明する図である。推定部１７１は、複数フレームに亘って割り当て仮説の生成を繰り返してよい。このとき、推定部１７１は、最新の仮説ツリーの中から、割り当て仮説の組み合わせの尤度が最も高い仮説を推定結果として選択してよい。なお、仮説ツリーの枝刈は、メモリやプロセッサ等の計算資源の制約に応じて、適当なタイミングで実行されてよい。

図２９の例では、割り当て仮説の組み合わせの尤度が最大の仮説を推定結果とする例を示す。例えば、推定部１７１は、Ｎ−Ｓｃａｎｂａｃｋアルゴリズムを用いてよい。Ｎ−Ｓｃａｎｂａｃｋアルゴリズムは、現時刻における尤度最大の割り当て仮説を選択し、Ｎ−１フレーム前の仮説を確定（図２９の例ではＮ＝２）、Ｎ−１フレーム目の他のノードを起点とする仮説ツリーの枝刈を実行するアルゴリズムである。

出力部１７２は、上述した第４の手法により得られた複数の追尾仮説に基づき、移動情報を生成して、提案領域計算部１４の候補領域選択部１４２に出力してよい。

ところで、第４の手法は、通常のＭＨＴで割り当てられる観測点とは異なり、その後、別の処理（例えばＮＭＳ処理）によって絞り込まれることになる複数のスコア付き検出候補領域（例えばｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓ）を観測点として用いている。

このため、検出領域が多く見積もられる可能性がある。そこで、検出装置１は、以下の（Ａ）又は（Ｂ）の手法、或いは、（Ａ）及び（Ｂ）の手法の組み合わせにより検出領域を絞り込んでよい。

（Ａ）出力部１７２は、推定部１７１により得られた追尾仮説の尤度を用いて、検出領域のスコアを補正する補正情報を生成する。出力部１７２からの補正情報により、候補領域選択部１４２によるＮＭＳ処理では、尤度が最大の仮説（候補領域）のスコアが高くなるように判断され、候補領域の絞り込みが行なわれる。

（Ｂ）推定部１７１は、追尾仮説生成の起点となる（ｘ，ｙ，ｗ，ｈ）には、ＮＭＳ処理等を経て絞り込まれた領域の値を用い、その後、第４の手法に係る割り当て仮説の生成を繰り返す。なお、推定部１７１は、或る１つの共通の起点から分岐した追尾仮説は、１つの追尾対象のみに対応すると仮定し、最も尤度の高い追尾仮説を推定結果として選択する。このとき、推定部１７１は、追尾の起点となる観測点と、追尾継続物体の観測結果との重複を避けるため、以下の（Ｂ−１）及び（Ｂ−２）の手法を適用し、追尾継続物体近くの検出候補領域を取り除いてよい。なお、追尾の起点とは、例えば、物体毎に、最初に物体が検出されたフレームである。

（Ｂ−１）推定部１７１は、追尾の結果として得られる推定結果、或いは、最も割り当ての尤度が高い領域として選択された検出候補領域（これらも検出結果とする）と重なりの大きな領域は取り除いてよい。

（Ｂ−２）また、推定部１７１は、追尾継続中の追尾仮説のゲート領域に含まれる検出候補領域は取り除いてよい。

また、（Ｂ）において、提案領域計算部１４は、認識結果分析部１７による上記の処理によって残った候補領域に対して、候補領域選択部１４２によるＮＭＳ処理等の絞り込み処理を適用してよい。なお、この絞り込み処理実施後に検出された領域が、認識結果分析部１７による追尾の起点になるものとする。

なお、上述した第４の手法に係る処理において、候補領域選択部１４２は、検出物体近くの検出候補領域について、重み付き平均を取ってもよい。

例えば、出力部１７２は、移動情報として、「予測位置からの距離」、「マハラノビス距離」、「検出領域のスコア」、及び、「追尾の尤度」のうちの少なくとも１つの情報を、提案領域計算部１４に出力してよい。なお、「マハラノビス距離」は、例えば、上記式（１０）のうちの下記の項（１５）により定義されてよい。

候補領域選択部１４２は、追尾フィルタを用いて計算される予測領域を中心とするゲート領域内部の検出候補領域に対して、出力部１７２からの移動情報に基づく重み付け平均を算出してよい。

なお、認識結果分析部１７は、追尾開始時にはＭＨＴを用い、追尾が或る程度継続したらＪＰＤＡ（Joint Probabilistic Data Association）を用いてもよい。

また、認識結果分析部１７は、追尾開始時の物体検出の閾値を高くし、追尾が継続して尤度が或る閾値を超えた領域の物体検出の閾値を低くする等の補正を行なう補正情報を生成してもよい。換言すれば、候補領域選択部１４２は、物体検出の閾値に対して、追尾の継続期間に応じた重み付け平均を算出してもよい。これにより、追尾が継続して尤度が或る閾値を超えた領域が、例えば或るフレームで他の領域（物体）の後ろに隠れたとしても、過去のフレームからトラッキングしてきた情報を用いることで、物体検出の精度を高めることができる。

なお、候補領域選択部１４２からの重み付け平均の算出結果は、提案領域計算部１４からの出力であるｐｒｏｐｏｓｅｄｒｅｇｉｏｎｓとして、物体位置・種類推定部１５に入力されてよい。

以上のように、候補領域選択部１４２は、複数の組の各々の指標に基づき複数の組の複数の候補領域の重み付き平均を算出する第２の処理を行なうといえる。

〔１−５〕ハードウェア構成例
次に、検出装置１のハードウェア構成例について説明する。なお、上述のように、検出装置１は、例示的に、１台以上のコンピュータをそなえるコンピュータシステムにより実現されてよい。検出装置１を構成する１台以上のコンピュータをコンピュータ１０と表記し、コンピュータ１０のハードウェア構成例について説明する。

図３０に示すように、情報処理装置の一例としてのコンピュータ１０は、例示的に、プロセッサ１０ａ、メモリ１０ｂ、記憶部１０ｃ、ＩＦ（Interface）部１０ｄ、Ｉ／Ｏ（Input / Output）部１０ｅ、及び読取部１０ｆをそなえてよい。

プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ１０ａは、各ブロック１０ｂ〜１０ｆとバス１０ｉで相互に通信可能に接続されてよい。プロセッサ１０ａとしては、ＣＰＵ、ＧＰＵ、ＭＰＵ、ＤＳＰ、ＡＳＩＣ、ＰＬＤ（例えばＦＰＧＡ）等の集積回路（ＩＣ）が用いられてもよい。なお、ＣＰＵはCentral Processing Unitの略称であり、ＧＰＵはGraphics Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific Integrated Circuitの略称である。ＰＬＤはProgrammable Logic Deviceの略称であり、ＦＰＧＡはField Programmable Gate Arrayの略称である。

メモリ１０ｂは、種々のデータやプログラムを格納するハードウェアの一例である。メモリ１０ｂとしては、揮発性メモリ、例えば、ＤＲＡＭ（Dynamic RAM）等のＲＡＭが挙げられる。なお、ＲＡＭはRandom Access Memoryの略称である。

記憶部１０ｃは、種々のデータやプログラム等を格納するハードウェアの一例である。例えば、記憶部１０ｃは、コンピュータ１０の二次記憶装置として使用されてよく、ＯＳ（Operating System）やファームウェア、アプリケーション等のプログラム、及び各種データが格納されてよい。記憶部１０ｃとしては、例えば、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid State Drive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。記憶部１０ｃは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｇを格納してもよい。

ＩＦ部１０ｄは、図示しないネットワークを介して、他の装置との間の接続及び通信の制御等を行なう通信インタフェースの一例である。例えばＩＦ部１０ｄとしては、イーサネット（登録商標）、光通信（例えばFibre Channel）等に準拠したアダプタが挙げられる。なお、コンピュータ１０は、管理者の管理端末との間の接続及び通信の制御等を行なう通信インタフェースをそなえてもよく、当該通信インタフェースを用いて、図示しないネットワークからプログラム１０ｇをダウンロードしてもよい。

Ｉ／Ｏ部１０ｅは、例えば、マウス、キーボード、タッチパネル、操作ボタン等の入力装置、並びに、ディスプレイや、プロジェクタ、プリンタ等の出力装置の少なくとも一方を含んでよい。

読取部１０ｆは、記録媒体１０ｈに記録されたデータやプログラムを読み出しプロセッサ１０ａに出力するリーダの一例である。読取部１０ｆは、記録媒体１０ｈを接続又は挿入可能な接続端子又は装置を含んでもよい。読取部１０ｆとしては、例えばＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｈにはプログラム１０ｇ等が格納されてもよい。

記録媒体１０ｈとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。なお、ＣＤとしては、例示的に、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ等が挙げられる。また、ＤＶＤとしては、例示的に、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等が挙げられる。

上述したコンピュータ１０のハードウェア構成は例示である。従って、コンピュータ１０内でのハードウェアの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、バスの追加又は省略等は適宜行なわれてもよい。また、検出装置１が複数のコンピュータ１０により実現される場合には、複数のコンピュータ１０間で、１つ以上のハードウェアが共用されてもよい。

〔２〕その他
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。

例えば、図１に示す検出装置１において、画像前処理部１２〜認識結果分析部１７の機能は、任意の組み合わせで併合してもよく、いずれかの機能を複数の機能に分割してもよい。

また、推定部１７１は、検出された物体の姿勢を検出できる場合、予測領域の推定処理に姿勢情報を用いてもよい。例えば、立ち止まった姿勢の動物が、前回の位置から急に大きく動く可能性は低いが、走ったり飛んだりしている動物は、前回の位置から大きく動くことが予想される。

さらに、推定部１７１は、予測領域の推定処理に、乗り物や動物等の物体の向きから予想される移動方向の情報を用いてもよい。

なお、姿勢情報や移動方向の情報は、物体検出ネットワーク（例えばＦａｓｔｅｒＲ−ＣＮＮ）とは別の手法によって推定されてよい。換言すれば、推定部１７１は、物体検出ネットワークとは異なるネットワークを含んでもよい。

また、物体検出の認識処理、例えば、検出装置１による認識結果１８１は、物体検出用学習データのラベル付けに利用されてもよい。例えば、物体の種類をＦａｓｔｅｒＲ−ＣＮＮに学習させる場合、フレームごとに、物体の種類を示すラベルを人手により入力して学習させることになるが、認識結果１８１を利用できれば、フレームごとの入力の手間を削減できる可能性がある。

〔３〕付記
以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）
コンピュータに、
画像系列から物体の移動に関する移動情報を取得し、
前記画像系列内の第１画像について、前記第１画像において物体の存在が推定される候補領域及び当該候補領域における物体の存在の可能性を示す指標の組を、前記第１画像の画像特徴量に従い推定し、
推定した前記候補領域及び前記指標の組を用いて前記第１画像における前記物体の位置を決定する、
処理を実行させ、
前記候補領域及び前記指標の組の推定は、取得した前記移動情報に基づき、前記推定の過程で取得される情報に対する補正処理を施すこと、を含む、制御プログラム。

（付記２）
前記コンピュータに、
前記画像系列内の前記第１画像よりも時間的に過去の複数の画像の各々について、当該画像ごとに、
前記画像系列から物体の移動に関する移動情報を取得し、
前記画像について、前記画像において物体の存在が推定される候補領域及び当該候補領域における物体の存在の可能性を示す指標の組を、前記画像の画像特徴量に従い推定し、
推定した前記候補領域及び前記指標の組を用いて前記画像における前記物体の位置を決定する、
処理を実行させ、
過去の複数の画像の各々についての前記候補領域及び前記指標の組の推定は、取得した前記移動情報に基づき、前記推定の過程で取得される情報に対する補正処理を施すこと、を含み、
前記第１画像に係る前記移動情報の取得は、
前記過去の複数の画像の各々について当該画像ごとに決定した物体の位置に基づき同一物体と認識される物体の位置の時間的な変化に基づいて、前記移動情報を取得する、付記１に記載の制御プログラム。

（付記３）
前記推定は、
前記候補領域及び前記指標の組を複数推定する第１の処理と、
前記複数の組の各々の指標に基づき前記複数の組を所定数の組に絞り込む第２の処理と、
前記所定数の組の前記候補領域及び前記指標と、前記画像特徴量とに基づき、前記候補領域に存在すると推定される物体の種類を推定する第３の処理と、を含み、
前記移動情報は、前記第３の処理に入力される、付記１に記載の制御プログラム。

（付記４）
前記移動情報は、前記第１画像において前記物体の存在が予測される領域を示す予測領域を含む、付記３に記載の制御プログラム。

（付記５）
前記推定は、
前記候補領域及び前記指標の組を複数推定する第１の処理と、
前記複数の組の各々の指標に基づき前記複数の組を所定数の組に絞り込む第２の処理と、
前記所定数の組の前記候補領域及び前記指標と、前記画像特徴量とに基づき、前記候補領域に存在すると推定される物体の種類を推定する第３の処理と、を含み、
前記移動情報は、前記第２の処理に入力される、付記１に記載の制御プログラム。

（付記６）
前記移動情報は、前記第１画像に係る前記第１の処理により推定される候補領域のうちの特定の候補領域の指標を補正する補正情報を含む、付記５に記載の制御プログラム。

（付記７）
前記推定は、
前記候補領域及び前記指標の組を複数推定する第１の処理と、
前記複数の組の各々の指標に基づき前記複数の組の複数の候補領域の重み付き平均を算出する第２の処理と、
前記重み付き平均の算出結果と前記画像特徴量とに基づき、前記候補領域に存在すると推定される物体の種類を推定する第３の処理と、を含み、
前記移動情報は、前記第２の処理に入力される、付記１に記載の制御プログラム。

（付記８）
前記第１画像には複数の基準領域が固定的に配置されており、
前記推定は、前記複数の基準領域の各々により形成される領域、又は、前記複数の基準領域の組み合わせにより形成される領域に基づき、前記候補領域及び前記指標を推定する、付記１〜７のいずれか１項に記載の制御プログラム。

（付記９）
前記移動情報の取得は、前記物体の位置情報と、前記画像系列内の前記第１画像及び前記第１画像の直前の画像の時間間隔と、に基づき、前記第１画像において当該物体が存在し得る領域を推定する、付記１〜８のいずれか１項に記載の制御プログラム。

（付記１０）
前記移動情報の取得は、追尾フィルタを用いた運動モデルに基づき、前記移動情報を取得する、付記１〜９のいずれか１項に記載の制御プログラム。

（付記１１）
前記移動情報の取得は、前記追尾フィルタにより推定された複数の追尾対象の領域と、前記物体の位置情報との対応付けを行なう、付記１０に記載の制御プログラム。

（付記１２）
前記移動情報の取得は、前記対応付けにより得られた複数の追尾仮説の各々の尤度に基づき、１以上の追尾仮説を前記移動情報として取得する、付記１１に記載の制御プログラム。

（付記１３）
画像系列から物体の移動に関する移動情報を取得し、
前記画像系列内の第１画像について、前記第１画像において物体の存在が推定される候補領域及び当該候補領域における物体の存在の可能性を示す指標の組を、前記第１画像の画像特徴量に従い推定し、
推定した前記候補領域及び前記指標の組を用いて前記第１画像における前記物体の位置を決定する、
処理を実行させ、
前記候補領域及び前記指標の組の推定は、取得した前記移動情報に基づき、前記推定の過程で取得される情報に対する補正処理を施すこと、を含む、制御方法。

（付記１４）
前記画像系列内の前記第１画像よりも時間的に過去の複数の画像の各々について、当該画像ごとに、
前記画像系列から物体の移動に関する移動情報を取得し、
前記画像について、前記画像において物体の存在が推定される候補領域及び当該候補領域における物体の存在の可能性を示す指標の組を、前記画像の画像特徴量に従い推定し、
推定した前記候補領域及び前記指標の組を用いて前記画像における前記物体の位置を決定する、
処理を実行させ、
過去の複数の画像の各々についての前記候補領域及び前記指標の組の推定は、取得した前記移動情報に基づき、前記推定の過程で取得される情報に対する補正処理を施すこと、を含み、
前記第１画像に係る前記移動情報の取得は、
前記過去の複数の画像の各々について当該画像ごとに決定した物体の位置に基づき同一物体と認識される物体の位置の時間的な変化に基づいて、前記移動情報を取得する、付記１３に記載の制御方法。

（付記１５）
前記推定は、
前記候補領域及び前記指標の組を複数推定する第１の処理と、
前記複数の組の各々の指標に基づき前記複数の組を所定数の組に絞り込む第２の処理と、
前記所定数の組の前記候補領域及び前記指標と、前記画像特徴量とに基づき、前記候補領域に存在すると推定される物体の種類を推定する第３の処理と、を含み、
前記移動情報は、前記第３の処理に入力される、付記１３に記載の制御方法。

（付記１６）
前記移動情報は、前記第１画像において前記物体の存在が予測される領域を示す予測領域を含む、付記１５に記載の制御方法。

（付記１７）
前記推定は、
前記候補領域及び前記指標の組を複数推定する第１の処理と、
前記複数の組の各々の指標に基づき前記複数の組を所定数の組に絞り込む第２の処理と、
前記所定数の組の前記候補領域及び前記指標と、前記画像特徴量とに基づき、前記候補領域に存在すると推定される物体の種類を推定する第３の処理と、を含み、
前記移動情報は、前記第２の処理に入力される、付記１３に記載の制御方法。

（付記１８）
前記移動情報は、前記第１の処理により推定される候補領域のうちの特定の候補領域の指標を補正する補正情報を含む、付記１７に記載の制御方法。

（付記１９）
画像系列から物体の移動に関する移動情報を取得する取得部と、
前記画像系列内の第１画像について、前記第１画像において物体の存在が推定される候補領域及び当該候補領域における物体の存在の可能性を示す指標の組を、前記第１画像の画像特徴量に従い推定する推定部と、
推定した前記候補領域及び前記指標の組を用いて前記第１画像における前記物体の位置を決定する決定部と、をそなえ、
前記推定部は、取得した前記移動情報に基づき、前記推定の過程で取得される情報に対する補正処理を施す、情報処理装置。

（付記２０）
前記取得部は、前記画像系列内の前記第１画像よりも時間的に過去の複数の画像の各々について、当該画像ごとに、前記画像系列から物体の移動に関する移動情報を取得し、
前記推定部は、前記過去の複数の画像の各々について、当該画像ごとに、前記画像について、前記画像において物体の存在が推定される候補領域及び当該候補領域における物体の存在の可能性を示す指標の組を、前記画像の画像特徴量に従い推定し、
前記決定部は、前記過去の複数の画像の各々について、当該画像ごとに、推定した前記候補領域及び前記指標の組を用いて前記画像における前記物体の位置を決定し、
前記推定部は、過去の複数の画像の各々についての前記候補領域及び前記指標の組の推定において、取得した前記移動情報に基づき、前記推定の過程で取得される情報に対する補正処理を施し、
前記取得部は、前記第１画像に係る処理において、前記過去の複数の画像の各々について当該画像ごとに決定した物体の位置に基づき同一物体と認識される物体の位置の時間的な変化に基づいて、前記移動情報を取得する、付記１９に記載の情報処理装置。

１検出装置
１０コンピュータ
１１、１８メモリ部
１１１画像データ
１２画像前処理部
１３特徴マップ計算部
１３０ＣＮＮ層
１４提案領域計算部
１４０ＲＰＮ層
１４１候補領域・スコア計算部
１４２候補領域選択部
１４３アンカー群
１４４入力画像
１５物体位置・種類推定部
１５０ＦａｓｔＲ−ＣＮＮ層
１６推定結果選択部
１７認識結果分析部
１７１推定部
１７２出力部
１８１認識結果

Claims

コンピュータに、
画像系列内の第１画像よりも時間的に過去の複数の画像から物体の移動に関する移動情報を取得し、
前記第１画像において物体の存在が推定される候補領域及び当該候補領域における物体の存在の可能性を示す指標の組を、前記第１画像の画像特徴量に従い推定し、
推定した前記候補領域及び前記指標の組を用いて前記第１画像における前記物体の位置を決定する、
処理を実行させ、
前記候補領域及び前記指標の組の推定は、取得した前記移動情報に基づき、前記推定の過程で取得される情報に対する補正処理を施すこと、を含む、制御プログラム。
前記コンピュータに、
前記画像系列内の前記第１画像よりも時間的に過去の前記複数の画像の各々について、当該画像ごとに、
前記画像系列から物体の移動に関する移動情報を取得し、
前記画像について、前記画像において物体の存在が推定される候補領域及び当該候補領域における物体の存在の可能性を示す指標の組を、前記画像の画像特徴量に従い推定し、
推定した前記候補領域及び前記指標の組を用いて前記画像における前記物体の位置を決定する、
処理を実行させ、
前記過去の複数の画像の各々についての前記候補領域及び前記指標の組の推定は、取得した前記移動情報に基づき、前記推定の過程で取得される情報に対する補正処理を施すこと、を含み、
前記第１画像に係る前記移動情報の取得は、
前記過去の複数の画像の各々について当該画像ごとに決定した物体の位置に基づき同一物体と認識される物体の位置の時間的な変化に基づいて、前記移動情報を取得する、請求項１に記載の制御プログラム。
前記推定は、
前記候補領域及び前記指標の組を複数推定する第１の処理と、
前記複数の組の各々の指標に基づき前記複数の組を所定数の組に絞り込む第２の処理と、
前記所定数の組の前記候補領域及び前記指標と、前記画像特徴量とに基づき、前記候補領域に存在すると推定される物体の種類を推定する第３の処理と、を含み、
前記移動情報は、前記第３の処理に入力される、請求項１に記載の制御プログラム。
前記移動情報は、前記第１画像において前記物体の存在が予測される領域を示す予測領域を含む、請求項３に記載の制御プログラム。
前記推定は、
前記候補領域及び前記指標の組を複数推定する第１の処理と、
前記複数の組の各々の指標に基づき前記複数の組を所定数の組に絞り込む第２の処理と、
前記所定数の組の前記候補領域及び前記指標と、前記画像特徴量とに基づき、前記候補領域に存在すると推定される物体の種類を推定する第３の処理と、を含み、
前記移動情報は、前記第２の処理に入力される、請求項１に記載の制御プログラム。
前記移動情報は、前記第１の処理により推定される候補領域のうちの特定の候補領域の指標を補正する補正情報を含む、請求項５に記載の制御プログラム。
前記推定は、
前記候補領域及び前記指標の組を複数推定する第１の処理と、
前記複数の組の各々の指標に基づき前記複数の組の複数の候補領域の重み付き平均を算出する第２の処理と、
前記重み付き平均の算出結果と前記画像特徴量とに基づき、前記候補領域に存在すると推定される物体の種類を推定する第３の処理と、を含み、
前記移動情報は、前記第２の処理に入力される、請求項１に記載の制御プログラム。
前記第１画像には複数の基準領域が固定的に配置されており、
前記推定は、前記複数の基準領域の各々により形成される領域、又は、前記複数の基準領域の組み合わせにより形成される領域に基づき、前記候補領域及び前記指標を推定する、請求項１〜７のいずれか１項に記載の制御プログラム。
画像系列内の第１画像よりも時間的に過去の複数の画像から物体の移動に関する移動情報を取得し、
前記第１画像において物体の存在が推定される候補領域及び当該候補領域における物体の存在の可能性を示す指標の組を、前記第１画像の画像特徴量に従い推定し、
推定した前記候補領域及び前記指標の組を用いて前記第１画像における前記物体の位置を決定する、
処理を実行させ、
前記候補領域及び前記指標の組の推定は、取得した前記移動情報に基づき、前記推定の過程で取得される情報に対する補正処理を施すこと、を含む、制御方法。
画像系列内の第１画像よりも時間的に過去の複数の画像から物体の移動に関する移動情報を取得する取得部と、
前記第１画像において物体の存在が推定される候補領域及び当該候補領域における物体の存在の可能性を示す指標の組を、前記第１画像の画像特徴量に従い推定する推定部と、
推定した前記候補領域及び前記指標の組を用いて前記第１画像における前記物体の位置を決定する決定部と、をそなえ、
前記推定部は、取得した前記移動情報に基づき、前記推定の過程で取得される情報に対する補正処理を施す、情報処理装置。