JP2018077829A

JP2018077829A - 情報処理方法、情報処理装置およびプログラム

Info

Publication number: JP2018077829A
Application number: JP2017172459A
Authority: JP
Inventors: セネーグレゴリー; Senay Gregory; 宗太郎築澤; Sotaro Tsukizawa
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-11-09
Filing date: 2017-09-07
Publication date: 2018-05-17
Anticipated expiration: 2037-09-07
Also published as: CN108307660B; WO2018088170A1; US10796184B2; EP3540687A1; CN108307660A; JP6964234B2; US20190251383A1; EP3540687A4

Abstract

【課題】ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる情報処理方法を提供する。【解決手段】映像を、ニューラルネットワークに入力する入力ステップと、映像に含まれる現在フレームに対して畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、映像に含まれる過去フレームに対して畳み込み処理を行わせて得た過去特徴マップと現在特徴マップとを結合させ、結合した過去特徴マップと現在特徴マップとを用いて物体候補領域を推定させ、結合した過去特徴マップおよび現在特徴マップと、推定した物体候補領域とを用いて現在フレームに映る１以上物体の位置および識別情報を推定させる処理ステップと、推定された映像の現在フレームに映る１以上の物体の位置および識別情報を、物体検出結果として出力する出力ステップとを含む。【選択図】図７

Description

本開示は、情報処理方法、情報処理装置およびプログラムに関し、特にニューラルネットワークを用いてコンピュータが行う情報処理方法、情報処理装置およびそのプログラムに関する。

近年、事故などの可能性を事前に検知し回避するシステムである先進運転支援システム（Advanced Driver Assistance System：ADAS）および自動運転車を実用するための取り組みが盛んになっている。これらを実現する重要な機能として、路上の障害物を検出する障害物検出機能がある。

障害物検出機能を実現する技術として、ディープラーニングを用いて動画像に映る複数の物体を検出する物体検出技術が注目されている（例えば非特許文献１）。非特許文献１では、ディープラーニングで用いられるCNN（Convolution Neural Network）としてFaster-RCNNを用いることで、R-CNN（Regions with CNN features）を用いた場合と比較して、認識率の向上と検出速度の高速化とを実現している。

Shaoqing Ren and al.,Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,International Conference on Computer Vision (ICCV), 2015,pages 1440-1448. Iandola F. N., and al., SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< MB model size,arXiv preprint, arXiv: 1602.07360,2016. Kaiming He and al., Deep Residual Learning for Image Recognition,The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016, pp.770-778. Alex Krizhevsky and al.,ImageNet Classification with Deep Convolutional Neural Networks,Part of:Advances in Neural Information Processing Systems 25 (NIPS 2012).

しかしながら、非特許文献１で提案されているFaster-RCNNを用いた物体検出技術は、リアルタイムに検出するまでに至っていない。そのため、ADASおよび自動運転など、リアルタイムでの物体検出が要求されるシステムに適用することは難しいという問題がある。

本開示は、上述の事情を鑑みてなされたもので、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる情報処理方法、情報処理装置およびプログラムを提供することを目的とする。

上記課題を解決するために、本開示の一形態に係る情報処理方法は、ニューラルネットワークを用いてコンピュータが行う情報処理方法であって、１以上の物体が映る映像を、前記ニューラルネットワークに入力する入力ステップと、前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、２以上の特徴マップを１つの特徴マップに結合するための結合部に、前記映像に含まれ、かつ前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、前記ニューラルネットワークが有するＲＰＮ（Region Proposal Network）であって物体候補領域を推定するためのＲＰＮに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、前記ニューラルネットワークが有するＲｏＩ（Region of Interest）プーリング層であってクラス推定を行うためのＲｏＩプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて、前記現在フレームに映る１以上物体の位置及び識別情報を推定させる処理ステップと、前記処理ステップにおいて推定された前記映像の現在フレームに映る１以上の物体の位置および識別情報を、物体検出結果として出力する出力ステップとを含む。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本開示の情報処理方法等によれば、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる。

図１は、実施の形態における情報処理装置の構成の一例を示すブロック図である。図２は、図１に示す処理部の詳細構成の一例を示すブロック図である。図３は、図２に示すＣＮＮの詳細構成の一例を示す図である。図４Ａは、SqueezeNetのネットワークモデルを示す図である。図４Ｂは、図４Ａに示すFire Moduleの構成を示す図である。図５は、実施の形態における情報処理装置の物体検出処理を示すフローチャートである。図６は、実施の形態における情報処理装置の物体検出処理の一例を示す図である。図７は、図５に示すステップＳ２の物体検出処理の詳細を示すフローチャートである。図８は、実施の形態における物体検出処理の詳細を概念的に示す図である。図９は、変形例１における処理部の詳細構成の一例を示すブロック図である。図１０は、変形例２における処理部の詳細構成の一例を示すブロック図である。図１１は、実施例におけるKITTI MOD Data setを用いた車クラスの認識率を評価した実験結果を示す図である。図１２は、実施例におけるKITTI MOD Data setを用いた歩行者クラスの認識率を評価した実験結果を示す図である。図１３は、実施例におけるKITTI MOD Data setを用いたサイクリストクラスの認識率を評価した実験結果を示す図である。図１４は、実施例におけるKITTI MOD Data setを用いた処理速度の評価結果を示す図である。

（本開示の一態様を得るに至った経緯）
物体検出技術は、画像中の物体の位置と種類とを認識する画像認識技術の一つである。近年では、ディープラーニングを用いた物体検出技術が注目されており、畳み込みニューラルネットワーク（CNN）を用いることで高い認識性能を実現している。しかし、ディープラーニングを用いた物体検出技術は、一般的に膨大な演算量が必要であり、検出速度が遅いという問題がある。

非特許文献１では、ディープラーニングで用いられるCNNとしてFaster-RCNNを用いることで、認識率の向上と検出速度の高速化とを実現している。Faster-RCNNとR-CNNとの性能を評価すると、検出速度が５ｆｐｓと０．５ｆｐｓ、認識率が６９．９％と６６．９％である。これらの結果は、既知の物体検出技術評価データセットであるPascal-VOC（Pattern Analysis,Statistical Modelling and Computational Learning Visual Obect Classes）を用いて評価している。また、認識率は、MAP(Mean Average Precision)として評価している。

このように、非特許文献１で提案されているFaster-RCNNを用いた物体検出技術では、R-CNNを用いた場合と比較して、認識率の向上と検出速度の高速化とを実現している。

しかしながら、例えば自動車が時速１００ｋｍで走行している場合には、検出速度が５ｆｐｓでも、障害物である物体が出現してから発見するまでに約５．５６ｍ進んでしまうことになる。つまり、Faster-RCNNを用いた物体検出技術の検出速度である５ｆｐｓは、障害物との衝突回避のために用いるには不十分な速度である。

このように、非特許文献１で提案されている物体検出技術では、リアルタイムに検出するまでに至っていないので、ADASおよび自動運転などリアルタイムな物体検出が要求されるシステムに適用することは難しい。

そこで、本開示の一形態に係る情報処理方法は、ニューラルネットワークを用いてコンピュータが行う情報処理方法であって、１以上の物体が映る映像を、前記ニューラルネットワークに入力する入力ステップと、前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、２以上の特徴マップを１つの特徴マップに結合するための結合部に、前記映像に含まれ、かつ前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、前記ニューラルネットワークが有するＲＰＮ（Region Proposal Network）であって物体候補領域を推定するためのＲＰＮに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、前記ニューラルネットワークが有するＲｏＩ（Region of Interest）プーリング層であってクラス推定を行うためのＲｏＩプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて、前記現在フレームに映る１以上物体の位置及び識別情報を推定させる処理ステップと、前記処理ステップにおいて推定された前記映像の現在フレームに映る１以上の物体の位置および識別情報を、物体検出結果として出力する出力ステップとを含む。

これにより、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる。

ここで、例えば、前記ニューラルネットワークは、３以上の畳み込み層を有し、前記映像に含まれる前記現在フレームに対して、前記３以上の畳み込み層のうちの一の畳み込み層に畳み込み処理を行わせて、前記現在特徴マップを算出させ、前記映像に含まれる前記過去フレームそれぞれに対して、前記３以上の畳み込み層のうち前記一の畳み込み層を除き、かつ、対応する畳み込み層に畳み込み処理を行わせて、前記過去特徴マップを算出させるとしてもよい。

また、例えば、前記ニューラルネットワークは、１つの畳み込み層を有し、前記映像に含まれる前記過去フレームに対して、前記畳み込み層に畳み込み処理を行わせて、前記過去特徴マップを算出させ、メモリに記憶させ、前記過去特徴マップと前記現在特徴マップとを結合させるとき、前記メモリに記憶された前記過去特徴マップと、前記映像に含まれる前記現在フレームに対して、前記畳み込み層に畳み込み処理を行わせて算出させた前記現在特徴マップとを結合させるとしてもよい。

また、例えば、前記畳み込み層は、所定のネットワークモデルより軽いネットワークモデルからなる。

ここで、前記軽いネットワークモデルは、前記ニューラルネットワークを用いてコンピュータが前記処理ステップを行う処理速度が５ｆｐｓよりも速いネットワークモデルである。

さらに、例えば、前記軽いネットワークモデルは、１×１のフィルタであるSqueeze層と１×１のフィルタおよび３×３のフィルタが並列に並ぶExpand層とからなるFire Moduleを複数有するSqueezeNetであるとしてもよい。

以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態）
以下では、図面を参照しながら、実施の形態における情報処理装置１０の情報処理方法等の説明を行う。

［情報処理装置１０の構成］
図１は、本実施の形態における情報処理装置１０の構成の一例を示すブロック図である。図２は、図１に示す処理部１２の詳細構成の一例を示すブロック図である。

情報処理装置１０は、ニューラルネットワークを用いたコンピュータ等で実現され、図１に示すように入力部１１と処理部１２と出力部１３とで構成されている。情報処理装置１０は、１以上の物体が映る映像が入力されると、物体の識別情報および位置情報を含む物体検出結果を出力する。なお、情報処理装置１０は、物体検出結果を付与した映像を出力してもよい。

＜入力部１１＞
入力部１１は、１以上の物体が映る映像をニューラルネットワークに入力する。より具体的には、入力部１１は、それぞれ１以上の物体が映る映像に含まれ、時系列に連続する現在フレームおよび過去フレームを処理部１２に入力する。ここで、過去フレームは、現在フレームの時間的に前のフレームであり、映像に含まれている。なお、過去フレームは、１つのフレームに限らず、現在フレームの時間的に前のフレームであって時間的に連続する２つ以上のフレームであってもよい。また、時間的に連続する２つ以上のフレームとは、処理部１２が物体検出できる時間的な間隔で時系列に連続したフレームであればよい。そのため、検出したい物体または車載カメラ自身の移動速度などに応じて連続するフレームの時間的な間隔は変更されればよい。

本実施の形態では、入力部１１は、時系列に連続した２つの画像である現在フレームおよび過去フレームを処理部１２に入力するとして説明する。

＜処理部１２＞
処理部１２は、本開示のニューラルネットワークを用いて、映像の現在フレームに映る１以上の物体の位置および識別情報を推定する物体検出処理を行う。本実施の形態では、処理部１２は、図２に示すように、ＣＮＮ１２１と、ＣＮＮ１２２と、結合部１２４と、ＲＦＰ１２５と、ＲＯＩプーリング層１２６とを備える。換言すると、本開示のニューラルネットワークは、ＣＮＮ１２１と、ＣＮＮ１２２と、結合部１２４と、ＲＦＰ１２５と、ＲＯＩプーリング層１２６とを備える。なお、以下では、本開示のニューラルネットワークを、Temporal Faster-RCNNとも称する。

≪ＣＮＮ１２１、ＣＮＮ１２２≫
ＣＮＮ１２１およびＣＮＮ１２２は、本開示のニューラルネットワークが有する２以上の畳み込み層の一例であり、入力された画像から特徴マップを算出するための畳み込みニューラルネットワーク（CNN）で構成される。ＣＮＮ１２１およびＣＮＮ１２２を構成する畳み込みニューラルネットワークは、同一であり、重みを共有する。また、ＣＮＮ１２１およびＣＮＮ１２２を構成する畳み込みニューラルネットワークは、事前に学習されている。

ＣＮＮ１２１は、映像に含まれる現在フレームに対して畳み込み処理を行い、現在の特徴マップである現在特徴マップを算出する。より具体的には、ＣＮＮ１２１は、入力部１１により入力された現在フレームに対して畳み込み処理を行い、現在フレームに対する特徴マップを算出する。

ＣＮＮ１２２は、映像に含まれ、かつ現在フレームの時間的に前の過去フレームに対して畳み込み処理を行い、過去特徴マップを算出する。より具体的には、ＣＮＮ１２１は、入力部１１により入力された過去フレームに対して畳み込み処理を行い、過去フレームに対する特徴マップを算出する。

ここで、ＣＮＮ１２１およびＣＮＮ１２２を構成する畳み込みニューラルネットワークのネットワークモデルの一例について説明する。図３は、図２に示すＣＮＮ１２１の詳細構成の一例を示す図である。なお、ＣＮＮ１２２の詳細構成も図３と同様のため、説明を省略する。図４Ａは、SqueezeNetのネットワークモデルを示す図である。図４Ｂは、図４Ａに示すFire Moduleの構成を示す図である。

ＣＮＮ１２１を構成する畳み込みニューラルネットワークのネットワークモデルは、１×１のフィルタであるSqueeze層と１×１のフィルタおよび３×３のフィルタが並列に並ぶExpand層とからなるFire Moduleを、複数有するSqueezeNetである。図３に示すＣＮＮ１２１は、例えば図４Ａに示すSqueezeNetのうち識別層を除いたＣＮＮ部分であるconv1〜fire9からなる。図３に示すように、最後の層であるfire9では出力が５１２に絞られている。なお、SqueezeNetの詳細は非特許文献２に開示されている。

SqueezeNetは、例えば図４Ａに示すように、２つの畳み込み層であるconv1、conv10と、３つMax Pooling層であるmaxpool/2と、８つのFire Moduleとを有する。

Fire Moduleは、例えば図４Ｂに示すように、３つの畳み込み層ＣＮＮ１、ＣＮＮ２、ＣＮＮ３から構成される。ＣＮＮ１は、１×１のフィルタであるSqueeze層と呼ばれる。ＣＮＮ２は３×３のフィルタであり、ＣＮＮ３は１×１のフィルタであり、並列に並べたＣＮＮ２およびＣＮＮ３でExpand層を構成する。つまり、Fire Moduleは、Squeeze層とExpand層とからなる。

そして、Fire Moduleでは、Squeeze層であるＣＮＮ１によって、Expand層を構成するＣＮＮ２に与えるチャンネル数を絞り、ＣＮＮ２と並列に並べたＣＮＮ１によって実質的にチャンネル数を折半して極力チャンネル数を下げることができる。

なお、３つMax Pooling層は、SqueezeNetの精度を保つために、conv1、fire4、fire8、conv10の後に挿入されている。

このように、SqueezeNetでは、Fire Moduleを畳み込み層の代わりに用いることで、パラメータの削減を行い非常に省メモリなネットワークを構成する。また、SqueezeNetは、精度を維持した上で、演算量を下げることができる。

以上から、本実施の形態では、演算量削減のために、特徴マップを算出するために用いられるＣＮＮ１２１に、SqueezeNetを適用する。

なお、SqueezeNetは、画像識別に使用される所定のネットワークモデルより軽いネットワークモデルの一例である。ここで、所定のネットワークモデルは、例えばFaster-RCNNおよびR-CNN等で使用されるVGG(Visual Gemetry Group)などであり、従来、画像識別に使用される畳み込みニューラルネットワークのネットワークモデルである。したがって、ＣＮＮ１２１に適用されるネットワークモデルは、SqueezeNetに限らない。本開示のニューラルネットワークを用いてコンピュータが物体検出処理を行う処理速度が５ｆｐｓよりも速くなる軽いネットワークモデルであれば、ＣＮＮ１２１に適用できる。ＣＮＮ１２１に適用されるネットワークモデルとしては、例えば、いわゆるAlexNetでもよいし、いわゆるResidualNetでもよい。AlexNetについては非特許文献３に開示され、ResidualNetについては非特許文献４に開示されている。

≪結合部１２４≫
結合部１２４は、２以上の特徴マップを１つの特徴マップに結合する。より具体的には、結合部１２４は、映像に含まれる現在フレームの時間的に前の過去フレームに対してＣＮＮ１２２が畳み込み処理を行い得た特徴マップである過去特徴マップと現在特徴マップとを結合する。

本実施の形態では、過去特徴マップと現在特徴マップとの領域を連結させて結合する。換言すると、結合部１２４は、異なる時間のフレームに対して畳み込み処理を行って得た特徴マップのすべての領域を連結させて結合する。

結合部１２４は、結合して得た１つの特徴マップをＲＦＰ１２５およびＲＯＩプーリング層１２６に出力する。

≪ＲＦＰ１２５≫
ＲＦＰ１２５は、物体候補領域を推定するためのネットワークであり、Region Proposal Networkとも呼ばれる。具体的には、ＲＦＰ１２５は、事前に学習されている。ＲＦＰ１２５は、特徴マップに対して、検出ウィンドウをラスタスキャンし、物体らしさを示すスコアと物体の領域の２つを出力する。このように、ＲＦＰ１２５は、特徴マップを用いて、物体候補の推定と、その領域の認識を同時に行うことができる。

本実施の形態では、ＲＦＰ１２５は、結合部１２４で結合された過去特徴マップと現在特徴マップとを用いて、物体候補領域を推定する。より具体的には、ＲＦＰ１２５は、現在フレームに対する現在特徴マップと過去フレームに対する過去特徴マップとが連結された特徴マップに対して、物体らしさを示すスコアと物体の領域の２つを含む物体候補領域を推定する。

また、ＲＦＰ１２５は、推定した物体候補領域をＲＯＩプーリング層１２６に出力する。

≪ＲＯＩプーリング層１２６≫
ＲＯＩプーリング層１２６は、クラス推定を行うために用いられる。より具体的には、ＲＯＩプーリング層１２６は、入力を任意のサイズの出力に変形するROI poolingを用いて、物体候補領域に対するクラス識別を行うことで、物体検出を行う。

本実施の形態では、ＲＯＩプーリング層１２６は、結合部１２４で結合された過去特徴マップおよび現在特徴マップと、ＲＦＰ１２５で推定された物体候補領域とを用いて、現在フレームに映る１以上物体の位置及び識別情報を推定する。

＜出力部１３＞
出力部１３は、処理部１２において推定された映像の現在フレームに映る１以上の物体の位置および識別情報を、物体検出結果として出力する。

このようにして、出力部１３は、入力部１１に入力された映像に映る１以上の物体の位置および識別情報を、物体検出結果として出力することができる。なお、出力部１３は、入力部１１に入力された映像に物体検出結果を付与して出力してもよい。

［情報処理装置１０の動作］
上述のように構成された情報処理装置１０の動作の一例について以下説明する。

図５は、本実施の形態における情報処理装置１０の物体検出処理を示すフローチャートである。図６は、本実施の形態における情報処理装置１０の物体検出処理の一例を示す図である。

まず、情報処理装置１０は、１以上の物体が映る映像を、本開示のニューラルネットワークであるTemporal Faster-RCNNに入力する入力処理を行う（Ｓ１）。例えば、図６に示すように、情報処理装置１０は、物体５０１と物体５０２との物体が映る映像５０をTemporal Faster-RCNNに入力する。

次に、情報処理装置１０は、映像に映る１以上物体の位置及び識別情報を推定する物体検出処理を行い（Ｓ２）、物体検出結果として出力する出力処理を行う（Ｓ３）。例えば、図６に示すように、情報処理装置１０は、物体５０１、５０２の位置を示す枠５０３、５０４と、物体５０１が車両であり、物体５０２が動物であることを示す識別情報とを付した映像５０ａを、物体検出結果として出力する。

図７は、図５に示すステップＳ２の物体検出処理の詳細を示すフローチャートである。図８は、本実施の形態における物体検出処理の詳細を概念的に示す図である。

ステップＳ２において、まず、情報処理装置１０は、映像に含まれる現在フレームに対して、畳み込み処理を行い、現在特徴マップを算出する（Ｓ２１）。より具体的には、情報処理装置１０は、映像に含まれる現在フレームおよび過去フレームそれぞれに対して、畳み込み処理を行い、現在特徴マップおよび過去特徴マップを算出している。図８に示す例では、情報処理装置１０は、現在フレーム５０_ｔに対してＣＮＮ１２１に畳み込み処理を行わせることで現在の特徴マップである現在特徴マップ５１_ｔを算出させている。また、情報処理装置１０は、現在フレーム５０_ｔの時間的に前の過去フレーム５０_ｔ−１に対してＣＮＮ１２２に畳み込み処理を行わせることで過去の特徴マップである過去特徴マップ５１_ｔ−１を算出させている。

次に、情報処理装置１０は、過去フレームに対して畳み込み処理を行って得た過去特徴マップと、現在特徴マップとを結合する（Ｓ２２）。図８に示す例では、情報処理装置１０は、結合部１２４に、現在特徴マップ５１_ｔと過去特徴マップ５１_ｔ−１とを連結させることで、現在特徴マップ５１_ｔと過去特徴マップ５１_ｔ−１とを結合させている。そして、情報処理装置１０は、結合部１２４に、現在特徴マップ５１_ｔと過去特徴マップ５１_ｔ−１と結合させて得た１つの特徴マップをＲＦＰ１２５とＲＯＩプーリング層１２６とに出力させている。

次に、情報処理装置１０は、結合した過去特徴マップと現在特徴マップとを用いて、物体候補領域を推定する（Ｓ２３）。図８に示す例では、情報処理装置１０は、ＲＦＰ１２５に、過去特徴マップ５１_ｔ−１と現在特徴マップ５１_ｔとが結合されて得た１つの特徴マップを用いて、物体らしさを示すスコアと物体の領域の２つを含む物体候補領域５２を推定させている。

次に、情報処理装置１０は、結合した過去特徴マップおよび現在特徴マップと、推定した物体候補領域とを用いて現在フレームに映る１以上物体の位置及び識別情報を推定する（Ｓ２４）。図８に示す例では、情報処理装置１０は、ＲＯＩプーリング層１２６に、過去特徴マップ５１_ｔ−１と現在特徴マップ５１_ｔとが結合されて得た１つの特徴マップを用いて、物体候補領域５２に対するクラス識別を行わせることで、現在フレームに映る１以上物体の位置及び識別情報を推定させている。

［効果等］
ディープラーニングを用いた物体検出において、特徴マップの算出は、演算量の観点から最も問題となる。そこで、特徴マップを算出するための畳み込みニューラルネットワークに、画像識別に通常使用されてきたVGGなどの所定のネットワークモデルより軽いネットワークモデルであるSqueezeNetなどを適用することで、特徴マップの算出の演算量を削減する。

一方で、算出した特徴マップには、物体の候補位置および物体の種類に関する情報が含まれるので、認識性能に大きな影響を与える。つまり、特徴マップを算出するための畳み込みニューラルネットワークにSqueezeNetなどを適用することで軽量化すると、認識性能が大きく低下する。そこで、時系列情報、すなわち過去のフレームの情報と現在のフレームの情報を同時に認識に用いることで、演算量を維持しながら認識性能の低下を抑制する。より具体的には、過去のフレームの物体検出で算出した特徴マップを、現在のフレームの物体検出にも利用することで、演算量を維持しながら認識性能の向上を図る。

本実施の形態における情報処理装置１０では、SqueezeNetなど軽いネットワークモデルを適用したＣＮＮ１２１およびＣＮＮ１２２を備え、過去フレームに対する過去特徴マップと、現在フレームに対する現在特徴マップとを現在フレームの物体検出に利用する。

学習時には、ＣＮＮ１２１およびＣＮＮ１２２に、使用するすべてのフレームに対して都度特徴マップの算出を行わせる。一方、検出時には、現在フレームの特徴マップのみＣＮＮ１２１で算出すればよく、過去フレームの特徴マップは、過去フレームが現在フレームであるときにＣＮＮ１２２が算出し保持しているものを用いればよい。これにより、学習時の演算量は使用する過去フレームの数により大きく増大するが、検出時の演算量はほとんど増大しないようにすることができる。

このように、特徴マップの算出をSqueezeNetなど軽いネットワークモデルを用いて行うことで、演算量を削減するとともに、これにより悪化する認識性能をマルチフレームの特徴マップすなわち現在フレームおよび過去フレームの特徴マップを利用することで向上させることができる。つまり、特徴マップの算出処理を軽量化した場合でも認識率の低下を抑制することができる。

以上のように、本実施の形態における情報処理装置１０によれば、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる。それにより、本実施の形態における情報処理装置１０を、ADASおよび自動運転など、リアルタイムの物体検出が要求されるシステムに適用でき得る。

なお、例えば駐車車両で体の大部分が隠された歩行者などの部分が隠ぺいされた物体は、静止画などシングルフレームの特徴マップを利用する場合には、検出できない。一方、本実施の形態における情報処理装置１０では、動画などマルチフレームの特徴マップを利用するので、例えば駐車車両等で体の大部分が隠された歩行者など部分が隠ぺいされた物体の検出もすることができる。

（変形例１）
上記の実施の形態では、処理部１２は、ＣＮＮ１２１およびＣＮＮ１２２、すなわち入力された画像から特徴マップを算出する畳み込みニューラルネットワークを２つ備えるとしたが、これに限らない。特徴マップを算出する畳み込みニューラルネットワークを１つのみ備えるとしてもよい。以下、この場合を変形例１として、実施の形態と異なるところを中心に説明する。

［処理部１２Ａの構成］
図９は、変形例１における処理部１２Ａの詳細構成の一例を示すブロック図である。図２と同様の要素には同一の符号を付しており、詳細な説明は省略する。

処理部１２Ａは、図９に示すように、ＣＮＮ１２１ａと、メモリ１２３と、結合部１２４ａと、ＲＦＰ１２５と、ＲＯＩプーリング層１２６とを備える。処理部１２Ａは、実施の形態における処理部１２と比較して、メモリ１２３が追加され、１つの畳み込みネットワークであるＣＮＮ１２１ａのみを備える点で構成が異なる。換言すると、本開示のニューラルネットワークは、ＣＮＮ１２１ａと、メモリ１２３と、結合部１２４ａと、ＲＦＰ１２５と、ＲＯＩプーリング層１２６とを備えるとしてもよい。

＜メモリ１２３＞
メモリ１２３は、ハードディスクまたは半導体メモリ等で構成され、情報を記憶する。本実施の形態では、メモリ１２３は、ＣＮＮ１２１ａが算出した過去フレームに対する過去特徴マップを記憶する。

＜ＣＮＮ１２１ａ＞
ＣＮＮ１２１ａは、本開示のニューラルネットワークが有する一つの畳み込み層の一例であって入力された画像から特徴マップを算出する。ＣＮＮ１２１ａは、映像に含まれる過去フレームに対して畳み込み処理を行い、過去特徴マップを算出する。そして、ＣＮＮ１２１ａは、算出した過去特徴マップを、メモリ１２３に記憶する。より具体的には、ＣＮＮ１２１ａは、入力部１１により入力された過去フレームに対して畳み込み処理を行い、過去フレームに対する特徴マップを算出し、メモリ１２３に記憶する。

また、ＣＮＮ１２１ａは、映像に含まれる現在フレームに対して畳み込み処理を行い、現在の特徴マップである現在特徴マップを算出する。より具体的には、ＣＮＮ１２１ａは、入力部１１により入力された現在フレームに対して畳み込み処理を行い、現在フレームに対する特徴マップを算出する。

また、ＣＮＮ１２１ａを構成するニューラルネットワークのネットワークモデルは、上述したようにSqueezeNetなど画像識別に使用される所定のネットワークモデルより軽いネットワークモデルである。なお、詳細は上述した通りであるのでここでの説明は省略する。

＜結合部１２４ａ＞
結合部１２４ａは、図９に示すように、メモリ１２３に記憶された過去特徴マップと、映像に含まれる現在フレームに対して、ＣＮＮ１２１ａが畳み込み処理を行い算出した現在特徴マップとを結合する。その他については上述した通りであるのでここでの説明は省略する。

なお、本変形例の情報処理装置のその他の構成および動作は、上記の実施の形態の情報処理装置１０のその他の構成および動作で説明した通りである。

［効果等］
本変形例における情報処理装置によれば、メモリ１２３と、SqueezeNetなど軽いネットワークモデルを適用したＣＮＮ１２１ａとを備えることで、過去フレームに対する過去特徴マップと、現在フレームに対する現在特徴マップとを現在フレームの物体検出に利用することができる。

このように、時刻Ｔ−１での現在フレームに対する特徴マップがメモリ１２３に保存され、時刻Ｔで、過去フレームに対する特徴マップとして伝播され、時刻Ｔでの現在フレームに対する特徴マップとともに利用することができる。

以上のように、本変形例における情報処理装置によれば、特徴マップの算出処理を軽量化した場合でも認識率の低下を抑制することができるので、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる。

（変形例２）
上記の実施の形態では、現在フレームの物体検出に利用するマルチフレームの特徴マップの一例として、現在フレームと１つの過去フレームの２つのフレームの特徴マップを用いることを例に挙げて説明したが、これに限らない。現在フレームと２つ以上の過去フレームの特徴マップを用いてもよい。以下、この場合を変形例２として、実施の形態と異なるところを中心に説明する。

［処理部１２Ｂの構成］
図１０は、変形例２における処理部１２Ｂの詳細構成の一例を示すブロック図である。図２と同様の要素には同一の符号を付しており、詳細な説明は省略する。

処理部１２Ｂは、図１０に示すように、ＣＮＮ１２１と、ＣＮＮ１２２−１…ＣＮＮ１２２−ｎと、結合部１２４ｂと、ＲＦＰ１２５と、ＲＯＩプーリング層１２６とを備える。ここで、ｎは２以上の自然数である。処理部１２Ｂは、実施の形態における処理部１２と比較して、ＣＮＮ１２２が複数すなわちＣＮＮ１２２−１…ＣＮＮ１２２−ｎを備える点で構成が異なる。換言すると、本開示のニューラルネットワークは、ＣＮＮ１２１と、ＣＮＮ１２２−１…ＣＮＮ１２２−ｎと、結合部１２４ｂと、ＲＦＰ１２５と、ＲＯＩプーリング層１２６とを備えるとしてもよい。

＜ＣＮＮ１２１、ＣＮＮ１２２−１…ＣＮＮ１２２−ｎ＞
ＣＮＮ１２１およびＣＮＮ１２２−１…ＣＮＮ１２２−ｎは、本開示のニューラルネットワークが有する３以上の畳み込み層の一例であって入力された画像から特徴マップを算出する。

ＣＮＮ１２１は、３以上の畳み込み層のうちの一の畳み込み層であり、現在フレーム_ｔに対して畳み込み処理を行い、現在特徴マップを算出する。

一方、ＣＮＮ１２２−１…ＣＮＮ１２２−ｎは、３以上の畳み込み層のうち上記の一の畳み込み層を除く畳み込み層である。ＣＮＮ１２２−１…ＣＮＮ１２２−ｎはそれぞれ、対応する過去フレーム_ｔ−１〜過去フレーム_ｔ−ｎに対して畳み込み処理を行い、過去特徴マップを算出する。

なお、ＣＮＮ１２１およびＣＮＮ１２２−１…ＣＮＮ１２２−ｎを構成するニューラルネットワークのネットワークモデルは、上述したようにSqueezeNetなど画像識別に使用される所定のネットワークモデルより軽いネットワークモデルである。なお、詳細は上述した通りであるのでここでの説明は省略する。

＜結合部１２４ｂ＞
結合部１２４ｂは、図１０に示すように、ＣＮＮ１２２−１…ＣＮＮ１２２−ｎが算出した過去フレーム_ｔ−１〜過去フレーム_ｔ−ｎそれぞれに対する過去特徴マップと、ＣＮＮ１２１が算出した現在フレーム_ｔに対する現在特徴マップとを結合する。その他については上述した通りであるのでここでの説明は省略する。

［効果等］
このように、現在特徴マップと結合するために利用する過去特徴マップは、１つの過去フレームのものに限らず、２以上の過去フレームであってもよい。

本変形例における情報処理装置によれば、SqueezeNetなど軽いネットワークモデルを適用したＣＮＮ１２１ａおよびＣＮＮ１２２−１…ＣＮＮ１２２−ｎを備えることで、２以上の過去フレームそれぞれに対する過去特徴マップと、現在フレームに対する現在特徴マップとを現在フレームの物体検出に利用することができる。

（実施例）
情報処理装置１０に用いられるニューラルネットワークであるTemporal Faster-RCNNの有効性について検証したので、その実験結果を実施例として説明する。

本実施例では、KITTI MOD Data setを用いて情報処理装置１０に用いられるニューラルネットワークの性能を評価したので、その結果について説明する。

＜KITTI MOD Data set ＞
KITTI MOD Data setは、実写映像による複数物体検出ベンチマークデータセットである。映像には、都市部、郊外および高速道路の映像が含まれている。映像中には、最大１５大の車両と３０人の歩行者が含まれており、７４８１枚の学習用画像と７５１８枚のテスト用画像で構成されている。また、全データセット中には８０２５６個のラベル付き物体が含まれている。

本実験は、学習用画像として提供されているデータを分割した３６８２枚のミニ学習用画像、３７９９枚のミニテスト画像を用いて行った。また、本実験は、路上の障害物として検出優先度が高い車、歩行者、サイクリストの３種類の物体について行った。

＜実験条件＞
本実験は、次のパラメータにて行った。すなわち、本実験は、Learning rate：0.005、Learning rate step：30,000 iterations以降、0.1倍、raining input scales：[400,600,800,1000]、Maximum width: 2000、Testing scale: 600にて行った。マルチフレーム使用条件は、すべて現在のフレームと過去３フレームを使用するとした。

本実験では、マルチフレームのSqueezeNetを特徴マップの算出に用いた場合に、演算量削減と高認識率維持との両立が可能かを評価した。

＜実験結果＞
図１１は、本実施例におけるKITTI MOD Data setを用いた車クラスの認識率を評価した実験結果を示す図である。図１２は、本実施例におけるKITTI MOD Data setを用いた歩行者クラスの認識率を評価した実験結果を示す図である。図１３は、本実施例におけるKITTI MOD Data setを用いたサイクリストクラスの認識率を評価した実験結果を示す図である。認識率は、MAP(Mean Average Precision)であり、単位は％である。

なお、図１１〜図１３において、Mono Frameは、単フレームを示し、Multi Framesは、マルチフレームを示す。SQNは、SqueezeNetを示し、VGGは、VGG-16を示す。また、Easy、Moderate、Hardは、検出難易度を示すラベルである。これらの検出難易度を示すラベルは、KITTI MOD Data setに予め付与されている。また、図１１〜図１３において、Multi Frames SQNが、本開示のFaster-RCNNにおいて特徴マップの算出に用いるニューラルネットワークに該当する。また、Mono Frame VGGが、比較例のニューラルネットワークに該当し、Faster-RCNNにおいて特徴マップの算出に用いるニューラルネットワークに該当する。

図１１〜図１３に示すように、Multi Frames SQNの認識率は、すべての条件下でMono Frame SQNの認識率よりも向上しているのがわかる。例えば、検出難易度がModerateの場合、図１２および図１３に示すように、歩行者クラスでは+１８％、サイクリストクラスでは+９％と大きく認識率が向上している。一方、図１１に示すように、車クラスでは+３.８６％と認識率の向上が他のクラスよりも低い。これは、歩行者またはサイクリストと比較して、車の移動速度が速いため、１０ｆｐｓのKITTI MOD Data setではフレーム間の移動量が大きすぎたためと考えられる。

また、図１１に示すように、Multi Frames VGGの認識率は、車クラスにおいて検出難易度がModerateの場合に、Mono Frame VGGの認識率と比較して向上している。その他のクラスについては若干低下している。これは、VGG-16が巨大なネットワークであるため、本実験で使用したミニ学習用画像のデータ規模では十分な学習が行えなかったためであると考えられる。

図１４は、本実施例におけるKITTI MOD Data setを用いた処理速度の評価結果を示す図である。なお、処理速度は、NVIDIA GeForce GTX1080のＧＰＵを使用して評価した。

図１４に示すように、Multi Frames SQNの処理速度は、Mono Frame VGGの処理速度と比較して約２．４倍になっているのがわかる。なお、メモリー消費量は、Mono FrameとMulti Framesとを比較して６％程度の増加にとどまっており、メモリーサイズに関する実用上の大きな影響はなかった。

以上の実験結果から、Multi Frames SQNで示される本開示のニューラルネットワークであるTemporal Faster-RCNNは、Mono Frame VGGで示されるFaster-RCNNと比較して、認識率の低下を３．７％〜１０％に抑制した上で、約２．４倍の高速化を実現できるのがわかった。

また、単純な高速化手法であるFaster-RCNNのVGG-16部分をSqueezeNetに置き換えた場合と比較すると、マルチフレームを用いることで、１２．９％の演算量の増加で、７．７％〜１７．９％の認識率向上が可能であることがわかった。

以上のように、本開示に係る情報処理装置および情報処理方法によれば、ニューラルネットワークを用いてコンピュータが行う物体検出の処理速度をより向上できる。したがって、本開示に係る情報処理装置および情報処理方法を、ADASまたは自動運転など、リアルタイムな物体検出が要求されるシステムに十分に適用できる。

（他の実施態様の可能性）
以上、実施の形態において本開示の情報処理方法について説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサーなど（以下に説明）によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。

なお、本開示は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。

また、本開示は、さらに、以下のような場合も含まれる。

（１）上記の装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

（４）また、本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

（５）また、本開示は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。

また、本開示は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

本開示は、ディープラーニングを用いた情報処理方法、情報処理装置およびプログラムに利用でき、特にADASおよび自動運転など、リアルタイムな物体検出が要求されるシステムに利用できる。

１０情報処理装置
１１入力部
１２、１２Ａ、１２Ｂ処理部
１３出力部
５０、５０ａ映像
５０_ｔ現在フレーム
５０_ｔ−１過去フレーム
５１_ｔ現在特徴マップ
５１_ｔ−１過去特徴マップ
５２物体候補領域
１２１、１２１ａ、１２２、１２２−１・・・１２２−ｎＣＮＮ
１２３メモリ
１２４、１２４ａ、１２４ｂ結合部
１２５ＲＦＰ部
１２６ＲＯＩプーリング層
５０１、５０２物体
５０３、５０４枠

Claims

ニューラルネットワークを用いてコンピュータが行う情報処理方法であって、
１以上の物体が映る映像を、前記ニューラルネットワークに入力する入力ステップと、
前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、
２以上の特徴マップを１つの特徴マップに結合するための結合部に、前記映像に含まれ、かつ前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、
前記ニューラルネットワークが有するＲＰＮ（Region Proposal Network）であって物体候補領域を推定するためのＲＰＮに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、
前記ニューラルネットワークが有するＲｏＩ（Region of Interest）プーリング層であってクラス推定を行うためのＲｏＩプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて、前記現在フレームに映る１以上物体の位置及び識別情報を推定させる処理ステップと、
前記処理ステップにおいて推定された前記映像の現在フレームに映る１以上の物体の位置および識別情報を、物体検出結果として出力する出力ステップとを含む、
情報処理方法。
前記ニューラルネットワークは、３以上の畳み込み層を有し、
前記映像に含まれる前記現在フレームに対して、前記３以上の畳み込み層のうちの一の畳み込み層に畳み込み処理を行わせて、前記現在特徴マップを算出させ、
前記映像に含まれる前記過去フレームそれぞれに対して、前記３以上の畳み込み層のうち前記一の畳み込み層を除き、かつ、対応する畳み込み層に畳み込み処理を行わせて、前記過去特徴マップを算出させる、
請求項１に記載の情報処理方法。
前記ニューラルネットワークは、１つの畳み込み層を有し、
前記映像に含まれる前記過去フレームに対して、前記畳み込み層に畳み込み処理を行わせて、前記過去特徴マップを算出させ、メモリに記憶させ、
前記過去特徴マップと前記現在特徴マップとを結合させるとき、前記メモリに記憶された前記過去特徴マップと、前記映像に含まれる前記現在フレームに対して、前記畳み込み層に畳み込み処理を行わせて算出させた前記現在特徴マップとを結合させる、
請求項１に記載の情報処理方法。
前記畳み込み層は、所定のネットワークモデルより軽いネットワークモデルからなる、
請求項１〜３のいずれか１項に記載の情報処理方法。
前記軽いネットワークモデルは、前記ニューラルネットワークを用いてコンピュータが前記処理ステップを行う処理速度が５ｆｐｓよりも速いネットワークモデルである、
請求項４に記載の情報処理方法。
前記軽いネットワークモデルは、１×１のフィルタであるSqueeze層と１×１のフィルタおよび３×３のフィルタが並列に並ぶExpand層とからなるFire Moduleを複数有するSqueezeNetである、
請求項４または５に記載の情報処理方法。
１以上の物体が映る映像を、ニューラルネットワークに入力する入力ステップと、
前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、
２以上の特徴マップを１つの特徴マップに結合するための結合部に、前記映像に含まれる前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、
前記ニューラルネットワークが有するＲＰＮであって物体候補領域を推定するためのＲＰＮに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、
前記ニューラルネットワークが有するＲｏＩプーリング層であってクラス推定を行うためのＲｏＩプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて前記現在フレームに映る１以上物体の位置及び識別情報を推定させる処理ステップと、
前記処理ステップにおいて推定された前記映像の現在フレームに映る１以上の物体の位置および識別情報を、物体検出結果として出力する出力ステップとを、
コンピュータに実行させるプログラム。
ニューラルネットワークを用いてコンピュータが行う情報処理装置であって、
１以上の物体が映る映像を、前記ニューラルネットワークに入力する入力部と、
前記映像に含まれる現在フレームに対して、前記ニューラルネットワークが有する畳み込み層に畳み込み処理を行わせて現在の特徴マップである現在特徴マップを算出させ、
２以上の特徴マップを１つの特徴マップに結合するための結合部に、前記映像に含まれる前記現在フレームの時間的に前の過去フレームに対して前記畳み込み層に畳み込み処理を行わせて得た特徴マップである過去特徴マップと前記現在特徴マップとを結合させ、
前記ニューラルネットワークが有するＲＰＮであって物体候補領域を推定するためのＲＰＮに、結合した前記過去特徴マップと前記現在特徴マップとを用いて物体候補領域を推定させ、
前記ニューラルネットワークが有するＲｏＩプーリング層であってクラス推定を行うためのＲｏＩプーリング層に、結合した前記過去特徴マップおよび前記現在特徴マップと、推定した前記物体候補領域とを用いて前記現在フレームに映る１以上物体の位置及び識別情報を推定させる処理部と、
前記処理部において推定された前記映像の現在フレームに映る１以上の物体の位置および識別情報を、物体検出結果として出力する出力部とを備える、
情報処理装置。