JP2021506017A

JP2021506017A - 物体検出器及び物体検出方法

Info

Publication number: JP2021506017A
Application number: JP2020531178A
Authority: JP
Inventors: ジョーンズ、マイケル; ブロード、アレクサンダー
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-02-06
Filing date: 2018-07-30
Publication date: 2021-02-18
Anticipated expiration: 2038-07-30
Also published as: US20190244028A1; US11164003B2; JP7200247B2; WO2019155658A1

Abstract

物体検出器は、ビデオフレームシーケンスを受け取る入力インターフェースと、ビデオフレーム内の物体を検出するようにトレーニングされたニューラルネットワークを記憶するメモリと、ニューラルネットワークを用いて各ビデオフレームを順次処理して、ビデオフレームシーケンス内の物体を検出するプロセッサと、物体検出情報を出力する出力インターフェースとを備える。ニューラルネットワークは、第１のサブネットワークと、第２のサブネットワークと、第３のサブネットワークとを備える。第１のサブネットワークは、ビデオフレームを入力として受信してビデオフレームの特徴マップを出力する。第２のサブネットワークは、特徴マップを入力として取り込んで時間的特徴マップを出力する回帰型ニューラルネットワークである。第３のサブネットワークは、時間的特徴マップを入力として取り込んで物体検出情報を出力する。

Description

本発明は、包括的には、コンピュータビジョンに関し、より詳細には、ビデオシーケンス内の物体を検出することに関する。

物体検出は、コンピュータビジョンにおける最も根本的な問題のうちの１つである。これは、その本来的な複雑さと、その用途が広範囲に及ぶ可能性があることとに部分的に起因している。物体検出の目標のうちの１つは、各検出の信頼値を用いて入力画像内のバウンディングボックスの形で既定の物体クラスのインスタンスを検出及び位置特定することである。物体検出問題は、走査ウィンドウ技法によって物体分類問題に変換することができる。しかしながら、走査ウィンドウ技法は、様々なロケーション、スケール、及び縦横比の全ての可能性のある画像領域について分類ステップを実行するので、非効率的である。

領域ベース畳み込みニューラルネットワーク（Ｒ−ＣＮＮ：region-based convolution neural network）が、２段階手法を実行するのに用いられる。２段階手法では、提案ジェネレータを用いて一組の物体提案が関心領域（ＲＯＩ：regions of interest）として生成され、深層ニューラルネットワークを用いてＲＯＩ内の物体の存在及びクラスが判断される。しかしながら、Ｒ−ＣＮＮの検出精度は、幾つかの場合には不十分である。

シングルショット物体検出器は、物体検出に用いられる別のニューラルネットワークアーキテクチャである。この種のネットワークには、領域提案段階はない。代わりに、入力画像は、多くの異なる重複領域に自動的に分割され、多くの畳み込み層及びプーリング層が、各領域の確率を直接出力する。１つ以上のバウンディングボックスも領域ごとに出力される。これらのバウンディングボックスは、クラスのいずれもが高確率を有しない場合には無視される。このタイプのニューラルネットワークは、領域提案型アーキテクチャよりも高速である傾向を有する。しかしながら、それらの精度は、幾つかの場合には同じく不十分である。

この問題は、マルチクラス検出においてより一層明白になる。用語「マルチクラス」とは、物体検出器が、単一の検出器を用いて複数の異なる物体クラスを検出することができることを指す。この研究の大部分は、単一画像を入力として用いることに集中してきた。畳み込みニューラルネットワーク（ＣＮＮ：Convolutional neural networks）が、近年の進歩において支配的である。

しかしながら、多くのアプリケーションにとって、物体検出器への通常の入力はビデオである。標準的に行われているのは、ビデオシーケンスを一時に１フレームずつ単純に処理し、各フレームを他のフレームとは独立に取り扱うことである。複数のフレームを用いて物体検出精度の改善を試みる手法がこれまでにあったが、これらの手法は、処理前フェーズ又は処理後フェーズにおいて複数のフレームを用いるものである。これについては、例えば、特許文献１に記載された方法を参照されたい。この方法は、ビデオシーケンスを用いてフレーム間で物体を追跡し、物体検出を援助するものである。

したがって、複数のビデオフレームを入力として取り込むマルチクラス検出器が必要とされている。

米国特許第７３９１９０７号

幾つかの実施の形態の目的は、複数のビデオフレームを入力として取り込み、ビデオフレームシーケンス内の物体を検出及び／又は分類するマルチクラス物体検出器を提供することである。幾つかの実施の形態のもう１つの目的は、複数のビデオフレーム内の１つ又は複数の物体の位置特定及び分類を同時に行うことができるそのようなマルチクラス検出器を提供することである。

幾つかの実施の形態は、マルチクラス検出器がボックスレベル技法を用いて、複数の連続したフレームに適用される物体検出器の最終のバウンディングボックス出力を処理することができるという認識に基づいている。しかしながら、ボックスレベル技法は、物体の位置特定を援助するが、物体の分類を援助しない。そのために、幾つかの実施の形態は、マルチクラス物体検出器が、複数のフレームからの画像特徴を考慮する特徴レベル技法を用いて、物体の位置特定及び分類を同時に行うことが望ましいという認識に基づいている。

しかしながら、複数のフレームをともに利用して、物体の位置特定及び分類を同時に行うことは困難である。例えば、１つの手法は、複数のフレームを畳み込みニューラルネットワークへの入力として直接用いるものである。しかしながら、幾つかの実施の形態は、この手法がうまく機能しないことを認識している。ネットワークが、複数のフレームにわたる生のピクセル情報を関係付ける方法を学習することは非常に難しい。

一方、幾つかの実施の形態は、少数の畳み込みネットワーク層が入力ビデオフレームを処理した後に、その結果として得られた特徴マップが、フレーム間を関連付けるのにより容易であるより高レベルの画像情報（物体の部分等）を表すという理解に基づいている。この見識によって、畳み込みニューラルネットワーク層の第１段階の後に、回帰型ニューラルネットワーク層をネットワークに加えるというアイデアが得られた。なぜならば、これによって、回帰型ユニットが、現在のフレーム及び前フレームからのより高レベルの情報（特徴マップ）を処理することが可能になるからである。このアーキテクチャによって、単一フレーム物体検出ネットワークを上回る大きな精度利得が得られた。

そのために、幾つかの実施の形態は、回帰型マルチフレームシングルショット検出器（回帰型Ｍｆ−ＳＳＤ：Recurrent Multi-frame Single-Shot Detector）ニューラルネットワークアーキテクチャを提供する。このアーキテクチャは、複数の連続したフレームを用いて、現行の物体検出器の速度を犠牲にすることなく精度を改善する。回帰型Ｍｆ−ＳＳＤネットワークは、マルチフレームビデオシーケンスを入力として取り込み、入力データの変化をハンドリングするように適合されている。回帰型Ｍｆ−ＳＳＤは、特徴抽出器の直後にデータ融合層を用いて、入力画像シーケンスからの情報を統合する。データ融合層は回帰層である。データ融合層の出力は、その後、検出ヘッドに供給される。検出ヘッドは、直近のタイムスタンプを有する画像の最終のバウンディングボックス及びクラスを生成する。

例えば、回帰型Ｍｆ−ＳＳＤは、第１のサブネットワークと、第２のサブネットワークと、第３のサブネットワークとを備えるニューラルネットワークとして実施することができる。第１のサブネットワークは、ビデオフレームを入力として受信し、このビデオフレームの特徴マップを出力する。第２のサブネットワークは、特徴マップを入力として取り込み、時間的特徴マップを出力し、第３のサブネットワークは、時間的特徴マップを入力として取り込み、物体検出情報を出力する。

様々な実施の形態では、第２のサブネットワークは、多くのドメインに時間的情報を組み込む機能を有する回帰型ニューラルネットワークである。回帰型ニューラルネットワークの例としては、ＬＳＴＭユニット及びＧＲＵユニットがある。第２のサブネットワークによって形成される回帰型ニューラルネットワークは、入力された特徴マップを、ビデオフレームシーケンス内の前ビデオフレームについて生成された時間的特徴マップと再帰的に組み合わせる。そのようにして、検出ヘッド、すなわち、直近のタイムスタンプを有する画像の最終のバウンディングボックス及びクラスを生成する第３のサブネットワークは、現在のフレーム及び前フレームからのより高レベルの情報（特徴マップ）を用いることができる。

様々な実施の形態では、第１のサブネットワーク及び／又は第３のサブネットワークは、畳み込み層及びプーリング層の組み合わせによって形成される畳み込みネットワークである。加えて又は代替的に、幾つかの実施の形態では、回帰型Ｍｆ−ＳＳＤは、全結合回帰型ユニットの代わりに畳み込み回帰型ユニットを用いて、物体検出アーキテクチャの完全畳み込み構造を維持する。幾つかの実施の形態は、畳み込み回帰型ユニットが標準的な畳み込み層の利点（すなわち、接続のスパース性、空間情報に対する適性）を標準的な回帰層の利点（すなわち、時間的特徴の学習）と組み合わせるという認識に基づいている。

したがって、１つの実施の形態は、
ビデオフレームシーケンスを受け取る入力インターフェースと、
ビデオフレーム内の物体を検出するようにトレーニングされたニューラルネットワークを記憶するメモリであって、ニューラルネットワークは、第１のサブネットワークと、第２のサブネットワークと、第３のサブネットワークとを備え、第１のサブネットワークは、ビデオフレームを入力として受信してビデオフレームの特徴マップを出力し、第２のサブネットワークは、特徴マップを入力として取り込んで時間的特徴マップを出力する回帰型ニューラルネットワークであり、第３のサブネットワークは、時間的特徴マップを入力として取り込んで物体検出情報を出力する、メモリと、
ニューラルネットワークを用いて各ビデオフレームを順次処理して、ビデオフレームシーケンス内の物体を検出するプロセッサと、
物体検出情報を出力する出力インターフェースと、
を備える、物体検出器を開示する。

別の実施の形態は、ビデオフレームシーケンス内の少なくとも１つの物体を検出する方法であって、方法は、方法を実施する記憶された命令と結合されたプロセッサを用い、命令は、プロセッサによって実行されると、方法の少なくとも幾つかのステップを実行し、方法は、
ビデオフレームシーケンスを受け取ることと、
第１のサブネットワークと、第２のサブネットワークと、第３のサブネットワークとを備えるニューラルネットワークであって、第１のサブネットワークは、ビデオフレームを入力として受信してビデオフレームの特徴マップを出力し、第２のサブネットワークは、特徴マップを入力として取り込んで時間的特徴マップを出力する回帰型ニューラルネットワークであり、第３のサブネットワークは、時間的特徴マップを入力として取り込んで物体検出情報を出力する、ニューラルネットワークを用いて各ビデオフレームを順次処理し、ビデオフレームシーケンス内の物体を検出することと、
物体検出情報を出力することと、
を含む、方法を開示する。

別の実施の形態は、方法を実行するプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読記憶媒体を開示し、方法は、
ビデオフレームシーケンスを受け取ることと、
第１のサブネットワークと、第２のサブネットワークと、第３のサブネットワークとを備えるニューラルネットワークであって、第１のサブネットワークは、ビデオフレームを入力として受信してビデオフレームの特徴マップを出力し、第２のサブネットワークは、特徴マップを入力として取り込んで時間的特徴マップを出力する回帰型ニューラルネットワークであり、第３のサブネットワークは、時間的特徴マップを入力として取り込んで物体検出情報を出力する、ニューラルネットワークを用いて各ビデオフレームを順次処理し、ビデオフレームシーケンス内の物体を検出することと、
物体検出情報を出力することと、
を含む。

幾つかの実施形態によるビデオ内の物体を検出する画像処理システム１００のブロック図である。幾つかの実施形態によるビデオフレーム内の物体を検出する方法のフローチャートである。幾つかの実施形態による第１のサブネットワークの代表的な畳み込みニューラルネットワーク（ＣＮＮ）アーキテクチャの図である。１つの実施形態によって用いられる畳み込み演算の概略図である。１つの実施形態によって用いられるプーリング演算の概略図である。幾つかの実施形態による、回帰型ネットワークである第２のサブネットワークの図である。１つの実施形態によって用いられる、ゲート付き回帰型ユニットと呼ばれる１つのタイプの回帰型ユニット内部の詳細の模式図である。幾つかの実施形態による第３のサブネットワークに用いられる代表的なＣＮＮの図である。幾つかの実施形態によるビデオフレームシーケンスを処理する第１のサブネットワークと、第２のサブネットワークと、第３のサブネットワークとを備えるシステムのブロック図である。１つの実施形態によるマルチフレームシングルショットニューラルネットワークを動作させるプロセッサを備える車両の概略図である。

図１は、幾つかの実施形態によるビデオ内の物体を検出する画像処理システム１００のブロック図を示している。画像処理システム１００は、記憶された命令を実行するように構成されたプロセッサ１２０と、このプロセッサによって実行可能な命令を記憶するメモリ１４０とを備える。プロセッサ１２０は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成とすることができる。メモリ１４０は、ランダムアクセスメモリ（ＲＡＭ：random access memory）、リードオンリーメモリ（ＲＯＭ：read only memory）、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。プロセッサ１２０は、バス１０６を通じて１つ以上の入力デバイス及び出力デバイスに接続される。

これらの命令は、ビデオシーケンス内の物体を検出する方法を実施する。様々な実施形態では、物体検出は、各ビデオフレーム内の物体のロケーション及びサイズを示す一組のバウンディングボックスを、各出力バウンディングボックスが各特定の物体クラスを含む尤度を示すバウンディングボックスごとの確率のベクトルとともに生成する。

画像処理システム１００は、３つのサブネットワークを備えるニューラルネットワークを用いてビデオ内の物体を検出するように構成されている。そのようなニューラルネットワークは、本明細書では、マルチフレームシングルショットニューラルネットワークと呼ばれる。そのために、画像処理システム１００は、ビデオフレーム１３４と、マルチフレームシングルショット検出器ネットワークを構成する３つのサブネットワーク１３１、１３２、１３３とを記憶するように適合された記憶デバイス１３０も備えることができる。記憶デバイス１３０は、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを用いて実施することができる。

幾つかの実施態様では、画像処理システム１００内のヒューマンマシンインターフェース１１０が、システムをキーボード１１１及びポインティングデバイス１１２に接続する。ポインティングデバイス１１２は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、又はタッチ画面を含むことができる。画像処理システム１００は、画像処理システム１００をディスプレイデバイス５６５に接続するように適合されたディスプレイインターフェース１６０にバス１０６を通じて連結することができる。ディスプレイデバイス５６５は、とりわけ、コンピュータモニタ、カメラ、テレビ、プロジェクタ、又はモバイルデバイスを含むことができる。

画像処理システム１００は、システムを撮像デバイス１７５に接続するように適合された撮像インターフェース１７０にも接続することができる。１つの実施形態では、物体検出器の処理対象のビデオフレームは、撮像デバイスから受信される。撮像デバイス１７５は、ビデオカメラ、コンピュータ、モバイルデバイス、ウェブカム、又はそれらの任意の組み合わせを含むことができる。

ネットワークインターフェースコントローラ１５０は、画像処理システム１００を、バス１０６を通じてネットワーク１９０に接続するように適合されている。ネットワーク１９０を通じて、ビデオフレーム１３４又はサブネットワーク１３１、１３２、１３３を、記憶及び／又は更なる処理のためにダウンロードしてコンピュータの記憶システム１３０内に記憶することができる。

幾つかの実施形態では、画像処理システム１００は、物体検出の結果に基づいて動作することができるアプリケーションデバイス５８５に画像処理システム１００を接続するように適合されたアプリケーションインターフェース１８０にバス１０６を通じて接続される。例えば、デバイス５８５は、検出された物体のロケーションを用いて自動車の操縦方法を決定するカーナビゲーションシステムである。

図２は、幾つかの実施形態によるビデオフレーム内の物体を検出する方法のフローチャートを示している。ステップＳ１において、入力ビデオシーケンスの各フレーム２１０が、３つのサブネットワークを備えるビデオ物体検出ネットワークに順次供給される。そのようにして、ステップＳ２、Ｓ３、及びＳ４等の図２の方法の幾つかのステップは、フレームごとに反復して実行される。ステップＳ２において、第１のサブネットワーク１３１が現在のビデオフレームに適用され、ビデオフレームの特徴を表す一組の特徴マップ２２０を計算する。幾つかの実施態様では、特徴マップは、浮動小数点数の２Ｄアレイである。画像は、通常、整数［０，．．．，２５５］によって表される１バイト値を含むが、この特徴マップは、このことを除いてモノクロ画像と同様である。これらの特徴マップは、ステップＳ３において第２のサブネットワークへの入力として用いられる。

第２のサブネットワーク１３２は回帰ネットワークであり、ステップＳ２において計算された特徴マップ２２０と、ステップＳ３の前回の反復において計算された時間的特徴マップ２３５とを用いて、新たな一組の時間的特徴マップ２３０を計算する。特徴マップ２３０は、多くのフレームにわたって計算された特徴を表すので、時間的特徴マップと呼ばれる。ステップＳ４は、時間的特徴マップ２３０を取り込み、第３のサブネットワーク１３３を適用する。第３のサブネットワークは、現在のビデオフレーム内の各検出物体の空間ロケーション及び可能性のある物体クラスを符号化した一組のバウンディングボックス及びクラス確率を出力する。

図３Ａは、幾つかの実施形態による第１のサブネットワークの代表的な畳み込みニューラルネットワーク（ＣＮＮ）アーキテクチャの図を示している。第１のサブネットワーク１３１は、ビデオフレーム３１０を入力として取り込み、複数の畳み込み３５０を用いて一組の特徴マップ３２０を生成する。次に、プーリング演算３６０が用いられて、特徴マップの近傍が整理統合され、より小さな特徴マップ３２２が作成される。畳み込み層及びプーリング層３２２、３２４、３２６は、任意の回数繰り返すことができる。畳み込み層は、対応するプーリング層がなくても実施することができる。通常、畳み込み層は、シグモイド関数又は正規化線形関数等の非線形活性化関数も含む。最終の一組の特徴マップ３２６は、ＣＮＮによって特徴マップ２１０として出力される。

図３Ｂは、１つの実施形態によって用いられる畳み込み演算の概略図を示している。畳み込みは、畳み込みカーネル３３０及び一組の画像又は特徴マップ３３３を入力として取り込み、一組の画像又は特徴マップ３３３の各領域内のピクセルに畳み込みカーネル３３０の要素を乗算する数学演算である。畳み込みニューラルネットワークに用いられる畳み込みカーネル３３０は、浮動小数点数のｋ×ｋ×Ｍテンソルである。ここで、ｋは、カーネルのサイズ（通常、３、５又は７等の小さな整数）であり、Ｍは、画像におけるチャネル数（カラー画像の場合には３）又は特徴マップ数である。一組の画像／特徴マップ３３３と畳み込みカーネル３３０との乗算は、畳み込みカーネルの各要素と、画像／特徴マップの領域内の対応するピクセルとの積の和である。畳み込みカーネル３３０は、固定のステップサイズ（通常は１）を用いて一組の画像／特徴マップ３３３の各領域にわたって走査され、各領域の浮動小数点数が生成される。その結果が、浮動小数点数の２Ｄ特徴マップ３３５である。畳み込みカーネルの値は、通常、ニューラルネットワークトレーニング段階において学習される。

図３Ｃは、１つの実施形態によって用いられるプーリング演算の概略図を示している。プーリング演算は、特徴マップ３９３を入力として取り込み、高さ及び幅が入力特徴マップに対してｎ分の１に削減された新たな特徴マップ３９５を出力する。ここで、ｎは整数（通常は２）である。プーリング演算は、入力特徴マップ３９３を走査し、特徴マップの各ｎ×ｎ領域３９０について、その領域内の全てのピクセルにプーリング演算を適用する。通常のプーリング演算は、ｍａｘ（領域内の全てのピクセルにわたる最大値を出力する）又はａｖｅｒａｇｅ（領域内の全てのピクセルにわたる平均値を出力する）である。例えば、２×２プーリング演算は、入力特徴マップの各２×２領域の単一の浮動小数点数を出力し、したがって、入力特徴マップと比較して２分の１のサイズ（高さ及び幅の双方が２分の１のサイズ）の出力特徴マップを作成する。そのようなプーリング演算は、特徴マップ内の近傍の特徴を集約し、入力画像内の小さな並進の影響を受けにくい畳み込みニューラルネットワークを作製するのに有用である。

図４Ａは、幾つかの実施形態による、回帰ネットワークである第２のサブネットワークの図を示している。回帰ネットワークは、他の入力に加えて、回帰ネットワークの前回の出力を入力として受信するネットワークである。回帰ネットワークは、１つ以上の回帰型ユニット４００を備える。各回帰型ユニットは、２つの入力テンソル４１０及び４２０を有する。外部入力テンソル４１０は、第１のサブネットワークの出力等の或る外部入力源からの特徴ベクトル、特徴マップ又は一組の特徴マップである。回帰入力テンソル４２０は、前時間ステップ４５０において１つ又は複数の回帰型ユニット４００から出力された時間的特徴マップである。回帰型ユニット４００の出力は時間的特徴マップ２３０である。回帰型ユニット内部４４０は、出力される時間的特徴マップ２３０を計算する、入力４１０及び４２０と起こり得る隠れ状態との関数である。回帰型ユニットの例として、長短期（long short-term）メモリユニット、ゲート付き回帰型ユニット及び畳み込みゲート付き回帰型ユニットがある。

図４Ｂは、１つの実施形態によって用いられる、ゲート付き回帰型ユニット４４１と呼ばれる１つのタイプの回帰型ユニット内部４４０の詳細の模式図である。出力ｈ_ｔは、前時間ステップｔ−１におけるこの回帰型ユニットの出力と、現在の入力ｘ_ｔとの関数である。これらの式から直観的に分かる基本的事項は、新たな出力（現在の入力の関数でもある）に対する前回の出力の寄与度を決定するゲーティング係数（gating factors）を計算するのに、現在の入力と前時間ステップからの出力とが用いられるということである。ゲート付き回帰型ユニット４４１において、表記「・」は行列ベクトル乗算を示し、［ｘ，ｙ］はベクトルの連結を示し、σ（）は要素単位のシグモイド関数を示し、＊はアダマール積を示す。異なる実施形態によって用いられる回帰型ユニット内部の他の様々な実現候補、例えば、長短期メモリユニットがある。

図５は、幾つかの実施形態による第３のサブネットワークに用いられる代表的なＣＮＮの図を示している。この第３のサブネットワークは、第２のサブネットワークによって出力される一組の時間的特徴マップ２３０を入力として取り込む。この後に、一連の畳み込み５５０、５７０（非線形活性化関数を伴うことがある）と、プーリング層５６０、５８０とが続く。この後に、フレーム内の検出物体のロケーション及びタイプを示す一組のバウンディングボックス及び物体クラス確率を表す特徴ベクトル５９０を出力する最終の全結合層又は畳み込み層が続く。

図６は、幾つかの実施形態による、ビデオフレームシーケンス６４０を処理する第１のサブネットワーク６１０と、第２のサブネットワーク６２０と、第３のサブネットワーク６３０とを備えるシステムのブロック図を示している。第１のサブネットワーク６１０は、畳み込みニューラルネットワークを用いて、単一のビデオフレームから一組の特徴マップを計算する。これらの特徴マップは、前時間ステップにおいて計算された時間的特徴マップとともに第２のサブネットワーク６２０に渡される。幾つかの実施態様では、最初のビデオフレームの場合、前回の時間的特徴マップは全て０に設定される。第２のサブネットワーク６２０は、一組の回帰型ユニットを用いて、新たな一組の時間的特徴マップを計算する。この新たな一組の時間的特徴マップは、第３のサブネットワーク６３０に渡される。第３のサブネットワーク６３０は、畳み込みニューラルネットワークを用いて、現在のフレームに検出された全ての物体のロケーション及びクラスを示す一組のバウンディングボックス及びクラス確率６５０を計算する。

３つのサブネットワークを有するニューラルネットワークは、多くのパラメーターを含むことができる。これらのパラメーターは、グラウンドトゥルースの物体バウンディングボックス及びクラスが分かっている多くの例示のビデオからトレーニングフェーズ中に最適化される。このトレーニングフェーズは、確率的勾配降下法等のネットワークの重みを最適化するアルゴリズムを用いる。

図７は、１つの実施形態によるマルチフレームシングルショットニューラルネットワーク７０５を動作させるプロセッサ７０２を備える車両７０１の概略図を示している。この実施形態は、車両７０１が使用しているビデオシーケンスを利用して、車両の周囲状況を評価する。車両７０１は、ビデオシーケンスを取得する少なくとも１つのセンサ７２０を備える。

車両は、物体検出器を動作させるプロセッサ７０２も備える。例えば、ニューラルネットワーク７０５は、画像シーケンス７２５内の物体７２６を検出し、一組の物体バウンディングボックス及び物体クラス７４０を出力することができる。プロセッサ７０２は、物体検出器７０５を利用する他のアプリケーション７５０を実行するように構成することができる。アプリケーション７５０の例として、車両７０１を移動させる制御アプリケーション及び／又は様々なコンピュータビジョンアプリケーションがある。

換言すれば、１つの実施形態は、同時の較正及び融合を用いて、双方のセンサを強化する、すなわち、ＬＩＤＡＲ（ライダー）出力の解像度を高め、高解像度奥行き情報をカメラ出力に組み込む。融合の結果は、ディスプレイ７４０上にレンダリングすることもできるし、異なるアプリケーション７５０、例えば、物体追跡アプリケーションにサブミットすることもできる。

本発明の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピュータに設けられるのか又は複数のコンピュータ間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、１つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。

また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、いくつかの動作を同時に実行することを含めることもできる。

請求項の要素を修飾する、特許請求の範囲における「第１」、「第２」等の序数の使用は、それ自体で、１つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する１つの請求項の要素を、同じ（序数の用語の使用を除く）名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims

ビデオフレームシーケンスを受け取る入力インターフェースと、
ビデオフレーム内の物体を検出するようにトレーニングされたニューラルネットワークを記憶するメモリであって、前記ニューラルネットワークは、第１のサブネットワークと、第２のサブネットワークと、第３のサブネットワークとを備え、前記第１のサブネットワークは、ビデオフレームを入力として受信して前記ビデオフレームの特徴マップを出力し、前記第２のサブネットワークは、前記特徴マップを入力として取り込んで時間的特徴マップを出力する回帰型ニューラルネットワークであり、前記第３のサブネットワークは、前記時間的特徴マップを入力として取り込んで物体検出情報を出力する、メモリと、
前記ニューラルネットワークを用いて各ビデオフレームを順次処理して、前記ビデオフレームシーケンス内の物体を検出するプロセッサと、
前記物体検出情報を出力する出力インターフェースと、
を備える、物体検出器。
前記第１のサブネットワーク及び前記第３のサブネットワークは、畳み込みニューラルネットワークである、請求項１に記載の物体検出器。
前記第２のサブネットワークは、ゲート付き回帰型ユニットを含む、請求項１に記載の物体検出器。
前記第２のサブネットワークは、長短期メモリユニットを含む、請求項１に記載の物体検出器。
前記第２のサブネットワークは、畳み込み回帰型ユニットを含む、請求項１に記載の物体検出器。
前記第２のサブネットワークによって形成される前記回帰型ニューラルネットワークは、前記特徴マップを、前記ビデオフレームシーケンス内の前ビデオフレームについて生成された前記時間的特徴マップと再帰的に組み合わせる、請求項１に記載の物体検出器。
前記第１のサブネットワーク及び前記第３のサブネットワークのうちの一方又はそれらの組み合わせは、畳み込み層及びプーリング層の組み合わせによって形成される畳み込みネットワークである、請求項１に記載の物体検出器。
前記第１のサブネットワークは、前記第１のサブネットワークの最後の畳み込み層の畳み込みごとに１つの特徴マップが存在するような一組の特徴マップを出力する、請求項７に記載の物体検出器。
前記第２のサブネットワークは、前記一組の特徴マップの一組の時間的特徴マップを求め、前記第３のサブネットワークは、前記一組の時間的特徴マップから、前記ビデオフレーム内の物体の位置を画定する一組の１つ以上のバウンディングボックスと、各物体のクラス確率とを求める、請求項８に記載の物体検出器。
前記ニューラルネットワークは、前記ビデオフレームシーケンス内の異なるクラスの複数の物体を検出するようにトレーニングされ、前記物体検出器がマルチクラス検出器となるようにする、請求項１に記載の物体検出器。
前記出力インターフェースは、検出された物体のロケーションと、前記検出された物体のクラスとをディスプレイデバイス上にレンダリングするか、又は、前記検出された物体のロケーションと、前記検出された物体のクラスとをネットワークを介して送信する、請求項１に記載の物体検出器。
前記プロセッサは、検出された物体のロケーションと、前記検出された物体が一組のクラスからの各クラスに属する尤度を定義する一組の確率とを求める、請求項１に記載の物体検出器。
ビデオフレームシーケンス内の少なくとも１つの物体を検出する方法であって、前記方法は、前記方法を実施する記憶された命令と結合されたプロセッサを用い、前記命令は、前記プロセッサによって実行されると、前記方法の少なくとも幾つかのステップを実行し、前記方法は、
ビデオフレームシーケンスを受け取ることと、
第１のサブネットワークと、第２のサブネットワークと、第３のサブネットワークとを備えるニューラルネットワークであって、前記第１のサブネットワークは、ビデオフレームを入力として受信して前記ビデオフレームの特徴マップを出力し、前記第２のサブネットワークは、前記特徴マップを入力として取り込んで時間的特徴マップを出力する回帰型ニューラルネットワークであり、前記第３のサブネットワークは、前記時間的特徴マップを入力として取り込んで物体検出情報を出力する、ニューラルネットワークを用いて各ビデオフレームを順次処理し、前記ビデオフレームシーケンス内の物体を検出することと、
前記物体検出情報を出力することと、
を含む、方法。
前記物体検出情報は、前記ビデオフレームシーケンス内の複数の物体の異なるロケーション及び異なるクラスを含む、請求項１３に記載の方法。
方法を実行するプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読記憶媒体であって、前記方法は、
ビデオフレームシーケンスを受け取ることと、
第１のサブネットワークと、第２のサブネットワークと、第３のサブネットワークとを備えるニューラルネットワークであって、前記第１のサブネットワークは、ビデオフレームを入力として受信して前記ビデオフレームの特徴マップを出力し、前記第２のサブネットワークは、前記特徴マップを入力として取り込んで時間的特徴マップを出力する回帰型ニューラルネットワークであり、前記第３のサブネットワークは、前記時間的特徴マップを入力として取り込んで物体検出情報を出力する、ニューラルネットワークを用いて各ビデオフレームを順次処理し、前記ビデオフレームシーケンス内の物体を検出することと、
前記物体検出情報を出力することと、
を含む、非一時的コンピュータ可読記憶媒体。