JP6956555B2

JP6956555B2 - 画像内の物体を検出する方法及び物体検出システム

Info

Publication number: JP6956555B2
Application number: JP2017144325A
Authority: JP
Inventors: ミン−ユ・リウ; オンセル・チュゼル; チェニイ・チェン; ジアンション、シャオ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-08-02
Filing date: 2017-07-26
Publication date: 2021-11-02
Anticipated expiration: 2037-07-26
Also published as: JP2018022484A; US20180039853A1

Description

本発明は、ニューラルネットワークに関し、より具体的には、ニューラルネットワークを用いた物体検出システム及び方法に関する。

物体検出は、コンピュータービジョンにおける最も基本的な問題のうちの１つである。物体検出の目標は、所与の入力画像について、信頼値を有するバウンディングボックスの形態の既定の物体クラスの全てのインスタンスを検出し、そのロケーションを特定することである。物体検出問題は、スキャンウィンドウ技法によって物体分類問題に変換することができる。しかしながら、スキャンウィンドウ技法は、分類ステップが様々なロケーション、縮尺、及び縦横比の全ての可能な画像領域について実行されるので、非効率的である。

領域ベース畳み込みニューラルネットワーク（Ｒ−ＣＮＮ）は、２段階アプローチを実行するのに用いられる。この２段階アプローチでは、一組の物体提案が、提案ジェネレーターを用いて対象領域（ＲＯＩ）として生成され、ＲＯＩにおける物体の存在及びクラスが、深層ニューラルネットワークを用いて判断される。しかしながら、Ｒ−ＣＮＮの検出確度は、幾つかの場合には不十分である。

したがって、物体検出性能を更に改善するには、別の手法が必要とされている。

本発明の幾つかの実施の形態は、領域ベース畳み込みニューラルネットワーク（Ｒ−ＣＮＮ）を、異なるサイズの物体を検出するのに用いることができるという認識に基づいている。しかしながら、画像内の小物体（small objects）を検出すること及び／又は画像内の小物体のクラスラベルを予測することは、小物体を表す画像内のピクセルが少数であることに起因して、シーンの理解には困難な問題である。

幾つかの実施の形態は、特定の小物体が、通常、特定のコンテキストに現れているという認識に基づいている。例えば、マウスは、通常、キーボード及びモニターの近くに置かれている。そのコンテキストは、小物体の小解像度を補償するトレーニング及び認識の一部分とすることができる。そのために、幾つかの実施の形態は、物体を含む種々の領域から特徴ベクトルを抽出する。それらの領域は、異なるサイズの領域であり、物体についての異なるコンテキスト情報を提供する。幾つかの実施の形態では、物体は、特徴ベクトルの組み合わせに基づいて検出及び／又は分類される。

様々な実施の形態は、種々のサイズの物体を検出するのに用いることができる。１つの実施の形態では、物体のサイズは、物体を形成する画像のピクセルの数によって管理される。例えば、小物体は、より少ない数のピクセルによって表される。そのために、１つの実施の形態は、十分なコンテキスト情報を収集するために、物体を取り囲む領域を少なくとも７倍にサイズ変更する。

したがって、１つの実施の形態は、コンピューターに物体検出プロセスを実行させるプログラムを記憶する非一時的コンピューター可読記録媒体を開示する。前記物体検出プロセスは、第１のサブネットワークを用いて、画像の第１の領域から第１の特徴ベクトルを抽出することと、前記第１の領域をサイズ変更することによって前記画像の第２の領域を求めることであって、前記第１の領域のサイズは前記第２の領域のサイズと異なることと、前記第１のサブネットワークを用いて、前記画像の第２の領域から第２の特徴ベクトルを抽出することと、前記第１の特徴ベクトル及び前記第２の特徴ベクトルに基づいて第３のサブネットワークを用いて前記物体を検出して、前記物体を取り囲むバウンディングボックス及び前記物体のクラスを生成することと、を含み、前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、ニューラルネットワークを形成する。

別の実施の形態は、画像内の物体を検出する方法を開示する。本方法は、第１のサブネットワークを用いて、画像の第１の領域から第１の特徴ベクトルを抽出するステップと、前記第１の領域をサイズ変更することによって前記画像の第２の領域を求めるステップと、第２のサブネットワークを用いて、前記画像の第２の領域から第２の特徴ベクトルを抽出するステップと、前記第１の特徴ベクトル及び前記第２の特徴ベクトルに基づいて、第３のサブネットワークを用いて前記物体のクラスを分類するステップと、前記分類の結果に従って前記第１の領域内の物体の前記クラスを求めるステップと、を含み、前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、ニューラルネットワークを形成し、該方法のステップは、プロセッサによって実行される。

別の実施の形態は、物体検出システムを開示する。本システムは、ヒューマンマシンインターフェースと、ニューラルネットワークを含む記憶デバイスと、メモリと、該システムの外部にあるネットワークと接続可能なネットワークインターフェースコントローラーと、撮像デバイスと接続可能な撮像インターフェースと、前記ヒューマンマシンインターフェース、前記記憶デバイス、前記メモリ、前記ネットワークインターフェースコントローラー及び前記撮像インターフェースに接続するように構成されたプロセッサと、を備え、前記プロセッサは、前記記憶デバイスに記憶された前記ニューラルネットワークを用いて画像内の物体を検出する命令を実行し、前記ニューラルネットワークは、第１のサブネットワークを用いて、前記画像の第１の領域から第１の特徴ベクトルを抽出するステップと、第２のサブネットワークを用いて前記第１の特徴ベクトルを処理することによって前記画像の第２の領域を求めるステップであって、前記第１の領域のサイズは前記第２の領域のサイズと異なる、ステップと、前記第１のサブネットワークを用いて、前記画像の第２の領域から第２の特徴ベクトルを抽出するステップと、前記第１の特徴ベクトル及び前記第２の特徴ベクトルに基づいて第３のサブネットワークを用いて前記物体を検出して、前記物体を取り囲むバウンディングボックス及び前記物体のクラスを生成するステップと、を実行し、前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、ニューラルネットワークを形成する。

本発明の幾つかの実施形態による画像内の小物体を検出する物体検出システムのブロック図である。画像内の小物体を検出するプロセスのフローチャートである。幾つかの実施形態による画像内の小物体を検出するコンピューターで実施される物体検出方法において用いられるニューラルネットワークのブロック図である。画像内のターゲット領域画像及びコンテキスト領域画像をサイズ変更する手順を示す図である。画像において提案ボックス及びコンテキストボックスを時計画像に適用する手順の一例を示す図である。画像内のマウス画像を検出するプロセスのブロック図である。小物体カテゴリーの統計の一例を示す表である。カテゴリーごとの物体のメジアンバウンディングボックスサイズ及び対応するアップサンプリング比を示す表である。種々のネットワークによって行われた平均精度の結果の一例を示す表である。

図１は、本発明の幾つかの実施形態による物体検出システム１００のブロック図を示している。物体検出システム１００は、キーボード１１１及びポインティングデバイス／メディア１１２と接続可能なヒューマンマシンインターフェース（ＨＭＩ）１１０と、プロセッサ１２０と、記憶デバイス１３０と、メモリ１４０と、ローカルエリアネットワーク及びインターネットネットワークを含むネットワーク１９０と接続可能なネットワークインターフェースコントローラー１５０（ＮＩＣ）と、ディスプレイインターフェース１６０と、撮像デバイス１７５と接続可能な撮像インターフェース１７０と、印刷デバイス５８５と接続可能なプリンターインターフェース１８０とを備える。物体検出システム１００は、ＮＩＣ１５０に接続されたネットワーク１９０を介して電子テキスト／撮像文書５９５を受信することができる。記憶デバイス１３０は、原画像１３１、フィルターシステムモジュール１３２、及びニューラルネットワーク２００を含む。ポインティングデバイス／メディア１１２は、コンピューター可読記録媒体上に記憶されたプログラムを読み出すモジュールを備えることができる。

画像内の物体を検出するために、キーボード１１１、ポインティングデバイス／メディア１１２を用いて、又は他のコンピューター（図示せず）に接続されたネットワーク１９０を介して、命令を物体検出システム１００に送信することができる。物体検出システム１００は、ＨＭＩ１１０を用いてこれらの命令を受信し、記憶デバイス１３０に記憶されたニューラルネットワーク２００を用いるプロセッサ１２０を用いて、画像内の物体を検出する命令を実行する。プロセッサ１２０は、１つ以上のグラフィックス処理ユニット（ＧＰＵ）を含む複数のプロセッサであってもよい。フィルターシステムモジュール１３２は、画像処理を実行して、命令に関連した所与の画像から所定のフォーマットされた画像を得るように動作可能である。フィルターシステムモジュール１３２によって処理された画像は、物体を検出するニューラルネットワーク２００が用いることができる。ニューラルネットワーク２００を用いる物体検出プロセスは、以下で説明される。以下の説明では、グリンプス（glimpse：一見）領域は、グリンプスボックス、バウンディングボックス、グリンプスバウンディングボックス又はバウンディングボックス領域と呼ばれ、これは、画像内のターゲット物体の特徴を検出するために画像内のターゲット上に配置される。

幾つかの実施形態は、画像内の物体を検出する方法が、第１のサブネットワークを用いて、画像の第１の領域から第１の特徴ベクトルを抽出することと、第１の領域を固定比にサイズ変更することによって画像の第２の領域を求めることであって、第１の領域のサイズは第２の領域のサイズよりも小さいことと、第２のサブネットワークを用いて画像の第２の領域から第２の特徴ベクトルを抽出することと、第１の特徴ベクトル及び第２の特徴ベクトルに基づいて第３のサブネットワークを用いて物体のクラスを分類することと、分類の結果に従って第１の領域内の物体のクラスを求めることとを含み、第１のサブネットワーク、第２のサブネットワーク、及び第３のサブネットワークは、ニューラルネットワークを形成し、当該方法のステップは、プロセッサによって実行されるという認識に基づいている。

本発明の幾つかの実施形態は、画像内の小物体を検出すること及び／又は画像内の小物体のクラスラベルを予測することは、小物体を表す画像内のピクセルが少数であることに起因して、シーンの理解には困難な問題であるという認識に基づいている。しかしながら、幾つかの特定の小物体は、通常、特定のコンテキストに現れている。例えば、マウスは、通常、キーボード及びモニターの近くに置かれる。そのコンテキストは、小物体の小解像度を補償するトレーニング及び認識の一部とすることができる。そのために、幾つかの実施形態は、物体を含む種々の領域から特徴ベクトルを抽出する。それらの領域は、異なるサイズの領域であり、物体についての異なるコンテキスト情報を提供する。幾つかの実施形態では、物体は、特徴ベクトルの組み合わせに基づいて検出及び／又は分類される。

図２は、画像内の小物体を検出するプロセスのフローチャートを示している。ステップＳ１において、第１の特徴ベクトルが、第１のサブネットワークを用いることによって画像内の第１の領域から抽出される。ステップＳ２において、画像内の第２の領域が、サイズ変更モジュールを用いることによって、第１の領域を所定の比を用いてサイズ変更することによって求められる。ステップＳ３において、第２の特徴ベクトルが、第２のサブネットワークを用いることによって第２の領域から抽出される。ステップＳ４において、第３のサブネットワークが、第１の特徴ベクトル及び第２の特徴ベクトルに基づいて物体を分類する。画像内の物体の分類結果は、ステップＳ５において、第３のサブネットワークによって出力される。この場合、第１のサブネットワーク、第２のサブネットワーク、及び第３のサブネットワークは、ニューラルネットワークを形成し、上記ステップは、プロセッサによって実行される。さらに、第１の領域をサイズ変更するステップは、第１の領域及び第２の領域のそれぞれが物体を含むとともに、第１の領域のサイズが第２の領域のサイズよりも小さくなるように実行される。

図３は、本発明の幾つかの実施形態によるニューラルネットワーク２００を用いた物体検出方法のブロック図を示している。ニューラルネットワーク２００は、領域提案ネットワーク（ＲＰＮ）４００及びニューラルネットワーク２５０を備える。ニューラルネットワーク２５０は、ＣｏｎｔｅｘＮｅｔ（コンテキストネット）２５０と呼ばれる場合がある。ＣｏｎｔｅｘｔＮｅｔ２５０は、コンテキスト領域モジュール１２、サイズ変更モジュール１３、サイズ変更モジュール１４、第１の深層畳み込みニューラルネットワーク（ＤＣＮＮ）２１０、第２の深層畳み込みニューラルネットワーク（ＤＣＮＮ）２２０及び第３のニューラルネットワーク３００を備える。第３のニューラルネットワーク３００は、連結モジュール３１０、完全接続ニューラルネットワーク３１１及びソフトマックス関数モジュール３１２を備える。第１のＤＣＮＮ２１０は、第１のサブネットワークと呼ばれる場合があり、第２のＤＣＮＮ２２０は、第２のサブネットワークと呼ばれる場合があり、第３のニューラルネットワーク３００は、第３のサブネットワークと呼ばれる場合がある。第１のサブネットワーク及び第２のサブネットワークは、同一の構造を有することができる。

命令実行時において、画像１０が物体検出システム１００に提供されると、領域提案ネットワーク（ＲＰＮ）４００が画像１０に適用されて、画像内のターゲット物体画像の領域上に配置される提案ボックス１５が生成される。提案ボックス１５によって包含される画像１０の部分は、ターゲット領域画像と呼ばれる。このターゲット領域画像は、サイズ変更モジュール１３を用いて、所定の同一のサイズ及び所定の解像度を有するサイズ変更済み物体画像１６にサイズ変更され、サイズ変更済み物体画像１６は、ニューラルネットワーク２００に送信される。小物体の定義に関して、小物体の閾値サイズが、画像内の物体を小物体カテゴリーに分類するように予め定められる。この閾値サイズは、物体検出のシステム設計に従って選ぶことができ、提案ボックス１５を生成するためにＲＰＮ４００において用いることができる。提案ボックス１５は、画像１０内のターゲット物体画像のロケーション情報３４０も提供する。例えば、閾値サイズは、画像内の物体の所定の物理サイズ、画像内の物体のピクセルサイズ又は画像の全体面積に対する物体画像の面積の比に基づいて求めることができる。続いて、コンテキストボックス２０が、コンテキスト領域モジュール１２を用いて、提案ボックス１５をｘ方向及びｙ方向（高さの次元及び幅の次元）において７倍に拡大することによって得られる。コンテキストボックス２０は、画像１０の提案ボックス１５上に配置されて、ターゲット領域画像を取り囲む。コンテキストボックス２０を配置することによって決まる画像の部分は、コンテキスト領域画像と呼ばれる。この場合、コンテキストボックス２０に対応するコンテキスト領域画像は、サイズ変更モジュール１３を用いて、所定のサイズを有するサイズ変更済みコンテキスト画像２１にサイズ変更され、ＣｏｎｔｅｘＮｅｔ２５０に送信される。コンテキスト領域画像は、ＣｏｎｔｅｘＮｅｔ２５０において用いられるデータ構成に従って７倍又は他の値にターゲット領域画像を拡大することによって得ることができる。したがって、提案ボックス１５に対応するターゲット領域画像及びコンテキストボックス２０に対応するコンテキスト領域画像は、ＣｏｎｔｅｘＮｅｔ２５０に送信される前にサイズ変更モジュール１３及びサイズ変更モジュール１４を用いることによってサイズ変更済みターゲット画像１６及びサイズ変更済みコンテキスト画像２１に変換される。この場合、サイズ変更済みターゲット画像１６及びサイズ変更済みコンテキスト画像２１は、所定の同一のサイズを有する。例えば、この所定の同一のサイズは、２２７×２２７（ＶＧＧ１６の場合は２２４×２２４）パッチ（ピクセル）とすることができる。この所定の同一のサイズは、ニューラルネットワークにおいて用いられるデータフォーマットに従って変更することができる。さらに、所定の同一のサイズは、所定のピクセルサイズ又は所定の物理寸法に基づいて規定することができ、ターゲット領域画像及びコンテキスト領域画像の縦横比は、サイズ変更後に維持することができる。

ＣｏｎｔｅｘＮｅｔ２５０は、サイズ変更済みターゲット画像１６及びサイズ変更済みコンテキスト画像２１をそれぞれ第１のＤＣＮＮ２１０及び第２のＤＣＮＮ２２０から受信する。ＣｏｎｔｅｘＮｅｔ２５０内の第１のＤＣＮＮ２１０は、サイズ変更済みターゲット画像１６から第１の特徴ベクトル２３０を抽出し、この第１の特徴ベクトル２３０を第３のニューラルネットワーク３００の連結モジュール３１０に送信する。さらに、ＣｏｎｔｅｘＮｅｔ２５０内の第２のＤＣＮＮ２２０は、サイズ変更済みコンテキスト画像２１から第２の特徴ベクトル２４０を抽出し、この第２の特徴ベクトル２４０を第３のニューラルネットワーク３００の連結モジュール３１０に送信する。連結モジュール３１０は、第１の特徴ベクトル２３０と第２の特徴ベクトル２４０とを連結し、連結特徴を生成する。連結特徴は、完全接続ニューラルネットワーク（ＮＮ）３１１に送信され、完全接続ＮＮ３１１は、連結特徴から特徴ベクトルを生成し、連結特徴ベクトルをソフトマックス関数モジュール３１２に送信する。ソフトマックス関数モジュール３１２は、完全接続ＮＮ３１２からの連結特徴ベクトルに基づいてターゲット物体画像の分類を実行し、分類結果をカテゴリー出力３３０として出力する。その結果、提案ボックス１５に対応するターゲット物体画像の物体検出が、カテゴリー出力３３０及びロケーション情報３４０に基づいて得られる。

提案ボックス及びコンテキストボックス
図４Ａは、画像内のターゲット領域画像及びコンテキスト領域画像をサイズ変更する手順を示している。提案ボックス１５が画像１０に適用されるとき、ニューラルネットワーク２００は、提案ボックス１５に対応するターゲット領域画像をクロッピングし、このターゲット領域画像をサイズ変更済みターゲット画像１６にサイズ変更し、サイズ変更済みターゲット画像１６は、第１のＤＣＮＮ２１０に送信される。さらに、コンテキスト領域モジュール１２は、提案ボックス１５をｘ方向及びｙ方向の双方において７倍に拡大して、コンテキストボックス２０を得る。また、コンテキスト領域モジュール１２は、コンテキストボックス２０が提案ボックス１５に対応するターゲット領域画像を覆うように、コンテキストボックス２０を画像１０上に配置する。コンテキスト領域モジュール１２は、コンテキストボックス２０を画像１０上に適用して、コンテキスト領域画像を画定する。ニューラルネットワーク２００は、コンテキストボックス２０に対応するコンテキスト領域画像をクロッピングし、このコンテキスト領域画像を、サイズ変更済みターゲット画像１６のサイズと同一の所定のサイズを有するサイズ変更済みコンテキスト画像２１にサイズ変更する。サイズ変更済みコンテキスト画像２１は、第２のＤＣＮＮ２２０に送信される。第２のＤＣＮＮ２２０及び第１のＤＣＮＮ２１０は同一の構造を有する。この手順は、小物体の検出を改善する。なぜならば、画像内のより大きなエリアから特徴を抽出することは、より良好な弁別動作をもたらすコンテキスト情報を組み込むことに役立つからである。別の実施形態では、コンテキストボックス２０の面積と提案ボックス１５の面積との間の所定の比に従って所定の距離だけ、コンテキストボックス２０の中心を提案ボックス１５の中心からシフトすることができる。

幾つかの実施形態では、コンテキストボックス２０が提案ボックス１５を囲むように、コンテキストボックス２０は提案ボックス１５よりも大きくなるように設定される。例えば、コンテキストボックス２０の側線のそれぞれは、提案ボックス１５の側線の７倍以上とすることができる。この場合、提案ボックス１５の中心は、コンテキストボックス２０の中心と同一になるように配置される。

図４Ａは、提案ボックス１５からのコンテキストボックス２０の生成プロセスも示している。コンテキストボックス２０のベクトルは、提案ボックス１５のベクトルを変換することによって得られる。提案ボックス１５のベクトルは、提案ボックス１５の位置（ｘ，ｙ）、幅ｗ、及び高さｈによって表される。位置（ｘ，ｙ）は、画像１０内のｘｙ座標によって規定される提案ボックス１５のコーナーのうちの１つの位置を示す。提案ボックス１５のベクトルは、（ｘ，ｙ，ｗ，ｈ）によって表され、左下コーナーは、位置（ｘ，ｙ）によって与えられ、左下コーナーの位置（ｘ，ｙ）に対する対角位置は、（ｘ＋ｗ，ｙ＋ｈ）によって得られる。提案ボックス１５の中心（ｘ_ｃ，ｙ_ｃ）は、点（ｘ＋ｗ／２，ｙ＋ｈ／２）によって表される。提案ボックス１５の幅ｗ及び高さｈは、コンテキストボックス２０を提供するためにｃ倍に拡大され、コンテキストボックス２０のベクトル（ｘ’，ｙ’，ｗ’，ｈ’）は、（ｘ_ｃ−ｃ・ｗ／２，ｙ_ｃ−ｃ・ｈ／２，ｃ・ｗ，ｃ・ｈ）によって表される。図４Ａでは、提案ボックス１５及びコンテキストボックス２０は、同一の中心（ｘ_ｃ，ｙ_ｃ）を有する。別の実施形態では、コンテキストボックス２０の中心は、提案ボックス１５の中心から所定の量Δｘ及びΔｙに従ってシフトすることができる。例えば、所定の量Δｘ及びΔｙは、｜Δｘ｜≦（ｃ−１）ｗ／２及び｜Δｙ｜≦（ｃ−１）ｈ／２の条件を満たすように規定することができる。ここで、提案ボックス１５が、コンテキストボックス２０を越えて突出することなくコンテキストボックス２０に含まれるように、ｃ＞１である。

図４Ｂは、提案ボックス及びコンテキストボックスを画像１３内の時計画像に適用する手順の一例を示している。拡大された時計画像が、画像１３の右上コーナーに示されている。この時計画像は、家具、窓、暖炉等の他の物体よりもはるかに小さいことに留意すべきである。図４Ｂでは、提案ボックス１７が、画像１３内のターゲット画像として時計画像の部分に適用される。その後、提案ボックス１７に対応するターゲット画像は、サイズ変更モジュール１３を介してサイズ変更済みターゲット画像１６に拡大され、第１のＤＣＮＮ２１０に送信される。さらに、ニューラルネットワーク２００は、提案ボックス１７に基づくコンテキストボックス２２を提供し、コンテキストボックス２２を時計画像に適用する。コンテキストボックス２２は、図４Ｂに示すように、所定のエリアを用いて提案ボックス１７を完全に取り囲むように配置される。コンテキストボックス２２に対応する画像領域は、画像１３からコンテキスト画像としてクロッピングされ、サイズ変更モジュール１４は、このコンテキスト画像をサイズ変更済みコンテキスト画像２１にサイズ変更する。サイズ変更済みコンテキスト画像２１は、第２のＤＣＮＮ２２０に送信される。この場合、コンテキスト画像は、図４Ｂに見られるようにターゲット画像を囲んでいる。この手順によって、ニューラルネットワーク２００は、画像内の小物体の非常に重要な情報を得ることが可能になり、その結果、小物体の分類の確度はより高くなる。

図４Ｃは、画像内のマウス画像を検出するプロセスのブロック図を示している。画像３０が提供されると、領域提案ネットワーク４００は、デスク上のマウスの背面を示すターゲット物体画像に対応する提案ボックス３１を提供し、提案ボックス３１を取り囲むコンテキストボックス３２を提供する。サイズ変更モジュール１３（図示せず）によってサイズ変更された後、ターゲット物体画像のサイズ変更済みターゲット画像が、第１のＤＣＮＮ２１０（畳み込み層として示す）に送信される。第１のＤＣＮＮ２１０は、サイズ変更済みターゲット画像からターゲット物体画像の第１の特徴ベクトルを抽出し、この第１の特徴ベクトルを連結モジュール３１０に送信する。さらに、コンテキストボックス３２は、画像３０に適用され、ターゲット物体画像を囲むコンテキスト領域画像が求められる。サイズ変更モジュール１４（図示せず）によってサイズ変更された後、コンテキスト領域画像のサイズ変更済みコンテキスト画像が、第２のＤＣＮＮ２２０（畳み込み層として示す）に送信される。第２のＤＣＮＮ２２０は、サイズ変更済みコンテキスト画像からコンテキスト領域画像の第２の特徴ベクトルを抽出し、この第２の特徴ベクトルを連結モジュール３１０に送信する。連結モジュール３１０は、第１の特徴ベクトル及び第２の特徴ベクトルを得た後、第１の特徴ベクトルと第２の特徴ベクトルとを連結し、連結特徴を生成する。連結特徴は、完全接続ＮＮ３１１（完全接続層として示す）に送信される。完全接続ＮＮ３１１は、特徴ベクトルを生成し、ソフトマックス関数モジュール３１２に送信する。ソフトマックス関数モジュール３１２は、完全接続ＮＮ３１２からの特徴ベクトルに基づいてターゲット物体画像の分類を実行し、分類結果を出力する。この分類結果は、ターゲット物体画像のカテゴリーが図４Ｃに示すような「マウス」であることを示す。

小物体データセット
画像内の小物体に対応する小さな提案ボックスは、低次元の特徴ベクトルをもたらすので、提案ボックスのサイズは、物体検出システム１００における提案ボックスのコンテキスト情報に対応する適切なサイズのベクトルを得るように選ばれる。

幾つかの実施形態では、小物体を検出するデータセットは、ＳＵＮ及びＭｉｃｒｏｓｏｆｔＣＯＣＯデータセット等の従来のデータセットから所定の小物体を選択することによって構築することができる。例えば、小物体の画像のサブセットが、従来のデータセットから選択され、従来のデータセットにおけるグラウンドトゥルースバウンディングボックスロケーションが、従来のデータセットから大きな物体インスタンスをプルーニングするとともに、小物体を純粋に含む小物体データセットを小さなバウンディングボックスを用いて構成するのに用いられる。小物体データセットは、小物体の統計を計算することによって構築することができる。

図５は、小物体カテゴリーの統計の一例を示している。１０個の例示的なカテゴリーが図５に列挙されている。例えば、「マウス」のカテゴリーに関しては、１７３９個の画像に２１３７個のインスタンスがあることが分かる。「電話機」、「スイッチ」、「コンセント」、「時計」、「トイレットペーパー」、「ティッシュボックス」、「蛇口」、「皿」、及び「瓶」等の他のカテゴリーも、図５に列挙されている。図５は、各カテゴリーに関するメジアン相対面積（median relative area）も示している。このメジアン相対面積は、同じカテゴリーにおける物体インスタンスの画像全体の面積に対するバウンディングボックスの面積の比に対応する。メジアン相対面積は、０．０８％〜０．５８％の範囲にある。この相対面積は、ＶＧＡ画像における１６×１６ピクセル^２〜４２×４２ピクセル^２のピクセル面積に対応する。このため、この実施形態に従って構築される小物体データセットは、小物体向けにカスタマイズされる。小さなバウンディングボックスのサイズは、上記で説明した小物体データセットに基づいて求めることができる。他方、ＰＡＳＣＡＬＶＯＣデータセット等の従来のデータセットにおける物体カテゴリーの相対面積のメジアンは、１．３８％〜４６．４０％の範囲にある。したがって、本発明の幾つかの実施形態による小物体データセットによって提供される境界ボックスは、小物体について従来のデータセットによって提供されるバウンディングボックスよりも高い確度のバウンディングボックスを提供することができる。なぜならば、従来のデータセットは、小物体向けにカスタマイズされていない物体カテゴリーに対してはるかに広いバウンディングボックスエリアを提供するからである。

小物体データセットを構築する際、所定のサイズよりも小さな物理寸法を有するインスタンスをカテゴリー化することによって、所定の小物体を決定することができる。例えば、所定のサイズは、３０センチメートルとすることができる。別の例では、所定のサイズは、物体検出システム設計に従って５０センチメートルとすることができる。

図６は、カテゴリーごとの物体のメジアンバウンディングボックスサイズ及び対応するアップサンプリング比を示している。この実施形態では、アップサンプリング比は、深層畳み込みニューラルネットワークの入力サイズ（この場合、２２７×２２７）に整合するために６〜７となるように選ばれる。

ネットワークの構成
幾つかの実施形態では、第１のＤＣＮＮ２１０及び第２のＤＣＮＮ２２０は、同一の構造を有するように設計され、第１のＤＣＮＮ２１０及び第２のＤＣＮＮ２２０のそれぞれは、少数の畳み込み層を備える。トレーニングプロセスにおいて、第１のＤＣＮＮ２１０及び第２のＤＣＮＮ２２０は、ＩｍａｇｅＮｅｔ事前トレーニング済みモデルを用いて初期化される。トレーニングプロセスが継続している間、第１のＤＣＮＮ２１０及び第２のＤＣＮＮ２２０は、ネットワークの重みを個別に進展させ、重みを共有しない。

第１の特徴ベクトル２３０及び第２の特徴ベクトル２４０は、ＡｌｅｘＮｅｔの最初の６つの層又はＶＧＧ１６の最初の６つの層から導出される。提案ボックス１５に対応するターゲット物体画像及びコンテキストボックス２０に対応するコンテキスト領域画像は、ＡｌｅｘＮｅｔ画像パッチ用に２２７×２２７にサイズ変更され、ＶＧＧ１６画像パッチ用に２２４×２２４にサイズ変更される。第１のＤＣＮＮ２１０及び第２のＤＣＮＮ２２０はそれぞれ、４０９６次元特徴ベクトルを出力し、これらの４０９６次元特徴ベクトルは、連結モジュール３１０と、２つの完全接続層を有する完全接続ＮＮ３１１と、ソフトマックス関数モジュール３１２とを備える第３のニューラルネットワーク３００に送信される。第３のニューラルネットワーク３００は、第１のＤＣＮＮ２１０及び第２のＤＣＮＮ２２０から連結特徴を受信した後、連結モジュール３１０によって生成された連結特徴ベクトルに基づいて、ターゲット物体画像に対してソフトマックス関数モジュール３１２を用いて、予測された物体カテゴリーラベルを出力する。この場合、事前トレーニングされた重みは、完全接続ＮＮ３１１における所定の数の最後の層には用いられない。代わりに、畳み込み層が用いられる。

提案ボックス１５は、勾配方向ヒストグラム（ＨＯＧ）特徴に基づく変形可能部分モデル（ＤＰＭ）モジュールと、潜在的（latent）サポートベクトルモジュールとによって生成することができる。この場合、ＤＰＭモジュールは、カテゴリー固有の物体を検出するように設計され、ＤＰＭモジュールのルートパートテンプレート（root and part template）のサイズは、小物体サイズに対応するように調整され、その上、ＤＭＰモジュールは、所定の異なるクラスについてトレーニングされる。

提案ボックス１５は、領域提案ネットワーク（ＲＰＮ）４００によって生成することができる。ＲＰＮ４００によって生成される提案ボックス１５は、所定の数のピクセルを有するように設計される。ピクセルの数は、物体検出システム１００の構成設計に従って１６^２ピクセル^２、４０^２ピクセル^２又は１００^２ピクセル^２とすることができる。別の例では、物体検出システムのデータセット内の小物体のカテゴリーが、１００^２ピクセル^２よりも多くなるように規定されたとき、ピクセルの数は、１００^２ピクセル^２よりも多くすることができる。例えば、ＶＧＧネットワークのｃｏｎｖ４＿３層は、小さなアンカーボックスに関連付けられた特徴マップに用いられる。ｃｏｎｖ４＿３層のそれぞれのフィールドは９２×９２ピクセル^２である。

図７は、種々のネットワークによって行われた平均精度結果の一例を示している。この例では、ＣｏｎｔｅｘｔＮｅｔは、ＡｌｅｘＮｅｔと呼ばれる。第２行（ＤＰＭ提案（DPM prop.）＋ＡｌｅｘＮｅｔ）は、ＤＰＭ提案を用いることによって得られ、トレーニング及び試験は、カテゴリーごとに１画像当たり５００回実行される。第３行（ＲＰＮ提案（RPN prop.）＋ＡｌｅｘＮｅｔ）は、幾つかの実施形態に従ってＲＰＮを用いることによって得られ、トレーニングは、１画像当たり２０００回実行され、試験は、１画像当たり５００回実行される。これらの結果は、ＡｌｅｘＮｅｔトレーニングを用いたＰＲＮ提案が他のものよりも良好な性能を提供することを示している。

物体を分類する際に、物体ボックスとグラウンドトゥルースバウンディングボックスとの間の重複比が０．５よりも大きいか否かの正しい判断が行われる。この重複比は、インターセクションオーバーユニオン（Intersection over Union）（ＩｏＵ）測定モジュールによって測定される。

別の実施形態では、重複比は、物体検出システム１００において設計される所定の検出確度に従って変更することができる。

幾つかの好ましい実施形態を図示及び説明してきたが、本発明の範囲から逸脱することなく多くの変形及び変更をこれらの実施形態に対して行うことができることが当業者には明らかであろう。本発明の範囲は、添付の特許請求の範囲及びその均等物によって画定される。

Claims

画像内の物体を検出する方法であって、
第１のサブネットワークを用いて前記画像内の前記物体の画像領域上に提案ボックスを生成し、前記提案ボックスによって包含される画像の第１の領域から第１の特徴ベクトルを抽出することと、
前記提案ボックスをｘ方向及びｙ方向において拡大したコンテキストボックスに基づいて前記画像の第２の領域を求めることと、
第２のサブネットワークを用いて、前記画像の第２の領域から第２の特徴ベクトルを抽出することと、
前記第１の特徴ベクトル及び前記第２の特徴ベクトルを連結して生成した連結特徴に基づいて、第３のサブネットワークを用いて前記物体のクラスを分類することと、
前記分類の結果に従って前記第１の領域内の物体の前記クラスを求めることと、
を含み、
前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、ニューラルネットワークを形成し、
前記方法のステップは、プロセッサによって実行される、
方法。
前記提案ボックスを拡大することは、前記第１の領域及び前記第２の領域のそれぞれが前記物体を含むように行われ、
前記第１の領域のサイズは、前記第２の領域のサイズよりも小さい、
請求項１に記載の方法。
前記提案ボックスを拡大することは、固定比に従って行われ、
前記第２のサブネットワークは、深層畳み込みニューラルネットワークである、
請求項１に記載の方法。
前記第１のサブネットワーク及び前記第２のサブネットワークのうちの少なくとも一方は、深層畳み込みニューラルネットワークであり、
前記第３のサブネットワークは、完全接続ニューラルネットワークである、
請求項１に記載の方法。
前記第３のサブネットワークは、前記第１の特徴ベクトルと前記第２の特徴ベクトルとの特徴ベクトル連結操作を実行する、
請求項４に記載の方法。
前記検出された物体及び前記物体の前記クラスをディスプレイデバイス上にレンダリングすること、又は前記検出された物体及び前記物体の前記クラスを送信することを更に含む、
請求項１に記載の方法。
前記第１の領域は、領域提案ネットワークによって得られる、
請求項１に記載の方法。
前記領域提案ネットワークは畳み込みニューラルネットワークである、
請求項７に記載の方法。
前記第２の領域の幅は、前記第１の領域の幅の７倍の大きさである、
請求項１に記載の方法。
前記第２の領域の高さは、前記第１の領域の高さの７倍の大きさである、
請求項１に記載の方法。
前記第２の領域の幅は、前記第１の領域の幅の３倍の大きさである、
請求項１に記載の方法。
前記第２の領域の高さは、前記第１の領域の高さの３倍の大きさである、
請求項１に記載の方法。
前記第２の領域の中心は、前記第１の領域の中心に一致する、
請求項１に記載の方法。
前記第１の領域が前記第１のサブネットワークに入力される前に、前記第１の領域は、第１の所定のサイズにサイズ変更される、
請求項１に記載の方法。
前記第２の領域が前記第２のサブネットワークに入力される前に、前記第２の領域は、第２の所定のサイズにサイズ変更される、
請求項１に記載の方法。
前記第１の領域は、変形可能部分モデル物体検出器を用いることによって得られる、
請求項１に記載の方法。
コンピューターに物体検出プロセスを実行させるプログラムを記憶する非一時的コンピューター可読記録媒体であって、
前記物体検出プロセスは、
第１のサブネットワークを用いて画像内の物体の画像領域上に提案ボックスを生成し、前記提案ボックスによって包含される画像の第１の領域から第１の特徴ベクトルを抽出することと、
前記提案ボックスをｘ方向及びｙ方向において拡大したコンテキストボックスに基づいて前記画像の第２の領域を求めることであって、前記第１の領域のサイズは前記第２の領域のサイズと異なることと、
第２のサブネットワークを用いて、前記画像の第２の領域から第２の特徴ベクトルを抽出することと、
前記第１の特徴ベクトル及び前記第２の特徴ベクトルを連結して生成した連結特徴に基づいて第３のサブネットワークを用いて前記物体を検出して、前記物体を取り囲むバウンディングボックス及び前記物体のクラスを生成することと、
を含み、
前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、ニューラルネットワークを形成する、
非一時的コンピューター可読記録媒体。
物体検出システムであって、
ヒューマンマシンインターフェースと、
ニューラルネットワークを含む記憶デバイスと、
メモリと、
前記物体検出システムの外部にあるネットワークと接続可能なネットワークインターフェースコントローラーと、
撮像デバイスと接続可能な撮像インターフェースと、
前記ヒューマンマシンインターフェース、前記記憶デバイス、前記メモリ、前記ネットワークインターフェースコントローラー及び前記撮像インターフェースに接続するように構成されたプロセッサと、
を備え、
前記プロセッサは、前記記憶デバイスに記憶された前記ニューラルネットワークを用いて画像内の物体を検出する命令を実行し、
前記ニューラルネットワークは、
第１のサブネットワークを用いて前記画像内の前記物体の画像領域上に提案ボックスを生成し、前記提案ボックスによって包含される前記画像の第１の領域から第１の特徴ベクトルを抽出するステップと、
前記提案ボックスをｘ方向及びｙ方向において拡大したコンテキストボックスに基づいて前記画像の第２の領域を求めるステップであって、前記第１の領域のサイズは前記第２の領域のサイズと異なるステップと、
第２のサブネットワークを用いて、前記画像の第２の領域から第２の特徴ベクトルを抽出するステップと、
前記第１の特徴ベクトル及び前記第２の特徴ベクトルを連結して生成した連結特徴に基づいて、第３のサブネットワークを用いて前記物体を検出して、前記物体を取り囲むバウンディングボックス及び前記物体のクラスを生成するステップと、
を実行し、
前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、ニューラルネットワークを形成する、
物体検出システム。