JP7192109B2

JP7192109B2 - コンテキスト埋め込みおよび領域ベースの物体検出のための方法および装置

Info

Publication number: JP7192109B2
Application number: JP2021520139A
Authority: JP
Inventors: ニエ，ジン
Original assignee: ノキアテクノロジーズオサケユイチア
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2022-12-19
Anticipated expiration: 2038-10-12
Also published as: JP2022504774A; US11908160B2; US20210383166A1; CN113168705A; EP3864621A1; WO2020073310A1; EP3864621A4

Description

様々な実施形態は、一般に、領域ベースの物体検出を実行するための方法および装置に関する。

物体検出はコンピュータビジョンの分野における課題であり、バウンディングボックスを使用したオブジェクトインスタンスのローカライズと認識を目的としている。畳み込みニューラルネットワーク（ＣＮＮ）に基づく物体検出は、視覚的監視、先進運転支援システム（ＡＤＡＳ）およびヒューマンマシンインタラクション（ＨＭＩ）の分野で利用できる。

現在の物体検出フレームワークは、２つの主要な流れにグループ化することができ、領域ベースの方法と領域フリーの方法である。領域ベースの検出器の例は、例えば、Y.S.Cao, X.Niu, Y.Douの「Region-based convolutional neural networks for object detection in very high resolution remote sensing images」 In International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery, 2016、 R.Girshickの「Fast r-cnn」 Computer Science, 2015、およびS.Ren, K.He, R.GirshickおよびJ.Sunの「Fast r-cnn: towards real-time object detection with region proposal networks」 in International Conference on Neural Information Processing Systems, 2015, pp.91-99において議論されている。一般に、領域ベースの方法は、物体検出を２つのステップに分割する。第1段階では、領域提案ネットワーク（ＲＰＮ）が高品質提案を生成する。次に、第２段階では、提案をさらに分類し、領域別サブネットによって回帰させる。一般的に、領域フリーの方法では、位置、スケール、およびアスペクト比での規則的かつ高密度のサンプリングによって物体を検出する。

少なくともいくつかの例示的な実施形態によれば、畳み込みニューラルネットワーク（ＣＮＮ）を用いて画像内の物体を検出する方法は、ＣＮＮによって、画像に基づく複数の参照特徴マップを生成するステップと、それぞれが複数の参照特徴マップに対応する複数の最終特徴マップを含む特徴ピラミッドを生成するステップと、提案関心領域（ＲＯＩ）を取得するステップと、少なくとも提案ＲＯＩに基づく第１のコンテキストＲＯＩを生成するステップであって、第１のコンテキストＲＯＩの領域は、提案ＲＯＩの領域よりも大きいステップと、提案ＲＯＩを複数の最終特徴マップの中から第１の最終特徴マップに割り当てるステップと、第１のコンテキストＲＯＩを複数の最終特徴マップの中から第２の最終特徴マップに割り当てるステップであって、第１の最終特徴マップのサイズは、第２の最終特徴マップのサイズと異なるステップと、提案ＲＯＩを用いた第１の最終特徴マップのＲＯＩプーリング演算を実行することによって第１の最終特徴マップから特徴の第１のセットを抽出するステップと、前記第１のコンテキストＲＯＩを用いた前記第２の最終特徴マップのＲＯＩプーリング演算を実行することによって前記第２の最終特徴マップから特徴の第２のセットを抽出するステップと、抽出された特徴の第１および第２のセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも１つを決定するステップとを含む。

特徴ピラミッドは、特徴ピラミッドネットワーク（ＦＰＮ）アーキテクチャに従って複数の参照特徴マップに基づいて生成され得る。

第１のコンテキストＲＯＩの領域は、提案ＲＯＩの領域の２^２倍であり得る。

方法は、抽出された特徴の第１および第２のセットを連結するステップをさらに含む場合があり、決定するステップは、抽出された特徴の連結されたセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも１つを決定するステップを含み得る。

方法は、抽出された特徴の連結されたセットをｓｑｕｅｅｚｅ―ａｎｄ―ｅｘｃｉｔａｔｉｏｎブロック（ＳＥＢ）に適用するステップをさらに含む場合があり、画像に対する物体の位置と物体のクラスとの少なくとも１つは、ＳＥＢの出力に基づいて決定される。

方法は、提案ＲＯＩに基づく第２のコンテキストＲＯＩを生成するステップであって、第２のコンテキストＲＯＩの領域は、第１のコンテキストＲＯＩの領域よりも大きいステップと、第２のコンテキストＲＯＩを複数の最終特徴マップの中から第３の最終特徴マップに割り当てるステップであって、第３の最終特徴マップのサイズは、第１および第２の最終特徴マップのサイズと異なるステップと、第２のコンテキストＲＯＩを用いた第１の最終特徴マップのＲＯＩプーリングを実行することによって第１の最終特徴マップから第３の特徴のセットを抽出するステップとをさらに含む場合があり、決定するステップは、抽出された特徴の第１、第２および第３のセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも１つを決定するステップを含む。

第１のコンテキストＲＯＩの領域は、提案ＲＯＩの領域の２^２倍であり、第２のコンテキストＲＯＩの領域は、提案ＲＯＩの領域の４^２倍であり得る。

方法は、抽出された特徴の第１、第２および第３のセットを連結するステップをさらに含む場合があり、決定するステップは、抽出された特徴の連結されたセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも１つを決定するステップを含む。

少なくともいくつかの例示的な実施形態によれば、コンピュータ可読媒体は、少なくとも、畳み込みニューラルネットワーク（ＣＮＮ）によって、物体を含む画像に基づく複数の参照特徴マップを生成するステップと、それぞれが複数の参照特徴マップに対応する複数の最終特徴マップを含む特徴ピラミッドを生成するステップと、提案関心領域（ＲＯＩ）を取得するステップと、少なくとも提案ＲＯＩに基づく第１のコンテキストＲＯＩを生成するステップであって、第１のコンテキストＲＯＩの領域は、提案ＲＯＩの領域よりも大きいステップと、提案ＲＯＩを複数の最終特徴マップの中から第１の最終特徴マップに割り当てるステップと、第１のコンテキストＲＯＩを複数の最終特徴マップの中から第２の最終特徴マップに割り当てるステップであって、第１の最終特徴マップのサイズは、第２の最終特徴マップのサイズと異なるステップと、提案ＲＯＩを用いた第１の最終特徴マップのＲＯＩプーリング演算を実行することによって第１の最終特徴マップから特徴の第１のセットを抽出するステップと、第１のコンテキストＲＯＩを用いた第２の最終特徴マップのＲＯＩプーリング演算を実行することによって第２の最終特徴マップから特徴の第２のセットを抽出するステップと、抽出された特徴の第１および第２のセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも１つを決定するステップとを装置に実行させるプログラム命令を含む。

コンピュータ可読媒体は、少なくとも抽出された特徴の第１および第２のセットを連結するステップを装置にさせるプログラム命令をさらに含む場合があり、決定するステップは、抽出された特徴の連結されたセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも１つを決定するステップを含む。

請求項１４のコンピュータ可読媒体は、少なくとも抽出された特徴の連結されたセットをｓｑｕｅｅｚｅ―ａｎｄ―ｅｘｃｉｔａｔｉｏｎブロック（ＳＥＢ）に適用するステップを装置にさせるプログラム命令をさらに含む場合があり、画像に対する物体の位置と物体のクラスとの少なくとも１つは、ＳＥＢの出力に基づいて決定される。

少なくともいくつかの例示的な実施形態によれば、装置は、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを含み、少なくとも１つのメモリとコンピュータプログラムコードは、少なくとも１つのプロセッサとともに少なくとも、畳み込みニューラルネットワーク（ＣＮＮ）によって、物体を含む画像に基づく複数の参照特徴マップを生成するステップと、それぞれが複数の参照特徴マップに対応する複数の最終特徴マップを含む特徴ピラミッドを生成するステップと、提案関心領域（ＲＯＩ）を取得するステップと、少なくとも提案ＲＯＩに基づく第１のコンテキストＲＯＩを生成するステップであって、第１のコンテキストＲＯＩの領域は、提案ＲＯＩの領域よりも大きいステップと、提案ＲＯＩを複数の最終特徴マップの中から第１の最終特徴マップに割り当てるステップと、第１のコンテキストＲＯＩを複数の最終特徴マップの中から第２の最終特徴マップに割り当てるステップであって、第１の最終特徴マップのサイズは、第２の最終特徴マップのサイズと異なるステップと、提案ＲＯＩを用いた第１の最終特徴マップのＲＯＩプーリング演算を実行することによって第１の最終特徴マップから特徴の第１のセットを抽出するステップと、第１のコンテキストＲＯＩを用いた第２の最終特徴マップのＲＯＩプーリング演算を実行することによって第２の最終特徴マップから特徴の第２のセットを抽出するステップと、抽出された特徴の第１および第２のセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも１つを決定するステップとを装置に実行させる。

第１のコンテキストＲＯＩの領域は、提案ＲＯＩの領域の２倍であり得る。

少なくとも１つのメモリとコンピュータプログラムコードは、少なくとも１つのプロセッサとともに、少なくとも抽出された特徴の第１および第２のセットを連結するステップを装置にさらにさせ、決定するステップは、抽出された特徴の連結されたセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも１つを決定するステップを含む。

少なくとも１つのメモリとコンピュータプログラムコードは、少なくとも１つのプロセッサとともに、少なくとも抽出された特徴の連結されたセットをｓｑｕｅｅｚｅ―ａｎｄ―ｅｘｃｉｔａｔｉｏｎブロック（ＳＥＢ）に適用するステップを装置にさらにさせ、画像に対する物体の位置と物体のクラスとの少なくとも１つは、ＳＥＢの出力に基づいて決定される。

少なくともいくつかの例示的な実施形態は、以下に提供される詳細な説明および添付の図面からより完全に理解され、同様の要素は、同様の参照番号によって表され、これは例示としてのみ与えられ、したがって、例示的な実施形態を限定するものではない。

少なくともいくつかの例示的な実施形態に係る監視ネットワーク１０の図である。少なくともいくつかの例示的な実施形態に係る物体検出デバイスの構造例を示す図である。マルチスケール畳み込みニューラルネットワーク（ＭＳ―ＣＮＮ）検出器の物体検出サブネットワークを示す図である。少なくともいくつかの実施形態に係るバックボーン畳み込みニューラルネットワーク（ＣＮＮ）の部分を示す図である。少なくともいくつかの例示的な実施形態に係る特徴ピラミッドネットワーク（ＦＰＮ）を示す。少なくともいくつかの例示的な実施形態に係るコンテキスト埋め込み領域ベース物体検出ネットワーク６００の一部の図を示す。少なくともいくつかの例示的な実施形態に係るコンテキスト埋め込み領域ベース物体検出方法を実行するための例示的なアルゴリズムを示すフローチャートである。

いくつかの例示的な実施形態が示されている添付の図面を参照して、様々な例示的な実施形態をより詳細に説明する。

詳細な例示的実施形態が本明細書に開示される。しかしながら、本明細書に開示される特定の構造的および機能的詳細は、少なくともいくつかの例示的な実施形態を説明する目的のための単なる代表的なものである。しかしながら、例示的な実施形態は、多くの代替形態で実施することができ、本明細書に記載される実施形態のみに限定されるものと解釈されるべきではない。

したがって、例示的な実施形態は、様々な修正および代替の形態が可能であるが、その実施形態は、図における例示として示され、本明細書において詳細に説明される。しかしながら、例示的な実施形態を開示された特定の形態に限定する意図はなく、反対に、例示的な実施形態は、例示的な実施形態の範囲内に入るすべての改変、均等物、および代替物をカバーするものであることを理解されたい。同様の番号は、図の説明全体を通して同様の要素を指す。本明細書で使用される場合、「および／または」という用語は、１つまたは複数の関連する列挙された項目の任意の組み合わせおよびすべての組み合わせを含む。

要素が別の要素に対して「接続された」または「結合された」として参照される場合、それは、他の要素に直接接続または結合され得るか、または介在する要素が存在し得ることが理解される。対照的に、ある要素が別の要素に対して「直接接続される」または「直接結合される」として参照される場合、介在する要素は存在しない。要素間の関係を説明するために使用される他の語も同様に解釈されるべきである（例えば、「間に」に対する「間に直接」、「隣接する」に対する「直接隣接する」等）。

本明細書で使用される用語は、特定の実施形態を説明することのみを目的とし、例示的実施形態を制限することを意図しない。本明細書で使用される場合、単数形は、文脈が他のことを明確に示さない限り、複数形も含むように意図される。「構成する」、「構成している」、「含む」および／または「含んでいる」という用語は、本明細書で使用される場合、説明された特徴、整数、ステップ、操作、要素、および／または構成要素の存在を特定するが、１つまたは複数の他の特徴、整数、ステップ、操作、要素、構成要素、および／またはそれらのグループの存在または追加を排除しないことがさらに理解される。

また、いくつかの代替的な実施において、注目される機能／動作は、図に示される順序でなく起こり得ることに留意されたい。例えば、連続して示される２つの図は、実際には、実質的に同時に実行されてもよく、または、関連する機能／動作に応じて、逆の順序で実行されてもよい。

例示的な実施形態は、適切なコンピューティング環境で実施されるものとして本明細書で議論される。必須ではないが、例示的な実施形態は、１つまたは複数のコンピュータプロセッサまたはＣＰＵによって実行される、プログラムモジュールまたは機能プロセス等のコンピュータ実行可能命令（例えば、プログラムコード）の一般的な文脈で説明される。一般に、プログラムモジュールまたは機能プロセスは、特定のタスクを実行する、または特定の抽象データタイプを実施するルーチン、プログラム、物体、構成要素、データ構造などを含む。

以下の説明において、例示的な実施形態は、特に断らない限り、１つまたは複数のプロセッサによって実行される動作および操作の記号表現（例えば、フローチャートの形式で）を参照して説明される。したがって、このような動作および操作は、コンピュータによって実行されるものと参照されることもあるが、構造化された形式でデータを表す電気信号のプロセッサによる操作を含むことが理解されよう。この操作は、データを変換するか、またはコンピュータのメモリシステム内の位置にデータを維持し、当業者によく理解されるように、コンピュータの動作を再構成または変更する。

１．概要
以下でより詳細に説明するように、少なくともいくつかの実施形態に係るコンテキスト埋め込み領域ベースの物体検出方法は、領域ベース物体検出方法に基づいており、豊富なコンテキスト情報を得るためにコンテキストブランチを埋め込むことを含み、それによって改善された物体検出をもたらす。少なくともいくつかの例示的な実施形態によれば、コンテキスト情報は、小さい物体、ぼやけた物体、および遮断された物体を検出するために有益である。さらに、以下にさらに詳細に説明するように、少なくともいくつかの実施形態に係るコンテキスト埋め込み領域ベースの物体検出方法は、ノイズ情報を低減するか、または代替的に回避するために、コンテキストブランチに関連してスクイーズアンドエクサイテーションブロックを採用する。少なくともいくつかの実施形態によるコンテキスト埋め込み領域ベース物体検出方法は、例えば、視覚監視を含むいくつかの異なる方法で適用することができる。

少なくともいくつかの例示的な実施形態による、コンテキスト埋め込み領域ベース物体検出方法を利用することができる監視ネットワークおよび物体検出デバイス１００の例示的な構造は、本開示のセクション２で後述される。次に、物体検出を実行するために特徴ピラミッドおよびコンテキスト埋め込みを使用する例が、本開示のセクション３で議論される。次に、少なくともいくつかの実施形態による、コンテキスト埋め込み領域ベース物体検出方法を実行するための畳み込みニューラルネットワーク（ＣＮＮ）アーキテクチャおよびアルゴリズムの例を、本開示のセクション４で議論される。さらに、ＣＮＮアーキテクチャをトレーニングする方法は、本開示のセクション５で議論される。

２．少なくともいくつかの実施形態に係るコンテキスト埋め込み領域ベース物体検出方法を実装するための構造例
例えば、図１は、少なくともいくつかの例示的な実施形態による監視ネットワーク１０の図を示す。図１に示すように、監視ネットワーク１０は、物体検出デバイス１００および監視システム１５０を含むことができる。

監視システム１５０は、各々がカメラの位置の近傍のシーンを表す画像データを取り込む１つまたは複数のカメラを含むことができる。例えば、図１に示すように、監視システム１５０は、監視シーン１５４を取り込むカメラ１５２を含む。カメラ１５２は、例えば、監視シーン１５４の複数の時間的に隣接する画像を連続的に取り込むこと（すなわち、ビデオまたは動画データの取り込み）によって、監視シーン１５４を取り込むことができる。少なくともいくつかの例示的な実施形態によれば、カメラ１５２は、取り込まれた監視シーン１５４に対応する画像データ１２０を物体検出デバイス１００に送信する。次に、物体検出デバイス１００の構成例について、図２を参照してより詳細に説明する。

図２は、少なくともいくつかの実施形態に係る物体検出デバイス１００の構成例を示す図である。

図２において、物体検出デバイス１００は、例えば、データバス２５９、送信部２５２、受信部２５４、記憶部２５６、処理部２５８を備えてもよい。

送信部２５２、受信部２５４、記憶部２５６、処理部２５８は、データバス２５９を用いて互いにデータを送受信してもよい。

送信部２５２は、ハードウェアと、例えば、制御信号またはデータ信号を含む信号を、１つまたは複数の有線および／または無線接続を介して、無線通信ネットワーク内の１つまたは複数の他のネットワーク要素に送信するために必要な任意のソフトウェアとを含むデバイスである。

受信部２５４は、ハードウェアと、例えば、無線通信ネットワーク内の１つまたは複数の他のネットワーク要素への１つまたは複数の有線および／または無線接続を介して制御信号またはデータ信号を含む無線信号を受信するために必要な任意のソフトウェアとを含むデバイスである。

記憶部２５６は、磁気記憶装置、フラッシュ記憶装置などを含むデータを記憶することができる任意のデバイスであってよく、さらに、図示されていないが、記憶部２５６は、ポート、ドック、ドライブ（例えば、光学ドライブ）、または取り外し可能な記憶媒体（例えば、ＵＳＢフラッシュドライブ、ＳＤカード、内蔵マルチメディアカード（ｅＭＭＣ）、ＣＤ、ＤＶＤ、およびブルーレイディスクのうちの１つまたは複数）を受け取りおよび／または取り付けるための開口部のうちの１つまたは複数をさらに含んでもよい。

処理部２５８は、例えばプロセッサを含むデータを処理することができる任意のデバイスであってもよい。

少なくとも１つの例示的な実施形態によれば、物体検出デバイスによって実行されるものとして、図１～図７を参照して本明細書に記載される任意の動作は、図２に示される物体検出デバイス１００の構造を有する電子デバイスによって実行されてもよい。例えば、少なくとも１つの例示的な実施形態によれば、物体検出デバイス１００は、ソフトウェアおよび／またはハードウェアに関して、物体検出デバイスによって実行されるものとして本明細書に記載される機能のいずれかまたはすべてを実行するようにプログラムされてもよい。したがって、物体検出デバイス１００は、ソフトウェアおよび／またはハードウェアプログラミングを介して専用コンピュータとして具体化することができる。

物体検出デバイスによって実行されるものとして、本明細書に記載された機能のいずれかまたはすべてを実行するように、ソフトウェアに関してプログラムされる物体検出デバイス１００の例を以下に説明する。例えば、記憶部２５６は、物体検出デバイスによって実行されるものとして本明細書に記載される操作のいずれかまたはすべてに対応する実行可能命令（例えば、プログラムコード）を含むプログラムを記憶することができる。少なくとも例示的な一実施形態によれば、記憶部２５６に記憶されることに加えてまたは代替的に、実行可能命令（例えば、プログラムコード）は、例えば光ディスク、フラッシュドライブ、ＳＤカード等を含むコンピュータ可読媒体に記憶されてもよく、物体検出デバイス１００は、コンピュータ可読媒体に記憶されたデータを読み取るためのハードウェアを含んでもよい。また、処理部２５８は、例えば、記憶部２５６に記憶された実行可能命令（例えば、プログラムコード）と、物体検出デバイス１００に含まれるハードウェアにロードされたコンピュータ可読記憶媒体との少なくとも一方を読み出して実行し、コンピュータ可読媒体を読み出すことによって、物体検出デバイスによって実行されるものとして、図１～図４を参照して本明細書で説明した動作のいずれかまたは全てを実行するように構成されたプロセッサであってもよい。

物体検出デバイスによって実行されるものとして本明細書に記載された機能のいずれかまたはすべてを実行するようにハードウェアに関してプログラムされている物体検出デバイス１００の例を以下に説明する。上述するように記憶部またはコンピュータ可読媒体によって記憶される物体検出デバイスによって実行されるものとして図１～図７を参照して説明された機能に対応する実行可能命令（例えば、プログラムコード）に加えて、または代替的に、処理部２５８は、物体検出デバイスによって実行されるように、図１～図６を参照して本明細書に記載される動作のいずれかまたは全てを実行するために専用の構造設計を有する回路（例えば、集積回路）を含んでもよい。例えば、処理部２５８に含まれる上述した回路は、特定の回路設計を通じて物理的にプログラムされたＦＰＧＡまたはＡＳＩＣであってもよく、物体検出デバイスによって実行されるように、図１～図７を参照して説明した動作のいずれかまたは全てを実行する。

少なくともいくつかの例示的な実施形態によれば、物体検出デバイス１００は、コンテキスト埋め込みを使用して領域ベース物体検出を実行し、その結果、他の物体検出方法を参照して、小さい物体、ぼやけた物体、および遮蔽された物体に関する物体検出性能を向上させるとともに、複数のスケールで物体を検出することも可能である。いくつかの他の物体検出方法によって使用される２つの特徴、特徴ピラミッドおよび埋め込みコンテキストは、以下のセクション３でより詳細に議論される。

３．特徴ピラミッドおよび埋め込みコンテキスト
例えば、いくつかの物体検出方法は、複数のレベル（すなわち、複数のスケール）の特徴マップを含む特徴ピラミッドを利用する。例えば、領域ベース検出器すなわちマルチスケールＣＮＮ（ＭＳ―ＣＮＮ）は、異なるスケールの領域提案を生成するために、異なる空間分解能の畳み込み層を使用する。しかし、ＭＳ―ＣＮＮ検出器の異なる層は矛盾した意味をもつ場合がある。ＭＳ―ＣＮＮの例は、例えば、Z. Cai, Q. Fan, R.S.Feris, and N.Vasconcelos「A unified multi-scale deep convolutional neural network for fast object detection」 European Conference on Computer Vision Springer, Cham, 2016で論じられている。

さらに、領域提案を生成するために特徴ピラミッドを使用することに加えて、ＭＳ―ＣＮＮ検出器は、コンテキスト埋め込みを利用する物体検出サブネットワークも含む。図３は、ＭＳ―ＣＮＮ検出器の物体検出サブネットワーク３００を示す。図３に示すように、ＭＳ―ＣＮＮ物体検出サブネットワーク３００は、トランクＣＮＮ層３１０と、ｃｏｎｖ４―３畳み込み層に対応する第１特徴マップ３２０と、第１特徴マップ３２０に対して逆畳み込み演算を実行した結果得られるｃｏｎｖ４―３―２ｘ畳み込み層に対応する第２特徴マップ３３０とを含み、第２特徴マップ３３０は、第１特徴マップ３２０の拡大版である。図３に示す例では、第１特徴マップ３２０は、ディメンションＨ／８×Ｗ／８×５１２を有し、第２特徴マップ３３０は、ディメンションＨ／４×Ｗ／４×５１２を有する、ここで、Ｈは、ＭＳ―ＣＮＮ検出器に最初に入力された入力画像の高さであり、Ｗは、入力画像の幅である。

図３に示すように、第２特徴マップ３３０内には、第１領域３３４Ａ（すなわち、第２特徴マップ３３０内に図示された最も内側の立方体）および第２領域３３２Ａ（すなわち、第１領域３３４Ａを取り囲むように第２特徴マップ３３０内に示される立方体）が存在する。第２領域３３２Ａは、第１領域３３４Ａを拡大したものであり、第１領域３３４Ａの１．５倍の大きさである。さらに、図３にも示されるように、第１領域３３４Ａに対応する第２特徴マップ３３０の特徴は、ＲＯＩプーリングによって、７×７×５１２のディメンションを有する第１固定ディメンション特徴マップ３３４Ｂに縮小される。さらに、第２領域３３２Ａに対応する第２特徴マップ３３０の特徴は、ＲＯＩプーリングによって、同じくディメンション７×７×５１２を有する第２固定ディメンション特徴マップ３３２Ｂに縮小される。図３に示されるように、ＭＳ―ＣＮＮ物体検出サブネットワーク３００は、第１および第２固定ディメンション特徴マップ３３４Ｂおよび３３２Ｂを連結し、得られた特徴マップを、ディメンション５×５×５１２を有する第３固定ディメンション特徴マップ３４０Ｂに縮小し、第３固定ディメンション特徴マップ３４０Ｂの特徴を、クラス確率３７０およびバウンディングボックス３６０を決定するために、全結合層３５０に供給する。拡大された第２領域３３２Ａを第１領域３３４Ａとともに使用することによって、ＭＳ―ＣＮＮ検出器は、ＭＳ―ＣＮＮ検出器に含まれる特徴ピラミッドの高レベルのコンテキスト情報を埋め込もうとする。しかしながら、拡大された第２領域３３２Ａおよび第１領域３３４Ａは両方とも特徴ピラミッドの同じレベル（すなわち、ｃｏｎｖ４―３―２ｘ層）にマッピングされるので、拡大された第２領域３３２Ａに対応するコンテキスト情報の豊富さは制限され得る。

対照的に、図４～図６を参照して以下に説明されるように、本明細書に開示される少なくともいくつかの実施形態に係るコンテキスト組み込み領域ベース物体検出方法は、コンテキストブランチを埋め込むことを含み、提案関心領域（ＲｏＩ）に対応する特徴および１つまたは複数の拡大されたＲｏＩに対応するコンテキスト情報が特徴ピラミッドの複数のレベルから抽出される。したがって、抽出されたコンテキスト情報の豊富さは、ＭＳ―ＣＮＮ検出器のコンテキスト情報に対して改善され、したがって、少なくともいくつかの例示的な実施形態によるコンテキスト埋め込み領域ベース物体検出方法の物体検出性能も改善され得る。

少なくともいくつかの例示的な実施形態による、コンテキスト埋め込み領域ベース物体検出方法を実行するための畳み込みニューラルネットワーク（ＣＮＮ）アーキテクチャおよびアルゴリズムの例を、本開示のセクション４で説明する。

４．少なくともいくつかの実施形態に係るコンテキスト埋め込み領域ベースの物体検出方法を実装するためのＣＮＮアーキテクチャおよびアルゴリズム例
少なくともいくつかの例示的な実施形態によれば、図４～図７を参照して後述するＣＮＮ構造およびアルゴリズムは、図１および図２を参照して上述した物体検出デバイス１００によって実施することができる。したがって、図４～図７を参照して後述するいずれかまたはすべての動作が、物体検出デバイス１００（すなわち、処理部２５８）によって実行または制御されてもよい。

少なくともいくつかの例示的な実施形態によれば、コンテキスト埋め込み領域ベース物体検出方法を実施するためのＣＮＮアーキテクチャは、領域提案ネットワーク（ＲＰＮ）およびコンテキスト埋め込み領域ベース物体検出ネットワークの一方または両方を実施するために共に使用され得る、バックボーンＣＮＮおよび特徴ピラミッドネットワーク（ＦＰＮ）を含むことができる。

例えば、図４は、少なくともいくつかの実施例によるバックボーンＣＮＮ４００の一部を示す。さらに、バックボーンＣＮＮ４００として機能し得るＣＮＮの一タイプは、残余ネットワークＣＮＮ（すなわち、ＲｅｓＮｅｔ）であり、その例（ＲｅｓＮｅｔ３６およびＲｅｓＮｅｔ５０を含む）は、例えば、K He, X Zhang, S Ren, J Sun, 「Deep Residual Learning for Image Recognition」 Proc. IEEE Computer Vision and Pattern Recognition, 2016に記載されている。簡略化のために、図４に示すバックボーンＣＮＮ４００の構造は、ＲｅｓＮｅｔ３６ＣＮＮの構造である。しかしながら、少なくともいくつかの実施例によれば、バックボーンＣＮＮ４００は、ＲｅｓＮｅｔ５０ＣＮＮによって実施される。さらに、バックボーンＣＮＮ４００は、ＲｅｓＮｅｔ３６ＣＮＮおよびＲｅｓＮｅｔ５０ＣＮＮに限定されない。少なくともいくつかの例示的な実施例によれば、バックボーンＣＮＮ４００は、異なるスケールを有する複数の特徴マップを生成する任意のＣＮＮによって実施することができる。

図４に示すように、バックボーンＣＮＮ４００をＲｅｓＮｅｔで実施する場合、バックボーンＣＮＮ４００は、複数の参照特徴マップをそれぞれ出力する複数の畳み込み層を含んでもよい。例えば、図４に示すバックボーンＣＮＮ４００は、第１畳み込み層ｃｏｎｖ１＿ｘ（不図示）と、第２参照特徴マップＣ２を出力する第２畳み込み層ｃｏｎｖ２＿ｘと、第３参照特徴マップＣ３を出力する第３畳み込み層ｃｏｎｖ３＿ｘと、第４参照特徴マップＣ４を出力する第４畳み込み層ｃｏｎｖ４＿ｘと、第５参照特徴マップＣ５を出力する第５畳み込み層ｃｏｎｖ５＿ｘとを含む。以下で詳細に説明するように図５を参照すると、参照特徴マップＣ２、Ｃ３、Ｃ４およびＣ５は、ＦＰＮの基礎を形成することができる。

図５は、少なくともいくつかの例示的な実施形態によるＦＰＮ５００を示す。ＦＰＮ５００は、バックボーンＣＮＮ４００の参照特徴マップ（例えば、第２から第５の参照特徴マップＣ２～Ｃ５）に基づいて構成することができる。例えば、ＦＰＮの例は、T. Lin、P. Dollar, R. Girshick, K. He, B. Hariharan and S. Belongie 「Feature Pyramid Networks for Object Detection」 Proc. IEEE Computer Vision and Pattern Recognition, 2017、T. Kong, F. Sun, A. Yao, H Liu, M. Lu, and Y. Chen, 「Ron: Reverse connection with objectness prior networks for object detection」 Proc. IEEE Computer Vision and Pattern Recognition, 2017およびLin T Y, Goyal P, Girshick R, et al.,「Focal Loss for Dense Object Detection」 Proc. IEEE Computer Vision and Pattern Recognitionにおいて議論されている。図４を参照して上述したＭＳ―ＣＮＮ検出器のマルチスケール特徴マップとは対照的に、ＦＰＮ５００はトップダウンアーキテクチャを採用して、あらゆるスケールで高レベルの意味特徴マップを含む特徴ピラミッドを作成する。例えば、ＦＰＮ５００は、参照特徴マップＣｋ０+２、Ｃｋ０+１、Ｃｋ０、Ｃｋ０－１、Ｃｋ０－２にそれぞれ対応する最終特徴マップＰｋ０+２、Ｐｋ０+１、Ｐｋ０、Ｐｋ０－１、Ｐｋ０－２を作成し、ここでｋ０は定数であり、その値は、例えば、物体検出デバイス１００の設計者および／またはユーザの好みに従って設定することができる。定数ｋ０については、式１と図６および図７を参照して以下により詳細に説明する。さらに、図６および図７を参照して以下により詳細に説明するように、ＦＰＮ５００によって生成された最終特徴マップＰは、領域提案およびコンテキスト埋め込み領域ベース物体検出の一方または両方に使用することができる。

図６は、少なくともいくつかの例示的な実施形態による、コンテキスト埋め込み領域ベース物体検出ネットワーク６００の一部の図を示す。図７は、少なくともいくつかの実施形態によるコンテキスト埋め込み領域ベース物体検出方法を実行するための例示的なアルゴリズムを示すフローチャートである。少なくともいくつかの例示的な実施形態による、コンテキスト埋め込み領域ベース物体検出方法を実行するための例示的なアルゴリズムを、物体検出デバイス１００によって実行され、物体検出デバイス１００がバックボーンＣＮＮ４００、ＦＰＮ５００、および物体検出ネットワーク６００を実施する（すなわち具体化する）例示的なシナリオに関して、図４から図７を参照して説明する。したがって、図４～図７に関してバックボーンＣＮＮ４００、ＦＰＮ５００、または物体検出ネットワーク６００、またはその要素によって実行されるように説明された動作は、物体検出デバイス１００によって実行されてもよい（例えば、物体検出デバイス１００の処理部２５８が、バックボーンＣＮＮ４００、ＦＰＮ５００、および物体検出ネットワーク６００の動作に対応するコンピュータ可読プログラムコードを実行することによって）。

また、説明を簡略化かつ容易にするために、図７では、入力画像に含まれる単一物体の検出について説明する。しかしながら、少なくともいくつかの実施形態に係るコンテキスト埋め込み領域ベース物体検出方法を実行するためのアルゴリズムは、１つの物体のみを含む画像を受信することに限定されず、１つの物体のみを検出することにも限定されない。入力画像はいくつかの物体を含むことができ、このアルゴリズムは様々なクラス、位置およびスケールのいくつかの物体を同時に検出することができる。

図７を参照して、ステップＳ７１０において、物体検出デバイス１００は、物体を含む入力画像を受信する。本発明の概念の少なくとも例示的な一実施形態によれば、物体検出デバイス１００は、図１を参照して上述したように、監視システム１５０から受信された画像データ１２０の一部として入力画像を受信することができる。物体検出デバイス１００は、入力画像を受信した後、受信画像をバックボーンＣＮＮ４００への入力として適用することができる。ステップＳ７１０の後、物体検出デバイス１００は、ステップＳ７２０に進む。

ステップＳ７２０において、物体検出デバイス１００は、参照特徴マップを生成してもよい。例えば、物体検出デバイス１００は、バックボーンＣＮＮ４００を用いて、ステップＳ７１０で受信した入力画像に基づいて、複数の参照特徴マップを生成してもよい。

例えば、ステップＳ７２０において、バックボーンＣＮＮ４００の第２畳み込み層から第５畳み込み層（ｃｏｎｖ２＿ｘ、ｃｏｎｖ３＿ｘ、ｃｏｎｖ４＿ｘ、ｃｏｎｖ５＿ｘ）は、それぞれ第２参照特徴マップから第５参照特徴マップ（Ｃ２、Ｃ３、Ｃ４、Ｃ５）を生成することができる。参照特徴マップ（Ｃ２、Ｃ３、Ｃ４、Ｃ５）はそれぞれ、第２参照特徴マップＣ２から第５参照特徴マップＣ５まで減少する異なるサイズ／スケールを有することができる。ステップＳ７２０の後、物体検出デバイス１００は、ステップＳ７３０に進む。

ステップＳ７３０において、物体検出デバイス１００は、ＦＰＮを使用して、最終特徴マップを含む特徴ピラミッドを生成することができる。例えば、物体検出デバイス１００は、ステップＳ７２０で生成された複数の参照特徴マップにそれぞれ対応する複数の最終特徴マップを含む特徴ピラミッドを生成してもよい。

例えば、図５に示されたＦＰＮ５００を参照して上述したように、ステップＳ７２０において、ＦＰＮ５００は、第１から第５の最終特徴マップ、およびオプションとして、追加の第６の最終特徴マップ（Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６）を生成することができる。第１から第５最終特徴マップ（Ｐ２、Ｐ３、Ｐ４、Ｐ５）は、それぞれ、ステップＳ７２０において生成された第１から第５の参照特徴マップ（Ｃ２、Ｃ３、Ｃ４、Ｃ５）に対応する。第６の最終特徴マップＰ６は、例えば、T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, 「Feature Pyramid Networks for Object Detection」Proc. IEEE Computer Vision and Pattern Recognition, 2017において説明されているように、例えば、第５最終特徴マップＰ５のストライド2サブサンプリングを実行することによって、第５最終特徴マップＰ５に基づいてＦＰＮ５００によって生成することができる。最終特徴マップ（Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６）は、それぞれ、第２最終特徴マップＰ２から第６最終特徴マップＰ６まで減少する異なるサイズ／スケールを有することができ。ステップＳ７３０の後、物体検出デバイス１００は、ステップＳ７４０に進む。

ステップＳ７４０において、物体検出デバイス１００は、提案関心領域（ＲｏＩまたはＲＯＩ）を取得し、１つまたは複数のコンテキストＲｏＩを生成する。

例えば、少なくともいくつかの例示的な実施形態によれば、物体検出デバイス１００は、提案ＲｏＩを外部ソースから取得することができる。あるいは、物体検出デバイス１００は、ＦＰＮ５００に基づいて領域提案ネットワーク（ＲＰＮ）を実施し、ＦＰＮベースＲＰＮを使用して提案ＲｏＩを生成することによって、提案ＲｏＩを取得してもよい。

例えば、少なくともいくつかの例示的な実施形態によれば、図５に示されるようなＦＰＮ５００によって生成される最終特徴マップＰｋ０+２、Ｐｋ０+１、Ｐｋ０、Ｐｋ０－１、Ｐｋ０―２を使用して、ＦＰＮベースＲＰＮを実施することができる。当業者であれば、ＦＰＮベースＲＰＮを実施する例示的な方法が、T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie、「Feature Pyramid Networks for Object Detection」 Proc. IEEE Computer Vision and Pattern Recognition, 2017に記載されていることを理解するであろう。例えば、ｋ０＝４の場合、ＦＰＮ５００は、第２から第６最終特徴マップＰ２、Ｐ３、Ｐ４、Ｐ５およびＰ６を生成する。第６最終特徴マップＰ６は、第５最終特徴マップＰ５に基づいて、ステップＳ７３０を参照して上述したのと同じ方法で生成することができる。さらに、領域提案を生成するために、ＦＰＮベースＲＰＮは、５つの異なる最終特徴マップ（Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６）で使用されるアンカーがそれぞれ５つの異なる領域（３２^２、６４^２、１２８^２、２５６^２、５１２^２）を有するように、第２から第６最終特徴マップＰ２～Ｐ６の各々に対して３つの異なるアスペクト比（１：２、１：１、２：１）のアンカーを使用することができる。

したがって、ステップＳ７４０において、物体検出デバイス１００は、提案ＲｏＩを受信するか、提案ＲｏＩを生成するかの一方によって、提案ＲｏＩを取得できる。

さらに、ステップＳ７４０において、取得された提案ＲｏＩに基づいて、物体検出デバイス１００は、提案ＲｏＩを拡大することにより、１つまたは複数のコンテキストＲｏＩを取得してもよい。例えば、図６は、入力画像６０５、提案ＲｏＩ６１０、および第１および第２コンテキストＲｏＩ６１５Ａおよび６１５Ｂを示す。本発明の概念の少なくともいくつかの例示的な実施形態によれば、物体検出ネットワーク６００は、提案ＲｏＩ６１０の領域（すなわち、ｗ×ｈ）を係数ｓ１だけ拡大することによって第１コンテキストＲｏＩ６１５Ａを生成し、物体検出ネットワーク６００は、提案ＲｏＩ６１０の領域（すなわち、ｗ×ｈ）を係数ｓ２だけ拡大することによって第２コンテキストＲｏＩ６１５Ｂを生成する。ここで、「ｗ」は入力画像６０５の幅であり、「ｈ」は入力画像６０５の高さであり、ｓ１およびｓ２は両方とも１より大きい正の数である。図６に示す例では、ｓ１＝２^２、ｓ２＝４^２である。さらに、少なくともいくつかの例示的な実施形態によれば、物体検出ネットワーク６００は、コンテキストＲｏＩが提案ＲｏＩと同心円状であるように、提案ＲｏＩを拡大することによって生成されるコンテキストＲｏＩの座標を決定することができる。

さらに、ステップＳ７４０は、説明を簡略化かつ容易にするために、「１つの提案ＲｏＩ」を得るものとして説明される。しかしながら、少なくともいくつかの例示的な実施形態に係るコンテキスト埋め込み領域ベース物体検出方法を実行するためのアルゴリズムは、一度に１つのＲｏＩだけ、または１つのＲｏＩだけを取得することに限定されない。例えば、物体検出デバイス１００は、ステップＳ７４０において、位置、スケールおよびアスペクト比が変化する複数のＲｏＩを同時に取得することができる。

さらに、ステップＳ７４０は、２つのコンテキストＲｏＩ（すなわち、提案ＲｏＩ６１０の２つの拡大版）が生成される例示的なシナリオを参照して上述されているが、少なくともいくつかの例示的な実施形態によれば、任意の数のコンテキストＲｏＩ（例えば、１、３、５等）が、提案ＲｏＩ６１０を拡大することによって生成されてもよい。ステップＳ７４０の後、物体検出デバイス１００は、ステップＳ７５０に進む。

ステップＳ７５０において、物体検出デバイス１００は、提案ＲｏＩおよび１つまたは複数のコンテキストＲｏＩを最終特徴マップに割り当てる。例えば、ステップＳ７５０において、物体検出デバイスは、提案ＲｏＩ６１０、第１コンテキストＲｏＩ６１５Ａ、および第２コンテキストＲｏＩ６１５Ｂを最終特徴マップ、例えば、ステップＳ７３０において生成された最終特徴マップ（Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６）の中からの最終特徴マップに割り当てることができる。

例えば、上記参照の割り当てを実行するために、物体検出デバイス１００は、以下の式を使用することができる。

式１において、「ｗ」は幅を表し、「ｈ」は高さを表し、ｋ０は定数であり、その値は、例えば、物体検出デバイス１００の設計者および／またはユーザの好みに従って設定することができる。ｋ０を設定するための追加の詳細はドキュメント（６）で議論されている。図６に示す例のシナリオでは、ｋ０＝４である。これは、ｋ０が２２４^２の領域（すなわちｗ＊ｈ＝２２４^２）に相当することを意味する。式１は、例えば、T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, 「Feature Pyramid Networks for Object Detection」 Proc. IEEE Computer Vision and Pattern Recognition, 2017において議論されている。

提案ＲｏＩ６１０、第１コンテキストＲｏＩ６１５Ａおよび第２コンテキストＲｏＩ６１５Ｂのそれぞれについて、物体検出デバイス１００は、上記の式１にＲｏＩの幅「ｗ」および高さ「ｈ」を適用して出力ｋを手に入れ、ＲｏＩをｋ番目の最終特徴マップＰｋに割り当てることができる。例えば、図６に示すシナリオ例では、提案ＲｏＩ６１０の幅ｗおよび高さｈが式１に適用される場合、ｋ＝３である。したがって、物体検出ネットワーク６００は、図６に示すように、提案ＲｏＩ６１０を第３最終特徴マップＰ３に割り当てる。同様に、第１および第２コンテキストＲｏＩ６１５Ａおよび６１５Ｂの幅ｗおよび高さｈが式１に適用される場合、それぞれｋ＝４および５である。したがって、物体検出ネットワーク６００は、図６に示すように、第１および第２のコンテキストＲｏＩ６１５Ａおよび６１５Ｂを、それぞれ第４および第５最終特徴マップＰ４およびＰ５に割り当てる。ステップＳ７５０の後、物体検出デバイス１００は、ステップＳ７６０に進む。

ステップＳ７６０において、物体検出デバイス１００は、ＲｏＩプーリングを用いて、ＲｏＩが割り当てられた各最終特徴マップから特徴のセットを抽出する。例えば、ステップＳ７６０において、物体検出デバイス１００によって具現化された物体検出ネットワーク６００は、提案ＲｏＩ６１０および提案ＲｏＩ６１０が割り当てられた最終特徴マップに関してＲｏＩプーリングを実行することができる。具体的には、提案ＲｏＩ６１０に対して、物体検出ネットワーク６００は、提案ＲｏＩ６１０が割り当てられた最終特徴マップ（すなわち、第３最終特徴マップＰ３）で、提案ＲｏＩ６１０に含まれる第３最終特徴マップＰ３の特徴をＲｏＩプーリング演算によってプールし、固定サイズの元の特徴マップ６２０を生成する。したがって、固定サイズの元の特徴マップ６２０は、最初に提案された提案ＲｏＩ６１０に基づいて第３最終特徴マップＰ３から抽出された特徴のセットである。

さらに、ステップＳ７６０において、物体検出ネットワーク６００は、第１コンテキストＲｏＩ６１５Ａおよび第２コンテキストＲｏＩ６１５Ｂに対してＲｏＩプーリングを実行することによってコンテキストブランチ６３０を形成し、第１コンテキストＲｏＩ６１５Ａおよび第２コンテキストＲｏＩ６１５Ｂが割り当てられた最終特徴マップを生成する。具体的には、物体検出ネットワーク６００は、第１および第２コンテキストＲｏＩ６１５Ａ、６１５Ｂに関してそれぞれ第１および第２コンテキストＲｏＩ６１５Ａ、６１５Ｂが割り当てられた最終特徴マップ（すなわち第４および第５最終特徴マップＰ４およびＰ５）に対して、第１コンテキストＲｏＩ６１５Ａに該当する第４最終特徴マップＰ４の特徴をＲｏＩプーリング演算によってプールして第１固定サイズのコンテキスト特徴マップ６３２を生成し、第２コンテキストＲｏＩ６１５Ｂに該当する第５最終特徴マップＰ５の特徴をＲｏＩプーリング演算によってプールして第２固定サイズのコンテキスト特徴マップ６３４を生成する。したがって、第１固定サイズコンテキスト特徴マップ６３２は、第１コンテキストＲｏＩ６１５Ａに基づいて第４最終特徴マップＰ４から抽出された特徴のセットであり、第２固定サイズコンテキスト特徴マップ６３４は、第２コンテキストＲｏＩ６１５Ｂに基づいて第５最終特徴マップＰ５から抽出された特徴のセットである。

少なくともいくつかの例示的な実施形態によれば、ステップＳ７５０を参照して上述したＲｏＩプーリング演算は、R. Girshick, 「Fast r-cnn」 Computer Science, 2015の文書において論じられているＲｏＩプーリング層の演算を用いることによって実行され得る。あるいは、少なくともいくつかの例示的な実施形態によれば、ステップＳ７５０を参照して上述したＲｏＩプーリング演算は、ＲｏＩアライン層の動作を使用して実行することができる。ＲｏＩアライン層の例は、例えば、K. He, G. Gkioxari, P. Dollar, R. Girshick, 「Mask R-CNN」 In ICCV 2018に記載されている。ステップＳ７６０の後、物体検出デバイス１００は、ステップＳ７７０に進む。

物体検出デバイス１００は、ステップＳ７７０において、画像に含まれる物体のクラスおよび／または位置を決定する。例えば、ステップＳ７７０において、物体検出ネットワーク６００は、図６に示すように、第１および第２固定サイズコンテキスト特徴マップ６３２および６３４を固定サイズの元の特徴マップ６２０に連結して、連結された特徴マップ６２５を形成することにより、コンテキスト埋め込みを行うことができる。

さらに、図３に関して上述したＭＳ―ＣＮＮ物体検出サブネットワーク３００とは対照的に、物体検出ネットワーク６００は、連結された特徴マップ６２５に含まれる特徴の全てが、同じ畳み込み層または特徴ピラミッド（Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６）の同じ層から抽出されたものではないので、より豊富なコンテキスト特徴および改善された物体検出結果を得ることができる。

図６にも示されているように、物体検出ネットワーク６００は、スクイーズアンドエクサイテーション（ＳＥ）ブロック６４０を含み、例えばチャネル毎の特徴応答を再較正することによって、ノイズ情報を低減または代替的に除去するために、連結された特徴マップ６２５をＳＥブロック６４０に適用することができる。ＳＥブロック６４０は、スクイーズアンドエクサイテーションの２つのステップを含む。第１のステップは、グローバル空間情報をチャネル記述子にスクイーズすることである。これは、グローバル平均プーリングを使用してチャネル単位の統計情報を生成することで実現される。第２のステップは適応再較正である。例えば、ＳＥブロック６４０は、全結合層ｆｃ１と、それに続く整流された線形ユニット（ＲｅＬＵ）とを含むことができ、その出力は、１×１×Ｃ´のディメンションを有する。さらに、ＳＥブロック６４０は、別の全結合層ｆｃ２の後にシグモイドを含む場合があり、その出力は１×１×Ｃ（ここで、通常はＣ´＝Ｃ／１６）のディメンションを有し、図６に示されるように、例えば、チャネルごとの乗算を介して、連結された特徴マップ６２５の初期特徴を再スケールするために使用される。ＳＥブロックを構築および使用するための例示的な構造および方法は、例えば、Hu, Jie, Li Shen, and Gang Sun, 「squeeze-and-excitation networks」 arXiv:1709.01507, 2017に記載されている。

次に、ＳＥブロック６４０の出力を用いて、入力画像６０５に含まれる物体のクラスおよびバウンディングボックス（すなわち、位置）が決定され、クラス確率値６６０およびバウンディングボックス値６７０が生成される。例えば、ＳＥブロック６４０の出力は、クラス確率値（または、クラスラベル）６６０およびバウンディングボックス値６７０を生成するために、別の全結合層６５０に適用され得る。

物体検出では、バウンディングボックスを使用してどこに物体があるかを正確に特定し、物体に正しいクラスラベルを割り当てる。ステップＳ７１０において、画像パッチまたはビデオのフレームが入力画像として使用される場合、クラス確率値６６０およびバウンディングボックス値６７０は、図４～図７を参照して上述したコンテキスト埋め込み領域ベースの物体検出方法の物体検出結果である。

図１に関して上述したように、図４～図７を参照して上述したコンテキスト埋め込み領域ベースの物体検出方法の少なくともいくつかの実施形態は、自律運転システムおよびビデオ監視を含む広範な機能に適用することができる。例えば、図１を参照すると、監視ネットワーク１０のカメラ１５２が地下鉄駅の入口に配置されている場合、図４～図７を参照して上述したコンテキスト埋め込み領域ベース物体検出方法を実施する物体検出デバイス１００は、地下鉄を通る歩行者の流れをカウントするのに役立つ。加えて、監視ネットワーク１０のカメラ１５２が市場に配置される場合、少なくともいくつかの実施形態によるコンテキスト埋め込み領域ベース物体検出方法を実施する物体検出デバイス１００は、市場における顧客の数をカウントするのに役立ち、これにより、例えば、安全上の理由から、市場の所有者または運営者が多数の顧客を管理することが可能になる。

さらに、少なくともいくつかの実施形態によるコンテキスト埋め込み領域ベース物体検出方法は、拡大されたＲｏＩ（例えば、第１および第２コンテキストＲｏＩ６１５Ａおよび６１５Ｂ）を用いてより多くのコンテキスト情報を得るために、元のＲｏＩ（例えば、提案ＲｏＩ６１０）のサイズを拡大することを含む。さらに、拡大されたＲｏＩは、元のＲｏＩとは異なる特徴マップにマッピングされ、それによって、拡大されたＲｏＩを介して得られるコンテキスト情報の表現力が高められる。このように、得られたコンテキスト情報は、入力画像中の小さくて隠れた物体を検出するタスクに有益である。

図４～図７を参照して上述したコンテキスト埋め込み領域ベース物体検出方法を実行するためにＣＮＮアーキテクチャをトレーニングする方法の例を、以下のセクション５で説明する。

５．トレーニング方法例
図４～図７を参照して上述したコンテキスト埋め込み領域ベース物体検出方法を実行するためのＣＮＮアーキテクチャは、例えば、様々な畳み込み層（例えば、図４に示すバックボーンＣＮＮ４００の第１から第５畳み込み層ｃｏｎｖ１＿ｘ～ｃｏｎｖ５＿ｘのフィルタ等）において使用されるフィルタの様々な値を設定するために、公知のＣＮＮトレーニング技術に従ってトレーニングすることができる。

トレーニング段階を開始するために、適切な損失関数が設計される。物体検出のタスクには、マルチタスク損失関数を使用することができる。マルチタスク損失関数の例は、例えば、Lin T Y, Goyal P, Girshick R, et al., 「Focal Loss for Dense Object Detection」 Proc. IEEE Computer Vision and Pattern Recognition, 2017において議論されている。さらに、少なくともいくつかの例示的な実施形態によれば、トレーニングは、コンテキスト内共通オブジェクト（ＣＯＣＯ）トレインおよびｖａｌ―ｍｉｎｕｓ―ｍｉｎｉｖａｌデータセットを訓練データとして使用することによって実行されてもよい。逆伝搬法を用いて、上記参照フィルタのパラメータは、確率的勾配降下（ＳＧＤ）アルゴリズムによって収束するまで繰り返し更新される。

このように説明される例示的な実施形態は、実施形態が多くの点で異なることが明らかである。そのような変形は、例示的な実施形態からの逸脱とみなされるべきではなく、そのような修正はすべて、例示的な実施形態の範囲内に含まれることが意図される。

Claims

畳み込みニューラルネットワーク（ＣＮＮ）を用いて画像内の物体を検出する方法であって、
前記ＣＮＮによって、前記画像に基づく複数の参照特徴マップを生成するステップと、
それぞれが前記複数の参照特徴マップに対応する複数の最終特徴マップを含む特徴ピラミッドを生成するステップと、
提案関心領域（ＲＯＩ）を取得するステップと、
少なくとも前記提案ＲＯＩに基づく第１のコンテキストＲＯＩおよび第２のコンテキストＲＯＩを生成するステップであって、前記第１のコンテキストＲＯＩの領域は、前記提案ＲＯＩの領域よりも大きく、前記第２のコンテキストＲＯＩの領域は、前記第１のコンテキストＲＯＩの前記領域よりも大きいステップと、
前記提案ＲＯＩを前記複数の最終特徴マップの中から第１の最終特徴マップに割り当てるステップと、
前記第１のコンテキストＲＯＩを前記複数の最終特徴マップの中から第２の最終特徴マップに割り当て、前記第２のコンテキストＲＯＩを前記複数の最終特徴マップの中から第３の最終特徴マップに割り当てるステップであって、前記第１の最終特徴マップのサイズと、前記第２の最終特徴マップのサイズと、前記第３の最終特徴マップのサイズとは、互いに異なるステップと、
前記提案ＲＯＩを用いた前記第１の最終特徴マップのＲＯＩプーリング演算を実行することによって前記第１の最終特徴マップから特徴の第１のセットを抽出するステップと、
前記第１のコンテキストＲＯＩを用いた前記第２の最終特徴マップのＲＯＩプーリング演算を実行することによって前記第２の最終特徴マップから特徴の第２のセットを抽出するステップと、
前記第２のコンテキストＲＯＩを用いた前記第３の最終特徴マップのＲＯＩプーリング演算を実行することによって前記第３の最終特徴マップから特徴の第３のセットを抽出するステップと、
抽出された特徴の前記第１のセットと、前記第２のセットと、前記第３のセットとに基づいて、前記画像に対する前記物体の位置と前記物体のクラスとの少なくとも１つを決定するステップとを含む方法。
前記特徴ピラミッドは、特徴ピラミッドネットワーク（ＦＰＮ）アーキテクチャに従って前記複数の参照特徴マップに基づいて生成されることを特徴とする請求項１に記載の方法。
前記第１のコンテキストＲＯＩの前記領域は、前記提案ＲＯＩの前記領域の２^２倍であり、前記第２のコンテキストＲＯＩの前記領域は、前記提案ＲＯＩの前記領域の４ ^２倍であることを特徴とする請求項１に記載の方法。
抽出された特徴の前記第１のセットと、第２のセットと、前記第３のセットとを連結するステップをさらに含み、
前記決定するステップは、抽出された特徴の前記連結されたセットに基づいて、前記画像に対する前記物体の位置と前記物体のクラスとの少なくとも１つを決定するステップを含むことを特徴とする請求項１に記載の方法。
抽出された特徴の前記連結されたセットをスクイーズアンドエクサイテーションブロック（ＳＥＢ）に適用するステップをさらに含み、
前記画像に対する前記物体の位置と前記物体のクラスとの前記少なくとも１つは、前記ＳＥＢの出力に基づいて決定されることを特徴とする請求項４に記載の方法。
少なくとも、
畳み込みニューラルネットワーク（ＣＮＮ）によって、物体を含む画像に基づく複数の参照特徴マップを生成するステップと、
それぞれが前記複数の参照特徴マップに対応する複数の最終特徴マップを含む特徴ピラミッドを生成するステップと、
提案関心領域（ＲＯＩ）を取得するステップと、
少なくとも前記提案ＲＯＩに基づく第１のコンテキストＲＯＩおよび第２のコンテキストＲＯＩを生成するステップであって、前記第１のコンテキストＲＯＩの領域は、前記提案ＲＯＩの領域よりも大きく、前記第２のコンテキストＲＯＩの領域は、前記第１のコンテキストＲＯＩの前記領域よりも大きいステップと、
前記提案ＲＯＩを前記複数の最終特徴マップの中から第１の最終特徴マップに割り当てるステップと、
前記第１のコンテキストＲＯＩを前記複数の最終特徴マップの中から第２の最終特徴マップに割り当て、前記第２のコンテキストＲＯＩを前記複数の最終特徴マップの中から第３の最終特徴マップに割り当てるステップであって、前記第１の最終特徴マップのサイズと、前記第２の最終特徴マップのサイズと、前記第３の最終特徴マップのサイズとは、互いに異なるステップと、
前記提案ＲＯＩを用いた前記第１の最終特徴マップのＲＯＩプーリング演算を実行することによって前記第１の最終特徴マップから特徴の第１のセットを抽出するステップと、
前記第１のコンテキストＲＯＩを用いた第２の最終特徴マップのＲＯＩプーリング演算を実行することによって前記第２の最終特徴マップから特徴の第２のセットを抽出するステップと、
前記第２のコンテキストＲＯＩを用いた前記第３の最終特徴マップのＲＯＩプーリング演算を実行することによって前記第３の最終特徴マップから特徴の第３のセットを抽出するステップと、
抽出された特徴の前記第１のセットと、前記第２のセットと、前記第３のセットとに基づいて、前記画像に対する前記物体の位置と前記物体のクラスとの少なくとも１つを決定するステップとを装置に実行させるプログラム命令を含むコンピュータ可読媒体。
前記特徴ピラミッドは、特徴ピラミッドネットワーク（ＦＰＮ）アーキテクチャに従って前記複数の参照特徴マップに基づいて生成されることを特徴とする請求項６に記載のコンピュータ可読媒体。
前記第１のコンテキストＲＯＩの前記領域は、前記提案ＲＯＩの前記領域の２^２倍であり、前記第２のコンテキストＲＯＩの前記領域は、前記提案ＲＯＩの前記領域の４ ^２倍であることを特徴とする請求項６に記載のコンピュータ可読媒体。
少なくとも抽出された特徴の前記第１のセットと、第２のセットと、前記第３のセットとを連結するステップを装置にさせるプログラム命令をさらに含み、
前記決定するステップは、抽出された特徴の前記連結されたセットに基づいて、前記画像に対する前記物体の位置と前記物体のクラスとの少なくとも１つを決定するステップを含むことを特徴とする請求項６に記載のコンピュータ可読媒体。
少なくとも抽出された特徴の前記連結されたセットをスクイーズアンドエクサイテーションブロック（ＳＥＢ）に適用するステップを装置にさせるプログラム命令をさらに含み、
前記画像に対する前記物体の位置と前記物体のクラスとの前記少なくとも１つは、前記ＳＥＢの出力に基づいて決定されることを特徴とする請求項９に記載のコンピュータ可読媒体。
少なくとも１つのプロセッサと、
コンピュータプログラムコードを含む少なくとも１つのメモリとを含む装置であって、前記少なくとも１つのメモリと前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに
少なくとも
畳み込みニューラルネットワーク（ＣＮＮ）によって、物体を含む画像に基づく複数の参照特徴マップを生成するステップと、
それぞれが前記複数の参照特徴マップに対応する複数の最終特徴マップを含む特徴ピラミッドを生成するステップと、
提案関心領域（ＲＯＩ）を取得するステップと、
少なくとも前記提案ＲＯＩに基づく第１のコンテキストＲＯＩおよび第２のコンテキストＲＯＩを生成するステップであって、前記第１のコンテキストＲＯＩの領域は、前記提案ＲＯＩの領域よりも大きく、前記第２のコンテキストＲＯＩの領域は、前記第１のコンテキストＲＯＩの前記領域よりも大きいステップと、
前記提案ＲＯＩを前記複数の最終特徴マップの中から第１の最終特徴マップに割り当てるステップと、
前記第１のコンテキストＲＯＩを前記複数の最終特徴マップの中から第２の最終特徴マップに割り当て、前記第２のコンテキストＲＯＩを前記複数の最終特徴マップの中から第３の最終特徴マップに割り当てるステップであって、前記第１の最終特徴マップのサイズと、前記第２の最終特徴マップのサイズと、前記第３の最終特徴マップのサイズとは、互いに異なるステップと、
前記提案ＲＯＩを用いた前記第１の最終特徴マップのＲＯＩプーリング演算を実行することによって前記第１の最終特徴マップから特徴の第１のセットを抽出するステップと、
前記第１のコンテキストＲＯＩを用いた前記第２の最終特徴マップのＲＯＩプーリング演算を実行することによって前記第２の最終特徴マップから特徴の第２のセットを抽出するステップと、
前記第２のコンテキストＲＯＩを用いた前記第３の最終特徴マップのＲＯＩプーリング演算を実行することによって前記第３の最終特徴マップから特徴の第３のセットを抽出するステップと、
抽出された特徴の前記第１のセットと、第２のセットと、前記第３のセットとに基づいて、前記画像に対する前記物体の位置と前記物体のクラスとの少なくとも１つを決定するステップとを前記装置に実行させることを特徴とする装置。
前記特徴ピラミッドは、特徴ピラミッドネットワーク（ＦＰＮ）アーキテクチャに従って前記複数の参照特徴マップに基づいて生成されることを特徴とする請求項１１に記載の装置。
前記第１のコンテキストＲＯＩの前記領域は、前記提案ＲＯＩの前記領域の２ ^２倍であり、前記第２のコンテキストＲＯＩの前記領域は、前記提案ＲＯＩの前記領域の４ ^２倍であることを特徴とする請求項１１に記載の装置。
前記少なくとも１つのメモリと前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、
少なくとも抽出された特徴の前記第１のセットと、第２のセットと、前記第３のセットとを連結するステップを前記装置にさらにさせ、
前記決定するステップは、抽出された特徴の前記連結されたセットに基づいて、前記画像に対する前記物体の位置と前記物体のクラスとの少なくとも１つを決定するステップを含むことを特徴とする請求項１１に記載の装置。
前記少なくとも１つのメモリと前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、
少なくとも抽出された特徴の前記連結されたセットをスクイーズアンドエクサイテーションブロック（ＳＥＢ）に適用するステップを前記装置にさらにさせ、
前記画像に対する前記物体の位置と前記物体のクラスとの前記少なくとも１つは、前記ＳＥＢの出力に基づいて決定されることを特徴とする請求項１４に記載の装置。