JP7351941B2

JP7351941B2 - 画像内のオブジェクトによって実行されるアクションを決定するためのシステムおよび方法

Info

Publication number: JP7351941B2
Application number: JP2021578061A
Authority: JP
Inventors: タイシュナーマイケル; シウボタルボグダン
Original assignee: Everseen Ltd
Current assignee: Everseen Ltd
Priority date: 2019-07-01
Filing date: 2020-05-12
Publication date: 2023-09-27
Anticipated expiration: 2040-05-12
Also published as: KR20220010560A; AU2020300066A1; AU2020300066B2; US11151412B2; WO2021001701A1; BR112021024279A2; JP2022540070A; CA3141695A1; EP3994604A1; MX2021015602A; CN114008692A; CO2021016316A2; US20210004641A1

Description

本開示は、一般に人工知能に関し、より具体的には、画像内のオブジェクトによって実行されるアクションを決定するためのシステムおよび方法に関する。さらに、本開示は、機械が読み取り可能な非一時的データ記憶媒体に記録されたソフトウェア製品に関し、ソフトウェア製品は、画像内のオブジェクトによって実行されるアクションを決定するための前述の方法を実装するために、コンピューティングハードウェア上で実行可能である。

一般的に、技術の進歩に伴い、コンピュータは人々の日常生活での使用が増加している。これには、通信、教育、サービス産業などの分野でのコンピュータの使用を含むがこれらに限定されないパーソナルコンピューティングアプリケーションのためのコンピュータの使用だけでなく、社会的利益に関係する他の商業的および非商業的目的のためのコンピュータの使用も含まれる。コンピュータのそのような使用は、例えば、防衛、医学、科学研究などを含むことができる。具体的には、前述の分野で使用が増加しているコンピューティング分野は、人工知能、機械学習、マシンビジョンである。

たとえば、自動運転システム（自動運転車など）の分野では、自動運転が可能な車両の周囲のオブジェクトの検出のためにマシンビジョンおよび人工知能が使用されており、これにより車両が安全に、便利に、そして確実にオブジェクトを避けてナビゲートすることを可能にする。別の例では、人の動きを検出し、かつ識別することができるセンサーを有するデバイスが、国境地域周辺などの防衛用途でますます使用されている。このようなデバイスは、その中のマシンビジョンおよび人工知能を使用して、国境に不法に侵入している可能性のある人々に関連し得る潜在的な脅威を検出する。

通常、前述の人工知能、機械学習、およびマシンビジョンシステムは、環境内のオブジェクト（人間や動物など）の存在を検出するためだけでなく、環境内のオブジェクトによって実行されるアクションを識別するためにも使用される。たとえば、人工知能システムは、オブジェクトによって実行されるアクションを識別するために畳み込みニューラルネットワークを使用し得る。しかしながら、このような畳み込みニューラルネットワークは、その使用法に基づいて異なる数のフィルタ、または複数の冗長層を必要とする場合があり、これにより、オブジェクトに関連付けられたアクションの決定が遅くなり、効果をなくしてしまう。

したがって、前述の議論に照らして、環境内のオブジェクトによって実行されるアクションを識別するために、畳み込みニューラルネットワークを使用する従来の人工知能システムに関連する欠点を克服する必要がある。

本開示は、入力画像内のオブジェクトによって実行されるアクションを決定するための改善されたシステムを提供することを目的とする。

さらに、本開示は、入力画像内のオブジェクトによって実行されるアクションを決定するための改善された方法を提供することを目的とする。

さらに、本開示は、機械が読み取り可能な非一時的データ記憶媒体に記録されたソフトウェア製品を提供することを目的とし、ソフトウェア製品は、入力画像内のオブジェクトによって実行されるアクションを決定するための前述の方法を実装するために、コンピューティングハードウェア上で実行可能である。

第１の態様によれば、本開示の一実施形態は、入力画像内のオブジェクトによって実行されるアクションを決定するためのシステムを提供する。このシステムは、１つまたは複数の命令を格納するためのメモリと、メモリに通信可能に結合され、メモリ内の１つまたは複数の命令を実行するように構成されたプロセッサとを含み、プロセッサは畳み込みニューラルネットワーク（ＣＮＮ）を使用する。ＣＮＮは、入力画像に対応する１つまたは複数の重要な特徴を抽出するための事前定義された数の初期ステージを含み、各初期ステージは、第１の層および残差ブロックを含み、第１の層は、畳み込み層、最大プーリング層、および平均プーリング層からなる群から選択される。ＣＮＮは、抽出された重要な特徴を１つまたは複数の事前定義されたクラスに分類するための最終ステージを含み、最終ステージは、グローバル平均プーリング層および緻密層で構成される。

第２の態様によれば、本開示の一実施形態は、入力画像内のオブジェクトによって実行されるアクションを決定するためのシステムを提供する。この方法は、入力画像を受信すること、および入力画像を畳み込みニューラルネットワーク（ＣＮＮ）に提供することを含む。ＣＮＮは、入力画像に対応する１つまたは複数の重要な特徴を抽出するための事前定義された数の初期ステージを含み、各初期ステージは、第１の層および残差ブロックを含み、第１の層は、畳み込み層、最大プーリング層、および平均プーリング層からなる群から選択される。ＣＮＮは、抽出された重要な特徴を１つまたは複数の事前定義されたクラスに分類するための最終ステージを含み、最終ステージは、グローバル平均プーリング層および緻密層で構成される。

第３の態様によれば、本開示の一実施形態は、機械が読み取り可能な非一時的データ記憶媒体に記録されたソフトウェア製品を提供し、ソフトウェア製品は、入力画像内のオブジェクトによって実行されるアクションを決定するための前述の方法を実装するために、コンピューティングハードウェア上で実行可能である。

本開示は、畳み込みニューラルネットワークを使用することによって画像内のオブジェクトによって実行されるアクションを決定するためのシステムおよび方法を提供することを目的とし、畳み込みニューラルネットワークは、限られた数の層、一定数のフィルタ、および画像のダウンサイジングを使用し、そうすることにより、画像内のオブジェクトによって実行されるアクションの決定に関連する速度、精度、および信頼性を向上させる。

本開示の特徴は、添付の特許請求の範囲によって定義されるように本開示の範囲から逸脱することなく、様々な組合せで組み合わせることができることを理解されたい。

以上の発明の概要および例示的な実施形態の以下の詳細な説明は、添付図面と併せて読むとよりよく理解される。本開示を説明する目的のために、開示の例示的な構造が、図面において示される。しかしながら、本開示は、本明細書で開示される特定の方法および手段には限定されない。また、当業者は、図面が縮尺通りではないことを理解するであろう。可能であれば常に、同様の要素は、同一の番号によって示されている。

ここで、本開示の実施形態は、以下の図を参照して、例としてのみ説明される。

本開示の様々な実施形態を実施することができる環境を示す図である。本開示の一実施形態による、少なくとも１つの画像内のオブジェクトによって実行されるアクションを決定するための畳み込みニューラルネットワーク（ＣＮＮ）を示す図である。本開示の一実施形態による、少なくとも１つの画像内のオブジェクトによって実行されるアクションを決定するための畳み込みニューラルネットワーク（ＣＮＮ）を示す図である。本開示の一実施形態による、少なくとも１つの画像内のオブジェクトによって実行されるアクションを決定する方法のステップの図である。

添付図面において、下線のある番号は、下線のある番号が配置されているアイテム、または下線のある番号が隣接しているアイテムを表すために使用される。下線のない番号は、下線のない番号をアイテムにリンクする線によって識別されるアイテムに関する。番号に下線がなく、関連付けられる矢印に添えられている場合に、下線のない番号は、矢印が指す一般的なアイテムを識別するために使用される。

以下の詳細な説明は、本開示の実施形態およびそれらを実装することができる方法を示す。本開示を実施するいくつかのモードが開示されているが、当業者は、本開示を実施または実践するための他の実施形態も可能であることを認識するであろう。

概要において、本開示の実施形態は、画像内のオブジェクトによって実行されるアクションを決定するためのシステムおよび方法に関する。

図１は、本開示の様々な実施形態を実施することができる環境１００を示す。環境１００は、通信ネットワーク１０４を介して互いに通信可能に結合された、イメージングデバイス１０１、およびアクション分類システム１０２を含む。通信ネットワーク１０４は、本開示の範囲を限定することなく、任意の好適な有線ネットワーク、無線ネットワーク、これらの組合せ、または任意の他の従来のネットワークであってよい。少数の例は、ローカルエリアネットワーク（ＬＡＮ）、無線ＬＡＮ接続、インターネット接続、ポイントツーポイント接続、または他のネットワーク接続、およびそれらの組合せを含み得る。

イメージングデバイス１０１は、ビデオストリームをキャプチャするように構成される。本開示の一実施形態では、イメージングデバイス１０１は、セルフチェックアウトシステム（ＳＣＯ）を含む小売チェックアウトプロセスの１つまたは複数の画像をキャプチャするように構成される。オプションとして、イメージングデバイス１０１は、インターネットプロトコル（ＩＰ）カメラ、パンチルトズーム（ＰＴＺ）カメラ、熱画像カメラ、または赤外線カメラを含むが、これらに限定されない。

アクション分類システム１０２は、イメージングデバイス１０１によってキャプチャされた人間のアクションおよび人間のアクティビティの画像を１つまたは複数の事前定義されたクラスに分類するように構成される。

アクション分類システム１０２は、中央処理装置（ＣＰＵ）１０６、操作パネル１０８、およびメモリ１１０を含む。ＣＰＵ１０６は、プロセッサ、コンピュータ、マイクロコントローラ、または操作パネル１０８およびメモリ１１０などの様々な構成要素の動作を制御する他の回路である。ＣＰＵ１０６は、例えば、メモリ１１０などの揮発性または不揮発性メモリに格納されているか、またはそうでなければＣＰＵ１０６に提供されるソフトウェア、ファームウェア、および／または他の命令を実行し得る。ＣＰＵ１０６は、１つまたは複数のシステムバス、ケーブル、または他のインターフェースなどの有線または無線接続を介して、操作パネル１０８およびメモリ１１０に接続し得る。本開示の一実施形態では、ＣＰＵ１０６は、ローカルネットワーク上の全てのカメラに対して、リアルタイムのオブジェクト検出および予測を提供するためのカスタムグラフィックプロセシングユニット（ＧＰＵ）サーバソフトウェアを含み得る。

操作パネル１０８は、アクション分類システム１０２のユーザインターフェースであり得、物理的なキーパッドまたはタッチスクリーンの形態をとり得る。操作パネル１０８は、選択された機能、プリファレンス、および／または認証に関連する１または複数のユーザからの入力を受信し得、視覚的および／または聴覚的に入力を提供および／または受信し得る。

メモリ１１０は、アクション分類システム１０２の動作を管理する際にＣＰＵ１０６によって使用される命令および／またはデータを格納することに加えて、アクション分類システム１０２の１または複数のユーザに関連するユーザ情報も含み得る。例えば、ユーザ情報は、認証情報（例えば、ユーザ名／パスワードのペア）、ユーザプリファレンス、および他のユーザ固有の情報を含み得る。ＣＰＵ１０６は、このデータにアクセスして、操作パネル１０８およびメモリ１１０の動作に関連する制御機能（例えば、１または複数の制御信号の送信および／または受信）を提供するのを支援し得る。

図２Ａ～２Ｂは、本開示の一実施形態による、アクション分類システム１０２のＣＰＵ１０６のブロック図を示す。

ＣＰＵ１０６は、ビデオストリームの各フレームを分析して、少なくとも１つの関心のあるアクション領域を決定するように動作可能な畳み込みニューラルネットワーク（ＣＮＮ）２００を使用し、少なくとも１つの関心のある領域は少なくとも１つのオブジェクトを含む。一例では、少なくとも１つのオブジェクトは、人、衣料品、食料品、財布などのオブジェクトであり得、１つまたは複数のアクションは、そのポケットから財布を取り出す人、列を歩いている人、クレジットカードをスワイプする人などを含み得る。ＣＮＮ２００は、手、手の中にあるオブジェクト、オブジェクト、身体部分、空のスキャナなどのクラスにＳＣＯスキャン領域（関心のあるアクション領域のスキャン）のビデオの画像フレームを分類するように訓練され得る。各クラスの画像フレームの分類の基準を以下に述べる。

手－画像フレームは人間の手を示す。

手の中にあるオブジェクト－画像フレームはユーザの手の中にあるオブジェクトを示す。

オブジェクト－画像フレームはオブジェクトのみを示す。

身体部分－画像フレームは人間の身体の部分を示す。

空のスキャナ－画像フレームは空のスキャナのみを示す。

本開示の一実施形態では、ＣＮＮ２００は、第１から第６のステージ２０４ａから２０４ｆまで（以下では、まとめてステージ２０４と称する）で構成される。ＣＮＮ２００は、畳み込み層、すなわち、それらの入力に畳み込みを適用する層で部分的に構成されるニューラルネットワークを指す。さらに、当業者には、ＣＮＮ２００のステージの数が６を超え得ることは明らかであろう。本明細書で言及されるＣＮＮ２００は、主に、少なくとも１つの関心のある領域内の少なくとも１つのオブジェクトを分類するために使用される、訓練された深層人工ニューラルネットワークとして定義される。特に、それらは、顔、個人、道路標識などを識別することができるアルゴリズムである。本明細書で使用される「ニューラルネットワーク」という用語は、処理要素の高度に相互接続されたネットワークを含むことができ、それぞれ、オプションでローカルメモリに関連付けられる。さらに、ニューラルネットワークの処理要素は、「人工ニューラルユニット」、「人工ニューロン」、「ニューラルユニット」、「ニューロン」、「ノード」などとすることができる。さらに、ニューロンは、入力もしくは１つまたは複数の他のニューロンからデータを受信し、データを処理し、処理されたデータを出力もしくはさらに１つまたは複数の他のニューロンに送信することができる。

本開示の一実施形態では、ＣＮＮ２００の各ステージ２０４は、いくつかの層で構成される。一例では、各ステージ２０４は、畳み込み層、最大プーリング層、および平均プーリング層からなる群から選択される第１の層を含む。最大および平均プーリング層は、対応する入力をダウンサンプリングするように構成され、次いで、次の層のサイズを縮小する。各ステージ２０４について、第１の層以外の層は、対応する残差ブロックを形成する。

本開示の一実施形態では、第１のステージ２０４ａは、畳み込み層２０５ａ、ならびにバッチ正規化層２０６ａ、正規化線形ユニット（ＲＥＬＵ）層２０８ａ、別の畳み込み層２１０ａ、バッチ正規化層２１２ａ、別のＲＥＬＵ層２１４ａ、およびさらに別の畳み込み層２１６ａを含む第１の残差ブロックを含む。残りの第２から第５のステージ２０４ｂから２０４ｅまでの層は、図２Ａおよび２Ｂに関して自明であり、簡潔にするために、本明細書で再度説明する必要はない。

ＣＮＮ２００では、各畳み込み層は、分類タスクをサポートするための特徴的なローカル機能を見つけるために使用される畳み込みカーネルのグループを指す。従来の画像処理パイプラインでは、畳み込みカーネルは手作りされ、特徴抽出ステップとして元の画像から応答マップを取得する。たとえば、ＳｏｂｅｌカーネルまたはＰｒｅｗｉｔｔカーネルを使用してエッジ情報を抽出し、一方でＧａｕｓｓｉａｎ平滑化カーネルを使用してノイズが低減されたぼやけた画像を取得する。ＣＮＮパイプラインでは、畳み込みカーネルがランダムに初期化され、進化して顕著性を学習し、最終的な分類パフォーマンスを向上させる。特徴マップのスタックは、層とカーネル間の畳み込み演算によって計算される。各畳み込み層２０４ａ、２１０ａ、および２１６ａは、ストライド値１を使用する。

さらに、ＣＮＮ２００では、最大プーリング層２０５ｂおよび２０５ｅのそれぞれは、非線形関数を使用して、対応する以前の畳み込み層によって生成された特徴マップをダウンサンプリングする。ＣＮＮ２００のコンテキストでは、最大プーリングはＣＮＮ２００を薄くし、畳み込みの代わりに使用される（最も重要なピクセルを抽出し、正則化の形態として機能することによって）。正則化は、少なくとも１つの画像内でオブジェクトによって実行されるアクションを決定するために高い重要度を有する複数のピクセルを抽出することを含む。

さらに、ＣＮＮ２００では、平均プーリング層２０５ｃおよび２０５ｄのそれぞれが、凝縮された形で情報をエンコードするために使用される。一例では、平均プーリング層２０５ｃおよび２０５ｄは、入力を長方形のプーリング領域に分割し、高い重要度を有する複数のピクセルの平均値を計算することによって、ダウンサンプリングを実行する。

さらに、ＣＮＮ２００では、バッチ正規化層２０６ａから２０６ｅまでのそれぞれは、バッチ平均を減算し、バッチ標準偏差で除算することによって、以前の活性化層の出力を正規化する。

さらに、ＣＮＮ２００において、ＲＥＬＵ２１４ａから２１４ｅのそれぞれは、活性化関数を使用するためのコンピューティングプログラムまたはルーチンのコレクションを指し、これらは、少なくとも１つの画像に対応する重要な特徴を使用して得られる半波整流に類似している。

動作中、第１から第５のステージ２０４ａから２０４ｅは、入力画像から重要な特徴を抽出するように構成される。本明細書で使用される「重要な特徴」という用語は、少なくとも１つの入力画像におけるピクセル特性の１つまたは複数の変化を指す。各ピクセルに関して使用される「ピクセル特性」という用語は、ピクセルのサイズ、ピクセルの色、および／またはピクセルの解像度を指す。具体的には、特徴抽出プロセスは、少なくとも１つの画像から所望の特徴のセットが抽出されるまで繰り返し実行される。

本開示の一実施形態では、第６のステージ２０４ｆは、以前の第１のステージから第５のステージ２０４ａから２０４ｅまでの出力（特徴）に基づいて実際の決定を行う分類ステージである。第６のステージ２０４ｆは、グローバル平均プーリング層２１８および緻密層２２０を使用して、少なくとも１つの画像内でオブジェクトによって実行されるアクションを決定する。グローバル平均プーリング層２１８は、３次元テンソルの空間次元を縮小するために使用され、緻密層２２０は、すべての入力が重みによってすべての出力に接続される線形動作を含む（したがって、ｎ＿ｉｎｐｕｔｓ×ｎ＿ｏｕｔｐｕｔｓの重みがある）。緻密層２２０は、ＣＮＮ２００の共通の特徴であり、各ニューロンは、対応する以前の層のすべてのニューロンに完全に接続される。グローバル平均プーリング層２１８は、ダウンサンプリングを実行するために非線形関数を使用する。一例では、第６のステージ２０４ｆは、入力画像を次の５つのクラス、すなわち、手、手＋オブジェクト、オブジェクト、身体部分、空のスキャナ、のうちの１つに分類する。

本開示の様々な実施形態において、ＣＮＮ２００は、その畳み込み層全体にわたって一定数のフィルタを使用し、ＣＮＮ２００がいくつかの残差ブロックをスキップすることを可能にするストライド１のみを使用する畳み込み層を含む残差ブロックを使用する。ＣＮＮ２００は、最大／平均プーリング層を定期的に適用し、すべての層でフィルタの数を一定に保つことにより、次元削減メカニズムを活用する。一般的な方法は、各次元削減動作の後にフィルタの数を２倍にすることだが、一定の値を持つことによって、ネットワークの幅をトレーニングのハイパーパラメータとして機能させることができる。

ＣＮＮ２００は非常に薄い層を持ち、全体的に軽量（１４００００のトレーニング可能なパラメータ）であり、１２８ｘ１２８カラー画像で５つのクラス（手、手＋オブジェクト、オブジェクト、身体部分、空のスキャナ）の画像を分類するタスクで、ＲｅｓＮｅｔまたはＤｅｎｓｅＮｅｔ（１７００００００－５８００００００のトレーニング可能なパラメータ）に基づく任意の他の微調整されたカスタムアーキテクチャとほぼ同じように機能することができる。この利点は、低いメモリフットプリント（約４５０ｍｂ）、および他のシステムより３から５倍速い推論時間という形でもたらされる。

ＣＮＮ２００は、次の２つの重要な原則を活用する。
－深層残差ネットワークでのアイデンティティマッピングを含む、２つの畳み込み層を有する完全事前活性化残差ブロック。
－大きな学習率を使用したニューラルネットワークの非常に高速なトレーニングを含む、超収束。

図３を参照すると、本開示の実施形態による、少なくとも１つの画像内のオブジェクトによって実行されるアクションを決定する方法３００のステップが示されている。ステップ３０２において、アクションを実行するオブジェクトを含む少なくとも１つの画像が受信される。ステップ３０４において、畳み込みニューラルネットワークへの少なくとも１つの画像が提供される。ステップ３０６において、少なくとも１つの画像に対応する重要な特徴が、畳み込みニューラルネットワークに関連する畳み込み層、最大プーリング層、および平均プーリング層を使用することによって抽出される。ステップ３０８において、少なくとも１つの画像に対応する重要な特徴は、少なくとも１つの画像内のオブジェクトによって実行されるアクションを決定するために、グローバル平均プーリング層および緻密層を使用することによって分類される。

ステップ３０２から３０８は単なる例示であり、１つまたは複数のステップが追加され、１つまたは複数のステップが除去され、または１つまたは複数のステップが本明細書の特許請求の範囲から逸脱することなく異なる順序で提供される、他の代替も提供されることができる。一例では、この方法は、畳み込みニューラルネットワークに関連する複数の畳み込み層、最大プーリング層、および平均プーリング層を使用することによって、少なくとも１つの画像に対応する重要な特徴を繰り返し抽出することを含む。別の例では、この方法は、重要な特徴を抽出した後、バッチ正規化層および正規化線形ユニットを含む少なくとも１つの残差ブロックを使用することを含む。別の例では、最大プーリング層、平均プーリング層、またはグローバル平均プーリング層は、非線形関数を使用して、少なくとも１つの画像のダウンサンプリングを実行する。さらに別の例では、この方法は、最大プーリング層を使用することによって少なくとも１つの画像を正則化することを含み、正則化は、少なくとも１つの画像内でオブジェクトによって実行されるアクションを決定するために高い重要度を有する複数のピクセルを抽出することを含む。一例では、この方法は、平均プーリング層を使用して、凝縮された形で少なくとも１つの画像内の情報をエンコードすることを含む。別の例では、この方法は、各層が複数の人工ニューロンを含み、緻密層の複数の人工ニューロンのそれぞれが、グローバル平均プーリング層の複数の人工ニューロンに接続されていることを含む。さらに別の例では、この方法は、畳み込み層によってストライド値１を使用することを含む。

用語「ａ」および「ａｎ」および「ｔｈｅ」ならびに本開示を記載するコンテキストでの（特に以下の特許請求の範囲のコンテキストでの）同様の参照の使用は、本明細書で他に示されない限りまたはコンテキストによって明確に矛盾しない限り、単数形および複数形の両方をカバーすると解釈されるべきである。用語「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、および「包含する（ｃｏｍｐｌｉｎｇ）」は、他に注記されていない限り、限定されない用語として解釈されるべきである（すなわち、「含むが、それらに限定されない」を意味する）。本明細書における値の範囲の記載は、本明細書で他に示されない限り、その範囲内にある各々の別個の値を個々に指す簡略方法としての役割を果たすことが意図されるにすぎず、各々の別個の値は、それが本明細書で個々に記載されたように本明細書に組み込まれる。本明細書で説明される全ての方法は、本明細書で他に示されない限り、またはコンテキストによって明確に矛盾しない限り、任意の適切な順序で実行され得る。本明細書で提供される任意の及び全ての例、または例示的な言語（例えば、「など」）の使用は、本開示をより良く示すことを意図しているに過ぎず、特許請求の範囲に記載のない限り、本開示の範囲に限定を課すものではない。本明細書のいずれの言語も、本開示の実施にとって必須として任意の請求されていない要素を示すものと解釈されるべきではない。

前述の発明の実施形態への変更は、添付の特許請求の範囲によって定義される発明の範囲から逸脱することなく可能である。本開示を説明し、特許請求するために使用される「含む」、「備える」、「組み込む」、「からなる」、「有する」、「である」などの表現は、非排他的な方法で解釈されることが意図されており、すなわち、明示的に説明されていないアイテム、コンポーネント、または要素も存在することを可能にする。単数形への言及も、複数形に関連していると解釈されるべきである。添付の特許請求の範囲で括弧内に含まれる数字は、特許請求の範囲の理解を助けることを意図しており、これらの特許請求の範囲によって請求される主題を限定するものと解釈されるべきではない。

Claims

入力画像内でオブジェクトによって実行されるアクションを決定するためのシステムであって、
１つまたは複数の命令を格納するためのメモリと、
前記メモリに通信可能に結合され、前記メモリ内の１つまたは複数の命令を実行するように構成されたプロセッサであって、
前記入力画像に対応する１つまたは複数の重要な特徴を抽出するための事前定義された数の初期ステージであって、各初期ステージは、第１の層および残差ブロックを含み、前記第１の層は、畳み込み層、最大プーリング層、および平均プーリング層からなる群から選択される、初期ステージと、
前記抽出された重要な特徴を１つまたは複数の事前定義されたクラスに分類するための最終ステージであって、グローバル平均プーリング層および緻密層で構成される最終ステージと
を含む畳み込みニューラルネットワーク（ＣＮＮ）を使用するプロセッサと
を含み、
前記最大プーリング層、前記平均プーリング層、および前記グローバル平均プーリング層のそれぞれは、前記対応する入力画像のダウンサンプリングを実行するために非線形関数を使用し、各畳み込み層は、同じサイズの一定数のフィルタを使用する、システム。
前記事前定義された数の初期ステージは、前記入力画像に対応する前記重要な特徴を繰り返し抽出するように構成される、請求項１に記載のシステム。
前記各残差ブロックは、少なくとも１つのバッチ正規化層、少なくとも１つの正規化線形ユニット、および一定数のフィルタの少なくとも１つの畳み込み層を含む、請求項１に記載のシステム。
前記入力画像は、１から３０の範囲の画像を含む、請求項１に記載のシステム。
前記最大プーリング層は、前記入力画像内の前記オブジェクトによって実行される前記アクションを決定するために高い重要度を有する複数のピクセルを抽出するように構成される、請求項１に記載のシステム。
前記平均プーリング層は、凝縮された形で前記入力画像内の情報をエンコードするように構成される、請求項１に記載のシステム。
各層は複数の人工ニューロンを含み、前記緻密層の各人工ニューロンは前記グローバル平均プーリング層の各人工ニューロンに接続されている、請求項１に記載のシステム。
入力画像内のオブジェクトによって実行されるアクションを決定するための方法であって、
前記入力画像を受信することと、
前記入力画像を畳み込みニューラルネットワーク（ＣＮＮ）に提供することであって、前記ＣＮＮは、
前記入力画像に対応する１つまたは複数の重要な特徴を抽出するための事前定義された数の初期ステージであって、各初期ステージは、第１の層および残差ブロックを含み、前記第１の層は、畳み込み層、最大プーリング層、および平均プーリング層からなる群から選択される、初期ステージと、
前記抽出された重要な特徴を１つまたは複数の事前定義されたクラスに分類するための最終ステージであって、グローバル平均プーリング層および緻密層で構成される最終ステージと
を含むことと
を含み、
前記最大プーリング層、前記平均プーリング層、および前記グローバル平均プーリング層のそれぞれは、前記対応する入力画像のダウンサンプリングを実行するために非線形関数を使用し、各畳み込み層は、同じサイズの一定数のフィルタを使用する、方法。
前記入力画像に対応する前記１つまたは複数の重要な特徴を繰り返し抽出することをさらに含む、請求項８に記載の方法。
各残差ブロックは、少なくとも１つのバッチ正規化層、少なくとも１つの正規化線形ユニット、および一定数のフィルタの少なくとも１つの畳み込み層を含む、請求項８に記載の方法。
前記入力画像は、１から３０の範囲の画像を含む、請求項８に記載の方法。
前記入力画像内の前記オブジェクトによって実行される前記アクションを決定するために高い重要度を有する複数のピクセルを抽出することをさらに含む、請求項８に記載の方法。
前記平均プーリング層を使用して、凝縮された形で前記入力画像内の情報をエンコードすることをさらに含む、請求項８に記載の方法。
各層は複数の人工ニューロンを含み、前記緻密層の各人工ニューロンは前記グローバル平均プーリング層の各人工ニューロンに接続されている、請求項８に記載の方法。
機械が読み取り可能な非一時的データ記憶媒体に記録されたソフトウェア製品であって、請求項８に記載の方法を実施するためにコンピューティングハードウェア上で実行可能であるソフトウェア製品。