JP2023049041A

JP2023049041A - 等方性畳み込みニューラルネットワークを介した画像処理

Info

Publication number: JP2023049041A
Application number: JP2022154538A
Authority: JP
Inventors: トロックマンアッシャー; Trockman Asher; ウィルモットデビン; Willmott Devin; カブリタコンデッサフィリペ; Cabrita Condessa Filipe; ジーグコルタージェレミー; Zieg Kolter Jeremy
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-09-28
Filing date: 2022-09-28
Publication date: 2023-04-07
Also published as: DE102022210129A1; CN115880560A; US20230096021A1; US11922291B2

Abstract

【課題】画像を処理するための畳み込みニューラルネットワークシステムを開示する。【解決手段】畳み込みニューラルネットワークシステムは、センサ及びコントローラを含み、コントローラは、センサから画像を受け取ることと、画像をそれぞれサイズｐの複数のパッチに分割することと、第１の畳み込み層を介して、サイズｐに等しいストライドを有しかつサイズｐである特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、深さ単位畳み込み層と点単位畳み込み層とを交互に適用して特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、精細化における全ての演算を通して一定に維持される、ことと、精細化された特徴マップを出力することと、を行うように構成されている。【選択図】図１

Description

技術分野
本開示は、概して、等方性畳み込みニューラルネットワークを用いた画像処理に関する。より具体的には、本願は、等方性畳み込みニューラルネットワークにおいてパラメータを低減することを可能とするための改善に関する。

背景
対象物認識は、画像を所定数のクラスに分類することを含む、コンピュータビジョンにおける基本的な問題である。畳み込みニューラルネットワーク（ＣＮＮ）は、ラベリングされた大規模なデータセット及び強力な計算インフラストラクチャを利用することができるため、この問題についての最新の成果を達成している。ＣＮＮは、トレーニング画像から弁別可能な分類特徴を自動的に抽出し、これらを組み合わせて使用して、複雑な対象物を認識している。これにより、ＣＮＮは、ＩｍａｇｅＮｅｔのような大規模なデータセットに対する従来のコンピュータビジョンアプローチを大幅に上回る性能を可能にしている。これは、大規模なデータセットが通常、ヒューリスティックな機能に依拠しているからである。

概要
第１の例示的な実施形態は、畳み込みニューラルネットワークを利用して画像を処理するためのコンピュータ実装された方法を開示する。本方法は、画像を受け取ることと、画像をそれぞれサイズｐの複数のパッチに分割することと、第１の畳み込み層を介して、サイズｐに等しいストライドを有しかつサイズｐである特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、深さ単位畳み込み層と点単位畳み込み層とを交互に適用して特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、精細化における全ての演算を通して一定に維持される、ことと、精細化された特徴マップを出力することと、を含む。

第２の例示的な実施形態は、畳み込みニューラルネットワークを利用して画像を処理するためのコンピュータ実装された方法を開示する。コンピュータ実装された方法は、サイズＬ×Ｗの画像を受け取ることと、各パッチを組み合わせたサイズがＬ×Ｗに等しい複数のパッチに画像を分割することと、第１の畳み込み層を介して、パッチサイズに等しいサイズ及びパッチサイズに等しいストライドを有する特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、深さ単位畳み込み層と点単位畳み込み層とを交互に適用して特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、精細化における全ての演算を通して一定に維持される、ことと、精細化された特徴マップを出力することと、を含む。

第３の例示的な実施形態は、センサ及びコントローラを含む畳み込みニューラルネットワークシステムを開示しており、当該コントローラは、センサから画像を受け取ることと、画像をそれぞれサイズｐの複数のパッチに分割することと、第１の畳み込み層を介して、サイズｐに等しいストライドを有しかつサイズｐである特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、深さ単位畳み込み層と点単位畳み込み層とを交互に適用することにより特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、精細化における全ての演算を通して一定に維持される、ことと、精細化された特徴マップを出力することと、を行うように構成されている。

ニューラルネットワークをトレーニングするシステムのブロック図である。特徴マップにおけるチャネルの数及び特徴マップのサイズが全ての演算を通して一定に維持される、等方性畳み込みニューラルネットワークのフロー図である。機械学習モデルを利用するデータ注釈システムのブロック図である。パッチサイズ１４を有するＣｏｎｖＭｉｘｅｒ－１０２４／２０に関するパッチ埋め込み重みのグラフィック表現である。電子コンピューティングシステムのブロック図である。画像、パッチサイズ及びチャネル深さのグラフィック表現である。図６の画像のパッチ埋め込みのための重みベクトルのグラフィック表現である。各パッチに関するチャネル深さの２次元レイアウトのグラフィック表現である。チャネル深さを有する各特徴マップの３次元レイアウトのグラフィック表現である。ＣｏｎｖＭｉｘｅｒ－１５３６／２０の進行方向において深くなる層から得られた６４個の深さ単位畳み込みカーネルの特定のサブセットのグラフィック表現である。車両を制御するように構成された制御システムの概略図である。製造機械を制御するように構成された制御システムの概略図である。電動工具を制御するように構成された制御システムの概略図である。自動パーソナルアシスタントを制御するように構成された制御システムの概略図である。監視システムを制御するように構成された制御システムの概略図である。医療用撮像システムを制御するように構成された制御システムの概略図である。

詳細な説明
必要に応じて、本発明の詳細な実施形態を本明細書に開示するが、開示する実施形態は、種々の代替的な形態により実施可能な本発明の単なる例示であることを理解されたい。図面は、必ずしも縮尺通りに描かれておらず、いくつかの特徴は、特定の構成要素の詳細を示すために誇張又は縮小されていることがある。従って、本明細書に開示する特定の構造的及び機能的な詳細は、限定として解釈されるべきではなく、本発明の種々の利用を当業者に教示するための代表的な基礎として解釈されるべきである。

「実質的に」なる用語は、本明細書においては、開示する又は特許請求する実施形態を説明するために使用され得る。「実質的に」なる用語は、本開示において開示する又は特許請求する値又は相対特性が変化する可能性を有することを示す。この場合、「実質的に」とは、値又は相対特性の変化量が、当該値又は相対特性の±０％以内、±０．１％以内、±０．５％以内、±１％以内、±２％以内、±３％以内、±４％以内、±５％以内又は１０％以内であることを意味し得る。

センサなる用語は、物理的属性を検出又は測定し、これを記録し、表示し、又は、他の方式によりこれに応答するデバイスを指す。センサなる用語は、光学センサ、光センサ、撮像センサ若しくは光子センサ（例えば、電荷結合素子（ＣＣＤ）、ＣＭＯＳ能動ピクセルセンサ（ＡＰＳ）、赤外線センサ（ＩＲ）、ＣＭＯＳセンサ）、音響センサ、音声センサ、又は、振動センサ（例えば、マイクロフォン、ジオフォン、ハイドロフォン）、自動車センサ（例えば、車輪速度、駐車、レーダ、酸素、死角、トルク）、化学センサ（例えば、イオン感応型電界効果トランジスタ（ＩＳＦＥＴ）、酸素、二酸化炭素、化学抵抗器、ホログラフィックセンサ）、電流、電位、磁気又は無線周波数センサ（例えば、ホール効果、磁力計、磁気抵抗、ファラデーカップ、ガルバノメータ）、環境、天候、水分若しくは湿分センサ（例えば、気象レーダ、放射計）、流量若しくは流体速度センサ（例えば、質量空気流量センサ、風向計）、電離放射線若しくは亜原子粒子センサ（例えば、イオン化チャンバ、ガイガーカウンタ、中性子検出器）、ナビゲーションセンサ（例えば、全地球測位システム（ＧＰＳ）センサ、磁気流体（ＭＨＤ）センサ）、位置、角度、変位、距離、速度若しくは加速度センサ（例えば、ＬｉＤＡＲ、加速度計、ウルトラワイドバンドレーダ、圧電センサ）、力、密度若しくはレベルセンサ（例えば、ストレインゲージ、核密度ゲージ）、サーマル、熱若しくは温度センサ（例えば、赤外線温度計、パイロメータ、熱電対、サーミスタ、マイクロ波放射計）、又は、物理的属性を検出若しくは測定し、記録し、表示し又は他の形式によりこれに応答する目的を有する他のデバイス、モジュール、機械又はサブシステムを含む。

図１は、ニューラルネットワークをトレーニングするシステム１００を示している。システム１００は、ニューラルネットワークのためのトレーニングデータ１９２にアクセスする入力インタフェースを含み得る。例えば、図１に示されているように、入力インタフェースは、データストレージ１９０からトレーニングデータ１９２にアクセスすることができるデータストレージインタフェース１８０によって構成されるものとしてよい。例えば、データストレージインタフェース１８０は、メモリインタフェース又は持続的ストレージインタフェース、例えば、ハードディスクインタフェース又はＳＳＤインタフェースであるものとしてよく、また、Ｂｌｕｅｔｏｏｔｈ、Ｚｉｇｂｅｅ若しくはＷｉ‐Ｆｉインタフェース、又は、イーサネットインタフェース若しくは光ファイバインタフェースなどのパーソナルエリアネットワークインタフェース、ローカルエリアネットワークインタフェース若しくはワイドエリアネットワークインタフェースであるものとしてもよい。データストレージ１９０は、ハードドライブ又はＳＳＤなどの、システム１００の内部データストレージだけでなく、外部データストレージ、例えばネットワークアクセス可能なデータストレージであるものとしてもよい。

いくつかの実施形態においては、データストレージ１９０は、システム１００によってデータストレージ１９０からアクセスされ得るニューラルネットワークの未トレーニングバージョンのデータ表現１９４をさらに含み得る。ただし、トレーニングデータ１９２及び未トレーニングのニューラルネットワークのデータ表現１９４はまた、それぞれ、種々のデータストレージから、例えば、データストレージインタフェース１８０の異なるサブシステムを介してもアクセスされ得ることが理解されよう。各サブシステムは、データストレージインタフェース１８０のための上述したタイプのものから構成可能である。他の実施形態においては、未トレーニングのニューラルネットワークのデータ表現１９４は、ニューラルネットワークの設計パラメータに基づいてシステム１００によって内部で生成されることもあり、従って、データストレージ１９０に明示的に記憶されていないこともある。システム１００はさらに、プロセッササブシステム１６０を含むものとしてよく、このプロセッササブシステム１６０は、システム１００の動作中に、トレーニングすべきニューラルネットワークの層スタックの代替物として反復機能を提供するように構成可能である。一実施形態においては、置換される層スタックのそれぞれの層は、相互に共有される重みを有し得るものであり、前の層の出力を入力として受け取ることもあり、又は、層スタックの第１の層である場合には層スタックの入力の一部を初期活性体として受け取ることもある。システムはまた、複数の層を含み得る。プロセッササブシステム１６０は、トレーニングデータ１９２を使用してニューラルネットワークを反復的にトレーニングするようにさらに構成され得る。ここで、プロセッササブシステム１６０によるトレーニングの反復は、順方向伝搬部分及び逆方向伝搬部分を含み得る。プロセッササブシステム１６０は、実行可能な順方向伝搬部分を定義する他の演算中に、反復関数が固定点に収束する反復関数の平衡点を決定することによって順方向伝搬部分を実行するように構成可能であり、ここで、当該平衡点の決定は、数値的求根アルゴリズムを使用して反復関数の根解からその入力を差し引いた解を求めることと、ニューラルネットワークにおける層スタックの出力の代替物として平衡点を形成することと、を含む。システム１００は、さらに、トレーニング済みニューラルネットワークのデータ表現１９６を出力するための出力インタフェースを含むものとしてよく、ここでのデータは、トレーニング済みモデルデータ１９６とも称され得る。例えば、図１にも示されているように、出力インタフェースは、この実施形態においては入出力（「ＩＯ」）インタフェースであるデータストレージインタフェース１８０によって構成可能であり、当該インタフェースを介してトレーニング済みモデルデータ１９６をデータストレージ１９０に記憶することができる。例えば、「未トレーニング」のニューラルネットワークを定義するデータ表現１９４は、トレーニング中又はトレーニング後に、トレーニング済みのニューラルネットワークのデータ表現１９６によって少なくとも部分的に置換することができ、これにより、ニューラルネットワークのパラメータ、例えば、重み、ハイパーパラメータ及び他のタイプのニューラルネットワークパラメータが、トレーニング済みデータ１９２についてのトレーニングを反映するように、適応化可能となる。このことは、図１においても、データストレージ１９０上の同一のデータレコードを指している参照番号１９４、１９６によって示されている。他の実施形態においては、データ表現１９６は、「未トレーニングの」ニューラルネットワークを定義するデータ表現１９４とは別個に記憶され得る。いくつかの実施形態においては、出力インタフェースは、データストレージインタフェース１８０とは別個のものであってもよいが、一般的にはデータストレージインタフェース１８０に関して上述したタイプのものであってよい。

図２は、等方性畳み込みニューラルネットワーク２００のフロー図であり、ここで、特徴マップにおけるチャネルの数及び特徴マップのサイズは、全ての演算を通して一定に維持される。ステップ２０２において、コントローラは、畳み込みを実行する。当該畳み込みは、ピクセル単位の畳み込み（例えば１×１）又はパッチ単位の畳み込み（例えばｐ×ｐ）であるものとしてよい。畳み込みがｐ×ｐのようなパッチ単位で行われる場合、重なりが存在しないように、ストライドは、ｐとされる。ステップ２０４において、コントローラは、特徴マップの各要素に適用される非線形関数を含む活性化関数を実行する。活性化関数は、ガウス誤差線形ユニット（ＧＥＬＵ）として示されているが、整流線形ユニット（ＲｅＬＵ）、指数線形ユニット（ＥＬＵ）、漏洩整流線形ユニット（ＬｅａｋｙＲｅＬＵ）、スケーリング指数線形ユニット（ＳＥＬＵ）、又は、他の活性化関数であるものとしてもよい。ステップ２０６において、コントローラは、バッチ全体にわたる値の平均化であるバッチ正規化関数を実行する。ステップ２０２、２０４及び２０６は、畳み込み層を構成している。

ステップ２０８においては、深さ単位畳み込みが行われる。ステップ２１０において、コントローラは、ステップ２０４において説明したように活性化関数を実行する。ステップ２１２において、コントローラは、バッチ全体にわたる値の平均化であるバッチ正規化関数を実行する。ステップ２０８、２１０及び２１２は、深さ単位畳み込み層を構成している。コントローラは、任意選択手段として、深さ単位畳み込み層の入力特徴マップを出力に追加することができる。

ステップ２１４においては、点単位畳み込みが行われるが、この畳み込みは、ピクセル単位の畳み込み（例えば１×１）であるものとしてよい。ステップ２１６において、コントローラは、ステップ２０４において説明したように活性化関数を実行する。ステップ２１８において、コントローラは、バッチ全体にわたる値の平均化であるバッチ正規化関数を実行する。ステップ２１４、２１６及び２１８は、点単位畳み込み層を構成している。コントローラは、任意選択手段として、ピクセル単位畳み込み層の入力特徴マップを出力に追加することができる。

ステップ２２０において、コントローラは、特徴マップにおける全てのピクセルにわたる平均化を行う。ステップ２２２において、コントローラは、クラスを予測するための線形変換を実行する。

深さ単位畳み込みと点単位畳み込みとを交互に組み合わせることの利点の１つに、従来のＣＮＮに関してパラメータが低減されることが含まれる。本明細書において提示するアーキテクチャは、３つの段階、即ち、（１）処理のための高次元空間に入力を投影するパッチ埋め込みと、（２）完全畳み込みブロックのアプリケーションの反復と、（３）グローバルプーリング及びこれに続く線形分類器（例えばソフトマックス）と、を含む。第１のステップ（１）は、ストライドｐを有する３→ｈチャネルからのｐ×ｐカーネルの畳み込みを含むものとしてよく、ここで、ｐは、パッチサイズである。次いで、ステップ（２）においては、ｈ→ｈチャネルからのｋ×ｋカーネルの深さ単位で分離可能な畳み込み（入力次元と出力次元とが同一になるようにパディングが行われる）及びこれに続くｈ→ｈチャネルからの１×１カーネルの畳み込みが含まれる。各畳み込みに続いて、上述した活性化関数（例えばＧＥＬＵ）及び活性化後バッチ正規化関数（例えばＢａｔｃｈＮｏｒｍ）が行われる。

「混合後」。深さ単位で分離可能な畳み込みは、比較的大きいカーネルサイズｋ、例えば９のカーネルサイズを有する改善された結果を生じた。当該層は、大きいカーネルサイズに起因する離隔した位置からの空間情報を含む「空間情報」を混合する。次に、１×１畳み込みにより「チャネル情報」が混合される。これらのことは、ＭＬＰミキサのトークン混合ステップ及びチャネル混合ステップに類似している。

「等方性」。パッチ埋め込みステップの後、ネットワークの内部解像度は、常にｈ／ｐ×ｗ／ｐとなる。高解像度の内部表現について大きいカーネルサイズにおける畳み込みを実行することは、高価となり得る。しかし、フーリエ領域においては、当該演算の実行時間は、カーネルサイズとは無関係であり、フレームワークがＦＦＴ処理に自動的に切り替わる選択深層学習フレームワークにおいてこれを活用することができる。

図３には、データに注釈を付すシステムを実装したデータ注釈システム３００が示されている。データ注釈システム３００は、少なくとも１つのコンピューティングシステム３０２を含み得る。コンピューティングシステム３０２は、メモリユニット３０８に動作可能に接続された少なくとも１つのプロセッサ３０４を含み得る。プロセッサ３０４は、中央処理ユニット（ＣＰＵ）３０６の機能を実装した１つ又は複数の集積回路を含み得る。ＣＰＵ３０６は、命令セット、例えば、ｘ８６、ＡＲＭ、パワー又はＭＩＰＳ命令セットファミリのうちのいずれかを実装した市販入手可能な処理ユニットであるものとしてよい。動作中に、ＣＰＵ３０６は、メモリユニット３０８に記憶されていてそこから取り出されたプログラム命令を実行することができる。記憶されていたプログラム命令は、本明細書に記載の動作を実行するためにＣＰＵ３０６の動作を制御するソフトウェアを含み得る。いくつかの例においては、プロセッサ３０４は、ＣＰＵ３０６、メモリユニット３０８、ネットワークインタフェース及び入出力インタフェースの機能を単一の集積デバイスに集積したシステムオンチップ（ＳｏＣ）であるものとしてよい。コンピューティングシステム３０２は、種々の態様の動作を管理するオペレーティングシステムを実装することができる。

メモリユニット３０８は、命令及びデータを記憶した揮発性メモリ及び不揮発性メモリを含み得る。不揮発性メモリは、ソリッドステートメモリ、例えば、ＮＡＮＤフラッシュメモリ、磁気記憶媒体及び光学記憶媒体、又は、コンピューティングシステム３０２が非アクティブ状態のとき若しくは電力を喪失したときにデータを保持する他の任意の適当なデータストレージデバイスを含み得る。揮発性メモリは、プログラム命令及びデータを記憶したスタティックランダムアクセスメモリ及びダイナミックランダムアクセスメモリ（ＲＡＭ）を含み得る。例えば、メモリユニット３０８は、機械学習モデル３１０又はアルゴリズム、機械学習モデル３１０用のトレーニングデータセット３１２、ロー（ｒａｗ）ソースデータセット３１６を記憶することができる。モデル３１０は、本開示に記載されかつ図２に示されている畳み込みニューラルネットワークを含み得る。また、トレーニングデータセット３１２は、本開示に記載されかつ図２、図４、図６、図７、図８、図９及び図１０に示されている特徴及び特徴抽出器を含み得る。また、ローソース３１６は、本開示に記載されかつ図６、図１１、図１２、図１３、図１４、図１５及び図１６に示されている複数の入力モダリティからのデータを含み得る。

コンピューティングシステム３０２は、外部のシステム及びデバイスとの通信を提供するように構成されたネットワークインタフェースデバイス３２２を含み得る。例えば、ネットワークインタフェースデバイス３２２は、ＩＥＥＥ（Institute of Electrical and Electronics Engineers）８０２．１１規格ファミリによって規定されている有線及び／又は無線のイーサネットインタフェースを含み得る。ネットワークインタフェースデバイス３２２は、セルラネットワーク（例えば、３Ｇ、４Ｇ、５Ｇ）との通信のためのセルラ通信インタフェースを含み得る。ネットワークインタフェースデバイス３２２は、さらに、外部ネットワーク３２４又はクラウドへの通信インタフェースを提供するように構成可能である。

外部ネットワーク３２４は、ワールドワイドウェブ又はインターネットと称され得る。外部ネットワーク３２４は、コンピューティングデバイス間の標準的な通信プロトコルを確立することができる。外部ネットワーク３２４によって、コンピューティングデバイスとネットワークとの間において情報及びデータを容易に交換することが可能となり得る。１つ又は複数のサーバ３３０が外部ネットワーク３２４と通信することができる。

コンピューティングシステム３０２は、デジタル及び／又はアナログの入力及び出力を提供するように構成可能な入出力（Ｉ／Ｏ）インタフェース３２０を含み得る。Ｉ／Ｏインタフェース３２０は、外部デバイスとの通信のための付加的なシリアルインタフェース（例えば、ユニバーサルシリアルバス（ＵＳＢ）インタフェース）を備え得る。

コンピューティングシステム３０２は、システム３００が制御入力を受け取ることを可能にする任意のデバイスを含み得るマンマシンインタフェース（ＨＭＩ）デバイス３１８を含み得る。入力デバイスの例には、人間側のインタフェースとなる入力装置、例えば、キーボード、マウス、タッチスクリーン、音声入力デバイス、及び、他の同様のデバイスが含まれ得る。コンピューティングシステム３０２は、ディスプレイデバイス３３２を含み得る。コンピューティングシステム３０２は、グラフィックス及びテキスト情報をディスプレイデバイス３３２に出力するためのハードウェア及びソフトウェアを含み得る。ディスプレイデバイス３３２は、電子ディスプレイスクリーン、プロジェクタ、プリンタ、又は、ユーザ若しくはオペレータに情報を表示する他の適当なデバイスを含むものとしてよい。コンピューティングシステム３０２は、さらに、ネットワークインタフェースデバイス３２２を介したリモートＨＭＩ及びリモートディスプレイデバイスとの対話を可能にするように構成され得る。

システム３００は、１つ又は複数のコンピューティングシステムを使用して実装され得る。当該例においては、説明した特徴の全てを実装した単一のコンピューティングシステム３０２を示しているが、種々の特徴及び機能が相互に通信を行う複数のコンピューティングユニットによって別個に実現され得ることが意図されている。選択される特定のシステムアーキテクチャは、種々の要因に依存し得る。

システム３００は、ローソースデータセット３１６を分析するように構成された機械学習アルゴリズム３１０を実装することができる。ローソースデータセット３１６は、機械学習システムの入力データセットの典型であり得るローセンサデータ又は未処理のセンサデータを含み得る。ローソースデータセット３１６は、動画像、動画像セグメント、静止画像、テキストに基づく情報、及び、ローセンサデータ又は部分的に処理されたセンサデータ（例えば、対象物のレーダマップ）を含み得る。いくつかの例においては、機械学習アルゴリズム３１０は、所定の関数を実行するように設計されたニューラルネットワークアルゴリズムであるものとしてよい。例えば、ニューラルネットワークアルゴリズムは、自動車用途において、動画像内の歩行者を識別するように構成可能である。

コンピュータシステム３００は、機械学習アルゴリズム３１０に対するトレーニングデータセット３１２を記憶することができる。トレーニングデータセット３１２は、機械学習アルゴリズム３１０をトレーニングするための、以前に構築されたデータのセットを表現することができる。トレーニングデータセット３１２は、ニューラルネットワークアルゴリズムに関連付けられた重み係数を学習するために機械学習アルゴリズム３１０によって使用可能である。トレーニングデータセット３１２は、機械学習アルゴリズム３１０が学習プロセスを介して複製を試みる対応する成果又は結果を有するソースデータのセットを含むものとしてよい。この実施例においては、トレーニングデータセット３１２は、歩行者の有無及び対応する存在情報及び位置情報を含む又は含まないソース動画像を含み得る。当該ソース動画像は、歩行者が識別される種々のシナリオを含み得る。

機械学習アルゴリズム３１０は、トレーニングデータセット３１２を入力として使用する学習モードにおいて動作可能である。機械学習アルゴリズム３１０は、トレーニングデータセット３１２からのデータを使用して、複数回の反復にわたって実行され得る。各反復のたびに、機械学習アルゴリズム３１０は、達成された結果に基づいて内部重み付け係数を更新することができる。例えば、機械学習アルゴリズム３１０は、出力結果（例えば、注釈）を、トレーニングデータセット３１２に含まれる出力結果（例えば、注釈）と比較することができる。トレーニングデータセット３１２は、予想された結果を含むので、機械学習アルゴリズム３１０は、性能がいつ受容可能となるかを決定することができる。機械学習アルゴリズム３１０が所定の性能レベル（例えば、トレーニングデータセット３１２に関連付けられた成果との１００％の一致）に到達した後、機械学習アルゴリズム３１０は、トレーニングデータセット３１２にないデータを使用して実行することができる。トレーニング済み機械学習アルゴリズム３１０は、新たなデータセットに適用され、これにより、注釈付きデータを生成することができる。

機械学習アルゴリズム３１０は、ローソースデータ３１６内の特定の特徴を識別するように構成され得る。ローソースデータ３１６は、注釈結果が所望される複数のインスタンス又は入力データセットを含むものとしてよい。例えば、機械学習アルゴリズム３１０は、動画像内の歩行者の存在を識別し、その発生に注釈を付すように構成可能である。機械学習アルゴリズム３１０は、ローソースデータ３１６を処理して特定の特徴の存在を識別するようにプログラミングされ得る。機械学習アルゴリズム３１０は、ローソースデータ３１６内の特徴を、所定の特徴（例えば、歩行者）として識別するように構成されるものとしてよい。ローソースデータ３１６は、種々のソースから導出可能である。例えば、ローソースデータ３１６は、機械学習システムによって収集された実際の入力データであるものとしてよい。ローソースデータ３１６は、システムのテストのために機械で生成され得る。一例として、ローソースデータ３１６は、カメラからのロー動画像を含むものとしてよい。

この例においては、機械学習アルゴリズム３１０は、ローソースデータ３１６を処理し、画像の表現の指標を出力することができる。出力には、画像の拡張表現を含めることもできる。機械学習アルゴリズム３１０は、生成された各出力に対する信頼度レベル又は信頼度係数を生成することができる。例えば、所定の高信頼度閾値を超える信頼度値は、識別された特徴が特定の特徴に対応することを機械学習アルゴリズム３１０が確信していることを示し得る。低信頼度閾値よりも低い信頼度値は、特定の特徴が存在することについてのいくらかの不確実性を機械学習アルゴリズム３１０が有することを示し得る。

図４は、表１に記載されているパッチサイズ１４を有するＣｏｎｖＭｉｘｅｒ－１０２４／２０に関するパッチ埋め込み重みビジュアライゼーション４００のグラフィック表現である。

例示的な機械アーキテクチャ及び機械可読媒体。図５は、システムのインプリメンテーション又は本明細書に開示する方法の実行に適した電子コンピューティングシステムのブロック図である。図５の機械は、本開示におけるコンセプトの実施に適したスタンドアローンの装置として示されている。上述したサーバの態様に関して、データセンタにおいて動作する複数の機械、クラウドアーキテクチャの一部分などを使用することができる。サーバの態様においては、図示の機能及び装置の全てが利用されるわけではない。例えば、ユーザがサーバ及び／又はクラウドアーキテクチャとの対話に使用するシステム、デバイスなどは、スクリーン、タッチスクリーン入力などを有し得るが、サーバは、スクリーン、タッチスクリーン、カメラなどを有しないことが多く、典型的には、適当な入出力の態様を有する接続システムを介してユーザとの対話を行う。従って、以下のアーキテクチャは、複数のタイプのデバイス及び機械を包含するものと解釈されるべきであり、種々の態様として、その形状要因及び目的に応じて、いずれかの特定のデバイス内又は機械内に存在してもよいし又は存在しなくてもよい（例えば、サーバがカメラを有することは稀であり、一方、ウェアラブルが磁気ディスクを有することは稀である）。なお、図５の例示的な説明は、当業者が、ハードウェア及びソフトウェアの適当な組合せによって、使用される特定のデバイス、機械などについての図示の実施形態を適当に変更しながら、前述した実施形態をどのように実施するかを決定し得るようにすることに適している。

１つの機械しか図示していないが、用語「機械」は、本明細書において論じる方法論のうちのいずれか１つ又は複数を実行するための１つの命令セット（又は複数の命令セット）を個別に又は統合して実行する機械の任意の集合体を含むものであることも考慮されたい。

機械５００の例には、少なくとも１つのプロセッサ５０２（例えば、コントローラ、マイクロコントローラ、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、テンソル処理ユニット（ＴＰＵ）、高度処理ユニット（ＡＰＵ）、又は、これらの組合せ）、リンク５０８を介して相互に通信する１つ又は複数のメモリ、例えばメインメモリ５０４、スタティックメモリ５０６又は他のタイプのメモリが含まれる。リンク５０８は、バス又は他のタイプの接続チャネルであるものとしてよい。機械５００は、さらに、任意のタイプのディスプレイを含むグラフィックディスプレイユニット５１０などの、他の任意選択手段としての態様を含むものとしてよい。機械５００はまた、他の任意選択手段としての態様、例えば、英数字入力デバイス５１２（例えば、キーボード、タッチスクリーンなど）、ユーザインタフェース（ＵＩ）ナビゲーションデバイス５１４（例えば、マウス、トラックボール、タッチデバイスなど）、ストレージユニット５１６（例えば、ディスクドライブ又は他の記憶装置）、信号発生デバイス５１８（例えば、スピーカ）、センサ５２１（例えば、全地球測位センサ、加速度計、マイクロフォン、カメラなど）、出力コントローラ５２８（１つ以上の他のデバイスに接続及び／又は通信するための有線接続部又は無線接続部、例えば、ユニバーサルシリアルバス（ＵＳＢ）、近距離無線通信（ＮＦＣ）、赤外線（ＩＲ）、シリアル／パラレルバスなど）、並びに、１つ以上のネットワーク５２６に接続されるネットワークインタフェースデバイス５２０及び／又は１つ以上のネットワーク５２６を介して通信するためのネットワークインタフェースデバイス５２０（例えば、有線及び／又は無線）を含み得る。

種々のメモリ（即ち５０４、５０６及び／又はプロセッサ５０２のメモリ）及び／又はストレージユニット５１６は、本明細書に記載する方法論又は機能のうちのいずれか１つ又は複数を具現化し又は利用するための命令及びデータ構造（例えば、ソフトウェア）５２４の１つ又は複数のセットを記憶することができる。これらの命令は、プロセッサ５０２によって実行される際に、種々の演算部に開示している実施形態を行わせるためのものである。

図６は、長さ６０２及び幅６０４（ここでは、ｎ×ｎとして示されている）、パッチ長さ６０６及びパッチ幅６０８によって規定されるパッチサイズ（ここでは、ｐ×ｐとして示されている）、並びに、チャネル深さ６１０（ここでは、ｃとして示されている）を有する画像６００のグラフィック表現である。例えば、画像がＲＧＢ（赤色、緑色、青色）を基礎とする画像である場合、ｃは、入力チャネルの数又はＲＧＢを表す３であり得る。ただし、画像がどのように表現されるのかに基づいてより多くの又はより少ないチャネルを有し得る場合、音声、ＩＲ、レーダ、ＬｉＤＡＲ、磁気による撮像などのセンサによって生成された画像が３つより多くのチャネルを有し得ることが考察される。

図７は、図６の画像のパッチ埋め込みのための重みベクトルのグラフィック表現である。ここで、ｈは、アーキテクチャに依存する特徴マップにおけるチャネルの数である。パッチとストライドとが等しいので重なりは存在せず、ｙ１は、画像の左上のパッチに対応し、ｙ２は、画像の中央上のパッチに対応し、ｙ３は、画像の右上のパッチに対応する、といった形式となっており、その他も同様である。

図８は、各パッチのチャネル深さの２次元レイアウト８００のグラフィック表現である。２Ｄレイアウトを観察することの利点は、点単位畳み込みが各ピクセルに別々に作用し、従って、空間的関係が考慮されないので、より効率的になり得る、密な行列乗算が可能となることを含む。

図９は、チャネル深さを有する各特徴マップの３次元レイアウト９００のグラフィック表現である。３Ｄレイアウトは、深さがｈによって表現されるように空間的関係を維持し、ここで、ｈは、パッチ埋め込みの次元であり、又は、換言すると、特徴マップにおけるチャネル数である。

図１０は、ＣｏｎｖＭｉｘｅｒ－１５３６／２０の進行方向において深くなる層のうち６４個の深さ単位畳み込みカーネルの特定のサブセットのグラフィック表現である。画像は、（ａ）層１、（ｂ）層４、（ｃ）層６、（ｄ）層９、（ｅ）層１１、（ｆ）層１３、（ｇ）層１５、（ｈ）層１７、及び、（ｉ）層１９に対応する。

畳み込みは、大抵の場合、従来のピラミッド型設計を行っていないネットワークにおいて、自己注意型及びより一般的な線形変換によって置き換えられるようになってきている。これらのネットワークは、より緩やかな誘導バイアスを有しており、そのため、多くの場合に、より多数のデータを必要とする。これらのネットワークには、重みの共有を増加させ、プーリングを回避し、離隔した空間位置からの情報を混合する傾向がある。本開示は、自己注意型及びより一般的な線形変換を使用して犠牲となる属性を保持しつつ、データ効率とトレーサビリティとを向上させる、シンプルでありながら競争力のある完全畳み込みアーキテクチャを提供する。当該シンプルでありながら競争力のある完全畳み込みアーキテクチャ“ＣｏｎｖＭｉｘｅｒ”は、事前学習を行わずに、典型的にはパラメータの一部を用いて、ＩｍａｇｅＮｅｔ‐１Ｋ及びＣＩＦＡＲ‐１０において高い精度を達成する。例えば、６７２Ｋのパラメータを用いたＣＩＦＡＲ‐１０で９６．３％の精度、１４．６Ｍのパラメータを用いたＩｍａｇｅＮｅｔ－１Ｋで７７．５％ｔｏｐ－１の精度が実現されている。

畳み込みニューラルネットワークは、長年にわたってコンピュータビジョンタスクに対する主要なアプローチとなっている。しかし、近年、視覚変換器が登場したことによって、関心は、畳み込みに代わる新しい演算子を提示する自己注意型に大きい焦点を当てた代替的なアーキテクチャに移ってきている。こうしたアーキテクチャは、現行の畳み込みネットワークよりも単純であることが多く、例えば、これらは（ストリッピング及びプーリングのような）ダウンサンプリングを排除し、これに代えて、全て同等のサイズである（又は等方性を有する）特徴マップに反復適用される同一のブロックを含む傾向にある。

比較的複雑な畳み込みネットワークからのこうした逸脱は、パッチ埋め込みの導入と共に到来した。即ち、第１の層は、重なりのない入力の正方形領域（図６）と等しく適用される線形変換である。次に、モデルは、元の画像でなく、パッチ埋め込みを処理する（図７）。

こうした新しいアーキテクチャにおいては、主に、従来のものとは異なって多くの場合により表現力の高い演算子、例えば、自己注意型パーセプトロン又は単純多層パーセプトロンに注目が集まっている。なお、コンピュータビジョンのタスクでは、これらの新しい演算が、新しいネットワークデザインと同時に導入されてきた。本開示は、アーキテクチャの効果から演算子の効果を解膠することの利点を示す。多くの場合、自己注意型は、従来設計のニューラルネットワークの内部に配置され、又は、畳み込みと自己注意型との融合に含められる。本開示においては、等方性アーキテクチャにおける従来の演算（即ち、畳み込み）のみを提示する。

本開示は、標準的な深さ単位畳み込み演算及び点単位畳み込み演算のみを使用するパッチ埋め込みを使用した視覚変換器の精神におけるきわめて単純なアーキテクチャを提示する。

その単純性、及び、理論的には表現力の低い畳み込み層の使用にもかかわらず、当該アーキテクチャは、たとえ全てが同様の最新のパイプライン（即ち、ほぼデフォルトの設定（ｔｉｍｍ））によりトレーニングされる場合にも、ＲｅｓＮｅｔ及びＤｅｉＴのような現在標準的なモデルとの競争力を有する。

このことは、多くの最近の研究において使用されている新しい単純な等方性アーキテクチャの設計の利点を際立たせている。さらに、パッチ埋め込みによってこうしたネットワーク設計が可能になることを強調しておきたい。漸進的なダウンサンプリングに代えて、パッチ層は、入力を、ネットワーク全体にわたって維持される合理的な所定のサイズへと直ちに変換する。

“ＣｏｎｖＭｉｘｅｒ”と称される当該モデルは、パッチ埋め込みとこれに続く単純完全畳み込みブロックの反復適用とから構成される。ここで重要なことは、図９に示されている、次元ｈを有するパッチ埋め込みのための「３Ｄレイアウト」の使用であり、これは、パッチサイズｐに対して、畳み込み、即ち、

として実装することができる。

ブロックは、深さ単位畳み込みとこれに続く点単位（例えば１×１）畳み込みとから構成され、これらのそれぞれに続いて、活性化及び活性化後のＢａｔｃｈＮｏｒｍ、即ち、

が行われる。

当該ブロックの複数回の適用後、システムは、次いで、サイズｈの特徴ベクトルを得るためにグローバルプーリングを実行し、次いで、この特徴ベクトルを線形分類器によって分類することができる。

「設計パラメータ」。ＣｏｎｖＭｉｘｅｒのインスタンス化は、４つのパラメータ、即ち、（１）隠れ次元ｈ（即ち、パッチ埋め込みの次元）と、（２）深さｄ、又は、完全畳み込みブロックの反復回数と、（３）モデルの内部解像度を制御するパッチサイズｐと、（４）深さ単位畳み込み層のカーネルサイズｋと、に依存する。ＣｏｎｖＭｉｘｅｒの名称は、ＣｏｎｖＭｉｘｅｒ－ｈ／ｄのように、その隠れ次元及び深さを基礎とする。本開示において後に示すように、ＣｏｎｖＭｉｘｅｒは、異常に大きいカーネルサイズ及び小さいパッチサイズで最良に動作する。パッチサイズｐによって除算された（意図された）入力サイズｎが「内部解像度」と称される。

「動機」。当該アーキテクチャは「混合」の概念に基づいている。例として、「空間位置」を混合するための深さ単位畳み込みと、「チャネル位置」を混合するための点単位畳み込みとを考察する。鍵となる着想は、ＭＬＰと自己注意型とが離隔した空間位置を混合することができること、即ち、ＭＬＰと自己注意型とが任意の大きさの受容野を有し得ることである。従って、「大きいカーネル」が、離隔した空間位置の混合にとって「重要なはずである」と仮定することができる。

「パッチ埋め込み」。単に、カーネルサイズｐ、ｐのストライド、及び、ｈのカーネルにおける畳み込みである。ｈは、パッチ埋め込みの次元である。他の実施形態においては、これをｈ×（ｎ／ｐ）^２行列へと再構成することができる。従って、空間データは、完全なままであり、ｈ×ｎ／ｐ×ｎ／ｐテンソルと共に作用する。当該モデルは、パッチ埋め込みによって可能となる、全体にわたって同等の内部解像度を維持しているので、これを「等方性」と称することができる。

自己注意型多層パーセプトロン（ＭＬＰ）はより柔軟性が高く、従って、大きい受容野及びコンテキストアウェア挙動が可能であるが、畳み込みにもいくつかの利点がある。変換の不変性を含むその誘導バイアスは視覚タスクに適しており、高いデータ効率をもたらす。さらに、完全畳み込みは可変サイズの入力に適用可能であり、これは実用上有用であって、トレーニングの高速化を可能にする。畳み込みは、低レベルの最適化にきわめて適している。

以下は、ＰｙＴｏｒｃｈにおける当該モデルの一実施形態のインプリメンテーションであり、最小限の調整によってＩｍａｇｅＮｅｔ上の８１．４％ｔｏｐ‐１精度の向上が可能である。モジュール「減算及び残差（Reduce and Residual）」は、“ｅｉｎｏｐｓ”パッケージ内にあり、以下に、

として示される。これは、ＣｏｎｖＭｉｘｅｒの例示的なＰｙＴｏｒｃｈのインプリメンテーションであり、ｈは、次元であり、ｄは、深さであり、ｐは、ｐａｔｃｈ＿ｓｉｚｅであり、ｋは、ｋｅｒｎｅｌ＿ｓｉｚｅである。

一実施形態において、ＣＩＦＡＲ－１０における小規模実験を行ったが、ここでは、ＣｏｎｖＭｉｘｅｒが０．７Ｍ程度のパラメータで９６％を超える精度が達成された。これにより、畳み込み誘導バイアスのデータ効率が実証された。使用される残差接続のためのいくつかのコンフィギュレーションにより、点単位畳み込み（式３）後の除外がより迅速な収束をもたらすことが見出された。ＢａｔｃｈＮｏｒｍをＬａｙｅｒＮｏｒｍに置き換えると、精度が約１％低下した。表１を参照されたい。

「結果」。約５０Ｍのパラメータを用いたＣｏｎｖＭｉｘｅｒ－１５３６／２０は、ＩｍａｇｅＮｅｔ上において８１．４％のｔｏｐ‐１精度を達成し、２０Ｍのパラメータを用いたＣｏｎｖＭｉｘｅｒ－７６８／３２は、約８０．２％の精度を達成した（表１を参照）。より幅広のＣｏｎｖＭｉｘｅｒは、より少ないエポックで収束するように見えるが、メモリ集約的及びコンピュータ集約的である。比較的小さいパッチを有するＣｏｎｖＭｉｘｅｒが相当に良好に実行された。より大きいパッチには、より深いＣｏｎｖＭｉｘｅｒが必要である。大きいカーネルが重要となることが予想されるかもしれないが、ＣｏｎｖＭｉｘｅｒ－１５３６／２０では、ｋ＝９の場合には８１．３７％の精度、ｋ＝３の場合には８０．４％の精度を受容しており、これは、予想よりも小さい影響である。パラメータの観点からは、ｋ＝９の設定は、価値あるトレードオフであるが、ｋ＝３の場合、スループット及びトレーニング時間は、およそ２倍速い。

表２は、ＣｏｎｖＭｉｘｅｒが与えられたパラメータ予算に対して競争力のある精度を達成することを示している。即ち、ＤｅｉＴ－Ｂでは、８６Ｍのパラメータに対して８１．８％の精度が得られ、ＣｏｎｖＭｉｘｅｒ－１５３６／２０では、５２Ｍのパラメータに対して８１．３７％の精度が得られた。同様のＣｏｎｖＭｉｘｅｒは、同様の手法によりトレーニングされた、６０Ｍのパラメータに対して７９．６４％の精度を有するＲｅｓＮｅｔ－１５２に比較しても、より優れている。しかし、同様のＣｏｎｖＭｉｘｅｒは、ＲｅｓＮｅｔより４倍遅く、ＤｅｉＴより最大７倍遅い。今後の最適化によって、これは変化する可能性がある。これは主に、ＣｏｎｖＭｉｘｅｒがｐ＝７を使用しているのに対し、ＤｅｉＴがｐ＝１６を使用しているため、我々の比較が制限されているからである。より詳細に比較すると、ｐ＝１６及び５．８Ｍのパラメータを用いるＣｏｎｖＭｉｘｅｒ－５１２／１６では、７２．６％の精度が得られるのに対し、５Ｍのパラメータを用いるＤｅｉＴ－Ｔｉでは、７２．２％の精度が得られ、ここで、ＣｏｎｖＭｉｘｅｒは、約２．５倍遅い。同様のパッチサイズ及びパラメータでは、ＣｏｎｖＭｉｘｅｒ－７６８／３２は、ＲｅｓＭＬＰ－Ｓ１２／８よりもいくらか正確であるが、スループットは、０．３倍となる。

「等方性アーキテクチャ」。視覚変換器は、第１の層に対してパッチ埋め込みを使用する等方性アーキテクチャの新しいパラダイムを考案した。当該モデルは、自己注意型演算及びＭＬＰ演算に代わる異なる演算を伴う反復変換器エンコーダブロックに類似している。例えば、ＭＬＰ－Ｍｉｘｅｒは、これら双方と異なる次元にわたって適用されたＭＬＰとの置き換え（即ち、空間位置とチャネル位置との混合）を行う。ＲｅｓＭＬＰは、このテーマにおけるデータ効率の高いバリエーションである。ＣｙｃｌｅＭＬＰ、ｇＭＬＰ、及び、視覚パーミュテータは、一方又は双方のブロックを種々の新たな演算と置き換える。これらは全て、相当に性能が高く、典型的には新規な演算選択に寄与する。研究の前提となっている視覚変換器は、等方性（又は「等尺性」）ＭｏｂｉｌｅＮｅｔを調査し、さらに他の名称でのパッチ埋め込みを実装した。これらのアーキテクチャは、等方性ＭｏｂｉｌｅＮｅｔｖ３ブロックを単純に反復するものである。これらは、パッチサイズと我々の実験に一致する精度との間のトレードオフを意味しており、同様の性能のモデルをトレーニングする（付録２を参照されたい）。ただし、これらのブロックは、我々のものよりかなり複雑である。単純性及びモチベーションは、我々の成果物を差別化する。我々は、これらの成果物が単純なアーキテクチャを可能にするパッチ埋め込みを共通に有することを強調する。

標準的なパッチ埋め込みを異なるステム、例えば標準的な畳み込みステムと置き換えることによって、又は、近傍のパッチ埋め込みを反復結合することによって、視力変換器の性能を向上させることができる。ただし、これは、より複雑なステムによって視覚変換器に畳み込みと同様の誘導バイアスを単純に付加するもの、即ち、局所性を単純に付加するものであってよい。換言すれば、成果物は、パッチ埋め込みの除去及びトークンの局所性の増加という問題を抱えているが、これは、畳み込みのような局所性保存演算を有する３Ｄレイアウトパッチ埋め込みを使用するなどの他の手段によって解決することができる。

上述したアーキテクチャは、画像データ又は画像データのモダリティが使用される複数の実施形態において使用可能である。図１１乃至図１６は、例示的な実施形態を示しているが、本開示の概念は、付加的な実施形態に適用することもできる。いくつかの例示的な実施形態は、次のもの、即ち、モダリティが動画像、重量、ＩＲ、３Ｄカメラ及び音声を含み得る産業用途；モダリティがトルク、圧力、温度、距離又は音声を含み得る電動工具又は電気器具用途；モダリティが超音波、動画像、ＣＡＴスキャン、ＭＲＩ又は音声を含み得る医療用途；モダリティが動画像、超音波、ＬｉＤＡＲ、ＩＲ又は音声を含み得るロボット用途；並びに、モダリティが動画像、音声、ＩＲ又はＬｉＤＡＲを含み得るセキュリティ用途を含む。モダリティは、多様なデータセットを有するものとしてよく、例えば、動画像データセットは、静止画像を含むものとしてよく、ＬｉＤＡＲデータセットは、点群を含むものとしてよく、マイクロフォンデータセットは、時系列を含むものとしてよい。

図１１は、少なくとも部分的に自律的な車両又は少なくとも部分的に自律的なロボットであり得る車両を制御するように構成された制御システム１１０２の概略図である。当該車両は、センサ１１０４及びアクチュエータ１１０６を含む。センサ１１０４は、１つ又は複数の波エネルギに基づくセンサ（例えば、電荷結合素子ＣＣＤ又はビデオセンサ）、レーダ、ＬｉＤＡＲ、マイクロフォンアレイ、超音波、赤外線、熱撮像、音響撮像又は他の技術（例えば、ＧＰＳなどの位置特定センサ）を含み得る。１つ又は複数の特定のセンサのうちの１つ又は複数を車両に組み込むことができる。上記に規定した１つ以上の特定のセンサに代えて又はこれに加えて、制御モジュール１１０２は、実行時にアクチュエータ１１０４の状態を決定するように構成されたソフトウェアモジュールを含み得る。

車両が少なくとも部分的に自律的な車両である実施形態においては、アクチュエータ１１０６は、車両のブレーキシステム、推進システム、エンジン、ドライブトレイン又はステアリングシステムにおいて実施され得る。車両が検出された対象物との衝突を回避すべくアクチュエータ１１０６を制御するように、アクチュエータ制御コマンドを決定することができる。検出された対象物も、歩行者又は樹木など、分類器が最も可能性が高いとみなすものに従って分類することができる。アクチュエータ制御コマンドは、分類に応じて決定され得る。例えば、制御システム１１０２は、センサ１１０４からの（例えば、光学、音響、熱）画像又は他の入力を、１つ以上の背景クラス及び１つ以上の対象物クラス（例えば、歩行者、自転車、車両、樹木、交通標識、信号機、路上ごみ、又は、工事現場バレル／コーンなど）へとセグメンテーションし、対象物との衝突が回避されるように、この場合はブレーキシステム又は推進システムとして実現されているアクチュエータ１１０６に制御コマンドを送信することができる。他の例においては、制御システム１１０２は、画像を、１つ以上の背景クラス及び１つ以上のマーカクラス（例えば車線マーク、ガードレール、車道側縁、車両軌道など）にセグメンテーションし、車両がマーカを踏まずに車線内にとどまるように、ここではステアリングシステムに組み込まれているアクチュエータ１１０６に制御コマンドを送信することができる。敵対的攻撃が発生する可能性があるシナリオにおいては、上述したシステムは、対象物がより良好に検出されるように、又は、照明条件の変化又は車両のセンサ若しくはカメラの角度が識別されるように、さらにトレーニングされ得る。

車両１１００が少なくとも部分的に自律的なロボットである他の実施形態においては、車両１１００は、飛行、泳行、潜行及び歩行などの１つ又は複数の機能を実行するように構成された移動ロボットであり得る。当該移動ロボットは、少なくとも部分的に自律的な芝刈り機、又は、少なくとも部分的に自律的な掃除ロボットであるものとしてよい。このような実施形態においては、アクチュエータ制御コマンド１１０６は、移動ロボットと識別された対象物との衝突が回避されるように、移動ロボットの推進ユニット、ステアリングユニット及び／又はブレーキユニットを制御するために決定され得る。

他の実施形態においては、車両１１００は、園芸ロボットの形態の少なくとも部分的に自律的なロボットである。こうした実施形態においては、車両１１００は、センサ１１０４として光学センサを使用して、車両１１００に近接する環境内の植物の状態を特定することができる。アクチュエータ１１０６は、化学物質を噴霧するように構成されたノズルであるものとしてよい。植物の識別された属種及び／又は識別された状態に応じて、アクチュエータ制御コマンド１１０２は、アクチュエータ１１０６が適量の適当な化学薬品を植物に散布するように決定され得る。

車両１１００は、家電機器の形態の少なくとも部分的に自律的なロボットであるものとしてもよい。家電機器の非限定的な例には、洗濯機、ストーブ、オーブン、電子レンジ、又は、食器洗い機が含まれる。こうした車両１１００において、センサ１１０４は、家電機器により処理される対象物の状態を検出するように構成された光学センサ又は音響センサであるものとしてよい。例えば、家電機器が洗濯機である場合、センサ１１０４は、洗濯機内の洗濯物の状態を検出するものであり得る。アクチュエータ制御コマンドは、検出された洗濯物の状態に基づいて決定され得る。

当該実施形態によれば、制御システム１１０２は、センサ１１０４から（光学又は音響）画像及び注釈情報を受け取る。システムに記憶されているこれらの画像及び注釈情報と、所定数のクラスｋと、類似性尺度

とを使用して、制御システム１１０２は、センサ１１０４から受け取った画像の各ピクセルを分類するために、図１０において説明した方法を使用することができる。こうした分類に基づいて、例えば、歩行者又は樹木との衝突を回避する制動又は方向転換のために、検出された車線マーク内にとどまる操舵のために、又は、上述したアクチュエータ１１０６によって実行される任意の動作のために、信号をアクチュエータ１１０６へ送信することができる。こうした分類に基づいて、例えば、カメラレンズをフォーカシング又は移動させるために、信号をセンサ１１０４へ送信することもできる。

図１２は、製造ラインの一部などの製造システム１０２のパンチカッタ、カッタ又はガンドリルなどのシステム１２００（例えば製造機械）を制御するように構成された制御システム１２０２の概略図を示している。制御システム１２０２は、システム１００（例えば、製造機械）を制御するように構成されたアクチュエータ１２０６を制御するように構成され得る。

システム１２００（例えば、製造機械）のセンサ１２０４は、製造された製品の１つ又は複数の属性を捕捉するように構成された光学センサ若しくは音響センサ又はこれらのセンサアレイのような波エネルギセンサであるものとしてよい。制御システム１２０２は、１つ又は複数の捕捉された属性から、製造された製品の状態を特定するように構成されるものとしてよい。アクチュエータ１２０６は、製造された製品の後続の製造ステップのために、製造された製品１０４の特定された状態に依存してシステム１２０２（例えば、製造機械）を制御するように構成され得る。アクチュエータ１２０６は、先行して製造された製品の特定された状態に依存して、システム（例えば、製造機械）の、後続して製造された製品における図１１の機能部（例えば、製造機械）を制御するように構成されるものとしてよい。

当該実施形態においては、制御システム１２０２は、センサ１２０４から（例えば、光学又は音響）画像及び注釈情報を受け取る。システムに記憶されているこれらの画像及び注釈情報と、所定数のクラスｋと、類似性尺度

とを使用して、制御システム１２０２は、図１０において説明した方法を使用して、センサ１２０４から受け取った画像の各ピクセルを分類することができ、例えば、製造される対象物の画像を２つ以上のクラスにセグメンテーションし、製造された製品の異常を検出し、バーコードなど、製造された製品上の対象物の存在を保証する。こうした分類に基づいて、アクチュエータ１２０６に信号を送信することができる。例えば、制御システム１２０２が製品の異常を検出した場合、アクチュエータ１２０６は、異常な製品又は欠陥のある製品をマーキングし又はラインから除去することができる。他の例においては、制御システム１２０２が製品上に配置されるべきバーコード又は他の対象物の存在を検出した場合、アクチュエータ１１０６はこれらの対象物を適用又は除去することができる。こうした分類に基づいて、例えば、カメラレンズをフォーカシング又は移動させるために、信号をセンサ１２０４へ送信することもできる。

図１３は、少なくとも部分的に自律的なモードを有する電動ドリル又は電動ドライバなどの電動工具１３００を制御するように構成された制御システム１３０２の概略図を示している。制御システム１３０２は、電動工具１３００を制御するように構成されたアクチュエータ１３０６を制御するように構成され得る。

電動工具１３００のセンサ１３０４は、作業面の１つ又は複数の属性、及び／又は、作業面に打ち込まれる締結具の１つ又は複数の属性を捕捉するように構成された光学センサ又は音響センサなどの波エネルギセンサであるものとしてよい。制御システム１３０２は、１つ又は複数の捕捉された属性から、作業面の状態、及び／又は、作業面に対する締結具の状態を特定するように構成され得る。

当該実施形態においては、制御システム１３０２は、センサ１３０４から（例えば、光学又は音響）画像及び注釈情報を受け取る。システムに記憶されているこれらの画像及び注釈情報と、所定数のクラスｋと、類似度尺度

とを使用して、制御システム１３０２は、図１０において説明した方法を使用して、センサ１３０４から受け取った画像の各ピクセルを分類し、これにより、作業面若しくは締結具の画像を２つ以上のクラスにセグメンテーションし、又は、作業面若しくは締結具における異常を検出することができる。こうした分類に基づいて、例えば、工具の圧力若しくは速度、又は、上記のセクションにおいて説明したアクチュエータ１３０６によって実行される任意の動作のために、信号をアクチュエータ１３０６へ送信可能である。こうした分類に基づいて、例えば、カメラレンズをフォーカシング又は移動させるために、信号をセンサ１３０４へ送信することもできる。他の例においては、画像は、圧力、トルク、毎分回転数、温度、電流などの電動工具１３００からの信号の時系列画像であるものとしてよく、この場合、電動工具は、ハンマドリル、ドリル、（回転又は破壊）ハンマ、インパクトドライバ、往復鋸、振動マルチツールであり、コードレスであってもコーデッド（コード有り）であってもよい。

図１４は、自動パーソナルアシスタント１４０１を制御するように構成された制御システム１４０２の概略図を示している。制御システム１４０２は、自動パーソナルアシスタント１４０１を制御するように構成されたアクチュエータ１４０６を制御するように構成され得る。自動パーソナルアシスタント１４０１は、洗濯機、ストーブ、オーブン、電子レンジ又は食器洗い機などの家電機器を制御するように構成されるものとしてもよい。

当該実施形態においては、制御システム１４０２は、センサ１４０４から（例えば、光学又は音響）画像及び注釈情報を受け取る。システムに記憶されているこれらの画像及び注釈情報と、所定数のクラスｋと、類似性尺度

とを使用して、制御システム１４０２は、図１０において説明した方法を使用して、センサ１４０４から受け取った画像の各ピクセルを分類し、例えば、操作すべき若しくは動作させるべき装置又は他の対象物の画像をセグメンテーションすることができる。こうした分類に基づいて、アクチュエータ１４０６に信号を送信し、例えば、家電機器と対話する自動パーソナルアシスタント１４０１の可動部分、又は、上記のセクションにおいて説明したアクチュエータ１４０６によって実行される任意の動作を制御することができる。こうした分類に基づいて、例えば、カメラレンズをフォーカシング又は移動させるために、信号をセンサ１４０４へ送信することもできる。

図１５は、監視システム１５００を制御するように構成された制御システム１５０２の概略図を示している。監視システム１５００は、ドア２５２を通るアクセスを物理的に制御するように構成され得る。センサ１５０４は、アクセスが許可されるかどうかの決定に関連するシーンを検出するように構成され得る。センサ１５０４は、静止画像データ及び／又は動画像データを生成及び送信するように構成された光学センサ若しくは音響センサ又はこれらのセンサアレイであるものとしてよい。こうしたデータは、人の顔貌を検出するために制御システム１５０２によって使用され得る。

監視システム１５００は、サーベイランスシステムであるものとしてもよい。このような実施形態においては、センサ１５０４は、監視下にあるシーンを検出するように構成された光学センサ、赤外線センサ、音響センサなどの波エネルギセンサであるものとしてよく、制御システム１５０２は、ディスプレイ１５０８を制御するように構成されている。制御システム１５０２は、シーンの分類を行うように、例えば、センサ１５０４によって検出されたシーンに不審があるかどうかを特定するように構成されている。摂動の対象物は、システムが最適でない条件（例えば、夜間、霧中、降雨、干渉性のバックグラウンドノイズなど）の下にあるときにもこのような対象物の識別を可能にするために、所定のタイプの対象物の検出に利用され得る。制御システム１５０２は、分類に応じてアクチュエータ制御コマンドをディスプレイ１５０８へ送信するように構成されている。ディスプレイ１５０８は、アクチュエータ制御コマンドに応じて、表示されている内容を調整するように構成され得る。例えば、ディスプレイ１５０８は、コントローラ１５０２によって疑わしいとみなされた対象物を強調表示することができる。

当該実施形態においては、制御システム１５０２は、センサ１５０４から（光学又は音響）画像及び注釈情報を受け取る。システムに記憶されているこれらの画像及び注釈情報と、所定数のクラスｋと、類似性尺度

とを使用して、制御システム１５０２は、図１０において説明した方法を使用して、センサ１５０４から受け取った画像の各ピクセルを分類し、例えば、シーン内の疑わしい若しくは望ましくない対象物の存在を検出し、照明若しくは観察条件のタイプを検出し、又は、動作を検出することができる。こうした分類に基づいて、例えば、ドア又は他の出入口のロック又はロック解除、警報発生若しくは他の信号の動作のために、又は、上記のセクションにおいて説明したアクチュエータ１５０６によって実行される任意の動作のために、信号がアクチュエータ１５０６へ送信され得る。こうした分類に基づいて、例えば、カメラレンズをフォーカシング又は移動させるために、信号をセンサ１５０４へ送信することもできる。

図１６は、撮像システム１６００、例えば、ＭＲＩ装置、Ｘ線撮像装置又は超音波装置を制御するように構成された制御システム１６０２の概略図を示している。センサ１６０４は、例えば、撮像センサ若しくは音響センサ又はこれらのセンサアレイであり得る。制御システム１６０２は、センシングされた画像の全部又は一部の分類を決定するように構成され得る。制御システム１６０２は、トレーニング済みニューラルネットワークによって取得された分類に応じてアクチュエータ制御コマンドを決定又は選択するように構成され得る。例えば、制御システム１６０２は、センシングされた（光学又は音響）画像の１つの領域につき潜在的に異常であると解釈し得る。この場合、ディスプレイ１６０６に撮像を表示させ、潜在的に異常な領域を強調させるように、アクチュエータ制御コマンドを決定又は選択することができる。

当該実施形態においては、制御システム１６０２は、センサ１６０４から画像及び注釈情報を受け取る。システムに記憶されているこれらの画像及び注釈情報と、所定数のクラスｋと、類似性尺度

とを使用して、制御システム１６０２は、図１０において説明した方法を使用して、センサ１６０４から受け取った画像の各ピクセルを分類することができる。こうした分類に基づいて、信号がアクチュエータ１６０６へ送信され、例えば、画像の異常領域、又は、上記のセクションにおいて説明したアクチュエータ１６０６によって実行される任意の動作を検出することができる。

本明細書に記載したアルゴリズム及び／又は方法論を具現化するプログラムコードは、種々の異なる形態のプログラム製品として個別に又は集合的に配布することができる。プログラムコードは、１つ又は複数の実施形態の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を使用して配布することができる。本質的に非一時性であるコンピュータ可読記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、又は、他のデータなどの情報を記憶するための任意の方法若しくは技術により実装された、揮発性及び不揮発性、リムーバブル及び非リムーバブルの有形媒体を含み得る。コンピュータ可読記憶媒体には、さらに、ＲＡＭ、ＲＯＭ、消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ）、電気的に消去可能なプログラマブル読出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、又は、他のソリッドステートメモリ技術、ポータブルなコンパクトディスク読出し専用メモリ（ＣＤ－ＲＯＭ）、又は、他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置若しくは他の磁気記憶装置、又は、所望の情報を記憶するために使用され得る、コンピュータにより読出し可能な任意の他の媒体を含む。コンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、コンピュータ、他のタイプのプログラマブルデータ処理装置若しくは他のデバイスへと、又は、ネットワークを介して外部コンピュータ若しくは外部記憶デバイスへとダウンロード可能である。

コンピュータ可読媒体に記憶されたコンピュータ可読プログラム命令は、コンピュータ可読媒体に記憶された命令によりフローチャート又はグラフに指定された機能、動作及び／又は演算を実現するための命令を含む製造物品が提供されるように、コンピュータ、他のタイプのプログラマブルデータ処理装置又は他のデバイスに対して特定の手法における機能を指示するために使用され得る。所定の代替的な実施形態においては、フローチャート及びグラフで指定された機能、動作及び／又は演算は、１つ又は複数の実施形態に即した並べ替え、連続処理及び／又は同時処理も可能である。さらに、フローチャート及び／又はグラフのいずれも、１つ又は複数の実施形態に即して図示されたものよりも多数の又は少数のノード又はブロックを含み得る。

本発明の全てを種々の実施形態の説明によって例示し、これらの実施形態をかなり詳細に説明したが、添付の特許請求の範囲をこのような詳細に限定する又は何らかの態様により制限することは、出願人の意図するところではない。付加的な利点及び修正は、当業者には容易に明らかであろう。従って、本発明の広い態様は、特定の詳細、代表的な装置及び方法並びに図示及び説明した実施例に限定されるものではない。従って、一般的な発明の概念の思想又は範囲から逸脱することなく、このような詳細から脱却した形態が形成され得る。

Claims

畳み込みニューラルネットワークを利用して画像を処理するためのコンピュータ実装された方法であって、
画像を受け取ることと、
前記画像をそれぞれサイズｐの複数のパッチに分割することと、
第１の畳み込み層を介して、サイズｐに等しいストライドを有しかつサイズｐである特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、
深さ単位畳み込み層と点単位畳み込み層とを交互に適用して前記特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、前記精細化における全ての演算を通して一定に維持される、ことと、
前記精細化された特徴マップを出力することと、
を含む方法。
センサから前記画像を受け取ることを含む、請求項１に記載の方法。
前記センサは、動画像、レーダ、ＬｉＤＡＲ又は超音波のうちの１つであり、前記精細化された特徴マップに基づいて自律型車両を制御するように構成されたコントローラと通信する、請求項２に記載の方法。
前記センサは、動画像、音声、ＩＲ又はＬｉＤＡＲのうちの１つであり、前記精細化された特徴マップに基づいてアクセスドアを制御するように構成されたコントローラと通信する、請求項２に記載の方法。
前記センサは、動画像、音声、超音波、ＩＲ又はＬｉＤＡＲのうちの１つであり、前記精細化された特徴マップに基づいて機械システムを制御するように構成されたコントローラと通信する、請求項２に記載の方法。
前記第１の畳み込み層は、ガウス誤差線形ユニット（ＧＥＬＵ）である活性化関数を含む、請求項１に記載の方法。
各チャネルに対する空間位置にわたり前記特徴マップを平均化して、全てのチャネルに関する平均を取得することと、
前記全てのチャネルに関する平均を変換して、前記入力画像が特定のクラスに対応する確率を取得することと、
前記画像が前記特定のクラスに属する確率を出力することと、
をさらに含む、請求項１に記載の方法。
畳み込みニューラルネットワークを利用して画像を処理するためのコンピュータ実装された方法であって、
サイズＬ×Ｗの画像を受け取ることと、
各パッチを組み合わせたサイズがＬ×Ｗに等しい複数のパッチに前記画像を分割することと、
第１の畳み込み層を介して、前記パッチサイズに等しいサイズ及び前記パッチサイズに等しいストライドを有する特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、
深さ単位畳み込み層と点単位畳み込み層とを交互に適用して前記特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、前記精細化における全ての演算を通して一定に維持される、ことと、
前記精細化された特徴マップを出力することと、
を含む方法。
各パッチサイズは、ｐ×ｐである、請求項８に記載の方法。
センサから前記画像を受け取ることを含む、請求項８に記載の方法。
前記センサは、動画像、レーダ、ＬｉＤＡＲ又は超音波のうちの１つであり、前記精細化された特徴マップに基づいて自律型車両を制御するように構成されたコントローラと通信する、請求項１０に記載の方法。
前記センサは、動画像、音声、ＩＲ又はＬｉＤＡＲのうちの１つであり、前記精細化された特徴マップに基づいてアクセスドアを制御するように構成されたコントローラと通信する、請求項１０に記載の方法。
前記第１のセンサは、動画像、音声、超音波、ＩＲ又はＬｉＤＡＲのうちの１つであり、前記精細化された特徴マップに基づいて機械システムを制御するように構成されたコントローラと通信する、請求項１０に記載の方法。
各チャネルに対する空間位置にわたり前記特徴マップを平均化して、全てのチャネルに関する平均を取得することと、
前記全てのチャネルに関する平均を変換して、前記入力画像が特定のクラスに対応する確率を取得することと、
前記画像が前記特定のクラスに属する確率を出力することと、
をさらに含む、請求項８に記載の方法。
畳み込みニューラルネットワークシステムであって、
センサと、
コントローラと、
を備え、
前記コントローラは、
前記センサから画像を受け取ることと、
前記画像をそれぞれサイズｐの複数のパッチに分割することと、
第１の畳み込み層を介して、サイズｐに等しいストライドを有しかつサイズｐである特徴検出器に基づいて、複数のチャネルを有する特徴マップを抽出することと、
深さ単位畳み込み層と点単位畳み込み層とを交互に適用して前記特徴マップを精細化し、精細化された特徴マップを取得することであって、当該特徴マップにおけるチャネルの数及び当該特徴マップのサイズは、前記精細化における全ての演算を通して一定に維持される、ことと、
前記精細化された特徴マップを出力することと、
を行うように構成されている、畳み込みニューラルネットワークシステム。
前記センサは、動画像、レーダ、ＬｉＤＡＲ又は超音波のうちの１つであり、前記コントローラはさらに、前記精細化された特徴マップに基づいて自律型車両を制御するように構成されている、請求項１５に記載の畳み込みニューラルネットワークシステム。
前記センサは、動画像、音声、ＩＲ又はＬｉＤＡＲのうちの１つであり、前記コントローラはさらに、前記精細化された特徴マップに基づいてアクセスドアを制御するように構成されている、請求項１５に記載の畳み込みニューラルネットワークシステム。
前記センサは、動画像、音声、超音波、ＩＲ又はＬｉＤＡＲのうちの１つであり、前記コントローラはさらに、前記精細化された特徴マップに基づいて機械システムを制御するように構成されている、請求項１５に記載の畳み込みニューラルネットワークシステム。
前記コントローラはさらに、
各チャネルに対する空間位置にわたり前記特徴マップを平均化して、全てのチャネルに関する平均を取得し、
前記全てのチャネルに関する平均を変換して、前記入力画像が特定のクラスに対応する確率を取得し、
前記画像が前記特定のクラスに属する確率を出力する
ように構成されている、請求項１５に記載の畳み込みニューラルネットワークシステム。