JP2023156308A

JP2023156308A - ネットワーク計算エッジにわたってアプリケーションを連続して操作する、人工知能および深層学習においてメモリで境界された継続学習を可能にするシステムおよび方法

Info

Publication number: JP2023156308A
Application number: JP2023117276A
Authority: JP
Inventors: ルシウ，マシュー; Luciw Matthew; オリヴェラ，サンティアゴ; Olivera Santiago; ゴルシェチニコフ，アナトリー; Gorshechnikov Anatoly; ワーブズ，ジェレミー; Wurbs Jeremy; ヴェルサーチ，ヘザー・エイムズ; Ames Versace Heather; ヴェルサーチ，マッシミリアーノ; Versace Massimiliano
Original assignee: Neurala Inc
Current assignee: Neurala Inc
Priority date: 2017-05-09
Filing date: 2023-07-19
Publication date: 2023-10-24
Also published as: EP3622438A4; US20180330238A1; KR20200028330A; JP2020520007A; US20240289625A1; EP3622438A1; WO2018208939A1; JP7317717B2; CN110914836A; CA3061767A1

Abstract

【課題】広範囲に及ぶトレーニング、大量のコンピューティング資源、または大規模なデータ記憶部なしで、配備後の高速学習が可能になる方法を提供する。【解決手段】提供する生涯ディープニューラルネットワーク（Ｌ－ＤＮＮ）技術は、予め学習した特徴を忘れることなく、新しい特徴を迅速に学習するための高速学習サブシステムと、表現豊富なＤＮＮに基づくサブシステムとを使用する。適用先として、セキュリティ、サプライチェーンの監視、災害および緊急時の対応、ならびにドローンをベースとするインフラおよび地所の調査がある。【効果】従来のＤＮＮと比較して、頑強なネットワークを構築するのに非常に少ないデータと、劇的に短いトレーニング時間と、オンデバイスでの学習が実現されるため、Ｌ－ＤＮＮを伴うエッジデバイスは、配備後に連続して学習し、データ収集およびアノテーション作業および計算資源と能力にかかる巨額のコストを排除できる。【選択図】図１

Description

関連出願への相互参照
本出願は、米国特許法１１９条（ｅ）の下で、２０１７年１２月３１日出願の米国特許
出願第６２／６１２，５２９号、および２０１７年５月９日出願の米国特許出願第６２／
５０３，６３９号の優先権を主張する。これらの各出願は、その全体を参照することによ
り本明細書に組み込まれる。

入力層と出力層との間に配置されるニューロンの多くの層を含むディープニューラルネ
ットワーク（ＤＮＮ）を含め、従来のニューラルネットワークは、特定のデータセットに
対してトレーニングのために数千回または数百万回の繰り返しサイクルを必要とする。こ
れらのサイクルは、高性能コンピューティングサーバで頻繁に行われる。実際に、入力デ
ータセットのサイズによって、従来のＤＮＮの中には、トレーニングに数日または数週間
もかかる場合がある。

ＤＮＮをトレーニングする一技法には、逆伝播アルゴリズムが関与する。逆伝播アルゴ
リズムは、誤差勾配を逆伝播させるためにチェーンルールを適用することによって、ラベ
ル付きデータセットからの誤差勾配に比例するＤＮＮの全重みの変化を計算する。逆伝播
は、各データの重みを少し変更し、多くのエポックに対してセット中の全データに広がる
。

繰り返しサイクルごとの学習率が大きいほど、損失関数の勾配が、最小の代わりに極小
に落ち着く可能性がより高くなり、それによって、パフォーマンスが低下しうる。損失関
数が最小に落ち着く可能性を増大するために、ＤＮＮは学習率を減少させ、それによって
、すべてのトレーニングエポックで重みが少し変更される。これによって、トレーニング
サイクルの回数、および総学習時間が増加する。

グラフィックスプロセッシングユニット（ＧＰＵ）技術の進歩によって、かつては数週
間または数か月かかったトレーニングジョブを達成するのに使用される、高度な並列動作
のための計算能力に大きな改善がもたらされた。これらのジョブは今、ＧＰＵで数時間ま
たは数日で完了できるが、これでもまだ、リアルタイムに知識を更新するには十分速くは
ない。さらに、ＤＮＮを更新するために高性能計算サーバを利用すると、サーバ価格およ
びエネルギー消費の点からコストについて指摘される。これによって、リアルタイム動作
の多くの場合に望ましい、オンザフライのＤＮＮに基づくシステムの知識を更新するのが
、非常に困難になる。

さらに、いかなる単一のトレーニングサンプルに対して計算される損失関数の勾配も、
ネットワーク中の重みすべてに影響を与えうる（通常の分散表現により）ため、標準的な
ＤＮＮは、新しい物体を学習すると、以前の知識を忘れやすい。複数のエポックによる同
じ入力の反復表現によって、この問題は軽減されるが、新しい知識をシステムへ迅速に追
加することが非常に困難であるという欠点がある。これは、学習が、計算を限定されるエ
ッジデバイス（例えば、携帯電話、タブレット、または小型フォームファクタプロセッサ
）上で実現困難、または完全に不可能であることが一つの理由である。忘れるという問題
が解決されたとしても、エッジデバイス上での学習は、トレーニングの高い計算負荷、小
さなトレーニングステップ、および全入力の反復表現から、依然として実現困難であろう
。

これらの制限は、配備寿命にわたって、エッジが知識を更新する必要がありうる、単一
の計算エッジだけでなく、配備のライフサイクルにわたって、新たに取得した知識を迅速
に共有することが、知的エージェントの望ましい特性である、分散型多エッジシステム（
例えば、ネットワークの中で接続されるスマートフォン、ネットワーク化されたスマート
カメラ、ドローンまたは自動運転車両の一団、および類似のもの）にも当てはまる。

逆伝播アルゴリズムを動かすプロセッサは、出力時の各ニューロンの誤差への寄与を算
出し、ネットワーク層を通って誤差を戻し分散させる。全ニューロンの重みは、損失関数
の勾配を算出することによって調整される。したがって、ネットワークが古い例を正しく
分類する能力を失わないように、新しいトレーニング例は、古い例を再トレーニングせず
に、事前にトレーニングされたネットワークには追加できない。古い例を正しく分類する
能力を失うことを、「致命的忘却」と呼ぶ。この忘れるという問題は、動作している間に
オンザフライで新しい情報を迅速に学習し組み込む必要がしばしばある、リアルタイムに
動作する機械と接続しているとみなされるとき、特に関連がある。

知識を学習するために、従来のＤＮＮを使用する、リアルタイムに動作する機械は、Ｄ
ＮＮを再トレーニングするために、大量のデータを蓄積する必要がありうる。蓄積された
データは、オペレータからラベルを手に入れ、その後、エッジ上で実行されるＤＮＮを再
トレーニングするために、リアルタイムに動作する機械である「エッジ」（すなわち、例
えば、自動運転自動車、ドローン、ロボットなどのデバイス自体）から、中央サーバ（例
えば、クラウドベースのサーバ）へ転送される。蓄積されるデータが多くなるほど、時間
およびネットワーク帯域の点から、転送プロセスがより高額になる。加えて、中央サーバ
上におけるインターリーブのトレーニングによって、新しいデータを、システムのライフ
サイクル全体用に記憶される元データと組み合わせる必要がある。これによって、厳しい
伝送帯域およびデータ記憶制限が作り出される。

要約すると、従来の逆伝播に基づくＤＮＮトレーニングを、リアルタイムオペレーティ
ングシステムに適用すると、次の欠点に悩まされる。
ａ．システムを新しい知識でオンザフライにより更新することは不可能である。
ｂ．サーバとの通常通信、おおび知識の更新のための著しい待機時間なしでは、エッジ
の配備サイクルの間中の学習は不可能である。
ｃ．新しい情報の学習には、さらなるトレーニングのため、全入力データを無期限に記
憶する、サーバ空間、エネルギー消費、およびディスク空間の消費が必要となる。
ｄ．小型フォームファクタのコンピューティングエッジデバイス上では学習できない。
ｅ．低速で高価なサーバ側の再トレーニングおよび再配備を行わなければ、複数のエッ
ジにわたって知識をマージできない。

生涯ディープニューラルネットワーク（Ｌ－ＤＮＮ）によって、時間を消費する、計算
による集中学習を必要とすることなく、軽量の計算デバイス（エッジ）における、人工ニ
ューラルネットワーク（ＡＮＮ）およびディープニューラルネットワーク（ＤＮＮ）での
連続したオンライン生涯学習が可能になる。Ｌ－ＤＮＮによって、連続データストリーム
からのリアルタイム学習が可能になり、逆伝播学習の複数回の繰り返しのために、入力デ
ータを記憶する必要を回避する。

Ｌ－ＤＮＮ技術では、関心のある実体または事象を表す特徴の、高速だが安定的な学習
を実現するように、表現豊富なＤＮＮに基づくサブシステム（モジュールＡ）を高速学習
サブシステム（モジュールＢ）と組み合わせる。これらの特徴セットは、逆伝播など、低
速学習の方法論によって事前にトレーニングできる。本開示で詳細に記載する（他の特徴
に関する記載は、モジュールＡに非ＤＮＮ方法論を採用することにより可能である）ＤＮ
Ｎに基づく事例の場合、ＤＮＮの高水準特徴抽出層は、知っている実体および事象を分類
し、知らない実体および事象の知識をオンザフライで追加するように、モジュールＢの高
速学習システムへの入力として機能する。モジュールＢは、低速学習の欠点を伴わずに、
重要な情報を学習し、記述的で予測確率の高い環境の特徴を捕捉できる。

Ｌ－ＤＮＮ技法は、他の様式の中でも、視覚データ、構造化光データ、ライダー（ＬＩ
ＤＡＲ）データ、ソナー（ＳＯＮＡＲ）データ、レーダー（ＲＡＤＡＲ）データ、または
音声データに適用できる。視覚データまたは類似のデータに対して、Ｌ－ＤＮＮ技法は、
全体像分類（例えば、場面検出）、境界ボックスベースの物体認識、ピクセル単位のセグ
メンテーション、および他の視覚認識タスクが可能になるなど、視覚処理に適用できる。
Ｌ－ＤＮＮ技法はまた、非視覚信号の分類などの非視覚認識タスク、およびロボット、自
動運転自動車、ドローン、または他のデバイスが環境を進んでいくにつれて、徐々に知識
を追加することによって、自己位置推定と環境地図作成を同時に行うこと（ＳＬＡＭ）で
生成される地図を更新するなど、他のタスクも行うことができる。

Ｌ－ＤＮＮがより多くの実体または事象（視覚的な用語では、「物体」または「カテゴ
リ」）を学習するとき、Ｌ－ＤＮＮの中でメモリを集約することによって、メモリ要件を
モジュールＢの制御下に保持する。加えて、Ｌ－ＤＮＮ方法論によって、複数のエッジコ
ンピューティングデバイスが、エッジを横断してそれらの知識（または入力データを分類
する能力）をマージすることが可能になる。マージは、二つのモジュールＢ間でのニュー
ラルネットワーク表現の直接交換によって、またはいくつかのエッジからの複数のモジュ
ールＢの表現をマージする、中間サーバを介して、ピアツーピアごとに発生しうる。最後
に、Ｌ－ＤＤＮは逆伝播に依存せず、それによって、トレーニング時間、電力要件、およ
び計算資源を劇的に減少させて、新しい入力データを使用して、Ｌ－ＤＮＮ知識を更新す
る。

当然のことながら、前述の概念および以下でより詳細に考察する追加的概念のすべての
組み合わせは（このような概念は相互に矛盾していないという前提で）、本明細書に開示
する本発明の主題の一部であると考えられる。特に、本開示の最後に現れる、特許請求の
範囲に記載する主題のすべての組み合わせは、本明細書に開示する発明主題の一部である
と考えられる。また当然のことながら、参照により組み込まれるあらゆる開示において明
示的に用いられる用語には、本明細書に開示する特定の概念と最も一致する意味を与える
必要がある。

以下の図表および詳細な記載を検討すると、他のシステム、プロセス、および特徴が当
業者に明らかとなるであろう。このようなさらなるシステム、プロセス、および特徴すべ
てが、本記載内に含まれ、本発明の範囲内であり、添付の特許請求の範囲によって保護さ
れることが意図される。

当業者であれば、図面が主として例示的な目的であること、そして本明細書に記載する
本発明の主題の範囲を制限することを意図していないことを理解するだろう。図面は必ず
しも一定の比率ではなく、一部の例では、本明細書に開示する本発明の主題の様々な態様
は、異なる特徴の理解を容易にするために図面内で誇張または拡大されて示されうる。図
面では、同様の参照文字は概して、同様の特徴（例えば、機能的に類似した、および／ま
たは構造的に類似した要素）を意味する。

図１は、個々にデータストリームに作用するか、またはピアツーピアで、もしくは中間計算サーバを介して接続するかどちらかの、複数の計算エッジに関連するときの、生涯ディープニューラルネットワーク（Ｌ－ＤＮＮ）の概要を示す。図２は、Ｌ－ＤＮＮアーキテクチャ例を示す。図３は、ニューラルネットワークにおける未知という概念の実装を示す。図４は、一例示的実装としてＶＧＧ－１６ベースのＬ－ＤＮＮ分類器を示す。図５は、不均一なマルチスケール物体検出を示す。図６は、物体セグメンテーションのためのマスクＲ－ＣＮＮに基づくＬ－ＤＮＮを示す。図７Ａは、適応共鳴理論（ＡＲＴ）ニューラルネットワークを使用する、集約および混合を示す。図７Ｂは、局所的に曖昧な情報、例えば、ラクダ（第一場面の砂漠）または犬（第二場面の郊外）のピクセル化した画像を、場面に関する大局情報、および物体間から学習した過去の関連付けによって、どのように見出すことができるかを示す。図８は、ドローンベースの産業調査での使用事例へのＬ－ＤＮＮの適用を示す。図９では、図８のドローンベースの産業調査での使用事例を、Ｌ－ＤＮＮを持つ複数のドローンがコンサートで動作する状況に拡張する。図１０は、Ｌ－ＤＮＮの倉庫在庫の使用事例への適用を示す。図１１は、まとめて知識を取得および共有するようにＬ－ＤＮＮを使用する、多数のスマートデバイスを示す。図１２は、データセンターをベースとした適用において、Ｌ－ＤＮＮが従来のＤＮＮに代わる事例を示す。

リアルタイムに動作する機械の継続学習
生涯学習ディープニューラルネットワークまたは生涯ディープニューラルネットワーク
（Ｌ－ＤＮＮ）によって、リアルタイムに動作する機械が、中央サーバまたはクラウド上
で学習する必要なく、エッジにてオンザフライで学習することが可能になる。これによっ
て、ネットワークの遅延を排除し、リアルタイムの性能を増大させ、必要に応じてプライ
バシーが確保される。一部の例では、リアルタイムに動作する機械は、Ｌ－ＤＮＮを使用
して、現場で特定のタスクに対して更新できる。例えば、Ｌ－ＤＮＮを用いて、調査ドロ
ーンが、基地局鉄塔もしくは太陽電池パネルの最上部で問題を特定する方法を学習でき、
データをローカルデバイスの外部で共有しないため、プライバシーの問題を心配すること
なく、ユーザの嗜好に基づいてスマートトイを自分用に設定でき、スマートフォンが、非
常に長くかかる学習のために情報を中央サーバへ発送することなく、エッジで学習した知
識を共有でき（全デバイスとピアツーピアでまたは大局的に）、または自動運転自動車が
動作すると、知識を学習し共有できる。

またＬ－ＤＮＮで、古い知識を忘れることなく、新しい知識を学習することも可能にな
り、それによって、致命的忘却を軽減または排除する。言い換えると、本技術によって、
リアルタイムに動作する機械が、ａ）入力画像を送信も記憶もする必要なく、ｂ）トレー
ニングに時間を消費することもなく、ｃ）大きなコンピューティング資源もなしに、ユー
ザ入力に基づいて、エッジで継続的かつ最適に挙動を調整することが可能になる。配備後
のＬ－ＤＮＮを用いた学習によって、リアルタイムに動作する機械が、その環境およびユ
ーザの相互作用の変化に適応し、元のデータセットの欠陥に対処し、カスタマイズされた
体験をユーザに提供することが可能になる。

開示する技術はまた、複数のエッジデバイスからの知識をマージできる。このマージに
は、「クラウドコレクション」、ならびに知識のラベル付け、およびこの収集した知識の
エッジデバイス間における共有を含み、単調で退屈な集中的ラベル付けの時間を排除する
。言い換えると、エッジデバイスのうちの一つ以上からの頭脳を、一つが別のものに（ピ
アツーピア）マージ、またはエッジにあるデバイスの一部もしくはすべてにプッシュバッ
クされて共有される頭脳の中へマージのいずれか一方を行える。Ｌ－ＤＮＮによって、知
識のマージ／混合／共有／組み合わせが、物体数の線形的増大と変わらない速さで、メモ
リフットプリントの増大をもたらし、リアルタイムで生じ、結果、デバイス間で交換され
るのが少量の情報となることが保証される。これらの特徴によって、Ｌ－ＤＮＮは実世界
での適用に対して実用的となる。

Ｌ－ＤＮＮは、次の二つのモジュールにより特徴付けられる、異種ニューラルネットワ
ークアーキテクチャを実装する。
１）工場で事前にトレーニングされ固定されるか、または逆伝播、もしくはデータ入力
の数列に基づく他の学習アルゴリズムによって学習するように構成されるかの、いずれか
のニューラルネットワーク（例えば、ディープニューラルネットワーク）を含む、低速学
習のモジュールＡ。
２）トレーニングサンプルをほとんど持たずに、シナプスの重みおよび表現を瞬時に変
更できる、漸進的な分類器を提供する、モジュールＢ。この漸進的な分類器のインスタン
ス化の例には、例えば、適応共鳴理論（ＡＲＴ）ネットワーク、またはコントラスティブ
ダイバージェンスでニューラルネットワークをトレーニングする、制限ボルツマンマシン
（ＲＢＭ）、およびサポートベクターマシン（ＳＶＭ）または他の高速学習の教師付き分
類プロセスなど、非ニューラルの方法を含む。

Ｌ－ＤＮＮの通常の適用例は、限定するものではないが、ユーザの習慣に基づいて使用
法のパターンを学習する、モノのインターネット（ＩｏＴ）デバイスと、運転「スタイル
」をユーザのものに順応できるか、オンザフライで新しい技能を迅速に学習できるか、ま
たは新しい私道に駐車できる、自動運転車両と、オンザフライでインフラへの損傷の新し
いクラスを学習でき、動作中、短時間の学習後にこの損傷を見分けられる、ドローンと、
所有者の識別のためにクラウドにｐｉｎｇを送ることなく、（ほぼ）瞬時に学習できる、
おもちゃまたはコンパニオンロボットなどの、家庭ロボットと、前に一度も見たことがな
い物体を認識して反応し、新しい障害物を避け、世界地図の中に新しい物体を見つけるこ
とを学習できる、ロボットと、新しい部品、およびそれをオンザフライで操作する方法を
学習できる、産業ロボットと、新しい個人または物体を学習し、ネットワークへ接続する
他のカメラにより提供される画像の中にそれを迅速に発見できる、セキュリティカメラと
によって例証される。上の適用は、本明細書に記載する技術革新により解除され可能にな
る問題のクラスの例でしかなく、学習は、費用が高く非常に長い反復学習をサーバ上で始
めることが必要とされることなく、特定の適用において埋め込まれるコンピューティング
デバイスに直接発生しうる。

本明細書に開示する技術は、ビデオストリーム、能動的センサからのデータ（例えば、
赤外線（ＩＲ）画像、ライダーデータ、ソナーデータ、および類似のもの）、音響データ
、他の時系列データ（例えば、センサデータ、工場で生成されるデータを含むリアルタイ
ムデータストリーム、ＩｏＴデバイスデータ、金融データ、および類似のもの）、および
このようなデータストリームのいかなる多様式の線形／非線形の組み合わせを含むが、そ
れらに限定するものではない、いくつかの入力様式に適用できる。

Ｌ－ＤＮＮの概要
上に開示したように、Ｌ－ＤＮＮは、高速学習モードおよび低速学習モードを組み合わ
せるように、異種ニューラルネットワークアーキテクチャを実装する。高速学習モードで
は、Ｌ－ＤＮＮを実装する、リアルタイムに動作する機械が、ほぼ即座に新しい知識に応
答できるように、新しい知識および新しい体験を学習する。このモードでは、高速学習サ
ブシステムの学習率は、新しい知識および対応する新しい体験に有利に働くほど高く、一
方、低速学習サブシステムの学習率は、古い知識および対応する古い体験を保存するよう
に、低い値またはゼロに設定される。

図１は、マスターエッジ／中央サーバおよびいくつかの計算エッジ（例えば、ドローン
、ロボット、スマートフォン、または他のＩｏＴデバイス）を含む、Ｌ－ＤＮＮを動かす
複数デバイスがコンサートで動作する、Ｌ－ＤＮＮアーキテクチャの概要を提供する。各
デバイスは感覚入力１００を受信し、それを、低速学習モジュールＡ１０２および高速学
習モジュールＢ１０４を備える、対応するＬ－ＤＮＮ１０６へ供給する。各モジュールＡ
１０２は、事前に学習した（固定の重み）ＤＮＮに基づき、特徴抽出器として機能する。
モジュールＡ１０２は、入力１００を受信し、関連する特徴を物体の圧縮表現の中へ抽出
し、これらの表現を対応するモジュールＢ１０４へ供給する。モジュールＢ１０４は、こ
れらの物体表現を高速で学習できる。ユーザとのやり取りを通して、モジュールＢ１０４
は、知らない物体に対する正しいラベルを受信し、各特徴ベクトルと対応するラベルとの
間の関連付けを迅速に学習し、結果として、これらの新しい物体を即座に認識できる。複
数のＬ－ＤＮＮ１０６は、異なる入力を学習するとき、新しく取得した知識を混合し（融
合し、マージし、または組み合わせ）、以下に開示するように、それを他のＬ－ＤＮＮ１
０６と共有するために、ピアツーピアで（破線）または中央サーバへ（点線）接続できる
。

以下に提示する物体検出のＬ－ＤＮＮ実装例は、従来の物体検出のＤＮＮ「Ｙｏｕｏ
ｎｌｙｌｏｏｋｏｎｃｅ（見るのは一度のみ）」（ＹＯＬＯ）と比較する、次の試験
結果を生み出した。一つの物体を持つ、小さな（６００画像）同じカスタムデータセット
を使用して、両ネットワークをトレーニングし検証した。これらのうちの２００画像を検
証セットとして使用した。異なるサイズの四つのトレーニングセット（１００、２００、
３００、および４００画像）が、残りの４００画像から作り出された。Ｌ－ＤＮＮトレー
ニングでは、トレーニングセットの各画像が一度提示された。従来のＤＮＮＹＯＬＯで
は、無作為にトレーニングセットをシャッフルすることによってバッチを作り出し、トレ
ーニングはこれらのバッチを複数回繰り返して進められた。トレーニング後、両ネットワ
ーク上で検証を行い、次の平均適合率の平均（ｍＡＰ：ｍｅａｎａｖｅｒａｇｅｐｒ
ｅｃｉｓｉｏｎ）の結果を生み出した。

さらに、４００画像のトレーニングセットを使用したＬ－ＤＮＮに対するトレーニング
時間は１．１秒であり、ＹＯＬＯに対するトレーニング時間は２１．５時間であった。こ
れは驚くほど大きな性能の改善である。Ｌ－ＤＮＮのメモリフットプリントは３２０ＭＢ
であり、一方、ＹＯＬＯのフットプリントは５００ＭＢであった。これらの結果は、Ｌ－
ＤＮＮが、従来のＤＮＮＹＯＬＯよりも良い精度を実現でき、より小さいデータセット
、さらにより高速のトレーニング時間、およびより少ないメモリ要件でこれを行えること
を明らかに示している。

Ｌ－ＤＮＮアーキテクチャの例
図２は、ロボット、ドローン、スマートフォン、またはＩｏＴデバイスなど、リアルタ
イムに動作する機械によって使用される、Ｌ－ＤＮＮアーキテクチャの例を示す。Ｌ－Ｄ
ＮＮ１０６は、二つのサブシステム、低速学習モジュールＡ１０２および高速学習モジュ
ールＢ１０４を使用する。一実装では、モジュールＡは事前にトレーニングされたＤＮＮ
を含み、モジュールＢは高速学習の適応共鳴理論（ＡＲＴ）パラダイムに基づき、ＤＮＮ
はＡＲＴへ、後者の特徴層のうちの一つ（通常、ＤＮＮ自体が完全に接続した層を分類す
る直前の層、または直前から二番目の層）の出力を供給する。複数のＤＮＮ層が、一つ以
上のモジュールＢへ入力を提供できる（例えば、マルチスケール、投票、または階層形式
で）、他の構成も可能である。

デジタルカメラ、検出器配列、またはマイクロホンなど、入力源１００は環境から情報
／データ（例えば、ビデオデータ、構造化光データ、音声データ、それらの組み合わせ、
および／または類似のもの）を取得する。入力源１００は、カメラシステムを含む場合、
リアルタイムに動作する機械を囲む環境のビデオストリームを取得できる。入力源１００
からの入力データは、リアルタイムでモジュールＡ１０２によって処理され、モジュール
Ａ１０２は、モジュールＢ１０４への入力として、圧縮された特徴信号を提供する。この
例では、ビデオストリームは、モジュールＡおよびＢによってリアルタイムで一連の画像
フレームとして処理できる。モジュールＡおよびモジュールＢは、適切な揮発性および不
揮発性メモリ、ならびに適切な入力／出力インターフェースを伴い、グラフィックプロセ
ッサユニット、フィールドプログラマブルゲートアレイ、または特定用途向け集積回路な
どの適切なコンピュータプロセッサに実装できる。

一実装では、入力データが、モジュールＡの事前にトレーニングされたディープニュー
ラルネットワーク（ＤＮＮ）２００に供給される。ＤＮＮ２００は、例示的実装セクショ
ンで詳細に示すように、入力情報／データを表すのに用いることができる特徴を、抽出す
るように使用される畳み込み層２０４のスタック２０２を含む。ＤＮＮ２００は、望まし
いレベルのデータ表現を実現するように、配備前に工場で事前にトレーニングできる。Ｄ
ＮＮ２００は、そのアーキテクチャを判定する構成ファイルと、トレーニング中に取得さ
れる知識を表す、対応する重みのセットとによって、完全に定義できる。

Ｌ－ＤＮＮシステム１０６は、ＤＮＮの重みが優れた特徴抽出器であるという事実を活
用する。一つ以上の高速学習ニューラルネットワーク分類器を含むモジュールＢ１０４を
、モジュールＡ１０２のＤＮＮ２００へ接続するために、最初のＤＮＮにより分類時に作
動するＤＮＮの上位層の一部のみ（例えば、図２の層２０６および２０８）を無視するか
、またはさらにまとめてシステムから取り去る。高水準特徴抽出層２０４の望ましい未加
工の畳み込み出力にアクセスして、モジュールＢ１０４への入力として機能させる。例え
ば、元のＤＮＮ２００は大抵、勾配降下技法でトレーニング中に重みを最適化することが
可能になるように使用される、コスト層２０８に加えて、多数の完全に接続された平均化
を行うプーリング層２０６を含む。これらの層は、ＤＮＮトレーニング中、またはＤＮＮ
２００から直接予測を得るために使用されるが、モジュールＢ１０４用の入力を生成する
ためには必要ない（図２の陰影は、層２０６および２０８が不必要であることを示す）。
代わりに、モジュールＢ１０４のニューラルネットワーク分類器に対する入力は、ＤＮＮ
２０４の畳み込み層のサブセットから取られる。異なる層または複数の層を使用して、モ
ジュールＢ１０４への入力を提供できる。

ＤＮＮ２００上の各畳み込み層は、局所受容フィールドを使用して、前層の小領域から
情報を集めるフィルタを包含する。これらのフィルタは、ＤＮＮの畳み込み層を通して空
間情報を維持する。特徴抽出器の一つ以上の後期畳み込み層２０４からの出力（絵によっ
てテンソル２１０として表す）は、モジュールＢ１０４の中のニューラルネットワーク分
類器（例えば、ＡＲＴ分類器）の入力ニューロン層２１２へ供給される。例示的実装セク
ションで詳細に記載するように、Ｌ－ＤＮＮ１０６が全体画像分類または物体検出のため
に設計されたかによって、モジュールＡ１０２の各後期畳み込み層２０４と、モジュール
Ｂ１０４のそれぞれの高速学習ニューラルネットワーク分類器との間に、１対１または１
対多の対応がありうる。

ＤＮＮ２００からモジュールＢシステム１０４へ伝送されるテンソル２１０は、元の入
力データ（例えば、センサ１００からの元画像）からのｎ層スタックの表現として見るこ
とができる。この例では、スタックの各要素は、カメラからの入力画像と同じ空間地形を
持つグリッドとして表される。ｎ個のスタックにわたる各グリッド要素が、モジュールＢ
のニューラルネットワークへの実際の入力である。

初期モジュールＢのニューラルネットワーク分類器は、配備後のオンザフライによる学
習を促進するように、任意の初期知識で、またはモジュールＡ１０２のトレーニングされ
た分類で事前にトレーニングされうる。入力源１００が環境に関連するデータをＬ－ＤＮ
Ｎ１０６へ提供すると、ニューラルネットワーク分類器は、ＤＮＮ２００からのデータ（
例えば、テンソル２１０）を連続して処理する。モジュールＢのニューラルネットワーク
分類器は、高速の、好ましくは、ワンショット学習を使用する。ＡＲＴ分類器は、一致に
基づくパターン学習を実装するように、ニューロンのような要素間のボトムアップ（入力
）およびトップダウン（フィードバック）の連想型投影、ならびにカテゴリ間で競争を実
施するように水平投影を使用する。

高速学習モードでは、新規の特徴セットが、モジュールＡ１０２からの入力として提示
されるとき、ＡＲＴベースのモジュールＢ１０４は、特徴をＦ１層２１２に入力ベクトル
として置き、この入力ベクトルと既存の重みベクトル２１４との間の距離操作を計算して
、Ｆ２層２１６で全カテゴリノードの活性化を判定する。距離は、ファジーＡＮＤ（ＡＲ
Ｔのデフォルトバージョン）、ドット積、またはベクトル末端間のユークリッド距離のい
ずれかとして計算される。その後、カテゴリノードは、最も活性化が高いものから最も低
いものへと並び替えられ、カテゴリノード間で競争を実施し、この順序で勝者候補とみな
される。勝者候補のラベルが、ユーザにより提供されるラベルと一致する場合、対応する
重みベクトルを更新して、最も簡単純な実装では、勝者ノードに対して新しい入力と既存
の重みベクトルとの重み付き平均を取る学習プロセスを通して、新しい入力を普遍化して
含める。正しいラベルを有する勝者がいない場合、新しいカテゴリノードは、入力のコピ
ーである重みベクトルを伴い、カテゴリ層Ｆ２の２１６に導入される。どちらの場合も、
モジュールＢ１０４はこのときにはこの入力を知っており、次の提示では認識できる。

モジュールＢ１０４の結果は、Ｌ－ＤＮＮ１０６が解決しているタスク次第で、結果自
体でＬ－ＤＮＮ１０６の出力として、またはモジュールＡ１０２からの特定のＤＮＮ層か
らの出力との組み合わせとして、いずれかで機能する。場面全体の物体認識に対して、全
体画像を分類するとき、モジュールＢの出力は十分でありうる。物体検出のために、モジ
ュールＢ１０４によって、モジュールＡの活動から判定される境界ボックス上に重ね合わ
せるクラスラベルが提供され、そのため、各物体は、モジュールＡ１０２によって正しく
見つけられ、モジュールＢ１０４によって正しくラベル付けされる。物体セグメンテーシ
ョンのために、モジュールＡ１０２からの境界ボックスが、ピクセル単位のマスクに置き
換えられ、モジュールＢ１０４がこれらのマスク用のラベルを提供してもよい。モジュー
ルＡ１０２およびモジュールＢ１０４のさらなる詳細を、以下に提供する。

ニューラルネットワークにおけるリアルタイム動作および未知という概念
通常のＬ－ＤＮＮおよび特定のモジュールＢは、連続する感覚入力にリアルタイムで動
作するように設計されるため、モジュールＢのニューラルネットワークは、知っている物
体が全く提示されないときも、混乱しないように実装されるべきである。従来のニューラ
ルネットワークは、入力にラベル付きの物体を通常包含するデータセットを標的としてい
るため、結果として、知っている物体が存在しない場合、入力に対処する必要がない。し
たがって、このようなネットワークをＬ－ＤＮＮのモジュールＢで使用するには、「何も
知らない（ＮｏｔｈｉｎｇＩｋｎｏｗ）」というさらなる特別カテゴリをネットワー
クへ追加して、知らない物体を知っていると間違って分類するモジュールＢの試み（偽陽
性）を軽減するべきである。

この「何も知らない」という概念は、もっぱら以前は見えずラベルのない物体を包含し
うる、実況の感覚ストリームを処理するときに有用である。これによって、モジュールＢ
およびＬ－ＤＮＮは、潜在的に、知らない物体を誤って知っている物体と識別する代わり
に、知らない物体を「何も知らない」または「以前に見ていない（ｎｏｔｐｒｅｖｉｏ
ｕｓｌｙｓｅｅｎ）」と識別することが可能になる。「何も知らない」という概念の実
装で従来の設計を拡張することは、バイアスノードをネットワークへ追加することと同じ
くらい単純でありうる。「何も知らない」の概念はまた、既知の物体クラスの数およびそ
れらが対応する活性化に従って、自動的に影響を増減させるバージョンで実装できる。

「何も知らない」の概念の一つの可能な実装は、いくつかのカテゴリへ例外なく分散す
るのとは対照的に、内部への知識分散が明確に共通カテゴリに集中している予測に有利に
働く、内在する動的閾値として働く。言い換えると、モジュールＢのニューラルネットワ
ーク分類器は、ある物体に対して、既知の物体クラスの中に明確な勝者がいると示すとき
、物体が勝者クラスに属すると認識する。しかし、複数の異なる物体が類似の活性化を有
する（すなわち、明確な勝者はいない）とき、システムは物体が未知であると報告する。
学習プロセスで明示的にラベルを使用するため、「何も知らない」の実装によって、認識
モードに影響を与えるのみであってもよく、学習モードに干渉しない場合がある。

ＡＲＴネットワークを使用する「何も知らない」の概念の例示的実装を、図３に提示す
る。入力の提示中、カテゴリ層Ｆ２の２１６は、そのノードにわたって活性化パターンで
応答する。知っている物体を包含する入力には、図３の上の事例のように、卓越した勝者
３００がいる可能性が高い。知っている物体を包含しない入力では、図３の下の事例に示
すように、Ｆ２層の活動がより一律に分散する可能性が高い。第二事例にさえ、閾値（図
３の点線）より高い活動を伴うノード３０２がありうるため、全活性化の平均を算出し、
閾値として使用することは、これら二つの事例を区別するには不十分である。図３の上の
事例でのように、明確な勝者３００のみが閾値（図３の破線）の上方に留まるように、平
均に１以上のパラメータを乗じることによって、閾値を大きくする。

このパラメータの正確な値は、複数の因子に依存し、ネットワークが学習してきたカテ
ゴリ数、およびネットワークの中のカテゴリノードの総数に基づいて自動的に算出できる
。算出の例は、次のとおりである。

式中、θは閾値であり、Ｃは既知のカテゴリ数であり、Ｎはカテゴリノード数であり、倍
率ｓは、モジュールＡで使用されるＤＮＮタイプに基づいて設定され、Ｌ－ＤＮＮ準備中
に微調整される。ｓを高く設定しすぎると、ニューラルネットワークの偽陰性率が増大す
る場合があり、低く設定しすぎると偽陽性率が増大しうる。

「何も知らない」の概念を利用して独立型モジュールＢをトレーニングすると、次の結
果が生み出された。ＣｏｌｕｍｂｉａＯｂｊｅｃｔＩｍａｇｅＬｉｂｒａｒｙ１０
０（ＣＯＩＬ－１００）データセットの中の１００個の物体から５０個の物体を、トレー
ニングセットとして使用した。５０個の新規物体が、独立型モジュールＢによって「何も
知らない」と認識されるように、ＣＯＩＬ－１００データセットから全１００個の物体を
、テストセットとして使用した。トレーニング中、リアルタイム動作をシミュレートする
ようにシャッフルすることは全く行わず、独立型モジュールＢのＡＲＴ分類器に１個ずつ
物体を供給した。トレーニング後、ＡＲＴ分類器は９５．５％という認識率（物体と「な
い」との組み合わせ）を実証した。比較のために、ＣＯＩＬ－１００データセットの中の
全１００個の物体のシャッフルしていないデータセットを、従来のＡＲＴへ供給すると、
認識率は５５％のみであった。これは、以下で考察するＡＲＴの順序依存性が原因であり
うる。

入力が、モジュールＢのＡＲＴ分類器によって認識されない場合、補正を導入し、望ま
しい入力をラベル付けするのは、ユーザ次第である。認識されない入力が重要でない場合
、ユーザはその入力を無視でき、ＡＲＴ分類器は「何も知らない」として識別し続けるで
あろう。物体がユーザにとって重要である場合、ユーザはそれをラベル付けでき、高速学
習モジュールＢのネットワークによって、物体の特徴および対応するラベルが、知識へ追
加されるであろう。モジュールＢは、この新しい物体と関連する特徴セットを強化するよ
うに、この物体を見守り続け、より多くの視点を追加する、トラッカーシステムを作動で
きる。

モジュールＡの例示的実装
動作中、モジュールＡは特徴を抽出し、物体の圧縮表現を作り出す。畳み込みディープ
ニューラルネットワークは、以下に概説するように、このタスクに非常に適している。

畳み込みニューラルネットワーク（ＣＮＮ）は、畳み込みユニットを使用するＤＮＮで
あり、ユニットのフィルタ（重みベクトル）の受容フィールドが、入力の高さおよび幅寸
法にわたって段階的に変わる。視覚入力に適用されるとき、ＣＮＮの初期層への入力は高
さ（ｈ）、幅（ｗ）、および一つから三つのチャネル（ｃ）の寸法（例えば、赤、緑、お
よび青色ピクセルの構成要素）を伴う画像であり、一方、ＣＮＮのその後の層への入力は
、高さ（ｈ）、幅（ｗ）、および前の層からのフィルタの数（ｃ）という寸法を有する。
各フィルタが小さいため、完全に接続する層と比較して、パラメータの数は大幅に減少し
、（ｈ，ｗ，ｃ）の各々から次の層上の各ユニットへ投影する一意の重みがある。畳み込
み層については、各ユニットは、（ｆ，ｆ，ｃ）と等しい重みの数を有し、ｆは、ｈまた
はｗのいずれよりも非常に小さい、空間フィルタサイズ（通常、３）である。各フィルタ
を入力中の異なる空間位置で適用することで、物体が一つの空間位置にあるときに分類で
きる場合、物体を含む特徴は、物体の空間位置から独立しているため、物体はすべての空
間位置において分類できるという点で、並進不変という好ましい特性が提供される。

畳み込み層の後に、大抵、サブサンプリング（ダウンサンプリング）層が続く。これら
は、入力の小さい空間ウィンドウ（例えば、２×２）を単一値に減少させることによって
、入力の高さ（ｈ）および幅（ｗ）を減少させる。減少には、平均化（平均プーリング）
または最大値の採用（最大プーリング）が使用されている。サブサンプリング層の応答は
、画像の小さな変化に対して不変であり、この効果は、通常のＣＮＮの複数層の上に蓄積
される。推論では、いくつかの畳み込み層およびサブサンプリング層を画像に適用すると
、出力は、並進、回転、拡大縮小、および反りなどまで、入力の様々な変形に対して素晴
らしい安定性を呈し、例えば、続きの（ペンを持ち上げることなく書かれた）手書き数字
についてトレーニングされたネットワークは、トレーニングセットの数字「３」と、小さ
い円をつなげ合わせて書かれた数字「３」とに同様の応答をする。

これらの不変性によって、入力のコード化で、視覚の変動に対する安定度が向上した特
徴空間が提供され、つまり、入力が変化する（例えば、物体が、画像フレームにおいてわ
ずかに並進して、回転する）とき、出力値の変化は入力値よりも非常に小さくなる。これ
によって学習は可能になるが、例えば、数ピクセル分並進した物体を伴う二つのフレーム
のコード化に、ほとんどまたは全く類似性がない、別の方法の上に学習するのは困難であ
りうる。

さらに、大規模なデータセットからフィルタを学習するために、近年ＧＰＵを加速する
勾配降下技法を使用することで、ＣＮＮは、よくトレーニングされた物体クラスに対して
、普遍化された素晴らしい性能に到達できる。普遍化とは、トレーニングされたクラス内
で、トレーニングされた画像と同一ではないテスト画像に対して、ネットワークが類似の
出力を生み出せることを意味する。クラスを定義する主要な規則性を学習するには、大量
のデータが必要である。ネットワークが多くのクラスについてトレーニングされている場
合、フィルタが全クラス間で共有される下位層は、すべての自然入力に良好な規則性のセ
ットを提供する。したがって、一つのタスクについてトレーニングされたＤＮＮは、他の
タスクの初期化として使用される場合、または下位層を、新しい高水準表現に対してプリ
プロセッサとして使用する場合、優れた結果を提供できる。自然な画像は統計的特性の共
通セットを共有する。よくトレーニングされたニューラルネットワーク内部の視覚化にお
ける、最近の研究が示すように、下層で学習される特徴は、ほとんどクラスに依存しない
一方、上の層になればなるほど、よりクラスに依存するようになる。

Ｌ－ＤＮＮでは、モジュールＢが、分類のため、高品質で圧縮され普遍化された物体特
徴の表現を得るように、モジュールＡのこれらＣＮＮの能力を活かす。この利点を増大ま
たは最大化するために、Ｌ－ＤＮＮに使用されるＤＮＮは、可能な限り多くの異なる物体
に対して事前トレーニングされてもよく、そのため、高水準特徴層の物体特異性は、Ｌ－
ＤＮＮの高速学習能力に干渉しない。

モジュールＢの例示的実装
動作中、モジュールＢは、新しい物体を迅速に致命的忘却なしに学習する。

適応共鳴理論（ＡＲＴ）
モジュールＢの一例示的実装は、ＡＲＴニューラルネットワークである。ＡＲＴでは、
各物体提示に対して勝者ノードを判定するように、カテゴリノード間の競争を利用するこ
とによって致命的忘却を避ける。この勝者ノードが、物体の正しいラベルと関連付けられ
る場合、およびその場合にのみ、学習アルゴリズムがそのノードの重みを更新する。各ノ
ードは一つの物体のみと関連付けられ、学習アルゴリズムは、勝者ノードに対してのみ重
みを更新するため、ＡＲＴのいかなる学習エピソードも、たった一つの物体にのみ影響を
与える。したがって、新しい物体がシステムに追加されるとき、前の知識の干渉はなく、
むしろＡＲＴは、新しいカテゴリノードを作り出し、対応する重みを更新するのみである
。

残念ながら、文献に記載されているＡＲＴには、Ｌ－ＤＮＮのモジュールＢとして成功
裏に使用するのを阻止する、いくつかの不利点がある。これらの不利点のうちの一つ、特
に「何も知らない」の概念の欠如は、ＡＲＴに特有なわけではなく、上で考察している。
ＡＲＴ特有の問題およびこれらの問題に対するソリューションのリストを、以下に開示す
る。

古典的なファジーＡＲＴは、その設計の不可欠な部分である補数コーディングのため、
スパース入力に上手く対処しない。スパース入力が補数コーディングされるとき、スパー
ス入力に豊富に存在する０の補数が１であるため、補数部分は、構成要素の大部分で高い
活性を有する。これらの１すべてが入力の補数部分にあることから、距離計算中に異なる
入力を互いから分離することが非常に難しくなるため、システムは混乱する。他方で、Ｄ
ＮＮのような強力な特徴抽出器は、高水準の特徴抽出時に、もっぱらスパース信号を提供
する傾向がある。ＡＲＴパラダイムを保持するが、古典的なファジー設計および補数コー
ディングからは離れることは、Ｌ－ＤＮＮのモジュールＢでＡＲＴを使用するには有用と
なる。ソリューションの一つは、補数コーディングを除去し、ファジーＡＲＴにより使用
されるファジーＡＮＤの距離計量を、ドット積に基づく計量と取り替えることである。こ
のドット積に基づく計量には、結果は正規化されたままであり、ファジーＡＲＴへの他の
変更は必要ないという利点がある。

ニューラルネットワークのＡＲＴファミリは、入力の提示順に非常に敏感である。言い
換えると、ＡＲＴは一貫性の特性を欠き、異なる入力順が、ＡＲＴネットワークの中の対
応する物体の異なる表現につながる。残念ながら、Ｌ－ＤＮＮのようなリアルタイムオペ
レーティングシステムは、センサからトレーニングデータを受信するときにそれを消費す
るため、一貫性を提供するように、トレーニングデータをシャッフルすることができない
。センサは、リアルタイム動作中頻繁に、第一物体の大部分またはすべてのサンプル、そ
れから後続の物体の全サンプルを提供するため、システムは一度に一つずつ物体表現を学
習する。これによって、他の物体と競争せずに、システムが間違わず、それゆえ物体表現
を適切に精緻化しうるため、いくつかのノードのみが第一物体を提示する状況につながっ
てもよい。他方で、後続の物体は、システムが、第一物体の表現により既に大部分が占有
されている超空間の中へ、その表現を押し込むであろうため、誇大に表現されうる。上に
記載した「何も知らない」のメカニズムによって、早い段階で競争を導入し、第一物体の
きめ細かい表現を保証する。上に記載した集約は、後続の物体の誇大表現になり、それを
減少させ、またはそれを排除する。

また集約によって、物体表現のメモリフットプリントも減少し、メモリが限定されるエ
ッジデバイスにとって特に有益である。システムが他の方法では分類できない物体のすべ
ての視点に対して、新しいカテゴリノードを作り出すことは、新しい物体が入力として追
加されるとき、ＡＲＴシステムのメモリフットプリントが一定の割合で増加することにつ
ながる。上に記載したリアルタイム動作および続いて起こる物体の提示の間、システムは
、次に続く各物体に対して、超線形的に増加する数のノードを作り出す。一部の事例では
、システムは、物体の数に伴い、ノードの数の指数関数的増大を経験する。したがって、
従来のＡＲＴを使用する、モジュールＢのメモリフットプリントは、物体の数による線形
増加よりも速く増大しうる。最悪の場合、この増大は指数的でありうる。集約によって、
メモリの増大を、物体の数と線形と変わらない速さに抑制し、Ｌ－ＤＮＮが学習する各物
体に対する、固定サイズのほぼ最適表現を作り出すことが可能になる。

完全なＬ－ＤＮＮ実装の例

Ｌ－ＤＮＮ分類器
図４は、モジュールＡのコアとして修正されたＶＧＧ－１６のＤＮＮを使用する、全体
画像分類のための例示的なＬ－ＤＮＮ実装を表す。ソフトマックスおよび完全に接続した
最後の２層が、元のＶＧＧ－１６のＤＮＮから除去され、ＡＲＴベースのモジュールＢが
、ＶＧＧ－１６のＤＮＮの完全に接続した第一層に接続する。類似だがより一層単純なＬ
－ＤＮＮは、ＶＧＧ－１６の代わりにＡｌｅｘｎｅｔを使用して作り出すことができる。
これは非常に単純で計算コストが低いシステムであり、現代のいかなるスマートフォン上
でも動き、ＧＰＵもいかなる他の専用プロセッサも必要とせず、スマートフォンのカメラ
により提供される数個の入力フレームから、いかなる物体のセットも学習できる。

Ｌ－ＤＮＮグリッドベースの検出器
画像の中で関心のある物体を検出する一つの手段は、画像をグリッドに分け、各グリッ
ドセル上で分類を行うことである。Ｌ－ＤＮＮのこの実装では、ＣＮＮの以下の特徴が特
に有用である。

上に記載した層にわたる縦の階層組織に加えて、各層は、地形組織を維持するデータを
処理する。これは、ネットワークもしくはカーネル、ストライド、またはパッドサイズの
どのくらいの深さかにかかわらず、画像上の関心のある特定のエリアに対応する特徴を、
層の類似エリアに、様々な解像度のすべての層上に見つけられることを意味する。例えば
、物体が画像の左上隅にあるとき、対応する特徴は、層の階層に沿って各層の左上隅に見
つかるだろう。したがって、モジュールＢを層の場所の各々に取り付けることによって、
モジュールＢが、画像の特定の場所上で分類を行い、いずれか知っている物体がこの場所
に存在するかを判定することを可能にする。

さらに、同じ特徴ベクトルは、画像中の位置にかかわらず、同じ物体を提示するため、
入力として使用される各ＤＮＮ層（またはスケール）につき、モジュールＢを一つのみ作
り出さなくてはならない。それゆえ、右上隅にある一つの物体を学習することによって、
モジュールＢが画像中のどこででも、その物体を認識することが可能になる。別個のモジ
ュールＢへの入力として、異なるサイズ（スケール）の複数のＤＮＮ層を使用することに
よって、複数のスケールでの検出が可能になる。これは、次のプロセスにおいて、より細
かいスケールで全体画像を処理することなく、画像の中で物体の位置を微調整するのに使
用できる。

このプロセスでは、モジュールＡは分類用に、最も粗いスケール（例えば、公的に入手
可能なＥｘｔｒａｃｔｉｏｎＮｅｔの７×７）の画像をモジュールＢへ提供する。モジュ
ールＢが、物体を左端から２番目、上端から４番目にあるセルに発見したと示す場合、よ
り細かいＤＮＮ入力（例えば、同じＥｘｔｒａｃｔｉｏｎＮｅｔの１４×１４）の対応す
る一部のみを分析して、物体の場所をさらに精緻化すべきである。

マルチスケール検出の別の適用では、層のサイズが互いの倍数ではない、ＤＮＮ設計を
使用できる。例えば、ＤＮＮは、３０×３０の層を有する場合、２×２（圧縮因子１５）
、３×３（圧縮因子１０）、および５×５（圧縮因子６）の層にまで減少されうる。図５
に示すように、モジュールＢをこれらの圧縮したＤＮＮの各々へ取り付けると、物体の大
雑把な場所（５０２、５０４、５０６として示す）が得られる。しかし、これらモジュー
ルＢの出力が組み合わされている場合（５０８として示す）、空間解像度は、中心の解像
度がより高く、端に向かって解像度がより低くなる、不均一な８×８グリッドとなる。

この解像度を実現するには、システムは、モジュールＢの計算を（２×２）＋（３×３
）＋（５×５）＝３８回のみ行う一方、均一な８×８グリッドを計算するには、６４回モ
ジュールＢの計算を行うことに留意されたい。より少ない計算で算出されることに加えて
、中央の３６個の場所に対する、図５のマルチスケールグリッドの解像度は、均一な８×
８グリッドの解像度と等しいか、またはそれよりも細かい。したがって、マルチスケール
検出によって、システムは、同等の均一グリッドの計算資源の６０％のみを使用して、よ
り正確に物体の場所（５１０）を示すことができる。この性能差は、合計の２乗（均一グ
リッドに対する計算回数を表す）が、２乗の合計（不均一グリッドに対する計算回数を表
す）よりも早く大きくなるため、より大きな層に対して増加する。

不均一（マルチスケール）検出は、視野の中心にある物体が、ロボットの経路にいる可
能性が最も高く、危険な衝突の兆候を提示しない周辺の物体よりも、正確に検出されるこ
とから恩恵を受けるため、動くロボットに対して特に有益でありうる。

画像セグメンテーション用のＬ－ＤＮＮ
画像に対して、物体検出は通例、物体の回りに境界ボックスを置き、関連するクラス（
例えば、「犬」）とラベル付けするタスクとして定義される。前セクションのグリッドに
基づく方法に加えて、物体検出技法は通例、境界ボックスを伴う画像の一つ以上の領域を
選択し、その後、そのボックス内の特徴を特定のクラスとして分類しながら、同時に境界
ボックスの場所のオフセットを回帰推定することによって実装される。この物体検出の方
法を実施するアルゴリズムは、Ｒｅｇｉｏｎ－ｂａｓｅｄＣＮＮ（Ｒ－ＣＮＮ）、Ｆａ
ｓｔＲ－ＣＮＮ、およびＦａｓｔｅｒＲ－ＣＮＮを含むものの、位置確認を行わない
いずれの方法も、検出モジュールとして置き換えられてもよい、分類情報に直接依存する
。

画像セグメンテーションは、画像の中のピクセルのすべてまたはサブセットに対して、
クラスラベルを判定するタスクである。セグメンテーションは、同じクラスの二つの別個
の物体からの個々のピクセルの曖昧さを解消する、セマンティックセグメンテーションと
、同じクラスの二つの別個の物体からの個々のピクセルを、一意に識別またはインスタン
ス化する、インスタンスセグメンテーションとに分かれてもよい。画像セグメンテーショ
ンは通例、物体検出方法（Ｒ－ＣＮＮ、ＦａｓｔＲ－ＣＮＮ、またはＦａｓｔｅｒＲ
－ＣＮＮなど）の境界ボックス出力を取り出し、そのボックスで最も目立つ物体をセグメ
ント化することによって実施される。境界ボックスと関連付けられるクラスラベルが、そ
の後、セグメント化された物体と関連付けられる。境界ボックスに起因しうるクラスラベ
ルがない場合、セグメンテーション結果は破棄される。結果として得られるセグメント化
された物体は、インスタンス情報を有していてもいなくてもよい。このセグメンテーショ
ンの方法を実施する一つのアルゴリズムが、ＭａｓｋＲ－ＣＮＮである。

ネットワークのＲ－ＣＮＮファミリに基づく、画像検出またはセグメンテーション用の
Ｌ－ＤＮＮ設計を、図６に提示する。ＭａｓｋＲ－ＣＮＮなど、静的分類モジュールを
使用する画像セグメンテーションプロセスについて考える。このシナリオでは、静的分類
モジュール６００は、Ｌ－ＤＮＮのモジュールＢ１０４と取り替えられてもよい。すなわ
ち、ネットワークのセグメンテーション経路は変わらないままであり、領域は通常どおり
に提案され、続けてセグメント化される。静的分類モジュールを伴う場合のように、Ｌ－
ＤＮＮのモジュールＢ１０４が、閾値を渡す肯定的なクラス予測を全く返信しない（例え
ば、ネットワークがトレーニングされていない、またはセグメント化されたエリアを、上
に記載したような「何も知らない」と認識する場合に生じるような）とき、セグメンテー
ション結果は破棄される。同様に、Ｌ－ＤＮＮのモジュールＢ１０４が許容可能なクラス
予測を返信するとき、静的分類モジュールと同じように、セグメンテーション結果は保持
される。静的分類モジュール６００とは異なり、Ｌ－ＤＮＮのモジュールＢ１０４は、ユ
ーザフィードバックによって前者から後者へ状態を変更するように、継続適応を用意する
。

ユーザフィードバックは、ユーザがソーシャルメディアプロフィール上で物体を選択し
てタグ付けする場合など、直接的に境界ボックスおよびクラスラベルを通して、またはユ
ーザがビデオの中で物体を選択し、その後、物体がビデオ中を通して追跡され、新しい物
体クラスに関する連続フィードバックを提供する場合など、間接フィードバックを通して
提供されてもよい。このフィードバックは、新規のクラスネットワークを経時的に分類す
る方法を、Ｌ－ＤＮＮにトレーニングするために使用される。このプロセスは、ネットワ
ークのセグメンテーション構成要素には影響を与えない。

また、このパラダイムでのモジュールＢ１０４の配置にも、ある程度柔軟性がある。モ
ジュールＢ１０４への入力は、クラスラベルが、セグメンテーション出力と組み合わせら
れ、セグメント化されラベル付けされた出力６０２を生み出してもよいように、モジュー
ルＡの畳み込み層２０２の出力へ直接リンクされるべきである。この制約は、両モジュー
ルＡおよびＢに、領域提案段階の出力を取らせることによって満たされうる。モジュール
Ａは、モジュールＢのいかなる動的部分にも依存すべきではない。すなわち、モジュール
Ｂはネットワークの重みに適応しているが、モジュールＡが静的であるため、モジュール
Ｂが重みを変更し、その後、その出力をモジュールＡへ渡すべき場合、モジュールＡは、
ほとんどの静的ニューラルネットワークが、ネットワークの入力表現の急な変更に対処で
きないため、性能の低下を見る可能性が高いであろう。

頭脳の集約および頭脳の混合
Ｌ－ＤＮＮを実装する複数のリアルタイムに動作する機械は、Ｌ－ＤＮＮを通して新し
い情報をオンザフライで個々に学習できる。一部の状況では、次のセクションに記載する
、いくつかの使用事例で概説するように、リアルタイムに動作する機械間で知識を共有す
ることは有利でありうる。リアルタイムに動作する機械がエッジで新しい知識を学習する
ので、新しい知識を共有するために、各リアルタイムに動作する機械は、エッジから中央
サーバへまたは他のリアルタイムに動作する機械へ、新しい情報の、圧縮され普遍化され
た表現（モジュールＢのシナプスの重み行列という観点から、ネットワークに表される）
を送信する。次のステップを実施することによって、各リアルタイムに動作する機械によ
り取得される知識を、中央サーバでまたは直接エッジデバイス上のいずれかで、抽出し、
加えて、集約し、集中型通信またはピアツーピア通信によって、他のリアルタイムに動作
する機械と共有できる。

・配備された現場で新しい情報を学習 ― 上で考察したように、リアルタイムに動作す
る機械は、新しい情報をＬ－ＤＮＮによってオンザフライで学習できる。ユーザは、リア
ルタイムに動作する機械が新しい物体および／または新しい知識に遭遇していると分かる
と、リアルタイムに動作する機械が、新しい物体および／または新しい知識をオンザフラ
イで学習できるように、新しい物体にラベルを提供し、高速学習モードをトリガできる。
このように、リアルタイムに動作する機械は、その挙動を修正し、迅速に新しい物体およ
び／または新しい知識に適応できる。

・新しい知識の集約 ― 一つ以上の物体をオンザフライで学習した後、システムは、高
速学習モジュールＢで集約プロセスを動かす。このプロセスによって、新しい物体の表現
を圧縮し、以前から既知である物体の表現と統合し、ネットワークの普遍化能力を向上さ
せ、モジュールＢのメモリフットプリントを削減する。ＡＲＴネットワークに基づく例示
的実装について、以下で詳細に示す。

・集約された個々の頭脳を他のデバイスへ伝達 ― 動作中のいずれの時点でも、または
ミッション完了後に、リアルタイムに動作する機械は、その高速学習モジュール（モジュ
ールＢ）の集約された重み行列を、有線または無線通信チャネルを通して中央サーバ（例
えば、クラウドベースのサーバ）へ伝送できる。一部の例では、各リアルタイムに動作す
る機械の高速学習モジュールの重み行列を、外部記憶デバイスへダウンロードでき、中央
サーバへ物理的に連結できる。中央サーバが利用可能でない、または望ましくないとき、
通信はリアルタイムに動作する機械（エッジデバイス）間にピアツーピア形式で生じうる
。

・頭脳混合（または融合、マージ、組み合わせ） ― いくつかのリアルタイムに動作す
る機械からの重み行列が、中央サーバまたはエッジデバイスのうちの一つで収集された後
、中央サーバまたはエッジデバイスは、各リアルタイムに動作する機械から新しく取得さ
れる知識を組み合わせ、単一の重み行列へ圧縮し、集約する混合ユーティリティを動かす
ことができる。混合ユーティリティによって、システム全体の精度を保ちながら、結果と
して得られる行列のメモリフットプリントを削減し、冗長性を除去する。ＡＲＴネットワ
ークに基づく例示的実装について、以下で詳細に示す。

・混合後の個々の頭脳の更新 ― 頭脳混合中に作り出される、結果として生じる重み行
列は、その後、有線もしくは無線通信チャネルを通して、または物理的外部記憶／メモリ
デバイスへダウンロードし、記憶／メモリデバイスをリアルタイムに動作する機械へ物理
的に輸送することによって、一つ以上のリアルタイムに動作する機械へダウンロードされ
る。

このように、複数のリアルタイムに動作する機械からの知識を集約することができ、こ
れらの機械の各々により学習される新しい知識を、他のリアルタイムに動作する機械と共
有できる。

ＡＲＴを使用する頭脳集約および混合プロセスの例示的実装
図７Ａは、ＡＲＴを使用する例示的な頭脳集約および混合プロセスを示す。図では、次
のように既定のＡＲＴプロセスを拡張する。層Ｆ２の２１６にあるＡＲＴのカテゴリノー
ドの各々は、ある物体を表し、各物体は、それを表す一つ以上のカテゴリノードを有する
。図７Ａの左側は、層Ｆ１の２１２により活性化される、層Ｆ２の２１６にあるカテゴリ
ノードに対する重みパターン７０２を示す。各重みパターンは、層Ｆ１の２１２へ提供さ
れる、複数の現実の特徴入力２１０から学習された、普遍化された入力パターンを表す。
ＡＲＴでの学習は、カテゴリノードおよび対応する物体が、競争に勝利していて、問題の
物体を正しく識別しているときにのみ生じることに留意されたい。

図７Ａの中央は、異なる物体に対する複数の入力２１０が、ＡＲＴネットワークへ提示
された後の、層Ｆ２の２１６にある異なるカテゴリノードの重みパターン７０２を示す。
各重みパターン７０２は、対応するノードが、対応する物体ラベルと同一であるとするよ
うに学習した入力の普遍化バージョンを表す。図７Ａの中央にある重みパターン７０２は
、図７Ａの右に示す集約入力７０４になる。

最初の入力２１０は、概して、集約時または混合時にシステムには利用できない。他方
で、重みパターン７０２の収集は、ＡＲＴネットワークがトレーニング中に触れた、入力
２１０すべての普遍化である。このように、重みパターン７０２は、入力２１０の重要な
特徴も、または元の入力２１０よりも良好な重要な特徴を表し、トレーニングプロセス中
、現実の入力の代用として機能できる。

集約には、現実の入力の代用として、重みパターンを使用する。集約の間、次のステッ
プが生じる。

・既存の重み行列の重みベクトル７０２（例えば、図２の重みベクトル２１４の行列）を
、集約入力セット（図７Ａの右側）ａ_ｉ＝ｗ_ｉに加え、式中、ａは入力ベクトルであり、
ｗは重みベクトルであり、ｉは１からネットワークの中にある既存のカテゴリノードの数
までである。ＡＲＴネットワークが補数コーディングを使用する場合、重みベクトルの半
分の補数を解除（ｄｅｃｏｍｐｌｅｍｅｎｔｅｄ）し、ベクトルの最初の半分で平均する
（ａ_ｉ＝（ｗ_ｉ＋（１－ｗ_ｉｃ））／２）。集約入力セットの各ベクトルは、それぞれの
カテゴリノードから抽出された対応するラベルを受け取る。

・既存のＦ２ノードおよび対応する重みはすべて、ＡＲＴネットワークから除去され、そ
のため、ＡＲＴネットワークは空白の初期状態になる。

・集約入力セットは無作為にシャッフルされ、ＡＲＴネットワークが、元の入力を学習し
たのと同じようにこのセットを学習する。無作為にシャッフルすることによって、従来の
ＡＲＴネットワークにおける順序依存性の影響を低減し、ＡＲＴネットワークが、よりコ
ンパクト（作り出されるカテゴリノードがより少ない）でより最適な（より優れた普遍化
）表現を構築することが可能になる。

集約入力セットに重みを使用することには、単一のベクトルが多くの元の入力ベクトル
と置き換わるというさらなる利点があり、そのため、集約プロセスによって複雑さが減少
し、元の学習プロセスよりも計算時間が速くなる。

集約プロセスは、Ｌ－ＤＮＮに基づくシステムの動作中はいつでも生じうる。集約プロ
セスによって、モジュールＢのＡＲＴベースの実装のメモリフットプリントを削減し、Ａ
ＲＴに基づくシステムの順序依存性を低減する。このような動作中に、システムが動作す
るにつれてシステムの中へ入ってくる感覚入力の順序を変更する手段がないため、順序依
存性の低減は、Ｌ－ＤＮＮに基づく、いかなるリアルタイムに動作する機械にも有益であ
る。集約は、ユーザ作用によって、もしくはメモリフットプリントが大きくなりすぎると
き（例えば、閾値サイズに到達するか、またはそれを超過する）に自動で、または動作期
間に基づいて定期的にトリガできる。

例示的な集約は、リアルタイムで動作しており、次々に物体を見たかのように、ＡＲＴ
ネットワークへ意図的に提示される、ＣＯＩＬデータセットに対して行われた。最初のト
レーニングには、集約トレーニングよりも４．５倍長くかかった。集約によって、メモリ
フットプリントを２５％削減し、物体認識性能は５０％の正解から７５％の正解へと向上
した。トレーニングデータセットが最初にシャッフルされて、順序のアーチファクトを減
少させた事例では、集約は依然として性能の向上を示した。初期トレーニング後に、シス
テムが既に十分圧縮されていたため、著しいメモリフットプリントの削減はなかったが、
物体認識に対する正解率は平均で８７％から９８％へと上昇した。これらの実験結果は、
予想外に大きな性能改善を表している。

融合は、二つ以上のＡＲＴネットワークの重み行列から、集約トレーニングセットが組
み合わされる集約の延長である。融合は、集約のすべての利点を継承し、ＡＲＴネットワ
ークの普遍化特性から利益を得る。結果として、複数の融合されたＡＲＴネットワークが
、同じ物体の知識を有するとき、複数のＡＲＴネットワークにわたるこの物体の類似表現
すべてが、ＡＲＴ学習プロセスによって自然に共に組み合わされ、一方ですべての特徴的
な表現は保存される。これは、物体表現の賢い圧縮、および融合されたシステムのメモリ
フットプリントのさらなる削減につながる。

例えば、一つのＡＲＴインスタンスでＣＯＩＬデータセットからの５０個の物体を学習
し、別のＡＲＴインスタンスで３３個の物体（２セットで１７個の物体が同じ）を学習す
る場合、第一インスタンスに対して９２．９％の正解、および第二インスタンスに対して
９０．５％の正解となる。それらを共に融合することで、両ＡＲＴインスタンスによって
学習される、全６６個の一意の物体に関して、９７％正解のネットワークを作り出す。加
えて、融合バージョンは、二つのネットワークの総当たりの組み合わせが有するであろう
うちの、８３％のメモリフットプリントを有する。さらに、融合バージョンのメモリフッ
トプリントは、第一ネットワークと、第二ネットワークの新しい物体のみとの組み合わせ
（重複する１７個の物体を除く）よりも３％小さい。したがって、混合によって実際に、
精度を向上するように、賢く圧縮し、物体表現を精緻化する。入力を無作為にシャッフル
しない場合、混合の結果は、正確性の点でより一層卓越し、８５．３％および７７．６％
正解のネットワークを混合すると、組み合わせた二つのネットワークのメモリフットプリ
ントの８４．６％を有する、９６．６％正解のネットワークとなる。これらの混合実験結
果は、予想外に大きな性能改善を表している。

性能向上のためのコンテキスト情報の使用
Ｌ－ＤＮＮに基づくシステムはさらに、コンテキスト情報を現在の物体情報と組み合わ
せることによって、性能精度を向上できる。コンテキストＬ－ＤＮＮは、ある物体が入力
ストリームで共起する可能性が高いことを学習しうる。例えば、ラクダ、ヤシの木、砂丘
、およびオフロード車は、砂漠の場面に典型的な物体であり（図７Ｂを参照）、一方、家
、スポーツカー、オークの木、および犬は、郊外の場面にコンテキスト典型的な物体であ
る。ドローンの入力として取得された、ピクセルレベルで局所的に曖昧な情報は、コンテ
キストに応じて、二つの物体クラス（例えば、ラクダまたは犬）にマッピングできる。両
方の事例で、物体の焦点には、低解像度画像によくある、曖昧な表現がある。砂漠の場面
では、ラクダのピクセル化画像は、「ラクダ」がＬ－ＤＮＮによって推察される可能性の
高いクラスの４番目であり、最もありうるのは、局所ピクセル情報のみに基づくと「馬」
であるものの、場面に関する大局情報、および物体間で学習された過去の関連付けによっ
て見出すことができる。コンテキストの物体（砂丘、オフロード車、ヤシの木）が、「ラ
クダ」と関連付けられる過去にあったことがあり、そのため、コンテキスト分類器は「馬
」クラスを覆して、「ラクダ」クラスを選ぶことができる。同様に、「家」、「スポーツ
カー」、および「オークの木」を包含する都会の場面では、同じピクセルセットが「犬」
にマッピングされうる。

補足として、上の例のラクダのように、物体が曖昧または異常と識別されるとき、Ｌ－
ＤＮＮシステムは、人間の分析者／ユーザに、物体をより詳しく見るように促してもよい
。この異常検出および警告サブシステムによって、コンテキストを使用して、正常な物体
の識別の曖昧さを解消することによって、場面に属さない、関心のある識別物体間のバラ
ンスを取ることができる。

無限後退問題、すなわち、コンテキストモジュールが物体クラスを生み出しうる前に、
物体分類が必要であることは、最大確率を持つラベルを、コンテキスト分類器への入力と
して与えることで避けられる。このように、物体の各固定時に、コンテキスト分類器は、
物体ラベルの推量を繰り返し精緻化できる。

Ｌ－ＤＮＮはラベルのない莫大な量のデータを活用可能
莫大な量の非構造化コンテンツによって、ラベルなしでも、価値のあるレーニングデー
タがＬ－ＤＮＮのモジュールＡに提供される。貪欲な層単位の事前トレーニング（ｇｒｅ
ｅｄｙｌａｙｅｒ－ｗｉｓｅｐｒｅ－ｔｒａｉｎｉｎｇ）として知られる技法によっ
て、ＤＮＮが、各層を順にトレーニングすることによって、ボトムアップからの教師なし
学習を行うことが可能になる。層単位のトレーニングメカニズムは、コントラスティブダ
イバージェンス、すなわち、ノイズ除去オートエンコーダおよび畳み込みオートエンコー
ダを含む。オートエンコーダは、入力を取り込み、重みおよび転送機能によってコード化
し、入力再構成誤差の点から出力を評価する。層をトレーニングした後に、その出力は次
の層の入力になる。事前トレーニングされたネットワークは、いかなるディープネットワ
ークの恩恵をも享受し、すなわち、例えば、層１上の学習エッジ、層２上のコーナーおよ
び他のエッジグループ、ならびに後の層における高次データに固有の特徴といった、有用
な階層特徴の関係をしばしば捕捉する。さらに、畳み込みの変形は、畳み込みネットワー
クの生来の並進不変を享受する。

このプロセスは、後で教師あり学習（「微調整」）に先行する傾向があるため、事前ト
レーニングと呼ばれる。多くの場合、事前トレーニングされるネットワークの性能は、事
前トレーニングなしのネットワークより優れている。大量のラベル付きデータがある場合
、ラベルが分析者に何らかの負荷をかけるため、事前トレーニングされるネットワークは
、事前トレーニングなしのネットワークにかなわない。事前トレーニングされる「環境固
有の」ネットワークは、ラベル付けの負荷を低く抑えながら、Ｌ－ＤＮＮシステムの認識
性能を、他の事前トレーニングされるネットワークよりも向上させるだろう。言い換える
と、分析者の報告に起因する限定的ラベルに加えて、ラベルのないデータに関してトレー
ニングされるＤＮＮは、比較的少数の分析者の報告だけでなく、別の大量にラベルの付い
たデータセットからもトレーニングされるＤＮＮを上回る性能の向上につながる。

最後に、モジュールＢの実装としてのＡＲＴは、教師なし学習も行うことができるため
、別のメリットがある。ＡＲＴは、学習用のラベルを必要としないが、利用可能なときに
は、ラベルを活用できることを意味する、「半教師付き」とみなされうる。ＡＲＴは、各
ノードに対して、最も一致した観察のフレームおよび画像領域用の検索情報を記憶しなが
ら、教師なし学習モードで操作することによって、ラベルのないデータの組織化を支援す
る。各ＡＲＴノードによって、分析者が多くの類似する観察にアクセスし調査することが
可能になりうる。

Ｌ－ＤＮＮの例示的な使用事例
次の使用事例は、Ｌ－ＤＮＮが、様々な現場で技術上の問題にどのように取り組みうる
かの非限定的な例である。

Ｌ－ＤＮＮを使用して調査を自動化：単一または複数の画像資源
例えば、送電線、基地局鉄塔、または風力タービンといった産業インフラの調査プロセ
スを自動化したい、ドローンサービスプロバイダについて考える。既存のソリューション
では、調査が必要な主要構成要素を含むフレームを見つけるために、調査官がドローンの
ビデオを何時間も見る必要がある。調査官は、フレームの各々で、これらの主要構成要素
を手動で識別しなくてはならない。

対照的に、Ｌ－ＤＮＮベースのアシスタントは識別ツールに導入できる。関心のある物
体または異常のラベルを含むデータを、従来の低速ＤＮＮ工場トレーニング中に、事前ト
レーニング済みセットとして、Ｌ－ＤＮＮベースのアシスタントへ提供できる。以下に記
載するように、高速学習モード中に、ユーザがこのセットへ追加することができる。

図８は、「スマートな」ドローン上、または「データ処理能力のない」ドローンにより
取得されるビデオを再検討するのに使用されるコンピュータ上に含むことができる、Ｌ－
ＤＮＮベースのアシスタントの動作を示す。ドローン８００は、通信塔８２０、太陽電池
パネル８３０、風力タービンファーム８４０、または送電線分配８５０などの構造（これ
らは例示的な構造にすぎず、他の構造も想定されうる）を調査する。ドローンオペレータ
８１０は、ドローンの手動制御を使用していてもよく、または自動で機能するドローンを
監視していてもよい。制御室にいる分析者などの人間の分析者８０５は、ドローン８００
からの感覚入力（例えば、ビデオ、ライダーなど）１００を所有する、Ｌ－ＤＮＮシステ
ム１０６のモジュールＢ１０４へ、ドローンが飛行しているときにラベルを提供、または
飛行を掲載できる。

最初に、ドローン８００は、Ｌ－ＤＮＮ１０６のコピーを個別の局所分類器として受信
する。ドローン８００が、これらの送電線８５０、基地局鉄塔８２０、および風力タービ
ン８４０を調査している間に、ビデオフレーム１００を取得すると、Ｌ－ＤＮＮ１０６の
モジュールＡ１０２は、事前トレーニングされたデータに基づいて、ビデオフレーム１０
０から画像の特徴を抽出する。モジュールＢ１０４はその後、これらの特徴に基づいて、
各物体に可能性の高いラベルを提供する。この情報はユーザ８０５へ渡される。ユーザ８
０５は、ラベルが意に満たない場合、高速学習モードを作動させて、モジュールＢのネッ
トワークを正しいラベルで更新できる。このように、ユーザが提供する情報によって現在
のラベルを補正してもよい。したがって、高速学習サブシステムは、更新後の第一フレー
ムと同じくらい早く、送電線、基地局鉄塔、および風力タービンなど、既に学習した物体
の位置および特徴を判定するように、一試行の学習を利用できる。前に撮ったビデオを分
析する場合、それはユーザが補正を導入した直後を意味する。したがって、システム１０
６は、時間と共により知識が豊富になり、ユーザの助けで経時的により良い識別を提供す
る。

図９は、本明細書に記載するＬ－ＤＮＮ技術を、複数のドローン（例えば、データ処理
能力のないドローン８００および９００、ならびにスマートなドローン９１０）が、同期
的または非同期的にデータを収集する、図８の普遍化された事例としてどのように適用で
きるかを示す。各ドローンと関連付けられたＬ－ＤＮＮにより学習される情報は、マージ
され（組み合わされ、または混合され）他のドローンへプッシュバックされるか、ドロー
ン間のピアツーピアで共有するか、またはモジュールＢ１０４を包含する中央サーバと共
有するかできる。中央サーバは、個々のＬ－ＤＮＮが学習した情報をマージし、ドローン
９１０を含む全ドローンへマージした情報をプッシュバックし、ドローン９１０は、ドロ
ーン８００および９００により取得されたデータに由来する、通信塔８２０、太陽電池パ
ネル８３０、風力タービンファーム８４０、または送電線分配８５０に関する情報に触れ
ていなかったが、マージプロセスのおかげで、これらの項目をここで理解し分類できる。

Ｌ－ＤＮＮを使用して倉庫業務を自動化：複数資源からの知識を集約および混合
上に記載したシステムは、コンサートで動作する、複数の機械またはカメラ（固定され
た、ドローンに取り付けられた、など）に対して拡張できる。複数の異なる地理的場所に
、大きな倉庫を持つ会社について考える。手作業で大きな倉庫の棚卸しをすると、多くの
人時がかかる可能性があり、大抵その時間中、倉庫を閉める必要がある。既存の自動化ソ
リューションでは、隠れている場合がある、積み重なった物体を識別するのが困難である
。加えて、既存の自動化ソリューションでは、一つの地理的場所で学習される情報は、他
の場所へ転送されない。一部の例では、異なる地理的場所で収集される莫大な量のデータ
のため、これらの自動化ソリューションは、新しいデータを学習し、新しいデータに作用
するのに何週間もかかりうる。

対照的に、本明細書に記載するＬ－ＤＮＮ技術は、センサ（例えば、固定カメラ１０１
０ａ～１０１０ｃ、またはロボットもしくはドローン上に載置された移動カメラ）が、セ
ンサへ接続する様々なＬ－ＤＮＮモジュールを介して、在庫の中の新しい項目をオンザフ
ライで学習できる、図１０に示すような、倉庫、産業施設、または流通センターの環境へ
適用可能である。加えて、８０５および１００５にいるオペレータは、分散的なやり方で
新しい情報を様々なＬ－ＤＮＮモジュールへ教えうる。この新しい知識は、中央に統合さ
れるか、またはピアツーピアで伝達されるかして、混合の後に各個々のデバイス（例えば
、カメラ１０１０）へプッシュバックされうる。

例えば、図１０の固定カメラ１０１０ａ～１０１０ｃ（まとめて、カメラ１０１０）に
ついて考える。これらのカメラ１０１０の各々は、コンベアベルト上の物体の対応するビ
デオ画像１００を取得し、その画像１００を対応するＬ－ＤＮＮ１０６ａ～１０６ｃ（ま
とめて、Ｌ－ＤＮＮ１０６）へ提供する。Ｌ－ＤＮＮ１０６は、例えば、調査、仕分け、
または他の流通センター機能のために、画像１００の中の既知の物体を認識する。

各Ｌ－ＤＮＮ１０６は、人間のオペレータ８０５および１００５による評価のために、
または「何も知らない」として、未知の物体をタグ付けする。例えば、未知の物体１０４
０により提示されるとき、Ｌ－ＤＮＮ１０６ａは、人間のオペレータ８０５による分類の
ために、未知の物体１０４０にフラグを立てる。同様に、Ｌ－ＤＮＮ１０６ｃは、人間の
オペレータ８０５による分類のために、未知の物体１０６０にフラグを立てる。Ｌ－ＤＮ
Ｎ１０６ｂは、未知の物体１０５０が提示されると、単純に未知の物体１０５０を「何も
知らない」とタグ付けする。Ｌ－ＤＮＮ１０６へ連結する独立型モジュールＢ１０４ｄは
、Ｌ－ＤＮＮ１０６ａおよび１０６ｃにより人間のオペレータ８０５および１００５から
取得される知識をマージし、モジュールＢ１０４ｂが、物体１０４０および１０６０の今
後のインスタンスを認識できるように、Ｌ－ＤＮＮ１０６ｂのモジュールＢ１０４ｂへ知
識をプッシュする。

各デバイス用のＬ－ＤＮＮ１０６は、柱の印、出口表示のような特徴、それらの組み合
わせ、および／または類似のものなど、倉庫の中の既存の目印を認識するように、事前に
トレーニングできる。これによって、システムが、センサを装備する、またはセンサ（例
えば、カメラ１０１０）により取得される画像に現れる無人車両の位置を、三角測量する
ことが可能になる。各車両のＬ－ＤＮＮは、上に記載した使用事例と全く同じように動作
する。このように、複数の無人車両からの知識は、集約され、混合され、各無人車両へ戻
して再分配できる。すべての場所からの知識の集約および混合は、上の集約および混合セ
クションに記載したように、中央サーバにより行うことができ、加えて、ピアツーピアで
の混合も適用できる。したがって、倉庫業務への最小限の混乱で、複数の倉庫において、
在庫を取り出し、知識を集約できる。

モバイルデバイスの一団でＬ－ＤＮＮを使用
消費者のスマートフォンおよびタブレットなどの消費者のモバイルデバイス、またはモ
バイルカメラ、装着式カメラ、ならびに公共の安全のために第一対応者および公共安全担
当者により使用される、手持ち式ＬＴＥデバイスなどの専門デバイスの分散型ネットワー
クについて考える。消費者のデバイスは、写真を撮る時など、消費者の周囲を理解するた
めに使用できる。これらの場合、本明細書に記載するＬ－ＤＮＮ技術が、図１１に示すス
マートフォンまたはタブレットデバイス１１１０、１１２０、および１１３０に適用でき
る。個人（例えば、ユーザ１１０５および１１０６）は、デバイス１１１０および１１３
０のＬ－ＤＮＮモジュール１０６にそれぞれ知識を教え、この情報をピアツーピアで、ま
たはモジュールＢ１０４を包含するサーバ１１９０上でマージしうる。サーバ１１９０は
、マージした知識を、元のトレーニング１０２０に参加しなかったデバイスを場合により
含む、一部またはすべての接続デバイスにプッシュバックする。

Ｌ－ＤＮＮモジュールは、例えば、ユーザが撮った写真に、画像処理法を適用すること
を学習でき、ユーザは、各Ｌ－ＤＮＮに、写真の態様と関連付けられた一部のカスタマイ
ズされた作用（例えば、これら物体のクラスまたはエリアに、フィルタまたは画像の歪み
を適用する）を教えることができる。組み合わせて学習された作用は、デバイスにわたり
ピアツーピアでもしくはまとめて、共有、マージ、または組み合わされうる。加えて、Ｌ
－ＤＮＮ技術は、入力変数が感覚的または非感覚的でありうる（スマートフォンのすべて
の使用パターン）、スマートフォン使用を普遍化した使用事例に適用できる。入力変数お
よび出力変数の任意の組み合わせでありうる、これらの使用パターンは、スマートフォン
レベルで学習され、中央のＬ－ＤＮＮモジュール１０４へプッシュされ、マージされ、個
々のデバイスへプッシュバックできる。

別の例では、警察官が、Ｌ－ＤＮＮを動かす専門デバイスを使用して、迷子、容疑者、
または疑わしい物体を探すことができる。このような状況では、警官および／または第一
対応者には、時間を無駄にする余裕はない。警官および／または第一対応者に提供される
既存のソリューションでは、カメラからのビデオフィードを、手動で分析し整理する必要
がある。このようなソリューションは、中央サーバを使用して物体を分析および識別する
ため、時間がかかりすぎる。すなわち、このようなソリューションには、ビデオデータを
クラウド／中央サーバで分析する必要があるため、大きな遅延問題がある。これは、デー
タを受信すると即座に行動する必要がしばしばある、第一対応者／警官には深刻な障害と
なりうる。加えて、ビデオデータを連続して中央サーバへ送信することで、通信チャネル
に負担がかかりうる。

代わりに、携帯電話、装着式カメラ、および手持ち式ＬＴＥデバイスのＬ－ＤＮＮを使
用することによって、データをエッジ自体で学習し分析できる。消費者は、その場で自身
のデバイスをカスタマイズすることを学習でき、警官／第一対応者は、人／物体の場所を
探して提供するだけでなく、警官が能動的に見ていないかもしれない、関心対象の人／物
体を所々で探して識別もできる。Ｌ－ＤＮＮは、リモートサーバ上でオペレータから学習
する代わりに、現場のデバイス上で警官から学習するように高速学習モードを利用して、
集中型学習と関連付けられる遅延問題を低減または排除できる。

図１は、消費者が、電話を場面に向け、全体の場面または場面の部分（物体、例えば、
空、水といった場面の一部分など）をラベル付けするとき、画像の中の構成要素をラベル
付けするための、携帯電話のＬ－ＤＮＮの動作を示しうる。加えて、警察官は、ビデオフ
レームにアクセスして、疑わしい人／物体を識別できる。携帯電話がビデオフレーム１０
０を取得すると、モジュールＡ１０２は、事前にトレーニングされたデータに基づいて、
これらのフレームから画像の特徴を抽出できる。モジュールＢ１０４はその後、これらの
特徴を使用して、各物体に可能性の高いラベルを提供できる。例えば、人物Ａが近所Ｂに
住み、過去に近所Ｂで観察されていた場合、人物Ａは、近所Ｂの「住民」としてラベル付
けされてもよい。したがって、高速学習サブシステムは、早ければ学習の第一フレーム後
即座に、家、木など、既に学習した物体の相対位置および特徴を判定するように、一試行
の学習を利用できる。より重要なことは、中央サーバ１１０上のディスパッチャによって
、サーバ側のＬ－ＤＮＮに見出すべき新しい物体を導入することができ、新しい物体は、
必要に応じて混合され、現地の第一対応者へ分配されるだろう。

この使用事例は、前の使用事例に非常に類似しているが、古い物体を忘れることなく、
新しい物体を迅速に学習する、Ｌ－ＤＮＮの能力をより活用している。調査および在庫収
集中は、大抵ほとんど時間的制約がなく、メモリを低速学習モードで集約できる一方、第
一対応者の場合、エリア中の全デバイスが、容疑者または行方不明の子供を探し始めるこ
とができるように、できるだけ速く複数のデバイスからの知識を集約し混合することが重
要でありうる。したがって、一人の第一対応者により導かれる新しい物体を、迅速に学習
し、ほぼ瞬時にサーバ上で集約し、エリア中のすべての第一対応者へ分配するＬ－ＤＮＮ
の能力は、この使用事例にとってとてつもなく大きな利点となる。

従来のＤＮＮとデータセンターのＬ－ＤＮＮとの取り替え
本明細書に記載するＬ－ＤＮＮ技術は、図１２に示すように、個々の計算ノードまたは
大きなデータセンターのサーバ１２００において、ＤＮＮプロセスの計算時間を低減する
道具として適用できる。Ｌ－ＤＮＮ技術によって、ＤＮＮにおける学習が桁違いに速くな
る。この特徴を使用して、劇的にサーバ上での計算資源の必要性を減少させるか、または
計算資源の消費を削減でき、情報は、大抵数時間／数日／数週間のトレーニング時間を必
要とする、大規模なデータセット１００に対して、ほとんど数秒もかからずに学習できる
。Ｌ－ＤＮＮの使用はまた、電力消費を削減し、データセンターのサーバ資源１２００を
全体的により上手く利用することにもなる。

結論
上に記載したように、Ｌ－ＤＮＮによって、オンザフライ（ワンショット）学習をニュ
ーラルネットワークシステムに提供できる。逆に、従来のＤＮＮはしばしば、新しい物体
を学習するのに、数千回または数百万回の繰り返しサイクルを必要とする。繰り返しサイ
クル当たりのステップサイズが大きくなるほど、損失関数の勾配が、実際の性能向上につ
ながりうる可能性が低くなる。故に、これら従来のＤＮＮは、トレーニングサンプルごと
に、重みに小さな変更をもたらす。これによって、新しい知識をオンザフライで追加する
のが非常に困難になる。対照的に、高速学習ニューラルネットワークを伴うＬ－ＤＮＮで
は、ほとんどトレーニング例がなくても、安定した物体表現を学習できる。一部の例では
、たった一つのトレーニング例でも、Ｌ－ＤＮＮに十分でありうる。

Ｌ－ＤＮＮは、従来のＤＮＮに加えて、高速トレーニングニューラルネットワークを使
用するため、従来のＤＮＮを悩ます「致命的忘却」に耐性がある。致命的忘却では、新し
い入力がＤＮＮへ提供されると、ＤＮＮのすべての重みがサンプル提示ごとに調整されて
、新しい入力を学習すると、ＤＮＮに古い入力の分類方法を「忘れ」させる。致命的忘却
は、新しい入力を含め、入力の完全なセットを単純に再学習することによって避けること
ができるが、再学習は時間がかかりすぎて実践的ではない。一部の既存のアプローチは、
重みの重要性に基づいて選択的に重みを制限するか、ＤＮＮのサブネットワークをトレー
ニングするか、または致命的忘却を避けるようにモジュール式のアプローチを使用するか
のいずれかである。しかしながら、このようなアプローチは、低速であるだけでなく、Ｄ
ＮＮをトレーニングする複数回の繰り返しサイクルも必要とする。対照的に、Ｌ－ＤＮＮ
によって、再トレーニングなしで、高速で安定的な学習能力を実現する手段を提供する。
またＬ－ＤＮＮによって、単一の例でおよび／または単一回の繰り返しサイクルで物体表
現の安定的学習も促進する。

本明細書において様々な発明の実施形態を記載し、例示してきたが、当業者は、本明細
書に記載の機能を実施し、ならびに／または結果および一つ以上の利点を得るための、様
々な他の手段および／または構造を容易に想定し、かかる変形および／または変更の各々
は、本明細書に記載の発明に関する実施形態の範囲内であるとみなされる。より一般的に
は、当業者は、本明細書に記載するすべてのパラメータ、寸法、材料、および構成が例示
を意味し、実際のパラメータ、寸法、材料、および／または構成が、本発明の教示が使用
される特定の一つまたは複数の用途に依存することを容易に理解するだろう。当業者は、
本明細書に記載する特定の発明に関する実施形態の多くの同等物を認識し、またはただ通
常の実験を用いて確認することができる。したがって、前述の実施形態は、例としてのみ
提示され、添付した特許請求の範囲およびその同等物の範囲内であり、発明の実施形態が
、具体的に記載し請求する以外の形でも実践されうることを理解されたい。本開示の発明
に関する実施形態は、本明細書に記載する個々の特徴、システム、物品、材料、キット、
および／または方法を対象とする。加えて、二つ以上のこのような特徴、システム、物品
、材料、キット、および／または方法の任意の組み合わせは、このような特徴、システム
、物品、材料、キット、および／または方法が相互に矛盾しない場合、本開示の本発明の
範囲内に含まれる。

上に記載した実施形態は、多数の手段のいずれかで実施できる。例えば、実施形態は、
ハードウェア、ソフトウェア、またはそれらの組み合わせを使用して実施されてもよい。
ソフトウェアに実装される場合、ソフトウェアコードは、単一のコンピュータに提供され
るか、複数のコンピュータ間に分散するかにかかわらず、任意の適切なプロセッサまたは
プロセッサの集合で実行され得る。

さらに、コンピュータが、ラック搭載型コンピュータ、デスクトップ型コンピュータ、
ラップトップ型コンピュータ、またはタブレット型コンピュータなど、多数の形態のいず
れかで具現化されうることは理解されるべきである。加えて、コンピュータは、概してコ
ンピュータとみなされるデバイスではなく、パーソナルデジタルアシスタント（ＰＤＡ）
、スマートフォン、またはいかなる他の適切な携帯型もしくは固定電子デバイスを含む、
適切な処理能力を持つデバイスの中に埋め込まれてもよい。

また、コンピュータは一つ以上の入力および出力デバイスを有しうる。これらのデバイ
スは、とりわけ、ユーザインターフェースを提示するために使用できる。ユーザインター
フェースを提供するために使用できる出力デバイスの例には、プリンタまたは出力の視覚
的表現のためのディスプレイ画面、およびスピーカーまたは出力の可聴表現のための他の
音声発生デバイスが挙げられる。ユーザインターフェースに使用できる入力デバイスの例
には、キーボード、ならびにマウス、タッチパッド、およびデジタイザタブレットなどの
ポインティングデバイスが含まれる。別の例として、コンピュータは、音声認識によって
または他の可聴フォーマットで、入力情報を受信してもよい。

このようなコンピュータは、ローカルエリアネットワーク、またはエンタープライズネ
ットワークなどの広域ネットワーク、およびインテリジェントネットワーク（ＩＮ）また
はインターネットを含む、任意の適切な形態の一つ以上のネットワークによって相互接続
されてもよい。このようなネットワークは、任意の適切な技術に基づいてもよく、任意の
適切なプロトコルに従って動作してもよく、無線ネットワーク、有線ネットワーク、また
は光ファイバーネットワークを含んでもよい。

本明細書に概説する様々な方法またはプロセスは、様々なオペレーティングシステムま
たはプラットフォームのうちのいずれか一つを用いる、一つ以上のプロセッサ上で実行可
能なソフトウェアとしてコード化されてもよい。加えて、このようなソフトウェアは、多
数の適切なプログラミング言語および／またはプログラミングもしくはスクリプトツール
のいずれかを使用して記述されてもよく、またフレームワークもしくは仮想マシン上で実
行される、実行可能なマシン語コードまたは中間コードとしてコンパイルされてもよい。

また、様々な発明の概念が、一つ以上の方法として具現化されてもよく、その例を提供
してきた。方法の一部として行われる行為は、任意の適切な手段で順序付けられうる。し
たがって、行為が例示するものとは異なる順序で行われる実施形態を構築してもよく、そ
れは、例示的実施形態に連続する行為として示す場合であっても、一部の行為を同時に行
うことを含みうる。

本明細書で言及するすべての出版物、特許出願、特許、および他の参考文献は、参照に
よりそれらの全体が組み込まれる。

本明細書で定義および使用するすべての定義は、辞書定義、参照により組み込まれる文
書の定義、および／または定義された用語の通常の意味を統制するものと理解されるべき
である。

本明細書および特許請求の範囲で使用する場合、不定冠詞「ａ」および「ａｎ」は、明
確にそうでないと示されない限り、「少なくとも一つ」を意味すると理解されるべきであ
る。

本明細書および特許請求の範囲で使用する場合、「および／または」という語句は、結
合された要素の「いずれかまたは両方」を意味し、すなわち、一部の場合には接続的に存
在し、他の場合には離接的に存在する要素を意味すると理解されるべきである。「および
／または」で挙げられる複数の要素は、同じ形式、すなわち、等位接続される要素のうち
の「一つ以上」と解釈されるべきである。他の要素は、具体的に識別される要素に関連す
るかまたは関連しないかにかかわらず、「および／または」節によって具体的に識別され
る要素以外に、随意に存在してもよい。したがって、非限定的な例として、「Ａおよび／
またはＢ」への言及は、「備える」などの制限のない語法と連動して使われるときに、一
実施形態においては、Ａのみ（任意選択的にＢ以外の要素を含む）、別の実施形態では、
Ｂのみ（任意選択的にＡ以外の要素を含む）、さらに別の実施形態では、ＡとＢと両方（
任意選択的に他の要素を含む）などを指すことができる。

本明細書および特許請求の範囲において使用する場合、「または」は、上で定義した「
および／または」と同じ意味を有すると理解されるべきである。例えば、リスト内の項目
を分離するとき、「または」または「および／または」は包括的なもの、すなわち、多数
の要素のまたは要素のリスト、および随意にリストに無い追加の項目のうちの少なくとも
一つを含むが、二つ以上も含むと解釈されるものとする。それとは反対であると明確に指
示した用語のみ、例えば、「のうちの一つのみ」もしくは「のうちの正確に一つ」、また
は特許請求の範囲において使用するときの「から成る」は、多数の要素またはリストの要
素のうちの正確に一つの要素の包含を指す。概して、本明細書で使用する場合、「または
」という用語は、「いずれか」、「のうちの一つ」、「のうちの一つのみ」、または「の
うちの正確に一つ」など、排他性の用語が先行するときには、排他的な選択肢（すなわち
「両方ともでなくどちらか一方」）を示すとのみ解釈されるものとする。「から基本的に
成る」は、特許請求の範囲で使用する場合、特許法の分野において使用される通常の意味
を有するものとする。

本明細書および特許請求の範囲で使用される場合、一つ以上の要素のリストに関連する
「少なくとも一つ」という語句は、要素のリストの中の要素のいずれか一つ以上から選択
される、少なくとも一つの要素を意味するが、要素のリスト内で具体的に列挙したありと
あらゆる要素の少なくとも一つを必ずしも含むわけではなく、要素のリストのいかなる要
素の組み合せも除外するものではない、と理解されるべきである。この定義はまた、「少
なくとも一つ」という語句が指す、要素のリスト内で具体的に識別される以外の要素が、
具体的に識別される要素に関連があるか関連が無いかにかかわらず、任意に存在しうるこ
とを許容する。したがって、非限定的な例として、「ＡおよびＢのうち少なくとも一つ」
（または、等価的に、「ＡまたはＢのうちの少なくとも一つ」、もしくは、等価的に「Ａ
および／またはＢのうちの少なくとも一つ」）は、一実施形態においては、Ｂは存在せず
、少なくとも一つの、任意選択的には二つ以上を含むＡ（任意選択的にＢ以外の要素を含
む）、別の実施形態においては、Ａは存在せず、少なくとも一つの、任意選択的には二つ
以上を含むＢ（任意選択的にＡ以外の要素を含む）、また別の実施形態においては、少な
くとも一つの、任意選択的には二つ以上を含むＡ、および少なくとも一つの、任意選択的
には二つ以上を含むＢ（任意選択的に他の要素を含む）などを指すことができる。

特許請求の範囲、ならびに上記の明細書で、すべての移行句、例えば、「備える（ｃｏ
ｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「持つ（ｃａｒｒｙｉｎｇ）
」、「有する（ｈａｖｉｎｇ）」、「包含する（ｃｏｎｔａｉｎｉｎｇ）」、「伴う（ｉ
ｎｖｏｌｖｉｎｇ）」、「保つ（ｈｏｌｄｉｎｇ）」、「から構成される（ｃｏｍｐｏｓ
ｅｄｏｆ）」、および類似のものは制限がないと理解され、すなわち、含むがそれに限
定はされないということを意味する。「から成る（ｃｏｎｓｉｓｔｉｎｇｏｆ）」およ
び「から基本的に成る（ｃｏｎｓｉｓｔｉｎｇｅｓｓｅｎｔｉａｌｌｙｏｆ）」とい
う移行句のみが、米国特許局の特許審査手続便覧、セクション２１１１．０３に記載され
ている、それぞれ閉鎖的または半閉鎖的な移行句であるものとする。

特許請求の範囲、ならびに上記の明細書で、すべての移行句、例えば、「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「持つ（ｃａｒｒｙｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「包含する（ｃｏｎｔａｉｎｉｎｇ）」、「伴う（ｉｎｖｏｌｖｉｎｇ）」、「保つ（ｈｏｌｄｉｎｇ）」、「から構成される（ｃｏｍｐｏｓｅｄｏｆ）」、および類似のものは制限がないと理解され、すなわち、含むがそれに限定はされないということを意味する。「から成る（ｃｏｎｓｉｓｔｉｎｇｏｆ）」および「から基本的に成る（ｃｏｎｓｉｓｔｉｎｇｅｓｓｅｎｔｉａｌｌｙｏｆ）」という移行句のみが、米国特許局の特許審査手続便覧、セクション２１１１．０３に記載されている、それぞれ閉鎖的または半閉鎖的な移行句であるものとする。
なお、親出願の出願当初の特許請求の範囲の記載は以下の通りである。
請求項１：
環境の中の物体を分析する方法であって、
センサによって、前記環境の中の前記物体を表すデータストリームを収集することと、
前記センサへ動作可能に連結するプロセッサ上で動くニューラルネットワークによって、前記データストリームから畳み込み出力を抽出することであって、前記畳み込み出力は、前記物体の特徴を表す、ことと、
前記ニューラルネットワークへ動作可能に連結する分類器によって、前記畳み込み出力に基づいて前記物体を分類することと、を含む、方法。
請求項２：
前記センサは画像センサであり、前記データストリームは画像を含む、請求項１に記載の方法。
請求項３：
前記特徴のセットを抽出することは、
前記第一画像の複数のセグメント化サブエリアを生成することと、
前記ニューラルネットワークによって、前記複数のセグメント化サブエリアの各々をコード化することと、を含む、請求項２に記載の方法。
請求項４：
前記特徴セットを抽出することは、
ユーザが、前記データストリームの中で関心のある部分を選択することが可能になることと、
前記ユーザが、前記関心のある部分を複数のセグメントに分割することが可能になることと、
前記ニューラルネットワークによって、前記複数のセグメントの各々をコード化することと、を含む、請求項１に記載の方法。
請求項５：
前記センサは、ライダー、レーダー、または音響センサのうちの少なくとも一つであり、前記データストリームは、ライダーデータ、レーダーデータ、または音響データのうちの対応する一つを含む、請求項１に記載の方法。
請求項６：
環境のデータストリームを収集するセンサであって、前記データストリームは、前記環境の中の物体を表す、センサと、
前記画像センサへ動作可能に連結する少なくとも一つのプロセッサであって、（ｉ）前記物体の前記特徴を表す畳み込み出力を、前記データストリームから抽出するように、ニューラルネットワークを、および（ｉｉ）前記畳み込み出力に基づいて前記物体を分類する分類器を実行する、少なくとも一つのプロセッサと、を備える、装置。
請求項７：
前記センサは、画像センサ、ライダー、レーダー、または音響センサのうちの少なくとも一つを備える、請求項６に記載の装置。
請求項８：
前記ニューラルネットワークは、ディープニューラルネットワーク（ＤＮＮ）を含む、請求項６に記載の装置。
請求項９：
前記ニューラルネットワークは、適応共鳴理論（ＡＲＴ）ネットワークを含む、請求項６に記載の装置。
請求項１０：
リアルタイムに動作する機械に、生涯学習ディープニューラルネットワーク（Ｌ－ＤＮＮ）を実装する方法であって、
前記Ｌ－ＤＮＮによって、（ｉ）センサによる、前記リアルタイムに動作する機械の環境の観察、および（ｉｉ）前記Ｌ－ＤＮＮの予め判定された重みに基づいて、前記リアルタイムに動作する機械に対する第一作用を予測することと、
前記Ｌ－ＤＮＮによって、前記観察に基づいて、前記リアルタイムに動作する機械に関する予想と認知との間の不一致を判定することと、
前記不一致に応じて、前記Ｌ－ＤＮＮによって高速学習モードをトリガすることであって、前記高速学習モードは、前記Ｌ－ＤＮＮの前記予め判定された重みを変更することなく、前記観察に基づいて修正される予想を生成する、ことと、を含む、方法。
請求項１１：
前記リアルタイムに動作する機械がオフラインであると判定することと、
前記リアルタイムに動作する機械がオフラインであるとの判定に応じて、低速学習モードをトリガすることであって、前記低速学習モードは、前記観察に基づいて前記Ｌ－ＤＮＮの前記予め判定された重みを修正する、ことと、をさらに含む、請求項１０に記載の方法。
請求項１２：
複数のリアルタイムに動作する機械の間で知識を抽出し、集約し、共有する方法であって、前記複数のリアルタイムに動作する機械の中の各リアルタイムに動作する機械は、重み行列のそれぞれのコピーと共にニューラルネットワークを実装し、
前記複数のリアルタイムに動作する機械の中の第一のリアルタイムに動作する機械の高速学習サブシステムで、少なくとも一つの新しい物体を学習することと、
通信チャネルを介して、前記第一のリアルタイムに動作する機械からサーバへ、前記少なくとも一つの新しい物体の表現を伝送することと、
前記中央サーバにて、前記第一のリアルタイムに動作する機械からの前記少なくとも一つの新しい物体の前記表現に少なくとも一部基づいて、更新された重み行列を形成することと、
前記サーバから、前記複数のリアルタイムに動作する機械の中の少なくとも一つの第二のリアルタイムに動作する機械へ、前記更新された重み行列のコピーを伝送することと、を含む、方法。
請求項１３：
前記新しい物体を学習することは、
前記第一のリアルタイムに動作する機械の前記高速学習サブシステムへ動作可能に連結する画像センサで、前記少なくとも一つの新しい物体の画像を取得することと、
前記第一のリアルタイムに動作する機械の前記高速学習サブシステムで、前記少なくとも一つの新しい物体の前記画像を処理することと、を含む、請求項１２に記載の方法。
請求項１４：
前記ニューラルネットワークは、適応共鳴理論（ＡＲＴ）ニューラルネットワークを含み、
前記ＡＲＴニューラルネットワークで、前記少なくとも一つの新しい物体の前記表現を生成することをさらに含む、請求項１２に記載の方法。
請求項１５：
前記少なくとも一つの新しい物体の前記表現は、重みベクトルを含み、
前記少なくとも一つの新しい物体の前記表現のメモリフットプリントを減少させるように、前記第一のリアルタイムに動作する機械によって使用される前記重み行列の前記コピーと、前記重みベクトルを集約することをさらに含む、請求項１４に記載の方法。
請求項１６：
前記新しい物体の前記表現を、少なくとも一つの予め知っている物体の表現と集約することをさらに含む、請求項１２に記載の方法。
請求項１７：
前記少なくとも一つの新しい物体の前記表現を伝送することは、
前記少なくとも一つの新しい物体の前記表現を、前記複数のリアルタイムに動作する機械の中の第二のリアルタイムに動作する機械によって、前記サーバへ伝送することを含む、請求項１２に記載の方法。
請求項１８：
前記更新された重み行列を形成することは、
前記少なくとも一つの新しい物体の前記表現を、前記複数のリアルタイムに動作する機械の中の、少なくとも一つの他のリアルタイムに動作する機械からの、少なくとも一つの他の新しい物体の表現と混合することを含む、請求項１２に記載の方法。
請求項１９：
複数のカテゴリの中で物体を認識するようにトレーニングされたニューラルネットワークで、物体を分類する方法であって、
前記ニューラルネットワークに物体を提示することと、
前記ニューラルネットワークによって、複数の信頼水準を判定することであって、前記複数の信頼水準の中の各信頼水準は、前記物体が前記複数のカテゴリの中の対応するカテゴリに該当する可能性を表す、ことと、
前記複数の信頼水準と閾値との比較を行うことと、
前記比較に基づいて、前記物体が前記複数のカテゴリのいずれにも該当しないと判定することと、を含む、方法。
請求項２０：
前記比較を行うことは、
前記複数の信頼水準の中の信頼水準には、前記閾値を超えるものがないと判定することを含む、請求項１９に記載の方法。
請求項２１：
前記閾値を、前記複数の信頼水準の平均よりも大きく設定することをさらに含む、請求項１９に記載の方法。

Claims

環境の中の物体を分析する方法であって、
センサによって、前記環境の中の前記物体を表すデータストリームを収集することと、
前記センサへ動作可能に連結するプロセッサ上で動くニューラルネットワークによって
、前記データストリームから畳み込み出力を抽出することであって、前記畳み込み出力は
、前記物体の特徴を表す、ことと、
前記ニューラルネットワークへ動作可能に連結する分類器によって、前記畳み込み出力
に基づいて前記物体を分類することと、を含む、方法。
前記センサは画像センサであり、前記データストリームは画像を含む、請求項１に記載
の方法。
前記特徴のセットを抽出することは、
前記第一画像の複数のセグメント化サブエリアを生成することと、
前記ニューラルネットワークによって、前記複数のセグメント化サブエリアの各々をコ
ード化することと、を含む、請求項２に記載の方法。
前記特徴セットを抽出することは、
ユーザが、前記データストリームの中で関心のある部分を選択することが可能になるこ
とと、
前記ユーザが、前記関心のある部分を複数のセグメントに分割することが可能になるこ
とと、
前記ニューラルネットワークによって、前記複数のセグメントの各々をコード化するこ
とと、を含む、請求項１に記載の方法。
前記センサは、ライダー、レーダー、または音響センサのうちの少なくとも一つであり
、前記データストリームは、ライダーデータ、レーダーデータ、または音響データのうち
の対応する一つを含む、請求項１に記載の方法。
環境のデータストリームを収集するセンサであって、前記データストリームは、前記環
境の中の物体を表す、センサと、
前記画像センサへ動作可能に連結する少なくとも一つのプロセッサであって、（ｉ）前
記物体の前記特徴を表す畳み込み出力を、前記データストリームから抽出するように、ニ
ューラルネットワークを、および（ｉｉ）前記畳み込み出力に基づいて前記物体を分類す
る分類器を実行する、少なくとも一つのプロセッサと、を備える、装置。
前記センサは、画像センサ、ライダー、レーダー、または音響センサのうちの少なくと
も一つを備える、請求項６に記載の装置。
前記ニューラルネットワークは、ディープニューラルネットワーク（ＤＮＮ）を含む、
請求項６に記載の装置。
前記ニューラルネットワークは、適応共鳴理論（ＡＲＴ）ネットワークを含む、請求項
６に記載の装置。
リアルタイムに動作する機械に、生涯学習ディープニューラルネットワーク（Ｌ－ＤＮ
Ｎ）を実装する方法であって、
前記Ｌ－ＤＮＮによって、（ｉ）センサによる、前記リアルタイムに動作する機械の環
境の観察、および（ｉｉ）前記Ｌ－ＤＮＮの予め判定された重みに基づいて、前記リアル
タイムに動作する機械に対する第一作用を予測することと、
前記Ｌ－ＤＮＮによって、前記観察に基づいて、前記リアルタイムに動作する機械に関
する予想と認知との間の不一致を判定することと、
前記不一致に応じて、前記Ｌ－ＤＮＮによって高速学習モードをトリガすることであっ
て、前記高速学習モードは、前記Ｌ－ＤＮＮの前記予め判定された重みを変更することな
く、前記観察に基づいて修正される予想を生成する、ことと、を含む、方法。
前記リアルタイムに動作する機械がオフラインであると判定することと、
前記リアルタイムに動作する機械がオフラインであるとの判定に応じて、低速学習モー
ドをトリガすることであって、前記低速学習モードは、前記観察に基づいて前記Ｌ－ＤＮ
Ｎの前記予め判定された重みを修正する、ことと、をさらに含む、請求項１０に記載の方
法。
複数のリアルタイムに動作する機械の間で知識を抽出し、集約し、共有する方法であっ
て、前記複数のリアルタイムに動作する機械の中の各リアルタイムに動作する機械は、重
み行列のそれぞれのコピーと共にニューラルネットワークを実装し、
前記複数のリアルタイムに動作する機械の中の第一のリアルタイムに動作する機械の高
速学習サブシステムで、少なくとも一つの新しい物体を学習することと、
通信チャネルを介して、前記第一のリアルタイムに動作する機械からサーバへ、前記少
なくとも一つの新しい物体の表現を伝送することと、
前記中央サーバにて、前記第一のリアルタイムに動作する機械からの前記少なくとも一
つの新しい物体の前記表現に少なくとも一部基づいて、更新された重み行列を形成するこ
とと、
前記サーバから、前記複数のリアルタイムに動作する機械の中の少なくとも一つの第二
のリアルタイムに動作する機械へ、前記更新された重み行列のコピーを伝送することと、
を含む、方法。
前記新しい物体を学習することは、
前記第一のリアルタイムに動作する機械の前記高速学習サブシステムへ動作可能に連結
する画像センサで、前記少なくとも一つの新しい物体の画像を取得することと、
前記第一のリアルタイムに動作する機械の前記高速学習サブシステムで、前記少なくと
も一つの新しい物体の前記画像を処理することと、を含む、請求項１２に記載の方法。
前記ニューラルネットワークは、適応共鳴理論（ＡＲＴ）ニューラルネットワークを含
み、
前記ＡＲＴニューラルネットワークで、前記少なくとも一つの新しい物体の前記表現を
生成することをさらに含む、請求項１２に記載の方法。
前記少なくとも一つの新しい物体の前記表現は、重みベクトルを含み、
前記少なくとも一つの新しい物体の前記表現のメモリフットプリントを減少させるよう
に、前記第一のリアルタイムに動作する機械によって使用される前記重み行列の前記コピ
ーと、前記重みベクトルを集約することをさらに含む、請求項１４に記載の方法。
前記新しい物体の前記表現を、少なくとも一つの予め知っている物体の表現と集約する
ことをさらに含む、請求項１２に記載の方法。
前記少なくとも一つの新しい物体の前記表現を伝送することは、
前記少なくとも一つの新しい物体の前記表現を、前記複数のリアルタイムに動作する機
械の中の第二のリアルタイムに動作する機械によって、前記サーバへ伝送することを含む
、請求項１２に記載の方法。
前記更新された重み行列を形成することは、
前記少なくとも一つの新しい物体の前記表現を、前記複数のリアルタイムに動作する機
械の中の、少なくとも一つの他のリアルタイムに動作する機械からの、少なくとも一つの
他の新しい物体の表現と混合することを含む、請求項１２に記載の方法。
複数のカテゴリの中で物体を認識するようにトレーニングされたニューラルネットワー
クで、物体を分類する方法であって、
前記ニューラルネットワークに物体を提示することと、
前記ニューラルネットワークによって、複数の信頼水準を判定することであって、前記
複数の信頼水準の中の各信頼水準は、前記物体が前記複数のカテゴリの中の対応するカテ
ゴリに該当する可能性を表す、ことと、
前記複数の信頼水準と閾値との比較を行うことと、
前記比較に基づいて、前記物体が前記複数のカテゴリのいずれにも該当しないと判定す
ることと、を含む、方法。
前記比較を行うことは、
前記複数の信頼水準の中の信頼水準には、前記閾値を超えるものがないと判定すること
を含む、請求項１９に記載の方法。
前記閾値を、前記複数の信頼水準の平均よりも大きく設定することをさらに含む、請求
項１９に記載の方法。