JP6869948B2

JP6869948B2 - ニューラルネットワークにおける転移学習

Info

Publication number: JP6869948B2
Application number: JP2018502806A
Authority: JP
Inventors: ウィールジンスキー、カシミール・マシュー
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-07-22
Filing date: 2016-06-27
Publication date: 2021-05-12
Anticipated expiration: 2036-06-27
Also published as: CN107851213A; EP3326116A2; WO2017052709A3; KR20180034395A; US20170024641A1; BR112018001230A2; EP3869415A1; WO2017052709A2; KR102806514B1; CN107851213B; JP2018525734A; US10878320B2

Description

関連出願への相互参照

[0001]本願は、２０１５年７月２２日に出願された「ニューラルネットワークにおける転移学習（TRANSFER LEARNING IN NEURAL NETWORKS）」と題する米国仮特許出願第６２／１９５，７６３号の利益を米国特許法第１１９条（ｅ）項に基づいて主張し、その開示は、その全体が参照により本明細書に明確に組み込まれる。

[0002]本開示のある特定の態様は、一般に機械学習に関し、さらに詳細には、ニューラルネットワークにおける転移学習のためのシステムおよび方法を改善することに関する。

[0003]相互結合された人工ニューロン（例えば、ニューロンモデル）のグループを備え得る人工ニューラルネットワークは、計算デバイスであるか、または計算デバイスによって実行される方法を表す。

[0004]畳み込みニューラルネットワークは、フィードフォワード（feed-forward）人工ニューラルネットワークのタイプである。畳み込みニューラルネットワークは、各々が受容野を有し、かつ入力空間を集合的にタイリングする（collectively tile）ニューロンの集合を含み得る。畳み込みニューラルネットワーク（ＣＮＮ：convolutional neural networks）は、多数のアプリケーションを有する。特に、ＣＮＮは、パターン認識および分類（classification）の分野において幅広く使用されてきた。

[0005]ディープビリーフネットワーク（deep belief networks）およびディープ畳み込みネットワークのような、ディープラーニングアーキテクチャ（deep learning architectures）は、第１の層のニューロンの出力が第２の層のニューロンへの入力となり、第２の層のニューロンの出力が第３の層のニューロンへの入力となるというような、層状のニューラルネットワークアーキテクチャ（layered neural networks architectures）である。ディープニューラルネットワークは、特徴の階層（hierarchy of features）を認識するようにトレーニングされ得、したがって、それらは、オブジェクト認識アプリケーションにおいてますます使用されている。畳み込みニューラルネットワークと同様に、これらのディープラーニングアーキテクチャにおける計算は、処理ノードの集団（population）にわたって分散され得、これは、１つまたは複数の計算チェーンにおいて構成され得る。これらの多層型アーキテクチャは、一度に１層ずつトレーニングされ得、バックプロパゲーション（back propagation）を使用して微調整（fine-tuned）され得る。

[0006]他のモデルもまた、オブジェクト認識のために利用可能である。例えば、サポートベクターマシン（ＳＶＭ：support vector machines）は、分類に適用されることができる学習ツールである。サポートベクターマシンは、データをカテゴリ化する（categorizes）分離超平面（例えば、決定境界）を含む。超平面は、教師あり学習（supervised learning）によって定義される。所望の超平面は、トレーニングデータのマージンを増大させる。言い換えれば、超平面は、トレーニング例との最大の最小距離（greatest minimum distance）を有するべきである。

[0007]これらの解決策は、多数の（a number of）分類ベンチマークに対して優れた結果を達成するが、それらの計算複雑性は、極めて高くなり得る。加えて、モデルのトレーニングは、困難であり得る。

[0008]本開示の一態様では、転移学習のための方法が開示される。方法は、第２のデータを受信することを含む。方法はまた、第１のネットワークを介して、第２のデータのための第２のラベルを生成することを含む。一構成では、第１のネットワークは、第１のデータのための第１のラベルで予めトレーニングされている（previously trained）。さらに、第２のラベルは、第２のネットワークをトレーニングするために生成される。

[0009]本開示の別の態様が、第２のデータを受信するための手段を含む装置に向けられる。装置はまた、第１のネットワークを介して、第２のデータのための第２のラベルを生成するための手段を含む。一構成では、第１のネットワークは、第１のデータのための第１のラベルで予めトレーニングされている。さらに、第２のラベルは、第２のネットワークをトレーニングするために生成される。

[0010]本開示の別の態様では、転移学習のためのコンピュータプログラム製品が開示される。コンピュータプログラム製品は、非一時的なプログラムコードがその上に記録された非一時的なコンピュータ可読媒体を有する。プログラムコードは、プロセッサによって実行され、第２のデータを受信するためのプログラムコードを含む。プログラムコードはまた、第１のネットワークを介して、第２のデータのための第２のラベルを生成するためのプログラムコードを含む。一構成では、第１のネットワークは、第１のデータのための第１のラベルで予めトレーニングされている。さらに、第２のラベルは、第２のネットワークをトレーニングするために生成される。

[0011]本開示の別の態様は、メモリユニットと、メモリに結合された１つまたは複数のプロセッサとを有する、転移学習のための装置に向けられる。（１つまたは複数の）プロセッサは、第２のデータを受信するように構成される。（１つまたは複数の）プロセッサはまた、第１のネットワークを介して、第２のデータのための第２のラベルを生成するように構成される。一構成では、第１のネットワークは、第１のデータのための第１のラベルで予めトレーニングされている。さらに、第２のラベルは、第２のネットワークをトレーニングするために生成される。

[0012]本開示の一態様では、転移学習のための方法が開示される。方法は、第２のデータを使用して第１のネットワークによって生成された第２のラベルを受信することを含む。一構成では、第１のネットワークは、第１のラベルおよび第１のデータで予めトレーニングされている。方法はまた、第２のラベルおよび第２のデータで第２のネットワークをトレーニングすることを含む。

[0013]本開示の別の態様が、第２のデータを使用して第１のネットワークによって生成された第２のラベルを受信するための手段を含む装置に向けられる。一構成では、第１のネットワークは、第１のラベルおよび第１のデータで予めトレーニングされている。装置はまた、第２のラベルおよび第２のデータで第２のネットワークをトレーニングするための手段を含む。

[0014]本開示の別の態様では、転移学習のためのコンピュータプログラム製品が開示される。コンピュータプログラム製品は、非一時的なプログラムコードがその上に記録された非一時的なコンピュータ可読媒体を有する。プログラムコードは、プロセッサによって実行され、第２のデータを使用して第１のネットワークによって生成された第２のラベルを受信するためのプログラムコードを含む。一構成では、第１のネットワークは、第１のラベルおよび第１のデータで予めトレーニングされている。プログラムコードはまた、第２のラベルおよび第２のデータで第２のネットワークをトレーニングするためのプログラムコードを含む。

[0015]本開示の別の態様は、メモリと、このメモリに結合された１つまたは複数のプロセッサとを有する、転移学習のための装置に向けられる。（１つまたは複数の）プロセッサは、第２のデータを使用して第１のネットワークによって生成された第２のラベルを受信するように構成される。一構成では、第１のネットワークは、第１のラベルおよび第１のデータで予めトレーニングされている。（１つまたは複数の）プロセッサはまた、第２のラベルおよび第２のデータで第２のネットワークをトレーニングするように構成される。

[0016]本開示の追加の特徴および利点が、以下で説明される。本開示が、本開示と同じ目的を実行するための他の構造を修正（modifying）または設計するための基礎として容易に利用され得ることが、当業者によって理解されるべきである。また、そのような等価の構造が、添付された特許請求の範囲に記載の本開示の教示から逸脱しないことも、当業者によって理解されるべきである。さらなる目的および利点と共に、その構成および動作の方法の両方について、本開示の特徴であると考えられる新規の特徴は、添付の図面に関連して考慮されるとき、以下の説明からより良く理解されるであろう。しかしながら、図面の各々は、例示および説明のみの目的で提供されており、本開示の限定の定義として意図されるものではないことが、明確に理解されるべきである。

[0017]本開示の特徴、性質、および利点は、同様の参照符号が全体にわたって同様のものを指す図面と共に考慮されるとき、以下に記載される詳細な説明からより明らかになるであろう。
[0018]図１は、本開示のある特定の態様による、汎用プロセッサを含む、システムオンチップ（ＳＯＣ）を使用してニューラルネットワークを設計する例となるインプリメンテーションを例示する。 [0019]図２は、本開示の態様による、システムの例となるインプリメンテーションを例示する。 [0020]図３Ａは、本開示の態様による、ニューラルネットワークを例示する図である。 [0021]図３Ｂは、本開示の態様による、例示的なディープ畳み込みネットワーク（ＤＣＮ）を例示するブロック図である。 [0022]図４は、本開示の態様による、人工知能（ＡＩ）機能をモジュール化し得る例示的なソフトウェアアーキテクチャを例示するブロック図である。 [0023]図５は、本開示の態様による、スマートフォン上のＡＩアプリケーションのランタイム動作（run-time operation）を例示するブロック図である。 [0024]図６は、本開示の態様による、転移学習に関するフロー図である。 [0025]図７Ａは、本開示の態様による、異なるネットワークの例を例示する。 [0025]図７Ｂは、本開示の態様による、異なるネットワークの例を例示する。 [0025]図７Ｃは、本開示の態様による、異なるネットワークの例を例示する。 [0025]図７Ｄは、本開示の態様による、異なるネットワークの例を例示する。 [0025]図７Ｅは、本開示の態様による、異なるネットワークの例を例示する。 [0026]図８は、本開示の態様による、転移学習のための方法を例示する。 [0026]図９は、本開示の態様による、転移学習のための方法を例示する。

発明の詳細な説明

[0027]添付された図面に関連して以下に記載される詳細な説明は、様々な構成の説明として意図され、ここで説明される概念が実施され得る唯一の構成を表すようには意図されない。詳細な説明は、様々な概念の完全な理解を提供することを目的とした特定の詳細を含む。しかしながら、これらの概念が、これらの特定の詳細なしで実施され得ることは、当業者にとって明らかであろう。いくつかの事例では、周知の構造およびコンポーネントが、このような概念を曖昧にすることを避けるために、ブロック図形式で示される。

[0028]本教示に基づき、当業者は、本開示の範囲が、本開示のその他任意の態様と組み合わされてインプリメントされようと、あるいは独立してインプリメントされようと、本開示の任意の態様をカバーするように意図されていることを理解すべきである。例えば、記載される任意の数の態様を使用して、装置がインプリメントされ得、または方法が実施され得る。加えて、本発明の範囲は、記載される本開示の様々な態様に加えて、またはそれ以外の、他の構造、機能、または構造と機能を使用して実施されるそのような装置または方法をカバーするように意図される。開示される本開示の任意の態様が、請求項の１つまたは複数の要素によって具現化され得ることが理解されるべきである。

[0029]「例示的（exemplary）」という用語は、ここで、「例、事例、または例示を提供する」という意味で使用される。「例示的」であるとしてここで説明される任意の態様は、必ずしも他の態様よりも好ましいまたは有利であるようには解釈されるべきでない。

[0030]特定の態様がここで説明されるが、これらの態様の多くの変形および置換が、本開示の範囲内に含まれる。好ましい態様のいくつかの利益および利点が述べられるが、本開示の範囲は、特定の利益、用途または目的に限定されるようには意図されない。むしろ、本開示の態様は、異なる技術、システム構成、ネットワークおよびプロトコルに広く適用可能であるように意図されており、そのうちのいくつかは、図面および好ましい態様の以下の説明において、例として例示される。詳細な説明および図面は、限定ではなく、本開示の単なる例示であり、本開示の範囲は、添付された特許請求の範囲およびそれらの同等物によって定義されている。

[0031]ニューラルネットワークは、入力からオブジェクトを分類するために、ラベルおよび対応するデータを含むトレーニングセットでトレーニングされ得る。例えば、第１のニューラルネットワークは、異なるタイプの車を識別するために、車のラベル付けされた画像でトレーニングされ得る。いくつかのケースでは、ネットワークがトレーニングされた後に、新しいクラスを追加する、および／または既存のクラスの境界を修正することが望ましくあり得る。依然として、様々な理由から、トレーニングセットは、第１のニューラルネットワークがトレーニングされた後に、もはや利用可能でなくなり得る。したがって、トレーニングセットがもはや利用可能でないので、追加学習（incremental learning）は、ネットワークがトレーニングされた後に、新しいクラスを追加する、および／または既存のクラスの境界を修正するために、ネットワークに対して実行されることができない。

[0032]したがって、第２のニューラルネットワークによる追加学習を可能にするために、第１のニューラルネットワークの学習を第２のニューラルネットワークに転移することが望ましくあり得る。例えば、元のトレーニングセットは、第１のニューラルネットワークをトレーニングした後に利用可能でなくなり得るので、第１のニューラルネットワークは、第１のニューラルネットワークを近似した（approximates）第２のニューラルネットワークをトレーニングするための新しいデータにラベル付けするように指定され得る。その後、第２のニューラルネットワークは、追加学習または他のタスクのために使用され得る。

[0033]図１は、本開示のある特定の態様による、汎用プロセッサ（ＣＰＵ）またはマルチコア汎用プロセッサ（ＣＰＵｓ）１０２を含み得る、システムオンチップ（ＳＯＣ）１００を使用した前述の転移学習の例となるインプリメンテーションを例示する。変数（例えば、ニューラル信号およびシナプス荷重（synaptic weights））、計算デバイスに関連付けられたシステムパラメータ（例えば、重みを有するニューラルネットワーク）、遅延、周波数ビン情報、およびタスク情報が、ニューラル処理ユニット（ＮＰＵ）１０８に関連付けられたメモリブロックに、または専用メモリブロック１１８に記憶され得る。汎用プロセッサ１０２において実行される命令は、ＣＰＵ１０２に関連付けられたプログラムメモリからロードされ得るか、または専用メモリブロック１１８からロードされ得る。ＳＯＣ１００はまた、グラフィックス処理ユニット（ＧＰＵ）１０４、デジタルシグナルプロセッサ（ＤＳＰ）１０６、接続性ブロック１１０、これは、第４世代ロングタームエボリューション（４ＧＬＴＥ（登録商標））接続性、アンライセンスドＷｉ−Ｆｉ接続性、ＵＳＢ接続性、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続性、および同様のものを含み得る、および、例えば、ジェスチャを検出および認識し得るマルチメディアプロセッサ１１２のような、特定の機能に合わせられた（tailored to）追加の処理ブロックを含み得る。ＳＯＣ１００はまた、センサプロセッサ１１４、画像信号プロセッサ（ＩＳＰ）、および／または全地球測位システムを含み得るナビゲーション１２０を含み得る。

[0034]ＳＯＣ１００は、ＡＲＭ命令セットに基づき得る。本開示のある態様では、汎用プロセッサ１０２にロードされる命令は、第２のデータを使用して第１のネットワークによって生成された第２のラベルを受信するためのコードを備え得る。第１のネットワークは、第１のラベルおよび第１のデータで予めトレーニングされたものである。汎用プロセッサ１０２にロードされる命令はまた、第２のラベルおよび第２のデータで第２のネットワークをトレーニングするためのコードを備え得る。

[0035]別の態様では、汎用プロセッサ１０２にロードされる命令は、第２のデータを受信するためのコードと、第１のネットワークを介して、第２のデータのための第２のラベルを生成するためのコードとを備える。第１のネットワークは、第１のデータのための第１のラベルで予めトレーニングされたものである。第２のラベルは、第２のネットワークをトレーニングするために生成される。第２のデータは、ラベル付けされていないことがあり得、またはこのデータは、無視されるラベル（the labels ignored）を用いてラベル付けされ得る。汎用プロセッサ１０２にロードされる命令はまた、第２のラベルおよび第２のデータで第２のネットワークをトレーニングするためのコードを備え得る。

[0036]図２は、本開示のある特定の態様による、システム２００の例となるインプリメンテーションを例示する。図２に例示されるように、システム２００は、ここで説明される方法の様々な動作を実行し得る複数のローカル処理ユニット（local processing units）２０２を有し得る。各ローカル処理ユニット２０２は、ローカル状態メモリ２０４と、ニューラルネットワークのパラメータを記憶し得るローカルパラメータメモリ２０６とを備え得る。加えて、ローカル処理ユニット２０２は、ローカルモデルプログラムを記憶するためのローカル（ニューロン）モデルプログラム（ＬＭＰ）メモリ２０８と、ローカル学習プログラムを記憶するためのローカル学習プログラム（ＬＬＰ）メモリ２１０と、ローカル接続メモリ２１２とを有し得る。さらに、図２に例示されるように、各ローカル処理ユニット２０２は、ローカル処理ユニットのローカルメモリのための構成を提供するための構成プロセッサユニット２１４、およびローカル処理ユニット２０２間のルーティングを提供するルーティング接続処理ユニット２１６とインタフェースし得る。

[0037]ディープラーニングアーキテクチャは、各層において連続的により高度な抽象化レベル（successively higher levels of abstraction）で入力を表現する（represent）ことを学習することによってオブジェクト認識タスクを実行し得、それにより、入力データの有用な特徴表現を構築（building up）する。このようにして、ディープラーニングは、従来の機械学習の主要なボトルネック（major bottleneck）に対処する。ディープラーニングが出現する前は、オブジェクト認識問題に対する機械学習アプローチは、ことによるとシャロー分類器（shallow classifier）との組合せにおいて、人間によって設計された特徴（human engineered features）に依存するところが大きかった。シャロー分類器は、２クラス線形分類器であり得、例えば、そこで、特徴ベクトル成分の加重和（weighted sum）が、どのクラスに入力が属するか予測するためにしきい値と比較され得る。人間によって設計された特徴は、領域の専門知識を有するエンジニアによって、特定の問題領域に合わせられたテンプレートまたはカーネルであり得る。ディープラーニングアーキテクチャは、対照的に、トレーニングを通じてであるが、人間のエンジニアが設計し得るものと同様の特徴を表現することを学習し得る。さらに、ディープネットワークは、人間が考慮することがなかったであろう新しいタイプの特徴を表現および認識することを学習し得る。

[0038]ディープラーニングアーキテクチャは、特徴の階層を学習し得る。例えば、視覚データが提示された場合、第１の層は、入力ストリームにおける、エッジのような、単純な特徴を認識することを学習し得る。聴覚データが提示された場合、第１の層は、特定の周波数におけるスペクトルパワーを認識することを学習し得る。第１の層の出力を入力として受ける第２の層は、視覚データについては単純な形状または聴覚データについては音の組合せのような、特徴の組合せを認識することを学習し得る。上位層は、視覚データにおける複雑な形状または聴覚データにおける単語を表現することを学習し得る。さらに上位の層は、共通の視覚オブジェクトまたは発話フレーズを認識することを学習し得る。

[0039]ディープラーニングアーキテクチャは、自然階層構造を有する問題に適用されるとき、特によく機能し得る。例えば、モーターの付いた乗り物の分類は、車輪、風防ガラス、および他の特徴を認識するための第１の学習から恩恵を受け得る。これらの特徴は、車、トラック、および飛行機を認識するために、異なる方法で上位層において組み合わされ得る。

[0040]ニューラルネットワークは、様々な結合パターン（connectivity patterns）を用いて設計され得る。フィードフォワードネットワークでは、情報は、下位層から上位層へ渡されるとともに、所与の層における各ニューロンが、上位層におけるニューロンに伝達する。階層的な表現が、上記で説明されたように、フィードフォワードネットワークの連続した層において構築され得る。ニューラルネットワークはまた、再帰型（recurrent）結合またはフィードバック（トップダウンとも呼ばれる）結合を有し得る。再帰型結合では、所与の層におけるニューロンからの出力は、同じ層における別のニューロンに伝達される。再帰型アーキテクチャは、時間において展開する（unfold in time）パターンを認識するのに役立ち得る。所与の層におけるニューロンから下位層におけるニューロンへの結合は、フィードバック（またはトップダウン）結合と呼ばれる。多くのフィードバック結合を有するネットワークは、高レベルの概念の認識が、入力の特定の低レベルの特徴を区別することを支援し得るときに役立ち得る。

[0041]図３Ａを参照すると、ニューラルネットワークの層間の結合は、全結合３０２または局所結合３０４であり得る。全結合ネットワーク３０２では、所与の層におけるニューロンは、その出力を次の層における全てのニューロンに伝達し得る。代替として、局所結合されたネットワーク３０４では、所与の層におけるニューロンは、次の層における限られた数のニューロンに結合され得る。畳み込みネットワーク３０６は、局所結合され得、それはさらに、所与の層における各ニューロンに関連付けられた結合強度が共有される特殊なケースである（例えば、３０８）。より一般的には、ネットワークの局所結合された層は、層における各ニューロンが、異なる値を有し得る結合強度を持ってではあるが、同じまたは同様の結合パターンを有するように構成され得る（例えば、３１０、３１２、３１４、および３１６）。局所結合された結合パターンは、所与の領域における上位層のニューロンが、ネットワークへの総入力の制限された部分の特性（properties）にトレーニングを通じて調整される入力を受信し得るので、上位層における空間的に別個の受容野（spatially distinct receptive fields）を生じさせ得る。

[0042]局所結合されたニューラルネットワークは、入力の空間的ロケーションが意味をもつ問題によく適し得る。例えば、車載カメラからの視覚特徴を認識するように設計されたネットワーク３００は、異なる特性を有する上位層のニューロンを、画像の下部対上部（the lower versus the upper portion）とのそれらの関連付けに依存して発達（develop）させ得る。例えば、画像の下部に関連付けられたニューロンは、車線区分線を認識することを学習し得、一方、画像の上部に関連付けられたニューロンは、交通信号、交通標識、および同様のものを認識することを学習し得る。

[0043]ＤＣＮは、教師あり学習を用いてトレーニングされ得る。トレーニング中、ＤＣＮは、速度制限標識のクロップされた画像（cropped image）のような、画像３２６を提示され得、その後、「フォワードパス（forward pass）」が、出力３２８を生成するために計算され得る。出力３２８は、「標識」、「６０」、および「１００」のような特徴に対応する値のベクトルであり得る。ネットワーク設計者は、ＤＣＮが、例えば、トレーニングされたネットワーク３００についての出力３２８において示される「標識」および「６０」に対応するもののような、出力特徴ベクトルにおけるニューロンのうちのいくつかについて、高いスコアを出力することを望み得る。トレーニング前は、ＤＣＮによって生成される出力は、不正確である可能性が高く、したがって、実際の出力とターゲット出力との間で誤差が計算され得る。その後、ＤＣＮの重みは、ＤＣＮの出力スコアがターゲットにより密接に合わせられる（aligned）ように調整され得る。

[0044]重みを適正に調整するために、学習アルゴリズムが、重みについての勾配ベクトルを計算し得る。勾配は、重みがわずかに調整された場合に、誤差が増大または低減するであろう量を示し得る。最上層において、勾配は、最後から２番目の層における活性化されたニューロンと出力層におけるニューロンとを結合する重みの値に直接対応し得る。下位層において、勾配は、重みの値と、上位層の計算された誤差勾配とに依存し得る。その後、重みは、誤差を低減させるように調整され得る。重みを調整するこの方法は、それがニューラルネットワークを通じた「バックワードパス（backward pass）」を伴うので、「バックプロパゲーション」と呼ばれ得る。

[0045]実際には、重みの誤差勾配は、計算された勾配が、真の誤差勾配（true error gradient）を近似するように、少数の例にわたって計算され得る。この近似方法は、確率的勾配降下法（stochastic gradient descent）と呼ばれ得る。確率的勾配降下法は、システム全体の達成可能な誤差率（error rate）の低減が止まるまで、または誤差率がターゲットレベルに達するまで繰り返され得る。

[0046]学習後、ＤＣＮは、新しい画像３２６を提示され得、ネットワークを通じたフォワードパスが、ＤＣＮの推論または予測と見なされ得る出力３２８をもたらし得る。

[0047]ディープビリーフネットワーク（ＤＢＮ）は、隠れノードの複数の層（multiple layers of hidden nodes）を備える確率モデルである。ＤＢＮは、トレーニングデータセットの階層的な表現（hierarchical representation）を抽出するために使用され得る。ＤＢＮは、制限付きボルツマンマシン（ＲＢＭ：restricted Boltzmann machines）の層を積み上げること（stacking up）によって取得され得る。ＲＢＭは、入力のセットにわたる確率分布を学習することができる人工ニューラルネットワークのタイプである。ＲＢＭは、各入力がカテゴリ化されるべきクラスについての情報がない状態で確率分布を学習することができるので、ＲＢＭは、教師なし学習においてしばしば使用される。ハイブリッド教師なしおよび教師ありパラダイムを使用して、ＤＢＮの下方のＲＢＭ（bottom RBM）は、教師なしの方法でトレーニングされ得、かつ特徴抽出器として機能し得、また、上方のＲＢＭ（top RBM）は、（ターゲットクラスおよび前の層からの入力の同時分布（joint distribution）で）教師ありの方法でトレーニングされ得、かつ分類器として機能し得る。

[0048]ディープ畳み込みネットワーク（ＤＣＮ）は、畳み込みネットワークのネットワークであり、追加のプーリング層および正規化層を用いて構成される。ＤＣＮは、多くのタスクについて最先端のパフォーマンスを達成している。ＤＣＮは、入力ターゲットおよび出力ターゲットの両方が、多くのエグゼンプラー（exemplars）について知られており、かつ勾配降下法の使用によってネットワークの重みを修正するために使用される、教師あり学習を使用してトレーニングされることができる。

[0049]ＤＣＮは、フィードフォワードネットワークであり得る。加えて、上記で説明されたように、ＤＣＮの第１の層におけるニューロンから、次の上位層におけるニューロンのグループへの結合は、第１の層におけるニューロンにわたって共有される。ＤＣＮのフィードフォワード結合および共有結合は、高速処理に活用され得る。ＤＣＮの計算負担は、例えば、再帰型結合またはフィードバック結合を備える同様のサイズのニューラルネットワークのそれよりも、はるかに少なくなり得る。

[0050]畳み込みネットワークの各層の処理は、空間的に不変のテンプレートまたは基底射影（basis projection）であると見なされ得る。入力が、最初にカラー画像の赤、緑、および青チャネルのような複数のチャネルに分解される場合には、その入力でトレーニングされた畳み込みネットワークは、画像の軸に沿った２つの空間次元と、色情報をキャプチャする第３の次元とを有する、３次元であると見なされ得る。畳み込み結合の出力は、後続の層３１８、３２０、および３２２において特徴マップを形成すると考えられ得るとともに、特徴マップ（例えば、３２０）の各要素が、複数のチャネルの各々から、および前の層（例えば、３１８）におけるある範囲のニューロン（a range of neurons）から入力を受信する。特徴マップにおける値は、正規化（rectification）、すなわちｍａｘ（０，ｘ）のような、非線形性を用いてさらに処理され得る。隣接するニューロンからの値は、さらにプーリングされ得（３２４）、これは、ダウンサンプリングに対応し、追加の局所不変性および次元削減（dimensionality reduction）を提供し得る。白色化に対応する正規化がまた、特徴マップにおけるニューロン間の側抑制（lateral inhibition）を通じて適用され得る。

[0051]ディープラーニングアーキテクチャのパフォーマンスは、より多くのラベル付けされたデータポイントが利用可能になるにつれて、または計算能力が増大するにつれて増大し得る。現代のディープニューラルネットワークは、わずか１５年前に一般的な研究者に利用可能であったものよりも何千倍も大きいコンピューティングリソースを用いて、日常的に（routinely）トレーニングされる。新しいアーキテクチャおよびトレーニングパラダイムは、ディープラーニングのパフォーマンスをさらに高め得る。整流された線形ユニットは、勾配消失（vanishing gradients）として知られるトレーニング課題を低減し得る。新しいトレーニング技法は、過学習（over-fitting）を低減し、したがって、より大きいモデルがより良い汎化を達成することを可能にし得る。カプセル化技法は、所与の受容野においてデータを抽象化（abstarct）し、全体的なパフォーマンスをさらに高め得る。

[0052]図３Ｂは、例示的なディープ畳み込みネットワーク３５０を例示するブロック図である。ディープ畳み込みネットワーク３５０は、結合性および重みの共有に基づいて、複数の異なるタイプの層を含み得る。図３Ｂに示されるように、例示的なディープ畳み込みネットワーク３５０は、複数の畳み込みブロック（例えば、Ｃ１およびＣ２）を含む。畳み込みブロックの各々は、畳み込み層、正規化層（ＬＮｏｒｍ）、およびプーリング層で構成され得る。畳み込み層は、１つまたは複数の畳み込みフィルタを含み得、これは、特徴マップを生成するために入力データに適用され得る。２つの畳み込みブロックのみが示されているが、本開示はそのように限定するものではなく、代わりに、設計の選好に従って、任意の数の畳み込みブロックがディープ畳み込みネットワーク３５０に含まれ得る。正規化層は、畳み込みフィルタの出力を正規化するために使用され得る。例えば、正規化層は、白色化または側抑制（lateral inhibition）を提供し得る。プーリング層は、局所不変性および次元削減のために、空間にわたってダウンサンプリングアグリゲーションを提供し得る。

[0053]ディープ畳み込みネットワークの、例えば、並列フィルタバンク（parallel filter banks）は、高いパフォーマンスおよび低い電力消費を達成するために、オプションとしてＡＲＭ命令セットに基づいて、ＳＯＣ１００のＣＰＵ１０２またはＧＰＵ１０４上に搭載（loaded on）され得る。代替的な実施形態では、並列フィルタバンクは、ＳＯＣ１００のＤＳＰ１０６またはＩＳＰ１１６上に搭載され得る。加えて、ＤＣＮは、センサ１１４およびナビゲーション１２０に専用の処理ブロックのような、ＳＯＣ上に存在し得る他の処理ブロックにアクセスし得る。

[0054]ディープ畳み込みネットワーク３５０はまた、１つまたは複数の全結合層（例えば、ＦＣ１およびＦＣ２）を含み得る。ディープ畳み込みネットワーク３５０は、ロジスティック回帰（ＬＲ：logistic regression）層をさらに含み得る。ディープ畳み込みネットワーク３５０の各層の間には、更新されるべき重み（図示せず）がある。各層の出力は、第１の畳み込みブロックＣ１において供給された入力データ（例えば、画像、音声、ビデオ、センサデータ、および／または他の入力データ）から階層的な特徴表現を学習するために、ディープ畳み込みネットワーク３５０における後続の層の入力として機能し得る。

[0055]図４は、人工知能（ＡＩ）機能をモジュール化し得る例示的なソフトウェアアーキテクチャ４００を例示するブロック図である。このアーキテクチャを使用して、ＳＯＣ４２０の様々な処理ブロック（例えば、ＣＰＵ４２２、ＤＳＰ４２４、ＧＰＵ４２６および／またはＮＰＵ４２８）に、アプリケーション４０２のランタイム動作中にサポート計算（supporting computations）を実行させ得るアプリケーション４０２が設計され得る。

[0056]ＡＩアプリケーション４０２は、例えば、そこでデバイスが現在動作するロケーションを示すシーンの検出および認識をもたらし（provide for）得る、ユーザ空間４０４において定義された機能を呼び出すように構成され得る。ＡＩアプリケーション４０２は、例えば、認識されたシーンがオフィス、講堂、レストラン、または湖のような屋外環境であるかどうかに依存して異なるように、マイクロフォンおよびカメラを構成し得る。ＡＩアプリケーション４０２は、現在のシーンの推定を提供するために、ＳｃｅｎｅＤｅｔｅｃｔアプリケーションプログラミングインタフェース（ＡＰＩ）４０６において定義されたライブラリに関連付けられた、コンパイルされたプログラムコードへの要求を行い得る。この要求は、例えば、ビデオおよび測位データに基づいてシーン推定を提供するように構成されたディープニューラルネットワークの出力に最終的に依拠し得る。

[0057]ランタイムフレームワーク（Runtime Framework）のコンパイルされたコードであり得るランタイムエンジン４０８が、ＡＩアプリケーション４０２にとってさらにアクセス可能であり得る。ＡＩアプリケーション４０２は、例えば、ランタイムエンジンに、特定の時間間隔における、またはアプリケーションのユーザインタフェースによって検出されたイベントによってトリガされる、シーン推定を要求させ得る。シーンを推定させられたとき、ランタイムエンジンは、順に、ＳＯＣ４２０上で実行中のＬｉｎｕｘ（登録商標）カーネル４１２のような、オペレーティングシステム４１０に信号を送り得る。オペレーティングシステム４１０は、順に、ＣＰＵ４２２、ＤＳＰ４２４、ＧＰＵ４２６、ＮＰＵ４２８、またはこれらの何らかの組合せ上で、計算を実行させ得る。ＣＰＵ４２２は、オペレーティングシステムによって直接アクセスされ得、他の処理ブロックは、ＤＳＰ４２４のための、ＧＰＵ４２６のための、またはＮＰＵ４２８のためのドライバ４１４〜４１８のような、ドライバを通じてアクセスされ得る。例示的な例では、ディープニューラルネットワークは、ＣＰＵ４２２およびＧＰＵ４２６のような、処理ブロックの組合せ上で実行するように構成され得るか、または、存在する場合、ＮＰＵ４２８上で実行され得る。

[0058]図５は、スマートフォン５０２上のＡＩアプリケーションのランタイム動作５００を例示するブロック図である。ＡＩアプリケーションは、画像５０６のフォーマットを変換し、その後、画像５０８をクロップおよび／またはリサイズするように（例えば、ＪＡＶＡ（登録商標）プログラミング言語を使用して）構成され得る前処理モジュール５０４を含み得る。その後、前処理された画像は、視覚入力に基づいてシーンを検出および分類するように（例えば、Ｃプログラミング言語を使用して）構成され得るＳｃｅｎｅＤｅｔｅｃｔバックエンドエンジン５１２を含む分類アプリケーション５１０に通信され得る。ＳｃｅｎｅＤｅｔｅｃｔバックエンドエンジン５１２は、スケーリング５１６およびクロッピング５１８によって、画像をさらに前処理５１４するように構成され得る。例えば、画像は、結果として得られる画像が２２４ピクセル×２２４ピクセルとなるように、スケーリングされ、クロップされ得る。これらの次元（dimensions）は、ニューラルネットワークの入力次元にマッピングし得る。ニューラルネットワークは、ＳＯＣ１００の様々な処理ブロックに、ディープニューラルネットワークを用いて画像ピクセルをさらに処理させるように、ディープニューラルネットワークブロック５２０によって構成され得る。その後、ディープニューラルネットワークの結果は、しきい値処理（thresholded）５２２され、分類アプリケーション５１０内の指数平滑化（exponential smoothing）ブロック５２４を通され得る。その後、平滑化された結果は、スマートフォン５０２の設定および／または表示の変更を生じ得る。

[0059]一構成では、機械学習モデルのようなモデルは、ラベル付けされていない可能性がある第２のデータを受信するために構成される。加えて、このモデルは、第１のネットワークを介して、第２のデータのための第２のラベルを生成するように構成され得る。さらに、第１のネットワークは、第１のデータのための第１のラベルで予めトレーニングされたものであり得る。その上さらに、このモデルは、第２のデータおよび第２のラベルで第２のネットワークをトレーニングするように構成され得る。第１のネットワークおよび第２のネットワークは、同じデバイス上で定義され得るか、または異なるデバイス上で定義され得ることに留意されたい。

[0060]このモデルは、生成する手段および／または受信する手段を含む。一態様では、生成する手段および／または受信する手段は、記載された機能を実行するように構成された、汎用プロセッサ１０２、汎用プロセッサ１０２に関連付けられたプログラムメモリ、メモリブロック１１８、ローカル処理ユニット２０２、およびまたはルーティング接続処理ユニット２１６であり得る。別の構成では、上述された手段は、これら上述された手段によって、記載された機能を実行するように構成された任意のモジュールまたは任意の装置であり得る。

[0061]別の構成では、機械学習モデルのようなモデルは、第２のデータを使用して第１のネットワークによって生成された第２のラベルを受信するために構成される。加えて、このモデルは、第２のラベルおよび第２のデータで第２のネットワークをトレーニングするように構成され得る。さらに、第１のネットワークは、第１のデータのための第１のラベルで予めトレーニングされたものであり得る。第１のネットワークおよび第２のネットワークは、同じデバイス上で定義され得るか、または異なるデバイス上で定義され得ることに留意されたい。

[0062]このモデルは、受信する手段および／またはトレーニングする手段を含む。一態様では、受信する手段および／またはトレーニングする手段は、記載された機能を実行するように構成された、汎用プロセッサ１０２、汎用プロセッサ１０２に関連付けられたプログラムメモリ、メモリブロック１１８、ローカル処理ユニット２０２、およびまたはルーティング接続処理ユニット２１６であり得る。別の構成では、上述された手段は、これら上述された手段によって、記載された機能を実行するように構成された任意のモジュールまたは任意の装置であり得る。

[0063]本開示のある特定の態様によると、各ローカル処理ユニット２０２は、モデルの所望の１つまたは複数の機能的特徴に基づいて、モデルのパラメータを決定することと、決定されたパラメータがさらに適合、調整、および更新されるにつれて、所望の機能的特徴に向けて１つまたは複数の機能的特徴を発展させることと、を行うように構成され得る。

ニューラルネットワークにおける転移学習
[0064]ニューラルネットワークのような、機械学習ネットワークは、画像入力および／または音声入力のような、入力からアイテムを分類するようにトレーニングされ得る。いくつかのケースでは、ニューラルネットワークは、ラベル付けされたデータでバックプロパゲーションを介してトレーニングされる。例えば、バックプロパゲーションは、異なる車モデルを識別するようにニューラルネットワークをトレーニングするために、車のラベル付けされた画像を使用し得る。

[0065]一例では、第１のニューラルネットワークＦが、第１のトレーニングセットＤでトレーニングされ得る。この例では、第１のトレーニングセットＤは、

となるように、データｘおよび対応するラベルｙを含む。したがって、トレーニング後、第１のニューラルネットワークＦは、特定の画像ｘ_ｉについての特定のラベルｙ_ｉを近似し得る

本開示では、トレーニングセット（例えば、ラベルおよびデータ）は、ラベル付けされたデータと呼ばれ得る。さらに、本開示では、トレーニングセットのデータは、画像と呼ばれ得る。

[0066]いくつかのケースでは、第１のトレーニングセットＤのデータｘおよび／またはラベルｙは、第１のニューラルネットワークＦをトレーニングした後に、もはや利用可能でなくなり得る。すなわち、いくつかのケースでは、第１のトレーニングセットＤのデータｘは、ラベルｙが依然として利用可能でありながら、もはや利用可能でなくなり得る。他のケースでは、第１のトレーニングセットＤのラベルｙは、データｘが依然として利用可能でありながら、もはや利用可能でなくなり得る。別の例では、画像ｘおよびラベルｙの両方が利用可能でない。

[0067]一例では、第１のトレーニングセットＤは、ライセンシング制限のような制限により、外部ディストリビューション（external distribution）に利用可能でないことがあり得る。したがって、第１のトレーニングセットＤがもはや利用可能でないので、第１のニューラルネットワークＦは、追加学習を介して更新され得ない。本開示の態様によると、追加学習は、ニューラルネットワークのクラスの既存の境界を修正すること、および／または、ニューラルネットワークに新しいクラスを追加することを指す。

[0068]一構成では、元のトレーニングセットは、追加学習を実行するために、追加のデータおよびラベルを用いて増強され（augmented）得る。すなわち、追加学習については、元のトレーニングセットの分類を忘れることを回避するために、新しいトレーニングセットを用いて元のトレーニングセットを増強することが望ましい。追加学習は、他の追加学習機能もまた企図されるので、クラスを増強すること、または既存のクラスの境界を修正することに限定されない。

[0069]一構成では、第１のトレーニングセットＤが、第１のニューラルネットワークＦをトレーニングした後にもはや利用可能でないとき、第２のニューラルネットワークＦ′が、第１のニューラルネットワークＦを近似するように指定される。具体的には、第１のトレーニングセットＤがもはや利用可能でないとき、第１のニューラルネットワークＦは、第２のラベル

を含まない第２のデータ

に適用され得る。一構成では、第２のデータ

は、第１のトレーニングセットＤの第１のデータｘと実質的に同様または同一（substantially similar or identical）である。代替として、第２のデータ

は、第１のデータｘに関連していないことがあり得る。

[0070]さらに、第２のトレーニングセットＤ′は、第２のデータ

に第１のニューラルネットワークＦを適用した後に生成される。すなわち、トレーニング後、第２のラベル

は、第２のデータ

に関連付けられる。具体的には、トレーニング後、第２のトレーニングセットＤ′は、第２のデータ

および第２のラベル

を含む。より具体的には、第２のデータ

で第１のニューラルネットワークＦをトレーニングした後、

となり、ここで、

である。最後に、第２のトレーニングセットＤ′は、第２のニューラルネットワークＦ′が、特定の画像ｘ_ｉについての特定のラベル

を近似し得る

ように、第２のニューラルネットワークＦ′をトレーニングするために使用され得る。一構成では、第２のニューラルネットワークＦ′は、第１のニューラルネットワークＦと比較して異なるサイズを有する。例えば、第２のニューラルネットワークＦ′のサイズは、第１のニューラルネットワークＦのサイズよりも小さくまたは大きくなり得る。

[0071]第２のトレーニングセットＤ′を用いてトレーニングされていることに加えて、第２のニューラルネットワークＦ′は、第３のトレーニングセットＤ″を用いてトレーニングされ得る。第３のトレーニングセットＤ″は、第２のニューラルネットワークＦ′におけるクラスの１つまたは複数の既存の境界を修正するために使用され得る。例えば、第２のトレーニングセットＤ′は、車の異なるクラスについての境界を設定し得、第３のトレーニングセットＤ″は、１つまたは複数の既存の車の設計変更を考慮して（to account for）境界を修正し得る。

[0072]例えば、車モデルＡのような、特定の車モデルが、特定のラベル（例えば、クラス）に関連付けられ得る。すなわち、車モデルＡの画像が、車モデルＡとしてラベル付けされ得る。この例では、特定の車モデルは、テールライト設計に対する更新のような、その設計に対する更新を受信し得る。依然として、第２のトレーニングセットＤ′は、更新された車設計についてのラベル付けされたデータを含まないことがあり得る。したがって、既存のクラスの境界は、ネットワークが、依然として、更新された車モデルを特定の車モデルとしてラベル付けするように、更新された設計を考慮して修正され得る。すなわち、この例では、車モデルＡクラスの境界は、更新されたテールライトを有する車モデルＡを不正確にカテゴリ化するのではなく、車モデルＡとして、更新されたテールライト設計を有する車モデルＡをカテゴリ化するように修正される。このケースでは、車モデルＡの新しい設計のラベル付けされた例を含む第３のトレーニングセットＤ″が、車モデルＡの両方の設計を正確に分類するように第２のニューラルネットワークＦをトレーニングするために、第２のトレーニングセットＤ′と共に使用されることができる。

[0073]一構成では、新しい例が既存のクラスに追加されるとき、ラベル付けされていないデータＸおよび新しいラベル付けされたデータ｛（ｘ″，ｙ″）｝を与えられると、新しいネットワークＦは、｛（Ｘ，Ｆ（Ｘ）｝と｛（ｘ″，ｙ″）｝の合併集合でトレーニングされる。

[0074]加えて、または代替として、一構成では、第３のトレーニングセットＤ″は、第２のニューラルネットワークＦ′に１つまたは複数の新しいクラスを追加するように指定される。例えば、第２のトレーニングセットＤ′が異なる車についてのクラスを作成するように指定される場合、第３のトレーニングセットＤ″は、新しい車モデルを考慮して新しいクラスを追加するように指定され得る。

[0075]例として、車モデルＡのような、特定の車モデルは、特定のクラスに関連付けられ得る。加えて、この例では、車モデルＢのような、新しい車モデルが、製造業者によって導入され得る。この例では、第２のトレーニングセットＤ′は、新しい車モデルについてのラベル付けされたデータを含んでいない。したがって、第２のトレーニングセットＤ′からのトレーニングに基づいて、ネットワークは、車モデルＢの画像を不正確にラベル付けし得る。したがって、この例では、新しい車モデルＢのための新しいクラスが、第３のトレーニングセットＤ″に含まれる新しい車モデルＢについてのラベル付けされたデータに基づいて、第２のニューラルネットワークＦ′に追加される。すなわち、この例では、車モデルＢが車モデルＡとして不正確にラベル付けされないように、新しい車クラスが車モデルＢのために作成される。

[0076]一構成では、元のトレーニングデータが利用可能でないときに、予めトレーニングされたネットワークに１つまたは複数の新しいクラスを追加するとき、ラベル付けされていないデータＸおよび新しいラベル付けされたデータ｛（ｘ″，ｙ″）｝を与えられると、新しいネットワークＦは、｛（Ｘ，[Ｆ（Ｘ）；０^＊ｙ″］｝と｛（ｘ″，[Ｆ（Ｘ）^＊０；ｙ″］｝の合併集合でトレーニングされる。本開示の態様によると、ｙ″は、ベクトルまたはスカラであり得る。

[0077]一構成では、第２のデータ

は、クラスタ化され、第３のトレーニングセットＤ″の第３のデータ

と比較される。さらに、比較後、第２のデータ

は、第３のデータ

に対する類似度（similarity）または多様度（diversity）に基づいて、トレーニングのために選択される。

[0078]図６は、本開示の態様による、転移学習に関するフロー図６００の例を例示する。図６に示されるように、ブロック６１０において、第１のネットワークが、第１のトレーニングセットを用いてトレーニングされる。さらに、ブロック６２０において、ネットワークおよび／またはユーザが、第１のトレーニングセットの第１のデータおよび第１のラベルが利用可能であるかどうかを決定し得る。第１のデータおよび第１のラベルが利用可能である場合、ブロック６３０において、第１のネットワークは、所望に応じて使用および／または変更され得る。

[0079]第１のデータおよび第１のラベルは、制限された頒布権（distribution rights）のために利用可能でないことがあり得る。別の例として、第１のデータおよび第１のラベルは、メモリ制限により、利用可能でないことがあり得る。この例では、追加学習を実行しているシステムは、第１のトレーニングセットを保持するためのメモリ容量を有していないことがあり得る。加えてまたは代替として、このシステムは、第１のトレーニングセットをダウンロードするように指定された接続性または時間を有していないことがあり得る。したがって、システム制約により、第２のトレーニングセットが、トレーニングプロセス中に、第１のトレーニングされたネットワークから生成され得る。本開示の態様は、第１のデータおよび第１のラベルが利用可能でない他の理由もまた企図されるので、第１のデータおよび第１のラベルが頒布権またはシステム制約により利用可能でないことに限定されない。

[0080]加えて、第１のラベルおよび／または第１のデータ（例えば、第１のトレーニングセット）が利用可能でない場合、ブロック６４０において、第１のネットワークを介して、第２のラベルが第２のデータのために生成される。第２のデータは、第１のデータに基づくことも、基づかないこともあり得る。第２のラベルを生成した後、ブロック６５０において、第２のネットワークは、第２のラベルおよび第２のデータ（例えば、第２のトレーニングセット）でトレーニングされ得る。さらに、第２のネットワークがトレーニングされた後、ブロック６６０において、第３のデータおよび第３のラベル（例えば、第３のトレーニングセット）が、第２のネットワークに新しいクラスを追加する、および／または第２のネットワークの既存のクラスについての境界を修正するために、第２のラベルおよび第２のデータと共に使用され得る。

[0081]図７Ａは、第１のトレーニングセットを用いてトレーニングされた元のネットワーク７１０の例を例示する。図７Ａに示されるように、ラベル（ｙ軸）が、画像（ｘ軸）に対して指定される。さらに、元のネットワーク７１０は、ラベル付けされた画像でトレーニングされ、かつラベル付けされた画像に近似される。

[0082]前述されたように、第１のラベルおよび／または第１のデータ（例えば、第１のトレーニングセット）は、元のネットワーク７１０をトレーニングした後に利用可能でなくなり得る。図７Ｂは、第１のトレーニングセットなしの元のネットワーク７１０の例を例示する。図７Ｂに示されるように、第１のトレーニングセットは、もはや利用可能でないが、元のネットワークは、第１のトレーニングセットからのトレーニングに基づいて、ラベル付けされていない第２のデータを分類するために依然として使用され得る。依然として、新しいクラスを追加する、および／または既存のクラスについての境界を修正することが望ましくあり得る。ほとんどのケースでは、新しいクラスを追加する、および／または既存のクラスについての境界を修正するためにネットワークをトレーニングするとき、このネットワークは、第１のトレーニングセットのような元のトレーニングセットおよび第２のトレーニングセットのような追加のトレーニングセットを使用してトレーニングされる。追加のトレーニングセットのラベルおよびデータは、新しいクラスを追加する、および／または既存のクラスについての境界を修正するために使用され得る。

[0083]したがって、本開示の態様によると、新しいネットワークが、新しいクラスを追加する、および／または既存のクラスについての境界を修正するために指定され得る。一構成では、新しいネットワークは、元のネットワークを介して、ラベル付けされていないデータにラベルを提供することによって生成される。図７Ｃに示されるように、元のネットワーク７１０は、ラベル付けされていないデータにラベル付けするために使用される。すなわち、元のネットワーク７１０は、ラベル付けされていない第２のデータのための第２のラベルを生成するように指定され得る。一構成では、第２のデータは、第１のデータと実質的に同様である。

[0084]さらに、図７Ｄに示されるように、第２のデータおよび第２のラベルは、新しいネットワーク７２０をトレーニングするために使用される。新しいネットワーク７２０が第２のデータおよび第２のラベルを用いてトレーニングされた後、新しいネットワーク７２０は、新しいクラスを追加するため、および／または既存のクラスについての境界を修正するために、第３のラベルおよび第３のデータを用いて増強された第２のデータおよび第２のラベルでさらにトレーニングされ得る。

[0085]図７Ｅは、元のネットワーク７１０と新しいネットワーク７２０の比較を例示する。図７Ｅに示されるように、新しいネットワーク７２０は、元のネットワーク７１０に類似している。

[0086]図８は、本開示の態様による、転移学習のための方法８００を例示する。ブロック８０２において、第２のデータが受信される。一構成では、第２のデータは、ラベル付けされていない。加えて、ブロック８０４において、第１のネットワークが、第２のデータのための第２のラベルを生成する。一構成では、第１のネットワークは、第１のデータのための第１のラベルで予めトレーニングされている。さらに、第２のラベルは、第２のネットワークをトレーニングするために生成され得る。第１のネットワークおよび第２のネットワークは、同じデバイス上で定義され得るか、または異なるデバイス上で定義され得ることに留意されたい。第２のデータは、第１のデータと実質的に同様であることができる。別の例では、第２のデータは、第１のデータと同一であるが、第１のラベルは、利用可能であることも、利用可能でないこともあり得る。

[0087]図９は、本開示の態様による、転移学習のための方法９００を例示する。ブロック９０２において、第２のネットワークは、第２のデータを使用して第１のネットワークによって生成された第２のラベルを受信する。一構成では、第２のデータは、第１のネットワークによるラベル付けの前は、ラベル付けされていない。さらに、一構成では、第１のネットワークは、第１のラベルおよび第１のデータで予めトレーニングされている。加えて、ブロック９０４において、第２のネットワークは、第２のラベルおよび第２のデータでトレーニングされる。第１のネットワークおよび第２のネットワークは、同じデバイス上で定義され得るか、または異なるデバイス上で定義され得ることに留意されたい。第２のデータは、第１のデータと実質的に同様であることができる。別の例では、第２のデータは、第１のデータと同一であるが、第１のラベルは、利用可能であることも、利用可能でないこともあり得る。

[0088]上記で説明された方法の様々な動作は、対応する機能を実行することが可能な任意の適切な手段によって実行され得る。これら手段は、それに限定されるものではないが、回路、特定用途向け集積回路（ＡＳＩＣ）、またはプロセッサを含む、様々なハードウェアおよび／またはソフトウェアの（１つまたは複数の）コンポーネントおよび／または（１つまたは複数の）モジュールを含み得る。一般に、図中に例示された動作がある場合、これらの動作は、同様の番号付けを有する、対応する対をなすミーンズプラスファンクションのコンポーネントを有し得る。

[0089]ここで使用される場合、「決定すること」という用語は、幅広いアクションを包含する。例えば、「決定すること」は、計算すること（calculating）、計算すること（computing）、処理すること、導出すること、調査すること、ルックアップすること（例えば、表、データベース、または別のデータ構造においてルックアップすること）、確定すること、および同様のことを含み得る。加えて、「決定すること」は、受信すること（例えば、情報を受信すること）、アクセスすること（例えば、メモリにおけるデータにアクセスすること）、および同様のことを含み得る。さらに、「決定すること」は、解決すること、選択すること、選ぶこと、確立すること、および同様のことを含み得る。

[0090]ここで使用される場合、アイテムのリスト「のうちの少なくとも１つ」を指す表現は、単一のメンバ（members）を含む、それらのアイテムの任意の組合せを指す。例として、「ａ、ｂ、またはｃのうちの少なくとも１つ」は、ａ、ｂ、ｃ、ａ−ｂ、ａ−ｃ、ｂ−ｃ、およびａ−ｂ−ｃをカバーするように意図される。

[0091]本開示に関連して説明された、様々な例示的な論理ブロック、モジュールおよび回路は、汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ信号（ＦＰＧＡ）または他のプログラマブル論理デバイス（ＰＬＤ）、個別ゲートまたはトランジスタロジック、個別ハードウェアコンポーネント、あるいはここで説明された機能を実行するように設計されたこれらの任意の組合せを用いてインプリメントまたは実行され得る。汎用プロセッサは、マイクロプロセッサであり得るが、代替として、このプロセッサは、任意の商業的に利用可能なプロセッサ、コントローラ、マイクロコントローラまたはステートマシンであり得る。プロセッサはまた、コンピューティングデバイスの組合せ、例えば、ＤＳＰとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携した１つまたは複数のマイクロプロセッサ、あるいはその他任意のこのような構成としてインプリメントされ得る。

[0092]本開示に関連して説明されたアルゴリズムまたは方法のステップは、直接ハードウェアにおいて、プロセッサによって実行されるソフトウェアモジュールにおいて、またはこれら２つの組合せにおいて、具現化され得る。ソフトウェアモジュールは、当該技術分野で知られている任意の形態の記憶媒体内に存在し得る。使用され得る記憶媒体のいくつかの例は、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、フラッシュメモリ、消去可能なプログラマブル読取専用メモリ（ＥＰＲＯＭ）、電気的に消去可能なプログラマブル読取専用メモリ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、等を含む。ソフトウェアモジュールは、単一の命令、または多くの命令を備え得、いくつかの異なるコードセグメントにわたって、異なるプログラム間で、および複数の記憶媒体にわたって、分散され得る。記憶媒体は、プロセッサが記憶媒体から情報を読み取り、および／または記憶媒体に情報を書き込むことができるように、プロセッサに結合され得る。代替として、記憶媒体は、プロセッサと一体化され得る。

[0093]ここで開示された方法は、説明された方法を達成するための１つまたは複数のステップまたはアクションを備える。方法のステップおよび／またはアクションは、特許請求の範囲から逸脱することなく互いに置き換えられ得る。言い換えれば、ステップまたはアクションの特定の順序が明記されない限り、特定のステップおよび／またはアクションの順序および／または使用は、特許請求の範囲から逸脱することなく修正され得る。

[0094]説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組合せでインプリメントされ得る。ハードウェアでインプリメントされる場合、例となるハードウェア構成は、デバイス中に処理システムを備え得る。処理システムは、バスアーキテクチャを用いてインプリメントされ得る。バスは、処理システムの特定のアプリケーションおよび全体的な設計制約に依存して、任意の数の相互接続バスおよびブリッジを含み得る。バスは、プロセッサ、機械可読媒体、およびバスインタフェースを含む様々な回路を共にリンクし得る。バスインタフェースは、特に、バスを介してネットワークアダプタを処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能をインプリメントするために使用され得る。ある特定の態様では、ユーザインタフェース（例えば、キーパッド、ディスプレイ、マウス、ジョイスティック、等）がまた、バスに接続され得る。バスはまた、タイミングソース、周辺機器、電圧レギュレータ、電力管理回路、および同様のもののような、様々な他の回路をリンクし得、これらは、当該技術分野において周知であり、したがって、これ以上は説明されない。

[0095]プロセッサは、バスの管理と、機械可読媒体上に記憶されたソフトウェアの実行を含む汎用処理とを担い得る。プロセッサは、１つまたは複数の汎用および／または専用プロセッサを用いてインプリメントされ得る。例は、マイクロプロセッサ、マイクロコントローラ、ＤＳＰプロセッサ、およびソフトウェアを実行することができるその他の回路を含む。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはその他の方法で呼ばれるかにかかわらず、命令、データ、またはこれらの任意の組合せを意味するように広く解釈されるべきである。機械可読媒体は、例として、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、読取専用メモリ（ＲＯＭ）、プログラマブル読取専用メモリ（ＰＲＯＭ）、消去可能なプログラマブル読取専用メモリ（ＥＰＲＯＭ）、電気的に消去可能なプログラマブル読取専用メモリ（ＥＥＰＲＯＭ）、レジスタ、磁気ディスク、光ディスク、ハードドライブ、またはその他任意の適切な記憶媒体、あるいはこれらの任意の組合せを含み得る。機械可読媒体は、コンピュータプログラム製品において具現化され得る。コンピュータプログラム製品は、パッケージング材料を備え得る。

[0096]ハードウェアインプリメンテーションでは、機械可読媒体は、プロセッサとは別個の処理システムの一部であり得る。しかしながら、当業者が容易に理解するであろうように、機械可読媒体、またはその任意の部分は、処理システムの外部にあり得る。例として、機械可読媒体は、伝送路（transmission line）、データによって変調された搬送波、および／またはデバイスとは別個のコンピュータ製品を含み得、これら全ては、バスインタフェースを通じてプロセッサによってアクセスされ得る。代替として、またはこれに加えて、機械可読媒体、またはその任意の部分は、キャッシュおよび／または汎用レジスタファイルでのケースでそうであり得るように、プロセッサに組み込まれ得る。ローカルコンポーネントのような、説明された様々なコンポーネントは、特定のロケーションを有するものとして説明されているが、それらはまた、分散型コンピューティングシステムの一部として構成されているある特定のコンポーネントように、様々な方法で構成され得る。

[0097]処理システムは、プロセッサ機能を提供する１つまたは複数のマイクロプロセッサと、機械可読媒体の少なくとも一部分を提供する外部メモリとを有し、全てが外部バスアーキテクチャを通じて他のサポート回路と共にリンクされている、汎用処理システムとして構成され得る。代替として、処理システムは、ここで説明されたニューロンモデルおよびニューラルシステムのモデルをインプリメントするための１つまたは複数の神経形態学的プロセッサを備え得る。別の代替として、処理システムは、プロセッサと、バスインタフェースと、ユーザインタフェースと、サポート回路と、単一のチップに組み込まれた機械可読媒体の少なくとも一部分とを有する特定用途向け集積回路（ＡＳＩＣ）を用いて、または、１つまたは複数のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理デバイス（ＰＬＤ）、コントローラ、ステートマシン、ゲート論理、個別ハードウェアコンポーネント、またはその他任意の適切な回路、あるいは本開示全体にわたって説明された様々な機能を実行することができる回路の任意の組合せを用いて、インプリメントされ得る。当業者であれば、特定のアプリケーションおよびシステム全体に課せられる全体的な設計制約に依存して、処理システムに関して説明された機能をインプリメントするのに最良の方法を認識するであろう。

[0098]機械可読媒体は、多数のソフトウェアモジュールを備え得る。これらソフトウェアモジュールは、プロセッサによって実行されると、様々な機能を処理システムに実行させる命令を含む。これらソフトウェアモジュールは、送信モジュールおよび受信モジュールを含み得る。各ソフトウェアモジュールは、単一の記憶デバイス内に存在し得るか、または複数の記憶デバイスにわたって分散され得る。例として、ソフトウェアモジュールは、トリガリングイベントが生じたときに、ハードドライブからＲＡＭにロードされ得る。ソフトウェアモジュールの実行中、プロセッサは、アクセス速度を増大させるために、命令のうちのいくつかをキャッシュにロードし得る。その後、１つまたは複数のキャッシュラインが、プロセッサによる実行のために汎用レジスタファイルにロードされ得る。以下でソフトウェアモジュールの機能に言及する場合、そのような機能は、そのソフトウェアモジュールからの命令を実行するとき、プロセッサによってインプリメントされるということが理解されるであろう。さらに、本開示の態様が、プロセッサ、コンピュータ、機械、またはこのような態様をインプリメントする他のシステムの機能に改善をもたらすことが理解されるべきである。

[0099]ソフトウェアでインプリメントされる場合、これら機能は、コンピュータ可読媒体上で、１つまたは複数の命令またはコードとして送信または記憶され得る。コンピュータ可読媒体は、１つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体とコンピュータ記憶媒体との両方を含む。記憶媒体は、コンピュータによってアクセスされることができる任意の利用可能な媒体であり得る。限定ではなく例として、このようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたは他の光ディスク記憶装置、磁気ディスク記憶装置またはその他の磁気記憶デバイス、あるいは、データ構造または命令の形式で所望のプログラムコードを記憶または搬送するために使用されることができ、かつ、コンピュータによってアクセスされることができるその他任意の媒体を備えることができる。また、任意の接続は、厳密にはコンピュータ可読媒体と称される。例えば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線（ＩＲ）、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他の遠隔ソースから送信される場合には、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。ここで使用される場合、ディスク（disk）およびディスク（disc）は、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光ディスク、デジタル多目的ディスク（ＤＶＤ）、フロッピー（登録商標）ディスク、およびブルーレイ（登録商標）ディスクを含み、ここでディスク（disks）は、通常磁気的にデータを再生し、一方ディスク（discs）は、レーザーを用いて光学的にデータを再生する。したがって、いくつかの態様では、コンピュータ可読媒体は、非一時的なコンピュータ可読媒体（例えば、有形媒体）を備え得る。加えて、他の態様では、コンピュータ可読媒体は、一時的なコンピュータ可読媒体（例えば、信号）を備え得る。上記の組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。

[00100]したがって、ある特定の態様は、ここで提示された動作を実行するためのコンピュータプログラム製品を備え得る。例えば、このようなコンピュータプログラム製品は、その上に命令が記憶された（および／または符号化された）コンピュータ可読媒体を備え得、これら命令は、ここで説明された動作を実行するために１つまたは複数のプロセッサによって実行可能である。ある特定の態様では、コンピュータプログラム製品は、パッケージング材料を含み得る。

[00101]さらに、ここで説明された方法および技法を実行するためのモジュールおよび／または他の適切な手段は、適宜、ユーザ端末および／または基地局によって、ダウンロードされ得ること、および／または、その他の方法で取得され得ることが理解されるべきである。例えば、このようなデバイスは、ここで説明された方法を実行するための手段の転送を容易にするためにサーバに結合されることができる。代替として、ここで説明された様々な方法は、ユーザ端末および／または基地局が、デバイスに記憶手段を結合または提供する際に、様々な方法を得ることができるように、記憶手段（例えば、ＲＡＭ、ＲＯＭ、コンパクトディスク（ＣＤ）またはフロッピーディスクのような物理記憶媒体、等）を介して提供されることができる。さらに、ここで説明された方法および技法をデバイスに提供するためのその他任意の適切な技法が、利用されることができる。

[00102]特許請求の範囲は、上記に例示された厳密な構成およびコンポーネントに限定されないことが理解されるべきである。様々な修正、変更、および変形が、特許請求の範囲から逸脱することなく、上記で説明された方法および装置の配置、動作および詳細において行われ得る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］転移学習の方法であって、
第２のデータを受信することと、
第１のネットワークを介して、前記第２のデータのための第２のラベルを生成することと、前記第１のネットワークは、第１のデータのための第１のラベルで予めトレーニングされており、前記第２のラベルは、第２のネットワークをトレーニングするために生成される、
を備える方法。
［Ｃ２］前記第２のラベルおよび前記第２のデータで前記第２のネットワークをトレーニングすることをさらに備える、Ｃ１に記載の方法。
［Ｃ３］前記第２のネットワークのサイズが、前記第１のネットワークのサイズとは異なる、Ｃ２に記載の方法。
［Ｃ４］第３のデータおよび第３のラベルで前記第２のネットワークをトレーニングすることをさらに備える、Ｃ２に記載の方法。
［Ｃ５］前記第３のラベルおよび前記第３のデータに少なくとも部分的に基づいて、前記第２のネットワークにおけるクラスの少なくとも１つの既存の境界を修正することをさらに備える、Ｃ４に記載の方法。
［Ｃ６］前記第３のラベルおよび前記第３のデータに少なくとも部分的に基づいて、前記第２のネットワークにおいて少なくとも１つの新しいクラスを追加することをさらに備える、Ｃ４に記載の方法。
［Ｃ７］前記第１のデータまたは前記第１のラベルは、前記第１のネットワークをトレーニングした後に利用可能でない、Ｃ１に記載の方法。
［Ｃ８］前記第２のデータは、前記第１のデータと実質的に同様である、Ｃ１に記載の方法。
［Ｃ９］前記第２のデータをクラスタ化することと、
前記クラスタ化された第２のデータを第３のデータと比較することと、
前記第３のデータに対する類似度または前記第３のデータからの相違度に少なくとも部分的に基づいて、ラベル付けするための前記第２のデータを選択することと
をさらに備える、Ｃ１に記載の方法。
［Ｃ１０］転移学習の方法であって、
第２のデータを使用して第１のネットワークによって生成された第２のラベルを受信することと、前記第１のネットワークは、第１のラベルおよび第１のデータで予めトレーニングされている、
前記第２のラベルおよび前記第２のデータで第２のネットワークをトレーニングすることと
を備える方法。
［Ｃ１１］前記第１のネットワークを介して、前記第２のデータを使用して前記第２のラベルを生成することをさらに備える、Ｃ１０に記載の方法。
［Ｃ１２］前記第２のデータをクラスタ化することと、
前記クラスタ化された第２のデータを第３のデータと比較することと、
前記第３のデータに対する類似度または前記第３のデータからの相違度に少なくとも部分的に基づいて、ラベル付けするための前記第２のデータを選択することと
をさらに備える、Ｃ１１に記載の方法。
［Ｃ１３］前記第２のネットワークのサイズが、前記第１のネットワークのサイズとは異なる、Ｃ１０に記載の方法。
［Ｃ１４］第３のラベルおよび第３のデータで前記第２のネットワークをトレーニングすることをさらに備える、Ｃ１０に記載の方法。
［Ｃ１５］前記第３のラベルおよび前記第３のデータに少なくとも部分的に基づいて、前記第２のネットワークにおけるクラスの少なくとも１つの既存の境界を修正することをさらに備える、Ｃ１４に記載の方法。
［Ｃ１６］前記第３のラベルおよび前記第３のデータに少なくとも部分的に基づいて、前記第２のネットワークにおいて少なくとも１つの新しいクラスを追加することをさらに備える、Ｃ１４に記載の方法。
［Ｃ１７］前記第１のデータまたは前記第１のラベルは、前記第１のネットワークをトレーニングした後に利用可能でない、Ｃ１０に記載の方法。
［Ｃ１８］前記第２のデータは、前記第１のデータと実質的に同様である、Ｃ１０に記載の方法。
［Ｃ１９］転移学習のための装置であって、
メモリユニットと、
前記メモリユニットに結合された少なくとも１つのプロセッサと
を備え、前記少なくとも１つのプロセッサは、
第２のデータを受信することと、
第１のネットワークを介して、前記第２のデータのための第２のラベルを生成することと、前記第１のネットワークは、第１のデータのための第１のラベルで予めトレーニングされており、前記第２のラベルは、第２のネットワークをトレーニングするために生成される、
を行うように構成される、装置。
［Ｃ２０］前記少なくとも１つのプロセッサは、前記第２のラベルおよび前記第２のデータで前記第２のネットワークをトレーニングするようにさらに構成される、Ｃ１９に記載の装置。
［Ｃ２１］前記第２のネットワークのサイズが、前記第１のネットワークのサイズとは異なる、Ｃ２０に記載の装置。
［Ｃ２２］前記少なくとも１つのプロセッサは、第３のデータおよび第３のラベルで前記第２のネットワークをトレーニングするようにさらに構成される、Ｃ２０に記載の装置。
［Ｃ２３］前記少なくとも１つのプロセッサは、前記第３のラベルおよび前記第３のデータに少なくとも部分的に基づいて、前記第２のネットワークにおけるクラスの少なくとも１つの既存の境界を修正するようにさらに構成される、Ｃ２２に記載の装置。
［Ｃ２４］前記少なくとも１つのプロセッサは、前記第３のラベルおよび前記第３のデータに少なくとも部分的に基づいて、前記第２のネットワークにおいて少なくとも１つの新しいクラスを追加するようにさらに構成される、Ｃ２２に記載の装置。
［Ｃ２５］前記第１のデータまたは前記第１のラベルは、前記第１のネットワークをトレーニングした後に利用可能でない、Ｃ１９に記載の装置。
［Ｃ２６］前記第２のデータは、前記第１のデータと実質的に同様である、Ｃ１９に記載の装置。
［Ｃ２７］前記少なくとも１つのプロセッサは、
前記第２のデータをクラスタ化することと、
前記クラスタ化された第２のデータを第３のデータと比較することと、
前記第３のデータに対する類似度または前記第３のデータからの相違度に少なくとも部分的に基づいて、ラベル付けするための前記第２のデータを選択することと
を行うようにさらに構成される、Ｃ１９に記載の装置。
［Ｃ２８］転移学習のための装置であって、
メモリユニットと、
前記メモリユニットに結合された少なくとも１つのプロセッサと
を備え、前記少なくとも１つのプロセッサは、
第２のデータを使用して第１のネットワークによって生成された第２のラベルを受信することと、前記第１のネットワークは、第１のラベルおよび第１のデータで予めトレーニングされている、
前記第２のラベルおよび前記第２のデータで第２のネットワークをトレーニングすることと
を行うように構成される、装置。
［Ｃ２９］前記少なくとも１つのプロセッサは、前記第１のネットワークを介して、前記第２のデータを使用して前記第２のラベルを生成するようにさらに構成される、Ｃ２８に記載の装置。
［Ｃ３０］前記少なくとも１つのプロセッサは、
前記第２のデータをクラスタ化することと、
前記クラスタ化された第２のデータを第３のデータと比較することと、
前記第３のデータに対する類似度または前記第３のデータからの相違度に少なくとも部分的に基づいて、ラベル付けするための前記第２のデータを選択することと
を行うようにさらに構成される、Ｃ２９に記載の装置。
［Ｃ３１］前記第２のネットワークのサイズが、前記第１のネットワークのサイズとは異なる、Ｃ２８に記載の装置。
［Ｃ３２］前記少なくとも１つのプロセッサは、第３のデータおよび第３のラベルで前記第２のネットワークをトレーニングするようにさらに構成される、Ｃ２８に記載の装置。
［Ｃ３３］前記少なくとも１つのプロセッサは、前記第３のデータおよび前記第３のラベルに少なくとも部分的に基づいて、前記第２のネットワークにおけるクラスの少なくとも１つの既存の境界を修正するようにさらに構成される、Ｃ３２に記載の装置。
［Ｃ３４］前記少なくとも１つのプロセッサは、前記第３のデータおよび前記第３のラベルに少なくとも部分的に基づいて、前記第２のネットワークにおいて少なくとも１つの新しいクラスを追加するようにさらに構成される、Ｃ３２に記載の装置。
［Ｃ３５］前記第１のデータまたは第１のラベルは、前記第１のネットワークをトレーニングした後に利用可能でない、Ｃ２８に記載の装置。
［Ｃ３６］前記第２のデータは、前記第１のデータと実質的に同様である、Ｃ２８に記載の装置。
［Ｃ３７］転移学習のための装置であって、
第２のデータを受信するための手段と、
第１のネットワークを介して、前記第２のデータのための第２のラベルを生成するための手段と、前記第１のネットワークは、第１のデータのための第１のラベルで予めトレーニングされており、前記第２のラベルは、第２のネットワークをトレーニングするために生成される、
を備える装置。
［Ｃ３８］転移学習のための装置であって、
第２のデータを使用して第１のネットワークによって生成された第２のラベルを受信するための手段と、前記第１のネットワークは、第１のラベルおよび第１のデータで予めトレーニングされている、
前記第２のラベルおよび前記第２のデータで第２のネットワークをトレーニングするための手段と
を備える装置。
［Ｃ３９］プログラムコードを記録した非一時的なコンピュータ可読媒体であって、前記プログラムコードは、
第２のデータを受信するためのプログラムコードと、
第１のネットワークを介して、前記第２のデータのための第２のラベルを生成するためのプログラムコードと、前記第１のネットワークは、第１のデータのための第１のラベルで予めトレーニングされており、前記第２のラベルは、第２のネットワークをトレーニングするために生成される、
を備える、非一時的なコンピュータ可読媒体。
［Ｃ４０］プログラムコードを記録した非一時的なコンピュータ可読媒体であって、前記プログラムコードは、
第２のデータを使用して第１のネットワークによって生成された第２のラベルを受信するためのプログラムコードと、前記第１のネットワークは、第１のラベルおよび第１のデータで予めトレーニングされている、
前記第２のラベルおよび前記第２のデータで第２のネットワークをトレーニングするためのプログラムコードと
を備える、非一時的なコンピュータ可読媒体。

Claims

転移学習の方法であって、
第１のトレーニングされたニューラルネットワークにおいて、第２のデータを受信することと、
前記第１のトレーニングされたニューラルネットワークを介して、前記第２のデータのための第２のラベルを生成することと、前記第１のトレーニングされたニューラルネットワークは、第１のデータのための第１のラベルを備える第１のトレーニングデータを用いて予めトレーニングされており、前記第２のラベルは、第２のニューラルネットワークをトレーニングするために生成され、
前記第２のデータおよび前記第２のラベルを備える第２のトレーニングデータを用いて前記第２のニューラルネットワークをトレーニングすることと、
更新された第２のネットワークを提供するために、第３のデータおよび第３のラベルに関する追加学習によって前記トレーニングされた第２のニューラルネットワークをトレーニングすることと、
前記更新された第２のトレーニングされたニューラルネットワークを介して、前記更新された第２のトレーニングされたニューラルネットワークにおいて受信される入力を分類することと
を備える方法。
前記第２のネットワークのサイズが、前記第１のトレーニングされたニューラルネットワークのサイズとは異なる、請求項１に記載の方法。
前記第３のラベルおよび前記第３のデータに少なくとも部分的に基づいて、前記第２のトレーニングされたニューラルネットワークにおけるクラスの少なくとも１つの既存の境界を修正することをさらに備える、請求項１に記載の方法。
前記第３のラベルおよび前記第３のデータに少なくとも部分的に基づいて、前記第２のトレーニングされたニューラルネットワークにおいて少なくとも１つの新しいクラスを追加することをさらに備える、請求項１に記載の方法。
(i) 前記第１のデータまたは前記第１のラベルは、前記第１のトレーニングされたニューラルネットワークをトレーニングした後に利用可能でなくなる、または
(ii) 前記第２のデータは、前記第１のデータと同様である、請求項１に記載の方法。
前記第２のデータをクラスタ化することと、
前記クラスタ化された第２のデータを第３のデータと比較することと、
前記第３のデータに対する類似度または前記第３のデータからの相違度に少なくとも部分的に基づいて、ラベル付けするための前記第２のデータを選択することと
をさらに備える、請求項１に記載の方法。
転移学習の方法であって、
第２のニューラルネットワークにおいて、第１のトレーニングされたニューラルネットワークによって生成された第２のラベルを受信することと、前記第２のラベルは、第２のデータに基づいて、前記第１のトレーニングされたニューラルネットワークにおいて生成され、前記第１のトレーニングされたニューラルネットワークは、第１のラベルおよび第１のデータを備える第１のトレーニングデータを用いて予めトレーニングされており、
前記第２のラベルおよび前記第２のデータを備える第２のトレーニングデータを用いて第２のニューラルネットワークをトレーニングすることと、
更新された第２のネットワークを提供するために、第３のデータおよび第３のラベルに関する追加学習によって前記トレーニングされた第２のニューラルネットワークをトレーニングすることと、
前記更新された第２のトレーニングされたニューラルネットワークを介して、前記更新された第２のトレーニングされたニューラルネットワークにおいて受信される入力を分類することと、
を備える方法。
前記第２のデータをクラスタ化することと、
前記クラスタ化された第２のデータを第３のデータと比較することと、
前記第３のデータに対する類似度または前記第３のデータからの相違度に少なくとも部分的に基づいて、ラベル付けするための前記第２のデータを選択することと
をさらに備える、請求項７に記載の方法。
(i) 前記第２のトレーニングされたニューラルネットワークのサイズが、前記第１のトレーニングされたニューラルネットワークのサイズとは異なる、
(ii) 前記第３のラベルおよび前記第３のデータに少なくとも部分的に基づいて、前記第２のトレーニングされたニューラルネットワークにおけるクラスの少なくとも１つの既存の境界を修正すること、
(iii) 前記第３のラベルおよび前記第３のデータに少なくとも部分的に基づいて、前記第２のトレーニングされたニューラルネットワークにおいて少なくとも１つの新しいクラスを追加すること、
(iv) 前記第１のデータまたは前記第１のラベルのうちの少なくとも１つは、前記第１のトレーニングされたニューラルネットワークをトレーニングした後に利用可能でなくなる、または
(v) 前記第２のデータは、前記第１のデータと同様である、
のうちの１つをさらに備える、請求項７に記載の方法。
転移学習のための装置であって、
メモリユニットと、
前記メモリユニットに結合された少なくとも１つのプロセッサと
を備え、前記少なくとも１つのプロセッサは、
第１のトレーニングされたニューラルネットワークにおいて、第２のデータを受信することと、
前記第１のトレーニングされたニューラルネットワークを介して、前記第２のデータのための第２のラベルを生成することと、前記第１のトレーニングされたニューラルネットワークは、第１のデータのための第１のラベルを備える第１のトレーニングデータを用いて予めトレーニングされており、前記第２のラベルは、第２のニューラルネットワークをトレーニングするために生成され、
前記第２のデータおよび前記第２のラベルを備える第２のトレーニングデータを用いて前記第２のニューラルネットワークをトレーニングすることと、
更新された第２のネットワークを提供するために、第３のデータおよび第３のラベルに関する追加学習によって前記トレーニングされた第２のニューラルネットワークをトレーニングすることと、
前記更新された第２のトレーニングされたニューラルネットワークを介して、前記更新された第２のトレーニングされたニューラルネットワークにおいて受信される入力を分類することと
を行うように構成される、装置。
(i) 前記第２のトレーニングされたニューラルネットワークのサイズが、前記第１のトレーニングされたニューラルネットワークのサイズとは異なる、
(ii) 前記少なくとも１つのプロセッサは、前記第３のラベルおよび前記第３のデータに少なくとも部分的に基づいて、前記第２のトレーニングされたニューラルネットワークにおけるクラスの少なくとも１つの既存の境界を修正するようにさらに構成される、
(iii) 前記少なくとも１つのプロセッサは、前記第３のラベルおよび前記第３のデータに少なくとも部分的に基づいて、前記第２のトレーニングされたニューラルネットワークにおいて少なくとも１つの新しいクラスを追加するようにさらに構成される、
(iv) 前記第１のデータまたは前記第１のラベルのうちの少なくとも１つは、前記第１のトレーニングされたニューラルネットワークをトレーニングした後に利用可能でなくなる、
(v) 前記第２のデータは、前記第１のデータと同様である、または
(vi) 前記少なくとも１つのプロセッサは、
前記第２のデータをクラスタ化することと、
前記クラスタ化された第２のデータを第３のデータと比較することと、
前記第３のデータに対する類似度または前記第３のデータからの相違度に少なくとも部分的に基づいて、ラベル付けするための前記第２のデータを選択することと
を行うようにさらに構成される、
のうちの１つを備える、請求項１０に記載の装置。
転移学習のための装置であって、
メモリユニットと、
前記メモリユニットに結合された少なくとも１つのプロセッサと
を備え、前記少なくとも１つのプロセッサは、
第２のニューラルネットワークにおいて、第１のトレーニングされたニューラルネットワークによって生成された第２のラベルを受信することと、前記第２のラベルは、第２のデータに基づいて、前記第１のトレーニングされたニューラルネットワークにおいて生成され、前記第１のトレーニングされたニューラルネットワークは、第１のラベルおよび第１のデータを備える第１のトレーニングデータを用いて予めトレーニングされており、
前記第２のラベルされたデータで第２のニューラルネットワークをトレーニングすることと、
更新された第２のネットワークを提供するために、第３のデータおよび第３のラベルに関する追加学習によって前記トレーニングされた第２のニューラルネットワークをトレーニングすることと、
前記更新された第２のトレーニングされたニューラルネットワークを介して、前記更新された第２のトレーニングされたニューラルネットワークにおいて受信される入力を分類することと
を行うように構成される、装置。
(i) 前記少なくとも１つのプロセッサは、
前記第２のデータをクラスタ化することと、
前記クラスタ化された第２のデータを第３のデータと比較することと、
前記第３のデータに対する類似度または前記第３のデータからの相違度に少なくとも部分的に基づいて、ラベル付けするための前記第２のデータを選択することと
を行うようにさらに構成され、
(ii) 前記第２のトレーニングされたニューラルネットワークのサイズが、前記第１のトレーニングされたニューラルネットワークのサイズとは異なる、
(iii) 前記少なくとも１つのプロセッサは、前記第３のデータおよび前記第３のラベルに少なくとも部分的に基づいて、前記第２のトレーニングされたニューラルネットワークにおけるクラスの少なくとも１つの既存の境界を修正するようにさらに構成される、
(iv) 前記少なくとも１つのプロセッサは、前記第３のデータおよび前記第３のラベルに少なくとも部分的に基づいて、前記第２のトレーニングされたニューラルネットワークにおいて少なくとも１つの新しいクラスを追加するようにさらに構成される、
(v) 前記第１のデータまたは前記第１のラベルのうちの少なくとも１つは、前記第１のトレーニングされたニューラルネットワークをトレーニングした後に利用可能でなくなる、または
(vi) 前記第２のデータは、前記第１のデータと同様である、
のうちの１つをさらに備える、請求項１２に記載の装置。
プログラムコードを記録した非一時的なコンピュータ可読媒体であって、前記プログラムコードは、
第１のトレーニングされたニューラルネットワークにおいて、第２のデータを受信するためのプログラムコードと、
前記第１のトレーニングされたニューラルネットワークを介して、前記第２のデータのための第２のラベルを生成するためのプログラムコードと、前記第１のトレーニングされたニューラルネットワークは、第１のデータのための第１のラベルを備える第１のトレーニングデータを用いて予めトレーニングされており、前記第２のラベルは、第２のニューラルネットワークをトレーニングするために生成され、
前記第２のデータおよび前記第２のラベルを備える第２のトレーニングデータを用いて前記第２のニューラルネットワークをトレーニングするためのプログラムコードと、
更新された第２のネットワークを提供するために、第３のデータおよび第３のラベルに関する追加学習によって前記トレーニングされた第２のニューラルネットワークをトレーニングするためのプログラムコードと、
前記更新された第２のトレーニングされたニューラルネットワークを介して、前記更新された第２のトレーニングされたニューラルネットワークにおいて受信される入力を分類するためのプログラムコードと
を備える、非一時的なコンピュータ可読媒体。
プログラムコードを記録した非一時的なコンピュータ可読媒体であって、前記プログラムコードは、
第２のニューラルネットワークにおいて、第１のトレーニングされたニューラルネットワークによって生成された第２のラベルを受信するためのプログラムコードと、第２のラベルは、第２のデータに基づいて、前記第１のトレーニングされたニューラルネットワークにおいて生成され、前記第１のトレーニングされたニューラルネットワークは、第１のラベルおよび第１のデータを備える第１のトレーニングデータを用いて予めトレーニングされおり、
前記第２のラベルされたデータで第２のニューラルネットワークをトレーニングするためのプログラムコードと、
更新された第２のネットワークを提供するために、第３のデータおよび第３のラベルに関する追加学習によって前記トレーニングされた第２のニューラルネットワークをトレーニングするためのプログラムコードと、
前記更新された第２のトレーニングされたニューラルネットワークを介して、前記更新された第２のトレーニングされたニューラルネットワークにおいて受信される入力を分類するためのプログラムコードと
を備える、非一時的なコンピュータ可読媒体。