JP2018514852A

JP2018514852A - 逐次画像サンプリングおよび微調整された特徴の記憶

Info

Publication number: JP2018514852A
Application number: JP2017550165A
Authority: JP
Inventors: トワル、レーガン・ブライス
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-03-27
Filing date: 2016-03-01
Publication date: 2018-06-07
Also published as: WO2016160237A1; US20160283864A1; CN107430703A; EP3274927A1

Abstract

特徴抽出は、特徴抽出のための参照モデルを決定することと、異なるタスクのために参照モデルを微調整することとを含む。方法はまた、微調整中に計算された重み差分のセットを記憶することを含む。各セットは異なるタスクに対応し得る。

Description

関連出願の相互参照
[0001]本出願は、その開示全体が参照により本明細書に明確に組み込まれる、２０１５年３月２７日に出願された「SIMULTANEOUS LEARNING OF TASK AND FINE-TUNED FEATURES」と題する米国仮特許出願第６２／１３９，２２０号の米国特許法第１１９条（ｅ）項に基づく利益を主張する。

[0002]本開示のいくつかの態様は、一般に機械学習に関し、より詳細には、特徴抽出のシステムおよび方法を改善することに関する。

[0003] 人工ニューラルネットワークは、人工ニューロン（たとえば、ニューロンモデル）の相互結合されたグループを備え得る、計算デバイスであるか、または計算デバイスによって実行されるべき方法を表す。

[0004]畳み込みニューラルネットワークは、フィードフォワード人工ニューラルネットワークのタイプである。畳み込みニューラルネットワークは、各々が受容野を有し、入力空間を集合的にタイリングするニューロンの集合を含み得る。畳み込みニューラルネットワーク（ＣＮＮ）は多数の適用例を有する。特に、ＣＮＮは、パターン認識および分類の領域内で広く使用されている。

[0005]深層信念ネットワークおよび深層畳み込みネットワークなど、深層学習アーキテクチャは、階層（layered）ニューラルネットワークアーキテクチャであり、ニューロンの第１の層の出力はニューロンの第２の層への入力になり、ニューロンの第２の層の出力はニューロンの第３の層になり、入力し、以下同様である。深層ニューラルネットワークは、特徴の階層（hierarchy）を認識するようにトレーニングされ得、したがって、それらはオブジェクト認識適用例においてますます使用されている。畳み込みニューラルネットワークのように、これらの深層学習アーキテクチャにおける計算は、１つまたは複数の計算チェーンにおいて構成され得る処理ノードの集団にわたって分散され得る。これらの多層アーキテクチャは、一度に１つの層をトレーニングされ得、バックプロパゲーション（back propagation）を使用して微調整され得る。

[0006]他のモデルも、オブジェクト認識のために利用可能である。たとえば、サポートベクターマシン（ＳＶＭ）は、分類のために適用され得る学習ツールである。サポートベクターマシンは、データをカテゴリー分類する分離超平面（separating hyperplane）（たとえば、決定境界（decision boundary））を含む。超平面は、教師あり学習によって定義される。所望の超平面は、トレーニングデータのマージンを増加させる。言い換えれば、超平面は、トレーニング例との最大の最小距離を有するべきである。

[0007]これらのソリューションは、いくつかの分類ベンチマーク上で優れた結果を達成するが、それらの計算複雑さは極めて高いことがある。さらに、モデルのトレーニングが難しいことがある。

[0008]本開示の一態様では、特徴抽出の方法が開示される。本方法は、特徴抽出のための参照モデルを決定することを含む。本方法はまた、複数の異なるタスクのために参照モデルを微調整することを含む。本方法は、微調整中に計算された重み差分（weight difference）のセットを記憶することをさらに含む。各セットは異なるタスクに対応し得る。

[0009]本開示の別の態様は、特徴抽出のための参照モデルを決定するための手段を含む装置を対象とする。本装置はまた、複数の異なるタスクのために参照モデルを微調整するための手段を含む。本装置は、微調整中に計算された重み差分のセットを記憶するための手段をさらに含む。各セットは異なるタスクに対応し得る。

[0010]本開示の別の態様では、特徴抽出のためのコンピュータプログラム製品が開示される。本コンピュータプログラム製品は、非一時的プログラムコードが記録された非一時的コンピュータ可読媒体を有する。プログラムコードは、プロセッサによって実行され、特徴抽出のための参照モデルを決定するためのプログラムコードを含む。プログラムコードはまた、複数の異なるタスクのために参照モデルを微調整するためのプログラムコードを含む。プログラムコードは、微調整中に計算された重み差分のセットを記憶するためのプログラムコードをさらに含む。各セットは異なるタスクに対応し得る。

[0011]本開示の別の態様は、メモリと、メモリに結合された１つまたは複数のプロセッサとを有する特徴抽出のための装置を対象とする。（１つまたは複数の）プロセッサは、特徴抽出のための参照モデルを決定するように構成される。（１つまたは複数の）プロセッサはまた、複数の異なるタスクのために参照モデルを微調整するように構成される。（１つまたは複数の）プロセッサは、微調整中に計算された重み差分のセットを記憶してさらに構成される。各セットは異なるタスクに対応し得る。

[0012]本開示の追加の特徴および利点が、以下で説明される。本開示は、本開示の同じ目的を実行するための他の構造を変更または設計するための基礎として容易に利用され得ることを、当業者は諒解されたい。また、そのような等価な構成が、添付の特許請求の範囲に記載の本開示の教示から逸脱しないことを、当業者は了解されたい。さらなる目的および利点とともに、本開示の編成と動作の方法の両方に関して、本開示を特徴づけると考えられる新規の特徴は、添付の図に関連して以下の説明を検討するとより良く理解されよう。ただし、図の各々は、例示および説明のみの目的で与えられたものであり、本開示の限界を定めるものではないことを明確に理解されたい。

[0013]本開示の特徴、特性、および利点は、全体を通じて同様の参照符号が同様のものを指す図面とともに、以下に記載される発明を実施するための形態を読めばより明らかになろう。

[0014]本開示のいくつかの態様による、汎用プロセッサを含むシステムオンチップ（ＳＯＣ）を使用してニューラルネットワークを設計する例示的な実装形態を示す図。 [0015]本開示の態様による、システムの例示的な実装形態を示す図。 [0016]本開示の態様による、ニューラルネットワークを示す図。 [0017]本開示の態様による、例示的な深層畳み込みネットワーク（ＤＣＮ）を示すブロック図。 [0018]本開示の態様による、人工知能（ＡＩ）機能をモジュール化し得る例示的なソフトウェアアーキテクチャを示すブロック図。 [0019]本開示の態様による、スマートフォン上のＡＩアプリケーションのランタイム動作を示すブロック図。 [0020]従来の特徴抽出器のための一般的なアーキテクチャを示すブロック図。 [0021]本開示の態様による、特徴抽出装置のための例示的なアーキテクチャを示すブロック図。 [0022]本開示の態様による、特徴抽出装置のための例示的なアーキテクチャを示すブロック図。本開示の態様による、特徴抽出装置のための例示的なアーキテクチャを示すブロック図。 [0023]本開示の態様による、特徴抽出のための方法を示す図。 [0024]本開示の態様による、特徴抽出のための流れ図。

[0025]添付の図面に関して以下に記載される発明を実施するための形態は、様々な構成を説明するものであり、本明細書で説明される概念が実施され得る構成のみを表すものではない。発明を実施するための形態は、様々な概念の完全な理解を与えるための具体的な詳細を含む。ただし、これらの概念はこれらの具体的な詳細なしに実施され得ることが当業者には明らかであろう。いくつかの事例では、そのような概念を不明瞭にしないように、よく知られている構造および構成要素がブロック図の形式で示される。

[0026]これらの教示に基づいて、本開示の範囲は、本開示の他の態様とは無関係に実装されるにせよ、本開示の他の態様と組み合わせて実装されるにせよ、本開示のいかなる態様をもカバーするものであることを、当業者なら諒解されたい。たとえば、記載された態様をいくつ使用しても、装置は実装され得るか、または方法は実施され得る。さらに、本開示の範囲は、記載された本開示の様々な態様に加えてまたはそれらの態様以外に、他の構造、機能、または構造および機能を使用して実施されるそのような装置または方法をカバーするものとする。開示される本開示のいずれの態様も、請求項の１つまたは複数の要素によって実施され得ることを理解されたい。

[0027]「例示的」という単語は、本明細書では「例、事例、または例示の働きをすること」を意味するために使用される。「例示的」として本明細書で説明されるいかなる態様も、必ずしも他の態様よりも好適または有利であると解釈されるべきであるとは限らない。

[0028]本明細書では特定の態様が説明されるが、これらの態様の多くの変形および置換は本開示の範囲内に入る。好適な態様のいくつかの利益および利点が説明されるが、本開示の範囲は特定の利益、使用、または目的に限定されるものではない。むしろ、本開示の態様は、様々な技術、システム構成、ネットワーク、およびプロトコルに広く適用可能であるものとし、それらのいくつかが、例として、図および好適な態様についての以下の説明において示される。発明を実施するための形態および図面は、本開示を限定するものではなく説明するものにすぎず、本開示の範囲は添付の特許請求の範囲およびそれの均等物によって定義される。

[0029]いくつかのネットワークでは、画像中の特定のオブジェクトを決定するために、画像がマスキングおよび処理され得る。さらに、他のネットワークでは、所望の出力が受信されるまで、画像の異なるエリアがサンプリングされ得る。たとえば、ネットワークは、第１の領域をサンプリングすることと、ネットワークが画像のコンテンツを確認するために画像の他の領域をサンプリングすべきであるかどうかを決定することとによって、開始し得る。一例として、第１の領域は、ビーチチェアの脚と砂とを含み得る。したがって、ネットワークは、画像が、ビーチに関連する海洋および／または他のオブジェクトを含むかどうかを決定するために、画像の第２の領域がサンプリングされるべきであると決定する。すなわち、第２の領域は、第１の領域のコンテンツに基づいて選択される。

[0030]画像の逐次サンプリングは、人間の視覚サンプリングと同様である。すなわち、たいていの場合、人間は、画像のコンテンツについて一定の信頼度に達するまで、画像のエリアを逐次サンプリングする。したがって、所与の領域をサンプリングするとき、ネットワークは所与の領域のコンテンツを決定する。さらに、ネットワークはまた、顔を認識することなど、タスクに関連する追加情報を集めるために、サンプリングされるべき後続の領域を決定する。より詳細には、様々なオブジェクトおよび／または高度な細部をもつシーンでは、一度にシーン全体をサンプリングするのではなく、シーンの領域を逐次サンプリングすることが望ましい。

[0031]図１に、本開示のいくつかの態様による、汎用プロセッサ（ＣＰＵ）またはマルチコア汎用プロセッサ（ＣＰＵ）１０２を含み得るシステムオンチップ（ＳＯＣ）１００を使用する逐次サンプリングによる上述の特徴抽出の例示的な実装形態を示す。変数（たとえば、ニューラル信号およびシナプス荷重）、計算デバイスに関連するシステムパラメータ（たとえば、重みをもつニューラルネットワーク）、遅延、周波数ビン情報、およびタスク情報が、ニューラル処理ユニット（ＮＰＵ）１０８に関連するメモリブロックに記憶されるか、または専用メモリブロック１１８に記憶され得る。汎用プロセッサ１０２において実行される命令が、ＣＰＵ１０２に関連するプログラムメモリからロードされ得るか、または専用メモリブロック１１８からロードされ得る。

[0032]ＳＯＣ１００はまた、グラフィックス処理ユニット（ＧＰＵ）１０４、デジタル信号プロセッサ（ＤＳＰ）１０６など、特定の機能に適合された追加の処理ブロックと、第４世代ロングタームエボリューション（４ＧＬＴＥ）接続性、無認可Ｗｉ−Ｆｉ（登録商標）接続性、ＵＳＢ接続性、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続性などを含み得る接続性ブロック１１０と、たとえば、ジェスチャーを検出および認識し得るマルチメディアプロセッサ１１２とを含み得る。ＳＯＣ１００はまた、センサープロセッサ１１４、画像信号プロセッサ（ＩＳＰ）、および／または全地球測位システムを含み得るナビゲーション１２０を含み得る。ＳＯＣはＡＲＭ命令セットに基づき得る。

[0033]ＳＯＣ１００はまた、ＧＰＵ１０４、ＤＳＰ１０６など、特定の機能に適合された追加の処理ブロックと、第４世代ロングタームエボリューション（４ＧＬＴＥ）接続性、無認可Ｗｉ−Ｆｉ接続性、ＵＳＢ接続性、Ｂｌｕｅｔｏｏｔｈ接続性などを含み得る接続性ブロック１１０と、たとえば、ジェスチャーを検出および認識し得るマルチメディアプロセッサ１１２とを含み得る。一実装形態では、ＮＰＵは、ＣＰＵ、ＤＳＰ、および／またはＧＰＵにおいて実装される。ＳＯＣ１００はまた、センサープロセッサ１１４、画像信号プロセッサ（ＩＳＰ）、および／または全地球測位システムを含み得るナビゲーション１２０を含み得る。

[0034]ＳＯＣ１００はＡＲＭ（登録商標）命令セットに基づき得る。本開示の一態様では、汎用プロセッサ１０２にロードされる命令は、特徴抽出のための参照モデルを決定するためのコードを備え得る。汎用プロセッサ１０２にロードされる命令はまた、異なるタスクのために参照モデルを微調整するためのコードを備え得る。汎用プロセッサ１０２にロードされる命令はまた、微調整中に計算された重み差分のセットを記憶するためのコードを備え得る。

[0035]図２に、本開示のいくつかの態様による、システム２００の例示的な実装形態を示す。図２に示されているように、システム２００は、本明細書で説明される方法の様々な動作を実行し得る複数のローカル処理ユニット２０２を有し得る。各ローカル処理ユニット２０２は、ローカル状態メモリ２０４と、ニューラルネットワークのパラメータを記憶し得るローカルパラメータメモリ２０６とを備え得る。さらに、ローカル処理ユニット２０２は、ローカルモデルプログラムを記憶するためのローカル（ニューロン）モデルプログラム（ＬＭＰ）メモリ２０８と、ローカル学習プログラムを記憶するためのローカル学習プログラム（ＬＬＰ）メモリ２１０と、ローカル接続メモリ２１２とを有し得る。さらに、図２に示されているように、各ローカル処理ユニット２０２は、ローカル処理ユニットのローカルメモリのための構成を与えるための構成プロセッサユニット２１４、およびローカル処理ユニット２０２間のルーティングを与えるルーティング接続処理ユニット２１６とインターフェースし得る。

[0036]深層学習アーキテクチャは、各層において連続的により高い抽象レベルで入力を表現するように学習し、それにより、入力データの有用な特徴表現を蓄積することによって、オブジェクト認識タスクを実行し得る。このようにして、深層学習は、旧来の機械学習の主要なボトルネックに対処する。深層学習の出現より前に、オブジェクト認識問題に対する機械学習手法は、場合によっては浅い分類器（shallow classifier）と組み合わせて、人的に設計された特徴に大きく依拠していることがある。浅い分類器は、たとえば、入力がどのクラスに属するかを予測するために、特徴ベクトル成分の重み付き和がしきい値と比較され得る２クラス線形分類器であり得る。人的に設計された特徴は、領域の専門知識をもつ技術者によって特定の問題領域に適合されたテンプレートまたはカーネルであり得る。対照的に、深層学習アーキテクチャは、人間の技術者が設計し得るものと同様である特徴を表現するように学習するが、トレーニングを通してそれを行い得る。さらに、深層ネットワークは、人間が考慮していないことがある新しいタイプの特徴を表現し、認識するように学習し得る。

[0037]深層学習アーキテクチャは特徴の階層を学習し得る。たとえば、視覚データが提示された場合、第１の層は、エッジなど、入力ストリーム中の比較的単純な特徴を認識するように学習し得る。別の例では、聴覚データが提示された場合、第１の層は、特定の周波数におけるスペクトル電力を認識するように学習し得る。第１の層の出力を入力として取る第２の層は、視覚データの場合の単純な形状、または聴覚データの場合の音の組合せなど、特徴の組合せを認識するように学習し得る。たとえば、上位層は、視覚データ中の複雑な形状、または聴覚データ中の単語を表現するように学習し得る。さらに上位の層は、共通の視覚オブジェクトまたは発話フレーズを認識するように学習し得る。

[0038]深層学習アーキテクチャは、自然階層構造を有する問題に適用されたとき、特にうまく機能し得る。たとえば、原動機付き車両の分類は、ホイール、フロントガラス、および他の特徴を認識するための第１の学習から恩恵を受け得る。これらの特徴は、車、トラック、および飛行機を認識するために、異なる方法で、上位層において組み合わせられ得る。

[0039]ニューラルネットワークは、様々な結合性パターンを用いて設計され得る。フィードフォワードネットワークでは、情報が下位層から上位層に受け渡され、所与の層における各ニューロンは、上位層におけるニューロンに通信する。上記で説明されたように、フィードフォワードネットワークの連続する層において、階層表現が蓄積され得る。ニューラルネットワークはまた、リカレントまたは（トップダウンとも呼ばれる）フィードバック結合を有し得る。リカレント結合では、所与の層におけるニューロンからの出力は、同じ層における別のニューロンに通信され得る。リカレントアーキテクチャは、ニューラルネットワークに逐次配信される入力データチャンクのうちの２つ以上にわたるパターンを認識するのに役立ち得る。所与の層におけるニューロンから下位層におけるニューロンへの結合は、フィードバック（またはトップダウン）結合と呼ばれる。高レベルの概念の認識が、入力の特定の低レベルの特徴を弁別することを助け得るとき、多くのフィードバック結合をもつネットワークが役立ち得る。

[0040]図３Ａを参照すると、ニューラルネットワークの層間の結合は全結合３０２または局所結合３０４であり得る。全結合ネットワーク３０２では、第１の層におけるニューロンは、第２の層における各ニューロンが第１の層におけるあらゆるニューロンから入力を受信するように、それの出力を第２の層におけるあらゆるニューロンに通信し得る。代替的に、局所結合ネットワーク３０４では、第１の層におけるニューロンは、第２の層における限られた数のニューロンに結合され得る。畳み込みネットワーク３０６は、局所結合であり得、第２の層における各ニューロンのための入力に関連する結合強度が共有されるようにさらに構成される（たとえば、３０８）。より一般的には、ネットワークの局所結合層は、層における各ニューロンが同じまたは同様の結合性パターンを有するように構成されるが、異なる値を有し得る結合強度で構成され得る（たとえば、３１０、３１２、３１４、および３１６）。局所結合の結合性パターンは、所与の領域中の上位層ニューロンが、ネットワークへの総入力のうちの制限された部分のプロパティにトレーニングを通して調整された入力を受信し得るので、上位層において空間的に別個の受容野を生じ得る。

[0041]局所結合ニューラルネットワークは、入力の空間ロケーションが意味を持つ問題に好適であり得る。たとえば、車載カメラからの視覚特徴を認識するように設計されたネットワーク３００は、画像の下側部分対上側部分とのそれらの関連付けに依存して、異なるプロパティをもつ上位層ニューロンを発達させ得る。画像の下側部分に関連するニューロンは、たとえば、車線区分線を認識するように学習し得るが、画像の上側部分に関連するニューロンは、交通信号、交通標識などを認識するように学習し得る。

[0042]ＤＣＮは、教師あり学習を用いてトレーニングされ得る。トレーニング中に、ＤＣＮは、速度制限標識のクロップされた画像３２６など、画像を提示され得、次いで、出力３２２を生成するために、「フォワードパス」が計算され得る。出力３２２は、「標識」、「６０」、および「１００」など、特徴に対応する値のベクトルであり得る。ネットワーク設計者は、ＤＣＮが、出力特徴ベクトルにおけるニューロンのうちのいくつか、たとえば、トレーニングされたネットワーク３００のための出力３２２に示されているように「標識」および「６０」に対応するニューロンについて、高いスコアを出力することを希望し得る。トレーニングの前に、ＤＣＮによって生成された出力は不正確である可能性があり、したがって、実際の出力とターゲット出力との間で誤差が計算され得る。次いで、ＤＣＮの重みは、ＤＣＮの出力スコアがターゲットとより密接に整合されるように調節され得る。

[0043]重みを調節するために、学習アルゴリズムは、重みのための勾配ベクトルを計算し得る。勾配は、重みがわずかに調節された場合に、誤差が増加または減少する量を示し得る。最上層において、勾配は、最後から２番目の層における活性化されたニューロンと出力層におけるニューロンとを結合する重みの値に直接対応し得る。下位層では、勾配は、重みの値と、上位層の計算された誤差勾配とに依存し得る。次いで、重みは、誤差を低減するように調節され得る。重みを調節するこの様式は、それがニューラルネットワークを通して「バックワードパス」を伴うので、「バックプロパゲーション」と呼ばれることがある。

[0044]実際には、重みの誤差勾配は、計算された勾配が真の誤差勾配を近似するように、少数の例にわたって計算され得る。この近似方法は、確率的勾配降下（stochastic gradient descent）と呼ばれることがある。システム全体の達成可能な誤差レートが減少しなくなるまで、または誤差レートがターゲットレベルに達するまで、確率的勾配降下が繰り返され得る。

[0045]学習の後に、ＤＣＮは新しい画像３２６を提示され得、ネットワークを通したフォワードパスは、ＤＣＮの推論または予測と見なされ得る出力３２２をもたらし得る。

[0046]深層信念ネットワーク（ＤＢＮ：deep belief network）は、隠れノードの複数の層を備える確率モデルである。ＤＢＮは、トレーニングデータセットの階層表現を抽出するために使用され得る。ＤＢＮは、制限ボルツマンマシン（ＲＢＭ：Restricted Boltzmann Machine）の層を積層することによって取得され得る。ＲＢＭは、入力のセットにわたる確率分布を学習することができる人工ニューラルネットワークのタイプである。ＲＢＭは、各入力がそれにカテゴリー分類されるべきクラスに関する情報の不在下で確率分布を学習することができるので、ＲＢＭは、教師なし学習においてしばしば使用される。ハイブリッド教師なしおよび教師ありパラダイムを使用して、ＤＢＮの下部ＲＢＭは、教師なし様式でトレーニングされ得、特徴抽出器として働き得、上部ＲＢＭは、（前の層からの入力とターゲットクラスとの同時分布上で）教師あり様式でトレーニングされ得、分類器として働き得る。

[0047]深層畳み込みネットワーク（ＤＣＮ）は、追加のプーリング層および正規化層で構成された、畳み込みネットワークのネットワークである。ＤＣＮは、多くのタスクに関して最先端の性能を達成している。ＤＣＮは、入力と出力ターゲットの両方が、多くの標本について知られており、勾配降下方法の使用によってネットワークの重みを変更するために使用される、教師あり学習を使用してトレーニングされ得る。

[0048]ＤＣＮは、フィードフォワードネットワークであり得る。さらに、上記で説明されたように、ＤＣＮの第１の層におけるニューロンから次の上位層におけるニューロンのグループへの結合は、第１の層におけるニューロンにわたって共有される。ＤＣＮのフィードフォワードおよび共有結合は、高速処理のために活用され得る。ＤＣＮの計算負担は、たとえば、リカレントまたはフィードバック結合を備える同様のサイズのニューラルネットワークのそれよりもはるかに少ないことがある。

[0049]畳み込みネットワークの各層の処理は、空間的に不変のテンプレートまたは基底投射と見なされ得る。入力が、カラー画像の赤色、緑色、および青色チャネルなど、複数のチャネルに最初に分解された場合、その入力に関してトレーニングされた畳み込みネットワークは、画像の軸に沿った２つの空間次元と、色情報をキャプチャする第３の次元とをもつ、３次元であると見なされ得る。畳み込み結合の出力は、後続の層３１８および３２０において特徴マップを形成すると考えられ、特徴マップ（たとえば、３２０）の各要素が、前の層（たとえば、３１８）における様々なニューロンから、および複数のチャネルの各々から入力を受信し得る。特徴マップにおける値は、整流（rectification）、ｍａｘ（０，ｘ）など、非線形性を用いてさらに処理され得る。隣接するニューロンからの値は、さらにプールされ得、これは、ダウンサンプリングに対応し、さらなる局所不変性と次元削減とを与え得る。白色化に対応する正規化はまた、特徴マップにおけるニューロン間のラテラル抑制によって適用され得る。

[0050]深層学習アーキテクチャの性能は、より多くのラベリングされたデータポイントが利用可能となるにつれて、または計算能力が増加するにつれて、向上し得る。現代の深層ニューラルネットワークは、ほんの１５年前に一般的な研究者にとって利用可能であったものより数千倍も大きいコンピューティングリソースを用いて、ルーチン的にトレーニングされる。新しいアーキテクチャおよびトレーニングパラダイムが、深層学習の性能をさらに高め得る。修正された線形ユニット（rectified linear unit）は、勾配消失（vanishing gradients）として知られるトレーニング問題を低減し得る。新しいトレーニング技法は、過学習（over-fitting）を低減し、したがって、より大きいモデルがより良い汎化を達成することを可能にし得る。カプセル化技法は、所与の受容野においてデータを抽出し、全体的性能をさらに高め得る。

[0051]図３Ｂは、例示的な深層畳み込みネットワーク３５０を示すブロック図である。深層畳み込みネットワーク３５０は、結合性および重み共有に基づく、複数の異なるタイプの層を含み得る。図３Ｂに示されているように、例示的な深層畳み込みネットワーク３５０は、複数の畳み込みブロック（たとえば、Ｃ１およびＣ２）を含む。畳み込みブロックの各々は、畳み込み層と、正規化層（ＬＮｏｒｍ）と、プーリング層とで構成され得る。畳み込み層は、１つまたは複数の畳み込みフィルタを含み得、これは、特徴マップを生成するために入力データに適用され得る。２つの畳み込みブロックのみが示されているが、本開示はそのように限定しておらず、代わりに、設計選好に従って、任意の数の畳み込みブロックが深層畳み込みネットワーク３５０中に含まれ得る。正規化層は、畳み込みフィルタの出力を正規化するために使用され得る。たとえば、正規化層は、白色化またはラテラル抑制を行い得る。プーリング層は、局所不変性および次元削減のために、空間にわたってダウンサンプリングアグリゲーションを行い得る。

[0052]たとえば、深層畳み込みネットワークの並列フィルタバンクは、高性能および低電力消費を達成するために、随意にＡＲＭ命令セットに基づいて、ＳＯＣ１００のＣＰＵ１０２またはＧＰＵ１０４にロードされ得る。代替実施形態では、並列フィルタバンクは、ＳＯＣ１００のＤＳＰ１０６またはＩＳＰ１１６にロードされ得る。さらに、ＤＣＮは、センサー１１４およびナビゲーション１２０に専用の処理ブロックなど、ＳＯＣ上に存在し得る他の処理ブロックにアクセスし得る。

[0053]深層畳み込みネットワーク３５０はまた、１つまたは複数の全結合層（たとえば、ＦＣ１およびＦＣ２）を含み得る。深層畳み込みネットワーク３５０は、ロジスティック回帰（ＬＲ）層をさらに含み得る。深層畳み込みネットワーク３５０の各層の間には、更新されるべき重み（図示せず）がある。各層の出力は、第１の畳み込みブロックＣ１において供給された入力データ（たとえば、画像、オーディオ、ビデオ、センサーデータおよび／または他の入力データ）から階層特徴表現を学習するために、深層畳み込みネットワーク３５０中の後続の層の入力として働き得る。

[0054]図４は、人工知能（ＡＩ）機能をモジュール化し得る例示的なソフトウェアアーキテクチャ４００を示すブロック図である。アーキテクチャを使用して、ＳＯＣ４２０の様々な処理ブロック（たとえば、ＣＰＵ４２２、ＤＳＰ４２４、ＧＰＵ４２６および／またはＮＰＵ４２８）に、アプリケーション４０２のランタイム動作中に計算をサポートすることを実行させ得るアプリケーション４０２が設計され得る。

[0055]ＡＩアプリケーション４０２は、たとえば、デバイスが現在動作するロケーションを示すシーンの検出および認識を与え得る、ユーザ空間４０４において定義されている機能を呼び出すように構成され得る。ＡＩアプリケーション４０２は、たとえば、認識されたシーンがオフィス、講堂、レストラン、または湖などの屋外環境であるかどうかに応じて別様に、マイクロフォンおよびカメラを構成し得る。ＡＩアプリケーション４０２は、現在のシーンの推定を与えるために、ＳｃｅｎｅＤｅｔｅｃｔアプリケーションプログラミングインターフェース（ＡＰＩ）４０６において定義されているライブラリに関連するコンパイルされたプログラムコードへの要求を行い得る。この要求は、たとえば、ビデオおよび測位データに基づくシーン推定を与えるように構成された深層ニューラルネットワークの出力に最終的に依拠し得る。

[0056]さらに、ランタイムフレームワークのコンパイルされたコードであり得るランタイムエンジン４０８が、ＡＩアプリケーション４０２にとってアクセス可能であり得る。ＡＩアプリケーション４０２は、たとえば、ランタイムエンジンに、特定の時間間隔における、またはアプリケーションのユーザインターフェースによって検出されたイベントによってトリガされた、シーン推定を要求させ得る。シーンを推定させられたとき、ランタイムエンジンは、ＳＯＣ４２０上で実行している、Ｌｉｎｕｘ（登録商標）カーネル４１２など、オペレーティングシステム４１０に信号を送り得る。オペレーティングシステム４１０は、ＣＰＵ４２２、ＤＳＰ４２４、ＧＰＵ４２６、ＮＰＵ４２８、またはそれらの何らかの組合せ上で、計算を実行させ得る。ＣＰＵ４２２は、オペレーティングシステムによって直接アクセスされ得、他の処理ブロックは、ＤＳＰ４２４のための、ＧＰＵ４２６のための、またはＮＰＵ４２８のためのドライバ４１４〜４１８など、ドライバを通してアクセスされ得る。例示的な例では、深層ニューラルネットワークは、ＣＰＵ４２２およびＧＰＵ４２６など、処理ブロックの組合せ上で動作するように構成され得るか、または存在する場合、ＮＰＵ４２８上で動作させられ得る。

[0057]図５は、スマートフォン５０２上のＡＩアプリケーションのランタイム動作５００を示すブロック図である。ＡＩアプリケーションは、画像５０６のフォーマットを変換し、次いで画像５０８をクロップおよび／またはリサイズするように（たとえば、ＪＡＶＡ（登録商標）プログラミング言語を使用して）構成され得る前処理モジュール５０４を含み得る。次いで、前処理された画像は、視覚入力に基づいてシーンを検出および分類するように（たとえば、Ｃプログラミング言語を使用して）構成され得るＳｃｅｎｅＤｅｔｅｃｔバックエンドエンジン５１２を含んでいる分類アプリケーション５１０に通信され得る。ＳｃｅｎｅＤｅｔｅｃｔバックエンドエンジン５１２は、スケーリング５１６およびクロッピング５１８によって、画像をさらに前処理５１４するように構成され得る。たとえば、画像は、得られた画像が２２４ピクセル×２２４ピクセルであるように、スケーリングされ、クロップされ得る。これらの次元は、ニューラルネットワークの入力次元にマッピングし得る。ニューラルネットワークは、ＳＯＣ１００の様々な処理ブロックに、深層ニューラルネットワークを用いて画像ピクセルをさらに処理させるように、深層ニューラルネットワークブロック５２０によって構成され得る。次いで、深層ニューラルネットワークの結果は、しきい値処理５２２され、分類アプリケーション５１０中の指数平滑化ブロック５２４を通され得る。次いで、平滑化された結果は、スマートフォン５０２の設定および／またはディスプレイの変更を生じ得る。

[0058]図６は、特徴抽出器６００のための一般的なアーキテクチャを示すブロック図である。アーキテクチャは、特徴学習器６０２とタスク学習器６０４とを含み得る。タスク学習器６０４は、分類器などの出力学習器６０６と、ローカライザー（localizer）モデルなどのサンプリング学習器６０８とを含み得る。

[0059]従来のシステムでは、特徴抽出器６００は、画像などの入力から特徴を学習するように指定される。詳細には、特徴学習器６０２は、画像またはオーディオ選択など、入力を受信し得、入力から特徴を抽出する。抽出された特徴は、タスクを実行するためにタスク学習器６０４に入力される。例示的なタスクは、オブジェクト認識、顔認識、音声認識、シーン認識、および／または他のタスクを含み得る。たいていの場合、出力学習器６０６は、抽出された（１つまたは複数の）特徴のコンテンツを決定する。たとえば、出力学習器６０６は、抽出された特徴をビーチボールの画像として分類し得る。さらに、サンプリング学習器６０８は、抽出（すなわち、サンプリング）すべき入力の後続の領域を決定する。すなわち、抽出された（１つまたは複数の）特徴に基づいて、サンプリング学習器６０８は、入力の別の領域から１つまたは複数の特徴を抽出するように特徴学習器６０２に命令する。

[0060]一例として、従来のシステムでは、数字５の画像６１０が、特徴学習器６０２に入力され得る。この例では、特徴学習器６０２は、１つまたは複数の解像度で画像６１０の下側部分６１２から特徴を抽出し得る。抽出された下側部分６１２は、出力学習器６０６およびサンプリング学習器６０８に入力される。入力に基づいて、出力学習器６０６は、画像を数字３、数字５、または数字９のいずれかであるとして分類し得る。詳細には、この例では、３、５、および９のみが、開いた湾曲した下部をもつ数字であるので、出力学習器６０６は、画像を上述の数字のうちの１つであるとして分類し得る。さらに、この例では、サンプリングされた領域に基づいて、画像６１０が３つの数字のうちの１つであり得るので、特定の数字についての出力学習器６０６の信頼度は低い。

[0061]したがって、出力学習器６０６が、画像６１０中にある特定の数字に関する高信頼度を有しないことがあるので、サンプリング学習器６０８は、画像６１０の左上隅６１４を抽出するように特徴学習器６０２に命令し得る。この例では、左上隅６１４は、数字３、５、および９の間で一意である。したがって、下側部分６１２の第１のサンプルに基づいて、サンプリング学習器６０８は、画像６１０の左上隅６１４をサンプリングすることが、画像６１０の分類を改善する特徴をもたらし得ると決定する。どの後続の領域が特徴抽出されるかの決定は、強化学習（reinforcement learning）から決定された重みに基づき得る。

[0062]画像６１０の左上隅６１４（すなわち、画像の第２の領域）からの特徴に基づいて、出力学習器６０６は、画像６１０を数字５として分類し得る。この例では、画像６１０の左上隅６１４からの特徴に基づいて、出力学習器６０６からの分類の信頼度は、しきい値を上回り得る。したがって、分類の信頼度がしきい値を上回るので、サンプリング学習器６０８は、画像６１０の他の領域がサンプリングされるべきでないと決定し得る。

[0063]前に説明したように、現在の領域に基づいて、従来のネットワークは、強化学習から決定された重みに基づいて、抽出のための後続の領域を決定する。さらに、従来のネットワークは、一度にすべての重みを決定し得る。すなわち、従来のネットワークは、タスクと特徴とを同時にトレーニングし得る。したがって、従来のネットワークのためのトレーニング時間は増加される。したがって、事前トレーニングされた領域固有モデルからの微調整された特徴を使用することによって、ネットワークの性能を改善することが望ましい。

[0064]すなわち、特徴抽出のために望ましいことがある、入力の特定の特徴を決定するために、特定のモデルが事前トレーニングされ得る。たとえば、入力が自然のシーンの画像である場合、Ｉｍａｇｅｎｅｔからトレーニングされたモデルなど、様々な事前トレーニングされたモデルが、自然のシーンから関連する特徴を抽出するために使用され得る。したがって、タスクと特徴とを同時にトレーニングするのではなく、事前トレーニングされたモデルがネットワークのために指定され得、事前トレーニングされたモデルの特徴が微調整され得る。微調整は、モデル中の重みを調節するためのバックプロパゲーションによって実行され得る。モデルは、深層畳み込みネットワーク（ＤＣＮ）であり得る。

[0065]本構成では、最初に０に設定された重みから特徴を学習するのではなく、事前トレーニングされた参照モデルが使用され、強化学習によって微調整される。トレーニングの始めにネットワークの初期層が関連する出力を生成することを指定することによって、トレーニング時間を低減するために、事前学習された特徴を使用することが望ましいことがある。

[0066]図７は、本開示の態様による、特徴抽出器７００のための例示的なアーキテクチャを示すブロック図である。図７を参照すると、深層畳み込みネットワークなどの参照モデル７０２が、特徴学習器として構成され得る。深層畳み込みネットワークが図７の例示的なアーキテクチャにおいて示されているが、本開示はそのように限定されず、他の機械学習ネットワークが使用され得る。

[0067]一構成では、タスクと特徴とを同時にトレーニングするのではなく、参照モデル７０２は、事前トレーニングされた参照モデルを使用して構成され得る。たとえば、いくつかの態様では、参照モデルは、Ｉｍａｇｅｎｅｔなどのデータセットまたは他の事前トレーニングされたデータセットに関して事前トレーニングされ得る。特徴は、実行されるべきタスクに応じて、たとえば、バックプロパゲーションを使用して微調整され得る。事前トレーニングされた参照モデルを使用することによって、最初の特徴が入力のコンテンツについての情報を与え得、トレーニング時間が減少され得る。

[0068]特徴抽出器７００も、出力学習器７０４とサンプリング学習器７０６とを含み得るタスク学習器７０８を含み得る。出力学習器７０４は、参照モデル７０２から抽出された特徴を分類し得る。さらに、サンプリング学習器７０６は、サンプリングすべき入力の次の部分を決定するように構成され得る。いくつかの態様では、サンプリング学習器７０６は、入力に関係するサンプリング情報を決定するための、アテンションモデル（attention model）または他のローカライゼーションモデル（localization model）として構成され得る。サンプリング情報は、フィードバックとして参照モデル７０２に供給され得る。

[0069]いくつかの場合には、異なるタスクがネットワークのために指定され得る。たとえば、第１のタスクが、犬か猫かを分類することであり得、第２のタスクが、男性か女性かを分類することであり得る。したがって、第１のタスクのために学習された重みは、第２のタスクのために学習された重みとは異なり得る。したがって、重みの変化は、事前トレーニングされた参照モデルの重みとは異なることになる。さらに、事前トレーニングされた参照モデルの重みからの重みの変化は、ネットワークの重み全体と比較して小さいことがある。

[0070]したがって、画像特徴など、特徴の標準セットを微調整することは、微調整された特徴が、シーン認識、オブジェクト認識、および／または顔認識など、タスクに応じた、元のセットからのデルタとして記憶されることを可能にする。各タスクモデルのための完全な値ではなく、標準セットからのデルタ重み（delta weight）を記憶することは、記憶のためのビット数を低減し、および／または非０デルタのみを記憶することによってスパース記憶を可能にし得る。

[0071]一構成では、ネットワークは、元の事前トレーニングされた深層畳み込みネットワークなどのベースモデルと、元の事前トレーニングされた深層畳み込みネットワークと特定のタスクのためにトレーニングされた深層畳み込みネットワークとの間の重みの変化とを記憶する。すなわち、各タスクのためにトレーニングされた大きいネットワークを記憶するのではなく、本開示の態様は、元の事前トレーニングされた深層畳み込みネットワークと、各タスクのための深層畳み込みネットワークデルタ重みとを記憶することによって、記憶されるデータの量を低減することを対象とする。重みの変化は、デルタ重みと呼ばれることがある。その上、深層畳み込みネットワークについての重みの変化は、深層畳み込みネットワークデルタ重みと呼ばれることがある。

[0072]たとえば、従来のネットワークでは、第１の深層畳み込みネットワークが顔認識のために指定され、第２の深層畳み込みネットワークがシーン認識のために指定される。第１の深層畳み込みネットワークと第２の深層畳み込みネットワークとは、異なるデータを使用してトレーニングおよび微調整された、異なる深層畳み込みネットワークである。その上、従来のネットワークは、第１の深層畳み込みネットワークと第２の深層畳み込みネットワークの両方を記憶することになる。さらに、メモリ制約により、２つの深層畳み込みネットワークを記憶することは望ましくないことがある。したがって、一構成では、事前トレーニングされた深層畳み込みネットワークが記憶され、各タスク（たとえば、顔認識およびシーン認識）の深層畳み込みネットワークデルタ重みが記憶される。

[0073]追加または代替として、ローカライザーネットワークが記憶され得る。ローカライザーは、現在の領域の分類に基づいて、抽出のための後続の領域を決定する。さらに、ローカライザーはタスク依存であり得る。たとえば、分類されたオブジェクトが顔であるのか数字であるのかに基づいて、探索すべき後続の領域が異なる。一構成では、ボトムアップローカライザーが、画像またはオーディオなど、入力間で普遍的であり得る特徴のために使用され得る。

[0074]たとえば、ボトムアップローカライザーは、画像中の特定のコントラストを探索するために使用され得る。この例では、ロケーションポリシーは、高コントラストなど、特定のコントラストをもつ画像の領域から特徴を抽出するように指定され得る。さらに、ボトムアップローカライザーは、強化学習を介して、特定のタスクのために微調整され得る。微調整は、特定のタスクに基づいて、ボトムアップローカライザーの重みを変更し得る。したがって、一構成では、各タスクに固有であるローカライザーを記憶するのではなく、元のボトムアップローカライザーが、各タスクのために指定されたローカライザーデルタ重みとともに記憶される。

[0075]さらに、分類器が各タスクについて異なり得る。たとえば、数字のための分類器は１０個の数字を分類し得るが、顔のための分類器は数百個の顔を含み得る。したがって、別個の分類器が各タスクのために記憶され得る。

[0076]図８Ａに示されているように、事前トレーニングされた参照モデルからのタスク固有差分が記憶され得る。すなわち、各異なるタスクのための完全なモデルを記憶するのではなく、事前トレーニングされた参照モデル８０２が、異なるタスクの各々のための深層畳み込みネットワークデルタ重み差分８０４〜８０８とともに記憶され得る。さらに、分類器８１０〜８１４およびローカライザー８１６〜８２０が、各タスクのために記憶される。最終的に、ボトムアップローカライザー８２２が、ネットワークのために記憶され得る。タスク固有差分は、深層畳み込みネットワークデルタ重み、ローカライザーデルタ重み、および分類器など、タスク固有項目を含み得る。

[0077]たとえば、図８Ａに示されているように、事前トレーニングされた参照モデル８０２は、顔認識タスクデルタ重み８０４、オブジェクト認識タスクデルタ重み８０８、およびシーン認識タスクデルタ重み８０６とともに記憶され得る。タスクのタイプおよび数は例にすぎず、限定するものではないことに留意されたい。

[0078]いくつかの態様では、参照モデルはローカライゼーションモデルを備え得る。同様に、事前トレーニングされたローカライゼーション参照モデルは、異なるタスクの各々のためのローカライゼーションデルタ重みとともに記憶され得る。たとえば、図８Ａに示されているように、ローカライゼーション参照モデルは、ボトムアップローカライザー８２２として構成され得る。さらに、オブジェクト認識ローカライザーデルタ重み８１６、シーン認識ローカライザーデルタ重み８１８、および／または顔認識ローカライザーデルタ重み８２０が、各タスクのために記憶され得る。最終的に、オブジェクト認識分類器８１０、シーン認識分類器８１２、および／または顔認識ローカライザー分類器８１４が、各タスクのために記憶され得る。

[0079]図８Ｂに、指定されたタスクに基づいて、記憶されたタスク関係項目を使用するように指定された特徴抽出器８５０の一例を示す。図８Ｂに示されているように、特徴抽出器８５０は、特徴学習器８４０を含む。特徴学習器８４０は、顔認識またはオブジェクト認識など、所与のタスクに基づいて特徴重み８３２をロードする特徴抽出参照モデル８３０を含み得る。さらに、特徴抽出器８５０は、タスク学習器８４２を含む。タスク学習器８４２は、所与のタスクに基づいてロードされる、分類器８３４とローカライザーモデル８３６とを含む。ローカライザーモデル８３６は、ボトムアップローカライザー８３８など、ローカライザー参照モデルと、ローカライザーデルタ重み８３９とを含む。前に説明したように、特徴重み８３２、分類器８３４、およびローカライザーデルタ重み８３９は、所与のタスクに基づいて、記憶されたタスク関係項目からロードされ得る。

[0080]図９に、特徴抽出のための方法９００を示す。ブロック９０２において、プロセスは、特徴抽出のための参照モデルを決定する。参照モデルはローカライゼーション（アテンション）モデルを備え得る。いくつかの態様では、参照モデルは特徴学習モデルを備え得る。

[0081]ブロック９０４において、プロセスは、異なるタスクのために参照モデルを微調整する。いくつかの態様では、微調整することは、タスク固有分類器を適用することを備え得る。

[0082]さらに、ブロック９０６において、プロセスは、微調整中に計算された重み差分のセットを記憶する。重み差分の各セットは、異なるタスクに対応し得る。いくつかの態様では、プロセスは、非０重み差分のみを記憶することを含む。

[0083]図１０に、本開示の一態様による、特徴抽出のための流れ図１０００を示す。ブロック１００２において、深層畳み込みネットワーク（または他のタイプの機械学習モデル）など、参照モデルをデータセットに関して事前トレーニングする。ブロック１００４において、参照モデルは、強化学習のための入力を受信する。さらに、ブロック１００６において、入力は、実行されるべきタスクに応じて、参照モデルの事前トレーニングされた特徴を微調整するために使用される。バックプロパゲーションが、参照モデルを微調整するために使用され得る。

[0084]ブロック１００８において、出力学習器が、参照モデルから抽出された特徴を分類する。さらに、ブロック１０１０において、サンプリング学習器が、サンプリングすべき入力の次の部分を決定する。ブロック１０１２において、参照モデルは、微調整が完了したかどうかを決定する。たとえば、性能レベル、メモリストレージ、または処理効率が、微調整が完了したかどうかを決定するために考慮され得る。

[0085]微調整が完了していない場合、参照モデルは、入力から抽出された特徴を用いて微調整され続ける（ブロック１００８）。代替的に、微調整が完了した場合、ネットワークのために指定された各タスクについて、ブロック１０１４において、ネットワークは、第１のタスクのために学習された重みが第２のタスクのために学習された重みとは異なるかどうかを決定する。タスクの重みが異なる場合、微調整された特徴を、元のセットからのデルタ重みとして記憶する（ブロック１０１６）。重みが異ならない場合、デルタ重みを記憶しない（ブロック１０１８）。

[0086]一構成では、ＤＣＮなどの機械学習モデルが、特徴抽出のための参照モデルを決定すること、異なるタスクのために参照モデルを微調整すること、および／または微調整中に計算された重み差分のセットを記憶することを行うために構成される。モデルは、決定手段、微調整するための手段、および／または記憶手段を含む。一態様では、決定手段、微調整手段、および／または記憶手段は、具陳された機能を実行するように構成された、汎用プロセッサ１０２、汎用プロセッサ１０２に関連するプログラムメモリ、メモリブロック１１８、ローカル処理ユニット２０２、およびまたはルーティング接続処理ユニット２１６であり得る。別の構成では、上述の手段は、上述の手段によって具陳された機能を実行するように構成された任意のモジュールまたは任意の装置であり得る。

[0087]本開示のいくつかの態様によれば、各ローカル処理ユニット２０２は、ネットワークの所望の１つまたは複数の機能的特徴に基づいて深層畳み込みネットワークのパラメータを決定し、決定されたパラメータがさらに適合、調整および更新されるように、１つまたは複数の機能的特徴を所望の機能的特徴のほうへ発達させるように構成され得る。

[0088]上記で説明された方法の様々な動作は、対応する機能を実行することが可能な任意の好適な手段によって実行され得る。それらの手段は、限定はしないが、回路、特定用途向け集積回路（ＡＳＩＣ）、またはプロセッサを含む、様々な（１つまたは複数の）ハードウェアおよび／またはソフトウェア構成要素および／またはモジュールを含み得る。概して、図に示されている動作がある場合、それらの動作は、同様の番号をもつ対応するカウンターパートのミーンズプラスファンクション構成要素を有し得る。

[0089]本明細書で使用される「決定すること」という用語は、多種多様なアクションを包含する。たとえば、「決定すること」は、計算すること（calculating）、計算すること（computing）、処理すること、導出すること、調査すること、ルックアップすること（たとえば、テーブル、データベースまたは別のデータ構造においてルックアップすること）、確認することなどを含み得る。さらに、「決定すること」は、受信すること（たとえば、情報を受信すること）、アクセスすること（たとえば、メモリ中のデータにアクセスすること）などを含み得る。さらに、「決定すること」は、解決すること、選択すること、選定すること、確立することなどを含み得る。

[0090]本明細書で使用される、項目のリスト「のうちの少なくとも１つ」を指す句は、単一のメンバーを含む、それらの項目の任意の組合せを指す。一例として、「ａ、ｂ、またはｃのうちの少なくとも１つ」は、ａ、ｂ、ｃ、ａ−ｂ、ａ−ｃ、ｂ−ｃ、およびａ−ｂ−ｃを包含するものとする。

[0091]本開示に関連して説明された様々な例示的な論理ブロック、モジュールおよび回路は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ信号（ＦＰＧＡ）または他のプログラマブル論理デバイス（ＰＬＤ）、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいは本明細書で説明された機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の市販のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。

[0092]本開示に関連して説明された方法またはアルゴリズムのステップは、ハードウェアで直接実施されるか、プロセッサによって実行されるソフトウェアモジュールで実施されるか、またはその２つの組合せで実施され得る。ソフトウェアモジュールは、当技術分野で知られている任意の形態の記憶媒体中に常駐し得る。使用され得る記憶媒体のいくつかの例としては、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、フラッシュメモリ、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭなどがある。ソフトウェアモジュールは、単一の命令、または多数の命令を備え得、いくつかの異なるコードセグメント上で、異なるプログラム間で、および複数の記憶媒体にわたって分散され得る。記憶媒体は、プロセッサがその記憶媒体から情報を読み取ることができ、その記憶媒体に情報を書き込むことができるように、プロセッサに結合され得る。代替として、記憶媒体はプロセッサと一体であり得る。

[0093]本明細書で開示された方法は、説明された方法を達成するための１つまたは複数のステップまたはアクションを備える。本方法のステップおよび／またはアクションは、特許請求の範囲から逸脱することなく、互いに交換され得る。言い換えれば、ステップまたはアクションの特定の順序が指定されない限り、特定のステップおよび／またはアクションの順序および／または使用は特許請求の範囲から逸脱することなく変更され得る。

[0094]説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ハードウェアで実装される場合、例示的なハードウェア構成はデバイス中に処理システムを備え得る。処理システムは、バスアーキテクチャを用いて実装され得る。バスは、処理システムの特定の適用例および全体的な設計制約に応じて、任意の数の相互接続バスおよびブリッジを含み得る。バスは、プロセッサと、機械可読媒体と、バスインターフェースとを含む様々な回路を互いにリンクし得る。バスインターフェースは、ネットワークアダプタを、特に、バスを介して処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能を実装するために使用され得る。いくつかの態様では、ユーザインターフェース（たとえば、キーパッド、ディスプレイ、マウス、ジョイスティックなど）もバスに接続され得る。バスはまた、タイミングソース、周辺機器、電圧調整器、電力管理回路など、様々な他の回路をリンクし得るが、それらは当技術分野でよく知られており、したがってこれ以上説明されない。

[0095]プロセッサは、機械可読媒体に記憶されたソフトウェアの実行を含む、バスおよび一般的な処理を管理することを担当し得る。プロセッサは、１つまたは複数の汎用および／または専用プロセッサを用いて実装され得る。例としては、マイクロプロセッサ、マイクロコントローラ、ＤＳＰプロセッサ、およびソフトウェアを実行することができる他の回路がある。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語などの名称にかかわらず、命令、データ、またはそれらの任意の組合せを意味すると広く解釈されたい。機械可読媒体は、例として、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、読取り専用メモリ（ＲＯＭ）、プログラマブル読取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ）、レジスタ、磁気ディスク、光ディスク、ハードドライブ、または他の好適な記憶媒体、あるいはそれらの任意の組合せを含み得る。機械可読媒体はコンピュータプログラム製品において実施され得る。コンピュータプログラム製品はパッケージング材料を備え得る。

[0096]ハードウェア実装形態では、機械可読媒体は、プロセッサとは別個の処理システムの一部であり得る。しかしながら、当業者なら容易に理解するように、機械可読媒体またはその任意の部分は処理システムの外部にあり得る。例として、機械可読媒体は、すべてバスインターフェースを介してプロセッサによってアクセスされ得る、伝送線路、データによって変調された搬送波、および／またはデバイスとは別個のコンピュータ製品を含み得る。代替的に、または追加として、機械可読媒体またはその任意の部分は、キャッシュおよび／または汎用レジスタファイルがそうであり得るように、プロセッサに統合され得る。局所構成要素など、説明された様々な構成要素は、特定のロケーションを有するものとして説明され得るが、それらはまた、分散コンピューティングシステムの一部として構成されているいくつかの構成要素など、様々な方法で構成され得る。

[0097]処理システムは、すべて外部バスアーキテクチャを介して他のサポート回路と互いにリンクされる、プロセッサ機能を提供する１つまたは複数のマイクロプロセッサと、機械可読媒体の少なくとも一部を提供する外部メモリとをもつ汎用処理システムとして構成され得る。代替的に、処理システムは、本明細書で説明されたニューロンモデルとニューラルシステムのモデルとを実装するための１つまたは複数の神経形態学的プロセッサを備え得る。別の代替として、処理システムは、プロセッサをもつ特定用途向け集積回路（ＡＳＩＣ）と、バスインターフェースと、ユーザインターフェースと、サポート回路と、単一のチップに統合された機械可読媒体の少なくとも一部分とを用いて、あるいは１つまたは複数のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理デバイス（ＰＬＤ）、コントローラ、状態機械、ゲート論理、個別ハードウェア構成要素、もしくは他の好適な回路、または本開示全体にわたって説明された様々な機能を実行することができる回路の任意の組合せを用いて、実装され得る。当業者は、特定の適用例と、全体的なシステムに課される全体的な設計制約とに応じて、どのようにしたら処理システムについて説明された機能を最も良く実装し得るかを理解されよう。

[0098]機械可読媒体はいくつかのソフトウェアモジュールを備え得る。ソフトウェアモジュールは、プロセッサによって実行されたときに、処理システムに様々な機能を実行させる命令を含む。ソフトウェアモジュールは、送信モジュールと受信モジュールとを含み得る。各ソフトウェアモジュールは、単一の記憶デバイス中に常駐するか、または複数の記憶デバイスにわたって分散され得る。例として、トリガイベントが発生したとき、ソフトウェアモジュールがハードドライブからＲＡＭにロードされ得る。ソフトウェアモジュールの実行中、プロセッサは、アクセス速度を高めるために、命令のいくつかをキャッシュにロードし得る。次いで、１つまたは複数のキャッシュラインが、プロセッサによる実行のために汎用レジスタファイルにロードされ得る。以下でソフトウェアモジュールの機能に言及する場合、そのような機能は、そのソフトウェアモジュールからの命令を実行したときにプロセッサによって実装されることが理解されよう。さらに、本開示の態様が、そのような態様を実装するプロセッサ、コンピュータ、機械、または他のシステムの機能に改善を生じることを諒解されたい。

[0099]ソフトウェアで実装される場合、機能は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、コンピュータ記憶媒体と通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。さらに、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線（ＩＲ）、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用されるディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）、およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。したがって、いくつかの態様では、コンピュータ可読媒体は非一時的コンピュータ可読媒体（たとえば、有形媒体）を備え得る。さらに、他の態様では、コンピュータ可読媒体は一時的コンピュータ可読媒体（たとえば、信号）を備え得る。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[00100]したがって、いくつかの態様は、本明細書で提示された動作を実行するためのコンピュータプログラム製品を備え得る。たとえば、そのようなコンピュータプログラム製品は、本明細書で説明された動作を実行するために１つまたは複数のプロセッサによって実行可能である命令をその上に記憶した（および／または符号化した）コンピュータ可読媒体を備え得る。いくつかの態様では、コンピュータプログラム製品はパッケージング材料を含み得る。

[00101]さらに、本明細書で説明された方法および技法を実行するためのモジュールおよび／または他の適切な手段は、適用可能な場合にユーザ端末および／または基地局によってダウンロードされ、および／または他の方法で取得され得ることを諒解されたい。たとえば、そのようなデバイスは、本明細書で説明された方法を実行するための手段の転送を可能にするためにサーバに結合され得る。代替的に、本明細書で説明された様々な方法は、ユーザ端末および／または基地局が記憶手段（たとえば、ＲＡＭ、ＲＯＭ、コンパクトディスク（ＣＤ）またはフロッピーディスクなどの物理記憶媒体など）をデバイスに結合するかまたは与えると様々な方法を得ることができるように、記憶手段によって提供され得る。その上、本明細書で説明された方法および技法をデバイスに提供するための任意の他の好適な技法が利用され得る。

[00102]特許請求の範囲は、上記で示された厳密な構成および構成要素に限定されないことを理解されたい。上記で説明された方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。

[00102]特許請求の範囲は、上記で示された厳密な構成および構成要素に限定されないことを理解されたい。上記で説明された方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
特徴抽出の方法であって、
特徴抽出のための参照モデルを決定することと、
複数の異なるタスクのために前記参照モデルを微調整することと、
前記微調整中に計算された重み差分のセットを記憶すること、ここで、各セットが異なるタスクに対応する、と、
を備える、方法。
［Ｃ２］
前記参照モデルがローカライゼーションモデルを備える、Ｃ１に記載の方法。
［Ｃ３］
前記参照モデルが特徴学習モデルを備える、Ｃ１に記載の方法。
［Ｃ４］
前記記憶することが、非０重み差分のみを記憶することを備える、Ｃ１に記載の方法。
［Ｃ５］
前記微調整することが、タスク固有分類器を適用することを備える、Ｃ１に記載の方法。
［Ｃ６］
特徴抽出のための装置であって、
メモリと、
前記メモリに結合された少なくとも１つのプロセッサと、
を備え、前記少なくとも１つのプロセッサが、
特徴抽出のための参照モデルを決定することと、
複数の異なるタスクのために前記参照モデルを微調整することと、
微調整中に計算された重み差分のセットを記憶すること、ここで、各セットが異なるタスクに対応する、と、
を行うように構成された、装置。
［Ｃ７］
前記参照モデルがローカライゼーションモデルを備える、Ｃ６に記載の装置。
［Ｃ８］
前記参照モデルが特徴学習モデルを備える、Ｃ６に記載の装置。
［Ｃ９］
前記少なくとも１つのプロセッサが、非０重み差分のみを記憶するようにさらに構成された、Ｃ６に記載の装置。
［Ｃ１０］
前記少なくとも１つのプロセッサが、タスク固有分類器を適用するようにさらに構成された、Ｃ６に記載の装置。
［Ｃ１１］
特徴抽出のための装置であって、
特徴抽出のための参照モデルを決定するための手段と、
複数の異なるタスクのために前記参照モデルを微調整するための手段と、
微調整中に計算された重み差分のセットを記憶するための手段、ここで、各セットが異なるタスクに対応する、と、
を備える、装置。
［Ｃ１２］
前記参照モデルがローカライゼーションモデルを備える、Ｃ１１に記載の装置。
［Ｃ１３］
前記参照モデルが特徴学習モデルを備える、Ｃ１１に記載の装置。
［Ｃ１４］
記憶するための前記手段が、非０重み差分のみを記憶する、Ｃ１１に記載の装置。
［Ｃ１５］
タスク固有分類器を適用するための手段をさらに含む、Ｃ１１に記載の装置。
［Ｃ１６］
プロセッサによって実行されるべきプログラムコードをその上に符号化した非一時的コンピュータ可読媒体であって、前記プログラムコードが、
特徴抽出のための参照モデルを決定するためのプログラムコードと、
複数の異なるタスクのために前記参照モデルを微調整するためのプログラムコードと、
微調整中に計算された重み差分のセットを記憶するためのプログラムコード、ここで、各セットが異なるタスクに対応する、と、
を備える、非一時的コンピュータ可読媒体。
［Ｃ１７］
前記参照モデルがローカライゼーションモデルを備える、Ｃ１６に記載のコンピュータ可読媒体。
［Ｃ１８］
前記参照モデルが特徴学習モデルを備える、Ｃ１６に記載のコンピュータ可読媒体。
［Ｃ１９］
非０重み差分のみを記憶するためのプログラムコードをさらに備える、Ｃ１６に記載のコンピュータ可読媒体。
［Ｃ２０］
タスク固有分類器を適用するためのプログラムコードをさらに備える、Ｃ１６に記載のコンピュータ可読媒体。

Claims

特徴抽出の方法であって、
特徴抽出のための参照モデルを決定することと、
複数の異なるタスクのために前記参照モデルを微調整することと、
前記微調整中に計算された重み差分のセットを記憶すること、ここで、各セットが異なるタスクに対応する、と、
を備える、方法。
前記参照モデルがローカライゼーションモデルを備える、請求項１に記載の方法。
前記参照モデルが特徴学習モデルを備える、請求項１に記載の方法。
前記記憶することが、非０重み差分のみを記憶することを備える、請求項１に記載の方法。
前記微調整することが、タスク固有分類器を適用することを備える、請求項１に記載の方法。
特徴抽出のための装置であって、
メモリと、
前記メモリに結合された少なくとも１つのプロセッサと、
を備え、前記少なくとも１つのプロセッサが、
特徴抽出のための参照モデルを決定することと、
複数の異なるタスクのために前記参照モデルを微調整することと、
微調整中に計算された重み差分のセットを記憶すること、ここで、各セットが異なるタスクに対応する、と、
を行うように構成された、装置。
前記参照モデルがローカライゼーションモデルを備える、請求項６に記載の装置。
前記参照モデルが特徴学習モデルを備える、請求項６に記載の装置。
前記少なくとも１つのプロセッサが、非０重み差分のみを記憶するようにさらに構成された、請求項６に記載の装置。
前記少なくとも１つのプロセッサが、タスク固有分類器を適用するようにさらに構成された、請求項６に記載の装置。
特徴抽出のための装置であって、
特徴抽出のための参照モデルを決定するための手段と、
複数の異なるタスクのために前記参照モデルを微調整するための手段と、
微調整中に計算された重み差分のセットを記憶するための手段、ここで、各セットが異なるタスクに対応する、と、
を備える、装置。
前記参照モデルがローカライゼーションモデルを備える、請求項１１に記載の装置。
前記参照モデルが特徴学習モデルを備える、請求項１１に記載の装置。
記憶するための前記手段が、非０重み差分のみを記憶する、請求項１１に記載の装置。
タスク固有分類器を適用するための手段をさらに含む、請求項１１に記載の装置。
プロセッサによって実行されるべきプログラムコードをその上に符号化した非一時的コンピュータ可読媒体であって、前記プログラムコードが、
特徴抽出のための参照モデルを決定するためのプログラムコードと、
複数の異なるタスクのために前記参照モデルを微調整するためのプログラムコードと、
微調整中に計算された重み差分のセットを記憶するためのプログラムコード、ここで、各セットが異なるタスクに対応する、と、
を備える、非一時的コンピュータ可読媒体。
前記参照モデルがローカライゼーションモデルを備える、請求項１６に記載のコンピュータ可読媒体。
前記参照モデルが特徴学習モデルを備える、請求項１６に記載のコンピュータ可読媒体。
非０重み差分のみを記憶するためのプログラムコードをさらに備える、請求項１６に記載のコンピュータ可読媒体。
タスク固有分類器を適用するためのプログラムコードをさらに備える、請求項１６に記載のコンピュータ可読媒体。