JP2018520404A

JP2018520404A - ニューラルネットワークのためのトレーニング基準としてのフィルタ特異性

Info

Publication number: JP2018520404A
Application number: JP2017556153A
Authority: JP
Inventors: トワル、レーガン・ブライス
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-04-28
Filing date: 2016-03-10
Publication date: 2018-07-26
Also published as: CA2979046A1; BR112017023028A2; US20160321540A1; WO2016175923A1; CN107533669B; US10515304B2; CN107533669A; EP3289528B1; EP3289528A1; TW201706918A; KR20170140214A; BR112017023028B1

Abstract

ニューラルネットワークモデルをトレーニングする方法が、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定することを含む。本方法は、特異性に基づいてフィルタの各々をトレーニングすることをも含む。

Description

関連出願の相互参照
[0001] 本出願は、その開示全体が参照により本明細書に明確に組み込まれる、２０１５年４月２８日に出願された「FILTER SPECIFICITY AS TRAINING CRITERION FOR NEURAL NETWORKS」と題する米国仮特許出願第６２／１５４，０８９号の米国特許法第１１９条（ｅ）項に基づく利益を主張する。

[0002] 本開示のいくつかの態様は、一般にニューラルシステムエンジニアリングに関し、より詳細には、ニューラルネットワーク（neural network）のためのトレーニング基準（training criterion）としてフィルタ特異性（filter specificity）を使用するためのシステムおよび方法に関する。

[0003] 人工ニューロン（artificial neuron）（たとえば、ニューロンモデル）の相互結合されたグループを備え得る人工ニューラルネットワーク（artificial neural network）は、計算デバイスであるか、または計算デバイスによって実行されるべき方法を表す。

[0004] 畳み込みニューラルネットワークは、フィードフォワード人工ニューラルネットワークのタイプである。畳み込みニューラルネットワークは、各々が受容野（receptive field）を有し、入力空間を集合的にタイリングするニューロンの集合を含み得る。畳み込みニューラルネットワーク（ＣＮＮ：convolutional neural network）は多数の適用例を有する。特に、ＣＮＮは、パターン認識および分類の領域内で広く使用されている。

[0005] 深層信念ネットワーク（deep belief network）および深層畳み込みネットワーク（deep convolutional network）など、深層学習アーキテクチャ（deep learning architecture）は、層状（layered）ニューラルネットワークアーキテクチャであり、ニューロンの第１の層の出力はニューロンの第２の層への入力になり、ニューロンの第２の層の出力はニューロンの第３の層になり、入力し、以下同様である。深層ニューラルネットワーク（deep neural network）は、特徴の階層（hierarchy）を認識するようにトレーニングされ得、したがって、それらはオブジェクト認識適用例においてますます使用されている。畳み込みニューラルネットワークのように、これらの深層学習アーキテクチャにおける計算は、１つまたは複数の計算チェーンにおいて構成され得る処理ノードの集団にわたって分散され得る。これらの多層アーキテクチャは、一度に１つの層をトレーニングされ得、バックプロパゲーション（back propagation）を使用して微調整され得る。

[0006] 他のモデルも、オブジェクト認識のために利用可能である。たとえば、サポートベクターマシン（ＳＶＭ：support vector machine）は、分類のために適用され得る学習ツールである。サポートベクターマシンは、データをカテゴリー分類する分離超平面（separating hyperplane）（たとえば、決定境界（decision boundary））を含む。超平面は、教師あり学習（supervised learning）によって定義される。所望の超平面は、トレーニングデータのマージンを増加させる。言い換えれば、超平面は、トレーニング例との最大の最小距離を有するべきである。

[0007] これらのソリューションは、いくつかの分類ベンチマーク上で優れた結果を達成するが、それらの計算複雑さは極めて高いことがある。さらに、モデルのトレーニングが難しいことがある。

[0008] 本開示の一態様では、ニューラルネットワークモデル（neural network model）をトレーニングするための方法が開示される。本方法は、所定の数のトレーニング反復（training iterations）の後に複数のフィルタ（filter）の特異性（specificity）を決定すること（determining）を含む。本方法は、特異性に基づいてフィルタの各々をトレーニングすることをも含む。

[0009] 本開示の別の態様は、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するための手段を含む装置（apparatus）を対象とする。本装置は、特異性に基づいてフィルタの各々をトレーニングするための手段をも含む。

[0010] 本開示の別の態様では、非一時的コンピュータ可読媒体（non-transitory computer-readable medium）が非一時的プログラムコードを記録している。プログラムコード（program code）は、プロセッサ（processor）によって実行され、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するためのプログラムコードを含む。プログラムコードは、特異性に基づいてフィルタの各々をトレーニングするためのプログラムコードをも含む。

[0011] 本開示の別の態様は、メモリ（memory）と、メモリに結合された１つまたは複数のプロセッサとを有する、ニューラルネットワークモデルをトレーニングするための装置を対象とする。（１つまたは複数の）プロセッサは、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するように構成される。（１つまたは複数の）プロセッサはまた、特異性に基づいてフィルタの各々をトレーニングするように構成される。

[0012] 本開示の追加の特徴および利点が、以下で説明される。本開示は、本開示の同じ目的を実行するための他の構造を変更または設計するための基礎として容易に利用され得ることを、当業者は諒解されたい。また、そのような等価な構成が、添付の特許請求の範囲に記載の本開示の教示から逸脱しないことを、当業者は了解されたい。さらなる目的および利点とともに、本開示の編成と動作の方法の両方に関して、本開示を特徴づけると考えられる新規の特徴は、添付の図に関連して以下の説明を検討するとより良く理解されよう。ただし、図の各々は、例示および説明のみの目的で与えられたものであり、本開示の限界を定めるものではないことを明確に理解されたい。

[0013] 本開示の特徴、特性、および利点は、全体を通じて同様の参照符号が同様のものを指す図面とともに、以下に記載される発明を実施するための形態を読めばより明らかになろう。

[0014] 本開示のいくつかの態様による、汎用プロセッサを含むシステムオンチップ（ＳＯＣ：system-on-a-chip）を使用してニューラルネットワークを設計する例示的な実装形態を示す図。 [0015] 本開示の態様による、システムの例示的な実装形態を示す図。 [0016] 本開示の態様による、ニューラルネットワークを示す図。 [0017] 本開示の態様による、例示的な深層畳み込みネットワーク（ＤＣＮ：deep convolutional network）を示すブロック図。 [0018] 本開示の態様による、人工知能（ＡＩ：artificial intelligence）機能をモジュール化し得る例示的なソフトウェアアーキテクチャを示すブロック図。 [0019] 本開示の態様による、スマートフォン上のＡＩアプリケーションのランタイム動作を示すブロック図。 [0020] バックプロパゲーションのための従来のプロセスを示す流れ図。 [0021] 本開示の態様による、様々なトレーニング反復の後のフィルタの例を示す図。本開示の態様による、様々なトレーニング反復の後のフィルタの例を示す図。本開示の態様による、様々なトレーニング反復の後のフィルタの例を示す図。本開示の態様による、様々なトレーニング反復の後のフィルタの例を示す図。 [0022] 本開示の態様による、フィルタをトレーニングするための方法を示す流れ図。本開示の態様による、フィルタをトレーニングするための方法を示す流れ図。

[0023] 添付の図面に関して以下に記載される発明を実施するための形態は、様々な構成を説明するものであり、本明細書で説明される概念が実施され得る構成のみを表すものではない。発明を実施するための形態は、様々な概念の完全な理解を与えるための具体的な詳細を含む。ただし、これらの概念はこれらの具体的な詳細なしに実施され得ることが当業者には明らかであろう。いくつかの事例では、そのような概念を不明瞭にしないように、よく知られている構造および構成要素がブロック図の形式で示される。

[0024] これらの教示に基づいて、本開示の範囲は、本開示の他の態様とは無関係に実装されるにせよ、本開示の他の態様と組み合わせて実装されるにせよ、本開示のいかなる態様をもカバーするものであることを、当業者なら諒解されたい。たとえば、記載された態様をいくつ使用しても、装置は実装され得るか、または方法は実施され得る。さらに、本開示の範囲は、記載された本開示の様々な態様に加えてまたはそれらの態様以外に、他の構造、機能、または構造および機能を使用して実施されるそのような装置または方法をカバーするものとする。開示される本開示のいずれの態様も、請求項の１つまたは複数の要素によって実施され得ることを理解されたい。

[0025] 「例示的」という単語は、本明細書では「例、事例、または例示の働きをすること」を意味するために使用される。「例示的」として本明細書で説明されるいかなる態様も、必ずしも他の態様よりも好適または有利であると解釈されるべきであるとは限らない。

[0026] 本明細書では特定の態様が説明されるが、これらの態様の多くの変形および置換は本開示の範囲内に入る。好適な態様のいくつかの利益および利点が説明されるが、本開示の範囲は特定の利益、使用、または目的に限定されるものではない。むしろ、本開示の態様は、様々な技術、システム構成、ネットワーク、およびプロトコルに広く適用可能であるものとし、それらのいくつかが、例として、図および好適な態様についての以下の説明において示される。発明を実施するための形態および図面は、本開示を限定するものではなく説明するものにすぎず、本開示の範囲は添付の特許請求の範囲およびそれの均等物によって定義される。

[0027] ニューラルネットワークおよび／または他のシステムの場合、入力のコンテンツを決定するためにフィルタが使用され得る。たとえば、特定のボイスが存在するかどうかを決定するために、フィルタがオーディオ入力に適用され得る。別の例では、車など、特定のオブジェクトが画像中に存在するかどうかを決定するために、フィルタが画像に適用され得る。いくつかの場合には、フィルタの品質は、トレーニングセット（training set）が小さいとき、モデルが大きすぎるとき、および／またはトレーニングセットが誤差（error）を含むとき、低減され得る。低減された品質をもつフィルタは、弱いフィルタ（weak filter）と呼ばれることがある。弱いフィルタまたは部分的に学習されたフィルタは、入力のコンテンツを決定するために指定される弁別基準（discriminative basis）を提供しないことがある。

[0028] したがって、本開示の態様は、フィルタの品質を改善することを対象とする。詳細には、一構成では、ニューラルネットワークモデルをトレーニングするとき、所定の数のトレーニング反復の後に１つまたは複数のフィルタの特異性が決定される。さらに、この構成では、ネットワークは、特異性に基づいて、各フィルタをトレーニングすることを続けるべきかどうかを決定する。

[0029] 図１は、本開示のいくつかの態様による、汎用プロセッサ（ＣＰＵ）またはマルチコア汎用プロセッサ（ＣＰＵ）１０２を含み得るシステムオンチップ（ＳＯＣ： system-on-a-chip）１００を使用してトレーニングする上述のネットワークの例示的な実装形態を示す。変数（たとえば、ニューラル信号（neural signal）およびシナプス荷重（synaptic weight））、計算デバイスに関連するシステムパラメータ（たとえば、重み（weight）をもつニューラルネットワーク）、遅延、周波数ビン情報、およびタスク情報が、ニューラル処理ユニット（ＮＰＵ：neural processing unit）１０８に関連するメモリブロックに記憶されるか、または専用メモリブロック１１８に記憶され得る。汎用プロセッサ１０２において実行される命令が、ＣＰＵ１０２に関連するプログラムメモリからロードされ得るか、または専用メモリブロック１１８からロードされ得る。

[0030] ＳＯＣ１００はまた、グラフィックス処理ユニット（ＧＰＵ：graphics processing unit）１０４、デジタル信号プロセッサ（ＤＳＰ）１０６など、特定の機能に適合された追加の処理ブロックと、第４世代ロングタームエボリューション（４ＧＬＴＥ（登録商標））接続性、無認可Ｗｉ−Ｆｉ（登録商標）接続性、ＵＳＢ接続性、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続性などを含み得る接続性ブロック１１０と、たとえば、ジェスチャーを検出および認識し得るマルチメディアプロセッサ１１２とを含み得る。ＳＯＣ１００はまた、センサープロセッサ１１４、画像信号プロセッサ（ＩＳＰ：image signal processor）、および／または全地球測位システムを含み得るナビゲーション１２０を含み得る。ＳＯＣはＡＲＭ命令セットに基づき得る。

[0031] ＳＯＣ１００はまた、ＧＰＵ１０４、ＤＳＰ１０６など、特定の機能に適合された追加の処理ブロックと、第４世代ロングタームエボリューション（４ＧＬＴＥ）接続性、無認可Ｗｉ−Ｆｉ接続性（unlicensed Wi-Fi connectivity）、ＵＳＢ接続性、Ｂｌｕｅｔｏｏｔｈ接続性などを含み得る接続性ブロック１１０と、たとえば、ジェスチャーを検出および認識し得るマルチメディアプロセッサ１１２とを含み得る。一実装形態では、ＮＰＵは、ＣＰＵ、ＤＳＰ、および／またはＧＰＵにおいて実装される。ＳＯＣ１００はまた、センサープロセッサ１１４、画像信号プロセッサ（ＩＳＰ）、および／または全地球測位システムを含み得るナビゲーション１２０を含み得る。

[0032] ＳＯＣ１００はＡＲＭ命令セットに基づき得る。本開示の一態様では、汎用プロセッサ１０２にロードされる命令は、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するためのコードを備え得る。汎用プロセッサ１０２にロードされる命令は、特異性に少なくとも部分的に基づいて複数のフィルタの各フィルタをトレーニングするためのコードをも備え得る。

[0033] 図２に、本開示のいくつかの態様による、システム２００の例示的な実装形態を示す。図２に示されているように、システム２００は、本明細書で説明される方法の様々な動作を実行し得る複数のローカル処理ユニット２０２を有し得る。各ローカル処理ユニット２０２は、ローカル状態メモリ２０４と、ニューラルネットワークのパラメータを記憶し得るローカルパラメータメモリ２０６とを備え得る。さらに、ローカル処理ユニット２０２は、ローカルモデルプログラムを記憶するためのローカル（ニューロン）モデルプログラム（ＬＭＰ： local (neuron) model program）メモリ２０８と、ローカル学習プログラムを記憶するためのローカル学習プログラム（ＬＬＰ： local learning program）メモリ２１０と、ローカル接続メモリ２１２とを有し得る。さらに、図２に示されているように、各ローカル処理ユニット２０２は、ローカル処理ユニットのローカルメモリのための構成を与えるための構成プロセッサユニット２１４、およびローカル処理ユニット２０２間のルーティングを与えるルーティング接続処理ユニット２１６とインターフェースし得る。

[0034] 深層学習アーキテクチャは、各層において連続的により高い抽象レベルで入力を表現するように学習し、それにより、入力データの有用な特徴表現を蓄積することによって、オブジェクト認識タスクを実行し得る。このようにして、深層学習（deep learning）は、旧来の機械学習の主要なボトルネックに対処する。深層学習の出現より前に、オブジェクト認識問題（object recognition problem）に対する機械学習手法は、場合によっては浅い分類器（shallow classifier）と組み合わせて、人的に設計された特徴に大きく依拠していることがある。浅い分類器は、たとえば、入力がどのクラスに属するかを予測するために、特徴ベクトル成分の重み付き和がしきい値（threshold）と比較され得る２クラス線形分類器（two-class linear classifier）であり得る。人的に設計された特徴は、領域の専門知識をもつ技術者によって特定の問題領域に適合されたテンプレートまたはカーネルであり得る。対照的に、深層学習アーキテクチャは、人間の技術者が設計し得るものと同様である特徴を表現するように学習するが、トレーニングを通してそれを行い得る。さらに、深層ネットワークは、人間が考慮していないことがある新しいタイプの特徴を表現し、認識するように学習し得る。

[0035] 深層学習アーキテクチャは特徴の階層を学習し得る。たとえば、視覚データが提示された場合、第１の層は、エッジなど、入力ストリーム中の比較的単純な特徴を認識するように学習し得る。別の例では、聴覚データが提示された場合、第１の層は、特定の周波数におけるスペクトル電力を認識するように学習し得る。第１の層の出力を入力として取る第２の層は、視覚データの場合の単純な形状、または聴覚データの場合の音の組合せなど、特徴の組合せを認識するように学習し得る。たとえば、上位層は、視覚データ中の複雑な形状、または聴覚データ中の単語を表現するように学習し得る。さらに上位の層は、共通の視覚オブジェクトまたは発話フレーズを認識するように学習し得る。

[0036] 深層学習アーキテクチャは、自然階層構造を有する問題に適用されたとき、特にうまく機能し得る。たとえば、原動機付き車両の分類は、ホイール、フロントガラス、および他の特徴を認識するための第１の学習から恩恵を受け得る。これらの特徴は、車、トラック、および飛行機を認識するために、異なる方法で、上位層において組み合わせられ得る。

[0037] ニューラルネットワークは、様々な結合性パターン（connectivity pattern）を用いて設計され得る。フィードフォワードネットワーク（feed-forward network）では、情報が下位層から上位層に受け渡され、所与の層における各ニューロン（neuron）は、上位層におけるニューロンに通信する。上記で説明されたように、フィードフォワードネットワークの連続する層において、階層表現（hierarchical representation）が蓄積され得る。ニューラルネットワークはまた、リカレント（recurrent）または（トップダウンとも呼ばれる）フィードバック結合を有し得る。リカレント結合では、所与の層におけるニューロンからの出力は、同じ層における別のニューロンに通信され得る。リカレントアーキテクチャは、ニューラルネットワークに順次配信される入力データチャンクのうちの２つ以上にわたるパターンを認識するのに役立ち得る。所与の層におけるニューロンから下位層におけるニューロンへの結合は、フィードバック（またはトップダウン）結合と呼ばれる。高レベルの概念の認識が、入力の特定の低レベルの特徴を弁別することを助け得るとき、多くのフィードバック結合をもつネットワークが役立ち得る。

[0038] 図３Ａを参照すると、ニューラルネットワークの層間の結合は全結合３０２または局所結合３０４であり得る。全結合ネットワーク３０２では、第１の層におけるニューロンは、第２の層における各ニューロンが第１の層におけるあらゆるニューロンから入力を受信するように、それの出力を第２の層におけるあらゆるニューロンに通信し得る。代替的に、局所結合ネットワーク３０４では、第１の層におけるニューロンは、第２の層における限られた数のニューロンに結合され得る。畳み込みネットワーク３０６は、局所結合であり得、第２の層における各ニューロンのための入力に関連する結合強度が共有されるようにさらに構成される（たとえば、３０８）。より一般的には、ネットワークの局所結合層は、層における各ニューロンが同じまたは同様の結合性パターンを有するように構成されるが、異なる値を有し得る結合強度で構成され得る（たとえば、３１０、３１２、３１４、および３１６）。局所結合の結合性パターンは、所与の領域中の上位層ニューロンが、ネットワークへの総入力のうちの制限された部分のプロパティにトレーニングを通して調整された入力を受信し得るので、上位層において空間的に別個の受容野（receptive field）を生じ得る。

[0039] 局所結合ニューラルネットワークは、入力の空間ロケーションが有意味である問題に好適であり得る。たとえば、車載カメラからの視覚特徴を認識するように設計されたネットワーク３００は、画像の下側部分対上側部分とのそれらの関連付けに依存して、異なるプロパティをもつ上位層ニューロンを発達させ得る。画像の下側部分に関連するニューロンは、たとえば、車線区分線を認識するように学習し得るが、画像の上側部分に関連するニューロンは、交通信号、交通標識などを認識するように学習し得る。

[0040] ＤＣＮは、教師あり学習を用いてトレーニングされ得る。トレーニング中に、ＤＣＮは、速度制限標識のクロップされた画像３２６など、画像を提示され得、次いで、出力３２２を生成するために、「フォワードパス（forward pass）」が計算され得る。出力３２２は、「標識」、「６０」、および「１００」など、特徴に対応する値のベクトルであり得る。ネットワーク設計者は、ＤＣＮが、出力特徴ベクトルにおけるニューロンのうちのいくつか、たとえば、トレーニングされたネットワーク３００のための出力３２２に示されているように「標識」および「６０」に対応するニューロンについて、高いスコアを出力することを希望し得る。トレーニングの前に、ＤＣＮによって生成された出力は不正確である可能性があり、したがって、実際の出力とターゲット出力との間で誤差が計算され得る。次いで、ＤＣＮの重みは、ＤＣＮの出力スコアがターゲットとより密接に整合されるように調節され得る。

[0041] 重みを調節するために、学習アルゴリズムは、重みのための勾配ベクトル（gradient vector）を計算し得る。勾配は、重みがわずかに調節された場合に、誤差が増加または減少する量を示し得る。最上層において、勾配は、最後から２番目の層における活性化されたニューロンと出力層におけるニューロンとを結合する重みの値に直接対応し得る。下位層では、勾配は、重みの値と、上位層の計算された誤差勾配とに依存し得る。次いで、重みは、誤差を低減するように調節され得る。重みを調節するこの様式は、それがニューラルネットワークを通して「バックワードパス（backward pass）」を伴うので、「バックプロパゲーション」と呼ばれることがある。

[0042] 実際には、重みの誤差勾配は、計算された勾配が真の誤差勾配を近似するように、少数の例にわたって計算され得る。この近似方法は、確率的勾配降下（stochastic gradient descent）と呼ばれることがある。システム全体の達成可能な誤差レートが減少しなくなるまで、または誤差レートがターゲットレベルに達するまで、確率的勾配降下が繰り返され得る。

[0043] 学習の後に、ＤＣＮは新しい画像３２６を提示され得、ネットワークを通したフォワードパスは、ＤＣＮの推論または予測と見なされ得る出力３２２をもたらし得る。

[0044] 深層信念ネットワーク（ＤＢＮ：deep belief network）は、隠れノードの複数の層を備える確率モデルである。ＤＢＮは、トレーニングデータセットの階層表現を抽出するために使用され得る。ＤＢＮは、制限ボルツマンマシン（ＲＢＭ：Restricted Boltzmann Machine）の層を積層することによって取得され得る。ＲＢＭは、入力のセットにわたる確率分布を学習することができる人工ニューラルネットワークのタイプである。ＲＢＭは、各入力がそれにカテゴリー分類されるべきクラスに関する情報の不在下で確率分布を学習することができるので、ＲＢＭは、教師なし学習においてしばしば使用される。ハイブリッド教師なしおよび教師ありパラダイムを使用して、ＤＢＮの下部ＲＢＭは、教師なし様式でトレーニングされ得、特徴抽出器として働き得、上部ＲＢＭは、（前の層からの入力とターゲットクラスとの同時分布上で）教師あり様式でトレーニングされ得、分類器として働き得る。

[0045] 深層畳み込みネットワーク（ＤＣＮ）は、追加のプーリング層および正規化層で構成された、畳み込みネットワークのネットワークである。ＤＣＮは、多くのタスクに関して最先端の性能を達成している。ＤＣＮは、入力と出力ターゲットの両方が、多くの標本について知られており、勾配降下方法（gradient descent method）の使用によってネットワークの重みを変更するために使用される、教師あり学習を使用してトレーニングされ得る。

[0046] ＤＣＮは、フィードフォワードネットワークであり得る。さらに、上記で説明されたように、ＤＣＮの第１の層におけるニューロンから次の上位層におけるニューロンのグループへの結合は、第１の層におけるニューロンにわたって共有される。ＤＣＮのフィードフォワードおよび共有結合（feed-forward and shared connections）は、高速処理のために活用され得る。ＤＣＮの計算負担（computational burden）は、たとえば、リカレントまたはフィードバック結合を備える同様のサイズのニューラルネットワークのそれよりもはるかに少ないことがある。

[0047] 畳み込みネットワークの各層の処理は、空間的に不変のテンプレートまたは基底投射と見なされ得る。入力が、カラー画像の赤色、緑色、および青色チャネルなど、複数のチャネルに最初に分解された場合、その入力に関してトレーニングされた畳み込みネットワークは、画像の軸に沿った２つの空間次元と、色情報をキャプチャする第３の次元とをもつ、３次元であると見なされ得る。畳み込み結合の出力は、後続の層３１８および３２０において特徴マップを形成すると考えられ、特徴マップ（たとえば、３２０）の各要素が、前の層（たとえば、３１８）における様々なニューロンから、および複数のチャネルの各々から入力を受信し得る。特徴マップにおける値は、整流（rectification）、ｍａｘ（０，ｘ）など、非線形性を用いてさらに処理され得る。隣接するニューロンからの値は、さらにプールされ得、これは、ダウンサンプリングに対応し、さらなる局所不変性（local invariance）と次元削減（dimensionality reduction）とを与え得る。白色化に対応する正規化はまた、特徴マップにおけるニューロン間のラテラル抑制（lateral inhibition）によって適用され得る。

[0048] 深層学習アーキテクチャの性能は、より多くのラベリングされたデータポイントが利用可能となるにつれて、または計算能力が増加するにつれて、向上し得る。現代の深層ニューラルネットワークは、ほんの１５年前に一般的な研究者にとって利用可能であったものより数千倍も大きいコンピューティングリソースを用いて、ルーチン的にトレーニングされる。新しいアーキテクチャおよびトレーニングパラダイムが、深層学習の性能をさらに高め得る。整流された線形ユニット（rectified linear unit）は、勾配消失（vanishing gradients）として知られるトレーニング問題を低減し得る。新しいトレーニング技法は、過学習（over-fitting）を低減し、したがって、より大きいモデルがより良い汎化を達成することを可能にし得る。カプセル化技法は、所与の受容野においてデータを抽出し、全体的性能をさらに高め得る。

[0049] 図３Ｂは、例示的な深層畳み込みネットワーク３５０を示すブロック図である。深層畳み込みネットワーク３５０は、結合性および重み共有に基づく、複数の異なるタイプの層を含み得る。図３Ｂに示されているように、例示的な深層畳み込みネットワーク３５０は、複数の畳み込みブロック（たとえば、Ｃ１およびＣ２）を含む。畳み込みブロックの各々は、畳み込み層（convolution layer）と、正規化層（normalization layer）（ＬＮｏｒｍ）と、プーリング層（pooling layer）とで構成され得る。畳み込み層は、１つまたは複数の畳み込みフィルタを含み得、これは、特徴マップを生成するために入力データに適用され得る。２つの畳み込みブロックのみが示されているが、本開示はそのように限定しておらず、代わりに、設計選好に従って、任意の数の畳み込みブロックが深層畳み込みネットワーク３５０中に含まれ得る。正規化層は、畳み込みフィルタの出力を正規化するために使用され得る。たとえば、正規化層は、白色化またはラテラル抑制を行い得る。プーリング層は、局所不変性および次元削減のために、空間にわたってダウンサンプリングアグリゲーション（down sampling aggregation）を行い得る。

[0050] たとえば、深層畳み込みネットワークの並列フィルタバンクは、高性能および低電力消費を達成するために、随意にＡＲＭ命令セットに基づいて、ＳＯＣ１００のＣＰＵ１０２またはＧＰＵ１０４にロードされ得る。代替実施形態では、並列フィルタバンクは、ＳＯＣ１００のＤＳＰ１０６またはＩＳＰ１１６にロードされ得る。さらに、ＤＣＮは、センサー１１４およびナビゲーション１２０に専用の処理ブロックなど、ＳＯＣ上に存在し得る他の処理ブロックにアクセスし得る。

[0051] 深層畳み込みネットワーク３５０はまた、１つまたは複数の全結合層（たとえば、ＦＣ１およびＦＣ２）を含み得る。深層畳み込みネットワーク３５０は、ロジスティック回帰（ＬＲ：logistic regression）層をさらに含み得る。深層畳み込みネットワーク３５０の各層の間には、更新されるべき重み（weight）（図示せず）がある。各層の出力は、第１の畳み込みブロックＣ１において供給された入力データ（たとえば、画像、オーディオ、ビデオ、センサーデータおよび／または他の入力データ）から階層特徴表現を学習するために、深層畳み込みネットワーク３５０中の後続の層の入力として働き得る。

[0052] 図４は、人工知能（ＡＩ）機能をモジュール化し得る例示的なソフトウェアアーキテクチャ４００を示すブロック図である。アーキテクチャを使用して、ＳＯＣ４２０の様々な処理ブロック（たとえば、ＣＰＵ４２２、ＤＳＰ４２４、ＧＰＵ４２６および／またはＮＰＵ４２８）に、アプリケーション４０２のランタイム動作中に計算をサポートすることを実行させ得るアプリケーション４０２が設計され得る。

[0053] ＡＩアプリケーション４０２は、たとえば、デバイスが現在動作するロケーションを示すシーンの検出および認識を与え得る、ユーザ空間４０４において定義されている機能を呼び出すように構成され得る。ＡＩアプリケーション４０２は、たとえば、認識されたシーンがオフィス、講堂、レストラン、または湖などの屋外環境であるかどうかに応じて別様に、マイクロフォンおよびカメラを構成し得る。ＡＩアプリケーション４０２は、現在のシーンの推定を与えるために、ＳｃｅｎｅＤｅｔｅｃｔアプリケーションプログラミングインターフェース（ＡＰＩ）４０６において定義されているライブラリに関連するコンパイルされたプログラムコードへの要求を行い得る。この要求は、たとえば、ビデオおよび測位データに基づくシーン推定を与えるように構成された深層ニューラルネットワークの出力に最終的に依拠し得る。

[0054] さらに、ランタイムフレームワークのコンパイルされたコードであり得るランタイムエンジン４０８が、ＡＩアプリケーション４０２にとってアクセス可能であり得る。ＡＩアプリケーション４０２は、たとえば、ランタイムエンジンに、特定の時間間隔における、またはアプリケーションのユーザインターフェースによって検出されたイベントによってトリガされた、シーン推定を要求させ得る。シーンを推定させられたとき、ランタイムエンジンは、ＳＯＣ４２０上で実行している、Ｌｉｎｕｘ（登録商標）カーネル４１２など、オペレーティングシステム４１０に信号を送り得る。オペレーティングシステム４１０は、ＣＰＵ４２２、ＤＳＰ４２４、ＧＰＵ４２６、ＮＰＵ４２８、またはそれらの何らかの組合せ上で、計算を実行させ得る。ＣＰＵ４２２は、オペレーティングシステムによって直接アクセスされ得、他の処理ブロックは、ＤＳＰ４２４のための、ＧＰＵ４２６のための、またはＮＰＵ４２８のためのドライバ４１４〜４１８など、ドライバを通してアクセスされ得る。例示的な例では、深層ニューラルネットワークは、ＣＰＵ４２２およびＧＰＵ４２６など、処理ブロックの組合せ上で動作するように構成され得るか、または存在する場合、ＮＰＵ４２８上で動作させられ得る。

[0055] 図５は、スマートフォン５０２上のＡＩアプリケーションのランタイム動作５００を示すブロック図である。ＡＩアプリケーションは、画像５０６のフォーマットを変換し、次いで画像５０８をクロップおよび／またはリサイズするように（たとえば、ＪＡＶＡ（登録商標）プログラミング言語を使用して）構成され得る前処理モジュール５０４を含み得る。次いで、前処理された画像は、視覚入力に基づいてシーンを検出および分類するように（たとえば、Ｃプログラミング言語を使用して）構成され得るＳｃｅｎｅＤｅｔｅｃｔバックエンドエンジン５１２を含んでいる分類アプリケーション（classify application）５１０に通信され得る。ＳｃｅｎｅＤｅｔｅｃｔバックエンドエンジン５１２は、スケーリング（scaling）５１６およびクロッピング（cropping）５１８によって、画像をさらに前処理５１４するように構成され得る。たとえば、画像は、得られた画像が２２４ピクセル×２２４ピクセルであるように、スケーリングされ、クロップされ得る。これらの次元は、ニューラルネットワークの入力次元にマッピングし得る。ニューラルネットワークは、ＳＯＣ１００の様々な処理ブロックに、深層ニューラルネットワークを用いて画像ピクセルをさらに処理させるように、深層ニューラルネットワークブロック５２０によって構成され得る。次いで、深層ニューラルネットワークの結果は、しきい値処理５２２され、分類アプリケーション５１０中の指数平滑化ブロック（exponential smoothing block）５２４を通され得る。次いで、平滑化された結果は、スマートフォン５０２の設定および／またはディスプレイの変更を生じ得る。

[0056] 一構成では、機械学習モデルは、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定することと、特異性に少なくとも部分的に基づいて複数のフィルタの各フィルタをトレーニングすることとを行うために構成される。モデルは、決定手段および／またはトレーニング手段を含む。一態様では、決定手段および／またはトレーニング手段は、具陳された機能を実行するように構成された、汎用プロセッサ１０２、汎用プロセッサ１０２に関連するプログラムメモリ、メモリブロック１１８、ローカル処理ユニット２０２、およびまたはルーティング接続処理ユニット２１６であり得る。別の構成では、上述の手段は、上述の手段によって具陳された機能を実行するように構成された任意のモジュールまたは任意の装置であり得る。

[0057] 本開示のいくつかの態様によれば、各ローカル処理ユニット２０２は、モデルの所望の１つまたは複数の機能的特徴に基づいてモデルのパラメータを決定し、決定されたパラメータがさらに適合、調整および更新されるように、１つまたは複数の機能的特徴を所望の機能的特徴のほうへ発達させるように構成され得る。

ニューラルネットワークのためのトレーニング基準としてのフィルタ特異性（FILTER SPECIFICITY AS TRAINING CRITERION FOR NEURAL NETWORKS）
[0058] 従来のシステムでは、画像など、入力を変更し、および／または向上させるために、フィルタが指定され得る。さらに、特定の要素が入力中に存在するかどうかを決定するために、フィルタが使用され得る。たとえば、フィルタは、水平線が画像の３×３ピクセル部分中に存在するかどうかを決定し得る。したがって、システムは、様々なタイプのフィルタを適用することによって、特定のコンテンツが入力中に存在するかどうかを決定し得る。したがって、入力を分類するために様々なフィルタが使用され得る。本開示の態様は、入力としての画像について説明される。さらに、本開示の態様は、画像に限定されず、オーディオ、ビデオ、センサーデータおよび／または他の入力データなど、他のタイプの入力のために企図される。

[0059] 従来のシステムでは、画像の線形フィルタ処理のために畳み込みが指定され得る。詳細には、畳み込み出力は、入力ピクセルの重み付き和である。重みの行列は、畳み込みカーネル、またはフィルタと呼ばれることがある。畳み込みは、線形化画像および線形化フィルタの行列乗算によって取得され得る。

[0060] さらに、従来のニューラルネットワークは、トレーニングのためにバックプロパゲーションを使用する。バックプロパゲーションは、損失関数勾配（すなわち、誤差）を計算するために、各入力値について、知られている出力を使用する。すなわち、バックプロパゲーションは、ネットワークの変更可能な重みからネットワークの誤差の勾配を計算するために指定される。たいていの場合、勾配は、誤差を低減するフィルタについての重みを決定するために使用される。

[0061] 図６は、バックプロパゲーションのための流れ図６００の一例を示す。この例では、画像の知られている出力（すなわち、ラベル）は猫である。したがって、ラベルは猫に設定され、予測ラベル（predicted label）は猫であるべきである。さらに、猫の画像６０２が、第１の畳み込み層６０４に入力される。第１の畳み込み層６０４は、畳み込みの結果を第２の畳み込み層６０６に出力する。さらに、第２の畳み込み層６０６は、畳み込みの結果を第３の畳み込み層６０８に出力する。最終的に、予測ラベル６１０が、第３の畳み込み層６０８から出力される。もちろん、本開示の態様は３つの畳み込み層に限定されず、より多いまたはより少ない畳み込み層が、必要に応じて指定され得る。

[0062] 画像のラベルはベクトルとして表され得る。たとえば、図６の例に基づいて、猫および犬のためのラベルは、１が猫のためのベクトルであり、０が犬のためベクトルであるように、（１，０）などのベクトルであり得る。さらに、一例として、ネットワークのトレーニングに基づいて、ネットワークは、入力画像が猫であるという５０％の信頼度を有し得る。信頼度は、予測確率（predicted probability）と呼ばれることがある。すなわち、猫についての予測ラベル出力は、０．５であり得る。したがって、その猫についての誤差は、１と０．５との間の差の関数（すなわち、（１−０．５））である。さらに、ネットワークは、トレーニングに基づいて、入力画像が犬であるという２０％の信頼度を有し得る。したがって、犬についての予測ラベル出力は、０．２であり得る。したがって、犬についての誤差は、０と０．２との間の差の関数（すなわち、（０−０．２））である。

[0063] 誤差関数（error function）は、ラベル（label）と予測ラベル（predicted label）との間の差に基づいて、ネットワークをトレーニングするために使用される。詳細には、誤差（error）は次のように決定され得る。

[0064] 誤差関数は、入力画像に基づくネットワークの信頼度出力に基づく。さらに、猫についての０．５など、計算された誤差に基づいて、フィルタの重みが以下の式に従って調節される。

[0065] 式２および式３は従来のバックプロパゲーション式である。式２および式３では、ｗ_ijはニューロン_iとニューロン_jとの間の重みである。さらに、式２に示されているように、誤差の偏導関数（partial derivative）がフィルタの重み（ｗ_ij）に関して計算される。式２の右辺は従来のチェーンルールに基づく。勾配降下を使用して重み（ｗ_ij）を更新するために、学習レートαが選択される。式３に示されているように、古い重みｗ_ijに追加される重みの変化Δｗ_ijが、−１を乗算された、学習レートと勾配との積に等しい。−１は、誤差関数の最大値ではなく最小値の方向に更新にするために指定される。

[0066] 式３に基づいて、フィルタの重みが高く、重みが誤差に寄与した場合、重みは、低く、誤差に寄与しなかった重みと比較して、より大きい量だけ減少され得る。さらに、式３に基づいて、誤差の偏導関数が非ゼロである場合、フィルタが更新される。

[0067] たいていの場合、誤差関数はグローバル関数であるので、予測ラベルが正確であるように誤差が低減される限り、ネットワークの個別の重みは無視される。グローバル関数は、様々な特定のフィルタ（specific filter）を生成するために使用され得る。前に説明したように、トレーニングセットが小さいとき、モデルが大きすぎるとき、および／またはトレーニングセットが誤差を含むとき、弱いフィルタが取得され得る。

[0068] 図７は、強いフィルタ７０４のセットと比較して、弱いフィルタ７０２のセットを示す。図７に示されているように、弱いフィルタ７０２は、特定の鮮明度を有しない。たとえば、弱いフィルタ７０２の各々は、一般化され、明確な輪郭を有しない。対照的に、強いフィルタ７０４の鮮明度は、様々な線および角が認識可能であるように、弱いフィルタ７０２の鮮明度よりも大きい。強いフィルタ７０４は、１つまたは複数の水平線が画像中に存在するかどうかなど、入力の特定の特徴の検出を改善する。

[0069] 一例として、ネットワークは、犬と猫との間を弁別するというタスクを与えられ得る。この例では、限られた数のトレーニングサンプルまたはトレーニングにおける誤差が存在し得る。たとえば、フィルタは、白色の猫および黒色の犬の画像に対してのみトレーニングされ得る。したがって、この例では、フィルタは、限定されたトレーニングサンプルにより、グレーの様々な色合いに一般化され得る。したがって、この例では、グレースケールフィルタは、黒色の犬と白色の猫との間を弁別し得る。さらに、グレースケールフィルタは、茶色の犬または橙色の猫など、異なる色の猫と犬との間を弁別しないことがある。したがって、たとえば、限られた数のトレーニングサンプルおよび／またはトレーニングにおける誤差による弱いフィルタの使用を軽減することが望ましい。さらに、トレーニングサンプルにおける誤差は未知であり得る。たとえば、実世界トレーニングセットのバイアスは、未知であるかまたは限定され得る。詳細には、モバイルデバイスからのトレーニングセットは、ユーザによってキャプチャされた画像のみに限定され得る。

[0070] 限定されたトレーニングセットおよび／またはトレーニングにおける誤差から生じる弱いフィルタを軽減するために、本開示の態様は、バックプロパゲーションからの計算された誤差に基づいてネットワークをトレーニングすることと、フィルタ特異性に基づいてネットワークをトレーニングすることとを対象とする。フィルタ特異性はフィルタの強度を指す。

[0071] フィルタの特異性は、重みの分布など、様々なファクタに基づいて計算され得る。一構成では、フィルタ特異性は、エントロピー（entropy）Σ_ｉｐ（ｗ_ｉ）ｌｏｇ_２ｐ（ｗ_ｉ）に基づいて測定される。エントロピーは、フィルタ中のピクセルにおける差の測定値である。別の構成では、フィルタ特異性は、元の値からの変化（change from original values）Σ_ｉｗ_ｉ（ｔ）−ｗ_ｉ（ｔ_０）に基づいて測定される。また別の構成では、フィルタ特異性は、重み値の分散（variance of weight values）

に基づいて測定される。さらにまた別の構成では、フィルタ特異性は、他のフィルタとの差（difference from other filters）

に基づいて測定される。別の構成では、フィルタ特異性は、他のフィルタとの相互相関（cross correlation with other filters）に基づいて測定される。上述の式では、ｗはフィルタ重みである。いくつかのメトリックが記載されたが、本開示はどんな類似メトリックをも包含するものとする。

[0072] さらに、一構成では、フィルタ特異性について誤差項（error term）が指定される。たとえば、フィルタ特異性誤差は、

によって計算され得る。この例では、フィルタ特異性が低い場合、誤差は大きい。代替的に、フィルタ特異性が高い場合、誤差は低い。

[0073] したがって、本開示の態様に基づいて、トレーニング（training）は、改善された特異性をもつフィルタを取得することに加えて、正しいラベルを出力するために指定される。すなわち、本開示の態様は、様々な特徴に関して特定であるフィルタを取得することを対象とする。

[0074] 図８は、第１のトレーニング反復（エポック（epoch）１）からのトレーニングされたフィルタ８００と、第９０のトレーニング反復（エポック９０）の後の同じフィルタ８００との一例を示す。トレーニング反復は、トレーニングパス（training pass）と呼ばれることがある。この例では、データセットは、１万など、特定の数の画像を有し得る。トレーニングは、重み更新式（式３）に基づいてフィルタの重みを調節するために、データセットからの画像を使用する。フィルタの重みは、１００個の画像など、データセットからの特定の数の画像に対してトレーニングした後に調節され得る。したがって、この例では、１万個の画像と、１００個の画像の後に重みを更新することとに基づいて、重みは、各エポック中に１００回調節されることになる。

[0075] 図８に示されているように、第１のトレーニングパスにおいて、各フィルタは特定のエントロピーを有する。たとえば、第１のフィルタ８０２が２．００６のエントロピーを有し、第２のフィルタ８０４が２．０１８のエントロピーを有す。第１のトレーニングパス中のフィルタは、低いエントロピーから高いエントロピーに順序付けられる。さらに、図８に示されているように、各フィルタのエントロピーは、第９０のトレーニングパス（エポック９０）の後に変更される。第９０のトレーニングパス中のフィルタは、低いエントロピーから高いエントロピーに順序付けられる。エポック１とエポック９０の両方においてフィルタが低いエントロピーから高いエントロピーに順序付けられるので、同じフィルタが各図中の同じ位置を有しないことに留意されたい。すなわち、エポック１の第１のフィルタ８０８は、エポック９０の第１のフィルタ８０８であることも、そうでないこともある。言い換えれば、エポック１の第１のフィルタ８０２が、たとえば、エポック９０の第１１のフィルタ８１４になり得るように、エポック１の第１のフィルタ８０２は、ネイバリングフィルタ（neighboring filters）と比較して、エントロピーのより大きい変化を有することがある。

[0076] より詳細には、第１のトレーニングパスおいて、フィルタはランダム化される。さらに、９０など、ある数のトレーニングパスの後、フィルタが特異性に基づいて調節されないとき、いくつかのフィルタは高い特異性を有し、他のフィルタは低い特異性を有する。この例では、特異性は、フィルタのエントロピーに基づいて決定される。

[0077] 図８に示されているように、エポック９０のフィルタのエントロピーは、約９０回のトレーニングパスの後に増加され得る。さらに、いくつかのフィルタは、トレーニングパス間でほとんど変化を有しないことがある。たとえば、エポック９０の第２のフィルタ８１０は２．４９４のエントロピーを有し、エポック９０の第３のフィルタ８１２は２．５８４のエントロピーを有する。したがって、第２のフィルタ８１０および第３のフィルタ８１２のエントロピーは、最初のトレーニングパス以来ほとんど変化を有しない。

[0078] 前に説明したように、本開示の態様は、エントロピーのみに基づいてフィルタの特異性を決定することに限定されない。特異性はまた、他の計算を介して決定され得る。

[0079] さらに、前に説明したように、オブジェクトの特定の特徴を決定するために詳細なフィルタを有することが望ましい。たとえば、エポック９０の第１１のフィルタ８１４は、低いエントロピーによって表された低レベルの詳細を有する。したがって、エポック９０の第１１のフィルタ８１４は、後続の層に追加の雑音を追加するにすぎないことがある。対照的に、エポック９０の第４６のフィルタ８１６は、高いエントロピーを有し、水平線についての詳細を含む。したがって、第４６のフィルタ８１６は、水平線が画像中に存在するかどうかを決定し得る。

[0080] いくつかの場合には、バックプロパゲーションからの誤差を低減しながら、フィルタ特異性を改善することが望ましい。バックプロパゲーションからの総誤差を決定するために、バックプロパゲーションについて、ジョイントコスト関数（joint cost function）が指定され得る。一構成では、ジョイントコスト関数は、ラベリング誤差（ labeling error ）とフィルタ特異性の関数との和である。たとえば、ジョイントコスト関数は、

である。すなわち、誤差関数は、フィルタの特異性のアグリゲートされた測定値でオーグメント（augment）される。ジョイントコスト関数は、ネットワーク中のすべてのフィルタ特異性の集約尺度（summary measure）に基づき得るか、または、層ベースであり得る。さらに、トレーニング中に総誤差を低減することが望ましい。したがって、一構成では、フィルタ重みは、誤差に基づいて計算された重みが低いフィルタ特異性を生じる場合、フィルタ特異性を改善するように変更される。

[0081] 別の構成では、特定の特異性を有するフィルタのトレーニングは、計算コストを低減するために終了される。すなわち、しきい値よりも大きいかまたはそれに等しい特異性を有するフィルタの学習は、フィルタの重みがもはや更新されないように、停止される。

[0082] 図９は、トレーニングのために使用されるフィルタ９００のセットの一例を示す。第３３のトレーニングパス（エポック３３）のためのフィルタは、低いエントロピーから高いエントロピーに順序付けされる。図９に示されているように、エポック３３のフィルタ９００から、第４３のフィルタ９０４が４．２のエントロピーを有し、第６４のフィルタ９０６が４．１０７８のエントロピーを有する。さらに、図９に示されているように、エポック９０のフィルタ９００は、第９０のトレーニングパスに基づいて低いエントロピーから高いエントロピーに順序付けされる。エポック９０のフィルタ９００から、第３８のフィルタ９０８は４．１５１のエントロピーを有し、第５７のフィルタ９１０が４．５５０のエントロピーを有する。第３８のフィルタ９０８のエントロピーと第５７のフィルタ９１０のエントロピーは両方ともしきい値よりも大きい。したがって、この例では、第３８のフィルタ９０８および第５７のフィルタ９１０のトレーニングは、計算コストを低減するために終了され得る。しきい値は、あらかじめ決定され、および／またはトレーニングの結果に基づいて調節され得る。

[0083] 追加または代替として、一構成では、ネットワークは、フィルタの特異性を経時的に監視し得る。一例として、図９に示されているように、エポック３３からの第４３のフィルタ９０４は、エポック９０の第３８のフィルタ９０８に相関する。さらに、図９に示されているように、エポック３３の第６４のフィルタ９０６は、エポック９０の第５７のフィルタ９１０に相関する。

[0084] 図９に示されているように、エポック３３の第４３のフィルタ９０４および第６４のフィルタ９０６のエントロピーは、第３３のパスと第９０のパスとの間で特定のしきい値よりも多く増加または減少しなかった。したがって、この例では、フィルタの特異性がしきい値よりも大きくなった後、特異性の変化が経時的に監視される。したがって、フィルタのトレーニングは、特異性の変化が経時的にしきい値よりも小さいとき、計算コストを低減するために終了され得る。

[0085] また別の構成では、ターゲットネットワーク複雑さに基づいてトレーニングするために、フィルタが選択される。ターゲットネットワーク複雑さは、ネットワークのために指定されたメモリの量など、メモリ仕様（memory specification）、および／またはネットワークのために指定された計算能力の量など、電力仕様（power specification）に基づき得る。この構成では、決定された複雑さに基づいて、特定の数のフィルタがトレーニングされ得る。特定の数のフィルタは、フィルタ特異性に基づいて１つまたは複数のフィルタのためのトレーニングを終了するよりも前に、またはフィルタ特異性に基づいて１つまたは複数のフィルタのためのトレーニングを終了した後に選択され得る。

[0086] 追加または代替として、ターゲットネットワーク複雑さに基づいて、ネットワークは、トレーニングを続けるために特定のフィルタに優先度を付け得る。優先度付け（prioritization）は、フィルタ特異性に基づいて１つまたは複数のフィルタのためのトレーニングを終了するよりも前に、またはフィルタ特異性に基づいて１つまたは複数のフィルタのためのトレーニングを終了した後に実行され得る。

[0087] 別の構成では、フィルタ特異性に基づいて１つまたは複数のフィルタのためのトレーニングを終了するよりも前に、またはフィルタ特異性に基づいて１つまたは複数のフィルタのためのトレーニングを終了した後に、フィルタは、各フィルタの特異性に基づいて優先度を付けられ得る。優先度付けは、入力に適用され得るフィルタを決定するために使用され得る。さらに、本開示の一態様によれば、ターゲットネットワーク複雑さに基づいて、いくつかのフィルタが優先度付きフィルタ（prioritized filters）から選択され得る。

[0088] また別の構成では、所定の数のトレーニングパスの後、しきい値よりも小さい特異性をもつフィルタがトレーニングから除去され得る。図１０は、９０回のトレーニングパスの後のフィルタのセット１０００の一例を示す。図１０に示されているように、フィルタは、エントロピーに基づいて低から高に順序付けられる。この例では、最初の６つのフィルタ１００２〜１０１２は、３など、しきい値よりも小さいエントロピーを有する。したがって、フィルタ１００２〜１０１２のエントロピーは３よりも小さいので、最初の６つのフィルタ１００２〜１０１２はトレーニングから除去される。さらに、弱いフィルタは、入力に追加の雑音を追加し得るので、トレーニングから削除されたフィルタは入力に適用されないことがある。

[0089] 図１１は、ニューラルネットワークモデルをトレーニングする方法１１００を示す。ブロック１１０２において、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定する。ブロック１１０４において、特異性に基づいてフィルタの各々をトレーニングする。

[0090] 図１２は、ニューラルネットワークモデルをトレーニングするための流れ図１２００を示す。ブロック１２０２において、複数のフィルタのためにトレーニングを開始する。前に説明したように、特定の要素が入力中に存在するかどうかを決定するために、フィルタが使用され得る。さらに、フィルタは、バックプロパゲーションを使用してトレーニングされ得る。さらに、ブロック１２０４において、ニューラルネットワークモデルは、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定する。さらに、ブロック１２０６において、ニューラルネットワークモデルは、決定された特異性（determined specificity）に基づいて、フィルタをトレーニングすることを続けるべきかどうかを決定する。

[0091] 一構成では、フィルタの決定された特異性がしきい値よりも大きい場合、ネットワークは、フィルタをトレーニングすることを停止する（stop）（ブロック１２０８）。追加または代替として、ネットワークは、所定の数のトレーニング反復の後に特定のフィルタの特異性の変化がしきい値よりも小さいとき、フィルタをトレーニングすることを停止する（ブロック１２０８）。別の構成では、ブロック１２１０に示されているように、所定の数のトレーニング反復の後に特定のフィルタの特異性がしきい値よりも小さいとき、ニューラルネットワークモデルからフィルタを除去する（eliminate）。

[0092] 別の構成では、決定された指定する（determined specify）に基づいて、フィルタのトレーニングを続ける（ブロック１２１２）。たとえば、トレーニングは、特異性が第１のしきい値よりも大きく、第２のしきい値よりも小さい場合、続き得る。追加または代替として、ネットワークは、所定の数のトレーニング反復の後に特定のフィルタの特異性の変化が第１のしきい値より大きく第２のしきい値よりも小さいとき、フィルタをトレーニングすることを続ける（ブロック１２１２）。

[0093] 上記で説明された方法の様々な動作は、対応する機能を実行することが可能な任意の好適な手段によって実行され得る。それらの手段は、限定はしないが、回路、特定用途向け集積回路（ＡＳＩＣ）、またはプロセッサを含む、様々な（１つまたは複数の）ハードウェアおよび／またはソフトウェア構成要素および／またはモジュールを含み得る。概して、図に示されている動作がある場合、それらの動作は、同様の番号をもつ対応するカウンターパートのミーンズプラスファンクション構成要素を有し得る。

[0094] 本明細書で使用される「決定すること（determining）」という用語は、多種多様なアクションを包含する。たとえば、「決定すること」は、計算すること（calculating）、計算すること（computing）、処理すること（processing）、導出すること（deriving）、調査すること（investigating）、ルックアップすること（たとえば、テーブル、データベースまたは別のデータ構造においてルックアップすること）、確認することなどを含み得る。さらに、「決定すること」は、受信すること（たとえば、情報を受信すること）、アクセスすること（たとえば、メモリ中のデータにアクセスすること）などを含み得る。さらに、「決定すること」は、解決すること、選択すること、選定すること、確立することなどを含み得る。

[0095] 本明細書で使用される、項目のリスト「のうちの少なくとも１つ（at least one of）」を指す句は、単一のメンバーを含む、それらの項目の任意の組合せを指す。一例として、「ａ、ｂ、またはｃのうちの少なくとも１つ」は、ａ、ｂ、ｃ、ａ−ｂ、ａ−ｃ、ｂ−ｃ、およびａ−ｂ−ｃを包含するものとする。

[0096] 本開示に関連して説明された様々な例示的な論理ブロック、モジュールおよび回路は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ信号（ＦＰＧＡ）または他のプログラマブル論理デバイス（ＰＬＤ）、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいは本明細書で説明された機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の市販のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。

[0097] 本開示に関連して説明された方法またはアルゴリズムのステップは、ハードウェアで直接実施されるか、プロセッサによって実行されるソフトウェアモジュールで実施されるか、またはその２つの組合せで実施され得る。ソフトウェアモジュールは、当技術分野で知られている任意の形態の記憶媒体中に常駐し得る。使用され得る記憶媒体のいくつかの例としては、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、フラッシュメモリ、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭなどがある。ソフトウェアモジュールは、単一の命令、または多数の命令を備え得、いくつかの異なるコードセグメント上で、異なるプログラム間で、および複数の記憶媒体にわたって分散され得る。記憶媒体は、プロセッサがその記憶媒体から情報を読み取ることができ、その記憶媒体に情報を書き込むことができるように、プロセッサに結合され得る。代替として、記憶媒体はプロセッサと一体であり得る。

[0098] 本明細書で開示された方法は、説明された方法を達成するための１つまたは複数のステップまたはアクションを備える。本方法のステップおよび／またはアクションは、特許請求の範囲から逸脱することなく、互いに交換され得る。言い換えれば、ステップまたはアクションの特定の順序が指定されない限り、特定のステップおよび／またはアクションの順序および／または使用は特許請求の範囲から逸脱することなく変更され得る。

[0099] 説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ハードウェアで実装される場合、例示的なハードウェア構成はデバイス中に処理システムを備え得る。処理システムは、バスアーキテクチャを用いて実装され得る。バスは、処理システムの特定の適用例および全体的な設計制約に応じて、任意の数の相互接続バスおよびブリッジを含み得る。バスは、プロセッサと、機械可読媒体（machine-readable media）と、バスインターフェースとを含む様々な回路を互いにリンクし得る。バスインターフェースは、ネットワークアダプタを、特に、バスを介して処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能を実装するために使用され得る。いくつかの態様では、ユーザインターフェース（たとえば、キーパッド、ディスプレイ、マウス、ジョイスティックなど）もバスに接続され得る。バスはまた、タイミングソース、周辺機器、電圧調整器、電力管理回路など、様々な他の回路をリンクし得るが、それらは当技術分野でよく知られており、したがってこれ以上説明されない。

[00100] プロセッサは、機械可読媒体に記憶されたソフトウェアの実行を含む、バスおよび一般的な処理を管理することを担当し得る。プロセッサは、１つまたは複数の汎用および／または専用プロセッサを用いて実装され得る。例としては、マイクロプロセッサ、マイクロコントローラ、ＤＳＰプロセッサ、およびソフトウェアを実行することができる他の回路がある。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語などの名称にかかわらず、命令、データ、またはそれらの任意の組合せを意味すると広く解釈されたい。機械可読媒体は、例として、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、読取り専用メモリ（ＲＯＭ）、プログラマブル読取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ）、レジスタ、磁気ディスク、光ディスク、ハードドライブ、または他の好適な記憶媒体、あるいはそれらの任意の組合せを含み得る。機械可読媒体はコンピュータプログラム製品において実施され得る。コンピュータプログラム製品はパッケージング材料を備え得る。

[00101] ハードウェア実装形態では、機械可読媒体は、プロセッサとは別個の処理システムの一部であり得る。しかしながら、当業者なら容易に諒解するように、機械可読媒体またはその任意の部分は処理システムの外部にあり得る。例として、機械可読媒体は、すべてバスインターフェースを介してプロセッサによってアクセスされ得る、伝送線路、データによって変調された搬送波、および／またはデバイスとは別個のコンピュータ製品を含み得る。代替的に、または追加として、機械可読媒体またはその任意の部分は、キャッシュおよび／または汎用レジスタファイルがそうであり得るように、プロセッサに統合され得る。局所構成要素など、説明された様々な構成要素は、特定のロケーションを有するものとして説明され得るが、それらはまた、分散コンピューティングシステムの一部として構成されているいくつかの構成要素など、様々な方法で構成され得る。

[00102] 処理システムは、すべて外部バスアーキテクチャを介して他のサポート回路と互いにリンクされる、プロセッサ機能を提供する１つまたは複数のマイクロプロセッサと、機械可読媒体の少なくとも一部を提供する外部メモリとをもつ汎用処理システムとして構成され得る。代替的に、処理システムは、本明細書で説明されたニューロンモデルとニューラルシステムのモデルとを実装するための１つまたは複数の神経形態学的プロセッサを備え得る。別の代替として、処理システムは、プロセッサをもつ特定用途向け集積回路（ＡＳＩＣ）と、バスインターフェースと、ユーザインターフェースと、サポート回路と、単一のチップに統合された機械可読媒体の少なくとも一部分とを用いて、あるいは１つまたは複数のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理デバイス（ＰＬＤ）、コントローラ、状態機械、ゲート論理、個別ハードウェア構成要素、もしくは他の好適な回路、または本開示全体にわたって説明された様々な機能を実行することができる回路の任意の組合せを用いて、実装され得る。当業者は、特定の適用例と、全体的なシステムに課される全体的な設計制約とに応じて、どのようにしたら処理システムについて説明された機能を最も良く実装し得るかを理解されよう。

[00103] 機械可読媒体はいくつかのソフトウェアモジュールを備え得る。ソフトウェアモジュールは、プロセッサによって実行されたときに、処理システムに様々な機能を実行させる命令を含む。ソフトウェアモジュールは、送信モジュールと受信モジュールとを含み得る。各ソフトウェアモジュールは、単一のストレージデバイス中に常駐するか、または複数のストレージデバイスにわたって分散され得る。例として、トリガイベントが発生したとき、ソフトウェアモジュールがハードドライブからＲＡＭにロードされ得る。ソフトウェアモジュールの実行中、プロセッサは、アクセス速度を高めるために、命令のいくつかをキャッシュにロードし得る。次いで、１つまたは複数のキャッシュラインが、プロセッサによる実行のために汎用レジスタファイルにロードされ得る。以下でソフトウェアモジュールの機能に言及する場合、そのような機能は、そのソフトウェアモジュールからの命令を実行したときにプロセッサによって実装されることが理解されよう。

[00104] ソフトウェアで実装される場合、機能は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、コンピュータ記憶媒体と通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。さらに、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線（ＩＲ）、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用されるディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）、およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。したがって、いくつかの態様では、コンピュータ可読媒体は非一時的コンピュータ可読媒体（たとえば、有形媒体（tangible media））を備え得る。さらに、他の態様では、コンピュータ可読媒体は一時的コンピュータ可読媒体（たとえば、信号）を備え得る。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[00105] したがって、いくつかの態様は、本明細書で提示された動作を実行するためのコンピュータプログラム製品を備え得る。たとえば、そのようなコンピュータプログラム製品は、本明細書で説明された動作を実行するために１つまたは複数のプロセッサによって実行可能である命令をその上に記憶した（および／または符号化した）コンピュータ可読媒体を備え得る。いくつかの態様では、コンピュータプログラム製品はパッケージング材料を含み得る。

[00106] さらに、本明細書で説明された方法および技法を実行するためのモジュールおよび／または他の適切な手段は、適用可能な場合にユーザ端末および／または基地局によってダウンロードされ、および／または他の方法で取得され得ることを諒解されたい。たとえば、そのようなデバイスは、本明細書で説明された方法を実行するための手段の転送を可能にするためにサーバに結合され得る。代替的に、本明細書で説明された様々な方法は、ユーザ端末および／または基地局が記憶手段（たとえば、ＲＡＭ、ＲＯＭ、コンパクトディスク（ＣＤ）またはフロッピーディスクなどの物理記憶媒体など）をデバイスに結合するかまたは与えると様々な方法を得ることができるように、記憶手段によって提供され得る。その上、本明細書で説明された方法および技法をデバイスに提供するための任意の他の好適な技法が利用され得る。

[00107] 特許請求の範囲は、上記で示された厳密な構成および構成要素に限定されないことを理解されたい。上記で説明された方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。

[00107] 特許請求の範囲は、上記で示された厳密な構成および構成要素に限定されないことを理解されたい。上記で説明された方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[Ｃ１] ニューラルネットワークモデルをトレーニングする方法であって、
所定の数のトレーニング反復の後に複数のフィルタの特異性を決定することと、
前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングすることとを備える、方法。
[Ｃ２] 前記特異性に少なくとも部分的に基づいて、各フィルタの前記トレーニングを続けるべきかどうかを決定することをさらに備える、Ｃ１に記載の方法。
[Ｃ３] 前記複数のフィルタのうちの特定のフィルタの前記特異性がしきい値よりも大きいとき、前記特定のフィルタのためのトレーニングを停止することをさらに備える、Ｃ２に記載の方法。
[Ｃ４] 前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性の変化がしきい値よりも小さいとき、前記特定のフィルタのトレーニングを停止することをさらに備える、Ｃ２に記載の方法。
[Ｃ５] 前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性がしきい値よりも小さいとき、前記ニューラルネットワークモデルから前記特定のフィルタを除去することをさらに備える、Ｃ２に記載の方法。
[Ｃ６] 前記特定のフィルタを除去した後に前記ニューラルネットワークモデルのトレーニングを続けることをさらに備える、Ｃ５に記載の方法。
[Ｃ７] 前記特異性が、エントロピー、元の値からの変化、分散重み値（variance weight values）、他のフィルタとの差、他のフィルタとの相互相関、またはそれらの組合せに少なくとも部分的に基づく、Ｃ１に記載の方法。
[Ｃ８] 前記複数のフィルタの前記特異性のプールされた測度（pooled measure）で誤差関数がオーグメントされながら、前記ニューラルネットワークモデルがトレーニングされる、Ｃ１に記載の方法。
[Ｃ９] メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づいて、前記ニューラルネットワークモデルのターゲット複雑さ（target complexity）を決定することをさらに備える、Ｃ１に記載の方法。
[Ｃ１０] 前記決定されたターゲット複雑さ、前記決定されたターゲット複雑さに少なくとも部分的に基づいてトレーニングすべきフィルタに優先度を付けること、またはそれらの組合せに少なくとも部分的に基づいて、フィルタが選択的にトレーニングされる、Ｃ９に記載の方法。
[Ｃ１１] 前記複数のフィルタの各々の前記特異性に少なくとも部分的に基づいて、入力に適用すべきフィルタに優先度を付けることと、
前記ニューラルネットワークモデルのターゲット複雑さに少なくとも部分的に基づいて、いくつかの優先度付きフィルタを選択することとをさらに備える、Ｃ１に記載の方法。
[Ｃ１２] 前記ターゲット複雑さが、メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づく、Ｃ１１に記載の方法。
[Ｃ１３] ニューラルネットワークモデルをトレーニングするための装置であって、
メモリユニットと、
前記メモリユニットに結合された少なくとも１つのプロセッサとを備え、前記少なくとも１つのプロセッサが、
所定の数のトレーニング反復の後に複数のフィルタの特異性を決定することと、
前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングすることと
を行うように構成された、装置。
[Ｃ１４] 前記少なくとも１つのプロセッサが、前記特異性に少なくとも部分的に基づいて、各フィルタの前記トレーニングを続けるべきかどうかを決定するようにさらに構成された、Ｃ１３に記載の装置。
[Ｃ１５] 前記少なくとも１つのプロセッサは、前記複数のフィルタのうちの特定のフィルタの前記特異性がしきい値よりも大きいとき、前記特定のフィルタのためのトレーニングを停止するようにさらに構成された、Ｃ１４に記載の装置。
[Ｃ１６] 前記少なくとも１つのプロセッサは、前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性の変化がしきい値よりも小さいとき、前記特定のフィルタのトレーニングを停止するようにさらに構成された、Ｃ１４に記載の装置。
[Ｃ１７] 前記少なくとも１つのプロセッサは、前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性がしきい値よりも小さいとき、前記ニューラルネットワークモデルから前記特定のフィルタを除去するようにさらに構成された、Ｃ１４に記載の装置。
[Ｃ１８] 前記少なくとも１つのプロセッサが、前記特定のフィルタを除去した後に前記ニューラルネットワークモデルのトレーニングを続けるようにさらに構成された、Ｃ１７に記載の装置。
[Ｃ１９] 前記特異性が、エントロピー、元の値からの変化、分散重み値、他のフィルタとの差、他のフィルタとの相互相関、またはそれらの組合せに少なくとも部分的に基づく、Ｃ１３に記載の装置。
[Ｃ２０] 前記少なくとも１つのプロセッサが、前記複数のフィルタの前記特異性のプールされた測度で誤差関数をオーグメントしながら、前記ニューラルネットワークモデルをトレーニングするようにさらに構成された、Ｃ１３に記載の装置。
[Ｃ２１] 前記少なくとも１つのプロセッサが、メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づいて、前記ニューラルネットワークモデルのターゲット複雑さを決定するようにさらに構成された、Ｃ１３に記載の装置。
[Ｃ２２] 前記少なくとも１つのプロセッサは、前記決定されたターゲット複雑さ、前記決定されたターゲット複雑さに少なくとも部分的に基づいてトレーニングすべきフィルタに優先度を付けること、またはそれらの組合せに少なくとも部分的に基づいて、フィルタを選択的にトレーニングするようにさらに構成された、Ｃ２１に記載の装置。
[Ｃ２３] 前記少なくとも１つのプロセッサが、
前記複数のフィルタの各々の前記特異性に少なくとも部分的に基づいて、入力に適用すべきフィルタに優先度を付けることと、
前記ニューラルネットワークモデルのターゲット複雑さに少なくとも部分的に基づいて、いくつかの優先度付きフィルタを選択することとを行うようにさらに構成された、Ｃ１３に記載の装置。
[Ｃ２４] 前記ターゲット複雑さが、メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づく、Ｃ２３に記載の装置。
[Ｃ２５] ニューラルネットワークモデルをトレーニングする装置であって、
所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するための手段と、
前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングするための手段とを備える、装置。
[Ｃ２６] 前記特異性に少なくとも部分的に基づいて、各フィルタの前記トレーニングを続けるべきかどうかを決定するための手段をさらに備える、Ｃ２５に記載の装置。
[Ｃ２７] 前記複数のフィルタのうちの特定のフィルタの前記特異性がしきい値よりも大きいとき、前記特定のフィルタのためのトレーニングを停止するための手段をさらに備える、Ｃ２６に記載の装置。
[Ｃ２８] 前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性の変化がしきい値よりも小さいとき、前記特定のフィルタのトレーニングを停止するための手段をさらに備える、Ｃ２６に記載の装置。
[Ｃ２９] 前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性がしきい値よりも小さいとき、前記ニューラルネットワークモデルから前記特定のフィルタを除去するための手段をさらに備える、Ｃ２６に記載の装置。
[Ｃ３０] 前記特定のフィルタを除去した後に前記ニューラルネットワークモデルのトレーニングを続けるための手段をさらに備える、Ｃ２９に記載の装置。
[Ｃ３１] 前記特異性が、エントロピー、元の値からの変化、分散重み値、他のフィルタとの差、他のフィルタとの相互相関、またはそれらの組合せに少なくとも部分的に基づく、Ｃ２５に記載の装置。
[Ｃ３２] ニューラルネットワークモデルをトレーニングするための非一時的コンピュータ可読媒体であって、前記コンピュータ可読媒体がプログラムコードを記録しており、前記プログラムコードが、プロセッサによって実行され、
所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するためのプログラムコードと、
前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングするためのプログラムコードとを備える、非一時的コンピュータ可読媒体。

Claims

ニューラルネットワークモデルをトレーニングする方法であって、
所定の数のトレーニング反復の後に複数のフィルタの特異性を決定することと、
前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングすることと
を備える、方法。
前記特異性に少なくとも部分的に基づいて、各フィルタの前記トレーニングを続けるべきかどうかを決定することをさらに備える、請求項１に記載の方法。
前記複数のフィルタのうちの特定のフィルタの前記特異性がしきい値よりも大きいとき、前記特定のフィルタのためのトレーニングを停止することをさらに備える、請求項２に記載の方法。
前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性の変化がしきい値よりも小さいとき、前記特定のフィルタのトレーニングを停止することをさらに備える、請求項２に記載の方法。
前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性がしきい値よりも小さいとき、前記ニューラルネットワークモデルから前記特定のフィルタを除去することをさらに備える、請求項２に記載の方法。
前記特定のフィルタを除去した後に前記ニューラルネットワークモデルのトレーニングを続けることをさらに備える、請求項５に記載の方法。
前記特異性が、エントロピー、元の値からの変化、分散重み値（variance weight values）、他のフィルタとの差、他のフィルタとの相互相関、またはそれらの組合せに少なくとも部分的に基づく、請求項１に記載の方法。
前記複数のフィルタの前記特異性のプールされた測度（pooled measure）で誤差関数がオーグメントされながら、前記ニューラルネットワークモデルがトレーニングされる、請求項１に記載の方法。
メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づいて、前記ニューラルネットワークモデルのターゲット複雑さ（target complexity）を決定することをさらに備える、請求項１に記載の方法。
前記決定されたターゲット複雑さ、前記決定されたターゲット複雑さに少なくとも部分的に基づいてトレーニングすべきフィルタに優先度を付けること、またはそれらの組合せに少なくとも部分的に基づいて、フィルタが選択的にトレーニングされる、請求項９に記載の方法。
前記複数のフィルタの各々の前記特異性に少なくとも部分的に基づいて、入力に適用すべきフィルタに優先度を付けることと、
前記ニューラルネットワークモデルのターゲット複雑さに少なくとも部分的に基づいて、いくつかの優先度付きフィルタを選択することと
をさらに備える、請求項１に記載の方法。
前記ターゲット複雑さが、メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づく、請求項１１に記載の方法。
ニューラルネットワークモデルをトレーニングするための装置であって、
メモリユニットと、
前記メモリユニットに結合された少なくとも１つのプロセッサとを備え、前記少なくとも１つのプロセッサが、
所定の数のトレーニング反復の後に複数のフィルタの特異性を決定することと、
前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングすることと
を行うように構成された、
装置。
前記少なくとも１つのプロセッサが、前記特異性に少なくとも部分的に基づいて、各フィルタの前記トレーニングを続けるべきかどうかを決定するようにさらに構成された、請求項１３に記載の装置。
前記少なくとも１つのプロセッサは、前記複数のフィルタのうちの特定のフィルタの前記特異性がしきい値よりも大きいとき、前記特定のフィルタのためのトレーニングを停止するようにさらに構成された、請求項１４に記載の装置。
前記少なくとも１つのプロセッサは、前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性の変化がしきい値よりも小さいとき、前記特定のフィルタのトレーニングを停止するようにさらに構成された、請求項１４に記載の装置。
前記少なくとも１つのプロセッサは、前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性がしきい値よりも小さいとき、前記ニューラルネットワークモデルから前記特定のフィルタを除去するようにさらに構成された、請求項１４に記載の装置。
前記少なくとも１つのプロセッサが、前記特定のフィルタを除去した後に前記ニューラルネットワークモデルのトレーニングを続けるようにさらに構成された、請求項１７に記載の装置。
前記特異性が、エントロピー、元の値からの変化、分散重み値、他のフィルタとの差、他のフィルタとの相互相関、またはそれらの組合せに少なくとも部分的に基づく、請求項１３に記載の装置。
前記少なくとも１つのプロセッサが、前記複数のフィルタの前記特異性のプールされた測度で誤差関数をオーグメントしながら、前記ニューラルネットワークモデルをトレーニングするようにさらに構成された、請求項１３に記載の装置。
前記少なくとも１つのプロセッサが、メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づいて、前記ニューラルネットワークモデルのターゲット複雑さを決定するようにさらに構成された、請求項１３に記載の装置。
前記少なくとも１つのプロセッサは、前記決定されたターゲット複雑さ、前記決定されたターゲット複雑さに少なくとも部分的に基づいてトレーニングすべきフィルタに優先度を付けること、またはそれらの組合せに少なくとも部分的に基づいて、フィルタを選択的にトレーニングするようにさらに構成された、請求項２１に記載の装置。
前記少なくとも１つのプロセッサが、
前記複数のフィルタの各々の前記特異性に少なくとも部分的に基づいて、入力に適用すべきフィルタに優先度を付けることと、
前記ニューラルネットワークモデルのターゲット複雑さに少なくとも部分的に基づいて、いくつかの優先度付きフィルタを選択することと
を行うようにさらに構成された、請求項１３に記載の装置。
前記ターゲット複雑さが、メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づく、請求項２３に記載の装置。
ニューラルネットワークモデルをトレーニングする装置であって、
所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するための手段と、
前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングするための手段と
を備える、装置。
前記特異性に少なくとも部分的に基づいて、各フィルタの前記トレーニングを続けるべきかどうかを決定するための手段をさらに備える、請求項２５に記載の装置。
前記複数のフィルタのうちの特定のフィルタの前記特異性がしきい値よりも大きいとき、前記特定のフィルタのためのトレーニングを停止するための手段をさらに備える、請求項２６に記載の装置。
前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性の変化がしきい値よりも小さいとき、前記特定のフィルタのトレーニングを停止するための手段をさらに備える、請求項２６に記載の装置。
前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性がしきい値よりも小さいとき、前記ニューラルネットワークモデルから前記特定のフィルタを除去するための手段をさらに備える、請求項２６に記載の装置。
前記特定のフィルタを除去した後に前記ニューラルネットワークモデルのトレーニングを続けるための手段をさらに備える、請求項２９に記載の装置。
前記特異性が、エントロピー、元の値からの変化、分散重み値、他のフィルタとの差、他のフィルタとの相互相関、またはそれらの組合せに少なくとも部分的に基づく、請求項２５に記載の装置。
ニューラルネットワークモデルをトレーニングするための非一時的コンピュータ可読媒体であって、前記コンピュータ可読媒体がプログラムコードを記録しており、前記プログラムコードが、プロセッサによって実行され、
所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するためのプログラムコードと、
前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングするためのプログラムコードと
を備える、非一時的コンピュータ可読媒体。