JP2018520404A - ニューラルネットワークのためのトレーニング基準としてのフィルタ特異性 - Google Patents

ニューラルネットワークのためのトレーニング基準としてのフィルタ特異性 Download PDF

Info

Publication number
JP2018520404A
JP2018520404A JP2017556153A JP2017556153A JP2018520404A JP 2018520404 A JP2018520404 A JP 2018520404A JP 2017556153 A JP2017556153 A JP 2017556153A JP 2017556153 A JP2017556153 A JP 2017556153A JP 2018520404 A JP2018520404 A JP 2018520404A
Authority
JP
Japan
Prior art keywords
training
filter
specificity
filters
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017556153A
Other languages
English (en)
Inventor
トワル、レーガン・ブライス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2018520404A publication Critical patent/JP2018520404A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Networks Using Active Elements (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Measurement Of Resistance Or Impedance (AREA)

Abstract

ニューラルネットワークモデルをトレーニングする方法が、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定することを含む。本方法は、特異性に基づいてフィルタの各々をトレーニングすることをも含む。

Description

関連出願の相互参照
[0001] 本出願は、その開示全体が参照により本明細書に明確に組み込まれる、2015年4月28日に出願された「FILTER SPECIFICITY AS TRAINING CRITERION FOR NEURAL NETWORKS」と題する米国仮特許出願第62/154,089号の米国特許法第119条(e)項に基づく利益を主張する。
[0002] 本開示のいくつかの態様は、一般にニューラルシステムエンジニアリングに関し、より詳細には、ニューラルネットワーク(neural network)のためのトレーニング基準(training criterion)としてフィルタ特異性(filter specificity)を使用するためのシステムおよび方法に関する。
[0003] 人工ニューロン(artificial neuron)(たとえば、ニューロンモデル)の相互結合されたグループを備え得る人工ニューラルネットワーク(artificial neural network)は、計算デバイスであるか、または計算デバイスによって実行されるべき方法を表す。
[0004] 畳み込みニューラルネットワークは、フィードフォワード人工ニューラルネットワークのタイプである。畳み込みニューラルネットワークは、各々が受容野(receptive field)を有し、入力空間を集合的にタイリングするニューロンの集合を含み得る。畳み込みニューラルネットワーク(CNN:convolutional neural network)は多数の適用例を有する。特に、CNNは、パターン認識および分類の領域内で広く使用されている。
[0005] 深層信念ネットワーク(deep belief network)および深層畳み込みネットワーク(deep convolutional network)など、深層学習アーキテクチャ(deep learning architecture)は、層状(layered)ニューラルネットワークアーキテクチャであり、ニューロンの第1の層の出力はニューロンの第2の層への入力になり、ニューロンの第2の層の出力はニューロンの第3の層になり、入力し、以下同様である。深層ニューラルネットワーク(deep neural network)は、特徴の階層(hierarchy)を認識するようにトレーニングされ得、したがって、それらはオブジェクト認識適用例においてますます使用されている。畳み込みニューラルネットワークのように、これらの深層学習アーキテクチャにおける計算は、1つまたは複数の計算チェーンにおいて構成され得る処理ノードの集団にわたって分散され得る。これらの多層アーキテクチャは、一度に1つの層をトレーニングされ得、バックプロパゲーション(back propagation)を使用して微調整され得る。
[0006] 他のモデルも、オブジェクト認識のために利用可能である。たとえば、サポートベクターマシン(SVM:support vector machine)は、分類のために適用され得る学習ツールである。サポートベクターマシンは、データをカテゴリー分類する分離超平面(separating hyperplane)(たとえば、決定境界(decision boundary))を含む。超平面は、教師あり学習(supervised learning)によって定義される。所望の超平面は、トレーニングデータのマージンを増加させる。言い換えれば、超平面は、トレーニング例との最大の最小距離を有するべきである。
[0007] これらのソリューションは、いくつかの分類ベンチマーク上で優れた結果を達成するが、それらの計算複雑さは極めて高いことがある。さらに、モデルのトレーニングが難しいことがある。
[0008] 本開示の一態様では、ニューラルネットワークモデル(neural network model)をトレーニングするための方法が開示される。本方法は、所定の数のトレーニング反復(training iterations)の後に複数のフィルタ(filter)の特異性(specificity)を決定すること(determining)を含む。本方法は、特異性に基づいてフィルタの各々をトレーニングすることをも含む。
[0009] 本開示の別の態様は、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するための手段を含む装置(apparatus)を対象とする。本装置は、特異性に基づいてフィルタの各々をトレーニングするための手段をも含む。
[0010] 本開示の別の態様では、非一時的コンピュータ可読媒体(non-transitory computer-readable medium)が非一時的プログラムコードを記録している。プログラムコード(program code)は、プロセッサ(processor)によって実行され、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するためのプログラムコードを含む。プログラムコードは、特異性に基づいてフィルタの各々をトレーニングするためのプログラムコードをも含む。
[0011] 本開示の別の態様は、メモリ(memory)と、メモリに結合された1つまたは複数のプロセッサとを有する、ニューラルネットワークモデルをトレーニングするための装置を対象とする。(1つまたは複数の)プロセッサは、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するように構成される。(1つまたは複数の)プロセッサはまた、特異性に基づいてフィルタの各々をトレーニングするように構成される。
[0012] 本開示の追加の特徴および利点が、以下で説明される。本開示は、本開示の同じ目的を実行するための他の構造を変更または設計するための基礎として容易に利用され得ることを、当業者は諒解されたい。また、そのような等価な構成が、添付の特許請求の範囲に記載の本開示の教示から逸脱しないことを、当業者は了解されたい。さらなる目的および利点とともに、本開示の編成と動作の方法の両方に関して、本開示を特徴づけると考えられる新規の特徴は、添付の図に関連して以下の説明を検討するとより良く理解されよう。ただし、図の各々は、例示および説明のみの目的で与えられたものであり、本開示の限界を定めるものではないことを明確に理解されたい。
[0013] 本開示の特徴、特性、および利点は、全体を通じて同様の参照符号が同様のものを指す図面とともに、以下に記載される発明を実施するための形態を読めばより明らかになろう。
[0014] 本開示のいくつかの態様による、汎用プロセッサを含むシステムオンチップ(SOC:system-on-a-chip)を使用してニューラルネットワークを設計する例示的な実装形態を示す図。 [0015] 本開示の態様による、システムの例示的な実装形態を示す図。 [0016] 本開示の態様による、ニューラルネットワークを示す図。 [0017] 本開示の態様による、例示的な深層畳み込みネットワーク(DCN:deep convolutional network)を示すブロック図。 [0018] 本開示の態様による、人工知能(AI:artificial intelligence)機能をモジュール化し得る例示的なソフトウェアアーキテクチャを示すブロック図。 [0019] 本開示の態様による、スマートフォン上のAIアプリケーションのランタイム動作を示すブロック図。 [0020] バックプロパゲーションのための従来のプロセスを示す流れ図。 [0021] 本開示の態様による、様々なトレーニング反復の後のフィルタの例を示す図。 本開示の態様による、様々なトレーニング反復の後のフィルタの例を示す図。 本開示の態様による、様々なトレーニング反復の後のフィルタの例を示す図。 本開示の態様による、様々なトレーニング反復の後のフィルタの例を示す図。 [0022] 本開示の態様による、フィルタをトレーニングするための方法を示す流れ図。 本開示の態様による、フィルタをトレーニングするための方法を示す流れ図。
[0023] 添付の図面に関して以下に記載される発明を実施するための形態は、様々な構成を説明するものであり、本明細書で説明される概念が実施され得る構成のみを表すものではない。発明を実施するための形態は、様々な概念の完全な理解を与えるための具体的な詳細を含む。ただし、これらの概念はこれらの具体的な詳細なしに実施され得ることが当業者には明らかであろう。いくつかの事例では、そのような概念を不明瞭にしないように、よく知られている構造および構成要素がブロック図の形式で示される。
[0024] これらの教示に基づいて、本開示の範囲は、本開示の他の態様とは無関係に実装されるにせよ、本開示の他の態様と組み合わせて実装されるにせよ、本開示のいかなる態様をもカバーするものであることを、当業者なら諒解されたい。たとえば、記載された態様をいくつ使用しても、装置は実装され得るか、または方法は実施され得る。さらに、本開示の範囲は、記載された本開示の様々な態様に加えてまたはそれらの態様以外に、他の構造、機能、または構造および機能を使用して実施されるそのような装置または方法をカバーするものとする。開示される本開示のいずれの態様も、請求項の1つまたは複数の要素によって実施され得ることを理解されたい。
[0025] 「例示的」という単語は、本明細書では「例、事例、または例示の働きをすること」を意味するために使用される。「例示的」として本明細書で説明されるいかなる態様も、必ずしも他の態様よりも好適または有利であると解釈されるべきであるとは限らない。
[0026] 本明細書では特定の態様が説明されるが、これらの態様の多くの変形および置換は本開示の範囲内に入る。好適な態様のいくつかの利益および利点が説明されるが、本開示の範囲は特定の利益、使用、または目的に限定されるものではない。むしろ、本開示の態様は、様々な技術、システム構成、ネットワーク、およびプロトコルに広く適用可能であるものとし、それらのいくつかが、例として、図および好適な態様についての以下の説明において示される。発明を実施するための形態および図面は、本開示を限定するものではなく説明するものにすぎず、本開示の範囲は添付の特許請求の範囲およびそれの均等物によって定義される。
[0027] ニューラルネットワークおよび/または他のシステムの場合、入力のコンテンツを決定するためにフィルタが使用され得る。たとえば、特定のボイスが存在するかどうかを決定するために、フィルタがオーディオ入力に適用され得る。別の例では、車など、特定のオブジェクトが画像中に存在するかどうかを決定するために、フィルタが画像に適用され得る。いくつかの場合には、フィルタの品質は、トレーニングセット(training set)が小さいとき、モデルが大きすぎるとき、および/またはトレーニングセットが誤差(error)を含むとき、低減され得る。低減された品質をもつフィルタは、弱いフィルタ(weak filter)と呼ばれることがある。弱いフィルタまたは部分的に学習されたフィルタは、入力のコンテンツを決定するために指定される弁別基準(discriminative basis)を提供しないことがある。
[0028] したがって、本開示の態様は、フィルタの品質を改善することを対象とする。詳細には、一構成では、ニューラルネットワークモデルをトレーニングするとき、所定の数のトレーニング反復の後に1つまたは複数のフィルタの特異性が決定される。さらに、この構成では、ネットワークは、特異性に基づいて、各フィルタをトレーニングすることを続けるべきかどうかを決定する。
[0029] 図1は、本開示のいくつかの態様による、汎用プロセッサ(CPU)またはマルチコア汎用プロセッサ(CPU)102を含み得るシステムオンチップ(SOC: system-on-a-chip)100を使用してトレーニングする上述のネットワークの例示的な実装形態を示す。変数(たとえば、ニューラル信号(neural signal)およびシナプス荷重(synaptic weight))、計算デバイスに関連するシステムパラメータ(たとえば、重み(weight)をもつニューラルネットワーク)、遅延、周波数ビン情報、およびタスク情報が、ニューラル処理ユニット(NPU:neural processing unit)108に関連するメモリブロックに記憶されるか、または専用メモリブロック118に記憶され得る。汎用プロセッサ102において実行される命令が、CPU102に関連するプログラムメモリからロードされ得るか、または専用メモリブロック118からロードされ得る。
[0030] SOC100はまた、グラフィックス処理ユニット(GPU:graphics processing unit)104、デジタル信号プロセッサ(DSP)106など、特定の機能に適合された追加の処理ブロックと、第4世代ロングタームエボリューション(4G LTE(登録商標))接続性、無認可Wi−Fi(登録商標)接続性、USB接続性、Bluetooth(登録商標)接続性などを含み得る接続性ブロック110と、たとえば、ジェスチャーを検出および認識し得るマルチメディアプロセッサ112とを含み得る。SOC100はまた、センサープロセッサ114、画像信号プロセッサ(ISP:image signal processor)、および/または全地球測位システムを含み得るナビゲーション120を含み得る。SOCはARM命令セットに基づき得る。
[0031] SOC100はまた、GPU104、DSP106など、特定の機能に適合された追加の処理ブロックと、第4世代ロングタームエボリューション(4G LTE)接続性、無認可Wi−Fi接続性(unlicensed Wi-Fi connectivity)、USB接続性、Bluetooth接続性などを含み得る接続性ブロック110と、たとえば、ジェスチャーを検出および認識し得るマルチメディアプロセッサ112とを含み得る。一実装形態では、NPUは、CPU、DSP、および/またはGPUにおいて実装される。SOC100はまた、センサープロセッサ114、画像信号プロセッサ(ISP)、および/または全地球測位システムを含み得るナビゲーション120を含み得る。
[0032] SOC100はARM命令セットに基づき得る。本開示の一態様では、汎用プロセッサ102にロードされる命令は、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するためのコードを備え得る。汎用プロセッサ102にロードされる命令は、特異性に少なくとも部分的に基づいて複数のフィルタの各フィルタをトレーニングするためのコードをも備え得る。
[0033] 図2に、本開示のいくつかの態様による、システム200の例示的な実装形態を示す。図2に示されているように、システム200は、本明細書で説明される方法の様々な動作を実行し得る複数のローカル処理ユニット202を有し得る。各ローカル処理ユニット202は、ローカル状態メモリ204と、ニューラルネットワークのパラメータを記憶し得るローカルパラメータメモリ206とを備え得る。さらに、ローカル処理ユニット202は、ローカルモデルプログラムを記憶するためのローカル(ニューロン)モデルプログラム(LMP: local (neuron) model program)メモリ208と、ローカル学習プログラムを記憶するためのローカル学習プログラム(LLP: local learning program)メモリ210と、ローカル接続メモリ212とを有し得る。さらに、図2に示されているように、各ローカル処理ユニット202は、ローカル処理ユニットのローカルメモリのための構成を与えるための構成プロセッサユニット214、およびローカル処理ユニット202間のルーティングを与えるルーティング接続処理ユニット216とインターフェースし得る。
[0034] 深層学習アーキテクチャは、各層において連続的により高い抽象レベルで入力を表現するように学習し、それにより、入力データの有用な特徴表現を蓄積することによって、オブジェクト認識タスクを実行し得る。このようにして、深層学習(deep learning)は、旧来の機械学習の主要なボトルネックに対処する。深層学習の出現より前に、オブジェクト認識問題(object recognition problem)に対する機械学習手法は、場合によっては浅い分類器(shallow classifier)と組み合わせて、人的に設計された特徴に大きく依拠していることがある。浅い分類器は、たとえば、入力がどのクラスに属するかを予測するために、特徴ベクトル成分の重み付き和がしきい値(threshold)と比較され得る2クラス線形分類器(two-class linear classifier)であり得る。人的に設計された特徴は、領域の専門知識をもつ技術者によって特定の問題領域に適合されたテンプレートまたはカーネルであり得る。対照的に、深層学習アーキテクチャは、人間の技術者が設計し得るものと同様である特徴を表現するように学習するが、トレーニングを通してそれを行い得る。さらに、深層ネットワークは、人間が考慮していないことがある新しいタイプの特徴を表現し、認識するように学習し得る。
[0035] 深層学習アーキテクチャは特徴の階層を学習し得る。たとえば、視覚データが提示された場合、第1の層は、エッジなど、入力ストリーム中の比較的単純な特徴を認識するように学習し得る。別の例では、聴覚データが提示された場合、第1の層は、特定の周波数におけるスペクトル電力を認識するように学習し得る。第1の層の出力を入力として取る第2の層は、視覚データの場合の単純な形状、または聴覚データの場合の音の組合せなど、特徴の組合せを認識するように学習し得る。たとえば、上位層は、視覚データ中の複雑な形状、または聴覚データ中の単語を表現するように学習し得る。さらに上位の層は、共通の視覚オブジェクトまたは発話フレーズを認識するように学習し得る。
[0036] 深層学習アーキテクチャは、自然階層構造を有する問題に適用されたとき、特にうまく機能し得る。たとえば、原動機付き車両の分類は、ホイール、フロントガラス、および他の特徴を認識するための第1の学習から恩恵を受け得る。これらの特徴は、車、トラック、および飛行機を認識するために、異なる方法で、上位層において組み合わせられ得る。
[0037] ニューラルネットワークは、様々な結合性パターン(connectivity pattern)を用いて設計され得る。フィードフォワードネットワーク(feed-forward network)では、情報が下位層から上位層に受け渡され、所与の層における各ニューロン(neuron)は、上位層におけるニューロンに通信する。上記で説明されたように、フィードフォワードネットワークの連続する層において、階層表現(hierarchical representation)が蓄積され得る。ニューラルネットワークはまた、リカレント(recurrent)または(トップダウンとも呼ばれる)フィードバック結合を有し得る。リカレント結合では、所与の層におけるニューロンからの出力は、同じ層における別のニューロンに通信され得る。リカレントアーキテクチャは、ニューラルネットワークに順次配信される入力データチャンクのうちの2つ以上にわたるパターンを認識するのに役立ち得る。所与の層におけるニューロンから下位層におけるニューロンへの結合は、フィードバック(またはトップダウン)結合と呼ばれる。高レベルの概念の認識が、入力の特定の低レベルの特徴を弁別することを助け得るとき、多くのフィードバック結合をもつネットワークが役立ち得る。
[0038] 図3Aを参照すると、ニューラルネットワークの層間の結合は全結合302または局所結合304であり得る。全結合ネットワーク302では、第1の層におけるニューロンは、第2の層における各ニューロンが第1の層におけるあらゆるニューロンから入力を受信するように、それの出力を第2の層におけるあらゆるニューロンに通信し得る。代替的に、局所結合ネットワーク304では、第1の層におけるニューロンは、第2の層における限られた数のニューロンに結合され得る。畳み込みネットワーク306は、局所結合であり得、第2の層における各ニューロンのための入力に関連する結合強度が共有されるようにさらに構成される(たとえば、308)。より一般的には、ネットワークの局所結合層は、層における各ニューロンが同じまたは同様の結合性パターンを有するように構成されるが、異なる値を有し得る結合強度で構成され得る(たとえば、310、312、314、および316)。局所結合の結合性パターンは、所与の領域中の上位層ニューロンが、ネットワークへの総入力のうちの制限された部分のプロパティにトレーニングを通して調整された入力を受信し得るので、上位層において空間的に別個の受容野(receptive field)を生じ得る。
[0039] 局所結合ニューラルネットワークは、入力の空間ロケーションが有意味である問題に好適であり得る。たとえば、車載カメラからの視覚特徴を認識するように設計されたネットワーク300は、画像の下側部分対上側部分とのそれらの関連付けに依存して、異なるプロパティをもつ上位層ニューロンを発達させ得る。画像の下側部分に関連するニューロンは、たとえば、車線区分線を認識するように学習し得るが、画像の上側部分に関連するニューロンは、交通信号、交通標識などを認識するように学習し得る。
[0040] DCNは、教師あり学習を用いてトレーニングされ得る。トレーニング中に、DCNは、速度制限標識のクロップされた画像326など、画像を提示され得、次いで、出力322を生成するために、「フォワードパス(forward pass)」が計算され得る。出力322は、「標識」、「60」、および「100」など、特徴に対応する値のベクトルであり得る。ネットワーク設計者は、DCNが、出力特徴ベクトルにおけるニューロンのうちのいくつか、たとえば、トレーニングされたネットワーク300のための出力322に示されているように「標識」および「60」に対応するニューロンについて、高いスコアを出力することを希望し得る。トレーニングの前に、DCNによって生成された出力は不正確である可能性があり、したがって、実際の出力とターゲット出力との間で誤差が計算され得る。次いで、DCNの重みは、DCNの出力スコアがターゲットとより密接に整合されるように調節され得る。
[0041] 重みを調節するために、学習アルゴリズムは、重みのための勾配ベクトル(gradient vector)を計算し得る。勾配は、重みがわずかに調節された場合に、誤差が増加または減少する量を示し得る。最上層において、勾配は、最後から2番目の層における活性化されたニューロンと出力層におけるニューロンとを結合する重みの値に直接対応し得る。下位層では、勾配は、重みの値と、上位層の計算された誤差勾配とに依存し得る。次いで、重みは、誤差を低減するように調節され得る。重みを調節するこの様式は、それがニューラルネットワークを通して「バックワードパス(backward pass)」を伴うので、「バックプロパゲーション」と呼ばれることがある。
[0042] 実際には、重みの誤差勾配は、計算された勾配が真の誤差勾配を近似するように、少数の例にわたって計算され得る。この近似方法は、確率的勾配降下(stochastic gradient descent)と呼ばれることがある。システム全体の達成可能な誤差レートが減少しなくなるまで、または誤差レートがターゲットレベルに達するまで、確率的勾配降下が繰り返され得る。
[0043] 学習の後に、DCNは新しい画像326を提示され得、ネットワークを通したフォワードパスは、DCNの推論または予測と見なされ得る出力322をもたらし得る。
[0044] 深層信念ネットワーク(DBN:deep belief network)は、隠れノードの複数の層を備える確率モデルである。DBNは、トレーニングデータセットの階層表現を抽出するために使用され得る。DBNは、制限ボルツマンマシン(RBM:Restricted Boltzmann Machine)の層を積層することによって取得され得る。RBMは、入力のセットにわたる確率分布を学習することができる人工ニューラルネットワークのタイプである。RBMは、各入力がそれにカテゴリー分類されるべきクラスに関する情報の不在下で確率分布を学習することができるので、RBMは、教師なし学習においてしばしば使用される。ハイブリッド教師なしおよび教師ありパラダイムを使用して、DBNの下部RBMは、教師なし様式でトレーニングされ得、特徴抽出器として働き得、上部RBMは、(前の層からの入力とターゲットクラスとの同時分布上で)教師あり様式でトレーニングされ得、分類器として働き得る。
[0045] 深層畳み込みネットワーク(DCN)は、追加のプーリング層および正規化層で構成された、畳み込みネットワークのネットワークである。DCNは、多くのタスクに関して最先端の性能を達成している。DCNは、入力と出力ターゲットの両方が、多くの標本について知られており、勾配降下方法(gradient descent method)の使用によってネットワークの重みを変更するために使用される、教師あり学習を使用してトレーニングされ得る。
[0046] DCNは、フィードフォワードネットワークであり得る。さらに、上記で説明されたように、DCNの第1の層におけるニューロンから次の上位層におけるニューロンのグループへの結合は、第1の層におけるニューロンにわたって共有される。DCNのフィードフォワードおよび共有結合(feed-forward and shared connections)は、高速処理のために活用され得る。DCNの計算負担(computational burden)は、たとえば、リカレントまたはフィードバック結合を備える同様のサイズのニューラルネットワークのそれよりもはるかに少ないことがある。
[0047] 畳み込みネットワークの各層の処理は、空間的に不変のテンプレートまたは基底投射と見なされ得る。入力が、カラー画像の赤色、緑色、および青色チャネルなど、複数のチャネルに最初に分解された場合、その入力に関してトレーニングされた畳み込みネットワークは、画像の軸に沿った2つの空間次元と、色情報をキャプチャする第3の次元とをもつ、3次元であると見なされ得る。畳み込み結合の出力は、後続の層318および320において特徴マップを形成すると考えられ、特徴マップ(たとえば、320)の各要素が、前の層(たとえば、318)における様々なニューロンから、および複数のチャネルの各々から入力を受信し得る。特徴マップにおける値は、整流(rectification)、max(0,x)など、非線形性を用いてさらに処理され得る。隣接するニューロンからの値は、さらにプールされ得、これは、ダウンサンプリングに対応し、さらなる局所不変性(local invariance)と次元削減(dimensionality reduction)とを与え得る。白色化に対応する正規化はまた、特徴マップにおけるニューロン間のラテラル抑制(lateral inhibition)によって適用され得る。
[0048] 深層学習アーキテクチャの性能は、より多くのラベリングされたデータポイントが利用可能となるにつれて、または計算能力が増加するにつれて、向上し得る。現代の深層ニューラルネットワークは、ほんの15年前に一般的な研究者にとって利用可能であったものより数千倍も大きいコンピューティングリソースを用いて、ルーチン的にトレーニングされる。新しいアーキテクチャおよびトレーニングパラダイムが、深層学習の性能をさらに高め得る。整流された線形ユニット(rectified linear unit)は、勾配消失(vanishing gradients)として知られるトレーニング問題を低減し得る。新しいトレーニング技法は、過学習(over-fitting)を低減し、したがって、より大きいモデルがより良い汎化を達成することを可能にし得る。カプセル化技法は、所与の受容野においてデータを抽出し、全体的性能をさらに高め得る。
[0049] 図3Bは、例示的な深層畳み込みネットワーク350を示すブロック図である。深層畳み込みネットワーク350は、結合性および重み共有に基づく、複数の異なるタイプの層を含み得る。図3Bに示されているように、例示的な深層畳み込みネットワーク350は、複数の畳み込みブロック(たとえば、C1およびC2)を含む。畳み込みブロックの各々は、畳み込み層(convolution layer)と、正規化層(normalization layer)(LNorm)と、プーリング層(pooling layer)とで構成され得る。畳み込み層は、1つまたは複数の畳み込みフィルタを含み得、これは、特徴マップを生成するために入力データに適用され得る。2つの畳み込みブロックのみが示されているが、本開示はそのように限定しておらず、代わりに、設計選好に従って、任意の数の畳み込みブロックが深層畳み込みネットワーク350中に含まれ得る。正規化層は、畳み込みフィルタの出力を正規化するために使用され得る。たとえば、正規化層は、白色化またはラテラル抑制を行い得る。プーリング層は、局所不変性および次元削減のために、空間にわたってダウンサンプリングアグリゲーション(down sampling aggregation)を行い得る。
[0050] たとえば、深層畳み込みネットワークの並列フィルタバンクは、高性能および低電力消費を達成するために、随意にARM命令セットに基づいて、SOC100のCPU102またはGPU104にロードされ得る。代替実施形態では、並列フィルタバンクは、SOC100のDSP106またはISP116にロードされ得る。さらに、DCNは、センサー114およびナビゲーション120に専用の処理ブロックなど、SOC上に存在し得る他の処理ブロックにアクセスし得る。
[0051] 深層畳み込みネットワーク350はまた、1つまたは複数の全結合層(たとえば、FC1およびFC2)を含み得る。深層畳み込みネットワーク350は、ロジスティック回帰(LR:logistic regression)層をさらに含み得る。深層畳み込みネットワーク350の各層の間には、更新されるべき重み(weight)(図示せず)がある。各層の出力は、第1の畳み込みブロックC1において供給された入力データ(たとえば、画像、オーディオ、ビデオ、センサーデータおよび/または他の入力データ)から階層特徴表現を学習するために、深層畳み込みネットワーク350中の後続の層の入力として働き得る。
[0052] 図4は、人工知能(AI)機能をモジュール化し得る例示的なソフトウェアアーキテクチャ400を示すブロック図である。アーキテクチャを使用して、SOC420の様々な処理ブロック(たとえば、CPU422、DSP424、GPU426および/またはNPU428)に、アプリケーション402のランタイム動作中に計算をサポートすることを実行させ得るアプリケーション402が設計され得る。
[0053] AIアプリケーション402は、たとえば、デバイスが現在動作するロケーションを示すシーンの検出および認識を与え得る、ユーザ空間404において定義されている機能を呼び出すように構成され得る。AIアプリケーション402は、たとえば、認識されたシーンがオフィス、講堂、レストラン、または湖などの屋外環境であるかどうかに応じて別様に、マイクロフォンおよびカメラを構成し得る。AIアプリケーション402は、現在のシーンの推定を与えるために、SceneDetectアプリケーションプログラミングインターフェース(API)406において定義されているライブラリに関連するコンパイルされたプログラムコードへの要求を行い得る。この要求は、たとえば、ビデオおよび測位データに基づくシーン推定を与えるように構成された深層ニューラルネットワークの出力に最終的に依拠し得る。
[0054] さらに、ランタイムフレームワークのコンパイルされたコードであり得るランタイムエンジン408が、AIアプリケーション402にとってアクセス可能であり得る。AIアプリケーション402は、たとえば、ランタイムエンジンに、特定の時間間隔における、またはアプリケーションのユーザインターフェースによって検出されたイベントによってトリガされた、シーン推定を要求させ得る。シーンを推定させられたとき、ランタイムエンジンは、SOC420上で実行している、Linux(登録商標)カーネル412など、オペレーティングシステム410に信号を送り得る。オペレーティングシステム410は、CPU422、DSP424、GPU426、NPU428、またはそれらの何らかの組合せ上で、計算を実行させ得る。CPU422は、オペレーティングシステムによって直接アクセスされ得、他の処理ブロックは、DSP424のための、GPU426のための、またはNPU428のためのドライバ414〜418など、ドライバを通してアクセスされ得る。例示的な例では、深層ニューラルネットワークは、CPU422およびGPU426など、処理ブロックの組合せ上で動作するように構成され得るか、または存在する場合、NPU428上で動作させられ得る。
[0055] 図5は、スマートフォン502上のAIアプリケーションのランタイム動作500を示すブロック図である。AIアプリケーションは、画像506のフォーマットを変換し、次いで画像508をクロップおよび/またはリサイズするように(たとえば、JAVA(登録商標)プログラミング言語を使用して)構成され得る前処理モジュール504を含み得る。次いで、前処理された画像は、視覚入力に基づいてシーンを検出および分類するように(たとえば、Cプログラミング言語を使用して)構成され得るSceneDetectバックエンドエンジン512を含んでいる分類アプリケーション(classify application)510に通信され得る。SceneDetectバックエンドエンジン512は、スケーリング(scaling)516およびクロッピング(cropping)518によって、画像をさらに前処理514するように構成され得る。たとえば、画像は、得られた画像が224ピクセル×224ピクセルであるように、スケーリングされ、クロップされ得る。これらの次元は、ニューラルネットワークの入力次元にマッピングし得る。ニューラルネットワークは、SOC100の様々な処理ブロックに、深層ニューラルネットワークを用いて画像ピクセルをさらに処理させるように、深層ニューラルネットワークブロック520によって構成され得る。次いで、深層ニューラルネットワークの結果は、しきい値処理522され、分類アプリケーション510中の指数平滑化ブロック(exponential smoothing block)524を通され得る。次いで、平滑化された結果は、スマートフォン502の設定および/またはディスプレイの変更を生じ得る。
[0056] 一構成では、機械学習モデルは、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定することと、特異性に少なくとも部分的に基づいて複数のフィルタの各フィルタをトレーニングすることとを行うために構成される。モデルは、決定手段および/またはトレーニング手段を含む。一態様では、決定手段および/またはトレーニング手段は、具陳された機能を実行するように構成された、汎用プロセッサ102、汎用プロセッサ102に関連するプログラムメモリ、メモリブロック118、ローカル処理ユニット202、およびまたはルーティング接続処理ユニット216であり得る。別の構成では、上述の手段は、上述の手段によって具陳された機能を実行するように構成された任意のモジュールまたは任意の装置であり得る。
[0057] 本開示のいくつかの態様によれば、各ローカル処理ユニット202は、モデルの所望の1つまたは複数の機能的特徴に基づいてモデルのパラメータを決定し、決定されたパラメータがさらに適合、調整および更新されるように、1つまたは複数の機能的特徴を所望の機能的特徴のほうへ発達させるように構成され得る。
ニューラルネットワークのためのトレーニング基準としてのフィルタ特異性(FILTER SPECIFICITY AS TRAINING CRITERION FOR NEURAL NETWORKS)
[0058] 従来のシステムでは、画像など、入力を変更し、および/または向上させるために、フィルタが指定され得る。さらに、特定の要素が入力中に存在するかどうかを決定するために、フィルタが使用され得る。たとえば、フィルタは、水平線が画像の3×3ピクセル部分中に存在するかどうかを決定し得る。したがって、システムは、様々なタイプのフィルタを適用することによって、特定のコンテンツが入力中に存在するかどうかを決定し得る。したがって、入力を分類するために様々なフィルタが使用され得る。本開示の態様は、入力としての画像について説明される。さらに、本開示の態様は、画像に限定されず、オーディオ、ビデオ、センサーデータおよび/または他の入力データなど、他のタイプの入力のために企図される。
[0059] 従来のシステムでは、画像の線形フィルタ処理のために畳み込みが指定され得る。詳細には、畳み込み出力は、入力ピクセルの重み付き和である。重みの行列は、畳み込みカーネル、またはフィルタと呼ばれることがある。畳み込みは、線形化画像および線形化フィルタの行列乗算によって取得され得る。
[0060] さらに、従来のニューラルネットワークは、トレーニングのためにバックプロパゲーションを使用する。バックプロパゲーションは、損失関数勾配(すなわち、誤差)を計算するために、各入力値について、知られている出力を使用する。すなわち、バックプロパゲーションは、ネットワークの変更可能な重みからネットワークの誤差の勾配を計算するために指定される。たいていの場合、勾配は、誤差を低減するフィルタについての重みを決定するために使用される。
[0061] 図6は、バックプロパゲーションのための流れ図600の一例を示す。この例では、画像の知られている出力(すなわち、ラベル)は猫である。したがって、ラベルは猫に設定され、予測ラベル(predicted label)は猫であるべきである。さらに、猫の画像602が、第1の畳み込み層604に入力される。第1の畳み込み層604は、畳み込みの結果を第2の畳み込み層606に出力する。さらに、第2の畳み込み層606は、畳み込みの結果を第3の畳み込み層608に出力する。最終的に、予測ラベル610が、第3の畳み込み層608から出力される。もちろん、本開示の態様は3つの畳み込み層に限定されず、より多いまたはより少ない畳み込み層が、必要に応じて指定され得る。
[0062] 画像のラベルはベクトルとして表され得る。たとえば、図6の例に基づいて、猫および犬のためのラベルは、1が猫のためのベクトルであり、0が犬のためベクトルであるように、(1,0)などのベクトルであり得る。さらに、一例として、ネットワークのトレーニングに基づいて、ネットワークは、入力画像が猫であるという50%の信頼度を有し得る。信頼度は、予測確率(predicted probability)と呼ばれることがある。すなわち、猫についての予測ラベル出力は、0.5であり得る。したがって、その猫についての誤差は、1と0.5との間の差の関数(すなわち、(1−0.5))である。さらに、ネットワークは、トレーニングに基づいて、入力画像が犬であるという20%の信頼度を有し得る。したがって、犬についての予測ラベル出力は、0.2であり得る。したがって、犬についての誤差は、0と0.2との間の差の関数(すなわち、(0−0.2))である。
[0063] 誤差関数(error function)は、ラベル(label)と予測ラベル(predicted label)との間の差に基づいて、ネットワークをトレーニングするために使用される。詳細には、誤差(error)は次のように決定され得る。
Figure 2018520404
[0064] 誤差関数は、入力画像に基づくネットワークの信頼度出力に基づく。さらに、猫についての0.5など、計算された誤差に基づいて、フィルタの重みが以下の式に従って調節される。
Figure 2018520404
Figure 2018520404
[0065] 式2および式3は従来のバックプロパゲーション式である。式2および式3では、wijはニューロンiとニューロンjとの間の重みである。さらに、式2に示されているように、誤差の偏導関数(partial derivative)がフィルタの重み(wij)に関して計算される。式2の右辺は従来のチェーンルールに基づく。勾配降下を使用して重み(wij)を更新するために、学習レートαが選択される。式3に示されているように、古い重みwijに追加される重みの変化Δwijが、−1を乗算された、学習レートと勾配との積に等しい。−1は、誤差関数の最大値ではなく最小値の方向に更新にするために指定される。
[0066] 式3に基づいて、フィルタの重みが高く、重みが誤差に寄与した場合、重みは、低く、誤差に寄与しなかった重みと比較して、より大きい量だけ減少され得る。さらに、式3に基づいて、誤差の偏導関数が非ゼロである場合、フィルタが更新される。
[0067] たいていの場合、誤差関数はグローバル関数であるので、予測ラベルが正確であるように誤差が低減される限り、ネットワークの個別の重みは無視される。グローバル関数は、様々な特定のフィルタ(specific filter)を生成するために使用され得る。前に説明したように、トレーニングセットが小さいとき、モデルが大きすぎるとき、および/またはトレーニングセットが誤差を含むとき、弱いフィルタが取得され得る。
[0068] 図7は、強いフィルタ704のセットと比較して、弱いフィルタ702のセットを示す。図7に示されているように、弱いフィルタ702は、特定の鮮明度を有しない。たとえば、弱いフィルタ702の各々は、一般化され、明確な輪郭を有しない。対照的に、強いフィルタ704の鮮明度は、様々な線および角が認識可能であるように、弱いフィルタ702の鮮明度よりも大きい。強いフィルタ704は、1つまたは複数の水平線が画像中に存在するかどうかなど、入力の特定の特徴の検出を改善する。
[0069] 一例として、ネットワークは、犬と猫との間を弁別するというタスクを与えられ得る。この例では、限られた数のトレーニングサンプルまたはトレーニングにおける誤差が存在し得る。たとえば、フィルタは、白色の猫および黒色の犬の画像に対してのみトレーニングされ得る。したがって、この例では、フィルタは、限定されたトレーニングサンプルにより、グレーの様々な色合いに一般化され得る。したがって、この例では、グレースケールフィルタは、黒色の犬と白色の猫との間を弁別し得る。さらに、グレースケールフィルタは、茶色の犬または橙色の猫など、異なる色の猫と犬との間を弁別しないことがある。したがって、たとえば、限られた数のトレーニングサンプルおよび/またはトレーニングにおける誤差による弱いフィルタの使用を軽減することが望ましい。さらに、トレーニングサンプルにおける誤差は未知であり得る。たとえば、実世界トレーニングセットのバイアスは、未知であるかまたは限定され得る。詳細には、モバイルデバイスからのトレーニングセットは、ユーザによってキャプチャされた画像のみに限定され得る。
[0070] 限定されたトレーニングセットおよび/またはトレーニングにおける誤差から生じる弱いフィルタを軽減するために、本開示の態様は、バックプロパゲーションからの計算された誤差に基づいてネットワークをトレーニングすることと、フィルタ特異性に基づいてネットワークをトレーニングすることとを対象とする。フィルタ特異性はフィルタの強度を指す。
[0071] フィルタの特異性は、重みの分布など、様々なファクタに基づいて計算され得る。一構成では、フィルタ特異性は、エントロピー(entropy)Σp(w)logp(w)に基づいて測定される。エントロピーは、フィルタ中のピクセルにおける差の測定値である。別の構成では、フィルタ特異性は、元の値からの変化(change from original values)Σ(t)−w(t)に基づいて測定される。また別の構成では、フィルタ特異性は、重み値の分散(variance of weight values)
Figure 2018520404
に基づいて測定される。さらにまた別の構成では、フィルタ特異性は、他のフィルタとの差(difference from other filters)
Figure 2018520404
に基づいて測定される。別の構成では、フィルタ特異性は、他のフィルタとの相互相関(cross correlation with other filters)に基づいて測定される。上述の式では、wはフィルタ重みである。いくつかのメトリックが記載されたが、本開示はどんな類似メトリックをも包含するものとする。
[0072] さらに、一構成では、フィルタ特異性について誤差項(error term)が指定される。たとえば、フィルタ特異性誤差は、
Figure 2018520404
によって計算され得る。この例では、フィルタ特異性が低い場合、誤差は大きい。代替的に、フィルタ特異性が高い場合、誤差は低い。
[0073] したがって、本開示の態様に基づいて、トレーニング(training)は、改善された特異性をもつフィルタを取得することに加えて、正しいラベルを出力するために指定される。すなわち、本開示の態様は、様々な特徴に関して特定であるフィルタを取得することを対象とする。
[0074] 図8は、第1のトレーニング反復(エポック(epoch)1)からのトレーニングされたフィルタ800と、第90のトレーニング反復(エポック90)の後の同じフィルタ800との一例を示す。トレーニング反復は、トレーニングパス(training pass)と呼ばれることがある。この例では、データセットは、1万など、特定の数の画像を有し得る。トレーニングは、重み更新式(式3)に基づいてフィルタの重みを調節するために、データセットからの画像を使用する。フィルタの重みは、100個の画像など、データセットからの特定の数の画像に対してトレーニングした後に調節され得る。したがって、この例では、1万個の画像と、100個の画像の後に重みを更新することとに基づいて、重みは、各エポック中に100回調節されることになる。
[0075] 図8に示されているように、第1のトレーニングパスにおいて、各フィルタは特定のエントロピーを有する。たとえば、第1のフィルタ802が2.006のエントロピーを有し、第2のフィルタ804が2.018のエントロピーを有す。第1のトレーニングパス中のフィルタは、低いエントロピーから高いエントロピーに順序付けられる。さらに、図8に示されているように、各フィルタのエントロピーは、第90のトレーニングパス(エポック90)の後に変更される。第90のトレーニングパス中のフィルタは、低いエントロピーから高いエントロピーに順序付けられる。エポック1とエポック90の両方においてフィルタが低いエントロピーから高いエントロピーに順序付けられるので、同じフィルタが各図中の同じ位置を有しないことに留意されたい。すなわち、エポック1の第1のフィルタ808は、エポック90の第1のフィルタ808であることも、そうでないこともある。言い換えれば、エポック1の第1のフィルタ802が、たとえば、エポック90の第11のフィルタ814になり得るように、エポック1の第1のフィルタ802は、ネイバリングフィルタ(neighboring filters)と比較して、エントロピーのより大きい変化を有することがある。
[0076] より詳細には、第1のトレーニングパスおいて、フィルタはランダム化される。さらに、90など、ある数のトレーニングパスの後、フィルタが特異性に基づいて調節されないとき、いくつかのフィルタは高い特異性を有し、他のフィルタは低い特異性を有する。この例では、特異性は、フィルタのエントロピーに基づいて決定される。
[0077] 図8に示されているように、エポック90のフィルタのエントロピーは、約90回のトレーニングパスの後に増加され得る。さらに、いくつかのフィルタは、トレーニングパス間でほとんど変化を有しないことがある。たとえば、エポック90の第2のフィルタ810は2.494のエントロピーを有し、エポック90の第3のフィルタ812は2.584のエントロピーを有する。したがって、第2のフィルタ810および第3のフィルタ812のエントロピーは、最初のトレーニングパス以来ほとんど変化を有しない。
[0078] 前に説明したように、本開示の態様は、エントロピーのみに基づいてフィルタの特異性を決定することに限定されない。特異性はまた、他の計算を介して決定され得る。
[0079] さらに、前に説明したように、オブジェクトの特定の特徴を決定するために詳細なフィルタを有することが望ましい。たとえば、エポック90の第11のフィルタ814は、低いエントロピーによって表された低レベルの詳細を有する。したがって、エポック90の第11のフィルタ814は、後続の層に追加の雑音を追加するにすぎないことがある。対照的に、エポック90の第46のフィルタ816は、高いエントロピーを有し、水平線についての詳細を含む。したがって、第46のフィルタ816は、水平線が画像中に存在するかどうかを決定し得る。
[0080] いくつかの場合には、バックプロパゲーションからの誤差を低減しながら、フィルタ特異性を改善することが望ましい。バックプロパゲーションからの総誤差を決定するために、バックプロパゲーションについて、ジョイントコスト関数(joint cost function)が指定され得る。一構成では、ジョイントコスト関数は、ラベリング誤差( labeling error )とフィルタ特異性の関数との和である。たとえば、ジョイントコスト関数は、
Figure 2018520404
である。すなわち、誤差関数は、フィルタの特異性のアグリゲートされた測定値でオーグメント(augment)される。ジョイントコスト関数は、ネットワーク中のすべてのフィルタ特異性の集約尺度(summary measure)に基づき得るか、または、層ベースであり得る。さらに、トレーニング中に総誤差を低減することが望ましい。したがって、一構成では、フィルタ重みは、誤差に基づいて計算された重みが低いフィルタ特異性を生じる場合、フィルタ特異性を改善するように変更される。
[0081] 別の構成では、特定の特異性を有するフィルタのトレーニングは、計算コストを低減するために終了される。すなわち、しきい値よりも大きいかまたはそれに等しい特異性を有するフィルタの学習は、フィルタの重みがもはや更新されないように、停止される。
[0082] 図9は、トレーニングのために使用されるフィルタ900のセットの一例を示す。第33のトレーニングパス(エポック33)のためのフィルタは、低いエントロピーから高いエントロピーに順序付けされる。図9に示されているように、エポック33のフィルタ900から、第43のフィルタ904が4.2のエントロピーを有し、第64のフィルタ906が4.1078のエントロピーを有する。さらに、図9に示されているように、エポック90のフィルタ900は、第90のトレーニングパスに基づいて低いエントロピーから高いエントロピーに順序付けされる。エポック90のフィルタ900から、第38のフィルタ908は4.151のエントロピーを有し、第57のフィルタ910が4.550のエントロピーを有する。第38のフィルタ908のエントロピーと第57のフィルタ910のエントロピーは両方ともしきい値よりも大きい。したがって、この例では、第38のフィルタ908および第57のフィルタ910のトレーニングは、計算コストを低減するために終了され得る。しきい値は、あらかじめ決定され、および/またはトレーニングの結果に基づいて調節され得る。
[0083] 追加または代替として、一構成では、ネットワークは、フィルタの特異性を経時的に監視し得る。一例として、図9に示されているように、エポック33からの第43のフィルタ904は、エポック90の第38のフィルタ908に相関する。さらに、図9に示されているように、エポック33の第64のフィルタ906は、エポック90の第57のフィルタ910に相関する。
[0084] 図9に示されているように、エポック33の第43のフィルタ904および第64のフィルタ906のエントロピーは、第33のパスと第90のパスとの間で特定のしきい値よりも多く増加または減少しなかった。したがって、この例では、フィルタの特異性がしきい値よりも大きくなった後、特異性の変化が経時的に監視される。したがって、フィルタのトレーニングは、特異性の変化が経時的にしきい値よりも小さいとき、計算コストを低減するために終了され得る。
[0085] また別の構成では、ターゲットネットワーク複雑さに基づいてトレーニングするために、フィルタが選択される。ターゲットネットワーク複雑さは、ネットワークのために指定されたメモリの量など、メモリ仕様(memory specification)、および/またはネットワークのために指定された計算能力の量など、電力仕様(power specification)に基づき得る。この構成では、決定された複雑さに基づいて、特定の数のフィルタがトレーニングされ得る。特定の数のフィルタは、フィルタ特異性に基づいて1つまたは複数のフィルタのためのトレーニングを終了するよりも前に、またはフィルタ特異性に基づいて1つまたは複数のフィルタのためのトレーニングを終了した後に選択され得る。
[0086] 追加または代替として、ターゲットネットワーク複雑さに基づいて、ネットワークは、トレーニングを続けるために特定のフィルタに優先度を付け得る。優先度付け(prioritization)は、フィルタ特異性に基づいて1つまたは複数のフィルタのためのトレーニングを終了するよりも前に、またはフィルタ特異性に基づいて1つまたは複数のフィルタのためのトレーニングを終了した後に実行され得る。
[0087] 別の構成では、フィルタ特異性に基づいて1つまたは複数のフィルタのためのトレーニングを終了するよりも前に、またはフィルタ特異性に基づいて1つまたは複数のフィルタのためのトレーニングを終了した後に、フィルタは、各フィルタの特異性に基づいて優先度を付けられ得る。優先度付けは、入力に適用され得るフィルタを決定するために使用され得る。さらに、本開示の一態様によれば、ターゲットネットワーク複雑さに基づいて、いくつかのフィルタが優先度付きフィルタ(prioritized filters)から選択され得る。
[0088] また別の構成では、所定の数のトレーニングパスの後、しきい値よりも小さい特異性をもつフィルタがトレーニングから除去され得る。図10は、90回のトレーニングパスの後のフィルタのセット1000の一例を示す。図10に示されているように、フィルタは、エントロピーに基づいて低から高に順序付けられる。この例では、最初の6つのフィルタ1002〜1012は、3など、しきい値よりも小さいエントロピーを有する。したがって、フィルタ1002〜1012のエントロピーは3よりも小さいので、最初の6つのフィルタ1002〜1012はトレーニングから除去される。さらに、弱いフィルタは、入力に追加の雑音を追加し得るので、トレーニングから削除されたフィルタは入力に適用されないことがある。
[0089] 図11は、ニューラルネットワークモデルをトレーニングする方法1100を示す。ブロック1102において、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定する。ブロック1104において、特異性に基づいてフィルタの各々をトレーニングする。
[0090] 図12は、ニューラルネットワークモデルをトレーニングするための流れ図1200を示す。ブロック1202において、複数のフィルタのためにトレーニングを開始する。前に説明したように、特定の要素が入力中に存在するかどうかを決定するために、フィルタが使用され得る。さらに、フィルタは、バックプロパゲーションを使用してトレーニングされ得る。さらに、ブロック1204において、ニューラルネットワークモデルは、所定の数のトレーニング反復の後に複数のフィルタの特異性を決定する。さらに、ブロック1206において、ニューラルネットワークモデルは、決定された特異性(determined specificity)に基づいて、フィルタをトレーニングすることを続けるべきかどうかを決定する。
[0091] 一構成では、フィルタの決定された特異性がしきい値よりも大きい場合、ネットワークは、フィルタをトレーニングすることを停止する(stop)(ブロック1208)。追加または代替として、ネットワークは、所定の数のトレーニング反復の後に特定のフィルタの特異性の変化がしきい値よりも小さいとき、フィルタをトレーニングすることを停止する(ブロック1208)。別の構成では、ブロック1210に示されているように、所定の数のトレーニング反復の後に特定のフィルタの特異性がしきい値よりも小さいとき、ニューラルネットワークモデルからフィルタを除去する(eliminate)。
[0092] 別の構成では、決定された指定する(determined specify)に基づいて、フィルタのトレーニングを続ける(ブロック1212)。たとえば、トレーニングは、特異性が第1のしきい値よりも大きく、第2のしきい値よりも小さい場合、続き得る。追加または代替として、ネットワークは、所定の数のトレーニング反復の後に特定のフィルタの特異性の変化が第1のしきい値より大きく第2のしきい値よりも小さいとき、フィルタをトレーニングすることを続ける(ブロック1212)。
[0093] 上記で説明された方法の様々な動作は、対応する機能を実行することが可能な任意の好適な手段によって実行され得る。それらの手段は、限定はしないが、回路、特定用途向け集積回路(ASIC)、またはプロセッサを含む、様々な(1つまたは複数の)ハードウェアおよび/またはソフトウェア構成要素および/またはモジュールを含み得る。概して、図に示されている動作がある場合、それらの動作は、同様の番号をもつ対応するカウンターパートのミーンズプラスファンクション構成要素を有し得る。
[0094] 本明細書で使用される「決定すること(determining)」という用語は、多種多様なアクションを包含する。たとえば、「決定すること」は、計算すること(calculating)、計算すること(computing)、処理すること(processing)、導出すること(deriving)、調査すること(investigating)、ルックアップすること(たとえば、テーブル、データベースまたは別のデータ構造においてルックアップすること)、確認することなどを含み得る。さらに、「決定すること」は、受信すること(たとえば、情報を受信すること)、アクセスすること(たとえば、メモリ中のデータにアクセスすること)などを含み得る。さらに、「決定すること」は、解決すること、選択すること、選定すること、確立することなどを含み得る。
[0095] 本明細書で使用される、項目のリスト「のうちの少なくとも1つ(at least one of)」を指す句は、単一のメンバーを含む、それらの項目の任意の組合せを指す。一例として、「a、b、またはcのうちの少なくとも1つ」は、a、b、c、a−b、a−c、b−c、およびa−b−cを包含するものとする。
[0096] 本開示に関連して説明された様々な例示的な論理ブロック、モジュールおよび回路は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ信号(FPGA)または他のプログラマブル論理デバイス(PLD)、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいは本明細書で説明された機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の市販のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。
[0097] 本開示に関連して説明された方法またはアルゴリズムのステップは、ハードウェアで直接実施されるか、プロセッサによって実行されるソフトウェアモジュールで実施されるか、またはその2つの組合せで実施され得る。ソフトウェアモジュールは、当技術分野で知られている任意の形態の記憶媒体中に常駐し得る。使用され得る記憶媒体のいくつかの例としては、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、フラッシュメモリ、消去可能プログラマブル読取り専用メモリ(EPROM)、電気消去可能プログラマブル読取り専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、CD−ROMなどがある。ソフトウェアモジュールは、単一の命令、または多数の命令を備え得、いくつかの異なるコードセグメント上で、異なるプログラム間で、および複数の記憶媒体にわたって分散され得る。記憶媒体は、プロセッサがその記憶媒体から情報を読み取ることができ、その記憶媒体に情報を書き込むことができるように、プロセッサに結合され得る。代替として、記憶媒体はプロセッサと一体であり得る。
[0098] 本明細書で開示された方法は、説明された方法を達成するための1つまたは複数のステップまたはアクションを備える。本方法のステップおよび/またはアクションは、特許請求の範囲から逸脱することなく、互いに交換され得る。言い換えれば、ステップまたはアクションの特定の順序が指定されない限り、特定のステップおよび/またはアクションの順序および/または使用は特許請求の範囲から逸脱することなく変更され得る。
[0099] 説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ハードウェアで実装される場合、例示的なハードウェア構成はデバイス中に処理システムを備え得る。処理システムは、バスアーキテクチャを用いて実装され得る。バスは、処理システムの特定の適用例および全体的な設計制約に応じて、任意の数の相互接続バスおよびブリッジを含み得る。バスは、プロセッサと、機械可読媒体(machine-readable media)と、バスインターフェースとを含む様々な回路を互いにリンクし得る。バスインターフェースは、ネットワークアダプタを、特に、バスを介して処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能を実装するために使用され得る。いくつかの態様では、ユーザインターフェース(たとえば、キーパッド、ディスプレイ、マウス、ジョイスティックなど)もバスに接続され得る。バスはまた、タイミングソース、周辺機器、電圧調整器、電力管理回路など、様々な他の回路をリンクし得るが、それらは当技術分野でよく知られており、したがってこれ以上説明されない。
[00100] プロセッサは、機械可読媒体に記憶されたソフトウェアの実行を含む、バスおよび一般的な処理を管理することを担当し得る。プロセッサは、1つまたは複数の汎用および/または専用プロセッサを用いて実装され得る。例としては、マイクロプロセッサ、マイクロコントローラ、DSPプロセッサ、およびソフトウェアを実行することができる他の回路がある。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語などの名称にかかわらず、命令、データ、またはそれらの任意の組合せを意味すると広く解釈されたい。機械可読媒体は、例として、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気消去可能プログラマブル読取り専用メモリ(EEPROM)、レジスタ、磁気ディスク、光ディスク、ハードドライブ、または他の好適な記憶媒体、あるいはそれらの任意の組合せを含み得る。機械可読媒体はコンピュータプログラム製品において実施され得る。コンピュータプログラム製品はパッケージング材料を備え得る。
[00101] ハードウェア実装形態では、機械可読媒体は、プロセッサとは別個の処理システムの一部であり得る。しかしながら、当業者なら容易に諒解するように、機械可読媒体またはその任意の部分は処理システムの外部にあり得る。例として、機械可読媒体は、すべてバスインターフェースを介してプロセッサによってアクセスされ得る、伝送線路、データによって変調された搬送波、および/またはデバイスとは別個のコンピュータ製品を含み得る。代替的に、または追加として、機械可読媒体またはその任意の部分は、キャッシュおよび/または汎用レジスタファイルがそうであり得るように、プロセッサに統合され得る。局所構成要素など、説明された様々な構成要素は、特定のロケーションを有するものとして説明され得るが、それらはまた、分散コンピューティングシステムの一部として構成されているいくつかの構成要素など、様々な方法で構成され得る。
[00102] 処理システムは、すべて外部バスアーキテクチャを介して他のサポート回路と互いにリンクされる、プロセッサ機能を提供する1つまたは複数のマイクロプロセッサと、機械可読媒体の少なくとも一部を提供する外部メモリとをもつ汎用処理システムとして構成され得る。代替的に、処理システムは、本明細書で説明されたニューロンモデルとニューラルシステムのモデルとを実装するための1つまたは複数の神経形態学的プロセッサを備え得る。別の代替として、処理システムは、プロセッサをもつ特定用途向け集積回路(ASIC)と、バスインターフェースと、ユーザインターフェースと、サポート回路と、単一のチップに統合された機械可読媒体の少なくとも一部分とを用いて、あるいは1つまたは複数のフィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理デバイス(PLD)、コントローラ、状態機械、ゲート論理、個別ハードウェア構成要素、もしくは他の好適な回路、または本開示全体にわたって説明された様々な機能を実行することができる回路の任意の組合せを用いて、実装され得る。当業者は、特定の適用例と、全体的なシステムに課される全体的な設計制約とに応じて、どのようにしたら処理システムについて説明された機能を最も良く実装し得るかを理解されよう。
[00103] 機械可読媒体はいくつかのソフトウェアモジュールを備え得る。ソフトウェアモジュールは、プロセッサによって実行されたときに、処理システムに様々な機能を実行させる命令を含む。ソフトウェアモジュールは、送信モジュールと受信モジュールとを含み得る。各ソフトウェアモジュールは、単一のストレージデバイス中に常駐するか、または複数のストレージデバイスにわたって分散され得る。例として、トリガイベントが発生したとき、ソフトウェアモジュールがハードドライブからRAMにロードされ得る。ソフトウェアモジュールの実行中、プロセッサは、アクセス速度を高めるために、命令のいくつかをキャッシュにロードし得る。次いで、1つまたは複数のキャッシュラインが、プロセッサによる実行のために汎用レジスタファイルにロードされ得る。以下でソフトウェアモジュールの機能に言及する場合、そのような機能は、そのソフトウェアモジュールからの命令を実行したときにプロセッサによって実装されることが理解されよう。
[00104] ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、コンピュータ記憶媒体と通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。さらに、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線(IR)、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用されるディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)、およびBlu−ray(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。したがって、いくつかの態様では、コンピュータ可読媒体は非一時的コンピュータ可読媒体(たとえば、有形媒体(tangible media))を備え得る。さらに、他の態様では、コンピュータ可読媒体は一時的コンピュータ可読媒体(たとえば、信号)を備え得る。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[00105] したがって、いくつかの態様は、本明細書で提示された動作を実行するためのコンピュータプログラム製品を備え得る。たとえば、そのようなコンピュータプログラム製品は、本明細書で説明された動作を実行するために1つまたは複数のプロセッサによって実行可能である命令をその上に記憶した(および/または符号化した)コンピュータ可読媒体を備え得る。いくつかの態様では、コンピュータプログラム製品はパッケージング材料を含み得る。
[00106] さらに、本明細書で説明された方法および技法を実行するためのモジュールおよび/または他の適切な手段は、適用可能な場合にユーザ端末および/または基地局によってダウンロードされ、および/または他の方法で取得され得ることを諒解されたい。たとえば、そのようなデバイスは、本明細書で説明された方法を実行するための手段の転送を可能にするためにサーバに結合され得る。代替的に、本明細書で説明された様々な方法は、ユーザ端末および/または基地局が記憶手段(たとえば、RAM、ROM、コンパクトディスク(CD)またはフロッピーディスクなどの物理記憶媒体など)をデバイスに結合するかまたは与えると様々な方法を得ることができるように、記憶手段によって提供され得る。その上、本明細書で説明された方法および技法をデバイスに提供するための任意の他の好適な技法が利用され得る。
[00107] 特許請求の範囲は、上記で示された厳密な構成および構成要素に限定されないことを理解されたい。上記で説明された方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。
[00107] 特許請求の範囲は、上記で示された厳密な構成および構成要素に限定されないことを理解されたい。上記で説明された方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1] ニューラルネットワークモデルをトレーニングする方法であって、
所定の数のトレーニング反復の後に複数のフィルタの特異性を決定することと、
前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングすることとを備える、方法。
[C2] 前記特異性に少なくとも部分的に基づいて、各フィルタの前記トレーニングを続けるべきかどうかを決定することをさらに備える、C1に記載の方法。
[C3] 前記複数のフィルタのうちの特定のフィルタの前記特異性がしきい値よりも大きいとき、前記特定のフィルタのためのトレーニングを停止することをさらに備える、C2に記載の方法。
[C4] 前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性の変化がしきい値よりも小さいとき、前記特定のフィルタのトレーニングを停止することをさらに備える、C2に記載の方法。
[C5] 前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性がしきい値よりも小さいとき、前記ニューラルネットワークモデルから前記特定のフィルタを除去することをさらに備える、C2に記載の方法。
[C6] 前記特定のフィルタを除去した後に前記ニューラルネットワークモデルのトレーニングを続けることをさらに備える、C5に記載の方法。
[C7] 前記特異性が、エントロピー、元の値からの変化、分散重み値(variance weight values)、他のフィルタとの差、他のフィルタとの相互相関、またはそれらの組合せに少なくとも部分的に基づく、C1に記載の方法。
[C8] 前記複数のフィルタの前記特異性のプールされた測度(pooled measure)で誤差関数がオーグメントされながら、前記ニューラルネットワークモデルがトレーニングされる、C1に記載の方法。
[C9] メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づいて、前記ニューラルネットワークモデルのターゲット複雑さ(target complexity)を決定することをさらに備える、C1に記載の方法。
[C10] 前記決定されたターゲット複雑さ、前記決定されたターゲット複雑さに少なくとも部分的に基づいてトレーニングすべきフィルタに優先度を付けること、またはそれらの組合せに少なくとも部分的に基づいて、フィルタが選択的にトレーニングされる、C9に記載の方法。
[C11] 前記複数のフィルタの各々の前記特異性に少なくとも部分的に基づいて、入力に適用すべきフィルタに優先度を付けることと、
前記ニューラルネットワークモデルのターゲット複雑さに少なくとも部分的に基づいて、いくつかの優先度付きフィルタを選択することとをさらに備える、C1に記載の方法。
[C12] 前記ターゲット複雑さが、メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づく、C11に記載の方法。
[C13] ニューラルネットワークモデルをトレーニングするための装置であって、
メモリユニットと、
前記メモリユニットに結合された少なくとも1つのプロセッサとを備え、前記少なくとも1つのプロセッサが、
所定の数のトレーニング反復の後に複数のフィルタの特異性を決定することと、
前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングすることと
を行うように構成された、装置。
[C14] 前記少なくとも1つのプロセッサが、前記特異性に少なくとも部分的に基づいて、各フィルタの前記トレーニングを続けるべきかどうかを決定するようにさらに構成された、C13に記載の装置。
[C15] 前記少なくとも1つのプロセッサは、前記複数のフィルタのうちの特定のフィルタの前記特異性がしきい値よりも大きいとき、前記特定のフィルタのためのトレーニングを停止するようにさらに構成された、C14に記載の装置。
[C16] 前記少なくとも1つのプロセッサは、前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性の変化がしきい値よりも小さいとき、前記特定のフィルタのトレーニングを停止するようにさらに構成された、C14に記載の装置。
[C17] 前記少なくとも1つのプロセッサは、前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性がしきい値よりも小さいとき、前記ニューラルネットワークモデルから前記特定のフィルタを除去するようにさらに構成された、C14に記載の装置。
[C18] 前記少なくとも1つのプロセッサが、前記特定のフィルタを除去した後に前記ニューラルネットワークモデルのトレーニングを続けるようにさらに構成された、C17に記載の装置。
[C19] 前記特異性が、エントロピー、元の値からの変化、分散重み値、他のフィルタとの差、他のフィルタとの相互相関、またはそれらの組合せに少なくとも部分的に基づく、C13に記載の装置。
[C20] 前記少なくとも1つのプロセッサが、前記複数のフィルタの前記特異性のプールされた測度で誤差関数をオーグメントしながら、前記ニューラルネットワークモデルをトレーニングするようにさらに構成された、C13に記載の装置。
[C21] 前記少なくとも1つのプロセッサが、メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づいて、前記ニューラルネットワークモデルのターゲット複雑さを決定するようにさらに構成された、C13に記載の装置。
[C22] 前記少なくとも1つのプロセッサは、前記決定されたターゲット複雑さ、前記決定されたターゲット複雑さに少なくとも部分的に基づいてトレーニングすべきフィルタに優先度を付けること、またはそれらの組合せに少なくとも部分的に基づいて、フィルタを選択的にトレーニングするようにさらに構成された、C21に記載の装置。
[C23] 前記少なくとも1つのプロセッサが、
前記複数のフィルタの各々の前記特異性に少なくとも部分的に基づいて、入力に適用すべきフィルタに優先度を付けることと、
前記ニューラルネットワークモデルのターゲット複雑さに少なくとも部分的に基づいて、いくつかの優先度付きフィルタを選択することとを行うようにさらに構成された、C13に記載の装置。
[C24] 前記ターゲット複雑さが、メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づく、C23に記載の装置。
[C25] ニューラルネットワークモデルをトレーニングする装置であって、
所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するための手段と、
前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングするための手段とを備える、装置。
[C26] 前記特異性に少なくとも部分的に基づいて、各フィルタの前記トレーニングを続けるべきかどうかを決定するための手段をさらに備える、C25に記載の装置。
[C27] 前記複数のフィルタのうちの特定のフィルタの前記特異性がしきい値よりも大きいとき、前記特定のフィルタのためのトレーニングを停止するための手段をさらに備える、C26に記載の装置。
[C28] 前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性の変化がしきい値よりも小さいとき、前記特定のフィルタのトレーニングを停止するための手段をさらに備える、C26に記載の装置。
[C29] 前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性がしきい値よりも小さいとき、前記ニューラルネットワークモデルから前記特定のフィルタを除去するための手段をさらに備える、C26に記載の装置。
[C30] 前記特定のフィルタを除去した後に前記ニューラルネットワークモデルのトレーニングを続けるための手段をさらに備える、C29に記載の装置。
[C31] 前記特異性が、エントロピー、元の値からの変化、分散重み値、他のフィルタとの差、他のフィルタとの相互相関、またはそれらの組合せに少なくとも部分的に基づく、C25に記載の装置。
[C32] ニューラルネットワークモデルをトレーニングするための非一時的コンピュータ可読媒体であって、前記コンピュータ可読媒体がプログラムコードを記録しており、前記プログラムコードが、プロセッサによって実行され、
所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するためのプログラムコードと、
前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングするためのプログラムコードとを備える、非一時的コンピュータ可読媒体。

Claims (32)

  1. ニューラルネットワークモデルをトレーニングする方法であって、
    所定の数のトレーニング反復の後に複数のフィルタの特異性を決定することと、
    前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングすることと
    を備える、方法。
  2. 前記特異性に少なくとも部分的に基づいて、各フィルタの前記トレーニングを続けるべきかどうかを決定することをさらに備える、請求項1に記載の方法。
  3. 前記複数のフィルタのうちの特定のフィルタの前記特異性がしきい値よりも大きいとき、前記特定のフィルタのためのトレーニングを停止することをさらに備える、請求項2に記載の方法。
  4. 前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性の変化がしきい値よりも小さいとき、前記特定のフィルタのトレーニングを停止することをさらに備える、請求項2に記載の方法。
  5. 前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性がしきい値よりも小さいとき、前記ニューラルネットワークモデルから前記特定のフィルタを除去することをさらに備える、請求項2に記載の方法。
  6. 前記特定のフィルタを除去した後に前記ニューラルネットワークモデルのトレーニングを続けることをさらに備える、請求項5に記載の方法。
  7. 前記特異性が、エントロピー、元の値からの変化、分散重み値(variance weight values)、他のフィルタとの差、他のフィルタとの相互相関、またはそれらの組合せに少なくとも部分的に基づく、請求項1に記載の方法。
  8. 前記複数のフィルタの前記特異性のプールされた測度(pooled measure)で誤差関数がオーグメントされながら、前記ニューラルネットワークモデルがトレーニングされる、請求項1に記載の方法。
  9. メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づいて、前記ニューラルネットワークモデルのターゲット複雑さ(target complexity)を決定することをさらに備える、請求項1に記載の方法。
  10. 前記決定されたターゲット複雑さ、前記決定されたターゲット複雑さに少なくとも部分的に基づいてトレーニングすべきフィルタに優先度を付けること、またはそれらの組合せに少なくとも部分的に基づいて、フィルタが選択的にトレーニングされる、請求項9に記載の方法。
  11. 前記複数のフィルタの各々の前記特異性に少なくとも部分的に基づいて、入力に適用すべきフィルタに優先度を付けることと、
    前記ニューラルネットワークモデルのターゲット複雑さに少なくとも部分的に基づいて、いくつかの優先度付きフィルタを選択することと
    をさらに備える、請求項1に記載の方法。
  12. 前記ターゲット複雑さが、メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づく、請求項11に記載の方法。
  13. ニューラルネットワークモデルをトレーニングするための装置であって、
    メモリユニットと、
    前記メモリユニットに結合された少なくとも1つのプロセッサとを備え、前記少なくとも1つのプロセッサが、
    所定の数のトレーニング反復の後に複数のフィルタの特異性を決定することと、
    前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングすることと
    を行うように構成された、
    装置。
  14. 前記少なくとも1つのプロセッサが、前記特異性に少なくとも部分的に基づいて、各フィルタの前記トレーニングを続けるべきかどうかを決定するようにさらに構成された、請求項13に記載の装置。
  15. 前記少なくとも1つのプロセッサは、前記複数のフィルタのうちの特定のフィルタの前記特異性がしきい値よりも大きいとき、前記特定のフィルタのためのトレーニングを停止するようにさらに構成された、請求項14に記載の装置。
  16. 前記少なくとも1つのプロセッサは、前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性の変化がしきい値よりも小さいとき、前記特定のフィルタのトレーニングを停止するようにさらに構成された、請求項14に記載の装置。
  17. 前記少なくとも1つのプロセッサは、前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性がしきい値よりも小さいとき、前記ニューラルネットワークモデルから前記特定のフィルタを除去するようにさらに構成された、請求項14に記載の装置。
  18. 前記少なくとも1つのプロセッサが、前記特定のフィルタを除去した後に前記ニューラルネットワークモデルのトレーニングを続けるようにさらに構成された、請求項17に記載の装置。
  19. 前記特異性が、エントロピー、元の値からの変化、分散重み値、他のフィルタとの差、他のフィルタとの相互相関、またはそれらの組合せに少なくとも部分的に基づく、請求項13に記載の装置。
  20. 前記少なくとも1つのプロセッサが、前記複数のフィルタの前記特異性のプールされた測度で誤差関数をオーグメントしながら、前記ニューラルネットワークモデルをトレーニングするようにさらに構成された、請求項13に記載の装置。
  21. 前記少なくとも1つのプロセッサが、メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づいて、前記ニューラルネットワークモデルのターゲット複雑さを決定するようにさらに構成された、請求項13に記載の装置。
  22. 前記少なくとも1つのプロセッサは、前記決定されたターゲット複雑さ、前記決定されたターゲット複雑さに少なくとも部分的に基づいてトレーニングすべきフィルタに優先度を付けること、またはそれらの組合せに少なくとも部分的に基づいて、フィルタを選択的にトレーニングするようにさらに構成された、請求項21に記載の装置。
  23. 前記少なくとも1つのプロセッサが、
    前記複数のフィルタの各々の前記特異性に少なくとも部分的に基づいて、入力に適用すべきフィルタに優先度を付けることと、
    前記ニューラルネットワークモデルのターゲット複雑さに少なくとも部分的に基づいて、いくつかの優先度付きフィルタを選択することと
    を行うようにさらに構成された、請求項13に記載の装置。
  24. 前記ターゲット複雑さが、メモリ仕様、電力仕様、またはそれらの組合せに少なくとも部分的に基づく、請求項23に記載の装置。
  25. ニューラルネットワークモデルをトレーニングする装置であって、
    所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するための手段と、
    前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングするための手段と
    を備える、装置。
  26. 前記特異性に少なくとも部分的に基づいて、各フィルタの前記トレーニングを続けるべきかどうかを決定するための手段をさらに備える、請求項25に記載の装置。
  27. 前記複数のフィルタのうちの特定のフィルタの前記特異性がしきい値よりも大きいとき、前記特定のフィルタのためのトレーニングを停止するための手段をさらに備える、請求項26に記載の装置。
  28. 前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性の変化がしきい値よりも小さいとき、前記特定のフィルタのトレーニングを停止するための手段をさらに備える、請求項26に記載の装置。
  29. 前記所定の数のトレーニング反復の後に特定のフィルタの前記特異性がしきい値よりも小さいとき、前記ニューラルネットワークモデルから前記特定のフィルタを除去するための手段をさらに備える、請求項26に記載の装置。
  30. 前記特定のフィルタを除去した後に前記ニューラルネットワークモデルのトレーニングを続けるための手段をさらに備える、請求項29に記載の装置。
  31. 前記特異性が、エントロピー、元の値からの変化、分散重み値、他のフィルタとの差、他のフィルタとの相互相関、またはそれらの組合せに少なくとも部分的に基づく、請求項25に記載の装置。
  32. ニューラルネットワークモデルをトレーニングするための非一時的コンピュータ可読媒体であって、前記コンピュータ可読媒体がプログラムコードを記録しており、前記プログラムコードが、プロセッサによって実行され、
    所定の数のトレーニング反復の後に複数のフィルタの特異性を決定するためのプログラムコードと、
    前記特異性に少なくとも部分的に基づいて、前記複数のフィルタの各フィルタをトレーニングするためのプログラムコードと
    を備える、非一時的コンピュータ可読媒体。
JP2017556153A 2015-04-28 2016-03-10 ニューラルネットワークのためのトレーニング基準としてのフィルタ特異性 Pending JP2018520404A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562154089P 2015-04-28 2015-04-28
US62/154,089 2015-04-28
US14/848,283 US10515304B2 (en) 2015-04-28 2015-09-08 Filter specificity as training criterion for neural networks
US14/848,283 2015-09-08
PCT/US2016/021886 WO2016175923A1 (en) 2015-04-28 2016-03-10 Filter specificity as training criterion for neural networks

Publications (1)

Publication Number Publication Date
JP2018520404A true JP2018520404A (ja) 2018-07-26

Family

ID=55629125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017556153A Pending JP2018520404A (ja) 2015-04-28 2016-03-10 ニューラルネットワークのためのトレーニング基準としてのフィルタ特異性

Country Status (9)

Country Link
US (1) US10515304B2 (ja)
EP (1) EP3289528B1 (ja)
JP (1) JP2018520404A (ja)
KR (1) KR20170140214A (ja)
CN (1) CN107533669B (ja)
BR (1) BR112017023028B1 (ja)
CA (1) CA2979046A1 (ja)
TW (1) TW201706918A (ja)
WO (1) WO2016175923A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020105144A1 (ja) * 2018-11-21 2020-05-28 三菱電機株式会社 画像生成装置及び画像生成方法
JP2020080023A (ja) * 2018-11-12 2020-05-28 富士通株式会社 学習プログラム、学習方法、学習装置、検知プログラム、検知方法及び検知装置
JP2020149156A (ja) * 2019-03-11 2020-09-17 キヤノン株式会社 データ圧縮装置、データ処理装置、データ圧縮方法、プログラム、及び学習済みモデル
WO2020203241A1 (ja) * 2019-03-29 2020-10-08 ソニーセミコンダクタソリューションズ株式会社 情報処理方法、プログラム、及び、情報処理装置
WO2021229768A1 (ja) * 2020-05-14 2021-11-18 三菱電機株式会社 空調機器のメンテナンスの学習装置および推論装置
JP2021533478A (ja) * 2018-08-03 2021-12-02 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレイテッド 技術システムを制御するために機械学習ルーチンを訓練するための方法および装置
JP2022505741A (ja) * 2018-10-24 2022-01-14 ザ、クライメイト、コーポレーション 改良された機械学習による植物病害の感染検出
JP2022531403A (ja) * 2019-05-03 2022-07-06 テスラ,インコーポレイテッド 指定したバイアスを用いた浮動小数点演算を用いた行列乗算命令のためのシステム及び方法
JP2022541712A (ja) * 2020-06-19 2022-09-27 深▲セン▼市商▲湯▼科技有限公司 ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置
EP4148630A1 (en) 2021-09-10 2023-03-15 Fujitsu Limited Speed-up program, speed-up method, and information processing device

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170178346A1 (en) * 2015-12-16 2017-06-22 High School Cube, Llc Neural network architecture for analyzing video data
US11288573B2 (en) * 2016-05-05 2022-03-29 Baidu Usa Llc Method and system for training and neural network models for large number of discrete features for information rertieval
US11210589B2 (en) 2016-09-28 2021-12-28 D5Ai Llc Learning coach for machine learning system
US20180096261A1 (en) * 2016-10-01 2018-04-05 Intel Corporation Unsupervised machine learning ensemble for anomaly detection
US11308350B2 (en) * 2016-11-07 2022-04-19 Qualcomm Incorporated Deep cross-correlation learning for object tracking
US10685285B2 (en) * 2016-11-23 2020-06-16 Microsoft Technology Licensing, Llc Mirror deep neural networks that regularize to linear networks
US10068140B2 (en) * 2016-12-02 2018-09-04 Bayerische Motoren Werke Aktiengesellschaft System and method for estimating vehicular motion based on monocular video data
CN110088797B (zh) 2016-12-19 2023-04-21 株式会社安川电机 工业设备图像识别处理器及控制器
KR102499396B1 (ko) 2017-03-03 2023-02-13 삼성전자 주식회사 뉴럴 네트워크 장치 및 뉴럴 네트워크 장치의 동작 방법
KR101878490B1 (ko) * 2017-03-10 2018-07-13 만도헬라일렉트로닉스(주) 차선 인식 시스템 및 방법
US11915152B2 (en) 2017-03-24 2024-02-27 D5Ai Llc Learning coach for machine learning system
US10902312B2 (en) * 2017-03-28 2021-01-26 Qualcomm Incorporated Tracking axes during model conversion
US10755136B2 (en) * 2017-05-16 2020-08-25 Nec Corporation Pruning filters for efficient convolutional neural networks for image recognition in vehicles
DE102017209262A1 (de) 2017-06-01 2018-12-06 Audi Ag Verfahren und Vorrichtung zur automatischen Gestenerkennung
WO2019004350A1 (ja) * 2017-06-29 2019-01-03 株式会社 Preferred Networks データ識別器訓練方法、データ識別器訓練装置、プログラム及び訓練方法
WO2019051658A1 (en) * 2017-09-13 2019-03-21 Intel Corporation INCREMENTAL NETWORK QUANTIFICATION
TWI651687B (zh) 2017-11-24 2019-02-21 財團法人工業技術研究院 三維模型建構方法及其系統
WO2019107900A1 (ko) * 2017-11-28 2019-06-06 주식회사 날비컴퍼니 컨볼루션 신경망 내 필터 프루닝 장치 및 방법
CN109961138B (zh) * 2017-12-14 2020-04-14 中科寒武纪科技股份有限公司 神经网络训练方法及相关产品
US11321612B2 (en) 2018-01-30 2022-05-03 D5Ai Llc Self-organizing partially ordered networks and soft-tying learned parameters, such as connection weights
JP7006401B2 (ja) * 2018-03-13 2022-01-24 富士通株式会社 学習プログラム、学習方法および学習装置
US10936913B2 (en) * 2018-03-20 2021-03-02 The Regents Of The University Of Michigan Automatic filter pruning technique for convolutional neural networks
CN110503181B (zh) * 2018-05-18 2022-03-01 百度在线网络技术(北京)有限公司 用于生成多层神经网络的方法和装置
CN109102065B (zh) * 2018-06-28 2022-03-11 广东工业大学 一种基于PSoC的卷积神经网络加速器
US11449728B2 (en) 2018-07-01 2022-09-20 Al Falcon Ltd. Method of optimization of operating a convolutional neural network and system thereof
US11449756B2 (en) * 2018-09-24 2022-09-20 Samsung Electronics Co., Ltd. Method to balance sparsity for efficient inference of deep neural networks
KR20200046145A (ko) 2018-10-15 2020-05-07 펑션베이(주) 예측 모델 훈련 관리 시스템, 예측 모델 훈련 관리 방법, 예측 모델 학습 관리를 위한 마스터 장치 및 슬레이브 장치
CN113383346A (zh) * 2018-12-18 2021-09-10 莫维迪厄斯有限公司 神经网络压缩
WO2020148482A1 (en) * 2019-01-18 2020-07-23 Nokia Technologies Oy Apparatus and a method for neural network compression
CN111507362B (zh) * 2019-01-30 2023-12-19 中强光电股份有限公司 神经网络的训练方法、基于神经网络的分类方法及其装置
CN109784490B (zh) * 2019-02-02 2020-07-03 北京地平线机器人技术研发有限公司 神经网络的训练方法、装置和电子设备
WO2021040944A1 (en) * 2019-08-26 2021-03-04 D5Ai Llc Deep learning with judgment
KR20210059466A (ko) * 2019-11-15 2021-05-25 삼성전자주식회사 영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법
GB2593757B (en) * 2020-04-02 2022-04-06 Graphcore Ltd Control of processing node operations
US11055617B1 (en) * 2020-06-30 2021-07-06 DeepCube LTD. Partial-activation of neural network based on heat-map of neural network activity
US20230410542A1 (en) * 2020-11-20 2023-12-21 Ephesoft Inc. Adaptive filter generator, identifying lines and table morphology
CN112580802A (zh) * 2020-12-10 2021-03-30 腾讯科技(深圳)有限公司 网络模型压缩方法、装置
CN113313197B (zh) * 2021-06-17 2022-06-10 哈尔滨工业大学 一种全连接神经网络训练方法
CN114670856B (zh) * 2022-03-30 2022-11-25 湖南大学无锡智能控制研究院 一种基于bp神经网络的参数自整定纵向控制方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4040259B2 (ja) 2001-02-16 2008-01-30 株式会社リコー 画像評価装置
US6917926B2 (en) * 2001-06-15 2005-07-12 Medical Scientists, Inc. Machine learning method
US7016529B2 (en) 2002-03-15 2006-03-21 Microsoft Corporation System and method facilitating pattern recognition
CN1262104C (zh) * 2003-09-27 2006-06-28 哈尔滨工业大学 采用神经网络技术对图像进行滤波的方法
US8229209B2 (en) 2008-12-26 2012-07-24 Five Apes, Inc. Neural network based pattern recognizer
US8160354B2 (en) 2008-12-26 2012-04-17 Five Apes, Inc. Multi-stage image pattern recognizer
US8369595B1 (en) 2012-08-10 2013-02-05 EyeVerify LLC Texture features for biometric authentication
US20140310208A1 (en) 2013-04-10 2014-10-16 Machine Perception Technologies Inc. Facilitating Operation of a Machine Learning Environment
US9390327B2 (en) 2013-09-16 2016-07-12 Eyeverify, Llc Feature extraction and matching for biometric authentication
US10579922B2 (en) * 2014-04-08 2020-03-03 Microsoft Technology Licensing, Llc Deep learning using alternating direction method of multipliers
KR102276339B1 (ko) * 2014-12-09 2021-07-12 삼성전자주식회사 Cnn의 근사화를 위한 학습 장치 및 방법

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7438187B2 (ja) 2018-08-03 2024-02-26 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレイテッド 技術システムを制御するために機械学習ルーチンを訓練するための方法および装置
JP2021533478A (ja) * 2018-08-03 2021-12-02 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレイテッド 技術システムを制御するために機械学習ルーチンを訓練するための方法および装置
JP2022505741A (ja) * 2018-10-24 2022-01-14 ザ、クライメイト、コーポレーション 改良された機械学習による植物病害の感染検出
JP7357674B2 (ja) 2018-10-24 2023-10-06 クライメイト、リミテッド、ライアビリティー、カンパニー 改良された機械学習による植物病害の感染検出
JP2020080023A (ja) * 2018-11-12 2020-05-28 富士通株式会社 学習プログラム、学習方法、学習装置、検知プログラム、検知方法及び検知装置
JP7135750B2 (ja) 2018-11-12 2022-09-13 富士通株式会社 学習プログラム、学習方法、学習装置、検知プログラム、検知方法及び検知装置
JPWO2020105144A1 (ja) * 2018-11-21 2021-02-15 三菱電機株式会社 画像生成装置及び画像生成方法
WO2020105144A1 (ja) * 2018-11-21 2020-05-28 三菱電機株式会社 画像生成装置及び画像生成方法
JP7345262B2 (ja) 2019-03-11 2023-09-15 キヤノン株式会社 データ圧縮装置、データ処理装置、データ圧縮方法、プログラム、及び学習済みモデル
JP2020149156A (ja) * 2019-03-11 2020-09-17 キヤノン株式会社 データ圧縮装置、データ処理装置、データ圧縮方法、プログラム、及び学習済みモデル
WO2020203241A1 (ja) * 2019-03-29 2020-10-08 ソニーセミコンダクタソリューションズ株式会社 情報処理方法、プログラム、及び、情報処理装置
JP2022531403A (ja) * 2019-05-03 2022-07-06 テスラ,インコーポレイテッド 指定したバイアスを用いた浮動小数点演算を用いた行列乗算命令のためのシステム及び方法
JP7430203B2 (ja) 2019-05-03 2024-02-09 テスラ,インコーポレイテッド 指定したバイアスを用いた浮動小数点演算を用いた行列乗算命令のためのシステム及び方法
WO2021229768A1 (ja) * 2020-05-14 2021-11-18 三菱電機株式会社 空調機器のメンテナンスの学習装置および推論装置
JP7163515B2 (ja) 2020-06-19 2022-10-31 深▲セン▼市商▲湯▼科技有限公司 ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置
JP2022541712A (ja) * 2020-06-19 2022-09-27 深▲セン▼市商▲湯▼科技有限公司 ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置
EP4148630A1 (en) 2021-09-10 2023-03-15 Fujitsu Limited Speed-up program, speed-up method, and information processing device

Also Published As

Publication number Publication date
CA2979046A1 (en) 2016-11-03
BR112017023028A2 (pt) 2018-07-03
US20160321540A1 (en) 2016-11-03
WO2016175923A1 (en) 2016-11-03
CN107533669B (zh) 2021-07-20
US10515304B2 (en) 2019-12-24
CN107533669A (zh) 2018-01-02
EP3289528B1 (en) 2020-10-14
EP3289528A1 (en) 2018-03-07
TW201706918A (zh) 2017-02-16
KR20170140214A (ko) 2017-12-20
BR112017023028B1 (pt) 2023-04-11

Similar Documents

Publication Publication Date Title
JP2018520404A (ja) ニューラルネットワークのためのトレーニング基準としてのフィルタ特異性
JP6869948B2 (ja) ニューラルネットワークにおける転移学習
JP6776331B2 (ja) 未知クラスの検出および未知クラスのための分類器の初期化
US10691952B2 (en) Adapting to appearance variations when tracking a target object in video sequence
JP7037478B2 (ja) 分類のための強制的なスパース性
JP6859332B2 (ja) 選択的バックプロパゲーション
US10740654B2 (en) Failure detection for a neural network object tracker
JP6743124B2 (ja) 画像中のオブジェクト検出のためのコンテキストベースの事前分布
JP6862426B2 (ja) トレーニングされた機械学習モデルのパフォーマンスを改善するための方法
US10083378B2 (en) Automatic detection of objects in video images
JP6732795B2 (ja) 深層畳み込みネットワークにおいて画像解像度を低減すること
JP2018514852A (ja) 逐次画像サンプリングおよび微調整された特徴の記憶
JP2018528521A (ja) メディア分類
JP2018518740A (ja) バイアス項を介して深層ニューラルネットワーク中にトップダウン情報を組み込むこと
EP3271873A1 (en) Sample selection for retraining classifiers