JP2018529159A - トレーニングされた機械学習モデルのパフォーマンスを改善するための方法 - Google Patents

トレーニングされた機械学習モデルのパフォーマンスを改善するための方法 Download PDF

Info

Publication number
JP2018529159A
JP2018529159A JP2018510504A JP2018510504A JP2018529159A JP 2018529159 A JP2018529159 A JP 2018529159A JP 2018510504 A JP2018510504 A JP 2018510504A JP 2018510504 A JP2018510504 A JP 2018510504A JP 2018529159 A JP2018529159 A JP 2018529159A
Authority
JP
Japan
Prior art keywords
classifier
objective function
processor
machine learning
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018510504A
Other languages
English (en)
Other versions
JP2018529159A5 (ja
JP6862426B2 (ja
Inventor
タラティ、サチン・スバシュ
バルタク、アニケット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2018529159A publication Critical patent/JP2018529159A/ja
Publication of JP2018529159A5 publication Critical patent/JP2018529159A5/ja
Application granted granted Critical
Publication of JP6862426B2 publication Critical patent/JP6862426B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)
  • Feedback Control In General (AREA)

Abstract

トレーニングされた機械学習モデルのパフォーマンスを改善するための方法が、第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加することを含む。第1の分類器についての誤差の関数を最小化するのではなく、第2の目的関数は、第1の分類器の誤差数を直接的に低減させるために使用される。

Description

関連出願への相互参照
[0001]本願は、2015年8月25日に出願された「トレーニングされた機械学習モデルのパフォーマンスを改善するための方法(METHOD FOR IMPROVING PERFORMANCE OF A TRAINED MACHINE LEARNING MODEL)」と題する米国仮特許出願第62/209,859号の利益を主張し、その開示全体が参照により本明細書に明確に組み込まれる。
[0002]本開示のある特定の態様は、一般に機械学習に関し、さらに詳細には、トレーニングされた機械学習モデルのパフォーマンスを改善するシステムおよび方法に関する。
[0003]相互結合された人工ニューロン(例えば、ニューロンモデル)のグループを備え得る、人工ニューラルネットワークのような機械学習モデルは、計算デバイスであるか、または計算デバイスによって実行される方法を表す。
[0004]畳み込みニューラルネットワークは、フィードフォワード(feed-forward)人工ニューラルネットワークのタイプである。畳み込みニューラルネットワークは、各々が受容野を有しかつ入力空間を集合的にタイリングする(collectively tile)ニューロンの集合を含み得る。畳み込みニューラルネットワーク(CNN:convolutional neural networks)は、多数のアプリケーションを有する。特に、CNNは、パターン認識および分類(classification)の分野において幅広く使用されてきた。
[0005]ディープビリーフネットワーク(deep belief networks)およびディープ畳み込みネットワークのような、ディープラーニングアーキテクチャ(deep learning architectures)は、第1の層のニューロンの出力が第2の層のニューロンへの入力となり、第2の層のニューロンの出力が第3の層のニューロンへの入力となるというような、層状のニューラルネットワークアーキテクチャ(layered neural networks architectures)である。ディープニューラルネットワークは、特徴の階層(hierarchy of features)を認識するようにトレーニングされ得、したがって、それらは、オブジェクト認識アプリケーションにおいてますます使用されている。畳み込みニューラルネットワークと同様に、これらのディープラーニングアーキテクチャにおける計算は、処理ノードの集団(population)にわたって分散され得、これは、1つまたは複数の計算チェーンにおいて構成され得る。これらの多層アーキテクチャは、一度に1層ずつトレーニングされ得、バックプロパゲーション(back propagation)を使用して微調整(fine-tuned)され得る。
[0006]他のモデルもまた、オブジェクト認識のために利用可能である。例えば、サポートベクターマシン(SVM:support vector machines)は、分類に適用されることができる学習ツールである。サポートベクターマシンは、データをカテゴリ化する(categorizes)分離超平面(例えば、決定境界)を含む。超平面は、教師あり学習(supervised learning)によって定義される。所望の超平面は、トレーニングデータのマージンを増大させる。言い換えれば、超平面は、トレーニング例との最大の最小距離(greatest minimum distance)を有するべきである。
[0007]これらの解決策は、多数の(a number of)分類ベンチマークに対して優れた結果を達成するが、それらの計算複雑度は、極めて高くなり得る。加えて、モデルのトレーニングは、困難であり得る。
[0008]本開示のある態様では、トレーニングされた機械学習モデルのパフォーマンスを改善するための方法が提示される。方法は、第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加することを備える。第2の目的関数は、第1の分類器の誤差(errors)を直接的に低減させるために使用される。
[0009]別の態様では、トレーニングされた機械学習モデルのパフォーマンスを改善するための装置が提示される。装置は、メモリと、メモリに結合された少なくとも1つのプロセッサとを含む。(1つまたは複数の)プロセッサは、第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加するように構成される。第2の目的関数は、第1の分類器の誤差を直接的に低減させるために使用される。
[0010]さらに別の態様では、トレーニングされた機械学習モデルのパフォーマンスを改善するための装置が提示される。装置は、第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加するための手段を含む。第2の目的関数は、第1の分類器の誤差を直接的に低減させるために使用される。装置は、トレーニングされた機械学習モデルを介して受信される入力に基づいて、第2の分類器から特徴ベクトルを出力するための手段をさらに含む。
[0011]さらになお別の態様では、非一時的なコンピュータ可読媒体が提示される。非一時的なコンピュータ可読媒体は、トレーニングされた学習機械モデルのパフォーマンスを改善するためのプログラムコードをその上に符号化されている。プログラムコードは、プロセッサによって実行され、第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加するためのプログラムコードを含む。第2の目的関数は、第1の分類器の誤差を直接的に低減させるために使用される。
[0012]本開示の追加の特徴および利点が、以下で説明される。本開示が、本開示と同じ目的を実行するための他の構造を修正(modifying)または設計するための基礎として容易に利用され得ることが、当業者によって理解されるべきである。また、そのような同等の構造が、添付された特許請求の範囲に示される本開示の教示から逸脱しないことも、当業者によって認識されるべきである。さらなる目的および利点と共に、その構成および動作の方法の両方について、本開示の特徴であると考えられる新規の特徴は、添付の図面に関連して考慮されるとき、以下の説明からより良く理解されるであろう。しかしながら、図面の各々は、例示および説明のみの目的で提供されており、本開示の限定の定義として意図されるものではないことが、明確に理解されるべきである。
[0013]本開示の特徴、性質、および利点は、同様の参照符号が全体を通して同様のものを指す図面と共に考慮されるとき、以下に示される詳細な説明からより明らかになるであろう。
[0014]図1は、本開示のある特定の態様による、汎用プロセッサを含む、システムオンチップ(SOC)を使用してニューラルネットワークを設計する例となるインプリメンテーションを例示する。 [0015]図2は、本開示の態様による、システムの例となるインプリメンテーションを例示する。 [0016]図3Aは、本開示の態様による、ニューラルネットワークを例示する図である。 [0017]図3Bは、本開示の態様による、例示的なディープ畳み込みネットワーク(DCN)を例示するブロック図である。 [0018]図4は、本開示の態様による、人工知能(AI)機能をモジュール化し得る例示的なソフトウェアアーキテクチャを例示するブロック図である。 [0019]図5は、本開示の態様による、スマートフォン上のAIアプリケーションのランタイム動作(run-time operation)を例示するブロック図である。 [0020]図6Aは、本開示の態様による、機械学習モデルのパフォーマンスを改善するために、第1の分類器に第2の分類器を追加するためのバリエーションを例示するブロック図である。 [0020]図6Bは、本開示の態様による、機械学習モデルのパフォーマンスを改善するために、第1の分類器に第2の分類器を追加するためのバリエーションを例示するブロック図である。 [0021]図7は、本開示の態様による、トレーニングされた機械学習モデルのパフォーマンスを改善するための例示的な分類器の概略図である。 [0022]図8は、本開示の態様による、トレーニングされた機械学習モデルのパフォーマンスを改善するための方法を例示する。 [0023]図9は、本開示の態様による、トレーニングされた機械学習モデルのパフォーマンスを改善するための方法を例示するブロック図である。
発明の詳細な説明
[0024]添付された図面に関連して以下に示される詳細な説明は、様々な構成の説明として意図され、ここで説明される概念が実施され得る唯一の構成を表すようには意図されない。詳細な説明は、様々な概念の完全な理解を提供することを目的とした特定の詳細を含む。しかしながら、これらの概念が、これらの特定の詳細なしで実施され得ることは、当業者にとって明らかであろう。いくつかの事例では、周知の構造およびコンポーネントが、このような概念を曖昧にすることを避けるために、ブロック図形式で示される。
[0025]本教示に基づき、当業者は、本開示の範囲が、本開示のその他任意の態様と組み合わされてインプリメントされようと、あるいは独立してインプリメントされようと、本開示の任意の態様をカバーするように意図されていることを理解すべきである。例えば、示される任意の数の態様を使用して、装置がインプリメントされ得、または方法が実施され得る。加えて、本発明の範囲は、示される本開示の様々な態様に加えて、またはそれ以外の、他の構造、機能、または構造と機能を使用して実施されるそのような装置または方法をカバーするように意図される。開示される本開示の任意の態様が、請求項の1つまたは複数の要素によって具現化され得ることが理解されるべきである。
[0026]「例示的(exemplary)」という用語は、ここで、「例、事例、または例示を提供する」という意味で使用される。「例示的」であるとしてここで説明される任意の態様は、必ずしも他の態様よりも好ましいまたは有利であるようには解釈されるべきでない。
[0027]特定の態様がここで説明されるが、これらの態様の多くの変形および置換が、本開示の範囲内に含まれる。好ましい態様のいくつかの利益および利点が述べられるが、本開示の範囲は、特定の利益、用途または目的に限定されるようには意図されない。むしろ、本開示の態様は、異なる技術、システム構成、ネットワークおよびプロトコルに広く適用可能であるように意図されており、そのうちのいくつかは、図面および好ましい態様の以下の説明において、例として例示される。詳細な説明および図面は、限定ではなく、本開示の単なる例示であり、本開示の範囲は、添付された特許請求の範囲およびそれらの同等物によって定義されている。
[0028]本開示の態様が、トレーニングされたより低い複雑度の機械学習モデルのパフォーマンスを改善することに向けられる。本開示の態様によると、モデルのパフォーマンスは、低い複雑度の分類器の分類誤差の数を直接的に最小化するまたは低減させるように構成された第2の分類器を追加することによって改善され得る。すなわち、標準的な技法(例えば、勾配降下法(gradient descent))を使用して、典型的なコスト関数(例えば、平方和(SSE:sum of squares)、または負の対数尤度(negative log likelihood))によって与えられるような誤差の関数(function of errors)を最小化するのではなく、追加された分類器のための新しい目的関数が、誤差の数を直接的に最小化するまたは低減させるように定義される。例えば、7つの正確な分類と3つの不正確な分類と共に、分類動作(classification operations)が実行された場合、目的関数は、3つの誤差をゼロに低減させるように設計され得る。
[0029]加えて、本開示の態様によると、トレーニングされたより低い複雑度の機械学習モデルのパフォーマンスは、より高い複雑度のモデルの軟確率(soft probabilities)を使用してさらに改善され得る。
軟確率
[0030]軟確率は、確率ベクトルの未知の値(dark values)または非最大確率値(non-maximum probability values)である。多くの従来の分類システムでは、確率ベクトルは、クラスラベルを予測するために使用される。このような従来のシステムでは、クラスラベルは、確率ベクトルにおける最高または最大確率値を使用して予測される。非最大確率値または軟確率は、無視される。
[0031]例えば、機械学習モデルMλ(W)が、N個のサンプルの入力データXtr=[x,x,x,…xN−1]、ここで、
Figure 2018529159
である、と、対応するN個のトレーニングサンプルのC個のラベル付けされた出力データ(C-labeled output data)ytr=[y,y,y,…yN−1]、ここで、y∈[0,C−1]である、とから成るトレーニングデータを使用してトレーニングされる、教師あり機械学習の分類問題を考慮する。典型的に、機械学習モデル(例えば、ニューラルネットワーク)のアーキテクチャを定義するパラメータλおよびこのモデルをトレーニングするための学習プロセスのパラメータは、予め決定されている。その後、トレーニングデータ{Xtr,ytr}は、モデルMλの重みWを学習するために使用される。このトレーニングは、
Figure 2018529159
となるように、P=[p,p,…pN−1]に、1−K符号化(1-K encoding)を使用して、ラベル付けされたデータy=[y,y,…yN−1]を符号化することを含み得、ここで、y=kの場合、pjk=1であり、
Figure 2018529159
である。
[0032]入力xを与えられると、機械学習モデルMλは、出力確率に対する推定値(estimate)を生成し、それは、
Figure 2018529159
として表され得、結果として、
Figure 2018529159
によって与えられるマルチクラス交差エントロピー関数を最小化するようにする。
[0033]出力クラスラベルは、次のように得られる:
Figure 2018529159
[0034]したがって、硬確率(hard-probability)と呼ばれる、ベクトル
Figure 2018529159
の最大値の指標のみが、推論のために利用され、非最大値は、無視される。
[0035]本開示の態様は、分類パフォーマンスを改善するために軟確率を利用する。いくつかの態様では、軟確率は、温度スケーリング(temperature scaling)を使用して抽出され得る。例えば、ニューラルネットワークモデルによって生成される確率
Figure 2018529159
は、次のようなソフトマックス関数(softmax function)を介した推定である:
Figure 2018529159
ここで、aout=[aout,0,aout,1,…,aout,C−1]は、ニューラルネットワークの出力ノードから出てきた活性化値(activation values)である。
[0036]トレーニングされた機械学習モデル(例えば、ニューラルネットワーク)によって生成される出力確率は、次のように、軟確率において隠されている情報を抽出するために、温度Tによってスケーリングされ得る:
Figure 2018529159
[0037]1つの目的が、トレーニングされたモデルによって生成される確率ベクトル
Figure 2018529159
の分布を緩和する(soften)ことである。温度Tを介してスケーリングすることは、確率の分布を平坦化し(flattens)、それによって、軟確率における情報が活用されることを可能にする。
[0038]いったん抽出されると、軟確率は、分類パフォーマンスを改善するために使用され得る。例えば、bおよびWが軟確率における情報を共にプーリング(pooling together)するために使用されるバイアスおよび重みのセットを表す一例では、混合確率(mixture probability)が、
Figure 2018529159
によって与えられ得る。
[0039]混合確率は、次のように、トレーニングされた機械学習モデルによって出力クラスラベルを予測するために使用され得る:
Figure 2018529159
[0040]トレーニングデータ{Xtr,ytr}は、軟確率の混合を生成するために使用される重みおよびバイアスについての値を推定するために使用され得る。出力ラベルが硬確率のみを使用して予測されるときの、トレーニングされた機械学習モデルによって生成されるフラクショナルトレーニング誤差(fractional training error)e(式3)、および出力ラベルが軟確率を使用して予測されるときのフラクショナルトレーニング誤差(e)(式7)が、以下によって与えられる:
Figure 2018529159
[0041]コスト関数Cが、分類誤差を低減させるために使用され得る。すなわち、コスト関数Cは、軟確率の混合によって生成された出力ラベルに関する予測された値を使用したときのトレーニングデータに対する誤差(the error on the training data)が、コスト関数が正の非ゼロ値をとる(takes on)確率を使用することによって得られる誤差よりも低くなるように設計され得る。コスト関数は、次のように表され得る:
Figure 2018529159
[0042]軟確率の混合についての改善されたまたは最適な重みおよびバイアスが、次の最適化問題を解くことによって得られ得る:
Figure 2018529159
[0043]式11の最適化問題は、初期状態{W(0),b(0)}={I,0}で(with)勾配値を使用しない標準の制約なし最適化プロセス(standard unconstrained optimization processes)のうちの任意のものを使用して解かれ得る。いくつかの態様では、最適化技法はまた、軟確率を生成するための改善されたまたは最適な温度を決定するために用いられ得る。例えば、式11の最適化問題は、次のように修正され得る:
Figure 2018529159
[0044]標準の制約なし最小化プロセスを使用することは、ある解をもたらし、それは、温度の初期選択の周辺のCについての局所極小値である(a local minima for C around the initial choice of the temperature)。収束ストラテジが、温度の初期選択の周辺の局所極小値から脱出するために使用され得る。例えば、いくつかの態様では、このストラテジは、パラメータの初期セット:{T(0),W(0),b(0)}で始まり、式11を使用して、重みおよびバイアスについての最適値
Figure 2018529159
を求め得る。初期状態T′(0)から開始し、コスト関数:C=max(0,(e−e′)/e)を最適化し、ここで、eは、
Figure 2018529159
を用いて式11を使用して計算され、e′は、
Figure 2018529159
を用いて式11を使用して計算される。このシーケンスは、収束するまで繰り返され得る。
[0045]いくつかの態様では、アンサンブル平均化(ensemble averaging)が、複数の機械学習モデルにわたって、および/または単一の機械学習モデルにおける複数のロジスティック回帰層(logistic regression layers)にわたって、インプリメントされ得る。一例では、複数の機械学習モデル(M>1)が、M個のトレーニングされたモデルによって生成される出力確率
Figure 2018529159
を有する(with)トレーニングデータを使用してトレーニングされる。これらのモデルの各々について、軟確率の最適な混合が、上記のプロシージャ最適化技法および/または収束ストラテジを使用して生成され得る。結果として得られる混合確率
Figure 2018529159
は、
Figure 2018529159
として出力ラベルを予測するために使用され得る。
[0046]{w}についての1つの選択が、k=(1,2,…M−1)について、w=1/Mである。代替として、上記の最適化技法および収束ストラテジ、または他の同様の技法が、マルチモデル確率混合重み{w}の最適なセットを推定するために使用され得る。
[0047]別の例では、複数のロジスティック回帰出力層を有してではあるが、単一の機械学習モデルにおいて、最適化技法、収束ストラテジ、および同様のものは、このモデルの異なるロジスティック回帰層から結果として得られる軟確率を改善するまたは最適化するために使用され得る。
[0048]いくつかの態様では、推論は、クラスの数が大きい(例えば、C≫1)ときに、軟確率を使用して改善され得る。軟確率の最適な混合を生成するためのパラメータの数は、Cとしてスケーリングされ、推論のための軟確率の混合を推定するときに問題になることがある。このケースでは、有用な情報を含むと考えられる各クラスについての最も高い軟確率のサブセットP<<Cが、分類パフォーマンスを改善するために活用され得る。順に、式11は、推定されるべきパラメータの総数がP(P+1)となるように、重みおよびバイアスを得るために解かれ得る。推論時間またはおよそ推論時間において、上位P個の軟確率(the top P soft probabilities)の指標が、追跡され、最適な重みおよびバイアスを使用して推定された混合確率を介して付加され得る。
[0049]図1は、本開示のある特定の態様による、汎用プロセッサ(CPU)またはマルチコア汎用プロセッサ(CPUs)102を含み得る、システムオンチップ(SOC)100を使用した、前述のトレーニングされた機械学習モデルのパフォーマンスを改善する方法の例となるインプリメンテーションを例示する。変数(例えば、モデルの重み)、計算デバイスに関連付けられたシステムパラメータ(例えば、重みを有する機械学習モデル)、遅延、周波数ビン情報、およびタスク情報が、ニューラル処理ユニット(NPU)108に関連付けられたメモリブロック中、CPU 102に関連付けられたメモリブロック中、グラフィックス処理ユニット(GPU)104に関連付けられたメモリブロック中、デジタルシグナルプロセッサ(DSP)106に関連付けられたメモリブロック中、専用メモリブロック118中に記憶され得、または複数のブロックにわたって分散され得る。汎用プロセッサ102において実行される命令は、CPU 102に関連付けられたプログラムメモリからロードされ得るか、または専用メモリブロック118からロードされ得る。
[0050]SOC 100はまた、GPU 104、DSP 106、接続性ブロック110、これは、第4世代ロングタームエボリューション(4G LTE(登録商標))接続性、免許不要のWi−Fi接続性、USB接続性、Bluetooth(登録商標)接続性、および同様のものを含み得る、および、例えば、ジェスチャを検出および認識し得るマルチメディアプロセッサ112のような、特定の機能に合わせられた(tailored to)追加の処理ブロックを含み得る。1つのインプリメンテーションでは、NPUは、CPU、DSP、および/またはGPUにおいてインプリメントされる。SOC 100はまた、センサプロセッサ114、画像信号プロセッサ(ISP)、および/または全地球測位システムを含み得るナビゲーション120を含み得る。
[0051]SOC 100は、ARM命令セットに基づき得る。本開示のある態様では、汎用プロセッサ102にロードされる命令は、第1の目的関数(例えば、コスト)を有する第1の分類器に、第2の目的関数(例えば、コスト)を有する第2の分類器を追加するためのコードを備え得る。第2の目的関数は、第1の分類器の誤差を直接的に低減させるために使用される。
[0052]図2は、本開示のある特定の態様による、システム200の例となるインプリメンテーションを例示する。図2に例示されるように、システム200は、ここで説明される方法の様々な動作を実行し得る複数のローカル処理ユニット(local processing units)202を有し得る。各ローカル処理ユニット202は、ローカル状態メモリ204と、ニューラルネットワークのパラメータを記憶し得るローカルパラメータメモリ206とを備え得る。加えて、ローカル処理ユニット202は、ローカルモデルプログラムを記憶するためのローカル(ニューロン)モデルプログラム(LMP)メモリ208と、ローカル学習プログラムを記憶するためのローカル学習プログラム(LLP)メモリ210と、ローカル接続メモリ212とを有し得る。さらに、図2に例示されるように、各ローカル処理ユニット202は、ローカル処理ユニットのローカルメモリのための構成を提供するための構成プロセッサユニット214と、およびローカル処理ユニット202間のルーティングを提供するルーティング接続処理ユニット216とインタフェースし得る。
[0053]ディープラーニングアーキテクチャは、各層において連続的により高度な抽象化レベル(successively higher levels of abstraction)で入力を表現する(represent)ことを学習することによってオブジェクト認識タスクを実行し得、それにより、入力データの有用な特徴表現を構築(building up)する。このようにして、ディープラーニングは、従来の機械学習の主要なボトルネック(major bottleneck)に対処する。ディープラーニングが出現する前は、オブジェクト認識問題に対する機械学習アプローチは、ことによるとシャロー分類器(shallow classifier)との組合せにおいて、人間によって設計された特徴(human engineered features)に依存するところが大きかった。シャロー分類器は、2クラス線形分類器であり得、例えば、そこで、特徴ベクトル成分の加重和(weighted sum)が、どのクラスに入力が属するか予測するためにしきい値と比較され得る。人間によって設計された特徴は、領域の専門知識を有するエンジニアによって、特定の問題領域に合わせられたテンプレートまたはカーネルであり得る。ディープラーニングアーキテクチャは、対照的に、トレーニングを通じてであるが、人間のエンジニアが設計し得るものと同様の特徴を表現することを学習し得る。さらに、ディープネットワークは、人間が考慮することがなかったであろう新しいタイプの特徴を表現および認識することを学習し得る。
[0054]ディープラーニングアーキテクチャは、特徴の階層を学習し得る。例えば、視覚データが提示された場合、第1の層は、入力ストリームにおける、エッジのような、比較的単純な特徴を認識することを学習し得る。別の例では、聴覚データが提示された場合、第1の層は、特定の周波数におけるスペクトルパワーを認識することを学習し得る。第1の層の出力を入力として受ける第2の層は、視覚データについては単純な形状または聴覚データについては音の組合せのような、特徴の組合せを認識することを学習し得る。例えば、上位層は、視覚データにおける複雑な形状または聴覚データにおける単語を表現することを学習し得る。さらに上位の層は、共通の視覚オブジェクトまたは発話フレーズを認識することを学習し得る。
[0055]ディープラーニングアーキテクチャは、自然階層構造を有する問題に適用されるとき、特によく機能し得る。例えば、モーターの付いた乗り物の分類は、車輪、風防ガラス、および他の特徴を認識するための第1の学習から恩恵を受け得る。これらの特徴は、車、トラック、および飛行機を認識するために、異なる方法で上位層において組み合わされ得る。
[0056]ニューラルネットワークのような機械学習モデルは、様々な結合パターン(connectivity patterns)を用いて設計され得る。フィードフォワードネットワークでは、情報は、下位層から上位層へ渡されるとともに、所与の層における各ニューロンが、上位層におけるニューロンに伝達する。階層的な表現が、上記で説明されたように、フィードフォワードネットワークの連続した層において構築され得る。ニューラルネットワークはまた、再帰型(recurrent)結合またはフィードバック(トップダウンとも呼ばれる)結合を有し得る。再帰型結合では、所与の層におけるニューロンからの出力は、同じ層における別のニューロンに伝達され得る。再帰型アーキテクチャは、シーケンスにおいてニューラルネットワークに伝達される入力データチャンクのうちの1つよりも多くにまたがる(span)パターンを認識するのに役立ち得る。所与の層におけるニューロンから下位層におけるニューロンへの結合は、フィードバック(またはトップダウン)結合と呼ばれる。多くのフィードバック結合を有するネットワークは、高レベルの概念の認識が、入力の特定の低レベルの特徴を区別することを支援し得るときに役立ち得る。
[0057]図3Aを参照すると、ニューラルネットワークの層間の結合は、全結合302または局所結合304であり得る。全結合ネットワーク302では、第1の層におけるニューロンは、第2の層における各ニューロンが第1の層における全てのニューロンから入力を受信するように、その出力を第2の層における全てのニューロンに伝達し得る。代替として、局所結合されたネットワーク304では、第1の層におけるニューロンは、第2の層における限られた数のニューロンに結合され得る。畳み込みネットワーク306は、局所結合され得、第2の層における各ニューロンのための入力に関連付けられた結合強度が共有されるようにさらに構成される(例えば、308)。より一般的には、ネットワークの局所結合された層は、層における各ニューロンが、異なる値を有し得る結合強度を持ってではあるが、同じまたは同様の結合パターンを有するように構成され得る(例えば、310、312、314、および316)。局所結合された結合パターンは、所与の領域における上位層のニューロンが、ネットワークへの総入力の制限された部分の特性(properties)にトレーニングを通じて調整される入力を受信し得るので、上位層における空間的に別個の受容野(spatially distinct receptive fields)を生じさせ得る。
[0058]局所結合されたニューラルネットワークは、入力の空間的ロケーションが意味をもつ問題によく適し得る。例えば、車載カメラからの視覚特徴を認識するように設計されたネットワーク300は、異なる特性を有する上位層のニューロンを、画像の下部対上部(the lower versus the upper portion)とのそれらの関連付けに依存して発達(develop)させ得る。例えば、画像の下部に関連付けられたニューロンは、車線区分線を認識することを学習し得、一方、画像の上部に関連付けられたニューロンは、交通信号、交通標識、および同様のものを認識することを学習し得る。
[0059]DCNは、教師あり学習を用いてトレーニングされ得る。トレーニング中、DCNは、速度制限標識のクロップされた画像(cropped image)326のような、画像を提示され得、その後、「フォワードパス(forward pass)」が、出力322を生成するために計算され得る。出力322は、「標識」、「60」、および「100」のような特徴に対応する値のベクトルであり得る。ネットワーク設計者は、DCNが、例えば、トレーニングされたネットワーク300についての出力322において示される「標識」および「60」に対応するもののような、出力特徴ベクトルにおけるニューロンのうちのいくつかについて、高いスコアを出力することを望み得る。トレーニング前は、DCNによって生成される出力は、不正確である可能性が高く、したがって、実際の出力とターゲット出力との間で誤差が計算され得る。その後、DCNの重みは、DCNの出力スコアがターゲットにより密接に合わせられる(aligned)ように調整され得る。
[0060]重みを調整するために、学習アルゴリズムが、重みについての勾配ベクトルを計算し得る。勾配は、重みがわずかに調整された場合に、誤差が増大または低減するであろう量を示し得る。最上層において、勾配は、最後から2番目の層における活性化されたニューロンと出力層におけるニューロンとを結合する重みの値に直接対応し得る。下位層において、勾配は、重みの値と、上位層の計算された誤差勾配とに依存し得る。その後、重みは、誤差を低減させるように調整され得る。重みを調整するこの方法は、それがニューラルネットワークを通じた「バックワードパス(backward pass)」を伴うので、「バックプロパゲーション」と呼ばれ得る。
[0061]実際には、重みの誤差勾配は、計算された勾配が、真の誤差勾配(true error gradient)を近似するように、少数の例にわたって計算され得る。この近似方法は、確率的勾配降下法(stochastic gradient descent)と呼ばれ得る。確率的勾配降下法は、システム全体の達成可能な誤差率(error rate)の低減が止まるまで、または誤差率がターゲットレベルに達するまで繰り返され得る。
[0062]学習後、DCNは、新しい画像326を提示され得、ネットワークを通じたフォワードパスが、DCNの推論または予測と見なされ得る出力322をもたらし得る。
[0063]ディープビリーフネットワーク(DBN)は、隠れノードの複数の層(multiple layers of hidden nodes)を備える確率モデルである。DBNは、トレーニングデータセットの階層的な表現(hierarchical representation)を抽出するために使用され得る。DBNは、制限付きボルツマンマシン(RBM:Restricted Boltzmann Machines)の層を積み上げること(stacking up)によって取得され得る。RBMは、入力のセットにわたる確率分布を学習することができる人工ニューラルネットワークのタイプである。RBMは、各入力がカテゴリ化されるべきクラスについての情報がない状態で確率分布を学習することができるので、RBMは、教師なし学習においてしばしば使用される。ハイブリッド教師なしおよび教師ありパラダイムを使用して、DBNの下方のRBM(bottom RBM)は、教師なしの方法でトレーニングされ得、かつ特徴抽出器として機能し得、また、上方のRBM(top RBM)は、(ターゲットクラスおよび前の層からの入力の同時分布(joint distribution)で)教師ありの方法でトレーニングされ得、かつ分類器として機能し得る。
[0064]ディープ畳み込みネットワーク(DCN)は、畳み込みネットワークのネットワークであり、追加のプーリング層および正規化層を用いて構成される。DCNは、多くのタスクについて最先端のパフォーマンスを達成している。DCNは、入力ターゲットおよび出力ターゲットの両方が、多くのエグゼンプラー(exemplars)について知られており、かつ勾配降下法の使用によってネットワークの重みを修正するために使用される、教師あり学習を使用してトレーニングされることができる。
[0065]DCNは、フィードフォワードネットワークであり得る。加えて、上記で説明されたように、DCNの第1の層におけるニューロンから、次の上位層におけるニューロンのグループへの結合は、第1の層におけるニューロンにわたって共有される。DCNのフィードフォワード結合および共有結合は、高速処理に活用され得る。DCNの計算負担は、例えば、再帰型結合またはフィードバック結合を備える同様のサイズのニューラルネットワークのそれよりも、はるかに少なくなり得る。
[0066]畳み込みネットワークの各層の処理は、空間的に不変のテンプレートまたは基底射影(basis projection)であると見なされ得る。入力が、最初にカラー画像の赤、緑、および青チャネルのような複数のチャネルに分解される場合には、その入力でトレーニングされた畳み込みネットワークは、画像の軸に沿った2つの空間次元と、色情報をキャプチャする第3の次元とを有する、3次元であると見なされ得る。畳み込み結合の出力は、後続の層318および320において特徴マップを形成すると考えられ得るとともに、特徴マップ(例えば、320)の各要素が、複数のチャネルの各々から、および前の層(例えば、318)におけるある範囲のニューロン(a range of neurons)から入力を受信する。特徴マップにおける値は、正規化(rectification)、すなわちmax(0,x)のような、非線形性を用いてさらに処理され得る。隣接するニューロンからの値は、さらにプーリングされ得、これは、ダウンサンプリングに対応し、追加の局所不変性および次元削減(dimensionality reduction)を提供し得る。白色化に対応する正規化がまた、特徴マップにおけるニューロン間の側抑制(lateral inhibition)を通じて適用され得る。
[0067]ディープラーニングアーキテクチャのパフォーマンスは、より多くのラベル付けされたデータポイントが利用可能になるにつれて、または計算能力が増大するにつれて増大し得る。現代のディープニューラルネットワークは、わずか15年前に一般的な研究者に利用可能であったものよりも何千倍も大きいコンピューティングリソースを用いて、日常的に(routinely)トレーニングされる。新しいアーキテクチャおよびトレーニングパラダイムは、ディープラーニングのパフォーマンスをさらに高め得る。整流された線形ユニットは、勾配消失(vanishing gradients)として知られるトレーニング課題を低減し得る。新しいトレーニング技法は、過剰適合(over-fitting)を低減し、したがって、より大きいモデルがより良い汎化を達成することを可能にし得る。カプセル化技法は、所与の受容野においてデータを抽象化(abstarct)し、全体的なパフォーマンスをさらに高め得る。
[0068]図3Bは、例示的なディープ畳み込みネットワーク350を例示するブロック図である。ディープ畳み込みネットワーク350は、結合性および重みの共有に基づいて、複数の異なるタイプの層を含み得る。図3Bに示されるように、例示的なディープ畳み込みネットワーク350は、複数の畳み込みブロック(例えば、C1およびC2)を含む。畳み込みブロックの各々は、畳み込み層、正規化層(LNorm)、およびプーリング層で構成され得る。畳み込み層は、1つまたは複数の畳み込みフィルタを含み得、これは、特徴マップを生成するために入力データに適用され得る。2つの畳み込みブロックのみが示されているが、本開示はそのように限定するものではなく、代わりに、設計の選好に従って、任意の数の畳み込みブロックがディープ畳み込みネットワーク350に含まれ得る。正規化層は、畳み込みフィルタの出力を正規化するために使用され得る。例えば、正規化層は、白色化または側抑制を提供し得る。プーリング層は、局所不変性および次元削減のために、空間にわたってダウンサンプリングアグリゲーションを提供し得る。
[0069]ディープ畳み込みネットワークの、例えば、並列フィルタバンク(parallel filter banks)は、高いパフォーマンスおよび低い電力消費を達成するために、オプションとしてARM命令セットに基づいて、SOC 100のCPU 102またはGPU 104上に搭載(loaded on)され得る。代替的な実施形態では、並列フィルタバンクは、SOC 100のDSP 106またはISP 116上に搭載され得る。加えて、DCNは、センサ114およびナビゲーション120に専用の処理ブロックのような、SOC上に存在し得る他の処理ブロックにアクセスし得る。
[0070]ディープ畳み込みネットワーク350はまた、1つまたは複数の全結合層(例えば、FC1およびFC2)を含み得る。ディープ畳み込みネットワーク350は、ロジスティック回帰(LR:logistic regression)層をさらに含み得る。ディープ畳み込みネットワーク350の各層の間には、更新されるべき重み(図示せず)がある。各層の出力は、第1の畳み込みブロックC1において供給された入力データ(例えば、画像、音声、ビデオ、センサデータ、および/または他の入力データ)から階層的な特徴表現を学習するために、ディープ畳み込みネットワーク350における後続の層の入力として機能し得る。
[0071]図4は、人工知能(AI)機能をモジュール化し得る例示的なソフトウェアアーキテクチャ400を例示するブロック図である。このアーキテクチャを使用して、SOC 420の様々な処理ブロック(例えば、CPU 422、DSP 424、GPU 426および/またはNPU 428)に、アプリケーション402のランタイム動作中にサポート計算(supporting computations)を実行させ得るアプリケーション402が設計され得る。
[0072]AIアプリケーション402は、例えば、そこでデバイスが現在動作するロケーションを示すシーンの検出および認識をもたらし(provide for)得る、ユーザ空間404において定義された機能を呼び出すように構成され得る。AIアプリケーション402は、例えば、認識されたシーンがオフィス、講堂、レストラン、または湖のような屋外環境であるかどうかに依存して異なるように、マイクロフォンおよびカメラを構成し得る。AIアプリケーション402は、現在のシーンの推定を提供するために、SceneDetectアプリケーションプログラミングインタフェース(API)406において定義されたライブラリに関連付けられた、コンパイルされたプログラムコードへの要求を行い得る。この要求は、例えば、ビデオおよび測位データに基づいてシーン推定を提供するように構成されたディープニューラルネットワークの出力に最終的に依拠し得る。
[0073]ランタイムフレームワーク(Runtime Framework)のコンパイルされたコードであり得るランタイムエンジン408が、AIアプリケーション402にとってさらにアクセス可能であり得る。AIアプリケーション402は、例えば、ランタイムエンジンに、特定の時間間隔における、またはアプリケーションのユーザインタフェースによって検出されたイベントによってトリガされる、シーン推定を要求させ得る。シーンを推定させられたとき、ランタイムエンジンは、順に、SOC 420上で実行中のLinux(登録商標)カーネル412のような、オペレーティングシステム410に信号を送り得る。オペレーティングシステム410は、順に、CPU 422、DSP 424、GPU 426、NPU 428、またはこれらの何らかの組合せ上で、計算を実行させ得る。CPU 422は、オペレーティングシステムによって直接アクセスされ得、他の処理ブロックは、DSP 424のための、GPU 426のための、またはNPU 428のためのドライバ414〜418のような、ドライバを通じてアクセスされ得る。例示的な例では、ディープニューラルネットワークは、CPU 422およびGPU 426のような、処理ブロックの組合せ上で実行するように構成され得るか、または、存在する場合、NPU 428上で実行され得る。
[0074]図5は、スマートフォン502上のAIアプリケーションのランタイム動作500を例示するブロック図である。AIアプリケーションは、画像506のフォーマットを変換し、その後、画像508をクロップおよび/またはリサイズするように(例えば、JAVA(登録商標)プログラミング言語を使用して)構成され得る前処理モジュール504を含み得る。その後、前処理された画像は、視覚入力に基づいてシーンを検出および分類するように(例えば、Cプログラミング言語を使用して)構成され得るSceneDetectバックエンドエンジン512を含む分類アプリケーション510に通信され得る。SceneDetectバックエンドエンジン512は、スケーリング516およびクロッピング518によって、画像をさらに前処理514するように構成され得る。例えば、画像は、結果として得られる画像が224ピクセル×224ピクセルとなるように、スケーリングされ、クロップされ得る。これらの次元(dimensions)は、ニューラルネットワークの入力次元にマッピングし得る。ニューラルネットワークは、SOC 100の様々な処理ブロックに、ディープニューラルネットワークを用いて画像ピクセルをさらに処理させるように、ディープニューラルネットワークブロック520によって構成され得る。その後、ディープニューラルネットワークの結果は、しきい値処理(thresholded)522され、分類アプリケーション510内の指数平滑化(exponential smoothing)ブロック524を通され得る。その後、平滑化された結果は、スマートフォン502の設定および/または表示の変更を生じ得る。
[0075]一構成では、機械学習モデルが、第1の目的(例えば、コスト)関数を有する第1の分類器に、第2の目的(例えば、コスト)関数を有する第2の分類器を追加するために構成され、第2の目的関数は、第1の分類器の誤差を直接的に低減させるために使用される。機械学習モデルはまた、トレーニングされた機械学習モデルを介して受信される入力に基づいて、第2の分類器から特徴ベクトルを出力するために構成される。機械学習モデルは、追加する手段および/または出力する手段を含む。一態様では、追加する手段および/または出力する手段は、記載された機能を実行するように構成された、汎用プロセッサ102、汎用プロセッサ102に関連付けられたプログラムメモリ、メモリブロック118、ローカル処理ユニット202、およびまたはルーティング接続処理ユニット216であり得る。別の構成では、上述された手段は、これら上述された手段によって、記載された機能を実行するように構成された任意のモジュールまたは任意の装置であり得る。
[0076]本開示のある特定の態様によると、各ローカル処理ユニット202は、ネットワークの所望の1つまたは複数の機能的特徴に基づいて、ネットワークのパラメータを決定することと、決定されたパラメータがさらに適合、調整、および更新されるにつれて、所望の機能的特徴に向けて1つまたは複数の機能的特徴を発展させることと、を行うように構成され得る。
[0077]図6Aおよび図6Bは、ニューラルネットワークモデルのような機械学習モデルのパフォーマンスを改善するために、第1の分類器に第2の分類器を追加するためのバリエーションを例示するブロック図である。図6Aおよび図6Bを参照すると、第2の分類器602が、トレーニングされた機械学習モデル606の第1の分類器604に追加され得る。いくつかの態様では、機械学習モデル606は、局所結合された(L−C)層を含むディープ畳み込みネットワーク(DCN)または別の機械学習モデルを備え得る。この機械学習モデルは、複雑度が低くなり得る。いくつかの例示的な態様では、10億回未満の積和演算(MAC)を有する機械学習モデルが、低い複雑度のモデルであると考えられ得る。他方では、10億回を上回る積和演算を有する機械学習モデルが、高い複雑度のモデルであると考えられ得る。むろん、他の測定基準もまた、モデルの相対的な複雑度を決定するために使用され得る(例えば、パラメータの数、ステージ(層)の数、および/またはステージのタイプ)。
[0078]トレーニングされた機械学習モデル606は、入力(例えば、画像)(図示せず)を受信するように構成され得る。機械学習モデル606は、入力から特徴のセットを抽出するために、画像を処理し得る。入力に対応する特徴ベクトルが、第1の分類器604に供給され得る。第1の分類器604は、微分可能な(例えば、勾配が決定できる)目的関数を用いて構成され得、これは、分類精度(classification accuracy)を改善するために使用され得る。順に、第1の分類器604は、出力クラスラベルを決定するために使用され得る確率ベクトルPを生成し得る。
[0079]第1の分類器604のパフォーマンスおよび精度を改善するために、第2の分類器602が追加され得る。第2の分類器602は、微分不可能な(non-differentiable)(例えば、勾配がない)目的関数を用いて構成され得る。目的関数は、第1の分類器604によって生成される誤差の数を直接的に低減させるように構成され得る。すなわち、第1の分類器604のためのコスト関数または誤差の関数を最小化するように試みるのではなく、第2の分類器602は、誤差の総数を低減させる。例えば、いくつかの態様では、第2の分類器602のための目的関数は、
Figure 2018529159
として表され得る。
[0080]目的関数は、上記で説明されたような制約なし最小化技法を使用して、第2の分類器602のための重みおよびバイアスの項を決定するために使用され得る。したがって、第2の分類器602からの出力クラスラベルは、第2の分類器602のみを介して生成されるよりも少ない誤差を含み得る。
[0081]この構成は、分類パフォーマンスにおける改善が、予めトレーニングされた機械学習モデルを再トレーニングすることなく達成され得るので、特に有益であり得る。代わりに、パフォーマンスは、第2の分類器602を再トレーニングすることのみによって改善され得る。
[0082]いくつかの態様では、図6Bに示されるように、第2の分類器602は、代替として、(例えば、トレーニングされた機械学習モデルからのモデルの層として)トレーニングされた機械学習モデル606内に提供され得る。さらに、いくつかの態様では、(図6Aおよび図6Bに示される)機械学習モデル606のパフォーマンスは、高い複雑度のモデル608を介して供給される軟確率を使用してさらに改善され得る。
[0083]図7は、本開示の態様による、トレーニングされた機械学習モデル(例えば、ニューラルネットワーク)のパフォーマンスを改善するための例示的な分類器700の概略図を提示する。図7を参照すると、微分不可能な目的関数Oが、ニューラルネットワークの分類器(回帰)層の出力において追加される。目的関数は、所与のトレーニング(またはテスティング)データセットに対する目的関数についての最大の非ゼロ値が、トレーニング(テスティング)誤差の数が、元のトレーニングされたニューラルネットワークについて得られたそれらを下回るときのみ生じるであろうように指定(specified)され得る。
[0084]入力
Figure 2018529159
を与えられると、機械学習モデル702は、入力をC個のクラスのうちの1つに分類するように構成され得る。ワンホット符号化(one-hot encoding)のような、符号化スキームを使用して、クラスラベルは、所与のクラスラベルl<Cについて、P=[p…pであるように、確率ベクトル
Figure 2018529159
によって表され得、ここで、i=lの場合、p=1であり、
Figure 2018529159
である。トレーニングされた機械学習モデル(例えば、ニューラルネットワーク)
Figure 2018529159
を与えられると、推定された確率ベクトル
Figure 2018529159
が、
Figure 2018529159
として、Zから得られ得、ここで、σは、ソフトマックス非線形性(soft-max nonlinearity)である。
[0085]上記で説明されたように、従来のアプローチは、
Figure 2018529159
としてクラスラベルを予測するために、
Figure 2018529159
を使用する。U個のトレーニングサンプルを有する所与のデータセットについて、その後、トレーニング誤差は、
Figure 2018529159
として得られ、V個のテストサンプルに対するテスティング誤差は、同様に、
Figure 2018529159
として得られる。
Figure 2018529159
および
Figure 2018529159
についての値は、モデルMの優良性(goodness)または精度を決定する。トレーニングモデルMについての1つの優良性または精度の測定基準が、
Figure 2018529159
および
Figure 2018529159
である。本開示の態様は、それに対して
Figure 2018529159
である、トレーニングされたモデルMのパフォーマンスを改善することを目的とする。
[0086]本開示の態様によると、トレーニングされたモデル702を介して生成される特徴表現が、分類器700に供給され得る。分類器700は、特徴ベクトルZを受信し、それは、モデルの重みWと混合(mixed)されて、新しい特徴ベクトル
Figure 2018529159
を生成し得る。その後、特徴ベクトルZは、確率ベクトルP=σ(Z)を推定するために使用され得る。その後、確率特徴ベクトル
Figure 2018529159
が、
Figure 2018529159
ここで、
Figure 2018529159
である、としてトレーニングセットに対する推定予測誤差を計算するために使用され得る。パラメータλ=[W,W]は、次の目的関数上で最適化することによって推定される:
Figure 2018529159
[0087]いくつかの態様では、高い複雑度のモデル704が、機械学習モデル702に軟確率ベクトルPを提供し得る。軟確率ベクトルは、モデルの重みWと混合され得る。順に、確率特徴ベクトル
Figure 2018529159
は、
Figure 2018529159
ここで、
Figure 2018529159
である、としてトレーニングセットに対する推定予測誤差を計算するために使用され得る。パラメータλ=[W,W,W,T]は、式14の目的関数上で最適化することによって推定され得る。
[0088]Oが微分不可能な関数であると仮定すると、制約なし最小化プロセスは、λ=argmax[O]として、最適なλを求めるために使用され得る。Oに関する非ゼロ収束値は、
Figure 2018529159
ということ暗示し、したがって、パラメータの追加のセットを推定するという代償を払って、元のモデルよりも良いパフォーマンスを有する、結果として得られるモデルを生成する。
[0089]いくつかの態様では、λ(例えば、W、W、W、またはT)におけるパラメータのうちのいくつかは、アプリオリに設定され得る。したがって、新しいパラメータのうちのいくつかの追加による過剰適合(overfitting)の問題が、緩和または低減され得る。
[0090]いくつかの態様では、様々な単純化が、設計の選好に従ってパフォーマンスを改善しながら用いられ得る。例えば、トレーニングされた学習モデルによって生成される特徴に対応する重みが、アイデンティティ値(identity value)に設定され得る。したがって、トレーニングされた機械学習モデルによって生成される特徴ベクトルの混合は、考慮されないであろう。一方、第2の例では、トレーニングされた機械学習モデルを介して生成される特徴ベクトルの混合のみが考慮され得る。
[0091]第3の例では、トレーニングされた学習モデルによって生成される特徴に対応する重みが、アイデンティティ値に設定され得、高い複雑度のモデル704からの利用可能な軟確率情報は、無視され得る。
[0092]第4の例では、高い複雑度のモデル704からの軟確率Pが、所与の温度値(例えば、T=α,α>1)によって再スケーリング(rescaled)され得る。
[0093]図8は、トレーニングされた機械学習モデルのパフォーマンスを改善するための方法800を例示する。ブロック802において、プロセスは、第1の目的関数(例えば、コスト)を有する第1の分類器に、第2の目的関数(例えば、コスト)を有する第2の分類器を追加する。第2の目的関数は、第1の分類器の誤差を直接的に低減させるために使用される。
[0094]第1の目的関数は、微分可能であり、第2の目的関数は、微分不可能である。いくつかの態様では、第2の目的関数は、第1の分類器と第2の分類器との誤差間の差の関数であり得る。他の態様では、第2の目的関数は、より高い複雑度のモデルからの確率の混合に基づいて決定され得る。
[0095]いくつかの態様では、第2の分類器は、第1の分類器の外部に(externally)追加され得る。代替として、第2の分類器は、第1の分類器(例えば、第1の分類器の層)の内部に組み込まれ得る。さらに、第2の分類器は、第1の分類器を再トレーニングすることなく追加され得る。
[0096]ブロック804において、プロセスは、トレーニングされた機械学習モデルを介して受信される入力に基づいて、第2の分類器から特徴ベクトルを出力する。
[0097]いくつかの態様では、プロセスは、過剰適合の問題を低減または緩和するために、様々な単純化をインプリメントし得る。例えば、プロセスは、アイデンティティ値に、第1の分類器によってトレーニングされたモデルによって生成される特徴に対する重みを割り当て(assign)得る。プロセスはまた、ゼロに、より高い複雑度のモデルの確率ベクトルによって生成される特徴に対する重みを割り当て得る。プロセスは、第2の分類器の確率ベクトルによって生成される特徴に対する重みをさらに割り当て得る。プロセスは、ゼロに、より高い複雑度のモデルの確率ベクトルによって生成される特徴に対する重みを割り当て得る。プロセスは、第2の分類器の確率ベクトルによって生成される特徴に対する重みをさらに割り当て得る。プロセスはまた、固定された温度Tによって、より高い複雑度のモデルによって生成される確率ベクトルをスケーリングし得る。
[0098]図9は、本開示の態様による、トレーニングされた機械学習モデルのパフォーマンスを改善するための方法900を例示するブロック図である。ブロック902において、プロセスは、トレーニングされた機械学習モデルを介して、機械確率ベクトルを機械学習モデル(例えば、分類器)において受信する。確率ベクトルは、トレーニングされた機械学習モデルにおいて受信される入力に対応する。ブロック904において、モデルの重みおよびバイアスのような、機械学習モデルのパラメータは、トレーニングされた機械学習モデルの誤差を直接的に低減させる目的関数に基づいて計算され得る。すなわち、目的関数は、トレーニングされた機械学習モデルについての誤差の関数ではなく、誤差の数を直接的に低減させるように設計される。したがって、機械学習モデルの目的関数は、微分不可能である。
[0099]いくつかの態様では、高い複雑度のモデルおよび/またはトレーニングされた機械学習モデルからの軟確率は、パラメータを計算するために使用され得る。
[00100]ブロック906において、プロセスは、機械学習モデルのパラメータを更新し得る。その後、機械学習モデルは、ブロック908において、受信された確率ベクトルに対応する入力についての出力クラスラベルを生成し得る。したがって、更新の後に続く分類誤差は、同じ入力についてトレーニングされた機械学習モデルによって生成されるそれらよりも少なくなり得る。したがって、トレーニングされた機械学習モデルのパフォーマンスは、改善され得る。
[00101]上記で説明された方法の様々な動作は、対応する機能を実行することが可能な任意の適切な手段によって実行され得る。これら手段は、それに限定されるものではないが、回路、特定用途向け集積回路(ASIC)、またはプロセッサを含む、様々なハードウェアおよび/またはソフトウェアの(1つまたは複数の)コンポーネントおよび/または(1つまたは複数の)モジュールを含み得る。一般に、図中に例示された動作がある場合、これらの動作は、同様の番号付けを有する、対応する対をなすミーンズプラスファンクションのコンポーネントを有し得る。
[00102]ここで使用される場合、「決定すること」という用語は、幅広いアクションを包含する。例えば、「決定すること」は、計算すること(calculating)、計算すること(computing)、処理すること、導出すること、調査すること、ルックアップすること(例えば、表、データベース、または別のデータ構造においてルックアップすること)、確定すること、および同様のことを含み得る。加えて、「決定すること」は、受信すること(例えば、情報を受信すること)、アクセスすること(例えば、メモリにおけるデータにアクセスすること)、および同様のことを含み得る。さらに、「決定すること」は、解決すること、選択すること、選ぶこと、確立すること、および同様のことを含み得る。
[00103]ここで使用される場合、アイテムのリスト「のうちの少なくとも1つ」を指す表現は、単一のメンバ(members)を含む、それらのアイテムの任意の組合せを指す。例として、「a、b、またはcのうちの少なくとも1つ」は、a、b、c、a−b、a−c、b−c、およびa−b−cをカバーするように意図される。
[00104]本開示に関連して説明された、様々な例示的な論理ブロック、モジュールおよび回路は、汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ信号(FPGA)または他のプログラマブル論理デバイス(PLD)、個別ゲートまたはトランジスタロジック、個別ハードウェアコンポーネント、あるいはここで説明された機能を実行するように設計されたこれらの任意の組合せを用いてインプリメントまたは実行され得る。汎用プロセッサは、マイクロプロセッサであり得るが、代替として、このプロセッサは、任意の商業的に利用可能なプロセッサ、コントローラ、マイクロコントローラまたはステートマシンであり得る。プロセッサはまた、コンピューティングデバイスの組合せ、例えば、DSPとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアと連携した1つまたは複数のマイクロプロセッサ、あるいはその他任意のこのような構成としてインプリメントされ得る。
[00105]本開示に関連して説明されたアルゴリズムまたは方法のステップは、直接ハードウェアにおいて、プロセッサによって実行されるソフトウェアモジュールにおいて、またはこれら2つの組合せにおいて、具現化され得る。ソフトウェアモジュールは、当該技術分野で知られている任意の形態の記憶媒体内に存在し得る。使用され得る記憶媒体のいくつかの例は、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、フラッシュメモリ、消去可能なプログラマブル読取専用メモリ(EPROM)、電気的に消去可能なプログラマブル読取専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、等を含む。ソフトウェアモジュールは、単一の命令、または多くの命令を備え得、いくつかの異なるコードセグメントにわたって、異なるプログラム間で、および複数の記憶媒体にわたって、分散され得る。記憶媒体は、プロセッサが記憶媒体から情報を読み取り、および/または記憶媒体に情報を書き込むことができるように、プロセッサに結合され得る。代替として、記憶媒体は、プロセッサと一体化され得る。
[00106]ここで開示された方法は、説明された方法を達成するための1つまたは複数のステップまたはアクションを備える。方法のステップおよび/またはアクションは、特許請求の範囲から逸脱することなく互いに置き換えられ得る。言い換えれば、ステップまたはアクションの特定の順序が明記されない限り、特定のステップおよび/またはアクションの順序および/または使用は、特許請求の範囲から逸脱することなく修正され得る。
[00107]説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組合せでインプリメントされ得る。ハードウェアでインプリメントされる場合、例となるハードウェア構成は、デバイス中に処理システムを備え得る。処理システムは、バスアーキテクチャを用いてインプリメントされ得る。バスは、処理システムの特定のアプリケーションおよび全体的な設計制約に依存して、任意の数の相互接続バスおよびブリッジを含み得る。バスは、プロセッサ、機械可読媒体、およびバスインタフェースを含む様々な回路を共にリンクし得る。バスインタフェースは、特に、バスを介してネットワークアダプタを処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能をインプリメントするために使用され得る。ある特定の態様では、ユーザインタフェース(例えば、キーパッド、ディスプレイ、マウス、ジョイスティック、等)がまた、バスに接続され得る。バスはまた、タイミングソース、周辺機器、電圧レギュレータ、電力管理回路、および同様のもののような、様々な他の回路をリンクし得、これらは、当該技術分野において周知であり、したがって、これ以上は説明されない。
[00108]プロセッサは、バスの管理と、機械可読媒体上に記憶されたソフトウェアの実行を含む汎用処理とを担い得る。プロセッサは、1つまたは複数の汎用および/または専用プロセッサを用いてインプリメントされ得る。例は、マイクロプロセッサ、マイクロコントローラ、DSPプロセッサ、およびソフトウェアを実行することができるその他の回路を含む。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはその他の方法で呼ばれるかにかかわらず、命令、データ、またはこれらの任意の組合せを意味するように広く解釈されるべきである。機械可読媒体は、例として、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読取専用メモリ(ROM)、プログラマブル読取専用メモリ(PROM)、消去可能なプログラマブル読取専用メモリ(EPROM)、電気的に消去可能なプログラマブル読取専用メモリ(EEPROM)、レジスタ、磁気ディスク、光ディスク、ハードドライブ、またはその他任意の適切な記憶媒体、あるいはこれらの任意の組合せを含み得る。機械可読媒体は、コンピュータプログラム製品において具現化され得る。コンピュータプログラム製品は、パッケージング材料を備え得る。
[00109]ハードウェアインプリメンテーションでは、機械可読媒体は、プロセッサとは別個の処理システムの一部であり得る。しかしながら、当業者が容易に理解するであろうように、機械可読媒体、またはその任意の部分は、処理システムの外部にあり得る。例として、機械可読媒体は、伝送路(transmission line)、データによって変調された搬送波、および/またはデバイスとは別個のコンピュータ製品を含み得、これら全ては、バスインタフェースを通じてプロセッサによってアクセスされ得る。代替として、またはこれに加えて、機械可読媒体、またはその任意の部分は、キャッシュおよび/または汎用レジスタファイルでのケースでそうであり得るように、プロセッサに組み込まれ得る。ローカルコンポーネントのような、説明された様々なコンポーネントは、特定のロケーションを有するものとして説明されているが、それらはまた、分散型コンピューティングシステムの一部として構成されているある特定のコンポーネントように、様々な方法で構成され得る。
[00110]処理システムは、プロセッサ機能を提供する1つまたは複数のマイクロプロセッサと、機械可読媒体の少なくとも一部分を提供する外部メモリとを有し、全てが外部バスアーキテクチャを通じて他のサポート回路と共にリンクされている、汎用処理システムとして構成され得る。代替として、処理システムは、ここで説明されたニューロンモデルおよびニューラルシステムのモデルをインプリメントするための1つまたは複数の神経形態学的プロセッサを備え得る。別の代替として、処理システムは、プロセッサと、バスインタフェースと、ユーザインタフェースと、サポート回路と、単一のチップに組み込まれた機械可読媒体の少なくとも一部分とを有する特定用途向け集積回路(ASIC)を用いて、または、1つまたは複数のフィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理デバイス(PLD)、コントローラ、ステートマシン、ゲート論理、個別ハードウェアコンポーネント、またはその他任意の適切な回路、あるいは本開示全体にわたって説明された様々な機能を実行することができる回路の任意の組合せを用いて、インプリメントされ得る。当業者であれば、特定のアプリケーションおよびシステム全体に課せられる全体的な設計制約に依存して、処理システムに関して説明された機能をインプリメントするのに最良の方法を認識するであろう。
[00111]機械可読媒体は、多数のソフトウェアモジュールを備え得る。これらソフトウェアモジュールは、プロセッサによって実行されると、様々な機能を処理システムに実行させる命令を含む。これらソフトウェアモジュールは、送信モジュールおよび受信モジュールを含み得る。各ソフトウェアモジュールは、単一の記憶デバイス内に存在し得るか、または複数の記憶デバイスにわたって分散され得る。例として、ソフトウェアモジュールは、トリガリングイベントが生じたときに、ハードドライブからRAMにロードされ得る。ソフトウェアモジュールの実行中、プロセッサは、アクセス速度を増大させるために、命令のうちのいくつかをキャッシュにロードし得る。その後、1つまたは複数のキャッシュラインが、プロセッサによる実行のために汎用レジスタファイルにロードされ得る。以下でソフトウェアモジュールの機能に言及する場合、そのような機能は、そのソフトウェアモジュールからの命令を実行するとき、プロセッサによってインプリメントされるということが理解されるであろう。さらに、本開示の態様が、プロセッサ、コンピュータ、機械、またはこのような態様をインプリメントする他のシステムの機能に改善をもたらすことが理解されるべきである。
[00112]ソフトウェアでインプリメントされる場合、これら機能は、コンピュータ可読媒体上で、1つまたは複数の命令またはコードとして送信または記憶され得る。コンピュータ可読媒体は、1つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体とコンピュータ記憶媒体との両方を含む。記憶媒体は、コンピュータによってアクセスされることができる任意の利用可能な媒体であり得る。限定ではなく例として、このようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMまたは他の光ディスク記憶装置、磁気ディスク記憶装置またはその他の磁気記憶デバイス、あるいは、データ構造または命令の形式で所望のプログラムコードを記憶または搬送するために使用されることができ、かつ、コンピュータによってアクセスされることができるその他任意の媒体を備えることができる。また、任意の接続は、厳密にはコンピュータ可読媒体と称される。例えば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線(IR)、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他の遠隔ソースから送信される場合には、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。ここで使用される場合、ディスク(disk)およびディスク(disc)は、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタル多目的ディスク(DVD)、フロッピー(登録商標)ディスク、およびブルーレイ(登録商標)ディスクを含み、ここでディスク(disks)は、通常磁気的にデータを再生し、一方ディスク(discs)は、レーザーを用いて光学的にデータを再生する。したがって、いくつかの態様では、コンピュータ可読媒体は、非一時的なコンピュータ可読媒体(例えば、有形媒体)を備え得る。加えて、他の態様では、コンピュータ可読媒体は、一時的なコンピュータ可読媒体(例えば、信号)を備え得る。上記の組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
[00113]したがって、ある特定の態様は、ここで提示された動作を実行するためのコンピュータプログラム製品を備え得る。例えば、このようなコンピュータプログラム製品は、その上に命令が記憶された(および/または符号化された)コンピュータ可読媒体を備え得、これら命令は、ここで説明された動作を実行するために1つまたは複数のプロセッサによって実行可能である。ある特定の態様では、コンピュータプログラム製品は、パッケージング材料を含み得る。
[00114]さらに、ここで説明された方法および技法を実行するためのモジュールおよび/または他の適切な手段は、適宜、ユーザ端末および/または基地局によって、ダウンロードされ得ること、および/または、別の方法で取得され得ることが理解されるべきである。例えば、このようなデバイスは、ここで説明された方法を実行するための手段の転送を容易にするためにサーバに結合されることができる。代替として、ここで説明された様々な方法は、ユーザ端末および/または基地局が、デバイスに記憶手段を結合または提供する際に、様々な方法を得ることができるように、記憶手段(例えば、RAM、ROM、コンパクトディスク(CD)またはフロッピーディスクのような物理記憶媒体、等)を介して提供されることができる。さらに、ここで説明された方法および技法をデバイスに提供するためのその他任意の適切な技法が、利用されることができる。
[00115]特許請求の範囲は、上記に例示された厳密な構成およびコンポーネントに限定されないことが理解されるべきである。様々な修正、変更、および変形が、特許請求の範囲から逸脱することなく、上記で説明された方法および装置の配置、動作および詳細において行われ得る。
[00115]特許請求の範囲は、上記に例示された厳密な構成およびコンポーネントに限定されないことが理解されるべきである。様々な修正、変更、および変形が、特許請求の範囲から逸脱することなく、上記で説明された方法および装置の配置、動作および詳細において行われ得る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1] トレーニングされた機械学習モデルのパフォーマンスを改善するための方法であって、
第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加すること、前記第2の目的関数は、前記第1の分類器の誤差を直接的に低減させるために使用される、
を備える方法。
[C2] 前記第1の目的関数は、微分可能である、C1に記載の方法。
[C3] 前記第2の目的関数は、微分不可能である、C1に記載の方法。
[C4] 前記第2の目的関数は、前記第1の分類器と前記第2の分類器との誤差間の差の関数である、C1に記載の方法。
[C5] より高い複雑度のモデルからの確率の混合に少なくとも部分的に基づいて、前記第2の目的関数を決定することをさらに備える、C1に記載の方法。
[C6] 前記第1の分類器を再トレーニングすることなく、前記第2の分類器を追加することをさらに備える、C1に記載の方法。
[C7] 前記第1の分類器の外部に前記第2の分類器を追加することをさらに備える、C1に記載の方法。
[C8] アイデンティティ値に、前記第1の分類器によってトレーニングされたモデルによって生成される特徴に対する重みを割り当てることをさらに備える、C1に記載の方法。
[C9] ゼロに、より高い複雑度のモデルの確率ベクトルによって生成される特徴に対する重みを割り当てることをさらに備える、C8に記載の方法。
[C10] 前記第2の分類器の確率ベクトルによって生成される特徴に対する重みを割り当てることをさらに備える、C1に記載の方法。
[C11] ゼロに、より高い複雑度のモデルの確率ベクトルによって生成される特徴に対する重みを割り当てることをさらに備える、C1に記載の方法。
[C12] 前記第2の分類器の確率ベクトルによって生成される特徴に対する重みを割り当てることをさらに備える、C11に記載の方法。
[C13] 固定された温度Tによって、より高い複雑度のモデルによって生成される確率ベクトルをスケーリングすることをさらに備える、C1に記載の方法。
[C14] トレーニングされた機械学習モデルのパフォーマンスを改善するための装置であって、
メモリと、
前記メモリに結合された少なくとも1つのプロセッサと
を備え、前記少なくとも1つのプロセッサは、
第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加すること、前記第2の目的関数は、前記第1の分類器の誤差を直接的に低減させるために使用される、
を行うように構成される、装置。
[C15] 前記第1の目的関数は、微分可能である、C14に記載の装置。
[C16] 前記第2の目的関数は、微分不可能である、C14に記載の装置。
[C17] 前記第2の目的関数は、前記第1の分類器と前記第2の分類器との誤差間の差の関数である、C14に記載の装置。
[C18] 前記少なくとも1つのプロセッサは、より高い複雑度のモデルからの確率の混合に少なくとも部分的に基づいて、前記第2の目的関数を決定するようにさらに構成される、C14に記載の装置。
[C19] 前記少なくとも1つのプロセッサは、前記第1の分類器を再トレーニングすることなく、前記第2の分類器を追加するようにさらに構成される、C14に記載の装置。
[C20] 前記少なくとも1つのプロセッサは、前記第1の分類器の外部に前記第2の分類器を追加するようにさらに構成される、C14に記載の装置。
[C21] 前記少なくとも1つのプロセッサは、アイデンティティ値に、前記第1の分類器によってトレーニングされたモデルによって生成される特徴に対する重みを割り当てるようにさらに構成される、C14に記載の装置。
[C22] 前記少なくとも1つのプロセッサは、ゼロに、より高い複雑度のモデルの確率ベクトルによって生成される特徴に対する重みを割り当てるようにさらに構成される、C21に記載の装置。
[C23] 前記少なくとも1つのプロセッサは、前記第2の分類器の確率ベクトルによって生成される特徴に対する重みを割り当てるようにさらに構成される、C14に記載の装置。
[C24] 前記少なくとも1つのプロセッサは、ゼロに、より高い複雑度のモデルの確率ベクトルによって生成される特徴に対する重みを割り当てるようにさらに構成される、C14に記載の装置。
[C25] 前記少なくとも1つのプロセッサは、前記第2の分類器の確率ベクトルによって生成される特徴に対する重みを割り当てるようにさらに構成される、C24に記載の装置。
[C26] 前記少なくとも1つのプロセッサは、固定された温度Tによって、より高い複雑度のモデルによって生成される確率ベクトルをスケーリングするようにさらに構成される、C14に記載の装置。
[C27] トレーニングされた機械学習モデルのパフォーマンスを改善するための装置であって、
第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加するための手段と、前記第2の目的関数は、前記第1の分類器の誤差を直接的に低減させるために使用される、
前記トレーニングされた機械学習モデルを介して受信される入力に少なくとも部分的に基づいて、前記第2の分類器から特徴ベクトルを出力するための手段と
を備える装置。
[C28] トレーニングされた機械学習モデルのパフォーマンスを改善するためのプログラムコードをその上に符号化された非一時的なコンピュータ可読媒体であって、前記プログラムコードは、プロセッサによって実行され、第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加するためのプログラムコードを備え、前記第2の目的関数は、前記第1の分類器の誤差を直接的に低減させるために使用される、非一時的なコンピュータ可読媒体。

Claims (28)

  1. トレーニングされた機械学習モデルのパフォーマンスを改善するための方法であって、
    第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加すること、前記第2の目的関数は、前記第1の分類器の誤差を直接的に低減させるために使用される、
    を備える方法。
  2. 前記第1の目的関数は、微分可能である、請求項1に記載の方法。
  3. 前記第2の目的関数は、微分不可能である、請求項1に記載の方法。
  4. 前記第2の目的関数は、前記第1の分類器と前記第2の分類器との誤差間の差の関数である、請求項1に記載の方法。
  5. より高い複雑度のモデルからの確率の混合に少なくとも部分的に基づいて、前記第2の目的関数を決定することをさらに備える、請求項1に記載の方法。
  6. 前記第1の分類器を再トレーニングすることなく、前記第2の分類器を追加することをさらに備える、請求項1に記載の方法。
  7. 前記第1の分類器の外部に前記第2の分類器を追加することをさらに備える、請求項1に記載の方法。
  8. アイデンティティ値に、前記第1の分類器によってトレーニングされたモデルによって生成される特徴に対する重みを割り当てることをさらに備える、請求項1に記載の方法。
  9. ゼロに、より高い複雑度のモデルの確率ベクトルによって生成される特徴に対する重みを割り当てることをさらに備える、請求項8に記載の方法。
  10. 前記第2の分類器の確率ベクトルによって生成される特徴に対する重みを割り当てることをさらに備える、請求項1に記載の方法。
  11. ゼロに、より高い複雑度のモデルの確率ベクトルによって生成される特徴に対する重みを割り当てることをさらに備える、請求項1に記載の方法。
  12. 前記第2の分類器の確率ベクトルによって生成される特徴に対する重みを割り当てることをさらに備える、請求項11に記載の方法。
  13. 固定された温度Tによって、より高い複雑度のモデルによって生成される確率ベクトルをスケーリングすることをさらに備える、請求項1に記載の方法。
  14. トレーニングされた機械学習モデルのパフォーマンスを改善するための装置であって、
    メモリと、
    前記メモリに結合された少なくとも1つのプロセッサと
    を備え、前記少なくとも1つのプロセッサは、
    第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加すること、前記第2の目的関数は、前記第1の分類器の誤差を直接的に低減させるために使用される、
    を行うように構成される、装置。
  15. 前記第1の目的関数は、微分可能である、請求項14に記載の装置。
  16. 前記第2の目的関数は、微分不可能である、請求項14に記載の装置。
  17. 前記第2の目的関数は、前記第1の分類器と前記第2の分類器との誤差間の差の関数である、請求項14に記載の装置。
  18. 前記少なくとも1つのプロセッサは、より高い複雑度のモデルからの確率の混合に少なくとも部分的に基づいて、前記第2の目的関数を決定するようにさらに構成される、請求項14に記載の装置。
  19. 前記少なくとも1つのプロセッサは、前記第1の分類器を再トレーニングすることなく、前記第2の分類器を追加するようにさらに構成される、請求項14に記載の装置。
  20. 前記少なくとも1つのプロセッサは、前記第1の分類器の外部に前記第2の分類器を追加するようにさらに構成される、請求項14に記載の装置。
  21. 前記少なくとも1つのプロセッサは、アイデンティティ値に、前記第1の分類器によってトレーニングされたモデルによって生成される特徴に対する重みを割り当てるようにさらに構成される、請求項14に記載の装置。
  22. 前記少なくとも1つのプロセッサは、ゼロに、より高い複雑度のモデルの確率ベクトルによって生成される特徴に対する重みを割り当てるようにさらに構成される、請求項21に記載の装置。
  23. 前記少なくとも1つのプロセッサは、前記第2の分類器の確率ベクトルによって生成される特徴に対する重みを割り当てるようにさらに構成される、請求項14に記載の装置。
  24. 前記少なくとも1つのプロセッサは、ゼロに、より高い複雑度のモデルの確率ベクトルによって生成される特徴に対する重みを割り当てるようにさらに構成される、請求項14に記載の装置。
  25. 前記少なくとも1つのプロセッサは、前記第2の分類器の確率ベクトルによって生成される特徴に対する重みを割り当てるようにさらに構成される、請求項24に記載の装置。
  26. 前記少なくとも1つのプロセッサは、固定された温度Tによって、より高い複雑度のモデルによって生成される確率ベクトルをスケーリングするようにさらに構成される、請求項14に記載の装置。
  27. トレーニングされた機械学習モデルのパフォーマンスを改善するための装置であって、
    第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加するための手段と、前記第2の目的関数は、前記第1の分類器の誤差を直接的に低減させるために使用される、
    前記トレーニングされた機械学習モデルを介して受信される入力に少なくとも部分的に基づいて、前記第2の分類器から特徴ベクトルを出力するための手段と
    を備える装置。
  28. トレーニングされた機械学習モデルのパフォーマンスを改善するためのプログラムコードをその上に符号化された非一時的なコンピュータ可読媒体であって、前記プログラムコードは、プロセッサによって実行され、第1の目的関数を有する第1の分類器に、第2の目的関数を有する第2の分類器を追加するためのプログラムコードを備え、前記第2の目的関数は、前記第1の分類器の誤差を直接的に低減させるために使用される、非一時的なコンピュータ可読媒体。
JP2018510504A 2015-08-25 2016-08-11 トレーニングされた機械学習モデルのパフォーマンスを改善するための方法 Active JP6862426B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562209859P 2015-08-25 2015-08-25
US62/209,859 2015-08-25
US14/863,410 2015-09-23
US14/863,410 US10332028B2 (en) 2015-08-25 2015-09-23 Method for improving performance of a trained machine learning model
PCT/US2016/046576 WO2017034820A1 (en) 2015-08-25 2016-08-11 Method for improving performance of a trained machine learning model

Publications (3)

Publication Number Publication Date
JP2018529159A true JP2018529159A (ja) 2018-10-04
JP2018529159A5 JP2018529159A5 (ja) 2019-08-29
JP6862426B2 JP6862426B2 (ja) 2021-04-21

Family

ID=58095916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018510504A Active JP6862426B2 (ja) 2015-08-25 2016-08-11 トレーニングされた機械学習モデルのパフォーマンスを改善するための方法

Country Status (6)

Country Link
US (1) US10332028B2 (ja)
EP (1) EP3341894B1 (ja)
JP (1) JP6862426B2 (ja)
KR (1) KR20180044295A (ja)
CN (1) CN108027899B (ja)
WO (1) WO2017034820A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019045944A (ja) * 2017-08-30 2019-03-22 株式会社日立製作所 機械学習装置及び機械学習方法
JP2020515922A (ja) * 2017-03-30 2020-05-28 アトムワイズ,インコーポレイテッド 分類子出力を並行して評価することによる第1の分類子の誤差の訂正
JP2022549006A (ja) * 2019-09-24 2022-11-22 グーグル エルエルシー 距離に基づく学習信頼度モデル

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016061576A1 (en) 2014-10-17 2016-04-21 Zestfinance, Inc. Api for implementing scoring functions
US20170178346A1 (en) * 2015-12-16 2017-06-22 High School Cube, Llc Neural network architecture for analyzing video data
US9805255B2 (en) * 2016-01-29 2017-10-31 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
JP6623947B2 (ja) * 2016-06-17 2019-12-25 富士通株式会社 情報処理装置、イジング装置及び情報処理装置の制御方法
JP6468254B2 (ja) * 2016-07-01 2019-02-13 富士通株式会社 情報処理装置、イジング装置及び情報処理装置の制御方法
CN109964224A (zh) 2016-09-22 2019-07-02 恩芙润斯公司 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质
US11210589B2 (en) 2016-09-28 2021-12-28 D5Ai Llc Learning coach for machine learning system
US11475310B1 (en) 2016-11-29 2022-10-18 Perceive Corporation Training network to minimize worst-case error
KR102702184B1 (ko) * 2016-12-16 2024-09-04 에스케이하이닉스 주식회사 뉴로모픽 장치의 정보 인식 장치 및 방법
US10282668B2 (en) * 2017-03-09 2019-05-07 Thomas Danaher Harvey Devices and methods to detect compliance with regulations
US11915152B2 (en) 2017-03-24 2024-02-27 D5Ai Llc Learning coach for machine learning system
US11599783B1 (en) * 2017-05-31 2023-03-07 Databricks, Inc. Function creation for database execution of deep learning model
US10346724B2 (en) * 2017-06-22 2019-07-09 Waymo Llc Rare instance classifiers
US11228379B1 (en) 2017-06-23 2022-01-18 DeepSig Inc. Radio signal processing network model search
US11804112B2 (en) 2017-07-12 2023-10-31 Mastercard Asia/Pacific Pte. Ltd. Mobile device platform for automated visual retail product recognition
CN110019658B (zh) * 2017-07-31 2023-01-20 腾讯科技(深圳)有限公司 检索项的生成方法及相关装置
US11941650B2 (en) 2017-08-02 2024-03-26 Zestfinance, Inc. Explainable machine learning financial credit approval model for protected classes of borrowers
CN111066033A (zh) * 2017-08-30 2020-04-24 谷歌有限责任公司 用于生成模糊结果的标签的机器学习方法
EP3460685A1 (en) * 2017-09-12 2019-03-27 Bricsys NV Improved semantic classification of an entity in a building information model
US11416738B1 (en) * 2017-11-21 2022-08-16 Amazon Technologies, Inc. Model reutilization with heterogeneous sensor stacks via sensor data auto-normalization
US11615129B2 (en) 2017-11-28 2023-03-28 International Business Machines Corporation Electronic message text classification framework selection
JP7179853B2 (ja) * 2017-12-12 2022-11-29 アマゾン テクノロジーズ インコーポレイテッド オンチップの計算ネットワーク
US10803379B2 (en) 2017-12-12 2020-10-13 Amazon Technologies, Inc. Multi-memory on-chip computational network
US10846621B2 (en) 2017-12-12 2020-11-24 Amazon Technologies, Inc. Fast context switching for computational networks
US11321612B2 (en) 2018-01-30 2022-05-03 D5Ai Llc Self-organizing partially ordered networks and soft-tying learned parameters, such as connection weights
TWI729352B (zh) * 2018-02-09 2021-06-01 宏達國際電子股份有限公司 卷積神經網路的調整方法及電子裝置
US10834227B2 (en) * 2018-02-13 2020-11-10 International Business Machines Corporation Conversational agent learning model service selection to address a client service request
WO2019173734A1 (en) 2018-03-09 2019-09-12 Zestfinance, Inc. Systems and methods for providing machine learning model evaluation by using decomposition
JP7108702B2 (ja) * 2018-03-22 2022-07-28 アマゾン テクノロジーズ インコーポレイテッド 複数の入力データセットのための処理
US11475306B2 (en) 2018-03-22 2022-10-18 Amazon Technologies, Inc. Processing for multiple input data sets
US20190302707A1 (en) * 2018-03-28 2019-10-03 Mitsubishi Electric Research Laboratories, Inc. Anomaly Detection in Manufacturing Systems Using Structured Neural Networks
CA3098838A1 (en) 2018-05-04 2019-11-07 Zestfinance, Inc. Systems and methods for enriching modeling tools and infrastructure with semantics
CN112106081A (zh) * 2018-05-07 2020-12-18 谷歌有限责任公司 提供综合机器学习服务的应用开发平台和软件开发套件
CN108898060A (zh) * 2018-05-30 2018-11-27 珠海亿智电子科技有限公司 车载环境下基于卷积神经网络的车型识别方法
WO2019236997A1 (en) * 2018-06-08 2019-12-12 Zestfinance, Inc. Systems and methods for decomposition of non-differentiable and differentiable models
US11625609B2 (en) 2018-06-14 2023-04-11 International Business Machines Corporation Integration of external applications into deep neural networks
US10839791B2 (en) * 2018-06-27 2020-11-17 International Business Machines Corporation Neural network-based acoustic model with softening target-layer
KR102631031B1 (ko) 2018-07-27 2024-01-29 삼성전자주식회사 반도체 장치의 불량 검출 방법
KR102170756B1 (ko) * 2018-08-01 2020-10-27 가톨릭대학교 산학협력단 이중 머신 러닝 모델을 이용한 데이터 분류 방법 및 장치
US11810010B2 (en) * 2018-08-02 2023-11-07 The Boeing Company Two tier automatic cost estimation for automatic manufacture of spare parts
CN110826721A (zh) * 2018-08-09 2020-02-21 松下电器(美国)知识产权公司 信息处理方法及信息处理系统
DE102018216298A1 (de) * 2018-09-25 2020-03-26 Robert Bosch Gmbh Verfahren und Vorrichtung zum Betreiben eines Steuerungssystems
US11568179B2 (en) * 2018-10-19 2023-01-31 Oracle International Corporation Selecting an algorithm for analyzing a data set based on the distribution of the data set
US11573962B2 (en) * 2018-10-19 2023-02-07 Oracle International Corporation Dynamic performance tuning based on implied data characteristics
CN109522949B (zh) * 2018-11-07 2021-01-26 北京交通大学 目标识别模型建立方法及装置
KR102228196B1 (ko) * 2018-11-15 2021-03-16 주식회사 에이아이트릭스 기초 메타학습장치에 대한 앙상블가중치를 결정하는 방법 및 장치
KR102692218B1 (ko) 2018-12-19 2024-08-05 에스케이하이닉스 주식회사 오류 역전파를 이용하여 지도 학습을 수행하는 뉴로모픽 시스템
KR102211604B1 (ko) 2019-02-01 2021-02-04 재단법인대구경북과학기술원 Gpu 기반의 채널 단위 딥뉴럴 네트워크 구조 검색을 사용하는 인공지능 시스템
US11816541B2 (en) 2019-02-15 2023-11-14 Zestfinance, Inc. Systems and methods for decomposition of differentiable and non-differentiable models
CA3134043A1 (en) 2019-03-18 2020-09-24 Sean Javad Kamkar Systems and methods for model fairness
US11900238B1 (en) 2019-04-25 2024-02-13 Perceive Corporation Removing nodes from machine-trained network based on introduction of probabilistic noise during training
US11531879B1 (en) 2019-04-25 2022-12-20 Perceive Corporation Iterative transfer of machine-trained network inputs from validation set to training set
US12112254B1 (en) 2019-04-25 2024-10-08 Perceive Corporation Optimizing loss function during training of network
US11610154B1 (en) 2019-04-25 2023-03-21 Perceive Corporation Preventing overfitting of hyperparameters during training of network
US11605025B2 (en) * 2019-05-14 2023-03-14 Msd International Gmbh Automated quality check and diagnosis for production model refresh
US11487902B2 (en) 2019-06-21 2022-11-01 nference, inc. Systems and methods for computing with private healthcare data
US11545242B2 (en) 2019-06-21 2023-01-03 nference, inc. Systems and methods for computing with private healthcare data
US11676034B2 (en) * 2019-06-27 2023-06-13 The Nielsen Company (Us), Llc Initialization of classification layers in neural networks
US11417087B2 (en) 2019-07-17 2022-08-16 Harris Geospatial Solutions, Inc. Image processing system including iteratively biased training model probability distribution function and related methods
US10984507B2 (en) 2019-07-17 2021-04-20 Harris Geospatial Solutions, Inc. Image processing system including training model based upon iterative blurring of geospatial images and related methods
US11068748B2 (en) 2019-07-17 2021-07-20 Harris Geospatial Solutions, Inc. Image processing system including training model based upon iteratively biased loss function and related methods
CN112308233B (zh) * 2019-08-02 2024-07-19 伊姆西Ip控股有限责任公司 用于处理数据的方法、设备和计算机程序产品
EP3786918B1 (en) 2019-08-30 2023-11-08 Zenuity AB Method and arrangement for determining a current location speed-limit in a road-vehicle
US20210073669A1 (en) * 2019-09-06 2021-03-11 American Express Travel Related Services Company Generating training data for machine-learning models
US20210073612A1 (en) * 2019-09-10 2021-03-11 Nvidia Corporation Machine-learning-based architecture search method for a neural network
JP6869589B1 (ja) * 2019-12-24 2021-05-12 株式会社エイシング 情報処理装置、方法及びプログラム
CN111114541B (zh) * 2019-12-31 2021-08-20 华为技术有限公司 车辆控制方法、装置、控制器和智能车
US11941496B2 (en) * 2020-03-19 2024-03-26 International Business Machines Corporation Providing predictions based on a prediction accuracy model using machine learning
JP2023521893A (ja) * 2020-04-15 2023-05-25 チャン ザッカーバーグ バイオハブ, インコーポレイテッド 機械学習モデルを用いた局所的祖先推論
US11593714B2 (en) * 2020-05-06 2023-02-28 Citrix Systems, Inc. Adaptive anomaly detector
US10949907B1 (en) * 2020-06-23 2021-03-16 Price Technologies Inc. Systems and methods for deep learning model based product matching using multi modal data
US11687780B2 (en) 2020-07-02 2023-06-27 Samsung Electronics Co., Ltd Method and apparatus for data efficient semantic segmentation
CN115812210A (zh) 2020-08-17 2023-03-17 西门子股份公司 用于增强机器学习分类任务的性能的方法和设备
JP7466429B2 (ja) * 2020-10-22 2024-04-12 株式会社日立製作所 計算機システム及び計画評価方法
US12112112B2 (en) * 2020-11-12 2024-10-08 Samsung Electronics Co., Ltd. Method for co-design of hardware and neural network architectures using coarse-to-fine search, two-phased block distillation and neural hardware predictor
US11720962B2 (en) 2020-11-24 2023-08-08 Zestfinance, Inc. Systems and methods for generating gradient-boosted models with improved fairness
KR102307003B1 (ko) * 2020-12-24 2021-10-01 주식회사 알고리즘랩스 프로그래밍 학습 가이드 방법 및 장치
WO2023017647A1 (ja) * 2021-08-12 2023-02-16 ソニーセミコンダクタソリューションズ株式会社 行動分析装置、行動分析方法、行動分析プログラム、撮影装置および行動分析システム
US20230132070A1 (en) 2021-10-27 2023-04-27 International Business Machines Corporation Features for black-box machine-learning models
CN114494774B (zh) * 2022-01-24 2024-09-06 腾讯科技(深圳)有限公司 一种图像分类方法、装置、电子设备及存储介质
CN117437459B (zh) * 2023-10-08 2024-03-22 昆山市第一人民医院 基于决策网络实现用户膝关节髌骨软化状态分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05290013A (ja) * 1992-04-06 1993-11-05 Sharp Corp ニューラルネットワーク演算装置
JPH09185394A (ja) * 1995-12-28 1997-07-15 Meidensha Corp 離散単語音声認識システムにおける音素認識方法
JP2011048262A (ja) * 2009-08-28 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728690B1 (en) * 1999-11-23 2004-04-27 Microsoft Corporation Classification system trainer employing maximum margin back-propagation with probabilistic outputs
EP1299783A2 (en) * 2000-06-19 2003-04-09 The Dow Chemical Company Rotating equipment diagnostic system and adaptive controller
US6778705B2 (en) * 2001-02-27 2004-08-17 Koninklijke Philips Electronics N.V. Classification of objects through model ensembles
US7103219B2 (en) * 2001-04-12 2006-09-05 Eastman Kodak Company Population mixture modeling with an indeterminate number of sub-populations
WO2005015366A2 (en) 2003-08-08 2005-02-17 Electric Power Group, Llc Real-time performance monitoring and management system
WO2005022343A2 (en) 2003-08-29 2005-03-10 Exscientia, Llc System and methods for incrementally augmenting a classifier
US7890438B2 (en) 2007-12-12 2011-02-15 Xerox Corporation Stacked generalization learning for document annotation
US20090182538A1 (en) * 2008-01-14 2009-07-16 Fujitsu Limited Multi-objective optimum design support device using mathematical process technique, its method and program
CA2715825C (en) 2008-02-20 2017-10-03 Mcmaster University Expert system for determining patient treatment response
US8315465B1 (en) 2009-01-12 2012-11-20 Google Inc. Effective feature classification in images
CA2718579C (en) 2009-10-22 2017-10-03 National Research Council Of Canada Text categorization based on co-classification learning from multilingual corpora
US8369611B2 (en) * 2010-04-22 2013-02-05 Microsoft Corporation Compact handwriting recognition
US8554701B1 (en) 2011-03-18 2013-10-08 Amazon Technologies, Inc. Determining sentiment of sentences from customer reviews
US9060685B2 (en) 2012-03-26 2015-06-23 Nec Laboratories America, Inc. Whole tissue classifier for histology biopsy slides
CN104598972A (zh) * 2015-01-22 2015-05-06 清华大学 一种大规模数据回归神经网络快速训练方法
CN104573731B (zh) * 2015-02-06 2018-03-23 厦门大学 基于卷积神经网络的快速目标检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05290013A (ja) * 1992-04-06 1993-11-05 Sharp Corp ニューラルネットワーク演算装置
JPH09185394A (ja) * 1995-12-28 1997-07-15 Meidensha Corp 離散単語音声認識システムにおける音素認識方法
JP2011048262A (ja) * 2009-08-28 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GEOFFREY HINTON ET AL.: ""Distilling the Knowledge in a Neural Network"", ARXIV.ORG [ONLINE], vol. arXiv:1503.02531, JPN6020034008, March 2015 (2015-03-01), pages 1 - 9, ISSN: 0004341800 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020515922A (ja) * 2017-03-30 2020-05-28 アトムワイズ,インコーポレイテッド 分類子出力を並行して評価することによる第1の分類子の誤差の訂正
JP7121725B2 (ja) 2017-03-30 2022-08-18 アトムワイズ,インコーポレイテッド 分類子出力を並行して評価することによる第1の分類子の誤差の訂正
US12056607B2 (en) 2017-03-30 2024-08-06 Atomwise Inc. Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel
JP2019045944A (ja) * 2017-08-30 2019-03-22 株式会社日立製作所 機械学習装置及び機械学習方法
JP2022549006A (ja) * 2019-09-24 2022-11-22 グーグル エルエルシー 距離に基づく学習信頼度モデル
JP7292506B2 (ja) 2019-09-24 2023-06-16 グーグル エルエルシー 距離に基づく学習信頼度モデル

Also Published As

Publication number Publication date
BR112018003434A2 (pt) 2018-09-25
EP3341894B1 (en) 2024-09-18
WO2017034820A1 (en) 2017-03-02
US20170061326A1 (en) 2017-03-02
CN108027899A (zh) 2018-05-11
KR20180044295A (ko) 2018-05-02
CN108027899B (zh) 2023-02-24
EP3341894A1 (en) 2018-07-04
JP6862426B2 (ja) 2021-04-21
US10332028B2 (en) 2019-06-25

Similar Documents

Publication Publication Date Title
JP6862426B2 (ja) トレーニングされた機械学習モデルのパフォーマンスを改善するための方法
JP7037478B2 (ja) 分類のための強制的なスパース性
JP6776331B2 (ja) 未知クラスの検出および未知クラスのための分類器の初期化
JP6869948B2 (ja) ニューラルネットワークにおける転移学習
US10019631B2 (en) Adapting to appearance variations when tracking a target object in video sequence
US10275719B2 (en) Hyper-parameter selection for deep convolutional networks
JP6859332B2 (ja) 選択的バックプロパゲーション
JP2018514852A (ja) 逐次画像サンプリングおよび微調整された特徴の記憶
US20160321540A1 (en) Filter specificity as training criterion for neural networks
JP2018506785A (ja) モデル圧縮および微調整
JP2018526723A (ja) 画像中のオブジェクト検出のためのコンテキストベースの事前分布
JP2018528521A (ja) メディア分類
WO2021247944A1 (en) Federated mixture models
EP3332362B1 (en) Detection of unknown classes and initialization of classifiers for unknown classes

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190719

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210331

R150 Certificate of patent or registration of utility model

Ref document number: 6862426

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250