JP6706326B2 - リカレントニューラルネットワークモデルの圧縮 - Google Patents

リカレントニューラルネットワークモデルの圧縮 Download PDF

Info

Publication number
JP6706326B2
JP6706326B2 JP2018534819A JP2018534819A JP6706326B2 JP 6706326 B2 JP6706326 B2 JP 6706326B2 JP 2018534819 A JP2018534819 A JP 2018534819A JP 2018534819 A JP2018534819 A JP 2018534819A JP 6706326 B2 JP6706326 B2 JP 6706326B2
Authority
JP
Japan
Prior art keywords
recurrent
layer
weight matrix
matrix
rnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018534819A
Other languages
English (en)
Other versions
JP2019509539A (ja
Inventor
ウアイス・アルシャリフ
ロイット・プラカシュ・プレイバワルカール
イアン・シー・マッグロー
アントニー・ジーン・ブルガイアー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2019509539A publication Critical patent/JP2019509539A/ja
Application granted granted Critical
Publication of JP6706326B2 publication Critical patent/JP6706326B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33025Recurrent artificial neural network
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40326Singular value decomposition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Description

本明細書は、ニューラルネットワークアーキテクチャおよびニューラルネットワークの圧縮に関する。
ニューラルネットワークは、非線形ユニットの1つまたは複数の層を利用して、受信された入力についての出力を予測する機械学習モデルである。一部のニューラルネットワークは、出力層に加えて1つまたは複数の隠れ層を含む。各隠れ層の出力は、ネットワークの中の次の層、すなわち、次の隠れ層または出力層への入力として使用される。ネットワークの各層は、それぞれのパラメータセットの現在の値に従って、受信された入力から出力を生成する。一部のニューラルネットワーク、たとえば、時系列問題またはシーケンスツーシーケンス学習(リカレントニューラルネットワーク(recurrent neural network: RNN))について設計されているものは、リカレントループを組み込んでおり、このリカレントループにより、可変の隠れ状態の形態にあるメモリは、データ入力間の層内に持続することが可能になる。RNNの変形形態、長短期メモリ(long short-term memory: LSTM)ニューラルネットワークは、データ入力間のデータの持続性を制御するために、各層内に複数のゲートを含んでいる。一部のニューラルネットワーク、たとえば、時系列問題またはシーケンスツーシーケンス学習について設計されているものは、リカレントループを組み込んでおり、このリカレントループにより、可変の隠れ状態の形態にあるメモリは、データ入力間の層内に持続することが可能になる。
H. SAK、A. SENIOR、およびF. BEAUFAYS、「LONG SHORT-TERM MEMORY RECURRENT NEURAL NETWORK ARCHITECTURES FOR LARGE SCALE ACOUSTIC MODELING」、PROC. OF INTERSPEECH、2014、PP. 338〜342
本明細書は、リカレントニューラルネットワークアーキテクチャに関する技術について説明する。概して、リカレントニューラルネットワークは、圧縮される少なくとも1つのリカレントニューラルネットワーク層を含む。具体的には、圧縮リカレント層についてのリカレント重み行列と層間重み行列とが、共通の射影行列を用いて一緒に圧縮される。
1つまたは複数のコンピュータのシステムが特定の動作または行為を行うように構成されているということは、システムがその上に、動作に際してシステムに動作または行為を行わせるソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せをインストールしていることを意味する。1つまたは複数のコンピュータプログラムが特定の動作または行為を行うように構成されているということは、1つまたは複数のプログラムが、データ処理装置によって実行されたときに装置に動作または行為を行わせる命令を含んでいることを意味する。
本明細書において説明される主題は、次の利点のうちの1つまたは複数を実現するために特定の諸実施形態において実装され得る。リカレントニューラルネットワークの中のリカレント層のうちの1つまたは複数の重み行列を圧縮することによって、リカレントニューラルネットワークは、より効率的にデータを処理し、より少ないデータストレージを使用することができるように構成されている。具体的には、1つまたは複数の圧縮リカレント層を有するリカレントニューラルネットワークは、圧縮リカレント層の圧縮重み行列が未圧縮リカレントニューラルネットワークの中の対応する層の重み行列よりも少ないパラメータを有することにより、より少ないデータストレージを使用し、より高速に入力を処理することができると同時に、フルサイズの、たとえば未圧縮リカレントニューラルネットワークに匹敵する性能を達成するように効果的に訓練され得る。実際、圧縮リカレントニューラルネットワークは計算フットプリントがより小さいので、未圧縮ネットワークがモバイルデバイスにおいて動作することができない場合ですら、圧縮ネットワークは、限定されたストレージおよび処理パワーを有するモバイルデバイスにおいてリアルタイムに入力を処理するように効果的に実装でき得る。
本明細書の主題の1つまたは複数の実施形態の詳細については、添付の図面および下記の説明に記載される。主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。
一例示的なニューラルネットワークシステムを示す図である。 リカレントニューラルネットワークを圧縮するための一例示的な方法の流れ図である。 特定のリカレント層についての層間重み行列とリカレント重み行列とを圧縮するための一例示的な方法の流れ図である。
様々な図面の中の同様の参照番号および表示は、同様の要素を示す。
図1は、例示的なニューラルネットワークシステム100を示している。ニューラルネットワークシステム100は、1つまたは複数の場所の中の1つまたは複数のコンピュータ上のコンピュータプログラムとして実装されるシステムの一例であり、ここで、後述のシステム、構成要素、および技法が実装される。
ニューラルネットワークシステム100は、複数の時間ステップの時間ステップごとにそれぞれのニューラルネットワーク入力を受信し時間ステップごとにそれぞれのニューラルネットワーク出力を生成する機械学習システムである。つまり、複数の時間ステップの時間ステップごとに、ニューラルネットワークシステム100は、ニューラルネットワーク入力を受信し、ニューラルネットワーク入力を処理して、ニューラルネットワーク出力を生成する。たとえば、所与の時間ステップtにおいて、ニューラルネットワークシステム100は、ニューラルネットワーク入力102を受信し、ニューラルネットワーク出力142を生成することができる。
ニューラルネットワークシステム100は、生成されたニューラルネットワーク出力を出力データレポジトリに記憶すること、または他の何らかの当座の目的に使用するためにニューラルネットワーク出力を提供することができる。
ニューラルネットワークシステム100は、任意の種類のデジタルデータ入力を受信し、その入力に基づいて、任意の種類のスコアまたは分類出力を生成するように構成され得る。
たとえば、ニューラルネットワークシステム100への入力が、画像、または画像から抽出されたフィーチャである場合、所与の画像についてニューラルネットワークシステム100によって生成される出力は、1組のオブジェクトカテゴリそれぞれについてのスコアとすることができ、各スコアは、画像がカテゴリに属するオブジェクトの画像を含んでいることの推定尤度(estimated likelihood)を表す。
別の例として、ニューラルネットワークシステム100への入力が、Internetリソース(たとえば、ウェブページ)、ドキュメント、またはドキュメントの一部分、あるいはInternetリソース、ドキュメント、またはドキュメントの一部分から抽出されるフィーチャである場合、所与のInternetリソース、ドキュメント、またはドキュメントの一部分についてニューラルネットワークシステム100によって生成される出力は、1組のトピックそれぞれについてのスコアとすることができ、各スコアは、Internetリソース、ドキュメント、またはドキュメント部分がトピックに関することの推定尤度を表す。
別の例として、ニューラルネットワークシステム100への入力が、ユーザについての個人向け推薦のフィーチャ、たとえば、推薦についてコンテキストを特徴付けるフィーチャ、たとえば、ユーザがとった以前の行為を特徴付けるフィーチャである場合、ニューラルネットワークシステム100によって生成される出力は、1組のコンテンツ品目それぞれについてのスコアとすることができ、各スコアは、ユーザがコンテンツ品目の推薦を受けることに好意的に応答することになることの推定尤度を表す。これらの例のうちのいくつかにおいては、ニューラルネットワークシステム100は、ユーザにコンテンツ推薦を行う強化学習システムの一部である。
別の例として、ニューラルネットワークシステム100への入力が、1つの言語におけるテキストである場合、ニューラルネットワークシステム100によって生成される出力は、別の言語における1組のテキスト片それぞれについてのスコアとすることができ、各スコアは、他の言語におけるテキスト片が入力テキストの他の言語への適切な変換であることの推定尤度を表す。
別の例として、ニューラルネットワークシステム100への入力が、音声発話のフィーチャである場合、ニューラルネットワークシステム100によって生成される出力は、1組のテキスト片それぞれについてのスコアとすることができ、各スコアは、テキスト片が、発話についての正確な転写であることの推定尤度を表す。
別の例として、ニューラルネットワークシステム100への入力が、画像である場合、ニューラルネットワークシステム100によって生成される出力は、1組のテキスト片それぞれについてのスコアとすることができ、各スコアは、テキスト片が入力画像の中に存在するテキストであることの推定尤度を表す。
具体的には、ニューラルネットワークシステム100は、リカレントニューラルネットワーク110を含み、このリカレントニューラルネットワーク110は、ひいては、複数のリカレント層、すなわち、少なくとも1つの圧縮リカレント層l 120とリカレント層l+1 130とを含む。リカレントニューラルネットワーク110は、時間ステップごとに、時間ステップにおいてニューラルネットワーク入力を受信し、ニューラルネットワーク入力を処理して、時間ステップにおいてニューラルネットワーク出力を生成するように構成されている。
圧縮リカレント層120およびリカレント層130に加えて、リカレントニューラルネットワーク110は、1つまたは複数の他の構成要素、たとえば他のリカレント層、およびリカレントでない他のニューラルネットワーク層などを含んでもよい。
たとえば、リカレントニューラルネットワーク110は、互いに順番にスタックするように構成された圧縮リカレント層120およびリカレント層130を含む複数のリカレント層と、時間ステップごとに、スタックの中の最高位のリカレント層から、任意選択的に、スタックの中の他のリカレント層から層出力を受信し、層出力を処理して、時間ステップにおいてニューラルネットワーク出力142を生成する出力層とを含むディープリカレントネットワークとすることができる。
圧縮リカレント層120は、時間ステップごとに、現在の層入力(current layer input)122を受信し、現在の層入力122、リカレント層120の現在の層状態、およびリカレント層120の現在の層出力を処理して新規層出力126を生成し、現在の層状態を更新して新規層状態124を生成するように構成されている。
リカレントニューラルネットワーク110の構成によっては、現在の層入力122は、ニューラルネットワーク入力102であっても、またはリカレントニューラルネットワーク110の異なる構成要素によって生成される出力であってもよい。
加えて、第1のステップ後の各時間ステップの場合、現在の層状態は、先行する時間ステップにおいて生成される新規層状態である。第1の時間ステップの場合、現在の層状態は、所定の初期層状態とすることができる。
リカレント層130は、時間ステップごとに、新規層出力126を受信し、新規層出力126、およびリカレント層130の現在の層状態を処理して新規層出力136を生成し、現在の層状態を更新して新規層状態134を生成するように構成されている。
リカレントニューラルネットワーク110の構成によっては、新規層出力126は、リカレントニューラルネットワーク110の中の別のリカレント層への入力として、または異なるタイプのニューラルネットワーク構成要素、たとえば出力層への、もしくは異なるタイプのニューラルネットワーク層への入力として提供されることも、あるいはリカレントニューラルネットワーク110のニューラルネットワーク出力142として提供されることもある。
リカレントニューラルネットワーク110の中の各リカレント層は、2つの対応する重み行列、すなわち、リカレント重み行列および層間重み行列を有する。概して、所与の時間ステップにおける処理中、所与のリカレント層についてのリカレント重み行列は、先行する時間ステップにおいてリカレント層によって生成される層出力に適用され、層間重み行列は、所与の時間ステップにおいてリカレント層によって生成される層出力に適用される。したがって、所与のリカレント層についてのリカレント重み行列は、概して、所与のリカレント層によって適用されることになり、層間重み行列は、概して、時間ステップにおいて所与のリカレント層によって生成される層出力を受信する次の層、たとえば、スタックの中の所与の層の上の次の層によって適用されることになる。
いくつかの実装形態においては、リカレントニューラルネットワーク110は、標準リカレントニューラルネットワークであり、そのため、各リカレント層の状態もまた、リカレント層の層出力として使用される。つまり、所与の時間ステップについての層の更新された状態もまた、その所与の時間ステップの層についての層出力として使用される。したがって、新規層出力136は、新規層状態134と同じであり、新規層出力126は、新規層状態124と同じである。
これらの実装形態においては、圧縮リカレント層120またはリカレント層130のいずれも圧縮されていないのであれば、圧縮リカレント層120は、時間ステップtにおいて、次を満たす層出力
Figure 0006706326
126(および新規層状態124)を生成するように構成されていることになる:
Figure 0006706326
ただし、
Figure 0006706326
は、リカレントニューラルネットワーク110の中の層120の前の層についての層間重み行列であり、
Figure 0006706326
は、層120の前の層の層出力であり、
Figure 0006706326
は、リカレント層120の未圧縮バージョンについてのリカレント重み行列であり、
Figure 0006706326
は、現在の層状態(および先行する時間ステップからの層出力)であり、blは、層120についてのバイアスベクトルであり、σ(・)は、非線形活性化関数を示す。
リカレント層130は、時間ステップtにおいて、次を満たす層出力
Figure 0006706326
136(および新規層状態134)を生成するように構成されていることになる:
Figure 0006706326
ただし、
Figure 0006706326
は、層120の未圧縮バージョンについての層間重み行列であり、
Figure 0006706326
は、リカレント層120の層出力126であり、
Figure 0006706326
は、リカレント層130についてのリカレント重み行列であり、
Figure 0006706326
は、リカレント層130についての現在の層状態(および先行する時間ステップからの層出力)であり、bl+1は、リカレント層130についてのバイアスベクトルであり、σ(・)は、非線形活性化関数を示す。
しかしながら、少なくとも圧縮リカレント層120は圧縮されているので、圧縮リカレント層120についての層間重み行列およびリカレント重み行列は、修正されている。
具体的には、圧縮リカレント層は、リカレント行列および層間行列がそれぞれ、それぞれのより低いランクの近似値に置き換えられているリカレント層である。つまり、圧縮リカレント層についてのリカレント重み行列は、リカレント重み行列よりも低いランクを有する行列に置き換えられており、層間重み行列は、層間重み行列よりも低いランクを有する行列に置き換えられている。その際、リカレント重み行列および層間重み行列におけるパラメータの数は、削減されている。
具体的には、本明細書において説明される圧縮スキームを用いて、圧縮リカレント層120は、圧縮リカレント層120のリカレント重み行列
Figure 0006706326
および層間重み行列
Figure 0006706326
をそれぞれの第1のおよび第2の圧縮重み行列
Figure 0006706326
および
Figure 0006706326
、ならびに対応する射影行列Plに置き換えることによって圧縮されている。特に、リカレント重み行列
Figure 0006706326
と、層間重み行列
Figure 0006706326
とは、射影行列を決定することによって一緒に圧縮され、それにより、
Figure 0006706326
は、
Figure 0006706326
によって定義され、
Figure 0006706326
は、
Figure 0006706326
によって定義される。第1のおよび第2の圧縮重み行列ならびに射影行列はそれぞれ、層間重み行列およびリカレント重み行列のランクよりも低いランクを有する。リカレント層を圧縮してパラメータの数を削減し、高性能を維持するための技法については、図3を参照してより詳細に後述する。
したがって、圧縮後、リカレントニューラルネットワーク110が標準リカレントニューラルネットワークである場合には、圧縮リカレント層120によって生成される層出力は、
Figure 0006706326
を満たし、リカレント層130によって生成される層出力は、
Figure 0006706326
を満たす。
いくつかの他の実装形態においては、リカレントニューラルネットワーク110の中のリカレント層は、長短期メモリ(LSTM)層であり、所与のLSTM層の状態とLSTM層の層出力は、異なる。層出力を生成するために、所与のLSTM層が複数のゲートを現在の層入力および現在の層状態に適用して新規層出力を生成し、現在の層状態を更新して新規層状態を生成する。したがって、層出力生成の一部として、LSTMは、概して、現在の層入力と現在の層状態との両方に複数の異なる重み行列を適用することになる。LSTM層の演算については、H. Sak、A. Senior、およびF. Beaufays、「Long short-term memory recurrent neural network architectures for large scale acoustic modeling」、Proc. of Interspeech、2014、pp. 338〜342において、より詳細に記載されている。
リカレント層がLSTM層である場合、所与のLSTM層についてのリカレント重み行列は、所与のLSTM層が現在の層状態に適用する重み行列の垂直連結(vertical concatenation)であると見なすことができる。所与のLSTM層についての層間重み行列は、次のLSTM層が所与のLSTM層によって生成される層出力に適用する重み行列の垂直連結であると見なすことができる。
図1の例においては、圧縮リカレント層120しか圧縮されていないが、いくつかの場合においては、リカレントニューラルネットワーク110の中の複数のリカレント層またはさらにはリカレント層のすべてがそれぞれ、図3を参照して後述するように圧縮され得る。
いくつかの実装形態においては、リカレント重み行列と層間重み行列とを一緒に圧縮して、射影行列が、本明細書に説明するようにリカレント重み行列および層間重み行列にわたって共有されると、重み行列のより効率的なパラメータ化が可能になり得る。リカレントニューラルネットワーク110が音声認識モデルであるいくつかの実装形態においては、上述の技法は、少なくとも68%がリカレントニューラルネットワーク110を圧縮するために使用され、未圧縮モデルの5%内のワード誤り率を達成し得る。
図2は、リカレントニューラルネットワークを圧縮するための一例示的な方法200の流れ図である。便宜上、方法200については、1つまたは複数の場所に置かれている1つまたは複数のコンピュータのシステムによって行われるように説明する。たとえば、ニューラルネットワークシステム、たとえば、本明細書に従って適切にプログラミングされた図1のニューラルネットワークシステム100は、方法200を行うことができる。
システムは、訓練データに関して未圧縮リカレントニューラルネットワークを訓練して(ステップ202)、未圧縮リカレントニューラルネットワークの層の重み行列におけるパラメータの訓練値を決定する。たとえば、システムは、図1のリカレントニューラルネットワーク110を、ネットワークの中のリカレント層がいずれも圧縮されないうちに訓練することができる。システムは、従来のリカレントニューラルネットワーク訓練技法、たとえば、経時的バックプロパゲーション(backpropagation)による確率的勾配降下法を用いて、未圧縮リカレントニューラルネットワークを訓練することができる。
システムは、リカレントニューラルネットワークの中のリカレント層のうちの1つまたは複数を圧縮する(ステップ204)。具体的には、圧縮すべきリカレント層ごとに、システムは、第1の圧縮重み行列
Figure 0006706326
および射影行列Plを生成し、それにより、第1の圧縮重み行列と射影行列との積は、リカレント層のリカレント重み行列
Figure 0006706326
を近似し、第2の圧縮重み行列
Figure 0006706326
を第1の圧縮重み行列
Figure 0006706326
および射影行列Plに基づいて生成し、それにより、第2の圧縮重み行列と射影行列との積は、リカレント層の層間重み行列を近似する。特定のリカレント層の圧縮については、図3を参照してより詳細に後述する。所与の層の圧縮は、層のリカレント重み行列および層間重み行列にのみ依存しており、すなわち、他のいずれの層の行列にも依存していないので、システムは、リカレントニューラルネットワークの中の単一のリカレント層、複数のリカレント層、またはリカレント層のすべてを圧縮することができる。
システムは、圧縮重み行列を用いてリカレントニューラルネットワークを再構成する(ステップ206)。つまり、圧縮されたリカレント層ごとに、システムは、層についてのリカレント重み行列を第1の圧縮重み行列と射影行列との積に、ならびに層についての層間重み行列を第2の圧縮重み行列と射影行列との積に置き換える。第1の圧縮重み行列と射影行列との積は、リカレント重み行列よりも低いランクであり、第2の圧縮重み行列と射影行列との積は、層の層間重み行列よりも低いランクであるので、行列は、未圧縮ニューラルネットワークの中のそれらの対応する行列よりも少ないパラメータを含む。
任意選択的には、リカレントニューラルネットワークを再構成した後、システムは、追加の訓練データに関して再構成されたニューラルネットワークを訓練することによって圧縮ニューラルネットワークの性能を微調整して、射影行列および圧縮重み行列のランクを維持する、すなわち、射影行列および圧縮重み行列のランクを強制的に上げずに、パラメータの訓練値をさらに調節することができる。
システムは、ニューラルネットワーク入力を処理するのに効果的に使用され得る訓練されたニューラルネットワーク、すなわち、訓練されたリカレントニューラルネットワークをインスタンス化する際に使用するために再構成されたニューラルネットワークの重み行列を記憶する(ステップ208)。いくつかの場合においては、重み行列の記憶に加えて、またはその代わりに、システムは、訓練されたリカレントニューラルネットワークを実装する際に使用するために、重み行列と、ニューラルネットワークの構成を定義する他のデータとを別のシステムに送信することができる。たとえば、システムは、構成データをモバイルデバイスに送信して、圧縮リカレントニューラルネットワークをモバイルデバイスにおいて実装することを可能にし得る。
図3は、特定のリカレント層についての層間重み行列とリカレント重み行列とを圧縮するための一例示的な方法300の流れ図である。便宜上、方法300については、1つまたは複数の場所に置かれている1つまたは複数のコンピュータのシステムによって行われるように説明する。たとえば、ニューラルネットワークシステム、たとえば、本明細書に従って適切にプログラミングされた図1のニューラルネットワークシステム100は、方法300を行うことができる。
システムは、特定のリカレント層についてのリカレント重み行列Whの特異値分解(singular value decomposition: SVD)を決定する(ステップ302)。リカレント重み行列の特異値分解は、行列Whの、第1のユニタリ行列U、矩形対角行列Σ、および第2のユニタリ行列Vへの分解である。具体的には、SVDは、
Wh=UΣVT
を満たす。
システムは、知られているSVD分解技法を用いて、リカレント重み行列のSVDを決定することができる。たとえば、システムは、まず、リカレント重み行列を二重対角行列に縮小し、次いで、反復法、たとえば、QRアルゴリズムの変形形態を用いて、二重対角行列のSVDを計算することができる。
システムは、SVDを切り詰めて、第1の圧縮重み行列
Figure 0006706326
および射影行列Plを生成する(ステップ304)。具体的には、システムは、(i)矩形対角行列Σにトップ、すなわち最高のl値を保ち、残りの値をゼロに設定すること、(ii)各特異ベクトル、すなわち、第1のユニタリ行列Uの列にトップl値を保ち、残りの値をゼロに設定すること、および(iii)各特異ベクトル、すなわち、第2のユニタリ行列Vの列にトップl値を保ち、残りの値をゼロに設定することによって、SVDを切り詰める。
概して、lは、重み行列の次元よりも小さい、リカレント層に適用される圧縮の程度を制御するように構成されている値である。つまり、lの値が小さければ小さいほど、適用される圧縮の程度は高くなる。
いくつかの実装形態においては、lは、所定の値である。
いくつかの他の実装形態においては、システムは、lを決定し、それにより、切り詰められたSVDは、最大でもSVD演算における被説明分散の所定の閾値比τを保つ。具体的には、システムは、lを(i)矩形対角行列Σにおけるトップ、すなわち、最高のl値の2乗の和と、(ii)矩形対角行列Σにおける値すべての2乗の和との比率が、τ未満でありながらも、最も大きい値であるように設定することができる。
これらの実装形態においては、システムが、リカレントニューラルネットワーク内の複数のリカレント層を圧縮している場合、値lは、可能性として複数の層間で異なることになり、すなわち、異なるlは、異なる行列のSVDについて上記の基準を満たすことになるからである。
一旦、システムがSVDを切り詰めて、切り詰められた第1のユニタリ行列
Figure 0006706326
、切り詰められた矩形対角行列
Figure 0006706326
、および切り詰められた第2のユニタリ行列
Figure 0006706326
を生成すると、システムは、第1の圧縮重み行列
Figure 0006706326
Figure 0006706326
と設定し、射影行列Pl
Figure 0006706326
と設定することができる。
システムは、第2の圧縮重み行列
Figure 0006706326
を第1の圧縮重み行列
Figure 0006706326
および射影行列Plから決定する(ステップ306)。具体的には、システムは、次の最小2乗問題:
Figure 0006706326
を解くことによって第2の圧縮重み行列を決定し、ただし、||X||Fは、行列Xのフロベニウスノルムを示す。
本明細書において説明される主題および機能動作の諸実施形態は、本明細書に開示されている構造体およびそれらの構造的均等物を含む、デジタル電子回路において、有形具現化コンピュータソフトウェアまたはファームウェアにおいて、コンピュータハードウェアにおいて、あるいはそれらのうちの1つまたは複数の組合せにおいて実装され得る。本明細書において説明される主題の諸実施形態は、1つまたは複数のコンピュータプログラム、すなわち、データ処理装置によって実行される、またはデータ処理装置の動作を制御する、有形の非一時的プログラムキャリアにおいて符号化されるコンピュータプログラム命令の1つまたは複数のモジュールとして実装され得る。代替として、または加えて、プログラム命令は、データ処理装置によって実行されるのに適切な受信装置に送信される情報を符号化するために生成される人工的に生成された伝搬信号、たとえば、機械生成の電気、光学、または電磁信号において符号化され得る。コンピュータストレージ媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらのうちの1つもしくは複数の組合せとすることができる。
「データ処理装置(data processing apparatus)」という用語は、データ処理ハードウェアを示し、例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての種類の装置、デバイス、および機械を包含する。装置はまた、専用論理回路機構、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)とすることも、またはこれをさらに含むこともできる。装置は、任意選択的に、ハードウェアに加えて、コンピュータプログラムについての実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つもしくは複数の組合せを構成するコードを含むことができる。
(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、もしくはコードとも呼ばれ、または記載されることもある)コンピュータプログラムは、コンパイル型もしくは解釈型言語、または宣言型もしくは手続き型言語を含むプログラミング言語の任意の形態で記述され得、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境における使用に適している他のユニットを含む任意の形態で配置され得る。コンピュータプログラムは、ファイルシステムの中のファイルに対応することができるが、対応する必要はない。プログラムは、他のプログラムまたはデータ、たとえばマークアップ言語ドキュメントに記憶されている1つまたは複数のスクリプトを保持するファイルの一部分の中に、問題のプログラムに専用の単一のファイルの中に、あるいは複数の協調ファイル、たとえば、1つまたは複数のモジュール、サブプログラム、またはコードの一部分を記憶するファイルの中に記憶され得る。コンピュータプログラムは、1つのコンピュータあるいは、1つのサイトに置かれている、または複数のサイトにわたって分散され、通信ネットワークによって相互接続されている複数のコンピュータにおいて実行されるように配置され得る。
本明細書において説明される方法および論理流れ図は、1つまたは複数のコンピュータプログラムを実行して、入力データを操作し、出力を生成することによって機能を果たす1つまたは複数のプログラマブルコンピュータによって行われ得る。方法および論理流れ図はまた、専用論理回路機構、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって行われることも、あるいは装置がまた、この専用論理回路機構として実装されることもある。
コンピュータプログラムの実行に適しているコンピュータは、例として、汎用もしくは専用のマイクロプロセッサ、またはその両方、あるいは他の任意の種類の中央処理装置に基づき得る。概して、中央処理装置は、読取り専用メモリもしくはランダムアクセスメモリ、またはその両方から命令およびデータを受信することになる。コンピュータの必須要素は、命令を行う、または実行するための中央処理装置、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。概して、コンピュータはまた、データを記憶するための1つまたは複数のマスストレージデバイス、たとえば、磁気、磁気光学ディスク、または光学ディスクを含み、あるいはこれらの間でデータを送信もしくは受信する、またはその両方を行うために、これらに動作可能に結合されることになる。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。その上、コンピュータは、別のデバイス、たとえば、いくつか例を挙げると、モバイル電話、パーソナルデジタルアシスタント(personal digital assistant: PDA)、モバイルオーディオまたはビデオプレイヤ、ゲームコンソール、全地球測位システム(Global Positioning System: GPS)受信機、またはポータブルストレージデバイス、たとえば、ユニバーサルシリアルバス(universal serial bus: USB)フラッシュドライブに埋込み可能である。
コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体はすべて、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリ デバイス;磁気ディスク、たとえば内部ハードディスクもしくはリムーバブルディスク;磁気光学ディスク;ならびにCD-ROMおよびDVD-ROMディスクを含む、不揮発性メモリ、媒体、およびメモリデバイスの形態を含む。プロセッサおよびメモリは、専用論理回路機構によって補足可能、またはその専用論理回路機構の中に組込み可能である。
ユーザとの対話を可能にするために、本明細書において説明されている主題の諸実施形態は、情報をユーザに表示するためのディスプレイデバイス、たとえば、CRT(ブラウン管(cathode ray tube))またはLCD(液晶ディスプレイ(liquid crystal display))モニタ、およびユーザが入力をコンピュータに与えることができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有するコンピュータにおいて実装され得る。他の種類のデバイスが、同様にユーザとの対話を可能にするために使用されてもよく、たとえば、ユーザに提供されるフィードバックは、感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックの任意の形態であってよく、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形態で受け取ることができる。加えて、コンピュータは、ユーザが使用するデバイスとドキュメントを送受信することによって、たとえば、ウェブブラウザから受信した要求に応答して、ユーザのクライアントデバイスにおけるウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
本明細書において説明される主題の諸実施形態は、バックエンド構成要素を、たとえばデータサーバとして含む、またはミドルウェア構成要素、たとえばアプリケーションサーバを含む、またはフロントエンド構成要素、たとえばグラフィカルユーザインターフェースもしくはユーザが本明細書において説明される主題の一実装形態と対話することができるウェブブラウザを有するクライアントコンピュータを含むコンピューティングシステム、あるいは1つまたは複数のそのようなバックエンド、ミドルウェア、もしくはフロントエンド構成要素の任意の組合せにおいて実装され得る。システムの構成要素は、デジタルデータ通信、たとえば、通信ネットワークの任意の形態または媒体によって相互接続され得る。通信ネットワークの例には、ローカルエリアネットワーク(「LAN」)および広域ネットワーク(「WAN」)、たとえばInternetが含まれる。
コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、概して、互いにリモートであり、典型的には、通信ネットワークを介して対話する。クライアントとサーバとの関係性は、それぞれのコンピュータにおいて動作し、互いにクライアント/サーバ関係性を有するコンピュータプログラムにより生まれる。
本明細書は、多くの具体的な実装形態詳細を含んでいるが、これらは、いかなる発明の範囲についてもまたは特許請求され得る範囲についても限定と見なすべきでなく、特定の発明の特定の実施形態に固有であり得る特徴の説明と見なすべきである。別個の実施形態の文脈で本明細書において説明されている特定の特徴はまた、単一の実施形態における組合せで実装されてもよい。逆に、単一の実施形態の文脈で説明されている様々な特徴もまた、複数の実施形態において別個に、または任意の適切な副組合せで実装されてもよい。その上、特徴については、ある種の組合せにおける行為として上述され、したがって最初に特許請求され得るが、特許請求された組合せからの1つまたは複数の特徴は、いくつかの場合においては、組合せから削除され得、特許請求された組合せは、副組合せまたは副組合せの変形形態を対象とすることができる。
同様に、動作は、図面においては特定の順序で示されているが、これは、所望の結果を達成するために、そのような動作が図示の特定の順序もしくは連続的な順序で行われる必要がある、または例示の動作がすべて行われる必要があると理解すべきではない。特定の状況においては、マルチタスクの並列処理が有利である場合もある。その上、上述の諸実施形態における様々なシステムモジュールおよび構成要素の分離は、すべての実施形態においてそのような分離が必要であると理解すべきではなく、所望のプログラムコンポーネントおよびシステムが、概して、単一のソフトウェア製品に一緒に一体化され、または複数のソフトウェア製品にパッケージ化され得ることを理解すべきである。
主題の具体的な実施形態について説明してきた。他の実施形態は、次の特許請求の範囲の範囲内にある。たとえば、特許請求の範囲に列挙された行為は、異なる順序で行うことができ、依然として所望の結果を達成することができる。1つの例として、添付の図に示されている方法には、所望の結果を達成するために、必ずしも、図示の特定の順序または連続的な順序が必要なわけではない。特定の実装形態においては、マルチタスクの並列処理が有利な場合もある。
100 ニューラルネットワークシステム
102 ニューラルネットワーク入力
110 リカレントニューラルネットワーク
120 圧縮リカレント層
122 現在の層入力
124 新規層状態
126 新規層出力
130 リカレント層
134 新規層状態
136 新規層出力
142 ニューラルネットワーク出力
200 方法
300 方法

Claims (20)

1つまたは複数のコンピュータによって実装される圧縮リカレントニューラルネットワーク(RNN)を含むシステムであって、
前記圧縮RNNが、複数のリカレント層を含み、
前記圧縮RNNの前記複数のリカレント層がそれぞれ、複数の時間ステップの時間ステップごとに、前記時間ステップについてのそれぞれの層入力を受信し、前記時間ステップについての前記層入力を処理して、前記時間ステップについてのそれぞれの層出力を生成するように構成され、
前記複数のリカレント層のそれぞれが、それぞれのリカレント重み行列Wh、およびそれぞれの層間重み行列Wxを有し、
前記複数のリカレント層のうちの少なくとも1つが圧縮され、それにより、前記圧縮された層のそれぞれのリカレント重み行列
Figure 0006706326
が、第1の圧縮重み行列
Figure 0006706326
および射影行列Plによって定義され、前記圧縮された層のそれぞれの層間重み行列
Figure 0006706326
が、第2の圧縮重み行列
Figure 0006706326
および前記射影行列Plによって定義される、
システム。
前記複数のリカレント層がそれぞれ、時間ステップごとに、
現在の層入力に、前の層についての層間重み行列を適用し、
カレント入力に、前記リカレント重み行列を適用する
ことによって、前記時間ステップについての前記それぞれの層出力を生成する
ように構成されている、請求項1に記載のシステム。
圧縮される前記複数のリカレント層のうちの前記少なくとも1つが、時間ステップごとに、
れぞれのリカレント入力に、前記第1の圧縮重み行列および前記射影行列を適用することによって、部分的に、前記時間ステップについての前記それぞれの層出力を生成する
ように構成されている、請求項1または2に記載のシステム。
前記それぞれのリカレント重み行列が、前記第1の圧縮重み行列と前記射影行列との積によって定義され、
前記それぞれの層間重み行列が、前記第2の圧縮重み行列と前記射影行列との積によって定義される、請求項1から3のいずれか一項に記載のシステム。
前記圧縮RNNが、音響モデルである、請求項1から4のいずれか一項に記載のシステム。
前記圧縮RNNが、音声認識モデルである、請求項1から4のいずれか一項に記載のシステム。
前記圧縮RNNが、前記圧縮RNNの未圧縮バージョンの少なくとも68%圧縮である、請求項1から6のいずれか一項に記載のシステム。
前記圧縮RNNのワード誤り率が、前記圧縮RNNの未圧縮バージョンのワード誤り率の5%内である、請求項7に記載のシステム。
1つまたは複数のコンピュータによって実行されるリカレントニューラルネットワーク(RNN)を圧縮するための方法であって、
前記RNNが、前記1つまたは複数のコンピュータによって実装され、複数のリカレント層を含み、
前記RNNの前記複数のリカレント層がそれぞれ、複数の時間ステップの時間ステップごとに、前記時間ステップについてのそれぞれの層入力を受信し、前記層入力を処理して、前記時間ステップについてのそれぞれの層出力を生成するように構成され、
各リカレント層が、それぞれのリカレント重み行列Wh、およびそれぞれの層間重み行列Wxを有し、
前記方法が、前記複数のリカレント層のうちの1つについて、
第1の圧縮重み行列
Figure 0006706326
および射影行列Plを生成するステップであって、前記第1の圧縮重み行列と前記射影行列との積が、前記複数のリカレント層のうちの1つの前記リカレント重み行列を近似する、ステップと、
第2の圧縮重み行列
Figure 0006706326
を前記第1の圧縮重み行列
Figure 0006706326
および前記射影行列Plに基づいて生成するステップであって、前記第2の圧縮重み行列と前記射影行列との積が、前記複数のリカレント層のうちの1つの前記層間重み行列を近似する、ステップと
を含み、前記第2の圧縮重み行列
Figure 0006706326
を生成するステップが、
前記第1の圧縮重み行列を、切り詰められた第1のユニタリ行列および切り詰められた矩形対角行列によって定義される行列に設定するステップ、および
前記射影行列を切り詰められた第2のユニタリ行列の転置行列に設定するステップを含む、方法。
前記複数のリカレント層のうちの1つについて、
前記それぞれのリカレント重み行列を前記第1の圧縮重み行列と前記射影行列との積に置き換えるステップと、
前記それぞれの層間重み行列を前記第2の圧縮重み行列と前記射影行列との積に置き換えるステップと
をさらに含む、請求項9に記載の方法。
前記
Figure 0006706326
およびP l のそれぞれのランクが、前記Whのランクよりも小さい、請求項9または10に記載の方法。
前記
Figure 0006706326
およびP l のそれぞれのランクが、前記Wxのランクよりも小さい、請求項9から11のいずれか一項に記載の方法。
特異値分解(SVD)圧縮技法を用いて、前記第1の圧縮重み行列
Figure 0006706326
および前記射影行列P l を生成する、請求項9から12のいずれか一項に記載の方法。
前記複数のリカレント層のうちの1つが、l番目の層であり、前記l番目の層についての出力が、
Figure 0006706326
によって表され、ただし、
Figure 0006706326
が、時間tにおける前記l番目の層の隠れ層活性化出力を表し、
Figure 0006706326
が、前の(l-1)番目からの層間重み行列を表し、層blが、l番目の層バイアスベクトルを表し、σ(・)が、非線形活性化関数を示す、請求項9から13のいずれか一項に記載の方法。
前記RNNが、長短期メモリ(LSTM)RNNである、請求項9から14のいずれか一項に記載の方法。
前記第1の圧縮重み行列
Figure 0006706326
、前記射影行列P l 、および前記第2の圧縮重み行列
Figure 0006706326
を生成する前に、前記RNNを訓練するステップと、
前記第1の圧縮重み行列
Figure 0006706326
、前記射影行列P l 、および前記第2の圧縮重み行列
Figure 0006706326
を生成した後に、前記RNNを再訓練するステップと
をさらに含む、請求項9から15のいずれか一項に記載の方法。
前記RNNが、音響モデルである、請求項9から16のいずれか一項に記載の方法。
前記RNNが、音声認識モデルである、請求項9から16のいずれか一項に記載の方法。
1つまたは複数のコンピュータと、命令を記憶した1つまたは複数のストレージデバイスとを備えるシステムであって、前記命令は、前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項10から18のいずれか一項に記載のそれぞれの方法の動作を実行させるように動作可能である、システム。
命令により符号化される非一時的コンピュータストレージ媒体であって、前記命令は、1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項10から18のいずれか一項に記載のそれぞれの方法の動作を実行させるように動作可能である、非一時的コンピュータストレージ媒体。
JP2018534819A 2016-02-03 2016-12-28 リカレントニューラルネットワークモデルの圧縮 Active JP6706326B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662290624P 2016-02-03 2016-02-03
US62/290,624 2016-02-03
PCT/US2016/068913 WO2017136070A1 (en) 2016-02-03 2016-12-28 Compressed recurrent neural network models

Publications (2)

Publication Number Publication Date
JP2019509539A JP2019509539A (ja) 2019-04-04
JP6706326B2 true JP6706326B2 (ja) 2020-06-03

Family

ID=57882138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018534819A Active JP6706326B2 (ja) 2016-02-03 2016-12-28 リカレントニューラルネットワークモデルの圧縮

Country Status (7)

Country Link
US (2) US10878319B2 (ja)
EP (1) EP3374932B1 (ja)
JP (1) JP6706326B2 (ja)
KR (1) KR102100977B1 (ja)
CN (1) CN107038476A (ja)
DE (2) DE102016125918A1 (ja)
WO (1) WO2017136070A1 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3398119B1 (en) * 2016-02-05 2022-06-22 Deepmind Technologies Limited Generative neural networks for generating images using a hidden canvas
US10783535B2 (en) 2016-05-16 2020-09-22 Cerebri AI Inc. Business artificial intelligence management engine
US10599935B2 (en) * 2017-02-22 2020-03-24 Arm Limited Processing artificial neural network weights
US10762563B2 (en) 2017-03-10 2020-09-01 Cerebri AI Inc. Monitoring and controlling continuous stochastic processes based on events in time series data
US10402723B1 (en) 2018-09-11 2019-09-03 Cerebri AI Inc. Multi-stage machine-learning models to control path-dependent processes
US11037330B2 (en) * 2017-04-08 2021-06-15 Intel Corporation Low rank matrix compression
US11216437B2 (en) 2017-08-14 2022-01-04 Sisense Ltd. System and method for representing query elements in an artificial neural network
US11106975B2 (en) * 2017-10-20 2021-08-31 Asapp, Inc. Fast neural network implementations by increasing parallelism of cell computations
WO2019078885A1 (en) * 2017-10-20 2019-04-25 Google Llc PARALLEL EXECUTION OF OPERATIONS OF ACTIVATION UNITS WITH RELEASE
US11556775B2 (en) * 2017-10-24 2023-01-17 Baidu Usa Llc Systems and methods for trace norm regularization and faster inference for embedded models
CN113807510B (zh) 2017-12-30 2024-05-10 中科寒武纪科技股份有限公司 集成电路芯片装置及相关产品
CN109993290B (zh) 2017-12-30 2021-08-06 中科寒武纪科技股份有限公司 集成电路芯片装置及相关产品
CN109993291B (zh) * 2017-12-30 2020-07-07 中科寒武纪科技股份有限公司 集成电路芯片装置及相关产品
EP3624019A4 (en) 2017-12-30 2021-03-24 Cambricon Technologies Corporation Limited CHIP DEVICE WITH INTEGRATED CIRCUIT AND ASSOCIATED PRODUCT
CN109993292B (zh) 2017-12-30 2020-08-04 中科寒武纪科技股份有限公司 集成电路芯片装置及相关产品
US11586924B2 (en) * 2018-01-23 2023-02-21 Qualcomm Incorporated Determining layer ranks for compression of deep networks
US10657426B2 (en) * 2018-01-25 2020-05-19 Samsung Electronics Co., Ltd. Accelerating long short-term memory networks via selective pruning
US11593068B2 (en) * 2018-02-27 2023-02-28 New York University System, method, and apparatus for recurrent neural networks
CN110533157A (zh) * 2018-05-23 2019-12-03 华南理工大学 一种基于svd和剪枝用于深度循环神经网络的压缩方法
JP2020034625A (ja) * 2018-08-27 2020-03-05 日本電信電話株式会社 音声認識装置、音声認識方法、及びプログラム
US11068942B2 (en) 2018-10-19 2021-07-20 Cerebri AI Inc. Customer journey management engine
CN109523995B (zh) * 2018-12-26 2019-07-09 出门问问信息科技有限公司 语音识别方法、语音识别装置、可读存储介质和电子设备
US11599773B2 (en) 2018-12-27 2023-03-07 Micron Technology, Inc. Neural networks and systems for decoding encoded data
CN109670158B (zh) * 2018-12-27 2023-09-29 北京及客科技有限公司 一种用于根据资讯数据生成文本内容的方法与设备
CN109740737B (zh) * 2018-12-30 2021-02-19 联想(北京)有限公司 卷积神经网络量化处理方法、装置及计算机设备
US11444845B1 (en) * 2019-03-05 2022-09-13 Amazon Technologies, Inc. Processing requests using compressed and complete machine learning models
CN110580525B (zh) * 2019-06-03 2021-05-11 北京邮电大学 适用于资源受限的设备的神经网络压缩方法及系统
CN112308197B (zh) * 2019-07-26 2024-04-09 杭州海康威视数字技术股份有限公司 一种卷积神经网络的压缩方法、装置及电子设备
US11922315B2 (en) * 2019-08-26 2024-03-05 Microsoft Technology Licensing, Llc. Neural adapter for classical machine learning (ML) models
US11424764B2 (en) * 2019-11-13 2022-08-23 Micron Technology, Inc. Recurrent neural networks and systems for decoding encoded data
WO2021117942A1 (ko) * 2019-12-12 2021-06-17 전자부품연구원 저복잡도 딥러닝 가속 하드웨어 데이터 가공장치
US11188616B2 (en) 2020-02-25 2021-11-30 International Business Machines Corporation Multi-linear dynamical model reduction
KR20210136706A (ko) * 2020-05-08 2021-11-17 삼성전자주식회사 전자 장치 및 이의 제어 방법
WO2021234967A1 (ja) * 2020-05-22 2021-11-25 日本電信電話株式会社 音声波形生成モデル学習装置、音声合成装置、それらの方法、およびプログラム
KR20220064054A (ko) * 2020-11-11 2022-05-18 포항공과대학교 산학협력단 행렬곱 연산량 감소 방법 및 장치
US11563449B2 (en) 2021-04-27 2023-01-24 Micron Technology, Inc. Systems for error reduction of encoded data using neural networks
US11973513B2 (en) 2021-04-27 2024-04-30 Micron Technology, Inc. Decoders and systems for decoding encoded data using neural networks
CA3168515A1 (en) * 2021-07-23 2023-01-23 Cohere Inc. System and method for low rank training of neural networks
US11755408B2 (en) 2021-10-07 2023-09-12 Micron Technology, Inc. Systems for estimating bit error rate (BER) of encoded data using neural networks

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5408424A (en) * 1993-05-28 1995-04-18 Lo; James T. Optimal filtering by recurrent neural networks
AU2001295591A1 (en) * 2000-10-13 2002-04-22 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. A method for supervised teaching of a recurrent artificial neural network
US9235800B2 (en) * 2010-04-14 2016-01-12 Siemens Aktiengesellschaft Method for the computer-aided learning of a recurrent neural network for modeling a dynamic system
WO2012109407A1 (en) * 2011-02-09 2012-08-16 The Trustees Of Columbia University In The City Of New York Encoding and decoding machine with recurrent neural networks
US8489529B2 (en) * 2011-03-31 2013-07-16 Microsoft Corporation Deep convex network with joint use of nonlinear random projection, Restricted Boltzmann Machine and batch-based parallelizable optimization
US9292787B2 (en) * 2012-08-29 2016-03-22 Microsoft Technology Licensing, Llc Computer-implemented deep tensor neural network
US20140156575A1 (en) * 2012-11-30 2014-06-05 Nuance Communications, Inc. Method and Apparatus of Processing Data Using Deep Belief Networks Employing Low-Rank Matrix Factorization
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
US9728184B2 (en) * 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9620108B2 (en) * 2013-12-10 2017-04-11 Google Inc. Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers
US9400955B2 (en) * 2013-12-13 2016-07-26 Amazon Technologies, Inc. Reducing dynamic range of low-rank decomposition matrices
US9552526B2 (en) * 2013-12-19 2017-01-24 University Of Memphis Research Foundation Image processing using cellular simultaneous recurrent network
US9721202B2 (en) * 2014-02-21 2017-08-01 Adobe Systems Incorporated Non-negative matrix factorization regularized by recurrent neural networks for audio processing
US9324321B2 (en) * 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US11256982B2 (en) * 2014-07-18 2022-02-22 University Of Southern California Noise-enhanced convolutional neural networks
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
US10783900B2 (en) * 2014-10-03 2020-09-22 Google Llc Convolutional, long short-term memory, fully connected deep neural networks
US10229356B1 (en) * 2014-12-23 2019-03-12 Amazon Technologies, Inc. Error tolerant neural network model compression
US10223635B2 (en) * 2015-01-22 2019-03-05 Qualcomm Incorporated Model compression and fine-tuning
CN104598972A (zh) * 2015-01-22 2015-05-06 清华大学 一种大规模数据回归神经网络快速训练方法
CN104700828B (zh) * 2015-03-19 2018-01-12 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
US10515301B2 (en) * 2015-04-17 2019-12-24 Microsoft Technology Licensing, Llc Small-footprint deep neural network
US20160328644A1 (en) * 2015-05-08 2016-11-10 Qualcomm Incorporated Adaptive selection of artificial neural networks
US10091140B2 (en) * 2015-05-31 2018-10-02 Microsoft Technology Licensing, Llc Context-sensitive generation of conversational responses
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
US10515307B2 (en) * 2015-06-05 2019-12-24 Google Llc Compressed recurrent neural network models
GB201511887D0 (en) * 2015-07-07 2015-08-19 Touchtype Ltd Improved artificial neural network for language modelling and prediction
CN105184369A (zh) * 2015-09-08 2015-12-23 杭州朗和科技有限公司 用于深度学习模型的矩阵压缩方法和装置
US10217018B2 (en) * 2015-09-15 2019-02-26 Mitsubishi Electric Research Laboratories, Inc. System and method for processing images using online tensor robust principal component analysis
US20170083623A1 (en) * 2015-09-21 2017-03-23 Qualcomm Incorporated Semantic multisensory embeddings for video search by text
US10366158B2 (en) * 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10395118B2 (en) * 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US9807473B2 (en) * 2015-11-20 2017-10-31 Microsoft Technology Licensing, Llc Jointly modeling embedding and translation to bridge video and language
US10332509B2 (en) * 2015-11-25 2019-06-25 Baidu USA, LLC End-to-end speech recognition
US10078794B2 (en) * 2015-11-30 2018-09-18 Pilot Ai Labs, Inc. System and method for improved general object detection using neural networks
US10832120B2 (en) * 2015-12-11 2020-11-10 Baidu Usa Llc Systems and methods for a multi-core optimized recurrent neural network
US10824941B2 (en) * 2015-12-23 2020-11-03 The Toronto-Dominion Bank End-to-end deep collaborative filtering
US10482380B2 (en) * 2015-12-30 2019-11-19 Amazon Technologies, Inc. Conditional parallel processing in fully-connected neural networks
US10515312B1 (en) * 2015-12-30 2019-12-24 Amazon Technologies, Inc. Neural network model compaction using selective unit removal

Also Published As

Publication number Publication date
EP3374932A1 (en) 2018-09-19
US11948062B2 (en) 2024-04-02
CN107038476A (zh) 2017-08-11
KR20180084988A (ko) 2018-07-25
JP2019509539A (ja) 2019-04-04
WO2017136070A1 (en) 2017-08-10
EP3374932B1 (en) 2022-03-16
US20210089916A1 (en) 2021-03-25
KR102100977B1 (ko) 2020-04-14
US10878319B2 (en) 2020-12-29
DE102016125918A1 (de) 2017-08-03
DE202016008253U1 (de) 2017-05-26
US20170220925A1 (en) 2017-08-03

Similar Documents

Publication Publication Date Title
JP6706326B2 (ja) リカレントニューラルネットワークモデルの圧縮
US11741366B2 (en) Compressed recurrent neural network models
AU2022201819B2 (en) Batch normalization layers
JP6758406B2 (ja) ワイドアンドディープマシンラーニングモデル
US20210117801A1 (en) Augmenting neural networks with external memory
US11210579B2 (en) Augmenting neural networks with external memory
US20160358073A1 (en) Whitened neural network layers
WO2019157251A1 (en) Neural network compression
JP2019517075A (ja) 比較セットを使用する入力例の分類
US20170154262A1 (en) Resizing neural networks
US20170140271A1 (en) Neural programming
EP3452960A1 (en) Augmenting neural networks with external memory using reinforcement learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190924

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200515

R150 Certificate of patent or registration of utility model

Ref document number: 6706326

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250