JP2017531255A - 出力分布による生徒dnnの学習 - Google Patents

出力分布による生徒dnnの学習 Download PDF

Info

Publication number
JP2017531255A
JP2017531255A JP2017513728A JP2017513728A JP2017531255A JP 2017531255 A JP2017531255 A JP 2017531255A JP 2017513728 A JP2017513728 A JP 2017513728A JP 2017513728 A JP2017513728 A JP 2017513728A JP 2017531255 A JP2017531255 A JP 2017531255A
Authority
JP
Japan
Prior art keywords
dnn
student
teacher
model
dnn model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017513728A
Other languages
English (en)
Other versions
JP6612855B2 (ja
Inventor
ジャオ,ルイ
ホワーン,ジュイ−ティーン
リー,ジニュー
ゴーン,イーファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2017531255A publication Critical patent/JP2017531255A/ja
Application granted granted Critical
Publication of JP6612855B2 publication Critical patent/JP6612855B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Business, Economics & Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

「生徒」DNNモデルを、それよりも大きく精度が高い「教師」DNNモデルによって「学習する」ことによって、DNNクラシファイアを生成するシステムおよび方法を提供する。ラベルなし訓練データーを教師DNNに通すことによって、このラベルなし訓練データーから生徒DNNを訓練することができ、教師DNNはラベル付きデーターから訓練されるのでもよい。一実施形態では、繰り返しプロセスが適用され、教師および生徒DNNモデルからの出力分布の発散を最小化することによって、生徒DNNを訓練する。収束までの繰り返し毎に、これら2つのDNNの出力差を使用して、生徒DNNモデルを更新し、ラベルなし訓練データーを使用して、再度出力を判定する。結果的に得られる訓練済み生徒DNNモデルは、移動体またはウェアラブル・デバイスのような、計算および記憶リソースが限られているデバイス上において、精度の高い信号処理に応用するのに適していると言って差し支えない。実施形態では、教師DNNモデルはDNNモデルの集合体を含む。【選択図】図1

Description

[0001] ディープ・ニューラル・ネットワーク(DNN)は、音声認識および画像処理を含む複雑な信号処理の用途に対して著しい精度の向上を約束する。DNNのパワーは、大多数のパラメーターを有する、その深く広いネットワーク構造から来る。例えば、文脈依存ディープ・ニューラル・ネットワーク隠れマルコフ・モデル(CD−DNN−HMM)は、多くの自動音声認識(ASR)タスクにおいて、従来のガウス混合モデル(CD−GMM−HMM)を凌駕することが示されている。しかしながら、CD−DNN−HMMの卓越した性能には、ランタイム・コストの大幅な増大が伴う。何故なら、DNNは従前のシステムよりも遙かに多いパラメーターを使用するからである。つまり、CD−DNN−HMMは、サーバー、または広大な計算および記憶リソースを有する他のコンピューター・システム上においては高い精度でデプロイされて(deploy)いるが、スマートフォン、ウェアラブル・デバイス、または娯楽システムのような、計算および記憶リソースが限られているデバイス上にDNNをデプロイすることが課題になる。
[0002] しかし、このようなデバイスの普及(prevalence)、そしてDNNがASRおよび画像処理のような用途に対してもたらす潜在的な恩恵を想定すると、業界はDNNをこれらのデバイス上に有することに強い関心を有する。この問題に対する一般的な手法は、例えば、隠れレイヤーにおけるノードの数を減らし、更に出力レイヤーにおけるセノン・ターゲット(senone target)の数を減らすことによって、DNNの次元を減らすことである。しかし、この手法はDNNモデルのサイズを縮小するが、精度低下(例えば、単語誤り率)が著しく増大し、性能品質が悪化する。
[0003] この摘要は、詳細な説明において以下で更に説明する概念から選択したものを、簡略化した形態で紹介するために設けられている。この摘要は、特許請求する主題の主要な特徴や必須の特徴を特定することを意図するのではなく、特許請求する主題の範囲を判断するときに補助として使用されることを意図するのでもない。
[0004] 本発明の実施形態は、デプロイされるDNNを、それよりも容量が大きい(隠れノードの数が多い)DNNから「学習させる」ことによって、デバイス上のデプロイメント(deployment)のために、小型化して精度を高めたDNNモデルを供給するシステムおよび方法を対象とする。隠れノード数が少ないDNNを学習させるために、それよりも大きなサイズの(精度が高い)「教師」DNNを使用して、小さい方の「生徒」DNNを訓練する。具体的には、更に説明するように、本発明の一実施形態は、書き起こしなしデーター(un-transcribed data)のようなラベルなしデーター(unlabeled data)を使用して、小さいサイズの生徒DNNとそれよりも大きなサイズの教師DNNとの出力分布間の発散(divergence)を最小化することによって、DNN出力分布のプロパティを利用する。生徒DNNは、ラベルなし訓練データーを教師DNNに通して訓練ターゲットを生成することによって、ラベルなし(または書き起こしなし)データーから訓練することができる。ラベル付き(または書き起こし)訓練データーを必要とせずに、遙かに多くのデーターが訓練のために利用可能となり、これによって生徒DNNの精度を更に高め、大きなサイズの教師DNNからの複雑な関数の近似改善が得られる。生徒DNNは、その出力が教師DNNの出力と共に収束するまで、繰り返し最適化することができる。このように、生徒DNNは教師の行動に近づく(approach)ので、教師が間違っているかもしれない場合でも、生徒は、教師の出力がどんなものであっても、これに接近する(approximate)。このため、本発明の実施形態は、スマートフォン、娯楽システム、または同様の消費者用電子デバイスにおいて高精度な信号処理の応用(例えば、ASRまたは画像処理)を行うのに特に適している。
[0005] 本発明のある実施形態では、更に大きな「巨人」教師DNNからDNNモデルを学習させることによって、更に精度が高いDNNモデル(例えば、小型または標準サイズ)を供給することも含む。例えば、サーバー上のデプロイメントのための標準サイズのDNNモデルは、本明細書において説明する教師−生徒学習手順を使用して生成することができ、生徒DNNは標準サイズのDNNモデルであり、教師DNNは巨人サイズのDNNであり、巨人サイズのDNNは、異なるエラー・パターンを持つ複数のDNNの訓練済み集合体(trained ensemble)として実装することもできる。実施形態では、この集合体は、例えば、交差エントロピー基準、シーケンシャル基準(sequential criterion)、最小二乗誤差基準、非負制約がある最小二乗誤差基準、または同様の基準を使用して、集合体メンバーの出力を、自動的に学習された結合係数と組み合わせることによって訓練される。
[0006] 添付図面において、一例としてそして限定ではなく、本発明を図示する。添付図面では、同様の参照番号は同様のエレメントを示す。
図1は、本発明の実施形態を採用することができるシステム・アーキテクチャ例のブロック図である。 図2は、本発明の実施形態による、DNNモデルの例示的な表現の態様を示す。 図3は、本発明の実施形態にしたがって、ラベルなしデーターを使用して、フットプリントが大きい教師DNNから、フットプリントが小さい生徒DNNを学習させることの例示的な表現の態様を示す。 図4は、本発明の実施形態による、集合教師DNNモデル(ensemble teacher DNN model)の例示的な表現の態様を示す。 図5は、本発明の実施形態にしたがって、より大きなDNNモデルから学習することによって、縮小サイズのDNNクラシファイアを生成する方法の流れ図を示す。 図6は、本発明の実施形態にしたがって、集合教師DNNモデルから訓練済みDNNモデルを生成する方法の流れ図を示す。 図7は、本発明の実施形態を実現するときの使用に適した実証的なコンピューティング環境のブロック図である。
[0014] 本明細書では、本発明の主題について、法的要件を満たすために具体性を持って説明する。しかしながら、説明自体は、本特許の範囲を限定することは意図していない。むしろ、本発明者は、特許請求する主題は、本文書において記載するステップとは異なるステップまたは同様のステップの組み合わせを含むように、他の現在の技術または今後の技術と関連付けて、別の方法で具体化してもよいことを想定している。更に、「ステップ」および/または「ブロック」という用語は、本明細書においては、採用される方法の異なるエレメントを言外に意味するために用いることもできるが、個々のステップの順序が明示的に記載されているのではなければ、そして記載されている場合を除いて(unless and except)、この用語は、本明細書において開示される種々のステップ間において、いかなる特定の順序をも暗示するように解釈してはならない。
[0015] 一般的に、本明細書において説明する技術の種々の態様は、とりわけ、容量が大きな(隠れノードの数が多い)第2DNNから第1DNNを「学習させる」ことによって、デバイス上におけるデプロイメントのために縮小サイズの第1DNNモデルを供給するためのシステム、方法、およびコンピューター読み取り可能媒体を対象とする。隠れノードの数が少ないDNNを学習させるために、それよりも大きなサイズの(更に精度が高い)「教師」DNNが、この小さい方の「生徒」DNNを訓練するために使用される。具体的には、本発明の一実施形態は、書き起こしなしデーター(un-transcribed data)のようなラベルなしデーター(unlabeled data)を使用して、小さいサイズの生徒DNNと標準的な(またはそれよりも大きなサイズの)教師DNNとの出力分布間の発散(divergence)を最小化することによって、DNN出力分布のプロパティを利用する。生徒DNNは、ラベルなし(または書き起こしなし)データーから訓練することができる。何故なら、その訓練ターゲットは、ラベルなし訓練データーを教師DNNに通すことによって得られるからである。ラベル付き(または書き起こし)訓練データーを必要とせずに、遙かに多くのデーターが訓練のために利用可能となり、これによって生徒DNNの精度を更に高め、大きなサイズの教師DNNからの複雑な関数の近似改善が得られる。
[0016] 更に説明するように、一実施形態では、生徒DNNは、その出力が教師DNNの出力に収束するまで、繰り返し最適化される。このように、生徒DNNは教師の行動に近づくので、教師が間違っているかもしれない場合でも、生徒は、教師の出力がどんなものであっても、これに接近する。このため、本発明の実施形態は、スマートフォン、娯楽システム、または同様の消費者用電子デバイスにおいて高精度な信号処理の応用(例えば、ASRまたは画像処理)を行うのに特に適している。更に、本発明のこれらの実施形態の内いくつかを他の技術と組み合わせて、出力レイヤーまたは全てのレイヤーにおいて使用される行列の階数減少によるパラメーター数およびCPUコストの低減というようなCD−DNN−HMMのランタイム性能、SSE(ストリーミングSIMD拡張)評価に対する8ビット量子化、および/またはコマ飛ばし(frame skipping)または予測技術を更に改良することもできる。
[0017] 本発明のある実施形態では、デプロイ可能なDNNモデル(例えば、小型または標準サイズのモデル)は、更に大きな「巨人」教師DNNからこのデプロイ可能なDNNモデルを学習させることによって決定される。例えば、サーバー上におけるデプロイメントのための標準サイズのDNNモデル(または移動体デバイス上におけるデプロイメントのためのもっと小さなサイズのDNN)は、本明細書において説明する教師−生徒学習手順を使用して生成することができ、生徒DNNは標準サイズのDNNモデル(またはもっと小さなサイズのDNNモデル)であり、教師DNNは巨人サイズのDNNである。巨人サイズのDNNは、実施形態では、エラー・パターンが異なる複数のDNNの訓練済み集合体として実装することができる。この集合体は、例えば、交差エントロピー基準、シーケンシャル基準(sequential criterion)、最小二乗誤差基準、非負制約がある最少二乗誤差基準、または同様の基準を使用して、集合体メンバーの出力を、自動的に学習された結合係数と組み合わせることによって、訓練することができる。
[0018] 前述のように、本明細書において説明するいくつかの実施形態の利点は、ラベルなし(または書き起こしなし)データーを使用して、生徒DNNモデルを訓練できることである。何故なら、その訓練ターゲット(P(s|x)、更に説明する)は、ラベルなし訓練データーを教師DNNモデルに通すことによって得られるからである。訓練のためにデーターにレベル付けする(または書き起こしする)には時間や費用がかかるので、ラベルなしデーターと比較すると、はるかに少ない量のラベル付き(または書き起こし)データーしか入手可能にならない。(ラベル付き(または書き起こし)データーは、教師DNNを訓練するために使用することができる。)書き起こし(またはラベル付き)訓練データーの必要性がないので、教師DNNの行動に接近するように生徒DNNを訓練するために遙かに多くのデーターが利用可能となる。特定の特徴空間を覆うために増々多くの訓練データーが利用可能になるに連れて、デプロイされた(生徒)DNNモデルの精度も更に一層向上する。この利点は、デプロイメント・フィードバック・ループのために大量のラベルなしデーターが利用可能な産業シナリオには、特に有用である(デプロイされるモデルはそれらの使用データーをアプリケーション開発者に供給し、アプリケーション開発者はこのデーターを使用して、アプリケーションの今後のバージョンを更に特別な目的に合わせて変更する(tailor))。例えば、多くの検索エンジンがこのようなデプロイメント・フィードバック・ループを使用する。
[0019] これより図1に移ると、本発明の実施形態を実現するのに適したシステム・アーキテクチャの一例の態様を示すブロック図があり、このシステム・アーキテクチャを全体的にシステム100と呼ぶ。尚、本明細書において説明するこの構成および他の構成は、例として明示されるに過ぎないことは理解されてしかるべきである。つまり、システム100は、適したコンピューティング・システム・アーキテクチャの一例を表すに過ぎない。他の構成およびエレメント(例えば、ユーザー・デバイス、データー・ストア等)も、示すものに加えてまたは代わりに使用することができ、一部のエレメントは、明確化のために、まとめて省略されることもある。更に、本明細書において説明するエレメントの多くは、機能的エンティティであり、ディスクリート・コンポーネントまたは分散型コンポーネントとして、あるいは他のコンポーネントと併せて、更には任意の適した組み合わせおよび場所において実現することができる。本明細書において説明される種々の機能は、1つ以上のエンティティによって実行される場合、ハードウェア、ファームウェア、および/またはソフトウェアによって実行されてもよい。例えば、種々の機能またはサービスは、メモリー内に格納された命令を実行するプロセッサーによって実行されるのでもよい。
[0020] 図示しないコンポーネントの中でもとりわけ、システム100は、1つ以上のデーター・ソース108、ストレージ106、クライアント・デバイス102および104、ならびにDNNモデル・ジェネレーター120に通信可能に結合されたネットワーク110を含む。図1に示すコンポーネントは、図7に関連付けて説明するコンピューティング・デバイス700のような、1つ以上のコンピューティング・デバイス上に実装することができ、または1つ以上のコンピューティング・デバイスを使用して実現することができる。ネットワーク110は、限定ではなく、1つ以上のローカル・エリア・ネットワーク(LAN)および/またはワイド・エリア・ネットワーク(WAN)を含むことができる。このようなネットワーキング環境は、事務所、企業規模のコンピューター・ネットワーク、イントラネット、およびインターネットでは極普通である。尚、本発明の範囲内で、システム100内部には任意の数のデーター・ソース、ストレージ・コンポーネントまたはデーター・ストア、クライアント・デバイス、およびDNNモデル・ジェネレーター(DNN model generator)が採用されてもよいことは理解されてしかるべきである。各々は1つのデバイス、または分散型環境において協働する複数のデバイスを含むのでもよい。例えば、DNNモデル・ジェネレーター120は、分散型環境において構成され、本明細書において説明する機能を集合的に提供する複数のコンピューティング・デバイスまたはコンポーネントによって設けられてもよい。加えて、図示しない他のコンポーネントもネットワーク環境内に含まれてもよい。
[0021] システム例100は1つ以上のデーター・ソース108を含む。データー・ソース(1つまたは複数)108は、本明細書において説明するDNNモデルを訓練するためのデーター・リソースを構成する(comprise)。データー・ソース(1つまたは複数)108によって供給されるデーターは、書き起こしデーターおよび書き起こしなしデーターのような、ラベル付きデーターおよびラベルなしデーターを含むことができる。例えば、実施形態では、データーは1つ以上の単音の集合(phone set)(音)を含み、更に教師DNNモデルを初期化するために使用することができる、対応する書き起こし情報またはセノン・ラベルも含むことができる。実施形態では、データー・ソース(1つまたは複数)108におけるラベルなしデーターは、前述のように、1つ以上のデプロイメント・フィードバック・ループによって供給される。例えば、検索クエリーが発声され(spoken)検索エンジンにおいて実行されたときの使用状況データー(usage data)が、書き起こしなしデーターとして供給されてもよい。データー・ソースの他の例には、一例としてそして限定ではなく、種々の話し言葉のオーディオ・ソースまたは画像ソースを含むことができ、これらには、ストリーミング・サウンドまたはビデオ、ウェブ・クエリー、移動体デバイス・カメラまたはオーディオ情報、ウェブ・カム・フィード、スマート・グラスおよびスマート・ウオッチ・フィード、顧客ケア・システム、セキュリティ・カメラ・フィード、ウェブ文書、カタログ、ユーザー・フィード、SMSログ、インスタント・メッセージング・ログ、話し言葉の書き起こし(spoken-word transripts)、音声コマンドまたは取り込んだ画像(例えば、深度カメラ画像)のようなゲーミング・システムのユーザー対話処理、ツイート、チャットまたはビデオ電話のレコード、またはソーシャル・ネットワーキング・メディアを含むことができる。使用される具体的なデーター・ソース(1つまたは複数)108は、用途に基づいて決定することができ、データーがドメイン特定データー(例えば、娯楽システムだけに関係するデーター)か、または性質上一般的な(ドメイン特定ではない)データーかに基づくことを含む。
[0022] システム例100は、クライアント・デバイス102および104を含む。これらは、デバイス上にDNNシステムを有することが望ましい任意のタイプのコンピューティング・デバイスを含むことができ、具体的には、もっと強力なサーバーやコンピューティング・システムと比較すると、デバイスの計算および/または格納リソースが限られているコンピューティング・デバイスを含むことができる。例えば、一実施形態では、クライアント・デバイス102および104は、本明細書の図7に関係付けて説明する1つのタイプのコンピューティング・デバイスであってもよい。一例としてそして限定ではなく、ユーザー・デバイスは、パーソナル・データー・アシスタント(PDA)、移動体デバイス、スマートフォン、スマート・ウオッチ、スマート・グラス(または他のウェアラブル・スマート・デバイス)、ラップトップ、タブレット、リモコン、娯楽システム、車両コンピューター・システム、埋め込み型システム・コントローラー、アプライアンス、家庭用コンピューター・システム、セキュリティ・システム、消費者用電子デバイス、または他の同様の電子デバイスとして具体化することができる。一実施形態では、クライアント・デバイスは、本明細書において説明するDNNシステムによって使用可能なオーディオおよび画像情報のような入力データーを受け取ることができ、DNNシステムはデバイス内で動作する。例えば、クライアント・デバイスは、オーディオ情報を受け取るためにマイクロフォンまたはライン入力(line-in)を有し、ビデオまたは画像情報を受け取るためにカメラを有し、あるいはインターネットまたはデーター・ソース108のような他のソースからこのような情報を受信するために通信コンポーネント(例えば、Wi−Fi機能)を有することもできる。
[0023] 本明細書において説明する生徒DNNモデルの実施形態を使用して、クライアント・デバイス102または104および生徒DNNモデルは、入力されたデーターを処理してコンピューター使用可能情報を判定する。例えば、クライアント・デバイス上で動作する生徒DNNの一実施形態を使用して、ユーザーによって発話されたクエリーを処理して、ユーザーの意図(即ち、ユーザーは何を求めているか)を判定することができる。同様に、カメラから得られた情報を処理して、画像またはビデオ内にある形状、特徴的構造(feature)、物体、またはその他のエレメントを判定することもできる。
[0024] クライアント・デバイス例102および104は、本発明の実施形態によって作成された生徒(または小さいサイズの)DNNモデルをデプロイすることができる環境例を提供するために、システム100に含まれている。本明細書において説明するDNNモデルの態様は1つ以上のクライアント・デバイス例102および104上で動作可能であると考えられるが、本発明のある実施形態はクライアント・デバイスを含まないことも考えられる。例えば、標準サイズまたはもっと大きいサイズの生徒DNNが、サーバー上またはクラウドにおいて具体化されてもよい。更に、図1は2つのクライアント・デバイス例102および104を示すが、これよりも多いまたは少ないデバイスを使用してもよい。
[0025] ストレージ106は、一般に、データー、コンピューター命令(例えば、ソフトウェア・プログラム命令、ルーチン、またはサービス)、および/または本明細書において説明する本発明の実施形態において使用されるモデルを含む情報を格納する。実施形態では、ストレージ106は、1つ以上のデーター・ソース108からのデーター、1つ以上のDNNモデル(またはDNNクラシファイア)、DNNモデルを生成し訓練するための情報、および1つ以上のDNNモデルによって出力されるコンピューター使用可能情報を格納する。図1に示すように、ストレージ106はDNNモデル107および109を含む。DNNモデル107は教師DNNモデルを表し、DNNモデル109は、教師DNNモデル107よりも小さいサイズを有する生徒DNNモデルを表す。DNNモデルの更なる詳細および例については、図2〜図4に関係付けて説明する。明確さのために1つのデーター・ストア・コンポーネントとして図示したが、ストレージ106は、クライアント・デバイス102または104、DNNモデル・ジェネレーター120、あるいはクラウド内におけるメモリーを含む、1つ以上の情報ストアとして具体化されてもよい。
[0026] NDDモデル・ジェネレーター120は、アクセス・コンポーネント122、初期化コンポーネント124、訓練コンポーネント126、および評価コンポーネント128を含む。DNNモデル・ジェネレーター120は、一般に、本明細書において説明するCD−DNN−HMMクラシファイアのような、DNNモデルを生成する役割を担い、データー・ストア(1つまたは複数)108からのデーターに基づいて、「生徒」DNNモデルを初期化し、訓練された教師DNNモデルから訓練することによって、新たなDNNモデルを作成する(または既存のDNNモデルを適応化させる)ことを含む。DNNモデル・ジェネレーター120によって生成されたDNNモデルは、デバイス104または102のようなクライアント・デバイス、サーバー、または他のコンピューター・システム上にデプロイすることができる。一実施形態では、DNNモデル・ジェネレーター120は、初期化された「生徒」DNNモデルを、この生徒よりも大きなモデル・サイズ(例えば、パラメーター数)を有する訓練済み教師DNNモデルに接近するように訓練することによって、計算または記憶リソースが限られているかもしれないクライアント・デバイス上におけるデプロイメントのために、縮小サイズのCD−DNN−HMMクラシファイアを作成する。他の実施形態では、DNNモデル・ジェネレーター120は、初期化された「生徒」DNNモデルを、生徒よりも大きなモデル・サイズ(例えば、パラメーター数)を有する訓練済み巨人サイズの教師DNNモデルに接近するように訓練することによって、クライアント・デバイス、サーバー、または他のコンピューター・システム上におけるデプロイメントのためにDNNクラシファイアを作成する。巨人サイズの教師DNNモデルは、他のDNNモデルの集合体を構成する。
[0027] DNNモデル・ジェネレーター120ならびにそのコンポーネント122、124、126、および128は、例えば、図7に関係付けて説明するコンピューティング・デバイス700のような1つ以上のコンピューター・システム上で実行される、1組のコンパイルされたコンピューター命令または機能、プログラム・モジュール、コンピューター・ソフトウェア・サービス、あるいは一揃いの(an arrangement of)プロセスのとして具体化することができる。DNNモデル・ジェネレーター120、コンポーネント122、124、126、および128、これらのコンポーネントによって実行される機能、またはこれらのコンポーネントによって実行されるサービスは、オペレーティング・システム・レイヤー、アプリケーション・レイヤー、ハードウェア・レイヤー等のようなコンピューティング・システム(1つまたは複数)の該当する抽象レイヤー(1つまたは複数)において実装することができる。あるいは、または加えて、これらのコンポーネント、DNNモデル・ジェネレーター120、および/または本明細書において説明する発明の実施形態の機能は、少なくとも部分的に、1つ以上のハードウェア・ロジック・コンポーネントによって実行することができる。例えば、そして限定ではなく、使用することができるハードウェア・ロジック・コンポーネントの例示的なタイプには、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途集積回路(ASIC)、特定用途標準製品(ASSP)、システム・オン・チップ・システム(SOC)、複合プログラマブル・ロジック・デバイス(CPLD)等が含まれる。
[0028] 図1を続けると、アクセス・コンポーネント122は、一般に、1つ以上のデーター・ソース108、ならびにDNNモデル107および108のようなDNNモデルからの訓練データーにアクセスし、DNNモデル・ジェネレーター120に供給する役割を担う。ある実施形態では、アクセス・コンポーネント122は、クライアント・デバイス上において利用可能な計算および/または記憶リソースに関する情報のような、特定のクライアント・デバイス102または104についての情報にアクセスすることができる。ある実施形態では、この情報は、特定のクライアント・デバイス上におけるデプロイメントのために、DNNモデル・ジェネレーター120によって生成されたDNNモデルの最適なサイズを決定するために使用することもできる。
[0029] 初期化コンポーネント124は、一般に、未訓練の「生徒」DNNモデルを初期化する役割を担い、更にある実施形態では、生徒を訓練するための教師DNNモデルを初期化する役割を担う。ある実施形態では、初期化コンポーネント124は、訓練された生徒DNNモデルがデプロイされるクライアント・デバイスの制限に基づいて、特定のサイズの生徒DNNモデル(または特定のサイズよりも小さいモデル)を初期化し、教師DNNモデル(もっと大きいDNNモデル)に基づいて、生徒DNNを初期化することができる。例えば、実施形態では、初期化コンポーネント124は、アクセス・コンポーネント122から、当業者には周知の技法にしたがって既に訓練されているサイズNの完全に訓練された教師DNNを受け取り、更に訓練された生徒DNNがデプロイされることになるクライアント・デバイスの制限についての情報を受け取る。教師DNNは、ドメイン特定アプリケーション(例えば、娯楽システム用の顔認識または発話クエリーのような)のため、または一般的な目的のために初期化および/または訓練されるのでもよい。受け取った情報に基づいて、初期化コンポーネント124は、適したモデル・サイズの初期、未訓練生徒DNNモデルを(クライアント・デバイスの制限に基づいて)作成する。一実施形態では、生徒DNNモデルは、教師DNNモデルをコピーし、もっと小さいモデル(ノード数が少ない)に分割することによって作成することもできる。教師DNNモデルと同様、未訓練生徒DNNモデルは、教師のレイヤー数に等しくてもよい数の隠れレイヤーを含み、または生徒DNNは教師DNNモデルとは異なる数の隠れレイヤーを含んでもよい。一実施形態では、生徒DNNモデルのサイズは、レイヤー毎のノードまたはパラメーターの数も含んで、教師のサイズであるN未満である。生徒DNNとしての使用に適したDNNモデルの例について、図2と関係付けて説明する。その例では、CD−DNN−HMMモデルは、そのモデル構造を、既存のものでもよい従来のCD−GMM−HMMシステムから直接継承する。モデル構造には、単音の集合、HMMトポロジー、および文脈依存状態の結束(tying)が含まれる。
[0030] 一実施形態では、初期化コンポーネント124は、モデルにおけるノードの重みに乱数を割り当てることによって(即ち、行列Wの重み)、未訓練の生徒DNNモデルを作成し初期化する。他の実施形態では、初期化コンポーネント124は、アクセス・コンポーネント122から、生徒DNNモデルのために初期ノード重みを決める(establish)ために使用される書き起こしなしデーターのような、生徒DNNモデルを予め訓練するためのデーターを受け取る。
[0031] ある実施形態では、初期化コンポーネント124は教師DNNモデルも初期化または作成する。具体的には、アクセス・コンポーネント122によって供給されるデーター・ソース(1つまたは複数)108からのラベル付きまたは書き起こしデーターを使用して、初期化コンポーネント124は教師DNNモデル(予め訓練されていてもよい)を作成し、初期化されているが未訓練の教師DNNモデルを、訓練のために、訓練コンポーネント126に供給することができる。同様に、初期化コンポーネント124は、集合体のメンバーとして含められる複数のサブDNNモデルを決定することによって、集合教師DNNモデルを作成することもできる(例えば、作成し訓練のために訓練コンポーネント126に引き渡す、または既に存在するDNNモデル(1つまたは複数)を識別する)。これらの実施形態では、初期化コンポーネント124は、集合体の出力レイヤーとメンバーのサブDNNモデルの出力レイヤーとの間の関係も決定することができ(例えば、メンバー・モデル出力の未補正の平均(raw average)を取ることによって)、または初期化されたが未訓練の集合教師DNNを、訓練のために、訓練コンポーネント126に供給することもできる。
[0032] 訓練コンポーネント126は、一般に、教師に基づいて、生徒DNNを訓練する役割を担う。具体的には、訓練コンポーネント126は初期化コンポーネント124および/またはアクセス・コンポーネント122から、生徒となる未訓練(または予め訓練された)DNNモデルと、教師として役割を果たすことになる訓練済みDNNモデルとを受け取る。(また、生徒DNNモデルは訓練済みであってもよいが、本明細書において説明する実施形態にしたがって更に訓練すればよいことも考えられる。)また、訓練コンポーネント126は、生徒DNNを訓練するために、アクセス・コンポーネント122からラベルなしデーターも受け取る。
[0033] 訓練コンポーネント126は、評価コンポーネント128による繰り返しプロセスを経て、生徒DNNの学習を促進する。評価コンポーネント128は、同じラベルなしデーターを教師および生徒DNNモデルに供給し、DNNモデルの出力分布を評価して、生徒DNNの出力分布の教師のそれからの誤差を判定し、この誤差に基づいて生徒DNNモデルに対して逆伝搬(back propagation)を実行して生徒DNNモデルを更新し、出力分布が収束するまで(またそうでなければ十分に近くなるまで)このサイクルを繰り返す。ある実施形態では、訓練コンポーネント126は、図5および図6に関係付けてそれぞれ説明する方法500および600にしたがって、生徒DNNを訓練する。
[0034] ある実施形態では、訓練コンポーネント126は教師DNNモデルも訓練する。例えば、一実施形態では、当業者には周知の技法にしたがって、ラベル付き(または書き起こし)データーを使用して、教師DNNを訓練する。ある実施形態では、集合教師DNNを使用して、訓練コンポーネント126が集合教師DNNを訓練する。一例としてそして限定ではなく、訓練コンポーネント126は、例えば、交差エントロピー基準、シーケンシャル基準(sequential criterion)、最小二乗誤差基準、非負制約がある最小二乗誤差基準、または同様の基準を使用して、集合メンバーの出力を、自動的に学習される結合係数と組み合わせることによって、集合体を訓練することができる。
[0035] 評価コンポーネント128は、一般に、生徒DNNモデルを評価して、それが教師に接近するように十分に訓練されているか否か判定する役割を担う。具体的には、実施形態では、評価コンポーネント128は、生徒および教師DNNの出力分布を評価し、これらの出力間の差(誤差信号として判定されてもよい)を判定し、更に生徒が改善し続けているか、または生徒はもはや改善していないか(即ち、生徒出力分布が、教師出力との収束に向かう傾向をもう示さない)判定する。一実施形態では、評価コンポーネント128は、出力分布間におけるカルバック・ライブラー(KL)発散を計算し、訓練コンポーネント126と共に、訓練コンポーネント126に関係して説明した繰り返しプロセスを経て、この発散を最小化しようとする。評価コンポーネント(evaluator)128のある実施形態は、回帰、平均二乗誤差(MSE)、または教師および生徒DNNの出力間における発散を最小化する他の同様の手法を使用することもできる。
[0036] 誤差信号を判定することに加えて、評価コンポーネント128のある実施形態は、他の繰り返しも完了すべきか否か判定する(例えば、他の繰り返しは、誤差に基づいて生徒DNNを更新し、ラベルなしデーターを生徒および教師DNNに通させ、それらの出力分布を評価することを含む)。具体的には、評価コンポーネント128のある実施形態は、教師DNNおよび生徒DNNの出力分布の収束を判定するために閾値を適用する。この閾値が満たされない場合、繰り返しを続けることによって、教師に接近させるために、生徒を更に訓練する。閾値が満たされる場合、収束が判定され(生徒出力分布が教師DNNの出力分布に十分に近いことを示す)、生徒DNNは訓練されたと考えることができ、更にクライアント・デバイスまたはコンピューター・システム上にデプロイすることができる。あるいは、ある実施形態では、評価コンポーネント128は、生徒が改善を示し続けているか否かに基づいて、繰り返しを続けるか否か決定する(即ち、複数の連続的な繰り返しにわたって、生徒の出力分布が、教師の出力分布との収束に向かって移動しており、生徒DNNが後続の繰り返しによって改善し続けていることを示すか否か)。このような実施形態では、生徒が改善している限り、繰り返し訓練は継続する。しかし、一実施形態では、生徒の学習が止まった(即ち、生徒DNNの出力分布が、数回の繰り返しの間、教師DNNの出力分布に全く近づいていない)場合、「授業は終了し」、生徒DNNモデルは訓練されたと考えることができる。一実施形態では、収束を判定することができるのは、生徒DNNの出力分布が、数回の繰り返しの間、教師DNNの出力分布に全く近づいていない場合である。ある実施形態では、評価コンポーネント128は、図5および図6に関係付けてそれぞれ説明する方法500および600にしたがって、生徒DNNを評価する。
[0037] これより図2に移り、DNNクラシファイア例の例示的表現の態様を示し、全体的にDNNクラシファイア200と呼ぶ。このDNNクラシファイア例200はDNNモデル201を含む。(また、図2はデーター202も示すが、これは理解の目的で示すだけであり、DNNクラシファイア200の一部とは見なされない。)一実施形態では、DNNモデル201はCD−DNN−HMMモデルを含み、図2に例示的に示すような、1組のしかるべき出力に対してマッピングされた入力の確率的関係の具体的な構造として具体化することができる。確率的関係(各レイヤーのノード205間を結ぶ線として示す)は、訓練によって決定することができる。つまり、本発明のある実施形態では、DNNモデル201はその訓練にしたがって定められる。(したがって、未訓練DNNモデルは、訓練された同じDNNモデルとは異なる内部構造を有すると考えればよい。)ディープ・ニューラル・ネットワーク(DNN)は、多くの隠れレイヤーを有する(つまり、ディープな)従来のマルチレイヤー・パーセプトロン(MLP:multi-layer perceptron)と見なすことができる。本発明のある実施形態では、CD−DNN−HMMの優れた性能に寄与する3つの態様(aspects)は、数千ものセノンがあるとしても直接的にセノンをモデリングすること、シャローMLPの代わりにDNNを使用すること、そしてフレームの長いコンテキスト・ウィンドウを入力として使用することを含む。
[0038] 図2を参照すると、DNNモデル201の入力および出力は、それぞれ、xおよびo(図2の210および250)で示されている。尚、レイヤーI(図2の220)における入力ベクトルをvで示し(vo=x)、重み行列をWで示し、バイアス・ベクトルをaで示す。次いで、L個の隠れレイヤー(図2の240)を有するDNNについて、l番目の隠れレイヤーの出力は、次のようになる。
Figure 2017531255
ここで、
Figure 2017531255
は、エレメント毎に適用されるシグモイド関数である。事後確率(即ち、DNNの出力)は、
Figure 2017531255
であり、ここで、sは1組のセノンに属する(連結トライフォン状態(tied triphone state)としても知られている)。
[0039] これから、HMMの状態放出確率密度関数p(x|o=s)は、状態事後確率P(o=s|x)を
Figure 2017531255
に収束させることによって計算することができる。
ここで、P(o=s)は、状態sの事前確率であり、p(x)は状態に独立であり、評価の間に脱落させることができる。
[0040] 本発明のある実施形態では、CD−DNN−HMM(DNNモデル201)は、単音の集合、HMMトポロジー、およびCD−GMM−HMMシステムからの直接的な文脈依存状態の結束を含むモデル構造を継承する。これらは、予め決められていてもよい。更に、実施形態では、DNNを訓練するために使用されるセノン・ラベルは、CD−GMM−HMMを使用して生成される強制アラインメント(forced alignment)から抽出することができる。ある実施形態では、訓練基準(教師DNNを訓練するのに適している)を使用して公差エントロピーを最小化する。公差エントロピーを減少させると、負の対数尤度が最小化される。何故なら、各フレームは1つのターゲット・ラベルsのみを有するからである。
Figure 2017531255
DNNモデル・パラメーターは、確率的勾配降下法、または当業者には周知である同様の技法を使用して、逆伝搬法によって最適化することができる。
[0041] これより図3に移り、大きい方の教師DNNから小さい方の生徒DNNを学習させるシステム300の態様について、本発明の実施形態にしたがって例示的に示す。システム例300は、教師DNN302と、それよりも小さい生徒DNN301とを含む。生徒DNN301は、そのレイヤー341の各々の上に教師DNN302よりも少ないノードを有することが図示されている。既に説明したように、本発明の一実施形態では、教師DNN302は、訓練済みDNNモデルを含み、この訓練済みDNNモデルは、当業者には周知である標準的な技法(図2に関係付けて説明した技法のような)にしたがって訓練されればよい。他の実施形態では、教師DNNは、図1の訓練コンポーネント126に関係付けて説明したように訓練されてもよい。いずれの場合でも、正しい教師(即ち、訓練済み教師DNN)があり、この教師から生徒DNNを学習させると仮定する。更に、生徒DNN301および教師DNN302は、それぞれ、ある数の隠れレイヤー341および342を有するCD−DMM−HMMとして具体化することができる。図3に示す実施形態では、生徒DNN301は出力分布351を有し、教師DNN302は、同じサイズの出力分布352を有するが、生徒DNN301自体は教師DNN302よりも小さい。
[0042] 初期状態では、生徒DNN301は訓練されておらず、または予め訓練されていてもよいが、未だ教師DNNによって訓練されていない。(また、生徒DNN301が訓練されていてもよいが、生徒DNN301の精度は、教師DNNから訓練することによって、更に向上させることができることも考えられる。)実施形態では、システム300は、生徒DNN301の出力分布351が教師DNN302の出力分布352に収束する(またそうでなければ近づく)まで、繰り返しプロセスを使用して、教師DNN302から生徒DNN301を学習させるために使用することができる。具体的には、繰り返し毎に、ラベルなし(または書き起こしなし)データー310の小さな一片を生徒DNN301および教師DNN302の双方に供給する。順方向伝搬を使用して、事後分布(出力分布351および352)を決定する。次いで、分布351および352から誤差信号360を決定する。誤差信号は、分布351および352間のKL発散を判定することによって、あるいは回帰、MSE、または他の適した技法を使用することによって計算することができ、図1の評価コンポーネント128を使用して決定することができる。(「誤差信号」におけるような、信号という用語は当技術分野の用語であり、誤差信号が伝搬通信信号のような一時的な信号を含むことを意味するのではない。逆に、ある実施形態では、誤差信号はベクトルを含む。)KL発散を決定する実施形態は、回帰またはMSEのような他の代替方法に対して利点が得られる。何故なら、KL発散を最小化することは、図5の方法500において更に説明するように、分布の交差エントロピーを最小化することと同等であるからである。生徒DNN301の出力分布351が教師DNN302の出力分布352に収束した場合、生徒DNN301は訓練されたと見なされる。しかしながら、出力が収束しない場合、そしてある実施形態では、出力が未だ収束しつつあるように思われる場合、誤差に基づいて生徒DNN301を訓練する。例えば、370において示すように、逆伝搬法を使用し、更に誤差信号を使用して生徒DNN301の重みを更新する。
[0043] 既に説明したように、ある実施形態では、閾値を使用して収束を判定することができる。この場合、誤差が指定された閾値よりも小さい場合、生徒DNN301の分布351は、教師DNN302の分布352に収束したと判定される。指定された閾値は、予め決められていてもよく、更にDNNの具体的な用途(またはDNNによって使用されるデーター310のタイプ)、または生徒DNNのサイズに基づくのでもよい。例えば、教師DNNのパラメーターに近い数ないし同じ数のパラメーターを有する生徒DNNは、教師DNNよりも遙かに小さい生徒DNNよりも正しい(better)収束に達することが期待される(誤差信号が小さい、つまり精度が高い)。また、システム300は、誤差信号が後続の繰り返しにおいてもはや小さくならないと判定した場合、収束を判定するか、またそうでなければ繰り返しを停止することもできる。言い換えると、生徒は、利用可能なデーターについて教師から学習できる全てを学習し終えたことになる。
[0044] 図4に移り、教師DNN402の一実施形態例の態様を示す。教師DNN402は、集合教師DNNモデルを構成する(comprise)。集合DNNモデルは、サブDNN−1 421からサブDNN−K 423までとして示す複数のサブDNNを含む(明確さのために、サブDNNを2つだけ示す。しかしながら、集合教師DNNモデルの実施形態は、2つ以上のサブDNNを含めばよいことが考えられる。例えば、一実施形態では、数ダース(以上)のサブDNNを含むこともある)。集合教師DNNの利点は、訓練された集合の出力が更に一層精度が高くなることである。何故なら、集合メンバー(サブDNN)の全ての音声(voice)を含むからである。一実施形態では、集合教師DNN402は、巨大な集合DNNを構成し、それよりも小さい生徒DNNを訓練する目的以外では実用上デプロイできない程に大き過ぎてもよく、サーバー、クライアント・デバイス、または他のコンピューティング・デバイス上にデプロイすることができる。
[0045] ある実施形態では、DNN−1 421およびDNN−K423のような集合サブDNNは、異なる非線形ユニット(例えば、シグモイド、Rectifer、Maxout、またはその他のユニット)、異なる構造(標準的なフィードフォワードDNN、畳み込みニューラル・ネットワーク(CNN)、リカレント・ニューラル・ネットワーク(RNN)、長期短期記憶RNN、またはその他の構造)、異なる訓練計画(例えば、標準的な訓練、異なる要素による脱落(dropout with different factors)、または他の計画)、異なるトポロジー(例えば、レイヤー数およびノード数が異なる)、および/または異なるデーターで訓練されたDNNであってもよい。このような多様性(variations)によって、異なる誤差パターンが得られ、したがって更に優れた教師DNNが供給される。図4に示すように、集合ネットワーク(教師DNN402)の出力450は未だ事後ベクトルであり、サブDNN−1 421の出力451、およびサブDNN−K423の出力453のような、そのサブDNNの各々の出力と同じ次元を有する。ある実施形態では、集合のメンバーである特定のサブDNNモデルは、その集合のためにサブDNNとして機能するDNNモデルの利用可能性に基づいて決定されてもよく、あるいは集合DNNの用途、アプリケーション環境、またはランタイム環境、あるいは集合DNNによって訓練される生徒DNNのそれに基づいて決定されてもよく、あるいは利用可能な訓練データーに基づいて決定されてもよく、あるいは、例えば、集合DNNによって訓練される生徒DNNに入力されることが期待されるデーターに基づいて決定されてもよい。これらの実施形態では、図1の初期化コンポーネント124(または同様のサービス)が、集合に含ませる特定のサブDNNを決定することもできる。
[0046] サブDNNの出力は、未補正の平均によって、重み付け投票によって(例えば、一定のサブDNNが、娯楽のような一定のアプリケーションまたはドメインに対しては性能が向上し、これらのサブDNNに割り当てる重みが高くなることが分かっている場合)、または集合を訓練する目的関数によって、出力450に組み合わせることができる。具体的には、各サブDNN出力と最終出力レイヤー450との間の接続は、1つ以上の基準を使用して訓練することができる。例えば、各サブDNNからの出力事後ベクトル(output posterior vector)を、自動的に学習された結合係数と組み合わせることによって、一例としてそして限定ではなく、交差エントロピー基準、シーケンシャル基準(sequential criterion)、最小二乗誤差基準、非負制約がある最小二乗誤差基準、または同様の基準を使用して、訓練することができる。一実施形態では、集合教師DNN402は、図1の訓練コンポーネント126によって訓練される。
[0047] これより図5に移り、小さい方のDNNモデルを大きい方のDNNモデルによって学習させることによって、コンピューター・システム上におけるデプロイメントのために、縮小サイズのDNNクラシファイアを生成する1つの実証的な方法500を表す流れ図を示す。方法500では、小さい方のDNNモデルは生徒DNNの役割を担い、大きい方のDNNは、小さい方のDNNが近づくように訓練される、「教師」として役割を果たす。方法500の実施形態は、図1〜図4において説明したコンポーネント(DNNモデルを含む)を使用して実行することができる。
[0048] 高いレベルにおいて、方法500の一実施形態は、生徒DNNの出力と教師出力との間の差に基づいて、生徒DNNが教師DNNに収束するまで、生徒DNNを繰り返し最適化する。このように、生徒DNNは教師の行動に近づく(approach)ので、教師が間違っているかもしれない場合でも、生徒は、教師の出力がどんなものであっても、これに接近する(approximate)。一旦訓練されたなら、スマートフォン、娯楽システム、あるいは、教師DNNモデルをサポートするコンピューター・システムと比較すると計算または記憶リソースが限られている同様の消費者用電子デバイスのような、コンピューター・システム上において生徒DNNモデルをクラシファイアとしてデプロイすることができる。
[0049] ステップ510において、第1DNNモデルを決定する。第1DNNモデルは、方法500の後のステップにおいて「生徒」DNNを訓練する教師DNNとしての役割を果たす。第1DNNモデル、即ち、「教師DNN」は、コンピューティング・デバイス上にクラシファイアとしてデプロイされるときに、生徒DNNに意図される用途に基づいて決定することができる。例えば、訓練される生徒DNNが、例えば、移動体デバイス上においてASRシステムの一部としてデプロイされることが意図される場合、教師DNNをASRに特化する(specialize)ことができる。一実施形態では、決定された教師DNNは既に訓練されており、図1のアクセス・コンポーネント122のようなアクセス・コンポーネントによってストレージからアクセスすることもできる。他の実施形態では、決定された教師DNNを初期化し(図1の初期化コンポーネント124を使用して実行することができる)、訓練する(図1の訓練コンポーネント126を使用して実行することができる)。ステップ510において教師DNNを訓練する一実施形態では、勾配に基づく最適化、または教師なし貪欲レイヤー毎訓練手順(unsupervised greedy layer-wise training procedure)を使用するというように、DNNモデル訓練の技術分野では周知の技法にしたがって、ラベル付きデーターまたは書き起こしデーターを使用することができる。一実施形態では、教師DNNモデルは、ラベル付きデーターの順方向伝搬を適用し、出力分布をラベル情報と比較して誤差を判定し、DNNのパラメーターを更新し、誤差が最小化するまで繰り返す繰り返しプロセスによって訓練される。
[0050] 一実施形態では、教師DNNはCD−DNN−HMMを含む。あるいは、教師DNNは、例えば、非線形ユニット(例えば、シグモイド、Rectifer、Maxout、またはその他のユニット)を使用することもでき、標準フィードフォワードDNN、畳み込みニューラル・ネットワーク(CNN)、リカレント・ニューラル・ネットワーク(RNN)、長期短期記憶RNN、またはその他の構造を有することもでき、および/または種々の訓練計画(例えば、標準的な訓練、異なる要素による脱落、またはその他の計画)に基づいて訓練することもできる。ステップ510の一実施形態では、教師DNNモデルは、複数のサブDNNモデルを含む集合DNNモデルを構成する(comprise)。このような実施形態では、集合DNNモデルは、図4および方法600(図6)のステップ610〜630に関係付けて説明したように決定することができる。
[0051] ステップ520において、第2DNNモデルを初期化する。第2DNNモデルは、ステップ510において決定された教師DNNから学習させる「生徒DNN」として役割を果たす。ある実施形態では、第2DNN、即ち、「生徒DNN」は、図1の初期化コンポーネント124に関係付けて説明したように、初期化コンポーネントによって作成および/または初期化される。例えば、ステップ520において、教師DNNよりも小さいサイズ(例えば、レイヤー当たり少ない数のパラメーターまたはノード)を有する、および教師DNNとは異なる数の隠れレイヤーも有してもよいとして、生徒DNNを作成することができ(またそうでなくて、既存の生徒DNNモデルを使用する場合は、決定する)。ある実施形態では、生徒DNNのサイズは、訓練された生徒DNNがクラシファイアとしてデプロイされるクライアント・デバイスに基づいて、例えば、クライアント・デバイスの計算および記憶制限に基づいて決定される。また、生徒DNNは、クラシファイアとしてデプロイされるときに、訓練された生徒DNNに意図された用途(例えば、ASR、画像処理等)に基づいて決定されてもよい。
[0052] 一実施形態では、ステップ520において、ステップ510において決定された教師DNNをコピーし分割して縮小寸法の生徒DNNを作成することによって、生徒DNNを作成する。実施形態では、訓練データーを受け取り、生徒DNNモデルの監視されない予備訓練(unsupervised pre-training)を行うことによって、生徒DNNを初期化することができる。例えば、書き起こしなしデーターを受け取り、生徒DNNモデルのために初期ノード重みを決めるために使用することができる(即ち、図2に関係付けて説明したような、行列Wの重み)。他の実施形態では、ステップ520は、乱数をモデルにおけるノードの重みに割り当てることによって、訓練されていない生徒DNNモデルを初期化する動作を含む。一実施形態では、生徒DNNモデルは、予め存在していてもよい従来のCD−GMM−HMMシステムから、単音の集合、HMM技術、および文脈依存状態の結束を含むモデル構造を継承するように、作成および初期化される。
[0053] ステップ530において、ステップ520において初期化された生徒DNNを訓練するために、1組のラベルなしデーターを受け取る。ラベルなしデーターは、図1のアクセス・コンポーネント122に関係付けて説明したように、アクセス・コンポーネントによって受け取ることができる。例えば、ラベルなしデーターは、ストレージから受け取られてもよく、および/またはデプロイメント・フィードバック・ループから受け取られてもよい(または最終的に導き出される)。ラベルなしデーターは、一実施形態では、書き起こしなしデーターを含んでもよい。
[0054] 大量のラベルなし訓練データーが利用可能な場合もある(例えば、1つ以上のデプロイメント・フィードバック・ループから得られるデーター)ので、ステップ530の一実施形態は、方法500の後続のステップにおいて生徒DNNを訓練するときに使用するために、大量のラベルなしデーターを受け取る動作を含む。ステップ530は方法500における1つのステップとして示されているが、訓練のためのラベルなしデーターは、必要に応じて、方法500の複数のステップの間に受け取るのでもよいことが考えられる。例えば、一実施形態では、ステップ540から560までの繰り返し毎に、ラベルなしデーターの新たな部分(または部分集合)を受け取り、出力分布を判定するために使用してもよい。
[0055] ステップ540から560において、生徒DNNの出力分布を最適化して教師DNNの出力分布に接近するように、繰り返しプロセスを使用して生徒DNNを訓練する。例えば、一実施形態では、生徒出力分布が教師の出力分布に十分収束するまで(またそうでなければ近づくまで)、ステップ540〜560を繰り返す。各繰り返しにより、生徒DNNの出力分布の教師DNNの出力分布からの差または誤差に基づいて、十分な収束が達成されるまで生徒DNNを更新する。ある実施形態では、訓練データーの1回以上の全域掃引(full sweeping)を連続する繰り返しにわたって使用して、多様な入力を教師および生徒DNNに供給する。
[0056] ステップ540において、ステップ530において受け取ったラベルなし訓練データーの部分集合を使用して、教師DNNの出力分布および生徒DNNの出力分布を判定する。教師DNNおよび生徒DNNの出力分布は、図1の訓練コンポーネント126に関係付けて説明したように、訓練コンポーネントによって判定することができる。一実施形態では、訓練データーの部分集合はミニバッチ(mini-batch)を含み、これを教師DNNおよび生徒DNNに入力する(同じミニバッチが双方のDNNモデルに供給される)。これから、教師DNNおよび生徒DNNについて出力分布を決定する。一実施形態では、ミニバッチは書き起こしなし訓練データーの内256サンプルまたは「フレーム」を含む。
[0057] 例えば、一実施形態では、ミニバッチ毎に、順方向伝搬を教師および生徒DNNに対して行い、出力分布を判定する(事後分布)。具体的には、教師DNNおよび生徒DNNに入力訓練データーxを与えたときのセノンsに対する事後分布は、教師即ち大きい方のDNNについてはP(s|x)で示すことができ(ここで「L」は大きい方を暗示する)、生徒DNNについてはP(s|x)で示すことができる。したがって、ステップ540の実施形態では、教師DNNおよび生徒DNNについてP(s|x)およびP(s|x)をそれぞれ計算するために、順方向伝搬を適用する。
[0058] ステップ550において、生徒DNN出力分布を、教師DNN出力分布と対照して評価する。ステップ550の評価プロセスは、図1の評価コンポーネント128に関係付けて説明したように、評価コンポーネントによって実行することができる。ステップ550の一実施形態では、ステップ540において判定された出力分布(ステップ540において使用された訓練データーのミニバッチまたは部分集合から判定された)から、生徒DNNの出力分布と教師DNNの出力分布との間の差を最初に判定する。(差は、生徒出力と教師出力との間の「誤差」または「誤差信号」として表すことができる。)次いで、この差に基づいて、生徒DNN出力分布および教師DNN出力分布が収束したか否か判定する。例えば、それらの差(または誤差)が十分に小さい場合、または数回の繰り返しにわたって差がもはや小さくなっていない場合(生徒DNNの出力分布がもはや教師DNN出力分布との収束に向かっていないので、生徒DNNの学習が停止したことを暗示する)に、出力は収束したと判定することができる。
[0059] 例えば、誤差信号が十分小さく(例えば、閾値未満)、生徒の性能が教師の性能に接近しつつあることを示すか否かに基づいて、収束を判定するために閾値(収束または差閾値と呼んでもよい)を適用することができる。言い換えると、生徒は未だ訓練されているが、もはや繰り返しを継続する必要はない。一実施形態では、閾値は予め決められており、および/または生徒DNNのサイズに基づいて、またはコンピューティング・デバイス上にクラシファイアとしてデプロイされたときに生徒DNNに意図される用途に基づいてもよい。あるいは、ステップ550において判定される評価は、ステップ540の最新の繰り返しにわたって判定された誤差信号または差を比較して、誤差信号が小さくなりつつあるか(生徒DNNが訓練から改良し続けていることを暗示する)、または全く小さくなっていないか(生徒DNN、または更に具体的にはその事後分布が、事実上、教師DNNの事後分布との収束を達成したことを暗示する)判定することもできる。
[0060] ステップ550に進み、回帰を使用して、または教師および生徒DNNの出力間の発散を最小化するための同様の技法によって、事後分布間のカルバック・ライブラー(KL)発散を判定することによって、出力分布間の差を判定することができる。例えば、一実施形態では、所与の1組の訓練データーx、t=1からT、に対して、教師DNNおよび生徒DNNの事後分布が、それぞれ、P(s|x)およびP(s|x)として決定される場合、これら2つの分布の間におけるKL発散は、
Figure 2017531255
となる。ここで、Nはセノンの総数である。
[0061] 方法500の実施形態は、訓練された教師DNNに接近するように、生徒DNNを学習させるので、生徒DNNのパラメーターのみが最適化される。したがって、以上のKL発散を最小化することは、交差エントロピーを最小化することと同等となる。
Figure 2017531255
何故なら、P(s|x)logP(s|x)は、生徒DNNパラメーターの最適化には影響を及ぼさないからである。以上の式(3)の訓練基準は、図2に関係付けて説明した式(1)における標準的なDNN訓練基準の一般的な形態であり、各フレームに対して、P(s|x)の1つの次元だけが1に等しく、他の次元は0に等しい。対照的に、式(3)では、P(s|x)のあらゆる次元が非ゼロ(しかし非常に小さくてもよい)値を有することができる。(これは、本明細書において説明する方法によって生成されるDNNモデルが、同じサイズであるが標準的な訓練基準にしたがって訓練されたDNNモデルと異なる理由、即ち、それよりも精度が高い理由を示す。)KL発散を使用して教師および生徒出力分布間の誤差信号を判定することによって、回帰またはMSEのような他の代替方法と比較して、利点が得られる。何故なら、KL発散を最小化することは、分布の交差エントロピーを最小化することと同等であるからである。
[0062] ステップ555において、ステップ550において判定した評価に基づいて、方法500はステップ560からステップ570に進む。具体的には、ステップ550において、生徒DNN対教師DNNの出力分布間の収束が達成されていない場合(例えば、収束または差閾値が満たされていない、または生徒DNNの出力が改良し続けている)、方法500はステップ560に進み、ステップ550において判定した誤差信号(または差)に基づいて、生徒DNNを更新する。しかしながら、ステップ550において、収束に達した、または誤差信号がもはや小さくなっていない(生徒DNNがもはや訓練から改良していないことを暗示する)と判定した場合、方法500はステップ570に進む。(言い換えると、生徒DNNにとって「授業は終わった」。)
[0063] 一実施形態では、ステップ555は、訓練データーの全域掃引が既に行われたか否かも判定する。行われており(訓練データーの全てが少なくとも1回は使用された場合)、そして収束に達した(または、誤差信号がもはや小さくなっていない)場合、方法500は570に進む。しかし、データーの全てが未だ適用されていない場合、方法500はステップ560に進み、この実施形態では、繰り返す。
[0064] ステップ560において、ステップ550において判定した評価に基づいて、生徒DNNを更新する。図1の訓練コンポーネント126に関係付けて説明したように、生徒DNNは訓練コンポーネントによって更新することができる。一実施形態では、ステップ550において判定した生徒DNNおよび教師DNNの出力分布間の差を使用して、生徒DNNのパラメーターまたはノード重みを更新する。これは、逆伝搬を使用して実行することができる。このように生徒DNNを更新することによって、生徒DNNの出力分布が教師DNNの出力分布に一層緊密に接近するように訓練し易くなる。
[0065] 実施形態では、式(3)の出力が、逆伝搬によって生徒DNNを更新するために使用される。繰り返し毎に、式(3)の出力を使用し、逆伝搬を適用して生徒DNNを更新し、これによって更に教師に接近するように生徒DNNを訓練することができる。ステップ560に続いて、方法500はステップ540に戻り、訓練データーの部分集合(またはミニバッチ)を使用して、教師DNNおよび更新されたばかりの生徒DNNについて出力分布を判定する。一実施形態では、1組のラベルなし訓練データーにおけるデーターの全て(ステップ530において受け取った)が使用されるまで、繰り返し毎に、新たな部分集合またはミニバッチをステップ540において使用する。訓練データーが再循環される前に、訓練データーの全域掃引が適用されるとよい。
[0066] ステップ570において、訓練された生徒DNNを供給する。ステップ550の判定に基づいて、訓練された生徒DNNの出力分布は、教師DNNのそれに十分に収束しているか、または生徒DNNがもはや改良の兆候を示していない。一実施形態では、訓練された生徒DNNは、図1のクライアント・デバイス102または104のような、コンピューティング・システムまたはコンピューティング・デバイス上に、DNNクラシファイアとしてデプロイされる。例えば、訓練された生徒DNNは、スマートフォンまたはスマート・グラス上にデプロイされてもよい。教師DNNモデルおよび訓練データーに基づいて、訓練された生徒DNNは、特定の用途のために(例えば、画像処理またはASR)特化することができ、または一般化することもできる。
[0067] 既に説明したように、方法500のいくつかの実施形態の利点は、生徒DNNがラベルなし(または書き起こしなし)データーを使用して訓練されることである。何故なら、その訓練ターゲット(教師DNNの出力分布であるP(s|x))は、ラベルなし訓練データーを教師DNNモデルに通すことによって得られるからである。ラベル付きまたは書き起こし訓練データーの必要なく、訓練のために遙かに多いデーターが利用可能になる。更に、特定の特徴空間を覆うために入手可能な訓練データーが増えるに連れて、デプロイされる(生徒)DNNモデルの精度は更に一層向上する。
[0068] これより図6に移り、DNNモデルを集合DNNモデルから学習させることによって、コンピューター・システム上においてクラシファイアとしてデプロイするために、訓練済みDNNモデルを生成する一実証的方法600を表す流れ図を示す。方法600において、集合DNNモデルは「教師」の役割を担い、一方訓練されるDNNモデルは「生徒」の役割を担う。方法600の生徒DNNモデルは、方法500(図5)において説明したのと同様にして、集合教師DNNモデルに接近するように、訓練することができる。集合教師DNNの利点の1つは、訓練された集合の出力が集合メンバー(サブDNN)の全ての音声を含むので、更に一層精度が高いことである。方法600の実施形態は、図1〜図4において説明したコンポーネント(DNNモデルを含む)を使用して実行することができる。具体的には、図4は、方法600のいくつかの実施形態における使用に適した集合教師モデルの実施形態を説明する。
[0069] ステップ610において、集合DNNモデルにサブDNNとして含ませる複数のDNNモデルを決定する。この複数のDNNモデルは、図1の初期化コンポーネント124およびアクセス・コンポーネント122に関係付けて説明したように、初期化コンポーネントおよび/またはアクセス・コンポーネント、ならびに図4に関係付けて説明した教師DNN402によって決定することができる。ある実施形態では、集合教師DNNに含ませることが決定されたサブDNNは、異なる非線形ユニット(例えば、シグモイド、Rectifer、Maxout、または他のユニット)、異なる構造タイプ(例えば、標準フィードフォワードDNN、畳み込みニューラル・ネットワーク(CNN)、リカレント・ニューラル・ネットワーク(RNN)、長期短期記憶RNN、または他の構造)を有するDNNまたは同様の構造を含んでもよく、異なる訓練計画(例えば、標準的な訓練、異なる要素による脱落、または他の計画)にしたがって訓練されてもよく、異なるトポロジー(例えば、レイヤーおよびノードの数が異なる)を有してもよく、および/または異なるデーターによって訓練されてもよい。このような多様性(variations)によって、異なるエラー・パターンを生じ、一層優れた教師DNNを供給することができる。
[0070] ある実施形態では、例えば、集合のサブDNNとして機能するDNNモデルの可用性に基づいて、集合DNNの用途、用途環境、またはランタイム環境、あるいは集合DNNによって訓練される生徒DNNのそれに基づいて、利用可能な訓練データーに基づいて、あるいは集合DNNによって訓練される生徒DNNに入力されることが予期される訓練データーに基づいて、集合のメンバーである特定のサブDNNモデルが決定されてもよい。これらの実施形態では、図1の初期化コンポーネント124(または同様のサービス)が、集合に含まれる特定のサブDNNを決定してもよい。
[0071] ステップ620において、ステップ610において決定した複数のサブDNNを使用して、集合教師DNNモデルを生成する。集合教師DNNモデルは、図1の初期化コンポーネント124に関係付けて説明したような、初期化コンポーネントによって生成することができ、一実施形態では、図4に関係付けて説明した集合教師DNNモデル例402と同様であってもよい。ステップ620において、集合ネットワークの出力が、集合教師DNNモデルの出力分布(または事後分布)表す事後ベクトルを構成する(comprise)。一実施形態では、事後ベクトルはサブDNNの各々の出力と同じ次元を有する。一実施形態では、集合教師DNN402は、巨大な集合DNNを含み、それよりも小さい生徒DNNの訓練の目的以外では実用上デプロイできない程大きくてもよく、サーバー、クライアント・デバイス、または他のコンピューティング・デバイス上にデプロイすることができる。
[0072] ステップ630において、集合教師DNNを訓練する。集合教師DNNモデルは、図1の訓練コンポーネント126に関係付けて説明したような、または図4に関係付けて説明したような、訓練コンポーネントによって訓練することができる。一実施形態では、サブDNNは既に訓練されている。あるいは、集合教師DNNを訓練する前に、サブDNNを訓練してもよい(方法500のステップ510に関係付けて説明したように)。一実施形態では、ステップ630は、サブDNNの出力の未補正の平均を使用することによって、重み付け投票によって(例えば、一定のサブDNNが、娯楽のような一定のアプリケーションまたはドメインに対しては性能が向上し、これらのサブDNNに割り当てる重みが高くなることが分かっている場合)、または目的関数によって、サブDNNの出力を、集合の事後出力分布を表すベクトルに組み合わせる動作を含む。具体的には、各サブDNNからの出力事後ベクトルを、交差エントロピー基準、連続基準、最少二乗誤差基準、非負制約がある最少二乗誤差基準、または同様の基準を使用して自動的に学習された結合係数と組み合わせることによってというようにして、各サブDNN出力分布と、集合の出力分布を表すベクトルとの間の接続を訓練することができる。
[0073] ステップ640において、方法600の直前のステップにおいて生成および訓練した集合教師DNNを使用して、生徒DNNを訓練する。この訓練は、図1の訓練コンポーネント126に関係付けて説明したような訓練コンポーネントによって実行することができる。ステップ640の実施形態は、方法500のステップ520から560までにおいて説明したように実行することができ、集合教師DNNが方法500の教師DNNとして機能する。ステップ640のある実施形態では、方法500のステップ520にしたがって生徒DNNを初期化される。
[0074] ステップ640を完了すると、ステップ650において、訓練された生徒DNNをコンピューティング・システム上にデプロイすることができる。一実施形態では、訓練された生徒DNNは、方法500のステップ570において説明したようにデプロイされる。ある実施形態では、方法600の生徒DNNは、クライアント・デバイスではなく、サーバーのようなコンピューター・システム上にデプロイすることができる標準サイズのDNNを含む。
[0075] 以上のように、デプロイされるDNNを、もっと大きな容量(隠れノードの数)を有する教師DNNから「学習させる」ことによって、コンピューティング・デバイス上におけるデプロイメントのための、縮小サイズで更に精度を高めたDNNクラシファイアを供給するためのシステムおよび方法を目的とする技術の種々の態様について説明した。本発明のある実施形態にしたがって訓練されたDNNクラシファイアは、より強力なサーバーおよびコンピューティング・システムと比較すると計算および記憶リソースが限られている、スマートフォン、娯楽システム、または同様の消費者用電子デバイス上において、高精度な信号処理(例えば、ASRまたは画像処理)に応用するのに特に適している。また、教師用に集合DNNモデルを使用して、本明細書において説明した教師−生徒訓練プロセスを応用し、生徒DNNを訓練する前に集合教師DNNを訓練することができる実施形態についても説明した。
[0076] 尚、本明細書において説明した実施形態の種々の特徴、サブコンビネーション、および変更は、有用であり、他の特徴やサブコンビネーションを参照せずに、他の実施形態において採用してもよいことは理解されよう。更に、方法例500および600において示したステップの順序およびシーケンスは、本発明の範囲を限定することは全く意図しておらず、実際、ステップは実施形態の範囲内で種々の異なるシーケンスで現れてもよい。このような変形および組み合わせも、本発明の実施形態の範囲内に入ると考えられる。
[0077] 以上、本発明の種々の実施形態について説明したので、これより、本発明の実施形態を実現するのに適した実証的なコンピューティング環境について説明する。図7を参照すると、実証的なコンピューティング・デバイスが示されており、全体的にコンピューティング・デバイス700と呼ぶ。コンピューティング・デバイス700は、適したコンピューティング環境の一例に過ぎず、本発明の使用範囲や機能に関して限定を示唆することは全く意図していない。また、コンピューティング・デバイス700が、図示するコンポーネントのいずれの1つに、またはその組み合わせに関しても、何らかの依存性や要件を有するように解釈してはならない。
[0078] 本発明の実施形態は、コンピューター・コードまたは機械使用可能命令という一般的なコンテキストで説明することができ、コンピューター・コードまたは機械使用可能命令には、パーソナル・データー・アシスタント、スマートフォン、タブレットPC、または他のハンドヘルド・デバイスのようなコンピューターまたは他の機械によって実行可能な、プログラム・モジュールのような、コンピューター使用可能またはコンピューター実行可能命令を含む。一般に、プログラム・モジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、データー構造等を含み、特定のタスクを実行するコード、または特定の抽象データー型を実装するコードを指す。本発明の実施形態は、ハンドヘルド・デバイス、消費者用電子機器、汎用コンピューター、更に特殊化したコンピューティング・デバイスなどを含む、種々のシステム構成において実施することができる。また、本発明の実施形態は、分散型コンピューティング環境において実施することもでき、その場合、タスクは、通信ネットワークを通じてリンクされたリモート処理デバイスによって実行される。分散型コンピューティング環境では、プログラム・モジュールは、メモリー記憶デバイスを含むローカルおよびリモート双方のコンピューター記憶媒体に配置されてもよい。
[0079] 図7を参照すると、コンピューティング・デバイス700は、以下のデバイスを直接または間接的に結合するバス710を含む。メモリー712、1つ以上のプロセッサー714、1つ以上のプレゼンテーション・コンポーネント716、1つ以上の入力/出力(I/O)ポート718、1つ以上のI/Oコンポーネント720、および例示的な電源722。バス710は、1つ以上のバス(アドレス・バス、データー・バス、またはそれらの組み合わせ等)であってもよいものを表す。図7の種々のブロックは、明確化のために線分で示すが、実際には、これらのブロックは論理的なコンポーネントを表し、必ずしも実際のコンポーネントではない。例えば、ディスプレイ・デバイスのようなプレゼンテーション・コンポーネントを、I/Oコンポーネントであると考える者もいるであろう。また、プロセッサーはメモリーを有する。本発明者は、このようなことは技術の本質であると認識しており、図7の線図は本発明の1つ以上の実施形態と共に使用することができるコンピューティング・デバイスの一例を例示するに過ぎないことを繰り返しておく。「ワークステーション」、「サーバー」、「ラップトップ」、「ハンドヘルド・デバイス」等というようなカテゴリー間では区別を行わない。何故なら、これら全ては図7の範囲に該当すると考えられ、「コンピューティング・デバイス」を指す(reference to)からである。
[0080]
通例、コンピューティング・デバイス700は、種々のコンピューター読み取り可能媒体を含む。コンピューター読み取り可能媒体は、コンピューティング・デバイス700によってアクセスすることができるあらゆる入手可能な媒体とすることができ、揮発性および不揮発性双方の媒体、リムーバブルおよび非リムーバブル媒体を含む。一例として、そして限定ではなく、コンピューター読み取り可能媒体は、コンピューター記憶媒体および通信媒体を含むことができる。コンピューター記憶媒体は、揮発性および不揮発性の双方、リムーバブルおよび非リムーバブル媒体を含み、コンピューター読み取り可能命令、データー構造、プログラム・モジュール、または他のデーターというような情報の格納のための任意の方法または技術で実現される。コンピューター記憶媒体は、RAM、ROM、EEPROM、フラッシュ・メモリーまたは他のメモリー技術、CD−ROM、ディジタル・バーサタイル・ディスク(DVD)または他の光ディスク・ストレージ、磁気カセット、磁気テープ、磁気ディスク・ストレージまたは他の磁気記憶デバイス、あるいは所望の情報を格納するために使用することができ更にコンピューティング・デバイス700によってアクセスすることができる任意の他の媒体を含むが、これらに限定されるのではない。コンピューター記憶媒体は、信号自体を含まない。通信媒体は、通例、コンピューター読み取り可能命令、データー構造、プログラム・モジュール、または他のデーターを、搬送波または他の移送メカニズムのような変調データー信号内に具体化し、任意の情報配信媒体を含む。「変調データー信号」という用語は、当該信号内に情報を符合化するような形で、その特性の1つ以上が設定または変更された信号を意味する。一例として、そして限定ではなく、通信媒体は、有線ネットワークまたは直接有線接続のような有線媒体と、音響、RF、赤外線、および他のワイヤレス媒体のようなワイヤレス媒体とを含む。以上の内任意のものの組み合わせも、コンピューター読み取り可能媒体の範囲内に含まれてしかるべきである。
[0081] メモリー712は、揮発性および/または不揮発性メモリーの形態としたコンピューター記憶媒体を含む。このメモリーは、リムーバブル、非リムーバブル、またはその組み合わせであってもよい。ハードウェア・デバイスの例には、ソリッド・ステート・メモリー、ハード・ドライブ、光ディスク・ドライブ等が含まれる。計算デバイス700は、1つ以上のプロセッサー714を含み、プロセッサー714は、メモリー712またはI/Oコンポーネント720のような種々のエンティティからデーターを読み取る。プレゼンテーション・コンポーネント(1つまたは複数)716は、ユーザーまたは他のデバイスにデーター指示を提示する。例証的なプレゼンテーション・コンポーネントには、ディスプレイ・デバイス、スピーカー、印刷コンポーネント、振動コンポーネント等が含まれる。
[0082] I/Oポート718は、コンピューティング・デバイス700を論理的にI/Oコンポーネント720を含む他のデバイスに結合することを可能とし、I/Oコンポーネント720の一部が内蔵されてもよい。例示的なコンポーネントには、マイクロフォン、ジョイスティック、ゲーム・パッド、衛星ディッシュ、スキャナー、プリンター、ワイヤレス通信デバイス等が含まれる。I/Oコンポーネント720は、自然ユーザー・インターフェース(NUI)を設けることもできる。NUIは、エア・ジェスチャ、音声、またはユーザーによって生成されるその他の生理的入力を処理する。ある場合には、更なる処理のために、しかるべきネットワーク・エレメントに入力を送信することもできる。NUIは、音声認識、タッチおよびスタイラス認識、顔認識、生物計量認識、画面上および画面付近双方におけるジェスチャ認識、エア・ジェスチャ、頭部および眼球追跡、ならびにコンピューティング・デバイス700上における表示に関連するタッチ認識の任意の組み合わせを実現することができる。コンピューティング・デバイス700には、立体視カメラ・システム、赤外線カメラ・システム、RGBカメラ・システム、およびこれらの組み合わせのような深度カメラを、ジェスチャ検出および認識のために装備することもできる。加えて、コンピューティング・デバイス700には、動きの検出を可能にする加速度計またはジャイロスコープを装備することもできる。加速度計またはジャイロスコープの出力は、没入型拡張現実または仮想現実をレンダリングするために、コンピューティング・デバイス700のディスプレイに供給することができる。
[0083] 図示した種々のコンポーネントおよび図示しないコンポーネントの多くの異なる構成も、以下の請求項の範囲から逸脱することなく、可能である。以上、限定的ではなく例示的であるという意図で、本発明の実施形態について説明した。本開示の読み手には、これを読んだ後には、そしてこれを読んだことにより、代替実施形態も明らかになるであろう。以上のことを実現する代替手段も、以下の請求項の範囲から逸脱することなく、完成することができる。ある種の特徴およびサブコンビネーションは有用であり、他の特徴やサブコンビネーションを参照することなく採用することができ、請求項の範囲内に入ると考えられる。
[0084] 以上、構造的特徴および/またはアクトに特定的な文言で本主題について説明したが、添付した特許請求の範囲において定められる主題は、必ずしも、以上で説明した具体的な特徴やアクトには限定されないことは理解されよう。逆に、以上で説明した具体的な特徴およびアクトは、特許請求の範囲を実現する例として開示されたまでであり、他の等価な特徴およびアクトも、特許請求の範囲内に入ることを意図している。
[0085] したがって、第1の態様では、本発明の実施形態は、コンピューター実行可能命令が具体化されている1つ以上のコンピューター読み取り可能媒体を対象とし、プロセッサーとメモリーとを有するコンピューティング・システムによってコンピューター実行可能命令が実行されると、コンピューティング・システムに、コンピューティング・デバイス上におけるデプロイメントのためにDNNクラシファイアを生成する方法を実行さる。この方法は、第1DNNモデルを教師DNNモデルとして決定するステップと、第2DNNモデルを生徒DNNモデルとして初期化するステップと、1組のラベルなし訓練データーを受け取るステップとを含む。また、この方法は、ある回数の繰り返しにおいて、(a)1組の訓練データーの内の部分集合を使用して、教師DNNモデルの教師出力分布と、生徒DNNモデルの生徒出力分布とを判定するステップと、(b)生徒出力分布対教師出力分布の評価を判定するステップであって、評価が差を含む、ステップと、(c)評価に基づいて、差を最小化するように生徒DNNモデルを更新するステップとを含む。更に、この方法は、生徒DNNモデルを訓練済みDNNクラシファイアとして供給するステップであって、ある回数の繰り返しが、判定された評価に基づく、ステップとを含む。
[0086] 第1の態様のある実施形態では、生徒出力分布対教師出力分布の評価を判定するステップが、生徒出力分布と教師出力分布との間の収束を判定するステップを含み、ある回数の繰り返しが、収束が判定するまでにステップ(a)から(c)までを実行した回数である。第1の態様のある実施形態では、生徒出力分布対教師出力分布の評価を判定するために、カルバック・ライブラー発散を使用し、判定された評価が誤差信号を含み、更に他のある実施形態では、生徒DNNモデルが、誤差信号に基づいて、逆伝搬を使用して更新される。
[0087] 第1の態様のある実施形態では、教師出力分布および生徒出力分布が、データーの部分集合を使用して、順方向伝搬によって判定される。第1の態様のある実施形態では、第1DNNモデルが、既に訓練されているDNNモデルから判定される。第1の態様のある実施形態では、第1DNNモデルは集合DNNモデルを含む。第1の態様のある実施形態では、第2DNNモデルは、第1DNNモデルに基づいて初期化されるか、またはランダムな重み値によって初期化され、第2DNNモデルは予め訓練されている。第1の態様のある実施形態では、第2DNNモデルはCD−DNN−HMMフレームワークの一部である。第1の態様のある実施形態では、1組の訓練データーの内の部分集合はミニバッチを含み、1組の訓練データーの全てが使用され終えるまで、ある回数の繰り返しの各繰り返しに、データーの異なるミニバッチが使用される。本発明の一実施形態は、クライアント・デバイス上にデプロイされ、第1の態様のコンピューター実行可能命令をコンピューティング・システムによって実行することによって生成される、DNNクラシファイアを含む。
[0088] 第2の態様において、コンピューター・システム上におけるクラシファイアとしてのデプロイメントのために、訓練済みDNNモデルを生成するためのコンピューター実装方法を提供する。この方法は、集合DNNモデルにおけるサブDNNとして含ませる複数のDNNモデルを決定するステップと、これらのサブDNNを使用して集合DNNモデルを組み立てることによって、複数のサブDNNの各々を集合メンバーとするステップとを含む。また、この方法は、集合DNNモデルを訓練するステップも含む。また、この方法は、生徒DNNモデルを初期化するステップと、訓練済み集合DNNモデルを教師DNNとして使用して、生徒DNNモデルを訓練するステップとを含む。更に、この方法は、生徒DNNモデルをDNNクラシファイアとして供給するステップも含む。
[0089] 第2の態様のある実施形態では、集合DNNモデルにおけるサブDNNとして含ませる複数のDNNモデルが、コンピューター・システム上にデプロイされるDNNクラシファイアに意図される用途に基づいて決定される。第2の態様のある実施形態では、サブDNNが、(a)異なる非線形ユニットを有する、(b)異なる構造タイプを有する、(c)異なる訓練計画にしたがって訓練された、(d)異なるトポロジーを有する、または(e)異なるデーターによって訓練されたDNNモデルを含む。第2の態様のある実施形態では、集合DNNモデルを訓練するステップが、交差エントロピー基準、シーケンシャル基準、最少二乗誤差基準、または非負制約がある最少二乗誤差基準を使用して、学習済みの係数の組み合わせによって集合メンバーの出力分布を組み合わせるステップを含む。
[0090] 第2の態様のある実施形態では、生徒DNNモデルを訓練するステップが、(a)ラベルなし訓練データーのミニバッチを受け取るステップと、(b)ミニバッチを使用して、生徒DNNモデルおよび教師DNNモデルにおけるミニ-バッチの順方向伝搬によって、教師DNNモデルの教師出力分布と、生徒DNNモデルの生徒出力分布とを判定するステップと、(c)生徒出力分布対教師出力分布の評価を判定するステップであって、評価が誤差信号を含む、ステップと、(d)評価に基づいて、生徒出力分布および教師出力分布が収束を達成したか否か判定するステップであって、(i)生徒出力分布および教師出力分布が収束したと判定された場合、生徒DNNモデルをクライアント・デバイス上におけるデプロイメントのために供給するステップと、(ii)生徒出力分布および教師出力分布が収束していないと判定された場合、判定された評価に基づいて、生徒DNNモデルを更新し、ステップ(a)から(d)までを繰り返すステップとを含む。更に、ある実施形態では、生徒DNNモデルがCD−DNN−HMMフレームワークの一部であり、ステップ(a)において受け取られるミニバッチが、ステップ(b)において未だ使用されていない訓練データーの部分集合を含む。
[0091] 第3の態様において、クライアント・デバイス上にデプロイされ、プロセスにしたがって作成されたDNNベースのクラシファイアを提供する。このプロセスは、(a)第1DNNモデルを教師DNNモデルとして決定するステップと、(b)第2DNNモデルを生徒DNNモデルとして初期化するステップとを含む。また、このプロセスは、(c)1組のラベルなし訓練データーを受け取るステップと、(d)この1組の訓練データーからの部分集合を使用して、教師DNNモデルの教師出力分布と、生徒DNNモデルの生徒出力分布とを判定するステップも含む。また、このプロセスは、(e)生徒出力分布対教師出力分布の評価を判定するステップも含む。更に、このプロセスは、(f)評価に基づいて、生徒出力分布および教師出力分布が収束を達成したか否か判定し、生徒出力分布および教師出力分布が収束したと判定された場合、生徒DNNモデルをクライアント・デバイス上におけるデプロイメントのために供給するステップと、生徒出力分布および教師出力分布が収束していないと判定された場合、判定された評価に基づいて、生徒DNNモデルを更新し、ステップ(d)から(f)までを繰り返すステップとを含む。
[0092] 第3の態様の一実施形態では、生徒DNNモデルはCD−DNN−HMMフレームワークの一部であり、生徒出力分布対教師出力分布の評価を判定するために、カルバック・ライブラー発散を使用し、判定された評価が誤差信号を含み、生徒DNNモデルが、誤差信号に基づいて、逆伝搬を使用して更新され、DNNクラシファイアは、自動音声認識システムの一部として、クライアント・デバイス上にデプロイされる。

Claims (10)

  1. コンピューター実行可能命令が具体化されている1つ以上のコンピューター読み取り可能媒体であって、プロセッサーとメモリーとを有するコンピューティング・システムによって前記コンピューター実行可能命令が実行されると、前記コンピューティング・システムに、コンピューティング・デバイス上におけるデプロイメントのためにDNNクラシファイアを生成する方法を実行させ、前記方法が、
    第1DNNモデルを教師DNNモデルとして決定するステップと、
    第2DNNモデルを生徒DNNモデルとして初期化するステップと、
    1組のラベルなし訓練データーを受け取るステップと、
    ある回数の繰り返しにおいて、
    (a)前記1組の訓練データーの内の部分集合を使用して、前記教師DNNモデルの教師出力分布と、前記生徒DNNモデルの生徒出力分布とを判定するステップと、
    (b)前記生徒出力分布対前記教師出力分布の評価を判定するステップであって、前記評価が差を含む、ステップと、
    (c)前記評価に基づいて、前記差を最小化するように前記生徒DNNモデルを更新するステップと、
    前記生徒DNNモデルを訓練済みDNNクラシファイアとして供給するステップであって、前記ある回数の繰り返しが、前記判定された評価に基づく、ステップと、
    を含む、1つ以上のコンピューター読み取り可能媒体。
  2. 請求項1に記載の1つ以上のコンピューター読み取り可能媒体において、前記生徒出力分布対前記教師出力分布の評価を判定するステップが、前記生徒出力分布と前記教師出力分布との間の収束を判定するステップを含み、前記ある回数の繰り返しが、前記収束が判定するまでにステップ(a)から(c)までを実行した回数である、1つ以上のコンピューター読み取り可能媒体。
  3. 請求項1に記載の1つ以上のコンピューター読み取り可能媒体において、前記生徒出力分布対前記教師出力分布の評価を判定するために、カルバック・ライブラー発散を使用し、前記判定された評価が誤差信号を含み、前記生徒DNNモデルが、前記誤差信号に基づいて、逆伝搬を使用して更新され、前記教師出力分布および前記生徒出力分布が、前記部分集合のデーターを使用して、順方向伝搬によって判定される、1つ以上のコンピューター読み取り可能媒体。
  4. 請求項1に記載の1つ以上のコンピューター読み取り可能媒体において、前記第1DNNモデルが集合DNNモデルを含み、前記第2DNNモデルが、前記第1DNNモデルに基づいて初期化されるか、またはランダムな重み値によって初期化され、前記第2DNNモデルがCD−DNN−HMMフレームワークの一部である、1つ以上のコンピューター読み取り可能媒体。
  5. 請求項1に記載の1つ以上のコンピューター読み取り可能媒体において、前記1組の訓練データーの内の前記部分集合が、ミニバッチを含み、前記1組の訓練データーの全てが使用され終えるまで、前記ある回数の繰り返しの各繰り返しに、データーの異なるミニバッチが使用される、1つ以上のコンピューター読み取り可能媒体。
  6. クライアント・デバイス上にデプロイされ、請求項1に記載のコンピューター実行可能命令を前記コンピューティング・システムによって実行することによって生成される、DNNクラシファイア。
  7. コンピューター・システム上におけるクラシファイアとしてのデプロイメントのために訓練済みDNNモデルを生成するためのコンピューター実装方法であって、
    集合DNNモデルにおけるサブDNNとして含ませる複数のDNNモデルを決定するステップと、
    前記サブDNNを使用して前記集合DNNモデルを組み立てることによって、複数のサブDNNの各々を集合メンバーとするステップと、
    前記集合DNNモデルを訓練するステップと、
    生徒DNNモデルを初期化するステップと、
    前記訓練済み集合DNNモデルを教師DNNとして使用して、前記生徒DNNモデルを訓練するステップと、
    前記生徒DNNモデルをDNNクラシファイアとして供給するステップと、
    を含む、コンピューター実装方法。
  8. 請求項7に記載のコンピューター実装方法において、集合DNNモデルにおけるサブDNNとして含ませる前記複数のDNNモデルが、前記コンピューター・システム上にデプロイされる前記DNNクラシファイアに意図される用途に基づいて決定され、前記サブDNNが、(a)異なる非線形ユニットを有するDNNモデル、(b)異なる構造タイプを有するDNNモデル、(c)異なる訓練計画にしたがって訓練されたDNNモデル、(d)異なるトポロジーを有するDNNモデル、または(e)異なるデーターによって訓練されたDNNモデルを含む、コンピューター実装方法。
  9. 請求項7に記載のコンピューター実装方法において、前記集合DNNモデルを訓練するステップが、交差エントロピー基準、シーケンシャル基準、最少二乗誤差基準、または非負制約がある最少二乗誤差基準を使用して、学習済みの係数の組み合わせによって前記集合メンバーの出力分布を組み合わせるステップを含む、コンピューター実装方法。
  10. 請求項7に記載のコンピューター実装方法において、前記生徒DNNモデルを訓練するステップが、
    (a)ラベルなし訓練データーのミニバッチを受け取るステップと、
    (b)ミニバッチを使用して、前記生徒DNNモデルおよび前記教師DNNモデルにおける前記ミニバッチの順方向伝搬によって、前記教師DNNモデルの教師出力分布と、前記生徒DNNモデルの生徒出力分布とを判定するステップと、
    (c)前記生徒出力分布対前記教師出力分布の評価を判定するステップであて、前記評価が誤差信号を含む、ステップと、
    (d)前記評価に基づいて、前記生徒出力分布および前記教師出力分布が収束を達成したか否か判定するステップであって、
    (i)前記生徒出力分布および前記教師出力分布が収束したと判定された場合、前記生徒DNNモデルを前記クライアント・デバイス上におけるデプロイメントのために供給するステップと、
    (ii)前記生徒出力分布および前記教師出力分布が収束していないと判定された場合、前記判定された評価に基づいて、前記生徒DNNモデルを更新し、ステップ(a)から(d)までを繰り返すステップと、
    を含む、コンピューター実装方法。
JP2017513728A 2014-09-12 2014-09-12 出力分布による生徒dnnの学習 Expired - Fee Related JP6612855B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/086397 WO2016037350A1 (en) 2014-09-12 2014-09-12 Learning student dnn via output distribution

Publications (2)

Publication Number Publication Date
JP2017531255A true JP2017531255A (ja) 2017-10-19
JP6612855B2 JP6612855B2 (ja) 2019-11-27

Family

ID=55455064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017513728A Expired - Fee Related JP6612855B2 (ja) 2014-09-12 2014-09-12 出力分布による生徒dnnの学習

Country Status (7)

Country Link
US (1) US11429860B2 (ja)
EP (1) EP3192012A4 (ja)
JP (1) JP6612855B2 (ja)
CN (1) CN106170800A (ja)
BR (1) BR112017003893A8 (ja)
RU (1) RU2666631C2 (ja)
WO (1) WO2016037350A1 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028746A (ja) * 2017-07-31 2019-02-21 株式会社東芝 ネットワーク係数圧縮装置、ネットワーク係数圧縮方法およびプログラム
WO2019116985A1 (ja) * 2017-12-13 2019-06-20 日立オートモティブシステムズ株式会社 演算システム、サーバ、車載装置
WO2019138897A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 学習装置および方法、並びにプログラム
JP2019133626A (ja) * 2018-01-29 2019-08-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理方法及び情報処理システム
JP2019159654A (ja) * 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 時系列情報の学習システム、方法およびニューラルネットワークモデル
WO2019235311A1 (ja) * 2018-06-06 2019-12-12 ソニー株式会社 情報処理装置、情報処理方法、プログラム及びIoTデバイス
JP2020027604A (ja) * 2018-08-09 2020-02-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理方法、及び情報処理システム
JP2020201727A (ja) * 2019-06-11 2020-12-17 株式会社デンソーアイティーラボラトリ 品質管理方法
JPWO2021044591A1 (ja) * 2019-09-05 2021-03-11
WO2021111831A1 (ja) * 2019-12-06 2021-06-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理システム及び情報処理装置
WO2021111832A1 (ja) * 2019-12-06 2021-06-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理システム及び情報処理装置
JP2022006174A (ja) * 2021-03-25 2022-01-12 北京百度網訊科技有限公司 モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品
JP7464560B2 (ja) 2021-03-30 2024-04-09 Kddi株式会社 骨格推定装置、端末、サーバ及びプログラム

Families Citing this family (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417525B2 (en) 2014-09-22 2019-09-17 Samsung Electronics Co., Ltd. Object recognition with reduced neural network weight precision
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
JP6679898B2 (ja) * 2015-11-24 2020-04-15 富士通株式会社 キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
US9842106B2 (en) * 2015-12-04 2017-12-12 Mitsubishi Electric Research Laboratories, Inc Method and system for role dependent context sensitive spoken and textual language understanding with neural networks
CN105513591B (zh) * 2015-12-21 2019-09-03 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
US9621678B1 (en) * 2016-01-13 2017-04-11 Linkedin Corporation Delivering and displaying content feeds on smartwatch devices
US10810482B2 (en) 2016-08-30 2020-10-20 Samsung Electronics Co., Ltd System and method for residual long short term memories (LSTM) network
US10466714B2 (en) * 2016-09-01 2019-11-05 Ford Global Technologies, Llc Depth map estimation with stereo images
WO2018051841A1 (ja) * 2016-09-16 2018-03-22 日本電信電話株式会社 モデル学習装置、その方法、及びプログラム
US10255910B2 (en) * 2016-09-16 2019-04-09 Apptek, Inc. Centered, left- and right-shifted deep neural networks and their combinations
CN109952581A (zh) * 2016-09-28 2019-06-28 D5A1有限责任公司 用于机器学习系统的学习教练
JP2018060268A (ja) * 2016-10-03 2018-04-12 株式会社日立製作所 認識装置および学習システム
CA3040775A1 (en) * 2016-10-18 2018-04-26 Minute School Inc. Systems and methods for providing tailored educational materials
WO2018093926A1 (en) * 2016-11-15 2018-05-24 Google Llc Semi-supervised training of neural networks
KR20180070103A (ko) 2016-12-16 2018-06-26 삼성전자주식회사 인식 방법 및 인식 장치
CN108243216B (zh) 2016-12-26 2020-02-14 华为技术有限公司 数据处理的方法、端侧设备、云侧设备与端云协同系统
JP6690568B2 (ja) * 2017-02-01 2020-04-28 株式会社デンソー 能力評価システムおよび能力評価装置
US11620511B2 (en) 2017-02-17 2023-04-04 Canary Capital Llc Solution for training a neural network system
CN108461080A (zh) * 2017-02-21 2018-08-28 中兴通讯股份有限公司 一种基于hlstm模型的声学建模方法和装置
US20180260695A1 (en) * 2017-03-07 2018-09-13 Qualcomm Incorporated Neural network compression via weak supervision
KR102399535B1 (ko) * 2017-03-23 2022-05-19 삼성전자주식회사 음성 인식을 위한 학습 방법 및 장치
US11915152B2 (en) * 2017-03-24 2024-02-27 D5Ai Llc Learning coach for machine learning system
US10795836B2 (en) * 2017-04-17 2020-10-06 Microsoft Technology Licensing, Llc Data processing performance enhancement for neural networks using a virtualized data iterator
WO2018195848A1 (en) * 2017-04-27 2018-11-01 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for route planning
US11195093B2 (en) 2017-05-18 2021-12-07 Samsung Electronics Co., Ltd Apparatus and method for student-teacher transfer learning network using knowledge bridge
US11410044B2 (en) 2017-05-20 2022-08-09 Google Llc Application development platform and software development kits that provide comprehensive machine learning services
EP3602413B1 (en) 2017-05-20 2022-10-19 Google LLC Projection neural networks
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
KR102036968B1 (ko) * 2017-10-19 2019-10-25 한국과학기술원 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치
WO2019096754A1 (en) * 2017-11-20 2019-05-23 Koninklijke Philips N.V. Training first and second neural network models
US11328210B2 (en) * 2017-12-29 2022-05-10 Micron Technology, Inc. Self-learning in distributed architecture for enhancing artificial neural network
CN108228782B (zh) * 2017-12-29 2020-04-21 山东科技大学 一种基于深度学习的隐含关系发现方法
EP3518152A1 (en) * 2018-01-29 2019-07-31 Panasonic Intellectual Property Corporation of America Information processing method and information processing system
US10643602B2 (en) * 2018-03-16 2020-05-05 Microsoft Technology Licensing, Llc Adversarial teacher-student learning for unsupervised domain adaptation
WO2019183144A1 (en) 2018-03-19 2019-09-26 Coffing Daniel L Processing natural language arguments and propositions
US10522038B2 (en) 2018-04-19 2019-12-31 Micron Technology, Inc. Systems and methods for automatically warning nearby vehicles of potential hazards
CN112602098A (zh) * 2018-05-08 2021-04-02 谷歌有限责任公司 对比序列到序列数据选择器
GB2573809B (en) * 2018-05-18 2020-11-04 Emotech Ltd Speaker Recognition
US10699194B2 (en) * 2018-06-01 2020-06-30 DeepCube LTD. System and method for mimicking a neural network without access to the original training dataset or the target model
US11907854B2 (en) 2018-06-01 2024-02-20 Nano Dimension Technologies, Ltd. System and method for mimicking a neural network without access to the original training dataset or the target model
US10839791B2 (en) 2018-06-27 2020-11-17 International Business Machines Corporation Neural network-based acoustic model with softening target-layer
WO2020005471A1 (en) * 2018-06-29 2020-01-02 D5Ai Llc Using back propagation computation as data
US10460235B1 (en) * 2018-07-06 2019-10-29 Capital One Services, Llc Data model generation using generative adversarial networks
WO2020018279A1 (en) * 2018-07-16 2020-01-23 D5Ai Llc Building ensembles for deep learning by parallel data splitting
CA3106394C (en) * 2018-07-16 2023-09-26 Element Ai Inc. Selecting unlabeled data objects to be processed
US11610108B2 (en) 2018-07-27 2023-03-21 International Business Machines Corporation Training of student neural network with switched teacher neural networks
US11741355B2 (en) * 2018-07-27 2023-08-29 International Business Machines Corporation Training of student neural network with teacher neural networks
US10885277B2 (en) 2018-08-02 2021-01-05 Google Llc On-device neural networks for natural language understanding
US11094326B2 (en) * 2018-08-06 2021-08-17 Cisco Technology, Inc. Ensemble modeling of automatic speech recognition output
WO2020046719A1 (en) * 2018-08-31 2020-03-05 D5Ai Llc Self-supervised back propagation for deep learning
WO2020051500A1 (en) * 2018-09-06 2020-03-12 Coffing Daniel L System for providing dialogue guidance
EP3850781A4 (en) 2018-09-14 2022-05-04 Coffing, Daniel L. FACT MANAGEMENT SYSTEM
KR20200045128A (ko) * 2018-10-22 2020-05-04 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법
CN111105008A (zh) * 2018-10-29 2020-05-05 富士通株式会社 模型训练方法、数据识别方法和数据识别装置
CN111144574B (zh) * 2018-11-06 2023-03-24 北京嘀嘀无限科技发展有限公司 使用指导者模型训练学习者模型的人工智能系统和方法
EP3884434A4 (en) * 2018-11-19 2022-10-19 Deeplite Inc. SYSTEM AND METHOD FOR DETERMINING AUTOMATED DESIGN SPACE FOR DEEP NEURAL NETWORKS
CN109783824B (zh) * 2018-12-17 2023-04-18 北京百度网讯科技有限公司 基于翻译模型的翻译方法、装置及存储介质
KR20200084431A (ko) * 2018-12-26 2020-07-13 삼성전자주식회사 신경망 기반의 데이터 처리 방법, 신경망 트레이닝 방법 및 그 장치들
DE102019101617A1 (de) * 2019-01-23 2020-07-23 Rockwell Collins Deutschland Gmbh Vorrichtung und Verfahren zum Trainieren eines Neuronalen Netzwerks
JP7261022B2 (ja) * 2019-01-30 2023-04-19 キヤノン株式会社 情報処理システム、端末装置及びその制御方法、プログラム、記憶媒体
US11410475B2 (en) 2019-01-31 2022-08-09 Micron Technology, Inc. Autonomous vehicle data recorders
US11373466B2 (en) 2019-01-31 2022-06-28 Micron Technology, Inc. Data recorders of autonomous vehicles
US11526680B2 (en) 2019-02-14 2022-12-13 Google Llc Pre-trained projection networks for transferable natural language representations
US11694088B2 (en) * 2019-03-13 2023-07-04 Cortica Ltd. Method for object detection using knowledge distillation
KR102033136B1 (ko) * 2019-04-03 2019-10-16 주식회사 루닛 준지도 학습 기반의 기계학습 방법 및 그 장치
CN110009052B (zh) * 2019-04-11 2022-11-18 腾讯科技(深圳)有限公司 一种图像识别的方法、图像识别模型训练的方法及装置
US11170789B2 (en) * 2019-04-16 2021-11-09 Microsoft Technology Licensing, Llc Attentive adversarial domain-invariant training
US11586930B2 (en) * 2019-04-16 2023-02-21 Microsoft Technology Licensing, Llc Conditional teacher-student learning for model training
US11790264B2 (en) * 2019-06-19 2023-10-17 Google Llc Systems and methods for performing knowledge distillation
US11017177B2 (en) * 2019-06-27 2021-05-25 Conduent Business Services, Llc Neural network systems and methods for target identification from text
US11928587B2 (en) 2019-08-14 2024-03-12 Google Llc Base station-user equipment messaging regarding deep neural networks
US11755884B2 (en) 2019-08-20 2023-09-12 Micron Technology, Inc. Distributed machine learning with privacy protection
US11636334B2 (en) 2019-08-20 2023-04-25 Micron Technology, Inc. Machine learning with feature obfuscation
US11392796B2 (en) 2019-08-20 2022-07-19 Micron Technology, Inc. Feature dictionary for bandwidth enhancement
WO2021045748A1 (en) 2019-09-04 2021-03-11 Google Llc Neural network formation configuration feedback for wireless communications
US20210117799A1 (en) * 2019-10-17 2021-04-22 EMC IP Holding Company LLC Monitoring performance of a storage system using paired neural networks
KR20210060146A (ko) 2019-11-18 2021-05-26 삼성전자주식회사 딥 뉴럴 네트워크 모델을 이용한 데이터 처리 방법 및 장치, 딥 뉴럴 네트워크 모델을 학습시키는 학습 방법 및 장치
US11886991B2 (en) 2019-11-27 2024-01-30 Google Llc Machine-learning architectures for broadcast and multicast communications
US11487944B1 (en) * 2019-12-09 2022-11-01 Asapp, Inc. System, method, and computer program for obtaining a unified named entity recognition model with the collective predictive capabilities of teacher models with different tag sets using marginal distillation
CN112949671B (zh) * 2019-12-11 2023-06-30 中国科学院声学研究所 一种基于无监督特征优化的信号分类方法及系统
US11689940B2 (en) * 2019-12-13 2023-06-27 Google Llc Machine-learning architectures for simultaneous connection to multiple carriers
JP7396040B2 (ja) * 2019-12-27 2023-12-12 日本電気株式会社 画像分析装置、画像分析方法及びコンピュータプログラム
US11797565B2 (en) 2019-12-30 2023-10-24 Paypal, Inc. Data validation using encode values
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
US11900260B2 (en) * 2020-03-05 2024-02-13 Huawei Technologies Co., Ltd. Methods, devices and media providing an integrated teacher-student system
US20210295171A1 (en) * 2020-03-19 2021-09-23 Nvidia Corporation Future trajectory predictions in multi-actor environments for autonomous machine applications
US20210334644A1 (en) * 2020-04-27 2021-10-28 Nvidia Corporation Neural network training technique
US11669428B2 (en) * 2020-05-19 2023-06-06 Paypal, Inc. Detection of matching datasets using encode values
US11663472B2 (en) 2020-06-29 2023-05-30 Google Llc Deep neural network processing for a user equipment-coordination set
CN111754985B (zh) * 2020-07-06 2023-05-02 上海依图信息技术有限公司 一种语音识别模型的训练以及语音识别的方法和装置
US11961003B2 (en) 2020-07-08 2024-04-16 Nano Dimension Technologies, Ltd. Training a student neural network to mimic a mentor neural network with inputs that maximize student-to-mentor disagreement
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN112487899B (zh) * 2020-11-19 2023-04-07 武汉高德飞行器科技有限公司 基于无人机的目标识别方法、系统、存储介质及电子设备
CN112528109B (zh) * 2020-12-01 2023-10-27 科大讯飞(北京)有限公司 一种数据分类方法、装置、设备及存储介质
US11792501B2 (en) 2020-12-17 2023-10-17 Motorola Solutions, Inc. Device, method and system for installing video analytics parameters at a video analytics engine
CN112819155B (zh) * 2021-01-22 2022-09-16 中国人民解放军国防科技大学 应用于边缘设备的深度神经网络模型分级压缩方法及装置
US20220292345A1 (en) * 2021-03-12 2022-09-15 Nec Corporation Distributionally robust model training
US11521639B1 (en) 2021-04-02 2022-12-06 Asapp, Inc. Speech sentiment analysis using a speech sentiment classifier pretrained with pseudo sentiment labels
US20220335303A1 (en) * 2021-04-16 2022-10-20 Md Akmal Haidar Methods, devices and media for improving knowledge distillation using intermediate representations
US20220355211A1 (en) * 2021-05-04 2022-11-10 Sony Interactive Entertainment Inc. Controller action recognition from video frames using machine learning
CN113450612B (zh) * 2021-05-17 2022-10-28 云南电网有限责任公司 一种应用于继电保护培训的成套教学装置的开发方法
US11763803B1 (en) 2021-07-28 2023-09-19 Asapp, Inc. System, method, and computer program for extracting utterances corresponding to a user problem statement in a conversation between a human agent and a user
US20230040181A1 (en) * 2021-08-03 2023-02-09 Samsung Electronics Co., Ltd. System and method for improving named entity recognition
US20230368786A1 (en) * 2022-05-12 2023-11-16 Samsung Electronics Co., Ltd. System and method for accent-agnostic frame-level wake word detection

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7835910B1 (en) * 2003-05-29 2010-11-16 At&T Intellectual Property Ii, L.P. Exploiting unlabeled utterances for spoken language understanding

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100486735B1 (ko) 2003-02-28 2005-05-03 삼성전자주식회사 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치
US7280987B2 (en) 2004-03-26 2007-10-09 Halliburton Energy Services, Inc. Genetic algorithm based selection of neural network ensemble for processing well logging data
US7613665B2 (en) 2005-06-24 2009-11-03 Halliburton Energy Services, Inc. Ensembles of neural networks with different input sets
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US9418334B2 (en) 2012-12-06 2016-08-16 Nuance Communications, Inc. Hybrid pre-training of deep belief networks
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN103456299B (zh) * 2013-08-01 2016-06-15 百度在线网络技术(北京)有限公司 一种控制语音识别的方法和装置
CN103400577B (zh) * 2013-08-01 2015-09-16 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
CN103544705B (zh) * 2013-10-25 2016-03-02 华南理工大学 一种基于深度卷积神经网络的图像质量测试方法
CN103886305B (zh) * 2014-04-08 2017-01-25 中国人民解放军国防科学技术大学 面向基层治安、维稳及反恐的特异人脸搜索方法
CN103955702B (zh) * 2014-04-18 2017-02-15 西安电子科技大学 基于深度rbf网络的sar图像地物分类方法
CN103945533B (zh) * 2014-05-15 2016-08-31 济南嘉科电子技术有限公司 基于大数据的无线实时位置定位方法
US9653093B1 (en) * 2014-08-19 2017-05-16 Amazon Technologies, Inc. Generative modeling of speech using neural networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7835910B1 (en) * 2003-05-29 2010-11-16 At&T Intellectual Property Ii, L.P. Exploiting unlabeled utterances for spoken language understanding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LEI JIMMY BA, RICH CARUANA: "Do Deep Nets Really Need to be Deep?", ARXIV:1312.6184, vol. v5, JPN7018002952, 21 February 2014 (2014-02-21), US, pages 1 - 6, XP055314937 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028746A (ja) * 2017-07-31 2019-02-21 株式会社東芝 ネットワーク係数圧縮装置、ネットワーク係数圧縮方法およびプログラム
WO2019116985A1 (ja) * 2017-12-13 2019-06-20 日立オートモティブシステムズ株式会社 演算システム、サーバ、車載装置
JP2019106059A (ja) * 2017-12-13 2019-06-27 日立オートモティブシステムズ株式会社 演算システム、サーバ、車載装置
US11427141B2 (en) 2017-12-13 2022-08-30 Hitachi Astemo, Ltd. Computing system, server and on-vehicle device
WO2019138897A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 学習装置および方法、並びにプログラム
JP7058202B2 (ja) 2018-01-29 2022-04-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法及び情報処理システム
JP2019133626A (ja) * 2018-01-29 2019-08-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理方法及び情報処理システム
JP2019159654A (ja) * 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 時系列情報の学習システム、方法およびニューラルネットワークモデル
JP7070894B2 (ja) 2018-03-12 2022-05-18 国立研究開発法人情報通信研究機構 時系列情報の学習システム、方法およびニューラルネットワークモデル
WO2019235311A1 (ja) * 2018-06-06 2019-12-12 ソニー株式会社 情報処理装置、情報処理方法、プログラム及びIoTデバイス
JP7171478B2 (ja) 2018-08-09 2022-11-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、及び情報処理システム
JP2020027604A (ja) * 2018-08-09 2020-02-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理方法、及び情報処理システム
JP7161974B2 (ja) 2019-06-11 2022-10-27 株式会社デンソーアイティーラボラトリ 品質管理方法
JP2020201727A (ja) * 2019-06-11 2020-12-17 株式会社デンソーアイティーラボラトリ 品質管理方法
JPWO2021044591A1 (ja) * 2019-09-05 2021-03-11
JP7405145B2 (ja) 2019-09-05 2023-12-26 日本電気株式会社 モデル生成装置、モデル生成方法、及び、プログラム
WO2021111832A1 (ja) * 2019-12-06 2021-06-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理システム及び情報処理装置
WO2021111831A1 (ja) * 2019-12-06 2021-06-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理システム及び情報処理装置
JP2022006174A (ja) * 2021-03-25 2022-01-12 北京百度網訊科技有限公司 モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品
JP7291183B2 (ja) 2021-03-25 2023-06-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品
JP7464560B2 (ja) 2021-03-30 2024-04-09 Kddi株式会社 骨格推定装置、端末、サーバ及びプログラム

Also Published As

Publication number Publication date
US11429860B2 (en) 2022-08-30
CN106170800A (zh) 2016-11-30
EP3192012A4 (en) 2018-01-17
US20160078339A1 (en) 2016-03-17
BR112017003893A2 (pt) 2017-12-05
BR112017003893A8 (pt) 2017-12-26
WO2016037350A1 (en) 2016-03-17
RU2017107352A (ru) 2018-09-07
JP6612855B2 (ja) 2019-11-27
EP3192012A1 (en) 2017-07-19
RU2017107352A3 (ja) 2018-09-07
RU2666631C2 (ru) 2018-09-11

Similar Documents

Publication Publication Date Title
JP6612855B2 (ja) 出力分布による生徒dnnの学習
US11144831B2 (en) Regularized neural network architecture search
US20210256403A1 (en) Recommendation method and apparatus
US10546066B2 (en) End-to-end learning of dialogue agents for information access
CN109859743B (zh) 音频识别方法、系统和机器设备
CN110443351B (zh) 生成映像的自然语言描述
US9818409B2 (en) Context-dependent modeling of phonemes
WO2018211140A1 (en) Data efficient imitation of diverse behaviors
CN107112005A (zh) 深度神经支持向量机
US20140164299A1 (en) Hybrid pre-training of deep belief networks
EP3766019A1 (en) Hybrid quantum-classical generative modes for learning data distributions
CN108604311B (zh) 利用层级式外部存储器的增强神经网络
CN111989696A (zh) 具有顺序学习任务的域中的可扩展持续学习的神经网络
US10832036B2 (en) Meta-learning for facial recognition
Dimitriadis et al. Federated transfer learning with dynamic gradient aggregation
CN114626518A (zh) 使用深度聚类的知识蒸馏
US11875809B2 (en) Speech denoising via discrete representation learning
US11488007B2 (en) Building of custom convolution filter for a neural network using an automated evolutionary process
US20210042625A1 (en) Performance of neural networks using learned specialized transformation functions
US20220414445A1 (en) Neural networks with analog and digital modules
US11443748B2 (en) Metric learning of speaker diarization
KR20230141828A (ko) 적응형 그래디언트 클리핑을 사용하는 신경 네트워크들
US20240020553A1 (en) Interactive electronic device for performing functions of providing responses to questions from users and real-time conversation with the users using models learned by deep learning technique and operating method thereof
WO2023014373A1 (en) System and methods for training machine-learned models for use in computing environments with limited resources
KR20200063315A (ko) 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170815

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20171004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191031

R150 Certificate of patent or registration of utility model

Ref document number: 6612855

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees