JP2014229124A - ディープ・ニューラルネットワークの学習方法、ディープ・ニューラルネットワークのサブネットワークのパラメータを記憶した記憶媒体及びコンピュータプログラム - Google Patents

ディープ・ニューラルネットワークの学習方法、ディープ・ニューラルネットワークのサブネットワークのパラメータを記憶した記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2014229124A
JP2014229124A JP2013109061A JP2013109061A JP2014229124A JP 2014229124 A JP2014229124 A JP 2014229124A JP 2013109061 A JP2013109061 A JP 2013109061A JP 2013109061 A JP2013109061 A JP 2013109061A JP 2014229124 A JP2014229124 A JP 2014229124A
Authority
JP
Japan
Prior art keywords
learning
subnetwork
sub
network
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013109061A
Other languages
English (en)
Other versions
JP6164639B2 (ja
Inventor
繁樹 松田
Shigeki Matsuda
繁樹 松田
ルー・シュガン
Xugang Lu
堀 智織
Chiori Hori
智織 堀
秀紀 柏岡
Hidenori Kashioka
秀紀 柏岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2013109061A priority Critical patent/JP6164639B2/ja
Priority to US14/787,903 priority patent/US9691020B2/en
Priority to CN201480029326.5A priority patent/CN105229676B/zh
Priority to EP14801131.5A priority patent/EP3001358B1/en
Priority to PCT/JP2014/062911 priority patent/WO2014188940A1/ja
Publication of JP2014229124A publication Critical patent/JP2014229124A/ja
Application granted granted Critical
Publication of JP6164639B2 publication Critical patent/JP6164639B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】複数カテゴリーに属するデータでDNNを学習する時間を短くできるDNNの学習方法を提供する。【解決手段】この方法は、日英の学習データで言語独立なサブネットワーク120、言語依存なサブネットワーク122及び124を学習するステップを含む。このステップは、サブネットワーク120出力層のニューロンと、サブネットワーク122の入力層のニューロンとを接続したDNNを、日本語データで学習する第1のステップと、サブネットワーク122に代えてサブネットワーク124をサブネットワーク120に接続したDNNを形成し、英語データで学習するステップと、これらステップを、学習データが終了するまで交互に実行するステップと、完了後に、第1のサブネットワーク120を他のサブネットワークから分離して、カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む。【選択図】図5

Description

この発明は、音声認識及び画像認識等の認識技術に用いられるディープ・ニューラルネットワーク(以下、記載を簡略にするために「DNN」と呼ぶ。)に関し、特に、特定用途のDNNの学習を高速化する技術に関する。
機械学習の1手法としてDNNが注目されている。DNNは例えば、画像認識及び音声認識等に適用されており、誤り率が以前より20〜30%も低下する等、優れた性能を発揮していることが報告されている(非特許文献1〜3)。
DNNとは、従来よりも多くの層を持つニューラルネットワークということができる。具体的には、図1を参照して、DNN30は、入力層40と、出力層44と、入力層40と出力層44との間に設けられた複数の隠れ層42とを含む。入力層40は複数個の入力ノード(ニューロン)を持つ。出力層44は、識別対象の数だけのニューロンを持つ。隠れ層42は複数の隠れ層(7層、9層、11層等)を持つ。各隠れ層はそれぞれ複数個のニューロンを持つ。
DNN30では、層の数だけではなく、各層内のニューロン数も多い。そのために学習のための計算量が膨大な量になることがある。以前はそのような計算を行なうことはほとんど不可能だったが、コンピュータ自体の高機能化、分散・並列処理技術の発達及び計算理論の発展により、DNNの学習を行なうことも可能となっている。しかし、学習のために大量のデータを使用する場合、依然として学習のために長時間を要することになる。例えば非特許文献4に記載された実験では、学習データとして200ピクセル×200ピクセルの画像1千万個を用い、1,000台の16コアのコンピュータを用いたDNNの学習に3日間を要したという。
Y. Bengio, "Learning deep architectures for AI," Foundations and Trends in Machine Learning, Vol. 2, No. 1, pp. 1-127, 2009. G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups," IEEE Signal Processing Magazine, Vol. 29, No. 6, pp. 82-97, 2012. A. Mohamed, G. Dahl, and G. Hinton, "Acoustic Modeling using Deep Belief Networks," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 20, No. 1, pp. 14-22, 2012. Quoc V. Le, Marc'Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai Chen, Greg S. Corrado, Jeff Dean Andrew Y. Ng, "Building High-level Features Using Large Scale Unsupervised Learning," Proc. ICML, 2012.
例えば音声認識にDNNを適用する場合、対象とする言語により音素構成が異なるために、DNNを個別に用意し、別々に学習を行なわなければならない。例えば、図2を参照して、日本語と英語との音声認識用のDNNを用いる場合には、日本語DNN60と英語DNN62とを個別に準備し、それぞれ別々の学習データを用いて学習を行なう。すなわち、2個のDNNの学習を行なう必要がある。新たな言語の音声認識が必要となった場合には、新たなDNNを用意し、新たに学習を行なう。すなわち、全部でN個の言語についてDNNの学習を行なう場合には、1個のDNNを行なう場合と比較して約7倍の時間が必要となる。DNNの学習にそのような長時間を要していては、システムの開発に膨大な時間を要することとなり、好ましくない。
こうした問題は、言語別の音声認識を行なうためのDNN学習のときだけでなく、たとえばカテゴリー別に画像認識用のDNNを準備したりする場合にも生ずる問題である。
それゆえに本発明の目的は、対象があるカテゴリーに属する学習データを用いてDNNの学習を行なう際の時間を短くできるDNNの学習装置及び方法並びにそうしたDNNを用いた対象の認識装置を提供することを目的とする。
本発明の第1の局面に係るDNNの学習方法は、複数カテゴリーに分類される対象について識別するDNNを、複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークをコンピュータを用いて学習させる、DNNの学習方法である。この方法は、コンピュータが、記憶媒体内に、第1、第2及び第3のサブネットワークを記憶するステップと、コンピュータが、複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで第1、第2及び第3のサブネットワークを学習させるサブネットワークの学習ステップとを含む。サブネットワークの学習ステップは、コンピュータが、第1のサブネットワークの後段に第2のサブネットワークを接続して形成された第1のDNNを、第1のカテゴリーに属する学習データで学習させ、第1のサブネットワークの後段に第3のサブネットワークを接続して形成した第2のDNNを、第2のカテゴリーに属する学習データで学習させることにより、第1及び第2のDNNを学習させるDNNの学習ステップと、コンピュータが、DNNの学習ステップの完了後に、第1のサブネットワークを他のサブネットワークから分離して、カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む。
好ましくは、第1、第2及び第3のサブネットワークは、いずれも入力層、隠れ層及び出力層を含む。DNNの学習ステップは、コンピュータが、第1、第2及び第3のサブネットワークを初期化するステップと、コンピュータが、第1のサブネットワークの出力層のニューロンと、第2のサブネットワークの入力層のニューロンとを接続して第1のDNNを形成し、第1のカテゴリーに属する学習データで第1のDNNを学習させる第1の学習ステップと、コンピュータが、第1のサブネットワークの出力層のニューロンと、第3のサブネットワークの入力層のニューロンとを接続して第2のDNNを形成し、第2のカテゴリーに属する学習データで第2のDNNを学習させる第2の学習ステップと、コンピュータが、第1及び第2の学習ステップを、終了条件が成立するまで交互に実行するステップとを含む。
より好ましくは、この学習方法はさらに、コンピュータが、サブネットワークの学習ステップの完了後に、第2のサブネットワークを他のサブネットワークから分離して、第1のカテゴリーの対象に対して使用されるカテゴリー依存のサブネットワークとして記憶媒体に記憶させるステップを含む。
本発明の第2の局面に係る学習方法は、複数カテゴリーに分類される対象について識別するDNNにおいて、特定カテゴリーに使用されるカテゴリー依存のサブネットワークをコンピュータを用いて学習させる、DNNの学習方法である。この方法は、コンピュータが、複数カテゴリーに共通して使用されるカテゴリー独立なサブネットワークを記憶するステップと、コンピュータが、特定カテゴリー用のサブネットワークを記憶するステップと、コンピュータが、特定カテゴリー用のサブネットワークを初期化するステップと、コンピュータが、カテゴリー独立なサブネットワークの出力層のニューロンと、特定カテゴリー用のサブネットワークの入力層とを接続することによりDNNを形成するステップと、コンピュータが、特定カテゴリーに属する学習データを用いて、かつカテゴリー独立なサブネットワークのパラメータを固定して、特定カテゴリー用のサブネットワークを学習させるステップとを含む。
本発明の第3の局面に係る記憶媒体は、上記したいずれかの方法により学習した、DNNのサブネットワークのパラメータを記憶した記憶媒体である。
本発明の第4の局面に係るコンピュータプログラムは、DNNの学習方法をコンピュータに実行させる。この学習方法は、複数カテゴリーに分類される対象について識別するDNNにおいて、複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークを学習させる方法である。当該方法は、コンピュータが、記憶媒体内に、第1、第2及び第3のサブネットワークを記憶するステップと、コンピュータが、複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで第1、第2及び第3のサブネットワークを学習させるサブネットワークの学習ステップとを含む。
サブネットワークの学習ステップは、コンピュータが、第1のサブネットワークの後段に第2のサブネットワークを接続して形成された第1のDNNを、第1のカテゴリーに属する学習データで学習させ、第1のサブネットワークの後段に第3のサブネットワークを接続して形成した第2のDNNを、第2のカテゴリーに属する学習データで学習させることにより、第1及び第2のDNNの学習を行なうDNNの学習ステップと、コンピュータが、DNNの学習ステップの完了後に、第1のサブネットワークを他のサブネットワークから分離して、カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む。
DNNの構成を模式的に示す図である。 日本語と英語について個別にDNNの学習を行なう場合を説明するための模式図である。 本発明に至るDNNの学習に関する着想を説明するDNNの内部構成の模式図である。 本発明に至るDNNの学習に関する着想を説明するDNNの内部構成の模式図である。 本発明の各実施の形態に係るDNNの基本的な構成を説明する模式図である。 本発明の各実施の形態における言語に依存しない独立なサブネットワーク(以下、「独立サブネットワーク」と呼ぶ。)と言語に依存したサブネットワーク(以下、「依存サブネットワーク」と呼ぶ。)との接続形態を示すブロック図である。 本発明の各実施の形態における独立サブネットワークと依存サブネットワークとの接続の具体的構成を示すブロック図である。 独立サブネットワークと依存サブネットワークとの流通形態及び接続形態を示す模式図である。 本発明の実施の形態に係るDNNにおける独立サブネットワークと依存サブネットワークとの同時学習を実現するプログラムのフローチャートである。 本発明の実施の形態に係るDNNにおける独立サブネットワークを固定して依存サブネットワークの学習を行なう処理を実現するプログラムのフローチャートである。 実施の形態に係るDNNの学習処理を実行するコンピュータシステムの外観図である。 図11に示すコンピュータの内部構成を示すブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の実施の形態は主に音声認識に関する例についてのものであるが、本発明はそのような実施の形態には限定されない。例えば画像認識にも適用できる。
[基本的な考え方]
上記したように、多言語音声についてDNNの学習を行なう場合には、個別のDNNをそれぞれの言語で別々に学習させる必要がある。しかしそのためには長時間を要するという問題がある。こうした問題を解決するために、以下のような仮定をおいて多言語音声のDNNの学習を行なった。実験によれば、この仮定には十分な根拠があると思われる。
(1)別々の言語といっても、対象とするのは同じ音声である。したがって、多言語に共通な特徴、言い換えれば言語から独立した特徴は、DNNのどこか同じ場所で処理されているはずである。例えば母音、子音、破裂音及び摩擦音等の音素属性の検出等がこれにあたる。これらの処理は、いずれも入力に近い層で行なわれるものと仮定する。すなわち、図3に示すように、日本語DNN60及び英語DNN62のいずれにおいても、上記したような音素属性を処理するニューロン80及び82等は入力層に近い位置にあると仮定する。
(2)一方、図4を参照して、言語に依存した処理は出力層に近い層内のニューロン(例えばニューロン100及び102等)で処理されると仮定する。例えば、音素属性から音素へのマッピング等の処理がこれにあたる。
(3)以上を踏まえると、図4の日本語DNN60及び英語DNN62の共通部分(ニューロン80及び82が集中している層)をそれ以後の層と分割することにより、図5に示すように、言語に依存しない独立サブネットワーク120が得られることになる。日本語DNN60及び英語DNN62のうち、残りの部分がそれぞれの言語に依存した依存サブネットワーク(たとえば日本語の依存サブネットワーク122及び英語の依存サブネットワーク124)となる。
このような仮定に基づくと、予め学習済みの独立サブネットワーク120を準備すれば、特定の言語に依存した依存サブネットワークのみの学習を行なって独立サブネットワーク120に接続するだけで、その言語を認識するためのDNNを得ることができる。DNN全体の学習を行なう場合と比較して、依存サブネットワークの層の数は小さくなるので、学習に要する時間が短くなることが期待できる。
具体的には、以下のような構成が考えられる。図6を参照して、独立サブネットワーク120と、依存サブネットワーク122及び124とを準備する。独立サブネットワーク120は、入力層160、隠れ層162及び出力層164を含む。依存サブネットワーク122及び124も同様、入力層180及び200、隠れ層182及び202、並びに出力層184及び204を含む。独立サブネットワーク120の出力層164のニューロン数と、依存サブネットワーク122及び124の入力層180及び200のニューロン数とは一致させる。
図7を参照して、例えば独立サブネットワーク120と依存サブネットワーク122との接続では、独立サブネットワーク120の出力層164の各ニューロンと、依存サブネットワーク122の入力層180の対応するニューロンとを互いに接続してニューロン対220,222,…,224とする。したがって、出力層164のニューロン数と入力層180のニューロン数とは一致させる必要がある。
学習時の学習データのフォワードプロパゲーションでは、独立サブネットワーク120側のニューロンの出力x LIをその入力層180側のニューロンへの入力y LDとする。なおここでiはニューロンのインデックスを表し、「LI」は「Language Independent」の略で言語から独立したものであることを示し、「LD」は「Language Dependent」の略で言語に依存することを示す。以下の説明でも同様である。
バックプロパゲーションでは、独立サブネットワーク120の出力層164内の各ニューロンの誤差信号e LIは、依存サブネットワーク122又は124の第2層目の隠れ層内の各ニューロンの誤差信号e LDから次の式により計算する。ただしjはニューロンのインデックスである。
Figure 2014229124
ただしこの式でwijは依存サブネットワーク122又は124内の入力層内のi番目のニューロンと、第2層目のj番目のニューロンとの接続に与えられた重みである。
本実施の形態に係るシステムでは、図6及び図7に示すような独立サブネットワーク120及び依存サブネットワーク122並びに依存サブネットワーク124を同時に学習させる。具体的には図9及び図10のフローチャートを参照して後述するが、独立サブネットワーク120と依存サブネットワーク122とを接続したDNNで日本語の学習データを用いて学習させる処理と、独立サブネットワーク120と依存サブネットワーク124とを接続したDNNで英語の学習データを用いて学習させる処理とを、学習データを変更しながら交互に繰返す。この処理により、日英の両言語に共通した、言語に依存しない処理を行なうニューロンが独立サブネットワーク120に、日本語特有の処理を行なうニューロンが依存サブネットワーク122に、英語特有の処理を行なうニューロンが依存サブネットワーク124に、それぞれ集中するように、これらのサブネットワークが学習すると考えられる。
[効果]
上記したように独立サブネットワーク120と依存サブネットワーク122及び124とが得られることにより以下のような効果が得られる。図8を参照して、上記したように日本語の独立サブネットワーク120、英語の依存サブネットワーク122及び124の学習が終了すると、依存サブネットワーク122及び124を独立サブネットワーク120とセットにして流通させることもできるし、別々に流通させることもできる。
例えば独立サブネットワーク120と全く同じ独立サブネットワーク232が既にユーザの手元にあるものとする。このユーザは日本語の依存サブネットワーク122を入手して独立サブネットワーク232の後段に接続することにより、日本語の音声認識用のDNNを構築できる。別のユーザが独立サブネットワーク120と全く同じ独立サブネットワーク230を保持していれば、このユーザは英語の依存サブネットワーク124を入手して独立サブネットワーク230の後段に接続することで、英語の音声認識用のDNNを構築できる。
さらにまた、上記仮定からすると、独立サブネットワーク120は、言語がどのようなものであるかにかかわらず使用できるように学習するはずである。したがって、新たな言語のDNNをこの独立サブネットワーク120を使用して以下のように短時間で学習できる。すなわち、独立サブネットワーク120を固定し(独立サブネットワーク120のパラメータをすべて不変として)、新たな言語(たとえば中国語)のための未学習の依存サブネットワーク(中国語用の依存サブネットワーク)234を独立サブネットワーク120の後段に接続する。そして、独立サブネットワーク120を固定して、中国語の学習データを用いて独立サブネットワーク120及び依存サブネットワーク234からなるDNNの学習を行なう。この際、独立サブネットワーク120のパラメータは変化させず、依存サブネットワーク234の学習のみを行なう。こうした処理で、依存サブネットワーク234は中国語に適合したパラメータの値を持つように学習し、独立サブネットワーク120の後段に依存サブネットワーク234を接続することにより中国語の音声認識用のDNNを構築できる。もちろん、この依存サブネットワーク234についても、独立サブネットワーク120とセットで流通させることも、別に流通させることもできる。あるユーザが独立サブネットワーク120と同じ独立サブネットワーク236を持っている場合、このユーザは依存サブネットワーク234のみを入手することで、独立サブネットワーク236と組合せ新たな中国語用のDNNを構築できる。
依存サブネットワーク234の層の数は、独立サブネットワーク120と依存サブネットワーク234とを組合せたDNNと比較して少ない。したがって依存サブネットワーク234の学習は、DNN全体の学習を行なう場合と比較してはるかに少なくなる。その結果、新たな言語についてのDNNを構築する必要が生じたときにも従来よりも短期間で必要なDNNを準備できる。
[プログラム構成]
上記したシステムはコンピュータのハードウェアと、そのハードウェア上で実行されるコンピュータプログラムとにより実現可能である。図9に独立サブネットワーク120、日本語の依存サブネットワーク122及び英語の依存サブネットワーク124を学習させる処理を実現するプログラムのフローチャートを示し、図10に追加で中国語の依存サブネットワーク234を学習させる処理を実現するプログラムのフローチャートを示す。
図9を参照して、独立サブネットワークと依存サブネットワーク(複数。この例では2つ)とを同時に学習させるプログラムは、独立サブネットワーク120を初期化するステップ240、依存サブネットワーク122を初期化するステップ242及び依存サブネットワーク124を初期化するステップ244とを含む。独立サブネットワーク120の初期化は、通常のDNNと同じく、RBM(Restricted Boltzman Machine)により行なう。依存サブネットワーク122及び124の初期化は、独立サブネットワーク120の出力を入力として、独立サブネットワーク120と同様、RBMを用いて行なう。なお、独立サブネットワーク120の出力を用いず、依存サブネットワーク122及び124をそれぞれ独立サブネットワーク120と独立にRBMにより初期化してもよい。
続いて、学習データを用いて独立サブネットワーク120並びに依存サブネットワーク122及び124の学習を同時に行なう。この例では、学習データは日本語と英語との双方の音声データ及び音素認識結果からなり、かつ日英の学習データはいずれも複数のセットに分割しておく。
このプログラムの、学習を行なう部分は、学習データの各セットに対して以下の処理248を実行するステップ246と、学習の結果得られた独立サブネットワーク120、日本語の依存サブネットワーク122及び英語の依存サブネットワーク124のパラメータを別々に出力し、図示しない記憶媒体にそれぞれ記憶させて処理を終了するステップ250とを含む。
処理248は、独立サブネットワーク120の後段に日本語の依存サブネットワーク122を接続するステップ270と、処理対象となっている学習セット内の日本語の各学習データに対して独立サブネットワーク120と依存サブネットワーク122とを接続して得られたDNNの学習を実行するステップ272と、独立サブネットワーク120の後段に英語の依存サブネットワーク124を接続するステップ276と、処理対象となっている学習データセット内の英語の各学習データを用い、この学習データが終了するまで、独立サブネットワーク120と依存サブネットワーク124とを接続して得られたDNNの学習を行なうステップ278とを含む。
図9のプログラムを実行することにより、図6に示すように、独立サブネットワーク120+依存サブネットワーク122と、独立サブネットワーク120+依存サブネットワーク124との2つのDNNの学習がそれぞれ日本語と英語とのデータを用いて交互に実行される。この際、独立サブネットワーク120は日本語と英語の双方のデータを用いて学習し、日本語の依存サブネットワーク122は日本語のデータを用いて学習し、英語の依存サブネットワーク124は英語のデータを用いて学習する。その結果、図5に示すように、日本語に特有の処理に関連するニューロンは日本語用の依存サブネットワーク122に、英語に特有の処理に関連するニューロンは英語用の依存サブネットワーク122に、言語に独立したニューロンは独立サブネットワーク120に、それぞれ集中することになる。
図10に、既に独立サブネットワーク120が得られた後に、新たな言語(たとえば中国語)の依存サブネットワーク(図8に示す依存サブネットワーク234)の学習を行なうためのプログラムの制御構造をフローチャート形式で示す。
図10を参照して、このプログラムは、独立サブネットワーク120の後段に依存サブネットワーク234を接続して新たなDNNを得るステップ300と、独立サブネットワーク120+依存サブネットワーク234からなるDNNの初期化を公知の方法で実行するステップ302と、中国語の各学習データを用いて、独立サブネットワーク120のパラメータを固定してDNNの学習を行なうステップ304と、学習の終了後に、依存サブネットワーク234を独立サブネットワーク120と別に出力し、図示しない記憶媒体に記憶させるステップ308とを含む。
このプログラムを実行することにより、独立サブネットワーク120に中国語用の依存サブネットワーク234を接続したDNNの学習を行なうことができる。独立サブネットワーク120についてはパラメータが固定されているので、実質的にはこの学習は依存サブネットワーク234のみが対象である。後述する実験では、このようにして学習した依存サブネットワーク234を独立サブネットワーク120の後段に接続しても、最初から中国語用の学習を行なったDNNと同等の性能が得られた。詳細については後述の実験結果で述べる。
[ハードウェア構成]
上記実施の形態に係るシステムは、コンピュータハードウェアと、そのコンピュータハードウェア上で実行される上記したコンピュータプログラムとにより実現できる。図11はこのコンピュータシステム330の外観を示し、図12はコンピュータシステム330の内部構成を示す。
図11を参照して、このコンピュータシステム330は、メモリポート352及びDVD(Digital Versatile Disc)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図12を参照して、コンピュータ340は、メモリポート352及びDVDドライブ350に加えて、CPU(中央処理装置)356と、CPU356、メモリポート352及びDVDドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス(I/F)344を含む。
コンピュータシステム330を上記した各実施の形態のシステムの各機能部として機能させるためのコンピュータプログラムは、DVDドライブ350又はメモリポート352に装着されるDVD362又はリムーバブルメモリ364に記憶され、さらにハードディスク354に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。DVD362から、リムーバブルメモリ364から、又はネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340を、上記実施の形態に係るシステムの各機能部として機能させるための複数の命令からなる命令列を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム若しくはサードパーティのプログラム、又は、コンピュータ340にインストールされる各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能をすべて提供するようにしてもよい。
図5〜図9に示す本実施の形態では、学習データ及び各サブネットワークのパラメータ等は、RAM360又はハードディスク354に記憶される。サブネットワークのパラメータはさらに、USBメモリ等のリムーバブルメモリ364に記憶されてもよいし、ネットワーク等の通信媒体を介して他のコンピュータに送信されてもよい。
コンピュータプログラムを実行する際のコンピュータシステム330の動作は周知である。したがってここではその詳細については繰返さない。
[実験]
上記仮定に基づいたシステムの有効性について、実験により検証した。実験は、日本語、英語及び中国語の音声データに対してフレームレベルでの音素の識別性能について行なった。音声データは、既にスマートフォン等で利用されている音声翻訳アプリケーションから音声翻訳サーバに送信されてくるデータを蓄積したものである。
音響パラメータとしては12次までのMFCC係数、対数音声パワー並びにそれらのフレーム間でのΔ(デルタ)及びΔΔである。すなわち、1フレームあたり39次元の特徴量を用いた。フレーム長は20ミリ秒、フレームシフト量は10ミリ秒である。1フレームあたり、処理対象のフレームと、その前後5フレームずつ、合計11フレームの特徴量からなる429次元の特徴量ベクトルをDNNへの入力として用いた。
日本語、英語及び中国語の音素数はそれぞれ26、39及び30である。各言語に対するDNNの出力層のニューロン数はこれら音素数に合わせた。
学習データは各言語について40,000発話であり、約25時間にわたる音声データである。評価のためのデータは1,000個とした。各発話には端末番号が付されているが、評価データの端末番号は、学習データには含まれていなかった。
プレ・学習段階でのRBMパラメータ推定の学習率を0.005に固定した。学習の繰返し数(エポック数)は100とした。ファイン・チューニング段階では、学習率を0.001からスタートし、開発データに対する誤り率が増加すると学習率を半分に変更した。開発データ数は2,000である。開発データ内の端末番号は、学習データにも評価データにも含まれなかった。RBMとDNNは128のミニ・バッチサイズで学習した。
ベースライン:
従来の手法で言語ごとに学習したDNNによる音素識別性能を、本願発明によるDNNの評価のためのベースラインとした。DNNの層数は、いずれの場合も入力層を別として2層、4層、6層の場合を評価した。各隠れ層内のニューロン数はいずれの場合も512である。プレ・学習段階で、各言語のDNNを日本語、英語及び中国語の発話データで別々に初期化した。各ニューロンについては、いずれも出力関数としてシグモイド関数を用いた。得られたDNNの音素識別率をテーブル1に示す。
Figure 2014229124
テーブル1から、層の数を多くすると言語を問わず識別率が向上することが分かる。
さらに、上記実施の形態について説明したDNNの学習方法にしたがって日本語及び英語の学習データを用い、独立サブネットワークと、日本語用の依存サブネットワーク及び英語用の依存サブネットワークとの学習を同時に行なった。ここではこれらをLIJp,En、LDJp及びLDEnと呼ぶ。この結果、日本語用のDNN(LIJp,En→LDJp)と英語用のDNN(LIJp,En→LDEn)とが得られたことになる。同様の方法で、日本語と中国語の学習データを用いた学習で、独立サブネットワークLIJp,Ch、LDJp及びLDChを得た。実験では、LIの隠れ層及び出力層のニューロンと、LDの隠れ層のニューロンとについては、出力関数としてシグモイド関数を用いた。LDの出力層のニューロンとしてはソフトマックス関数を用いた。各隠れ層内のニューロン数は512であり、これはベースラインのものと同じである。DNNの層数は6である。
2つのDNN(LLJp、En→LDJp及びLLJp,En→LDEn)による音素認識精度をテーブル2に示し、他のDNN(LIJP,Ch→LDJp及びLIJp,Ch→LDch)による音素認識精度をテーブル3に示す。
Figure 2014229124
Figure 2014229124
テーブル2及びテーブル3から、依存サブネットワークに2層以上を割り当てた場合には、ベースラインとほぼ同じ性能が得られたことが分かる。最もすぐれた性能を示したのは、LIとLDとに同じ数の層を割り当てたときであったが、その差はわずかなものであった。以上から、一般的にいって、上記実施の形態にしたがってDNNを独立サブネットワークと依存サブネットワークとに分けて複数個の言語について同時に学習したときには、最初から各言語について個別のDNNの学習を行なった場合よりよい性能を得られると考えられる。
最後に、独立サブネットワークに、その独立サブネットワークの学習に使用されなかった言語の依存サブネットワークを接続し、独立サブネットワークのパラメータを固定して学習して得られたDNNの音素識別性能を調べた。具体的には、DNN(LIJp,En→LDCh)と、DNN(LIJp,Ch→LDEn)との2つのDNNについてそれぞれ中国語と英語の音素識別性能を調べた。結果をテーブル4に示す。
Figure 2014229124
テーブル4から分かるように、上記DNNで実質的には中国語の依存サブネットワークと英語の依存サブネットワークとしか学習がされなかったにもかかわらず、得られたDNNの音素識別性能は、LDが1層しかない場合を除き、ベースラインの性能と遜色ないものである。
以上の実験から、本発明での仮定は実際に正しい可能性が大であることが分かる。すなわち、複数の言語の学習データを用いて独立サブネットワークと各言語の依存サブネットワークとを同時に学習させることで、独立サブネットワークには、言語に依存しない処理に関連するニューロンが集中すること及び各言語の依存サブネットワークには、その言語の音声処理に特に関連するニューロンが集中するということができる。したがって、この独立サブネットワークを、学習に用いられなかった言語の依存サブネットワークと組合せてDNNを構成した場合にも、十分な識別性能が得られると考えられる。すなわち、独立サブネットワークが得られれば、新たな言語については依存サブネットワークの学習のみを行なって、得られた依存サブネットワークを独立サブネットワークの後段に接続すれば、最初からDNNの学習を行なったものとほぼ同程度の識別性能を得ることができる。依存サブネットワークの層数はDNN全体の層の数より小さくできるので、その学習に要する時間は、DNN全体を学習させるよりもはるかに短くできる。
なお、上記実施の形態及び実験は、言語の音素識別に関するものである。この場合、DNNの出力層のニューロン数は、各言語の音素数と一致させる。しかし本発明は、そのような実施の形態には限定されない。音声認識のための音響モデルとして、隠れマルコフモデル(HMM)がよく使用されている。そのようなHMMに代えてDNNを使用することもできる。その場合には、DNNにより隠れ状態を推定することになるため、DNNの出力層のニューロンの数は、想定される隠れ状態の数と同じ数とする。
<変形例>
上記した実施の形態は音声処理に関するものであった。しかし、本発明は音声処理のみに適用可能なわけではない。例えば、画像認識についても同様に適用できる。音声の場合には、言語という明確な区別があり、従来は言語ごとにDNNの学習を行なってきた。したがって実施の形態のように、言語に依存しない部分のみを抽出して独立サブネットワークとすると、多言語について共通に使用できるという有利な点がある。これに対して画像認識の場合にも、明確に対象を区別できるカテゴリーがあれば、上記言語に代えてそれらカテゴリーごとに、本願発明を用いて画像認識のためのDNNの学習を効率的に行なえる。
例えば、画像認識の基礎となるエッジの抽出等、画像の基本的な特徴の検出は、対象の性質にかかわらず共通に行なわれる。一方、画像内の具体的なオブジェクトの識別は、より上位の特徴に基づいて行なわれると考えられる。したがって、画像内のオブジェクトの識別のためのDNNについても、画像のカテゴリーから独立したサブネットワーク(独立サブネットワーク)と、画像のカテゴリーごとに準備される、カテゴリーに依存したサブネットワーク(依存サブネットワーク)とから構築できると考えられる。
この場合の学習は、予め複数のカテゴリーに属するオブジェクトが含まれる画像を準備し、それらのための個別の依存サブネットワークと、独立サブネットワークとを準備する。そして、独立サブネットワークに、各カテゴリー用の依存サブネットワークを接続してそのカテゴリーに属する画像についてのDNNの学習を行なう。一定量の学習が終了したら、カテゴリー用の依存サブネットワークを別のカテゴリー用のものに代え、そのカテゴリーに属する画像でDNNの学習を行なう。こうした学習を繰返し行なうことで、画像のカテゴリーから独立した独立サブネットワークと、各カテゴリーの画像のための依存サブネットワークとが得られる。独立ネットワークのパラメータを固定することで、学習に使用されなかったカテゴリーの画像に対するサブネットワークの学習が可能であることも上記実施の形態の場合と同様である。そのための学習時間も少なくて済む。
したがって本発明は、画像内のオブジェクトの識別処理のためのDNNの学習にも有効に適用できる。
さらに、本発明は音声又は画像の識別処理に対してのみ有効なわけではない。同種のデータ内に複数のカテゴリーが想定でき、それらデータがそのカテゴリーに分類できるようなものであれば、どのようなデータにも適用できる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
30 ディープ・ニューラルネットワーク(DNN)
60 日本語DNN
62 英語DNN
80,82,100,102 ニューロン
120,230,232,236 独立サブネットワーク
122 日本語の依存サブネットワーク
124 英語の依存サブネットワーク
160,180,200 入力層
162,182,184 隠れ層
164,184,204 出力層
220,222,224 ニューロン対
234 中国語の依存サブネットワーク

Claims (6)

  1. 複数カテゴリーに分類される対象について識別するディープ・ニューラルネットワークにおいて、前記複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークをコンピュータを用いて学習させる、ディープ・ニューラルネットワークの学習方法であって、
    コンピュータが、記憶媒体内に、第1、第2及び第3のサブネットワークを記憶するステップと、
    コンピュータが、前記複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで前記第1、第2及び第3のサブネットワークを学習させるサブネットワークの学習ステップとを含み、
    前記サブネットワークの学習ステップは、
    コンピュータが、前記第1のサブネットワークの後段に前記第2のサブネットワークを接続して形成された第1のディープ・ニューラルネットワークを、前記第1のカテゴリーに属する学習データで学習させ、前記第1のサブネットワークの後段に前記第3のサブネットワークを接続して形成した第2のディープ・ニューラルネットワークを、前記第2のカテゴリーに属する学習データで学習させることにより、前記第1及び第2のディープ・ニューラルネットワークの学習を行なうディープ・ニューラルネットワークの学習ステップと、
    コンピュータが、前記ディープ・ニューラルネットワークの学習ステップの完了後に、前記第1のサブネットワークを他のサブネットワークから分離して、前記カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む、ディープ・ニューラルネットワークの学習方法。
  2. 前記第1、第2及び第3のサブネットワークは、いずれも入力層、隠れ層及び出力層を含み、
    前記ディープ・ニューラルネットワークの学習ステップは、
    コンピュータが、前記第1、第2及び第3のサブネットワークを初期化するステップと、
    コンピュータが、前記第1のサブネットワークの前記出力層のニューロンと、前記第2のサブネットワークの前記入力層のニューロンとを接続して第1のディープ・ニューラルネットワークを形成し、前記第1のカテゴリーに属する学習データで前記第1のディープ・ニューラルネットワークを学習させる第1の学習ステップと、
    コンピュータが、前記第1のサブネットワークの前記出力層のニューロンと、前記第3のサブネットワークの前記入力層のニューロンとを接続して第2のディープ・ニューラルネットワークを形成し、前記第2のカテゴリーに属する学習データで前記第2のディープ・ニューラルネットワークを学習させる第2のトレーニングステップと、
    コンピュータが、前記第1及び第2の学習ステップを、終了条件が成立するまで交互に実行するステップとを含む、請求項1に記載の学習方法。
  3. さらに、コンピュータが、前記サブネットワークの学習ステップの完了後に、前記第2のサブネットワークを他のサブネットワークから分離して、前記第1のカテゴリーの対象に対して使用されるカテゴリー依存のサブネットワークとして記憶媒体に記憶させるステップを含む、請求項1又は請求項2に記載のディープ・ニューラルネットワークの学習方法。
  4. 複数カテゴリーに分類される対象について識別するディープ・ニューラルネットワークにおいて、特定カテゴリーに使用されるカテゴリー依存のサブネットワークをコンピュータを用いて学習させる、ディープ・ニューラルネットワークの学習方法であって、
    コンピュータが、前記複数カテゴリーに共通して使用されるカテゴリー独立なサブネットワークを記憶するステップと、
    コンピュータが、前記特定カテゴリー用のサブネットワークを記憶するステップと、
    コンピュータが、前記特定カテゴリー用のサブネットワークを初期化するステップと、
    コンピュータが、前記カテゴリー独立なサブネットワークの出力層のニューロンと、前記特定カテゴリー用のサブネットワークの入力層とを接続することによりディープ・ニューラルネットワークを形成するステップと、
    コンピュータが、前記特定カテゴリーに属する学習データを用いて、かつ前記カテゴリー独立なサブネットワークのパラメータを固定して、前記特定カテゴリー用のサブネットワークを学習させるステップとを含む、ディープ・ニューラルネットワークの学習方法。
  5. 請求項1〜請求項4のいずれかに記載の方法により学習した、ディープ・ニューラルネットワークのサブネットワークのパラメータを記憶した記憶媒体。
  6. ディープ・ニューラルネットワークの学習方法をコンピュータに実行させるコンピュータプログラムであって、
    前記方法は、複数カテゴリーに分類される対象について識別するディープ・ニューラルネットワークにおいて、前記複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークを学習させる方法であり、
    当該方法は、
    コンピュータが、記憶媒体内に、第1、第2及び第3のサブネットワークを記憶するステップと、
    コンピュータが、前記複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで前記第1、第2及び第3のサブネットワークを学習させるサブネットワークの学習ステップとを含み、
    前記サブネットワークの学習ステップは、
    コンピュータが、前記第1のサブネットワークの後段に前記第2のサブネットワークを接続して形成された第1のディープ・ニューラルネットワークを、前記第1のカテゴリーに属する学習データで学習させ、前記第1のサブネットワークの後段に前記第3のサブネットワークを接続して形成した第2のディープ・ニューラルネットワークを、前記第2のカテゴリーに属する学習データで学習させることにより、前記第1及び第2のディープ・ニューラルネットワークの学習を行なうディープ・ニューラルネットワークの学習ステップと、
    コンピュータが、前記ディープ・ニューラルネットワークの学習ステップの完了後に、前記第1のサブネットワークを他のサブネットワークから分離して、前記カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む、コンピュータプログラム。
JP2013109061A 2013-05-23 2013-05-23 ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム Active JP6164639B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2013109061A JP6164639B2 (ja) 2013-05-23 2013-05-23 ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム
US14/787,903 US9691020B2 (en) 2013-05-23 2014-05-15 Deep neural network learning method and apparatus, and category-independent sub-network learning apparatus
CN201480029326.5A CN105229676B (zh) 2013-05-23 2014-05-15 深层神经网络的学习方法及学习装置
EP14801131.5A EP3001358B1 (en) 2013-05-23 2014-05-15 Method and device for learning deep neural network, and device for learning category-independent sub-network
PCT/JP2014/062911 WO2014188940A1 (ja) 2013-05-23 2014-05-15 ディープ・ニューラルネットワークの学習方法及び学習装置、並びにカテゴリー独立なサブネットワークの学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013109061A JP6164639B2 (ja) 2013-05-23 2013-05-23 ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2014229124A true JP2014229124A (ja) 2014-12-08
JP6164639B2 JP6164639B2 (ja) 2017-07-19

Family

ID=51933500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013109061A Active JP6164639B2 (ja) 2013-05-23 2013-05-23 ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US9691020B2 (ja)
EP (1) EP3001358B1 (ja)
JP (1) JP6164639B2 (ja)
CN (1) CN105229676B (ja)
WO (1) WO2014188940A1 (ja)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015057630A (ja) * 2013-08-13 2015-03-26 日本電信電話株式会社 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
JP2016156870A (ja) * 2015-02-23 2016-09-01 日本電信電話株式会社 言語識別モデル学習装置、言語識別装置、言語識別モデル学習方法、言語識別方法、プログラム、および記録媒体
JP2017211799A (ja) * 2016-05-25 2017-11-30 キヤノン株式会社 情報処理装置および情報処理方法
JP2018180354A (ja) * 2017-04-17 2018-11-15 日本電信電話株式会社 音響モデル学習装置、その方法、及びプログラム
WO2018216648A1 (ja) * 2017-05-22 2018-11-29 日本電気株式会社 群衆状態認識装置、学習方法および学習プログラム
JP2019008744A (ja) * 2017-06-28 2019-01-17 日本電信電話株式会社 学習装置、テキスト生成装置、方法、及びプログラム
DE102018110196A1 (de) 2017-07-27 2019-01-31 Toyota Jidosha Kabushiki Kaisha Wahrnehmungseinrichtung
WO2019074185A1 (en) * 2017-10-12 2019-04-18 Samsung Electronics Co., Ltd. ELECTRONIC APPARATUS AND CONTROL METHOD THEREOF
JP2019074947A (ja) * 2017-10-17 2019-05-16 富士通株式会社 学習装置、学習方法及び学習プログラム
WO2019102797A1 (ja) * 2017-11-21 2019-05-31 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
JP2019106140A (ja) * 2017-12-14 2019-06-27 アイシン精機株式会社 機械学習のモデルパラメータの学習装置
WO2020209078A1 (ja) * 2019-04-09 2020-10-15 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
JP2021507378A (ja) * 2017-12-13 2021-02-22 アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドAdvanced Micro Devices Incorporated ニューラルネットワークの関数サブネットワークの同時トレーニング
JP2021043272A (ja) * 2019-09-09 2021-03-18 国立研究開発法人情報通信研究機構 推論器、推論プログラムおよび学習方法
US11093817B2 (en) 2016-12-13 2021-08-17 Fujitsu Limited Information processing device and information processing method
US11144757B2 (en) 2019-01-30 2021-10-12 Canon Kabushiki Kaisha Information processing system, terminal apparatus, client apparatus, control method thereof, and storage medium
US11170262B2 (en) 2015-10-30 2021-11-09 Morpho, Inc. Training system, training device, method for training, training data creation device, training data creation method, terminal device, and threshold value changing device
JP2022100413A (ja) * 2020-03-03 2022-07-05 エンゼルグループ株式会社 テーブルゲームの管理システムおよび遊戯用代用貨幣
JP2022534390A (ja) * 2019-05-28 2022-07-29 グーグル エルエルシー ストリーミングエンドツーエンドモデルを用いる大規模多言語音声認識
JP2022116080A (ja) * 2016-09-05 2022-08-09 ケイロン メディカル テクノロジーズ リミテッド マルチモーダル医用画像処理
JP2022133355A (ja) * 2015-11-19 2022-09-13 エンゼルグループ株式会社 チップの計測システム
JP2022540968A (ja) * 2020-04-15 2022-09-21 南京郵電大学 家庭内会話環境に向けたニューラルネットワーク音声認識方法およびシステム
US11651646B2 (en) 2015-11-19 2023-05-16 Angel Group Co., Ltd. Table game management system, game token, and inspection apparatus
US11798362B2 (en) 2016-02-01 2023-10-24 Angel Group Co., Ltd. Chip measurement system

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
CN105224984B (zh) * 2014-05-31 2018-03-13 华为技术有限公司 一种基于深度神经网络的数据类别识别方法及装置
US10354184B1 (en) * 2014-06-24 2019-07-16 Amazon Technologies, Inc. Joint modeling of user behavior
CN106203460A (zh) * 2015-05-05 2016-12-07 杜比实验室特许公司 训练信号处理模型以用于信号处理系统中的部件替换
US10235994B2 (en) * 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
US10664722B1 (en) * 2016-10-05 2020-05-26 Digimarc Corporation Image processing arrangements
KR101917006B1 (ko) * 2016-11-30 2018-11-08 에스케이 주식회사 머신 러닝 기반 반도체 제조 수율 예측 시스템 및 방법
US11798064B1 (en) 2017-01-12 2023-10-24 Digimarc Corporation Sensor-based maximum-likelihood estimation of item assignments
US10572773B2 (en) 2017-05-05 2020-02-25 Intel Corporation On the fly deep learning in machine learning for autonomous machines
US11392827B1 (en) * 2017-07-19 2022-07-19 United States Of America As Represented By The Secretary Of The Navy Deeper learning from the real-time transformative correction of and reasoning from neural network outputs
US20200342955A1 (en) * 2017-10-27 2020-10-29 Apostle, Inc. Predicting cancer-related pathogenic impact of somatic mutations using deep learning-based methods
US11681912B2 (en) * 2017-11-16 2023-06-20 Samsung Electronics Co., Ltd. Neural network training method and device
US11461655B2 (en) * 2018-01-30 2022-10-04 D5Ai Llc Self-organizing partially ordered networks
CN112368773A (zh) 2018-06-15 2021-02-12 株式会社半导体能源研究所 半导体装置
US10210860B1 (en) 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
US11922314B1 (en) * 2018-11-30 2024-03-05 Ansys, Inc. Systems and methods for building dynamic reduced order physical models
JP2022512233A (ja) * 2018-12-10 2022-02-02 インタラクティブ-エーアイ,エルエルシー 多言語スタイル依存音声言語処理のためのニューラル調整コード
US11983618B2 (en) 2019-04-12 2024-05-14 Ohio State Innovation Foundation Computing system and method for determining mimicked generalization through topologic analysis for advanced machine learning
KR20200126675A (ko) * 2019-04-30 2020-11-09 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN114531355B (zh) * 2020-11-23 2023-07-18 维沃移动通信有限公司 通信方法、装置及通信设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309293A (ja) * 1993-04-26 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> 多層構造型ニューラルネットワークの構成方法
JPH1063632A (ja) * 1996-08-14 1998-03-06 Mitsubishi Electric Corp 大規模ニューラルネットワーク構築方法及び大規模ニューラルネットワーク構築装置及びニューラルネットワーク装置
JP2002520719A (ja) * 1998-07-08 2002-07-09 シーメンス アクチエンゲゼルシヤフト ニューラルネット及びニューラルネットのトレーニング方法及び装置
US20090204558A1 (en) * 2008-02-07 2009-08-13 Nec Laboratories America, Inc. Method for training a learning machine having a deep multi-layered network with labeled and unlabeled training data

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2756073B1 (fr) 1996-11-18 1999-01-15 Commissariat Energie Atomique Procede d'apprentissage generant des reseaux de neurones de petites tailles pour la classification de donnees
EP2221805B1 (en) * 2009-02-20 2014-06-25 Nuance Communications, Inc. Method for automated training of a plurality of artificial neural networks
US9235799B2 (en) * 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
CN103117060B (zh) * 2013-01-18 2015-10-28 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309293A (ja) * 1993-04-26 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> 多層構造型ニューラルネットワークの構成方法
JPH1063632A (ja) * 1996-08-14 1998-03-06 Mitsubishi Electric Corp 大規模ニューラルネットワーク構築方法及び大規模ニューラルネットワーク構築装置及びニューラルネットワーク装置
JP2002520719A (ja) * 1998-07-08 2002-07-09 シーメンス アクチエンゲゼルシヤフト ニューラルネット及びニューラルネットのトレーニング方法及び装置
US20090204558A1 (en) * 2008-02-07 2009-08-13 Nec Laboratories America, Inc. Method for training a learning machine having a deep multi-layered network with labeled and unlabeled training data

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015057630A (ja) * 2013-08-13 2015-03-26 日本電信電話株式会社 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
JP2016156870A (ja) * 2015-02-23 2016-09-01 日本電信電話株式会社 言語識別モデル学習装置、言語識別装置、言語識別モデル学習方法、言語識別方法、プログラム、および記録媒体
US11170262B2 (en) 2015-10-30 2021-11-09 Morpho, Inc. Training system, training device, method for training, training data creation device, training data creation method, terminal device, and threshold value changing device
JP2022133355A (ja) * 2015-11-19 2022-09-13 エンゼルグループ株式会社 チップの計測システム
US11734995B2 (en) 2015-11-19 2023-08-22 Angel Group Co., Ltd. Table game management system, game token, and inspection apparatus
US11783665B2 (en) 2015-11-19 2023-10-10 Angel Group Co., Ltd. Table game management system and game token
US11651646B2 (en) 2015-11-19 2023-05-16 Angel Group Co., Ltd. Table game management system, game token, and inspection apparatus
JP7288539B2 (ja) 2015-11-19 2023-06-07 エンゼルグループ株式会社 チップの計測システム
US11798362B2 (en) 2016-02-01 2023-10-24 Angel Group Co., Ltd. Chip measurement system
JP2017211799A (ja) * 2016-05-25 2017-11-30 キヤノン株式会社 情報処理装置および情報処理方法
US10909455B2 (en) 2016-05-25 2021-02-02 Canon Kabushiki Kaisha Information processing apparatus using multi-layer neural network and method therefor
JP2022116080A (ja) * 2016-09-05 2022-08-09 ケイロン メディカル テクノロジーズ リミテッド マルチモーダル医用画像処理
US11093817B2 (en) 2016-12-13 2021-08-17 Fujitsu Limited Information processing device and information processing method
JP2018180354A (ja) * 2017-04-17 2018-11-15 日本電信電話株式会社 音響モデル学習装置、その方法、及びプログラム
JPWO2018216648A1 (ja) * 2017-05-22 2020-03-19 日本電気株式会社 群衆状態認識装置、学習方法および学習プログラム
WO2018216648A1 (ja) * 2017-05-22 2018-11-29 日本電気株式会社 群衆状態認識装置、学習方法および学習プログラム
US11157749B2 (en) 2017-05-22 2021-10-26 Nec Corporation Crowd state recognition device, learning method, and learning program
JP2019008744A (ja) * 2017-06-28 2019-01-17 日本電信電話株式会社 学習装置、テキスト生成装置、方法、及びプログラム
US11176416B2 (en) 2017-07-27 2021-11-16 Toyota Jidosha Kabushiki Kaisha Perception device
DE102018110196A1 (de) 2017-07-27 2019-01-31 Toyota Jidosha Kabushiki Kaisha Wahrnehmungseinrichtung
WO2019074185A1 (en) * 2017-10-12 2019-04-18 Samsung Electronics Co., Ltd. ELECTRONIC APPARATUS AND CONTROL METHOD THEREOF
JP2019074947A (ja) * 2017-10-17 2019-05-16 富士通株式会社 学習装置、学習方法及び学習プログラム
JPWO2019102797A1 (ja) * 2017-11-21 2020-11-19 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
WO2019102797A1 (ja) * 2017-11-21 2019-05-31 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
JP7008081B2 (ja) 2017-11-21 2022-01-25 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
JP2021507378A (ja) * 2017-12-13 2021-02-22 アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドAdvanced Micro Devices Incorporated ニューラルネットワークの関数サブネットワークの同時トレーニング
US11836610B2 (en) 2017-12-13 2023-12-05 Advanced Micro Devices, Inc. Concurrent training of functional subnetworks of a neural network
JP7246392B2 (ja) 2017-12-13 2023-03-27 アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド ニューラルネットワークの関数サブネットワークの同時トレーニング
JP2019106140A (ja) * 2017-12-14 2019-06-27 アイシン精機株式会社 機械学習のモデルパラメータの学習装置
JP7000834B2 (ja) 2017-12-14 2022-01-19 株式会社アイシン 機械学習のモデルパラメータの学習装置
US11144757B2 (en) 2019-01-30 2021-10-12 Canon Kabushiki Kaisha Information processing system, terminal apparatus, client apparatus, control method thereof, and storage medium
WO2020209078A1 (ja) * 2019-04-09 2020-10-15 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
JP2022534390A (ja) * 2019-05-28 2022-07-29 グーグル エルエルシー ストリーミングエンドツーエンドモデルを用いる大規模多言語音声認識
JP7343615B2 (ja) 2019-05-28 2023-09-12 グーグル エルエルシー ストリーミングエンドツーエンドモデルを用いる大規模多言語音声認識
JP7385900B2 (ja) 2019-09-09 2023-11-24 国立研究開発法人情報通信研究機構 推論器、推論プログラムおよび学習方法
JP2021043272A (ja) * 2019-09-09 2021-03-18 国立研究開発法人情報通信研究機構 推論器、推論プログラムおよび学習方法
JP2022100413A (ja) * 2020-03-03 2022-07-05 エンゼルグループ株式会社 テーブルゲームの管理システムおよび遊戯用代用貨幣
JP2022100412A (ja) * 2020-03-03 2022-07-05 エンゼルグループ株式会社 テーブルゲームの管理システムおよび遊戯用代用貨幣
JP7457056B2 (ja) 2020-03-03 2024-03-27 エンゼルグループ株式会社 遊技テーブル管理システム
JP7457057B2 (ja) 2020-03-03 2024-03-27 エンゼルグループ株式会社 テーブルゲームの管理システム
JP2022540968A (ja) * 2020-04-15 2022-09-21 南京郵電大学 家庭内会話環境に向けたニューラルネットワーク音声認識方法およびシステム
JP7166683B2 (ja) 2020-04-15 2022-11-08 南京郵電大学 家庭内会話環境に向けたニューラルネットワーク音声認識方法およびシステム

Also Published As

Publication number Publication date
US9691020B2 (en) 2017-06-27
WO2014188940A1 (ja) 2014-11-27
EP3001358B1 (en) 2020-09-09
JP6164639B2 (ja) 2017-07-19
EP3001358A4 (en) 2017-07-26
EP3001358A1 (en) 2016-03-30
US20160110642A1 (en) 2016-04-21
CN105229676B (zh) 2018-11-23
CN105229676A (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
JP6164639B2 (ja) ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム
JP5777178B2 (ja) 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
Lee et al. High-level feature representation using recurrent neural network for speech emotion recognition
Zen et al. Statistical parametric speech synthesis using deep neural networks
Swietojanski et al. Unsupervised cross-lingual knowledge transfer in DNN-based LVCSR
CN105679317B (zh) 用于训练语言模型并识别语音的方法和设备
Ghoshal et al. Multilingual training of deep neural networks
Senior et al. Improving DNN speaker independence with i-vector inputs
Jaitly et al. Application of Pretrained Deep Neural Networks to Large Vocabulary Speech Recognition.
Seide et al. Conversational speech transcription using context-dependent deep neural networks.
US9460711B1 (en) Multilingual, acoustic deep neural networks
Sainath et al. Optimization techniques to improve training speed of deep neural networks for large speech tasks
JP2017228160A (ja) 対話行為推定方法、対話行為推定装置及びプログラム
Liu et al. Reinforcement learning for emotional text-to-speech synthesis with improved emotion discriminability
Tóth et al. A comparison of deep neural network training methods for large vocabulary speech recognition
Liu et al. Graph-based semi-supervised learning for phone and segment classification.
Huang et al. Beyond cross-entropy: towards better frame-level objective functions for deep neural network training in automatic speech recognition.
Guo et al. Deep neural network based i-vector mapping for speaker verification using short utterances
Biswas et al. Multilingual Neural Network Acoustic Modelling for ASR of Under-Resourced English-isiZulu Code-Switched Speech.
Saurav et al. Bangla speech recognition for voice search
JP4861912B2 (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
Nguyen et al. Improving acoustic model for English ASR System using deep neural network
Gehring et al. DNN acoustic modeling with modular multi-lingual feature extraction networks
AbdAlmisreb et al. Maxout based deep neural networks for Arabic phonemes recognition
Joy et al. DNNs for unsupervised extraction of pseudo speaker-normalized features without explicit adaptation data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170614

R150 Certificate of patent or registration of utility model

Ref document number: 6164639

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250