JP2019133046A

JP2019133046A - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP2019133046A
Application number: JP2018016195A
Authority: JP
Inventors: 成樹苅田; Shigeki Karita; 小川　厚徳; Atsunori Ogawa; 厚徳小川; マークデルクロア; Marc Delcroix; 中谷　智広; Tomohiro Nakatani; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2019-08-08
Anticipated expiration: 2038-02-01
Also published as: JP6831343B2; US20210056954A1; US11551667B2; WO2019151507A1

Abstract

【課題】ＮＮに基づく音声認識モデルの学習を高精度に実行することができる。【解決手段】学習装置１０は、学習用の音声データから、音声の特徴量を抽出する特徴量抽出部１１と、音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得する確率計算部１２と、複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化するモデル全体のパラメータを求めるエラー計算部１３と、エラー計算部が求めたパラメータにしたがって、モデルのパラメータを更新するパラメータ更新部１４と、を有する。【選択図】図１

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。

従来、隠れマルコフモデル（Hidden Markov Model：ＨＭＭ）に基づく音声認識装置が提案されている（例えば、非特許文献１参照）。このＨＭＭに基づく音声認識装置では、階層的な構造を採用するため、音声特徴量と文字列との対応関係を同時に学習することができなかった。

これに対し、近年、長さの異なる音声と文字列との対応関係を、直接、エンコーダデコーダを基に学習することが可能である音声認識装置が提案されている（例えば、非特許文献２参照）。この音声認識装置は、ニューラルネットワーク（Neural Network：ＮＮ）の一種であるエンコーダデコーダをモデルに採用している。このため、音声認識装置によれば、長さの異なる音声と文字列との対応関係を同時に学習することが可能になり、より単純な構成で高精度な音声認識を実現できるようになった。

G. Hinton et al., "Deep Neural Networks for Acoustic Modeling in Speech Recognition", IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29，No. 6, pp. 82−97, 2012. (https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/38131.pdf) J. Chorowski et al., "Attention-Based Models for Speech Recognition", Advances in Neural Information Processing Systems 28 (NIPS 2015), pp. 577−585, 2015. （http://papers.nips.cc/paper/5847-attention-based-models-for-speech-recognition.pdf）

しかしながら、非特許文献２記載のＮＮに基づく音声認識モデルでは、学習時と認識時とにおいて、使用する指標や処理動作が異なるため、精度向上にも限界があった。

本発明は、上記に鑑みてなされたものであって、ＮＮに基づく音声認識モデルの学習を高精度に実行することができる学習装置、学習方法及び学習プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の学習装置は、学習用の音声データから、音声の特徴量を抽出する抽出部と、音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得する確率計算部と、複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化する音声認識モデル全体のパラメータを求めるエラー計算部と、エラー計算部が求めたパラメータにしたがって、音声認識モデルモデルのパラメータを更新する更新部と、を有することを特徴とする。

本発明によれば、ＮＮに基づく音声認識モデルの学習を高精度に実行することができる。

図１は、実施の形態に係る学習装置の構成の一例を示す図である。図２は、従来の確率計算処理とエラー計算処理とを説明する図である。図３は、図１に示す学習装置による確率計算処理とエラー計算処理とを説明する図である。図４は、実施の形態に係る音声認識装置の構成の一例を示す図である。図５は、施の形態に係る学習処理の処理手順を示すフローチャートである。図６は、実施の形態に係る音声認識装置の処理の流れを示すフローチャートである。図７は、プログラムが実行されることにより、学習装置或いは音声認識装置が実現されるコンピュータの一例を示す図である。

以下に、本願に係る学習装置、学習方法及び学習プログラムの実施の形態を図面に基づいて詳細に説明する。なお、本発明は、学習用の音声データを、エンコーダデコーダにより音声の特徴と文字列の対応関係をモデル化した音声認識モデルに学習させる例について説明する。また、本発明は、以下に説明する実施の形態により限定されるものではない。

なお、以下では、例えばａがベクトルである場合には“ベクトルａ”と表記し、例えばＡが行列である場合には“行列Ａ”と表記し、例えばＡがスカラーである場合には単に“Ａ”と表記する。また、例えばＡが集合である場合には、“集合Ａ”と表記する。また、例えばスカラーａを引き数にとる関数ｆは、ｆ（ベクトルａ）と表記する。また、ベクトル、行列又はスカラーであるＡに対し、“＾Ａ”と記載する場合は「“Ａ”の直上に“＾”が記された記号」と同等であるとする。また、ベクトル、行列又はスカラーであるＡに対し、“~Ａ”と記載する場合は「“Ａ”の直上に“~”が記された記号」と同等であるとする。なお、特徴量及び文字列は、ベクトルで示される。

［学習装置の構成］
まず、図１を用いて、実施の形態に係る学習装置の構成について説明する。図１は、実施の形態に係る学習装置の構成の一例を示す図である。実施の形態に係る学習装置１０は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。図１に示すように、学習装置１０は、特徴量抽出部１１（抽出部）、確率計算部１２、エラー計算部１３、パラメータ更新部１４（更新部）、収束判定部１５及び音声認識モデル記憶部１６を有する。

音声認識モデル記憶部１６は、音声の音響的特徴をモデル化した音声認識モデルを記憶する。音声認識モデルは、ＮＮで表される。音声認識モデルは、ＮＮで計算されたＨＭＭの各状態の事後確率分布を含む。音声認識モデルは、エンコーダデコーダにより音声の音響的特徴と文字列の対応関係をモデル化したものである。具体的には、音声認識モデル記憶部１８は、ＮＮのパラメータである音声認識モデルパラメータ集合Λを記憶する。

特徴量抽出部１１は、入力された学習用の音声データを読み込み、学習用の音声データから音声の特徴量を抽出する。特徴量抽出部１１は、特徴量として、例えば、ＭＦＣＣ（Mel Frequency Cepstral Coefficient）、ＦＢＡＮＫ（Log Mel Filterbank Coefficients）、ΔＭＦＣＣ（ＭＦＣＣの１回微分）、ΔΔＭＦＣＣ（ＭＦＣＣの２回微分）、対数パワー、Δ対数パワー（対数パワーの１回微分）等を抽出する。特徴量抽出部１１は、学習用音声データから、音声特徴量として特徴量ベクトルｘを抽出する。

確率計算部１２は、特徴量抽出部１１によって抽出された特徴量ベクトルｘ、及び、音声認識モデル記憶部１６に記憶された音声認識モデルパラメータ集合Λを用いて、ＮＮ−ＨＭＭを基に認識文字列の確率ｐ（ｙ｜ｘ）を計算する。確率計算部１２は、音声の特徴量を基に、音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算する。そして、確率計算部１２は、正解文字列らしさが最大となる仮説を選ぶ。確率計算部１２は、正解文字列らしさが最大となる仮説として、長さＫのＭ（Ｍ≧２）個の仮説文字列を取得する。この場合、確率計算部１２は、探索対象の接頭辞に続く文字候補の同時生起確率にしたがった多項分布に基づいて、探索対象の接頭辞に続く文字候補を選択する。確率計算部１２は、正解文字列なしでの確率計算を行う。

エラー計算部１３は、確率計算部１２によって計算された事後確率を基に単語誤り率によるエラーを計算し、モデル全体のパラメータを求める。エラー計算部１３は、Ｍ個の仮説文字列と、学習用の長さＴの正解文字列との、単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化するようモデル全体のパラメータを求める。この場合、エラー計算部１３は、単語誤り率の損失と、損失の勾配を近似した方策勾配とを基に、誤差逆伝播法によりモデル全体のパラメータを求める。仮説文字列の長さＫと学習用の文字列の長さＴとは、異なる長さでもよいし同じ長さでもよい。

パラメータ更新部１４は、エラー計算部１３が求めたパラメータにしたがって、音声認識モデルのパラメータ集合Λを更新する。

収束判定部１５は、更新により音声認識モデルパラメータ集合Λが収束したか否かを判定する。収束判定部１５は、音声認識モデルパラメータ集合Λが収束していると判定した場合、入力された学習用音声データに対する学習を終了し、音声認識モデル記憶部１６に、更新された音声認識モデルパラメータ集合Λを記憶させる。また、収束判定部１５は、音声認識モデルパラメータ集合Λが収束していないと判定した場合、確率計算部１２、エラー計算部１３及びパラメータ更新部１４は、更新後の音声認識モデルパラメータ集合Λを用いて、さらに事後確率の計算、エラーの計算及び音声認識モデルパラメータ集合Λの更新を行う。

このように、本実施の形態の学習装置１０は、確率計算及びエラー計算として、接頭辞探索と単語誤り率によるエラー計算を行い、音声認識モデルのパラメータの更新を行う。

［従来の学習装置］
従来の学習装置では、確率計算及びエラー計算として、正解文字列による確率計算と、正解文字列における確率を用いた交差エントロピー損失によるエラー計算を行う。そこで、従来の学習装置における確率計算処理とエラー計算処理とについて説明する。言い換えると、従来の学習装置では、単語誤り率の損失を、正解文字列における確率を用いた交差エントロピー損失に近似してエラー計算を行う。

図２は、従来の確率計算処理とエラー計算処理とを説明する図である。図２に示すように、従来の学習装置は、EncoderとDecoderとを表す二つの２つの部分ニューラルネットワークを持つエンコーダデコーダモデルを用いる。従来の学習装置では、認識文字列の確率計算処理において、図２に示すエンコーダデコーダモデルにより、入力音声の特徴量ベクトルｘに対する認識文字列が長さＴの正解文字列ｙ＝ｙ_１，ｙ_１，・・・，ｙ_Ｔと一致する確率ｐ（ｙ｜ｘ）を次の（１）式〜（４）式を用いて計算する。

ｅは、入力側ニューラルネットワークEncoderによる中間ベクトルであり、ｓ_ｔは、出力側のニューラルネットワークDecoderによるｔ番目の出力文字に伴う中間ベクトルである。

続いて、従来の学習装置では、正解文字列における確率を用いた交差エントロピー損失によるエラー計算を行う。従来の学習装置では、エラー計算処理において、正解文字列における確率を用いた（５）式に示す交差エントロピー損失を最小化するように、一般的な誤差逆伝搬法によってエンコーダデコーダモデル全体のパラメータの勾配を求め、パラメータ更新処理に進む。

［本実施の形態における確率計算処理及びエラー計算処理］
次に、学習装置１０による確率計算処理とエラー計算処理とを説明する。図３は、図１に示す学習装置１０による確率計算処理とエラー計算処理とを説明する図である。

学習装置１０は、認識文字列の確率計算処理において、学習用の音声データへの過学習を防ぐため、従来の学習のように正解文字列を使わず、認識時と同様に接頭辞探索により認識文字列の確率計算を行う。すなわち、学習装置１０では、正解文字列が与えられない認識時の確率計算と同様に、接頭辞探索などにより正解文字列らしさｐ（ｙ＝＾ｙ｜ｘ）が最大となる仮説＾ｙを求める。

接頭辞ベクトルｈ_ｔ ^（ｍ）は、ｍ（ｍ＝１，２，・・・，Ｍ）個目の探索対象の仮説における１からｔ−１番目の文字を並べた文字列である。まず、確率計算部１２は、探索対象の接頭辞ｈ_ｔ ^（ｍ）に、続く文字候補ｙ_ｔの同時生起確率π_ｍ，ｙｔを、次の（６）式〜（８）式を用いて求める。

集合Ｙは、認識に用いる文字（アルファベットや数字、終端記号など）の集合である。

確率計算部１２は、生起確率π_ｍ，ｙｔに従い多項分布から、新たにｔ番目の文字を追加した探索対象の接頭辞ベクトルｈ_ｔ＋１ ^（ｍ）を（９）式及び（１０）式を用いてにサンプリングする。

appendは、ｌ番目の仮説文字列の中でｔ番目未満の文字列（接頭辞）ｈ_ｔ ^（ｌ）にｔ番目の文字としてｙ_ｔ ^（ｍ）を接続したものを新たにｍ番目の仮説文字列のｔ＋１番目未満の文字列（接頭辞）ｈ_ｔ＋１ ^（ｍ）として出力する。例えば、確率計算部１２は、生起確率π_ｍ，ｙｔに従った多項分布のうち生起頻度が上位２０位の文字、すなわち、次の文字として現れる頻度が高いとされる上位２０位の文字を、新たに追加する接頭辞ベクトルｈ_ｔ＋１ ^（ｍ）としてサンプリングする。

そして、確率計算部１２は、サンプリングされたｙ_ｔ ^（ｍ）から、次のｔ＋１番目の文字を含む仮説の生起確率π_ｍ，ｙｔの計算に用いる確率値を、（１１）式を用いて、新たに求める。

確率計算部１２は、以上の処理をＭ個のサンプルが終端記号（ＥＯＳ）を含むまでｔを増加させて繰り返すことにより、確率的に選択されたＭ個の仮説である長さＫの終端記号までの文字列~ｙを得る。文字列~ｙは、（１２）式で表される。

エラー計算部１３は、確率計算部１２が出力したＭ個の仮説文字列~ｙと学習用の長さＴの正解文字列ベクトルｙとの単語誤り率によるエラーを計算する。単語誤り率は、スカラー値であり、音声認識のような系列学習にスカラー値のエラーを用いて学習することは困難である。そこで、エラー計算部１３は、系列として文字列中の各文字における単語誤り率を用いる。

この場合、仮説文字列~ｙの長さがＫの場合、単語誤り率における動的計画行列を（１３）式に示す。

エラー計算部１３は、仮説文字列~ｙの長さがＫの場合、単語誤り率における動的計画行列を、（１４）式〜（１６）式を用いて求める。

（１７）式に最終的な単語誤り数を示す。

エラー計算部１３は、最終的な単語誤り数を構成するｍｉｎ演算によって選択された（ｔ，ｋ）の最小要素の集合を用いた仮説文字列~Ａ中の各ｋ（ｋ＝１，２，・・・，Ｋ）番目の文字~ｙ_ｋにおける単語誤り率総和の損失を最小化するように、損失のパラメータに対する勾配を起点とした誤差逆伝搬法により、モデル全体のパラメータ集合Λの更新量を求める。エラー計算部１３は、求めたパラメータ集合の更新量をパラメータ更新部１４へ出力する。最小要素の集合は（１８）式に示される。単語誤り率総和の損失は（１９）式に示される。

ここで、単語誤り率によって算出された損失のパラメータに対する勾配の一般的な解析解は、自明ではない。言い換えると、単語誤り率によって算出された損失は、パラメータに対して微分可能でないため、パラメータに対する解析的な勾配は導出できない。また、誤差逆伝搬法に伝搬する勾配は、解析的な勾配に限らない。このため、エラー計算部１３は、上記のサンプリング操作から得る仮説文字列ｈ^（ｍ）（ｍ＝１，２，・・・，Ｍ）によって音声認識モデルのパラメータ集合Λに対する方策勾配を、解析的に導出できない損失の勾配の数値的な近似として使用する。方策勾配は、（２０）式に示される。

このように、学習装置１０は、認識文字列の確率計算処理において、認識時と同様に接頭辞探索により認識文字列の確率計算を行う。そして、学習装置１０は、エラー計算処理において、単語誤り率の損失と、損失の勾配を近似した方策勾配とを基に、誤差逆伝播法により音声認識モデル全体のパラメータ集合Λを求める。

［音声認識装置の構成］
次に、図４を用いて、本実施の形態に係る音声認識装置の構成について説明する。図４は、実施の形態に係る音声認識装置の構成の一例を示す図である。図４に示すように、音声認識装置２０は、特徴量抽出部２１、確率計算部２２及び記憶部２３を有する。

記憶部２３は、音声認識モデルを記憶する。具体的には、記憶部２３は、学習装置１０で学習済みの音声認識モデルパラメータ集合Λを記憶する。

特徴量抽出部２１は、入力された認識用音声データを読み込み、認識用の音声データから音声の特徴量を抽出する。特徴量抽出部１１は、学習装置１０の特徴量抽出部１１と同様の処理を行う。ただし、特徴量抽出部２１には、認識用音声データが入力される。

確率計算部２２は、特徴量抽出部２１によって抽出された音声特徴量、及び、音声認識モデル記憶部１６に記憶された音声認識モデルパラメータ集合Λに基づいて、認識文字列の確率ｐ（ｙ｜ｘ）を計算する。確率計算部２２は、計算した確率のうち最も確率が高い文字列ｙを認識結果として出力する。

［学習処理］
図５を参照して、学習装置１０の処理の流れについて説明する。図５は、実施の形態に係る学習処理の処理手順を示すフローチャートである。図５に示すように、まず、学習装置１０は、音声認識モデルを読み込む（ステップＳ１）。このとき、具体的には、学習装置１０は、音声認識モデル記憶部１６から音声認識モデルパラメータ集合Λを読み込む。次に、学習装置１０は、学習用音声データを読み込む（ステップＳ２）。そして、学習装置１０は、読み込んだ学習用音声データに対応する正解文字列データを読み込む（ステップＳ３）。この正解文字列データは、後述するエラー計算処理（ステップＳ６）において、単語誤り率を求める際に使用する。

特徴量抽出部１１は、学習用音声データから特徴量を抽出する（ステップＳ４）。そして、確率計算部１２は、音声の特徴量を基に、音声認識モデルを用いて接頭辞探索を行い、認識文字列の事後確率を計算し、長さＫのＭ（Ｍ≧２）個の仮説文字列を取得する確率計算処理を行う（ステップＳ５）。

エラー計算部１３は、Ｍ個の仮説文字列と、学習用の長さＴの正解文字列との、単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化するよう音声認識モデル全体のパラメータを求めるエラー計算を行う（ステップＳ６）。パラメータ更新部１４は、エラー計算部１３が求めたパラメータにしたがって、音声認識モデルのパラメータを更新する（ステップＳ７）。

収束判定部１５は、音声認識モデルパラメータ集合Λが収束したか否かを判定する（ステップＳ８）。収束判定部１５によって音声認識モデルパラメータ集合Λが収束したと判定されなかった場合（ステップＳ８、Ｎｏ）、学習装置１０は、ステップＳ５からステップＳ７を繰り返す。

一方、収束判定部１５によって音声認識モデルパラメータ集合Λが収束したと判定された場合（ステップＳ８、Ｙｅｓ）、学習装置１０は、音声認識モデルパラメータ集合Λを出力する（ステップＳ９）。このとき、例えば、学習装置１０は、更新済みの音声認識モデルパラメータ集合Λを音声認識装置２０の記憶部２３に記憶させる。

［実施の形態に係る音声認識装置の処理］
図６を用いて、音声認識装置２０の処理の流れについて説明する。図６は、実施の形態に係る音声認識装置の処理の流れを示すフローチャートである。図６に示すように、まず、音声認識装置２０は、音声認識モデルを読み込む（ステップＳ１１）。このとき、具体的には、音声認識装置２０は、記憶部２３から学習済みの音声認識モデルパラメータ集合Λを読み込む。そして、音声認識装置２０は、認識用音声データを読み込む（ステップＳ１２）。

特徴量抽出部２１は、認識用音声データから特徴量を抽出する（ステップＳ１３）。そして、確率計算部２２は、特徴量抽出部２１によって抽出された音声特徴量、及び、音声認識モデル記憶部１８に記憶された音声認識モデルパラメータ集合Λに基づいて、認識文字列の事後確率ｐ（ｙ｜ｘ）を計算する（ステップＳ１４）。確率計算部２２は、計算した確率のうち最も確率が高い文字列ｙを認識結果として出力する（ステップＳ１５）。

［実施の形態の効果］
このように、本実施の形態に係る学習装置１０は、エンコーダデコーダの構造を持ち，その処理の際に、接頭辞探索による認識文字列の確率計算処理、及び、単語誤り率によるエラー計算処理を行うモデルを用いる。

ここで、学習装置１０では、認識時と同様に正解文字列がない状態で確率計算を行う。
すなわち、学習装置１０では、探索対象の接頭辞に続く文字候補の同時生起確率にしたがった多項分布に基づいて、探索対象の接頭辞に続く文字候補を選択して確率計算を行っている。したがって、本実施の形態では、学習時と認識時とで、認識文字列の確率計算の処理を同様のものとしている。

そして、学習装置１０では、単語誤り率の損失と、損失の勾配を近似した方策勾配とを基に、誤差逆伝播法によりモデル全体のパラメータを求めることによって、認識時に使用する評価指標である単語誤り率を効率的に最小化する学習を可能とする。すなわち、本実施の形態によれば、学習エラー及び認識エラーの指標として、いずれも、文単位の単語誤り率を用いている。これに対し、従来の学習装置では、認識時と同様の仮定で学習できなかった。

したがって、本実施の形態に係る学習装置１０によれば、認識時と同様の仮定を適用して学習を行うことによってモデルパラメータを最適化することができ、ＮＮに基づく音声認識モデルの学習を高精度に実行することができる。

［評価結果］
実施の形態による音声認識精度と、従来技術による音声認識精度とを評価した実験結果を表１に示す。この評価では、接頭辞探索と単語誤り率によるエラー検索を行う本実施の形態に係る学習装置１０を用いて学習した音声認識モデルと、正解文字列による確率計算と交差エントロピー損失によるエラー計算を行う従来技術の学習による音声認識モデルとの比較を行った。

実験条件として、入力音声の特徴量は、４０次元のＦＢＡＮＫ＋ΔＦＢＡＮＫ＋ΔΔＦＢＡＮＫとした。すなわち、実験条件として、エンコーダデコーダに入力する特徴量は、４０×３＝１２０個を入力単位とした。また、実験条件として、特徴量は、学習用音声データのデータセットを用いた計算された平均分散モデルの正規化パラメータを用いて正規化した。また実験条件として学習におけるStochastic Gradient Descentは、学習率を０．００１、並列処理する発話を８個とした。

表１に示すように、本実施の形態の単語誤り率は、従来技術の単語誤り率よりも小さかった。このため、本実施の形態に係る音声認識モデルを用いた音声認識装置２０は、従来技術よりも高い性能を持っていることがいえる。

また、本実施の形態は、音声認識だけでなく、入力データから特徴量を抽出し，その特徴量を基に、入力データを予め定義されたクラス分類を行う様々なパターン認識にも適用可能である。本実施の形態では、認識時と同様の仮定を適用して学習を行うことによってモデルパラメータを最適化できるため、クラスに分類するパターン認識においてもクラス分類精度を向上することが可能になる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。すなわち、上記学習方法及び音声認識方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム］
図７は、プログラムが実行されることにより、学習装置１０或いは音声認識装置２０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０或いは音声認識装置２０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０３１に記憶される。例えば、学習装置１０或いは音声認識装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。なお、ハードディスクドライブ１０３１は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１０学習装置
１１，２１特徴量抽出部
１２，２２確率計算部
１３エラー計算部
１４パラメータ更新部
１５収束判定部
１６音声認識モデル記憶部
２０音声認識装置
２３記憶部

Claims

学習用の音声データから、音声の特徴量を抽出する抽出部と、
前記音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得する確率計算部と、
前記複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化する前記音声認識モデル全体のパラメータを求めるエラー計算部と、
前記エラー計算部が求めたパラメータにしたがって、前記音声認識モデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
前記確率計算部は、探索対象の接頭辞に続く文字候補の同時生起確率にしたがった多項分布に基づいて、探索対象の接頭辞に続く文字候補を選択することを特徴とする請求項１に記載の学習装置。
前記エラー計算部は、単語誤り率の損失と、損失の勾配を近似した方策勾配とを基に、誤差逆伝播法により前記音声認識モデル全体のパラメータを求めることを特徴とする請求項１または２に記載の学習装置。
学習装置が実行する学習方法であって、
学習用の音声データから、音声の特徴量を抽出する工程と、
前記音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得する工程と、
前記複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化する前記音声認識モデル全体のパラメータを求める工程と、
前記求める工程において求められたパラメータにしたがって、前記音声認識モデルのパラメータを更新する工程と、
を含んだことを特徴とする学習方法。
学習用の音声データから、音声の特徴量を抽出するステップと、
前記音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得するステップと、
前記複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化する前記音声認識モデル全体のパラメータを求めるステップと、
前記求めるステップにおいて求められたパラメータにしたがって、前記音声認識モデルのパラメータを更新するステップと、
をコンピュータに実行させるための学習プログラム。