JP2019133046A - 学習装置、学習方法及び学習プログラム - Google Patents

学習装置、学習方法及び学習プログラム Download PDF

Info

Publication number
JP2019133046A
JP2019133046A JP2018016195A JP2018016195A JP2019133046A JP 2019133046 A JP2019133046 A JP 2019133046A JP 2018016195 A JP2018016195 A JP 2018016195A JP 2018016195 A JP2018016195 A JP 2018016195A JP 2019133046 A JP2019133046 A JP 2019133046A
Authority
JP
Japan
Prior art keywords
learning
speech recognition
speech
recognition model
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018016195A
Other languages
English (en)
Other versions
JP6831343B2 (ja
Inventor
成樹 苅田
Shigeki Karita
成樹 苅田
小川 厚徳
Atsunori Ogawa
厚徳 小川
マーク デルクロア
Marc Delcroix
マーク デルクロア
中谷 智広
Tomohiro Nakatani
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018016195A priority Critical patent/JP6831343B2/ja
Priority to US16/963,837 priority patent/US11551667B2/en
Priority to PCT/JP2019/003735 priority patent/WO2019151507A1/ja
Publication of JP2019133046A publication Critical patent/JP2019133046A/ja
Application granted granted Critical
Publication of JP6831343B2 publication Critical patent/JP6831343B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】NNに基づく音声認識モデルの学習を高精度に実行することができる。【解決手段】学習装置10は、学習用の音声データから、音声の特徴量を抽出する特徴量抽出部11と、音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得する確率計算部12と、複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化するモデル全体のパラメータを求めるエラー計算部13と、エラー計算部が求めたパラメータにしたがって、モデルのパラメータを更新するパラメータ更新部14と、を有する。【選択図】図1

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。
従来、隠れマルコフモデル(Hidden Markov Model:HMM)に基づく音声認識装置が提案されている(例えば、非特許文献1参照)。このHMMに基づく音声認識装置では、階層的な構造を採用するため、音声特徴量と文字列との対応関係を同時に学習することができなかった。
これに対し、近年、長さの異なる音声と文字列との対応関係を、直接、エンコーダデコーダを基に学習することが可能である音声認識装置が提案されている(例えば、非特許文献2参照)。この音声認識装置は、ニューラルネットワーク(Neural Network:NN)の一種であるエンコーダデコーダをモデルに採用している。このため、音声認識装置によれば、長さの異なる音声と文字列との対応関係を同時に学習することが可能になり、より単純な構成で高精度な音声認識を実現できるようになった。
G. Hinton et al., "Deep Neural Networks for Acoustic Modeling in Speech Recognition", IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29,No. 6, pp. 82−97, 2012. (https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/38131.pdf) J. Chorowski et al., "Attention-Based Models for Speech Recognition", Advances in Neural Information Processing Systems 28 (NIPS 2015), pp. 577−585, 2015. (http://papers.nips.cc/paper/5847-attention-based-models-for-speech-recognition.pdf)
しかしながら、非特許文献2記載のNNに基づく音声認識モデルでは、学習時と認識時とにおいて、使用する指標や処理動作が異なるため、精度向上にも限界があった。
本発明は、上記に鑑みてなされたものであって、NNに基づく音声認識モデルの学習を高精度に実行することができる学習装置、学習方法及び学習プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の学習装置は、学習用の音声データから、音声の特徴量を抽出する抽出部と、音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得する確率計算部と、複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化する音声認識モデル全体のパラメータを求めるエラー計算部と、エラー計算部が求めたパラメータにしたがって、音声認識モデルモデルのパラメータを更新する更新部と、を有することを特徴とする。
本発明によれば、NNに基づく音声認識モデルの学習を高精度に実行することができる。
図1は、実施の形態に係る学習装置の構成の一例を示す図である。 図2は、従来の確率計算処理とエラー計算処理とを説明する図である。 図3は、図1に示す学習装置による確率計算処理とエラー計算処理とを説明する図である。 図4は、実施の形態に係る音声認識装置の構成の一例を示す図である。 図5は、施の形態に係る学習処理の処理手順を示すフローチャートである。 図6は、実施の形態に係る音声認識装置の処理の流れを示すフローチャートである。 図7は、プログラムが実行されることにより、学習装置或いは音声認識装置が実現されるコンピュータの一例を示す図である。
以下に、本願に係る学習装置、学習方法及び学習プログラムの実施の形態を図面に基づいて詳細に説明する。なお、本発明は、学習用の音声データを、エンコーダデコーダにより音声の特徴と文字列の対応関係をモデル化した音声認識モデルに学習させる例について説明する。また、本発明は、以下に説明する実施の形態により限定されるものではない。
なお、以下では、例えばaがベクトルである場合には“ベクトルa”と表記し、例えばAが行列である場合には“行列A”と表記し、例えばAがスカラーである場合には単に“A”と表記する。また、例えばAが集合である場合には、“集合A”と表記する。また、例えばスカラーaを引き数にとる関数fは、f(ベクトルa)と表記する。また、ベクトル、行列又はスカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同等であるとする。また、ベクトル、行列又はスカラーであるAに対し、“~A”と記載する場合は「“A”の直上に“~”が記された記号」と同等であるとする。なお、特徴量及び文字列は、ベクトルで示される。
[学習装置の構成]
まず、図1を用いて、実施の形態に係る学習装置の構成について説明する。図1は、実施の形態に係る学習装置の構成の一例を示す図である。実施の形態に係る学習装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。図1に示すように、学習装置10は、特徴量抽出部11(抽出部)、確率計算部12、エラー計算部13、パラメータ更新部14(更新部)、収束判定部15及び音声認識モデル記憶部16を有する。
音声認識モデル記憶部16は、音声の音響的特徴をモデル化した音声認識モデルを記憶する。音声認識モデルは、NNで表される。音声認識モデルは、NNで計算されたHMMの各状態の事後確率分布を含む。音声認識モデルは、エンコーダデコーダにより音声の音響的特徴と文字列の対応関係をモデル化したものである。具体的には、音声認識モデル記憶部18は、NNのパラメータである音声認識モデルパラメータ集合Λを記憶する。
特徴量抽出部11は、入力された学習用の音声データを読み込み、学習用の音声データから音声の特徴量を抽出する。特徴量抽出部11は、特徴量として、例えば、MFCC(Mel Frequency Cepstral Coefficient)、FBANK(Log Mel Filterbank Coefficients)、ΔMFCC(MFCCの1回微分)、ΔΔMFCC(MFCCの2回微分)、対数パワー、Δ対数パワー(対数パワーの1回微分)等を抽出する。特徴量抽出部11は、学習用音声データから、音声特徴量として特徴量ベクトルxを抽出する。
確率計算部12は、特徴量抽出部11によって抽出された特徴量ベクトルx、及び、音声認識モデル記憶部16に記憶された音声認識モデルパラメータ集合Λを用いて、NN−HMMを基に認識文字列の確率p(y|x)を計算する。確率計算部12は、音声の特徴量を基に、音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算する。そして、確率計算部12は、正解文字列らしさが最大となる仮説を選ぶ。確率計算部12は、正解文字列らしさが最大となる仮説として、長さKのM(M≧2)個の仮説文字列を取得する。この場合、確率計算部12は、探索対象の接頭辞に続く文字候補の同時生起確率にしたがった多項分布に基づいて、探索対象の接頭辞に続く文字候補を選択する。確率計算部12は、正解文字列なしでの確率計算を行う。
エラー計算部13は、確率計算部12によって計算された事後確率を基に単語誤り率によるエラーを計算し、モデル全体のパラメータを求める。エラー計算部13は、M個の仮説文字列と、学習用の長さTの正解文字列との、単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化するようモデル全体のパラメータを求める。この場合、エラー計算部13は、単語誤り率の損失と、損失の勾配を近似した方策勾配とを基に、誤差逆伝播法によりモデル全体のパラメータを求める。仮説文字列の長さKと学習用の文字列の長さTとは、異なる長さでもよいし同じ長さでもよい。
パラメータ更新部14は、エラー計算部13が求めたパラメータにしたがって、音声認識モデルのパラメータ集合Λを更新する。
収束判定部15は、更新により音声認識モデルパラメータ集合Λが収束したか否かを判定する。収束判定部15は、音声認識モデルパラメータ集合Λが収束していると判定した場合、入力された学習用音声データに対する学習を終了し、音声認識モデル記憶部16に、更新された音声認識モデルパラメータ集合Λを記憶させる。また、収束判定部15は、音声認識モデルパラメータ集合Λが収束していないと判定した場合、確率計算部12、エラー計算部13及びパラメータ更新部14は、更新後の音声認識モデルパラメータ集合Λを用いて、さらに事後確率の計算、エラーの計算及び音声認識モデルパラメータ集合Λの更新を行う。
このように、本実施の形態の学習装置10は、確率計算及びエラー計算として、接頭辞探索と単語誤り率によるエラー計算を行い、音声認識モデルのパラメータの更新を行う。
[従来の学習装置]
従来の学習装置では、確率計算及びエラー計算として、正解文字列による確率計算と、正解文字列における確率を用いた交差エントロピー損失によるエラー計算を行う。そこで、従来の学習装置における確率計算処理とエラー計算処理とについて説明する。言い換えると、従来の学習装置では、単語誤り率の損失を、正解文字列における確率を用いた交差エントロピー損失に近似してエラー計算を行う。
図2は、従来の確率計算処理とエラー計算処理とを説明する図である。図2に示すように、従来の学習装置は、EncoderとDecoderとを表す二つの2つの部分ニューラルネットワークを持つエンコーダデコーダモデルを用いる。従来の学習装置では、認識文字列の確率計算処理において、図2に示すエンコーダデコーダモデルにより、入力音声の特徴量ベクトルxに対する認識文字列が長さTの正解文字列y=y,y,・・・,yと一致する確率p(y|x)を次の(1)式〜(4)式を用いて計算する。
Figure 2019133046
Figure 2019133046
Figure 2019133046
Figure 2019133046
eは、入力側ニューラルネットワークEncoderによる中間ベクトルであり、sは、出力側のニューラルネットワークDecoderによるt番目の出力文字に伴う中間ベクトルである。
続いて、従来の学習装置では、正解文字列における確率を用いた交差エントロピー損失によるエラー計算を行う。従来の学習装置では、エラー計算処理において、正解文字列における確率を用いた(5)式に示す交差エントロピー損失を最小化するように、一般的な誤差逆伝搬法によってエンコーダデコーダモデル全体のパラメータの勾配を求め、パラメータ更新処理に進む。
Figure 2019133046
[本実施の形態における確率計算処理及びエラー計算処理]
次に、学習装置10による確率計算処理とエラー計算処理とを説明する。図3は、図1に示す学習装置10による確率計算処理とエラー計算処理とを説明する図である。
学習装置10は、認識文字列の確率計算処理において、学習用の音声データへの過学習を防ぐため、従来の学習のように正解文字列を使わず、認識時と同様に接頭辞探索により認識文字列の確率計算を行う。すなわち、学習装置10では、正解文字列が与えられない認識時の確率計算と同様に、接頭辞探索などにより正解文字列らしさp(y=^y|x)が最大となる仮説^yを求める。
接頭辞ベクトルh (m)は、m(m=1,2,・・・,M)個目の探索対象の仮説における1からt−1番目の文字を並べた文字列である。まず、確率計算部12は、探索対象の接頭辞h (m)に、続く文字候補yの同時生起確率πm,ytを、次の(6)式〜(8)式を用いて求める。
Figure 2019133046
Figure 2019133046
Figure 2019133046
集合Yは、認識に用いる文字(アルファベットや数字、終端記号など)の集合である。
確率計算部12は、生起確率πm,ytに従い多項分布から、新たにt番目の文字を追加した探索対象の接頭辞ベクトルht+1 (m)を(9)式及び(10)式を用いてにサンプリングする。
Figure 2019133046
Figure 2019133046
appendは、l番目の仮説文字列の中でt番目未満の文字列(接頭辞)h (l)にt番目の文字としてy (m)を接続したものを新たにm番目の仮説文字列のt+1番目未満の文字列(接頭辞)ht+1 (m)として出力する。例えば、確率計算部12は、生起確率πm,ytに従った多項分布のうち生起頻度が上位20位の文字、すなわち、次の文字として現れる頻度が高いとされる上位20位の文字を、新たに追加する接頭辞ベクトルht+1 (m)としてサンプリングする。
そして、確率計算部12は、サンプリングされたy (m)から、次のt+1番目の文字を含む仮説の生起確率πm,ytの計算に用いる確率値を、(11)式を用いて、新たに求める。
Figure 2019133046
確率計算部12は、以上の処理をM個のサンプルが終端記号(EOS)を含むまでtを増加させて繰り返すことにより、確率的に選択されたM個の仮説である長さKの終端記号までの文字列~yを得る。文字列~yは、(12)式で表される。
Figure 2019133046
エラー計算部13は、確率計算部12が出力したM個の仮説文字列~yと学習用の長さTの正解文字列ベクトルyとの単語誤り率によるエラーを計算する。単語誤り率は、スカラー値であり、音声認識のような系列学習にスカラー値のエラーを用いて学習することは困難である。そこで、エラー計算部13は、系列として文字列中の各文字における単語誤り率を用いる。
この場合、仮説文字列~yの長さがKの場合、単語誤り率における動的計画行列を(13)式に示す。
Figure 2019133046
エラー計算部13は、仮説文字列~yの長さがKの場合、単語誤り率における動的計画行列を、(14)式〜(16)式を用いて求める。
Figure 2019133046
Figure 2019133046
Figure 2019133046
(17)式に最終的な単語誤り数を示す。
Figure 2019133046
エラー計算部13は、最終的な単語誤り数を構成するmin演算によって選択された(t,k)の最小要素の集合を用いた仮説文字列~A中の各k(k=1,2,・・・,K)番目の文字~yにおける単語誤り率総和の損失を最小化するように、損失のパラメータに対する勾配を起点とした誤差逆伝搬法により、モデル全体のパラメータ集合Λの更新量を求める。エラー計算部13は、求めたパラメータ集合の更新量をパラメータ更新部14へ出力する。最小要素の集合は(18)式に示される。単語誤り率総和の損失は(19)式に示される。
Figure 2019133046
Figure 2019133046
ここで、単語誤り率によって算出された損失のパラメータに対する勾配の一般的な解析解は、自明ではない。言い換えると、単語誤り率によって算出された損失は、パラメータに対して微分可能でないため、パラメータに対する解析的な勾配は導出できない。また、誤差逆伝搬法に伝搬する勾配は、解析的な勾配に限らない。このため、エラー計算部13は、上記のサンプリング操作から得る仮説文字列h(m)(m=1,2,・・・,M)によって音声認識モデルのパラメータ集合Λに対する方策勾配を、解析的に導出できない損失の勾配の数値的な近似として使用する。方策勾配は、(20)式に示される。
Figure 2019133046
このように、学習装置10は、認識文字列の確率計算処理において、認識時と同様に接頭辞探索により認識文字列の確率計算を行う。そして、学習装置10は、エラー計算処理において、単語誤り率の損失と、損失の勾配を近似した方策勾配とを基に、誤差逆伝播法により音声認識モデル全体のパラメータ集合Λを求める。
[音声認識装置の構成]
次に、図4を用いて、本実施の形態に係る音声認識装置の構成について説明する。図4は、実施の形態に係る音声認識装置の構成の一例を示す図である。図4に示すように、音声認識装置20は、特徴量抽出部21、確率計算部22及び記憶部23を有する。
記憶部23は、音声認識モデルを記憶する。具体的には、記憶部23は、学習装置10で学習済みの音声認識モデルパラメータ集合Λを記憶する。
特徴量抽出部21は、入力された認識用音声データを読み込み、認識用の音声データから音声の特徴量を抽出する。特徴量抽出部11は、学習装置10の特徴量抽出部11と同様の処理を行う。ただし、特徴量抽出部21には、認識用音声データが入力される。
確率計算部22は、特徴量抽出部21によって抽出された音声特徴量、及び、音声認識モデル記憶部16に記憶された音声認識モデルパラメータ集合Λに基づいて、認識文字列の確率p(y|x)を計算する。確率計算部22は、計算した確率のうち最も確率が高い文字列yを認識結果として出力する。
[学習処理]
図5を参照して、学習装置10の処理の流れについて説明する。図5は、実施の形態に係る学習処理の処理手順を示すフローチャートである。図5に示すように、まず、学習装置10は、音声認識モデルを読み込む(ステップS1)。このとき、具体的には、学習装置10は、音声認識モデル記憶部16から音声認識モデルパラメータ集合Λを読み込む。次に、学習装置10は、学習用音声データを読み込む(ステップS2)。そして、学習装置10は、読み込んだ学習用音声データに対応する正解文字列データを読み込む(ステップS3)。この正解文字列データは、後述するエラー計算処理(ステップS6)において、単語誤り率を求める際に使用する。
特徴量抽出部11は、学習用音声データから特徴量を抽出する(ステップS4)。そして、確率計算部12は、音声の特徴量を基に、音声認識モデルを用いて接頭辞探索を行い、認識文字列の事後確率を計算し、長さKのM(M≧2)個の仮説文字列を取得する確率計算処理を行う(ステップS5)。
エラー計算部13は、M個の仮説文字列と、学習用の長さTの正解文字列との、単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化するよう音声認識モデル全体のパラメータを求めるエラー計算を行う(ステップS6)。パラメータ更新部14は、エラー計算部13が求めたパラメータにしたがって、音声認識モデルのパラメータを更新する(ステップS7)。
収束判定部15は、音声認識モデルパラメータ集合Λが収束したか否かを判定する(ステップS8)。収束判定部15によって音声認識モデルパラメータ集合Λが収束したと判定されなかった場合(ステップS8、No)、学習装置10は、ステップS5からステップS7を繰り返す。
一方、収束判定部15によって音声認識モデルパラメータ集合Λが収束したと判定された場合(ステップS8、Yes)、学習装置10は、音声認識モデルパラメータ集合Λを出力する(ステップS9)。このとき、例えば、学習装置10は、更新済みの音声認識モデルパラメータ集合Λを音声認識装置20の記憶部23に記憶させる。
[実施の形態に係る音声認識装置の処理]
図6を用いて、音声認識装置20の処理の流れについて説明する。図6は、実施の形態に係る音声認識装置の処理の流れを示すフローチャートである。図6に示すように、まず、音声認識装置20は、音声認識モデルを読み込む(ステップS11)。このとき、具体的には、音声認識装置20は、記憶部23から学習済みの音声認識モデルパラメータ集合Λを読み込む。そして、音声認識装置20は、認識用音声データを読み込む(ステップS12)。
特徴量抽出部21は、認識用音声データから特徴量を抽出する(ステップS13)。そして、確率計算部22は、特徴量抽出部21によって抽出された音声特徴量、及び、音声認識モデル記憶部18に記憶された音声認識モデルパラメータ集合Λに基づいて、認識文字列の事後確率p(y|x)を計算する(ステップS14)。確率計算部22は、計算した確率のうち最も確率が高い文字列yを認識結果として出力する(ステップS15)。
[実施の形態の効果]
このように、本実施の形態に係る学習装置10は、エンコーダデコーダの構造を持ち,その処理の際に、接頭辞探索による認識文字列の確率計算処理、及び、単語誤り率によるエラー計算処理を行うモデルを用いる。
ここで、学習装置10では、認識時と同様に正解文字列がない状態で確率計算を行う。
すなわち、学習装置10では、探索対象の接頭辞に続く文字候補の同時生起確率にしたがった多項分布に基づいて、探索対象の接頭辞に続く文字候補を選択して確率計算を行っている。したがって、本実施の形態では、学習時と認識時とで、認識文字列の確率計算の処理を同様のものとしている。
そして、学習装置10では、単語誤り率の損失と、損失の勾配を近似した方策勾配とを基に、誤差逆伝播法によりモデル全体のパラメータを求めることによって、認識時に使用する評価指標である単語誤り率を効率的に最小化する学習を可能とする。すなわち、本実施の形態によれば、学習エラー及び認識エラーの指標として、いずれも、文単位の単語誤り率を用いている。これに対し、従来の学習装置では、認識時と同様の仮定で学習できなかった。
したがって、本実施の形態に係る学習装置10によれば、認識時と同様の仮定を適用して学習を行うことによってモデルパラメータを最適化することができ、NNに基づく音声認識モデルの学習を高精度に実行することができる。
[評価結果]
実施の形態による音声認識精度と、従来技術による音声認識精度とを評価した実験結果を表1に示す。この評価では、接頭辞探索と単語誤り率によるエラー検索を行う本実施の形態に係る学習装置10を用いて学習した音声認識モデルと、正解文字列による確率計算と交差エントロピー損失によるエラー計算を行う従来技術の学習による音声認識モデルとの比較を行った。
Figure 2019133046
実験条件として、入力音声の特徴量は、40次元のFBANK+ΔFBANK+ΔΔFBANKとした。すなわち、実験条件として、エンコーダデコーダに入力する特徴量は、40×3=120個を入力単位とした。また、実験条件として、特徴量は、学習用音声データのデータセットを用いた計算された平均分散モデルの正規化パラメータを用いて正規化した。また実験条件として学習におけるStochastic Gradient Descentは、学習率を0.001、並列処理する発話を8個とした。
表1に示すように、本実施の形態の単語誤り率は、従来技術の単語誤り率よりも小さかった。このため、本実施の形態に係る音声認識モデルを用いた音声認識装置20は、従来技術よりも高い性能を持っていることがいえる。
また、本実施の形態は、音声認識だけでなく、入力データから特徴量を抽出し,その特徴量を基に、入力データを予め定義されたクラス分類を行う様々なパターン認識にも適用可能である。本実施の形態では、認識時と同様の仮定を適用して学習を行うことによってモデルパラメータを最適化できるため、クラスに分類するパターン認識においてもクラス分類精度を向上することが可能になる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。すなわち、上記学習方法及び音声認識方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム]
図7は、プログラムが実行されることにより、学習装置10或いは音声認識装置20が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10或いは音声認識装置20の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1031に記憶される。例えば、学習装置10或いは音声認識装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。なお、ハードディスクドライブ1031は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
10 学習装置
11,21 特徴量抽出部
12,22 確率計算部
13 エラー計算部
14 パラメータ更新部
15 収束判定部
16 音声認識モデル記憶部
20 音声認識装置
23 記憶部

Claims (5)

  1. 学習用の音声データから、音声の特徴量を抽出する抽出部と、
    前記音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得する確率計算部と、
    前記複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化する前記音声認識モデル全体のパラメータを求めるエラー計算部と、
    前記エラー計算部が求めたパラメータにしたがって、前記音声認識モデルのパラメータを更新する更新部と、
    を有することを特徴とする学習装置。
  2. 前記確率計算部は、探索対象の接頭辞に続く文字候補の同時生起確率にしたがった多項分布に基づいて、探索対象の接頭辞に続く文字候補を選択することを特徴とする請求項1に記載の学習装置。
  3. 前記エラー計算部は、単語誤り率の損失と、損失の勾配を近似した方策勾配とを基に、誤差逆伝播法により前記音声認識モデル全体のパラメータを求めることを特徴とする請求項1または2に記載の学習装置。
  4. 学習装置が実行する学習方法であって、
    学習用の音声データから、音声の特徴量を抽出する工程と、
    前記音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得する工程と、
    前記複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化する前記音声認識モデル全体のパラメータを求める工程と、
    前記求める工程において求められたパラメータにしたがって、前記音声認識モデルのパラメータを更新する工程と、
    を含んだことを特徴とする学習方法。
  5. 学習用の音声データから、音声の特徴量を抽出するステップと、
    前記音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得するステップと、
    前記複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化する前記音声認識モデル全体のパラメータを求めるステップと、
    前記求めるステップにおいて求められたパラメータにしたがって、前記音声認識モデルのパラメータを更新するステップと、
    をコンピュータに実行させるための学習プログラム。
JP2018016195A 2018-02-01 2018-02-01 学習装置、学習方法及び学習プログラム Active JP6831343B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018016195A JP6831343B2 (ja) 2018-02-01 2018-02-01 学習装置、学習方法及び学習プログラム
US16/963,837 US11551667B2 (en) 2018-02-01 2019-02-01 Learning device and method for updating a parameter of a speech recognition model
PCT/JP2019/003735 WO2019151507A1 (ja) 2018-02-01 2019-02-01 学習装置、学習方法及び学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018016195A JP6831343B2 (ja) 2018-02-01 2018-02-01 学習装置、学習方法及び学習プログラム

Publications (2)

Publication Number Publication Date
JP2019133046A true JP2019133046A (ja) 2019-08-08
JP6831343B2 JP6831343B2 (ja) 2021-02-17

Family

ID=67479293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018016195A Active JP6831343B2 (ja) 2018-02-01 2018-02-01 学習装置、学習方法及び学習プログラム

Country Status (3)

Country Link
US (1) US11551667B2 (ja)
JP (1) JP6831343B2 (ja)
WO (1) WO2019151507A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782181A (zh) * 2019-11-05 2020-02-11 国网重庆市电力公司电力科学研究院 一种低压台区线损率的计算方法及可读存储介质
JP2021039218A (ja) * 2019-09-02 2021-03-11 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
WO2021166129A1 (ja) * 2020-02-19 2021-08-26 日本電気株式会社 音声認識装置、制御方法、及びプログラム
JP2022151649A (ja) * 2021-03-23 2022-10-07 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
CN115512692A (zh) * 2022-11-04 2022-12-23 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615526B (zh) * 2018-05-08 2020-07-07 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
CN110648658B (zh) * 2019-09-06 2022-04-08 北京达佳互联信息技术有限公司 一种语音识别模型的生成方法、装置及电子设备
EP4281965A1 (en) * 2021-01-21 2023-11-29 Alibaba Group Holding Limited Quality estimation for automatic speech recognition
KR102547001B1 (ko) * 2022-06-28 2023-06-23 주식회사 액션파워 하향식 방식을 이용한 오류 검출 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
WO2016188593A1 (en) * 2015-05-26 2016-12-01 Katholieke Universiteit Leuven Speech recognition system and method using an adaptive incremental learning approach
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
US10672388B2 (en) * 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition
US10861456B2 (en) * 2018-09-17 2020-12-08 Adobe Inc. Generating dialogue responses in end-to-end dialogue systems utilizing a context-dependent additive recurrent neural network

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021039218A (ja) * 2019-09-02 2021-03-11 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
CN110782181A (zh) * 2019-11-05 2020-02-11 国网重庆市电力公司电力科学研究院 一种低压台区线损率的计算方法及可读存储介质
WO2021166129A1 (ja) * 2020-02-19 2021-08-26 日本電気株式会社 音声認識装置、制御方法、及びプログラム
JP7367839B2 (ja) 2020-02-19 2023-10-24 日本電気株式会社 音声認識装置、制御方法、及びプログラム
JP2022151649A (ja) * 2021-03-23 2022-10-07 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
JP7346788B2 (ja) 2021-03-23 2023-09-20 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
CN115512692A (zh) * 2022-11-04 2022-12-23 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN115512692B (zh) * 2022-11-04 2023-02-28 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
WO2024093578A1 (zh) * 2022-11-04 2024-05-10 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备、存储介质及计算机程序产品

Also Published As

Publication number Publication date
JP6831343B2 (ja) 2021-02-17
US20210056954A1 (en) 2021-02-25
US11551667B2 (en) 2023-01-10
WO2019151507A1 (ja) 2019-08-08

Similar Documents

Publication Publication Date Title
WO2019151507A1 (ja) 学習装置、学習方法及び学習プログラム
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
Shannon Optimizing expected word error rate via sampling for speech recognition
CN110033760B (zh) 语音识别的建模方法、装置及设备
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US20070016399A1 (en) Method and apparatus for detecting data anomalies in statistical natural language applications
JP2019133084A (ja) 学習装置、学習方法及び学習プログラム
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
CN112687332B (zh) 用于确定致病风险变异位点的方法、设备和存储介质
WO2021023440A1 (en) Fine-tuning language models for supervised learning tasks via dataset preprocessing
CN108510977B (zh) 语种识别方法及计算机设备
JP2019133085A (ja) 判定装置、判定方法及び判定プログラム
JP2012181579A (ja) パターン分類の学習装置
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP4533160B2 (ja) 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP6473112B2 (ja) 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム
JP6235922B2 (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
JP6772115B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、及びプログラム
JP5264649B2 (ja) 情報圧縮型モデルパラメータ推定装置、方法及びプログラム
JP5308102B2 (ja) 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体
JP5120749B2 (ja) 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
CN107402914B (zh) 自然语言深度学习系统和方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210128

R150 Certificate of patent or registration of utility model

Ref document number: 6831343

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150