JP2019078857A - 音響モデルの学習方法及びコンピュータプログラム - Google Patents

音響モデルの学習方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2019078857A
JP2019078857A JP2017204873A JP2017204873A JP2019078857A JP 2019078857 A JP2019078857 A JP 2019078857A JP 2017204873 A JP2017204873 A JP 2017204873A JP 2017204873 A JP2017204873 A JP 2017204873A JP 2019078857 A JP2019078857 A JP 2019078857A
Authority
JP
Japan
Prior art keywords
ctc
learning
rnn
loss function
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017204873A
Other languages
English (en)
Other versions
JP2019078857A5 (ja
Inventor
遼一 高島
Ryoichi Takashima
遼一 高島
勝 李
Sheng Li
勝 李
恒 河井
Hisashi Kawai
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2017204873A priority Critical patent/JP2019078857A/ja
Publication of JP2019078857A publication Critical patent/JP2019078857A/ja
Publication of JP2019078857A5 publication Critical patent/JP2019078857A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】音響モデルの、学習データ量に対する依存性を下げ、学習データ量が少量の場合における認識性能を向上させる【解決手段】この方法は、RNNをコンピュータ上に構成するステップ350と、RNNの学習データセットの記憶装置に接続するステップ352と、RNNの動作を規定するパラメータを初期値に設定するステップ354と、記憶装置から読出した学習データセットを用い、パラメータに対する所定の損失関数LCTC+EPを最小化するようにRNNのパラメータを最適化するステップ356とを含む。損失関数LCTC+EPは、正しいラベル系列の尤度が最大となるとき最小となる第1の損失関数LCTCと、観測値に対するラベルの曖昧さに対する増加関数となる第2の損失関数LEPと、0<λ<1を満たす数値λとにより、LCTC+EP=λLCTC+(1−λ)LEPとして定義される。【選択図】図7

Description

この発明は音声認識に関し、特に、CTC(Connectionist Temporal Classification)と呼ばれる方式のように、認識精度が学習データの量に依存する学習方式を用いた音響モデルの学習方法の改良及びそのためのコンピュータプログラムに関する。
図1を参照して、音声認識システム100は、音声波形110により示されるような、発話からの入力音声信号112をフレームと呼ばれる単位に分割し、各フレームに対して音声分析114を行い音声特徴量116を抽出する。このようにして得られた音声特徴量116の系列を、デコーダ118が、音響モデル122、発音辞書124、言語モデル126と照合することで、入力音声信号112の表す発話として最も確率の高いものを発話内容として認識し、テキストの認識単語列120として出力する。
音響モデル122は、発話信号を音素などの基本単位に変換するために用いられるものであり、音声認識の基本となるものである。図2を参照して、従来の音響モデル122は、音響モデルを「音と音素の類似度」を表すモデル140と、「音素の時間遷移」を表すモデル142の2つに分け、前者をGMM(Gaussian Mixture Model:ガウス混合分布)又はDNN(Deep Neural Network:ディープ・ニューラル・ネットワーク)で表し、後者をHMM(Hidden Markov Model:隠れマルコフモデル)でモデル化する。DNNとHMMとを組み合わせたものはDNN―HMMハイブリッドモデルと呼ばれる。DNN―HMMハイブリッドモデルはGMMを用いたものよりも高い音声認識率を示す。
一方、CTCはDNN―HMMに変わる新方式の音声認識モデルとして提案されたものであり、例えば後掲の特許文献1に開示がある。図3を参照して、CTCでは、音響モデル150をDNNとHMMとのように分けずに、DNNの枠組みで音響モデルの全体をRNN(Recurrent Neural Network:リカレント・ニューラル・ネットワーク)152によりモデル化する方式である。CTCはDNN―HMMと比べて音声認識処理が速く、また学習データが多い場合DNN―HMMよりも高い音声認識率を示す。CTCでは、RNNの出力ノードは認識すべき音素の数だけあり、各出力ノードからは、各フレームの音素がそのノードに対応する音素である確率が出力される。したがって、出力ノードの出力を全て合計すると1となる。
特開2017-016131
しかし、CTCによる音響モデルを用いる場合、音響モデルの学習に用いるデータ(学習データ)が多い場合にはDNN―HMMより高い音声認識率を示すが、学習データが少ない場合には、過学習と見られる現象によってDNN―HMMより音声認識率が低くなる傾向がある。したがって、学習データ量が少ない場合でも、CTCによる音響モデルを用いてDNN―HMMと同程度の音声認識率が得られることが望ましい。CTCと同様、学習データ量に依存して音声認識率がDNN―HMMより低くなるような学習方法でも同様である。
したがって、本発明の目的は、CTC等の手法による音響モデルの精度の、学習データ量に対する依存性を下げ、学習データ量が少量の場合における認識性能を向上させることである。
本発明の第1の局面に係る学習方法は、コンピュータを用いた音響モデルの学習方法である。この方法は、コンピュータが、音声認識に使用する音響特徴ベクトルの要素数と同数のノードを持つ入力層、識別対象となる音声単位の種類数と同数のノードを持つ出力層、並びに入力層及び出力層の間に配置された複数の隠れ層を含むRNNをコンピュータ上に構成するステップと、コンピュータが、RNNのための学習データセットの記憶装置に接続するステップと、RNNの動作を規定するパラメータを初期値に設定するステップと、コンピュータが、記憶装置から読出した学習データセットを用い、パラメータに対する所定の損失関数LCTC+EPを最小化するようにRNNのパラメータを最適化するステップとを含む。損失関数LCTC+EPは、学習データセット中の観測系列に対する正しいラベル系列の尤度が最大となるとき最小となるような第1の損失関数LCTCと、学習データセット中の観測値に対するラベルの曖昧さに対する増加関数となるような第2の損失関数LEPと、0<λ<1を満たす数値λとにより、
CTC+EP=λLCTC+(1−λ)LEP
として定義される。
好ましくは、第1の損失関数LCTCは以下の式により定義される。
Figure 2019078857
ただしxは音声データの観測系列であり、lは観測系列xに対してCTC音響モデルの出力から得られる音声単位のラベルシーケンスであり、Zは学習データセットを表す。
より好ましくは、第2の損失関数LEPは以下の式により定義される。
Figure 2019078857
さらに好ましくは、数値λは0<λ≦0.050を満たすように選ばれる。
最適化するステップは、コンピュータが、記憶装置から読出した学習データセットを用い、所定の損失関数LCTC+EPを最小化するように、モーメント付確率的勾配降下法によりRNNのパラメータを最適化するステップを含む。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの学習方法を実行するよう機能させる。
音声認識システムの典型的構成を示すブロック図である。 従来の音響モデルの構成を説明する模式図である。 CTCによる音響モデルの構成を説明する模式図である。 学習データが少ない場合のCTCの選別基準が曖昧であることを説明するための音声波形と音響モデルによる各音素の確率とを示すグラフである。 本発明の位置実施の形態による音響モデルを用いた音声認識システムの全体構成を示すブロック図である。 学習データが少ない場合の従来のCTCと本発明の実施の形態に係るCTCとの音素の選別基準を対比して示すグラフである。 本発明の一実施の形態に係る音響モデルの学習装置をコンピュータで実現するためのコンピュータプログラムの制御構造を示すフローチャートである。 本発明の一実施の形態に係る音響モデルの学習装置及び音声認識システムを実現するコンピュータシステムの外観を示す図である 図8に示すコンピュータのハードウェア構成を示すブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
[従来技術の問題点]
図4の左側上段パネルに音声信号波形を示し、左側下段パネルに、上段パネルに示す音声信号波形に対して従来のCTCによる音響モデルが出力した各音素の確率を示し、右側パネルに認識された音素の名前と左側下段パネルにおけるグラフの線の種類を示した。図4の左側下段パネルにおいて、音響モデルの出力は、大部分の時刻においてBLK(空白)であることが分かる。また、時刻=1.00の近辺及び時刻1.75,2.00〜2.25の近辺では、BLKに代わって特定の音素の確率が1又は1に近い値となり、それ以外の音素の確率はほぼ0となっていることが分かる。こうした領域では、どの音素が発声されているのかが明確に判定できていることが分かる。
一方、領域180及び182(それぞれ時刻0.80及び1.30付近)では、確率が1に近い音素がなく、複数の音素又はBLKの確率がいずれも比較的近い値となっている。このような領域では、どの音素が発声されているかが不明確となっていることが分かる。
以下に説明する実施の形態では、領域180及び182のように、音素毎の確率のピークが低い値となる領域において、いずれかの音素のピークがシャープになるような学習基準をCTCの学習基準に加えることで上記した課題を解決する。
[従来の学習]
CTCでは、複数のフレームの各々について出力された音素候補として各音素だけではなく、前述したように空白(BLK)も採用される。そして出力される音素候補列において、連続する同一音素は1つにまとめ、空白は削除して音素を表すラベル列を表するようなマッピング関数φを採用する。例えば、音素候補のシーケンスπがπ={a-abba-}(「-」は空白を示す。)である場合、ラベル列φ(π)=aabaとなる。また、π={a--abaa}の場合にも、ラベル列φ(π)={aaba}となる。観測シーケンスxが与えられた時にラベルφ(π)として同じ値を生ずるような音響モデルの出力シーケンスπは複数個あるため、ラベルシーケンスLが得られる確率は、ラベルシーケンスlを生ずるような音素候補列の全体に亘る条件付き確率の和により与えられる。
Figure 2019078857
フレームtにおける修正後のラベルπtはRNNによりモデル化される。したがって、経路πの条件付確率は以下のように計算される。
Figure 2019078857
ただし、yt πtは時刻tにおけるRNNの、修正後のラベルπtに対応するノードの出力を示し、Tはフレーム数を示す。
従来のCTCによる音響モデルの学習では、式(1)の値(即ち尤度)を最大化するようパラメータの値が定められる。実際には、学習の対象がRNNであるため、以下の式で定義される損失関数を最小化するよう学習が行われる。
Figure 2019078857
ただしZは学習データセットを表す。
条件付き確率Pr(l|x)はフォワード・バックワードアルゴリズムを用い、以下の式により効率的に計算できる。
Figure 2019078857
ただしl´は対象のラベルシーケンスlの先頭及び末尾と、各ラベルの間とに空白を追加したラベルシーケンスを示す。sはラベルシーケンスl´の内のラベルlのインデックスを示す。αt(s)はフォワード変数と呼び、フレームtにおける確率合計l´1:s={l´1,…,s}を表す。φt(s)はバックワード変数であり、フレームtにおける確率合計l´s:|l´|={l´s,…,|l´|}を表す。
条件付確率を計算した後、微分を計算し、逆伝播によりRNNの学習を行う。ネットワーク出力yt πt及び正規化前(すなわちソフトマックス関数の適用前)の出力ut kに関する式(3)の微分は、それぞれ以下の式(5)及び(6)により計算される。
Figure 2019078857
ただしlab(l,k) = {s:l´s=k}はラベルkがラベルシーケンスlの中で出現する位置の集合を示す。
このような従来のCTCによる音響モデルでは、図4に示したように、学習データが少ない場合に領域180及び182で示したように複数の音素の確率が互いに近くなり、音素を決定することが難しいという問題がある。
[実施の形態]
そこで、本実施の形態における問題から、CTCでは正しい文の尤度が最大となるような学習を行うが、学習データが少ないと、認識単位(音素及び文字等)レベルのラベルについて、複数のラベル間での識別境界が曖昧になることが仮説として想定できる。この仮説に基づいて、以下のような学習基準を導入した。
すなわち、CTCによる音響モデルの学習において、正しい文の尤度を最大化することだけを目的とするのではなく、複数の認識単位レベルの間の曖昧さを最小化するよう、損失関数を修正する。実際、このような損失関数を採用することにより学習データの量が少ない場合にも認識精度を高くすることができた。
本実施の形態では、認識単位レベルの曖昧さに基づき曖昧さと正の相関を持つよう計算されるペナルティ(Equivocation Penalty:EP)を損失関数に加算する。本実施の形態では、EPを定義するために、以下の式により定義される条件付きエントロピーを用いる。この式は、フレームtにおいて観測量xtが与えられたときに修正後のラベルkが得られる条件付き対数確率の期待値を示す。
Figure 2019078857
このエントロピーの値が小さくなるということは、観測量xtが特定のラベルとしてより明確に認識可能になるということである。本実施の形態では、EPによる損失LEPはこの条件付きエントロピーを用いて以下のように定義される。
Figure 2019078857
修正後のラベルkの条件付確率は、RNNの出力の内、ラベルkに対応するノードの出力として得られ、以下の式により定義される。
Figure 2019078857
式(5)及び(6)と同様、上記式(8)に示すペナルティの微分を計算する。式(8)の、ネットワーク出力yt kに関する微分は以下の式により得られる。
Figure 2019078857
式(8)の、正規化前のネットワーク出力ut kに関する微分は以下の式により得られる。
Figure 2019078857
本実施の形態における損失関数は、従来の損失関数と上記したペナルティとの重み付き平均として以下の式(12)により表される。
Figure 2019078857
ただしλ(0<λ<1)は重みパラメータであって、この値を変化させることにより学習データにあわせてモデルの学習のチューニングを行うことができる。
式(12)のネットワーク出力yt kに関する微分及び正規化前のネットワーク出力ut kに関する微分はそれぞれ以下の式により計算される。
Figure 2019078857
このようにして損失関数とその微分が得られることにより、誤差逆伝播法に確率的勾配降下法等を利用してRNNの学習を行うことができる。
図5は、この発明の一実施の形態に係る音響モデル学習装置202を用いた音声認識システム200の概略構成を示すブロック図である。図5を参照して、この音声認識システム200は、この発明の一実施の形態に係る、音響モデル220の学習を行う音響モデル学習装置202と、音響モデル学習装置202による学習が行われた音響モデル220を、従来と同様の発音辞書260及び言語モデル262とともに用い、音声データ250の音声認識を行って認識単語列258をテキストとして出力する音声認識装置204と、音響モデル220の学習に用いる学習データを記憶した学習データ記憶装置206とを含む。
音響モデル学習装置202は、学習データ記憶装置206に記憶された学習データである音声データ210を、一定のシフト量で重複を許すような一定の長さのフレームに分割してフレーム列を出力するフレーム化部212と、フレーム化部212が出力するフレームの各々について所定の音響分析を行って特徴量を計算し、特徴量ベクトルを出力する特徴量計算部214と、特徴量計算部214が出力する特徴量ベクトルと、学習データ記憶装置206に記憶されている、音声データ210に対応する学習データの発話文章216を用い、上記した損失関数が最小となるように音響モデル220の学習を行うための音響モデル学習部218とを含む。
音声認識装置204は、従来のものと同様であって、音声データ250に対してフレーム化部212と同様のフレーム化を行うためのフレーム化部252と、フレーム化部252の出力するフレームの各々に対して音声分析を行い、所定の特徴量を抽出して特徴量ベクトルを出力する特徴量計算部254と、音響モデル学習部218により訓練された音響モデル220と、発音辞書260及び言語モデル262とを用いて、従来と同様の方法により音声データ250に対する音声認識を行って、認識単語列258を出力するデコーダ256とを含む。
音響モデル学習装置202が従来と異なるのは、音響モデル学習部218における損失関数の定義のみである。したがってここでは音声認識システム200の各部の構成及び動作についてはこれ以上の詳細は繰り返さない。
[実験結果]
上記手法により学習を行った音響モデルによりどのような認識精度が得られるかについて、以下に述べるような実験を行った。実験では、EESENフレームワーク(Yajie Miao, Mohammad Gowayyed, and Florian Metze, “EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding,” in The 2015 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2015). IEEE, 2015, pp. 167-174.)を用い、上記した損失関数を実装した。学習は以下のように行った。
ネットワークアーキテクチャとしては、RNNの一種である双方向長・短期メモリユニット(Long Short-Term Memory:LSTМ)で4つの隠れ層を持ち、各隠れ層に320のメモリセルを持つものを用いた。音声の特徴量としては、40次元のメルフィルタバンクの出力と、その一次微分及び二次微分とからなる120のパラメータを用いた。対象となる音素ラベルとしては、69個の音素、2つの雑音マーク、及び1個の空白からなる72種を用いた。つまり、対象となるニューラルネットワークは、120個の入力を持ち、72の出力を持つ。実験におけるパラメータ(ネットワークの重み行列)についてはランダム値で初期化し、これらパラメータを0.9のモーメント付確率的勾配降下法により最適化した。
学習率の初期値は0.00004に設定し、各エポックにおいて以下のようなトレーニング方法により変化させた。すなわち、現在のエポックのラベル誤り率と前回のエポックのラベル誤り率との差が0.5未満になると、次のエポックでは学習率に0.5を乗じることで学習率を低減させた。検証データセットに対するラベル誤り率の差が0.1未満になる時点で学習を終了した。なお、学習データ全てを用いて1回の学習を行うことを、1エポックという。
デコードでは、EESENフレームワークが、上記のように学習した音響モデルと、発音辞書と、言語モデルとを統合したWFST(Weighted Finite State Transducer:重み付き有限状態トランスデューサ)を生成し、デコードを行った。
ベースモデルとして、参考文献2に記載されたKaldi ASRツールキットを用いた。評価では通常のKaldi ASRツールキットの設定を用いたが、音響特徴量としては前述した120種を用いた点が異なる。隣接する11個のフレームを結合してDNNへの入力とした。したがってデコード用のDNNは入力に1320個のノードを持つ。DNNは隠れ層として4層を持ち、各隠れ層は1024ノードを持つ。モデルのパラメータはランダム値で初期化し、クロスエントロピー基準の下で、モーメントなしの標準的な確率的勾配降下法により最適化を行った。DNNの学習のための音声信号と各音素とのアライメントはGMM―HMMを用いて推定した。
実験は、WSJ及びCHiME4タスクに対して行った。WSJコーパスについては、学習データとして2種類を使用した。すなわち(1)「WSJ10(LDC93S6B)」(「train_si84」と呼ばれる。15時間)のみを用いたもの、及び(2)「WSJ0」及び「WSJ1(LDC94S13B)」(「train_si284」と呼ばれる。81時間)を用いた。何れの実験においても、学習データの内95%を学習に用い、残りの5%を検証に用いた。評価には「dev93」及び「eval92」と呼ばれるデータセットを用いた。発音辞書としてはCMU辞書を用い、言語モデルとしては語彙20,000のWSJ言語モデルを用いた。
CHiME4コーパスは、カフェ、交差点、公共交通機関、及び歩行者地域等の雑音環境下で録音されたデータである。このデータを用いたのは、雑音環境下での音響モデルの精度を評価するためである。実験には「tr05_multi_noizy」(18時間)と呼ばれるデータセットを音響モデルの学習に、「dr05_multi_noizy」(5.6時間)と呼ばれるデータセットを検証に、「dr05_real_isolated_1ch_track」及び「et05_real+isolated_1ch」と呼ばれるデータセットを評価に、それぞれ用いた。発音辞書としてはCMUを用いて、言語モデルとしては語彙5000のWSJ言語モデルを用いた。
WSJタスクに関する単語誤り率の結果をテーブル1に示す。
Figure 2019078857
表1において、「CTC」はベースラインを示し、「CTC−EP」が本願発明の実施の形態によるものである。重みλとして0.010,0.025,0.050,0.075及び0.100を用いた。train_si84を用いて音響モデルのトレーニングを行った場合、λが小さい値から0.050に近づく場合にはベースライン(λ=0に相当)と比較して単語誤り率は改善するが、λが0.050を超えると単語誤り率は徐々に悪化する。これは、train_ si284を用いて音響モデルのトレーニングを行った場合も同様である。なお、いずれの場合にも17エポック程度で単語誤り率が収束し、学習が終了した。
図6の下段に、本発明の実施の形態にしたがって、train_si84を用いてλ=0.050で訓練したCTC音響モデルによる音素ラベルの事後確率を示す。使用したデータは図4に示したものと同じである。比較のために、図6の上段に図4の左下段パネルに示したグラフと同じグラフを示す。
図6の下段に示したグラフによれば、従来の領域180及び182に相当する領域300及び302でも、他の音素と比較して確率が明確に1又は1に近い値となるラベルが得られた。したがって、このCTC音響モデルによって、認識の対象となる単位(音素)に関する識別能力が高くなったことが分かる。
CHiME4タスクにおいて得られた単語誤り率をテーブル2に示す。
Figure 2019078857
この表からも、本実施の形態により、従来のCTC音響モデルと比較して単語誤り率が改善していることが分かる。λの値の変化に対する単語誤り率の変化傾向もWSJタスクの場合と同様であった。この結果から、雑音が重畳した音声であっても、学習データが少ない場合には上記実施の形態により音声認識の精度が向上することが分かる。
[コンピュータによる実現]
上記した実施の形態に係る音響モデル学習装置202及び音声認識システム200は、コンピュータハードウェアと、そのハードウェア上でCPUによる実行されるコンピュータプログラムとにより実現できる。図7にこのコンピュータプログラムの概略の制御構造をフローチャート形式で示し、図8及び図9に上記音響モデル学習装置202及び音声認識システム200を実現するコンピュータハードウェアを示す。上記実施の形態及び実験では、モーメント付確率的勾配降下法によりパラメータを最適化している。
図7を参照して、このプログラムは、コンピュータ内にRNNを構成するステップ350と、図5に示す学習データ記憶装置206にコンピュータが接続するステップ352と、RNNのパラメータθに初期値を設定するステップ354とを含む。RNNを構成するとは、RNNの各ノードのためのパラメータの記憶領域、各ノード間の重み等のパラメータの記憶領域等を記憶装置内に確保することを意味する。初期値は上記実施の形態ではランダムに設定したが、予備的な学習により得られた値、又は他の既存の音響モデルのパラメータを用いるようにしてもよい。
このプログラムはさらに、所定エポック数だけ処理358を繰返し、所定エポック数の繰り返しが終了したらこのプログラムの実行を終了するステップ356を含む。上記実施の形態では、λがいずれの値であってもエポック数=17で学習が終了したが、エポック数が17に限定されるわけではない。
処理358は、学習データをランダムな順番にシャッフルするステップ360と、ステップ360によりシャッフルされた各データに対してシャッフル後の順番で(したがってランダムな順番で)以下の処理364を繰り返し実行するステップ362を含む。
処理364は、式(13)及び式(14)によりLCTC−EPの勾配∇θJ(θ)を計算するステップ380と、この勾配∇θJ(θ)を用いてvt=γvt-1+η∇θJ(θ)により、現ステップのパラメータθの更新ベクトルvtを計算するステップ382とを含む。なお、vt-1は1ステップ前の更新ベクトルである。処理364はさらに、ステップ382で計算された更新ベクトルvtをパラメータθから減算するステップ384とを含む。
なお、パラメータの最適化(学習)には、モーメント付確率的勾配降下法以外の勾配降下法を用いても良い。バッチ勾配降下法、モーメントを用いない通常の確率的勾配降下法、ミニバッチによる勾配降下法、加速勾配降下法、Adagrad等を用いることができる。
図8を参照して、このコンピュータシステム430は、メモリポート452及びDVD(Digital Versatile Disk)ドライブ450を有するコンピュータ440と、キーボード446と、マウス448と、モニタ442とを含む。
図9を参照して、コンピュータ440は、メモリポート452及びDVDドライブ450に加えて、CPU(中央処理装置)456及びGPGPU(汎用画像処理装置)457と、CPU456、GPGPU457、メモリポート452及びDVDドライブ450に接続されたバス466と、ブートプログラム等を記憶する読出専用メモリであるROM458と、バス466に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するコンピュータ読取可能な記憶媒体であるランダムアクセスメモリ(RAM)460と、ハードディスク454を含む。コンピュータ440はさらに、いずれもバス466に接続され、他端末との通信を可能とするネットワーク468への接続を提供するネットワークインターフェイス(I/F)444と、外部との音声信号の入出力を行うための音声I/F470とを含む。
コンピュータシステム430を上記した実施の形態に係る音響モデル学習装置202、及び音声認識装置204の各機能部として機能させるためのプログラムは、DVDドライブ450又はメモリポート452に装着される、いずれもコンピュータ読取可能な記憶媒体であるDVD462又はリムーバブルメモリ464に記憶され、さらにハードディスク454に転送される。又は、プログラムはネットワーク468を通じてコンピュータ440に送信されハードディスク454に記憶されてもよい。プログラムは実行の際にRAM460にロードされる。DVD462から、リムーバブルメモリ464から又はネットワーク468を介して、直接にRAM460にプログラムをロードしてもよい。また、上記処理に必要なデータ(学習データセット、RNNのパラメータ等)は、ハードディスク454又はRAM460の所定のアドレスに記憶され、CPU456又はGPGPU457により処理され、プログラムにより指定されるアドレスに格納される。最終的に学習が終了した音響モデルは、例えばハードディスク454に格納されたり、DVDドライブ450及びメモリポート452をそれぞれ介してDVD462又はリムーバブルメモリ464に格納されたりする。又は、ネットワークI/F444を介してネットワーク468に接続された他のコンピュータ又は記憶装置に送信される。
このプログラムは、コンピュータ440を、上記実施の形態に係る音響モデル学習装置202及び音声認識装置204として機能させるための複数の命令からなる命令列を含む。音響モデル学習部218及びデコーダ256における数値演算処理は、CPU456及びGPGPU457を用いて行う。CPU456のみを用いてもよいがGPGPU457を用いる方が高速である。コンピュータ440にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ440上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ440にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム、装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の内、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステム、装置又は方法としての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
100、200 音声認識システム
110 音声波形
112 入力音声信号
114 音声分析
116 音声特徴量
118、256 デコーダ
120、258 認識単語列
122、150、220 音響モデル
124、260 発音辞書
126、262 言語モデル
140、142 モデル
152 RNN
202 音響モデル学習装置
204 音声認識装置
206 学習データ記憶装置
210、250 音声データ
212、252 フレーム化部
214、254 特徴量計算部
216 発話文章
218 音響モデル学習部

Claims (6)

  1. コンピュータを用いた音響モデルの学習方法であって、
    コンピュータが、音声認識に使用する音響特徴ベクトルの要素数と同数のノードを持つ入力層、識別対象となる音声単位の種類数と同数のノードを持つ出力層、並びに前記入力層及び前記出力層の間に配置された複数の隠れ層を含むRNNをコンピュータ上に構成するステップと、
    コンピュータが、前記RNNのための学習データセットの記憶装置に接続するステップと、
    前記RNNの動作を規定するパラメータを初期値に設定するステップと、
    コンピュータが、前記記憶装置から読出した学習データセットを用い、前記パラメータに対する所定の損失関数LCTC+EPを最小化するように前記RNNの前記パラメータを最適化するステップとを含み、
    前記損失関数LCTC+EPは、
    前記学習データセット中の観測系列に対する正しいラベル系列の尤度が最大となるとき最小となるような第1の損失関数LCTCと、
    前記学習データセット中の観測値に対するラベルの曖昧さに対する増加関数となるような第2の損失関数LEPと、
    0<λ<1を満たす数値λとにより、
    CTC+EP=λLCTC+(1−λ)LEP
    として定義される、学習方法。
  2. 前記第1の損失関数LCTCは以下の式により定義され、
    Figure 2019078857
    ただしxは音声データの観測系列であり、lは観測系列xに対してCTC音響モデルの出力から得られる音声単位のラベルシーケンスであり、Zは前記学習データセットを表す、請求項1に記載の学習方法。
  3. 前記第2の損失関数LEPは以下の式により定義される、請求項1又は請求項2に記載の学習方法。
    Figure 2019078857
  4. 前記数値λは0<λ≦0.050を満たすように選ばれる、請求項1から請求項3のいずれかに記載の学習方法。
  5. 前記最適化するステップは、
    コンピュータが、前記記憶装置から読出した学習データセットを用い、前記所定の損失関数LCTC+EPを最小化するように、モーメント付確率的勾配降下法により前記RNNの前記パラメータを最適化するステップを含む、請求項1〜請求項4のいずれかに記載の学習方法。
  6. コンピュータを、請求項1〜請求項5の何れかに記載の学習方法を実行するよう機能させる、コンピュータプログラム。
JP2017204873A 2017-10-24 2017-10-24 音響モデルの学習方法及びコンピュータプログラム Pending JP2019078857A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017204873A JP2019078857A (ja) 2017-10-24 2017-10-24 音響モデルの学習方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017204873A JP2019078857A (ja) 2017-10-24 2017-10-24 音響モデルの学習方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2019078857A true JP2019078857A (ja) 2019-05-23
JP2019078857A5 JP2019078857A5 (ja) 2020-12-10

Family

ID=66627776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017204873A Pending JP2019078857A (ja) 2017-10-24 2017-10-24 音響モデルの学習方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2019078857A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022530726A (ja) * 2020-03-31 2022-07-01 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体
JP2022551068A (ja) * 2020-01-16 2022-12-07 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 音声認識方法、装置及びコンピュータプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016212273A (ja) * 2015-05-11 2016-12-15 国立研究開発法人情報通信研究機構 リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016212273A (ja) * 2015-05-11 2016-12-15 国立研究開発法人情報通信研究機構 リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
US20180121800A1 (en) * 2015-05-11 2018-05-03 National Institute Of Information And Communications Technology Recurrent neural network training method, computer program therefor and speech recognition device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高島 遼一: ""Connectionist temporal classificationの損失関数におけるサブワ", 日本音響学会 2017年 秋季研究発表会講演論文集CD−ROM [CD−ROM] (2017-09-11), JPN6021030051, 11 September 2017 (2017-09-11), ISSN: 0004561746 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022551068A (ja) * 2020-01-16 2022-12-07 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 音声認識方法、装置及びコンピュータプログラム
JP7282442B2 (ja) 2020-01-16 2023-05-29 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 音声認識方法、装置及びコンピュータプログラム
JP2022530726A (ja) * 2020-03-31 2022-07-01 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体

Similar Documents

Publication Publication Date Title
Chebotar et al. Distilling knowledge from ensembles of neural networks for speech recognition.
JP5777178B2 (ja) 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US10249294B2 (en) Speech recognition system and method
Graves et al. Bidirectional LSTM networks for improved phoneme classification and recognition
Morgan et al. Continuous speech recognition
Senior et al. Context dependent phone models for LSTM RNN acoustic modelling
JP6509694B2 (ja) 学習装置、音声検出装置、学習方法およびプログラム
Morgan et al. An introduction to hybrid HMM/connectionist continuous speech recognition
Liu et al. Reinforcement learning for emotional text-to-speech synthesis with improved emotion discriminability
Woellmer et al. Keyword spotting exploiting long short-term memory
JP6884946B2 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
JP2016212273A (ja) リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
Mohamed et al. HMM/ANN hybrid model for continuous Malayalam speech recognition
JP2019078857A (ja) 音響モデルの学習方法及びコンピュータプログラム
JPH08211889A (ja) 木構造を用いたパターン適応化方式
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
Li et al. Bidirectional LSTM Network with Ordered Neurons for Speech Enhancement.
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
Zhou et al. Learning and Modeling Unit Embeddings for Improving HMM-based Unit Selection Speech Synthesis.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201028

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220208