JP2019078857A

JP2019078857A - 音響モデルの学習方法及びコンピュータプログラム

Info

Publication number: JP2019078857A
Application number: JP2017204873A
Authority: JP
Inventors: 遼一高島; Ryoichi Takashima; 勝李; Sheng Li; 恒河井; Hisashi Kawai
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2019-05-23

Abstract

【課題】音響モデルの、学習データ量に対する依存性を下げ、学習データ量が少量の場合における認識性能を向上させる【解決手段】この方法は、ＲＮＮをコンピュータ上に構成するステップ３５０と、ＲＮＮの学習データセットの記憶装置に接続するステップ３５２と、ＲＮＮの動作を規定するパラメータを初期値に設定するステップ３５４と、記憶装置から読出した学習データセットを用い、パラメータに対する所定の損失関数ＬＣＴＣ＋ＥＰを最小化するようにＲＮＮのパラメータを最適化するステップ３５６とを含む。損失関数ＬＣＴＣ＋ＥＰは、正しいラベル系列の尤度が最大となるとき最小となる第１の損失関数ＬＣＴＣと、観測値に対するラベルの曖昧さに対する増加関数となる第２の損失関数ＬＥＰと、０＜λ＜１を満たす数値λとにより、ＬＣＴＣ＋ＥＰ＝λＬＣＴＣ＋（１−λ）ＬＥＰとして定義される。【選択図】図７

Description

この発明は音声認識に関し、特に、ＣＴＣ（Connectionist Temporal Classification）と呼ばれる方式のように、認識精度が学習データの量に依存する学習方式を用いた音響モデルの学習方法の改良及びそのためのコンピュータプログラムに関する。

図１を参照して、音声認識システム１００は、音声波形１１０により示されるような、発話からの入力音声信号１１２をフレームと呼ばれる単位に分割し、各フレームに対して音声分析１１４を行い音声特徴量１１６を抽出する。このようにして得られた音声特徴量１１６の系列を、デコーダ１１８が、音響モデル１２２、発音辞書１２４、言語モデル１２６と照合することで、入力音声信号１１２の表す発話として最も確率の高いものを発話内容として認識し、テキストの認識単語列１２０として出力する。

音響モデル１２２は、発話信号を音素などの基本単位に変換するために用いられるものであり、音声認識の基本となるものである。図２を参照して、従来の音響モデル１２２は、音響モデルを「音と音素の類似度」を表すモデル１４０と、「音素の時間遷移」を表すモデル１４２の２つに分け、前者をＧＭＭ（Gaussian Mixture Model：ガウス混合分布）又はＤＮＮ（Deep Neural Network：ディープ・ニューラル・ネットワーク）で表し、後者をＨＭＭ（Hidden Markov Model：隠れマルコフモデル）でモデル化する。ＤＮＮとＨＭＭとを組み合わせたものはＤＮＮ―ＨＭＭハイブリッドモデルと呼ばれる。ＤＮＮ―ＨＭＭハイブリッドモデルはＧＭＭを用いたものよりも高い音声認識率を示す。

一方、ＣＴＣはＤＮＮ―ＨＭＭに変わる新方式の音声認識モデルとして提案されたものであり、例えば後掲の特許文献１に開示がある。図３を参照して、ＣＴＣでは、音響モデル１５０をＤＮＮとＨＭＭとのように分けずに、ＤＮＮの枠組みで音響モデルの全体をＲＮＮ（Recurrent Neural Network：リカレント・ニューラル・ネットワーク）１５２によりモデル化する方式である。ＣＴＣはＤＮＮ―ＨＭＭと比べて音声認識処理が速く、また学習データが多い場合ＤＮＮ―ＨＭＭよりも高い音声認識率を示す。ＣＴＣでは、ＲＮＮの出力ノードは認識すべき音素の数だけあり、各出力ノードからは、各フレームの音素がそのノードに対応する音素である確率が出力される。したがって、出力ノードの出力を全て合計すると１となる。

特開2017-016131

しかし、ＣＴＣによる音響モデルを用いる場合、音響モデルの学習に用いるデータ（学習データ）が多い場合にはＤＮＮ―ＨＭＭより高い音声認識率を示すが、学習データが少ない場合には、過学習と見られる現象によってＤＮＮ―ＨＭＭより音声認識率が低くなる傾向がある。したがって、学習データ量が少ない場合でも、ＣＴＣによる音響モデルを用いてＤＮＮ―ＨＭＭと同程度の音声認識率が得られることが望ましい。ＣＴＣと同様、学習データ量に依存して音声認識率がＤＮＮ―ＨＭＭより低くなるような学習方法でも同様である。

したがって、本発明の目的は、ＣＴＣ等の手法による音響モデルの精度の、学習データ量に対する依存性を下げ、学習データ量が少量の場合における認識性能を向上させることである。

本発明の第１の局面に係る学習方法は、コンピュータを用いた音響モデルの学習方法である。この方法は、コンピュータが、音声認識に使用する音響特徴ベクトルの要素数と同数のノードを持つ入力層、識別対象となる音声単位の種類数と同数のノードを持つ出力層、並びに入力層及び出力層の間に配置された複数の隠れ層を含むＲＮＮをコンピュータ上に構成するステップと、コンピュータが、ＲＮＮのための学習データセットの記憶装置に接続するステップと、ＲＮＮの動作を規定するパラメータを初期値に設定するステップと、コンピュータが、記憶装置から読出した学習データセットを用い、パラメータに対する所定の損失関数Ｌ_{ＣＴＣ＋ＥＰ}を最小化するようにＲＮＮのパラメータを最適化するステップとを含む。損失関数Ｌ_{ＣＴＣ＋ＥＰ}は、学習データセット中の観測系列に対する正しいラベル系列の尤度が最大となるとき最小となるような第１の損失関数Ｌ_ＣＴＣと、学習データセット中の観測値に対するラベルの曖昧さに対する増加関数となるような第２の損失関数Ｌ_ＥＰと、０＜λ＜１を満たす数値λとにより、
Ｌ_{ＣＴＣ＋ＥＰ}＝λＬ_ＣＴＣ＋（１−λ）Ｌ_ＥＰ
として定義される。

好ましくは、第１の損失関数Ｌ_ＣＴＣは以下の式により定義される。

ただしｘは音声データの観測系列であり、ｌは観測系列ｘに対してＣＴＣ音響モデルの出力から得られる音声単位のラベルシーケンスであり、Ｚは学習データセットを表す。

より好ましくは、第２の損失関数Ｌ_ＥＰは以下の式により定義される。

さらに好ましくは、数値λは０＜λ≦０．０５０を満たすように選ばれる。

最適化するステップは、コンピュータが、記憶装置から読出した学習データセットを用い、所定の損失関数Ｌ_{ＣＴＣ＋ＥＰ}を最小化するように、モーメント付確率的勾配降下法によりＲＮＮのパラメータを最適化するステップを含む。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの学習方法を実行するよう機能させる。

音声認識システムの典型的構成を示すブロック図である。従来の音響モデルの構成を説明する模式図である。ＣＴＣによる音響モデルの構成を説明する模式図である。学習データが少ない場合のＣＴＣの選別基準が曖昧であることを説明するための音声波形と音響モデルによる各音素の確率とを示すグラフである。本発明の位置実施の形態による音響モデルを用いた音声認識システムの全体構成を示すブロック図である。学習データが少ない場合の従来のＣＴＣと本発明の実施の形態に係るＣＴＣとの音素の選別基準を対比して示すグラフである。本発明の一実施の形態に係る音響モデルの学習装置をコンピュータで実現するためのコンピュータプログラムの制御構造を示すフローチャートである。本発明の一実施の形態に係る音響モデルの学習装置及び音声認識システムを実現するコンピュータシステムの外観を示す図である図８に示すコンピュータのハードウェア構成を示すブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

［従来技術の問題点］
図４の左側上段パネルに音声信号波形を示し、左側下段パネルに、上段パネルに示す音声信号波形に対して従来のＣＴＣによる音響モデルが出力した各音素の確率を示し、右側パネルに認識された音素の名前と左側下段パネルにおけるグラフの線の種類を示した。図４の左側下段パネルにおいて、音響モデルの出力は、大部分の時刻においてＢＬＫ（空白）であることが分かる。また、時刻＝１．００の近辺及び時刻１．７５，２．００〜２．２５の近辺では、ＢＬＫに代わって特定の音素の確率が１又は１に近い値となり、それ以外の音素の確率はほぼ０となっていることが分かる。こうした領域では、どの音素が発声されているのかが明確に判定できていることが分かる。

一方、領域１８０及び１８２（それぞれ時刻０．８０及び１．３０付近）では、確率が１に近い音素がなく、複数の音素又はＢＬＫの確率がいずれも比較的近い値となっている。このような領域では、どの音素が発声されているかが不明確となっていることが分かる。

以下に説明する実施の形態では、領域１８０及び１８２のように、音素毎の確率のピークが低い値となる領域において、いずれかの音素のピークがシャープになるような学習基準をＣＴＣの学習基準に加えることで上記した課題を解決する。

［従来の学習］
ＣＴＣでは、複数のフレームの各々について出力された音素候補として各音素だけではなく、前述したように空白（ＢＬＫ）も採用される。そして出力される音素候補列において、連続する同一音素は１つにまとめ、空白は削除して音素を表すラベル列を表するようなマッピング関数φを採用する。例えば、音素候補のシーケンスπがπ＝｛a-abba-｝（「-」は空白を示す。）である場合、ラベル列φ（π）＝aabaとなる。また、π＝{a--abaa}の場合にも、ラベル列φ（π）＝{aaba}となる。観測シーケンスｘが与えられた時にラベルφ（π）として同じ値を生ずるような音響モデルの出力シーケンスπは複数個あるため、ラベルシーケンスＬが得られる確率は、ラベルシーケンスｌを生ずるような音素候補列の全体に亘る条件付き確率の和により与えられる。

フレームｔにおける修正後のラベルπ_tはＲＮＮによりモデル化される。したがって、経路πの条件付確率は以下のように計算される。

ただし、y^t _πtは時刻ｔにおけるＲＮＮの、修正後のラベルπ_tに対応するノードの出力を示し、Ｔはフレーム数を示す。

従来のＣＴＣによる音響モデルの学習では、式（１）の値（即ち尤度）を最大化するようパラメータの値が定められる。実際には、学習の対象がＲＮＮであるため、以下の式で定義される損失関数を最小化するよう学習が行われる。

ただしＺは学習データセットを表す。

条件付き確率Pr(l|x)はフォワード・バックワードアルゴリズムを用い、以下の式により効率的に計算できる。

ただしl´は対象のラベルシーケンスlの先頭及び末尾と、各ラベルの間とに空白を追加したラベルシーケンスを示す。ｓはラベルシーケンスl´の内のラベルlのインデックスを示す。α_t(s)はフォワード変数と呼び、フレームｔにおける確率合計l´_1:s={l´_1,…,l´_s}を表す。φ_t(s)はバックワード変数であり、フレームｔにおける確率合計l´_s:|l´|={l´_s,…,l´_|l´|}を表す。

条件付確率を計算した後、微分を計算し、逆伝播によりＲＮＮの学習を行う。ネットワーク出力y^t _πt及び正規化前（すなわちソフトマックス関数の適用前）の出力u^t _kに関する式（３）の微分は、それぞれ以下の式（５）及び（６）により計算される。

ただしlab(l,k) = {s:l´_s=k}はラベルｋがラベルシーケンスlの中で出現する位置の集合を示す。

このような従来のＣＴＣによる音響モデルでは、図４に示したように、学習データが少ない場合に領域１８０及び１８２で示したように複数の音素の確率が互いに近くなり、音素を決定することが難しいという問題がある。

［実施の形態］
そこで、本実施の形態における問題から、ＣＴＣでは正しい文の尤度が最大となるような学習を行うが、学習データが少ないと、認識単位（音素及び文字等）レベルのラベルについて、複数のラベル間での識別境界が曖昧になることが仮説として想定できる。この仮説に基づいて、以下のような学習基準を導入した。

すなわち、ＣＴＣによる音響モデルの学習において、正しい文の尤度を最大化することだけを目的とするのではなく、複数の認識単位レベルの間の曖昧さを最小化するよう、損失関数を修正する。実際、このような損失関数を採用することにより学習データの量が少ない場合にも認識精度を高くすることができた。

本実施の形態では、認識単位レベルの曖昧さに基づき曖昧さと正の相関を持つよう計算されるペナルティ（Equivocation Penalty:ＥＰ）を損失関数に加算する。本実施の形態では、ＥＰを定義するために、以下の式により定義される条件付きエントロピーを用いる。この式は、フレームｔにおいて観測量ｘ_tが与えられたときに修正後のラベルｋが得られる条件付き対数確率の期待値を示す。

このエントロピーの値が小さくなるということは、観測量ｘ_tが特定のラベルとしてより明確に認識可能になるということである。本実施の形態では、ＥＰによる損失Ｌ_ＥＰはこの条件付きエントロピーを用いて以下のように定義される。

修正後のラベルｋの条件付確率は、ＲＮＮの出力の内、ラベルｋに対応するノードの出力として得られ、以下の式により定義される。

式（５）及び（６）と同様、上記式（８）に示すペナルティの微分を計算する。式（８）の、ネットワーク出力y^t _kに関する微分は以下の式により得られる。

式（８）の、正規化前のネットワーク出力u^t _kに関する微分は以下の式により得られる。

本実施の形態における損失関数は、従来の損失関数と上記したペナルティとの重み付き平均として以下の式（１２）により表される。

ただしλ（０＜λ＜１）は重みパラメータであって、この値を変化させることにより学習データにあわせてモデルの学習のチューニングを行うことができる。

式（１２）のネットワーク出力y^t _kに関する微分及び正規化前のネットワーク出力u^t _kに関する微分はそれぞれ以下の式により計算される。

このようにして損失関数とその微分が得られることにより、誤差逆伝播法に確率的勾配降下法等を利用してＲＮＮの学習を行うことができる。

図５は、この発明の一実施の形態に係る音響モデル学習装置２０２を用いた音声認識システム２００の概略構成を示すブロック図である。図５を参照して、この音声認識システム２００は、この発明の一実施の形態に係る、音響モデル２２０の学習を行う音響モデル学習装置２０２と、音響モデル学習装置２０２による学習が行われた音響モデル２２０を、従来と同様の発音辞書２６０及び言語モデル２６２とともに用い、音声データ２５０の音声認識を行って認識単語列２５８をテキストとして出力する音声認識装置２０４と、音響モデル２２０の学習に用いる学習データを記憶した学習データ記憶装置２０６とを含む。

音響モデル学習装置２０２は、学習データ記憶装置２０６に記憶された学習データである音声データ２１０を、一定のシフト量で重複を許すような一定の長さのフレームに分割してフレーム列を出力するフレーム化部２１２と、フレーム化部２１２が出力するフレームの各々について所定の音響分析を行って特徴量を計算し、特徴量ベクトルを出力する特徴量計算部２１４と、特徴量計算部２１４が出力する特徴量ベクトルと、学習データ記憶装置２０６に記憶されている、音声データ２１０に対応する学習データの発話文章２１６を用い、上記した損失関数が最小となるように音響モデル２２０の学習を行うための音響モデル学習部２１８とを含む。

音声認識装置２０４は、従来のものと同様であって、音声データ２５０に対してフレーム化部２１２と同様のフレーム化を行うためのフレーム化部２５２と、フレーム化部２５２の出力するフレームの各々に対して音声分析を行い、所定の特徴量を抽出して特徴量ベクトルを出力する特徴量計算部２５４と、音響モデル学習部２１８により訓練された音響モデル２２０と、発音辞書２６０及び言語モデル２６２とを用いて、従来と同様の方法により音声データ２５０に対する音声認識を行って、認識単語列２５８を出力するデコーダ２５６とを含む。

音響モデル学習装置２０２が従来と異なるのは、音響モデル学習部２１８における損失関数の定義のみである。したがってここでは音声認識システム２００の各部の構成及び動作についてはこれ以上の詳細は繰り返さない。

［実験結果］
上記手法により学習を行った音響モデルによりどのような認識精度が得られるかについて、以下に述べるような実験を行った。実験では、EESENフレームワーク（Yajie Miao, Mohammad Gowayyed, and Florian Metze, “EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding,” in The 2015 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2015). IEEE, 2015, pp. 167-174.）を用い、上記した損失関数を実装した。学習は以下のように行った。

ネットワークアーキテクチャとしては、ＲＮＮの一種である双方向長・短期メモリユニット（Long Short-Term Memory：ＬＳＴМ）で４つの隠れ層を持ち、各隠れ層に３２０のメモリセルを持つものを用いた。音声の特徴量としては、４０次元のメルフィルタバンクの出力と、その一次微分及び二次微分とからなる１２０のパラメータを用いた。対象となる音素ラベルとしては、６９個の音素、２つの雑音マーク、及び１個の空白からなる７２種を用いた。つまり、対象となるニューラルネットワークは、１２０個の入力を持ち、７２の出力を持つ。実験におけるパラメータ（ネットワークの重み行列）についてはランダム値で初期化し、これらパラメータを０．９のモーメント付確率的勾配降下法により最適化した。

学習率の初期値は０．００００４に設定し、各エポックにおいて以下のようなトレーニング方法により変化させた。すなわち、現在のエポックのラベル誤り率と前回のエポックのラベル誤り率との差が０．５未満になると、次のエポックでは学習率に０．５を乗じることで学習率を低減させた。検証データセットに対するラベル誤り率の差が０．１未満になる時点で学習を終了した。なお、学習データ全てを用いて１回の学習を行うことを、１エポックという。

デコードでは、EESENフレームワークが、上記のように学習した音響モデルと、発音辞書と、言語モデルとを統合したＷＦＳＴ（Weighted Finite State Transducer：重み付き有限状態トランスデューサ）を生成し、デコードを行った。

ベースモデルとして、参考文献２に記載されたKaldi ASRツールキットを用いた。評価では通常のKaldi ASRツールキットの設定を用いたが、音響特徴量としては前述した１２０種を用いた点が異なる。隣接する１１個のフレームを結合してＤＮＮへの入力とした。したがってデコード用のＤＮＮは入力に１３２０個のノードを持つ。ＤＮＮは隠れ層として４層を持ち、各隠れ層は１０２４ノードを持つ。モデルのパラメータはランダム値で初期化し、クロスエントロピー基準の下で、モーメントなしの標準的な確率的勾配降下法により最適化を行った。ＤＮＮの学習のための音声信号と各音素とのアライメントはＧＭＭ―ＨＭＭを用いて推定した。

実験は、ＷＳＪ及びＣＨｉＭＥ４タスクに対して行った。ＷＳＪコーパスについては、学習データとして２種類を使用した。すなわち（１）「ＷＳＪ１０（ＬＤＣ９３Ｓ６Ｂ）」（「train_si84」と呼ばれる。１５時間）のみを用いたもの、及び（２）「ＷＳＪ０」及び「ＷＳＪ１（ＬＤＣ９４Ｓ１３Ｂ）」（「train_si284」と呼ばれる。８１時間）を用いた。何れの実験においても、学習データの内９５％を学習に用い、残りの５％を検証に用いた。評価には「ｄｅｖ９３」及び「ｅｖａｌ９２」と呼ばれるデータセットを用いた。発音辞書としてはＣＭＵ辞書を用い、言語モデルとしては語彙２０，０００のＷＳＪ言語モデルを用いた。

ＣＨｉＭＥ４コーパスは、カフェ、交差点、公共交通機関、及び歩行者地域等の雑音環境下で録音されたデータである。このデータを用いたのは、雑音環境下での音響モデルの精度を評価するためである。実験には「tr05_multi_noizy」(１８時間)と呼ばれるデータセットを音響モデルの学習に、「dr05_multi_noizy」(５．６時間)と呼ばれるデータセットを検証に、「dr05_real_isolated_1ch_track」及び「et05_real+isolated_1ch」と呼ばれるデータセットを評価に、それぞれ用いた。発音辞書としてはＣＭＵを用いて、言語モデルとしては語彙５０００のＷＳＪ言語モデルを用いた。

ＷＳＪタスクに関する単語誤り率の結果をテーブル１に示す。

表１において、「ＣＴＣ」はベースラインを示し、「ＣＴＣ−ＥＰ」が本願発明の実施の形態によるものである。重みλとして０．０１０，０．０２５，０．０５０，０．０７５及び０．１００を用いた。train_si84を用いて音響モデルのトレーニングを行った場合、λが小さい値から０．０５０に近づく場合にはベースライン（λ＝０に相当）と比較して単語誤り率は改善するが、λが０．０５０を超えると単語誤り率は徐々に悪化する。これは、train_ si284を用いて音響モデルのトレーニングを行った場合も同様である。なお、いずれの場合にも１７エポック程度で単語誤り率が収束し、学習が終了した。

図６の下段に、本発明の実施の形態にしたがって、train_si84を用いてλ＝０．０５０で訓練したＣＴＣ音響モデルによる音素ラベルの事後確率を示す。使用したデータは図４に示したものと同じである。比較のために、図６の上段に図４の左下段パネルに示したグラフと同じグラフを示す。

図６の下段に示したグラフによれば、従来の領域１８０及び１８２に相当する領域３００及び３０２でも、他の音素と比較して確率が明確に１又は１に近い値となるラベルが得られた。したがって、このＣＴＣ音響モデルによって、認識の対象となる単位（音素）に関する識別能力が高くなったことが分かる。

ＣＨｉＭＥ４タスクにおいて得られた単語誤り率をテーブル２に示す。

この表からも、本実施の形態により、従来のＣＴＣ音響モデルと比較して単語誤り率が改善していることが分かる。λの値の変化に対する単語誤り率の変化傾向もＷＳＪタスクの場合と同様であった。この結果から、雑音が重畳した音声であっても、学習データが少ない場合には上記実施の形態により音声認識の精度が向上することが分かる。

［コンピュータによる実現］
上記した実施の形態に係る音響モデル学習装置２０２及び音声認識システム２００は、コンピュータハードウェアと、そのハードウェア上でＣＰＵによる実行されるコンピュータプログラムとにより実現できる。図７にこのコンピュータプログラムの概略の制御構造をフローチャート形式で示し、図８及び図９に上記音響モデル学習装置２０２及び音声認識システム２００を実現するコンピュータハードウェアを示す。上記実施の形態及び実験では、モーメント付確率的勾配降下法によりパラメータを最適化している。

図７を参照して、このプログラムは、コンピュータ内にＲＮＮを構成するステップ３５０と、図５に示す学習データ記憶装置２０６にコンピュータが接続するステップ３５２と、ＲＮＮのパラメータθに初期値を設定するステップ３５４とを含む。ＲＮＮを構成するとは、ＲＮＮの各ノードのためのパラメータの記憶領域、各ノード間の重み等のパラメータの記憶領域等を記憶装置内に確保することを意味する。初期値は上記実施の形態ではランダムに設定したが、予備的な学習により得られた値、又は他の既存の音響モデルのパラメータを用いるようにしてもよい。

このプログラムはさらに、所定エポック数だけ処理３５８を繰返し、所定エポック数の繰り返しが終了したらこのプログラムの実行を終了するステップ３５６を含む。上記実施の形態では、λがいずれの値であってもエポック数＝１７で学習が終了したが、エポック数が１７に限定されるわけではない。

処理３５８は、学習データをランダムな順番にシャッフルするステップ３６０と、ステップ３６０によりシャッフルされた各データに対してシャッフル後の順番で（したがってランダムな順番で）以下の処理３６４を繰り返し実行するステップ３６２を含む。

処理３６４は、式（１３）及び式（１４）によりＬ_{ＣＴＣ−ＥＰ}の勾配∇_θＪ(θ)を計算するステップ３８０と、この勾配∇_θＪ(θ)を用いてｖ_t＝γｖ_t-1＋η∇_θＪ(θ)により、現ステップのパラメータθの更新ベクトルｖ_tを計算するステップ３８２とを含む。なお、ｖ_t-1は１ステップ前の更新ベクトルである。処理３６４はさらに、ステップ３８２で計算された更新ベクトルｖ_tをパラメータθから減算するステップ３８４とを含む。

なお、パラメータの最適化（学習）には、モーメント付確率的勾配降下法以外の勾配降下法を用いても良い。バッチ勾配降下法、モーメントを用いない通常の確率的勾配降下法、ミニバッチによる勾配降下法、加速勾配降下法、Adagrad等を用いることができる。

図８を参照して、このコンピュータシステム４３０は、メモリポート４５２及びＤＶＤ（Digital Versatile Disk）ドライブ４５０を有するコンピュータ４４０と、キーボード４４６と、マウス４４８と、モニタ４４２とを含む。

図９を参照して、コンピュータ４４０は、メモリポート４５２及びＤＶＤドライブ４５０に加えて、ＣＰＵ（中央処理装置）４５６及びＧＰＧＰＵ（汎用画像処理装置）４５７と、ＣＰＵ４５６、ＧＰＧＰＵ４５７、メモリポート４５２及びＤＶＤドライブ４５０に接続されたバス４６６と、ブートプログラム等を記憶する読出専用メモリであるＲＯＭ４５８と、バス４６６に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するコンピュータ読取可能な記憶媒体であるランダムアクセスメモリ（ＲＡＭ）４６０と、ハードディスク４５４を含む。コンピュータ４４０はさらに、いずれもバス４６６に接続され、他端末との通信を可能とするネットワーク４６８への接続を提供するネットワークインターフェイス（Ｉ／Ｆ）４４４と、外部との音声信号の入出力を行うための音声Ｉ／Ｆ４７０とを含む。

コンピュータシステム４３０を上記した実施の形態に係る音響モデル学習装置２０２、及び音声認識装置２０４の各機能部として機能させるためのプログラムは、ＤＶＤドライブ４５０又はメモリポート４５２に装着される、いずれもコンピュータ読取可能な記憶媒体であるＤＶＤ４６２又はリムーバブルメモリ４６４に記憶され、さらにハードディスク４５４に転送される。又は、プログラムはネットワーク４６８を通じてコンピュータ４４０に送信されハードディスク４５４に記憶されてもよい。プログラムは実行の際にＲＡＭ４６０にロードされる。ＤＶＤ４６２から、リムーバブルメモリ４６４から又はネットワーク４６８を介して、直接にＲＡＭ４６０にプログラムをロードしてもよい。また、上記処理に必要なデータ（学習データセット、ＲＮＮのパラメータ等）は、ハードディスク４５４又はＲＡＭ４６０の所定のアドレスに記憶され、ＣＰＵ４５６又はＧＰＧＰＵ４５７により処理され、プログラムにより指定されるアドレスに格納される。最終的に学習が終了した音響モデルは、例えばハードディスク４５４に格納されたり、ＤＶＤドライブ４５０及びメモリポート４５２をそれぞれ介してＤＶＤ４６２又はリムーバブルメモリ４６４に格納されたりする。又は、ネットワークＩ／Ｆ４４４を介してネットワーク４６８に接続された他のコンピュータ又は記憶装置に送信される。

このプログラムは、コンピュータ４４０を、上記実施の形態に係る音響モデル学習装置２０２及び音声認識装置２０４として機能させるための複数の命令からなる命令列を含む。音響モデル学習部２１８及びデコーダ２５６における数値演算処理は、ＣＰＵ４５６及びＧＰＧＰＵ４５７を用いて行う。ＣＰＵ４５６のみを用いてもよいがＧＰＧＰＵ４５７を用いる方が高速である。コンピュータ４４０にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ４４０上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ４４０にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム、装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の内、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステム、装置又は方法としての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

１００、２００音声認識システム
１１０音声波形
１１２入力音声信号
１１４音声分析
１１６音声特徴量
１１８、２５６デコーダ
１２０、２５８認識単語列
１２２、１５０、２２０音響モデル
１２４、２６０発音辞書
１２６、２６２言語モデル
１４０、１４２モデル
１５２ＲＮＮ
２０２音響モデル学習装置
２０４音声認識装置
２０６学習データ記憶装置
２１０、２５０音声データ
２１２、２５２フレーム化部
２１４、２５４特徴量計算部
２１６発話文章
２１８音響モデル学習部

Claims

コンピュータを用いた音響モデルの学習方法であって、
コンピュータが、音声認識に使用する音響特徴ベクトルの要素数と同数のノードを持つ入力層、識別対象となる音声単位の種類数と同数のノードを持つ出力層、並びに前記入力層及び前記出力層の間に配置された複数の隠れ層を含むＲＮＮをコンピュータ上に構成するステップと、
コンピュータが、前記ＲＮＮのための学習データセットの記憶装置に接続するステップと、
前記ＲＮＮの動作を規定するパラメータを初期値に設定するステップと、
コンピュータが、前記記憶装置から読出した学習データセットを用い、前記パラメータに対する所定の損失関数Ｌ_{ＣＴＣ＋ＥＰ}を最小化するように前記ＲＮＮの前記パラメータを最適化するステップとを含み、
前記損失関数Ｌ_{ＣＴＣ＋ＥＰ}は、
前記学習データセット中の観測系列に対する正しいラベル系列の尤度が最大となるとき最小となるような第１の損失関数Ｌ_ＣＴＣと、
前記学習データセット中の観測値に対するラベルの曖昧さに対する増加関数となるような第２の損失関数Ｌ_ＥＰと、
０＜λ＜１を満たす数値λとにより、
Ｌ_{ＣＴＣ＋ＥＰ}＝λＬ_ＣＴＣ＋（１−λ）Ｌ_ＥＰ
として定義される、学習方法。
前記第１の損失関数Ｌ_ＣＴＣは以下の式により定義され、

ただしｘは音声データの観測系列であり、ｌは観測系列ｘに対してＣＴＣ音響モデルの出力から得られる音声単位のラベルシーケンスであり、Ｚは前記学習データセットを表す、請求項１に記載の学習方法。
前記第２の損失関数Ｌ_ＥＰは以下の式により定義される、請求項１又は請求項２に記載の学習方法。
前記数値λは０＜λ≦０．０５０を満たすように選ばれる、請求項１から請求項３のいずれかに記載の学習方法。
前記最適化するステップは、
コンピュータが、前記記憶装置から読出した学習データセットを用い、前記所定の損失関数Ｌ_{ＣＴＣ＋ＥＰ}を最小化するように、モーメント付確率的勾配降下法により前記ＲＮＮの前記パラメータを最適化するステップを含む、請求項１〜請求項４のいずれかに記載の学習方法。
コンピュータを、請求項１〜請求項５の何れかに記載の学習方法を実行するよう機能させる、コンピュータプログラム。