JP6699945B2

JP6699945B2 - 音響モデル学習装置、その方法、及びプログラム

Info

Publication number: JP6699945B2
Application number: JP2017081080A
Authority: JP
Inventors: 太一浅見; 哲小橋川; 山口　義和; 義和山口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-04-17
Filing date: 2017-04-17
Publication date: 2020-05-27
Anticipated expiration: 2037-04-17
Also published as: JP2018180354A

Description

本発明は、音声認識に用いる音響モデルを学習する音響モデル学習装置、音響モデル学習方法、およびプログラムに関する。

音声認識では、入力された音響特徴量がどのHMM状態に属するかを識別する音響モデルが利用される。ニューラルネットワーク型音響モデルを学習する従来の方法が非特許文献１に記載されている。なお、ニューラルネットワーク型音響モデルとは、音響特徴量を入力とし、入力された音響特徴量に対するHMM状態を出力とするニューラルネットワークからなる音響モデルである。

図１は従来の音響モデル学習装置の機能ブロック図を示す。音響モデル学習部９１では、ニューラルネットワークの初期値となる初期音響モデルと、大量の（数百〜数千時間の）音声から抽出した学習用の音響特徴量と、各音響特徴量がどのHMM状態に対応するかを表す正解HMM状態番号とを入力とし、音響特徴量を適切に識別できるように学習されたニューラルネットワークである学習済み音響モデルを出力する。

George E. Dahl, Dong Yu, Senior Member, IEEE, Li Deng, Fellow, IEEE, and Alex Acero, Fellow, IEEE, "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 20, NO. 1, JANUARY 2012, p.30- 42

しかしながら、従来技術では、音声に関する事前知識のない初期音響モデルから、直接HMM状態を識別する音響モデルを学習するため、ニューラルネットワークが適切なパラメータに収束せず、精度が低下する問題がある。

本発明は、音声に関する事前知識を備えた初期音響モデルから、HMM状態を識別する音響モデルを学習し、従来よりも精度の高い音声認識を行える音響モデルを作成することができる音響モデル学習装置、その方法、及びプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、音響モデル学習装置は、Nを1以上の整数の何れか、n=1,2,…,Nとし、第n次音響モデルは音響特徴量を入力とし入力された音響特徴量に対する分類結果を出力とするニューラルネットワークからなり、学習用音声データから得られる学習用音響特徴量と、学習用音響特徴量に対する正解HMM状態番号と、第n次音響モデルの出力である分類結果が取り得る値と正解HMM状態番号との対応関係を示す番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求める簡易音響モデル学習部と、学習済みの第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数m_n+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求める出力層置換部と、学習用音響特徴量と、正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求める音響モデル学習部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習方法は、Nを1以上の整数の何れか、n=1,2,…,Nとし、第n次音響モデルは音響特徴量を入力とし入力された音響特徴量に対する分類結果を出力とするニューラルネットワークからなり、学習用音声データから得られる学習用音響特徴量と、学習用音響特徴量に対する正解HMM状態番号と、第n次音響モデルの出力である分類結果が取り得る値と正解HMM状態番号との対応関係を示す番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求める簡易音響モデル学習ステップと、学習済みの第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数m_n+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求める出力層置換ステップと、学習用音響特徴量と、正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求める音響モデル学習ステップとを含み、音響モデル学習装置が実行する。

本発明によれば、従来よりも精度の高い音声認識を行える音響モデルを作成することができるという効果を奏する。

従来の音響モデル学習装置の機能ブロック図。音響特徴量の階層的な分類構造を示す図。第一実施形態に係る音響モデル学習装置の機能ブロック図。第一実施形態に係る音響モデル学習装置の処理フローの例を示す図。簡易音響モデル学習部の機能ブロック図。出力層置換部の処理内容を説明するための図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。

＜第一実施形態のポイント＞
本実施形態のポイントは、簡単な識別から徐々に難しい識別へと順次音響モデルを学習していく点である。音信号から得られる音響特徴量は図２に示すように階層的な分類構造を持つ。HMM状態は非常に詳細度の高いカテゴリであるため、音響特徴量がどのHMM状態かを識別するのは難易度の高い識別である。一方、より上位の階層での識別、例えば音響特徴量が音声か非音声かを識別するのは難易度の低い識別となる。また、隣接した階層の識別（例えば「音声か非音声かの識別」と「有声音か無声音か非音声かの識別」）は類似した問題なので、「音声か非音声か」を識別するニューラルネットワーク（音声／非音声NN）と、「有声音か無声音か非音声か」を識別するニューラルネットワーク（有声音／無声音／非音声NN）の差分は小さくなる。そのため、有声音／無声音／非音声NNを学習する際に、音声／非音声NNを初期値(初期音響モデルともいう)として用いると適切なパラメータに収束させることができる。本実施形態では、難易度の低い上位の階層での識別を行うニューラルネットワークから学習を開始し、学習したニューラルネットワークを次の段階の学習の初期値として、分類を段階的に詳細化させながら学習を行う。このような構成とすることで、最終的に従来技術よりも高精度にHMM状態を識別可能なニューラルネットワークを得る。なお、ある階層での学習が済んでいない音響モデルをその階層における未学習の音響モデルまたは初期音響モデルともいう。

具体的な学習手順は、以下の通りである。
(1)はじめに、音声に関する事前知識のない初期音響モデルを初期値として、入力音響特徴量が「音声か非音声か」を識別する音声／非音声音響モデルを学習する。音声に関する事前知識のない初期音響モデルとしては、例えば、パラメータを乱数により初期化したものを用いる。
(2)次に、学習済みの音声／非音声音響モデルを初期値として、入力音響特徴量が「有声音か無声音か非音声か」を識別する有声音／無声音／非音声音響モデルを学習する。
(3)次に、学習済みの有声音／無声音／非音声音響モデルを初期値として、入力音響特徴量が「母音か有声子音か無声音か非音声か」を識別する母音／有声子音／無声子音／非音声音響モデルを学習する。
(4)次に、学習済みの母音／有声子音／無声子音／非音声音響モデルを初期値として、入力音響特徴量が「（非音声を含む）どの音素か」(言い換えると、「どの音素か、または、非音声か」)を識別する音素音響モデルを学習する。
(5)次に、学習済みの音素音響モデルを初期値として、入力音響特徴量が「どのトライフォンか」を識別するトライフォン音響モデルを学習する。
(6)最後に、学習済みのトライフォン音響モデルを初期値として、入力音響特徴量が「どのHMM状態か」を識別する音響モデル（HMM状態音響モデル）を学習する。

従来技術では、音声に関する事前知識のない初期音響モデルからHMM状態音響モデルを学習していた。本実施形態の順序で学習を行うことにより、より適切な初期値からHMM状態音響モデルを学習できるようになる。そのため、従来技術よりも識別精度の高い音響モデルが得られ、音声認識の精度が向上する。

なお、学習の各段階の一部をスキップする構成としてもよいし、途中に中間的な段階を増やしても良い。例えば、「母音／有声子音／無声子音／非音声」と「音素」の間に、類似した有声子音と無声子音をグループ化した「音素グループ」を識別する段階を増やす等の構成が考えられる。

第一実施形態では、(i)音声に関する事前知識のない初期音響モデルから音声／非音声音響モデルを学習し、次に、(ii)音声／非音声音響モデルを初期値(初期音響モデル)として、HMM状態音響モデルを学習する最小の構成について説明する。

＜第一実施形態＞
図３は第一実施形態に係る音響モデル学習装置３００の機能ブロック図を、図４はその処理フローを示す。

音響モデル学習装置３００は、音声に関する事前知識のない初期音響モデルと、番号変換表と、学習用の音声データから得られる学習用の音響特徴量(以下、単に「音響特徴量」ともいう)と、音響特徴量に対応する正解HMM状態番号とを入力とし、これらの値を使って、音響モデルを学習し、学習済みの音響モデル（HMM状態音響モデル）を出力する。

音響モデル学習装置３００は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。

音響モデル学習装置３００は、簡易音響モデル学習部３０１と、出力層置換部３０２と、音響モデル学習部３０３とを含む。

なお、図３には、上述の通り、はじめに音声／非音声音響モデルを学習し、次にHMM状態音響モデルを学習する２段階の学習を行う構成（最小構成）を示した。途中の学習段階を増やす場合でも、簡易音響モデル学習部３０１と出力層置換部３０２の処理を繰り返し行えばよく、新たに必要となる構成はない。その場合の詳細に関しては変形例で説明する。

＜簡易音響モデル学習部３０１＞
入力：初期音響モデル(音声／非音声)、音響特徴量、正解HMM状態番号、番号変換表
出力：学習済み音響モデル(音声／非音声)
処理：
入力された初期音響モデルを初期値として、音響特徴量と正解HMM状態番号と番号変換表とを用いて、学習し、学習済み音響モデルを求め（Ｓ３０１）、出力する。なお、初期音響モデルとは、未学習の音響モデルを意味し、初期音響モデル(音声／非音声)は、「音声か非音声か」を識別するニューラルネットワークからなる音響モデルの初期音響モデルを意味する。番号変換表は、音響特徴量に対する正解HMM状態番号と、音響モデルの出力である分類結果が取り得る値との対応関係を示すものである。例えば、番号変換表は、HMM状態番号（通常１〜３０００程度）と音声か非音声かを表す番号（１または２）との対応関係を示す表である。この番号変換表に基づきHMM状態番号を、音声か非音声かを表す番号に変換することができる。なお、各HMM状態が音声か非音声かは、学習前に正解HMM状態番号を用意した時点で分かっている。

通常の（従来技術の）音響モデル学習部９１との違いは、上述の番号変換表を用いる点である。簡易音響モデル学習部３０１の詳しい構成を図５に示す。

＜正解HMM状態番号変換部３０１Ａ＞
入力：正解HMM状態番号、番号変換表
出力：変換正解番号
処理：
入力された正解HMM状態番号を、番号変換表にしたがって変換正解番号に変換し、変換後の変換正解番号を出力する。この例では、変換正解番号は、音声か非音声かを表す番号（１または２）である。正解HMM状態番号はある音響特徴量がどのHMM状態に対応するかを表す番号であり、変換正解番号はある音響特徴量がある階層のどのノード(図２参照)に対応するかを表す番号である。

＜第二音響モデル学習部３０１Ｂ＞
入力：変換正解番号、音響特徴量、初期音響モデル(音声／非音声)
出力：学習済み音響モデル(音声／非音声)
処理：
例えば、本実施形態のように第二音響モデル学習部３０１Ｂによって音声／非音声を識別する音響モデルを学習する場合、初期音響モデル(音声／非音声)として、出力ユニット数が２（音声 or 非音声）のニューラルネットワークを入力する。ニューラルネットワークは、音響特徴量を入力とし、入力された音響特徴量に対する分類結果(この例では、音声か非音声かを示す情報であり、１または２)を出力とするものである。第二音響モデル学習部３０１Ｂは、初期音響モデル(音声／非音声)を初期値として、変換正解番号と音響特徴量とを用いて、学習し、学習済み音響モデル(音声／非音声)を求め、出力する。ニューラルネットワークからなる音響モデルの学習方法としては、如何なる方法を用いてもよい(例えば非特許文献１参照)。

また、HMM状態番号を、有声音か無声音か非音声かを表す番号（１または２または３）に変換する対応表を簡易音響モデル学習部３０１に入力すれば、有声音／無声音／非音声を識別する音響モデルを学習することができる。図２に示した識別の各階層に合わせた番号変換表(HMM状態番号と、各階層のノードとの対応関係を示す表)を用いることで、所望の階層の識別を行う音響モデルを学習することができる。

＜出力層置換部３０２＞
入力：学習済み音響モデル(音声／非音声)、次段階の出力ユニット数
出力：次段階の初期音響モデル(HMM状態音響モデル)
処理：
入力された学習済み音響モデル(音声／非音声)から出力層及び出力層と中間層との間の重みパラメータを除去する。さらに、次段階の音響モデル(HMM状態音響モデル)の出力ユニット数を持つ新たな出力層を付与して、次段階の初期音響モデルとして出力する。例えば、付与される出力層の重みパラメータは乱数により初期化する。処理内容のイメージを図６に示した。

この処理により、前段階で学習した隠れ層を保持しつつ、次段階の階層に適したユニット数の出力層を持つニューラルネットワークを作成できる。これを次段階の学習の初期音響モデルとして利用する。このような構成とすることで、音声に関する事前知識を備えた初期音響モデルを利用することができる。

＜音響モデル学習部３０３＞
入力：未学習の音響モデル(HMM状態音響モデル)、音響特徴量、正解HMM状態番号
出力：学習済みの音響モデル(HMM状態音響モデル)
音響モデル学習部３０３は、音響特徴量及び正解HMM状態番号を用いて、未学習の音響モデル(HMM状態音響モデル)を初期値として、学習し（Ｓ３０３）、学習済みの音響モデル(HMM状態音響モデル)を求め、出力する。ここでは、ニューラルネットワークは、音響特徴量を入力とし、入力された音響特徴量に対する分類結果(この例では、HMM状態番号)を出力とするものである。

＜効果＞
以上の構成により、音響モデル学習部３０３において音声に関する事前知識を備えた初期音響モデルから、HMM状態を識別する音響モデルを学習し、従来よりも精度の高い音声認識を行える音響モデルを作成することができる。

＜変形例＞
本実施形態では、はじめに音声／非音声音響モデルを学習し、次にHMM状態音響モデルを学習する２段階の学習を行う構成（最小構成）を示したが、上述の通り、途中の学習段階を増やしてもよい。この場合、簡易音響モデル学習部３０１は、音響特徴量と、正解HMM状態番号と、番号変換表と、未学習の第n次音響モデルとを入力とする。簡易音響モデル学習部３０１は、音響特徴量と、正解HMM状態番号と、番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求め、出力する。ただし、Nを1以上の整数の何れか、n=1,2,…,Nとする。例えば、第(n+1)次音響モデルの出力ユニット数m_n+1を第n次音響モデルの出力ユニット数m_nよりも大きいものとすることで、分類を段階的に詳細化させることができる。なお、未学習の第1次音響モデルが、従来技術の初期音響モデルに相当する。出力層置換部３０２は、学習済みの第n次音響モデルを入力とし、学習済みの第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数m_n+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求め、出力する。なお、未学習の第1次〜第N次音響モデル(n=1,2,…,N)は簡易音響モデル学習部３０１に出力し(図３中、破線で示す)、未学習の第(N+1)次音響モデルは音響モデル学習部３０３に出力する。n=1,2,…,Nにおいて、簡易音響モデル学習部３０１及び出力層置換部３０２における処理Ｓ３０１，Ｓ３０２を繰り返す(図４中、ループ端を破線で示し、ループ端の上端内に「変数=初期値,終値、増分値」を示す)。音響モデル学習部３０３は、未学習の第(N+1)次音響モデルと、音響特徴量と、正解HMM状態番号と入力とし、音響特徴量と、正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求め、出力する。なお、N=1の場合に第一実施形態と同様の処理内容となるため、第一実施形態は、本変形例の一例と言える。

このような構成により、簡易音響モデル学習部３０１と出力層置換部３０２を用いて、難易度の低い音声／非音声を識別する音響モデルから学習をはじめ、次の段階の学習の初期音響モデルとして順次利用していく手順により、最終的に音響モデル学習部３０３に対して適切な初期音響モデルを入力することができるため、高精度にHMM状態を識別する学習済み音響モデルを得ることができる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Nを1以上の整数の何れか、n=1,2,…,Nとし、第n次音響モデルは音響特徴量を入力とし入力された音響特徴量に対する分類結果を出力とするニューラルネットワークからなり、学習用音声データから得られる学習用音響特徴量と、前記学習用音響特徴量に対する正解HMM状態番号と、第n次音響モデルの出力である分類結果が取り得る値と正解HMM状態番号との対応関係を示す番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求める簡易音響モデル学習部と、
学習済みの前記第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数m_n+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求める出力層置換部と、
前記学習用音響特徴量と、前記正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求める音響モデル学習部とを含む、
音響モデル学習装置。
請求項１の音響モデル学習装置であって、
pを1,2,…,Nの何れかとし、前記簡易音響モデル学習部において学習する第p次音響モデルは、
(1)入力音響特徴量が「音声か非音声か」を識別する音響モデル、
(2)入力音響特徴量が「有声音か無声音か非音声か」を識別する音響モデル、
(3)入力音響特徴量が「母音か有声子音か無声音か非音声か」を識別する音響モデル、
(4)入力音響特徴量が「どの音素か、または、非音声か、」を識別する音響モデル、
(5)入力音響特徴量が「どのトライフォンか」を識別する音響モデル、
の何れかであり、
前記音響モデル学習部において学習する第(N+1)次音響モデルは、入力音響特徴量が「どのHMM状態か」を識別する音響モデルである、
音響モデル学習装置。
請求項１または請求項２の音響モデル学習装置であって、
第(n+1)次音響モデルの出力ユニット数m_n+1は第n次音響モデルの出力ユニット数m_nよりも大きい、
音響モデル学習装置。
Nを1以上の整数の何れか、n=1,2,…,Nとし、第n次音響モデルは音響特徴量を入力とし入力された音響特徴量に対する分類結果を出力とするニューラルネットワークからなり、学習用音声データから得られる学習用音響特徴量と、前記学習用音響特徴量に対する正解HMM状態番号と、第n次音響モデルの出力である分類結果が取り得る値と正解HMM状態番号との対応関係を示す番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求める簡易音響モデル学習ステップと、
学習済みの前記第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数m_n+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求める出力層置換ステップと、
前記学習用音響特徴量と、前記正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求める音響モデル学習ステップとを含む、
音響モデル学習装置が実行する音響モデル学習方法。
請求項４の音響モデル学習方法であって、
pを1,2,…,Nの何れかとし、前記簡易音響モデル学習ステップにおいて学習する第p次音響モデルは、
(1)入力音響特徴量が「音声か非音声か」を識別する音響モデル、
(2)入力音響特徴量が「有声音か無声音か非音声か」を識別する音響モデル、
(3)入力音響特徴量が「母音か有声子音か無声音か非音声か」を識別する音響モデル、
(4)入力音響特徴量が「どの音素か、または、非音声か、」を識別する音響モデル、
(5)入力音響特徴量が「どのトライフォンか」を識別する音響モデル、
の何れかであり、
前記音響モデル学習ステップにおいて学習する第(N+1)次音響モデルは、入力音響特徴量が「どのHMM状態か」を識別する音響モデルである、
音響モデル学習方法。
請求項４または請求項５の音響モデル学習方法であって、
第(n+1)次音響モデルの出力ユニット数m_n+1は第n次音響モデルの出力ユニット数m_nよりも大きい、
音響モデル学習方法。
請求項１から請求項３の何れかの音響モデル学習装置としてコンピュータを機能させるためのプログラム。