JP6820764B2

JP6820764B2 - 音響モデル学習装置および音響モデル学習プログラム

Info

Publication number: JP6820764B2
Application number: JP2017037421A
Authority: JP
Inventors: 伊藤　均; 均伊藤; 庄衛佐藤; 彰夫小林
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2021-01-27
Anticipated expiration: 2037-02-28
Also published as: JP2018141925A

Description

本発明は、音響モデル学習装置および音響モデル学習プログラムに関する。

近年、音声認識の分野ではＤＮＮ（Deep Neural Network）を用いたＥｎｄ−ｔｏ−ｅｎｄ音声認識の手法がいくつか提案されている（非特許文献１、非特許文献２）。そのための音響モデル学習装置は、音声と文字の対応付けを一つの音響モデルを使って直接学習することで、音素という中間状態を経ずに音声から文字へＥｎｄ−ｔｏ−ｅｎｄの変換を行う。Ｅｎｄ−ｔｏ−ｅｎｄ音声認識の手法において、時間方向の情報を記憶するものとしては、ＲＮＮ（Recurrent Neural Network）、ＬＳＴＭ（Long Short-Term Memory）、またはＢＬＳＴＭ（Bi-directional LSTM）を用いる場合もある。

なお、ＤＮＮの中間層の特定の層のユニット数を削減したネットワーク構造はボトルネック構造と呼ばれており、ボトルネック構造が別のＤＮＮの入力として用いられることもある（非特許文献３参照）。ここで、ユニット数を削減することは、学習により決定すべきパラメータの数（次元数）を削減することに対応する。

また、非特許文献４には、ＤＮＮを用いるＨＭＭ（Hidden Markov Model）による音声認識方式（ＤＮＮ−ＨＭＭ）の分野では、Ａｆｆｉｎｅ変換（線形変換）の変換行列として行列分解したものを用いると、ＷＥＲ（Word error rate：単語認識誤り率）を低下させることなく学習時間を短縮できることが記載されている。

Amodei, D., et al.,"Deep Speech 2: End-to-End Speech Recognition in English and Mandarin" the Computing Research Repository (CoRR), arXiv:1512.02595v1 [cs.CL] 8 Dec 2015 Miao, Y., et al., "ESSEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING" the Computing Research Repository (CoRR), arXiv:1507.08240v3 [cs.CL] 18 Oct 2015 Wollmer M., et al., "FEATURE ENHANCEMENT BY BIDIRECTIONAL LSTM NETWORKS FOR CONVERSATIONAL SPEECH RECOGNITION IN HIGHLY NON-STATIONARY NOISE", 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Pages 6822-6826 (2013) Sainath T., et al., "LOW-RANK MATRIX FACTORIZATION FOR DEEP NEURAL NETWORK TRAINING WITH HIGH-DIMENSIONAL OUTPUT TARGETS", 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Pages 6655-6659 (2013)

しかし、従来技術には以下のような問題点が存在した。
従来の音声認識技術の多くは、変換候補が３０文字程度の英語音声認識を対象としている。日本語の場合、ひらがな、カタカナ、漢字等を合わせると変換候補の数が２０００以上と膨大であり、そのため学習により決定すべきパラメータの数（パラメータをベクトルとみた場合、ベクトルの次元数）が著しく増大する。
また、従来技術では、学習により決定すべきパラメータ数（次元数）が増大すると、学習時間が増大するという問題がある。またパラメータが多すぎると細かいところまで表現し過ぎてしまって、逆により一般的で本質的な特徴を表現しきれないという問題（汎化能力の問題）もある。一方、パラメータが少なすぎると、必要な個数の文字を表現できなくなる。

したがって、前記したＲＮＮ、ＬＳＴＭまたはＢＬＳＴＭといった時間方向の情報を記憶することのできるニューラルネットワークを用いる音響モデル学習装置において、学習により決定すべきパラメータ数を適切に削減することができれば、日本語音声認識にも適用可能になることが期待される。

また、非特許文献４に記載されている研究対象とする音声認識システムでは、音響モデルとして、音素列を経由するＤＮＮ−ＨＭＭが用いられており、Ｅｎｄ−ｔｏ−ｅｎｄの音声認識手法で用いる音響モデルをその対象とするものではない。

本発明は、以上のような問題点に鑑みてなされたものであり、日本語音響モデルに必要な表現力があり、かつ、学習時間が短くＷＥＲが改善された音響モデル学習装置および音響モデル学習プログラムを提供することを課題とする。

本発明は、前記課題を解決するため、音響モデル学習装置として、入力された音声が音声認識されることにより出力される文字との対応付けを学習することにより、前記入力された音声をＥｎｄ−ｔｏ−ｅｎｄの音声認識手法を用いて文字に変換し、当該文字を出力する音響モデルを学習する音響モデル学習装置であって、３層以上の多層構造のニューラルネットワークを有し、音声の特徴量が連続して入力され、前記多層構造の各層において、前記特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、前記音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する深層学習手段と、前記深層学習手段の最終層の出力である特徴ベクトルに所定の変換行列を適用することにより、前記深層学習手段の出力する特徴ベクトルの次元を所定の演算により変換する線形写像手段と、を備え、前記深層学習手段および前記線形写像手段による演算のうちの少なくとも１つの演算で取り扱う前記特徴ベクトルの次元を圧縮することにより前記音響モデルを学習し、前記深層学習手段は、前記特徴ベクトルの次元の圧縮を行うために、前記多層構造の第１層および最終層を除く所定の１層において時間方向の情報を記憶するベクトルの次元数が、前記第１層および前記最終層において時間方向の情報を記憶するベクトルの次元数よりも小さく設定された状態で、前記入力される音声の特徴量から文字を予測することを特徴とする構成とした。

本発明は、以下に示す優れた効果を奏するものである。
本発明に係る音響モデル学習装置によれば、演算で取り扱うベクトルの次元圧縮処理を行うことで、音響モデルをＥｎｄ−ｔｏ−ｅｎｄの音声認識手法を用いて学習する際に決定すべきパラメータ数が削減される。
また、本発明に係る音響モデル学習装置によれば、日本語音響モデルに必要な表現力があり、かつ、単語認識誤り率（ＷＥＲ）が改善され、学習時間および学習回数が著しく短縮される。

本実施形態に係る日本語音響モデル学習装置を備える日本語音声認識装置の全体の構成を示すブロック図である。Ｅｎｄ−ｔｏ−ｅｎｄ音響モデルのうちＢＬＳＴＭ構造をもつ標準的なネットワーク構造の一例を示す図である。第１実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造を説明する模式図である。第１実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。第２実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造のうち線形変換部分を説明する模式図である。第２実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。第３実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。

以下、本発明の実施形態に係る日本語音響モデル学習装置について、図面を参照しながら説明する。
［日本語音声認識装置の構成］
図１に示す日本語音声認識装置１は、日本語音響モデル学習装置１０と、日本語言語モデル学習装置２０と、を備えている。

日本語音響モデル学習装置１０は、入力された音声と出力される文字との対応付けを学習することにより、入力された音声をＥｎｄ−ｔｏ−ｅｎｄで文字に変換して出力する音響モデルを学習する装置である。以下では、日本語の音響モデル作成用の学習データ２を、音声２ａとテキスト２ｂとのペアとして説明する。音声２ａ及びテキスト２ｂは、日本語の大量の音声データ及び大量のテキストを表している。例えば、音声２ａとして、事前学習用の放送番組の番組音声を用い、テキスト２ｂとして、その番組音声の内容の厳密な書き起こし、又は、それに準ずるものを用いることができる。

ここでは、日本語音響モデル学習装置１０は、音響モデル学習手段１００と、音響モデル記憶手段１０１と、を備えている。

音響モデル学習手段１００は、日本語の音響モデル作成用の学習データ２における音声２ａとテキスト２ｂとのペアおよび文字ラベル（以下、単にラベルという）を用いる学習により、音声がラベルのうちどれであるか（どの文字であるか）を出力するモデル（音響モデル）のパラメータ（重み係数等）を学習し、音響モデルを音響モデル記憶手段１０１に記憶する。日本語に対応したラベルは、平仮名やカタカナの表音文字と、漢字の表意文字と、句読点など記号を含んでいる。以下では、記号を含むラベルのことを単に文字と呼んだり、ラベル列を文字列と呼んだりする場合もある。音響モデル学習手段１００は、非特許文献２に記載されたような文字のシーケンスを特定するＥｎｄ−ｔｏ−ｅｎｄの音響モデルの全てに適用可能なものである。

この音響モデルは、大量の音声データから予め抽出した音響特徴量（メル周波数ケプストラム係数、フィルタバンク出力等）を、設定したラベルごとにディープニューラルネットワーク（Deep Neural Network）とコネクショニスト時系列分類法（ＣＴＣ：Connectionist Temporal Classification）等によってモデル化したものである。なお、音響モデルによる音響特徴量の尤度計算は、出力が漢字を含む書記素であれば再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network)であっても、長・短期記憶（ＬＳＴＭ：Long Short Term Memory）であっても構わない。
音響モデル記憶手段１０１は、音響モデル学習手段１００が学習により生成した音響モデルを記憶するもので、ハードディスク等の一般的な記憶媒体である。

以上の説明は、音響モデルが適用される２つのフェーズ（事前学習フェーズ、評価フェーズ）のうち事前学習フェーズにおける処理の説明に対応している。
一方、学習が終了した後の評価フェーズにおいては、音響モデル記憶手段１０１（日本語音響モデル学習装置１０）に対して、学習データ２の代わりに、評価用の音声３を入力する。このとき、音響モデル学習手段１００は、音響モデル記憶手段１０１に記憶されているところの、事前学習により生成された音響モデルを用いて、評価用の音声３を認識し、対応する文字列を出力する。

すなわち、評価フェーズにおいては、音響モデル学習手段１００は、入力された評価用の音声３を特徴量（特徴ベクトル）に変換し、この特徴量を音響モデル記憶手段１０１に記憶されている音響モデルを用いて、順次、ラベル（文字）に変換することで文字列を生成する文字列生成手段として機能する。

なお、評価フェーズにおいて、評価用の音声３の代わりにその特徴量（特徴ベクトル）が入力する場合には、音響モデル学習手段１００は、前記の変換処理をすることなく、入力された特徴量を、音響モデルを用いて、順次、ラベルに変換すればよい。
また、評価フェーズに対応した処理を行う文字列生成手段を別に設けて、音響モデル学習手段１００には事前学習フェーズに対応した処理だけを行わせるように構成しても構わない。

日本語言語モデル学習装置２０は、日本語の大量のテキストを用いてラベルから単語列を出力する言語モデルを学習する装置である。ここでは、日本語言語モデル学習装置２０は、言語モデル学習手段２００と、言語モデル記憶手段２０１と、を備えている。

言語モデル学習手段２００は、ラベルと言語モデル用コーパス４を用いてラベルから単語列を出力するモデル（言語モデル）のパラメータを学習し、言語モデルを言語モデル記憶手段２０１に記憶する。言語モデル用コーパス４は、自然言語の文章を大規模に集積したコーパスである。言語モデル用コーパス４は、音響モデル作成用の学習データ２のテキスト２ｂに比べて大量のデータからなる。

言語モデル記憶手段２０１は、言語モデル学習手段２００が学習により生成した言語モデルを記憶するものであって、ハードディスク等の一般的な記憶媒体である。
言語モデル記憶手段２０１に記憶されている言語モデルは、非特許文献２に記載されたモデルのように、音響モデル記憶手段１０１に対して評価用の音声３またはその特徴量を入力して得られた表意文字を含む文字列を入力として、前後の単語の関係から単語列を推定し、推定結果である単語列を出力するモデルの全てに適用可能なものである。言語モデルは、大量のテキストから予め学習した出力系列（単語等）の出現確率等をモデル化したものであり、例えば、一般的なＮグラム言語モデルを用いることができる。

評価フェーズにおいて、日本語音響モデル学習装置１０に記憶されている学習済みのパラメータを有する音響モデルに音声３またはその特徴量が連続的に入力されると、それに対応する文字列が連続的に出力され、言語モデル記憶手段２０１（日本語言語モデル学習装置２０）に入力する。このとき、言語モデル学習手段２００は、言語モデル記憶手段２０１に記憶されている学習済みのパラメータを有する言語モデルを用いて、入力される文字列から自然な日本語の文章としての認識結果５（単語列）を出力する。
すなわち、評価フェーズにおいては、言語モデル学習手段２００は、言語モデル記憶手段２０１に記憶されている言語モデルを用いて、入力された文字列を、順次、単語に変換することで単語列を生成する単語列生成手段として機能する。なお、評価フェーズに対応した処理を行う単語列生成手段を別に設けて、言語モデル学習手段２００には事前学習フェーズに対応した処理だけを行わせるように構成しても構わない。

［日本語音響モデル学習装置１０の構成］
日本語音響モデル学習装置１０の音響モデル学習手段１００で用いる音響モデルのネットワーク構造を説明する前に、Ｅｎｄ−ｔｏ−ｅｎｄ音響モデルのネットワーク構造について図２を参照して説明する。図２にはＢＬＳＴＭ構造をもつ標準的なネットワーク構造の一例が示されているが、ＬＳＴＭを用いて実現したものやＬＳＴＭ構造を持たない一般的なＲＮＮに対しても本発明が同様に適用可能である。

図２に示すように、この標準的なネットワーク構造を用いて音響モデルを学習する音響モデル学習手段１００Ｒは、深層学習手段１１１Ｒと、線形写像手段１１２と、正規化手段１１３とを備えている。
深層学習手段１１１Ｒは、第１層のＢＬＳＴＭ３０ａと、第２層のＢＬＳＴＭ３０ｂと、第３層のＢＬＳＴＭ３０ｃと、で構成されている。深層学習手段１１１Ｒは、音声を入力とし、音声がラベルのうちどれであるかを学習する手段である。ここでは３層構造としたが、深層学習手段１１１Ｒは、４層以上の多層構造のニューラルネットワークであっても構わない。深層学習手段１１１Ｒは、音声の特徴量が連続して入力され、多層構造の各層において、音声の特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する。深層学習手段１１１Ｒは、その内部構造をパラメータにより定義することができる。ＢＬＳＴＭ構造の場合、パラメータは、層数とメモリセルである。メモリセルは、ＬＳＴＭ構造において、時間方向の情報を記憶するベクトルの次元数を決定するパラメータ、言い換えれば、時間軸上どこまで離れたデータを計算に取り込むかの長さを表している。なお、ＬＳＴＭ構造におけるメモリセルについては、非特許文献２に詳述されているので、ここでは説明を省略する。

図２に示した音響モデル学習手段１００Ｒの場合、深層学習手段１１１Ｒの各層のＢＬＳＴＭ３０ａ，３０ｂ，３０ｃはいずれも同一の規模である。具体的には、各層のＢＬＳＴＭは、いずれも出力する特徴ベクトルの次元は６４０次元である。各ＢＬＳＴＭ３０ａ，３０ｂ，３０ｃが有する前方の時間方向情報を記憶するメモリセルと、後方の時間方向情報を記憶するメモリセルも同一サイズであり（２つのメモリセルがそれぞれＣ＝３２０）、いずれも３２０次元のベクトルを出力する。なお、メモリセルＣの数値３２０は１つのメモリセルＣのメモリ容量に対応している。この数値に依存して各層のメモリセルが出力する特徴ベクトルの次元数が変わる。
深層学習手段１１１Ｒは、１２０次元の音声の特徴量（特徴ベクトル）６を入力として、その最終層のＢＬＳＴＭ３０ｃから６４０次元の特徴ベクトルを出力する。

線形写像手段１１２は、深層学習手段１１１によって各パラメータ（ＢＬＳＴＭ構造の場合、層数、メモリセル）により定義された次元数で表現される音響特徴量（特徴ベクトル）を入力とする。線形写像手段１１２は、この特徴ベクトルを入力として、所定の変換行列を適用することにより、深層学習手段１１１の出力する特徴ベクトルの次元を所定の演算により変換する。すなわち、線形写像手段１１２はＢＬＳＴＭ３０ｃの出力する特徴ベクトルの次元を文字出力ベクトル７の次元に変換する。ここで、線形写像手段１１２は、ＢＬＳＴＭ３０ｃの出力ベクトルに対して単一のＡｆｆｉｎｅ変換行列を適用する。具体的には、線形写像手段１１２は、ＢＬＳＴＭ３０ｃから入力される６４０次元の特徴ベクトルに６４０行２９３４列の行列（以下、６４０＊３２０の行列と表記する。以下同様）を乗算して、２９３４次元のベクトルを出力する。ここで、２９３４は、識別対象としている日本語のひらがな、カタカナ、漢字、記号の個数である。線形写像手段１１２の出力するベクトルは正規化手段１１３へ入力する。

正規化手段１１３は、線形写像手段１１２によって調整された次元の目的関数の正規化を行うものである。正規化手段１１３は、Ｓｏｆｔｍａｘ関数を用いて、線形写像手段１１２によって調整された次元の目的関数の正規化を行って２９３４次元の文字出力ベクトル７として出力する。これにより、最終的に２９３４ラベルの識別を行うことができる。なお、この音声認識で識別しようとするアウトプットの個数（文字の個数＝２９３４）を変えれば、それに依存して、学習により決定すべきパラメータ数（次元数）も変わる。

（第１実施形態）
図３は第１実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造を説明する模式図である。ここでは、図２を参照して説明した、同一規模の３層の深層学習手段１１１ＲをＮ層に一般化して深層学習手段１１１と表記する。深層学習手段１１１は、層数がＮ（Ｎ≧３）であるものとしている。また、図２のＢＬＳＴＭのことを、Ｆｗ−ＬＳＴＭとＢｗ−ＬＳＴＭのペアで図示して説明する。なお、この深層学習手段１１１の次元数は、層数Ｎが一定値であれば、メモリセルＣに依存する。

第１実施形態に係る日本語音響モデル学習装置１０の音響モデル学習手段１００（図１）は、図３の深層学習手段１１１の第１層における前方（Ｆｗ）のＬＳＴＭには、メモリセルＣが設定されており、後方（Ｂｗ）のＬＳＴＭにもメモリセルＣが設定されている。
同様に、深層学習手段１１１の第Ｎ層における前方（Ｆｗ）のＬＳＴＭには、メモリセルＣが設定されており、後方（Ｂｗ）のＬＳＴＭにもメモリセルＣが設定されている。
一方、深層学習手段１１１の第１層と第Ｎ層を除く所定の第ｎ層においては、前方（Ｆｗ）のＬＳＴＭには、メモリセルｃ（ｃ＜Ｃ）が設定されており、後方（Ｂｗ）のＬＳＴＭにもメモリセルｃ（ｃ＜Ｃ）が設定されている。
さらに、第１層、第ｎ層、第Ｎ層以外のその他の層では、前方（Ｆｗ）のＬＳＴＭには、メモリセルＣが設定されており、後方（Ｂｗ）のＬＳＴＭにもメモリセルＣが設定されている。

つまり、深層学習手段１１１を構成するＮ層のＢＬＳＴＭ（Ｆｗ−ＬＳＴＭとＢｗ−ＬＳＴＭのペア）のうち、第１層と第Ｎ層を除く所定の第ｎ層におけるメモリセルｃは、符号３０１で示すように、他の層のメモリセルＣよりも小さく設定されている。
したがって、第ｎ層の出力する特徴ベクトルの次元は、他の層から出力する特徴ベクトルの次元よりも縮小され、音響モデルのネットワーク構造の次元圧縮（ボトルネック構造）が実現される。これにより、深層学習手段１１１による演算で取り扱う特徴ベクトルの次元を圧縮することができる。なお、図３では、Ｆｗ−ＬＳＴＭおよびＢｗ−ＬＳＴＭをそれぞれ表すブロックの横幅でメモリセルの大小を表している。

図４は第１実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
図４に示すように、第１実施形態に係る音響モデル学習手段１００Ａは、一例として層数Ｎを３とした深層学習手段１１１Ａと、線形写像手段１１２と、正規化手段１１３とを備えている。なお、図２に示した音響モデル学習手段１００Ｒと同じ構成には同じ符号を付して説明を省略する。
深層学習手段１１１Ａは、第１層のＢＬＳＴＭ３０ａと、第２層のＢＬＳＴＭ３０ｄと、第３層のＢＬＳＴＭ３０ｃと、で構成されている。
第１層のＢＬＳＴＭ３０ａおよび最終層（第３層）のＢＬＳＴＭ３０ｃは、いずれも出力する特徴ベクトルの次元は６４０次元であり、それぞれの層において２つのメモリセルがそれぞれＣ＝３２０である。
一方、第２層のＢＬＳＴＭ３０ｄは、出力する特徴ベクトルの次元は３２０次元であり、２つのメモリセルがそれぞれｃ＝１６０である。

また、音響モデル学習手段１００Ａで用いる音響モデルのネットワーク構造は、ＢＬＳＴＭ構造に限らず、ＬＳＴＭを用いて実現したものや、ＬＳＴＭ構造を持たない、より一般的なＲＮＮに対しても、時間軸上どこまで離れたデータを計算に取り込むかの長さを設定することができるものであれば同様に適用可能である。
第１実施形態に係る日本語音響モデル学習装置１０によれば、深層学習手段１１１Ａの演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が削減される。

（第２実施形態）
図５は第２実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造のうち、線形変換部分を説明する模式図である。ここでは、図２の音響モデル学習手段１００Ｒにおいて、線形写像手段１１２へ入力する特徴ベクトルが仮に４次元であり、出力される文字を表すベクトルが１００次元であるものとして説明する。図２の音響モデル学習手段１００Ｒによれば、線形写像手段１１２によって、図５（ａ）に示すように、入力される４次元ベクトル（１＊４の行列）に対して、４＊１００の行列が乗算されて１００次元のベクトル（１＊１００の行列）が出力される。この場合、入力される４次元ベクトルに対して乗算される行列の要素数は４×１００＝４００である。この行列の要素数は、音響モデルの学習により決定すべきパラメータ数（次元数）の大小の目安となる。

第２実施形態に係る日本語音響モデル学習装置１０の音響モデル学習手段１００（図１）は、図２に示した音響モデル学習手段１００Ｒの線形写像手段１１２において演算で取り扱う特徴ベクトルの次元を圧縮することで、音響モデルのネットワーク構造の次元圧縮を実現するものである。具体例で説明すると、第２実施形態によれば、図５（ａ）に示した４＊１００の行列を乗算することに代えて、図５（ｂ）に示すように、それをランクｒ＝２で行列分解して得られる２つの行列、すなわち、４＊２の行列および２＊１００の行列を順次乗算する。この場合、行列の要素数の合計は４×２＋２×１００＝２０８となり、音響モデルの学習により決定すべきパラメータ数が、図５（ａ）の場合の要素数である４００と比べて大幅に削減される。

図２に示した音響モデル学習手段１００Ｒを用いて、深層学習手段１１１Ｒの出力する特徴ベクトルの次元数、および、線形写像手段１１２の出力するベクトルの次元数について、より一般化して説明する。ここで、深層学習手段１１１Ｒの最終層であるＢＬＳＴＭ３０ｃの出力する特徴ベクトルの次元数をＤ_L、線形写像手段１１２の出力するベクトルの次元数をＤ_Aとすると、線形写像手段１１２でのパラメータ数Ｐ_Aは、次の式（ａ）で表される。なお、式（ａ）において、右辺第１項は線形変換部分（変換行列）を表し、右辺第２項は平行移動成分（バイアス）を表している。

Ｐ_A＝Ｄ_L×Ｄ_A＋Ｄ_A … 式（ａ）

このような線形写像手段１１２の変換行列を低ランクrで行列分解すると、このときのパラメータ数Ｐ_rは、次の式（ｂ）で表される。

Ｐ_r＝Ｄ_L×r＋r×Ｄ_A＋Ｄ_A … 式（ｂ）

ここで、低ランクrが、次の式（１）を満たすときＰ_A＞Ｐ_rとなり、行列分解によりパラメータ数（次元数）を削減できる。

Ｄ_L×Ｄ_A ＞Ｄ_L×r＋r×Ｄ_A … 式（１）

図６は第２実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
図６に示すように、第２実施形態に係る音響モデル学習手段１００Ｂは、深層学習手段１１１Ｒと、線形写像手段１１２Ｂと、正規化手段１１３とを備えている。なお、図２に示した音響モデル学習手段１００Ｒと同じ構成には同じ符号を付して説明を省略する。
線形写像手段１１２Ｂは、第１線形写像手段４０と、第２線形写像手段４２と、を備えている。
第１線形写像手段４０は、深層学習手段１１１Ｒの最終層（第３層）であるＢＬＳＴＭ３０ｃから入力される６４０次元の特徴ベクトルに対して、６４０＊３２０の行列を乗算して３２０次元のベクトルを出力する。
第２線形写像手段４２は、第１線形写像手段４０から入力される３２０次元の特徴ベクトルに対して、３２０＊２９３４の行列を乗算して２９３４次元のベクトルを出力する。第２線形写像手段４２の出力するベクトルは、正規化手段１１３へ入力する。

この具体例について図６と図２とを対比して説明する。
図２に示した音響モデル学習手段１００Ｒの場合、すなわち、線形写像手段１１２が行列分解を行わない場合、線形写像手段１１２が入力ベクトルに対して乗算する行列に着目すると、その行列の要素数は、
６４０×２９３４＝１，８７７，７６０である。

一方、第２実施形態に係る音響モデル学習手段１００Ｂの場合、すなわち、線形写像手段１１２Ｂが行列分解を行う場合、行列分解された各行列の要素数の合計は減少する。具体的には、第１線形写像手段４０が入力ベクトルに対して乗算する行列の要素数と、第２線形写像手段４２が入力ベクトルに対して乗算する行列の要素数との合計は、
６４０×３２０＋３２０×２９３４＝１，１４３，６８０である。

したがって、第２実施形態に係る日本語音響モデル学習装置１０によれば、線形写像手段１１２Ｂが行列分解を行って線形写像手段１１２Ｂの演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が大幅に削減される。
また、線形写像手段１１２Ｂが備える第１線形写像手段４０の出力するベクトルの次元が３２０次元まで圧縮されており、汎化能力が高まることが期待される。

（第３実施形態）
第３実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造は、第１および第２実施形態を組み合わせたネットワーク構造である。すなわち、図２に示した深層学習手段１１１Ｒの第２層をＢＬＳＴＭ３０ｄと置換することでボトルネック構造の深層学習手段１１１Ａを備えると共に、図２に示した線形写像手段１１２を行列分解を行うことのできる線形写像手段１１２Ｂと置換することで、音響モデルのネットワーク構造の次元圧縮を実現するものである。図７は第３実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。

図７に示すように、第３実施形態に係る音響モデル学習手段１００Ｃは、一例として層数Ｎを３とした深層学習手段１１１Ａと、線形写像手段１１２Ｂと、正規化手段１１３とを備えている。図７において、図２、図４および図６を参照して説明した構成要素と同じ構成要素には同じ符号を付し、これ以上の説明を省略する。
第３実施形態に係る日本語音響モデル学習装置１０によれば、深層学習手段１１１Ａおよび線形写像手段１１２Ｂの双方の演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が削減される。

以上、本発明の各実施形態について説明したが、本発明はこれらに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、前記各実施形態では、日本語音響モデル学習装置として説明したが、各装置の構成の処理を可能にするように、汎用又は特殊なコンピュータ言語で記述した日本語音響モデル学習プログラムとみなすことも可能である。

各実施形態に係る日本語音響モデル学習装置の性能を確かめるために、各実施形態にそれぞれ対応した複数のネットワーク構造について学習した各モデルの音声認識実験結果を比較した。評価音声には、総合テレビの情報番組『ひるまえほっと』２０１３年６月放送分の番組音声(３２ｋ単語＝３２，０００単語)を用いた。各手法とも学習データは、放送音声と字幕のペア１０２３時間、入力特徴量はFilter bank４０次元＋delta＋deltadeltaの計１２０次元を用いた。言語モデルにはＮＨＫ（登録商標）の原稿や過去番組の字幕等のべ６．２億単語から学習した語彙２００ｋのモデルを利用した。学習に用いたネットワークは、図２の標準的な構造と、図４、図６および図７の３つの構造であり、各学習結果を比較した。その結果を表１に示す。

表１によれば、図２の標準的な構造と比較して、いずれの実施形態においても単語認識誤り率（ＷＥＲ）が改善され、学習時間および学習回数が著しく短縮された。
詳細には、Ａｆｆｉｎｅ変換の行列分解を行う手法、すなわち、線形写像手段１１２Ｂにおいて次元を圧縮する第２実施形態および第３実施形態において、ＷＥＲがより改善されており、汎化能力がより高められている。このうち、Ａｆｆｉｎｅ変換の行列分解のみを適用したモデル、すなわち、第２実施形態では、ＷＥＲが、図２の標準的な構造を用いる手法より２０．２％改善した。これは、漢字の読み相当の次元数（＝３２０）まで一度次元を圧縮したことで、モデルの汎化能力が向上したためと考えられる。

また、ＢＬＳＴＭ部分のパラメータを削減する手法、すなわち、深層学習手段１１１Ａにおいて次元を圧縮する第１実施形態および第３実施形態において、学習時間の短縮効果がより大きくなった。このうち、ボトルネック構造と行列分解の両方を採用したモデル、すなわち、第３実施形態では、学習１回あたりの平均学習時間が、図２の標準的な構造を用いる手法より９.３％改善した。これは各実施形態で削減したＢＬＳＴＭの次元は時間方向に影響するものであるため、Ａｆｆｉｎｅ変換の行列分解に比べ更に学習時間の短縮効果が得られたと考えられる。

１日本語音声認識装置
１０日本語音響モデル学習装置
１００，１００Ａ，１００Ｂ，１１０Ｃ音響モデル学習手段
１０１音響モデル記憶手段
１１１，１１１Ａ，１１１Ｒ深層学習手段
１１２，１１２Ｂ線形写像手段
１１３正規化手段
３０ａ，３０ｂ，３０ｃ，３０ｄＢＬＳＴＭ
４０第１線形写像手段
４２第２線形写像手段

Claims

入力された音声が音声認識されることにより出力される文字との対応付けを学習することにより、前記入力された音声をＥｎｄ−ｔｏ−ｅｎｄの音声認識手法を用いて文字に変換し、当該文字を出力する音響モデルを学習する音響モデル学習装置であって、
３層以上の多層構造のニューラルネットワークを有し、音声の特徴量が連続して入力され、前記多層構造の各層において、前記特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、前記音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する深層学習手段と、
前記深層学習手段の最終層の出力である特徴ベクトルに所定の変換行列を適用することにより、前記深層学習手段の出力する特徴ベクトルの次元を所定の演算により変換する線形写像手段と、を備え、
前記深層学習手段および前記線形写像手段による演算のうちの少なくとも１つの演算で取り扱う前記特徴ベクトルの次元を圧縮することにより前記音響モデルを学習し、
前記深層学習手段は、前記特徴ベクトルの次元の圧縮を行うために、
前記多層構造の第１層および最終層を除く所定の１層において時間方向の情報を記憶するベクトルの次元数が、前記第１層および前記最終層において時間方向の情報を記憶するベクトルの次元数よりも小さく設定された状態で、前記入力される音声の特徴量から文字を予測することを特徴とする音響モデル学習装置。
請求項１に記載の音響モデル学習装置において、
前記線形写像手段は、
前記深層学習手段の最終層の出力する特徴ベクトルの次元数をＤ_L、前記線形写像手段の出力するベクトルの次元数をＤ_Aとして、
前記深層学習手段の最終層の出力する特徴ベクトルに対して、前記変換行列を適用することに代えて、前記変換行列を次の式
Ｄ_L×Ｄ_A ＞Ｄ_L×r＋r×Ｄ_A … 式（１）
を満たすランクrで行列分解して得られる２つの行列を順次適用して前記特徴ベクトルの次元の圧縮を行うことを特徴とする音響モデル学習装置。
コンピュータを、請求項１または請求項２に記載の音響モデル学習装置として機能させるための音響モデル学習プログラム。