JP6718787B2

JP6718787B2 - 日本語音声認識モデル学習装置及びプログラム

Info

Publication number: JP6718787B2
Application number: JP2016204175A
Authority: JP
Inventors: 伊藤　均; 均伊藤; 庄衛佐藤; 彰夫小林
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2016-10-18
Filing date: 2016-10-18
Publication date: 2020-07-08
Anticipated expiration: 2036-10-18
Also published as: JP2018066800A

Description

本発明は、日本語音声認識モデル学習装置及びそのプログラムに関するものである。

従来、音声認識を行うためのモデルの学習には、大別して次の（１）〜（３）のような多くのプロセスが必要であった。
（１）音声を、その音響特徴量をベクトルの成分として持つ特徴ベクトルへ変換する。
（２）この特徴ベクトルを各単語に対して人手で割りつけた音素へ変換するような音響モデルを学習する。
（３）音素列を、意味のある単語へ変換するような言語モデルを学習する。

このうち、従来（２）のプロセスは、入力音声の系列長の変化に強いＨＭＭ（Hidden Markov model）が用いられ、近年では、ＤＮＮ（Deep Neural Network）によって学習を行うことで高精度な音響モデルを生成してきた。

そして、このようなモデル学習の複雑さを解消するための技術として、ＣＴＣ（Connectionist Temporal Classification)（非特許文献１参照）とＤＮＮとを用いた音響モデル学習法がある。これは、音声と、音素又は文字などのラベルと、の対応付けを直接学習する仕組みであり、入力音声の系列長の変化に強く、事前のＨＭＭによる学習に置き換えて、全ての処理を一括で行う（Ｅｎｄ−ｔｏ−Ｅｎｄ）音響モデルの学習が可能とされている。特に、ＣＴＣとＲＮＮ（Recurrent Neural Network）とを用いた音響モデル学習法は様々な手法が紹介されており、多量のデータを用いることにより、特徴ベクトルを入力として文字（文字ラベル）を直接出力する学習法も提案されている（非特許文献２、３参照）。

Graves, A., et al., "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML '06 Proceedings of the 23rd international conference on Machine learning Pages 369-376 (2006) Miao, Y., et al., " EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING" 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) Pages 167-174 (2015) Hannun, A., et al., " Deep Speech: Scaling up end-to-end speech recognition" Cornell University Library arXiv:1412.5567, 19 Dec 2014

しかし、これら音響モデルを学習するプロセスにおいて、ＤＮＮの出力を文字とする先行研究の多くは、英語音声認識を対象としており、日本語を扱う上では幾つかの問題がある。第一に、ＤＮＮの出力文字として推測すべき候補の個数が圧倒的に多くなってしまうことが挙げられる。英語を構成する文字は、多くとも１００ラベル程度で分類可能である。つまり、推測すべきラベルは、具体的には、アルファベットの文字（letters）、０から９までのアラビア数字（digits）、ピリオド、コンマ、クエスチョンマーク等の句読点（punctuation marks）等である。それに対して、日本語を構成する文字は、平仮名、カタカナ、アルファベット、漢字、句読点等２０００以上存在する。つまり、推測すべきラベルが２０００以上存在する。

そして第二に、アルファベットは表音文字であるのに対して、漢字が表意文字であるために生じる問題が挙げられる。具体的には、漢字等の表意文字の場合、一つの文字に対して、例えば音読み、訓読みのように複数の読みが存在するために、日本語の文字は英語の文字よりも適用が難しくなる。なお、日本語同様に表意文字を用いる中国語は、漢字の数は日本語よりも多いものの、一つの漢字で複数の読みを有する漢字の数は日本語と比べて圧倒的に少ないので、中国語の文字は日本語の文字ほど適用が難しくなることはない。

また、日本語において、例えば「生」という文字を用いた単語として、「生まれ」、「生い立ち」、「生放送」の３つの単語に着目すると、「生」という文字と、その前後の文字との関係によって「生」という文字の読みが異なることが分かる。更に、ある文字について珍しい読み方をする単語がより多く含まれるような学習データほど、音響モデルの学習をより難しくする。

そもそも、上記した「生まれ」、「生い立ち」、「生放送」といった単語であっても、ＤＮＮの出力を音素とする場合には、人手で構築した発音辞書において、単語ごとに音素列を予め定めているため、音声認識が比較的容易である。一方、ＤＮＮの出力を文字とする場合、すなわち、音素等の中間表現を用いないエンドツーエンド（Ｅｎｄ−ｔｏ−Ｅｎｄ）の音響モデル学習の場合、ＤＮＮの出力を音素とする場合に比べて、音声認識の認識結果（単語）を正しく表示することは難しいのが現状である。

具体的には、ＤＮＮの出力として、漢字等の複数読みを有する表意文字（以下、異発音表意文字という）を含むラベルを直接出力する場合、ラベル数が膨大になるため、日本語の音響モデル学習は、英語の音響モデル学習よりも複雑になってしまう。さらに、この膨大なラベル数に加え、各ラベルの読み方が複数存在することにより音声認識率を向上させることが難しかった。

本発明は、以上のような問題点に鑑みてなされたものであり、日本語の音響モデル学習を簡素化することのできる日本語音声認識モデル学習装置及びプログラムを提供することを課題とする。

前記課題を解決するために、本発明に係る日本語音声認識モデル学習装置は、入力される音声又は音響特徴量に対応した正解として推定される文字のラベルを出力するエンドツーエンドの音響モデルを生成する日本語音声認識モデル学習装置であって、日本語の音響モデル作成用の学習データにおける音声又は音響特徴量とテキストとのペア、１文字単位のラベル、及び少なくとも１文字の漢字を含む文字列単位のラベルとを用いる学習により前記音響モデルを生成する音響モデル学習手段と、前記学習データにおけるテキストと、前記１文字単位のラベルと、前記文字列単位のラベルとを用いる学習により、前記１文字単位のラベルと前記文字列単位のラベルとを単語列に変換する言語モデルを生成する言語モデル学習手段と、前記学習データにおけるテキストから、前記１文字単位のラベルと前記文字列単位のラベルを生成するラベル生成手段と、を備え、前記ラベル生成手段が、形態素分割手段と、出現頻度リスト作成手段と、ラベル選定手段と、を備えることとした。

かる構成によれば、日本語音声認識モデル学習装置において、ラベル生成手段は、形態素分割手段によって、前記学習データのテキストを形態素に分割し、そのそれぞれについて読みを付与する。
そして、ラベル生成手段は、出現頻度リスト作成手段によって、少なくとも１文字の漢字を含む文字列からなる形態素について前記学習データ内での出現頻度を表す出現頻度リストを作成する。
そして、ラベル生成手段は、ラベル選定手段によって、前記学習データ内で出現頻度が予め定められた基準より高い前記形態素、又は、前記学習データ内で漢字の特定の読みの出現頻度が予め定められた基準より低い前記形態素を検出し、検出した前記形態素を表す文字列を構成する少なくとも一部の文字列を、前記文字列単位のラベルとして選定する。

また、本発明は、コンピュータを、前記日本語音声認識モデル学習装置として機能させるための日本語音声認識モデル学習プログラムで実現することもできる。

本発明は、以下に示す優れた効果を奏するものである。
本発明に係る日本語音声認識モデル学習装置によれば、１文字単位のラベルと、漢字を含む文字列単位のラベルと、を併用することで、音声とラベルとの対応付けが可能となり、日本語の音響モデル学習を簡素化することができる。
また、読みの多様性に対応するためには多くの学習データが必要であるが、本発明に係る日本語音声認識モデル学習装置によれば、文字列単位のラベルを用いることで、ラベルの読みを一意に確定することができる。そのため、音声認識精度が向上し、特に、少量のデータにおいて音声認識精度を保つ効果を奏する。

本発明の第１実施形態に係る日本語音声認識モデル学習装置を含む音声認識システムを模式的に示すブロック図である。第１実施形態に係る日本語音声認識モデル学習装置が生成するラベルの概念図であって、（ａ）は１文字単位のラベル、（ｂ）は追加された文字列単位のラベルをそれぞれ示している。第１実施形態に係る日本語音声認識モデル学習装置のラベル生成手段の構成を模式的に示すブロック図である。第１実施形態に係る日本語音声認識モデル学習装置による文字列単位のラベルの生成処理の流れを示すフローチャートである。第２実施形態に係る日本語音声認識モデル学習装置のラベル生成手段の構成を模式的に示すブロック図である。第２実施形態に係る日本語音声認識モデル学習装置が生成するラベルの説明図であって、（ａ）は形態素リストの一例、（ｂ）はラベルの一例をそれぞれ示している。第２実施形態に係る日本語音声認識モデル学習装置による文字列単位のラベルの生成処理の流れを示すフローチャートである。第３実施形態に係る日本語音声認識モデル学習装置のラベル生成手段の構成を模式的に示すブロック図である。第３実施形態に係る日本語音声認識モデル学習装置が生成するラベルの説明図であって、（ａ）は形態素リストの一例、（ｂ）は単独漢字リストの一例、（ｃ）はラベルの一例をそれぞれ示している。第３実施形態に係る日本語音声認識モデル学習装置による文字列単位のラベルの生成処理の流れを示すフローチャートである。学習時の追加ラベル数に関する音声認識実験の結果を示すグラフ（その１）である。学習時の追加ラベル数に関する音声認識実験の結果を示すグラフ（その２）である。学習データ量に関する音声認識実験の結果を示すグラフ（その１）である。学習データ量に関する音声認識実験の結果を示すグラフ（その２）である。

以下、本発明の実施形態に係る日本語音声認識モデル学習装置について、図面を参照しながら説明する。
（第１実施形態）
図1に示す音声認識システムＳは、音声認識手段１０と、日本語音声認識モデル学習装置２と、を備えている。

［音声認識手段の構成］
音声認識手段１０は、入力された音声（評価用音声）を、人が発話した発話区間ごとに音声認識するものである。この音声認識手段１０は、認識結果である単語列を図示しない表示装置等に出力する。ここでは、音声認識手段１０は、ラベル列生成手段１１と、単語列生成手段１２と、を備えている。

ラベル列生成手段１１は、入力された音声を、特徴量（特徴ベクトル）に変換し、この特徴量を音響モデル記憶手段６に記憶されている音響モデルを用いて、順次、ラベルに変換することでラベル列を生成する。
単語列生成手段１２は、言語モデル記憶手段７に記憶されている言語モデルを用いて、ラベル列生成手段１１により生成されたラベル列を、順次、単語に変換することで単語列を生成する。

［日本語音声認識モデル学習装置の構成］
日本語音声認識モデル学習装置２は、入力される音声（学習用音声）に対応した正解として推定される文字のラベルを出力するエンドツーエンドの音響モデルを生成する装置である。以下では、日本語の音響モデル作成用の学習データ１を、音声１ａとテキスト１ｂとのペアとして説明する。音声１ａ及びテキスト１ｂは、日本語の大量の音声データ及び大量のテキストを表している。例えば、音声１ａとして、事前学習用の放送番組の番組音声を用い、テキスト１ｂとして、その番組音声の内容の厳密な書き起こし、又は、それに準ずるものを用いることができる。

ここでは、日本語音声認識モデル学習装置２は、音響モデル学習手段４と、言語モデル学習手段５と、音響モデル記憶手段６と、言語モデル記憶手段７と、ラベル生成手段２０と、を備えている。

音響モデル学習手段４は、日本語の音響モデル作成用の学習データ１における音声１ａとテキスト１ｂとのペア、１文字単位のラベル、及び文字列単位のラベルを用いる学習により、音声認識に用いる音響モデルを生成するものである。文字列単位のラベルとは、音響モデルの出力に用いるラベルであって、少なくとも１文字の漢字を含んでいる。文字列単位のラベルは、複数の文字から構成されるが一まとまりに扱われるラベルである。音響モデル学習手段４は、非特許文献２に記載されたような文字のシーケンスを特定するＥｎｄ−ｔｏ−Ｅｎｄの音響モデルの全てに適用可能なものである。

この音響モデルは、大量の音声データから予め抽出した音響特徴量（メル周波数ケプストラム係数、フィルタバンク出力等）を、設定したラベルごとにディープニューラルネットワーク（Deep Neural Network）とコネクショニスト時系列分類法（ＣＴＣ：Connectionist Temporal Classification）等によってモデル化したものである。なお、音響モデルによる音響特徴量の尤度計算は、出力が漢字を含む書記素であれば再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network)であっても、長・短期記憶（ＬＳＴＭ：Long Short Term Memory）であっても構わない。

言語モデル学習手段５は、学習データ１におけるテキスト１ｂ、１文字単位のラベル、及び文字列単位のラベルを用いる学習により、１文字単位のラベルと文字列単位のラベルとを単語列に変換する言語モデルを生成するものである。この言語モデル学習手段５は、評価用音声を音声認識手段１０のラベル列生成手段１１に入力して得られた表意文字を含むラベル列を言語モデル学習手段５の入力として、前後の単語の関係から単語列を推定し、推定結果である単語列を出力するものであれば、特に限定されない。この言語モデルは、大量のテキストから予め学習した出力系列（単語等）の出現確率等をモデル化したものである。この言語モデルには、例えば、一般的なＮグラム言語モデルを用いることができる。

音響モデル記憶手段６は、音響モデル学習手段４が学習により生成した音響モデルを記憶するもので、ハードディスク等の一般的な記憶媒体である。
言語モデル記憶手段７は、言語モデル学習手段５が学習により生成した言語モデルを記憶するものであって、ハードディスク等の一般的な記憶媒体である。

ラベル生成手段２０は、学習データ１におけるテキスト１ｂから、文字列単位のラベルを生成するものである。ここでは、ラベル生成手段２０は、学習データ１におけるテキスト１ｂから、１文字単位のラベルも生成し、文字列単位のラベルを後から音響モデルの出力に追加することとした。１文字単位のラベルは、図２（ａ）の概念図に示すように、平仮名、カタカナ、漢字等を含んでいる。図２（ｂ）の概念図は、符号３ａで示す文字列単位のラベルが追加された状態を示している。

本実施形態では、ラベル生成手段２０は、図３に示すように、形態素分割手段２１と、基本ラベル作成手段２２と、出現頻度リスト作成手段２３と、ラベル選定手段２４と、を備えている。

形態素分割手段２１は、学習データのテキスト１ｂを形態素に分割し、そのそれぞれについて読みを付与するものである。なお、形態素分割手段２１としては、例えば日本語形態素解析のための一般的なソフトウェア（例えばMeCabやChaSen）を用いることができる。

基本ラベル作成手段２２は、学習データ１のテキスト１ｂに出現するラベルを一文字単位で作成するものである。ラベル生成手段２０において生成されたラベル３は、例えば日本語音声認識モデル学習装置２が備える記憶手段８に格納され、音響モデル学習手段４や言語モデル学習手段５により参照される。なお、基本ラベル作成手段２２が作成するラベルを、ラベル選定手段２４で選定するラベルと区別する場合、１文字単位のラベルと呼称する。

出現頻度リスト作成手段２３は、漢字を含む文字列からなる形態素について学習データ１内での出現頻度を表す出現頻度リストＪを作成するものである。なお、出現頻度リスト作成手段２３としては、例えば日本語形態素解析のための一般的なソフトウェアを用いることができる。

ラベル選定手段２４は、漢字を含む文字列からなる形態素についての学習データ１内の出現頻度に基づいて文字列単位のラベルを選定するものである。
本実施形態では、ラベル選定手段２４は、学習データ１内で出現頻度が予め定められた基準より高い形態素を検出し、検出した形態素を表す文字列を構成する少なくとも一部の文字列を、文字列単位のラベルとして選定することとした。
このために、ここでは、ラベル生成手段２０は、ラベル選定制御手段２４１と、出現頻度判定手段２４２と、ラベル決定手段２４３と、を備えている。

ラベル選定制御手段２４１は、このラベル選定手段２４全体の制御を司り、ここでは、出現頻度リストＪから、文字列単位のラベルの候補である形態素の選択を行う。このラベル選定制御手段２４１は、学習データ１におけるテキスト１ｂが分割された形態素区間毎に、形態素区間に対応した形態素を選択する。なお、形態素区間の任意の識別番号をｊ（＝１，２，…）と表記する。

出現頻度判定手段２４２は、出現頻度リストＪ内の形態素が、出現頻度リストＪの出現頻度の上位ｋ種類の形態素集合ｌ（ｌ∈Ｊ）に含まれるか否かを判定するものである。この出現頻度判定手段２４２は、判定前に、出現頻度リストＪから出現頻度の高い予め定められた個数（ｋ個）の異なる形態素からなる形態素集合ｌを作成する。また、出現頻度判定手段２４２は、形態素区間ｊに対応した形態素が形態素集合ｌに含まれるか否かを形態素区間毎に判定する。

ラベル決定手段２４３は、形態素集合ｌに含まれると判定された形態素を表す文字列を、文字列単位のラベルとして決定するものである。すなわち、本実施形態では、学習データ１のテキスト１ｂから作成された出現頻度リストＪにおいて高頻度に出現する漢字の形態素を新たに出力ラベルとして追加する。以下では、この手法を高頻度形態素追加手法と呼称する。

［文字列単位のラベルの生成処理の流れ］
第１実施形態に係る日本語音声認識モデル学習装置２による文字列単位のラベルの生成処理の流れについて図４を参照して説明する。
まず、日本語音声認識モデル学習装置２のラベル生成手段２０は、形態素分割手段２１によって、学習データ１のテキスト１ｂを形態素に分割する（ステップＳ１０１）。
そして、ラベル生成手段２０は、出現頻度リスト作成手段２３によって、テキスト１ｂ内での出現頻度を求め、形態素ごとの重複のないような出現頻度リストＪを求める（ステップＳ１０２）。

上記の前処理に続いて、ラベル生成手段２０は、ラベル選定手段２４のラベル選定制御手段２４１によって、形態素区間の初期値（ｊ＝１）を設定し（ステップＳ１０３）、ｊ番目の形態素を選択する（ステップＳ１０４）。そして、ラベル選定手段２４の出現頻度判定手段２４２は、選択されたｊ番目の形態素が出現頻度の上位に含まれるか否かを判定する（ステップＳ１０５）。選択されたｊ番目の形態素が出現頻度の上位に含まれる場合（ステップＳ１０５：Ｙｅｓ）、ラベル選定手段２４のラベル決定手段２４３は、ｊ番目の形態素を文字列単位のラベルj_addとして追加する（ステップＳ１０６）。

一方、選択されたｊ番目の形態素が出現頻度の上位に含まれない場合（ステップＳ１０５：Ｎｏ）、ステップＳ１０６をスキップして、ラベル選定制御手段２４１は、全形態素区間を選択したか否かを判定する（ステップＳ１０７）。未選択の形態素区間がある場合（ステップＳ１０７：Ｎｏ）、ラベル選定制御手段２４１は、形態素区間の値（ｊ）に「１」を加算し（ステップＳ１０８）、ステップＳ１０４に戻る。一方、全形態素区間を選択した場合（ステップＳ１０７：Ｙｅｓ）、ラベル生成手段２０は処理を終了する。

本実施形態によれば、１文字単位のラベルに加えて、漢字を含む文字列単位のラベルを用いることで、読みの多様性により１文字単位のラベルだけでは上手く分離出来なかった、音声とラベルとの対応付けが可能となり、日本語の音響モデル学習を簡素化することができる。また、文字列単位のラベルを用いることで、ラベルの読みを一意に確定することができるため、音声認識精度が向上し、特に、少量のデータにおいて音声認識精度を保つ効果を奏する。

本発明においてラベル追加手法は、高頻度形態素追加手法に限るものではなく、学習データ１のテキスト１ｂ中で頻度の低い読み方をする文字を含む形態素を出力ラベルとして追加することも可能である。以下では、この手法を低頻度読み形態素追加手法と呼称する。低頻度読み形態素追加手法の１つとして、形態素の頭文字の読みのうち、最初の一字のみに着目する手法について第２実施形態として説明する。

（第２実施形態）
図５は、第２実施形態に係る日本語音声認識モデル学習装置のラベル生成手段の構成を模式的に示すブロック図である。なお、第２実施形態に係る日本語音声認識モデル学習装置は、ラベル生成手段２０Ａの構成が第１実施形態とは異なるので、その全体構成の図面を省略する。また、図５に示すラベル生成手段２０Ａにおいて、図３に示すラベル生成手段２０と同一の構成には同一の符号を付して説明を適宜省略する。

ラベル生成手段２０Ａは、図５に示すように、形態素分割手段２１と、基本ラベル作成手段２２と、出現頻度リスト作成手段２３と、出現漢字リスト作成手段２５と、形態素リスト作成手段２６と、読みリスト作成手段２７と、ラベル選定手段２４Ａと、を備えている。

出現漢字リスト作成手段２５は、出現頻度リストＪの中に含まれる形態素のうち、漢字について１文字単位で重複のないリストである出現漢字リストＳを作成するものである。
形態素リスト作成手段２６は、出現漢字リストＳに基づいて、注目する漢字ｓ毎に、当該漢字ｓを先頭の文字に含む形態素のリストである形態素リストＨ_sを作成するものである。
なお、出現漢字リスト作成手段２５や形態素リスト作成手段２６としては、例えば日本語形態素解析のための一般的なソフトウェアを用いることができる。

例えば、注目する漢字ｓが「生」の場合に、形態素リスト作成手段２６が作成する形態素リストＨ_sの一例を図６（ａ）に示す。

読みリスト作成手段２７は、注目する漢字ｓを先頭の文字に含む形態素リストＨ_sに出現する形態素ｈ_s毎（形態素リストＨ_s内の形態素区間ｈ_s毎）に、形態素ｈ_sを、当該形態素ｈ_s全体の読みにおける頭文字の読みｈ^r _s毎に設けた読みリストＬ^r _s,hのいずれかへ格納するものである。なお、形態素ｈ_s全体の読み（単語レベルの読み）は形態素分割手段２１で付与されている。
図６（ａ）に示す例では、上から４個目までの形態素では、全体の読みにおける頭文字の読みは「せ」であり、上から５個目の形態素では、全体の読みにおける頭文字の読みは「し」であり、上から６個目の形態素では、全体の読みにおける頭文字の読みは「き」である。
よって、この場合、読みリスト作成手段２７は、「生物」、「生徒」、「生活」、「生息」の読みにおける頭文字の読みである「せ」に対応した読みリストＬ^r _s,hへ格納する。
また、読みリスト作成手段２７は、「生涯」を、読み「しょうがい」における頭文字の読みである「し」に対応した読みリストＬ^r _s,hへ格納する。
さらに、読みリスト作成手段２７は、「生糸」を、読み「きいと」における頭文字の読みである「き」に対応した読みリストＬ^r _s,hへ格納する。

ラベル選定手段２４Ａは、ラベル選定制御手段２４１と、閾値判定手段２４４と、ラベル決定手段２４３Ａと、を備えている。

閾値判定手段２４４は、ｈ^r _s毎に設けた読みリストＬ^r _s,hごとに、読みリストＬ^r _s,hに格納されている形態素の個数Ｌ^r,c _s,hを、形態素リストＨ_sに格納されている全形態素ｈ_sの個数Num_s,hで除した値を所定の閾値ｎと比較するものである。この閾値判定手段２４４は、次の式（１）を満たすか否かを読み毎にそれぞれ判定する。

具体的には、図６（ａ）に示す例では、漢字「生」における頭文字の読みである「せ」に対応した読みリストＬ^r _s,hに格納されている形態素の個数Ｌ^r,c _s,hは「３」である。
また、漢字「生」における頭文字の読みである「し」に対応した読みリストＬ^r _s,hに格納されている形態素の個数Ｌ^r,c _s,hは「１」である。
また、漢字「生」における頭文字の読みである「き」に対応した読みリストＬ^r _s,hに格納されている形態素の個数Ｌ^r,c _s,hは「１」である。
さらに、注目する漢字ｓが「生」の場合に形態素リストＨ_sに格納されている全形態素ｈ_sの個数Num_s,hは「６」である。

ここで、所定の閾値ｎが例えば０．２である場合についての判定結果を説明する。
漢字「生」における頭文字の読みである「せ」に対応した読みリストＬ^r _s,hに関しては３／６＞０．２であるので、閾値ｎより大きいと判定する。
漢字「生」における頭文字の読みである「し」に対応した読みリストＬ^r _s,hに関しては１／６＜０．２であるので、閾値ｎより小さいと判定する。
漢字「生」における頭文字の読みである「き」に対応した読みリストＬ^r _s,hに関しては１／６＜０．２であるので、閾値ｎより小さいと判定する。

ラベル決定手段２４３Ａは、閾値ｎより小さいと判定された読みリストＬ^r _s,hに格納されている形態素ｈ_sを表す文字列を、文字列単位のラベルとして決定するものである。
具体的には、図６（ａ）に示す例では、漢字「生」における頭文字の読み「し」が閾値ｎによって珍しいと判定されたので、漢字「生」における頭文字の読み「し」に対応した読みリストＬ^r _s,hに格納されている形態素である「生涯」が、追加すべき文字列単位のラベル（図６（ｂ）の符号３ｂ）として決定される。
同様に、漢字「生」における頭文字の読み「き」も珍しいので、漢字「生」における頭文字の読み「き」に対応した読みリストＬ^r _s,hに格納されている形態素である「生糸」が、追加ラベル（図６（ｂ）の符号３ｂ）として決定される。

［文字列単位のラベルの生成処理の流れ］
第２実施形態に係る日本語音声認識モデル学習装置２による文字列単位のラベルの生成処理の流れについて図７を参照して説明する。なお、図７に示すステップＳ１０１，Ｓ１０２の処理は、図４に示す処理と同一の処理なので、説明を省略する。
ステップＳ１０２に続いて、ラベル生成手段２０Ａは、出現漢字リスト作成手段２５によって、出現頻度リストＪの中に含まれる漢字について、１文字単位で重複のない出現漢字リストＳを作成する（ステップＳ２０３）。そして、ラベル選定手段２４Ａのラベル選定制御手段２４１は、漢字区間の初期値（ｓ＝１）を設定し（ステップＳ２０４）、出現漢字リストＳからｓ番目の漢字を選択する（ステップＳ２０５）。そして、ラベル生成手段２０Ａは、形態素リスト作成手段２６によって、ｓ番目の漢字を、漢字文字列の頭文字に持つ形態素からなる形態素リストＨ_sを作成する（ステップＳ２０６）。

上記の前処理に続いて、ラベル生成手段２０Ａは、ラベル選定手段２４Ａのラベル選定制御手段２４１によって、形態素区間の初期値（ｈ_s＝１）を設定し（ステップＳ２０７）、形態素リストＨ_sからｈ_s番目の形態素を選択する（ステップＳ２０８）。続いて、ラベル生成手段２０Ａは、読みリスト作成手段２７によって、当該形態素ｈ_s全体の読みにおける頭文字の読みｈ^r _sに応じて分類された読みリストＬ^r _s,hに、ｈ_s番目の形態素を格納する（ステップＳ２０９）。

そして、ラベル選定手段２４Ａのラベル選定制御手段２４１は、全形態素区間を選択したか否かを判定する（ステップＳ２１０）。未選択の形態素区間がある場合（ステップＳ２１０：Ｎｏ）、ラベル選定制御手段２４１は、形態素区間の値（ｈ_s）に「１」を加算し（ステップＳ２１１）、ステップＳ２０８に戻る。

一方、全形態素区間を選択した場合（ステップＳ２１０：Ｙｅｓ）、ラベル生成手段２０Ａは、閾値判定手段２４４によって、ｓ番目の漢字の読みにおける頭文字の読み、すなわちｓ番目の漢字を語頭にもつ形態素ｈ_s全体の読みにおける頭文字の読みｈ^r _sごとに分類された読みリストＬ^r _s,h内の形態素の数Ｌ^r,c _s,hを数え上げ、前記した式（１）を満たすか否かを読み毎にそれぞれ判定する（ステップＳ２１２）。読みリストＬ^r _s,hが前記した式（１）を満たす場合（ステップＳ２１２：Ｙｅｓ）、ラベル選定手段２４Ａのラベル決定手段２４３Ａは、当該読みリストＬ^r _s,h中の形態素を文字列単位のラベルj_addとして追加する（ステップＳ２１３）。

一方、読みリストＬ^r _s,hが前記した式（１）を満たない場合（ステップＳ２１２：Ｎｏ）、ステップＳ２１３をスキップして、ラベル選定制御手段２４１は、全漢字区間を選択したか否かを判定する（ステップＳ２１４）。未選択の漢字区間がある場合（ステップＳ２１４：Ｎｏ）、ラベル選定制御手段２４１は、漢字区間の値（ｓ）に「１」を加算し（ステップＳ２１５）、ステップＳ２０５に戻る。一方、全漢字区間を選択した場合（ステップＳ２１４：Ｙｅｓ）、ラベル決定手段２４３Ａは、文字列単位のラベルｊ_addに重複がないように整理して音響モデルの出力ラベルに追加し（ステップＳ２１６）、処理を終了する。

本実施形態によれば、第１実施形態と同様に、日本語の音響モデル学習を簡素化することができる。また、音声認識精度が向上し、特に、少量のデータにおいて音声認識精度を保つ効果を奏する。

本発明において、ラベル追加手法としての低頻度読み形態素追加手法は、形態素の頭文字の読みのみに着目する手法に限るものではない。以下では、形態素を構成する全ての文字の読みに着目する手法について第３実施形態として説明する。

（第３実施形態）
図８は、第３実施形態に係る日本語音声認識モデル学習装置のラベル生成手段の構成を模式的に示すブロック図である。なお、第３実施形態に係る日本語音声認識モデル学習装置は、ラベル生成手段２０Ｂの構成が第１実施形態とは異なるので、その全体構成の図面を省略する。また、図８に示すラベル生成手段２０Ｂにおいて、図５に示すラベル生成手段２０Ａと同一の構成には同一の符号を付して説明を適宜省略する。

ラベル生成手段２０Ｂは、図８に示すように、形態素分割手段２１と、基本ラベル作成手段２２と、出現頻度リスト作成手段２３と、出現漢字リスト作成手段２５と、形態素リスト作成手段２６Ｂと、編集距離算出手段２８と、読み区切り推定手段２９と、読みリスト作成手段２７Ｂと、ラベル選定手段２４Ｂと、を備えている。

形態素リスト作成手段２６Ｂは、出現漢字リストＳに基づいて、注目する漢字ｓ毎に、当該漢字ｓを含む形態素のリストである形態素リストＪ_sを作成すると共に、注目する漢字ｓ毎の形態素リストＪ_sに出現する各形態素ｊ_s（形態素リストＪ_s内の各形態素区間ｊ_s）に含まれる全ての漢字の一文字単独での全ての読みｊⁱ _xのリストである単独漢字リストを作成するものである。

例えば、注目する漢字ｓが「生」の場合に、形態素リスト作成手段２６Ｂが作成する形態素リストＪ_sの一例を図９（ａ）に示す。注目する漢字である「生」は、必ずしも先頭の文字である必要はない。
また、図９（ｂ）に示す単独漢字リストの例は、図９（ａ）に示す漢字「生」を含む形態素リストＪ_sに出現する漢字ｘについて、それぞれの漢字ｘの一文字単独での全ての読みｊⁱ _xを付与して作成したものである。

編集距離算出手段２８は、注目する漢字ｓ毎の形態素リストＪ_sに出現する形態素ｊ_s毎に、単独漢字リストを参照して、形態素ｊ_sを構成する各漢字に単独の読みを付与したときに対応付けられる全ての組み合わせを、形態素分割手段２１で付与された形態素ｊ_s全体の読みｊ^r _sと比較して編集距離Ｄ_xを算出するものである。
ここで、各漢字の組み合わせの読みと、形態素全体の読みとの編集距離Ｄ_xは、一方の読みから、挿入、削除、置換といった操作を行なうことによって、他方の読みに編集する際に、必要とされる操作の最小回数である。編集距離算出手段２８は、これら削除・挿入・置換誤り文字数を求めることで編集距離Ｄ_xを算出する。

読み区切り推定手段２９は、編集距離Ｄ_xが最小となる漢字の組み合わせｊⁱ _s,xを求め、当該形態素ｊ_sにおいて注目する漢字ｓの単独の読みの区切りｊ^r _s,sを推定するものである。
図９（ａ）に示す「生物」の全体の読みｊ^r _sは、形態素分割手段２１で「せいぶつ」のように付与されている。しかしながら、形態素分割手段２１は、単語レベルの読みを付与するものであって、シンボル「生物」において、シンボル「生」の読みが、「せ」なのか、「せい」なのかということについては、情報が無い。そこで、読み区切り推定手段２９は、上記した合計８個の組み合わせについてのそれぞれの編集距離Ｄ_xに基づいて、シンボル「生物」においてシンボル「生」の読みが「せい」である確率が高いことを判定し、シンボル「生物」において、注目する漢字ｓである「生」の単独の読みの区切りｊ^r _s,sを推定する。

なお、図９（ａ）に示す「生物」を一例とすると、「生」及び「物」に、単独の読みをそれぞれ付与したときに対応付けられる全ての組み合わせｊⁱ _s,xとは、図９（ｂ）に示す読みを組み合わせることで得られる。具体的には、「せい−もの」、「せい−ぶつ」、「しょう−もの」、「しょう−ぶつ」、「き−もの」、「き−ぶつ」、「なま−もの」、「なま−ぶつ」の合計８個の組み合わせである。

読みリスト作成手段２７Ｂは、単独漢字リストを参照して、形態素ｊ_sにおいて注目する漢字ｓに対して推定された読みの区切りｊ^r _s,sが、注目する漢字ｓの一文字単独での全ての読みｊⁱ _xのいずれであるのかを判定し、判定された読みに応じて、形態素ｊ_sを注目する漢字ｓの読みｊⁱ _sごとに分類した読みリストＬ^r _sへ格納するものである。

図９（ａ）に示す例では、上から４個目までの「生」の読みは「せい」であり、上から５個目の「生」の読みは「しょう」であり、上から６個目の「生」の読みは「じょう」である。
よって、この場合、読みリスト作成手段２７Ｂは、「生物」、「生徒」、「半生」、「人生」を、漢字「生」の読み「せい」に対応した読みリストＬ^r _sへ格納する。
また、読みリスト作成手段２７Ｂは、「生涯」を、漢字「生」の読み「しょう」に対応した読みリストＬ^r _sへ格納する。
さらに、読みリスト作成手段２７Ｂは、「誕生」を、漢字「生」の読み「じょう」に対応した読みリストＬ^r _sへ格納する。

ラベル選定手段２４Ｂは、ラベル選定制御手段２４１と、閾値判定手段２４４Ｂと、ラベル決定手段２４３Ｂと、を備えている。

閾値判定手段２４４Ｂは、注目する漢字ｓの読みｊⁱ _sごとに分類した読みリストＬ^r _sごとに、読みリストＬ^r _sに格納されている全形態素ｊ_sの個数Ｌ^r,c _sを、注目する漢字ｓ毎の形態素リストＪ_sに格納されている全形態素ｊ_sの個数Num_sで除した値を所定の閾値ｎ′と比較するものである。この閾値判定手段２４４Ｂは、次の式（２）を満たすか否かを読み毎にそれぞれ判定する。

具体的には、図９（ａ）に示す例では、漢字「生」の読み「せい」に対応した読みリストＬ^r _sに格納されている形態素の個数Ｌ^r,c _sは「３」である。
また、漢字「生」の読み「しょう」に対応した読みリストＬ^r _sに格納されている形態素の個数Ｌ^r,c _sは「１」である。
また、漢字「生」の読み「じょう」に対応した読みリストＬ^r _sに格納されている形態素の個数Ｌ^r,c _sは「１」である。
さらに、注目する漢字ｓが「生」の場合に形態素リストＪ_sに格納されている全形態素ｊ_sの個数Num_sは「６」である。

ここで、所定の閾値ｎ′が例えば０．２である場合についての判定結果を説明する。
漢字「生」の読み「せい」に対応した読みリストＬ^r _sに関しては３／６＞０．２であるので、閾値ｎ′より大きいと判定する。
漢字「生」の読み「しょう」に対応した読みリストＬ^r _sに関しては１／６＜０．２であるので、閾値ｎ′より小さいと判定する。
漢字「生」の読み「じょう」に対応した読みリストＬ^r _sに関しては１／６＜０．２であるので、閾値ｎ′より小さいと判定する。

ラベル決定手段２４３Ｂは、閾値ｎ′より小さいと判定された読みリストＬ^r _sに格納されている形態素ｊ_sを表す文字列を、文字列単位のラベルとして決定するものである。
具体的には、図９（ａ）に示す例では、漢字「生」の読み「しょう」が閾値ｎ′によって珍しいと判定されたので、漢字「生」の読み「しょう」に対応した読みリストＬ^r _sに格納されている形態素である「生涯」が、追加すべき文字列単位のラベル（図９（ｃ）の符号３ｃ）として決定される。
同様に、漢字「生」の読み「じょう」も珍しいので、漢字「生」の読み「じょう」に対応した読みリストＬ^r _sに格納されている形態素である「誕生」が、追加ラベル（図９（ｃ）の符号３ｃ）として決定される。

［文字列単位のラベルの生成処理の流れ］
第３実施形態に係る日本語音声認識モデル学習装置２による文字列単位のラベルの生成処理の流れについて図１０を参照して説明する。なお、図１０に示すステップＳ１０１，Ｓ１０２の処理は、図４に示す処理と同一の処理であり、ステップＳ２０３〜Ｓ２０５の処理は、図７に示す処理と同一の処理なので、説明を省略する。
ステップＳ２０５に続いて、ラベル生成手段２０Ｂは、形態素リスト作成手段２６Ｂによって、ｓ番目の漢字を含む形態素からなる形態素リストＪ_sを作成する（ステップＳ３０６）。

上記の前処理に続いて、ラベル生成手段２０Ｂは、ラベル選定手段２４Ｂのラベル選定制御手段２４１によって、形態素区間の初期値（ｊ_s＝１）を設定し（ステップＳ３０７）、形態素リストＪ_sからｊ_s番目の形態素を選択する（ステップＳ３０８）。続いて、ラベル生成手段２０Ｂは、編集距離算出手段２８及び読み区切り推定手段２９によって、ｊ_s番目の形態素に含まれているｓ番目の漢字の読みを推定し、読みリスト作成手段２７Ｂによって、ｓ番目の漢字の読みのバリエーションｒごとに分類された読みリストＬ^r _sに、このｊ_s番目の形態素を格納する（ステップＳ３０９）。

そして、ラベル選定手段２４Ｂのラベル選定制御手段２４１は、全形態素区間を選択したか否かを判定する（ステップＳ３１０）。未選択の形態素区間がある場合（ステップＳ３１０：Ｎｏ）、ラベル選定制御手段２４１は、形態素区間の値（ｊ_s）に「１」を加算し（ステップＳ３１１）、ステップＳ３０８に戻る。

一方、全形態素区間を選択した場合（ステップＳ３１０：Ｙｅｓ）、ラベル生成手段２０Ｂは、閾値判定手段２４４Ｂによって、ｓ番目の漢字の読みｒごとに分類された読みリストＬ^r _sに格納されている形態素の数Ｌ^r,c _sを数え上げ、前記した式（２）を満たすか否かを読み毎にそれぞれ判定する（ステップＳ３１２）。読みリストＬ^r _sが前記した式（２）を満たす場合（ステップＳ３１２：Ｙｅｓ）、ラベル選定手段２４Ｂのラベル決定手段２４３Ｂは、当該読みリストＬ^r _s中の形態素を文字列単位のラベルj_addとして追加する（ステップＳ３１３）。

一方、読みリストＬ^r _sが前記した式（２）を満たない場合（ステップＳ３１２：Ｎｏ）、ステップＳ３１３をスキップして、ラベル選定制御手段２４１は、全漢字区間を選択したか否かを判定する（ステップＳ３１４）。未選択の漢字区間がある場合（ステップＳ３１４：Ｎｏ）、ラベル選定制御手段２４１は、漢字区間の値（ｓ）に「１」を加算し（ステップＳ３１５）、ステップＳ２０５に戻る。一方、全漢字区間を選択した場合（ステップＳ３１４：Ｙｅｓ）、ラベル決定手段２４３Ｂは、文字列単位のラベルｊ_addに重複がないように整理して音響モデルの出力ラベルに追加し（ステップＳ３１６）、処理を終了する。

本実施形態によれば、第１及び第２実施形態と同様に、日本語の音響モデル学習を簡素化することができる。また、音声認識精度が向上し、特に、少量のデータにおいて音声認識精度を保つ効果を奏する。

以上、本発明の各実施形態について説明したが、本発明はこれらに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、図２（ｂ）、図６（ｂ）及び図９（ｃ）には、２文字からなる文字列でラベルを例示したが、文字列単位のラベルは３文字以上であってもよい。

また、ラベル候補が３文字以上の形態素である場合には、ラベル決定手段２４３が決定するラベルは、その形態素を表す文字列全体であってもよいし、その一部であってもよい。例えば先頭から所定文字数ｐ（例えば２文字）の文字列を、文字列単位のラベルとすると、先頭部分が共通する複数の単語（形態素）についてｐ個の文字を共通の読みとすることで、これら複数の単語について、より少ないラベル数でより多くの単語についての読みを追加することができる。

また、出現頻度リストＪを作成する際に、学習データ１中の全ての形態素を対象としたリストを作成するのではなく、出現頻度が予め定められた閾値Ｎ以下の形態素については、リストアップしないようにしてもよい。
その際に、第１実施形態のように高頻度形態素だけを追加ラベルとする場合には、閾値Ｎを例えば１５０として、学習データ中で１５１回以上出現するような形態素を対象とした出現頻度リストを作成することで、高出現頻度のラベル候補を予め絞ることができる。
また、第２及び第３実施形態のように読みの珍しい形態素だけを追加ラベルとする場合には、閾値Ｎを例えば１５として、学習データ中で１６回以上出現するような形態素を対象とした出現頻度リストを作成することで、１回や２回しか出現しないような極めて希少な多くのラベルを追加する煩雑さを解消し、実用的に必要なラベル候補となるように予めフィルタリングすることができる。

また、音響モデル学習手段４や音声認識手段１０には、音声を入力し、内部で特徴量に変換するのとして説明したが、音声を変換した音響特徴量を入力として用いてもよい。
また、漢字の読みは、音読み、訓読みだけでもよいし、常用漢字表外の読みを追加してもよいし、人名の読みを追加してもよい。
また、文字列単位のラベル候補の形態素には、二十歳（はたち）等の熟字訓を採用してもよい。
また、前記各実施形態では、日本語音声認識モデル学習装置として説明したが、各装置の構成の処理を可能にするように、汎用又は特殊なコンピュータ言語で記述した日本語音声認識モデル学習プログラムとみなすことも可能である。
さらに、第１から第３実施形態のうちの少なくとも２つを組み合わせてもよい。

本発明に係る日本語音声認識モデル学習装置の性能を確かめるために、以下の２つの観点で音声認識実験を行った。
［１．学習時の追加ラベル数に関する音声認識実験］
まず、第１の観点として、第１実施形態に係る日本語音声認識モデル学習装置について、学習時に、１文字単位のラベルに対して追加する文字列単位のラベルの個数を変えた上で学習により生成した音響モデル及び言語モデルを用いて音声認識したときの単語誤り率をそれぞれ求めた。また、第２実施形態に係る日本語音声認識モデル学習装置についても同様の実験を行った。

＜学習手法＞
日本語でのエンドツーエンド音声認識に関する先行研究はほとんど報告されていない。そこで、非特許文献２に記載された手法、すなわち、英語でのｅｎｄ−ｔｏ−ｅｎｄ音声認識においてBi-directional LSTM（双方向長・短期記憶）とＣＴＣとを用いる学習手法に倣って、日本語における音声認識実験を行った。なお、この手法自体は、１文字単位のラベルとして、音素の出力と文字の出力とがそれぞれ可能であるが、実験では、文字を出力するものを選択した。

＜実験条件＞
実験では、生放送番組への字幕付与を想定したため、評価用データとして、ＮＨＫ（登録商標）の情報番組「ひるまえほっと」の２０１３年６月放送分の番組音声（３２ｋ単語）を対象に音声認識実験を行った。
情報番組では話題が多様である上に話し言葉を含んで話されるため、一定の音声認識率を確保するためには現状では多量の学習データを必要とする。そこで、一例として、学習データには、下記の参考文献１に記載された基準で字幕を書き起こしとしてみなしてよいと判断された、放送音声と字幕のペアから成る１４０４時間分のデータを、学習データ１の音声１ａとテキスト１ｂのペアとして利用した。
（参考文献１）「奥貴裕、尾上和穂、一木麻乃、佐藤庄衛、小林彰夫、“教師ラベルの精度推定に基づく音声言語コーパスの自動構築”、2015年秋季日本音響学会研究発表会講演論文集日本音響学会講演論文集、1-Q-1, pp.67-68」

特徴量としては４０次元のフィルタバンク特徴を用い、５層のBi-directional LSTM構造で文字を直接出力した。
言語モデルについては、比較のために２つ用意した。
１つは、音響モデルの学習に用いた１４０４時間分のデータを構成する字幕のテキスト（テキスト１ｂ）から学習したものであり、以下では、s_LMと表記する。
もう１つは、その学習後に、更に多量のコーパスから学習した４ｇｒａｍ言語モデルであり、以下では、l_LMと表記する。s_LMとｌ_LMとを独立に用いて音声認識実験を行った。

形態素分割手段２１に形態素解析エンジンであるＭｅＣａｂを用いた。すなわち、形態素自体の読みをＭｅＣａｂで取得した。なお、ＭｅＣａｂについては、次の参考文献２に詳述されている。
（参考文献２）「T. Kudo, K. Yamamoto, Y. Matsumoto, “Applying Conditional Random Fields to Japanese Morphological Analysis”, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP-2004), pp.230-237, 2004」

基本ラベル作成手段２２が学習データ１のテキスト１ｂから作成する１文字単位のラベルは、音素を含まず、平仮名、カタカナ、漢字、０から９までの算数字、記号、雑音、及び空白（ブランク）を加えた２９３４種のラベルから構成される。

＜実験方法＞
第１実施形態で説明した高頻度形態素追加手法については、漢字のみの形態素において、追加する文字列単位のラベルの種類であるｋ、すなわち、出現頻度リストＪの出現頻度の上位ｋ種類を、５００種（No.1）、８００種（No.2）、１０００種（No.3）のように変えた場合に、音響モデル及び言語モデルの学習をそれぞれ行った。その後、前記した評価用データを対象に音声認識実験を行った。

第２実施形態で説明した低頻度読み形態素追加手法については、漢字のみの形態素において、追加する文字列単位のラベルの個数を、調整の結果、３２５種（No.4）、５０１種（No.5）、８０１種（No.6）のように変えた場合に、音響モデル及び言語モデルの学習をそれぞれ行った。その後、前記した評価用データを対象に音声認識実験を行った。

ここで、調整とは、低頻度読み形態素追加手法については、前記した式（１）における所定の閾値ｎの値や、必要なラベル候補となるように予めフィルタリングするための閾値Ｎの値等によって追加ラベル数が変わることから閾値ｎ、Ｎの調整を行ったことを意味する。具体的には、No.4〜No.6については、必要なラベル候補となるように予めフィルタリングするための閾値Ｎを９として、出現頻度が９以下の形態素については、リストアップしないようにして、学習データ内で１０回以上登場した、漢字を含む形態素を対象とした出現頻度リストＪを作成した。
No.4では、追加ラベル数がおよそ３００となるように、前記した式（１）における閾値を、ｎ＝０．１２としてラベルを選定した結果、追加ラベルが３２５種となった。
No.5では、追加ラベル数がおよそ５００となるように、前記した式（１）における閾値を、ｎ＝０．１６としてラベルを選定した結果、追加ラベルが５０１種となった。
No.6では、追加ラベル数がおよそ８００となるように、前記した式（１）における閾値を、ｎ＝０．２２としてラベルを選定した結果、追加ラベルが８０１種となった。

以下では、No.1〜No.6について、言語モデルs_LMを用いた場合をNo.1S〜No.6Sと表記し、一方、言語モデルｌ_LMを用いた場合をNo.1L〜No.6Lと表記する。
No.1S〜No.6Sを以下の表１及び図１１に示し、No.1L〜No.6Lを以下の表２及び図１２に示す。図１１及び図１２において、グラフの横軸は、追加したラベル数を示し、縦軸は、音声認識の単語誤り率（ＷＥＲ：Word Error Rate）を示している。

各音声認識実験結果が示すように、いずれの言語モデル（s_LM、l_LM）を用いた場合でも、全体的には、学習時に低頻度読み形態素追加手法を用いた場合の方が、高頻度形態素追加手法を用いた場合よりもＷＥＲの数値が低く、音声認識の単語誤り率に関する性能が良い傾向にあった。さらに、１文字単位のラベルに対して追加する文字列単位のラベル数についても、低低頻度読み形態素追加手法の方が、高頻度形態素追加手法よりも追加する数が少なくても済む傾向にあった。そのため、低頻度読み形態素追加手法の方がより効率的なラベル追加手法であることが分かった。

［２．学習データ量に関する音声認識実験］
次に、第２の観点として、第１実施形態に係る日本語音声認識モデル学習装置について、学習データ量を変えた上で学習により生成した音響モデル及び言語モデルを用いて音声認識したときの単語誤り率をそれぞれ求めた。また、第２実施形態に係る日本語音声認識モデル学習装置についても同様の実験を行った。さらに、比較として、１文字単位のラベルだけを用いる日本語音声認識モデル学習装置（以下、基本ラベル手法又はｂａｓｅという）についても同様の実験を行った。

以下では、前記した第１の観点の実験（追加ラベル数に関する実験）と異なる点について説明する。この実験では、学習データには、放送音声と字幕のペアから成る１４０４時間分のデータの他に、より時間数の少ない複数種類の学習データを準備した。

＜実験方法＞
第１実施形態で説明した高頻度形態素追加手法については、追加する文字列単位のラベルの個数を５００種（No.1と同様）に固定した上で、学習データの時間数を、３９４時間（No.7）、９７１時間（No.8）、１０２３時間（No.9）、１４０４時間（No.10）のように変えた場合に、音響モデル及び言語モデルの学習をそれぞれ行った。その後、前記した評価用データを対象に音声認識実験を行った。なお、No.10の実験は、前記したNo.1の実験と等価である。

第２実施形態で説明した低頻度読み形態素追加手法については、追加する文字列単位のラベルの個数を３２５種（No.4と同様）に固定した上で、学習データの時間数を、３９４時間（No.11）、９７１時間（No.12）、１０２３時間（No.13）、１４０４時間（No.14）のように変えた場合に、音響モデル及び言語モデルの学習をそれぞれ行った。その後、前記した評価用データを対象に音声認識実験を行った。なお、No.14の実験は、前記したNo.4の実験と等価である。

比較するための基本ラベル手法（ｂａｓｅ）については、１文字単位のラベルだけを用いて、学習データの時間数を、３９４時間（No.21）、９７１時間（No.22）、１０２３時間（No.23）、１４０４時間（No.24）のように変えた場合に、音響モデル及び言語モデルの学習をそれぞれ行った。その後、前記した評価用データを対象に音声認識実験を行った。

以下では、No.7〜No.14及びNo.21〜No.24について、言語モデルs_LMを用いた場合をNo.7S〜No.14S及びNo.21S〜No.24Sと表記し、一方、言語モデルｌ_LMを用いた場合をNo.7L〜No.14L及びNo.21L〜No.24Lと表記する。
No.7S〜No.14S及びNo.21S〜No.24Sを以下の表３及び図１３に示し、No.7L〜No.14L及びNo.21L〜No.24Lを以下の表４及び図１４に示す。
図１３及び図１４において、グラフの横軸は、学習データ量を時間単位で示し、縦軸は、音声認識の単語誤り率（ＷＥＲ）を示している。

図１３及び図１４に示すように、いずれの言語モデル（s_LM、l_LM）を用いた場合でも、９７１時間のデータ量の際、学習時に高頻度形態素追加手法及び低頻度読み形態素追加手法を用いた場合の方が、基本ラベル手法（ｂａｓｅ）を用いた場合よりもＷＥＲの数値が際立って低く、音声認識の単語誤り率に関する性能が大きく優っていることが分かる。すなわち、表３に記載のNo.8S及びNo.12SはNo.22SよりもＷＥＲの数値が際立って低く、表４に記載のNo.8L及びNo.12LはNo.22LよりもＷＥＲの数値が際立って低い。
以下、表３に記載のNo.8S、No.12S、No.22Sを、実施例１、実施例２、比較例１という。
また、表４に記載のNo.8L、No.12L、No.22Lを、実施例３、実施例４、比較例２という。

また、図１３及び図１４に示すように、いずれの言語モデル（s_LM、l_LM）を用いた場合でも、高頻度形態素追加手法及び低頻度読み形態素追加手法を用いたときには、学習データが９７１時間のデータ量のＷＥＲは、１４０４時間のデータ量のＷＥＲと大差ない結果となった。つまり、学習データが９７１時間（実施例１〜実施例４）であっても、１４０４時間まで増やした場合の認識誤り率と大差ない結果を得ることができることが分かった。これは、基本ラベル手法（比較例１、比較例２）では、１つのラベルで複数の特徴を学習するために多くのデータが必要だったのに対して、高頻度形態素追加手法及び低頻度読み形態素追加手法では、１つのラベルで学習すべき特徴の種類が減ったために必要なデータが少なく済んでいると推測できる。
漢字の読みのバリエーションを学習するためにはデータ量が必要であるが、学習データのデータ量が十分ではないときにも、高頻度形態素追加手法及び低頻度読み形態素追加手法を用いると、基本ラベル手法（ｂａｓｅ）と同等の性能が得られることが分かった。

また、特に低頻度読み形態素追加手法については全体を通して学習の収束が早いことが分った。収束までの時間差の最も大きかった場合で比べると、基本ラベル手法（ｂａｓｅ）のNo.23Lでは、収束までに１４エポック必要だったのに対し、低頻度読み形態素追加手法のNo.13Lでは、収束まで１０エポックで済んだ。つまり、No.13Lは、No.23Lと比べて、３０％にあたる４エポック、実験日数にして約８日間収束が早かった。ここで、エポックは、対象とする全ての学習データについての１回分の処理を終えるまでの処理単位である。

なお、学習データが１０２３時間以上のデータ量の場合、基本ラベル手法（ｂａｓｅ）の方が、認識誤り率が良い結果となった。本実験では、前記した参考文献１に記載された基準で自動生成した学習データを用いており、学習データの品質が均一でないため、実験条件によって、認識精度にぶれがあることが前提である。しかし、認識率に、このような差が生じたのは次の２つの理由が考えられる。第一に、学習データが増加した際に、読みのバリエーションの学習が可能となったことが推測される。そして第二に、読みの種類としての珍しさの基準のみから追加するラベルを選定していたことが推測される。１０回以上登場している形態素という条件を設けてラベルを選定したものの、読みの種類ごとの登場回数を考慮するとより一層学習データ内の分類が可能となると考えられる。

Ｓ音声認識システム
１学習データ
１ａ音声
１ｂテキスト
２日本語音声認識モデル学習装置
４音響モデル学習手段
５言語モデル学習手段
２０，２０Ａ，２０Ｂラベル生成手段
２１形態素分割手段
２２基本ラベル作成手段
２３出現頻度リスト作成手段
２４，２４Ａ，２４Ｂラベル選定手段
２４１ラベル選定制御手段
２４２出現頻度判定手段
２４３，２４３Ａ，２４３Ｂラベル決定手段
２４４，２４４Ｂ閾値判定手段
２５出現漢字リスト作成手段
２６，２６Ｂ形態素リスト作成手段
２７，２７Ｂ読みリスト作成手段
２８編集距離算出手段
２９読み区切り推定手段

Claims

入力される音声又は音響特徴量に対応した正解として推定される文字のラベルを出力するエンドツーエンドの音響モデルを生成する日本語音声認識モデル学習装置であって、
日本語の音響モデル作成用の学習データにおける音声又は音響特徴量とテキストとのペア、１文字単位のラベル、及び少なくとも１文字の漢字を含む文字列単位のラベルを用いる学習により前記音響モデルを生成する音響モデル学習手段と、
前記学習データにおけるテキスト、前記１文字単位のラベル、及び前記文字列単位のラベルを用いる学習により、前記１文字単位のラベルと前記文字列単位のラベルとを単語列に変換する言語モデルを生成する言語モデル学習手段と、
前記学習データにおけるテキストから、前記文字列単位のラベルを生成するラベル生成手段と、を備え、
前記ラベル生成手段は、
前記学習データのテキストを形態素に分割し、そのそれぞれについて読みを付与する形態素分割手段と、
少なくとも１文字の漢字を含む文字列からなる形態素について前記学習データ内での出現頻度を表す出現頻度リストを作成する出現頻度リスト作成手段と、
前記学習データ内で出現頻度が予め定められた基準より高い前記形態素、又は、前記学習データ内で漢字の特定の読みの出現頻度が予め定められた基準より低い前記形態素を検出し、検出した前記形態素を表す文字列を構成する少なくとも一部の文字列を、前記文字列単位のラベルとして選定するラベル選定手段と、を備える日本語音声認識モデル学習装置。
前記ラベル生成手段は、
前記出現頻度リストから出現頻度の高い予め定められた個数の異なる形態素からなる形態素集合を作成すると共に、前記学習データにおけるテキストが分割された形態素区間に対応した形態素が前記形態素集合に含まれるか否かを形態素区間毎に判定する出現頻度判定手段と、
前記形態素集合に含まれると判定された形態素を表す文字列全体又はその一部であって先頭から所定文字数の文字列を、前記文字列単位のラベルとして決定するラベル決定手段と、
を備える請求項１に記載の日本語音声認識モデル学習装置。
前記ラベル生成手段は、
前記出現頻度リストの中に含まれる形態素のうち、漢字について１文字単位で重複のないリストである出現漢字リストを作成する出現漢字リスト作成手段と、
前記出現漢字リストに基づいて、注目する漢字毎に、当該漢字を先頭の文字に含む形態素のリストである形態素リストを作成する形態素リスト作成手段と、
前記注目する漢字を先頭の文字に含む形態素リストに出現する形態素毎に、前記形態素を、当該形態素全体の読みにおける頭文字の読み毎に設けた読みリストのいずれかへ格納する読みリスト作成手段と、
前記形態素全体の読みにおける頭文字の読み毎に設けた読みリストごとに、前記読みリストに格納されている形態素の個数を、前記形態素リストに格納されている全形態素の個数で除した値を所定の閾値と比較する閾値判定手段と、
前記閾値より小さいと判定された読みリストに格納されている形態素を表す文字列全体又はその一部であって先頭から所定文字数の文字列を、前記文字列単位のラベルとして決定するラベル決定手段と、
を備える請求項１に記載の日本語音声認識モデル学習装置。
前記ラベル生成手段は、
前記出現頻度リストの中に含まれる形態素のうち、漢字について１文字単位で重複のないリストである出現漢字リストを作成する出現漢字リスト作成手段と、
前記出現漢字リストに基づいて、注目する漢字毎に、当該漢字を含む形態素のリストである形態素リストを作成すると共に、前記注目する漢字毎の形態素リストに出現する各形態素に含まれる全ての漢字の一文字単独での全ての読みのリストである単独漢字リストとを作成する形態素リスト作成手段と、
前記注目する漢字毎の形態素リストに出現する形態素毎に、前記単独漢字リストを参照して、前記形態素を構成する各漢字に単独の読みを付与したときに対応付けられる全ての組み合わせを、前記形態素分割手段で付与された当該形態素全体の読みと比較して編集距離を算出する編集距離算出手段と、
前記編集距離が最小となる漢字の組み合わせを求め、当該形態素において前記注目する漢字の単独の読みの区切りを推定する読み区切り推定手段と、
前記単独漢字リストを参照して、前記形態素において前記注目する漢字に対して推定された読みの区切りが、前記注目する漢字の一文字単独での全ての読みのいずれであるのかを判定し、判定された読みに応じて、前記形態素を前記注目する漢字の読みごとに分類した読みリストへ格納する読みリスト作成手段と、
前記注目する漢字の読みごとに分類した読みリストごとに、前記読みリストに格納されている全形態素の個数を、前記注目する漢字毎の形態素リストに格納されている全形態素の個数で除した値を所定の閾値と比較する閾値判定手段と、
前記閾値より小さいと判定された読みリストに格納されている形態素を表す文字列全体又はその一部であって先頭から所定文字数の文字列を、前記文字列単位のラベルとして決定するラベル決定手段と、
を備える請求項１に記載の日本語音声認識モデル学習装置。
コンピュータを、請求項１から請求項４のいずれか一項に記載の日本語音声認識モデル学習装置として機能させるための日本語音声認識モデル学習プログラム。