JP6625961B2

JP6625961B2 - 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム

Info

Publication number: JP6625961B2
Application number: JP2016239050A
Authority: JP
Inventors: 哲小橋川; 祐太河内; 中澤　裕一; 裕一中澤; 裕司青野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2019-12-25
Anticipated expiration: 2036-12-09
Also published as: JP2018097045A

Description

この発明は、発音辞書及び音響モデルを生成するための技術及び音声認識技術に関する。

音響モデルの作成技術として、特許文献１に記載された技術が知られている（例えば、特許文献１参照。）。

特開2010-96899号公報

従来の音響モデルの作成において、日本人の英語等の非母国語の話者に音声認識を対応させるためには、発音誤りを考慮した書き起こしテキストを用意し、発音辞書を整備する必要がある。しかし、話者のスキルレベルに応じて、発音誤りの傾向が異なるため、スキルレベルを考慮しないで、発音辞書及び音響モデルを作ると、十分な精度が出ない可能性があった。

この発明は、従来よりも認識精度が高い発音辞書及び音響モデル発音辞書及び音響モデルを生成する発音辞書及び音響モデル生成装置、従来よりも認識精度が高い音声認識装置、方法及びプログラムを提供することを目的とする。

この発明の一態様による発音辞書及び音響モデル生成装置は、ある言語の非母国語の各話者の音声データ及び対応するテキストデータである学習データには、その各話者のその言語の習得度に応じたスキルレベルが与えられているとして、上記学習データをスキルレベルに基づいてクラスタリングすることにより、Ｎ個の学習クラスタｉ（ｉ＝１，…，Ｎ）を生成するデータクラスタリング部と、発音誤り候補パタンのエントリを、所定の発音辞書のエントリに追加することにより追加発音辞書ｉを生成し、上記学習クラスタｉの音声データ及び所定の音響モデルの下で上記学習クラスタｉのテキストデータを上記追加発音辞書ｉの各エントリで変換した読みが尤もらしい上記追加発音辞書ｉの中のエントリを残すことによりクラスタ発音辞書ｉを生成する発音獲得部と、上記学習クラスタｉのテキストデータを上記クラスタ発音辞書ｉで変換した読み及び学習クラスタｉの音声データを用いて音響モデルを学習することによりクラスタ音響モデルｉを生成する音響モデル学習部とを含み、生成された更新後発音辞書ｉを所定の発音辞書とし、クラスタ音響モデルｉを所定の音響モデルとする発音獲得部及びモデル学習部の処理を繰り返すことにより、クラスタ発音辞書ｉ及びクラスタ音響モデルｉを更新する処理を、ｉ＝１，…，Ｎのそれぞれについて行う更新部と、更新されたクラスタ発音辞書ｉ及びクラスタ音響モデルｉを統合することにより、統合発音辞書及び統合音響モデルを生成する統合部と、を備えている。

話者のスキルレベルを考慮することで、従来よりも認識精度が高い発音辞書及び音響モデルを生成することができる。また、従来よりも精度が高い音声認識を行うことができる。

発音辞書及び音響モデル生成装置及び音声認識装置の例を説明するためのブロック図。発音辞書及び音響モデル生成方法の例を説明するための流れ図。音声認識方法の例を説明するための流れ図。

以下、図面を参照して、この発明の実施形態について説明する。

［発音辞書及び音響モデル生成装置１］
発音辞書及び音響モデル生成装置１は、図１に示すように、データクラスタリング部１１、更新部１２及び統合部１３を例えば備えている。

発音辞書及び音響モデル生成方法は、発音辞書及び音響モデル生成装置１の各部が、図２及び以下に説明するステップＳ１１からステップＳ１３の処理を行うことにより例えば実現される。

＜データクラスタリング部１１＞
データクラスタリング部１１は、学習データをスキルレベルに基づいてクラスタリングすることにより、Ｎ個の学習クラスタｉ（ｉ＝１，…，Ｎ）を生成する（ステップＳ１１）。生成されたＮ個の学習クラスタｉは、更新部１２に出力される。Ｎは、所定の正の整数（例えば、６から１０等の整数〜10等)である。

学習データは、音声データと、対応した発声内容を記述したテキストデータとを含んでいる。テキストデータは、話者がそもそも発声しようとした文章を想定する。学習データには、その学習データに係る話者のスキルレベルが与えられているものとする。スキルレベルは、話者のネイティブレベル(当該言語に対するテストの点数等)としても良いし、話者の出身地等、話者の発音に影響する要素を数値化したものであっても良い。学習データは、話者毎に元々分割されていても良い。

このように、ある言語の各話者の音声データ及び対応するテキストデータである学習データには、その各話者のその言語の習得度に応じたスキルレベルが与えられているとする。

＜更新部１２＞
更新部１２は、発音獲得部１２１及び音響モデル学習部１２２を備えている。更新部１２は、以下に説明する発音獲得部１２１及び音響モデル学習部１２２の処理を繰り返すことにより、クラスタ発音辞書ｉ及びクラスタ音響モデルｉを更新する処理を、ｉ＝１，…，Ｎのそれぞれについて行う。更新は、例えば所定の回数だけ行われる。所定の回数は例えば１０回である。更新は、クラスタ発音辞書ｉ及びクラスタ音響モデルｉが所定の範囲内に収束するまで行われてもよい。また、所定の回数という閾値と併用して、獲得される発音が変化しなくなる収束段階で止めても構わない。
最終的に更新されたクラスタ発音辞書ｉ及びクラスタ音響モデルｉは、統合部１３に出力される。

発音獲得部１２１は、発音誤り候補パタンのエントリを、所定の発音辞書のエントリに追加することにより追加発音辞書ｉを生成し、学習クラスタｉの音声データ及び所定の音響モデルの下で学習クラスタｉのテキストデータを追加発音辞書ｉの各エントリで変換した読みが尤もらしい追加発音辞書ｉの中のエントリを残すことにより、クラスタ発音辞書ｉを生成する（ステップＳ１２１）。生成されたクラスタ発音辞書ｉは、音響モデル学習部１２２に出力される。

発音辞書とは、単語等のテキストデータの構成単位とその構成単位に対応する読みとの組であるエントリの集合である。読みは、例えば音素により表される。

発音誤り候補パタンとは、誤り易い発音誤りに対応する、単語等のテキストデータの構成単位とその構成単位に対応する読みとの組であるエントリである。発音誤り候補パタンは、l/rの誤り、音素の脱落/挿入等の非母国語の話者が起こしやすい発音の誤りを考慮して定められる。

例えば、「Rice」という単語とrの発音を含む読みとの組がエントリの１つとして発音辞書に登録されているとする。ここで、日本人等の英語の話者は、「Rice」のrの発音を正しくすることが難しいため、rではなくlの発音をしてしまうことが多い。このため、l/rの誤りという誤り易い発音誤りに対応して、「Rice」という単語とlの発音を含む読みとの組が発音誤り候補パタンのエントリとして、発音辞書ｉに追加される。

所定の発音辞書は、最初の発音獲得部１２１による１回目の処理を行う場合には、予め定められた発音辞書であるベース発音辞書であり、ｋを２以上の整数として最初の発音獲得部１２１によるｋ回目以降の一番初めの処理を行う場合には、発音獲得部１２１によるｋ−１回目の処理のより生成されたクラスタ発音辞書ｉである。

所定の音響モデルは、最初の発音獲得部１２１による１回目の処理を行う場合には、予め定められた音響モデルであるベース音響モデルであり、ｋを２以上の整数として最初の発音獲得部１２１によるｋ回目以降の一番初めの処理を行う場合には、音響モデル学習部１２２によるｋ−１回目の処理のより生成された音響モデルｉである。

尤もらしいとは、言い換えれば尤度又は事後確率が高いということである。尤もらしいエントリを残すために、例えば、尤度又は事後確率が所定の閾値以上のエントリを残してもよいし、Mを所定の正の整数として尤度又は事後確率が高い上位M個のエントリを残してもよい。例えば、M=1とすることで、最高尤度のエントリのみを残すこととなる。

例えば、「Rice」という単語とlの発音を含む読みとの組が発音誤り候補パタンのエントリとして発音辞書ｉに追加されており、かつ、M=1の場合には、学習クラスタｉの音声データ及び所定の音響モデルの下で、rの発音を含む読みのエントリと、lの発音を含む読みのエントリとのうち尤もらしい、言い換えれば尤度又は事後確率が高いエントリが発音辞書ｉに残され、そうでない方のエントリは発音辞書ｉから削除される。例えば、M=1の場合は、発音誤りパタンとして許容する範囲が少なく、M≧2の場合は話者毎に大きく異なる様々な発音誤りパタンに対応できる。

このように、発音誤り候補パタンのエントリを発音辞書に追加するという手法により発話誤りを考慮することにより、非母国語の話者の書き起こすべき量が少なくなるため、音響モデル、発音辞書を整備するコストを大幅に削減できる。さらに、学習に使うべきデータ量を減らせるため、学習時間も少なくなる。

音響モデル学習部１２２は、学習クラスタｉのテキストデータをクラスタ発音辞書ｉで変換したテキストデータ及び学習クラスタｉの音声データを用いて音響モデルを学習することによりクラスタ音響モデルｉを生成する（ステップＳ１２２）。

＜統合部１３＞
統合部１３は、更新されたクラスタ発音辞書ｉ及びクラスタ音響モデルｉを統合することにより、統合発音辞書及び統合音響モデルを生成する（ステップＳ１３）。生成された統合発音辞書及び統合音響モデルは、音声認識装置２の記憶部２１に記憶される。

統合部１３は、例えば、スキルレベル毎の音響モデル/辞書が読み込める形式でまとめる。

なお、統合部１３は、クラスタ発音辞書ｉのみを複数のものを統合してもよい。この場合、音響モデルは全学習データで学習し直すことにより、統合音響モデルを生成する。

［音声認識装置２］
音声認識装置２は、記憶部２１及び音声認識部２２を例えば備えている。音声認識方法は、音声認識部２２がステップＳ２１の処理を行うことにより実現される。

＜記憶部２１＞
記憶部２１には、発音辞書及び音響モデル生成装置１により生成された統合発音辞書及び統合音響モデルが記憶されている。

＜音声認識部２２＞
音声認識部２２は、記憶部２１から読み込んだ統合された発音辞書及び統合音響モデルを用いて、入力された音声データについての音声認識を行うことにより、入力音声をテキストに変換する（ステップＳ２１）。

入力音声には、事前にその言語の話者のスキルレベルが対応付けられている。例えば、音声認識部２２は、入力音声に対応するスキルレベルのクラスタ発音辞書及びクラスタ音響モデルを用いて、音声認識を行う。

なお、音声認識部２２は、複数のクラスタ音響モデル・クラスタ発音辞書を用いて、最大尤度の認識結果を出力してもよい。すなわち、音声認識部２２は、各スキルレベルのクラスタ発音辞書及びクラスタ音響モデルを用いて音声認識を行い、各スキルレベルに対応する音声認識結果を得て、各スキルレベルに対応する音声認識結果の中で最大尤度の音声認識結果を出力してもよい。

［変形例１］
データクラスタリング部１１は、各学習データが、予め定められた各スキルレベルに対応する発話誤りパタンのどれに尤も当てはまるかに基づいて、その各学習データのスキルレベルを推定し、その推定されたスキルレベルに基づいてクラスタリング処理を行ってもよい。

より詳細には、データクラスタリング部１１は、各学習データの音声データ及び所定の音響モデルの下で、その各学習データのテキストデータの各構成単位を発話誤りパタンで変換した読みが最も尤もらしい発話誤りパタンを見つけ、その各構成単位にその見つかった発話誤りパタンに対応するスキルレベルを割り当てる。そして、学習データのテキストデータの各構成単位のスキルレベルの中で、最も多いスキルレベルをその学習データのスキルレベルとする。

このように、データクラスタリング部１１は、入力された発音誤りパタンをスキルレベル分けして、考慮するパタン数が異なる発音誤りパタン候補リストを行い、学習データに対して最適となる発音誤りパタンを選定。そして、最適となる発音誤り数(割合)に応じて、スキルレベルを設定してもよい。

このように、データクラスタリング部１１が、スキルレベルを推定及び設定することにより、学習データに予めスキルレベルを付与する手間を省くことができる。

［変形例２］
更新部１２は、スキルレベル毎の学習データｉの量を減らしてもよい。これにより、学習時間を減らすことができる。

例えば、更新部１２は、クラスタリングにより生成された学習クラスタｉに含まれるデータをランダムに選定する。更新部１２は、クラスタリングにより生成された学習クラスタｉに含まれるデータを、各学習クラスタｉの話者数が一定数又は一定数以下となるように減らしてもよい。ただし、学習クラスタｉ毎で考慮するべき発音誤りパタンが全て含まれるテキストを選定する必要がある。

変形例２は、非ネイティブ話者の発話誤りが獲得できれば十分であるため、スキルレベル毎の学習データｉの量はそれほど多くなくてもよく、全学習データを利用しなくてもよいという考えに基づくものである。

［変形例３］
データクラスタリング部１１は、学習データのスキルレベルを母国語の音響モデルと非母国語の音響モデルのどちらに近いかで判定し、その判定されたされたスキルレベルに基づいて学習データのクラスタリング処理を行ってもよい。

例えば、データクラスタリング部１１は、各学習データの音声データの下で、母国語の音響モデル及び非母国語の音響モデルのそれぞれを用いて、その各学習データのテキストデータの各構成単位を所定の発音辞書で変換した読みの尤もらしさを計算し、その各構成単位には母国語の音響モデル及び非母国語の音響モデルのどちらがより尤もらしいかを決定する。そして、学習データのテキストデータの中で、非母国語の音響モデルが割り当てられた構成単位の割合をその学習データのスキルレベルとする。

このように、母国語/非母国語音響モデルで尤度計算を行い、尤度が高くなった学習データの非母国語音響モデルが選定された割合をスキルレベルとしてもよい。

このように、データクラスタリング部１１が、スキルレベルを判定及び設定することにより、学習データに予めスキルレベルを付与する手間を省くことができる。

なお，スキルレベルの判定に音響モデルを用いる事で、最終的に生成される音響モデルと整合性が取れるため、精度の向上が期待できる。

［変形例４］
発音獲得部１２１による１回目の処理を行う場合に用いる、予め定められた音響モデルであるベース音響モデルは、母国語モデルを元モデルとして構築されたものであってもよい。例えば、ベースとなる音響モデルを母国語モデルとし、非母国語考慮音素変換テーブルを用意して、母国語辞書の音素情報を非母国語に変換することにより、構築された音響モデルをベース音響モデルとする。

元モデルとして、母国語モデルを使う事で、スキルレベルが低く発音が母国語に近い話者の発音獲得の収束を早める事が期待できる。ここで、非母国語考慮音素変換テーブルは、非母国語の音素と、母国語話者の音素で、類似している音素関係対を持つ情報である。例えば、日本語と英語の場合は「あ」の音素「a_jp」と、英語の「ae」の音素「ae_en」等が相当する。

［変形例５］
発音獲得部１２１による１回目の処理を行う場合に用いる、予め定められた音響モデルであるベース音響モデルとして、予め定められた母国語音響モデル、予め定められた非母国語音響モデルの両方を用いてもよい。この時の母国語音響モデルは、変形例４と同様音素情報を非母国語に変換したものを用いる。

母国語音響モデル、非母国語音響モデルの両方を用いる事で、スキルレベルが大きく異なる話者を包含する事ができる。発音辞書としては、母国語の音素体系・音響モデル、非母国語の音素体系・音響モデルを併用する事で、発音が母国語に近い話者と、非母国語に近い話者の両方の精度を同時に高める事が可能となる。

[プログラム及び記録媒体]
発音辞書及び音響モデル生成装置１又は音声認識装置２における各処理をコンピュータによって実現する場合、発音辞書及び音響モデル生成装置１又は音声認識装置２が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、発音辞書及び音響モデル生成装置１又は音声認識装置２の処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

[変形例]
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

１発音辞書及び音響モデル生成装置
１１データクラスタリング部
１２更新部
１２１発音獲得部
１２２音響モデル学習部
１３統合部
２音声認識装置
２１記憶部
２２音声認識部

Claims

ある言語の非母国語の各話者の音声データ及び対応するテキストデータである学習データには、その各話者のその言語の習得度に応じたスキルレベルが与えられているとして、上記学習データをスキルレベルに基づいてクラスタリングすることにより、Ｎ個の学習クラスタｉ（ｉ＝１，…，Ｎ）を生成するデータクラスタリング部と、
発音誤り候補パタンのエントリを、所定の発音辞書のエントリに追加することにより追加発音辞書ｉを生成し、上記学習クラスタｉの音声データ及び所定の音響モデルの下で上記学習クラスタｉのテキストデータを上記追加発音辞書ｉの各エントリで変換した読みが尤もらしい上記追加発音辞書ｉの中のエントリを残すことによりクラスタ発音辞書ｉを生成する発音獲得部と、上記学習クラスタｉのテキストデータを上記クラスタ発音辞書ｉで変換した読み及び上記学習クラスタｉの音声データを用いて音響モデルを学習することによりクラスタ音響モデルｉを生成する音響モデル学習部とを含み、上記生成された更新後発音辞書ｉを上記所定の発音辞書とし、上記クラスタ音響モデルｉを上記所定の音響モデルとする上記発音獲得部及び上記モデル学習部の処理を繰り返すことにより、クラスタ発音辞書ｉ及びクラスタ音響モデルｉを更新する処理を、ｉ＝１，…，Ｎのそれぞれについて行う更新部と、
上記更新されたクラスタ発音辞書ｉ及びクラスタ音響モデルｉを統合することにより、統合発音辞書及び統合音響モデルを生成する統合部と、
を含む発音辞書及び音響モデル生成装置。
請求項１の発音辞書及び音響モデル生成装置で生成された上記統合発音辞書及び上記統合音響モデルを用いて、音声認識を行う音声認識部、
を含む音声認識装置。
データクラスタリング部が、ある言語の各話者の音声データ及び対応するテキストデータである学習データには、その各話者のその言語の習得度に応じたスキルレベルが与えられているとして、上記学習データをスキルレベルに基づいてクラスタリングすることにより、Ｎ個の学習クラスタｉ（ｉ＝１，…，Ｎ）を生成するデータクラスタリングステップと、
発音獲得部が、発音誤り候補パタンのエントリを、所定の発音辞書のエントリに追加することにより追加発音辞書ｉを生成し、上記学習クラスタｉの音声データ及び所定の音響モデルの下で上記学習クラスタｉのテキストデータを上記追加発音辞書ｉの各エントリで変換した読みが尤もらしい上記追加発音辞書ｉの中のエントリを残すことにより、クラスタ発音辞書ｉを生成する発音獲得ステップと、音響モデル学習部が、上記学習クラスタｉのテキストデータを上記クラスタ発音辞書ｉで変換したテキストデータ及び上記学習クラスタｉの音声データを用いて音響モデルを学習することによりクラスタ音響モデルｉを生成する音響モデル学習ステップとを含み、更新部が、上記生成された更新後発音辞書ｉを上記所定の発音辞書とし、上記クラスタ音響モデルｉを上記所定の音響モデルとする上記発音獲得ステップ及び上記モデル学習ステップの処理を繰り返すことにより、クラスタ発音辞書ｉ及びクラスタ音響モデルｉを更新する処理を、ｉ＝１，…，Ｎのそれぞれについて行う更新ステップと、
統合部が、上記更新されたクラスタ発音辞書ｉ及びクラスタ音響モデルｉを統合することにより、統合発音辞書及び統合音響モデルを生成する統合ステップと、
を含む発音辞書及び音響モデル生成方法。
音声認識部が、請求項１の発音辞書及び音響モデル生成装置で生成された上記統合発音辞書及び上記統合音響モデルを用いて、音声認識を行う音声認識ステップ、
を含む音声認識方法。
請求項１の発音辞書及び音響モデル生成装置又は請求項２の音声認識装置の各部としてコンピュータを機能させるためのプログラム。