JP6475517B2

JP6475517B2 - 発音系列拡張装置およびそのプログラム

Info

Publication number: JP6475517B2
Application number: JP2015040346A
Authority: JP
Inventors: 麻乃一木; 和穂尾上
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2015-03-02
Filing date: 2015-03-02
Publication date: 2019-02-27
Anticipated expiration: 2035-03-02
Also published as: JP2016161765A

Description

本発明は、発音辞書の発音系列に対して、発話音声の発音系列を拡張する発音系列拡張装置およびそのプログラムに関する。

通常、音声認識では、単語と当該単語の発音系列（音素列）とを対応付けた発音辞書を用いている。この発音辞書には、一般的な辞書に記載されているような読みが発音として登録されている。
しかし、表記上の読みと実際に発話された発音とでは異なることが多い。例えば、放送番組では、ニュース番組のアナウンサの正確な（発音辞書の発音と近い）発音に比べ、情報番組の出演者の発話は曖昧な発音が多い。
このように、実際に発話された発音が、発音辞書に登録された読みから変動を起こしていた場合、発音内容と単語が一致しないことになる。その場合、音声認識では、発音内容に近い単語を選択するため、誤認識が発生してしまう。

近年、このような発音変動（変形）に関する研究は、数多く行われている。
例えば、発音辞書に、標準的な発音に加え、発話音声を忠実に書き起こした書き起こしテキストを発音変動事例として追加登録する手法が開示されている（非特許文献１）。
また、非特許文献１と同様に、発話音声の書き起こしテキストを用いて、発話音声から発音変動を検出し、そのパターンを学習することで、変形発音の出現傾向に関する発音系列の確率的変動規則を生成する手法が開示されている（非特許文献２）。
この発話音声の書き起こしテキストを利用する手法は、発音変動の規則を、人手を介して登録する必要があり、また、その規則の元となる事例を多数得なければならない等、膨大な労力を要する。

これに対し、発音変動事例の検出に、発話音声の書き起こしテキストを利用せずに、発音データから、汎化性の高い発音変動を抽出する手法が開示されている（特許文献１）。この特許文献１の手法は、言語モデルの重み値を所定回数変えることで、単語の標準形の発音データから、発音変動のバリエーションを生成する。そして、この手法は、標準形からの変動差分を抽出し、変動確率を推定することで、発音変動の規則を得ている。

国際公開第２００９／０７８２５６号

堤他，"発音変形依存モデルを用いた講演音声認識"，電子情報通信学会論文誌，vol.J89-D，No.2，pp.305-313，2006 秋田他，"話し言葉音声認識のための汎用的な統計的発音変動モデル"，電子情報通信学会論文誌，vol.J88-D-II，No.9，pp.1780-1789，2005

前記した従来の手法は、単語単位で発音変動を定めている。
しかし、話し言葉で発話された発音変動は、単語に依存して単語内に起こる変動ばかりではなく、異なる単語であっても、同様の発音しにくい音素列で起こるものがある。
例えば、「女川湾」の読みである「おながわわん」が発音しにくいため、「おながわん」と発音される場合がある。しかし、この発音変動は、「女川湾」に限定されるものではない。例えば、「志津川湾」の読みである「しづがわわん」についても、同様に、「しづがわん」と発音される場合がある。
これは、単語内の音素列「ｇａｗａｗａ」が「ｇａｗａ」に変動することで起こるものである。前記した非特許文献１，２の手法であれば、音素列「ｇａｗａｗａ」を含んだ単語のすべてに対して、個別に手動でこの変動規則を設定しなければならず、膨大な手間を要するという問題がある。

また、話し言葉で発話された発音変動は、単語境界を跨いでも起こり得る。
例えば、「北側は」のように、２つの単語「北側」と「は」との間を跨いで音素列「ｇａｗａｗａ」が存在し、発音のしにくさから変動する場合がある。
このように、単語を跨いだ発音変動は、従来の手法では考慮されておらず、発音辞書には登録されないため、音声認識の精度を落とす要因となっていた。

本発明は、このような問題に鑑みてなされたものであり、発音変動を音素列の変動として捉え、発音辞書の発音系列に対して、発話音声の発音系列（音素列）を拡張する発音系列拡張装置およびそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る発音系列拡張装置は、見出し語とその発音系列を示す音素列とを対応付けた発音辞書と、複数組音素の音響モデルと、音声とその書き起こしテキストとを対応付けた学習コーパスとにより、前記発音辞書における前記見出し語の発音系列を拡張する発音系列拡張装置であって、音素列生成手段と、複数組音素発音辞書生成手段と、複数組音素言語モデル生成手段と、音素認識手段と、統計的機械翻訳モデル生成手段と、翻訳手段と、拡張手段と、を備える構成とした。

かかる構成において、発音系列拡張装置は、音素列生成手段によって、音響モデルと発音辞書とにより、発音辞書の見出し語単位で音素のアライメント（強制アライメント）を行うことで、学習コーパスの音声の複数組音素の音素列を生成するとともに、当該複数組音素の中心音素である単一音素の音素列を生成する。
ここで、複数組音素とは、複数の音素で構成される音素列である。例えば、３つの音素で構成されるトライフォン（ｔｒｉｐｈｏｎｅ）、５つの音素で構成されるクイントフォン（ｑｕｉｎｔｐｈｏｎｅ）等である。このトライフォン等の複数組音素は、中心音素が前後の音素に影響を受けることを考慮したもので、モノフォン（単一音素）の音素列よりも正確な発音を示す情報となる。

そして、発音系列拡張装置は、複数組音素発音辞書生成手段によって、複数組音素を１単語として、見出し語およびその発音系列とすることで、複数組音素発音辞書を生成する。
また、発音系列拡張装置は、複数組音素言語モデル生成手段によって、複数組音素を１単語として、その出現頻度、接続のしやすさを統計的にモデル化、例えば、Ｎグラムモデルでモデル化することで、複数組音素言語モデルを生成する。
このように、複数組音素を単位とするため、単語に依存せずに、音素単位で音声認識可能な発音辞書および言語モデルが生成されることになる。

そして、発音系列拡張装置は、音素認識手段によって、複数組音素発音辞書と複数組音素言語モデルとにより、学習コーパスの音声を音素単位で音声認識する。
このように、発音系列拡張装置は、音素単位で音声を認識するため、音声の前後の発音変動をより正確に表現した音素列を生成することができる。

そして、発音系列拡張装置は、統計的機械翻訳モデル生成手段によって、音素列生成手段で生成された単一音素の音素列である標準音素列と、音素認識手段で認識された音素列である実発話音素列とを対訳データとして学習することで、標準音素列の任意のフレーズから実発話音素列の任意のフレーズへ翻訳するための確率モデルである統計的機械翻訳モデルを生成する。
これによって、正確な発音である標準音素列から、発音変動を伴った実発話音素列へ翻訳を行うためのモデルが生成されることになる。

そして、発音系列拡張装置は、翻訳手段によって、統計的機械翻訳モデルにより、発音辞書に登録されている見出し語に対応する音素列が翻訳結果の文字列として翻訳される確率が最大となる文字列を求めることで、当該見出し語に対応する音素列を翻訳する。
これによって、発音辞書に登録されている正しい音素列に対して、発音変動を加味した音素列が生成されることになる。

そして、発音系列拡張装置は、拡張手段によって、翻訳手段で翻訳された音素列を新たな発音系列を示す音素列として見出し語に追加する。
これによって、発音系列拡張装置は、発音辞書の見出し語に、実発話に基づく発音変動を考慮した音素列を新たな発音として追加することができる。

なお、発音系列拡張装置は、コンピュータを、音素列生成手段、複数組音素発音辞書生成手段、複数組音素言語モデル生成手段、音素認識手段、統計的機械翻訳モデル生成手段、翻訳手段、拡張手段として機能させるための発音系列拡張プログラムで動作させることができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、発音辞書に対して、実発話に基づく発音変動を考慮して、発音系列を拡張することができる。また、本発明によれば、発音辞書における同様の発音変動が発生する見出し語に対して、発音系列を統計的な確率に基づいて拡張することができる。
また、本発明は、音素単位で発音変動を認識するため、単語内の発音変動のみならず、単語間に跨った発音変動にも対応して、発音辞書の発音系列を拡張することができる。
これによって、本発明で拡張された発音辞書を用いることで、今まで発音辞書に登録されていなかった標準的な発音以外の発音であっても、精度よく音声認識することが可能になる。

本発明の実施形態に係る発音系列拡張装置の構成を示すブロック構成図である。図１の音素列生成手段が生成する音素列の例であって、（ａ）はトライフォン音素列、（ｂ）はモノフォン音素列（標準音素列）を示す。図１のトライフォン発音辞書生成手段が生成するトライフォン発音辞書の例を示す図である。図１のフレーズ翻訳モデル生成手段１４１が生成するフレーズテーブルの例を示す図である。図１のモノフォン言語モデル生成手段が使用する単語辞書の例を示す図である。拡張された発音辞書（拡張発音辞書）の例を示す図である。拡張発音辞書を用いた音声認識環境を説明するための説明図である。本発明の実施形態に係る発音系列拡張装置の動作を示すフローチャートである。単語間の発音変動の効果を説明するための図で、（ａ）は単語トライグラムのＷＦＳＴの一部、（ｂ）は単語のみを登録した発音辞書を用いた場合の遷移、（ｃ）はその遷移系列、（ｄ）は単語間の発音変動が発生したときの遷移系列を示す。

以下、本発明の実施形態について図面を参照して説明する。
〔発音系列拡張装置の構成〕
まず、図１を参照して、本発明の実施形態に係る発音系列拡張装置１の構成について説明する。

発音系列拡張装置１は、発音辞書１００に登録されている発音（発音系列）に、実発話による発音（発音系列）を対応付けて拡張し、拡張発音辞書１０３を生成するものである。この発音系列拡張装置１は、発音辞書１００と、音響モデル１０１と、学習コーパス１０２とから、発音辞書１００に登録されていない発音系列を拡張することで、拡張発音辞書１０３を生成する。

発音辞書１００は、拡張の元となる発音辞書で、所定の文字列である見出し語（ここでは、単語とする）ごとに、その発音系列を示す子音と母音との構成（音素列）を示した辞書である。
この発音辞書１００は、従来の発音辞書として、人手を介して文字列（単語）とその発音系列とを対応付けた辞書であってもよいし、発音系列拡張装置１によって拡張された拡張発音辞書１０３をさらに拡張させたい場合は、拡張発音辞書１０３を発音辞書１００として用いてもよい。

音響モデル１０１は、大量の音声データから予め学習した音素ごとの音響特徴量（メル周波数ケプストラム係数等）を隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）によってモデル化したものである。この音響モデル１０１は、従来の音声認識において用いられるトライフォンＨＭＭである。

学習コーパス１０２は、予め大量の音声データ（音声コーパス）と、音声データの書き起こしテキスト（テキストコーパス）とを対応付けたデータである。この学習コーパス１０２は、例えば、ニュース番組、情報番組等におけるアナウンサ、リポータ等の約１０００時間程度の音声（音声コーパス）と、その音声を書き起こしたテキスト（テキストコーパス）である。
なお、発音辞書１００、音響モデル１０１および学習コーパス１０２は、それぞれ図示を省略した記憶手段に記憶されているものとする。

拡張発音辞書１０３は、発音系列拡張装置１によって、発音辞書１００が拡張された辞書である。すなわち、拡張発音辞書１０３は、発音辞書１００に登録されている文字列の発音系列（音素列）に、さらに、実発話により表現される発音系列（音素列）が拡張された辞書である。
以下、発音系列拡張装置１の構成について詳細に説明する。

図１に示すように、発音系列拡張装置１は、音素列生成手段１０と、トライフォン発音辞書生成手段１１と、トライフォン言語モデル生成手段１２と、音素認識手段１３と、統計的機械翻訳モデル生成手段１４と、翻訳手段１５と、拡張手段１６と、を備える。

音素列生成手段１０は、発音辞書１００と音響モデル１０１とに基づいて、学習コーパス１０２の音声（音声コーパス）を強制アライメントすることで、当該音声を、発音辞書１００に登録されている文字列に対応する音素列に切り分けるものである。
すなわち、音素列生成手段１０は、学習コーパス１０２の音声から、音響モデル１０１に対応する音響特徴量を抽出する。そして、音素列生成手段１０は、音響モデル１０１のトライフォンＨＭＭを用いて、音声の書き起こしテキスト（テキストコーパス）を事前知識とする音声認識を行うことで、音声を、発音辞書１００に登録されている文字列（見出し語）に対応して切り分け（強制アライメント）、各文字列に対応する音素列をトライフォン（３組の音素）単位で抽出する。

この音素列生成手段１０は、生成したトライフォン１０ｔを１つの単語として、図示を省略した記憶手段に記憶する。このトライフォン１０ｔは、トライフォン発音辞書生成手段１１およびトライフォン言語モデル生成手段１２において利用される。
また、音素列生成手段１０は、生成したトライフォンで表された音素列の中心音素を抽出し、標準音素列１０ｍとする。この標準音素列１０ｍは図示を省略した記憶手段に記憶され、統計的機械翻訳モデル生成手段１４において利用される。

ここで、図２を参照して、音素列生成手段１０が生成する音素列の例について説明する。なお、図２中、「△」の記号は、単に空白を分かりやすく示すために用いた記号である。
図２（ａ）は、「警察と消防で見つかった」の音声から生成されたトライフォンで表された音素列の例を示している。ここで、トライフォンは、「○−○＋○」というテキスト形式（トライフォンテキスト）で表され、前後の音素への影響（音素環境依存性）を考慮したものとなっている。

図２（ａ）の例では、「ｋ−ｅ：＋ｓ」、「ｅ−ｓ＋ａ」、「ｓ−ａ＋ｔｓ」等がトライフォンであって、ここでは、このトライフォンを１つの単語として扱う。
図２（ａ）中、「○＋□」は、「（＊−）○＋□」のように「○□」の２音素で終わるバイフォン集合を示し、「○−□」は、「○−□（＋＊）」のように、「○□」の２音素で始まるバイフォン集合を示している。

図２（ｂ）は、（ａ）の中心音素を抽出した音素列である。すなわち、図２（ａ）の音素列がトライフォンの音素列であるのに対し、図２（ｂ）の音素列は、学習コーパス１０２の音声を表したモノフォンの音素列（標準音素列）である。
図１に戻って、発音系列拡張装置１の構成について説明を続ける。

トライフォン発音辞書生成手段（複数組音素発音辞書生成手段）１１は、音素列生成手段１０で生成された複数のトライフォン１０ｔから、１つのトライフォン１０ｔを１つの単語とみなした発音辞書（トライフォン発音辞書〔複数組音素発音辞書〕１１ｔ）を生成するものである。
ここでは、トライフォン発音辞書生成手段１１は、図３に示すように、左の列に見出し語（単語）、右の列に音素列（発音系列）を配置したトライフォン発音辞書１１ｔを生成する。なお、トライフォン発音辞書１１ｔの左の列の見出し語および右の列の音素列は、どちらも、音素列生成手段１０で生成される同じトライフォンである。

このように、トライフォン発音辞書１１ｔの見出し語と音素列とはテキストデータとして同一のものであるため、必ずしも対として記憶する必要はない。しかし、トライフォン発音辞書１１ｔを従来の発音辞書と同じ形式とすることで、後記する音素認識手段１３において、従来の発音辞書と同様に扱うことが可能になる。
このトライフォン発音辞書生成手段１１は、生成したトライフォン発音辞書１１ｔを、図示を省略した記憶手段に記憶する。このトライフォン発音辞書１１ｔは、音素認識手段１３において利用される。

トライフォン言語モデル生成手段（複数組音素言語モデル生成手段）１２は、音素列生成手段１０で生成された複数のトライフォン１０ｔから、言語モデル（トライフォン言語モデル〔複数組音素言語モデル〕１２ｔ）を生成するものである。このトライフォン言語モデル１２ｔは、音素列生成手段１０で生成された複数のトライフォン１０ｔから、トライフォン１０ｔを単語とみなして、その文字列の出現頻度、接続のしやすさを統計的にモデル化したものである。例えば、トライフォン言語モデル生成手段１２は、Ｎグラムモデルで言語モデルを生成する。

一般的な言語モデルの生成が単語の出現頻度等をモデル化したものであるのに対し、トライフォン言語モデル１２ｔは、トライフォン１０ｔの出現頻度等をモデル化したものである。よって、トライフォン言語モデル生成手段１２は、その対象となる素材（単語またはトライフォン）が異なるのみで、生成手法は従来の言語モデルの手法と同じであるため、ここでは、詳細な説明を省略する。
このトライフォン言語モデル生成手段１２は、生成したトライフォン言語モデル１２ｔを、図示を省略した記憶手段に記憶する。このトライフォン言語モデル１２ｔは、音素認識手段１３において利用される。

音素認識手段１３は、音響モデル１０１と、トライフォン発音辞書１１ｔと、トライフォン言語モデル１２ｔとを用いて、学習コーパス１０２の音声から音素を認識するものである。
この音素認識手段１３は、学習コーパス１０２の音声から音響特徴量を抽出し、音響モデル１０１とトライフォン発音辞書１１ｔとからトライフォンの候補をリストアップし、トライフォン言語モデル１２ｔに基づく接続確率が最大となるトライフォンの音素列を認識結果とする。そして、音素認識手段１３は、認識結果であるトライフォンの音素列の中心音素を抽出する。
すなわち、一般的な音声認識が単語単位で認識するのに対し、音素認識手段１３は、トライフォン単位で認識し、実発話のモノフォンの音素列を生成する。

このように、音素認識手段１３は、トライフォンによる音素環境依存を考慮したものであるため、精度よく音素を認識することができる。
この音素認識手段１３は、認識した音素列（実発話音素列１３ｍ）を、図示を省略した記憶手段に記憶する。この実発話音素列１３ｍは、統計的機械翻訳モデル生成手段１４において利用される。

統計的機械翻訳モデル生成手段１４は、元の発音辞書１００を用いて生成された標準音素列１０ｍを原言語とし、トライフォン発音辞書１１ｔおよびトライフォン言語モデル１２ｔを用いて生成された実発話音素列１３ｍを目的言語とする翻訳モデル（統計的機械翻訳モデル）を生成するものである。

ここで、統計的機械翻訳モデルは、ベイズの定理により、原言語ｆが目的言語ｅに翻訳される確率が最大となって翻訳結果ｅ＾（ｅハット）が生成されるモデルとして、以下の式（１）で定式化されている。

この式（１）で、Ｐｒ（ｅ｜ｆ）は、原言語ｆが目的言語ｅに翻訳される条件付き確率を示す。また、Ｐｒ（ｆ｜ｅ）は、翻訳モデル（フレーズ翻訳モデル）であって、目的言語ｅが原言語ｆに翻訳される条件付き確率を示す。また、Ｐｒ（ｅ）は、目的言語ｅの言語モデルであって、目的言語ｅの事前確率を示す。
ここでは、統計的機械翻訳モデル生成手段１４は、フレーズ翻訳モデル生成手段１４１と、モノフォン言語モデル生成手段１４２と、を備える。

フレーズ翻訳モデル生成手段１４１は、音素列生成手段１０で生成されたモノフォンの音素列である標準音素列１０ｍと、音素認識手段１３で生成されたモノフォンの音素列である実発話音素列１３ｍとを対訳データとして、標準音素列１０ｍのあるフレーズ（原言語フレーズ）が、実発話音素列１３ｍのあるフレーズ（目的言語フレーズ）に翻訳される翻訳モデル（フレーズ翻訳モデル）を生成するものである。すなわち、フレーズ翻訳モデル１４１ｍは、前記式（１）の翻訳モデルＰｒ（ｆ｜ｅ）を生成するものである。

なお、対訳データを用いて、翻訳モデルを生成する手法は一般的な手法を用いることができる。例えば、P.Koehnらによる“Moses: Open Source Toolkit for Statistical Machine Translation”（Proceedings of the ACL 2007 Demo and Poster Sessions, pages 177-180）に記載されているようなＭｏｓｅｓ等のツールを用いることができる。

このフレーズ翻訳モデル生成手段１４１は、例えば、フレーズ翻訳モデル１４１ｍとして、図４に示すように、「原言語フレーズ」が「目的言語フレーズ」に翻訳される「確率［％］」をテーブル情報（フレーズテーブルＦＴ）として生成する。
例えば、図４では、原言語フレーズの「ＫａＱｋｏｋ」が目的言語フレーズの「Ｋａｋｏｋ」に翻訳される確率は、６０．２０（％）であることを示している。
なお、図４のフレーズテーブルＦＴの「例」の欄は、参考までに、各フレーズを音素列として含む単語を示しており、実際にテーブル内に含まれるものではない。

このフレーズ翻訳モデル生成手段１４１は、生成したフレーズ翻訳モデル１４１ｍを、図示を省略した記憶手段に記憶する。このフレーズ翻訳モデル１４１ｍは、統計的機械翻訳モデル１４ｍの一部として、翻訳手段１５において利用される。

モノフォン言語モデル生成手段（単一音素言語モデル生成手段）１４２は、音素認識手段１３で生成されたモノフォンの音素列である目的言語の実発話音素列１３ｍから、言語モデル（モノフォン言語モデル１４２ｍ）を生成するものである。このモノフォン言語モデル１４２ｍは、音素認識手段１３で生成された実発話音素列１３ｍから、モノフォンを１つの単語とみなして、その出現頻度、接続のしやすさを統計的にモデル（例えば、Ｎグラムモデル）化したものである。すなわち、モノフォン言語モデル生成手段１４２は、前記式（１）の言語モデルＰｒ（ｅ）を生成するものである。

ここでは、モノフォン言語モデル生成手段１４２は、予め所定数（例えば、４２個）の音素を単語とする単語辞書（不図示）を参照し、学習テキストとして実発話音素列１３ｍを入力して、モノフォン言語モデル１４２ｍを生成する。このモノフォン言語モデル生成手段１４２が使用する単語辞書の単語は、例えば、図５に示すような音素とする。図５中、「ｓｉｌ」は無音、「ｓｐ」はショートポーズを示す。

一般的な言語モデルの生成が単語の出現頻度等をモデル化したものであるのに対し、モノフォン言語モデル１４２ｍは、モノフォンの音素の出現頻度等をモデル化したものである。よって、モノフォン言語モデル生成手段１４２は、その対象となる素材（単語または音素）が異なるのみで、生成手法は従来の言語モデルの手法と同じであるため、ここでは、詳細な説明を省略する。

このモノフォン言語モデル生成手段１４２は、生成したモノフォン言語モデル１４２ｍを、図示を省略した記憶手段に記憶する。このモノフォン言語モデル１４２ｍは、統計的機械翻訳モデル１４ｍの一部として、翻訳手段１５において利用される。

翻訳手段１５は、元の発音辞書１００に登録されている見出し語の発音系列（音素列）を、統計的機械翻訳モデル生成手段１４で生成された統計的機械翻訳モデル１４ｍに基づいて翻訳するものである。
すなわち、翻訳手段１５は、前記式（１）により、見出し語の発音（原言語ｆの音素列に相当）が、フレーズ翻訳モデル１４１ｍであるＰｒ（ｆ｜ｅ）と、モノフォン言語モデル１４２ｍであるＰｒ（ｅ）との同時確率が最大となる音素列を、見出し語の翻訳文（目的言語ｅの音素列に相当）として生成する。
この翻訳手段１５は、元の発音辞書１００に登録されている見出し語ごとに、対応する発音系列の翻訳文を生成し、拡張手段１６に出力する。

拡張手段１６は、元の発音辞書１００に登録されている見出し語の発音系列に、翻訳手段１５で翻訳された新たな発音（翻訳文）である音素列を拡張するものである。
すなわち、拡張手段１６は、元の発音辞書１００に登録されている見出し語に対応する翻訳文が翻訳手段１５から入力されるたびに、その翻訳文（音素列）と、元の発音辞書１００に登録されている発音系列（音素列）とを比較する。そして、拡張手段１６は、翻訳文と元の発音系列とが一致しない場合、当該見出し語に対して、翻訳文を新たな発音系列として追加する。
ここでは、拡張手段１６は、元の発音辞書１００の見出し語に対する発音系列（元の発音系列および新たな発音系列）を、新たな発音辞書として拡張発音辞書１０３に登録する。もちろん、拡張手段１６は、元の発音辞書１００に新たな発音系列のみを追加することとしてもよい。

ここで、図６を参照して、発音系列拡張装置１によって拡張発音辞書１０３に追加された音素列の例について説明する。
図６に示すように、拡張発音辞書１０３は、「見出し語」、「元の音素列」、「追加音素列」で構成される。「見出し語」および「元の音素列」は、元の発音辞書１００に登録されているものと同じで、「追加音素列」が、発音系列拡張装置１によって追加されたものである。

例えば、図６では、見出し語「女川湾」に元の音素列「ｏｎａｇａｇａｗａＮ」が登録されており、発音系列拡張装置１によって、追加音素列「ｏｎａｇａｗａＮ」が追加された例を示している。また、同様に、見出し語「志津川湾」に元の音素列「ｓｈｉｚｕｇａｇａｗａＮ」が登録されており、発音系列拡張装置１によって、追加音素列「ｓｈｉｚｕｇａｗａＮ」が追加されている。
このように、発音系列拡張装置１は、発音のしにくさによって、単語内の音素列「ｇａｗａｗａ」が「ｇａｗａ」に発音変動する場合、個別に手動でこの変動規則を設定する必要がない。

また、図６では、見出し語「ホームグラウンド」に元の音素列「ｈｏ：ｍｕｇｕｒａｕＮｄｏ」が登録されており、発音系列拡張装置１によって、追加音素列「ｈｏ：ｍｕｒａｕＮｄｏ」が追加された例を示している。
このように、発音系列拡張装置１は、長い単語中の発音しにくい奥舌性子音の「ｇ」の欠落についても発音辞書に追加することができる。

なお、発音系列拡張装置１が生成する拡張発音辞書１０３は、一般的な音声認識装置、例えば、大語彙連続音声認識装置において使用することができる。その場合、例えば、図７に示すように、大語彙連続音声認識装置２００は、発音系列拡張装置１が生成する拡張発音辞書１０３に加え、既存の音響モデル１０１と言語モデル１０４とにより、入力音声を音声認識し認識結果を出力する。

以上説明したように発音系列拡張装置１を構成することで、発音系列拡張装置１は、発音変動を、学習コーパス１０２を用いて発音辞書に追加することができる。
なお、この実施形態では、音素列生成手段１０、トライフォン発音辞書生成手段１１およびトライフォン言語モデル生成手段１２において、複数組音素としてトライフォンを例に説明した。この複数組音素は、トライフォンに限定されることはなく、その他、組数を増やした音素（例えば、５つの音素で構成されるクイントフォン）であっても構わない。
また、発音系列拡張装置１は、図示を省略したコンピュータを、前記した各手段として機能させるプログラム（発音系列拡張プログラム）で動作させることができる。

〔発音系列拡張装置の動作〕
次に、図８を参照（構成については適宜図１参照）して、本発明の実施形態に係る発音系列拡張装置１の動作について説明する。

まず、発音系列拡張装置１は、学習コーパス１０２の音声（音声コーパス）から、トライフォンの音素列と、モノフォンの音素列とを生成する。
すなわち、発音系列拡張装置１は、音素列生成手段１０によって、発音辞書１００と音響モデル１０１とに基づいて、学習コーパス１０２の音声（音声コーパス）を強制アライメントし、発音辞書１００に登録されている文字列に対応するトライフォンの音素列を生成する（ステップＳ１）。

さらに、音素列生成手段１０は、ステップＳ１で生成されたトライフォンの中心音素を抽出してモノフォンの音素列を生成する（ステップＳ２）。
このステップＳ２で生成されたモノフォンの音素列は、後のステップＳ６で使用する原言語の音素列（標準音素列１０ｍ）である。

そして、発音系列拡張装置１は、トライフォン発音辞書生成手段１１によって、ステップＳ１で生成されたトライフォンの音素列を、トライフォンごとに、見出し語およびその発音系列とする発音辞書（トライフォン発音辞書１１ｔ）を生成する（ステップＳ３）。

さらに、発音系列拡張装置１は、トライフォン言語モデル生成手段１２によって、ステップＳ１で生成されたトライフォンの音素列から、トライフォンを１つの単語とみなした言語モデル（トライフォン言語モデル１２ｔ）を生成する（ステップＳ４）。

そして、発音系列拡張装置１は、音素認識手段１３によって、ステップＳ３，Ｓ４でそれぞれ生成されたトライフォン発音辞書１１ｔおよびトライフォン言語モデル１２ｔを用いて、学習コーパス１０２の音声（音声コーパス）からモノフォンの音素を認識する（ステップＳ５）。
このステップＳ５で生成されたモノフォンの音素列は、後のステップＳ６で使用する目的言語の音素列（実発話音素列１３ｍ）である。

そして、発音系列拡張装置１は、統計的機械翻訳モデル生成手段１４によって、ステップＳ２で生成されたモノフォンの音素列（標準音素列１０ｍ）を原言語、ステップＳ５で認識されたモノフォンの音素列（実発話音素列１３ｍ）を目的言語とする統計的機械翻訳モデルを生成する。
すなわち、発音系列拡張装置１は、統計的機械翻訳モデル生成手段１４のフレーズ翻訳モデル生成手段１４１によって、標準音素列１０ｍと実発話音素列１３ｍとを対訳データとして、標準音素列１０ｍのあるフレーズが、実発話音素列１３ｍのあるフレーズに翻訳される翻訳モデル（フレーズ翻訳モデル１４１ｍ）を生成する（ステップＳ６）。

そして、発音系列拡張装置１は、統計的機械翻訳モデル生成手段１４のモノフォン言語モデル生成手段１４２によって、実発話音素列１３ｍから、モノフォンを１つの単語とみなして、言語モデル（モノフォン言語モデル１４２ｍ）を生成する（ステップＳ７）。

このステップＳ７で生成されたモノフォン言語モデル１４２ｍと、先のステップＳ６で生成されたフレーズ翻訳モデル１４１ｍとにより、前記式（１）で示す統計的機械翻訳モデル１４ｍが構成されることになる。
その後、発音系列拡張装置１は、翻訳手段１５によって、元の発音辞書１００に登録されている見出し語の発音系列（音素列）を順次読み出し、ステップＳ６，Ｓ７で生成された統計的機械翻訳モデル１４ｍに基づいて翻訳する（ステップＳ８）。

そして、発音系列拡張装置１は、拡張手段１６によって、ステップＳ８で読み出した見出し語に対応する発音系列と、ステップＳ８で翻訳した発音系列とが異なる場合、翻訳した発音系列を当該見出し語の発音系列（音素列）として新たに追加する（ステップＳ９）。

そして、発音系列拡張装置１は、発音辞書１００に登録されている見出し語に対して、翻訳を完了していない場合（ステップＳ１０でＮｏ）、ステップＳ８に戻って動作を続ける。
一方、すべての見出し語に対して、翻訳を完了した場合（ステップＳ１０でＹｅｓ）、発音系列拡張装置１は、動作を終了する。
以上の動作によって、発音系列拡張装置１は、発音変動のある発話音声の発音系列（音素列）を発音辞書に追加し、拡張することができる。

（単語間の発音変動について）
以上の説明において、発音辞書１００の見出し語として、単語を例として説明した。しかし、発音系列拡張装置１は、音素を単位として発音変動の音素列を新たな発音系列とするため、必ずしも対象とする見出し語は単語である必要はなく、任意の文字列（複数の単語、文章等）であればよい。
これによって、発音系列拡張装置１は、単語内の発音変動のみならず、単語間の発音変動にも対応することができる。

この単語間の発音変動について、図９を参照（適宜図１参照）して説明する。
以下、音声認識において使用される、入力記号、出力記号および遷移確率を持った有限状態マシンである重み付き有限状態トランスデューサ(ＷＦＳＴ)の表記を用いて説明する。
例えば、３単語（「ある」「の」「です」）で構成される単語トライグラム「あるのです」の音素列が発音辞書１００に登録されているとする。

図９（ａ）に、単語トライグラム「あるのです」をＷＦＳＴの表記で示す。なお、ＷＦＳＴの矢印上の「入力信号／出力信号（遷移確率）」のうち、遷移確率の記載は省略する。また、「ｅｐｓ」は入出力がない遷移を示す（以下、同様）。
この単語トライグラムを、従来のように単語のみを登録した発音辞書を用いてＷＦＳＴで表記すると、図９（ｂ）のような遷移で表すことができる。
すなわち、この単語トライグラムは、図９（ｃ）に示すような音素列の遷移として表される。

一方、発音辞書に任意の文字列（ここでは、「あるんです」）を登録しておけば、発音系列拡張装置１は、図９（ｄ）に示すように、「ａｒｕｎｏｄｅｓｕ」という音素列の「ｕｎｏｄｅ」に対して、「ｕＮｄｅ」が遷移先のバリエーションとして追加されることになる。
このように、本発明に係る発音系列拡張装置１は、単語内の発音変動のみならず、単語間に跨った発音変動に対しても、音声認識可能な発音辞書を生成することができる。

１発音系列拡張装置
１０音素列生成手段
１１トライフォン発音辞書生成手段（複数組音素発音辞書生成手段）
１２トライフォン言語モデル生成手段（複数組音素言語モデル生成手段）
１３音素認識手段
１４統計的機械翻訳モデル生成手段
１４１フレーズ翻訳モデル生成手段
１４２モノフォン言語モデル生成手段（単一音素言語モデル生成手段）
１５翻訳手段
１６拡張手段
１００発音辞書
１０１音響モデル
１０２学習コーパス
１０３拡張発音辞書

Claims

見出し語とその発音系列を示す音素列とを対応付けた発音辞書と、複数組音素の音響モデルと、音声とその書き起こしテキストとを対応付けた学習コーパスとにより、前記発音辞書における前記見出し語の発音系列を拡張する発音系列拡張装置であって、
前記音響モデルと前記発音辞書とにより、前記学習コーパスの音声の複数組音素の音素列を生成するとともに、当該複数組音素の中心音素である単一音素の音素列を生成する音素列生成手段と、
前記複数組音素を見出し語およびその発音系列とする複数組音素発音辞書を生成する複数組音素発音辞書生成手段と、
前記複数組音素の音素列から、当該複数組音素を１単語とした言語モデルである複数組音素言語モデルを生成する複数組音素言語モデル生成手段と、
前記複数組音素発音辞書と前記複数組音素言語モデルとにより、前記学習コーパスの音声を音素単位で音声認識する音素認識手段と、
前記音素列生成手段で生成された単一音素の音素列である標準音素列と、前記音素認識手段で認識された音素列である実発話音素列とを対訳データとして、統計的機械翻訳モデルを生成する統計的機械翻訳モデル生成手段と、
前記統計的機械翻訳モデルにより、前記発音辞書に登録されている前記見出し語に対応する音素列を翻訳する翻訳手段と、
この翻訳手段で翻訳された音素列を新たな発音系列を示す音素列として前記見出し語に追加する拡張手段と、
を備えることを特徴とする発音系列拡張装置。
前記統計的機械翻訳モデル生成手段は、
前記標準音素列と前記実発話音素列とが対訳である確率をフレーズ翻訳モデルとして生成するフレーズ翻訳モデル生成手段と、
前記実発話音素列の単一音素を１単語とした言語モデルである単一音素言語モデルを生成する単一音素言語モデル生成手段と、を備え、
前記翻訳手段は、前記統計的機械翻訳モデルとして、前記見出し語の音素列に対して、前記フレーズ翻訳モデルと前記単一音素言語モデルとの同時確率が最大となる音素列を、当該見出し語の音素列の翻訳結果とすることを特徴とする請求項１に記載の発音系列拡張装置。
前記発音辞書の見出し語として、任意の文字数で構成された文字列を用いることを特徴とする請求項１または請求項２に記載の発音系列拡張装置。
コンピュータを、請求項１から請求項３のいずれか一項に記載の発音系列拡張装置として機能させるための発音系列拡張プログラム。