JP4545363B2

JP4545363B2 - 音声認識システムにおける発音辞書の精度の自動的決定

Info

Publication number: JP4545363B2
Application number: JP2001505001A
Authority: JP
Inventors: バーナード，エティエンヌ
Original assignee: スピーチワークス・インターナショナル・インコーポレーテッド
Priority date: 1999-06-24
Filing date: 2000-06-23
Publication date: 2010-09-15
Anticipated expiration: 2020-06-23
Also published as: DE60004862T2; AU764810B2; AU6336800A; EP1203366B1; ATE248422T1; DE60004862D1; WO2000079517A1; CA2375402A1; JP2003502702A; US6434521B1; EP1203366A1

Description

【０００１】
【発明の属する技術範囲】
本発明は、広くは、音声認識（speech recognition）システムに関し、更に特定すると、音声認識システムにおける発音辞書の正確性を評価するアプローチに関する。
【０００２】
【従来の技術】
ほとんどの音声認識システムは、発音辞書を用いて、受け取った発話に含まれる特定の語を識別している。「発話」（utterance）という用語は、この出願では、人間によって又は機械によって発生された１又は複数の音（sounds）を意味する。発話の例には、これに限定されることは意図しないが、１つの音、任意の２つ又はそれよりも多くの音、１つの単語、２つ又はそれよりも多くの単語などが含まれる。一般的に、発音辞書は、発話の予測発音（予測される発音）を定義するデータを含んでいる。発話が受け取られると、受け取られた発話は、又は、受け取られた発話の少なくとも一部は、発音辞書に含まれている予測発音と比較される。発話は、その受け取られた発話が、又は、その一部が、発音辞書に含まれている予測発音と一致すると、認識される。
【０００３】
発音辞書に関する最も重要な関心事の１つとして、発音辞書によって定義される発話の予測発音がその発話の実際の発音を正確に反映することの保証がある。特定の発話の実際の発音が予測発音と一致しない場合には、その特定の発話のその予測発音は、もはや、その特定の発話の実際の発音を識別するのに役に立たないことになる。
【０００４】
発話の実際の発音は、様々な理由のために誤って伝えられることがある。例えば、流暢な会話では、意図的に削除されたり調整されたりする音が存在する。１つのアプリケーションが、ユーザが異なる地域的なアクセントを有する複数の異なる地理的な領域においてインストールされている場合もある。そして、予測発音は、いくぶんユーザ依存的となる傾向がある。その結果として、１つの特定のアプリケーションの複数のユーザにおける変化が、音声認識システムの精度に悪影響を与える可能性がある。これは、発音における異なるイントネーションや強勢（ストレス）など、ユーザの異なる音声特性に起因する。
【０００５】
従来は、発音辞書は、報告された問題に応答して発話の実際の発音における変化を反映するために、手作業で更新される。アプリケーション又はユーザにおける変化のために音声認識システムが発話を認識できないときには、その問題は、音声認識システムの管理者に報告される。すると、管理者はその問題となった発話を識別して、発音辞書を手作業で更新し、変化をアプリケーション又はユーザに反映させる。
【０００６】
変化をアプリケーション又はユーザに反映させるために発音辞書を手作業で更新することには、深刻な短所がいくつかある。第１に、そのような更新は、音声認識システムの管理者に報告がなされている問題に依存する。報告がなされるまで、長い時間にわたって問題が存在し続けることがありうる。場合によっては、これは、その音声認識システムを用いている企業の評判に悪影響を与える可能性がある。
【０００７】
更に、問題が認識された後でさえも、発音辞書を更新するには、大量の人的資源が必要であり、そのために問題が先送りされることもありうる。例えば、発音辞書の更新には、問題の発話に対する膨大な量の実際の発音データの収集が前提となるのが通常である。次に、実際の発音データが処理され、発音辞書に含まれる予測発音データを更新するのに用いられる。その間、音声認識システムは、更新がなされるまで問題の発話を認識することができないが、これは、システムの顧客やそれ以外のユーザにとっては、非常にいらだたしいことである。
【０００８】
以上の状況を鑑みると、音声認識システムの発音辞書の精度を決定する自動化されたアプローチに対する必要性が存在する。
特に、音声認識システムの発音辞書の精度を決定する自動化されたアプローチであって、特定された精度基準を満足せず従って更新される必要がある特定の予測発音表現を識別するアプローチが望まれる。
【０００９】
更には、音声認識システムの発音辞書の精度を決定する自動化されたアプローチであって、識別プロセスにおいて必要となる人的資源の量が少なくて済むようなアプローチが望まれる。
【００１０】
【発明の概要】
上述の必要性と、以下の説明から明らかになるであろうそれ以外の必要性や目的とは、本発明によって達成される。本発明は、その１つの側面では、音声認識システムにおける発音辞書の精度を判断する方法を構成する。本発明の方法によると、特定の発話に対する予測発音表現が、発音辞書から検索される。そして、予測発音表現をその特定の発話の１又は複数の実際の発音の組と比較することによって、その予測発音表現に対する精度スコアが発生される。
【００１１】
別の側面によると、音声認識システムにおける発音辞書を自動的に更新し、発音辞書において表されている特定の語の実際の発音への１又は複数の変化を反映させる方法が提供される。この方法によると、特定の語に対する予測発音表現が発音辞書から検索される。そして、予測発音表現をその特定の語の１又は複数の実際の発音と比較することによって、その予測発音表現に対する精度スコアが発生される。その予測発音表現に対する精度スコアが特定された精度基準を満足しない場合には、予測発音表現は、前記１又は複数の実際の発音を反映するように更新される。
【００１２】
別の側面によると、音声認識システムが提供される。本発明による音声認識システムは、発音辞書が記憶されている記憶媒体と、その記憶媒体に通信可能な態様で結合された診断機構と、を備えている。この診断機構は、特定の発話に対する予測発音表現を前記発音辞書から検索するように構成されている。更に、この診断機構は、予測発音表現を特定の発話の１又は複数の実際の発音の組と比較することによって、その予測発音表現に対する精度スコアを発生するように構成されている。
【００１３】
【発明の実施の態様】
本発明の実施例は、限定的ではなく例示的に、添付の図面において図解されている。これらの図面では、同じ参照番号は、類似する構成要素を示している。
【００１４】
以下の記述では、説明を行うために、特定の詳細を提供して本発明の完全な理解が得られるようにしている。しかし、本発明は、これらの特定の詳細がなくても実現できることは明らかである。場合によっては、周知の構成や装置は、ブロック図形式で示し、発明を不必要に曖昧にすることを回避している。
【００１５】
実施例の様々な側面や特徴は、以下の、（１）導入部、（２）システムの概要、（３）発音表現、（４）発音辞書の精度の判断、及び（５）実現機構というセクションにおいて説明される。
１．導入部
音声認識システムにおける発音辞書の精度を自動的に判断するアプローチについて、説明する。一般的には、発音辞書からの特定の発話に対する予測発音表現が、その特定の発話の実際の発音と比較される。その特定の発話に対する精度スコアが、その特定の発話の予測された発音と実際の発音との比較から判断される。精度スコアは、特定された精度基準との比較において評価され、その特定の発話に対する予測発音が特定された精度基準を満足しているかどうかが判断される。予測発音がその特定の発話に対する特定された精度基準を満足しない場合には、発音辞書におけるその特定の発話に対する予測発音は更新を要するものであると識別される。すると、手作業での又は自動化された更新機構が用いられ、識別された予測発音表現を更新して、実際の発音を反映させる。
２．システムの概要
図１は、本発明の様々な側面や特徴をここで説明するのに用いるシステム１００を図解している。システム１００は、音声認識システム（ＳＲＳ）１０４と相互作用するアプリケーション１０２を含む。アプリケーション１０２は、ＳＲＳ１０４の音声認識サービスを用いる任意の要素である。アプリケーション１０２の構成要素としては、限定を意味するのではないが、１又は複数のコンピュータ・プログラム又はプロセスの形式で実現されている音声付勢式システム又は電話ベースのサービスが含まれる。アプリケーション１０２は、リンク１０６によって、ＳＲＳ１０４に通信可能な態様に結合されている。
【００１６】
ＳＲＳ１０４は、認識器１０８と、発音辞書１１２を含む不揮発性記憶装置１１０と、発音診断ツール１１４とを含む。認識器１０８は、リンク１１６によって、不揮発性記憶装置１１０に通信可能な態様で結合されている。診断ツール１１４は、リンク１１８によって、不揮発性記憶装置１１０に通信可能な態様で結合されている。リンク１１６、１１８は、それぞれの接続されている実体の間でのデータ交換を提供する任意の機構を用いて実現することができる。リンク１１６、１１８の例としては、これらの限定されることは意味しないが、ネットワーク接続、ワイヤ、光ファイバ・リンク、無線通信リンクなどがある。不揮発性記憶装置１１０は、例えば、１又は複数のディスクでありうる。
【００１７】
認識器１０８は、受け取られた発話を発音辞書１１２を用いて認識するように構成された機構である。認識器１０８は、本発明の様々な特徴や側面を曖昧にすることを回避するために、ここでは図解又は説明がされていないＳＲＳ１０４のそれ以外の構成要素との相互作用を必要とする。
【００１８】
発音辞書１１２は、ＳＲＳ１０４によって認識することができる発話に対する予測発音を定義するデータを含む。発音辞書１１２は、この明細書においてより詳細に説明されされる。
【００１９】
ある実施例によると、発音診断ツール１１４は、発音辞書１１２の精度を自動的に判断し、特定された精度基準を満足しない特定の予測発音を識別するように構成される。そして、特定された精度基準を満足しない予測発音は、受け取られた発話の実際の発音をより正確に反映するように更新されうる。
【００２０】
ＳＲＳ１０４は、本発明の様々な特徴や側面を曖昧にすることを回避するために、ここでは図解又は説明がされていないそれ以外の構成要素を含みうる。例えば、ＳＲＳ１０４は、様々なソフトウェア開発ツールや、開発プロセスを助けるのに利用可能なアプリケーション検査ツールを含みうる。そのようなツールの１例としては、米国マサチューセッツ州ボストン所在のスピーチワークス・インターナショナル社による、ダイアログ・モジュール（DialogModules^TM）として知られている再利用可能な音声ソフトウェア・モジュールの市販されているパッケージがある。
３．発音表現
図２Ａは、発音辞書１１２の実現例を図解しているブロック図２００である。発音辞書１１２は、これとは異なる実現も可能であり、本発明は、発音辞書１１２のいかなる特定の実現例にも限定されない。
【００２１】
説明の目的で、ここでは、語を認識する際の様々な具体例を用いる。しかし、本発明の実施例は、任意のタイプの発話に応用可能である。ここでの例では、発音辞書１１２は１又は複数のエントリ２０２を含み、これらのエントリはそれぞれが特定の語に対する特定の予測発音に対応する。エントリ２０２は、それぞれが、語識別子値と予測発音表現データとを含む。
【００２２】
語識別子値は、エントリ２０２が関連付けられている特定の語を特定する任意のデータである。例えば、語識別子は、特定のエントリ２０２が関連付けられている、「回転木馬」（CAROUSEL）、「りんご」（APPLE）、「動物園」（ZOO）などの実際の語でありうる。別の例を挙げると、語識別子値は、語１（WORD1）、語２（WORD2）などという語それ自体ではないデータであってエントリ２０２が特定の語にマップされることを可能にするデータでもありうる。本発明は、語識別子値のどのような特定の実現例にも限定されない。
【００２３】
予測発音表現データとは、その予測発音表現データを含むエントリと関連付けられた語に対する予測発音を特定する任意のデータである。ある実施例では、予測発音表現データは、ここでは「音素ストリング」とも称される、１又は複数の音素を特定する。ここでいう「音素」（phoneme）とは、ある言語における区別可能な最小の音を意味する。
【００２４】
例えば、エントリ２０４は、語識別子値である語１と関連付けられており、語１に対する予測発音を定義する予測発音表現データであるデータ１を含む。図２Ｂは、ある実施例によるデータ１に対する例示的な音素ストリング２０８を図解するブロック図である。音素ストリング２０８は、Ｐ１、Ｐ２、Ｐ３、・・・、ＰＮとして識別されるＮ個の音素を含む。音素ストリング２０８は、語１に対する予測発音を定義する。音素ストリング２０８は、任意の数の音素を含むことができ、本発明は、どのような特定の長さの音素ストリングにも限定されない。
【００２５】
図２に図解されているように、語１や語４のような、発音辞書２１２の中のいくつかの語は、１つのエントリだけを有しており、従って、予測発音を１つだけ有している。予測発音を複数有しているような語も存在する。例えば、語２は、３つのエントリ２０２を有しているから、予測発音を３つ有している。語３は予測発音を２つ有し、語５は予測発音を４つ有する。従って、発音辞書１１２は、任意の数の語に対して任意の数の発音を特定することができ、本発明は、どのような数の語を有する又は特定の１語に対してどのような数の予測発音を有する発音辞書にも限定されない。
４．発音辞書の精度の決定
ある実施例によると、発音辞書１１２の精度が、語の予測発音を表す発音辞書１１２に含まれている音素ストリングの第１の組とその語の実際の発音とを比較することによって、自動的に決定される。発音辞書に含まれている音素ストリングには、実際の発音との比較に基づいて精度に関するスコア（評点）が与えられる。この精度スコアは、特定された精度基準との比較において評価がなされ、発音辞書に含まれており実際の発音をより正確に反映するように更新することが必要な音素ストリングが識別される。
Ａ．音素ストリングを用いた予測される発音と実際の発音との比較
図３Ａ、図３Ｂ及び図３Ｃは、ある実施例によって発音辞書からの予測発音表現の精度を自動的に決定するアプローチをそれぞれ図解しているブロック図３００、３１０、３２０である。音素ストリング３０２は、特定の語の予測発音を表しており、音素Ｐ１、Ｐ２、Ｐ３、Ｐ４、・・・、ＰＮを含む。
【００２６】
ある実施例によると、音素ストリング３０２は、特定の語の第１の実際の発音を音素ごとに比較され、その特定の語の予測発音がその特定の語の第１の実際の発音をどのくらい適切に評価しているかが判断される。その特定の語の第１の実際の発音は、音素ストリング３０２の上に射影され、参照番号３０４で表されているスコアの組Ｓ１、Ｓ２、Ｓ３、Ｓ４、・・・、ＳＮが決定される。それぞれのスコアは、特定の音素と第１の実際の発音との間の相関を示す。例えば、図３Ａにおいて、スコアＳ１は、音素Ｐ１と第１の実際の発音との間の相関を示している。高いスコアは、それよりも低いスコアよりも相関が高いことを示すのが通常である。例えば、スコア０．９０は、スコア０．３０よりも、特定の音素と実際の発音との間の相関が高いことを示しうる。図３Ａの例では、特定の語の第１の実際の発音が、音素ストリング３０２によって表される特定の語の予測発音との一致が非常に高い。一致の度合いが非常に高いことは、スコアの組Ｓ１、Ｓ２、Ｓ３、Ｓ４、・・・、ＳＮが比較的高いことに反映されている。従って、音素ストリング３０２は、認識器１０８（図１）が特定の語の第１の実際の発音を認識するのに有用である可能性が高い。
【００２７】
図３Ｂのブロック図３１０では、予測発音は、その特定の語の第２の実際の発音との比較において評価される。この例では、予測発音は、スコアＳ３によって示されているように音素Ｐ３を除いて、第２の実際の発音との間に高い相関を有している。従って、スコアＳ３は、例えばスコアＳ１よりも、相対的に低い。スコアＳ２と比較してＳ３のスコアが相対的に低いということは、この特定の語の第２の実際の発音において、音素Ｐ３は音素Ｐ１ほどには強く表されていないことを示す。しかし、ほとんどの音素について予測発音のスコアが高いのであるから、音素ストリング３０２は、認識器１０８（図１）がその特定の語の第２の実際の発音を認識するのに有用である可能性が高い。
【００２８】
図３Ｃのブロック図３２０では、予測発音は、その特定の語の第３の実際の発音との比較において評価される。この例では、音素ストリング３０２によって表されている予測発音は、この特定の語の第３の実際の発音との関係においてスコアが低いと考えられる。すなわち、音素ストリング３０２に含まれる音素とこの特定の語の第３の実際の発音との間の相関が比較的低い。予測発音と第３の実際の発音との間に著しい差異があると、その結果として、音素ストリング３０２は、認識器１０８（図１）がその特定の語の第３の実際の発音を認識するのに有用である可能性が低いことを意味する。
Ｂ．音素ストリングの評点
発音辞書からの音素ストリングが語の実際の発音と比較されると、音素ストリングは、その精度に関して評点（スコア）が与えられる。ある実施例によると、特定の音素ストリングの特定の実際の発音に対する精度は、予測される音素ストリングに含まれるそれぞれの音素に対するスコアに基づく。例えば、図３Ａでは、予測される音素ストリング３０２は、第１の実際の発音の予測発音に対する一致の度合いが非常に高いことを示すスコア１．００を得ることがありうる。図３Ｂでは、第２の実際の発音は、予測発音とそれほどには一致しない。従って、予測される音素ストリング３０２は、第２の実際の発音については、例えば０．８０や０．９０という相対的に低いスコアを得ることになる。図３Ｃでは、第３の実際の発音は、予測発音との一致の度合いが非常に低い。
【００２９】
従って、予測される音素ストリング３０２は、第３の実際の発音に関しては、例えば０．１０や０．２０という、相対的に低いスコアを得ることになる。
特定の音素ストリングが１又は複数の実際の発音に関してスコアを得ると、これらのスコアは、特定された精度基準との比較において評価され、その特定の音素ストリングが、関連する語の実際の発音をより正確に反映するように更新される必要があるかどうかが判断される。ある実施例によると、特定された精度基準は、音素と１又は複数の実際の発音との間の最小平均相関に対応する最小平均スコア・スレショルドを含む。特定の音素に対する１又は複数の実際の発音に関する平均スコアがこの最小平均スコア・スレショルドよりも小さい場合には、その特定の音素と関連付けられた音素ストリングは、特定された精度基準を満足していないのであり、更新を行って対応する語の実際の発音をより正確に反映させることが必要である。
【００３０】
別の実施例によると、特定された精度基準は、任意の実際の発音に関する特定の音素に対する最小の受入可能スコア（相関）を特定する最小スコア・スレショルドを含む。任意の実際の発音に関するこの特定の音素に対するスコアが最小スコア・スレショルドよりも小さい場合には、その特定の音素と関連付けられた音素ストリングは、特定された精度基準を満足していないのであり、更新を行って対応する語の実際の発音をより正確に反映させることが必要である。最小スコア・スレショルドは、スコアの特定の数又はその端数が、満足されるべき精度基準に対する最小スコア・スレショルドに合致する又はそれを超えることを要求する場合がある。
【００３１】
次に、音素ストリングの評点付けについて、図４のテーブル４００を参照しながらより詳細に説明する。全体を見ると、テーブル４００は、音素Ｐ１、Ｐ２、Ｐ３、Ｐ４及びＰ５から構成される特定の語に対する特定の音素ストリングをその特定の語の３つの実際の発音との比較において評価した結果を含んでいる。テーブル４００は、５つの音素Ｐ１、Ｐ２、Ｐ３、Ｐ４及びＰ５を３つの実際の発音と比較するテストに対応する５つのエントリ４０２、４０４、４０６、４０８、４１０を含む。
【００３２】
それぞれの音素は、既に述べたアプローチを用いて、３つの実際の発音との比較において評価され、結果がコラム４１２に報告される。３つの実際の発音すべてに関してのそれぞれの音素に対する平均スコアはコラム４１４に報告され、コラム４１２のスコアから計算される。コラム４１６及び４１８には、例示的な最小平均スコア・スレショルド０．５０と例示的な最小スコア・スレショルド０．３０とが、それぞれの音素に対して、報告されている。最小スコア・スレショルドよりも下にあるそれぞれの音素に対するスコアの数は、コラム４２０に報告されている。
【００３３】
第１及び第３の音素に対応するエントリ４０２及び４０６に図解されているように、第１及び第３の音素に対する平均スコアである０．７９及び０．９３は、それぞれが、最小平均スコア・スレショルド０．５０を満足している。更に、第１又は第３の音素に対するスコアは、どれも、最小スコア・スレショルドである０．３０よりも下にはない。従って、第１及び第３の音素は、特定された精度基準を満足している。
【００３４】
第２の音素Ｐ２に対応するエントリ４０４に図解されているように、第２の音素Ｐ２に対する平均スコアである０．４７は、最小平均スコア・スレショルド０．５０よりも下にある。従って、第２の音素は、特定された精度基準を満足していない。
【００３５】
第４及び第５の音素に対応するエントリ４０８及び４１０に図解されているように、第４及び第５の両方の音素に対する平均スコアである０．６８及び０．６１は、それぞれが、最小平均スコア・スレショルド０．５０を満足している。しかし、第４及び第５の音素は、最小スコア・スレショルドよりも下にあるスコアを、それぞれが、１つ及び２つ有している。従って、第４及び第５の音素のために、この特定の音素ストリングは、特定された精度基準を満足していない。この例は、１つの音素ストリングの中の複数の音素に対するスコアを評価するのに適用することができる別の技術を図解している。１つの音素に対するスコアが関連する音素ストリングを更新させることがありうることが理解される。例えば、音素Ｐ２に対する平均スコアである０．４７は平均スコア・スレショルド０．５０よりも下にあるから、関連する音素ストリングは更新される必要があり、それ以外の音素に対するスコアは評価される必要がない。
【００３６】
この例では、特定された精度基準の下では、最小スコア・スレショルドよりも下にあるスコアが１つある場合には特定された精度基準を満足していない、と想定した。これ以外の状況では、最小スコア・スレショルドよりも下にあるスコアが特定の数ある場合には音素ストリングがその特定された精度基準を満足しないと、特定された精度基準が設定することもありうる。例えば、２つ又はそれよりも多くのスコアが最小スコア・スレショルドよりも低いような音素ストリングだけが特定された精度基準を満足しないと、特定された精度基準が設定することがありうる。このような状況では、第４の音素に対するスコアが特定された精度基準を満足させないということはあり得ないが、第５の音素に対するスコアについては、ありうる。
【００３７】
次に、音声認識システムの発音辞書からの特定の予測発音の精度を判断するアプローチについて、図４のテーブル４００と図５の流れ図５００とを参照して説明する。ステップ５０２において開始した後で、ステップ５０４において、特定の予測発音表現が、例えば図１の発音辞書１１２のような発音辞書から検索される。発音辞書１１２に含まれる予測発音は、選択的に検索され評価されることもあるし、又は、通常の発音辞書の「チューニング」手順の一部として、システマティックに検索され評価されることもある。
【００３８】
ステップ５０８では、特定の予測発音表現が１又は複数の実際の発音と比較され、その特定の予測発音に対する精度スコアが決定される。例えば、テーブル４００に示されているように、特定の予測発音表現における音素が、３つの実際の発音との比較において評価される。実際の発音が音素とどの程度相関しているかに基づいて、それぞれの実際の発音との関係で、それぞれの音素に対する精度スコアが決定される。例えば、第１の音素に対する３つの実際の発音に関する平均精度スコアの０．７９が、コラム４１４に記憶される。
【００３９】
ステップ５１０では、精度スコアは、特定の精度基準との比較において評価される。例えば、第１の音素に対する平均精度スコアである０．７９が、コラム４１６において、最小平均スコア・スレショルドの０．５０と比較される。更に、第１の音素の３つの実際の発音に対する精度スコアである０．９０、０．８０及び０．６７が、それぞれ、コラム４１８からの最小スコア・スレショルドである０．３０と比較される。
【００４０】
ステップ５１２では、平均スコアが最小平均スコア・スレショルドよりも上にあるかどうかが判断される。上にない場合には、その特定の予測発音表現は、特定された精度基準を満足していないことになり、ステップ５１４において更新される。例えば、エントリ４０４に表されている第２の音素に対する平均精度スコア０．４７は、平均スコア・スレショルドの０．５０よりも下にある。
【００４１】
ステップ５１２において平均スコアが最小平均スコア・スレショルドよりも上にない場合には、ステップ５１６において、その特定の予測発音表現に対する精度スコアが最小スコア・スレショルドよりも上にあるかどうかが判断される。既に述べたように、特定の予測発音表現に対する精度スコアの中で最小スコア・スレショルドよりも下にあるものがＮ個ある場合には、その特定された精度基準は満足されていない。満足されていない場合には、制御はステップ５１４に進み、そこで、特定の予測発音表現は、対応する語の実際の発音を反映するように更新される。例えば、第４の音素は最小スコア・スレショルドよりも下にある精度スコアは１つであり、それに対し、第５の音素は最小スコア・スレショルドよりも下にある精度スコアは２つである。しかし、ステップ５１６において、精度スコアが最小スコア・スレショルドを満足する場合には、特定された精度基準は満足されたことになる。すると、プロセスは、ステップ５１８において終了する。
【００４２】
ここでは、主に、語の予測発音の精度を決定するというコンテキストにおいて実施例を説明してきたが、任意のタイプの発話と共にここで説明したアプローチを用いることができるのであって、本発明は、語のコンテキストに限定されることはない。
５．実現機構
Ａ．概観
音声認識システムにおける発音辞書の精度を自動的に決定することに関してここで説明しているアプローチは、コンピュータ・ソフトウェア、ハードウェア回路、又は、コンピュータ・ソフトウェアとハードウェア回路との組合せにおいて実現することができる。従って、本発明は、特定のコンピュータ・ソフトウェアやハードウェア回路による実現に限定されることはない。例えば、図１に図解されているように、このアプローチは、ＳＲＳ１０４の一部である発音診断ツール１１４において実現することができる。別の例としては、このアプローチは、認識器１０８の一部として実現することができる。また、このアプローチは、ＳＲＳ１０４の外部に配置されており発音辞書１１２の精度を評価するのに周期的に用いられ特定された精度基準を満足しない発音辞書１１２の中の予測発音表現に対する勧告を提供するスタンドアロンの機構としても実現することができる。
Ｂ．実現ハードウェア
図６は、本発明のある実施例が実現されうる例示的なコンピュータ・システム６００を図解しているブロック図である。コンピュータ・システム６００は、情報を通信するバス６０２又はそれ以外の通信機構と、バス６０２に結合されており情報を処理するプロセッサ６０４とを含む。また、コンピュータ・システム６００は、情報とプロセッサ６０４によって実行される命令を記憶するメイン・メモリ６０６を有している。メイン・メモリ６０６は、ランダム・アクセス・メモリ（ＲＡＭ）又はそれ以外のダイナミックな記憶装置などであり、バス６０２に結合されている。また、メイン・メモリ６０６は、プロセッサ６０４によって実行される命令の実行の間に、一時的な変数やそれ以外の中間的な情報を記憶するのにも用いられる。コンピュータ・システム６００は、更に、バス６０２に結合されておりプロセッサ６０４のための静的な情報及び命令を記憶するリード・オンリ・メモリ（ＲＯＭ）６０８を含む。磁気ディスクや光ディスクなどの記憶装置６１０が提供され、バス６０２に結合され、情報及び命令を記憶する。
【００４３】
コンピュータ・システム６００は、コンピュータのユーザに対して情報を表示する陰極線管（ＣＲＴ）などのディスプレイ６１２にバス６０２を介して結合されている。英数字及びそれ以外のキーを含む入力装置６１４がバス６０２に結合されており、情報及びコマンドの選択をプロセッサ６０４に送る。他のタイプのユーザ入力装置として、マウス、トラックボール、カーソル方向キーなど、方向情報及びコマンドの選択をプロセッサ６０４に送り、ディスプレイ６１２上でのカーソル移動を制御する、カーソル・コントロール６１６がある。この入力装置は、通常、この装置が平面における位置を特定することを可能にする第１の軸（例えばｘ軸）及び第２の軸（例えばｙ軸）という２つの軸において、自由度２を有している。
【００４４】
本発明は、発音辞書の精度を自動的に決定するために、コンピュータ・システム６００を用いる。本発明のある実施例によると、発音辞書の精度を自動的に決定する機構は、プロセッサ６０４がメイン・メモリ６０６に含まれている１又は複数の命令の１又は複数のシーケンスを実行することに応答して、コンピュータ・システム６００によって提供される。これらの命令は、記憶装置６１０など他のコンピュータ可読である媒体から、メイン・メモリ６０６に読み込まれる。メイン・メモリ６０６に含まれる命令のシーケンスが実行されると、プロセッサ６０４は、ここで説明されたプロセスのステップを実行する。マルチ処理構成における１又は複数のプロセッサを用いて、メイン・メモリ６０６に含まれている命令のシーケンスを実行することもできる。別の実施例では、ソフトウェア命令の代わりに、又は、ソフトウェア命令と組み合わせて、ハードワイヤード回路を用い、本発明を実現することもできる。このように、本発明の実施例は、ハードウェア回路及びソフトウェアのどのような特定の組合せにも限定されない。
【００４５】
ここで用いている「コンピュータ可読な媒体」という用語は、プロセッサ６０４が実行する命令を提供することに参加する任意の媒体を意味している。そのような媒体は任意の形態を取ることができるのであって、これらに限定されることはないが、不揮発性媒体、揮発性媒体、伝送媒体を含む。不揮発性媒体には、例えば、記憶装置６１０のような光及び磁気ディスクが含まれる。揮発性媒体には、メイン・メモリ６０６のようなダイナミック・メモリが含まれる。伝送媒体には、バス６０２を含むワイヤを含む、同軸ケーブル、銅線、光ファイバなどが含まれる。更に、伝送媒体としては、無線波及び赤外線データ通信の間に発生される音波や光波という形態もある。
【００４６】
コンピュータ可読な媒体の一般的な形態としては、例えば、フロッピー（登録商標）ディスク、フレキシブル・ディスク、ハードディスク、磁気テープ、任意のそれ以外の磁気媒体、ＣＤ−ＲＯＭ、任意のそれ以外の光媒体、パンチカード、紙テープ、ホールのパターンを有する任意のそれ以外の物理的媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、任意のそれ以外のメモリ・チップ又はカートリッジ、後述する搬送波、コンピュータが読み出すことができる任意のそれ以外の媒体が含まれる。
【００４７】
様々な形態のコンピュータ可読媒体は、プロセッサ６０４が実行する１又は複数の命令の１又は複数のシーケンスを搬送することに関わる。例えば、命令を、当初は、リモート・コンピュータの磁気ディスク上に格納しておくことが可能である。そして、このリモート・コンピュータは、命令をそのダイナミック・メモリにロードし、モデムを用いて電話回線を介してその命令を送ることができる。コンピュータ・システム６００側のモデムは、電話回線上のそのデータを受け取り、赤外線送信機を用いてデータを赤外線信号に変換することができる。バス６０２に結合された赤外線検出器は、赤外線信号内に搬送されているデータを受け取り、それをバス６０２上に配置することができる。バス６０２は、データをメイン・メモリ６０６まで運び、プロセッサ６０４はメイン・メモリ６０６から命令を検索して実行する。メイン・メモリ６０６によって受け取られた命令は、オプションであるが、プロセッサ６０４による実行の前か後かのいずれかに記憶装置６１０上に記憶することができる。
【００４８】
コンピュータ・システム６００は、また、バス６０２に結合された通信インターフェース６１８を含んでいる。通信インターフェース６１８は、ローカル・ネットワーク６２２に接続されたネットワーク回線６２０への双方向のデータ通信結合を提供する。例えば、通信インターフェース６１８は、対応するタイプの電話回線へのデータ通信接続を提供するＩＳＤＮカードやモデムでありうる。別の例としては、通信インターフェース６１８は、互換性を有するＬＡＮへのデータ通信接続を提供するＬＡＮカードでもよい。無線リンクを実現することも可能である。任意のこのような実現例においても、通信インターフェース６１８は、様々なタイプの情報を表すデジタル・データ・ストリームを搬送する電気、電磁気又は光信号を送受信する。
【００４９】
ネットワーク・リンク６２０は、１又は複数のネットワークを介して他のデータ装置へのデータ通信を提供するのが通常である。例えば、ネットワーク・リンク６２０は、ローカル・ネットワーク６２２を介して、ホスト・コンピュータ６２４への、又は、インターネット・サービス・プロバイダ（ＩＳＰ）６２６によって動作されるデータ装置への接続を提供する。ＩＳＰ６２６は、これに対して、今日では一般的に「インターネット」と称されている全世界的なパケット・データ通信ネットワーク６２８を介して、データ通信サービスを提供する。ローカル・ネットワーク６２２とインターネット６２８とは、共に、デジタル・データ・ストリームを搬送する電気、電磁気又は光信号を用いる。様々なネットワークを介する信号、ネットワーク・リンク６２０上の信号、通信インターフェース６１８を介する信号などは、コンピュータ・システム６００との間でデジタル・データを搬送するのであるが、情報を運ぶ搬送波の例示的な形態である。
【００５０】
コンピュータ・システム６００は、プログラム・コードを含むデータを、ネットワーク、ネットワーク・リクエスト６２０及び通信インターフェース６１８を介して、メッセージを送りデータを受け取る。インターネットの例では、サーバ６３０が、インターネット６２８、ＩＳＰ６２６、ローカル・ネットワーク６２２及び通信インターフェース６１８を介してアプリケーション・プログラムのためのリクエストされたコードを送信する。本発明によると、そのようなダウンロードされたアプリケーションの１つが、ここで説明している発音辞書の精度を自動的に判断する。
【００５１】
受け取られたコードは、受け取られたときにプロセッサ６０４によって実行されたり、後で実行されるように記憶装置６１０やそれ以外の不揮発性記憶装置に記憶されたりする。このようにして、コンピュータ・システム６００は、搬送波の形態でアプリケーション・コードを受け取ることができる。
【００５２】
この出願で提案している発音辞書の精度を自動的に判断するアプローチは、従来のアプローチと比較して、いくつかの長所及び利点を提供する。特に、自動化された機構を用いることにより、発音辞書の精度を判断するのに要求される人的な資源の量を減少させることができる。これにより、ユーザが特定の語における問題を識別するのを待つことなく、発音辞書の精度を周期的に評価し修正することが可能になる。更には、本発明の自動化されたアプローチによれば、従来型の手作業によるアプローチの場合よりも迅速に、発音辞書をアプリケーション、ユーザ又はコンテキストへの変更を反映するように更新することが可能になる。本発明のアプローチにおいて自動化が達成されているために、発音辞書１１２の精度を向上させることができる。その理由は、（１）本発明のアプローチは、音声認識システム１０４の性質を考慮に入れており、（２）手作業で調整がなされる発音は、言語学的な先入観に対するバイアスのために、精度が劣るからである。
【００５３】
以上の説明では、特定の実施例について述べてきた。しかし、本発明のより広い精神及び範囲から逸脱することなく、様々な修正や変更をこれら特定の実施例に対して加えることができるのは明らかであろう。従って、この明細書及び図面は、限定を意味するのではなく例示的なものと見るべきである。
【図面の簡単な説明】
【図１】本発明の１つの実施例による音声認識システムの発音辞書の精度を自動的に判断するシステムのブロック図である。
【図２】図２Ａ及び２Ｂで構成される。図２Ａは、本発明の１つの実施例による発音辞書のコンテンツの一部を図解するブロック図である。図２Ｂは、本発明の１つの実施例による音素ストリング構成のコンテンツを図解するブロック図である。
【図３】図３Ａ、３Ｂ及び３Ｃで構成される。図３Ａは、本発明のある実施例に従って、ある語の予測される発音の音素ストリング表現をその語の第１の実際の発音と比較する様子を図解するブロック図である。図３Ｂは、本発明のある実施例に従って、ある語の予測される発音の音素ストリング表現をその語の第２の実際の発音と比較する様子を図解するブロック図である。図３Ｃは、本発明のある実施例に従って、ある語の予測される発音の音素ストリング表現をその語の第３の実際の発音と比較する様子を図解するブロック図である。
【図４】本発明のある実施例によって、音素ストリングに対する精度スコアを決定する様子を図解するテーブルである。
【図５】本発明のある実施例によって、発音辞書の精度を自動的に判断するプロセスの流れ図である。
【図６】本発明の実施例を実現することができるコンピュータ・システムのブロック図である。

Claims

発音辞書（１１２）の精度を決定し、前記発音辞書を更新してその精度を向上させる方法であって、
複数のエントリ（２０２）を有する発音辞書を提供するステップであって、それぞれのエントリは語識別子（ＩＤ）と語の予測発音の少なくとも１つの音素ストリングとを含み、それぞれの音素ストリングは複数の音素（Ｐ１−ＰＮ）を有している、ステップと、
特定の語の複数の実際の発話を複数のユーザから受け取るステップと、
前記発話（３０４、３１２、３２２）のそれぞれを前記発音辞書の中の音素ストリング（３０２）と比較し、対応する音素ストリング・スコア（４１２）を発生するステップであって、それぞれの音素ストリング・スコアは前記比較された音素ストリングに対する前記受け取られた発話の精度を音素ごとに示す（４０２、４０４、４０６）、ステップと、
前記音素ストリング・スコアを所定の精度基準（４１６、４１８）に対して評価し、前記発音辞書の中の更新されるべきエントリを識別するステップと、
を含むことを特徴とする方法。
請求項１記載の方法において、前記音素ストリング・スコアは前記音素ストリングの中のそれぞれの音素に対する音素スコアを有し、それぞれの音素スコアは前記音素ストリングの中の音素と前記実際の発話における対応する音素との間の相関を示すことを特徴とする方法。
請求項２記載の方法において、
前記音素ストリングの中のそれぞれの音素に対し、前記実際の発話のそれぞれの対応する音素スコアから、前記複数の実際の発話に関する平均音素スコア（４１４）を計算するステップと、
前記平均音素スコアのいずれかがスレショルド値（４１６）よりも低いかどうかを判断するステップと、
低い場合には、前記音素ストリングを有する前記発音辞書の中の対応するエントリを更新を要するものと識別するステップと、
を更に含むことを特徴とする方法。
請求項２記載の方法において、
前記音素スコアを最小スコア・スレショルド（４１８）と比較するステップと、
前記音素ストリングの中の音素の少なくとも１つが前記音素スコアが前記最小スコア・スレショルドよりも低い場合の特定の数を有する場合には、前記音素ストリングを有する前記発音辞書の中の対応するエントリを更新を要するものと識別するステップと、
を更に含むことを特徴とする方法。
発音辞書（１１２）の精度を決定し前記発音辞書を更新してその精度を向上させる命令の１又は複数のシーケンスを格納したコンピュータ可読媒体であって、命令の前記１又は複数のシーケンスは、１又は複数のプロセッサによって実行されるときに、
複数のエントリ（２０２）を有する発音辞書を提供するステップであって、それぞれのエントリは語識別子（ＩＤ）と語の予測発音の少なくとも１つの音素ストリングとを含み、それぞれの音素ストリングは複数の音素（Ｐ１−ＰＮ）を有している、ステップと、
特定の語の複数の実際の発話を複数のユーザから受け取るステップと、
前記発話（３０４、３１２、３２２）のそれぞれを前記発音辞書の中の音素ストリング（３０２）と比較し、対応する音素ストリング・スコア（４１２）を発生するステップであって、それぞれの音素ストリング・スコアは前記比較された音素ストリングに対する前記受け取られた発話の精度を音素ごとに示す（４０２、４０４、４０６）、ステップと、
前記音素ストリング・スコアを所定の精度基準（４１６、４１８）に対して評価し、前記発音辞書の中の更新されるべきエントリを識別するステップと、
を実行することを特徴とするコンピュータ可読媒体。
請求項５記載のコンピュータ可読媒体において、前記音素ストリング・スコアは前記音素ストリングの中のそれぞれの音素に対する音素スコアを有し、それぞれの音素スコアは前記音素ストリングの中の音素と前記実際の発話における対応する音素との間の相関を示すことを特徴とするコンピュータ可読媒体。
請求項６記載のコンピュータ可読媒体において、前記命令は、更に、
前記音素ストリングの中のそれぞれの音素に対し、前記実際の発話のそれぞれの対応する音素スコアから、前記複数の実際の発話に関する平均音素スコア（４１４）を計算するステップと、
前記平均音素スコアのいずれかがスレショルド値（４１６）よりも低いかどうかを判断するステップと、
低い場合には、前記音素ストリングを有する前記発音辞書の中の対応するエントリを更新を要するものと識別するステップと、
を実行することを特徴とするコンピュータ可読媒体。
請求項６記載のコンピュータ可読媒体において、前記命令は、更に、
前記音素スコアを最小スコア・スレショルド（４１８）と比較するステップと、
前記音素ストリングの中の音素の少なくとも１つが前記音素スコアが前記最小スコア・スレショルドよりも低い場合の特定の数を有する場合には、前記音素ストリングを有する前記発音辞書の中の対応するエントリを更新を要するものと識別するステップと、
を実行することを特徴とするコンピュータ可読媒体。
発音辞書（１１２）の精度を決定し前記発音辞書を更新してその精度を向上させる音声認識診断装置であって、
複数のエントリ（２０２）を有する発音辞書であって、それぞれのエントリは語識別子（ＩＤ）と語の予測発音の少なくとも１つの音素ストリングとを含み、それぞれの音素ストリングは複数の音素（Ｐ１−ＰＮ）を有している、発音辞書と、
特定の語の複数の実際の発話を複数のユーザから受け取るロジックと、
前記発話（３０４、３１２、３２２）のそれぞれを前記発音辞書の中の音素ストリング（３０２）と比較し、対応する音素ストリング・スコア（４１２）を発生するロジックであって、それぞれの音素ストリング・スコアは前記比較された音素ストリングに対する前記受け取られた発話の精度を音素ごとに示す（４０２、４０４、４０６）、ロジックと、
前記音素ストリング・スコアを所定の精度基準（４１６、４１８）に対して評価し、前記発音辞書の中の更新されるべきエントリを識別するロジックと、
を備えていることを特徴とする音声認識診断装置。
請求項９記載の音声認識診断装置において、前記比較するロジックは、前記音素ストリングの中のそれぞれの音素に対する音素スコアを有する音素ストリング・スコアを発生し、それぞれの音素スコアは前記音素ストリングの中の音素と前記実際の発話における対応する音素との間の相関を示すことを特徴とする音声認識診断装置。
請求項１０記載の音声認識診断装置において、
前記音素ストリングの中のそれぞれの音素に対し、前記実際の発話のそれぞれの対応する音素スコアから、前記複数の実際の発話に関する平均音素スコア（４１４）を計算するロジックと、
前記平均音素スコアのいずれかがスレショルド値（４１６）よりも低いかどうかを判断し、低い場合には、前記音素ストリングを有する前記発音辞書の中の対応するエントリを更新を要するものと識別するロジックと、
を更に備えていることを特徴とする音声認識診断装置。
請求項１０記載の音声認識診断装置において、
前記音素スコアを最小スコア・スレショルド（４１８）と比較し、前記音素ストリングの中の音素の少なくとも１つが前記音素スコアが前記最小スコア・スレショルドよりも低い場合の特定の数を有する場合には、前記音素ストリングを有する前記発音辞書の中の対応するエントリを更新を要するものと識別するロジックを更に備えていることを特徴とする音声認識診断装置。