JP4545363B2 - 音声認識システムにおける発音辞書の精度の自動的決定 - Google Patents

音声認識システムにおける発音辞書の精度の自動的決定 Download PDF

Info

Publication number
JP4545363B2
JP4545363B2 JP2001505001A JP2001505001A JP4545363B2 JP 4545363 B2 JP4545363 B2 JP 4545363B2 JP 2001505001 A JP2001505001 A JP 2001505001A JP 2001505001 A JP2001505001 A JP 2001505001A JP 4545363 B2 JP4545363 B2 JP 4545363B2
Authority
JP
Japan
Prior art keywords
phoneme
score
pronunciation
string
pronunciation dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001505001A
Other languages
English (en)
Other versions
JP2003502702A (ja
Inventor
バーナード,エティエンヌ
Original Assignee
スピーチワークス・インターナショナル・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by スピーチワークス・インターナショナル・インコーポレーテッド filed Critical スピーチワークス・インターナショナル・インコーポレーテッド
Publication of JP2003502702A publication Critical patent/JP2003502702A/ja
Application granted granted Critical
Publication of JP4545363B2 publication Critical patent/JP4545363B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

【0001】
【発明の属する技術範囲】
本発明は、広くは、音声認識(speech recognition)システムに関し、更に特定すると、音声認識システムにおける発音辞書の正確性を評価するアプローチに関する。
【0002】
【従来の技術】
ほとんどの音声認識システムは、発音辞書を用いて、受け取った発話に含まれる特定の語を識別している。「発話」(utterance)という用語は、この出願では、人間によって又は機械によって発生された1又は複数の音(sounds)を意味する。発話の例には、これに限定されることは意図しないが、1つの音、任意の2つ又はそれよりも多くの音、1つの単語、2つ又はそれよりも多くの単語などが含まれる。一般的に、発音辞書は、発話の予測発音(予測される発音)を定義するデータを含んでいる。発話が受け取られると、受け取られた発話は、又は、受け取られた発話の少なくとも一部は、発音辞書に含まれている予測発音と比較される。発話は、その受け取られた発話が、又は、その一部が、発音辞書に含まれている予測発音と一致すると、認識される。
【0003】
発音辞書に関する最も重要な関心事の1つとして、発音辞書によって定義される発話の予測発音がその発話の実際の発音を正確に反映することの保証がある。特定の発話の実際の発音が予測発音と一致しない場合には、その特定の発話のその予測発音は、もはや、その特定の発話の実際の発音を識別するのに役に立たないことになる。
【0004】
発話の実際の発音は、様々な理由のために誤って伝えられることがある。例えば、流暢な会話では、意図的に削除されたり調整されたりする音が存在する。1つのアプリケーションが、ユーザが異なる地域的なアクセントを有する複数の異なる地理的な領域においてインストールされている場合もある。そして、予測発音は、いくぶんユーザ依存的となる傾向がある。その結果として、1つの特定のアプリケーションの複数のユーザにおける変化が、音声認識システムの精度に悪影響を与える可能性がある。これは、発音における異なるイントネーションや強勢(ストレス)など、ユーザの異なる音声特性に起因する。
【0005】
従来は、発音辞書は、報告された問題に応答して発話の実際の発音における変化を反映するために、手作業で更新される。アプリケーション又はユーザにおける変化のために音声認識システムが発話を認識できないときには、その問題は、音声認識システムの管理者に報告される。すると、管理者はその問題となった発話を識別して、発音辞書を手作業で更新し、変化をアプリケーション又はユーザに反映させる。
【0006】
変化をアプリケーション又はユーザに反映させるために発音辞書を手作業で更新することには、深刻な短所がいくつかある。第1に、そのような更新は、音声認識システムの管理者に報告がなされている問題に依存する。報告がなされるまで、長い時間にわたって問題が存在し続けることがありうる。場合によっては、これは、その音声認識システムを用いている企業の評判に悪影響を与える可能性がある。
【0007】
更に、問題が認識された後でさえも、発音辞書を更新するには、大量の人的資源が必要であり、そのために問題が先送りされることもありうる。例えば、発音辞書の更新には、問題の発話に対する膨大な量の実際の発音データの収集が前提となるのが通常である。次に、実際の発音データが処理され、発音辞書に含まれる予測発音データを更新するのに用いられる。その間、音声認識システムは、更新がなされるまで問題の発話を認識することができないが、これは、システムの顧客やそれ以外のユーザにとっては、非常にいらだたしいことである。
【0008】
以上の状況を鑑みると、音声認識システムの発音辞書の精度を決定する自動化されたアプローチに対する必要性が存在する。
特に、音声認識システムの発音辞書の精度を決定する自動化されたアプローチであって、特定された精度基準を満足せず従って更新される必要がある特定の予測発音表現を識別するアプローチが望まれる。
【0009】
更には、音声認識システムの発音辞書の精度を決定する自動化されたアプローチであって、識別プロセスにおいて必要となる人的資源の量が少なくて済むようなアプローチが望まれる。
【0010】
【発明の概要】
上述の必要性と、以下の説明から明らかになるであろうそれ以外の必要性や目的とは、本発明によって達成される。本発明は、その1つの側面では、音声認識システムにおける発音辞書の精度を判断する方法を構成する。本発明の方法によると、特定の発話に対する予測発音表現が、発音辞書から検索される。そして、予測発音表現をその特定の発話の1又は複数の実際の発音の組と比較することによって、その予測発音表現に対する精度スコアが発生される。
【0011】
別の側面によると、音声認識システムにおける発音辞書を自動的に更新し、発音辞書において表されている特定の語の実際の発音への1又は複数の変化を反映させる方法が提供される。この方法によると、特定の語に対する予測発音表現が発音辞書から検索される。そして、予測発音表現をその特定の語の1又は複数の実際の発音と比較することによって、その予測発音表現に対する精度スコアが発生される。その予測発音表現に対する精度スコアが特定された精度基準を満足しない場合には、予測発音表現は、前記1又は複数の実際の発音を反映するように更新される。
【0012】
別の側面によると、音声認識システムが提供される。本発明による音声認識システムは、発音辞書が記憶されている記憶媒体と、その記憶媒体に通信可能な態様で結合された診断機構と、を備えている。この診断機構は、特定の発話に対する予測発音表現を前記発音辞書から検索するように構成されている。更に、この診断機構は、予測発音表現を特定の発話の1又は複数の実際の発音の組と比較することによって、その予測発音表現に対する精度スコアを発生するように構成されている。
【0013】
【発明の実施の態様】
本発明の実施例は、限定的ではなく例示的に、添付の図面において図解されている。これらの図面では、同じ参照番号は、類似する構成要素を示している。
【0014】
以下の記述では、説明を行うために、特定の詳細を提供して本発明の完全な理解が得られるようにしている。しかし、本発明は、これらの特定の詳細がなくても実現できることは明らかである。場合によっては、周知の構成や装置は、ブロック図形式で示し、発明を不必要に曖昧にすることを回避している。
【0015】
実施例の様々な側面や特徴は、以下の、(1)導入部、(2)システムの概要、(3)発音表現、(4)発音辞書の精度の判断、及び(5)実現機構というセクションにおいて説明される。
1.導入部
音声認識システムにおける発音辞書の精度を自動的に判断するアプローチについて、説明する。一般的には、発音辞書からの特定の発話に対する予測発音表現が、その特定の発話の実際の発音と比較される。その特定の発話に対する精度スコアが、その特定の発話の予測された発音と実際の発音との比較から判断される。精度スコアは、特定された精度基準との比較において評価され、その特定の発話に対する予測発音が特定された精度基準を満足しているかどうかが判断される。予測発音がその特定の発話に対する特定された精度基準を満足しない場合には、発音辞書におけるその特定の発話に対する予測発音は更新を要するものであると識別される。すると、手作業での又は自動化された更新機構が用いられ、識別された予測発音表現を更新して、実際の発音を反映させる。
2.システムの概要
図1は、本発明の様々な側面や特徴をここで説明するのに用いるシステム100を図解している。システム100は、音声認識システム(SRS)104と相互作用するアプリケーション102を含む。アプリケーション102は、SRS104の音声認識サービスを用いる任意の要素である。アプリケーション102の構成要素としては、限定を意味するのではないが、1又は複数のコンピュータ・プログラム又はプロセスの形式で実現されている音声付勢式システム又は電話ベースのサービスが含まれる。アプリケーション102は、リンク106によって、SRS104に通信可能な態様に結合されている。
【0016】
SRS104は、認識器108と、発音辞書112を含む不揮発性記憶装置110と、発音診断ツール114とを含む。認識器108は、リンク116によって、不揮発性記憶装置110に通信可能な態様で結合されている。診断ツール114は、リンク118によって、不揮発性記憶装置110に通信可能な態様で結合されている。リンク116、118は、それぞれの接続されている実体の間でのデータ交換を提供する任意の機構を用いて実現することができる。リンク116、118の例としては、これらの限定されることは意味しないが、ネットワーク接続、ワイヤ、光ファイバ・リンク、無線通信リンクなどがある。不揮発性記憶装置110は、例えば、1又は複数のディスクでありうる。
【0017】
認識器108は、受け取られた発話を発音辞書112を用いて認識するように構成された機構である。認識器108は、本発明の様々な特徴や側面を曖昧にすることを回避するために、ここでは図解又は説明がされていないSRS104のそれ以外の構成要素との相互作用を必要とする。
【0018】
発音辞書112は、SRS104によって認識することができる発話に対する予測発音を定義するデータを含む。発音辞書112は、この明細書においてより詳細に説明されされる。
【0019】
ある実施例によると、発音診断ツール114は、発音辞書112の精度を自動的に判断し、特定された精度基準を満足しない特定の予測発音を識別するように構成される。そして、特定された精度基準を満足しない予測発音は、受け取られた発話の実際の発音をより正確に反映するように更新されうる。
【0020】
SRS104は、本発明の様々な特徴や側面を曖昧にすることを回避するために、ここでは図解又は説明がされていないそれ以外の構成要素を含みうる。例えば、SRS104は、様々なソフトウェア開発ツールや、開発プロセスを助けるのに利用可能なアプリケーション検査ツールを含みうる。そのようなツールの1例としては、米国マサチューセッツ州ボストン所在のスピーチワークス・インターナショナル社による、ダイアログ・モジュール(DialogModulesTM)として知られている再利用可能な音声ソフトウェア・モジュールの市販されているパッケージがある。
3.発音表現
図2Aは、発音辞書112の実現例を図解しているブロック図200である。発音辞書112は、これとは異なる実現も可能であり、本発明は、発音辞書112のいかなる特定の実現例にも限定されない。
【0021】
説明の目的で、ここでは、語を認識する際の様々な具体例を用いる。しかし、本発明の実施例は、任意のタイプの発話に応用可能である。ここでの例では、発音辞書112は1又は複数のエントリ202を含み、これらのエントリはそれぞれが特定の語に対する特定の予測発音に対応する。エントリ202は、それぞれが、語識別子値と予測発音表現データとを含む。
【0022】
語識別子値は、エントリ202が関連付けられている特定の語を特定する任意のデータである。例えば、語識別子は、特定のエントリ202が関連付けられている、「回転木馬」(CAROUSEL)、「りんご」(APPLE)、「動物園」(ZOO)などの実際の語でありうる。別の例を挙げると、語識別子値は、語1(WORD1)、語2(WORD2)などという語それ自体ではないデータであってエントリ202が特定の語にマップされることを可能にするデータでもありうる。本発明は、語識別子値のどのような特定の実現例にも限定されない。
【0023】
予測発音表現データとは、その予測発音表現データを含むエントリと関連付けられた語に対する予測発音を特定する任意のデータである。ある実施例では、予測発音表現データは、ここでは「音素ストリング」とも称される、1又は複数の音素を特定する。ここでいう「音素」(phoneme)とは、ある言語における区別可能な最小の音を意味する。
【0024】
例えば、エントリ204は、語識別子値である語1と関連付けられており、語1に対する予測発音を定義する予測発音表現データであるデータ1を含む。図2Bは、ある実施例によるデータ1に対する例示的な音素ストリング208を図解するブロック図である。音素ストリング208は、P1、P2、P3、・・・、PNとして識別されるN個の音素を含む。音素ストリング208は、語1に対する予測発音を定義する。音素ストリング208は、任意の数の音素を含むことができ、本発明は、どのような特定の長さの音素ストリングにも限定されない。
【0025】
図2に図解されているように、語1や語4のような、発音辞書212の中のいくつかの語は、1つのエントリだけを有しており、従って、予測発音を1つだけ有している。予測発音を複数有しているような語も存在する。例えば、語2は、3つのエントリ202を有しているから、予測発音を3つ有している。語3は予測発音を2つ有し、語5は予測発音を4つ有する。従って、発音辞書112は、任意の数の語に対して任意の数の発音を特定することができ、本発明は、どのような数の語を有する又は特定の1語に対してどのような数の予測発音を有する発音辞書にも限定されない。
4.発音辞書の精度の決定
ある実施例によると、発音辞書112の精度が、語の予測発音を表す発音辞書112に含まれている音素ストリングの第1の組とその語の実際の発音とを比較することによって、自動的に決定される。発音辞書に含まれている音素ストリングには、実際の発音との比較に基づいて精度に関するスコア(評点)が与えられる。この精度スコアは、特定された精度基準との比較において評価がなされ、発音辞書に含まれており実際の発音をより正確に反映するように更新することが必要な音素ストリングが識別される。
A.音素ストリングを用いた予測される発音と実際の発音との比較
図3A、図3B及び図3Cは、ある実施例によって発音辞書からの予測発音表現の精度を自動的に決定するアプローチをそれぞれ図解しているブロック図300、310、320である。音素ストリング302は、特定の語の予測発音を表しており、音素P1、P2、P3、P4、・・・、PNを含む。
【0026】
ある実施例によると、音素ストリング302は、特定の語の第1の実際の発音を音素ごとに比較され、その特定の語の予測発音がその特定の語の第1の実際の発音をどのくらい適切に評価しているかが判断される。その特定の語の第1の実際の発音は、音素ストリング302の上に射影され、参照番号304で表されているスコアの組S1、S2、S3、S4、・・・、SNが決定される。それぞれのスコアは、特定の音素と第1の実際の発音との間の相関を示す。例えば、図3Aにおいて、スコアS1は、音素P1と第1の実際の発音との間の相関を示している。高いスコアは、それよりも低いスコアよりも相関が高いことを示すのが通常である。例えば、スコア0.90は、スコア0.30よりも、特定の音素と実際の発音との間の相関が高いことを示しうる。図3Aの例では、特定の語の第1の実際の発音が、音素ストリング302によって表される特定の語の予測発音との一致が非常に高い。一致の度合いが非常に高いことは、スコアの組S1、S2、S3、S4、・・・、SNが比較的高いことに反映されている。従って、音素ストリング302は、認識器108(図1)が特定の語の第1の実際の発音を認識するのに有用である可能性が高い。
【0027】
図3Bのブロック図310では、予測発音は、その特定の語の第2の実際の発音との比較において評価される。この例では、予測発音は、スコアS3によって示されているように音素P3を除いて、第2の実際の発音との間に高い相関を有している。従って、スコアS3は、例えばスコアS1よりも、相対的に低い。スコアS2と比較してS3のスコアが相対的に低いということは、この特定の語の第2の実際の発音において、音素P3は音素P1ほどには強く表されていないことを示す。しかし、ほとんどの音素について予測発音のスコアが高いのであるから、音素ストリング302は、認識器108(図1)がその特定の語の第2の実際の発音を認識するのに有用である可能性が高い。
【0028】
図3Cのブロック図320では、予測発音は、その特定の語の第3の実際の発音との比較において評価される。この例では、音素ストリング302によって表されている予測発音は、この特定の語の第3の実際の発音との関係においてスコアが低いと考えられる。すなわち、音素ストリング302に含まれる音素とこの特定の語の第3の実際の発音との間の相関が比較的低い。予測発音と第3の実際の発音との間に著しい差異があると、その結果として、音素ストリング302は、認識器108(図1)がその特定の語の第3の実際の発音を認識するのに有用である可能性が低いことを意味する。
B.音素ストリングの評点
発音辞書からの音素ストリングが語の実際の発音と比較されると、音素ストリングは、その精度に関して評点(スコア)が与えられる。ある実施例によると、特定の音素ストリングの特定の実際の発音に対する精度は、予測される音素ストリングに含まれるそれぞれの音素に対するスコアに基づく。例えば、図3Aでは、予測される音素ストリング302は、第1の実際の発音の予測発音に対する一致の度合いが非常に高いことを示すスコア1.00を得ることがありうる。図3Bでは、第2の実際の発音は、予測発音とそれほどには一致しない。従って、予測される音素ストリング302は、第2の実際の発音については、例えば0.80や0.90という相対的に低いスコアを得ることになる。図3Cでは、第3の実際の発音は、予測発音との一致の度合いが非常に低い。
【0029】
従って、予測される音素ストリング302は、第3の実際の発音に関しては、例えば0.10や0.20という、相対的に低いスコアを得ることになる。
特定の音素ストリングが1又は複数の実際の発音に関してスコアを得ると、これらのスコアは、特定された精度基準との比較において評価され、その特定の音素ストリングが、関連する語の実際の発音をより正確に反映するように更新される必要があるかどうかが判断される。ある実施例によると、特定された精度基準は、音素と1又は複数の実際の発音との間の最小平均相関に対応する最小平均スコア・スレショルドを含む。特定の音素に対する1又は複数の実際の発音に関する平均スコアがこの最小平均スコア・スレショルドよりも小さい場合には、その特定の音素と関連付けられた音素ストリングは、特定された精度基準を満足していないのであり、更新を行って対応する語の実際の発音をより正確に反映させることが必要である。
【0030】
別の実施例によると、特定された精度基準は、任意の実際の発音に関する特定の音素に対する最小の受入可能スコア(相関)を特定する最小スコア・スレショルドを含む。任意の実際の発音に関するこの特定の音素に対するスコアが最小スコア・スレショルドよりも小さい場合には、その特定の音素と関連付けられた音素ストリングは、特定された精度基準を満足していないのであり、更新を行って対応する語の実際の発音をより正確に反映させることが必要である。最小スコア・スレショルドは、スコアの特定の数又はその端数が、満足されるべき精度基準に対する最小スコア・スレショルドに合致する又はそれを超えることを要求する場合がある。
【0031】
次に、音素ストリングの評点付けについて、図4のテーブル400を参照しながらより詳細に説明する。全体を見ると、テーブル400は、音素P1、P2、P3、P4及びP5から構成される特定の語に対する特定の音素ストリングをその特定の語の3つの実際の発音との比較において評価した結果を含んでいる。テーブル400は、5つの音素P1、P2、P3、P4及びP5を3つの実際の発音と比較するテストに対応する5つのエントリ402、404、406、408、410を含む。
【0032】
それぞれの音素は、既に述べたアプローチを用いて、3つの実際の発音との比較において評価され、結果がコラム412に報告される。3つの実際の発音すべてに関してのそれぞれの音素に対する平均スコアはコラム414に報告され、コラム412のスコアから計算される。コラム416及び418には、例示的な最小平均スコア・スレショルド0.50と例示的な最小スコア・スレショルド0.30とが、それぞれの音素に対して、報告されている。最小スコア・スレショルドよりも下にあるそれぞれの音素に対するスコアの数は、コラム420に報告されている。
【0033】
第1及び第3の音素に対応するエントリ402及び406に図解されているように、第1及び第3の音素に対する平均スコアである0.79及び0.93は、それぞれが、最小平均スコア・スレショルド0.50を満足している。更に、第1又は第3の音素に対するスコアは、どれも、最小スコア・スレショルドである0.30よりも下にはない。従って、第1及び第3の音素は、特定された精度基準を満足している。
【0034】
第2の音素P2に対応するエントリ404に図解されているように、第2の音素P2に対する平均スコアである0.47は、最小平均スコア・スレショルド0.50よりも下にある。従って、第2の音素は、特定された精度基準を満足していない。
【0035】
第4及び第5の音素に対応するエントリ408及び410に図解されているように、第4及び第5の両方の音素に対する平均スコアである0.68及び0.61は、それぞれが、最小平均スコア・スレショルド0.50を満足している。しかし、第4及び第5の音素は、最小スコア・スレショルドよりも下にあるスコアを、それぞれが、1つ及び2つ有している。従って、第4及び第5の音素のために、この特定の音素ストリングは、特定された精度基準を満足していない。この例は、1つの音素ストリングの中の複数の音素に対するスコアを評価するのに適用することができる別の技術を図解している。1つの音素に対するスコアが関連する音素ストリングを更新させることがありうることが理解される。例えば、音素P2に対する平均スコアである0.47は平均スコア・スレショルド0.50よりも下にあるから、関連する音素ストリングは更新される必要があり、それ以外の音素に対するスコアは評価される必要がない。
【0036】
この例では、特定された精度基準の下では、最小スコア・スレショルドよりも下にあるスコアが1つある場合には特定された精度基準を満足していない、と想定した。これ以外の状況では、最小スコア・スレショルドよりも下にあるスコアが特定の数ある場合には音素ストリングがその特定された精度基準を満足しないと、特定された精度基準が設定することもありうる。例えば、2つ又はそれよりも多くのスコアが最小スコア・スレショルドよりも低いような音素ストリングだけが特定された精度基準を満足しないと、特定された精度基準が設定することがありうる。このような状況では、第4の音素に対するスコアが特定された精度基準を満足させないということはあり得ないが、第5の音素に対するスコアについては、ありうる。
【0037】
次に、音声認識システムの発音辞書からの特定の予測発音の精度を判断するアプローチについて、図4のテーブル400と図5の流れ図500とを参照して説明する。ステップ502において開始した後で、ステップ504において、特定の予測発音表現が、例えば図1の発音辞書112のような発音辞書から検索される。発音辞書112に含まれる予測発音は、選択的に検索され評価されることもあるし、又は、通常の発音辞書の「チューニング」手順の一部として、システマティックに検索され評価されることもある。
【0038】
ステップ508では、特定の予測発音表現が1又は複数の実際の発音と比較され、その特定の予測発音に対する精度スコアが決定される。例えば、テーブル400に示されているように、特定の予測発音表現における音素が、3つの実際の発音との比較において評価される。実際の発音が音素とどの程度相関しているかに基づいて、それぞれの実際の発音との関係で、それぞれの音素に対する精度スコアが決定される。例えば、第1の音素に対する3つの実際の発音に関する平均精度スコアの0.79が、コラム414に記憶される。
【0039】
ステップ510では、精度スコアは、特定の精度基準との比較において評価される。例えば、第1の音素に対する平均精度スコアである0.79が、コラム416において、最小平均スコア・スレショルドの0.50と比較される。更に、第1の音素の3つの実際の発音に対する精度スコアである0.90、0.80及び0.67が、それぞれ、コラム418からの最小スコア・スレショルドである0.30と比較される。
【0040】
ステップ512では、平均スコアが最小平均スコア・スレショルドよりも上にあるかどうかが判断される。上にない場合には、その特定の予測発音表現は、特定された精度基準を満足していないことになり、ステップ514において更新される。例えば、エントリ404に表されている第2の音素に対する平均精度スコア0.47は、平均スコア・スレショルドの0.50よりも下にある。
【0041】
ステップ512において平均スコアが最小平均スコア・スレショルドよりも上にない場合には、ステップ516において、その特定の予測発音表現に対する精度スコアが最小スコア・スレショルドよりも上にあるかどうかが判断される。既に述べたように、特定の予測発音表現に対する精度スコアの中で最小スコア・スレショルドよりも下にあるものがN個ある場合には、その特定された精度基準は満足されていない。満足されていない場合には、制御はステップ514に進み、そこで、特定の予測発音表現は、対応する語の実際の発音を反映するように更新される。例えば、第4の音素は最小スコア・スレショルドよりも下にある精度スコアは1つであり、それに対し、第5の音素は最小スコア・スレショルドよりも下にある精度スコアは2つである。しかし、ステップ516において、精度スコアが最小スコア・スレショルドを満足する場合には、特定された精度基準は満足されたことになる。すると、プロセスは、ステップ518において終了する。
【0042】
ここでは、主に、語の予測発音の精度を決定するというコンテキストにおいて実施例を説明してきたが、任意のタイプの発話と共にここで説明したアプローチを用いることができるのであって、本発明は、語のコンテキストに限定されることはない。
5.実現機構
A.概観
音声認識システムにおける発音辞書の精度を自動的に決定することに関してここで説明しているアプローチは、コンピュータ・ソフトウェア、ハードウェア回路、又は、コンピュータ・ソフトウェアとハードウェア回路との組合せにおいて実現することができる。従って、本発明は、特定のコンピュータ・ソフトウェアやハードウェア回路による実現に限定されることはない。例えば、図1に図解されているように、このアプローチは、SRS104の一部である発音診断ツール114において実現することができる。別の例としては、このアプローチは、認識器108の一部として実現することができる。また、このアプローチは、SRS104の外部に配置されており発音辞書112の精度を評価するのに周期的に用いられ特定された精度基準を満足しない発音辞書112の中の予測発音表現に対する勧告を提供するスタンドアロンの機構としても実現することができる。
B.実現ハードウェア
図6は、本発明のある実施例が実現されうる例示的なコンピュータ・システム600を図解しているブロック図である。コンピュータ・システム600は、情報を通信するバス602又はそれ以外の通信機構と、バス602に結合されており情報を処理するプロセッサ604とを含む。また、コンピュータ・システム600は、情報とプロセッサ604によって実行される命令を記憶するメイン・メモリ606を有している。メイン・メモリ606は、ランダム・アクセス・メモリ(RAM)又はそれ以外のダイナミックな記憶装置などであり、バス602に結合されている。また、メイン・メモリ606は、プロセッサ604によって実行される命令の実行の間に、一時的な変数やそれ以外の中間的な情報を記憶するのにも用いられる。コンピュータ・システム600は、更に、バス602に結合されておりプロセッサ604のための静的な情報及び命令を記憶するリード・オンリ・メモリ(ROM)608を含む。磁気ディスクや光ディスクなどの記憶装置610が提供され、バス602に結合され、情報及び命令を記憶する。
【0043】
コンピュータ・システム600は、コンピュータのユーザに対して情報を表示する陰極線管(CRT)などのディスプレイ612にバス602を介して結合されている。英数字及びそれ以外のキーを含む入力装置614がバス602に結合されており、情報及びコマンドの選択をプロセッサ604に送る。他のタイプのユーザ入力装置として、マウス、トラックボール、カーソル方向キーなど、方向情報及びコマンドの選択をプロセッサ604に送り、ディスプレイ612上でのカーソル移動を制御する、カーソル・コントロール616がある。この入力装置は、通常、この装置が平面における位置を特定することを可能にする第1の軸(例えばx軸)及び第2の軸(例えばy軸)という2つの軸において、自由度2を有している。
【0044】
本発明は、発音辞書の精度を自動的に決定するために、コンピュータ・システム600を用いる。本発明のある実施例によると、発音辞書の精度を自動的に決定する機構は、プロセッサ604がメイン・メモリ606に含まれている1又は複数の命令の1又は複数のシーケンスを実行することに応答して、コンピュータ・システム600によって提供される。これらの命令は、記憶装置610など他のコンピュータ可読である媒体から、メイン・メモリ606に読み込まれる。メイン・メモリ606に含まれる命令のシーケンスが実行されると、プロセッサ604は、ここで説明されたプロセスのステップを実行する。マルチ処理構成における1又は複数のプロセッサを用いて、メイン・メモリ606に含まれている命令のシーケンスを実行することもできる。別の実施例では、ソフトウェア命令の代わりに、又は、ソフトウェア命令と組み合わせて、ハードワイヤード回路を用い、本発明を実現することもできる。このように、本発明の実施例は、ハードウェア回路及びソフトウェアのどのような特定の組合せにも限定されない。
【0045】
ここで用いている「コンピュータ可読な媒体」という用語は、プロセッサ604が実行する命令を提供することに参加する任意の媒体を意味している。そのような媒体は任意の形態を取ることができるのであって、これらに限定されることはないが、不揮発性媒体、揮発性媒体、伝送媒体を含む。不揮発性媒体には、例えば、記憶装置610のような光及び磁気ディスクが含まれる。揮発性媒体には、メイン・メモリ606のようなダイナミック・メモリが含まれる。伝送媒体には、バス602を含むワイヤを含む、同軸ケーブル、銅線、光ファイバなどが含まれる。更に、伝送媒体としては、無線波及び赤外線データ通信の間に発生される音波や光波という形態もある。
【0046】
コンピュータ可読な媒体の一般的な形態としては、例えば、フロッピー(登録商標)ディスク、フレキシブル・ディスク、ハードディスク、磁気テープ、任意のそれ以外の磁気媒体、CD−ROM、任意のそれ以外の光媒体、パンチカード、紙テープ、ホールのパターンを有する任意のそれ以外の物理的媒体、RAM、ROM、PROM、EPROM、FLASH−EPROM、任意のそれ以外のメモリ・チップ又はカートリッジ、後述する搬送波、コンピュータが読み出すことができる任意のそれ以外の媒体が含まれる。
【0047】
様々な形態のコンピュータ可読媒体は、プロセッサ604が実行する1又は複数の命令の1又は複数のシーケンスを搬送することに関わる。例えば、命令を、当初は、リモート・コンピュータの磁気ディスク上に格納しておくことが可能である。そして、このリモート・コンピュータは、命令をそのダイナミック・メモリにロードし、モデムを用いて電話回線を介してその命令を送ることができる。コンピュータ・システム600側のモデムは、電話回線上のそのデータを受け取り、赤外線送信機を用いてデータを赤外線信号に変換することができる。バス602に結合された赤外線検出器は、赤外線信号内に搬送されているデータを受け取り、それをバス602上に配置することができる。バス602は、データをメイン・メモリ606まで運び、プロセッサ604はメイン・メモリ606から命令を検索して実行する。メイン・メモリ606によって受け取られた命令は、オプションであるが、プロセッサ604による実行の前か後かのいずれかに記憶装置610上に記憶することができる。
【0048】
コンピュータ・システム600は、また、バス602に結合された通信インターフェース618を含んでいる。通信インターフェース618は、ローカル・ネットワーク622に接続されたネットワーク回線620への双方向のデータ通信結合を提供する。例えば、通信インターフェース618は、対応するタイプの電話回線へのデータ通信接続を提供するISDNカードやモデムでありうる。別の例としては、通信インターフェース618は、互換性を有するLANへのデータ通信接続を提供するLANカードでもよい。無線リンクを実現することも可能である。任意のこのような実現例においても、通信インターフェース618は、様々なタイプの情報を表すデジタル・データ・ストリームを搬送する電気、電磁気又は光信号を送受信する。
【0049】
ネットワーク・リンク620は、1又は複数のネットワークを介して他のデータ装置へのデータ通信を提供するのが通常である。例えば、ネットワーク・リンク620は、ローカル・ネットワーク622を介して、ホスト・コンピュータ624への、又は、インターネット・サービス・プロバイダ(ISP)626によって動作されるデータ装置への接続を提供する。ISP626は、これに対して、今日では一般的に「インターネット」と称されている全世界的なパケット・データ通信ネットワーク628を介して、データ通信サービスを提供する。ローカル・ネットワーク622とインターネット628とは、共に、デジタル・データ・ストリームを搬送する電気、電磁気又は光信号を用いる。様々なネットワークを介する信号、ネットワーク・リンク620上の信号、通信インターフェース618を介する信号などは、コンピュータ・システム600との間でデジタル・データを搬送するのであるが、情報を運ぶ搬送波の例示的な形態である。
【0050】
コンピュータ・システム600は、プログラム・コードを含むデータを、ネットワーク、ネットワーク・リクエスト620及び通信インターフェース618を介して、メッセージを送りデータを受け取る。インターネットの例では、サーバ630が、インターネット628、ISP626、ローカル・ネットワーク622及び通信インターフェース618を介してアプリケーション・プログラムのためのリクエストされたコードを送信する。本発明によると、そのようなダウンロードされたアプリケーションの1つが、ここで説明している発音辞書の精度を自動的に判断する。
【0051】
受け取られたコードは、受け取られたときにプロセッサ604によって実行されたり、後で実行されるように記憶装置610やそれ以外の不揮発性記憶装置に記憶されたりする。このようにして、コンピュータ・システム600は、搬送波の形態でアプリケーション・コードを受け取ることができる。
【0052】
この出願で提案している発音辞書の精度を自動的に判断するアプローチは、従来のアプローチと比較して、いくつかの長所及び利点を提供する。特に、自動化された機構を用いることにより、発音辞書の精度を判断するのに要求される人的な資源の量を減少させることができる。これにより、ユーザが特定の語における問題を識別するのを待つことなく、発音辞書の精度を周期的に評価し修正することが可能になる。更には、本発明の自動化されたアプローチによれば、従来型の手作業によるアプローチの場合よりも迅速に、発音辞書をアプリケーション、ユーザ又はコンテキストへの変更を反映するように更新することが可能になる。本発明のアプローチにおいて自動化が達成されているために、発音辞書112の精度を向上させることができる。その理由は、(1)本発明のアプローチは、音声認識システム104の性質を考慮に入れており、(2)手作業で調整がなされる発音は、言語学的な先入観に対するバイアスのために、精度が劣るからである。
【0053】
以上の説明では、特定の実施例について述べてきた。しかし、本発明のより広い精神及び範囲から逸脱することなく、様々な修正や変更をこれら特定の実施例に対して加えることができるのは明らかであろう。従って、この明細書及び図面は、限定を意味するのではなく例示的なものと見るべきである。
【図面の簡単な説明】
【図1】 本発明の1つの実施例による音声認識システムの発音辞書の精度を自動的に判断するシステムのブロック図である。
【図2】 図2A及び2Bで構成される。図2Aは、本発明の1つの実施例による発音辞書のコンテンツの一部を図解するブロック図である。図2Bは、本発明の1つの実施例による音素ストリング構成のコンテンツを図解するブロック図である。
【図3】 図3A、3B及び3Cで構成される。図3Aは、本発明のある実施例に従って、ある語の予測される発音の音素ストリング表現をその語の第1の実際の発音と比較する様子を図解するブロック図である。図3Bは、本発明のある実施例に従って、ある語の予測される発音の音素ストリング表現をその語の第2の実際の発音と比較する様子を図解するブロック図である。図3Cは、本発明のある実施例に従って、ある語の予測される発音の音素ストリング表現をその語の第3の実際の発音と比較する様子を図解するブロック図である。
【図4】 本発明のある実施例によって、音素ストリングに対する精度スコアを決定する様子を図解するテーブルである。
【図5】 本発明のある実施例によって、発音辞書の精度を自動的に判断するプロセスの流れ図である。
【図6】 本発明の実施例を実現することができるコンピュータ・システムのブロック図である。

Claims (12)

  1. 発音辞書(112)の精度を決定し、前記発音辞書を更新してその精度を向上させる方法であって、
    複数のエントリ(202)を有する発音辞書を提供するステップであって、それぞれのエントリは語識別子(ID)と語の予測発音の少なくとも1つの音素ストリングとを含み、それぞれの音素ストリングは複数の音素(P1−PN)を有している、ステップと、
    特定の語の複数の実際の発話を複数のユーザから受け取るステップと、
    前記発話(304、312、322)のそれぞれを前記発音辞書の中の音素ストリング(302)と比較し、対応する音素ストリング・スコア(412)を発生するステップであって、それぞれの音素ストリング・スコアは前記比較された音素ストリングに対する前記受け取られた発話の精度を音素ごとに示す(402、404、406)、ステップと、
    前記音素ストリング・スコアを所定の精度基準(416、418)に対して評価し、前記発音辞書の中の更新されるべきエントリを識別するステップと、
    を含むことを特徴とする方法。
  2. 請求項1記載の方法において、前記音素ストリング・スコアは前記音素ストリングの中のそれぞれの音素に対する音素スコアを有し、それぞれの音素スコアは前記音素ストリングの中の音素と前記実際の発話における対応する音素との間の相関を示すことを特徴とする方法。
  3. 請求項2記載の方法において、
    前記音素ストリングの中のそれぞれの音素に対し、前記実際の発話のそれぞれの対応する音素スコアから、前記複数の実際の発話に関する平均音素スコア(414)を計算するステップと、
    前記平均音素スコアのいずれかがスレショルド値(416)よりも低いかどうかを判断するステップと、
    低い場合には、前記音素ストリングを有する前記発音辞書の中の対応するエントリを更新を要するものと識別するステップと、
    を更に含むことを特徴とする方法。
  4. 請求項2記載の方法において、
    前記音素スコアを最小スコア・スレショルド(418)と比較するステップと、
    前記音素ストリングの中の音素の少なくとも1つが前記音素スコアが前記最小スコア・スレショルドよりも低い場合の特定の数を有する場合には、前記音素ストリングを有する前記発音辞書の中の対応するエントリを更新を要するものと識別するステップと、
    を更に含むことを特徴とする方法。
  5. 発音辞書(112)の精度を決定し前記発音辞書を更新してその精度を向上させる命令の1又は複数のシーケンスを格納したコンピュータ可読媒体であって、命令の前記1又は複数のシーケンスは、1又は複数のプロセッサによって実行されるときに、
    複数のエントリ(202)を有する発音辞書を提供するステップであって、それぞれのエントリは語識別子(ID)と語の予測発音の少なくとも1つの音素ストリングとを含み、それぞれの音素ストリングは複数の音素(P1−PN)を有している、ステップと、
    特定の語の複数の実際の発話を複数のユーザから受け取るステップと、
    前記発話(304、312、322)のそれぞれを前記発音辞書の中の音素ストリング(302)と比較し、対応する音素ストリング・スコア(412)を発生するステップであって、それぞれの音素ストリング・スコアは前記比較された音素ストリングに対する前記受け取られた発話の精度を音素ごとに示す(402、404、406)、ステップと、
    前記音素ストリング・スコアを所定の精度基準(416、418)に対して評価し、前記発音辞書の中の更新されるべきエントリを識別するステップと、
    を実行することを特徴とするコンピュータ可読媒体。
  6. 請求項5記載のコンピュータ可読媒体において、前記音素ストリング・スコアは前記音素ストリングの中のそれぞれの音素に対する音素スコアを有し、それぞれの音素スコアは前記音素ストリングの中の音素と前記実際の発話における対応する音素との間の相関を示すことを特徴とするコンピュータ可読媒体。
  7. 請求項6記載のコンピュータ可読媒体において、前記命令は、更に、
    前記音素ストリングの中のそれぞれの音素に対し、前記実際の発話のそれぞれの対応する音素スコアから、前記複数の実際の発話に関する平均音素スコア(414)を計算するステップと、
    前記平均音素スコアのいずれかがスレショルド値(416)よりも低いかどうかを判断するステップと、
    低い場合には、前記音素ストリングを有する前記発音辞書の中の対応するエントリを更新を要するものと識別するステップと、
    を実行することを特徴とするコンピュータ可読媒体。
  8. 請求項6記載のコンピュータ可読媒体において、前記命令は、更に、
    前記音素スコアを最小スコア・スレショルド(418)と比較するステップと、
    前記音素ストリングの中の音素の少なくとも1つが前記音素スコアが前記最小スコア・スレショルドよりも低い場合の特定の数を有する場合には、前記音素ストリングを有する前記発音辞書の中の対応するエントリを更新を要するものと識別するステップと、
    を実行することを特徴とするコンピュータ可読媒体。
  9. 発音辞書(112)の精度を決定し前記発音辞書を更新してその精度を向上させる音声認識診断装置であって、
    複数のエントリ(202)を有する発音辞書であって、それぞれのエントリは語識別子(ID)と語の予測発音の少なくとも1つの音素ストリングとを含み、それぞれの音素ストリングは複数の音素(P1−PN)を有している、発音辞書と、
    特定の語の複数の実際の発話を複数のユーザから受け取るロジックと、
    前記発話(304、312、322)のそれぞれを前記発音辞書の中の音素ストリング(302)と比較し、対応する音素ストリング・スコア(412)を発生するロジックであって、それぞれの音素ストリング・スコアは前記比較された音素ストリングに対する前記受け取られた発話の精度を音素ごとに示す(402、404、406)、ロジックと、
    前記音素ストリング・スコアを所定の精度基準(416、418)に対して評価し、前記発音辞書の中の更新されるべきエントリを識別するロジックと、
    を備えていることを特徴とする音声認識診断装置。
  10. 請求項9記載の音声認識診断装置において、前記比較するロジックは、前記音素ストリングの中のそれぞれの音素に対する音素スコアを有する音素ストリング・スコアを発生し、それぞれの音素スコアは前記音素ストリングの中の音素と前記実際の発話における対応する音素との間の相関を示すことを特徴とする音声認識診断装置。
  11. 請求項10記載の音声認識診断装置において、
    前記音素ストリングの中のそれぞれの音素に対し、前記実際の発話のそれぞれの対応する音素スコアから、前記複数の実際の発話に関する平均音素スコア(414)を計算するロジックと、
    前記平均音素スコアのいずれかがスレショルド値(416)よりも低いかどうかを判断し、低い場合には、前記音素ストリングを有する前記発音辞書の中の対応するエントリを更新を要するものと識別するロジックと、
    を更に備えていることを特徴とする音声認識診断装置。
  12. 請求項10記載の音声認識診断装置において、
    前記音素スコアを最小スコア・スレショルド(418)と比較し、前記音素ストリングの中の音素の少なくとも1つが前記音素スコアが前記最小スコア・スレショルドよりも低い場合の特定の数を有する場合には、前記音素ストリングを有する前記発音辞書の中の対応するエントリを更新を要するものと識別するロジックを更に備えていることを特徴とする音声認識診断装置。
JP2001505001A 1999-06-24 2000-06-23 音声認識システムにおける発音辞書の精度の自動的決定 Expired - Lifetime JP4545363B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/344,164 US6434521B1 (en) 1999-06-24 1999-06-24 Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
US09/344,164 1999-06-24
PCT/US2000/017209 WO2000079517A1 (en) 1999-06-24 2000-06-23 Automatically determining the accuracy of a pronunciation dictionary in a speech recognition system

Publications (2)

Publication Number Publication Date
JP2003502702A JP2003502702A (ja) 2003-01-21
JP4545363B2 true JP4545363B2 (ja) 2010-09-15

Family

ID=23349320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001505001A Expired - Lifetime JP4545363B2 (ja) 1999-06-24 2000-06-23 音声認識システムにおける発音辞書の精度の自動的決定

Country Status (8)

Country Link
US (1) US6434521B1 (ja)
EP (1) EP1203366B1 (ja)
JP (1) JP4545363B2 (ja)
AT (1) ATE248422T1 (ja)
AU (1) AU764810B2 (ja)
CA (1) CA2375402A1 (ja)
DE (1) DE60004862T2 (ja)
WO (1) WO2000079517A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209561A (zh) * 2019-05-09 2019-09-06 北京百度网讯科技有限公司 用于对话平台的评测方法和评测装置
CN111506736A (zh) * 2020-04-08 2020-08-07 北京百度网讯科技有限公司 文本发音获取方法、装置和电子设备

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
US7107215B2 (en) * 2001-04-16 2006-09-12 Sakhr Software Company Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study
US7016842B2 (en) * 2002-03-26 2006-03-21 Sbc Technology Resources, Inc. Method and system for evaluating automatic speech recognition telephone services
TW556152B (en) * 2002-05-29 2003-10-01 Labs Inc L Interface of automatically labeling phonic symbols for correcting user's pronunciation, and systems and methods
AU2002950336A0 (en) * 2002-07-24 2002-09-12 Telstra New Wave Pty Ltd System and process for developing a voice application
US20050080797A1 (en) * 2002-08-26 2005-04-14 Gordon Short Dynamic lexicon
AU2002951244A0 (en) * 2002-09-06 2002-09-19 Telstra New Wave Pty Ltd A development system for a dialog system
AU2003900584A0 (en) * 2003-02-11 2003-02-27 Telstra New Wave Pty Ltd System for predicting speech recognition accuracy and development for a dialog system
US7324940B1 (en) 2003-02-28 2008-01-29 Lumen Vox, Llc Speech recognition concept confidence measurement
AU2003902020A0 (en) * 2003-04-29 2003-05-15 Telstra New Wave Pty Ltd A process for grammatical inference
US20040230431A1 (en) * 2003-05-14 2004-11-18 Gupta Sunil K. Automatic assessment of phonological processes for speech therapy and language instruction
US7302389B2 (en) * 2003-05-14 2007-11-27 Lucent Technologies Inc. Automatic assessment of phonological processes
US7373294B2 (en) * 2003-05-15 2008-05-13 Lucent Technologies Inc. Intonation transformation for speech therapy and the like
US20040243412A1 (en) * 2003-05-29 2004-12-02 Gupta Sunil K. Adaptation of speech models in speech recognition
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
US7580837B2 (en) * 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7110949B2 (en) * 2004-09-13 2006-09-19 At&T Knowledge Ventures, L.P. System and method for analysis and adjustment of speech-enabled systems
US7533018B2 (en) * 2004-10-19 2009-05-12 Motorola, Inc. Tailored speaker-independent voice recognition system
GB2424742A (en) * 2005-03-31 2006-10-04 Ibm Automatic speech recognition
WO2007027989A2 (en) * 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
CN101432801B (zh) * 2006-02-23 2012-04-18 日本电气株式会社 语音识别词典制作支持系统、语音识别词典制作支持方法
CN101689364B (zh) * 2007-07-09 2011-11-23 富士通株式会社 声音识别装置和声音识别方法
WO2009016729A1 (ja) * 2007-07-31 2009-02-05 Fujitsu Limited 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
TW200926142A (en) * 2007-12-12 2009-06-16 Inst Information Industry A construction method of English recognition variation pronunciation models
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US8536976B2 (en) * 2008-06-11 2013-09-17 Veritrix, Inc. Single-channel multi-factor authentication
US8166297B2 (en) * 2008-07-02 2012-04-24 Veritrix, Inc. Systems and methods for controlling access to encrypted data stored on a mobile device
WO2010051342A1 (en) * 2008-11-03 2010-05-06 Veritrix, Inc. User authentication for social networks
US8296141B2 (en) * 2008-11-19 2012-10-23 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
US9484019B2 (en) 2008-11-19 2016-11-01 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
US8301446B2 (en) * 2009-03-30 2012-10-30 Adacel Systems, Inc. System and method for training an acoustic model with reduced feature space variation
US9183834B2 (en) * 2009-07-22 2015-11-10 Cisco Technology, Inc. Speech recognition tuning tool
US9275640B2 (en) * 2009-11-24 2016-03-01 Nexidia Inc. Augmented characterization for speech recognition
WO2011089651A1 (ja) * 2010-01-22 2011-07-28 三菱電機株式会社 認識辞書作成装置、音声認識装置及び音声合成装置
JP5633042B2 (ja) * 2010-01-28 2014-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識ロボット
JP5533042B2 (ja) * 2010-03-04 2014-06-25 富士通株式会社 音声検索装置、音声検索方法、プログラム及び記録媒体
CN102237081B (zh) 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
KR102443087B1 (ko) 2015-09-23 2022-09-14 삼성전자주식회사 전자 기기 및 그의 음성 인식 방법
US10957322B2 (en) * 2016-09-09 2021-03-23 Sony Corporation Speech processing apparatus, information processing apparatus, speech processing method, and information processing method
CN112687291B (zh) * 2020-12-21 2023-12-01 科大讯飞股份有限公司 一种发音缺陷识别模型训练方法以及发音缺陷识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS617890A (ja) * 1984-06-22 1986-01-14 富士通株式会社 音声認識対象単語検査方式
JPH067348B2 (ja) 1989-04-13 1994-01-26 株式会社東芝 パタン認識装置
DE3931638A1 (de) 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
US5710864A (en) 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
JPH08248979A (ja) * 1995-03-06 1996-09-27 Fuji Xerox Co Ltd 音声認識装置
US5933804A (en) * 1997-04-10 1999-08-03 Microsoft Corporation Extensible speech recognition system that provides a user with audio feedback
US6208964B1 (en) * 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209561A (zh) * 2019-05-09 2019-09-06 北京百度网讯科技有限公司 用于对话平台的评测方法和评测装置
CN110209561B (zh) * 2019-05-09 2024-02-09 北京百度网讯科技有限公司 用于对话平台的评测方法和评测装置
CN111506736A (zh) * 2020-04-08 2020-08-07 北京百度网讯科技有限公司 文本发音获取方法、装置和电子设备
CN111506736B (zh) * 2020-04-08 2023-08-08 北京百度网讯科技有限公司 文本发音获取方法、装置和电子设备

Also Published As

Publication number Publication date
DE60004862T2 (de) 2004-07-15
AU764810B2 (en) 2003-08-28
AU6336800A (en) 2001-01-09
EP1203366B1 (en) 2003-08-27
ATE248422T1 (de) 2003-09-15
DE60004862D1 (de) 2003-10-02
WO2000079517A1 (en) 2000-12-28
CA2375402A1 (en) 2000-12-28
JP2003502702A (ja) 2003-01-21
US6434521B1 (en) 2002-08-13
EP1203366A1 (en) 2002-05-08

Similar Documents

Publication Publication Date Title
JP4545363B2 (ja) 音声認識システムにおける発音辞書の精度の自動的決定
JP4707916B2 (ja) 発音修正による音声認識の改善
US11676575B2 (en) On-device learning in a hybrid speech processing system
US7983911B2 (en) Method, module, device and server for voice recognition
JP3049259B2 (ja) 音声認識方法
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US7668710B2 (en) Determining voice recognition accuracy in a voice recognition system
US6185530B1 (en) Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
Sainath et al. No need for a lexicon? evaluating the value of the pronunciation lexica in end-to-end models
US6961701B2 (en) Voice recognition apparatus and method, and recording medium
EP1226574A1 (en) Method and apparatus for discriminative training of acoustic models of a speech recognition system
JPWO2010021368A1 (ja) 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP5263875B2 (ja) 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP2003515778A (ja) 別々の言語モデルによる音声認識方法及び装置
JP2002215187A (ja) 音声認識方法及びその装置
JP3634863B2 (ja) 音声認識システム
US6735560B1 (en) Method of identifying members of classes in a natural language understanding system
WO2019163242A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2003241787A (ja) 音声認識装置および方法、並びにプログラム
JP2003016062A (ja) 言語の意味解析方法
JPH10198392A (ja) 音声認識方法
JP2000330586A (ja) 音声認識方法および音声認識装置
KR20050066497A (ko) 사용자 음성 분류 장치 및 그 방법과 그를 이용한음성인식 서비스방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100630

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4545363

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term