JP2003022089A - オーディオ専用インターフェースにおけるボイス・スペリング - Google Patents

オーディオ専用インターフェースにおけるボイス・スペリング

Info

Publication number
JP2003022089A
JP2003022089A JP2002140002A JP2002140002A JP2003022089A JP 2003022089 A JP2003022089 A JP 2003022089A JP 2002140002 A JP2002140002 A JP 2002140002A JP 2002140002 A JP2002140002 A JP 2002140002A JP 2003022089 A JP2003022089 A JP 2003022089A
Authority
JP
Japan
Prior art keywords
character
characters
audio
replacement
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002140002A
Other languages
English (en)
Inventor
Matthew W Hartley
マシュー・ダブリュー・ハートレイ
R Lewis James
ジェームズ・アール・ルイス
David F Ma
デヴィド・エフ・マ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2003022089A publication Critical patent/JP2003022089A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 オーディオ専用インターフェイスで利用する
ことができるボイス・スペリングのための効果的な方法
を提供すること。 【解決手段】 ボイス・スペリング方法は、オーディオ
専用インターフェースにおいて、発話文字を表す複数の
オーディオ信号と、文字列を指定する複数の発話文字と
を受け取るステップと、オーディオ専用インターフェー
スを介して、受け取った各発話文字の間に可聴フィード
バックを供給するステップとを含むことができる。加え
て、この方法は、オーディオ専用インターフェースを介
して、各発話文字を可聴に再生するステップと、再生し
た文字のうちの1つのボイス選択を受諾するステップで
あって、この選択が問題のある文字を示すステップと、
置換文字を識別するステップと、問題のある文字を、指
定した文字列中の識別した置換文字で置換するステップ
とを含むことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識の分野に
関し、より詳細には、オーディオ専用インターフェース
でのボイス・スペリングに関するシステムおよび方法に
関する。
【0002】
【従来の技術】音声認識は、マイクロフォンによって受
け取った音響信号を、コンピュータによって1組のテキ
スト・ワードに変換する処理である。多くの場合、音響
信号の変換の成功は、既知のワードの既存の語彙に基づ
くことがある。音響信号を認識した後、ワードは、文書
の準備、データ入力、ならびにコマンドおよび制御など
のために、様々なコンピュータ・ソフトウェア・アプリ
ケーションで使用することができる。音声認識システム
の改善により、ユーザの生産性を向上するための重要な
方式が提供される。
【0003】従来の音声認識システムは、離散的な語彙
を利用して音声を解釈する。具体的には、従来の音声認
識エンジンは、音声の一部の音響特性と、語彙中の事前
定義済みのワードの音響特性とを比較することができ
る。可能性の高い一致を識別することができた場合、音
声認識システムは、話者が発話した可能性の高いワード
の評価を提供することができる。当然ながら、音声認識
システムで使用される語彙が限られている場合は、音声
を処理するためにかかる時間を最小にすることができ
る。一方、音声認識で使用される語彙が大きい場合、音
声を処理するためにかかる時間が長くなる可能性があ
る。したがって、可能な場合、ユーザが発話する可能性
が高いワードを認識するための機能システムを形成する
のに必要なワードだけを含む語彙を使用することが好ま
しい。
【0004】それでもなお、スピーチ可能システムのユ
ーザによって発話される可能性のあるあらゆるワードを
予測することは、常に現実的なわけではない。したがっ
て、スピーチ可能システムで使用するのに最適な語彙を
正確に決定することも、同様に現実的ではない。この問
題は、人に固有の名前または住所を処理するように構成
する必要のあるスピーチ可能システムの場合に明らかで
ある。この場合、ユーザが発話したと考えることができ
るワードの数は、仮想的には無制限とすることができ
る。このような場合、限られた語彙に基づいては容易に
決定することのできない音声を扱うための「ボイス・ス
ペリング」機能を提供することが重要である可能性があ
る。
【0005】ボイス・スペリングは、ワードの発音に基
づいてではなく、ワードのスペルに基づいてワードを指
定するための周知の処理である。例えば、話者は、ワー
ド「Phoenix」を、その発音「fee-nicks」を述べること
によって指定することができる。一方、話者は、同じワ
ード「Phoenix」を、そのスペル「P」、「H」、
「O」、「E」、「N」、「I」、「X」を暗唱するこ
とによって指定することもできる。無線通信の技術分野
では、「A」に対して「アルファ」、「B」に対して
「ブラボー(Bravo)」、「F」に対して「フォックス
トロット(Foxtrot)」、「Z」に対して「ズールー(Z
ulu)」など、文字に変換される周知の用語を指定する
ことによってボイス・スペリングをさらに改善すること
ができる。特に、このタイプのボイス・スペリングは、
ウェブ・ページをナビゲートするために使用されるスピ
ーチ命令エンジン(speech commanding engine)などの
スピーチ命令エンジンに効果的に応用されている。
【0006】それでもなお、従来においては、組み合わ
せによって特定のワードを指定する各文字の話者の暗唱
を音声認識システムが適切に受け取り、認識したことを
確認するためのビジュアル・フィードバックが利用可能
である範囲でしかボイス・スペリングは効果的ではなか
った。具体的には、ボイス・スペリングを利用する従来
の音声認識システムでは、話者が正しく述べたことを保
証し、音声認識システムがワード中の各文字を正しく認
識したことを保証するためのビジュアル・フィードバッ
クが利用可能であることが必要である。したがって、現
在のボイス・スペリング方法は、ビジュアル・インター
フェースを有するスピーチ可能コンピュータ・プログラ
ム以外で使用することができなかった。
【0007】
【発明が解決しようとする課題】本発明の配置によるボ
イス・スペリング方法は、ビジュアル・フィードバック
のない環境で、ボイス・スペリングのための効果的な機
構を提供することができる。具体的には、本発明のボイ
ス・スペリング方法は、ビジュアル・フィードバックが
利用可能でなくても、話者が正しく述べたことを保証
し、音声認識システムがワード中の各文字を正しく認識
したことを保証することができる。したがって、本発明
は、オーディオ専用インターフェースで利用することが
できる。
【0008】
【課題を解決するための手段】本発明の一態様では、ボ
イス・スペリング方法は、オーディオ専用インターフェ
ースにおいて、発話文字を表す複数のオーディオ信号を
受け取るステップであって、複数の発話文字が文字列を
指定するステップと、オーディオ専用インターフェース
を介して、受け取った各発話文字の間に可聴フィードバ
ックを供給するステップとを含むことができる。加え
て、この方法は、オーディオ専用インターフェースを介
して、各発話文字を可聴に再生するステップと、再生し
た文字のうちの1つのボイス選択を受諾するステップで
あって、この選択が問題のある文字を示すステップと、
置換文字を識別するステップと、問題のある文字を、指
定した文字列中の識別した置換文字で置換するステップ
とを含むことができる。
【0009】この方法は、問題のある文字の代わりに使
用する置換文字を提示するステップを含むこともでき
る。置換文字を提示するステップは、適切な置換文字を
求めて、実験的に決定される置換文字のデータベースを
照会するステップと、照会の結果に基づいて置換文字を
提示するステップとを含むことができる。あるいは、置
換文字を提示するステップは、置換文字のn-bestリスト
を生成するステップと、n-bestリストに基づいて置換文
字を提示するステップとを含むこともできる。
【0010】特に、本発明は、アルファ文法に基づくボ
イス・スペリング技法を組み込むことができる。この場
合、発話文字を表す複数のオーディオ信号を受け取るス
テップは、複数のワードを音声認識するステップであっ
て、各ワードが発話文字を表し、各ワードが、その表す
文字をアルファ文法に従って符号化するステップと、そ
の表す文字に、各ワードを復号化するステップとを含む
ことができる。さらに、可聴フィードバックを供給する
ステップは、受信した各発話文字について可聴ビープ音
を生成するステップを含むことができる。
【0011】本発明の別の態様では、ボイス・スペリン
グ方法は、(a)オーディオ専用インターフェースを介
して、発話文字を表すオーディオ信号を受け取るステッ
プと、(b)オーディオ信号を音声認識するステップで
あって、テキスト的に同等な文字を生成する音声認識ス
テップと、(c)テキスト的に同等な文字の生成に応答
して、オーディオ専用インターフェースを介して可聴フ
ィードバックを供給するステップと、(d)前記オーデ
ィオ専用インターフェースを介して、停止するためのボ
イス・コマンドを受け取るまで、ステップ(a)〜
(c)を反復するステップとを含むことができる。した
がって、生成したテキスト的に同等な文字は、文字列を
指定することができる。
【0012】このボイス・スペリング方法は、オーディ
オ専用インターフェースを介して、テキスト的に同等な
各文字を再生するステップと、テキスト的に同等な文字
のうちの1つの選択を受諾するステップと、選択した文
字に対する置換文字を識別するステップと、選択した文
字を置換文字で置換するステップとを含むこともでき
る。この識別するステップは、選択した文字の代わりに
使用する置換文字を提示するステップを含むことができ
る。より具体的には、置換文字を提示するステップは、
適切な置換文字を求めて、実験的に決定される置換文字
のデータベースを照会するステップと、照会の結果に基
づいて置換文字を提示するステップとを含むことができ
る。あるいは、置換文字を提示するステップは、置換文
字のn-bestリストを生成するステップと、n-bestリスト
に基づいて置換文字を提示するステップとを含むことが
できる。
【0013】可聴フィードバックを供給するステップ
は、生成したテキスト的に同等な各文字について可聴ビ
ープ音を生成するステップを含むことができる。さら
に、受け取るステップは、オーディオ専用インターフェ
ースを介して、アルファ文法符号化文字を表すオーディ
オ信号を受け取るステップを含むことができる。この場
合、オーディオ信号を音声認識するステップは、アルフ
ァ文法符号化文字を音声認識するステップと、符号化文
字を復号化するステップであって、テキスト的に同等な
文字を生成するステップとを含むことができる。
【0014】図面には、現在好ましい実施形態を示す
が、本発明は、図示する厳密な配置および手段に限定さ
れないことを理解されたい。
【0015】
【発明の実施の形態】本発明は、オーディオ専用インタ
ーフェースでボイス・スペリングするための方法および
装置である。オーディオ専用インターフェースは、可聴
通信によってユーザが排他的に対話することができるユ
ーザ・インターフェースである。本発明の配置によれ
ば、オーディオ専用ユーザ・インターフェースでボイス
・スペリングするための方法は、オーディオ専用ユーザ
・インターフェースを介して、文字、数字、または他の
シンボルなどの1つまたは複数の発話文字を受け取るこ
とを含むことができる。文字の組み合わせは、会員番
号、ワード、英数識別コード、パスワード、頭字語、価
格、または量などの文字列を形成することができる。各
発話文字を首尾よく受け取ったことの確認をユーザに与
えるために、オーディオ専用ユーザ・インターフェース
は、各発話文字の受信の間に可聴フィードバックを供給
することができる。このようにして、オーディオ専用ユ
ーザ・インターフェースでボイス・スペリングを実行す
ることができる。
【0016】図1に、本発明で使用するオーディオ専用
ユーザ・インターフェース100を示す。オーディオ専
用ユーザ・インターフェースは、従来の組込みシステム
などのコンピューティング装置110中に配置すること
ができる。コンピューティング装置110は、揮発性メ
モリと不揮発性メモリの両方を含むメモリ112、固定
記憶装置114、プロセッサ116、ならびに入出力ポ
ートおよびコントローラ118を含むことができる。オ
ーディオ専用インターフェース100は、サウンド・ボ
ードなどのオーディオ・プロセッサ120と、マイクロ
フォン124およびスピーカ126などの音声変換器1
22とを含むことができる。
【0017】重要なことに、音声認識システム(SR
S;speech recongnition system)130は、オーディ
オ専用インターフェース100中に含めることができ
る。任意選択で、テキスト音声(TTS;text-to-spee
ch)エンジン136をコンピューティング装置中に含め
ることもできる。SRS130およびTTSエンジン1
36のどちらも、固定記憶装置114中に格納され、要
求時にメモリ112中にロードされることができる。そ
れでもなお、本発明は、SRS130およびTTSエン
ジン136の配置および格納に関して制限されない。む
しろ本発明は、オーディオ専用ユーザ・インターフェー
スでのボイス・スペリングの方法に関連した、SRS1
30の使用法と、TTSエンジン136の任意選択の使
用法だけを企図する。
【0018】ロードした後、やはり固定記憶装置114
中に格納され、要求時にメモリ112中にロードされる
音声認識文法132を使用して、SRS130は従来の
音声認識動作を実行することができる。具体的には、音
を表すオーディオ信号は、マイクロフォン124を介し
て受け取られることができ、オーディオ・プロセッサ1
20でデジタル・オーディオ・データに処理されること
ができる。処理した後、デジタル・オーディオ・データ
をSRS130に供給することができ、SRS130
は、音声認識文法132に基づいて、コンピュータが認
識可能なテキストにオーディオ・データを変換すること
ができる。その後で、SRS130は、変換後のテキス
トをスピーチ可能アプリケーション150に供給するこ
とができ、スピーチ可能アプリケーション150は、要
求通りにデータ処理を実行することができる。スピーチ
可能アプリケーション150からのフィードバックと、
SRS130からのフィードバックはどちらも、任意選
択のTTSエンジン136または直接にオーディオ・プ
ロセッサ120を通って、スピーカ126を介して排他
的に供給されることができる。
【0019】特に、音声認識文法132は、離散的ない
くつかのワードおよび句だけを認識するように構成し
た、限定的な文法とすることができる。したがって、本
発明の配置に従う、ボイス・スペリング140を実行す
るための装置も提供することができる。具体的には、音
声認識文法132によって指定されない文字の文字列、
例えば人名、街路名、または化学式を、オーディオ専用
ユーザ・インターフェース100を介してスピーチ可能
アプリケーション150に供給すべき場合、文字列のボ
イス・スペリングを受諾することができるボイス・スペ
リング装置140を起動することができる。ボイス・ス
ペリング中の各発話文字をスピーカが適切に受信するこ
とを保証するために、スピーカ126を介してオーディ
オ・フィードバックを提供することができる。任意選択
で、別々のアルファ文法を供給し、ボイス・スペリング
の間に、「A」に対する「アルファ」、「R」に対する
「ロミオ(Romeo)」などのアルファ符号化文字を変換
することもできる。
【0020】図2は、図1のコンピューティング装置1
10で実行することができるボイス・スペリング方法の
態様を示す流れ図である。図に示すように、オーディオ
専用インターフェースで使用するためのボイス・スペリ
ング方法は、ボイス・スペラ(speller)が起動される
ブロック200で開始することができる。ブロック20
2では、アルファ文法をメモリ中にロードすることがで
きる。アルファ文法は、個々の文字に変換されるワード
からなる文法である。アルファ文法の例は、「A」に対
する「アルファ」、「B」に対する「ブラボー」、
「C」に対する「チャーリー(Charlie)」などを含む
ことができる。アルファ文法を使用することにより、発
話文字を直接に認識することと比較したときに、音声認
識システムが発話文字を表すワードを適切に認識するこ
とを、より容易にすることができる。それでもなお、本
発明はこのことに関して限定されず、文字を指定する他
の方法も本発明のボイス・スペリング方法によって企図
される。
【0021】ブロック204では、話者は、音声入力に
関して可聴にプロンプト指示を受けることができる。具
体的には、話者は、ボイス・コマンドまたは文字のいず
れかを指定するようにプロンプト指示を受けることがで
きる。文字の場合、話者は、例えば、文字「A」に対す
る「アルファ」などのアルファ文法符号化文字を述べる
ことができる。ブロック206で、話者が音声入力を供
給することができなかった場合、この方法はループし続
ける。話者が音声入力を与えた後、ブロック208で
は、話者がアルファ文法を介して文字を指定したのか、
それとも他の方法で文字を指定したのかを判定すること
もできる。話者が文字を指定したと判定した場合、ブロ
ック210で、指定された文字をバッファに加えること
ができ、処理はブロック204に戻ることができ、そこ
で話者は再び追加の音声入力に関して可聴にプロンプト
指示を受けることができる。
【0022】それと比べて、判定ブロック208では、
停止のためのボイス・コマンドを受信したと判定した場
合、ユーザが文字列の指定を終了したと想定することが
できる。それでもなお、処理は、指定された文字列がバ
ッファ中に格納された文字列と一致することを引き続き
確認することができる。ブロック217では、システム
はバッファ中の文字のすべてを再生する。ブロック21
9では、ユーザは、スペル全体を受諾するか、または拒
絶する。受諾した場合、処理は終了する。拒絶した場
合、システムはブロック220に移り、一度に1つずつ
文字を検討して編集する処理を開始する。具体的には、
ブロック220で、バッファ中の最初の文字を、例えば
オーディオ専用インターフェースのTTS機能を使用し
て、話者に対して再生することができる。その後で、ブ
ロック222では、話者は、例えば「誤り(Error)」
と述べることによって、誤りにフラグを付けることがで
きる。ブロック222で、再生された文字に話者が誤り
としてフラグを付けず、ブロック236で、複数の文字
がバッファにある場合、ブロック238で、バッファ中
の次の文字を再生することができ、話者は、再生された
文字中の誤りにフラグを付ける別の機会を得ることがで
きる。
【0023】しかし、ブロック222で、話者が再生さ
れた文字に誤りとしてフラグを付けた場合、ブロック2
24で代替文字を提示することができる。具体的には、
実験的に決定された置換文字のデータベースにアクセス
することができ、それによって最も可能性の高い代替文
字を識別し、話者に対して再生することができる。それ
でもなお、本発明は実験的データベースに限定されず、
代替文字を識別するための他の適切な方法、例えば「同
様に聞こえる」文字の事前構成済みテーブルを提供する
こともできる。いずれにしても、ブロック226で、話
者は、提示された代替文字を受諾するか、または拒絶す
る機会を得ることができる。話者が代替文字を受諾した
場合、ブロック234で、フラグが付けられた文字を代
替文字で置換することができ、処理は、バッファ中の次
の文字について反復することができる。
【0024】ブロック226で提示された代替文字を話
者が拒絶した場合、ブロック228で、話者は、代替文
字を発話するようにと、可聴でのプロンプト指示を受け
ることができる。ブロック230では、ボイス・スペラ
は、代替文字の指定を待機することができる。話者が代
替文字を指定した後、ブロック232では、ボイス・ス
ペラは、認識した文字が話者によって発話された文字と
一致することを保証するために、話者が与えた代替文字
を再生することができる。最後に、ブロック226で、
話者は、再生された代替文字を受諾するか、または拒絶
することができ、処理は、バッファに文字がなくなるま
で反復することができる。この終了結果がボイス・スペ
リングした文字列である。
【0025】本発明は、ハードウェア、ソフトウェア、
あるいはハードウェアおよびソフトウェアの組み合わせ
で実現することができる。本発明は、1つのコンピュー
タ・システムで集中的に実現することができ、または異
なる要素がいくつかの相互接続されたコンピュータ・シ
ステムにわたって分散するように分散的に実現すること
もできる。どんな種類のコンピュータ・システム−また
は本明細書で説明した方法を実施するのに適した他の装
置−も適している。ハードウェアおよびソフトウェアの
典型的な組み合わせは、ロードされて実行されるとき
に、本明細書で説明した方法をコンピュータ・システム
が実施するようにコンピュータ・システムを制御するコ
ンピュータ・プログラムを有する汎用コンピュータ・シ
ステムとすることができる。本発明は、本明細書で説明
した方法の実施を可能にする機能をすべて備え、コンピ
ュータ・システム中にロードされたときにこれらの方法
を実施することのできるコンピュータ・プログラム製品
中に組込むこともできる。
【0026】コンピュータ・プログラム手段、またはこ
の状況でのコンピュータ・プログラムは、情報処理機能
を有するシステムに、直接的に、あるいは以下のa)お
よびb)の一方または両方の後に、特定の機能を実行さ
せる1組の命令のどんな表現、どんな言語、コード、ま
たは表記も意味する。a)別の言語、コード、または表
記への変換、b)異なる材料形態での複製。重要なこと
に、本発明は、その精神または不可欠な属性から逸脱す
ることなく、他の特定の形態で実施することができ、し
たがって本発明の範囲を示す際は、上記の明細書ではな
く、頭記の特許請求の範囲を参照すべきである。
【0027】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0028】(1)オーディオ専用インターフェースに
おいて、文字列を指定する発話文字を表す複数のオーデ
ィオ信号を受け取るステップと、前記オーディオ専用イ
ンターフェースを介して、受け取った各発話文字の間に
可聴フィードバックを供給するステップとを含む、ボイ
ス・スペリング方法。 (2)前記オーディオ専用インターフェースを介して、
各発話文字を可聴に再生するステップと、問題のある文
字を示す、再生した前記文字のうちの1つのボイス選択
を受諾するステップと、置換文字を識別するステップ
と、前記問題のある文字を、指定した前記文字列中の識
別した前記置換文字で置換するステップとをさらに含
む、上記(1)に記載のボイス・スペリング方法。 (3)前記問題のある文字の代わりに使用する置換文字
を提示するステップをさらに含む、上記(2)に記載の
ボイス・スペリング方法。 (4)前記置換文字を提示するステップが、適切な置換
文字を求めて、実験的に決定される置換文字のデータベ
ースを照会するステップと、前記照会の結果に基づいて
置換文字を提示するステップとを含む、上記(3)に記
載のボイス・スペリング方法。 (5)前記置換文字を提示するステップが、置換文字の
n-bestリストを生成するステップと、前記n-bestリスト
に基づいて置換文字を提示するステップとを含む、上記
(3)に記載のボイス・スペリング方法。 (6)前記発話文字を表す複数のオーディオ信号を受け
取るステップが、発話文字を表し、アルファ文法に従っ
て表す文字を符号化する、複数のワードを音声認識する
ステップと、前記ワードの各々を前記表す文字に復号化
するステップとを含む、上記(1)に記載のボイス・ス
ペリング方法。 (7)前記可聴フィードバックを供給するステップが、
受け取った各発話文字について可聴ビープ音を生成する
ステップを含む、上記(1)に記載のボイス・スペリン
グ方法。 (8)(a)オーディオ専用インターフェースを介し
て、発話文字を表すオーディオ信号を受け取るステップ
と、(b)前記オーディオ信号を音声認識するステップ
であって、テキスト的に同等な文字を生成するステップ
と、(c)前記テキスト的に同等な文字の生成に応答し
て、前記オーディオ専用インターフェースを介して可聴
フィードバックを供給するステップと、(d)前記オー
ディオ専用インターフェースを介して、停止するための
ボイス・コマンドを受け取るまで、ステップ(a)〜
(c)を反復するステップとを含み、それによって、前
記生成したテキスト的に同等な文字が文字列を指定す
る、ボイス・スペリング方法。 (9)前記オーディオ専用インターフェースを介して、
テキスト的に同等な各文字を再生するステップと、前記
テキスト的に同等な文字のうちの1つの選択を受諾する
ステップと、選択した前記文字に対する置換文字を識別
するステップと、選択した前記文字を前記置換文字で置
換するステップとをさらに含む、上記(8)に記載のボ
イス・スペリング方法。 (10)前記識別するステップが、選択した前記文字の
代わりに使用する置換文字を提示するステップを含む、
上記(9)に記載のボイス・スペリング方法。 (11)前記置換文字を提示するステップが、適切な置
換文字を求めて、実験的に決定される置換文字のデータ
ベースを照会するステップと、前記照会の結果に基づい
て置換文字を提示するステップとを含む、上記(10)
に記載のボイス・スペリング方法。 (12)前記置換文字を提示するステップが、置換文字
のn-bestリストを生成するステップと、前記n-bestリス
トに基づいて置換文字を提示するステップとを含む、上
記(10)に記載のボイス・スペリング方法。 (13)前記可聴フィードバックを供給するステップ
が、生成したテキスト的に同等な文字の各々について可
聴ビープ音を生成するステップを含む、上記(8)に記
載のボイス・スペリング方法。 (14)前記受け取るステップが、オーディオ専用イン
ターフェースを介して、アルファ文法符号化文字を表す
オーディオ信号を受け取るステップを含む、上記(8)
に記載のボイス・スペリング方法。 (15)前記オーディオ信号を音声認識するステップ
が、前記アルファ文法符号化文字を音声認識するステッ
プと、テキスト的に同等な文字を生成して、前記符号化
文字を復号化するステップとを含む、上記(14)に記
載のボイス・スペリング方法。
【図面の簡単な説明】
【図1】コンピューティング装置中の、スピーチ可能ア
プリケーションへのオーディオ専用インターフェース中
に含まれるボイス・スペリング装置の概略図である。
【図2】オーディオ専用インターフェースで使用するた
めのボイス・スペリング方法を示す流れ図である。
【符号の説明】
100 オーディオ専用ユーザ・インターフェース 110 コンピューティング装置 112 メモリ 114 固定記憶装置 116 プロセッサ 118 入出力ポートおよびコントローラ 120 オーディオ・プロセッサ 122 音声変換器 124 マイクロフォン 126 スピーカ 130 音声認識システム(SRS) 132 音声認識文法 136 テキスト音声(TTS)エンジン 140 ボイス・スペリング装置 150 スピーチ可能アプリケーション
───────────────────────────────────────────────────── フロントページの続き (72)発明者 マシュー・ダブリュー・ハートレイ アメリカ合衆国33426 フロリダ州ボイン トン・ビーチ アズベリ・ウェイ 920 (72)発明者 ジェームズ・アール・ルイス アメリカ合衆国33445 フロリダ州デルレ イ・ビーチ マジェスティック・パーム・ ウェイ 4000 (72)発明者 デヴィド・エフ・マ アメリカ合衆国33409 フロリダ州ウエス ト・パーム・ビーチ ヴィレッジ・ブルヴ ァール 1401 ナンバー 2121 Fターム(参考) 5D015 LL01 LL06 5D045 AB30

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】オーディオ専用インターフェースにおい
    て、文字列を指定する発話文字を表す複数のオーディオ
    信号を受け取るステップと、 前記オーディオ専用インターフェースを介して、受け取
    った各発話文字の間に可聴フィードバックを供給するス
    テップとを含む、ボイス・スペリング方法。
  2. 【請求項2】前記オーディオ専用インターフェースを介
    して、各発話文字を可聴に再生するステップと、 問題のある文字を示す、再生した前記文字のうちの1つ
    のボイス選択を受諾するステップと、 置換文字を識別するステップと、 前記問題のある文字を、指定した前記文字列中の識別し
    た前記置換文字で置換するステップとをさらに含む、請
    求項1に記載のボイス・スペリング方法。
  3. 【請求項3】前記問題のある文字の代わりに使用する置
    換文字を提示するステップをさらに含む、請求項2に記
    載のボイス・スペリング方法。
  4. 【請求項4】前記置換文字を提示するステップが、 適切な置換文字を求めて、実験的に決定される置換文字
    のデータベースを照会するステップと、 前記照会の結果に基づいて置換文字を提示するステップ
    とを含む、請求項3に記載のボイス・スペリング方法。
  5. 【請求項5】前記置換文字を提示するステップが、 置換文字のn-bestリストを生成するステップと、 前記n-bestリストに基づいて置換文字を提示するステッ
    プとを含む、請求項3に記載のボイス・スペリング方
    法。
  6. 【請求項6】前記発話文字を表す複数のオーディオ信号
    を受け取るステップが、 発話文字を表し、アルファ文法に従って表す文字を符号
    化する、複数のワードを音声認識するステップと、 前記ワードの各々を前記表す文字に復号化するステップ
    とを含む、請求項1に記載のボイス・スペリング方法。
  7. 【請求項7】前記可聴フィードバックを供給するステッ
    プが、 受け取った各発話文字について可聴ビープ音を生成する
    ステップを含む、請求項1に記載のボイス・スペリング
    方法。
  8. 【請求項8】(a)オーディオ専用インターフェースを
    介して、発話文字を表すオーディオ信号を受け取るステ
    ップと、 (b)前記オーディオ信号を音声認識するステップであ
    って、テキスト的に同等な文字を生成するステップと、 (c)前記テキスト的に同等な文字の生成に応答して、
    前記オーディオ専用インターフェースを介して可聴フィ
    ードバックを供給するステップと、 (d)前記オーディオ専用インターフェースを介して、
    停止するためのボイス・コマンドを受け取るまで、ステ
    ップ(a)〜(c)を反復するステップとを含み、それ
    によって、生成した前記テキスト的に同等な文字が文字
    列を指定する、 ボイス・スペリング方法。
  9. 【請求項9】前記オーディオ専用インターフェースを介
    して、テキスト的に同等な文字の各々を再生するステッ
    プと、 前記テキスト的に同等な文字のうちの1つの選択を受諾
    するステップと、 選択した前記文字に対する置換文字を識別するステップ
    と、 選択した前記文字を前記置換文字で置換するステップと
    をさらに含む、請求項8に記載のボイス・スペリング方
    法。
  10. 【請求項10】前記識別するステップが、 選択した前記文字の代わりに使用する置換文字を提示す
    るステップを含む、請求項9に記載のボイス・スペリン
    グ方法。
  11. 【請求項11】前記置換文字を提示するステップが、 適切な置換文字を求めて、実験的に決定される置換文字
    のデータベースを照会するステップと、 前記照会の結果に基づいて置換文字を提示するステップ
    とを含む、請求項10に記載のボイス・スペリング方
    法。
  12. 【請求項12】前記置換文字を提示するステップが、 置換文字のn-bestリストを生成するステップと、 前記n-bestリストに基づいて置換文字を提示するステッ
    プとを含む、請求項10に記載のボイス・スペリング方
    法。
  13. 【請求項13】前記可聴フィードバックを供給するステ
    ップが、 生成したテキスト的に同等な文字の各々について可聴ビ
    ープ音を生成するステップを含む、請求項8に記載のボ
    イス・スペリング方法。
  14. 【請求項14】前記受け取るステップが、 オーディオ専用インターフェースを介して、アルファ文
    法符号化文字を表すオーディオ信号を受け取るステップ
    を含む、請求項8に記載のボイス・スペリング方法。
  15. 【請求項15】前記オーディオ信号を音声認識するステ
    ップが、 前記アルファ文法符号化文字を音声認識するステップ
    と、 テキスト的に同等な文字を生成して、前記符号化文字を
    復号化するステップとを含む、請求項14に記載のボイ
    ス・スペリング方法。
JP2002140002A 2001-05-30 2002-05-15 オーディオ専用インターフェースにおけるボイス・スペリング Pending JP2003022089A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/867,832 US6975986B2 (en) 2001-05-30 2001-05-30 Voice spelling in an audio-only interface
US09/867832 2001-05-30

Publications (1)

Publication Number Publication Date
JP2003022089A true JP2003022089A (ja) 2003-01-24

Family

ID=25350544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002140002A Pending JP2003022089A (ja) 2001-05-30 2002-05-15 オーディオ専用インターフェースにおけるボイス・スペリング

Country Status (2)

Country Link
US (1) US6975986B2 (ja)
JP (1) JP2003022089A (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809574B2 (en) * 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US7143037B1 (en) * 2002-06-12 2006-11-28 Cisco Technology, Inc. Spelling words using an arbitrary phonetic alphabet
WO2005086908A2 (en) * 2004-03-09 2005-09-22 Ashwin Rao System and method for computer recognition and interpretation of arbitrary spoken-characters
US20050209853A1 (en) * 2004-03-19 2005-09-22 International Business Machines Corporation Speech disambiguation for string processing in an interactive voice response system
US7418387B2 (en) * 2004-11-24 2008-08-26 Microsoft Corporation Generic spelling mnemonics
US7962842B2 (en) * 2005-05-30 2011-06-14 International Business Machines Corporation Method and systems for accessing data by spelling discrimination letters of link names
TW200733059A (en) * 2006-02-17 2007-09-01 Inventec Appliances Corp Method of using voice recognition measure to input characters and its hand-held apparatus
US9830912B2 (en) 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
GB2448728A (en) * 2007-04-25 2008-10-29 Nadine Kirsten Hall A computerised spell checking pen; provides a visual and audio output of the correct spelling of spoken input.
US8688452B2 (en) * 2007-11-08 2014-04-01 Nuance Communications, Inc. Automatic generation of distractors for special-purpose speech recognition grammars
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
CN103827962B (zh) * 2011-09-09 2016-12-07 旭化成株式会社 声音识别装置
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
KR102190856B1 (ko) * 2016-03-14 2020-12-14 애플 인크. 크리덴셜을 제공하는 음성 입력의 식별
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN107146607B (zh) * 2017-04-10 2021-06-18 北京猎户星空科技有限公司 智能设备交互信息的修正方法、装置及系统
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP2019153133A (ja) * 2018-03-05 2019-09-12 オムロン株式会社 文字入力装置、文字入力方法、及び、文字入力プログラム
EP3594862A1 (en) * 2018-07-10 2020-01-15 Tata Consultancy Services Limited Resolving abstract anaphoric references in conversational systems using hierarchically stacked neural networks
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU703597B2 (en) * 1994-03-18 1999-03-25 Nuance Communications, Inc. Speech controlled vehicle alarm system
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US6208965B1 (en) * 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6219644B1 (en) * 1998-03-27 2001-04-17 International Business Machines Corp. Audio-only user speech interface with audio template
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
DE19847419A1 (de) * 1998-10-14 2000-04-20 Philips Corp Intellectual Pty Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung

Also Published As

Publication number Publication date
US6975986B2 (en) 2005-12-13
US20020184035A1 (en) 2002-12-05

Similar Documents

Publication Publication Date Title
JP2003022089A (ja) オーディオ専用インターフェースにおけるボイス・スペリング
EP1693827B1 (en) Extensible speech recognition system that provides a user with audio feedback
US7200555B1 (en) Speech recognition correction for devices having limited or no display
EP1267326B1 (en) Artificial language generation
US6321196B1 (en) Phonetic spelling for speech recognition
US8447606B2 (en) Method and system for creating or updating entries in a speech recognition lexicon
EP0965978B1 (en) Non-interactive enrollment in speech recognition
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6801897B2 (en) Method of providing concise forms of natural commands
EP1286330B1 (en) Method and apparatus for data entry by voice under adverse conditions
US20020128840A1 (en) Artificial language
EP0965979A1 (en) Position manipulation in speech recognition
US6876967B2 (en) Speech complementing apparatus, method and recording medium
JP2005258443A (ja) 発音グラフを使用して新しい単語の発音学習を改善すること
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
KR19990008459A (ko) 개선된 신뢰도의 단어 인식방법 및 단어 인식기
US6591236B2 (en) Method and system for determining available and alternative speech commands
JP2001312296A (ja) 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
JPH10503033A (ja) 新ワードのモデル化に基づく音声認識方法及びその装置
US20020198712A1 (en) Artificial language generation and evaluation
US20050071170A1 (en) Dissection of utterances into commands and voice data
JP2010197644A (ja) 音声認識システム
US10854196B1 (en) Functional prerequisites and acknowledgments
CA2597826C (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050726

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20051019

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20051024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060116

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060801