JP2001184086A - スピーチ認識モード・エラーを補正するシステム及びその方法 - Google Patents

スピーチ認識モード・エラーを補正するシステム及びその方法

Info

Publication number
JP2001184086A
JP2001184086A JP2000319866A JP2000319866A JP2001184086A JP 2001184086 A JP2001184086 A JP 2001184086A JP 2000319866 A JP2000319866 A JP 2000319866A JP 2000319866 A JP2000319866 A JP 2000319866A JP 2001184086 A JP2001184086 A JP 2001184086A
Authority
JP
Japan
Prior art keywords
mode
result
input
speech
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000319866A
Other languages
English (en)
Inventor
Jeffrey C Reynar
スィー. レイナー ジェフリー
Erick Rucker
ラッカー エリック
Paul Kyong Hwan Kim
キョン ホワン キム ポール
David Allen Caulton
アレン コールトン デイヴィッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2001184086A publication Critical patent/JP2001184086A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 スピーチ認識モード・エラーを補正するシス
テムと方法とを提供する。 【解決手段】 モード選択プロセッサは、スピーチ入力
に適したスピーチ認識モードを決定して、選択したモー
ド結果をアプリケーション・プログラムに送る。代替の
モード結果が、後の検索のためにRAMに保存されてい
る。モード補正プロセッサは、スピーチ認識モード・エ
ラーが発生した時を検出し、モード・エラーを補正する
ルーチンに進む。コマンド・モード・エラーが発生した
場合、モード補正プロセッサは、ドキュメントのエント
リに適した候補口述又は代替のモード結果を、ユーザが
選択することを可能にする。代わりに、口述エラーが発
生した場合、モード補正プロセッサは、ドキュメントの
エントリに適した候補コマンド又は代替のモード結果
を、ユーザが選択することを可能にする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータ・シ
ステムの分野、特に、不適切なモードが既に選択され、
スピーチ入力がプログラムに不適切に入力された時に、
コンピュータ・ソフトウェア・プログラムにおけるスピ
ーチ認識モード・エラーを補正する技術に関する。
【0002】
【従来の技術】パーソナル・コンピュータが出現してか
ら、コンピュータと人との対話は、主としてキーボード
を介して行われてきた。普通、ユーザがコンピュータに
コマンド又は情報を入力したい時に、情報又はコマンド
を、コンピュータに取り付けてあるキーボードにタイプ
入力する。他の入力装置が、マウス、タッチ−スクリー
ン・ディスプレイ、一体化ポインタ・デバイス、スキャ
ナを含めて、入力装置としてキーボードを補ってきた。
これらの他の入力装置を用いて、コンピュータにコマン
ド又はデータを入力する際にユーザが費やした時間を減
少してきた。
【0003】コンピュータ・ベース・ボイス認識とスピ
ーチ認識システムは、パーソナル・コンピュータにデー
タ又はコマンドを入力するためにも用いられてきた。ボ
イス認識とスピーチ認識システムは、人の声をコンピュ
ータが理解できるフォーマットに変換する。コンピュー
タがボイス認識又はスピーチ認識システムを具備する時
に、データとコマンドの入力は、コンピュータにデータ
又はコマンドを単純に語りかけて行うことができる。ユ
ーザが話しかける速度は、従来のデータ又はコマンド・
エントリより普通ははやい。従って、人の声を介してデ
ータ又はコマンドを伝える際の特有の速度が、パーソナ
ル・コンピュータにボイス認識とスピーチ認識のシステ
ムを搭載できるという長所とするために検討されてき
た。
【0004】本開示の残りの部分の全体にわたって“ボ
イス認識”と“スピーチ認識”という用語は、同じ意味
で用いられる。ある事例では、ボイス認識とスピーチ認
識が区別して用いられる。しかし、ボイス認識とスピー
チ認識のシステムは、共に前述のような同じ信頼性の問
題に悩んでいる。同じ方式が、従来技術の欠点を解決す
るために、両方の認識技術に応用されている。
【0005】スピーチ認識システムを具備するパーソナ
ル・コンピュータを操作するユーザの効率が高いので、
作業現場における、このようなシステムの利用が進んで
きている。様々な業界の多くの作業者が、種々のアプリ
ケーションに適したスピーチ認識のシステムをいま利用
している。例えば、ボイス認識とスピーチ認識の技術を
用いるコンピュータ・ソフトウェア・プログラムは、D
RAGON、IBM、LERNOUT&HAUSPIE
で開発されている。ユーザが文書の内容を声を出して読
むか、又はスピーチ認識プログラムに口述すると、プロ
グラムは、ユーザが語った言葉を、パーソナル・コンピ
ュータ上で作動するワード処理プログラムに直接入力す
ることができる。
【0006】全体的に、コンピュータ・ベース・スピー
チ認識のプログラムでは、人の声をシリーズのデジタル
周波数に変換する。これらの周波数は、既に保存済みの
セットの言葉又は音韻に対して整合されている。コンピ
ュータがシリーズの周波数に適した整合と決定すると、
人の声の部分のコンピュータ認識が行われる。周波数整
合は、十分な情報がコンピュータでの対応のために集ま
るまでコンパイルされる。コンピュータは、人の声を記
憶装置に保存するか、人の声をワード処理プログラムの
ドキュメントに転記するか、又はアプリケーション・プ
ログラムのように、プログラム・モジュールのコマンド
を実行すると、ある語りかけた言葉に対応できる。
【0007】
【発明が解決しようとする課題】しかし、スピーチ認識
システムは100%の精度でない。ハードウェアとソフ
トウェアで修正しても、最も効率的なスピーチ認識シス
テムで約97〜99%の信頼度である。内部と外部の要
因がスピーチ認識のシステムの信頼性に影響する。認識
技術自体に依存する要因として、言葉又は音韻の有限の
セットと、話者が語った内容を比較するための言葉の語
彙がある。地域的なアクセントや外部雑音やマイクロフ
ォンのような環境要因が入力の品質を損ねるので、ユー
ザの言葉の周波数に影響し、言葉又は音韻の整合にエラ
ーをまねく可能性がある。
【0008】スピーチ認識ソフトウェア・プログラム
は、他のアプリケーション・プログラムにコマンド又は
テキストを入力するために使用できる。例えば、Kur
zweilの“VOICEPRO”スピーチ認識ソフト
ウェアは、MICROSOFT・WORDのようなワー
ド処理アプリケーション・プログラムから作成したドキ
ュメントにテキスト又はコマンドを入力するために使用
できる。ユーザがスピーチ認識プログラムを選んでコマ
ンドを入力すると、ユーザは、スピーチ認識プログラム
のコマンド・モードを手動で選択する。ユーザは“削
除”のようなコマンドを語りかける。スピーチ認識プロ
グラムは、コマンドを処理して、“削除”コマンドをワ
ード処理プログラムにコマンドの実行のために送る。大
半のモード選択が自動的に行われる。エラーは、ユーザ
のエラーより、むしろモード状態が十分でないマシンか
ら生じる。実質的な効果はそれでも同じである。ユーザ
がスピーチ認識プログラムを選んでテキストをドキュメ
ントに入力する場合、ユーザは、スピーチ認識プログラ
ムの口述モードを手動で選択する。ユーザは、“どこに
今日行きたいですか?”のように、入力したいテキスト
を語り始める。スピーチ認識プログラムは、スピーチを
処理して、処理したスピーチをドキュメントに入力すべ
きワード処理プログラムに送る。モードのユーザ選択
は、スピーチ認識ソフトウェアがユーザのスピーチ入力
を適正に処理するために必要である。ユーザが話しかけ
る前にスピーチ認識モードを手動で選択することは、厄
介で時間のかかる作業である。
【0009】時々、ユーザは、話しかける前に、スピー
チ認識プログラムのモードの変更を忘れる。例えば、ス
ピーチ認識プログラムがコマンド・モードの時に、ユー
ザが“コピー・マシンはコーヒーでなくコピーをする”
と言うと、スピーチ認識プログラムは、スピーチ入力
“コピー・マシンはコーヒーでなくコピーをする”をコ
マンドとして処理する。スピーチ入力“コピー”をアプ
リケーション・プログラムが実行するが、残りのスピー
チをコマンドとして理解できない。そこで、アプリケー
ション・プログラムはスピーチを処理しない。
【0010】時折、スピーチ認識プログラムは口述モー
ドになり、ユーザは、ワード・プロセッサがコマンドを
実行することを望む。ユーザがモードの変更を忘れて
“コピー”と言うと、スピーチ認識プログラムはスピー
チを口述として処理し、スピーチ入力がテキストとして
アプリケーション・プログラムに入力される。
【0011】モード・エラーの問題を解決する種々の方
式が試みられてきた。一般的な補正手順は、ユーザが話
しかける前にモードの変更を忘れてモード・エラーにな
る時のような前述の状態に関係している。時々、モード
・エラーは、ユーザが不具合なモードにあることに気づ
かずに、スピーチ入力が、初期モード・エラーが生じた
時から不適切なモードで処理されることから複雑にな
る。スピーチ入力が口述として不適切に入力された場
合、ユーザは、テキストとしてアプリケーション・プロ
グラムに入力された口述項目を手動で削除できる。ユー
ザは、再び話しかける前に、コマンド・モードを手動で
選択して、補正手順を続ける。スピーチ入力がコマンド
として不適切に入力された場合、ユーザは、アプリケー
ション・プログラムで実行されたコマンドを手動で“ア
ンドー”できる。ユーザは、再び話しかける前に、口述
モードを手動で選択して、補正手順を続ける。適正なス
ピーチ認識モードの手動選択と“アンドー”又は“削
除”の手動補正は、厄介で時間のかかる作業である。
【0012】従って、スピーチ認識モード・エラーを補
正する際に、ユーザの時間を短縮する方法についてのニ
ーズが従来技術にある。
【0013】スピーチ認識モード・エラーを補正する際
に、キーストローク又はコマンドの数を減少する方法に
ついての更なるニーズが従来技術にある。
【0014】
【課題を解決するための手段】本発明は、スピーチ認識
モード・エラーを補正するスピーチ・エンジン補正モジ
ュールにおける前述のニーズに適合するものである。ス
ピーチ・エンジン補正モジュールは、スピーチ認識モー
ド・エラーを補正する際のユーザ時間を短縮できる。更
に、スピーチ・エンジン補正モジュールは、スピーチ認
識モード・エラーの補正に必要なキーストロークとコマ
ンドの数を減少できる。
【0015】概論したように、本発明は、スピーチ認識
プログラムとスピーチ・エンジンとを具備するスピーチ
・エンジン補正モジュールである。スピーチ認識プログ
ラムは、ワード・プロセッサのように、プログラムのド
キュメントに対する入力のためにスピーチを受信するよ
うに構成されている。スピーチ認識プログラムがスピー
チ入力を受信すると、プログラムは、スピーチ・エンジ
ンによる認識のためにスピーチ入力を処理する。スピー
チ認識プログラムは、スピーチ入力をスピーチ・エンジ
ンに送る。
【0016】スピーチ・エンジンは、スピーチ入力をス
ピーチ認識プログラムから受信し、更にスピーチ入力を
処理する。コマンド・プロセッサと口述プロセッサは、
各々、スピーチ入力を、各々、コマンドと口述として処
理する。各々プロセッサからの結果は、後の検索のため
に、RAMのような記憶装置に保存できる。
【0017】スピーチ・エンジンは、モード選択プロセ
ッサを用いて、スピーチ入力に適したスピーチ認識モー
ドを決定する。モード選択プロセッサは、スピーチ入力
の内容と関連性のような規準を用いて、スピーチ入力に
適したスピーチ認識モードを決定する。モード選択プロ
セッサがモードを選択した後に、スピーチ入力は、口述
又はコマンドとしてドキュメントのエントリのためにプ
ログラムに、スピーチ・エンジンによって送られる。
【0018】モード補正プロセッサは、スピーチ認識モ
ード・エラーが発生した時を検出する。一般的に、ユー
ザは、コマンドをプログラムから送って、スピーチ認識
モード・エラーが発生したことを指示する。モード補正
プロセッサが、スピーチ認識モード・エラーを示すコマ
ンドを受信すると、モード補正プロセッサは、スピーチ
認識モード・エラーのタイプに対応する補正ルーチンを
始動する。
【0019】コマンド・スピーチ認識エラーが発生する
と、すなわち、スピーチ入力がコマンドとして不適切に
入力される時に、ルーチンを口述するコマンドがスピー
チ・エンジンによって実行される。モード補正プロセッ
サは、“アンドー”コマンドをプログラムに送って、ド
キュメントに入力されたコマンドを除去する。次に、モ
ード補正プロセッサは、RAMに保存された代替の口述
選択項目から候補選択項目を選択する。モード補正プロ
セッサは、代替選択項目をRAMからコピーして、代替
選択項目をプログラムに送る。候補選択項目は、ドキュ
メントに口述項目としてプログラムに入力される。
【0020】口述エラーが発生すると、すなわち、スピ
ーチ入力が口述として不適切に入力された時に、コマン
ド・ルーチンの口述が、スピーチ・エンジンによって実
行される。モード補正プロセッサは、“削除”コマンド
を送って、ドキュメントに入力された口述入力を除去す
る。次に、モード補正プロセッサは、RAMに保存され
た代替の選択項目から候補選択項目を選択する。モード
補正プロセッサは、候補選択項目を処理し、ドキュメン
トのコマンドとしてプログラムの候補選択項目を入力す
る。
【0021】本発明の見解によれば、口述プロセッサと
コマンド・プロセッサとによるスピーチ入力の処理前
に、モード選択プロセッサは、スピーチ入力に適したス
ピーチ認識モードを決定できる。スピーチ入力を選択し
たモード・プロセッサが処理し、結果がRAMに保存さ
れる。モード選択プロセッサは、後の検索のためにRA
Mにスピーチ入力を保存する。スピーチ認識モード・エ
ラーをモード補正プロセッサが検出すると、モード補正
プロセッサは、“アンドー”コマンドを送ってコマンド
を除去するか、又は“削除”コマンドを実行して口述項
目をドキュメントから除去する。スピーチ入力が、RA
Mから検索され、代替モード・プロセッサで処理され
て、モード・エラーの補正のための結果を得る。代替結
果は、ドキュメントに入力するためにプログラムに送ら
れる。
【0022】本発明が従来の欠点を解消して前述の長所
を達成することが、代表的な実施例と添付の図面と請求
項に関して次に詳述する説明から明らかになると思われ
る。
【0023】
【発明の実施の形態】本発明は、ドキュメントに適した
モード補正ルーチンを実現する、スピーチ・エンジン補
正ソフトウェア・モジュールとして実現できる。オブジ
ェクト指向プログラムとして、スピーチ・エンジン補正
モジュールは、クライアント・プログラムがスピーチ・
エンジン補正モジュールとの通信のためにアクセスでき
る、標準インタフェースを呈することができる。オブジ
ェクト指向構成は、多くの異なるクライアント・プログ
ラムが、ワード処理プログラム、デスクトップ公開プロ
グラム、アプリケーション・プログラムなどのように、
スピーチ・エンジン補正モジュールを利用することを可
能にする。例えば、スピーチ・エンジン補正モジュール
は、マイクロソフトWORDのようなアプリケーション
・プログラムと共に利用できる。
【0024】スピーチ・エンジン補正モジュールが呈す
るインタフェースは、モジュールが、プログラムのスピ
ーチ入力を受信することを可能にする。スピーチ・エン
ジン補正モジュールは、プログラムのスピーチ入力を受
信し、スピーチ入力を口述又はコマンドあるいその両方
として処理し、処理したスピーチ入力を口述又はコマン
ドあるいその両方として保存し、スピーチ入力に適した
スピーチ認識モードを選択し、スピーチ認識モード・エ
ラーが生じた時を検出し、プログラムのドキュメントに
おけるスピーチ認識モード・エラーを補正する。
【0025】スピーチ・エンジン補正モジュールは、2
つの構成要素、すなわち、スピーチ認識プログラムとス
ピーチ・エンジンから構成される。スピーチ認識プログ
ラムは、プログラムのためのユーザのスピーチ入力を受
信し、スピーチ・エンジンに適した確率結果にユーザの
スピーチ入力を処理し、プログラムと対話して、スピー
チ・エンジンを必要におうじてコールする。スピーチ・
エンジンは、スピーチ認識プログラムと対話して、確率
結果又はスピーチ入力を受信し、確率結果又はスピーチ
入力を口述又はコマンドあるいその両方として処理し、
処理した口述又はコマンドあるいその両方の結果を保存
し、確率結果又はスピーチ入力に適したスピーチ認識モ
ードを選択し、スピーチ認識モード・エラーを検出し、
スピーチ認識モード・エラーを補正し、プログラムを必
要におうじてコールする。
【0026】<代表的な動作環境>図1と次に示す説明
では、本発明を実現する適切なコンピューティング環境
について簡単に全体的に述べることを意図している。代
表的な動作環境100は、処理装置121、システム・
メモリ122、システム・メモリ122を処理装置12
1に結合するシステム・バス123とを含んでいる、従
来のパーソナル・コンピュータ・システム120を備え
ている。システム・メモリ122は、読取専用メモリ
(ROM)124とランダム・アクセス・メモリ(RA
M)125とを備えている。基本入力/出力システム1
26(BIOS)は、セットアップ中のように、パーソ
ナル・コンピュータ・システム120内の構成要素間に
おける情報の転送を支援する基本ルーチンを備えてお
り、ROM124に保存されている。
【0027】パーソナル・コンピュータ・システム12
0は、更に、ハードディスク・ドライブ127、例え
ば、消去自在の磁気ディスク129から読み取ったり書
き込んだりするための磁気ディスク・ドライブ128、
例えば、CD−ROMディスク131を読み取ったり又
は他の光学的媒体から読み取ったり書き込んだりするた
めの光学的ディスク・ドライブ130を備えている。ハ
ードディスク・ドライブ127と磁気ディスク・ドライ
ブ128と光学的ディスク・ドライブ130は、ハード
ディスク・ドライブ・インタフェース132と磁気ディ
スク・ドライブ・インタフェース133と光学的ドライ
ブ・インタフェース134とにより、各々、システム・
バス123に接続している。ドライブ及びそれらに付随
するコンピュータ読取自在の媒体は、パーソナル・コン
ピュータ・システム120に非揮発性の記憶部を呈す
る。前述のコンピュータ読取自在の媒体の説明はハード
ディスクや消去自在の磁気ディスクやCD−ROMディ
スクを意味しているが、当業者は、磁気カセット、フラ
ッシュ・メモリ・カード、デジタル・ビデオ・デジタ
ル、ベルヌーリ・カートリッジなどのように、コンピュ
ータ・システムで読み取りできる他のタイプの媒体も、
代表的な動作環境で使用できることも認めると思われ
る。
【0028】ユーザは、コマンドと情報とを、パーソナ
ル・コンピュータ120に、マウス142のような指示
装置とキーボード140とを含めた従来の入力装置を介
して入力できる。マイクロフォン161を用いて、スピ
ーチのようなオーディオ入力をコンピュータ・システム
120に入力できる。ユーザは、図面又は手書きのよう
な図形情報を、スタイラスを用いて書込みタブレット1
62上に図形情報を描いて、コンピュータ・システムに
入力する。コンピュータ・システム120は、ジョイス
ティック、ゲーム・パッド、サテライト・ディッシュ、
スキャナなどのように、更なる入力装置(図示せず)を
具備できる。マイクロフォン161は、システム・バス
に連なるオーディオ・アダプタ160を経由して処理装
置121に接続できる。他の入力装置は、システム・バ
スに連なるシリアル・ポート・インタフェース146を
経由して処理装置121にしばしば接続するが、ゲーム
・ポート又はユニバーサル・シリアル・バス(USB)
のような他のインタフェースを用いて接続する場合もあ
る。
【0029】モニタ147又は他のタイプの表示装置
は、ビデオ・アダプタ148のように、インタフェース
を経由してシステム・バス123にも接続している。モ
ニタに加えて、パーソナル・コンピュータ・システム
は、スピーカ又はプリンタのような他の周辺出力装置
(図示せず)も一般的に備えている。
【0030】パーソナル・コンピュータ・システム12
0は、リモート・コンピュータ・システム149のよう
に、1つ又は複数のリモート・コンピュータ・システム
に論理接続を用いるネットワーク環境で作動する。リモ
ート・コンピュータ・システム149は、サーバ、ルー
タ、ピア・デバイス、又は他の共通ネットワーク・ノー
ドであり、図1では記憶装置150しか図示してない
が、パーソナル・コンピュータ・システム120で述べ
た構成要素の多く又は全てを通常は備えている。図1に
示す論理接続部は、ローカル・エリア・ネットワーク
(LAN)151やワイド・エリア・ネットワーク(W
AN)152を含んでいる。このようなネットワーク環
境は、オフィス、企業規模のコンピュータ・ネットワー
ク、イントラネット、インターネットに広く用いられて
いる。
【0031】LANネットワーク環境で用いる時に、パ
ーソナル・コンピュータ・システム120は、LAN1
51にネットワーク・インタフェース153を経由して
接続する。WANネットワーク環境で用いる時に、パー
ソナル・コンピュータ・システム120は、モデム15
4、又はインターネットのように、WAN152上で通
信を構築する他の方式を一般的に備えている。モデム1
54は、内部又は外部に位置するが、シリアル・ポート
・インターネット146を経由してシステム・バス12
3に接続する。ネットワーク環境では、パーソナル・コ
ンピュータ・システム120に相応して図示したプログ
ラム・モジュール、又はその部分が、遠方の記憶装置1
50に保存されている。図示したネットワーク接続は代
表的なものであり、コンピュータ・システム間に通信リ
ンクを構築する他の方式も使用できることが分かる。本
発明は、パーソナル・コンピュータ・システム以外のサ
ーバ・コンピュータ・システム又はホスト上で同様に実
現できると共に、CD−ROM以外の方式、例えば、ネ
ットワーク接続インタフェース153により、ホスト・
コンピュータ・システムに同様に応用できることが更に
分かる。
【0032】数多くのプログラム・モジュールが、コン
ピュータ・システム120のRAM125とドライブと
に保存されている。プログラム・モジュールは、どのよ
うにコンピュータ・システム120が機能して、ユーザ
やI/Oデバイス又は他のコンピュータと対話するかに
ついて制御する。プログラム・モジュールは、ルーチ
ン、オペレーティング・システム135、アプリケーシ
ョン・プログラム・モジュール138、データ構造部、
ブラウザ、他のソフトウェア又はファームウェアの構成
要素とを含んでいる。本発明は、詳細な説明で述べる方
法に基づくスピーチ・エンジン補正モジュール137の
ように、1つ又は複数のプログラム・モジュールで好都
合に実現できる。
【0033】アプリケーション・プログラム・モジュー
ル138は本発明に関連して用いる多種多様なアプリケ
ーションを備えている。図2は、その一部を示す。これ
らのプログラム・モジュールの一部の目的とその間の対
話について、図2を参照しながら詳細に説明する。これ
らは、ワード処理プログラム(ワシントン州Redmo
ndのマイクロソフト社製のWORDのような)と、手
書き認識プログラム・モジュールと、スピーチ・エンジ
ン補正モジュール137と、入力方式エディタ(IM
E)とを備えている。
【0034】詳細な説明で述べる種々の手順を実施する
特定のプログラム設定言語について特に説明しない。な
ぜならば、添付の図面で説明し図解する動作とステップ
と手順について十分に開示してあるので、当業者は本発
明の代表的な実施例を実施できると考えるからである。
更に、代表的な実施例を実施する際に使用できる多くの
コンピュータとオペレーティング・システムがあるの
で、これらの多くの異なるシステムの全てに応用できる
詳細なコンピュータ・プログラムについても説明されな
い。特定のコンピュータの各々ユーザは、そのユーザの
ニーズと目的とに最も適した言語とツールを知っている
ものと思われる。
【0035】当業者は、本発明が、ハンドヘルド・デバ
イス、マルチプロセッサ・システム、マイクロプロセッ
サ・ベース又はプログラム設定自在の消費者用電子機
器、ミニコンピュータ、メイン・フレーム・コンピュー
タなどを含めた、他のコンピュータ・システム構成を用
いて実現できることも認めると思われる。本発明は、タ
スクが通信網を経由してリンクする遠方処理装置で行わ
れる分散コンピューティング環境でも実施できる。分散
コンピューティング環境では、プログラム・モジュール
は、ローカルとリモートの両方の記憶装置に位置してい
る。
【0036】<プログラム・モジュールの概要>図2
は、スピーチ・エンジン補正モジュール200の構成要
素とモジュールの概要を示す。全体的に、図2に示す構
成要素とモジュールの目的は、ワード・プロセッサのよ
うに、スピーチがアプリケーション・プログラム138
に入力された時に、結果として生じるスピーチ認識モー
ド・エラーを補正することにある。
【0037】図2に示す構成要素とモジュールは、ユー
ザが、アプリケーション・プログラム138のドキュメ
ントに対するスピーチ入力のスピーチ認識モード・エラ
ーを補正することを可能にする。スピーチ・エンジン補
正モジュール200は、アプリケーション・プログラム
138のスピーチ入力204を受信するために、スピー
チ認識プログラム202又は他の類似のタイプのプログ
ラム・モジュールを備えている。スピーチ認識プログラ
ム202は、オペレーティング・システム135のマイ
クロフォン・ドライブ・モジュールが実行するマイクロ
フォン161を介してユーザからスピーチ入力204を
受信する。スピーチの解釈が難しいときが、しばしばあ
る。なぜならば、同じように発声する多くの言葉には、
異なる意味とスペルが存在するからである。そこで、ス
ピーチ認識プログラム202は確率結果を作成する。確
率結果は、スピーチ・エンジン・モジュール200によ
る後の検索のためにRAM206に保存できる。
【0038】スピーチ・エンジン補正モジュール200
は、次の構成要素を備えたスピーチ・エンジン208も
含んでいる。すなわち、モード選択プロセッサ210、
口述プロセッサ212、コマンド・プロセッサ214、
モード補正プロセッサ216、RAM206である。モ
ード選択プロセッサ210は、スピーチ入力をスピーチ
認識プログラム202から受信して、スピーチ入力20
4に適したスピーチ認識モードを決定する。ある実施例
では、モード選択プロセッサ210がバイアスできるの
で、スピーチ入力204を処理すべきコマンド・プロセ
ッサ214と口述プロセッサ212の両方に効果的に送
ることができる。
【0039】スピーチ入力204を口述プロセッサ21
2が受信する時に、口述プロセッサ212は、アプリケ
ーション・プログラム138に入力すべき口述項目とし
てスピーチ入力204を処理する。統計的言語モデル
(SLM)のような自然言語モデル218を用いて、口
述プロセッサ212は、あるスピーチ入力204のテキ
スト・ストリングを戻す。他の言語モデルを用いて、ス
ピーチ入力204を処理し、アプリケーション・プログ
ラム138で用いるテキスト・ストリングを戻すことが
できる。
【0040】スピーチ入力204をコマンド・プロセッ
サ214が受信すると、コマンド・プロセッサ214
は、アプリケーション・プログラム138に入力すべき
コマンドとしてスピーチ入力204を処理する。文脈自
由文法(CFG)言語を用いて、コマンド・プロセッサ
214は、あるスピーチ入力204のコマンドを戻す。
他の言語モデルを用いて、スピーチ入力204を処理
し、アプリケーション・プログラム138で用いるコマ
ンドを戻すことができる。
【0041】代替実施例では、モード選択プロセッサ2
10は、スピーチ入力204に適したスピーチ認識モー
ドを決定し、どのモードが選択されたかに準じて、特定
のプロセッサにスピーチ入力204を送る。スピーチ認
識モードを決定する選択規準が、スピーチ入力204の
内容とスピーチ入力204の基準になる。
【0042】スピーチ認識モードの結果を口述プロセッ
サ212又はコマンド・プロセッサ214あるいその両
方が戻すと、モード補正プロセッサ216は、結果を受
信して、ドキュメントの入力としてアプリケーション・
プログラム138に結果をコールする。モード補正プロ
セッサ216は、後の検索のために、RAM206のよ
うな記憶装置に結果を保存することもできる。
【0043】RAM206のような記憶装置は、スピー
チ入力204又は処理済みのスピーチ入力204を保存
するうえで有用である。RAM206は、確率モデルの
ようなスピーチ入力204データを保存できるデータ構
造を搭載できる。そのために使用できる2つの構造とし
て、格子と“n−ベスト”代替リストとがある。格子は
当業者には既知の構造なので、十分な説明は行わない。
簡単に言うと、格子は、スピーチ入力源で生成した言葉
又は語句をノードに保存する。各々言葉又は語句がスピ
ーチ入力データなので、ノードは、付随する言葉又は語
句に与えられた確率も保存する。当業者に既知の方法を
用いると、格子は、スピーチ入力データで表現したテキ
ストの任意の部分の代替要素のように作成するために移
動できる。更に、テキストの隣接ピースを表す格子は、
連結と呼ばれるプロセスを介して大きな格子に組合せる
ことができる。大きな格子は、テキストの隣接ピースの
代替要素を作成するために移動できる。代わりに、スピ
ーチ入力データは、n−ベスト代替要素とそれらの付随
する確率のリストで表現できる。任意のある言葉又は語
句に対して、n−ベスト代替要素リストは、言葉又は語
句を表す格子から作成できる。
【0044】モード補正プロセッサ216は、モード補
正コマンドをアプリケーション・プログラム138から
検出して、スピーチ・エンジン補正モジュール200に
送られるモード補正コマンドを待つこともできる。モー
ド補正コマンドを受信又は検出すると、モード補正プロ
セッサ216は、実施したスピーチ認識エラーのタイプ
と、RAM206に既に記憶されているスピーチ入力2
04又は結果に基づいて、モード補正ルーチンを始動す
る。
【0045】口述プロセッサ212とコマンド・プロセ
ッサ214の両方から生じるスピーチ入力204が戻さ
れる実施例では、モード補正プロセッサ216は、代替
要素の結果をRAM206から検索できる。これらの結
果は、ドキュメントに入力するためにアプリケーション
・プログラム138に渡すことができる。
【0046】モード選択プロセッサ210が不適切なプ
ロセッサを選択する代替実施例では、モード補正プロセ
ッサ216は、スピーチ入力204をRAM206から
検索できる。スピーチ入力204は、モード選択プロセ
ッサ210が最初に選択しなかった代替プロセッサで処
理される。代替プロセッサからの結果は、ドキュメント
に入力するために、アプリケーション・プログラム13
8にコールされる。
【0047】アプリケーション・プログラム138が結
果を受信した後に、ユーザは、代替要素の結果を見て、
スピーチ入力204の精度を決定できる。例えば、口述
結果がスピーチ入力204に適した1つ又は複数の代替
口述項目を有している場合、ユーザは、図形ユーザ・イ
ンタフェースを介してユーザに提示される候補を選択で
きる。ユーザが代替口述項目のなかの1つを選ぶと、ア
プリケーション・プログラム138は、口述項目を選ん
だ候補に置き換える。選んだ候補がドキュメントに入力
される。
【0048】種々の構成要素とモジュールを別々に述べ
てきたが、当業者は、構成要素とモジュールが種々の形
態で組み合わされて、新しいプログラムの構成要素とモ
ジュールをつくって、類似の結果を達成することができ
ることを認めると思われる。
【0049】<スピーチ・エンジン・モジュール・ルー
チン>図3は、ドキュメントのスピーチ認識モード・エ
ラーを補正するコンピュータ・ルーチンを示す論理流れ
図である。図3に示すステップは、アプリケーション・
プログラム138を用いて作動するスピーチ・エンジン
補正モジュール200で実施される。ステップ302
は、スピーチ・エンジン補正モジュール200が実施す
るルーチン300から始まる。
【0050】ステップ302がステップ304の前に行
われ、スピーチ・エンジン補正モジュール200は、ア
プリケーション・プログラム138からスピーチ入力2
04を待つ。スピーチ入力204をスピーチ・エンジン
補正モジュール200が受信すると、ステップ304が
ステップ306の前に行われる。
【0051】ステップ306で、口述プロセッサ212
は、スピーチ入力204を処理する。口述プロセッサ2
12は、スピーチ入力204の口述項目を決めるため
に、統計的言語モデル(SLM)のような自然言語モデ
ル218を用いる。このようなモデルは、コンピュータ
読取自在のドキュメントに適したテキストにスピーチ入
力を変換するために、従来技術で広く用いられている。
モデルは、文法、テキストの部分の全体的な意味、又は
ワード・シーケンスの確率のような手がかりを用いて、
候補リストに適した更なる代替要素を作成し、これらの
代替要素の確率を評価できる。適切な自然言語モデル2
18は、あるスピーチ入力に適したテキスト結果を常に
戻す。口述プロセッサ212がスピーチ入力204に適
したテキスト結果を決めた後に、ステップ306がステ
ップ308の前に行われる。
【0052】ステップ308で、コマンド・プロセッサ
214はスピーチ入力204を処理する。コマンド・プ
ロセッサ214は、スピーチ入力204のコマンドの内
容を決めるために、文脈自由文法(CFG)言語モデル
220を用いる。このようなモデルは、あるスピーチ入
力に適したコマンド結果にスピーチ入力を変換するため
に、従来技術で広く用いられている。適切なCFGモデ
ルは、スピーチ入力204と十分に似ているアプリケー
ション・プログラム・コマンドを戻す。コマンド・プロ
セッサ214がスピーチ入力204に適したコマンド結
果を決めた後に、ステップ308がステップ310の前
に行われる。
【0053】ステップ310で、モード選択プロセッサ
210は、スピーチ入力204に適したスピーチ認識モ
ードを決定する。口述選択規準に基づいて、モード選択
プロセッサ210は、スピーチ認識モードを決定し、選
択したスピーチ認識モードに基づいてスピーチ入力20
4の処理を続ける。適切な選択規準が、スピーチ入力の
文脈と、ドキュメントと、スピーチ入力の内容になる。
例えば、モード選択プロセッサ210が単一の言葉“削
除”から成るスピーチ入力に出会うと、モード選択プロ
セッサ210は、スピーチ入力204の文脈とドキュメ
ントとに基づいて、及びスピーチ入力204がコマンド
であるというスピーチ入力204の内容から決める。従
って、モード選択プロセッサ210は、コマンドとして
スピーチ入力204の処理を続ける。スピーチ認識モー
ドをモード選択プロセッサ210を選択すると、ステッ
プ310がステップ312の前に行われる。
【0054】ステップ312で、モード選択プロセッサ
210は、選択したモード・プロセッサの結果をアプリ
ケーション・プログラム138に送る。例えば、コマン
ド・プロセッサ214がコマンド“削除”を戻し、モー
ド選択プロセッサ210がスピーチ入力204のモード
がコマンドであると決定すると、モード選択プロセッサ
210はスピーチ入力“削除”をアプリケーション・プ
ログラム138にコマンドとして送る。選択したモード
・プロセッサの結果がアプリケーション・プログラム1
38に送られると、ステップ312がステップ314の
前に行われる。
【0055】ステップ314で、スピーチ・エンジン補
正モジュール200は、代替のモード・プロセッサの結
果をRAM206に、又は別の類似のタイプのメモリ又
は記憶装置に保存する。代替のモード・プロセッサの結
果を保存すると、スピーチ・エンジン補正モジュール2
00が、これらの結果を後で検索できる。例えば、スピ
ーチ・エンジン又はユーザがモード・エラーが生じたと
決定すると、選択したモードは、スピーチ・エンジン補
正モジュール200が最初に選択していなかった代替モ
ードになる。
【0056】ステップ314が決定ブロック316の前
に行われ、そこで、モード補正プロセッサ216がスピ
ーチ認識モード補正コマンドをチェックする。他の類似
のコマンド又は機能は、モード・エラーの存在を示すモ
ード補正プロセッサ216で検出又は受信される。スピ
ーチ認識モード補正コマンドを検出すると“イエス”ブ
ランチで決定ブロック318に進み、モード補正ルーチ
ンが継続する。スピーチ認識モード補正コマンドを検出
しない場合“ノー”ブランチでステップ326に進み、
ルーチン300のスタートに戻る。
【0057】モード補正ルーチン300は決定ブロック
318でも継続し、モード補正プロセッサ216は、口
述モード補正に対するコマンドが実施する必要があるか
どうか決定する。モード・エラーがコマンドを口述項目
に相応して変更することを要求する場合に、“イエス”
ブランチでステップ320に進み、ルーチン400(図
4に示す)が行われる。モード・エラーがコマンドを口
述項目に相応して変更することを要求しない場合、“ノ
ー”ブランチで決定ブロック322に進む。
【0058】決定ブロック322で、モード補正プロセ
ッサ216は、コマンド・モード補正の口述を実施する
必要があるかどうか決定する。スピーチ認識モード・エ
ラーが口述項目をコマンドに相応して変更することを要
求する場合、“イエス”ブランチでステップ324に進
み、ルーチン500(図5に示す)が行われる。スピー
チ認識モード・エラーが口述項目をコマンドに相応して
変更することを要求しない場合に、“ノー”ブランチで
ステップ326に進み、ルーチン300がスタートに戻
る。
【0059】図4はルーチン400を示しているが、そ
こでは、スピーチ・エンジン補正モジュール200がコ
マンド・スピーチ認識モード・エラーを補正する。すな
わち、コマンドとしてアプリケーション・プログラム1
38に入力されたスピーチ入力204が、ユーザが意図
したように、アプリケーション・プログラム138に適
した口述入力に変換される。ステップ402で、スピー
チ・エンジン補正モジュール200で行われるルーチン
400がスタートする。
【0060】ステップ402がステップ404の前に行
われ、スピーチ・エンジン補正モジュール200は、当
初のスピーチ入力204をRAM206、又は任意の他
の類似のメモリ又は記憶装置に保存する。当初のスピー
チ入力204を保存すると、後にスピーチ入力204を
リコールして再処理することが可能になる。例えば、R
AM206は、ルーチン400が中断して、当初のスピ
ーチ入力204のリコールが必要な時に効果的に使用で
きる。
【0061】ステップ404がステップ406の前に行
われ、“アンドー”コマンドが、ドキュメントに対する
コマンドとして入力される。モード補正プロセッサ21
6は、“アンドー”コマンドをアプリケーション・プロ
グラム138に送る。アプリケーション・プログラム1
38は“アンドー”をドキュメントに実施する。“アン
ドー”コマンドは、アプリケーション・プログラム13
8がドキュメントに対して実施した最後のコマンド又は
シリーズのコマンドをリコールして、ドキュメントに実
施した最後のコマンド又はシリーズのコマンドを反転す
るか又はアンドーする。“アンドー”コマンドを実施す
ると、モード・エラーが発生し、スピーチ入力204が
ドキュメントに対する口述項目の代わりにコマンドとし
て入力される前に、ドキュメントをその当初の内容に戻
すことができる。
【0062】ステップ406がステップ408の前に行
われ、モード補正プロセッサ216は、RAM206に
代替モード・プロセッサの結果として保存された口述プ
ロセッサ212の結果から候補口述項目を選択する。図
3のステップ314で述べたように、代替モード・プロ
セッサの結果は、スピーチ認識モード・エラーが検出さ
れて、選択したモードがスピーチ・エンジン・モジュー
ル200で初期に選択しなかった代替モードである時の
ような状態で、後の検索のためにRAM206に保存さ
れる。モード補正プロセッサ216は、ドキュメントの
関連性に基づき選択規準を用いて、候補口述項目を代替
モード・プロセッサの結果から選択する。
【0063】モード・エラーを補正する速度をあげるた
めに、モード補正プロセッサ216は、候補の口述項目
をアプリケーション・プログラム138に自動的に送
り、候補口述項目をドキュメントにユーザに促さずに入
力する。そうでない場合に、モード補正プロセッサ21
6は、候補口述項目が適切なスピーチ入力204の口述
結果に最も相応する選択項目であることを、ユーザに単
純に促して、ユーザがドキュメントに対する候補口述項
目を認めるか又は受け入れることを待つ。
【0064】ステップ410がステップ408の後に行
われ、モード補正プロセッサ216は、候補選択項目と
RAM206の代替結果の全てをアプリケーション・プ
ログラム138に送る。アプリケーション・プログラム
138は、他の代替口述項目の結果のなかから強調表示
する選択項目として候補の選択項目を表示できる。ユー
ザは、候補の選択項目を選んでアプリケーション・プロ
グラム138に入力するか、又は、ユーザは代替口述結
果のリストをスクロール・ダウンして、希望した口述結
果を選択できる。ある例では、モード・エラーを補正す
る速度をあげるように、口述の選択項目がアプリケーシ
ョン・プログラム138に送られる唯一の代替結果にな
り、ユーザが口述選択項目の入力を促されるか、又は口
述選択項目が自動的にドキュメントに挿入できる。
【0065】ステップ412がステップ410の後に行
われ、選択した口述の選択項目がドキュメントに適した
口述入力としてアプリケーション・プログラム138に
入力される。このステップでは、スピーチ・エンジン補
正モジュール200又はユーザが、希望の口述結果につ
いてRAM206に保存された代替結果を分析し、ドキ
ュメントに対する口述項目に適したスピーチ入力204
として最も希望される結果を決定した後に、ドキュメン
トに適した口述入力を提供する。ステップ412がステ
ップ414の前に行われ、ルーチン400は、図3のス
テップ326に戻ると終了する。
【0066】図5は、スピーチ・エンジン補正モジュー
ル200がコマンド・スピーチ認識モード・エラーの口
述項目を補正する、ルーチン500を示す。すなわち、
モード補正プロセッサ216が、スピーチ入力204が
口述として不適切に入力されたことを検出すると、スピ
ーチ入力204がコマンドとしてドキュメントに入力さ
れる。図5はルーチン500を図示する論理流れ図であ
り、図3の決定ブロック322から派生する“イエス”
ブランチに続いている。ルーチン500はステップ50
2から始まる。
【0067】ステップ502がステップ504の前に行
われ、スピーチ・エンジン補正モジュール200は、受
信したスピーチ入力204をRAM206、又は任意の
他の類似のメモリ又は記憶装置に保存する。当初のスピ
ーチ入力204を保存すると、ルーチン500が中断し
て、当初のスピーチ入力204をリコールする必要があ
る場合でも、スピーチ入力204をリコールして再処理
することが可能になる。例えば、RAM206は、ルー
チン500が中断し、当初のスピーチ入力204のリコ
ールが必要な時に効果的に使用できる。
【0068】ステップ504がステップ506の前に行
われ、モード補正プロセッサ216は、“削除”コマン
ドをアプリケーション・プログラム138に送り、口述
項目としてドキュメントに不適切に入力されたスピーチ
入力204を削除する。“削除”コマンド又は任意の類
似の機能がアプリケーション・プログラム138に送ら
れ、口述項目としてドキュメントに不適切に入力された
スピーチ入力204を除去する。
【0069】ステップ506がステップ508の前に行
われ、モード補正プロセッサ216は、RAM206に
記憶されている代替モード・プロセッサの結果から候補
コマンドを選択する。図3のステップ314で述べたよ
うに、代替モード・プロセッサの結果は、スピーチ認識
モード・エラーが検出され、選択したモードがスピーチ
・エンジン補正モジュール200で初期に選択しなかっ
た代替モードである時のような状態で、後の検索のため
にRAM206に保存される。モード補正プロセッサ2
16は、ドキュメント又は既に発行済みのコマンドの関
連性に基づき択規準を用いて、候補コマンドを代替モー
ド・プロセッサの結果から選択する。
【0070】ステップ508がステップ510の前に行
われ、モード補正プロセッサ216は、候補コマンドと
RAM206の代替結果の全てをアプリケーション・プ
ログラム138に送る。アプリケーション・プログラム
138は、他の代替コマンドの結果のなかから強調表示
する選択項目として候補の選択項目を表示できる。モー
ド・エラーを補正する速度をあげるために、モード補正
プロセッサ216は、候補コマンドをアプリケーション
・プログラム138にユーザを促さずに自動的に送る。
そうでない場合に、モード補正プロセッサ216は、候
補コマンドが適切なスピーチ入力204のコマンド結果
に最も相応する選択項目であることを、ユーザに単純に
知らせることができる。
【0071】ステップ510がステップ512の前に行
われ、選択したコマンドが、アプリケーション・プログ
ラム138に入力される。このステップでは、スピーチ
・エンジン補正モジュール200又はユーザが、希望の
コマンド結果についてRAM206に保存された代替結
果を分析し、ドキュメントに入力するコマンドに適した
スピーチ入力204として最も希望される結果を決定し
た後に、ドキュメントに適したコマンド入力を提供す
る。ステップ512がステップ514の前に行われ、ル
ーチン500は、図3のステップ326に戻ると終了す
る。
【0072】図6は、ドキュメントのスピーチ認識モー
ド・エラーを補正する代替コンピュータ・ルーチンを示
す論理流れ図である。図6に示すステップは、アプリケ
ーション・プログラム138に準じて作動する、スピー
チ・エンジン補正モジュール200で行われる。ステッ
プ602はスピーチ・エンジン補正モジュール200で
行われるルーチン600からスタートする。
【0073】ステップ602はステップ604の前に行
われ、スピーチ・エンジン補正モジュール200は、ア
プリケーション・プログラム138からスピーチ入力2
04を待つ。スピーチ入力204をスピーチ・エンジン
・モジュール200が受信すると、ステップ604がス
テップ606の前に行われる。
【0074】ステップ606で、モード選択プロセッサ
210は、スピーチ入力204に適したスピーチ認識モ
ードを決定する。口述選択規準に基づいて、モード選択
プロセッサ210は、スピーチ認識モードを決定し、選
択したスピーチ認識モードに基づいてスピーチ入力20
4の処理を続ける。適切な選択規準が、スピーチ入力の
文脈と、ドキュメントと、スピーチ入力の内容になる。
例えば、モード選択プロセッサ210が単一の言葉“削
除”から成るスピーチ入力204に出会うと、モード選
択プロセッサ210は、スピーチ入力204の文脈とド
キュメントとに基づいて、及びスピーチ入力204がコ
マンドであるというスピーチ入力204の内容から決め
る。従って、モード選択プロセッサ210は、コマンド
としてスピーチ入力204の処理を続ける。適切なスピ
ーチ認識モードは、口述とコマンドになるか、又はアプ
リケーション・プログラム138のドキュメントで有用
な任意の他のモードになる。スピーチ認識モードを選択
すると、ステップ606がステップ608の前に行われ
る。
【0075】ステップ608で、モード・プロセッサ2
12、214は、ステップ606で選んだスピーチ認識
モードに基づいてスピーチ入力204を処理する。口述
モードが選択された場合、口述プロセッサ212はスピ
ーチ入力204を処理する。口述プロセッサ212は、
口述の内容を決めるために自然言語モデル218を用い
る。このようなモデルは、コンピュータ読取自在のドキ
ュメントに適したテキストにスピーチ入力を変換するた
めに、従来技術で広く用いられている。モデルは、文
法、テキストの部分の全体的な意味、又はワード・シー
ケンスの確率のような手がかりを用いて、候補リストに
適した更なる代替要素を作成し、これらの代替要素の確
率を評価できる。適切な言語モデルは、あるスピーチ入
力に適したテキスト結果を常に戻す。口述プロセッサ2
18がスピーチ入力204に適したテキスト結果を決め
た後に、ステップ608がステップ610の前に行われ
る。
【0076】代わりに、コマンド・モードが選択される
と、コマンド・プロセッサ214がスピーチ入力204
を処理する。コマンド・プロセッサ214は、コマンド
の内容を決めるために、文脈自由文法(CFG)言語モ
デル220を用いる。このようなモデルは、あるスピー
チ入力204に適したコマンド結果にスピーチ入力を変
換するために、従来技術で広く用いられている。適切な
CFGモデルは、スピーチ入力204と十分に似ている
アプリケーション・プログラム・コマンドを戻す。コマ
ンド・プロセッサ214がスピーチ入力204に適した
コマンド結果を決めた後に、ステップ608が決定ブロ
ック610の前に行われる。
【0077】決定ブロック610で、モード補正プロセ
ッサ216がスピーチ認識モード補正コマンドをチェッ
クする。他の類似のコマンド又は機能は、モード・エラ
ーを指示するために、モード補正プロセッサ216で検
出又は受信できる。スピーチ認識モード補正コマンドを
検出すると“イエス”ブランチで決定ブロック612に
進み、モード補正ルーチンが継続する。スピーチ認識モ
ード補正コマンドを検出しない場合、“ノー”ブランチ
でステップ308に進み、選択したモードを用いて、ス
ピーチ入力204の処理を続ける。
【0078】モード補正ルーチン600は決定ブロック
612でも継続し、モード補正プロセッサ216は、口
述モード補正に対するコマンドが実施する必要があるか
どうか決定する。モード・エラーがコマンドを口述項目
に相応して変更することを要求する場合に、“イエス”
ブランチでステップ614に進み、ルーチン700(図
7に示す)が行われる。モード・エラーがコマンドを口
述項目に相応して変更することを要求しない場合“ノ
ー”ブランチで決定ブロック616に進む。
【0079】決定ブロック616で、モード補正プロセ
ッサ216は、コマンド・モード補正の口述を実施する
必要があるかどうか決定する。スピーチ認識モード・エ
ラーが口述項目をコマンドに相応して変更することを要
求する場合、“イエス”ブランチでステップ618に進
み、ルーチン800(図8に示す)が行われる。スピー
チ認識モード・エラーが口述項目をコマンドに相応して
変更することを要求しない場合に、“ノー”ブランチで
ステップ620に進み、ルーチン600がスタート・ブ
ロック302に戻る。
【0080】図7は代替ルーチン700を示している
が、そこでは、スピーチ・エンジン補正モジュール20
0がコマンド・スピーチ認識モード・エラーを補正す
る。すなわち、スピーチ・エンジン・ジュールは、ユー
ザが意図した口述項目としてスピーチ入力204を再入
力することにより、コマンドとしてアプリケーション・
プログラム138に不適切に入力されていたスピーチ入
力204を補正する。ステップ702から、スピーチ・
エンジン補正モジュール200で行われるルーチン70
0がスタートする。
【0081】ステップ702がステップ704の前に行
われ、スピーチ・エンジン補正モジュール200は、当
初のスピーチ入力204をRAM206に保存する。他
のメモリ又は記憶装置と構造を用いて、当初のスピーチ
入力204を保存できる。当初のスピーチ入力204を
保存すると、後にスピーチ入力をリコールして再処理す
ることが可能になる。例えば、RAM206は、ルーチ
ン700が中断して、当初のスピーチ入力204のリコ
ールが必要な時に効果的に使用できる。
【0082】ステップ704がステップ706の前に行
われ、“アンドー”コマンドが、ドキュメントに対する
コマンドとして入力される。モード補正プロセッサ21
6は、“アンドー”コマンドをアプリケーション・プロ
グラム138に送る。アプリケーション・プログラム1
38は“アンドー”をドキュメントに実施する。“アン
ドー”コマンドは、アプリケーション・プログラム13
8がドキュメントに対して実施した最後のコマンド又は
シリーズのコマンドをリコールして、ドキュメントに実
施した最後のコマンド又はシリーズのコマンドを反転す
るか又はアンドーする。“アンドー”コマンドを実施す
ると、スピーチ入力204が口述項目の代わりにコマン
ドとして不適切に入力される前に、ドキュメントをその
当初の内容に戻すことができる。
【0083】ステップ706がステップ708の前に行
われ、モード補正プロセッサ216は、RAM206に
保存されていた当初のスピーチ入力204を口述プロセ
ッサ212に送る。
【0084】ステップ708がステップ710の前に行
われ、スピーチ入力204を口述プロセッサ212が口
述項目として処理する。口述プロセッサ212は、統計
的言語モデル(SLM)218又は別の類似する言語モ
デルを用いて、スピーチ入力204を処理する。テキス
ト結果が、ドキュメントに対する入力のために、口述プ
ロセッサ212によって戻される。
【0085】ステップ710がステップ712の前に行
われ、モード補正プロセッサ216は、口述結果をアプ
リケーション・プログラム138に送る。アプリケーシ
ョン・プログラム138は、口述の内容をドキュメント
に入力する。ステップ712がステップ714の前に行
われ、ルーチン700は、図6のステップ608に戻る
と終了する。
【0086】図8は、スピーチ・エンジン補正モジュー
ル200が口述項目のスピーチ認識モード・エラーを補
正する代替ルーチン800を示す。すなわち、モード補
正プロセッサ216がスピーチ入力204が口述項目と
して不適切に入力されたことを検出され、スピーチ入力
204がコマンドとしてドキュメントに入力された時で
ある。図8は、図6のステップ616に続いて行われ
る、ルーチン800を示す論理流れ図である。ルーチン
800は、ステップ802から始まる。
【0087】ステップ802がステップ804の前に行
われ、スピーチ・エンジン補正モジュール200は、受
信したスピーチ入力204をRAM206に保存する。
他のメモリ又は記憶装置を用いてスピーチ入力204を
保存できる。当初のスピーチ入力204を保存すると、
後にスピーチ入力をリコールして再処理することが可能
になる。例えば、RAM206は、ルーチン800が中
断して、当初のスピーチ入力204のリコールが必要な
時に効果的に使用できる。
【0088】ステップ804がステップ806の前に行
われ、モード補正プロセッサ216は、“削除”コマン
ドをアプリケーション・プログラムに送り、口述項目と
してドキュメントに不適切に入力されたスピーチ入力2
04を削除する。他の類似のコマンド又は機能をアプリ
ケーション・プログラム138に送り、口述項目として
ドキュメントに不適切に入力されたスピーチ入力204
を除去できる。
【0089】ステップ806がステップ808の前に行
われ、モード補正プロセッサ216は、RAM206に
保存されていた当初のスピーチ入力204をコマンド・
プロセッサ214に送る。
【0090】ステップ808がステップ810の前に行
われ、スピーチ入力204をコマンド・プロセッサ21
4がコマンドとして処理する。コマンド・プロセッサ2
14は、文脈自由文法(CFG)言語モデル220又は
別の類似の言語モデルを用いてスピーチ入力204を処
理する。コマンド結果は、アプリケーション・プログラ
ム138に対する入力のためにコマンド・プロセッサ2
14によって戻される。
【0091】ステップ810がステップ812の前に行
われ、モード補正プロセッサ216は、コマンド結果を
アプリケーション・プログラム138に送る。アプリケ
ーション・プログラム138はコマンド入力をドキュメ
ントに入力できる。ステップ812がステップ814の
前に行われ、ルーチン800は図6のステップ608に
戻ると終了する。
【0092】前述の説明を鑑みて、本発明は、プログラ
ムのドキュメントのスピーチ認識モード・エラーを補正
するスピーチ・エンジン補正モジュールを提供する。前
述の説明は本発明の代表的な実施例だけに関しており、
種々の変更を請求項で定める本発明の趣旨と範囲とから
逸脱せずに実施できることを理解すべきである。
【図面の簡単な説明】
【図1】本発明の代表的な実施例の動作環境を提供する
パーソナル・コンピュータ・システムの機能ブロック図
である。
【図2】本発明の代表的な実施例に基づいてスピーチ認
識モード・エラーを補正するスピーチ・エンジン補正モ
ジュールの構成要素を示す機能ブロック図である。
【図3】スピーチ認識モード・エラーを補正すいる代表
的な方法を示す論理流れ図である。
【図4】口述スピーチ認識モード・エラーに対するコマ
ンドを補正する代表的な方法を示す論理流れ図である。
【図5】コマンド・スピーチ認識モード・エラーに対す
る口述を補正する代表的な方法を示す論理流れ図であ
る。
【図6】スピーチ認識モード・エラーを補正する代替方
法を示す論理流れ図である。
【図7】口述スピーチ認識モード・エラーに対するコマ
ンドを補正する代替方法を示す論理流れ図である。
【図8】コマンド・スピーチ認識モード・エラーに対す
る口述を補正する代替方法を示す論理流れ図である。
【符号の説明】
100 動作環境 120 パーソナル・コンピュータ・システム 121 処理装置 122 システム・メモリ 123 システム・バス 125 RAM 127 ハードディスク・ドライブ 128 磁気ディスク・ドライブ 129 磁気ディスク 132 ハードディスク・ドライブ・インタフェース 133 磁気ディスク・ドライブ・インタフェース 134 光学的ドライブ・インタフェース 135 オペレーティング・システム 137 スピーチ・エンジン補正モジュール 138 アプリケーション・プログラム・モジュール
(ワード・プロセッサ) 140 キーボード 142 マウス 147 モニタ 149 リモート・コンピュータ 151 ローカル・エリア・ネットワーク 152 ワイド・エリア・ネットワーク 161 マイクロフォン
───────────────────────────────────────────────────── フロントページの続き (72)発明者 エリック ラッカー アメリカ合衆国 98105 ワシントン州 シアトル フォーティエイス アヴェニュ ー 4316 (72)発明者 ポール キョン ホワン キム アメリカ合衆国 98107 ワシントン州 シアトル ナンバー205 エヌダブリュー サーティナインス ストリート 201 (72)発明者 デイヴィッド アレン コールトン アメリカ合衆国 98052 ワシントン州 レドモンド エスイー ファースト 23016

Claims (40)

    【特許請求の範囲】
  1. 【請求項1】 ドキュメントにスピーチ入力を入力する
    ように構成されたスピーチ・エンジンを搭載し、 第1の結果と第2の結果とを得るために、前記スピーチ
    入力を処理するステップと、 前記スピーチ入力に適したスピーチ認識モードを選択す
    るステップと、 前記選択されたスピーチ認識モードに基づいて、前記ド
    キュメントに、前記第1の結果又は前記第2の結果を送
    るステップとを備えているコンピュータ実行自在の命令
    を有することを特徴とするコンピュータ読取自在の記録
    媒体。
  2. 【請求項2】 前記スピーチ・エンジンが、 代替結果を保存し、 前記ドキュメントのスピーチ認識モード・エラーを検出
    し、 過去の結果のエントリに基づいて前記ドキュメントに実
    施された任意の変更事項をアンドーし、 前記ドキュメントに対するエントリのために前記ドキュ
    メントに前記代替結果を送るように構成されていること
    を特徴とする請求項1記載のコンピュータ読取自在の記
    録媒体。
  3. 【請求項3】 ドキュメントに対するスピーチ入力を入
    力するように構成されたスピーチ・エンジンを搭載し、 前記スピーチ入力を保存するステップと、 前記スピーチ入力に適したスピーチ認識モードを選択す
    るステップと、 第1の結果を得るために、前記スピーチ入力を処理する
    ステップと、 前記ドキュメントに前記第1の結果を入力するステップ
    とを備えているコンピュータ実行自在の命令を有するこ
    とを特徴とするコンピュータ読取自在の記録媒体。
  4. 【請求項4】 前記スピーチ・エンジンが、 前記ドキュメントのスピーチ認識モード・エラーを検出
    し、 前記第1の結果に基づいて前記ドキュメントに実施され
    た任意の変更事項をアンドーし、 第2の結果を得るために、前記スピーチ入力を処理し、 前記ドキュメントに前記第2の結果を入力するように構
    成されていることを特徴とする請求項3記載のコンピュ
    ータ読取自在の記録媒体。
  5. 【請求項5】 ドキュメント入力を入力するアプリケー
    ション・プログラムと、 前記アプリケーション・プログラムの入力を処理するよ
    うに構成されたスピーチ・エンジンとを搭載し、 第1の結果を得るために、プロセッサの入力を処理する
    ステップと、 第2の結果を得るために、前記プロセッサの前記入力を
    処理するステップと、 モード選択プロセッサを用いて前記入力に適したモード
    を決定するステップと、 前記モード選択プロセッサを用いて選択したモードに基
    づいて結果を選択するステップと、 前記ドキュメントに入力される前記アプリケーション・
    プログラムに前記選択された結果を送るステップと、 記憶装置に代替結果を保存するステップと、 モード補正プロセッサを用いてモード・エラーを検出す
    るステップと、 モード・エラーの検出に対応して、 既に選択された結果に基づいて前記ドキュメントに実施
    された変更事項をアンドーするステップと、 前記代替モード結果を検索するステップと、 前記ドキュメントに入力される前記アプリケーション・
    プログラムに前記代替モード結果を送るステップとを備
    えているコンピュータ実行自在の命令を有することを特
    徴とするコンピュータ読取自在の記録媒体。
  6. 【請求項6】 前記ドキュメントに対する前記入力が人
    の声を含んでいることを特徴とする請求項5記載のコン
    ピュータ読取自在の記録媒体。
  7. 【請求項7】 前記プロセッサが、コマンド結果を得る
    ために、前記入力を処理するように更に構成されている
    ことを特徴とする請求項5記載のコンピュータ読取自在
    の記録媒体。
  8. 【請求項8】 前記プロセッサが、口述の結果を得るた
    めに、前記入力を処理するように更に構成されているこ
    とを特徴とする請求項5記載のコンピュータ読取自在の
    記録媒体。
  9. 【請求項9】 前記モードが、コマンド又は口述項目、
    又はその2つの組合せを含んでいることを特徴とする請
    求項5記載のコンピュータ読取自在の記録媒体。
  10. 【請求項10】 前記記憶装置がRAMのような再書込
    自在の記憶装置を備えていることを特徴とする請求項5
    記載のコンピュータ読取自在の記録媒体。
  11. 【請求項11】 モード補正プロセッサを用いてモード
    ・エラーを検出する前記ステップが、モード・エラーが
    発生したというコマンドをユーザから受信するステップ
    を更に備えていることを特徴とする請求項5記載のコン
    ピュータ読取自在の記録媒体。
  12. 【請求項12】 前記代替モード結果から候補モード結
    果を決定するステップを更に備えていることを特徴とす
    る請求項5記載のコンピュータ読取自在の記録媒体。
  13. 【請求項13】 代替モード結果のリストのなかから、
    前記候補モード結果を選択することを、ユーザに促すス
    テップを更に備えていることを特徴とする請求項12記
    載のコンピュータ読取自在の記録媒体。
  14. 【請求項14】 前記ドキュメントに前記代替結果を入
    力するステップを更に備えていることを特徴とする請求
    項5記載のコンピュータ読取自在の記録媒体。
  15. 【請求項15】 ドキュメントに入力を入力するアプリ
    ケーション・プログラムと前記のアプリケーション・プ
    ログラムの入力を処理するように構成されたスピーチ・
    エンジンとを搭載し、 モード選択から前記入力に適したモードを選択するステ
    ップと、 第1の結果を得るために、プロセッサの入力を処理する
    ステップと、 前記ドキュメントに入力される前記アプリケーション・
    プログラムに前記第1の結果を送するステップと、 記憶装置に前記入力を保存するステップと、 モード補正プロセッサを用いてモード・エラーを検出す
    るステップと、 モード・エラーの検出に対応して、 既に選択された結果に基づいて前記ドキュメントに実施
    された変更事項をアンドーするステップと、 前記記憶装置から前記入力を検索するステップと、 第2の結果を得るために、前記プロセッサの前記入力を
    処理するステップと、 前記ドキュメントに入力される前記アプリケーション・
    プログラムに前記第2の結果を送るステップと を備えているコンピュータ実行自在の命令を有すること
    を特徴とするコンピュータ読取自在の媒体。
  16. 【請求項16】 前記ドキュメントに対する前記入力が
    人の声を含んでいることを特徴とする請求項15記載の
    コンピュータ読取自在の媒体。
  17. 【請求項17】 前記プロセッサが、コマンド結果を得
    るために、前記入力を処理するように更に構成されてい
    ることを特徴とする請求項15記載のコンピュータ読取
    自在の媒体。
  18. 【請求項18】 前記プロセッサが、口述の結果を得る
    ために、前記入力を処理するように更に構成されている
    ことを特徴とする請求項15記載のコンピュータ読取自
    在の媒体。
  19. 【請求項19】 前記モードが、コマンド又は口述項
    目、又はその2つの組合せを含んでいることを特徴とす
    る請求項15記載のコンピュータ読取自在の媒体。
  20. 【請求項20】 前記記憶装置がRAMのような再書込
    自在の記憶装置を備えていることを特徴とする請求項1
    5記載のコンピュータ読取自在の媒体。
  21. 【請求項21】 モード・エラーが発生したというコマ
    ンドをユーザから受信するステップを更に備えているこ
    とを特徴とする請求項15記載のコンピュータ読取自在
    の媒体。
  22. 【請求項22】 前記ドキュメントに前記第2の結果を
    入力するステップを更に備えていることを特徴とする請
    求項15記載のコンピュータ読取自在の媒体。
  23. 【請求項23】 ドキュメントの入力のためにアプリケ
    ーション・プログラムからスピーチ入力を受信するステ
    ップと、 第1の結果を得るために、プロセッサの前記スピーチ入
    力を処理するステップと、 第2の結果を得るために、前記プロセッサの前記スピー
    チ入力を処理するステップと、 モード選択プロセッサを用いて、前記スピーチ入力に適
    したスピーチ認識モードを決定するステップと、 前記選択したスピーチ認識モードに基づいて結果を選択
    するステップと、 前記ドキュメントに入力される前記アプリケーション・
    プログラムに前記選択された結果を送るステップと、 記憶装置に代替結果を保存するステップと、 モード補正プロセッサを用いて、スピーチ認識モード・
    エラーを検出するステップと、 スピーチ認識モード・エラーの検出に対応して、 既に選択された結果に基づいて前記ドキュメントに実施
    された変更事項をアンドーするステップと、 前記代替モード結果を検索するステップと、 前記ドキュメントに入力される前記アプリケーション・
    プログラムに前記代替モード結果を送るステップとを備
    えていることを特徴とするドキュメントのスピーチ認識
    モード・エラーを補正する方法。
  24. 【請求項24】 前記第1の結果がコマンド結果である
    ことを特徴とする請求項23記載の方法。
  25. 【請求項25】 前記第1の結果が口述結果であること
    を特徴とする請求項23記載の方法。
  26. 【請求項26】 前記モード補正プロセッサが、モード
    ・エラーが発生したというコマンドをユーザから受信す
    るように更に作動できることを特徴とする請求項23記
    載の方法。
  27. 【請求項27】 前記モード補正プロセッサが、前記代
    替モード結果から候補モード結果を決定するように更に
    作動できることを特徴とする請求項23記載の方法。
  28. 【請求項28】 前記モード補正プロセッサが、代替モ
    ード結果のリストのなかから前記候補モード結果を選択
    することを、ユーザに促すように更に作動できることを
    特徴とする請求項27記載の方法。
  29. 【請求項29】 前記モード補正プロセッサが、前記ド
    キュメントに前記代替結果を入力するように更に作動で
    きることを特徴とする請求項23記載の方法。
  30. 【請求項30】 請求項23記載の前記方法を実施する
    ために、コンピュータ実行自在の命令のセットを保存す
    ることを特徴とするコンピュータ読取自在の記憶装置。
  31. 【請求項31】 請求項23記載の前記方法の前記ステ
    ップを実施することを特徴とする装置。
  32. 【請求項32】 ドキュメントの入力のためにアプリケ
    ーション・プログラムからスピーチ入力を受信するステ
    ップと、 モード選択プロセッサを用いて、前記スピーチ入力に適
    したスピーチ認識モードを選択するステップと、 第1の結果を得るために、プロセッサの前記スピーチ入
    力を処理するステップと、 前記ドキュメントに入力される前記アプリケーション・
    プログラムに前記第1の結果を送るステップと、 記憶装置に前記スピーチ入力を保存するステップと、 モード補正プロセッサを用いて、モード・エラーを検出
    するステップと、 モード・エラーの検出に対応して、 既に選択された結果に基づいて前記ドキュメントに実施
    された変更事項をアンドーするステップと、 前記記憶装置から前記スピーチ入力を検索するステップ
    と、 第2の結果を得るために前記プロセッサの前記スピーチ
    入力を処理するステップと、 前記ドキュメントに入力される前記アプリケーション・
    プログラムに前記第2の結果を送るステップとを備えて
    いることを特徴とするドキュメントのスピーチ認識モー
    ド・エラーを補正する方法。
  33. 【請求項33】 前記第1の結果が口述結果であること
    を特徴とする請求項32記載の方法。
  34. 【請求項34】 前記第1の結果がコマンド結果である
    ことを特徴とする請求項32記載の方法。
  35. 【請求項35】 前記モード補正プロセッサが、モード
    ・エラーが発生したというコマンドをユーザから受信す
    るように更に作動できることを特徴とする請求項32記
    載の方法。
  36. 【請求項36】 前記モード補正プロセッサが、前記ド
    キュメントに前記第2の結果を入力するように更に作動
    できることを特徴とする請求項32記載の方法。
  37. 【請求項37】 請求項32記載の前記方法を実施する
    ために、コンピュータ実行自在の命令のセットを保存す
    ることを特徴とするコンピュータ読取自在の記憶装置。
  38. 【請求項38】 請求項32記載の前記方法の前記ステ
    ップを実施することを特徴とする装置。
  39. 【請求項39】 ドキュメントにテキスト又はコマンド
    を入力するアプリケーション・プログラムと、 前記アプリケーション・プログラムのテキスト又はコマ
    ンドに対するスピーチ入力を処理するように構成された
    スピーチ・エンジン・プログラムとを搭載し、 口述結果を得るために、口述プロセッサの前記スピーチ
    入力を処理するステップと、 コマンド結果を得るために、コマンド・プロセッサの前
    記スピーチ入力を処理するステップと、 前記スピーチ入力に適したスピーチ認識モードを決定す
    るステップと、 前記スピーチ認識モードに基づいて結果を選択するステ
    ップと、 前記ドキュメントに入力される前記アプリケーション・
    プログラムに前記選択された結果を送るステップと、 記憶装置に代替スピーチ認識モードの結果を保存するス
    テップと、 スピーチ認識モード・エラーを検出するステップと、 スピーチ認識モード・エラーの検出に対応して、 既に選択された結果に基づいて前記ドキュメントに実施
    された変更事項をアンドーするステップと、 前記代替スピーチ認識モードの結果を検索するステップ
    と、 前記アプリケーション・プログラムに前記代替スピーチ
    認識モードの結果を送るステップと、 前記ドキュメントに前記代替スピーチ認識モードの結果
    を入力するステップとを備えているコンピュータ実行自
    在の命令を有することを特徴とするコンピュータ読取自
    在の記録媒体。
  40. 【請求項40】 ドキュメントにテキスト又はコマンド
    を入力するアプリケーション・プログラムと、 前記アプリケーション・プログラムのテキスト又はコマ
    ンドを処理するように構成されたスピーチ・エンジン・
    プログラムとを搭載し、 第1のモード選択により前記テキスト又はコマンドの第
    1のモードを選択するステップと、 第1の結果を得るために、プロセッサの前記テキスト又
    はコマンドを処理するステップと、 前記ドキュメントに入力される前記アプリケーション・
    プログラムに前記第1の結果を送るステップと、 記憶装置に前記テキスト又はコマンドを保存するステッ
    プと、 モード補正プロセッサを用いて、モード・エラーを検出
    するステップと、 モード・エラーの検出に対応して、 既に選択された結果に基づいて前記ドキュメントに実施
    された変更事項をアンドーするステップと、 前記記憶装置から前記テキスト又はコマンドを検索する
    ステップと、 第2の結果を得るために、前記プロセッサの前記テキス
    ト又はコマンドを処理するステップと、 前記アプリケーション・プログラムに前記第2の結果を
    送るステップと、 前記ドキュメントに前記第2の結果を入力するステップ
    とを備えているコンピュータ実行自在の命令を有するこ
    とを特徴とするコンピュータ読取自在の記録媒体。
JP2000319866A 1999-10-19 2000-10-19 スピーチ認識モード・エラーを補正するシステム及びその方法 Pending JP2001184086A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/420,863 US6581033B1 (en) 1999-10-19 1999-10-19 System and method for correction of speech recognition mode errors
US09/420863 1999-10-19

Publications (1)

Publication Number Publication Date
JP2001184086A true JP2001184086A (ja) 2001-07-06

Family

ID=23668144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000319866A Pending JP2001184086A (ja) 1999-10-19 2000-10-19 スピーチ認識モード・エラーを補正するシステム及びその方法

Country Status (5)

Country Link
US (1) US6581033B1 (ja)
EP (1) EP1094445B1 (ja)
JP (1) JP2001184086A (ja)
CN (1) CN1229772C (ja)
DE (1) DE60033106T2 (ja)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6514201B1 (en) * 1999-01-29 2003-02-04 Acuson Corporation Voice-enhanced diagnostic medical ultrasound system and review station
JP3476007B2 (ja) * 1999-09-10 2003-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
US7109970B1 (en) * 2000-07-01 2006-09-19 Miller Stephen S Apparatus for remotely controlling computers and other electronic appliances/devices using a combination of voice commands and finger movements
US7035805B1 (en) * 2000-07-14 2006-04-25 Miller Stephen S Switching the modes of operation for voice-recognition applications
US7451085B2 (en) 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
DE10120513C1 (de) 2001-04-26 2003-01-09 Siemens Ag Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7526431B2 (en) * 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7809574B2 (en) * 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US7313526B2 (en) 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
US7225130B2 (en) * 2001-09-05 2007-05-29 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US20060041462A1 (en) 2002-08-20 2006-02-23 Ulrich Waibel Method to route jobs
US7634720B2 (en) * 2003-10-24 2009-12-15 Microsoft Corporation System and method for providing context to an input method
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US8725505B2 (en) * 2004-10-22 2014-05-13 Microsoft Corporation Verb error recovery in speech recognition
US7242751B2 (en) 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7627096B2 (en) * 2005-01-14 2009-12-01 At&T Intellectual Property I, L.P. System and method for independently recognizing and selecting actions and objects in a speech recognition system
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US20070265831A1 (en) * 2006-05-09 2007-11-15 Itai Dinur System-Level Correction Service
US7869996B2 (en) 2006-11-22 2011-01-11 Multimodal Technologies, Inc. Recognition of speech in editable audio streams
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
US8909528B2 (en) * 2007-05-09 2014-12-09 Nuance Communications, Inc. Method and system for prompt construction for selection from a list of acoustically confusable items in spoken dialog systems
US8010465B2 (en) 2008-02-26 2011-08-30 Microsoft Corporation Predicting candidates using input scopes
US20090228273A1 (en) * 2008-03-05 2009-09-10 Microsoft Corporation Handwriting-based user interface for correction of speech recognition errors
US20100138221A1 (en) * 2008-12-02 2010-06-03 Boys Donald R Dedicated hardware/software voice-to-text system
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP4318463A3 (en) * 2009-12-23 2024-02-28 Google LLC Multi-modal input on an electronic device
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
CN102956231B (zh) * 2011-08-23 2014-12-31 上海交通大学 基于半自动校正的语音关键信息记录装置及方法
CN103207769B (zh) * 2012-01-16 2016-10-05 联想(北京)有限公司 语音修正的方法及用户设备
US9361883B2 (en) * 2012-05-01 2016-06-07 Microsoft Technology Licensing, Llc Dictation with incremental recognition of speech
KR20130135410A (ko) * 2012-05-31 2013-12-11 삼성전자주식회사 음성 인식 기능을 제공하는 방법 및 그 전자 장치
KR20140014510A (ko) * 2012-07-24 2014-02-06 삼성전자주식회사 음성 인식에 의하여 형성된 문자의 편집 방법 및 그 단말
US9111546B2 (en) * 2013-03-06 2015-08-18 Nuance Communications, Inc. Speech recognition and interpretation system
CN104345880B (zh) * 2013-08-08 2017-12-26 联想(北京)有限公司 一种信息处理的方法及电子设备
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10203933B2 (en) 2014-11-06 2019-02-12 Microsoft Technology Licensing, Llc Context-based command surfacing
US9922098B2 (en) 2014-11-06 2018-03-20 Microsoft Technology Licensing, Llc Context-based search and relevancy generation
US10572810B2 (en) 2015-01-07 2020-02-25 Microsoft Technology Licensing, Llc Managing user interaction for input understanding determinations
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
CN104822093B (zh) 2015-04-13 2017-12-19 腾讯科技(北京)有限公司 弹幕发布方法和装置
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10249297B2 (en) * 2015-07-13 2019-04-02 Microsoft Technology Licensing, Llc Propagating conversational alternatives using delayed hypothesis binding
US10409550B2 (en) * 2016-03-04 2019-09-10 Ricoh Company, Ltd. Voice control of interactive whiteboard appliances
JP6675078B2 (ja) * 2016-03-15 2020-04-01 パナソニックIpマネジメント株式会社 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
JP6897678B2 (ja) * 2016-06-23 2021-07-07 ソニーグループ株式会社 情報処理装置及び情報処理方法
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10446137B2 (en) 2016-09-07 2019-10-15 Microsoft Technology Licensing, Llc Ambiguity resolving conversational understanding system
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN109410925A (zh) * 2018-08-30 2019-03-01 安徽声讯信息技术有限公司 一种基于多服务器解析传输的语音校验系统及方法
CN109637541B (zh) * 2018-12-29 2021-08-17 联想(北京)有限公司 语音转换文字的方法和电子设备
CN111078098B (zh) * 2019-05-10 2021-11-05 广东小天才科技有限公司 一种听写控制方法及装置
WO2021002493A1 (ko) * 2019-07-01 2021-01-07 엘지전자 주식회사 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템
US11508361B2 (en) 2020-06-01 2022-11-22 Amazon Technologies, Inc. Sentiment aware voice user interface
US11947783B2 (en) * 2021-01-25 2024-04-02 Google Llc Undoing application operation(s) via user interaction(s) with an automated assistant
CN113591441A (zh) * 2021-07-30 2021-11-02 交互未来(北京)科技有限公司 语音编辑方法及装置、存储介质及电子设备
US20240086637A1 (en) * 2022-09-08 2024-03-14 Tencent America LLC Efficient hybrid text normalization

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61175849A (ja) * 1985-01-31 1986-08-07 Canon Inc 文字処理装置
JPH0863330A (ja) * 1994-08-17 1996-03-08 Fujitsu Ltd 音声入力装置
EP0785540A2 (en) * 1995-11-13 1997-07-23 Dragon Systems Inc. Continuous speech recognition of text and commands
JP2000076241A (ja) * 1998-09-03 2000-03-14 Canon Inc 音声認識装置及び音声入力方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5231670A (en) 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5915236A (en) 1992-11-13 1999-06-22 Dragon Systems, Inc. Word recognition system which alters code executed as a function of available computational resources
JP2690027B2 (ja) * 1994-10-05 1997-12-10 株式会社エイ・ティ・アール音声翻訳通信研究所 パターン認識方法及び装置
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
DE19635754A1 (de) 1996-09-03 1998-03-05 Siemens Ag Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
AU2901299A (en) 1998-03-09 1999-09-27 Lernout & Hauspie Speech Products N.V. Apparatus and method for simultaneous multimode dictation
US6314397B1 (en) * 1999-04-13 2001-11-06 International Business Machines Corp. Method and apparatus for propagating corrections in speech recognition software

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61175849A (ja) * 1985-01-31 1986-08-07 Canon Inc 文字処理装置
JPH0863330A (ja) * 1994-08-17 1996-03-08 Fujitsu Ltd 音声入力装置
EP0785540A2 (en) * 1995-11-13 1997-07-23 Dragon Systems Inc. Continuous speech recognition of text and commands
JP2000076241A (ja) * 1998-09-03 2000-03-14 Canon Inc 音声認識装置及び音声入力方法

Also Published As

Publication number Publication date
CN1229772C (zh) 2005-11-30
EP1094445B1 (en) 2006-02-15
EP1094445A2 (en) 2001-04-25
EP1094445A3 (en) 2001-09-12
CN1293427A (zh) 2001-05-02
DE60033106T2 (de) 2007-06-14
US6581033B1 (en) 2003-06-17
DE60033106D1 (de) 2007-03-15

Similar Documents

Publication Publication Date Title
JP2001184086A (ja) スピーチ認識モード・エラーを補正するシステム及びその方法
US7243069B2 (en) Speech recognition by automated context creation
US6308151B1 (en) Method and system using a speech recognition system to dictate a body of text in response to an available body of text
JP4974510B2 (ja) 音響情報から意味的な意図を識別するためのシステムおよび方法
US7580838B2 (en) Automatic insertion of non-verbalized punctuation
US6415258B1 (en) Background audio recovery system
US7584102B2 (en) Language model for use in speech recognition
US7085716B1 (en) Speech recognition using word-in-phrase command
JP5099953B2 (ja) 情報検索手法による統一化されたタスク依存の言語モデルの生成
US6366882B1 (en) Apparatus for converting speech to text
US7577569B2 (en) Combined speech recognition and text-to-speech generation
US7149970B1 (en) Method and system for filtering and selecting from a candidate list generated by a stochastic input method
US6347296B1 (en) Correcting speech recognition without first presenting alternatives
US7634403B2 (en) Word recognition using word transformation commands
US7716058B2 (en) Speech recognition using automatic recognition turn off
US20070219798A1 (en) Training system for a speech recognition application
GB2323694A (en) Adaptation in speech to text conversion
US6253177B1 (en) Method and system for automatically determining whether to update a language model based upon user amendments to dictated text
US20080133220A1 (en) Leveraging back-off grammars for authoring context-free grammars
US6345249B1 (en) Automatic analysis of a speech dictated document
US6577999B1 (en) Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
JP2003162524A (ja) 言語処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101116

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110412