JP2001184086A

JP2001184086A - スピーチ認識モード・エラーを補正するシステム及びその方法

Info

Publication number: JP2001184086A
Application number: JP2000319866A
Authority: JP
Inventors: Jeffrey C Reynar; スィー．レイナージェフリー; Erick Rucker; ラッカーエリック; Paul Kyong Hwan Kim; キョンホワンキムポール; David Allen Caulton; アレンコールトンデイヴィッド
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1999-10-19
Filing date: 2000-10-19
Publication date: 2001-07-06
Also published as: CN1229772C; EP1094445B1; EP1094445A2; EP1094445A3; CN1293427A; DE60033106T2; US6581033B1; DE60033106D1

Abstract

(57)【要約】（修正有）【課題】スピーチ認識モード・エラーを補正するシス
テムと方法とを提供する。【解決手段】モード選択プロセッサは、スピーチ入力
に適したスピーチ認識モードを決定して、選択したモー
ド結果をアプリケーション・プログラムに送る。代替の
モード結果が、後の検索のためにＲＡＭに保存されてい
る。モード補正プロセッサは、スピーチ認識モード・エ
ラーが発生した時を検出し、モード・エラーを補正する
ルーチンに進む。コマンド・モード・エラーが発生した
場合、モード補正プロセッサは、ドキュメントのエント
リに適した候補口述又は代替のモード結果を、ユーザが
選択することを可能にする。代わりに、口述エラーが発
生した場合、モード補正プロセッサは、ドキュメントの
エントリに適した候補コマンド又は代替のモード結果
を、ユーザが選択することを可能にする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータ・シ
ステムの分野、特に、不適切なモードが既に選択され、
スピーチ入力がプログラムに不適切に入力された時に、
コンピュータ・ソフトウェア・プログラムにおけるスピ
ーチ認識モード・エラーを補正する技術に関する。

【０００２】

【従来の技術】パーソナル・コンピュータが出現してか
ら、コンピュータと人との対話は、主としてキーボード
を介して行われてきた。普通、ユーザがコンピュータに
コマンド又は情報を入力したい時に、情報又はコマンド
を、コンピュータに取り付けてあるキーボードにタイプ
入力する。他の入力装置が、マウス、タッチ−スクリー
ン・ディスプレイ、一体化ポインタ・デバイス、スキャ
ナを含めて、入力装置としてキーボードを補ってきた。
これらの他の入力装置を用いて、コンピュータにコマン
ド又はデータを入力する際にユーザが費やした時間を減
少してきた。

【０００３】コンピュータ・ベース・ボイス認識とスピ
ーチ認識システムは、パーソナル・コンピュータにデー
タ又はコマンドを入力するためにも用いられてきた。ボ
イス認識とスピーチ認識システムは、人の声をコンピュ
ータが理解できるフォーマットに変換する。コンピュー
タがボイス認識又はスピーチ認識システムを具備する時
に、データとコマンドの入力は、コンピュータにデータ
又はコマンドを単純に語りかけて行うことができる。ユ
ーザが話しかける速度は、従来のデータ又はコマンド・
エントリより普通ははやい。従って、人の声を介してデ
ータ又はコマンドを伝える際の特有の速度が、パーソナ
ル・コンピュータにボイス認識とスピーチ認識のシステ
ムを搭載できるという長所とするために検討されてき
た。

【０００４】本開示の残りの部分の全体にわたって“ボ
イス認識”と“スピーチ認識”という用語は、同じ意味
で用いられる。ある事例では、ボイス認識とスピーチ認
識が区別して用いられる。しかし、ボイス認識とスピー
チ認識のシステムは、共に前述のような同じ信頼性の問
題に悩んでいる。同じ方式が、従来技術の欠点を解決す
るために、両方の認識技術に応用されている。

【０００５】スピーチ認識システムを具備するパーソナ
ル・コンピュータを操作するユーザの効率が高いので、
作業現場における、このようなシステムの利用が進んで
きている。様々な業界の多くの作業者が、種々のアプリ
ケーションに適したスピーチ認識のシステムをいま利用
している。例えば、ボイス認識とスピーチ認識の技術を
用いるコンピュータ・ソフトウェア・プログラムは、Ｄ
ＲＡＧＯＮ、ＩＢＭ、ＬＥＲＮＯＵＴ＆ＨＡＵＳＰＩＥ
で開発されている。ユーザが文書の内容を声を出して読
むか、又はスピーチ認識プログラムに口述すると、プロ
グラムは、ユーザが語った言葉を、パーソナル・コンピ
ュータ上で作動するワード処理プログラムに直接入力す
ることができる。

【０００６】全体的に、コンピュータ・ベース・スピー
チ認識のプログラムでは、人の声をシリーズのデジタル
周波数に変換する。これらの周波数は、既に保存済みの
セットの言葉又は音韻に対して整合されている。コンピ
ュータがシリーズの周波数に適した整合と決定すると、
人の声の部分のコンピュータ認識が行われる。周波数整
合は、十分な情報がコンピュータでの対応のために集ま
るまでコンパイルされる。コンピュータは、人の声を記
憶装置に保存するか、人の声をワード処理プログラムの
ドキュメントに転記するか、又はアプリケーション・プ
ログラムのように、プログラム・モジュールのコマンド
を実行すると、ある語りかけた言葉に対応できる。

【０００７】

【発明が解決しようとする課題】しかし、スピーチ認識
システムは１００％の精度でない。ハードウェアとソフ
トウェアで修正しても、最も効率的なスピーチ認識シス
テムで約９７〜９９％の信頼度である。内部と外部の要
因がスピーチ認識のシステムの信頼性に影響する。認識
技術自体に依存する要因として、言葉又は音韻の有限の
セットと、話者が語った内容を比較するための言葉の語
彙がある。地域的なアクセントや外部雑音やマイクロフ
ォンのような環境要因が入力の品質を損ねるので、ユー
ザの言葉の周波数に影響し、言葉又は音韻の整合にエラ
ーをまねく可能性がある。

【０００８】スピーチ認識ソフトウェア・プログラム
は、他のアプリケーション・プログラムにコマンド又は
テキストを入力するために使用できる。例えば、Ｋｕｒ
ｚｗｅｉｌの“ＶＯＩＣＥＰＲＯ”スピーチ認識ソフト
ウェアは、ＭＩＣＲＯＳＯＦＴ・ＷＯＲＤのようなワー
ド処理アプリケーション・プログラムから作成したドキ
ュメントにテキスト又はコマンドを入力するために使用
できる。ユーザがスピーチ認識プログラムを選んでコマ
ンドを入力すると、ユーザは、スピーチ認識プログラム
のコマンド・モードを手動で選択する。ユーザは“削
除”のようなコマンドを語りかける。スピーチ認識プロ
グラムは、コマンドを処理して、“削除”コマンドをワ
ード処理プログラムにコマンドの実行のために送る。大
半のモード選択が自動的に行われる。エラーは、ユーザ
のエラーより、むしろモード状態が十分でないマシンか
ら生じる。実質的な効果はそれでも同じである。ユーザ
がスピーチ認識プログラムを選んでテキストをドキュメ
ントに入力する場合、ユーザは、スピーチ認識プログラ
ムの口述モードを手動で選択する。ユーザは、“どこに
今日行きたいですか？”のように、入力したいテキスト
を語り始める。スピーチ認識プログラムは、スピーチを
処理して、処理したスピーチをドキュメントに入力すべ
きワード処理プログラムに送る。モードのユーザ選択
は、スピーチ認識ソフトウェアがユーザのスピーチ入力
を適正に処理するために必要である。ユーザが話しかけ
る前にスピーチ認識モードを手動で選択することは、厄
介で時間のかかる作業である。

【０００９】時々、ユーザは、話しかける前に、スピー
チ認識プログラムのモードの変更を忘れる。例えば、ス
ピーチ認識プログラムがコマンド・モードの時に、ユー
ザが“コピー・マシンはコーヒーでなくコピーをする”
と言うと、スピーチ認識プログラムは、スピーチ入力
“コピー・マシンはコーヒーでなくコピーをする”をコ
マンドとして処理する。スピーチ入力“コピー”をアプ
リケーション・プログラムが実行するが、残りのスピー
チをコマンドとして理解できない。そこで、アプリケー
ション・プログラムはスピーチを処理しない。

【００１０】時折、スピーチ認識プログラムは口述モー
ドになり、ユーザは、ワード・プロセッサがコマンドを
実行することを望む。ユーザがモードの変更を忘れて
“コピー”と言うと、スピーチ認識プログラムはスピー
チを口述として処理し、スピーチ入力がテキストとして
アプリケーション・プログラムに入力される。

【００１１】モード・エラーの問題を解決する種々の方
式が試みられてきた。一般的な補正手順は、ユーザが話
しかける前にモードの変更を忘れてモード・エラーにな
る時のような前述の状態に関係している。時々、モード
・エラーは、ユーザが不具合なモードにあることに気づ
かずに、スピーチ入力が、初期モード・エラーが生じた
時から不適切なモードで処理されることから複雑にな
る。スピーチ入力が口述として不適切に入力された場
合、ユーザは、テキストとしてアプリケーション・プロ
グラムに入力された口述項目を手動で削除できる。ユー
ザは、再び話しかける前に、コマンド・モードを手動で
選択して、補正手順を続ける。スピーチ入力がコマンド
として不適切に入力された場合、ユーザは、アプリケー
ション・プログラムで実行されたコマンドを手動で“ア
ンドー”できる。ユーザは、再び話しかける前に、口述
モードを手動で選択して、補正手順を続ける。適正なス
ピーチ認識モードの手動選択と“アンドー”又は“削
除”の手動補正は、厄介で時間のかかる作業である。

【００１２】従って、スピーチ認識モード・エラーを補
正する際に、ユーザの時間を短縮する方法についてのニ
ーズが従来技術にある。

【００１３】スピーチ認識モード・エラーを補正する際
に、キーストローク又はコマンドの数を減少する方法に
ついての更なるニーズが従来技術にある。

【００１４】

【課題を解決するための手段】本発明は、スピーチ認識
モード・エラーを補正するスピーチ・エンジン補正モジ
ュールにおける前述のニーズに適合するものである。ス
ピーチ・エンジン補正モジュールは、スピーチ認識モー
ド・エラーを補正する際のユーザ時間を短縮できる。更
に、スピーチ・エンジン補正モジュールは、スピーチ認
識モード・エラーの補正に必要なキーストロークとコマ
ンドの数を減少できる。

【００１５】概論したように、本発明は、スピーチ認識
プログラムとスピーチ・エンジンとを具備するスピーチ
・エンジン補正モジュールである。スピーチ認識プログ
ラムは、ワード・プロセッサのように、プログラムのド
キュメントに対する入力のためにスピーチを受信するよ
うに構成されている。スピーチ認識プログラムがスピー
チ入力を受信すると、プログラムは、スピーチ・エンジ
ンによる認識のためにスピーチ入力を処理する。スピー
チ認識プログラムは、スピーチ入力をスピーチ・エンジ
ンに送る。

【００１６】スピーチ・エンジンは、スピーチ入力をス
ピーチ認識プログラムから受信し、更にスピーチ入力を
処理する。コマンド・プロセッサと口述プロセッサは、
各々、スピーチ入力を、各々、コマンドと口述として処
理する。各々プロセッサからの結果は、後の検索のため
に、ＲＡＭのような記憶装置に保存できる。

【００１７】スピーチ・エンジンは、モード選択プロセ
ッサを用いて、スピーチ入力に適したスピーチ認識モー
ドを決定する。モード選択プロセッサは、スピーチ入力
の内容と関連性のような規準を用いて、スピーチ入力に
適したスピーチ認識モードを決定する。モード選択プロ
セッサがモードを選択した後に、スピーチ入力は、口述
又はコマンドとしてドキュメントのエントリのためにプ
ログラムに、スピーチ・エンジンによって送られる。

【００１８】モード補正プロセッサは、スピーチ認識モ
ード・エラーが発生した時を検出する。一般的に、ユー
ザは、コマンドをプログラムから送って、スピーチ認識
モード・エラーが発生したことを指示する。モード補正
プロセッサが、スピーチ認識モード・エラーを示すコマ
ンドを受信すると、モード補正プロセッサは、スピーチ
認識モード・エラーのタイプに対応する補正ルーチンを
始動する。

【００１９】コマンド・スピーチ認識エラーが発生する
と、すなわち、スピーチ入力がコマンドとして不適切に
入力される時に、ルーチンを口述するコマンドがスピー
チ・エンジンによって実行される。モード補正プロセッ
サは、“アンドー”コマンドをプログラムに送って、ド
キュメントに入力されたコマンドを除去する。次に、モ
ード補正プロセッサは、ＲＡＭに保存された代替の口述
選択項目から候補選択項目を選択する。モード補正プロ
セッサは、代替選択項目をＲＡＭからコピーして、代替
選択項目をプログラムに送る。候補選択項目は、ドキュ
メントに口述項目としてプログラムに入力される。

【００２０】口述エラーが発生すると、すなわち、スピ
ーチ入力が口述として不適切に入力された時に、コマン
ド・ルーチンの口述が、スピーチ・エンジンによって実
行される。モード補正プロセッサは、“削除”コマンド
を送って、ドキュメントに入力された口述入力を除去す
る。次に、モード補正プロセッサは、ＲＡＭに保存され
た代替の選択項目から候補選択項目を選択する。モード
補正プロセッサは、候補選択項目を処理し、ドキュメン
トのコマンドとしてプログラムの候補選択項目を入力す
る。

【００２１】本発明の見解によれば、口述プロセッサと
コマンド・プロセッサとによるスピーチ入力の処理前
に、モード選択プロセッサは、スピーチ入力に適したス
ピーチ認識モードを決定できる。スピーチ入力を選択し
たモード・プロセッサが処理し、結果がＲＡＭに保存さ
れる。モード選択プロセッサは、後の検索のためにＲＡ
Ｍにスピーチ入力を保存する。スピーチ認識モード・エ
ラーをモード補正プロセッサが検出すると、モード補正
プロセッサは、“アンドー”コマンドを送ってコマンド
を除去するか、又は“削除”コマンドを実行して口述項
目をドキュメントから除去する。スピーチ入力が、ＲＡ
Ｍから検索され、代替モード・プロセッサで処理され
て、モード・エラーの補正のための結果を得る。代替結
果は、ドキュメントに入力するためにプログラムに送ら
れる。

【００２２】本発明が従来の欠点を解消して前述の長所
を達成することが、代表的な実施例と添付の図面と請求
項に関して次に詳述する説明から明らかになると思われ
る。

【００２３】

【発明の実施の形態】本発明は、ドキュメントに適した
モード補正ルーチンを実現する、スピーチ・エンジン補
正ソフトウェア・モジュールとして実現できる。オブジ
ェクト指向プログラムとして、スピーチ・エンジン補正
モジュールは、クライアント・プログラムがスピーチ・
エンジン補正モジュールとの通信のためにアクセスでき
る、標準インタフェースを呈することができる。オブジ
ェクト指向構成は、多くの異なるクライアント・プログ
ラムが、ワード処理プログラム、デスクトップ公開プロ
グラム、アプリケーション・プログラムなどのように、
スピーチ・エンジン補正モジュールを利用することを可
能にする。例えば、スピーチ・エンジン補正モジュール
は、マイクロソフトＷＯＲＤのようなアプリケーション
・プログラムと共に利用できる。

【００２４】スピーチ・エンジン補正モジュールが呈す
るインタフェースは、モジュールが、プログラムのスピ
ーチ入力を受信することを可能にする。スピーチ・エン
ジン補正モジュールは、プログラムのスピーチ入力を受
信し、スピーチ入力を口述又はコマンドあるいその両方
として処理し、処理したスピーチ入力を口述又はコマン
ドあるいその両方として保存し、スピーチ入力に適した
スピーチ認識モードを選択し、スピーチ認識モード・エ
ラーが生じた時を検出し、プログラムのドキュメントに
おけるスピーチ認識モード・エラーを補正する。

【００２５】スピーチ・エンジン補正モジュールは、２
つの構成要素、すなわち、スピーチ認識プログラムとス
ピーチ・エンジンから構成される。スピーチ認識プログ
ラムは、プログラムのためのユーザのスピーチ入力を受
信し、スピーチ・エンジンに適した確率結果にユーザの
スピーチ入力を処理し、プログラムと対話して、スピー
チ・エンジンを必要におうじてコールする。スピーチ・
エンジンは、スピーチ認識プログラムと対話して、確率
結果又はスピーチ入力を受信し、確率結果又はスピーチ
入力を口述又はコマンドあるいその両方として処理し、
処理した口述又はコマンドあるいその両方の結果を保存
し、確率結果又はスピーチ入力に適したスピーチ認識モ
ードを選択し、スピーチ認識モード・エラーを検出し、
スピーチ認識モード・エラーを補正し、プログラムを必
要におうじてコールする。

【００２６】＜代表的な動作環境＞図１と次に示す説明
では、本発明を実現する適切なコンピューティング環境
について簡単に全体的に述べることを意図している。代
表的な動作環境１００は、処理装置１２１、システム・
メモリ１２２、システム・メモリ１２２を処理装置１２
１に結合するシステム・バス１２３とを含んでいる、従
来のパーソナル・コンピュータ・システム１２０を備え
ている。システム・メモリ１２２は、読取専用メモリ
（ＲＯＭ）１２４とランダム・アクセス・メモリ（ＲＡ
Ｍ）１２５とを備えている。基本入力／出力システム１
２６（ＢＩＯＳ）は、セットアップ中のように、パーソ
ナル・コンピュータ・システム１２０内の構成要素間に
おける情報の転送を支援する基本ルーチンを備えてお
り、ＲＯＭ１２４に保存されている。

【００２７】パーソナル・コンピュータ・システム１２
０は、更に、ハードディスク・ドライブ１２７、例え
ば、消去自在の磁気ディスク１２９から読み取ったり書
き込んだりするための磁気ディスク・ドライブ１２８、
例えば、ＣＤ−ＲＯＭディスク１３１を読み取ったり又
は他の光学的媒体から読み取ったり書き込んだりするた
めの光学的ディスク・ドライブ１３０を備えている。ハ
ードディスク・ドライブ１２７と磁気ディスク・ドライ
ブ１２８と光学的ディスク・ドライブ１３０は、ハード
ディスク・ドライブ・インタフェース１３２と磁気ディ
スク・ドライブ・インタフェース１３３と光学的ドライ
ブ・インタフェース１３４とにより、各々、システム・
バス１２３に接続している。ドライブ及びそれらに付随
するコンピュータ読取自在の媒体は、パーソナル・コン
ピュータ・システム１２０に非揮発性の記憶部を呈す
る。前述のコンピュータ読取自在の媒体の説明はハード
ディスクや消去自在の磁気ディスクやＣＤ−ＲＯＭディ
スクを意味しているが、当業者は、磁気カセット、フラ
ッシュ・メモリ・カード、デジタル・ビデオ・デジタ
ル、ベルヌーリ・カートリッジなどのように、コンピュ
ータ・システムで読み取りできる他のタイプの媒体も、
代表的な動作環境で使用できることも認めると思われ
る。

【００２８】ユーザは、コマンドと情報とを、パーソナ
ル・コンピュータ１２０に、マウス１４２のような指示
装置とキーボード１４０とを含めた従来の入力装置を介
して入力できる。マイクロフォン１６１を用いて、スピ
ーチのようなオーディオ入力をコンピュータ・システム
１２０に入力できる。ユーザは、図面又は手書きのよう
な図形情報を、スタイラスを用いて書込みタブレット１
６２上に図形情報を描いて、コンピュータ・システムに
入力する。コンピュータ・システム１２０は、ジョイス
ティック、ゲーム・パッド、サテライト・ディッシュ、
スキャナなどのように、更なる入力装置（図示せず）を
具備できる。マイクロフォン１６１は、システム・バス
に連なるオーディオ・アダプタ１６０を経由して処理装
置１２１に接続できる。他の入力装置は、システム・バ
スに連なるシリアル・ポート・インタフェース１４６を
経由して処理装置１２１にしばしば接続するが、ゲーム
・ポート又はユニバーサル・シリアル・バス（ＵＳＢ）
のような他のインタフェースを用いて接続する場合もあ
る。

【００２９】モニタ１４７又は他のタイプの表示装置
は、ビデオ・アダプタ１４８のように、インタフェース
を経由してシステム・バス１２３にも接続している。モ
ニタに加えて、パーソナル・コンピュータ・システム
は、スピーカ又はプリンタのような他の周辺出力装置
（図示せず）も一般的に備えている。

【００３０】パーソナル・コンピュータ・システム１２
０は、リモート・コンピュータ・システム１４９のよう
に、１つ又は複数のリモート・コンピュータ・システム
に論理接続を用いるネットワーク環境で作動する。リモ
ート・コンピュータ・システム１４９は、サーバ、ルー
タ、ピア・デバイス、又は他の共通ネットワーク・ノー
ドであり、図１では記憶装置１５０しか図示してない
が、パーソナル・コンピュータ・システム１２０で述べ
た構成要素の多く又は全てを通常は備えている。図１に
示す論理接続部は、ローカル・エリア・ネットワーク
（ＬＡＮ）１５１やワイド・エリア・ネットワーク（Ｗ
ＡＮ）１５２を含んでいる。このようなネットワーク環
境は、オフィス、企業規模のコンピュータ・ネットワー
ク、イントラネット、インターネットに広く用いられて
いる。

【００３１】ＬＡＮネットワーク環境で用いる時に、パ
ーソナル・コンピュータ・システム１２０は、ＬＡＮ１
５１にネットワーク・インタフェース１５３を経由して
接続する。ＷＡＮネットワーク環境で用いる時に、パー
ソナル・コンピュータ・システム１２０は、モデム１５
４、又はインターネットのように、ＷＡＮ１５２上で通
信を構築する他の方式を一般的に備えている。モデム１
５４は、内部又は外部に位置するが、シリアル・ポート
・インターネット１４６を経由してシステム・バス１２
３に接続する。ネットワーク環境では、パーソナル・コ
ンピュータ・システム１２０に相応して図示したプログ
ラム・モジュール、又はその部分が、遠方の記憶装置１
５０に保存されている。図示したネットワーク接続は代
表的なものであり、コンピュータ・システム間に通信リ
ンクを構築する他の方式も使用できることが分かる。本
発明は、パーソナル・コンピュータ・システム以外のサ
ーバ・コンピュータ・システム又はホスト上で同様に実
現できると共に、ＣＤ−ＲＯＭ以外の方式、例えば、ネ
ットワーク接続インタフェース１５３により、ホスト・
コンピュータ・システムに同様に応用できることが更に
分かる。

【００３２】数多くのプログラム・モジュールが、コン
ピュータ・システム１２０のＲＡＭ１２５とドライブと
に保存されている。プログラム・モジュールは、どのよ
うにコンピュータ・システム１２０が機能して、ユーザ
やＩ／Ｏデバイス又は他のコンピュータと対話するかに
ついて制御する。プログラム・モジュールは、ルーチ
ン、オペレーティング・システム１３５、アプリケーシ
ョン・プログラム・モジュール１３８、データ構造部、
ブラウザ、他のソフトウェア又はファームウェアの構成
要素とを含んでいる。本発明は、詳細な説明で述べる方
法に基づくスピーチ・エンジン補正モジュール１３７の
ように、１つ又は複数のプログラム・モジュールで好都
合に実現できる。

【００３３】アプリケーション・プログラム・モジュー
ル１３８は本発明に関連して用いる多種多様なアプリケ
ーションを備えている。図２は、その一部を示す。これ
らのプログラム・モジュールの一部の目的とその間の対
話について、図２を参照しながら詳細に説明する。これ
らは、ワード処理プログラム（ワシントン州Ｒｅｄｍｏ
ｎｄのマイクロソフト社製のＷＯＲＤのような）と、手
書き認識プログラム・モジュールと、スピーチ・エンジ
ン補正モジュール１３７と、入力方式エディタ（ＩＭ
Ｅ）とを備えている。

【００３４】詳細な説明で述べる種々の手順を実施する
特定のプログラム設定言語について特に説明しない。な
ぜならば、添付の図面で説明し図解する動作とステップ
と手順について十分に開示してあるので、当業者は本発
明の代表的な実施例を実施できると考えるからである。
更に、代表的な実施例を実施する際に使用できる多くの
コンピュータとオペレーティング・システムがあるの
で、これらの多くの異なるシステムの全てに応用できる
詳細なコンピュータ・プログラムについても説明されな
い。特定のコンピュータの各々ユーザは、そのユーザの
ニーズと目的とに最も適した言語とツールを知っている
ものと思われる。

【００３５】当業者は、本発明が、ハンドヘルド・デバ
イス、マルチプロセッサ・システム、マイクロプロセッ
サ・ベース又はプログラム設定自在の消費者用電子機
器、ミニコンピュータ、メイン・フレーム・コンピュー
タなどを含めた、他のコンピュータ・システム構成を用
いて実現できることも認めると思われる。本発明は、タ
スクが通信網を経由してリンクする遠方処理装置で行わ
れる分散コンピューティング環境でも実施できる。分散
コンピューティング環境では、プログラム・モジュール
は、ローカルとリモートの両方の記憶装置に位置してい
る。

【００３６】＜プログラム・モジュールの概要＞図２
は、スピーチ・エンジン補正モジュール２００の構成要
素とモジュールの概要を示す。全体的に、図２に示す構
成要素とモジュールの目的は、ワード・プロセッサのよ
うに、スピーチがアプリケーション・プログラム１３８
に入力された時に、結果として生じるスピーチ認識モー
ド・エラーを補正することにある。

【００３７】図２に示す構成要素とモジュールは、ユー
ザが、アプリケーション・プログラム１３８のドキュメ
ントに対するスピーチ入力のスピーチ認識モード・エラ
ーを補正することを可能にする。スピーチ・エンジン補
正モジュール２００は、アプリケーション・プログラム
１３８のスピーチ入力２０４を受信するために、スピー
チ認識プログラム２０２又は他の類似のタイプのプログ
ラム・モジュールを備えている。スピーチ認識プログラ
ム２０２は、オペレーティング・システム１３５のマイ
クロフォン・ドライブ・モジュールが実行するマイクロ
フォン１６１を介してユーザからスピーチ入力２０４を
受信する。スピーチの解釈が難しいときが、しばしばあ
る。なぜならば、同じように発声する多くの言葉には、
異なる意味とスペルが存在するからである。そこで、ス
ピーチ認識プログラム２０２は確率結果を作成する。確
率結果は、スピーチ・エンジン・モジュール２００によ
る後の検索のためにＲＡＭ２０６に保存できる。

【００３８】スピーチ・エンジン補正モジュール２００
は、次の構成要素を備えたスピーチ・エンジン２０８も
含んでいる。すなわち、モード選択プロセッサ２１０、
口述プロセッサ２１２、コマンド・プロセッサ２１４、
モード補正プロセッサ２１６、ＲＡＭ２０６である。モ
ード選択プロセッサ２１０は、スピーチ入力をスピーチ
認識プログラム２０２から受信して、スピーチ入力２０
４に適したスピーチ認識モードを決定する。ある実施例
では、モード選択プロセッサ２１０がバイアスできるの
で、スピーチ入力２０４を処理すべきコマンド・プロセ
ッサ２１４と口述プロセッサ２１２の両方に効果的に送
ることができる。

【００３９】スピーチ入力２０４を口述プロセッサ２１
２が受信する時に、口述プロセッサ２１２は、アプリケ
ーション・プログラム１３８に入力すべき口述項目とし
てスピーチ入力２０４を処理する。統計的言語モデル
（ＳＬＭ）のような自然言語モデル２１８を用いて、口
述プロセッサ２１２は、あるスピーチ入力２０４のテキ
スト・ストリングを戻す。他の言語モデルを用いて、ス
ピーチ入力２０４を処理し、アプリケーション・プログ
ラム１３８で用いるテキスト・ストリングを戻すことが
できる。

【００４０】スピーチ入力２０４をコマンド・プロセッ
サ２１４が受信すると、コマンド・プロセッサ２１４
は、アプリケーション・プログラム１３８に入力すべき
コマンドとしてスピーチ入力２０４を処理する。文脈自
由文法（ＣＦＧ）言語を用いて、コマンド・プロセッサ
２１４は、あるスピーチ入力２０４のコマンドを戻す。
他の言語モデルを用いて、スピーチ入力２０４を処理
し、アプリケーション・プログラム１３８で用いるコマ
ンドを戻すことができる。

【００４１】代替実施例では、モード選択プロセッサ２
１０は、スピーチ入力２０４に適したスピーチ認識モー
ドを決定し、どのモードが選択されたかに準じて、特定
のプロセッサにスピーチ入力２０４を送る。スピーチ認
識モードを決定する選択規準が、スピーチ入力２０４の
内容とスピーチ入力２０４の基準になる。

【００４２】スピーチ認識モードの結果を口述プロセッ
サ２１２又はコマンド・プロセッサ２１４あるいその両
方が戻すと、モード補正プロセッサ２１６は、結果を受
信して、ドキュメントの入力としてアプリケーション・
プログラム１３８に結果をコールする。モード補正プロ
セッサ２１６は、後の検索のために、ＲＡＭ２０６のよ
うな記憶装置に結果を保存することもできる。

【００４３】ＲＡＭ２０６のような記憶装置は、スピー
チ入力２０４又は処理済みのスピーチ入力２０４を保存
するうえで有用である。ＲＡＭ２０６は、確率モデルの
ようなスピーチ入力２０４データを保存できるデータ構
造を搭載できる。そのために使用できる２つの構造とし
て、格子と“ｎ−ベスト”代替リストとがある。格子は
当業者には既知の構造なので、十分な説明は行わない。
簡単に言うと、格子は、スピーチ入力源で生成した言葉
又は語句をノードに保存する。各々言葉又は語句がスピ
ーチ入力データなので、ノードは、付随する言葉又は語
句に与えられた確率も保存する。当業者に既知の方法を
用いると、格子は、スピーチ入力データで表現したテキ
ストの任意の部分の代替要素のように作成するために移
動できる。更に、テキストの隣接ピースを表す格子は、
連結と呼ばれるプロセスを介して大きな格子に組合せる
ことができる。大きな格子は、テキストの隣接ピースの
代替要素を作成するために移動できる。代わりに、スピ
ーチ入力データは、ｎ−ベスト代替要素とそれらの付随
する確率のリストで表現できる。任意のある言葉又は語
句に対して、ｎ−ベスト代替要素リストは、言葉又は語
句を表す格子から作成できる。

【００４４】モード補正プロセッサ２１６は、モード補
正コマンドをアプリケーション・プログラム１３８から
検出して、スピーチ・エンジン補正モジュール２００に
送られるモード補正コマンドを待つこともできる。モー
ド補正コマンドを受信又は検出すると、モード補正プロ
セッサ２１６は、実施したスピーチ認識エラーのタイプ
と、ＲＡＭ２０６に既に記憶されているスピーチ入力２
０４又は結果に基づいて、モード補正ルーチンを始動す
る。

【００４５】口述プロセッサ２１２とコマンド・プロセ
ッサ２１４の両方から生じるスピーチ入力２０４が戻さ
れる実施例では、モード補正プロセッサ２１６は、代替
要素の結果をＲＡＭ２０６から検索できる。これらの結
果は、ドキュメントに入力するためにアプリケーション
・プログラム１３８に渡すことができる。

【００４６】モード選択プロセッサ２１０が不適切なプ
ロセッサを選択する代替実施例では、モード補正プロセ
ッサ２１６は、スピーチ入力２０４をＲＡＭ２０６から
検索できる。スピーチ入力２０４は、モード選択プロセ
ッサ２１０が最初に選択しなかった代替プロセッサで処
理される。代替プロセッサからの結果は、ドキュメント
に入力するために、アプリケーション・プログラム１３
８にコールされる。

【００４７】アプリケーション・プログラム１３８が結
果を受信した後に、ユーザは、代替要素の結果を見て、
スピーチ入力２０４の精度を決定できる。例えば、口述
結果がスピーチ入力２０４に適した１つ又は複数の代替
口述項目を有している場合、ユーザは、図形ユーザ・イ
ンタフェースを介してユーザに提示される候補を選択で
きる。ユーザが代替口述項目のなかの１つを選ぶと、ア
プリケーション・プログラム１３８は、口述項目を選ん
だ候補に置き換える。選んだ候補がドキュメントに入力
される。

【００４８】種々の構成要素とモジュールを別々に述べ
てきたが、当業者は、構成要素とモジュールが種々の形
態で組み合わされて、新しいプログラムの構成要素とモ
ジュールをつくって、類似の結果を達成することができ
ることを認めると思われる。

【００４９】＜スピーチ・エンジン・モジュール・ルー
チン＞図３は、ドキュメントのスピーチ認識モード・エ
ラーを補正するコンピュータ・ルーチンを示す論理流れ
図である。図３に示すステップは、アプリケーション・
プログラム１３８を用いて作動するスピーチ・エンジン
補正モジュール２００で実施される。ステップ３０２
は、スピーチ・エンジン補正モジュール２００が実施す
るルーチン３００から始まる。

【００５０】ステップ３０２がステップ３０４の前に行
われ、スピーチ・エンジン補正モジュール２００は、ア
プリケーション・プログラム１３８からスピーチ入力２
０４を待つ。スピーチ入力２０４をスピーチ・エンジン
補正モジュール２００が受信すると、ステップ３０４が
ステップ３０６の前に行われる。

【００５１】ステップ３０６で、口述プロセッサ２１２
は、スピーチ入力２０４を処理する。口述プロセッサ２
１２は、スピーチ入力２０４の口述項目を決めるため
に、統計的言語モデル（ＳＬＭ）のような自然言語モデ
ル２１８を用いる。このようなモデルは、コンピュータ
読取自在のドキュメントに適したテキストにスピーチ入
力を変換するために、従来技術で広く用いられている。
モデルは、文法、テキストの部分の全体的な意味、又は
ワード・シーケンスの確率のような手がかりを用いて、
候補リストに適した更なる代替要素を作成し、これらの
代替要素の確率を評価できる。適切な自然言語モデル２
１８は、あるスピーチ入力に適したテキスト結果を常に
戻す。口述プロセッサ２１２がスピーチ入力２０４に適
したテキスト結果を決めた後に、ステップ３０６がステ
ップ３０８の前に行われる。

【００５２】ステップ３０８で、コマンド・プロセッサ
２１４はスピーチ入力２０４を処理する。コマンド・プ
ロセッサ２１４は、スピーチ入力２０４のコマンドの内
容を決めるために、文脈自由文法（ＣＦＧ）言語モデル
２２０を用いる。このようなモデルは、あるスピーチ入
力に適したコマンド結果にスピーチ入力を変換するため
に、従来技術で広く用いられている。適切なＣＦＧモデ
ルは、スピーチ入力２０４と十分に似ているアプリケー
ション・プログラム・コマンドを戻す。コマンド・プロ
セッサ２１４がスピーチ入力２０４に適したコマンド結
果を決めた後に、ステップ３０８がステップ３１０の前
に行われる。

【００５３】ステップ３１０で、モード選択プロセッサ
２１０は、スピーチ入力２０４に適したスピーチ認識モ
ードを決定する。口述選択規準に基づいて、モード選択
プロセッサ２１０は、スピーチ認識モードを決定し、選
択したスピーチ認識モードに基づいてスピーチ入力２０
４の処理を続ける。適切な選択規準が、スピーチ入力の
文脈と、ドキュメントと、スピーチ入力の内容になる。
例えば、モード選択プロセッサ２１０が単一の言葉“削
除”から成るスピーチ入力に出会うと、モード選択プロ
セッサ２１０は、スピーチ入力２０４の文脈とドキュメ
ントとに基づいて、及びスピーチ入力２０４がコマンド
であるというスピーチ入力２０４の内容から決める。従
って、モード選択プロセッサ２１０は、コマンドとして
スピーチ入力２０４の処理を続ける。スピーチ認識モー
ドをモード選択プロセッサ２１０を選択すると、ステッ
プ３１０がステップ３１２の前に行われる。

【００５４】ステップ３１２で、モード選択プロセッサ
２１０は、選択したモード・プロセッサの結果をアプリ
ケーション・プログラム１３８に送る。例えば、コマン
ド・プロセッサ２１４がコマンド“削除”を戻し、モー
ド選択プロセッサ２１０がスピーチ入力２０４のモード
がコマンドであると決定すると、モード選択プロセッサ
２１０はスピーチ入力“削除”をアプリケーション・プ
ログラム１３８にコマンドとして送る。選択したモード
・プロセッサの結果がアプリケーション・プログラム１
３８に送られると、ステップ３１２がステップ３１４の
前に行われる。

【００５５】ステップ３１４で、スピーチ・エンジン補
正モジュール２００は、代替のモード・プロセッサの結
果をＲＡＭ２０６に、又は別の類似のタイプのメモリ又
は記憶装置に保存する。代替のモード・プロセッサの結
果を保存すると、スピーチ・エンジン補正モジュール２
００が、これらの結果を後で検索できる。例えば、スピ
ーチ・エンジン又はユーザがモード・エラーが生じたと
決定すると、選択したモードは、スピーチ・エンジン補
正モジュール２００が最初に選択していなかった代替モ
ードになる。

【００５６】ステップ３１４が決定ブロック３１６の前
に行われ、そこで、モード補正プロセッサ２１６がスピ
ーチ認識モード補正コマンドをチェックする。他の類似
のコマンド又は機能は、モード・エラーの存在を示すモ
ード補正プロセッサ２１６で検出又は受信される。スピ
ーチ認識モード補正コマンドを検出すると“イエス”ブ
ランチで決定ブロック３１８に進み、モード補正ルーチ
ンが継続する。スピーチ認識モード補正コマンドを検出
しない場合“ノー”ブランチでステップ３２６に進み、
ルーチン３００のスタートに戻る。

【００５７】モード補正ルーチン３００は決定ブロック
３１８でも継続し、モード補正プロセッサ２１６は、口
述モード補正に対するコマンドが実施する必要があるか
どうか決定する。モード・エラーがコマンドを口述項目
に相応して変更することを要求する場合に、“イエス”
ブランチでステップ３２０に進み、ルーチン４００（図
４に示す）が行われる。モード・エラーがコマンドを口
述項目に相応して変更することを要求しない場合、“ノ
ー”ブランチで決定ブロック３２２に進む。

【００５８】決定ブロック３２２で、モード補正プロセ
ッサ２１６は、コマンド・モード補正の口述を実施する
必要があるかどうか決定する。スピーチ認識モード・エ
ラーが口述項目をコマンドに相応して変更することを要
求する場合、“イエス”ブランチでステップ３２４に進
み、ルーチン５００（図５に示す）が行われる。スピー
チ認識モード・エラーが口述項目をコマンドに相応して
変更することを要求しない場合に、“ノー”ブランチで
ステップ３２６に進み、ルーチン３００がスタートに戻
る。

【００５９】図４はルーチン４００を示しているが、そ
こでは、スピーチ・エンジン補正モジュール２００がコ
マンド・スピーチ認識モード・エラーを補正する。すな
わち、コマンドとしてアプリケーション・プログラム１
３８に入力されたスピーチ入力２０４が、ユーザが意図
したように、アプリケーション・プログラム１３８に適
した口述入力に変換される。ステップ４０２で、スピー
チ・エンジン補正モジュール２００で行われるルーチン
４００がスタートする。

【００６０】ステップ４０２がステップ４０４の前に行
われ、スピーチ・エンジン補正モジュール２００は、当
初のスピーチ入力２０４をＲＡＭ２０６、又は任意の他
の類似のメモリ又は記憶装置に保存する。当初のスピー
チ入力２０４を保存すると、後にスピーチ入力２０４を
リコールして再処理することが可能になる。例えば、Ｒ
ＡＭ２０６は、ルーチン４００が中断して、当初のスピ
ーチ入力２０４のリコールが必要な時に効果的に使用で
きる。

【００６１】ステップ４０４がステップ４０６の前に行
われ、“アンドー”コマンドが、ドキュメントに対する
コマンドとして入力される。モード補正プロセッサ２１
６は、“アンドー”コマンドをアプリケーション・プロ
グラム１３８に送る。アプリケーション・プログラム１
３８は“アンドー”をドキュメントに実施する。“アン
ドー”コマンドは、アプリケーション・プログラム１３
８がドキュメントに対して実施した最後のコマンド又は
シリーズのコマンドをリコールして、ドキュメントに実
施した最後のコマンド又はシリーズのコマンドを反転す
るか又はアンドーする。“アンドー”コマンドを実施す
ると、モード・エラーが発生し、スピーチ入力２０４が
ドキュメントに対する口述項目の代わりにコマンドとし
て入力される前に、ドキュメントをその当初の内容に戻
すことができる。

【００６２】ステップ４０６がステップ４０８の前に行
われ、モード補正プロセッサ２１６は、ＲＡＭ２０６に
代替モード・プロセッサの結果として保存された口述プ
ロセッサ２１２の結果から候補口述項目を選択する。図
３のステップ３１４で述べたように、代替モード・プロ
セッサの結果は、スピーチ認識モード・エラーが検出さ
れて、選択したモードがスピーチ・エンジン・モジュー
ル２００で初期に選択しなかった代替モードである時の
ような状態で、後の検索のためにＲＡＭ２０６に保存さ
れる。モード補正プロセッサ２１６は、ドキュメントの
関連性に基づき選択規準を用いて、候補口述項目を代替
モード・プロセッサの結果から選択する。

【００６３】モード・エラーを補正する速度をあげるた
めに、モード補正プロセッサ２１６は、候補の口述項目
をアプリケーション・プログラム１３８に自動的に送
り、候補口述項目をドキュメントにユーザに促さずに入
力する。そうでない場合に、モード補正プロセッサ２１
６は、候補口述項目が適切なスピーチ入力２０４の口述
結果に最も相応する選択項目であることを、ユーザに単
純に促して、ユーザがドキュメントに対する候補口述項
目を認めるか又は受け入れることを待つ。

【００６４】ステップ４１０がステップ４０８の後に行
われ、モード補正プロセッサ２１６は、候補選択項目と
ＲＡＭ２０６の代替結果の全てをアプリケーション・プ
ログラム１３８に送る。アプリケーション・プログラム
１３８は、他の代替口述項目の結果のなかから強調表示
する選択項目として候補の選択項目を表示できる。ユー
ザは、候補の選択項目を選んでアプリケーション・プロ
グラム１３８に入力するか、又は、ユーザは代替口述結
果のリストをスクロール・ダウンして、希望した口述結
果を選択できる。ある例では、モード・エラーを補正す
る速度をあげるように、口述の選択項目がアプリケーシ
ョン・プログラム１３８に送られる唯一の代替結果にな
り、ユーザが口述選択項目の入力を促されるか、又は口
述選択項目が自動的にドキュメントに挿入できる。

【００６５】ステップ４１２がステップ４１０の後に行
われ、選択した口述の選択項目がドキュメントに適した
口述入力としてアプリケーション・プログラム１３８に
入力される。このステップでは、スピーチ・エンジン補
正モジュール２００又はユーザが、希望の口述結果につ
いてＲＡＭ２０６に保存された代替結果を分析し、ドキ
ュメントに対する口述項目に適したスピーチ入力２０４
として最も希望される結果を決定した後に、ドキュメン
トに適した口述入力を提供する。ステップ４１２がステ
ップ４１４の前に行われ、ルーチン４００は、図３のス
テップ３２６に戻ると終了する。

【００６６】図５は、スピーチ・エンジン補正モジュー
ル２００がコマンド・スピーチ認識モード・エラーの口
述項目を補正する、ルーチン５００を示す。すなわち、
モード補正プロセッサ２１６が、スピーチ入力２０４が
口述として不適切に入力されたことを検出すると、スピ
ーチ入力２０４がコマンドとしてドキュメントに入力さ
れる。図５はルーチン５００を図示する論理流れ図であ
り、図３の決定ブロック３２２から派生する“イエス”
ブランチに続いている。ルーチン５００はステップ５０
２から始まる。

【００６７】ステップ５０２がステップ５０４の前に行
われ、スピーチ・エンジン補正モジュール２００は、受
信したスピーチ入力２０４をＲＡＭ２０６、又は任意の
他の類似のメモリ又は記憶装置に保存する。当初のスピ
ーチ入力２０４を保存すると、ルーチン５００が中断し
て、当初のスピーチ入力２０４をリコールする必要があ
る場合でも、スピーチ入力２０４をリコールして再処理
することが可能になる。例えば、ＲＡＭ２０６は、ルー
チン５００が中断し、当初のスピーチ入力２０４のリコ
ールが必要な時に効果的に使用できる。

【００６８】ステップ５０４がステップ５０６の前に行
われ、モード補正プロセッサ２１６は、“削除”コマン
ドをアプリケーション・プログラム１３８に送り、口述
項目としてドキュメントに不適切に入力されたスピーチ
入力２０４を削除する。“削除”コマンド又は任意の類
似の機能がアプリケーション・プログラム１３８に送ら
れ、口述項目としてドキュメントに不適切に入力された
スピーチ入力２０４を除去する。

【００６９】ステップ５０６がステップ５０８の前に行
われ、モード補正プロセッサ２１６は、ＲＡＭ２０６に
記憶されている代替モード・プロセッサの結果から候補
コマンドを選択する。図３のステップ３１４で述べたよ
うに、代替モード・プロセッサの結果は、スピーチ認識
モード・エラーが検出され、選択したモードがスピーチ
・エンジン補正モジュール２００で初期に選択しなかっ
た代替モードである時のような状態で、後の検索のため
にＲＡＭ２０６に保存される。モード補正プロセッサ２
１６は、ドキュメント又は既に発行済みのコマンドの関
連性に基づき択規準を用いて、候補コマンドを代替モー
ド・プロセッサの結果から選択する。

【００７０】ステップ５０８がステップ５１０の前に行
われ、モード補正プロセッサ２１６は、候補コマンドと
ＲＡＭ２０６の代替結果の全てをアプリケーション・プ
ログラム１３８に送る。アプリケーション・プログラム
１３８は、他の代替コマンドの結果のなかから強調表示
する選択項目として候補の選択項目を表示できる。モー
ド・エラーを補正する速度をあげるために、モード補正
プロセッサ２１６は、候補コマンドをアプリケーション
・プログラム１３８にユーザを促さずに自動的に送る。
そうでない場合に、モード補正プロセッサ２１６は、候
補コマンドが適切なスピーチ入力２０４のコマンド結果
に最も相応する選択項目であることを、ユーザに単純に
知らせることができる。

【００７１】ステップ５１０がステップ５１２の前に行
われ、選択したコマンドが、アプリケーション・プログ
ラム１３８に入力される。このステップでは、スピーチ
・エンジン補正モジュール２００又はユーザが、希望の
コマンド結果についてＲＡＭ２０６に保存された代替結
果を分析し、ドキュメントに入力するコマンドに適した
スピーチ入力２０４として最も希望される結果を決定し
た後に、ドキュメントに適したコマンド入力を提供す
る。ステップ５１２がステップ５１４の前に行われ、ル
ーチン５００は、図３のステップ３２６に戻ると終了す
る。

【００７２】図６は、ドキュメントのスピーチ認識モー
ド・エラーを補正する代替コンピュータ・ルーチンを示
す論理流れ図である。図６に示すステップは、アプリケ
ーション・プログラム１３８に準じて作動する、スピー
チ・エンジン補正モジュール２００で行われる。ステッ
プ６０２はスピーチ・エンジン補正モジュール２００で
行われるルーチン６００からスタートする。

【００７３】ステップ６０２はステップ６０４の前に行
われ、スピーチ・エンジン補正モジュール２００は、ア
プリケーション・プログラム１３８からスピーチ入力２
０４を待つ。スピーチ入力２０４をスピーチ・エンジン
・モジュール２００が受信すると、ステップ６０４がス
テップ６０６の前に行われる。

【００７４】ステップ６０６で、モード選択プロセッサ
２１０は、スピーチ入力２０４に適したスピーチ認識モ
ードを決定する。口述選択規準に基づいて、モード選択
プロセッサ２１０は、スピーチ認識モードを決定し、選
択したスピーチ認識モードに基づいてスピーチ入力２０
４の処理を続ける。適切な選択規準が、スピーチ入力の
文脈と、ドキュメントと、スピーチ入力の内容になる。
例えば、モード選択プロセッサ２１０が単一の言葉“削
除”から成るスピーチ入力２０４に出会うと、モード選
択プロセッサ２１０は、スピーチ入力２０４の文脈とド
キュメントとに基づいて、及びスピーチ入力２０４がコ
マンドであるというスピーチ入力２０４の内容から決め
る。従って、モード選択プロセッサ２１０は、コマンド
としてスピーチ入力２０４の処理を続ける。適切なスピ
ーチ認識モードは、口述とコマンドになるか、又はアプ
リケーション・プログラム１３８のドキュメントで有用
な任意の他のモードになる。スピーチ認識モードを選択
すると、ステップ６０６がステップ６０８の前に行われ
る。

【００７５】ステップ６０８で、モード・プロセッサ２
１２、２１４は、ステップ６０６で選んだスピーチ認識
モードに基づいてスピーチ入力２０４を処理する。口述
モードが選択された場合、口述プロセッサ２１２はスピ
ーチ入力２０４を処理する。口述プロセッサ２１２は、
口述の内容を決めるために自然言語モデル２１８を用い
る。このようなモデルは、コンピュータ読取自在のドキ
ュメントに適したテキストにスピーチ入力を変換するた
めに、従来技術で広く用いられている。モデルは、文
法、テキストの部分の全体的な意味、又はワード・シー
ケンスの確率のような手がかりを用いて、候補リストに
適した更なる代替要素を作成し、これらの代替要素の確
率を評価できる。適切な言語モデルは、あるスピーチ入
力に適したテキスト結果を常に戻す。口述プロセッサ２
１８がスピーチ入力２０４に適したテキスト結果を決め
た後に、ステップ６０８がステップ６１０の前に行われ
る。

【００７６】代わりに、コマンド・モードが選択される
と、コマンド・プロセッサ２１４がスピーチ入力２０４
を処理する。コマンド・プロセッサ２１４は、コマンド
の内容を決めるために、文脈自由文法（ＣＦＧ）言語モ
デル２２０を用いる。このようなモデルは、あるスピー
チ入力２０４に適したコマンド結果にスピーチ入力を変
換するために、従来技術で広く用いられている。適切な
ＣＦＧモデルは、スピーチ入力２０４と十分に似ている
アプリケーション・プログラム・コマンドを戻す。コマ
ンド・プロセッサ２１４がスピーチ入力２０４に適した
コマンド結果を決めた後に、ステップ６０８が決定ブロ
ック６１０の前に行われる。

【００７７】決定ブロック６１０で、モード補正プロセ
ッサ２１６がスピーチ認識モード補正コマンドをチェッ
クする。他の類似のコマンド又は機能は、モード・エラ
ーを指示するために、モード補正プロセッサ２１６で検
出又は受信できる。スピーチ認識モード補正コマンドを
検出すると“イエス”ブランチで決定ブロック６１２に
進み、モード補正ルーチンが継続する。スピーチ認識モ
ード補正コマンドを検出しない場合、“ノー”ブランチ
でステップ３０８に進み、選択したモードを用いて、ス
ピーチ入力２０４の処理を続ける。

【００７８】モード補正ルーチン６００は決定ブロック
６１２でも継続し、モード補正プロセッサ２１６は、口
述モード補正に対するコマンドが実施する必要があるか
どうか決定する。モード・エラーがコマンドを口述項目
に相応して変更することを要求する場合に、“イエス”
ブランチでステップ６１４に進み、ルーチン７００（図
７に示す）が行われる。モード・エラーがコマンドを口
述項目に相応して変更することを要求しない場合“ノ
ー”ブランチで決定ブロック６１６に進む。

【００７９】決定ブロック６１６で、モード補正プロセ
ッサ２１６は、コマンド・モード補正の口述を実施する
必要があるかどうか決定する。スピーチ認識モード・エ
ラーが口述項目をコマンドに相応して変更することを要
求する場合、“イエス”ブランチでステップ６１８に進
み、ルーチン８００（図８に示す）が行われる。スピー
チ認識モード・エラーが口述項目をコマンドに相応して
変更することを要求しない場合に、“ノー”ブランチで
ステップ６２０に進み、ルーチン６００がスタート・ブ
ロック３０２に戻る。

【００８０】図７は代替ルーチン７００を示している
が、そこでは、スピーチ・エンジン補正モジュール２０
０がコマンド・スピーチ認識モード・エラーを補正す
る。すなわち、スピーチ・エンジン・ジュールは、ユー
ザが意図した口述項目としてスピーチ入力２０４を再入
力することにより、コマンドとしてアプリケーション・
プログラム１３８に不適切に入力されていたスピーチ入
力２０４を補正する。ステップ７０２から、スピーチ・
エンジン補正モジュール２００で行われるルーチン７０
０がスタートする。

【００８１】ステップ７０２がステップ７０４の前に行
われ、スピーチ・エンジン補正モジュール２００は、当
初のスピーチ入力２０４をＲＡＭ２０６に保存する。他
のメモリ又は記憶装置と構造を用いて、当初のスピーチ
入力２０４を保存できる。当初のスピーチ入力２０４を
保存すると、後にスピーチ入力をリコールして再処理す
ることが可能になる。例えば、ＲＡＭ２０６は、ルーチ
ン７００が中断して、当初のスピーチ入力２０４のリコ
ールが必要な時に効果的に使用できる。

【００８２】ステップ７０４がステップ７０６の前に行
われ、“アンドー”コマンドが、ドキュメントに対する
コマンドとして入力される。モード補正プロセッサ２１
６は、“アンドー”コマンドをアプリケーション・プロ
グラム１３８に送る。アプリケーション・プログラム１
３８は“アンドー”をドキュメントに実施する。“アン
ドー”コマンドは、アプリケーション・プログラム１３
８がドキュメントに対して実施した最後のコマンド又は
シリーズのコマンドをリコールして、ドキュメントに実
施した最後のコマンド又はシリーズのコマンドを反転す
るか又はアンドーする。“アンドー”コマンドを実施す
ると、スピーチ入力２０４が口述項目の代わりにコマン
ドとして不適切に入力される前に、ドキュメントをその
当初の内容に戻すことができる。

【００８３】ステップ７０６がステップ７０８の前に行
われ、モード補正プロセッサ２１６は、ＲＡＭ２０６に
保存されていた当初のスピーチ入力２０４を口述プロセ
ッサ２１２に送る。

【００８４】ステップ７０８がステップ７１０の前に行
われ、スピーチ入力２０４を口述プロセッサ２１２が口
述項目として処理する。口述プロセッサ２１２は、統計
的言語モデル（ＳＬＭ）２１８又は別の類似する言語モ
デルを用いて、スピーチ入力２０４を処理する。テキス
ト結果が、ドキュメントに対する入力のために、口述プ
ロセッサ２１２によって戻される。

【００８５】ステップ７１０がステップ７１２の前に行
われ、モード補正プロセッサ２１６は、口述結果をアプ
リケーション・プログラム１３８に送る。アプリケーシ
ョン・プログラム１３８は、口述の内容をドキュメント
に入力する。ステップ７１２がステップ７１４の前に行
われ、ルーチン７００は、図６のステップ６０８に戻る
と終了する。

【００８６】図８は、スピーチ・エンジン補正モジュー
ル２００が口述項目のスピーチ認識モード・エラーを補
正する代替ルーチン８００を示す。すなわち、モード補
正プロセッサ２１６がスピーチ入力２０４が口述項目と
して不適切に入力されたことを検出され、スピーチ入力
２０４がコマンドとしてドキュメントに入力された時で
ある。図８は、図６のステップ６１６に続いて行われ
る、ルーチン８００を示す論理流れ図である。ルーチン
８００は、ステップ８０２から始まる。

【００８７】ステップ８０２がステップ８０４の前に行
われ、スピーチ・エンジン補正モジュール２００は、受
信したスピーチ入力２０４をＲＡＭ２０６に保存する。
他のメモリ又は記憶装置を用いてスピーチ入力２０４を
保存できる。当初のスピーチ入力２０４を保存すると、
後にスピーチ入力をリコールして再処理することが可能
になる。例えば、ＲＡＭ２０６は、ルーチン８００が中
断して、当初のスピーチ入力２０４のリコールが必要な
時に効果的に使用できる。

【００８８】ステップ８０４がステップ８０６の前に行
われ、モード補正プロセッサ２１６は、“削除”コマン
ドをアプリケーション・プログラムに送り、口述項目と
してドキュメントに不適切に入力されたスピーチ入力２
０４を削除する。他の類似のコマンド又は機能をアプリ
ケーション・プログラム１３８に送り、口述項目として
ドキュメントに不適切に入力されたスピーチ入力２０４
を除去できる。

【００８９】ステップ８０６がステップ８０８の前に行
われ、モード補正プロセッサ２１６は、ＲＡＭ２０６に
保存されていた当初のスピーチ入力２０４をコマンド・
プロセッサ２１４に送る。

【００９０】ステップ８０８がステップ８１０の前に行
われ、スピーチ入力２０４をコマンド・プロセッサ２１
４がコマンドとして処理する。コマンド・プロセッサ２
１４は、文脈自由文法（ＣＦＧ）言語モデル２２０又は
別の類似の言語モデルを用いてスピーチ入力２０４を処
理する。コマンド結果は、アプリケーション・プログラ
ム１３８に対する入力のためにコマンド・プロセッサ２
１４によって戻される。

【００９１】ステップ８１０がステップ８１２の前に行
われ、モード補正プロセッサ２１６は、コマンド結果を
アプリケーション・プログラム１３８に送る。アプリケ
ーション・プログラム１３８はコマンド入力をドキュメ
ントに入力できる。ステップ８１２がステップ８１４の
前に行われ、ルーチン８００は図６のステップ６０８に
戻ると終了する。

【００９２】前述の説明を鑑みて、本発明は、プログラ
ムのドキュメントのスピーチ認識モード・エラーを補正
するスピーチ・エンジン補正モジュールを提供する。前
述の説明は本発明の代表的な実施例だけに関しており、
種々の変更を請求項で定める本発明の趣旨と範囲とから
逸脱せずに実施できることを理解すべきである。

【図面の簡単な説明】

【図１】本発明の代表的な実施例の動作環境を提供する
パーソナル・コンピュータ・システムの機能ブロック図
である。

【図２】本発明の代表的な実施例に基づいてスピーチ認
識モード・エラーを補正するスピーチ・エンジン補正モ
ジュールの構成要素を示す機能ブロック図である。

【図３】スピーチ認識モード・エラーを補正すいる代表
的な方法を示す論理流れ図である。

【図４】口述スピーチ認識モード・エラーに対するコマ
ンドを補正する代表的な方法を示す論理流れ図である。

【図５】コマンド・スピーチ認識モード・エラーに対す
る口述を補正する代表的な方法を示す論理流れ図であ
る。

【図６】スピーチ認識モード・エラーを補正する代替方
法を示す論理流れ図である。

【図７】口述スピーチ認識モード・エラーに対するコマ
ンドを補正する代替方法を示す論理流れ図である。

【図８】コマンド・スピーチ認識モード・エラーに対す
る口述を補正する代替方法を示す論理流れ図である。

【符号の説明】

１００動作環境１２０パーソナル・コンピュータ・システム１２１処理装置１２２システム・メモリ１２３システム・バス１２５ＲＡＭ１２７ハードディスク・ドライブ１２８磁気ディスク・ドライブ１２９磁気ディスク１３２ハードディスク・ドライブ・インタフェース１３３磁気ディスク・ドライブ・インタフェース１３４光学的ドライブ・インタフェース１３５オペレーティング・システム１３７スピーチ・エンジン補正モジュール１３８アプリケーション・プログラム・モジュール
（ワード・プロセッサ）１４０キーボード１４２マウス１４７モニタ１４９リモート・コンピュータ１５１ローカル・エリア・ネットワーク１５２ワイド・エリア・ネットワーク１６１マイクロフォン

───────────────────────────────────────────────────── フロントページの続き (72)発明者エリックラッカーアメリカ合衆国 98105 ワシントン州シアトルフォーティエイスアヴェニュー 4316 (72)発明者ポールキョンホワンキムアメリカ合衆国 98107 ワシントン州シアトルナンバー205 エヌダブリューサーティナインスストリート 201 (72)発明者デイヴィッドアレンコールトンアメリカ合衆国 98052 ワシントン州レドモンドエスイーファースト 23016

Claims

【特許請求の範囲】

【請求項１】ドキュメントにスピーチ入力を入力する
ように構成されたスピーチ・エンジンを搭載し、第１の結果と第２の結果とを得るために、前記スピーチ
入力を処理するステップと、前記スピーチ入力に適したスピーチ認識モードを選択す
るステップと、前記選択されたスピーチ認識モードに基づいて、前記ド
キュメントに、前記第１の結果又は前記第２の結果を送
るステップとを備えているコンピュータ実行自在の命令
を有することを特徴とするコンピュータ読取自在の記録
媒体。
【請求項２】前記スピーチ・エンジンが、代替結果を保存し、前記ドキュメントのスピーチ認識モード・エラーを検出
し、過去の結果のエントリに基づいて前記ドキュメントに実
施された任意の変更事項をアンドーし、前記ドキュメントに対するエントリのために前記ドキュ
メントに前記代替結果を送るように構成されていること
を特徴とする請求項１記載のコンピュータ読取自在の記
録媒体。
【請求項３】ドキュメントに対するスピーチ入力を入
力するように構成されたスピーチ・エンジンを搭載し、前記スピーチ入力を保存するステップと、前記スピーチ入力に適したスピーチ認識モードを選択す
るステップと、第１の結果を得るために、前記スピーチ入力を処理する
ステップと、前記ドキュメントに前記第１の結果を入力するステップ
とを備えているコンピュータ実行自在の命令を有するこ
とを特徴とするコンピュータ読取自在の記録媒体。
【請求項４】前記スピーチ・エンジンが、前記ドキュメントのスピーチ認識モード・エラーを検出
し、前記第１の結果に基づいて前記ドキュメントに実施され
た任意の変更事項をアンドーし、第２の結果を得るために、前記スピーチ入力を処理し、前記ドキュメントに前記第２の結果を入力するように構
成されていることを特徴とする請求項３記載のコンピュ
ータ読取自在の記録媒体。
【請求項５】ドキュメント入力を入力するアプリケー
ション・プログラムと、前記アプリケーション・プログラムの入力を処理するよ
うに構成されたスピーチ・エンジンとを搭載し、第１の結果を得るために、プロセッサの入力を処理する
ステップと、第２の結果を得るために、前記プロセッサの前記入力を
処理するステップと、モード選択プロセッサを用いて前記入力に適したモード
を決定するステップと、前記モード選択プロセッサを用いて選択したモードに基
づいて結果を選択するステップと、前記ドキュメントに入力される前記アプリケーション・
プログラムに前記選択された結果を送るステップと、記憶装置に代替結果を保存するステップと、モード補正プロセッサを用いてモード・エラーを検出す
るステップと、モード・エラーの検出に対応して、既に選択された結果に基づいて前記ドキュメントに実施
された変更事項をアンドーするステップと、前記代替モード結果を検索するステップと、前記ドキュメントに入力される前記アプリケーション・
プログラムに前記代替モード結果を送るステップとを備
えているコンピュータ実行自在の命令を有することを特
徴とするコンピュータ読取自在の記録媒体。
【請求項６】前記ドキュメントに対する前記入力が人
の声を含んでいることを特徴とする請求項５記載のコン
ピュータ読取自在の記録媒体。
【請求項７】前記プロセッサが、コマンド結果を得る
ために、前記入力を処理するように更に構成されている
ことを特徴とする請求項５記載のコンピュータ読取自在
の記録媒体。
【請求項８】前記プロセッサが、口述の結果を得るた
めに、前記入力を処理するように更に構成されているこ
とを特徴とする請求項５記載のコンピュータ読取自在の
記録媒体。
【請求項９】前記モードが、コマンド又は口述項目、
又はその２つの組合せを含んでいることを特徴とする請
求項５記載のコンピュータ読取自在の記録媒体。
【請求項１０】前記記憶装置がＲＡＭのような再書込
自在の記憶装置を備えていることを特徴とする請求項５
記載のコンピュータ読取自在の記録媒体。
【請求項１１】モード補正プロセッサを用いてモード
・エラーを検出する前記ステップが、モード・エラーが
発生したというコマンドをユーザから受信するステップ
を更に備えていることを特徴とする請求項５記載のコン
ピュータ読取自在の記録媒体。
【請求項１２】前記代替モード結果から候補モード結
果を決定するステップを更に備えていることを特徴とす
る請求項５記載のコンピュータ読取自在の記録媒体。
【請求項１３】代替モード結果のリストのなかから、
前記候補モード結果を選択することを、ユーザに促すス
テップを更に備えていることを特徴とする請求項１２記
載のコンピュータ読取自在の記録媒体。
【請求項１４】前記ドキュメントに前記代替結果を入
力するステップを更に備えていることを特徴とする請求
項５記載のコンピュータ読取自在の記録媒体。
【請求項１５】ドキュメントに入力を入力するアプリ
ケーション・プログラムと前記のアプリケーション・プ
ログラムの入力を処理するように構成されたスピーチ・
エンジンとを搭載し、モード選択から前記入力に適したモードを選択するステ
ップと、第１の結果を得るために、プロセッサの入力を処理する
ステップと、前記ドキュメントに入力される前記アプリケーション・
プログラムに前記第１の結果を送するステップと、記憶装置に前記入力を保存するステップと、モード補正プロセッサを用いてモード・エラーを検出す
るステップと、モード・エラーの検出に対応して、既に選択された結果に基づいて前記ドキュメントに実施
された変更事項をアンドーするステップと、前記記憶装置から前記入力を検索するステップと、第２の結果を得るために、前記プロセッサの前記入力を
処理するステップと、前記ドキュメントに入力される前記アプリケーション・
プログラムに前記第２の結果を送るステップとを備えているコンピュータ実行自在の命令を有すること
を特徴とするコンピュータ読取自在の媒体。
【請求項１６】前記ドキュメントに対する前記入力が
人の声を含んでいることを特徴とする請求項１５記載の
コンピュータ読取自在の媒体。
【請求項１７】前記プロセッサが、コマンド結果を得
るために、前記入力を処理するように更に構成されてい
ることを特徴とする請求項１５記載のコンピュータ読取
自在の媒体。
【請求項１８】前記プロセッサが、口述の結果を得る
ために、前記入力を処理するように更に構成されている
ことを特徴とする請求項１５記載のコンピュータ読取自
在の媒体。
【請求項１９】前記モードが、コマンド又は口述項
目、又はその２つの組合せを含んでいることを特徴とす
る請求項１５記載のコンピュータ読取自在の媒体。
【請求項２０】前記記憶装置がＲＡＭのような再書込
自在の記憶装置を備えていることを特徴とする請求項１
５記載のコンピュータ読取自在の媒体。
【請求項２１】モード・エラーが発生したというコマ
ンドをユーザから受信するステップを更に備えているこ
とを特徴とする請求項１５記載のコンピュータ読取自在
の媒体。
【請求項２２】前記ドキュメントに前記第２の結果を
入力するステップを更に備えていることを特徴とする請
求項１５記載のコンピュータ読取自在の媒体。
【請求項２３】ドキュメントの入力のためにアプリケ
ーション・プログラムからスピーチ入力を受信するステ
ップと、第１の結果を得るために、プロセッサの前記スピーチ入
力を処理するステップと、第２の結果を得るために、前記プロセッサの前記スピー
チ入力を処理するステップと、モード選択プロセッサを用いて、前記スピーチ入力に適
したスピーチ認識モードを決定するステップと、前記選択したスピーチ認識モードに基づいて結果を選択
するステップと、前記ドキュメントに入力される前記アプリケーション・
プログラムに前記選択された結果を送るステップと、記憶装置に代替結果を保存するステップと、モード補正プロセッサを用いて、スピーチ認識モード・
エラーを検出するステップと、スピーチ認識モード・エラーの検出に対応して、既に選択された結果に基づいて前記ドキュメントに実施
された変更事項をアンドーするステップと、前記代替モード結果を検索するステップと、前記ドキュメントに入力される前記アプリケーション・
プログラムに前記代替モード結果を送るステップとを備
えていることを特徴とするドキュメントのスピーチ認識
モード・エラーを補正する方法。
【請求項２４】前記第１の結果がコマンド結果である
ことを特徴とする請求項２３記載の方法。
【請求項２５】前記第１の結果が口述結果であること
を特徴とする請求項２３記載の方法。
【請求項２６】前記モード補正プロセッサが、モード
・エラーが発生したというコマンドをユーザから受信す
るように更に作動できることを特徴とする請求項２３記
載の方法。
【請求項２７】前記モード補正プロセッサが、前記代
替モード結果から候補モード結果を決定するように更に
作動できることを特徴とする請求項２３記載の方法。
【請求項２８】前記モード補正プロセッサが、代替モ
ード結果のリストのなかから前記候補モード結果を選択
することを、ユーザに促すように更に作動できることを
特徴とする請求項２７記載の方法。
【請求項２９】前記モード補正プロセッサが、前記ド
キュメントに前記代替結果を入力するように更に作動で
きることを特徴とする請求項２３記載の方法。
【請求項３０】請求項２３記載の前記方法を実施する
ために、コンピュータ実行自在の命令のセットを保存す
ることを特徴とするコンピュータ読取自在の記憶装置。
【請求項３１】請求項２３記載の前記方法の前記ステ
ップを実施することを特徴とする装置。
【請求項３２】ドキュメントの入力のためにアプリケ
ーション・プログラムからスピーチ入力を受信するステ
ップと、モード選択プロセッサを用いて、前記スピーチ入力に適
したスピーチ認識モードを選択するステップと、第１の結果を得るために、プロセッサの前記スピーチ入
力を処理するステップと、前記ドキュメントに入力される前記アプリケーション・
プログラムに前記第１の結果を送るステップと、記憶装置に前記スピーチ入力を保存するステップと、モード補正プロセッサを用いて、モード・エラーを検出
するステップと、モード・エラーの検出に対応して、既に選択された結果に基づいて前記ドキュメントに実施
された変更事項をアンドーするステップと、前記記憶装置から前記スピーチ入力を検索するステップ
と、第２の結果を得るために前記プロセッサの前記スピーチ
入力を処理するステップと、前記ドキュメントに入力される前記アプリケーション・
プログラムに前記第２の結果を送るステップとを備えて
いることを特徴とするドキュメントのスピーチ認識モー
ド・エラーを補正する方法。
【請求項３３】前記第１の結果が口述結果であること
を特徴とする請求項３２記載の方法。
【請求項３４】前記第１の結果がコマンド結果である
ことを特徴とする請求項３２記載の方法。
【請求項３５】前記モード補正プロセッサが、モード
・エラーが発生したというコマンドをユーザから受信す
るように更に作動できることを特徴とする請求項３２記
載の方法。
【請求項３６】前記モード補正プロセッサが、前記ド
キュメントに前記第２の結果を入力するように更に作動
できることを特徴とする請求項３２記載の方法。
【請求項３７】請求項３２記載の前記方法を実施する
ために、コンピュータ実行自在の命令のセットを保存す
ることを特徴とするコンピュータ読取自在の記憶装置。
【請求項３８】請求項３２記載の前記方法の前記ステ
ップを実施することを特徴とする装置。
【請求項３９】ドキュメントにテキスト又はコマンド
を入力するアプリケーション・プログラムと、前記アプリケーション・プログラムのテキスト又はコマ
ンドに対するスピーチ入力を処理するように構成された
スピーチ・エンジン・プログラムとを搭載し、口述結果を得るために、口述プロセッサの前記スピーチ
入力を処理するステップと、コマンド結果を得るために、コマンド・プロセッサの前
記スピーチ入力を処理するステップと、前記スピーチ入力に適したスピーチ認識モードを決定す
るステップと、前記スピーチ認識モードに基づいて結果を選択するステ
ップと、前記ドキュメントに入力される前記アプリケーション・
プログラムに前記選択された結果を送るステップと、記憶装置に代替スピーチ認識モードの結果を保存するス
テップと、スピーチ認識モード・エラーを検出するステップと、スピーチ認識モード・エラーの検出に対応して、既に選択された結果に基づいて前記ドキュメントに実施
された変更事項をアンドーするステップと、前記代替スピーチ認識モードの結果を検索するステップ
と、前記アプリケーション・プログラムに前記代替スピーチ
認識モードの結果を送るステップと、前記ドキュメントに前記代替スピーチ認識モードの結果
を入力するステップとを備えているコンピュータ実行自
在の命令を有することを特徴とするコンピュータ読取自
在の記録媒体。
【請求項４０】ドキュメントにテキスト又はコマンド
を入力するアプリケーション・プログラムと、前記アプリケーション・プログラムのテキスト又はコマ
ンドを処理するように構成されたスピーチ・エンジン・
プログラムとを搭載し、第１のモード選択により前記テキスト又はコマンドの第
１のモードを選択するステップと、第１の結果を得るために、プロセッサの前記テキスト又
はコマンドを処理するステップと、前記ドキュメントに入力される前記アプリケーション・
プログラムに前記第１の結果を送るステップと、記憶装置に前記テキスト又はコマンドを保存するステッ
プと、モード補正プロセッサを用いて、モード・エラーを検出
するステップと、モード・エラーの検出に対応して、既に選択された結果に基づいて前記ドキュメントに実施
された変更事項をアンドーするステップと、前記記憶装置から前記テキスト又はコマンドを検索する
ステップと、第２の結果を得るために、前記プロセッサの前記テキス
ト又はコマンドを処理するステップと、前記アプリケーション・プログラムに前記第２の結果を
送るステップと、前記ドキュメントに前記第２の結果を入力するステップ
とを備えているコンピュータ実行自在の命令を有するこ
とを特徴とするコンピュータ読取自在の記録媒体。