JP2006515073A

JP2006515073A - 音声認識を実行するための方法、システム、及びプログラミング

Info

Publication number: JP2006515073A
Application number: JP2004533998A
Authority: JP
Inventors: ロス，ダニエル，エル．; コーエン，ジョーダン，アール．; ジョンソン，デヴィット，エフ．; グラブヘル，マンフレッド，ジー．; フランゾサ，ポール，エー．; ポーター，エドワード，ダブリュー．
Original assignee: ヴォイスシグナルテクノロジーズインコーポレーティッド; ロス，ダニエル，エル．; コーエン，ジョーダン，アール．; ジョンソン，デヴィッド，エフ; グラブヘル，マンフレッド，ジー．; フランゾサ，ポール，エー．; ポーター，エドワード，ダブリュー．
Priority date: 2002-09-06
Filing date: 2002-09-06
Publication date: 2006-05-18
Also published as: AU2002336458A1; EP1604350A4; KR20060037228A; EP1604350A2; CN1864204A; KR100996212B1; AU2002336458A8

Abstract

本発明は、選択可能な認識モードを有する音声認識、大語彙音声認識に於ける選択肢リストの使用、ユーザが単語変換を選択することが出来ること、一つ又は複数の特定の方法で認識を自動的にオフの状態にする音声認識、大語彙音声認識に関する電話キー制御、電話キー・アルファベット・フィルタリング及綴りを使用する音声認識、ユーザが再発話認識を実行可能な音声認識、音声認識及び音声合成（ＴＴＳ）生成の組み合わせ、手書文字を用いた音声認識及び／又は文字認識の組み合わせ、音声録音及び再生を用いた大語彙音声認識の組み合わせに関する。

Description

本発明は、音声認識を実行するための方法、システム、及び、プログラミングに関する。

大語彙離散音声認識システムは、本特許出願の記載時点までの約１０年間、デスクトップ・パソコンで使用可能となっている。大語彙連続音声認識システムは、本特許出願の記載時点までの約５年間、デスクトップ・パソコンで使用可能となっている。該音声認識システムには相当な価値があることが証明されている。実際、本特許出願の文章の殆どは、大語彙連続音声認識システムの使用に関して作成されている。
この明細書及び付随する請求項に於いて使用されているように、大語彙音声認識システムについて言及する場合、所定の発話された単語に最も近い対応する音声モデルを有する単語に従って、少なくとも２０００以上の異なる語彙単語の任意の一つとして、所定の発話を認識する能力を備えたシステムを意味する。
図１に示されているように、一般的に、大語彙音声認識は、ユーザが図１の携帯電話１０４のマイク１０２に向かって発話することによって機能する。このマイクは、単語の発話によって生じる空気圧の経時変化を電気信号１０６で表された対応する波形に変換する。多くの音声認識システムに於いて、この波形信号は、コンピュータ・プロセッサ、又は、専用のデジタル信号プロセッサ１０８の何れかで実行されるデジタル信号処理によって、タイム・ドメイン（時間領域）表示に変換される。多くの場合、タイム・ドメイン表示は、複数のパラメータ・フレーム１１２で構成され、各パラメータ・フレーム１１２は、複数の連続する時間枠（例えば１００分の１秒）のそれぞれに於いて電気信号１０６の波形によって表現された音声の特性を表す。
図２で示されているように、タイム・ドメイン、又は、フレームの認識される発話の表現は、大語彙に於ける異なる単語に対応する音声モデル２００の内、複数の可能性のある配列に対して照合される。殆どの大語彙音声認識システムに於いて、個々の単語２０２は、殆どの辞書に含まれる表音的綴りに類似した、対応する表音的綴り２０４によってそれぞれ表現されている。表音的綴りに於けるそれぞれの音素は、それに関連付けられた一つ又は複数の音声モデル２００を有する。多くのシステムに於いて、音声モデル２００は、文脈に於ける音素モデルであるが、これは、所定の単語の表音的綴りに於いて、音素が前後の音素の文脈に生じる際に、関連する音素の音声を形作るモデルである。一般に、音声モデルは一つ又は複数の確率モデルの配列で構成されており、各確率モデルは、認識される発話に関するタイム・ドメイン表示１１０のフレームに於いて使用される、各パラメータに対する異なるパラメータ値の確率を表す。
近年のパーソナル・コンピューティングに於ける主要な動きの一つは、より小型で、多くの場合、よりポータブルなコンピューティング・デバイスの用途拡大である。
本来、殆どのパーソナル・コンピューティングは、図３に示されている一般的なタイプのデスクトップ・コンピュータで実行された。その後、図示していないが、ラップトップ・コンピュータ型のさらに小型のパーソナル・コンピュータの使用が増大した。これは、ラップトップ・コンピュータがデスクトップ・コンピュータと大体同一型の計算能力とユーザ・インターフェイスを有しているからである。現在の殆どの大語彙音声認識システムは、そうしたシステムで使用するために設計されている。
近年、新しいタイプのコンピュータの利用が増加している。例えば、図４に示されたタブレット・コンピュータ、図５に示された携帯情報端末（ＰＤＡ）コンピュータ、図６に図示された、さらなる計算能力を有する携帯電話、図７に示された腕時計型携帯電話コンピュータ、そして、図８に示された、頭部に装着可能なデバイスから供給される画面、視線追跡、及び／又は、音声出力を備えたユーザ・インターフェイスを供給する装着可能なコンピュータ等である。
近年の計算能力の増大により、そうした新しいタイプのデバイスは、大語彙離散音声認識システムを備えた最初のデスクトップの計算能力に匹敵する計算能力を搭載することが可能であり、場合によっては、大語彙連続音声認識を最初に実行したデスクトップ・コンピュータが備えた計算能力と同程度の計算能力を搭載することが可能である。こうしたさらに小型で、及び／又は、ポータブルなパーソナル・コンピュータの計算能力は、時代と共に増加の一途を辿る。

より一層ポータブルなコンピュータに効果的な大語彙音声認識を備える上でのより重要な課題の一つは、そうしたデバイスに於いて、音声認識の作成、編集、及び、使用をより簡便且つ迅速にするユーザ・インターフェイスを提供することである。

本発明に関する一つの特徴は、選択可能な認識モードを使用する音声認識に関する。これは、例えば、言語文脈を有する認識モードと言語文脈を有していない認識モードから、ユーザがモード選択をすることが出来ること、大語彙連続音声認識モードと大語彙離散音声認識モードから、ユーザがモード選択をすることが出来ること、少なくとも２つの異なるアルファベット入力音声認識モードから、ユーザがモード選択をすることが出来ること、テキスト作成時に下記の認識モード、即ち、大語彙モード、文字認識モード、数字認識モード、句読点認識モードの４つ、又は、それ以上から、ユーザがモード選択をすることが出来ること、等の技術革新を有する。
本発明に関する他の特徴は、大語彙音声認識に於ける選択肢リストの使用に関する。これは、例えば、文字順選択肢リストの提供、垂直スクロール可能な選択肢リストの提供、水平スクロール可能な選択肢リストの供給、及び、認識候補の制限に使用されるアルファベット・フィルタに於ける文字に関する選択肢リストの供給等の技術革新を有する。
本発明に関する他の特徴は、ユーザが単語変換を選択可能であることに関する。これは、例えば、単数から複数への変換、単語の動名詞化など、所望の方法で認識された単語を変更するために、該認識された単語に対して実行する複数の変換から、ユーザが一つの変換を選択することが出来るという技術革新を含む。また、これは、ユーザがアルファベット形式、及び、非アルファベット形式から、選択された単語を変換することを選択可能であるという技術革新を含む。また、これは、認識された単語に対応する変換された単語の選択肢リストをユーザに提供することや、出力として変換された単語の一つをユーザが選択可能であること等の技術革新を含む。
本発明に関する他の特徴は、一つ又は複数の特定の方法で、認識を自動的にオフの状態にする音声認識に関する。これは、例えば、認識をオンの状態にし、その後、認識を自動的にオフの状態にして、再び認識をオンの状態に戻すために他のコマンドを受け付けるまでオフの状態を継続する大語彙音声認識コマンド等の技術革新を含む。また、これは、ボタンの押下によって、押下時間の長さによって規定された持続時間の間、認識を実行する音声認識、及び、同一ボタンのクリックによって、クリックの長さとは独立した時間の長さに於いて認識を実行する、音声認識に関する技術革新を含む。
本発明に関する他の特徴は、大語彙音声認識の電話キー制御に関する。これは、選択肢リストから単語を選択するために電話キーを使用すること、次に押下されたキーに関する説明を提示するヘルプ・モードを選択するために電話キーを使用すること、及び、電話キーに現在関連付けられた機能のリストを選択するために、電話キーを使用すること、に関する技術革新を有する。また、これは、複数の番号付与された電話キーが、その時点でこれらの電話キーに関連付けられた異なる複数のキー・マッピングを有しており、そうしたキーの押下によって、番号付与された電話キーに関連付けられた機能が、押下されたキーに関連付けられたマッピングに変更される、テキスト・ナビゲーション・モードを有する音声認識に関する技術革新を含む。
本発明に関する他の特徴は、電話キー・アルファベット・フィルタリング、及び、電話キー・アルファベット綴りを使用する音声認識に関する。アルファベット・フィルタリングとは、通常、ユーザ入力によって示された文字の配列に対応する文字の最初の配列等、文字の配列含む単語の音声認識を支持することを意味する。本発明の該特徴は、所望の単語に於いて対応する文字の位置が、その電話キーと同一であると見なされた複数の文字の一つに対応することを示す点で、それぞれのキーの押下が曖昧な場合に、電話キーの押下をフィルタリング入力として使用する技術革新を含む。また、本発明のこの特徴は、ゼロの数、又は、所定のキーをさらに繰り返して押下することによって、キーに関連付けられた複数の文字がフィルタに於ける使用対象となる非曖昧な指示を提供する電話キーの押下の配列を、フィルタリング入力として使用する技術的革新を有する。また、本発明に関する該特徴は、音声認識で作り出されたテキストに加えて、使用可能なテキストを綴るために、曖昧な電話キー入力、及び、非曖昧な電話キー入力を使用することに関する技術革新を含む。
本発明に関する他の特徴は、ユーザが再発話認識を実行可能な音声認識に関し、該音声認識に於いて、音声認識が発話に対する一つ又は複数の最高得点テキストの配列をより適切に選択するよう支援するために、一つ又は複数の単語の配列に関する第２の発話、及び、同一の配列に関する早期の発話の両方に対して、音声認識が実行される。
本発明の他の特徴は、音声認識と音声合成（ＴＴＳ）生成の組み合わせに関する。これは、例えば、表意的綴りや文字から音声への規則等の資源を共有する音声認識及びＴＴＳソフトウェアを有する技術的革新を含む。また、それは、認識後に認識されたテキストを発話するためにＴＴＳを自動的に使用し、それらの認識後に認識されたコマンド名を発話するために、ＴＴＳ又は録音された音声を使用する、少なくとも一つのモードを有する大語彙音声認識システムに関する技術革新を含む。また、本発明のこの特徴は、それぞれの発話後に、ＴＴＳを使用して認識されたテキストを自動的に繰り返す大語彙システムに関する技術的革新を含む。また、この特徴は、認識されたテキストに於いてユーザが前後に移動可能であって、ＴＴＳによって発話されるそうした動きのそれぞれの後に、現在位置に於いて一つ又は複数の単語を用いてユーザが移動可能な大語彙システムに関する技術革新を含む。
また、この特徴は、選択肢リストを作り出すために音声認識を使用し、一つ又は複数のそのリストの選択肢のＴＴＳ出力を供給する大語彙システムに関する技術革新を含む。
本発明の他の特徴は、手書文字を用いた音声認識、及び／又は、文字認識の組み合わせに関する。これは、認識される一つ又は複数の単語の配列に関する手書表現及び発話表現の両方の認識の機能として、一つ又は複数の最高得点認識候補を選択する技術革新を含む。また、それは、一つ又は複数の単語に関する音声認識をアルファベット順にフィルタ処理するために、一つ又は複数の文字に関する文字又は手書文字認識を使用する技術革新を有する。また、それは、手書文字認識をアルファベット順にフィルタ処理するために、一つ又は複数の文字識別単語の音声認識を使用する技術革新、及び、一つ又は複数の単語に関する手書文字認識を訂正するために音声認識を使用する技術革新を有する。
本発明の他の特徴は、大語彙音声認識と、音声の録音及び再生の組み合わせに関する。それは、大語彙音声認識、及び、音声入力を録音する以下のモード、即ち、対応する音声認識出力を用いずに音声を録音するモードと、対応する音声認識出力を用いて音声を録音モードと、対応する音声を用いずに音声の音声認識出力を録音するモードの内、少なくとも２つをユーザが切り換え可能な音声録音の両方を有するハンドヘルド・デバイスに関する技術革新を含む。また、本発明のこの特徴は、大語彙音声認識、及び、音声録音機能の両方を有するハンドヘルド・デバイス、及び、ユーザが以前録音した音声の一部を選択し、それに対して音声認識を実行させることが可能なハンドヘルド・デバイスに関する技術革新を有する。また、それは、対応する音声認識出力を用いずに録音される音声の一部に対して、テキスト・ラベルを供給するために、大語彙音声認識をユーザが使用可能な大語彙音声認識システムに関する技術革新、及び、ラベルの単語を発話することと、その発話を認識することと、それらの単語を含むテキストを検索すること、によって、認識されていない録音された音声の一部に関連したテキスト・ラベルをユーザが検索可能なシステムに関する技術革新を含む。また、本発明のこの特徴は、以前の再生が終了する直前に自動的に開始する連続音声再生を用いて、以前記録されたオ音声の再生、及び、単一入力を用いた音声認識の実行をユーザが切り換え可能な大語彙システムに関する技術革新を含む。また、本発明のこの特徴は、大語彙音声認識、及び、録音及び再生機能の両方を有する携帯電話の技術革新を含む。

本発明のこれらの特徴、及び、その他の特徴は、添付の図面と共に、好ましい実施形態の関する下記の説明を読むことによって、より明確となる。
図９は、本発明の多くの特徴を使用可能な携帯情報端末（ＰＤＡ）９００を図示している。図中のＰＤＡは、現在発売されているコンパック社のｉＰＡＱＨ３６５０ＰｏｃｋｅｔＰＣ、カシオ社のＣａｓｓｉｏｐｅｉａ、及び、ヒューレット・パッカード社のＪｏｒｎａｄｏ５２５に類似している。
ＰＤＡ９００は、比較的高解像度のタッチ・スクリーン９０２を有しており、該タッチ・スクリーン９０２によって、ユーザは、例えばスタイラス９０４、又は、指等のタッチ・スクリーンに接触する手段によって、テキストの部分やソフトウェア・ボタンを選択することが出来る。また、該ＰＤＡは複数の入力ボタン９０６と、２次元ナビゲーション・コントロール９０８を有する。
本明細書、及び、後に続く請求項に於いては、ユーザが１次元又は複数次元で離散的な動きの単位を選択可能なナビゲーション入力装置は、ボタンの定義に含まれると見なされる場合が多い。これは、ナビゲーション装置の上下左右の入力が電話キー、又は、電話ボタンであると見なされる電話インターフェイスに関して、特に当てはまる。
図１０は、ＰＤＡ９００に関する概略システム図である。図１０は、タッチ・スクリーン９０２、及び、入力ボタン９０６（ナビゲーション入力９０８を含む）を図示している。また、図１０はＰＤＡ９００が、例えばマイクロプロセッサ１００２等の中央演算処理装置（ＣＰＵ）を有することを示している。ＣＰＵ１００２は、１つ又は複数の電子通信バス１００４を介して、読み出し専用メモリ１００６（多くの場合、フラッシュＲＯＭ）、ＲＡＭ１００８、一つ又は複数のＩ／Ｏ装置１０１０、タッチ・スクリーン９０２上のディスプレイを制御するビデオ・コントローラ１０１２、マイク１０１５からの入力を受付けて、スピーカ１０１６に音声出力を供給する音声装置１０１４に接続されている。
また、該ＰＤＡは、携帯電圧をＰＤＡに供給するバッテリ１０１８と、音声回路１０１４に接続されるヘッドフォン入出力ジャック１０２０と、ＰＤＡと例えばデスクトップ・コンピュータ等、他のコンピュータとを接続させるドッキング・コネクタ１０２２と、ユーザが、例えば増設フラッシュＲＯＭ、モデム、無線トランシーバ１０２５、大容量記憶装置デバイス等の回路をＰＤＡに追加することが出来るアドオン・コネクタ１０２４と、を有する。
図１０は、大容量記憶装置デバイス１０１７を図示している。実際、該大容量記憶装置デバイスは、フラッシュＲＯＭ１００６の全て又は一部、又は、小型ハードディスク等、如何なるタイプの大容量記憶装置デバイスであっても良い。そうした大容量記憶装置デバイスに於いて、ＰＤＡは通常、デバイスの基本機能の多くを供給するオペレーティング・システム１０２６を記憶している。一般に、大容量記憶装置デバイスは、オペレーティング・システム、及び、次に説明する音声認識関連の機能に加えて、例えば、ワード・プロセッサ、スプレッドシート、ウェッブ・ブラウザ、個人情報管理システム等の一つ又は複数のアプリケーション・プログラムを有する。
ＰＤＡ９００が本発明に使用される場合、通常、音声認識プログラミング１０３０を有する。ＰＤＡ９００は、図１及び図２に関して上述した一般的なタイプの単語照合を実行するためのプログラミングを有する。また、音声認識プログラミングは、通常、一つ又は複数の語彙、又は、少なくとも２０００語を有する大語彙を含む語彙グループ１０３２を有する。多くの大語彙システムは、５万語から数１０万語の語彙を有する。それぞれの語彙単語に対して、通常、語彙はテキスト綴り１０３４、及び、その単語が属する１つ又は複数の語彙グループ１０３６（例えば、テキスト出力「．」は、実際にシステムによっては、大語彙認識語彙、綴り語彙、句読点語彙グループに属する可能性がある）を有する。また、それぞれの語彙単語は、その単語を分類可能な音声１０３８の一つ又は複数部分、及び、音声の複数部分のそれぞれに対する単語に関する表音的綴り１０４０に関する指標を有する。
一般に、音声認識プログラミングは、システムに追加される新しい単語の発音を推測するための、所定の表音的綴りを有していない発音推測手段１０４２を備えている。一般に、音声認識プログラミングは、一つ又は複数の音声語彙ツリー１０４４を有する。該音声語彙ツリーは、音素の同一配列で始まる全ての表音的綴りを、該ツリーのルートから、共通のパスに纏めてグループ化するツリー型データ構造である。該音声語彙ツリーによって、同一の最初の表音的綴りを共有する異なる単語の全ての部分が纏めて記録されるので、そうした音声語彙ツリーの使用により、認識性能が改善される。
また、音声認識プログラムは、一つ又は複数の先行する単語、及び／又は、後に続く単語が与えられたテキストに於いて単語が発生する可能性など、テキストに於いて異なる単語が発生する可能性を示すポリグラム言語モデル１０４５を有することが望ましい。
一般に、音声認識プログラミングは、上述のポリグラム言語モデル１０４５を更新するために使用可能な情報を含む言語モデル更新データ１０４６を記録している。一般に、該言語モデル更新データは、ユーザが作成したテキスト、又は、ユーザが生成したいテキストに類似したテキストとして示したテキストから生成された統計情報を一部として、又は全体として含む。図１０に於いて、音声認識プログラミングは、氏名、住所、電話番号、Ｅメール・アドレス、及び、そうした情報の複数又は全てに対する表音的綴りを含む、連絡先情報１０４８を記憶していることが図示されている。該データは、音声認識プログラミングによるそうした連絡先情報の発話認識を支援するために使用される。該情報に関する多くの実施形態に於いては、そうした連絡先情報が、外部プログラム、例えば、アプリケーション・プログラム１０２８、又は、オペレーティング・システム１０２６に対する付属品等に含まれるが、そうした場合でさえも、一般に音声認識プログラミングは、氏名、住所、電話番号、Ｅメール・アドレス、それらに対する表音的表現にアクセスする必要がある。
また、音声認識プログラミングは、通常、図２に図示された音声モデル２００に類似する可能性のある音声音響モデル１０５０を含む。また、一般に、音声認識プログラミングは、該システムによって以前認識された音響信号からの情報を含む音響モデル更新データ１０５２を記憶する。一般に、そうした音響モデル更新データは、例えば、図１及び図２に図示されたパラメータ・フレーム１１０等のパラメータ・フレームの形式、又は、そうしたフレームから抽出された統計データの形式となる。
図１１は、図９に図示されたタッチ・スクリーン９０２によって提供されたユーザ・インターフェイスに関する拡大図に、本発明の多くの特徴を具体化するソフトウェア入力パネル（ＳＩＰ）１１００を使用するＰＤＡを加えたものである。
図１２は、音声認識ＳＩＰが訂正ウインドウ１２００を表示する際に、タッチ・スクリーン９０２を表示している点を除いて、図１１と類似している。
図１３乃至１７は、グラフィカル・ユーザ・インターフェイス（ＧＵＩ）に於いて、音声認識ＳＩＰが様々な入力に対してどのように対応するかということに関する擬似コードの記述に関する連続するページを表している。簡略化するために、該擬似コードは、ユーザ入力に対応するＳＩＰプログラムに於ける一つのメイン・イベント・ループ１３００として表されている。
図１３乃至１７に於いて、該イベント・ループは、２つの主要なスイッチ・ステートメント、即ち、訂正ウインドウ１２００の表示、非表示に関わらず生成可能なユーザ・インターフェイスに於ける入力に対応する図１３のスイッチ・ステートメント１３０１、及び、訂正ウインドウ１２００が表示された場合にのみ、生成可能なユーザ入力に対応する図１５のスイッチ・ステートメント１５４２、として説明されている。
ユーザが、図１１に図示されたトーク・ボタン１１０２を押下する場合、図１３の機能１３０２によって、機能１３０４乃至１３０８が実行される。機能１３０４は、図１１のウインドウ１１０４によって表示されたＳＩＰバッファにテキストが存在するかどうかを確認するための検証を行う。これらの図中に示されたＳＩＰに関する実施形態に於いて、ＳＩＰバッファは、ＳＩＰのソフトウェアが音響入力とそれぞれの単語の認識に関連した最良の選択肢、及び、そうしたテキストによって作成された言語文脈について追跡する、比較的少数のテキスト行を保持するよう設計されている。そうしたテキスト・バッファが使用されるのは、アプリケーションに於いて、ＳＩＰが現在のカーソル１１０８の位置にテキストを出力する、図１１のウインドウ１１０６に図示されたリモート・アプリケーションに於けるテキストに関する知識を、音声認識ＳＩＰが多くの場合有さないからである。本発明に関する他の実施形態に於いては、さらに大型のＳＩＰバッファが使用可能である。他の実施形態に於いて、本発明の特徴の多くは、テキストを入力するためにＳＩＰの使用を必要としない、独立の音声認識テキスト作成アプリケーションの一部として使用される。ＳＩＰとして機能する音声認識手段を使用する主な利点は、ＰＤＡで起動するように設計された殆ど如何なるアプリケーションに対しても、入力を供給するために該音声認識装置を使用可能であるということである。
図１３を再び参照すると、トーク・ボタン１１０２は、ＳＩＰに対して、ユーザが新しい文脈でテキストをディクテーションしていることを示す手段として提供されているので、機能１３０４はＳＩＰバッファ１１０４からの任意のテキストを消去する。このように、ＳＩＰのユーザが図１１のアプリケーション・ウインドウ１１０６でカーソル１１０８を移動させた場合、トーク・ボタン１１０２を押下することによって、次のディクテーションを開始することになる。
図１３の機能１３０６は、現在、音声認識システムが訂正モードの状態であるかを確認するための検証を行うことによって、トーク・ボタンの押下に対応する。音声認識システムが訂正モードの状態にある場合、該モードを終了し、表示される可能性のある図１２に示されたタイプの訂正ウインドウ１２００を取り除く。
図中のＳＩＰは、訂正ウインドウが表示されているが、メインＳＩＰインターフェイスの殆どのボタンから入力を受け付けることが選択されていない場合に、訂正モードの状態にはなく、訂正ウインドウが表示され、そうしたボタンの多くから入力を受け付けることが選択されている場合に、訂正モードの状態にある。こうした区別が望ましいのは、ユーザがより迅速に選択リストの確認、又は、訂正入力の供給を行うことを可能にすると認識されているので、図示された特定のＳＩＰが、単語が離散的に発話、認識され、それぞれの単語に対して訂正ウインドウが表示される個別モードで操作することを選択可能であるからだ。個別モードに於いて、訂正の実行に具体的に関係ないユーザ入力の殆どの形式が、所望の単語として現在の選択リストに表示された第１選択肢を確認する付加機能を実行するために使用される。システムが個別モードの状態ではない場合、ユーザが前回の入力の訂正を望むことを示す入力を供給した場合にのみ、訂正ウインドウは通常表示される。そうした場合、訂正ウインドウは訂正モードで表示されるが、これは、ユーザが訂正を行うことを選択しているので、入力の殆どの形式は訂正ウインドウを対象とするはずであるということが想定されているからである。
当然のことながら、個別認識のみを使用するシステム、又は、個別認識を全く使用しないシステムに於いては、訂正モードへの切り替え、及び、訂正モードからの切り替えを追加的に行う必要性がない。
機能１３０６を再び参照すると、トーク・ボタン１３０２の押下によって、古いディクテーションの訂正に関心があるというよりは、むしろ新しいディクテーションの開始を望むことが示されているので、機能１３０６は現在の訂正ウインドウをすべて取り除く。
図１３の機能１３０８は、前回選択された現在の認識持続モードに従って、ＳＩＰバッファ認識を開始させることによって、トーク・ボタンの押下に対応する。該認識は、第１単語に対して任意の以前の言語文脈を用いることなく行われる。言語モデル文脈は、トーク・ボタンの１回の押下に対応して、認識された単語から得られ、そうした認識に於いて、第２単語、及び、それ以後の単語に関する認識に対して言語文脈を提供するために使用されることが望ましい。
図１８は、音声認識を開始するために使用可能なＳＩＰインターフェイスに於いて、任意のボタンの押下、又は、クリックに対応して、ユーザが音声認識を起動させる異なるモードを選択可能な認識持続プログラミング１８００の概略図である。図示された実施形態に於いては、トーク・ボタンなど、それぞれが音声認識を開始するために使用可能な複数のボタンが存在する。これにより、ユーザは、認識の所定モードを選択することができ、ボタンを１回押下することで、そのモードでの認識を開始することが出来る。
機能１８０２は、現在の認識持続モードに応じて、図１８のどの機能が実行されるのかを決定する一助となる。図４６に図示された機能メニューに於ける入力優先オプションに基づいて、初期設定、及び、選択等、複数の異なる方法で該モードを設定することが出来る。
押下単独認識持続タイプが選択された場合、機能１８０４によって、機能１８０６及び１８０８は、音声ボタンの押下中に発話された語音を認識する。該認識持続タイプは、単純且つ柔軟であるが、これは、該認識持続タイプによって、ユーザが一つの簡単な規則、即ち、音声ボタンの押下中、及び、押下中にのみ認識が行われるという規則、によって、認識の長さを制御することが出来るからである。暗騒音が発音として認識される確率を低減するために、発話及び／又は発話検出の終了は、任意の認識モードの中で使用されることが望ましい。
現在の認識持続タイプが、「発話終了に対する押下及びクリック」タイプの場合、機能１８１０によって、機能１８１２及び１８１４は、その押下中に音声を認識することによって、音声ボタンの押下に対応する。この場合、音声ボタンの「押下」とは、例えば、４分の１秒、又は、３分の１秒等、所定の持続時間よりも長い間、そうしたボタンを押下することとして定義される。ユーザが音声ボタンをより短い間押下する場合、該押下は「押下」というよりは、むしろ「クリック」として処理され、機能１８１６及び１８１８は、該クリックの時間から発話検出の次回終了時まで、認識開始に着手する。
「発話終了に対する押下及びクリック」認識持続タイプには、一つのボタン使用によって、ユーザが可変長の拡大認識を選択可能なモードと、単一の発話のみを認識するモードから、迅速、且つ、容易に、選択することが出来るという利点がある。
現在の認識持続タイプが「発話終了に対する連続押下、離散クリック」タイプである場合、機能１８２０は、機能１８２２乃至１８２８を実行させる。音声ボタンがクリックされる場合、直前に定義した通り、機能１８２２及び１８２４は、発話の次回終了時まで離散認識を実行する。一方、音声ボタンが押下される場合、前述の定義の通り、機能１８２６及び１８２８は、音声ボタンが押下された状態のままである限り、連続認識を実行する。
該認識持続タイプには、所定の音声ボタンに対する異なるタイプの押下を使用するだけで、ユーザが連続認識及び離散認識を即座に切り換えることが容易になるという利点がある。図示されたＳＩＰの実施形態では、他の認識持続タイプは連続認識及び離散認識の切り換えを行わない。
現在の認識持続タイプが「タイムアウトに対するクリック」タイプである場合、機能１８３０は、機能１８３２乃至１８４０を実行させる。音声ボタンがクリックされる場合、機能１８３３乃至１８３６は、通常、認識のオン状態及びオフ状態を切り換える。機能１８３４は、音声認識が現在オンの状態であるか否かを確認するための検証を行うことにより、クリックに対応する。音声認識がオンの状態であり、また、クリックされている音声ボタンが語彙を変化させるボタン以外の場合、音声認識をオフの状態にすることでクリックに対応する。一方、音声ボタンがクリックされる際に音声認識がオフの状態であれば、機能１８３６はタイムアウト継続時間が経過するまで音声認識をオンの状態にする。該タイムアウト継続時間の長さは、図４６に図示された機能メニュー４６０２に於ける入力優先オプションに基づいてユーザが設定可能である。音声ボタンが所定の継続時間よりも長い間押下される場合、上述の通り、機能１８３８及び１８４０が押下中に認識をオンの状態にして、押下終了時にオフの状態にする。
該認識持続タイプによって、ユーザは、音声認識のオン状態、及び、オフ状態を切り換えるボタンと、音声ボタンが延長して押下される間のみ、音声認識をオンの状態にするボタンから、一つのボタンを即座に、且つ、容易に選択する。
図１３の機能１３０８を再び参照すると、異なる認識持続タイプの選択によって、トーク・ボタンと他の音声ボタンがどのように認識を開始するかをユーザが選択することが出来るということが分かる。
ユーザが図１１に図示された消去ボタン１１１２を選択する場合、機能１３０９乃至１３１４は、表示される可能性のある全ての訂正ウインドウを取り除き、オペレーティング・システム・テキスト入力に何ら削除部分を送信することなく、ＳＩＰバッファの内容を消去する。上述の通り、図示された音声ＳＩＰに於いて、図１１に図示されたＳＩＰテキスト・ウインドウは、比較的小さなテキスト部分を保持するように設計されている。テキストがＳＩＰバッファに於いて入力、又は、編集される場合、文字はＰＤＡのオペレーティング・システムに供給され、図１１に図示されたアプリケーション・ウインドウ１００６に於けるテキストに対して、対応する変更が行われる。消去ボタンによって、ユーザはＳＩＰバッファへの負担がかかり過ぎないように、アプリケーション・ウインドウのテキストに対して対応する削除を行うことなく、ＳＩＰバッファからテキストを消去することが出来る。
図１１に図示された継続ボタン１１１４は、最後にディクテーションされたテキストの連続、又は、図１１に図示されたＳＩＰバッファ・ウインドウ１１０４に於ける現在位置に挿入されることになるテキストを、ユーザがディクテーションしたい場合に使用されることを目的とする。該ボタンが押下される場合、機能１３１６は、機能１３１８乃至１３３０を実行させる。機能１３１８は、すべての訂正ウインドウを取り除くが、これは、継続ボタンの押下によってユーザは訂正ウインドウの使用に関心がないことを示しているからである。次に、機能１１３２は、ＳＩＰバッファ・ウインドウに於ける現在のカーソルに、継続ボタンを押下した結果として、最初の単語、又は、認識された任意の発話の単語に関する確率の予測を支援するために使用可能な以前の言語文脈があるのかどうかを検証する。以前の言語文脈が存在する場合、機能１１３２によって言語文脈が使用される。以前の言語文脈が存在しない場合、及び、ＳＩＰバッファに現在テキストが存在しない場合、機能１３２６は、継続ボタンによって開始された認識開始時の言語文脈として、以前ＳＩＰバッファに入力された最後の一つ又は複数の単語を使用する。次に、機能１３３０は、ＳＩＰバッファ認識、即ち、現在の認識持続モードを使用して、ＳＩＰバッファに於けるカーソルに出力されるテキストの認識を開始する。
ユーザが図１１に図示されたバックスペース・ボタン１１１６を選択する場合、機能１１３２乃至１１３６が実行される。機能１１３４は、ＳＩＰが現在、訂正モードの状態にあるかどうかを検証する。ＳＩＰが訂正モードの状態にある場合、機能１１３４は、訂正ウインドウのフィルタ・エディタにバックスペースを入力する。図１２に図示された訂正ウインドウ１２００は、第１選択ウインドウ１２０２を有する。下記に於いてより詳細に説明する通り、訂正ウインドウ・インターフェイスによって、ユーザは、一つ又は複数の所望の認識単語に属する最初の文字の配列を識別するフィルタ文字列の一部として、第１選択肢ウインドウに於ける一つ又は複数の文字を選択、及び、編集することが出来る。ＳＩＰが訂正モードの状態にある場合、バックスペースの押下によって、第１選択肢ウインドウで現在選択されたフィルタ文字列及び文字から削除し、何も文字が選択されない場合には、フィルタ・カーソル１２０４の左側の文字を削除する。
ＳＩＰが現在訂正モードの状態にない場合、機能１１３６は、バックスペース文字をＳＩＰバッファに入力し、図１１に図示されたアプリケーション・ウインドウ１１０６に於いて対応するテキストに対して同一の変更を行うことが出来るように、オペレーティング・システムに同一文字を出力することによって、バックスペース・ボタンの押下に対応する。
ユーザが図１１に示された改行ボタン１１１８を選択する場合、図１３の機能１３３８乃至１３４２は、訂正モードを終了し、ＳＩＰが現在訂正モードの状態にある場合、機能１３３８乃至１３４２は、ＳＩＰバッファに改行文字を入力し、オペレーティング・システムに対応する出力を供給する。
機能１３４４乃至１３８８によって示されているように、ＳＩＰは、バックスペースに対応する場合と略同一の方法で、即ち、ＳＩＰが訂正モードの状態にある場合、バックスペースをフィルタ・エディタに入力し、そうでなければＳＩＰバッファ及びオペレーティング・システムにバックスペースを出力する方法と略同一の方法で、ユーザによるスペース・ボタン１１２０の選択に対応する。
ユーザが図１１に図示された語彙選択ボタン１１２２乃至１１３２の一つを選択する場合、図１３の機能１３５０乃至１３７０、及び、図１４の機能１４０２乃至１４１６は、選択されたボタンに対応する語彙に対して、適切な認識モードの語彙を設定し、現在の認識持続モード、及び、認識モードに対する他の設定に応じて、そのモードで音声認識を開始する。
ユーザが氏名認識ボタン１１２２を選択する場合、機能１３５０及び１３５６は、氏名認識語彙に対して現在のモードの認識語彙を設定し、現在の認識持続設定、及び、他の適切な音声設定に応じて認識を開始する。氏名及び大語彙ボタンに加えて、語彙ボタンの全てを用いて、これらの機能は、ＳＩＰが訂正モードの状態になるかどうかに応じて、現在の認識モードをフィルタ、又は、ＳＩＰバッファ認識として処理する。これは、こうした他の語彙ボタンが、フィルタ文字列の定義、又は、ＳＩＰバッファへの直接入力に適した文字の配列を入力するために使用された語彙に関連付けられているからである。しかし、大語彙、及び、氏名語彙は、フィルタ文字列編集には不適切であると考えられているので、開示された実施形態に於いては、現在の認識モードは、ＳＩＰが訂正モードの状態にあるか否かに応じて、再発話、又は、ＳＩＰバッファ認識の何れかであるとされている。他の実施形態に於いては、氏名及び大語彙認識は、マルチワード・フィルタの編集に使用可能である。
語彙ボタンの押下に関連付けられた標準的な対応に加えて、アルファブラボ語彙ボタンが押下される場合、図４０の数字４００２で図示されているように、機能１４０４乃至１４０６は、国際コミュニケーション・アルファベット（ＩＣＡ）で使用される全単語のリストを表示させる。
ユーザが図１１に図示された連続／離散認識ボタン１１３４を選択する場合、図１４の機能１４１８乃至１４２２が実行される。該機能は、連続音声音響モデルを用いて、マルチワード認識候補が所定の単一の発話と一致可能な連続認識モードと、離散認識音響モデルを用いて、単一単語認識候補のみが単一の発話に対して認識可能な離散認識モードとを切り換える。また、連続／離散ボタンの押下によって選択されたように、該機能は離散認識と連続認識の何れかを用いて音声認識を開始する。
ユーザが、押下することによって機能キー１１１０を選択する場合、機能１４２４及び１４２６は、図４６に図示された機能メニュー４６０２を呼び出す。該機能メニューによって、ユーザは、図１１及び１２に図示されたボタンからの直接使用可能なオプションに加えて、他のオプションから選択することが可能である。
ユーザが、図１１に図示されたヘルプ・ボタン１１３６を選択する場合、図１４の機能１４３２及び１４３４がヘルプ・モードを呼び出す。
図１９に図示されているように、ヘルプ・ボタンの最初の押下に対応して、ヘルプ・モードが入力される場合、図２０に図示されているように、機能１９０２は、ヘルプ・モードの使用に関する情報を提供するヘルプ・ウインドウ２０００を表示する。ヘルプ・モードのその後の操作中に、ユーザがＳＩＰインターフェイスの一部に触れると、機能１９０４及び１９０６は、インターフェイスの接触された部分に関する情報を有するヘルプ・ウインドウを表示する。このヘルプ・ウインドウは、ユーザがＳＩＰインターフェイスへの接触を継続する限り継続表示される。これは図２１に図示されており、図２１では、ユーザが訂正ウインドウのフィルタ・ボタン１２１８を押下するために、スタイラス９０４を使用している。これに対し、フィルタ・ボタンの機能を説明するヘルプ・ウインドウ２１００が図示されている。ヘルプ・モードの状態で、ユーザが画面の一部をダブルクリックすると、機能１９０８及び１９１０は、ユーザがインターフェイスの他の部分を押下するまで起動するヘルプ・ウインドウを表示する。これにより、ユーザは、大き過ぎてヘルプ・ウインドウ２１０２に一度に適合することが出来ないヘルプ情報をスクロールし視認するために、図２１のヘルプ・ウインドウ２１に図示されたスクロール・バー２１０２を使用することが出来る。
また、図１９に図示されていないが、ヘルプ・ウインドウは、インターネットのＳＩＰユーザ・インターフェイスの一部への最初の押下からユーザがドラッグ可能で、ＳＩＰユーザ・インターフェイスの他の部分に触れるまで、ヘルプ・ウインドウを維持することを選択するための維持ボタン２１００を有する。
ヘルプ・モードの初期入力の後、ユーザが図１１、２０、及び、２１に図示されたヘルプ・ボタン１１３６に再び触れると、機能１９１２及び１９１４はすべてのヘルプ・ウインドウを取り除き、ヘルプ・モードを終了して、ヘルプ・ボタンの強調表示をオフの状態にする。
ユーザがＳＩＰバッファに於ける単語をタップする（軽くたたく）場合、図１４の機能１４３６乃至１４３８は選択された単語を現在の選択とし、現在の選択としてのタップされた単語と、タップされた単語の認識に関連付けられた音響データ、即ち、あるとすれば、現在の選択に関連付けられた音響データを保持する発話リストに於ける最初の入力と共に、図２２に図示された選択肢表示リスト・ルーチンを呼び出す。
図２２に図示されているように、選択肢表示リスト・ルーチンは、以下のパラメータ、即ち、選択パラメータ、フィルタ文字列パラメータ、フィルタ・レンジ・パラメータ、単語タイプ・パラメータ、そして、非選択肢リスト・フラグと共に呼び出される。選択パラメータは、該ルーチンが呼び出されたＳＩＰバッファに於けるテキストを示す。フィルタ文字列は、所望の認識出力が始まる一つ又は複数の一連の綴りを規定する要素を示す、一つ又は複数の文字配列を示す。フィルタ・レンジ・パラメータは、所望の認識出力が収まるアルファベットの区分の境界を示す２つの文字配列を定義する。文字タイプ・パラメータは、所望の認識出力が、例えば、所望の文法タイプ等の所定のタイプであることを示す。非選択肢リスト・フラグは、ユーザの行動が示す一つ又は複数の単語のリストが所望の単語ではないことを示す。
選択肢表示リスト・ルーチンの機能２２０２は、選択肢表示リスト・ルーチンが呼び出されたフィルタ文字列パラメータ、及び、フィルタ・レンジ・パラメータ、そして、選択パラメータに関連付けられた発話リストと共に、図２３に図示された選択肢獲得ルーチンを呼び出す。
図２４及び２５に図示されているように、発話リスト２４０４は、現在の選択に関連付けられた一つ又は複数の単語の所望の配列の一部として発話された一つ又は複数の発話に関する音声表現を記憶する。上述の通り、図２２の機能２２０２が選択肢獲得ルーチンを呼び出す場合、現在の選択に関する単語が認識された音声２４０２の一部である、図２４に図示された表現２４００をセットする。図２に於いて示されたように、音声認識のプロセスは、音声信号の表現に対する音響モデルを時間的に整合する。該認識システムは、選択されたテキストの訂正、又は、再生が望ましい場合に、そうした時間的整合からの対応する音響表現を検出することが出来るように、これらの時間的整合を記憶することが望ましい。
図２４に於いて、発話リストに於ける最初の入力２００４は、連続発話２４０２の一部である。本発明によって、ユーザは選択の発話リストに、一つ又は複数の単語の所望の配列に関する付加的な発話を追加することができ、そして、所望の出力を正しく認識する機会を増加させるために、これら全ての発話に対して纏めて認識を実行することが出来る。図２４に図示されているように、そうした付加的発話は、入力２４００Ｂ等の連続発話と、入力２４００Ａ等の離散発話の両方を有することが出来る。それぞれの付加的発話は、それが連続発話か離散発話の何れであるかを示す数字２４０６及び２４０８で示されたような情報と、それがディクテーションされた語彙モードとを有する。
図２４及び２５に於いて、発話リストに於ける発話の音響表現が波形で示されている。当然のことながら、多くの実施形態に於いて、図１及び図２に図示された表現１１０等のパラメータ・フレーム表現等、音響表現の他の形式が使用される。
図２５は、元の発話リスト入力が離散発話の配列であるという点を除いて、図２４に類似している。図２５は、また、一つ又は複数の離散発話の最初の配列に関する認識の訂正を支援するために使用される付加的発話入力が、離散発話２５００Ａと、連続発話２５００Ｂの何れかを、それぞれ含むことが出来ることを示している。
図２３に図示されているように、選択肢獲得ルーチン２３００は、現在の発話リスト、及び、フィルタの値（即ち、フィルタ文字列の値、及び、フィルタ・レンジの値）を用いて実行され、該ルーチンが呼び出された選択に対して以前の認識が存在しているかどうかを確認するための検証を行う機能２３０２を有する。以前の認識が存在している場合、以前の認識が実行された時点から、認識パラメータに於いて変化がなかったことになるので、それによって、機能２３０４はそうした選択と共に以前の認識から戻る。
機能２３０２の検証の結果が満たされない場合、機能２３０６はフィルタ・レンジ・パラメータが空値であるかどうかを確認するための検証を行う。フィルタ・レンジ・パラメータが空値ではない場合、機能２３０８は、フィルタ・レンジが現在のフィルタ文字列よりもさらに具体的であるかを確認するために検証を行い、そして、さらに具体的である場合には、それはフィルタ文字列をフィルタ・レンジの共通文字に変更する。さらに具体的でない場合、フィルタ文字列は、フィルタ・レンジよりもさらに詳細な情報を有するので、機能２３１２はフィルタ・レンジを無効にする。
後述の通り、フィルタ・レンジは、ユーザが選択肢リストに於いて２つの選択を選ぶ際に、所望の認識出力がアルファベットに於いてそれらの間に収まることを示す目安として、選択される。ユーザが最初の文字を共有する２つの選択肢を選ぶ場合、機能２３１０によって、フィルタ文字列はそうした共有された文字に対応する。これは、選択リストが表示される際に、共有された文字が所望の出力の最初の文字に対応するものとして確認された文字としてユーザに表示されるように、実行される。
当然のことながら、ユーザが新しいフィルタ・レンジか、フィルタ文字列の何れかを選択するコマンドを実行する際に、これら２つのパラメータの内、新たに選択されたものが、他方の値と矛盾する値を有する場合、これら２つのパラメータの古い方の値が無効化される。
現在の発話リストの以前の認識からの候補が存在する場合、機能２３１６は、機能２３１８及び２３２０を実行させる。機能２３１８は、候補の以前の認識得点、及び、現在のフィルタ定義を用いて、そうした以前の認識候補のそれぞれに対して図２６に図示されたフィルタ・マッチ・ルーチンを呼び出し、機能２３２０は、特定の閾値を下回る得点を有するそうした呼び出しの結果として戻された、そうした候補を消去する。
図２６に示されているように、フィルタ・マッチ・ルーチン２６００は、単語候補のフィルタリングを実行する。図示された本発明の実施形態に於いては、該フィルタリング・プロセスによって、フィルタはフィルタ文字列、フィルタ・レンジ、又は、単語タイプによって定義することが出来るので、該フィルタリング・プロセスは極めて柔軟性がある。また、該フィルタリング・プロセスは、単語タイプ、及び、フィルタ文字列、又は、フィルタ・レンジ規格の何れかによる組み合わせを可能にし、また、フィルタ文字列に於ける要素が、それらに関連する文字の値に関して曖昧なだけでなく、それらに関連する文字の配列に於ける文字数に関しても曖昧な、曖昧なフィルタを含む、曖昧なフィルタリングを可能にしている点で、柔軟性がある。
フィルタ文字列、又は、フィルタ文字列の一部が曖昧であるということは、複数の可能な文字の配列がそれに一致すると見なすことが出来ることを意味している。曖昧なフィルタリングは、本発明の多くの特徴に関する携帯電話の実施形態に関して、下記に記載したタイプの曖昧な電話キー・フィルタリングと同様に、確実に認識されるが、単一文字を一意的に定義していないフィルタ文字列入力と共に使用された場合に有用である。
また、曖昧なフィルタリングは、特に、認識が連続して実行される場合、例えば、音名の認識等、高い割合の確実性で認識不可能なフィルタ文字列入力と共に使用された場合に有用である。このような場合、文字の配列の認識に対して最高の選択肢が一つ又は複数のエラーを含む確率が高いだけでなく、最高得点の認識候補に於いて認識された文字数が、発話された文字数と異なる可能性が相当ある。特に、悪条件下のディクテーションでは、そうした認識からの最高の選択肢が間違っていることは多いとしても、所望の出力に関して、全て、又は最初の文字を綴ることは、フィルタリング情報を入力する非常に迅速で直感的な方法である。
フィルタ・マッチ・ルーチンは、それぞれ個別の単語候補に対して呼び出される。フィルタ・マッチ・ルーチンは、その単語候補の以前の認識得点、即ち、あるとすれば、得点１を有する認識得点を用いて呼び出される。それは、候補が現在のフィルタの値に一致する確率が乗じられて呼び出された得点と等しい認識得点を返す。
フィルタ・マッチ・ルーチンの機能２６０２乃至２６０６は、単語タイプ・パラメータが定義されたかどうかを確認するために検証を行い、単語タイプ・パラメータが定義された場合、及び、単語候補が定義された単語タイプではない場合、単語候補が明らかに現在のフィルタの値と適合しないことを示す、得点０を用いてフィルタ・マッチ機能から戻る。
機能２６０８乃至２６１４は、現在の値がフィルタ・レンジに対して定義されているかどうかを確認するための検証を行う。現在の値がフィルタ・レンジに対して定義されている場合、及び、現在の単語候補がアルファベット順に、該フィルタ・レンジの開始単語、及び、終了単語の間にある場合、機能２６０８乃至２６１４は、得点の値を変更せずに戻る。それ以外の場合、機能２６０８乃至２６１４は得点の値を０にして戻る。
機能２６１６は、定義されたフィルタ文字列があるかどうかを決定する。定義されたフィルタ文字列が存在する場合、機能２６１６は、機能２６１８乃至２６５３を実行させる。機能２６１８は、現在の候補文字、即ち、以後のループで使用される変数を、フィルタ・マッチが呼び出された単語候補に於ける最初の文字に対して設定する。次に、繰り返しによってフィルタ文字列の終了に至るまで、ループ２６２０が実行される。該ループは、機能２６２２乃至２６５１を含む。
該ループのそれぞれの繰り返しに於ける最初の機能は、フィルタ文字列の次の要素の種類を決定するためのステップ２６２２による検証である。図示された実施形態に於いては、３種類のフィルタ文字列要素、即ち、非曖昧な文字、曖昧な文字、そして、異なる長さであってもよい曖昧な文字の一連の配列を表現する曖昧な要素が認められている。
非曖昧な文字は、アルファベットの文字、又は、空白等、他の文字を一義的に識別する。非曖昧な文字は、任意のアルファベット入力形式の非曖昧な認識によって形成することが出来るが、最も一般には、文字又はＩＣＡ単語認識、キーボード入力、又は、電話への実装に於ける非曖昧な電話キー入力等に関連付けられている。アルファベット入力の任意の認識は、非曖昧な文字の配列として、認識による単一の最高得点綴りの出力を単に受け付けることにより、非曖昧なものとして処理することが可能である。
曖昧な文字は、複数の文字の値を有することが出来るが、１文字分の明確な長さを有する文字である。上述の通り、これは、電話に関する実施形態に於ける、キーへの曖昧な押下、又は、音声又は文字に関する文字認識によって形成可能である。また、それは、全ての最高得点を有する文字の配列が同一の文字の長さを有する音名に関する連続認識によって形成可能である。
一般に、曖昧な長さの要素は、連続音名認識、又は、手書文字認識の出力に関連性がある。それは、手書文字や音声入力に対する多数の最高得点を有する文字の配列を表しており、その幾つかは、異なる長さの配列を有することが可能である。
フィルタ文字列に於ける次の要素が非曖昧な文字の場合、機能２６４４は、機能２６２６乃至２６０６を実行させる。機能２６２６は、現在の候補文字が現在の非曖昧文字に一致するかどうかを確かめるための検証を行う。現在の候補文字が現在の非曖昧文字に一致しない場合、フィルタ・マッチへの呼び出しは、現在の単語候補に対する得点０を用いて戻る。現在の候補文字が、現在の非曖昧文字に一致する場合、機能２６３０は現在の候補文字の地位を上昇させる。
フィルタ文字列に於ける次の要素が曖昧な文字の場合、機能２６３２は機能２６３４乃至２６３６を実行させる。機能２６３４は、現在の文字が曖昧な文字の認識された値の一つに一致しないかどうかを確認するための検証を行う。現在の文字が曖昧な文字の認識された値の一つに一致しない場合、機能２６３６は得点０でフィルタ・マッチへの呼び出しから戻る。現在の文字が曖昧文字の認識された値の一つに一致する場合、機能２６３８乃至２６４２は曖昧な文字が現在の候補文字の値に一致する確率に関する機能として、現在の単語候補の得点を変更し、現在の候補文字の地位を上昇させる。
フィルタ文字列に於ける次の要素が曖昧な長さの要素である場合、機能２６４４は、曖昧な長さの要素によって表現される、それぞれの文字の配列に対してループ２６４６を実行させる。該ループは、機能２６４８乃至２６５２を有する。機能２６４８は、ループ２６４６の現在の文字の配列に一致する現在の候補の文字位置で始まる文字に関して一致する配列が存在するかどうかを確認するために検証を行う。一致する配列が存在する場合、機能２６４９は、曖昧な長さの要素で表現された、認識された一致する配列の確率に関する機能として、単語候補の得点を変更し、その後、機能２６５０は一致する曖昧な長さの要素の配列に於ける文字数によって、現在の候補の文字の現在位置を増加させる。曖昧な長さの要素に関連付けられた文字の配列の何れかと一致する、現在の単語候補の文字位置で始まる文字の配列が存在しない場合、機能２６５１及び２６５２は得点０でフィルタ・マッチへの呼び出しから戻る。
ループ２６２０が完了する場合、現在の単語候補は、フィルタ文字列全体に対して一致したことになる。この場合、機能２６５３は、ループ２６２０によって作り出された現在の単語の得点と共に、フィルタ・マッチから戻る。
ステップ２６１６の検証によって、定義されたフィルタ文字列が存在しないことが判明する場合、ステップ２６５４は現在の単語候補の変更されていない得点を用いて、フィルタ・マッチから戻る。
ここで図２３の機能２３１８を再び参照すると、それぞれの単語候補に対するフィルタ・マッチへの呼び出しは、その候補に対する得点を戻すことが分かる。機能２３２０に於いて、何れの単語候補を削除すべきかを決定する為に使用される得点が存在する。
一旦、こうした削除が行われると、機能２３２２は、削除後に残された以前の認識候補の数、即ち、あるとすれば、機能２３２０の数が、候補の所望数を下回るかどうかを確認するために検証を行う。通常、該所望数は、選択肢リストに於いて使用する選択肢の所望数を表す。以前の認識候補数がそうした所望数を下回る場合、機能２３２４乃至２３２６が実行される。機能２３２４は、図２４及び２５に於いて示された発話リスト２４００に於いて、一つ又は複数の入力のそれぞれに対して音声認識を実行する。機能２３２６及び２３２８に示されているように、該認識プロセスは、発話リストに於いて、連続入力、及び、離散入力の両方があるかどうかを決定する検証を有しており、発話リストに連続入力と離散入力の両方が含まれる場合、一つ又は複数の離散入力で検出された個々の発話の数に相当する数に、連続入力の認識に於ける可能な単語候補の数を制限する。また、図２４及び２５に於いて示された、連続／離散認識表示２４０６によって示されているように、それぞれの受け付け時に効力のあるそれぞれのモードに従って、機能２３２４の認識は、連続認識、又は、離散認識の何れかで発話リストに於けるそれぞれの入力を認識することを含む。また、２３３２で示されているように、それぞれの発話リスト入力の認識は、記述のフィルタ・マッチ・ルーチンを使用すること、及び、それぞれのそうした発話の認識に対する最高得点の受入可能候補に関するリストを選択する際に言語モデルを使用することを含む。フィルタ・マッチ・ルーチンに於いて、発話リストに於ける最新の発話に関する図２４及び２５に示された語彙指標２４０８は、所望の単語の配列が特定の語彙からの一つ又は複数の単語に制限されるユーザによる指示を反映するための単語タイプ・フィルタとして使用される。使用される言語モデルは、例えば、最高得点の候補の選択支援に使用可能な、任意の以前の言語文脈を使用する、バイグラム言語モデルやトリグラム言語モデル等のポリグラム言語モデルである。
発話リストに於ける一つ又は複数の入力に関する認識が実行された後、発話リストに一つ以上の入力が存在する場合、機能２３３４及び２３３６は、異なる認識からの得点の組み合わせに基づいて、発話リストに対する最高得点の認識候補のリストを選択する。当然のことながら、本発明の該特徴に関する幾つかの実施形態に於いて、得点の組み合わせは、一つ以上の発話を使用する認識の有効性を改善するために、異なる発話の認識から使用可能である。
機能２３１４乃至２３３６によって作成された認識候補の数が所望数を下回る場合、及び、非空値のフィルタ文字列、又は、フィルタ・レンジの定義が存在する場合、機能２３３８及び２３４０は、発話リストに於ける最新の入力に関連付けられている語彙、又は、発話リストに入力が存在しない場合に現在の認識語彙から、付加選択の所望数を選択するために、フィルタ・マッチを使用する。
図２３の選択肢獲得ルーチンが機能２３４２に達するまでに、認識、又は、現在の語彙の何れか一方からの候補が存在しない場合、機能２３４４は、選択の所望数まで、選択肢として現在のフィルタ文字列に一致する最高得点の文字の配列を使用する。フィルタ文字列が非曖昧な文字以外、何ら含まない場合、これらの非曖昧文字に一致する単一文字の配列のみが、可能な選択として選択される。しかし、フィルタ文字列に於いて曖昧文字、及び、曖昧な長さの要素が存在する場合には、複数のそうした文字の配列の選択が存在する。そして、曖昧な長さの要素を有する曖昧な文字が、一つ又は複数の文字に関する異なる可能な対応する配列に関連性のある異なる確率を有する場合、機能２３４４によって提供された選択は、図２６の系図の機能２６１６乃至２６０６に於いて示されたものに対応する得点メカニズムによって、相当するように記録される。
選択肢獲得への呼び出しが戻る場合、認識、フィルタに応じた語彙からの選択、又は、可能なフィルタに関するリストからの選択によって提供された４つの選択に関するリストは、通常、戻される。
ここで図２２を再び参照すると、機能２２０２に於いて選択肢獲得が選択肢表示リスト・ルーチンに戻る場合、機能２２０４は、何らかのフィルタが現在の選択に対して定義されるかどうか、現在の選択の発話リストに何らかの発話が追加されたかどうか、そして、選択肢表示リストが呼び出された選択が、ユーザの入力が認識候補として望まれていないことを示す一つ又は複数の単語を含む非選択リストに存在しないかどうかを確認するために検証を行う。
これらの条件が満たされる場合、機能２２０６は、その選択を、ルーチンが形成される訂正ウインドウに於ける表示に対する最初の選択にする。次に、機能２２１０は、非選択リストに含まれる選択肢獲得ルーチンに対する呼び出しによって提供された候補のリストから、その他の候補を取り除く。次に、最初の選択が機能２２０６によって既に選択されなかった場合、機能２２１２は選択肢獲得に対する呼び出しによって戻される最高得点の候補を、その後の訂正ウインドウ表示のための最初の選択にする。単一の最高得点認識候補がない場合、最初の選択となる候補を選択するために、アルファベット順を使用することが出来る。次に、機能２２１８が、あるとすれば、特別表示のために、フィルタ文字列に対応する、最初の選択に関するそれらの文字を選択する。下記に示す通り、好ましい実施形態に於いて、ユーザがフィルタ文字列のどの部分がフィルタ要素のどのタイプに対応するかを評価することが出来るように、非曖昧フィルタに対応する最初の選択に於ける文字が一つの方法で示され、曖昧フィルタに対応する最初の選択に於ける文字は、異なる方法で示される。次に、機能２２２０は、フィルタ文字列に対応しない最初の選択の最初の文字の前に、フィルタ・カーソルを置く。定義されたフィルタ文字列がない場合、カーソルは最初の選択の最初の文字の前に置かれる。
次に、選択肢獲得ルーチンが現在の最初の選択以外の任意の候補を戻した場合、機能２２２２はステップ２２２４乃至２２２８を実行させる。この場合、機能２２２４は、一度に訂正ウインドウにすべて当てはまる最高得点のそうした一連の候補から、第１文字順選択を作成する。さらに認識候補がある場合、機能２２２６及び２２２８は、残りの最高得点候補からのそうした選択すべてに対するスクリーンのプリセット・ナンバーまでの第２文字順選択肢リストを形成する。
これがすべて完了した場合、機能２２３０は、現在の第１選択肢を示す訂正ウインドウと、フィルタにある文字を認める指示と、現在のカーソル・フィルタ位置の指示と、第１選択肢リストとを表示する。現在、定義されたフィルタが存在していないので、図１２に於いて、最初の選択１２０６は第１選択ウインドウに示され、フィルタ・カーソル１２０４は最初の選択の最初の文字の前に示される。
当然のことながら、関連する発話を有さないテキストの選択はもちろん、現在の選択に対しても、表示選択リスト・ルーチンは、空値で呼び出すことが出来る。この場合、選択肢表示リスト・ルーチンは、機能２３３８及び２３４０の実行に基づいて、単語の完成を実行することによって、アルファベット入力に対応する。それは、フィルタリング又は再発話なしに、発話の認識に対して選択肢を選択すること、以前の認識の訂正を支援するために、フィルタリング及び／又は再発話を使用すること、アルファベット・フィルタリング入力に単語の完成を実行することを許可し、必要に応じて、その後に続く発話の入力によってそうしたアルファベット完了プロセスを支援すること、アルファベット・入力とともに、現在の語彙に存在しない単語を綴ること、非曖昧で、文字に関して曖昧で、長さに関して曖昧な形式を含む、アルファベット入力の異なる形式を混合し、適合させることを許可する。
ここで図１４を再び参照すると、入れ替わりに図１２に示された訂正ウインドウ１２００等の訂正ウインドウを表示させる選択肢表示リスト・ルーチンを呼び出すことによって、機能１４３６及び１４３８がどのようにＳＩＰバッファに於ける単語へのタップに対応するかについて説明した。単に単語をタップすることによって、その関連する選択リストと共に訂正ウインドウを表示する能力によって、ユーザが単一の単語エラーを訂正することが可能な迅速で簡便な方法を提供する。
ユーザがＳＩＰバッファに於ける選択をダブルタップする（軽く２度たたく）場合、機能１４４０乃至１４４４は表示される可能性のある現在の訂正ウインドウの何れからも逃れ、現在の選択に関する現在の言語文脈を用いた現在の認識持続モード及び設定に従って、ＳＩＰバッファ認識を開始する。図１８に関して、上述の目的のための押下、又は、クリックの何れかがあったかのように反応するかどうかを決定する際に、認識持続ロジックは、そうしたダブルクリックに関連したキーの押下の持続時間に対応する。そうした認識の出力は、現在の選択に取って代わる。図示されていないが、ユーザがＳＩＰに於ける単語をダブルタップする場合、それは機能１４４４の目的のための現在の選択として扱われる。
ユーザが、例えば、単語の間や、バッファに於けるテキストの前後等、テキストを含まないＳＩＰバッファの何れかの部分に於いてタップした場合、機能１４４６は、機能１４４８乃至１４５２を実行させる。機能１４４８は、タップの位置にカーソルを設ける。ＳＩＰバッファに於けるテキストの最後の後にあるＳＩＰバッファ・ウインドウに於いて、何れかの点にタップが位置された場合、カーソルはそのバッファに於ける最後の単語の後に於かれる。ダブルタップされる場合、機能１４５０、１４５２は、押下又はクリックとして対応されるかどうかを決定するダブルタップの２回目の接触の持続時間を用いて、現在の認識持続モード及び他の設定に応じて、新しいカーソル位置でＳＩＰバッファ認識を開始する。
図１５は、図１３及び１４に関して上述した擬似コードの続きである。
ユーザがＳＩＰバッファに於ける一つ又は複数の単語の部分をドラッグする場合、機能１５０２及び１５０４は、現在の選択として、すべて、又は、部分的にドラッグした単語のすべて、及び、あるとすれば、発話リストに於ける最初の入力等、それらの単語に認識に関連した音響データを用いて、図２２に関して上述した選択肢表示リスト・ルーチンを呼び出す。
ユーザがＳＩＰバッファに於ける個々の単語の最初の部分をドラッグする場合、機能１５０６及び１５０８は、選択としての単語、非選択リストに追加された単語、フィルタ文字列としてドラッグされた単語の最初の部分、発話リストに於ける最初の入力として単語に関連した音響データを用いて、表示選択リスト機能を呼び出す。単語が非選択リストに追加されたという事実によって示されるように、該プログラミングは、ユーザが単語の最初の部分だけをドラッグしたという事実を、単語全体が所望の選択ではないということを示していると解釈する。
ユーザがＳＩＰバッファに於ける個々の単語の最後をドラッグする場合、機能１５１０及び１５１２は、選択としての単語、非選択リストに追加される選択、フィルタ文字列としてドラッグされていない単語の最初の部分、発話リストに於ける最初の入力として選択された単語に関連する音響データを用いて、選択肢表示リスト・ルーチンを呼び出す。
ＳＩＰバッファが一定量以上のテキストを有することが示される場合、機能１５１４及び１５１６はユーザに対してバッファが略一杯である旨の警告を表示する。開示された実施形態に於いては、該警告はユーザに対して、さらなる文字がバッファに追加されると、バッファが自動的に消去されることを通知し、ユーザが、現在バッファにあるテキストが正しければ、トーク、又は、継続を押下することを確認、即ち、バッファを消去するよう求める。
ＳＩＰバッファがテキスト入力を受け付けたことが示される場合、機能１５１８は、ステップ１５２０乃至１５２８を実行させる。機能１５２０は、カーソルが現在ＳＩＰバッファの最後にあるかどうかを確認するために検証を行う。カーソルがバッファの最後にない場合、機能１５２２は、ＳＩＰバッファの最後の文字から、バッファ内の現在のカーソル位置までの距離に相当する、多くのバックスペースをオペレーティング・システムに出力する。次に、機能１５２６は、一つ以上の文字で構成可能なテキスト入力を、現在のカーソル位置で、ＳＩＰバッファに出力させる。ステップ１５２７及び１５２８は、同一のテキストの配列とＳＩＰバッファにある次のテキストをオペレーティング・システムのテキスト入力に出力する。
機能１５２２が、認識されたテキストがＯＳに送られる前に、オペレーティング・システムにバックスペースを入力するという事実はもちろん、機能１５２８が受け付けられたテキストに続く任意のテキストをオペレーティング・システムに入力するという事実によって、以前アプリケーション・ウインドウに供給されたテキストに対応するＳＩＰバッファのテキストに対する何らかの変更が、アプリケーション・ウインドウに於けるそのテキストに対しても実行される。
新しいＳＩＰバッファ・テキスト入力の指示が受け付けられる際に、ＳＩＰプログラムが個別モードにある場合、機能１５３６は、テキスト入力が音声認識に対応して生成されたかどうかを確認するために検証を行う。テキスト入力が音声認識に対応して生成された場合、機能１５３７は認識されたテキストに対して選択肢表示リストを呼び出し、機能１５３８は訂正モードをオフの状態にする。通常、選択肢表示リスト・ルーチンの呼び出しは、システムを訂正モードに切り換えるが、機能１５３８は個別モードが使用されている場合、システムが訂正モードになることを防ぐ。上述の通り、これは、個別モードに於いて、音声認識が単語の発生に対して実行される毎に、訂正ウインドウが自動的に表示されるからであり、従って、比較的高い確率で、ユーザは訂正ウインドウへの入力以外の目的に使用されるＳＩＰインターフェイスの非訂正ウインドウの側面に供給される入力を意図している。訂正ウインドウは、一つ以上の単語を訂正する要求を示す特定のユーザ入力の結果として表示されている一方で、訂正モードは、特定の非訂正ウインドウ入力が訂正ウインドウを対象とするように入力される。
機能１５３９は以下の条件、即ち、ＳＩＰが個別モードの状態にあり、訂正ウインドウが表示されているが、システムは訂正モードの状態にはないという条件が満たされるかどうかを確かめるために検証を行う。これは、通常、個別モードで単語のそれぞれの発話の後に存在する状態である。上述の状況が存在する場合、機能１５４０は、その選択がＳＩＰバッファへテキスト入力として取り込まれるように、訂正ウインドウに於いて最初の選択の認識を確認することによって、上記の図１３、１４、１５に於ける入力の何れかに対応し、一つ以上の後続の単語の認識に対して現在の言語文脈を更新する目的、言語モデルの更新に使用するデータを供給する目的、及び、音響モデルを更新するデータを供給する目的のために、オペレーティング・システムに対応する。これによって、ユーザは個別モードに於ける単語の事前認識を、認識プロセスの促進にも使用することが可能な多くの入力の一つによって確認することが出来る。
当然のことながら、ユーザが個別モードの状態にあり、選択リストに示された単語を訂正する要求を示す入力を生成する場合、ＳＩＰは訂正モードに送られ、該モードの継続中に於いて続く入力は、機能１５４０の動作を引き起こさない。
図１５に於ける機能１５４２は、訂正ウインドウが表示される際に受け付けられた入力に関連する、ＳＩＰプログラムの主要な応答ループの一部分の開始を示す。該部分は、図１５の残り、及び、図１６と１７の全てに及ぶ。
図１２に示された訂正ウインドウのエスケープ・ボタン１２１０が押下される場合、機能１５４４及び１５４６は、現在の選択を変更することなく、ＳＩＰプログラムに訂正ウインドウを終了させる。
図１２に示された訂正ウインドウの削除ボタン１２１２が押下される場合、機能１５４８及び１５５０は、ＳＩＰバッファに於ける現在の選択を削除し、ＳＩＰバッファに於けるそれに対応するアプリケーション・ウインドウの任意のテキストに対して、対応する変更が行われる出力をオペレーティング・システムに送信する。
図１２に示されたニュー・ボタン１２１４が押下される場合、機能１５５２は機能１５５３乃至１５５６を実行させる。機能１５５３は、訂正ウインドウに対応するＳＩＰバッファに於ける現在の選択を削除し、アプリケーション・ウインドウに於けるテキストに対して対応する変更を行うために、オペレーティング・システムに対して出力を送信する。機能１５５４は、通常、大語彙認識モードであり、ユーザが連続認識モード、又は、離散認識モードの何れかに設定することが可能な新しい発話の初期値に認識モードを設定する。機能１５５６は、現在の認識持続モード、及び、他の認識設定を用いて、ＳＩＰバッファ認識を開始する。ＳＩＰバッファ認識は、上述の機能１５１８乃至１５３８の動作に従って、ＳＩＰバッファに入力を供給する認識である。
図１６は、訂正ウインドウの表示中に受け付けられた入力に対して、ＳＩＰプログラムのメイン・ループの応答に関する説明を継続する。
図１２の再発話ボタン１２１６が押下される場合、機能１６０２は機能１６０３乃至１６１０を実行させる。機能１６０３は、ＳＩＰプログラムが訂正モードの状態にない場合、該ＳＩＰプログラムを訂正モードに設定する。この状態が発生するのは、訂正ウインドウが個別モードに於ける個別単語認識の結果として表示され、ユーザが訂正ウインドウに於けるボタン押下、即ち、今回の場合では再発話ボタンの押下によって対応し、訂正目的で訂正ウインドウを使用する意図を示す場合である。次に、機能１６０４は認識モードを再発話認識に関連付けられた現在の認識モードに設定する。機能１６０６は、現在の再発話認識持続モード、及び、語彙など、他の認識設定に従って、一つ以上の発話を受け付ける。次に、機能１６０８は、そうした発話時の語彙モードの指標に加えて、連続認識、又は、離散認識が有効であろうがなかろうが、機能１６０６によって受け付けられた一つ又は複数の発話を訂正ウインドウの選択に対する発話リストに加える。これは、図２４及び２５に示された発話リスト２００４に発話を追加させる。
機能１６１０は、上述の図２２の選択肢表示リスト・ルーチンを呼び出す。その代わりとして、これは、上述の図２３に於いて記載された選択肢獲得機能を呼び出し、機能２３０６乃至２３３６に新しい発話リスト入力を使用する再発話認識を実行させる。
図１２に示されたフィルタ・ボタン１２１８が押下される場合、図１６の機能１６１２は機能１６１３乃至１６２０を実行させる。機能１６０３に関して上記で示されたように、ＳＩＰプログラムが現在訂正モードの状態にない場合には、機能１６１３は訂正モードを入力する。機能１６１４は、現在の入力モードが音声認識モードであるかどうかを確かめるために検証を行い、現在の入力モードが音声認識モードの場合、現在のフィルタ認識持続モード及び設定に従って、機能１６１６にフィルタ認識を開始させる。これにより、そうした認識によって生成された入力は現在のフィルタ文字列のカーソルの対象とされる。一方、現在のフィルタ入力モードが非音声認識入力ウインドウ・モードの状態にある場合、機能１６１８及び１６２０は適切な入力ウインドウを呼び出す。後述するように、示された本発明の実施形態に於いては、これらの非音声入力ウインドウ・モードが、文字認識入力モード、手書文字認識入力モード、及び、キー入力モードに対応する。
ユーザが図１２に示された単語形成ボタン１２２０を押下する場合、ＳＩＰプログラムが現在訂正モードの状態になければ、機能１６２２乃至１６２４は訂正モードを入力させ、現在の最初の選択単語に対して、図２７の単語形成リスト・ルーチンを呼び出す。ユーザが訂正ウインドウの再表示を行う訂正ウインドウに入力を行うまで、現在の最初の選択は、通常、訂正ウインドウが呼び出された選択となる。このことは、ＳＩＰバッファに於ける一つ以上の単語を選択すること、及び、訂正ウインドウに於ける単語形成ボタンを押下することによって、ユーザはそうした選択に対する代替形式のリストを即座に選択することが出来ることを意味する。
図２５は、単語形成リスト・ルーチンの機能を図示している。訂正ウインドウが呼び出され、既に表示されている場合、機能２７０２及び２７０４は、現在の最適な選択を単語形成リストが表示される選択として処理する。現在の選択が一つの単語である場合、機能２７０６は、機能２７０８乃至２７１４を実行させる。現在の選択が同音異義語を有する場合、機能２７０８はそれらを単語形成選択リストの最初に置く。次に、ステップ２７１０は選択された単語の原形を検出し、機能２７１２がその単語に対して代替文法形式のリストを形成する。機能２７１４は、同音異義語の後に、機能２７０８によってリストに追加された可能性のある選択リスト中のすべての文法形式をアルファベット順に順序づける。
一方、選択が複数の単語で構成される場合には、機能２７１６は機能２７１８乃至２７２８を実行させる。機能２７１８は、選択が単語と単語の間にスペース（空白）を有するかどうかを確認するために検証を行う。選択が単語と単語の間にスペースを有する場合、機能２７２０は選択のコピーを単語間にそうしたスペースを有していない選択リストに追加し、機能２２２２は、ハイフンで置き換えられたスペースを有する選択のコピーを追加する。図２７に図示されていないが、ハイフンをスペース、又は、スペースなしで置き換えるために、付加的な機能を実行することが出来る。選択が同一綴り／非綴り変換機能に従う複数要素を有する場合、機能２７２６は、選択のコピー、及び、全ての先立つ選択変換を選択リストに追加する。例えば、これは、一連の数字名を数値に相当する語句に、又は、単語「ｐｅｒｉｏｄ」の再発を、対応する句読点に変換する。次に、機能２７２８はアルファベット順に、選択リストを順序付ける。
選択リストが単一の単語、又は、複数単語の選択の何れかのために作成された時点で、機能２７３０は最初の選択、最初の選択の開始時点のフィルタ・カーソル、スクロール可能な選択肢リスト及びスクロール可能なリストとして、選択を示す訂正ウインドウを表示する。選択が単一の単語である幾つかの実施形態に於いて、この実施形態のフィルタは、すべてのその文法形式で発生する文字の単一の連続を有し、その共通の配列の後、非曖昧なフィルタ文字列として認識された共通の配列と共に、フィルタ・カーソルを置くことが出来る。フィルタ・カーソルは、非曖昧なフィルタ文字列として示された共通の配列と共に、該共通の配列の後にセットすることが出来る。
本発明の幾つかの実施形態に於いて、単語形成リストは任意選択語形式の単一なアルファベット順に順序付けされたリストを提供する。他の実施形態に於いて、オプションは使用頻度の観点で順序付け可能であるか、又は、一度に訂正ウインドウに適合する最も一般的に選択された一連の任意選択形式を含む第１選択肢リスト、及び、それほど頻繁には使用されない単語形式を含む第２リストと共に、アルファベット順に順序付けされた第１及び第２選択肢リストが存在し得る。
下記に於いて説明するように、単語形式リストが、極めて一般的なタイプの音声認識エラー、即ち、最初の選択が所望の単語に関する同音異義語、又は、所望の単語に関する代替文法形式であるエラーを訂正する極めて迅速な方法を提供する。
ユーザが図１２に示された全角ボタン１２２２を押下する場合、システムが現在訂正モードの状態でなければ、機能１６２６乃至１６２８は、訂正モードを入力し、訂正ウインドウの現在の最初の選択に対する全角サイクル機能を呼び出す。全角訂正サイクルによって、最初の文字の全角化のすべてを含まない一つ又は複数の単語の配列は、それぞれの単語の最初の文字が全角化され、最初の文字の全角化のすべてを含む一つ又は複数の単語の配列は、全ての全角形式に変更され、すべての全角形式を有する一つ又は複数の単語の配列は、すべて半角形式に変更される。全角ボタンを繰り返し押下することによって、ユーザは即座にこれらの形式から選択することが可能となる。
ユーザが図１２に示されたが再生ボタン１２２４を選択する場合、機能１６３０及び１６３２によって、訂正ウインドウの関連付けられた選択に関連した発話リストに於ける最初の入力に関する音声再生が行われる。これにより、ユーザは単語の誤って認識された一つ又は複数の単語の配列に関して発話されたことを、正確に聞くことが出来る。図示されていないが、好ましい実施形態によって、ユーザは、訂正ウインドウが最初に表示された際に、自動的にそうした音声が再生される設定を選択することが出来る。
単語追加ボタン１２２６が灰色で表示されていない時に、図１２に図示された該単語追加ボタンが押下される場合、機能１６３４及び１６３６は、ユーザによる現在の最初の選択単語のアクティブ語彙、又は、バックアップ語彙の何れかへの入力を許可するダイアログ・ボックスを呼び出す。ＳＩＰ認識手段に関するこの特定の実施形態に於いて、システムは、大語彙モードを使用する通常の認識中に、認識に使用可能なアクティブ語彙として、すべての語彙の一部を使用する。機能１６３６によって、ユーザは、通常、アクティブ語彙のバックアップ語彙部分にある単語を使用することが出来る。また、それは、アクティブ又はバックアップ語彙の何れかに追加されるために、どちらの語彙にも存在せず、アルファベット入力の使用によって、第１選択肢ウインドウにおいて綴られた単語をユーザが追加することを許可する。当然のことながら、より大規模なハードウェア資源を有する発明に関する他の実施形態に於いては、アクティブ語彙とバックアップ語彙の区別をする必要はない。
最初の選択単語が現在アクティブ語彙の状態にない場合、単語追加ボタン１２２６だけが非灰色の状態にある。これは、ユーザに対して、アクティブ語彙、又は、バックアップ語彙の何れかに最初の選択を追加したいという意図を示す。
ユーザが図１２に示されたチェック・ボタン１２２８を選択する場合、機能１６３８乃至１６４８は、現在の訂正ウインドウを取り除き、ＳＩＰバッファに最初の選択を出力し、アプリケーション・ウインドウに於けるテキストに対応する変更を行うのに必要な一連のキー入力を、オペレーティング・システムに入力する。
ユーザが図１２の訂正ウインドウに示された選択１２３０の一つをタップする場合、機能１６５０乃至１６５３は現在の訂正ウインドウを取り除き、ＳＩＰバッファに選択された選択を出力し、アプリケーション・ウインドウに於ける変更に対応させるために必要な一連のキー入力をオペレーティング・システムに入力する。
ユーザが図１２に図示された選択肢編集ボタン１２３２の一つをタップする場合、機能１６５４は機能１６５６乃至１６５８を実行させる。機能１６５６は、システムがまだ訂正モードの状態になければ、訂正モードに変更する。機能１６５６は、タップされた選択編集ボタンに関連付けられた選択を、最初の選択、及び、現在のフィルタ文字列とし、機能１６５８は新しいフィルタ文字列を備えた選択肢表示リストを呼び出す。下記の通り、これによって、ユーザは現在のフィルタ文字列として、選択単語、又は、単語の配列を選択することができ、通常、所望の単語に一致しない、その最後から任意の文字を削除することによって、そのフィルタ文字列を編集することが出来る。
ユーザが、最初の選択等、選択の一つ又は複数の最初の文字をドラッグする場合、機能１６６４乃至１６６６は、システムが訂正モードの状態にない場合には、訂正モードに変更し、フィルタ文字列として、選択リストに追加されたドラッグされた選択、及び、選択のドラッグされた最初の文字の部分を用いて、選択肢表示リストを呼び出す。こうした機能によって、ユーザは、現在の選択は所望の最初の選択ではなく、現在の選択のドラッグされた最初の文字の部分が所望の選択の発見を支援するためのフィルタとして使用されることを示すことが出来る。
図１７は、ＳＩＰ認識手段が現在のウインドウ入力に対応して作成する機能に関するリストの最後の続きを提供する。
ユーザが、最初の選択など、選択の最後をドラッグする場合、機能１７０２及び１７０４は、システムが現在訂正モードの状態になければ、訂正モードに入り、フィルタ文字列として、非選択リストに追加された、部分的にドラッグされた選択、及び、選択のドラッグされていない最初の文字の部分を用いて、選択肢表示リストを呼び出す。
ユーザが選択リスト中の２つの選択をドラッグする場合、システムが現在訂正モードの状態になければ、機能１７０６乃至１７０８が訂正モードに入り、非選択リストに追加された２つの選択、及び、現在のフィルタ・レンジの定義に於ける開始単語及び終了単語としての２つの選択を用いて、選択肢表示リストを呼び出す。
ユーザが最初の選択に於ける文字間をタップする場合、機能１７１０乃至１７１２は、ＳＩＰが訂正モードになければ、訂正モードに入り、フィルタ・カーソルをタップされた位置に移動する。ユーザがフィルタに対して何ら変更をしていないので、この時点で選択肢表示リストの呼び出しは行われない。
上記に於いて、図１３の機能１３３４に関して説明したように、訂正モードに於いて、ユーザがバックスペース・ボタン１１１６を押下することにより、バックスペースを入力する場合、機能１７１４は機能１７１８乃至１７２０を実行させる。機能１７１８は、バックスペースが入力される場合、図２８及び２９のフィルタ編集ルーチンを呼び出す。
図２８に関して図示するように、フィルタ編集ルーチン２８００は、非曖昧、曖昧、そして／及び曖昧な長さのフィルタ要素の組み合わせを用いてフィルタ編集に於いてユーザに柔軟性を与えるように設計されている。
このルーチンは、機能２８０２、即ち、フィルタ・カーソルの現在位置の前に呼び出される選択に於いて、何らかの文字が存在するかどうかを確認するための検証を有する。何らかの文字が存在する場合、機能２８０２は機能２８０４にルーチンが古いフィルタ文字列として呼び出されたフィルタ文字列を定義させ、機能２８０６は、フィルタ・カーソル、新しいフィルタ・カーソル、及び、非曖昧に定義されたその文字列に於ける全ての文字の前にルーチンが呼び出された選択に於ける文字を作成する。訂正フィルタ文字として自動的に確認される編集の位置のために、これによって、ユーザは第一の選択の部分を定義することが出来る。
次に、機能２８０７は、フィルタ編集が呼び出された入力がバックスペースであるかどうかを確認するために検証を行う。該入力がバックスペースの場合、機能２８０７は機能２８０８乃至２８１２を実行させる。機能２８０８及び２８１０は、フィルタ・カーソルは非選択カーソルである場合、新しいフィルタ文字列の最後の文字を削除する。フィルタ・カーソルが現在の最初の選択肢に於ける一つ又は複数の文字の選択に対応する場合、これらの文字は、既述の機能２８０６の動作によって、既に新しいフィルタに含まれないことになっていた。機能２８１２は、古いフィルタ文字列を消去するが、これは、フィルタ編集への入力がバックスペースの場合、バックスペースの位置の右に先立つフィルタの一部は、フィルタに将来含まれる対象ではないということが前提であるからである。これは、以前、フィルタ・カーソルの位置の右にあったフィルタ文字列に於ける、あらゆる曖昧な要素、及び、非曖昧な要素を削除する。
フィルタ編集ルーチンが呼び出された入力が、一つ以上の非曖昧文字である場合、機能２８１４及び２８１６は新しいフィルタ文字列の最後に、一つ以上の非曖昧な文字を追加する。
フィルタ編集への入力が一つ以上の固定長の曖昧な文字の配列である場合、機能２８１８及び２８２０は、新しいフィルタの最後の配列に、それぞれの曖昧な文字を表す要素を置く。
フィルタ編集ルーチンへの入力が曖昧な長さの要素である場合、機能２８２２は、機能２８２４乃至２８３２を実行させる。機能２８２４は、フィルタの以前の非曖昧な部分に追加される場合、語彙単語の全て、又は、最初の部分に対応する、曖昧な入力に関連付けられた最高得点配列の文字を選択する。この機能が実行された場合、新しいフィルタ文字列の以前の部分の全ては、上述の機能２８０６の動作によって確認されることになることを念頭に置くべきである。次に、機能２８２６は、特定の最低得点以上を超えて、機能２８２４によって選択された何らかの配列が存在するかどうかを確認するための検証を行う。特定の最低得点以上を超える配列が存在する場合、機能２８２４は、語彙に無関係な最高得点文字配列を機能２８２８に選択させる。これが実行されるのは、機能２８２６に於ける検証の条件が満たされる場合、曖昧なフィルタが語彙単語の綴りを読むために使用されていることを示すからである。次に、機能２８３０及び２８３２は、機能２８２４乃至２８２８の動作によって選択された文字配列と、新しい曖昧なフィルタ要素を関連付け、該新しい曖昧なフィルタ要素を、新しいフィルタ文字列の最後に追加する。
次に、ループ２８３４は、古いフィルタ文字列に於けるそれぞれのフィルタ要素に対して実行される。該ループは、図２８の残りに示された機能２８３６乃至２８５０、及び、図２９に示された機能２９００乃至２９２２を含む。
ループ２８３４の現在の古いフィルタ文字列要素が曖昧な場合には、機能２８１４乃至２８２０、機能２８３６、及び、機能２８３８によって新しいフィルタ文字列に追加された新しい固定長の要素を超えて拡大する固定長の要素は、それがそれらの新しい要素を超えて拡大する場合、新しいフィルタ文字列の最後に古い要素を追加する。これが実行されるのは、バックスペース・ボタンの使用以外にフィルタ文字列を編集することで、新しい編集の右の以前のフィルタの一部分に対応する以前入力されたフィルタ情報を消去しないことによる。
ループ２８３４の現在の古い要素が曖昧な場合、機能２８２２乃至２８３２、及び機能２８４０の動作によって新しいフィルタ文字列の最後に追加された新しい曖昧な長さの要素に於ける幾つかの配列を超えて拡大する固定長の要素は、機能２８４２乃至２８５０を実行させる。機能２８４２は、フィルタ文字列に追加された、新しい曖昧な長さの要素によって表されたそれぞれの文字配列に対して、ループを実行する。新しい曖昧な長さの要素の文字配列のそれぞれに対して実行されるループは、ループ２８３４の現在の古い曖昧な固定長の要素に一致するそれぞれの文字配列に対して実行されるループ２８４４を含む。該内部ループ２８４４は、古い要素が新しい要素に於ける現在の配列に一致するかどうか、新しい要素に於ける現在の配列を超えて拡大するかどうかを確認するために検証を行う機能２８４６を有する。古い要素が新しい要素に於ける現在の配列に一致し、該配列を超えて拡大する場合、機能２８４８は、新しい曖昧な長さの要素で表される文字配列のリストに、新しい要素から現在の配列を超えて拡大する古い要素からの配列の部分を加えて、新しい要素からの現在の配列に対応する文字の新しい配列を加える。
現在の古い要素が、新しいフィルタに追加された新しい固定長の要素を超えて拡大する何らかの文字配列を含む曖昧な長さの要素である場合、図２９の機能２９００は、機能２９０２乃至２９１０を実行させる。
機能２９２０は、古い曖昧な長さの要素で表されたそれぞれの配列に対して実行されるループである。それは、古い要素からの現在の配列が新しい固定長の要素に一致し、超えて拡大するかどうかをチェックする検証２９０４で構成される。古い要素からの現在の配列が、新しい固定長の要素に一致し、超えて拡大する場合、機能２９０６は、新しい要素を超えて拡大する古い要素からの拡大部分に対応する新しい文字配列を作り出す。該ループが終了した後、機能２９０８は、新しい配列が機能２９０６によって形成されたかどうかを確認するために検証を行い、新しい配列が機能２９０６によって形成された場合、機能２９１０に、新しい要素の後、新しいフィルタの最後に、その新しい曖昧な長さの要素を追加させる。該新しい曖昧な長さの要素は、機能２９０６によって作り出されたそれぞれの配列の可能性を表す。確率得点は、現在の新しい固定長の要素に一致させるために、ループ２９０２によって検出された、それぞれの文字配列の相対的確率得点に基づいて、それぞれの新しい配列に関連付けられることが望ましい。
現在の古い要素が新しい曖昧な長さの要素に於ける幾つかの文字配列を超えて拡大する、幾つかの文字配列を有する曖昧な長さの要素である場合、機能２９１２は、機能２９１４乃至２９２０を実行させる。機能２９１４は、新しい曖昧な長さの要素に於けるそれぞれの文字配列に対して実行されるループである。それは、古い曖昧な長さの要素に於けるそれぞれの文字配列に対して実行される内部ループ２９１６で構成される。該内部ループは、古い要素からの文字配列が、新しい要素からの文字配列に一致し、超えて拡大するかどうかを確認するために検証を行う機能２９１８及び２９２０で構成される。古い要素からの文字配列が、新しい要素からの文字配列に一致し、超えて拡大する場合、それらは、現在の古い要素文字配列からの拡大部分に加えて、新しい要素からの現在の配列に対応する新しい文字配列を、新しい曖昧な長さの要素に関連付ける。
ループ２８３４に於ける全ての機能が終了した時点で、機能２９２４は、その呼び出しによって作り出された新しいフィルタ文字列と共に、フィルタ編集への呼び出しから戻る
当然のことながら、本発明の様々な特徴に関する多くの実施形態に於いて、異なり、多くの場合、より簡便なフィルタ編集スキームを使用することが出来る。しかし、当然のことながら、図２８及び２９に示されたフィルタ編集スキームの主要な利点の一つは、例えば、ユーザが連続文字認識によって、曖昧なフィルタを即座に入力することができ、そして、さらに信頼性のあるアルファベット入力モード、又は、それ以後の連続文字認識によって、ユーザがそれを編集することが可能であるということである。例えば、該スキームによって、連続文字認識によって入力されたフィルタは、離散文字認識、ＩＣＡ単語認識、手書文字認識からの入力によって、全体、又は、部分的に置換することが出来る。該スキームに基づいて、ユーザがフィルタ文字列の前の方の部分を編集する際に、フィルタ文字列の後ろの方の部分に含まれた情報は、示された実施形態に於いては、バックスペース文字の使用によるそうした意図をユーザが示さない限り、無効化されない。
ここで図１７に戻り、機能１７１８に於けるフィルタ編集への呼び出しが戻る場合、機能１７２４は、フィルタ・編集への呼び出しによって戻された新しいフィルタ文字列と共に、選択のために、選択肢表示リストを呼び出す。
フィルタリング入力が受け付けられる場合は、常に、図１６の機能１６１２に関して上述のフィルタ・キーの押下に対応して実行される認識の結果と、その他の手段の何れかによって、機能１７２２乃至１７３８が実行される。
機能１７２４は、システムが個別認識の状態にあるかどうか、及び、フィルタ・入力が音声認識によって提供されたかどうかを確認するために検証を行う。システムが個別認識の状態にあり、フィルタ入力が音声認識によって提供された場合、機能１７２４は、機能１７２６乃至１７３０を実行される。機能１７２６は、例えば図３９に示されたウインドウ３９０６等のフィルタ文字選択肢ウインドウが現在表示されているかどうかを確認するために検証を行う。フィルタ文字選択肢ウインドウが現在表示されている場合、機能１７２８は該フィルタ選択肢ウインドウを閉じ、機能１７３０は、入力として最初の選択肢フィルタ文字と共に、フィルタ・編集を呼び出す。これにより、フィルタ文字列に於ける全ての以前の文字が非曖昧に定義されたフィルタ配列として処理される。機能１７２６の検証結果に関わらず、機能１７３２は、機能１７２２及びそれ以下に記載されている機能を引き起こす新しいフィルタ入力に対して、フィルタ編集を呼び出す。そして、機能１７３４は、現在の選択、及び、新しいフィルタ文字列に対して選択肢表示リストを呼び出す。そして、システムが個別モードの状態にある場合、機能１７３６及び１７３８は、フィルタ編集によって戻されたフィルタ文字列、及び、選択されたフィルタ文字として、新たに認識されたフィルタ入力文字と共に、フィルタ文字選択肢ルーチンを呼び出す。
図３０は、フィルタ文字選択肢サブルーチン３０００の動作を図示している。フィルタ文字選択肢サブルーチン３０００は機能３００２を有しており、該機能３００２は、該ルーチンが呼び出された選択されたフィルタ文字が、それに関連した複数の最高の選択肢文字を有する現在のフィルタ文字列に於いて、曖昧な文字か、非曖昧な文字の何れかに対応するかどうかを確認するために検証を行う。フィルタ文字が曖昧な文字か、非曖昧な文字の何れかに対応する場合、機能３００４は文字に関連付けられたすべての文字に対応するフィルタ文字選択肢リストを設定する。文字数が一度にフィルタ文字選択肢リストに適合する数を超える場合、該選択肢リストはユーザがそうした付加的な文字を視認することが出来るスクロール・ボタンを有することが出来る。ユーザが、より迅速に所望の文字を読み取ることが容易になるように、アルファベット順で選択肢が表示されることが望ましい。また、図３０のフィルタ文字選択肢ルーチンは、機能３００６を有しており、該機能３００６は、選択されたフィルタ文字が現在のフィルタ文字列に於いて曖昧な長さのフィルタ文字列要素の文字に対応するかどうかを確認するための検証を行う。選択されたフィルタ文字が曖昧な長さのフィルタ文字列要素に対応する場合、機能３００６は機能３００８乃至３０１４を実行させる。機能３００８は、選択されたフィルタ文字が曖昧な長さの要素の最初の文字であるかどうかを確認するために検証を行う。選択されたフィルタ文字が曖昧な長さの要素の最初の文字である場合、機能３０１０は文字配列に関連付けられた任意の曖昧な要素に於いて、すべての最初の文字に対応するフィルタ文字選択肢リストを設定する。
選択されたフィルタ文字が曖昧な長さの要素の最初の文字に一致しない場合、機能３０１２及び３０１４は、現在の最初の選択肢に於ける選択されたフィルタ文字に於けるように、同一文字によって前に置かれた曖昧な要素によって表された任意の文字配列に於いて、すべての文字に対応するフィルタ文字選択肢リストを設定する。機能３００２乃至３００４か、機能３００６乃至３０１４の何れかの機能がフィルタ文字選択肢リストを作成した時点で、機能３０１６は、例えば図３９に示されたウインドウ３９０６等のウインドウに於ける選択肢リストを表示する。
フィルタ文字選択肢ウインドウに於けるキャラクタ文字選択肢の使用によって、ＳＩＰプログラムが選択を受け付ける場合、機能１７４０は機能１７４２乃至１７４６を実行させる。機能１７４２は、そうした選択がなされたフィルタ選択肢ウインドウを閉じる。機能１７４４は、新しい入力としてフィルタ選択肢ウインドウで選択された文字と共に、現在のフィルタ文字列に対してフィルタ編集機能を呼び出す。機能１７４６は、フィルタ編集によって戻された新しいフィルタ文字列と共に選択肢表示リスト・ルーチンを呼び出す。
図４５の訂正ウインドウ４５２６及び４５３８で示されたタイプのフィルタ文字列に於ける文字から上向きにドラッグされる場合、機能１７４７は機能１７４８乃至１７５０を実行させる。機能１７４８はドラッグされた文字に対してフィルタ文字選択肢ルーチンを呼び出す。該ルーチンは、その文字に関連付けられたその他の文字選択肢が存在しない場合、フィルタ文字選択肢ウインドウを生成させる。該ウインドウに於けるフィルタ選択肢文字を超えてドラッグが解除される場合、機能１７４９は解除が行われたフィルタ文字選択肢の選択を生成する。したがって、機能１７４９は、既述の機能１７４０乃至１７４６の動作を行う。フィルタ文字選択肢ウインドウに於ける選択肢以外でドラッグが解除される場合、機能１７５０はフィルタ選択肢ウインドウを閉じる。
機能１６０２及び１６１０に関して上述されているように、例えば、訂正モード中に大語彙ボタン、又は、氏名語彙ボタンを押下すること等、再発話ボタンの押下以外の方法で再発話が受け付けられる場合、図１３及び１４の機能１３５０、１３５６、１４１４、及び１４１６のそれぞれに関して上述されているように、図１７の機能１７５２は機能１７５４及び１７５６を実行させる。機能１７５４は、訂正ウインドウの選択発話リストに、あらゆるそうした新しい発話を追加し、機能１７５６は新しい発話を使用する再認識を実行するための選択に対して選択肢表示リスト・ルーチンを呼び出す。
ここで図３１乃至４１を再び参照すると、テキスト配列を作成するために上述のユーザ・インターフェイスをどのように使用することが出来るのかについて説明する。この特定の配列に於いて、該インターフェイスは個別モードの状態、即ち、離散発話が認識される毎に表示される選択肢リストと共に、訂正ウインドウを表示する離散認識モードの状態にあるものとして説明される。
図３１に於いて、数字３１００は、新しい言語文脈に於けるディクテーションを開始するためにユーザがトーク・ボタン１１０２をタップすることを示すＰＤＡ画面の画面写真を指し示す。大語彙ボタン１１３２の強調表示で示されているように、ＳＩＰ認識手段は大語彙モードの状態にある。連続／離散ボタン１１３４に於けるそれぞれのドットの配列は、認識手段が離散認識モードの状態にあることを示す。ＳＩＰは、図１８の数字１８１０乃至１８１６に関して上述された、発話認識持続の最後への押下クリック・モードの状態にあると想定される。結果として、トーク・ボタンのクリックによって、次の発話の最後まで認識が行われる。数字３１０２は単語「ｔｈｉｓ」に関するユーザの発話を表す。数字３１０４は、ＳＩＰテキスト・ウインドウ１１０４に認識されたテキスト３１０６をセットし、該テキストをアプリケーション・ウインドウ１１０６に出力し、最初の選択ウインドウ１２０２、及び、最初の選択肢リスト１２０８に認識された単語を含む訂正ウインドウ１２００を表示することによる該発話への対応後に於けるＰＤＡの画面の画像を指し示す。
図３１の例では、数字３１０８で示されているように、ユーザは大文字使用ボタン１２２２をタップする。これにより、ＰＤＡの画面はＳＩＰバッファに於ける現在の最初の選択肢とテキスト出力、及び、アプリケーション・ウインドウが頭文字の大文字表記を有するように変化される、３１１０で示された状態となる。
この例では、数字３１０２で示されているように、ユーザは継続ボタン１１０４をクリックし、数字３１１４で示されているように、単語「ｉｓ」を発話する。この例では、該発話が、ＰＤＡの画面が数字３１１６で示された状態、即ち、最初の選択肢３１１８及び、その認識１２０８の為の新しい選択肢リストとして、新しい訂正ウインドウ１２００が誤って認識された単語を有した状態で表示される状態となる「ｉｔｓ」として、誤って認識されることを想定している。
図３２はこの例の続きを表しており、ここでは、数字３２０２で示された画像に於ける選択肢単語３２００、即ち、「ｉｓ」をクリックする。これにより、ＰＤＡの画面は、数字３２０４で示された状態、即ち、訂正ウインドウが取り除かれ、ＳＩＰバッファ・ウインドウ、及び、アプリケーション・ウインドウに訂正されたテキストが現れる状態となる。
数字３２０６で示された画面写真に於いて、ユーザが、ボタン１１３０の強調表示によって示されているように、現在の認識モードを音名語彙に変更する音名語彙ボタン１１３０をタップすることを示す。機能１４１０乃至１４１２に関して上述しているように、このボタンのタップは、現在の認識持続モードに従って、音声認識を開始する。これにより、システムは数字３２０８で示されているように、音名「ｅ」に関する次の発話を認識する。
認識の誤りを即座に訂正するための現在のインターフェイスの能力を強調するために、発話３２０８に対応して、個別モードで示される訂正ウインドウによって示されているように、この例は、システムがこの文字を文字「ｐ」３２１１として誤って認識することを想定している。しかし、３２１０で示された訂正ウインドウから分かる通り、訂正文字「ｅ」は、訂正ウインドウで示された選択肢の一つである。数字３２１４で示された訂正ウインドウに関する図では、ユーザは、ＰＤＡの画面が、数字３２１６で示された状態、即ち、訂正文字がＳＩＰバッファ及びアプリケーション・ウインドウに入力される状態となる選択肢３２１２をタップする。
図３３はこの例の続きを図示しており、ここでは、ボタン１１，０２４で示された画面写真に於いて示されているように、ユーザが句読点語彙ボタン１１，０２４をタップする。これは、数字３３００によって示された単語「ｐｅｒｉｏｄ」の発話を引き起こす発話認識を開始し、該発話認識は、３３０４で示された訂正、即ち、句読点記号「．」がユーザによる認識をより簡単にするための句読点記号名に続く最初の選択肢ウインドウに於いて示される訂正を生み出すために、強調表示の数字３３０２で示されているように、認識語彙を句読点語彙に変更する。
この例では、これは訂正認識であるので、画面写真の数字３３０６で示されているように、ボタン１１３０の押下、及び、文字「ｌ」に関する発話３３０８を言うことによって、ユーザはそれを確認し、音名語彙を使用する新しい発話の認識を開始する。ＰＤＡの画面が数字３３１２で示された状態となるまで、ピリオドが続く文字を入力する該プロセスが継続される。この点で、画面写真３３１４で示されているように、テキストが選択され、図３４の左上隅付近の画面写真３４００に於ける訂正ウインドウ１２００が表示されるテキスト「ｅ．ｌ．ｖ．ｉ．ｓ」をユーザがドラッグすることを想定している。選択されたテキスト文字列が現在語彙にないことが想定されているので、この選択肢リストに表示される代替選択肢は存在しない。３４０２で示された訂正ウインドウの図に於いて、ユーザは、図２７に関して上述された単語形式リスト・ルーチンを呼び出す単語形式ボタン１２２０をタップする。選択されたテキスト文字列はスペース（空白）を含むので、それは機能２７１６乃至２７２８で図示された図２７に示されたルーチンの一部を実行させる複数単語選択として処理される。これは、スペース（空白）が訂正ウインドウの選択から取り除かれた選択肢３４０６を含む、例えば３４０４で示された選択肢リストを有する。この例では、ユーザは最も近い選択肢３４０６に隣接する編集ボタン１２３２をタップする。数字３４１０で示された訂正ウインドウの図に示されているように、これにより、３４１２で示された訂正ウインドウの図で示されているように、選択肢３４０６は最初の選択肢として選択される。訂正ウインドウが画面写真３４１４に於いて示された状態である時点で、最初の選択肢がすべて大文字になるまで、ユーザは大文字使用ボタン１２２２をタップする。この時点で、３４１６で示されているように、ユーザは句読点語彙ボタン１１２４をクリックし、３４１８で示された発話「ｃｏｍｍａ」を発話する。この例では、この発話が正しく認識され、数字３４２０によって示された訂正ウインドウ１２００を表示し、前出の最初の選択肢「ｅ．ｌ．ｖ．ｉ．ｓ」をテキストとして出力させることを想定している。
図３５はこの例の続きである。図３５に於いて、ユーザは数字３５００で示されているように、大語彙ボタンをクリックし、発話「ｔｈｅ」３５０２を言うことが想定される。これにより、訂正ウインドウ３５０４が表示される。ユーザは、３５０６によって示されているように、大語彙ボタンを再び押下することによる認識を確認することによって対応し、３５０８によって示された発話「ｅｍｂｅｄｄｅｄ」を発話する。この例では、これによって訂正ウインドウ３５１０が表示され、該訂正ウインドウ３５１０に於いて、発話が単語「ｉｍｂｅｄｄｅｄ」として誤って認識され、所望の単語が最初の選択肢リストに示されない。この時点から開始され、コメント３５１２に示されているように、複数の異なる訂正オプションが図示される。
図３６は誤った認識に関連する第１及び第２選択肢リストをスクロールする訂正オプションを図示している。３６０４で示された訂正ウインドウの図に於いて、訂正ウインドウのスクロール・バー３６０２に於けるページ下スクロール・ボタン３６００をタップすることが示されたユーザによって、訂正ウインドウ３６０６の図に於いて示されているように、第１選択肢リスト３６０３は第２選択肢リスト３６０５の最初の画面によって置換される。この図からわかるように、訂正ウインドウのスライド・バー３６０８は、第１選択リストの最後に関連したスクロール・バーの位置を規定する水平バー３６０９の下に移動した。この例では、所望の単語は図３６０６に示されたアルファベット順の第２選択肢リストの部分に存在しないので、ユーザは３６１０によって示されているように、スクロール・バーのページ下ボタンを押下する。これにより、訂正ウインドウは該状態に於いて、アルファベット順に掲載された選択肢の新しい画面が示された図３６１２で示された状態となる。この例では、所望の単語「ｅｍｂｅｄｄｅｄ」は３６１６で示されているように、選択肢リストに示される。この例では、３６１８で示された訂正ウインドウの図に示されているように、ユーザはこの所望の選択肢に関連した、この選択肢ボタン３６１９をクリックする。これにより、訂正ウインドウは、この選択肢が第１選択肢ウインドウに表示される、３６２０で示された図の状態となる。この例では、数字３６２２で示されているように、ユーザは、画面写真３６２４で示されているように、この第１選択肢の最初の文字が大文字化される大文字入力ボタンをタップする。
したがって、ＳＩＰユーザ・インターフェイスは、ユーザが比較的多くの認識選択肢の中から選択することが可能な迅速な方法を提供することがわかる。図示された実施形態では、第１選択肢リストは、６個の選択肢で構成され、第２選択肢リストは最高１８個の追加の選択肢に関する最大３つの追加の画面を有することが可能である。選択肢がアルファベット順に配列され、４つの画面すべてを１秒未満で見ることが出来るので、ユーザは極めて迅速に、最大２４個の選択肢の中から選択することが可能である。
図１６の機能１６６４乃至１６６６に関して上述したように、図３７は選択肢の最初の部分をドラッグすることにより、選択肢をフィルタリングする方法を図示している。この図の例では、第１選択肢リストは３７００で示された訂正ウインドウの図で示された選択肢３７０２を含むことを想定しており、それには所望の単語「ｅｍｂｅｄｄｅｄ」の最初の６文字が含まれる。訂正ウインドウ３７０４に図示されているように、ユーザはこれらの最初の６文字をドラッグし、システムは、画面写真３７０６に表示されているように、最初の６文字に対応する非曖昧なフィルタから始まる認識候補に限定された新しい訂正ウインドウを表示することによって対応する。この画面写真では、所望の単語は第１の選択肢であり、ボックス３７０８で示されているように、第１の選択肢に関して非曖昧に確認された最初の６文字は強調表示で示され、フィルタ・カーソル３７１０もまた図示される。
図３８は、図１７の機能１７０６乃至１７０８に関して上述された選択肢リストに於いて２個の選択肢をドラッグすることによって選択肢をフィルタリングする方法を図示している。この例では、２個の表示された数字３８０２及び３８０４の間にアルファベット順で所望の選択肢「ｅｍｂｅｄｄｅｄ」が存在する場合に、訂正ウインドウ３８００は所望の選択肢「ｅｍｂｅｄｄｅｄ」を表示する。図３８０６に示されているように、ユーザはこれら２つの遷択肢をドラッグすることによって、所望の単語がアルファベットに関するこの範囲に収まることを示す。これにより訂正ウインドウが表示され、該訂正ウインドウに於いては、画面写真３８０８で示されているように、使用可能な選択肢がアルファベットの選択された範囲で生じる単語に限られる。この例では、第１の選択肢、及び、３８０６に示された選択によるフィルタリングの結果として、所望の単語が選択されることが想定されている。この画面写真では、図３８０６で選択された２つの選択肢の最初の部分を形成する第１の選択肢の部分が、フィルタ文字列３８１０の非曖昧に確認された部分として示されており、フィルタ・カーソル３８１２が確認されたフィルタ部分の後にセットされる。
図３９は、所望の単語の選択肢を選択支援する個別モードでアルファベットのフィルタリングが使用される方法を図示している。この例では、訂正ウインドウ図３９００で示されているように、ユーザはフィルタ・ボタンを押下する。デフォルトのフィルタ語彙は音名語彙であることが想定されている。フィルタ・ボタンの押下によって、次の発話に対する音声認識が開始され、ユーザは３９０２に示されているように、文字「ｅ」を発声する。これにより、訂正ウインドウ３９０４が表示され、該訂正ウインドウ３９０４に於いては、フィルタ文字が「ｐ」と誤って認識されたことを想定している。示された実施形態に於いては、個別モードでアルファベット入力も認識用に表示された選択肢リストを有する。この場合、それは図３０のフィルタ文字選択肢サブルーチンに関して上述されたタイプのフィルタ文字選択肢リスト・ウインドウ３９０６である。この例では、図３９０８に示されているように、ユーザは新しい訂正ウインドウ３９００が表示される所望のフィルタリング文字、即ち、文字「ｅ」を選択する。この例では、ユーザは図３９１２に示されているように、フィルタ・ボタンを再び押下することによって、追加のフィルタリング文字を入力することを決定する。これにより、フィルタ文字選択肢ウインドウ３９１８を表示する訂正ウインドウ３９１６が表示される。該訂正ウインドウに於いて、フィルタリング文字は正しく認識されており、ユーザは追加のフィルタリング文字を話すこと、又は、ウインドウ３９１６に示されているように、訂正文字を選択することの何れかによって、それを確認することが出来た。所望のフィルタリング文字の確認によって、非曖昧に確認されたフィルタの文字列として、フィルタ歪み「ｅｍ」と共に新しい訂正ウインドウが表示される。画面写真３９２０で示された例では、これによって所望の単語が認識される。
図４０は、アルファブラボ、ＩＣＡ単語、アルファベットの綴りを用いたアルファベットのフィルタリング方法を図示している。画面写真４０００に於いて、ユーザはアルファブラボ・ボタン１１２８をタップする。図１４の機能１４０２乃至１４０８によって上述されているように、これはアルファベットをＩＣＡ単語アルファベットに変更する。この例では、ダブルクリックによるアルファ表示変数が設定されていないということが想定されている。したがって、図１４の機能１４０６は、アルファブラボ・ボタン１１２８の押下中に画面写真４００４で示されたＩＣＡ単語４００２のリストを表示する。この例では、４００８、及び、文字「ｍ」を表す第２のＩＣＡ単語「Ｍｉｋｅ」の発話で示されているように、ユーザは、アルファブラボ・キーによる第２の押下に続く、文字「ｅ」を表すＩＣＡ単語「ｅｃｈｏ」を入力する。この例では、これら２個のアルファベット・フィルタリング文字の入力によって、所望の文字「ｅｍ」で構成された非曖昧なフィルタ文字列の作成に成功し、所望の単語「ｅｍｂｅｄｄｅｄ」の認識を実現する。
図４１は、ユーザがフィルタとして選択肢の部分を選択し、システムの語彙に存在しない一連の単語、即ち、この場合、まとめられた単語「ｅｍｂｅｄｄｅｄ」を完成させるために、アルファブラボ綴りを使用する方法を図示している。
この例では、一つの選択肢４１００を含み、所望の単語の最初の６文字を含む、訂正ウインドウ４１００がユーザに提示される。訂正ウインドウ４１０４に示されているように、ユーザは、それらの文字が現在のフィルタ文字列の非曖昧に確認された文字となるこれら最初の６文字をドラッグする。これは訂正ウインドウ４１０６に結実する。画面写真４１０８は、ユーザがフィルタ・ボタン１２１８からドラッグし、離散／連続ボタン１１３４で解除する該訂正ウインドウの表示を示しており、画面写真４１０８で示されたボタンに実線で示されているように、それを離散フィルタ・ディクテーション・モードから連続フィルタ・ディクテーション・モードに変更する。画面写真４１１０に於いて、ユーザは再びアルファ・ボタンを押下し、下記のＩＣＡ単語、「Ｅｃｈｏ，Ｄｅｌｔａ，Ｓｉｅｒｒａ，Ｔａｎｇｏ」を含む発話を発声する。これにより、現在のフィルタ文字列が所望の単語の綴りに対応させられる。このフィルタ文字列と一致する語彙に単語が存在しないので、訂正ウインドウ４１１４で示されているように、フィルタ文字列そのものは、第一の選択肢となる。４１１６で示されたこのウインドウの図に於いて、ユーザは第一の選択肢の選択を示すためにチェック・ボタンをタップし、ＰＤＡの画面は４１０８で示された状態となる。
図４２乃至４４は、連続音声のディクテーション、認識、及び訂正について実例を説明している。画面写真４２００に於いて、ユーザは、図１３の機能１３１０乃至１３１４に関して上述したクリア・ボタン１１１２をクリックする。これにより、画面写真４２０４によって示されているように、アプリケーション・ウインドウ１１０６に於いて、対応するテキストと関連する変更を生じることなく、ＳＩＰバッファ１１０４に於けるテキストがクリアされる。画面写真４２０４に於いて、ユーザは、画面写真４２０４で示され実線を実行するために、画面写真４００２に於けるドットの配列によって、ボタンに示された離散認識から変更される連続／離散ボタン１１３４をクリックする。これにより、現在の認識持続モードに従って、音声認識が開始され、数字４２０６で示されているように、ユーザは以下の単語「ｌａｒｇｅｖｏｃａｂｕｌａｒｙｉｎｔｅｒｆａｃｅｓｙｓｔｅｍｆｒｏｍｖｏｉｃｅｓｉｇｎａｌｔｅｃｈｎｏｌｏｇｉｅｓｐｅｒｉｏｄ」の連続発話を発声する。画面写真４２０８に示されているように、システムは、この発話を認識し、認識されたテキストをＳＩＰバッファ１１０４にセットし、オペレーティング・システムを介して、アプリケーション・ウインドウ１１０６に対応する。認識されたテキストは、一度にＳＩＰウインドウ内に適合するよりも僅かに多いので、ユーザは数字４２１０で示されているようにＳＩＰウインドウに於いてスクロールを行い、図１４の機能１４３６乃至１４３８にその単語を選択させ、それに対する訂正ウインドウを生成させるために、単語「ｖｏｃａｂｕｌａｒｉｅｓ」４２１４をタップする。それに応じて、訂正ウインドウ４２１６が表示される。この例では、所望の単語「ｖｏｃａｂｕｌａｒｙ」４２１８は訂正ウインドウの選択肢リストに存在し、訂正ウインドウ４２２０の図では、ユーザがこの単語が選択されるように、該単語をタップし、これにより、アプリケーション・ウインドウに於けるＳＩＰバッファの両方に於ける単語「ｖｏｃａｂｕｒａｌｙ」がその選択された単語に置換される。
ここで、図４３に於ける説明を続けると、この訂正は画面写真４３００によって示される。この例では、図４３０２で示されているように、ユーザは４個の間違った単語「ｅｎｔｅｒｆａｃｅｓｍｅｎｒｕｍ」をドラッグすることによって、該単語を選択する。これにより、図４３０４によって示されているように、機能１５０２及び１５０４は、選択肢としてドラッグされた単語を用いて選択肢ウインドウを表示する。
図４４は、図４３の下部に示された訂正ウインドウが、訂正ウインドウの水平及び垂直スクロールの組み合わせ、及びそれに表示された選択肢によって、如何にして訂正することが出来るかを図示している。数字４４００は、図４３の４３０４に示された同一の訂正ウインドウの図を指し示している。訂正ウインドウに於いて、スクロール・バー４６０２だけでなく、この図に於ける水平スクロール・バー４４０２も表示される。ユーザは、垂直スクロール・バーに於けるページ下ボタン３００６をタップすることが示され、これにより、表示された選択肢リストの部分は、図４４００に示された１ページの第１アルファベット順選択肢リストの表示から、図４４０４に示された第２のアルファベット順選択肢リストの第１ページに移動される。この例では、第２選択肢リストのこの部分に於ける認識候補の内、「ｉｎｔｅｒｆａｃｅｓｙｓｔｅｍｆｒｏｍ」という所望の認識出力と一致する文字配列で始まるものはない。したがって、数字４４０８で示されているように、ユーザは再びページ下スクロール・ボタン３６００をタップする。これにより、訂正ウインドウは４４１０で示された状態、即ち、表示された選択肢４４１２の２つが所望の認識出力に一致する文字配列から始まる状態となる。これらの認識候補が所望の出力に一致したかどうかを確認するために、ユーザは４４１４に示されているように、水平スクロール・バー４４０２に於いて、同類の単語をスクロールする。これにより、ユーザは選択肢４４１８が所望の出力に一致するかどうかを確認することが出来る。４４２０で示されているように、ユーザはこの選択肢をタップし、画面写真４４２２に示されているように、ＳＩＰウインドウ１１０４及びアプリケーション・ウインドウ１１０６の両方に於いて、ディクテーションされたテキストに該選択肢が挿入される。
図４５は、連続して発話された音名の認識によって形成され、フィルタ文字選択肢ウインドウで編集された曖昧なフィルタの使用が、如何にして間違ったディクテーションを迅速に訂正することが出来るかを図示している。この例では、ユーザは４５００で示されているように、トーク・ボタン１１０２を押下し、４５０２で示されているように、単語「ｔｒｏｕｂｌｅ」を発話する。この例では、４５０４で示されているように、該発話が単語「ｔｒｅｂｌｅ」として誤って認識されることを想定している。この例では、ユーザは４５０６で示されているように、単語「ｔｒｅｂｌｅ」をタップし、これにより、４５０８で示された訂正ウインドウが表示される。所望の単語は選択肢の何れかとして示されていないので、ユーザは４５１０で示されているように、フィルタ・ボタン１２１８を覆って、所望の単語「ｔｒｏｕｂｌｅ」に於けるそれぞれの文字のネームを含む連続発話４５１２を形成する。この例では、フィルタ認識モードは連続音名認識を盛り込むためにセットされることが想定されている。
この例では、システムはリスト４５１８を表示することで、発話４５１２の認識に対応する。この例では、この発話の認識の結果によって、一つの曖昧な長さの要素で構成されるフィルタ歪みが形成されることが想定されている。機能２６４４乃至２６５２に関して上述したように、曖昧な長さのフィルタ要素は、文字配列の対応箇所に、曖昧な要素で表された文字配列の一つを含む任意の認識候補を許容する。訂正ウインドウ４５１８に於いて、曖昧なフィルタ要素に対応する第１選択肢単語４５１９の一部分は、曖昧なフィルタ・インジケータ４５２０で示されている。フィルタは曖昧な要素を使用するので、表示された選択肢リストは、曖昧な要素で表された適合する文字配列に対応する最初の選択肢の一部分よりも短い長さの文字配列など、異なる最初の文字配列で始まる最高得点の認識候補を有する。
この例では、ユーザは第１選択肢の第１文字から上方向にドラッグし、これにより、図１７に関して上述した、機能１７４７乃至１７５０の動作を生じさせる。これにより、フィルタ選択肢ウインドウ４５２６が表示される。訂正ウインドウ４５２４に示されているように、ユーザは最初の所望の文字、即ち、文字「ｔ」までドラッグし、機能１７４９、及び、機能１７４０乃至１７４６が実行される位置で、該ドラッグを解除する。これらによって、フィルタ選択肢ウインドウが閉じられ、非曖昧な訂正として、選択された文字と共に以前の曖昧なフィルタ要素に追加されたフィルタが呼び出され、４５２８で示されているように、新しいフィルタと共に、新しい訂正ウインドウが表示される。この訂正ウインドウに示されているように、第１選択肢４５３０は、第１文字「ｔ」に対する非曖昧なフィルタ・インジケータ４５３２、及び、残りの文字に対する曖昧なフィルタ・インジケータ４５３４と共に表示される。次に、４５３６で示された同一の訂正ウインドウの図で示されているように、ユーザは新しい第１選択肢の５番目の文字「ｐ」から上方向にドラッグし、新しい訂正ウインドウ４５３８が表示される。その文字と第１選択肢に於いて先行する全ての文字が、現在のフィルタ歪みで非曖昧に定義される文字「ｐ」へのドラッグを、ユーザが解除する時、これは、第１選択肢４５４２が所望の単語である選択の結果として表示される、新しい訂正ウインドウ４５２０に示され、フィルタの非曖昧な部分は、非曖昧なフィルタ・インジケータ４５４４、及び、図２９に示されているように、機能２９００乃至２９１０の動作によってフィルタ文字列に残っている、曖昧なフィルタ要素の残りの部分によって示される。
図４６は、ウインドウズＣＥのオペレーティング・システムと共に標準規格となる文字認識手段に類似した文字認識手段を使用することにより、ＳＩＰ認識手段によってユーザがテキスト及びフイルタリング情報を入力可能になることを図示している。
この図の画面写真４６００に於いて示されているように、ユーザが図１４の機能キーの機能１４２８及び１４３０から上方向にドラッグする場合、パンチ及びメニュー４６０２が表示され、ユーザがメニューの文字認識入力４６０４を解除する場合、図４７で説明された文字認識モードがオンの状態になる。
図４７に示されているように、これにより、機能４７０２は図４６に示された文字認識ウインドウ４６０８を表示し、ユーザが機能メニュー４６０２に於ける他の入力オプションを選択することによって、ウインドウを終了するために選択するまで繰り返される入力ループ４７０４を入力する。このループの状態にある場合、ユーザが文字認識ウインドウを接触すると、動きを記録するそうした接触、即ち、あるとすれば、文字認識ウインドウに一致する画面のタッチ・スクリーンの一部分の表面への接触が継続する間、機能４９０６は「ｉｎｋ」を記録する。ユーザがこのウインドウに於いて接触を解除する場合、機能４７０８乃至４７１４が実行される。機能４７１０は、現在ウインドウにある「ｉｎｋ」の文字認識を実行する。図４６に於ける数字４６１０によって示されているように、機能４７１２は文字認識ウインドウをクリアする。そして、機能４７０８は、対応する認識された文字をＳＩＰバッファおよびオペレーティング・システムに供給する。
図４８は、画面写真４６００に示された機能メニューにおいて手書文字認識オプションをユーザが選択する場合、画面写真４８０２に示されているように、手書文字認識入力ウインドウ４００８がＳＩＰに関連して表示されることを図示している。
手書文字モードの動作は、図４９に図示されている。手書文字モードが入力されると、機能４９０２は手書文字認識ウインドウを表示し、ユーザが他の入力オプションを使用することを選択するまで、ループ４９０３が入力される。このループでは、図４８に示された削除ボタン４８０４以外の任意の場所で、ユーザが手書文字認識ウインドウに接触すると、あるとすれば接触中であるが、機能４９０４によって、動きが「ｉｎｋ」として記録される。図４８に示された記録ボタン領域４８０６をユーザが接触すると、機能４９０５は機能４９０６乃至４９１０を実行させる。機能４９０６は、手書文字認識ウインドウに以前入力された任意の「ｉｎｋ」に関して手書文字認識を実行する。機能４９０８は認識された出力をＳＩＰバッファおよびオペレーティング・システムに供給し、機能４９１０は認識ウインドウをクリアする。ユーザが図４８に示された削除ボタン４８０４を押下する場合、機能４９１２および４９１４は任意の「ｉｎｋ」に関する認識ウインドウをクリアする。
当然のことながら、認識ボタン４８０６を使用することで、ユーザは、システムに以前手書文字認識にあった「ｉｎｋ」を認識するよう指示すること、および、認識される新しい単語の書き込みを開始することが可能となる。
図５０は、機能メニューから選択することが可能なキーパッド５０００を示している。
音声認識ＳＩＰの一部として即座に使用可能な文字認識、手書文字認識、及びキーパッド入力方法は、一秒足らずでユーザに現時点で最も便利なものに依存するこれらの異なるモードを交互に切り換えさせるので、極めて有利である場合が多い。そして、それにより、これらのモードすべての出力をＳＩＰバッファにおける編集テキストで使用することができる。
図５１に示されたように、ＳＩＰバッファの一つの実施形態において、ユーザがフィルタ・ボタン１２１８から上方向にドラッグする場合、ウインドウ５１００は、ユーザに任意のフィルタ入力モード・オプションを提供する画面である。これらは、音名音声認識、アルファブラボ音声認識、文字認識、手書文字認識、および、キーボード・ウインドウを使用するオプションを有する。また、それによって、ユーザは、任意の音声認識モードが離散型であるか連続型であるか、及び、音名認識文字認識及び手書文字認識入力がフィルタ文字列に於いて曖昧なものとして処理されるかどうか、を選択することが可能である。このユーザ・インターフェイスによって、ユーザは現時点、及び、現地点に適切なフィルタ入力モードを即座に選択することが可能である。例えば、発話することで他人の感情を害するのではないかと心配する必要のない静かな場所では、多くの場合、連続音名認識は非常に有用である。しかし、雑音が多く存在し、発話することで近くにいる人の感情を害することはないだろうとユーザが感じる場所では、アルファブラボ認識はさらに適切である可能性がある。発話によって他人の感情を害する可能性のある図書館のような場所では、文字認識、手書文字認識、キーボード入力等の消音フィルタ入力モードはより適切である可能性がある。
図５２は、認識をフィルタ処理するために、文字認識を如何にして選択することが出来るかに関する例を説明している。５２００は訂正ウインドウの一部分を示しており、該ウインドウに於いて、ユーザはフィルタ・ボタンを押下し、上方向にドラッグしており、これにより図５１に示されたフイルタ入力モード・メニュー５１００が表示され、その後、文字認識オプションを選択している。画面写真５２０２に於いて示されているように、これにより、文字認識入力ウインドウ４６０８が、ユーザが訂正ウインドウ全体を視認することが可能な位置に表示される。画面写真５２０２では、ユーザが文字「ｅ」を描いており、その文字の描画からスタイラスを解除した際に、文字「ｅ」がフィルタ文字列に入力され、訂正ウインドウ５２０４がこの例に表示される。５２０６で示されているように、ユーザは文字認識ウインドウに文字「ｍ」を追加入力し、この文字の描画からスタイラスを解除すると、５２０８で示されているように、文字「ｍ」の認識によって、フィルタ文字列が「ｅ」を含む。
図５３は画面写真５３００の一部分から始まるが、ここでは、フィルタ入力モード・メニューの表示を行うために、ユーザがタップし、フィルタ・キー１２１８から上方向にドラッグし、そして、手書文字オプションを選択している。これは、訂正ウインドウの表示を遮断しない位置に表示された手書文字入力ウインドウ４８００と共に、５３０２のような画面を表示する。画面写真５３０２では、ユーザは連続型の筆記体で文字「ｅｍｂｅｄ」を筆記し、そうした文字の認識にために、記録ボタンに接触しようとしている。ユーザがそのボタンをタップした時点で、訂正ウインドウ５３０６によって示されているように、曖昧なフィルタ・インジケータ５３０４によって示された曖昧なフィルタ文字列が、認識された文字に対応する第１選択肢ウインドウに表示される。図５４は、アルファベット・フィルタリング情報を入力するために、ユーザが如何にしてキーパッド・ウインドウ５０００を使用することが出来るのかを図示している。
図５５は、手書文字認識を訂正するために音声認識を如何にして使用することが出来るかを図示している。画面写真５５００は、ＳＩＰバッファ・ウインドウ１１０４にテキストを入力するための位置に表示された手書文字入力ウインドウ４８００を示している。この画面写真では、ユーザは単語をちょうど書き終えたところである。数字５５０２乃至５５１０は、追加の５つの単語の手書文字を示している。これらの図のそれぞれに於ける単語は、以前書かれた単語の認識を行うために、記録ボタンを押下することによって開始される。数字５５１２は、手書文字認識ウインドウを指し示しており、ここで、最後の手書文字の単語「ｓｐｅｅｃｈ」の認識を行うために、ユーザは記録ボタンへの最後のタップを行う。図５５の例では、一連の手書文字が認識された後に、アプリケーション・ウインドウ１１０６に於けるＳＩＰバッファ・ウインドウ１１０４は、５５１６で示された画面写真５５１４に図示された状態を有していた。ユーザは、誤って認識された単語「ｓｎａｃｋｓｈｏｗｅｒ」をドラッグする。これにより、訂正ウインドウ５５１８が閉じされる。この例では、ユーザは再発話ボタン１２１６をタップし、離散的に所望の単語「ｍｕｃｈ・・・ｓｌｏｗｅｒ」を再発話する。図２３に関して上述した「ｇｅｔ」選択肢機能を僅かに修正した機能の動作によって、この例の場合では、数字５５２２で示されているように、所望の単語である、最高得点認識候補を選択するため、数字５５０４及び５５０６によって指し示された入力に於ける手書文字「ＲＥＣ」を結合することからの認識結果と、発話５５２０の認識からの認識得点が、これによって結合される。
当然のことながら、５５１６で示されているように、選択された手書文字出力を置換するために、音声認識の出力を発話５５２０が使用した場合、再追加ボタンの代わりに、訂正ウインドウ５５１８に於ける新しいボタンを押下することが可能であった。
図５６に示されているように、訂正ウインドウ５５１８に於ける再発話ボタンの代わりに、フィルタ・ボタン１２１８をユーザが押下した場合、図５５の５５１６で選択された２つの単語の手書文字認識をアルファベット順にフィルタするために、図５６に於いて示された発話５６００等、周知の単語に音声認識を使用することが可能であった。
図５７は、離散音声認識、及び、連続音声認識からそれぞれ選択するために、２つの個別の最高レベル・ボタン５７０２及び５７０４が存在する、ＳＩＰ音声認識インターフェイスの代替実施形態５７００を図示している。それはボタンが音声認識手段のユーザ・インターフェイスの最高レベルで提供される設計上の選択であることが望ましい。しかし、さらに迅速で自然な連続音声認識と、さらに信頼出来るが、さらに不完全で遅い離散音声認識を即座に切り換える能力は、極めて望ましいものになり得る能力であり、実施形態によっては、離散認識と連続認識の選択に対する個別の最高レベル・キーの割り当てを正当化している。
図２２のルーチンによって形成された２つのアルファベット順の選択肢リストというよりは、単一のスクロール可能な得点順選択肢リストを形成していることを除いて、図５８は図２２に示された表示選択肢リスト・ルーチンの代替実施形態を示している。機能２２２６及び２２２８も図５８に示されたルーチンのバージョンで削除されたという事実に関する例外を用いて、図２２に含まれた言語と異なる言語の部分だけに下線が引かれる。
図６７乃至７４は、開示された携帯電話音声認識エディタの様々なモードやメニューで使用される機能に対する、基本的な電話番号キーパッドの様々なマッピングを示している。編集モードに於ける主要な番号付与された電話キー・マッピングが図６７に図示されている。図６８は、編集モードの状態で、ユーザが一つのキーを押下した場合に選択される入力モード・メニューの電話キー部分を示している。入力モード・メニューは、システムで使用可能な様々なテキスト及びアルファベット入力モードから選択するために使用される。図６９は、ユーザが表示された訂正ウインドウを有する際に、数字電話キーパッドで使用可能な機能を図示しており、キー「２」を押下することで編集モードから実行可能である。図７０は、図６７に図示された編集モードから、キー「３」を押下することによって選択される編集メニューから使用可能な、数字電話キー・コマンドを図示している。このメニューは、電話キーパッドのナビゲーション・キーを押下することにより実行されるナビゲーション機能を変更するために使用される。図７１は、キー「３」の押下によって訂正ウインドウで使用可能なナビゲーション・オプションを表示する、幾分似た訂正ナビゲーション・メニューを図示している。訂正ウインドウの状態でナビゲーション・モードを変更することに加え、それにより、ユーザは選択肢が選択される際に実行される機能を変更することが出来る。
図７２は、キー・アルファ・モードに於ける数字電話キー・マッピングを図示している。それに関連した文字を有する電話キーを押下することによって、押下されたキーに関連した一連の文字の内、所望の文字に関連したＩＣＡ単語を発話するようユーザに要求するプロンプトが携帯電話画面に表示させる。このモードは、図６８に示された入力モード・メニューの状態で、電話キー「３」をダブルクリックすることによって選択される。
図７３は基本的なキー・メニューを示しており、このキー・メニューによって、ユーザは最も一般的な一連の句読点と、テキスト編集で使用される機能キーから即座に選択することができ、キー「１」を押下することによって、あまり一般的に使用されない句読点記号の選択を可能にするメニューを視認することが出来る。基本的なキー・メニューは、図６７に図示されているエディタ・モードに於いて「９」を押下することによって選択される。図７４は、編集オプション・メニューを示しており、該メニューは図６７に於いて示されているエディタに「０」を押下することによって選択される。これは、他のモードやメニューで使用することが出来ないエディタの使用に関連した基本的なタスクをユーザが実行することが可能なメニューを有する。
メニューやコマンド・リストが表示された場合に、携帯電話画面の一番上に表示されるタイトル・バーは、図６７乃至７４に於いて示されたそれぞれの数字電話キー・マッピングの一番上にある。これらの図から分かるように、図６８、７０、７１，７３、７４が「ＭＥＮＵ」で始まるタイトルを有している一方で、図６７，６９、７２では、表示されたオプションがコマンド・リストの一部であることを示す文字「Ｃｍｄｓ」と共にタイトル・バーが図示されている。これは、図６７、６９、７２に於いて示されたコマンド・リストと、これらの図の他の部分に示されたメニューとの区別を示すために使用される。コマンド・リストは、そのコマンド・リストが表示されない場合でさえ、一つのモードで使用可能なコマンドを表示する。６７のコマンド・リストに関連したエディタ・モードや、図７２に関連するキー・アルファ・モードの状態で、電話キーがこれらの図で示される機能マッピングを有しているとしても、通常、テキスト・エディタ・モードは表示される。通常、図６９に於いて示されるコマンド・リストに関連した訂正ウインドウ・モードの状態では、訂正ウインドウは携帯電話画面に表示される。これら全てのモードに於いて、図７５の数字７５００で示されているように、ユーザはメニュー・ボタンを押下するだけで、図７５に図示されているように、現在の電話キー・マッピングを確認するために、コマンド・リストにアクセスすることが可能である。図７５に於いて示された例では、表示画面７５０２は、メニュー・ボタンを押下する前に、エディタ・モードのウインドウを表示する。ユーザがメニュー・ボタンを押下する場合、７５０４で示されているように、エディタ・コマンド・リストの第１ページが表示され、そして、ユーザは、数字電話キーでマッピングされたコマンドだけでなく、７５０８、及び、画面７５１０で示されているような、ナビゲーション・キー「ＯＫ」と「メニュー」はもちろんのこと、画面７５０６に於いて示されているような、メニュー「トーク」及び「メニュー」を用いてマッピングされたコマンドをも確認するために、コマンド・リストに於いて上方向、又は、下方向にスクロールするオプションを有し、コマンド・リストが入力される時点で、現在のモードに関連した追加オプションがある場合、強調表示７５１２をスクロールし、ＯＫキーを使用することによって、コマンド・リストからそれらを選択することが出来る。図７５に於いて示された例では、一般的な電話送受機の形状を有する通話インジケータ７５１４が、ユーザに対して、携帯電話が現在通話状態にあることを示すそれぞれのタイトル・バーの左側に表示される。この場合、検出されたセルのマイクを消音し、電話での会話に関してユーザ側からの音声のみを録音し、電話での会話に関してユーザ側に対してのみ再生することをユーザが即座に選択可能なエディタに於いて、特別機能が使用可能である。
図７６乃至７８は、図６７及び７５に示された単なるコマンド・リストに比して、より詳細なエディタ・モードの機能に関する擬似コードの記述を示している。この擬似コードは、エディタが様々なユーザ入力に対応する一つの入力ループ７６０２として表されている。
一つのナビゲーション・キーを押下すること、又は、対応するナビゲーション・コマンドを発話することの何れかにより、ユーザが数字７６０３によって示されたナビゲーション・コマンドの一つを入力する場合、図７６で示されているように、それに基づいて発明された機能が実行される。
これらは、エディタが現在、単語／ライン・ナビゲーション・モードの状態にあるかどうかを確認するための検証を行う機能７６０４を有する。これはエディタに於けるナビゲーションの最も一般的なモードであり、エディタからキー「３」を２回押下することで、即座に選択することが出来る。第１の押下により、図７０に示されたナビゲーション・モード・メニューが選択され、第２の押下により、そのメニューから単語／ライン・ナビゲーション・モードが選択される。エディタが単語／ライン・モード機能７６０６の状態にある場合、機能７６０６乃至７６２４が実行される。
ナビゲーション入力が単語左コマンド、又は、単語右コマンドである場合、機能７６０６によって、機能７６０８乃至７６１７が実行される。機能７６０８及び７６１０は、拡大された選択がオンの状態にあるかどうかを確認するために検証を行い、オンの状態にあれば、機能７６０８及び７６１０はカーソルを左右何れかに一単語分だけ移動させ、以前の選択をその単語まで拡大する。拡大された選択がオンの状態でない場合、機能７６１２によって機能７６１４乃至７６１７が実行される。機能７６１４及び７６１５は、以前の入力が、現在のコマンドと異なる指示の単語左／右コマンドであったかどうか、又は、現在のコマンドがテキストの前後にカーソルをセットするかどうか、の何れかを確認するために検証を行う。これらの条件の何れかが満たされる場合、カーソルは以前選択された単語から左右何れかにセットされ、以前選択された単語は選択されない。機能７６１４の検証に於ける条件が満たされない場合、機能７６１７は現在一から左右何れか一単語分カーソルを移動させ、現在の選択に移動されや単語を形成する。
機能７６１２乃至７６１７の動作によって、単語左ナビゲーション及び単語右ナビゲーションは、ユーザによる一単語分のカーソル移動だけでなく、必要に応じて、移動毎に現在の単語を選択可能にさせる。また、それによって、ユーザは選択された単語に対応するカーソルと、以前選択された単語の前後何れかに挿入位置を表すカーソルを即座に切り換えることが出来る。
ユーザがライン上コマンドか、ライン下コマンドを入力した場合、機能７６２０はカーソルを現在のカーソル位置から上下何れかのライン上の最も近くにある単語に移動させ、拡大された選択がオンの状態であれば、機能７６２４はその新しい現在の単語を介して現在の選択を拡大する。
また、数字７６２６で示されているように、他のエディタが図７０に於いて示される編集ナビゲーション・メニューから選択可能な他のナビゲーション・モードの状態にある場合、エディタはナビゲーション入力に対応するためのプログラミングを有する。
ユーザがボタンの押下、又は、ボイス・コマンドの使用の何れかによって「ＯＫ」を選択する場合、機能７６３０は、例えばウェッブ・ドキュメントやダイアログ・ボックスの領域にテキストを入力する等、他のプログラムにテキストを入力するために、エディタが呼び出されたかどうかを確認するための検証を行い、エディタが呼び出された場合、機能７６３２はそのプログラムに於ける現在のテキスト入力位置で、他のプログラムにエディタの現在の文脈を入力し戻る。検証７６３０の条件が満たされない場合、機能７６３４はエディタを終了し、現在の内容及び状態を後で使用する場合に備えて保存する。
エディタの状態で、ユーザがメニュー・ボタンを押下する場合、機能７６３８は、図７５に関して上述したように、コマンド・リストがエディタに対して表示されるエディタ・コマンドに対する表示メニュー・ルーチンを呼び出す。上述の通り、これにより、ユーザは１、２秒でエディタ・モードに対する全ての現在のコマンド・マッピングをスクロールすることが出来る。エディタの状態で、ユーザがメニュー・ボタンをダブルクリックする場合、エディタに対するコマンド・リストを表示し、エディタのコマンド・語彙に認識語彙をセットし、ダブルクリックの最後の押下を使用した音声認識に対して認識の持続期間を決定することを命じるために、機能７６４２乃至７６４６は表示メニューを呼び出す。
ユーザがメニュー・キーの押下を維持する場合、機能７６５０はエディタに対してヘルプ・モードを入力する。ヘルプ・モードは、エディタ・モードの機能に関して即座に説明を行い、キーの押下と、押下されたそれぞれのキーの結果として、到達したエディタの階層コマンド構造の一部に対して提供される簡単な説明を有することによって、ユーザがエディタの階層コマンド構造を探索することが出来る。
エディタの状態で、ユーザがトーク・ボタンを押下する場合、機能７６５４は、語彙及び認識持続モードなど、現在の認識設定に応じて、認識をオンの状態にする。多くの場合、トーク・ボタンは、携帯電話に関する実施形態に於いて音声認識の開始に使用される主要なボタンとして使用される。
ユーザがエンド・ボタンを選択する場合、機能７６５８は、例えば早く電話をかける、又は、電話に出る等の電話モードに進む。通話の終了時にユーザが現在の状態に戻ることが出来るように、それはエディタの現在の状態を保存する。
図７７に示されているように、ユーザが図６８に図示された入力モード・メニューを選択する場合、機能７７０２はそのメニューを表示させる。後述のさらに詳細な説明の通り、このメニューによって、ユーザはディクテーション・モードからＰＤＡに関する実施形態の図１１に於いて示されたボタン１１２２乃至１１３４として、幾分早く選択することが出来る。示された実施形態では、トーク・キーに対してキー「１」が接近しているので、入力モード・メニューはキー「１」に関連付けられていた。これにより、ユーザはディクテーション・モードを即座に切り換えることができ、トーク・ボタンを使用したディクテーションを継続することが出来る。
ユーザが選択肢リストを選択する場合、機能７７０６及び７７０８は、訂正ウインドウ・ナビゲーション・モードを、認識候補選択肢のスクロール及び選択に最適なページ／アイテム・ナビゲーション・モードに設定する。そして、機能７７０６及び７７０８は、現在の選択に対して、携帯電話の画面に表示される図１２に示された訂正ウインドウ１２００に幾分類似した訂正ウインドウを生じる訂正ウインドウ・ルーチンを呼び出すことが出来る。現在カーソルが存在しない場合、訂正ウインドウは選択なしで呼び出される。この場合、それは、アルファベット入力、単語の完了、及び／又は、さらなる発話の追加を有する一つ以上の単語を選択するために使用することが出来る。訂正ウインドウ・ルーチンについては下記に於いて詳細に説明する。
ユーザが、例えばキー「２」をダブルクリックすることによって、「フィルタ選択肢」を選択する場合、機能７７１２乃至７７１６は、第１選択肢、又は、フィルタ文字列に於いてナビゲートするために使用される単語／文字モードに、訂正ウインドウ・ナビゲーション・モードを設定する。そして、機能７７１２乃至７７１６は、訂正ウインドウ・ルーチンを現在の選択のために呼び出し、一つが入力された場合、ダブルクリックの２回目の押下を、認識を持続させるための音声キーとして処理する。
殆どの携帯電話では、通常、キー「２」はナビゲーション・キーの直下に配置される。これにより、ユーザは、エディタに於いて訂正が必要な、一つ又は複数の所望の単語にナビゲートすることができ、そして、選択に対する代替選択肢を備えた訂正ウインドウを視認するために、隣接したキー「２」を１回押下するか、もしくは、キー「２」をダブルクリックし、直ちに認識手段による訂正モードの選択を支援するためにフィルタリング情報の入力を開始することが出来る。
ユーザが図７０に示されたナビゲーション・モード・メニューを選択する場合、機能７７２０によってそれが表示される。下記に於いて詳細に記載する通り、この機能によって、ユーザは、左右及び上下のナビゲーション・ボタンを押下することで成し遂げられるナビゲーションを変更することが出来る。そうした切り換えをより簡単に行うために、ナビゲーション・ボタンは、数字が付与された電話キーの最上段に設置されている。
ユーザが離散認識入力を選択する場合、機能７７２４は、現在の認識持続設定として持続モードを発声し送信するために、押下及びクリックを使用して、現在の語彙に応じて離散認識をオンの状態にする。ユーザがボタン「１」を押下することによって望む時はいつでも、離散発話認識に即座に変更することが出来るように、このボタンは設けられている。上述の通り、離散認識は、連続認識に比して不完全ではあるが、どちらかと言えばかなり正確である。このコマンド・キーの位置は、トーク・ボタン及び入力モード・メニュー・ボタンの近傍に設置するよう選択されている。離散認識キーが使用可能であるので、通常、トーク・ボタンにマッピングされた認識モードは、連続型となる。そうした設定によって、ユーザはトーク・ボタン及びキー「４」の押下を変更することで、連続認識と離散認識を切り換えることが出来る。
キー「５」を切り換えることによって、ユーザが選択「開始」又は選択「中止」を選択する場合、そのモードが現在オン又はオフであるかによって、機能７７２８は拡大された選択のオン及びオフを切り換える。その後、機能７７３０は、拡大された選択がオフの状態に切り替えられたところかどうかを確認するために検証を行い、オフの状態に切り替えられた場合には、機能７７３２が、あるとすれば現在のカーソルで、それ以外の任意の以前の選択を非選択状態にする。説明された実施形態では、ナビゲーション・コントロール、及び、訂正ウインドウを提示するために使用されるキー「２」に近いことから、キー「５」が拡大された選択コマンドに対して選択された。
ユーザが、例えばキー「５」をダブルクリックすることによって、全選択コマンドを選択する場合、機能７７３６は現在の文書中のすべてのテキストを選択する。
ユーザがキー「６」、又は、再生開始、再生停止、又は、記録停止を含むことの出来る、任意の現在アクティブな状態の関連したコマンドを選択する場合、機能７７４０はシステムが現在音声を再生していないかを確認するために検証を行う。システムが音声を再生していない場合、機能７７４２は音声再生モードと音声がオフの状態でのモードを切り換える。システムが音声を再生している場合、機能７７４２は音声再生モードと音声再生がオフの状態でのモードとを切り換える。携帯電話が通話中であり、図７５に示された「当方のみ再生」オプション７５１３がオフ・モードに設定された場合、機能７７４６は電話回線で再生から電話の会話の他方だけでなく、スピーカ又は携帯電話自体のヘッドフォンに音声を送信する。
一方、ボタン「６」が押下される際に、システムが音声を記録している場合、機能７７５０は記録をオフの状態に切り換える。
ユーザがキー「６」をダブルクリックする場合、又は、記録コマンドを入力する場合、機能７７５４は音声録音をオンの状態に切り換える。その後、機能７７５６は、システムが現在通話の状態にあるかどうか、及び、図７５で示された「当方のみ録音設定」７５１１がオフの状態にあるかどうかを確認するために検証をする。これらの状態にある場合、７７５８は電話回線の他方からの音声と同様に、電話のマイク又はマイク入力ジャックからの音声を記録する。
ユーザがキー「７」を押下する場合、又は、そうでなければ、大文字化されたメニュー・コマンドを選択する場合、すべての後に続く入力されたテキストが、全て小文字、全て頭文字が大文字、全て大文字の内、何れかの状態になるモードから選択するための選択肢をユーザに与える大文字化されたメニューを機能７７６２が表示する。また、それによって、ユーザが一つ又は複数の現在選択された単語を、あるとすれば、全て半角、全て最初の文字が全角、又は、全て全角形式に変更することを選択することが出来る。
ユーザがキー「７」をダブルクリックする場合、又は、そうでなければ、全角サイクル・キーを選択する場合、現在の選択を、あるとすれば、全て最初の文字を全角、全て全角、又は全て半角に変更するために、全角サイクル・キーを１回又は複数回数呼び出すことが出来る。
ユーザがキー「８」を押下する場合、又は、そうでなければ、単語形式リストを選択する場合、機能７７７０は図２７に関して上述された単語形式リスト・ルーチンを呼び出す。
ユーザがキー「８」をダブルクリックする場合、又は、単語タイプ・コマンドを選択する場合、７７７４は単語タイプ・メニューを表示する。単語タイプ・メニューによって、ユーザは、選択された単語に対して図２６のフィルタ・マッチ・ルーチンに関して上述したように、単語タイプ限定を選択することが出来る。示された実施形態では、このメニューによって、単語の終了タイプ、単語の開始タイプ、単語の時制タイプ、音声の単語部分のタイプ、例えば、所有格又は非所有格、単数主格又は複数主格、単数動詞又は複数動詞、綴り又は非綴り、及び、存在するとすれば、同音異義語、などの他の単語タイプをユーザが特定することが出来る。図９１に示された一般的名形式を有する階層メニューである。
図７８に示されているように、ユーザがキー「９」を押下する場合、又は、基本キーのメニュー・コマンドを選択する場合、機能７８０２は、句読点記号の一つに関する入力、又は、テキスト入力としてそのメニューから選択可能な入力文字を、ユーザが選択可能な図７３に示された基本キーのメニューを表示する。
ユーザがキー「９」をダブルクリックする場合、又は、改行コマンドを選択する場合、機能７８０６は改行文字をエディタのテキストに入力する。
ユーザがキー「＊」又はエスケープ・コマンドを選択する場合、機能７８１０乃至７８２４が実行される。機能７８１０は、エディタが他のプログラムでテキストを入力又は編集するために呼び出されたかどうかを確認するための検証を行い、この場合、機能７８１２はそのプログラムへの挿入に対する編集されたテキストを用いて、その呼び出しから、エディタに戻る。エディタがそうした目的のために呼び出されなかった場合、機能７８２０はユーザにエディタから出る選択肢を用いて促し、その内容の保存、及び／又は、エスケープのキャンセルをする。ユーザがエスケープすることを選択する場合、機能７８２２及び７８２４は図６３に関して上述された電話モードの最高レベルまでエスケープする。ユーザがキー「＊」をダブルクリックする場合、又は、タスク・リスト機能を選択する場合、機能７８２８は、殆どの携帯電話、オペレーティング・モード、及びメニューに於いて、そうしたダブルクリックが行うように、タスク・リストに移動する。
ユーザがキー「０」を押下する場合、又は、編集・オプション・メニュー・コマンドを選択する場合、機能７８３２は図７４に関して簡単に上述した編集されたオプション・メニューである。ユーザがキー「０」をダブルクリックする場合、又は、取り消しコマンドを選択する場合、機能７８３６はあるとすれば、エディタに於ける最後のコマンドを取り消す。
ユーザがキー「＃」を押下する場合、又は、バックスペース・コマンドを選択する場合、機能７８４０は現在の選択があるかどうかを確認するために検証を行う。現在の選択がある場合、機能７８４２はそれを削除する。現在の選択が存在せず、現在の最小のナビゲーション・ユニットが文字、単語、アウトライン・アイテムである場合、機能７８４６及び７８４８は、その最小の現在のナビゲーション・ユニットによって、後方に削除する。
図７９及び８０は、図６８に関して上述された入力モード・メニューによって提供されているようなオプションについて説明している。
このメニューの状態で、ユーザがキー「１」を押下する場合、そうでなければ、大語彙認識を選択する場合、機能７９０６乃至７９１４が実行される。これらは、認識語彙を大語彙に設定する。それらは、キー「１」の押下を、認識持続目的に対する音声キーとして処理する。また、それらは、訂正ウインドウが表示されているかどうかを確認するための検証を行う。訂正ウインドウが表示されている場合、訂正ウインドウに於いてユーザがより適切な離散認識を望むという想定に基づいて、それらは認識モードを離散認識に設定する。それらは、任意の新しい発話、又は、このモードで受け付けられた発話を上述のタイプの発話リストに追加し、受け付けられた任意の再発話のための新しい訂正ウインドウを表示するために、図２２の選択肢リスト・ルーチンを画面に呼び出す。
示された携帯電話の実施形態では、キー「１」は入力モード・メニューに於ける大語彙のために選択された。これは、それが最も一般的な認識語彙であるからであり、したがって、ユーザがエディタからキー「１」を２回クリックすることによって、それを簡単に選択する。第１クリックによって、入力モード・メニューが選択され、第２クリックによって、大語彙認識が選択される。
入力モード時に、ユーザがキー「２」を押下する場合、システムは上述のタイプの音名認識にセットされる。ユーザが訂正ウインドウの状態にある時点で、入力モード・メニューが表示された時、ユーザがそのキーをダブルクリックする場合、機能７９２６は、認識語彙を音名語彙に設定し、その認識の出力は曖昧なフィルタとして処理されるものであることを示す。好ましい実施形態では、メニューのキー「９」に関連した、入力優先オプションに基づいて、ユーザはそうしたフィルタが曖昧な長さのフィルタとして処理されるかどうかを示すことが出来る。デフォルト設定によって、そうした認識は連続音名認識に於ける曖昧な長さのフィルタ、及び、離散音名認識に対応して固定の長さの曖昧なフィルタとして処理される。
ユーザによるキー「３」の押下時に於いて、認識はアルファブラボ・モードに設定される。ユーザがキー「３」をダブルクリックする場合、図７２に関して簡単に上述されているように、認識がキー「アルファ」モードに設定される。数字キー「２」乃至「９」の一つを押下することによって、ユーザが押下されたキーに於ける文字に関連するＩＣＡ単語の一つを促され、比較的極端な雑音のある状態でさえも、極めて信頼できるアルファベット入力を提供するために、限られた一連のＩＣＡ単語からの一つの単語を認識が支持することを除いて、このモードはアルファブラボ・モードに類似している。
ユーザがキー「４」を押下する場合、語彙が数字語彙に変更される。ユーザがキー「４」をダブルクリックする場合、システムは、エディタ・テキストに対応する数字を入力することによって、数字付与された電話キーの押下に対応する。
ユーザがキー「５」を押下する場合、認識語彙は句読点語彙に限定される。
ユーザがキー「６」を押下する場合、認識語彙は上述の連絡氏名語彙に限定される。
図８６は、図７２に関して有る程度上述した、キー・アルファ・モードについて説明している。図８６に示されている通り、この記号が入力される場合、ナビゲーション・モードが通常、アルファベット入力に関連した単語／文字ナビゲーショ・モードにセットされる。その後、機能８６０４は、その下にリストアップされたキーを、それぞれのそうしたキーで識別された機能を用いてオーバーレイする。このモードでは、トーク・キーの押下によって、現在の認識設定に対してアルファブラボ語彙を有する認識をオンの状態にし、現在の認識持続設定に応じて、キー押下に対応する。キー「１」は、ユーザがキー・アルファ・モードを終了するために、それを押下することが出来るように、入力編集モードとして継続して動作する。数字が割り当てられた電話キー「２」乃至「９」を押下することによって、機能８６１８乃至８６２４が、そうした押下中に実行され、電話キーの文字に対応するＩＣＡ単語のプロンプトが表示される。これにより、認識は、３つ又は４つのＩＣＡ単語の一つに関する認識を相当指示する。それは、押下の持続時間に対して認識をオンの状態にし、認識されたＩＣＡ単語に対応する文字をエディタのテキスト（エディタ・モードの場合）、又は、フィルタ文字列（フィルタ編集モードの場合）の何れかに出力する。
ユーザがゼロ・ボタンを押下する場合、ユーザがゼロ・ボタンを押下する場合、任意のキーに関連する一連の文字の一つで始まりる全ての句読点記号に関するスクロール可能なリストを表示することによって、機能８６２８は、関連する文字を有する任意の電話キーの押下に対応し、句読点単語の一つに関する認識を指示するキー句読点モードを入力する。
図８７は、キー・アルファ・モードの代替実施形態について説明しており、該実施形態は、図８７に於いて下線が引かれた擬似コードの一部を除いて、図８６の実施形態と同一である。このモードでは、ユーザがトップ・ボタンを押下する場合、大語彙認識がオンの状態になるが、機能８６０８Ａに於いて示されているように、それぞれの認識された単語の最初の文字だけが出力される。機能８６１８Ａ及び８６２０Ａが示すように、それに関連した３つ又は４つの文字の一式を有する電話キーをユーザが押下する場合、ユーザは所望の文字で始まる単語を発声することを促され、認識語彙は、キーの関連した文字の一つで始まる単語に相当限定されており、機能８６２４は、認識された単語に対応する最初の文字を出力する。
本発明の幾つかの実施形態では、限られた単語がアルファベットのそれぞれの文字に関連する第３代替キー・アルファ・モードを使用することができ、キーの押下中に、認識は、キーの関連した文字に関連した単語一式の一つに関する認識に相当限定される。そうした幾つかの実施形態では、５つ又は５未満の単語一式が、それぞれのそうした文字に関連することになる。
図８９及び９０は、エディタ及び訂正ウインドウ・モードでゼロ・ボタンを押下することによってアクセスされる、ソート編集オプションで使用可能な幾つかのオプションについて説明している。このメニューでは、ユーザがキー「１」を押下する場合、機能８９０２で示されているように、ファイル・オプションのメニューがユーザに提示される。ユーザがキー「２」を押下する場合、機能８９０４によって示されているように、例えば、殆どの編集プログラムで一般的な編集オプションのメニューがユーザに提示される。ユーザがボタン「３」を押下する場合、機能８９０６は、図６８及び７９に関して上述した入力モード・メニューに於いて、ボタン「９」を押下することによってアクセスされる、同一の入力優先メニューを表示する。
編集オプション・メニュー時に、ユーザがキー「４」を押下する場合、テキスト・音声（又はＴＴＳ）メニューが表示される。このメニューでは、キー「４」はＴＴＳの再生のオン、オフを切り換える。現在の選択が存在し、このキーがＴＴＳをオンの状態に切り換える場合、機能８９１６及び８９１８は、ＴＴＳに該選択を発声させる。但し、ＴＴＳ、又は、単語「ｓｅｌｅｃｔｉｏｎ」の予め記録された発話がそれに先行することが好ましい。ＴＴＳがオンの状態に切り替えられた時に、選択が存在しない場合、現在の文書の最後まで、又は、ユーザが文書内にカーソル移動以外の入力を供給するまで、ＴＴＳは現在のカーソル位置で現在のテキストの発声を開始する。図９９に関して下記に説明する通り、ＴＴＳモードがオンの状態では、携帯電話の画面を視認可能であることを要求せずに、システムの機能性の相当部分を使用可能にするために、ユーザは音声プロンプト及びテキストのＴＴＳ再生を提供される。
機能８９２４及び８９２６、そして、該機構がＴＴＳオン・モード又はＴＴＳオフ・モードの何れの状態であるかを問わず、ユーザが連続再生をオン、又は、オフの状態に切り換えることを許可する機能８９２８及び８９３０で示されているように、ユーザが現在の選択を再生したい場合は常に、ＴＴＳサブ・メニューには、ユーザが現在の選択を再生することを許可する選択肢も含まれる。８９３２の編集オプション・メニューに於いて、最高レベルの選択肢によって示されているように、キー「４」のダブルクリックは、ユーザがキー「４」を押下し、ＴＴＳメニューが表示されるのを待ち、その後、再びキー「４」を押下したかのように、ＴＴＳをオン、又は、オフの状態に切り換える。
編集オプション・メニューに於けるキー「５」は、拡大及び縮小ヘディング、及び、アウトライン・モードに於いて、ユーザにナビゲートさせる複数の機能を含むアウトライン・メニューを選択する。ユーザがキー「５」をダブルクリックする場合、システムは、エディタのカーソルが位置する現在のアウトライン要素を完全に拡大すること、及び、完全に縮小することを切り換える。
ユーザがキー「６」を選択肢、音声メニューがサブ・メニューとして表示される場合、図８９及び９０の組み合わせに於ける音声メニュー・アイテム８９３８に基づいて、表示されるオプションの幾つかが対象となる。この音声メニューは、図８４及び７０に関して上述された現在の編集メニューに於けるボタン「６」の使用によって提供される音声ナビゲーション・スピードに対して、ユーザに細かい制御をさせるキー「１」によって選択されたアイテムを含む。ユーザがキー「２」を選択する場合、例えば、音量やスピード、認識された言葉に関連した音声が再生される、及び／又は、認識された言葉に関連せずに音声記録されるかどうか、等の音声再生設定をユーザが呼び出すことを許可するサブ・メニューをユーザが視認する。
図９０は上述の音声メニューに基づいて、キー「３」、「４」、「５」、「６」、「７」で選択されたアイテムで開始し、図８９の数字８９３８で開始する。ユーザがキー「３」を押下する場合、認識された音声オプション・ダイアログ・ボックス９０００が表示される。これは、数字９００２乃至９０１４によって示されているように、現在の文書に於ける全ての音声を認識し、以前認識された音声が読んで認識されたかどうかを決定し、そうした認識の品質、及び、そうした認識に必要な時間を決定するためのパラメータを設定するために、エディタに於ける現在の選択に含まれた任意の音声に関して音声認識を実行することを選択するためのオプションをユーザに与える。機能９０１２で示されているように、このダイアログ・ボックスは、現在の品質設定で、現在の選択を認識するための推定値を供給し、選択を認識するためのタスクが現在実行されている場合には、現在のジョブに関するステータスを供給する。補助電源装置に接続されている時を含む、電話が他の目的で使用されていない時に、このダイアログ・ボックスによって、バックグラウンド・タスクとして、比較的多くの音声に対して認識をユーザが実行することが出来る。
ユーザが音声メニューでキー「４」を選択する場合、ユーザが現在の選択から特定の情報を削除することを選択可能なサブ・メニューがユーザに提供される。これは、認識された単語に関連しないすべての音声を削除すること、すべての音声を削除すること、所望の選択からテキストを削除することをユーザが選択することを許可することを含む。認識されたテキストから認識音声を削除することによって、そうしたテキストの記憶に関連したメモリが大いに削減され、その意図した意味を決定する支援をする、テキストに関連した音声をユーザが必要としないと決定した場合には、便利になることが多い。テキストが音声からの音声認識によって作り出された場合には、メディアの一部から音声ではなくテキストを削除することは便利であることが多いが、殆ど役に立たないかどうかは十分確かではない。
音声メニューでは、キー「５」が、例えば、それを理解することを支援するために使用可能な再生、又は、幾つかの実施形態では、代替の認識選択肢を生成可能な音響表現を有する再生を、そうしたテキストが有するかどうかを、ユーザが知ることを許可するために、下線を引くことによって、関連した認識オーディオを有するテキストが印をつけられているかどうかをユーザが選択することを許可する。
キー「６」は、認識音声が認識されたテキストに対して保持されるかどうかをユーザが選択することを許可する。多くの実施形態では、認識音声の記録がオフの状態にされたとしても、訂正再生目的で使用可能にするために、直前に認識された単語の幾つかの数字に対して、そうした音声は制限される。
音声メニューに於いて、記尾「７」は、転写モード・ダイアログ・ボックスを選択する。これにより、図９４に関して下記に説明する転写モードで使用される設定をユーザが選択することを許可するダイアログ・ボックスが表示される。これは、ユーザが音声認識によって事前に記録された音声を容易に転写させるために設計されたモードである。
ユーザがキー「８」を押下する場合、機能９０３６は、あるとすれば、検索文字列として、現在の選択を用いて音声ダイアログ・ボックスを呼び出して、機能９０３６が実行される。如何に説明する通り、音声認識テキスト・エディタは、必要に応じて、異なる検索文字列を入力するために使用することが出来る。ユーザがキー「８」をダブルクリックする場合、これは、以前に入力された検索文字列に対して再び検索が行われる、再探索コマンドとして解釈される。
ユーザが編集オプション・メニューでキー「９」を選択する場合、語彙メニューが表示される。該語彙メニューによって、異なる語彙から選択し、所定の語彙に単語を追加するために、現在の語彙に単語が存在するかどうかをユーザが決定することが可能となる。編集オプション・メニューの状態で、ユーザが「０」ボタンを押下、又は、ダブルクリックの何れかを行う場合、取り消し機能が実行される。「０」のダブルクリックによって、エディタ、又は、訂正ウインドウから取り消し機能にアクセスするという事実と類似させるために、ダブルクリックによって、編集オプション・メニュー内から取り消し機能にアクセスする。編集オプション・メニューでは、数字記号キーは、やり直しボタンとして機能する。
図９４はＴＴＳ再生ルールを説明している。これらは、図８９の機能８９０８乃至８９３２に関して上述したＴＴＳオプションによって、ＴＴＳの動作が選択された場合、ＴＴＳの生成の動作を規定するルールである。
機能１９０９で上述されているように、ＴＴＳメニューの状態で、キー「１」の動作によって、ＴＴＳキー・モードがオンの状態に切り替えられた場合、機能９４０４は、機能９４０６乃至９４１４を実行させる。これらの機能によって、例えばユーザが自動車を運転している時、そうでなければ忙しい時に、それらを視認出来ないように、安全に電話キーを選択することが出来る。このモードは、携帯電話の動作に関する任意のモードに於いて使用可能な音声認識エディタにおける動作に限定されないことが望ましい。任意の電話キーが押下される場合、機能９４０８は、例えば、４分の１秒、又は、３分の１秒などの短時間である、ＴＴＳキー時間内に同一のキーが押下されたかどうかを確認するために検証を行う。該検証の目的のために、同一キーの最後のキー押下を解除する時点から時間が計測される。同一キーが短い時間内に押下されなかった場合、機能９４１０及び９４１２は、ＴＴＳ、又は、幾つかの実施形態では、録音された音声の再生、即ち、キー番号及び現在のコマンド名の発話を実行する。この音声フィードバックは、ユーザがキーの押下を継続する場合にのみ限り、継続される。キーがそれに関連したダブルクリック・コマンドを有する場合、ユーザがキーを十分長く継続して押下すれば、それは発話される。同一キーの最後のキー押下が解除されてからの時間が、ＴＴＳキー時間未満であることが機能９４０８の検証によってわかった場合、携帯電話のソフトウェアは、ＴＴＳキー・モードがオンの状態ではなかった場合と同じように、任意のダブルクリックを含む、キーの押下に対応する。
したがって、ＴＴＳキー・モードは、ユーザが接触によって携帯電話のキーを見つけることと、それが所望のキーであるかを決定するために、それを押下することと、所望のキーであれば、キーの所望の機能を達成するために、１回又は複数回、再びそれを迅速に押下することを許可することが分かる。機能９４１０及び９４１２によって対応されるキーの押下は、その関連した機能に関する発話以外に、何ら対応を起こさないので、このモードによって、ユーザは任意の所望ではない結果を引き起こすことなく、所望のキーを検索することが出来る。
幾つかの携帯電話に関する実施形態では、携帯電話キーは押下されるというよりは、単に接触されるように設計されており、それらが何れかのキーであるのかという音声フィードバック、及び、機能９４１２によって提供された機能に類似する現在の機能が提供される。例えば、電話キーの物質を、伝導性物質で構成させること、又は、ユーザの体を介してキーに伝導された場合に、それらのキーから分離された電話の他の部分に、キーに関連した電気回路によって検出可能な電圧を生成させることによって、これを提供することが出来る。そうしたシステムを用いて、略所望のキーでキーパッドに対して指をスキャンすることのみによって、ユーザがどのキーに接触しているかに関して、ユーザがフィードバックを受けることが出来るので、このシステムは、ユーザが所望のキーを接触によって見つけるためのより早い方法を提供する。また、それによって、所望のコマンドが見つけられるまで、連続するキーに対するユーザの指を同様にスキャンすることにより、所望のコマンド名をユーザが迅速にスキャンすすることが出来る。
ＴＴＳがオンの状態の時、システムがコマンド入力を認識する場合、又は、そうでなければコマンド入力を受け付ける場合、機能９４１６及び９４１８によって、ＴＴＳ又は記録された音声再生は認識されたコマンド名を発話する。コマンドのそうした音声確認は、例えば、異なる声のトーンや異なる関連した音の形式で、認識されたテキストの発話からコマンド単語の発話を区別する、関連した音質を有することが望ましい。
ＴＴＳがオンの状態で、テキスト発話が認識された場合、機能９４２０乃至９４２４は発話の最後及び認識の完了を識別することができ、その後、発話に対する第１選択肢として認識された単語を発声するために、ＴＴＳを使用する。
機能９４２６乃至９４３０で示されているように、ＴＴＳは類似の方法でフィルタリング発話の認識に対応する。
ＴＴＳモードの状態で、ユーザが新しい単語又は文字を選択するためにカーソルを移動させる場合、機能９４３２乃至９４３８は、新たに選択された単語又は文字を発声するためにＴＴＳを使用する。新しいカーソル位置に関する発声の後に、新しい単語又は文字の位置にカーソルをそのように移動させることは、すでに開始された選択を拡大する場合、機能９４３６及び９４３８は、認識されたテキストの一部ではないことを示す方法で、単語「ｓｅｌｅｃｔｉｏｎ」を発声し、その後、現在の選択の単語の発声を進める。ユーザがカーソルを、例えば図７６の機能７６１４及び７６１５に関する上記説明のように。非選択カーソルに移動させる場合、図９４の機能９９４０及び９９４２は、カーソルが間に置かれた２つの単語を発声するために、ＴＴＳを使用する。
ＴＴＳモードの状態で、新しい訂正ウインドウが表示される場合、機能９４４４及び９４４６は、訂正ウインドウに於ける第１選択肢を発声するためにＴＴＳを使用し、あるとすれば、それのどの部分が非曖昧で、どの部分が曖昧であるかを示す現在のフィルタを一掃し、その後、選択肢リストの現在表示された部分に於いてそれぞれの候補を発声するためにＴＴＳを使用する。速さを目的とする場合には、フィルタのどの部分が完全、又は、曖昧であるかを示すために、トーン又は音に於ける相違が使用されることが最良である。
ユーザが訂正ウインドウでアイテムをスクロールする場合、機能９４４８及び９４５０は、それぞれのそうしたスクロールに対応して、現在強調表示された選択肢、及び、その選択数字を発声するためにＴＴＳを使用する。ユーザが訂正ウインドウでページをスクロールする場合、機能９４５２及び９４５４は、新たに表示された選択肢を発声し、現在の強調表示された選択肢を示すために、ＴＴＳを使用する。
訂正モードの状態で、ユーザがメニューを入力する場合、機能９４５６及び９４５８は、現在のメニューの名前、メニューに於けるすべての選択肢、現在の選択位置を示すそれらの関連した数字を発声するために、ＴＴＳ又は自由に記録された音声を使用する。発声される単語がメニュー・オプションであることをユーザに示す、音声合図を用いて、これを実行することが望ましい。
ユーザがメニューに於いてアイテムを上下スクロールする場合、機能９４６０及び９４６２は、強調表示された選択肢、そして、その後の短い一時停止の後、メニューの現在表示されたページに於ける任意の後に続く選択を発声するために、ＴＴＳ又は予め記録された音声を使用する。
図９５は、ＴＴＳ生成に於いて使用されるプログラミングの幾つかの特徴を説明している。ＴＴＳによって生成される言葉が、発音通りに綴られた単語に関する音声認識プログラミングの語彙に存在する場合、機能９５０２によって、機能９５０４乃至９５１２が実行される。機能９５０４は、単語が音声の異なる部分に関連した複数の表音的綴りを有するかどうか、及び、ＴＴＳを使用して設定される単語が音声の現在の部分を含む現在の言語文脈を有するかどうか、を確認するための検証を行う。これらの条件が両方とも満たされる場合、機能９５０６は、現在の単語に対するＴＴＳ生成に於ける表音的綴りとして、音声表示コードの一部によって最も検出される音声の一部に関連した表音的綴りを選択するために、音声表示コードに関する音声認識プログラミングの一部を使用する。反対に、単語に関連した表音的綴りが一つだけ存在する場合、又は、単語に対して音声の最もありそうな部分を識別するための十分な文脈が存在しない場合、機能９５１０は単語に対する単一の表音的綴り、又は、最も一般的な表音的綴りを選択する。機能９５０６又は機能９５１０の何れかで生成される単語に対して、表音的綴りが一旦選択された場合、機能９５１２はＴＴＳ生成で使用される表音的綴りとして、単語に対して選択された表音的綴りを使用する。９５１４で示されているように、ＴＴＳで生成される単語が表音的綴りを有していない場合、機能９５１４及び９５１６は、表音的綴りを氏名、及び、単語のＴＴＳ生成に対して新たに入力された単語に割り当てるために、音声認識手段によって使用される発音推測ソフトウェアを使用する。
図９６は、図８９及び９０に示された編集・オプション・メニューの音声メニューに基づいて、図９０の数字「７」に関連して、上述された編集オプション・メニューの音声メニューに基づいて作動される転写モード・ダイアログ・ボックスの動作によって選択することが出来る、転写モードの動作を示している。
転写モードが入力される場合、機能９６０２は通常、ナビゲーション・モードを前後方向に５秒ナビゲートし、左右のナビゲーション・キー・入力に対応して音声記録をナビゲートし、下方向のナビゲーション・入力に対応して前後方向に１秒ナビゲートする、音声ナビゲーション・モードに変更する。これらはデフォルト値であり、転写モード・ダイアログ・ボックスに於いて変更可能である。このモード中に、ユーザが再生キー、即ち、エディタのキー「６」をクリックする場合、機能９６０６乃至９６１４が実行される。機能９６０７及び９６０８は、再生のオン、オフを切り換える。再生がオンの状態に切り替えられる場合、機能９６１０は機能９６１２を実行させる。その場合、最後に音が再生された時からサウンド・ナビゲーションがなかったのであれば、機能９６１４は再生の最後の前の設定時間に再生を開始する。これが実行され、その結果、ユーザが転写を実行している場合、それぞれの連続する再生が、最後の再生が終了する僅か前に開始されるので、ユーザは以前の再生に於いて部分的に発話されただけである単語を認識することができ、また、以前の言語文脈の僅かな部分を知覚可能であることによって、ユーザは発話音声を単語としてより上手く解釈することができる。ユーザが特定期間を超える時間、例えば、３分の１秒を超える時間、再生キーを押下する場合、機能９６１６は機能９６１８乃至９６２２を実行させる。これらの機能は、再生がオンの状態かどうかを確認するために検証を行い、オンの状態であればオフの状態に切り換える。また、これらの機能は、該押下中に、現在の設定に応じて、連続モード又は離散モードの何れかのモードで、大語彙認識をオンの状態にする。その後、これらの機能は、認識されたテキストを再生の最後が実行された場所で転写されている音声に於ける位置にあるエディタに挿入する。ユーザが再生ボタンをダブルクリックする場合、機能９６２４及び９６２６は、転写モードに於いて音声記録は使用可能ではなく、転写モードは、追加されたオプション・メニューに基づいて、音声メニューでオフの状態にすることが出来るということを、ユーザに示唆する。
その転写モードによって、ユーザは、再生キー、即ち、電話キー「６」をクリックすることと、押下し続けることを単に交互に行うことにより、以前記録された音声の一部を再生することと、その後音声認識の使用によって転写することを、交互に行うことが出来るということがわかる。ユーザは、転写プロセス中に、認識に於いてなされた間違いを訂正するために、エディタの他の機能性を自由に使用し、その後、転写される音声の次のセグメントを再生するために、キー「６」を再び押下することによって、単に自由にそれに戻る。言うまでもなく、当然のことながら、ユーザは音声から文字通り転写することを望んでいない場合も多い。例えば、ユーザは、電話の一部を再生し、より特筆すべき部分の要約を単に転写する場合もある。
図９７は、ユーザがテキスト及び他の情報を携帯電話の画面に表示されたダイアログ・ボックスに入力可能にするために、上述したエディタ・モードの多くの特徴を使用するダイアログ・ボックス・エディティング・プログラミングの動作を説明している。
ダイアログ・ボックスが最初に入力される場合、機能９７０２はダイアログ・ボックスの第１部分を示すエディタ・ウインドウを表示する。ダイアログ・ボックスが一度に一つの画面に適合しないほど大きい場合には、スクロール可能なウインドウに表示される。機能９７０４によって示されているように、ダイアログ・ボックスは、機能９７０４乃至９７２６によって示されていることを除いて、図７６乃至７８に関連して上述されたエディタ・モードが行う方法と同一方法で、すべての入力に対応する。９７０７及び９７０８で示されているように、ダイアログ・ボックスにある状態で、ユーザがナビゲーション入力を供給する場合、通常、カーソルはユーザが入力を供給可能な制御にのみ移動可能であることを除いて、カーソルの移動はエディタにある場合と同様の方法で対応する。したがって、ユーザが単語の左右何れかに移動した場合、カーソルは次のダイアログ・ボックス・コントロールの左右何れかに移動し、そうしたコントロールを検出することが必要であれば、ラインを上下に移動する。ユーザがラインを上下何れかに移動指せる場合、カーソルは現在のカーソル位置の上下何れかの最も近いラインに移動する。任意のコントロールを含んでいない可能性のあるテキストの拡大部分をユーザが判読可能にするために、カーソルは、通常、１ページ以内にコントロールがない場合でさえも、１ページ以上移動することはない。
機能９７００乃至９７１６で示されているように、カーソルがフィールドに移動され、ユーザがエディタにテキストを入力する種類の任意の入力を供給する場合、機能９７１２は、あるとすれば、現在そのフィールドにテキストを表示するフィールドに対して個別のエディタ・ウインドウを表示する。フィールドがそれに関連した任意の語彙制限を有する場合、機能９７１４及び９７１６は、エディタに於ける認識をその語彙に限定する。例えば、フィールドがステート名に限定された場合、そのフィールドでの認識はそのように限定される。このフィールド・エディティング・ウインドウが表示される限り、機能９７１８は、すべてのエディタ・コマンドに、その中での編集を実行するように命令する。ユーザは、ＯＫを選択することにより、その時点で、現在ウインドウにあるテキストを、ダイアログ・ボックス・ウインドウの対応するフィールドに入力する、このフィールド編集ウインドウを終了することが出来る。
ダイアログ・ボックスにあるカーソルが選択肢リストに移動され、ユーザがテキスト入力コマンドを選択する場合、機能９７２２は、第１選択肢、及び、スクロール可能な選択肢リストに表示された他の使用可能な選択肢としてリスト・ボックスに表示された他のオプションとして、リスト・ボックスにある現在の値を示す訂正ウインドウを表示する。この特別の選択肢リストに於いて、スクロール可能なオプションは、関連する数字を選択することによってアクセス可能なだけでなく、それらのオプションに限定された語彙を使用する音声認識によって使用可能である。
カーソルがチェック・ボタン又はラジオ・ボタンにあり、ユーザが任意のエディタ・テキスト入力コマンドを選択する場合、機能９７２４及び９７２６はチェック・ボックス又はラジオ・ボタンの選択を切り換えることによって、チェック・ボックス又はラジオ・ボタンの状態を変更する。
図９８はヘルプ・ルーチン９８００を説明しており、これは、ＰＤＡに関する実施形態に於いて図１９に関して上述したヘルプ・モードの、携帯電話に関する実施形態と類似する実施形態である。携帯電話が所定の状態又は動作モードの時に、このヘルプ・モードが呼び出される場合、機能９８０２は、ヘルプ・オプション、及び、全ての状態のコマンドに関する選択可能なリストと共に、状態の既述を含む状態に対して、スクロール可能なヘルプ・メニューを表示する。図９９は図６７及び図７６乃至７８に関して上述したエディタ・モードに対して、そうしたヘルプ・メニューを表示する。図１００は、図６８、７９、８０に関して上述した入力モード・メニューに対する、そうしたヘルプ・メニューについて説明している。図９９及び１００に於いて示されているように、それらのヘルプ・メニューのそれぞれは、スクロール可能な強調表示、及び、ヘルプ・キーの動作に関する手段によって選択することが可能で、ヘルプ・メニューの様々な部分、及び、他のヘルプ関連機能にユーザが即座にジャンプすることを許可する、ヘルプ・オプション選択を含む。また、それぞれのヘルプ・メニューは、携帯電話の現在のコマンド状態に関する短いステートメント、即ち、９９０４を含む。また、それぞれのヘルプ・メニューは、携帯電話によってアクセス可能な全てのオプションをリストアップする、スクロール可能で、選択可能なメニュー９９０６を含む。また、それは、ヘルプ機能の仕様方法、及び、幾つかのケースでは現在のモードで使用可能な画面の異なる部分の機能に関するヘルプに関する既述を含む、他のヘルプ機能にユーザがアクセスすることを許可する機能９９０８を含む。
図１０１に示されているように、エディタ・モードでユーザが１０１００で示されたメニュー・キーを継続して押下する場合、ヘルプ・モードがエディタ・モードに対して入力され、携帯電話に画面１０１０２を表示させる。これは、選択可能なヘルプ・オプション、即ち、オプション９９０２を表示し、図９９に示されているように、他のモード９９００の動作に関する短い既述の先頭を表示する。ページ右ボタンとして機能する、携帯電話の右矢印キーをユーザが押下する場合、画面１１０２に示された文字「＜Ｐ＾Ｌ」によって示されているように、ヘルプ・モードではナビゲーション・モードがページ／ライン・ナビゲーション・モードであるので、画面１０１０４で示されているように、ディスプレイはページを下方向にスクロールする。ユーザがページ右キーを再び押下する場合、画面は再び下方向にスクロールし、これにより、画面が１０１０６で示された状態となる。この例では、ページ右キーを２回クリックするだけで、図９９に示されたエディタ・モード９９０４の機能の要約をユーザは読むことが出来る。
ユーザがページ右キーをクリックし、画面写真１０１０８で示されているように、再び画面にページを下方向にスクロールさせる場合、エディタ・モードに関連したコマンド・リストの先頭を見ることが出来る。ユーザは、必要に応じて、ヘルプ・メニューの全長をスクロールするために、ナビゲーション・キーを使用することが出来る。示された例では、ユーザが入力モード・メニューに関連したキー・ナンバーを見つける場合、画面１０１１２に示されているように、ヘルプ・モードに入力モード・メニューに関連したヘルプ・メニューを表示させるために、１０１１０で示されているようにキーを押下する。
当然のことながら、ユーザがヘルプ・メニューの状態にある場合、キーの押下に関連したコマンドを作成することによって、図９９に示された「キーによって選択された」ライン９９１０に基づいて、リストアップされたコマンドを直ちに（文章の一部が欠落）出来る。したがって、機能を確認するために、コマンドに関連したキーを押下するために、コマンドがリストアップされたヘルプ・メニューの一部を、ユーザが下方向にスクロールする必要はない。事実、キーに関連した機能を理解していると考えているユーザは、メニュー・キーを単に継続して押下することができ、その後、機能の短い説明、及び、それに基づいて使用可能なコマンドのリストを確認するために、所望のキーを打ち込むことが出来る。
図９９及び１００に示された「ＯＫによって選択」ライン９９１２に基づいてリストアップされたコマンドは、メニューのコマンドに対して強調表示をスクロールすること、及び、ＯＫコマンドの使用によって選択することによって、収集されなければならない。これは、ライン９９１２の下にリストアップされたコマンドが、ヘルプ・メニュー自体の動作に於いて使用されるキーに関連しているからである。このことは、コマンド・リストに於いてＯＫコマンドとの選択によってのみ選択可能であり、図７５に示されたエディタ・モード・コマンド・リストの画面７５０６にリストアップされたコマンドに類似している。
図１０１の例では、ユーザは入力優先メニューが入力モード・メニューに於ける「９」を押下することによって選択可能であることを理解しており、１０１１４によって示されているように、入力モード・メニューに対して、ユーザがヘルプを入力するとすぐに、そのキーを押下することが想定されている。これにより、１０１１６で図示されているように、入力優先メニューに対するヘルプ・メニューが表示される。
この例では、ユーザはエスケープ・キーを受けて、キー「１」を押下する。キー「１」は、ディクテーション・デフォルト・オプションに対するヘルプ・メニューを一時的に呼び出し、エスケープ・キーは、その位置にある入力優先メニュー、及び、画面１０１１８で示されているように、ディクテーション・デフォルト・オプションに関連したメニューに戻る。エスケープで続けられるキー・オプションのそうした選択によって、ユーザは、ヘルプ・メニューのコマンド・リストの所望の部分に、即座にナビゲートすることが可能となり、これは、エスケープで続けられたコマンド及びリストのその部分に於けるキー番号を単に押下することで可能となる。
この例では、画面１１２２で示されているように、コマンド・リストに於いてページを下方向にスクロールするために、１０１２０で示されているように、ユーザがページ右キーを押下する。この例では、発話オプションに対する連続押下、又は離散クリックに関する記述を獲得するために、１０１２４で示されているように、そのキーを押下することによって、ユーザはキー「５」に関連したオプションを選択することが想定されている。これにより、画面１０１２６に示されているように、そのオプションに対してヘルプ・メニューが表示される。この例では、このオプションの機能に関する短い既述を読むために、ユーザはあと２つ画面を下方向にスクロールし、その後、画面１０１３０で示されているように、入力優先メニューに対するヘルプ・メニューに戻るために、１０１２８で示されたエスケープ・キーを押下する。
図１０２に示されているように、この例では、ユーザが入力優先メニューに対するヘルプに戻る際に、数字１２００で示されているようにキー「４」を選択し、これにより、画面１０２０２で示されているように、発話終了オプションに対する押下及びクリック中に、ヘルプ・メニューを表示する。そして、ユーザは、機能を理解するために、このモードに関する十分な記述を読むために、あと２つ画面を下方向にスクロールし、そして、１０２０４で示されているように、画面１０２０６に示された入力優先メニューに対するヘルプまでエスケープで戻る。そして、入力優先メニューが呼び出され、画面１０２１０で示されているように、入力モード・メニューに対するヘルプである、ヘルプ・メニューに戻るために、ユーザは再びエスケープを押下する。入力モードに対するヘルプが呼び出され、画面１０２１４に示されているように、エディタ・モードに対するヘルプ・メニューである、ヘルプ・メニューに戻るために、ユーザは再びエスケープを押下する。
この例では、ユーザが、エディタ・モードに対するヘルプ・メニューに関する図９９に示された、ボタン部分９９０８を下方向にスクロールするために、ページ右キーを６回押下することが想定されている。ユーザは、必要に応じて、より迅速にヘルプ・メニューのこの部分に於けるオプションにアクセスするために、プレイス・コマンドを使用することが出来る。ヘルプ・メニューの「他のヘルプ」部分では、画面１０２２２に示されたエディタ画面オプション１０２２４を選択するために、１０２２０で示されているように、ユーザはライン下ボタンを押下する。この時点で、ユーザは、画面１０２２８に示されているように、エディタ画面自体に対するヘルプを表示させるＯＫボタンを選択する。この画面が表示されるモードでは、電話キー番号インジケータ１０２３０は、エディタ画面の一部をラベル付けするために使用される。ユーザがこれらの関連した電話番号を押下する場合、画面に対応箇所に関する記述が表示される。図１０２の例では、ユーザはキー「４」を押下し、これにより、エディタ画面ヘルプ画面１０２２７の一番上に表示されるナビゲーション・モード・インジケータ「＜Ｗ＾Ｌ」の機能を説明する、エディタ画面ヘルプ画面１０２３４が表示される。
この例では、数字１０２３６に示されているように、ユーザはエスケープ・キーを３回押下する。３回の押下の内、１回目の押下によって、画面１０２３４から画面１０２２８に逃れ、表示される画面の数字を割り当てられた部分の他の部分に関する説明を選択するためのオプションをユーザに提示する。この例では、ユーザはそうした他の選択を行うことに関心はなく、エスケープ・キーの１回目の押下に続いて、さらに２回素早く押下している。この内、最初の押下によって、エディタ・モードに対するヘルプ・メニューまで逃れ、２回目の押下によって、エディタ・モードそれ自体まで逃れる。
図１０１及び１０２からわかる通り、ヘルプ・メニューの階層的動作によって、ユーザは携帯電話に於けるコマンド構造を素早く探索することが出来る。これは、所望の機能を実行するコマンドのサーチを行うことと、線形順のコマンド構造を単に確認することのために使用することが出来る。
図１０３及び１０４は、エディタ・モードに於いて、ユーザが連続して幾つかの音声をディクテーションし、その結果のテキスト・出力を訂正するためにエディタのインターフェイスを使用する例を説明している。
この連続は、１０３に於いて、ユーザが発話１０３０２を発声する間に、１０３００で示されているように、トーク・ボタンを押下し続けることで始まる。これは、この発話に関する認識に終わり、これにより、この例では、画面１０３０４に表示されたテキストを、エディタのテキスト・ウインドウ１０３０５に表示させる。数字１０３０６は、連続ディクテーションの最後に於いて非選択カーソルである、この認識されたテキストの最後に於けるカーソルの位置を指し示している。
大語彙連続音声認識を使用して、発話が認識されるモードに於いて、システムが設定されることが想定されている。このことは、画面１０３０４で示されたエディタ・ウインドウのタイトル・バーに於ける文字「＿ＬＶ」によって示されている。
この例では、ユーザは図７０及び８０で説明された、追加されたナビゲーション・メニューにアクセスするために、ユーザがキー「３」を押下し、その後、それらの図に示された発話オプションを選択するために、ボタン「１」を押下する。これにより、カーソルは、画面１０３１０に於ける１０３０８で示されているように、直近の発話に対して認識されたテキストの最初の単語に対応する。次に、図７７に記載された大文字化サイクル機能を選択するために、ユーザはキー「７」をダブルクリックする。これにより、１０３１２で示されているように、選択された単語は大文字表記される。
次に、ユーザは、現在の単語／ライン・ナビゲーション・モードに於いて、ナビゲーション・モード・インジケータ１０３１４で示されているように、単語右ボタンとして機能する右ボタンを押下する。これにより、カーソルは右１０３１６の次の単語に移動する。次に、ユーザは図７７の機能７７２８乃至７７３２に関して上述したように、拡大された選択モードにエディタを設定するために、キー「５」を押下する。その後、ユーザは単語右ボタンを押下し、これにより、カーソルはテキスト「ｇｏｔｉｔ」を含めるために、単語１０３１８及び拡大された選択１０３２０に移動する。
次に、ユーザは図７７の選択肢リスト・コマンドを選択するために、キー「２」を押下し、これにより、訂正ウインドウ１０３２２は第１選択肢として選択１０３２０に対して表示され、１０３２４で表示されているものとして示された第１アルファベット順選択肢リストと共に表示される。この選択肢リストでは、それぞれの選択肢は、それを選択するために使用可能な関連した電話キー番号と共に表示される。
この例では、所望の選択肢が第１選択肢リストに表示されず、所望の単語「ｐｒｏｄｕｃｔ」が位置する、１０３２８で示された第２アルファベット順選択肢リストの第３画面に下方向にスクロールするために、ユーザが右ボタンを３回押下することが想定されている。
図７７に於ける機能７７０６によって示されているように、ユーザが選択肢リスト・ボタンを１回押下することで、訂正ウインドウを入力する場合、画面１０３３２で示されたナビゲーション・モード・インジケータ１０３２６によって示されているように、訂正ウインドウのナビゲーションは、ページ／アイテム・ナビゲーション・モードに設定される。
この例では、ユーザは所望の選択肢を選択するために、キー「６」を押下し、これにより、カーソル選択の位置でエディタのテキスト・ウインドウにそれが挿入され、１０３３０で示されているように、エディタ・テキスト・ウインドウが表示される。
次に、ユーザは位置１０３３２にカーソルを置くために、単語右キーを３回押下する。この場合、認識された単語は「ｒｅｓｕｌｔｓ」であり、所望の単語は、単語「ｒｅｓｕｌｔ」の単数形である。このため、ユーザは単語形式リスト・ボタンを押下し、これにより、その表示された選択肢の一つとして所望の代替形式を有する、単語形式リスト訂正ウインドウ１０３３４を表示させる。ユーザ・データはその関連した電話キーを押下することによって、所望の選択肢を選択し、エディタのテキスト・ウインドウを１０３３６で示された状態にする。
図１０４に示されているように、ユーザはカーソルを位置１４００に向かって下方向に移動するために、ライン下ボタンを押下する。その後、ユーザは拡大されたセクションを開始するために、キー「５」を押下し、位置１０４０２まで１単語分右にカーソルを移動させるために単語キーを押下し、現在の選択１０４０４を右側に１単語分拡大させる。
次に、ユーザは、図７７に置いて機能７７１２乃至７７１６に関して上述したフィルタ選択肢オプションを選択するために、キー「２」をダブルクリックする。下矢印１０４０６によって示されているように、キー「２」の２回目のクリックは、延長されたクリックである。この延長された押下中に、ユーザは、所望の単語「ｐａｉｎｓｔａｋｉｎｇ」の最初の文字である、文字列「ｐ、ａ、ｉ、ｎ、ｓ、ｔ」を連続して発話する
この例では、訂正１０４１２のタイトル・バーに於ける文字「ａｂｃ」によって示されているように、訂正ウインドウが連続音名認識モードの状態である。
この例では、フィルタとしての発話１０４０８の認識により、訂正ウインドウ１０４１２は音名の連続して発話された文字列の認識からの認識結果に対応する曖昧な長さのフィルタに対して、フィルタ処理された選択肢一式を表示する。訂正ウインドウは、曖味なフィルタ要素に関連した文字の連続の一つで始まる第１選択肢１０４１４を有する。曖昧なフィルタに関連した文字の連続に対応する第１選択肢の一部は、曖昧なフィルタ・インジケータ１０４１６によって示される。フィルタ・カーソル１０４１８は、第１選択肢のこの部分の最後の後の位置に置かれる。
この時点で、ユーザは、図８１に於ける機能８１２４及び８１２６の動作のために、フィルタ・カーソルを移動させ、現在の単語の第１文字１０４２０を選択させる単語右キーを押下する。図８１の機能８１５１及び８１６２は、フィルタ文字選択肢ウインドウ１０４２２を表示させる。所望の文字は「ｐ」であるので、ユーザはそれを選ぶためにキー「７」を押下し、これにより、その文字はフィルタ文字列の非曖昧な文字となり、フィルタに於けるその変更の結果として、新しい訂正ウインドウ１０４２４が表示される。
次に、ユーザは文字ダウン・ボタンを４回押下し、これにより、図８１に於ける機能８１５０の動作のために、フィルタ・カーソルの選択が、この例では文字「ｆ」１０４２６である第１選択肢に於いて、右側に４文字移動される。これは、曖昧なフィルタ・マーカ１０４２８によって示されているとして、フィルタ強度の曖昧な部分にそれでも対応する第１選択肢の一部であるので、図示されているように、図８１のライン８１５２に於けるフィルタ文字選択肢への呼び出しによって、他の文字選択肢ウインドウが表示される。
この例では、所望の文字、即ち、文字「ｓ」は選択肢リストに於ける電話キー「５」に関連しており、ユーザは訂正文字１０４３０を現在のフィルタ強度に挿入し、数字１０４３２で示されているように、その前の全ての文字を、非曖昧に確認するために、そのキーを押下する。
この時点で、正しい選択肢が電話キー「６」に関連して表示され、１０４３４で示されているように、所望の単語をエディタのテキスト・ウインドウに挿入するために、ユーザは電話キーを押下する。
次に、この例では、１０４３６で示されたテキスト「ｐｅｒｉｏｄ」を選択する目的で、カーソル選択を１ライン分下に移動させ、右側に移動させるために、ライン下キー及び単語右キーを押下する。その後、ユーザはキー「８」、又は、単語形式リスト訂正ウインドウ１０４３８を表示させる単語形式リスト・キーを押下する。所望の出力、即ち、ピリオド記号は、電話キー「４」に関連している。ユーザはそのキーを押下し、所望の出力を１０４４０で示されたエディタ・ウインドウのテキストに挿入させる。
図１０５は、図８１に関して上述した機能８１３２及び８１３５の動作によって、ユーザが選択肢リストをどうのように水平方向にスクロールすることが出来るかを説明している。
図１０６は、どのようにしてキー・アルファ認識モードをエディタのテキスト・ウインドウにアルファベット入力を入力するために使用することが出来るかを説明している。画面１０６００は、カーソル１０６０２が表示されやエディタ・テキスト・ウインドウを示している。この例では、ユーザは図７９及び６８に関して上述した入力モード・メニューを開くために、キー「１」を押下し、その結果、画面１０６０４の状態となる。このモードでは、図７９の機能７９３８に関して上述されたキー・アルファ認識モードを選択するために、ユーザはキー「３」をダブルクリックする。これにより、システムは図８６に関して上述されたキー・アルファ・モードにセットされ、エディタ・ウインドウは図１０６に示されたプロンプト１０６０６を表示する。
この例では、１０６０８で示されているように、ユーザは電話キーを延長して押下し、これにより、プロンプト・ウインドウ１０６１０は、押下された電話キーに関してそれぞれの文字に関連したＩＣＡ単語を表示する。それに応じて、ユーザは発話「ｃｈａｒｌｅｙ」１０６１２を行う。これにより、対応する文字「ｃ」が、カーソルの前の位置で、テキスト・ウインドウに入力され、テキスト・ウインドウは画面１０６１４に示された状態となる。
この例では、１０６１６に示されているように、ユーザが２つのＩＣＡ単語、即ち、「ａｌｐｈａ」及び「ｂｒａｖｏ」を連続して発話する間に、トーク・キーを押下することが、次に想定されている。これにより、画面１０６１８で示されているように、それら２つのＩＣＡ単語に関連した文字「ａ」及び「ｂ」が、そのカーソル位置で、テキスト・ウインドウに入力される。次に、この例では、ユーザはキー「８」を押下し、そのキーに関連した３つのＩＣＡ単語の一つを発話することを促され、０６２０で示されているように、エディタのテキスト・ウインドウに文字「ｕ」を挿入させるために、単語「ｕｎｉｆｏｒｍ」を発話する。
図７は、アルファベット・フィルタリング入力を入力するために使用される同一のキー・アルファ認識モードについて説明している。図１０６で示されているように、テキスト・エディタから入力可能な方法と同一方法で、キー「３」のダブルクリックが後に続けられる、キー「１」の押下によって訂正ウインドウの状態にある場合、キー・アルファ・モードを入力することが可能であることを図７は示している。
図１０６及び１０９は、携帯電話に関する実施形態に於いて、テキスト及びＥメールのアドレス指定、入力、及び、訂正を行うために、ユーザがどのように上述された音声認識テキスト・エディタのインターフェイスを使用することが出来るかを示している。
図１０８に於いて画面１０８００は、図６６で説明されているように、ユーザがメイン・メニュー時にキー「４」をダブルクリックすることによってＥメール・オプションを選択する場合に、ユーザがアクセスする、Ｅメール・オプション画面を示している。
示された例では、ユーザが新しいＥメールのメッセージを作成しようと考えており、このためオプション「１」を選択することが想定されている。これにより、新しいＥメール・メッセージ・ウインドウ１０８０２は、そのウインドウに於ける第１編集可能位置に於かれたカーソルと共に表示される。これは、メッセージのア受信者に関連したＥメール・メッセージの部分に於ける第１文字である。この例では、ユーザはトーク・ボタンを延長して押下し、数字１０８０４で示されているように、名前「ＤａｎＲｏｔｈ」を発話する。
この例では、これにより僅かに間違った名前「ＳｔａｎＲｏｔｈ」が１０８０６で示されているメッセージの受信者ラインに挿入される。ユーザは、選択に対して、選択肢リスト１０８０６を選択するために、キー「２」を押下することで対応する。この例では、所望の名前が選択肢リストに表示されており、ユーザはそれを選択するためにキー「５」を押下し、所望の名前が１０８０８に示されている受信者ラインに挿入される。
次に、画面１０８１０に示されているように、題名ラインの最初にカーソルを下方向に移動させるために、ユーザはライン下ボタンを２回押下する。その後、発話「ｃｅｌｌｐｈｏｎｅｓｐｅｅｃｈｉｎｔｅｒｆａｃｅ」１０８１２を発声する間に、ユーザがトーク・ボタンを押下する。この例では、この発話が「ｓｅｌｌｐｈｏｎｅｓｐｅｅｃｈｉｎｔｅｒｆａｃｅ」として、僅かに誤って認識され、Ｅメール編集ウインドウを１０８１４で示された状態にするために、このテキストが題名ラインに於けるカーソル位置に挿入される。それに応じて、ユーザはカーソル選択を位置１０８１６に置くために、ライン上ボタン及び単語左ボタンを押下する。その後、ユーザは単語形式リスト訂正ウインドウ１０８１８を表示させるために、キー「８」を押下する。この例では、所望の出力がキー「４」と関連しており、ユーザは該キーを押下し、画面１０８２０に示されているように、所望の出力をカーソルの位置に置く。
次に、画面１０８２２に示されているように、Ｅメール・メッセージの本文の最初にカーソルを置くために、ユーザはライン下ボタンを２回押下する。これが実行されると、ユーザは、「ｔｈｅｎｅｗＥｌｖｉｓｉｎｔｅｒｆａｃｅｉｓｗｏｒｋｉｎｇｒｅａｌｌｙｗｅｌｌ」という発話を連続して発声する間、トーク・ボタンを押下する。これにより、画面１０８２４によって示されているように、幾分間違って認識された文字列「ｈｅｋｎｅｗｅｌｆｉｓｈｉｎｔｅｒｆａｃｅｉｓｗｏｒｋｉｎｇｒｅａｌｌｙｗｅｌｌ」が、カーソル位置に挿入される。
これに対応して、図１９９の画面１０９００によって示された位置にカーソルを置くために、ユーザはライン上キーを１回押下し、単語左キーを２回押下する。その後、拡大選択を開始するために、ユーザはキー「５」を押下し、カーソルを位置１０９０２に置き、１０９０４によって示されているように、選択を拡大させるために、単語左キーを２回押下する。この時点で、現在の選択に対して、訂正ウインドウ１０９０６を入力するために、ユーザはキー「２」をダブルクリックし、その押下中に、文字「ｔ、ｈ、ｅ、ｓｐａｃｅ、ｎ」を連続して発声する。これにより、連続して入力された音名文字の連続に対応する非曖昧フィルタ１０９１０と共に、新しい訂正ウインドウ１０９０８が表示される。
次に、数字１０９１２によって示されているように、フィルタ・カーソルを次の単語の第１文字の右側に移動させる単語右キーを押下することで入力が行われる。その後、入力モード・メニューを入力するためにキー「１」を押下し、アルファブラボ入力語彙、又は、ＩＣＡ単語入力・語彙を選択するために、キー「３」を押下する。キー「３」を連続して押下する間、ユーザは連続発話１０９１４、即ち、「ｅｃｈｏ、ｌｉｍａ、ｖｉｃｔｏｒ、ｓｉｅｒｒａ」を発声する。この発話は、訂正ウインドウ１０９１６の第１選択肢ウインドウに挿入され、以前のフィルタ・カーソル位置で始まる、検出配列「ＥＬＶＩＳ」として認識される。示された例では、アルファブラボ認識がその信頼性から、非曖昧なものとして処理され、画面１０９１６に示された非曖昧な確認表示１０９１８によって示されているように、入力された文字、及び、第１選択肢ウインドウに於けるそれの前の全ての文字を、非曖味に確認されたものとして扱うことを想定している。
この例では、現在の第１選択肢が所望の出力であるので、現在の第１選択肢を選択するためにユーザはキー「ＯＫ」を押下する。
図１１０は、再発話を所望の認識出力の獲得を支援するために、どのように使用することが出来るかを説明している。それは、画面１０９０６及び図１０９によって示されたように、同一状態に於ける訂正ウインドウで始まる。しかし、図１１０の例では、ユーザはキー「１」を２回押下することによって、画面に対応する。但し、１回目は入力メニュー・モードを入力するためであり、２回目は大語彙認識を選択するためである。図７９の機能７９０８乃至７９１４によって示されているように、訂正ウインドウが表示された際に、大語彙認識が入力モード・メニューで選択される場合、システムは、これを、ユーザが再発話の実行を望んでいる、即ち、所望の出力に対する新しい発話を、所望の出力の選択支援に使用するための発話リストに追加することを望んでいるものとして解釈する。この例では、所望の出力に対応する３つ単語、「ｔｈｅ」、「ｎｅｗ」、「Ｅｌｖｉｓ」を発声するために、離散音声を使用する間、ユーザはキー「１」の２回目の押下を継続する。示された例では、この新しい発話リスト入力によって提供された追加の離散発話情報によって、システム３つの単語の内、最初の２つの単語をシステムに正確に認識させることを想定している。この例では、３つの単語の内、３番目の単語が現在の語彙に存在しておらず、これにより、例えば、図１０９の発話１０９１４によって実行されているように、ユーザはフィルタリング入力を用いて、その３番目の単語を綴ることを要求される。
図１１０は、携帯電話のソフトウェアの一部であるウェブ・ブラウザで所望のウェブ・ページにアクセスする目的で、ＵＲＬテキスト文字列を入力するために、エディタ機能性をどのように使用することが出来るかを説明している。
ブラウザ・オプション画面１１１００は、図６６に示されているように、メイン・メニューに於いて、キー「７」に関連したウェブ・ブラウザ・オプションをユーザが選択する場合に表示される画面を示している。この例では、ユーザは所望のウェブ・サイトのＵＲＬを入力することを望んでおり、キー「１」を押下することによって、キー「１」に関連したＵＲＬウインドウ・オプションを選択することを想定している。これにより、ユーザを支持する短いプロンプトを画面１１１０２に表示させる。ユーザは、トーク・ボタンを連続して押下する間、所望のウェブ・サイトの名前を綴るために、連続音名綴りを使用することによって対応する。示された実施形態では、発話１１１０３の認識によって訂正ウインドウ１１１０４を表示するために、ＵＲＬエディタが常に訂正モードの状態にある。その後、ユーザが第１選択肢を選択する画面１１１０６で示されているように、当初間違って認識されたＵＲＬを所望の綴りに訂正するために、ユーザは、上述されたタイプのフィルタ文字列編集テクニックを使用し、システムに所望のウェブ・サイトにアクセスさせる。
図１１２乃至１１４は、ナビゲート、及び、ウェブ・ページのフィールドにテキストを入力するために、エディタ・インターフェイスをどのように使用することが出来るかを説明している。
画面１１２００は、携帯電話のウェブ・ブラウザが新しいウェブ・サイトに最初にアクセスする場合の該ウェブ・ブラウザの状態を説明している。ＵＲＬフィールド１１２０１は、ユーザが現在のウェブ・ページを識別することを支援するために、ウェブ・ページ１１２０４の一番上の前に表示される。ユーザが現在表示されたウェブ・ページのＵＲＬを確認したい場合には、いつでも、この位置を後ろにスクロールさせることが出来る。ウェブ・ページが最初に入力される時、ウェブ・ページは、左右両キーを移動させることが、殆どのウェブ・ブラウザでのページの「戻る」及び「進む」制御のように作動する、文書／ページ・ナビゲーション・モードの状態にある。この場合、単語「ｄｏｃｕｍｅｎｔ」は、「ｐａｇｅ」の代わりとなるが、これは、携帯電話のディスプレイに於いてメディアで一抔の画面を参照するために、他のナビゲーション・モードで単語「ｐａｇｅ」が使用されるからである。ユーザが上下両キーの何れかを押下する場合、ウェブ・ページの表示は、全画面ページ（又は画面）でスクロールされる。
図１１６は、示された携帯電話に関する実施形態が、図１１５に関して上述したタイプのダイアログ・ボックスを編集する際に、リスト・ボックスとして、訂正ウインドウの特別形式が使用されることをどのように許可するかを説明している。
図１１６の例は、図１５の画面１１５０４で示された状態にある探索ダイアログ・ボックスから始まる。この状態から、「Ｉｎ：」リスト・ボックスにカーソルを置くために、ユーザはライン下キーを２回押下し、これにより、探索ダイアログ・ボックスに対応して実行された検索が、携帯電話のデータのどの部分で実行されるかを規定するユーザがこのウインドウにあるカーソルでトーク・ボタンを押下する場合、現在の第１選択肢として、リスト・ボックスに現在の選択を表示し、他のリスト・ボックス選択肢のスクロール可能なリストに電話キー番号に関連して表示されているそうした他の選択肢のそれぞれを供給する、リスト・ボックス訂正イオン道１１５１２が表示される。ユーザはこのリストをスクロールすることが可能であり、電話キー番号ー又は強調表示された選択を使用することによって、所望の選択肢を選択することが可能である。この例では、ユーザはトーク・キーの押下を継続し、発話１１５１４で所望のリスト・ボックス値を発声する。リスト・ボックス訂正ウインドウに於いて、アクティブ語彙は、リストの値に相当制限される。所望のリストの値が第１選択肢である例に示されているように、訂正認識は、そうした限られた語彙を有している可能性が相当ある。ユーザは、キー「ＯＫ」を押下することによって対応し、これにより、示されているように、ダイアログ・ボックスのリスト・ボックスに所望のリストの値が置かれる。
図１１７は、携帯電話インターフェイスが、電話をかける際にユーザが実行可能な幾つかの機能を表示する、ユーザと携帯電話インターフェイスとの間の一連の対話について説明している。
図１１７の画面６４００は、図６４に関して上述された、同一の最高レベル電話モード画面である。それが表示される際に、ユーザが、氏名ダイアル・コマンドにマッピングされるラスト・ナビゲーション・ボタンを選択する場合、システムは氏名ダイアル・モード、即ち、図１１９の擬似コードに置いて説明された基本機能を入力する。その図からわかる通り、このモードによって、ユーザはそれらを追加することによって、連絡リストからネームを選択することが可能となり、間違った認識が存在する場合には、上述されたものと類似の訂正ウインドウに於ける潜在的にスクロール可能な選択肢から、選択肢を選択することによって、アルファベット・フィルタリングによってそれを訂正することが可能となる。
携帯電話が氏名ダイアル・モードを入力する場合、図１１７に示されているように、最初のプロンプト画面１１７００が表示される。この例では、トーク・キーの押下中に、ユーザはネーム１１７０２を発話する。氏名ダイアルに於いて、そうした発話は、氏名語彙に自動的に限定された語彙を用いて認識され、その結果得られた認識によって、訂正ウインドウ１１７０４が表示される。この例では、第１選択肢は間違っておらず、ユーザはキー「ＯＫ」を選択し、これにより、電話はユーザの連絡リストに於いて名付けられたグループに関連した電話番号に電話をかける。
通話が接続される場合、図７５に関して上述された、同一の現行の通話インジケータ７４１４を有する画面１１７０６が表示される。数字１１７０８によって示されているように、画面の一番下には、現行の通話の最中に、ナビゲーション・キーのそれぞれに関連した機能に関して、指示が与えられる。この例では、図６４に関連して上述された同一のメモ機能に関連した下ボタンをユーザが選択している。これに対応して、エディタ・ウインドウ１１７１０は、これに対して、現在の通話に対するメモ・アウトラインに於いて作り出されている、自動的に作り出されたヘッディング・アイテム１１７１２を用いて、エディタ・ウインドウ１１７１０がメモ・アウトラインに対して表示され、それが形成されたグループ及び、その開始、及び、最終的にはその終了時間をラベル付けする。
その後、コール・ヘディングに基づいて、所望の新しいアイテムにカーソル１１７１４が置かれる。
この例では、画面１１７１６に示されているように、その発話に対応する認識されたテキストがカーソル位置で、メモ・アウトラインに挿入されことになるので、トーク・ボタンの押下中に、ユーザは連続発話１１７１４を発声する。その後、ユーザは記録を開始するためにキー「６」をダブルクリックし、音の音声グラフィック表現が、カーソルの現在の位置で、エディタ・ウインドウに対するメモに置かれる。１７７１８に示されているように、ユーザがその通話に於いてどのくらいの時問、誰が話をしていたかについて容易に記録し、必要に応じて、グループに対する通話の何れが話していたかに関する記録された音声の部分を、より適切に検索することが出来るように、携帯電話のオペレータが話している通話の部分からの音声が、音声グラフィックスで下線を引かれる。
図１１７の例では、タスク・リストを選択するために、ユーザは次にキー「＊（スター）」をダブルクリックする。これは、現在開いているタスクをリストアップする携帯電話に於ける画面１１７２０を示している。この例では、メモ・アウトラインに於いて異なる位置を表示する他のメモ・エディタ・ウインドウである、電話キー「４」に関連したタスクをユーザが選択する。これに対応して、電話キー画面は、説明されたメモの一部に関する画面１１７２２を表示する。
この例では、ユーザはカーソルを位置１１７２４に移動させるために、上キーを３回押下し、画面１１７２６及び１１７２８のカーソル間の移動によって示されているように、カーソルでの音声グラフィックス表現に関連した音の再生を開始するために、キー「６」を押下する。
図７５に関して上述された「当方のみ再生」プション７５１３がオンの状態でなければ、画面１１７２８に於ける音声に再生が、現在の通話の両者に対して再生され、通話のユーザが携帯電話の通話中に、他のグループとの音声録音を共有することが可能となる。
図１１８は、例えば、図１１７の中央下付近の画面１１７１７で示されているように、編集ウインドウが音声を記録する場合、その部分の間に記録された音声が、それに実行された音声認識を有するようにするために、そうした音声の記録中に、ユーザが音声認識をオンの状態に切り換えることが出来ることを説明している。示された例では、画面１１７１７に表示された記録中に、ユーザはトーク・ボタンを押下し、発話１１８００を発話する。これにより、その発話１１８０２に関連したテキストがエディタ・ウインドウ１１８０６に挿入される。認識の持続期間後に記録された音声は、音声グラフィックスのみで記録される。通常、これは、例えば認識される発話１１８００等の発話中に、ユーザがはっきり発話しようとし、その後、会話の一部、又は、音声だけで記録されているディクテーションの間に、より記が類に、自由に話す方法に於いて使用される。通常、音声は音声認識に関連して記録され、その結果、ユーザは、記録中に間違って認識された、例えばディクテーション１１８０２のようなディクテーションに戻り、聞き、訂正することが可能である。
図１１９は、このシステムが、拡大された選択キー及び再生、又はナビゲーション・キーの組み合わせによって、その図に示された、例えば部分１１９００等の音声の部分を、どのようにユーザに選択させることが出来るか、そして、その後、１１９０２で示されているように、認識された選択されたテキストを有するために、図９０の機能９０００乃至９０１４に関して上述された、認識された音声ダイアログ・ボックスをどのようにユーザに選択させることが出来るか、を説明している。図１１９の例では、ユーザが、認識されたテキスト１１９０２に下線を引く、図９０に示された、認識音声表示９０２６を選択し、それに関連した再生可能な音声をそれが有することを示している。
図１２０は、ユーザが記録された音声に関連した認識されたテキストの部分１２０００をどのように選択し、そして、エディタ・オプション・メニュー下のサブ・メニューに於いて、図９０に示されたオプション９０２４を選択することによって、その関連した認識された音声から取り去られたテキストを有することをどのように選択することができるかを説明している。これは、音声１２００２、及び、認識されたテキストが以前存在したメディアの一部に現存する、その対応する音声グラフィックス表現を残す。
図１２１は、図２１の１２１０２に示されているように、編集オプション・メニューの音声メニュー下からの図９０の機能９０２０が、どのようにして、ユーザが部分１２１００に関連した認識された音声から、そのテキストの認識されたテキストを取り去ることを許可するかについて説明している。
図１２２乃至１２５は、図１２６に於ける擬似コードに於いて説明されたデジタル・ダイアル・モードの動作に関して説明している。例えば、図６５の機能６５５２で示されているように、メイン・メニューの状態で、電話キー「２」を押下すること、又は、システムが画面６４００及び図６４で示された最高レベル電話モードの状態で、ナビゲーション左ボタンを選択することによって、ユーザがデジタル・ダイアル・モードを選択する場合、システムは図１２６に示されたデジタル・ダイアル・モードを入力し、ユーザに電話番号を発話するように指示するプロンプト画面１２２０２を表示する。１２２０４に示されているように、ユーザが電話番号の発話を発声する場合、その発話が認識される。システムが電話番号の正確な認識に於いてかなり信頼性がある場合、１２２０６に示されているように、認識された電話番号を自動的にダイアルする。システムが電話番号の認識に於いて信頼性がない場合、訂正ウインドウ１２２０８を表示する。１２２１０で示されているように、訂正ウインドウが第１選択肢として所望の番号を有する場合、ユーザは「ＯＫ」キーを押下することによって、それを単に選択することができ、１２２１２で示されているように、システムに数字をダイアルさせる。１２２１４で示されているように、訂正選択肢が第１選択肢リストにある場合、１２２１６で示されているように、ユーザは数字をダイアルするシステムのために、その選択肢に関連した電話キー・ナンバーを単に押下することが出来る。
図１２３の一番上に示された画面１２３００で示されているように、訂正数字は、第１選択肢でもなく、第１選択肢リストにもない場合、数字１２３０２によって示されているように、ページ下キーを繰り返し押下すること、又は、１２３０４で示されているように、アイテム下キーを繰り返し押下することの何れかによって、ユーザは所望の数字が第２選択肢リストの画面の一つにあるかどうかを確認するためのチェックを行うことが出来る。これらの方法の何れかで選択肢リストをスクロールすることによって、ユーザが所望の番号を見る場合、ユーザはその関連した電話キーを押下すること、又は、選択肢の強調表示をそれに移動させ、その後、キー「ＯＫ」を押下することの何れかによって、それを選択することが出来る。これにより、画面１２３０８で示されているように、システムにその番号をダイアルさせる。当然のことながら、選択肢リストにおける電話番号は数字順に並んでいるので、ユーザは該リストをスクロールすることによって、所望の番号を直ちに見つけることが出来る。これらの図で示された実施形態に於いて、数字変更インジケータ１２３１０は、任意の選択肢がリスト上でそれより前の選択肢と異なる、最も重要な数字の縦列を示すために与えられる。これにより、所望の電話番号を自分の目で調べることが容易になる。
図１２４は、数字ダイアル・モードによって、どのようにユーザが第１選択肢に於ける数字の位置にナビゲートし、その中に存在する任意のエラーを訂正することを許可されるかについて説明している。図１２４に於いて、これは所望の数字を発話することによって実行されるが、ユーザはまた、適切な電話キーの押下によって、所望の番号の訂正が許可されている。
図１２５に図示されているように、ユーザは欠けている数字を挿入することはもちろん、間違って認識された数字を痴漢することによって、間違って認識された電話番号を編集することが出来る。
上述の発明は、音声認識の入力及び訂正はもちろん、図３乃至８に示されたもの全てを含む、多くの様々なタイプのコンピューティング・プラットフォームに於ける他の形式の認識のために使用することが可能な多くの特徴を有する。図９４に関して説明された発明の多くの特徴は、それらのタスクに、視覚的な注意を十分払うことを必要とせずに、ユーザがテキストの入力、及び／又は、編集を望んでいる状況で使用することが出来る。例えば、これによって、ユーザは自分の携帯電話や他のディクテーション・デバイスをしっかりと見ることを必要とせずに、公園で歩きながら、Ｅメールを聞き、返事をディクテーションすることが可能となる。そうした音声フィードバックが音声認識、及び、電話のダイアルや電話の制御等、他の制御機能に有用な一つの特別の環境は、図１２６に図示されているような、自動車空間である。
図１２６に示されている実施形態に於いて、自動車はコンピュータ１２６００を有しており、該コンピュータは、携帯無線通信システム１２６０２に接続され、カー・オーディオ・システム１２６０４に接続されている。多くの実施形態に於いて、自動車の電子システムは、例えばＢｌｕｅｔｏｏｔｈ等の短距離無線トランシーバ、又は、他の短距離無線トランシーバ１２６０６を有する。これらは、ワイヤレス・ヘッドフォン２６０８、又は、ユーザの携帯電話１２６１０と通信するために使用可能であり、その結果、ユーザは自動車を使用しながら、通常の携帯電話に記録された情報にアクセスするという利点を有することが出来る。
携帯電話／無線トランシーバ１２６０２は、携帯電話の送受信だけでなく、Ｅメールの送受信、上述の機能で聞くこと及び編集が可能なテキスト・ファイル等のデジタル・ファイル、及び、音声ウェブ・ページを送受信するためにも使用することが出来ることが望ましい。
示された携帯電話の実施形態に関して上述した機能の多くを制御するための入力デバイスは、過度にユーザが運転機能から注意を逸らすことなく、キーにアクセスすることが出来る、自動車のハンドル等の位置に設置されることが望ましい電話キーパッド１２２１２によってアクセスすることが可能である。事実、図１２６に示された位置に類似した位置を有するキーパッドを使用して、ユーザは片手の親指でキーパッドのボタンを選択しながら、同じ手の指をハンドルの縁の辺りに置くことが出来る。そうした実施形態では、ユーザがどのキーを押下しているのか、及び、キーパッドを見る必要がないように、そのキーの機能を決定することが出来るように、図９４の９４０４乃至９４１４に関して上述されたＴＴＳキー機能を、そのシステムが有することが望ましい。他の実施形態では、また、そうした情報を有する電話キーをただ接触することに対応する接触キーパッドが、より簡単で早く使用できるものになり得る。
図１２７及び１２８は、携帯電話の実施形態に関して上述した可能性の殆どが、例えば、図１２７に示されたコードレス電話や、図１２８で示された地上有線電話等、他のタイプの電話で使用可能であることを図示している。
前述の記述及び図は、単に説明及び例示のために用いられており、本発明は添付された請求項の解釈が限られている限りを除いて、それに限られるものではないことを理解すべきである。それらの前に開示を有する当業者は、本発明の要旨を逸脱しない範囲で、その中に修正及び変更を行うことが出来る。
幅広く特許請求の範囲が請求されているように、本願発明は、オペレーティング・システム、コンピュータ・ハードウェア、コンピュータ・ネットワークの任意の一つのタイプの使用に限られるものではなく、したがって、本発明の他の実施形態では異なるソフトウェア及びハードウェア・システムを使用することが可能である。
さらに、下記の請求項に於いて記述されたプログラムの動作は、実際の全てのプログラムの動作のように、相当異なる機構及び順番を使用して、多くの異なるプログラミング及びデータ構造によって実行することが可能であることが理解されるべきである。これは、当業者によって理解された場合、複雑な所定の考えは、実際無限の方法で明らかにすることが出来るからである。したがって、請求項の範囲は、正確な機能、及び／又は、図中で示された機能の配列に限られることはあり得ない。これが特に当てはまるのは、不必要に詳細を用いて当業者を悩ますことなく、本発明を実行するために当業者が知る必要のあるものに、より効果的に知らせるために、上述のテキストで記述された擬似コードが高度に簡素化されているからである。そうした簡略化のために、上述の擬似コードに構造は、本発明を実行する際に、熟練したプログラマーが使用する実際のコードに関する構造とは相当異なっている場合が多い。さらに、明細書に於いてソフトウェアで実行されることが示された多くのプログラムの動作は、他の実施形態に於いてハードウェアで実行することが可能である。
上記に於いて議論した本発明に関する多くの実施形態に於いて、本発明のそうした特徴に関する他の実施形態で個別に生じる本発明の様々な特徴が、同時に生じることが示されている。
本願に於いて記述された本発明に関する全ての特徴及び側面は、明細書、図面、及び、元の請求項の範囲を含み出願されるので、当然のことながら、本発明は方法、装置システム、及び、機械で読み取り可能な形式で記録されたプログラミングに本発明を拡大する。

音声認識ソフトウェアの使用に対して、発話された音声をどのように音響パラメータ・フレームに変換することが出来るかということに関する概略図である。表音的綴りを使用して、例えば図１に示されたパラメータ・フレーム等、パラメータ・フレームの連続によって表現された単語を認識するために、音声認識をどのように使用することが出来るか、及び、パラメータ・フレームが取り除かれた元の音響信号に対して、それらの単語を時間的に整合するために、単語の音声モデル間の時間的整合を、どのように使用することが出来るか、に関する概略図である。本発明の多くの特徴を使用可能なコンピュータ・プラットフォームに関する様々なタイプの進歩を示し、より小型、及び／又は、よりポータブルなコンピューティング・デバイスへの潮流を図示する図である。本発明の多くの特徴を使用可能なコンピュータ・プラットフォームに関する様々なタイプの進歩を示し、より小型、及び／又は、よりポータブルなコンピューティング・デバイスへの潮流を図示する図である。本発明の多くの特徴を使用可能なコンピュータ・プラットフォームに関する様々なタイプの進歩を示し、より小型、及び／又は、よりポータブルなコンピューティング・デバイスへの潮流を図示する図である。本発明の多くの特徴を使用可能なコンピュータ・プラットフォームに関する様々なタイプの進歩を示し、より小型、及び／又は、よりポータブルなコンピューティング・デバイスへの潮流を図示する図である。本発明の多くの特徴を使用可能なコンピュータ・プラットフォームに関する様々なタイプの進歩を示し、より小型、及び／又は、よりポータブルなコンピューティング・デバイスへの潮流を図示する図である。本発明の多くの特徴を使用可能なコンピュータ・プラットフォームに関する様々なタイプの進歩を示し、より小型、及び／又は、よりポータブルなコンピューティング・デバイスへの潮流を図示する図である。デバイスで起動するアプリケーション・プログラムへのテキストの音声認識による入力を許可し、本発明の多くの特徴を具体化し、ソフトウェア入力パネル（ＳＩＰ）を表示するタッチ・スクリーンを有する携帯情報端末（ＰＤＡ）デバイスを図示する図である。図９に図示されたタイプのＰＤＡに於いて見られるハードウェア及びソフトウェアの多くに関する高度な概略図である。図９に図示された音声認識ＳＩＰの特定のエレメントの多くを指し示すために使用された、図９に図示された画面イメージに関する拡大図である。音声認識ＳＩＰ及びグラフィカル・ユーザ・インターフェイス・エレメントの多くによって作り出された訂正ウインドウについても説明している点を除いて、図１１に類似している図である。様々な入力、特にグラフィカル・ユーザ・インターフェイスから受信した入力に対して音声認識ＳＩＰが行う対応に関する高度に簡略化した擬似コードの記述を示す図である。様々な入力、特にグラフィカル・ユーザ・インターフェイスから受信した入力に対して音声認識ＳＩＰが行う対応に関する高度に簡略化した擬似コードの記述を示す図である。様々な入力、特にグラフィカル・ユーザ・インターフェイスから受信した入力に対して音声認識ＳＩＰが行う対応に関する高度に簡略化した擬似コードの記述を示す図である。様々な入力、特にグラフィカル・ユーザ・インターフェイスから受信した入力に対して音声認識ＳＩＰが行う対応に関する高度に簡略化した擬似コードの記述を示す図である。様々な入力、特にグラフィカル・ユーザ・インターフェイスから受信した入力に対して音声認識ＳＩＰが行う対応に関する高度に簡略化した擬似コードの記述を示す図である。図９に図示された音声認識ＳＩＰと、図５９で初めて図示された携帯電話の実施形態の内、何れか一方に於いて、一つ又は複数のユーザ・インターフェイス・ボタンの押下に対応して音声認識がオンの状態に切り換えられる時間の長さを決定するために使用された、認識持続ロジックに関する高度に簡略化された擬似コードである。図９の音声認識ＳＩＰに接触するだけで、該音声認識ＳＩＰのそれぞれのエレメントに関連付けられた機能の記述をユーザが視認可能なヘルプ・モードに関する高度に簡略化された擬似コードの記述である。図１９で説明されたヘルプ・モードによって作り出された画面イメージである。図１９で説明されたヘルプ・モードによって作り出された画面イメージである。訂正ウインドウを表示するために、図９の音声認識ＳＩＰ、及び、図５９の携帯電話に関する実施形態の両方による様々な形式で使用される選択肢表示リスト・ルーチンに関する高度に簡略化された擬似コードの記述である。図２２の選択肢表示リスト・ルーチンによって使用される一つ又は複数の選択肢リストを生成するために、音声認識ＳＩＰ、及び、携帯電話の実施形態の両方によって、様々な形式で使用される選択肢獲得ルーチンに関する高度に簡略化された擬似コードの記述である。図２３の選択肢獲得ルーチンによって使用される発話リスト・データ構造を説明する図である。図２３の選択肢獲得ルーチンによって使用された発話リスト・データ構造を説明する図である。あるとすれば、ユーザによって入力されたフィルタリング入力に適合するために、訂正ウインドウ選択肢を制限する選択肢獲得ルーチンによって使用されるマッチ・フィルタ・ルーチンに関する高度に簡略化された擬似コードの記述である。所定の単語又は選択に関する代替形式を表示する単語形式訂正リストを生成するために、音声認識ＳＩＰ及び携帯電話に関する実施形態の両方によって様々な形式で使用される、単語形式リスト・ルーチンに関する高度に簡略化された擬似コードの記述である。ユーザからのアルファベット・フィルタリング情報入力に対応して、図２６のフィルタ・マッチ・ルーチンによって使用されるフィルタ文字列を編集するために、音声認識ＳＩＰ及び携帯電話に関する実施形態の両方によって様々な形式で使用される、編集フィルタ・ルーチンの高度に簡略化された擬似コードの記述である。ユーザからのアルファベット・フィルタリング情報入力に対応して、図２６のフィルタ・マッチ・ルーチンによって使用されるフィルタ文字列を編集するために、音声認識ＳＩＰ及び携帯電話に関する実施形態の両方によって様々な形式で使用される、編集フィルタ・ルーチンの高度に簡略化された擬似コードの記述である。フィルタ文字列の個々の文字に対して選択肢リストを表示するために、音声認識ＳＩＰ及び携帯電話に関する実施形態の両方によって様々な形式で使用される文字選択肢フィルタ・ルーチンに関する高度に簡略化された擬似コードの記述である。ユーザが個別離散音声認識法を用いて単語の認識を入力及び訂正する、ユーザと音声認識ＳＩＰ間の対話の手順を示す図である。ユーザが個別離散音声認識法を用いて単語の認識を入力及び訂正する、ユーザと音声認識ＳＩＰ間の対話の手順を示す図である。ユーザが個別離散音声認識法を用いて単語の認識を入力及び訂正する、ユーザと音声認識ＳＩＰ間の対話の手順を示す図である。ユーザが個別離散音声認識法を用いて単語の認識を入力及び訂正する、ユーザと音声認識ＳＩＰ間の対話の手順を示す図である。ユーザが個別離散音声認識法を用いて単語の認識を入力及び訂正する、ユーザと音声認識ＳＩＰ間の対話の手順を示す図である。所望の単語を見つけ、その後、それをテキストに入力する前に、それを大文字化するための大文字ボタンを使用するまで、訂正ウインドウに提示された選択肢リストをスクロールすることによって、図３５の最後に図示された間違った認識を、ＳＩＰのユーザがどのように訂正可能かを示す図である。ＳＩＰのユーザが、訂正ウインドウに於ける代替選択肢の一部を選択すること、及び、所望の音声認識出力を選択するためにフィルタとしてそれを使用することによって、そうした間違った認識をどのように訂正することが出来るかを示す図である。音声認識手段の出力が、アルファベットに於ける２つの選択された選択肢の間に位置する文字の配列で始まる出力に限定されるように、訂正ウインドウに於ける、２つの連続するアルファベット順の代替選択肢を、ＳＩＰのユーザがどのように選択することが出来るかを示す図である。ＳＩＰのユーザがフィルタリング文字を入力するために、音名の音声認識をどのように使用することが出来るか、及び、フィルタ文字選択肢リストを、そうしたフィルタ文字の認識に於いて、エラーを訂正するためにどのように使用することが出来るか、を示す図である。ＳＩＰ認識手段のユーザが、国際コミュニケーション・アルファベットを使用するフィルタ文字列の一つ又は複数の文字をどのように入力することが出来るか、及び、ＳＩＰインターフェイスが、ユーザにそのアルファベットからの単語をどのように表示することが出来るか、を示す図である。ユーザが訂正ウインドウに於ける代替選択肢から文字の最初の配列をどのように選択することができ、その後、所望の出力の綴りを完了するために、その配列に文字を追加するために、国際コミュニケーション・アルファベットをどのように使用することが出来るかを示す図である。連続音声認識を用いて、ユーザがＳＩＰにテキストを入力及び編集するユーザ相互作用の手順を示す図。連続音声認識を用いて、ユーザがＳＩＰにテキストを入力及び編集するユーザ相互作用の手順を示す図。図４３の下部に示された訂正ウインドウが、訂正ウインドウの水平及び垂直スクロールの組み合わせ、及びそれに表示された選択肢によって、如何にして訂正することが出来るかを図示する図である。曖昧な（又は複数値）フィルタとして、連続音名認識を使用して、所望の出力の全て又は一部を綴ることによって、間違った認識をどのようにして訂正することが出来るか、及び、そうした連続音名認識で作り出されたエラーを直ちに訂正するために、ユーザがどのようにしてフィルタ文字選択肢リストを使用することが出来るか、を示す図である。音声認識ＳＩＰもまた、描画された文字の認識によって、ユーザに文字をどのように入力させることが出来るかを示す図である。図４６に示されたタイプの描画された文字の認識を実行する際に、ＳＩＰによって使用される、文字認識モードに関する高度に簡略化された擬似コードの記述ある。音声認識ＳＩＰが、手書文字認識を使用してどのようにユーザにテキストを入力させるのかを示す図である。図４８に示されたタイプの手書文字認識を実行する際に、ＳＩＰによって使用される手書文字認識モードに関する高度に簡略化された擬似コードの記述である。音声認識システムが、ソフトウェア・キーボードを用いてユーザにどのようにテキストを入力させることが可能かであるかを示す図である。音声認識、文字認識、手書文字認識、及び、ソフトウェア・キーボード入力など、フィルタリング情報を入力するための異なる方法から選択するために、選択可能なフィルタ入力モード・メニューについて示す図である。ＳＩＰの訂正ウインドウに於いて作り出された音声認識選択肢をフィルタ処理するために、文字認識、手書文字認識、又は、ソフトウェア・キーボード入力の何れかをどのようにして使用することが出来るかを示す図である。ＳＩＰの訂正ウインドウに於いて作り出された音声認識選択肢をフィルタ処理するために、文字認識、手書文字認識、又は、ソフトウェア・キーボード入力の何れかをどのようにして使用することが出来るかを示す図である。ＳＩＰの訂正ウインドウに於いて作り出された音声認識選択肢をフィルタ処理するために、文字認識、手書文字認識、又は、ソフトウェア・キーボード入力の何れかをどのようにして使用することが出来るかを示す図である。ＳＩＰが、手書文字認識入力を訂正するために、単語又はフィルタリング文字の音声入力をどのように使用可能にするかを示す図である。ＳＩＰが、手書文字認識入力を訂正するために、単語又はフィルタリング文字の音声入力をどのように使用可能にするかを示す図である。離散音声認識、及び、連続音声認識からそれぞれ選択するために、２つの個別の最高レベル・ボタン５７０２及び５７０４が存在する、ＳＩＰ音声認識インターフェイスの代替実施形態５７００を図示する図である。図２２に示されているように、アルファベット順というよりは、むしろ認識得点によってのみ、作成された選択肢リストが選択肢を順序付ける、図２２の選択肢表示リスト・ルーチンの代替実施形態に関する高度に簡略化された記述である。本発明の多くの特徴を具体化する携帯電話を示す図である。例えば図５９で示されているような、典型的な携帯電話の主要部分に関する高度に簡略化されたブロック図である。図５９の携帯電話に於いて一つ又は複数の大容量記憶装置デバイスに記録された様々なプログラミング及びデータ構造に関する高度に簡略化されたブロック図である。図５９の携帯電話が、番号が割り当てられた電話キーを押下することによって、従来の電話のダイアルを可能にすることを示す図である。図６２の一番上に示された画面によって図示されているように、トップ・レベルの電話モードの状態に於ける、図５９の携帯電話のコマンド構造に関する高度に簡略化された擬似コードの記述である。図５９の携帯電話のユーザが、携帯電話のメニュー・キーを押下することにより、どのようにメイン・メニューのコマンドにアクセスすることができ、即座に視認することが出来るかを示す図である。図６４に示されたメイン・メニューの操作に関する高度に簡略化された擬似コードの記述である。図６４に示されたメイン・メニューの操作に関する高度に簡略化された擬似コードの記述である。図５９の携帯電話で動作する音声認識テキスト・エディタに関連した様々な重要なモード及びメニューのそれぞれに於ける、携帯電話の番号が付与されたキーのコマンド・マッピングを示す図である。図５９の携帯電話で動作する音声認識テキスト・エディタに関連した様々な重要なモード及びメニューのそれぞれに於ける、携帯電話の番号が付与されたキーのコマンド・マッピングを示す図である。図５９の携帯電話で動作する音声認識テキスト・エディタに関連した様々な重要なモード及びメニューのそれぞれに於ける、携帯電話の番号が付与されたキーのコマンド・マッピングを示す図である。図５９の携帯電話で動作する音声認識テキスト・エディタに関連した様々な重要なモード及びメニューのそれぞれに於ける、携帯電話の番号が付与されたキーのコマンド・マッピングを示す図である。図５９の携帯電話で動作する音声認識テキスト・エディタに関連した様々な重要なモード及びメニューのそれぞれに於ける、携帯電話の番号が付与されたキーのコマンド・マッピングを示す図である。図５９の携帯電話で動作する音声認識テキスト・エディタに関連した様々な重要なモード及びメニューのそれぞれに於ける、携帯電話の番号が付与されたキーのコマンド・マッピングを示す図である。図５９の携帯電話で動作する音声認識テキスト・エディタに関連した様々な重要なモード及びメニューのそれぞれに於ける、携帯電話の番号が付与されたキーのコマンド・マッピングを示す図である。図５９の携帯電話で動作する音声認識テキスト・エディタに関連した様々な重要なモード及びメニューのそれぞれに於ける、携帯電話の番号が付与されたキーのコマンド・マッピングを示す図である。携帯電話のテキスト編集ソフトウェアのユーザが、メニュー・ボタンを押下すること、及び、図６４に示されたタイプのメニューと実質的に同一の方法で使用可能なコマンド・リストをスクロールすることによって、非メニュー・モードに於いて一つ又は複数のキーに関連付けられた機能を、どのようにして即座に視認することが出来るかを示す図である。テキスト・ウインドウ、エディタ、モードの状態で、携帯電話の音声認識プログラムの対応に関する高度に簡略化された擬似コード記述である。テキスト・ウインドウ、エディタ、モードの状態で、携帯電話の音声認識プログラムの対応に関する高度に簡略化された擬似コードの記述である。テキスト・ウインドウ、エディタ、モードの状態で、携帯電話の音声認識プログラムの対応に関する高度に簡略化された擬似コードの記述である。テキストを入力するための様々な方法の中から選択するために、様々な音声認識モードからアクセス可能な入力モード・メニューに関する高度に簡略化された擬似コードの記述である。テキストを入力するための様々な方法の中から選択するために、様々な音声認識モードからアクセス可能な入力モード・メニューに関する高度に簡略化された擬似コードの記述である。訂正ウインドウを表示し、そうした訂正ウインドウが表示された際にユーザ入力に対応するために、携帯電話によって使用される訂正ウインドウ・ルーチンに関する高度に簡略化された擬似コードの記述である。訂正ウインドウを表示し、そうした訂正ウインドウが表示された際にユーザ入力に対応するために、携帯電話によって使用される訂正ウインドウ・ルーチンに関する高度に簡略化された擬似コードの記述である。訂正ウインドウを表示し、そうした訂正ウインドウが表示された際にユーザ入力に対応するために、携帯電話によって使用される訂正ウインドウ・ルーチンに関する高度に簡略化された擬似コードの記述である。編集モードのテキスト・ウインドウが表示される際に、携帯電話のナビゲーション・キーを用いて、ナビゲーションの様々な方法をユーザが選択可能な編集ナビゲーション・メニューに関する高度に簡略化された擬似コードの記述である。訂正ウインドウの状態で、ユーザが携帯電話のナビゲーション・キーを用いて、ナビゲーションの様々な方法を選択可能であり、また、訂正ウインドウが訂正ウインドウに於ける代替選択肢の選択に対応することが可能な異なる方法の中からユーザが選択可能である、訂正ウインドウ・ナビゲーション・メニューに関する高度に簡略化された擬似コードの記述である。その文字で始まる単語を発声することによって、ユーザが文字を入力可能であり、そうした認識を、押下されたキーに関連付けられた３文字又は４文字の中の１文字で始まる単語に認識を実質的に限定することによって、電話キーの押下に対応する、キー・アルファ・モードに関する僅かに異なる３つの実施形態に関する高度に簡略化された擬似コードの記述である。その文字で始まる単語を発声することによって、ユーザが文字を入力可能であり、そうした認識を、押下されたキーに関連付けられた３文字又は４文字の中の１文字で始まる単語に認識を実質的に限定することによって、電話キーの押下に対応する、キー・アルファ・モードに関する僅かに異なる３つの実施形態に関する高度に簡略化された擬似コードの記述である。その文字で始まる単語を発声することによって、ユーザが文字を入力可能であり、そうした認識を、押下されたキーに関連付けられた３文字又は４文字の中の１文字で始まる単語に認識を実質的に限定することによって、電話キーの押下に対応する、キー・アルファ・モードに関する僅かに異なる３つの実施形態に関する高度に簡略化された擬似コードの記述である。携帯電話の音声認識プログラミングに関するモードの多くからアクセス可能な編集オプション・メニューに基づいて、使用可能な幾つかのオプションに関する高度に簡略化された擬似コードの記述である。携帯電話の音声認識プログラミングに関するモードの多くからアクセス可能な編集オプション・メニューに基づいて、使用可能な幾つかのオプションに関する高度に簡略化された擬似コードの記述である。認識選択肢を、例えば、単語に関する特定の文法タイプなど、単語の特定のタイプに限定するために使用可能な単語タイプ・メニューに関する高度に簡略化された記述である。認識選択肢を、例えば、単語に関する特定の文法タイプなど、単語の特定のタイプに限定するために使用可能な単語タイプ・メニューに関する高度に簡略化された記述である。様々な音声認識機能に対してデフォルトの認識設定を設定するために使用可能な、又は、認識持続設定を設定するために使用可能な、入力優先メニューに関する高度に簡略化された擬似コードの記述である。携帯電話で使用可能なＴＴＳ再生操作に関する高度に簡略化された擬似コードの記述である。携帯電話のＴＴＳ生成が、携帯電話の音声認識で使用されるプログラミング及びデータ構造をどのように使用するかに関する高度に簡略化された擬似コードの記述である。携帯電話の音声認識機能を使用して、ユーザに携帯電話に録音された音声をより簡単に転写させる携帯電話の転写モードに関する高度に簡略化された擬似コードの記述である。携帯電話に於いて提示されたダイアログ・ボックスに於いて、テキストを入力及び編集するためだけでなく、例えば、そうしたダイアログ・ボックスに於けるリスト・ボックス、チェック・ボックス、及び、ラジオ・ボタンなど、制御状態を変更するために、携帯電話の音声認識エディタを使用することが可能なプログラミングに関する高度に簡略化された擬似コードの記述である。ユーザが携帯電話のコマンド構造に於いて様々な位置の記述を即座に発見することが出来るように、携帯電話で使用可能なヘルプ・ルーチンに関する高度に簡略化された擬似コードの記述である。図９８のプログラミングによって表示されたタイプのヘルプ・メニューに関する例を示す図である。図９８のプログラミングによって表示されたタイプのヘルプ・メニューに関する例を示す図である。携帯電話のコマンド構造の様々な部分に関連付けられた機能を即座に検索する図９８のヘルプ・プログラミング、及び、携帯電話のコマンド構造の様々な部分に関連付けられた機能に関する受け付けられた記述をユーザがどのように使用することが出来るかを示す図である。携帯電話のコマンド構造の様々な部分に関連付けられた機能を即座に検索する図９８のヘルプ・プログラミング、及び、携帯電話のコマンド構造の様々な部分に関連付けられた機能に関する受け付けられた記述をユーザがどのように使用することが出来るかを示す図である。連続音声認識を使用して、ユーザがテキストの入力及び訂正を行う携帯電話の音声認識エディタのユーザ・インターフェイスと、ユーザとの間の相互作用の手順を示す図である。連続音声認識を使用して、ユーザがテキストの入力及び訂正を行う携帯電話の音声認識エディタのユーザ・インターフェイスと、ユーザとの間の相互作用の手順を示す図である。携帯電話に表示された訂正ウインドウに於いて、ユーザがどのように水平方向にスクロールすることが出来るかを示す図である。どのようにしてキー・アルファ認識モードをエディタのテキスト・ウインドウにアルファベット入力を入力するために使用することが出来るかを説明する図である。図８６に示されたキー・アルファ・モードの操作を示す図である。携帯電話の音声認識エディタによって、ユーザが、携帯電話の無線通信機能によって送信可能なＥメール・メッセージに於けるテキストを、どのようにアドレス指定し、入力し、編集することが可能であるかを示す図である。携帯電話の音声認識エディタによって、ユーザが、携帯電話の無線通信機能によって送信可能なＥメール・メッセージに於けるテキストを、どのようにアドレス指定し、入力し、編集することが可能であるかを示す図である。携帯電話の音声認識が、一つ又は複数の単語に関する離散認識からの得点と、所望の出力の作成を支援するためのそれらの単語に関する以前の連続認識からの得点を、どのように組み合わせることが出来るかを示す図である。携帯電話の無線通信機能を使用して、ワールド・ワイド・ウェブのサイトにアクセスするために、携帯電話音声認識ソフトウェアをＵＲＬの入力にどのように使用することが出来るかを示す図である。ワールド・ワイド・ウェブのページをナビゲートし、アイテムを選択し、そうしたウェブ・ページのフィールドにテキストを入力及び編集するために、携帯電話の音声認識ユーザ・インターフェイスのエレメントを、どのように使用することが可能かを示す図である。ワールド・ワイド・ウェブのページをナビゲートし、アイテムを選択し、そうしたウェブ・ページのフィールドにテキストを入力及び編集するために、携帯電話の音声認識ユーザ・インターフェイスのエレメントを、どのように使用することが可能かを示す図である。例えば、ウェブ・ページのテキスト・フィールドやダイアログ・ボックスなど、大き過ぎて携帯電話の画面に表示されたテキスト・フィールドに一度で表示できないテキスト文字列をユーザがより簡単に読むことが出来るようにするために、携帯電話音声認識ユーザ・インターフェイスをどのように使用することが出来るかを示す図である。携帯電話のファインド・ダイアログ・ボックスと、ユーザが音声認識によって、探索文字列をどのようにダイアログ・ボックスに入力することが出来るかということと、その後、検出機能は入力された文字列の検索をどのように実行するかということと、検出されたテキストが携帯電話に録音された音声をラベル付けするためにどのように使用され得るかということ、を示す図である。図９７に示されたダイアログ・ボックス・エディタ・プログラミングによって、音声認識がリスト・ボックスに関連付けられた可能な値の中から選択するために、どのように使用され得るかを示す図である。氏名を用いて人々に電話をかけるために音声認識をどのように使用することが出来るか、及び、そうした携帯電話の通話中に携帯電話の音声再生及び録音機能をどのように使用することが出来るかを示す図である。テキスト・ラベル、又は、テキスト・コメントを記録された音声に挿入するために、携帯電話が音声を録音中に、音声認識をどのようにオン、オフの状態を切り換えることが出来るかを示す図である。携帯電話によって、ユーザが以前録音された音声の一部に対して実行される音声認識をどのように有することが出来るかを示す図である。携帯電話によって、ユーザがその音声の音声録音からの所定の音声セグメントに対して認識されたテキストをどのように取り除くことが出来るかを示す図である。携帯電話によって、ユーザがテキストの選択されたセグメントの一部が音声録音に関連付けられているという表示を、どのようにオン又はオフの何れかの状態に切り換ることが出来るかを示す図である。携帯電話音声認識ソフトウェアによって、ユーザが音声認識によって電話番号をどのように入力することが出来るか、及び、間違った場合に、そうした番号の認識をどのように訂正することが出来るか、を示す図である。携帯電話音声認識ソフトウェアによって、ユーザが音声認識によって電話番号をどのように入力することが出来るか、及び、間違った場合に、そうした番号の認識をどのように訂正することが出来るか、を示す図である。携帯電話音声認識ソフトウェアによって、ユーザが音声認識によって電話番号をどのように入力することが出来るか、及び、間違った場合に、そうした番号の認識をどのように訂正することが出来るか、を示す図である。携帯電話音声認識ソフトウェアによって、ユーザが音声認識によって電話番号をどのように入力することが出来るか、及び、間違った場合に、そうした番号の認識をどのように訂正することが出来るか、を示す図である。図５９乃至１２５で示された携帯電話の実施形態に関する特徴の内、ＴＴＳ及び携帯電話に関する実施形態の持続ロジックの特徴を含む、どれだけの特徴を自動車環境で使用することが出来るのかを示す図である。図５９乃至１２５で示された携帯電話に関する実施形態の特徴の殆どは、コードレス電話、又は、地上通信線電話の何れかで使用可能であることを示す図である。図５９乃至１２５で示された携帯電話に関する実施形態の特徴の殆どは、コードレス電話、又は、地上通信線電話の何れかで使用可能であることを示す図である。図１１７に部分的に示された携帯電話に関する実施形態の氏名ダイアリング・プログラミングに関する高度に簡略化された擬似コードの記述である。図１２２乃至１２５で示された携帯電話の数字ダイアル・プログラミングに関する高度に簡略化された擬似コードの記述である。

Claims

ユーザが第１ユーザ入力及び第２ユーザ入力の生成から選択可能なユーザ・インターフェイスを提供することと、
少なくとも、以前に認識された単語によって作成された言語モデル文脈に部分的に依存する認識の第１単語を認識する、以前の言語文脈依存モードに於いて、一つ又は複数の発話に関して大語彙認識を実行することによって、前記第１ユーザ入力の形成に対応することと、
少なくとも、以前の認識された単語によって作成された言語モデル文脈から独立した認識の第１単語を認識する、以前の言語文脈独立モードに於いて、一つ又は複数の発話に関して大語彙認識を実行することによって、前記第２ユーザ入力の形成に対応することと、を備える音声認識方法。
前記ユーザ・インターフェイスは、第１ボタン及び第２ボタンを有し、
前記第１ユーザ入力は、前記第１ボタンの押下によって形成され、
前記第２ユーザ入力は、前記第２ボタンの押下によって形成される、
請求項１に記載の音声認識方法。
第２単語、及び、それに続く単語の選択時に、あるとしても、発話に関して認識された、発話に関する第１の認識された単語、及び、それに続く認識された単語によって作成された言語モデル文脈を使用する、請求項１に記載の音声認識方法。
他のプログラムへのテキスト入力として、前記以前の言語文脈依存モード及び前記以前の言語文脈独立モードによる認識された単語の出力を提供することをさらに備える、請求項１に記載の音声認識方法。
前記方法は、マイクロソフト・ウインドウズＣＥに於けるソフトウェア入力パネルで実行される、請求項４に記載の音声認識方法。
ユーザが第１ユーザ入力及び第２ユーザ入力の生成から選択可能なユーザ・インターフェイスを提供することと、
連続音声認識モードに於いて任意の語彙に於ける一つ又は複数の単語として、一つ又は複数の発話を認識することによって第１ユーザ入力の形成に対応することと、
離散音声認識モードに於いて、同一の任意の語彙に於ける一つ又は複数の単語として、一つ又は複数の発話を認識することによって第２ユーザ入力の形成に対応することと、を備える音声認識方法。
前記任意の語彙は大語彙である、請求項６に記載の音声認識方法。
前記任意の語彙はアルファベット入力語彙である、請求項６に記載の音声認識方法。
前記ユーザ・インターフェイスは、ユーザが前記第１入力及び前記第２入力の選択から独立な第３入力及び第４入力の形成から選択することを許可し、
前記音声認識方法は、さらに、第１語彙又は第２語彙を前記任意の語彙として選択することによって、前記第３入力及び第４入力にそれぞれ対応することを備える、請求項６に記載の音声認識方法。
前記第１語彙及び前記第２語彙は、単語の大語彙及びアルファベット入力語彙である、請求項９に記載の音声認識方法。
前記第１語彙及び前記第２語彙は２つの異なるアルファベット入力語彙である、請求項９に記載の音声認識方法。
提供された前記ユーザ・インターフェイスは、第１ボタン及び第２ボタンを有し、
前記第１ユーザ入力は、前記第１ボタンの押下によって形成され、
前記第２ユーザ入力は、前記第２ボタンの押下によって形成される、
請求項６に記載の音声認識方法。
前記第１ボタン及び前記第２ボタンの押下によって、前記ボタンのかなりの押下時間から、検出された発話の次回の最後まで、それぞれの認識モードが認識し、
前記離散認識が前記発話に一致する単一の単語に対する一つ又は複数の候補の認識に限定され、
連続認識モードがそのように限定されない、請求項１２に記載の音声認識方法。
離散認識モードで単語を表現するために使用される音響モデルは、連続認識モードで前記単語と同一単語を表現するために使用される音響モデルとは異なっている、請求項６に記載の音声認識方法。
ユーザが第１ユーザ入力及び第２ユーザ入力の生成から選択可能なユーザ・インターフェイスを提供することと、
第１アルファベット入力語彙に於ける一つ又は複数の単語として、一つ又は複数の発話を認識することによって前記第１ユーザ入力の生成に対応することと、
第２アルファベット入力語彙に於ける一つ又は複数の単語として、一つ又は複数の発話を認識することによって、前記第１ユーザ入力の生成に対応することと、を備える音声認識方法。
前記第１アルファベット入力語彙は、アルファベットのそれぞれの音名を有し、前記第２アルファベット入力語彙は、アルファベットのそれぞれの音名を有しておらず、
前記第２アルファベット入力語彙は、アルファベットのそれぞれの文字で始まる一つ又は複数の単語を有し、前記代１アルファベット入力語彙は、アルファベットのそれぞれの文字で始まる一つ又は複数の単語を有していない、請求項１５に記載の音声認識方法。
前記ユーザ・インターフェイスは、前記第１入力及び前記第２入力を生成するための別々のボタンを提供する、請求項１５に記載の音声認識方法。
前記ボタンのそれぞれを接触することによって、前記ボタンに関連したアルファベット入力モードに於いて、認識がオンの状態になる、請求項１７に記載の音声認識方法。
前記ユーザ・インターフェイスは、任意の単語の認識に対する単語の選択肢が、綴りが前記ユーザによる一つ又は複数の文字入力の連続に一致する単語に限定されるフィルタリング・モードを、ユーザが選択することを可能にし、前記第１アルファベット入力モード又は前記第２アルファベット入力モードの何れかを使用する音声認識によって、ユーザが一つ又は複数の前記フィルタリング文字を入力することを可能にし、
前記第１入力及び前記第２入力は、フィルタリング文字の認識が前記第１アルファベット入力モードを使用して実行されるか、前記第２アルファベット入力モードを使用して実行されるか、を選択する、請求項１５に記載の音声認識方法。
ユーザが第１ユーザ入力、第２ユーザ入力、及び、第３ユーザ入力の生成から選択可能なユーザ・インターフェイスを提供することと、
第１の汎用大語彙に於いて、一つ又は複数の単語として、一つ又は複数の発話を認識することによって、前記第１ユーザ入力の生成に対応することと、
第２のアルファベット入力語彙に於いて、一つ又は複数の単語として、一つ又は複数の発話を認識することによって、前記第２ユーザ入力の生成に対応することと、
綴られていないテキスト入力を表現する、第３の語彙に於いて、一つ又は複数の単語として、一つ又は複数の発話を認識することによって、前記第３ユーザ入力の生成に対応し、
前記３つの語彙の何れかに於ける認識から受け付けた出力を連続して受け付け、その出力を共有テキストにセットすることと、を備える音声認識方法。
前記第３語彙は数字語彙である、請求項２０に記載の音声認識方法。
前記第３語彙は句読点記号の語彙である、請求項２０に記載の音声認識方法。
前記ユーザ・インターフェイスは、第１入力、第２入力、及び、第３入力のそれぞれの選択に対して異なるボタンを提供する、請求項２０に記載の音声認識方法。
前記３つの語彙の一つに関連したボタンを押下することによって、その語彙を使用する認識をオンの状態にする、請求項２３に記載の音声認識方法。
一つ又は複数の単語の連続を表す非テキスト・ユーザ入力を含む単語入力信号を受け付けることと、
前記入力信号に一致する比較的高い確率を有するために認識手段によって検出された、それぞれが一つ又は複数の単語、及び／又は数字の連続で構成された最高得点認識候補の選択肢リストを作成するために、前記入力信号に基づいて単語認識を実行することと、
前記リストに於いてそれぞれの候補に関連した一つ又は複数の単語に一致する文字の連続に関する文字の順序に応じて、前記選択肢リストに順序づけされた候補を用いて、最高得点認識候補の選択肢リストを表すユーザが認知可能な出力を生成することと、
ユーザが前記選択肢リストからの文字順の認識候補の一つを選択することが可能となるユーザ・インターフェイスを提供することと、
前記単語入力信号に対応する一つ又は複数の単語及び／又は数字として、前記選択された候補を処理することによって、前記選択肢リストからの前記認識候補の一つに関するユーザの選択に対応することと、で構成される単語認識実行方法。
最高得点候補は、前記最高得点候補に関連した一つ又は複数の単語に対応する前記文字の連続が、前記文字順に応じて、前記文字順リストに収まる位置と独立した、前記ユーザ認知可能出力に於ける位置にセットされる、請求項２５に記載の単語認識実行方法。
前記単語入力信号は、話された単語の発話表現であり、
前記単語認識は、音声認識である、請求項２５に記載の単語認識実行方法。
前記ユーザ認知可能出力は、画面表示に前記最高得点認識候補に関する文字順リストを表示することを含む、請求項２５に記載の単語認識実行方法。
前記選択肢リストは、一度に画面に適合するよりも多くの認識候補を有し、
前記選択肢リストはスクロール可能であり、その結果、ユーザが一度に画面に適合するよりも多くの認識候補を前記リスト上で視認するために、前記画面に対して、前記リストを移動することを選択出来る、請求項２８に記載の単語認識実行方法。
前記文字順リストは、アルファベット順リストであり、
前記リストに於ける個別認識候補に関する前記画面は、一つ若しくは複数のアルファベット綴りの単語の連続を含む、請求項２８に記載の単語認識実行方法。
前記単語リストは、一度に前記画面に適合するよりも多くの認識候補を有し、
前記選択肢リストはスクロール可能であり、その結果、ユーザは一度に画面に適合するよりも多くの認識候補を前記リスト上で視認するために、前記画面に対してリストを移動することを選択できる、請求項３０に記載の単語認識実行方法。
前記選択肢リストは２つのアルファベット順サブリストを有しており、
第１サブリストは、一度に前記画面に適合する最高得点選択肢候補を有し、
第２サブリストは、他の最高得点選択肢候補を含む、請求項３１に記載の単語認識実行方法。
前記第２サブリストは、一度に下面に当てはまるよりも多くの候補を有する、請求項３２に記載の単語認識実行方法。
最高得点認識候補の文字順リストの前記画面の後で、ユーザが一つ又は複数の文字指標に関するフィルタリング配列を選択することが出来るユーザ・インターフェイスを提供することと、
新たな選択肢リストが一つ又は複数の文字の連続が前記フィルタリング配列で始まる候補に制限されている、認識候補に関する新しいアルファベット順選択肢リストを、前記画面に生成、及び、表示することによって、前記フィルタリング配列の選択に対応することと、
ユーザが前記新しい選択肢リストからアルファベット順認識候補の一つを選択可能なユーザ・インターフェイスを提供することと、
前記単語入力信号に対応する一つ又は複数の単語及び／又は数字として、前記選択された候補を処理することによって、前記新しい選択肢リストに於ける前記認識候補の一つに関するユーザの選択に対応することと、をさらに含む、請求項３０に記載の単語認識実行方法。
新しいアルファベット順選択肢リストの生成及び表示によって前記フィルタリング配列の選択への前記対応は、認識候補の数字が所望の数字を下回るかどうかを検出することと、認識候補の数字が所望の数字を下回るという検出が行われた場合、語彙リストから前記新しいアルファベット順選択肢リストに含めるために、前記フィルタリング配列で始まる一つ又は複数の追加候補を選択することと、を含む、請求項３４に記載の単語認識実行方法。
前記新しいアルファベット順選択肢リストは、一度に画面に適合するよりも多くの認識候補を含み、
前記選択肢リストはスクロール可能であり、その結果、ユーザは一度に前記画面に適合するよりも多くの認識候補を前記リスト上で視認するために、前記画面に対して前記リストを移動することを選択することが出来る、請求項３５に記載の単語認識実行方法。
前記方法は、電話キーパッドを有する電話で実行され、
ユーザが前記文字指標入力を入力可能な前記ユーザ・インターフェイスは、所望の認識候補に関連した一つ又は複数の文字の連続に於いて一致する文字が、前記任意のキーに関連した複数の一連の文字の一つであることを示す、任意の電話パッド・キーを押下して、ユーザが前記電話キーパッドの一つ又は複数のキーを押下することによって、そうした入力を行うことができ、
前記新しい候補リストは、一つ又は複数の単語の連続が、文字の最初の連続のそれぞれの文字が、前記文字指標入力の連続に於ける、一致する文字指標によって示された一連の文字の一つに対応する、文字指標入力の連続に対応する文字の最初の連続で始まる候補に制限される、請求項３４に記載の単語認識実行方法。
前記新しい選択肢リストは、一度に画面に適合するよりも多くの認識候補を含み、
前記選択肢リストはスクロール可能であり、その結果、ユーザは一度に画面に適合するよりも多くの認識候補を前記リスト上で視認するために、前記画面に対して前記リストを移動することを選択可能である、請求項３７に記載の単語認識実行方法。
一つ又は複数の文字指標の連続を選択するための使用を許可する前記ユーザ・インターフェイスは、ユーザが選択肢リストに於いて表示された前記認識候補の選択された候補内に含まれたアルファベット文字の文字列の開始から、文字に関する所望の数字を選択することが出来るように許可し、
前記ユーザ・インターフェイスは、一つ又は複数の文字表示指標の前記連続のすべて又は一部として、前記選択された一つ又は複数の文字を使用することによって、そうした選択に対応する、請求項３４に記載の単語認識実行方法。
ユーザが、リストに記載された候補の間、又は、リストに記載された候補及び前記リストの最初と最後の間にある表示されたアルファベット順選択肢に於いて、位置の選択を示すことが出来るユーザ・インターフェイスを提供することと、
前記２つの候補、又は、前記候補及び前記アルファベットの最初と最後の間に綴りを有する認識候補に限定された新しいアルファベット順選択肢リストを再表示することによって、そうした選択に対応することと、をさらに含む、請求項３０に記載の単語認識実行方法。
前記入力信号は、一つ又は複数の連番の発話を表し、
前記選択肢リストはｍ数字として表示された認識候補の数字順リストである、請求項２８に記載の単語認識実行方法。
前記入力信号は、電話番号の発話を示し、
前記単語認識は音声認識であり、
認識候補に関するユーザの選択に対する前記対応は、前記選択された認識候補に対して表示された電話番号を自動的にダイアルさせる、請求項３０に記載の単語認識実行方法。
前記入力信号は、コンタクト情報からの一つ又は複数の氏名の発話を表し、
前記選択肢リストは、アルファベット順に並んだ連絡情報からの複数の最高得点氏名を表す、請求項２８に記載の単語認識実行方法。
前記選択肢リストは、一度に画面に適合するよりも多くの認識候補を有し、
前記選択肢リストはスクロール可能であり、その結果、ユーザは一度に画面に適合するよりも多くの認識候補を前記リスト上で視認するために、前記画面に対して前記リストを移動することを選択することが出来る、請求項４３に記載の単語認識実行方法。
一つ又は複数の単語の連続を表現する非テキスト・ユーザ入力を含む単語入力を受け付けることと、
前記入力信号に一致する比較的高い確率を有するために認識手段によって検出された、それぞれが一つ又は複数の単語、及び／又は数字の連続で構成された最高得点認識候補の選択肢リストを作成するために、前記入力信号に基づいて単語認識を実行することと、
前記選択肢リストの下位部分のみが一度に表示されるように、一度に画面に適合するよりも多くの認識候補を有する前記選択肢リストを用いて、ユーザのスクロール可能な画面に選択肢リストを表示することと、
前記画面上に表示された選択肢リストの一部を変更するために、前記画面に対して前記選択肢リストを上下それぞれに移動させることによって、前記選択肢リストを上下にスクロールすることを選択するユーザ入力に対応することと、で構成される単語認識実行方法。
前記単語入力信号は、話された単語の発話表現であり、前記単語認識は音声認識である、請求項４５に記載の単語認識実行方法。
前記選択肢リストを上下にスクロールすることを選択する前記ユーザ入力は、複数候補スクロール入力を含み、
ユーザ入力への前記対応は、複数の認識候補によって前記画面に対して前記選択肢リストを上下に移動させることによって、それぞれの複数候補スクロール入力に対応することを含む、請求項４５に記載の単語認識実行方法。
前記方法は、携帯電話に関して実行され、
前記画面は携帯電話の画面である、請求項４５に記載の単語認識実行方法。
携帯電話画面への前記選択肢の前記表示は、一度に前記画面に表示される前記選択肢の一部にそれぞれの認識候補に関連した異なる数字を表示することを含み、
所望の認識候補に対応する前記携帯電話に於いて、数字を割り当てられた電話キーを押下することによって、前記選択肢リストからの前記認識候補の一つをユーザが選択可能なユーザ・インターフェイスを提供することを含み、
前記単語入力信号に対応する一つ又は複数の単語、及び／又は、数字として、前記選択された候補を処理することによって、前記選択肢リストからの認識候補の一つに関するユーザ選択に対応することを含む、請求項４８に記載の単語認識実行方法。
それぞれの認識候補は、文字列に関連し、
前記スクロール可能な選択肢に於ける前記認識候補は、それらの個別の文字列が生じる文字順で並べられている、請求項４５に記載の単語認識実行方法。
前記スクロール可能な選択肢に於ける前記認識候補は、前記単語信号に対するそれらの認識得点によって並べられる、請求項４５に記載の単語認識実行方法。
前記画面に表示された前記選択肢リストに於ける個別の選択肢の一部を変更するために、前記画面に対して前記選択肢リストを左右それぞれに移動させることによって、前記選択肢リストを左右にスクロールすることを選択するユーザ入力に対応することをさらに含む、請求項４５に記載の単語認識実行方法。
一つ又は複数の単語の連続を表現する非テキスト・ユーザ入力を含む単語入力信号を受け付けることと、
それぞれが、一つ又は複数の文字の連続を表現する非テキスト・ユーザ入力を含む、一つ又は複数のフィルタ入力信号の連続を受け付けることと、
それぞれが一つ又は複数の文字を有し、恐らくフィルタ入力信号に対応したことが検出された、一つ又は複数の可能性のある文字の連続を表現する、フィルタによって作成された一つ又は複数のフィルタ入力信号に対応することと、
前記フィルタによって表現される前記文字の連続の一つで始まる一つ又は複数の単語認識候補は、所定の最低レベルを超える認識可能性を有する場合、前記入力信号の単語認識からの一つ又は複数の候補を含む、前記フィルタによって表現された文字の連続の一つで始まる認識候補のリストを生成することと、
最高得点認識候補に関する前記リストと、最高得点認識候補の前記リストの一つに関する最初の文字に対応する前記フィルタによって表現された文字の連続と、を表現するユーザ認知可能な出力を生成することと、
ユーザが、前記リストからの認識候補の一つを選択可能になること、及び／又は、前記フィルタから文字を選択可能になることと、
単語入力信号に対応する一つ又は複数の単語として、前記選択された候補を処理することによって、前記選択肢リストからの認識候補の一つの選択に対応することと、
ユーザ認知可能フィルタに対する選択された文字の位置に対応するフィルタによって表現された、使用可能な文字の連続に於ける他の文字に関する選択肢リストを表示することによって、フィルタ文字の選択に対応することと、
ユーザが前記文字選択肢リストの一つを選択可能になることと、
前記フィルタによって表現された前記使用可能な文字の連続を、前記選択された文字の位置に於いて選択された文字を有する文字の連続に制限することと、前記選択された文字によって制限されるものとして前記フィルタを使用する認識候補のリストの前記生成を繰り返すことと、による前記文字選択肢リストに於ける文字の選択しに対応することと、で構成される、単語認識実行方法。
前記フィルタによって表現された前記使用可能な文字の連続を制限することは、あるとすれば、そうした文字の連続を、前記ユーザ認知可能フィルタに於いて選択された文字の前に生じる文字を有する文字の連続に制限することを含む、請求項５３に記載の単語認識実行方法。
認識候補のリストに関する前記生成が、前記認識候補を前記フィルタによって表現された単一文字の連続のみで始まる認識候補に制限し、
記候補リストを表現する前記ユーザ認知可能出力が前記ユーザ認知可能フィルタとして前記単一文字の連続を有する、請求項５３に記載の単語認識実行方法。
認識候補のリストに関する前記生成は、前記認識候補を前記フィルタによって表現された任意の複数の文字の連続で始まる認識候補を制限する、請求項５３に記載の単語認識実行方法。
それぞれの押下された電話キーが文字に関連付けられた一連の文字を有する場合、前記フィルタ入力信号は、一つ又は複数の電話キーの押下の連続に対応し、
前記フィルタ入力信号への前記対応は、それぞれのそうした連続がそれぞれのそうしたキーの押下に対して一つの文字を有する場合、対応するキーの押下に関連した一連の文字の一つに対応するそれぞれのそうした文字を用いて、文字の一つ又は複数の連続に対応するフィルタを作り出す、請求項５３に記載の単語認識実行方法。
前記フィルタ入力信号が一つ又は複数の一連の文字指標のそれぞれに関する一つ又は複数の一連の発話に対応し、
前記フィルタ入力信号への前記対応は、前記発話から認識された文字に対応する文字の一つ又は複数の連続を表現するフィルタを作成するために、一つ又は複数の発話の連続に関して音声認識を実行することを含む、請求項５３に記載の単語認識実行方法。
一つ又は複数の単語の連続を表現する非テキスト・ユーザ入力を含む単語入力信号を受付けることと、
それぞれが一つ又は複数の単語、及び／又は、数字の連続で構成され、入力信号に対応する比較的高い可能性を有する認識手段によって検出される、最高得点認識候補の選択肢を作り出すために、前記入力信号に関して単語認識を実行することと、
ユーザ・スクロール可能画面に前記選択肢リストを表示することと、
前記画面に表示された前記選択肢リストに於ける個別の選択肢の一部を変更するために、前記画面に対して、前記選択肢を左右それぞれに移動することによって、前記選択肢リストを左右にスクロールすることを選択するユーザ入力に対応することと、で構成される単語認識実行方法。
前記方法は、携帯電話に関して実行され、水平方向にスクロールすることを選択する前記ユーザ入力は、前記携帯電話のボタン又はキーの押下である、請求項５９に記載の単語認識実行方法。
一つ又は複数の単語を表現する単語入力信号を受け付けることと、
単語入力信号に対応する一つ又は複数の最高得点単語を作り出す信号に関して単語認識を実行することと、
それぞれが関連する異なるタイプの変換を有し、複数の単語変換コマンドの中からユーザが選択可能なユーザ・インターフェイスを提供することと、
選択されたコマンドの関連する情報を使用する、「ａ」から「ｚ」までの文字の異なる連続で綴られた、一致するが異なる単語に、現在選択された単語を変換することによって、単語変換コマンドの一つに関するユーザの選択に対応することと、で構成される単語認識実行方法。
少なくとも前記単語変換コマンドの一つが現在選択された単語を異なる文法形式に変換する、請求項６１に記載の単語認識実行方法。
少なくとも前記単語変換コマンドの一つが現在選択された単語を異なる時制に変換する、請求項６２に記載の単語認識実行方法。
少なくとも前記単語変換コマンドの一つが現在選択された単語を複数形又は単数形に変換する、請求項６２に記載の単語認識実行方法。
少なくとも前記単語変換コマンドの一つが現在選択された単語を所有格又は非所有格に変換する、請求項６２に記載の単語認識実行方法。
少なくとも、前記単語変換コマンドが現在選択された単語を前記選択された単語の同音異義語に変換する、請求項６１に記載の単語認識実行方法。
少なくとも前記単語変換コマンドの一つが、現在選択された単語の最後を変更することによって、現在選択された単語を、一連の共通単語の最後一つに変換する、請求項６１に記載の単語認識実行方法。
前記単語認識は、それぞれが一つ又は複数の単語で構成され、前記単語信号に対応する比較的高い可能性を有するために前記認識手段によって検出された、最高得点認識候補の選択肢リストを作り出し、
前記ユーザ・インターフェイスは、ユーザが認知可能な形式で前記選択肢リストの認識候補を出力し、
前記ユーザ・インターフェイスは、ユーザが前記選択肢リストに於ける前記認識候補出力の一つから選択肢を選択することを可能にし、前記選択された選択肢に対して実行された変換コマンドの選択されたコマンドを有することを選択することを可能にし、認識プロセスの出力として作成された、結果として生じた変換された単語を有することが出来る、請求項６１に記載の単語認識実行方法。
前記単語認識は、電話に関して実行される音声認識であり、
前記ユーザ・インターフェイスは、ユーザが電話キーを押下することによって変換コマンドから選択されたコマンドを選択可能にする、請求項６１に記載の単語認識実行方法。
一つ又は複数の単語を表現する単語入力信号を受け付けることと、
前記単語入力信号に対応する一つ又は複数の最高得点単語を作り出すために、前記信号に関して単語認識を実行すうｒことと、
ユーザが単語変換コマンドから選択することが出来るユーザ・インターフェイスを提供することと、
アルファベット表現と非アルファベット表現から現在選択された単語を変換することによって、単語変換コマンドの一つに関するユーザの選択に対応することと、で構成される、単語認識実行方法。
前記単語認識は、それぞれが一つ又は複数の単語で構成され、前記信号に対応する比較的高い可能性を有するために前記認識手段によって検出された、最高得点認識候補の選択肢リストを作り出し、
前記ユーザ・インターフェイスは、ユーザが認知可能な形式で、前記選択肢リストの前記認識候補を出力し、
前記ユーザ・インターフェイスは、ユーザが前記選択肢に於ける前記認識候補出力の一つから選択することを可能にし、前記選択された単語に関して実行されるアルファベット表現及び非アルファベット表現から変更するための変換を選択することを可能にし、そして、前記認識プロセスの出力として作り出された、結果として生じた変換された単語を有することを可能にする、請求項７１に記載の単語認識実行方法。
一つ又は複数の単語を表現する単語認識信号を受け付けることと、
前記単語入力信号に対応する一つ又は複数の最高得点単語を作り出すために前記信号に関して単語認識を実行することと、
ユーザが前記認識によって作り出された単語に関する変換のリストを表示することを選択可能にするユーザ・インターフェイスを提供することと、
前記認識された単語に一致する前記変換された単語の選択肢リストを作り出すことによって、ユーザの選択に対応することと、
前記ユーザ・インターフェイスがユーザに前記選択肢リストに於いて変換された単語の一つを選択可能にすることと、
前記認識プロセスの出力として作り出された前記選択された変換された単語を有することによって、変換された単語の選択に対応することと、で構成される単語認識実行方法。
前記選択肢リストの下位部分のみが一度に表示されるように、一度に画面に適合するよりも多くの変換された単語を有する前記選択肢リストを用いて、変換された単語に前記選択肢リストが、ユーザ・スクロール可能画面に表示され、
前記画面に表示された前記選択肢リストの一部を変更するために、前記画面に対して前記選択肢リストを上下にそれぞれ移動させることによって、前記選択肢リストを上下にスクロールすることを選択するユーザ入力に対応することを含む、請求項７２に記載の単語認識実行方法。
前記ユーザ・インターフェイスは、前記認識プロセスによる単語出力をテキストに挿入し、前記変換選択肢リストが作成される単語を、前記テキストに於ける一つ又は複数の単語から、ユーザが選択することを許可する、請求項７２に記載の単語認識実行方法。
前記ユーザ・インターフェイスは、単語認識から最高得点単語候補の選択肢リストを作成し、ユーザが前記変換選択肢リストが作成される単語を、前記最高得点選択肢リストに於ける一つ又は複数の単語から選択することを許可する、請求項７２に記載の単語認識実行方法。
前記変換された単語リストに於ける前記単語が、あるとしても、変換選択肢リストが作成される単語の一つ又は複数の同音異義語を含む、請求項７２に記載の単語認識実行方法。
前記変換された単語リストは、あるとしても、前記変換選択肢リストが作成される単語の一つ又は複数の異なる表現を含む、請求項７２に記載の単語認識実行方法。
前記変換された単語リストは、あるとしても、前記変換選択肢リストが作成される単語の一つ又は複数の異なる文法形式を含む、請求項７２に記載の単語認識実行方法。
コマンドの受け付け後、大語彙音声認識をオンの状態にすることと、その後、自動的に前記大語彙音声認識をオフの状態にして、認識を開始するためにユーザから他のコマンド入力を受け付けるまで、前記大語彙音声認識をオフの状態にすることと、によって、認識を開始するためにユーザからコマンド入力を受け付けることで構成される、単語認識実行方法。
所定時間の経過後に、前記音声認識をオフの状態にすることが自動的に発生する、請求項７９に記載の単語認識実行方法。
音声認識がオフの状態にされた後で、発話の前記最初の終了の前記検出が行われた後、前記音声認識の前記オフの状態が自動的に発生する、請求項７９に記載の単語認識実行方法。
音声認識を前記オフの状態にする前記コマンドは、非音響入力である、請求項７９に記載の単語認識実行方法。
前記音声認識によって行われた発生の検出の前記最初の終了に対応して、前記音声認識がオフの状態にされ、前記次回の非音響ユーザ入力が認識を開始するまでオフの状態にされる、請求項８２に記載の単語認識実行方法。
前記音声認識は連続音声認識である、請求項８３に記載の単語認識実行方法。
前記音声認識は離散型音声認識である、請求項８３に記載の単語認識実行方法。
発話検出の前記終了に先立つ前記発話に対する最高の選択肢として、一つ又は複数の認識された単語に関するユーザ認知可能表現を出力することと、
発話の前記認識に対応して、前記最高選択肢出力に於けるエラーを訂正するために、ユーザが訂正入力を供給することを許可するユーザ・インターフェイスを提供することと、
正確な選択肢として前記最高の選択肢を確認することと、開始認識コマンドの受け付けで始まる新しい発話に対して、再び前記方法を繰り返すことと、によって、発話に対して認識された前記最高の選択肢を出力した後に、前記開始認識コマンド入力の受け付けに対応することと、でさらに構成される、請求項８３に記載の単語認識実行方法。
その後の音声認識に対する言語モデル得点を計算するために使用された、前記現在の文脈の一部になるとして、一つ又は複数の前記認識された単語を含むことによって、そうした発話の確認に対応することを含む、請求項８６に記載の単語認識実行方法。
前記言語モデルの変更に対するデータとして、一つ又は複数の前記認識された単語の使用によって、発話のそうした確認に対応することをさらに含む、請求項８６に記載の単語認識実行方法。
前記所定の認識された単語の前記認識に於いて使用された、一つ又は複数の音響モデルを更新する際に、使用される前記発話からの音響データをラベル付けすることによって、所定の認識された単語に対応するものとして、発話のそうした確認に対応することをさらに含む、請求項８６に記載の単語認識実行方法。
前記非音響入力の受け付け後に、検出された発話の前記次回終了後、認識がオフの状態となる第１モードと、
発話検出の前記次回終了後に、認識をオフの状態にしない第２モードから。ユーザが選択することを許可することをさらに含む、請求項８３に記載の単語認識実行方法。
前記第２モードに於いて、会話に於ける発話間の通常の時間経過よりも長い経過時間に応じて、自動的にオフの状態となる、請求項９０に記載の単語認識実行方法。
前記方法は、ハンドヘルド・コンピュータ・デバイスで起動するソフトウェアによって実行され、
前記非音響入力は、ＧＵＩボタン等のボタンの押下である、請求項８３に記載の単語認識実行方法。
前記ハンドヘルド・コンピュータ・デバイスは携帯電話であり、
前記ボタンは携帯電話ボタンである、請求項９２に記載の単語認識実行方法。
前記方法は、自走車両の一部であるコンピュータ上で起動するソフトウェアによって実行される、請求項８３に記載の単語認識実行方法。
前記開始認識コマンド入力は、ハードウェア・ボタン又はソフトウェア・ボタンの押下であり、
前記認識は、前記ボタンの押下の終了後１秒未満の間に、自動的にオフの状態となる、請求項８２に記載の単語認識実行方法。
前記方法は、それぞれが異なる音声認識モードを選択するためのものであり、一度に前記ユーザによる選択に使用可能な、複数の音声モード選択ボタンを有するユーザ・インターフェイスを提供し、
音声認識をオフの状態にする前記非音響入力は、前記ボタンの一つの押下であり、
前記方法は、その関連したモードで音声認識をオンの状態にし、その後、自動的に前記認識をオフの状態にすることによって、音声モード・ボタンの押下に対応する、請求項８２に記載の単語認識実行方法。
前記ボタンの一つに関連した前記音声認識モードは、前記大語彙認識であり、
前記ボタンの他のボタンに関連した前記認識モードは、アルファベット入力に対する語彙を用いた認識を実行するモードである、請求項９６に記載の単語認識実行方法。
前記ボタンの一つに関連した前記音声認識モードは、連続認識であり、
前記ボタンの他のボタンに関連した前記認識モードは、離散型認識である、請求項９６に記載の単語認識実行方法。
前記ハンドヘルド・コンピュータ・デバイスは携帯電話であり、
前記ボタンは、携帯電話ボタンである、請求項９６に記載の単語認識実行方法。
クリックとして、第１持続時間に満たない接触に対応し、押下として、第２持続時間よりも長い接触に対応するボタンを提供するユーザ・インターフェイスを提供することと、
前記押下の長さの機能として変化する持続時間の間、音声認識が音に対して実行されることによって、押下に対応することと、
前記クリックの長さと独立した持続時間の間、音声認識が音に対して実行されることによって、クリックに対応することと、で構成される音声認識方法。
クリックに対する前記対応は、前記クリックのかなりの時間から、検出された発話の前記時間終了時までに受け付けられた音に対して、音声認識を実行させ、
押下への前記対応は、音声認識が前記押下期間中に受け付けられた音に対して実行される、請求項１００に記載の音声認識方法。
クリックに対応して実行された認識は、離散型認識であり、押下に対応して実行された認識は、連続認識である、請求項１０１に記載の音声認識方法。
前記ユーザ・インターフェイスは、ユーザが、クリックに対応した認識と押下に対応した認識の両方が、連続型又は離散型であるモードと、クリックに対応して実行された認識が離散認識であり、押下に対応して実行された認識は連続認識であるモードと、から選択することを許可する、請求項１０２に記載の音声認識方法。
クリックへの前記対応は、少なくとも１分間、前記クリックのかなりの時間から受け付けられた音に対して音声認識を実行させ、
押下への前記対応は、前記押下期間中、及び、その後１秒までの間に受け付けられた音に対して音声認識を実行させる、請求項１００に記載の音声認識方法。
前記ユーザ・インターフェイスは、それぞれが異なる音声認識モードを選択するためのものであり、一度に前記ユーザによる選択に使用可能な、複数の音声モード選択ボタンを有しており、
前記ユーザ・インターフェイスは、第１持続期間より短い前記モード選択ボタンのそれぞれの接触をクリックとして対応し、大２持続期間よりも長いそうしたボタンの接触を押下として対応し、
前記方法は、音声認識を前記押下の長さの機能として変化する持続時間の間、音に関して、前記ボタンの関連したモードで実行させることによって、モード・ボタンの押下に対応し、
前記クリックの長さに独立した持続期間の間、音声に関して、前記ボタンの関連したモードで音声認識を実行させることによって、モード・ボタンのクリックに対応する、請求項１００に記載の音声認識方法。
前記モード・ボタンの第１ボタン関連した前記認識モードは、大語彙を用いて認識を実行するモードであり、
前記モード・ボタンの第２ボタンに関連した前記認識モードは、アルファベット入力語彙を用いて認識を実行するモードである、請求項１０５に記載の音声認識方法。
前記モード・ボタンの一つに関連した前記音声認識モードは、連続認識であり、
前記モード・ボタンの他のボタンに関連した前記認識モードは離散認識である、請求項１０５に記載の音声認識方法。
前記方法は、携帯電話に関して実行され、
数字が割り当てられた携帯電話ボタンは前記モード・ボタンとして作動する、請求項１０５に記載の音声認識方法。
ユーザが認知可能な出力デバイスと、
少なくとも標準的な１２キー電話キーパッドを含む、一連の電話キーと、
一つ又は複数のマイクロプロセッサと、
マイクロプロセッサ読み取り可能メモリと、
マイク、又は、前記電話が音声の電子表現を受け付け可能な音声入力と、
スピーカ、又は、前記電話で作成された音声の電子表現を、対応する音に変換することを可能にする音声出力と、
送受信回路と、
電話をかけること及び受けること等の電話機能を実行するための指示を有する電話プログラミングと、マイク又はマイク入力から受け付けた音声の電子表現に対して大語彙音声認識を実行すること、及び、前記音声認識の動作を制御するための一つ又は複数の電話キーの押下に対応すること、に関する指示を有する音声プログラミングと、を含む前記メモリに記録されたプログラミングと、で構成される、電話として機能するコンピュータ・デバイス。
前記デバイスは携帯電話である、請求項１０９に記載のコンピュータ・デバイス。
前記デバイスはコードレス・電話である、請求項１０９に記載のコンピュータ・デバイス。
前記デバイスは、地上有線電話である、請求項１０９に記載のコンピュータ・デバイス。
音声認識プログラミングは、所定の発話、又は、発話の一部に一致する比較的高い確率を有する認識手段によって検出された、それぞれが一つ又は複数の単語で構成された最高得点音声認識候補の選択肢リストを作り出すために、音声認識を実行することによって所定の発話に対応することと、複数の前記選択肢リスト候補を示すユーザ認知可能出力を作りだし、個別の電話キーとそうした選択肢のそれぞれを関連付けることと、所定の発話に対する前記出力として、関連付けられた候補を選択することによって、選択肢リスト候補に関連した電話キーの押下に対応することと、に関する指示を含む、請求項１０９に記載のコンピュータ・デバイス。
前記音声認識プログラミングは、選択肢リスト候補に関連した前記電話キーとして、複数の数字が割り当てられた電話キーを使用することに対する指示を含む、請求項１１３に記載のコンピュータ・デバイス。
数字の割り当てられたキーの幾つかは、選択肢リスト候補に関連している一方で、前記音声認識プログラミングは、他の音声認識機能に対する他の数字が割り当てられた電話キーを使用することに関する指示を含む、請求項１１４に記載のコンピュータ・デバイス。
前記音声認識プログラミングは、関連する選択肢リスト候補を選択することによって、一連の電話キーのそれぞれの押下に対応する第１モードで動作させることと、文字識別入力として電話キーの同一セットのそれぞれの押下に対応する第２モードで動作させることと、に対する指示を含む、請求項１１３に記載のコンピュータ・デバイス。
前記音声認識プログラミングは、前記選択肢リストのアルファベット・フィルタリングに対する前記文字識別の使用に対する指示を含む、請求項１１６に記載のコンピュータ・デバイス。
前記音声認識プログラミングは、所定の認識に対応して、一つ又は複数の認識された単語の連続に対応する認識出力を作り出すことと、前記テキストの連続に於ける現在のカーソル位置に前記メモリに記録された、０個、又は、複数の単語の連続を以前含んでいるテキストの連続に、前記認識出力をセットすることと、電話キーからの異なるキーの押下に対応して、前記テキストの連続に、前記カーソル位置を前後それぞれに移動させることと、に関する指示を含む、請求項１０９に記載のコンピュータ・デバイス
前記現在のテキスト位置を移動するための指示は、同時単語移動に関連した２つの電話キー、即ち、単語前方移動に関連したキー及び単語後方移動に関連したキーの一つを押下することに対応して、一度に単語全体として、前記現在のテキスト位置を、前後それぞれに移動するための指示を含む、請求項１１８に記載のコンピュータ・デバイス。
前記現在のテキスト位置を、一度に単語全体として、前後に移動するための指示は、第１条件に基づいて、前記以前のカーソル位置の前後にある前記単語全体を選択することによって、単語前方移動又は単語後方移動に関連したキーの押下に対応することと、第２条件に基づいて、前記以前のカーソル位置の直前又は直後のそれぞれに非選択カーソルをセットすることによって、単語前方移動又は単語後方移動に関連したキーの押下に対応することと、を含み、それにより、テキストに於いて一度に単語を移動させるため、及び、単語全体の選択に前記カーソルと、単語の前後にある非選択カーソルの何れかに前記カーソルを一致させるために、前記同一の２つのキーは使用可能である、請求項１１９に記載のコンピュータ・デバイス。
前記第２条件は、前記２つの同時単語キーの他方の押下後に次回入力として、前記同時単語キーの一つの押下が受け付けられる条件を含む、請求項１２０に記載のコンピュータ・デバイス。
前記ユーザ認知可能出力デバイスはディスプレイであり、
前記音声認識プログラミングは、前記ディスプレイの連続するラインを超えて、テキストの連続の全て、又は、一部分を表示するための指示を含み、
前記現在のテキスト位置を移動するための指示は、前記電話キーの異なるキーの押下に対応して、前記現在のテキスト位置を上下ラインのそれぞれに移動するための指示を含む、請求項１１８に記載のコンピュータ・デバイス。
前記現在のテキスト位置を移動するための指示は、前記電話キーの異なるキーの押下に対応して、前記テキストの連続に於ける単語の全て又は一部を含む単語の連続の開始及び終了のそれぞれに、前記現在のテキスト位置を移動するための指示を含む、請求項１１８に記載のコンピュータ・デバイス。
前記音声認識プログラミングが、前記現在のテキスト位置で拡大可能な選択を開始することによって、一つの電話キーの押下に対応することと、
そうしたキーに関連した総数によって、前記選択を前後にそれぞれ拡大することによって、前記現在のテキスト位置を前後それぞれに移動させることに関連した電話キーの異なるキーを押下することに対応することと、に関する指示を含む、請求項１１８に記載のコンピュータ・デバイス。
前記電話キーの一つを押下することに対応して、その現在の位置が移動された後に、前記現在のテキスト位置に、一つ又は複数の単語に関するテキスト音声プロセスによる音声出力を形成するための指示を含む、請求項１１８に記載のコンピュータ・デバイス。
前記ユーザ認知可能出力デバイスはディスプレイであり、
前記音声認識プログラミングは、電話キーの一つを押下することに対応して、その現在の位置が移動された後に、前記現在位置で、一つ又は複数の単語を前記ディスプレイに表示するための指示を含む、請求項１１８に記載のコンピュータ・デバイス。
前記音声認識プログラミングは、前記ヘルプ・モードの入力前に、前記その後に押下された電話キーに関連した機能に関する説明を、ユーザが認知可能な形式で提示されることによって、その後の電話キーの押下に対応するヘルプ・モードの入力による電話キーの所定のキーの選択に対応するための指示を含む、請求項１０９に記載のコンピュータ・デバイス。
音声認識の動作を制御するための一つ又は複数の電話キーの押下に対応するための指示は、一つ又は複数の電話キーの連続によって、ユーザがコマンドのナビゲート及び選択をすることが可能な階層コマンド構造を定義し、
ヘルプ・モードの入力に関する指示は、前記ヘルプ・モードの入力前に、そのキーの連続が入力された場合、ユーザが認知可能な形式で、前記階層コマンド構造に於けるキーの押下に類似した連続に於いて、前記キーの押下が有する前記機能に関する説明を前記ヘルプ・モードの入力後に提示することによって、２つ、又は複数のキーの押下の連続に於ける、それぞれのキーの押下に対応するための指示を含む、請求項１２７に記載のコンピュータ・デバイス。
前記音声認識プログラミングは、前記現時点で、複数の個別の電話キーのそれぞれに関連した機能を示すユーザが認知可能なリストを出力することによって、第１電話キーの押下に対応するための指示を含む、請求項１０９に記載のコンピュータ・デバイス。
前記ユーザ認知可能出力は、機能指標に関する前記リストについて発言するオーディオ信号の生成を含む、請求項１２９に記載のコンピュータ・デバイス。
前記電話キーは、前記第１キー及び一つ又は複数の一連のナビゲーション・キーを有し、
前記音声認識プログラムは、前記ナビゲーション・キーはユーザに対して認識されたテキストの認知可能なナビゲーションを許可し、他の電話キーは、前記テキストの入力及び編集を制御するために、それらにマッピングされた一連の機能を有し、ナビゲーション・キーが、前記テキスト・モードに於いて複数の電話キーのそれぞれに関連した機能のリストに関する、ユーザが認知可能なナビゲーションを許可するコマンド・リスト・モードの入力によって、第１キーの押下が対応されるテキスト・モードに於ける動作のために指示を含む、請求項１２９に記載のコンピュータ・デバイス。
前記コマンド・リスト・モードのユーザが認知可能な機能に関するリストは、電話キーの数字と前記リストに於ける複数の機能との関係を含み、
音声認識プログラミングは、前記テキスト・モードに戻り、その関連する機能を選択することによって、前記コマンド・リスト・モードの動作中に、前記リストに於いて、機能に関連した数字が割り当てられた電話キーの押下に対応するための指示を含む、請求項１３１に記載のコンピュータ・デバイス。
前記音声認識プログラミングは、ユーザが認知可能な機能に関するリストに対して、機能選択を移動することによって、ナビゲーション・キーの一つ又は複数の押下に対応することと、前記テキスト・モードに戻り、その関連した機能を選択することによって選択電話キーの押下に対応することと、のための前記コマンド・リスト・モードで使用するための指示を含む、請求項１３１に記載のコンピュータ・デバイス。
前記コマンド・リストは、前記テキスト・モードで電話キーの押下によって選択可能な機能に加えて、前記ナビゲーション及び選択によって、前記コマンド・リスト・モードで追加機能を選択可能な機能を含む、請求項１３３に記載のコンピュータ・デバイス。
前記コマンド・リストは、前記テキスト・モードに於いて前記ナビゲーション・キーに関連した機能を記載し、
前記テキスト・モード・ナビゲーション・キー機能は、コマンド・リスト・モードに於ける前記ナビゲーション・キーに関連した機能と異なり、
前記テキスト・モード・ナビゲーション・キー機能は、前記ナビゲーション及び選択によって前記コマンド・リスト・モードで選択することが可能である、請求項１３３に記載のコンピュータ・デバイス。
前記電話キーはメニュー・キーを含み、
前記メモリに記録された前記プログラミングは、前記メニュー・キーの押下の直前に、前記同一の電話キーによって選択不可能であった電話キーによって選択可能な機能のリストを表示することによって、前記テキスト・モード以外の複数のモードのそれぞれに於いて、前記メニュー・キーの押下に対応するための指示を含み、
前記コマンド・リスト・モードを選択するための前記テキスト。モードで使用された前記第１キーは、前記メニュー・キーである、請求項１３１に記載のコンピュータ・デバイス。
音声認識プログラミングは、
前記ナビゲーション・キーは認識されたテキストに関するユーザが認知可能なナビゲーションを許可し、
複数の前記数字の割り当てられた電話キーは、それぞれが、複数の前記数字が割り当てられた電話キーに異なる一連の機能をマッピングする、異なるキー・マッピング・モードを選択するキー・マッピング・キーとして、同時に機能し、
それにより、数字の割り当てられたキーの押下によって、ユーザは即座に所望のキー・マッピングを複数のそうしたマッピングから選択することができ、ユーザが前記テキスト・モードからの比較的多くのコマンドの中から一つのコマンドを選択することが可能な速さを非常に増加させる、
テキスト・モードで動作するための指示を含む、請求項１０９に記載のコンピュータ・デバイス。
ナビゲーション・キーが、前記押下されたマッピング・キーの関連したキー・マッピング・モードに於いて複数の数字が割り当てられた電話キーのそれぞれに関連した機能を示すメニューに関するユーザ認知可能なナビゲーションを許可する、関連したメニュー・モードの入力によって、前記音声認識プログラミングは、前記キー・マッピング・キーの一つの押下への対応に関する指示を含む、請求項１３７に記載のコンピュータ・デバイス。
それぞれのキーが２つ又は複数の文字を表す場合、それぞれが、複数のキーの何れがユーザに選択されたのかを示す、一つ又は複数のキー押下信号のフィルタリングの連続を受け付けることと、
音声の音響表現を受け付けることと、
前記音声の音響表現と、単語の音響モデル間の適合に関する機能として、単語候補を記録する音響表現に関して音声認識を実行することと、で構成され、
前記文字の連続に於けるそれぞれの連続した文字が、−致する連続キー押下信号によって表現された文字の一つに対応する場合、候補単語が前記フィルタリングの連続に対応する文字の連続を含むと見なされる場合には、単語候補に関する前記記録は、キー押下信号のフィルタリングの連続に対応する一つ又は複数のアルファベット文字の連続を含む単語候補を支持する、大語彙音声認識実行方法。
関連した発話に関する音声認識を実行することによって、前記フィルタリングの連続に於ける所定のキー押下信号との関連でなされる追加の発話に対応することと、
前記フィルタリングの連続に於いて前記キー押下によって表現される一連の文字が単語を識別する前記認識された文字によって識別されや文字に限定させることによって、単語を識別する文字として、キー押下の関連した発話に関する前記認識に対応することと、をさらに含む、請求項１３９に記載の大語彙音声認識実行方法。
前記押下されたキーで表現されたそれぞれの文字で始まる一つ又は複数の単語を含む一連の単語を、ユーザが認知可能な形式で表示することによって、キー押下信号に対応することと、
単語を識別する前記押下されたキーの関連した文字の表示後に、前記表示された単語の一つに対応するものとして、なされた発話の認識を支持することと、をさらに含む請求項１４０に記載の大語彙音声認識実行方法。
選択肢リストに於いてユーザが認知可能な形式で前記音声認識によって作り出された複数の前記単語候補を出力し、
前記所望の単語として、ユーザが前記出力候補の一つを選択することを許可し、前記認識に対する前記認識された単語として、前記出力候補の一つを選択することによって、
前記出力候補の一つに関する前記ユーザ選択に対応する、
ユーザ・インターフェイスを提供することをさらに含む、請求項１３９に記載の大語彙音声認識実行方法。
フィルタリングの連続の前記受け付けと、前記フィルタリングの連続に対応する文字を含む候補を支持する音声認識の前記実行を、前記フィルタリングの連続に於いて連続したキー押下信号の前記受け付けに対応して、所定の音響表現に対して繰り返し実行することが可能な、請求項１３９に記載の大語彙音声認識実行方法。
前記単語候補の優先得点記録は、前記認識プロセスによって以前選択された単語候補から、前記フィルタリングの連続に対応する一つ又は複数の文字の連続を含む候補を選択することによって実行される、請求項１３９に記載の大語彙音声認識実行方法。
前記単語候補の優先得点記録は、前記受け付けられたフィルタリングの連続に対応する一つ又は複数の文字の連続を含む単語候補が支持される２回目の前記音響表現に関して前記音声認識を実行することによって実行される、請求項１３９に記載の大語彙音声認識実行方法。
前記音響表現の前記最初の認識が完了する前に、キー押下信号の連続が受け付けられ、単語候補に関する前記アルファベットの支持が前記最初の認識中に実行される、請求項１３９に記載の大語彙音声認識実行方法。
前記方法は、電話に於けるソフトウェアの起動によって実行され、前記キーは電話キーパッドのキーである、請求項１３９に記載の大語彙音声認識実行方法。
前記電話は携帯電話である、請求項１３９に記載の大語彙音声認識実行方法。
受け付けられたフィルタリングの連続に対応する一つ又は複数の文字の連続を含む単語文字候補が支持される、所望の単語の２回目の発話に関する音響表現に関して、前記音声認識を実行することによって、単語候補の前記優先得点記録が実行される、請求項１３９に記載の大語彙音声認識実行方法。
所望の単語の元の発話及び２回目の発話の両方に対して、単語候補を記録することによって、単語候補の前記優先得点記録が実行される、請求項１４９に記載の大語彙音声認識実行方法。
単語候補の前記記録は、前記フィルタリングの連続に対応する一つ又は複数のアルファベット文字の連続を含む単語候補だけでなく、言語モデル得点も攴持する、請求項１３９に記載の大語彙音声認識実行方法。
単語候補に関する、前記得点記録に於けるそうしたフィルタリングの連続と共に使用される前記言語モデルは、文脈依存言語モデルである、請求項１５１に記載の大語彙音声認識実行方法。
それぞれが、複数のキーの何れがユーザによって選択されたのかを示す、一つ又は複数の電話キー押下信号のキー・押下の連続を受け付けることと、
所望の文字として前記所定のキーに関連した複数の文字の何れかを選択するために、それぞれの所定時間内に生じる、所定のキーの押下の数を使用することによって、前記キー押下の連続を復号化することと、
アルファベット・フィルタリングの連続として、前記キー押下の連続から復号化された一つ又は複数の文字の連続を記憶することと、
音声の音響表現を受け付けることと、
前記音声の前記音響表現と単語の音響モデル間の適合の機能として、単語候補を記録する前記音響表現に関して、音声認識を実行することと、で構成され、
単語候補の前記記録は、前記アルファベット・フィルタリングの連続の前記文字に対応する一つ又は複数のアルファベット文字の連続を含む単語交互を支持する、大語彙音声認識実行方法。
それぞれが２つ又は複数の文字を表現する、一つ又は複数の選択された電話キーの連続を押下することと、
単語を識別する一つ又は複数の文字の対応する連続を発話することと、
前記発話の関連した電話キーによって表現された２つ又は複数の文字の一つを識別する単語を識別する文字の認識を支持するそうしたそれぞれの発話の前記認識を用いて、単語を識別する前記文字のそれぞれの前記発話に関して音声認識を実行することと、
前記ユーザからのアルファベット入力として、それぞれの電話キー押下に関連した単語を識別する前記文字によって識別された一つ又は複数の文字の前記連続を処理することと、
で構成される、一つ又は複数のアルファベット文字の連続を入力するための大語彙音声認識実行方法。
前記方法は、大語彙認識システムと同時に使用され、
前記大語彙認識システムの前記語彙に於ける所定の文字で始まる大部分の単語は、前記所定の文字に対する単語を識別するための文字として使用することが可能である、請求項１５４に記載の大語彙音声認識実行方法。
大部分の文字のそれぞれに関連した前記文字識別単語は、その所定の文字で始まる単語を識別する限られた一連の５つ又は５つ未満の文字に属し、
単語を識別する文字の発話の前記認識は、前記発話の関連した電話キーによって表現された２つ又は複数の文字の一つを職別する単語を識別する前記限られた一連の文字の一つの前記認識を支持する、請求項１５４に記載の大語彙音声認識実行方法。
前記押下されたキーによって表現されたそれぞれの文字で始まる一つ又は複数の単語を含む単語を識別する一連の文字を、ユーザが認知可能な形式で表示することによって、キー押下信号に対応することと、
前記表示された単語の一つに一致するものとして、単語を識別する前記押下されたキーの関連した文字の前記表示後になされた発話の前記認識を支持することと、をさらに含む、請求項１５６に記載の大語彙音声認識実行方法。
前記方法は、ディスプレイを有する電話に関して実行され、
単語を識別する文字の一部の前記出力は、前記電話のディスプレイにそうした単語を表示することによって実行される、請求項１５６に記載の大語彙音声認識実行方法。
前記音声認識によって認識された一つ又は複数の単語を含む、対応する出力テキストを提供するために、一つ又は複数の発話に、大語彙音声認識を実行することと、
一つ又は複数の電話キー押下信号の連続を受け付け、押下の前記連続を一つ又は複数のアルファベット文字の連続に対応するものとして解釈することと、
一つ又は複数のアルファベット文字の前記連続を、前記出力テキストに出力することと、で構成される、電話キーを有するデバイスへの大語彙音声認識実行方法。
前記電話は携帯電話である、請求項１５９に記載の大語彙音声認識実行方法。
一つ又は複数のキー押下信号の前記連続は、個別のキー押下信号それぞれが２つ又は複数の文字を表現する意味で、曖昧であるとして前記プロセスによって単独で処理され、
そうしたキー押下以外の資源からの情報は、前記連続に於けるキー押下に関連した一つ又は複数の文字がそれぞれのそうしたキー押下に対応するものとして解釈されるものから選択するために使用される、請求項１５９に記載の大語彙音声認識実行方法。
そうしたキー押下以外の資源からの情報は、言語モデル情報を含む、請求項１６１に記載の大語彙音声認識実行方法。
そうしたキー押下以外の資源からの情報は、文脈依存言語モデル情報を含む、請求項１６２に記載の大語彙音声認識実行方法。
一つ又は複数のキー押下信号の前記連続は、個別のキー押下信号のそれぞれが２つ又は複数の文字を表現している意味で、曖味であるとして前記プロセスによって単独で処理され、
選択肢リストに於いて、ユーザが認知可能な形式で、綴りが前記キー押下信号に一致する、複数の前記単語候補を出力することと、
前記所望の単語として、前記出力候補の一つをユーザが選択することを許可することと、
前記認識のための前記認識単語として、前記出力候補の一つを選択することによって、前記出力候補の一つの前記ユーザ選択に対応することと、をさらに含む、請求項１５９に記載の大語彙音声認識実行方法。
キー押下の連続に関する前記解釈は、所望の文字として、前記所定のキーに関連した前記複数の文字から選択するために、それぞれの所定時間内に生じる所定のキーの押下の数を使用することによって、前記キー押下の連続を復号化することを含む、請求項１５９に記載の大語彙音声認識実行方法。
一つ又は複数の単語の発話を受け付けることと、
前記最初の発話に関して最初の音声認識を実行することと、
前記発話に最も対応するものとして、前記認識によって選択された一つ又は複数の単語の一つ又は複数の連続を表現する、ユーザが認知可能な出力を作り出すことと、
ユーザによって、前記ユーザが認知可能な出力の全て又は選択された部分に対応する前記最初の発話の一部に関して再発話認識を実行することを選択されることを許可するユーザ・インターフェイスを提供することと、
前記選択に関連して受け付けられた第２発話を、前記最初の発話の選択された部分の再発話として処理することと、前記再発話と前記最初の発話の前記選択された部分の両方に対する一つ又は複数の単語の前記記録に基づいて、前記再発話に最も適合すると見なされた一つ又は複数の単語の一つ又は複数の連続を選択するために、前記再発話に関して、音声認識を実行することと、によって、前記最初の発話の全て又は一部に関して再発話認識を実行するためのユーザ選択に対応することと、で構成される、音声認識方法。
前記元の発話に関する前記元の認識は、連続音声認識によるものであり、
前記再発話は、離散音声認識によって認識される、請求項１６６に記載の音声認識方法。
離散認識によって認識された再発話を用いて検出された発話の数は、前記再発話後に前記元の発話に対して認識された一つ又は複数の単語の連続に於いて許容される単語の数を決定するために使用される、請求項１６７に記載の音声認識方法。
前記元の発話と、前記再発話の両方は、離散音声認識によって認識される、請求項１６６に記載の音声認識方法。
前記元の発話と、前記再発話の両方は、連続音声認識によって認識される、請求項１６６に記載の音声認識方法。
前記再発話とｍ前記元の発話の前記選択された部分の両方に最も適合すると見なされた一つ又は複数の単語の連続の前記選択は、前記元の発話の前記選択された部分からのデータと共に、音響モデルを更新するために使用される、請求項１６６に記載の音声認識方法。
前記ユーザ・インターフェイスは、それぞれが、前記所望の出力が特定の特徴を有することを示し、前記再発話認識と共に使用される、入力をフィルタリングする一つ又は複数の単語をユーザが選択することを許可し、
前記再発話と前記元の発話に最も適合するものとして、一つ又は複数の連続の選択の前記プロセスは、また、前記選択された特徴を有する任意の認識候補の前記選択を支持するために、前記選択されたフィルタリング入力を使用する、請求項１６６に記載の音声認識方法。
前記ユーザ・インターフェイスは、ユーザが所望の出力が、一つ又は複数の特定の文字の連続を含む単語を含むことを示すアルファベット・フィルタリング入力を選択することを許可する、請求項１７２に記載の音声認識方法。
マイクロプロセッサ読み取り可能メモリと、
マイク、又は、認識される発話を表現する電子信号を供給するための音声入力と、
スピーカ、又は、対応する音に変換される前記電話で作成された音声の電子表現を可能にするための音声出力と、
前記発話に対応するものとして認識された、前記一つ又は複数の単語に対応するテキスト出力を作り出すことによって、前記マイク又はマイク出力から受け付けられた一つ又は複数の発話の連続の前記電子表現に対応する大語彙音声認識を実行するための音声認識プログラミングと、前記スピーカ、又は、前記発話に対する前記音声認識によって認識された前記テキストの一つ又は複数の単語を発声する音声出力に、ＴＴＳ出力を供給するためのＴＴＳプログラミングと、発声された発話に対応する単語を認識するための前記音声認識プログラミングと、一つ又は複数の単語の連続に関する発話に対応する音を生成するための前記ＴＴＳプログラミングの両方によって使用される前記メモリに記録される共有音声モデリング・データと、に対する指示を含む音声認識プログラムを含む、前記メモリに記録されたプログラミングと、
で構成される、大語彙音声認識を実行するためのコンピュータ・デバイス。
前記共有音声モデリング・データは文字の音声に対する規則を有する、請求項１７４に記載のコンピュータ・デバイス。
前記共有音声モデリング・データは、単語と、少なくとも数千の語彙単語のそれぞれに対する一つ又は複数の表音的綴り間のマッピングを有する、請求項１７４に記載のコンピュータ・デバイス。
前記マッピングは、特定単語が音声の異なる部分で生じる場合に、前記特定単語に適切な前記異な表音的綴りの指示を含む、請求項１７６に記載のコンピュータ・デバイス。
前記共有音声モデリング・データは、一つ又は複数の単語に対して音声のどの部分が所定の言語文脈においてより生じやすいかを示す言語モデリング情報を含む、請求項１７７に記載のコンピュータ・デバイス。
前記デバイスは、ハンドヘルド・コンピュータである、請求項１７４に記載のコンピュータ・デバイス。
前記デバイスは携帯電話である、請求項１７９に記載のコンピュータ・デバイス。
マイクロプロセッサ読み取り可能メモリと、
マイク、又は、認識される発話を表現する電子信号を供給するための音声入力と、
スピーカ、又は、対応する音に変換される前記電話で作成された音声の電子表現を可能にするための音声出力と、
前記マイク、又は、テキスト出力を作り出すためのマイク入力から受け付けられた発話の電子表現に関して、大語彙音声認識を実行することと、前記スピーカ、又は、前記テキスト出力の一つ又は複数の単語を発声する音声出力にＴＴＳ出力を提供することと、ボイス・コマンドである発話をコマンドとして認識することと、前記スピーカ又は認識されたコマンドの前記名前を発声する音声出力に、ＴＴＳ又は記録された音声出力を供給することと、に対する指示を含む音声認識プログラミングを含む、前記メモリに記録されたプログラミングと、で構成される、大語彙音声認識を実行するためのコンピュータ・デバイス。
前記デバイスは、ハンドヘルド・デバイスである、請求項１８１に記載のコンピュータ・デバイス。
前記デバイスは、携帯電話である、請求項１８２に記載のコンピュータ・デバイス。
マイクロプロセッサ読み取り可能メモリと、
マイク、又は、認識される発話を表現する電子信号を供給するための音声入力と、
スピーカ、又は、対応する音に変換される前記電話で作成された音声の電子表現を可能にするための音声出力と、
前記発話に対応するものとして認識された、一つ又は複数の単語に対応するテキスト出力を作り出すことと、その後、前記スピーカ、又は、前記発話に対する前記音声認識によって認識された前記テキストの一つ又は複数の単語を発声する音声出力に、ＴＴＳ出力を供給することにより、前記マイク、又は、マイク入力から受け付けられた一つ又は複数の発話の連続のそれぞれの前記電子表現に対応する、大語彙音声認識を実行するための指示を含む音声認識プログラミングを含む、前記メモリに記録されたプログラミングと、で構成される、大語彙音声認識を実行するためのコンピュータ・デバイス。
前記音声認識は、離散音声認識であり、前記ＴＴＳ出力はそれぞれの発話に対応して認識される前記テキスト単語を発話する、請求項１８４に記載のコンピュータ・デバイス。
前記音声認識は連続音声認識であり、前記ＴＴＳ出力は、前記発話の前記最後の後に、それぞれの発話に対応して認識された、前記一つ又は複数のテキスト単語を発声する、請求項１８４に記載のコンピュータ・デバイス。
前記デバイスはハンドヘルド・デバイスである、請求項１８４に記載のコンピュータ・デバイス。
前記デバイスは携帯電話である、請求項１８７に記載のコンピュータ・デバイス。
マイクロプロセッサ読み取り可能メモリと、
マイク、又は、認識される発話を表現する電子信号を供給するための音声入力と、
スピーカ、又は、対応する音に変換される前記電話で作成された音声の電子表現を可能にするための音声出力と、
前記マイク、又は、テキスト出力を作り出すためのマイク入力から受け付けられた発話の電子表現に大語彙音声認識を実行するための指示と、前記テキスト入力の前記一つ又は複数の単語に於いて、カーソルを前方及び後方に移動させることによってテキスト・ナビゲーション・コマンドに対応するための指示と、
ＴＴＳ出力を、前記スピーカ、又は、前記移動後に、前記カーソルの前記位置で始まる、又は、終わる、一つ又は複数の単語を発声する音声出力に供給することによって、前記ナビゲーション・コマンドの一つに対応して、それぞれの移動に対応するための指示と、を含む音声認識プログラミングを含む、前記メモリに記録されたプログラミングと、で構成される、大語彙音声認識を実行するためのコンピュータ・デバイス。
前記プログラミングは、
前記コマンドが選択開始として受け付けられる時点で、前記カーソル位置を記録することと、
前記選択開始時に選択を開始することと、
前記ナビゲーション・コマンドの一つに対する前記対応は、前記ナビゲーション・コマンドに対応してなされた前記カーソル移動の後で、前記選択を前記選択開始から前記カーソル移動まで拡大させることをさらに含む、選択拡大モードを入力することと、によって、前記選択拡大コマンドに対応するための指示をさらに含む、請求項１８９に記載のコンピュータ・デバイス。
前記プログラミングは、前記スピーカ、又は、前記選択に現在存在する前記一つ又は複数の単語を発声する音声出力に、ＴＴＳ出力を供給することによって、再生選択コマンドへの対応に関する指示をさらに含む、請求項１９０に記載のコンピュータ・デバイス。
一つ又は複数の単語の前記発声は、前記現在のカーソル位置で始まる前記テキストの単語の発話を開始し、
単語よりも大きなテキストのユニットの最後が達するまで、又は、ユーザ入力がそうした再生を周力させるために受け付けられるまで、単語の発話を継続する、請求項１８９に記載のコンピュータ・デバイス。
前記デバイスはハンドヘルド・デバイスである、請求項１８９に記載のコンピュータ・デバイス。
前記デバイスは携帯電話である、請求項１９３に記載のコンピュータ・デバイス。
マイクロプロセッサ読み取り可能メモリと、
マイク、又は、認識される発話を表現する電子信号を供給するための音声入力と、
スピーカ、又は、対応する音に変換される前記電話で作成された音声の電子表現を可能にするための音声出力と、
前記マイク、又は、それぞれが一つ又は複数の単語の連続で構成され、前記発話された音声に対して最も記録するものとして前記認識によって選択された、認識候補の選択肢リストを作り出すためのマイク入力から受け付けられた、発声された音声の電子表現に対して、大語彙音声認識を実行することと、発話された出力を、前記スピーカ、又は、前記選択肢リストに於ける前記認識候補の一つの、一つ又は複数の単語を発声する音声出力に供給することと、に対する指示を含む音声認識プログラミングを含む前記メモリに記録されたプログラミングと、で構成される、大語彙音声認識を実行するためのコンピュータ・デバイス。
前記プログラミングは、
選択肢の前記リストに現在選択されている前記認識候補の何れかを移動させることによって、選択肢ナビゲーション・コマンドに対応することと、
前記現在選択された認識候補に於ける、前記一つ又は複数の単語を発声する発話された出力を供給することによって、前記ナビゲーション・コマンドの一つに対応して、それぞれの移動に対応することと、に関する指示を含む、請求項１９５に記載のコンピュータ・デバイス。
前記発話された出力は、前記リストに於ける複数の認識候補の前記単語を発声し、前記複数のコマンドのそれぞれに関係した選択肢入力信号の発話された指示を含み、
前記プログラミングは、さらに、前記発話された音に対する前記出力として、前記関連した認識候補を選択することによって、前記選択肢入力信号の一つの受け付けに対応するための指示を含む、請求項１９５に記載のコンピュータ・デバイス。
前記デバイスは電話キーパッドを有しており、
前記選択肢入力信号は、電話キー・ナンバーを含み、
前記選択肢入力信号の一つの受け付けに対する前記対応は、前記選択肢入力信号として、数字が割り当てられた電話キーの前記押下への対応を含む、請求項１９７に記載のコンピュータ・デバイス。
前記発話された出力は、最初の前記最高得点認識候補を発声する、請求項１９７に記載のコンピュータ・デバイス。
前記プログラミングは、
それぞれが前記フィルタリング入力と一致する一つ又は複数の単語の連続で構成され、前記発話された音声に対して最も記録されるものとして、前記認識によって選択された認識候補に関するフィルタ処理された選択肢リストを作り出すことと、
前記スピーカ、又は、前記フィルタ処理された選択肢リストに於ける前記認識候補の一つの一つ又は複数の単語を発声する前記音声出力に、発話された出力を供給することと、
によって、フィルタリング入力の前記受け付けへの対応に対するための指示を含む、請求項１９５に記載のコンピュータ・デバイス。
前記プログラミングが、前記フィルタの前記現在の値を発声する、発話された出力を供給するための指示をさらに含む、請求項２００に記載のコンピュータ・デバイス。
前記フィルタリング入力が文字の連続であり、前記発話された出力は前記フィルタの連続に於ける前記文字を発声する、請求項２０１に記載のコンピュータ・デバイス。
前記発話された出力は、一つ又は複数の選択肢の前記綴りを含む、請求項１９５に記載のコンピュータ・デバイス。
前記デバイスは、ハンドヘルド・デバイスである、請求項１９５に記載のコンピュータ・デバイス。
前記デバイスは、携帯電話である、請求項２０４に記載のコンピュータ・デバイス。
認識される一つ又は複数の単語の所定の連続の全て、又は、一部に関する手書きの表現を受け付けることと、
一つ又は複数の単語の前記連続に関する発話された表現を受け付けることと、
手書文字表現に対して手書文字認識を実行し、発話表現に対して音声認識を実行し、手書文字表現及び発話表現の両方に対して、認識候補の得点記録に基づいて、一つ又は複数の単語の連続でそれぞれが構成される、一つ又は複数の最高得点認識候補を選択することと、で構成される単語認識方法。
認識される一つ又は複数の単語の所定の連続に関する発話された表現を受け付けることと、
手書き又は文字描画入力で構成されるフィルタリング入力を受け付けることと、
前記フィルタリング入力に最も対応するものとして前記認識によって選択された、一つ又は複数の文字の連続を表現するフィルタを定義するために、手書き又は文字認識をそれぞれ使用することと、
それぞれが一つ又は複数の単語の連続で構成され、前記発話された表現に対するそれらの適合の前記選択肢の機能として選択され、それらが、前記フィルタに関連した一つ又は複数の文字の連続の一つに適合するかしないかを問わず、一つ又は複数の認識候補を選択するために、前記フィルタと、前記発話された表現に実行された音声認識の組み合わせを使用することと、で構成される、単語認識方法。
前記フィルタリング入力は手書きで構成される、請求項２０７に記載の単語認識方法。
前記フィルタは、複数の文字の連続を表現し、
認識候補の前記選択は、前記フィルタで表現された文字の異なる連続に適合することが出来る異なる候補である、複数の最高得点認識候補を選択する、請求項２０８に記載の単語認識方法。
一つのフィルタで表現された前記複数の文字の連続、及び、認識候補の前記選択で使用された前記複数の文字の連続は、異なる文字の長さとなる可能性がある、請求項２０９に記載の単語認識方法。
前記フィルタは、フィルタリングに使用される文字の連続の一つのみを表現し、
認識候補の前記選択は、すべてが前記一つの文字の連続に適合する、複数の最高得点認識候補を選択する、請求項２０８に記載の単語認識方法。
前記フィルタリング入力は、一つ又は複数の個別の文字の描画からなる、請求項２０７に記載の単語認識方法。
前記フィルタは、複数の文字の連続を表現し、
認識候補の前記選択は、前記フィルタで表現された文字の異なる連続に適合することが出来る異なる候補である、複数の最高得点認識候補を選択する、請求項２１２に記載の単語認識方法。
前記フィルタは、フィルタリングに使用される文字の連続の一つのみを表現し、
認識候補の前記選択は、すべてが前記一つの文字の連続に適合する、複数の最高得点認識候補を選択する、請求項２１２に記載の単語認識方法。
認識される一つ又は複数の単語の第２の連続に関する発話された表現を受け付けることと、
テキストの連続する本文に、一つ又は複数の単語の−致する連続を出力するために、音声認識を使用することと、
訂正となる連続として、前記接触された連続を選択することによって、テキストの前記本文に於いて、一つ又は複数の文字の連続を接触する前記ポインティング・デバイスを用いて、ユーザ入力に対応することと、
単語の前記第２の連続の前記発話された表現の前記部分を、単語の前記所定の連続として処理することと、
その後、前記フィルタリング入力を受け付けることと、
前記フィルタを定義するために、前記手書き又は文字認識を使用することと、
一つ又は複数の認識候補を選択するために、前記フィルタ及び音声認識の前記組み合わせを使用することと、をさらに含む、請求項２０７に記載の単語認識方法。
認識される一つ又は複数の単語の所定の連続に関する手書きの表現を受け付けることと、
単語を識別する一つ又は複数の文字の連続を表現する、一つ又は複数の発話で構成されるフィルタ入力を受け付けることと、
前記フィルタリング入力に最も位置するものとして、前記認識によって選択された、一つ又は複数の文字の連続を表現するフィルタを定義するために、音声認識を使用することと、
それぞれが一つ又は複数の単語の連続で構成され、前記手書きの表現に対するそれらの適合の前記選択肢に関する機能として選択され、それらが前記フィルタに関連した一つ又は複数の文字の連続の一つに適合するかしないかを問わず、一つ又は複数の認識候補を選択するために、前記フィルタと、前記手書きの表現に実行された手書き認識の組み合わせを使用することと、で構成される、単語認識方法。
前記フィルタリング入力は、単語を識別する連続して発話された文字の連続であり、
前記音声認識は、連続音声認識である、請求項２１６に記載の単語認識方法。
前記フィルタリング入力は、単語を認識する離散的に発話された文字の連続であり、
前記音声認識は、離散音声認識である、請求項２１６に記載の単語認識方法。
前記フィルタは、複数の文字の連続を表現し、
認識候補の前記選択は、前記フィルタで表現された文字の異なる連続に適合することが出来る異なる候補である、複数の最高得点認識候補を選択する、請求項２１６に記載の単語認識方法。
一つのフィルタによって表現される前記複数の文字の連続、及び、認識候補の前記選択で使用される前記複数の文字の連続は、異なる文字の長さになる可能性がある、請求項２１９に記載の単語認識方法。
前記フィルタリング入力が、連続的に発話された音名の連続であり、
前記音声認識は、連続音声認識である、請求項２２０に記載の単語認識方法。
前記フィルタは、フィルタリングに使用される文字の連続の一つのみを表現し、
認識候補の前記選択は、すべてが前記一つの文字の連続に適合する、複数の最高得点認識候補を選択する、請求項２１６に記載の単語認識方法。
ユーザが前記フィルタリング入力が離散認識、又は、連続認識で認識されるかどうかを選択することが出来るユーザ・インターフェイスを提供することをさらに含む、請求項２１６に記載の単語認識方法。
音名認識、又は、単語を識別する非音名文字の認識を指示するモードで、前記フィルタリング入力が認識されるかどうかをユーザが選択することが可能なユーザ・インターフェイスを提供することをさらに含む、請求項２１６に記載の単語認識方法。
認識される一つ又は複数の単語の所定の連続に関する手書きの表現を受け付けることと、
それぞれが前記手書き表現の一つ又は複数の単語に対応する見込みを有するものとして選択された一つ又は複数の単語を含む、一つ又は複数の最高得点認識候補を作り出すために、前記手書き表現に対して手書き認識を実行することと、
その後、認識される一つ又は複数の単語の所定の連続の発話された表現を受け付けることと、
それぞれが、前記発話された表現の一つ又は複数の単語に対応する見込みを有するものとして選択された、一つ又は複数の単語を有する、一つ又は複数の最高得点認識候補を作り出すために、前記発話された表現に対して音声認識を実行することと、
前記手書き表現の前記以前の認識を訂正するために、前記音声認識の最高得点候補の一つに於ける情報を使用することと、で構成される、単語認識方法。
手書き認識を訂正する音声認識情報に関する前記使用は、前記手書き認識によって作り出された最高得点認識候補を、前記音声認識によって作り出された最高得点認識候補で置換することを含む、請求項２２５に記載の単語認識方法。
手書き認識を訂正するための音声認識情報の前記使用は、前記音声認識によって作り出された前記認識候補の一つをコマンドとして解釈することと、前記手書き認識によって作り出された最高得点認識候補の訂正に於いて、前記コマンドを実行することを含む、請求項２２５に記載の単語認識方法。
一つ又は複数の制御演算装置と、
前記制御演算装置によって読み出し可能なメモリと、
マイク、又は、音声の入力を表現する電気信号を供給する音声入力と、
スピーカ、又は、前記デバイスに於いて作り出された音声の電子表現を対応する音に変換可能な音声出力と、
前記発話に対応するものとして認識された、一つ又は複数の単語の対応するテキスト出力を作り出すことによって、前記マイク又はマイク入力から受け付けられた一つ又は複数の発話の連続の前記音に関する前記電子表現に対応する大語彙音声認識を実行するための音声認識プログラミングと、一つ又は複数の前記メモリ・デバイスに於いて、前記音声の電気的に読み出し可能な表現を記録する音声記録プログラミングと、前記記録された音声の表現を再生し、前記スピーカ又は音声出力に対応する音声信号を供給するための音声再生プログラミングと、を含む一つ又は複数の前記メモリ・デバイスに記録されたプログラミングと、で構成され、
前記デバイスは、受け付けられた際に、音声の入力を記録する下記３つの使用可能なモード、即ち、前記音声の入力の記録の表現なしで、現在のカーソルで、ユーザ・ナビゲーション可能な文書に、前記音声の入力の音声認識に対応して、テキスト出力をセットする第１モードと、前記音声の入力の音声認識に対応するテキストなしで、前記カーソルで前記ユーザ・ナビゲート可能な文書に、前記音声の入力の記録の表現をセットする第２モードと、それぞれのそうした単語が認識された前記音声の入力の記録の一部を表現するテキスト出力の前記単語自身を用いて、前記現在のカーソル位置に、前記ユーザ・ナビゲート可能な文書に、前記音声の入力の音声認識に対応して、テキスト出力をセットする第３モードと、の内、２つのモードからユーザが選択することが可能であることに対する指示を有し、
前記音声再生プログラミングが、再生モード時に、そうした表現に前記カーソルを位置させることによって、前記第２及び第３記録モードによって前記文書にセットされた、前記音声の表現によって表現された、記録された音を再生することを、ユーザが選択することが出来ることに対する指示を含む、大語彙音声認識を実行するためのハンドヘルド・コンピュータ・デバイス。
前記デバイスの指示は、それぞれの切り換えに対して、１秒未満の遅延で、第２モードを第１又は第３モードの何れかに交互に切り換えることをユーザが選択可能である、請求項２２８に記載のハンドヘルド・コンピュータ・デバイス。
前記デバイスのプログラミングは、さらに、前記選択された音声に一致するテキスト出力を作り出すために、音声記録の前記選択された部分に対して実行される音声認識を有するために、対応する認識なしで、音声記録の一部をユーザが選択することが出来ることに対する指示を含む、請求項２２８に記載のハンドヘルド・コンピュータ・デバイス。
前記デバイスのプログラミングは、その単語に関連した記録された音を有する前記第３モードに於ける音声認識によって、テキスト出力の下位部分をユーザが選択することができ、取り除かれた前記選択されたテキストに関連した前記記録された音をユーザが有することが出来ることに対する指示をさらに含む、請求項２２８に記載のハンドヘルド・コンピュータ・デバイス。
前記デバイスのプログラミングは、その単語に関連した記録された音を有する前記第３モードで、音声認識によるテキスト出力の下位部分をユーザが選択でき、取り除かれた前記選択されたテキストをユーザが有することができ、前記文書に於けるその位置を、前記第２モードで記録することによって作り出された前記記録された音声の表現の前記タイプで、ユーザが置換することが出来ることに対する指示をさらに含む、請求項２２８に記載のハンドヘルド・コンピュータ・デバイス。
前記第２記録モードによって前記文書にセットされた音声の前記表現は、それらが表現する記録された音声の前記各部分の前記持続時間の機能ｙとして、長さが変化する音声グラフィック表現である、請求項２２８に記載のハンドヘルド・コンピュータ・デバイス。
前記デバイスは、ハンドヘルド・デバイスである、請求項２２８に記載のコンピュータ・デバイス。
前記デバイスは、携帯電話である、請求項２３４に記載のコンピュータ・デバイス。
一つ又は複数の制御演算装置と、
前記制御演算装置によって読み出し可能なメモリと、
マイク、又は、音声の入力を表現する電気信号を供給する音声入力と、
スピーカ、又は、前記デバイスに於いて作り出された音声の電子表現を対応する音に変換可能な音声出力と、
前記発話に対応するものとして認識された、前記一つ又は複数の単語に対応する、テキスト出力を作り出すことによって、前記マイク、又は、マイク入力から受け付けられた、一つ又は複数の発話の連続の前記音に関する、前記電子表現に対応する、大語彙音声認識を実行するための音声認識プログラミングと、一つ又は複数の前記メモリ・デバイスの電気的に読み出し可能な表現を記録するための音声記録プログラミングと、前記記録された音声の表現を再生し、前記スピーカ又は音声出力に対応する音声信号を供給する音声再生プログラミングと、を含む、一つ又は複数の前記メモリ・デバイスに記録されたプログラミングと、で構成され、
前記デバイスのプログラミングは、対応する認識なしに、記録された音声の一部をユーザが選択でき、前記選択された音声に対応するテキスト出力を作り出すために、音声記録の前記選択された部分に対して実行される音声認識をユーザが有することが出来ること、に対する指示をさらに含む、大語彙音声認識を実行するためのハンドヘルド・コンピュータ・デバイス。
一つ又は複数の制御演算装置と、
前記制御演算装置によって読み出し可能なメモリと、
マイク、又は、音声の入力を表現する電気信号を供給する音声入力と、
スピーカ、又は、前記デバイスに於いて作り出された音声の電子表現を対応する音に変換可能な音声出力と、
前記発話に対応するものとして認識された、前記一つ又は複数の単語に対応するテキスト出力を作り出すことによって、前記マイク又はマイク入力から受け付けられた一つ又は複数の発話の連続の前記音に関する前記電子表現に対応する、大語彙音声認識を実行するための音声認識プログラミングと、一つ又は複数の前記メモリ・デバイスに於いて、前記音声の電気的に読み出し可能な表現を記録するための音声記録プログラミングと、前記記録された音声の表現を再生し、対応する音声信号を前記スピーカ又は音声出力に供給することに対する音声再生プログラミングと、を含む、一つ又は複数の前記メモリ・デバイスに記録されたプログラミングと、で構成され、
前記デバイスのプログラミングは、ユーザが、前記音声認識によって、テキスト出力の記録された部分と、声によって以前ラベル付けされなかった、前記記録された音声の表現の部分とを関連付けることが出来ることと、使用される前記音声認識によって、テキスト出力がテキスト検索文字列として使用されるように、ユーザが選択することが出来ることと、前記検索文字列に適合する記録されたテキスト出力に対する検索を実行することと、に対する指示をさらに有し、
その結果、その関連した記録されたテキストを検索することによって、記録された音声の表現の一部を検出することをユーザが選択することが出来る、大語彙音声認識を実行するためのハンドヘルド・コンピュータ・デバイス。
一つ又は複数の制御演算装置と、
前記制御演算装置によって読み出し可能なメモリと、
マイク、又は、音声の入力を表現する電気信号を供給する音声入力と、
スピーカ、又は、前記デバイスに於いて作り出された音声の電子表現を対応する音に変換可能な音声出力と、
前記発話に対応するものとして認識された一つ又は複数の単語に対応するテキスト出力を作り出すことによって、前記マイク、又は、マイク入力から受け付けられた、一つ又は複数の発話の連続の前記音に関する前記電子表現に対応する大語彙音声認識を実行するための音声認識プログラミングと、大語彙音声認識を実行するための音声認識プログラミングと、一つ又は複数の前記メモリ・デバイスの電気的に読み出し可能な表現を記録するための音声記録プログラミングと、前記記録された音声の表現を再生し、前記スピーカ、又は、音声出力に対応する音声信号を供給する音声再生プログラミングと、前記以前の再生の前記最後の少し前に始まる連続音声再生を用いて、前記音声再生と、それぞれの切り替えを起こす一つのユーザ入力を有する前記音声認識を、交互に切り替えることに対する指示と、を含む、一つ又は複数の前記メモリ・デバイスに記録されたプログラミングと、で構成される、大語彙音声認識を実行するためのコンピュータ・デバイス。
前記音声再生と前記音声認識を交互に切り替えるための前記指示は、前記同一入力デバイスのユーザの選択に対応して、そうした両方の切り替えを行う、請求項２３８に記載のコンピュータ・デバイス。
ユーザ認知可能出力デバイスと、
少なくとも一般的な１２キー電話キーパッドを含む一連の電話キーと、
一つ又は複数の制御演算装置と、
前記制御演算装置によって読み出し可能なメモリと、
マイク、又は、前記電話が音声の電子表現を受け付け可能な音声入力と、
スピーカ、又は、前記デバイスに於いて作り出された音声の電子表現を対応する音に変換可能な音声出力と、
送受信回路と、
電話をかけること、及び、電話を受けることの両方を含む電話機能を実行するための指示を有する電話プログラミングと、前記発話に対応するものとして、一つ又は複数の認識された単語に対応するテキスト出力を作り出すことによって、前記マイク、又は、マイク入力から受け付けられた、一つ又は複数の発話の連続の前記音に関する前記電子表現に対応する、大語彙音声認識を実行するための音声認識プログラミングと、一つ又は複数の前記メモリ・デバイスに於ける前記音に関する電気的に読み出し可能な表現を記録するための音声記録プログラムと、前記記録された音声の表現を再生し、前記スピーカ又は音声出力に対応する音声信号を供給するための音声再生プログラミングと、を含む、前記メモリに記録されたプログラミングと、で構成される、携帯電話として機能するコンピュータ・デバイス。
前記再生プログラミングは、ユーザが前記記録された音声の表現の下位部分を選択することが出来ることと、携帯電話の通話の他方に対して、前記音声の表現の選択された下位部分を再生することをユーザが選択することが出来ることと、に対する指示を含む、請求項２４０に記載のコンピュータ・デバイス。
前記記録プログラミングは、ユーザが携帯電話の会話の一方、又は、両方の電気的に可読な表現を記録することを選択することを可能にすることに対する指示を含む、請求項２４０に記載のコンピュータ・デバイス。
前記デバイスのプログラミングは、さらに、以前声でラベル付けされていない、前記記録された音声の一部を用いて、前記音声認識によって、テキスト出力の記録された部分をユーザが関連付けることが可能となることに対する指示を含む、請求項２４０に記載のコンピュータ・デバイス。
前記デバイスのプログラミングは、さらに、前記音声認識によって、テキスト出力をテキスト検索文字列として使用させることをユーザに選択させることを可能にすることと、前記検索文字列に対応する記録されたテキスト出力に対する検索を実行することと、に関する指示を含み、
前記ユーザはその関連付けられた記録されたテキストを検索することによって、記録された音声の表現の一部を、前記ユーザが検出することを選択することが出来る、請求項２４３に記載のコンピュータ・デバイス。
前記デバイスのプログラミングは、さらに、以前認識された、前記記録された音声の表現の下位部分をユーザが選択することが出来ることと、前記選択された下位部分に関して実行された、前記大語彙音声認識をユーザが有することが出来ることと、に対する指示を含む、請求項２４０に記載のコンピュータ・デバイス。
前記音声認識プログラミングは、音声の所定の長さを認識するためにより多くの時間を費やす、より高品質の認識を用いて、異なる品質レベルで、音声認識を実行することに対する指示を含み、
記録された音声の選択された下位部分に関して実行さる音声認識を、ユーザが有することを選択することが出来るための指示は、前記選択された記録された音が前記高品質で認識されることが出来ることに関する指示を含む、請求項２４５に記載のコンピュータ・デバイス。
前記音声認識プログラミングは、前記音声認識によって、テキスト出力に於いて個別に認識された単語と、前記テキストに於いてそれぞれの認識された単語に関連した、前記記録された音声の一部との間で、時間的整合を行うことと、一つ又は複数の単語の連続をユーザが選択することができ、再生されたそれらの単語に関連した前記記録された音をユーザが有することが出来ることと、に対する指示を含む、請求項２４５に記載のコンピュータ・デバイス。
前記ドライバのプログラミングは、さらに、前記以前の再生の前記最後の少し前に始まる、連続音声再生を用いて、音声再生と音声認識とを交互に切り替えることに対する指示を含む、請求項２４０に記載のコンピュータ・デバイス。