JP2006515073A - 音声認識を実行するための方法、システム、及びプログラミング - Google Patents
音声認識を実行するための方法、システム、及びプログラミング Download PDFInfo
- Publication number
- JP2006515073A JP2006515073A JP2004533998A JP2004533998A JP2006515073A JP 2006515073 A JP2006515073 A JP 2006515073A JP 2004533998 A JP2004533998 A JP 2004533998A JP 2004533998 A JP2004533998 A JP 2004533998A JP 2006515073 A JP2006515073 A JP 2006515073A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- word
- user
- input
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Abstract
本発明は、選択可能な認識モードを有する音声認識、大語彙音声認識に於ける選択肢リストの使用、ユーザが単語変換を選択することが出来ること、一つ又は複数の特定の方法で認識を自動的にオフの状態にする音声認識、大語彙音声認識に関する電話キー制御、電話キー・アルファベット・フィルタリング及綴りを使用する音声認識、ユーザが再発話認識を実行可能な音声認識、音声認識及び音声合成(TTS)生成の組み合わせ、手書文字を用いた音声認識及び/又は文字認識の組み合わせ、音声録音及び再生を用いた大語彙音声認識の組み合わせに関する。
Description
本発明は、音声認識を実行するための方法、システム、及び、プログラミングに関する。
大語彙離散音声認識システムは、本特許出願の記載時点までの約10年間、デスクトップ・パソコンで使用可能となっている。大語彙連続音声認識システムは、本特許出願の記載時点までの約5年間、デスクトップ・パソコンで使用可能となっている。該音声認識システムには相当な価値があることが証明されている。実際、本特許出願の文章の殆どは、大語彙連続音声認識システムの使用に関して作成されている。
この明細書及び付随する請求項に於いて使用されているように、大語彙音声認識システムについて言及する場合、所定の発話された単語に最も近い対応する音声モデルを有する単語に従って、少なくとも2000以上の異なる語彙単語の任意の一つとして、所定の発話を認識する能力を備えたシステムを意味する。
図1に示されているように、一般的に、大語彙音声認識は、ユーザが図1の携帯電話104のマイク102に向かって発話することによって機能する。このマイクは、単語の発話によって生じる空気圧の経時変化を電気信号106で表された対応する波形に変換する。多くの音声認識システムに於いて、この波形信号は、コンピュータ・プロセッサ、又は、専用のデジタル信号プロセッサ108の何れかで実行されるデジタル信号処理によって、タイム・ドメイン(時間領域)表示に変換される。多くの場合、タイム・ドメイン表示は、複数のパラメータ・フレーム112で構成され、各パラメータ・フレーム112は、複数の連続する時間枠(例えば100分の1秒)のそれぞれに於いて電気信号106の波形によって表現された音声の特性を表す。
図2で示されているように、タイム・ドメイン、又は、フレームの認識される発話の表現は、大語彙に於ける異なる単語に対応する音声モデル200の内、複数の可能性のある配列に対して照合される。殆どの大語彙音声認識システムに於いて、個々の単語202は、殆どの辞書に含まれる表音的綴りに類似した、対応する表音的綴り204によってそれぞれ表現されている。表音的綴りに於けるそれぞれの音素は、それに関連付けられた一つ又は複数の音声モデル200を有する。多くのシステムに於いて、音声モデル200は、文脈に於ける音素モデルであるが、これは、所定の単語の表音的綴りに於いて、音素が前後の音素の文脈に生じる際に、関連する音素の音声を形作るモデルである。一般に、音声モデルは一つ又は複数の確率モデルの配列で構成されており、各確率モデルは、認識される発話に関するタイム・ドメイン表示110のフレームに於いて使用される、各パラメータに対する異なるパラメータ値の確率を表す。
近年のパーソナル・コンピューティングに於ける主要な動きの一つは、より小型で、多くの場合、よりポータブルなコンピューティング・デバイスの用途拡大である。
本来、殆どのパーソナル・コンピューティングは、図3に示されている一般的なタイプのデスクトップ・コンピュータで実行された。その後、図示していないが、ラップトップ・コンピュータ型のさらに小型のパーソナル・コンピュータの使用が増大した。これは、ラップトップ・コンピュータがデスクトップ・コンピュータと大体同一型の計算能力とユーザ・インターフェイスを有しているからである。現在の殆どの大語彙音声認識システムは、そうしたシステムで使用するために設計されている。
近年、新しいタイプのコンピュータの利用が増加している。例えば、図4に示されたタブレット・コンピュータ、図5に示された携帯情報端末(PDA)コンピュータ、図6に図示された、さらなる計算能力を有する携帯電話、図7に示された腕時計型携帯電話コンピュータ、そして、図8に示された、頭部に装着可能なデバイスから供給される画面、視線追跡、及び/又は、音声出力を備えたユーザ・インターフェイスを供給する装着可能なコンピュータ等である。
近年の計算能力の増大により、そうした新しいタイプのデバイスは、大語彙離散音声認識システムを備えた最初のデスクトップの計算能力に匹敵する計算能力を搭載することが可能であり、場合によっては、大語彙連続音声認識を最初に実行したデスクトップ・コンピュータが備えた計算能力と同程度の計算能力を搭載することが可能である。こうしたさらに小型で、及び/又は、ポータブルなパーソナル・コンピュータの計算能力は、時代と共に増加の一途を辿る。
この明細書及び付随する請求項に於いて使用されているように、大語彙音声認識システムについて言及する場合、所定の発話された単語に最も近い対応する音声モデルを有する単語に従って、少なくとも2000以上の異なる語彙単語の任意の一つとして、所定の発話を認識する能力を備えたシステムを意味する。
図1に示されているように、一般的に、大語彙音声認識は、ユーザが図1の携帯電話104のマイク102に向かって発話することによって機能する。このマイクは、単語の発話によって生じる空気圧の経時変化を電気信号106で表された対応する波形に変換する。多くの音声認識システムに於いて、この波形信号は、コンピュータ・プロセッサ、又は、専用のデジタル信号プロセッサ108の何れかで実行されるデジタル信号処理によって、タイム・ドメイン(時間領域)表示に変換される。多くの場合、タイム・ドメイン表示は、複数のパラメータ・フレーム112で構成され、各パラメータ・フレーム112は、複数の連続する時間枠(例えば100分の1秒)のそれぞれに於いて電気信号106の波形によって表現された音声の特性を表す。
図2で示されているように、タイム・ドメイン、又は、フレームの認識される発話の表現は、大語彙に於ける異なる単語に対応する音声モデル200の内、複数の可能性のある配列に対して照合される。殆どの大語彙音声認識システムに於いて、個々の単語202は、殆どの辞書に含まれる表音的綴りに類似した、対応する表音的綴り204によってそれぞれ表現されている。表音的綴りに於けるそれぞれの音素は、それに関連付けられた一つ又は複数の音声モデル200を有する。多くのシステムに於いて、音声モデル200は、文脈に於ける音素モデルであるが、これは、所定の単語の表音的綴りに於いて、音素が前後の音素の文脈に生じる際に、関連する音素の音声を形作るモデルである。一般に、音声モデルは一つ又は複数の確率モデルの配列で構成されており、各確率モデルは、認識される発話に関するタイム・ドメイン表示110のフレームに於いて使用される、各パラメータに対する異なるパラメータ値の確率を表す。
近年のパーソナル・コンピューティングに於ける主要な動きの一つは、より小型で、多くの場合、よりポータブルなコンピューティング・デバイスの用途拡大である。
本来、殆どのパーソナル・コンピューティングは、図3に示されている一般的なタイプのデスクトップ・コンピュータで実行された。その後、図示していないが、ラップトップ・コンピュータ型のさらに小型のパーソナル・コンピュータの使用が増大した。これは、ラップトップ・コンピュータがデスクトップ・コンピュータと大体同一型の計算能力とユーザ・インターフェイスを有しているからである。現在の殆どの大語彙音声認識システムは、そうしたシステムで使用するために設計されている。
近年、新しいタイプのコンピュータの利用が増加している。例えば、図4に示されたタブレット・コンピュータ、図5に示された携帯情報端末(PDA)コンピュータ、図6に図示された、さらなる計算能力を有する携帯電話、図7に示された腕時計型携帯電話コンピュータ、そして、図8に示された、頭部に装着可能なデバイスから供給される画面、視線追跡、及び/又は、音声出力を備えたユーザ・インターフェイスを供給する装着可能なコンピュータ等である。
近年の計算能力の増大により、そうした新しいタイプのデバイスは、大語彙離散音声認識システムを備えた最初のデスクトップの計算能力に匹敵する計算能力を搭載することが可能であり、場合によっては、大語彙連続音声認識を最初に実行したデスクトップ・コンピュータが備えた計算能力と同程度の計算能力を搭載することが可能である。こうしたさらに小型で、及び/又は、ポータブルなパーソナル・コンピュータの計算能力は、時代と共に増加の一途を辿る。
より一層ポータブルなコンピュータに効果的な大語彙音声認識を備える上でのより重要な課題の一つは、そうしたデバイスに於いて、音声認識の作成、編集、及び、使用をより簡便且つ迅速にするユーザ・インターフェイスを提供することである。
本発明に関する一つの特徴は、選択可能な認識モードを使用する音声認識に関する。これは、例えば、言語文脈を有する認識モードと言語文脈を有していない認識モードから、ユーザがモード選択をすることが出来ること、大語彙連続音声認識モードと大語彙離散音声認識モードから、ユーザがモード選択をすることが出来ること、少なくとも2つの異なるアルファベット入力音声認識モードから、ユーザがモード選択をすることが出来ること、テキスト作成時に下記の認識モード、即ち、大語彙モード、文字認識モード、数字認識モード、句読点認識モードの4つ、又は、それ以上から、ユーザがモード選択をすることが出来ること、等の技術革新を有する。
本発明に関する他の特徴は、大語彙音声認識に於ける選択肢リストの使用に関する。これは、例えば、文字順選択肢リストの提供、垂直スクロール可能な選択肢リストの提供、水平スクロール可能な選択肢リストの供給、及び、認識候補の制限に使用されるアルファベット・フィルタに於ける文字に関する選択肢リストの供給等の技術革新を有する。
本発明に関する他の特徴は、ユーザが単語変換を選択可能であることに関する。これは、例えば、単数から複数への変換、単語の動名詞化など、所望の方法で認識された単語を変更するために、該認識された単語に対して実行する複数の変換から、ユーザが一つの変換を選択することが出来るという技術革新を含む。また、これは、ユーザがアルファベット形式、及び、非アルファベット形式から、選択された単語を変換することを選択可能であるという技術革新を含む。また、これは、認識された単語に対応する変換された単語の選択肢リストをユーザに提供することや、出力として変換された単語の一つをユーザが選択可能であること等の技術革新を含む。
本発明に関する他の特徴は、一つ又は複数の特定の方法で、認識を自動的にオフの状態にする音声認識に関する。これは、例えば、認識をオンの状態にし、その後、認識を自動的にオフの状態にして、再び認識をオンの状態に戻すために他のコマンドを受け付けるまでオフの状態を継続する大語彙音声認識コマンド等の技術革新を含む。また、これは、ボタンの押下によって、押下時間の長さによって規定された持続時間の間、認識を実行する音声認識、及び、同一ボタンのクリックによって、クリックの長さとは独立した時間の長さに於いて認識を実行する、音声認識に関する技術革新を含む。
本発明に関する他の特徴は、大語彙音声認識の電話キー制御に関する。これは、選択肢リストから単語を選択するために電話キーを使用すること、次に押下されたキーに関する説明を提示するヘルプ・モードを選択するために電話キーを使用すること、及び、電話キーに現在関連付けられた機能のリストを選択するために、電話キーを使用すること、に関する技術革新を有する。また、これは、複数の番号付与された電話キーが、その時点でこれらの電話キーに関連付けられた異なる複数のキー・マッピングを有しており、そうしたキーの押下によって、番号付与された電話キーに関連付けられた機能が、押下されたキーに関連付けられたマッピングに変更される、テキスト・ナビゲーション・モードを有する音声認識に関する技術革新を含む。
本発明に関する他の特徴は、電話キー・アルファベット・フィルタリング、及び、電話キー・アルファベット綴りを使用する音声認識に関する。アルファベット・フィルタリングとは、通常、ユーザ入力によって示された文字の配列に対応する文字の最初の配列等、文字の配列含む単語の音声認識を支持することを意味する。本発明の該特徴は、所望の単語に於いて対応する文字の位置が、その電話キーと同一であると見なされた複数の文字の一つに対応することを示す点で、それぞれのキーの押下が曖昧な場合に、電話キーの押下をフィルタリング入力として使用する技術革新を含む。また、本発明のこの特徴は、ゼロの数、又は、所定のキーをさらに繰り返して押下することによって、キーに関連付けられた複数の文字がフィルタに於ける使用対象となる非曖昧な指示を提供する電話キーの押下の配列を、フィルタリング入力として使用する技術的革新を有する。また、本発明に関する該特徴は、音声認識で作り出されたテキストに加えて、使用可能なテキストを綴るために、曖昧な電話キー入力、及び、非曖昧な電話キー入力を使用することに関する技術革新を含む。
本発明に関する他の特徴は、ユーザが再発話認識を実行可能な音声認識に関し、該音声認識に於いて、音声認識が発話に対する一つ又は複数の最高得点テキストの配列をより適切に選択するよう支援するために、一つ又は複数の単語の配列に関する第2の発話、及び、同一の配列に関する早期の発話の両方に対して、音声認識が実行される。
本発明の他の特徴は、音声認識と音声合成(TTS)生成の組み合わせに関する。これは、例えば、表意的綴りや文字から音声への規則等の資源を共有する音声認識及びTTSソフトウェアを有する技術的革新を含む。また、それは、認識後に認識されたテキストを発話するためにTTSを自動的に使用し、それらの認識後に認識されたコマンド名を発話するために、TTS又は録音された音声を使用する、少なくとも一つのモードを有する大語彙音声認識システムに関する技術革新を含む。また、本発明のこの特徴は、それぞれの発話後に、TTSを使用して認識されたテキストを自動的に繰り返す大語彙システムに関する技術的革新を含む。また、この特徴は、認識されたテキストに於いてユーザが前後に移動可能であって、TTSによって発話されるそうした動きのそれぞれの後に、現在位置に於いて一つ又は複数の単語を用いてユーザが移動可能な大語彙システムに関する技術革新を含む。
また、この特徴は、選択肢リストを作り出すために音声認識を使用し、一つ又は複数のそのリストの選択肢のTTS出力を供給する大語彙システムに関する技術革新を含む。
本発明の他の特徴は、手書文字を用いた音声認識、及び/又は、文字認識の組み合わせに関する。これは、認識される一つ又は複数の単語の配列に関する手書表現及び発話表現の両方の認識の機能として、一つ又は複数の最高得点認識候補を選択する技術革新を含む。また、それは、一つ又は複数の単語に関する音声認識をアルファベット順にフィルタ処理するために、一つ又は複数の文字に関する文字又は手書文字認識を使用する技術革新を有する。また、それは、手書文字認識をアルファベット順にフィルタ処理するために、一つ又は複数の文字識別単語の音声認識を使用する技術革新、及び、一つ又は複数の単語に関する手書文字認識を訂正するために音声認識を使用する技術革新を有する。
本発明の他の特徴は、大語彙音声認識と、音声の録音及び再生の組み合わせに関する。それは、大語彙音声認識、及び、音声入力を録音する以下のモード、即ち、対応する音声認識出力を用いずに音声を録音するモードと、対応する音声認識出力を用いて音声を録音モードと、対応する音声を用いずに音声の音声認識出力を録音するモードの内、少なくとも2つをユーザが切り換え可能な音声録音の両方を有するハンドヘルド・デバイスに関する技術革新を含む。また、本発明のこの特徴は、大語彙音声認識、及び、音声録音機能の両方を有するハンドヘルド・デバイス、及び、ユーザが以前録音した音声の一部を選択し、それに対して音声認識を実行させることが可能なハンドヘルド・デバイスに関する技術革新を有する。また、それは、対応する音声認識出力を用いずに録音される音声の一部に対して、テキスト・ラベルを供給するために、大語彙音声認識をユーザが使用可能な大語彙音声認識システムに関する技術革新、及び、ラベルの単語を発話することと、その発話を認識することと、それらの単語を含むテキストを検索すること、によって、認識されていない録音された音声の一部に関連したテキスト・ラベルをユーザが検索可能なシステムに関する技術革新を含む。また、本発明のこの特徴は、以前の再生が終了する直前に自動的に開始する連続音声再生を用いて、以前記録されたオ音声の再生、及び、単一入力を用いた音声認識の実行をユーザが切り換え可能な大語彙システムに関する技術革新を含む。また、本発明のこの特徴は、大語彙音声認識、及び、録音及び再生機能の両方を有する携帯電話の技術革新を含む。
本発明に関する他の特徴は、大語彙音声認識に於ける選択肢リストの使用に関する。これは、例えば、文字順選択肢リストの提供、垂直スクロール可能な選択肢リストの提供、水平スクロール可能な選択肢リストの供給、及び、認識候補の制限に使用されるアルファベット・フィルタに於ける文字に関する選択肢リストの供給等の技術革新を有する。
本発明に関する他の特徴は、ユーザが単語変換を選択可能であることに関する。これは、例えば、単数から複数への変換、単語の動名詞化など、所望の方法で認識された単語を変更するために、該認識された単語に対して実行する複数の変換から、ユーザが一つの変換を選択することが出来るという技術革新を含む。また、これは、ユーザがアルファベット形式、及び、非アルファベット形式から、選択された単語を変換することを選択可能であるという技術革新を含む。また、これは、認識された単語に対応する変換された単語の選択肢リストをユーザに提供することや、出力として変換された単語の一つをユーザが選択可能であること等の技術革新を含む。
本発明に関する他の特徴は、一つ又は複数の特定の方法で、認識を自動的にオフの状態にする音声認識に関する。これは、例えば、認識をオンの状態にし、その後、認識を自動的にオフの状態にして、再び認識をオンの状態に戻すために他のコマンドを受け付けるまでオフの状態を継続する大語彙音声認識コマンド等の技術革新を含む。また、これは、ボタンの押下によって、押下時間の長さによって規定された持続時間の間、認識を実行する音声認識、及び、同一ボタンのクリックによって、クリックの長さとは独立した時間の長さに於いて認識を実行する、音声認識に関する技術革新を含む。
本発明に関する他の特徴は、大語彙音声認識の電話キー制御に関する。これは、選択肢リストから単語を選択するために電話キーを使用すること、次に押下されたキーに関する説明を提示するヘルプ・モードを選択するために電話キーを使用すること、及び、電話キーに現在関連付けられた機能のリストを選択するために、電話キーを使用すること、に関する技術革新を有する。また、これは、複数の番号付与された電話キーが、その時点でこれらの電話キーに関連付けられた異なる複数のキー・マッピングを有しており、そうしたキーの押下によって、番号付与された電話キーに関連付けられた機能が、押下されたキーに関連付けられたマッピングに変更される、テキスト・ナビゲーション・モードを有する音声認識に関する技術革新を含む。
本発明に関する他の特徴は、電話キー・アルファベット・フィルタリング、及び、電話キー・アルファベット綴りを使用する音声認識に関する。アルファベット・フィルタリングとは、通常、ユーザ入力によって示された文字の配列に対応する文字の最初の配列等、文字の配列含む単語の音声認識を支持することを意味する。本発明の該特徴は、所望の単語に於いて対応する文字の位置が、その電話キーと同一であると見なされた複数の文字の一つに対応することを示す点で、それぞれのキーの押下が曖昧な場合に、電話キーの押下をフィルタリング入力として使用する技術革新を含む。また、本発明のこの特徴は、ゼロの数、又は、所定のキーをさらに繰り返して押下することによって、キーに関連付けられた複数の文字がフィルタに於ける使用対象となる非曖昧な指示を提供する電話キーの押下の配列を、フィルタリング入力として使用する技術的革新を有する。また、本発明に関する該特徴は、音声認識で作り出されたテキストに加えて、使用可能なテキストを綴るために、曖昧な電話キー入力、及び、非曖昧な電話キー入力を使用することに関する技術革新を含む。
本発明に関する他の特徴は、ユーザが再発話認識を実行可能な音声認識に関し、該音声認識に於いて、音声認識が発話に対する一つ又は複数の最高得点テキストの配列をより適切に選択するよう支援するために、一つ又は複数の単語の配列に関する第2の発話、及び、同一の配列に関する早期の発話の両方に対して、音声認識が実行される。
本発明の他の特徴は、音声認識と音声合成(TTS)生成の組み合わせに関する。これは、例えば、表意的綴りや文字から音声への規則等の資源を共有する音声認識及びTTSソフトウェアを有する技術的革新を含む。また、それは、認識後に認識されたテキストを発話するためにTTSを自動的に使用し、それらの認識後に認識されたコマンド名を発話するために、TTS又は録音された音声を使用する、少なくとも一つのモードを有する大語彙音声認識システムに関する技術革新を含む。また、本発明のこの特徴は、それぞれの発話後に、TTSを使用して認識されたテキストを自動的に繰り返す大語彙システムに関する技術的革新を含む。また、この特徴は、認識されたテキストに於いてユーザが前後に移動可能であって、TTSによって発話されるそうした動きのそれぞれの後に、現在位置に於いて一つ又は複数の単語を用いてユーザが移動可能な大語彙システムに関する技術革新を含む。
また、この特徴は、選択肢リストを作り出すために音声認識を使用し、一つ又は複数のそのリストの選択肢のTTS出力を供給する大語彙システムに関する技術革新を含む。
本発明の他の特徴は、手書文字を用いた音声認識、及び/又は、文字認識の組み合わせに関する。これは、認識される一つ又は複数の単語の配列に関する手書表現及び発話表現の両方の認識の機能として、一つ又は複数の最高得点認識候補を選択する技術革新を含む。また、それは、一つ又は複数の単語に関する音声認識をアルファベット順にフィルタ処理するために、一つ又は複数の文字に関する文字又は手書文字認識を使用する技術革新を有する。また、それは、手書文字認識をアルファベット順にフィルタ処理するために、一つ又は複数の文字識別単語の音声認識を使用する技術革新、及び、一つ又は複数の単語に関する手書文字認識を訂正するために音声認識を使用する技術革新を有する。
本発明の他の特徴は、大語彙音声認識と、音声の録音及び再生の組み合わせに関する。それは、大語彙音声認識、及び、音声入力を録音する以下のモード、即ち、対応する音声認識出力を用いずに音声を録音するモードと、対応する音声認識出力を用いて音声を録音モードと、対応する音声を用いずに音声の音声認識出力を録音するモードの内、少なくとも2つをユーザが切り換え可能な音声録音の両方を有するハンドヘルド・デバイスに関する技術革新を含む。また、本発明のこの特徴は、大語彙音声認識、及び、音声録音機能の両方を有するハンドヘルド・デバイス、及び、ユーザが以前録音した音声の一部を選択し、それに対して音声認識を実行させることが可能なハンドヘルド・デバイスに関する技術革新を有する。また、それは、対応する音声認識出力を用いずに録音される音声の一部に対して、テキスト・ラベルを供給するために、大語彙音声認識をユーザが使用可能な大語彙音声認識システムに関する技術革新、及び、ラベルの単語を発話することと、その発話を認識することと、それらの単語を含むテキストを検索すること、によって、認識されていない録音された音声の一部に関連したテキスト・ラベルをユーザが検索可能なシステムに関する技術革新を含む。また、本発明のこの特徴は、以前の再生が終了する直前に自動的に開始する連続音声再生を用いて、以前記録されたオ音声の再生、及び、単一入力を用いた音声認識の実行をユーザが切り換え可能な大語彙システムに関する技術革新を含む。また、本発明のこの特徴は、大語彙音声認識、及び、録音及び再生機能の両方を有する携帯電話の技術革新を含む。
本発明のこれらの特徴、及び、その他の特徴は、添付の図面と共に、好ましい実施形態の関する下記の説明を読むことによって、より明確となる。
図9は、本発明の多くの特徴を使用可能な携帯情報端末(PDA)900を図示している。図中のPDAは、現在発売されているコンパック社のiPAQ H3650 Pocket PC、カシオ社のCassiopeia、及び、ヒューレット・パッカード社のJornado 525に類似している。
PDA900は、比較的高解像度のタッチ・スクリーン902を有しており、該タッチ・スクリーン902によって、ユーザは、例えばスタイラス904、又は、指等のタッチ・スクリーンに接触する手段によって、テキストの部分やソフトウェア・ボタンを選択することが出来る。また、該PDAは複数の入力ボタン906と、2次元ナビゲーション・コントロール908を有する。
本明細書、及び、後に続く請求項に於いては、ユーザが1次元又は複数次元で離散的な動きの単位を選択可能なナビゲーション入力装置は、ボタンの定義に含まれると見なされる場合が多い。これは、ナビゲーション装置の上下左右の入力が電話キー、又は、電話ボタンであると見なされる電話インターフェイスに関して、特に当てはまる。
図10は、PDA900に関する概略システム図である。図10は、タッチ・スクリーン902、及び、入力ボタン906(ナビゲーション入力908を含む)を図示している。また、図10はPDA900が、例えばマイクロプロセッサ1002等の中央演算処理装置(CPU)を有することを示している。CPU1002は、1つ又は複数の電子通信バス1004を介して、読み出し専用メモリ1006(多くの場合、フラッシュROM)、RAM1008、一つ又は複数のI/O装置1010、タッチ・スクリーン902上のディスプレイを制御するビデオ・コントローラ1012、マイク1015からの入力を受付けて、スピーカ1016に音声出力を供給する音声装置1014に接続されている。
また、該PDAは、携帯電圧をPDAに供給するバッテリ1018と、音声回路1014に接続されるヘッドフォン入出力ジャック1020と、PDAと例えばデスクトップ・コンピュータ等、他のコンピュータとを接続させるドッキング・コネクタ1022と、ユーザが、例えば増設フラッシュROM、モデム、無線トランシーバ1025、大容量記憶装置デバイス等の回路をPDAに追加することが出来るアドオン・コネクタ1024と、を有する。
図10は、大容量記憶装置デバイス1017を図示している。実際、該大容量記憶装置デバイスは、フラッシュROM1006の全て又は一部、又は、小型ハードディスク等、如何なるタイプの大容量記憶装置デバイスであっても良い。そうした大容量記憶装置デバイスに於いて、PDAは通常、デバイスの基本機能の多くを供給するオペレーティング・システム1026を記憶している。一般に、大容量記憶装置デバイスは、オペレーティング・システム、及び、次に説明する音声認識関連の機能に加えて、例えば、ワード・プロセッサ、スプレッドシート、ウェッブ・ブラウザ、個人情報管理システム等の一つ又は複数のアプリケーション・プログラムを有する。
PDA900が本発明に使用される場合、通常、音声認識プログラミング1030を有する。PDA900は、図1及び図2に関して上述した一般的なタイプの単語照合を実行するためのプログラミングを有する。また、音声認識プログラミングは、通常、一つ又は複数の語彙、又は、少なくとも2000語を有する大語彙を含む語彙グループ1032を有する。多くの大語彙システムは、5万語から数10万語の語彙を有する。それぞれの語彙単語に対して、通常、語彙はテキスト綴り1034、及び、その単語が属する1つ又は複数の語彙グループ1036(例えば、テキスト出力「.」は、実際にシステムによっては、大語彙認識語彙、綴り語彙、句読点語彙グループに属する可能性がある)を有する。また、それぞれの語彙単語は、その単語を分類可能な音声1038の一つ又は複数部分、及び、音声の複数部分のそれぞれに対する単語に関する表音的綴り1040に関する指標を有する。
一般に、音声認識プログラミングは、システムに追加される新しい単語の発音を推測するための、所定の表音的綴りを有していない発音推測手段1042を備えている。一般に、音声認識プログラミングは、一つ又は複数の音声語彙ツリー1044を有する。該音声語彙ツリーは、音素の同一配列で始まる全ての表音的綴りを、該ツリーのルートから、共通のパスに纏めてグループ化するツリー型データ構造である。該音声語彙ツリーによって、同一の最初の表音的綴りを共有する異なる単語の全ての部分が纏めて記録されるので、そうした音声語彙ツリーの使用により、認識性能が改善される。
また、音声認識プログラムは、一つ又は複数の先行する単語、及び/又は、後に続く単語が与えられたテキストに於いて単語が発生する可能性など、テキストに於いて異なる単語が発生する可能性を示すポリグラム言語モデル1045を有することが望ましい。
一般に、音声認識プログラミングは、上述のポリグラム言語モデル1045を更新するために使用可能な情報を含む言語モデル更新データ1046を記録している。一般に、該言語モデル更新データは、ユーザが作成したテキスト、又は、ユーザが生成したいテキストに類似したテキストとして示したテキストから生成された統計情報を一部として、又は全体として含む。図10に於いて、音声認識プログラミングは、氏名、住所、電話番号、Eメール・アドレス、及び、そうした情報の複数又は全てに対する表音的綴りを含む、連絡先情報1048を記憶していることが図示されている。該データは、音声認識プログラミングによるそうした連絡先情報の発話認識を支援するために使用される。該情報に関する多くの実施形態に於いては、そうした連絡先情報が、外部プログラム、例えば、アプリケーション・プログラム1028、又は、オペレーティング・システム1026に対する付属品等に含まれるが、そうした場合でさえも、一般に音声認識プログラミングは、氏名、住所、電話番号、Eメール・アドレス、それらに対する表音的表現にアクセスする必要がある。
また、音声認識プログラミングは、通常、図2に図示された音声モデル200に類似する可能性のある音声音響モデル1050を含む。また、一般に、音声認識プログラミングは、該システムによって以前認識された音響信号からの情報を含む音響モデル更新データ1052を記憶する。一般に、そうした音響モデル更新データは、例えば、図1及び図2に図示されたパラメータ・フレーム110等のパラメータ・フレームの形式、又は、そうしたフレームから抽出された統計データの形式となる。
図11は、図9に図示されたタッチ・スクリーン902によって提供されたユーザ・インターフェイスに関する拡大図に、本発明の多くの特徴を具体化するソフトウェア入力パネル(SIP)1100を使用するPDAを加えたものである。
図12は、音声認識SIPが訂正ウインドウ1200を表示する際に、タッチ・スクリーン902を表示している点を除いて、図11と類似している。
図13乃至17は、グラフィカル・ユーザ・インターフェイス(GUI)に於いて、音声認識SIPが様々な入力に対してどのように対応するかということに関する擬似コードの記述に関する連続するページを表している。簡略化するために、該擬似コードは、ユーザ入力に対応するSIPプログラムに於ける一つのメイン・イベント・ループ1300として表されている。
図13乃至17に於いて、該イベント・ループは、2つの主要なスイッチ・ステートメント、即ち、訂正ウインドウ1200の表示、非表示に関わらず生成可能なユーザ・インターフェイスに於ける入力に対応する図13のスイッチ・ステートメント1301、及び、訂正ウインドウ1200が表示された場合にのみ、生成可能なユーザ入力に対応する図15のスイッチ・ステートメント1542、として説明されている。
ユーザが、図11に図示されたトーク・ボタン1102を押下する場合、図13の機能1302によって、機能1304乃至1308が実行される。機能1304は、図11のウインドウ1104によって表示されたSIPバッファにテキストが存在するかどうかを確認するための検証を行う。これらの図中に示されたSIPに関する実施形態に於いて、SIPバッファは、SIPのソフトウェアが音響入力とそれぞれの単語の認識に関連した最良の選択肢、及び、そうしたテキストによって作成された言語文脈について追跡する、比較的少数のテキスト行を保持するよう設計されている。そうしたテキスト・バッファが使用されるのは、アプリケーションに於いて、SIPが現在のカーソル1108の位置にテキストを出力する、図11のウインドウ1106に図示されたリモート・アプリケーションに於けるテキストに関する知識を、音声認識SIPが多くの場合有さないからである。本発明に関する他の実施形態に於いては、さらに大型のSIPバッファが使用可能である。他の実施形態に於いて、本発明の特徴の多くは、テキストを入力するためにSIPの使用を必要としない、独立の音声認識テキスト作成アプリケーションの一部として使用される。SIPとして機能する音声認識手段を使用する主な利点は、PDAで起動するように設計された殆ど如何なるアプリケーションに対しても、入力を供給するために該音声認識装置を使用可能であるということである。
図13を再び参照すると、トーク・ボタン1102は、SIPに対して、ユーザが新しい文脈でテキストをディクテーションしていることを示す手段として提供されているので、機能1304はSIPバッファ1104からの任意のテキストを消去する。このように、SIPのユーザが図11のアプリケーション・ウインドウ1106でカーソル1108を移動させた場合、トーク・ボタン1102を押下することによって、次のディクテーションを開始することになる。
図13の機能1306は、現在、音声認識システムが訂正モードの状態であるかを確認するための検証を行うことによって、トーク・ボタンの押下に対応する。音声認識システムが訂正モードの状態にある場合、該モードを終了し、表示される可能性のある図12に示されたタイプの訂正ウインドウ1200を取り除く。
図中のSIPは、訂正ウインドウが表示されているが、メインSIPインターフェイスの殆どのボタンから入力を受け付けることが選択されていない場合に、訂正モードの状態にはなく、訂正ウインドウが表示され、そうしたボタンの多くから入力を受け付けることが選択されている場合に、訂正モードの状態にある。こうした区別が望ましいのは、ユーザがより迅速に選択リストの確認、又は、訂正入力の供給を行うことを可能にすると認識されているので、図示された特定のSIPが、単語が離散的に発話、認識され、それぞれの単語に対して訂正ウインドウが表示される個別モードで操作することを選択可能であるからだ。個別モードに於いて、訂正の実行に具体的に関係ないユーザ入力の殆どの形式が、所望の単語として現在の選択リストに表示された第1選択肢を確認する付加機能を実行するために使用される。システムが個別モードの状態ではない場合、ユーザが前回の入力の訂正を望むことを示す入力を供給した場合にのみ、訂正ウインドウは通常表示される。そうした場合、訂正ウインドウは訂正モードで表示されるが、これは、ユーザが訂正を行うことを選択しているので、入力の殆どの形式は訂正ウインドウを対象とするはずであるということが想定されているからである。
当然のことながら、個別認識のみを使用するシステム、又は、個別認識を全く使用しないシステムに於いては、訂正モードへの切り替え、及び、訂正モードからの切り替えを追加的に行う必要性がない。
機能1306を再び参照すると、トーク・ボタン1302の押下によって、古いディクテーションの訂正に関心があるというよりは、むしろ新しいディクテーションの開始を望むことが示されているので、機能1306は現在の訂正ウインドウをすべて取り除く。
図13の機能1308は、前回選択された現在の認識持続モードに従って、SIPバッファ認識を開始させることによって、トーク・ボタンの押下に対応する。該認識は、第1単語に対して任意の以前の言語文脈を用いることなく行われる。言語モデル文脈は、トーク・ボタンの1回の押下に対応して、認識された単語から得られ、そうした認識に於いて、第2単語、及び、それ以後の単語に関する認識に対して言語文脈を提供するために使用されることが望ましい。
図18は、音声認識を開始するために使用可能なSIPインターフェイスに於いて、任意のボタンの押下、又は、クリックに対応して、ユーザが音声認識を起動させる異なるモードを選択可能な認識持続プログラミング1800の概略図である。図示された実施形態に於いては、トーク・ボタンなど、それぞれが音声認識を開始するために使用可能な複数のボタンが存在する。これにより、ユーザは、認識の所定モードを選択することができ、ボタンを1回押下することで、そのモードでの認識を開始することが出来る。
機能1802は、現在の認識持続モードに応じて、図18のどの機能が実行されるのかを決定する一助となる。図46に図示された機能メニューに於ける入力優先オプションに基づいて、初期設定、及び、選択等、複数の異なる方法で該モードを設定することが出来る。
押下単独認識持続タイプが選択された場合、機能1804によって、機能1806及び1808は、音声ボタンの押下中に発話された語音を認識する。該認識持続タイプは、単純且つ柔軟であるが、これは、該認識持続タイプによって、ユーザが一つの簡単な規則、即ち、音声ボタンの押下中、及び、押下中にのみ認識が行われるという規則、によって、認識の長さを制御することが出来るからである。暗騒音が発音として認識される確率を低減するために、発話及び/又は発話検出の終了は、任意の認識モードの中で使用されることが望ましい。
現在の認識持続タイプが、「発話終了に対する押下及びクリック」タイプの場合、機能1810によって、機能1812及び1814は、その押下中に音声を認識することによって、音声ボタンの押下に対応する。この場合、音声ボタンの「押下」とは、例えば、4分の1秒、又は、3分の1秒等、所定の持続時間よりも長い間、そうしたボタンを押下することとして定義される。ユーザが音声ボタンをより短い間押下する場合、該押下は「押下」というよりは、むしろ「クリック」として処理され、機能1816及び1818は、該クリックの時間から発話検出の次回終了時まで、認識開始に着手する。
「発話終了に対する押下及びクリック」認識持続タイプには、一つのボタン使用によって、ユーザが可変長の拡大認識を選択可能なモードと、単一の発話のみを認識するモードから、迅速、且つ、容易に、選択することが出来るという利点がある。
現在の認識持続タイプが「発話終了に対する連続押下、離散クリック」タイプである場合、機能1820は、機能1822乃至1828を実行させる。音声ボタンがクリックされる場合、直前に定義した通り、機能1822及び1824は、発話の次回終了時まで離散認識を実行する。一方、音声ボタンが押下される場合、前述の定義の通り、機能1826及び1828は、音声ボタンが押下された状態のままである限り、連続認識を実行する。
該認識持続タイプには、所定の音声ボタンに対する異なるタイプの押下を使用するだけで、ユーザが連続認識及び離散認識を即座に切り換えることが容易になるという利点がある。図示されたSIPの実施形態では、他の認識持続タイプは連続認識及び離散認識の切り換えを行わない。
現在の認識持続タイプが「タイムアウトに対するクリック」タイプである場合、機能1830は、機能1832乃至1840を実行させる。音声ボタンがクリックされる場合、機能1833乃至1836は、通常、認識のオン状態及びオフ状態を切り換える。機能1834は、音声認識が現在オンの状態であるか否かを確認するための検証を行うことにより、クリックに対応する。音声認識がオンの状態であり、また、クリックされている音声ボタンが語彙を変化させるボタン以外の場合、音声認識をオフの状態にすることでクリックに対応する。一方、音声ボタンがクリックされる際に音声認識がオフの状態であれば、機能1836はタイムアウト継続時間が経過するまで音声認識をオンの状態にする。該タイムアウト継続時間の長さは、図46に図示された機能メニュー4602に於ける入力優先オプションに基づいてユーザが設定可能である。音声ボタンが所定の継続時間よりも長い間押下される場合、上述の通り、機能1838及び1840が押下中に認識をオンの状態にして、押下終了時にオフの状態にする。
該認識持続タイプによって、ユーザは、音声認識のオン状態、及び、オフ状態を切り換えるボタンと、音声ボタンが延長して押下される間のみ、音声認識をオンの状態にするボタンから、一つのボタンを即座に、且つ、容易に選択する。
図13の機能1308を再び参照すると、異なる認識持続タイプの選択によって、トーク・ボタンと他の音声ボタンがどのように認識を開始するかをユーザが選択することが出来るということが分かる。
ユーザが図11に図示された消去ボタン1112を選択する場合、機能1309乃至1314は、表示される可能性のある全ての訂正ウインドウを取り除き、オペレーティング・システム・テキスト入力に何ら削除部分を送信することなく、SIPバッファの内容を消去する。上述の通り、図示された音声SIPに於いて、図11に図示されたSIPテキスト・ウインドウは、比較的小さなテキスト部分を保持するように設計されている。テキストがSIPバッファに於いて入力、又は、編集される場合、文字はPDAのオペレーティング・システムに供給され、図11に図示されたアプリケーション・ウインドウ1006に於けるテキストに対して、対応する変更が行われる。消去ボタンによって、ユーザはSIPバッファへの負担がかかり過ぎないように、アプリケーション・ウインドウのテキストに対して対応する削除を行うことなく、SIPバッファからテキストを消去することが出来る。
図11に図示された継続ボタン1114は、最後にディクテーションされたテキストの連続、又は、図11に図示されたSIPバッファ・ウインドウ1104に於ける現在位置に挿入されることになるテキストを、ユーザがディクテーションしたい場合に使用されることを目的とする。該ボタンが押下される場合、機能1316は、機能1318乃至1330を実行させる。機能1318は、すべての訂正ウインドウを取り除くが、これは、継続ボタンの押下によってユーザは訂正ウインドウの使用に関心がないことを示しているからである。次に、機能1132は、SIPバッファ・ウインドウに於ける現在のカーソルに、継続ボタンを押下した結果として、最初の単語、又は、認識された任意の発話の単語に関する確率の予測を支援するために使用可能な以前の言語文脈があるのかどうかを検証する。以前の言語文脈が存在する場合、機能1132によって言語文脈が使用される。以前の言語文脈が存在しない場合、及び、SIPバッファに現在テキストが存在しない場合、機能1326は、継続ボタンによって開始された認識開始時の言語文脈として、以前SIPバッファに入力された最後の一つ又は複数の単語を使用する。次に、機能1330は、SIPバッファ認識、即ち、現在の認識持続モードを使用して、SIPバッファに於けるカーソルに出力されるテキストの認識を開始する。
ユーザが図11に図示されたバックスペース・ボタン1116を選択する場合、機能1132乃至1136が実行される。機能1134は、SIPが現在、訂正モードの状態にあるかどうかを検証する。SIPが訂正モードの状態にある場合、機能1134は、訂正ウインドウのフィルタ・エディタにバックスペースを入力する。図12に図示された訂正ウインドウ1200は、第1選択ウインドウ1202を有する。下記に於いてより詳細に説明する通り、訂正ウインドウ・インターフェイスによって、ユーザは、一つ又は複数の所望の認識単語に属する最初の文字の配列を識別するフィルタ文字列の一部として、第1選択肢ウインドウに於ける一つ又は複数の文字を選択、及び、編集することが出来る。SIPが訂正モードの状態にある場合、バックスペースの押下によって、第1選択肢ウインドウで現在選択されたフィルタ文字列及び文字から削除し、何も文字が選択されない場合には、フィルタ・カーソル1204の左側の文字を削除する。
SIPが現在訂正モードの状態にない場合、機能1136は、バックスペース文字をSIPバッファに入力し、図11に図示されたアプリケーション・ウインドウ1106に於いて対応するテキストに対して同一の変更を行うことが出来るように、オペレーティング・システムに同一文字を出力することによって、バックスペース・ボタンの押下に対応する。
ユーザが図11に示された改行ボタン1118を選択する場合、図13の機能1338乃至1342は、訂正モードを終了し、SIPが現在訂正モードの状態にある場合、機能1338乃至1342は、SIPバッファに改行文字を入力し、オペレーティング・システムに対応する出力を供給する。
機能1344乃至1388によって示されているように、SIPは、バックスペースに対応する場合と略同一の方法で、即ち、SIPが訂正モードの状態にある場合、バックスペースをフィルタ・エディタに入力し、そうでなければSIPバッファ及びオペレーティング・システムにバックスペースを出力する方法と略同一の方法で、ユーザによるスペース・ボタン1120の選択に対応する。
ユーザが図11に図示された語彙選択ボタン1122乃至1132の一つを選択する場合、図13の機能1350乃至1370、及び、図14の機能1402乃至1416は、選択されたボタンに対応する語彙に対して、適切な認識モードの語彙を設定し、現在の認識持続モード、及び、認識モードに対する他の設定に応じて、そのモードで音声認識を開始する。
ユーザが氏名認識ボタン1122を選択する場合、機能1350及び1356は、氏名認識語彙に対して現在のモードの認識語彙を設定し、現在の認識持続設定、及び、他の適切な音声設定に応じて認識を開始する。氏名及び大語彙ボタンに加えて、語彙ボタンの全てを用いて、これらの機能は、SIPが訂正モードの状態になるかどうかに応じて、現在の認識モードをフィルタ、又は、SIPバッファ認識として処理する。これは、こうした他の語彙ボタンが、フィルタ文字列の定義、又は、SIPバッファへの直接入力に適した文字の配列を入力するために使用された語彙に関連付けられているからである。しかし、大語彙、及び、氏名語彙は、フィルタ文字列編集には不適切であると考えられているので、開示された実施形態に於いては、現在の認識モードは、SIPが訂正モードの状態にあるか否かに応じて、再発話、又は、SIPバッファ認識の何れかであるとされている。他の実施形態に於いては、氏名及び大語彙認識は、マルチワード・フィルタの編集に使用可能である。
語彙ボタンの押下に関連付けられた標準的な対応に加えて、アルファブラボ語彙ボタンが押下される場合、図40の数字4002で図示されているように、機能1404乃至1406は、国際コミュニケーション・アルファベット(ICA)で使用される全単語のリストを表示させる。
ユーザが図11に図示された連続/離散認識ボタン1134を選択する場合、図14の機能1418乃至1422が実行される。該機能は、連続音声音響モデルを用いて、マルチワード認識候補が所定の単一の発話と一致可能な連続認識モードと、離散認識音響モデルを用いて、単一単語認識候補のみが単一の発話に対して認識可能な離散認識モードとを切り換える。また、連続/離散ボタンの押下によって選択されたように、該機能は離散認識と連続認識の何れかを用いて音声認識を開始する。
ユーザが、押下することによって機能キー1110を選択する場合、機能1424及び1426は、図46に図示された機能メニュー4602を呼び出す。該機能メニューによって、ユーザは、図11及び12に図示されたボタンからの直接使用可能なオプションに加えて、他のオプションから選択することが可能である。
ユーザが、図11に図示されたヘルプ・ボタン1136を選択する場合、図14の機能1432及び1434がヘルプ・モードを呼び出す。
図19に図示されているように、ヘルプ・ボタンの最初の押下に対応して、ヘルプ・モードが入力される場合、図20に図示されているように、機能1902は、ヘルプ・モードの使用に関する情報を提供するヘルプ・ウインドウ2000を表示する。ヘルプ・モードのその後の操作中に、ユーザがSIPインターフェイスの一部に触れると、機能1904及び1906は、インターフェイスの接触された部分に関する情報を有するヘルプ・ウインドウを表示する。このヘルプ・ウインドウは、ユーザがSIPインターフェイスへの接触を継続する限り継続表示される。これは図21に図示されており、図21では、ユーザが訂正ウインドウのフィルタ・ボタン1218を押下するために、スタイラス904を使用している。これに対し、フィルタ・ボタンの機能を説明するヘルプ・ウインドウ2100が図示されている。ヘルプ・モードの状態で、ユーザが画面の一部をダブルクリックすると、機能1908及び1910は、ユーザがインターフェイスの他の部分を押下するまで起動するヘルプ・ウインドウを表示する。これにより、ユーザは、大き過ぎてヘルプ・ウインドウ2102に一度に適合することが出来ないヘルプ情報をスクロールし視認するために、図21のヘルプ・ウインドウ21に図示されたスクロール・バー2102を使用することが出来る。
また、図19に図示されていないが、ヘルプ・ウインドウは、インターネットのSIPユーザ・インターフェイスの一部への最初の押下からユーザがドラッグ可能で、SIPユーザ・インターフェイスの他の部分に触れるまで、ヘルプ・ウインドウを維持することを選択するための維持ボタン2100を有する。
ヘルプ・モードの初期入力の後、ユーザが図11、20、及び、21に図示されたヘルプ・ボタン1136に再び触れると、機能1912及び1914はすべてのヘルプ・ウインドウを取り除き、ヘルプ・モードを終了して、ヘルプ・ボタンの強調表示をオフの状態にする。
ユーザがSIPバッファに於ける単語をタップする(軽くたたく)場合、図14の機能1436乃至1438は選択された単語を現在の選択とし、現在の選択としてのタップされた単語と、タップされた単語の認識に関連付けられた音響データ、即ち、あるとすれば、現在の選択に関連付けられた音響データを保持する発話リストに於ける最初の入力と共に、図22に図示された選択肢表示リスト・ルーチンを呼び出す。
図22に図示されているように、選択肢表示リスト・ルーチンは、以下のパラメータ、即ち、選択パラメータ、フィルタ文字列パラメータ、フィルタ・レンジ・パラメータ、単語タイプ・パラメータ、そして、非選択肢リスト・フラグと共に呼び出される。選択パラメータは、該ルーチンが呼び出されたSIPバッファに於けるテキストを示す。フィルタ文字列は、所望の認識出力が始まる一つ又は複数の一連の綴りを規定する要素を示す、一つ又は複数の文字配列を示す。フィルタ・レンジ・パラメータは、所望の認識出力が収まるアルファベットの区分の境界を示す2つの文字配列を定義する。文字タイプ・パラメータは、所望の認識出力が、例えば、所望の文法タイプ等の所定のタイプであることを示す。非選択肢リスト・フラグは、ユーザの行動が示す一つ又は複数の単語のリストが所望の単語ではないことを示す。
選択肢表示リスト・ルーチンの機能2202は、選択肢表示リスト・ルーチンが呼び出されたフィルタ文字列パラメータ、及び、フィルタ・レンジ・パラメータ、そして、選択パラメータに関連付けられた発話リストと共に、図23に図示された選択肢獲得ルーチンを呼び出す。
図24及び25に図示されているように、発話リスト2404は、現在の選択に関連付けられた一つ又は複数の単語の所望の配列の一部として発話された一つ又は複数の発話に関する音声表現を記憶する。上述の通り、図22の機能2202が選択肢獲得ルーチンを呼び出す場合、現在の選択に関する単語が認識された音声2402の一部である、図24に図示された表現2400をセットする。図2に於いて示されたように、音声認識のプロセスは、音声信号の表現に対する音響モデルを時間的に整合する。該認識システムは、選択されたテキストの訂正、又は、再生が望ましい場合に、そうした時間的整合からの対応する音響表現を検出することが出来るように、これらの時間的整合を記憶することが望ましい。
図24に於いて、発話リストに於ける最初の入力2004は、連続発話2402の一部である。本発明によって、ユーザは選択の発話リストに、一つ又は複数の単語の所望の配列に関する付加的な発話を追加することができ、そして、所望の出力を正しく認識する機会を増加させるために、これら全ての発話に対して纏めて認識を実行することが出来る。図24に図示されているように、そうした付加的発話は、入力2400B等の連続発話と、入力2400A等の離散発話の両方を有することが出来る。それぞれの付加的発話は、それが連続発話か離散発話の何れであるかを示す数字2406及び2408で示されたような情報と、それがディクテーションされた語彙モードとを有する。
図24及び25に於いて、発話リストに於ける発話の音響表現が波形で示されている。当然のことながら、多くの実施形態に於いて、図1及び図2に図示された表現110等のパラメータ・フレーム表現等、音響表現の他の形式が使用される。
図25は、元の発話リスト入力が離散発話の配列であるという点を除いて、図24に類似している。図25は、また、一つ又は複数の離散発話の最初の配列に関する認識の訂正を支援するために使用される付加的発話入力が、離散発話2500Aと、連続発話2500Bの何れかを、それぞれ含むことが出来ることを示している。
図23に図示されているように、選択肢獲得ルーチン2300は、現在の発話リスト、及び、フィルタの値(即ち、フィルタ文字列の値、及び、フィルタ・レンジの値)を用いて実行され、該ルーチンが呼び出された選択に対して以前の認識が存在しているかどうかを確認するための検証を行う機能2302を有する。以前の認識が存在している場合、以前の認識が実行された時点から、認識パラメータに於いて変化がなかったことになるので、それによって、機能2304はそうした選択と共に以前の認識から戻る。
機能2302の検証の結果が満たされない場合、機能2306はフィルタ・レンジ・パラメータが空値であるかどうかを確認するための検証を行う。フィルタ・レンジ・パラメータが空値ではない場合、機能2308は、フィルタ・レンジが現在のフィルタ文字列よりもさらに具体的であるかを確認するために検証を行い、そして、さらに具体的である場合には、それはフィルタ文字列をフィルタ・レンジの共通文字に変更する。さらに具体的でない場合、フィルタ文字列は、フィルタ・レンジよりもさらに詳細な情報を有するので、機能2312はフィルタ・レンジを無効にする。
後述の通り、フィルタ・レンジは、ユーザが選択肢リストに於いて2つの選択を選ぶ際に、所望の認識出力がアルファベットに於いてそれらの間に収まることを示す目安として、選択される。ユーザが最初の文字を共有する2つの選択肢を選ぶ場合、機能2310によって、フィルタ文字列はそうした共有された文字に対応する。これは、選択リストが表示される際に、共有された文字が所望の出力の最初の文字に対応するものとして確認された文字としてユーザに表示されるように、実行される。
当然のことながら、ユーザが新しいフィルタ・レンジか、フィルタ文字列の何れかを選択するコマンドを実行する際に、これら2つのパラメータの内、新たに選択されたものが、他方の値と矛盾する値を有する場合、これら2つのパラメータの古い方の値が無効化される。
現在の発話リストの以前の認識からの候補が存在する場合、機能2316は、機能2318及び2320を実行させる。機能2318は、候補の以前の認識得点、及び、現在のフィルタ定義を用いて、そうした以前の認識候補のそれぞれに対して図26に図示されたフィルタ・マッチ・ルーチンを呼び出し、機能2320は、特定の閾値を下回る得点を有するそうした呼び出しの結果として戻された、そうした候補を消去する。
図26に示されているように、フィルタ・マッチ・ルーチン2600は、単語候補のフィルタリングを実行する。図示された本発明の実施形態に於いては、該フィルタリング・プロセスによって、フィルタはフィルタ文字列、フィルタ・レンジ、又は、単語タイプによって定義することが出来るので、該フィルタリング・プロセスは極めて柔軟性がある。また、該フィルタリング・プロセスは、単語タイプ、及び、フィルタ文字列、又は、フィルタ・レンジ規格の何れかによる組み合わせを可能にし、また、フィルタ文字列に於ける要素が、それらに関連する文字の値に関して曖昧なだけでなく、それらに関連する文字の配列に於ける文字数に関しても曖昧な、曖昧なフィルタを含む、曖昧なフィルタリングを可能にしている点で、柔軟性がある。
フィルタ文字列、又は、フィルタ文字列の一部が曖昧であるということは、複数の可能な文字の配列がそれに一致すると見なすことが出来ることを意味している。曖昧なフィルタリングは、本発明の多くの特徴に関する携帯電話の実施形態に関して、下記に記載したタイプの曖昧な電話キー・フィルタリングと同様に、確実に認識されるが、単一文字を一意的に定義していないフィルタ文字列入力と共に使用された場合に有用である。
また、曖昧なフィルタリングは、特に、認識が連続して実行される場合、例えば、音名の認識等、高い割合の確実性で認識不可能なフィルタ文字列入力と共に使用された場合に有用である。このような場合、文字の配列の認識に対して最高の選択肢が一つ又は複数のエラーを含む確率が高いだけでなく、最高得点の認識候補に於いて認識された文字数が、発話された文字数と異なる可能性が相当ある。特に、悪条件下のディクテーションでは、そうした認識からの最高の選択肢が間違っていることは多いとしても、所望の出力に関して、全て、又は最初の文字を綴ることは、フィルタリング情報を入力する非常に迅速で直感的な方法である。
フィルタ・マッチ・ルーチンは、それぞれ個別の単語候補に対して呼び出される。フィルタ・マッチ・ルーチンは、その単語候補の以前の認識得点、即ち、あるとすれば、得点1を有する認識得点を用いて呼び出される。それは、候補が現在のフィルタの値に一致する確率が乗じられて呼び出された得点と等しい認識得点を返す。
フィルタ・マッチ・ルーチンの機能2602乃至2606は、単語タイプ・パラメータが定義されたかどうかを確認するために検証を行い、単語タイプ・パラメータが定義された場合、及び、単語候補が定義された単語タイプではない場合、単語候補が明らかに現在のフィルタの値と適合しないことを示す、得点0を用いてフィルタ・マッチ機能から戻る。
機能2608乃至2614は、現在の値がフィルタ・レンジに対して定義されているかどうかを確認するための検証を行う。現在の値がフィルタ・レンジに対して定義されている場合、及び、現在の単語候補がアルファベット順に、該フィルタ・レンジの開始単語、及び、終了単語の間にある場合、機能2608乃至2614は、得点の値を変更せずに戻る。それ以外の場合、機能2608乃至2614は得点の値を0にして戻る。
機能2616は、定義されたフィルタ文字列があるかどうかを決定する。定義されたフィルタ文字列が存在する場合、機能2616は、機能2618乃至2653を実行させる。機能2618は、現在の候補文字、即ち、以後のループで使用される変数を、フィルタ・マッチが呼び出された単語候補に於ける最初の文字に対して設定する。次に、繰り返しによってフィルタ文字列の終了に至るまで、ループ2620が実行される。該ループは、機能2622乃至2651を含む。
該ループのそれぞれの繰り返しに於ける最初の機能は、フィルタ文字列の次の要素の種類を決定するためのステップ2622による検証である。図示された実施形態に於いては、3種類のフィルタ文字列要素、即ち、非曖昧な文字、曖昧な文字、そして、異なる長さであってもよい曖昧な文字の一連の配列を表現する曖昧な要素が認められている。
非曖昧な文字は、アルファベットの文字、又は、空白等、他の文字を一義的に識別する。非曖昧な文字は、任意のアルファベット入力形式の非曖昧な認識によって形成することが出来るが、最も一般には、文字又はICA単語認識、キーボード入力、又は、電話への実装に於ける非曖昧な電話キー入力等に関連付けられている。アルファベット入力の任意の認識は、非曖昧な文字の配列として、認識による単一の最高得点綴りの出力を単に受け付けることにより、非曖昧なものとして処理することが可能である。
曖昧な文字は、複数の文字の値を有することが出来るが、1文字分の明確な長さを有する文字である。上述の通り、これは、電話に関する実施形態に於ける、キーへの曖昧な押下、又は、音声又は文字に関する文字認識によって形成可能である。また、それは、全ての最高得点を有する文字の配列が同一の文字の長さを有する音名に関する連続認識によって形成可能である。
一般に、曖昧な長さの要素は、連続音名認識、又は、手書文字認識の出力に関連性がある。それは、手書文字や音声入力に対する多数の最高得点を有する文字の配列を表しており、その幾つかは、異なる長さの配列を有することが可能である。
フィルタ文字列に於ける次の要素が非曖昧な文字の場合、機能2644は、機能2626乃至2606を実行させる。機能2626は、現在の候補文字が現在の非曖昧文字に一致するかどうかを確かめるための検証を行う。現在の候補文字が現在の非曖昧文字に一致しない場合、フィルタ・マッチへの呼び出しは、現在の単語候補に対する得点0を用いて戻る。現在の候補文字が、現在の非曖昧文字に一致する場合、機能2630は現在の候補文字の地位を上昇させる。
フィルタ文字列に於ける次の要素が曖昧な文字の場合、機能2632は機能2634乃至2636を実行させる。機能2634は、現在の文字が曖昧な文字の認識された値の一つに一致しないかどうかを確認するための検証を行う。現在の文字が曖昧な文字の認識された値の一つに一致しない場合、機能2636は得点0でフィルタ・マッチへの呼び出しから戻る。現在の文字が曖昧文字の認識された値の一つに一致する場合、機能2638乃至2642は曖昧な文字が現在の候補文字の値に一致する確率に関する機能として、現在の単語候補の得点を変更し、現在の候補文字の地位を上昇させる。
フィルタ文字列に於ける次の要素が曖昧な長さの要素である場合、機能2644は、曖昧な長さの要素によって表現される、それぞれの文字の配列に対してループ2646を実行させる。該ループは、機能2648乃至2652を有する。機能2648は、ループ2646の現在の文字の配列に一致する現在の候補の文字位置で始まる文字に関して一致する配列が存在するかどうかを確認するために検証を行う。一致する配列が存在する場合、機能2649は、曖昧な長さの要素で表現された、認識された一致する配列の確率に関する機能として、単語候補の得点を変更し、その後、機能2650は一致する曖昧な長さの要素の配列に於ける文字数によって、現在の候補の文字の現在位置を増加させる。曖昧な長さの要素に関連付けられた文字の配列の何れかと一致する、現在の単語候補の文字位置で始まる文字の配列が存在しない場合、機能2651及び2652は得点0でフィルタ・マッチへの呼び出しから戻る。
ループ2620が完了する場合、現在の単語候補は、フィルタ文字列全体に対して一致したことになる。この場合、機能2653は、ループ2620によって作り出された現在の単語の得点と共に、フィルタ・マッチから戻る。
ステップ2616の検証によって、定義されたフィルタ文字列が存在しないことが判明する場合、ステップ2654は現在の単語候補の変更されていない得点を用いて、フィルタ・マッチから戻る。
ここで図23の機能2318を再び参照すると、それぞれの単語候補に対するフィルタ・マッチへの呼び出しは、その候補に対する得点を戻すことが分かる。機能2320に於いて、何れの単語候補を削除すべきかを決定する為に使用される得点が存在する。
一旦、こうした削除が行われると、機能2322は、削除後に残された以前の認識候補の数、即ち、あるとすれば、機能2320の数が、候補の所望数を下回るかどうかを確認するために検証を行う。通常、該所望数は、選択肢リストに於いて使用する選択肢の所望数を表す。以前の認識候補数がそうした所望数を下回る場合、機能2324乃至2326が実行される。機能2324は、図24及び25に於いて示された発話リスト2400に於いて、一つ又は複数の入力のそれぞれに対して音声認識を実行する。機能2326及び2328に示されているように、該認識プロセスは、発話リストに於いて、連続入力、及び、離散入力の両方があるかどうかを決定する検証を有しており、発話リストに連続入力と離散入力の両方が含まれる場合、一つ又は複数の離散入力で検出された個々の発話の数に相当する数に、連続入力の認識に於ける可能な単語候補の数を制限する。また、図24及び25に於いて示された、連続/離散認識表示2406によって示されているように、それぞれの受け付け時に効力のあるそれぞれのモードに従って、機能2324の認識は、連続認識、又は、離散認識の何れかで発話リストに於けるそれぞれの入力を認識することを含む。また、2332で示されているように、それぞれの発話リスト入力の認識は、記述のフィルタ・マッチ・ルーチンを使用すること、及び、それぞれのそうした発話の認識に対する最高得点の受入可能候補に関するリストを選択する際に言語モデルを使用することを含む。フィルタ・マッチ・ルーチンに於いて、発話リストに於ける最新の発話に関する図24及び25に示された語彙指標2408は、所望の単語の配列が特定の語彙からの一つ又は複数の単語に制限されるユーザによる指示を反映するための単語タイプ・フィルタとして使用される。使用される言語モデルは、例えば、最高得点の候補の選択支援に使用可能な、任意の以前の言語文脈を使用する、バイグラム言語モデルやトリグラム言語モデル等のポリグラム言語モデルである。
発話リストに於ける一つ又は複数の入力に関する認識が実行された後、発話リストに一つ以上の入力が存在する場合、機能2334及び2336は、異なる認識からの得点の組み合わせに基づいて、発話リストに対する最高得点の認識候補のリストを選択する。当然のことながら、本発明の該特徴に関する幾つかの実施形態に於いて、得点の組み合わせは、一つ以上の発話を使用する認識の有効性を改善するために、異なる発話の認識から使用可能である。
機能2314乃至2336によって作成された認識候補の数が所望数を下回る場合、及び、非空値のフィルタ文字列、又は、フィルタ・レンジの定義が存在する場合、機能2338及び2340は、発話リストに於ける最新の入力に関連付けられている語彙、又は、発話リストに入力が存在しない場合に現在の認識語彙から、付加選択の所望数を選択するために、フィルタ・マッチを使用する。
図23の選択肢獲得ルーチンが機能2342に達するまでに、認識、又は、現在の語彙の何れか一方からの候補が存在しない場合、機能2344は、選択の所望数まで、選択肢として現在のフィルタ文字列に一致する最高得点の文字の配列を使用する。フィルタ文字列が非曖昧な文字以外、何ら含まない場合、これらの非曖昧文字に一致する単一文字の配列のみが、可能な選択として選択される。しかし、フィルタ文字列に於いて曖昧文字、及び、曖昧な長さの要素が存在する場合には、複数のそうした文字の配列の選択が存在する。そして、曖昧な長さの要素を有する曖昧な文字が、一つ又は複数の文字に関する異なる可能な対応する配列に関連性のある異なる確率を有する場合、機能2344によって提供された選択は、図26の系図の機能2616乃至2606に於いて示されたものに対応する得点メカニズムによって、相当するように記録される。
選択肢獲得への呼び出しが戻る場合、認識、フィルタに応じた語彙からの選択、又は、可能なフィルタに関するリストからの選択によって提供された4つの選択に関するリストは、通常、戻される。
ここで図22を再び参照すると、機能2202に於いて選択肢獲得が選択肢表示リスト・ルーチンに戻る場合、機能2204は、何らかのフィルタが現在の選択に対して定義されるかどうか、現在の選択の発話リストに何らかの発話が追加されたかどうか、そして、選択肢表示リストが呼び出された選択が、ユーザの入力が認識候補として望まれていないことを示す一つ又は複数の単語を含む非選択リストに存在しないかどうかを確認するために検証を行う。
これらの条件が満たされる場合、機能2206は、その選択を、ルーチンが形成される訂正ウインドウに於ける表示に対する最初の選択にする。次に、機能2210は、非選択リストに含まれる選択肢獲得ルーチンに対する呼び出しによって提供された候補のリストから、その他の候補を取り除く。次に、最初の選択が機能2206によって既に選択されなかった場合、機能2212は選択肢獲得に対する呼び出しによって戻される最高得点の候補を、その後の訂正ウインドウ表示のための最初の選択にする。単一の最高得点認識候補がない場合、最初の選択となる候補を選択するために、アルファベット順を使用することが出来る。次に、機能2218が、あるとすれば、特別表示のために、フィルタ文字列に対応する、最初の選択に関するそれらの文字を選択する。下記に示す通り、好ましい実施形態に於いて、ユーザがフィルタ文字列のどの部分がフィルタ要素のどのタイプに対応するかを評価することが出来るように、非曖昧フィルタに対応する最初の選択に於ける文字が一つの方法で示され、曖昧フィルタに対応する最初の選択に於ける文字は、異なる方法で示される。次に、機能2220は、フィルタ文字列に対応しない最初の選択の最初の文字の前に、フィルタ・カーソルを置く。定義されたフィルタ文字列がない場合、カーソルは最初の選択の最初の文字の前に置かれる。
次に、選択肢獲得ルーチンが現在の最初の選択以外の任意の候補を戻した場合、機能2222はステップ2224乃至2228を実行させる。この場合、機能2224は、一度に訂正ウインドウにすべて当てはまる最高得点のそうした一連の候補から、第1文字順選択を作成する。さらに認識候補がある場合、機能2226及び2228は、残りの最高得点候補からのそうした選択すべてに対するスクリーンのプリセット・ナンバーまでの第2文字順選択肢リストを形成する。
これがすべて完了した場合、機能2230は、現在の第1選択肢を示す訂正ウインドウと、フィルタにある文字を認める指示と、現在のカーソル・フィルタ位置の指示と、第1選択肢リストとを表示する。現在、定義されたフィルタが存在していないので、図12に於いて、最初の選択1206は第1選択ウインドウに示され、フィルタ・カーソル1204は最初の選択の最初の文字の前に示される。
当然のことながら、関連する発話を有さないテキストの選択はもちろん、現在の選択に対しても、表示選択リスト・ルーチンは、空値で呼び出すことが出来る。この場合、選択肢表示リスト・ルーチンは、機能2338及び2340の実行に基づいて、単語の完成を実行することによって、アルファベット入力に対応する。それは、フィルタリング又は再発話なしに、発話の認識に対して選択肢を選択すること、以前の認識の訂正を支援するために、フィルタリング及び/又は再発話を使用すること、アルファベット・フィルタリング入力に単語の完成を実行することを許可し、必要に応じて、その後に続く発話の入力によってそうしたアルファベット完了プロセスを支援すること、アルファベット・入力とともに、現在の語彙に存在しない単語を綴ること、非曖昧で、文字に関して曖昧で、長さに関して曖昧な形式を含む、アルファベット入力の異なる形式を混合し、適合させることを許可する。
ここで図14を再び参照すると、入れ替わりに図12に示された訂正ウインドウ1200等の訂正ウインドウを表示させる選択肢表示リスト・ルーチンを呼び出すことによって、機能1436及び1438がどのようにSIPバッファに於ける単語へのタップに対応するかについて説明した。単に単語をタップすることによって、その関連する選択リストと共に訂正ウインドウを表示する能力によって、ユーザが単一の単語エラーを訂正することが可能な迅速で簡便な方法を提供する。
ユーザがSIPバッファに於ける選択をダブルタップする(軽く2度たたく)場合、機能1440乃至1444は表示される可能性のある現在の訂正ウインドウの何れからも逃れ、現在の選択に関する現在の言語文脈を用いた現在の認識持続モード及び設定に従って、SIPバッファ認識を開始する。図18に関して、上述の目的のための押下、又は、クリックの何れかがあったかのように反応するかどうかを決定する際に、認識持続ロジックは、そうしたダブルクリックに関連したキーの押下の持続時間に対応する。そうした認識の出力は、現在の選択に取って代わる。図示されていないが、ユーザがSIPに於ける単語をダブルタップする場合、それは機能1444の目的のための現在の選択として扱われる。
ユーザが、例えば、単語の間や、バッファに於けるテキストの前後等、テキストを含まないSIPバッファの何れかの部分に於いてタップした場合、機能1446は、機能1448乃至1452を実行させる。機能1448は、タップの位置にカーソルを設ける。SIPバッファに於けるテキストの最後の後にあるSIPバッファ・ウインドウに於いて、何れかの点にタップが位置された場合、カーソルはそのバッファに於ける最後の単語の後に於かれる。ダブルタップされる場合、機能1450、1452は、押下又はクリックとして対応されるかどうかを決定するダブルタップの2回目の接触の持続時間を用いて、現在の認識持続モード及び他の設定に応じて、新しいカーソル位置でSIPバッファ認識を開始する。
図15は、図13及び14に関して上述した擬似コードの続きである。
ユーザがSIPバッファに於ける一つ又は複数の単語の部分をドラッグする場合、機能1502及び1504は、現在の選択として、すべて、又は、部分的にドラッグした単語のすべて、及び、あるとすれば、発話リストに於ける最初の入力等、それらの単語に認識に関連した音響データを用いて、図22に関して上述した選択肢表示リスト・ルーチンを呼び出す。
ユーザがSIPバッファに於ける個々の単語の最初の部分をドラッグする場合、機能1506及び1508は、選択としての単語、非選択リストに追加された単語、フィルタ文字列としてドラッグされた単語の最初の部分、発話リストに於ける最初の入力として単語に関連した音響データを用いて、表示選択リスト機能を呼び出す。単語が非選択リストに追加されたという事実によって示されるように、該プログラミングは、ユーザが単語の最初の部分だけをドラッグしたという事実を、単語全体が所望の選択ではないということを示していると解釈する。
ユーザがSIPバッファに於ける個々の単語の最後をドラッグする場合、機能1510及び1512は、選択としての単語、非選択リストに追加される選択、フィルタ文字列としてドラッグされていない単語の最初の部分、発話リストに於ける最初の入力として選択された単語に関連する音響データを用いて、選択肢表示リスト・ルーチンを呼び出す。
SIPバッファが一定量以上のテキストを有することが示される場合、機能1514及び1516はユーザに対してバッファが略一杯である旨の警告を表示する。開示された実施形態に於いては、該警告はユーザに対して、さらなる文字がバッファに追加されると、バッファが自動的に消去されることを通知し、ユーザが、現在バッファにあるテキストが正しければ、トーク、又は、継続を押下することを確認、即ち、バッファを消去するよう求める。
SIPバッファがテキスト入力を受け付けたことが示される場合、機能1518は、ステップ1520乃至1528を実行させる。機能1520は、カーソルが現在SIPバッファの最後にあるかどうかを確認するために検証を行う。カーソルがバッファの最後にない場合、機能1522は、SIPバッファの最後の文字から、バッファ内の現在のカーソル位置までの距離に相当する、多くのバックスペースをオペレーティング・システムに出力する。次に、機能1526は、一つ以上の文字で構成可能なテキスト入力を、現在のカーソル位置で、SIPバッファに出力させる。ステップ1527及び1528は、同一のテキストの配列とSIPバッファにある次のテキストをオペレーティング・システムのテキスト入力に出力する。
機能1522が、認識されたテキストがOSに送られる前に、オペレーティング・システムにバックスペースを入力するという事実はもちろん、機能1528が受け付けられたテキストに続く任意のテキストをオペレーティング・システムに入力するという事実によって、以前アプリケーション・ウインドウに供給されたテキストに対応するSIPバッファのテキストに対する何らかの変更が、アプリケーション・ウインドウに於けるそのテキストに対しても実行される。
新しいSIPバッファ・テキスト入力の指示が受け付けられる際に、SIPプログラムが個別モードにある場合、機能1536は、テキスト入力が音声認識に対応して生成されたかどうかを確認するために検証を行う。テキスト入力が音声認識に対応して生成された場合、機能1537は認識されたテキストに対して選択肢表示リストを呼び出し、機能1538は訂正モードをオフの状態にする。通常、選択肢表示リスト・ルーチンの呼び出しは、システムを訂正モードに切り換えるが、機能1538は個別モードが使用されている場合、システムが訂正モードになることを防ぐ。上述の通り、これは、個別モードに於いて、音声認識が単語の発生に対して実行される毎に、訂正ウインドウが自動的に表示されるからであり、従って、比較的高い確率で、ユーザは訂正ウインドウへの入力以外の目的に使用されるSIPインターフェイスの非訂正ウインドウの側面に供給される入力を意図している。訂正ウインドウは、一つ以上の単語を訂正する要求を示す特定のユーザ入力の結果として表示されている一方で、訂正モードは、特定の非訂正ウインドウ入力が訂正ウインドウを対象とするように入力される。
機能1539は以下の条件、即ち、SIPが個別モードの状態にあり、訂正ウインドウが表示されているが、システムは訂正モードの状態にはないという条件が満たされるかどうかを確かめるために検証を行う。これは、通常、個別モードで単語のそれぞれの発話の後に存在する状態である。上述の状況が存在する場合、機能1540は、その選択がSIPバッファへテキスト入力として取り込まれるように、訂正ウインドウに於いて最初の選択の認識を確認することによって、上記の図13、14、15に於ける入力の何れかに対応し、一つ以上の後続の単語の認識に対して現在の言語文脈を更新する目的、言語モデルの更新に使用するデータを供給する目的、及び、音響モデルを更新するデータを供給する目的のために、オペレーティング・システムに対応する。これによって、ユーザは個別モードに於ける単語の事前認識を、認識プロセスの促進にも使用することが可能な多くの入力の一つによって確認することが出来る。
当然のことながら、ユーザが個別モードの状態にあり、選択リストに示された単語を訂正する要求を示す入力を生成する場合、SIPは訂正モードに送られ、該モードの継続中に於いて続く入力は、機能1540の動作を引き起こさない。
図15に於ける機能1542は、訂正ウインドウが表示される際に受け付けられた入力に関連する、SIPプログラムの主要な応答ループの一部分の開始を示す。該部分は、図15の残り、及び、図16と17の全てに及ぶ。
図12に示された訂正ウインドウのエスケープ・ボタン1210が押下される場合、機能1544及び1546は、現在の選択を変更することなく、SIPプログラムに訂正ウインドウを終了させる。
図12に示された訂正ウインドウの削除ボタン1212が押下される場合、機能1548及び1550は、SIPバッファに於ける現在の選択を削除し、SIPバッファに於けるそれに対応するアプリケーション・ウインドウの任意のテキストに対して、対応する変更が行われる出力をオペレーティング・システムに送信する。
図12に示されたニュー・ボタン1214が押下される場合、機能1552は機能1553乃至1556を実行させる。機能1553は、訂正ウインドウに対応するSIPバッファに於ける現在の選択を削除し、アプリケーション・ウインドウに於けるテキストに対して対応する変更を行うために、オペレーティング・システムに対して出力を送信する。機能1554は、通常、大語彙認識モードであり、ユーザが連続認識モード、又は、離散認識モードの何れかに設定することが可能な新しい発話の初期値に認識モードを設定する。機能1556は、現在の認識持続モード、及び、他の認識設定を用いて、SIPバッファ認識を開始する。SIPバッファ認識は、上述の機能1518乃至1538の動作に従って、SIPバッファに入力を供給する認識である。
図16は、訂正ウインドウの表示中に受け付けられた入力に対して、SIPプログラムのメイン・ループの応答に関する説明を継続する。
図12の再発話ボタン1216が押下される場合、機能1602は機能1603乃至1610を実行させる。機能1603は、SIPプログラムが訂正モードの状態にない場合、該SIPプログラムを訂正モードに設定する。この状態が発生するのは、訂正ウインドウが個別モードに於ける個別単語認識の結果として表示され、ユーザが訂正ウインドウに於けるボタン押下、即ち、今回の場合では再発話ボタンの押下によって対応し、訂正目的で訂正ウインドウを使用する意図を示す場合である。次に、機能1604は認識モードを再発話認識に関連付けられた現在の認識モードに設定する。機能1606は、現在の再発話認識持続モード、及び、語彙など、他の認識設定に従って、一つ以上の発話を受け付ける。次に、機能1608は、そうした発話時の語彙モードの指標に加えて、連続認識、又は、離散認識が有効であろうがなかろうが、機能1606によって受け付けられた一つ又は複数の発話を訂正ウインドウの選択に対する発話リストに加える。これは、図24及び25に示された発話リスト2004に発話を追加させる。
機能1610は、上述の図22の選択肢表示リスト・ルーチンを呼び出す。その代わりとして、これは、上述の図23に於いて記載された選択肢獲得機能を呼び出し、機能2306乃至2336に新しい発話リスト入力を使用する再発話認識を実行させる。
図12に示されたフィルタ・ボタン1218が押下される場合、図16の機能1612は機能1613乃至1620を実行させる。機能1603に関して上記で示されたように、SIPプログラムが現在訂正モードの状態にない場合には、機能1613は訂正モードを入力する。機能1614は、現在の入力モードが音声認識モードであるかどうかを確かめるために検証を行い、現在の入力モードが音声認識モードの場合、現在のフィルタ認識持続モード及び設定に従って、機能1616にフィルタ認識を開始させる。これにより、そうした認識によって生成された入力は現在のフィルタ文字列のカーソルの対象とされる。一方、現在のフィルタ入力モードが非音声認識入力ウインドウ・モードの状態にある場合、機能1618及び1620は適切な入力ウインドウを呼び出す。後述するように、示された本発明の実施形態に於いては、これらの非音声入力ウインドウ・モードが、文字認識入力モード、手書文字認識入力モード、及び、キー入力モードに対応する。
ユーザが図12に示された単語形成ボタン1220を押下する場合、SIPプログラムが現在訂正モードの状態になければ、機能1622乃至1624は訂正モードを入力させ、現在の最初の選択単語に対して、図27の単語形成リスト・ルーチンを呼び出す。ユーザが訂正ウインドウの再表示を行う訂正ウインドウに入力を行うまで、現在の最初の選択は、通常、訂正ウインドウが呼び出された選択となる。このことは、SIPバッファに於ける一つ以上の単語を選択すること、及び、訂正ウインドウに於ける単語形成ボタンを押下することによって、ユーザはそうした選択に対する代替形式のリストを即座に選択することが出来ることを意味する。
図25は、単語形成リスト・ルーチンの機能を図示している。訂正ウインドウが呼び出され、既に表示されている場合、機能2702及び2704は、現在の最適な選択を単語形成リストが表示される選択として処理する。現在の選択が一つの単語である場合、機能2706は、機能2708乃至2714を実行させる。現在の選択が同音異義語を有する場合、機能2708はそれらを単語形成選択リストの最初に置く。次に、ステップ2710は選択された単語の原形を検出し、機能2712がその単語に対して代替文法形式のリストを形成する。機能2714は、同音異義語の後に、機能2708によってリストに追加された可能性のある選択リスト中のすべての文法形式をアルファベット順に順序づける。
一方、選択が複数の単語で構成される場合には、機能2716は機能2718乃至2728を実行させる。機能2718は、選択が単語と単語の間にスペース(空白)を有するかどうかを確認するために検証を行う。選択が単語と単語の間にスペースを有する場合、機能2720は選択のコピーを単語間にそうしたスペースを有していない選択リストに追加し、機能2222は、ハイフンで置き換えられたスペースを有する選択のコピーを追加する。図27に図示されていないが、ハイフンをスペース、又は、スペースなしで置き換えるために、付加的な機能を実行することが出来る。選択が同一綴り/非綴り変換機能に従う複数要素を有する場合、機能2726は、選択のコピー、及び、全ての先立つ選択変換を選択リストに追加する。例えば、これは、一連の数字名を数値に相当する語句に、又は、単語「period」の再発を、対応する句読点に変換する。次に、機能2728はアルファベット順に、選択リストを順序付ける。
選択リストが単一の単語、又は、複数単語の選択の何れかのために作成された時点で、機能2730は最初の選択、最初の選択の開始時点のフィルタ・カーソル、スクロール可能な選択肢リスト及びスクロール可能なリストとして、選択を示す訂正ウインドウを表示する。選択が単一の単語である幾つかの実施形態に於いて、この実施形態のフィルタは、すべてのその文法形式で発生する文字の単一の連続を有し、その共通の配列の後、非曖昧なフィルタ文字列として認識された共通の配列と共に、フィルタ・カーソルを置くことが出来る。フィルタ・カーソルは、非曖昧なフィルタ文字列として示された共通の配列と共に、該共通の配列の後にセットすることが出来る。
本発明の幾つかの実施形態に於いて、単語形成リストは任意選択語形式の単一なアルファベット順に順序付けされたリストを提供する。他の実施形態に於いて、オプションは使用頻度の観点で順序付け可能であるか、又は、一度に訂正ウインドウに適合する最も一般的に選択された一連の任意選択形式を含む第1選択肢リスト、及び、それほど頻繁には使用されない単語形式を含む第2リストと共に、アルファベット順に順序付けされた第1及び第2選択肢リストが存在し得る。
下記に於いて説明するように、単語形式リストが、極めて一般的なタイプの音声認識エラー、即ち、最初の選択が所望の単語に関する同音異義語、又は、所望の単語に関する代替文法形式であるエラーを訂正する極めて迅速な方法を提供する。
ユーザが図12に示された全角ボタン1222を押下する場合、システムが現在訂正モードの状態でなければ、機能1626乃至1628は、訂正モードを入力し、訂正ウインドウの現在の最初の選択に対する全角サイクル機能を呼び出す。全角訂正サイクルによって、最初の文字の全角化のすべてを含まない一つ又は複数の単語の配列は、それぞれの単語の最初の文字が全角化され、最初の文字の全角化のすべてを含む一つ又は複数の単語の配列は、全ての全角形式に変更され、すべての全角形式を有する一つ又は複数の単語の配列は、すべて半角形式に変更される。全角ボタンを繰り返し押下することによって、ユーザは即座にこれらの形式から選択することが可能となる。
ユーザが図12に示されたが再生ボタン1224を選択する場合、機能1630及び1632によって、訂正ウインドウの関連付けられた選択に関連した発話リストに於ける最初の入力に関する音声再生が行われる。これにより、ユーザは単語の誤って認識された一つ又は複数の単語の配列に関して発話されたことを、正確に聞くことが出来る。図示されていないが、好ましい実施形態によって、ユーザは、訂正ウインドウが最初に表示された際に、自動的にそうした音声が再生される設定を選択することが出来る。
単語追加ボタン1226が灰色で表示されていない時に、図12に図示された該単語追加ボタンが押下される場合、機能1634及び1636は、ユーザによる現在の最初の選択単語のアクティブ語彙、又は、バックアップ語彙の何れかへの入力を許可するダイアログ・ボックスを呼び出す。SIP認識手段に関するこの特定の実施形態に於いて、システムは、大語彙モードを使用する通常の認識中に、認識に使用可能なアクティブ語彙として、すべての語彙の一部を使用する。 機能1636によって、ユーザは、通常、アクティブ語彙のバックアップ語彙部分にある単語を使用することが出来る。また、それは、アクティブ又はバックアップ語彙の何れかに追加されるために、どちらの語彙にも存在せず、アルファベット入力の使用によって、第1選択肢ウインドウにおいて綴られた単語をユーザが追加することを許可する。当然のことながら、より大規模なハードウェア資源を有する発明に関する他の実施形態に於いては、アクティブ語彙とバックアップ語彙の区別をする必要はない。
最初の選択単語が現在アクティブ語彙の状態にない場合、単語追加ボタン1226だけが非灰色の状態にある。これは、ユーザに対して、アクティブ語彙、又は、バックアップ語彙の何れかに最初の選択を追加したいという意図を示す。
ユーザが図12に示されたチェック・ボタン1228を選択する場合、機能1638乃至1648は、現在の訂正ウインドウを取り除き、SIPバッファに最初の選択を出力し、アプリケーション・ウインドウに於けるテキストに対応する変更を行うのに必要な一連のキー入力を、オペレーティング・システムに入力する。
ユーザが図12の訂正ウインドウに示された選択1230の一つをタップする場合、機能1650乃至1653は現在の訂正ウインドウを取り除き、SIPバッファに選択された選択を出力し、アプリケーション・ウインドウに於ける変更に対応させるために必要な一連のキー入力をオペレーティング・システムに入力する。
ユーザが図12に図示された選択肢編集ボタン1232の一つをタップする場合、機能1654は機能1656乃至1658を実行させる。機能1656は、システムがまだ訂正モードの状態になければ、訂正モードに変更する。機能1656は、タップされた選択編集ボタンに関連付けられた選択を、最初の選択、及び、現在のフィルタ文字列とし、機能1658は新しいフィルタ文字列を備えた選択肢表示リストを呼び出す。下記の通り、これによって、ユーザは現在のフィルタ文字列として、選択単語、又は、単語の配列を選択することができ、通常、所望の単語に一致しない、その最後から任意の文字を削除することによって、そのフィルタ文字列を編集することが出来る。
ユーザが、最初の選択等、選択の一つ又は複数の最初の文字をドラッグする場合、機能1664乃至1666は、システムが訂正モードの状態にない場合には、訂正モードに変更し、フィルタ文字列として、選択リストに追加されたドラッグされた選択、及び、選択のドラッグされた最初の文字の部分を用いて、選択肢表示リストを呼び出す。こうした機能によって、ユーザは、現在の選択は所望の最初の選択ではなく、現在の選択のドラッグされた最初の文字の部分が所望の選択の発見を支援するためのフィルタとして使用されることを示すことが出来る。
図17は、SIP認識手段が現在のウインドウ入力に対応して作成する機能に関するリストの最後の続きを提供する。
ユーザが、最初の選択など、選択の最後をドラッグする場合、機能1702及び1704は、システムが現在訂正モードの状態になければ、訂正モードに入り、フィルタ文字列として、非選択リストに追加された、部分的にドラッグされた選択、及び、選択のドラッグされていない最初の文字の部分を用いて、選択肢表示リストを呼び出す。
ユーザが選択リスト中の2つの選択をドラッグする場合、システムが現在訂正モードの状態になければ、機能1706乃至1708が訂正モードに入り、非選択リストに追加された2つの選択、及び、現在のフィルタ・レンジの定義に於ける開始単語及び終了単語としての2つの選択を用いて、選択肢表示リストを呼び出す。
ユーザが最初の選択に於ける文字間をタップする場合、機能1710乃至1712は、SIPが訂正モードになければ、訂正モードに入り、フィルタ・カーソルをタップされた位置に移動する。ユーザがフィルタに対して何ら変更をしていないので、この時点で選択肢表示リストの呼び出しは行われない。
上記に於いて、図13の機能1334に関して説明したように、訂正モードに於いて、ユーザがバックスペース・ボタン1116を押下することにより、バックスペースを入力する場合、機能1714は機能1718乃至1720を実行させる。機能1718は、バックスペースが入力される場合、図28及び29のフィルタ編集ルーチンを呼び出す。
図28に関して図示するように、フィルタ編集ルーチン2800は、非曖昧、曖昧、そして/及び 曖昧な長さのフィルタ要素の組み合わせを用いてフィルタ編集に於いてユーザに柔軟性を与えるように設計されている。
このルーチンは、機能2802、即ち、フィルタ・カーソルの現在位置の前に呼び出される選択に於いて、何らかの文字が存在するかどうかを確認するための検証を有する。何らかの文字が存在する場合、機能2802は機能2804にルーチンが古いフィルタ文字列として呼び出されたフィルタ文字列を定義させ、機能2806は、フィルタ・カーソル、新しいフィルタ・カーソル、及び、非曖昧に定義されたその文字列に於ける全ての文字の前にルーチンが呼び出された選択に於ける文字を作成する。訂正フィルタ文字として自動的に確認される編集の位置のために、これによって、ユーザは第一の選択の部分を定義することが出来る。
次に、機能2807は、フィルタ編集が呼び出された入力がバックスペースであるかどうかを確認するために検証を行う。該入力がバックスペースの場合、機能2807は機能2808乃至2812を実行させる。機能2808及び2810は、フィルタ・カーソルは非選択カーソルである場合、新しいフィルタ文字列の最後の文字を削除する。フィルタ・カーソルが現在の最初の選択肢に於ける一つ又は複数の文字の選択に対応する場合、これらの文字は、既述の機能2806の動作によって、既に新しいフィルタに含まれないことになっていた。機能2812は、古いフィルタ文字列を消去するが、これは、フィルタ編集への入力がバックスペースの場合、バックスペースの位置の右に先立つフィルタの一部は、フィルタに将来含まれる対象ではないということが前提であるからである。これは、以前、フィルタ・カーソルの位置の右にあったフィルタ文字列に於ける、あらゆる曖昧な要素、及び、非曖昧な要素を削除する。
フィルタ編集ルーチンが呼び出された入力が、一つ以上の非曖昧文字である場合、機能2814及び2816は新しいフィルタ文字列の最後に、一つ以上の非曖昧な文字を追加する。
フィルタ編集への入力が一つ以上の固定長の曖昧な文字の配列である場合、機能2818及び2820は、新しいフィルタの最後の配列に、それぞれの曖昧な文字を表す要素を置く。
フィルタ編集ルーチンへの入力が曖昧な長さの要素である場合、機能2822は、機能2824乃至2832を実行させる。機能2824は、フィルタの以前の非曖昧な部分に追加される場合、語彙単語の全て、又は、最初の部分に対応する、曖昧な入力に関連付けられた最高得点配列の文字を選択する。この機能が実行された場合、新しいフィルタ文字列の以前の部分の全ては、上述の機能2806の動作によって確認されることになることを念頭に置くべきである。次に、機能2826は、特定の最低得点以上を超えて、機能2824によって選択された何らかの配列が存在するかどうかを確認するための検証を行う。特定の最低得点以上を超える配列が存在する場合、機能2824は、語彙に無関係な最高得点文字配列を機能2828に選択させる。これが実行されるのは、機能2826に於ける検証の条件が満たされる場合、曖昧なフィルタが語彙単語の綴りを読むために使用されていることを示すからである。次に、機能2830及び2832は、機能2824乃至2828の動作によって選択された文字配列と、新しい曖昧なフィルタ要素を関連付け、該新しい曖昧なフィルタ要素を、新しいフィルタ文字列の最後に追加する。
次に、ループ2834は、古いフィルタ文字列に於けるそれぞれのフィルタ要素に対して実行される。該ループは、図28の残りに示された機能2836乃至2850、及び、図29に示された機能2900乃至2922を含む。
ループ2834の現在の古いフィルタ文字列要素が曖昧な場合には、機能2814乃至2820、機能2836、及び、機能2838によって新しいフィルタ文字列に追加された新しい固定長の要素を超えて拡大する固定長の要素は、それがそれらの新しい要素を超えて拡大する場合、新しいフィルタ文字列の最後に古い要素を追加する。これが実行されるのは、バックスペース・ボタンの使用以外にフィルタ文字列を編集することで、新しい編集の右の以前のフィルタの一部分に対応する以前入力されたフィルタ情報を消去しないことによる。
ループ2834の現在の古い要素が曖昧な場合、機能2822乃至2832、及び機能2840の動作によって新しいフィルタ文字列の最後に追加された新しい曖昧な長さの要素に於ける幾つかの配列を超えて拡大する固定長の要素は、機能2842乃至2850を実行させる。機能2842は、フィルタ文字列に追加された、新しい曖昧な長さの要素によって表されたそれぞれの文字配列に対して、ループを実行する。新しい曖昧な長さの要素の文字配列のそれぞれに対して実行されるループは、ループ2834の現在の古い曖昧な固定長の要素に一致するそれぞれの文字配列に対して実行されるループ2844を含む。該内部ループ2844は、古い要素が新しい要素に於ける現在の配列に一致するかどうか、新しい要素に於ける現在の配列を超えて拡大するかどうかを確認するために検証を行う機能2846を有する。古い要素が新しい要素に於ける現在の配列に一致し、該配列を超えて拡大する場合、機能2848は、新しい曖昧な長さの要素で表される文字配列のリストに、新しい要素から現在の配列を超えて拡大する古い要素からの配列の部分を加えて、新しい要素からの現在の配列に対応する文字の新しい配列を加える。
現在の古い要素が、新しいフィルタに追加された新しい固定長の要素を超えて拡大する何らかの文字配列を含む曖昧な長さの要素である場合、図29の機能2900は、機能2902乃至2910を実行させる。
機能2920は、古い曖昧な長さの要素で表されたそれぞれの配列に対して実行されるループである。それは、古い要素からの現在の配列が新しい固定長の要素に一致し、超えて拡大するかどうかをチェックする検証2904で構成される。古い要素からの現在の配列が、新しい固定長の要素に一致し、超えて拡大する場合、機能2906は、新しい要素を超えて拡大する古い要素からの拡大部分に対応する新しい文字配列を作り出す。該ループが終了した後、機能2908は、新しい配列が機能2906によって形成されたかどうかを確認するために検証を行い、新しい配列が機能2906によって形成された場合、機能2910に、新しい要素の後、新しいフィルタの最後に、その新しい曖昧な長さの要素を追加させる。該新しい曖昧な長さの要素は、機能2906によって作り出されたそれぞれの配列の可能性を表す。確率得点は、現在の新しい固定長の要素に一致させるために、ループ2902によって検出された、それぞれの文字配列の相対的確率得点に基づいて、それぞれの新しい配列に関連付けられることが望ましい。
現在の古い要素が新しい曖昧な長さの要素に於ける幾つかの文字配列を超えて拡大する、幾つかの文字配列を有する曖昧な長さの要素である場合、機能2912は、機能2914乃至2920を実行させる。機能2914は、新しい曖昧な長さの要素に於けるそれぞれの文字配列に対して実行されるループである。それは、古い曖昧な長さの要素に於けるそれぞれの文字配列に対して実行される内部ループ2916で構成される。該内部ループは、古い要素からの文字配列が、新しい要素からの文字配列に一致し、超えて拡大するかどうかを確認するために検証を行う機能2918及び2920で構成される。古い要素からの文字配列が、新しい要素からの文字配列に一致し、超えて拡大する場合、それらは、現在の古い要素文字配列からの拡大部分に加えて、新しい要素からの現在の配列に対応する新しい文字配列を、新しい曖昧な長さの要素に関連付ける。
ループ2834に於ける全ての機能が終了した時点で、機能2924は、その呼び出しによって作り出された新しいフィルタ文字列と共に、フィルタ編集への呼び出しから戻る
当然のことながら、本発明の様々な特徴に関する多くの実施形態に於いて、異なり、多くの場合、より簡便なフィルタ編集スキームを使用することが出来る。しかし、当然のことながら、図28及び29に示されたフィルタ編集スキームの主要な利点の一つは、例えば、ユーザが連続文字認識によって、曖昧なフィルタを即座に入力することができ、そして、さらに信頼性のあるアルファベット入力モード、又は、それ以後の連続文字認識によって、ユーザがそれを編集することが可能であるということである。例えば、該スキームによって、連続文字認識によって入力されたフィルタは、離散文字認識、ICA単語認識、手書文字認識からの入力によって、全体、又は、部分的に置換することが出来る。該スキームに基づいて、ユーザがフィルタ文字列の前の方の部分を編集する際に、フィルタ文字列の後ろの方の部分に含まれた情報は、示された実施形態に於いては、バックスペース文字の使用によるそうした意図をユーザが示さない限り、無効化されない。
ここで図17に戻り、機能1718に於けるフィルタ編集への呼び出しが戻る場合、機能1724は、フィルタ・編集への呼び出しによって戻された新しいフィルタ文字列と共に、選択のために、選択肢表示リストを呼び出す。
フィルタリング入力が受け付けられる場合は、常に、図16の機能1612に関して上述のフィルタ・キーの押下に対応して実行される認識の結果と、その他の手段の何れかによって、機能1722乃至1738が実行される。
機能1724は、システムが個別認識の状態にあるかどうか、及び、フィルタ・入力が音声認識によって提供されたかどうかを確認するために検証を行う。システムが個別認識の状態にあり、フィルタ入力が音声認識によって提供された場合、機能1724は、機能1726乃至1730を実行される。機能1726は、例えば図39に示されたウインドウ3906等のフィルタ文字選択肢ウインドウが現在表示されているかどうかを確認するために検証を行う。フィルタ文字選択肢ウインドウが現在表示されている場合、機能1728は該フィルタ選択肢ウインドウを閉じ、機能1730は、入力として最初の選択肢フィルタ文字と共に、フィルタ・編集を呼び出す。これにより、フィルタ文字列に於ける全ての以前の文字が非曖昧に定義されたフィルタ配列として処理される。機能1726の検証結果に関わらず、機能1732は、機能1722及びそれ以下に記載されている機能を引き起こす新しいフィルタ入力に対して、フィルタ編集を呼び出す。そして、機能1734は、現在の選択、及び、新しいフィルタ文字列に対して選択肢表示リストを呼び出す。そして、システムが個別モードの状態にある場合、機能1736及び1738は、フィルタ編集によって戻されたフィルタ文字列、及び、選択されたフィルタ文字として、新たに認識されたフィルタ入力文字と共に、フィルタ文字選択肢ルーチンを呼び出す。
図30は、フィルタ文字選択肢サブルーチン3000の動作を図示している。フィルタ文字選択肢サブルーチン3000は機能3002を有しており、該機能3002は、該ルーチンが呼び出された選択されたフィルタ文字が、それに関連した複数の最高の選択肢文字を有する現在のフィルタ文字列に於いて、曖昧な文字か、非曖昧な文字の何れかに対応するかどうかを確認するために検証を行う。フィルタ文字が曖昧な文字か、非曖昧な文字の何れかに対応する場合、機能3004は文字に関連付けられたすべての文字に対応するフィルタ文字選択肢リストを設定する。文字数が一度にフィルタ文字選択肢リストに適合する数を超える場合、該選択肢リストはユーザがそうした付加的な文字を視認することが出来るスクロール・ボタンを有することが出来る。ユーザが、より迅速に所望の文字を読み取ることが容易になるように、アルファベット順で選択肢が表示されることが望ましい。また、図30のフィルタ文字選択肢ルーチンは、機能3006を有しており、該機能3006は、選択されたフィルタ文字が現在のフィルタ文字列に於いて曖昧な長さのフィルタ文字列要素の文字に対応するかどうかを確認するための検証を行う。選択されたフィルタ文字が曖昧な長さのフィルタ文字列要素に対応する場合、機能3006は機能3008乃至3014を実行させる。機能3008は、選択されたフィルタ文字が曖昧な長さの要素の最初の文字であるかどうかを確認するために検証を行う。選択されたフィルタ文字が曖昧な長さの要素の最初の文字である場合、機能3010は文字配列に関連付けられた任意の曖昧な要素に於いて、すべての最初の文字に対応するフィルタ文字選択肢リストを設定する。
選択されたフィルタ文字が曖昧な長さの要素の最初の文字に一致しない場合、機能3012及び3014は、現在の最初の選択肢に於ける選択されたフィルタ文字に於けるように、同一文字によって前に置かれた曖昧な要素によって表された任意の文字配列に於いて、すべての文字に対応するフィルタ文字選択肢リストを設定する。機能3002乃至3004か、機能3006乃至3014の何れかの機能がフィルタ文字選択肢リストを作成した時点で、機能3016は、例えば図39に示されたウインドウ3906等のウインドウに於ける選択肢リストを表示する。
フィルタ文字選択肢ウインドウに於けるキャラクタ文字選択肢の使用によって、SIPプログラムが選択を受け付ける場合、機能1740は機能1742乃至1746を実行させる。機能1742は、そうした選択がなされたフィルタ選択肢ウインドウを閉じる。機能1744は、新しい入力としてフィルタ選択肢ウインドウで選択された文字と共に、現在のフィルタ文字列に対してフィルタ編集機能を呼び出す。機能1746は、フィルタ編集によって戻された新しいフィルタ文字列と共に選択肢表示リスト・ルーチンを呼び出す。
図45の訂正ウインドウ4526及び4538で示されたタイプのフィルタ文字列に於ける文字から上向きにドラッグされる場合、機能1747は機能1748乃至1750を実行させる。機能1748はドラッグされた文字に対してフィルタ文字選択肢ルーチンを呼び出す。該ルーチンは、その文字に関連付けられたその他の文字選択肢が存在しない場合、フィルタ文字選択肢ウインドウを生成させる。該ウインドウに於けるフィルタ選択肢文字を超えてドラッグが解除される場合、機能1749は解除が行われたフィルタ文字選択肢の選択を生成する。したがって、機能1749は、既述の機能1740乃至1746の動作を行う。フィルタ文字選択肢ウインドウに於ける選択肢以外でドラッグが解除される場合、機能1750はフィルタ選択肢ウインドウを閉じる。
機能1602及び1610に関して上述されているように、例えば、訂正モード中に大語彙ボタン、又は、氏名語彙ボタンを押下すること等、再発話ボタンの押下以外の方法で再発話が受け付けられる場合、図13及び14の機能1350、1356、1414、及び1416のそれぞれに関して上述されているように、図17の機能1752は機能1754及び1756を実行させる。機能1754は、訂正ウインドウの選択発話リストに、あらゆるそうした新しい発話を追加し、機能1756は新しい発話を使用する再認識を実行するための選択に対して選択肢表示リスト・ルーチンを呼び出す。
ここで図31乃至41を再び参照すると、テキスト配列を作成するために上述のユーザ・インターフェイスをどのように使用することが出来るのかについて説明する。この特定の配列に於いて、該インターフェイスは個別モードの状態、即ち、離散発話が認識される毎に表示される選択肢リストと共に、訂正ウインドウを表示する離散認識モードの状態にあるものとして説明される。
図31に於いて、数字3100は、新しい言語文脈に於けるディクテーションを開始するためにユーザがトーク・ボタン1102をタップすることを示すPDA画面の画面写真を指し示す。大語彙ボタン1132の強調表示で示されているように、SIP認識手段は大語彙モードの状態にある。連続/離散ボタン1134に於けるそれぞれのドットの配列は、認識手段が離散認識モードの状態にあることを示す。SIPは、図18の数字1810乃至1816に関して上述された、発話認識持続の最後への押下クリック・モードの状態にあると想定される。結果として、トーク・ボタンのクリックによって、次の発話の最後まで認識が行われる。数字3102は単語「this」に関するユーザの発話を表す。数字3104は、SIPテキスト・ウインドウ1104に認識されたテキスト3106をセットし、該テキストをアプリケーション・ウインドウ1106に出力し、最初の選択ウインドウ1202、及び、最初の選択肢リスト1208に認識された単語を含む訂正ウインドウ1200を表示することによる該発話への対応後に於けるPDAの画面の画像を指し示す。
図31の例では、数字3108で示されているように、ユーザは大文字使用ボタン1222をタップする。これにより、PDAの画面はSIPバッファに於ける現在の最初の選択肢とテキスト出力、及び、アプリケーション・ウインドウが頭文字の大文字表記を有するように変化される、3110で示された状態となる。
この例では、数字3102で示されているように、ユーザは継続ボタン1104をクリックし、数字3114で示されているように、単語「is」を発話する。この例では、該発話が、PDAの画面が数字3116で示された状態、即ち、最初の選択肢3118及び、その認識1208の為の新しい選択肢リストとして、新しい訂正ウインドウ1200が誤って認識された単語を有した状態で表示される状態となる「its」として、誤って認識されることを想定している。
図32はこの例の続きを表しており、ここでは、数字3202で示された画像に於ける選択肢単語3200、即ち、「is」をクリックする。これにより、PDAの画面は、数字3204で示された状態、即ち、訂正ウインドウが取り除かれ、SIPバッファ・ウインドウ、及び、アプリケーション・ウインドウに訂正されたテキストが現れる状態となる。
数字3206で示された画面写真に於いて、ユーザが、ボタン1130の強調表示によって示されているように、現在の認識モードを音名語彙に変更する音名語彙ボタン1130をタップすることを示す。機能1410乃至1412に関して上述しているように、このボタンのタップは、現在の認識持続モードに従って、音声認識を開始する。これにより、システムは数字3208で示されているように、音名「e」に関する次の発話を認識する。
認識の誤りを即座に訂正するための現在のインターフェイスの能力を強調するために、発話3208に対応して、個別モードで示される訂正ウインドウによって示されているように、この例は、システムがこの文字を文字「p」3211として誤って認識することを想定している。しかし、3210で示された訂正ウインドウから分かる通り、訂正文字「e」は、訂正ウインドウで示された選択肢の一つである。数字3214で示された訂正ウインドウに関する図では、ユーザは、PDAの画面が、数字3216で示された状態、即ち、訂正文字がSIPバッファ及びアプリケーション・ウインドウに入力される状態となる選択肢3212をタップする。
図33はこの例の続きを図示しており、ここでは、ボタン11,024で示された画面写真に於いて示されているように、ユーザが句読点語彙ボタン11,024をタップする。これは、数字3300によって示された単語「period」の発話を引き起こす発話認識を開始し、該発話認識は、3304で示された訂正、即ち、句読点記号「.」がユーザによる認識をより簡単にするための句読点記号名に続く最初の選択肢ウインドウに於いて示される訂正を生み出すために、強調表示の数字3302で示されているように、認識語彙を句読点語彙に変更する。
この例では、これは訂正認識であるので、画面写真の数字3306で示されているように、ボタン1130の押下、及び、文字「l」に関する発話3308を言うことによって、ユーザはそれを確認し、音名語彙を使用する新しい発話の認識を開始する。PDAの画面が数字3312で示された状態となるまで、ピリオドが続く文字を入力する該プロセスが継続される。この点で、画面写真3314で示されているように、テキストが選択され、図34の左上隅付近の画面写真3400に於ける訂正ウインドウ1200が表示されるテキスト「e.l.v.i.s」をユーザがドラッグすることを想定している。選択されたテキスト文字列が現在語彙にないことが想定されているので、この選択肢リストに表示される代替選択肢は存在しない。3402で示された訂正ウインドウの図に於いて、ユーザは、図27に関して上述された単語形式リスト・ルーチンを呼び出す単語形式ボタン1220をタップする。選択されたテキスト文字列はスペース(空白)を含むので、それは機能2716乃至2728で図示された図27に示されたルーチンの一部を実行させる複数単語選択として処理される。これは、スペース(空白)が訂正ウインドウの選択から取り除かれた選択肢3406を含む、例えば3404で示された選択肢リストを有する。この例では、ユーザは最も近い選択肢3406に隣接する編集ボタン1232をタップする。数字3410で示された訂正ウインドウの図に示されているように、これにより、3412で示された訂正ウインドウの図で示されているように、選択肢3406は最初の選択肢として選択される。訂正ウインドウが画面写真3414に於いて示された状態である時点で、最初の選択肢がすべて大文字になるまで、ユーザは大文字使用ボタン1222をタップする。この時点で、3416で示されているように、ユーザは句読点語彙ボタン1124をクリックし、3418で示された発話「comma」を発話する。この例では、この発話が正しく認識され、数字3420によって示された訂正ウインドウ1200を表示し、前出の最初の選択肢「e.l.v.i.s」をテキストとして出力させることを想定している。
図35はこの例の続きである。図35に於いて、ユーザは数字3500で示されているように、大語彙ボタンをクリックし、発話「the」3502を言うことが想定される。これにより、訂正ウインドウ3504が表示される。ユーザは、3506によって示されているように、大語彙ボタンを再び押下することによる認識を確認することによって対応し、3508によって示された発話「embedded」を発話する。この例では、これによって訂正ウインドウ3510が表示され、該訂正ウインドウ3510に於いて、発話が単語「imbedded」として誤って認識され、所望の単語が最初の選択肢リストに示されない。この時点から開始され、コメント3512に示されているように、複数の異なる訂正オプションが図示される。
図36は誤った認識に関連する第1及び第2選択肢リストをスクロールする訂正オプションを図示している。3604で示された訂正ウインドウの図に於いて、訂正ウインドウのスクロール・バー3602に於けるページ下スクロール・ボタン3600をタップすることが示されたユーザによって、訂正ウインドウ3606の図に於いて示されているように、第1選択肢リスト3603は第2選択肢リスト3605の最初の画面によって置換される。この図からわかるように、訂正ウインドウのスライド・バー3608は、第1選択リストの最後に関連したスクロール・バーの位置を規定する水平バー3609の下に移動した。この例では、所望の単語は図3606に示されたアルファベット順の第2選択肢リストの部分に存在しないので、ユーザは3610によって示されているように、スクロール・バーのページ下ボタンを押下する。これにより、訂正ウインドウは該状態に於いて、アルファベット順に掲載された選択肢の新しい画面が示された図3612で示された状態となる。この例では、所望の単語「embedded」は3616で示されているように、選択肢リストに示される。この例では、3618で示された訂正ウインドウの図に示されているように、ユーザはこの所望の選択肢に関連した、この選択肢ボタン3619をクリックする。これにより、訂正ウインドウは、この選択肢が第1選択肢ウインドウに表示される、3620で示された図の状態となる。この例では、数字3622で示されているように、ユーザは、画面写真3624で示されているように、この第1選択肢の最初の文字が大文字化される大文字入力ボタンをタップする。
したがって、SIPユーザ・インターフェイスは、ユーザが比較的多くの認識選択肢の中から選択することが可能な迅速な方法を提供することがわかる。図示された実施形態では、第1選択肢リストは、6個の選択肢で構成され、第2選択肢リストは最高18個の追加の選択肢に関する最大3つの追加の画面を有することが可能である。選択肢がアルファベット順に配列され、4つの画面すべてを1秒未満で見ることが出来るので、ユーザは極めて迅速に、最大24個の選択肢の中から選択することが可能である。
図16の機能1664乃至1666に関して上述したように、図37は選択肢の最初の部分をドラッグすることにより、選択肢をフィルタリングする方法を図示している。この図の例では、第1選択肢リストは3700で示された訂正ウインドウの図で示された選択肢3702を含むことを想定しており、それには所望の単語「embedded」の最初の6文字が含まれる。訂正ウインドウ3704に図示されているように、ユーザはこれらの最初の6文字をドラッグし、システムは、画面写真3706に表示されているように、最初の6文字に対応する非曖昧なフィルタから始まる認識候補に限定された新しい訂正ウインドウを表示することによって対応する。この画面写真では、所望の単語は第1の選択肢であり、ボックス3708で示されているように、第1の選択肢に関して非曖昧に確認された最初の6文字は強調表示で示され、フィルタ・カーソル3710もまた図示される。
図38は、図17の機能1706乃至1708に関して上述された選択肢リストに於いて2個の選択肢をドラッグすることによって選択肢をフィルタリングする方法を図示している。この例では、2個の表示された数字3802及び3804の間にアルファベット順で所望の選択肢「embedded」が存在する場合に、訂正ウインドウ3800は所望の選択肢「embedded」を表示する。図3806に示されているように、ユーザはこれら2つの遷択肢をドラッグすることによって、所望の単語がアルファベットに関するこの範囲に収まることを示す。これにより訂正ウインドウが表示され、該訂正ウインドウに於いては、画面写真3808で示されているように、使用可能な選択肢がアルファベットの選択された範囲で生じる単語に限られる。この例では、第1の選択肢、及び、3806に示された選択によるフィルタリングの結果として、所望の単語が選択されることが想定されている。この画面写真では、図3806で選択された2つの選択肢の最初の部分を形成する第1の選択肢の部分が、フィルタ文字列3810の非曖昧に確認された部分として示されており、フィルタ・カーソル3812が確認されたフィルタ部分の後にセットされる。
図39は、所望の単語の選択肢を選択支援する個別モードでアルファベットのフィルタリングが使用される方法を図示している。この例では、訂正ウインドウ図3900で示されているように、ユーザはフィルタ・ボタンを押下する。デフォルトのフィルタ語彙は音名語彙であることが想定されている。フィルタ・ボタンの押下によって、次の発話に対する音声認識が開始され、ユーザは3902に示されているように、文字「e」を発声する。これにより、訂正ウインドウ3904が表示され、該訂正ウインドウ3904に於いては、フィルタ文字が「p」と誤って認識されたことを想定している。示された実施形態に於いては、個別モードでアルファベット入力も認識用に表示された選択肢リストを有する。この場合、それは図30のフィルタ文字選択肢サブルーチンに関して上述されたタイプのフィルタ文字選択肢リスト・ウインドウ3906である。この例では、図3908に示されているように、ユーザは新しい訂正ウインドウ3900が表示される所望のフィルタリング文字、即ち、文字「e」を選択する。この例では、ユーザは図3912に示されているように、フィルタ・ボタンを再び押下することによって、追加のフィルタリング文字を入力することを決定する。これにより、フィルタ文字選択肢ウインドウ3918を表示する訂正ウインドウ3916が表示される。該訂正ウインドウに於いて、フィルタリング文字は正しく認識されており、ユーザは追加のフィルタリング文字を話すこと、又は、ウインドウ3916に示されているように、訂正文字を選択することの何れかによって、それを確認することが出来た。所望のフィルタリング文字の確認によって、非曖昧に確認されたフィルタの文字列として、フィルタ歪み「em」と共に新しい訂正ウインドウが表示される。画面写真3920で示された例では、これによって所望の単語が認識される。
図40は、アルファブラボ、ICA単語、アルファベットの綴りを用いたアルファベットのフィルタリング方法を図示している。画面写真4000に於いて、ユーザはアルファブラボ・ボタン1128をタップする。図14の機能1402乃至1408によって上述されているように、これはアルファベットをICA単語アルファベットに変更する。この例では、ダブルクリックによるアルファ表示変数が設定されていないということが想定されている。したがって、図14の機能1406は、アルファブラボ・ボタン1128の押下中に画面写真4004で示されたICA単語4002のリストを表示する。この例では、4008、及び、文字「m」を表す第2のICA単語「Mike」の発話で示されているように、ユーザは、アルファブラボ・キーによる第2の押下に続く、文字「e」を表すICA単語「echo」を入力する。この例では、これら2個のアルファベット・フィルタリング文字の入力によって、所望の文字「em」で構成された非曖昧なフィルタ文字列の作成に成功し、所望の単語「embedded」の認識を実現する。
図41は、ユーザがフィルタとして選択肢の部分を選択し、システムの語彙に存在しない一連の単語、即ち、この場合、まとめられた単語「embedded」を完成させるために、アルファブラボ綴りを使用する方法を図示している。
この例では、一つの選択肢4100を含み、所望の単語の最初の6文字を含む、訂正ウインドウ4100がユーザに提示される。訂正ウインドウ4104に示されているように、ユーザは、それらの文字が現在のフィルタ文字列の非曖昧に確認された文字となるこれら最初の6文字をドラッグする。これは訂正ウインドウ4106に結実する。画面写真4108は、ユーザがフィルタ・ボタン1218からドラッグし、離散/連続ボタン1134で解除する該訂正ウインドウの表示を示しており、画面写真4108で示されたボタンに実線で示されているように、それを離散フィルタ・ディクテーション・モードから連続フィルタ・ディクテーション・モードに変更する。画面写真4110に於いて、ユーザは再びアルファ・ボタンを押下し、下記のICA単語、「Echo,Delta,Sierra,Tango」を含む発話を発声する。これにより、現在のフィルタ文字列が所望の単語の綴りに対応させられる。このフィルタ文字列と一致する語彙に単語が存在しないので、訂正ウインドウ4114で示されているように、フィルタ文字列そのものは、第一の選択肢となる。4116で示されたこのウインドウの図に於いて、ユーザは第一の選択肢の選択を示すためにチェック・ボタンをタップし、PDAの画面は4108で示された状態となる。
図42乃至44は、連続音声のディクテーション、認識、及び訂正について実例を説明している。画面写真4200に於いて、ユーザは、図13の機能1310乃至1314に関して上述したクリア・ボタン1112をクリックする。これにより、画面写真4204によって示されているように、アプリケーション・ウインドウ1106に於いて、対応するテキストと関連する変更を生じることなく、SIPバッファ1104に於けるテキストがクリアされる。画面写真4204に於いて、ユーザは、画面写真4204で示され実線を実行するために、画面写真4002に於けるドットの配列によって、ボタンに示された離散認識から変更される連続/離散ボタン1134をクリックする。これにより、現在の認識持続モードに従って、音声認識が開始され、数字4206で示されているように、ユーザは以下の単語「large vocabulary interface system from voice signal technologies period」の連続発話を発声する。画面写真4208に示されているように、システムは、この発話を認識し、認識されたテキストをSIPバッファ1104にセットし、オペレーティング・システムを介して、アプリケーション・ウインドウ1106に対応する。認識されたテキストは、一度にSIPウインドウ内に適合するよりも僅かに多いので、ユーザは数字4210で示されているようにSIPウインドウに於いてスクロールを行い、図14の機能1436乃至1438にその単語を選択させ、それに対する訂正ウインドウを生成させるために、単語「vocabularies」4214をタップする。それに応じて、訂正ウインドウ4216が表示される。この例では、所望の単語「vocabulary」4218は訂正ウインドウの選択肢リストに存在し、訂正ウインドウ4220の図では、ユーザがこの単語が選択されるように、該単語をタップし、これにより、アプリケーション・ウインドウに於けるSIPバッファの両方に於ける単語「vocaburaly」がその選択された単語に置換される。
ここで、図43に於ける説明を続けると、この訂正は画面写真4300によって示される。この例では、図4302で示されているように、ユーザは4個の間違った単語「enter faces men rum」をドラッグすることによって、該単語を選択する。これにより、図4304によって示されているように、機能1502及び1504は、選択肢としてドラッグされた単語を用いて選択肢ウインドウを表示する。
図44は、図43の下部に示された訂正ウインドウが、訂正ウインドウの水平及び垂直スクロールの組み合わせ、及びそれに表示された選択肢によって、如何にして訂正することが出来るかを図示している。数字4400は、図43の4304に示された同一の訂正ウインドウの図を指し示している。訂正ウインドウに於いて、スクロール・バー4602だけでなく、この図に於ける水平スクロール・バー4402も表示される。ユーザは、垂直スクロール・バーに於けるページ下ボタン3006をタップすることが示され、これにより、表示された選択肢リストの部分は、図4400に示された1ページの第1アルファベット順選択肢リストの表示から、図4404に示された第2のアルファベット順選択肢リストの第1ページに移動される。この例では、第2選択肢リストのこの部分に於ける認識候補の内、「interface system from」という所望の認識出力と一致する文字配列で始まるものはない。したがって、数字4408で示されているように、ユーザは再びページ下スクロール・ボタン3600をタップする。これにより、訂正ウインドウは4410で示された状態、即ち、表示された選択肢4412の2つが所望の認識出力に一致する文字配列から始まる状態となる。これらの認識候補が所望の出力に一致したかどうかを確認するために、ユーザは4414に示されているように、水平スクロール・バー4402に於いて、同類の単語をスクロールする。これにより、ユーザは選択肢4418が所望の出力に一致するかどうかを確認することが出来る。4420で示されているように、ユーザはこの選択肢をタップし、画面写真4422に示されているように、SIPウインドウ1104及びアプリケーション・ウインドウ1106の両方に於いて、ディクテーションされたテキストに該選択肢が挿入される。
図45は、連続して発話された音名の認識によって形成され、フィルタ文字選択肢ウインドウで編集された曖昧なフィルタの使用が、如何にして間違ったディクテーションを迅速に訂正することが出来るかを図示している。この例では、ユーザは4500で示されているように、トーク・ボタン1102を押下し、4502で示されているように、単語「trouble」を発話する。この例では、4504で示されているように、該発話が単語「treble」として誤って認識されることを想定している。この例では、ユーザは4506で示されているように、単語「treble」をタップし、これにより、4508で示された訂正ウインドウが表示される。所望の単語は選択肢の何れかとして示されていないので、ユーザは4510で示されているように、フィルタ・ボタン1218を覆って、所望の単語「trouble」に於けるそれぞれの文字のネームを含む連続発話4512を形成する。この例では、フィルタ認識モードは連続音名認識を盛り込むためにセットされることが想定されている。
この例では、システムはリスト4518を表示することで、発話4512の認識に対応する。この例では、この発話の認識の結果によって、一つの曖昧な長さの要素で構成されるフィルタ歪みが形成されることが想定されている。機能2644乃至2652に関して上述したように、曖昧な長さのフィルタ要素は、文字配列の対応箇所に、曖昧な要素で表された文字配列の一つを含む任意の認識候補を許容する。訂正ウインドウ4518に於いて、曖昧なフィルタ要素に対応する第1選択肢単語4519の一部分は、曖昧なフィルタ・インジケータ4520で示されている。フィルタは曖昧な要素を使用するので、表示された選択肢リストは、曖昧な要素で表された適合する文字配列に対応する最初の選択肢の一部分よりも短い長さの文字配列など、異なる最初の文字配列で始まる最高得点の認識候補を有する。
この例では、ユーザは第1選択肢の第1文字から上方向にドラッグし、これにより、図17に関して上述した、機能1747乃至1750の動作を生じさせる。これにより、フィルタ選択肢ウインドウ4526が表示される。訂正ウインドウ4524に示されているように、ユーザは最初の所望の文字、即ち、文字「t」までドラッグし、機能1749、及び、機能1740乃至1746が実行される位置で、該ドラッグを解除する。これらによって、フィルタ選択肢ウインドウが閉じられ、非曖昧な訂正として、選択された文字と共に以前の曖昧なフィルタ要素に追加されたフィルタが呼び出され、4528で示されているように、新しいフィルタと共に、新しい訂正ウインドウが表示される。この訂正ウインドウに示されているように、第1選択肢4530は、第1文字「t」に対する非曖昧なフィルタ・インジケータ4532、及び、残りの文字に対する曖昧なフィルタ・インジケータ4534と共に表示される。次に、4536で示された同一の訂正ウインドウの図で示されているように、ユーザは新しい第1選択肢の5番目の文字「p」から上方向にドラッグし、新しい訂正ウインドウ4538が表示される。その文字と第1選択肢に於いて先行する全ての文字が、現在のフィルタ歪みで非曖昧に定義される文字「p」へのドラッグを、ユーザが解除する時、これは、第1選択肢4542が所望の単語である選択の結果として表示される、新しい訂正ウインドウ4520に示され、フィルタの非曖昧な部分は、非曖昧なフィルタ・インジケータ4544、及び、図29に示されているように、機能2900乃至2910の動作によってフィルタ文字列に残っている、曖昧なフィルタ要素の残りの部分によって示される。
図46は、ウインドウズCEのオペレーティング・システムと共に標準規格となる文字認識手段に類似した文字認識手段を使用することにより、SIP認識手段によってユーザがテキスト及びフイルタリング情報を入力可能になることを図示している。
この図の画面写真4600に於いて示されているように、ユーザが図14の機能キーの機能1428及び1430から上方向にドラッグする場合、パンチ及びメニュー4602が表示され、ユーザがメニューの文字認識入力4604を解除する場合、図47で説明された文字認識モードがオンの状態になる。
図47に示されているように、これにより、機能4702は図46に示された文字認識ウインドウ4608を表示し、ユーザが機能メニュー4602に於ける他の入力オプションを選択することによって、ウインドウを終了するために選択するまで繰り返される入力ループ4704を入力する。このループの状態にある場合、ユーザが文字認識ウインドウを接触すると、動きを記録するそうした接触、即ち、あるとすれば、文字認識ウインドウに一致する画面のタッチ・スクリーンの一部分の表面への接触が継続する間、機能4906は「ink」を記録する。ユーザがこのウインドウに於いて接触を解除する場合、機能4708乃至4714が実行される。機能4710は、現在ウインドウにある「ink」の文字認識を実行する。図46に於ける数字4610によって示されているように、機能4712は文字認識ウインドウをクリアする。そして、機能4708は、対応する認識された文字をSIPバッファおよびオペレーティング・システムに供給する。
図48は、画面写真4600に示された機能メニューにおいて手書文字認識オプションをユーザが選択する場合、画面写真4802に示されているように、手書文字認識入力ウインドウ4008がSIPに関連して表示されることを図示している。
手書文字モードの動作は、図49に図示されている。手書文字モードが入力されると、機能4902は手書文字認識ウインドウを表示し、ユーザが他の入力オプションを使用することを選択するまで、ループ4903が入力される。このループでは、図48に示された削除ボタン4804以外の任意の場所で、ユーザが手書文字認識ウインドウに接触すると、あるとすれば接触中であるが、機能4904によって、動きが「ink」として記録される。図48に示された記録ボタン領域4806をユーザが接触すると、機能4905は機能4906乃至4910を実行させる。機能4906は、手書文字認識ウインドウに以前入力された任意の「ink」に関して手書文字認識を実行する。機能4908は認識された出力をSIPバッファおよびオペレーティング・システムに供給し、機能4910は認識ウインドウをクリアする。ユーザが図48に示された削除ボタン4804を押下する場合、機能4912および4914は任意の「ink」に関する認識ウインドウをクリアする。
当然のことながら、認識ボタン4806を使用することで、ユーザは、システムに以前手書文字認識にあった「ink」を認識するよう指示すること、および、認識される新しい単語の書き込みを開始することが可能となる。
図50は、機能メニューから選択することが可能なキーパッド5000を示している。
音声認識SIPの一部として即座に使用可能な文字認識、手書文字認識、及びキーパッド入力方法は、一秒足らずでユーザに現時点で最も便利なものに依存するこれらの異なるモードを交互に切り換えさせるので、極めて有利である場合が多い。そして、それにより、これらのモードすべての出力をSIPバッファにおける編集テキストで使用することができる。
図51に示されたように、SIPバッファの一つの実施形態において、ユーザがフィルタ・ボタン1218から上方向にドラッグする場合、ウインドウ5100は、ユーザに任意のフィルタ入力モード・オプションを提供する画面である。これらは、音名音声認識、アルファブラボ音声認識、文字認識、手書文字認識、および、キーボード・ウインドウを使用するオプションを有する。また、それによって、ユーザは、任意の音声認識モードが離散型であるか連続型であるか、及び、音名認識文字認識及び手書文字認識入力がフィルタ文字列に於いて曖昧なものとして処理されるかどうか、を選択することが可能である。このユーザ・インターフェイスによって、ユーザは現時点、及び、現地点に適切なフィルタ入力モードを即座に選択することが可能である。例えば、発話することで他人の感情を害するのではないかと心配する必要のない静かな場所では、多くの場合、連続音名認識は非常に有用である。しかし、雑音が多く存在し、発話することで近くにいる人の感情を害することはないだろうとユーザが感じる場所では、アルファブラボ認識はさらに適切である可能性がある。発話によって他人の感情を害する可能性のある図書館のような場所では、文字認識、手書文字認識、キーボード入力等の消音フィルタ入力モードはより適切である可能性がある。
図52は、認識をフィルタ処理するために、文字認識を如何にして選択することが出来るかに関する例を説明している。5200は訂正ウインドウの一部分を示しており、該ウインドウに於いて、ユーザはフィルタ・ボタンを押下し、上方向にドラッグしており、これにより図51に示されたフイルタ入力モード・メニュー5100が表示され、その後、文字認識オプションを選択している。画面写真5202に於いて示されているように、これにより、文字認識入力ウインドウ4608が、ユーザが訂正ウインドウ全体を視認することが可能な位置に表示される。画面写真5202では、ユーザが文字「e」を描いており、その文字の描画からスタイラスを解除した際に、文字「e」がフィルタ文字列に入力され、訂正ウインドウ5204がこの例に表示される。5206で示されているように、ユーザは文字認識ウインドウに文字「m」を追加入力し、この文字の描画からスタイラスを解除すると、5208で示されているように、文字「m」の認識によって、フィルタ文字列が「e」を含む。
図53は画面写真5300の一部分から始まるが、ここでは、フィルタ入力モード・メニューの表示を行うために、ユーザがタップし、フィルタ・キー1218から上方向にドラッグし、そして、手書文字オプションを選択している。これは、訂正ウインドウの表示を遮断しない位置に表示された手書文字入力ウインドウ4800と共に、5302のような画面を表示する。画面写真5302では、ユーザは連続型の筆記体で文字「embed」を筆記し、そうした文字の認識にために、記録ボタンに接触しようとしている。ユーザがそのボタンをタップした時点で、訂正ウインドウ5306によって示されているように、曖昧なフィルタ・インジケータ5304によって示された曖昧なフィルタ文字列が、認識された文字に対応する第1選択肢ウインドウに表示される。図54は、アルファベット・フィルタリング情報を入力するために、ユーザが如何にしてキーパッド・ウインドウ5000を使用することが出来るのかを図示している。
図55は、手書文字認識を訂正するために音声認識を如何にして使用することが出来るかを図示している。画面写真5500は、SIPバッファ・ウインドウ1104にテキストを入力するための位置に表示された手書文字入力ウインドウ4800を示している。この画面写真では、ユーザは単語をちょうど書き終えたところである。数字5502乃至5510は、追加の5つの単語の手書文字を示している。これらの図のそれぞれに於ける単語は、以前書かれた単語の認識を行うために、記録ボタンを押下することによって開始される。数字5512は、手書文字認識ウインドウを指し示しており、ここで、最後の手書文字の単語「speech」の認識を行うために、ユーザは記録ボタンへの最後のタップを行う。図55の例では、一連の手書文字が認識された後に、アプリケーション・ウインドウ1106に於けるSIPバッファ・ウインドウ1104は、5516で示された画面写真5514に図示された状態を有していた。ユーザは、誤って認識された単語「snackshower」をドラッグする。これにより、訂正ウインドウ5518が閉じされる。この例では、ユーザは再発話ボタン1216をタップし、離散的に所望の単語「much・・・slower」を再発話する。図23に関して上述した「get」選択肢機能を僅かに修正した機能の動作によって、この例の場合では、数字5522で示されているように、所望の単語である、最高得点認識候補を選択するため、数字5504及び5506によって指し示された入力に於ける手書文字「REC」を結合することからの認識結果と、発話5520の認識からの認識得点が、これによって結合される。
当然のことながら、5516で示されているように、選択された手書文字出力を置換するために、音声認識の出力を発話5520が使用した場合、再追加ボタンの代わりに、訂正ウインドウ5518に於ける新しいボタンを押下することが可能であった。
図56に示されているように、訂正ウインドウ5518に於ける再発話ボタンの代わりに、フィルタ・ボタン1218をユーザが押下した場合、図55の5516で選択された2つの単語の手書文字認識をアルファベット順にフィルタするために、図56に於いて示された発話5600等、周知の単語に音声認識を使用することが可能であった。
図57は、離散音声認識、及び、連続音声認識からそれぞれ選択するために、2つの個別の最高レベル・ボタン5702及び5704が存在する、SIP音声認識インターフェイスの代替実施形態5700を図示している。それはボタンが音声認識手段のユーザ・インターフェイスの最高レベルで提供される設計上の選択であることが望ましい。しかし、さらに迅速で自然な連続音声認識と、さらに信頼出来るが、さらに不完全で遅い離散音声認識を即座に切り換える能力は、極めて望ましいものになり得る能力であり、実施形態によっては、離散認識と連続認識の選択に対する個別の最高レベル・キーの割り当てを正当化している。
図22のルーチンによって形成された2つのアルファベット順の選択肢リストというよりは、単一のスクロール可能な得点順選択肢リストを形成していることを除いて、図58は図22に示された表示選択肢リスト・ルーチンの代替実施形態を示している。機能2226及び2228も図58に示されたルーチンのバージョンで削除されたという事実に関する例外を用いて、図22に含まれた言語と異なる言語の部分だけに下線が引かれる。
図67乃至74は、開示された携帯電話音声認識エディタの様々なモードやメニューで使用される機能に対する、基本的な電話番号キーパッドの様々なマッピングを示している。編集モードに於ける主要な番号付与された電話キー・マッピングが図67に図示されている。図68は、編集モードの状態で、ユーザが一つのキーを押下した場合に選択される入力モード・メニューの電話キー部分を示している。入力モード・メニューは、システムで使用可能な様々なテキスト及びアルファベット入力モードから選択するために使用される。図69は、ユーザが表示された訂正ウインドウを有する際に、数字電話キーパッドで使用可能な機能を図示しており、キー「2」を押下することで編集モードから実行可能である。図70は、図67に図示された編集モードから、キー「3」を押下することによって選択される編集メニューから使用可能な、数字電話キー・コマンドを図示している。このメニューは、電話キーパッドのナビゲーション・キーを押下することにより実行されるナビゲーション機能を変更するために使用される。図71は、キー「3」の押下によって訂正ウインドウで使用可能なナビゲーション・オプションを表示する、幾分似た訂正ナビゲーション・メニューを図示している。訂正ウインドウの状態でナビゲーション・モードを変更することに加え、それにより、ユーザは選択肢が選択される際に実行される機能を変更することが出来る。
図72は、キー・アルファ・モードに於ける数字電話キー・マッピングを図示している。それに関連した文字を有する電話キーを押下することによって、押下されたキーに関連した一連の文字の内、所望の文字に関連したICA単語を発話するようユーザに要求するプロンプトが携帯電話画面に表示させる。このモードは、図68に示された入力モード・メニューの状態で、電話キー「3」をダブルクリックすることによって選択される。
図73は基本的なキー・メニューを示しており、このキー・メニューによって、ユーザは最も一般的な一連の句読点と、テキスト編集で使用される機能キーから即座に選択することができ、キー「1」を押下することによって、あまり一般的に使用されない句読点記号の選択を可能にするメニューを視認することが出来る。基本的なキー・メニューは、図67に図示されているエディタ・モードに於いて「9」を押下することによって選択される。図74は、編集オプション・メニューを示しており、該メニューは図67に於いて示されているエディタに「0」を押下することによって選択される。これは、他のモードやメニューで使用することが出来ないエディタの使用に関連した基本的なタスクをユーザが実行することが可能なメニューを有する。
メニューやコマンド・リストが表示された場合に、携帯電話画面の一番上に表示されるタイトル・バーは、図67乃至74に於いて示されたそれぞれの数字電話キー・マッピングの一番上にある。これらの図から分かるように、図68、70、71,73、74が「MENU」で始まるタイトルを有している一方で、図67,69、72では、表示されたオプションがコマンド・リストの一部であることを示す文字「Cmds」と共にタイトル・バーが図示されている。これは、図67、69、72に於いて示されたコマンド・リストと、これらの図の他の部分に示されたメニューとの区別を示すために使用される。コマンド・リストは、そのコマンド・リストが表示されない場合でさえ、一つのモードで使用可能なコマンドを表示する。67のコマンド・リストに関連したエディタ・モードや、図72に関連するキー・アルファ・モードの状態で、電話キーがこれらの図で示される機能マッピングを有しているとしても、通常、テキスト・エディタ・モードは表示される。通常、図69に於いて示されるコマンド・リストに関連した訂正ウインドウ・モードの状態では、訂正ウインドウは携帯電話画面に表示される。これら全てのモードに於いて、図75の数字7500で示されているように、ユーザはメニュー・ボタンを押下するだけで、図75に図示されているように、現在の電話キー・マッピングを確認するために、コマンド・リストにアクセスすることが可能である。図75に於いて示された例では、表示画面7502は、メニュー・ボタンを押下する前に、エディタ・モードのウインドウを表示する。ユーザがメニュー・ボタンを押下する場合、7504で示されているように、エディタ・コマンド・リストの第1ページが表示され、そして、ユーザは、数字電話キーでマッピングされたコマンドだけでなく、7508、及び、画面7510で示されているような、ナビゲーション・キー「OK」と「メニュー」はもちろんのこと、画面7506に於いて示されているような、メニュー「トーク」及び「メニュー」を用いてマッピングされたコマンドをも確認するために、コマンド・リストに於いて上方向、又は、下方向にスクロールするオプションを有し、コマンド・リストが入力される時点で、現在のモードに関連した追加オプションがある場合、強調表示7512をスクロールし、OKキーを使用することによって、コマンド・リストからそれらを選択することが出来る。図75に於いて示された例では、一般的な電話送受機の形状を有する通話インジケータ7514が、ユーザに対して、携帯電話が現在通話状態にあることを示すそれぞれのタイトル・バーの左側に表示される。この場合、検出されたセルのマイクを消音し、電話での会話に関してユーザ側からの音声のみを録音し、電話での会話に関してユーザ側に対してのみ再生することをユーザが即座に選択可能なエディタに於いて、特別機能が使用可能である。
図76乃至78は、図67及び75に示された単なるコマンド・リストに比して、より詳細なエディタ・モードの機能に関する擬似コードの記述を示している。この擬似コードは、エディタが様々なユーザ入力に対応する一つの入力ループ7602として表されている。
一つのナビゲーション・キーを押下すること、又は、対応するナビゲーション・コマンドを発話することの何れかにより、ユーザが数字7603によって示されたナビゲーション・コマンドの一つを入力する場合、図76で示されているように、それに基づいて発明された機能が実行される。
これらは、エディタが現在、単語/ライン・ナビゲーション・モードの状態にあるかどうかを確認するための検証を行う機能7604を有する。これはエディタに於けるナビゲーションの最も一般的なモードであり、エディタからキー「3」を2回押下することで、即座に選択することが出来る。第1の押下により、図70に示されたナビゲーション・モード・メニューが選択され、第2の押下により、そのメニューから単語/ライン・ナビゲーション・モードが選択される。エディタが単語/ライン・モード機能7606の状態にある場合、機能7606乃至7624が実行される。
ナビゲーション入力が単語左コマンド、又は、単語右コマンドである場合、機能7606によって、機能7608乃至7617が実行される。機能7608及び7610は、拡大された選択がオンの状態にあるかどうかを確認するために検証を行い、オンの状態にあれば、機能7608及び7610はカーソルを左右何れかに一単語分だけ移動させ、以前の選択をその単語まで拡大する。拡大された選択がオンの状態でない場合、機能7612によって機能7614乃至7617が実行される。機能7614及び7615は、以前の入力が、現在のコマンドと異なる指示の単語左/右コマンドであったかどうか、又は、現在のコマンドがテキストの前後にカーソルをセットするかどうか、の何れかを確認するために検証を行う。これらの条件の何れかが満たされる場合、カーソルは以前選択された単語から左右何れかにセットされ、以前選択された単語は選択されない。機能7614の検証に於ける条件が満たされない場合、機能7617は現在一から左右何れか一単語分カーソルを移動させ、現在の選択に移動されや単語を形成する。
機能7612乃至7617の動作によって、単語左ナビゲーション及び単語右ナビゲーションは、ユーザによる一単語分のカーソル移動だけでなく、必要に応じて、移動毎に現在の単語を選択可能にさせる。また、それによって、ユーザは選択された単語に対応するカーソルと、以前選択された単語の前後何れかに挿入位置を表すカーソルを即座に切り換えることが出来る。
ユーザがライン上コマンドか、ライン下コマンドを入力した場合、機能7620はカーソルを現在のカーソル位置から上下何れかのライン上の最も近くにある単語に移動させ、拡大された選択がオンの状態であれば、機能7624はその新しい現在の単語を介して現在の選択を拡大する。
また、数字7626で示されているように、他のエディタが図70に於いて示される編集ナビゲーション・メニューから選択可能な他のナビゲーション・モードの状態にある場合、エディタはナビゲーション入力に対応するためのプログラミングを有する。
ユーザがボタンの押下、又は、ボイス・コマンドの使用の何れかによって「OK」を選択する場合、機能7630は、例えばウェッブ・ドキュメントやダイアログ・ボックスの領域にテキストを入力する等、他のプログラムにテキストを入力するために、エディタが呼び出されたかどうかを確認するための検証を行い、エディタが呼び出された場合、機能7632はそのプログラムに於ける現在のテキスト入力位置で、他のプログラムにエディタの現在の文脈を入力し戻る。検証7630の条件が満たされない場合、機能7634はエディタを終了し、現在の内容及び状態を後で使用する場合に備えて保存する。
エディタの状態で、ユーザがメニュー・ボタンを押下する場合、機能7638は、図75に関して上述したように、コマンド・リストがエディタに対して表示されるエディタ・コマンドに対する表示メニュー・ルーチンを呼び出す。上述の通り、これにより、ユーザは1、2秒でエディタ・モードに対する全ての現在のコマンド・マッピングをスクロールすることが出来る。エディタの状態で、ユーザがメニュー・ボタンをダブルクリックする場合、エディタに対するコマンド・リストを表示し、エディタのコマンド・語彙に認識語彙をセットし、ダブルクリックの最後の押下を使用した音声認識に対して認識の持続期間を決定することを命じるために、機能7642乃至7646は表示メニューを呼び出す。
ユーザがメニュー・キーの押下を維持する場合、機能7650はエディタに対してヘルプ・モードを入力する。ヘルプ・モードは、エディタ・モードの機能に関して即座に説明を行い、キーの押下と、押下されたそれぞれのキーの結果として、到達したエディタの階層コマンド構造の一部に対して提供される簡単な説明を有することによって、ユーザがエディタの階層コマンド構造を探索することが出来る。
エディタの状態で、ユーザがトーク・ボタンを押下する場合、機能7654は、語彙及び認識持続モードなど、現在の認識設定に応じて、認識をオンの状態にする。多くの場合、トーク・ボタンは、携帯電話に関する実施形態に於いて音声認識の開始に使用される主要なボタンとして使用される。
ユーザがエンド・ボタンを選択する場合、機能7658は、例えば早く電話をかける、又は、電話に出る等の電話モードに進む。通話の終了時にユーザが現在の状態に戻ることが出来るように、それはエディタの現在の状態を保存する。
図77に示されているように、ユーザが図68に図示された入力モード・メニューを選択する場合、機能7702はそのメニューを表示させる。後述のさらに詳細な説明の通り、このメニューによって、ユーザはディクテーション・モードからPDAに関する実施形態の図11に於いて示されたボタン1122乃至1134として、幾分早く選択することが出来る。示された実施形態では、トーク・キーに対してキー「1」が接近しているので、入力モード・メニューはキー「1」に関連付けられていた。これにより、ユーザはディクテーション・モードを即座に切り換えることができ、トーク・ボタンを使用したディクテーションを継続することが出来る。
ユーザが選択肢リストを選択する場合、機能7706及び7708は、訂正ウインドウ・ナビゲーション・モードを、認識候補選択肢のスクロール及び選択に最適なページ/アイテム・ナビゲーション・モードに設定する。そして、機能7706及び7708は、現在の選択に対して、携帯電話の画面に表示される図12に示された訂正ウインドウ1200に幾分類似した訂正ウインドウを生じる訂正ウインドウ・ルーチンを呼び出すことが出来る。現在カーソルが存在しない場合、訂正ウインドウは選択なしで呼び出される。この場合、それは、アルファベット入力、単語の完了、及び/又は、さらなる発話の追加を有する一つ以上の単語を選択するために使用することが出来る。訂正ウインドウ・ルーチンについては下記に於いて詳細に説明する。
ユーザが、例えばキー「2」をダブルクリックすることによって、「フィルタ選択肢」を選択する場合、機能7712乃至7716は、第1選択肢、又は、フィルタ文字列に於いてナビゲートするために使用される単語/文字モードに、訂正ウインドウ・ナビゲーション・モードを設定する。そして、機能7712乃至7716は、訂正ウインドウ・ルーチンを現在の選択のために呼び出し、一つが入力された場合、ダブルクリックの2回目の押下を、認識を持続させるための音声キーとして処理する。
殆どの携帯電話では、通常、キー「2」はナビゲーション・キーの直下に配置される。これにより、ユーザは、エディタに於いて訂正が必要な、一つ又は複数の所望の単語にナビゲートすることができ、そして、選択に対する代替選択肢を備えた訂正ウインドウを視認するために、隣接したキー「2」を1回押下するか、もしくは、キー「2」をダブルクリックし、直ちに認識手段による訂正モードの選択を支援するためにフィルタリング情報の入力を開始することが出来る。
ユーザが図70に示されたナビゲーション・モード・メニューを選択する場合、機能7720によってそれが表示される。下記に於いて詳細に記載する通り、この機能によって、ユーザは、左右及び上下のナビゲーション・ボタンを押下することで成し遂げられるナビゲーションを変更することが出来る。そうした切り換えをより簡単に行うために、ナビゲーション・ボタンは、数字が付与された電話キーの最上段に設置されている。
ユーザが離散認識入力を選択する場合、機能7724は、現在の認識持続設定として持続モードを発声し送信するために、押下及びクリックを使用して、現在の語彙に応じて離散認識をオンの状態にする。ユーザがボタン「1」を押下することによって望む時はいつでも、離散発話認識に即座に変更することが出来るように、このボタンは設けられている。上述の通り、離散認識は、連続認識に比して不完全ではあるが、どちらかと言えばかなり正確である。このコマンド・キーの位置は、トーク・ボタン及び入力モード・メニュー・ボタンの近傍に設置するよう選択されている。離散認識キーが使用可能であるので、通常、トーク・ボタンにマッピングされた認識モードは、連続型となる。そうした設定によって、ユーザはトーク・ボタン及びキー「4」の押下を変更することで、連続認識と離散認識を切り換えることが出来る。
キー「5」を切り換えることによって、ユーザが選択「開始」又は選択「中止」を選択する場合、そのモードが現在オン又はオフであるかによって、機能7728は拡大された選択のオン及びオフを切り換える。その後、機能7730は、拡大された選択がオフの状態に切り替えられたところかどうかを確認するために検証を行い、オフの状態に切り替えられた場合には、機能7732が、あるとすれば現在のカーソルで、それ以外の任意の以前の選択を非選択状態にする。説明された実施形態では、ナビゲーション・コントロール、及び、訂正ウインドウを提示するために使用されるキー「2」に近いことから、キー「5」が拡大された選択コマンドに対して選択された。
ユーザが、例えばキー「5」をダブルクリックすることによって、全選択コマンドを選択する場合、機能7736は現在の文書中のすべてのテキストを選択する。
ユーザがキー「6」、又は、再生開始、再生停止、又は、記録停止を含むことの出来る、任意の現在アクティブな状態の関連したコマンドを選択する場合、機能7740はシステムが現在音声を再生していないかを確認するために検証を行う。システムが音声を再生していない場合、機能7742は音声再生モードと音声がオフの状態でのモードを切り換える。システムが音声を再生している場合、機能7742は音声再生モードと音声再生がオフの状態でのモードとを切り換える。携帯電話が通話中であり、図75に示された「当方のみ再生」オプション7513がオフ・モードに設定された場合、機能7746は電話回線で再生から電話の会話の他方だけでなく、スピーカ又は携帯電話自体のヘッドフォンに音声を送信する。
一方、ボタン「6」が押下される際に、システムが音声を記録している場合、機能7750は記録をオフの状態に切り換える。
ユーザがキー「6」をダブルクリックする場合、又は、記録コマンドを入力する場合、機能7754は音声録音をオンの状態に切り換える。その後、機能7756は、システムが現在通話の状態にあるかどうか、及び、図75で示された「当方のみ録音設定」7511がオフの状態にあるかどうかを確認するために検証をする。これらの状態にある場合、7758は電話回線の他方からの音声と同様に、電話のマイク又はマイク入力ジャックからの音声を記録する。
ユーザがキー「7」を押下する場合、又は、そうでなければ、大文字化されたメニュー・コマンドを選択する場合、すべての後に続く入力されたテキストが、全て小文字、全て頭文字が大文字、全て大文字の内、何れかの状態になるモードから選択するための選択肢をユーザに与える大文字化されたメニューを機能7762が表示する。また、それによって、ユーザが一つ又は複数の現在選択された単語を、あるとすれば、全て半角、全て最初の文字が全角、又は、全て全角形式に変更することを選択することが出来る。
ユーザがキー「7」をダブルクリックする場合、又は、そうでなければ、全角サイクル・キーを選択する場合、現在の選択を、あるとすれば、全て最初の文字を全角、全て全角、又は全て半角に変更するために、全角サイクル・キーを1回又は複数回数呼び出すことが出来る。
ユーザがキー「8」を押下する場合、又は、そうでなければ、単語形式リストを選択する場合、機能7770は図27に関して上述された単語形式リスト・ルーチンを呼び出す。
ユーザがキー「8」をダブルクリックする場合、又は、単語タイプ・コマンドを選択する場合、7774は単語タイプ・メニューを表示する。単語タイプ・メニューによって、ユーザは、選択された単語に対して図26のフィルタ・マッチ・ルーチンに関して上述したように、単語タイプ限定を選択することが出来る。示された実施形態では、このメニューによって、単語の終了タイプ、単語の開始タイプ、単語の時制タイプ、音声の単語部分のタイプ、例えば、所有格又は非所有格、単数主格又は複数主格、単数動詞又は複数動詞、綴り又は非綴り、及び、存在するとすれば、同音異義語、などの他の単語タイプをユーザが特定することが出来る。図91に示された一般的名形式を有する階層メニューである。
図78に示されているように、ユーザがキー「9」を押下する場合、又は、基本キーのメニュー・コマンドを選択する場合、機能7802は、句読点記号の一つに関する入力、又は、テキスト入力としてそのメニューから選択可能な入力文字を、ユーザが選択可能な図73に示された基本キーのメニューを表示する。
ユーザがキー「9」をダブルクリックする場合、又は、改行コマンドを選択する場合、機能7806は改行文字をエディタのテキストに入力する。
ユーザがキー「*」又はエスケープ・コマンドを選択する場合、機能7810乃至7824が実行される。機能7810は、エディタが他のプログラムでテキストを入力又は編集するために呼び出されたかどうかを確認するための検証を行い、この場合、機能7812はそのプログラムへの挿入に対する編集されたテキストを用いて、その呼び出しから、エディタに戻る。エディタがそうした目的のために呼び出されなかった場合、機能7820はユーザにエディタから出る選択肢を用いて促し、その内容の保存、及び/又は、エスケープのキャンセルをする。ユーザがエスケープすることを選択する場合、機能7822及び7824は図63に関して上述された電話モードの最高レベルまでエスケープする。ユーザがキー「*」をダブルクリックする場合、又は、タスク・リスト機能を選択する場合、機能7828は、殆どの携帯電話、オペレーティング・モード、及びメニューに於いて、そうしたダブルクリックが行うように、タスク・リストに移動する。
ユーザがキー「0」を押下する場合、又は、編集・オプション・メニュー・コマンドを選択する場合、機能7832は図74に関して簡単に上述した編集されたオプション・メニューである。ユーザがキー「0」をダブルクリックする場合、又は、取り消しコマンドを選択する場合、機能7836はあるとすれば、エディタに於ける最後のコマンドを取り消す。
ユーザがキー「#」を押下する場合、又は、バックスペース・コマンドを選択する場合、機能7840は現在の選択があるかどうかを確認するために検証を行う。現在の選択がある場合、機能7842はそれを削除する。現在の選択が存在せず、現在の最小のナビゲーション・ユニットが文字、単語、アウトライン・アイテムである場合、機能7846及び7848は、その最小の現在のナビゲーション・ユニットによって、後方に削除する。
図79及び80は、図68に関して上述された入力モード・メニューによって提供されているようなオプションについて説明している。
このメニューの状態で、ユーザがキー「1」を押下する場合、そうでなければ、大語彙認識を選択する場合、機能7906乃至7914が実行される。 これらは、認識語彙を大語彙に設定する。それらは、キー「1」の押下を、認識持続目的に対する音声キーとして処理する。また、それらは、訂正ウインドウが表示されているかどうかを確認するための検証を行う。訂正ウインドウが表示されている場合、訂正ウインドウに於いてユーザがより適切な離散認識を望むという想定に基づいて、それらは認識モードを離散認識に設定する。それらは、任意の新しい発話、又は、このモードで受け付けられた発話を上述のタイプの発話リストに追加し、受け付けられた任意の再発話のための新しい訂正ウインドウを表示するために、図22の選択肢リスト・ルーチンを画面に呼び出す。
示された携帯電話の実施形態では、キー「1」は入力モード・メニューに於ける大語彙のために選択された。これは、それが最も一般的な認識語彙であるからであり、したがって、ユーザがエディタからキー「1」を2回クリックすることによって、それを簡単に選択する。第1クリックによって、入力モード・メニューが選択され、第2クリックによって、大語彙認識が選択される。
入力モード時に、ユーザがキー「2」を押下する場合、システムは上述のタイプの音名認識にセットされる。ユーザが訂正ウインドウの状態にある時点で、入力モード・メニューが表示された時、ユーザがそのキーをダブルクリックする場合、機能7926は、認識語彙を音名語彙に設定し、その認識の出力は曖昧なフィルタとして処理されるものであることを示す。好ましい実施形態では、メニューのキー「9」に関連した、入力優先オプションに基づいて、ユーザはそうしたフィルタが曖昧な長さのフィルタとして処理されるかどうかを示すことが出来る。デフォルト設定によって、そうした認識は連続音名認識に於ける曖昧な長さのフィルタ、及び、離散音名認識に対応して固定の長さの曖昧なフィルタとして処理される。
ユーザによるキー「3」の押下時に於いて、認識はアルファブラボ・モードに設定される。ユーザがキー「3」をダブルクリックする場合、図72に関して簡単に上述されているように、認識がキー「アルファ」モードに設定される。数字キー「2」乃至「9」の一つを押下することによって、ユーザが押下されたキーに於ける文字に関連するICA単語の一つを促され、比較的極端な雑音のある状態でさえも、極めて信頼できるアルファベット入力を提供するために、限られた一連のICA単語からの一つの単語を認識が支持することを除いて、このモードはアルファブラボ・モードに類似している。
ユーザがキー「4」を押下する場合、語彙が数字語彙に変更される。ユーザがキー「4」をダブルクリックする場合、システムは、エディタ・テキストに対応する数字を入力することによって、数字付与された電話キーの押下に対応する。
ユーザがキー「5」を押下する場合、認識語彙は句読点語彙に限定される。
ユーザがキー「6」を押下する場合、認識語彙は上述の連絡氏名語彙に限定される。
図86は、図72に関して有る程度上述した、キー・アルファ・モードについて説明している。図86に示されている通り、この記号が入力される場合、ナビゲーション・モードが通常、アルファベット入力に関連した単語/文字ナビゲーショ・モードにセットされる。その後、機能8604は、その下にリストアップされたキーを、それぞれのそうしたキーで識別された機能を用いてオーバーレイする。このモードでは、トーク・キーの押下によって、現在の認識設定に対してアルファブラボ語彙を有する認識をオンの状態にし、現在の認識持続設定に応じて、キー押下に対応する。キー「1」は、ユーザがキー・アルファ・モードを終了するために、それを押下することが出来るように、入力編集モードとして継続して動作する。数字が割り当てられた電話キー「2」乃至「9」を押下することによって、機能8618乃至8624が、そうした押下中に実行され、電話キーの文字に対応するICA単語のプロンプトが表示される。これにより、認識は、3つ又は4つのICA単語の一つに関する認識を相当指示する。それは、押下の持続時間に対して認識をオンの状態にし、認識されたICA単語に対応する文字をエディタのテキスト(エディタ・モードの場合)、又は、フィルタ文字列(フィルタ編集モードの場合)の何れかに出力する。
ユーザがゼロ・ボタンを押下する場合、ユーザがゼロ・ボタンを押下する場合、任意のキーに関連する一連の文字の一つで始まりる全ての句読点記号に関するスクロール可能なリストを表示することによって、機能8628は、関連する文字を有する任意の電話キーの押下に対応し、句読点単語の一つに関する認識を指示するキー句読点モードを入力する。
図87は、キー・アルファ・モードの代替実施形態について説明しており、該実施形態は、図87に於いて下線が引かれた擬似コードの一部を除いて、図86の実施形態と同一である。このモードでは、ユーザがトップ・ボタンを押下する場合、大語彙認識がオンの状態になるが、機能8608Aに於いて示されているように、それぞれの認識された単語の最初の文字だけが出力される。機能8618A及び8620Aが示すように、それに関連した3つ又は4つの文字の一式を有する電話キーをユーザが押下する場合、ユーザは所望の文字で始まる単語を発声することを促され、認識語彙は、キーの関連した文字の一つで始まる単語に相当限定されており、機能8624は、認識された単語に対応する最初の文字を出力する。
本発明の幾つかの実施形態では、限られた単語がアルファベットのそれぞれの文字に関連する第3代替キー・アルファ・モードを使用することができ、キーの押下中に、認識は、キーの関連した文字に関連した単語一式の一つに関する認識に相当限定される。そうした幾つかの実施形態では、5つ又は5未満の単語一式が、それぞれのそうした文字に関連することになる。
図89及び90は、エディタ及び訂正ウインドウ・モードでゼロ・ボタンを押下することによってアクセスされる、ソート編集オプションで使用可能な幾つかのオプションについて説明している。このメニューでは、ユーザがキー「1」を押下する場合、機能8902で示されているように、ファイル・オプションのメニューがユーザに提示される。ユーザがキー「2」を押下する場合、機能8904によって示されているように、例えば、殆どの編集プログラムで一般的な編集オプションのメニューがユーザに提示される。ユーザがボタン「3」を押下する場合、機能8906は、図68及び79に関して上述した入力モード・メニューに於いて、ボタン「9」を押下することによってアクセスされる、同一の入力優先メニューを表示する。
編集オプション・メニュー時に、ユーザがキー「4」を押下する場合、テキスト・音声(又はTTS)メニューが表示される。このメニューでは、キー「4」はTTSの再生のオン、オフを切り換える。現在の選択が存在し、このキーがTTSをオンの状態に切り換える場合、機能8916及び8918は、TTSに該選択を発声させる。但し、TTS、又は、単語「selection」の予め記録された発話がそれに先行することが好ましい。TTSがオンの状態に切り替えられた時に、選択が存在しない場合、現在の文書の最後まで、又は、ユーザが文書内にカーソル移動以外の入力を供給するまで、TTSは現在のカーソル位置で現在のテキストの発声を開始する。図99に関して下記に説明する通り、TTSモードがオンの状態では、携帯電話の画面を視認可能であることを要求せずに、システムの機能性の相当部分を使用可能にするために、ユーザは音声プロンプト及びテキストのTTS再生を提供される。
機能8924及び8926、そして、該機構がTTSオン・モード又はTTSオフ・モードの何れの状態であるかを問わず、ユーザが連続再生をオン、又は、オフの状態に切り換えることを許可する機能8928及び8930で示されているように、ユーザが現在の選択を再生したい場合は常に、TTSサブ・メニューには、ユーザが現在の選択を再生することを許可する選択肢も含まれる。8932の編集オプション・メニューに於いて、最高レベルの選択肢によって示されているように、キー「4」のダブルクリックは、ユーザがキー「4」を押下し、TTSメニューが表示されるのを待ち、その後、再びキー「4」を押下したかのように、TTSをオン、又は、オフの状態に切り換える。
編集オプション・メニューに於けるキー「5」は、拡大及び縮小ヘディング、及び、アウトライン・モードに於いて、ユーザにナビゲートさせる複数の機能を含むアウトライン・メニューを選択する。ユーザがキー「5」をダブルクリックする場合、システムは、エディタのカーソルが位置する現在のアウトライン要素を完全に拡大すること、及び、完全に縮小することを切り換える。
ユーザがキー「6」を選択肢、音声メニューがサブ・メニューとして表示される場合、図89及び90の組み合わせに於ける音声メニュー・アイテム8938に基づいて、表示されるオプションの幾つかが対象となる。この音声メニューは、図84及び70に関して上述された現在の編集メニューに於けるボタン「6」の使用によって提供される音声ナビゲーション・スピードに対して、ユーザに細かい制御をさせるキー「1」によって選択されたアイテムを含む。ユーザがキー「2」を選択する場合、例えば、音量やスピード、認識された言葉に関連した音声が再生される、及び/又は、認識された言葉に関連せずに音声記録されるかどうか、等の音声再生設定をユーザが呼び出すことを許可するサブ・メニューをユーザが視認する。
図90は上述の音声メニューに基づいて、キー「3」、「4」、「5」、「6」、「7」で選択されたアイテムで開始し、図89の数字8938で開始する。ユーザがキー「3」を押下する場合、認識された音声オプション・ダイアログ・ボックス9000が表示される。これは、数字9002乃至9014によって示されているように、現在の文書に於ける全ての音声を認識し、以前認識された音声が読んで認識されたかどうかを決定し、そうした認識の品質、及び、そうした認識に必要な時間を決定するためのパラメータを設定するために、エディタに於ける現在の選択に含まれた任意の音声に関して音声認識を実行することを選択するためのオプションをユーザに与える。機能9012で示されているように、このダイアログ・ボックスは、現在の品質設定で、現在の選択を認識するための推定値を供給し、選択を認識するためのタスクが現在実行されている場合には、現在のジョブに関するステータスを供給する。補助電源装置に接続されている時を含む、電話が他の目的で使用されていない時に、このダイアログ・ボックスによって、バックグラウンド・タスクとして、比較的多くの音声に対して認識をユーザが実行することが出来る。
ユーザが音声メニューでキー「4」を選択する場合、ユーザが現在の選択から特定の情報を削除することを選択可能なサブ・メニューがユーザに提供される。これは、認識された単語に関連しないすべての音声を削除すること、すべての音声を削除すること、所望の選択からテキストを削除することをユーザが選択することを許可することを含む。認識されたテキストから認識音声を削除することによって、そうしたテキストの記憶に関連したメモリが大いに削減され、その意図した意味を決定する支援をする、テキストに関連した音声をユーザが必要としないと決定した場合には、便利になることが多い。テキストが音声からの音声認識によって作り出された場合には、メディアの一部から音声ではなくテキストを削除することは便利であることが多いが、殆ど役に立たないかどうかは十分確かではない。
音声メニューでは、キー「5」が、例えば、それを理解することを支援するために使用可能な再生、又は、幾つかの実施形態では、代替の認識選択肢を生成可能な音響表現を有する再生を、そうしたテキストが有するかどうかを、ユーザが知ることを許可するために、下線を引くことによって、関連した認識オーディオを有するテキストが印をつけられているかどうかをユーザが選択することを許可する。
キー「6」は、認識音声が認識されたテキストに対して保持されるかどうかをユーザが選択することを許可する。多くの実施形態では、認識音声の記録がオフの状態にされたとしても、訂正再生目的で使用可能にするために、直前に認識された単語の幾つかの数字に対して、そうした音声は制限される。
音声メニューに於いて、記尾「7」は、転写モード・ダイアログ・ボックスを選択する。これにより、図94に関して下記に説明する転写モードで使用される設定をユーザが選択することを許可するダイアログ・ボックスが表示される。これは、ユーザが音声認識によって事前に記録された音声を容易に転写させるために設計されたモードである。
ユーザがキー「8」を押下する場合、機能9036は、あるとすれば、検索文字列として、現在の選択を用いて音声ダイアログ・ボックスを呼び出して、機能9036が実行される。如何に説明する通り、音声認識テキスト・エディタは、必要に応じて、異なる検索文字列を入力するために使用することが出来る。ユーザがキー「8」をダブルクリックする場合、これは、以前に入力された検索文字列に対して再び検索が行われる、再探索コマンドとして解釈される。
ユーザが編集オプション・メニューでキー「9」を選択する場合、語彙メニューが表示される。該語彙メニューによって、異なる語彙から選択し、所定の語彙に単語を追加するために、現在の語彙に単語が存在するかどうかをユーザが決定することが可能となる。編集オプション・メニューの状態で、ユーザが「0」ボタンを押下、又は、ダブルクリックの何れかを行う場合、取り消し機能が実行される。「0」のダブルクリックによって、エディタ、又は、訂正ウインドウから取り消し機能にアクセスするという事実と類似させるために、ダブルクリックによって、編集オプション・メニュー内から取り消し機能にアクセスする。編集オプション・メニューでは、数字記号キーは、やり直しボタンとして機能する。
図94はTTS再生ルールを説明している。これらは、図89の機能8908乃至8932に関して上述したTTSオプションによって、TTSの動作が選択された場合、TTSの生成の動作を規定するルールである。
機能1909で上述されているように、TTSメニューの状態で、キー「1」の動作によって、TTSキー・モードがオンの状態に切り替えられた場合、機能9404は、機能9406乃至9414を実行させる。これらの機能によって、例えばユーザが自動車を運転している時、そうでなければ忙しい時に、それらを視認出来ないように、安全に電話キーを選択することが出来る。このモードは、携帯電話の動作に関する任意のモードに於いて使用可能な音声認識エディタにおける動作に限定されないことが望ましい。任意の電話キーが押下される場合、機能9408は、例えば、4分の1秒、又は、3分の1秒などの短時間である、TTSキー時間内に同一のキーが押下されたかどうかを確認するために検証を行う。該検証の目的のために、同一キーの最後のキー押下を解除する時点から時間が計測される。同一キーが短い時間内に押下されなかった場合、機能9410及び9412は、TTS、又は、幾つかの実施形態では、録音された音声の再生、即ち、キー番号及び現在のコマンド名の発話を実行する。この音声フィードバックは、ユーザがキーの押下を継続する場合にのみ限り、継続される。キーがそれに関連したダブルクリック・コマンドを有する場合、ユーザがキーを十分長く継続して押下すれば、それは発話される。同一キーの最後のキー押下が解除されてからの時間が、TTSキー時間未満であることが機能9408の検証によってわかった場合、携帯電話のソフトウェアは、TTSキー・モードがオンの状態ではなかった場合と同じように、任意のダブルクリックを含む、キーの押下に対応する。
したがって、TTSキー・モードは、ユーザが接触によって携帯電話のキーを見つけることと、それが所望のキーであるかを決定するために、それを押下することと、所望のキーであれば、キーの所望の機能を達成するために、1回又は複数回、再びそれを迅速に押下することを許可することが分かる。機能9410及び9412によって対応されるキーの押下は、その関連した機能に関する発話以外に、何ら対応を起こさないので、このモードによって、ユーザは任意の所望ではない結果を引き起こすことなく、所望のキーを検索することが出来る。
幾つかの携帯電話に関する実施形態では、携帯電話キーは押下されるというよりは、単に接触されるように設計されており、それらが何れかのキーであるのかという音声フィードバック、及び、機能9412によって提供された機能に類似する現在の機能が提供される。例えば、電話キーの物質を、伝導性物質で構成させること、又は、ユーザの体を介してキーに伝導された場合に、それらのキーから分離された電話の他の部分に、キーに関連した電気回路によって検出可能な電圧を生成させることによって、これを提供することが出来る。そうしたシステムを用いて、略所望のキーでキーパッドに対して指をスキャンすることのみによって、ユーザがどのキーに接触しているかに関して、ユーザがフィードバックを受けることが出来るので、このシステムは、ユーザが所望のキーを接触によって見つけるためのより早い方法を提供する。また、それによって、所望のコマンドが見つけられるまで、連続するキーに対するユーザの指を同様にスキャンすることにより、所望のコマンド名をユーザが迅速にスキャンすすることが出来る。
TTSがオンの状態の時、システムがコマンド入力を認識する場合、又は、そうでなければコマンド入力を受け付ける場合、機能9416及び9418によって、TTS又は記録された音声再生は認識されたコマンド名を発話する。コマンドのそうした音声確認は、例えば、異なる声のトーンや異なる関連した音の形式で、認識されたテキストの発話からコマンド単語の発話を区別する、関連した音質を有することが望ましい。
TTSがオンの状態で、テキスト発話が認識された場合、機能9420乃至9424は発話の最後及び認識の完了を識別することができ、その後、発話に対する第1選択肢として認識された単語を発声するために、TTSを使用する。
機能9426乃至9430で示されているように、TTSは類似の方法でフィルタリング発話の認識に対応する。
TTSモードの状態で、ユーザが新しい単語又は文字を選択するためにカーソルを移動させる場合、機能9432乃至9438は、新たに選択された単語又は文字を発声するためにTTSを使用する。新しいカーソル位置に関する発声の後に、新しい単語又は文字の位置にカーソルをそのように移動させることは、すでに開始された選択を拡大する場合、機能9436及び9438は、認識されたテキストの一部ではないことを示す方法で、単語「selection」を発声し、その後、現在の選択の単語の発声を進める。ユーザがカーソルを、例えば図76の機能7614及び7615に関する上記説明のように。非選択カーソルに移動させる場合、図94の機能9940及び9942は、カーソルが間に置かれた2つの単語を発声するために、TTSを使用する。
TTSモードの状態で、新しい訂正ウインドウが表示される場合、機能9444及び9446は、訂正ウインドウに於ける第1選択肢を発声するためにTTSを使用し、あるとすれば、それのどの部分が非曖昧で、どの部分が曖昧であるかを示す現在のフィルタを一掃し、その後、選択肢リストの現在表示された部分に於いてそれぞれの候補を発声するためにTTSを使用する。速さを目的とする場合には、フィルタのどの部分が完全、又は、曖昧であるかを示すために、トーン又は音に於ける相違が使用されることが最良である。
ユーザが訂正ウインドウでアイテムをスクロールする場合、機能9448及び9450は、それぞれのそうしたスクロールに対応して、現在強調表示された選択肢、及び、その選択数字を発声するためにTTSを使用する。ユーザが訂正ウインドウでページをスクロールする場合、機能9452及び9454は、新たに表示された選択肢を発声し、現在の強調表示された選択肢を示すために、TTSを使用する。
訂正モードの状態で、ユーザがメニューを入力する場合、機能9456及び9458は、現在のメニューの名前、メニューに於けるすべての選択肢、現在の選択位置を示すそれらの関連した数字を発声するために、TTS又は自由に記録された音声を使用する。発声される単語がメニュー・オプションであることをユーザに示す、音声合図を用いて、これを実行することが望ましい。
ユーザがメニューに於いてアイテムを上下スクロールする場合、機能9460及び9462は、強調表示された選択肢、そして、その後の短い一時停止の後、メニューの現在表示されたページに於ける任意の後に続く選択を発声するために、TTS又は予め記録された音声を使用する。
図95は、TTS生成に於いて使用されるプログラミングの幾つかの特徴を説明している。TTSによって生成される言葉が、発音通りに綴られた単語に関する音声認識プログラミングの語彙に存在する場合、機能9502によって、機能9504乃至9512が実行される。機能9504は、単語が音声の異なる部分に関連した複数の表音的綴りを有するかどうか、及び、TTSを使用して設定される単語が音声の現在の部分を含む現在の言語文脈を有するかどうか、を確認するための検証を行う。これらの条件が両方とも満たされる場合、機能9506は、現在の単語に対するTTS生成に於ける表音的綴りとして、音声表示コードの一部によって最も検出される音声の一部に関連した表音的綴りを選択するために、音声表示コードに関する音声認識プログラミングの一部を使用する。反対に、単語に関連した表音的綴りが一つだけ存在する場合、又は、単語に対して音声の最もありそうな部分を識別するための十分な文脈が存在しない場合、機能9510は単語に対する単一の表音的綴り、又は、最も一般的な表音的綴りを選択する。機能9506又は機能9510の何れかで生成される単語に対して、表音的綴りが一旦選択された場合、機能9512はTTS生成で使用される表音的綴りとして、単語に対して選択された表音的綴りを使用する。9514で示されているように、TTSで生成される単語が表音的綴りを有していない場合、機能9514及び9516は、表音的綴りを氏名、及び、単語のTTS生成に対して新たに入力された単語に割り当てるために、音声認識手段によって使用される発音推測ソフトウェアを使用する。
図96は、図89及び90に示された編集・オプション・メニューの音声メニューに基づいて、図90の数字「7」に関連して、上述された編集オプション・メニューの音声メニューに基づいて作動される転写モード・ダイアログ・ボックスの動作によって選択することが出来る、転写モードの動作を示している。
転写モードが入力される場合、機能9602は通常、ナビゲーション・モードを前後方向に5秒ナビゲートし、左右のナビゲーション・キー・入力に対応して音声記録をナビゲートし、下方向のナビゲーション・入力に対応して前後方向に1秒ナビゲートする、音声ナビゲーション・モードに変更する。これらはデフォルト値であり、転写モード・ダイアログ・ボックスに於いて変更可能である。このモード中に、ユーザが再生キー、即ち、エディタのキー「6」をクリックする場合、機能9606乃至9614が実行される。機能9607及び9608は、再生のオン、オフを切り換える。再生がオンの状態に切り替えられる場合、機能9610は機能9612を実行させる。その場合、最後に音が再生された時からサウンド・ナビゲーションがなかったのであれば、機能9614は再生の最後の前の設定時間に再生を開始する。これが実行され、その結果、ユーザが転写を実行している場合、それぞれの連続する再生が、最後の再生が終了する僅か前に開始されるので、ユーザは以前の再生に於いて部分的に発話されただけである単語を認識することができ、また、以前の言語文脈の僅かな部分を知覚可能であることによって、ユーザは発話音声を単語としてより上手く解釈することができる。ユーザが特定期間を超える時間、例えば、3分の1秒を超える時間、再生キーを押下する場合、機能9616は機能9618乃至9622を実行させる。これらの機能は、再生がオンの状態かどうかを確認するために検証を行い、オンの状態であればオフの状態に切り換える。また、これらの機能は、該押下中に、現在の設定に応じて、連続モード又は離散モードの何れかのモードで、大語彙認識をオンの状態にする。その後、これらの機能は、認識されたテキストを再生の最後が実行された場所で転写されている音声に於ける位置にあるエディタに挿入する。ユーザが再生ボタンをダブルクリックする場合、機能9624及び9626は、転写モードに於いて音声記録は使用可能ではなく、転写モードは、追加されたオプション・メニューに基づいて、音声メニューでオフの状態にすることが出来るということを、ユーザに示唆する。
その転写モードによって、ユーザは、再生キー、即ち、電話キー「6」をクリックすることと、押下し続けることを単に交互に行うことにより、以前記録された音声の一部を再生することと、その後音声認識の使用によって転写することを、交互に行うことが出来るということがわかる。ユーザは、転写プロセス中に、認識に於いてなされた間違いを訂正するために、エディタの他の機能性を自由に使用し、その後、転写される音声の次のセグメントを再生するために、キー「6」を再び押下することによって、単に自由にそれに戻る。言うまでもなく、当然のことながら、ユーザは音声から文字通り転写することを望んでいない場合も多い。例えば、ユーザは、電話の一部を再生し、より特筆すべき部分の要約を単に転写する場合もある。
図97は、ユーザがテキスト及び他の情報を携帯電話の画面に表示されたダイアログ・ボックスに入力可能にするために、上述したエディタ・モードの多くの特徴を使用するダイアログ・ボックス・エディティング・プログラミングの動作を説明している。
ダイアログ・ボックスが最初に入力される場合、機能9702はダイアログ・ボックスの第1部分を示すエディタ・ウインドウを表示する。ダイアログ・ボックスが一度に一つの画面に適合しないほど大きい場合には、スクロール可能なウインドウに表示される。機能9704によって示されているように、ダイアログ・ボックスは、機能9704乃至9726によって示されていることを除いて、図76乃至78に関連して上述されたエディタ・モードが行う方法と同一方法で、すべての入力に対応する。9707及び9708で示されているように、ダイアログ・ボックスにある状態で、ユーザがナビゲーション入力を供給する場合、通常、カーソルはユーザが入力を供給可能な制御にのみ移動可能であることを除いて、カーソルの移動はエディタにある場合と同様の方法で対応する。したがって、ユーザが単語の左右何れかに移動した場合、カーソルは次のダイアログ・ボックス・コントロールの左右何れかに移動し、そうしたコントロールを検出することが必要であれば、ラインを上下に移動する。ユーザがラインを上下何れかに移動指せる場合、カーソルは現在のカーソル位置の上下何れかの最も近いラインに移動する。任意のコントロールを含んでいない可能性のあるテキストの拡大部分をユーザが判読可能にするために、カーソルは、通常、1ページ以内にコントロールがない場合でさえも、1ページ以上移動することはない。
機能9700乃至9716で示されているように、カーソルがフィールドに移動され、ユーザがエディタにテキストを入力する種類の任意の入力を供給する場合、機能9712は、あるとすれば、現在そのフィールドにテキストを表示するフィールドに対して個別のエディタ・ウインドウを表示する。フィールドがそれに関連した任意の語彙制限を有する場合、機能9714及び9716は、エディタに於ける認識をその語彙に限定する。例えば、フィールドがステート名に限定された場合、そのフィールドでの認識はそのように限定される。このフィールド・エディティング・ウインドウが表示される限り、機能9718は、すべてのエディタ・コマンドに、その中での編集を実行するように命令する。ユーザは、OKを選択することにより、その時点で、現在ウインドウにあるテキストを、ダイアログ・ボックス・ウインドウの対応するフィールドに入力する、このフィールド編集ウインドウを終了することが出来る。
ダイアログ・ボックスにあるカーソルが選択肢リストに移動され、ユーザがテキスト入力コマンドを選択する場合、機能9722は、第1選択肢、及び、スクロール可能な選択肢リストに表示された他の使用可能な選択肢としてリスト・ボックスに表示された他のオプションとして、リスト・ボックスにある現在の値を示す訂正ウインドウを表示する。この特別の選択肢リストに於いて、スクロール可能なオプションは、関連する数字を選択することによってアクセス可能なだけでなく、それらのオプションに限定された語彙を使用する音声認識によって使用可能である。
カーソルがチェック・ボタン又はラジオ・ボタンにあり、ユーザが任意のエディタ・テキスト入力コマンドを選択する場合、機能9724及び9726はチェック・ボックス又はラジオ・ボタンの選択を切り換えることによって、チェック・ボックス又はラジオ・ボタンの状態を変更する。
図98はヘルプ・ルーチン9800を説明しており、これは、PDAに関する実施形態に於いて図19に関して上述したヘルプ・モードの、携帯電話に関する実施形態と類似する実施形態である。携帯電話が所定の状態又は動作モードの時に、このヘルプ・モードが呼び出される場合、機能9802は、ヘルプ・オプション、及び、全ての状態のコマンドに関する選択可能なリストと共に、状態の既述を含む状態に対して、スクロール可能なヘルプ・メニューを表示する。図99は図67及び図76乃至78に関して上述したエディタ・モードに対して、そうしたヘルプ・メニューを表示する。図100は、図68、79、80に関して上述した入力モード・メニューに対する、そうしたヘルプ・メニューについて説明している。図99及び100に於いて示されているように、それらのヘルプ・メニューのそれぞれは、スクロール可能な強調表示、及び、ヘルプ・キーの動作に関する手段によって選択することが可能で、ヘルプ・メニューの様々な部分、及び、他のヘルプ関連機能にユーザが即座にジャンプすることを許可する、ヘルプ・オプション選択を含む。また、それぞれのヘルプ・メニューは、携帯電話の現在のコマンド状態に関する短いステートメント、即ち、9904を含む。また、それぞれのヘルプ・メニューは、携帯電話によってアクセス可能な全てのオプションをリストアップする、スクロール可能で、選択可能なメニュー9906を含む。また、それは、ヘルプ機能の仕様方法、及び、幾つかのケースでは現在のモードで使用可能な画面の異なる部分の機能に関するヘルプに関する既述を含む、他のヘルプ機能にユーザがアクセスすることを許可する機能9908を含む。
図101に示されているように、エディタ・モードでユーザが10100で示されたメニュー・キーを継続して押下する場合、ヘルプ・モードがエディタ・モードに対して入力され、携帯電話に画面10102を表示させる。これは、選択可能なヘルプ・オプション、即ち、オプション9902を表示し、図99に示されているように、他のモード9900の動作に関する短い既述の先頭を表示する。ページ右ボタンとして機能する、携帯電話の右矢印キーをユーザが押下する場合、画面1102に示された文字「<P^L」によって示されているように、ヘルプ・モードではナビゲーション・モードがページ/ライン・ナビゲーション・モードであるので、画面10104で示されているように、ディスプレイはページを下方向にスクロールする。ユーザがページ右キーを再び押下する場合、画面は再び下方向にスクロールし、これにより、画面が10106で示された状態となる。この例では、ページ右キーを2回クリックするだけで、図99に示されたエディタ・モード9904の機能の要約をユーザは読むことが出来る。
ユーザがページ右キーをクリックし、画面写真10108で示されているように、再び画面にページを下方向にスクロールさせる場合、エディタ・モードに関連したコマンド・リストの先頭を見ることが出来る。ユーザは、必要に応じて、ヘルプ・メニューの全長をスクロールするために、ナビゲーション・キーを使用することが出来る。示された例では、ユーザが入力モード・メニューに関連したキー・ナンバーを見つける場合、画面10112に示されているように、ヘルプ・モードに入力モード・メニューに関連したヘルプ・メニューを表示させるために、10110で示されているようにキーを押下する。
当然のことながら、ユーザがヘルプ・メニューの状態にある場合、キーの押下に関連したコマンドを作成することによって、図99に示された「キーによって選択された」ライン9910に基づいて、リストアップされたコマンドを直ちに(文章の一部が欠落)出来る。したがって、機能を確認するために、コマンドに関連したキーを押下するために、コマンドがリストアップされたヘルプ・メニューの一部を、ユーザが下方向にスクロールする必要はない。事実、キーに関連した機能を理解していると考えているユーザは、メニュー・キーを単に継続して押下することができ、その後、機能の短い説明、及び、それに基づいて使用可能なコマンドのリストを確認するために、所望のキーを打ち込むことが出来る。
図99及び100に示された「OKによって選択」ライン9912に基づいてリストアップされたコマンドは、メニューのコマンドに対して強調表示をスクロールすること、及び、OKコマンドの使用によって選択することによって、収集されなければならない。これは、ライン9912の下にリストアップされたコマンドが、ヘルプ・メニュー自体の動作に於いて使用されるキーに関連しているからである。このことは、コマンド・リストに於いてOKコマンドとの選択によってのみ選択可能であり、図75に示されたエディタ・モード・コマンド・リストの画面7506にリストアップされたコマンドに類似している。
図101の例では、ユーザは入力優先メニューが入力モード・メニューに於ける「9」を押下することによって選択可能であることを理解しており、10114によって示されているように、入力モード・メニューに対して、ユーザがヘルプを入力するとすぐに、そのキーを押下することが想定されている。これにより、10116で図示されているように、入力優先メニューに対するヘルプ・メニューが表示される。
この例では、ユーザはエスケープ・キーを受けて、キー「1」を押下する。キー「1」は、ディクテーション・デフォルト・オプションに対するヘルプ・メニューを一時的に呼び出し、エスケープ・キーは、その位置にある入力優先メニュー、及び、画面10118で示されているように、ディクテーション・デフォルト・オプションに関連したメニューに戻る。エスケープで続けられるキー・オプションのそうした選択によって、ユーザは、ヘルプ・メニューのコマンド・リストの所望の部分に、即座にナビゲートすることが可能となり、これは、エスケープで続けられたコマンド及びリストのその部分に於けるキー番号を単に押下することで可能となる。
この例では、画面1122で示されているように、コマンド・リストに於いてページを下方向にスクロールするために、10120で示されているように、ユーザがページ右キーを押下する。この例では、発話オプションに対する連続押下、又は離散クリックに関する記述を獲得するために、10124で示されているように、そのキーを押下することによって、ユーザはキー「5」に関連したオプションを選択することが想定されている。これにより、画面10126に示されているように、そのオプションに対してヘルプ・メニューが表示される。この例では、このオプションの機能に関する短い既述を読むために、ユーザはあと2つ画面を下方向にスクロールし、その後、画面10130で示されているように、入力優先メニューに対するヘルプ・メニューに戻るために、10128で示されたエスケープ・キーを押下する。
図102に示されているように、この例では、ユーザが入力優先メニューに対するヘルプに戻る際に、数字1200で示されているようにキー「4」を選択し、これにより、画面10202で示されているように、発話終了オプションに対する押下及びクリック中に、ヘルプ・メニューを表示する。そして、ユーザは、機能を理解するために、このモードに関する十分な記述を読むために、あと2つ画面を下方向にスクロールし、そして、10204で示されているように、画面10206に示された入力優先メニューに対するヘルプまでエスケープで戻る。そして、入力優先メニューが呼び出され、画面10210で示されているように、入力モード・メニューに対するヘルプである、ヘルプ・メニューに戻るために、ユーザは再びエスケープを押下する。入力モードに対するヘルプが呼び出され、画面10214に示されているように、エディタ・モードに対するヘルプ・メニューである、ヘルプ・メニューに戻るために、ユーザは再びエスケープを押下する。
この例では、ユーザが、エディタ・モードに対するヘルプ・メニューに関する図99に示された、ボタン部分9908を下方向にスクロールするために、ページ右キーを6回押下することが想定されている。ユーザは、必要に応じて、より迅速にヘルプ・メニューのこの部分に於けるオプションにアクセスするために、プレイス・コマンドを使用することが出来る。ヘルプ・メニューの「他のヘルプ」部分では、画面10222に示されたエディタ画面オプション10224を選択するために、10220で示されているように、ユーザはライン下ボタンを押下する。この時点で、ユーザは、画面10228に示されているように、エディタ画面自体に対するヘルプを表示させるOKボタンを選択する。この画面が表示されるモードでは、電話キー番号インジケータ10230は、エディタ画面の一部をラベル付けするために使用される。ユーザがこれらの関連した電話番号を押下する場合、画面に対応箇所に関する記述が表示される。図102の例では、ユーザはキー「4」を押下し、これにより、エディタ画面ヘルプ画面10227の一番上に表示されるナビゲーション・モード・インジケータ「<W^L」の機能を説明する、エディタ画面ヘルプ画面10234が表示される。
この例では、数字10236に示されているように、ユーザはエスケープ・キーを3回押下する。3回の押下の内、1回目の押下によって、画面10234から画面10228に逃れ、表示される画面の数字を割り当てられた部分の他の部分に関する説明を選択するためのオプションをユーザに提示する。この例では、ユーザはそうした他の選択を行うことに関心はなく、エスケープ・キーの1回目の押下に続いて、さらに2回素早く押下している。この内、最初の押下によって、エディタ・モードに対するヘルプ・メニューまで逃れ、2回目の押下によって、エディタ・モードそれ自体まで逃れる。
図101及び102からわかる通り、ヘルプ・メニューの階層的動作によって、ユーザは携帯電話に於けるコマンド構造を素早く探索することが出来る。これは、所望の機能を実行するコマンドのサーチを行うことと、線形順のコマンド構造を単に確認することのために使用することが出来る。
図103及び104は、エディタ・モードに於いて、ユーザが連続して幾つかの音声をディクテーションし、その結果のテキスト・出力を訂正するためにエディタのインターフェイスを使用する例を説明している。
この連続は、103に於いて、ユーザが発話10302を発声する間に、10300で示されているように、トーク・ボタンを押下し続けることで始まる。これは、この発話に関する認識に終わり、これにより、この例では、画面10304に表示されたテキストを、エディタのテキスト・ウインドウ10305に表示させる。数字10306は、連続ディクテーションの最後に於いて非選択カーソルである、この認識されたテキストの最後に於けるカーソルの位置を指し示している。
大語彙連続音声認識を使用して、発話が認識されるモードに於いて、システムが設定されることが想定されている。このことは、画面10304で示されたエディタ・ウインドウのタイトル・バーに於ける文字「_LV」によって示されている。
この例では、ユーザは図70及び80で説明された、追加されたナビゲーション・メニューにアクセスするために、ユーザがキー「3」を押下し、その後、それらの図に示された発話オプションを選択するために、ボタン「1」を押下する。これにより、カーソルは、画面10310に於ける10308で示されているように、直近の発話に対して認識されたテキストの最初の単語に対応する。次に、図77に記載された大文字化サイクル機能を選択するために、ユーザはキー「7」をダブルクリックする。これにより、10312で示されているように、選択された単語は大文字表記される。
次に、ユーザは、現在の単語/ライン・ナビゲーション・モードに於いて、ナビゲーション・モード・インジケータ10314で示されているように、単語右ボタンとして機能する右ボタンを押下する。これにより、カーソルは右10316の次の単語に移動する。次に、ユーザは図77の機能7728乃至7732に関して上述したように、拡大された選択モードにエディタを設定するために、キー「5」を押下する。その後、ユーザは単語右ボタンを押下し、これにより、カーソルはテキスト「got it」を含めるために、単語10318及び拡大された選択10320に移動する。
次に、ユーザは図77の選択肢リスト・コマンドを選択するために、キー「2」を押下し、これにより、訂正ウインドウ10322は第1選択肢として選択10320に対して表示され、10324で表示されているものとして示された第1アルファベット順選択肢リストと共に表示される。この選択肢リストでは、それぞれの選択肢は、それを選択するために使用可能な関連した電話キー番号と共に表示される。
この例では、所望の選択肢が第1選択肢リストに表示されず、所望の単語「product」が位置する、10328で示された第2アルファベット順選択肢リストの第3画面に下方向にスクロールするために、ユーザが右ボタンを3回押下することが想定されている。
図77に於ける機能7706によって示されているように、ユーザが選択肢リスト・ボタンを1回押下することで、訂正ウインドウを入力する場合、画面10332で示されたナビゲーション・モード・インジケータ10326によって示されているように、訂正ウインドウのナビゲーションは、ページ/アイテム・ナビゲーション・モードに設定される。
この例では、ユーザは所望の選択肢を選択するために、キー「6」を押下し、これにより、カーソル選択の位置でエディタのテキスト・ウインドウにそれが挿入され、10330で示されているように、エディタ・テキスト・ウインドウが表示される。
次に、ユーザは位置10332にカーソルを置くために、単語右キーを3回押下する。この場合、認識された単語は「results」であり、所望の単語は、単語「result」の単数形である。このため、ユーザは単語形式リスト・ボタンを押下し、これにより、その表示された選択肢の一つとして所望の代替形式を有する、単語形式リスト訂正ウインドウ10334を表示させる。ユーザ・データはその関連した電話キーを押下することによって、所望の選択肢を選択し、エディタのテキスト・ウインドウを10336で示された状態にする。
図104に示されているように、ユーザはカーソルを位置1400に向かって下方向に移動するために、ライン下ボタンを押下する。その後、ユーザは拡大されたセクションを開始するために、キー「5」を押下し、位置10402まで1単語分右にカーソルを移動させるために単語キーを押下し、現在の選択10404を右側に1単語分拡大させる。
次に、ユーザは、図77に置いて機能7712乃至7716に関して上述したフィルタ選択肢オプションを選択するために、キー「2」をダブルクリックする。下矢印10406によって示されているように、キー「2」の2回目のクリックは、延長されたクリックである。この延長された押下中に、ユーザは、所望の単語「painstaking」の最初の文字である、文字列「p、a、i、n、s、t」を連続して発話する
この例では、訂正10412のタイトル・バーに於ける文字「abc」によって示されているように、訂正ウインドウが連続音名認識モードの状態である。
この例では、フィルタとしての発話10408の認識により、訂正ウインドウ10412は音名の連続して発話された文字列の認識からの認識結果に対応する曖昧な長さのフィルタに対して、フィルタ処理された選択肢一式を表示する。訂正ウインドウは、曖味なフィルタ要素に関連した文字の連続の一つで始まる第1選択肢10414を有する。曖昧なフィルタに関連した文字の連続に対応する第1選択肢の一部は、曖昧なフィルタ・インジケータ10416によって示される。フィルタ・カーソル10418は、第1選択肢のこの部分の最後の後の位置に置かれる。
この時点で、ユーザは、図81に於ける機能8124及び8126の動作のために、フィルタ・カーソルを移動させ、現在の単語の第1文字10420を選択させる単語右キーを押下する。図81の機能8151及び8162は、フィルタ文字選択肢ウインドウ10422を表示させる。所望の文字は「p」であるので、ユーザはそれを選ぶためにキー「7」を押下し、これにより、その文字はフィルタ文字列の非曖昧な文字となり、フィルタに於けるその変更の結果として、新しい訂正ウインドウ10424が表示される。
次に、ユーザは文字ダウン・ボタンを4回押下し、これにより、図81に於ける機能8150の動作のために、フィルタ・カーソルの選択が、この例では文字「f」10426である第1選択肢に於いて、右側に4文字移動される。これは、曖昧なフィルタ・マーカ10428によって示されているとして、フィルタ強度の曖昧な部分にそれでも対応する第1選択肢の一部であるので、図示されているように、図81のライン8152に於けるフィルタ文字選択肢への呼び出しによって、他の文字選択肢ウインドウが表示される。
この例では、所望の文字、即ち、文字「s」は選択肢リストに於ける電話キー「5」に関連しており、ユーザは訂正文字10430を現在のフィルタ強度に挿入し、数字10432で示されているように、その前の全ての文字を、非曖昧に確認するために、そのキーを押下する。
この時点で、正しい選択肢が電話キー「6」に関連して表示され、10434で示されているように、所望の単語をエディタのテキスト・ウインドウに挿入するために、ユーザは電話キーを押下する。
次に、この例では、10436で示されたテキスト「period」を選択する目的で、カーソル選択を1ライン分下に移動させ、右側に移動させるために、ライン下キー及び単語右キーを押下する。その後、ユーザはキー「8」、又は、単語形式リスト訂正ウインドウ10438を表示させる単語形式リスト・キーを押下する。所望の出力、即ち、ピリオド記号は、電話キー「4」に関連している。ユーザはそのキーを押下し、所望の出力を10440で示されたエディタ・ウインドウのテキストに挿入させる。
図105は、図81に関して上述した機能8132及び8135の動作によって、ユーザが選択肢リストをどうのように水平方向にスクロールすることが出来るかを説明している。
図106は、どのようにしてキー・アルファ認識モードをエディタのテキスト・ウインドウにアルファベット入力を入力するために使用することが出来るかを説明している。画面10600は、カーソル10602が表示されやエディタ・テキスト・ウインドウを示している。この例では、ユーザは図79及び68に関して上述した入力モード・メニューを開くために、キー「1」を押下し、その結果、画面10604の状態となる。このモードでは、図79の機能7938に関して上述されたキー・アルファ認識モードを選択するために、ユーザはキー「3」をダブルクリックする。これにより、システムは図86に関して上述されたキー・アルファ・モードにセットされ、エディタ・ウインドウは図106に示されたプロンプト10606を表示する。
この例では、10608で示されているように、ユーザは電話キーを延長して押下し、これにより、プロンプト・ウインドウ10610は、押下された電話キーに関してそれぞれの文字に関連したICA単語を表示する。それに応じて、ユーザは発話「charley」10612を行う。これにより、対応する文字「c」が、カーソルの前の位置で、テキスト・ウインドウに入力され、テキスト・ウインドウは画面10614に示された状態となる。
この例では、10616に示されているように、ユーザが2つのICA単語、即ち、「alpha」及び「bravo」を連続して発話する間に、トーク・キーを押下することが、次に想定されている。これにより、画面10618で示されているように、それら2つのICA単語に関連した文字「a」及び「b」が、そのカーソル位置で、テキスト・ウインドウに入力される。次に、この例では、ユーザはキー「8」を押下し、そのキーに関連した3つのICA単語の一つを発話することを促され、0620で示されているように、エディタのテキスト・ウインドウに文字「u」を挿入させるために、単語「uniform」を発話する。
図7は、アルファベット・フィルタリング入力を入力するために使用される同一のキー・アルファ認識モードについて説明している。図106で示されているように、テキスト・エディタから入力可能な方法と同一方法で、キー「3」のダブルクリックが後に続けられる、キー「1」の押下によって訂正ウインドウの状態にある場合、キー・アルファ・モードを入力することが可能であることを図7は示している。
図106及び109は、携帯電話に関する実施形態に於いて、テキスト及びEメールのアドレス指定、入力、及び、訂正を行うために、ユーザがどのように上述された音声認識テキスト・エディタのインターフェイスを使用することが出来るかを示している。
図108に於いて画面10800は、図66で説明されているように、ユーザがメイン・メニュー時にキー「4」をダブルクリックすることによってEメール・オプションを選択する場合に、ユーザがアクセスする、Eメール・オプション画面を示している。
示された例では、ユーザが新しいEメールのメッセージを作成しようと考えており、このためオプション「1」を選択することが想定されている。これにより、新しいEメール・メッセージ・ウインドウ10802は、そのウインドウに於ける第1編集可能位置に於かれたカーソルと共に表示される。これは、メッセージのア受信者に関連したEメール・メッセージの部分に於ける第1文字である。この例では、ユーザはトーク・ボタンを延長して押下し、数字10804で示されているように、名前「Dan Roth」を発話する。
この例では、これにより僅かに間違った名前「Stan Roth」が10806で示されているメッセージの受信者ラインに挿入される。ユーザは、選択に対して、選択肢リスト10806を選択するために、キー「2」を押下することで対応する。この例では、所望の名前が選択肢リストに表示されており、ユーザはそれを選択するためにキー「5」を押下し、所望の名前が10808に示されている受信者ラインに挿入される。
次に、画面10810に示されているように、題名ラインの最初にカーソルを下方向に移動させるために、ユーザはライン下ボタンを2回押下する。その後、発話「cell phone speech interface」10812を発声する間に、ユーザがトーク・ボタンを押下する。この例では、この発話が「sell phone speech interface」として、僅かに誤って認識され、Eメール編集ウインドウを10814で示された状態にするために、このテキストが題名ラインに於けるカーソル位置に挿入される。それに応じて、ユーザはカーソル選択を位置10816に置くために、ライン上ボタン及び単語左ボタンを押下する。その後、ユーザは単語形式リスト訂正ウインドウ10818を表示させるために、キー「8」を押下する。この例では、所望の出力がキー「4」と関連しており、ユーザは該キーを押下し、画面10820に示されているように、所望の出力をカーソルの位置に置く。
次に、画面10822に示されているように、Eメール・メッセージの本文の最初にカーソルを置くために、ユーザはライン下ボタンを2回押下する。これが実行されると、ユーザは、「the new Elvis interface isworking really well」という発話を連続して発声する間、トーク・ボタンを押下する。これにより、画面10824によって示されているように、幾分間違って認識された文字列「he knew elfish interface is working really well」が、カーソル位置に挿入される。
これに対応して、図199の画面10900によって示された位置にカーソルを置くために、ユーザはライン上キーを1回押下し、単語左キーを2回押下する。その後、拡大選択を開始するために、ユーザはキー「5」を押下し、カーソルを位置10902に置き、10904によって示されているように、選択を拡大させるために、単語左キーを2回押下する。この時点で、現在の選択に対して、訂正ウインドウ10906を入力するために、ユーザはキー「2」をダブルクリックし、その押下中に、文字「t、h、e、space、n」を連続して発声する。これにより、連続して入力された音名文字の連続に対応する非曖昧フィルタ10910と共に、新しい訂正ウインドウ10908が表示される。
次に、数字10912によって示されているように、フィルタ・カーソルを次の単語の第1文字の右側に移動させる単語右キーを押下することで入力が行われる。その後、入力モード・メニューを入力するためにキー「1」を押下し、アルファブラボ入力語彙、又は、ICA単語入力・語彙を選択するために、キー「3」を押下する。 キー「3」を連続して押下する間、ユーザは連続発話10914、即ち、「echo、lima、victor、sierra」を発声する。この発話は、訂正ウインドウ10916の第1選択肢ウインドウに挿入され、以前のフィルタ・カーソル位置で始まる、検出配列「ELVIS」として認識される。示された例では、アルファブラボ認識がその信頼性から、非曖昧なものとして処理され、画面10916に示された非曖昧な確認表示10918によって示されているように、入力された文字、及び、第1選択肢ウインドウに於けるそれの前の全ての文字を、非曖味に確認されたものとして扱うことを想定している。
この例では、現在の第1選択肢が所望の出力であるので、現在の第1選択肢を選択するためにユーザはキー「OK」を押下する。
図110は、再発話を所望の認識出力の獲得を支援するために、どのように使用することが出来るかを説明している。それは、画面10906及び図109によって示されたように、同一状態に於ける訂正ウインドウで始まる。しかし、図110の例では、ユーザはキー「1」を2回押下することによって、画面に対応する。但し、1回目は入力メニュー・モードを入力するためであり、2回目は大語彙認識を選択するためである。図79の機能7908乃至7914によって示されているように、訂正ウインドウが表示された際に、大語彙認識が入力モード・メニューで選択される場合、システムは、これを、ユーザが再発話の実行を望んでいる、即ち、所望の出力に対する新しい発話を、所望の出力の選択支援に使用するための発話リストに追加することを望んでいるものとして解釈する。この例では、所望の出力に対応する3つ単語、「the」、「new」、「Elvis」を発声するために、離散音声を使用する間、ユーザはキー「1」の2回目の押下を継続する。示された例では、この新しい発話リスト入力によって提供された追加の離散発話情報によって、システム3つの単語の内、最初の2つの単語をシステムに正確に認識させることを想定している。この例では、3つの単語の内、3番目の単語が現在の語彙に存在しておらず、これにより、例えば、図109の発話10914によって実行されているように、ユーザはフィルタリング入力を用いて、その3番目の単語を綴ることを要求される。
図110は、携帯電話のソフトウェアの一部であるウェブ・ブラウザで所望のウェブ・ページにアクセスする目的で、URLテキスト文字列を入力するために、エディタ機能性をどのように使用することが出来るかを説明している。
ブラウザ・オプション画面11100は、図66に示されているように、メイン・メニューに於いて、キー「7」に関連したウェブ・ブラウザ・オプションをユーザが選択する場合に表示される画面を示している。この例では、ユーザは所望のウェブ・サイトのURLを入力することを望んでおり、キー「1」を押下することによって、キー「1」に関連したURLウインドウ・オプションを選択することを想定している。これにより、ユーザを支持する短いプロンプトを画面11102に表示させる。ユーザは、トーク・ボタンを連続して押下する間、所望のウェブ・サイトの名前を綴るために、連続音名綴りを使用することによって対応する。示された実施形態では、発話11103の認識によって訂正ウインドウ11104を表示するために、URLエディタが常に訂正モードの状態にある。その後、ユーザが第1選択肢を選択する画面11106で示されているように、当初間違って認識されたURLを所望の綴りに訂正するために、ユーザは、上述されたタイプのフィルタ文字列編集テクニックを使用し、システムに所望のウェブ・サイトにアクセスさせる。
図112乃至114は、ナビゲート、及び、ウェブ・ページのフィールドにテキストを入力するために、エディタ・インターフェイスをどのように使用することが出来るかを説明している。
画面11200は、携帯電話のウェブ・ブラウザが新しいウェブ・サイトに最初にアクセスする場合の該ウェブ・ブラウザの状態を説明している。URLフィールド11201は、ユーザが現在のウェブ・ページを識別することを支援するために、ウェブ・ページ11204の一番上の前に表示される。ユーザが現在表示されたウェブ・ページのURLを確認したい場合には、いつでも、この位置を後ろにスクロールさせることが出来る。ウェブ・ページが最初に入力される時、ウェブ・ページは、左右両キーを移動させることが、殆どのウェブ・ブラウザでのページの「戻る」及び「進む」制御のように作動する、文書/ページ・ナビゲーション・モードの状態にある。この場合、単語「document」は、「page」の代わりとなるが、これは、携帯電話のディスプレイに於いてメディアで一抔の画面を参照するために、他のナビゲーション・モードで単語「page」が使用されるからである。ユーザが上下両キーの何れかを押下する場合、ウェブ・ページの表示は、全画面ページ(又は画面)でスクロールされる。
図116は、示された携帯電話に関する実施形態が、図115に関して上述したタイプのダイアログ・ボックスを編集する際に、リスト・ボックスとして、訂正ウインドウの特別形式が使用されることをどのように許可するかを説明している。
図116の例は、図15の画面11504で示された状態にある探索ダイアログ・ボックスから始まる。この状態から、「In:」リスト・ボックスにカーソルを置くために、ユーザはライン下キーを2回押下し、これにより、探索ダイアログ・ボックスに対応して実行された検索が、携帯電話のデータのどの部分で実行されるかを規定するユーザがこのウインドウにあるカーソルでトーク・ボタンを押下する場合、現在の第1選択肢として、リスト・ボックスに現在の選択を表示し、他のリスト・ボックス選択肢のスクロール可能なリストに電話キー番号に関連して表示されているそうした他の選択肢のそれぞれを供給する、リスト・ボックス訂正イオン道11512が表示される。ユーザはこのリストをスクロールすることが可能であり、電話キー番号ー又は強調表示された選択を使用することによって、所望の選択肢を選択することが可能である。この例では、ユーザはトーク・キーの押下を継続し、発話11514で所望のリスト・ボックス値を発声する。リスト・ボックス訂正ウインドウに於いて、アクティブ語彙は、リストの値に相当制限される。所望のリストの値が第1選択肢である例に示されているように、訂正認識は、そうした限られた語彙を有している可能性が相当ある。ユーザは、キー「OK」を押下することによって対応し、これにより、示されているように、ダイアログ・ボックスのリスト・ボックスに所望のリストの値が置かれる。
図117は、携帯電話インターフェイスが、電話をかける際にユーザが実行可能な幾つかの機能を表示する、ユーザと携帯電話インターフェイスとの間の一連の対話について説明している。
図117の画面6400は、図64に関して上述された、同一の最高レベル電話モード画面である。それが表示される際に、ユーザが、氏名ダイアル・コマンドにマッピングされるラスト・ナビゲーション・ボタンを選択する場合、システムは氏名ダイアル・モード、即ち、図119の擬似コードに置いて説明された基本機能を入力する。その図からわかる通り、このモードによって、ユーザはそれらを追加することによって、連絡リストからネームを選択することが可能となり、間違った認識が存在する場合には、上述されたものと類似の訂正ウインドウに於ける潜在的にスクロール可能な選択肢から、選択肢を選択することによって、アルファベット・フィルタリングによってそれを訂正することが可能となる。
携帯電話が氏名ダイアル・モードを入力する場合、図117に示されているように、最初のプロンプト画面11700が表示される。この例では、トーク・キーの押下中に、ユーザはネーム11702を発話する。氏名ダイアルに於いて、そうした発話は、氏名語彙に自動的に限定された語彙を用いて認識され、その結果得られた認識によって、訂正ウインドウ11704が表示される。この例では、第1選択肢は間違っておらず、ユーザはキー「OK」を選択し、これにより、電話はユーザの連絡リストに於いて名付けられたグループに関連した電話番号に電話をかける。
通話が接続される場合、図75に関して上述された、同一の現行の通話インジケータ7414を有する画面11706が表示される。数字11708によって示されているように、画面の一番下には、現行の通話の最中に、ナビゲーション・キーのそれぞれに関連した機能に関して、指示が与えられる。この例では、図64に関連して上述された同一のメモ機能に関連した下ボタンをユーザが選択している。これに対応して、エディタ・ウインドウ11710は、これに対して、現在の通話に対するメモ・アウトラインに於いて作り出されている、自動的に作り出されたヘッディング・アイテム11712を用いて、エディタ・ウインドウ11710がメモ・アウトラインに対して表示され、それが形成されたグループ及び、その開始、及び、最終的にはその終了時間をラベル付けする。
その後、コール・ヘディングに基づいて、所望の新しいアイテムにカーソル11714が置かれる。
この例では、画面11716に示されているように、その発話に対応する認識されたテキストがカーソル位置で、メモ・アウトラインに挿入されことになるので、トーク・ボタンの押下中に、ユーザは連続発話11714を発声する。その後、ユーザは記録を開始するためにキー「6」をダブルクリックし、音の音声グラフィック表現が、カーソルの現在の位置で、エディタ・ウインドウに対するメモに置かれる。17718に示されているように、ユーザがその通話に於いてどのくらいの時問、誰が話をしていたかについて容易に記録し、必要に応じて、グループに対する通話の何れが話していたかに関する記録された音声の部分を、より適切に検索することが出来るように、携帯電話のオペレータが話している通話の部分からの音声が、音声グラフィックスで下線を引かれる。
図117の例では、タスク・リストを選択するために、ユーザは次にキー「*(スター)」をダブルクリックする。これは、現在開いているタスクをリストアップする携帯電話に於ける画面11720を示している。この例では、メモ・アウトラインに於いて異なる位置を表示する他のメモ・エディタ・ウインドウである、電話キー「4」に関連したタスクをユーザが選択する。これに対応して、電話キー画面は、説明されたメモの一部に関する画面11722を表示する。
この例では、ユーザはカーソルを位置11724に移動させるために、上キーを3回押下し、画面11726及び11728のカーソル間の移動によって示されているように、カーソルでの音声グラフィックス表現に関連した音の再生を開始するために、キー「6」を押下する。
図75に関して上述された「当方のみ再生」プション7513がオンの状態でなければ、画面11728に於ける音声に再生が、現在の通話の両者に対して再生され、通話のユーザが携帯電話の通話中に、他のグループとの音声録音を共有することが可能となる。
図118は、例えば、図117の中央下付近の画面11717で示されているように、編集ウインドウが音声を記録する場合、その部分の間に記録された音声が、それに実行された音声認識を有するようにするために、そうした音声の記録中に、ユーザが音声認識をオンの状態に切り換えることが出来ることを説明している。示された例では、画面11717に表示された記録中に、ユーザはトーク・ボタンを押下し、発話11800を発話する。これにより、その発話11802に関連したテキストがエディタ・ウインドウ11806に挿入される。認識の持続期間後に記録された音声は、音声グラフィックスのみで記録される。通常、これは、例えば認識される発話11800等の発話中に、ユーザがはっきり発話しようとし、その後、会話の一部、又は、音声だけで記録されているディクテーションの間に、より記が類に、自由に話す方法に於いて使用される。通常、音声は音声認識に関連して記録され、その結果、ユーザは、記録中に間違って認識された、例えばディクテーション11802のようなディクテーションに戻り、聞き、訂正することが可能である。
図119は、このシステムが、拡大された選択キー及び再生、又はナビゲーション・キーの組み合わせによって、その図に示された、例えば部分11900等の音声の部分を、どのようにユーザに選択させることが出来るか、そして、その後、11902で示されているように、認識された選択されたテキストを有するために、図90の機能9000乃至9014に関して上述された、認識された音声ダイアログ・ボックスをどのようにユーザに選択させることが出来るか、を説明している。図119の例では、ユーザが、認識されたテキスト11902に下線を引く、図90に示された、認識音声表示9026を選択し、それに関連した再生可能な音声をそれが有することを示している。
図120は、ユーザが記録された音声に関連した認識されたテキストの部分12000をどのように選択し、そして、エディタ・オプション・メニュー下のサブ・メニューに於いて、図90に示されたオプション9024を選択することによって、その関連した認識された音声から取り去られたテキストを有することをどのように選択することができるかを説明している。 これは、音声12002、及び、認識されたテキストが以前存在したメディアの一部に現存する、その対応する音声グラフィックス表現を残す。
図121は、図21の12102に示されているように、編集オプション・メニューの音声メニュー下からの図90の機能9020が、どのようにして、ユーザが部分12100に関連した認識された音声から、そのテキストの認識されたテキストを取り去ることを許可するかについて説明している。
図122乃至125は、図126に於ける擬似コードに於いて説明されたデジタル・ダイアル・モードの動作に関して説明している。例えば、図65の機能6552で示されているように、メイン・メニューの状態で、電話キー「2」を押下すること、又は、システムが画面6400及び図64で示された最高レベル電話モードの状態で、ナビゲーション左ボタンを選択することによって、ユーザがデジタル・ダイアル・モードを選択する場合、システムは図126に示されたデジタル・ダイアル・モードを入力し、ユーザに電話番号を発話するように指示するプロンプト画面12202を表示する。12204に示されているように、ユーザが電話番号の発話を発声する場合、その発話が認識される。システムが電話番号の正確な認識に於いてかなり信頼性がある場合、12206に示されているように、認識された電話番号を自動的にダイアルする。システムが電話番号の認識に於いて信頼性がない場合、訂正ウインドウ12208を表示する。12210で示されているように、訂正ウインドウが第1選択肢として所望の番号を有する場合、ユーザは「OK」キーを押下することによって、それを単に選択することができ、12212で示されているように、システムに数字をダイアルさせる。12214で示されているように、訂正選択肢が第1選択肢リストにある場合、12216で示されているように、ユーザは数字をダイアルするシステムのために、その選択肢に関連した電話キー・ナンバーを単に押下することが出来る。
図123の一番上に示された画面12300で示されているように、訂正数字は、第1選択肢でもなく、第1選択肢リストにもない場合、数字12302によって示されているように、ページ下キーを繰り返し押下すること、又は、12304で示されているように、アイテム下キーを繰り返し押下することの何れかによって、ユーザは所望の数字が第2選択肢リストの画面の一つにあるかどうかを確認するためのチェックを行うことが出来る。これらの方法の何れかで選択肢リストをスクロールすることによって、ユーザが所望の番号を見る場合、ユーザはその関連した電話キーを押下すること、又は、選択肢の強調表示をそれに移動させ、その後、キー「OK」を押下することの何れかによって、それを選択することが出来る。これにより、画面12308で示されているように、システムにその番号をダイアルさせる。当然のことながら、選択肢リストにおける電話番号は数字順に並んでいるので、ユーザは該リストをスクロールすることによって、所望の番号を直ちに見つけることが出来る。これらの図で示された実施形態に於いて、数字変更インジケータ12310は、任意の選択肢がリスト上でそれより前の選択肢と異なる、最も重要な数字の縦列を示すために与えられる。これにより、所望の電話番号を自分の目で調べることが容易になる。
図124は、数字ダイアル・モードによって、どのようにユーザが第1選択肢に於ける数字の位置にナビゲートし、その中に存在する任意のエラーを訂正することを許可されるかについて説明している。図124に於いて、これは所望の数字を発話することによって実行されるが、ユーザはまた、適切な電話キーの押下によって、所望の番号の訂正が許可されている。
図125に図示されているように、ユーザは欠けている数字を挿入することはもちろん、間違って認識された数字を痴漢することによって、間違って認識された電話番号を編集することが出来る。
上述の発明は、音声認識の入力及び訂正はもちろん、図3乃至8に示されたもの全てを含む、多くの様々なタイプのコンピューティング・プラットフォームに於ける他の形式の認識のために使用することが可能な多くの特徴を有する。図94に関して説明された発明の多くの特徴は、それらのタスクに、視覚的な注意を十分払うことを必要とせずに、ユーザがテキストの入力、及び/又は、編集を望んでいる状況で使用することが出来る。例えば、これによって、ユーザは自分の携帯電話や他のディクテーション・デバイスをしっかりと見ることを必要とせずに、公園で歩きながら、Eメールを聞き、返事をディクテーションすることが可能となる。そうした音声フィードバックが音声認識、及び、電話のダイアルや電話の制御等、他の制御機能に有用な一つの特別の環境は、図126に図示されているような、自動車空間である。
図126に示されている実施形態に於いて、自動車はコンピュータ12600を有しており、該コンピュータは、携帯無線通信システム12602に接続され、カー・オーディオ・システム12604に接続されている。多くの実施形態に於いて、自動車の電子システムは、例えばBluetooth等の短距離無線トランシーバ、又は、他の短距離無線トランシーバ12606を有する。これらは、ワイヤレス・ヘッドフォン2608、又は、ユーザの携帯電話12610と通信するために使用可能であり、その結果、ユーザは自動車を使用しながら、通常の携帯電話に記録された情報にアクセスするという利点を有することが出来る。
携帯電話/無線トランシーバ12602は、携帯電話の送受信だけでなく、Eメールの送受信、上述の機能で聞くこと及び編集が可能なテキスト・ファイル等のデジタル・ファイル、及び、音声ウェブ・ページを送受信するためにも使用することが出来ることが望ましい。
示された携帯電話の実施形態に関して上述した機能の多くを制御するための入力デバイスは、過度にユーザが運転機能から注意を逸らすことなく、キーにアクセスすることが出来る、自動車のハンドル等の位置に設置されることが望ましい電話キーパッド12212によってアクセスすることが可能である。事実、図126に示された位置に類似した位置を有するキーパッドを使用して、ユーザは片手の親指でキーパッドのボタンを選択しながら、同じ手の指をハンドルの縁の辺りに置くことが出来る。そうした実施形態では、ユーザがどのキーを押下しているのか、及び、キーパッドを見る必要がないように、そのキーの機能を決定することが出来るように、図94の9404乃至9414に関して上述されたTTSキー機能を、そのシステムが有することが望ましい。他の実施形態では、また、そうした情報を有する電話キーをただ接触することに対応する接触キーパッドが、より簡単で早く使用できるものになり得る。
図127及び128は、携帯電話の実施形態に関して上述した可能性の殆どが、例えば、図127に示されたコードレス電話や、図128で示された地上有線電話等、他のタイプの電話で使用可能であることを図示している。
前述の記述及び図は、単に説明及び例示のために用いられており、本発明は添付された請求項の解釈が限られている限りを除いて、それに限られるものではないことを理解すべきである。それらの前に開示を有する当業者は、本発明の要旨を逸脱しない範囲で、その中に修正及び変更を行うことが出来る。
幅広く特許請求の範囲が請求されているように、本願発明は、オペレーティング・システム、コンピュータ・ハードウェア、コンピュータ・ネットワークの任意の一つのタイプの使用に限られるものではなく、したがって、本発明の他の実施形態では異なるソフトウェア及びハードウェア・システムを使用することが可能である。
さらに、下記の請求項に於いて記述されたプログラムの動作は、実際の全てのプログラムの動作のように、相当異なる機構及び順番を使用して、多くの異なるプログラミング及びデータ構造によって実行することが可能であることが理解されるべきである。これは、当業者によって理解された場合、複雑な所定の考えは、実際無限の方法で明らかにすることが出来るからである。したがって、請求項の範囲は、正確な機能、及び/又は、図中で示された機能の配列に限られることはあり得ない。これが特に当てはまるのは、不必要に詳細を用いて当業者を悩ますことなく、本発明を実行するために当業者が知る必要のあるものに、より効果的に知らせるために、上述のテキストで記述された擬似コードが高度に簡素化されているからである。そうした簡略化のために、上述の擬似コードに構造は、本発明を実行する際に、熟練したプログラマーが使用する実際のコードに関する構造とは相当異なっている場合が多い。さらに、明細書に於いてソフトウェアで実行されることが示された多くのプログラムの動作は、他の実施形態に於いてハードウェアで実行することが可能である。
上記に於いて議論した本発明に関する多くの実施形態に於いて、本発明のそうした特徴に関する他の実施形態で個別に生じる本発明の様々な特徴が、同時に生じることが示されている。
本願に於いて記述された本発明に関する全ての特徴及び側面は、明細書、図面、及び、元の請求項の範囲を含み出願されるので、当然のことながら、本発明は方法、装置システム、及び、機械で読み取り可能な形式で記録されたプログラミングに本発明を拡大する。
図9は、本発明の多くの特徴を使用可能な携帯情報端末(PDA)900を図示している。図中のPDAは、現在発売されているコンパック社のiPAQ H3650 Pocket PC、カシオ社のCassiopeia、及び、ヒューレット・パッカード社のJornado 525に類似している。
PDA900は、比較的高解像度のタッチ・スクリーン902を有しており、該タッチ・スクリーン902によって、ユーザは、例えばスタイラス904、又は、指等のタッチ・スクリーンに接触する手段によって、テキストの部分やソフトウェア・ボタンを選択することが出来る。また、該PDAは複数の入力ボタン906と、2次元ナビゲーション・コントロール908を有する。
本明細書、及び、後に続く請求項に於いては、ユーザが1次元又は複数次元で離散的な動きの単位を選択可能なナビゲーション入力装置は、ボタンの定義に含まれると見なされる場合が多い。これは、ナビゲーション装置の上下左右の入力が電話キー、又は、電話ボタンであると見なされる電話インターフェイスに関して、特に当てはまる。
図10は、PDA900に関する概略システム図である。図10は、タッチ・スクリーン902、及び、入力ボタン906(ナビゲーション入力908を含む)を図示している。また、図10はPDA900が、例えばマイクロプロセッサ1002等の中央演算処理装置(CPU)を有することを示している。CPU1002は、1つ又は複数の電子通信バス1004を介して、読み出し専用メモリ1006(多くの場合、フラッシュROM)、RAM1008、一つ又は複数のI/O装置1010、タッチ・スクリーン902上のディスプレイを制御するビデオ・コントローラ1012、マイク1015からの入力を受付けて、スピーカ1016に音声出力を供給する音声装置1014に接続されている。
また、該PDAは、携帯電圧をPDAに供給するバッテリ1018と、音声回路1014に接続されるヘッドフォン入出力ジャック1020と、PDAと例えばデスクトップ・コンピュータ等、他のコンピュータとを接続させるドッキング・コネクタ1022と、ユーザが、例えば増設フラッシュROM、モデム、無線トランシーバ1025、大容量記憶装置デバイス等の回路をPDAに追加することが出来るアドオン・コネクタ1024と、を有する。
図10は、大容量記憶装置デバイス1017を図示している。実際、該大容量記憶装置デバイスは、フラッシュROM1006の全て又は一部、又は、小型ハードディスク等、如何なるタイプの大容量記憶装置デバイスであっても良い。そうした大容量記憶装置デバイスに於いて、PDAは通常、デバイスの基本機能の多くを供給するオペレーティング・システム1026を記憶している。一般に、大容量記憶装置デバイスは、オペレーティング・システム、及び、次に説明する音声認識関連の機能に加えて、例えば、ワード・プロセッサ、スプレッドシート、ウェッブ・ブラウザ、個人情報管理システム等の一つ又は複数のアプリケーション・プログラムを有する。
PDA900が本発明に使用される場合、通常、音声認識プログラミング1030を有する。PDA900は、図1及び図2に関して上述した一般的なタイプの単語照合を実行するためのプログラミングを有する。また、音声認識プログラミングは、通常、一つ又は複数の語彙、又は、少なくとも2000語を有する大語彙を含む語彙グループ1032を有する。多くの大語彙システムは、5万語から数10万語の語彙を有する。それぞれの語彙単語に対して、通常、語彙はテキスト綴り1034、及び、その単語が属する1つ又は複数の語彙グループ1036(例えば、テキスト出力「.」は、実際にシステムによっては、大語彙認識語彙、綴り語彙、句読点語彙グループに属する可能性がある)を有する。また、それぞれの語彙単語は、その単語を分類可能な音声1038の一つ又は複数部分、及び、音声の複数部分のそれぞれに対する単語に関する表音的綴り1040に関する指標を有する。
一般に、音声認識プログラミングは、システムに追加される新しい単語の発音を推測するための、所定の表音的綴りを有していない発音推測手段1042を備えている。一般に、音声認識プログラミングは、一つ又は複数の音声語彙ツリー1044を有する。該音声語彙ツリーは、音素の同一配列で始まる全ての表音的綴りを、該ツリーのルートから、共通のパスに纏めてグループ化するツリー型データ構造である。該音声語彙ツリーによって、同一の最初の表音的綴りを共有する異なる単語の全ての部分が纏めて記録されるので、そうした音声語彙ツリーの使用により、認識性能が改善される。
また、音声認識プログラムは、一つ又は複数の先行する単語、及び/又は、後に続く単語が与えられたテキストに於いて単語が発生する可能性など、テキストに於いて異なる単語が発生する可能性を示すポリグラム言語モデル1045を有することが望ましい。
一般に、音声認識プログラミングは、上述のポリグラム言語モデル1045を更新するために使用可能な情報を含む言語モデル更新データ1046を記録している。一般に、該言語モデル更新データは、ユーザが作成したテキスト、又は、ユーザが生成したいテキストに類似したテキストとして示したテキストから生成された統計情報を一部として、又は全体として含む。図10に於いて、音声認識プログラミングは、氏名、住所、電話番号、Eメール・アドレス、及び、そうした情報の複数又は全てに対する表音的綴りを含む、連絡先情報1048を記憶していることが図示されている。該データは、音声認識プログラミングによるそうした連絡先情報の発話認識を支援するために使用される。該情報に関する多くの実施形態に於いては、そうした連絡先情報が、外部プログラム、例えば、アプリケーション・プログラム1028、又は、オペレーティング・システム1026に対する付属品等に含まれるが、そうした場合でさえも、一般に音声認識プログラミングは、氏名、住所、電話番号、Eメール・アドレス、それらに対する表音的表現にアクセスする必要がある。
また、音声認識プログラミングは、通常、図2に図示された音声モデル200に類似する可能性のある音声音響モデル1050を含む。また、一般に、音声認識プログラミングは、該システムによって以前認識された音響信号からの情報を含む音響モデル更新データ1052を記憶する。一般に、そうした音響モデル更新データは、例えば、図1及び図2に図示されたパラメータ・フレーム110等のパラメータ・フレームの形式、又は、そうしたフレームから抽出された統計データの形式となる。
図11は、図9に図示されたタッチ・スクリーン902によって提供されたユーザ・インターフェイスに関する拡大図に、本発明の多くの特徴を具体化するソフトウェア入力パネル(SIP)1100を使用するPDAを加えたものである。
図12は、音声認識SIPが訂正ウインドウ1200を表示する際に、タッチ・スクリーン902を表示している点を除いて、図11と類似している。
図13乃至17は、グラフィカル・ユーザ・インターフェイス(GUI)に於いて、音声認識SIPが様々な入力に対してどのように対応するかということに関する擬似コードの記述に関する連続するページを表している。簡略化するために、該擬似コードは、ユーザ入力に対応するSIPプログラムに於ける一つのメイン・イベント・ループ1300として表されている。
図13乃至17に於いて、該イベント・ループは、2つの主要なスイッチ・ステートメント、即ち、訂正ウインドウ1200の表示、非表示に関わらず生成可能なユーザ・インターフェイスに於ける入力に対応する図13のスイッチ・ステートメント1301、及び、訂正ウインドウ1200が表示された場合にのみ、生成可能なユーザ入力に対応する図15のスイッチ・ステートメント1542、として説明されている。
ユーザが、図11に図示されたトーク・ボタン1102を押下する場合、図13の機能1302によって、機能1304乃至1308が実行される。機能1304は、図11のウインドウ1104によって表示されたSIPバッファにテキストが存在するかどうかを確認するための検証を行う。これらの図中に示されたSIPに関する実施形態に於いて、SIPバッファは、SIPのソフトウェアが音響入力とそれぞれの単語の認識に関連した最良の選択肢、及び、そうしたテキストによって作成された言語文脈について追跡する、比較的少数のテキスト行を保持するよう設計されている。そうしたテキスト・バッファが使用されるのは、アプリケーションに於いて、SIPが現在のカーソル1108の位置にテキストを出力する、図11のウインドウ1106に図示されたリモート・アプリケーションに於けるテキストに関する知識を、音声認識SIPが多くの場合有さないからである。本発明に関する他の実施形態に於いては、さらに大型のSIPバッファが使用可能である。他の実施形態に於いて、本発明の特徴の多くは、テキストを入力するためにSIPの使用を必要としない、独立の音声認識テキスト作成アプリケーションの一部として使用される。SIPとして機能する音声認識手段を使用する主な利点は、PDAで起動するように設計された殆ど如何なるアプリケーションに対しても、入力を供給するために該音声認識装置を使用可能であるということである。
図13を再び参照すると、トーク・ボタン1102は、SIPに対して、ユーザが新しい文脈でテキストをディクテーションしていることを示す手段として提供されているので、機能1304はSIPバッファ1104からの任意のテキストを消去する。このように、SIPのユーザが図11のアプリケーション・ウインドウ1106でカーソル1108を移動させた場合、トーク・ボタン1102を押下することによって、次のディクテーションを開始することになる。
図13の機能1306は、現在、音声認識システムが訂正モードの状態であるかを確認するための検証を行うことによって、トーク・ボタンの押下に対応する。音声認識システムが訂正モードの状態にある場合、該モードを終了し、表示される可能性のある図12に示されたタイプの訂正ウインドウ1200を取り除く。
図中のSIPは、訂正ウインドウが表示されているが、メインSIPインターフェイスの殆どのボタンから入力を受け付けることが選択されていない場合に、訂正モードの状態にはなく、訂正ウインドウが表示され、そうしたボタンの多くから入力を受け付けることが選択されている場合に、訂正モードの状態にある。こうした区別が望ましいのは、ユーザがより迅速に選択リストの確認、又は、訂正入力の供給を行うことを可能にすると認識されているので、図示された特定のSIPが、単語が離散的に発話、認識され、それぞれの単語に対して訂正ウインドウが表示される個別モードで操作することを選択可能であるからだ。個別モードに於いて、訂正の実行に具体的に関係ないユーザ入力の殆どの形式が、所望の単語として現在の選択リストに表示された第1選択肢を確認する付加機能を実行するために使用される。システムが個別モードの状態ではない場合、ユーザが前回の入力の訂正を望むことを示す入力を供給した場合にのみ、訂正ウインドウは通常表示される。そうした場合、訂正ウインドウは訂正モードで表示されるが、これは、ユーザが訂正を行うことを選択しているので、入力の殆どの形式は訂正ウインドウを対象とするはずであるということが想定されているからである。
当然のことながら、個別認識のみを使用するシステム、又は、個別認識を全く使用しないシステムに於いては、訂正モードへの切り替え、及び、訂正モードからの切り替えを追加的に行う必要性がない。
機能1306を再び参照すると、トーク・ボタン1302の押下によって、古いディクテーションの訂正に関心があるというよりは、むしろ新しいディクテーションの開始を望むことが示されているので、機能1306は現在の訂正ウインドウをすべて取り除く。
図13の機能1308は、前回選択された現在の認識持続モードに従って、SIPバッファ認識を開始させることによって、トーク・ボタンの押下に対応する。該認識は、第1単語に対して任意の以前の言語文脈を用いることなく行われる。言語モデル文脈は、トーク・ボタンの1回の押下に対応して、認識された単語から得られ、そうした認識に於いて、第2単語、及び、それ以後の単語に関する認識に対して言語文脈を提供するために使用されることが望ましい。
図18は、音声認識を開始するために使用可能なSIPインターフェイスに於いて、任意のボタンの押下、又は、クリックに対応して、ユーザが音声認識を起動させる異なるモードを選択可能な認識持続プログラミング1800の概略図である。図示された実施形態に於いては、トーク・ボタンなど、それぞれが音声認識を開始するために使用可能な複数のボタンが存在する。これにより、ユーザは、認識の所定モードを選択することができ、ボタンを1回押下することで、そのモードでの認識を開始することが出来る。
機能1802は、現在の認識持続モードに応じて、図18のどの機能が実行されるのかを決定する一助となる。図46に図示された機能メニューに於ける入力優先オプションに基づいて、初期設定、及び、選択等、複数の異なる方法で該モードを設定することが出来る。
押下単独認識持続タイプが選択された場合、機能1804によって、機能1806及び1808は、音声ボタンの押下中に発話された語音を認識する。該認識持続タイプは、単純且つ柔軟であるが、これは、該認識持続タイプによって、ユーザが一つの簡単な規則、即ち、音声ボタンの押下中、及び、押下中にのみ認識が行われるという規則、によって、認識の長さを制御することが出来るからである。暗騒音が発音として認識される確率を低減するために、発話及び/又は発話検出の終了は、任意の認識モードの中で使用されることが望ましい。
現在の認識持続タイプが、「発話終了に対する押下及びクリック」タイプの場合、機能1810によって、機能1812及び1814は、その押下中に音声を認識することによって、音声ボタンの押下に対応する。この場合、音声ボタンの「押下」とは、例えば、4分の1秒、又は、3分の1秒等、所定の持続時間よりも長い間、そうしたボタンを押下することとして定義される。ユーザが音声ボタンをより短い間押下する場合、該押下は「押下」というよりは、むしろ「クリック」として処理され、機能1816及び1818は、該クリックの時間から発話検出の次回終了時まで、認識開始に着手する。
「発話終了に対する押下及びクリック」認識持続タイプには、一つのボタン使用によって、ユーザが可変長の拡大認識を選択可能なモードと、単一の発話のみを認識するモードから、迅速、且つ、容易に、選択することが出来るという利点がある。
現在の認識持続タイプが「発話終了に対する連続押下、離散クリック」タイプである場合、機能1820は、機能1822乃至1828を実行させる。音声ボタンがクリックされる場合、直前に定義した通り、機能1822及び1824は、発話の次回終了時まで離散認識を実行する。一方、音声ボタンが押下される場合、前述の定義の通り、機能1826及び1828は、音声ボタンが押下された状態のままである限り、連続認識を実行する。
該認識持続タイプには、所定の音声ボタンに対する異なるタイプの押下を使用するだけで、ユーザが連続認識及び離散認識を即座に切り換えることが容易になるという利点がある。図示されたSIPの実施形態では、他の認識持続タイプは連続認識及び離散認識の切り換えを行わない。
現在の認識持続タイプが「タイムアウトに対するクリック」タイプである場合、機能1830は、機能1832乃至1840を実行させる。音声ボタンがクリックされる場合、機能1833乃至1836は、通常、認識のオン状態及びオフ状態を切り換える。機能1834は、音声認識が現在オンの状態であるか否かを確認するための検証を行うことにより、クリックに対応する。音声認識がオンの状態であり、また、クリックされている音声ボタンが語彙を変化させるボタン以外の場合、音声認識をオフの状態にすることでクリックに対応する。一方、音声ボタンがクリックされる際に音声認識がオフの状態であれば、機能1836はタイムアウト継続時間が経過するまで音声認識をオンの状態にする。該タイムアウト継続時間の長さは、図46に図示された機能メニュー4602に於ける入力優先オプションに基づいてユーザが設定可能である。音声ボタンが所定の継続時間よりも長い間押下される場合、上述の通り、機能1838及び1840が押下中に認識をオンの状態にして、押下終了時にオフの状態にする。
該認識持続タイプによって、ユーザは、音声認識のオン状態、及び、オフ状態を切り換えるボタンと、音声ボタンが延長して押下される間のみ、音声認識をオンの状態にするボタンから、一つのボタンを即座に、且つ、容易に選択する。
図13の機能1308を再び参照すると、異なる認識持続タイプの選択によって、トーク・ボタンと他の音声ボタンがどのように認識を開始するかをユーザが選択することが出来るということが分かる。
ユーザが図11に図示された消去ボタン1112を選択する場合、機能1309乃至1314は、表示される可能性のある全ての訂正ウインドウを取り除き、オペレーティング・システム・テキスト入力に何ら削除部分を送信することなく、SIPバッファの内容を消去する。上述の通り、図示された音声SIPに於いて、図11に図示されたSIPテキスト・ウインドウは、比較的小さなテキスト部分を保持するように設計されている。テキストがSIPバッファに於いて入力、又は、編集される場合、文字はPDAのオペレーティング・システムに供給され、図11に図示されたアプリケーション・ウインドウ1006に於けるテキストに対して、対応する変更が行われる。消去ボタンによって、ユーザはSIPバッファへの負担がかかり過ぎないように、アプリケーション・ウインドウのテキストに対して対応する削除を行うことなく、SIPバッファからテキストを消去することが出来る。
図11に図示された継続ボタン1114は、最後にディクテーションされたテキストの連続、又は、図11に図示されたSIPバッファ・ウインドウ1104に於ける現在位置に挿入されることになるテキストを、ユーザがディクテーションしたい場合に使用されることを目的とする。該ボタンが押下される場合、機能1316は、機能1318乃至1330を実行させる。機能1318は、すべての訂正ウインドウを取り除くが、これは、継続ボタンの押下によってユーザは訂正ウインドウの使用に関心がないことを示しているからである。次に、機能1132は、SIPバッファ・ウインドウに於ける現在のカーソルに、継続ボタンを押下した結果として、最初の単語、又は、認識された任意の発話の単語に関する確率の予測を支援するために使用可能な以前の言語文脈があるのかどうかを検証する。以前の言語文脈が存在する場合、機能1132によって言語文脈が使用される。以前の言語文脈が存在しない場合、及び、SIPバッファに現在テキストが存在しない場合、機能1326は、継続ボタンによって開始された認識開始時の言語文脈として、以前SIPバッファに入力された最後の一つ又は複数の単語を使用する。次に、機能1330は、SIPバッファ認識、即ち、現在の認識持続モードを使用して、SIPバッファに於けるカーソルに出力されるテキストの認識を開始する。
ユーザが図11に図示されたバックスペース・ボタン1116を選択する場合、機能1132乃至1136が実行される。機能1134は、SIPが現在、訂正モードの状態にあるかどうかを検証する。SIPが訂正モードの状態にある場合、機能1134は、訂正ウインドウのフィルタ・エディタにバックスペースを入力する。図12に図示された訂正ウインドウ1200は、第1選択ウインドウ1202を有する。下記に於いてより詳細に説明する通り、訂正ウインドウ・インターフェイスによって、ユーザは、一つ又は複数の所望の認識単語に属する最初の文字の配列を識別するフィルタ文字列の一部として、第1選択肢ウインドウに於ける一つ又は複数の文字を選択、及び、編集することが出来る。SIPが訂正モードの状態にある場合、バックスペースの押下によって、第1選択肢ウインドウで現在選択されたフィルタ文字列及び文字から削除し、何も文字が選択されない場合には、フィルタ・カーソル1204の左側の文字を削除する。
SIPが現在訂正モードの状態にない場合、機能1136は、バックスペース文字をSIPバッファに入力し、図11に図示されたアプリケーション・ウインドウ1106に於いて対応するテキストに対して同一の変更を行うことが出来るように、オペレーティング・システムに同一文字を出力することによって、バックスペース・ボタンの押下に対応する。
ユーザが図11に示された改行ボタン1118を選択する場合、図13の機能1338乃至1342は、訂正モードを終了し、SIPが現在訂正モードの状態にある場合、機能1338乃至1342は、SIPバッファに改行文字を入力し、オペレーティング・システムに対応する出力を供給する。
機能1344乃至1388によって示されているように、SIPは、バックスペースに対応する場合と略同一の方法で、即ち、SIPが訂正モードの状態にある場合、バックスペースをフィルタ・エディタに入力し、そうでなければSIPバッファ及びオペレーティング・システムにバックスペースを出力する方法と略同一の方法で、ユーザによるスペース・ボタン1120の選択に対応する。
ユーザが図11に図示された語彙選択ボタン1122乃至1132の一つを選択する場合、図13の機能1350乃至1370、及び、図14の機能1402乃至1416は、選択されたボタンに対応する語彙に対して、適切な認識モードの語彙を設定し、現在の認識持続モード、及び、認識モードに対する他の設定に応じて、そのモードで音声認識を開始する。
ユーザが氏名認識ボタン1122を選択する場合、機能1350及び1356は、氏名認識語彙に対して現在のモードの認識語彙を設定し、現在の認識持続設定、及び、他の適切な音声設定に応じて認識を開始する。氏名及び大語彙ボタンに加えて、語彙ボタンの全てを用いて、これらの機能は、SIPが訂正モードの状態になるかどうかに応じて、現在の認識モードをフィルタ、又は、SIPバッファ認識として処理する。これは、こうした他の語彙ボタンが、フィルタ文字列の定義、又は、SIPバッファへの直接入力に適した文字の配列を入力するために使用された語彙に関連付けられているからである。しかし、大語彙、及び、氏名語彙は、フィルタ文字列編集には不適切であると考えられているので、開示された実施形態に於いては、現在の認識モードは、SIPが訂正モードの状態にあるか否かに応じて、再発話、又は、SIPバッファ認識の何れかであるとされている。他の実施形態に於いては、氏名及び大語彙認識は、マルチワード・フィルタの編集に使用可能である。
語彙ボタンの押下に関連付けられた標準的な対応に加えて、アルファブラボ語彙ボタンが押下される場合、図40の数字4002で図示されているように、機能1404乃至1406は、国際コミュニケーション・アルファベット(ICA)で使用される全単語のリストを表示させる。
ユーザが図11に図示された連続/離散認識ボタン1134を選択する場合、図14の機能1418乃至1422が実行される。該機能は、連続音声音響モデルを用いて、マルチワード認識候補が所定の単一の発話と一致可能な連続認識モードと、離散認識音響モデルを用いて、単一単語認識候補のみが単一の発話に対して認識可能な離散認識モードとを切り換える。また、連続/離散ボタンの押下によって選択されたように、該機能は離散認識と連続認識の何れかを用いて音声認識を開始する。
ユーザが、押下することによって機能キー1110を選択する場合、機能1424及び1426は、図46に図示された機能メニュー4602を呼び出す。該機能メニューによって、ユーザは、図11及び12に図示されたボタンからの直接使用可能なオプションに加えて、他のオプションから選択することが可能である。
ユーザが、図11に図示されたヘルプ・ボタン1136を選択する場合、図14の機能1432及び1434がヘルプ・モードを呼び出す。
図19に図示されているように、ヘルプ・ボタンの最初の押下に対応して、ヘルプ・モードが入力される場合、図20に図示されているように、機能1902は、ヘルプ・モードの使用に関する情報を提供するヘルプ・ウインドウ2000を表示する。ヘルプ・モードのその後の操作中に、ユーザがSIPインターフェイスの一部に触れると、機能1904及び1906は、インターフェイスの接触された部分に関する情報を有するヘルプ・ウインドウを表示する。このヘルプ・ウインドウは、ユーザがSIPインターフェイスへの接触を継続する限り継続表示される。これは図21に図示されており、図21では、ユーザが訂正ウインドウのフィルタ・ボタン1218を押下するために、スタイラス904を使用している。これに対し、フィルタ・ボタンの機能を説明するヘルプ・ウインドウ2100が図示されている。ヘルプ・モードの状態で、ユーザが画面の一部をダブルクリックすると、機能1908及び1910は、ユーザがインターフェイスの他の部分を押下するまで起動するヘルプ・ウインドウを表示する。これにより、ユーザは、大き過ぎてヘルプ・ウインドウ2102に一度に適合することが出来ないヘルプ情報をスクロールし視認するために、図21のヘルプ・ウインドウ21に図示されたスクロール・バー2102を使用することが出来る。
また、図19に図示されていないが、ヘルプ・ウインドウは、インターネットのSIPユーザ・インターフェイスの一部への最初の押下からユーザがドラッグ可能で、SIPユーザ・インターフェイスの他の部分に触れるまで、ヘルプ・ウインドウを維持することを選択するための維持ボタン2100を有する。
ヘルプ・モードの初期入力の後、ユーザが図11、20、及び、21に図示されたヘルプ・ボタン1136に再び触れると、機能1912及び1914はすべてのヘルプ・ウインドウを取り除き、ヘルプ・モードを終了して、ヘルプ・ボタンの強調表示をオフの状態にする。
ユーザがSIPバッファに於ける単語をタップする(軽くたたく)場合、図14の機能1436乃至1438は選択された単語を現在の選択とし、現在の選択としてのタップされた単語と、タップされた単語の認識に関連付けられた音響データ、即ち、あるとすれば、現在の選択に関連付けられた音響データを保持する発話リストに於ける最初の入力と共に、図22に図示された選択肢表示リスト・ルーチンを呼び出す。
図22に図示されているように、選択肢表示リスト・ルーチンは、以下のパラメータ、即ち、選択パラメータ、フィルタ文字列パラメータ、フィルタ・レンジ・パラメータ、単語タイプ・パラメータ、そして、非選択肢リスト・フラグと共に呼び出される。選択パラメータは、該ルーチンが呼び出されたSIPバッファに於けるテキストを示す。フィルタ文字列は、所望の認識出力が始まる一つ又は複数の一連の綴りを規定する要素を示す、一つ又は複数の文字配列を示す。フィルタ・レンジ・パラメータは、所望の認識出力が収まるアルファベットの区分の境界を示す2つの文字配列を定義する。文字タイプ・パラメータは、所望の認識出力が、例えば、所望の文法タイプ等の所定のタイプであることを示す。非選択肢リスト・フラグは、ユーザの行動が示す一つ又は複数の単語のリストが所望の単語ではないことを示す。
選択肢表示リスト・ルーチンの機能2202は、選択肢表示リスト・ルーチンが呼び出されたフィルタ文字列パラメータ、及び、フィルタ・レンジ・パラメータ、そして、選択パラメータに関連付けられた発話リストと共に、図23に図示された選択肢獲得ルーチンを呼び出す。
図24及び25に図示されているように、発話リスト2404は、現在の選択に関連付けられた一つ又は複数の単語の所望の配列の一部として発話された一つ又は複数の発話に関する音声表現を記憶する。上述の通り、図22の機能2202が選択肢獲得ルーチンを呼び出す場合、現在の選択に関する単語が認識された音声2402の一部である、図24に図示された表現2400をセットする。図2に於いて示されたように、音声認識のプロセスは、音声信号の表現に対する音響モデルを時間的に整合する。該認識システムは、選択されたテキストの訂正、又は、再生が望ましい場合に、そうした時間的整合からの対応する音響表現を検出することが出来るように、これらの時間的整合を記憶することが望ましい。
図24に於いて、発話リストに於ける最初の入力2004は、連続発話2402の一部である。本発明によって、ユーザは選択の発話リストに、一つ又は複数の単語の所望の配列に関する付加的な発話を追加することができ、そして、所望の出力を正しく認識する機会を増加させるために、これら全ての発話に対して纏めて認識を実行することが出来る。図24に図示されているように、そうした付加的発話は、入力2400B等の連続発話と、入力2400A等の離散発話の両方を有することが出来る。それぞれの付加的発話は、それが連続発話か離散発話の何れであるかを示す数字2406及び2408で示されたような情報と、それがディクテーションされた語彙モードとを有する。
図24及び25に於いて、発話リストに於ける発話の音響表現が波形で示されている。当然のことながら、多くの実施形態に於いて、図1及び図2に図示された表現110等のパラメータ・フレーム表現等、音響表現の他の形式が使用される。
図25は、元の発話リスト入力が離散発話の配列であるという点を除いて、図24に類似している。図25は、また、一つ又は複数の離散発話の最初の配列に関する認識の訂正を支援するために使用される付加的発話入力が、離散発話2500Aと、連続発話2500Bの何れかを、それぞれ含むことが出来ることを示している。
図23に図示されているように、選択肢獲得ルーチン2300は、現在の発話リスト、及び、フィルタの値(即ち、フィルタ文字列の値、及び、フィルタ・レンジの値)を用いて実行され、該ルーチンが呼び出された選択に対して以前の認識が存在しているかどうかを確認するための検証を行う機能2302を有する。以前の認識が存在している場合、以前の認識が実行された時点から、認識パラメータに於いて変化がなかったことになるので、それによって、機能2304はそうした選択と共に以前の認識から戻る。
機能2302の検証の結果が満たされない場合、機能2306はフィルタ・レンジ・パラメータが空値であるかどうかを確認するための検証を行う。フィルタ・レンジ・パラメータが空値ではない場合、機能2308は、フィルタ・レンジが現在のフィルタ文字列よりもさらに具体的であるかを確認するために検証を行い、そして、さらに具体的である場合には、それはフィルタ文字列をフィルタ・レンジの共通文字に変更する。さらに具体的でない場合、フィルタ文字列は、フィルタ・レンジよりもさらに詳細な情報を有するので、機能2312はフィルタ・レンジを無効にする。
後述の通り、フィルタ・レンジは、ユーザが選択肢リストに於いて2つの選択を選ぶ際に、所望の認識出力がアルファベットに於いてそれらの間に収まることを示す目安として、選択される。ユーザが最初の文字を共有する2つの選択肢を選ぶ場合、機能2310によって、フィルタ文字列はそうした共有された文字に対応する。これは、選択リストが表示される際に、共有された文字が所望の出力の最初の文字に対応するものとして確認された文字としてユーザに表示されるように、実行される。
当然のことながら、ユーザが新しいフィルタ・レンジか、フィルタ文字列の何れかを選択するコマンドを実行する際に、これら2つのパラメータの内、新たに選択されたものが、他方の値と矛盾する値を有する場合、これら2つのパラメータの古い方の値が無効化される。
現在の発話リストの以前の認識からの候補が存在する場合、機能2316は、機能2318及び2320を実行させる。機能2318は、候補の以前の認識得点、及び、現在のフィルタ定義を用いて、そうした以前の認識候補のそれぞれに対して図26に図示されたフィルタ・マッチ・ルーチンを呼び出し、機能2320は、特定の閾値を下回る得点を有するそうした呼び出しの結果として戻された、そうした候補を消去する。
図26に示されているように、フィルタ・マッチ・ルーチン2600は、単語候補のフィルタリングを実行する。図示された本発明の実施形態に於いては、該フィルタリング・プロセスによって、フィルタはフィルタ文字列、フィルタ・レンジ、又は、単語タイプによって定義することが出来るので、該フィルタリング・プロセスは極めて柔軟性がある。また、該フィルタリング・プロセスは、単語タイプ、及び、フィルタ文字列、又は、フィルタ・レンジ規格の何れかによる組み合わせを可能にし、また、フィルタ文字列に於ける要素が、それらに関連する文字の値に関して曖昧なだけでなく、それらに関連する文字の配列に於ける文字数に関しても曖昧な、曖昧なフィルタを含む、曖昧なフィルタリングを可能にしている点で、柔軟性がある。
フィルタ文字列、又は、フィルタ文字列の一部が曖昧であるということは、複数の可能な文字の配列がそれに一致すると見なすことが出来ることを意味している。曖昧なフィルタリングは、本発明の多くの特徴に関する携帯電話の実施形態に関して、下記に記載したタイプの曖昧な電話キー・フィルタリングと同様に、確実に認識されるが、単一文字を一意的に定義していないフィルタ文字列入力と共に使用された場合に有用である。
また、曖昧なフィルタリングは、特に、認識が連続して実行される場合、例えば、音名の認識等、高い割合の確実性で認識不可能なフィルタ文字列入力と共に使用された場合に有用である。このような場合、文字の配列の認識に対して最高の選択肢が一つ又は複数のエラーを含む確率が高いだけでなく、最高得点の認識候補に於いて認識された文字数が、発話された文字数と異なる可能性が相当ある。特に、悪条件下のディクテーションでは、そうした認識からの最高の選択肢が間違っていることは多いとしても、所望の出力に関して、全て、又は最初の文字を綴ることは、フィルタリング情報を入力する非常に迅速で直感的な方法である。
フィルタ・マッチ・ルーチンは、それぞれ個別の単語候補に対して呼び出される。フィルタ・マッチ・ルーチンは、その単語候補の以前の認識得点、即ち、あるとすれば、得点1を有する認識得点を用いて呼び出される。それは、候補が現在のフィルタの値に一致する確率が乗じられて呼び出された得点と等しい認識得点を返す。
フィルタ・マッチ・ルーチンの機能2602乃至2606は、単語タイプ・パラメータが定義されたかどうかを確認するために検証を行い、単語タイプ・パラメータが定義された場合、及び、単語候補が定義された単語タイプではない場合、単語候補が明らかに現在のフィルタの値と適合しないことを示す、得点0を用いてフィルタ・マッチ機能から戻る。
機能2608乃至2614は、現在の値がフィルタ・レンジに対して定義されているかどうかを確認するための検証を行う。現在の値がフィルタ・レンジに対して定義されている場合、及び、現在の単語候補がアルファベット順に、該フィルタ・レンジの開始単語、及び、終了単語の間にある場合、機能2608乃至2614は、得点の値を変更せずに戻る。それ以外の場合、機能2608乃至2614は得点の値を0にして戻る。
機能2616は、定義されたフィルタ文字列があるかどうかを決定する。定義されたフィルタ文字列が存在する場合、機能2616は、機能2618乃至2653を実行させる。機能2618は、現在の候補文字、即ち、以後のループで使用される変数を、フィルタ・マッチが呼び出された単語候補に於ける最初の文字に対して設定する。次に、繰り返しによってフィルタ文字列の終了に至るまで、ループ2620が実行される。該ループは、機能2622乃至2651を含む。
該ループのそれぞれの繰り返しに於ける最初の機能は、フィルタ文字列の次の要素の種類を決定するためのステップ2622による検証である。図示された実施形態に於いては、3種類のフィルタ文字列要素、即ち、非曖昧な文字、曖昧な文字、そして、異なる長さであってもよい曖昧な文字の一連の配列を表現する曖昧な要素が認められている。
非曖昧な文字は、アルファベットの文字、又は、空白等、他の文字を一義的に識別する。非曖昧な文字は、任意のアルファベット入力形式の非曖昧な認識によって形成することが出来るが、最も一般には、文字又はICA単語認識、キーボード入力、又は、電話への実装に於ける非曖昧な電話キー入力等に関連付けられている。アルファベット入力の任意の認識は、非曖昧な文字の配列として、認識による単一の最高得点綴りの出力を単に受け付けることにより、非曖昧なものとして処理することが可能である。
曖昧な文字は、複数の文字の値を有することが出来るが、1文字分の明確な長さを有する文字である。上述の通り、これは、電話に関する実施形態に於ける、キーへの曖昧な押下、又は、音声又は文字に関する文字認識によって形成可能である。また、それは、全ての最高得点を有する文字の配列が同一の文字の長さを有する音名に関する連続認識によって形成可能である。
一般に、曖昧な長さの要素は、連続音名認識、又は、手書文字認識の出力に関連性がある。それは、手書文字や音声入力に対する多数の最高得点を有する文字の配列を表しており、その幾つかは、異なる長さの配列を有することが可能である。
フィルタ文字列に於ける次の要素が非曖昧な文字の場合、機能2644は、機能2626乃至2606を実行させる。機能2626は、現在の候補文字が現在の非曖昧文字に一致するかどうかを確かめるための検証を行う。現在の候補文字が現在の非曖昧文字に一致しない場合、フィルタ・マッチへの呼び出しは、現在の単語候補に対する得点0を用いて戻る。現在の候補文字が、現在の非曖昧文字に一致する場合、機能2630は現在の候補文字の地位を上昇させる。
フィルタ文字列に於ける次の要素が曖昧な文字の場合、機能2632は機能2634乃至2636を実行させる。機能2634は、現在の文字が曖昧な文字の認識された値の一つに一致しないかどうかを確認するための検証を行う。現在の文字が曖昧な文字の認識された値の一つに一致しない場合、機能2636は得点0でフィルタ・マッチへの呼び出しから戻る。現在の文字が曖昧文字の認識された値の一つに一致する場合、機能2638乃至2642は曖昧な文字が現在の候補文字の値に一致する確率に関する機能として、現在の単語候補の得点を変更し、現在の候補文字の地位を上昇させる。
フィルタ文字列に於ける次の要素が曖昧な長さの要素である場合、機能2644は、曖昧な長さの要素によって表現される、それぞれの文字の配列に対してループ2646を実行させる。該ループは、機能2648乃至2652を有する。機能2648は、ループ2646の現在の文字の配列に一致する現在の候補の文字位置で始まる文字に関して一致する配列が存在するかどうかを確認するために検証を行う。一致する配列が存在する場合、機能2649は、曖昧な長さの要素で表現された、認識された一致する配列の確率に関する機能として、単語候補の得点を変更し、その後、機能2650は一致する曖昧な長さの要素の配列に於ける文字数によって、現在の候補の文字の現在位置を増加させる。曖昧な長さの要素に関連付けられた文字の配列の何れかと一致する、現在の単語候補の文字位置で始まる文字の配列が存在しない場合、機能2651及び2652は得点0でフィルタ・マッチへの呼び出しから戻る。
ループ2620が完了する場合、現在の単語候補は、フィルタ文字列全体に対して一致したことになる。この場合、機能2653は、ループ2620によって作り出された現在の単語の得点と共に、フィルタ・マッチから戻る。
ステップ2616の検証によって、定義されたフィルタ文字列が存在しないことが判明する場合、ステップ2654は現在の単語候補の変更されていない得点を用いて、フィルタ・マッチから戻る。
ここで図23の機能2318を再び参照すると、それぞれの単語候補に対するフィルタ・マッチへの呼び出しは、その候補に対する得点を戻すことが分かる。機能2320に於いて、何れの単語候補を削除すべきかを決定する為に使用される得点が存在する。
一旦、こうした削除が行われると、機能2322は、削除後に残された以前の認識候補の数、即ち、あるとすれば、機能2320の数が、候補の所望数を下回るかどうかを確認するために検証を行う。通常、該所望数は、選択肢リストに於いて使用する選択肢の所望数を表す。以前の認識候補数がそうした所望数を下回る場合、機能2324乃至2326が実行される。機能2324は、図24及び25に於いて示された発話リスト2400に於いて、一つ又は複数の入力のそれぞれに対して音声認識を実行する。機能2326及び2328に示されているように、該認識プロセスは、発話リストに於いて、連続入力、及び、離散入力の両方があるかどうかを決定する検証を有しており、発話リストに連続入力と離散入力の両方が含まれる場合、一つ又は複数の離散入力で検出された個々の発話の数に相当する数に、連続入力の認識に於ける可能な単語候補の数を制限する。また、図24及び25に於いて示された、連続/離散認識表示2406によって示されているように、それぞれの受け付け時に効力のあるそれぞれのモードに従って、機能2324の認識は、連続認識、又は、離散認識の何れかで発話リストに於けるそれぞれの入力を認識することを含む。また、2332で示されているように、それぞれの発話リスト入力の認識は、記述のフィルタ・マッチ・ルーチンを使用すること、及び、それぞれのそうした発話の認識に対する最高得点の受入可能候補に関するリストを選択する際に言語モデルを使用することを含む。フィルタ・マッチ・ルーチンに於いて、発話リストに於ける最新の発話に関する図24及び25に示された語彙指標2408は、所望の単語の配列が特定の語彙からの一つ又は複数の単語に制限されるユーザによる指示を反映するための単語タイプ・フィルタとして使用される。使用される言語モデルは、例えば、最高得点の候補の選択支援に使用可能な、任意の以前の言語文脈を使用する、バイグラム言語モデルやトリグラム言語モデル等のポリグラム言語モデルである。
発話リストに於ける一つ又は複数の入力に関する認識が実行された後、発話リストに一つ以上の入力が存在する場合、機能2334及び2336は、異なる認識からの得点の組み合わせに基づいて、発話リストに対する最高得点の認識候補のリストを選択する。当然のことながら、本発明の該特徴に関する幾つかの実施形態に於いて、得点の組み合わせは、一つ以上の発話を使用する認識の有効性を改善するために、異なる発話の認識から使用可能である。
機能2314乃至2336によって作成された認識候補の数が所望数を下回る場合、及び、非空値のフィルタ文字列、又は、フィルタ・レンジの定義が存在する場合、機能2338及び2340は、発話リストに於ける最新の入力に関連付けられている語彙、又は、発話リストに入力が存在しない場合に現在の認識語彙から、付加選択の所望数を選択するために、フィルタ・マッチを使用する。
図23の選択肢獲得ルーチンが機能2342に達するまでに、認識、又は、現在の語彙の何れか一方からの候補が存在しない場合、機能2344は、選択の所望数まで、選択肢として現在のフィルタ文字列に一致する最高得点の文字の配列を使用する。フィルタ文字列が非曖昧な文字以外、何ら含まない場合、これらの非曖昧文字に一致する単一文字の配列のみが、可能な選択として選択される。しかし、フィルタ文字列に於いて曖昧文字、及び、曖昧な長さの要素が存在する場合には、複数のそうした文字の配列の選択が存在する。そして、曖昧な長さの要素を有する曖昧な文字が、一つ又は複数の文字に関する異なる可能な対応する配列に関連性のある異なる確率を有する場合、機能2344によって提供された選択は、図26の系図の機能2616乃至2606に於いて示されたものに対応する得点メカニズムによって、相当するように記録される。
選択肢獲得への呼び出しが戻る場合、認識、フィルタに応じた語彙からの選択、又は、可能なフィルタに関するリストからの選択によって提供された4つの選択に関するリストは、通常、戻される。
ここで図22を再び参照すると、機能2202に於いて選択肢獲得が選択肢表示リスト・ルーチンに戻る場合、機能2204は、何らかのフィルタが現在の選択に対して定義されるかどうか、現在の選択の発話リストに何らかの発話が追加されたかどうか、そして、選択肢表示リストが呼び出された選択が、ユーザの入力が認識候補として望まれていないことを示す一つ又は複数の単語を含む非選択リストに存在しないかどうかを確認するために検証を行う。
これらの条件が満たされる場合、機能2206は、その選択を、ルーチンが形成される訂正ウインドウに於ける表示に対する最初の選択にする。次に、機能2210は、非選択リストに含まれる選択肢獲得ルーチンに対する呼び出しによって提供された候補のリストから、その他の候補を取り除く。次に、最初の選択が機能2206によって既に選択されなかった場合、機能2212は選択肢獲得に対する呼び出しによって戻される最高得点の候補を、その後の訂正ウインドウ表示のための最初の選択にする。単一の最高得点認識候補がない場合、最初の選択となる候補を選択するために、アルファベット順を使用することが出来る。次に、機能2218が、あるとすれば、特別表示のために、フィルタ文字列に対応する、最初の選択に関するそれらの文字を選択する。下記に示す通り、好ましい実施形態に於いて、ユーザがフィルタ文字列のどの部分がフィルタ要素のどのタイプに対応するかを評価することが出来るように、非曖昧フィルタに対応する最初の選択に於ける文字が一つの方法で示され、曖昧フィルタに対応する最初の選択に於ける文字は、異なる方法で示される。次に、機能2220は、フィルタ文字列に対応しない最初の選択の最初の文字の前に、フィルタ・カーソルを置く。定義されたフィルタ文字列がない場合、カーソルは最初の選択の最初の文字の前に置かれる。
次に、選択肢獲得ルーチンが現在の最初の選択以外の任意の候補を戻した場合、機能2222はステップ2224乃至2228を実行させる。この場合、機能2224は、一度に訂正ウインドウにすべて当てはまる最高得点のそうした一連の候補から、第1文字順選択を作成する。さらに認識候補がある場合、機能2226及び2228は、残りの最高得点候補からのそうした選択すべてに対するスクリーンのプリセット・ナンバーまでの第2文字順選択肢リストを形成する。
これがすべて完了した場合、機能2230は、現在の第1選択肢を示す訂正ウインドウと、フィルタにある文字を認める指示と、現在のカーソル・フィルタ位置の指示と、第1選択肢リストとを表示する。現在、定義されたフィルタが存在していないので、図12に於いて、最初の選択1206は第1選択ウインドウに示され、フィルタ・カーソル1204は最初の選択の最初の文字の前に示される。
当然のことながら、関連する発話を有さないテキストの選択はもちろん、現在の選択に対しても、表示選択リスト・ルーチンは、空値で呼び出すことが出来る。この場合、選択肢表示リスト・ルーチンは、機能2338及び2340の実行に基づいて、単語の完成を実行することによって、アルファベット入力に対応する。それは、フィルタリング又は再発話なしに、発話の認識に対して選択肢を選択すること、以前の認識の訂正を支援するために、フィルタリング及び/又は再発話を使用すること、アルファベット・フィルタリング入力に単語の完成を実行することを許可し、必要に応じて、その後に続く発話の入力によってそうしたアルファベット完了プロセスを支援すること、アルファベット・入力とともに、現在の語彙に存在しない単語を綴ること、非曖昧で、文字に関して曖昧で、長さに関して曖昧な形式を含む、アルファベット入力の異なる形式を混合し、適合させることを許可する。
ここで図14を再び参照すると、入れ替わりに図12に示された訂正ウインドウ1200等の訂正ウインドウを表示させる選択肢表示リスト・ルーチンを呼び出すことによって、機能1436及び1438がどのようにSIPバッファに於ける単語へのタップに対応するかについて説明した。単に単語をタップすることによって、その関連する選択リストと共に訂正ウインドウを表示する能力によって、ユーザが単一の単語エラーを訂正することが可能な迅速で簡便な方法を提供する。
ユーザがSIPバッファに於ける選択をダブルタップする(軽く2度たたく)場合、機能1440乃至1444は表示される可能性のある現在の訂正ウインドウの何れからも逃れ、現在の選択に関する現在の言語文脈を用いた現在の認識持続モード及び設定に従って、SIPバッファ認識を開始する。図18に関して、上述の目的のための押下、又は、クリックの何れかがあったかのように反応するかどうかを決定する際に、認識持続ロジックは、そうしたダブルクリックに関連したキーの押下の持続時間に対応する。そうした認識の出力は、現在の選択に取って代わる。図示されていないが、ユーザがSIPに於ける単語をダブルタップする場合、それは機能1444の目的のための現在の選択として扱われる。
ユーザが、例えば、単語の間や、バッファに於けるテキストの前後等、テキストを含まないSIPバッファの何れかの部分に於いてタップした場合、機能1446は、機能1448乃至1452を実行させる。機能1448は、タップの位置にカーソルを設ける。SIPバッファに於けるテキストの最後の後にあるSIPバッファ・ウインドウに於いて、何れかの点にタップが位置された場合、カーソルはそのバッファに於ける最後の単語の後に於かれる。ダブルタップされる場合、機能1450、1452は、押下又はクリックとして対応されるかどうかを決定するダブルタップの2回目の接触の持続時間を用いて、現在の認識持続モード及び他の設定に応じて、新しいカーソル位置でSIPバッファ認識を開始する。
図15は、図13及び14に関して上述した擬似コードの続きである。
ユーザがSIPバッファに於ける一つ又は複数の単語の部分をドラッグする場合、機能1502及び1504は、現在の選択として、すべて、又は、部分的にドラッグした単語のすべて、及び、あるとすれば、発話リストに於ける最初の入力等、それらの単語に認識に関連した音響データを用いて、図22に関して上述した選択肢表示リスト・ルーチンを呼び出す。
ユーザがSIPバッファに於ける個々の単語の最初の部分をドラッグする場合、機能1506及び1508は、選択としての単語、非選択リストに追加された単語、フィルタ文字列としてドラッグされた単語の最初の部分、発話リストに於ける最初の入力として単語に関連した音響データを用いて、表示選択リスト機能を呼び出す。単語が非選択リストに追加されたという事実によって示されるように、該プログラミングは、ユーザが単語の最初の部分だけをドラッグしたという事実を、単語全体が所望の選択ではないということを示していると解釈する。
ユーザがSIPバッファに於ける個々の単語の最後をドラッグする場合、機能1510及び1512は、選択としての単語、非選択リストに追加される選択、フィルタ文字列としてドラッグされていない単語の最初の部分、発話リストに於ける最初の入力として選択された単語に関連する音響データを用いて、選択肢表示リスト・ルーチンを呼び出す。
SIPバッファが一定量以上のテキストを有することが示される場合、機能1514及び1516はユーザに対してバッファが略一杯である旨の警告を表示する。開示された実施形態に於いては、該警告はユーザに対して、さらなる文字がバッファに追加されると、バッファが自動的に消去されることを通知し、ユーザが、現在バッファにあるテキストが正しければ、トーク、又は、継続を押下することを確認、即ち、バッファを消去するよう求める。
SIPバッファがテキスト入力を受け付けたことが示される場合、機能1518は、ステップ1520乃至1528を実行させる。機能1520は、カーソルが現在SIPバッファの最後にあるかどうかを確認するために検証を行う。カーソルがバッファの最後にない場合、機能1522は、SIPバッファの最後の文字から、バッファ内の現在のカーソル位置までの距離に相当する、多くのバックスペースをオペレーティング・システムに出力する。次に、機能1526は、一つ以上の文字で構成可能なテキスト入力を、現在のカーソル位置で、SIPバッファに出力させる。ステップ1527及び1528は、同一のテキストの配列とSIPバッファにある次のテキストをオペレーティング・システムのテキスト入力に出力する。
機能1522が、認識されたテキストがOSに送られる前に、オペレーティング・システムにバックスペースを入力するという事実はもちろん、機能1528が受け付けられたテキストに続く任意のテキストをオペレーティング・システムに入力するという事実によって、以前アプリケーション・ウインドウに供給されたテキストに対応するSIPバッファのテキストに対する何らかの変更が、アプリケーション・ウインドウに於けるそのテキストに対しても実行される。
新しいSIPバッファ・テキスト入力の指示が受け付けられる際に、SIPプログラムが個別モードにある場合、機能1536は、テキスト入力が音声認識に対応して生成されたかどうかを確認するために検証を行う。テキスト入力が音声認識に対応して生成された場合、機能1537は認識されたテキストに対して選択肢表示リストを呼び出し、機能1538は訂正モードをオフの状態にする。通常、選択肢表示リスト・ルーチンの呼び出しは、システムを訂正モードに切り換えるが、機能1538は個別モードが使用されている場合、システムが訂正モードになることを防ぐ。上述の通り、これは、個別モードに於いて、音声認識が単語の発生に対して実行される毎に、訂正ウインドウが自動的に表示されるからであり、従って、比較的高い確率で、ユーザは訂正ウインドウへの入力以外の目的に使用されるSIPインターフェイスの非訂正ウインドウの側面に供給される入力を意図している。訂正ウインドウは、一つ以上の単語を訂正する要求を示す特定のユーザ入力の結果として表示されている一方で、訂正モードは、特定の非訂正ウインドウ入力が訂正ウインドウを対象とするように入力される。
機能1539は以下の条件、即ち、SIPが個別モードの状態にあり、訂正ウインドウが表示されているが、システムは訂正モードの状態にはないという条件が満たされるかどうかを確かめるために検証を行う。これは、通常、個別モードで単語のそれぞれの発話の後に存在する状態である。上述の状況が存在する場合、機能1540は、その選択がSIPバッファへテキスト入力として取り込まれるように、訂正ウインドウに於いて最初の選択の認識を確認することによって、上記の図13、14、15に於ける入力の何れかに対応し、一つ以上の後続の単語の認識に対して現在の言語文脈を更新する目的、言語モデルの更新に使用するデータを供給する目的、及び、音響モデルを更新するデータを供給する目的のために、オペレーティング・システムに対応する。これによって、ユーザは個別モードに於ける単語の事前認識を、認識プロセスの促進にも使用することが可能な多くの入力の一つによって確認することが出来る。
当然のことながら、ユーザが個別モードの状態にあり、選択リストに示された単語を訂正する要求を示す入力を生成する場合、SIPは訂正モードに送られ、該モードの継続中に於いて続く入力は、機能1540の動作を引き起こさない。
図15に於ける機能1542は、訂正ウインドウが表示される際に受け付けられた入力に関連する、SIPプログラムの主要な応答ループの一部分の開始を示す。該部分は、図15の残り、及び、図16と17の全てに及ぶ。
図12に示された訂正ウインドウのエスケープ・ボタン1210が押下される場合、機能1544及び1546は、現在の選択を変更することなく、SIPプログラムに訂正ウインドウを終了させる。
図12に示された訂正ウインドウの削除ボタン1212が押下される場合、機能1548及び1550は、SIPバッファに於ける現在の選択を削除し、SIPバッファに於けるそれに対応するアプリケーション・ウインドウの任意のテキストに対して、対応する変更が行われる出力をオペレーティング・システムに送信する。
図12に示されたニュー・ボタン1214が押下される場合、機能1552は機能1553乃至1556を実行させる。機能1553は、訂正ウインドウに対応するSIPバッファに於ける現在の選択を削除し、アプリケーション・ウインドウに於けるテキストに対して対応する変更を行うために、オペレーティング・システムに対して出力を送信する。機能1554は、通常、大語彙認識モードであり、ユーザが連続認識モード、又は、離散認識モードの何れかに設定することが可能な新しい発話の初期値に認識モードを設定する。機能1556は、現在の認識持続モード、及び、他の認識設定を用いて、SIPバッファ認識を開始する。SIPバッファ認識は、上述の機能1518乃至1538の動作に従って、SIPバッファに入力を供給する認識である。
図16は、訂正ウインドウの表示中に受け付けられた入力に対して、SIPプログラムのメイン・ループの応答に関する説明を継続する。
図12の再発話ボタン1216が押下される場合、機能1602は機能1603乃至1610を実行させる。機能1603は、SIPプログラムが訂正モードの状態にない場合、該SIPプログラムを訂正モードに設定する。この状態が発生するのは、訂正ウインドウが個別モードに於ける個別単語認識の結果として表示され、ユーザが訂正ウインドウに於けるボタン押下、即ち、今回の場合では再発話ボタンの押下によって対応し、訂正目的で訂正ウインドウを使用する意図を示す場合である。次に、機能1604は認識モードを再発話認識に関連付けられた現在の認識モードに設定する。機能1606は、現在の再発話認識持続モード、及び、語彙など、他の認識設定に従って、一つ以上の発話を受け付ける。次に、機能1608は、そうした発話時の語彙モードの指標に加えて、連続認識、又は、離散認識が有効であろうがなかろうが、機能1606によって受け付けられた一つ又は複数の発話を訂正ウインドウの選択に対する発話リストに加える。これは、図24及び25に示された発話リスト2004に発話を追加させる。
機能1610は、上述の図22の選択肢表示リスト・ルーチンを呼び出す。その代わりとして、これは、上述の図23に於いて記載された選択肢獲得機能を呼び出し、機能2306乃至2336に新しい発話リスト入力を使用する再発話認識を実行させる。
図12に示されたフィルタ・ボタン1218が押下される場合、図16の機能1612は機能1613乃至1620を実行させる。機能1603に関して上記で示されたように、SIPプログラムが現在訂正モードの状態にない場合には、機能1613は訂正モードを入力する。機能1614は、現在の入力モードが音声認識モードであるかどうかを確かめるために検証を行い、現在の入力モードが音声認識モードの場合、現在のフィルタ認識持続モード及び設定に従って、機能1616にフィルタ認識を開始させる。これにより、そうした認識によって生成された入力は現在のフィルタ文字列のカーソルの対象とされる。一方、現在のフィルタ入力モードが非音声認識入力ウインドウ・モードの状態にある場合、機能1618及び1620は適切な入力ウインドウを呼び出す。後述するように、示された本発明の実施形態に於いては、これらの非音声入力ウインドウ・モードが、文字認識入力モード、手書文字認識入力モード、及び、キー入力モードに対応する。
ユーザが図12に示された単語形成ボタン1220を押下する場合、SIPプログラムが現在訂正モードの状態になければ、機能1622乃至1624は訂正モードを入力させ、現在の最初の選択単語に対して、図27の単語形成リスト・ルーチンを呼び出す。ユーザが訂正ウインドウの再表示を行う訂正ウインドウに入力を行うまで、現在の最初の選択は、通常、訂正ウインドウが呼び出された選択となる。このことは、SIPバッファに於ける一つ以上の単語を選択すること、及び、訂正ウインドウに於ける単語形成ボタンを押下することによって、ユーザはそうした選択に対する代替形式のリストを即座に選択することが出来ることを意味する。
図25は、単語形成リスト・ルーチンの機能を図示している。訂正ウインドウが呼び出され、既に表示されている場合、機能2702及び2704は、現在の最適な選択を単語形成リストが表示される選択として処理する。現在の選択が一つの単語である場合、機能2706は、機能2708乃至2714を実行させる。現在の選択が同音異義語を有する場合、機能2708はそれらを単語形成選択リストの最初に置く。次に、ステップ2710は選択された単語の原形を検出し、機能2712がその単語に対して代替文法形式のリストを形成する。機能2714は、同音異義語の後に、機能2708によってリストに追加された可能性のある選択リスト中のすべての文法形式をアルファベット順に順序づける。
一方、選択が複数の単語で構成される場合には、機能2716は機能2718乃至2728を実行させる。機能2718は、選択が単語と単語の間にスペース(空白)を有するかどうかを確認するために検証を行う。選択が単語と単語の間にスペースを有する場合、機能2720は選択のコピーを単語間にそうしたスペースを有していない選択リストに追加し、機能2222は、ハイフンで置き換えられたスペースを有する選択のコピーを追加する。図27に図示されていないが、ハイフンをスペース、又は、スペースなしで置き換えるために、付加的な機能を実行することが出来る。選択が同一綴り/非綴り変換機能に従う複数要素を有する場合、機能2726は、選択のコピー、及び、全ての先立つ選択変換を選択リストに追加する。例えば、これは、一連の数字名を数値に相当する語句に、又は、単語「period」の再発を、対応する句読点に変換する。次に、機能2728はアルファベット順に、選択リストを順序付ける。
選択リストが単一の単語、又は、複数単語の選択の何れかのために作成された時点で、機能2730は最初の選択、最初の選択の開始時点のフィルタ・カーソル、スクロール可能な選択肢リスト及びスクロール可能なリストとして、選択を示す訂正ウインドウを表示する。選択が単一の単語である幾つかの実施形態に於いて、この実施形態のフィルタは、すべてのその文法形式で発生する文字の単一の連続を有し、その共通の配列の後、非曖昧なフィルタ文字列として認識された共通の配列と共に、フィルタ・カーソルを置くことが出来る。フィルタ・カーソルは、非曖昧なフィルタ文字列として示された共通の配列と共に、該共通の配列の後にセットすることが出来る。
本発明の幾つかの実施形態に於いて、単語形成リストは任意選択語形式の単一なアルファベット順に順序付けされたリストを提供する。他の実施形態に於いて、オプションは使用頻度の観点で順序付け可能であるか、又は、一度に訂正ウインドウに適合する最も一般的に選択された一連の任意選択形式を含む第1選択肢リスト、及び、それほど頻繁には使用されない単語形式を含む第2リストと共に、アルファベット順に順序付けされた第1及び第2選択肢リストが存在し得る。
下記に於いて説明するように、単語形式リストが、極めて一般的なタイプの音声認識エラー、即ち、最初の選択が所望の単語に関する同音異義語、又は、所望の単語に関する代替文法形式であるエラーを訂正する極めて迅速な方法を提供する。
ユーザが図12に示された全角ボタン1222を押下する場合、システムが現在訂正モードの状態でなければ、機能1626乃至1628は、訂正モードを入力し、訂正ウインドウの現在の最初の選択に対する全角サイクル機能を呼び出す。全角訂正サイクルによって、最初の文字の全角化のすべてを含まない一つ又は複数の単語の配列は、それぞれの単語の最初の文字が全角化され、最初の文字の全角化のすべてを含む一つ又は複数の単語の配列は、全ての全角形式に変更され、すべての全角形式を有する一つ又は複数の単語の配列は、すべて半角形式に変更される。全角ボタンを繰り返し押下することによって、ユーザは即座にこれらの形式から選択することが可能となる。
ユーザが図12に示されたが再生ボタン1224を選択する場合、機能1630及び1632によって、訂正ウインドウの関連付けられた選択に関連した発話リストに於ける最初の入力に関する音声再生が行われる。これにより、ユーザは単語の誤って認識された一つ又は複数の単語の配列に関して発話されたことを、正確に聞くことが出来る。図示されていないが、好ましい実施形態によって、ユーザは、訂正ウインドウが最初に表示された際に、自動的にそうした音声が再生される設定を選択することが出来る。
単語追加ボタン1226が灰色で表示されていない時に、図12に図示された該単語追加ボタンが押下される場合、機能1634及び1636は、ユーザによる現在の最初の選択単語のアクティブ語彙、又は、バックアップ語彙の何れかへの入力を許可するダイアログ・ボックスを呼び出す。SIP認識手段に関するこの特定の実施形態に於いて、システムは、大語彙モードを使用する通常の認識中に、認識に使用可能なアクティブ語彙として、すべての語彙の一部を使用する。 機能1636によって、ユーザは、通常、アクティブ語彙のバックアップ語彙部分にある単語を使用することが出来る。また、それは、アクティブ又はバックアップ語彙の何れかに追加されるために、どちらの語彙にも存在せず、アルファベット入力の使用によって、第1選択肢ウインドウにおいて綴られた単語をユーザが追加することを許可する。当然のことながら、より大規模なハードウェア資源を有する発明に関する他の実施形態に於いては、アクティブ語彙とバックアップ語彙の区別をする必要はない。
最初の選択単語が現在アクティブ語彙の状態にない場合、単語追加ボタン1226だけが非灰色の状態にある。これは、ユーザに対して、アクティブ語彙、又は、バックアップ語彙の何れかに最初の選択を追加したいという意図を示す。
ユーザが図12に示されたチェック・ボタン1228を選択する場合、機能1638乃至1648は、現在の訂正ウインドウを取り除き、SIPバッファに最初の選択を出力し、アプリケーション・ウインドウに於けるテキストに対応する変更を行うのに必要な一連のキー入力を、オペレーティング・システムに入力する。
ユーザが図12の訂正ウインドウに示された選択1230の一つをタップする場合、機能1650乃至1653は現在の訂正ウインドウを取り除き、SIPバッファに選択された選択を出力し、アプリケーション・ウインドウに於ける変更に対応させるために必要な一連のキー入力をオペレーティング・システムに入力する。
ユーザが図12に図示された選択肢編集ボタン1232の一つをタップする場合、機能1654は機能1656乃至1658を実行させる。機能1656は、システムがまだ訂正モードの状態になければ、訂正モードに変更する。機能1656は、タップされた選択編集ボタンに関連付けられた選択を、最初の選択、及び、現在のフィルタ文字列とし、機能1658は新しいフィルタ文字列を備えた選択肢表示リストを呼び出す。下記の通り、これによって、ユーザは現在のフィルタ文字列として、選択単語、又は、単語の配列を選択することができ、通常、所望の単語に一致しない、その最後から任意の文字を削除することによって、そのフィルタ文字列を編集することが出来る。
ユーザが、最初の選択等、選択の一つ又は複数の最初の文字をドラッグする場合、機能1664乃至1666は、システムが訂正モードの状態にない場合には、訂正モードに変更し、フィルタ文字列として、選択リストに追加されたドラッグされた選択、及び、選択のドラッグされた最初の文字の部分を用いて、選択肢表示リストを呼び出す。こうした機能によって、ユーザは、現在の選択は所望の最初の選択ではなく、現在の選択のドラッグされた最初の文字の部分が所望の選択の発見を支援するためのフィルタとして使用されることを示すことが出来る。
図17は、SIP認識手段が現在のウインドウ入力に対応して作成する機能に関するリストの最後の続きを提供する。
ユーザが、最初の選択など、選択の最後をドラッグする場合、機能1702及び1704は、システムが現在訂正モードの状態になければ、訂正モードに入り、フィルタ文字列として、非選択リストに追加された、部分的にドラッグされた選択、及び、選択のドラッグされていない最初の文字の部分を用いて、選択肢表示リストを呼び出す。
ユーザが選択リスト中の2つの選択をドラッグする場合、システムが現在訂正モードの状態になければ、機能1706乃至1708が訂正モードに入り、非選択リストに追加された2つの選択、及び、現在のフィルタ・レンジの定義に於ける開始単語及び終了単語としての2つの選択を用いて、選択肢表示リストを呼び出す。
ユーザが最初の選択に於ける文字間をタップする場合、機能1710乃至1712は、SIPが訂正モードになければ、訂正モードに入り、フィルタ・カーソルをタップされた位置に移動する。ユーザがフィルタに対して何ら変更をしていないので、この時点で選択肢表示リストの呼び出しは行われない。
上記に於いて、図13の機能1334に関して説明したように、訂正モードに於いて、ユーザがバックスペース・ボタン1116を押下することにより、バックスペースを入力する場合、機能1714は機能1718乃至1720を実行させる。機能1718は、バックスペースが入力される場合、図28及び29のフィルタ編集ルーチンを呼び出す。
図28に関して図示するように、フィルタ編集ルーチン2800は、非曖昧、曖昧、そして/及び 曖昧な長さのフィルタ要素の組み合わせを用いてフィルタ編集に於いてユーザに柔軟性を与えるように設計されている。
このルーチンは、機能2802、即ち、フィルタ・カーソルの現在位置の前に呼び出される選択に於いて、何らかの文字が存在するかどうかを確認するための検証を有する。何らかの文字が存在する場合、機能2802は機能2804にルーチンが古いフィルタ文字列として呼び出されたフィルタ文字列を定義させ、機能2806は、フィルタ・カーソル、新しいフィルタ・カーソル、及び、非曖昧に定義されたその文字列に於ける全ての文字の前にルーチンが呼び出された選択に於ける文字を作成する。訂正フィルタ文字として自動的に確認される編集の位置のために、これによって、ユーザは第一の選択の部分を定義することが出来る。
次に、機能2807は、フィルタ編集が呼び出された入力がバックスペースであるかどうかを確認するために検証を行う。該入力がバックスペースの場合、機能2807は機能2808乃至2812を実行させる。機能2808及び2810は、フィルタ・カーソルは非選択カーソルである場合、新しいフィルタ文字列の最後の文字を削除する。フィルタ・カーソルが現在の最初の選択肢に於ける一つ又は複数の文字の選択に対応する場合、これらの文字は、既述の機能2806の動作によって、既に新しいフィルタに含まれないことになっていた。機能2812は、古いフィルタ文字列を消去するが、これは、フィルタ編集への入力がバックスペースの場合、バックスペースの位置の右に先立つフィルタの一部は、フィルタに将来含まれる対象ではないということが前提であるからである。これは、以前、フィルタ・カーソルの位置の右にあったフィルタ文字列に於ける、あらゆる曖昧な要素、及び、非曖昧な要素を削除する。
フィルタ編集ルーチンが呼び出された入力が、一つ以上の非曖昧文字である場合、機能2814及び2816は新しいフィルタ文字列の最後に、一つ以上の非曖昧な文字を追加する。
フィルタ編集への入力が一つ以上の固定長の曖昧な文字の配列である場合、機能2818及び2820は、新しいフィルタの最後の配列に、それぞれの曖昧な文字を表す要素を置く。
フィルタ編集ルーチンへの入力が曖昧な長さの要素である場合、機能2822は、機能2824乃至2832を実行させる。機能2824は、フィルタの以前の非曖昧な部分に追加される場合、語彙単語の全て、又は、最初の部分に対応する、曖昧な入力に関連付けられた最高得点配列の文字を選択する。この機能が実行された場合、新しいフィルタ文字列の以前の部分の全ては、上述の機能2806の動作によって確認されることになることを念頭に置くべきである。次に、機能2826は、特定の最低得点以上を超えて、機能2824によって選択された何らかの配列が存在するかどうかを確認するための検証を行う。特定の最低得点以上を超える配列が存在する場合、機能2824は、語彙に無関係な最高得点文字配列を機能2828に選択させる。これが実行されるのは、機能2826に於ける検証の条件が満たされる場合、曖昧なフィルタが語彙単語の綴りを読むために使用されていることを示すからである。次に、機能2830及び2832は、機能2824乃至2828の動作によって選択された文字配列と、新しい曖昧なフィルタ要素を関連付け、該新しい曖昧なフィルタ要素を、新しいフィルタ文字列の最後に追加する。
次に、ループ2834は、古いフィルタ文字列に於けるそれぞれのフィルタ要素に対して実行される。該ループは、図28の残りに示された機能2836乃至2850、及び、図29に示された機能2900乃至2922を含む。
ループ2834の現在の古いフィルタ文字列要素が曖昧な場合には、機能2814乃至2820、機能2836、及び、機能2838によって新しいフィルタ文字列に追加された新しい固定長の要素を超えて拡大する固定長の要素は、それがそれらの新しい要素を超えて拡大する場合、新しいフィルタ文字列の最後に古い要素を追加する。これが実行されるのは、バックスペース・ボタンの使用以外にフィルタ文字列を編集することで、新しい編集の右の以前のフィルタの一部分に対応する以前入力されたフィルタ情報を消去しないことによる。
ループ2834の現在の古い要素が曖昧な場合、機能2822乃至2832、及び機能2840の動作によって新しいフィルタ文字列の最後に追加された新しい曖昧な長さの要素に於ける幾つかの配列を超えて拡大する固定長の要素は、機能2842乃至2850を実行させる。機能2842は、フィルタ文字列に追加された、新しい曖昧な長さの要素によって表されたそれぞれの文字配列に対して、ループを実行する。新しい曖昧な長さの要素の文字配列のそれぞれに対して実行されるループは、ループ2834の現在の古い曖昧な固定長の要素に一致するそれぞれの文字配列に対して実行されるループ2844を含む。該内部ループ2844は、古い要素が新しい要素に於ける現在の配列に一致するかどうか、新しい要素に於ける現在の配列を超えて拡大するかどうかを確認するために検証を行う機能2846を有する。古い要素が新しい要素に於ける現在の配列に一致し、該配列を超えて拡大する場合、機能2848は、新しい曖昧な長さの要素で表される文字配列のリストに、新しい要素から現在の配列を超えて拡大する古い要素からの配列の部分を加えて、新しい要素からの現在の配列に対応する文字の新しい配列を加える。
現在の古い要素が、新しいフィルタに追加された新しい固定長の要素を超えて拡大する何らかの文字配列を含む曖昧な長さの要素である場合、図29の機能2900は、機能2902乃至2910を実行させる。
機能2920は、古い曖昧な長さの要素で表されたそれぞれの配列に対して実行されるループである。それは、古い要素からの現在の配列が新しい固定長の要素に一致し、超えて拡大するかどうかをチェックする検証2904で構成される。古い要素からの現在の配列が、新しい固定長の要素に一致し、超えて拡大する場合、機能2906は、新しい要素を超えて拡大する古い要素からの拡大部分に対応する新しい文字配列を作り出す。該ループが終了した後、機能2908は、新しい配列が機能2906によって形成されたかどうかを確認するために検証を行い、新しい配列が機能2906によって形成された場合、機能2910に、新しい要素の後、新しいフィルタの最後に、その新しい曖昧な長さの要素を追加させる。該新しい曖昧な長さの要素は、機能2906によって作り出されたそれぞれの配列の可能性を表す。確率得点は、現在の新しい固定長の要素に一致させるために、ループ2902によって検出された、それぞれの文字配列の相対的確率得点に基づいて、それぞれの新しい配列に関連付けられることが望ましい。
現在の古い要素が新しい曖昧な長さの要素に於ける幾つかの文字配列を超えて拡大する、幾つかの文字配列を有する曖昧な長さの要素である場合、機能2912は、機能2914乃至2920を実行させる。機能2914は、新しい曖昧な長さの要素に於けるそれぞれの文字配列に対して実行されるループである。それは、古い曖昧な長さの要素に於けるそれぞれの文字配列に対して実行される内部ループ2916で構成される。該内部ループは、古い要素からの文字配列が、新しい要素からの文字配列に一致し、超えて拡大するかどうかを確認するために検証を行う機能2918及び2920で構成される。古い要素からの文字配列が、新しい要素からの文字配列に一致し、超えて拡大する場合、それらは、現在の古い要素文字配列からの拡大部分に加えて、新しい要素からの現在の配列に対応する新しい文字配列を、新しい曖昧な長さの要素に関連付ける。
ループ2834に於ける全ての機能が終了した時点で、機能2924は、その呼び出しによって作り出された新しいフィルタ文字列と共に、フィルタ編集への呼び出しから戻る
当然のことながら、本発明の様々な特徴に関する多くの実施形態に於いて、異なり、多くの場合、より簡便なフィルタ編集スキームを使用することが出来る。しかし、当然のことながら、図28及び29に示されたフィルタ編集スキームの主要な利点の一つは、例えば、ユーザが連続文字認識によって、曖昧なフィルタを即座に入力することができ、そして、さらに信頼性のあるアルファベット入力モード、又は、それ以後の連続文字認識によって、ユーザがそれを編集することが可能であるということである。例えば、該スキームによって、連続文字認識によって入力されたフィルタは、離散文字認識、ICA単語認識、手書文字認識からの入力によって、全体、又は、部分的に置換することが出来る。該スキームに基づいて、ユーザがフィルタ文字列の前の方の部分を編集する際に、フィルタ文字列の後ろの方の部分に含まれた情報は、示された実施形態に於いては、バックスペース文字の使用によるそうした意図をユーザが示さない限り、無効化されない。
ここで図17に戻り、機能1718に於けるフィルタ編集への呼び出しが戻る場合、機能1724は、フィルタ・編集への呼び出しによって戻された新しいフィルタ文字列と共に、選択のために、選択肢表示リストを呼び出す。
フィルタリング入力が受け付けられる場合は、常に、図16の機能1612に関して上述のフィルタ・キーの押下に対応して実行される認識の結果と、その他の手段の何れかによって、機能1722乃至1738が実行される。
機能1724は、システムが個別認識の状態にあるかどうか、及び、フィルタ・入力が音声認識によって提供されたかどうかを確認するために検証を行う。システムが個別認識の状態にあり、フィルタ入力が音声認識によって提供された場合、機能1724は、機能1726乃至1730を実行される。機能1726は、例えば図39に示されたウインドウ3906等のフィルタ文字選択肢ウインドウが現在表示されているかどうかを確認するために検証を行う。フィルタ文字選択肢ウインドウが現在表示されている場合、機能1728は該フィルタ選択肢ウインドウを閉じ、機能1730は、入力として最初の選択肢フィルタ文字と共に、フィルタ・編集を呼び出す。これにより、フィルタ文字列に於ける全ての以前の文字が非曖昧に定義されたフィルタ配列として処理される。機能1726の検証結果に関わらず、機能1732は、機能1722及びそれ以下に記載されている機能を引き起こす新しいフィルタ入力に対して、フィルタ編集を呼び出す。そして、機能1734は、現在の選択、及び、新しいフィルタ文字列に対して選択肢表示リストを呼び出す。そして、システムが個別モードの状態にある場合、機能1736及び1738は、フィルタ編集によって戻されたフィルタ文字列、及び、選択されたフィルタ文字として、新たに認識されたフィルタ入力文字と共に、フィルタ文字選択肢ルーチンを呼び出す。
図30は、フィルタ文字選択肢サブルーチン3000の動作を図示している。フィルタ文字選択肢サブルーチン3000は機能3002を有しており、該機能3002は、該ルーチンが呼び出された選択されたフィルタ文字が、それに関連した複数の最高の選択肢文字を有する現在のフィルタ文字列に於いて、曖昧な文字か、非曖昧な文字の何れかに対応するかどうかを確認するために検証を行う。フィルタ文字が曖昧な文字か、非曖昧な文字の何れかに対応する場合、機能3004は文字に関連付けられたすべての文字に対応するフィルタ文字選択肢リストを設定する。文字数が一度にフィルタ文字選択肢リストに適合する数を超える場合、該選択肢リストはユーザがそうした付加的な文字を視認することが出来るスクロール・ボタンを有することが出来る。ユーザが、より迅速に所望の文字を読み取ることが容易になるように、アルファベット順で選択肢が表示されることが望ましい。また、図30のフィルタ文字選択肢ルーチンは、機能3006を有しており、該機能3006は、選択されたフィルタ文字が現在のフィルタ文字列に於いて曖昧な長さのフィルタ文字列要素の文字に対応するかどうかを確認するための検証を行う。選択されたフィルタ文字が曖昧な長さのフィルタ文字列要素に対応する場合、機能3006は機能3008乃至3014を実行させる。機能3008は、選択されたフィルタ文字が曖昧な長さの要素の最初の文字であるかどうかを確認するために検証を行う。選択されたフィルタ文字が曖昧な長さの要素の最初の文字である場合、機能3010は文字配列に関連付けられた任意の曖昧な要素に於いて、すべての最初の文字に対応するフィルタ文字選択肢リストを設定する。
選択されたフィルタ文字が曖昧な長さの要素の最初の文字に一致しない場合、機能3012及び3014は、現在の最初の選択肢に於ける選択されたフィルタ文字に於けるように、同一文字によって前に置かれた曖昧な要素によって表された任意の文字配列に於いて、すべての文字に対応するフィルタ文字選択肢リストを設定する。機能3002乃至3004か、機能3006乃至3014の何れかの機能がフィルタ文字選択肢リストを作成した時点で、機能3016は、例えば図39に示されたウインドウ3906等のウインドウに於ける選択肢リストを表示する。
フィルタ文字選択肢ウインドウに於けるキャラクタ文字選択肢の使用によって、SIPプログラムが選択を受け付ける場合、機能1740は機能1742乃至1746を実行させる。機能1742は、そうした選択がなされたフィルタ選択肢ウインドウを閉じる。機能1744は、新しい入力としてフィルタ選択肢ウインドウで選択された文字と共に、現在のフィルタ文字列に対してフィルタ編集機能を呼び出す。機能1746は、フィルタ編集によって戻された新しいフィルタ文字列と共に選択肢表示リスト・ルーチンを呼び出す。
図45の訂正ウインドウ4526及び4538で示されたタイプのフィルタ文字列に於ける文字から上向きにドラッグされる場合、機能1747は機能1748乃至1750を実行させる。機能1748はドラッグされた文字に対してフィルタ文字選択肢ルーチンを呼び出す。該ルーチンは、その文字に関連付けられたその他の文字選択肢が存在しない場合、フィルタ文字選択肢ウインドウを生成させる。該ウインドウに於けるフィルタ選択肢文字を超えてドラッグが解除される場合、機能1749は解除が行われたフィルタ文字選択肢の選択を生成する。したがって、機能1749は、既述の機能1740乃至1746の動作を行う。フィルタ文字選択肢ウインドウに於ける選択肢以外でドラッグが解除される場合、機能1750はフィルタ選択肢ウインドウを閉じる。
機能1602及び1610に関して上述されているように、例えば、訂正モード中に大語彙ボタン、又は、氏名語彙ボタンを押下すること等、再発話ボタンの押下以外の方法で再発話が受け付けられる場合、図13及び14の機能1350、1356、1414、及び1416のそれぞれに関して上述されているように、図17の機能1752は機能1754及び1756を実行させる。機能1754は、訂正ウインドウの選択発話リストに、あらゆるそうした新しい発話を追加し、機能1756は新しい発話を使用する再認識を実行するための選択に対して選択肢表示リスト・ルーチンを呼び出す。
ここで図31乃至41を再び参照すると、テキスト配列を作成するために上述のユーザ・インターフェイスをどのように使用することが出来るのかについて説明する。この特定の配列に於いて、該インターフェイスは個別モードの状態、即ち、離散発話が認識される毎に表示される選択肢リストと共に、訂正ウインドウを表示する離散認識モードの状態にあるものとして説明される。
図31に於いて、数字3100は、新しい言語文脈に於けるディクテーションを開始するためにユーザがトーク・ボタン1102をタップすることを示すPDA画面の画面写真を指し示す。大語彙ボタン1132の強調表示で示されているように、SIP認識手段は大語彙モードの状態にある。連続/離散ボタン1134に於けるそれぞれのドットの配列は、認識手段が離散認識モードの状態にあることを示す。SIPは、図18の数字1810乃至1816に関して上述された、発話認識持続の最後への押下クリック・モードの状態にあると想定される。結果として、トーク・ボタンのクリックによって、次の発話の最後まで認識が行われる。数字3102は単語「this」に関するユーザの発話を表す。数字3104は、SIPテキスト・ウインドウ1104に認識されたテキスト3106をセットし、該テキストをアプリケーション・ウインドウ1106に出力し、最初の選択ウインドウ1202、及び、最初の選択肢リスト1208に認識された単語を含む訂正ウインドウ1200を表示することによる該発話への対応後に於けるPDAの画面の画像を指し示す。
図31の例では、数字3108で示されているように、ユーザは大文字使用ボタン1222をタップする。これにより、PDAの画面はSIPバッファに於ける現在の最初の選択肢とテキスト出力、及び、アプリケーション・ウインドウが頭文字の大文字表記を有するように変化される、3110で示された状態となる。
この例では、数字3102で示されているように、ユーザは継続ボタン1104をクリックし、数字3114で示されているように、単語「is」を発話する。この例では、該発話が、PDAの画面が数字3116で示された状態、即ち、最初の選択肢3118及び、その認識1208の為の新しい選択肢リストとして、新しい訂正ウインドウ1200が誤って認識された単語を有した状態で表示される状態となる「its」として、誤って認識されることを想定している。
図32はこの例の続きを表しており、ここでは、数字3202で示された画像に於ける選択肢単語3200、即ち、「is」をクリックする。これにより、PDAの画面は、数字3204で示された状態、即ち、訂正ウインドウが取り除かれ、SIPバッファ・ウインドウ、及び、アプリケーション・ウインドウに訂正されたテキストが現れる状態となる。
数字3206で示された画面写真に於いて、ユーザが、ボタン1130の強調表示によって示されているように、現在の認識モードを音名語彙に変更する音名語彙ボタン1130をタップすることを示す。機能1410乃至1412に関して上述しているように、このボタンのタップは、現在の認識持続モードに従って、音声認識を開始する。これにより、システムは数字3208で示されているように、音名「e」に関する次の発話を認識する。
認識の誤りを即座に訂正するための現在のインターフェイスの能力を強調するために、発話3208に対応して、個別モードで示される訂正ウインドウによって示されているように、この例は、システムがこの文字を文字「p」3211として誤って認識することを想定している。しかし、3210で示された訂正ウインドウから分かる通り、訂正文字「e」は、訂正ウインドウで示された選択肢の一つである。数字3214で示された訂正ウインドウに関する図では、ユーザは、PDAの画面が、数字3216で示された状態、即ち、訂正文字がSIPバッファ及びアプリケーション・ウインドウに入力される状態となる選択肢3212をタップする。
図33はこの例の続きを図示しており、ここでは、ボタン11,024で示された画面写真に於いて示されているように、ユーザが句読点語彙ボタン11,024をタップする。これは、数字3300によって示された単語「period」の発話を引き起こす発話認識を開始し、該発話認識は、3304で示された訂正、即ち、句読点記号「.」がユーザによる認識をより簡単にするための句読点記号名に続く最初の選択肢ウインドウに於いて示される訂正を生み出すために、強調表示の数字3302で示されているように、認識語彙を句読点語彙に変更する。
この例では、これは訂正認識であるので、画面写真の数字3306で示されているように、ボタン1130の押下、及び、文字「l」に関する発話3308を言うことによって、ユーザはそれを確認し、音名語彙を使用する新しい発話の認識を開始する。PDAの画面が数字3312で示された状態となるまで、ピリオドが続く文字を入力する該プロセスが継続される。この点で、画面写真3314で示されているように、テキストが選択され、図34の左上隅付近の画面写真3400に於ける訂正ウインドウ1200が表示されるテキスト「e.l.v.i.s」をユーザがドラッグすることを想定している。選択されたテキスト文字列が現在語彙にないことが想定されているので、この選択肢リストに表示される代替選択肢は存在しない。3402で示された訂正ウインドウの図に於いて、ユーザは、図27に関して上述された単語形式リスト・ルーチンを呼び出す単語形式ボタン1220をタップする。選択されたテキスト文字列はスペース(空白)を含むので、それは機能2716乃至2728で図示された図27に示されたルーチンの一部を実行させる複数単語選択として処理される。これは、スペース(空白)が訂正ウインドウの選択から取り除かれた選択肢3406を含む、例えば3404で示された選択肢リストを有する。この例では、ユーザは最も近い選択肢3406に隣接する編集ボタン1232をタップする。数字3410で示された訂正ウインドウの図に示されているように、これにより、3412で示された訂正ウインドウの図で示されているように、選択肢3406は最初の選択肢として選択される。訂正ウインドウが画面写真3414に於いて示された状態である時点で、最初の選択肢がすべて大文字になるまで、ユーザは大文字使用ボタン1222をタップする。この時点で、3416で示されているように、ユーザは句読点語彙ボタン1124をクリックし、3418で示された発話「comma」を発話する。この例では、この発話が正しく認識され、数字3420によって示された訂正ウインドウ1200を表示し、前出の最初の選択肢「e.l.v.i.s」をテキストとして出力させることを想定している。
図35はこの例の続きである。図35に於いて、ユーザは数字3500で示されているように、大語彙ボタンをクリックし、発話「the」3502を言うことが想定される。これにより、訂正ウインドウ3504が表示される。ユーザは、3506によって示されているように、大語彙ボタンを再び押下することによる認識を確認することによって対応し、3508によって示された発話「embedded」を発話する。この例では、これによって訂正ウインドウ3510が表示され、該訂正ウインドウ3510に於いて、発話が単語「imbedded」として誤って認識され、所望の単語が最初の選択肢リストに示されない。この時点から開始され、コメント3512に示されているように、複数の異なる訂正オプションが図示される。
図36は誤った認識に関連する第1及び第2選択肢リストをスクロールする訂正オプションを図示している。3604で示された訂正ウインドウの図に於いて、訂正ウインドウのスクロール・バー3602に於けるページ下スクロール・ボタン3600をタップすることが示されたユーザによって、訂正ウインドウ3606の図に於いて示されているように、第1選択肢リスト3603は第2選択肢リスト3605の最初の画面によって置換される。この図からわかるように、訂正ウインドウのスライド・バー3608は、第1選択リストの最後に関連したスクロール・バーの位置を規定する水平バー3609の下に移動した。この例では、所望の単語は図3606に示されたアルファベット順の第2選択肢リストの部分に存在しないので、ユーザは3610によって示されているように、スクロール・バーのページ下ボタンを押下する。これにより、訂正ウインドウは該状態に於いて、アルファベット順に掲載された選択肢の新しい画面が示された図3612で示された状態となる。この例では、所望の単語「embedded」は3616で示されているように、選択肢リストに示される。この例では、3618で示された訂正ウインドウの図に示されているように、ユーザはこの所望の選択肢に関連した、この選択肢ボタン3619をクリックする。これにより、訂正ウインドウは、この選択肢が第1選択肢ウインドウに表示される、3620で示された図の状態となる。この例では、数字3622で示されているように、ユーザは、画面写真3624で示されているように、この第1選択肢の最初の文字が大文字化される大文字入力ボタンをタップする。
したがって、SIPユーザ・インターフェイスは、ユーザが比較的多くの認識選択肢の中から選択することが可能な迅速な方法を提供することがわかる。図示された実施形態では、第1選択肢リストは、6個の選択肢で構成され、第2選択肢リストは最高18個の追加の選択肢に関する最大3つの追加の画面を有することが可能である。選択肢がアルファベット順に配列され、4つの画面すべてを1秒未満で見ることが出来るので、ユーザは極めて迅速に、最大24個の選択肢の中から選択することが可能である。
図16の機能1664乃至1666に関して上述したように、図37は選択肢の最初の部分をドラッグすることにより、選択肢をフィルタリングする方法を図示している。この図の例では、第1選択肢リストは3700で示された訂正ウインドウの図で示された選択肢3702を含むことを想定しており、それには所望の単語「embedded」の最初の6文字が含まれる。訂正ウインドウ3704に図示されているように、ユーザはこれらの最初の6文字をドラッグし、システムは、画面写真3706に表示されているように、最初の6文字に対応する非曖昧なフィルタから始まる認識候補に限定された新しい訂正ウインドウを表示することによって対応する。この画面写真では、所望の単語は第1の選択肢であり、ボックス3708で示されているように、第1の選択肢に関して非曖昧に確認された最初の6文字は強調表示で示され、フィルタ・カーソル3710もまた図示される。
図38は、図17の機能1706乃至1708に関して上述された選択肢リストに於いて2個の選択肢をドラッグすることによって選択肢をフィルタリングする方法を図示している。この例では、2個の表示された数字3802及び3804の間にアルファベット順で所望の選択肢「embedded」が存在する場合に、訂正ウインドウ3800は所望の選択肢「embedded」を表示する。図3806に示されているように、ユーザはこれら2つの遷択肢をドラッグすることによって、所望の単語がアルファベットに関するこの範囲に収まることを示す。これにより訂正ウインドウが表示され、該訂正ウインドウに於いては、画面写真3808で示されているように、使用可能な選択肢がアルファベットの選択された範囲で生じる単語に限られる。この例では、第1の選択肢、及び、3806に示された選択によるフィルタリングの結果として、所望の単語が選択されることが想定されている。この画面写真では、図3806で選択された2つの選択肢の最初の部分を形成する第1の選択肢の部分が、フィルタ文字列3810の非曖昧に確認された部分として示されており、フィルタ・カーソル3812が確認されたフィルタ部分の後にセットされる。
図39は、所望の単語の選択肢を選択支援する個別モードでアルファベットのフィルタリングが使用される方法を図示している。この例では、訂正ウインドウ図3900で示されているように、ユーザはフィルタ・ボタンを押下する。デフォルトのフィルタ語彙は音名語彙であることが想定されている。フィルタ・ボタンの押下によって、次の発話に対する音声認識が開始され、ユーザは3902に示されているように、文字「e」を発声する。これにより、訂正ウインドウ3904が表示され、該訂正ウインドウ3904に於いては、フィルタ文字が「p」と誤って認識されたことを想定している。示された実施形態に於いては、個別モードでアルファベット入力も認識用に表示された選択肢リストを有する。この場合、それは図30のフィルタ文字選択肢サブルーチンに関して上述されたタイプのフィルタ文字選択肢リスト・ウインドウ3906である。この例では、図3908に示されているように、ユーザは新しい訂正ウインドウ3900が表示される所望のフィルタリング文字、即ち、文字「e」を選択する。この例では、ユーザは図3912に示されているように、フィルタ・ボタンを再び押下することによって、追加のフィルタリング文字を入力することを決定する。これにより、フィルタ文字選択肢ウインドウ3918を表示する訂正ウインドウ3916が表示される。該訂正ウインドウに於いて、フィルタリング文字は正しく認識されており、ユーザは追加のフィルタリング文字を話すこと、又は、ウインドウ3916に示されているように、訂正文字を選択することの何れかによって、それを確認することが出来た。所望のフィルタリング文字の確認によって、非曖昧に確認されたフィルタの文字列として、フィルタ歪み「em」と共に新しい訂正ウインドウが表示される。画面写真3920で示された例では、これによって所望の単語が認識される。
図40は、アルファブラボ、ICA単語、アルファベットの綴りを用いたアルファベットのフィルタリング方法を図示している。画面写真4000に於いて、ユーザはアルファブラボ・ボタン1128をタップする。図14の機能1402乃至1408によって上述されているように、これはアルファベットをICA単語アルファベットに変更する。この例では、ダブルクリックによるアルファ表示変数が設定されていないということが想定されている。したがって、図14の機能1406は、アルファブラボ・ボタン1128の押下中に画面写真4004で示されたICA単語4002のリストを表示する。この例では、4008、及び、文字「m」を表す第2のICA単語「Mike」の発話で示されているように、ユーザは、アルファブラボ・キーによる第2の押下に続く、文字「e」を表すICA単語「echo」を入力する。この例では、これら2個のアルファベット・フィルタリング文字の入力によって、所望の文字「em」で構成された非曖昧なフィルタ文字列の作成に成功し、所望の単語「embedded」の認識を実現する。
図41は、ユーザがフィルタとして選択肢の部分を選択し、システムの語彙に存在しない一連の単語、即ち、この場合、まとめられた単語「embedded」を完成させるために、アルファブラボ綴りを使用する方法を図示している。
この例では、一つの選択肢4100を含み、所望の単語の最初の6文字を含む、訂正ウインドウ4100がユーザに提示される。訂正ウインドウ4104に示されているように、ユーザは、それらの文字が現在のフィルタ文字列の非曖昧に確認された文字となるこれら最初の6文字をドラッグする。これは訂正ウインドウ4106に結実する。画面写真4108は、ユーザがフィルタ・ボタン1218からドラッグし、離散/連続ボタン1134で解除する該訂正ウインドウの表示を示しており、画面写真4108で示されたボタンに実線で示されているように、それを離散フィルタ・ディクテーション・モードから連続フィルタ・ディクテーション・モードに変更する。画面写真4110に於いて、ユーザは再びアルファ・ボタンを押下し、下記のICA単語、「Echo,Delta,Sierra,Tango」を含む発話を発声する。これにより、現在のフィルタ文字列が所望の単語の綴りに対応させられる。このフィルタ文字列と一致する語彙に単語が存在しないので、訂正ウインドウ4114で示されているように、フィルタ文字列そのものは、第一の選択肢となる。4116で示されたこのウインドウの図に於いて、ユーザは第一の選択肢の選択を示すためにチェック・ボタンをタップし、PDAの画面は4108で示された状態となる。
図42乃至44は、連続音声のディクテーション、認識、及び訂正について実例を説明している。画面写真4200に於いて、ユーザは、図13の機能1310乃至1314に関して上述したクリア・ボタン1112をクリックする。これにより、画面写真4204によって示されているように、アプリケーション・ウインドウ1106に於いて、対応するテキストと関連する変更を生じることなく、SIPバッファ1104に於けるテキストがクリアされる。画面写真4204に於いて、ユーザは、画面写真4204で示され実線を実行するために、画面写真4002に於けるドットの配列によって、ボタンに示された離散認識から変更される連続/離散ボタン1134をクリックする。これにより、現在の認識持続モードに従って、音声認識が開始され、数字4206で示されているように、ユーザは以下の単語「large vocabulary interface system from voice signal technologies period」の連続発話を発声する。画面写真4208に示されているように、システムは、この発話を認識し、認識されたテキストをSIPバッファ1104にセットし、オペレーティング・システムを介して、アプリケーション・ウインドウ1106に対応する。認識されたテキストは、一度にSIPウインドウ内に適合するよりも僅かに多いので、ユーザは数字4210で示されているようにSIPウインドウに於いてスクロールを行い、図14の機能1436乃至1438にその単語を選択させ、それに対する訂正ウインドウを生成させるために、単語「vocabularies」4214をタップする。それに応じて、訂正ウインドウ4216が表示される。この例では、所望の単語「vocabulary」4218は訂正ウインドウの選択肢リストに存在し、訂正ウインドウ4220の図では、ユーザがこの単語が選択されるように、該単語をタップし、これにより、アプリケーション・ウインドウに於けるSIPバッファの両方に於ける単語「vocaburaly」がその選択された単語に置換される。
ここで、図43に於ける説明を続けると、この訂正は画面写真4300によって示される。この例では、図4302で示されているように、ユーザは4個の間違った単語「enter faces men rum」をドラッグすることによって、該単語を選択する。これにより、図4304によって示されているように、機能1502及び1504は、選択肢としてドラッグされた単語を用いて選択肢ウインドウを表示する。
図44は、図43の下部に示された訂正ウインドウが、訂正ウインドウの水平及び垂直スクロールの組み合わせ、及びそれに表示された選択肢によって、如何にして訂正することが出来るかを図示している。数字4400は、図43の4304に示された同一の訂正ウインドウの図を指し示している。訂正ウインドウに於いて、スクロール・バー4602だけでなく、この図に於ける水平スクロール・バー4402も表示される。ユーザは、垂直スクロール・バーに於けるページ下ボタン3006をタップすることが示され、これにより、表示された選択肢リストの部分は、図4400に示された1ページの第1アルファベット順選択肢リストの表示から、図4404に示された第2のアルファベット順選択肢リストの第1ページに移動される。この例では、第2選択肢リストのこの部分に於ける認識候補の内、「interface system from」という所望の認識出力と一致する文字配列で始まるものはない。したがって、数字4408で示されているように、ユーザは再びページ下スクロール・ボタン3600をタップする。これにより、訂正ウインドウは4410で示された状態、即ち、表示された選択肢4412の2つが所望の認識出力に一致する文字配列から始まる状態となる。これらの認識候補が所望の出力に一致したかどうかを確認するために、ユーザは4414に示されているように、水平スクロール・バー4402に於いて、同類の単語をスクロールする。これにより、ユーザは選択肢4418が所望の出力に一致するかどうかを確認することが出来る。4420で示されているように、ユーザはこの選択肢をタップし、画面写真4422に示されているように、SIPウインドウ1104及びアプリケーション・ウインドウ1106の両方に於いて、ディクテーションされたテキストに該選択肢が挿入される。
図45は、連続して発話された音名の認識によって形成され、フィルタ文字選択肢ウインドウで編集された曖昧なフィルタの使用が、如何にして間違ったディクテーションを迅速に訂正することが出来るかを図示している。この例では、ユーザは4500で示されているように、トーク・ボタン1102を押下し、4502で示されているように、単語「trouble」を発話する。この例では、4504で示されているように、該発話が単語「treble」として誤って認識されることを想定している。この例では、ユーザは4506で示されているように、単語「treble」をタップし、これにより、4508で示された訂正ウインドウが表示される。所望の単語は選択肢の何れかとして示されていないので、ユーザは4510で示されているように、フィルタ・ボタン1218を覆って、所望の単語「trouble」に於けるそれぞれの文字のネームを含む連続発話4512を形成する。この例では、フィルタ認識モードは連続音名認識を盛り込むためにセットされることが想定されている。
この例では、システムはリスト4518を表示することで、発話4512の認識に対応する。この例では、この発話の認識の結果によって、一つの曖昧な長さの要素で構成されるフィルタ歪みが形成されることが想定されている。機能2644乃至2652に関して上述したように、曖昧な長さのフィルタ要素は、文字配列の対応箇所に、曖昧な要素で表された文字配列の一つを含む任意の認識候補を許容する。訂正ウインドウ4518に於いて、曖昧なフィルタ要素に対応する第1選択肢単語4519の一部分は、曖昧なフィルタ・インジケータ4520で示されている。フィルタは曖昧な要素を使用するので、表示された選択肢リストは、曖昧な要素で表された適合する文字配列に対応する最初の選択肢の一部分よりも短い長さの文字配列など、異なる最初の文字配列で始まる最高得点の認識候補を有する。
この例では、ユーザは第1選択肢の第1文字から上方向にドラッグし、これにより、図17に関して上述した、機能1747乃至1750の動作を生じさせる。これにより、フィルタ選択肢ウインドウ4526が表示される。訂正ウインドウ4524に示されているように、ユーザは最初の所望の文字、即ち、文字「t」までドラッグし、機能1749、及び、機能1740乃至1746が実行される位置で、該ドラッグを解除する。これらによって、フィルタ選択肢ウインドウが閉じられ、非曖昧な訂正として、選択された文字と共に以前の曖昧なフィルタ要素に追加されたフィルタが呼び出され、4528で示されているように、新しいフィルタと共に、新しい訂正ウインドウが表示される。この訂正ウインドウに示されているように、第1選択肢4530は、第1文字「t」に対する非曖昧なフィルタ・インジケータ4532、及び、残りの文字に対する曖昧なフィルタ・インジケータ4534と共に表示される。次に、4536で示された同一の訂正ウインドウの図で示されているように、ユーザは新しい第1選択肢の5番目の文字「p」から上方向にドラッグし、新しい訂正ウインドウ4538が表示される。その文字と第1選択肢に於いて先行する全ての文字が、現在のフィルタ歪みで非曖昧に定義される文字「p」へのドラッグを、ユーザが解除する時、これは、第1選択肢4542が所望の単語である選択の結果として表示される、新しい訂正ウインドウ4520に示され、フィルタの非曖昧な部分は、非曖昧なフィルタ・インジケータ4544、及び、図29に示されているように、機能2900乃至2910の動作によってフィルタ文字列に残っている、曖昧なフィルタ要素の残りの部分によって示される。
図46は、ウインドウズCEのオペレーティング・システムと共に標準規格となる文字認識手段に類似した文字認識手段を使用することにより、SIP認識手段によってユーザがテキスト及びフイルタリング情報を入力可能になることを図示している。
この図の画面写真4600に於いて示されているように、ユーザが図14の機能キーの機能1428及び1430から上方向にドラッグする場合、パンチ及びメニュー4602が表示され、ユーザがメニューの文字認識入力4604を解除する場合、図47で説明された文字認識モードがオンの状態になる。
図47に示されているように、これにより、機能4702は図46に示された文字認識ウインドウ4608を表示し、ユーザが機能メニュー4602に於ける他の入力オプションを選択することによって、ウインドウを終了するために選択するまで繰り返される入力ループ4704を入力する。このループの状態にある場合、ユーザが文字認識ウインドウを接触すると、動きを記録するそうした接触、即ち、あるとすれば、文字認識ウインドウに一致する画面のタッチ・スクリーンの一部分の表面への接触が継続する間、機能4906は「ink」を記録する。ユーザがこのウインドウに於いて接触を解除する場合、機能4708乃至4714が実行される。機能4710は、現在ウインドウにある「ink」の文字認識を実行する。図46に於ける数字4610によって示されているように、機能4712は文字認識ウインドウをクリアする。そして、機能4708は、対応する認識された文字をSIPバッファおよびオペレーティング・システムに供給する。
図48は、画面写真4600に示された機能メニューにおいて手書文字認識オプションをユーザが選択する場合、画面写真4802に示されているように、手書文字認識入力ウインドウ4008がSIPに関連して表示されることを図示している。
手書文字モードの動作は、図49に図示されている。手書文字モードが入力されると、機能4902は手書文字認識ウインドウを表示し、ユーザが他の入力オプションを使用することを選択するまで、ループ4903が入力される。このループでは、図48に示された削除ボタン4804以外の任意の場所で、ユーザが手書文字認識ウインドウに接触すると、あるとすれば接触中であるが、機能4904によって、動きが「ink」として記録される。図48に示された記録ボタン領域4806をユーザが接触すると、機能4905は機能4906乃至4910を実行させる。機能4906は、手書文字認識ウインドウに以前入力された任意の「ink」に関して手書文字認識を実行する。機能4908は認識された出力をSIPバッファおよびオペレーティング・システムに供給し、機能4910は認識ウインドウをクリアする。ユーザが図48に示された削除ボタン4804を押下する場合、機能4912および4914は任意の「ink」に関する認識ウインドウをクリアする。
当然のことながら、認識ボタン4806を使用することで、ユーザは、システムに以前手書文字認識にあった「ink」を認識するよう指示すること、および、認識される新しい単語の書き込みを開始することが可能となる。
図50は、機能メニューから選択することが可能なキーパッド5000を示している。
音声認識SIPの一部として即座に使用可能な文字認識、手書文字認識、及びキーパッド入力方法は、一秒足らずでユーザに現時点で最も便利なものに依存するこれらの異なるモードを交互に切り換えさせるので、極めて有利である場合が多い。そして、それにより、これらのモードすべての出力をSIPバッファにおける編集テキストで使用することができる。
図51に示されたように、SIPバッファの一つの実施形態において、ユーザがフィルタ・ボタン1218から上方向にドラッグする場合、ウインドウ5100は、ユーザに任意のフィルタ入力モード・オプションを提供する画面である。これらは、音名音声認識、アルファブラボ音声認識、文字認識、手書文字認識、および、キーボード・ウインドウを使用するオプションを有する。また、それによって、ユーザは、任意の音声認識モードが離散型であるか連続型であるか、及び、音名認識文字認識及び手書文字認識入力がフィルタ文字列に於いて曖昧なものとして処理されるかどうか、を選択することが可能である。このユーザ・インターフェイスによって、ユーザは現時点、及び、現地点に適切なフィルタ入力モードを即座に選択することが可能である。例えば、発話することで他人の感情を害するのではないかと心配する必要のない静かな場所では、多くの場合、連続音名認識は非常に有用である。しかし、雑音が多く存在し、発話することで近くにいる人の感情を害することはないだろうとユーザが感じる場所では、アルファブラボ認識はさらに適切である可能性がある。発話によって他人の感情を害する可能性のある図書館のような場所では、文字認識、手書文字認識、キーボード入力等の消音フィルタ入力モードはより適切である可能性がある。
図52は、認識をフィルタ処理するために、文字認識を如何にして選択することが出来るかに関する例を説明している。5200は訂正ウインドウの一部分を示しており、該ウインドウに於いて、ユーザはフィルタ・ボタンを押下し、上方向にドラッグしており、これにより図51に示されたフイルタ入力モード・メニュー5100が表示され、その後、文字認識オプションを選択している。画面写真5202に於いて示されているように、これにより、文字認識入力ウインドウ4608が、ユーザが訂正ウインドウ全体を視認することが可能な位置に表示される。画面写真5202では、ユーザが文字「e」を描いており、その文字の描画からスタイラスを解除した際に、文字「e」がフィルタ文字列に入力され、訂正ウインドウ5204がこの例に表示される。5206で示されているように、ユーザは文字認識ウインドウに文字「m」を追加入力し、この文字の描画からスタイラスを解除すると、5208で示されているように、文字「m」の認識によって、フィルタ文字列が「e」を含む。
図53は画面写真5300の一部分から始まるが、ここでは、フィルタ入力モード・メニューの表示を行うために、ユーザがタップし、フィルタ・キー1218から上方向にドラッグし、そして、手書文字オプションを選択している。これは、訂正ウインドウの表示を遮断しない位置に表示された手書文字入力ウインドウ4800と共に、5302のような画面を表示する。画面写真5302では、ユーザは連続型の筆記体で文字「embed」を筆記し、そうした文字の認識にために、記録ボタンに接触しようとしている。ユーザがそのボタンをタップした時点で、訂正ウインドウ5306によって示されているように、曖昧なフィルタ・インジケータ5304によって示された曖昧なフィルタ文字列が、認識された文字に対応する第1選択肢ウインドウに表示される。図54は、アルファベット・フィルタリング情報を入力するために、ユーザが如何にしてキーパッド・ウインドウ5000を使用することが出来るのかを図示している。
図55は、手書文字認識を訂正するために音声認識を如何にして使用することが出来るかを図示している。画面写真5500は、SIPバッファ・ウインドウ1104にテキストを入力するための位置に表示された手書文字入力ウインドウ4800を示している。この画面写真では、ユーザは単語をちょうど書き終えたところである。数字5502乃至5510は、追加の5つの単語の手書文字を示している。これらの図のそれぞれに於ける単語は、以前書かれた単語の認識を行うために、記録ボタンを押下することによって開始される。数字5512は、手書文字認識ウインドウを指し示しており、ここで、最後の手書文字の単語「speech」の認識を行うために、ユーザは記録ボタンへの最後のタップを行う。図55の例では、一連の手書文字が認識された後に、アプリケーション・ウインドウ1106に於けるSIPバッファ・ウインドウ1104は、5516で示された画面写真5514に図示された状態を有していた。ユーザは、誤って認識された単語「snackshower」をドラッグする。これにより、訂正ウインドウ5518が閉じされる。この例では、ユーザは再発話ボタン1216をタップし、離散的に所望の単語「much・・・slower」を再発話する。図23に関して上述した「get」選択肢機能を僅かに修正した機能の動作によって、この例の場合では、数字5522で示されているように、所望の単語である、最高得点認識候補を選択するため、数字5504及び5506によって指し示された入力に於ける手書文字「REC」を結合することからの認識結果と、発話5520の認識からの認識得点が、これによって結合される。
当然のことながら、5516で示されているように、選択された手書文字出力を置換するために、音声認識の出力を発話5520が使用した場合、再追加ボタンの代わりに、訂正ウインドウ5518に於ける新しいボタンを押下することが可能であった。
図56に示されているように、訂正ウインドウ5518に於ける再発話ボタンの代わりに、フィルタ・ボタン1218をユーザが押下した場合、図55の5516で選択された2つの単語の手書文字認識をアルファベット順にフィルタするために、図56に於いて示された発話5600等、周知の単語に音声認識を使用することが可能であった。
図57は、離散音声認識、及び、連続音声認識からそれぞれ選択するために、2つの個別の最高レベル・ボタン5702及び5704が存在する、SIP音声認識インターフェイスの代替実施形態5700を図示している。それはボタンが音声認識手段のユーザ・インターフェイスの最高レベルで提供される設計上の選択であることが望ましい。しかし、さらに迅速で自然な連続音声認識と、さらに信頼出来るが、さらに不完全で遅い離散音声認識を即座に切り換える能力は、極めて望ましいものになり得る能力であり、実施形態によっては、離散認識と連続認識の選択に対する個別の最高レベル・キーの割り当てを正当化している。
図22のルーチンによって形成された2つのアルファベット順の選択肢リストというよりは、単一のスクロール可能な得点順選択肢リストを形成していることを除いて、図58は図22に示された表示選択肢リスト・ルーチンの代替実施形態を示している。機能2226及び2228も図58に示されたルーチンのバージョンで削除されたという事実に関する例外を用いて、図22に含まれた言語と異なる言語の部分だけに下線が引かれる。
図67乃至74は、開示された携帯電話音声認識エディタの様々なモードやメニューで使用される機能に対する、基本的な電話番号キーパッドの様々なマッピングを示している。編集モードに於ける主要な番号付与された電話キー・マッピングが図67に図示されている。図68は、編集モードの状態で、ユーザが一つのキーを押下した場合に選択される入力モード・メニューの電話キー部分を示している。入力モード・メニューは、システムで使用可能な様々なテキスト及びアルファベット入力モードから選択するために使用される。図69は、ユーザが表示された訂正ウインドウを有する際に、数字電話キーパッドで使用可能な機能を図示しており、キー「2」を押下することで編集モードから実行可能である。図70は、図67に図示された編集モードから、キー「3」を押下することによって選択される編集メニューから使用可能な、数字電話キー・コマンドを図示している。このメニューは、電話キーパッドのナビゲーション・キーを押下することにより実行されるナビゲーション機能を変更するために使用される。図71は、キー「3」の押下によって訂正ウインドウで使用可能なナビゲーション・オプションを表示する、幾分似た訂正ナビゲーション・メニューを図示している。訂正ウインドウの状態でナビゲーション・モードを変更することに加え、それにより、ユーザは選択肢が選択される際に実行される機能を変更することが出来る。
図72は、キー・アルファ・モードに於ける数字電話キー・マッピングを図示している。それに関連した文字を有する電話キーを押下することによって、押下されたキーに関連した一連の文字の内、所望の文字に関連したICA単語を発話するようユーザに要求するプロンプトが携帯電話画面に表示させる。このモードは、図68に示された入力モード・メニューの状態で、電話キー「3」をダブルクリックすることによって選択される。
図73は基本的なキー・メニューを示しており、このキー・メニューによって、ユーザは最も一般的な一連の句読点と、テキスト編集で使用される機能キーから即座に選択することができ、キー「1」を押下することによって、あまり一般的に使用されない句読点記号の選択を可能にするメニューを視認することが出来る。基本的なキー・メニューは、図67に図示されているエディタ・モードに於いて「9」を押下することによって選択される。図74は、編集オプション・メニューを示しており、該メニューは図67に於いて示されているエディタに「0」を押下することによって選択される。これは、他のモードやメニューで使用することが出来ないエディタの使用に関連した基本的なタスクをユーザが実行することが可能なメニューを有する。
メニューやコマンド・リストが表示された場合に、携帯電話画面の一番上に表示されるタイトル・バーは、図67乃至74に於いて示されたそれぞれの数字電話キー・マッピングの一番上にある。これらの図から分かるように、図68、70、71,73、74が「MENU」で始まるタイトルを有している一方で、図67,69、72では、表示されたオプションがコマンド・リストの一部であることを示す文字「Cmds」と共にタイトル・バーが図示されている。これは、図67、69、72に於いて示されたコマンド・リストと、これらの図の他の部分に示されたメニューとの区別を示すために使用される。コマンド・リストは、そのコマンド・リストが表示されない場合でさえ、一つのモードで使用可能なコマンドを表示する。67のコマンド・リストに関連したエディタ・モードや、図72に関連するキー・アルファ・モードの状態で、電話キーがこれらの図で示される機能マッピングを有しているとしても、通常、テキスト・エディタ・モードは表示される。通常、図69に於いて示されるコマンド・リストに関連した訂正ウインドウ・モードの状態では、訂正ウインドウは携帯電話画面に表示される。これら全てのモードに於いて、図75の数字7500で示されているように、ユーザはメニュー・ボタンを押下するだけで、図75に図示されているように、現在の電話キー・マッピングを確認するために、コマンド・リストにアクセスすることが可能である。図75に於いて示された例では、表示画面7502は、メニュー・ボタンを押下する前に、エディタ・モードのウインドウを表示する。ユーザがメニュー・ボタンを押下する場合、7504で示されているように、エディタ・コマンド・リストの第1ページが表示され、そして、ユーザは、数字電話キーでマッピングされたコマンドだけでなく、7508、及び、画面7510で示されているような、ナビゲーション・キー「OK」と「メニュー」はもちろんのこと、画面7506に於いて示されているような、メニュー「トーク」及び「メニュー」を用いてマッピングされたコマンドをも確認するために、コマンド・リストに於いて上方向、又は、下方向にスクロールするオプションを有し、コマンド・リストが入力される時点で、現在のモードに関連した追加オプションがある場合、強調表示7512をスクロールし、OKキーを使用することによって、コマンド・リストからそれらを選択することが出来る。図75に於いて示された例では、一般的な電話送受機の形状を有する通話インジケータ7514が、ユーザに対して、携帯電話が現在通話状態にあることを示すそれぞれのタイトル・バーの左側に表示される。この場合、検出されたセルのマイクを消音し、電話での会話に関してユーザ側からの音声のみを録音し、電話での会話に関してユーザ側に対してのみ再生することをユーザが即座に選択可能なエディタに於いて、特別機能が使用可能である。
図76乃至78は、図67及び75に示された単なるコマンド・リストに比して、より詳細なエディタ・モードの機能に関する擬似コードの記述を示している。この擬似コードは、エディタが様々なユーザ入力に対応する一つの入力ループ7602として表されている。
一つのナビゲーション・キーを押下すること、又は、対応するナビゲーション・コマンドを発話することの何れかにより、ユーザが数字7603によって示されたナビゲーション・コマンドの一つを入力する場合、図76で示されているように、それに基づいて発明された機能が実行される。
これらは、エディタが現在、単語/ライン・ナビゲーション・モードの状態にあるかどうかを確認するための検証を行う機能7604を有する。これはエディタに於けるナビゲーションの最も一般的なモードであり、エディタからキー「3」を2回押下することで、即座に選択することが出来る。第1の押下により、図70に示されたナビゲーション・モード・メニューが選択され、第2の押下により、そのメニューから単語/ライン・ナビゲーション・モードが選択される。エディタが単語/ライン・モード機能7606の状態にある場合、機能7606乃至7624が実行される。
ナビゲーション入力が単語左コマンド、又は、単語右コマンドである場合、機能7606によって、機能7608乃至7617が実行される。機能7608及び7610は、拡大された選択がオンの状態にあるかどうかを確認するために検証を行い、オンの状態にあれば、機能7608及び7610はカーソルを左右何れかに一単語分だけ移動させ、以前の選択をその単語まで拡大する。拡大された選択がオンの状態でない場合、機能7612によって機能7614乃至7617が実行される。機能7614及び7615は、以前の入力が、現在のコマンドと異なる指示の単語左/右コマンドであったかどうか、又は、現在のコマンドがテキストの前後にカーソルをセットするかどうか、の何れかを確認するために検証を行う。これらの条件の何れかが満たされる場合、カーソルは以前選択された単語から左右何れかにセットされ、以前選択された単語は選択されない。機能7614の検証に於ける条件が満たされない場合、機能7617は現在一から左右何れか一単語分カーソルを移動させ、現在の選択に移動されや単語を形成する。
機能7612乃至7617の動作によって、単語左ナビゲーション及び単語右ナビゲーションは、ユーザによる一単語分のカーソル移動だけでなく、必要に応じて、移動毎に現在の単語を選択可能にさせる。また、それによって、ユーザは選択された単語に対応するカーソルと、以前選択された単語の前後何れかに挿入位置を表すカーソルを即座に切り換えることが出来る。
ユーザがライン上コマンドか、ライン下コマンドを入力した場合、機能7620はカーソルを現在のカーソル位置から上下何れかのライン上の最も近くにある単語に移動させ、拡大された選択がオンの状態であれば、機能7624はその新しい現在の単語を介して現在の選択を拡大する。
また、数字7626で示されているように、他のエディタが図70に於いて示される編集ナビゲーション・メニューから選択可能な他のナビゲーション・モードの状態にある場合、エディタはナビゲーション入力に対応するためのプログラミングを有する。
ユーザがボタンの押下、又は、ボイス・コマンドの使用の何れかによって「OK」を選択する場合、機能7630は、例えばウェッブ・ドキュメントやダイアログ・ボックスの領域にテキストを入力する等、他のプログラムにテキストを入力するために、エディタが呼び出されたかどうかを確認するための検証を行い、エディタが呼び出された場合、機能7632はそのプログラムに於ける現在のテキスト入力位置で、他のプログラムにエディタの現在の文脈を入力し戻る。検証7630の条件が満たされない場合、機能7634はエディタを終了し、現在の内容及び状態を後で使用する場合に備えて保存する。
エディタの状態で、ユーザがメニュー・ボタンを押下する場合、機能7638は、図75に関して上述したように、コマンド・リストがエディタに対して表示されるエディタ・コマンドに対する表示メニュー・ルーチンを呼び出す。上述の通り、これにより、ユーザは1、2秒でエディタ・モードに対する全ての現在のコマンド・マッピングをスクロールすることが出来る。エディタの状態で、ユーザがメニュー・ボタンをダブルクリックする場合、エディタに対するコマンド・リストを表示し、エディタのコマンド・語彙に認識語彙をセットし、ダブルクリックの最後の押下を使用した音声認識に対して認識の持続期間を決定することを命じるために、機能7642乃至7646は表示メニューを呼び出す。
ユーザがメニュー・キーの押下を維持する場合、機能7650はエディタに対してヘルプ・モードを入力する。ヘルプ・モードは、エディタ・モードの機能に関して即座に説明を行い、キーの押下と、押下されたそれぞれのキーの結果として、到達したエディタの階層コマンド構造の一部に対して提供される簡単な説明を有することによって、ユーザがエディタの階層コマンド構造を探索することが出来る。
エディタの状態で、ユーザがトーク・ボタンを押下する場合、機能7654は、語彙及び認識持続モードなど、現在の認識設定に応じて、認識をオンの状態にする。多くの場合、トーク・ボタンは、携帯電話に関する実施形態に於いて音声認識の開始に使用される主要なボタンとして使用される。
ユーザがエンド・ボタンを選択する場合、機能7658は、例えば早く電話をかける、又は、電話に出る等の電話モードに進む。通話の終了時にユーザが現在の状態に戻ることが出来るように、それはエディタの現在の状態を保存する。
図77に示されているように、ユーザが図68に図示された入力モード・メニューを選択する場合、機能7702はそのメニューを表示させる。後述のさらに詳細な説明の通り、このメニューによって、ユーザはディクテーション・モードからPDAに関する実施形態の図11に於いて示されたボタン1122乃至1134として、幾分早く選択することが出来る。示された実施形態では、トーク・キーに対してキー「1」が接近しているので、入力モード・メニューはキー「1」に関連付けられていた。これにより、ユーザはディクテーション・モードを即座に切り換えることができ、トーク・ボタンを使用したディクテーションを継続することが出来る。
ユーザが選択肢リストを選択する場合、機能7706及び7708は、訂正ウインドウ・ナビゲーション・モードを、認識候補選択肢のスクロール及び選択に最適なページ/アイテム・ナビゲーション・モードに設定する。そして、機能7706及び7708は、現在の選択に対して、携帯電話の画面に表示される図12に示された訂正ウインドウ1200に幾分類似した訂正ウインドウを生じる訂正ウインドウ・ルーチンを呼び出すことが出来る。現在カーソルが存在しない場合、訂正ウインドウは選択なしで呼び出される。この場合、それは、アルファベット入力、単語の完了、及び/又は、さらなる発話の追加を有する一つ以上の単語を選択するために使用することが出来る。訂正ウインドウ・ルーチンについては下記に於いて詳細に説明する。
ユーザが、例えばキー「2」をダブルクリックすることによって、「フィルタ選択肢」を選択する場合、機能7712乃至7716は、第1選択肢、又は、フィルタ文字列に於いてナビゲートするために使用される単語/文字モードに、訂正ウインドウ・ナビゲーション・モードを設定する。そして、機能7712乃至7716は、訂正ウインドウ・ルーチンを現在の選択のために呼び出し、一つが入力された場合、ダブルクリックの2回目の押下を、認識を持続させるための音声キーとして処理する。
殆どの携帯電話では、通常、キー「2」はナビゲーション・キーの直下に配置される。これにより、ユーザは、エディタに於いて訂正が必要な、一つ又は複数の所望の単語にナビゲートすることができ、そして、選択に対する代替選択肢を備えた訂正ウインドウを視認するために、隣接したキー「2」を1回押下するか、もしくは、キー「2」をダブルクリックし、直ちに認識手段による訂正モードの選択を支援するためにフィルタリング情報の入力を開始することが出来る。
ユーザが図70に示されたナビゲーション・モード・メニューを選択する場合、機能7720によってそれが表示される。下記に於いて詳細に記載する通り、この機能によって、ユーザは、左右及び上下のナビゲーション・ボタンを押下することで成し遂げられるナビゲーションを変更することが出来る。そうした切り換えをより簡単に行うために、ナビゲーション・ボタンは、数字が付与された電話キーの最上段に設置されている。
ユーザが離散認識入力を選択する場合、機能7724は、現在の認識持続設定として持続モードを発声し送信するために、押下及びクリックを使用して、現在の語彙に応じて離散認識をオンの状態にする。ユーザがボタン「1」を押下することによって望む時はいつでも、離散発話認識に即座に変更することが出来るように、このボタンは設けられている。上述の通り、離散認識は、連続認識に比して不完全ではあるが、どちらかと言えばかなり正確である。このコマンド・キーの位置は、トーク・ボタン及び入力モード・メニュー・ボタンの近傍に設置するよう選択されている。離散認識キーが使用可能であるので、通常、トーク・ボタンにマッピングされた認識モードは、連続型となる。そうした設定によって、ユーザはトーク・ボタン及びキー「4」の押下を変更することで、連続認識と離散認識を切り換えることが出来る。
キー「5」を切り換えることによって、ユーザが選択「開始」又は選択「中止」を選択する場合、そのモードが現在オン又はオフであるかによって、機能7728は拡大された選択のオン及びオフを切り換える。その後、機能7730は、拡大された選択がオフの状態に切り替えられたところかどうかを確認するために検証を行い、オフの状態に切り替えられた場合には、機能7732が、あるとすれば現在のカーソルで、それ以外の任意の以前の選択を非選択状態にする。説明された実施形態では、ナビゲーション・コントロール、及び、訂正ウインドウを提示するために使用されるキー「2」に近いことから、キー「5」が拡大された選択コマンドに対して選択された。
ユーザが、例えばキー「5」をダブルクリックすることによって、全選択コマンドを選択する場合、機能7736は現在の文書中のすべてのテキストを選択する。
ユーザがキー「6」、又は、再生開始、再生停止、又は、記録停止を含むことの出来る、任意の現在アクティブな状態の関連したコマンドを選択する場合、機能7740はシステムが現在音声を再生していないかを確認するために検証を行う。システムが音声を再生していない場合、機能7742は音声再生モードと音声がオフの状態でのモードを切り換える。システムが音声を再生している場合、機能7742は音声再生モードと音声再生がオフの状態でのモードとを切り換える。携帯電話が通話中であり、図75に示された「当方のみ再生」オプション7513がオフ・モードに設定された場合、機能7746は電話回線で再生から電話の会話の他方だけでなく、スピーカ又は携帯電話自体のヘッドフォンに音声を送信する。
一方、ボタン「6」が押下される際に、システムが音声を記録している場合、機能7750は記録をオフの状態に切り換える。
ユーザがキー「6」をダブルクリックする場合、又は、記録コマンドを入力する場合、機能7754は音声録音をオンの状態に切り換える。その後、機能7756は、システムが現在通話の状態にあるかどうか、及び、図75で示された「当方のみ録音設定」7511がオフの状態にあるかどうかを確認するために検証をする。これらの状態にある場合、7758は電話回線の他方からの音声と同様に、電話のマイク又はマイク入力ジャックからの音声を記録する。
ユーザがキー「7」を押下する場合、又は、そうでなければ、大文字化されたメニュー・コマンドを選択する場合、すべての後に続く入力されたテキストが、全て小文字、全て頭文字が大文字、全て大文字の内、何れかの状態になるモードから選択するための選択肢をユーザに与える大文字化されたメニューを機能7762が表示する。また、それによって、ユーザが一つ又は複数の現在選択された単語を、あるとすれば、全て半角、全て最初の文字が全角、又は、全て全角形式に変更することを選択することが出来る。
ユーザがキー「7」をダブルクリックする場合、又は、そうでなければ、全角サイクル・キーを選択する場合、現在の選択を、あるとすれば、全て最初の文字を全角、全て全角、又は全て半角に変更するために、全角サイクル・キーを1回又は複数回数呼び出すことが出来る。
ユーザがキー「8」を押下する場合、又は、そうでなければ、単語形式リストを選択する場合、機能7770は図27に関して上述された単語形式リスト・ルーチンを呼び出す。
ユーザがキー「8」をダブルクリックする場合、又は、単語タイプ・コマンドを選択する場合、7774は単語タイプ・メニューを表示する。単語タイプ・メニューによって、ユーザは、選択された単語に対して図26のフィルタ・マッチ・ルーチンに関して上述したように、単語タイプ限定を選択することが出来る。示された実施形態では、このメニューによって、単語の終了タイプ、単語の開始タイプ、単語の時制タイプ、音声の単語部分のタイプ、例えば、所有格又は非所有格、単数主格又は複数主格、単数動詞又は複数動詞、綴り又は非綴り、及び、存在するとすれば、同音異義語、などの他の単語タイプをユーザが特定することが出来る。図91に示された一般的名形式を有する階層メニューである。
図78に示されているように、ユーザがキー「9」を押下する場合、又は、基本キーのメニュー・コマンドを選択する場合、機能7802は、句読点記号の一つに関する入力、又は、テキスト入力としてそのメニューから選択可能な入力文字を、ユーザが選択可能な図73に示された基本キーのメニューを表示する。
ユーザがキー「9」をダブルクリックする場合、又は、改行コマンドを選択する場合、機能7806は改行文字をエディタのテキストに入力する。
ユーザがキー「*」又はエスケープ・コマンドを選択する場合、機能7810乃至7824が実行される。機能7810は、エディタが他のプログラムでテキストを入力又は編集するために呼び出されたかどうかを確認するための検証を行い、この場合、機能7812はそのプログラムへの挿入に対する編集されたテキストを用いて、その呼び出しから、エディタに戻る。エディタがそうした目的のために呼び出されなかった場合、機能7820はユーザにエディタから出る選択肢を用いて促し、その内容の保存、及び/又は、エスケープのキャンセルをする。ユーザがエスケープすることを選択する場合、機能7822及び7824は図63に関して上述された電話モードの最高レベルまでエスケープする。ユーザがキー「*」をダブルクリックする場合、又は、タスク・リスト機能を選択する場合、機能7828は、殆どの携帯電話、オペレーティング・モード、及びメニューに於いて、そうしたダブルクリックが行うように、タスク・リストに移動する。
ユーザがキー「0」を押下する場合、又は、編集・オプション・メニュー・コマンドを選択する場合、機能7832は図74に関して簡単に上述した編集されたオプション・メニューである。ユーザがキー「0」をダブルクリックする場合、又は、取り消しコマンドを選択する場合、機能7836はあるとすれば、エディタに於ける最後のコマンドを取り消す。
ユーザがキー「#」を押下する場合、又は、バックスペース・コマンドを選択する場合、機能7840は現在の選択があるかどうかを確認するために検証を行う。現在の選択がある場合、機能7842はそれを削除する。現在の選択が存在せず、現在の最小のナビゲーション・ユニットが文字、単語、アウトライン・アイテムである場合、機能7846及び7848は、その最小の現在のナビゲーション・ユニットによって、後方に削除する。
図79及び80は、図68に関して上述された入力モード・メニューによって提供されているようなオプションについて説明している。
このメニューの状態で、ユーザがキー「1」を押下する場合、そうでなければ、大語彙認識を選択する場合、機能7906乃至7914が実行される。 これらは、認識語彙を大語彙に設定する。それらは、キー「1」の押下を、認識持続目的に対する音声キーとして処理する。また、それらは、訂正ウインドウが表示されているかどうかを確認するための検証を行う。訂正ウインドウが表示されている場合、訂正ウインドウに於いてユーザがより適切な離散認識を望むという想定に基づいて、それらは認識モードを離散認識に設定する。それらは、任意の新しい発話、又は、このモードで受け付けられた発話を上述のタイプの発話リストに追加し、受け付けられた任意の再発話のための新しい訂正ウインドウを表示するために、図22の選択肢リスト・ルーチンを画面に呼び出す。
示された携帯電話の実施形態では、キー「1」は入力モード・メニューに於ける大語彙のために選択された。これは、それが最も一般的な認識語彙であるからであり、したがって、ユーザがエディタからキー「1」を2回クリックすることによって、それを簡単に選択する。第1クリックによって、入力モード・メニューが選択され、第2クリックによって、大語彙認識が選択される。
入力モード時に、ユーザがキー「2」を押下する場合、システムは上述のタイプの音名認識にセットされる。ユーザが訂正ウインドウの状態にある時点で、入力モード・メニューが表示された時、ユーザがそのキーをダブルクリックする場合、機能7926は、認識語彙を音名語彙に設定し、その認識の出力は曖昧なフィルタとして処理されるものであることを示す。好ましい実施形態では、メニューのキー「9」に関連した、入力優先オプションに基づいて、ユーザはそうしたフィルタが曖昧な長さのフィルタとして処理されるかどうかを示すことが出来る。デフォルト設定によって、そうした認識は連続音名認識に於ける曖昧な長さのフィルタ、及び、離散音名認識に対応して固定の長さの曖昧なフィルタとして処理される。
ユーザによるキー「3」の押下時に於いて、認識はアルファブラボ・モードに設定される。ユーザがキー「3」をダブルクリックする場合、図72に関して簡単に上述されているように、認識がキー「アルファ」モードに設定される。数字キー「2」乃至「9」の一つを押下することによって、ユーザが押下されたキーに於ける文字に関連するICA単語の一つを促され、比較的極端な雑音のある状態でさえも、極めて信頼できるアルファベット入力を提供するために、限られた一連のICA単語からの一つの単語を認識が支持することを除いて、このモードはアルファブラボ・モードに類似している。
ユーザがキー「4」を押下する場合、語彙が数字語彙に変更される。ユーザがキー「4」をダブルクリックする場合、システムは、エディタ・テキストに対応する数字を入力することによって、数字付与された電話キーの押下に対応する。
ユーザがキー「5」を押下する場合、認識語彙は句読点語彙に限定される。
ユーザがキー「6」を押下する場合、認識語彙は上述の連絡氏名語彙に限定される。
図86は、図72に関して有る程度上述した、キー・アルファ・モードについて説明している。図86に示されている通り、この記号が入力される場合、ナビゲーション・モードが通常、アルファベット入力に関連した単語/文字ナビゲーショ・モードにセットされる。その後、機能8604は、その下にリストアップされたキーを、それぞれのそうしたキーで識別された機能を用いてオーバーレイする。このモードでは、トーク・キーの押下によって、現在の認識設定に対してアルファブラボ語彙を有する認識をオンの状態にし、現在の認識持続設定に応じて、キー押下に対応する。キー「1」は、ユーザがキー・アルファ・モードを終了するために、それを押下することが出来るように、入力編集モードとして継続して動作する。数字が割り当てられた電話キー「2」乃至「9」を押下することによって、機能8618乃至8624が、そうした押下中に実行され、電話キーの文字に対応するICA単語のプロンプトが表示される。これにより、認識は、3つ又は4つのICA単語の一つに関する認識を相当指示する。それは、押下の持続時間に対して認識をオンの状態にし、認識されたICA単語に対応する文字をエディタのテキスト(エディタ・モードの場合)、又は、フィルタ文字列(フィルタ編集モードの場合)の何れかに出力する。
ユーザがゼロ・ボタンを押下する場合、ユーザがゼロ・ボタンを押下する場合、任意のキーに関連する一連の文字の一つで始まりる全ての句読点記号に関するスクロール可能なリストを表示することによって、機能8628は、関連する文字を有する任意の電話キーの押下に対応し、句読点単語の一つに関する認識を指示するキー句読点モードを入力する。
図87は、キー・アルファ・モードの代替実施形態について説明しており、該実施形態は、図87に於いて下線が引かれた擬似コードの一部を除いて、図86の実施形態と同一である。このモードでは、ユーザがトップ・ボタンを押下する場合、大語彙認識がオンの状態になるが、機能8608Aに於いて示されているように、それぞれの認識された単語の最初の文字だけが出力される。機能8618A及び8620Aが示すように、それに関連した3つ又は4つの文字の一式を有する電話キーをユーザが押下する場合、ユーザは所望の文字で始まる単語を発声することを促され、認識語彙は、キーの関連した文字の一つで始まる単語に相当限定されており、機能8624は、認識された単語に対応する最初の文字を出力する。
本発明の幾つかの実施形態では、限られた単語がアルファベットのそれぞれの文字に関連する第3代替キー・アルファ・モードを使用することができ、キーの押下中に、認識は、キーの関連した文字に関連した単語一式の一つに関する認識に相当限定される。そうした幾つかの実施形態では、5つ又は5未満の単語一式が、それぞれのそうした文字に関連することになる。
図89及び90は、エディタ及び訂正ウインドウ・モードでゼロ・ボタンを押下することによってアクセスされる、ソート編集オプションで使用可能な幾つかのオプションについて説明している。このメニューでは、ユーザがキー「1」を押下する場合、機能8902で示されているように、ファイル・オプションのメニューがユーザに提示される。ユーザがキー「2」を押下する場合、機能8904によって示されているように、例えば、殆どの編集プログラムで一般的な編集オプションのメニューがユーザに提示される。ユーザがボタン「3」を押下する場合、機能8906は、図68及び79に関して上述した入力モード・メニューに於いて、ボタン「9」を押下することによってアクセスされる、同一の入力優先メニューを表示する。
編集オプション・メニュー時に、ユーザがキー「4」を押下する場合、テキスト・音声(又はTTS)メニューが表示される。このメニューでは、キー「4」はTTSの再生のオン、オフを切り換える。現在の選択が存在し、このキーがTTSをオンの状態に切り換える場合、機能8916及び8918は、TTSに該選択を発声させる。但し、TTS、又は、単語「selection」の予め記録された発話がそれに先行することが好ましい。TTSがオンの状態に切り替えられた時に、選択が存在しない場合、現在の文書の最後まで、又は、ユーザが文書内にカーソル移動以外の入力を供給するまで、TTSは現在のカーソル位置で現在のテキストの発声を開始する。図99に関して下記に説明する通り、TTSモードがオンの状態では、携帯電話の画面を視認可能であることを要求せずに、システムの機能性の相当部分を使用可能にするために、ユーザは音声プロンプト及びテキストのTTS再生を提供される。
機能8924及び8926、そして、該機構がTTSオン・モード又はTTSオフ・モードの何れの状態であるかを問わず、ユーザが連続再生をオン、又は、オフの状態に切り換えることを許可する機能8928及び8930で示されているように、ユーザが現在の選択を再生したい場合は常に、TTSサブ・メニューには、ユーザが現在の選択を再生することを許可する選択肢も含まれる。8932の編集オプション・メニューに於いて、最高レベルの選択肢によって示されているように、キー「4」のダブルクリックは、ユーザがキー「4」を押下し、TTSメニューが表示されるのを待ち、その後、再びキー「4」を押下したかのように、TTSをオン、又は、オフの状態に切り換える。
編集オプション・メニューに於けるキー「5」は、拡大及び縮小ヘディング、及び、アウトライン・モードに於いて、ユーザにナビゲートさせる複数の機能を含むアウトライン・メニューを選択する。ユーザがキー「5」をダブルクリックする場合、システムは、エディタのカーソルが位置する現在のアウトライン要素を完全に拡大すること、及び、完全に縮小することを切り換える。
ユーザがキー「6」を選択肢、音声メニューがサブ・メニューとして表示される場合、図89及び90の組み合わせに於ける音声メニュー・アイテム8938に基づいて、表示されるオプションの幾つかが対象となる。この音声メニューは、図84及び70に関して上述された現在の編集メニューに於けるボタン「6」の使用によって提供される音声ナビゲーション・スピードに対して、ユーザに細かい制御をさせるキー「1」によって選択されたアイテムを含む。ユーザがキー「2」を選択する場合、例えば、音量やスピード、認識された言葉に関連した音声が再生される、及び/又は、認識された言葉に関連せずに音声記録されるかどうか、等の音声再生設定をユーザが呼び出すことを許可するサブ・メニューをユーザが視認する。
図90は上述の音声メニューに基づいて、キー「3」、「4」、「5」、「6」、「7」で選択されたアイテムで開始し、図89の数字8938で開始する。ユーザがキー「3」を押下する場合、認識された音声オプション・ダイアログ・ボックス9000が表示される。これは、数字9002乃至9014によって示されているように、現在の文書に於ける全ての音声を認識し、以前認識された音声が読んで認識されたかどうかを決定し、そうした認識の品質、及び、そうした認識に必要な時間を決定するためのパラメータを設定するために、エディタに於ける現在の選択に含まれた任意の音声に関して音声認識を実行することを選択するためのオプションをユーザに与える。機能9012で示されているように、このダイアログ・ボックスは、現在の品質設定で、現在の選択を認識するための推定値を供給し、選択を認識するためのタスクが現在実行されている場合には、現在のジョブに関するステータスを供給する。補助電源装置に接続されている時を含む、電話が他の目的で使用されていない時に、このダイアログ・ボックスによって、バックグラウンド・タスクとして、比較的多くの音声に対して認識をユーザが実行することが出来る。
ユーザが音声メニューでキー「4」を選択する場合、ユーザが現在の選択から特定の情報を削除することを選択可能なサブ・メニューがユーザに提供される。これは、認識された単語に関連しないすべての音声を削除すること、すべての音声を削除すること、所望の選択からテキストを削除することをユーザが選択することを許可することを含む。認識されたテキストから認識音声を削除することによって、そうしたテキストの記憶に関連したメモリが大いに削減され、その意図した意味を決定する支援をする、テキストに関連した音声をユーザが必要としないと決定した場合には、便利になることが多い。テキストが音声からの音声認識によって作り出された場合には、メディアの一部から音声ではなくテキストを削除することは便利であることが多いが、殆ど役に立たないかどうかは十分確かではない。
音声メニューでは、キー「5」が、例えば、それを理解することを支援するために使用可能な再生、又は、幾つかの実施形態では、代替の認識選択肢を生成可能な音響表現を有する再生を、そうしたテキストが有するかどうかを、ユーザが知ることを許可するために、下線を引くことによって、関連した認識オーディオを有するテキストが印をつけられているかどうかをユーザが選択することを許可する。
キー「6」は、認識音声が認識されたテキストに対して保持されるかどうかをユーザが選択することを許可する。多くの実施形態では、認識音声の記録がオフの状態にされたとしても、訂正再生目的で使用可能にするために、直前に認識された単語の幾つかの数字に対して、そうした音声は制限される。
音声メニューに於いて、記尾「7」は、転写モード・ダイアログ・ボックスを選択する。これにより、図94に関して下記に説明する転写モードで使用される設定をユーザが選択することを許可するダイアログ・ボックスが表示される。これは、ユーザが音声認識によって事前に記録された音声を容易に転写させるために設計されたモードである。
ユーザがキー「8」を押下する場合、機能9036は、あるとすれば、検索文字列として、現在の選択を用いて音声ダイアログ・ボックスを呼び出して、機能9036が実行される。如何に説明する通り、音声認識テキスト・エディタは、必要に応じて、異なる検索文字列を入力するために使用することが出来る。ユーザがキー「8」をダブルクリックする場合、これは、以前に入力された検索文字列に対して再び検索が行われる、再探索コマンドとして解釈される。
ユーザが編集オプション・メニューでキー「9」を選択する場合、語彙メニューが表示される。該語彙メニューによって、異なる語彙から選択し、所定の語彙に単語を追加するために、現在の語彙に単語が存在するかどうかをユーザが決定することが可能となる。編集オプション・メニューの状態で、ユーザが「0」ボタンを押下、又は、ダブルクリックの何れかを行う場合、取り消し機能が実行される。「0」のダブルクリックによって、エディタ、又は、訂正ウインドウから取り消し機能にアクセスするという事実と類似させるために、ダブルクリックによって、編集オプション・メニュー内から取り消し機能にアクセスする。編集オプション・メニューでは、数字記号キーは、やり直しボタンとして機能する。
図94はTTS再生ルールを説明している。これらは、図89の機能8908乃至8932に関して上述したTTSオプションによって、TTSの動作が選択された場合、TTSの生成の動作を規定するルールである。
機能1909で上述されているように、TTSメニューの状態で、キー「1」の動作によって、TTSキー・モードがオンの状態に切り替えられた場合、機能9404は、機能9406乃至9414を実行させる。これらの機能によって、例えばユーザが自動車を運転している時、そうでなければ忙しい時に、それらを視認出来ないように、安全に電話キーを選択することが出来る。このモードは、携帯電話の動作に関する任意のモードに於いて使用可能な音声認識エディタにおける動作に限定されないことが望ましい。任意の電話キーが押下される場合、機能9408は、例えば、4分の1秒、又は、3分の1秒などの短時間である、TTSキー時間内に同一のキーが押下されたかどうかを確認するために検証を行う。該検証の目的のために、同一キーの最後のキー押下を解除する時点から時間が計測される。同一キーが短い時間内に押下されなかった場合、機能9410及び9412は、TTS、又は、幾つかの実施形態では、録音された音声の再生、即ち、キー番号及び現在のコマンド名の発話を実行する。この音声フィードバックは、ユーザがキーの押下を継続する場合にのみ限り、継続される。キーがそれに関連したダブルクリック・コマンドを有する場合、ユーザがキーを十分長く継続して押下すれば、それは発話される。同一キーの最後のキー押下が解除されてからの時間が、TTSキー時間未満であることが機能9408の検証によってわかった場合、携帯電話のソフトウェアは、TTSキー・モードがオンの状態ではなかった場合と同じように、任意のダブルクリックを含む、キーの押下に対応する。
したがって、TTSキー・モードは、ユーザが接触によって携帯電話のキーを見つけることと、それが所望のキーであるかを決定するために、それを押下することと、所望のキーであれば、キーの所望の機能を達成するために、1回又は複数回、再びそれを迅速に押下することを許可することが分かる。機能9410及び9412によって対応されるキーの押下は、その関連した機能に関する発話以外に、何ら対応を起こさないので、このモードによって、ユーザは任意の所望ではない結果を引き起こすことなく、所望のキーを検索することが出来る。
幾つかの携帯電話に関する実施形態では、携帯電話キーは押下されるというよりは、単に接触されるように設計されており、それらが何れかのキーであるのかという音声フィードバック、及び、機能9412によって提供された機能に類似する現在の機能が提供される。例えば、電話キーの物質を、伝導性物質で構成させること、又は、ユーザの体を介してキーに伝導された場合に、それらのキーから分離された電話の他の部分に、キーに関連した電気回路によって検出可能な電圧を生成させることによって、これを提供することが出来る。そうしたシステムを用いて、略所望のキーでキーパッドに対して指をスキャンすることのみによって、ユーザがどのキーに接触しているかに関して、ユーザがフィードバックを受けることが出来るので、このシステムは、ユーザが所望のキーを接触によって見つけるためのより早い方法を提供する。また、それによって、所望のコマンドが見つけられるまで、連続するキーに対するユーザの指を同様にスキャンすることにより、所望のコマンド名をユーザが迅速にスキャンすすることが出来る。
TTSがオンの状態の時、システムがコマンド入力を認識する場合、又は、そうでなければコマンド入力を受け付ける場合、機能9416及び9418によって、TTS又は記録された音声再生は認識されたコマンド名を発話する。コマンドのそうした音声確認は、例えば、異なる声のトーンや異なる関連した音の形式で、認識されたテキストの発話からコマンド単語の発話を区別する、関連した音質を有することが望ましい。
TTSがオンの状態で、テキスト発話が認識された場合、機能9420乃至9424は発話の最後及び認識の完了を識別することができ、その後、発話に対する第1選択肢として認識された単語を発声するために、TTSを使用する。
機能9426乃至9430で示されているように、TTSは類似の方法でフィルタリング発話の認識に対応する。
TTSモードの状態で、ユーザが新しい単語又は文字を選択するためにカーソルを移動させる場合、機能9432乃至9438は、新たに選択された単語又は文字を発声するためにTTSを使用する。新しいカーソル位置に関する発声の後に、新しい単語又は文字の位置にカーソルをそのように移動させることは、すでに開始された選択を拡大する場合、機能9436及び9438は、認識されたテキストの一部ではないことを示す方法で、単語「selection」を発声し、その後、現在の選択の単語の発声を進める。ユーザがカーソルを、例えば図76の機能7614及び7615に関する上記説明のように。非選択カーソルに移動させる場合、図94の機能9940及び9942は、カーソルが間に置かれた2つの単語を発声するために、TTSを使用する。
TTSモードの状態で、新しい訂正ウインドウが表示される場合、機能9444及び9446は、訂正ウインドウに於ける第1選択肢を発声するためにTTSを使用し、あるとすれば、それのどの部分が非曖昧で、どの部分が曖昧であるかを示す現在のフィルタを一掃し、その後、選択肢リストの現在表示された部分に於いてそれぞれの候補を発声するためにTTSを使用する。速さを目的とする場合には、フィルタのどの部分が完全、又は、曖昧であるかを示すために、トーン又は音に於ける相違が使用されることが最良である。
ユーザが訂正ウインドウでアイテムをスクロールする場合、機能9448及び9450は、それぞれのそうしたスクロールに対応して、現在強調表示された選択肢、及び、その選択数字を発声するためにTTSを使用する。ユーザが訂正ウインドウでページをスクロールする場合、機能9452及び9454は、新たに表示された選択肢を発声し、現在の強調表示された選択肢を示すために、TTSを使用する。
訂正モードの状態で、ユーザがメニューを入力する場合、機能9456及び9458は、現在のメニューの名前、メニューに於けるすべての選択肢、現在の選択位置を示すそれらの関連した数字を発声するために、TTS又は自由に記録された音声を使用する。発声される単語がメニュー・オプションであることをユーザに示す、音声合図を用いて、これを実行することが望ましい。
ユーザがメニューに於いてアイテムを上下スクロールする場合、機能9460及び9462は、強調表示された選択肢、そして、その後の短い一時停止の後、メニューの現在表示されたページに於ける任意の後に続く選択を発声するために、TTS又は予め記録された音声を使用する。
図95は、TTS生成に於いて使用されるプログラミングの幾つかの特徴を説明している。TTSによって生成される言葉が、発音通りに綴られた単語に関する音声認識プログラミングの語彙に存在する場合、機能9502によって、機能9504乃至9512が実行される。機能9504は、単語が音声の異なる部分に関連した複数の表音的綴りを有するかどうか、及び、TTSを使用して設定される単語が音声の現在の部分を含む現在の言語文脈を有するかどうか、を確認するための検証を行う。これらの条件が両方とも満たされる場合、機能9506は、現在の単語に対するTTS生成に於ける表音的綴りとして、音声表示コードの一部によって最も検出される音声の一部に関連した表音的綴りを選択するために、音声表示コードに関する音声認識プログラミングの一部を使用する。反対に、単語に関連した表音的綴りが一つだけ存在する場合、又は、単語に対して音声の最もありそうな部分を識別するための十分な文脈が存在しない場合、機能9510は単語に対する単一の表音的綴り、又は、最も一般的な表音的綴りを選択する。機能9506又は機能9510の何れかで生成される単語に対して、表音的綴りが一旦選択された場合、機能9512はTTS生成で使用される表音的綴りとして、単語に対して選択された表音的綴りを使用する。9514で示されているように、TTSで生成される単語が表音的綴りを有していない場合、機能9514及び9516は、表音的綴りを氏名、及び、単語のTTS生成に対して新たに入力された単語に割り当てるために、音声認識手段によって使用される発音推測ソフトウェアを使用する。
図96は、図89及び90に示された編集・オプション・メニューの音声メニューに基づいて、図90の数字「7」に関連して、上述された編集オプション・メニューの音声メニューに基づいて作動される転写モード・ダイアログ・ボックスの動作によって選択することが出来る、転写モードの動作を示している。
転写モードが入力される場合、機能9602は通常、ナビゲーション・モードを前後方向に5秒ナビゲートし、左右のナビゲーション・キー・入力に対応して音声記録をナビゲートし、下方向のナビゲーション・入力に対応して前後方向に1秒ナビゲートする、音声ナビゲーション・モードに変更する。これらはデフォルト値であり、転写モード・ダイアログ・ボックスに於いて変更可能である。このモード中に、ユーザが再生キー、即ち、エディタのキー「6」をクリックする場合、機能9606乃至9614が実行される。機能9607及び9608は、再生のオン、オフを切り換える。再生がオンの状態に切り替えられる場合、機能9610は機能9612を実行させる。その場合、最後に音が再生された時からサウンド・ナビゲーションがなかったのであれば、機能9614は再生の最後の前の設定時間に再生を開始する。これが実行され、その結果、ユーザが転写を実行している場合、それぞれの連続する再生が、最後の再生が終了する僅か前に開始されるので、ユーザは以前の再生に於いて部分的に発話されただけである単語を認識することができ、また、以前の言語文脈の僅かな部分を知覚可能であることによって、ユーザは発話音声を単語としてより上手く解釈することができる。ユーザが特定期間を超える時間、例えば、3分の1秒を超える時間、再生キーを押下する場合、機能9616は機能9618乃至9622を実行させる。これらの機能は、再生がオンの状態かどうかを確認するために検証を行い、オンの状態であればオフの状態に切り換える。また、これらの機能は、該押下中に、現在の設定に応じて、連続モード又は離散モードの何れかのモードで、大語彙認識をオンの状態にする。その後、これらの機能は、認識されたテキストを再生の最後が実行された場所で転写されている音声に於ける位置にあるエディタに挿入する。ユーザが再生ボタンをダブルクリックする場合、機能9624及び9626は、転写モードに於いて音声記録は使用可能ではなく、転写モードは、追加されたオプション・メニューに基づいて、音声メニューでオフの状態にすることが出来るということを、ユーザに示唆する。
その転写モードによって、ユーザは、再生キー、即ち、電話キー「6」をクリックすることと、押下し続けることを単に交互に行うことにより、以前記録された音声の一部を再生することと、その後音声認識の使用によって転写することを、交互に行うことが出来るということがわかる。ユーザは、転写プロセス中に、認識に於いてなされた間違いを訂正するために、エディタの他の機能性を自由に使用し、その後、転写される音声の次のセグメントを再生するために、キー「6」を再び押下することによって、単に自由にそれに戻る。言うまでもなく、当然のことながら、ユーザは音声から文字通り転写することを望んでいない場合も多い。例えば、ユーザは、電話の一部を再生し、より特筆すべき部分の要約を単に転写する場合もある。
図97は、ユーザがテキスト及び他の情報を携帯電話の画面に表示されたダイアログ・ボックスに入力可能にするために、上述したエディタ・モードの多くの特徴を使用するダイアログ・ボックス・エディティング・プログラミングの動作を説明している。
ダイアログ・ボックスが最初に入力される場合、機能9702はダイアログ・ボックスの第1部分を示すエディタ・ウインドウを表示する。ダイアログ・ボックスが一度に一つの画面に適合しないほど大きい場合には、スクロール可能なウインドウに表示される。機能9704によって示されているように、ダイアログ・ボックスは、機能9704乃至9726によって示されていることを除いて、図76乃至78に関連して上述されたエディタ・モードが行う方法と同一方法で、すべての入力に対応する。9707及び9708で示されているように、ダイアログ・ボックスにある状態で、ユーザがナビゲーション入力を供給する場合、通常、カーソルはユーザが入力を供給可能な制御にのみ移動可能であることを除いて、カーソルの移動はエディタにある場合と同様の方法で対応する。したがって、ユーザが単語の左右何れかに移動した場合、カーソルは次のダイアログ・ボックス・コントロールの左右何れかに移動し、そうしたコントロールを検出することが必要であれば、ラインを上下に移動する。ユーザがラインを上下何れかに移動指せる場合、カーソルは現在のカーソル位置の上下何れかの最も近いラインに移動する。任意のコントロールを含んでいない可能性のあるテキストの拡大部分をユーザが判読可能にするために、カーソルは、通常、1ページ以内にコントロールがない場合でさえも、1ページ以上移動することはない。
機能9700乃至9716で示されているように、カーソルがフィールドに移動され、ユーザがエディタにテキストを入力する種類の任意の入力を供給する場合、機能9712は、あるとすれば、現在そのフィールドにテキストを表示するフィールドに対して個別のエディタ・ウインドウを表示する。フィールドがそれに関連した任意の語彙制限を有する場合、機能9714及び9716は、エディタに於ける認識をその語彙に限定する。例えば、フィールドがステート名に限定された場合、そのフィールドでの認識はそのように限定される。このフィールド・エディティング・ウインドウが表示される限り、機能9718は、すべてのエディタ・コマンドに、その中での編集を実行するように命令する。ユーザは、OKを選択することにより、その時点で、現在ウインドウにあるテキストを、ダイアログ・ボックス・ウインドウの対応するフィールドに入力する、このフィールド編集ウインドウを終了することが出来る。
ダイアログ・ボックスにあるカーソルが選択肢リストに移動され、ユーザがテキスト入力コマンドを選択する場合、機能9722は、第1選択肢、及び、スクロール可能な選択肢リストに表示された他の使用可能な選択肢としてリスト・ボックスに表示された他のオプションとして、リスト・ボックスにある現在の値を示す訂正ウインドウを表示する。この特別の選択肢リストに於いて、スクロール可能なオプションは、関連する数字を選択することによってアクセス可能なだけでなく、それらのオプションに限定された語彙を使用する音声認識によって使用可能である。
カーソルがチェック・ボタン又はラジオ・ボタンにあり、ユーザが任意のエディタ・テキスト入力コマンドを選択する場合、機能9724及び9726はチェック・ボックス又はラジオ・ボタンの選択を切り換えることによって、チェック・ボックス又はラジオ・ボタンの状態を変更する。
図98はヘルプ・ルーチン9800を説明しており、これは、PDAに関する実施形態に於いて図19に関して上述したヘルプ・モードの、携帯電話に関する実施形態と類似する実施形態である。携帯電話が所定の状態又は動作モードの時に、このヘルプ・モードが呼び出される場合、機能9802は、ヘルプ・オプション、及び、全ての状態のコマンドに関する選択可能なリストと共に、状態の既述を含む状態に対して、スクロール可能なヘルプ・メニューを表示する。図99は図67及び図76乃至78に関して上述したエディタ・モードに対して、そうしたヘルプ・メニューを表示する。図100は、図68、79、80に関して上述した入力モード・メニューに対する、そうしたヘルプ・メニューについて説明している。図99及び100に於いて示されているように、それらのヘルプ・メニューのそれぞれは、スクロール可能な強調表示、及び、ヘルプ・キーの動作に関する手段によって選択することが可能で、ヘルプ・メニューの様々な部分、及び、他のヘルプ関連機能にユーザが即座にジャンプすることを許可する、ヘルプ・オプション選択を含む。また、それぞれのヘルプ・メニューは、携帯電話の現在のコマンド状態に関する短いステートメント、即ち、9904を含む。また、それぞれのヘルプ・メニューは、携帯電話によってアクセス可能な全てのオプションをリストアップする、スクロール可能で、選択可能なメニュー9906を含む。また、それは、ヘルプ機能の仕様方法、及び、幾つかのケースでは現在のモードで使用可能な画面の異なる部分の機能に関するヘルプに関する既述を含む、他のヘルプ機能にユーザがアクセスすることを許可する機能9908を含む。
図101に示されているように、エディタ・モードでユーザが10100で示されたメニュー・キーを継続して押下する場合、ヘルプ・モードがエディタ・モードに対して入力され、携帯電話に画面10102を表示させる。これは、選択可能なヘルプ・オプション、即ち、オプション9902を表示し、図99に示されているように、他のモード9900の動作に関する短い既述の先頭を表示する。ページ右ボタンとして機能する、携帯電話の右矢印キーをユーザが押下する場合、画面1102に示された文字「<P^L」によって示されているように、ヘルプ・モードではナビゲーション・モードがページ/ライン・ナビゲーション・モードであるので、画面10104で示されているように、ディスプレイはページを下方向にスクロールする。ユーザがページ右キーを再び押下する場合、画面は再び下方向にスクロールし、これにより、画面が10106で示された状態となる。この例では、ページ右キーを2回クリックするだけで、図99に示されたエディタ・モード9904の機能の要約をユーザは読むことが出来る。
ユーザがページ右キーをクリックし、画面写真10108で示されているように、再び画面にページを下方向にスクロールさせる場合、エディタ・モードに関連したコマンド・リストの先頭を見ることが出来る。ユーザは、必要に応じて、ヘルプ・メニューの全長をスクロールするために、ナビゲーション・キーを使用することが出来る。示された例では、ユーザが入力モード・メニューに関連したキー・ナンバーを見つける場合、画面10112に示されているように、ヘルプ・モードに入力モード・メニューに関連したヘルプ・メニューを表示させるために、10110で示されているようにキーを押下する。
当然のことながら、ユーザがヘルプ・メニューの状態にある場合、キーの押下に関連したコマンドを作成することによって、図99に示された「キーによって選択された」ライン9910に基づいて、リストアップされたコマンドを直ちに(文章の一部が欠落)出来る。したがって、機能を確認するために、コマンドに関連したキーを押下するために、コマンドがリストアップされたヘルプ・メニューの一部を、ユーザが下方向にスクロールする必要はない。事実、キーに関連した機能を理解していると考えているユーザは、メニュー・キーを単に継続して押下することができ、その後、機能の短い説明、及び、それに基づいて使用可能なコマンドのリストを確認するために、所望のキーを打ち込むことが出来る。
図99及び100に示された「OKによって選択」ライン9912に基づいてリストアップされたコマンドは、メニューのコマンドに対して強調表示をスクロールすること、及び、OKコマンドの使用によって選択することによって、収集されなければならない。これは、ライン9912の下にリストアップされたコマンドが、ヘルプ・メニュー自体の動作に於いて使用されるキーに関連しているからである。このことは、コマンド・リストに於いてOKコマンドとの選択によってのみ選択可能であり、図75に示されたエディタ・モード・コマンド・リストの画面7506にリストアップされたコマンドに類似している。
図101の例では、ユーザは入力優先メニューが入力モード・メニューに於ける「9」を押下することによって選択可能であることを理解しており、10114によって示されているように、入力モード・メニューに対して、ユーザがヘルプを入力するとすぐに、そのキーを押下することが想定されている。これにより、10116で図示されているように、入力優先メニューに対するヘルプ・メニューが表示される。
この例では、ユーザはエスケープ・キーを受けて、キー「1」を押下する。キー「1」は、ディクテーション・デフォルト・オプションに対するヘルプ・メニューを一時的に呼び出し、エスケープ・キーは、その位置にある入力優先メニュー、及び、画面10118で示されているように、ディクテーション・デフォルト・オプションに関連したメニューに戻る。エスケープで続けられるキー・オプションのそうした選択によって、ユーザは、ヘルプ・メニューのコマンド・リストの所望の部分に、即座にナビゲートすることが可能となり、これは、エスケープで続けられたコマンド及びリストのその部分に於けるキー番号を単に押下することで可能となる。
この例では、画面1122で示されているように、コマンド・リストに於いてページを下方向にスクロールするために、10120で示されているように、ユーザがページ右キーを押下する。この例では、発話オプションに対する連続押下、又は離散クリックに関する記述を獲得するために、10124で示されているように、そのキーを押下することによって、ユーザはキー「5」に関連したオプションを選択することが想定されている。これにより、画面10126に示されているように、そのオプションに対してヘルプ・メニューが表示される。この例では、このオプションの機能に関する短い既述を読むために、ユーザはあと2つ画面を下方向にスクロールし、その後、画面10130で示されているように、入力優先メニューに対するヘルプ・メニューに戻るために、10128で示されたエスケープ・キーを押下する。
図102に示されているように、この例では、ユーザが入力優先メニューに対するヘルプに戻る際に、数字1200で示されているようにキー「4」を選択し、これにより、画面10202で示されているように、発話終了オプションに対する押下及びクリック中に、ヘルプ・メニューを表示する。そして、ユーザは、機能を理解するために、このモードに関する十分な記述を読むために、あと2つ画面を下方向にスクロールし、そして、10204で示されているように、画面10206に示された入力優先メニューに対するヘルプまでエスケープで戻る。そして、入力優先メニューが呼び出され、画面10210で示されているように、入力モード・メニューに対するヘルプである、ヘルプ・メニューに戻るために、ユーザは再びエスケープを押下する。入力モードに対するヘルプが呼び出され、画面10214に示されているように、エディタ・モードに対するヘルプ・メニューである、ヘルプ・メニューに戻るために、ユーザは再びエスケープを押下する。
この例では、ユーザが、エディタ・モードに対するヘルプ・メニューに関する図99に示された、ボタン部分9908を下方向にスクロールするために、ページ右キーを6回押下することが想定されている。ユーザは、必要に応じて、より迅速にヘルプ・メニューのこの部分に於けるオプションにアクセスするために、プレイス・コマンドを使用することが出来る。ヘルプ・メニューの「他のヘルプ」部分では、画面10222に示されたエディタ画面オプション10224を選択するために、10220で示されているように、ユーザはライン下ボタンを押下する。この時点で、ユーザは、画面10228に示されているように、エディタ画面自体に対するヘルプを表示させるOKボタンを選択する。この画面が表示されるモードでは、電話キー番号インジケータ10230は、エディタ画面の一部をラベル付けするために使用される。ユーザがこれらの関連した電話番号を押下する場合、画面に対応箇所に関する記述が表示される。図102の例では、ユーザはキー「4」を押下し、これにより、エディタ画面ヘルプ画面10227の一番上に表示されるナビゲーション・モード・インジケータ「<W^L」の機能を説明する、エディタ画面ヘルプ画面10234が表示される。
この例では、数字10236に示されているように、ユーザはエスケープ・キーを3回押下する。3回の押下の内、1回目の押下によって、画面10234から画面10228に逃れ、表示される画面の数字を割り当てられた部分の他の部分に関する説明を選択するためのオプションをユーザに提示する。この例では、ユーザはそうした他の選択を行うことに関心はなく、エスケープ・キーの1回目の押下に続いて、さらに2回素早く押下している。この内、最初の押下によって、エディタ・モードに対するヘルプ・メニューまで逃れ、2回目の押下によって、エディタ・モードそれ自体まで逃れる。
図101及び102からわかる通り、ヘルプ・メニューの階層的動作によって、ユーザは携帯電話に於けるコマンド構造を素早く探索することが出来る。これは、所望の機能を実行するコマンドのサーチを行うことと、線形順のコマンド構造を単に確認することのために使用することが出来る。
図103及び104は、エディタ・モードに於いて、ユーザが連続して幾つかの音声をディクテーションし、その結果のテキスト・出力を訂正するためにエディタのインターフェイスを使用する例を説明している。
この連続は、103に於いて、ユーザが発話10302を発声する間に、10300で示されているように、トーク・ボタンを押下し続けることで始まる。これは、この発話に関する認識に終わり、これにより、この例では、画面10304に表示されたテキストを、エディタのテキスト・ウインドウ10305に表示させる。数字10306は、連続ディクテーションの最後に於いて非選択カーソルである、この認識されたテキストの最後に於けるカーソルの位置を指し示している。
大語彙連続音声認識を使用して、発話が認識されるモードに於いて、システムが設定されることが想定されている。このことは、画面10304で示されたエディタ・ウインドウのタイトル・バーに於ける文字「_LV」によって示されている。
この例では、ユーザは図70及び80で説明された、追加されたナビゲーション・メニューにアクセスするために、ユーザがキー「3」を押下し、その後、それらの図に示された発話オプションを選択するために、ボタン「1」を押下する。これにより、カーソルは、画面10310に於ける10308で示されているように、直近の発話に対して認識されたテキストの最初の単語に対応する。次に、図77に記載された大文字化サイクル機能を選択するために、ユーザはキー「7」をダブルクリックする。これにより、10312で示されているように、選択された単語は大文字表記される。
次に、ユーザは、現在の単語/ライン・ナビゲーション・モードに於いて、ナビゲーション・モード・インジケータ10314で示されているように、単語右ボタンとして機能する右ボタンを押下する。これにより、カーソルは右10316の次の単語に移動する。次に、ユーザは図77の機能7728乃至7732に関して上述したように、拡大された選択モードにエディタを設定するために、キー「5」を押下する。その後、ユーザは単語右ボタンを押下し、これにより、カーソルはテキスト「got it」を含めるために、単語10318及び拡大された選択10320に移動する。
次に、ユーザは図77の選択肢リスト・コマンドを選択するために、キー「2」を押下し、これにより、訂正ウインドウ10322は第1選択肢として選択10320に対して表示され、10324で表示されているものとして示された第1アルファベット順選択肢リストと共に表示される。この選択肢リストでは、それぞれの選択肢は、それを選択するために使用可能な関連した電話キー番号と共に表示される。
この例では、所望の選択肢が第1選択肢リストに表示されず、所望の単語「product」が位置する、10328で示された第2アルファベット順選択肢リストの第3画面に下方向にスクロールするために、ユーザが右ボタンを3回押下することが想定されている。
図77に於ける機能7706によって示されているように、ユーザが選択肢リスト・ボタンを1回押下することで、訂正ウインドウを入力する場合、画面10332で示されたナビゲーション・モード・インジケータ10326によって示されているように、訂正ウインドウのナビゲーションは、ページ/アイテム・ナビゲーション・モードに設定される。
この例では、ユーザは所望の選択肢を選択するために、キー「6」を押下し、これにより、カーソル選択の位置でエディタのテキスト・ウインドウにそれが挿入され、10330で示されているように、エディタ・テキスト・ウインドウが表示される。
次に、ユーザは位置10332にカーソルを置くために、単語右キーを3回押下する。この場合、認識された単語は「results」であり、所望の単語は、単語「result」の単数形である。このため、ユーザは単語形式リスト・ボタンを押下し、これにより、その表示された選択肢の一つとして所望の代替形式を有する、単語形式リスト訂正ウインドウ10334を表示させる。ユーザ・データはその関連した電話キーを押下することによって、所望の選択肢を選択し、エディタのテキスト・ウインドウを10336で示された状態にする。
図104に示されているように、ユーザはカーソルを位置1400に向かって下方向に移動するために、ライン下ボタンを押下する。その後、ユーザは拡大されたセクションを開始するために、キー「5」を押下し、位置10402まで1単語分右にカーソルを移動させるために単語キーを押下し、現在の選択10404を右側に1単語分拡大させる。
次に、ユーザは、図77に置いて機能7712乃至7716に関して上述したフィルタ選択肢オプションを選択するために、キー「2」をダブルクリックする。下矢印10406によって示されているように、キー「2」の2回目のクリックは、延長されたクリックである。この延長された押下中に、ユーザは、所望の単語「painstaking」の最初の文字である、文字列「p、a、i、n、s、t」を連続して発話する
この例では、訂正10412のタイトル・バーに於ける文字「abc」によって示されているように、訂正ウインドウが連続音名認識モードの状態である。
この例では、フィルタとしての発話10408の認識により、訂正ウインドウ10412は音名の連続して発話された文字列の認識からの認識結果に対応する曖昧な長さのフィルタに対して、フィルタ処理された選択肢一式を表示する。訂正ウインドウは、曖味なフィルタ要素に関連した文字の連続の一つで始まる第1選択肢10414を有する。曖昧なフィルタに関連した文字の連続に対応する第1選択肢の一部は、曖昧なフィルタ・インジケータ10416によって示される。フィルタ・カーソル10418は、第1選択肢のこの部分の最後の後の位置に置かれる。
この時点で、ユーザは、図81に於ける機能8124及び8126の動作のために、フィルタ・カーソルを移動させ、現在の単語の第1文字10420を選択させる単語右キーを押下する。図81の機能8151及び8162は、フィルタ文字選択肢ウインドウ10422を表示させる。所望の文字は「p」であるので、ユーザはそれを選ぶためにキー「7」を押下し、これにより、その文字はフィルタ文字列の非曖昧な文字となり、フィルタに於けるその変更の結果として、新しい訂正ウインドウ10424が表示される。
次に、ユーザは文字ダウン・ボタンを4回押下し、これにより、図81に於ける機能8150の動作のために、フィルタ・カーソルの選択が、この例では文字「f」10426である第1選択肢に於いて、右側に4文字移動される。これは、曖昧なフィルタ・マーカ10428によって示されているとして、フィルタ強度の曖昧な部分にそれでも対応する第1選択肢の一部であるので、図示されているように、図81のライン8152に於けるフィルタ文字選択肢への呼び出しによって、他の文字選択肢ウインドウが表示される。
この例では、所望の文字、即ち、文字「s」は選択肢リストに於ける電話キー「5」に関連しており、ユーザは訂正文字10430を現在のフィルタ強度に挿入し、数字10432で示されているように、その前の全ての文字を、非曖昧に確認するために、そのキーを押下する。
この時点で、正しい選択肢が電話キー「6」に関連して表示され、10434で示されているように、所望の単語をエディタのテキスト・ウインドウに挿入するために、ユーザは電話キーを押下する。
次に、この例では、10436で示されたテキスト「period」を選択する目的で、カーソル選択を1ライン分下に移動させ、右側に移動させるために、ライン下キー及び単語右キーを押下する。その後、ユーザはキー「8」、又は、単語形式リスト訂正ウインドウ10438を表示させる単語形式リスト・キーを押下する。所望の出力、即ち、ピリオド記号は、電話キー「4」に関連している。ユーザはそのキーを押下し、所望の出力を10440で示されたエディタ・ウインドウのテキストに挿入させる。
図105は、図81に関して上述した機能8132及び8135の動作によって、ユーザが選択肢リストをどうのように水平方向にスクロールすることが出来るかを説明している。
図106は、どのようにしてキー・アルファ認識モードをエディタのテキスト・ウインドウにアルファベット入力を入力するために使用することが出来るかを説明している。画面10600は、カーソル10602が表示されやエディタ・テキスト・ウインドウを示している。この例では、ユーザは図79及び68に関して上述した入力モード・メニューを開くために、キー「1」を押下し、その結果、画面10604の状態となる。このモードでは、図79の機能7938に関して上述されたキー・アルファ認識モードを選択するために、ユーザはキー「3」をダブルクリックする。これにより、システムは図86に関して上述されたキー・アルファ・モードにセットされ、エディタ・ウインドウは図106に示されたプロンプト10606を表示する。
この例では、10608で示されているように、ユーザは電話キーを延長して押下し、これにより、プロンプト・ウインドウ10610は、押下された電話キーに関してそれぞれの文字に関連したICA単語を表示する。それに応じて、ユーザは発話「charley」10612を行う。これにより、対応する文字「c」が、カーソルの前の位置で、テキスト・ウインドウに入力され、テキスト・ウインドウは画面10614に示された状態となる。
この例では、10616に示されているように、ユーザが2つのICA単語、即ち、「alpha」及び「bravo」を連続して発話する間に、トーク・キーを押下することが、次に想定されている。これにより、画面10618で示されているように、それら2つのICA単語に関連した文字「a」及び「b」が、そのカーソル位置で、テキスト・ウインドウに入力される。次に、この例では、ユーザはキー「8」を押下し、そのキーに関連した3つのICA単語の一つを発話することを促され、0620で示されているように、エディタのテキスト・ウインドウに文字「u」を挿入させるために、単語「uniform」を発話する。
図7は、アルファベット・フィルタリング入力を入力するために使用される同一のキー・アルファ認識モードについて説明している。図106で示されているように、テキスト・エディタから入力可能な方法と同一方法で、キー「3」のダブルクリックが後に続けられる、キー「1」の押下によって訂正ウインドウの状態にある場合、キー・アルファ・モードを入力することが可能であることを図7は示している。
図106及び109は、携帯電話に関する実施形態に於いて、テキスト及びEメールのアドレス指定、入力、及び、訂正を行うために、ユーザがどのように上述された音声認識テキスト・エディタのインターフェイスを使用することが出来るかを示している。
図108に於いて画面10800は、図66で説明されているように、ユーザがメイン・メニュー時にキー「4」をダブルクリックすることによってEメール・オプションを選択する場合に、ユーザがアクセスする、Eメール・オプション画面を示している。
示された例では、ユーザが新しいEメールのメッセージを作成しようと考えており、このためオプション「1」を選択することが想定されている。これにより、新しいEメール・メッセージ・ウインドウ10802は、そのウインドウに於ける第1編集可能位置に於かれたカーソルと共に表示される。これは、メッセージのア受信者に関連したEメール・メッセージの部分に於ける第1文字である。この例では、ユーザはトーク・ボタンを延長して押下し、数字10804で示されているように、名前「Dan Roth」を発話する。
この例では、これにより僅かに間違った名前「Stan Roth」が10806で示されているメッセージの受信者ラインに挿入される。ユーザは、選択に対して、選択肢リスト10806を選択するために、キー「2」を押下することで対応する。この例では、所望の名前が選択肢リストに表示されており、ユーザはそれを選択するためにキー「5」を押下し、所望の名前が10808に示されている受信者ラインに挿入される。
次に、画面10810に示されているように、題名ラインの最初にカーソルを下方向に移動させるために、ユーザはライン下ボタンを2回押下する。その後、発話「cell phone speech interface」10812を発声する間に、ユーザがトーク・ボタンを押下する。この例では、この発話が「sell phone speech interface」として、僅かに誤って認識され、Eメール編集ウインドウを10814で示された状態にするために、このテキストが題名ラインに於けるカーソル位置に挿入される。それに応じて、ユーザはカーソル選択を位置10816に置くために、ライン上ボタン及び単語左ボタンを押下する。その後、ユーザは単語形式リスト訂正ウインドウ10818を表示させるために、キー「8」を押下する。この例では、所望の出力がキー「4」と関連しており、ユーザは該キーを押下し、画面10820に示されているように、所望の出力をカーソルの位置に置く。
次に、画面10822に示されているように、Eメール・メッセージの本文の最初にカーソルを置くために、ユーザはライン下ボタンを2回押下する。これが実行されると、ユーザは、「the new Elvis interface isworking really well」という発話を連続して発声する間、トーク・ボタンを押下する。これにより、画面10824によって示されているように、幾分間違って認識された文字列「he knew elfish interface is working really well」が、カーソル位置に挿入される。
これに対応して、図199の画面10900によって示された位置にカーソルを置くために、ユーザはライン上キーを1回押下し、単語左キーを2回押下する。その後、拡大選択を開始するために、ユーザはキー「5」を押下し、カーソルを位置10902に置き、10904によって示されているように、選択を拡大させるために、単語左キーを2回押下する。この時点で、現在の選択に対して、訂正ウインドウ10906を入力するために、ユーザはキー「2」をダブルクリックし、その押下中に、文字「t、h、e、space、n」を連続して発声する。これにより、連続して入力された音名文字の連続に対応する非曖昧フィルタ10910と共に、新しい訂正ウインドウ10908が表示される。
次に、数字10912によって示されているように、フィルタ・カーソルを次の単語の第1文字の右側に移動させる単語右キーを押下することで入力が行われる。その後、入力モード・メニューを入力するためにキー「1」を押下し、アルファブラボ入力語彙、又は、ICA単語入力・語彙を選択するために、キー「3」を押下する。 キー「3」を連続して押下する間、ユーザは連続発話10914、即ち、「echo、lima、victor、sierra」を発声する。この発話は、訂正ウインドウ10916の第1選択肢ウインドウに挿入され、以前のフィルタ・カーソル位置で始まる、検出配列「ELVIS」として認識される。示された例では、アルファブラボ認識がその信頼性から、非曖昧なものとして処理され、画面10916に示された非曖昧な確認表示10918によって示されているように、入力された文字、及び、第1選択肢ウインドウに於けるそれの前の全ての文字を、非曖味に確認されたものとして扱うことを想定している。
この例では、現在の第1選択肢が所望の出力であるので、現在の第1選択肢を選択するためにユーザはキー「OK」を押下する。
図110は、再発話を所望の認識出力の獲得を支援するために、どのように使用することが出来るかを説明している。それは、画面10906及び図109によって示されたように、同一状態に於ける訂正ウインドウで始まる。しかし、図110の例では、ユーザはキー「1」を2回押下することによって、画面に対応する。但し、1回目は入力メニュー・モードを入力するためであり、2回目は大語彙認識を選択するためである。図79の機能7908乃至7914によって示されているように、訂正ウインドウが表示された際に、大語彙認識が入力モード・メニューで選択される場合、システムは、これを、ユーザが再発話の実行を望んでいる、即ち、所望の出力に対する新しい発話を、所望の出力の選択支援に使用するための発話リストに追加することを望んでいるものとして解釈する。この例では、所望の出力に対応する3つ単語、「the」、「new」、「Elvis」を発声するために、離散音声を使用する間、ユーザはキー「1」の2回目の押下を継続する。示された例では、この新しい発話リスト入力によって提供された追加の離散発話情報によって、システム3つの単語の内、最初の2つの単語をシステムに正確に認識させることを想定している。この例では、3つの単語の内、3番目の単語が現在の語彙に存在しておらず、これにより、例えば、図109の発話10914によって実行されているように、ユーザはフィルタリング入力を用いて、その3番目の単語を綴ることを要求される。
図110は、携帯電話のソフトウェアの一部であるウェブ・ブラウザで所望のウェブ・ページにアクセスする目的で、URLテキスト文字列を入力するために、エディタ機能性をどのように使用することが出来るかを説明している。
ブラウザ・オプション画面11100は、図66に示されているように、メイン・メニューに於いて、キー「7」に関連したウェブ・ブラウザ・オプションをユーザが選択する場合に表示される画面を示している。この例では、ユーザは所望のウェブ・サイトのURLを入力することを望んでおり、キー「1」を押下することによって、キー「1」に関連したURLウインドウ・オプションを選択することを想定している。これにより、ユーザを支持する短いプロンプトを画面11102に表示させる。ユーザは、トーク・ボタンを連続して押下する間、所望のウェブ・サイトの名前を綴るために、連続音名綴りを使用することによって対応する。示された実施形態では、発話11103の認識によって訂正ウインドウ11104を表示するために、URLエディタが常に訂正モードの状態にある。その後、ユーザが第1選択肢を選択する画面11106で示されているように、当初間違って認識されたURLを所望の綴りに訂正するために、ユーザは、上述されたタイプのフィルタ文字列編集テクニックを使用し、システムに所望のウェブ・サイトにアクセスさせる。
図112乃至114は、ナビゲート、及び、ウェブ・ページのフィールドにテキストを入力するために、エディタ・インターフェイスをどのように使用することが出来るかを説明している。
画面11200は、携帯電話のウェブ・ブラウザが新しいウェブ・サイトに最初にアクセスする場合の該ウェブ・ブラウザの状態を説明している。URLフィールド11201は、ユーザが現在のウェブ・ページを識別することを支援するために、ウェブ・ページ11204の一番上の前に表示される。ユーザが現在表示されたウェブ・ページのURLを確認したい場合には、いつでも、この位置を後ろにスクロールさせることが出来る。ウェブ・ページが最初に入力される時、ウェブ・ページは、左右両キーを移動させることが、殆どのウェブ・ブラウザでのページの「戻る」及び「進む」制御のように作動する、文書/ページ・ナビゲーション・モードの状態にある。この場合、単語「document」は、「page」の代わりとなるが、これは、携帯電話のディスプレイに於いてメディアで一抔の画面を参照するために、他のナビゲーション・モードで単語「page」が使用されるからである。ユーザが上下両キーの何れかを押下する場合、ウェブ・ページの表示は、全画面ページ(又は画面)でスクロールされる。
図116は、示された携帯電話に関する実施形態が、図115に関して上述したタイプのダイアログ・ボックスを編集する際に、リスト・ボックスとして、訂正ウインドウの特別形式が使用されることをどのように許可するかを説明している。
図116の例は、図15の画面11504で示された状態にある探索ダイアログ・ボックスから始まる。この状態から、「In:」リスト・ボックスにカーソルを置くために、ユーザはライン下キーを2回押下し、これにより、探索ダイアログ・ボックスに対応して実行された検索が、携帯電話のデータのどの部分で実行されるかを規定するユーザがこのウインドウにあるカーソルでトーク・ボタンを押下する場合、現在の第1選択肢として、リスト・ボックスに現在の選択を表示し、他のリスト・ボックス選択肢のスクロール可能なリストに電話キー番号に関連して表示されているそうした他の選択肢のそれぞれを供給する、リスト・ボックス訂正イオン道11512が表示される。ユーザはこのリストをスクロールすることが可能であり、電話キー番号ー又は強調表示された選択を使用することによって、所望の選択肢を選択することが可能である。この例では、ユーザはトーク・キーの押下を継続し、発話11514で所望のリスト・ボックス値を発声する。リスト・ボックス訂正ウインドウに於いて、アクティブ語彙は、リストの値に相当制限される。所望のリストの値が第1選択肢である例に示されているように、訂正認識は、そうした限られた語彙を有している可能性が相当ある。ユーザは、キー「OK」を押下することによって対応し、これにより、示されているように、ダイアログ・ボックスのリスト・ボックスに所望のリストの値が置かれる。
図117は、携帯電話インターフェイスが、電話をかける際にユーザが実行可能な幾つかの機能を表示する、ユーザと携帯電話インターフェイスとの間の一連の対話について説明している。
図117の画面6400は、図64に関して上述された、同一の最高レベル電話モード画面である。それが表示される際に、ユーザが、氏名ダイアル・コマンドにマッピングされるラスト・ナビゲーション・ボタンを選択する場合、システムは氏名ダイアル・モード、即ち、図119の擬似コードに置いて説明された基本機能を入力する。その図からわかる通り、このモードによって、ユーザはそれらを追加することによって、連絡リストからネームを選択することが可能となり、間違った認識が存在する場合には、上述されたものと類似の訂正ウインドウに於ける潜在的にスクロール可能な選択肢から、選択肢を選択することによって、アルファベット・フィルタリングによってそれを訂正することが可能となる。
携帯電話が氏名ダイアル・モードを入力する場合、図117に示されているように、最初のプロンプト画面11700が表示される。この例では、トーク・キーの押下中に、ユーザはネーム11702を発話する。氏名ダイアルに於いて、そうした発話は、氏名語彙に自動的に限定された語彙を用いて認識され、その結果得られた認識によって、訂正ウインドウ11704が表示される。この例では、第1選択肢は間違っておらず、ユーザはキー「OK」を選択し、これにより、電話はユーザの連絡リストに於いて名付けられたグループに関連した電話番号に電話をかける。
通話が接続される場合、図75に関して上述された、同一の現行の通話インジケータ7414を有する画面11706が表示される。数字11708によって示されているように、画面の一番下には、現行の通話の最中に、ナビゲーション・キーのそれぞれに関連した機能に関して、指示が与えられる。この例では、図64に関連して上述された同一のメモ機能に関連した下ボタンをユーザが選択している。これに対応して、エディタ・ウインドウ11710は、これに対して、現在の通話に対するメモ・アウトラインに於いて作り出されている、自動的に作り出されたヘッディング・アイテム11712を用いて、エディタ・ウインドウ11710がメモ・アウトラインに対して表示され、それが形成されたグループ及び、その開始、及び、最終的にはその終了時間をラベル付けする。
その後、コール・ヘディングに基づいて、所望の新しいアイテムにカーソル11714が置かれる。
この例では、画面11716に示されているように、その発話に対応する認識されたテキストがカーソル位置で、メモ・アウトラインに挿入されことになるので、トーク・ボタンの押下中に、ユーザは連続発話11714を発声する。その後、ユーザは記録を開始するためにキー「6」をダブルクリックし、音の音声グラフィック表現が、カーソルの現在の位置で、エディタ・ウインドウに対するメモに置かれる。17718に示されているように、ユーザがその通話に於いてどのくらいの時問、誰が話をしていたかについて容易に記録し、必要に応じて、グループに対する通話の何れが話していたかに関する記録された音声の部分を、より適切に検索することが出来るように、携帯電話のオペレータが話している通話の部分からの音声が、音声グラフィックスで下線を引かれる。
図117の例では、タスク・リストを選択するために、ユーザは次にキー「*(スター)」をダブルクリックする。これは、現在開いているタスクをリストアップする携帯電話に於ける画面11720を示している。この例では、メモ・アウトラインに於いて異なる位置を表示する他のメモ・エディタ・ウインドウである、電話キー「4」に関連したタスクをユーザが選択する。これに対応して、電話キー画面は、説明されたメモの一部に関する画面11722を表示する。
この例では、ユーザはカーソルを位置11724に移動させるために、上キーを3回押下し、画面11726及び11728のカーソル間の移動によって示されているように、カーソルでの音声グラフィックス表現に関連した音の再生を開始するために、キー「6」を押下する。
図75に関して上述された「当方のみ再生」プション7513がオンの状態でなければ、画面11728に於ける音声に再生が、現在の通話の両者に対して再生され、通話のユーザが携帯電話の通話中に、他のグループとの音声録音を共有することが可能となる。
図118は、例えば、図117の中央下付近の画面11717で示されているように、編集ウインドウが音声を記録する場合、その部分の間に記録された音声が、それに実行された音声認識を有するようにするために、そうした音声の記録中に、ユーザが音声認識をオンの状態に切り換えることが出来ることを説明している。示された例では、画面11717に表示された記録中に、ユーザはトーク・ボタンを押下し、発話11800を発話する。これにより、その発話11802に関連したテキストがエディタ・ウインドウ11806に挿入される。認識の持続期間後に記録された音声は、音声グラフィックスのみで記録される。通常、これは、例えば認識される発話11800等の発話中に、ユーザがはっきり発話しようとし、その後、会話の一部、又は、音声だけで記録されているディクテーションの間に、より記が類に、自由に話す方法に於いて使用される。通常、音声は音声認識に関連して記録され、その結果、ユーザは、記録中に間違って認識された、例えばディクテーション11802のようなディクテーションに戻り、聞き、訂正することが可能である。
図119は、このシステムが、拡大された選択キー及び再生、又はナビゲーション・キーの組み合わせによって、その図に示された、例えば部分11900等の音声の部分を、どのようにユーザに選択させることが出来るか、そして、その後、11902で示されているように、認識された選択されたテキストを有するために、図90の機能9000乃至9014に関して上述された、認識された音声ダイアログ・ボックスをどのようにユーザに選択させることが出来るか、を説明している。図119の例では、ユーザが、認識されたテキスト11902に下線を引く、図90に示された、認識音声表示9026を選択し、それに関連した再生可能な音声をそれが有することを示している。
図120は、ユーザが記録された音声に関連した認識されたテキストの部分12000をどのように選択し、そして、エディタ・オプション・メニュー下のサブ・メニューに於いて、図90に示されたオプション9024を選択することによって、その関連した認識された音声から取り去られたテキストを有することをどのように選択することができるかを説明している。 これは、音声12002、及び、認識されたテキストが以前存在したメディアの一部に現存する、その対応する音声グラフィックス表現を残す。
図121は、図21の12102に示されているように、編集オプション・メニューの音声メニュー下からの図90の機能9020が、どのようにして、ユーザが部分12100に関連した認識された音声から、そのテキストの認識されたテキストを取り去ることを許可するかについて説明している。
図122乃至125は、図126に於ける擬似コードに於いて説明されたデジタル・ダイアル・モードの動作に関して説明している。例えば、図65の機能6552で示されているように、メイン・メニューの状態で、電話キー「2」を押下すること、又は、システムが画面6400及び図64で示された最高レベル電話モードの状態で、ナビゲーション左ボタンを選択することによって、ユーザがデジタル・ダイアル・モードを選択する場合、システムは図126に示されたデジタル・ダイアル・モードを入力し、ユーザに電話番号を発話するように指示するプロンプト画面12202を表示する。12204に示されているように、ユーザが電話番号の発話を発声する場合、その発話が認識される。システムが電話番号の正確な認識に於いてかなり信頼性がある場合、12206に示されているように、認識された電話番号を自動的にダイアルする。システムが電話番号の認識に於いて信頼性がない場合、訂正ウインドウ12208を表示する。12210で示されているように、訂正ウインドウが第1選択肢として所望の番号を有する場合、ユーザは「OK」キーを押下することによって、それを単に選択することができ、12212で示されているように、システムに数字をダイアルさせる。12214で示されているように、訂正選択肢が第1選択肢リストにある場合、12216で示されているように、ユーザは数字をダイアルするシステムのために、その選択肢に関連した電話キー・ナンバーを単に押下することが出来る。
図123の一番上に示された画面12300で示されているように、訂正数字は、第1選択肢でもなく、第1選択肢リストにもない場合、数字12302によって示されているように、ページ下キーを繰り返し押下すること、又は、12304で示されているように、アイテム下キーを繰り返し押下することの何れかによって、ユーザは所望の数字が第2選択肢リストの画面の一つにあるかどうかを確認するためのチェックを行うことが出来る。これらの方法の何れかで選択肢リストをスクロールすることによって、ユーザが所望の番号を見る場合、ユーザはその関連した電話キーを押下すること、又は、選択肢の強調表示をそれに移動させ、その後、キー「OK」を押下することの何れかによって、それを選択することが出来る。これにより、画面12308で示されているように、システムにその番号をダイアルさせる。当然のことながら、選択肢リストにおける電話番号は数字順に並んでいるので、ユーザは該リストをスクロールすることによって、所望の番号を直ちに見つけることが出来る。これらの図で示された実施形態に於いて、数字変更インジケータ12310は、任意の選択肢がリスト上でそれより前の選択肢と異なる、最も重要な数字の縦列を示すために与えられる。これにより、所望の電話番号を自分の目で調べることが容易になる。
図124は、数字ダイアル・モードによって、どのようにユーザが第1選択肢に於ける数字の位置にナビゲートし、その中に存在する任意のエラーを訂正することを許可されるかについて説明している。図124に於いて、これは所望の数字を発話することによって実行されるが、ユーザはまた、適切な電話キーの押下によって、所望の番号の訂正が許可されている。
図125に図示されているように、ユーザは欠けている数字を挿入することはもちろん、間違って認識された数字を痴漢することによって、間違って認識された電話番号を編集することが出来る。
上述の発明は、音声認識の入力及び訂正はもちろん、図3乃至8に示されたもの全てを含む、多くの様々なタイプのコンピューティング・プラットフォームに於ける他の形式の認識のために使用することが可能な多くの特徴を有する。図94に関して説明された発明の多くの特徴は、それらのタスクに、視覚的な注意を十分払うことを必要とせずに、ユーザがテキストの入力、及び/又は、編集を望んでいる状況で使用することが出来る。例えば、これによって、ユーザは自分の携帯電話や他のディクテーション・デバイスをしっかりと見ることを必要とせずに、公園で歩きながら、Eメールを聞き、返事をディクテーションすることが可能となる。そうした音声フィードバックが音声認識、及び、電話のダイアルや電話の制御等、他の制御機能に有用な一つの特別の環境は、図126に図示されているような、自動車空間である。
図126に示されている実施形態に於いて、自動車はコンピュータ12600を有しており、該コンピュータは、携帯無線通信システム12602に接続され、カー・オーディオ・システム12604に接続されている。多くの実施形態に於いて、自動車の電子システムは、例えばBluetooth等の短距離無線トランシーバ、又は、他の短距離無線トランシーバ12606を有する。これらは、ワイヤレス・ヘッドフォン2608、又は、ユーザの携帯電話12610と通信するために使用可能であり、その結果、ユーザは自動車を使用しながら、通常の携帯電話に記録された情報にアクセスするという利点を有することが出来る。
携帯電話/無線トランシーバ12602は、携帯電話の送受信だけでなく、Eメールの送受信、上述の機能で聞くこと及び編集が可能なテキスト・ファイル等のデジタル・ファイル、及び、音声ウェブ・ページを送受信するためにも使用することが出来ることが望ましい。
示された携帯電話の実施形態に関して上述した機能の多くを制御するための入力デバイスは、過度にユーザが運転機能から注意を逸らすことなく、キーにアクセスすることが出来る、自動車のハンドル等の位置に設置されることが望ましい電話キーパッド12212によってアクセスすることが可能である。事実、図126に示された位置に類似した位置を有するキーパッドを使用して、ユーザは片手の親指でキーパッドのボタンを選択しながら、同じ手の指をハンドルの縁の辺りに置くことが出来る。そうした実施形態では、ユーザがどのキーを押下しているのか、及び、キーパッドを見る必要がないように、そのキーの機能を決定することが出来るように、図94の9404乃至9414に関して上述されたTTSキー機能を、そのシステムが有することが望ましい。他の実施形態では、また、そうした情報を有する電話キーをただ接触することに対応する接触キーパッドが、より簡単で早く使用できるものになり得る。
図127及び128は、携帯電話の実施形態に関して上述した可能性の殆どが、例えば、図127に示されたコードレス電話や、図128で示された地上有線電話等、他のタイプの電話で使用可能であることを図示している。
前述の記述及び図は、単に説明及び例示のために用いられており、本発明は添付された請求項の解釈が限られている限りを除いて、それに限られるものではないことを理解すべきである。それらの前に開示を有する当業者は、本発明の要旨を逸脱しない範囲で、その中に修正及び変更を行うことが出来る。
幅広く特許請求の範囲が請求されているように、本願発明は、オペレーティング・システム、コンピュータ・ハードウェア、コンピュータ・ネットワークの任意の一つのタイプの使用に限られるものではなく、したがって、本発明の他の実施形態では異なるソフトウェア及びハードウェア・システムを使用することが可能である。
さらに、下記の請求項に於いて記述されたプログラムの動作は、実際の全てのプログラムの動作のように、相当異なる機構及び順番を使用して、多くの異なるプログラミング及びデータ構造によって実行することが可能であることが理解されるべきである。これは、当業者によって理解された場合、複雑な所定の考えは、実際無限の方法で明らかにすることが出来るからである。したがって、請求項の範囲は、正確な機能、及び/又は、図中で示された機能の配列に限られることはあり得ない。これが特に当てはまるのは、不必要に詳細を用いて当業者を悩ますことなく、本発明を実行するために当業者が知る必要のあるものに、より効果的に知らせるために、上述のテキストで記述された擬似コードが高度に簡素化されているからである。そうした簡略化のために、上述の擬似コードに構造は、本発明を実行する際に、熟練したプログラマーが使用する実際のコードに関する構造とは相当異なっている場合が多い。さらに、明細書に於いてソフトウェアで実行されることが示された多くのプログラムの動作は、他の実施形態に於いてハードウェアで実行することが可能である。
上記に於いて議論した本発明に関する多くの実施形態に於いて、本発明のそうした特徴に関する他の実施形態で個別に生じる本発明の様々な特徴が、同時に生じることが示されている。
本願に於いて記述された本発明に関する全ての特徴及び側面は、明細書、図面、及び、元の請求項の範囲を含み出願されるので、当然のことながら、本発明は方法、装置システム、及び、機械で読み取り可能な形式で記録されたプログラミングに本発明を拡大する。
Claims (248)
- ユーザが第1ユーザ入力及び第2ユーザ入力の生成から選択可能なユーザ・インターフェイスを提供することと、
少なくとも、以前に認識された単語によって作成された言語モデル文脈に部分的に依存する認識の第1単語を認識する、以前の言語文脈依存モードに於いて、一つ又は複数の発話に関して大語彙認識を実行することによって、前記第1ユーザ入力の形成に対応することと、
少なくとも、以前の認識された単語によって作成された言語モデル文脈から独立した認識の第1単語を認識する、以前の言語文脈独立モードに於いて、一つ又は複数の発話に関して大語彙認識を実行することによって、前記第2ユーザ入力の形成に対応することと、を備える音声認識方法。 - 前記ユーザ・インターフェイスは、第1ボタン及び第2ボタンを有し、
前記第1ユーザ入力は、前記第1ボタンの押下によって形成され、
前記第2ユーザ入力は、前記第2ボタンの押下によって形成される、
請求項1に記載の音声認識方法。 - 第2単語、及び、それに続く単語の選択時に、あるとしても、発話に関して認識された、発話に関する第1の認識された単語、及び、それに続く認識された単語によって作成された言語モデル文脈を使用する、請求項1に記載の音声認識方法。
- 他のプログラムへのテキスト入力として、前記以前の言語文脈依存モード及び前記以前の言語文脈独立モードによる認識された単語の出力を提供することをさらに備える、請求項1に記載の音声認識方法。
- 前記方法は、マイクロソフト・ウインドウズCEに於けるソフトウェア入力パネルで実行される、請求項4に記載の音声認識方法。
- ユーザが第1ユーザ入力及び第2ユーザ入力の生成から選択可能なユーザ・インターフェイスを提供することと、
連続音声認識モードに於いて任意の語彙に於ける一つ又は複数の単語として、一つ又は複数の発話を認識することによって第1ユーザ入力の形成に対応することと、
離散音声認識モードに於いて、同一の任意の語彙に於ける一つ又は複数の単語として、一つ又は複数の発話を認識することによって第2ユーザ入力の形成に対応することと、を備える音声認識方法。 - 前記任意の語彙は大語彙である、請求項6に記載の音声認識方法。
- 前記任意の語彙はアルファベット入力語彙である、請求項6に記載の音声認識方法。
- 前記ユーザ・インターフェイスは、ユーザが前記第1入力及び前記第2入力の選択から独立な第3入力及び第4入力の形成から選択することを許可し、
前記音声認識方法は、さらに、第1語彙又は第2語彙を前記任意の語彙として選択することによって、前記第3入力及び第4入力にそれぞれ対応することを備える、請求項6に記載の音声認識方法。 - 前記第1語彙及び前記第2語彙は、単語の大語彙及びアルファベット入力語彙である、請求項9に記載の音声認識方法。
- 前記第1語彙及び前記第2語彙は2つの異なるアルファベット入力語彙である、請求項9に記載の音声認識方法。
- 提供された前記ユーザ・インターフェイスは、第1ボタン及び第2ボタンを有し、
前記第1ユーザ入力は、前記第1ボタンの押下によって形成され、
前記第2ユーザ入力は、前記第2ボタンの押下によって形成される、
請求項6に記載の音声認識方法。 - 前記第1ボタン及び前記第2ボタンの押下によって、前記ボタンのかなりの押下時間から、検出された発話の次回の最後まで、それぞれの認識モードが認識し、
前記離散認識が前記発話に一致する単一の単語に対する一つ又は複数の候補の認識に限定され、
連続認識モードがそのように限定されない、請求項12に記載の音声認識方法。 - 離散認識モードで単語を表現するために使用される音響モデルは、連続認識モードで前記単語と同一単語を表現するために使用される音響モデルとは異なっている、請求項6に記載の音声認識方法。
- ユーザが第1ユーザ入力及び第2ユーザ入力の生成から選択可能なユーザ・インターフェイスを提供することと、
第1アルファベット入力語彙に於ける一つ又は複数の単語として、一つ又は複数の発話を認識することによって前記第1ユーザ入力の生成に対応することと、
第2アルファベット入力語彙に於ける一つ又は複数の単語として、一つ又は複数の発話を認識することによって、前記第1ユーザ入力の生成に対応することと、を備える音声認識方法。 - 前記第1アルファベット入力語彙は、アルファベットのそれぞれの音名を有し、前記第2アルファベット入力語彙は、アルファベットのそれぞれの音名を有しておらず、
前記第2アルファベット入力語彙は、アルファベットのそれぞれの文字で始まる一つ又は複数の単語を有し、前記代1アルファベット入力語彙は、アルファベットのそれぞれの文字で始まる一つ又は複数の単語を有していない、請求項15に記載の音声認識方法。 - 前記ユーザ・インターフェイスは、前記第1入力及び前記第2入力を生成するための別々のボタンを提供する、請求項15に記載の音声認識方法。
- 前記ボタンのそれぞれを接触することによって、前記ボタンに関連したアルファベット入力モードに於いて、認識がオンの状態になる、請求項17に記載の音声認識方法。
- 前記ユーザ・インターフェイスは、任意の単語の認識に対する単語の選択肢が、綴りが前記ユーザによる一つ又は複数の文字入力の連続に一致する単語に限定されるフィルタリング・モードを、ユーザが選択することを可能にし、前記第1アルファベット入力モード又は前記第2アルファベット入力モードの何れかを使用する音声認識によって、ユーザが一つ又は複数の前記フィルタリング文字を入力することを可能にし、
前記第1入力及び前記第2入力は、フィルタリング文字の認識が前記第1アルファベット入力モードを使用して実行されるか、前記第2アルファベット入力モードを使用して実行されるか、を選択する、請求項15に記載の音声認識方法。 - ユーザが第1ユーザ入力、第2ユーザ入力、及び、第3ユーザ入力の生成から選択可能なユーザ・インターフェイスを提供することと、
第1の汎用大語彙に於いて、一つ又は複数の単語として、一つ又は複数の発話を認識することによって、前記第1ユーザ入力の生成に対応することと、
第2のアルファベット入力語彙に於いて、一つ又は複数の単語として、一つ又は複数の発話を認識することによって、前記第2ユーザ入力の生成に対応することと、
綴られていないテキスト入力を表現する、第3の語彙に於いて、一つ又は複数の単語として、一つ又は複数の発話を認識することによって、前記第3ユーザ入力の生成に対応し、
前記3つの語彙の何れかに於ける認識から受け付けた出力を連続して受け付け、その出力を共有テキストにセットすることと、を備える音声認識方法。 - 前記第3語彙は数字語彙である、請求項20に記載の音声認識方法。
- 前記第3語彙は句読点記号の語彙である、請求項20に記載の音声認識方法。
- 前記ユーザ・インターフェイスは、第1入力、第2入力、及び、第3入力のそれぞれの選択に対して異なるボタンを提供する、請求項20に記載の音声認識方法。
- 前記3つの語彙の一つに関連したボタンを押下することによって、その語彙を使用する認識をオンの状態にする、請求項23に記載の音声認識方法。
- 一つ又は複数の単語の連続を表す非テキスト・ユーザ入力を含む単語入力信号を受け付けることと、
前記入力信号に一致する比較的高い確率を有するために認識手段によって検出された、それぞれが一つ又は複数の単語、及び/又は数字の連続で構成された最高得点認識候補の選択肢リストを作成するために、前記入力信号に基づいて単語認識を実行することと、
前記リストに於いてそれぞれの候補に関連した一つ又は複数の単語に一致する文字の連続に関する文字の順序に応じて、前記選択肢リストに順序づけされた候補を用いて、最高得点認識候補の選択肢リストを表すユーザが認知可能な出力を生成することと、
ユーザが前記選択肢リストからの文字順の認識候補の一つを選択することが可能となるユーザ・インターフェイスを提供することと、
前記単語入力信号に対応する一つ又は複数の単語及び/又は数字として、前記選択された候補を処理することによって、前記選択肢リストからの前記認識候補の一つに関するユーザの選択に対応することと、で構成される単語認識実行方法。 - 最高得点候補は、前記最高得点候補に関連した一つ又は複数の単語に対応する前記文字の連続が、前記文字順に応じて、前記文字順リストに収まる位置と独立した、前記ユーザ認知可能出力に於ける位置にセットされる、請求項25に記載の単語認識実行方法。
- 前記単語入力信号は、話された単語の発話表現であり、
前記単語認識は、音声認識である、請求項25に記載の単語認識実行方法。 - 前記ユーザ認知可能出力は、画面表示に前記最高得点認識候補に関する文字順リストを表示することを含む、請求項25に記載の単語認識実行方法。
- 前記選択肢リストは、一度に画面に適合するよりも多くの認識候補を有し、
前記選択肢リストはスクロール可能であり、その結果、ユーザが一度に画面に適合するよりも多くの認識候補を前記リスト上で視認するために、前記画面に対して、前記リストを移動することを選択出来る、請求項28に記載の単語認識実行方法。 - 前記文字順リストは、アルファベット順リストであり、
前記リストに於ける個別認識候補に関する前記画面は、一つ若しくは複数のアルファベット綴りの単語の連続を含む、請求項28に記載の単語認識実行方法。 - 前記単語リストは、一度に前記画面に適合するよりも多くの認識候補を有し、
前記選択肢リストはスクロール可能であり、その結果、ユーザは一度に画面に適合するよりも多くの認識候補を前記リスト上で視認するために、前記画面に対してリストを移動することを選択できる、請求項30に記載の単語認識実行方法。 - 前記選択肢リストは2つのアルファベット順サブリストを有しており、
第1サブリストは、一度に前記画面に適合する最高得点選択肢候補を有し、
第2サブリストは、他の最高得点選択肢候補を含む、請求項31に記載の単語認識実行方法。 - 前記第2サブリストは、一度に下面に当てはまるよりも多くの候補を有する、請求項32に記載の単語認識実行方法。
- 最高得点認識候補の文字順リストの前記画面の後で、ユーザが一つ又は複数の文字指標に関するフィルタリング配列を選択することが出来るユーザ・インターフェイスを提供することと、
新たな選択肢リストが一つ又は複数の文字の連続が前記フィルタリング配列で始まる候補に制限されている、認識候補に関する新しいアルファベット順選択肢リストを、前記画面に生成、及び、表示することによって、前記フィルタリング配列の選択に対応することと、
ユーザが前記新しい選択肢リストからアルファベット順認識候補の一つを選択可能なユーザ・インターフェイスを提供することと、
前記単語入力信号に対応する一つ又は複数の単語及び/又は数字として、前記選択された候補を処理することによって、前記新しい選択肢リストに於ける前記認識候補の一つに関するユーザの選択に対応することと、をさらに含む、請求項30に記載の単語認識実行方法。 - 新しいアルファベット順選択肢リストの生成及び表示によって前記フィルタリング配列の選択への前記対応は、認識候補の数字が所望の数字を下回るかどうかを検出することと、認識候補の数字が所望の数字を下回るという検出が行われた場合、語彙リストから前記新しいアルファベット順選択肢リストに含めるために、前記フィルタリング配列で始まる一つ又は複数の追加候補を選択することと、を含む、請求項34に記載の単語認識実行方法。
- 前記新しいアルファベット順選択肢リストは、一度に画面に適合するよりも多くの認識候補を含み、
前記選択肢リストはスクロール可能であり、その結果、ユーザは一度に前記画面に適合するよりも多くの認識候補を前記リスト上で視認するために、前記画面に対して前記リストを移動することを選択することが出来る、請求項35に記載の単語認識実行方法。 - 前記方法は、電話キーパッドを有する電話で実行され、
ユーザが前記文字指標入力を入力可能な前記ユーザ・インターフェイスは、所望の認識候補に関連した一つ又は複数の文字の連続に於いて一致する文字が、前記任意のキーに関連した複数の一連の文字の一つであることを示す、任意の電話パッド・キーを押下して、ユーザが前記電話キーパッドの一つ又は複数のキーを押下することによって、そうした入力を行うことができ、
前記新しい候補リストは、 一つ又は複数の単語の連続が、文字の最初の連続のそれぞれの文字が、前記文字指標入力の連続に於ける、一致する文字指標によって示された一連の文字の一つに対応する、文字指標入力の連続に対応する文字の最初の連続で始まる候補に制限される、請求項34に記載の単語認識実行方法。 - 前記新しい選択肢リストは、一度に画面に適合するよりも多くの認識候補を含み、
前記選択肢リストはスクロール可能であり、その結果、ユーザは一度に画面に適合するよりも多くの認識候補を前記リスト上で視認するために、前記画面に対して前記リストを移動することを選択可能である、請求項37に記載の単語認識実行方法。 - 一つ又は複数の文字指標の連続を選択するための使用を許可する前記ユーザ・インターフェイスは、ユーザが選択肢リストに於いて表示された前記認識候補の選択された候補内に含まれたアルファベット文字の文字列の開始から、文字に関する所望の数字を選択することが出来るように許可し、
前記ユーザ・インターフェイスは、一つ又は複数の文字表示指標の前記連続のすべて又は一部として、前記選択された一つ又は複数の文字を使用することによって、そうした選択に対応する、請求項34に記載の単語認識実行方法。 - ユーザが、リストに記載された候補の間、又は、リストに記載された候補及び前記リストの最初と最後の間にある表示されたアルファベット順選択肢に於いて、位置の選択を示すことが出来るユーザ・インターフェイスを提供することと、
前記2つの候補、又は、前記候補及び前記アルファベットの最初と最後の間に綴りを有する認識候補に限定された新しいアルファベット順選択肢リストを再表示することによって、そうした選択に対応することと、をさらに含む、請求項30に記載の単語認識実行方法。 - 前記入力信号は、一つ又は複数の連番の発話を表し、
前記選択肢リストはm数字として表示された認識候補の数字順リストである、請求項28に記載の単語認識実行方法。 - 前記入力信号は、電話番号の発話を示し、
前記単語認識は音声認識であり、
認識候補に関するユーザの選択に対する前記対応は、前記選択された認識候補に対して表示された電話番号を自動的にダイアルさせる、請求項30に記載の単語認識実行方法。 - 前記入力信号は、コンタクト情報からの一つ又は複数の氏名の発話を表し、
前記選択肢リストは、アルファベット順に並んだ連絡情報からの複数の最高得点氏名を表す、請求項28に記載の単語認識実行方法。 - 前記選択肢リストは、一度に画面に適合するよりも多くの認識候補を有し、
前記選択肢リストはスクロール可能であり、その結果、ユーザは一度に画面に適合するよりも多くの認識候補を前記リスト上で視認するために、前記画面に対して前記リストを移動することを選択することが出来る、請求項43に記載の単語認識実行方法。 - 一つ又は複数の単語の連続を表現する非テキスト・ユーザ入力を含む単語入力を受け付けることと、
前記入力信号に一致する比較的高い確率を有するために認識手段によって検出された、それぞれが一つ又は複数の単語、及び/又は数字の連続で構成された最高得点認識候補の選択肢リストを作成するために、前記入力信号に基づいて単語認識を実行することと、
前記選択肢リストの下位部分のみが一度に表示されるように、一度に画面に適合するよりも多くの認識候補を有する前記選択肢リストを用いて、ユーザのスクロール可能な画面に選択肢リストを表示することと、
前記画面上に表示された選択肢リストの一部を変更するために、前記画面に対して前記選択肢リストを上下それぞれに移動させることによって、前記選択肢リストを上下にスクロールすることを選択するユーザ入力に対応することと、で構成される単語認識実行方法。 - 前記単語入力信号は、話された単語の発話表現であり、前記単語認識は音声認識である、請求項45に記載の単語認識実行方法。
- 前記選択肢リストを上下にスクロールすることを選択する前記ユーザ入力は、複数候補スクロール入力を含み、
ユーザ入力への前記対応は、複数の認識候補によって前記画面に対して前記選択肢リストを上下に移動させることによって、それぞれの複数候補スクロール入力に対応することを含む、請求項45に記載の単語認識実行方法。 - 前記方法は、携帯電話に関して実行され、
前記画面は携帯電話の画面である、請求項45に記載の単語認識実行方法。 - 携帯電話画面への前記選択肢の前記表示は、一度に前記画面に表示される前記選択肢の一部にそれぞれの認識候補に関連した異なる数字を表示することを含み、
所望の認識候補に対応する前記携帯電話に於いて、数字を割り当てられた電話キーを押下することによって、前記選択肢リストからの前記認識候補の一つをユーザが選択可能なユーザ・インターフェイスを提供することを含み、
前記単語入力信号に対応する一つ又は複数の単語、及び/又は、数字として、前記選択された候補を処理することによって、前記選択肢リストからの認識候補の一つに関するユーザ選択に対応することを含む、請求項48に記載の単語認識実行方法。 - それぞれの認識候補は、文字列に関連し、
前記スクロール可能な選択肢に於ける前記認識候補は、それらの個別の文字列が生じる文字順で並べられている、請求項45に記載の単語認識実行方法。 - 前記スクロール可能な選択肢に於ける前記認識候補は、前記単語信号に対するそれらの認識得点によって並べられる、請求項45に記載の単語認識実行方法。
- 前記画面に表示された前記選択肢リストに於ける個別の選択肢の一部を変更するために、前記画面に対して前記選択肢リストを左右それぞれに移動させることによって、前記選択肢リストを左右にスクロールすることを選択するユーザ入力に対応することをさらに含む、請求項45に記載の単語認識実行方法。
- 一つ又は複数の単語の連続を表現する非テキスト・ユーザ入力を含む単語入力信号を受け付けることと、
それぞれが、一つ又は複数の文字の連続を表現する非テキスト・ユーザ入力を含む、一つ又は複数のフィルタ入力信号の連続を受け付けることと、
それぞれが一つ又は複数の文字を有し、恐らくフィルタ入力信号に対応したことが検出された、一つ又は複数の可能性のある文字の連続を表現する、フィルタによって作成された一つ又は複数のフィルタ入力信号に対応することと、
前記フィルタによって表現される前記文字の連続の一つで始まる一つ又は複数の単語認識候補は、所定の最低レベルを超える認識可能性を有する場合、前記入力信号の単語認識からの一つ又は複数の候補を含む、前記フィルタによって表現された文字の連続の一つで始まる認識候補のリストを生成することと、
最高得点認識候補に関する前記リストと、最高得点認識候補の前記リストの一つに関する最初の文字に対応する前記フィルタによって表現された文字の連続と、を表現するユーザ認知可能な出力を生成することと、
ユーザが、前記リストからの認識候補の一つを選択可能になること、及び/又は、前記フィルタから文字を選択可能になることと、
単語入力信号に対応する一つ又は複数の単語として、前記選択された候補を処理することによって、前記選択肢リストからの認識候補の一つの選択に対応することと、
ユーザ認知可能フィルタに対する選択された文字の位置に対応するフィルタによって表現された、使用可能な文字の連続に於ける他の文字に関する選択肢リストを表示することによって、フィルタ文字の選択に対応することと、
ユーザが前記文字選択肢リストの一つを選択可能になることと、
前記フィルタによって表現された前記使用可能な文字の連続を、前記選択された文字の位置に於いて選択された文字を有する文字の連続に制限することと、前記選択された文字によって制限されるものとして前記フィルタを使用する認識候補のリストの前記生成を繰り返すことと、による前記文字選択肢リストに於ける文字の選択しに対応することと、で構成される、単語認識実行方法。 - 前記フィルタによって表現された前記使用可能な文字の連続を制限することは、あるとすれば、そうした文字の連続を、前記ユーザ認知可能フィルタに於いて選択された文字の前に生じる文字を有する文字の連続に制限することを含む、請求項53に記載の単語認識実行方法。
- 認識候補のリストに関する前記生成が、前記認識候補を前記フィルタによって表現された単一文字の連続のみで始まる認識候補に制限し、
記候補リストを表現する前記ユーザ認知可能出力が前記ユーザ認知可能フィルタとして前記単一文字の連続を有する、請求項53に記載の単語認識実行方法。 - 認識候補のリストに関する前記生成は、前記認識候補を前記フィルタによって表現された任意の複数の文字の連続で始まる認識候補を制限する、請求項53に記載の単語認識実行方法。
- それぞれの押下された電話キーが文字に関連付けられた一連の文字を有する場合、前記フィルタ入力信号は、一つ又は複数の電話キーの押下の連続に対応し、
前記フィルタ入力信号への前記対応は、それぞれのそうした連続がそれぞれのそうしたキーの押下に対して一つの文字を有する場合、対応するキーの押下に関連した一連の文字の一つに対応するそれぞれのそうした文字を用いて、文字の一つ又は複数の連続に対応するフィルタを作り出す、請求項53に記載の単語認識実行方法。 - 前記フィルタ入力信号が一つ又は複数の一連の文字指標のそれぞれに関する一つ又は複数の一連の発話に対応し、
前記フィルタ入力信号への前記対応は、前記発話から認識された文字に対応する文字の一つ又は複数の連続を表現するフィルタを作成するために、一つ又は複数の発話の連続に関して音声認識を実行することを含む、請求項53に記載の単語認識実行方法。 - 一つ又は複数の単語の連続を表現する非テキスト・ユーザ入力を含む単語入力信号を受付けることと、
それぞれが一つ又は複数の単語、及び/又は、数字の連続で構成され、入力信号に対応する比較的高い可能性を有する認識手段によって検出される、最高得点認識候補の選択肢を作り出すために、前記入力信号に関して単語認識を実行することと、
ユーザ・スクロール可能画面に前記選択肢リストを表示することと、
前記画面に表示された前記選択肢リストに於ける個別の選択肢の一部を変更するために、前記画面に対して、前記選択肢を左右それぞれに移動することによって、前記選択肢リストを左右にスクロールすることを選択するユーザ入力に対応することと、で構成される単語認識実行方法。 - 前記方法は、携帯電話に関して実行され、水平方向にスクロールすることを選択する前記ユーザ入力は、前記携帯電話のボタン又はキーの押下である、請求項59に記載の単語認識実行方法。
- 一つ又は複数の単語を表現する単語入力信号を受け付けることと、
単語入力信号に対応する一つ又は複数の最高得点単語を作り出す信号に関して単語認識を実行することと、
それぞれが関連する異なるタイプの変換を有し、複数の単語変換コマンドの中からユーザが選択可能なユーザ・インターフェイスを提供することと、
選択されたコマンドの関連する情報を使用する、「a」から「z」までの文字の異なる連続で綴られた、一致するが異なる単語に、現在選択された単語を変換することによって、単語変換コマンドの一つに関するユーザの選択に対応することと、で構成される単語認識実行方法。 - 少なくとも前記単語変換コマンドの一つが現在選択された単語を異なる文法形式に変換する、請求項61に記載の単語認識実行方法。
- 少なくとも前記単語変換コマンドの一つが現在選択された単語を異なる時制に変換する、請求項62に記載の単語認識実行方法。
- 少なくとも前記単語変換コマンドの一つが現在選択された単語を複数形又は単数形に変換する、請求項62に記載の単語認識実行方法。
- 少なくとも前記単語変換コマンドの一つが現在選択された単語を所有格又は非所有格に変換する、請求項62に記載の単語認識実行方法。
- 少なくとも、前記単語変換コマンドが現在選択された単語を前記選択された単語の同音異義語に変換する、請求項61に記載の単語認識実行方法。
- 少なくとも前記単語変換コマンドの一つが、現在選択された単語の最後を変更することによって、現在選択された単語を、一連の共通単語の最後一つに変換する、請求項61に記載の単語認識実行方法。
- 前記単語認識は、それぞれが一つ又は複数の単語で構成され、前記単語信号に対応する比較的高い可能性を有するために前記認識手段によって検出された、最高得点認識候補の選択肢リストを作り出し、
前記ユーザ・インターフェイスは、ユーザが認知可能な形式で前記選択肢リストの認識候補を出力し、
前記ユーザ・インターフェイスは、ユーザが前記選択肢リストに於ける前記認識候補出力の一つから選択肢を選択することを可能にし、前記選択された選択肢に対して実行された変換コマンドの選択されたコマンドを有することを選択することを可能にし、認識プロセスの出力として作成された、結果として生じた変換された単語を有することが出来る、請求項61に記載の単語認識実行方法。 - 前記単語認識は、電話に関して実行される音声認識であり、
前記ユーザ・インターフェイスは、ユーザが電話キーを押下することによって変換コマンドから選択されたコマンドを選択可能にする、請求項61に記載の単語認識実行方法。 - 一つ又は複数の単語を表現する単語入力信号を受け付けることと、
前記単語入力信号に対応する一つ又は複数の最高得点単語を作り出すために、前記信号に関して単語認識を実行すうrことと、
ユーザが単語変換コマンドから選択することが出来るユーザ・インターフェイスを提供することと、
アルファベット表現と非アルファベット表現から現在選択された単語を変換することによって、単語変換コマンドの一つに関するユーザの選択に対応することと、で構成される、単語認識実行方法。 - 前記単語認識は、それぞれが一つ又は複数の単語で構成され、前記信号に対応する比較的高い可能性を有するために前記認識手段によって検出された、最高得点認識候補の選択肢リストを作り出し、
前記ユーザ・インターフェイスは、ユーザが認知可能な形式で、前記選択肢リストの前記認識候補を出力し、
前記ユーザ・インターフェイスは、ユーザが前記選択肢に於ける前記認識候補出力の一つから選択することを可能にし、前記選択された単語に関して実行されるアルファベット表現及び非アルファベット表現から変更するための変換を選択することを可能にし、そして、前記認識プロセスの出力として作り出された、結果として生じた変換された単語を有することを可能にする、請求項71に記載の単語認識実行方法。 - 一つ又は複数の単語を表現する単語認識信号を受け付けることと、
前記単語入力信号に対応する一つ又は複数の最高得点単語を作り出すために前記信号に関して単語認識を実行することと、
ユーザが前記認識によって作り出された単語に関する変換のリストを表示することを選択可能にするユーザ・インターフェイスを提供することと、
前記認識された単語に一致する前記変換された単語の選択肢リストを作り出すことによって、ユーザの選択に対応することと、
前記ユーザ・インターフェイスがユーザに前記選択肢リストに於いて変換された単語の一つを選択可能にすることと、
前記認識プロセスの出力として作り出された前記選択された変換された単語を有することによって、変換された単語の選択に対応することと、で構成される単語認識実行方法。 - 前記選択肢リストの下位部分のみが一度に表示されるように、一度に画面に適合するよりも多くの変換された単語を有する前記選択肢リストを用いて、変換された単語に前記選択肢リストが、ユーザ・スクロール可能画面に表示され、
前記画面に表示された前記選択肢リストの一部を変更するために、前記画面に対して前記選択肢リストを上下にそれぞれ移動させることによって、前記選択肢リストを上下にスクロールすることを選択するユーザ入力に対応することを含む、請求項72に記載の単語認識実行方法。 - 前記ユーザ・インターフェイスは、前記認識プロセスによる単語出力をテキストに挿入し、前記変換選択肢リストが作成される単語を、前記テキストに於ける一つ又は複数の単語から、ユーザが選択することを許可する、請求項72に記載の単語認識実行方法。
- 前記ユーザ・インターフェイスは、単語認識から最高得点単語候補の選択肢リストを作成し、ユーザが前記変換選択肢リストが作成される単語を、前記最高得点選択肢リストに於ける一つ又は複数の単語から選択することを許可する、請求項72に記載の単語認識実行方法。
- 前記変換された単語リストに於ける前記単語が、あるとしても、変換選択肢リストが作成される単語の一つ又は複数の同音異義語を含む、請求項72に記載の単語認識実行方法。
- 前記変換された単語リストは、あるとしても、前記変換選択肢リストが作成される単語の一つ又は複数の異なる表現を含む、請求項72に記載の単語認識実行方法。
- 前記変換された単語リストは、あるとしても、前記変換選択肢リストが作成される単語の一つ又は複数の異なる文法形式を含む、請求項72に記載の単語認識実行方法。
- コマンドの受け付け後、大語彙音声認識をオンの状態にすることと、その後、自動的に前記大語彙音声認識をオフの状態にして、認識を開始するためにユーザから他のコマンド入力を受け付けるまで、前記大語彙音声認識をオフの状態にすることと、によって、認識を開始するためにユーザからコマンド入力を受け付けることで構成される、単語認識実行方法。
- 所定時間の経過後に、前記音声認識をオフの状態にすることが自動的に発生する、請求項79に記載の単語認識実行方法。
- 音声認識がオフの状態にされた後で、発話の前記最初の終了の前記検出が行われた後、前記音声認識の前記オフの状態が自動的に発生する、請求項79に記載の単語認識実行方法。
- 音声認識を前記オフの状態にする前記コマンドは、非音響入力である、請求項79に記載の単語認識実行方法。
- 前記音声認識によって行われた発生の検出の前記最初の終了に対応して、前記音声認識がオフの状態にされ、前記次回の非音響ユーザ入力が認識を開始するまでオフの状態にされる、請求項82に記載の単語認識実行方法。
- 前記音声認識は連続音声認識である、請求項83に記載の単語認識実行方法。
- 前記音声認識は離散型音声認識である、請求項83に記載の単語認識実行方法。
- 発話検出の前記終了に先立つ前記発話に対する最高の選択肢として、一つ又は複数の認識された単語に関するユーザ認知可能表現を出力することと、
発話の前記認識に対応して、前記最高選択肢出力に於けるエラーを訂正するために、ユーザが訂正入力を供給することを許可するユーザ・インターフェイスを提供することと、
正確な選択肢として前記最高の選択肢を確認することと、開始認識コマンドの受け付けで始まる新しい発話に対して、再び前記方法を繰り返すことと、によって、発話に対して認識された前記最高の選択肢を出力した後に、前記開始認識コマンド入力の受け付けに対応することと、でさらに構成される、請求項83に記載の単語認識実行方法。 - その後の音声認識に対する言語モデル得点を計算するために使用された、前記現在の文脈の一部になるとして、一つ又は複数の前記認識された単語を含むことによって、そうした発話の確認に対応することを含む、請求項86に記載の単語認識実行方法。
- 前記言語モデルの変更に対するデータとして、一つ又は複数の前記認識された単語の使用によって、発話のそうした確認に対応することをさらに含む、請求項86に記載の単語認識実行方法。
- 前記所定の認識された単語の前記認識に於いて使用された、一つ又は複数の音響モデルを更新する際に、使用される前記発話からの音響データをラベル付けすることによって、所定の認識された単語に対応するものとして、発話のそうした確認に対応することをさらに含む、請求項86に記載の単語認識実行方法。
- 前記非音響入力の受け付け後に、検出された発話の前記次回終了後、認識がオフの状態となる第1モードと、
発話検出の前記次回終了後に、認識をオフの状態にしない第2モードから。ユーザが選択することを許可することをさらに含む、請求項83に記載の単語認識実行方法。 - 前記第2モードに於いて、会話に於ける発話間の通常の時間経過よりも長い経過時間に応じて、自動的にオフの状態となる、請求項90に記載の単語認識実行方法。
- 前記方法は、ハンドヘルド・コンピュータ・デバイスで起動するソフトウェアによって実行され、
前記非音響入力は、GUIボタン等のボタンの押下である、請求項83に記載の単語認識実行方法。 - 前記ハンドヘルド・コンピュータ・デバイスは携帯電話であり、
前記ボタンは携帯電話ボタンである、請求項92に記載の単語認識実行方法。 - 前記方法は、自走車両の一部であるコンピュータ上で起動するソフトウェアによって実行される、請求項83に記載の単語認識実行方法。
- 前記開始認識コマンド入力は、ハードウェア・ボタン又はソフトウェア・ボタンの押下であり、
前記認識は、前記ボタンの押下の終了後1秒未満の間に、自動的にオフの状態となる、請求項82に記載の単語認識実行方法。 - 前記方法は、それぞれが異なる音声認識モードを選択するためのものであり、一度に前記ユーザによる選択に使用可能な、複数の音声モード選択ボタンを有するユーザ・インターフェイスを提供し、
音声認識をオフの状態にする前記非音響入力は、前記ボタンの一つの押下であり、
前記方法は、その関連したモードで音声認識をオンの状態にし、その後、自動的に前記認識をオフの状態にすることによって、音声モード・ボタンの押下に対応する、請求項82に記載の単語認識実行方法。 - 前記ボタンの一つに関連した前記音声認識モードは、前記大語彙認識であり、
前記ボタンの他のボタンに関連した前記認識モードは、アルファベット入力に対する語彙を用いた認識を実行するモードである、請求項96に記載の単語認識実行方法。 - 前記ボタンの一つに関連した前記音声認識モードは、連続認識であり、
前記ボタンの他のボタンに関連した前記認識モードは、離散型認識である、請求項96に記載の単語認識実行方法。 - 前記ハンドヘルド・コンピュータ・デバイスは携帯電話であり、
前記ボタンは、携帯電話ボタンである、請求項96に記載の単語認識実行方法。 - クリックとして、第1持続時間に満たない接触に対応し、押下として、第2持続時間よりも長い接触に対応するボタンを提供するユーザ・インターフェイスを提供することと、
前記押下の長さの機能として変化する持続時間の間、音声認識が音に対して実行されることによって、押下に対応することと、
前記クリックの長さと独立した持続時間の間、音声認識が音に対して実行されることによって、クリックに対応することと、で構成される音声認識方法。 - クリックに対する前記対応は、前記クリックのかなりの時間から、検出された発話の前記時間終了時までに受け付けられた音に対して、音声認識を実行させ、
押下への前記対応は、音声認識が前記押下期間中に受け付けられた音に対して実行される、請求項100に記載の音声認識方法。 - クリックに対応して実行された認識は、離散型認識であり、押下に対応して実行された認識は、連続認識である、請求項101に記載の音声認識方法。
- 前記ユーザ・インターフェイスは、ユーザが、クリックに対応した認識と押下に対応した認識の両方が、連続型又は離散型であるモードと、クリックに対応して実行された認識が離散認識であり、押下に対応して実行された認識は連続認識であるモードと、から選択することを許可する、請求項102に記載の音声認識方法。
- クリックへの前記対応は、少なくとも1分間、前記クリックのかなりの時間から受け付けられた音に対して音声認識を実行させ、
押下への前記対応は、前記押下期間中、及び、その後1秒までの間に受け付けられた音に対して音声認識を実行させる、請求項100に記載の音声認識方法。 - 前記ユーザ・インターフェイスは、 それぞれが異なる音声認識モードを選択するためのものであり、一度に前記ユーザによる選択に使用可能な、複数の音声モード選択ボタンを有しており、
前記ユーザ・インターフェイスは、第1持続期間より短い前記モード選択ボタンのそれぞれの接触をクリックとして対応し、大2持続期間よりも長いそうしたボタンの接触を押下として対応し、
前記方法は、音声認識を前記押下の長さの機能として変化する持続時間の間、音に関して、前記ボタンの関連したモードで実行させることによって、モード・ボタンの押下に対応し、
前記クリックの長さに独立した持続期間の間、音声に関して、前記ボタンの関連したモードで音声認識を実行させることによって、モード・ボタンのクリックに対応する、請求項100に記載の音声認識方法。 - 前記モード・ボタンの第1ボタン関連した前記認識モードは、大語彙を用いて認識を実行するモードであり、
前記モード・ボタンの第2ボタンに関連した前記認識モードは、アルファベット入力語彙を用いて認識を実行するモードである、請求項105に記載の音声認識方法。 - 前記モード・ボタンの一つに関連した前記音声認識モードは、連続認識であり、
前記モード・ボタンの他のボタンに関連した前記認識モードは離散認識である、請求項105に記載の音声認識方法。 - 前記方法は、携帯電話に関して実行され、
数字が割り当てられた携帯電話ボタンは前記モード・ボタンとして作動する、請求項105に記載の音声認識方法。 - ユーザが認知可能な出力デバイスと、
少なくとも標準的な12キー電話キーパッドを含む、一連の電話キーと、
一つ又は複数のマイクロプロセッサと、
マイクロプロセッサ読み取り可能メモリと、
マイク、又は、前記電話が音声の電子表現を受け付け可能な音声入力と、
スピーカ、又は、前記電話で作成された音声の電子表現を、対応する音に変換することを可能にする音声出力と、
送受信回路と、
電話をかけること及び受けること等の電話機能を実行するための指示を有する電話プログラミングと、マイク又はマイク入力から受け付けた音声の電子表現に対して大語彙音声認識を実行すること、及び、前記音声認識の動作を制御するための一つ又は複数の電話キーの押下に対応すること、に関する指示を有する音声プログラミングと、を含む前記メモリに記録されたプログラミングと、で構成される、電話として機能するコンピュータ・デバイス。 - 前記デバイスは携帯電話である、請求項109に記載のコンピュータ・デバイス。
- 前記デバイスはコードレス・電話である、請求項109に記載のコンピュータ・デバイス。
- 前記デバイスは、地上有線電話である、請求項109に記載のコンピュータ・デバイス。
- 音声認識プログラミングは、所定の発話、又は、発話の一部に一致する比較的高い確率を有する認識手段によって検出された、それぞれが一つ又は複数の単語で構成された最高得点音声認識候補の選択肢リストを作り出すために、音声認識を実行することによって所定の発話に対応することと、複数の前記選択肢リスト候補を示すユーザ認知可能出力を作りだし、個別の電話キーとそうした選択肢のそれぞれを関連付けることと、所定の発話に対する前記出力として、関連付けられた候補を選択することによって、選択肢リスト候補に関連した電話キーの押下に対応することと、に関する指示を含む、請求項109に記載のコンピュータ・デバイス。
- 前記音声認識プログラミングは、選択肢リスト候補に関連した前記電話キーとして、複数の数字が割り当てられた電話キーを使用することに対する指示を含む、請求項113に記載のコンピュータ・デバイス。
- 数字の割り当てられたキーの幾つかは、選択肢リスト候補に関連している一方で、前記音声認識プログラミングは、他の音声認識機能に対する他の数字が割り当てられた電話キーを使用することに関する指示を含む、請求項114に記載のコンピュータ・デバイス。
- 前記音声認識プログラミングは、関連する選択肢リスト候補を選択することによって、一連の電話キーのそれぞれの押下に対応する第1モードで動作させることと、文字識別入力として電話キーの同一セットのそれぞれの押下に対応する第2モードで動作させることと、に対する指示を含む、請求項113に記載のコンピュータ・デバイス。
- 前記音声認識プログラミングは、前記選択肢リストのアルファベット・フィルタリングに対する前記文字識別の使用に対する指示を含む、請求項116に記載のコンピュータ・デバイス。
- 前記音声認識プログラミングは、所定の認識に対応して、一つ又は複数の認識された単語の連続に対応する認識出力を作り出すことと、前記テキストの連続に於ける現在のカーソル位置に前記メモリに記録された、0個、又は、複数の単語の連続を以前含んでいるテキストの連続に、前記認識出力をセットすることと、電話キーからの異なるキーの押下に対応して、前記テキストの連続に、前記カーソル位置を前後それぞれに移動させることと、に関する指示を含む、請求項109に記載のコンピュータ・デバイス
- 前記現在のテキスト位置を移動するための指示は、同時単語移動に関連した2つの電話キー、即ち、単語前方移動に関連したキー及び単語後方移動に関連したキーの一つを押下することに対応して、一度に単語全体として、前記現在のテキスト位置を、前後それぞれに移動するための指示を含む、請求項118に記載のコンピュータ・デバイス。
- 前記現在のテキスト位置を、一度に単語全体として、前後に移動するための指示は、第1条件に基づいて、前記以前のカーソル位置の前後にある前記単語全体を選択することによって、単語前方移動又は単語後方移動に関連したキーの押下に対応することと、第2条件に基づいて、前記以前のカーソル位置の直前又は直後のそれぞれに非選択カーソルをセットすることによって、単語前方移動又は単語後方移動に関連したキーの押下に対応することと、を含み、それにより、テキストに於いて一度に単語を移動させるため、及び、単語全体の選択に前記カーソルと、単語の前後にある非選択カーソルの何れかに前記カーソルを一致させるために、前記同一の2つのキーは使用可能である、請求項119に記載のコンピュータ・デバイス。
- 前記第2条件は、前記2つの同時単語キーの他方の押下後に次回入力として、前記同時単語キーの一つの押下が受け付けられる条件を含む、請求項120に記載のコンピュータ・デバイス。
- 前記ユーザ認知可能出力デバイスはディスプレイであり、
前記音声認識プログラミングは、前記ディスプレイの連続するラインを超えて、テキストの連続の全て、又は、一部分を表示するための指示を含み、
前記現在のテキスト位置を移動するための指示は、前記電話キーの異なるキーの押下に対応して、前記現在のテキスト位置を上下ラインのそれぞれに移動するための指示を含む、請求項118に記載のコンピュータ・デバイス。 - 前記現在のテキスト位置を移動するための指示は、前記電話キーの異なるキーの押下に対応して、前記テキストの連続に於ける単語の全て又は一部を含む単語の連続の開始及び終了のそれぞれに、前記現在のテキスト位置を移動するための指示を含む、請求項118に記載のコンピュータ・デバイス。
- 前記音声認識プログラミングが、前記現在のテキスト位置で拡大可能な選択を開始することによって、一つの電話キーの押下に対応することと、
そうしたキーに関連した総数によって、前記選択を前後にそれぞれ拡大することによって、前記現在のテキスト位置を前後それぞれに移動させることに関連した電話キーの異なるキーを押下することに対応することと、に関する指示を含む、請求項118に記載のコンピュータ・デバイス。 - 前記電話キーの一つを押下することに対応して、その現在の位置が移動された後に、前記現在のテキスト位置に、一つ又は複数の単語に関するテキスト音声プロセスによる音声出力を形成するための指示を含む、請求項118に記載のコンピュータ・デバイス。
- 前記ユーザ認知可能出力デバイスはディスプレイであり、
前記音声認識プログラミングは、電話キーの一つを押下することに対応して、その現在の位置が移動された後に、前記現在位置で、一つ又は複数の単語を前記ディスプレイに表示するための指示を含む、請求項118に記載のコンピュータ・デバイス。 - 前記音声認識プログラミングは、前記ヘルプ・モードの入力前に、前記その後に押下された電話キーに関連した機能に関する説明を、ユーザが認知可能な形式で提示されることによって、その後の電話キーの押下に対応するヘルプ・モードの入力による電話キーの所定のキーの選択に対応するための指示を含む、請求項109に記載のコンピュータ・デバイス。
- 音声認識の動作を制御するための一つ又は複数の電話キーの押下に対応するための指示は、一つ又は複数の電話キーの連続によって、ユーザがコマンドのナビゲート及び選択をすることが可能な階層コマンド構造を定義し、
ヘルプ・モードの入力に関する指示は、前記ヘルプ・モードの入力前に、そのキーの連続が入力された場合、ユーザが認知可能な形式で、前記階層コマンド構造に於けるキーの押下に類似した連続に於いて、前記キーの押下が有する前記機能に関する説明を前記ヘルプ・モードの入力後に提示することによって、2つ、又は複数のキーの押下の連続に於ける、それぞれのキーの押下に対応するための指示を含む、請求項127に記載のコンピュータ・デバイス。 - 前記音声認識プログラミングは、前記現時点で、複数の個別の電話キーのそれぞれに関連した機能を示すユーザが認知可能なリストを出力することによって、第1電話キーの押下に対応するための指示を含む、請求項109に記載のコンピュータ・デバイス。
- 前記ユーザ認知可能出力は、機能指標に関する前記リストについて発言するオーディオ信号の生成を含む、請求項129に記載のコンピュータ・デバイス。
- 前記電話キーは、前記第1キー及び一つ又は複数の一連のナビゲーション・キーを有し、
前記音声認識プログラムは、前記ナビゲーション・キーはユーザに対して認識されたテキストの認知可能なナビゲーションを許可し、他の電話キーは、前記テキストの入力及び編集を制御するために、それらにマッピングされた一連の機能を有し、ナビゲーション・キーが、前記テキスト・モードに於いて複数の電話キーのそれぞれに関連した機能のリストに関する、ユーザが認知可能なナビゲーションを許可するコマンド・リスト・モードの入力によって、第1キーの押下が対応されるテキスト・モードに於ける動作のために指示を含む、請求項129に記載のコンピュータ・デバイス。 - 前記コマンド・リスト・モードのユーザが認知可能な機能に関するリストは、電話キーの数字と前記リストに於ける複数の機能との関係を含み、
音声認識プログラミングは、前記テキスト・モードに戻り、その関連する機能を選択することによって、前記コマンド・リスト・モードの動作中に、前記リストに於いて、機能に関連した数字が割り当てられた電話キーの押下に対応するための指示を含む、請求項131に記載のコンピュータ・デバイス。 - 前記音声認識プログラミングは、ユーザが認知可能な機能に関するリストに対して、機能選択を移動することによって、ナビゲーション・キーの一つ又は複数の押下に対応することと、前記テキスト・モードに戻り、その関連した機能を選択することによって選択電話キーの押下に対応することと、のための前記コマンド・リスト・モードで使用するための指示を含む、請求項131に記載のコンピュータ・デバイス。
- 前記コマンド・リストは、前記テキスト・モードで電話キーの押下によって選択可能な機能に加えて、前記ナビゲーション及び選択によって、前記コマンド・リスト・モードで追加機能を選択可能な機能を含む、請求項133に記載のコンピュータ・デバイス。
- 前記コマンド・リストは、前記テキスト・モードに於いて前記ナビゲーション・キーに関連した機能を記載し、
前記テキスト・モード・ナビゲーション・キー機能は、コマンド・リスト・モードに於ける前記ナビゲーション・キーに関連した機能と異なり、
前記テキスト・モード・ナビゲーション・キー機能は、前記ナビゲーション及び選択によって前記コマンド・リスト・モードで選択することが可能である、請求項133に記載のコンピュータ・デバイス。 - 前記電話キーはメニュー・キーを含み、
前記メモリに記録された前記プログラミングは、前記メニュー・キーの押下の直前に、前記同一の電話キーによって選択不可能であった電話キーによって選択可能な機能のリストを表示することによって、前記テキスト・モード以外の複数のモードのそれぞれに於いて、前記メニュー・キーの押下に対応するための指示を含み、
前記コマンド・リスト・モードを選択するための前記テキスト。モードで使用された前記第1キーは、前記メニュー・キーである、請求項131に記載のコンピュータ・デバイス。 - 音声認識プログラミングは、
前記ナビゲーション・キーは認識されたテキストに関するユーザが認知可能なナビゲーションを許可し、
複数の前記数字の割り当てられた電話キーは、それぞれが、複数の前記数字が割り当てられた電話キーに異なる一連の機能をマッピングする、異なるキー・マッピング・モードを選択するキー・マッピング・キーとして、同時に機能し、
それにより、数字の割り当てられたキーの押下によって、ユーザは即座に所望のキー・マッピングを複数のそうしたマッピングから選択することができ、ユーザが前記テキスト・モードからの比較的多くのコマンドの中から一つのコマンドを選択することが可能な速さを非常に増加させる、
テキスト・モードで動作するための指示を含む、請求項109に記載のコンピュータ・デバイス。 - ナビゲーション・キーが、前記押下されたマッピング・キーの関連したキー・マッピング・モードに於いて複数の数字が割り当てられた電話キーのそれぞれに関連した機能を示すメニューに関するユーザ認知可能なナビゲーションを許可する、関連したメニュー・モードの入力によって、前記音声認識プログラミングは、前記キー・マッピング・キーの一つの押下への対応に関する指示を含む、請求項137に記載のコンピュータ・デバイス。
- それぞれのキーが2つ又は複数の文字を表す場合、それぞれが、複数のキーの何れがユーザに選択されたのかを示す、一つ又は複数のキー押下信号のフィルタリングの連続を受け付けることと、
音声の音響表現を受け付けることと、
前記音声の音響表現と、単語の音響モデル間の適合に関する機能として、単語候補を記録する音響表現に関して音声認識を実行することと、で構成され、
前記文字の連続に於けるそれぞれの連続した文字が、−致する連続キー押下信号によって表現された文字の一つに対応する場合、候補単語が前記フィルタリングの連続に対応する文字の連続を含むと見なされる場合には、単語候補に関する前記記録は、キー押下信号のフィルタリングの連続に対応する一つ又は複数のアルファベット文字の連続を含む単語候補を支持する、大語彙音声認識実行方法。 - 関連した発話に関する音声認識を実行することによって、前記フィルタリングの連続に於ける所定のキー押下信号との関連でなされる追加の発話に対応することと、
前記フィルタリングの連続に於いて前記キー押下によって表現される一連の文字が単語を識別する前記認識された文字によって識別されや文字に限定させることによって、単語を識別する文字として、キー押下の関連した発話に関する前記認識に対応することと、をさらに含む、請求項139に記載の大語彙音声認識実行方法。 - 前記押下されたキーで表現されたそれぞれの文字で始まる一つ又は複数の単語を含む一連の単語を、ユーザが認知可能な形式で表示することによって、キー押下信号に対応することと、
単語を識別する前記押下されたキーの関連した文字の表示後に、前記表示された単語の一つに対応するものとして、なされた発話の認識を支持することと、をさらに含む請求項140に記載の大語彙音声認識実行方法。 - 選択肢リストに於いてユーザが認知可能な形式で前記音声認識によって作り出された複数の前記単語候補を出力し、
前記所望の単語として、ユーザが前記出力候補の一つを選択することを許可し、前記認 識に対する前記認識された単語として、前記出力候補の一つを選択することによって、
前記出力候補の一つに関する前記ユーザ選択に対応する、
ユーザ・インターフェイスを提供することをさらに含む、請求項139に記載の大語彙 音声認識実行方法。 - フィルタリングの連続の前記受け付けと、前記フィルタリングの連続に対応する文字を含む候補を支持する音声認識の前記実行を、前記フィルタリングの連続に於いて連続したキー押下信号の前記受け付けに対応して、所定の音響表現に対して繰り返し実行することが可能な、請求項139に記載の大語彙音声認識実行方法。
- 前記単語候補の優先得点記録は、前記認識プロセスによって以前選択された単語候補から、前記フィルタリングの連続に対応する一つ又は複数の文字の連続を含む候補を選択することによって実行される、請求項139に記載の大語彙音声認識実行方法。
- 前記単語候補の優先得点記録は、前記受け付けられたフィルタリングの連続に対応する一つ又は複数の文字の連続を含む単語候補が支持される2回目の前記音響表現に関して前記音声認識を実行することによって実行される、請求項139に記載の大語彙音声認識実行方法。
- 前記音響表現の前記最初の認識が完了する前に、キー押下信号の連続が受け付けられ、単語候補に関する前記アルファベットの支持が前記最初の認識中に実行される、請求項139に記載の大語彙音声認識実行方法。
- 前記方法は、電話に於けるソフトウェアの起動によって実行され、前記キーは電話キーパッドのキーである、請求項139に記載の大語彙音声認識実行方法。
- 前記電話は携帯電話である、請求項139に記載の大語彙音声認識実行方法。
- 受け付けられたフィルタリングの連続に対応する一つ又は複数の文字の連続を含む単語文字候補が支持される、所望の単語の2回目の発話に関する音響表現に関して、前記音声認識を実行することによって、単語候補の前記優先得点記録が実行される、請求項139に記載の大語彙音声認識実行方法。
- 所望の単語の元の発話及び2回目の発話の両方に対して、単語候補を記録することによって、単語候補の前記優先得点記録が実行される、請求項149に記載の大語彙音声認識実行方法。
- 単語候補の前記記録は、前記フィルタリングの連続に対応する一つ又は複数のアルファベット文字の連続を含む単語候補だけでなく、言語モデル得点も攴持する、請求項139に記載の大語彙音声認識実行方法。
- 単語候補に関する、前記得点記録に於けるそうしたフィルタリングの連続と共に使用される前記言語モデルは、文脈依存言語モデルである、請求項151に記載の大語彙音声認識実行方法。
- それぞれが、複数のキーの何れがユーザによって選択されたのかを示す、一つ又は複数の電話キー押下信号のキー・押下の連続を受け付けることと、
所望の文字として前記所定のキーに関連した複数の文字の何れかを選択するために、それぞれの所定時間内に生じる、所定のキーの押下の数を使用することによって、前記キー押下の連続を復号化することと、
アルファベット・フィルタリングの連続として、前記キー押下の連続から復号化された一つ又は複数の文字の連続を記憶することと、
音声の音響表現を受け付けることと、
前記音声の前記音響表現と単語の音響モデル間の適合の機能として、単語候補を記録する前記音響表現に関して、音声認識を実行することと、で構成され、
単語候補の前記記録は、前記アルファベット・フィルタリングの連続の前記文字に対応する一つ又は複数のアルファベット文字の連続を含む単語交互を支持する、大語彙音声認識実行方法。 - それぞれが2つ又は複数の文字を表現する、一つ又は複数の選択された電話キーの連続を押下することと、
単語を識別する一つ又は複数の文字の対応する連続を発話することと、
前記発話の関連した電話キーによって表現された2つ又は複数の文字の一つを識別する単語を識別する文字の認識を支持するそうしたそれぞれの発話の前記認識を用いて、単語を識別する前記文字のそれぞれの前記発話に関して音声認識を実行することと、
前記ユーザからのアルファベット入力として、それぞれの電話キー押下に関連した単語を識別する前記文字によって識別された一つ又は複数の文字の前記連続を処理することと、
で構成される、一つ又は複数のアルファベット文字の連続を入力するための大語彙音声認識実行方法。 - 前記方法は、大語彙認識システムと同時に使用され、
前記大語彙認識システムの前記語彙に於ける所定の文字で始まる大部分の単語は、前記所定の文字に対する単語を識別するための文字として使用することが可能である、請求項154に記載の大語彙音声認識実行方法。 - 大部分の文字のそれぞれに関連した前記文字識別単語は、その所定の文字で始まる単語を識別する限られた一連の5つ又は5つ未満の文字に属し、
単語を識別する文字の発話の前記認識は、前記発話の関連した電話キーによって表現された2つ又は複数の文字の一つを職別する単語を識別する前記限られた一連の文字の一つの前記認識を支持する、請求項154に記載の大語彙音声認識実行方法。 - 前記押下されたキーによって表現されたそれぞれの文字で始まる一つ又は複数の単語を含む単語を識別する一連の文字を、ユーザが認知可能な形式で表示することによって、キー押下信号に対応することと、
前記表示された単語の一つに一致するものとして、単語を識別する前記押下されたキーの関連した文字の前記表示後になされた発話の前記認識を支持することと、をさらに含む、請求項156に記載の大語彙音声認識実行方法。 - 前記方法は、ディスプレイを有する電話に関して実行され、
単語を識別する文字の一部の前記出力は、前記電話のディスプレイにそうした単語を表示することによって実行される、請求項156に記載の大語彙音声認識実行方法。 - 前記音声認識によって認識された一つ又は複数の単語を含む、対応する出力テキストを提供するために、一つ又は複数の発話に、大語彙音声認識を実行することと、
一つ又は複数の電話キー押下信号の連続を受け付け、押下の前記連続を一つ又は複数のアルファベット文字の連続に対応するものとして解釈することと、
一つ又は複数のアルファベット文字の前記連続を、前記出力テキストに出力することと、で構成される、電話キーを有するデバイスへの大語彙音声認識実行方法。 - 前記電話は携帯電話である、請求項159に記載の大語彙音声認識実行方法。
- 一つ又は複数のキー押下信号の前記連続は、個別のキー押下信号それぞれが2つ又は複数の文字を表現する意味で、曖昧であるとして前記プロセスによって単独で処理され、
そうしたキー押下以外の資源からの情報は、前記連続に於けるキー押下に関連した一つ又は複数の文字がそれぞれのそうしたキー押下に対応するものとして解釈されるものから選択するために使用される、請求項159に記載の大語彙音声認識実行方法。 - そうしたキー押下以外の資源からの情報は、言語モデル情報を含む、請求項161に記載の大語彙音声認識実行方法。
- そうしたキー押下以外の資源からの情報は、文脈依存言語モデル情報を含む、請求項162に記載の大語彙音声認識実行方法。
- 一つ又は複数のキー押下信号の前記連続は、個別のキー押下信号のそれぞれが2つ又は複数の文字を表現している意味で、曖味であるとして前記プロセスによって単独で処理され、
選択肢リストに於いて、ユーザが認知可能な形式で、綴りが前記キー押下信号に一致する、複数の前記単語候補を出力することと、
前記所望の単語として、前記出力候補の一つをユーザが選択することを許可することと、
前記認識のための前記認識単語として、前記出力候補の一つを選択することによって、前記出力候補の一つの前記ユーザ選択に対応することと、をさらに含む、請求項159に記載の大語彙音声認識実行方法。 - キー押下の連続に関する前記解釈は、所望の文字として、前記所定のキーに関連した前記複数の文字から選択するために、それぞれの所定時間内に生じる所定のキーの押下の数を使用することによって、前記キー押下の連続を復号化することを含む、請求項159に記載の大語彙音声認識実行方法。
- 一つ又は複数の単語の発話を受け付けることと、
前記最初の発話に関して最初の音声認識を実行することと、
前記発話に最も対応するものとして、前記認識によって選択された一つ又は複数の単語の一つ又は複数の連続を表現する、ユーザが認知可能な出力を作り出すことと、
ユーザによって、前記ユーザが認知可能な出力の全て又は選択された部分に対応する前記最初の発話の一部に関して再発話認識を実行することを選択されることを許可するユーザ・インターフェイスを提供することと、
前記選択に関連して受け付けられた第2発話を、前記最初の発話の選択された部分の再発話として処理することと、前記再発話と前記最初の発話の前記選択された部分の両方に対する一つ又は複数の単語の前記記録に基づいて、前記再発話に最も適合すると見なされた一つ又は複数の単語の一つ又は複数の連続を選択するために、前記再発話に関して、音声認識を実行することと、によって、前記最初の発話の全て又は一部に関して再発話認識を実行するためのユーザ選択に対応することと、で構成される、音声認識方法。 - 前記元の発話に関する前記元の認識は、連続音声認識によるものであり、
前記再発話は、離散音声認識によって認識される、請求項166に記載の音声認識方法。 - 離散認識によって認識された再発話を用いて検出された発話の数は、前記再発話後に前記元の発話に対して認識された一つ又は複数の単語の連続に於いて許容される単語の数を決定するために使用される、請求項167に記載の音声認識方法。
- 前記元の発話と、前記再発話の両方は、離散音声認識によって認識される、請求項166に記載の音声認識方法。
- 前記元の発話と、前記再発話の両方は、連続音声認識によって認識される、請求項166に記載の音声認識方法。
- 前記再発話とm前記元の発話の前記選択された部分の両方に最も適合すると見なされた一つ又は複数の単語の連続の前記選択は、前記元の発話の前記選択された部分からのデータと共に、音響モデルを更新するために使用される、請求項166に記載の音声認識方法。
- 前記ユーザ・インターフェイスは、それぞれが、前記所望の出力が特定の特徴を有することを示し、前記再発話認識と共に使用される、入力をフィルタリングする一つ又は複数の単語をユーザが選択することを許可し、
前記再発話と前記元の発話に最も適合するものとして、一つ又は複数の連続の選択の前記プロセスは、また、前記選択された特徴を有する任意の認識候補の前記選択を支持するために、前記選択されたフィルタリング入力を使用する、請求項166に記載の音声認識方法。 - 前記ユーザ・インターフェイスは、ユーザが所望の出力が、一つ又は複数の特定の文字の連続を含む単語を含むことを示すアルファベット・フィルタリング入力を選択することを許可する、請求項172に記載の音声認識方法。
- マイクロプロセッサ読み取り可能メモリと、
マイク、又は、認識される発話を表現する電子信号を供給するための音声入力と、
スピーカ、又は、対応する音に変換される前記電話で作成された音声の電子表現を可能にするための音声出力と、
前記発話に対応するものとして認識された、前記一つ又は複数の単語に対応するテキスト出力を作り出すことによって、前記マイク又はマイク出力から受け付けられた一つ又は複数の発話の連続の前記電子表現に対応する大語彙音声認識を実行するための音声認識プログラミングと、前記スピーカ、又は、前記発話に対する前記音声認識によって認識された前記テキストの一つ又は複数の単語を発声する音声出力に、TTS出力を供給するためのTTSプログラミングと、発声された発話に対応する単語を認識するための前記音声認識プログラミングと、一つ又は複数の単語の連続に関する発話に対応する音を生成するための前記TTSプログラミングの両方によって使用される前記メモリに記録される共有音声モデリング・データと、に対する指示を含む音声認識プログラムを含む、前記メモリに記録されたプログラミングと、
で構成される、大語彙音声認識を実行するためのコンピュータ・デバイス。 - 前記共有音声モデリング・データは文字の音声に対する規則を有する、請求項174に記載のコンピュータ・デバイス。
- 前記共有音声モデリング・データは、単語と、少なくとも数千の語彙単語のそれぞれに対する一つ又は複数の表音的綴り間のマッピングを有する、請求項174に記載のコンピュータ・デバイス。
- 前記マッピングは、特定単語が音声の異なる部分で生じる場合に、前記特定単語に適切な前記異な表音的綴りの指示を含む、請求項176に記載のコンピュータ・デバイス。
- 前記共有音声モデリング・データは、一つ又は複数の単語に対して音声のどの部分が所定の言語文脈においてより生じやすいかを示す言語モデリング情報を含む、請求項177に記載のコンピュータ・デバイス。
- 前記デバイスは、ハンドヘルド・コンピュータである、請求項174に記載のコンピュータ・デバイス。
- 前記デバイスは携帯電話である、請求項179に記載のコンピュータ・デバイス。
- マイクロプロセッサ読み取り可能メモリと、
マイク、又は、認識される発話を表現する電子信号を供給するための音声入力と、
スピーカ、又は、対応する音に変換される前記電話で作成された音声の電子表現を可能にするための音声出力と、
前記マイク、又は、テキスト出力を作り出すためのマイク入力から受け付けられた発話の電子表現に関して、大語彙音声認識を実行することと、前記スピーカ、又は、前記テキスト出力の一つ又は複数の単語を発声する音声出力にTTS出力を提供することと、ボイス・コマンドである発話をコマンドとして認識することと、前記スピーカ又は認識されたコマンドの前記名前を発声する音声出力に、TTS又は記録された音声出力を供給することと、に対する指示を含む音声認識プログラミングを含む、前記メモリに記録されたプログラミングと、で構成される、大語彙音声認識を実行するためのコンピュータ・デバイス。 - 前記デバイスは、ハンドヘルド・デバイスである、請求項181に記載のコンピュータ・デバイス。
- 前記デバイスは、携帯電話である、請求項182に記載のコンピュータ・デバイス。
- マイクロプロセッサ読み取り可能メモリと、
マイク、又は、認識される発話を表現する電子信号を供給するための音声入力と、
スピーカ、又は、対応する音に変換される前記電話で作成された音声の電子表現を可能にするための音声出力と、
前記発話に対応するものとして認識された、一つ又は複数の単語に対応するテキスト出力を作り出すことと、その後、前記スピーカ、又は、前記発話に対する前記音声認識によって認識された前記テキストの一つ又は複数の単語を発声する音声出力に、TTS出力を供給することにより、前記マイク、又は、マイク入力から受け付けられた一つ又は複数の発話の連続のそれぞれの前記電子表現に対応する、大語彙音声認識を実行するための指示を含む音声認識プログラミングを含む、前記メモリに記録されたプログラミングと、で構成される、大語彙音声認識を実行するためのコンピュータ・デバイス。 - 前記音声認識は、離散音声認識であり、前記TTS出力はそれぞれの発話に対応して認識される前記テキスト単語を発話する、請求項184に記載のコンピュータ・デバイス。
- 前記音声認識は連続音声認識であり、前記TTS出力は、前記発話の前記最後の後に、それぞれの発話に対応して認識された、前記一つ又は複数のテキスト単語を発声する、請求項184に記載のコンピュータ・デバイス。
- 前記デバイスはハンドヘルド・デバイスである、請求項184に記載のコンピュータ・デバイス。
- 前記デバイスは携帯電話である、請求項187に記載のコンピュータ・デバイス。
- マイクロプロセッサ読み取り可能メモリと、
マイク、又は、認識される発話を表現する電子信号を供給するための音声入力と、
スピーカ、又は、対応する音に変換される前記電話で作成された音声の電子表現を可能にするための音声出力と、
前記マイク、又は、テキスト出力を作り出すためのマイク入力から受け付けられた発話の電子表現に大語彙音声認識を実行するための指示と、前記テキスト入力の前記一つ又は複数の単語に於いて、カーソルを前方及び後方に移動させることによってテキスト・ナビゲーション・コマンドに対応するための指示と、
TTS出力を、前記スピーカ、又は、前記移動後に、前記カーソルの前記位置で始まる、又は、終わる、一つ又は複数の単語を発声する音声出力に供給することによって、前記ナビゲーション・コマンドの一つに対応して、それぞれの移動に対応するための指示と、を含む音声認識プログラミングを含む、前記メモリに記録されたプログラミングと、で構成される、大語彙音声認識を実行するためのコンピュータ・デバイス。 - 前記プログラミングは、
前記コマンドが選択開始として受け付けられる時点で、前記カーソル位置を記録することと、
前記選択開始時に選択を開始することと、
前記ナビゲーション・コマンドの一つに対する前記対応は、前記ナビゲーション・コマンドに対応してなされた前記カーソル移動の後で、前記選択を前記選択開始から前記カーソル移動まで拡大させることをさらに含む、選択拡大モードを入力することと、によって、前記選択拡大コマンドに対応するための指示をさらに含む、請求項189に記載のコンピュータ・デバイス。 - 前記プログラミングは、前記スピーカ、又は、前記選択に現在存在する前記一つ又は複数の単語を発声する音声出力に、TTS出力を供給することによって、再生選択コマンドへの対応に関する指示をさらに含む、請求項190に記載のコンピュータ・デバイス。
- 一つ又は複数の単語の前記発声は、前記現在のカーソル位置で始まる前記テキストの単語の発話を開始し、
単語よりも大きなテキストのユニットの最後が達するまで、又は、ユーザ入力がそうした再生を周力させるために受け付けられるまで、単語の発話を継続する、請求項189に記載のコンピュータ・デバイス。 - 前記デバイスはハンドヘルド・デバイスである、請求項189に記載のコンピュータ・デバイス。
- 前記デバイスは携帯電話である、請求項193に記載のコンピュータ・デバイス。
- マイクロプロセッサ読み取り可能メモリと、
マイク、又は、認識される発話を表現する電子信号を供給するための音声入力と、
スピーカ、又は、対応する音に変換される前記電話で作成された音声の電子表現を可能にするための音声出力と、
前記マイク、又は、それぞれが一つ又は複数の単語の連続で構成され、前記発話された音声に対して最も記録するものとして前記認識によって選択された、認識候補の選択肢リストを作り出すためのマイク入力から受け付けられた、発声された音声の電子表現に対して、大語彙音声認識を実行することと、発話された出力を、前記スピーカ、又は、前記選択肢リストに於ける前記認識候補の一つの、一つ又は複数の単語を発声する音声出力に供給することと、に対する指示を含む音声認識プログラミングを含む前記メモリに記録されたプログラミングと、で構成される、大語彙音声認識を実行するためのコンピュータ・デバイス。 - 前記プログラミングは、
選択肢の前記リストに現在選択されている前記認識候補の何れかを移動させることによって、選択肢ナビゲーション・コマンドに対応することと、
前記現在選択された認識候補に於ける、前記一つ又は複数の単語を発声する発話された出力を供給することによって、前記ナビゲーション・コマンドの一つに対応して、それぞれの移動に対応することと、に関する指示を含む、請求項195に記載のコンピュータ・デバイス。 - 前記発話された出力は、前記リストに於ける複数の認識候補の前記単語を発声し、前記複数のコマンドのそれぞれに関係した選択肢入力信号の発話された指示を含み、
前記プログラミングは、さらに、前記発話された音に対する前記出力として、前記関連した認識候補を選択することによって、前記選択肢入力信号の一つの受け付けに対応するための指示を含む、請求項195に記載のコンピュータ・デバイス。 - 前記デバイスは電話キーパッドを有しており、
前記選択肢入力信号は、電話キー・ナンバーを含み、
前記選択肢入力信号の一つの受け付けに対する前記対応は、前記選択肢入力信号として、数字が割り当てられた電話キーの前記押下への対応を含む、請求項197に記載のコンピュータ・デバイス。 - 前記発話された出力は、最初の前記最高得点認識候補を発声する、請求項197に記載のコンピュータ・デバイス。
- 前記プログラミングは、
それぞれが前記フィルタリング入力と一致する一つ又は複数の単語の連続で構成され、前記発話された音声に対して最も記録されるものとして、前記認識によって選択された認識候補に関するフィルタ処理された選択肢リストを作り出すことと、
前記スピーカ、又は、前記フィルタ処理された選択肢リストに於ける前記認識候補の一つの一つ又は複数の単語を発声する前記音声出力に、発話された出力を供給することと、
によって、フィルタリング入力の前記受け付けへの対応に対するための指示を含む、請求項195に記載のコンピュータ・デバイス。 - 前記プログラミングが、前記フィルタの前記現在の値を発声する、発話された出力を供給するための指示をさらに含む、請求項200に記載のコンピュータ・デバイス。
- 前記フィルタリング入力が文字の連続であり、前記発話された出力は前記フィルタの連続に於ける前記文字を発声する、請求項201に記載のコンピュータ・デバイス。
- 前記発話された出力は、一つ又は複数の選択肢の前記綴りを含む、請求項195に記載のコンピュータ・デバイス。
- 前記デバイスは、ハンドヘルド・デバイスである、請求項195に記載のコンピュータ・デバイス。
- 前記デバイスは、携帯電話である、請求項204に記載のコンピュータ・デバイス。
- 認識される一つ又は複数の単語の所定の連続の全て、又は、一部に関する手書きの表現を受け付けることと、
一つ又は複数の単語の前記連続に関する発話された表現を受け付けることと、
手書文字表現に対して手書文字認識を実行し、発話表現に対して音声認識を実行し、手書文字表現及び発話表現の両方に対して、認識候補の得点記録に基づいて、一つ又は複数の単語の連続でそれぞれが構成される、一つ又は複数の最高得点認識候補を選択することと、で構成される単語認識方法。 - 認識される一つ又は複数の単語の所定の連続に関する発話された表現を受け付けることと、
手書き又は文字描画入力で構成されるフィルタリング入力を受け付けることと、
前記フィルタリング入力に最も対応するものとして前記認識によって選択された、一つ又は複数の文字の連続を表現するフィルタを定義するために、手書き又は文字認識をそれぞれ使用することと、
それぞれが一つ又は複数の単語の連続で構成され、前記発話された表現に対するそれらの適合の前記選択肢の機能として選択され、それらが、前記フィルタに関連した一つ又は複数の文字の連続の一つに適合するかしないかを問わず、一つ又は複数の認識候補を選択するために、前記フィルタと、前記発話された表現に実行された音声認識の組み合わせを使用することと、で構成される、単語認識方法。 - 前記フィルタリング入力は手書きで構成される、請求項207に記載の単語認識方法。
- 前記フィルタは、複数の文字の連続を表現し、
認識候補の前記選択は、前記フィルタで表現された文字の異なる連続に適合することが出来る異なる候補である、複数の最高得点認識候補を選択する、請求項208に記載の単語認識方法。 - 一つのフィルタで表現された前記複数の文字の連続、及び、認識候補の前記選択で使用された前記複数の文字の連続は、異なる文字の長さとなる可能性がある、請求項209に記載の単語認識方法。
- 前記フィルタは、フィルタリングに使用される文字の連続の一つのみを表現し、
認識候補の前記選択は、すべてが前記一つの文字の連続に適合する、複数の最高得点認識候補を選択する、請求項208に記載の単語認識方法。 - 前記フィルタリング入力は、一つ又は複数の個別の文字の描画からなる、請求項207に記載の単語認識方法。
- 前記フィルタは、複数の文字の連続を表現し、
認識候補の前記選択は、前記フィルタで表現された文字の異なる連続に適合することが出来る異なる候補である、複数の最高得点認識候補を選択する、請求項212に記載の単語認識方法。 - 前記フィルタは、フィルタリングに使用される文字の連続の一つのみを表現し、
認識候補の前記選択は、すべてが前記一つの文字の連続に適合する、複数の最高得点認識候補を選択する、請求項212に記載の単語認識方法。 - 認識される一つ又は複数の単語の第2の連続に関する発話された表現を受け付けることと、
テキストの連続する本文に、一つ又は複数の単語の−致する連続を出力するために、音声認識を使用することと、
訂正となる連続として、前記接触された連続を選択することによって、テキストの前記本文に於いて、一つ又は複数の文字の連続を接触する前記ポインティング・デバイスを用いて、ユーザ入力に対応することと、
単語の前記第2の連続の前記発話された表現の前記部分を、単語の前記所定の連続として処理することと、
その後、前記フィルタリング入力を受け付けることと、
前記フィルタを定義するために、前記手書き又は文字認識を使用することと、
一つ又は複数の認識候補を選択するために、前記フィルタ及び音声認識の前記組み合わせを使用することと、をさらに含む、請求項207に記載の単語認識方法。 - 認識される一つ又は複数の単語の所定の連続に関する手書きの表現を受け付けることと、
単語を識別する一つ又は複数の文字の連続を表現する、一つ又は複数の発話で構成されるフィルタ入力を受け付けることと、
前記フィルタリング入力に最も位置するものとして、前記認識によって選択された、一つ又は複数の文字の連続を表現するフィルタを定義するために、音声認識を使用することと、
それぞれが一つ又は複数の単語の連続で構成され、前記手書きの表現に対するそれらの適合の前記選択肢に関する機能として選択され、それらが 前記フィルタに関連した一つ又は複数の文字の連続の一つに適合するかしないかを問わず、一つ又は複数の認識候補を選択するために、前記フィルタと、前記手書きの表現に実行された手書き認識の組み合わせを使用することと、で構成される、単語認識方法。 - 前記フィルタリング入力は、単語を識別する連続して発話された文字の連続であり、
前記音声認識は、連続音声認識である、請求項216に記載の単語認識方法。 - 前記フィルタリング入力は、単語を認識する離散的に発話された文字の連続であり、
前記音声認識は、離散音声認識である、請求項216に記載の単語認識方法。 - 前記フィルタは、複数の文字の連続を表現し、
認識候補の前記選択は、前記フィルタで表現された文字の異なる連続に適合することが出来る異なる候補である、複数の最高得点認識候補を選択する、請求項216に記載の単語認識方法。 - 一つのフィルタによって表現される前記複数の文字の連続、及び、認識候補の前記選択で使用される前記複数の文字の連続は、異なる文字の長さになる可能性がある、請求項219に記載の単語認識方法。
- 前記フィルタリング入力が、連続的に発話された音名の連続であり、
前記音声認識は、連続音声認識である、請求項220に記載の単語認識方法。 - 前記フィルタは、フィルタリングに使用される文字の連続の一つのみを表現し、
認識候補の前記選択は、すべてが前記一つの文字の連続に適合する、複数の最高得点認識候補を選択する、請求項216に記載の単語認識方法。 - ユーザが前記フィルタリング入力が離散認識、又は、連続認識で認識されるかどうかを選択することが出来るユーザ・インターフェイスを提供することをさらに含む、請求項216に記載の単語認識方法。
- 音名認識、又は、単語を識別する非音名文字の認識を指示するモードで、前記フィルタリング入力が認識されるかどうかをユーザが選択することが可能なユーザ・インターフェイスを提供することをさらに含む、請求項216に記載の単語認識方法。
- 認識される一つ又は複数の単語の所定の連続に関する手書きの表現を受け付けることと、
それぞれが前記手書き表現の一つ又は複数の単語に対応する見込みを有するものとして選択された一つ又は複数の単語を含む、一つ又は複数の最高得点認識候補を作り出すために、前記手書き表現に対して手書き認識を実行することと、
その後、認識される一つ又は複数の単語の所定の連続の発話された表現を受け付けることと、
それぞれが、前記発話された表現の一つ又は複数の単語に対応する見込みを有するものとして選択された、一つ又は複数の単語を有する、一つ又は複数の最高得点認識候補を作り出すために、前記発話された表現に対して音声認識を実行することと、
前記手書き表現の前記以前の認識を訂正するために、前記音声認識の最高得点候補の一つに於ける情報を使用することと、で構成される、単語認識方法。 - 手書き認識を訂正する音声認識情報に関する前記使用は、前記手書き認識によって作り出された最高得点認識候補を、前記音声認識によって作り出された最高得点認識候補で置換することを含む、請求項225に記載の単語認識方法。
- 手書き認識を訂正するための音声認識情報の前記使用は、前記音声認識によって作り出された前記認識候補の一つをコマンドとして解釈することと、前記手書き認識によって作り出された最高得点認識候補の訂正に於いて、前記コマンドを実行することを含む、請求項225に記載の単語認識方法。
- 一つ又は複数の制御演算装置と、
前記制御演算装置によって読み出し可能なメモリと、
マイク、又は、音声の入力を表現する電気信号を供給する音声入力と、
スピーカ、又は、前記デバイスに於いて作り出された音声の電子表現を対応する音に変換可能な音声出力と、
前記発話に対応するものとして認識された、一つ又は複数の単語の対応するテキスト出力を作り出すことによって、前記マイク又はマイク入力から受け付けられた一つ又は複数の発話の連続の前記音に関する前記電子表現に対応する大語彙音声認識を実行するための音声認識プログラミングと、一つ又は複数の前記メモリ・デバイスに於いて、前記音声の電気的に読み出し可能な表現を記録する音声記録プログラミングと、前記記録された音声の表現を再生し、前記スピーカ又は音声出力に対応する音声信号を供給するための音声再生プログラミングと、を含む一つ又は複数の前記メモリ・デバイスに記録されたプログラミングと、で構成され、
前記デバイスは、受け付けられた際に、音声の入力を記録する下記3つの使用可能なモード、即ち、前記音声の入力の記録の表現なしで、現在のカーソルで、ユーザ・ナビゲーション可能な文書に、前記音声の入力の音声認識に対応して、テキスト出力をセットする第1モードと、前記音声の入力の音声認識に対応するテキストなしで、前記カーソルで前記ユーザ・ナビゲート可能な文書に、前記音声の入力の記録の表現をセットする第2モードと、それぞれのそうした単語が認識された前記音声の入力の記録の一部を表現するテキスト出力の前記単語自身を用いて、前記現在のカーソル位置に、前記ユーザ・ナビゲート可能な文書に、前記音声の入力の音声認識に対応して、テキスト出力をセットする第3モードと、の内、2つのモードからユーザが選択することが可能であることに対する指示を有し、
前記音声再生プログラミングが、再生モード時に、そうした表現に前記カーソルを位置させることによって、前記第2及び第3記録モードによって前記文書にセットされた、前記音声の表現によって表現された、記録された音を再生することを、ユーザが選択することが出来ることに対する指示を含む、大語彙音声認識を実行するためのハンドヘルド・コンピュータ・デバイス。 - 前記デバイスの指示は、それぞれの切り換えに対して、1秒未満の遅延で、第2モードを第1又は第3モードの何れかに交互に切り換えることをユーザが選択可能である、請求項228に記載のハンドヘルド・コンピュータ・デバイス。
- 前記デバイスのプログラミングは、さらに、前記選択された音声に一致するテキスト出力を作り出すために、音声記録の前記選択された部分に対して実行される音声認識を有するために、対応する認識なしで、音声記録の一部をユーザが選択することが出来ることに対する指示を含む、請求項228に記載のハンドヘルド・コンピュータ・デバイス。
- 前記デバイスのプログラミングは、その単語に関連した記録された音を有する前記第3モードに於ける音声認識によって、テキスト出力の下位部分をユーザが選択することができ、取り除かれた前記選択されたテキストに関連した前記記録された音をユーザが有することが出来ることに対する指示をさらに含む、請求項228に記載のハンドヘルド・コンピュータ・デバイス。
- 前記デバイスのプログラミングは、その単語に関連した記録された音を有する前記第3モードで、音声認識によるテキスト出力の下位部分をユーザが選択でき、取り除かれた前記選択されたテキストをユーザが有することができ、前記文書に於けるその位置を、前記第2モードで記録することによって作り出された前記記録された音声の表現の前記タイプで、ユーザが置換することが出来ることに対する指示をさらに含む、請求項228に記載のハンドヘルド・コンピュータ・デバイス。
- 前記第2記録モードによって前記文書にセットされた音声の前記表現は、それらが表現する記録された音声の前記各部分の前記持続時間の機能yとして、長さが変化する音声グラフィック表現である、請求項228に記載のハンドヘルド・コンピュータ・デバイス。
- 前記デバイスは、ハンドヘルド・デバイスである、請求項228に記載のコンピュータ・デバイス。
- 前記デバイスは、携帯電話である、請求項234に記載のコンピュータ・デバイス。
- 一つ又は複数の制御演算装置と、
前記制御演算装置によって読み出し可能なメモリと、
マイク、又は、音声の入力を表現する電気信号を供給する音声入力と、
スピーカ、又は、前記デバイスに於いて作り出された音声の電子表現を対応する音に変換可能な音声出力と、
前記発話に対応するものとして認識された、前記一つ又は複数の単語に対応する、テキスト出力を作り出すことによって、前記マイク、又は、マイク入力から受け付けられた、一つ又は複数の発話の連続の前記音に関する、前記電子表現に対応する、大語彙音声認識を実行するための音声認識プログラミングと、一つ又は複数の前記メモリ・デバイスの電気的に読み出し可能な表現を記録するための音声記録プログラミングと、前記記録された音声の表現を再生し、前記スピーカ又は音声出力に対応する音声信号を供給する音声再生プログラミングと、を含む、一つ又は複数の前記メモリ・デバイスに記録されたプログラミングと、で構成され、
前記デバイスのプログラミングは、対応する認識なしに、記録された音声の一部をユーザが選択でき、前記選択された音声に対応するテキスト出力を作り出すために、音声記録の前記選択された部分に対して実行される音声認識をユーザが有することが出来ること、に対する指示をさらに含む、大語彙音声認識を実行するためのハンドヘルド・コンピュータ・デバイス。 - 一つ又は複数の制御演算装置と、
前記制御演算装置によって読み出し可能なメモリと、
マイク、又は、音声の入力を表現する電気信号を供給する音声入力と、
スピーカ、又は、前記デバイスに於いて作り出された音声の電子表現を対応する音に変換可能な音声出力と、
前記発話に対応するものとして認識された、前記一つ又は複数の単語に対応するテキスト出力を作り出すことによって、前記マイク又はマイク入力から受け付けられた一つ又は複数の発話の連続の前記音に関する前記電子表現に対応する、大語彙音声認識を実行するための音声認識プログラミングと、一つ又は複数の前記メモリ・デバイスに於いて、前記音声の電気的に読み出し可能な表現を記録するための音声記録プログラミングと、前記記録された音声の表現を再生し、対応する音声信号を前記スピーカ又は音声出力に供給することに対する音声再生プログラミングと、を含む、一つ又は複数の前記メモリ・デバイスに記録されたプログラミングと、で構成され、
前記デバイスのプログラミングは、ユーザが、前記音声認識によって、テキスト出力の記録された部分と、声によって以前ラベル付けされなかった、前記記録された音声の表現の部分とを関連付けることが出来ることと、使用される前記音声認識によって、テキスト出力がテキスト検索文字列として使用されるように、ユーザが選択することが出来ることと、前記検索文字列に適合する記録されたテキスト出力に対する検索を実行することと、に対する指示をさらに有し、
その結果、その関連した記録されたテキストを検索することによって、記録された音声の表現の一部を検出することをユーザが選択することが出来る、大語彙音声認識を実行するためのハンドヘルド・コンピュータ・デバイス。 - 一つ又は複数の制御演算装置と、
前記制御演算装置によって読み出し可能なメモリと、
マイク、又は、音声の入力を表現する電気信号を供給する音声入力と、
スピーカ、又は、前記デバイスに於いて作り出された音声の電子表現を対応する音に変換可能な音声出力と、
前記発話に対応するものとして認識された一つ又は複数の単語に対応するテキスト出力を作り出すことによって、前記マイク、又は、マイク入力から受け付けられた、一つ又は複数の発話の連続の前記音に関する前記電子表現に対応する大語彙音声認識を実行するための音声認識プログラミングと、大語彙音声認識を実行するための音声認識プログラミングと、一つ又は複数の前記メモリ・デバイスの電気的に読み出し可能な表現を記録するための音声記録プログラミングと、前記記録された音声の表現を再生し、前記スピーカ、又は、音声出力に対応する音声信号を供給する音声再生プログラミングと、前記以前の再生の前記最後の少し前に始まる連続音声再生を用いて、前記音声再生と、それぞれの切り替えを起こす一つのユーザ入力を有する前記音声認識を、交互に切り替えることに対する指示と、を含む、一つ又は複数の前記メモリ・デバイスに記録されたプログラミングと、で構成される、大語彙音声認識を実行するためのコンピュータ・デバイス。 - 前記音声再生と前記音声認識を交互に切り替えるための前記指示は、前記同一入力デバイスのユーザの選択に対応して、そうした両方の切り替えを行う、請求項238に記載のコンピュータ・デバイス。
- ユーザ認知可能出力デバイスと、
少なくとも一般的な12キー電話キーパッドを含む一連の電話キーと、
一つ又は複数の制御演算装置と、
前記制御演算装置によって読み出し可能なメモリと、
マイク、又は、前記電話が音声の電子表現を受け付け可能な音声入力と、
スピーカ、又は、前記デバイスに於いて作り出された音声の電子表現を対応する音に変換可能な音声出力と、
送受信回路と、
電話をかけること、及び、電話を受けることの両方を含む電話機能を実行するための指示を有する電話プログラミングと、前記発話に対応するものとして、一つ又は複数の認識された単語に対応するテキスト出力を作り出すことによって、前記マイク、又は、マイク入力から受け付けられた、一つ又は複数の発話の連続の前記音に関する前記電子表現に対応する、大語彙音声認識を実行するための音声認識プログラミングと、一つ又は複数の前記メモリ・デバイスに於ける前記音に関する電気的に読み出し可能な表現を記録するための音声記録プログラムと、前記記録された音声の表現を再生し、前記スピーカ又は音声出力に対応する音声信号を供給するための音声再生プログラミングと、を含む、前記メモリに記録されたプログラミングと、で構成される、携帯電話として機能するコンピュータ・デバイス。 - 前記再生プログラミングは、ユーザが前記記録された音声の表現の下位部分を選択することが出来ることと、携帯電話の通話の他方に対して、前記音声の表現の選択された下位部分を再生することをユーザが選択することが出来ることと、に対する指示を含む、請求項240に記載のコンピュータ・デバイス。
- 前記記録プログラミングは、ユーザが携帯電話の会話の一方、又は、両方の電気的に可読な表現を記録することを選択することを可能にすることに対する指示を含む、請求項240に記載のコンピュータ・デバイス。
- 前記デバイスのプログラミングは、さらに、以前声でラベル付けされていない、前記記録された音声の一部を用いて、前記音声認識によって、テキスト出力の記録された部分をユーザが関連付けることが可能となることに対する指示を含む、請求項240に記載のコンピュータ・デバイス。
- 前記デバイスのプログラミングは、さらに、前記音声認識によって、テキスト出力をテキスト検索文字列として使用させることをユーザに選択させることを可能にすることと、前記検索文字列に対応する記録されたテキスト出力に対する検索を実行することと、に関する指示を含み、
前記ユーザはその関連付けられた記録されたテキストを検索することによって、記録された音声の表現の一部を、前記ユーザが検出することを選択することが出来る、請求項243に記載のコンピュータ・デバイス。 - 前記デバイスのプログラミングは、さらに、以前認識された、前記記録された音声の表現の下位部分をユーザが選択することが出来ることと、前記選択された下位部分に関して実行された、前記大語彙音声認識をユーザが有することが出来ることと、に対する指示を含む、請求項240に記載のコンピュータ・デバイス。
- 前記音声認識プログラミングは、音声の所定の長さを認識するためにより多くの時間を費やす、より高品質の認識を用いて、異なる品質レベルで、音声認識を実行することに対する指示を含み、
記録された音声の選択された下位部分に関して実行さる音声認識を、ユーザが有することを選択することが出来るための指示は、前記選択された記録された音が前記高品質で認識されることが出来ることに関する指示を含む、請求項245に記載のコンピュータ・デバイス。 - 前記音声認識プログラミングは、前記音声認識によって、テキスト出力に於いて個別に認識された単語と、前記テキストに於いてそれぞれの認識された単語に関連した、前記記録された音声の一部との間で、時間的整合を行うことと、一つ又は複数の単語の連続をユーザが選択することができ、再生されたそれらの単語に関連した前記記録された音をユーザが有することが出来ることと、に対する指示を含む、請求項245に記載のコンピュータ・デバイス。
- 前記ドライバのプログラミングは、さらに、前記以前の再生の前記最後の少し前に始まる、連続音声再生を用いて、音声再生と音声認識とを交互に切り替えることに対する指示を含む、請求項240に記載のコンピュータ・デバイス。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2002/028590 WO2004023455A2 (en) | 2002-09-06 | 2002-09-06 | Methods, systems, and programming for performing speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006515073A true JP2006515073A (ja) | 2006-05-18 |
Family
ID=34271640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004533998A Pending JP2006515073A (ja) | 2002-09-06 | 2002-09-06 | 音声認識を実行するための方法、システム、及びプログラミング |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1604350A4 (ja) |
JP (1) | JP2006515073A (ja) |
KR (1) | KR100996212B1 (ja) |
CN (1) | CN1864204A (ja) |
AU (1) | AU2002336458A1 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203296A (ja) * | 2007-02-16 | 2008-09-04 | Denso Corp | 音声認識装置及びナビゲーション装置 |
JP2008537806A (ja) * | 2005-02-08 | 2008-09-25 | テジック コミュニケーションズ インク | マニュアルで入力されたあいまいなテキスト入力を音声入力を使用して解決する方法および装置 |
JP2008283606A (ja) * | 2007-05-14 | 2008-11-20 | Sony Corp | 撮像装置、情報表示装置、および表示データ制御方法、並びにコンピュータ・プログラム |
KR20140042642A (ko) * | 2012-09-28 | 2014-04-07 | 삼성전자주식회사 | 전자장치, 서버 및 그 제어방법 |
JP2014067062A (ja) * | 2007-04-26 | 2014-04-17 | Microsoft Corp | アジア文字を生成するための認識アーキテクチャ |
JP2014078007A (ja) * | 2012-10-08 | 2014-05-01 | Samsung Electronics Co Ltd | 音声認識を用いて予め設定された動作モードを遂行する方法及びその装置 |
US11455148B2 (en) | 2020-07-13 | 2022-09-27 | International Business Machines Corporation | Software programming assistant |
Families Citing this family (140)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7697827B2 (en) * | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
KR100998566B1 (ko) | 2008-08-11 | 2010-12-07 | 엘지전자 주식회사 | 음성인식을 이용한 언어 번역 방법 및 장치 |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8494852B2 (en) * | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
KR101687614B1 (ko) * | 2010-08-04 | 2016-12-19 | 엘지전자 주식회사 | 음성 인식 방법 및 그에 따른 영상 표시 장치 |
US20120110456A1 (en) * | 2010-11-01 | 2012-05-03 | Microsoft Corporation | Integrated voice command modal user interface |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
KR101218332B1 (ko) * | 2011-05-23 | 2013-01-21 | 휴텍 주식회사 | 하이브리드 방식의 음성인식을 통한 문자 입력 방법 및 장치, 그리고 이를 위한 하이브리드 방식 음성인식을 통한 문자입력 프로그램을 기록한 컴퓨터로 판독가능한 기록매체 |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) * | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US9256396B2 (en) * | 2011-10-10 | 2016-02-09 | Microsoft Technology Licensing, Llc | Speech recognition for context switching |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8994681B2 (en) * | 2012-10-19 | 2015-03-31 | Google Inc. | Decoding imprecise gestures for gesture-keyboards |
CN103823547B (zh) * | 2012-11-16 | 2017-05-17 | 中国电信股份有限公司 | 移动终端及其光标控制方法 |
EP2945052B1 (en) * | 2013-01-08 | 2017-12-20 | Clarion Co., Ltd. | Voice recognition device, voice recognition program, and voice recognition method |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
EP2933067B1 (en) * | 2014-04-17 | 2019-09-18 | Softbank Robotics Europe | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
CN104267922B (zh) * | 2014-09-16 | 2019-05-31 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9787819B2 (en) * | 2015-09-18 | 2017-10-10 | Microsoft Technology Licensing, Llc | Transcription of spoken communications |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
CN106126156B (zh) * | 2016-06-13 | 2019-04-05 | 北京云知声信息技术有限公司 | 基于医院信息系统的语音输入方法及装置 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
TWI610294B (zh) * | 2016-12-13 | 2018-01-01 | 財團法人工業技術研究院 | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
GB2564668B (en) * | 2017-07-18 | 2022-04-13 | Vision Semantics Ltd | Target re-identification |
CN108899016B (zh) * | 2018-08-02 | 2020-09-11 | 科大讯飞股份有限公司 | 一种语音文本规整方法、装置、设备及可读存储介质 |
JP2020042074A (ja) * | 2018-09-06 | 2020-03-19 | トヨタ自動車株式会社 | 音声対話装置、音声対話方法および音声対話プログラム |
JP7159756B2 (ja) * | 2018-09-27 | 2022-10-25 | 富士通株式会社 | 音声再生区間の制御方法、音声再生区間の制御プログラムおよび情報処理装置 |
CN110211576B (zh) * | 2019-04-28 | 2021-07-30 | 北京蓦然认知科技有限公司 | 一种语音识别的方法、装置和系统 |
CN110808035B (zh) * | 2019-11-06 | 2021-11-26 | 百度在线网络技术(北京)有限公司 | 用于训练混合语言识别模型的方法和装置 |
KR102494627B1 (ko) * | 2020-08-03 | 2023-02-01 | 한양대학교 산학협력단 | 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법 |
CN112259100B (zh) * | 2020-09-15 | 2024-04-09 | 科大讯飞华南人工智能研究院(广州)有限公司 | 语音识别方法及相关模型的训练方法和相关设备、装置 |
CN114454164B (zh) * | 2022-01-14 | 2024-01-09 | 纳恩博(北京)科技有限公司 | 机器人的控制方法和装置 |
US11880645B2 (en) | 2022-06-15 | 2024-01-23 | T-Mobile Usa, Inc. | Generating encoded text based on spoken utterances using machine learning systems and methods |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
-
2002
- 2002-09-06 AU AU2002336458A patent/AU2002336458A1/en not_active Abandoned
- 2002-09-06 JP JP2004533998A patent/JP2006515073A/ja active Pending
- 2002-09-06 EP EP02773307A patent/EP1604350A4/en not_active Withdrawn
- 2002-09-06 CN CNA028298519A patent/CN1864204A/zh active Pending
- 2002-09-06 KR KR1020057003948A patent/KR100996212B1/ko not_active IP Right Cessation
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008537806A (ja) * | 2005-02-08 | 2008-09-25 | テジック コミュニケーションズ インク | マニュアルで入力されたあいまいなテキスト入力を音声入力を使用して解決する方法および装置 |
JP4829901B2 (ja) * | 2005-02-08 | 2011-12-07 | テジック コミュニケーションズ インク | マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置 |
JP2008203296A (ja) * | 2007-02-16 | 2008-09-04 | Denso Corp | 音声認識装置及びナビゲーション装置 |
JP4672686B2 (ja) * | 2007-02-16 | 2011-04-20 | 株式会社デンソー | 音声認識装置及びナビゲーション装置 |
JP2014067062A (ja) * | 2007-04-26 | 2014-04-17 | Microsoft Corp | アジア文字を生成するための認識アーキテクチャ |
JP2008283606A (ja) * | 2007-05-14 | 2008-11-20 | Sony Corp | 撮像装置、情報表示装置、および表示データ制御方法、並びにコンピュータ・プログラム |
KR20140042642A (ko) * | 2012-09-28 | 2014-04-07 | 삼성전자주식회사 | 전자장치, 서버 및 그 제어방법 |
KR102004872B1 (ko) * | 2012-09-28 | 2019-07-29 | 삼성전자 주식회사 | 전자장치, 서버 및 그 제어방법 |
US11086596B2 (en) | 2012-09-28 | 2021-08-10 | Samsung Electronics Co., Ltd. | Electronic device, server and control method thereof |
JP2014078007A (ja) * | 2012-10-08 | 2014-05-01 | Samsung Electronics Co Ltd | 音声認識を用いて予め設定された動作モードを遂行する方法及びその装置 |
US10825456B2 (en) | 2012-10-08 | 2020-11-03 | Samsung Electronics Co., Ltd | Method and apparatus for performing preset operation mode using voice recognition |
US11455148B2 (en) | 2020-07-13 | 2022-09-27 | International Business Machines Corporation | Software programming assistant |
Also Published As
Publication number | Publication date |
---|---|
AU2002336458A1 (en) | 2004-03-29 |
EP1604350A4 (en) | 2007-11-21 |
KR20060037228A (ko) | 2006-05-03 |
EP1604350A2 (en) | 2005-12-14 |
CN1864204A (zh) | 2006-11-15 |
KR100996212B1 (ko) | 2010-11-24 |
AU2002336458A8 (en) | 2004-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7225130B2 (en) | Methods, systems, and programming for performing speech recognition | |
US7505911B2 (en) | Combined speech recognition and sound recording | |
US7577569B2 (en) | Combined speech recognition and text-to-speech generation | |
US7526431B2 (en) | Speech recognition using ambiguous or phone key spelling and/or filtering | |
US7809574B2 (en) | Word recognition using choice lists | |
US7444286B2 (en) | Speech recognition using re-utterance recognition | |
US7313526B2 (en) | Speech recognition using selectable recognition modes | |
US7467089B2 (en) | Combined speech and handwriting recognition | |
JP2006515073A (ja) | 音声認識を実行するための方法、システム、及びプログラミング | |
US7634403B2 (en) | Word recognition using word transformation commands | |
US7716058B2 (en) | Speech recognition using automatic recognition turn off | |
JP4829901B2 (ja) | マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置 | |
TWI266280B (en) | Multimodal disambiguation of speech recognition | |
US6415258B1 (en) | Background audio recovery system | |
JP5166255B2 (ja) | データ入力システム | |
US8954329B2 (en) | Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information | |
US6581033B1 (en) | System and method for correction of speech recognition mode errors | |
JP4444396B2 (ja) | 音声認識におけるポジション操作 | |
KR101312849B1 (ko) | 이동 장치에 대한 조합된 음성 및 교체 입력 양식을 위한정보 입력 방법, 이동 장치 및 사용자 인터페이스 | |
US20100031143A1 (en) | Multimodal interface for input of text | |
JP2002117026A (ja) | 確率的入力方法によって生成された候補リストからフィルタリングおよび選択を行うための方法およびシステム | |
JP2005517216A (ja) | 話されたおよび書かれたことばの高速かつパターン認識に支援された書き起こし方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090630 |