JP4829901B2

JP4829901B2 - マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置

Info

Publication number: JP4829901B2
Application number: JP2007554347A
Authority: JP
Inventors: ジェームズステファニック; リチャードエイロー; デーヴィッドジョンケー; ムルスピムファン; イーザンブラッドフォード; マイケルアールロング
Original assignee: テジックコミュニケーションズインク
Priority date: 2005-02-08
Filing date: 2006-02-08
Publication date: 2011-12-07
Anticipated expiration: 2026-02-08
Also published as: JP2008537806A; US7720682B2; EP1849155A4; CA2596740A1; BRPI0607643A2; WO2006086511A8; WO2006086511A3; EP1849155A2; US20060190256A1; WO2006086511A2; KR20070098904A

Description

本発明は、デジタルデータ処理デバイスを使用しての、ユーザによるテキストのマニュアルエントリに関する。より詳細には、本発明は、本質的に不確定なユーザのマニュアルでのテキストエントリを音声入力によって補足して、ユーザのテキストエントリの複数の異なる可能な解釈の間の不確定さを解消する、コンピュータによって実行される動作に関する。

長年にわたり、ポータブルコンピュータは、小型化が進んでいる。無線産業の驚異的な成長により、携帯電話、携帯情報端末（PDA）、グローバルポジショニングシステム（GPS）ユニットなど、信頼性が高く便利で、ほぼあらゆる場所で使われているモバイルデバイスが生み出された。真に有用なポータブルコンピュータを作製するうえで、サイズを制限するコンポーネントはキーボードである。

標準キーボードを備えていないポータブルコンピュータにおいてデータを入力するため、多数の解決策が開発されてきた。このような方法の1つは、キーが少ないキーボード（「キー数削減キーボード」）を使用することである。いくつかのキー数削減ボードは、プッシュホン式電話のレイアウトに似た、3行4列のキーを使用する。キー数削減ボードは、サイズが縮小する点でメリットがあるが、いくつかの問題がある。例えば、キー配列における各キーには、複数の文字が割当てられている。例えば、「2」キーは、「a」、「b」、および「c」を表す。従って、ユーザによってエントリされる各々のシーケンスは、本質的に不確定である。なぜなら、各々のキーストロークが、1つの数字またはいくつかの異なる文字を示すからである。

T9（登録商標）テキスト入力技術は、電話のキーパッドなどのキー数削減ボードのための、単語レベルの不確定さを確定することを特に目的としている。T9テキスト入力技術は、特許文献１など、さまざまな米国特許文書に記載されている。英語の単語、および英語以外のアルファベットをベースとする単語の場合、ユーザはT9テキストエントリを以下のように使用する。

単語を入力するとき、ユーザは、各々のキーが複数の文字を表していることを無視して、単語を構成している文字に対応するキーを押す。例えば、文字「a」をエントリさせるため、ユーザは、「2」キーが「b」および「c」を表しうることを無視して、「2」キーをエントリさせる。T9テキスト入力技術では、ユーザのキーストロークエントリによって示される可能な文字の組合せすべてを求め、これらを既知の単語の辞書と比較して、どの組合せが意味をなすかを調べることによって、意図された単語を確定する。

基本的な用途以外に、T9テキスト入力は、複数の改良を経てきた。さらに、T9テキスト入力および類似する製品は、アルファベット文字以外の表意文字による言語（例：中国語）のキー数削減ボードデバイスにおいても利用されている。しかしながら、T9テキスト入力は、すべてのユーザによって要求される、データ入力の速度および容易さの申し分のないレベルを必ずしも提供できないことがある。

まったく異なる方法として、いくつかの小型デバイスでは、ユーザの手書き文字を受け取るデジタイジング面(digitizing surface)を採用している。この方法では、ユーザは、ポータブルコンピュータの大きさによって許容される小さな領域の中ではあるが、自然に書くことができる。手書き文字認識アルゴリズムは、デジタイジング面へのユーザによる接触に基づいて、ユーザのエントリの幾何学的特性を分析し、各々の文字または単語を決定する。残念ながら、現在の手書き文字認識ソリューションには問題がある。第一に、手書き文字は、一般的にタイプ入力よりも遅い。また、十分な信頼性の手書き文字認識精度を達成することが難しい。さらには、手書き文字認識アルゴリズムにおいて、ユーザが文字ストロークの所定のパターンおよび順序を守ることが要求される場合、ユーザによっては、これを実行することがめんどうである、あるいは習得することが難しいと感じる。

フルサイズキーボードを備えていない小型デバイスを使用してデータを入力するためのまったく異なる方法は、何らかのタイプのキーボードオーバーレイが印刷されているタッチパネル（ｔｏｕｃｈ−ｓｅｎｓｉｔｉｖｅｐａｎｅｌ)、あるいはキーボードオーバーレイが表示されるタッチスクリーン（ｔｏｕｃｈ−ｓｅｎｓｉｔｉｖｅｓｃｒｅｅｎ)を使用することである。ユーザは、指またはスタイラスを使用して、目的のキーまたは文字に関連付けられている領域において、パネルまたはディスプレイ画面と対話する。このようなキーボードの全体的なサイズが小さいため、個々のキーが非常に小さいことがある。これにより、平均的なユーザが正確かつ高速にタイプ入力することが難しくなることがある。

タッチスクリーンおよびオーバーレイキーボード用の単語予測は、数多くの内蔵型製品およびアドオン製品によって提供される。ユーザが単語の最初の文字を慎重にタップすると、予測システムは、その文字から始まる最も可能性の高い完全な単語のリストを表示する。しかしながら、選択肢が多すぎる場合、ユーザは、目的の単語が現れるまで、または単語の最後まで入力するまで、タイプ入力を続けなければならない。しかしながら、ユーザは、1文字ごとにタッチスクリーンキーボードと完全な単語のリストとの間で視点を切り替えなければならないため、テキストエントリは加速されずに遅くなる。結果として、ユーザによっては、タッチスクリーンおよびオーバーレイキーボードがややめんどうである、あるいは間違いやすいと感じることがある。

米国特許第5,818,437号明細書米国特許出願第10／775,663号「ジョイスティックを使用して中国語を入力するシステムおよび方法（System and Method for Chinese Input Using a Joystick）」（出願人：Pim van Meurs、出願日：2004年2月9日）米国特許第6,081,190号明細書米国特許出願第10／631,543号「表音入力の不確定さを解消するシステムおよび方法（System and Method for Disambiguating Phonetic Input）」（出願日：2003年7月30日）米国特許出願第10／803,255号「中国の文字および句の表音入力およびストローク入力の方法（Phonetic and Stroke Input Methods of Chinese Characters and Phrases）」（出願日：2004年3月17日）米国特許出願第60／675,059号「手書き文字の場合の単語および句の予測システム（Word and Phrase Prediction System for Handwriting）」（出願日：2005年4月25日）米国特許出願第10／775,483号「自動訂正機能を備えたキーボードシステム（Keyboard System with Automatic Correction）」（出願日：2004年2月9日）米国特許出願第10／775,663号「ジョイスティックを使用して中国語を入力するシステムおよび方法（System and Method for Chinese Input Using a Joystick）」（出願日：2004年2月9日）

上記の問題を考えると、この領域における大きな技術的進歩にもかかわらず、ユーザは、ポータブルコンピュータにおいてテキストをマニュアルでエントリさせるとき、キー数削減のキーパッド、手書きデジタイザ、およびタッチスクリーン／オーバーレイキーボードの本質的な制限に起因して、依然として入力が難しい、あるいは入力を間違えることがある。

デジタルデータ処理デバイスは、テキストエントリツールから、本質的に不確定なユーザ入力を受け取る。このデバイスは、受け取ったユーザ入力を、他のユーザ入力とは無関係に、語彙に照らして解釈し、候補、例えば、（ユーザ入力が単語全体または一部（例：語根、語幹、音節、接辞）を形成している）単語、あるいはユーザ入力を1つの単語として含む句を求める。デバイスは、これらの候補を表示し、発声されたユーザ入力に音声認識を適用する。認識された音声が候補の1つを含む場合、その候補が選択される。認識された音声が候補の拡張形(extension)を形成する場合、その拡張された候補が選択される。認識された音声が別の入力を含む場合、さまざまな別のアクションが行われる。

本開示の1つの観点は、ユーザによって動作させるテキストエントリツールを提供するハンドヘルドモバイルデバイスに関する。このデバイスは、さまざまなハードウェアコンポーネントおよび相互接続によって具体化することができ、一例が、図1に記載されている。図1のハンドヘルドモバイルデバイスは、さまざまな処理サブコンポーネントを含んでおり、サブコンポーネントの各々は、1つ以上のハードウェアデバイス、ソフトウェアデバイス、1つ以上のハードウェアデバイスまたはソフトウェアデバイスの一部分、またはこれらの組合せによって実施することができる。これらのサブコンポーネントの構成は、例示的なデジタルデータ処理装置と、論理回路と、信号担持媒体(signal bearing media)とを参照しながら、後からさらに詳しく説明されている。

全体的な構造
図1は、マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する例示的なシステム100を示している。このシステム100は、携帯情報端末、携帯電話、AM／FMラジオ、MP3プレーヤー、GPS、カーコンピュータ(automotive computer)、あるいは、ユーザのテキストエントリが何らかの本質的な不確定さを含む縮小サイズのキーボードまたはその他のエントリ装置を有する実質的にあらゆるその他のデバイス、として実施することができる。完全な図とするため、ユーザは101として示されているが、実際には、ユーザはシステム100の一部を形成していない。ユーザ101は、単語、句、文、または段落の全体または一部を、ユーザインタフェース102を使用してエントリさせる。ユーザエントリの各々が間違った文字、数字、記号などを表している可能性があるので、データエントリは、本質的に正確ではない。

ユーザインタフェース
ユーザインタフェース102は、プロセッサ140に結合されており、さまざまなコンポーネントを含む。インタフェース102は、少なくとも、ユーザの音声入力のためのデバイスと、ユーザのマニュアル入力のためのデバイスと、ユーザへの出力のためのデバイスとを含む。ユーザのマニュアル入力を受け取るため、インタフェース102は、1つ以上のテキストエントリツールを含むことができる。一例は、デジタイジング面などの手書き文字デジタイザ102aである。テキストエントリツールの別のオプションは、キー入力102b（例：電話のキーパッド）、ユーザが設定可能な一連のボタン、キー数削減セットのキーボード、またはキー数削減サイズのキーボード（キーの各々が複数の英数字を表す）である。テキストエントリツールの別の例は、ソフトキーボード、すなわち、デジタイザに結合されている、コンピュータによって生成されるキーボードであり、いくつかの例として、ソフトキーボード、タッチスクリーンキーボード、オーバーレイキーボード、自動訂正キーボードなどが挙げられる。キー入力102bのさらなる例としては、マウス、トラックボール、ジョイスティック、または、テキストをマニュアルでエントリさせるためのその他の非キーデバイスが挙げられ、この意味において、コンポーネントの名称「キー入力」は、何らの制限を意図することなく使用されている。マニュアルでテキストをエントリさせるためのジョイスティックの使用は、参考文献である特許文献２に記載されており、この文献は、その全体が本文書に参照文献として組み込まれている。キー入力102bは、上記のコンポーネントのうちの1つ、または組合せを含むことができる。

上に挙げたテキストエントリツールは、本質的に何らかの不確定さを含む。例えば、手書き文字入力デバイスによってエントリされた文字は、100％の確率で識別されることはない。同様に、キー数削減のキーボードによってエントリされた英数字は不確定である。なぜなら、ほとんどのキーの各々には一般には3つの文字と1つの数字とが関連付けられているためである。文字が小さい、または文字同士が接近して配置されているキーボードにおいては、不確定さが生じることがあり、ユーザが間違えやすい。

ユーザ101への出力を提供するため、インタフェース102は、オーディオ出力102d（例：1つ以上のスピーカー）を含む。ユーザへの出力のための別のオプションまたは追加のオプションは、ディスプレイ102e（例：液晶スクリーン、CRT、プラズマディスプレイ、あるいは、人が読むことのできる英数字、表意文字、および／またはグラフィックを提示するその他のデバイス）である。

プロセッサ
システム100は、ユーザインタフェース102とデジタルデータ記憶装置150とに結合されているプロセッサ140を含む。プロセッサ140は、さまざまなエンジンと、その他の処理エンティティとを含んでおり、これらについては後から詳しく説明されている。記憶装置150は、さまざまなデジタルデータコンポーネントを含んでおり、これらについても後から詳しく説明されている。処理エンティティのいくつか（例：後から説明されるエンジン115）は、プロセッサ140のセクションで説明されるのに対して、それ以外（例：プログラム152）は記憶装置150のセクションで説明される。しかしながら、これは単なる一例であり、通常の技能を有する者は、記載されている処理エンティティの実施形態を、（プロセッサ140と同様に）回路にハードコードされる、あるいは（記憶装置150と同様に）記憶装置から取得されて実行されるものとして変更することができる。

以下では、プロセッサ140および記憶装置150の図示されているコンポーネントが、説明される。

デジタイザ105は、ユーザ101からの音声をデジタル化し、例えば、アナログ−デジタル変換器を備えている。オプションとして、デジタイザ105は、音声入力機能102cに統合することができる。復号器109は、音響モデル（図示していない）を適用し、かつ105からのデジタル化された音声信号、すなわち、ユーザの発声を表音データに変換する手段、を備えている。音素認識エンジン134は、音声入力における音素を認識するように機能する。音素認識エンジンは、この技術分野において公知の任意の手法を採用して、例えば、音素の各入力に対する候補のリストと、それに関連付けられる合致確率とを提供することができる。認識エンジン111は、109からのデータを、言語データベース119における辞書および／または言語モデルに基づいて分析し、このような分析は、オプションとして、使用頻度あるいは使用の最新性(recency)、テキストバッファ113における前後の文脈などを含む。1つの実施例においては、エンジン111は、1つ以上のN−best仮説リストを生成する。

システム100の別のコンポーネントは、デジタイザ107である。このデジタイザは、手書き文字入力102aに基づいてデジタル出力を提供する。ストローク／文字認識エンジン130は、デジタイザ107によって出力されるブロック文字、草書体、縮小文字、表意文字、またはその他の手書き文字に対して、手書き文字認識を実行するモジュールである。ストローク／文字認識エンジン130は、この技術分野において公知の任意の手法を採用して、ストロークおよび文字の各入力に対する候補のリストと、それに関連付けられる合致確率とを提供することができる。

プロセッサ140は、さまざまな不確定さ解消エンジン115、例えば、この例においては、単語の不確定さ解消エンジン115a、句の不確定さ解消エンジン115b、文脈の不確定さ解消エンジン115c、およびマルチモード不確定さ解消エンジン115dを、さらに含む。

不確定さ解消エンジン115は、言語データベース119（後から説明されている）の中の、好ましくは使用頻度または使用の最新性を含む辞書および／または言語モデルに基づき、オプションとして、テキストバッファ113における前後の文脈に基づいて、マニュアル入力および／または音声入力の可能な解釈を求める。一例として、エンジン115は、ディスプレイ102eを介してユーザ101に表示できるように、最良の解釈をテキストバッファ113に追加する。すべての解釈は、後から選択および訂正できるようにテキストバッファ113に格納しておくことができ、確認できるようにディスプレイ102eを介してユーザ101に提示することができる。

マルチモード不確定さ解消エンジン115dは、不確定な入力シーケンスおよび／または解釈を、認識エンジン111からの音声認識の最良の解釈またはN−best解釈と比較し、修正された解釈を、インタフェース102を介して対話式に確認できるように、ユーザ101に提示する。代替実施例においては、認識エンジン111は、不確定さ解消エンジン115に組み込まれており、より多様な、または効果的なアルゴリズムを提供する目的で、各々のモードからの入力処理の固有部分として、相互の不確定さ解消が行われる。別の実施例においては、エンジン115の機能は、認識エンジン111に組み込むことができ、この場合、複合的な仮説探索のため、不確定な入力およびベクトルまたは音素タグが音声認識システムに送られる。

別の実施例においては、認識エンジン111は、マルチモード不確定さ解消エンジン115dからの不確定な解釈を使用して、言語データベース119からの辞書をフィルタリングまたは抜粋し、それを使用して1つ以上のN−bestリストを生成する。別の実施例においては、マルチモード不確定さ解消エンジン115dは、N−bestリストの中の不確定な解釈および／または単語の文字（グラフ）を、認識エンジン111によって解釈できるようにベクトルまたは音素にマッピングする。

認識エンジン111および不確定さ解消エンジン115は、ユーザ101が明示的に綴った、または予測された新規の単語または句を追加するためと、ユーザ101によってエントリされたまたは訂正された単語および句の使用頻度または使用の最新性を反映させるために、1つ以上の言語データベース119を更新することができる。エンジン111, 115によるこのアクションは、自動的に行う、またはユーザの特定の指示時に行うことができる。

1つの実施例においては、エンジン115は、認識プロセスおよび／または不確定さ解消プロセスのさまざまな部分のための個別のモジュールを含んでおり、この例においては、単語ベースの不確定さ解消エンジン115a、句ベースの認識または不確定さ解消エンジン115b、文脈ベースの認識または不確定さ解消エンジン115c、マルチモード不確定さ解消エンジン115d、その他を含む。一例においては、認識および不確定さ解消のためのコンポーネント115a〜115dのいくつか、またはすべては、音声認識およびキー数削減パッド入力という異なる入力モード間で共有されている。

1つの実施例においては、文脈ベースの不確定さ解消エンジン115cは、ユーザのアクションの状況的側面を、入力の不確定さ解消に向けて適用する。例えば、複数の語彙156（後に説明される）が存在する場合、エンジン115cは、選択されたユーザの場所（例：ユーザが仕事中か、または在宅中か）、時刻（例：勤務時間か、または自由時間か）、メッセージの受信者などの条件に基づいて、語彙のうちの1つを選択する。

記憶装置
記憶装置150は、アプリケーションプログラム152と、語彙156と、言語データベース119と、テキストバッファ113と、オペレーティングシステム154とを含む。アプリケーションプログラムの例としては、ワードプロセッサ、メッセージングクライアント、外国語翻訳器、音声合成ソフトウェアなどが挙げられる。

テキストバッファ113は、デバイス100によって実行されているいずれかまたはすべてのアプリケーションの1つ以上の入力フィールドの内容を含む。テキストバッファ113は、すでにエントリされた文字と、テキストを再編集するために必要な支援情報、例えば、元のマニュアル入力または音声入力の記録、あるいは文脈的な予測または段落の書式設定のための記録を含む。

言語データベース119は、辞書、言語モデル、その他の言語情報などの情報を含む。語彙156の各々は、複数の所定の単語、文字、句、あるいは、デバイス100の特定の用途に適切なその他の言語上の構成要素を含む、または生成することができる。語彙156の1つの特定の例は、単語リスト156a、句リスト156b、表音／音調テーブル156cを使用する。システム100は、適切な場合、複数の異なる用途、例えば、異なる言語、異なる産業（例：医学、法律、部品番号）用の語彙を含むことができる。「単語」は、任意の言語オブジェクト、例えば、単語、語幹、接頭辞または接尾辞、音節、略語、チャットスラング、顔文字、ユーザIDまたはその他のデータ識別子、URL、または表意文字シーケンスを形成する、1つ以上の文字または記号の文字列、を言及するために使用されている。同様に、「句」は、言語またはアプリケーションの表記規則に応じてスペースまたは何らかのその他の区切り子によって隔てられている単語のシーケンスを言及するために使用されている。後から詳しく説明するように、単語156aは、表意言語の文字を含むこともでき、その場合、句は、そのような文字の論理的なグループによって形成される句を含む。オプションとして、語彙の単語リストおよび／または句リストは、データベース119に格納しておく、またはデータベース119から生成することができる。

一例においては、単語リスト156aは、入力モードの間で語彙の違いが存在しないように、すべてのモードを対象とする、言語における既知の単語のリストを含む。単語リスト156aは、言語における対応する単語の使用頻度をさらに含むことができる。1つの実施例においては、言語の単語リスト156aの中にない単語は、頻度がゼロであると見なされる。これに代えて、未知の単語または新たに追加された単語に、非常に小さい使用頻度を割り当てることができる。未知の単語に対して、想定上の使用頻度を用いることにより、既知の単語と未知の単語とを実質的に類似する方式で処理することができる。使用の最新性も、頻度を計算および比較するうえでの要因とすることができる。単語リスト156aは、単語ベースの認識または不確定さ解消エンジン115aと一緒に使用して、パターン認識エンジン（例：ストローク／文字認識エンジン130または音素認識エンジン134）の結果に基づいて決定された単語候補を順位付けする、削除する、および／または選択することができ、また、ユーザ入力の一部に基づいて単語を予測して単語を完成させることができる。

同様に、句リスト156bは、2つ以上の単語を含む句のリストと、使用頻度情報とを含むことができ、句ベースの認識または不確定さ解消エンジン115bは、これらのリストおよび情報を使用して、単語を予測して句を完成させることができる。

表音／音調テーブル156cは、表意要素に対して相互参照されている表音情報のさまざまな要素をリストしている、テーブル、リンクされたリスト、データベース、またはその他の任意のデータ構造を含む。表意要素としては、表意文字、表意部首(ideographic radical)、表語文字、一字一語法の記号(lexigraphic symbol)などが含まれ、これらは、例えば、単語リスト156aにリストすることができる。表音情報の要素の各々は、関連付けられる表意要素の発音、および／または、1つ以上の音調の発音などを含む。テーブル156cはオプションであり、システム100が英語言語、あるいはその他の表意言語でないアプリケーションに限定される場合、語彙156から省くことができる。

1つの実施例においては、プロセッサ140は、語彙156を自動的に更新する。一例においては、選択モジュール132は、更新の実行／要求の動作時に語彙を更新して、使用の最新性を追跡する、あるいは、タップしたままの単語が選択されたときに（後から詳しく説明されている）それを追加することができる。より一般的な例においては、プロセッサ140は、インストール時、あるいは、テキストメッセージまたはその他のデータを受け取ったときに継続的に、または別の時点において、自身の語彙に追加される単語がないか、情報ファイル（図示していない）を走査する。このような情報ファイルを走査する方法は、この技術分野において公知である。この例においては、オペレーティングシステム154または各アプリケーション152は、テキスト走査機能を起動する。走査中に新しい単語が見つかると、これらは低頻度単語として語彙モジュールに追加され、従って、それらの単語が関連付けられる単語リストの最後に置かれる。走査中に特定の新しい単語が検出される回数に応じて、関連付けられているリスト内でその単語を昇格させることによって、その単語により高い優先順位が割り当てられ、従って、情報のエントリ時に単語選択肢リストにその単語が現れる確率が増す。システムは、コンテキスト、例えば、メッセージにおけるXMLタグあるいは前後のテキストに応じて、新しい単語を関連付ける適切な言語を決定することができる。新規の単語には、以降の認識においてその表音形式に到達する目的で、現在の言語または決定された言語の標準的な発音規則を適用することができる。オプションとして、プロセッサ140は、ユーザの設定入力に応答して、可能性のある単語のリストの先頭または最後に、例えば特殊な配色または強調表示を用いて追加の語彙単語を表示させることができ、あるいは、システムは、直前の受け入れられた、または訂正された1つ以上の単語をどの語彙モジュールが供給したかに基づいて、単語の順位または順序を自動的に変更することができる。

1つの実施例においては、一般的な綴り誤りおよびキーエントリの誤りのための置換単語を含むこともできる。語彙156は、デバイス100の製造業者において設定するか、インストール時、初期設定時、再設定時、またはそれ以外の機会に設定することができる。さらに、語彙156は、Web接続、ダウンロード、拡張カードの装着、ユーザ入力、またはその他のイベントによって、更新された情報を検出したとき、自身で更新を行うことができる。

例示的なデジタルデータ処理装置
上述したように、本開示に記載されているデータ処理エンティティは、さまざまな形態に実施することができる。一例は、図5のデジタルデータ処理装置500のハードウェアコンポーネントおよび相互接続によって例示されているデジタルデータ処理装置である。

装置500は、デジタルデータ記憶装置504に結合されているプロセッサ502（例：マイクロプロセッサ、パーソナルコンピュータ、ワークステーション、コントローラ、マイクロコントローラ、状態機械、またはその他の処理機械）を含む。本例においては、記憶装置504は、高速アクセス記憶装置506と不揮発性記憶装置508とを含む。高速アクセス記憶装置506は、ランダムアクセスメモリ（「RAM」）を備えていることができ、プロセッサ502によって実行されるプログラミング命令を格納するために使用することができる。不揮発性記憶装置508は、例えば、バッテリバックアップRAM、EEPROM、フラッシュPROM、1つ以上の磁気データ記憶ディスク（例：ハードディスク）、テープドライブ、またはその他の任意の適切な記憶装置を備えていることができる。装置500は、入力／出力510、例えば、ライン、バス、ケーブル、電磁リンク、あるいはプロセッサ502が装置500の外部の別のハードウェアとデータを交換するためのその他の手段、も含む。

上記の特定の説明にもかかわらず、（本開示の恩恵を有する）通常の技能を有する者は、上に説明されている装置を、本発明の範囲から逸脱することなく、別の構造の機械に実施できることを認識するであろう。具体的な例として、コンポーネント506, 508の一方を省略することができ、さらには、記憶装置504、506、および／または508をプロセッサ502に組み込む、あるいは装置500の外側に設けることもできる。

信号担持媒体
上に説明されているデジタルデータ処理装置とは異なり、本開示の別の観点は、そのようなデジタル処理装置によって実行可能な機械可読命令のプログラムを明白に具体化している1つ以上の信号担持媒体に関する。一例においては、機械可読命令は、後から詳しく説明されている動作など、本開示に関連するさまざまな機能が行われるように実行することができる。別の例においては、命令が実行されると、ソフトウェアプログラムがコンピュータにインストールされ、そのようなソフトウェアプログラムは、後から説明されている動作など、本開示に関連する別の機能が行われるように独立して実行することができる。

いずれの場合にも、信号担持媒体は、さまざまな形態をとることができる。図5のコンテキストにおいては、そのような信号担持媒体は、例えば、記憶装置504、あるいは、プロセッサ502によって直接的または間接的にアクセス可能である別の信号担持媒体（例：光記憶ディスク300（図3））を備えていることができる。命令は、記憶装置506、ディスク300、またはそれ以外の場所に含まれているかにかかわらず、さまざまな機械可読データ記憶媒体に格納することができる。いくつかの例として、直接アクセス記憶装置（例：従来のハードディスク、安価なディスクの冗長アレイ（「RAID」）、または別の直接アクセス記憶装置（「DASD」））、シリアルアクセス記憶装置（例：磁気テープまたは光テープ、不揮発性メモリ（例：ROM、EPROM、フラッシュPROM、EEPROM）、バッテリバックアップ式RAM、光記憶装置（例：CD−ROM、WORM、DVD、デジタル光テープ）、またはその他の適切な信号担持媒体が挙げられる。1つの実施例においては、機械可読命令は、言語（例：アセンブリ言語、C）からの、コンパイル済みのソフトウェアオブジェクトコードを含むことができる。

論理回路
上に説明されている信号担持媒体およびデジタルデータ処理装置とは異なり、本開示の別の実施例では、コンピュータによって実行される命令の代わりに、論理回路を使用して、本開示の処理エンティティを実施する。この論理回路は、速度、コスト、ツーリングコストなどの領域における、アプリケーションの特定の要件に応じて、数千の小さな集積トランジスタを有する特定用途向け集積回路（ASIC）を構築することによって実施することができる。図4は、回路400の形式における一例を示している。このようなASICは、CMOS、TTL、VLSI、またはそれ以外の適切な構造を使用して実施することができる。別の代替構造としては、デジタル信号処理チップ（DSP）、個別回路（例：抵抗器、キャパシタ、ダイオード、インダクター、トランジスタ）、フィールドプログラマブルゲートアレイ（FPGA）、プログラマブルロジックアレイ（PLA）、プログラマブル論理デバイス（PLD）などが挙げられる。

動作
ここまで、本開示の構造上の特徴について説明してきたが、以下では、本開示の動作の面について説明する。上述されているように、本開示の動作の面には、一般的には、ハンドヘルドモバイルデバイスのテキストエントリツールによりエントリされた本質的に不確定なユーザ入力を確定するためのさまざまな手法が含まれる。

動作シーケンス
図6は、本開示の方法の一例を説明するためのシーケンス600を示している。1つの用途においては、このシーケンスは、ハンドヘルドデジタルデータ処理デバイスのテキストエントリツールによりエントリされた本質的に不確定なユーザ入力を確定するように機能する。説明を容易にするため、図6の例は、上に説明されている図1のデバイスのコンテキストにおいて説明されているが、これは何らの制限を意図するものではない。

ステップ602において、ユーザインタフェース102のテキスト入力ツール（例：デバイス102aおよび／または102b）は、文字の複数の可能な組合せを表しているユーザ入力を受け取る。デバイスの構造に応じて、ステップ602のいくつかの例として、キーの各々が複数の英数字に対応している電話のキーパッドを介してユーザ入力を受け取るステップ、あるいは、手書き文字デジタイザを介して入力を受け取るステップ、あるいは、コンピュータディスプレイおよび同一場所に位置するデジタイジング面を介して入力を受け取ることステップなどが挙げられる。

ステップ604において、デバイスは、受け取ったユーザ入力を、他のユーザ入力とは無関係に、語彙156および／または言語データベース119に照らして解釈し、複数の単語候補を求め、これらの単語候補は、「入力シーケンスの解釈」または「選択リストの選択肢」と称することもできる。より具体的な例として、単語リスト156aを使用することができる。

1つの実施例においては、エンジン130、115a、115bのうちの1つが、ユーザエントリを処理し（ステップ604）、ここまでのユーザ入力に対する可能な解釈を求める。各々の単語候補は、以下のうちの1つを含む。

（1）ユーザ入力が、語幹、語根、音節、または接辞を形成している単語
（2）ユーザ入力が、1つ以上の単語または単語の一部を形成している句
（3）ユーザ入力によって表される完全な単語
従って、「単語候補」における用語「単語」は、簡便に説明する目的で使用されており、技術的な意味における「単語」には必ずしも制限されない。いくつかの実施例においては、例えば、膠着言語、あるいは句構造が動詞を中心としており、目的語および主語、ならびにその他の不変化詞が後ろまたは前に付く言語では、「ルート」単語のみのユーザ入力（ステップ602）が必要とされる。さらに、解釈604は、（1）候補の各々が、ユーザ入力に対応する文字から始まる、（2）候補の各々が、ユーザ入力に対応する文字を含んでおり、それらの文字が候補の先頭の文字と最後の文字との間に現れる、ように実行することができる。

さまざまな実施例においては、例えば、マニュアルキー入力102bが、タッチスクリーンデバイスに表示される自動訂正キーボードであるとき、解釈604は、（ユーザの入力の最良の解釈である各文字（例：スタイラスによる各タップに最も近い文字）を含む文字シーケンス（不確定でない解釈または「タップしたままの」シーケンス）を含んでおり、ユーザは、目的の単語が言語データベース119にまだ存在しない場合、（ステップ614において）このシーケンスを選択することができる。いくつかの実施例においては、例えば、マニュアルキー入力102bがキー数削減ボード（例：標準の電話キーパッド）であるとき、不確定でない解釈は、キーシーケンスの2つのキーまたは複数タップ解釈である。いくつかの実施例においては、ユーザがそのような不確定でない解釈を選択すると（ステップ614、後述されている）、デバイスは、自動的に、またはユーザが要求あるいは確認したときに、その不確定でない解釈を、選択モジュール132の指示のもとに語彙に追加する。

一例においては、解釈ステップ604では、発音区別記号が必要であることをユーザが指示することなしに、各単語の正しい文字の上に付加記号（例：母音アクセント）を付ける。

ステップ606において、エンジン115、130、115a、115bのうちの1つ以上は、ユーザの意図を表している確率に従って、候補単語を順位付けする。順位付け動作606では、基準、例えば、候補単語が語彙156の中に存在しているか、一般的な使用における候補単語の使用頻度、そのユーザによる候補単語の使用頻度などを用いることができる。順位付け動作606のための使用頻度およびそれ以外のそのようなデータは、語彙モジュール156および／または言語データベース119から取得することができる。ステップ606は、オプションであり、処理量、処理時間、メモリなどを節約するために省くことができる。

ステップ608においては、プロセッサ140は、ユーザが見ることができるように候補をインタフェース102に視覚的に提示する。候補が（ステップ606に従って）順位付けされる実施例においては、ステップ608の提示は、その順序に従うことができる。オプションとして、ステップ608では、最も高く順位付けされた候補に注意が向けられるように、例えば、表示されているカーソルの位置にその候補を挿入する、あるいは別の手法（例：太字、強調表示、下線）を使用することによって、最も高く順位付けされた候補を表示することができる。

ステップ610においては、プロセッサ140は、ディスプレイ102eまたはオーディオ出力102dを使用して、入力を発声するようにユーザに指示する。さらに、ステップ610においては、プロセッサ140は、音声入力デバイス102cおよびフロントエンドデジタイザ105とを介して、ユーザの発声された入力を受け取る。一例においては、ステップ610は、可聴プロンプト（例：「単語を選択してください」と発声する合成音声）、視覚メッセージ（例：「句を発声して選択してください」と表示する）、アイコンメッセージ（例：カーソルの外観を変化させる、LEDを点灯する）、グラフィックメッセージ（例：表示の外観、色などを変化させる）、またはその他の適切なプロンプトを含む。1つの実施例においては、ステップ610におけるユーザ入力の要求は省略することができ、その場合、そのようなプロンプトが使用される。

1つの実施例においては、デバイス100は、少数、すなわち、キー数削減パッド上のキーの数、あるいは、文語における一意の文字の数、または口語における子音および母音の数、の一意の入力を表す限られた一連の音声発声を要求する、または発声することができる。少数の個別の発声は、混同性を低くし、結果的に認識精度を高めるために選択され、単語ベースおよび／または句ベースの不確定さ解消エンジンを使用して、テキストに変換される。この機能は、ノイズの多い環境、あるいはプライベートでない環境において特に有用であり、また、音声の使用が限られる、一時的または永久的な障害をもつ人にとって極めて重要である。認識される発声としては、舌打ち(mouth click)、その他の言葉以外の音が挙げられる。

ステップ612において、言語パターン認識エンジン111は、ステップ610からのユーザの発声された入力を表しているデータに、音声認識を適用する。一例においては、音声認識612では、156a, 156bにおける単語の語彙および／または句の語彙を使用する。別の例においては、音声認識612では、限られた語彙、例えば、（602からの）最初のマニュアル入力と合致する最も可能性の高い解釈、またはステップ608において表示された候補を使用する。これに代えて、可能性のある単語および／または句、または最初のマニュアル入力と合致する最も可能性の高い解釈のみを、音声認識ステップの辞書として使用する。このことは、発声された入力の間違った解釈および無関係の解釈を排除するうえで役立つ。

1つの実施例においては、ステップ612は、文脈が与えられたとき、音響入力信号を、可能性のある音声に合致するベクトルのデジタルシーケンスに変換する復号器109などのコンポーネントによって実行される。復号器109は、表音形態を辞書および言語モデルに照らして合致を見つけ、各発声に対する単語および／または句のN−bestリストを作成する。マルチモード不確定さ解消エンジン115dは、両方のリストに現れている単語のみが保持されるように、これらをマニュアル入力に照らしてフィルタリングする。

従って、電話キーの各々にマッピングされている文字（例：「2」キーにおける「A B C」）は、一般には音響的に似ていないため、システムは、一般的には不確定な音、例えば破裂音／b／または／p／が「p」である可能性を効果的に除外することができ、なぜなら、ユーザが（「P Q R S」を含む）「7」キーではなく（「A B C」を含む）「2」キーを押したためである。同様に、システムは、確定すべき不確定な文字が、自動訂正QWERTYキーボードにおける隣接キー「I O P」ではなく隣接キー「V B N」をタップすることによって入力されたとき、「p」を除外することができる。同様に、システムは、不確定な手書き文字が、「P」または「R」よりも「B」または「3」に近いとき、「p」を除外することができる。

オプションとして、ユーザが、言語における適切な入力（スペースなど）によって区切られた2つ以上の不完全または完全な単語を連続して入力する場合、言語パターン認識エンジン111またはマルチモード不確定さ解消エンジン115dは、その情報をガイドとして使用して、ユーザの連続的な音声を分割し、単語の間の境界を探す。例えば、前後の音素の解釈が、スペースによって区切られた2つの部分的入力に強く合致する場合、システムは、連続的な発声を2つの個別の単語に分割するための最良の場所を求める。別の実施例においては、最も高く順位付けされる音声認識解釈に良好に合致させる目的で、例えば、マニュアル入力シーケンスにおいてユーザが誤って文字を追加する、あるいは文字が抜けることに対処するため、「soundex」規則によって、マニュアル入力の解釈を見直す、または優先させる。

ステップ614は、マルチモード不確定さ解消エンジン115d、選択モジュール132などのコンポーネントによって実行される。ステップ614では、以下のアクションのうちの1つ以上を実行する。1つの実施例においては、認識された音声が、候補の1つに合致する発声を形成している場合、それに応答して、デバイスは、その候補を選択する。言い換えれば、ユーザが、表示された候補の1つを発声した場合、その候補が選択される。別の実施例においては、認識された音声が候補の拡張形を形成している場合、それに応答して、デバイスは、その拡張された候補を選択する。この例として、表示されている候補リストに「national」が含まれているときに、ユーザが「nationality」と発声すると、デバイスは、「nationality」を選択する。別の実施例においては、認識された音声が、候補の1つを拡張するコマンドを形成している場合、それに応答して、マルチモード不確定さ解消エンジン115d、またはコンポーネント115, 132の一方は、語彙156または言語データベース119から、その候補を一部分として含む1つ以上の単語または句を取得し、ユーザが選択できるようにそれらを視覚的に提示する。拡張形としては、候補が接頭辞、接尾辞、語根、音節、またはその他の構成要素となっている単語が挙げられる。

オプションとして、音素認識エンジン134および言語パターン認識エンジン111は、実際に選択される単語または句の解釈を元の表音データと比較することによって認識精度を高めるため、公知の音声認識機能を採用することができる。

動作の例
図7〜図11は、図6を説明するためのさまざまな例示的なシナリオを示している。図7は、文字をエントリさせるための手書きの使用と、そのエントリを完成させるための音声の使用とを説明するため、ディスプレイ701の内容（102eの一例である）を示している。最初に、ステップ602において、デバイスは、ユーザ入力として、デジタイザ700において手書きされた文字「t e c」を受け取る。デバイス100は、これらの文字を解釈し（604）、順位付けし（606）、順位付けされた候補の視覚的な出力702／704を提供する。スクリーンサイズの制限のため、リスト702／704にはすべての候補は提示されない。

「tec」は語彙中の単語ではないが、デバイスは、これを候補単語704の1つとして含める（ステップ604）。すなわち、「tec」は、「タップしたままの」単語の選択肢、すなわち個々の文字の各々の最良の解釈として示される。デバイス100は、最も高く順位付けされた候補（702）を、それが他と区別されるような方式で自動的に提示する。この例においては、最も高く順位付けされている候補「the」が、リスト704の最初に提示される。

ステップ610において、ユーザは、システムによって提示された単語「the」ではなく、ステップ602においてエントリされた単語を選択する目的で、／tek／と発声する。これに代えて、ユーザは、「二番目（second）」と発声する（「tec」はリスト704における二番目であるため）、または、リスト704から「tec」を選択するための別の入力を行うことができる。デバイス100は、この単語をユーザの選択として受け入れ（ステップ614）、図8に示されているように、カーソル位置に「t−e−c」とエントリさせる。ステップ614の一部として、デバイスは、候補リスト704の提示を削除する。

別の実施例においては、図7を参照して、ユーザは、完全な単語「technology」をエントリさせる過程として、「t」、「e」、「c」とエントリさせる（ステップ602）。この実施例においては、デバイスは、順位付けされた候補の視覚的な出力702／704を提供し、最も高く順位付けされた候補を、図7におけるようにカーソルの横に（702）自動的にエントリさせる。しかしながら、次いで、ユーザは、図8とは異なり、これを「tec」の拡張形として選択する目的で、

と発声する（610）。リスト702／704には視覚的に示されていないが、単語「technology」は、実際には候補のリストに含まれており、ユーザがリストをスクロールすることによって表示させることができる。この場合、ユーザは、スクロールを行わずに

と発声し、この時点で、デバイスは、ユーザの選択として「technology」を受け入れ（ステップ614）、図9に示されているように、カーソル位置に「technology」をエントリさせる。ステップ614の一部として、デバイスは、候補リスト704の提示を削除する。

図10は、文字をエントリさせるためのオンスクリーンキーボードの使用と、そのエントリを完成させるための音声の使用とを説明するための別の例を示している。オンスクリーンキーボードは、例えば、特許文献３に教示されているように実施することができる。図10の例においては、ユーザは、スタイラスによって文字シーケンス「t」、「e」、「c」をタップする（ステップ602）。これに応答して、デバイスは、単語選択肢リスト1002、すなわち、「rev、tec、technology、received、recent、record」を提示する（ステップ608）。リスト1002の中の単語、例えば、「technology」（リスト1002の中に表示されている）あるいは「technical」（リスト1002の中に存在するが表示されていない）をユーザが発声する（610）ことに応答して、デバイスは、その単語をユーザの意図として受け入れ（ステップ614）、その単語をカーソル位置1104にエントリさせる。

図11は、文字をエントリさせるためのキー数削減（キーの各々が複数の英数字に対応している）のキーボードの使用と、そのエントリを完成させるための音声の使用とを説明するための別の例を示している。この例においては、ユーザは、ハードキー8 、3、 2とエントリさせ、文字シーケンス「t」、「e」、「c」を示す（ステップ602）。これに応答して、デバイスは、単語選択肢リスト1102を提示する（ステップ608）。リスト1102の中の単語、例えば、「technology」（リスト1102の中に表示されている）あるいは「teachers」（リスト1102の中に存在するが表示されていない）をユーザが発声する（610）ことに応答して、デバイスは、その単語をユーザの意図として受け入れ（ステップ614）、選択された単語をカーソル位置1104にエントリさせる。

表意言語の場合の例
広義には、本開示の多くの観点は、キー数削減ボードまたは手書き文字認識器を有するデバイスにおいて表意文字によって書かれる言語用のテキストエントリシステムに適用することができる。例えば、標準の電話キー「7」（「7」キーにはピンイン文字「P Q R S」がマッピングされている）を押すと、音節「qing」あるいは「ping」のエントリが始まる。目的の音節／tsing／を発声すると、システムは、最初の書記素が「p」ではなく実際には「q」であることをただちに判断することができる。同様に、筆順入力システム(stroke−order input system)では、ユーザが目的の文字の最初のストロークカテゴリを表す1つ以上のキーを押した後、音声認識エンジンは、そのようなストロークカテゴリで始まる中国文字のみの発音に照らして合致を見つけることができ、両方の入力のより良好な解釈を提供することができる。同様に、手書き表意文字の認識エンジンを使用して1つ以上の文字を書き始めることにより、音声の解釈をガイドする、またはフィルタリングする、あるいは分析する辞書を見直すことができる。

不確定な筆順エントリシステムまたは手書き文字認識エンジンは、どの手書きストロークが意図されたのかを明確に決定することはできないが、ストロークの解釈と音響解釈の組合せによって、2つの入力モードの不確定さが十分に確定されて、意図された文字がユーザに提示される。本開示の1つの実施例においては、音声認識ステップは、表意言語のための従来の筆順エントリシステムまたは手書き文字システムにおける入力シーケンスに基づいて表示されている文字、単語、または句から、文字、単語、または句を選択するために使用される。別の実施例においては、音声認識ステップは、表音入力システムにおける不確定さをさらに解消するため、音調情報を追加する目的で使用される。表意言語に関連する実施の詳細は、以下にさらに詳しく説明されている。

図12は、本開示の方法の観点の別の例を説明するためのシーケンス1200を示している。このシーケンスは、表意文字から成る単語および句のユーザエントリを支援する目的で、本質的に不確定なユーザ入力を確定するように機能する。これらの例においては用語「表意」が使用されているが、動作1200は、多くの異なる表語体系、表意体系、一字一語体系、形態音節体系(morpho−syllabic)、あるいは、個々の単語、概念、音節、形態素などを表すのに文字を使用するその他の書記体系において、実施することができる。本文書における「表意文字」は、制限なしに使用されており、中国の象形文字、中国の表意文字、中国語の直説法(Chinese indicative)、中国の音形複合文字(sound−shape compounds)（音韻文字(phonologograms)）、日本の文字（漢字）、韓国の文字（ハンジャ）、およびその他のそのような体系を含むものとする。さらに、システム100は、特定の標準、例えば、伝統的な中国文字、簡略化された中国文字、または別の標準を対象として実施することができる。説明を容易にするため、図12の例は、上述されている図1のコンテキストにおいて説明されているが、何らの制限を意図するものではない。

ステップ1202において、入力デバイス102a／102bの一方は、1つ以上の意図された表意文字または構成要素を識別するために使用されるユーザ入力を受け取る。ユーザ入力は、手書きストローク、手書きストロークのカテゴリ、表音綴り(phonetic spelling)、音調入力などを指定することができる。このアクションは、デバイス100の構造に応じて、さまざまな方法において実行することができる。一例として、キーの各々がストロークカテゴリに対応する電話のキーパッド（102b）を介してユーザエントリを受け取る。例えば、特定のキーが、下向きに傾いたストロークすべてを表すことができる。別の例として、手書き文字デジタイザ（102a）、あるいはジョイスティックなどの方向入力デバイス102（動作の各々がストロークカテゴリにマッピングされている）を介して、ユーザエントリを受け取る。一例においては、ステップ1202では、ユーザが目的の1つ以上の表意文字をエントリさせるために行う手書きストロークエントリを、インタフェース102が受け取る。さらに別のオプションとして、ステップ1202は、タッチ面または一連の小さな機械式キーのための自動訂正キーボードシステム（102b）によって実行することができ、この場合、ユーザは、1つ以上の表意文字の表音綴り、構成要素、またはストロークの一部またはすべてをおおまかにエントリさせる。

ステップ1202において入力を受け取るためのさまざまなオプションは、参考文書、すなわち、特許文献４、特許文献５、特許文献６、特許文献７、および特許文献８に記載されており、各文書は、本文書に参照文献として組み込まれている。

さらに、ステップ1202においては、デバイスは、受け取ったユーザ入力を、他のユーザ入力には関係なく、第一語彙に照らして解釈し、各々が少なくとも1つの表意文字を含む複数の候補を生成する。より具体的には、デバイスは、受け取ったストローク、ストロークカテゴリ、綴り、音調、またはユーザによるその他のマニュアル入力を、語彙156（例：156a）からの文字リストに照らして解釈し、ユーザのマニュアル入力に矛盾しない、語彙中の候補を識別する。ステップ1202では、オプションとして、手書き入力に対するパターン認識および／またはストロークフィルタリングを実行し、その時点までのユーザの入力を表しうる候補の文字を識別することができる。

オプションであるステップ1204においては、不確定さ解消エンジン115は、（1202からの）識別された候補の文字を、ユーザが自身のエントリによって意図した文字をこれらの文字が表している確率に基づいて、順序づける。この順位付けは、情報、例えば、（1）さまざまな文語形態または口語形態における各文字の一般的な使用頻度、（2）ユーザ自身の使用頻度または使用の最新性、（3）先行する文字および／または後に続く文字によって形成される文脈、（4）その他の要因、に基づくことができる。頻度情報は、言語データベース119に暗黙的または明示的に格納しておくことができ、または、必要なときに計算することができる。

ステップ1206において、プロセッサ140は、利用可能な表示空間のサイズおよびその他の制約に応じて、（1202または1204からの）候補のいくつかまたはすべてを、ディスプレイ102eに視覚的に提示する。オプションとして、デバイス100は、スクロールリストの形式で候補を提示することができる。

1つの実施例においては、ステップ1206の表示アクションは、提示される候補のセット（1204, 1206）を継続的に更新し（およびほとんどの場合には絞り）、かつユーザが候補の文字を選択するかまたは入力を続行できる（1202）ようにするため、新たなユーザ入力の各々の後に繰り返される。別の実施例では、システムにおいて、構成する文字のいずれか1つ以上を表示する（1206）前に、単語全体または句全体を入力する（1202）ことができる。

1つの実施例においては、ステップ1202、1204、および1206は、1文字の候補と複数文字の候補の両方に対応することができる。この場合、現在の入力シーケンスが、単語または句の複数の文字を表している場合、ステップ1202、1204、および1206では、1文字の候補ではなく複数文字の候補を識別する、順位付けする、および表示する。この実施例を実施するため、ステップ1202では、ユーザが先行する文字の入力（例：ストローク）を停止して次の文字のエントリを開始するであろうことのシステムへの信号として、所定の区切り子を認識する。このような区切り子は、明示的にエントリされる（例：スペースまたはその他の所定のキー）か、または、ユーザエントリの状況（例：表示される別のボックスまたは画面領域に別の文字をエントリさせることによる）から暗黙的に判定することができる。

ユーザは、音声認識機能（後から説明されている）を起動させることなく、インタフェース102を動作させるステップ（1212）に進み、ステップ1206において提示された選択の1つを受け入れることができる。これに代えて、ユーザが選択を行わない（1212）場合、ステップ1206から自動的にステップ1208に進み、音声入力を受け取ることができる。さらに別のオプションとして、ステップ1206において、インタフェース102は、可聴プロンプト、視覚メッセージ、アイコンメッセージ、グラフィックメッセージ、またはその他のプロンプトによって、発声するようにユーザを自動的に指示することができる。ユーザが発声した時点で、シーケンス1200は、1206から1208に進む。さらに別の代替オプションとして、インタフェース102は、「発声」ボタンを押す、または、マイクロフォンを使用可能にする他のアクションを行って音声認識ステップ1208を起動するように、ユーザに要求する（ステップ1206）ことができる。別の実施例においては、マニュアル入力と音声入力は、ほぼ同時である、または重なる。実際には、ユーザは、タイプ入力している文字を発声する。

ステップ1208において、システムは、ユーザの発声された入力をフロントエンドデジタイザ105を介して受け取り、言語パターン認識エンジン111は、ユーザの発声された入力を表すデータに音声認識を適用する。1つの実施例においては、言語パターン認識エンジン111は、表音形態を、音節および単語の辞書（言語データベース119に格納されている）に照らして合致を見つけ、各発声に対する、音節、単語、および／または句のN−bestリストを作成する。次いで、不確定さ解消エンジン115は、表音形態がN−bestリストに現れている候補のみが保持される（またはステップ1210において最も高く順位付けされる）ように、そのN−bestリストを使用して、ストローク入力からの1文字または複数文字の候補の表音綴りの一致を見つける。別の実施例においては、システムは、マニュアルでエントリされた表音綴りを辞書および言語モデルとして使用し、発声された入力を認識する。

1つの実施例においては、マニュアル入力モードからの入力の一部またはすべては、各音節の最初の文字のみ、または各単語の子音のみを表している。システムは、音節または子音のマーカー(consonant marker)を使用して音声入力を認識および順位付けし、単語または句の正しい付加文字または母音を入力する。例えば、日本語のテキストをエントリさせる場合、キーパッドのキーの各々は、50音表における子音の行にマッピングされており、音声認識は、各音節の正しい母音または「列」を決定するうえで役立つ。別の実施例においては、マニュアル入力モードからの入力の一部またはすべては、不確定ではない。これにより、図1における単語不確定さ解消エンジン115aの必要性を低減する、または排除することができるが、マルチモード不確定さ解消エンジン115dは、目的の完全な単語または句に、他のすべての可能性のある候補よりも高い優先順位を与える目的で、あるいは間に入っている母音を識別する目的で、音声入力の合致を見つけるために依然として必要である。

さらに、インド系言語などのいくつかの言語においては、語彙モジュールは、先行する入力と、考慮されている単語候補とが与えられたときに、単語の構成要素のどの候補が可能であるかまたは可能性が高いかを判断するための、単語の構成要素の有効なシーケンスのテンプレートを採用することができる。別の言語においては、性別に基づく発音規則は、目的のテキスト形式の不確定さをさらに確定して認識するうえで役立つ。

ステップ1208は、さまざまな方法において実行することができる。1つのオプションにおいては、認識された音声が、1206からの候補の1つの発音を含む発声を形成するとき、プロセッサ102は、その候補を選択する。別のオプションにおいては、認識された音声が、いずれかの候補の表音形態の発音を含む発声を形成するとき、プロセッサは、それらの候補以外の文字が表示されないように（1206からの）表示を更新する。さらに別のオプションにおいては、認識された音声が、候補のうちのいくつかを発音している可能性のある発声であるとき、プロセッサは、そのいくつかの候補以外が表示されないように表示を更新する。別のオプションにおいては、認識された音声が、1つ以上の候補に対応する1つ以上の音調特性を含む発声であるとき、プロセッサ102は、それらの候補以外の文字が表示されないように（1206からの）表示を更新する。

ステップ1208の後、ステップ1210において、残っている候補を、音声入力などの要因に従って順位付けする。例えば、ストロークまたはそれ以外のユーザ入力の最も可能性の高い解釈と、音声入力の最も可能性の高い解釈が、各文字、単語、または句の頻度情報と組み合わされて、ユーザが選択するための最も可能性の高い候補が提供されるように、言語パターン認識エンジン111は、確率情報をマルチモード不確定さ解消エンジン115dに提供することができる。追加の例として、順位付け（1210）は、別の要因または追加の要因、例えば、さまざまな文語形態または口語形態における各文字の一般的な使用頻度、ユーザ自身の使用頻度または使用の最新性、先行する文字および／または後に続く文字によって形成される文脈などを含むことができる。

ステップ1210の後、ステップ1210において生成された文字／句の候補を表示する目的で、ステップ1206を繰り返す。次いで、ステップ1212において、デバイスは、目的の候補をスタイラスによってタップするなど、何らかの入力手段102a／102c／102bによって示される、1文字または複数文字の候補のユーザの選択を受け入れる。システムは、選択を行うように、あるいは、追加のストロークまたは音声を入力するように、上述されている可視手段、可聴手段、またはその他の手段によってユーザに指示することができる。

1つの実施例においては、最も高く順位付けされた候補は、ユーザが次の文字のマニュアル入力シーケンスを開始したときに自動的に選択される。別の実施例においては、1210においてマルチモード不確定さ解消エンジン115dが1つの候補を識別してそれを他の候補よりも高く順位付けする場合、システム100は、さらなるユーザ入力を待つことなく、ステップ1212においてその候補を自動的に選択することができる。1つの実施例においては、選択された1つ以上の表意文字は、現在のアプリケーションにおけるテキストエントリフィールドの挿入ポイントに追加され、入力シーケンスがクリアされる。次いで、表示されている候補リストに、いま選択された1つ以上の文字に続く最も可能性の高い文字を表示することができる。

その他の実施例
上記の開示は、説明のための複数の実施例を示しているが、当業者には、請求項によって定義される本発明の範囲から逸脱することなく、本文書においてさまざまな変更および修正を行うことができることが明らかであろう。さらに、本明細書および請求項では、本発明の要素が1つであるとして記載されているが、1つに制限されることが明示的に述べられていない限りは、複数の存在が考慮されている。さらには、説明および請求項の記載を目的として、動作のシーケンスを何らかの特定の順序で記述しなければならないが、本発明は、そのような特定の順序以外のさまざまな変更を考慮していることが、通常の技能を有する者には認識されるであろう。

さらには、関連する技術分野における通常の技能を有する者には、情報および信号をさまざまな別の技術および手法を使用して表すことができることが理解されるであろう。例えば、本文書において言及されているデータ、命令、コマンド、情報、信号、ビット、記号、およびチップは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、その他の要素、またはこれらの組合せによって表すことができる。

さらには、通常の技能を有する者には、本文書に説明されている例示的な論理ブロック、モジュール、回路、およびプロセスステップを、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実施できることが理解されるであろう。ハードウェアおよびソフトウェアのこの相互交換性を明確に示すため、上記の説明上のさまざまなコンポーネント、ブロック、モジュール、回路、およびステップは、一般にその機能面について説明されている。このような機能がハードウェアとして実施されるか、あるいはソフトウェアとして実施されるかは、特定の用途と、システム全体に課される設計上の制約とに依存する。当業者は、説明されている機能を、特定の各々の用途においてさまざまな方法で実施することができるが、そのような実施上の決定は、それに起因して本発明の範囲から逸脱するとは解釈されないものとする。

本文書に開示されている実施例に関連して説明されている、さまざまな説明上の論理ブロック、モジュール、および回路は、本文書に記載されている機能を実行するように設計されている汎用プロセッサ、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールドプログラマブルゲートアレイ（FPGA）またはその他のプログラマブルロジックデバイス、個別のゲートロジックまたはトランジスタロジック、個別のハードウェアコンポーネント、あるいはこれらの任意の組合せによって、実施する、または実行することができる。汎用プロセッサは、マイクロプロセッサとすることができるが、代替形態においては、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械とすることができる。さらに、プロセッサは、コンピューティングデバイスの組合せ、例えば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、1つ以上のマイクロプロセッサとDSPコアの併用、または他のそのような任意の構成として実施することもできる。

本文書に開示されている実施例に関連して説明されている方法のステップまたはアルゴリズムは、ハードウェアに直接具体化する、またはプロセッサによって実行されるソフトウェアモジュールに具体化する、または双方の組合せに具体化することができる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、またはこの技術分野において公知である任意のその他の形式の記憶媒体に格納することができる。例示的な記憶媒体はプロセッサに結合されており、従って、プロセッサは、記憶媒体から情報を読み取る、および記憶媒体に情報を書き込むことができる。代替形態においては、記憶媒体は、プロセッサに一体化することができる。プロセッサおよび記憶媒体は、ASICに属していることができる。ASICは、無線通信デバイスに属していることができる。代替形態においては、プロセッサおよび記憶媒体は、無線通信デバイスにおける個別のコンポーネントとして存在していることができる。

ここまでに開示されている実施例は、当業者が本発明を実施する、または利用することができるように説明されている。当業者には、これらの実施例へのさまざまな変更が明らかであり、本文書に定義されている一般的な原理は、本発明の概念または範囲から逸脱することなく別の実施例に適用することができる。従って、本発明は、本文書に示されている実施例に制限されるようには意図されておらず、その範囲は、本文書に開示されている原理および新規の特徴に矛盾しない最も広い範囲である。

マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する例示的なシステムのいくつかのコンポーネントを示しているブロック図である。例示的な信号担持媒体を示しているブロック図である。別の例示的な信号担持媒体を示しているブロック図である。例示的な論理回路の斜視図である。例示的なデジタルデータ処理装置のブロック図である。マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する、コンピュータによって実行されるシーケンスのフローチャートである。ユーザ入力の受け取りおよび処理のさまざまな例を示している。ユーザ入力の受け取りおよび処理のさまざまな例を示している。ユーザ入力の受け取りおよび処理のさまざまな例を示している。ユーザ入力の受け取りおよび処理のさまざまな例を示している。ユーザ入力の受け取りおよび処理のさまざまな例を示している。マニュアルでエントリされた表意文字の不確定な入力を音声入力を使用して確定する、コンピュータによって実行されるシーケンスのフローチャートである。

101 ユーザ
102 ユーザインタフェース
102A 手書き文字入力
102B キー入力
102C 音声入力
102D オーディオ出力
102E ディスプレイ
105 デジタイザ
107 物理入力デジタイザ
109 復号器
111 言語パターン認識エンジン
113 テキストバッファ
115 不確定さ解消エンジン
115A 単語
115B 句
115C 文脈
115D マルチモード
119 言語データベース
130 ストローク／文字認識エンジン
132 選択モジュール
134 音素認識エンジン
140 プロセッサ
150 記憶装置
152 アプリケーションプログラム
154 OS
156 語彙
156A 単語リスト
156B 句リスト
156C 表音／音調テーブル
200 信号担持媒体
300 信号担持媒体
400 回路
500 デジタルデータ処理装置
502 プロセッサ
504 記憶装置
506 高速アクセス記憶装置
508 不揮発性記憶装置
510 入力／出力
700 デジタイザ
701 ディスプレイ
702 リスト
704 リスト
1002 単語選択肢リスト
1004 カーソル位置
1102 単語選択肢リスト
1104 カーソル位置

Claims

マニュアルで動作させるテキストエントリツールにより受け取られる、不確定なユーザ入力を確定する動作を実行するようにプログラムされているデジタルデータ処理デバイスであって、前記動作が、
前記マニュアルで動作させるテキストエントリツールにより、ユーザが意図するテキストオブジェクトを表すマニュアルでエントリされたユーザ入力を受け取るステップであって、前記受け取られたユーザ入力が、複数の異なったテキストの組み合わせを表すので、前記ユーザ入力が不確定である、ステップと、
前記ユーザが意図したテキストオブジェクトに対応する複数の解釈候補を発生させるために、前記受け取られたユーザ入力を、他の如何なるユーザ入力とも無関係に、テキスト語彙に照らして解釈するステップであって、前記解釈候補が、以下のタイプ、すなわち、
（1）前記ユーザ入力が、語根、語幹、音節、接辞のうちの1つを形成する単語、
（2）前記ユーザ入力が形成する単語の句、
（3）前記ユーザ入力によって表される単語、
のうちの1つ以上のタイプで発生する、
ステップと、
前記ユーザが見ることができるように前記解釈するステップの結果を提示するステップであって、当該結果が、前記ユーザが意図したテキストオブジェクトに対応する当該解釈候補のリストを含む、ステップと、
前記デバイスが、発声されたユーザ入力を受け取ると、前記発声されたユーザ入力の音声認識を実行するステップと、
前記解釈候補の1つを指定する発話を備える、前記認識された音声に応答して、前記指定された解釈候補を備えるテキスト出力を視覚的に提供するアクションを含む、少なくとも1つのアクションを実行するステップと、
を備える、デジタルデータ処理デバイス。
当該発話に応答して、語根の単語として当該候補を有する新規な単語を備えるテキスト出力を視覚的に提供するステップを備える少なくとも１つの追加のアクションを実行するように、前記デバイスが、さらに、プログラムされている、請求項１に記載のデバイス。
語根の単語として当該候補を有する新規な単語を選択するコマンドを備える前記認識された音声に応答して、当該候補を一部分として含むエントリを語彙内で検索し、かつ、前記検索によって見出された1つ以上のエントリを視覚的に提示するステップと、
拡張コマンドを形成する前記認識された音声に応答して、前記リスト内の1つ以上の候補について、単語の完成形、接辞の追加形、句の完成形、前記候補と同じ語根を有する追加の単語、のうちの少なくとも1つを視覚的に提示するステップと、
を備える少なくとも１つの追加のアクションを実行するように、前記デバイスが、さらに、プログラムされている、請求項１に記載のデバイス。
前記候補の前記リストと、前記音声認識動作からの可能性のある結果のリストとを比較して、候補の当該リストと可能性のある結果の当該リストの両方のリストに発生する如何なるエントリも識別するステップと、
前記識別されたエントリのリストを視覚的に提示するステップと、
を備える少なくとも１つの追加のアクションを実行するように、前記デバイスが、さらに、プログラムされている、請求項１に記載のデバイス。
前記候補の任意のサブセットを発音している可能性のある発話を含む認識された音声に応答して、前記サブセット内の候補のリストを視覚的に提示するステップ、
を備える少なくとも１つの追加のアクションを実行するように、前記デバイスが、さらに、プログラムされている、請求項１に記載のデバイス。
音声認識を実行する前記動作が、
前記発声されたユーザ入力の音声認識を語彙を利用して実行するステップと、
前記音声認識動作の結果によって表されない候補が省かれるように前記候補を見直すステップと、
前記絞られた候補のリストを視覚的に提示するステップと、
を備える、請求項１に記載のデバイス。
音声認識を実行する前記動作が、
実質的に当該候補に限定されている語彙を利用して、前記発声されたユーザ入力の音声認識を実行するステップ、
を備える、請求項１に記載のデバイス。
前記解釈動作が、候補の各々が前記ユーザ入力に対応する文字から始まるように、実行される、請求項１に記載のデバイス。
前記解釈動作が、複数の前記候補が、単語の先頭位置および最後の位置以外において、前記ユーザ入力を表す文字を含む単語であるように、実行される、請求項１に記載のデバイス。
前記解釈動作が、候補のタイプが英数字テキストの文字列をさらに含むように実行される、請求項１に記載のデバイス。
前記解釈動作が、前記タイプが表意文字と表意文字の句の少なくとも１つをさらに含むように、実行される、請求項１に記載のデバイス。
２つ以上の文字に関連するキーを有する、キー数が削減されたキーボードと、
コンピュータによって生成されるイメージを視覚的に提示する表示手段と、
次のステップを備える動作を実行する処理手段とを
備えるデジタルデータ処理デバイスであって、前記動作が、
当該キー数が削減されたキーボードにより、ユーザが意図するテキストオブジェクトを表すマニュアルでエントリされたユーザ入力を受け取るステップであって、前記受け取られたユーザ入力が、複数の異なったテキストの組み合わせを表すので、前記ユーザ入力が不確定となる、ステップと、
前記ユーザが意図したテキストオブジェクトに対応する複数の解釈候補を発生させるために、前記受け取られたユーザ入力を、他の如何なるユーザ入力とも無関係に、テキスト語彙に照らして解釈するステップであって、前記解釈候補が、以下のタイプ、すなわち、
（1）前記ユーザ入力が、語根、語幹、音節、接辞のうちの1つを形成する単語、
（2）前記ユーザ入力が形成する単語の句、
（3）前記ユーザ入力によって表される単語、
のうちの1つ以上のタイプで発生する、
ステップと、
前記解釈動作の結果を視覚的に提示するように前記表示手段を動作させるステップであって、当該結果が、前記ユーザが意図したテキストオブジェクトに対応する当該解釈候補のリストを含む、ステップと、
発声されたユーザ入力を受け取ったことに応答して、前記発声されたユーザ入力の音声認識を実行する、ステップと、
前記解釈候補の1つを指定する発話を備える、前記認識された音声に応答して、前記指定された候補を備えるテキスト出力を視覚的に提供するように前記表示手段を動作させるアクションを含む、少なくとも１つのアクションを実行する、ステップと、
を備える、
デジタルデータ処理デバイス。
マニュアルで動作させるテキストエントリツールにより受け取られる、不確定なユーザ入力を確定する動作を実行するようにデジタルデータ処理デバイスを動作させるように構成されている、相互接続されている導電性の複数の要素の回路であって、前記動作が、
マニュアルで動作させるテキストエントリツールにより、ユーザが意図するテキストオブジェクトを表すマニュアルでエントリされたユーザ入力を受け取るステップであって、前記受け取られたユーザ入力が、複数の異なったテキストの組み合わせを表すので、前記ユーザ入力が不確定となる、ステップと、
前記ユーザが意図したテキストオブジェクトに対応する複数の解釈候補を発生させるために、前記受け取られたユーザ入力を、他の如何なるユーザ入力とも無関係に、テキスト語彙に照らして解釈するステップであって、前記解釈候補が、以下のタイプ、すなわち、
（1）前記ユーザ入力が、語根、語幹、音節、接辞のうちの1つを形成する単語、
（2）前記ユーザ入力が形成する単語の句、
（3）前記ユーザ入力によって表される単語、
のうちの1つ以上のタイプで発生する、
ステップと、
前記ユーザが見ることができるように前記解釈動作の結果を提示するステップであって、当該結果が、前記ユーザが意図したテキストオブジェクトに対応する当該解釈候補のリストを含む、ステップと、
発声されたユーザ入力を受け取ったことに応答して、前記発声されたユーザ入力の音声認識を実行するステップと、
前記解釈候補の1つを指定する発話を備える、前記認識された音声に応答して、前記指定された候補を備えるテキスト出力を視覚的に提供するアクションを含む、少なくとも１つのアクションを実行するステップと、
を備える、回路。
マニュアルで動作させるテキストエントリツールにより受け取られる、不確定なユーザ入力を確定する動作を実行するようにプログラムされているデジタルデータ処理デバイスであって、前記動作が、
キーボードにより、ユーザが意図するテキストオブジェクトを表すマニュアルでエントリされたユーザ入力を受け取るステップであって、前記受け取られたユーザ入力が、複数の異なったテキストの組み合わせを表すので、前記ユーザ入力が不確定であり、前記ユーザ入力が、文字の一部を構成する1つ以上の手書きストロークのデジタル表示、一組の手書きストロークを規定するカテゴリの表示、その表音綴りにより綴られた単語、及び音調入力、の内の少なくとも１つを表す、ステップと、
前記ユーザが意図したテキストオブジェクトに対応する複数の解釈候補を発生させるために、前記受け取られたユーザ入力を、他の如何なるユーザ入力とも無関係に、テキスト語彙に照らして解釈するステップであって、各候補が、1つ以上の表意文字、又は表意文字の1つ以上の部首、のうちの1つ以上を備える、ステップと、
前記ユーザが見ることができるように前記解釈動作の結果を提示するステップであって、当該結果が、前記ユーザが意図したテキストオブジェクトに対応する当該解釈候補のリストを含む、ステップと、
発声されたユーザ入力を受け取ったことに応答して、前記発声されたユーザ入力の音声認識を実行するステップと、
前記解釈候補の1つを指定する発話を備える、前記認識された音声に応答して、前記指定された候補を備えるテキスト出力を視覚的に提供するアクションを含む、少なくとも１つのアクションを実行するステップと、
を備える、デジタルデータ処理デバイス。
当該発話に応答して、語根の単語として当該候補を有する新規な単語を備えるテキスト出力を視覚的に提供するステップを備える少なくとも１つの追加のアクションを実行するように、前記デバイスが、さらに、プログラムされている、請求項１４に記載のデバイス。
語根の単語として当該候補を有する新規な単語を選択するコマンドを備える前記認識された音声に応答して、当該候補を一部分として含むエントリを語彙内で検索し、かつ、前記検索によって見出された1つ以上のエントリを視覚的に提示するステップ、
をさらに備える、請求項１４に記載のデバイス。
前記認識された音声が、前記候補の1つおよびその他の発声を含む発音、前記候補の1つの拡張形を含む発音、前記候補の1つのバリエーションを含む発音、のうちの1つを含むか否かを判定するステップと、
それを含む場合には、前記候補の拡張形と、前記候補のバリエーション、のうちの少なくとも一方の対応する候補を視覚的に提示するステップと、
をさらに含む、請求項１４に記載のデバイス。
前記候補のリストと、前記音声認識動作からの、可能性のある結果のリストとを比較し、両方のリストに発生する如何なるエントリも識別するステップと、
前記識別されたエントリのリストを視覚的に提示するステップと、
をさらに備える、請求項１４に記載のデバイス。
前記候補の任意のサブセットを発音している可能性のある発話を含む認識された音声に応答して、前記サブセット内の候補のリストを視覚的に提示するステップ、
をさらに含む、請求項１４に記載のデバイス。
前記候補のサブセットに排他的に対応する表音入力を含む認識された音声に応答して、前記サブセットの候補のリストを視覚的に提示するステップ、
をさらに含む、請求項１４に記載のデバイス。
前記デバイスが、
表音情報の複数の要素を含み、かつ、表音情報の各要素と1つ以上の表意要素とが相互参照されている、少なくとも1つのデータ構造であって、表意要素の各々が、1つ以上の表意文字と、1つ以上の表意部首、のうちの少なくとも一方を含む、データ構造を含むデジタルデータ記憶装置をさらに含み、
表音情報の要素のそれぞれが、1つ以上の表意要素の発音、1つ以上の表意要素に関連付けられる1つ以上の音調の発音、のうちの一方を含み、
前記発声されたユーザ入力の音声認識を実行する前記動作が、1つ以上の相互参照されている表意要素を識別する目的で、前記認識された音声の表音情報に従って前記データ構造を検索するステップをさらに備える、
請求項１４に記載のデバイス。
音声認識を実行する前記動作が、
前記発声されたユーザ入力の音声認識を、当該候補に実質的に限定された語彙を利用して実行するステップ、
を備える、請求項１４に記載のデバイス。
キーボードと、
コンピュータによって生成されるイメージを視覚的に提示する表示手段と、
動作を実行する処理手段と
を備える、デジタルデータ処理デバイスであって、前記動作が、
前記キーボードにより、ユーザが意図するテキストオブジェクトを表すマニュアルでエントリされたユーザ入力を受け取るステップであって、前記受け取られたユーザ入力が、複数の異なるテキストの組み合わせを表すので、前記ユーザ入力が不確定であり、前記ユーザ入力が、文字の一部を構成する1つ以上の手書きストロークのデジタル表示、手書きストロークの組を規定するカテゴリの表示、その表音綴りに従って綴られた単語、および音調入力の内の少なくとも１つを表す、ステップと、
前記ユーザが意図したテキストオブジェクトに対応する複数の解釈候補を発生させるために、前記受け取られたユーザ入力を、他の如何なるユーザ入力とも無関係に、テキスト語彙に照らして解釈するステップであって、各解釈候補が、以下のタイプ、すなわち、1つ以上の表意文字、表意文字の1つ以上の部首のうちの1つ以上を備える、ステップと、
前記解釈動作の結果を前記表示手段に提示させるステップであって、当該結果が、前記ユーザが意図したテキストオブジェクトに対応する当該候補のリストを含む、ステップと、
発声されたユーザ入力を受け取ると、前記発声されたユーザ入力の音声認識を実行する、ステップと、
前記解釈候補の1つを指定する発話を備える、前記認識された音声に応答して、前記指定された候補を備えるテキスト出力を視覚的に提供するアクションを含む、少なくとも１つのアクションを実行するステップと、
を備える、デジタルデータ処理デバイス。
マニュアルで動作させるテキストエントリツールにより受け取られる、不確定なユーザ入力を確定する動作を実行するようにデジタルデータ処理デバイスを動作させるように構成されている、相互接続されている導電性の複数の要素の回路であって、前記動作が、
キーボードにより、ユーザが意図するテキストオブジェクトを表すマニュアルでエントリされたユーザ入力を受け取るステップであって、前記ユーザ入力が複数の異なったテキストの組み合わせを表すので、前記ユーザ入力が不確定となり、前記ユーザ入力が、文字の一部を構成する1つ以上の手書きストロークのデジタル表示、手書きストロークの組を規定するカテゴリの表示、その表音綴りに従って綴られた単語、および音調入力、の内の少なくとも１つを表す、ステップと、
前記ユーザが意図したテキストオブジェクトに対応する複数の解釈候補を発生させるために、前記受け取られたユーザ入力を、他の如何なるユーザ入力とも無関係に、テキスト語彙に照らして解釈するステップであって、各候補が、以下のタイプ、すなわち、1つ以上の表意文字、表意文字の1つ以上の部首、の内の1つ以上を備える、ステップと、
前記ユーザが見ることができるように前記解釈動作の結果を提示するステップであって、当該結果が、前記ユーザが意図したテキストオブジェクトに対応する当該解釈候補のリストを含む、ステップと、
発声されたユーザ入力を受け取ったことに応答して、前記発声されたユーザ入力の音声認識を実行するステップと、
前記解釈候補の1つを指定する発話を備える、前記認識された音声に応答して、前記指定された候補を備えるテキスト出力を視覚的に提供するアクションを含む、少なくとも１つのアクションを実行するステップと、
を備える、回路。
マニュアルで動作させるテキストエントリツールにより受け取られる、本質的に不確定なユーザ入力を確定する動作を実行するようにプログラムされているデジタルデータ処理装置であって、前記動作が、
２つ以上の文字に関連するキーを有する、キー数が削減されたキーボードにより、当該キーからの異なったテキストの組み合わせが可能であることから本質的に不確定であるユーザ入力を受け取る、ステップと、
次のテキストの異なった可能な組み合わせ、すなわち、
（1）語彙エントリが、前記ユーザ入力が語根、語幹、音節、接辞のうちの1つを形成する単語である、組み合わせ、
（2）語彙エントリが、前記ユーザ入力が単語を形成する句である、組み合わせ、または、
（3）語彙エントリが、前記ユーザ入力によって表される単語である、組み合わせ、
の何れかに対応する全てのエントリを、他の如何なるユーザ入力とも無関係に、既定のテキスト語彙内で識別する、ステップと、
前記ユーザが見ることができるように前記認識された前記語彙のエントリのリストを視覚的に提示する、ステップと、
前記リストを視覚的に提示した後に、前記デバイスが、発話の形態で発声されたユーザ入力を受け取ると、前記発声されたユーザ入力の音声認識を実行し、次いで、前記視覚的に提示されたエントリの1つを指定する前記認識された音声に応答して、前記指定されたエントリを備える出力を視覚的に提供する、ステップと、
を備える、デジタルデータ処理装置。
マニュアルで動作させるテキストエントリツールにより受け取られる、本質的に不確定なユーザ入力を確定する動作を実行するようにプログラムされているデジタルデータ処理装置であって、前記動作が、
手書きストローク、手書きストロークのカテゴリ、表音綴り、音調入力の内の少なくとも１つの異なる組み合わせが可能であることから本質的に不確定であるユーザ入力を、２つ以上の文字に関連するキーを有する、キー数が削減されたキーボードにより受け取る、ステップと、
次の異なる可能な組み合わせ、すなわち、
（1）語彙エントリが少なくとも１つの表意文字であり、かつ前記ユーザ入力が1つ以上の表意文字の全てまたは一部を形成する、組み合わせ、及び
（2）語彙エントリが表意文字の1つ以上の表意部首であり、かつ前記ユーザ入力が1つ以上の表意部首の全てまたは一部を形成する、組み合わせ、
に対応する全てのエントリを、他の如何なるユーザ入力とも無関係に、既定のテキスト語彙において識別する、ステップと、
前記ユーザが見ることができるように前記識別された前記語彙のエントリのリストを視覚的に提示する、ステップと、
前記リストを視覚的に提示した後に、前記デバイスが、発話の形態で発声されたユーザ入力を受け取ると、前記発声されたユーザ入力の音声認識を実行し、次いで、前記視覚的に提示されたエントリの1つを指定する前記認識された音声に応答して、前記指定されたエントリを備える出力を視覚的に提供する、ステップと、
を備える、デジタルデータ処理装置。