JP2008547061A

JP2008547061A - 異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法

Info

Publication number: JP2008547061A
Application number: JP2008518502A
Authority: JP
Inventors: ジェイ．ホービッツエリック
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2005-06-27
Filing date: 2006-06-27
Publication date: 2008-12-25
Also published as: EP1899953A4; KR20080019209A; WO2007002606A2; US7643985B2; EP1899953A2; US20060293893A1; CN101233559A; WO2007002606A3

Abstract

異言語のユーザと対話して音声翻訳を強化するアーキテクチャである。認識したコンセプトは収束され、装置との相互主導型ユーザ対話により曖昧さ解消がなされて、別言語を話す他者とのユーザコミュニケーションについて簡潔な推論を与える。注目点におけるコンセプト又は注目点となりそうな確立分布に基づいてコミュニケーション目標について推論を適用し、選別した選択肢および、イメージ、テキストおよび／または音声翻訳をユーザの会話相手に対して認識させる。推論は、コンセプト、状況、目標を推論する根拠の一部として、および／または後者の曖昧さを解消する根拠の一部として、ユーザの入力を処理する。コミュニケーションに対するシステムの理解をエコーバックしてユーザに確認させることができる。コンテキスト依存的に認識および情報収集コンポーネントの焦点を絞ることができ、以前または現在のユーザの発話から認識した単語を利用して推論の焦点をさらに絞ることもできる。

Description

本発明は、異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法に関する。

インターネットのようなグローバル通信ネットワークの出現は、ポータブルコンピューティングデバイスに計算能力とサービスを集中させる触媒の役割を果たした。例えば最近では、携帯電話およびパーソナルデータアシスタント（ＰＤＡｓ）のような携帯装置はそれぞれ、音声通信および個人情報記憶に対して別個の機能を採用した。今日ではこれらの機能を、例えばハードウェアおよびソフトウェアの計算能力の向上を通じてマルチモデル機能を搭載した携帯電話のような単一の携帯装置に見ることができる。上記デバイスはより一般には“スマートフォン”と呼ばれる。

ハンドヘルドおよび携帯装置の技術が進歩すると、これらの継続的に現れる技術の利益の最大化という、進行中かつ今後も増え続けるニーズがある。上記携帯無線コンピューティングデバイスの記憶能力および計算能力が進歩すると、例えば、イメージ、ビデオクリップ、オーディオデータ、ならびに様々なＰＩＭ（個人情報マネージャ）を管理および整理するための電子手帳のような多様な異種データ型を処理することができる。通常このデータは、特定目的に対して個別に利用される。

インターネットはさらに、何百万ものネットワークユーザを携帯装置（例えば、電話）、電子メール、ウェブサイト等を通して互いに接触させることで国際化をもたらした。それらの一部は或る程度のテキスト翻訳を行うことができる。例えば、ユーザは自身のブラウザを選択して、ユーザが外国のウェブサイトにアクセスする際にある言語から別の言語への或る程度のテキスト翻訳を促進する言語プラグインをインストールすることができる。しかしながら、世界の可動性はさらに高まってきている。益々多数の人々が仕事および休暇で旅行している。このことは、人々が個々人と対面する状況、および／または言語障壁が問題となりうる外国での状況をもたらす。多数の多言語携帯端末による支援シナリオにおいて、音声翻訳は非常に高い障壁である。向上した携帯装置の計算能力を利用してユーザの翻訳経験を強化するメカニズムが必要である。

以下は、開示する発明の幾つかの態様の基本的理解を与える簡単な要約である。本要約は広範囲な概要ではなく、主要／重要な要素を特定すること、またはその範囲を線引きすることを意図していない。本要約の唯一の目的は、後述する詳細説明に対する前置きとして幾つかの概念を簡単に示すことである。

開示する発明は、一または複数の異言語ユーザと対話し、音声翻訳を強化するアーキテクチャである。認識されたコンセプトまたは状況を取り込み、かつ／または検知し、かつ／または収束し、そして装置を用いた相互主導型ユーザ対話により曖昧さ解消を行い、別言語を話す他者とのやり取りの際のユーザのコミュニケーション目標について推論を簡略化するという概念を本明細書で説明する。このアプローチにより、現在の注目点のコンセプトまたは状況あるいは注目点となりそうな確率分布に基づいてコミュニケーション目標について推論し、適切に選別した選択肢および、イメージ、記号、テキストおよび／または音声翻訳をユーザまたはユーザの話し相手に示して再考および／または認識させる。

推論は入力として、ユーザからの発話、または他の入力をコンセプト、状況、目標についての推論の根拠の一部として、および／または後者の曖昧さ解消の根拠の一部として、受け取ることができる。コミュニケーションの核心での質問、ニーズ、または意思に対するシステムの最良の理解または変更をユーザにエコーバックして確認させることができる。

システムによる推論はリスニングに基づいてコンテキストに影響を受ける認識および情報収集コンポーネントの焦点を絞ることができ、以前または現在のユーザの発話から認識した単語を利用して推論の焦点をさらに絞ることもできる。さらに、グラフィックおよび／または音声認識バックチャネルをユーザ入力、確認、および／または話し相手による指示に与えることができ、返答をより良く理解することができる。

本アーキテクチャは、コンテキストの重要手掛り、ユーザが注目しているコンセプト、ならびにユーザ入力およびガイダンスの特定を促進して、注目点に関するユーザの意図、ニーズおよび目標を推論し、次いで注目点およびコンテキストに基づいて発話候補の集合を構築する。これらは注目しているコンセプトを、必要ならばコンテキストも同様に潜在的に、適切な地点の言語に自動的にかみ合わせるために用いられる。それによってユーザは、発話、テキスト文字列、および／またはイメージを洗練させて外国語話者に中継することが可能となる。携帯装置は、他者が情報を入力または発話を選択してレスポンスを装置所有者に送り返すための手段を、随意に提供することができる。

それらの別態様においては、機械学習・推論コンポーネントを与える。この機械学習・推論コンポーネントは、確率的および／または統計的基準の分析を用いて、ユーザが自動実施を望む動作を予知または推論する。

前述および関連目標を実現するため、開示する発明の或る特定の例示的な態様を以下の説明および添付図面と関連させて説明する。しかしながら、これらの態様は本明細書で開示する原理を利用可能な様々な方法のうち少数を示すに過ぎず、上記態様およびそれらの等価物全てを含むよう意図されている。他の利点および新規特徴は、図面と関連させて考慮するとき以下の詳細な説明から明らかになるであろう。

図面を参照して本発明を説明する。図面において、同じ参照番号は全体に渡って同じ要素を参照する。以下の説明において、徹底的な理解が得られるべく、説明のため多数の具体的な詳細を示す。しかしながら、本発明をこれら具体的な詳細なしに実践できることは明らかであろう。他の事例では、既知の構造および装置をブロック図の形で示し、その説明を促進する。

本出願書で使用する際、用語「コンポーネント」および「システム」はコンピュータ関連の実体を指し、ハードウェア、ハードウェアおよびソフトウェアの組み合わせ、または実行中のソフトウェアのいずれかを指すよう意図している。例えば、コンポーネントはプロセッサ上で実行されているプロセス、プロセッサ、ハードディスクドライブ、（光学および／または磁気記憶媒体から成る）複数の記憶ドライブ、オブジェクト、実行可能ファイル、実行スレッド、プログラム、および／またはコンピュータであることができるがこれらに限らない。実例として、サーバ上で実行されているアプリケーションおよびサーバの両方はコンポーネントであることができる。１つまたは複数のコンポーネントはプロセスおよび／または実行スレッド内部にあることができ、コンポーネントを１つのコンピュータ上に配置することおよび／または複数のコンピュータ間で分散させることができる。

本明細書で使用する用語“推論する”または“推論”は一般に、イベントおよび／またはデータを通して取り込んだ観測結果の集合からシステム、環境、および／またはユーザの状態を推論するプロセスを指す。推論を使用して例えば、特定のコンテキストまたは行動を特定することができ、または状態の確率分布を生成することができる。推論は確率的、即ち、データおよびイベントの考慮に基づいて着目状態の確率分布の計算であることができる。推論は、イベントおよび／またはデータの集合から高レベルのイベントを構成するために用いる技術を指すこともできる。上記の推論の結果、イベントが緊密な時間的近接性で相関するか否かに関わらず、かつ、イベントおよびデータが１つまたは複数のイベントおよびデータソースに由来するか否かに関わらず、観測したイベントおよび／または記憶したイベントデータの集合から新しいイベントまたは行動が構築される。

図を最初に参照する。図１は、異言語のユーザ間での音声変換を促進するシステム１００を示す。開示する発明は、ユーザまたは異言語のユーザと対話し、彼らの間で音声翻訳を強化するアーキテクチャである。装置を用いた相互主導型ユーザ対話により、認識したコンセプトまたは状況に対して取り込みおよび／または検知および／または収束、および曖昧さ解消を行い、別言語を話す他者とのやり取りにおけるユーザのコミュニケーション目標について推論を簡略化するという概念を本明細書で説明する。このアプローチにより、現在の注目点におけるコンセプトまたは状況に基づいてコミュニケーション目標に関する推論を行い、適切に選別した選択肢および、テキストおよび／または音声翻訳をユーザに示して認識させる。

推論は入力としてユーザからの発話を、コンセプト、状況、目標の推論の根拠の一部として、および／または後者の曖昧さ解消の根拠の一部として、受け取ることができる。質問やニーズ、または意図に対するシステムの理解または変更をユーザにエコーバックして確認させることができる。

システムによる推論はリスニングに基づいて焦点を深化することができ、ユーザの発話から認識した単語を使用して推論の焦点をさらに絞ることもできる。さらに、グラフィックおよび／または音声認識バックチャネルを、話し相手によるユーザ入力、確認および／または指示のために示して、返答をより良く理解することができる。

従ってシステム１００は、現在のコンテキストおよび／またはコンセプトの検知データを処理し、かつ検知データに基づいて音声認識プロセスを促進する、適応型自動音声認識（ＡＳＲ：adaptive automatic speech recognition）コンポーネント１０２を含む。システム１００の履歴アクティビティコンポーネント１０４は、音声認識プロセスに関連する履歴データを記憶する。換言すれば、ユーザがシステムと対話すると、この対話データは将来の分析および推論の基礎としてデータストアに記憶される。システム１００はさらに言語機会コンポーネント１０６を含むことができる。言語機会コンポーネント１０６は、１つまたは複数の言葉のトレーニングセッションをユーザに強要することで音声認識プロセスを改善する。トレーニングセッションは将来の音声認識プロセス中に前記１つまたは複数の言葉を用いる際の成功確率を高める。

図２は異言語のユーザ間での音声翻訳を促進する方法を示す。説明を簡単にするため、本明細書で例えばフローチャートまたはフロー図の形で示した１つまたは複数の方法を一連の動作で図示および説明するが、本発明は動作順序により限定されず、一部の動作はそれに従って、本発明で図示および説明したものと異なる順序および／または他の動作と並行して行うことができることは理解され、認識されるべきである。例えば当業界の技術者は、方法を代替的に状態図のような相互に関連する一連の状態またはイベントとして表現できることを理解し、認識するであろう。さらに、図示した全ての動作が、本発明に従う方法を実装する必要はない。

２００で、ユーザの言語の音声を外国語に翻訳して外国語話者（ＦＬＳ：foreign language speaker）に認識させ、ＦＬＳの言語からユーザの言語へ戻す適応ＡＳＲコンポーネントを受け取る。２０２で、システムは検知入力データに基づいてコンテキストおよび／またはコンセプト情報を推論する。検知入力データにはユーザとＦＬＳとの間の音声通信が含まれるがこれに限らない。これはさらに例えばイメージ、位置情報、オーディオ情報、ジェスチャ認識、および検索情報を含むことができ、以下でより詳細に説明する。２０４でＡＳＲは、推論したコンテキストおよび／またはコンセプト情報に基づいて現在の音声認識プロセスを調整する。２０６で、システムは検知データ（例えば、音声）に基づいて現在の音声翻訳のやりとりの中で１つまたは複数の不正確性および曖昧さを検知する。２０８でシステムは、改善する処理を必要とする曖昧な単語および／または言葉に基づいて、単語および／または言葉のトレーニングおよび／または明確化をユーザおよび／またはＦＬＳに強要する。このトレーニングは解決結果を返す。２１０で、解決結果をＡＳＲにフィードバックし、現在の音声処理セッションで適応処理を行う。２１２で、将来のアクセスおよび推論処理のために、ユーザ／ＦＬＳの対話の解決結果と様子とを履歴データストアに記憶する。

図３は本発明の別態様に従う適応音声認識処理の方法を示す。３００で、適応ＡＳＲはユーザとＦＬＳとの間の音声翻訳セッションを処理し、検知入力データに基づいてコンテキストおよび／またはコンセプトを推論する。３０２で、システムは音声認識プロセス中に曖昧さを検出する。３０４で、システムはセッションに割り込む。３０６で、システムはユーザおよび／またはＦＬＳに曖昧でないデータの例を指示する。３０８で、システムはユーザおよび／またはＦＬＳの検知入力データを受信および処理する。これは音声および／または他の検知入力データの形であることができる。３１０で、システムは曖昧さが解決されたかどうかを決定する。解決された場合、３１２で、システムは音声認識プロセスをユーザおよび／またはＦＬＳのレスポンスに従って調整する。３１４で、レスポンスおよび／または検知入力データをこのユーザセッションに関連付けて記憶し、将来のアクセスおよび分析に用いる。３１２で曖昧さが解決されない場合、３１６に進み、システムは代替的な曖昧さのないデータを抽出する。フローはその後３０６に戻り、代替的なデータをユーザおよび／またはＦＬＳに提示する。このシステム／ユーザ／ＦＬＳの対話を、曖昧さが解決されるまで続けることができる。

図４は本発明の別態様に従う適応音声認識処理の代替方法を示す。４００で、適応ＡＳＲはユーザとＦＬＳとの間の音声翻訳セッションを処理し、コンテキストおよび／またはコンセプトを検知入力データに基づいて推論する。４０２で、システムは音声認識プロセス中に曖昧さを検出する。４０４で、システムはセッションに割り込み、ユーザおよび／またはＦＬＳに曖昧さを説明する。４０６でユーザおよび／またはＦＬＳは推奨する曖昧でないデータを返答する。４０８でシステムはユーザおよび／またはＦＬＳの検知入力データを受信および処理する。これは音声および／または他の検知入力データの形であることができる。４１０でシステムは曖昧さが解決されたか否かを判定する。解決された場合、４１２でシステムはユーザおよび／またはＦＬＳのレスポンスに従って音声認識プロセスを調整する。４１４で、レスポンスおよび／または検知入力データをこのユーザセッションに関連付けて記憶し、将来のアクセスおよび分析に用いる。４１２で曖昧さが解決されない場合、４１６に進み、ユーザおよび／またはＦＬＳは曖昧さのない代替データを入力する。フローはその後４０６に戻り、代替データをシステムに提示して処理する。このシステム／ユーザ／ＦＬＳの対話を、曖昧さが解決されるまで続けることができる。

図５は本発明の態様に従って、ユーザと対話してコンテキストおよび／またはコンセプトデータを確認する方法を示す。５００で、イメージ、音声、音、等を取り込んでその分析を実施しユーザコンテキストおよび／またはコンセプトを推論することができる検知システムを受け取る。５０２でユーザとＦＬＳとの間で通信を開始する。５０４で、システムは通信が正しく進んでいるかを判定する。正しく進んでいなければ５０６でシステムはコンテキストおよび／またはコンセプトデータの検知を開始する。５０８で、検知入力データを受信すると、検出入力データに基づいてコンテキストおよび／またはコンセプトを推論し、更なるコミュニケーション言葉を推論することができる。５１０でシステムはさらに、言葉の曖昧さの解決に用いるユーザフィードバックを要求すること、および／または要求なしにそのユーザフィードバックを受信することができる。５１２で、曖昧さが解決される場合、翻訳した言葉をＦＬＳに出力する。曖昧さが解決されない場合、５０６に再度戻り、コンテキストおよび／またはコンセプトの検知を実施し、曖昧さの解決を繰り返す。５１６でのチェックによりセッションが終了する場合、システムは翻訳プロセスを停止し、次のユーザ／ＦＬＳ入力を待機する。

しかしながら、セッションが終了しない場合は、フローは５１６から５１８に戻って通信を継続し、５０４に戻って新規入力に基づいて通信が成功したかを判定する。５０４で通信が正しく進むと、フローは５０４から５１６に進んで通信が完了したかを判定する。いずれの場合も、フローは上述のように進む。

図６は、別態様に従って、コンテキストの判定に基づいたユーザのコンセプトに関する推論を改善する手掛りとなる検知入力データの処理方法を示す。６００で、システムはユーザが注目しているユーザコンセプトの判定を開始する。これはユーザのコンセプトに関する推論を、ユーザおよび／またはＦＬＳの音声ならびにその言葉にのみ基づいて行うことを含むことができる。６０２で、システムは検知システムから検知したデータに基づいてコンテキストの判定を実施する。これはユーザの注視方向に関する検知データ、ジェスチャ認識、テキスト認識、等の分析を含むことができる。６０４で、検知入力データを処理して手掛りを求める。６０６でコンテキストの手掛りからコンセプトを推論する。

６０８で、システムは推論したコンセプトが正確かをチェックして判定する。ユーザに直接、または透過的に指示し、推論したコンセプトを適応ＡＳＲに使用することで、これを実施することができる。その結果は推論結果が十分に正確か否かを示すことができる。十分に正確ならば、６１０でコンセプトデータを処理して、適応ＡＳＲがコミュニケーションに使用する言葉を生じさせる。６１２で言葉を翻訳してＦＬＳに提示する。推論したコンセプトが正しいと判断されない場合、フローは６０８から６１４に進んでユーザのフィードバックを取得する。上記フィードバックは、検知システムコンポーネントのうちどれを次ラウンドのコンテキスト判定に使用できるかに影響する可能性がある。

図７は、本発明の態様に従って推論処理を促進するデータストアネットワーク７００を示す。ユーザおよび／またはＦＬＳは一般に、多数の分散データストア７０２（ＤＩＳＴＲＩＢＵＴＥＤ₁、ＤＩＳＴＲＩＢＵＴＥＤ₂、．．．、ＤＩＳＴＲＩＢＵＴＥＤ_Nで表す）のうち１つに関連する場所で対話する。例えば、本明細書で説明した履歴アクティビティ（例えば、曖昧さを解決するための装置プロンプトへのレスポンス、教育中のユーザの対話、等）を、ユーザとＦＬＳとの間の音声翻訳をその場所で促進する携帯無線装置（ＰＷＤ：portable wireless device）（図示せず）内などの対話場所に対して局在的に記憶することができる。これを、ＰＷＤの一部であり且つ自身に渡されるデータを記憶する第１の分散データストア７０４により表現することができる。最終的にその更新内容を、地域データストアでありうる中央データストア７０６にアップロードすることができる。この重要性の１つは、データストアシステム７００を利用する外国を第１のユーザが旅行するとき、他の分散データストア７０２を含む人気エリアの旅行により、これら他の場所でのコンテキストのやり取りで記録した第１のユーザデータのアップロードが促進されることである。これは第１ユーザの到着前にこれら場所において記憶した他のユーザ対話データを使用することも促進し、これらの場所における第１ユーザの翻訳経験をさらに強化する。

図８は本発明の音声翻訳処理に従って、分散および中央データベースを同期する方法を示す。８００で、ローカライズした分散データストアシステムと中央データストアシステムを受け取る。８０２で、第１のローカル分散データストアを、その場所でのユーザ行動に基づくユーザデータで更新する。これは音声、訪問場所、各場所でのユーザ行動、および音声、ジェスチャ、等を含むことができる。８０４で、データがローカルに記憶される際、および／または同期がシステムの帯域に及ぼす影響が最小である時点で、ユーザデータを分散データストアから中央データストアにアップロードする。８０６で、中央データストアは更新情報を他の分散データストアに同期し、訪問された場合にこれら場所でのユーザ翻訳経験を高めることができる。

図９はユーザ音素モデルおよびユーザ言語モデルを生成するための適応ＡＳＲのトレーニング方法を示す。９００でシステムおよび／またはユーザはトレーニングセッションを開始する。９０２で、システムはユーザに単語を話すよう指示する。これらの単語は、システムによる曖昧さ解決に重要であると思われる、例えばユーザの発音、イントネーション、語尾変化、等に起因する多数の側面を取り込むことができるように、システムによって選択される。９０４でシステムは話された単語を受信する。９０６で、システムは受信した単語を処理し、システムが以前に指示したものとそれらが一致するか否かを決定する。一致しない場合、フローは９０８に進み、システムはユーザに単語を繰り返すことを要求する。これは、要求した単語を話す際にシステムがユーザに割り込むことを含むことができる。９１０でチェックした際に単語が一致する場合、フローは９１２に進み、システムはユーザ情報を記録および記憶し、音素および／またはユーザ言語モデルを更新する。９０８で、一致するものがある場合、フローは９１２に進んで記憶および更新プロセスを実施する。ユーザによる２番目の発音が一致しない場合、９１０で、システムは例えば同一または同様な結果を実現する他の単語または言葉を用いて、満足な結果が得られるまで９０８に戻ってプロセスを繰り返すことができる。

図１０は、ユーザとＦＬＳの両方を利用した音声認識トレーニング方法を示す。１０００で、トレーニングセッションをユーザおよびＦＬＳの存在下で開始する。これはシステムが開始するかまたはユーザが開始することができる。１００２で、システムは１つまたは複数の所定の単語および／または文を話すようユーザに指示する。１００４で、システムは話された単語および／または文を処理し、それらをＦＬＳの言語に翻訳する。１００６で、システムは翻訳したデータをＦＬＳに出力する。これは機械発話信号、ディスプレイ上のテキストとしての表現、ならびに／またはオーディオおよびテキストの両方で行うことができる。１００８で、ＦＬＳは単語および／または文の正確性を確認するためにフィードバックを与える。１０１０で、どの場合でも、トレーニングセッションに関連付けられたデータがＡＳＲの分析および適応更新のために記憶され、将来の音声翻訳に用いられる。

図１１は、少なくとも２つの異言語ユーザ間で翻訳を促進する翻訳コンポーネントの例１１００の略ブロック図を示す。翻訳コンポーネント１１００は、少なくともユーザのコンテキスト１１０４および／またはユーザのコンセプトを表す検知入力データの検知、取り込み、および処理の使用可能性を促進する、検知システムサブコンポーネント１１０２を含む。そのサポートとして翻訳コンポーネント１１００は、通常、ユーザコンテキストおよび／またはコンセプトについての情報を収集するための複数の様々な検知サブシステムを表す、検知システムサブコンポーネント１１０２（または様式（modalities））を含む。例えば、イメージングコンポーネント（またはサブシステム）１１０６（例えば、カメラまたは撮像装置）を使用して、（コンテンツに沿った）メニュー、道路標識、またはユーザのコンセプトおよび／またはコンテキスト１１０４に関する手掛りを与えることができる任意の他の項目の、スナップショット写真を撮ることができる。ビデオコンポーネント１１０８（例えば、ビデオカメラ）はコンテキスト１１０４のビデオクリップの取り込みを促進する。その後、ビデオ処理を使用してユーザのコンセプトおよび／またはコンテキスト１１０４に関する手掛りを与えることができる。オーディオコンポーネント（例えば、マイクロフォンおよび付属電子機器）１１１０は、特定のコンテキスト１１０４にネイティブであることができるオーディオデータの記録を促進する。

音声コンポーネント１１１２はユーザまたは他者の音声を処理して認識する。従って、本コンポーネント１１１２は、入力音声言語の認識を促進する言語コンポーネントのライブラリ（図示せず）も含むことができる。上記音声を、誤りを含むかまたは含まずにテキストに変換することができる。光学認識コンポーネント（ＯＣＲ）１１１４は、例えばイメージコンポーネント１１０６およびビデオコンポーネント１１０８により取り込んだ画像化テキストを処理する。上述のように、ユーザはコンテキストおよびコンテンツに関する手掛りとなる様々なデータを取得することで翻訳の正確性を高めることができる。一例において、ユーザは道路標識、ビジネスサイン、メニューのスナップショットを取り、そのテキストを処理して理解可能な翻訳結果の成功確率を高めることができる。

検知サブシステム１１０２は検索コンポーネント１１１６も含むことができる。検索コンポーネント１１１６を手動または自動で起動して、コンテキストおよび／またはコンテンツの情報に関わるデータの検索を実施することができる。検索はローカルデータストア（図示せず）に記憶したデータの局所検索であることができる。代替的に、またはそれと組み合わせて、ネットワーク検索エンジンを利用して検索を無線および／有線の形態（例えば、インターネット）上で行うことができる。いずれの場合も、検索コンポーネント１１１６は、検知サブシステム１１０２の任意のコンポーネントからクエリ用の検索語を受信することができる。別の実装では、検知サブシステム１１０２のうち選択したものから出力データを受信および処理する別のサブシステム（図示せず）より、検索語を生成することができる。

検知サブシステム１１０２はジェスチャコンポーネント１１１８を含むこともできる。ジェスチャコンポーネント１１１８は、イメージングコンポーネント１１０６および／またはビデオコンポーネント１１０８により取り込んだユーザジェスチャの処理を促進する。ジェスチャ認識を利用して、例えば入力の認識、緊急度、および／または感情的な対話を強化することができる。位置コンポーネント１１２０はユーザの地理的位置の判定を促進する。本コンポーネント１１２０は全地球測位システム（ＧＰＳ）技術、および／またはＩＥＥＥ８０２．１１のような他の適切な三角測量技術、Ｗｉ−Ｆｉ信号、および上記のコンテキスト（状況）情報を含むことができる。上記のコンテキスト情報は、装置が移動中か否か（加速度計またはＧＰＳにより検出）、装置近傍の大気温度、会話が検出されたか否か、他の人々が１つまたは複数の技術を通して認識または特定されたか否か、等に関する。または、位置コンポーネント１１２０は１つまたは複数の他の検知サブシステム１１０２と協力して機能し、ユーザの位置を抽出することができる。例えば、イメージングコンポーネント１１０６のイメージ処理、ＯＣＲコンポーネント１１１４のＯＣＲ出力、および検索コンポーネント１１１６の結果に基づいて、場所がＸであることを或る程度の成功確率で推定することができる。

翻訳コンポーネント１１００は推論コンポーネント１１２２を含むこともできる。推論コンポーネント１１２２は、検知システム１１０２からの検知データを処理して、可能性のある手掛りを導出し、ユーザのコンセプトおよび／またはコンテキスト１１０４に関する推論を展開および生成することができる。翻訳コンポーネント１１００は音素モデルコンポーネント１１２４も含むことができる。音素モデルコンポーネント１１２４は言語交換中にユーザおよび／またはＦＬＳの音声の特徴を記憶および更新する。さらに、ユーザに対してカスタマイズされ、任意の所与の状況および／または位置に関してユーザ言語を定義するユーザ言語モデルコンポーネント１１２６を生成する。最終的には、翻訳コンポーネント１１００はユーザとＦＬＳとの間で単語、言葉、語句および／または文の理解可能な翻訳を促進する。

図１２を参照する。別態様に従うシミュレータ教育を使用するシステム１２００を示してある。このアーキテクチャは本発明の別態様において、ユーザに外国語の教育を提供するシミュレーションコンポーネント１２０２を使用することができる。シミュレーションコンポーネント１２０２は適応ＡＳＲコンポーネント１０２、履歴アクティビティコンポーネント１０４、およびプッシュ型言語機会コンポーネント１０６のうち任意のものと相互作用し、協調して動作することができる。シミュレーションコンポーネント１２０２は、指示される言葉、単語、語句、および／または文を外国語で話すことをユーザの言語でユーザに指示するように動作し、それに応じてユーザは対応する翻訳を外国語で発話する。システム１２００は次いでユーザのレスポンスを処理し、ユーザの教育プロセスの一部として、イントネーション、単語の使い方、文の構造、等における変更点を提示することができる。

これは、ユーザトレーニングを実施可能な多数の様々なシナリオのうちの一例に過ぎない。例えば、シミュレーションコンポーネント１２０２はユーザがそのユーザの言語で翻訳を提供することに応じて、そのユーザに外国語で指示することができる。別の例では、シミュレーションコンポーネント１２０２はユーザが同一の言葉、語句、および／または文を外国語で話すことに応じて、システムが出力した言葉、語句、および／または文を外国語で繰り返すようユーザに指示する。システム１２００は次いでユーザの音声を分析し、正確な話し言葉の外国語をより良く反映する補正をイントネーション、強調、語尾変化、等の形で提示する。上記の教育データを次いで履歴データストア上に記憶し、ユーザ音素および言語モデルのさらなる発展に使用し、ユーザによる将来の翻訳交換に使用することができる。

図１３は別態様に従ってユーザに外国語を教育する方法を示す。１３００で、シミュレータトレーニングを開始する。これはユーザにより手動で開始するか、またはシステムにより自動で開始することができる。１３０２で、初めてのユーザの場合、システムは自身を訓練してユーザの音声の特徴を学習し、個別のユーザ音素および言語モデルを開発する。１３０４で、システムはユーザに単語、単語の集合、語句、および／または文を発するよう指示する。１３０６で、システムは少なくともユーザ音素および言語モデルに照らしてユーザのレスポンスを受信および処理する。１３０８で、システムは任意の誤り、曖昧さおよび不正確さを計算し、これらをユーザとの往復の音声認識で解決する。１３１０で、或るユーザ学習セッションにおいて、システムは（例えば、機械発話信号、テキストによる表示、および／またはその両方を通して）ユーザに翻訳を提供して認識させる。別の言語セッションでは、システムはユーザが対応する外国語翻訳で応答することを要求する。１３１２で、システムはユーザの翻訳の正確性に関してユーザにフィードバックを与える。

図１４は、本発明に従って１つまたは複数の特徴の自動化を促進する機械学習・推論（ＭＬＲ：machine learning and reasoning）コンポーネント１４０２を使用するシステム１４００を示す。本発明は（例えば選択と関連して）人工知能を基板とする多様な理論体系を使用して、様々な態様を実行することができる。例えば、システムおよび／またはユーザトレーニングにおいてどの言葉、言葉の集合、語句、および／または文を使用すべきかを決定するプロセスを、自動分類システムおよびプロセスを通して促進することができる。

分類子は、入力属性ベクトルｘ＝（ｘ１，ｘ２，ｘ３，ｘ４，ｘｎ）をクラスラベルｃｌａｓｓ（ｘ）にマップする関数である。分類子は、入力がクラスに属すること、即ちｆ（ｘ）＝ｃｏｎｆｉｄｅｎｃｅ（ｃｌａｓｓ（ｘ））であることの確信性（confidence）を出力することもできる。上記の分類は確率的および／または統計ベースの分析（例えば、分析ユーティリティおよびコストへの分解）を使用して、ユーザが自動実施を望む動作の予知または推論を行うことができる。

サポートベクトルマシン（ＳＶＭ：support vector machine）は使用可能な分類子の例である。ＳＶＭは可能な入力の空間の中で、トリガ入力イベントを非トリガイベントから最適な方法で分離する超平面を見つけることで動作する。直感的に、これによりトレーニングデータに同一ではないが近似したテストデータを正しく分類できる。他の有向および無向モデルの分類アプローチには例えば、ナイーブベイズ、ベイジアンネットワーク、決定木、ニューラルネットワーク、ファジーロジックモデルが含まれ、様々なパターンの独立性を与える確率的分類モデルを使用することができる。本明細書で用いる分類には、優先度モデルの開発に利用する統計的回帰も含まれる。

本明細書から容易に理解できるように、本発明は（例えば一般的なトレーニングデータを通して）明示的に訓練し、且つ（例えばユーザの振る舞いの観察、外部情報の受信を通して）暗示的に訓練した分類子を使用することができる。例えば、ＳＶＭは、分類子コンストラクタおよび特徴選択モジュール内部の学習またはトレーニング段階を通して構成される。従って、分類子を使用して多数の機能を自動的に学習および実施することができる。

適応ＡＳＲコンポーネント１０２、履歴アクティビティコンポーネント１０４およびプッシュ型機会言語コンポーネント１０６と相互作用する方法として、自動学習および実施は、ユーザが発した単語または言葉が正確または曖昧であると思われる時点を所定基準に従って判定することを含むが、これに限らない。別の例においてＭＬＲコンポーネント１４０２は、話し言葉の外国語として所望の正確度レベルに達するために所与のユーザに対して何回対話を繰り返すべきかの判定を促進することができる。これらは、ＭＬＲコンポーネント１４０２を通して学習および自動的に実施可能な多数の特徴のうちの少数に過ぎない。

図１５は、本発明の態様に従って翻訳を促進するＰＷＤ１５００（例えば、携帯電話）の略ブロック図を示す。装置１５００には、データおよび命令の制御および処理を行う１つまたは複数の内部コンポーネントと相互作用するプロセッサ１５０２が含まれる。プロセッサ１５０２がプログラムされ、装置１５００内部の様々なコンポーネントを制御しかつ動作して本明細書で説明した様々な機能を実行させることができる。プロセッサ１５０２は複数の適切なプロセッサ（例えば、ＤＳＰ-デジタル信号プロセッサ）のうち任意のものであることができ、またマルチプロセッササブシステムであってもよい。

メモリおよび記憶コンポーネント１５０４はプロセッサ１５０２とインタフェースで連結し、プログラムコードを記憶し、さらにデータ、アプリケーション、サービス、メタデータ、装置の状態、等のような情報の記憶手段として機能する。メモリおよび記憶コンポーネント１５０４は、検知サブシステムおよび／またはセンサから取得した検知入力データの完全なセットを少なくとも記憶するよう適切に調整した不揮発性メモリを含むことができる。従って、メモリ１５０４はプロセッサ１５０２および／または大容量記憶メモリによる高速アクセス向けのＲＡＭまたはフラッシュメモリを含むことができる。大容量記憶メモリには、例えばテキスト、イメージ、オーディオおよび／またはビデオコンテンツを備えるギガバイトのデータを記憶可能なマイクロドライブがある。一態様によると、メモリ１５０４は様々なサービスに関わる情報の複数集合を記憶するのに十分な記憶容量を有し、プロセッサ１５０２は前記様々なサービスに対応する様々な情報集合間での交換または循環を促進するプログラムを含むことができる。

ディスプレイドライバサブシステム１５０８を通してディスプレイ１５０６をプロセッサ１５０２に接続することができる。ディスプレイ１５０６はカラー液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、タッチスクリーンディスプレイ、等であることができる。ディスプレイ１５０６はデータ、グラフィック、または他の情報コンテンツを提示するよう機能する。さらに、ディスプレイ１５０６は、ユーザが選択可能で、且つ装置１５００の制御および構成を担う様々な機能を提示することができる。タッチスクリーンの例では、ディスプレイ１５０６は接触選択型のアイコンを表示して、ユーザの相互作用で制御および／または構成を促進することができる。

オンボード電力システム１５１０（例えば、バッテリパックまたは燃料電池）により、プロセッサ１５０２および、装置１５００を形成する他のオンボードコンポーネントに電力を供給することができる。電力システム１５１０が故障するかまたは装置１５００から切断される場合、代替電力源１５１２を使用してプロセッサ１５０２および他のコンポーネント（例えば、センサ、画像取り込み装置、等）に電力を供給することができ、またオンボード電力システム１５１０が充電可能な技術であればそれを充電することができる。例えば、代替電力源１５１２は電力変換器を通して外部グリッド接続との連結を促進することができる。プロセッサ１５０２を構成して電力管理サービスを提供し、例えば、電流引き込みを削減するスリープモードを誘導すること、および予期した電源障害の検知時に装置１５００の順序立ったシャットダウンを開始することができる。

装置１５００はデータ通信ポート１５１６を有するデータ通信サブシステム１５１４を含む。ポート１５１６を使用して、装置１５００をリモートコンピューティングシステム、サーバ、サービス、等にインタフェースで接続する。ポート１５１６は、ユニバーサルシリアルバス（ＵＳＢ）および／またはＩＥＥＥ１３９４のような、シリアル通信能力を与える１つまたは複数のシリアルインタフェースを含むことができる。他の技術、例えば赤外線通信ポートを利用する赤外線通信、および無線パケット通信（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ、およびＷｉ−Ｍａｘ）も含めることができるが、これらに限らない。スマートフォンの場合、データ通信サブシステム１５１４は携帯電話の登録およびネットワーク通信に必要なＳＩＭ（加入者識別モジュール）のデータおよび情報を含むことができる。

装置１５００はプロセッサ１５０２との有効な通信に無線周波数（ＲＦ）トランシーバ部１５１８を含むこともできる。ＲＦ部１５１８はＲＦレシーバ１５２０を含み、ＲＦレシーバ１５２０はアンテナ１５２２を通してリモート装置またはシステムからＲＦ信号を受信し、信号を復調してデジタル信号をその中に変調した形で取得する。ＲＦ部１５１８はＲＦトランスミッタ１５２４も含む。ＲＦトランスミッタ１５２４は、例えば、ユーザ入力装置１５２６（例えば、キーパッド）を介した手動のユーザ入力に応じて、あるいは通信範囲への侵入検知および／または通信範囲からの退場予測または他の所定基準およびプログラムされた基準に応じて自動的に、情報（例えば、データ、サービス）をリモート装置またはシステムに送信する。

装置１５００はオーディオ入出力サブシステム１５２８も含むことができる。オーディオ入出力サブシステム１５２８は、プロセッサ１５０２により制御され、マイクロフォンまたは同様なオーディオ入力装置（図示せず）からの音声入力を処理する。オーディオサブシステム１５２８はさらに、スピーカまたは同様のオーディオ出力装置（図示せず）を通して音声およびオーディオ出力信号の提示を促進する。

装置１５００は認証コンポーネント１５３０も含むことができる。認証コンポーネント１５３０はプロセッサとインタフェースで接続し、装置自身および／またはリモートシステムに対するユーザ認証を促進する。プロセッサ１５０２は検知サブシステムブロック１５３２ともインタフェースで接続する。検知サブシステムブロック１５３２は例えば、ＯＣＲデータ、音声データ、手書きデータ、およびイメージ／ビデオデータの取り込みおよび入力を促進して、ユーザのコンテキストおよび／またはコンセプトを判定する。さらに、装置１５００は１つまたは複数のアプリケーション１５３４（例えば、イメージングプログラム、ビデオ提示プログラム、ＯＣＲプログラム、検索エンジン、等）を含む。本発明のアーキテクチャに従ってアプリケーション１５３４を起動し、検知システムの動作を有効化して検知入力データを受信することができる。アプリケーションは、音素および言語モデルの作成および更新、ならびに推論分析および選択を行うプログラムを含むこともできる。

装置１５００は物理インタフェースサブシステム１５３６も含むことができる。物理インタフェースサブシステム１５３６により、別システムに対して無線通信またはケーブル通信ではなく、（例えばコネクタを通して）直接的な物理接続が可能となる。

図１６は、態様に従うユーザとＦＬＳ受信者との間の装置間翻訳システムを示す。ユーザ１６０２は（本発明の翻訳アーキテクチャを含む）携帯無線装置（ＰＷＤ）１６０４を利用して、（本発明の翻訳アーキテクチャも含む）受信装置１６０８を通してＦＬＳ受信者１６０６と無線で通信する。ユーザ１６０２はユーザＰＷＤ１６０４に音声信号を入力する。音声信号を翻訳出力に処理し、無線で受信装置１６０８に通信する。受信装置１６０８はユーザの音声をユーザのテキストに変換する。ユーザのテキストを受信装置１６０８上に表示し、かつ／または翻訳したユーザの音声として受信者１６０６に出力することができる。同様に、ユーザ装置１６０４は受信者の音声を受信者のテキストに変換する。受信者のテキストをユーザ装置１６０４上に表示し、および／または翻訳した受信者の音声としてユーザ１６０２に出力することができる。

ユーザ１６０２および受信者１６０６の両方がほぼ同一のコンテキストに位置する場合、装置１６０４または／および１６０８のいずれかまたは両方は上述のコンテキストおよび／またはコンセプトの処理を実施して翻訳を強化することができる。このように、装置１６０４または／および１６０８のいずれかまたは両方の様式１６１０および１６１２をそれぞれ、所望の翻訳を生成するために使用することができる。

図１７は、本発明の別態様に従って、ユーザとＦＬＳ受信者との間で利用可能な単一装置翻訳システム１７００を示す。ユーザ１７０２およびＦＬＳ受信者１７０４は、例えば面と向き合ってはいるが、効率的に意思疎通できない。ユーザは装置１７０６に話し、装置１７０６はユーザの音声を処理して、受信者１７０４が解釈および理解可能なテキスト、記号、および／または他の媒体（例えば、イメージ、音、ビデオ、等）にする。テキスト、記号、および／または他の媒体を、テキストはユーザの言語および受信者の言語の両方で、装置１７０６上に表示することができる。例えば受信者が読み書きできない場合に、非テキスト媒体（例えば、記号、イメージ、音、ビデオ）を使用することができる。テキストまたは音声を説明の例で用いるときは常に、これは当事者間で何らかの形で出力または通信可能な記号および／あるいは他の媒体を含むことも同様に可能であることは本発明との関連で理解されるべきである。代替的に、またはそれと組み合わせて、ユーザの音声を受信者１７０４に翻訳したユーザの音声として提示することができる。同様に、装置１７０４は受信者の音声を受信者のテキストに翻訳し、そのテキストを装置１７０４上に表示すること、および／または翻訳した受信者の音声としてユーザ１７０２に出力することができる。装置１７０６はさらに、検知コンポーネント１７０８の形の様式も含む。本発明の態様に従って、検知コンポーネント１７０８の１つまたは複数を装置１７０４内に提供し、翻訳の改善を促進することができる。

図１８を参照する。開示した翻訳アーキテクチャを実行するべく動作可能なコンピュータのブロック図を示してある。さらに、コンピュータは上述のローカルな分散データストアおよび／または中央データストアシステムの役割を果たすことができる。それらの様々な態様に対してコンテキストを追加するため、図１８および以下の説明は、本発明の様々な態様の実施に適したコンピューティング環境１８００の簡潔で一般的な説明を与えることを意図している。１つまたは複数のコンピュータ上で実行可能なコンピュータ実行可能命令の一般的なコンテキストで上述の説明は行われるが、当業界の技術者は本発明を他のプログラムモジュールと組み合わせて、および／またはハードウェアおよびソフトウェアの組合せとして実施することもできることを理解するであろう。

一般に、プログラムモジュールは特定のタスクを実施するかまたは特定の抽象データ型を実装するルーチン、プログラム、コンポーネント、データ構造、等を含む。さらに、当業界の技術者は本発明の方法を他のコンピュータシステム構成で実践できることを理解するであろう。そのコンピュータシステム構成には、単一プロセッサまたはマルチプロセッサのコンピュータシステム、ミニコンピュータ、メインフレームコンピュータ、およびパーソナルコンピュータ、ハンドヘルドコンピューティングデバイス、マイクロプロセッサベースまたはプログラム可能な消費家電、等が含まれ、それらの各々を１つまたは複数の関連装置に動作可能に接続することができる。

本発明の例示的な態様を、通信ネットワークを通して接続したリモート処理装置により一定のタスクを実施する分散コンピューティング環境で実践してもよい。分散コンピューティング環境では、プログラムモジュールをローカルおよびリモートのメモリ記憶装置内に置くことができる。

コンピュータは一般に様々なコンピュータ可読媒体を含む。コンピュータ可読媒体はコンピュータがアクセス可能な任意の有効な媒体であることができ、揮発性および不揮発性媒体、取り外し可能および取り外し不能媒体の両方を含む。限定ではなく例として、コンピュータ可読媒体はコンピュータ記憶媒体と通信媒体とを備えることができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータのような情報を記憶する任意の方法または技術で実装した、揮発性および不揮発性、取り外し可能および取り外し不能媒体の両方を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタルビデオディスク（ＤＶＤ）または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、あるいは所望の情報を記憶するのに使用可能で且つコンピュータがアクセス可能な任意の他の媒体を含むがこれらに限らない。

通信媒体は一般にコンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータを搬送波または他の伝送メカニズムのような変調データ信号で具現化し、任意の情報配信媒体を含む。用語「変調データ信号」は、１つまたは複数の特性集合を有するかまたは信号内の情報を符号化するように変化した信号を意味する。限定ではなく例として、通信媒体は有線ネットワークまたは直接配線接続のような有線媒体、ならびに音響、ＲＦ、赤外線のような無線媒体、および他の無線媒体を含む。上記の任意の組合せもコンピュータ可読媒体の範囲に含まれるべきである。

図１８を再度参照する。様々な態様を実装する例示的な環境１８００はコンピュータ１８０２を含む。コンピュータ１８０２は処理ユニット１８０４、システムメモリ１８０６およびシステムバス１８０８を含む。システムバス１８０８はシステムコンポーネントを処理ユニット１８０４に接続する。システムコンポーネントはシステムメモリ１８０６を含むがこれに限らない。処理ユニット１８０４は様々な商業的に入手可能なプロセッサのうち任意のものであることができる。デュアルマイクロプロセッサおよび他のマルチプロセッサアーキテクチャを処理ユニット１８０４として使用してもよい。

システムバス１８０８は、（メモリコントローラを有するかまたは有さない）メモリバス、周辺バス、様々な商業的に入手可能なバスアーキテクチャのうち任意のものを用いるローカルバス、に対してさらに相互接続可能な数種のバス構造のうち任意のものであることができる。システムメモリ１８０６は読取専用メモリ（ＲＯＭ）１８１０およびランダムアクセスメモリ（ＲＡＭ）１８１２を含む。基本入出力システム（ＢＩＯＳ）はＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭのような不揮発性メモリ１８１０に記憶される。ＢＩＯＳは、例えば起動時にコンピュータ１８０２内の要素間での情報転送を支援する基本ルーチンを含む。ＲＡＭ１８１２はデータをキャッシュするスタティックＲＡＭのような高速ＲＡＭを含むこともできる。

コンピュータ１８０２はさらに内部ハードディスクドライブ（ＨＤＤ）１８１４（例えば、ＥＩＤＥ、ＳＡＴＡ）を含む。内部ハードディスクドライブ１８１４はまた、適切な筐体（図示せず）や（例えば、取り外し可能ディスケット１８１８を読み書きするための）磁気フロッピーディスク（登録商標）ドライブ（ＦＤＤ）および（ＣＤ−ＲＯＭディスク１８２２を読み出し、またはＤＶＤのような他の大容量光媒体を読み書きするための）光ディスクドライブ１８２０で外部的に使用するよう構成してもよい。ハードディスクドライブ１８１４、磁気ディスクドライブ１８１６および光ディスクドライブ１８２０を、それぞれハードディスクドライブインタフェース１８２４、磁気ディスクドライブインタフェース１８２６および光ドライブインタフェース１８２８によりシステムバス１８０８に接続することができる。外部ドライブ実装向けのインタフェース１８２４は、ユニバーサルシリアルバス（ＵＳＢ）およびＩＥＥＥ１３９４インタフェース技術のうち少なくとも１つまたは両方を含む。本発明では他の外部ドライブ接続技術も範囲に含まれる。

ドライブおよびその関連コンピュータ可読媒体はデータ、データ構造、コンピュータ実行可能命令、等の不揮発性記憶装置を供給する。コンピュータ１８０２に対して、ドライブおよび媒体は任意のデータを適切なデジタル形式で記憶する。上述のコンピュータ可読媒体の説明はＨＤＤ、リムーバブル磁気ディスケット、およびＣＤまたはＤＶＤのようなリムーバブル光媒体を指すが、当業界の技術者は、ジップドライブ、磁気カセット、フラッシュメモリカード、カートリッジ、等のようなコンピュータが可読な他種の媒体を動作環境の例で使用すること、およびさらに、任意の上記媒体は開示した本発明の方法を実施するコンピュータ実行可能命令を含みうることを理解するべきである。

多数のプログラムモジュールをドライブおよびＲＡＭ１８１２に記憶することができる。そのプログラムモジュールには、オペレーティングシステム１８３０、１つまたは複数のアプリケーションプログラム１８３２、他のプログラムモジュール１８３４およびプログラムデータ１８３６が含まれる。オペレーティングシステム、アプリケーション、モジュールおよび／またはデータの全てまたは一部をＲＡＭ１８１２にキャッシュすることもできる。本発明を様々な商用的に利用可能なオペレーティングシステムまたはオペレーティングシステムの組合せで実装できることは理解されるべきである。

ユーザは、例えばキーボード１８３８およびマウス１８４０のようなポインティングデバイスといった１つまたは複数の有線／無線入力装置を通してコンピュータ１８０２に命令および情報を入力することができる。他の入力装置（図示せず）はマイクロフォン、ＩＲリモートコントロール、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーン、等を含むことができる。これらおよび他の装置を、システムバス１８０８に接続される入力装置インタフェース１８４２を通して処理ユニット１８０４に接続することがよくあるが、パラレルポート、ＩＥＥＥ１３９４シリアルポート、ゲームポート、ＵＳＢポート、ＩＲインタフェース、等のような他のインタフェースで接続することもできる。

モニタ１８４４または他種の表示装置もビデオアダプタ１８４６のようなインタフェースを介してシステムバス１８０８に接続する。モニタ１８４４に加えて、コンピュータは一般にスピーカ、プリンタ、等の他の周辺出力装置（図示せず）を含む。

コンピュータ１８０２は、リモートコンピュータ１８４８のような１つまたは複数のリモートコンピュータに対する有線および／または無線通信を通した論理接続を用いて、ネットワーク環境で動作することができる。リモートコンピュータ１８４８はワークステーション、サーバコンピュータ、ルータ、パーソナルコンピュータ、ポータブルコンピュータ、マイクロプロセッサベースの娯楽機器、ピアデバイスまたは他の共通ネットワークノードであることができ、一般にコンピュータ１８０２に対して説明した要素の多くまたは全てを含むが、略してメモリ／記憶装置１８５０のみを示してある。示した論理接続は、ローカルエリアネットワーク（ＬＡＮ）１８５２および／または広域ネットワーク（ＷＡＮ）１８５４のようなより大きなネットワークに対する、有線／無線接続性を含む。上記のＬＡＮおよびＷＡＮネットワーク環境は職場および企業内で一般的であり、イントラネットのような企業規模のコンピュータネットワークを円滑にする。それらの全てをインターネットのようなグローバル通信ネットワークに接続してもよい。

ＬＡＮネットワーク環境で使用するとき、コンピュータ１８０２は有線および／または無線通信ネットワークインタフェースまたはアダプタ１８５６を通してローカルネットワーク１８５２に接続する。アダプタ１８５６はＬＡＮ１８５２に対する有線または無線通信を促進することができ、無線アダプタ１８５６と通信するために自身の上に配置した無線アクセスポイントを含むことができる。

ＷＡＮネットワーク環境で使用するとき、コンピュータ１８０２はモデム１８５８を含むことができ、またはＷＡＮ１８５４上で通信サーバに接続され、または例えばインターネットのようなＷＡＮ１８５４上で通信を確立する他の手段を有する。モデム１８５８は、内部または外部であるか、有線または無線装置であるかに関わらず、シリアルポートインタフェース１８４２を通してシステムバス１８０８に接続される。ネットワーク環境では、コンピュータ１８０２に対して相対的に示したプログラムモジュール、またはその一部をリモートメモリ／記憶装置１８５０に記憶することができる。示したネットワーク接続は例であって、コンピュータ間の通信リンクを確立する他の手段を使用できることは理解されるであろう。

コンピュータ１８０２は無線通信内に動作可能に配置した、例えばプリンタ、スキャナ、デスクトップおよび／またはポータブルコンピュータ、ポータブルデータアシスタント、通信衛星、無線で検出可能なタグに関連する装置または位置（例えば、キオスク、新聞売店、トイレ）の任意の部分および電話などの、任意の無線装置またはエンティティと通信するよう動作可能である。これは少なくともＷｉ−ＦｉおよびＢｌｕｅｔｏｏｔｈ（登録商標）無線技術を含む。従って通信は、従来のネットワークと同様に予め定義した構造であるか、または単に少なくとも２つの装置間でのアドホック通信であることができる。

Ｗｉ−Ｆｉ、またはワイヤレスフィデリティにより、家のソファ、ホテルの部屋のベッド、または職場の会議室から無線でインターネット接続が可能となる。Ｗｉ−Ｆｉは、基地局の範囲内である任意の場所でコンピュータのような装置がデータを屋内および屋外で送受信できる携帯電話において用いられるものと同様な無線技術である。Ｗｉ−ＦｉネットワークはＩＥＥＥ８０２．１１（ａ，ｂ，ｇ、等）と呼ばれる無線技術を使用して安全で、信頼性があり、高速な無線接続性を提供する。Ｗｉ−Ｆｉネットワークを使用して、コンピュータを互いに接続すること、インターネット、および（ＩＥＥＥ８０２．３またはイーサネットを用いる）有線ネットワークに接続することができる。Ｗｉ−Ｆｉネットワークは例えば、無許可の２．４および５ＧＨｚ無線帯で１１Ｍｂｐｓ（８０２．１１ａ）または５４Ｍｂｐｓ（８０２．１１ｂ）データ転送速度で動作し、または両方の帯域（デュアルバンド）を含む製品とともに動作し、その結果ネットワークは多数の職場で用いられるベーシック１０ＢａｓｅＴの有線イーサネットのネットワークと同様な実際の性能を与えることができる。

図１９を参照する。別態様に従って、音声翻訳を促進するコンピューティング環境の例１９００の略ブロック図を示してある。システム１９００は１つまたは複数のクライアント１９０２（例えば、音声入出力用のＰＷＤ）を含む。クライアント１９０２はハードウェアおよび／またはソフトウェア（例えば、スレッド、プロセス、コンピューティングデバイス）であることができる。クライアント１９０２は例えば、本発明を使用することでクッキーおよび／または関連するコンテキスト情報を記憶することができる。

システム１９００は１つまたは複数のサーバ１９０４（例えば、ローカル分散データストアサーバおよび／または中央データストアサーバ）も含む。サーバ１９０４はハードウェアおよび／またはソフトウェア（例えば、スレッド、プロセス、コンピューティングデバイス）であることもできる。サーバ１９０４は例えば、本発明の使用により変換を実施するスレッドを保管することができる。クライアント１９０２とサーバ１９０４との間で可能な通信の１つは、複数のコンピュータプロセス間で送信するよう調整したデータパケットの形であることができる。データパケットは例えば、クッキーおよび／または関連するコンテキスト情報を含むことができる。システム１９００は、クライアント１９０２とサーバ１９０４との間の通信の円滑化に使用可能な通信フレームワーク１９０６（例えば、インターネットのようなグローバル通信ネットワーク）を含む。

通信を有線（光ファイバを含む）および／または無線技術を通して促進することができる。クライアント１９０２は、クライアント１９０２に局所的な情報（例えば、クッキーおよび／または関連するコンテキスト情報）の記憶に使用可能な１つまたは複数のクライアントデータストア１９０８に動作可能に接続する。同様に、サーバ１９０４は、サーバ１９０４に局所的な情報の記憶に使用可能な１つまたは複数のサーバデータストア１９１０に動作可能に接続する。

上述したことは開示した本発明の例を含む。もちろん、構成要素および／または方法の考えうる組合せ全てを説明することは不可能であるが、同業者はさらに多数の組合せおよび配置が可能であることを認識するであろう。従って、本発明は添付請求項の精神および範囲内にある上記変更、修正および変形の全てを包含するよう意図している。さらに、用語“含む”が明細書または請求項のいずれかで使用される範囲では、上記用語“含む”は、請求項の中で“備える”を暫定的な語として用いる際に解釈される“備える”と同様に包含的であるものとする。

異言語ユーザ間での音声翻訳を促進するシステムを示す。異言語ユーザ間での音声翻訳を促進する方法を示す。本発明の別態様における適応音声認識処理の方法を示す。本発明の別態様における適応音声認識処理の代替方法である。本発明の態様において、ユーザと対話してコンテキストおよび／またはコンセプトデータを確認する方法を示す。別態様において、コンテキストの決定に基づいたユーザのコンセプトに関する推論を改善する手掛りとなる検知入力データの処理方法を示す。本発明の態様において推論処理を促進するデータストアネットワークを示す。本発明の音声翻訳処理において、分散および中央データベースを同期する方法を示す。ユーザ音素モデルおよびユーザ言語モデルを生成するための適応ＡＳＲのトレーニング方法を示す。ユーザとＦＬＳの両方を利用した音声認識トレーニング方法を示す。少なくとも２人の異言語ユーザ間で翻訳を促進する例示的な翻訳コンポーネント１１００の略ブロック図である。別態様においてシミュレータ教育を使用するシステムを示す。別態様においてユーザに外国語を教える方法を示す。本発明において１つまたは複数の特徴の自動化を促進する機械学習・推論コンポーネントを使用するシステムを示す。本発明の態様において翻訳を促進する携帯無線装置の略ブロック図である。態様における、ユーザとＦＬＳ受信者との間の装置間翻訳システムを示す。本発明の別態様における、ユーザとＦＬＳ受信者との間で利用可能な単一装置翻訳システムを示す。開示した翻訳アーキテクチャを実行するよう動作可能なコンピュータのブロック図である。別態様における、音声翻訳を促進するコンピューティング環境の例の略ブロック図である。

Claims

音声翻訳を促進するシステムであって、
現在のコンテキストの検知データを処理し、前記検知データに基づいて音声認識プロセスを促進する音声認識コンポーネントと、
前記音声認識プロセスに関連付けられた履歴データを記憶する履歴アクティビティコンポーネントと、
１つまたは複数の言葉のトレーニングセッションをユーザに強要することで前記音声認識プロセスを改善する言語機会コンポーネントであって、前記トレーニングセッションは、前記音声認識プロセス中に前記１つまたは複数の言葉を使用する際の成功確率を高めることを特徴とする言語機会コンポーネントと
を備えることを特徴とするシステム。
マイクロフォン、イメージキャプチャサブシステム、および位置サブシステムのうち少なくとも１つを含み、かつ、それらを表す検知データを出力する検知システムをさらに備えることを特徴とする請求項１に記載のシステム。
前記ユーザに要求を強要して曖昧さを解決する機会コンポーネントをさらに備えることを特徴とする請求項１に記載のシステム。
前記ユーザの音声認識用に作成された言語モデルをさらに備えることを特徴とする請求項１に記載のシステム。
前記言語モデルに基づいて前記ユーザを理解する音素モジュールをさらに備えることを特徴とする請求項４に記載のシステム。
外国語の話し方についてユーザをトレーニングすることに用いるシミュレータコンポーネントをさらに備えることを特徴とする請求項１に記載のシステム。
前記シミュレータコンポーネントはユーザの言語で前記ユーザに指示し、対応する外国語翻訳を出力することを特徴とする請求項６に記載のシステム。
前記履歴アクティビティコンポーネントはユーザデータの中央データストアおよびローカルユーザデータのローカルデータストアのうち少なくとも１つを含むことを特徴とする請求項１に記載のシステム。
前記音声認識コンポーネントは自動的且つ適応的であることを特徴とする請求項１に記載のシステム。
ユーザが自動実施を望む動作を確率的および／または統計的基準の分析を用いて予知または推論する機械学習・推論コンポーネントをさらに備えることを特徴とする請求項１に記載のシステム。
請求項１に記載のシステムを実行するコンピュータ実行可能命令を記憶したコンピュータ可読媒体。
請求項１に記載のシステムを使用するポータブルコンピューティングデバイス。
請求項１に記載のシステムを使用するサーバ。
異言語のユーザ間で音声翻訳を促進するコンピュータ実装される方法であって、
音声認識プロセス中にユーザの音声信号を受信するステップと、
前記音声信号の分析に基づいて、ユーザコンセプトおよびユーザコンテキストのうち少なくとも１つの推論を計算するステップと、
前記推論に従って前記音声認識プロセスを修正するステップと、
前記ユーザと対話して曖昧な音声を解決するステップと、
翻訳した音声を外国語話者に提示するステップと
を備えることを特徴とする方法。
前記対話動作に基づいて、ユーザ音素モデルおよびユーザ言語モデルのうち少なくとも１つを生成し、かつ、更新する動作をさらに備えることを特徴とする請求項１４に記載の方法。
前記対話動作は、音声および機械的対話の少なくとも１つを通してユーザフィードバックに反応する動作を含み、前記の曖昧な音声を解決することを特徴とする請求項１４に記載の方法。
前記音声信号に加えて検知入力データを処理することで前記推論を見直す動作をさらに備えることを特徴とする請求項１４に記載の方法。
前記外国語話者からのレスポンスに基づいて前記音声認識プロセスを修正する動作をさらに備えることを特徴とする請求項１４に記載の方法。
異言語のユーザ間のコミュニケーションを促進するシステムであって、
音声認識プロセス中にユーザおよび外国語話者の少なくとも一方の音声信号を受信する手段と、
前記音声信号の分析に基づいてコンセプトおよびコンテキストの少なくとも１つの推論を計算する手段と、
ユーザおよび外国語話者の少なくとも１つと対話して、曖昧な音声を解決する手段と、
前記推論に従って前記音声認識プロセスを修正する手段と、
翻訳した音声、前記音声を表す信号、および前記音声を表すイメージの少なくとも１つを前記外国語話者に提示する手段と
を備えることを特徴とするシステム。
ユーザの対話データおよび外国語話者の対話データの少なくとも１つをローカル分散データストアに記憶する手段をさらに備える請求項１９に記載のシステム。