図面を参照して本発明を説明する。図面において、同じ参照番号は全体に渡って同じ要素を参照する。以下の説明において、徹底的な理解が得られるべく、説明のため多数の具体的な詳細を示す。しかしながら、本発明をこれら具体的な詳細なしに実践できることは明らかであろう。他の事例では、既知の構造および装置をブロック図の形で示し、その説明を促進する。
本出願書で使用する際、用語「コンポーネント」および「システム」はコンピュータ関連の実体を指し、ハードウェア、ハードウェアおよびソフトウェアの組み合わせ、または実行中のソフトウェアのいずれかを指すよう意図している。例えば、コンポーネントはプロセッサ上で実行されているプロセス、プロセッサ、ハードディスクドライブ、(光学および/または磁気記憶媒体から成る)複数の記憶ドライブ、オブジェクト、実行可能ファイル、実行スレッド、プログラム、および/またはコンピュータであることができるがこれらに限らない。実例として、サーバ上で実行されているアプリケーションおよびサーバの両方はコンポーネントであることができる。1つまたは複数のコンポーネントはプロセスおよび/または実行スレッド内部にあることができ、コンポーネントを1つのコンピュータ上に配置することおよび/または複数のコンピュータ間で分散させることができる。
本明細書で使用する用語“推論する”または“推論”は一般に、イベントおよび/またはデータを通して取り込んだ観測結果の集合からシステム、環境、および/またはユーザの状態を推論するプロセスを指す。推論を使用して例えば、特定のコンテキストまたは行動を特定することができ、または状態の確率分布を生成することができる。推論は確率的、即ち、データおよびイベントの考慮に基づいて着目状態の確率分布の計算であることができる。推論は、イベントおよび/またはデータの集合から高レベルのイベントを構成するために用いる技術を指すこともできる。上記の推論の結果、イベントが緊密な時間的近接性で相関するか否かに関わらず、かつ、イベントおよびデータが1つまたは複数のイベントおよびデータソースに由来するか否かに関わらず、観測したイベントおよび/または記憶したイベントデータの集合から新しいイベントまたは行動が構築される。
図を最初に参照する。図1は、異言語のユーザ間での音声変換を促進するシステム100を示す。開示する発明は、ユーザまたは異言語のユーザと対話し、彼らの間で音声翻訳を強化するアーキテクチャである。装置を用いた相互主導型ユーザ対話により、認識したコンセプトまたは状況に対して取り込みおよび/または検知および/または収束、および曖昧さ解消を行い、別言語を話す他者とのやり取りにおけるユーザのコミュニケーション目標について推論を簡略化するという概念を本明細書で説明する。このアプローチにより、現在の注目点におけるコンセプトまたは状況に基づいてコミュニケーション目標に関する推論を行い、適切に選別した選択肢および、テキストおよび/または音声翻訳をユーザに示して認識させる。
推論は入力としてユーザからの発話を、コンセプト、状況、目標の推論の根拠の一部として、および/または後者の曖昧さ解消の根拠の一部として、受け取ることができる。質問やニーズ、または意図に対するシステムの理解または変更をユーザにエコーバックして確認させることができる。
システムによる推論はリスニングに基づいて焦点を深化することができ、ユーザの発話から認識した単語を使用して推論の焦点をさらに絞ることもできる。さらに、グラフィックおよび/または音声認識バックチャネルを、話し相手によるユーザ入力、確認および/または指示のために示して、返答をより良く理解することができる。
従ってシステム100は、現在のコンテキストおよび/またはコンセプトの検知データを処理し、かつ検知データに基づいて音声認識プロセスを促進する、適応型自動音声認識(ASR:adaptive automatic speech recognition)コンポーネント102を含む。システム100の履歴アクティビティコンポーネント104は、音声認識プロセスに関連する履歴データを記憶する。換言すれば、ユーザがシステムと対話すると、この対話データは将来の分析および推論の基礎としてデータストアに記憶される。システム100はさらに言語機会コンポーネント106を含むことができる。言語機会コンポーネント106は、1つまたは複数の言葉のトレーニングセッションをユーザに強要することで音声認識プロセスを改善する。トレーニングセッションは将来の音声認識プロセス中に前記1つまたは複数の言葉を用いる際の成功確率を高める。
図2は異言語のユーザ間での音声翻訳を促進する方法を示す。説明を簡単にするため、本明細書で例えばフローチャートまたはフロー図の形で示した1つまたは複数の方法を一連の動作で図示および説明するが、本発明は動作順序により限定されず、一部の動作はそれに従って、本発明で図示および説明したものと異なる順序および/または他の動作と並行して行うことができることは理解され、認識されるべきである。例えば当業界の技術者は、方法を代替的に状態図のような相互に関連する一連の状態またはイベントとして表現できることを理解し、認識するであろう。さらに、図示した全ての動作が、本発明に従う方法を実装する必要はない。
200で、ユーザの言語の音声を外国語に翻訳して外国語話者(FLS:foreign language speaker)に認識させ、FLSの言語からユーザの言語へ戻す適応ASRコンポーネントを受け取る。202で、システムは検知入力データに基づいてコンテキストおよび/またはコンセプト情報を推論する。検知入力データにはユーザとFLSとの間の音声通信が含まれるがこれに限らない。これはさらに例えばイメージ、位置情報、オーディオ情報、ジェスチャ認識、および検索情報を含むことができ、以下でより詳細に説明する。204でASRは、推論したコンテキストおよび/またはコンセプト情報に基づいて現在の音声認識プロセスを調整する。206で、システムは検知データ(例えば、音声)に基づいて現在の音声翻訳のやりとりの中で1つまたは複数の不正確性および曖昧さを検知する。208でシステムは、改善する処理を必要とする曖昧な単語および/または言葉に基づいて、単語および/または言葉のトレーニングおよび/または明確化をユーザおよび/またはFLSに強要する。このトレーニングは解決結果を返す。210で、解決結果をASRにフィードバックし、現在の音声処理セッションで適応処理を行う。212で、将来のアクセスおよび推論処理のために、ユーザ/FLSの対話の解決結果と様子とを履歴データストアに記憶する。
図3は本発明の別態様に従う適応音声認識処理の方法を示す。300で、適応ASRはユーザとFLSとの間の音声翻訳セッションを処理し、検知入力データに基づいてコンテキストおよび/またはコンセプトを推論する。302で、システムは音声認識プロセス中に曖昧さを検出する。304で、システムはセッションに割り込む。306で、システムはユーザおよび/またはFLSに曖昧でないデータの例を指示する。308で、システムはユーザおよび/またはFLSの検知入力データを受信および処理する。これは音声および/または他の検知入力データの形であることができる。310で、システムは曖昧さが解決されたかどうかを決定する。解決された場合、312で、システムは音声認識プロセスをユーザおよび/またはFLSのレスポンスに従って調整する。314で、レスポンスおよび/または検知入力データをこのユーザセッションに関連付けて記憶し、将来のアクセスおよび分析に用いる。312で曖昧さが解決されない場合、316に進み、システムは代替的な曖昧さのないデータを抽出する。フローはその後306に戻り、代替的なデータをユーザおよび/またはFLSに提示する。このシステム/ユーザ/FLSの対話を、曖昧さが解決されるまで続けることができる。
図4は本発明の別態様に従う適応音声認識処理の代替方法を示す。400で、適応ASRはユーザとFLSとの間の音声翻訳セッションを処理し、コンテキストおよび/またはコンセプトを検知入力データに基づいて推論する。402で、システムは音声認識プロセス中に曖昧さを検出する。404で、システムはセッションに割り込み、ユーザおよび/またはFLSに曖昧さを説明する。406でユーザおよび/またはFLSは推奨する曖昧でないデータを返答する。408でシステムはユーザおよび/またはFLSの検知入力データを受信および処理する。これは音声および/または他の検知入力データの形であることができる。410でシステムは曖昧さが解決されたか否かを判定する。解決された場合、412でシステムはユーザおよび/またはFLSのレスポンスに従って音声認識プロセスを調整する。414で、レスポンスおよび/または検知入力データをこのユーザセッションに関連付けて記憶し、将来のアクセスおよび分析に用いる。412で曖昧さが解決されない場合、416に進み、ユーザおよび/またはFLSは曖昧さのない代替データを入力する。フローはその後406に戻り、代替データをシステムに提示して処理する。このシステム/ユーザ/FLSの対話を、曖昧さが解決されるまで続けることができる。
図5は本発明の態様に従って、ユーザと対話してコンテキストおよび/またはコンセプトデータを確認する方法を示す。500で、イメージ、音声、音、等を取り込んでその分析を実施しユーザコンテキストおよび/またはコンセプトを推論することができる検知システムを受け取る。502でユーザとFLSとの間で通信を開始する。504で、システムは通信が正しく進んでいるかを判定する。正しく進んでいなければ506でシステムはコンテキストおよび/またはコンセプトデータの検知を開始する。508で、検知入力データを受信すると、検出入力データに基づいてコンテキストおよび/またはコンセプトを推論し、更なるコミュニケーション言葉を推論することができる。510でシステムはさらに、言葉の曖昧さの解決に用いるユーザフィードバックを要求すること、および/または要求なしにそのユーザフィードバックを受信することができる。512で、曖昧さが解決される場合、翻訳した言葉をFLSに出力する。曖昧さが解決されない場合、506に再度戻り、コンテキストおよび/またはコンセプトの検知を実施し、曖昧さの解決を繰り返す。516でのチェックによりセッションが終了する場合、システムは翻訳プロセスを停止し、次のユーザ/FLS入力を待機する。
しかしながら、セッションが終了しない場合は、フローは516から518に戻って通信を継続し、504に戻って新規入力に基づいて通信が成功したかを判定する。504で通信が正しく進むと、フローは504から516に進んで通信が完了したかを判定する。いずれの場合も、フローは上述のように進む。
図6は、別態様に従って、コンテキストの判定に基づいたユーザのコンセプトに関する推論を改善する手掛りとなる検知入力データの処理方法を示す。600で、システムはユーザが注目しているユーザコンセプトの判定を開始する。これはユーザのコンセプトに関する推論を、ユーザおよび/またはFLSの音声ならびにその言葉にのみ基づいて行うことを含むことができる。602で、システムは検知システムから検知したデータに基づいてコンテキストの判定を実施する。これはユーザの注視方向に関する検知データ、ジェスチャ認識、テキスト認識、等の分析を含むことができる。604で、検知入力データを処理して手掛りを求める。606でコンテキストの手掛りからコンセプトを推論する。
608で、システムは推論したコンセプトが正確かをチェックして判定する。ユーザに直接、または透過的に指示し、推論したコンセプトを適応ASRに使用することで、これを実施することができる。その結果は推論結果が十分に正確か否かを示すことができる。十分に正確ならば、610でコンセプトデータを処理して、適応ASRがコミュニケーションに使用する言葉を生じさせる。612で言葉を翻訳してFLSに提示する。推論したコンセプトが正しいと判断されない場合、フローは608から614に進んでユーザのフィードバックを取得する。上記フィードバックは、検知システムコンポーネントのうちどれを次ラウンドのコンテキスト判定に使用できるかに影響する可能性がある。
図7は、本発明の態様に従って推論処理を促進するデータストアネットワーク700を示す。ユーザおよび/またはFLSは一般に、多数の分散データストア702(DISTRIBUTED1、DISTRIBUTED2、...、DISTRIBUTEDNで表す)のうち1つに関連する場所で対話する。例えば、本明細書で説明した履歴アクティビティ(例えば、曖昧さを解決するための装置プロンプトへのレスポンス、教育中のユーザの対話、等)を、ユーザとFLSとの間の音声翻訳をその場所で促進する携帯無線装置(PWD:portable wireless device)(図示せず)内などの対話場所に対して局在的に記憶することができる。これを、PWDの一部であり且つ自身に渡されるデータを記憶する第1の分散データストア704により表現することができる。最終的にその更新内容を、地域データストアでありうる中央データストア706にアップロードすることができる。この重要性の1つは、データストアシステム700を利用する外国を第1のユーザが旅行するとき、他の分散データストア702を含む人気エリアの旅行により、これら他の場所でのコンテキストのやり取りで記録した第1のユーザデータのアップロードが促進されることである。これは第1ユーザの到着前にこれら場所において記憶した他のユーザ対話データを使用することも促進し、これらの場所における第1ユーザの翻訳経験をさらに強化する。
図8は本発明の音声翻訳処理に従って、分散および中央データベースを同期する方法を示す。800で、ローカライズした分散データストアシステムと中央データストアシステムを受け取る。802で、第1のローカル分散データストアを、その場所でのユーザ行動に基づくユーザデータで更新する。これは音声、訪問場所、各場所でのユーザ行動、および音声、ジェスチャ、等を含むことができる。804で、データがローカルに記憶される際、および/または同期がシステムの帯域に及ぼす影響が最小である時点で、ユーザデータを分散データストアから中央データストアにアップロードする。806で、中央データストアは更新情報を他の分散データストアに同期し、訪問された場合にこれら場所でのユーザ翻訳経験を高めることができる。
図9はユーザ音素モデルおよびユーザ言語モデルを生成するための適応ASRのトレーニング方法を示す。900でシステムおよび/またはユーザはトレーニングセッションを開始する。902で、システムはユーザに単語を話すよう指示する。これらの単語は、システムによる曖昧さ解決に重要であると思われる、例えばユーザの発音、イントネーション、語尾変化、等に起因する多数の側面を取り込むことができるように、システムによって選択される。904でシステムは話された単語を受信する。906で、システムは受信した単語を処理し、システムが以前に指示したものとそれらが一致するか否かを決定する。一致しない場合、フローは908に進み、システムはユーザに単語を繰り返すことを要求する。これは、要求した単語を話す際にシステムがユーザに割り込むことを含むことができる。910でチェックした際に単語が一致する場合、フローは912に進み、システムはユーザ情報を記録および記憶し、音素および/またはユーザ言語モデルを更新する。908で、一致するものがある場合、フローは912に進んで記憶および更新プロセスを実施する。ユーザによる2番目の発音が一致しない場合、910で、システムは例えば同一または同様な結果を実現する他の単語または言葉を用いて、満足な結果が得られるまで908に戻ってプロセスを繰り返すことができる。
図10は、ユーザとFLSの両方を利用した音声認識トレーニング方法を示す。1000で、トレーニングセッションをユーザおよびFLSの存在下で開始する。これはシステムが開始するかまたはユーザが開始することができる。1002で、システムは1つまたは複数の所定の単語および/または文を話すようユーザに指示する。1004で、システムは話された単語および/または文を処理し、それらをFLSの言語に翻訳する。1006で、システムは翻訳したデータをFLSに出力する。これは機械発話信号、ディスプレイ上のテキストとしての表現、ならびに/またはオーディオおよびテキストの両方で行うことができる。1008で、FLSは単語および/または文の正確性を確認するためにフィードバックを与える。1010で、どの場合でも、トレーニングセッションに関連付けられたデータがASRの分析および適応更新のために記憶され、将来の音声翻訳に用いられる。
図11は、少なくとも2つの異言語ユーザ間で翻訳を促進する翻訳コンポーネントの例1100の略ブロック図を示す。翻訳コンポーネント1100は、少なくともユーザのコンテキスト1104および/またはユーザのコンセプトを表す検知入力データの検知、取り込み、および処理の使用可能性を促進する、検知システムサブコンポーネント1102を含む。そのサポートとして翻訳コンポーネント1100は、通常、ユーザコンテキストおよび/またはコンセプトについての情報を収集するための複数の様々な検知サブシステムを表す、検知システムサブコンポーネント1102(または様式(modalities))を含む。例えば、イメージングコンポーネント(またはサブシステム)1106(例えば、カメラまたは撮像装置)を使用して、(コンテンツに沿った)メニュー、道路標識、またはユーザのコンセプトおよび/またはコンテキスト1104に関する手掛りを与えることができる任意の他の項目の、スナップショット写真を撮ることができる。ビデオコンポーネント1108(例えば、ビデオカメラ)はコンテキスト1104のビデオクリップの取り込みを促進する。その後、ビデオ処理を使用してユーザのコンセプトおよび/またはコンテキスト1104に関する手掛りを与えることができる。オーディオコンポーネント(例えば、マイクロフォンおよび付属電子機器)1110は、特定のコンテキスト1104にネイティブであることができるオーディオデータの記録を促進する。
音声コンポーネント1112はユーザまたは他者の音声を処理して認識する。従って、本コンポーネント1112は、入力音声言語の認識を促進する言語コンポーネントのライブラリ(図示せず)も含むことができる。上記音声を、誤りを含むかまたは含まずにテキストに変換することができる。光学認識コンポーネント(OCR)1114は、例えばイメージコンポーネント1106およびビデオコンポーネント1108により取り込んだ画像化テキストを処理する。上述のように、ユーザはコンテキストおよびコンテンツに関する手掛りとなる様々なデータを取得することで翻訳の正確性を高めることができる。一例において、ユーザは道路標識、ビジネスサイン、メニューのスナップショットを取り、そのテキストを処理して理解可能な翻訳結果の成功確率を高めることができる。
検知サブシステム1102は検索コンポーネント1116も含むことができる。検索コンポーネント1116を手動または自動で起動して、コンテキストおよび/またはコンテンツの情報に関わるデータの検索を実施することができる。検索はローカルデータストア(図示せず)に記憶したデータの局所検索であることができる。代替的に、またはそれと組み合わせて、ネットワーク検索エンジンを利用して検索を無線および/有線の形態(例えば、インターネット)上で行うことができる。いずれの場合も、検索コンポーネント1116は、検知サブシステム1102の任意のコンポーネントからクエリ用の検索語を受信することができる。別の実装では、検知サブシステム1102のうち選択したものから出力データを受信および処理する別のサブシステム(図示せず)より、検索語を生成することができる。
検知サブシステム1102はジェスチャコンポーネント1118を含むこともできる。ジェスチャコンポーネント1118は、イメージングコンポーネント1106および/またはビデオコンポーネント1108により取り込んだユーザジェスチャの処理を促進する。ジェスチャ認識を利用して、例えば入力の認識、緊急度、および/または感情的な対話を強化することができる。位置コンポーネント1120はユーザの地理的位置の判定を促進する。本コンポーネント1120は全地球測位システム(GPS)技術、および/またはIEEE802.11のような他の適切な三角測量技術、Wi−Fi信号、および上記のコンテキスト(状況)情報を含むことができる。上記のコンテキスト情報は、装置が移動中か否か(加速度計またはGPSにより検出)、装置近傍の大気温度、会話が検出されたか否か、他の人々が1つまたは複数の技術を通して認識または特定されたか否か、等に関する。または、位置コンポーネント1120は1つまたは複数の他の検知サブシステム1102と協力して機能し、ユーザの位置を抽出することができる。例えば、イメージングコンポーネント1106のイメージ処理、OCRコンポーネント1114のOCR出力、および検索コンポーネント1116の結果に基づいて、場所がXであることを或る程度の成功確率で推定することができる。
翻訳コンポーネント1100は推論コンポーネント1122を含むこともできる。推論コンポーネント1122は、検知システム1102からの検知データを処理して、可能性のある手掛りを導出し、ユーザのコンセプトおよび/またはコンテキスト1104に関する推論を展開および生成することができる。翻訳コンポーネント1100は音素モデルコンポーネント1124も含むことができる。音素モデルコンポーネント1124は言語交換中にユーザおよび/またはFLSの音声の特徴を記憶および更新する。さらに、ユーザに対してカスタマイズされ、任意の所与の状況および/または位置に関してユーザ言語を定義するユーザ言語モデルコンポーネント1126を生成する。最終的には、翻訳コンポーネント1100はユーザとFLSとの間で単語、言葉、語句および/または文の理解可能な翻訳を促進する。
図12を参照する。別態様に従うシミュレータ教育を使用するシステム1200を示してある。このアーキテクチャは本発明の別態様において、ユーザに外国語の教育を提供するシミュレーションコンポーネント1202を使用することができる。シミュレーションコンポーネント1202は適応ASRコンポーネント102、履歴アクティビティコンポーネント104、およびプッシュ型言語機会コンポーネント106のうち任意のものと相互作用し、協調して動作することができる。シミュレーションコンポーネント1202は、指示される言葉、単語、語句、および/または文を外国語で話すことをユーザの言語でユーザに指示するように動作し、それに応じてユーザは対応する翻訳を外国語で発話する。システム1200は次いでユーザのレスポンスを処理し、ユーザの教育プロセスの一部として、イントネーション、単語の使い方、文の構造、等における変更点を提示することができる。
これは、ユーザトレーニングを実施可能な多数の様々なシナリオのうちの一例に過ぎない。例えば、シミュレーションコンポーネント1202はユーザがそのユーザの言語で翻訳を提供することに応じて、そのユーザに外国語で指示することができる。別の例では、シミュレーションコンポーネント1202はユーザが同一の言葉、語句、および/または文を外国語で話すことに応じて、システムが出力した言葉、語句、および/または文を外国語で繰り返すようユーザに指示する。システム1200は次いでユーザの音声を分析し、正確な話し言葉の外国語をより良く反映する補正をイントネーション、強調、語尾変化、等の形で提示する。上記の教育データを次いで履歴データストア上に記憶し、ユーザ音素および言語モデルのさらなる発展に使用し、ユーザによる将来の翻訳交換に使用することができる。
図13は別態様に従ってユーザに外国語を教育する方法を示す。1300で、シミュレータトレーニングを開始する。これはユーザにより手動で開始するか、またはシステムにより自動で開始することができる。1302で、初めてのユーザの場合、システムは自身を訓練してユーザの音声の特徴を学習し、個別のユーザ音素および言語モデルを開発する。1304で、システムはユーザに単語、単語の集合、語句、および/または文を発するよう指示する。1306で、システムは少なくともユーザ音素および言語モデルに照らしてユーザのレスポンスを受信および処理する。1308で、システムは任意の誤り、曖昧さおよび不正確さを計算し、これらをユーザとの往復の音声認識で解決する。1310で、或るユーザ学習セッションにおいて、システムは(例えば、機械発話信号、テキストによる表示、および/またはその両方を通して)ユーザに翻訳を提供して認識させる。別の言語セッションでは、システムはユーザが対応する外国語翻訳で応答することを要求する。1312で、システムはユーザの翻訳の正確性に関してユーザにフィードバックを与える。
図14は、本発明に従って1つまたは複数の特徴の自動化を促進する機械学習・推論(MLR:machine learning and reasoning)コンポーネント1402を使用するシステム1400を示す。本発明は(例えば選択と関連して)人工知能を基板とする多様な理論体系を使用して、様々な態様を実行することができる。例えば、システムおよび/またはユーザトレーニングにおいてどの言葉、言葉の集合、語句、および/または文を使用すべきかを決定するプロセスを、自動分類システムおよびプロセスを通して促進することができる。
分類子は、入力属性ベクトルx=(x1,x2,x3,x4,xn)をクラスラベルclass(x)にマップする関数である。分類子は、入力がクラスに属すること、即ちf(x)=confidence(class(x))であることの確信性(confidence)を出力することもできる。上記の分類は確率的および/または統計ベースの分析(例えば、分析ユーティリティおよびコストへの分解)を使用して、ユーザが自動実施を望む動作の予知または推論を行うことができる。
サポートベクトルマシン(SVM:support vector machine)は使用可能な分類子の例である。SVMは可能な入力の空間の中で、トリガ入力イベントを非トリガイベントから最適な方法で分離する超平面を見つけることで動作する。直感的に、これによりトレーニングデータに同一ではないが近似したテストデータを正しく分類できる。他の有向および無向モデルの分類アプローチには例えば、ナイーブベイズ、ベイジアンネットワーク、決定木、ニューラルネットワーク、ファジーロジックモデルが含まれ、様々なパターンの独立性を与える確率的分類モデルを使用することができる。本明細書で用いる分類には、優先度モデルの開発に利用する統計的回帰も含まれる。
本明細書から容易に理解できるように、本発明は(例えば一般的なトレーニングデータを通して)明示的に訓練し、且つ(例えばユーザの振る舞いの観察、外部情報の受信を通して)暗示的に訓練した分類子を使用することができる。例えば、SVMは、分類子コンストラクタおよび特徴選択モジュール内部の学習またはトレーニング段階を通して構成される。従って、分類子を使用して多数の機能を自動的に学習および実施することができる。
適応ASRコンポーネント102、履歴アクティビティコンポーネント104およびプッシュ型機会言語コンポーネント106と相互作用する方法として、自動学習および実施は、ユーザが発した単語または言葉が正確または曖昧であると思われる時点を所定基準に従って判定することを含むが、これに限らない。別の例においてMLRコンポーネント1402は、話し言葉の外国語として所望の正確度レベルに達するために所与のユーザに対して何回対話を繰り返すべきかの判定を促進することができる。これらは、MLRコンポーネント1402を通して学習および自動的に実施可能な多数の特徴のうちの少数に過ぎない。
図15は、本発明の態様に従って翻訳を促進するPWD1500(例えば、携帯電話)の略ブロック図を示す。装置1500には、データおよび命令の制御および処理を行う1つまたは複数の内部コンポーネントと相互作用するプロセッサ1502が含まれる。プロセッサ1502がプログラムされ、装置1500内部の様々なコンポーネントを制御しかつ動作して本明細書で説明した様々な機能を実行させることができる。プロセッサ1502は複数の適切なプロセッサ(例えば、DSP-デジタル信号プロセッサ)のうち任意のものであることができ、またマルチプロセッササブシステムであってもよい。
メモリおよび記憶コンポーネント1504はプロセッサ1502とインタフェースで連結し、プログラムコードを記憶し、さらにデータ、アプリケーション、サービス、メタデータ、装置の状態、等のような情報の記憶手段として機能する。メモリおよび記憶コンポーネント1504は、検知サブシステムおよび/またはセンサから取得した検知入力データの完全なセットを少なくとも記憶するよう適切に調整した不揮発性メモリを含むことができる。従って、メモリ1504はプロセッサ1502および/または大容量記憶メモリによる高速アクセス向けのRAMまたはフラッシュメモリを含むことができる。大容量記憶メモリには、例えばテキスト、イメージ、オーディオおよび/またはビデオコンテンツを備えるギガバイトのデータを記憶可能なマイクロドライブがある。一態様によると、メモリ1504は様々なサービスに関わる情報の複数集合を記憶するのに十分な記憶容量を有し、プロセッサ1502は前記様々なサービスに対応する様々な情報集合間での交換または循環を促進するプログラムを含むことができる。
ディスプレイドライバサブシステム1508を通してディスプレイ1506をプロセッサ1502に接続することができる。ディスプレイ1506はカラー液晶ディスプレイ(LCD)、プラズマディスプレイ、タッチスクリーンディスプレイ、等であることができる。ディスプレイ1506はデータ、グラフィック、または他の情報コンテンツを提示するよう機能する。さらに、ディスプレイ1506は、ユーザが選択可能で、且つ装置1500の制御および構成を担う様々な機能を提示することができる。タッチスクリーンの例では、ディスプレイ1506は接触選択型のアイコンを表示して、ユーザの相互作用で制御および/または構成を促進することができる。
オンボード電力システム1510(例えば、バッテリパックまたは燃料電池)により、プロセッサ1502および、装置1500を形成する他のオンボードコンポーネントに電力を供給することができる。電力システム1510が故障するかまたは装置1500から切断される場合、代替電力源1512を使用してプロセッサ1502および他のコンポーネント(例えば、センサ、画像取り込み装置、等)に電力を供給することができ、またオンボード電力システム1510が充電可能な技術であればそれを充電することができる。例えば、代替電力源1512は電力変換器を通して外部グリッド接続との連結を促進することができる。プロセッサ1502を構成して電力管理サービスを提供し、例えば、電流引き込みを削減するスリープモードを誘導すること、および予期した電源障害の検知時に装置1500の順序立ったシャットダウンを開始することができる。
装置1500はデータ通信ポート1516を有するデータ通信サブシステム1514を含む。ポート1516を使用して、装置1500をリモートコンピューティングシステム、サーバ、サービス、等にインタフェースで接続する。ポート1516は、ユニバーサルシリアルバス(USB)および/またはIEEE1394のような、シリアル通信能力を与える1つまたは複数のシリアルインタフェースを含むことができる。他の技術、例えば赤外線通信ポートを利用する赤外線通信、および無線パケット通信(例えば、Bluetooth(登録商標)、Wi−Fi、およびWi−Max)も含めることができるが、これらに限らない。スマートフォンの場合、データ通信サブシステム1514は携帯電話の登録およびネットワーク通信に必要なSIM(加入者識別モジュール)のデータおよび情報を含むことができる。
装置1500はプロセッサ1502との有効な通信に無線周波数(RF)トランシーバ部1518を含むこともできる。RF部1518はRFレシーバ1520を含み、RFレシーバ1520はアンテナ1522を通してリモート装置またはシステムからRF信号を受信し、信号を復調してデジタル信号をその中に変調した形で取得する。RF部1518はRFトランスミッタ1524も含む。RFトランスミッタ1524は、例えば、ユーザ入力装置1526(例えば、キーパッド)を介した手動のユーザ入力に応じて、あるいは通信範囲への侵入検知および/または通信範囲からの退場予測または他の所定基準およびプログラムされた基準に応じて自動的に、情報(例えば、データ、サービス)をリモート装置またはシステムに送信する。
装置1500はオーディオ入出力サブシステム1528も含むことができる。オーディオ入出力サブシステム1528は、プロセッサ1502により制御され、マイクロフォンまたは同様なオーディオ入力装置(図示せず)からの音声入力を処理する。オーディオサブシステム1528はさらに、スピーカまたは同様のオーディオ出力装置(図示せず)を通して音声およびオーディオ出力信号の提示を促進する。
装置1500は認証コンポーネント1530も含むことができる。認証コンポーネント1530はプロセッサとインタフェースで接続し、装置自身および/またはリモートシステムに対するユーザ認証を促進する。プロセッサ1502は検知サブシステムブロック1532ともインタフェースで接続する。検知サブシステムブロック1532は例えば、OCRデータ、音声データ、手書きデータ、およびイメージ/ビデオデータの取り込みおよび入力を促進して、ユーザのコンテキストおよび/またはコンセプトを判定する。さらに、装置1500は1つまたは複数のアプリケーション1534(例えば、イメージングプログラム、ビデオ提示プログラム、OCRプログラム、検索エンジン、等)を含む。本発明のアーキテクチャに従ってアプリケーション1534を起動し、検知システムの動作を有効化して検知入力データを受信することができる。アプリケーションは、音素および言語モデルの作成および更新、ならびに推論分析および選択を行うプログラムを含むこともできる。
装置1500は物理インタフェースサブシステム1536も含むことができる。物理インタフェースサブシステム1536により、別システムに対して無線通信またはケーブル通信ではなく、(例えばコネクタを通して)直接的な物理接続が可能となる。
図16は、態様に従うユーザとFLS受信者との間の装置間翻訳システムを示す。ユーザ1602は(本発明の翻訳アーキテクチャを含む)携帯無線装置(PWD)1604を利用して、(本発明の翻訳アーキテクチャも含む)受信装置1608を通してFLS受信者1606と無線で通信する。ユーザ1602はユーザPWD1604に音声信号を入力する。音声信号を翻訳出力に処理し、無線で受信装置1608に通信する。受信装置1608はユーザの音声をユーザのテキストに変換する。ユーザのテキストを受信装置1608上に表示し、かつ/または翻訳したユーザの音声として受信者1606に出力することができる。同様に、ユーザ装置1604は受信者の音声を受信者のテキストに変換する。受信者のテキストをユーザ装置1604上に表示し、および/または翻訳した受信者の音声としてユーザ1602に出力することができる。
ユーザ1602および受信者1606の両方がほぼ同一のコンテキストに位置する場合、装置1604または/および1608のいずれかまたは両方は上述のコンテキストおよび/またはコンセプトの処理を実施して翻訳を強化することができる。このように、装置1604または/および1608のいずれかまたは両方の様式1610および1612をそれぞれ、所望の翻訳を生成するために使用することができる。
図17は、本発明の別態様に従って、ユーザとFLS受信者との間で利用可能な単一装置翻訳システム1700を示す。ユーザ1702およびFLS受信者1704は、例えば面と向き合ってはいるが、効率的に意思疎通できない。ユーザは装置1706に話し、装置1706はユーザの音声を処理して、受信者1704が解釈および理解可能なテキスト、記号、および/または他の媒体(例えば、イメージ、音、ビデオ、等)にする。テキスト、記号、および/または他の媒体を、テキストはユーザの言語および受信者の言語の両方で、装置1706上に表示することができる。例えば受信者が読み書きできない場合に、非テキスト媒体(例えば、記号、イメージ、音、ビデオ)を使用することができる。テキストまたは音声を説明の例で用いるときは常に、これは当事者間で何らかの形で出力または通信可能な記号および/あるいは他の媒体を含むことも同様に可能であることは本発明との関連で理解されるべきである。代替的に、またはそれと組み合わせて、ユーザの音声を受信者1704に翻訳したユーザの音声として提示することができる。同様に、装置1704は受信者の音声を受信者のテキストに翻訳し、そのテキストを装置1704上に表示すること、および/または翻訳した受信者の音声としてユーザ1702に出力することができる。装置1706はさらに、検知コンポーネント1708の形の様式も含む。本発明の態様に従って、検知コンポーネント1708の1つまたは複数を装置1704内に提供し、翻訳の改善を促進することができる。
図18を参照する。開示した翻訳アーキテクチャを実行するべく動作可能なコンピュータのブロック図を示してある。さらに、コンピュータは上述のローカルな分散データストアおよび/または中央データストアシステムの役割を果たすことができる。それらの様々な態様に対してコンテキストを追加するため、図18および以下の説明は、本発明の様々な態様の実施に適したコンピューティング環境1800の簡潔で一般的な説明を与えることを意図している。1つまたは複数のコンピュータ上で実行可能なコンピュータ実行可能命令の一般的なコンテキストで上述の説明は行われるが、当業界の技術者は本発明を他のプログラムモジュールと組み合わせて、および/またはハードウェアおよびソフトウェアの組合せとして実施することもできることを理解するであろう。
一般に、プログラムモジュールは特定のタスクを実施するかまたは特定の抽象データ型を実装するルーチン、プログラム、コンポーネント、データ構造、等を含む。さらに、当業界の技術者は本発明の方法を他のコンピュータシステム構成で実践できることを理解するであろう。そのコンピュータシステム構成には、単一プロセッサまたはマルチプロセッサのコンピュータシステム、ミニコンピュータ、メインフレームコンピュータ、およびパーソナルコンピュータ、ハンドヘルドコンピューティングデバイス、マイクロプロセッサベースまたはプログラム可能な消費家電、等が含まれ、それらの各々を1つまたは複数の関連装置に動作可能に接続することができる。
本発明の例示的な態様を、通信ネットワークを通して接続したリモート処理装置により一定のタスクを実施する分散コンピューティング環境で実践してもよい。分散コンピューティング環境では、プログラムモジュールをローカルおよびリモートのメモリ記憶装置内に置くことができる。
コンピュータは一般に様々なコンピュータ可読媒体を含む。コンピュータ可読媒体はコンピュータがアクセス可能な任意の有効な媒体であることができ、揮発性および不揮発性媒体、取り外し可能および取り外し不能媒体の両方を含む。限定ではなく例として、コンピュータ可読媒体はコンピュータ記憶媒体と通信媒体とを備えることができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータのような情報を記憶する任意の方法または技術で実装した、揮発性および不揮発性、取り外し可能および取り外し不能媒体の両方を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタルビデオディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、あるいは所望の情報を記憶するのに使用可能で且つコンピュータがアクセス可能な任意の他の媒体を含むがこれらに限らない。
通信媒体は一般にコンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータを搬送波または他の伝送メカニズムのような変調データ信号で具現化し、任意の情報配信媒体を含む。用語「変調データ信号」は、1つまたは複数の特性集合を有するかまたは信号内の情報を符号化するように変化した信号を意味する。限定ではなく例として、通信媒体は有線ネットワークまたは直接配線接続のような有線媒体、ならびに音響、RF、赤外線のような無線媒体、および他の無線媒体を含む。上記の任意の組合せもコンピュータ可読媒体の範囲に含まれるべきである。
図18を再度参照する。様々な態様を実装する例示的な環境1800はコンピュータ1802を含む。コンピュータ1802は処理ユニット1804、システムメモリ1806およびシステムバス1808を含む。システムバス1808はシステムコンポーネントを処理ユニット1804に接続する。システムコンポーネントはシステムメモリ1806を含むがこれに限らない。処理ユニット1804は様々な商業的に入手可能なプロセッサのうち任意のものであることができる。デュアルマイクロプロセッサおよび他のマルチプロセッサアーキテクチャを処理ユニット1804として使用してもよい。
システムバス1808は、(メモリコントローラを有するかまたは有さない)メモリバス、周辺バス、様々な商業的に入手可能なバスアーキテクチャのうち任意のものを用いるローカルバス、に対してさらに相互接続可能な数種のバス構造のうち任意のものであることができる。システムメモリ1806は読取専用メモリ(ROM)1810およびランダムアクセスメモリ(RAM)1812を含む。基本入出力システム(BIOS)はROM、EPROM、EEPROMのような不揮発性メモリ1810に記憶される。BIOSは、例えば起動時にコンピュータ1802内の要素間での情報転送を支援する基本ルーチンを含む。RAM1812はデータをキャッシュするスタティックRAMのような高速RAMを含むこともできる。
コンピュータ1802はさらに内部ハードディスクドライブ(HDD)1814(例えば、EIDE、SATA)を含む。内部ハードディスクドライブ1814はまた、適切な筐体(図示せず)や(例えば、取り外し可能ディスケット1818を読み書きするための)磁気フロッピーディスク(登録商標)ドライブ(FDD)および(CD−ROMディスク1822を読み出し、またはDVDのような他の大容量光媒体を読み書きするための)光ディスクドライブ1820で外部的に使用するよう構成してもよい。ハードディスクドライブ1814、磁気ディスクドライブ1816および光ディスクドライブ1820を、それぞれハードディスクドライブインタフェース1824、磁気ディスクドライブインタフェース1826および光ドライブインタフェース1828によりシステムバス1808に接続することができる。外部ドライブ実装向けのインタフェース1824は、ユニバーサルシリアルバス(USB)およびIEEE1394インタフェース技術のうち少なくとも1つまたは両方を含む。本発明では他の外部ドライブ接続技術も範囲に含まれる。
ドライブおよびその関連コンピュータ可読媒体はデータ、データ構造、コンピュータ実行可能命令、等の不揮発性記憶装置を供給する。コンピュータ1802に対して、ドライブおよび媒体は任意のデータを適切なデジタル形式で記憶する。上述のコンピュータ可読媒体の説明はHDD、リムーバブル磁気ディスケット、およびCDまたはDVDのようなリムーバブル光媒体を指すが、当業界の技術者は、ジップドライブ、磁気カセット、フラッシュメモリカード、カートリッジ、等のようなコンピュータが可読な他種の媒体を動作環境の例で使用すること、およびさらに、任意の上記媒体は開示した本発明の方法を実施するコンピュータ実行可能命令を含みうることを理解するべきである。
多数のプログラムモジュールをドライブおよびRAM1812に記憶することができる。そのプログラムモジュールには、オペレーティングシステム1830、1つまたは複数のアプリケーションプログラム1832、他のプログラムモジュール1834およびプログラムデータ1836が含まれる。オペレーティングシステム、アプリケーション、モジュールおよび/またはデータの全てまたは一部をRAM1812にキャッシュすることもできる。本発明を様々な商用的に利用可能なオペレーティングシステムまたはオペレーティングシステムの組合せで実装できることは理解されるべきである。
ユーザは、例えばキーボード1838およびマウス1840のようなポインティングデバイスといった1つまたは複数の有線/無線入力装置を通してコンピュータ1802に命令および情報を入力することができる。他の入力装置(図示せず)はマイクロフォン、IRリモートコントロール、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーン、等を含むことができる。これらおよび他の装置を、システムバス1808に接続される入力装置インタフェース1842を通して処理ユニット1804に接続することがよくあるが、パラレルポート、IEEE1394シリアルポート、ゲームポート、USBポート、IRインタフェース、等のような他のインタフェースで接続することもできる。
モニタ1844または他種の表示装置もビデオアダプタ1846のようなインタフェースを介してシステムバス1808に接続する。モニタ1844に加えて、コンピュータは一般にスピーカ、プリンタ、等の他の周辺出力装置(図示せず)を含む。
コンピュータ1802は、リモートコンピュータ1848のような1つまたは複数のリモートコンピュータに対する有線および/または無線通信を通した論理接続を用いて、ネットワーク環境で動作することができる。リモートコンピュータ1848はワークステーション、サーバコンピュータ、ルータ、パーソナルコンピュータ、ポータブルコンピュータ、マイクロプロセッサベースの娯楽機器、ピアデバイスまたは他の共通ネットワークノードであることができ、一般にコンピュータ1802に対して説明した要素の多くまたは全てを含むが、略してメモリ/記憶装置1850のみを示してある。示した論理接続は、ローカルエリアネットワーク(LAN)1852および/または広域ネットワーク(WAN)1854のようなより大きなネットワークに対する、有線/無線接続性を含む。上記のLANおよびWANネットワーク環境は職場および企業内で一般的であり、イントラネットのような企業規模のコンピュータネットワークを円滑にする。それらの全てをインターネットのようなグローバル通信ネットワークに接続してもよい。
LANネットワーク環境で使用するとき、コンピュータ1802は有線および/または無線通信ネットワークインタフェースまたはアダプタ1856を通してローカルネットワーク1852に接続する。アダプタ1856はLAN1852に対する有線または無線通信を促進することができ、無線アダプタ1856と通信するために自身の上に配置した無線アクセスポイントを含むことができる。
WANネットワーク環境で使用するとき、コンピュータ1802はモデム1858を含むことができ、またはWAN1854上で通信サーバに接続され、または例えばインターネットのようなWAN1854上で通信を確立する他の手段を有する。モデム1858は、内部または外部であるか、有線または無線装置であるかに関わらず、シリアルポートインタフェース1842を通してシステムバス1808に接続される。ネットワーク環境では、コンピュータ1802に対して相対的に示したプログラムモジュール、またはその一部をリモートメモリ/記憶装置1850に記憶することができる。示したネットワーク接続は例であって、コンピュータ間の通信リンクを確立する他の手段を使用できることは理解されるであろう。
コンピュータ1802は無線通信内に動作可能に配置した、例えばプリンタ、スキャナ、デスクトップおよび/またはポータブルコンピュータ、ポータブルデータアシスタント、通信衛星、無線で検出可能なタグに関連する装置または位置(例えば、キオスク、新聞売店、トイレ)の任意の部分および電話などの、任意の無線装置またはエンティティと通信するよう動作可能である。これは少なくともWi−FiおよびBluetooth(登録商標)無線技術を含む。従って通信は、従来のネットワークと同様に予め定義した構造であるか、または単に少なくとも2つの装置間でのアドホック通信であることができる。
Wi−Fi、またはワイヤレスフィデリティにより、家のソファ、ホテルの部屋のベッド、または職場の会議室から無線でインターネット接続が可能となる。Wi−Fiは、基地局の範囲内である任意の場所でコンピュータのような装置がデータを屋内および屋外で送受信できる携帯電話において用いられるものと同様な無線技術である。Wi−FiネットワークはIEEE802.11(a,b,g、等)と呼ばれる無線技術を使用して安全で、信頼性があり、高速な無線接続性を提供する。Wi−Fiネットワークを使用して、コンピュータを互いに接続すること、インターネット、および(IEEE802.3またはイーサネットを用いる)有線ネットワークに接続することができる。Wi−Fiネットワークは例えば、無許可の2.4および5GHz無線帯で11Mbps(802.11a)または54Mbps(802.11b)データ転送速度で動作し、または両方の帯域(デュアルバンド)を含む製品とともに動作し、その結果ネットワークは多数の職場で用いられるベーシック10BaseTの有線イーサネットのネットワークと同様な実際の性能を与えることができる。
図19を参照する。別態様に従って、音声翻訳を促進するコンピューティング環境の例1900の略ブロック図を示してある。システム1900は1つまたは複数のクライアント1902(例えば、音声入出力用のPWD)を含む。クライアント1902はハードウェアおよび/またはソフトウェア(例えば、スレッド、プロセス、コンピューティングデバイス)であることができる。クライアント1902は例えば、本発明を使用することでクッキーおよび/または関連するコンテキスト情報を記憶することができる。
システム1900は1つまたは複数のサーバ1904(例えば、ローカル分散データストアサーバおよび/または中央データストアサーバ)も含む。サーバ1904はハードウェアおよび/またはソフトウェア(例えば、スレッド、プロセス、コンピューティングデバイス)であることもできる。サーバ1904は例えば、本発明の使用により変換を実施するスレッドを保管することができる。クライアント1902とサーバ1904との間で可能な通信の1つは、複数のコンピュータプロセス間で送信するよう調整したデータパケットの形であることができる。データパケットは例えば、クッキーおよび/または関連するコンテキスト情報を含むことができる。システム1900は、クライアント1902とサーバ1904との間の通信の円滑化に使用可能な通信フレームワーク1906(例えば、インターネットのようなグローバル通信ネットワーク)を含む。
通信を有線(光ファイバを含む)および/または無線技術を通して促進することができる。クライアント1902は、クライアント1902に局所的な情報(例えば、クッキーおよび/または関連するコンテキスト情報)の記憶に使用可能な1つまたは複数のクライアントデータストア1908に動作可能に接続する。同様に、サーバ1904は、サーバ1904に局所的な情報の記憶に使用可能な1つまたは複数のサーバデータストア1910に動作可能に接続する。
上述したことは開示した本発明の例を含む。もちろん、構成要素および/または方法の考えうる組合せ全てを説明することは不可能であるが、同業者はさらに多数の組合せおよび配置が可能であることを認識するであろう。従って、本発明は添付請求項の精神および範囲内にある上記変更、修正および変形の全てを包含するよう意図している。さらに、用語“含む”が明細書または請求項のいずれかで使用される範囲では、上記用語“含む”は、請求項の中で“備える”を暫定的な語として用いる際に解釈される“備える”と同様に包含的であるものとする。