JP2008547061A - 異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法 - Google Patents

異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法 Download PDF

Info

Publication number
JP2008547061A
JP2008547061A JP2008518502A JP2008518502A JP2008547061A JP 2008547061 A JP2008547061 A JP 2008547061A JP 2008518502 A JP2008518502 A JP 2008518502A JP 2008518502 A JP2008518502 A JP 2008518502A JP 2008547061 A JP2008547061 A JP 2008547061A
Authority
JP
Japan
Prior art keywords
user
data
speech
component
inference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008518502A
Other languages
English (en)
Other versions
JP2008547061A5 (ja
Inventor
ジェイ.ホービッツ エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2008547061A publication Critical patent/JP2008547061A/ja
Publication of JP2008547061A5 publication Critical patent/JP2008547061A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

異言語のユーザと対話して音声翻訳を強化するアーキテクチャである。認識したコンセプトは収束され、装置との相互主導型ユーザ対話により曖昧さ解消がなされて、別言語を話す他者とのユーザコミュニケーションについて簡潔な推論を与える。注目点におけるコンセプト又は注目点となりそうな確立分布に基づいてコミュニケーション目標について推論を適用し、選別した選択肢および、イメージ、テキストおよび/または音声翻訳をユーザの会話相手に対して認識させる。推論は、コンセプト、状況、目標を推論する根拠の一部として、および/または後者の曖昧さを解消する根拠の一部として、ユーザの入力を処理する。コミュニケーションに対するシステムの理解をエコーバックしてユーザに確認させることができる。コンテキスト依存的に認識および情報収集コンポーネントの焦点を絞ることができ、以前または現在のユーザの発話から認識した単語を利用して推論の焦点をさらに絞ることもできる。

Description

本発明は、異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法に関する。
インターネットのようなグローバル通信ネットワークの出現は、ポータブルコンピューティングデバイスに計算能力とサービスを集中させる触媒の役割を果たした。例えば最近では、携帯電話およびパーソナルデータアシスタント(PDAs)のような携帯装置はそれぞれ、音声通信および個人情報記憶に対して別個の機能を採用した。今日ではこれらの機能を、例えばハードウェアおよびソフトウェアの計算能力の向上を通じてマルチモデル機能を搭載した携帯電話のような単一の携帯装置に見ることができる。上記デバイスはより一般には“スマートフォン”と呼ばれる。
ハンドヘルドおよび携帯装置の技術が進歩すると、これらの継続的に現れる技術の利益の最大化という、進行中かつ今後も増え続けるニーズがある。上記携帯無線コンピューティングデバイスの記憶能力および計算能力が進歩すると、例えば、イメージ、ビデオクリップ、オーディオデータ、ならびに様々なPIM(個人情報マネージャ)を管理および整理するための電子手帳のような多様な異種データ型を処理することができる。通常このデータは、特定目的に対して個別に利用される。
インターネットはさらに、何百万ものネットワークユーザを携帯装置(例えば、電話)、電子メール、ウェブサイト等を通して互いに接触させることで国際化をもたらした。それらの一部は或る程度のテキスト翻訳を行うことができる。例えば、ユーザは自身のブラウザを選択して、ユーザが外国のウェブサイトにアクセスする際にある言語から別の言語への或る程度のテキスト翻訳を促進する言語プラグインをインストールすることができる。しかしながら、世界の可動性はさらに高まってきている。益々多数の人々が仕事および休暇で旅行している。このことは、人々が個々人と対面する状況、および/または言語障壁が問題となりうる外国での状況をもたらす。多数の多言語携帯端末による支援シナリオにおいて、音声翻訳は非常に高い障壁である。向上した携帯装置の計算能力を利用してユーザの翻訳経験を強化するメカニズムが必要である。
以下は、開示する発明の幾つかの態様の基本的理解を与える簡単な要約である。本要約は広範囲な概要ではなく、主要/重要な要素を特定すること、またはその範囲を線引きすることを意図していない。本要約の唯一の目的は、後述する詳細説明に対する前置きとして幾つかの概念を簡単に示すことである。
開示する発明は、一または複数の異言語ユーザと対話し、音声翻訳を強化するアーキテクチャである。認識されたコンセプトまたは状況を取り込み、かつ/または検知し、かつ/または収束し、そして装置を用いた相互主導型ユーザ対話により曖昧さ解消を行い、別言語を話す他者とのやり取りの際のユーザのコミュニケーション目標について推論を簡略化するという概念を本明細書で説明する。このアプローチにより、現在の注目点のコンセプトまたは状況あるいは注目点となりそうな確率分布に基づいてコミュニケーション目標について推論し、適切に選別した選択肢および、イメージ、記号、テキストおよび/または音声翻訳をユーザまたはユーザの話し相手に示して再考および/または認識させる。
推論は入力として、ユーザからの発話、または他の入力をコンセプト、状況、目標についての推論の根拠の一部として、および/または後者の曖昧さ解消の根拠の一部として、受け取ることができる。コミュニケーションの核心での質問、ニーズ、または意思に対するシステムの最良の理解または変更をユーザにエコーバックして確認させることができる。
システムによる推論はリスニングに基づいてコンテキストに影響を受ける認識および情報収集コンポーネントの焦点を絞ることができ、以前または現在のユーザの発話から認識した単語を利用して推論の焦点をさらに絞ることもできる。さらに、グラフィックおよび/または音声認識バックチャネルをユーザ入力、確認、および/または話し相手による指示に与えることができ、返答をより良く理解することができる。
本アーキテクチャは、コンテキストの重要手掛り、ユーザが注目しているコンセプト、ならびにユーザ入力およびガイダンスの特定を促進して、注目点に関するユーザの意図、ニーズおよび目標を推論し、次いで注目点およびコンテキストに基づいて発話候補の集合を構築する。これらは注目しているコンセプトを、必要ならばコンテキストも同様に潜在的に、適切な地点の言語に自動的にかみ合わせるために用いられる。それによってユーザは、発話、テキスト文字列、および/またはイメージを洗練させて外国語話者に中継することが可能となる。携帯装置は、他者が情報を入力または発話を選択してレスポンスを装置所有者に送り返すための手段を、随意に提供することができる。
それらの別態様においては、機械学習・推論コンポーネントを与える。この機械学習・推論コンポーネントは、確率的および/または統計的基準の分析を用いて、ユーザが自動実施を望む動作を予知または推論する。
前述および関連目標を実現するため、開示する発明の或る特定の例示的な態様を以下の説明および添付図面と関連させて説明する。しかしながら、これらの態様は本明細書で開示する原理を利用可能な様々な方法のうち少数を示すに過ぎず、上記態様およびそれらの等価物全てを含むよう意図されている。他の利点および新規特徴は、図面と関連させて考慮するとき以下の詳細な説明から明らかになるであろう。
図面を参照して本発明を説明する。図面において、同じ参照番号は全体に渡って同じ要素を参照する。以下の説明において、徹底的な理解が得られるべく、説明のため多数の具体的な詳細を示す。しかしながら、本発明をこれら具体的な詳細なしに実践できることは明らかであろう。他の事例では、既知の構造および装置をブロック図の形で示し、その説明を促進する。
本出願書で使用する際、用語「コンポーネント」および「システム」はコンピュータ関連の実体を指し、ハードウェア、ハードウェアおよびソフトウェアの組み合わせ、または実行中のソフトウェアのいずれかを指すよう意図している。例えば、コンポーネントはプロセッサ上で実行されているプロセス、プロセッサ、ハードディスクドライブ、(光学および/または磁気記憶媒体から成る)複数の記憶ドライブ、オブジェクト、実行可能ファイル、実行スレッド、プログラム、および/またはコンピュータであることができるがこれらに限らない。実例として、サーバ上で実行されているアプリケーションおよびサーバの両方はコンポーネントであることができる。1つまたは複数のコンポーネントはプロセスおよび/または実行スレッド内部にあることができ、コンポーネントを1つのコンピュータ上に配置することおよび/または複数のコンピュータ間で分散させることができる。
本明細書で使用する用語“推論する”または“推論”は一般に、イベントおよび/またはデータを通して取り込んだ観測結果の集合からシステム、環境、および/またはユーザの状態を推論するプロセスを指す。推論を使用して例えば、特定のコンテキストまたは行動を特定することができ、または状態の確率分布を生成することができる。推論は確率的、即ち、データおよびイベントの考慮に基づいて着目状態の確率分布の計算であることができる。推論は、イベントおよび/またはデータの集合から高レベルのイベントを構成するために用いる技術を指すこともできる。上記の推論の結果、イベントが緊密な時間的近接性で相関するか否かに関わらず、かつ、イベントおよびデータが1つまたは複数のイベントおよびデータソースに由来するか否かに関わらず、観測したイベントおよび/または記憶したイベントデータの集合から新しいイベントまたは行動が構築される。
図を最初に参照する。図1は、異言語のユーザ間での音声変換を促進するシステム100を示す。開示する発明は、ユーザまたは異言語のユーザと対話し、彼らの間で音声翻訳を強化するアーキテクチャである。装置を用いた相互主導型ユーザ対話により、認識したコンセプトまたは状況に対して取り込みおよび/または検知および/または収束、および曖昧さ解消を行い、別言語を話す他者とのやり取りにおけるユーザのコミュニケーション目標について推論を簡略化するという概念を本明細書で説明する。このアプローチにより、現在の注目点におけるコンセプトまたは状況に基づいてコミュニケーション目標に関する推論を行い、適切に選別した選択肢および、テキストおよび/または音声翻訳をユーザに示して認識させる。
推論は入力としてユーザからの発話を、コンセプト、状況、目標の推論の根拠の一部として、および/または後者の曖昧さ解消の根拠の一部として、受け取ることができる。質問やニーズ、または意図に対するシステムの理解または変更をユーザにエコーバックして確認させることができる。
システムによる推論はリスニングに基づいて焦点を深化することができ、ユーザの発話から認識した単語を使用して推論の焦点をさらに絞ることもできる。さらに、グラフィックおよび/または音声認識バックチャネルを、話し相手によるユーザ入力、確認および/または指示のために示して、返答をより良く理解することができる。
従ってシステム100は、現在のコンテキストおよび/またはコンセプトの検知データを処理し、かつ検知データに基づいて音声認識プロセスを促進する、適応型自動音声認識(ASR:adaptive automatic speech recognition)コンポーネント102を含む。システム100の履歴アクティビティコンポーネント104は、音声認識プロセスに関連する履歴データを記憶する。換言すれば、ユーザがシステムと対話すると、この対話データは将来の分析および推論の基礎としてデータストアに記憶される。システム100はさらに言語機会コンポーネント106を含むことができる。言語機会コンポーネント106は、1つまたは複数の言葉のトレーニングセッションをユーザに強要することで音声認識プロセスを改善する。トレーニングセッションは将来の音声認識プロセス中に前記1つまたは複数の言葉を用いる際の成功確率を高める。
図2は異言語のユーザ間での音声翻訳を促進する方法を示す。説明を簡単にするため、本明細書で例えばフローチャートまたはフロー図の形で示した1つまたは複数の方法を一連の動作で図示および説明するが、本発明は動作順序により限定されず、一部の動作はそれに従って、本発明で図示および説明したものと異なる順序および/または他の動作と並行して行うことができることは理解され、認識されるべきである。例えば当業界の技術者は、方法を代替的に状態図のような相互に関連する一連の状態またはイベントとして表現できることを理解し、認識するであろう。さらに、図示した全ての動作が、本発明に従う方法を実装する必要はない。
200で、ユーザの言語の音声を外国語に翻訳して外国語話者(FLS:foreign language speaker)に認識させ、FLSの言語からユーザの言語へ戻す適応ASRコンポーネントを受け取る。202で、システムは検知入力データに基づいてコンテキストおよび/またはコンセプト情報を推論する。検知入力データにはユーザとFLSとの間の音声通信が含まれるがこれに限らない。これはさらに例えばイメージ、位置情報、オーディオ情報、ジェスチャ認識、および検索情報を含むことができ、以下でより詳細に説明する。204でASRは、推論したコンテキストおよび/またはコンセプト情報に基づいて現在の音声認識プロセスを調整する。206で、システムは検知データ(例えば、音声)に基づいて現在の音声翻訳のやりとりの中で1つまたは複数の不正確性および曖昧さを検知する。208でシステムは、改善する処理を必要とする曖昧な単語および/または言葉に基づいて、単語および/または言葉のトレーニングおよび/または明確化をユーザおよび/またはFLSに強要する。このトレーニングは解決結果を返す。210で、解決結果をASRにフィードバックし、現在の音声処理セッションで適応処理を行う。212で、将来のアクセスおよび推論処理のために、ユーザ/FLSの対話の解決結果と様子とを履歴データストアに記憶する。
図3は本発明の別態様に従う適応音声認識処理の方法を示す。300で、適応ASRはユーザとFLSとの間の音声翻訳セッションを処理し、検知入力データに基づいてコンテキストおよび/またはコンセプトを推論する。302で、システムは音声認識プロセス中に曖昧さを検出する。304で、システムはセッションに割り込む。306で、システムはユーザおよび/またはFLSに曖昧でないデータの例を指示する。308で、システムはユーザおよび/またはFLSの検知入力データを受信および処理する。これは音声および/または他の検知入力データの形であることができる。310で、システムは曖昧さが解決されたかどうかを決定する。解決された場合、312で、システムは音声認識プロセスをユーザおよび/またはFLSのレスポンスに従って調整する。314で、レスポンスおよび/または検知入力データをこのユーザセッションに関連付けて記憶し、将来のアクセスおよび分析に用いる。312で曖昧さが解決されない場合、316に進み、システムは代替的な曖昧さのないデータを抽出する。フローはその後306に戻り、代替的なデータをユーザおよび/またはFLSに提示する。このシステム/ユーザ/FLSの対話を、曖昧さが解決されるまで続けることができる。
図4は本発明の別態様に従う適応音声認識処理の代替方法を示す。400で、適応ASRはユーザとFLSとの間の音声翻訳セッションを処理し、コンテキストおよび/またはコンセプトを検知入力データに基づいて推論する。402で、システムは音声認識プロセス中に曖昧さを検出する。404で、システムはセッションに割り込み、ユーザおよび/またはFLSに曖昧さを説明する。406でユーザおよび/またはFLSは推奨する曖昧でないデータを返答する。408でシステムはユーザおよび/またはFLSの検知入力データを受信および処理する。これは音声および/または他の検知入力データの形であることができる。410でシステムは曖昧さが解決されたか否かを判定する。解決された場合、412でシステムはユーザおよび/またはFLSのレスポンスに従って音声認識プロセスを調整する。414で、レスポンスおよび/または検知入力データをこのユーザセッションに関連付けて記憶し、将来のアクセスおよび分析に用いる。412で曖昧さが解決されない場合、416に進み、ユーザおよび/またはFLSは曖昧さのない代替データを入力する。フローはその後406に戻り、代替データをシステムに提示して処理する。このシステム/ユーザ/FLSの対話を、曖昧さが解決されるまで続けることができる。
図5は本発明の態様に従って、ユーザと対話してコンテキストおよび/またはコンセプトデータを確認する方法を示す。500で、イメージ、音声、音、等を取り込んでその分析を実施しユーザコンテキストおよび/またはコンセプトを推論することができる検知システムを受け取る。502でユーザとFLSとの間で通信を開始する。504で、システムは通信が正しく進んでいるかを判定する。正しく進んでいなければ506でシステムはコンテキストおよび/またはコンセプトデータの検知を開始する。508で、検知入力データを受信すると、検出入力データに基づいてコンテキストおよび/またはコンセプトを推論し、更なるコミュニケーション言葉を推論することができる。510でシステムはさらに、言葉の曖昧さの解決に用いるユーザフィードバックを要求すること、および/または要求なしにそのユーザフィードバックを受信することができる。512で、曖昧さが解決される場合、翻訳した言葉をFLSに出力する。曖昧さが解決されない場合、506に再度戻り、コンテキストおよび/またはコンセプトの検知を実施し、曖昧さの解決を繰り返す。516でのチェックによりセッションが終了する場合、システムは翻訳プロセスを停止し、次のユーザ/FLS入力を待機する。
しかしながら、セッションが終了しない場合は、フローは516から518に戻って通信を継続し、504に戻って新規入力に基づいて通信が成功したかを判定する。504で通信が正しく進むと、フローは504から516に進んで通信が完了したかを判定する。いずれの場合も、フローは上述のように進む。
図6は、別態様に従って、コンテキストの判定に基づいたユーザのコンセプトに関する推論を改善する手掛りとなる検知入力データの処理方法を示す。600で、システムはユーザが注目しているユーザコンセプトの判定を開始する。これはユーザのコンセプトに関する推論を、ユーザおよび/またはFLSの音声ならびにその言葉にのみ基づいて行うことを含むことができる。602で、システムは検知システムから検知したデータに基づいてコンテキストの判定を実施する。これはユーザの注視方向に関する検知データ、ジェスチャ認識、テキスト認識、等の分析を含むことができる。604で、検知入力データを処理して手掛りを求める。606でコンテキストの手掛りからコンセプトを推論する。
608で、システムは推論したコンセプトが正確かをチェックして判定する。ユーザに直接、または透過的に指示し、推論したコンセプトを適応ASRに使用することで、これを実施することができる。その結果は推論結果が十分に正確か否かを示すことができる。十分に正確ならば、610でコンセプトデータを処理して、適応ASRがコミュニケーションに使用する言葉を生じさせる。612で言葉を翻訳してFLSに提示する。推論したコンセプトが正しいと判断されない場合、フローは608から614に進んでユーザのフィードバックを取得する。上記フィードバックは、検知システムコンポーネントのうちどれを次ラウンドのコンテキスト判定に使用できるかに影響する可能性がある。
図7は、本発明の態様に従って推論処理を促進するデータストアネットワーク700を示す。ユーザおよび/またはFLSは一般に、多数の分散データストア702(DISTRIBUTED1、DISTRIBUTED2、...、DISTRIBUTEDNで表す)のうち1つに関連する場所で対話する。例えば、本明細書で説明した履歴アクティビティ(例えば、曖昧さを解決するための装置プロンプトへのレスポンス、教育中のユーザの対話、等)を、ユーザとFLSとの間の音声翻訳をその場所で促進する携帯無線装置(PWD:portable wireless device)(図示せず)内などの対話場所に対して局在的に記憶することができる。これを、PWDの一部であり且つ自身に渡されるデータを記憶する第1の分散データストア704により表現することができる。最終的にその更新内容を、地域データストアでありうる中央データストア706にアップロードすることができる。この重要性の1つは、データストアシステム700を利用する外国を第1のユーザが旅行するとき、他の分散データストア702を含む人気エリアの旅行により、これら他の場所でのコンテキストのやり取りで記録した第1のユーザデータのアップロードが促進されることである。これは第1ユーザの到着前にこれら場所において記憶した他のユーザ対話データを使用することも促進し、これらの場所における第1ユーザの翻訳経験をさらに強化する。
図8は本発明の音声翻訳処理に従って、分散および中央データベースを同期する方法を示す。800で、ローカライズした分散データストアシステムと中央データストアシステムを受け取る。802で、第1のローカル分散データストアを、その場所でのユーザ行動に基づくユーザデータで更新する。これは音声、訪問場所、各場所でのユーザ行動、および音声、ジェスチャ、等を含むことができる。804で、データがローカルに記憶される際、および/または同期がシステムの帯域に及ぼす影響が最小である時点で、ユーザデータを分散データストアから中央データストアにアップロードする。806で、中央データストアは更新情報を他の分散データストアに同期し、訪問された場合にこれら場所でのユーザ翻訳経験を高めることができる。
図9はユーザ音素モデルおよびユーザ言語モデルを生成するための適応ASRのトレーニング方法を示す。900でシステムおよび/またはユーザはトレーニングセッションを開始する。902で、システムはユーザに単語を話すよう指示する。これらの単語は、システムによる曖昧さ解決に重要であると思われる、例えばユーザの発音、イントネーション、語尾変化、等に起因する多数の側面を取り込むことができるように、システムによって選択される。904でシステムは話された単語を受信する。906で、システムは受信した単語を処理し、システムが以前に指示したものとそれらが一致するか否かを決定する。一致しない場合、フローは908に進み、システムはユーザに単語を繰り返すことを要求する。これは、要求した単語を話す際にシステムがユーザに割り込むことを含むことができる。910でチェックした際に単語が一致する場合、フローは912に進み、システムはユーザ情報を記録および記憶し、音素および/またはユーザ言語モデルを更新する。908で、一致するものがある場合、フローは912に進んで記憶および更新プロセスを実施する。ユーザによる2番目の発音が一致しない場合、910で、システムは例えば同一または同様な結果を実現する他の単語または言葉を用いて、満足な結果が得られるまで908に戻ってプロセスを繰り返すことができる。
図10は、ユーザとFLSの両方を利用した音声認識トレーニング方法を示す。1000で、トレーニングセッションをユーザおよびFLSの存在下で開始する。これはシステムが開始するかまたはユーザが開始することができる。1002で、システムは1つまたは複数の所定の単語および/または文を話すようユーザに指示する。1004で、システムは話された単語および/または文を処理し、それらをFLSの言語に翻訳する。1006で、システムは翻訳したデータをFLSに出力する。これは機械発話信号、ディスプレイ上のテキストとしての表現、ならびに/またはオーディオおよびテキストの両方で行うことができる。1008で、FLSは単語および/または文の正確性を確認するためにフィードバックを与える。1010で、どの場合でも、トレーニングセッションに関連付けられたデータがASRの分析および適応更新のために記憶され、将来の音声翻訳に用いられる。
図11は、少なくとも2つの異言語ユーザ間で翻訳を促進する翻訳コンポーネントの例1100の略ブロック図を示す。翻訳コンポーネント1100は、少なくともユーザのコンテキスト1104および/またはユーザのコンセプトを表す検知入力データの検知、取り込み、および処理の使用可能性を促進する、検知システムサブコンポーネント1102を含む。そのサポートとして翻訳コンポーネント1100は、通常、ユーザコンテキストおよび/またはコンセプトについての情報を収集するための複数の様々な検知サブシステムを表す、検知システムサブコンポーネント1102(または様式(modalities))を含む。例えば、イメージングコンポーネント(またはサブシステム)1106(例えば、カメラまたは撮像装置)を使用して、(コンテンツに沿った)メニュー、道路標識、またはユーザのコンセプトおよび/またはコンテキスト1104に関する手掛りを与えることができる任意の他の項目の、スナップショット写真を撮ることができる。ビデオコンポーネント1108(例えば、ビデオカメラ)はコンテキスト1104のビデオクリップの取り込みを促進する。その後、ビデオ処理を使用してユーザのコンセプトおよび/またはコンテキスト1104に関する手掛りを与えることができる。オーディオコンポーネント(例えば、マイクロフォンおよび付属電子機器)1110は、特定のコンテキスト1104にネイティブであることができるオーディオデータの記録を促進する。
音声コンポーネント1112はユーザまたは他者の音声を処理して認識する。従って、本コンポーネント1112は、入力音声言語の認識を促進する言語コンポーネントのライブラリ(図示せず)も含むことができる。上記音声を、誤りを含むかまたは含まずにテキストに変換することができる。光学認識コンポーネント(OCR)1114は、例えばイメージコンポーネント1106およびビデオコンポーネント1108により取り込んだ画像化テキストを処理する。上述のように、ユーザはコンテキストおよびコンテンツに関する手掛りとなる様々なデータを取得することで翻訳の正確性を高めることができる。一例において、ユーザは道路標識、ビジネスサイン、メニューのスナップショットを取り、そのテキストを処理して理解可能な翻訳結果の成功確率を高めることができる。
検知サブシステム1102は検索コンポーネント1116も含むことができる。検索コンポーネント1116を手動または自動で起動して、コンテキストおよび/またはコンテンツの情報に関わるデータの検索を実施することができる。検索はローカルデータストア(図示せず)に記憶したデータの局所検索であることができる。代替的に、またはそれと組み合わせて、ネットワーク検索エンジンを利用して検索を無線および/有線の形態(例えば、インターネット)上で行うことができる。いずれの場合も、検索コンポーネント1116は、検知サブシステム1102の任意のコンポーネントからクエリ用の検索語を受信することができる。別の実装では、検知サブシステム1102のうち選択したものから出力データを受信および処理する別のサブシステム(図示せず)より、検索語を生成することができる。
検知サブシステム1102はジェスチャコンポーネント1118を含むこともできる。ジェスチャコンポーネント1118は、イメージングコンポーネント1106および/またはビデオコンポーネント1108により取り込んだユーザジェスチャの処理を促進する。ジェスチャ認識を利用して、例えば入力の認識、緊急度、および/または感情的な対話を強化することができる。位置コンポーネント1120はユーザの地理的位置の判定を促進する。本コンポーネント1120は全地球測位システム(GPS)技術、および/またはIEEE802.11のような他の適切な三角測量技術、Wi−Fi信号、および上記のコンテキスト(状況)情報を含むことができる。上記のコンテキスト情報は、装置が移動中か否か(加速度計またはGPSにより検出)、装置近傍の大気温度、会話が検出されたか否か、他の人々が1つまたは複数の技術を通して認識または特定されたか否か、等に関する。または、位置コンポーネント1120は1つまたは複数の他の検知サブシステム1102と協力して機能し、ユーザの位置を抽出することができる。例えば、イメージングコンポーネント1106のイメージ処理、OCRコンポーネント1114のOCR出力、および検索コンポーネント1116の結果に基づいて、場所がXであることを或る程度の成功確率で推定することができる。
翻訳コンポーネント1100は推論コンポーネント1122を含むこともできる。推論コンポーネント1122は、検知システム1102からの検知データを処理して、可能性のある手掛りを導出し、ユーザのコンセプトおよび/またはコンテキスト1104に関する推論を展開および生成することができる。翻訳コンポーネント1100は音素モデルコンポーネント1124も含むことができる。音素モデルコンポーネント1124は言語交換中にユーザおよび/またはFLSの音声の特徴を記憶および更新する。さらに、ユーザに対してカスタマイズされ、任意の所与の状況および/または位置に関してユーザ言語を定義するユーザ言語モデルコンポーネント1126を生成する。最終的には、翻訳コンポーネント1100はユーザとFLSとの間で単語、言葉、語句および/または文の理解可能な翻訳を促進する。
図12を参照する。別態様に従うシミュレータ教育を使用するシステム1200を示してある。このアーキテクチャは本発明の別態様において、ユーザに外国語の教育を提供するシミュレーションコンポーネント1202を使用することができる。シミュレーションコンポーネント1202は適応ASRコンポーネント102、履歴アクティビティコンポーネント104、およびプッシュ型言語機会コンポーネント106のうち任意のものと相互作用し、協調して動作することができる。シミュレーションコンポーネント1202は、指示される言葉、単語、語句、および/または文を外国語で話すことをユーザの言語でユーザに指示するように動作し、それに応じてユーザは対応する翻訳を外国語で発話する。システム1200は次いでユーザのレスポンスを処理し、ユーザの教育プロセスの一部として、イントネーション、単語の使い方、文の構造、等における変更点を提示することができる。
これは、ユーザトレーニングを実施可能な多数の様々なシナリオのうちの一例に過ぎない。例えば、シミュレーションコンポーネント1202はユーザがそのユーザの言語で翻訳を提供することに応じて、そのユーザに外国語で指示することができる。別の例では、シミュレーションコンポーネント1202はユーザが同一の言葉、語句、および/または文を外国語で話すことに応じて、システムが出力した言葉、語句、および/または文を外国語で繰り返すようユーザに指示する。システム1200は次いでユーザの音声を分析し、正確な話し言葉の外国語をより良く反映する補正をイントネーション、強調、語尾変化、等の形で提示する。上記の教育データを次いで履歴データストア上に記憶し、ユーザ音素および言語モデルのさらなる発展に使用し、ユーザによる将来の翻訳交換に使用することができる。
図13は別態様に従ってユーザに外国語を教育する方法を示す。1300で、シミュレータトレーニングを開始する。これはユーザにより手動で開始するか、またはシステムにより自動で開始することができる。1302で、初めてのユーザの場合、システムは自身を訓練してユーザの音声の特徴を学習し、個別のユーザ音素および言語モデルを開発する。1304で、システムはユーザに単語、単語の集合、語句、および/または文を発するよう指示する。1306で、システムは少なくともユーザ音素および言語モデルに照らしてユーザのレスポンスを受信および処理する。1308で、システムは任意の誤り、曖昧さおよび不正確さを計算し、これらをユーザとの往復の音声認識で解決する。1310で、或るユーザ学習セッションにおいて、システムは(例えば、機械発話信号、テキストによる表示、および/またはその両方を通して)ユーザに翻訳を提供して認識させる。別の言語セッションでは、システムはユーザが対応する外国語翻訳で応答することを要求する。1312で、システムはユーザの翻訳の正確性に関してユーザにフィードバックを与える。
図14は、本発明に従って1つまたは複数の特徴の自動化を促進する機械学習・推論(MLR:machine learning and reasoning)コンポーネント1402を使用するシステム1400を示す。本発明は(例えば選択と関連して)人工知能を基板とする多様な理論体系を使用して、様々な態様を実行することができる。例えば、システムおよび/またはユーザトレーニングにおいてどの言葉、言葉の集合、語句、および/または文を使用すべきかを決定するプロセスを、自動分類システムおよびプロセスを通して促進することができる。
分類子は、入力属性ベクトルx=(x1,x2,x3,x4,xn)をクラスラベルclass(x)にマップする関数である。分類子は、入力がクラスに属すること、即ちf(x)=confidence(class(x))であることの確信性(confidence)を出力することもできる。上記の分類は確率的および/または統計ベースの分析(例えば、分析ユーティリティおよびコストへの分解)を使用して、ユーザが自動実施を望む動作の予知または推論を行うことができる。
サポートベクトルマシン(SVM:support vector machine)は使用可能な分類子の例である。SVMは可能な入力の空間の中で、トリガ入力イベントを非トリガイベントから最適な方法で分離する超平面を見つけることで動作する。直感的に、これによりトレーニングデータに同一ではないが近似したテストデータを正しく分類できる。他の有向および無向モデルの分類アプローチには例えば、ナイーブベイズ、ベイジアンネットワーク、決定木、ニューラルネットワーク、ファジーロジックモデルが含まれ、様々なパターンの独立性を与える確率的分類モデルを使用することができる。本明細書で用いる分類には、優先度モデルの開発に利用する統計的回帰も含まれる。
本明細書から容易に理解できるように、本発明は(例えば一般的なトレーニングデータを通して)明示的に訓練し、且つ(例えばユーザの振る舞いの観察、外部情報の受信を通して)暗示的に訓練した分類子を使用することができる。例えば、SVMは、分類子コンストラクタおよび特徴選択モジュール内部の学習またはトレーニング段階を通して構成される。従って、分類子を使用して多数の機能を自動的に学習および実施することができる。
適応ASRコンポーネント102、履歴アクティビティコンポーネント104およびプッシュ型機会言語コンポーネント106と相互作用する方法として、自動学習および実施は、ユーザが発した単語または言葉が正確または曖昧であると思われる時点を所定基準に従って判定することを含むが、これに限らない。別の例においてMLRコンポーネント1402は、話し言葉の外国語として所望の正確度レベルに達するために所与のユーザに対して何回対話を繰り返すべきかの判定を促進することができる。これらは、MLRコンポーネント1402を通して学習および自動的に実施可能な多数の特徴のうちの少数に過ぎない。
図15は、本発明の態様に従って翻訳を促進するPWD1500(例えば、携帯電話)の略ブロック図を示す。装置1500には、データおよび命令の制御および処理を行う1つまたは複数の内部コンポーネントと相互作用するプロセッサ1502が含まれる。プロセッサ1502がプログラムされ、装置1500内部の様々なコンポーネントを制御しかつ動作して本明細書で説明した様々な機能を実行させることができる。プロセッサ1502は複数の適切なプロセッサ(例えば、DSP-デジタル信号プロセッサ)のうち任意のものであることができ、またマルチプロセッササブシステムであってもよい。
メモリおよび記憶コンポーネント1504はプロセッサ1502とインタフェースで連結し、プログラムコードを記憶し、さらにデータ、アプリケーション、サービス、メタデータ、装置の状態、等のような情報の記憶手段として機能する。メモリおよび記憶コンポーネント1504は、検知サブシステムおよび/またはセンサから取得した検知入力データの完全なセットを少なくとも記憶するよう適切に調整した不揮発性メモリを含むことができる。従って、メモリ1504はプロセッサ1502および/または大容量記憶メモリによる高速アクセス向けのRAMまたはフラッシュメモリを含むことができる。大容量記憶メモリには、例えばテキスト、イメージ、オーディオおよび/またはビデオコンテンツを備えるギガバイトのデータを記憶可能なマイクロドライブがある。一態様によると、メモリ1504は様々なサービスに関わる情報の複数集合を記憶するのに十分な記憶容量を有し、プロセッサ1502は前記様々なサービスに対応する様々な情報集合間での交換または循環を促進するプログラムを含むことができる。
ディスプレイドライバサブシステム1508を通してディスプレイ1506をプロセッサ1502に接続することができる。ディスプレイ1506はカラー液晶ディスプレイ(LCD)、プラズマディスプレイ、タッチスクリーンディスプレイ、等であることができる。ディスプレイ1506はデータ、グラフィック、または他の情報コンテンツを提示するよう機能する。さらに、ディスプレイ1506は、ユーザが選択可能で、且つ装置1500の制御および構成を担う様々な機能を提示することができる。タッチスクリーンの例では、ディスプレイ1506は接触選択型のアイコンを表示して、ユーザの相互作用で制御および/または構成を促進することができる。
オンボード電力システム1510(例えば、バッテリパックまたは燃料電池)により、プロセッサ1502および、装置1500を形成する他のオンボードコンポーネントに電力を供給することができる。電力システム1510が故障するかまたは装置1500から切断される場合、代替電力源1512を使用してプロセッサ1502および他のコンポーネント(例えば、センサ、画像取り込み装置、等)に電力を供給することができ、またオンボード電力システム1510が充電可能な技術であればそれを充電することができる。例えば、代替電力源1512は電力変換器を通して外部グリッド接続との連結を促進することができる。プロセッサ1502を構成して電力管理サービスを提供し、例えば、電流引き込みを削減するスリープモードを誘導すること、および予期した電源障害の検知時に装置1500の順序立ったシャットダウンを開始することができる。
装置1500はデータ通信ポート1516を有するデータ通信サブシステム1514を含む。ポート1516を使用して、装置1500をリモートコンピューティングシステム、サーバ、サービス、等にインタフェースで接続する。ポート1516は、ユニバーサルシリアルバス(USB)および/またはIEEE1394のような、シリアル通信能力を与える1つまたは複数のシリアルインタフェースを含むことができる。他の技術、例えば赤外線通信ポートを利用する赤外線通信、および無線パケット通信(例えば、Bluetooth(登録商標)、Wi−Fi、およびWi−Max)も含めることができるが、これらに限らない。スマートフォンの場合、データ通信サブシステム1514は携帯電話の登録およびネットワーク通信に必要なSIM(加入者識別モジュール)のデータおよび情報を含むことができる。
装置1500はプロセッサ1502との有効な通信に無線周波数(RF)トランシーバ部1518を含むこともできる。RF部1518はRFレシーバ1520を含み、RFレシーバ1520はアンテナ1522を通してリモート装置またはシステムからRF信号を受信し、信号を復調してデジタル信号をその中に変調した形で取得する。RF部1518はRFトランスミッタ1524も含む。RFトランスミッタ1524は、例えば、ユーザ入力装置1526(例えば、キーパッド)を介した手動のユーザ入力に応じて、あるいは通信範囲への侵入検知および/または通信範囲からの退場予測または他の所定基準およびプログラムされた基準に応じて自動的に、情報(例えば、データ、サービス)をリモート装置またはシステムに送信する。
装置1500はオーディオ入出力サブシステム1528も含むことができる。オーディオ入出力サブシステム1528は、プロセッサ1502により制御され、マイクロフォンまたは同様なオーディオ入力装置(図示せず)からの音声入力を処理する。オーディオサブシステム1528はさらに、スピーカまたは同様のオーディオ出力装置(図示せず)を通して音声およびオーディオ出力信号の提示を促進する。
装置1500は認証コンポーネント1530も含むことができる。認証コンポーネント1530はプロセッサとインタフェースで接続し、装置自身および/またはリモートシステムに対するユーザ認証を促進する。プロセッサ1502は検知サブシステムブロック1532ともインタフェースで接続する。検知サブシステムブロック1532は例えば、OCRデータ、音声データ、手書きデータ、およびイメージ/ビデオデータの取り込みおよび入力を促進して、ユーザのコンテキストおよび/またはコンセプトを判定する。さらに、装置1500は1つまたは複数のアプリケーション1534(例えば、イメージングプログラム、ビデオ提示プログラム、OCRプログラム、検索エンジン、等)を含む。本発明のアーキテクチャに従ってアプリケーション1534を起動し、検知システムの動作を有効化して検知入力データを受信することができる。アプリケーションは、音素および言語モデルの作成および更新、ならびに推論分析および選択を行うプログラムを含むこともできる。
装置1500は物理インタフェースサブシステム1536も含むことができる。物理インタフェースサブシステム1536により、別システムに対して無線通信またはケーブル通信ではなく、(例えばコネクタを通して)直接的な物理接続が可能となる。
図16は、態様に従うユーザとFLS受信者との間の装置間翻訳システムを示す。ユーザ1602は(本発明の翻訳アーキテクチャを含む)携帯無線装置(PWD)1604を利用して、(本発明の翻訳アーキテクチャも含む)受信装置1608を通してFLS受信者1606と無線で通信する。ユーザ1602はユーザPWD1604に音声信号を入力する。音声信号を翻訳出力に処理し、無線で受信装置1608に通信する。受信装置1608はユーザの音声をユーザのテキストに変換する。ユーザのテキストを受信装置1608上に表示し、かつ/または翻訳したユーザの音声として受信者1606に出力することができる。同様に、ユーザ装置1604は受信者の音声を受信者のテキストに変換する。受信者のテキストをユーザ装置1604上に表示し、および/または翻訳した受信者の音声としてユーザ1602に出力することができる。
ユーザ1602および受信者1606の両方がほぼ同一のコンテキストに位置する場合、装置1604または/および1608のいずれかまたは両方は上述のコンテキストおよび/またはコンセプトの処理を実施して翻訳を強化することができる。このように、装置1604または/および1608のいずれかまたは両方の様式1610および1612をそれぞれ、所望の翻訳を生成するために使用することができる。
図17は、本発明の別態様に従って、ユーザとFLS受信者との間で利用可能な単一装置翻訳システム1700を示す。ユーザ1702およびFLS受信者1704は、例えば面と向き合ってはいるが、効率的に意思疎通できない。ユーザは装置1706に話し、装置1706はユーザの音声を処理して、受信者1704が解釈および理解可能なテキスト、記号、および/または他の媒体(例えば、イメージ、音、ビデオ、等)にする。テキスト、記号、および/または他の媒体を、テキストはユーザの言語および受信者の言語の両方で、装置1706上に表示することができる。例えば受信者が読み書きできない場合に、非テキスト媒体(例えば、記号、イメージ、音、ビデオ)を使用することができる。テキストまたは音声を説明の例で用いるときは常に、これは当事者間で何らかの形で出力または通信可能な記号および/あるいは他の媒体を含むことも同様に可能であることは本発明との関連で理解されるべきである。代替的に、またはそれと組み合わせて、ユーザの音声を受信者1704に翻訳したユーザの音声として提示することができる。同様に、装置1704は受信者の音声を受信者のテキストに翻訳し、そのテキストを装置1704上に表示すること、および/または翻訳した受信者の音声としてユーザ1702に出力することができる。装置1706はさらに、検知コンポーネント1708の形の様式も含む。本発明の態様に従って、検知コンポーネント1708の1つまたは複数を装置1704内に提供し、翻訳の改善を促進することができる。
図18を参照する。開示した翻訳アーキテクチャを実行するべく動作可能なコンピュータのブロック図を示してある。さらに、コンピュータは上述のローカルな分散データストアおよび/または中央データストアシステムの役割を果たすことができる。それらの様々な態様に対してコンテキストを追加するため、図18および以下の説明は、本発明の様々な態様の実施に適したコンピューティング環境1800の簡潔で一般的な説明を与えることを意図している。1つまたは複数のコンピュータ上で実行可能なコンピュータ実行可能命令の一般的なコンテキストで上述の説明は行われるが、当業界の技術者は本発明を他のプログラムモジュールと組み合わせて、および/またはハードウェアおよびソフトウェアの組合せとして実施することもできることを理解するであろう。
一般に、プログラムモジュールは特定のタスクを実施するかまたは特定の抽象データ型を実装するルーチン、プログラム、コンポーネント、データ構造、等を含む。さらに、当業界の技術者は本発明の方法を他のコンピュータシステム構成で実践できることを理解するであろう。そのコンピュータシステム構成には、単一プロセッサまたはマルチプロセッサのコンピュータシステム、ミニコンピュータ、メインフレームコンピュータ、およびパーソナルコンピュータ、ハンドヘルドコンピューティングデバイス、マイクロプロセッサベースまたはプログラム可能な消費家電、等が含まれ、それらの各々を1つまたは複数の関連装置に動作可能に接続することができる。
本発明の例示的な態様を、通信ネットワークを通して接続したリモート処理装置により一定のタスクを実施する分散コンピューティング環境で実践してもよい。分散コンピューティング環境では、プログラムモジュールをローカルおよびリモートのメモリ記憶装置内に置くことができる。
コンピュータは一般に様々なコンピュータ可読媒体を含む。コンピュータ可読媒体はコンピュータがアクセス可能な任意の有効な媒体であることができ、揮発性および不揮発性媒体、取り外し可能および取り外し不能媒体の両方を含む。限定ではなく例として、コンピュータ可読媒体はコンピュータ記憶媒体と通信媒体とを備えることができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータのような情報を記憶する任意の方法または技術で実装した、揮発性および不揮発性、取り外し可能および取り外し不能媒体の両方を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタルビデオディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、あるいは所望の情報を記憶するのに使用可能で且つコンピュータがアクセス可能な任意の他の媒体を含むがこれらに限らない。
通信媒体は一般にコンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータを搬送波または他の伝送メカニズムのような変調データ信号で具現化し、任意の情報配信媒体を含む。用語「変調データ信号」は、1つまたは複数の特性集合を有するかまたは信号内の情報を符号化するように変化した信号を意味する。限定ではなく例として、通信媒体は有線ネットワークまたは直接配線接続のような有線媒体、ならびに音響、RF、赤外線のような無線媒体、および他の無線媒体を含む。上記の任意の組合せもコンピュータ可読媒体の範囲に含まれるべきである。
図18を再度参照する。様々な態様を実装する例示的な環境1800はコンピュータ1802を含む。コンピュータ1802は処理ユニット1804、システムメモリ1806およびシステムバス1808を含む。システムバス1808はシステムコンポーネントを処理ユニット1804に接続する。システムコンポーネントはシステムメモリ1806を含むがこれに限らない。処理ユニット1804は様々な商業的に入手可能なプロセッサのうち任意のものであることができる。デュアルマイクロプロセッサおよび他のマルチプロセッサアーキテクチャを処理ユニット1804として使用してもよい。
システムバス1808は、(メモリコントローラを有するかまたは有さない)メモリバス、周辺バス、様々な商業的に入手可能なバスアーキテクチャのうち任意のものを用いるローカルバス、に対してさらに相互接続可能な数種のバス構造のうち任意のものであることができる。システムメモリ1806は読取専用メモリ(ROM)1810およびランダムアクセスメモリ(RAM)1812を含む。基本入出力システム(BIOS)はROM、EPROM、EEPROMのような不揮発性メモリ1810に記憶される。BIOSは、例えば起動時にコンピュータ1802内の要素間での情報転送を支援する基本ルーチンを含む。RAM1812はデータをキャッシュするスタティックRAMのような高速RAMを含むこともできる。
コンピュータ1802はさらに内部ハードディスクドライブ(HDD)1814(例えば、EIDE、SATA)を含む。内部ハードディスクドライブ1814はまた、適切な筐体(図示せず)や(例えば、取り外し可能ディスケット1818を読み書きするための)磁気フロッピーディスク(登録商標)ドライブ(FDD)および(CD−ROMディスク1822を読み出し、またはDVDのような他の大容量光媒体を読み書きするための)光ディスクドライブ1820で外部的に使用するよう構成してもよい。ハードディスクドライブ1814、磁気ディスクドライブ1816および光ディスクドライブ1820を、それぞれハードディスクドライブインタフェース1824、磁気ディスクドライブインタフェース1826および光ドライブインタフェース1828によりシステムバス1808に接続することができる。外部ドライブ実装向けのインタフェース1824は、ユニバーサルシリアルバス(USB)およびIEEE1394インタフェース技術のうち少なくとも1つまたは両方を含む。本発明では他の外部ドライブ接続技術も範囲に含まれる。
ドライブおよびその関連コンピュータ可読媒体はデータ、データ構造、コンピュータ実行可能命令、等の不揮発性記憶装置を供給する。コンピュータ1802に対して、ドライブおよび媒体は任意のデータを適切なデジタル形式で記憶する。上述のコンピュータ可読媒体の説明はHDD、リムーバブル磁気ディスケット、およびCDまたはDVDのようなリムーバブル光媒体を指すが、当業界の技術者は、ジップドライブ、磁気カセット、フラッシュメモリカード、カートリッジ、等のようなコンピュータが可読な他種の媒体を動作環境の例で使用すること、およびさらに、任意の上記媒体は開示した本発明の方法を実施するコンピュータ実行可能命令を含みうることを理解するべきである。
多数のプログラムモジュールをドライブおよびRAM1812に記憶することができる。そのプログラムモジュールには、オペレーティングシステム1830、1つまたは複数のアプリケーションプログラム1832、他のプログラムモジュール1834およびプログラムデータ1836が含まれる。オペレーティングシステム、アプリケーション、モジュールおよび/またはデータの全てまたは一部をRAM1812にキャッシュすることもできる。本発明を様々な商用的に利用可能なオペレーティングシステムまたはオペレーティングシステムの組合せで実装できることは理解されるべきである。
ユーザは、例えばキーボード1838およびマウス1840のようなポインティングデバイスといった1つまたは複数の有線/無線入力装置を通してコンピュータ1802に命令および情報を入力することができる。他の入力装置(図示せず)はマイクロフォン、IRリモートコントロール、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーン、等を含むことができる。これらおよび他の装置を、システムバス1808に接続される入力装置インタフェース1842を通して処理ユニット1804に接続することがよくあるが、パラレルポート、IEEE1394シリアルポート、ゲームポート、USBポート、IRインタフェース、等のような他のインタフェースで接続することもできる。
モニタ1844または他種の表示装置もビデオアダプタ1846のようなインタフェースを介してシステムバス1808に接続する。モニタ1844に加えて、コンピュータは一般にスピーカ、プリンタ、等の他の周辺出力装置(図示せず)を含む。
コンピュータ1802は、リモートコンピュータ1848のような1つまたは複数のリモートコンピュータに対する有線および/または無線通信を通した論理接続を用いて、ネットワーク環境で動作することができる。リモートコンピュータ1848はワークステーション、サーバコンピュータ、ルータ、パーソナルコンピュータ、ポータブルコンピュータ、マイクロプロセッサベースの娯楽機器、ピアデバイスまたは他の共通ネットワークノードであることができ、一般にコンピュータ1802に対して説明した要素の多くまたは全てを含むが、略してメモリ/記憶装置1850のみを示してある。示した論理接続は、ローカルエリアネットワーク(LAN)1852および/または広域ネットワーク(WAN)1854のようなより大きなネットワークに対する、有線/無線接続性を含む。上記のLANおよびWANネットワーク環境は職場および企業内で一般的であり、イントラネットのような企業規模のコンピュータネットワークを円滑にする。それらの全てをインターネットのようなグローバル通信ネットワークに接続してもよい。
LANネットワーク環境で使用するとき、コンピュータ1802は有線および/または無線通信ネットワークインタフェースまたはアダプタ1856を通してローカルネットワーク1852に接続する。アダプタ1856はLAN1852に対する有線または無線通信を促進することができ、無線アダプタ1856と通信するために自身の上に配置した無線アクセスポイントを含むことができる。
WANネットワーク環境で使用するとき、コンピュータ1802はモデム1858を含むことができ、またはWAN1854上で通信サーバに接続され、または例えばインターネットのようなWAN1854上で通信を確立する他の手段を有する。モデム1858は、内部または外部であるか、有線または無線装置であるかに関わらず、シリアルポートインタフェース1842を通してシステムバス1808に接続される。ネットワーク環境では、コンピュータ1802に対して相対的に示したプログラムモジュール、またはその一部をリモートメモリ/記憶装置1850に記憶することができる。示したネットワーク接続は例であって、コンピュータ間の通信リンクを確立する他の手段を使用できることは理解されるであろう。
コンピュータ1802は無線通信内に動作可能に配置した、例えばプリンタ、スキャナ、デスクトップおよび/またはポータブルコンピュータ、ポータブルデータアシスタント、通信衛星、無線で検出可能なタグに関連する装置または位置(例えば、キオスク、新聞売店、トイレ)の任意の部分および電話などの、任意の無線装置またはエンティティと通信するよう動作可能である。これは少なくともWi−FiおよびBluetooth(登録商標)無線技術を含む。従って通信は、従来のネットワークと同様に予め定義した構造であるか、または単に少なくとも2つの装置間でのアドホック通信であることができる。
Wi−Fi、またはワイヤレスフィデリティにより、家のソファ、ホテルの部屋のベッド、または職場の会議室から無線でインターネット接続が可能となる。Wi−Fiは、基地局の範囲内である任意の場所でコンピュータのような装置がデータを屋内および屋外で送受信できる携帯電話において用いられるものと同様な無線技術である。Wi−FiネットワークはIEEE802.11(a,b,g、等)と呼ばれる無線技術を使用して安全で、信頼性があり、高速な無線接続性を提供する。Wi−Fiネットワークを使用して、コンピュータを互いに接続すること、インターネット、および(IEEE802.3またはイーサネットを用いる)有線ネットワークに接続することができる。Wi−Fiネットワークは例えば、無許可の2.4および5GHz無線帯で11Mbps(802.11a)または54Mbps(802.11b)データ転送速度で動作し、または両方の帯域(デュアルバンド)を含む製品とともに動作し、その結果ネットワークは多数の職場で用いられるベーシック10BaseTの有線イーサネットのネットワークと同様な実際の性能を与えることができる。
図19を参照する。別態様に従って、音声翻訳を促進するコンピューティング環境の例1900の略ブロック図を示してある。システム1900は1つまたは複数のクライアント1902(例えば、音声入出力用のPWD)を含む。クライアント1902はハードウェアおよび/またはソフトウェア(例えば、スレッド、プロセス、コンピューティングデバイス)であることができる。クライアント1902は例えば、本発明を使用することでクッキーおよび/または関連するコンテキスト情報を記憶することができる。
システム1900は1つまたは複数のサーバ1904(例えば、ローカル分散データストアサーバおよび/または中央データストアサーバ)も含む。サーバ1904はハードウェアおよび/またはソフトウェア(例えば、スレッド、プロセス、コンピューティングデバイス)であることもできる。サーバ1904は例えば、本発明の使用により変換を実施するスレッドを保管することができる。クライアント1902とサーバ1904との間で可能な通信の1つは、複数のコンピュータプロセス間で送信するよう調整したデータパケットの形であることができる。データパケットは例えば、クッキーおよび/または関連するコンテキスト情報を含むことができる。システム1900は、クライアント1902とサーバ1904との間の通信の円滑化に使用可能な通信フレームワーク1906(例えば、インターネットのようなグローバル通信ネットワーク)を含む。
通信を有線(光ファイバを含む)および/または無線技術を通して促進することができる。クライアント1902は、クライアント1902に局所的な情報(例えば、クッキーおよび/または関連するコンテキスト情報)の記憶に使用可能な1つまたは複数のクライアントデータストア1908に動作可能に接続する。同様に、サーバ1904は、サーバ1904に局所的な情報の記憶に使用可能な1つまたは複数のサーバデータストア1910に動作可能に接続する。
上述したことは開示した本発明の例を含む。もちろん、構成要素および/または方法の考えうる組合せ全てを説明することは不可能であるが、同業者はさらに多数の組合せおよび配置が可能であることを認識するであろう。従って、本発明は添付請求項の精神および範囲内にある上記変更、修正および変形の全てを包含するよう意図している。さらに、用語“含む”が明細書または請求項のいずれかで使用される範囲では、上記用語“含む”は、請求項の中で“備える”を暫定的な語として用いる際に解釈される“備える”と同様に包含的であるものとする。
異言語ユーザ間での音声翻訳を促進するシステムを示す。 異言語ユーザ間での音声翻訳を促進する方法を示す。 本発明の別態様における適応音声認識処理の方法を示す。 本発明の別態様における適応音声認識処理の代替方法である。 本発明の態様において、ユーザと対話してコンテキストおよび/またはコンセプトデータを確認する方法を示す。 別態様において、コンテキストの決定に基づいたユーザのコンセプトに関する推論を改善する手掛りとなる検知入力データの処理方法を示す。 本発明の態様において推論処理を促進するデータストアネットワークを示す。 本発明の音声翻訳処理において、分散および中央データベースを同期する方法を示す。 ユーザ音素モデルおよびユーザ言語モデルを生成するための適応ASRのトレーニング方法を示す。 ユーザとFLSの両方を利用した音声認識トレーニング方法を示す。 少なくとも2人の異言語ユーザ間で翻訳を促進する例示的な翻訳コンポーネント1100の略ブロック図である。 別態様においてシミュレータ教育を使用するシステムを示す。 別態様においてユーザに外国語を教える方法を示す。 本発明において1つまたは複数の特徴の自動化を促進する機械学習・推論コンポーネントを使用するシステムを示す。 本発明の態様において翻訳を促進する携帯無線装置の略ブロック図である。 態様における、ユーザとFLS受信者との間の装置間翻訳システムを示す。 本発明の別態様における、ユーザとFLS受信者との間で利用可能な単一装置翻訳システムを示す。 開示した翻訳アーキテクチャを実行するよう動作可能なコンピュータのブロック図である。 別態様における、音声翻訳を促進するコンピューティング環境の例の略ブロック図である。

Claims (20)

  1. 音声翻訳を促進するシステムであって、
    現在のコンテキストの検知データを処理し、前記検知データに基づいて音声認識プロセスを促進する音声認識コンポーネントと、
    前記音声認識プロセスに関連付けられた履歴データを記憶する履歴アクティビティコンポーネントと、
    1つまたは複数の言葉のトレーニングセッションをユーザに強要することで前記音声認識プロセスを改善する言語機会コンポーネントであって、前記トレーニングセッションは、前記音声認識プロセス中に前記1つまたは複数の言葉を使用する際の成功確率を高めることを特徴とする言語機会コンポーネントと
    を備えることを特徴とするシステム。
  2. マイクロフォン、イメージキャプチャサブシステム、および位置サブシステムのうち少なくとも1つを含み、かつ、それらを表す検知データを出力する検知システムをさらに備えることを特徴とする請求項1に記載のシステム。
  3. 前記ユーザに要求を強要して曖昧さを解決する機会コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
  4. 前記ユーザの音声認識用に作成された言語モデルをさらに備えることを特徴とする請求項1に記載のシステム。
  5. 前記言語モデルに基づいて前記ユーザを理解する音素モジュールをさらに備えることを特徴とする請求項4に記載のシステム。
  6. 外国語の話し方についてユーザをトレーニングすることに用いるシミュレータコンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
  7. 前記シミュレータコンポーネントはユーザの言語で前記ユーザに指示し、対応する外国語翻訳を出力することを特徴とする請求項6に記載のシステム。
  8. 前記履歴アクティビティコンポーネントはユーザデータの中央データストアおよびローカルユーザデータのローカルデータストアのうち少なくとも1つを含むことを特徴とする請求項1に記載のシステム。
  9. 前記音声認識コンポーネントは自動的且つ適応的であることを特徴とする請求項1に記載のシステム。
  10. ユーザが自動実施を望む動作を確率的および/または統計的基準の分析を用いて予知または推論する機械学習・推論コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
  11. 請求項1に記載のシステムを実行するコンピュータ実行可能命令を記憶したコンピュータ可読媒体。
  12. 請求項1に記載のシステムを使用するポータブルコンピューティングデバイス。
  13. 請求項1に記載のシステムを使用するサーバ。
  14. 異言語のユーザ間で音声翻訳を促進するコンピュータ実装される方法であって、
    音声認識プロセス中にユーザの音声信号を受信するステップと、
    前記音声信号の分析に基づいて、ユーザコンセプトおよびユーザコンテキストのうち少なくとも1つの推論を計算するステップと、
    前記推論に従って前記音声認識プロセスを修正するステップと、
    前記ユーザと対話して曖昧な音声を解決するステップと、
    翻訳した音声を外国語話者に提示するステップと
    を備えることを特徴とする方法。
  15. 前記対話動作に基づいて、ユーザ音素モデルおよびユーザ言語モデルのうち少なくとも1つを生成し、かつ、更新する動作をさらに備えることを特徴とする請求項14に記載の方法。
  16. 前記対話動作は、音声および機械的対話の少なくとも1つを通してユーザフィードバックに反応する動作を含み、前記の曖昧な音声を解決することを特徴とする請求項14に記載の方法。
  17. 前記音声信号に加えて検知入力データを処理することで前記推論を見直す動作をさらに備えることを特徴とする請求項14に記載の方法。
  18. 前記外国語話者からのレスポンスに基づいて前記音声認識プロセスを修正する動作をさらに備えることを特徴とする請求項14に記載の方法。
  19. 異言語のユーザ間のコミュニケーションを促進するシステムであって、
    音声認識プロセス中にユーザおよび外国語話者の少なくとも一方の音声信号を受信する手段と、
    前記音声信号の分析に基づいてコンセプトおよびコンテキストの少なくとも1つの推論を計算する手段と、
    ユーザおよび外国語話者の少なくとも1つと対話して、曖昧な音声を解決する手段と、
    前記推論に従って前記音声認識プロセスを修正する手段と、
    翻訳した音声、前記音声を表す信号、および前記音声を表すイメージの少なくとも1つを前記外国語話者に提示する手段と
    を備えることを特徴とするシステム。
  20. ユーザの対話データおよび外国語話者の対話データの少なくとも1つをローカル分散データストアに記憶する手段をさらに備える請求項19に記載のシステム。
JP2008518502A 2005-06-27 2006-06-27 異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法 Pending JP2008547061A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/167,414 US7643985B2 (en) 2005-06-27 2005-06-27 Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages
PCT/US2006/024848 WO2007002606A2 (en) 2005-06-27 2006-06-27 Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages

Publications (2)

Publication Number Publication Date
JP2008547061A true JP2008547061A (ja) 2008-12-25
JP2008547061A5 JP2008547061A5 (ja) 2009-08-20

Family

ID=37568666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008518502A Pending JP2008547061A (ja) 2005-06-27 2006-06-27 異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法

Country Status (6)

Country Link
US (1) US7643985B2 (ja)
EP (1) EP1899953A4 (ja)
JP (1) JP2008547061A (ja)
KR (1) KR20080019209A (ja)
CN (1) CN101233559A (ja)
WO (1) WO2007002606A2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011210265A (ja) * 2010-03-29 2011-10-20 Intel Corp 自動負荷検出に基づく電力管理
JP2011253543A (ja) * 2010-06-03 2011-12-15 Electronics And Telecommunications Research Institute 通訳端末及び通訳端末間の相互通信を用いた通訳方法
US9514127B2 (en) 2012-09-13 2016-12-06 International Business Machines Corporation Computer implemented method, program, and system for identifying non-text element suitable for communication in multi-language environment
US10841755B2 (en) 2017-07-01 2020-11-17 Phoneic, Inc. Call routing using call forwarding options in telephony networks

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4050755B2 (ja) * 2005-03-30 2008-02-20 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
WO2007125151A1 (en) * 2006-04-27 2007-11-08 Risto Kurki-Suonio A method, a system and a device for converting speech
US8898052B2 (en) * 2006-05-22 2014-11-25 Facebook, Inc. Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer
US7849041B2 (en) * 2006-09-18 2010-12-07 Microsoft Corporation Intent prediction and response employing sensing, networking, and communication among distributed devices
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
JP4466666B2 (ja) * 2007-03-14 2010-05-26 日本電気株式会社 議事録作成方法、その装置及びそのプログラム
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
JP2009205579A (ja) * 2008-02-29 2009-09-10 Toshiba Corp 音声翻訳装置およびプログラム
US8229729B2 (en) * 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
US9361882B2 (en) * 2008-05-06 2016-06-07 Vocollect, Inc. Supervisor training terminal and monitor for voice-driven applications
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US9323854B2 (en) * 2008-12-19 2016-04-26 Intel Corporation Method, apparatus and system for location assisted translation
US8843359B2 (en) * 2009-02-27 2014-09-23 Andrew Nelthropp Lauder Language translation employing a combination of machine and human translations
KR101589433B1 (ko) * 2009-03-11 2016-01-28 삼성전자주식회사 동시 통역 시스템
US8515749B2 (en) * 2009-05-20 2013-08-20 Raytheon Bbn Technologies Corp. Speech-to-speech translation
US20100017192A1 (en) * 2009-09-26 2010-01-21 Manuel-Devadoss Smith Johnson Method and portable apparatus for performing spoken language translation using language areas of intended recipients' brain
US20110112821A1 (en) * 2009-11-11 2011-05-12 Andrea Basso Method and apparatus for multimodal content translation
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US8473277B2 (en) * 2010-08-05 2013-06-25 David Lynton Jephcott Translation station
US20120253784A1 (en) * 2011-03-31 2012-10-04 International Business Machines Corporation Language translation based on nearby devices
KR101732515B1 (ko) 2011-05-05 2017-05-24 야픈 코포레이션 근접한 모바일 디바이스 간의 교차언어 통신
US20120310622A1 (en) * 2011-06-02 2012-12-06 Ortsbo, Inc. Inter-language Communication Devices and Methods
KR101193668B1 (ko) * 2011-12-06 2012-12-14 위준성 스마트 기기를 이용한 상황 인식 기반 외국어 습득 및 학습 서비스 제공 방법
US9082403B2 (en) * 2011-12-15 2015-07-14 Microsoft Technology Licensing, Llc Spoken utterance classification training for a speech recognition system
US9691381B2 (en) * 2012-02-21 2017-06-27 Mediatek Inc. Voice command recognition method and related electronic device and computer-readable medium
US20140019126A1 (en) * 2012-07-13 2014-01-16 International Business Machines Corporation Speech-to-text recognition of non-dictionary words using location data
US8484025B1 (en) * 2012-10-04 2013-07-09 Google Inc. Mapping an audio utterance to an action using a classifier
US9305545B2 (en) * 2013-03-13 2016-04-05 Samsung Electronics Co., Ltd. Speech recognition vocabulary integration for classifying words to identify vocabulary application group
US9202459B2 (en) * 2013-04-19 2015-12-01 GM Global Technology Operations LLC Methods and systems for managing dialog of speech systems
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
US20160246929A1 (en) * 2013-10-07 2016-08-25 President And Fellows Of Harvard College Computer implemented method, computer system and software for reducing errors associated with a situated interaction
CN103770733B (zh) * 2014-01-15 2017-01-11 中国人民解放军国防科学技术大学 一种驾驶员安全驾驶状态检测方法及装置
US9552817B2 (en) * 2014-03-19 2017-01-24 Microsoft Technology Licensing, Llc Incremental utterance decoder combination for efficient and accurate decoding
US9514376B2 (en) * 2014-04-29 2016-12-06 Google Inc. Techniques for distributed optical character recognition and distributed machine language translation
US9436682B2 (en) * 2014-06-24 2016-09-06 Google Inc. Techniques for machine language translation of text from an image based on non-textual context information from the image
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
WO2017192522A1 (en) 2016-05-06 2017-11-09 Ebay Inc. Using meta-information in neural machine translation
US9996532B2 (en) * 2016-06-17 2018-06-12 Microsoft Technology Licensing, Llc Systems and methods for building state specific multi-turn contextual language understanding systems
US10223067B2 (en) * 2016-07-15 2019-03-05 Microsoft Technology Licensing, Llc Leveraging environmental context for enhanced communication throughput
WO2018020828A1 (ja) * 2016-07-28 2018-02-01 パナソニックIpマネジメント株式会社 翻訳装置および翻訳システム
US10503832B2 (en) * 2016-07-29 2019-12-10 Rovi Guides, Inc. Systems and methods for disambiguating a term based on static and temporal knowledge graphs
US10229113B1 (en) * 2016-09-28 2019-03-12 Amazon Technologies, Inc. Leveraging content dimensions during the translation of human-readable languages
US10261995B1 (en) 2016-09-28 2019-04-16 Amazon Technologies, Inc. Semantic and natural language processing for content categorization and routing
US10275459B1 (en) 2016-09-28 2019-04-30 Amazon Technologies, Inc. Source language content scoring for localizability
US10223356B1 (en) 2016-09-28 2019-03-05 Amazon Technologies, Inc. Abstraction of syntax in localization through pre-rendering
US10235362B1 (en) 2016-09-28 2019-03-19 Amazon Technologies, Inc. Continuous translation refinement with automated delivery of re-translated content
US10191903B2 (en) 2016-09-30 2019-01-29 Microsoft Technology Licensing, Llc Customized and contextual translated content for travelers
KR102637337B1 (ko) 2016-12-09 2024-02-16 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법
CN107066453A (zh) * 2017-01-17 2017-08-18 881飞号通讯有限公司 一种网络语音通信中实现多语言互译的方法
KR102304701B1 (ko) 2017-03-28 2021-09-24 삼성전자주식회사 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치
US10497364B2 (en) * 2017-04-20 2019-12-03 Google Llc Multi-user authentication on a device
CN107170453B (zh) * 2017-05-18 2020-11-03 百度在线网络技术(北京)有限公司 基于人工智能的跨语种语音转录方法、设备及可读介质
US10083006B1 (en) * 2017-09-12 2018-09-25 Google Llc Intercom-style communication using multiple computing devices
KR102369416B1 (ko) * 2017-09-18 2022-03-03 삼성전자주식회사 복수의 사용자 각각에 대응하는 개인화 레이어를 이용하여 복수의 사용자 각각의 음성 신호를 인식하는 음성 신호 인식 시스템
US10685648B2 (en) * 2017-11-08 2020-06-16 International Business Machines Corporation Sensor fusion model to enhance machine conversational awareness
US11016729B2 (en) 2017-11-08 2021-05-25 International Business Machines Corporation Sensor fusion service to enhance human computer interactions
CN107886940B (zh) * 2017-11-10 2021-10-08 科大讯飞股份有限公司 语音翻译处理方法及装置
WO2019090781A1 (zh) * 2017-11-13 2019-05-16 深圳市沃特沃德股份有限公司 语言翻译方法、装置和翻译设备
US10423727B1 (en) 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
US11763821B1 (en) * 2018-06-27 2023-09-19 Cerner Innovation, Inc. Tool for assisting people with speech disorder
CN111194463A (zh) * 2018-08-27 2020-05-22 北京嘀嘀无限科技发展有限公司 用于在移动设备上显示目的地的人工智能系统和方法
US11049501B2 (en) * 2018-09-25 2021-06-29 International Business Machines Corporation Speech-to-text transcription with multiple languages
CN109286725B (zh) * 2018-10-15 2021-10-19 华为技术有限公司 翻译方法及终端
CN111368559A (zh) * 2020-02-28 2020-07-03 北京字节跳动网络技术有限公司 语音翻译方法、装置、电子设备及存储介质
KR20210150842A (ko) * 2020-06-04 2021-12-13 삼성전자주식회사 음성 또는 문자를 번역하는 전자 장치 및 그 방법
US20230026467A1 (en) * 2021-07-21 2023-01-26 Salah M. Werfelli Systems and methods for automated audio transcription, translation, and transfer for online meeting
WO2023136490A1 (ko) * 2022-01-11 2023-07-20 삼성전자 주식회사 발음에 기반한 이종 언어의 텍스트 검색 방법 및 이를 적용한 전자 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001502828A (ja) * 1996-10-18 2001-02-27 ジェダンケン コーポレイション 言語間の翻訳のための方法および装置
JP2002032370A (ja) * 2000-07-18 2002-01-31 Fujitsu Ltd 情報処理装置
JP2002082947A (ja) * 2000-09-11 2002-03-22 Nec Corp 自動通訳システム、自動通訳方法、および自動通訳用プログラムを記録した記憶媒体
JP2004109563A (ja) * 2002-09-19 2004-04-08 Fujitsu Ltd 音声対話システム、音声対話のためのプログラムおよび音声対話方法
JP2005091575A (ja) * 2003-09-16 2005-04-07 Toyota Central Res & Dev Lab Inc 話者適応装置及びプログラム

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5936795B2 (ja) * 1979-08-17 1984-09-05 シャープ株式会社 電子辞書
US5493692A (en) * 1993-12-03 1996-02-20 Xerox Corporation Selective delivery of electronic messages in a multiple computer system based on context and environment of a user
US5555376A (en) * 1993-12-03 1996-09-10 Xerox Corporation Method for granting a user request having locational and contextual attributes consistent with user policies for devices having locational attributes consistent with the user request
US5812865A (en) * 1993-12-03 1998-09-22 Xerox Corporation Specifying and establishing communication data paths between particular media devices in multiple media device computing systems based on context of a user or users
US6035104A (en) 1996-06-28 2000-03-07 Data Link Systems Corp. Method and apparatus for managing electronic documents by alerting a subscriber at a destination other than the primary destination
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6791580B1 (en) * 1998-12-18 2004-09-14 Tangis Corporation Supplying notifications related to supply and consumption of user context data
US7107539B2 (en) * 1998-12-18 2006-09-12 Tangis Corporation Thematic response to a computer user's context, such as by a wearable personal computer
US6842877B2 (en) * 1998-12-18 2005-01-11 Tangis Corporation Contextual responses based on automated learning techniques
US7076737B2 (en) * 1998-12-18 2006-07-11 Tangis Corporation Thematic response to a computer user's context, such as by a wearable personal computer
US6513046B1 (en) * 1999-12-15 2003-01-28 Tangis Corporation Storing and recalling information to augment human memories
US7055101B2 (en) * 1998-12-18 2006-05-30 Tangis Corporation Thematic response to a computer user's context, such as by a wearable personal computer
US6812937B1 (en) * 1998-12-18 2004-11-02 Tangis Corporation Supplying enhanced computer user's context data
US7137069B2 (en) * 1998-12-18 2006-11-14 Tangis Corporation Thematic response to a computer user's context, such as by a wearable personal computer
US6747675B1 (en) * 1998-12-18 2004-06-08 Tangis Corporation Mediating conflicts in computer user's context data
US6801223B1 (en) * 1998-12-18 2004-10-05 Tangis Corporation Managing interactions between computer users' context models
US6466232B1 (en) * 1998-12-18 2002-10-15 Tangis Corporation Method and system for controlling presentation of information to a user based on the user's condition
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
JP2001101187A (ja) * 1999-09-30 2001-04-13 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
US6438524B1 (en) * 1999-11-23 2002-08-20 Qualcomm, Incorporated Method and apparatus for a voice controlled foreign language translation device
AU2001249768A1 (en) * 2000-04-02 2001-10-15 Tangis Corporation Soliciting information based on a computer user's context
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US20020044152A1 (en) * 2000-10-16 2002-04-18 Abbott Kenneth H. Dynamic integration of computer generated and real world images
US20030046401A1 (en) * 2000-10-16 2003-03-06 Abbott Kenneth H. Dynamically determing appropriate computer user interfaces
US20020054130A1 (en) * 2000-10-16 2002-05-09 Abbott Kenneth H. Dynamically displaying current status of tasks
US20030144832A1 (en) * 2002-01-16 2003-07-31 Harris Henry M. Machine translation system
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling
WO2004049196A2 (en) * 2002-11-22 2004-06-10 Transclick, Inc. System and method for speech translation using remote devices
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001502828A (ja) * 1996-10-18 2001-02-27 ジェダンケン コーポレイション 言語間の翻訳のための方法および装置
JP2002032370A (ja) * 2000-07-18 2002-01-31 Fujitsu Ltd 情報処理装置
JP2002082947A (ja) * 2000-09-11 2002-03-22 Nec Corp 自動通訳システム、自動通訳方法、および自動通訳用プログラムを記録した記憶媒体
JP2004109563A (ja) * 2002-09-19 2004-04-08 Fujitsu Ltd 音声対話システム、音声対話のためのプログラムおよび音声対話方法
JP2005091575A (ja) * 2003-09-16 2005-04-07 Toyota Central Res & Dev Lab Inc 話者適応装置及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011210265A (ja) * 2010-03-29 2011-10-20 Intel Corp 自動負荷検出に基づく電力管理
JP2011253543A (ja) * 2010-06-03 2011-12-15 Electronics And Telecommunications Research Institute 通訳端末及び通訳端末間の相互通信を用いた通訳方法
US9514127B2 (en) 2012-09-13 2016-12-06 International Business Machines Corporation Computer implemented method, program, and system for identifying non-text element suitable for communication in multi-language environment
US10841755B2 (en) 2017-07-01 2020-11-17 Phoneic, Inc. Call routing using call forwarding options in telephony networks
US11546741B2 (en) 2017-07-01 2023-01-03 Phoneic, Inc. Call routing using call forwarding options in telephony networks

Also Published As

Publication number Publication date
EP1899953A4 (en) 2009-06-17
KR20080019209A (ko) 2008-03-03
WO2007002606A2 (en) 2007-01-04
US7643985B2 (en) 2010-01-05
EP1899953A2 (en) 2008-03-19
US20060293893A1 (en) 2006-12-28
CN101233559A (zh) 2008-07-30
WO2007002606A3 (en) 2007-12-27

Similar Documents

Publication Publication Date Title
JP2008547061A (ja) 異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法
US11403466B2 (en) Speech recognition accuracy with natural-language understanding based meta-speech systems for assistant systems
KR102117574B1 (ko) 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템
WO2021196981A1 (zh) 语音交互方法、装置和终端设备
CN109243432B (zh) 话音处理方法以及支持该话音处理方法的电子设备
US8219406B2 (en) Speech-centric multimodal user interface design in mobile technology
US11289074B2 (en) Artificial intelligence apparatus for performing speech recognition and method thereof
JP2022547704A (ja) 訓練を減らした意図認識技術
EP3895161B1 (en) Utilizing pre-event and post-event input streams to engage an automated assistant
US20160110350A1 (en) Device for Extracting Information From a Dialog
US11861315B2 (en) Continuous learning for natural-language understanding models for assistant systems
US20200051560A1 (en) System for processing user voice utterance and method for operating same
KR20190110072A (ko) 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
CN110047481A (zh) 用于语音识别的方法和装置
US20210110815A1 (en) Method and apparatus for determining semantic meaning of pronoun
CN112735418B (zh) 一种语音交互的处理方法、装置、终端及存储介质
US20210409234A1 (en) Using A Single Request for Multi-Person Calling in Assistant Systems
KR20190096308A (ko) 전자기기
US20230186914A1 (en) Task-oriented dialog suitable for a standalone device
CN113129867A (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN110809796B (zh) 具有解耦唤醒短语的语音识别系统和方法
KR20130052800A (ko) 음성 인식 서비스를 제공하는 장치 및 그의 오류 발음 검출 능력 향상을 위한 음성 인식 방법
US20220358917A1 (en) Multi-device Mediation for Assistant Systems
US11842737B2 (en) Automated assistant interaction prediction using fusion of visual and audio input
CN112230829A (zh) 用于计算设备上的自动服务激活的系统和方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090629

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120210