JP2015516587A

JP2015516587A - 対話から情報を抽出するデバイス

Info

Publication number: JP2015516587A
Application number: JP2014560989A
Authority: JP
Inventors: ワイベル、アレクサンダー
Original assignee: フェイスブック，インク．
Priority date: 2012-03-08
Filing date: 2013-03-04
Publication date: 2015-06-11
Anticipated expiration: 2033-03-04
Also published as: IL234477A; AU2013230453B2; US10606942B2; CA2872790A1; JP6058039B2; WO2013134106A3; AU2016269531A1; US20170046326A1; AU2016269531B2; US9514130B2; CN104380375B; AU2013230453A1; CA2872790C; CN104380375A; US9257115B2; US10318623B2; US20130238312A1; EP2823478B1; MX2014010795A; WO2013134106A2

Abstract

２人の話者の間の人間対人間の単一言語または複数言語の対話中に情報を抽出するコンピュータ実装されるシステムおよび方法を開示する。第２の話者による認識された音声（またはその翻訳）および／または認識された第１の話者による音声（またはその翻訳）が抽出される。抽出された情報は、データストアに記憶される電子フォームに入力される。

Description

本発明は、対話から情報を抽出するデバイスに関する。

音声通信デバイスおよび音声翻訳デバイスは、お互いの言語を理解しない２人（またはそれ以上）の人間の間のコミュニケーションの障害に橋を渡すために働く。これは、少なくとも１つの言語方向における少なくとも１つの音声翻訳システムが、（１）音声認識エンジン、（２）機械翻訳エンジン、および（３）他方の言語でリスナに出力を提示する出力生成インタフェース（そのような出力は、リンクされたウェブクライアント上、ヘッドアップディスプレイ上、プロジェクタ上、特殊なオーディオスピーカ上の合成音声または出力テキスト、その他などによって表すことができる）の組合せから構成される。そのようなシステムの目的は、人間対人間の通信を提供すること、すなわち１人の話者によって表された情報であるアイデアを他の言語でリスナに伝えることである。音声翻訳システムを開示する従来の特許文献は、そのすべてが本願明細書に援用される、特許文献１、特許文献２、特許文献３、特許文献４、特許文献５、特許文献６、特許文献７、および特許文献８を含む。代替案では、データ入力用のディクテーションシステムまたはヒューマン−マシンダイアログシステム（ｈｕｍａｎ−ｍａｃｈｉｎｅｄｉａｌｏｇｓｙｓｔｅｍ）などの記録のためのシステムが提示された。しかし、人間対人間の対話は、しばしば、記録またはデータ入力にその後に必要とされる可能性がある情報を既に含む。

米国特許第５，７１２，９５７号明細書米国特許第６，３２４，５１０号明細書米国特許第６，９６３，８３７号明細書米国特許第８，０９０，５７０号明細書米国特許第８，２０４，７３９号明細書米国特許出願公開第２００７／０，２７１，０８８号明細書米国特許出願公開第２００８／０，１２０，０９１号明細書米国特許出願公開第２０１１／０，３０７，２４１号明細書

対話のプロセスで伝えられる情報が、さまざまな情報処理タスクでさらに使用され、処理される、多数の情況がある。現在、そのような情報は、通常、ヒューマン−マシンインタフェースの異なるシステムに入力され、追加され、または再入力され、したがって、無駄であり、時間がかかる。しかし、認識された対話情報を、人間対人間の会話を「聴く」ヒューマン−マシンインタフェースに直接に活用することもできるはずである。

したがって、本願で提案されるのは、情報が人間対人間の対話から黙示的に抽出される、統合され組み合わされた設計である。言語翻訳の目的で音声翻訳器で使用される人間対人間の対話処理技術を使用して、言語を横断する（クロスリンガルな）対話ならびに単一言語対話から情報を抽出するのを助けることもできる。本願では、２人（またはそれ以上）の対話パートナから収集された情報を使用して、会話の過程中に記録を完成させまたは補助サービスを直接にトリガし、これによって時間を節約し、望ましくない妨害を避ける技術を説明する。したがって、本願は、１つの全般的な態様で、音声翻訳デバイスの構成
要素になり、さまざまな補助機械サービスにのうちにまたは明示的にではあるが人間対人間のコミュニケーションの副次的効果として伝える、装置を開示する。そのようにすることで、装置は時間を節約し、情報収集をより効果的かつ効率的なものにする。

たとえば、医療任務で使用される音声翻訳デバイスにおいて、２人の話者（医師および患者）は、その患者が経験している可能性がある病気を議論している場合がある。そのような対話の過程で、医師は、「熱がありますか」、「頭が痛いですか」、または「アレルギがありますか」などの質問を行う場合があり、これらは、すべてが診断の一部である。応答を患者のレポートまた診断書に入力するのではなく、結果の治療を書き留めるのでもなく、本発明の実施形態を使用して、そのようなレポートを人間対人間の対話中に自動的に生成することができる。本発明の実施形態は、人間対人間の対話の副次的効果として情報をレコードに抽出することによって知識労働者の労力を改善することができ、あるいは、人間対人間の対話からのそのような情報のレコードへの速やかで効率的なマルチモーダル転送を可能にすることができ、かつ／またはレコード内のそのような情報の人間対人間の対話中のシームレスな訂正の補足データ入力を可能にすることができる。

さらに、本技法を、人間対人間の対話レコードに基づく後編集ステップとして適用することができる。そのような組み合わされた人間対人間の対話およびヒューマン−マシンダイアログの１つの重要な態様は、誤りの処理である。すべての情報が、正しく認識され、翻訳されるわけではなく、実質的に正しく抽出され、所望のレコードに書き込まれるわけではない。その場合に、人間の介入が、結果のレコードを検証し、訂正するために、必要である可能性がある。ある種の実施形態では、さまざまなマルチモーダル誤り修復技法を、レコードを訂正するために使用することができる。

もう１つの全般的な態様では、本発明は、第１の言語を話す第１の話者と第２の言語を話す第２の話者との間の人間対人間の対話の音声翻訳中に発生する曖昧さを解消するシステムおよび方法を対象とする。音声認識プロセスまたは音声翻訳プロセスのいずれかの一部として曖昧さが検出される時に、曖昧さを除去するクエリが、参加者（たとえば、話者）に発行される。曖昧さを除去するクエリは、応答が、曖昧さを解消し、音声翻訳プロセスがより高い信頼度で継続することを可能にするようにするために、言葉で表される。タッチスクリーンディスプレイを使用して、曖昧さを除去するクエリを発行し、話者の応答を受け取ることができる。

本発明のさまざまな実施形態を、本明細書で、次の図面に関連して例として説明する。

本発明のさまざまな実施形態による音声翻訳デバイスを示す図。本発明のさまざまな実施形態による音声翻訳デバイスを示す図。本発明のさまざまな実施形態による音声翻訳デバイスを示す図。本発明のさまざまな実施形態による音声翻訳デバイスを示す図。本発明のさまざまな実施形態による音声翻訳デバイスを示す図。本発明のさまざまな実施形態による情報抽出モジュールのプロセスフローを示す図。本発明のさまざまな実施形態による音声翻訳デバイスを示す図。本発明のさまざまな実施形態による、対話型曖昧さ除去モジュールのプロセスフローを示すフローチャート。本発明のさまざまな実施形態による、人間対人間の対話（２言語、多言語、または単一言語）から情報を抽出し、補完し、訂正する対話型ユーザインタフェースを示す図。本発明のさまざまな実施形態による、音声翻訳デバイスを示すブロック図。

図１は、本発明のさまざまな実施形態による、情報抽出を用いる音声翻訳デバイス１２を示す図である。音声翻訳デバイス１２は、逐次的な同時翻訳モードで動作する、たとえば、２人（またはそれ以上）の話者のそれぞれからの音声を逐次的にまたは同時に翻訳するものとすることができる。図１では、２つの言語による２人の話者が示されている（すなわち、２方向システム）が、このデバイスを、複数の話者（たとえば、複数（３人以上）話者システム）に拡張することができる。図１の実施形態では、言語１の話者１からの入力言語（または発声）が、言語１の自動音声認識エンジン（ＡＳＲ１）に入力される。ＡＳＲ１は、言語１の入力音声を、たとえば従来の自動音声認識技術を使用して、言語１のテキストに変換する。ＡＳＲ１から出力されるテキストが、機械翻訳エンジン（ＭＴ１）に入力され、このＭＴ１は、言語１のテキストを言語２に翻訳する。ＭＴ１からの言語２の翻訳された音声が、テキストディスプレイ１４に出力され（たとえば、コンピュータモニタ、スマートフォンまたは他のポータブルコンピュータ上のモニタ、その他など）、かつ／または言語２のテキスト−音声シンセサイザ（ＴＴＳ２）を使用してスピーカ１６によって言語２の音声で出力される。

同様に、もう１つの方向では、言語２の話者２からの入力音声が、言語２の自動音声認識エンジン（ＡＳＲ２）に入力される。ＡＳＲ２は、言語２の入力音声を、たとえば従来の自動音声認識技術を使用して、音声２のテキストに変換する。ＡＳＲ２から出力されたテキストは、機械翻訳エンジン（ＭＴ２）に入力され、このＭＴ２は、言語２のテキストを言語１に翻訳する。ＭＴ２からの言語１の翻訳された音声を、その後、テキストディスプレイ１４に出力し、かつ／または言語１のテキスト−音声シンセサイザ（ＴＴＳ１）を使用してスピーカ１６によって言語１の音声で出力することができる。やはり、追加の言語方向での複数の追加の構成を、用途および展開に応じて追加して、複数当事者および／または多言語の対話もしくは会議を可能にすることができる。

さらに、各方向は、情報抽出モジュールを含んでおり、言語１に対してＩＥＭ１、言語２に対してＩＥＭ２が対応する。ＩＥＭ１は、言語１のＡＳＲ１からのテキスト出力を受け取り、ＩＥＭ２は、言語２のＡＳＲ２からのテキスト出力を受け取る。さらに、さまざまな実施形態では、図１に示されているように、ＩＥＭ１は、ＭＴ１からの出力も受け取ることができ、ＩＥＭ２は、ＭＴ２からの出力も受け取ることができる。ＩＥＭは、人間対人間の対話から関連情報を抽出するように構成される。

一実施形態では、ＩＥＭは、セマンティック文法によってＡＳＲエンジン（またはＭＴ）からのテキスト文（１つまたは複数）を解析するために、フォーマッティングステップおよび解析ステップ（ＰＡＲＳ）によってそれぞれのＡＳＲ（またはＭＴ）からのそれぞれのテキスト入力を処理する。さまざまな実施形態では、ＩＥＭは、ＡＳＲエンジンからのテキストを解析するのにフォニックス（Ｐｈｏｅｎｉｘ）パーサを使用することができる。Ｐｈｏｅｎｉｘパーサに関するさらなる詳細は、両方が全体として本願明細書に援用される、ダブリュ．ワード（Ｗ．Ｗａｒｄ）、「自然対話における情報の抽出（ＥｘｔｒａｃｔｉｎｇＩｎｆｏｒｍａｔｉｏｎｉｎＳｐｏｎｔａｎｅｏｕｓＳｐｅｅｃｈ）」、音声言語のインターナショナルカンファレンスの報告書（Ｐｒｏｃｅｅｄｉｎｇｓ
ｏｆＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｏｋｅｎＬａｎｇｕａｇｅ）、１９９４年およびダブリュ．ワード（Ｗ．Ｗａｒｄ）、「自然対話の理解：Ｐｈｏｅｎｉｘシステム（ＵｎｄｅｒｓｔａｎｄｉｎｇＳｐｏｎｔａｎｅｏｕｓ
Ｓｐｅｅｃｈ：ｔｈｅＰｈｏｅｎｉｘＳｙｓｔｅｍ）」、ＩＣＡＳＳＰ’９１の報告書（ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＣＡＳＳＰ’９１）、１９９１年に見出すことができる。代替案では、ある予測可能な種類の情報だけが抽出される（たとえば、名前、
数）場合には、クラス・タガー（ｃｌａｓｓｔａｇｇｅｒ）およびテキスト処理モジュールまたは固有表現タガー（ｎａｍｅｄｅｎｔｉｔｙｔａｇｇｅｒ）など、より単純な配置が、情報抽出に十分である可能性がある。ＩＥＭは、所望の情報クラスの発生を検出し、さらなる処理に適する内部表現に変換することができる。たとえば、文「Ｉａｍ
ｆｉｆｔｙｓｉｘｙｅａｒｓｏｌｄ（私は５６歳です）」では、クラス・タガーの役割を、数（５６）の出現を検出することおよび文字列「ｆｉｆｔｙｓｉｘ」をさらなる処理に使用可能な数値エントリ「５６」に変換するテキストプロセッサとすることができる。

図６は、さまざまな実施形態によるＩＥＭのプロセスフローを示すフローチャートである。ステップ６０では、解析ステップが、話された文の役割または言語行為に対応するセマンティックフレームを割り当てることができ、ステップ６２では、その文中のキーワード（１つまたは複数）をそのフレーム内のセマンティックスロットにマッピングすることができる。ステップ６４では、セマンティックフレームおよびセマンティックスロットを電子フォームの適当なエントリにコピーすることができ、フォームは、その後、結果のレポートを構成する。フォーム２８は、好ましくは、言語１または言語２のいずれかで記述される。議論の同一のために、言語１で記述されると仮定すると、フォーム２８は、話者１からの言語１の認識された単語および／または言語２から言語１に翻訳された話者２からの翻訳された単語を投入される。フォームは、遠隔のまたはローカルのデータベース２６など、音声対話抽出システム１２のデータストア内に記憶された電子フォーム２８とすることができ、このデータベース２６を、ポータブル音声対話システム１２の一次メモリもしくは二次メモリに、または遠隔のコンピュータシステムのデータストア内に記憶することができる。人間−人間の対話での話者の役割（たとえば、医師または患者）に応じて、また、適用される文法または抽出ツールに応じて、結果のフォームは、たとえば診断、治療、または処方に使用される、求められる情報レコードを含む。

もう１つの実施形態では、解析の代わりに、ＩＥＭは、音声検索語検出モジュールまたはキーワードスポッティング（ＫＷＳ）モジュールを使用し、このモジュールは、セマンティックフレームではなくキーワードを抽出し、レポートにコピーするのみである。このキーワード機能を、テキストストリング内の名前またはクラスを識別する固有表現モジュールまたはクラスタグ付けモジュールによって提供することもできる。これは、固有表現（固有名詞、地名、薬物、食物、または数値（体重、年齢、…）その他）が識別され、フォーム／レポートに書き込まれる場合に、特に有用である。固有表現および数表現は、患者レコードの準備、病院登録、災害救助の避難者登録、などの要求に関して名前を抽出する上で重要な役割を演じる。ＫＷＳモジュールに関するさらなる詳細は、それぞれが全体として本願明細書に援用される、エル．ラティノフ（Ｌ．Ｒａｔｉｎｏｖ）およびディ．ロス（Ｄ．Ｒｏｔｈ）、「固有表現認識における設計の挑戦および誤解（ＤｅｓｉｇｎＣｈａｌｌｅｎｇｅｓａｎｄＭｉｓｃｏｎｃｅｐｔｉｏｎｓｉｎＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ）」、ＣｏＮＬＬ（２００９年）、ジェイ．アール．フィンケル（Ｊ．Ｒ．Ｆｉｎｋｅｌ）、ティ．グレネガー（Ｔ．Ｇｒｅｎａｇｅｒ）、およびシー．マニング（Ｃ．Ｍａｎｎｉｎｇ）、「ギブスサンプリングによる非ローカル情報の情報抽出システムへの取り入れ（ＩｎｃｏｒｐｏｒａｔｉｎｇＮｏｎ−ｌｏｃａｌＩｎｆｏｒｍａｔｉｏｎｉｎｔｏＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎＳｙｓｔｅｍｓｂｙＧｉｂｂｓＳａｍｐｌｉｎｇ）」、計算上の言語学協会の第４３回年次会議の報告書（Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４３ｒｄＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ）（ＡＣＬ２００５）、３６３〜３７０頁、ならびに米国特許第８，２０４，７３９号に見出すことができる。

もう１つの実施形態では、ＩＥＭは、情報検索（ＩＲ）モジュールを使用する。ＩＲモ
ジュールＩＲ１およびＩＲ２は、図２に示されているように、ワールドワイドウェブを含む文書の大きな遠隔のデータベースから関連する文書または応答を抽出することができる。ＩＥＭは、無線（たとえば、ＷｉＦｉ）または有線のネットワーク接続を介してワールドワイドウェブと通信していてもよい。この形で、ＩＲモジュールＩＲ１およびＩＲ２は、書き起こされた入力文を受け取り、関連する文書を取り出すか、それに関連する文書から文字列を取り出す。ＩＲモジュールＩＲ１およびＩＲ２は、ワールドワイドウェブ、ウィキペディア記事、ヘルプファイル、販促資料、製品提供、その他などの大きなデータベースを介する検索を実行して、ユーザ（たとえば、話者の１人または別のユーザ）に、彼らが別の人間と会話している間に関連する記事または指示を提示することができる。可能な用途は、人間−人間の会話に応じて、およびその副次的効果として、指示、関連広告、エンターテイメント、冗談、ニュース、その他を取り出すことである。この実施形態は、所望の結果が、構造レポートではなく関連情報である、より構造化されていない人間−人間の対話に特によく適する。

図１および図２に示された音声翻訳デバイス１２を、さまざまなモジュール（たとえば、ＡＳＲエンジン、ＭＴエンジン、ＴＴＳユニット、およびＩＥＭ）に対応するソフトウェアコードを実行する１つまたは複数のプロセッサを有するコンピュータベースのシステムとして実装することができる。たとえば、以下に図１０に関してさらに説明するように、ランダムアクセスメモリ（ＲＡＭ）２１２および／または不揮発性データストレージ（たとえば、ＲＯＭ）２１６は、ＡＳＲエンジン、ＭＴエンジン、ＴＴＳユニット、およびＩＥＭのソフトウェアコードを記憶することができ、アプリケーションプロセッサ２０４は、そのコードを実行することができる。一実施形態では、図１および図２に示されたＡＳＲエンジン、ＭＴエンジン、ＴＴＳユニット、およびＩＥＭを、パーソナルコンピュータ、ラップトップ、タブレットコンピュータ、スマートフォン、その他など、単一のコンピュータベースのデバイスを用いて実装される。図１および図２には、２つのマイクロホン１８ａ、１８ｂが示されている（話者ごとに１つ）が、コンピュータデバイスは、両方（またはより多く）の話者に対して１つのマイクロホンを使用してもよい。テキスト出力を、コンピュータデバイスのモニタ／ディスプレイに表示し、かつ／またはスピーカによって出力することができる。いくつかの実施形態では、トグル入力を使用して、２人（またはより多く）の話者の間で切り替えることができる。他の実施形態では、音声翻訳デバイス１２は、米国特許出願公開第２０１１／０，３０７，２４１号で説明されるように、入力言語（たとえば、言語１または言語２）を自動的に識別することができる。フォーム／レポートを記憶するデータベースは、さまざまな実施形態によれば、コンピュータデバイスのメモリの一部であってもよく、あるいは、データがコンピュータベースの電子電話および／またはデータネットワークを介してアップロードされる遠隔のデータベースであってもよい。

他の実施形態では、分散コンピューティングシステムを使用することができる。たとえば、図３に示されているように、話者１に関連付けられた構成要素（たとえば、ＡＳＲ１、ＭＴ１、ＴＴＳ２、およびＩＥＭ１）は、１つのコンピュータ２０（たとえば、スマートフォン、パーソナルコンピュータ、ラップトップ、その他）上にあってもよく、話者２に関連付けられた構成要素（たとえば、ＡＳＲ２、ＭＴ２、ＴＴＳ１、およびＩＥＭ２）は、別のコンピュータ２２上にあってもよい。ＭＴ１からの出力を、コンピュータベースの電子電話および／またはデータネットワーク２４を介して話者２のコンピュータデバイス２２に送信することができ、その逆を行うこともできる。同様に、すべてのコンピューティングを、中央サーバで行うことができ、話者１および話者２は、スマートフォンまたはタブレットなどの入出力デバイスを携帯するのみである。そのような実施形態では、データベース２６は、電話および／またはデータネットワークを介して話者のコンピュータと通信していてもよい。

本発明のさまざまな実施形態を、図４に示されているように、マルチモーダル対話インタフェース（ＭＭＩＩ）によって拡張することもできる。音声認識自動音声検索語検出またはセマンティック的解析は、完璧からは程遠く、時折、関連情報または重要な情報の抽出に失敗する。報告および取り出し機能がロバストに効率的に働くようにするために、マルチモーダル対話をさまざまな実施形態で使用して、対話手段によってキーとなる情報を識別することができる。ＭＭＩＩは、ユーザがシステムに追加情報を供給するためにシステムと対話することのできる１つまたは複数の手段を含んでもよい。たとえば、話者のコンピュータデバイス３２のディスプレイ３０を、タッチスクリーンディスプレイ３０のユーザのタッチ（たとえば、指またはスタイラスによる）を検出するタッチスクリーンとすることができる。そのような実施形態では、話者（話者１）からの認識された音声のテキストを、ディスプレイ３０に表示することができ、話者（話者１）は、ディスプレイ３０上に示された適当なキーワードをタップすることによって、表示されたテキスト内のキーワードを識別することができる。他の実施形態では、話者（話者１）は、タッチスクリーン３０および／または従来のコンピュータマウス３４もしくはキーボード３６を使用して、ディスプレイ３０上のキーワードをドラッグし、フォーム（ディスプレイ３０上に同時に表示される）にドロップすることができる。さらに、ユーザは、訂正を口頭で入力する（たとえば、用語の正しい綴りを口頭で提供する）ことによって、フォーム内のエントリを訂正する（たとえば、綴りを訂正する）ことができ、この口頭の入力は、デバイス３２のマイクロホン３８によって検出され、音声認識ソフトウェア（たとえば、ＡＳＲ１およびＭＴ１）によって処理されて、フォーム内の誤りが訂正される。

人間対人間の対話からフォームへの情報の転送は、理想的には、必ず自動的に行われなければならないが、マルチモーダル対話は、誤りからのロバストな回復機構を提供する。その場合に、２つの異なるタイプの誤りすなわち、欠落および誤りのある情報を識別することができる。欠落の場合に、コンピュータデバイス（たとえば、図４のコンピュータデバイス３２）は、正しい情報を入力するためのマルチモーダルサポートを提供するソフトウェアを有する（かつ、実行する）ことができる。これは、音声書き起こしからフォームに正しい情報をドラッグすること、および／または正しい情報をフォームに直接にタイプし／スペリングし／手書きすることを含む。誤りの場合に、全体として本願明細書に援用される、米国特許出願公開第２０１１／０，３０７，２４１号ならびに米国特許第５，７１２，９５７号および米国特許第５，８５５，０００号に記載されたものなどのマルチモーダル誤り訂正技法を使用して、誤りのある情報を訂正することができる。上述しましたように、ユーザは、口頭で訂正を入力することができる。また、コンピュータデバイス３２は、フォーム内の誤りを示すか訂正するためまたはフォーム内のデータの正確さを確認するためのユーザのジェスチャまたは他の動きを検出できるジェスチャ認識能力（たとえば、カメラおよびビデオ処理ソフトウェア）を有することができる。この形で、ユーザは、手書き、ジェスチャ、スペリング、言い直し、言い換えなどを行って、誤りを訂正し、正しい情報に置換することができる。たとえば、単純な対話を使用して、音声による誤り回復を達成することもできる（「ｄｉｄｙｏｕｓａｙＪｏｈｎｏｒＪｏａｎ（ジョンまたはジョアンと言いましたか）」）。図４では、タッチスクリーンディスプレイ３０が、ＭＴ１からの出力を表示するものとして図示されているが、上で説明したように、タッチスクリーンディスプレイ３０は、特に上で説明したマルチモーダル転送技法およびマルチモーダル訂正技法を利用する実施形態で、ＡＳＲ１からの出力を表示することもできる。

上述しましたように、このシステムを、複数の話者と共に使用することができる。図５に、それぞれが異なる言語を話す３人の話者を伴うそのような実施形態を示す。それぞれ言語１、言語２、および言語３を話す３人の話者を伴うこの例では、話者１による言語１での発声は、言語２および言語３に翻訳され、話者２による言語２での発声は、言語１および３に翻訳され、話者３による言語３での発声は、言語１および言語２に翻訳される。
このシステムを、より多くの話者、より多くの言語、および／または単一言語に同様の形で拡張することができる。さらに、図５では、ＩＥＭが、ＡＳＲから出力を受け取るものとして図示されているが、ＩＥＭを、ＭＴに接続し、ＭＴから出力を受け取ることもでき、この場合に、ＩＥＭは、翻訳から情報を抽出することもできる。

さまざまな実施形態では、本発明は、下記を提供することができる。
クロスリンガルな人間−人間の対話の副次的効果としての黙示的な情報抽出。
単一言語による人間−人間の対話の副次的効果としての黙示的な情報抽出（以下でさらに説明する）。

セマンティックパーサの適用による人間−人間の対話からの情報抽出。
固有表現タガー、ワードスポッタ、または音声検索語検出の適用による人間−人間の対話からの情報抽出。

一致する文書を見つけるための情報取り出しの適用による人間−人間の対話からの情報抽出。
人道主義的展開、軍事展開、避難者登録、登録、統計の収集、病気の発生、医師−患者の対話、トリアージでの黙示的な情報抽出拡張の適用。

宣伝、ユーモア、エンターテイメントのための黙示的な情報抽出の適用。
マルチモーダルフォームの記入および訂正。触覚（タップ）、ドラッグアンドドロップによる訂正および欠けているエントリの補完、訂正または欠けている情報の補完のためのクロスモーダルスペリング、手書き。

インタフェースのレイアウト：同一画面上の、書き込まれるべきフォームと一緒の音声翻訳インタフェース。
○情報抽出によるフォーム内の情報の自動書込（または事前書込）。事前書込が正しくない場合のクロスモーダル訂正。
○代替の直接入力、黙示的および明示的なフォーム書込の選択を提供する。代替の直接入力としての異なるモーダリティ、手書き、クリック、言い直し、スペリング。
○音声翻訳インタフェースからのレポートの共有およびアップロード。

インタフェースのレイアウト：同一画面上の、書き込まれるべきフォームと一緒の音声翻訳インタフェースおよびお気に入りリスト。
○音声翻訳およびフォーム書込に加えて、指示および事前に構成された句の再生。
○音声翻訳から情報を転送するためのドラッグアンドドロップ、タッチ。
○情報抽出によって情報を自動的に事前書込する。事前書込が正しくない場合のクロスモーダル訂正。
○代替の直接入力、黙示的および明示的なフォーム書込の選択を提供する。代替の直接入力としての異なるモーダリティ、手書き、クリック、言い直し、スペリング。
○マルチモーダル訂正によって誤り回復を提供する。訂正のためのジェスチャ、および正しい情報によって誤りを置換するための相補モーダリティ。
○音声翻訳インタフェースからのレポート共有およびアップロード。
○フォーム書込に加えて、自由音声翻訳との再生句の混合を提供する。

図９に、人間対人間の対話内の情報を抽出することから書き込むことができるディジタルフォームを有する例のユーザインタフェース８９を示す。このフォームを、デバイス１２のメモリ２６に記憶することができ、インタフェース８９を、フォーム９４と共に、たとえばディスプレイ１４に表示することができる。左側に、翻訳された音声を示す２つのフィールド９０、９２（この例では、一方が他方の上にある）がある。この例は、英語−
スペイン語の翻訳シナリオを仮定する。話者１が英語を話している場合に、認識された話者１による英語の音声が、フィールド９０内にテキストで示され、スペイン語の翻訳が、フィールド９２内にテキストで示される。同様に、話者２がスペイン語を話している場合に、認識された話者２によるスペイン語の音声が、フィールド９２内にテキストで示され、英語の翻訳が、フィールド９０内にテキストで示される。フィールド９０、９２は、２人の話者の間で対話が進行する時に、認識された２人の話者の音声およびその翻訳を次々に示すことができる。さらに、デバイススピーカ１６は、翻訳された音声を可聴に出力することができ、その結果、他方の話者が、彼らの好みの言語でこれを聞くことができるようになる。たとえば、話者１が英語を話しており、話者２がスペイン語を話しており、上述と同一の例を継続すると、デバイススピーカ１６は、話者２のために、話者１の発声のスペイン語による翻訳を出力することができ、逆に、話者１のために話者２の発声の英語による翻訳を出力することができる。ユーザは、言語選択入力９１ａ〜９１ｂを介して、所望の第１の言語および第２の言語を選択することができる。

図９〜図１０の例では、人間−人間の対話を介して投入されるフォーム９４は、医療データフォームである。そのようなフォームを、たとえば、医師−患者の対話で使用することができる。したがって、医療関連情報が、対話から抽出されて、フォーム９４のさまざまなフィールドに書き込まれまたは投入される。音声翻訳によって仲介される人間−人間（たとえば、医師−患者）の対話は、フィールド９０、９２に示される。さらに、キーとなる情報（たとえば、フォーム９４に関連するかこれに適用可能な情報）が、いずれかの言語（この例では英語またはスペイン語）で提示される時に、これを抽出し、フォーム９４の適用可能なフィールドに事前に書き込むことができる。たとえば、医師は、言語１（たとえば、英語）で「Ｗｈａｔｉｓｙｏｕｒａｇｅ？（何歳ですか）」と質問することができる。患者は、言語２（たとえば、スペイン語）で「Ｔｅｎｇｏ５０ａｎ〜ｏｓ」（英語の「Ｉａｍｆｉｆｔｙｙｅａｒｓｏｌｄ（５０歳です）」に翻訳される）と答えることができる。キーとなる情報、ここでは「５０」を、この対話から抽出し、フォームの年齢フィールド９６に書き込むことができる。さらに、質問のコンテキスト、たとえば「Ｗｈａｔｉｓｙｏｕｒａｇｅ？」をデバイスによって使用して、患者の答えが年齢フィールド９６に書き込むべき年齢を含むことを確かめることができる。同様の形で、医師−患者の対話を使用して、氏名フィールド９８、１００、性別フィールド１０２、体重フィールド１０４、妊娠チェックフィールド１０６、アレルギフィールド１０８、その他など、フォームの他のフィールドに投入することができる。

さまざまな実施形態では、フォームは、音声抽出以外のモードによるデータ入力を許容することもできる。たとえば、タッチスクリーンインタフェース１４を介して、たとえば、ユーザ（たとえば、医師）は、質疑応答の対話をせずに患者の性別を決定できる場合に、フォーム内の「ｍａｌｅ（男性）」フィールドおよび「ｆｅｍａｌｅ（女性）」フィールドを直接にクリックすることができる。同様に、患者が男性である場合に、「ｎｏｔｐｒｅｇｎａｎｔ（妊娠中ではない）」応答に自動的に投入することができ、あるいは、これおよび他の従属質問を除去するか変更することができ、したがって、関係のないまたは冗長な質問が除去される。

さらに、さまざまな実施形態では、話者１が言語１でフォームのフィールドのうちの１つに関連する質問を明確に発音する、たとえば英語で「Ｗｈａｔｉｓｙｏｕｒａｇｅ？」と質問するのではなく、ユーザは、アイコン、たとえば「Ａｓｋ（質問）」入力１１０を有効化する（たとえば、タッチスクリーンインタフェースを介して）ことができ、この「Ａｓｋ」入力１１０は、有効化された時に、デバイス１２に、関連するフィールド（たとえば、年齢フィールド９６）の情報を引き出すように設計された事前に録音された質問を選択された第２の言語（この例ではスペイン語、言語選択入力９１を参照されたい）で可聴に出力させる。たとえば、年齢フィールド９６に関連付けられた「Ａｓｋ」入力
１００を有効化することによって、デバイス１２は、ユーザがまず質問を言語１（たとえば、英語）で明確に発音することを必要とせずに、「？Ｃｕａ’ｌｅｓｓｕｅｄａｄ？」（「何歳ですか」のスペイン語）などの質問を可聴に出力することができる。フォーム９４の他のフィールドは、図９の例に示されているように、デバイス１２に、関連するフィールドの所望の情報を引き出すように設計された事前に録音された質問を可聴に出力させる、関連する「Ａｓｋ」ボタンを有することができる。事前に録音された質問の使用は、話者１（たとえば、医師）がまず話者１の言語で関連質問を明確に発音する必要を事前に除去することに追って、対話を加速することができる（繰返し作業／対話に特に有用である）。さらに、「Ａｓｋ」ボタン用の事前に録音された質問を、話者２（たとえば、患者）の混乱および曖昧さを避けるために、選択された言語に適合させることができる。すなわち、事前に録音された質問をテストし、言語２でほとんど混乱および曖昧さがないことを証明し、これによって、話者２からの正確な応答ならびにデバイス１２による正確な抽出の蓋然性を高めることができる。

同様に、さまざまな実施形態では、インタフェース８９は、ユーザによって有効化された時に、事前に録音された指示または説明情報（質問ではなく）が話者２（たとえば、患者）のために言語２（たとえば、スペイン語）で明確に発音されるボタンまたは入力（図示せず）を提供することができる。そのような事前に録音された説明情報は、たとえば、患者に手順の態様を説明することができる。たとえば、医師（たとえば、話者１）が英語で「Ｉｗｉｌｌｎｏｗｃｈｅｃｋｙｏｕｒｂｌｏｏｄｐｒｅｓｓｕｒｅ（これから血圧を調べます）」と言い、その質問を言語２（たとえば、スペイン語）に翻訳させるのではなく、医師は、単に、血圧に関する関連する話すボタンを有効化することができ、その場合に、デバイスは、「Ａｈｏｒａｖｏｙａｒｅｖｉｓａｒｓｕｐｒｅｓｉｏ’ｎａｒｔｅｒｉａｌ」（「これから血圧を調べます」のスペイン語）を可聴に出力することができ、これによって、医師がまず言語１で説明を可聴化する（ａｕｄｉｂｌｉｚｅ）必要を事前に除去する。事前に録音された質問および説明は、特に患者の個人データ（氏名、年齢など）またはバイタルサインの収集など、繰り返されるクエリ中に、時間および労力を節約することができる。

他の実施形態では、質問および回答を事前に録音させるのではなく、デバイス１２は、音声翻訳／対話システムの能力を使用して、複数の言語での質問および／または回答を合成的に作ることができる。たとえば、ユーザは、彼／彼女自身の質問または説明を、音声またはテキストを介してデバイス１２に入力され、記憶されるフォーム９４のさまざまなフィールドについて言語１でフォームのクエリフィールドにタイプすることができる。デバイス１２は、上述したようにこの入力を言語２に翻訳し、期待通りにＬ１、Ｌ２、または任意の他の言語での繰返し再生用の合成の話されたクエリを生成することができる。したがって、システムのユーザは、他の言語のいずれの言語能力も必要とせずに、彼／彼女の目的のためにデバイスによって作られるメッセージまたはクエリをカスタマイズすることができる。

もちろん、図９は、医療データフォームの一例にすぎず、異なるおよび／または追加のデータフィールドを有する異なるフォームを使用することができる。また、医療データフォーム以外の他の使用を使用することもできる。

人間−人間の対話からの情報の抽出が、常に正確または正しいとは限らないことに留意されたい。さまざまな実施形態のデバイス１２は、フォーム内の情報を修復しまたは訂正する手段を提供することができる。これらの手段は、音声抽出以外すなわち、他の入力モード（たとえば、フォームに関するマルチモーダル入力を可能にする）とすることができる。たとえば、タッチスクリーンインタフェース１４を使用して、ユーザ（たとえば、話者１）は、タッチアンドドラッグジェスチャまたは入力によって、フィールド９０、９２
のいずれかからフォーム９４の適当なフィールドに情報をドラッグすることができる。

その代わりにまたはそれに加えて、他の実施形態では、フォーム訂正またはデータ入力の異なるモードを使用することができる。たとえば、さまざまな実施形態では、ユーザ（たとえば、医師）は、フォーム内のデータを編集するために、フォーム９４内の抽出されたデータをクリックしまたは他の形で選択することができる。たとえば、さまざまな実施形態で、ユーザは、キーボードを介して（タッチスクリーンキーボードを含む）、音声抽出のためにデータを言い直すことによって、タッチスクリーンインタフェース１４上での手書きジェスチャによって、または任意の他の適切な手段によって、選択されたデータを編集する（または削除する）ことができる。同様に、上で述べたように、フォーム９４に関する質問を明示的に尋ねることなく、情報を、独立に入力することができる。たとえば、医師は、患者が女性であることを見て、その情報をフォーム９４上で直接にクリックするかタイプすることができ、したがって、この段階での人間−人間の対話を完全に迂回することができる。この場合に、ユーザ（たとえば、話者１）は、フィールドを直接に押すことを選び、情報を直接に入力するためにいずれかの言語での音声認識を有効化することができる。代替案では、フォーム９４内のフィールドの情報を、タイプし、スペリングし、または手書きすることができる。全体として本願明細書に援用される、米国特許第５，７１２，９５７号および米国特許第５，８５５，０００号は、さまざまなマルチモーダル訂正技法に関する詳細を提供する。

図１０は、本発明のさまざまな実施形態による、デバイス１２のブロック図である。そのような実施形態では、デバイス１２を、たとえばラップトップコンピュータ、スマートフォン、またはタブレットコンピュータなどのスマートポータブルデバイスとして実装することができる。図１０の例に示されているように、デバイス１２は、複数のプロセッサ２０２、２０４を含んでもよい。ベースバンドプロセッサ２０２は、任意の適切な通信技術（たとえば、３Ｇ、４Ｇなど）に応じた遠隔移動体通信ネットワーク（たとえば、セルラネットワーク）を介する通信を処理することができる。ベースバンドプロセッサ２０２は、専用のランダムアクセスメモリ（ＲＡＭ）２１４を含んでもよい。さまざまな実施形態では、ベースバンドプロセッサ２０２を、トランシーバ２０６と通信しているものとすることができる。トランシーバ２０６は、その後、１つまたは複数の電力増幅器２０８およびアンテナ２１０と通信しているものとすることができる。遠隔移動体通信ネットワークの発信信号を、ベースバンドプロセッサ２０２によってベースバンドで処理し、トランシーバ２０６に供給することができる。トランシーバ２０６および／またはベースバンドプロセッサ２０６は、発信信号を搬送波周波数に変調することができる。増幅器２０８のうちの１つまたは複数は、発信信号を増幅することができ、この発信信号を、その後、アンテナ２１０を介して送信することができる。遠隔移動体通信ネットワークの着信信号を、アンテナ２１０によって受信し、増幅器２０８のうちの１つまたは複数によって増幅し、トランシーバ２０６に供給することができる。トランシーバ２０６またはベースバンドプロセッサ２０２のいずれかが、着信信号をベースバンドに復調することができる。

アプリケーションプロセッサ２０４は、オペレーティングシステムならびに、本明細書で説明する音声認識モジュールおよび翻訳モジュール（たとえば、図１に示されたＡＳＲモジュール、ＭＴモジュール、ＴＴＳモジュール、およびＩＥＭモジュール）を含むソフトウェアアプリケーションを実行することができる。アプリケーションプロセッサ２０４は、タッチスクリーンインタフェース２３２上に表示されるフォーム９４上に示されるデータを入力し訂正する技法を含む、タッチスクリーンインタフェース２３２のソフトウェアを実行することもできる。アプリケーションプロセッサ２０４は、アプリケーションＲＡＭ２１２および不揮発性データストレージ（たとえば、ＲＯＭ）２１６と通信しているものとすることもできる。アプリケーションプロセッサ２０４は、さらにＷＩＦＩ／ＢＬＵＥＴＯＯＴＨ（登録商標）の組合せトランシーバ２１８などの他のハードウェアデバイ
スと通信しているものとすることができる。ＷＩＦＩ／ＢＬＵＥＴＯＯＴＨトランシーバ２１８は、ＬＡＮとのラジオ周波数（ＲＦ）通信（たとえば、ＷＩ−ＦＩ標準規格または任意の適切な標準規格に従う）またはデバイス２００と別の無線デバイス（たとえば、ＢＬＵＥＴＯＯＴＨ標準規格または任意の適切な標準規格に従う）との間の直接ＲＦ通信を処理することができる。さまざまな実施形態で、デバイス２００は、デバイス２００の地理的位置を記述する情報をアプリケーションプロセッサ２０４に供給するために全地球測位システム（ＧＰＳ）アンテナ２２３を介して衛星ベースのＧＰＳシステムと通信しているＧＰＳ２２２を含んでもよい。タッチスクリーン２３２は、視覚的な形でデバイス１２のユーザに出力を提供すると同時に、ユーザから入力を受け取ることができる。入力を、ユーザによるスクリーンタッチを表す信号の形であるものとすることができる。オーディオコーデックモジュール２２４は、オーディオ信号を復号し、再生するためのハードウェアおよび／またはソフトウェアを提供することができる。いくつかの実施形態では、コーデック２２４は、ディジタル−アナログ変換器を含んでもよい。オーディオ出力信号をデバイススピーカ１６および／またはオーディオ出力信号を再生するためのヘッドホンおよび／またはスピーカのセットを受けることができるジャック（図示せず）に供給することができる。オーディオ入力信号を、デバイスマイクロホン（１つまたは複数）１８を介して供給することができる。デバイスは、ディジタルカメラ２４０を含んでもよい。

さまざまな他のセンサを、特定の実施形態に含めることができる。磁気センサ２２６は、デバイスの付近の磁界を感知することができる。たとえば、磁気センサ２２６を、さまざまなアプリケーションおよび／またはシステム機能によって使用して、コンパスを実装することができる。加速度計２２８およびジャイロスコープ２３０は、デバイスの動きを記述するデータを提供することができる。たとえば、加速度計２２８およびジャイロスコープ２３０からのデータは、タッチスクリーン２３２の表示の方向を決めるために使用されうる（たとえば縦横）。デバイス２００に、バッテリ２３４によって電力を供給することができ、バッテリ２３４を、電力管理集積回路（ＰＭＩＣ）２３６によって管理することができる。Ｉ／Ｏトランシーバ２３８は、たとえばＵｎｉｖｅｒｓａｌＳｅｒｉａｌ
Ｂｕｓ（ＵＳＢ）または任意の他の適切な標準規格に従う、デバイスと他のデバイスとの間の有線通信を管理することができる。コネクタ２３９は、有線接続を容易にすることができる。いくつかの実施形態では、コネクタ２３９およびＩ／Ｏトランシーバ２３８を介する接続が、バッテリ２３４を充電する電力を供給することができる。

図９の例のフォームに戻って、抽出された情報を追加するか確認するために、ＧＰＳ情報（ＧＰＳ受信器２２２を介する）、カメラ入力（カメラ２４０を介する）、加速度計２２８、バーコードリーダ（たとえば、デバイス上で作動するバーコードアプリケーションまたはデバイスの一部である別々のハードウェアバーコードリーダを介する）、その他など、他のデータ入力モーダリティを使用して、性別または個人識別、位置、その他などの情報を導出することができる。これは、情報を自動的に書き込むために音声対話を補足し、したがって、効率を改善することができる。補足情報は、抽出された情報の正確さを改善し、あるいは所与の情報を交差検証することもできる。たとえば、音声からの自動性別分類は、医師のコメントまたはクリックと一緒に、性別フィールド１０２に事前に書き込むことができる。あるいは、カメラ顔識別、話者識別、またはバーコード読取りによって、氏名を検証することができる。

さまざまな実施形態では、疑問のある情報を、聴覚信頼度（ａｃｏｕｓｔｉｃｃｏｎｆｉｄｅｎｃｅ）ならびに抽出された情報のもっともらしさを確認する相補的情報の両方を使用する信頼度測定によって決定することができる。フォーム内の疑問のある情報を、たとえば強調表示によるなど、呼び出すことができる。たとえば、医師は、直接に患者の性別を入力することができるが、その情報が誤りである可能性があることを聴覚信頼度および話者／性別ＩＤが暗示する場合に、信頼度測定は、情報を強調表示することができる
。低信頼度の情報をフォーム内ならびに音声翻訳対話ウィンドウのテキスト内で強調表示するか、他の形で呼び出すことができる。低信頼度の他のソースを、該当用語なし（Ｏｕｔ−ｏｆ−Ｖｏｃａｂｕｌａｒｙ）項目、聴覚の曖昧さ、セマンティック的曖昧さ、および翻訳の曖昧さの検出から導出することができる。低信頼度領域を強調表示することができ、曖昧さを説明することができる（類似単語、代替の意味、欠けている単語など）。

図９の例では、フォーム９４は、英語で完成される。デバイス１２のユーザは、フォーム言語入力１１５を有効化することによって、言語１（たとえば、英語）と言語２（たとえば、スペイン語）との間で往復してトグルすることができる。入力１１５を有効化する時に、フォーム９４は、言語１（この例では英語）での表示から言語２（この例ではスペイン語）に遷移し、入力１１５の第２の有効化ではその逆に遷移することができる。この形で、話者１（たとえば、医師）は、言語１（たとえば、英語）でフォームのすべての態様（ラベル、クエリ、内容など）を見ることができ、その後、話者２（たとえば、患者）による確認および／または検証のために言語２（たとえば、スペイン語）にフォームを遷移させることができる。さまざまな実施形態で、すべての情報、フォームエントリの名前、入力されつつある内容、再生されるべき自動メッセージ、ボタンの説明および名前、ならびに指示を、このシステムの音声能力および翻訳能力によって作ることができ、要求された時に言語の間でトグルすることができることに留意されたい。

さらに、さまざまな実施形態では、音声翻訳デバイス１２は、ユーザまたは実務家が他の言語を知ることを必要とせずに、複数の言語自体でのフォームの定義を可能にする。たとえば、フォーム（１つまたは複数）を、英語のテンプレートフォーム（たとえば、エクセルなどのスプレッドシート）から読み込み、フォーム（図９の例に示されているように）を生成することができる。実務家（我々の例では医師など）は、必要に応じてテンプレートフォームを編集して、質問またはコメントを追加し、その後、そのような新たな／変更されたフォームをデバイスに読み込むことができる。音声翻訳コンポーネントは、フォームラベルごと、フォームメッセージごと、およびその後に抽出された情報ごとに（使用中に）翻訳を自動的に生成することができ、各言語で合成音声発声を作ることができる。

さらに、トランシーバ２０６またはトランシーバ２１８を介して、デバイス１２は、たとえば電子メールまたは電子患者レコードアップロードによって、完成したものであれ未完成であれ、フォーム（データベース２６に記憶された）を共有できるものとすることができ、これによって、移動体ポータブルデバイスからの集中データベースの情報レコードの増分更新および瞬間的更新を可能にする。さまざまな実施形態では、ユーザは、共有アイコン１１６を有効化することによって、フォームのそのような無線送信またはアップロードを開始することができる。アップロード／送信されるフォームは、実際の対話データならびに関係するマルチモーダルユーザ対話、クエリ、および編集を含んでも含まなくてもよく、したがって、人間−人間の出会いおよび対話全体に関する細粒度の情報が提供される。

さまざまな実施形態では、デバイスは、同時モードおよび逐次翻訳モードで動作することができる（たとえば、音声を翻訳し、フォームに書き込み可能な情報を抽出する）。同時モードでは、デバイスは、話者の間でトグルするための押しボタンまたは他の入力の使用を伴わず、翻訳が完了するのを待たずに、リアルタイムで進行中の連続的な対話の筆記録および翻訳を使用する。この場合に、デバイスは、上記のようにフォームに関連情報を抽出し、誤り訂正は、同一に働く。逐次翻訳モードでは、話者は、交代して話し、逐次的に話す。話者は、デバイス上のボタンまたは他の入力（タッチスクリーンインタフェース１４上など）を使用して、ある翻訳チャネル（たとえば、言語１から言語２への翻訳）から他方の翻訳チャネル（たとえば、言語２から言語１への翻訳）に遷移することができる。インタフェースは、ユーザの便宜のために、音声翻訳および／またはフォームウィンド
ウを選択的に有効にし、または無効にすることができる。

さらに、図７の例に示されているように、さまざまな実施形態では、デバイスは、対話型曖昧さ除去のソフトウェア、たとえば対話型曖昧さ除去モジュール４０を含み、実行することができ、これによって、デバイス１２は、対話型曖昧さ除去モジュール４０を使用して、イニシアティブを仮定し、曖昧さまたは誤りが疑われる場合に可能な誤りおよびニアミスに関するフィードバックを提案する。さまざまな実施形態では、これを２つのレベルすなわち認識レベルおよび翻訳レベルで行うことができる。認識レベルでは、認識（場合に応じてＡＳＲモジュール１または２によって決定される）が低信頼度である場合、または認識されたテキストがフォームのレベルで期待されるものと衝突するか一致しない場合に、対話型曖昧さ除去モジュール４０は、内蔵スピーカ１６を介して可聴におよび／またはテキストディスプレイ１４を介して視覚的になど、ユーザに戻ってクエリを発行することができる。多すぎる曖昧さ除去クエリは、ユーザに迷惑になるはずなので、明確化を要求すべき時および瞬間は、好ましくは注意深く選択されなければならない。さまざまな実施形態では、認識仮説の信頼度またはもっともらしさを査定するための、次の複数の判断基準を使用することができる。
○聴覚信号が、認識された文である可能性が高いかどうかを確立する聴覚信頼度スコア。○書き込まれるフォームの内容または抽出される情報のもっともらしさ。「Ｗｅｍｅｔ
ｏｎＴｕｅｓｄａｙ（我々は火曜日に会った）」の認識は、話者が、書き込まれるフォームのレベルで１週間の日付を議論している場合に、「Ｗｅｍｅｔａｎｄｗｈｏ’ｓｈｅ？（我々は会ったが、彼は誰だ）」より可能性が高いものとすることができる。したがって、フォーム内の共通のオプションにあてはまる曖昧な単語（たとえば、「Ｔｕｅｓｄａｙ」）が存在する場合には、認識仮説「Ｗｅｍｅｔａｎｄｗｈｏ’ｓｈｅ」に疑義を唱えなければならない。
○他の話者の発声（彼らの言語での）からの翻訳によって与えられる言語コンテキストも、期待を条件付け、したがって、認識仮説に疑義を唱えまたは変更することができる。上の例では、他の話者が、スペイン語で「ｃｕａｎｄｏｓｅｈａｎｅｎｃｏｎｔｒａｄｏ」と言った場合に、この分の英語への翻訳「Ｗｈｅｎｄｉｄｙｏｕｍｅｅｔ（いつ会いましたか）」は、「Ｗｈｏ’ｓｈｅ？」を上回って仮説「Ｔｕｅｓｄａｙ」の蓋然性を高める言語モデリングコンテキストを提供する。
３つの信頼度測定を使用して、ユーザに曖昧さ除去を要求すべき時を判断することができる。さまざまな実施形態では、これらの判断基準のうちの１つまたは複数が、１つの信頼度または明確化スコアに組み合わされる。その後、曖昧さ除去クエリを発行して、明確化を提示することができる。

翻訳レベルでは、対話型曖昧さ除去モジュール４０は、（ａ）複数の出力翻訳が可能であり、同様の蓋然性を有する（最高スコアリング翻訳からスコアリングのしきい値差以内の少なくとも１つの他の翻訳がある）場合、または（ｂ）もう１つのありそうな出力があり（たとえば、最高スコアリング翻訳からスコアリングのしきい値差以内の代替の出力翻訳がない）、最高スコアリング出力がターゲット言語で低い信頼度を有し、悪い可能性が高い場合に、さまざまな実施形態で、ＭＴエンジン（たとえば、ＭＴ１または２）からの入力に基づいて曖昧さ除去を要求することができる。後者の場合（ｂ）に、ユーザの（ソース）言語でのユーザに戻るクエリを発行し、ありそうな問題について話者に警告し、明瞭さのために言い直しまたは言い換えを要求することができる。前者の場合（ａ）に、複数の代替案を考慮する必要がある。この場合に、システムは、ターゲット言語で作業の２つの使用の曖昧さを除去するソース言語のキャリアセンテンス（ｃａｒｒｉｅｒｓｅｎｔｅｎｃｅ）に埋め込まれた２つのケースをユーザに提示することができる。たとえば、ユーザが、次の文「Ｔｈｉｓｉｓｍｙｎａｉｌ（これは私の爪（または釘）です）」を英語で話す場合に、単語「ｎａｉｌ」が、曖昧であり、「ｃｌａｖｏ」または「ｕｎ〜ａ」としてスペイン語に翻訳される可能性がある。両方の結果の翻訳確率が、もっとも
らしさのしきい値以内で匹敵する場合には、システムは、ユーザに曖昧さ除去を要求することができる。さまざまな実施形態では、これを、トレーニングデータベース内の使用法のいずれかに問題の単語を含む句を検索することによって行うことができる。たとえば、話者のデバイスを、遠隔のトレーニングデータベースを検索する遠隔のコンピュータシステムに、データネットワークを介して接続することができる。遠隔のコンピュータシステムは、曖昧さ除去を検出し、あるいは、話者のデバイスの１つが、曖昧さ除去を検出することができる。代替実施形態では、トレーニングデータベースではなく、伝統的な辞書を使用することができ、この辞書を、話者のデバイス上にまたは遠隔に記憶することができる。

ソース側では、システムは、ユーザに「ｄｉｄｙｏｕｍｅａｎ ’ｎａｉｌ’ ａｓｉｎ： ”ｔｈｅｙｕｓｅｄｎａｉｌｓｔｏｆｉｘｔｈｅｄｏｏｒ”，
ｏｒａｓｉｎ ”ｓｈｅｐａｉｎｔｅｄｈｅｒｎａｉｌｓｒｅｄ（「ｎａｉｌ」は「彼らは釘を使用してドアを直した」または「彼女は爪を赤く塗った」のどちらの意味ですか）」と質問する立場にある。ユーザが、一方または他方の解決策を選択する場合に、システムは、選択された翻訳の意味を採用し、この単語の意味に関する翻訳確率を高める。２つの曖昧なオプションの提示を、ディスプレイ上でグラフィカルに、または口頭の曖昧さ除去句によって与えることができる。

たとえば、曖昧さ除去モジュールのコードを、ＲＡＭ２１２および／または不揮発性データストレージ２１６に記憶することができ、アプリケーションプロセッサ２０４によって実行することができる。図１０を参照されたい。

図８は、さまざまな実施形態による、対話型曖昧さ除去モジュール４０のプロセスフローのフローチャートである。この例では、話者１が言語１を話しており、この言語１が話者２のために言語２に翻訳されると仮定する。ステップ５０では、対話型曖昧さ除去モジュール４０が、話者１の言語１での認識された音声に曖昧さがあるかどうかを決定する。上で説明したように、対話型曖昧さ除去モジュール４０は、（ｉ）話者１による発声のＡＳＲ１からの聴覚認識信頼度レベルスコア、（ｉｉ）抽出される情報（たとえば、書き込まれるフォーム）に基づくＡＳＲ１の仮説のもっともらしさ、および（ｉｉｉ）他の話者（たとえば、話者２、ＭＴ２から）による発声からの翻訳の言語コンテキストに基づく仮説のもっともらしさに基づいて、この決定を行うことができる。これらのスコアおよび査定（およびおそらくは他）に基づいて、対話型曖昧さ除去モジュール４０は、曖昧さ除去クエリを話者１に発行すべきかどうかを決定する。そうである場合には、ステップ５２で、上で説明したものなどの曖昧さ除去クエリを発行する。

ステップ５０で曖昧さが検出されない場合には、プロセスは、ステップ５４に流れ、ここで、曖昧さ除去クエリが、言語１から言語２への話者１の翻訳された音声に基づいて必要であるかどうかを決定する。これは、前に説明したように行うことができる。曖昧さ除去クエリが必要である場合には、プロセスは、ステップ５２に流れ、ここで、曖昧さ除去クエリを発行する。もちろん、曖昧さ除去クエリが、翻訳に起因して必要ではない場合には、システムは、ステップ５６で、通常の音声認識および翻訳プロセスを継続する。上で述べたように、ステップ５２での曖昧さ除去クエリは、曖昧さのタイプ、たとえば認識対翻訳に基づいて、異なるフォーマットを有することができる。

上で説明した曖昧さ除去能力を、さまざまな実施形態に従って情報抽出能力と共にまたはこれを伴わずに使用することができる。
上の説明では、情報抽出プロセスが、２言語対話のコンテキストで説明された。他の実施形態では、情報抽出プロセスを、単一言語対話のプロセスで実行することができる。２言語モードに似て、単一言語モードでのデバイスは、話者による音声発声の音声認識を実
行し、認識された音声内のキーとなる情報を抽出して、フォーム２８のさまざまな適用可能なフィールドに書き込む。２言語モードの上と同一の例を使用すると、医師は、第１の言語（たとえば英語）で「Ｗｈａｔｉｓｙｏｕｒａｇｅ？（何歳ですか）」と尋ねることができる。患者は、同一の言語で（すなわち、単一言語対話）「Ｉａｍｆｉｆｔｙｙｅａｒｓｏｌｄ．（５０歳です）」と答えることができる。キーとなる情報、ここでは「５０」を、対話から抽出し、フォーム９４（図９を参照されたい）の年齢フィールド９６に書き込むことができる。さらに、質問のコンテキスト、たとえば「Ｗｈａｔ
ｉｓｙｏｕｒａｇｅ？」をデバイスによって使用して、患者の回答が年齢フィールド９６に書き込まれるべき年齢を含むことを確かめることができる。同様の形で、医師−患者の対話を使用して、氏名フィールド９８、１００、性別フィールド１０２、体重フィールド１０４、妊娠チェックフィールド１０６、アレルギフィールド１０８、その他など、フォームの他のフィールドに投入することができる。図９の例のインタフェースを参照すると、そのような実施形態で、共通の言語（たとえば、英語）での２人の話者の認識された音声のテキストを、それぞれ２つのフィールド９０、９２に表示することができる。２人の話者の間の単一言語対話から抽出された情報を、フォーム９４内で右側に表示することができる。

さまざまな実施形態では、人間のユーザの間の対話フローを、プッシュツートークスイッチ（録音ボタン有効化の後に限って各発声を記録する）によって制御することができ、あるいは、システムは、両方（または複数）の話者からの音声に同時に作用する自由マルチチャネルオープンマイク録音（同時翻訳）モードで動作することができる。

さらに、前と同様に、デバイス１２は、電子メールまたは電子患者レコードアップロードによって、完成したものであれ未完成であれ、フォームを共有できるものとすることができ、これによって、移動体ポータブルデバイスからの集中データベースの情報レコードの増分更新および瞬間的更新を可能にする。アップロード／送信されるフォームは、実際の対話データならびに関係するマルチモーダルユーザ対話、クエリ、および編集を含んでも含まなくてもよく、したがって、人間−人間の出会いおよび対話全体に関する細粒度の情報が提供される。

したがって、さまざまな実施形態に従って、本発明は、少なくとも第１の話者と第２の話者との間の人間対人間の対話から情報を抽出するデバイスを対象とする。このデバイスは、少なくとも１つのマイクロホンと、スクリーンディスプレイと、少なくとも１つのプログラム可能プロセッサおよびディジタルデータを記憶する少なくとも１つのデータストレージユニットとを含んでもよい。少なくとも１つのプログラム可能プロセッサは、少なくとも１つのマイクロホンおよびスクリーンディスプレイと通信している。さらに、少なくとも１つのプログラム可能プロセッサは、（ｉ）少なくとも１つのマイクロホンによって受け取られた第１の話者による音声を自動的に認識し、（ｉｉ）少なくとも１つのマイクロホンによって受け取られた第２の話者による音声を自動的に認識し、（ｉｉｉ）第２の話者による認識された音声から少なくとも情報を抽出し、（ｉｖ）コンピュータシステムの少なくとも１つのデータストレージユニットに記憶されスクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームに第２の話者による認識された音声からの抽出された情報を入力するようにプログラムされる。

さまざまな実施態様によれば、第１の話者は、第１の言語を話し、第２の話者は、第１の言語とは異なる第２の言語を話し、少なくとも１つのプログラム可能プロセッサは、（ｉ）第１の言語での第１の話者による認識された音声を第２の言語に自動的に翻訳し、（ｉｉ）第２の言語での第２の話者による認識された音声を第１の言語に自動的に翻訳し、（ｉｉｉ）第１の言語に翻訳された第２の話者による認識された音声の翻訳から少なくとも情報を抽出することによって、第２の話者による認識された音声から少なくとも情報を
抽出し、（ｉｖ）第１の言語に翻訳された第２の話者による認識された音声の翻訳からの抽出された情報を少なくとも１つのデータストレージユニットに記憶される電子フォームに入力することによって、抽出された情報を入力するようにさらにプログラムされる。さらに、プロセッサは、（ｖ）第１の言語での第１の話者による認識された音声から少なくとも情報を抽出し、（ｖｉ）第１の言語での第１の話者による認識された音声からの抽出された情報を電子フォームに入力するようにさらにプログラムされ得る。

さまざまな実施形態によれば、プロセッサは、セマンティック文法によって翻訳を解析することによって第１の言語に翻訳された第２の話者による認識された音声の翻訳から情報を抽出するようにプログラムされる。さらに、プロセッサは、抽出された情報に関する１つまたは複数の文書を遠隔のデータベースから取り出すようにさらにプログラムされ得る。さらに、プロセッサは、翻訳内の１つまたは複数のキーワードを検出することによって第１の言語に翻訳された第２の話者による認識された音声の翻訳から情報を抽出するようにプログラムされる。さらに、プロセッサは、抽出された情報を電子フォームに入力する前に、第１の話者および第２の話者のうちの少なくとも１つにフィードバックを提示するようにさらにプログラムされ得る。また、少なくとも１つのプログラム可能プロセッサは、デバイスのユーザによってスクリーンディスプレイを介して入力される電子フォーム内の抽出された情報に対する編集を認識し、受け取るようにプログラムされ得る。

もう１つの全般的な態様では、本発明は、少なくとも第１の話者と第２の話者との間の人間対人間の対話から情報を抽出するコンピュータベースのデバイスを対象とする。このデバイスは、少なくとも１つのマイクロホンと、スクリーンディスプレイと、ディジタルデータを記憶する少なくとも１つのデータストレージユニットとを含む。このデバイスは、少なくとも１つのマイクロホンによって受け取られた第１の話者による音声を自動的に認識する第１の自動音声認識モジュールも含む。このデバイスは、少なくとも１つのマイクロホンによって受け取られた第２の話者による音声を自動的に認識する第２の自動音声認識モジュールをさらに含む。さらに、このデバイスは、第１の自動音声認識モジュール、第２の自動音声認識モジュール、少なくとも１つのマイクロホン、およびスクリーンディスプレイと通信している情報抽出モジュールを含む。情報抽出モジュールは、（ｉ）第２の話者による認識された音声から少なくとも情報を抽出し、（ｉｉ）少なくとも１つのデータストレージユニットに記憶されスクリーンディスプレイ上のグラフィカルユーザインタフェース上に表示される電子フォームに第２の話者による認識された音声からの抽出された情報を入力する。

さまざまな実施態様によれば、第１の話者は、第１の言語を話し、第２の話者は、第１の言語とは異なる第２の言語を話し、デバイスは、（ｉ）第１の自動音声認識モジュールと通信している第１の機械翻訳モジュールであって、第１の言語での第１の話者による認識された音声を第２の言語に自動的に翻訳するための第１の機械翻訳モジュールと、（ｉｉ）第２の自動音声認識モジュールと通信している第２の機械翻訳モジュールであって、第２の言語での第２の話者による認識された音声を第１の言語に自動的に翻訳するための第２の機械翻訳モジュールとをさらに含む。そのような実施態様では、情報抽出モジュールは、（ｉ）第１の言語に翻訳された第２の話者による認識された音声の翻訳から少なくとも情報を抽出することによって、第２の話者による認識された音声から少なくとも情報を抽出し、（ｉｉ）第１の言語に翻訳された第２の話者による認識された音声の翻訳からの抽出された情報を少なくとも１つのデータストレージユニットに記憶される電子フォームに入力することによって、抽出された情報を入力する。

さまざまな実施態様では、情報抽出モジュールは、さらに、（ｉ）第１の言語での第１の話者による認識された音声から少なくとも情報を抽出し、（ｉｉ）第１の言語での第１の話者による認識された音声からの抽出された情報を電子フォームに入力する。情報抽出
モジュールは、セマンティック文法によって翻訳を解析することによって第１の言語に翻訳された第２の話者による認識された音声の翻訳から情報を抽出することができる。また、このデバイスは、抽出された情報に関する１つまたは複数の文書を遠隔のデータベースから取り出す情報リトリーバモジュールをさらに含むことができる。さらに、情報抽出モジュールは、翻訳内の１つまたは複数のキーワードを検出することによって第１の言語に翻訳された第２の話者による認識された音声の翻訳から情報を抽出することができる。このデバイスは、抽出された情報を電子フォームに入力する前に、第１の話者および第２の話者のうちの少なくとも１つにフィードバックを提示するマルチモーダル対話インタフェースをさらに含むことができる。

もう１つの全般的な態様では、本発明は、少なくとも話している第１の話者と第２の話者との間の人間対人間の対話中に情報を抽出するコンピュータ実装される方法を対象とする。この方法は、（ｉ）コンピュータベースの情報抽出デバイスの少なくとも１つのマイクロホンによって、対話中に第１の話者および第２の話者による音声を受け取るステップと、（ｉｉ）コンピュータベースの情報抽出デバイスによって、第１の話者による音声を自動的に認識するステップと、（ｉｉｉ）コンピュータベースの情報抽出デバイスによって、第２の言語での第２の話者による音声を自動的に認識するステップと、（ｉｖ）コンピュータベースの情報抽出デバイスによって、第２の話者による認識された音声から少なくとも情報を抽出するステップと、（ｖ）コンピュータベースの情報抽出デバイスによって、情報抽出デバイスの少なくとも１つのデータストレージユニットに記憶される電子フォームに第２の話者による認識された音声からの抽出された情報を入力するステップとを含んでも良い。

さまざまな実施態様では、この方法は、コンピュータベースの情報抽出デバイスのスクリーンディスプレイ上にフォームを表示するステップをさらに含むことができる。また、第１の話者が、第１の言語を話し、第２の話者が、第１の言語とは異なる第２の言語を話す状況で、この方法は、（ｉ）コンピュータベースの情報抽出デバイスによって、第１の言語での第１の話者による認識された音声を第２の言語に自動的に翻訳するステップと、（ｉｉ）コンピュータベースの情報抽出デバイスによって、第２の言語での第２の話者による認識された音声を第１の言語に自動的に翻訳するステップとをさらに含むことができる。また、少なくとも情報を抽出するステップは、第１の言語に翻訳された第２の話者による認識された音声の翻訳から少なくとも情報を抽出することによって、コンピュータベースの情報抽出デバイスによって第２の話者による認識された音声から少なくとも情報を抽出することを含んでもよい。抽出された情報を入力するステップは、第１の言語に翻訳された第２の話者による認識された音声の翻訳からの抽出された情報を情報抽出デバイスの少なくとも１つのデータストレージユニットに記憶される電子フォームに入力することによって、コンピュータベースの情報抽出デバイスによって抽出された情報を入力することを含んでもよい。

さまざまな実施態様で、この方法は、第１の言語での第１の話者による認識された音声から少なくとも情報を抽出することと、第１の言語での第１の話者による認識された音声からの抽出された情報を電子フォームに入力することとをさらに含む。第１の言語に翻訳された第２の話者による認識された音声の翻訳から情報を抽出することは、セマンティック文法によって翻訳を解析することを含んでもよい。この方法は、コンピュータベースの情報抽出デバイスによって、抽出された情報に関する１つまたは複数の文書を遠隔のデータベースから取り出すことをさらに含むことができる。第１の言語に翻訳された第２の話者による認識された音声の翻訳から情報を抽出することは、翻訳内の１つまたは複数のキーワードを検出することを含んでもよい。この方法は、コンピュータベースの情報抽出デバイスによって、抽出された情報を電子フォームに入力する前に、第１の話者および第２の話者のうちの少なくとも１つにフィードバックを提示するステップもさらに含むことが
できる。さらに、この方法は、（ｉ）コンピュータベースの情報抽出デバイスによって、第１の話者の認識された音声に曖昧さが存在するかどうかを決定するステップと、（ｉｉ）コンピュータベースの情報抽出デバイスによって、第２の言語への第１の言語での第１の話者の認識された音声の翻訳に曖昧さが存在するかどうかを決定するステップと、（ｉｉｉ）コンピュータベースの情報抽出デバイスによる、（ａ）第１の話者の認識された音声または（ｂ）第２の言語への第１の言語での第１の話者の認識された音声の翻訳のいずれかに曖昧さがあることの決定の際に、コンピュータベースの情報抽出デバイスによって、コンピュータベースの情報抽出デバイスのスクリーンディスプレイを介して第１の話者に曖昧さ除去クエリを発行することであって、曖昧さ除去クエリに対する応答は、曖昧さを解消する、発行するステップとをさらに含むことができる。第１の話者に発行された曖昧さ除去クエリは、曖昧さが第１の話者の認識された音声にある時に、曖昧さが第２の言語への第１の言語での第１の話者の認識された音声の翻訳にある時とは異なるものとすることができる。また、第１の話者の認識された音声に曖昧さが存在するかどうかの決定は、（ｉ）第１の話者の認識された音声の聴覚信頼度スコアと、（ｉｉ）電子フォームの内容と、（ｉｉｉ）第２の言語から第１の言語への第２の話者からの１つまたは複数の発声の翻訳によって与えられる言語コンテキストとを含む、複数の要因に基づくものとすることができる。第２の言語への第１の言語での第１の話者の認識された音声の翻訳に曖昧さが存在するかどうかの決定は、最高スコアリング出力翻訳のスコアリングのしきい値差以内に１つまたは複数の代替出力翻訳があるかどうか、および最高スコアリング出力翻訳のスコアリングのしきい値差以内に代替出力翻訳がない場合に、最高スコアリング出力翻訳のスコアが最小しきい値未満であるかどうかを含む、複数の要因に基づくものとすることもできる。

もう１つの全般的な態様では、本発明は、少なくとも第１の言語で話す第１の話者と第２の言語で話す第２の話者との間の人間対人間の対話の音声翻訳における曖昧さを解消するコンピュータ実装される方法を対象とする。（ｉ）コンピュータベースの音声翻訳システムによって、第１の言語での第１の話者による音声を認識するステップと、（ｉｉ）コンピュータベースの音声翻訳システムによって、第１の話者の認識された音声に曖昧さが存在するかどうかを決定するステップと、（ｉｉｉ）コンピュータベースの音声翻訳システムによって、第１の言語での第１の話者の認識された音声を第２の言語に翻訳するステップと、（ｉｖ）コンピュータベースの音声翻訳システムによって、第１の言語での第１の話者の認識された音声の第２の言語への翻訳に曖昧さが存在するかどうかを決定するステップと、（ｖ）コンピュータベースの音声翻訳システムによって、（ａ）第１の話者の認識された音声または（ｂ）第１の言語での第１の話者の認識された音声の第２の言語への翻訳のいずれかに曖昧さがあることが決定される時に、コンピュータベースの音声翻訳システムによって、音声翻訳システムのユーザインタフェースを介して第１の話者に曖昧さ除去クエリを発行することであって、曖昧さ除去クエリへの応答は、曖昧さを解消する、発行するステップとを含むことができる。

もう１つの全般的な態様では、本発明は、少なくとも第１の話者と第２の話者との間の人間対人間の対話から情報を抽出するデバイスを対象とする。このデバイスは、少なくとも１つのマイクロホンと、スクリーンディスプレイと、少なくとも１つのプログラム可能プロセッサおよびディジタルデータを記憶する少なくとも１つのデータストレージユニットとを含んでもよい。少なくとも１つのプログラム可能プロセッサは、スクリーンディスプレイおよび少なくとも１つのマイクロホンと通信している。少なくとも１つのプログラム可能プロセッサは、（ｉ）第１の話者と第２の話者との間の対話中に、少なくとも１つのマイクロホンによって受け取られた第１の話者および第２の話者による音声を自動的に認識し、（ｉｉ）第１の話者と第２の話者との間の対話中に、スクリーンディスプレイ上に表示されるグラフィカルユーザインタフェースの第１部分に第１の話者および第２の話者の認識された音声を出力し、（ｉｉｉ）スクリーンディスプレイ上に表示されるグラフ
ィカルユーザインタフェースの第２部分上に、第１の話者と第２の話者との間の対話に関する（たとえば、その対話から抽出された）情報を有するフォームを出力するようにプログラムされ得る。少なくとも１つのプログラム可能プロセッサは、フォーム内のグラフィカルユーザインタフェースの第２部分上に出力するために第１の話者と第２の話者との間の対話から情報を抽出するようにさらにプログラムされ得る。また、第１の話者が、第１の言語を話しており、第２の話者が、第２の言語を話している状況で、少なくとも１つのプログラム可能プロセッサは、（ｉ）第１の話者の認識された音声を第２の言語に翻訳し、（ｉｉ）第２の話者の認識された音声を第１の言語に翻訳し、（ｉｉｉ）第１の話者よび第２の話者の認識された言語の翻訳をグラフィカルユーザインタフェースの第１部分に表示するようにプログラムされ得る。さらに、少なくとも１つのプログラム可能プロセッサは、デバイスのユーザによるスクリーンディスプレイを介する抽出された情報入力に対する編集を認識し、受け取るようにプログラムされ得る。

本明細書で説明される実施形態の少なくともいくつかを、ソフトウェア、ファームウェア、および／またはハードウェアの多数の異なる実施形態で実施できることは、当業者に明白であろう。ソフトウェアおよびファームウェアのコードを、プロセッサ回路または任意の他の同様のコンピューティングデバイスによって実行することができる。実施形態を実施するのに使用できるソフトウェアコードまたは特殊化された制御ハードウェアは、限定的ではない。たとえば、本明細書で説明される実施形態を、たとえば従来の技法またはオブジェクト指向の技法を使用して、任意の適切なコンピュータソフトウェア言語を使用してコンピュータソフトウェアで実施することができる。そのようなソフトウェアを、たとえば磁気記憶媒体または光記憶媒体など、任意のタイプの適切な１つまたは複数のコンピュータ可読媒体に記憶することができる。実施形態の動作および挙動を、特定のソフトウェアコードまたは特殊化されたハードウェアコンポーネントへの特定の参照なしで説明することができる。そのような特定の参照の不在が実現可能であるのは、当業者が、穏当な労力だけを用いて、不当な実験なしでこの説明に基づいて実施形態を実施するためにソフトウェアおよび制御ハードウェアを設計できることが、明瞭に理解されるからである。

さらに、本実施形態に関連付けられたプロセスを、コンピュータもしくはコンピュータシステム、移動体デバイス、スマートフォン、および／またはプロセッサなど、プログラム可能機器によって実行することができる。プログラム可能機器にプロセスを実行させることのできるソフトウェアを、たとえばコンピュータシステム（不揮発性）メモリ、ＲＡＭ、ＲＯＭ、フラッシュメモリ、光ディスク、磁気テープ、または磁気ディスクなど、任意のストレージデバイスに記憶することができる。さらに、プロセスの少なくとも一部を、コンピュータシステムが製造される時にプログラムし、あるいは、さまざまなタイプのコンピュータ可読媒体に記憶することができる。

本明細書で説明されるある種のプロセス態様を、プロセスステップを実行するようにコンピュータシステムに指示する１つまたは複数のコンピュータ可読媒体に記憶された命令を使用して実行できることも理解されたい。コンピュータ可読媒体は、たとえば、ディスケット、コンパクトディスク（ＣＤ）、ディジタル多用途ディスク（ＤＶＤ）、光ディスクドライブ、またはハードディスクドライブなどのメモリデバイスを含むことができる。コンピュータ可読媒体は、物理的な、仮想的な、永久的な、一時的な、半永久的な、および／または半一時的なメモリストレージも含むことができる。

「コンピュータ」、「コンピュータシステム」、「ホスト」、「サーバ」、または「プロセッサ」を、たとえば、限定なしに、プロセッサ、マイクロコンピュータ、ミニコンピュータ、サーバ、メインフレーム、ラップトップ、携帯情報端末（ＰＤＡ）、無線電子メールデバイス、セル電話機、スマートフォン、タブレット、移動体デバイス、ページャ、プロセッサ、ファックス機、スキャナ、またはネットワークを介してデータを送信し、か
つ／もしくは受信するように構成された任意の他のプログラム可能デバイスとすることができる。本明細書で開示されるコンピュータシステムおよびコンピュータベースのデバイスは、情報の入手、処理、および通信に使用されるある種のソフトウェアモジュールまたはエンジンを記憶するメモリを含むことができる。そのようなメモリを、開示される実施形態の動作に関して内蔵または外付けとすることができることを理解されたい。メモリは、ハードディスク、光ディスク、フロッピー（登録商標）ディスク、ＲＯＭ（読取り専用メモリ）、ＲＡＭ（ランダムアクセスメモリ）、ＰＲＯＭ（プログラム可能ＲＯＭ）、ＥＥＰＲＯＭ（電気的消去可能ＰＲＯＭ）、および／または他のコンピュータ可読媒体を含む、ソフトウェアを記憶するすべての手段を含むこともできる。本明細書で説明されるソフトウェアモジュールおよびエンジンを、モジュールを記憶するメモリにアクセスするコンピュータデバイスのプロセッサ（場合によって１つまたは複数）によって実行することができる。

本明細書で開示されるさまざまな実施形態で、所与の１つまたは複数の機能を実行するために、単一の構成要素を、複数の構成要素によって置換することができ、複数の構成要素を、単一の構成要素によって置換することができる。そのような置換が動作可能でない場合を除いて、そのような置換は、諸実施形態の所期の範囲に含まれる。たとえば、本明細書で説明されるすべてサーバを、協調機能のために配置され、構成される「サーバファーム」またはネットワーク接続されたサーバ（サーバブレードなど）の他のグループ化によって置換することができる。サーバファームが、ファームの個々の構成要素の間／中で作業負荷を分散するために働くことができ、複数のサーバの集合的で協調的な能力を束ねることによってコンピューティングプロセスをはかどらせることができることを理解されたい。そのようなサーバファームは、たとえば、異なる計算機からの処理能力の需要を追跡すること、ネットワーク需要に基づいてタスクに優先順位を付け、スケジューリングすること、および／または構成要素故障またはオペラビリティの減少の場合にバックアップコンティンジェンシ（ｂａｃｋｕｐｃｏｎｔｉｎｇｅｎｃｙ）を提供することなどのタスクを達成する負荷平衡化ソフトウェアを使用することができる。

コンピュータシステムは、１つまたは複数のデータバスを介してメモリ（たとえば、ＲＡＭまたはＲＯＭ）と通信している１つまたは複数のプロセッサを含んでもよい。データバスは、プロセッサ（１つまたは複数）とメモリとの間で電気信号を搬送することができる。プロセッサおよびメモリは、電流を伝導する電気回路を含んでもよい。プロセッサ（１つまたは複数）および／またはメモリ回路（１つまたは複数）のソリッドステートトランジスタなどの回路のさまざまな構成要素の電荷状態は、回路の動作中に変化する可能性がある。

さまざまな実施形態を本明細書で説明したが、これらの実施形態に対するさまざまな修正形態、代替形態、および適合を、利益の少なくとも一部の達成を揺する当事者が思い浮かべることができることを理解されたい。したがって、開示された実施形態は、本明細書で示される実施形態の範囲から逸脱することなく、すべてのそのような修正形態、代替形態、および適合を含むことが意図されている。

Claims

少なくとも第１の話者と第２の話者との間の人間対人間の対話から情報を抽出するデバイスであって、
少なくとも１つのマイクロホンと、
スクリーンディスプレイと、
少なくとも１つのプログラム可能プロセッサおよびディジタルデータを記憶する少なくとも１つのデータストレージユニットと
を含み、前記少なくとも１つのプログラム可能プロセッサは、前記少なくとも１つのマイクロホンおよび前記スクリーンディスプレイと通信しており、前記少なくとも１つのプログラム可能プロセッサは、
前記少なくとも１つのマイクロホンによって受信される第１の話者による音声を自動的に認識し、
前記少なくとも１つのマイクロホンによって受信される第２の話者による音声を自動的に認識し、
認識された前記第２の話者による音声から少なくとも情報を抽出し、
コンピュータシステムの前記少なくとも１つのデータストレージユニットに記憶され前記スクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームに、認識された第２の話者による音声から抽出された情報を入力する
ようにプログラムされる
デバイス。
前記第１の話者は、第１の言語を話し、
前記第２の話者は、前記第１の言語とは異なる第２の言語を話し、
前記少なくとも１つのプログラム可能プロセッサは、
認識された第１の話者による前記第１の言語の音声を、前記第２の言語に自動的に翻訳し、
認識された第２の話者による前記第２の言語の音声を、前記第１の言語に自動的に翻訳し、
前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から少なくとも情報を抽出することによって、認識された第２の話者による音声から少なくとも情報を抽出し、
前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から抽出された情報を前記少なくとも１つのデータストレージユニットに記憶される電子フォームに入力することによって、抽出された情報を入力する
ようにさらにプログラムされる、請求項１に記載のデバイス。
前記プロセッサは、
前記第１の言語の認識された第１の話者による音声から少なくとも情報を抽出し、
前記第１の言語の認識された第１の話者による音声から抽出された情報を電子フォームに入力する
ようにさらにプログラムされる、請求項２に記載のデバイス。
前記グラフィカルユーザインタフェースは、呼び出された時に、前記スクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームを前記第１の言語による表示から前記第２の言語による表示に切り替えるためのユーザ入力を有する、請求項３に記載のデバイス。
前記プロセッサは、セマンティック文法によって前記翻訳を構文解析することによって前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から情報を抽出す
るようにプログラムされる、請求項２に記載のデバイス。
前記プロセッサは、固有表現タグ付けによって前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から情報を抽出するようにプログラムされる、請求項２に記載のデバイス。
前記プロセッサは、音声検索語検出によって前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から情報を抽出するようにプログラムされる、請求項２に記載のデバイス。
前記プロセッサは、抽出された情報に関する１以上の文書を遠隔のデータベースから取り出すようにさらにプログラムされる、請求項５に記載のデバイス。
前記プロセッサは、翻訳内の１以上のキーワードを検出することによって前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から情報を抽出するようにプログラムされる、請求項２に記載のデバイス。
前記プロセッサは、抽出された情報に関する１以上の文書を遠隔のデータベースから取り出すようにさらにプログラムされる、請求項９に記載のデバイス。
前記プロセッサは、抽出された情報を電子フォームに入力する前に、前記第１の話者および前記第２の話者のうちの少なくとも１つにフィードバックを提示するようにさらにプログラムされる、請求項１に記載のデバイス。
前記少なくとも１つのプログラム可能プロセッサは、前記デバイスのユーザによって前記スクリーンディスプレイを介して入力される、電子フォーム内の抽出された情報に対する編集を認識し、受信するようにプログラムされる、請求項１に記載のデバイス。
少なくとも第１の話者と第２の話者との間の人間対人間の対話から情報を抽出するコンピュータベースのデバイスであって、
少なくとも１つのマイクロホンと、
スクリーンディスプレイと、
ディジタルデータを記憶する少なくとも１つのデータストレージユニットと、
前記少なくとも１つのマイクロホンによって受信される第１の話者による音声を自動的に認識する第１の自動音声認識モジュールと、
前記少なくとも１つのマイクロホンによって受信される第２の話者による音声を自動的に認識する第２の自動音声認識モジュールと、
前記第１の自動音声認識モジュール、前記第２の自動音声認識モジュール、前記少なくとも１つのマイクロホン、および前記スクリーンディスプレイと通信している情報抽出モジュールであって、
認識された前記第２の話者による音声から少なくとも情報を抽出し、
前記少なくとも１つのデータストレージユニットに記憶され前記スクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームに、認識された第２の話者による音声から抽出された情報を入力する
情報抽出モジュールと
を含むデバイス。
前記第１の話者は、第１の言語を話し、
前記第２の話者は、前記第１の言語とは異なる第２の言語を話し、
前記デバイスは、
前記第１の自動音声認識モジュールと通信している第１の機械翻訳モジュールであって、前記第１の言語の認識された第１の話者による音声を前記第２の言語に自動的に翻訳するための第１の機械翻訳モジュールと、
前記第２の自動音声認識モジュールと通信している第２の機械翻訳モジュールであって、前記第２の言語の認識された第２の話者による音声を前記第１の言語に自動的に翻訳するための第２の機械翻訳モジュールと
をさらに含み、前記情報抽出モジュールは、
前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から少なくとも情報を抽出することによって、認識された第２の話者による音声から少なくとも情報を抽出し、
前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から抽出された情報を前記少なくとも１つのデータストレージユニットに記憶される電子フォームに入力することによって、抽出された情報を入力する
請求項１３に記載のデバイス。
前記情報抽出モジュールは、さらに、
前記第１の言語の認識された第１の話者による音声から少なくとも情報を抽出し、
前記第１の言語の認識された第１の話者による音声から抽出された情報を電子フォームに入力する
請求項１４に記載のデバイス。
前記グラフィカルユーザインタフェースは、呼び出された時に、前記スクリーンディスプレイ上の前記グラフィカルユーザインタフェース内に表示される電子フォームを前記第１の言語による表示から前記第２の言語による表示に切り替えるためのユーザ入力を有する、請求項１５に記載のデバイス。
前記情報抽出モジュールは、セマンティック文法によって前記翻訳を構文解析することによって前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から情報を抽出する、請求項１４に記載のデバイス。
前記情報抽出モジュールは、固有表現タグ付けによって前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から情報を抽出する、請求項１４に記載のデバイス。
前記情報抽出モジュールは、音声検索語検出によって前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から情報を抽出する、請求項１４に記載のデバイス。
抽出された情報に関する１以上の文書を遠隔のデータベースから取り出すための情報リトリーバモジュールをさらに含む、請求項１７に記載のデバイス。
前記情報抽出モジュールは、翻訳内の１以上のキーワードを検出することによって前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から情報を抽出する、請求項１４に記載のデバイス。
抽出された情報に関する１以上の文書を遠隔のデータベースから取り出すための情報リトリーバモジュールをさらに含む、請求項２１に記載のデバイス。
抽出された情報を電子フォームに入力する前に、第１の話者および第２の話者のうちの少なくとも１つにフィードバックを提示するマルチモーダル対話インタフェースをさらに
含む、請求項１３に記載のデバイス。
少なくとも話している第１の話者と第２の話者との間の人間対人間の対話中に情報を抽出するコンピュータ実装される方法であって、
コンピュータベースの情報抽出デバイスの少なくとも１つのマイクロホンによって、前記対話中に第１の話者および第２の話者による音声を受信するステップと、
前記コンピュータベースの情報抽出デバイスによって、第１の話者による音声を自動的に認識するステップと、
前記コンピュータベースの情報抽出デバイスによって、第２の言語の第２の話者による音声を自動的に認識するステップと、
前記コンピュータベースの情報抽出デバイスによって、認識された第２の話者による音声から少なくとも情報を抽出するステップと、
前記コンピュータベースの情報抽出デバイスによって、前記情報抽出デバイスの少なくとも１つのデータストレージユニットに記憶される電子フォームに、認識された第２の話者による音声から抽出された情報を入力するステップと
を含む方法。
前記コンピュータベースの情報抽出デバイスのスクリーンディスプレイ上にフォームを表示するステップをさらに含む、請求項２４に記載の方法。
第１の話者は、第１の言語を話し、第２の話者は、前記第１の言語とは異なる第２の言語を話し、前記方法は、
前記コンピュータベースの情報抽出デバイスによって、前記第１の言語の認識された第１の話者による音声を前記第２の言語に自動的に翻訳するステップと、
前記コンピュータベースの情報抽出デバイスによって、前記第２の言語の認識された第２の話者による音声を前記第１の言語に自動的に翻訳するステップと
をさらに含み、
少なくとも情報を抽出するステップは、前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から少なくとも情報を抽出することによって、前記コンピュータベースの情報抽出デバイスによって認識された第２の話者による音声から少なくとも情報を抽出するステップを含み、
抽出された情報を入力するステップは、前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から抽出された情報を前記情報抽出デバイスの少なくとも１つのデータストレージユニットに記憶される電子フォームに入力することによって、前記コンピュータベースの情報抽出デバイスによって抽出された情報を入力することを含む
請求項２５に記載の方法。
前記第１の言語の認識された第１の話者による音声から少なくとも情報を抽出するステップと、
前記第１の言語の認識された第１の話者による音声から抽出された情報を電子フォームに入力するステップと
をさらに含む、請求項２６に記載の方法。
前記スクリーンディスプレイ上のグラフィカルユーザインタフェースに表示される電子フォームを、言語を切り替えるための前記グラフィカルユーザインタフェース上の入力が呼び出される時に、前記第１の言語による表示から前記第２の言語による表示に切り替えるステップをさらに含む、請求項２７に記載の方法。
前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から情報を抽出するステップは、セマンティック文法によって前記翻訳を構文解析することを含む、請求
項２６に記載の方法。
前記コンピュータベースの情報抽出デバイスによって、抽出された情報に関する１以上の文書を遠隔のデータベースから取り出すステップをさらに含む、請求項２９に記載の方法。
前記第１の言語に翻訳された、認識された第２の話者による音声の翻訳から情報を抽出するステップは、翻訳内の１以上のキーワードを検出するステップを含む、請求項２６に記載の方法。
前記コンピュータベースの情報抽出デバイスによって、抽出された情報に関する１以上の文書を遠隔のデータベースから取り出すステップをさらに含む、請求項３１に記載の方法。
前記コンピュータベースの情報抽出デバイスによって、抽出された情報を電子フォームに入力する前に、第１の話者および第２の話者のうちの少なくとも１つにフィードバックを提示するステップをさらに含む、請求項２６に記載の方法。
前記コンピュータベースの情報抽出デバイスによって、認識された第１の話者の音声に曖昧さが存在するか否かを決定するステップと、
前記コンピュータベースの情報抽出デバイスによって、前記第１の言語による認識された第１の話者の音声の前記第２の言語への翻訳に曖昧さが存在するか否かを決定するステップと、
前記コンピュータベースの情報抽出デバイスによる、（ｉ）認識された第１の話者の音声または（ｉｉ）前記第１の言語による認識された第１の話者の音声の前記第２の言語への翻訳のいずれかに曖昧さがあることの決定の際に、前記コンピュータベースの情報抽出デバイスによって、前記コンピュータベースの情報抽出デバイスのスクリーンディスプレイを介して第１の話者に曖昧さ除去クエリを発行するステップであって、前記曖昧さ除去クエリに対する応答は、曖昧さを解消する、発行するステップと
をさらに含む、請求項２６に記載の方法。
前記第１の話者に発行される曖昧さ除去クエリは、認識された第１の話者の音声に曖昧さが存在する時と、前記第１の言語による認識された第１の話者の音声の前記第２の言語への翻訳に曖昧さが存在する時とでは異なる、請求項３４に記載の方法。
認識された第１の話者の音声に曖昧さが存在するか否かの決定は、複数の要因に基づき、前記要因は、
認識された第１の話者の音声の聴覚信頼度スコアと、
前記電子フォームの内容と、
第２の話者による１以上の発声の前記第２の言語から前記第１の言語への翻訳によって与えられる言語コンテキストと
を含む、請求項３４に記載の方法。
認識された第１の話者の音声の、前記第１の言語の前記第２の言語への翻訳に曖昧さが存在するか否かの決定は、複数の要因に基づき、前記要因は、
最高スコアリング出力翻訳のスコアリングのしきい値差以内に１以上の代替出力翻訳が存在するか否かと、
前記最高スコアリング出力翻訳のスコアリングのしきい値差以内に代替出力翻訳が存在しない場合に、最高スコアリング出力翻訳のスコアが最小しきい値未満であるか否かと
を含む、請求項３４に記載の方法。
前記コンピュータベースの情報抽出デバイスのスクリーンディスプレイは、タッチスクリーンディスプレイを含む、請求項３４に記載の方法。
前記コンピュータベースの情報抽出デバイスによって、前記フォーム内のエントリに対する訂正を受け取るステップをさらに含む、請求項２７に記載の方法。
前記訂正を受け取るステップは、前記スクリーンディスプレイ上に表示された前記認識された音声の書き起こしからの情報を前記スクリーンディスプレイ上に表示された前記フォーム上の前記エントリへドラッグするステップを含む、請求項３９に記載の方法。
前記訂正を受け取るステップは、前記フォーム上の前記エントリへの１以上の編集を受け取るステップを含む、請求項４０に記載の方法。
前記フォーム上のエントリへの１以上の編集を受け取るステップは、前記フォーム上のエントリへの口頭で入力される編集を受け取るステップを含む、請求項４１に記載の方法。
前記フォーム上のエントリへの１以上の編集を受け取るステップは、前記フォーム上のエントリへの訂正を示すジェスチャを前記コンピュータベースの情報抽出デバイスによって検出するステップを含む、請求項４１に記載の方法。
前記コンピュータベースの情報抽出デバイスによって、遠隔のデータベースへ電子フォームをアップロードするステップをさらに含む、請求項２４に記載の方法。
前記コンピュータベースの情報抽出デバイスによって、遠隔のデータベースへ前記電子フォームをアップロードすることをさらに含む、請求項２７に記載の方法。
少なくとも第１の言語で話す第１の話者と第２の言語で話す第２の話者との間の人間対人間の対話の音声翻訳における曖昧さを解消するコンピュータ実装される方法であって、
コンピュータベースの音声翻訳システムによって、前記第１の言語の第１の話者による音声を認識するステップと、
前記コンピュータベースの音声翻訳システムによって、認識された第１の話者の音声に曖昧さが存在するか否かを決定するステップと、
前記コンピュータベースの音声翻訳システムによって、認識された第１の言語の第１の話者の音声を第２の言語に翻訳するステップと、
前記コンピュータベースの音声翻訳システムによって、前記第１の言語による認識された第１の話者の音声の第２の言語への翻訳に曖昧さが存在するか否かを決定するステップと、
前記コンピュータベースの音声翻訳システムによる、（ｉ）認識された第１の話者の音声または（ｉｉ）前記第１の言語による認識された第１の話者の音声の前記第２の言語への翻訳のいずれかに曖昧さがあることが決定の際に、前記コンピュータベースの音声翻訳システムによって、前記音声翻訳システムのユーザインタフェースを介して第１の話者に曖昧さ除去クエリを発行するステップであって、前記曖昧さ除去クエリに対する応答は、曖昧さを解消する、発行するステップと
を含む方法。
前記第１の話者に発行される曖昧さ除去クエリは、認識された第１の話者の音声に曖昧さが存在する時と、前記第１の言語による認識された第１の話者の音声の前記第２の言語への翻訳に曖昧さが存在する時とでは異なる、請求項４６に記載の方法。
認識された第１の話者の音声に曖昧さが存在するか否かの決定は、複数の要因に基づき、前記要因は、
認識された第１の話者の音声の聴覚信頼度スコアと、
前記第１の話者と前記第２の話者との間の対話のコンテキストと、
前記第２の話者による１以上の発声の前記第２の言語から前記第１の言語への翻訳によって与えられる言語コンテキストと
を含む、請求項４６に記載の方法。
第１の言語による認識された第１の話者の音声の前記第２の言語への翻訳に曖昧さが存在するか否かの決定は、複数の要因に基づき、前記要因は、
最高スコアリング出力翻訳のスコアリングのしきい値差以内に１以上の代替出力翻訳が存在するか否かと、
前記最高スコアリング出力翻訳のスコアリングのしきい値差以内に代替出力翻訳が存在しない場合に、最高スコアリング出力翻訳のスコアが最小しきい値未満であるか否かと
を含む、請求項４６に記載の方法。
前記音声翻訳システムのユーザインタフェースは、タッチスクリーンディスプレイを含む、請求項４６に記載の方法。
少なくとも第１の話者と第２の話者との間の人間対人間の対話から情報を抽出するデバイスであって、
少なくとも１つのマイクロホンと、
スクリーンディスプレイと、
少なくとも１つのプログラム可能プロセッサおよびディジタルデータを記憶する少なくとも１つのデータストレージユニットであって、前記少なくとも１つのプログラム可能プロセッサは、前記スクリーンディスプレイおよび前記少なくとも１つのマイクロホンと通信しており、前記少なくとも１つのプログラム可能プロセッサは、
第１の話者と第２の話者との間の対話中に、前記少なくとも１つのマイクロホンによって受信した第１の話者および第２の話者による音声を自動的に認識し、
第１の話者と第２の話者との間の対話中に、前記スクリーンディスプレイ上に表示されるグラフィカルユーザインタフェースの第１部分に、認識された第１の話者および第２の話者の音声を出力し、
前記スクリーンディスプレイ上に表示されるグラフィカルユーザインタフェースの第２部分上に、第１の話者と第２の話者との間の対話に関する情報を有するフォームを出力する
ようにプログラムされる
デバイス。
前記少なくとも１つのプログラム可能プロセッサは、前記フォーム内のグラフィカルユーザインタフェースの第２部分上に出力するために、第１の話者と第２の話者との間の対話から情報を抽出するようにさらにプログラムされる、請求項５１に記載のデバイス。
第１の話者は第１の言語を話し、前記第２の話者は第２の言語を話し、
前記少なくとも１つのプログラム可能プロセッサは、
認識された第１の話者の音声を前記第２の言語に翻訳し、
認識された第２の話者の音声を前記第１の言語に翻訳し、
認識された第１の話者および第２の話者の言語の翻訳を前記グラフィカルユーザインタフェースの第１部分に表示する
ようにプログラムされる、請求項５２に記載のデバイス。
前記少なくとも１つのプログラム可能プロセッサは、前記デバイスのユーザによる前記スクリーンディスプレイを介する抽出された情報入力に対する編集を認識し、受け取るようにプログラムされる、請求項５２に記載のデバイス。
前記グラフィカルユーザインタフェースは、呼び出された時に、前記スクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームを前記第１の言語による表示から前記第２の言語による表示に切り替えるためのユーザ入力を有する、請求項５３に記載のデバイス。