JP2015516587A - 対話から情報を抽出するデバイス - Google Patents

対話から情報を抽出するデバイス Download PDF

Info

Publication number
JP2015516587A
JP2015516587A JP2014560989A JP2014560989A JP2015516587A JP 2015516587 A JP2015516587 A JP 2015516587A JP 2014560989 A JP2014560989 A JP 2014560989A JP 2014560989 A JP2014560989 A JP 2014560989A JP 2015516587 A JP2015516587 A JP 2015516587A
Authority
JP
Japan
Prior art keywords
speaker
language
speech
information
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014560989A
Other languages
English (en)
Other versions
JP6058039B2 (ja
JP2015516587A5 (ja
Inventor
ワイベル、アレクサンダー
Original Assignee
フェイスブック,インク.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フェイスブック,インク. filed Critical フェイスブック,インク.
Publication of JP2015516587A publication Critical patent/JP2015516587A/ja
Publication of JP2015516587A5 publication Critical patent/JP2015516587A5/ja
Application granted granted Critical
Publication of JP6058039B2 publication Critical patent/JP6058039B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

2人の話者の間の人間対人間の単一言語または複数言語の対話中に情報を抽出するコンピュータ実装されるシステムおよび方法を開示する。第2の話者による認識された音声(またはその翻訳)および/または認識された第1の話者による音声(またはその翻訳)が抽出される。抽出された情報は、データストアに記憶される電子フォームに入力される。

Description

本発明は、対話から情報を抽出するデバイスに関する。
音声通信デバイスおよび音声翻訳デバイスは、お互いの言語を理解しない2人(またはそれ以上)の人間の間のコミュニケーションの障害に橋を渡すために働く。これは、少なくとも1つの言語方向における少なくとも1つの音声翻訳システムが、(1)音声認識エンジン、(2)機械翻訳エンジン、および(3)他方の言語でリスナに出力を提示する出力生成インタフェース(そのような出力は、リンクされたウェブクライアント上、ヘッドアップディスプレイ上、プロジェクタ上、特殊なオーディオスピーカ上の合成音声または出力テキスト、その他などによって表すことができる)の組合せから構成される。そのようなシステムの目的は、人間対人間の通信を提供すること、すなわち1人の話者によって表された情報であるアイデアを他の言語でリスナに伝えることである。音声翻訳システムを開示する従来の特許文献は、そのすべてが本願明細書に援用される、特許文献1、特許文献2、特許文献3、特許文献4、特許文献5、特許文献6、特許文献7、および特許文献8を含む。代替案では、データ入力用のディクテーションシステムまたはヒューマン−マシンダイアログシステム(human−machine dialog system)などの記録のためのシステムが提示された。しかし、人間対人間の対話は、しばしば、記録またはデータ入力にその後に必要とされる可能性がある情報を既に含む。
米国特許第5,712,957号明細書 米国特許第6,324,510号明細書 米国特許第6,963,837号明細書 米国特許第8,090,570号明細書 米国特許第8,204,739号明細書 米国特許出願公開第2007/0,271,088号明細書 米国特許出願公開第2008/0,120,091号明細書 米国特許出願公開第2011/0,307,241号明細書
対話のプロセスで伝えられる情報が、さまざまな情報処理タスクでさらに使用され、処理される、多数の情況がある。現在、そのような情報は、通常、ヒューマン−マシンインタフェースの異なるシステムに入力され、追加され、または再入力され、したがって、無駄であり、時間がかかる。しかし、認識された対話情報を、人間対人間の会話を「聴く」ヒューマン−マシンインタフェースに直接に活用することもできるはずである。
したがって、本願で提案されるのは、情報が人間対人間の対話から黙示的に抽出される、統合され組み合わされた設計である。言語翻訳の目的で音声翻訳器で使用される人間対人間の対話処理技術を使用して、言語を横断する(クロスリンガルな)対話ならびに単一言語対話から情報を抽出するのを助けることもできる。本願では、2人(またはそれ以上)の対話パートナから収集された情報を使用して、会話の過程中に記録を完成させまたは補助サービスを直接にトリガし、これによって時間を節約し、望ましくない妨害を避ける技術を説明する。したがって、本願は、1つの全般的な態様で、音声翻訳デバイスの構成
要素になり、さまざまな補助機械サービスにのうちにまたは明示的にではあるが人間対人間のコミュニケーションの副次的効果として伝える、装置を開示する。そのようにすることで、装置は時間を節約し、情報収集をより効果的かつ効率的なものにする。
たとえば、医療任務で使用される音声翻訳デバイスにおいて、2人の話者(医師および患者)は、その患者が経験している可能性がある病気を議論している場合がある。そのような対話の過程で、医師は、「熱がありますか」、「頭が痛いですか」、または「アレルギがありますか」などの質問を行う場合があり、これらは、すべてが診断の一部である。応答を患者のレポートまた診断書に入力するのではなく、結果の治療を書き留めるのでもなく、本発明の実施形態を使用して、そのようなレポートを人間対人間の対話中に自動的に生成することができる。本発明の実施形態は、人間対人間の対話の副次的効果として情報をレコードに抽出することによって知識労働者の労力を改善することができ、あるいは、人間対人間の対話からのそのような情報のレコードへの速やかで効率的なマルチモーダル転送を可能にすることができ、かつ/またはレコード内のそのような情報の人間対人間の対話中のシームレスな訂正の補足データ入力を可能にすることができる。
さらに、本技法を、人間対人間の対話レコードに基づく後編集ステップとして適用することができる。そのような組み合わされた人間対人間の対話およびヒューマン−マシンダイアログの1つの重要な態様は、誤りの処理である。すべての情報が、正しく認識され、翻訳されるわけではなく、実質的に正しく抽出され、所望のレコードに書き込まれるわけではない。その場合に、人間の介入が、結果のレコードを検証し、訂正するために、必要である可能性がある。ある種の実施形態では、さまざまなマルチモーダル誤り修復技法を、レコードを訂正するために使用することができる。
もう1つの全般的な態様では、本発明は、第1の言語を話す第1の話者と第2の言語を話す第2の話者との間の人間対人間の対話の音声翻訳中に発生する曖昧さを解消するシステムおよび方法を対象とする。音声認識プロセスまたは音声翻訳プロセスのいずれかの一部として曖昧さが検出される時に、曖昧さを除去するクエリが、参加者(たとえば、話者)に発行される。曖昧さを除去するクエリは、応答が、曖昧さを解消し、音声翻訳プロセスがより高い信頼度で継続することを可能にするようにするために、言葉で表される。タッチスクリーンディスプレイを使用して、曖昧さを除去するクエリを発行し、話者の応答を受け取ることができる。
本発明のさまざまな実施形態を、本明細書で、次の図面に関連して例として説明する。
本発明のさまざまな実施形態による音声翻訳デバイスを示す図。 本発明のさまざまな実施形態による音声翻訳デバイスを示す図。 本発明のさまざまな実施形態による音声翻訳デバイスを示す図。 本発明のさまざまな実施形態による音声翻訳デバイスを示す図。 本発明のさまざまな実施形態による音声翻訳デバイスを示す図。 本発明のさまざまな実施形態による情報抽出モジュールのプロセスフローを示す図。 本発明のさまざまな実施形態による音声翻訳デバイスを示す図。 本発明のさまざまな実施形態による、対話型曖昧さ除去モジュールのプロセスフローを示すフローチャート。 本発明のさまざまな実施形態による、人間対人間の対話(2言語、多言語、または単一言語)から情報を抽出し、補完し、訂正する対話型ユーザインタフェースを示す図。 本発明のさまざまな実施形態による、音声翻訳デバイスを示すブロック図。
図1は、本発明のさまざまな実施形態による、情報抽出を用いる音声翻訳デバイス12を示す図である。音声翻訳デバイス12は、逐次的な同時翻訳モードで動作する、たとえば、2人(またはそれ以上)の話者のそれぞれからの音声を逐次的にまたは同時に翻訳するものとすることができる。図1では、2つの言語による2人の話者が示されている(すなわち、2方向システム)が、このデバイスを、複数の話者(たとえば、複数(3人以上)話者システム)に拡張することができる。図1の実施形態では、言語1の話者1からの入力言語(または発声)が、言語1の自動音声認識エンジン(ASR1)に入力される。ASR1は、言語1の入力音声を、たとえば従来の自動音声認識技術を使用して、言語1のテキストに変換する。ASR1から出力されるテキストが、機械翻訳エンジン(MT1)に入力され、このMT1は、言語1のテキストを言語2に翻訳する。MT1からの言語2の翻訳された音声が、テキストディスプレイ14に出力され(たとえば、コンピュータモニタ、スマートフォンまたは他のポータブルコンピュータ上のモニタ、その他など)、かつ/または言語2のテキスト−音声シンセサイザ(TTS2)を使用してスピーカ16によって言語2の音声で出力される。
同様に、もう1つの方向では、言語2の話者2からの入力音声が、言語2の自動音声認識エンジン(ASR2)に入力される。ASR2は、言語2の入力音声を、たとえば従来の自動音声認識技術を使用して、音声2のテキストに変換する。ASR2から出力されたテキストは、機械翻訳エンジン(MT2)に入力され、このMT2は、言語2のテキストを言語1に翻訳する。MT2からの言語1の翻訳された音声を、その後、テキストディスプレイ14に出力し、かつ/または言語1のテキスト−音声シンセサイザ(TTS1)を使用してスピーカ16によって言語1の音声で出力することができる。やはり、追加の言語方向での複数の追加の構成を、用途および展開に応じて追加して、複数当事者および/または多言語の対話もしくは会議を可能にすることができる。
さらに、各方向は、情報抽出モジュールを含んでおり、言語1に対してIEM1、言語2に対してIEM2が対応する。IEM1は、言語1のASR1からのテキスト出力を受け取り、IEM2は、言語2のASR2からのテキスト出力を受け取る。さらに、さまざまな実施形態では、図1に示されているように、IEM1は、MT1からの出力も受け取ることができ、IEM2は、MT2からの出力も受け取ることができる。IEMは、人間対人間の対話から関連情報を抽出するように構成される。
一実施形態では、IEMは、セマンティック文法によってASRエンジン(またはMT)からのテキスト文(1つまたは複数)を解析するために、フォーマッティングステップおよび解析ステップ(PARS)によってそれぞれのASR(またはMT)からのそれぞれのテキスト入力を処理する。さまざまな実施形態では、IEMは、ASRエンジンからのテキストを解析するのにフォニックス(Phoenix)パーサを使用することができる。Phoenixパーサに関するさらなる詳細は、両方が全体として本願明細書に援用される、ダブリュ.ワード(W.Ward)、「自然対話における情報の抽出(Extracting Information in Spontaneous Speech)」、音声言語のインターナショナルカンファレンスの報告書(Proceedings
of International Conference on Spoken Language)、1994年およびダブリュ.ワード(W.Ward)、「自然対話の理解:Phoenixシステム(Understanding Spontaneous
Speech:the Phoenix System)」、ICASSP’91の報告書(Proceedings of ICASSP’91)、1991年に見出すことができる。代替案では、ある予測可能な種類の情報だけが抽出される(たとえば、名前、
数)場合には、クラス・タガー(class tagger)およびテキスト処理モジュールまたは固有表現タガー(named entity tagger)など、より単純な配置が、情報抽出に十分である可能性がある。IEMは、所望の情報クラスの発生を検出し、さらなる処理に適する内部表現に変換することができる。たとえば、文「I am
fifty six years old(私は56歳です)」では、クラス・タガーの役割を、数(56)の出現を検出することおよび文字列「fifty six」をさらなる処理に使用可能な数値エントリ「56」に変換するテキストプロセッサとすることができる。
図6は、さまざまな実施形態によるIEMのプロセスフローを示すフローチャートである。ステップ60では、解析ステップが、話された文の役割または言語行為に対応するセマンティックフレームを割り当てることができ、ステップ62では、その文中のキーワード(1つまたは複数)をそのフレーム内のセマンティックスロットにマッピングすることができる。ステップ64では、セマンティックフレームおよびセマンティックスロットを電子フォームの適当なエントリにコピーすることができ、フォームは、その後、結果のレポートを構成する。フォーム28は、好ましくは、言語1または言語2のいずれかで記述される。議論の同一のために、言語1で記述されると仮定すると、フォーム28は、話者1からの言語1の認識された単語および/または言語2から言語1に翻訳された話者2からの翻訳された単語を投入される。フォームは、遠隔のまたはローカルのデータベース26など、音声対話抽出システム12のデータストア内に記憶された電子フォーム28とすることができ、このデータベース26を、ポータブル音声対話システム12の一次メモリもしくは二次メモリに、または遠隔のコンピュータシステムのデータストア内に記憶することができる。人間−人間の対話での話者の役割(たとえば、医師または患者)に応じて、また、適用される文法または抽出ツールに応じて、結果のフォームは、たとえば診断、治療、または処方に使用される、求められる情報レコードを含む。
もう1つの実施形態では、解析の代わりに、IEMは、音声検索語検出モジュールまたはキーワードスポッティング(KWS)モジュールを使用し、このモジュールは、セマンティックフレームではなくキーワードを抽出し、レポートにコピーするのみである。このキーワード機能を、テキストストリング内の名前またはクラスを識別する固有表現モジュールまたはクラスタグ付けモジュールによって提供することもできる。これは、固有表現(固有名詞、地名、薬物、食物、または数値(体重、年齢、…)その他)が識別され、フォーム/レポートに書き込まれる場合に、特に有用である。固有表現および数表現は、患者レコードの準備、病院登録、災害救助の避難者登録、などの要求に関して名前を抽出する上で重要な役割を演じる。KWSモジュールに関するさらなる詳細は、それぞれが全体として本願明細書に援用される、エル.ラティノフ(L.Ratinov)およびディ.ロス(D.Roth)、「固有表現認識における設計の挑戦および誤解(Design Challenges and Misconceptions in Named Entity Recognition)」、CoNLL(2009年)、ジェイ.アール.フィンケル(J.R.Finkel)、ティ.グレネガー(T.Grenager)、およびシー.マニング(C.Manning)、「ギブスサンプリングによる非ローカル情報の情報抽出システムへの取り入れ(Incorporating Non−local Information into Information Extraction Systems by Gibbs Sampling)」、計算上の言語学協会の第43回年次会議の報告書(Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics)(ACL 2005)、363〜370頁、ならびに米国特許第8,204,739号に見出すことができる。
もう1つの実施形態では、IEMは、情報検索(IR)モジュールを使用する。IRモ
ジュールIR1およびIR2は、図2に示されているように、ワールドワイドウェブを含む文書の大きな遠隔のデータベースから関連する文書または応答を抽出することができる。IEMは、無線(たとえば、WiFi)または有線のネットワーク接続を介してワールドワイドウェブと通信していてもよい。この形で、IRモジュールIR1およびIR2は、書き起こされた入力文を受け取り、関連する文書を取り出すか、それに関連する文書から文字列を取り出す。IRモジュールIR1およびIR2は、ワールドワイドウェブ、ウィキペディア記事、ヘルプファイル、販促資料、製品提供、その他などの大きなデータベースを介する検索を実行して、ユーザ(たとえば、話者の1人または別のユーザ)に、彼らが別の人間と会話している間に関連する記事または指示を提示することができる。可能な用途は、人間−人間の会話に応じて、およびその副次的効果として、指示、関連広告、エンターテイメント、冗談、ニュース、その他を取り出すことである。この実施形態は、所望の結果が、構造レポートではなく関連情報である、より構造化されていない人間−人間の対話に特によく適する。
図1および図2に示された音声翻訳デバイス12を、さまざまなモジュール(たとえば、ASRエンジン、MTエンジン、TTSユニット、およびIEM)に対応するソフトウェアコードを実行する1つまたは複数のプロセッサを有するコンピュータベースのシステムとして実装することができる。たとえば、以下に図10に関してさらに説明するように、ランダムアクセスメモリ(RAM)212および/または不揮発性データストレージ(たとえば、ROM)216は、ASRエンジン、MTエンジン、TTSユニット、およびIEMのソフトウェアコードを記憶することができ、アプリケーションプロセッサ204は、そのコードを実行することができる。一実施形態では、図1および図2に示されたASRエンジン、MTエンジン、TTSユニット、およびIEMを、パーソナルコンピュータ、ラップトップ、タブレットコンピュータ、スマートフォン、その他など、単一のコンピュータベースのデバイスを用いて実装される。図1および図2には、2つのマイクロホン18a、18bが示されている(話者ごとに1つ)が、コンピュータデバイスは、両方(またはより多く)の話者に対して1つのマイクロホンを使用してもよい。テキスト出力を、コンピュータデバイスのモニタ/ディスプレイに表示し、かつ/またはスピーカによって出力することができる。いくつかの実施形態では、トグル入力を使用して、2人(またはより多く)の話者の間で切り替えることができる。他の実施形態では、音声翻訳デバイス12は、米国特許出願公開第2011/0,307,241号で説明されるように、入力言語(たとえば、言語1または言語2)を自動的に識別することができる。フォーム/レポートを記憶するデータベースは、さまざまな実施形態によれば、コンピュータデバイスのメモリの一部であってもよく、あるいは、データがコンピュータベースの電子電話および/またはデータネットワークを介してアップロードされる遠隔のデータベースであってもよい。
他の実施形態では、分散コンピューティングシステムを使用することができる。たとえば、図3に示されているように、話者1に関連付けられた構成要素(たとえば、ASR1、MT1、TTS2、およびIEM1)は、1つのコンピュータ20(たとえば、スマートフォン、パーソナルコンピュータ、ラップトップ、その他)上にあってもよく、話者2に関連付けられた構成要素(たとえば、ASR2、MT2、TTS1、およびIEM2)は、別のコンピュータ22上にあってもよい。MT1からの出力を、コンピュータベースの電子電話および/またはデータネットワーク24を介して話者2のコンピュータデバイス22に送信することができ、その逆を行うこともできる。同様に、すべてのコンピューティングを、中央サーバで行うことができ、話者1および話者2は、スマートフォンまたはタブレットなどの入出力デバイスを携帯するのみである。そのような実施形態では、データベース26は、電話および/またはデータネットワークを介して話者のコンピュータと通信していてもよい。
本発明のさまざまな実施形態を、図4に示されているように、マルチモーダル対話インタフェース(MMII)によって拡張することもできる。音声認識自動音声検索語検出またはセマンティック的解析は、完璧からは程遠く、時折、関連情報または重要な情報の抽出に失敗する。報告および取り出し機能がロバストに効率的に働くようにするために、マルチモーダル対話をさまざまな実施形態で使用して、対話手段によってキーとなる情報を識別することができる。MMIIは、ユーザがシステムに追加情報を供給するためにシステムと対話することのできる1つまたは複数の手段を含んでもよい。たとえば、話者のコンピュータデバイス32のディスプレイ30を、タッチスクリーンディスプレイ30のユーザのタッチ(たとえば、指またはスタイラスによる)を検出するタッチスクリーンとすることができる。そのような実施形態では、話者(話者1)からの認識された音声のテキストを、ディスプレイ30に表示することができ、話者(話者1)は、ディスプレイ30上に示された適当なキーワードをタップすることによって、表示されたテキスト内のキーワードを識別することができる。他の実施形態では、話者(話者1)は、タッチスクリーン30および/または従来のコンピュータマウス34もしくはキーボード36を使用して、ディスプレイ30上のキーワードをドラッグし、フォーム(ディスプレイ30上に同時に表示される)にドロップすることができる。さらに、ユーザは、訂正を口頭で入力する(たとえば、用語の正しい綴りを口頭で提供する)ことによって、フォーム内のエントリを訂正する(たとえば、綴りを訂正する)ことができ、この口頭の入力は、デバイス32のマイクロホン38によって検出され、音声認識ソフトウェア(たとえば、ASR1およびMT1)によって処理されて、フォーム内の誤りが訂正される。
人間対人間の対話からフォームへの情報の転送は、理想的には、必ず自動的に行われなければならないが、マルチモーダル対話は、誤りからのロバストな回復機構を提供する。その場合に、2つの異なるタイプの誤りすなわち、欠落および誤りのある情報を識別することができる。欠落の場合に、コンピュータデバイス(たとえば、図4のコンピュータデバイス32)は、正しい情報を入力するためのマルチモーダルサポートを提供するソフトウェアを有する(かつ、実行する)ことができる。これは、音声書き起こしからフォームに正しい情報をドラッグすること、および/または正しい情報をフォームに直接にタイプし/スペリングし/手書きすることを含む。誤りの場合に、全体として本願明細書に援用される、米国特許出願公開第2011/0,307,241号ならびに米国特許第5,712,957号および米国特許第5,855,000号に記載されたものなどのマルチモーダル誤り訂正技法を使用して、誤りのある情報を訂正することができる。上述しましたように、ユーザは、口頭で訂正を入力することができる。また、コンピュータデバイス32は、フォーム内の誤りを示すか訂正するためまたはフォーム内のデータの正確さを確認するためのユーザのジェスチャまたは他の動きを検出できるジェスチャ認識能力(たとえば、カメラおよびビデオ処理ソフトウェア)を有することができる。この形で、ユーザは、手書き、ジェスチャ、スペリング、言い直し、言い換えなどを行って、誤りを訂正し、正しい情報に置換することができる。たとえば、単純な対話を使用して、音声による誤り回復を達成することもできる(「did you say John or Joan(ジョンまたはジョアンと言いましたか)」)。図4では、タッチスクリーンディスプレイ30が、MT1からの出力を表示するものとして図示されているが、上で説明したように、タッチスクリーンディスプレイ30は、特に上で説明したマルチモーダル転送技法およびマルチモーダル訂正技法を利用する実施形態で、ASR1からの出力を表示することもできる。
上述しましたように、このシステムを、複数の話者と共に使用することができる。図5に、それぞれが異なる言語を話す3人の話者を伴うそのような実施形態を示す。それぞれ言語1、言語2、および言語3を話す3人の話者を伴うこの例では、話者1による言語1での発声は、言語2および言語3に翻訳され、話者2による言語2での発声は、言語1および3に翻訳され、話者3による言語3での発声は、言語1および言語2に翻訳される。
このシステムを、より多くの話者、より多くの言語、および/または単一言語に同様の形で拡張することができる。さらに、図5では、IEMが、ASRから出力を受け取るものとして図示されているが、IEMを、MTに接続し、MTから出力を受け取ることもでき、この場合に、IEMは、翻訳から情報を抽出することもできる。
さまざまな実施形態では、本発明は、下記を提供することができる。
クロスリンガルな人間−人間の対話の副次的効果としての黙示的な情報抽出。
単一言語による人間−人間の対話の副次的効果としての黙示的な情報抽出(以下でさらに説明する)。
セマンティックパーサの適用による人間−人間の対話からの情報抽出。
固有表現タガー、ワードスポッタ、または音声検索語検出の適用による人間−人間の対話からの情報抽出。
一致する文書を見つけるための情報取り出しの適用による人間−人間の対話からの情報抽出。
人道主義的展開、軍事展開、避難者登録、登録、統計の収集、病気の発生、医師−患者の対話、トリアージでの黙示的な情報抽出拡張の適用。
宣伝、ユーモア、エンターテイメントのための黙示的な情報抽出の適用。
マルチモーダルフォームの記入および訂正。触覚(タップ)、ドラッグアンドドロップによる訂正および欠けているエントリの補完、訂正または欠けている情報の補完のためのクロスモーダルスペリング、手書き。
インタフェースのレイアウト:同一画面上の、書き込まれるべきフォームと一緒の音声翻訳インタフェース。
○情報抽出によるフォーム内の情報の自動書込(または事前書込)。事前書込が正しくない場合のクロスモーダル訂正。
○代替の直接入力、黙示的および明示的なフォーム書込の選択を提供する。代替の直接入力としての異なるモーダリティ、手書き、クリック、言い直し、スペリング。
○音声翻訳インタフェースからのレポートの共有およびアップロード。
インタフェースのレイアウト:同一画面上の、書き込まれるべきフォームと一緒の音声翻訳インタフェースおよびお気に入りリスト。
○音声翻訳およびフォーム書込に加えて、指示および事前に構成された句の再生。
○音声翻訳から情報を転送するためのドラッグアンドドロップ、タッチ。
○情報抽出によって情報を自動的に事前書込する。事前書込が正しくない場合のクロスモーダル訂正。
○代替の直接入力、黙示的および明示的なフォーム書込の選択を提供する。代替の直接入力としての異なるモーダリティ、手書き、クリック、言い直し、スペリング。
○マルチモーダル訂正によって誤り回復を提供する。訂正のためのジェスチャ、および正しい情報によって誤りを置換するための相補モーダリティ。
○音声翻訳インタフェースからのレポート共有およびアップロード。
○フォーム書込に加えて、自由音声翻訳との再生句の混合を提供する。
図9に、人間対人間の対話内の情報を抽出することから書き込むことができるディジタルフォームを有する例のユーザインタフェース89を示す。このフォームを、デバイス12のメモリ26に記憶することができ、インタフェース89を、フォーム94と共に、たとえばディスプレイ14に表示することができる。左側に、翻訳された音声を示す2つのフィールド90、92(この例では、一方が他方の上にある)がある。この例は、英語−
スペイン語の翻訳シナリオを仮定する。話者1が英語を話している場合に、認識された話者1による英語の音声が、フィールド90内にテキストで示され、スペイン語の翻訳が、フィールド92内にテキストで示される。同様に、話者2がスペイン語を話している場合に、認識された話者2によるスペイン語の音声が、フィールド92内にテキストで示され、英語の翻訳が、フィールド90内にテキストで示される。フィールド90、92は、2人の話者の間で対話が進行する時に、認識された2人の話者の音声およびその翻訳を次々に示すことができる。さらに、デバイススピーカ16は、翻訳された音声を可聴に出力することができ、その結果、他方の話者が、彼らの好みの言語でこれを聞くことができるようになる。たとえば、話者1が英語を話しており、話者2がスペイン語を話しており、上述と同一の例を継続すると、デバイススピーカ16は、話者2のために、話者1の発声のスペイン語による翻訳を出力することができ、逆に、話者1のために話者2の発声の英語による翻訳を出力することができる。ユーザは、言語選択入力91a〜91bを介して、所望の第1の言語および第2の言語を選択することができる。
図9〜図10の例では、人間−人間の対話を介して投入されるフォーム94は、医療データフォームである。そのようなフォームを、たとえば、医師−患者の対話で使用することができる。したがって、医療関連情報が、対話から抽出されて、フォーム94のさまざまなフィールドに書き込まれまたは投入される。音声翻訳によって仲介される人間−人間(たとえば、医師−患者)の対話は、フィールド90、92に示される。さらに、キーとなる情報(たとえば、フォーム94に関連するかこれに適用可能な情報)が、いずれかの言語(この例では英語またはスペイン語)で提示される時に、これを抽出し、フォーム94の適用可能なフィールドに事前に書き込むことができる。たとえば、医師は、言語1(たとえば、英語)で「What is your age?(何歳ですか)」と質問することができる。患者は、言語2(たとえば、スペイン語)で「Tengo 50 an〜os」(英語の「I am fifty years old(50歳です)」に翻訳される)と答えることができる。キーとなる情報、ここでは「50」を、この対話から抽出し、フォームの年齢フィールド96に書き込むことができる。さらに、質問のコンテキスト、たとえば「What is your age?」をデバイスによって使用して、患者の答えが年齢フィールド96に書き込むべき年齢を含むことを確かめることができる。同様の形で、医師−患者の対話を使用して、氏名フィールド98、100、性別フィールド102、体重フィールド104、妊娠チェックフィールド106、アレルギフィールド108、その他など、フォームの他のフィールドに投入することができる。
さまざまな実施形態では、フォームは、音声抽出以外のモードによるデータ入力を許容することもできる。たとえば、タッチスクリーンインタフェース14を介して、たとえば、ユーザ(たとえば、医師)は、質疑応答の対話をせずに患者の性別を決定できる場合に、フォーム内の「male(男性)」フィールドおよび「female(女性)」フィールドを直接にクリックすることができる。同様に、患者が男性である場合に、「not pregnant(妊娠中ではない)」応答に自動的に投入することができ、あるいは、これおよび他の従属質問を除去するか変更することができ、したがって、関係のないまたは冗長な質問が除去される。
さらに、さまざまな実施形態では、話者1が言語1でフォームのフィールドのうちの1つに関連する質問を明確に発音する、たとえば英語で「What is your age?」と質問するのではなく、ユーザは、アイコン、たとえば「Ask(質問)」入力110を有効化する(たとえば、タッチスクリーンインタフェースを介して)ことができ、この「Ask」入力110は、有効化された時に、デバイス12に、関連するフィールド(たとえば、年齢フィールド96)の情報を引き出すように設計された事前に録音された質問を選択された第2の言語(この例ではスペイン語、言語選択入力91を参照されたい)で可聴に出力させる。たとえば、年齢フィールド96に関連付けられた「Ask」入力
100を有効化することによって、デバイス12は、ユーザがまず質問を言語1(たとえば、英語)で明確に発音することを必要とせずに、「?Cua’l es su edad?」(「何歳ですか」のスペイン語)などの質問を可聴に出力することができる。フォーム94の他のフィールドは、図9の例に示されているように、デバイス12に、関連するフィールドの所望の情報を引き出すように設計された事前に録音された質問を可聴に出力させる、関連する「Ask」ボタンを有することができる。事前に録音された質問の使用は、話者1(たとえば、医師)がまず話者1の言語で関連質問を明確に発音する必要を事前に除去することに追って、対話を加速することができる(繰返し作業/対話に特に有用である)。さらに、「Ask」ボタン用の事前に録音された質問を、話者2(たとえば、患者)の混乱および曖昧さを避けるために、選択された言語に適合させることができる。すなわち、事前に録音された質問をテストし、言語2でほとんど混乱および曖昧さがないことを証明し、これによって、話者2からの正確な応答ならびにデバイス12による正確な抽出の蓋然性を高めることができる。
同様に、さまざまな実施形態では、インタフェース89は、ユーザによって有効化された時に、事前に録音された指示または説明情報(質問ではなく)が話者2(たとえば、患者)のために言語2(たとえば、スペイン語)で明確に発音されるボタンまたは入力(図示せず)を提供することができる。そのような事前に録音された説明情報は、たとえば、患者に手順の態様を説明することができる。たとえば、医師(たとえば、話者1)が英語で「I will now check your blood pressure(これから血圧を調べます)」と言い、その質問を言語2(たとえば、スペイン語)に翻訳させるのではなく、医師は、単に、血圧に関する関連する話すボタンを有効化することができ、その場合に、デバイスは、「Ahora voy a revisar su presio’n arterial」(「これから血圧を調べます」のスペイン語)を可聴に出力することができ、これによって、医師がまず言語1で説明を可聴化する(audiblize)必要を事前に除去する。事前に録音された質問および説明は、特に患者の個人データ(氏名、年齢など)またはバイタルサインの収集など、繰り返されるクエリ中に、時間および労力を節約することができる。
他の実施形態では、質問および回答を事前に録音させるのではなく、デバイス12は、音声翻訳/対話システムの能力を使用して、複数の言語での質問および/または回答を合成的に作ることができる。たとえば、ユーザは、彼/彼女自身の質問または説明を、音声またはテキストを介してデバイス12に入力され、記憶されるフォーム94のさまざまなフィールドについて言語1でフォームのクエリフィールドにタイプすることができる。デバイス12は、上述したようにこの入力を言語2に翻訳し、期待通りにL1、L2、または任意の他の言語での繰返し再生用の合成の話されたクエリを生成することができる。したがって、システムのユーザは、他の言語のいずれの言語能力も必要とせずに、彼/彼女の目的のためにデバイスによって作られるメッセージまたはクエリをカスタマイズすることができる。
もちろん、図9は、医療データフォームの一例にすぎず、異なるおよび/または追加のデータフィールドを有する異なるフォームを使用することができる。また、医療データフォーム以外の他の使用を使用することもできる。
人間−人間の対話からの情報の抽出が、常に正確または正しいとは限らないことに留意されたい。さまざまな実施形態のデバイス12は、フォーム内の情報を修復しまたは訂正する手段を提供することができる。これらの手段は、音声抽出以外すなわち、他の入力モード(たとえば、フォームに関するマルチモーダル入力を可能にする)とすることができる。たとえば、タッチスクリーンインタフェース14を使用して、ユーザ(たとえば、話者1)は、タッチアンドドラッグジェスチャまたは入力によって、フィールド90、92
のいずれかからフォーム94の適当なフィールドに情報をドラッグすることができる。
その代わりにまたはそれに加えて、他の実施形態では、フォーム訂正またはデータ入力の異なるモードを使用することができる。たとえば、さまざまな実施形態では、ユーザ(たとえば、医師)は、フォーム内のデータを編集するために、フォーム94内の抽出されたデータをクリックしまたは他の形で選択することができる。たとえば、さまざまな実施形態で、ユーザは、キーボードを介して(タッチスクリーンキーボードを含む)、音声抽出のためにデータを言い直すことによって、タッチスクリーンインタフェース14上での手書きジェスチャによって、または任意の他の適切な手段によって、選択されたデータを編集する(または削除する)ことができる。同様に、上で述べたように、フォーム94に関する質問を明示的に尋ねることなく、情報を、独立に入力することができる。たとえば、医師は、患者が女性であることを見て、その情報をフォーム94上で直接にクリックするかタイプすることができ、したがって、この段階での人間−人間の対話を完全に迂回することができる。この場合に、ユーザ(たとえば、話者1)は、フィールドを直接に押すことを選び、情報を直接に入力するためにいずれかの言語での音声認識を有効化することができる。代替案では、フォーム94内のフィールドの情報を、タイプし、スペリングし、または手書きすることができる。全体として本願明細書に援用される、米国特許第5,712,957号および米国特許第5,855,000号は、さまざまなマルチモーダル訂正技法に関する詳細を提供する。
図10は、本発明のさまざまな実施形態による、デバイス12のブロック図である。そのような実施形態では、デバイス12を、たとえばラップトップコンピュータ、スマートフォン、またはタブレットコンピュータなどのスマートポータブルデバイスとして実装することができる。図10の例に示されているように、デバイス12は、複数のプロセッサ202、204を含んでもよい。ベースバンドプロセッサ202は、任意の適切な通信技術(たとえば、3G、4Gなど)に応じた遠隔移動体通信ネットワーク(たとえば、セルラネットワーク)を介する通信を処理することができる。ベースバンドプロセッサ202は、専用のランダムアクセスメモリ(RAM)214を含んでもよい。さまざまな実施形態では、ベースバンドプロセッサ202を、トランシーバ206と通信しているものとすることができる。トランシーバ206は、その後、1つまたは複数の電力増幅器208およびアンテナ210と通信しているものとすることができる。遠隔移動体通信ネットワークの発信信号を、ベースバンドプロセッサ202によってベースバンドで処理し、トランシーバ206に供給することができる。トランシーバ206および/またはベースバンドプロセッサ206は、発信信号を搬送波周波数に変調することができる。増幅器208のうちの1つまたは複数は、発信信号を増幅することができ、この発信信号を、その後、アンテナ210を介して送信することができる。遠隔移動体通信ネットワークの着信信号を、アンテナ210によって受信し、増幅器208のうちの1つまたは複数によって増幅し、トランシーバ206に供給することができる。トランシーバ206またはベースバンドプロセッサ202のいずれかが、着信信号をベースバンドに復調することができる。
アプリケーションプロセッサ204は、オペレーティングシステムならびに、本明細書で説明する音声認識モジュールおよび翻訳モジュール(たとえば、図1に示されたASRモジュール、MTモジュール、TTSモジュール、およびIEMモジュール)を含むソフトウェアアプリケーションを実行することができる。アプリケーションプロセッサ204は、タッチスクリーンインタフェース232上に表示されるフォーム94上に示されるデータを入力し訂正する技法を含む、タッチスクリーンインタフェース232のソフトウェアを実行することもできる。アプリケーションプロセッサ204は、アプリケーションRAM212および不揮発性データストレージ(たとえば、ROM)216と通信しているものとすることもできる。アプリケーションプロセッサ204は、さらにWIFI/BLUETOOTH(登録商標)の組合せトランシーバ218などの他のハードウェアデバイ
スと通信しているものとすることができる。WIFI/BLUETOOTHトランシーバ218は、LANとのラジオ周波数(RF)通信(たとえば、WI−FI標準規格または任意の適切な標準規格に従う)またはデバイス200と別の無線デバイス(たとえば、BLUETOOTH標準規格または任意の適切な標準規格に従う)との間の直接RF通信を処理することができる。さまざまな実施形態で、デバイス200は、デバイス200の地理的位置を記述する情報をアプリケーションプロセッサ204に供給するために全地球測位システム(GPS)アンテナ223を介して衛星ベースのGPSシステムと通信しているGPS222を含んでもよい。タッチスクリーン232は、視覚的な形でデバイス12のユーザに出力を提供すると同時に、ユーザから入力を受け取ることができる。入力を、ユーザによるスクリーンタッチを表す信号の形であるものとすることができる。オーディオコーデックモジュール224は、オーディオ信号を復号し、再生するためのハードウェアおよび/またはソフトウェアを提供することができる。いくつかの実施形態では、コーデック224は、ディジタル−アナログ変換器を含んでもよい。オーディオ出力信号をデバイススピーカ16および/またはオーディオ出力信号を再生するためのヘッドホンおよび/またはスピーカのセットを受けることができるジャック(図示せず)に供給することができる。オーディオ入力信号を、デバイスマイクロホン(1つまたは複数)18を介して供給することができる。デバイスは、ディジタルカメラ240を含んでもよい。
さまざまな他のセンサを、特定の実施形態に含めることができる。磁気センサ226は、デバイスの付近の磁界を感知することができる。たとえば、磁気センサ226を、さまざまなアプリケーションおよび/またはシステム機能によって使用して、コンパスを実装することができる。加速度計228およびジャイロスコープ230は、デバイスの動きを記述するデータを提供することができる。たとえば、加速度計228およびジャイロスコープ230からのデータは、タッチスクリーン232の表示の方向を決めるために使用されうる(たとえば縦横)。デバイス200に、バッテリ234によって電力を供給することができ、バッテリ234を、電力管理集積回路(PMIC)236によって管理することができる。I/Oトランシーバ238は、たとえばUniversal Serial
Bus(USB)または任意の他の適切な標準規格に従う、デバイスと他のデバイスとの間の有線通信を管理することができる。コネクタ239は、有線接続を容易にすることができる。いくつかの実施形態では、コネクタ239およびI/Oトランシーバ238を介する接続が、バッテリ234を充電する電力を供給することができる。
図9の例のフォームに戻って、抽出された情報を追加するか確認するために、GPS情報(GPS受信器222を介する)、カメラ入力(カメラ240を介する)、加速度計228、バーコードリーダ(たとえば、デバイス上で作動するバーコードアプリケーションまたはデバイスの一部である別々のハードウェアバーコードリーダを介する)、その他など、他のデータ入力モーダリティを使用して、性別または個人識別、位置、その他などの情報を導出することができる。これは、情報を自動的に書き込むために音声対話を補足し、したがって、効率を改善することができる。補足情報は、抽出された情報の正確さを改善し、あるいは所与の情報を交差検証することもできる。たとえば、音声からの自動性別分類は、医師のコメントまたはクリックと一緒に、性別フィールド102に事前に書き込むことができる。あるいは、カメラ顔識別、話者識別、またはバーコード読取りによって、氏名を検証することができる。
さまざまな実施形態では、疑問のある情報を、聴覚信頼度(acoustic confidence)ならびに抽出された情報のもっともらしさを確認する相補的情報の両方を使用する信頼度測定によって決定することができる。フォーム内の疑問のある情報を、たとえば強調表示によるなど、呼び出すことができる。たとえば、医師は、直接に患者の性別を入力することができるが、その情報が誤りである可能性があることを聴覚信頼度および話者/性別IDが暗示する場合に、信頼度測定は、情報を強調表示することができる
。低信頼度の情報をフォーム内ならびに音声翻訳対話ウィンドウのテキスト内で強調表示するか、他の形で呼び出すことができる。低信頼度の他のソースを、該当用語なし(Out−of−Vocabulary)項目、聴覚の曖昧さ、セマンティック的曖昧さ、および翻訳の曖昧さの検出から導出することができる。低信頼度領域を強調表示することができ、曖昧さを説明することができる(類似単語、代替の意味、欠けている単語など)。
図9の例では、フォーム94は、英語で完成される。デバイス12のユーザは、フォーム言語入力115を有効化することによって、言語1(たとえば、英語)と言語2(たとえば、スペイン語)との間で往復してトグルすることができる。入力115を有効化する時に、フォーム94は、言語1(この例では英語)での表示から言語2(この例ではスペイン語)に遷移し、入力115の第2の有効化ではその逆に遷移することができる。この形で、話者1(たとえば、医師)は、言語1(たとえば、英語)でフォームのすべての態様(ラベル、クエリ、内容など)を見ることができ、その後、話者2(たとえば、患者)による確認および/または検証のために言語2(たとえば、スペイン語)にフォームを遷移させることができる。さまざまな実施形態で、すべての情報、フォームエントリの名前、入力されつつある内容、再生されるべき自動メッセージ、ボタンの説明および名前、ならびに指示を、このシステムの音声能力および翻訳能力によって作ることができ、要求された時に言語の間でトグルすることができることに留意されたい。
さらに、さまざまな実施形態では、音声翻訳デバイス12は、ユーザまたは実務家が他の言語を知ることを必要とせずに、複数の言語自体でのフォームの定義を可能にする。たとえば、フォーム(1つまたは複数)を、英語のテンプレートフォーム(たとえば、エクセルなどのスプレッドシート)から読み込み、フォーム(図9の例に示されているように)を生成することができる。実務家(我々の例では医師など)は、必要に応じてテンプレートフォームを編集して、質問またはコメントを追加し、その後、そのような新たな/変更されたフォームをデバイスに読み込むことができる。音声翻訳コンポーネントは、フォームラベルごと、フォームメッセージごと、およびその後に抽出された情報ごとに(使用中に)翻訳を自動的に生成することができ、各言語で合成音声発声を作ることができる。
さらに、トランシーバ206またはトランシーバ218を介して、デバイス12は、たとえば電子メールまたは電子患者レコードアップロードによって、完成したものであれ未完成であれ、フォーム(データベース26に記憶された)を共有できるものとすることができ、これによって、移動体ポータブルデバイスからの集中データベースの情報レコードの増分更新および瞬間的更新を可能にする。さまざまな実施形態では、ユーザは、共有アイコン116を有効化することによって、フォームのそのような無線送信またはアップロードを開始することができる。アップロード/送信されるフォームは、実際の対話データならびに関係するマルチモーダルユーザ対話、クエリ、および編集を含んでも含まなくてもよく、したがって、人間−人間の出会いおよび対話全体に関する細粒度の情報が提供される。
さまざまな実施形態では、デバイスは、同時モードおよび逐次翻訳モードで動作することができる(たとえば、音声を翻訳し、フォームに書き込み可能な情報を抽出する)。同時モードでは、デバイスは、話者の間でトグルするための押しボタンまたは他の入力の使用を伴わず、翻訳が完了するのを待たずに、リアルタイムで進行中の連続的な対話の筆記録および翻訳を使用する。この場合に、デバイスは、上記のようにフォームに関連情報を抽出し、誤り訂正は、同一に働く。逐次翻訳モードでは、話者は、交代して話し、逐次的に話す。話者は、デバイス上のボタンまたは他の入力(タッチスクリーンインタフェース14上など)を使用して、ある翻訳チャネル(たとえば、言語1から言語2への翻訳)から他方の翻訳チャネル(たとえば、言語2から言語1への翻訳)に遷移することができる。インタフェースは、ユーザの便宜のために、音声翻訳および/またはフォームウィンド
ウを選択的に有効にし、または無効にすることができる。
さらに、図7の例に示されているように、さまざまな実施形態では、デバイスは、対話型曖昧さ除去のソフトウェア、たとえば対話型曖昧さ除去モジュール40を含み、実行することができ、これによって、デバイス12は、対話型曖昧さ除去モジュール40を使用して、イニシアティブを仮定し、曖昧さまたは誤りが疑われる場合に可能な誤りおよびニアミスに関するフィードバックを提案する。さまざまな実施形態では、これを2つのレベルすなわち認識レベルおよび翻訳レベルで行うことができる。認識レベルでは、認識(場合に応じてASRモジュール1または2によって決定される)が低信頼度である場合、または認識されたテキストがフォームのレベルで期待されるものと衝突するか一致しない場合に、対話型曖昧さ除去モジュール40は、内蔵スピーカ16を介して可聴におよび/またはテキストディスプレイ14を介して視覚的になど、ユーザに戻ってクエリを発行することができる。多すぎる曖昧さ除去クエリは、ユーザに迷惑になるはずなので、明確化を要求すべき時および瞬間は、好ましくは注意深く選択されなければならない。さまざまな実施形態では、認識仮説の信頼度またはもっともらしさを査定するための、次の複数の判断基準を使用することができる。
○聴覚信号が、認識された文である可能性が高いかどうかを確立する聴覚信頼度スコア。○書き込まれるフォームの内容または抽出される情報のもっともらしさ。「We met
on Tuesday(我々は火曜日に会った)」の認識は、話者が、書き込まれるフォームのレベルで1週間の日付を議論している場合に、「We met and who’s he?(我々は会ったが、彼は誰だ)」より可能性が高いものとすることができる。したがって、フォーム内の共通のオプションにあてはまる曖昧な単語(たとえば、「Tuesday」)が存在する場合には、認識仮説「We met and who’s he」に疑義を唱えなければならない。
○他の話者の発声(彼らの言語での)からの翻訳によって与えられる言語コンテキストも、期待を条件付け、したがって、認識仮説に疑義を唱えまたは変更することができる。上の例では、他の話者が、スペイン語で「cuando se han encontrado」と言った場合に、この分の英語への翻訳「When did you meet(いつ会いましたか)」は、「Who’s he?」を上回って仮説「Tuesday」の蓋然性を高める言語モデリングコンテキストを提供する。
3つの信頼度測定を使用して、ユーザに曖昧さ除去を要求すべき時を判断することができる。さまざまな実施形態では、これらの判断基準のうちの1つまたは複数が、1つの信頼度または明確化スコアに組み合わされる。その後、曖昧さ除去クエリを発行して、明確化を提示することができる。
翻訳レベルでは、対話型曖昧さ除去モジュール40は、(a)複数の出力翻訳が可能であり、同様の蓋然性を有する(最高スコアリング翻訳からスコアリングのしきい値差以内の少なくとも1つの他の翻訳がある)場合、または(b)もう1つのありそうな出力があり(たとえば、最高スコアリング翻訳からスコアリングのしきい値差以内の代替の出力翻訳がない)、最高スコアリング出力がターゲット言語で低い信頼度を有し、悪い可能性が高い場合に、さまざまな実施形態で、MTエンジン(たとえば、MT1または2)からの入力に基づいて曖昧さ除去を要求することができる。後者の場合(b)に、ユーザの(ソース)言語でのユーザに戻るクエリを発行し、ありそうな問題について話者に警告し、明瞭さのために言い直しまたは言い換えを要求することができる。前者の場合(a)に、複数の代替案を考慮する必要がある。この場合に、システムは、ターゲット言語で作業の2つの使用の曖昧さを除去するソース言語のキャリアセンテンス(carrier sentence)に埋め込まれた2つのケースをユーザに提示することができる。たとえば、ユーザが、次の文「This is my nail(これは私の爪(または釘)です)」を英語で話す場合に、単語「nail」が、曖昧であり、「clavo」または「un〜a」としてスペイン語に翻訳される可能性がある。両方の結果の翻訳確率が、もっとも
らしさのしきい値以内で匹敵する場合には、システムは、ユーザに曖昧さ除去を要求することができる。さまざまな実施形態では、これを、トレーニングデータベース内の使用法のいずれかに問題の単語を含む句を検索することによって行うことができる。たとえば、話者のデバイスを、遠隔のトレーニングデータベースを検索する遠隔のコンピュータシステムに、データネットワークを介して接続することができる。遠隔のコンピュータシステムは、曖昧さ除去を検出し、あるいは、話者のデバイスの1つが、曖昧さ除去を検出することができる。代替実施形態では、トレーニングデータベースではなく、伝統的な辞書を使用することができ、この辞書を、話者のデバイス上にまたは遠隔に記憶することができる。
ソース側では、システムは、ユーザに「did you mean ’nail’ as in: ”they used nails to fix the door”,
or as in ”she painted her nails red(「nail」は「彼らは釘を使用してドアを直した」または「彼女は爪を赤く塗った」のどちらの意味ですか)」と質問する立場にある。ユーザが、一方または他方の解決策を選択する場合に、システムは、選択された翻訳の意味を採用し、この単語の意味に関する翻訳確率を高める。2つの曖昧なオプションの提示を、ディスプレイ上でグラフィカルに、または口頭の曖昧さ除去句によって与えることができる。
たとえば、曖昧さ除去モジュールのコードを、RAM 212および/または不揮発性データストレージ216に記憶することができ、アプリケーションプロセッサ204によって実行することができる。図10を参照されたい。
図8は、さまざまな実施形態による、対話型曖昧さ除去モジュール40のプロセスフローのフローチャートである。この例では、話者1が言語1を話しており、この言語1が話者2のために言語2に翻訳されると仮定する。ステップ50では、対話型曖昧さ除去モジュール40が、話者1の言語1での認識された音声に曖昧さがあるかどうかを決定する。上で説明したように、対話型曖昧さ除去モジュール40は、(i)話者1による発声のASR1からの聴覚認識信頼度レベルスコア、(ii)抽出される情報(たとえば、書き込まれるフォーム)に基づくASR1の仮説のもっともらしさ、および(iii)他の話者(たとえば、話者2、MT2から)による発声からの翻訳の言語コンテキストに基づく仮説のもっともらしさに基づいて、この決定を行うことができる。これらのスコアおよび査定(およびおそらくは他)に基づいて、対話型曖昧さ除去モジュール40は、曖昧さ除去クエリを話者1に発行すべきかどうかを決定する。そうである場合には、ステップ52で、上で説明したものなどの曖昧さ除去クエリを発行する。
ステップ50で曖昧さが検出されない場合には、プロセスは、ステップ54に流れ、ここで、曖昧さ除去クエリが、言語1から言語2への話者1の翻訳された音声に基づいて必要であるかどうかを決定する。これは、前に説明したように行うことができる。曖昧さ除去クエリが必要である場合には、プロセスは、ステップ52に流れ、ここで、曖昧さ除去クエリを発行する。もちろん、曖昧さ除去クエリが、翻訳に起因して必要ではない場合には、システムは、ステップ56で、通常の音声認識および翻訳プロセスを継続する。上で述べたように、ステップ52での曖昧さ除去クエリは、曖昧さのタイプ、たとえば認識対翻訳に基づいて、異なるフォーマットを有することができる。
上で説明した曖昧さ除去能力を、さまざまな実施形態に従って情報抽出能力と共にまたはこれを伴わずに使用することができる。
上の説明では、情報抽出プロセスが、2言語対話のコンテキストで説明された。他の実施形態では、情報抽出プロセスを、単一言語対話のプロセスで実行することができる。2言語モードに似て、単一言語モードでのデバイスは、話者による音声発声の音声認識を実
行し、認識された音声内のキーとなる情報を抽出して、フォーム28のさまざまな適用可能なフィールドに書き込む。2言語モードの上と同一の例を使用すると、医師は、第1の言語(たとえば英語)で「What is your age?(何歳ですか)」と尋ねることができる。患者は、同一の言語で(すなわち、単一言語対話)「I am fifty years old.(50歳です)」と答えることができる。キーとなる情報、ここでは「50」を、対話から抽出し、フォーム94(図9を参照されたい)の年齢フィールド96に書き込むことができる。さらに、質問のコンテキスト、たとえば「What
is your age?」をデバイスによって使用して、患者の回答が年齢フィールド96に書き込まれるべき年齢を含むことを確かめることができる。同様の形で、医師−患者の対話を使用して、氏名フィールド98、100、性別フィールド102、体重フィールド104、妊娠チェックフィールド106、アレルギフィールド108、その他など、フォームの他のフィールドに投入することができる。図9の例のインタフェースを参照すると、そのような実施形態で、共通の言語(たとえば、英語)での2人の話者の認識された音声のテキストを、それぞれ2つのフィールド90、92に表示することができる。2人の話者の間の単一言語対話から抽出された情報を、フォーム94内で右側に表示することができる。
さまざまな実施形態では、人間のユーザの間の対話フローを、プッシュツートークスイッチ(録音ボタン有効化の後に限って各発声を記録する)によって制御することができ、あるいは、システムは、両方(または複数)の話者からの音声に同時に作用する自由マルチチャネルオープンマイク録音(同時翻訳)モードで動作することができる。
さらに、前と同様に、デバイス12は、電子メールまたは電子患者レコードアップロードによって、完成したものであれ未完成であれ、フォームを共有できるものとすることができ、これによって、移動体ポータブルデバイスからの集中データベースの情報レコードの増分更新および瞬間的更新を可能にする。アップロード/送信されるフォームは、実際の対話データならびに関係するマルチモーダルユーザ対話、クエリ、および編集を含んでも含まなくてもよく、したがって、人間−人間の出会いおよび対話全体に関する細粒度の情報が提供される。
したがって、さまざまな実施形態に従って、本発明は、少なくとも第1の話者と第2の話者との間の人間対人間の対話から情報を抽出するデバイスを対象とする。このデバイスは、少なくとも1つのマイクロホンと、スクリーンディスプレイと、少なくとも1つのプログラム可能プロセッサおよびディジタルデータを記憶する少なくとも1つのデータストレージユニットとを含んでもよい。少なくとも1つのプログラム可能プロセッサは、少なくとも1つのマイクロホンおよびスクリーンディスプレイと通信している。さらに、少なくとも1つのプログラム可能プロセッサは、(i)少なくとも1つのマイクロホンによって受け取られた第1の話者による音声を自動的に認識し、(ii)少なくとも1つのマイクロホンによって受け取られた第2の話者による音声を自動的に認識し、(iii)第2の話者による認識された音声から少なくとも情報を抽出し、(iv)コンピュータシステムの少なくとも1つのデータストレージユニットに記憶されスクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームに第2の話者による認識された音声からの抽出された情報を入力するようにプログラムされる。
さまざまな実施態様によれば、第1の話者は、第1の言語を話し、第2の話者は、第1の言語とは異なる第2の言語を話し、少なくとも1つのプログラム可能プロセッサは、(i)第1の言語での第1の話者による認識された音声を第2の言語に自動的に翻訳し、(ii)第2の言語での第2の話者による認識された音声を第1の言語に自動的に翻訳し、(iii)第1の言語に翻訳された第2の話者による認識された音声の翻訳から少なくとも情報を抽出することによって、第2の話者による認識された音声から少なくとも情報を
抽出し、(iv)第1の言語に翻訳された第2の話者による認識された音声の翻訳からの抽出された情報を少なくとも1つのデータストレージユニットに記憶される電子フォームに入力することによって、抽出された情報を入力するようにさらにプログラムされる。さらに、プロセッサは、(v)第1の言語での第1の話者による認識された音声から少なくとも情報を抽出し、(vi)第1の言語での第1の話者による認識された音声からの抽出された情報を電子フォームに入力するようにさらにプログラムされ得る。
さまざまな実施形態によれば、プロセッサは、セマンティック文法によって翻訳を解析することによって第1の言語に翻訳された第2の話者による認識された音声の翻訳から情報を抽出するようにプログラムされる。さらに、プロセッサは、抽出された情報に関する1つまたは複数の文書を遠隔のデータベースから取り出すようにさらにプログラムされ得る。さらに、プロセッサは、翻訳内の1つまたは複数のキーワードを検出することによって第1の言語に翻訳された第2の話者による認識された音声の翻訳から情報を抽出するようにプログラムされる。さらに、プロセッサは、抽出された情報を電子フォームに入力する前に、第1の話者および第2の話者のうちの少なくとも1つにフィードバックを提示するようにさらにプログラムされ得る。また、少なくとも1つのプログラム可能プロセッサは、デバイスのユーザによってスクリーンディスプレイを介して入力される電子フォーム内の抽出された情報に対する編集を認識し、受け取るようにプログラムされ得る。
もう1つの全般的な態様では、本発明は、少なくとも第1の話者と第2の話者との間の人間対人間の対話から情報を抽出するコンピュータベースのデバイスを対象とする。このデバイスは、少なくとも1つのマイクロホンと、スクリーンディスプレイと、ディジタルデータを記憶する少なくとも1つのデータストレージユニットとを含む。このデバイスは、少なくとも1つのマイクロホンによって受け取られた第1の話者による音声を自動的に認識する第1の自動音声認識モジュールも含む。このデバイスは、少なくとも1つのマイクロホンによって受け取られた第2の話者による音声を自動的に認識する第2の自動音声認識モジュールをさらに含む。さらに、このデバイスは、第1の自動音声認識モジュール、第2の自動音声認識モジュール、少なくとも1つのマイクロホン、およびスクリーンディスプレイと通信している情報抽出モジュールを含む。情報抽出モジュールは、(i)第2の話者による認識された音声から少なくとも情報を抽出し、(ii)少なくとも1つのデータストレージユニットに記憶されスクリーンディスプレイ上のグラフィカルユーザインタフェース上に表示される電子フォームに第2の話者による認識された音声からの抽出された情報を入力する。
さまざまな実施態様によれば、第1の話者は、第1の言語を話し、第2の話者は、第1の言語とは異なる第2の言語を話し、デバイスは、(i)第1の自動音声認識モジュールと通信している第1の機械翻訳モジュールであって、第1の言語での第1の話者による認識された音声を第2の言語に自動的に翻訳するための第1の機械翻訳モジュールと、(ii)第2の自動音声認識モジュールと通信している第2の機械翻訳モジュールであって、第2の言語での第2の話者による認識された音声を第1の言語に自動的に翻訳するための第2の機械翻訳モジュールとをさらに含む。そのような実施態様では、情報抽出モジュールは、(i)第1の言語に翻訳された第2の話者による認識された音声の翻訳から少なくとも情報を抽出することによって、第2の話者による認識された音声から少なくとも情報を抽出し、(ii)第1の言語に翻訳された第2の話者による認識された音声の翻訳からの抽出された情報を少なくとも1つのデータストレージユニットに記憶される電子フォームに入力することによって、抽出された情報を入力する。
さまざまな実施態様では、情報抽出モジュールは、さらに、(i)第1の言語での第1の話者による認識された音声から少なくとも情報を抽出し、(ii)第1の言語での第1の話者による認識された音声からの抽出された情報を電子フォームに入力する。情報抽出
モジュールは、セマンティック文法によって翻訳を解析することによって第1の言語に翻訳された第2の話者による認識された音声の翻訳から情報を抽出することができる。また、このデバイスは、抽出された情報に関する1つまたは複数の文書を遠隔のデータベースから取り出す情報リトリーバモジュールをさらに含むことができる。さらに、情報抽出モジュールは、翻訳内の1つまたは複数のキーワードを検出することによって第1の言語に翻訳された第2の話者による認識された音声の翻訳から情報を抽出することができる。このデバイスは、抽出された情報を電子フォームに入力する前に、第1の話者および第2の話者のうちの少なくとも1つにフィードバックを提示するマルチモーダル対話インタフェースをさらに含むことができる。
もう1つの全般的な態様では、本発明は、少なくとも話している第1の話者と第2の話者との間の人間対人間の対話中に情報を抽出するコンピュータ実装される方法を対象とする。この方法は、(i)コンピュータベースの情報抽出デバイスの少なくとも1つのマイクロホンによって、対話中に第1の話者および第2の話者による音声を受け取るステップと、(ii)コンピュータベースの情報抽出デバイスによって、第1の話者による音声を自動的に認識するステップと、(iii)コンピュータベースの情報抽出デバイスによって、第2の言語での第2の話者による音声を自動的に認識するステップと、(iv)コンピュータベースの情報抽出デバイスによって、第2の話者による認識された音声から少なくとも情報を抽出するステップと、(v)コンピュータベースの情報抽出デバイスによって、情報抽出デバイスの少なくとも1つのデータストレージユニットに記憶される電子フォームに第2の話者による認識された音声からの抽出された情報を入力するステップとを含んでも良い。
さまざまな実施態様では、この方法は、コンピュータベースの情報抽出デバイスのスクリーンディスプレイ上にフォームを表示するステップをさらに含むことができる。また、第1の話者が、第1の言語を話し、第2の話者が、第1の言語とは異なる第2の言語を話す状況で、この方法は、(i)コンピュータベースの情報抽出デバイスによって、第1の言語での第1の話者による認識された音声を第2の言語に自動的に翻訳するステップと、(ii)コンピュータベースの情報抽出デバイスによって、第2の言語での第2の話者による認識された音声を第1の言語に自動的に翻訳するステップとをさらに含むことができる。また、少なくとも情報を抽出するステップは、第1の言語に翻訳された第2の話者による認識された音声の翻訳から少なくとも情報を抽出することによって、コンピュータベースの情報抽出デバイスによって第2の話者による認識された音声から少なくとも情報を抽出することを含んでもよい。抽出された情報を入力するステップは、第1の言語に翻訳された第2の話者による認識された音声の翻訳からの抽出された情報を情報抽出デバイスの少なくとも1つのデータストレージユニットに記憶される電子フォームに入力することによって、コンピュータベースの情報抽出デバイスによって抽出された情報を入力することを含んでもよい。
さまざまな実施態様で、この方法は、第1の言語での第1の話者による認識された音声から少なくとも情報を抽出することと、第1の言語での第1の話者による認識された音声からの抽出された情報を電子フォームに入力することとをさらに含む。第1の言語に翻訳された第2の話者による認識された音声の翻訳から情報を抽出することは、セマンティック文法によって翻訳を解析することを含んでもよい。この方法は、コンピュータベースの情報抽出デバイスによって、抽出された情報に関する1つまたは複数の文書を遠隔のデータベースから取り出すことをさらに含むことができる。第1の言語に翻訳された第2の話者による認識された音声の翻訳から情報を抽出することは、翻訳内の1つまたは複数のキーワードを検出することを含んでもよい。この方法は、コンピュータベースの情報抽出デバイスによって、抽出された情報を電子フォームに入力する前に、第1の話者および第2の話者のうちの少なくとも1つにフィードバックを提示するステップもさらに含むことが
できる。さらに、この方法は、(i)コンピュータベースの情報抽出デバイスによって、第1の話者の認識された音声に曖昧さが存在するかどうかを決定するステップと、(ii)コンピュータベースの情報抽出デバイスによって、第2の言語への第1の言語での第1の話者の認識された音声の翻訳に曖昧さが存在するかどうかを決定するステップと、(iii)コンピュータベースの情報抽出デバイスによる、(a)第1の話者の認識された音声または(b)第2の言語への第1の言語での第1の話者の認識された音声の翻訳のいずれかに曖昧さがあることの決定の際に、コンピュータベースの情報抽出デバイスによって、コンピュータベースの情報抽出デバイスのスクリーンディスプレイを介して第1の話者に曖昧さ除去クエリを発行することであって、曖昧さ除去クエリに対する応答は、曖昧さを解消する、発行するステップとをさらに含むことができる。第1の話者に発行された曖昧さ除去クエリは、曖昧さが第1の話者の認識された音声にある時に、曖昧さが第2の言語への第1の言語での第1の話者の認識された音声の翻訳にある時とは異なるものとすることができる。また、第1の話者の認識された音声に曖昧さが存在するかどうかの決定は、(i)第1の話者の認識された音声の聴覚信頼度スコアと、(ii)電子フォームの内容と、(iii)第2の言語から第1の言語への第2の話者からの1つまたは複数の発声の翻訳によって与えられる言語コンテキストとを含む、複数の要因に基づくものとすることができる。第2の言語への第1の言語での第1の話者の認識された音声の翻訳に曖昧さが存在するかどうかの決定は、最高スコアリング出力翻訳のスコアリングのしきい値差以内に1つまたは複数の代替出力翻訳があるかどうか、および最高スコアリング出力翻訳のスコアリングのしきい値差以内に代替出力翻訳がない場合に、最高スコアリング出力翻訳のスコアが最小しきい値未満であるかどうかを含む、複数の要因に基づくものとすることもできる。
もう1つの全般的な態様では、本発明は、少なくとも第1の言語で話す第1の話者と第2の言語で話す第2の話者との間の人間対人間の対話の音声翻訳における曖昧さを解消するコンピュータ実装される方法を対象とする。(i)コンピュータベースの音声翻訳システムによって、第1の言語での第1の話者による音声を認識するステップと、(ii)コンピュータベースの音声翻訳システムによって、第1の話者の認識された音声に曖昧さが存在するかどうかを決定するステップと、(iii)コンピュータベースの音声翻訳システムによって、第1の言語での第1の話者の認識された音声を第2の言語に翻訳するステップと、(iv)コンピュータベースの音声翻訳システムによって、第1の言語での第1の話者の認識された音声の第2の言語への翻訳に曖昧さが存在するかどうかを決定するステップと、(v)コンピュータベースの音声翻訳システムによって、(a)第1の話者の認識された音声または(b)第1の言語での第1の話者の認識された音声の第2の言語への翻訳のいずれかに曖昧さがあることが決定される時に、コンピュータベースの音声翻訳システムによって、音声翻訳システムのユーザインタフェースを介して第1の話者に曖昧さ除去クエリを発行することであって、曖昧さ除去クエリへの応答は、曖昧さを解消する、発行するステップとを含むことができる。
もう1つの全般的な態様では、本発明は、少なくとも第1の話者と第2の話者との間の人間対人間の対話から情報を抽出するデバイスを対象とする。このデバイスは、少なくとも1つのマイクロホンと、スクリーンディスプレイと、少なくとも1つのプログラム可能プロセッサおよびディジタルデータを記憶する少なくとも1つのデータストレージユニットとを含んでもよい。少なくとも1つのプログラム可能プロセッサは、スクリーンディスプレイおよび少なくとも1つのマイクロホンと通信している。少なくとも1つのプログラム可能プロセッサは、(i)第1の話者と第2の話者との間の対話中に、少なくとも1つのマイクロホンによって受け取られた第1の話者および第2の話者による音声を自動的に認識し、(ii)第1の話者と第2の話者との間の対話中に、スクリーンディスプレイ上に表示されるグラフィカルユーザインタフェースの第1部分に第1の話者および第2の話者の認識された音声を出力し、(iii)スクリーンディスプレイ上に表示されるグラフ
ィカルユーザインタフェースの第2部分上に、第1の話者と第2の話者との間の対話に関する(たとえば、その対話から抽出された)情報を有するフォームを出力するようにプログラムされ得る。少なくとも1つのプログラム可能プロセッサは、フォーム内のグラフィカルユーザインタフェースの第2部分上に出力するために第1の話者と第2の話者との間の対話から情報を抽出するようにさらにプログラムされ得る。また、第1の話者が、第1の言語を話しており、第2の話者が、第2の言語を話している状況で、少なくとも1つのプログラム可能プロセッサは、(i)第1の話者の認識された音声を第2の言語に翻訳し、(ii)第2の話者の認識された音声を第1の言語に翻訳し、(iii)第1の話者よび第2の話者の認識された言語の翻訳をグラフィカルユーザインタフェースの第1部分に表示するようにプログラムされ得る。さらに、少なくとも1つのプログラム可能プロセッサは、デバイスのユーザによるスクリーンディスプレイを介する抽出された情報入力に対する編集を認識し、受け取るようにプログラムされ得る。
本明細書で説明される実施形態の少なくともいくつかを、ソフトウェア、ファームウェア、および/またはハードウェアの多数の異なる実施形態で実施できることは、当業者に明白であろう。ソフトウェアおよびファームウェアのコードを、プロセッサ回路または任意の他の同様のコンピューティングデバイスによって実行することができる。実施形態を実施するのに使用できるソフトウェアコードまたは特殊化された制御ハードウェアは、限定的ではない。たとえば、本明細書で説明される実施形態を、たとえば従来の技法またはオブジェクト指向の技法を使用して、任意の適切なコンピュータソフトウェア言語を使用してコンピュータソフトウェアで実施することができる。そのようなソフトウェアを、たとえば磁気記憶媒体または光記憶媒体など、任意のタイプの適切な1つまたは複数のコンピュータ可読媒体に記憶することができる。実施形態の動作および挙動を、特定のソフトウェアコードまたは特殊化されたハードウェアコンポーネントへの特定の参照なしで説明することができる。そのような特定の参照の不在が実現可能であるのは、当業者が、穏当な労力だけを用いて、不当な実験なしでこの説明に基づいて実施形態を実施するためにソフトウェアおよび制御ハードウェアを設計できることが、明瞭に理解されるからである。
さらに、本実施形態に関連付けられたプロセスを、コンピュータもしくはコンピュータシステム、移動体デバイス、スマートフォン、および/またはプロセッサなど、プログラム可能機器によって実行することができる。プログラム可能機器にプロセスを実行させることのできるソフトウェアを、たとえばコンピュータシステム(不揮発性)メモリ、RAM、ROM、フラッシュメモリ、光ディスク、磁気テープ、または磁気ディスクなど、任意のストレージデバイスに記憶することができる。さらに、プロセスの少なくとも一部を、コンピュータシステムが製造される時にプログラムし、あるいは、さまざまなタイプのコンピュータ可読媒体に記憶することができる。
本明細書で説明されるある種のプロセス態様を、プロセスステップを実行するようにコンピュータシステムに指示する1つまたは複数のコンピュータ可読媒体に記憶された命令を使用して実行できることも理解されたい。コンピュータ可読媒体は、たとえば、ディスケット、コンパクトディスク(CD)、ディジタル多用途ディスク(DVD)、光ディスクドライブ、またはハードディスクドライブなどのメモリデバイスを含むことができる。コンピュータ可読媒体は、物理的な、仮想的な、永久的な、一時的な、半永久的な、および/または半一時的なメモリストレージも含むことができる。
「コンピュータ」、「コンピュータシステム」、「ホスト」、「サーバ」、または「プロセッサ」を、たとえば、限定なしに、プロセッサ、マイクロコンピュータ、ミニコンピュータ、サーバ、メインフレーム、ラップトップ、携帯情報端末(PDA)、無線電子メールデバイス、セル電話機、スマートフォン、タブレット、移動体デバイス、ページャ、プロセッサ、ファックス機、スキャナ、またはネットワークを介してデータを送信し、か
つ/もしくは受信するように構成された任意の他のプログラム可能デバイスとすることができる。本明細書で開示されるコンピュータシステムおよびコンピュータベースのデバイスは、情報の入手、処理、および通信に使用されるある種のソフトウェアモジュールまたはエンジンを記憶するメモリを含むことができる。そのようなメモリを、開示される実施形態の動作に関して内蔵または外付けとすることができることを理解されたい。メモリは、ハードディスク、光ディスク、フロッピー(登録商標)ディスク、ROM(読取り専用メモリ)、RAM(ランダムアクセスメモリ)、PROM(プログラム可能ROM)、EEPROM(電気的消去可能PROM)、および/または他のコンピュータ可読媒体を含む、ソフトウェアを記憶するすべての手段を含むこともできる。本明細書で説明されるソフトウェアモジュールおよびエンジンを、モジュールを記憶するメモリにアクセスするコンピュータデバイスのプロセッサ(場合によって1つまたは複数)によって実行することができる。
本明細書で開示されるさまざまな実施形態で、所与の1つまたは複数の機能を実行するために、単一の構成要素を、複数の構成要素によって置換することができ、複数の構成要素を、単一の構成要素によって置換することができる。そのような置換が動作可能でない場合を除いて、そのような置換は、諸実施形態の所期の範囲に含まれる。たとえば、本明細書で説明されるすべてサーバを、協調機能のために配置され、構成される「サーバファーム」またはネットワーク接続されたサーバ(サーバブレードなど)の他のグループ化によって置換することができる。サーバファームが、ファームの個々の構成要素の間/中で作業負荷を分散するために働くことができ、複数のサーバの集合的で協調的な能力を束ねることによってコンピューティングプロセスをはかどらせることができることを理解されたい。そのようなサーバファームは、たとえば、異なる計算機からの処理能力の需要を追跡すること、ネットワーク需要に基づいてタスクに優先順位を付け、スケジューリングすること、および/または構成要素故障またはオペラビリティの減少の場合にバックアップコンティンジェンシ(backup contingency)を提供することなどのタスクを達成する負荷平衡化ソフトウェアを使用することができる。
コンピュータシステムは、1つまたは複数のデータバスを介してメモリ(たとえば、RAMまたはROM)と通信している1つまたは複数のプロセッサを含んでもよい。データバスは、プロセッサ(1つまたは複数)とメモリとの間で電気信号を搬送することができる。プロセッサおよびメモリは、電流を伝導する電気回路を含んでもよい。プロセッサ(1つまたは複数)および/またはメモリ回路(1つまたは複数)のソリッドステートトランジスタなどの回路のさまざまな構成要素の電荷状態は、回路の動作中に変化する可能性がある。
さまざまな実施形態を本明細書で説明したが、これらの実施形態に対するさまざまな修正形態、代替形態、および適合を、利益の少なくとも一部の達成を揺する当事者が思い浮かべることができることを理解されたい。したがって、開示された実施形態は、本明細書で示される実施形態の範囲から逸脱することなく、すべてのそのような修正形態、代替形態、および適合を含むことが意図されている。

Claims (55)

  1. 少なくとも第1の話者と第2の話者との間の人間対人間の対話から情報を抽出するデバイスであって、
    少なくとも1つのマイクロホンと、
    スクリーンディスプレイと、
    少なくとも1つのプログラム可能プロセッサおよびディジタルデータを記憶する少なくとも1つのデータストレージユニットと
    を含み、前記少なくとも1つのプログラム可能プロセッサは、前記少なくとも1つのマイクロホンおよび前記スクリーンディスプレイと通信しており、前記少なくとも1つのプログラム可能プロセッサは、
    前記少なくとも1つのマイクロホンによって受信される第1の話者による音声を自動的に認識し、
    前記少なくとも1つのマイクロホンによって受信される第2の話者による音声を自動的に認識し、
    認識された前記第2の話者による音声から少なくとも情報を抽出し、
    コンピュータシステムの前記少なくとも1つのデータストレージユニットに記憶され前記スクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームに、認識された第2の話者による音声から抽出された情報を入力する
    ようにプログラムされる
    デバイス。
  2. 前記第1の話者は、第1の言語を話し、
    前記第2の話者は、前記第1の言語とは異なる第2の言語を話し、
    前記少なくとも1つのプログラム可能プロセッサは、
    認識された第1の話者による前記第1の言語の音声を、前記第2の言語に自動的に翻訳し、
    認識された第2の話者による前記第2の言語の音声を、前記第1の言語に自動的に翻訳し、
    前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から少なくとも情報を抽出することによって、認識された第2の話者による音声から少なくとも情報を抽出し、
    前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から抽出された情報を前記少なくとも1つのデータストレージユニットに記憶される電子フォームに入力することによって、抽出された情報を入力する
    ようにさらにプログラムされる、請求項1に記載のデバイス。
  3. 前記プロセッサは、
    前記第1の言語の認識された第1の話者による音声から少なくとも情報を抽出し、
    前記第1の言語の認識された第1の話者による音声から抽出された情報を電子フォームに入力する
    ようにさらにプログラムされる、請求項2に記載のデバイス。
  4. 前記グラフィカルユーザインタフェースは、呼び出された時に、前記スクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームを前記第1の言語による表示から前記第2の言語による表示に切り替えるためのユーザ入力を有する、請求項3に記載のデバイス。
  5. 前記プロセッサは、セマンティック文法によって前記翻訳を構文解析することによって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出す
    るようにプログラムされる、請求項2に記載のデバイス。
  6. 前記プロセッサは、固有表現タグ付けによって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出するようにプログラムされる、請求項2に記載のデバイス。
  7. 前記プロセッサは、音声検索語検出によって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出するようにプログラムされる、請求項2に記載のデバイス。
  8. 前記プロセッサは、抽出された情報に関する1以上の文書を遠隔のデータベースから取り出すようにさらにプログラムされる、請求項5に記載のデバイス。
  9. 前記プロセッサは、翻訳内の1以上のキーワードを検出することによって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出するようにプログラムされる、請求項2に記載のデバイス。
  10. 前記プロセッサは、抽出された情報に関する1以上の文書を遠隔のデータベースから取り出すようにさらにプログラムされる、請求項9に記載のデバイス。
  11. 前記プロセッサは、抽出された情報を電子フォームに入力する前に、前記第1の話者および前記第2の話者のうちの少なくとも1つにフィードバックを提示するようにさらにプログラムされる、請求項1に記載のデバイス。
  12. 前記少なくとも1つのプログラム可能プロセッサは、前記デバイスのユーザによって前記スクリーンディスプレイを介して入力される、電子フォーム内の抽出された情報に対する編集を認識し、受信するようにプログラムされる、請求項1に記載のデバイス。
  13. 少なくとも第1の話者と第2の話者との間の人間対人間の対話から情報を抽出するコンピュータベースのデバイスであって、
    少なくとも1つのマイクロホンと、
    スクリーンディスプレイと、
    ディジタルデータを記憶する少なくとも1つのデータストレージユニットと、
    前記少なくとも1つのマイクロホンによって受信される第1の話者による音声を自動的に認識する第1の自動音声認識モジュールと、
    前記少なくとも1つのマイクロホンによって受信される第2の話者による音声を自動的に認識する第2の自動音声認識モジュールと、
    前記第1の自動音声認識モジュール、前記第2の自動音声認識モジュール、前記少なくとも1つのマイクロホン、および前記スクリーンディスプレイと通信している情報抽出モジュールであって、
    認識された前記第2の話者による音声から少なくとも情報を抽出し、
    前記少なくとも1つのデータストレージユニットに記憶され前記スクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームに、認識された第2の話者による音声から抽出された情報を入力する
    情報抽出モジュールと
    を含むデバイス。
  14. 前記第1の話者は、第1の言語を話し、
    前記第2の話者は、前記第1の言語とは異なる第2の言語を話し、
    前記デバイスは、
    前記第1の自動音声認識モジュールと通信している第1の機械翻訳モジュールであって、前記第1の言語の認識された第1の話者による音声を前記第2の言語に自動的に翻訳するための第1の機械翻訳モジュールと、
    前記第2の自動音声認識モジュールと通信している第2の機械翻訳モジュールであって、前記第2の言語の認識された第2の話者による音声を前記第1の言語に自動的に翻訳するための第2の機械翻訳モジュールと
    をさらに含み、前記情報抽出モジュールは、
    前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から少なくとも情報を抽出することによって、認識された第2の話者による音声から少なくとも情報を抽出し、
    前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から抽出された情報を前記少なくとも1つのデータストレージユニットに記憶される電子フォームに入力することによって、抽出された情報を入力する
    請求項13に記載のデバイス。
  15. 前記情報抽出モジュールは、さらに、
    前記第1の言語の認識された第1の話者による音声から少なくとも情報を抽出し、
    前記第1の言語の認識された第1の話者による音声から抽出された情報を電子フォームに入力する
    請求項14に記載のデバイス。
  16. 前記グラフィカルユーザインタフェースは、呼び出された時に、前記スクリーンディスプレイ上の前記グラフィカルユーザインタフェース内に表示される電子フォームを前記第1の言語による表示から前記第2の言語による表示に切り替えるためのユーザ入力を有する、請求項15に記載のデバイス。
  17. 前記情報抽出モジュールは、セマンティック文法によって前記翻訳を構文解析することによって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出する、請求項14に記載のデバイス。
  18. 前記情報抽出モジュールは、固有表現タグ付けによって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出する、請求項14に記載のデバイス。
  19. 前記情報抽出モジュールは、音声検索語検出によって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出する、請求項14に記載のデバイス。
  20. 抽出された情報に関する1以上の文書を遠隔のデータベースから取り出すための情報リトリーバモジュールをさらに含む、請求項17に記載のデバイス。
  21. 前記情報抽出モジュールは、翻訳内の1以上のキーワードを検出することによって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出する、請求項14に記載のデバイス。
  22. 抽出された情報に関する1以上の文書を遠隔のデータベースから取り出すための情報リトリーバモジュールをさらに含む、請求項21に記載のデバイス。
  23. 抽出された情報を電子フォームに入力する前に、第1の話者および第2の話者のうちの少なくとも1つにフィードバックを提示するマルチモーダル対話インタフェースをさらに
    含む、請求項13に記載のデバイス。
  24. 少なくとも話している第1の話者と第2の話者との間の人間対人間の対話中に情報を抽出するコンピュータ実装される方法であって、
    コンピュータベースの情報抽出デバイスの少なくとも1つのマイクロホンによって、前記対話中に第1の話者および第2の話者による音声を受信するステップと、
    前記コンピュータベースの情報抽出デバイスによって、第1の話者による音声を自動的に認識するステップと、
    前記コンピュータベースの情報抽出デバイスによって、第2の言語の第2の話者による音声を自動的に認識するステップと、
    前記コンピュータベースの情報抽出デバイスによって、認識された第2の話者による音声から少なくとも情報を抽出するステップと、
    前記コンピュータベースの情報抽出デバイスによって、前記情報抽出デバイスの少なくとも1つのデータストレージユニットに記憶される電子フォームに、認識された第2の話者による音声から抽出された情報を入力するステップと
    を含む方法。
  25. 前記コンピュータベースの情報抽出デバイスのスクリーンディスプレイ上にフォームを表示するステップをさらに含む、請求項24に記載の方法。
  26. 第1の話者は、第1の言語を話し、第2の話者は、前記第1の言語とは異なる第2の言語を話し、前記方法は、
    前記コンピュータベースの情報抽出デバイスによって、前記第1の言語の認識された第1の話者による音声を前記第2の言語に自動的に翻訳するステップと、
    前記コンピュータベースの情報抽出デバイスによって、前記第2の言語の認識された第2の話者による音声を前記第1の言語に自動的に翻訳するステップと
    をさらに含み、
    少なくとも情報を抽出するステップは、前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から少なくとも情報を抽出することによって、前記コンピュータベースの情報抽出デバイスによって認識された第2の話者による音声から少なくとも情報を抽出するステップを含み、
    抽出された情報を入力するステップは、前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から抽出された情報を前記情報抽出デバイスの少なくとも1つのデータストレージユニットに記憶される電子フォームに入力することによって、前記コンピュータベースの情報抽出デバイスによって抽出された情報を入力することを含む
    請求項25に記載の方法。
  27. 前記第1の言語の認識された第1の話者による音声から少なくとも情報を抽出するステップと、
    前記第1の言語の認識された第1の話者による音声から抽出された情報を電子フォームに入力するステップと
    をさらに含む、請求項26に記載の方法。
  28. 前記スクリーンディスプレイ上のグラフィカルユーザインタフェースに表示される電子フォームを、言語を切り替えるための前記グラフィカルユーザインタフェース上の入力が呼び出される時に、前記第1の言語による表示から前記第2の言語による表示に切り替えるステップをさらに含む、請求項27に記載の方法。
  29. 前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出するステップは、セマンティック文法によって前記翻訳を構文解析することを含む、請求
    項26に記載の方法。
  30. 前記コンピュータベースの情報抽出デバイスによって、抽出された情報に関する1以上の文書を遠隔のデータベースから取り出すステップをさらに含む、請求項29に記載の方法。
  31. 前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出するステップは、翻訳内の1以上のキーワードを検出するステップを含む、請求項26に記載の方法。
  32. 前記コンピュータベースの情報抽出デバイスによって、抽出された情報に関する1以上の文書を遠隔のデータベースから取り出すステップをさらに含む、請求項31に記載の方法。
  33. 前記コンピュータベースの情報抽出デバイスによって、抽出された情報を電子フォームに入力する前に、第1の話者および第2の話者のうちの少なくとも1つにフィードバックを提示するステップをさらに含む、請求項26に記載の方法。
  34. 前記コンピュータベースの情報抽出デバイスによって、認識された第1の話者の音声に曖昧さが存在するか否かを決定するステップと、
    前記コンピュータベースの情報抽出デバイスによって、前記第1の言語による認識された第1の話者の音声の前記第2の言語への翻訳に曖昧さが存在するか否かを決定するステップと、
    前記コンピュータベースの情報抽出デバイスによる、(i)認識された第1の話者の音声または(ii)前記第1の言語による認識された第1の話者の音声の前記第2の言語への翻訳のいずれかに曖昧さがあることの決定の際に、前記コンピュータベースの情報抽出デバイスによって、前記コンピュータベースの情報抽出デバイスのスクリーンディスプレイを介して第1の話者に曖昧さ除去クエリを発行するステップであって、前記曖昧さ除去クエリに対する応答は、曖昧さを解消する、発行するステップと
    をさらに含む、請求項26に記載の方法。
  35. 前記第1の話者に発行される曖昧さ除去クエリは、認識された第1の話者の音声に曖昧さが存在する時と、前記第1の言語による認識された第1の話者の音声の前記第2の言語への翻訳に曖昧さが存在する時とでは異なる、請求項34に記載の方法。
  36. 認識された第1の話者の音声に曖昧さが存在するか否かの決定は、複数の要因に基づき、前記要因は、
    認識された第1の話者の音声の聴覚信頼度スコアと、
    前記電子フォームの内容と、
    第2の話者による1以上の発声の前記第2の言語から前記第1の言語への翻訳によって与えられる言語コンテキストと
    を含む、請求項34に記載の方法。
  37. 認識された第1の話者の音声の、前記第1の言語の前記第2の言語への翻訳に曖昧さが存在するか否かの決定は、複数の要因に基づき、前記要因は、
    最高スコアリング出力翻訳のスコアリングのしきい値差以内に1以上の代替出力翻訳が存在するか否かと、
    前記最高スコアリング出力翻訳のスコアリングのしきい値差以内に代替出力翻訳が存在しない場合に、最高スコアリング出力翻訳のスコアが最小しきい値未満であるか否かと
    を含む、請求項34に記載の方法。
  38. 前記コンピュータベースの情報抽出デバイスのスクリーンディスプレイは、タッチスクリーンディスプレイを含む、請求項34に記載の方法。
  39. 前記コンピュータベースの情報抽出デバイスによって、前記フォーム内のエントリに対する訂正を受け取るステップをさらに含む、請求項27に記載の方法。
  40. 前記訂正を受け取るステップは、前記スクリーンディスプレイ上に表示された前記認識された音声の書き起こしからの情報を前記スクリーンディスプレイ上に表示された前記フォーム上の前記エントリへドラッグするステップを含む、請求項39に記載の方法。
  41. 前記訂正を受け取るステップは、前記フォーム上の前記エントリへの1以上の編集を受け取るステップを含む、請求項40に記載の方法。
  42. 前記フォーム上のエントリへの1以上の編集を受け取るステップは、前記フォーム上のエントリへの口頭で入力される編集を受け取るステップを含む、請求項41に記載の方法。
  43. 前記フォーム上のエントリへの1以上の編集を受け取るステップは、前記フォーム上のエントリへの訂正を示すジェスチャを前記コンピュータベースの情報抽出デバイスによって検出するステップを含む、請求項41に記載の方法。
  44. 前記コンピュータベースの情報抽出デバイスによって、遠隔のデータベースへ電子フォームをアップロードするステップをさらに含む、請求項24に記載の方法。
  45. 前記コンピュータベースの情報抽出デバイスによって、遠隔のデータベースへ前記電子フォームをアップロードすることをさらに含む、請求項27に記載の方法。
  46. 少なくとも第1の言語で話す第1の話者と第2の言語で話す第2の話者との間の人間対人間の対話の音声翻訳における曖昧さを解消するコンピュータ実装される方法であって、
    コンピュータベースの音声翻訳システムによって、前記第1の言語の第1の話者による音声を認識するステップと、
    前記コンピュータベースの音声翻訳システムによって、認識された第1の話者の音声に曖昧さが存在するか否かを決定するステップと、
    前記コンピュータベースの音声翻訳システムによって、認識された第1の言語の第1の話者の音声を第2の言語に翻訳するステップと、
    前記コンピュータベースの音声翻訳システムによって、前記第1の言語による認識された第1の話者の音声の第2の言語への翻訳に曖昧さが存在するか否かを決定するステップと、
    前記コンピュータベースの音声翻訳システムによる、(i)認識された第1の話者の音声または(ii)前記第1の言語による認識された第1の話者の音声の前記第2の言語への翻訳のいずれかに曖昧さがあることが決定の際に、前記コンピュータベースの音声翻訳システムによって、前記音声翻訳システムのユーザインタフェースを介して第1の話者に曖昧さ除去クエリを発行するステップであって、前記曖昧さ除去クエリに対する応答は、曖昧さを解消する、発行するステップと
    を含む方法。
  47. 前記第1の話者に発行される曖昧さ除去クエリは、認識された第1の話者の音声に曖昧さが存在する時と、前記第1の言語による認識された第1の話者の音声の前記第2の言語への翻訳に曖昧さが存在する時とでは異なる、請求項46に記載の方法。
  48. 認識された第1の話者の音声に曖昧さが存在するか否かの決定は、複数の要因に基づき、前記要因は、
    認識された第1の話者の音声の聴覚信頼度スコアと、
    前記第1の話者と前記第2の話者との間の対話のコンテキストと、
    前記第2の話者による1以上の発声の前記第2の言語から前記第1の言語への翻訳によって与えられる言語コンテキストと
    を含む、請求項46に記載の方法。
  49. 第1の言語による認識された第1の話者の音声の前記第2の言語への翻訳に曖昧さが存在するか否かの決定は、複数の要因に基づき、前記要因は、
    最高スコアリング出力翻訳のスコアリングのしきい値差以内に1以上の代替出力翻訳が存在するか否かと、
    前記最高スコアリング出力翻訳のスコアリングのしきい値差以内に代替出力翻訳が存在しない場合に、最高スコアリング出力翻訳のスコアが最小しきい値未満であるか否かと
    を含む、請求項46に記載の方法。
  50. 前記音声翻訳システムのユーザインタフェースは、タッチスクリーンディスプレイを含む、請求項46に記載の方法。
  51. 少なくとも第1の話者と第2の話者との間の人間対人間の対話から情報を抽出するデバイスであって、
    少なくとも1つのマイクロホンと、
    スクリーンディスプレイと、
    少なくとも1つのプログラム可能プロセッサおよびディジタルデータを記憶する少なくとも1つのデータストレージユニットであって、前記少なくとも1つのプログラム可能プロセッサは、前記スクリーンディスプレイおよび前記少なくとも1つのマイクロホンと通信しており、前記少なくとも1つのプログラム可能プロセッサは、
    第1の話者と第2の話者との間の対話中に、前記少なくとも1つのマイクロホンによって受信した第1の話者および第2の話者による音声を自動的に認識し、
    第1の話者と第2の話者との間の対話中に、前記スクリーンディスプレイ上に表示されるグラフィカルユーザインタフェースの第1部分に、認識された第1の話者および第2の話者の音声を出力し、
    前記スクリーンディスプレイ上に表示されるグラフィカルユーザインタフェースの第2部分上に、第1の話者と第2の話者との間の対話に関する情報を有するフォームを出力する
    ようにプログラムされる
    デバイス。
  52. 前記少なくとも1つのプログラム可能プロセッサは、前記フォーム内のグラフィカルユーザインタフェースの第2部分上に出力するために、第1の話者と第2の話者との間の対話から情報を抽出するようにさらにプログラムされる、請求項51に記載のデバイス。
  53. 第1の話者は第1の言語を話し、前記第2の話者は第2の言語を話し、
    前記少なくとも1つのプログラム可能プロセッサは、
    認識された第1の話者の音声を前記第2の言語に翻訳し、
    認識された第2の話者の音声を前記第1の言語に翻訳し、
    認識された第1の話者および第2の話者の言語の翻訳を前記グラフィカルユーザインタフェースの第1部分に表示する
    ようにプログラムされる、請求項52に記載のデバイス。
  54. 前記少なくとも1つのプログラム可能プロセッサは、前記デバイスのユーザによる前記スクリーンディスプレイを介する抽出された情報入力に対する編集を認識し、受け取るようにプログラムされる、請求項52に記載のデバイス。
  55. 前記グラフィカルユーザインタフェースは、呼び出された時に、前記スクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームを前記第1の言語による表示から前記第2の言語による表示に切り替えるためのユーザ入力を有する、請求項53に記載のデバイス。
JP2014560989A 2012-03-08 2013-03-04 対話から情報を抽出するデバイス及びその方法 Active JP6058039B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261608334P 2012-03-08 2012-03-08
US61/608,334 2012-03-08
US13/760,535 2013-02-06
US13/760,535 US9257115B2 (en) 2012-03-08 2013-02-06 Device for extracting information from a dialog
PCT/US2013/028831 WO2013134106A2 (en) 2012-03-08 2013-03-04 Device for extracting information from a dialog

Publications (3)

Publication Number Publication Date
JP2015516587A true JP2015516587A (ja) 2015-06-11
JP2015516587A5 JP2015516587A5 (ja) 2016-04-14
JP6058039B2 JP6058039B2 (ja) 2017-01-11

Family

ID=49114862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014560989A Active JP6058039B2 (ja) 2012-03-08 2013-03-04 対話から情報を抽出するデバイス及びその方法

Country Status (10)

Country Link
US (4) US9257115B2 (ja)
EP (1) EP2823478B1 (ja)
JP (1) JP6058039B2 (ja)
KR (1) KR101689290B1 (ja)
CN (1) CN104380375B (ja)
AU (2) AU2013230453B2 (ja)
CA (1) CA2872790C (ja)
IL (1) IL234477A (ja)
MX (1) MX340907B (ja)
WO (1) WO2013134106A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019142419A1 (ja) * 2018-01-22 2019-07-25 ソニー株式会社 情報処理装置および情報処理方法

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9128981B1 (en) 2008-07-29 2015-09-08 James L. Geer Phone assisted ‘photographic memory’
US8775454B2 (en) 2008-07-29 2014-07-08 James L. Geer Phone assisted ‘photographic memory’
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9257115B2 (en) * 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog
RU2530268C2 (ru) 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US20140278345A1 (en) * 2013-03-14 2014-09-18 Michael Koski Medical translator
KR102197143B1 (ko) * 2013-11-26 2020-12-31 현대모비스 주식회사 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법
CN103744843B (zh) * 2013-12-25 2017-01-04 北京百度网讯科技有限公司 一种在线语音翻译方法及装置
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633309B2 (en) * 2014-06-19 2017-04-25 International Business Machines Corporation Displaying quality of question being asked a question answering system
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP5907231B1 (ja) * 2014-10-15 2016-04-26 富士通株式会社 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
KR102033395B1 (ko) * 2014-11-20 2019-10-18 한국전자통신연구원 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법
US9772816B1 (en) * 2014-12-22 2017-09-26 Google Inc. Transcription and tagging system
US10199041B2 (en) * 2014-12-30 2019-02-05 Honeywell International Inc. Speech recognition systems and methods for maintenance repair and overhaul
US20160246781A1 (en) * 2015-02-19 2016-08-25 Gary Cabot Medical interaction systems and methods
JP6434363B2 (ja) * 2015-04-30 2018-12-05 日本電信電話株式会社 音声入力装置、音声入力方法、およびプログラム
US10083688B2 (en) * 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
CN104932826B (zh) * 2015-06-26 2018-10-12 联想(北京)有限公司 一种信息处理方法和电子设备
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN105046098A (zh) * 2015-09-10 2015-11-11 济南市儿童医院 一种孕妇早产因素流行病学调查系统
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105488142B (zh) * 2015-11-24 2019-07-30 科大讯飞股份有限公司 成绩信息录入方法及系统
US10318640B2 (en) * 2016-06-24 2019-06-11 Facebook, Inc. Identifying risky translations
KR20180012464A (ko) * 2016-07-27 2018-02-06 삼성전자주식회사 전자 장치 및 그의 음성 인식 방법
KR101827773B1 (ko) * 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
CN107886955B (zh) * 2016-09-29 2021-10-26 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
JP6767046B2 (ja) * 2016-11-08 2020-10-14 国立研究開発法人情報通信研究機構 音声対話システム、音声対話装置、ユーザー端末、および音声対話方法
US10860685B2 (en) * 2016-11-28 2020-12-08 Google Llc Generating structured text content using speech recognition models
US11004447B2 (en) * 2016-12-26 2021-05-11 Hyundai Motor Company Speech processing apparatus, vehicle having the speech processing apparatus, and speech processing method
US10431216B1 (en) * 2016-12-29 2019-10-01 Amazon Technologies, Inc. Enhanced graphical user interface for voice communications
US20180239959A1 (en) * 2017-02-22 2018-08-23 Anduin Transactions, Inc. Electronic data parsing and interactive user interfaces for data processing
US11582174B1 (en) 2017-02-24 2023-02-14 Amazon Technologies, Inc. Messaging content data storage
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
US11114186B2 (en) 2017-08-10 2021-09-07 Nuance Communications, Inc. Automated clinical documentation system and method
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
JP7197259B2 (ja) * 2017-08-25 2022-12-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置およびプログラム
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN110730952B (zh) * 2017-11-03 2021-08-31 腾讯科技(深圳)有限公司 处理网络上的音频通信的方法和系统
CN107894972A (zh) * 2017-11-15 2018-04-10 北京百度网讯科技有限公司 一种会话标记方法、装置、聚合服务器和存储介质
US10984797B2 (en) * 2017-12-01 2021-04-20 Hewlett-Packard Development Company, L.P. Collaboration devices
CN110021290A (zh) * 2018-01-08 2019-07-16 上海西门子医疗器械有限公司 医疗系统和用于医疗系统的实时语言转换方法
US10423727B1 (en) 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
WO2019163247A1 (ja) * 2018-02-22 2019-08-29 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
EP3762921A4 (en) 2018-03-05 2022-05-04 Nuance Communications, Inc. AUTOMATED CLINICAL DOCUMENTATION SYSTEM AND PROCESS
WO2019173349A1 (en) * 2018-03-05 2019-09-12 Nuance Communications, Inc. System and method for review of automated clinical documentation
US11250383B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
US11354521B2 (en) 2018-03-07 2022-06-07 Google Llc Facilitating communications with automated assistants in multiple languages
EP3716267B1 (en) 2018-03-07 2023-04-12 Google LLC Facilitating end-to-end communications with automated assistants in multiple languages
CN110322881A (zh) * 2018-03-29 2019-10-11 松下电器产业株式会社 语音翻译装置、语音翻译方法及其存储介质
US11238852B2 (en) * 2018-03-29 2022-02-01 Panasonic Corporation Speech translation device, speech translation method, and recording medium therefor
CN112236817A (zh) * 2018-04-11 2021-01-15 谷歌有限责任公司 低延迟邻近群组翻译
KR20200125735A (ko) * 2018-04-27 2020-11-04 주식회사 엘솔루 음성 인식 기술을 이용한 다자간 대화 기록/출력 방법 및 이를 위한 장치
CN108764649B (zh) * 2018-04-28 2022-04-26 平安科技(深圳)有限公司 保险销售实时监控方法、装置、设备及存储介质
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
CN110659970A (zh) * 2018-06-12 2020-01-07 百度在线网络技术(北京)有限公司 基于语音识别的账务信息处理方法、装置和电子设备
WO2019237806A1 (zh) * 2018-06-12 2019-12-19 深圳市合言信息科技有限公司 语音识别及翻译方法以及翻译装置
US20190384811A1 (en) * 2018-06-14 2019-12-19 Pubali Sen System and method for communication exchange feedback
CN109166594A (zh) * 2018-07-24 2019-01-08 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN108984788A (zh) * 2018-07-30 2018-12-11 珠海格力电器股份有限公司 一种录音文件整理、归类系统及其控制方法与录音设备
EP3605527A3 (en) * 2018-08-02 2020-04-15 SoundHound, Inc. Visually presenting information relevant to a natural language conversation
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109088995B (zh) * 2018-10-17 2020-11-13 永德利硅橡胶科技(深圳)有限公司 支持全球语言翻译的方法及手机
KR20200056712A (ko) 2018-11-15 2020-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
JP2022518339A (ja) * 2018-12-06 2022-03-15 ベステル エレクトロニク サナイー ベ ティカレト エー.エス. 音声制御される電子装置のコマンド生成技術
US11423215B2 (en) 2018-12-13 2022-08-23 Zebra Technologies Corporation Method and apparatus for providing multimodal input data to client applications
CN111742364A (zh) * 2018-12-14 2020-10-02 谷歌有限责任公司 用于联网系统的基于语音的接口
US11798560B1 (en) 2018-12-21 2023-10-24 Cerner Innovation, Inc. Rapid event and trauma documentation using voice capture
US11875883B1 (en) 2018-12-21 2024-01-16 Cerner Innovation, Inc. De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources
US11398232B1 (en) * 2018-12-21 2022-07-26 Cerner Innovation, Inc. Natural language understanding of conversational sources
CN109683714B (zh) 2018-12-28 2021-08-31 北京小米移动软件有限公司 多媒体资源管理方法、装置及存储介质
CN111475206B (zh) * 2019-01-04 2023-04-11 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
US11145171B2 (en) * 2019-02-28 2021-10-12 Arlo Technologies, Inc. Electronic doorbell system with text communication
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
KR102280453B1 (ko) * 2019-03-28 2021-07-22 주식회사 포시에스 화자 식별을 통한 전자문서 데이터 제공 방법 및 장치
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
US11216480B2 (en) 2019-06-14 2022-01-04 Nuance Communications, Inc. System and method for querying data points from graph data structures
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
EP3788621B1 (en) * 2019-07-01 2023-03-22 Google LLC Adaptive diarization model and user interface
KR102076793B1 (ko) * 2019-07-04 2020-02-12 주식회사 포시에스 음성을 통한 전자문서 제공 방법, 음성을 통한 전자문서 작성 방법 및 장치
US20210026923A1 (en) * 2019-07-23 2021-01-28 Reginald Dalce Intent-Based Language Translation
KR20210016739A (ko) * 2019-08-05 2021-02-17 삼성전자주식회사 전자 장치 및 전자 장치의 입력 방법
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
CN111833865B (zh) * 2020-01-08 2024-05-24 北京嘀嘀无限科技发展有限公司 一种人机交互方法与终端、计算机可读存储介质
CN111710436A (zh) * 2020-02-14 2020-09-25 北京猎户星空科技有限公司 诊疗方法、装置、电子设备及存储介质
WO2021179048A1 (en) * 2020-03-13 2021-09-16 Tstreet Pty Limited Language communication method and system
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11252205B1 (en) * 2020-10-15 2022-02-15 Fuze, Inc. Real time information analysis for a teleconference
US11222103B1 (en) 2020-10-29 2022-01-11 Nuance Communications, Inc. Ambient cooperative intelligence system and method
KR102480479B1 (ko) * 2020-11-30 2022-12-23 주식회사 마인즈랩 전사를 위한 음성 콘텐츠의 전처리 방법
KR20220124523A (ko) * 2021-03-03 2022-09-14 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11928111B2 (en) 2021-03-03 2024-03-12 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling electronic apparatus
CN113157966B (zh) * 2021-03-15 2023-10-31 维沃移动通信有限公司 显示方法、装置及电子设备
CN112951238A (zh) * 2021-03-19 2021-06-11 河南蜂云科技发展有限公司 一种基于语音处理的科技法庭智能管理方法、系统及存储介质
US11681538B1 (en) * 2022-04-06 2023-06-20 Truist Bank Coordinating and synchronizing data entry between client computing devices

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120176A (ja) * 1997-10-20 1999-04-30 Sharp Corp 通訳装置及び方法並びに通訳装置制御プログラムを記憶した媒体
JP2000010578A (ja) * 1998-06-19 2000-01-14 Ntt Data Corp 音声メッセージ送受信システム、及び音声メッセージ処理方法
JP2005141089A (ja) * 2003-11-07 2005-06-02 Canon Inc 情報処理装置、情報処理方法ならびに記録媒体、プログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5855000A (en) 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US5712957A (en) 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US6324510B1 (en) 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
US6963837B1 (en) 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
US7149347B1 (en) 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
US7124085B2 (en) 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US7660400B2 (en) 2003-12-19 2010-02-09 At&T Intellectual Property Ii, L.P. Method and apparatus for automatically building conversational systems
JP4287386B2 (ja) * 2005-01-31 2009-07-01 株式会社東芝 情報検索システム、方法及びプログラム
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
WO2007049183A1 (en) 2005-10-27 2007-05-03 Koninklijke Philips Electronics N.V. Method and system for processing dictated information
JP4058071B2 (ja) * 2005-11-22 2008-03-05 株式会社東芝 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
US8898052B2 (en) 2006-05-22 2014-11-25 Facebook, Inc. Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer
JP2008077601A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US7907705B1 (en) * 2006-10-10 2011-03-15 Intuit Inc. Speech to text for assisted form completion
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US8090570B2 (en) 2006-10-26 2012-01-03 Mobile Technologies, Llc Simultaneous translation of open domain lectures and speeches
US8204739B2 (en) 2008-04-15 2012-06-19 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
TW200824408A (en) 2006-11-27 2008-06-01 Htc Corp Methods and systems for information retrieval during communication, and machine readable medium thereof
KR101445904B1 (ko) * 2008-04-15 2014-09-29 페이스북, 인크. 현장 음성 번역 유지 시스템 및 방법
US8527522B2 (en) * 2008-09-05 2013-09-03 Ramp Holdings, Inc. Confidence links between name entities in disparate documents
US20120323574A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Speech to text medical forms
US9257115B2 (en) * 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120176A (ja) * 1997-10-20 1999-04-30 Sharp Corp 通訳装置及び方法並びに通訳装置制御プログラムを記憶した媒体
JP2000010578A (ja) * 1998-06-19 2000-01-14 Ntt Data Corp 音声メッセージ送受信システム、及び音声メッセージ処理方法
JP2005141089A (ja) * 2003-11-07 2005-06-02 Canon Inc 情報処理装置、情報処理方法ならびに記録媒体、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019142419A1 (ja) * 2018-01-22 2019-07-25 ソニー株式会社 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
IL234477A (en) 2017-02-28
AU2013230453B2 (en) 2016-09-08
US10606942B2 (en) 2020-03-31
CA2872790A1 (en) 2013-09-12
JP6058039B2 (ja) 2017-01-11
WO2013134106A3 (en) 2013-11-21
AU2016269531A1 (en) 2017-01-05
US20170046326A1 (en) 2017-02-16
AU2016269531B2 (en) 2017-08-17
US9514130B2 (en) 2016-12-06
CN104380375B (zh) 2017-05-10
AU2013230453A1 (en) 2014-10-02
CA2872790C (en) 2020-03-10
CN104380375A (zh) 2015-02-25
US9257115B2 (en) 2016-02-09
US10318623B2 (en) 2019-06-11
US20130238312A1 (en) 2013-09-12
EP2823478B1 (en) 2020-01-15
MX2014010795A (es) 2015-02-05
WO2013134106A2 (en) 2013-09-12
KR101689290B1 (ko) 2016-12-23
US20190251156A1 (en) 2019-08-15
US20160110350A1 (en) 2016-04-21
MX340907B (es) 2016-07-29
KR20140142280A (ko) 2014-12-11
EP2823478A2 (en) 2015-01-14

Similar Documents

Publication Publication Date Title
JP6058039B2 (ja) 対話から情報を抽出するデバイス及びその方法
US9805718B2 (en) Clarifying natural language input using targeted questions
CN109313896B (zh) 可扩展的动态类语言建模方法、用于生成话语转录的系统、计算机可读介质
CN102084417B (zh) 现场维护语音到语音翻译的系统和方法
US9129591B2 (en) Recognizing speech in multiple languages
US8275603B2 (en) Apparatus performing translation process from inputted speech
US20220093080A1 (en) Acoustic model training using corrected terms
WO2011094090A1 (en) Enhanced speech-to-speech translation system and methods
JP2015026057A (ja) インタラクティブキャラクター基盤の外国語学習装置及び方法
US9213693B2 (en) Machine language interpretation assistance for human language interpretation
Hämäläinen et al. Multilingual speech recognition for the elderly: The AALFred personal life assistant
Prasad et al. BBN TransTalk: Robust multilingual two-way speech-to-speech translation for mobile platforms
US20140337006A1 (en) Method, system, and mobile terminal for realizing language interpretation in a browser
JP6110539B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
KR102476497B1 (ko) 언어 대응 화상 출력 장치, 방법 및 시스템
US9280970B1 (en) Lattice semantic parsing
Hovde et al. Aural Language Translation with Augmented Reality Glasses
Polepaka et al. Automated Caption Generation for Video Call with Language Translation
Carbonell et al. Language technologies for humanitarian aid
JP6298806B2 (ja) 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム
JP2021128632A (ja) 情報処理装置及び情報処理方法
Ji et al. TECHNOLOGY IN ACCESSIBLE HEALTH COMMUNICATION

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160224

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160224

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160224

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160329

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161206

R150 Certificate of patent or registration of utility model

Ref document number: 6058039

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250