JP2015516587A - 対話から情報を抽出するデバイス - Google Patents
対話から情報を抽出するデバイス Download PDFInfo
- Publication number
- JP2015516587A JP2015516587A JP2014560989A JP2014560989A JP2015516587A JP 2015516587 A JP2015516587 A JP 2015516587A JP 2014560989 A JP2014560989 A JP 2014560989A JP 2014560989 A JP2014560989 A JP 2014560989A JP 2015516587 A JP2015516587 A JP 2015516587A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- language
- speech
- information
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000284 extract Substances 0.000 title claims description 23
- 238000013519 translation Methods 0.000 claims abstract description 171
- 238000000034 method Methods 0.000 claims abstract description 73
- 230000003993 interaction Effects 0.000 claims abstract description 66
- 230000014616 translation Effects 0.000 claims description 169
- 238000000605 extraction Methods 0.000 claims description 83
- 238000004891 communication Methods 0.000 claims description 25
- 238000013500 data storage Methods 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 20
- 230000002452 interceptive effect Effects 0.000 description 11
- 102100034003 FAU ubiquitin-like and ribosomal protein S30 Human genes 0.000 description 6
- 101000732045 Homo sapiens FAU ubiquitin-like and ribosomal protein S30 Proteins 0.000 description 6
- 238000013479 data entry Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 241000233805 Phoenix Species 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 206010020751 Hypersensitivity Diseases 0.000 description 3
- 208000026935 allergic disease Diseases 0.000 description 3
- 230000007815 allergy Effects 0.000 description 3
- 230000036772 blood pressure Effects 0.000 description 3
- 238000005352 clarification Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 101001129187 Homo sapiens Patatin-like phospholipase domain-containing protein 2 Proteins 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 102100031248 Patatin-like phospholipase domain-containing protein 2 Human genes 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035935 pregnancy Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 101150105350 tts1 gene Proteins 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 101000802964 Dendroaspis angusticeps Muscarinic toxin 1 Proteins 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 101000587539 Homo sapiens Metallothionein-1A Proteins 0.000 description 1
- 101001027956 Homo sapiens Metallothionein-1B Proteins 0.000 description 1
- 101001027945 Homo sapiens Metallothionein-1E Proteins 0.000 description 1
- 101001027943 Homo sapiens Metallothionein-1F Proteins 0.000 description 1
- 101001027938 Homo sapiens Metallothionein-1G Proteins 0.000 description 1
- 101001013794 Homo sapiens Metallothionein-1H Proteins 0.000 description 1
- 101001013797 Homo sapiens Metallothionein-1L Proteins 0.000 description 1
- 101001013796 Homo sapiens Metallothionein-1M Proteins 0.000 description 1
- 101001013799 Homo sapiens Metallothionein-1X Proteins 0.000 description 1
- 102100029698 Metallothionein-1A Human genes 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/0486—Drag-and-drop
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
要素になり、さまざまな補助機械サービスにのうちにまたは明示的にではあるが人間対人間のコミュニケーションの副次的効果として伝える、装置を開示する。そのようにすることで、装置は時間を節約し、情報収集をより効果的かつ効率的なものにする。
of International Conference on Spoken Language)、1994年およびダブリュ.ワード(W.Ward)、「自然対話の理解:Phoenixシステム(Understanding Spontaneous
Speech:the Phoenix System)」、ICASSP’91の報告書(Proceedings of ICASSP’91)、1991年に見出すことができる。代替案では、ある予測可能な種類の情報だけが抽出される(たとえば、名前、
数)場合には、クラス・タガー(class tagger)およびテキスト処理モジュールまたは固有表現タガー(named entity tagger)など、より単純な配置が、情報抽出に十分である可能性がある。IEMは、所望の情報クラスの発生を検出し、さらなる処理に適する内部表現に変換することができる。たとえば、文「I am
fifty six years old(私は56歳です)」では、クラス・タガーの役割を、数(56)の出現を検出することおよび文字列「fifty six」をさらなる処理に使用可能な数値エントリ「56」に変換するテキストプロセッサとすることができる。
ジュールIR1およびIR2は、図2に示されているように、ワールドワイドウェブを含む文書の大きな遠隔のデータベースから関連する文書または応答を抽出することができる。IEMは、無線(たとえば、WiFi)または有線のネットワーク接続を介してワールドワイドウェブと通信していてもよい。この形で、IRモジュールIR1およびIR2は、書き起こされた入力文を受け取り、関連する文書を取り出すか、それに関連する文書から文字列を取り出す。IRモジュールIR1およびIR2は、ワールドワイドウェブ、ウィキペディア記事、ヘルプファイル、販促資料、製品提供、その他などの大きなデータベースを介する検索を実行して、ユーザ(たとえば、話者の1人または別のユーザ)に、彼らが別の人間と会話している間に関連する記事または指示を提示することができる。可能な用途は、人間−人間の会話に応じて、およびその副次的効果として、指示、関連広告、エンターテイメント、冗談、ニュース、その他を取り出すことである。この実施形態は、所望の結果が、構造レポートではなく関連情報である、より構造化されていない人間−人間の対話に特によく適する。
このシステムを、より多くの話者、より多くの言語、および/または単一言語に同様の形で拡張することができる。さらに、図5では、IEMが、ASRから出力を受け取るものとして図示されているが、IEMを、MTに接続し、MTから出力を受け取ることもでき、この場合に、IEMは、翻訳から情報を抽出することもできる。
クロスリンガルな人間−人間の対話の副次的効果としての黙示的な情報抽出。
単一言語による人間−人間の対話の副次的効果としての黙示的な情報抽出(以下でさらに説明する)。
固有表現タガー、ワードスポッタ、または音声検索語検出の適用による人間−人間の対話からの情報抽出。
人道主義的展開、軍事展開、避難者登録、登録、統計の収集、病気の発生、医師−患者の対話、トリアージでの黙示的な情報抽出拡張の適用。
マルチモーダルフォームの記入および訂正。触覚(タップ)、ドラッグアンドドロップによる訂正および欠けているエントリの補完、訂正または欠けている情報の補完のためのクロスモーダルスペリング、手書き。
○情報抽出によるフォーム内の情報の自動書込(または事前書込)。事前書込が正しくない場合のクロスモーダル訂正。
○代替の直接入力、黙示的および明示的なフォーム書込の選択を提供する。代替の直接入力としての異なるモーダリティ、手書き、クリック、言い直し、スペリング。
○音声翻訳インタフェースからのレポートの共有およびアップロード。
○音声翻訳およびフォーム書込に加えて、指示および事前に構成された句の再生。
○音声翻訳から情報を転送するためのドラッグアンドドロップ、タッチ。
○情報抽出によって情報を自動的に事前書込する。事前書込が正しくない場合のクロスモーダル訂正。
○代替の直接入力、黙示的および明示的なフォーム書込の選択を提供する。代替の直接入力としての異なるモーダリティ、手書き、クリック、言い直し、スペリング。
○マルチモーダル訂正によって誤り回復を提供する。訂正のためのジェスチャ、および正しい情報によって誤りを置換するための相補モーダリティ。
○音声翻訳インタフェースからのレポート共有およびアップロード。
○フォーム書込に加えて、自由音声翻訳との再生句の混合を提供する。
スペイン語の翻訳シナリオを仮定する。話者1が英語を話している場合に、認識された話者1による英語の音声が、フィールド90内にテキストで示され、スペイン語の翻訳が、フィールド92内にテキストで示される。同様に、話者2がスペイン語を話している場合に、認識された話者2によるスペイン語の音声が、フィールド92内にテキストで示され、英語の翻訳が、フィールド90内にテキストで示される。フィールド90、92は、2人の話者の間で対話が進行する時に、認識された2人の話者の音声およびその翻訳を次々に示すことができる。さらに、デバイススピーカ16は、翻訳された音声を可聴に出力することができ、その結果、他方の話者が、彼らの好みの言語でこれを聞くことができるようになる。たとえば、話者1が英語を話しており、話者2がスペイン語を話しており、上述と同一の例を継続すると、デバイススピーカ16は、話者2のために、話者1の発声のスペイン語による翻訳を出力することができ、逆に、話者1のために話者2の発声の英語による翻訳を出力することができる。ユーザは、言語選択入力91a〜91bを介して、所望の第1の言語および第2の言語を選択することができる。
100を有効化することによって、デバイス12は、ユーザがまず質問を言語1(たとえば、英語)で明確に発音することを必要とせずに、「?Cua’l es su edad?」(「何歳ですか」のスペイン語)などの質問を可聴に出力することができる。フォーム94の他のフィールドは、図9の例に示されているように、デバイス12に、関連するフィールドの所望の情報を引き出すように設計された事前に録音された質問を可聴に出力させる、関連する「Ask」ボタンを有することができる。事前に録音された質問の使用は、話者1(たとえば、医師)がまず話者1の言語で関連質問を明確に発音する必要を事前に除去することに追って、対話を加速することができる(繰返し作業/対話に特に有用である)。さらに、「Ask」ボタン用の事前に録音された質問を、話者2(たとえば、患者)の混乱および曖昧さを避けるために、選択された言語に適合させることができる。すなわち、事前に録音された質問をテストし、言語2でほとんど混乱および曖昧さがないことを証明し、これによって、話者2からの正確な応答ならびにデバイス12による正確な抽出の蓋然性を高めることができる。
のいずれかからフォーム94の適当なフィールドに情報をドラッグすることができる。
スと通信しているものとすることができる。WIFI/BLUETOOTHトランシーバ218は、LANとのラジオ周波数(RF)通信(たとえば、WI−FI標準規格または任意の適切な標準規格に従う)またはデバイス200と別の無線デバイス(たとえば、BLUETOOTH標準規格または任意の適切な標準規格に従う)との間の直接RF通信を処理することができる。さまざまな実施形態で、デバイス200は、デバイス200の地理的位置を記述する情報をアプリケーションプロセッサ204に供給するために全地球測位システム(GPS)アンテナ223を介して衛星ベースのGPSシステムと通信しているGPS222を含んでもよい。タッチスクリーン232は、視覚的な形でデバイス12のユーザに出力を提供すると同時に、ユーザから入力を受け取ることができる。入力を、ユーザによるスクリーンタッチを表す信号の形であるものとすることができる。オーディオコーデックモジュール224は、オーディオ信号を復号し、再生するためのハードウェアおよび/またはソフトウェアを提供することができる。いくつかの実施形態では、コーデック224は、ディジタル−アナログ変換器を含んでもよい。オーディオ出力信号をデバイススピーカ16および/またはオーディオ出力信号を再生するためのヘッドホンおよび/またはスピーカのセットを受けることができるジャック(図示せず)に供給することができる。オーディオ入力信号を、デバイスマイクロホン(1つまたは複数)18を介して供給することができる。デバイスは、ディジタルカメラ240を含んでもよい。
Bus(USB)または任意の他の適切な標準規格に従う、デバイスと他のデバイスとの間の有線通信を管理することができる。コネクタ239は、有線接続を容易にすることができる。いくつかの実施形態では、コネクタ239およびI/Oトランシーバ238を介する接続が、バッテリ234を充電する電力を供給することができる。
。低信頼度の情報をフォーム内ならびに音声翻訳対話ウィンドウのテキスト内で強調表示するか、他の形で呼び出すことができる。低信頼度の他のソースを、該当用語なし(Out−of−Vocabulary)項目、聴覚の曖昧さ、セマンティック的曖昧さ、および翻訳の曖昧さの検出から導出することができる。低信頼度領域を強調表示することができ、曖昧さを説明することができる(類似単語、代替の意味、欠けている単語など)。
ウを選択的に有効にし、または無効にすることができる。
○聴覚信号が、認識された文である可能性が高いかどうかを確立する聴覚信頼度スコア。○書き込まれるフォームの内容または抽出される情報のもっともらしさ。「We met
on Tuesday(我々は火曜日に会った)」の認識は、話者が、書き込まれるフォームのレベルで1週間の日付を議論している場合に、「We met and who’s he?(我々は会ったが、彼は誰だ)」より可能性が高いものとすることができる。したがって、フォーム内の共通のオプションにあてはまる曖昧な単語(たとえば、「Tuesday」)が存在する場合には、認識仮説「We met and who’s he」に疑義を唱えなければならない。
○他の話者の発声(彼らの言語での)からの翻訳によって与えられる言語コンテキストも、期待を条件付け、したがって、認識仮説に疑義を唱えまたは変更することができる。上の例では、他の話者が、スペイン語で「cuando se han encontrado」と言った場合に、この分の英語への翻訳「When did you meet(いつ会いましたか)」は、「Who’s he?」を上回って仮説「Tuesday」の蓋然性を高める言語モデリングコンテキストを提供する。
3つの信頼度測定を使用して、ユーザに曖昧さ除去を要求すべき時を判断することができる。さまざまな実施形態では、これらの判断基準のうちの1つまたは複数が、1つの信頼度または明確化スコアに組み合わされる。その後、曖昧さ除去クエリを発行して、明確化を提示することができる。
らしさのしきい値以内で匹敵する場合には、システムは、ユーザに曖昧さ除去を要求することができる。さまざまな実施形態では、これを、トレーニングデータベース内の使用法のいずれかに問題の単語を含む句を検索することによって行うことができる。たとえば、話者のデバイスを、遠隔のトレーニングデータベースを検索する遠隔のコンピュータシステムに、データネットワークを介して接続することができる。遠隔のコンピュータシステムは、曖昧さ除去を検出し、あるいは、話者のデバイスの1つが、曖昧さ除去を検出することができる。代替実施形態では、トレーニングデータベースではなく、伝統的な辞書を使用することができ、この辞書を、話者のデバイス上にまたは遠隔に記憶することができる。
or as in ”she painted her nails red(「nail」は「彼らは釘を使用してドアを直した」または「彼女は爪を赤く塗った」のどちらの意味ですか)」と質問する立場にある。ユーザが、一方または他方の解決策を選択する場合に、システムは、選択された翻訳の意味を採用し、この単語の意味に関する翻訳確率を高める。2つの曖昧なオプションの提示を、ディスプレイ上でグラフィカルに、または口頭の曖昧さ除去句によって与えることができる。
上の説明では、情報抽出プロセスが、2言語対話のコンテキストで説明された。他の実施形態では、情報抽出プロセスを、単一言語対話のプロセスで実行することができる。2言語モードに似て、単一言語モードでのデバイスは、話者による音声発声の音声認識を実
行し、認識された音声内のキーとなる情報を抽出して、フォーム28のさまざまな適用可能なフィールドに書き込む。2言語モードの上と同一の例を使用すると、医師は、第1の言語(たとえば英語)で「What is your age?(何歳ですか)」と尋ねることができる。患者は、同一の言語で(すなわち、単一言語対話)「I am fifty years old.(50歳です)」と答えることができる。キーとなる情報、ここでは「50」を、対話から抽出し、フォーム94(図9を参照されたい)の年齢フィールド96に書き込むことができる。さらに、質問のコンテキスト、たとえば「What
is your age?」をデバイスによって使用して、患者の回答が年齢フィールド96に書き込まれるべき年齢を含むことを確かめることができる。同様の形で、医師−患者の対話を使用して、氏名フィールド98、100、性別フィールド102、体重フィールド104、妊娠チェックフィールド106、アレルギフィールド108、その他など、フォームの他のフィールドに投入することができる。図9の例のインタフェースを参照すると、そのような実施形態で、共通の言語(たとえば、英語)での2人の話者の認識された音声のテキストを、それぞれ2つのフィールド90、92に表示することができる。2人の話者の間の単一言語対話から抽出された情報を、フォーム94内で右側に表示することができる。
抽出し、(iv)第1の言語に翻訳された第2の話者による認識された音声の翻訳からの抽出された情報を少なくとも1つのデータストレージユニットに記憶される電子フォームに入力することによって、抽出された情報を入力するようにさらにプログラムされる。さらに、プロセッサは、(v)第1の言語での第1の話者による認識された音声から少なくとも情報を抽出し、(vi)第1の言語での第1の話者による認識された音声からの抽出された情報を電子フォームに入力するようにさらにプログラムされ得る。
モジュールは、セマンティック文法によって翻訳を解析することによって第1の言語に翻訳された第2の話者による認識された音声の翻訳から情報を抽出することができる。また、このデバイスは、抽出された情報に関する1つまたは複数の文書を遠隔のデータベースから取り出す情報リトリーバモジュールをさらに含むことができる。さらに、情報抽出モジュールは、翻訳内の1つまたは複数のキーワードを検出することによって第1の言語に翻訳された第2の話者による認識された音声の翻訳から情報を抽出することができる。このデバイスは、抽出された情報を電子フォームに入力する前に、第1の話者および第2の話者のうちの少なくとも1つにフィードバックを提示するマルチモーダル対話インタフェースをさらに含むことができる。
できる。さらに、この方法は、(i)コンピュータベースの情報抽出デバイスによって、第1の話者の認識された音声に曖昧さが存在するかどうかを決定するステップと、(ii)コンピュータベースの情報抽出デバイスによって、第2の言語への第1の言語での第1の話者の認識された音声の翻訳に曖昧さが存在するかどうかを決定するステップと、(iii)コンピュータベースの情報抽出デバイスによる、(a)第1の話者の認識された音声または(b)第2の言語への第1の言語での第1の話者の認識された音声の翻訳のいずれかに曖昧さがあることの決定の際に、コンピュータベースの情報抽出デバイスによって、コンピュータベースの情報抽出デバイスのスクリーンディスプレイを介して第1の話者に曖昧さ除去クエリを発行することであって、曖昧さ除去クエリに対する応答は、曖昧さを解消する、発行するステップとをさらに含むことができる。第1の話者に発行された曖昧さ除去クエリは、曖昧さが第1の話者の認識された音声にある時に、曖昧さが第2の言語への第1の言語での第1の話者の認識された音声の翻訳にある時とは異なるものとすることができる。また、第1の話者の認識された音声に曖昧さが存在するかどうかの決定は、(i)第1の話者の認識された音声の聴覚信頼度スコアと、(ii)電子フォームの内容と、(iii)第2の言語から第1の言語への第2の話者からの1つまたは複数の発声の翻訳によって与えられる言語コンテキストとを含む、複数の要因に基づくものとすることができる。第2の言語への第1の言語での第1の話者の認識された音声の翻訳に曖昧さが存在するかどうかの決定は、最高スコアリング出力翻訳のスコアリングのしきい値差以内に1つまたは複数の代替出力翻訳があるかどうか、および最高スコアリング出力翻訳のスコアリングのしきい値差以内に代替出力翻訳がない場合に、最高スコアリング出力翻訳のスコアが最小しきい値未満であるかどうかを含む、複数の要因に基づくものとすることもできる。
ィカルユーザインタフェースの第2部分上に、第1の話者と第2の話者との間の対話に関する(たとえば、その対話から抽出された)情報を有するフォームを出力するようにプログラムされ得る。少なくとも1つのプログラム可能プロセッサは、フォーム内のグラフィカルユーザインタフェースの第2部分上に出力するために第1の話者と第2の話者との間の対話から情報を抽出するようにさらにプログラムされ得る。また、第1の話者が、第1の言語を話しており、第2の話者が、第2の言語を話している状況で、少なくとも1つのプログラム可能プロセッサは、(i)第1の話者の認識された音声を第2の言語に翻訳し、(ii)第2の話者の認識された音声を第1の言語に翻訳し、(iii)第1の話者よび第2の話者の認識された言語の翻訳をグラフィカルユーザインタフェースの第1部分に表示するようにプログラムされ得る。さらに、少なくとも1つのプログラム可能プロセッサは、デバイスのユーザによるスクリーンディスプレイを介する抽出された情報入力に対する編集を認識し、受け取るようにプログラムされ得る。
つ/もしくは受信するように構成された任意の他のプログラム可能デバイスとすることができる。本明細書で開示されるコンピュータシステムおよびコンピュータベースのデバイスは、情報の入手、処理、および通信に使用されるある種のソフトウェアモジュールまたはエンジンを記憶するメモリを含むことができる。そのようなメモリを、開示される実施形態の動作に関して内蔵または外付けとすることができることを理解されたい。メモリは、ハードディスク、光ディスク、フロッピー(登録商標)ディスク、ROM(読取り専用メモリ)、RAM(ランダムアクセスメモリ)、PROM(プログラム可能ROM)、EEPROM(電気的消去可能PROM)、および/または他のコンピュータ可読媒体を含む、ソフトウェアを記憶するすべての手段を含むこともできる。本明細書で説明されるソフトウェアモジュールおよびエンジンを、モジュールを記憶するメモリにアクセスするコンピュータデバイスのプロセッサ(場合によって1つまたは複数)によって実行することができる。
Claims (55)
- 少なくとも第1の話者と第2の話者との間の人間対人間の対話から情報を抽出するデバイスであって、
少なくとも1つのマイクロホンと、
スクリーンディスプレイと、
少なくとも1つのプログラム可能プロセッサおよびディジタルデータを記憶する少なくとも1つのデータストレージユニットと
を含み、前記少なくとも1つのプログラム可能プロセッサは、前記少なくとも1つのマイクロホンおよび前記スクリーンディスプレイと通信しており、前記少なくとも1つのプログラム可能プロセッサは、
前記少なくとも1つのマイクロホンによって受信される第1の話者による音声を自動的に認識し、
前記少なくとも1つのマイクロホンによって受信される第2の話者による音声を自動的に認識し、
認識された前記第2の話者による音声から少なくとも情報を抽出し、
コンピュータシステムの前記少なくとも1つのデータストレージユニットに記憶され前記スクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームに、認識された第2の話者による音声から抽出された情報を入力する
ようにプログラムされる
デバイス。 - 前記第1の話者は、第1の言語を話し、
前記第2の話者は、前記第1の言語とは異なる第2の言語を話し、
前記少なくとも1つのプログラム可能プロセッサは、
認識された第1の話者による前記第1の言語の音声を、前記第2の言語に自動的に翻訳し、
認識された第2の話者による前記第2の言語の音声を、前記第1の言語に自動的に翻訳し、
前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から少なくとも情報を抽出することによって、認識された第2の話者による音声から少なくとも情報を抽出し、
前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から抽出された情報を前記少なくとも1つのデータストレージユニットに記憶される電子フォームに入力することによって、抽出された情報を入力する
ようにさらにプログラムされる、請求項1に記載のデバイス。 - 前記プロセッサは、
前記第1の言語の認識された第1の話者による音声から少なくとも情報を抽出し、
前記第1の言語の認識された第1の話者による音声から抽出された情報を電子フォームに入力する
ようにさらにプログラムされる、請求項2に記載のデバイス。 - 前記グラフィカルユーザインタフェースは、呼び出された時に、前記スクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームを前記第1の言語による表示から前記第2の言語による表示に切り替えるためのユーザ入力を有する、請求項3に記載のデバイス。
- 前記プロセッサは、セマンティック文法によって前記翻訳を構文解析することによって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出す
るようにプログラムされる、請求項2に記載のデバイス。 - 前記プロセッサは、固有表現タグ付けによって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出するようにプログラムされる、請求項2に記載のデバイス。
- 前記プロセッサは、音声検索語検出によって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出するようにプログラムされる、請求項2に記載のデバイス。
- 前記プロセッサは、抽出された情報に関する1以上の文書を遠隔のデータベースから取り出すようにさらにプログラムされる、請求項5に記載のデバイス。
- 前記プロセッサは、翻訳内の1以上のキーワードを検出することによって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出するようにプログラムされる、請求項2に記載のデバイス。
- 前記プロセッサは、抽出された情報に関する1以上の文書を遠隔のデータベースから取り出すようにさらにプログラムされる、請求項9に記載のデバイス。
- 前記プロセッサは、抽出された情報を電子フォームに入力する前に、前記第1の話者および前記第2の話者のうちの少なくとも1つにフィードバックを提示するようにさらにプログラムされる、請求項1に記載のデバイス。
- 前記少なくとも1つのプログラム可能プロセッサは、前記デバイスのユーザによって前記スクリーンディスプレイを介して入力される、電子フォーム内の抽出された情報に対する編集を認識し、受信するようにプログラムされる、請求項1に記載のデバイス。
- 少なくとも第1の話者と第2の話者との間の人間対人間の対話から情報を抽出するコンピュータベースのデバイスであって、
少なくとも1つのマイクロホンと、
スクリーンディスプレイと、
ディジタルデータを記憶する少なくとも1つのデータストレージユニットと、
前記少なくとも1つのマイクロホンによって受信される第1の話者による音声を自動的に認識する第1の自動音声認識モジュールと、
前記少なくとも1つのマイクロホンによって受信される第2の話者による音声を自動的に認識する第2の自動音声認識モジュールと、
前記第1の自動音声認識モジュール、前記第2の自動音声認識モジュール、前記少なくとも1つのマイクロホン、および前記スクリーンディスプレイと通信している情報抽出モジュールであって、
認識された前記第2の話者による音声から少なくとも情報を抽出し、
前記少なくとも1つのデータストレージユニットに記憶され前記スクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームに、認識された第2の話者による音声から抽出された情報を入力する
情報抽出モジュールと
を含むデバイス。 - 前記第1の話者は、第1の言語を話し、
前記第2の話者は、前記第1の言語とは異なる第2の言語を話し、
前記デバイスは、
前記第1の自動音声認識モジュールと通信している第1の機械翻訳モジュールであって、前記第1の言語の認識された第1の話者による音声を前記第2の言語に自動的に翻訳するための第1の機械翻訳モジュールと、
前記第2の自動音声認識モジュールと通信している第2の機械翻訳モジュールであって、前記第2の言語の認識された第2の話者による音声を前記第1の言語に自動的に翻訳するための第2の機械翻訳モジュールと
をさらに含み、前記情報抽出モジュールは、
前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から少なくとも情報を抽出することによって、認識された第2の話者による音声から少なくとも情報を抽出し、
前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から抽出された情報を前記少なくとも1つのデータストレージユニットに記憶される電子フォームに入力することによって、抽出された情報を入力する
請求項13に記載のデバイス。 - 前記情報抽出モジュールは、さらに、
前記第1の言語の認識された第1の話者による音声から少なくとも情報を抽出し、
前記第1の言語の認識された第1の話者による音声から抽出された情報を電子フォームに入力する
請求項14に記載のデバイス。 - 前記グラフィカルユーザインタフェースは、呼び出された時に、前記スクリーンディスプレイ上の前記グラフィカルユーザインタフェース内に表示される電子フォームを前記第1の言語による表示から前記第2の言語による表示に切り替えるためのユーザ入力を有する、請求項15に記載のデバイス。
- 前記情報抽出モジュールは、セマンティック文法によって前記翻訳を構文解析することによって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出する、請求項14に記載のデバイス。
- 前記情報抽出モジュールは、固有表現タグ付けによって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出する、請求項14に記載のデバイス。
- 前記情報抽出モジュールは、音声検索語検出によって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出する、請求項14に記載のデバイス。
- 抽出された情報に関する1以上の文書を遠隔のデータベースから取り出すための情報リトリーバモジュールをさらに含む、請求項17に記載のデバイス。
- 前記情報抽出モジュールは、翻訳内の1以上のキーワードを検出することによって前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出する、請求項14に記載のデバイス。
- 抽出された情報に関する1以上の文書を遠隔のデータベースから取り出すための情報リトリーバモジュールをさらに含む、請求項21に記載のデバイス。
- 抽出された情報を電子フォームに入力する前に、第1の話者および第2の話者のうちの少なくとも1つにフィードバックを提示するマルチモーダル対話インタフェースをさらに
含む、請求項13に記載のデバイス。 - 少なくとも話している第1の話者と第2の話者との間の人間対人間の対話中に情報を抽出するコンピュータ実装される方法であって、
コンピュータベースの情報抽出デバイスの少なくとも1つのマイクロホンによって、前記対話中に第1の話者および第2の話者による音声を受信するステップと、
前記コンピュータベースの情報抽出デバイスによって、第1の話者による音声を自動的に認識するステップと、
前記コンピュータベースの情報抽出デバイスによって、第2の言語の第2の話者による音声を自動的に認識するステップと、
前記コンピュータベースの情報抽出デバイスによって、認識された第2の話者による音声から少なくとも情報を抽出するステップと、
前記コンピュータベースの情報抽出デバイスによって、前記情報抽出デバイスの少なくとも1つのデータストレージユニットに記憶される電子フォームに、認識された第2の話者による音声から抽出された情報を入力するステップと
を含む方法。 - 前記コンピュータベースの情報抽出デバイスのスクリーンディスプレイ上にフォームを表示するステップをさらに含む、請求項24に記載の方法。
- 第1の話者は、第1の言語を話し、第2の話者は、前記第1の言語とは異なる第2の言語を話し、前記方法は、
前記コンピュータベースの情報抽出デバイスによって、前記第1の言語の認識された第1の話者による音声を前記第2の言語に自動的に翻訳するステップと、
前記コンピュータベースの情報抽出デバイスによって、前記第2の言語の認識された第2の話者による音声を前記第1の言語に自動的に翻訳するステップと
をさらに含み、
少なくとも情報を抽出するステップは、前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から少なくとも情報を抽出することによって、前記コンピュータベースの情報抽出デバイスによって認識された第2の話者による音声から少なくとも情報を抽出するステップを含み、
抽出された情報を入力するステップは、前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から抽出された情報を前記情報抽出デバイスの少なくとも1つのデータストレージユニットに記憶される電子フォームに入力することによって、前記コンピュータベースの情報抽出デバイスによって抽出された情報を入力することを含む
請求項25に記載の方法。 - 前記第1の言語の認識された第1の話者による音声から少なくとも情報を抽出するステップと、
前記第1の言語の認識された第1の話者による音声から抽出された情報を電子フォームに入力するステップと
をさらに含む、請求項26に記載の方法。 - 前記スクリーンディスプレイ上のグラフィカルユーザインタフェースに表示される電子フォームを、言語を切り替えるための前記グラフィカルユーザインタフェース上の入力が呼び出される時に、前記第1の言語による表示から前記第2の言語による表示に切り替えるステップをさらに含む、請求項27に記載の方法。
- 前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出するステップは、セマンティック文法によって前記翻訳を構文解析することを含む、請求
項26に記載の方法。 - 前記コンピュータベースの情報抽出デバイスによって、抽出された情報に関する1以上の文書を遠隔のデータベースから取り出すステップをさらに含む、請求項29に記載の方法。
- 前記第1の言語に翻訳された、認識された第2の話者による音声の翻訳から情報を抽出するステップは、翻訳内の1以上のキーワードを検出するステップを含む、請求項26に記載の方法。
- 前記コンピュータベースの情報抽出デバイスによって、抽出された情報に関する1以上の文書を遠隔のデータベースから取り出すステップをさらに含む、請求項31に記載の方法。
- 前記コンピュータベースの情報抽出デバイスによって、抽出された情報を電子フォームに入力する前に、第1の話者および第2の話者のうちの少なくとも1つにフィードバックを提示するステップをさらに含む、請求項26に記載の方法。
- 前記コンピュータベースの情報抽出デバイスによって、認識された第1の話者の音声に曖昧さが存在するか否かを決定するステップと、
前記コンピュータベースの情報抽出デバイスによって、前記第1の言語による認識された第1の話者の音声の前記第2の言語への翻訳に曖昧さが存在するか否かを決定するステップと、
前記コンピュータベースの情報抽出デバイスによる、(i)認識された第1の話者の音声または(ii)前記第1の言語による認識された第1の話者の音声の前記第2の言語への翻訳のいずれかに曖昧さがあることの決定の際に、前記コンピュータベースの情報抽出デバイスによって、前記コンピュータベースの情報抽出デバイスのスクリーンディスプレイを介して第1の話者に曖昧さ除去クエリを発行するステップであって、前記曖昧さ除去クエリに対する応答は、曖昧さを解消する、発行するステップと
をさらに含む、請求項26に記載の方法。 - 前記第1の話者に発行される曖昧さ除去クエリは、認識された第1の話者の音声に曖昧さが存在する時と、前記第1の言語による認識された第1の話者の音声の前記第2の言語への翻訳に曖昧さが存在する時とでは異なる、請求項34に記載の方法。
- 認識された第1の話者の音声に曖昧さが存在するか否かの決定は、複数の要因に基づき、前記要因は、
認識された第1の話者の音声の聴覚信頼度スコアと、
前記電子フォームの内容と、
第2の話者による1以上の発声の前記第2の言語から前記第1の言語への翻訳によって与えられる言語コンテキストと
を含む、請求項34に記載の方法。 - 認識された第1の話者の音声の、前記第1の言語の前記第2の言語への翻訳に曖昧さが存在するか否かの決定は、複数の要因に基づき、前記要因は、
最高スコアリング出力翻訳のスコアリングのしきい値差以内に1以上の代替出力翻訳が存在するか否かと、
前記最高スコアリング出力翻訳のスコアリングのしきい値差以内に代替出力翻訳が存在しない場合に、最高スコアリング出力翻訳のスコアが最小しきい値未満であるか否かと
を含む、請求項34に記載の方法。 - 前記コンピュータベースの情報抽出デバイスのスクリーンディスプレイは、タッチスクリーンディスプレイを含む、請求項34に記載の方法。
- 前記コンピュータベースの情報抽出デバイスによって、前記フォーム内のエントリに対する訂正を受け取るステップをさらに含む、請求項27に記載の方法。
- 前記訂正を受け取るステップは、前記スクリーンディスプレイ上に表示された前記認識された音声の書き起こしからの情報を前記スクリーンディスプレイ上に表示された前記フォーム上の前記エントリへドラッグするステップを含む、請求項39に記載の方法。
- 前記訂正を受け取るステップは、前記フォーム上の前記エントリへの1以上の編集を受け取るステップを含む、請求項40に記載の方法。
- 前記フォーム上のエントリへの1以上の編集を受け取るステップは、前記フォーム上のエントリへの口頭で入力される編集を受け取るステップを含む、請求項41に記載の方法。
- 前記フォーム上のエントリへの1以上の編集を受け取るステップは、前記フォーム上のエントリへの訂正を示すジェスチャを前記コンピュータベースの情報抽出デバイスによって検出するステップを含む、請求項41に記載の方法。
- 前記コンピュータベースの情報抽出デバイスによって、遠隔のデータベースへ電子フォームをアップロードするステップをさらに含む、請求項24に記載の方法。
- 前記コンピュータベースの情報抽出デバイスによって、遠隔のデータベースへ前記電子フォームをアップロードすることをさらに含む、請求項27に記載の方法。
- 少なくとも第1の言語で話す第1の話者と第2の言語で話す第2の話者との間の人間対人間の対話の音声翻訳における曖昧さを解消するコンピュータ実装される方法であって、
コンピュータベースの音声翻訳システムによって、前記第1の言語の第1の話者による音声を認識するステップと、
前記コンピュータベースの音声翻訳システムによって、認識された第1の話者の音声に曖昧さが存在するか否かを決定するステップと、
前記コンピュータベースの音声翻訳システムによって、認識された第1の言語の第1の話者の音声を第2の言語に翻訳するステップと、
前記コンピュータベースの音声翻訳システムによって、前記第1の言語による認識された第1の話者の音声の第2の言語への翻訳に曖昧さが存在するか否かを決定するステップと、
前記コンピュータベースの音声翻訳システムによる、(i)認識された第1の話者の音声または(ii)前記第1の言語による認識された第1の話者の音声の前記第2の言語への翻訳のいずれかに曖昧さがあることが決定の際に、前記コンピュータベースの音声翻訳システムによって、前記音声翻訳システムのユーザインタフェースを介して第1の話者に曖昧さ除去クエリを発行するステップであって、前記曖昧さ除去クエリに対する応答は、曖昧さを解消する、発行するステップと
を含む方法。 - 前記第1の話者に発行される曖昧さ除去クエリは、認識された第1の話者の音声に曖昧さが存在する時と、前記第1の言語による認識された第1の話者の音声の前記第2の言語への翻訳に曖昧さが存在する時とでは異なる、請求項46に記載の方法。
- 認識された第1の話者の音声に曖昧さが存在するか否かの決定は、複数の要因に基づき、前記要因は、
認識された第1の話者の音声の聴覚信頼度スコアと、
前記第1の話者と前記第2の話者との間の対話のコンテキストと、
前記第2の話者による1以上の発声の前記第2の言語から前記第1の言語への翻訳によって与えられる言語コンテキストと
を含む、請求項46に記載の方法。 - 第1の言語による認識された第1の話者の音声の前記第2の言語への翻訳に曖昧さが存在するか否かの決定は、複数の要因に基づき、前記要因は、
最高スコアリング出力翻訳のスコアリングのしきい値差以内に1以上の代替出力翻訳が存在するか否かと、
前記最高スコアリング出力翻訳のスコアリングのしきい値差以内に代替出力翻訳が存在しない場合に、最高スコアリング出力翻訳のスコアが最小しきい値未満であるか否かと
を含む、請求項46に記載の方法。 - 前記音声翻訳システムのユーザインタフェースは、タッチスクリーンディスプレイを含む、請求項46に記載の方法。
- 少なくとも第1の話者と第2の話者との間の人間対人間の対話から情報を抽出するデバイスであって、
少なくとも1つのマイクロホンと、
スクリーンディスプレイと、
少なくとも1つのプログラム可能プロセッサおよびディジタルデータを記憶する少なくとも1つのデータストレージユニットであって、前記少なくとも1つのプログラム可能プロセッサは、前記スクリーンディスプレイおよび前記少なくとも1つのマイクロホンと通信しており、前記少なくとも1つのプログラム可能プロセッサは、
第1の話者と第2の話者との間の対話中に、前記少なくとも1つのマイクロホンによって受信した第1の話者および第2の話者による音声を自動的に認識し、
第1の話者と第2の話者との間の対話中に、前記スクリーンディスプレイ上に表示されるグラフィカルユーザインタフェースの第1部分に、認識された第1の話者および第2の話者の音声を出力し、
前記スクリーンディスプレイ上に表示されるグラフィカルユーザインタフェースの第2部分上に、第1の話者と第2の話者との間の対話に関する情報を有するフォームを出力する
ようにプログラムされる
デバイス。 - 前記少なくとも1つのプログラム可能プロセッサは、前記フォーム内のグラフィカルユーザインタフェースの第2部分上に出力するために、第1の話者と第2の話者との間の対話から情報を抽出するようにさらにプログラムされる、請求項51に記載のデバイス。
- 第1の話者は第1の言語を話し、前記第2の話者は第2の言語を話し、
前記少なくとも1つのプログラム可能プロセッサは、
認識された第1の話者の音声を前記第2の言語に翻訳し、
認識された第2の話者の音声を前記第1の言語に翻訳し、
認識された第1の話者および第2の話者の言語の翻訳を前記グラフィカルユーザインタフェースの第1部分に表示する
ようにプログラムされる、請求項52に記載のデバイス。 - 前記少なくとも1つのプログラム可能プロセッサは、前記デバイスのユーザによる前記スクリーンディスプレイを介する抽出された情報入力に対する編集を認識し、受け取るようにプログラムされる、請求項52に記載のデバイス。
- 前記グラフィカルユーザインタフェースは、呼び出された時に、前記スクリーンディスプレイ上のグラフィカルユーザインタフェース内に表示される電子フォームを前記第1の言語による表示から前記第2の言語による表示に切り替えるためのユーザ入力を有する、請求項53に記載のデバイス。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261608334P | 2012-03-08 | 2012-03-08 | |
US61/608,334 | 2012-03-08 | ||
US13/760,535 | 2013-02-06 | ||
US13/760,535 US9257115B2 (en) | 2012-03-08 | 2013-02-06 | Device for extracting information from a dialog |
PCT/US2013/028831 WO2013134106A2 (en) | 2012-03-08 | 2013-03-04 | Device for extracting information from a dialog |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2015516587A true JP2015516587A (ja) | 2015-06-11 |
JP2015516587A5 JP2015516587A5 (ja) | 2016-04-14 |
JP6058039B2 JP6058039B2 (ja) | 2017-01-11 |
Family
ID=49114862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014560989A Active JP6058039B2 (ja) | 2012-03-08 | 2013-03-04 | 対話から情報を抽出するデバイス及びその方法 |
Country Status (10)
Country | Link |
---|---|
US (4) | US9257115B2 (ja) |
EP (1) | EP2823478B1 (ja) |
JP (1) | JP6058039B2 (ja) |
KR (1) | KR101689290B1 (ja) |
CN (1) | CN104380375B (ja) |
AU (2) | AU2013230453B2 (ja) |
CA (1) | CA2872790C (ja) |
IL (1) | IL234477A (ja) |
MX (1) | MX340907B (ja) |
WO (1) | WO2013134106A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019142419A1 (ja) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | 情報処理装置および情報処理方法 |
Families Citing this family (107)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9128981B1 (en) | 2008-07-29 | 2015-09-08 | James L. Geer | Phone assisted ‘photographic memory’ |
US8775454B2 (en) | 2008-07-29 | 2014-07-08 | James L. Geer | Phone assisted ‘photographic memory’ |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9257115B2 (en) * | 2012-03-08 | 2016-02-09 | Facebook, Inc. | Device for extracting information from a dialog |
RU2530268C2 (ru) | 2012-11-28 | 2014-10-10 | Общество с ограниченной ответственностью "Спиктуит" | Способ обучения информационной диалоговой системы пользователем |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US20140278345A1 (en) * | 2013-03-14 | 2014-09-18 | Michael Koski | Medical translator |
KR102197143B1 (ko) * | 2013-11-26 | 2020-12-31 | 현대모비스 주식회사 | 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법 |
CN103744843B (zh) * | 2013-12-25 | 2017-01-04 | 北京百度网讯科技有限公司 | 一种在线语音翻译方法及装置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633309B2 (en) * | 2014-06-19 | 2017-04-25 | International Business Machines Corporation | Displaying quality of question being asked a question answering system |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
JP5907231B1 (ja) * | 2014-10-15 | 2016-04-26 | 富士通株式会社 | 入力情報支援装置、入力情報支援方法および入力情報支援プログラム |
KR102033395B1 (ko) * | 2014-11-20 | 2019-10-18 | 한국전자통신연구원 | 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법 |
US9772816B1 (en) * | 2014-12-22 | 2017-09-26 | Google Inc. | Transcription and tagging system |
US10199041B2 (en) * | 2014-12-30 | 2019-02-05 | Honeywell International Inc. | Speech recognition systems and methods for maintenance repair and overhaul |
US20160246781A1 (en) * | 2015-02-19 | 2016-08-25 | Gary Cabot | Medical interaction systems and methods |
JP6434363B2 (ja) * | 2015-04-30 | 2018-12-05 | 日本電信電話株式会社 | 音声入力装置、音声入力方法、およびプログラム |
US10083688B2 (en) * | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
CN104932826B (zh) * | 2015-06-26 | 2018-10-12 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
CN105046098A (zh) * | 2015-09-10 | 2015-11-11 | 济南市儿童医院 | 一种孕妇早产因素流行病学调查系统 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CN105488142B (zh) * | 2015-11-24 | 2019-07-30 | 科大讯飞股份有限公司 | 成绩信息录入方法及系统 |
US10318640B2 (en) * | 2016-06-24 | 2019-06-11 | Facebook, Inc. | Identifying risky translations |
KR20180012464A (ko) * | 2016-07-27 | 2018-02-06 | 삼성전자주식회사 | 전자 장치 및 그의 음성 인식 방법 |
KR101827773B1 (ko) * | 2016-08-02 | 2018-02-09 | 주식회사 하이퍼커넥트 | 통역 장치 및 방법 |
CN107886955B (zh) * | 2016-09-29 | 2021-10-26 | 百度在线网络技术(北京)有限公司 | 一种语音会话样本的身份识别方法、装置及设备 |
JP6767046B2 (ja) * | 2016-11-08 | 2020-10-14 | 国立研究開発法人情報通信研究機構 | 音声対話システム、音声対話装置、ユーザー端末、および音声対話方法 |
US10860685B2 (en) * | 2016-11-28 | 2020-12-08 | Google Llc | Generating structured text content using speech recognition models |
US11004447B2 (en) * | 2016-12-26 | 2021-05-11 | Hyundai Motor Company | Speech processing apparatus, vehicle having the speech processing apparatus, and speech processing method |
US10431216B1 (en) * | 2016-12-29 | 2019-10-01 | Amazon Technologies, Inc. | Enhanced graphical user interface for voice communications |
US20180239959A1 (en) * | 2017-02-22 | 2018-08-23 | Anduin Transactions, Inc. | Electronic data parsing and interactive user interfaces for data processing |
US11582174B1 (en) | 2017-02-24 | 2023-02-14 | Amazon Technologies, Inc. | Messaging content data storage |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US10652592B2 (en) | 2017-07-02 | 2020-05-12 | Comigo Ltd. | Named entity disambiguation for providing TV content enrichment |
US11114186B2 (en) | 2017-08-10 | 2021-09-07 | Nuance Communications, Inc. | Automated clinical documentation system and method |
US11316865B2 (en) | 2017-08-10 | 2022-04-26 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
JP7197259B2 (ja) * | 2017-08-25 | 2022-12-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置およびプログラム |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN110730952B (zh) * | 2017-11-03 | 2021-08-31 | 腾讯科技(深圳)有限公司 | 处理网络上的音频通信的方法和系统 |
CN107894972A (zh) * | 2017-11-15 | 2018-04-10 | 北京百度网讯科技有限公司 | 一种会话标记方法、装置、聚合服务器和存储介质 |
US10984797B2 (en) * | 2017-12-01 | 2021-04-20 | Hewlett-Packard Development Company, L.P. | Collaboration devices |
CN110021290A (zh) * | 2018-01-08 | 2019-07-16 | 上海西门子医疗器械有限公司 | 医疗系统和用于医疗系统的实时语言转换方法 |
US10423727B1 (en) | 2018-01-11 | 2019-09-24 | Wells Fargo Bank, N.A. | Systems and methods for processing nuances in natural language |
WO2019163247A1 (ja) * | 2018-02-22 | 2019-08-29 | ソニー株式会社 | 情報処理装置、情報処理方法、および、プログラム |
EP3762921A4 (en) | 2018-03-05 | 2022-05-04 | Nuance Communications, Inc. | AUTOMATED CLINICAL DOCUMENTATION SYSTEM AND PROCESS |
WO2019173349A1 (en) * | 2018-03-05 | 2019-09-12 | Nuance Communications, Inc. | System and method for review of automated clinical documentation |
US11250383B2 (en) | 2018-03-05 | 2022-02-15 | Nuance Communications, Inc. | Automated clinical documentation system and method |
US11354521B2 (en) | 2018-03-07 | 2022-06-07 | Google Llc | Facilitating communications with automated assistants in multiple languages |
EP3716267B1 (en) | 2018-03-07 | 2023-04-12 | Google LLC | Facilitating end-to-end communications with automated assistants in multiple languages |
CN110322881A (zh) * | 2018-03-29 | 2019-10-11 | 松下电器产业株式会社 | 语音翻译装置、语音翻译方法及其存储介质 |
US11238852B2 (en) * | 2018-03-29 | 2022-02-01 | Panasonic Corporation | Speech translation device, speech translation method, and recording medium therefor |
CN112236817A (zh) * | 2018-04-11 | 2021-01-15 | 谷歌有限责任公司 | 低延迟邻近群组翻译 |
KR20200125735A (ko) * | 2018-04-27 | 2020-11-04 | 주식회사 엘솔루 | 음성 인식 기술을 이용한 다자간 대화 기록/출력 방법 및 이를 위한 장치 |
CN108764649B (zh) * | 2018-04-28 | 2022-04-26 | 平安科技(深圳)有限公司 | 保险销售实时监控方法、装置、设备及存储介质 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
CN110659970A (zh) * | 2018-06-12 | 2020-01-07 | 百度在线网络技术(北京)有限公司 | 基于语音识别的账务信息处理方法、装置和电子设备 |
WO2019237806A1 (zh) * | 2018-06-12 | 2019-12-19 | 深圳市合言信息科技有限公司 | 语音识别及翻译方法以及翻译装置 |
US20190384811A1 (en) * | 2018-06-14 | 2019-12-19 | Pubali Sen | System and method for communication exchange feedback |
CN109166594A (zh) * | 2018-07-24 | 2019-01-08 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN108984788A (zh) * | 2018-07-30 | 2018-12-11 | 珠海格力电器股份有限公司 | 一种录音文件整理、归类系统及其控制方法与录音设备 |
EP3605527A3 (en) * | 2018-08-02 | 2020-04-15 | SoundHound, Inc. | Visually presenting information relevant to a natural language conversation |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN109088995B (zh) * | 2018-10-17 | 2020-11-13 | 永德利硅橡胶科技(深圳)有限公司 | 支持全球语言翻译的方法及手机 |
KR20200056712A (ko) | 2018-11-15 | 2020-05-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
JP2022518339A (ja) * | 2018-12-06 | 2022-03-15 | ベステル エレクトロニク サナイー ベ ティカレト エー.エス. | 音声制御される電子装置のコマンド生成技術 |
US11423215B2 (en) | 2018-12-13 | 2022-08-23 | Zebra Technologies Corporation | Method and apparatus for providing multimodal input data to client applications |
CN111742364A (zh) * | 2018-12-14 | 2020-10-02 | 谷歌有限责任公司 | 用于联网系统的基于语音的接口 |
US11798560B1 (en) | 2018-12-21 | 2023-10-24 | Cerner Innovation, Inc. | Rapid event and trauma documentation using voice capture |
US11875883B1 (en) | 2018-12-21 | 2024-01-16 | Cerner Innovation, Inc. | De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources |
US11398232B1 (en) * | 2018-12-21 | 2022-07-26 | Cerner Innovation, Inc. | Natural language understanding of conversational sources |
CN109683714B (zh) | 2018-12-28 | 2021-08-31 | 北京小米移动软件有限公司 | 多媒体资源管理方法、装置及存储介质 |
CN111475206B (zh) * | 2019-01-04 | 2023-04-11 | 优奈柯恩(北京)科技有限公司 | 用于唤醒可穿戴设备的方法及装置 |
US11145171B2 (en) * | 2019-02-28 | 2021-10-12 | Arlo Technologies, Inc. | Electronic doorbell system with text communication |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
KR102280453B1 (ko) * | 2019-03-28 | 2021-07-22 | 주식회사 포시에스 | 화자 식별을 통한 전자문서 데이터 제공 방법 및 장치 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11227679B2 (en) | 2019-06-14 | 2022-01-18 | Nuance Communications, Inc. | Ambient clinical intelligence system and method |
US11216480B2 (en) | 2019-06-14 | 2022-01-04 | Nuance Communications, Inc. | System and method for querying data points from graph data structures |
US11043207B2 (en) | 2019-06-14 | 2021-06-22 | Nuance Communications, Inc. | System and method for array data simulation and customized acoustic modeling for ambient ASR |
US11531807B2 (en) | 2019-06-28 | 2022-12-20 | Nuance Communications, Inc. | System and method for customized text macros |
EP3788621B1 (en) * | 2019-07-01 | 2023-03-22 | Google LLC | Adaptive diarization model and user interface |
KR102076793B1 (ko) * | 2019-07-04 | 2020-02-12 | 주식회사 포시에스 | 음성을 통한 전자문서 제공 방법, 음성을 통한 전자문서 작성 방법 및 장치 |
US20210026923A1 (en) * | 2019-07-23 | 2021-01-28 | Reginald Dalce | Intent-Based Language Translation |
KR20210016739A (ko) * | 2019-08-05 | 2021-02-17 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 입력 방법 |
US11670408B2 (en) | 2019-09-30 | 2023-06-06 | Nuance Communications, Inc. | System and method for review of automated clinical documentation |
CN111833865B (zh) * | 2020-01-08 | 2024-05-24 | 北京嘀嘀无限科技发展有限公司 | 一种人机交互方法与终端、计算机可读存储介质 |
CN111710436A (zh) * | 2020-02-14 | 2020-09-25 | 北京猎户星空科技有限公司 | 诊疗方法、装置、电子设备及存储介质 |
WO2021179048A1 (en) * | 2020-03-13 | 2021-09-16 | Tstreet Pty Limited | Language communication method and system |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11252205B1 (en) * | 2020-10-15 | 2022-02-15 | Fuze, Inc. | Real time information analysis for a teleconference |
US11222103B1 (en) | 2020-10-29 | 2022-01-11 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
KR102480479B1 (ko) * | 2020-11-30 | 2022-12-23 | 주식회사 마인즈랩 | 전사를 위한 음성 콘텐츠의 전처리 방법 |
KR20220124523A (ko) * | 2021-03-03 | 2022-09-14 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11928111B2 (en) | 2021-03-03 | 2024-03-12 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling electronic apparatus |
CN113157966B (zh) * | 2021-03-15 | 2023-10-31 | 维沃移动通信有限公司 | 显示方法、装置及电子设备 |
CN112951238A (zh) * | 2021-03-19 | 2021-06-11 | 河南蜂云科技发展有限公司 | 一种基于语音处理的科技法庭智能管理方法、系统及存储介质 |
US11681538B1 (en) * | 2022-04-06 | 2023-06-20 | Truist Bank | Coordinating and synchronizing data entry between client computing devices |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11120176A (ja) * | 1997-10-20 | 1999-04-30 | Sharp Corp | 通訳装置及び方法並びに通訳装置制御プログラムを記憶した媒体 |
JP2000010578A (ja) * | 1998-06-19 | 2000-01-14 | Ntt Data Corp | 音声メッセージ送受信システム、及び音声メッセージ処理方法 |
JP2005141089A (ja) * | 2003-11-07 | 2005-06-02 | Canon Inc | 情報処理装置、情報処理方法ならびに記録媒体、プログラム |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5855000A (en) | 1995-09-08 | 1998-12-29 | Carnegie Mellon University | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input |
US5712957A (en) | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
US6324510B1 (en) | 1998-11-06 | 2001-11-27 | Lernout & Hauspie Speech Products N.V. | Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains |
US6963837B1 (en) | 1999-10-06 | 2005-11-08 | Multimodal Technologies, Inc. | Attribute-based word modeling |
US7149347B1 (en) | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
US7124085B2 (en) | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
US7660400B2 (en) | 2003-12-19 | 2010-02-09 | At&T Intellectual Property Ii, L.P. | Method and apparatus for automatically building conversational systems |
JP4287386B2 (ja) * | 2005-01-31 | 2009-07-01 | 株式会社東芝 | 情報検索システム、方法及びプログラム |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
WO2007049183A1 (en) | 2005-10-27 | 2007-05-03 | Koninklijke Philips Electronics N.V. | Method and system for processing dictated information |
JP4058071B2 (ja) * | 2005-11-22 | 2008-03-05 | 株式会社東芝 | 用例翻訳装置、用例翻訳方法および用例翻訳プログラム |
US8898052B2 (en) | 2006-05-22 | 2014-11-25 | Facebook, Inc. | Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer |
JP2008077601A (ja) * | 2006-09-25 | 2008-04-03 | Toshiba Corp | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
US7907705B1 (en) * | 2006-10-10 | 2011-03-15 | Intuit Inc. | Speech to text for assisted form completion |
US8972268B2 (en) | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US8090570B2 (en) | 2006-10-26 | 2012-01-03 | Mobile Technologies, Llc | Simultaneous translation of open domain lectures and speeches |
US8204739B2 (en) | 2008-04-15 | 2012-06-19 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
TW200824408A (en) | 2006-11-27 | 2008-06-01 | Htc Corp | Methods and systems for information retrieval during communication, and machine readable medium thereof |
KR101445904B1 (ko) * | 2008-04-15 | 2014-09-29 | 페이스북, 인크. | 현장 음성 번역 유지 시스템 및 방법 |
US8527522B2 (en) * | 2008-09-05 | 2013-09-03 | Ramp Holdings, Inc. | Confidence links between name entities in disparate documents |
US20120323574A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Speech to text medical forms |
US9257115B2 (en) * | 2012-03-08 | 2016-02-09 | Facebook, Inc. | Device for extracting information from a dialog |
-
2013
- 2013-02-06 US US13/760,535 patent/US9257115B2/en active Active
- 2013-03-04 CA CA2872790A patent/CA2872790C/en not_active Expired - Fee Related
- 2013-03-04 KR KR1020147028069A patent/KR101689290B1/ko active IP Right Grant
- 2013-03-04 MX MX2014010795A patent/MX340907B/es active IP Right Grant
- 2013-03-04 WO PCT/US2013/028831 patent/WO2013134106A2/en active Application Filing
- 2013-03-04 EP EP13710719.9A patent/EP2823478B1/en active Active
- 2013-03-04 CN CN201380020374.3A patent/CN104380375B/zh active Active
- 2013-03-04 AU AU2013230453A patent/AU2013230453B2/en not_active Ceased
- 2013-03-04 JP JP2014560989A patent/JP6058039B2/ja active Active
-
2014
- 2014-09-04 IL IL234477A patent/IL234477A/en active IP Right Grant
-
2015
- 2015-12-30 US US14/985,300 patent/US9514130B2/en active Active
-
2016
- 2016-10-31 US US15/338,750 patent/US10318623B2/en active Active
- 2016-12-08 AU AU2016269531A patent/AU2016269531B2/en not_active Ceased
-
2019
- 2019-04-25 US US16/395,001 patent/US10606942B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11120176A (ja) * | 1997-10-20 | 1999-04-30 | Sharp Corp | 通訳装置及び方法並びに通訳装置制御プログラムを記憶した媒体 |
JP2000010578A (ja) * | 1998-06-19 | 2000-01-14 | Ntt Data Corp | 音声メッセージ送受信システム、及び音声メッセージ処理方法 |
JP2005141089A (ja) * | 2003-11-07 | 2005-06-02 | Canon Inc | 情報処理装置、情報処理方法ならびに記録媒体、プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019142419A1 (ja) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | 情報処理装置および情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
IL234477A (en) | 2017-02-28 |
AU2013230453B2 (en) | 2016-09-08 |
US10606942B2 (en) | 2020-03-31 |
CA2872790A1 (en) | 2013-09-12 |
JP6058039B2 (ja) | 2017-01-11 |
WO2013134106A3 (en) | 2013-11-21 |
AU2016269531A1 (en) | 2017-01-05 |
US20170046326A1 (en) | 2017-02-16 |
AU2016269531B2 (en) | 2017-08-17 |
US9514130B2 (en) | 2016-12-06 |
CN104380375B (zh) | 2017-05-10 |
AU2013230453A1 (en) | 2014-10-02 |
CA2872790C (en) | 2020-03-10 |
CN104380375A (zh) | 2015-02-25 |
US9257115B2 (en) | 2016-02-09 |
US10318623B2 (en) | 2019-06-11 |
US20130238312A1 (en) | 2013-09-12 |
EP2823478B1 (en) | 2020-01-15 |
MX2014010795A (es) | 2015-02-05 |
WO2013134106A2 (en) | 2013-09-12 |
KR101689290B1 (ko) | 2016-12-23 |
US20190251156A1 (en) | 2019-08-15 |
US20160110350A1 (en) | 2016-04-21 |
MX340907B (es) | 2016-07-29 |
KR20140142280A (ko) | 2014-12-11 |
EP2823478A2 (en) | 2015-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6058039B2 (ja) | 対話から情報を抽出するデバイス及びその方法 | |
US9805718B2 (en) | Clarifying natural language input using targeted questions | |
CN109313896B (zh) | 可扩展的动态类语言建模方法、用于生成话语转录的系统、计算机可读介质 | |
CN102084417B (zh) | 现场维护语音到语音翻译的系统和方法 | |
US9129591B2 (en) | Recognizing speech in multiple languages | |
US8275603B2 (en) | Apparatus performing translation process from inputted speech | |
US20220093080A1 (en) | Acoustic model training using corrected terms | |
WO2011094090A1 (en) | Enhanced speech-to-speech translation system and methods | |
JP2015026057A (ja) | インタラクティブキャラクター基盤の外国語学習装置及び方法 | |
US9213693B2 (en) | Machine language interpretation assistance for human language interpretation | |
Hämäläinen et al. | Multilingual speech recognition for the elderly: The AALFred personal life assistant | |
Prasad et al. | BBN TransTalk: Robust multilingual two-way speech-to-speech translation for mobile platforms | |
US20140337006A1 (en) | Method, system, and mobile terminal for realizing language interpretation in a browser | |
JP6110539B1 (ja) | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム | |
KR102476497B1 (ko) | 언어 대응 화상 출력 장치, 방법 및 시스템 | |
US9280970B1 (en) | Lattice semantic parsing | |
Hovde et al. | Aural Language Translation with Augmented Reality Glasses | |
Polepaka et al. | Automated Caption Generation for Video Call with Language Translation | |
Carbonell et al. | Language technologies for humanitarian aid | |
JP6298806B2 (ja) | 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム | |
JP2021128632A (ja) | 情報処理装置及び情報処理方法 | |
Ji et al. | TECHNOLOGY IN ACCESSIBLE HEALTH COMMUNICATION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160224 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160224 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160224 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160329 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20160623 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6058039 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |