JP2016527587A - ハイブリッド型オフライン/オンライン音声翻訳システム - Google Patents
ハイブリッド型オフライン/オンライン音声翻訳システム Download PDFInfo
- Publication number
- JP2016527587A JP2016527587A JP2016513973A JP2016513973A JP2016527587A JP 2016527587 A JP2016527587 A JP 2016527587A JP 2016513973 A JP2016513973 A JP 2016513973A JP 2016513973 A JP2016513973 A JP 2016513973A JP 2016527587 A JP2016527587 A JP 2016527587A
- Authority
- JP
- Japan
- Prior art keywords
- language
- computing device
- client computing
- translation
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 313
- 230000007704 transition Effects 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000014616 translation Effects 0.000 claims description 310
- 230000015572 biosynthetic process Effects 0.000 claims description 39
- 238000003786 synthesis reaction Methods 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 31
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 3
- 239000004568 cement Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 11
- 238000013461 design Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
− バックエンド音声翻訳サーバ・システムと、
− 無線ネットワークを通じてバックエンド音声翻訳サーバ・システムと通信するように構成されたクライアント・コンピューティング・デバイスとを備え、クライアント・コンピューティング・デバイスは、
− マイクロホンと、
− マイクロホンに接続されたプロセッサと、
− プロセッサに接続され、プロセッサによって実行される命令を記憶するメモリと、
− プロセッサに接続されたスピーカとを備え、
− クライアント・コンピューティング・デバイスは、第1の言語から第2の言語への入力語句の翻訳をスピーカを通じて出力するためのものであり、
− メモリは命令を記憶し、その命令によって、
第1の動作モードにおいて、プロセッサが命令を実行するとき、プロセッサが入力語句をユーザに出力するために第2の言語に翻訳し、
第2の動作モードにおいて、
− クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスが受信した第1の言語の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信し、
− バックエンド音声翻訳サーバ・システムは、無線ネットワークを通じてクライア
ント・コンピューティング・デバイスから受信したデータに基づいて、第1の言語の入力語句の第2の言語への翻訳を決定し、
− バックエンド音声翻訳システムは、第1の言語による入力語句の第2の言語への翻訳に関するデータを、無線ネットワークを通じてクライアント・コンピューティング・デバイスに送信し、クライアント・コンピューティング・デバイスは、第1の言語の入力語句の第2の言語への翻訳を出力する。
− クライアント・コンピューティング・デバイスのマイクロホンによって取り込まれた入力音声発話、およびクライアント・コンピューティング・デバイスのユーザ・インターフェイス上のテキスト入力フィールドを通じて入力されたテキストのうちの1つによって、クライアント・コンピューティングに入力される。
本発明の音声翻訳システムでは、クライアント・コンピューティング・デバイスは、第1の動作モードにおいて、第1の言語による音声発話を認識し、認識した音声発話を第2の言語に翻訳し、クライアント・コンピューティング・デバイスのスピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶できる。
ローカル言語モデルをバックエンド言語モデルとは異なるものにすることができ、
ローカル翻訳モデルをバックエンド翻訳モデルとは異なるものにすることができ、
ローカル音声合成モデルをバックエンド音声合成モデルとは異なるものにすることができる。
ィング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを更新するようにプログラムされることが可能であり、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つに対する更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信される。
さらに、バックエンド音声翻訳サーバ・システムは、クライアント・コンピューティング・デバイスの位置に基づいて、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを更新するようにプログラムされることが可能であり、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つ対する更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信される。
− 第1の動作モードにおいて、
− クライアント・コンピューティング・デバイスが第1の言語による第1の入力語句を受信する工程と、
− クライアント・コンピューティング・デバイスが第1の入力語句を第2の言語に翻訳する工程と、
− クライアント・コンピューティング・デバイスが第2の言語による第1の入力語句を出力する工程と、を備え、
− クライアント・コンピューティング・デバイスが第1の動作モードから第2の動作モードに遷移する工程とを備え、
− 第2の動作モードにおいて、
− クライアント・コンピューティング・デバイスが第1の言語による第2の入力語
句を受信する工程と、
− クライアント・コンピューティング・デバイスが、第2の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信する工程と、
− クライアント・コンピューティング・デバイスが、バックエンド音声翻訳サーバ・システムによる第1の言語から第2の言語への第2の入力語句の翻訳に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムから受信する工程と、
− クライアント・コンピューティング・デバイスが第2の言語による第2の入力語句を出力する工程とを備える。
− バックエンド音声翻訳サーバ・システムが、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視する工程と、
− バックエンド音声翻訳サーバ・システムが、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話の経時的な監視に基づいて、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを更新し、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つに対する更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信される工程とを備える。
− クライアント・コンピューティング・デバイスがクライアント・コンピューティング・デバイスの位置を決定する工程と、
− クライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能であるときに、クライアント・コンピューティング・デバイスが、決定されたクライアント・コンピューティング・デバイスの位置に基づいて言語翻訳ペア用のアプリケーション・ソフトウェアをダウン
ロードする工程とを備えることができる。
− 第1の言語表示セクションおよび第2の言語表示セクションの各々が、ユーザがアクセスできる複数の言語のリスト表示を備えることができる。
本明細書では、本発明のさまざまな実施形態は、以下の図面に関連する例を用いて説明される。
802.11WLAN規格を使用する無線LAN(WLAN)などの任意の適切な無線ネットワーク(例えば、WiFiネットワーク)にすることができる。無線ネットワーク
14は、3Gまたは4G LTE携帯電話移動体通信ネットワークなどの移動体通信ネットワークを備えることもできるが、その他の適切な無線ネットワークが使用されることも可能である。無線ネットワーク14は、アクセス・ポイントまたは基地局を通じてなど、インターネット15への接続を提供することが望ましい。バックエンド音声翻訳サーバ・システム16およびアプリストア18は、インターネット15に接続され、無線ネットワーク14を通じてクライアント・コンピューティング・デバイス12と通信する。
ンプルまたは特徴ベクトルを含むデータとして、無線ネットワーク14を通じてバックエンド音声翻訳サーバ・システム16に送信できる。バックエンド音声翻訳サーバ・システム16は、受信された入力データに基づいて、音声発話を選択された第2の言語に翻訳し、翻訳のデータ表現を、処理、合成、およびクライアント・コンピューティング・デバイス12のスピーカを通じて音声出力するために、無線ネットワーク14を通じてクライアント・コンピューティング・デバイス12に返送する。
無線ネットワーク14を通じて翻訳データをクライアント・コンピューティング・デバイス12に返送し、工程79で、クライアント・コンピューティング・デバイス12(例えば、それのスピーカ)は、入力発話の第2の言語による翻訳を音声出力できる。工程72でオフライン・モードが使用されている場合、工程78でクライアント・コンピューティング・デバイス12は、メモリに記憶されたダウンロード済みのオフライン音声翻訳ソフトウェアを実行して発話を第2の言語に翻訳し、その翻訳が工程79で出力される。
るスクリーンのタッチを表す信号の形式にすることができる。音声コーデック・モジュール224は、音声信号をデコーディングおよび再生するためのハードウェアおよび/またはソフトウェアを提供できる。一部の実施形態では、コーデック224はデジタル・アナログ変換器を備えることもできる。音声出力信号は、音声出力信号を再生するために、デバイスのスピーカ16、ならびに/もしくは一連のヘッドホンおよび/またはスピーカを接続できるジャック(図に示されていない)に供給されることが可能である。音声入力信号は、デバイスのマイクロホン18を通じて供給されることが可能である。デバイスは、デジタル・カメラ240を備えることもできる。
サは、メモリに記憶されたアプリ・ソフトウェアを実行し、コスト(例えば、ローミング料金が適用されている場合、またはネットワーク接続が存在しない場合はオフライン動作モードが使用され、そうでない場合はオンライン・モードが使用される)、品質(例えば、話者に固有のオフライン・モデルやドメインに依存しない一般的なオンライン・モデルを使用するなど、より適切な翻訳モデル、音響モデル、または言語モデル)、位置(例えば、GPSシステム222によって決定されるGPS座標に基づく)、プライバシー(例えば、セキュリティで保護された無線ネットワークが使用可能な場合にのみオンライン・モードを使用する)、および/または時間(例えば、指定された時間帯では指定されたモードを使用する)などの、その他の要因に基づいて、オンライン動作モードとオフライン動作モードとの間で自動的に切り替えることができる。さまざまな実施形態では、クライアント・コンピューティング・デバイス14のユーザは、設定することによってアプリを構成し、オンライン動作モードとオフライン動作モードとの間で自動的に遷移するために適用可能な条件を定めることができる。例えば、さまざまな実施形態では、ユーザは、常にオフライン・モードを使用すること(この場合、オンライン・モードは使用されない)、最も速いサービスを優先すること(この場合、無線ネットワークの接続速度がしきい値を超えた場合にのみオンライン・モードが使用される)、最も正確な翻訳(この場合、使用可能であれば必ずオンライン・モードが使用される)、コストを制限すること(この場合、例えば、ローミング料金が適用可され得る場合にオフライン・モードが使用される)を選択できる。そのようなユーザの選択は、プライバシー(データ転送)、品質(音声翻訳モデルのサイズおよび性能)、またはコスト(データ・ローミング)に関する考慮による影響を受ける可能性がある。
るかどうかをユーザに尋ね、ユーザによって確認された場合に、ダウンロードを開始する。
的モデルのうち、この語彙によってカバーされる部分のみを選択すること、またはユーザ固有の情報をユーザのクエリから自動的に収集し、一般的モデルのうち、ユーザのクエリに密接に関連する部分を選択することによって実行されることが可能である。一方、拡張は、ユーザ固有の情報(例えば、ユーザの話し方に基づく)および/またはドメイン固有の情報(例えば、観光や人道支援での使用)および/または状況固有の情報(例えば、GPS位置に基づく)および/または、サーバ上の上記の固有の情報のいずれにも関連しない一般的な情報を選択し、この(差分)情報のみをサーバからデバイスに転送し、この情報をデバイスに記憶されたベース・モデルに適用することによって、実行されることが可能である。
ント・コンピューティング・デバイス12上で音声間翻訳を実行する際のオフライン・システムの速度を維持するために、いくつかの手法が使用されることが可能である。例えば、一実施形態では、モデルと入力音声との間のマハラノビス距離を計算するために、必要に応じてこの距離を計算するのではなく、モデルのサイズに応じてルックアップ・テーブルが使用されることが可能である。さらに、オフライン・モードにおいて、評価される必要のあるモデル・パラメータ全体の量を減らすために、ガウス選択手法が使用されることが可能である。図6に関連して前述したように、ユーザ固有の情報が使用可能になるとすぐに、より小さくより効率的なユーザ固有のモデルが代わりに使用されることが可能になる。
ン・システムの学習用に、複数のASRエンジンの認識の仮説および/または複数のMTエンジンの翻訳の仮説をメモリに保持し、これらの仮説の組み合わせ、またはこれらの仮説のうちのより優れた仮説を使用して、新しいオフライン・システムを適応またはトレーニングする。このように再トレーニングまたは適応されたシステムは、その後、無線ネットワークが使用可能になったときに、オフライン・システムと交換されることが可能である。
の少なくとも1つを、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話の経時的な監視に基づいて更新するようにプログラムされることが可能である。クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスの位置を決定するためのGPSシステムを備えることもできる。そのような実施形態では、バックエンド音声翻訳サーバ・システムは、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを、クライアント・コンピューティング・デバイスの位置に基づいて更新するようにプログラムされることも可能である。クライアント・コンピューティング・デバイスのモデルのうちの少なくとも1つに対するそのような任意の更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信されることが可能である。
句を受信する工程と、(ii)クライアント・コンピューティング・デバイスが第1の入力語句を第2の言語に翻訳する工程と、(iii)クライアント・コンピューティング・デバイスが第2の言語による第1の音声発話を(例えば、スピーカを通じて音声によって、かつ/またはテキスト表示フィールドを通じて視覚的に)出力する工程とを備える。さらに音声翻訳方法は、クライアント・コンピューティング・デバイスが第1の動作モードから第2の動作モードに遷移する工程を備え、第2の(オンライン)動作モードにおいて、(iv)クライアント・コンピューティング・デバイスが第1の言語による第2の入力語句を受信する工程と、(v)クライアント・コンピューティング・デバイスが第2の入力語句に関するデータを無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信する工程と、(vi)クライアント・コンピューティング・デバイスが、バックエンド音声翻訳サーバ・システムによる第1の言語から第2の言語への第2の入力語句の翻訳に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムから受信する工程と、クライアント・コンピューティング・デバイスが第2の言語による第1の音声発話を出力する工程とを備える。
れた実施形態の動作に対して内部または外部に存在できると理解されることが可能である。メモリは、ハード・ディスク、光ディスク、フロッピー(登録商標)(登録商標)ディスク、ROM(読み取り専用メモリ)、RAM(ランダム・アクセス・メモリ)、PROM(プログラマブルROM)、EEPROM(電気的消去可能PROM)、および/またはその他のコンピュータ可読媒体を含む、ソフトウェアを記憶するための任意の手段も含み得る。本明細書に記載されたソフトウェア・モジュールおよびソフトウェア・エンジンは、モジュールを記憶するメモリにアクセスするコンピュータ・デバイスの1つのプロセッサ(または、場合によっては複数のプロセッサ)によって実行されることが可能である。
Claims (15)
- バックエンド音声翻訳サーバ・システムと、
無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムと通信するように構成されたクライアント・コンピューティング・デバイスとを備える音声翻訳システムであって、前記クライアント・コンピューティング・デバイスは、
マイクロホンと、
前記マイクロホンに接続されたプロセッサと、
前記プロセッサに接続され、前記プロセッサによって実行される命令を記憶するメモリと、
前記プロセッサに接続されたスピーカとを備え、
前記クライアント・コンピューティング・デバイスは、第1の言語から第2の言語への入力語句の翻訳を前記スピーカを通じて出力するためのものであり、
前記メモリが命令を記憶し、前記命令によって、
第1の動作モードにおいて、前記プロセッサが前記命令を実行するとき、前記プロセッサが前記入力語句をユーザに出力するために前記第2の言語に翻訳し、
第2の動作モードにおいて、
前記クライアント・コンピューティング・デバイスは、前記クライアント・コンピューティング・デバイスが受信した前記第1の言語による前記入力語句に関するデータを、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムに送信し、
前記バックエンド音声翻訳サーバ・システムは、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスから受信した前記データに基づいて、前記第1の言語による前記入力語句の前記第2の言語への前記翻訳を決定し、
前記バックエンド音声翻訳サーバ・システムは、前記第1の言語による前記入力語句の前記第2の言語への前記翻訳に関するデータを、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスに送信し、前記クライアント・コンピューティング・デバイスは、前記第1の言語による前記入力語句の前記第2の言語への前記翻訳を出力し、
前記クライアント・コンピューティング・デバイスは、ユーザが前記第1の動作モードと前記第2の動作モードとの間で切り替えることを可能にするユーザ・インターフェイスを備えるか、
前記クライアント・コンピューティング・デバイスは、前記無線ネットワークへの接続状態または前記クライアント・コンピューティング・デバイスに対する前記ユーザのユーザプリファレンス設定に基づいて、前記第1の動作モードまたは前記第2の動作モードのどちらを使用するかを自動的に選択するか、またはその両方が行われる、音声翻訳システム。 - 前記入力語句は、
前記クライアント・コンピューティング・デバイスの前記マイクロホンによって取り込まれた入力音声発話、および前記クライアント・コンピューティング・デバイスのユーザ・インターフェイス上のテキスト入力フィールドを通じて入力されたテキストのうちの1つによって、
前記クライアント・コンピューティングに入力される、請求項1に記載の音声翻訳システム。 - 前記クライアント・コンピューティング・デバイスはスピーカを通じて音声で前記翻訳を出力する、請求項1または2に記載の音声翻訳システム。
- 前記クライアント・コンピューティング・デバイスは、前記第1の動作モードにおいて
、前記第1の言語による前記音声発話を認識し、認識した前記音声発話を前記第2の言語に翻訳し、前記クライアント・コンピューティング・デバイスの前記スピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶し、
前記バックエンド音声翻訳サーバ・システムは、前記第2の動作モードにおいて、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスから受信した前記データに基づいて、前記第1の言語による前記音声発話の前記第2の言語への前記翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備え、
前記ローカル音響モデルは前記バックエンド音響モデルとは異なっており、
前記ローカル言語モデルは前記バックエンド言語モデルとは異なっており、
前記ローカル翻訳モデルは前記バックエンド翻訳モデルとは異なっており、
前記ローカル音声合成モデルは前記バックエンド音声合成モデルとは異なっている、請求項1〜3のいずれか1項に記載の音声翻訳システム。 - 前記バックエンド音声翻訳サーバ・システムは、
前記第1の言語から前記第2の言語に翻訳するために前記クライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視し、
前記第1の言語から前記第2の言語に翻訳するために前記クライアント・コンピューティング・デバイスが受信した音声発話の経時的な前記監視に基づいて、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの少なくとも1つを更新するようにプログラムされ、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの前記少なくとも1つに対する更新は、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムから前記クライアント・コンピューティング・デバイスに送信される、請求項1〜4のいずれか1項に記載の音声翻訳システム。 - 前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルが、前記ユーザによる翻訳クエリの解析に基づいて更新される、請求項1〜5のいずれか1項に記載の音声翻訳システム。
- 前記クライアント・コンピューティング・デバイスは、前記クライアント・コンピューティング・デバイスの位置を決定するためのGPSシステムを備え、
前記バックエンド音声翻訳サーバ・システムは、前記クライアント・コンピューティング・デバイスの前記位置に基づいて、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの少なくとも1つを更新するようにプログラムされ、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの前記少なくとも1つに対する更新は、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムから前記クライアント・コンピューティング・デバイスに送信される、請求項1〜6のいずれか1項に記載の音声翻訳システム。 - 前記バックエンド音声翻訳サーバ・システムは、複数のバックエンド音声翻訳サーバ・システムのうちの1つであり、前記クライアント・コンピューティング・デバイスは、無線ネットワークを通じて前記複数のバックエンド音声翻訳サーバ・システムの各々と通信するように構成され、
前記第2の動作モードにおいて、
前記複数のバックエンド音声翻訳サーバ・システムの各々は、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスから受信した前記データに基づいて、前記第1の言語による前記音声発話の前記第2の言語への翻訳を決定するためのものであり、
前記複数のバックエンド音声翻訳サーバ・システムのうちの1つは、前記クライアント・コンピューティング・デバイスに送信するために前記複数のバックエンド音声翻訳サーバ・システムからの前記翻訳のうちの1つを選択するか、または
前記複数のバックエンド音声翻訳サーバ・システムからの前記翻訳の2つ以上を併合し、前記クライアント・コンピューティング・デバイスに送信するための併合された翻訳を生成する、請求項1〜7のいずれか1項に記載の音声翻訳システム。 - 第1の動作モードにおいて、
クライアント・コンピューティング・デバイスが第1の言語による第1の入力語句を受信する工程と、
前記クライアント・コンピューティング・デバイスが前記第1の入力語句を第2の言語に翻訳する工程と、
前記クライアント・コンピューティング・デバイスが前記第1の入力語句を前記第2の言語で出力する工程と、
前記クライアント・コンピューティング・デバイスが前記第1の動作モードから前記第2の動作モードに遷移する、遷移工程とを備え、
前記第2の動作モードにおいて、
クライアント・コンピューティング・デバイスが第1の言語による第2の入力語句を受信する工程と、
前記クライアント・コンピューティング・デバイスが、前記第2の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信する工程と、
前記クライアント・コンピューティング・デバイスが、前記バックエンド音声翻訳サーバ・システムによる前記第1の言語から前記第2の言語への前記第2の入力語句の翻訳に関するデータを、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムから受信する工程と、
前記クライアント・コンピューティング・デバイスが前記第2の言語による前記第2の入力語句を出力する工程とを備える、音声翻訳方法。 - 前記クライアント・コンピューティング・デバイスは、前記第1の動作モードにおいて、前記第1の言語による前記入力音声発話を認識し、認識した前記入力音声発話を前記第2の言語に翻訳し、前記スピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶し、
前記バックエンド音声翻訳サーバ・システムが、前記第2の動作モードにおいて、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスから受信した前記データに基づいて前記第1の言語による前記入力音声発話の前記第2の言語への前記翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備え、
前記方法は、
前記バックエンド音声翻訳サーバ・システムが、前記第1の言語から第2の言語に翻訳するために前記クライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視する工程と、
前記バックエンド音声翻訳サーバ・システムが、前記第1の言語から前記第2の言語に翻訳するために前記クライアント・コンピューティング・デバイスが受信した音声発話の経時的な前記監視に基づいて、前記クライアント・コンピューティング・デバイスの前記
ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの少なくとも1つを更新する工程とをさらに備え、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの前記少なくとも1つに対する更新は、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムから前記クライアント・コンピューティング・デバイスに送信される、請求項9に記載の音声翻訳方法。 - 前記第1の言語および前記第2の言語を含む言語翻訳ペア用のアプリケーション・ソフトウェアを前記クライアント・コンピューティング・デバイスがダウンロードする、ダウンロード工程をさらに備える音声翻訳方法であって、特に、
前記ダウンロードする工程は、前記クライアント・コンピューティング・デバイスと前記バックエンド音声翻訳サーバ・システムとの間の適切な接続が前記無線ネットワークを通じて使用可能であるときに、前記言語翻訳ペア用の前記アプリケーション・ソフトウェアをダウンロードすることを含む、請求項1〜10のいずれか1項に記載の音声翻訳方法。 - 前記クライアント・コンピューティング・デバイスが前記クライアント・コンピューティング・デバイスの位置を決定する工程と、前記クライアント・コンピューティング・デバイスと前記バックエンド音声翻訳サーバ・システムとの間の適切な接続が前記無線ネットワークを通じて使用可能であるときに、前記クライアント・コンピューティング・デバイスが、前記クライアント・コンピューティング・デバイスの決定された前記位置に基づいて前記言語翻訳ペア用の前記アプリケーション・ソフトウェアをダウンロードする工程とをさらに備える、請求項11に記載の音声翻訳方法。
- 前記クライアント・コンピューティング・デバイスが、同時に表示される第1の言語表示セクションおよび第2の言語表示セクションを有するグラフィカル・ユーザ・インターフェイスを備え、
前記第1の言語表示セクションおよび前記第2の言語表示セクションの各々が、ユーザがアクセスできる複数の言語のリスト表示を備え、
前記方法は、前記第1の言語表示セクションの前記リスト表示からの前記第1の言語の選択、および前記第2の言語表示セクションの前記第2の言語の選択を、前記クライアント・コンピューティング・デバイスが前記グラフィカル・ユーザ・インターフェイスを通じて受け取る工程をさらに備え、それによって前記クライアント・コンピューティング・デバイスが、前記入力音声発話を前記第1の言語から前記第2の言語に翻訳するように構成される、請求項9〜12のいずれか1項に記載の音声翻訳方法。 - 前記第1の動作モードにおいて使用可能な言語は、前記グラフィカル・ユーザ・インターフェイスの前記第1の言語表示セクションおよび前記第2の言語表示セクションにおいて、前記第1の動作モードにおいて使用できない言語とは異なるように視覚的に示される、請求項13に記載の音声翻訳方法。
- 前記遷移工程は、前記クライアント・コンピューティング・デバイスのユーザ・インターフェイスを通じた入力に応答して前記第1の動作モードから前記第2の動作モードに遷移することである、請求項9〜14のいずれか1項に記載の音声翻訳方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361822629P | 2013-05-13 | 2013-05-13 | |
US61/822,629 | 2013-05-13 | ||
US13/915,820 | 2013-06-12 | ||
US13/915,820 US9430465B2 (en) | 2013-05-13 | 2013-06-12 | Hybrid, offline/online speech translation system |
PCT/US2014/036454 WO2014186143A1 (en) | 2013-05-13 | 2014-05-01 | Hybrid, offline/online speech translation system |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2016527587A true JP2016527587A (ja) | 2016-09-08 |
JP2016527587A5 JP2016527587A5 (ja) | 2016-11-24 |
JP6157725B2 JP6157725B2 (ja) | 2017-07-05 |
Family
ID=51865427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016513973A Active JP6157725B2 (ja) | 2013-05-13 | 2014-05-01 | ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 |
Country Status (10)
Country | Link |
---|---|
US (2) | US9430465B2 (ja) |
JP (1) | JP6157725B2 (ja) |
KR (1) | KR101729154B1 (ja) |
CN (1) | CN105210056B (ja) |
AU (2) | AU2014265782B2 (ja) |
BR (1) | BR112015028622A2 (ja) |
CA (1) | CA2907775C (ja) |
IL (1) | IL242230A (ja) |
MX (1) | MX348169B (ja) |
WO (1) | WO2014186143A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019111346A1 (ja) * | 2017-12-06 | 2019-06-13 | ソースネクスト株式会社 | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム |
USD897307S1 (en) | 2018-05-25 | 2020-09-29 | Sourcenext Corporation | Translator |
Families Citing this family (102)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8983825B2 (en) * | 2011-11-14 | 2015-03-17 | Amadou Sarr | Collaborative language translation system |
US20140136295A1 (en) | 2012-11-13 | 2014-05-15 | Apptio, Inc. | Dynamic recommendations taken over time for reservations of information technology resources |
US9342499B2 (en) * | 2013-03-19 | 2016-05-17 | Educational Testing Service | Round-trip translation for automated grammatical error correction |
US20150073790A1 (en) * | 2013-09-09 | 2015-03-12 | Advanced Simulation Technology, inc. ("ASTi") | Auto transcription of voice networks |
US9640173B2 (en) * | 2013-09-10 | 2017-05-02 | At&T Intellectual Property I, L.P. | System and method for intelligent language switching in automated text-to-speech systems |
JP2015060332A (ja) * | 2013-09-18 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
JP2015060423A (ja) * | 2013-09-19 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
KR101740332B1 (ko) * | 2013-11-05 | 2017-06-08 | 한국전자통신연구원 | 자동 번역 장치 및 방법 |
US20150193432A1 (en) * | 2014-01-03 | 2015-07-09 | Daniel Beckett | System for language translation |
US11244364B2 (en) | 2014-02-13 | 2022-02-08 | Apptio, Inc. | Unified modeling of technology towers |
US20150254236A1 (en) * | 2014-03-13 | 2015-09-10 | Michael Lewis Moravitz | Translation software built into internet |
US9740687B2 (en) | 2014-06-11 | 2017-08-22 | Facebook, Inc. | Classifying languages for objects and entities |
KR102292546B1 (ko) * | 2014-07-21 | 2021-08-23 | 삼성전자주식회사 | 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치 |
US9626703B2 (en) | 2014-09-16 | 2017-04-18 | Voicebox Technologies Corporation | Voice commerce |
KR102270034B1 (ko) * | 2014-09-30 | 2021-06-28 | 삼성전자주식회사 | 다수 개의 무선 억세스 인터페이스들을 지원하는 이동 통신 시스템에서 스트리밍 서비스 데이터 수신 장치 및 방법 |
US20160098994A1 (en) * | 2014-10-03 | 2016-04-07 | Speaktoit, Inc. | Cross-platform dialog system |
US10503377B2 (en) | 2014-11-24 | 2019-12-10 | Facebook, Inc. | Dynamic status indicator |
US10863354B2 (en) | 2014-11-24 | 2020-12-08 | Facebook, Inc. | Automated check-ins |
US20160150048A1 (en) * | 2014-11-24 | 2016-05-26 | Facebook, Inc. | Prefetching Location Data |
US10397346B2 (en) | 2014-11-24 | 2019-08-27 | Facebook, Inc. | Prefetching places |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US9864744B2 (en) | 2014-12-03 | 2018-01-09 | Facebook, Inc. | Mining multi-lingual data |
US20160188292A1 (en) * | 2014-12-30 | 2016-06-30 | Voicebox Technologies Corporation | System and method for interpreting natural language inputs based on storage of the inputs |
US9830386B2 (en) | 2014-12-30 | 2017-11-28 | Facebook, Inc. | Determining trending topics in social media |
US9830404B2 (en) | 2014-12-30 | 2017-11-28 | Facebook, Inc. | Analyzing language dependency structures |
US10067936B2 (en) | 2014-12-30 | 2018-09-04 | Facebook, Inc. | Machine translation output reranking |
CN106901778A (zh) * | 2015-02-12 | 2017-06-30 | 无锡海斯凯尔医学技术有限公司 | 弹性检测设备的数据分析处理方法及弹性检测设备 |
US9477652B2 (en) | 2015-02-13 | 2016-10-25 | Facebook, Inc. | Machine learning dialect identification |
US9966073B2 (en) * | 2015-05-27 | 2018-05-08 | Google Llc | Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device |
US10083697B2 (en) | 2015-05-27 | 2018-09-25 | Google Llc | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
US9922138B2 (en) * | 2015-05-27 | 2018-03-20 | Google Llc | Dynamically updatable offline grammar model for resource-constrained offline device |
CN104916283A (zh) * | 2015-06-11 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN104965426A (zh) | 2015-06-24 | 2015-10-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能机器人控制系统、方法和装置 |
US11151493B2 (en) | 2015-06-30 | 2021-10-19 | Apptio, Inc. | Infrastructure benchmarking based on dynamic cost modeling |
CN104992704B (zh) * | 2015-07-15 | 2017-06-20 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
KR101718987B1 (ko) * | 2015-07-21 | 2017-03-22 | 김택진 | 보안기능을 갖는 단말기 |
WO2017037882A1 (ja) * | 2015-09-02 | 2017-03-09 | 三菱電機株式会社 | リモートコントローラ |
US9734142B2 (en) | 2015-09-22 | 2017-08-15 | Facebook, Inc. | Universal translation |
US10185713B1 (en) * | 2015-09-28 | 2019-01-22 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US10268684B1 (en) * | 2015-09-28 | 2019-04-23 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US9959271B1 (en) | 2015-09-28 | 2018-05-01 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US10387815B2 (en) | 2015-09-29 | 2019-08-20 | Apptio, Inc. | Continuously variable resolution of resource allocation |
US10133738B2 (en) | 2015-12-14 | 2018-11-20 | Facebook, Inc. | Translation confidence scores |
US9734143B2 (en) | 2015-12-17 | 2017-08-15 | Facebook, Inc. | Multi-media context language processing |
US9805029B2 (en) | 2015-12-28 | 2017-10-31 | Facebook, Inc. | Predicting future translations |
US10726367B2 (en) * | 2015-12-28 | 2020-07-28 | Apptio, Inc. | Resource allocation forecasting |
US10002125B2 (en) | 2015-12-28 | 2018-06-19 | Facebook, Inc. | Language model personalization |
US9747283B2 (en) | 2015-12-28 | 2017-08-29 | Facebook, Inc. | Predicting future translations |
WO2017130795A1 (ja) * | 2016-01-26 | 2017-08-03 | ヤマハ株式会社 | 端末装置、情報提供方法およびプログラム |
US9836527B2 (en) * | 2016-02-24 | 2017-12-05 | Google Llc | Customized query-action mappings for an offline grammar model |
CN205644540U (zh) * | 2016-02-24 | 2016-10-12 | 苏州龙诺法智能科技有限公司 | 智能会议翻译系统 |
US10127228B2 (en) * | 2016-04-13 | 2018-11-13 | Google Llc | Techniques for proactively providing translated text to a traveling user |
US10902221B1 (en) | 2016-06-30 | 2021-01-26 | Facebook, Inc. | Social hash for language models |
US10902215B1 (en) | 2016-06-30 | 2021-01-26 | Facebook, Inc. | Social hash for language models |
CN205942689U (zh) * | 2016-07-02 | 2017-02-08 | 苏州龙诺法智能科技有限公司 | 智能随身翻译器 |
US20170039190A1 (en) * | 2016-08-05 | 2017-02-09 | Joseph Ricardo | Two Way (+) Language Translation Communication Technology |
US11115463B2 (en) * | 2016-08-17 | 2021-09-07 | Microsoft Technology Licensing, Llc | Remote and local predictions |
US10474974B2 (en) | 2016-09-08 | 2019-11-12 | Apptio, Inc. | Reciprocal models for resource allocation |
KR101917648B1 (ko) * | 2016-09-08 | 2018-11-13 | 주식회사 하이퍼커넥트 | 단말 및 그 제어 방법 |
US10936978B2 (en) | 2016-09-20 | 2021-03-02 | Apptio, Inc. | Models for visualizing resource allocation |
US9747282B1 (en) * | 2016-09-27 | 2017-08-29 | Doppler Labs, Inc. | Translation with conversational overlap |
US10191903B2 (en) | 2016-09-30 | 2019-01-29 | Microsoft Technology Licensing, Llc | Customized and contextual translated content for travelers |
JP6767046B2 (ja) * | 2016-11-08 | 2020-10-14 | 国立研究開発法人情報通信研究機構 | 音声対話システム、音声対話装置、ユーザー端末、および音声対話方法 |
US10482407B2 (en) | 2016-11-14 | 2019-11-19 | Apptio, Inc. | Identifying resource allocation discrepancies |
KR20180070970A (ko) | 2016-12-19 | 2018-06-27 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
US10971157B2 (en) * | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
CN107039032A (zh) * | 2017-04-19 | 2017-08-11 | 上海木爷机器人技术有限公司 | 一种语音合成处理方法及装置 |
US10417349B2 (en) * | 2017-06-14 | 2019-09-17 | Microsoft Technology Licensing, Llc | Customized multi-device translated and transcribed conversations |
CN107424607B (zh) * | 2017-07-04 | 2023-06-06 | 珠海格力电器股份有限公司 | 语音控制模式切换方法、装置及具有该装置的设备 |
US20190043509A1 (en) * | 2017-08-04 | 2019-02-07 | Cirrus Logic International Semiconductor Ltd. | Audio privacy based on user identification |
KR101999779B1 (ko) * | 2017-09-12 | 2019-10-21 | (주)한컴인터프리 | 통역방법 |
KR101959439B1 (ko) * | 2017-09-12 | 2019-03-18 | (주)한컴인터프리 | 통역방법 |
US10380249B2 (en) | 2017-10-02 | 2019-08-13 | Facebook, Inc. | Predicting future trending topics |
US11328130B2 (en) * | 2017-11-06 | 2022-05-10 | Orion Labs, Inc. | Translational bot for group communication |
DE102017220266B3 (de) | 2017-11-14 | 2018-12-13 | Audi Ag | Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug |
US11775552B2 (en) | 2017-12-29 | 2023-10-03 | Apptio, Inc. | Binding annotations to data objects |
US11170762B2 (en) | 2018-01-04 | 2021-11-09 | Google Llc | Learning offline voice commands based on usage of online voice commands |
CN108304391A (zh) * | 2018-01-25 | 2018-07-20 | 芜湖应天光电科技有限责任公司 | 一种基于gps定位的自适应翻译机 |
US10636423B2 (en) | 2018-02-21 | 2020-04-28 | Motorola Solutions, Inc. | System and method for managing speech recognition |
CN108491397A (zh) * | 2018-03-26 | 2018-09-04 | 安阳师范学院 | 一种英语翻译电子系统 |
CN110648657B (zh) * | 2018-06-27 | 2024-02-02 | 北京搜狗科技发展有限公司 | 一种语言模型训练方法、构建方法和装置 |
US10896675B1 (en) | 2018-06-29 | 2021-01-19 | X Development Llc | Multi-tiered command processing |
CN109036379B (zh) * | 2018-09-06 | 2021-06-11 | 百度时代网络技术(北京)有限公司 | 语音识别方法、设备及存储介质 |
CN109088995B (zh) * | 2018-10-17 | 2020-11-13 | 永德利硅橡胶科技(深圳)有限公司 | 支持全球语言翻译的方法及手机 |
KR20200046188A (ko) * | 2018-10-19 | 2020-05-07 | 삼성전자주식회사 | 인공 지능 모델을 재구성하기 위한 전자 장치 및 그의 제어 방법 |
US11475875B2 (en) * | 2018-10-26 | 2022-10-18 | Sriram Chakravarthy | Method and system for implementing language neutral virtual assistant |
EP3685374B1 (en) * | 2018-12-14 | 2021-04-07 | Google LLC | Generation of a voice-based interface |
CN110021291B (zh) * | 2018-12-26 | 2021-01-29 | 创新先进技术有限公司 | 一种语音合成文件的调用方法及装置 |
KR102182720B1 (ko) * | 2019-05-16 | 2020-11-24 | 주식회사 포콘스 | 역할 전환 기능을 갖는 이어셋을 이용한 통역방법 |
EP3931826A4 (en) | 2019-08-13 | 2022-05-11 | Samsung Electronics Co., Ltd. | SERVER SUPPORTING VOICE RECOGNITION OF A DEVICE AND METHOD OF OPERATING THE SERVER |
WO2021029643A1 (en) | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
EP3980991B1 (en) | 2019-08-13 | 2024-01-03 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
CN111105795B (zh) * | 2019-12-16 | 2022-12-16 | 青岛海信智慧生活科技股份有限公司 | 一种智能家居训练离线语音固件的方法及装置 |
CN111144128B (zh) * | 2019-12-26 | 2023-07-25 | 北京百度网讯科技有限公司 | 语义解析方法和装置 |
WO2021184249A1 (en) * | 2020-03-18 | 2021-09-23 | Citrix Systems, Inc. | Machine translation of digital content |
CN112100352A (zh) * | 2020-09-14 | 2020-12-18 | 北京百度网讯科技有限公司 | 与虚拟对象的对话方法、装置、客户端及存储介质 |
US11568858B2 (en) * | 2020-10-17 | 2023-01-31 | International Business Machines Corporation | Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings |
JP7333371B2 (ja) * | 2021-01-05 | 2023-08-24 | エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート | 話者分離基盤の自動通訳方法、話者分離基盤の自動通訳サービスを提供するユーザ端末、及び、話者分離基盤の自動通訳サービス提供システム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108555A (ja) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | 機械翻訳端末装置、機械翻訳システム、機械翻訳端末装置の制御方法、機械翻訳システムの制御方法、機械翻訳端末装置の制御プログラム及び記録媒体 |
JP2006099296A (ja) * | 2004-09-29 | 2006-04-13 | Nec Corp | 翻訳システム、翻訳通信システム、機械翻訳方法、および、プログラム |
Family Cites Families (85)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3176059B2 (ja) * | 1990-11-15 | 2001-06-11 | キヤノン株式会社 | 翻訳装置 |
US5497319A (en) * | 1990-12-31 | 1996-03-05 | Trans-Link International Corp. | Machine translation and telecommunications system |
JPH10198680A (ja) * | 1997-01-07 | 1998-07-31 | Hitachi Ltd | 分散辞書管理方法及びそれを用いた機械翻訳方法 |
US6161082A (en) * | 1997-11-18 | 2000-12-12 | At&T Corp | Network based language translation system |
US6901367B1 (en) * | 1999-01-28 | 2005-05-31 | International Business Machines Corporation | Front end translation mechanism for received communication |
US6385586B1 (en) * | 1999-01-28 | 2002-05-07 | International Business Machines Corporation | Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US6438515B1 (en) * | 1999-06-28 | 2002-08-20 | Richard Henry Dana Crawford | Bitextual, bifocal language learning system |
GB2352933A (en) * | 1999-07-31 | 2001-02-07 | Ibm | Speech encoding in a client server system |
US7110938B1 (en) * | 1999-09-17 | 2006-09-19 | Trados, Inc. | E-services translation portal system |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6490547B1 (en) * | 1999-12-07 | 2002-12-03 | International Business Machines Corporation | Just in time localization |
AUPQ539700A0 (en) * | 2000-02-02 | 2000-02-24 | Worldlingo.Com Pty Ltd | Translation ordering system |
EP1277332A4 (en) | 2000-04-07 | 2004-06-02 | Ilan Cohen | PROCEDURE FOR VOICE-ACTIVATED NETWORK ACCESS |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
JP2003010855A (ja) | 2001-06-27 | 2003-01-14 | Mamoru Osawa | 磁力応用活水器 |
GB2378275B (en) * | 2001-07-31 | 2005-06-22 | Hewlett Packard Co | Distributed metadata processing system |
JP3980331B2 (ja) * | 2001-11-20 | 2007-09-26 | 株式会社エビデンス | 多言語間会話支援システム |
US8498871B2 (en) * | 2001-11-27 | 2013-07-30 | Advanced Voice Recognition Systems, Inc. | Dynamic speech recognition and transcription among users having heterogeneous protocols |
US7272377B2 (en) * | 2002-02-07 | 2007-09-18 | At&T Corp. | System and method of ubiquitous language translation for wireless devices |
GB0204246D0 (en) * | 2002-02-22 | 2002-04-10 | Mitel Knowledge Corp | System and method for message language translation |
JP3959453B2 (ja) * | 2002-03-14 | 2007-08-15 | 沖電気工業株式会社 | 翻訳仲介システム及び翻訳仲介サーバ |
US7359861B2 (en) * | 2002-04-24 | 2008-04-15 | Polyglot Systems, Inc. | Inter-language translation device |
US7590534B2 (en) * | 2002-05-09 | 2009-09-15 | Healthsense, Inc. | Method and apparatus for processing voice data |
US20030236671A1 (en) * | 2002-06-20 | 2003-12-25 | Deere & Company | System and method of loadable languages for implement monitoring display |
US20040049374A1 (en) * | 2002-09-05 | 2004-03-11 | International Business Machines Corporation | Translation aid for multilingual Web sites |
US20040102957A1 (en) * | 2002-11-22 | 2004-05-27 | Levin Robert E. | System and method for speech translation using remote devices |
US20050227768A1 (en) * | 2003-05-27 | 2005-10-13 | Blackburn Christopher W | Gaming network environment having a language translation service |
US7539619B1 (en) * | 2003-09-05 | 2009-05-26 | Spoken Translation Ind. | Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy |
US7983896B2 (en) * | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US20050234700A1 (en) * | 2004-04-15 | 2005-10-20 | International Business Machines Corporation | Autonomic method, system and program product for translating content |
US7403898B2 (en) * | 2004-08-20 | 2008-07-22 | At&T Delaware Intellectual Property, Inc., | Methods, systems, and storage mediums for implementing voice-commanded computer functions |
US8249854B2 (en) * | 2005-05-26 | 2012-08-21 | Microsoft Corporation | Integrated native language translation |
US7996228B2 (en) * | 2005-12-22 | 2011-08-09 | Microsoft Corporation | Voice initiated network operations |
EP1983445B1 (en) * | 2006-02-17 | 2018-12-26 | Google LLC | Encoding and adaptive, scalable accessing of distributed models |
US20070219782A1 (en) * | 2006-03-14 | 2007-09-20 | Qing Li | User-supported multi-language online dictionary |
US8275602B2 (en) * | 2006-04-21 | 2012-09-25 | Scomm, Inc. | Interactive conversational speech communicator method and system |
US8849653B2 (en) * | 2006-05-09 | 2014-09-30 | International Business Machines Corporation | Updating dictionary during application installation |
US8898052B2 (en) | 2006-05-22 | 2014-11-25 | Facebook, Inc. | Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer |
US20080077384A1 (en) * | 2006-09-22 | 2008-03-27 | International Business Machines Corporation | Dynamically translating a software application to a user selected target language that is not natively provided by the software application |
KR100834549B1 (ko) * | 2006-10-19 | 2008-06-02 | 한국전자통신연구원 | 번역 시스템 및 번역 서비스 제공방법 |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US8090570B2 (en) | 2006-10-26 | 2012-01-03 | Mobile Technologies, Llc | Simultaneous translation of open domain lectures and speeches |
US9128926B2 (en) | 2006-10-26 | 2015-09-08 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
WO2008066836A1 (en) | 2006-11-28 | 2008-06-05 | Treyex Llc | Method and apparatus for translating speech during a call |
US8155947B2 (en) * | 2006-11-29 | 2012-04-10 | Ubiquity Broadcasting Corporation | Multilingual translation system using character set |
US8700998B2 (en) * | 2006-11-30 | 2014-04-15 | Red Hat, Inc. | Foreign language translation tool |
US20080221862A1 (en) * | 2007-03-09 | 2008-09-11 | Yahoo! Inc. | Mobile language interpreter with localization |
US7895030B2 (en) * | 2007-03-16 | 2011-02-22 | International Business Machines Corporation | Visualization method for machine translation |
TWI502380B (zh) * | 2007-03-29 | 2015-10-01 | Nokia Corp | 配合預測式本文輸入使用之方法、裝置、伺服器、系統及電腦程式產品 |
US8825468B2 (en) * | 2007-07-31 | 2014-09-02 | Kopin Corporation | Mobile wireless display providing speech to speech translation and avatar simulating human attributes |
US20090043562A1 (en) * | 2007-08-08 | 2009-02-12 | Vinay Vishwas Peshave | Method and apparatus for receiving and displaying a short message in a user preferred language |
US20090177462A1 (en) * | 2008-01-03 | 2009-07-09 | Sony Ericsson Mobile Communications Ab | Wireless terminals, language translation servers, and methods for translating speech between languages |
US8473276B2 (en) * | 2008-02-19 | 2013-06-25 | Google Inc. | Universal language input |
WO2009129315A1 (en) | 2008-04-15 | 2009-10-22 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
US20100030549A1 (en) * | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8019608B2 (en) * | 2008-08-29 | 2011-09-13 | Multimodal Technologies, Inc. | Distributed speech recognition using one way communication |
US9323854B2 (en) * | 2008-12-19 | 2016-04-26 | Intel Corporation | Method, apparatus and system for location assisted translation |
US8868430B2 (en) * | 2009-01-16 | 2014-10-21 | Sony Corporation | Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals |
GB2468278A (en) * | 2009-03-02 | 2010-09-08 | Sdl Plc | Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation |
US8423353B2 (en) * | 2009-03-25 | 2013-04-16 | Microsoft Corporation | Sharable distributed dictionary for applications |
US8478579B2 (en) * | 2009-05-05 | 2013-07-02 | Google Inc. | Conditional translation header for translation of web documents |
US8892439B2 (en) * | 2009-07-15 | 2014-11-18 | Microsoft Corporation | Combination and federation of local and remote speech recognition |
US8990064B2 (en) * | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US20110030724A1 (en) * | 2009-08-04 | 2011-02-10 | Gus Alexander | Multifunction Pressure Washer |
EP2486852B1 (en) * | 2009-10-07 | 2014-04-09 | Asahi Polyslider Company, Limited | Lancing device |
US20110282647A1 (en) * | 2010-05-12 | 2011-11-17 | IQTRANSLATE.COM S.r.l. | Translation System and Method |
US8386235B2 (en) * | 2010-05-20 | 2013-02-26 | Acosys Limited | Collaborative translation system and method |
US8775156B2 (en) * | 2010-08-05 | 2014-07-08 | Google Inc. | Translating languages in response to device motion |
US8468010B2 (en) | 2010-09-24 | 2013-06-18 | Damaka, Inc. | System and method for language translation in a hybrid peer-to-peer environment |
JP5017441B2 (ja) * | 2010-10-28 | 2012-09-05 | 株式会社東芝 | 携帯型電子機器 |
US10467348B2 (en) * | 2010-10-31 | 2019-11-05 | Speech Morphing Systems, Inc. | Speech morphing communication system |
KR20120050153A (ko) | 2010-11-10 | 2012-05-18 | 임권세 | 멀티미디어 플레이어 제공 장치 및 방법 |
US9002696B2 (en) * | 2010-11-30 | 2015-04-07 | International Business Machines Corporation | Data security system for natural language translation |
US10244500B2 (en) * | 2011-03-30 | 2019-03-26 | Wei Lu | Open wireless architecture (OWA) mobile cloud infrastructure and method |
US9015030B2 (en) * | 2011-04-15 | 2015-04-21 | International Business Machines Corporation | Translating prompt and user input |
US8805672B2 (en) * | 2011-06-30 | 2014-08-12 | International Business Machines Corporation | Translation cache prediction |
US20130030789A1 (en) * | 2011-07-29 | 2013-01-31 | Reginald Dalce | Universal Language Translator |
US8983825B2 (en) * | 2011-11-14 | 2015-03-17 | Amadou Sarr | Collaborative language translation system |
US20130138421A1 (en) * | 2011-11-28 | 2013-05-30 | Micromass Uk Limited | Automatic Human Language Translation |
US8903708B2 (en) * | 2012-02-10 | 2014-12-02 | Microsoft Corporation | Analyzing restaurant menus in view of consumer preferences |
US9087046B2 (en) * | 2012-09-18 | 2015-07-21 | Abbyy Development Llc | Swiping action for displaying a translation of a textual image |
US9183198B2 (en) * | 2013-03-19 | 2015-11-10 | International Business Machines Corporation | Customizable and low-latency interactive computer-aided translation |
US20150120296A1 (en) * | 2013-10-29 | 2015-04-30 | At&T Intellectual Property I, L.P. | System and method for selecting network-based versus embedded speech processing |
US10133738B2 (en) * | 2015-12-14 | 2018-11-20 | Facebook, Inc. | Translation confidence scores |
-
2013
- 2013-06-12 US US13/915,820 patent/US9430465B2/en active Active
-
2014
- 2014-05-01 AU AU2014265782A patent/AU2014265782B2/en not_active Ceased
- 2014-05-01 KR KR1020157030930A patent/KR101729154B1/ko active IP Right Grant
- 2014-05-01 WO PCT/US2014/036454 patent/WO2014186143A1/en active Application Filing
- 2014-05-01 CN CN201480027313.4A patent/CN105210056B/zh active Active
- 2014-05-01 BR BR112015028622A patent/BR112015028622A2/pt not_active Application Discontinuation
- 2014-05-01 CA CA2907775A patent/CA2907775C/en not_active Expired - Fee Related
- 2014-05-01 MX MX2015015799A patent/MX348169B/es active IP Right Grant
- 2014-05-01 JP JP2016513973A patent/JP6157725B2/ja active Active
-
2015
- 2015-10-22 IL IL242230A patent/IL242230A/en active IP Right Grant
-
2016
- 2016-08-26 US US15/249,068 patent/US10331794B2/en active Active
-
2017
- 2017-08-04 AU AU2017210631A patent/AU2017210631B2/en not_active Ceased
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108555A (ja) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | 機械翻訳端末装置、機械翻訳システム、機械翻訳端末装置の制御方法、機械翻訳システムの制御方法、機械翻訳端末装置の制御プログラム及び記録媒体 |
JP2006099296A (ja) * | 2004-09-29 | 2006-04-13 | Nec Corp | 翻訳システム、翻訳通信システム、機械翻訳方法、および、プログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019111346A1 (ja) * | 2017-12-06 | 2019-06-13 | ソースネクスト株式会社 | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム |
JPWO2019111346A1 (ja) * | 2017-12-06 | 2020-10-22 | ソースネクスト株式会社 | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム |
USD897307S1 (en) | 2018-05-25 | 2020-09-29 | Sourcenext Corporation | Translator |
Also Published As
Publication number | Publication date |
---|---|
CN105210056B (zh) | 2018-02-09 |
KR20160006682A (ko) | 2016-01-19 |
CA2907775C (en) | 2018-06-12 |
WO2014186143A1 (en) | 2014-11-20 |
CN105210056A (zh) | 2015-12-30 |
BR112015028622A2 (pt) | 2017-07-25 |
KR101729154B1 (ko) | 2017-04-21 |
US20160364385A1 (en) | 2016-12-15 |
CA2907775A1 (en) | 2014-11-20 |
IL242230A (en) | 2017-04-30 |
MX2015015799A (es) | 2016-03-09 |
AU2014265782A1 (en) | 2015-10-15 |
AU2014265782B2 (en) | 2017-05-04 |
US9430465B2 (en) | 2016-08-30 |
JP6157725B2 (ja) | 2017-07-05 |
AU2017210631A1 (en) | 2017-08-24 |
MX348169B (es) | 2017-05-31 |
AU2017210631B2 (en) | 2019-06-13 |
US20140337007A1 (en) | 2014-11-13 |
US10331794B2 (en) | 2019-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6157725B2 (ja) | ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 | |
EP3096226B1 (en) | Conversation processing method and computer device | |
EP3754651B1 (en) | Dynamic language model adaptation for generating voice-based search queries | |
US8995972B1 (en) | Automatic personal assistance between users devices | |
EP3477637B1 (en) | Integration of embedded and network speech recognizers | |
EP3385946B1 (en) | Dynamically updatable offline grammar model for resource-constrained offline device | |
CN110858481B (zh) | 用于处理用户语音话语的系统和用于操作该系统的方法 | |
KR20190006403A (ko) | 음성 처리 방법 및 이를 지원하는 시스템 | |
KR20180121758A (ko) | 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법 | |
EP2804113A2 (en) | Hybrid, offline/online speech translation system | |
US10191903B2 (en) | Customized and contextual translated content for travelers | |
US11551676B2 (en) | Techniques for dialog processing using contextual data | |
KR20180113075A (ko) | 프레임워크를 이용한 자연어 표현 생성 방법 및 장치 | |
KR20180108321A (ko) | 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치 | |
AU2017435621B2 (en) | Voice information processing method and device, and terminal | |
CN109389977B (zh) | 一种语音交互方法及装置 | |
WO2013063778A1 (en) | Method and apparatus for context sensing inference | |
JP6281856B2 (ja) | ローカル言語資源の補強装置及びサービス提供設備装置 | |
WO2019083602A1 (en) | PARTICIPATORY PRODUCTION BASED TRAINING FOR ORDER MATCHING | |
KR20180116731A (ko) | 사용자 발화에 대응하는 태스크를 수행하는 전자 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161005 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161005 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20161005 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20161121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170606 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6157725 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |