JP2016527587A - ハイブリッド型オフライン/オンライン音声翻訳システム - Google Patents

ハイブリッド型オフライン/オンライン音声翻訳システム Download PDF

Info

Publication number
JP2016527587A
JP2016527587A JP2016513973A JP2016513973A JP2016527587A JP 2016527587 A JP2016527587 A JP 2016527587A JP 2016513973 A JP2016513973 A JP 2016513973A JP 2016513973 A JP2016513973 A JP 2016513973A JP 2016527587 A JP2016527587 A JP 2016527587A
Authority
JP
Japan
Prior art keywords
language
computing device
client computing
translation
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016513973A
Other languages
English (en)
Other versions
JP2016527587A5 (ja
JP6157725B2 (ja
Inventor
アオキ ワイベル、ナオミ
アオキ ワイベル、ナオミ
ワイベル、アレクサンダー
フューゲン、クリスチャン
ロットマン、ケイ
Original Assignee
フェイスブック,インク.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フェイスブック,インク. filed Critical フェイスブック,インク.
Publication of JP2016527587A publication Critical patent/JP2016527587A/ja
Publication of JP2016527587A5 publication Critical patent/JP2016527587A5/ja
Application granted granted Critical
Publication of JP6157725B2 publication Critical patent/JP6157725B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

無線対応のクライアント・コンピューティング・デバイスが、オフライン・モードにおいては、入力音声発話をある言語から別の言語にローカルに翻訳し、また、無線ネットワーク接続が存在するオンライン・モードにおいては、リモート・コンピュータに翻訳を実行させ、その翻訳を無線ネットワークを通じてクライアント・コンピューティング・デバイスに返送させ、クライアント・コンピューティング・デバイスが音声で出力することを可能にするハイブリッド型音声翻訳システムである。クライアント・コンピューティング・デバイスのユーザは、モード間を遷移することができ、この遷移は、ユーザの選択またはプリファレンスに基づいて自動的に行われることも可能である。バックエンド音声翻訳サーバ・システムは、経時的なユーザ・データの解析に基づいて、オフライン・モードにおいてクライアント・コンピューティング・デバイスが使用されるさまざまな認識モデルおよび翻訳モデルに適応することができ、それによって、スケールダウンされているがバックエンド音声翻訳サーバ・システムよりも効率的かつ高速なモデルを用いて、ユーザのドメインに適応させながら、クライアント・コンピューティング・デバイスを構成することができる。

Description

ハイブリッド型オフライン/オンライン音声翻訳システムに関する。
音声間翻訳(STS:Speech−To−Speech translation)システムは、通常、2つの異なる形式、インターネットを経由したオンライン形式、またはユーザのデバイス(例えば、スマートフォンまたはその他の適切なコンピューティング・デバイス)に組み込まれたオフライン形式のいずれかで提供される。オンライン・バージョンは、大型サーバ(クラウド)上の豊富な処理リソースを利用できるというメリットを備えており、改良およびカスタマイズを可能にするデータ・フィードをサービス・プロバイダに提供する。しかし、オンライン処理は継続的なネットワーク接続を必要とするため、すべての位置で保証されることが可能であるとは限らず、ローミング・コストやプライバシー/セキュリティの問題のため、望ましくない場合がある。別の展開様式(デプロイ)として、Jibbigo音声翻訳アプリなどの音声間翻訳は、スマートフォン自体にローカルに組み込まれて動作するソフトウェアとして提供されることが可能であり、この翻訳アプリケーションを最初にダウンロードした後に、ネットワーク接続は不要である。このようなオフラインの組み込み音声翻訳機能は、ほとんどではないにしても、言語サポートが必要となる多くの実際の状況では、ネットワークが使用できなかったり、不安定であったり、高価であったりする場合があるため、望ましい展開様式である。ほとんどの旅行者は、このような接続の瞬断や喪失を、例えば、飛行機内、遠隔な地理的位置で、建物内にいる場合、あるいは、単純に外国での旅行中に関連付けられたローミング課金を避けるためにデータ・ローミングがオフにされていることによって体験する。
このような音声翻訳サービスまたは音声翻訳ソフトウェアが提供される方法は、ドメインに依存する方法で、またはドメインに依存しない方法で、そのソフトウェアがどの範囲で動作できるのか、または動作する必要があるのかということ、およびそのソフトウェアがユーザによるコンテキストに適応できるのかどうかということにも影響を与える。通常、STSシステムは、特定の利用ドメイン向けに綿密に最適化および調整された場合、そのドメインではある程度良好に動作するが、別のドメインではあまりうまく動作せず(ドメイン依存性)、あるいは、すべてのドメインで概ね同じように良好に動作することで、ドメイン非依存性を実現しようとする。これらの解決策は、いずれも、すべての具体的な状況に対して性能を制限する。
一般にユーザは、オンライン・クライアント・プログラムを、自分のコンピューティング・デバイス上で実行する。通常、このデバイスは、音声をデジタル化し、場合によってはエンコードし、その後、通信回線を経由してサンプルまたは係数をサーバに送信する。次にサーバは、計算負荷の大きい音声認識および/または翻訳を実行し、その結果を通信回線を経由してユーザに返送し、その結果はユーザのデバイス上に表示される。処理チェーンのさまざまな部分をサーバに移動させ、多少の計算作業をデバイス上で実行する各種オンライン設計が提案されている。音声認識、翻訳、および翻訳システムにおいて、ユーザのデバイスは、単にマイクロホンまたはアナログ/デジタル変換器である場合もあれば、ノイズ抑制、係数としてのエンコーディング、1つまたは複数の音声認識パス、1つまたは複数の言語処理工程などの、より複雑な機能を提供する場合もある。一方、オフライン設計は、アプリケーション全体をデバイス自体の上で組み込みアプリケーションとして実行する。すべての計算はデバイス上でローカルに実行され、使用時にクライアントとサーバとの間での送信は不要である。
通常、オンライン設計には、極めて単純なクライアントしか必要としないため、アプリケーションを非常に単純なコンピューティング・デバイス、または携帯電話機上で実行できるというメリットがあり、すべての重い計算および処理は大型コンピューティング・サーバ上で実行される。音声翻訳および機械翻訳にとって、これは、より高度な計算負荷の大きいアルゴリズムが使用され得、最新の背景情報が使用され得ることを意味する。オンライン設計には、サービスの開発者またはオペレータがサーバ上のサービスまたは機能を保守/改良することができ、ユーザが新しいシステムのバージョンをダウンロードしたりアップグレードしたりする必要がないというメリットもある。
オンライン設計のデメリットは、ネットワーク接続に決定的に依存しているという点である。ユーザが遠隔な地理的位置に移動したり旅行したりすると、接続は瞬断し、かつ/または非常に高価(ローミング)になる可能性があり、さまざまな理由で使用できなくなる可能性がある。音声翻訳システムでは、多くの場合、このような要件を受け入れることはできない。テキストまたは電子メールの送信とは異なり、音声は、情報やリアルタイム性能を損なわずに、接続の喪失に対応する音声ストリームの中断を許可することができないため、接続の一時的喪失を許容できない。そのため、オンライン設計では、使用時の継続的なリアルタイム送信を保証する必要があり、したがって継続的な接続を保証する必要がある。
本発明のさまざまな実施形態に依るハイブリッド型音声翻訳システムのブロック図。 本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのユーザが所望の言語翻訳ペアを選択し、オフライン・モードからオンライン・モードへ、およびオンライン・モードからオフライン・モードへ遷移できるグラフィカル・ユーザ・インターフェイスの例示のスクリーンショット。 本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのユーザが所望の言語翻訳ペアを選択し、オフライン・モードからオンライン・モードへ、およびオンライン・モードからオフライン・モードへ遷移できるグラフィカル・ユーザ・インターフェイスの例示のスクリーンショット。 本発明のさまざまな実施形態に依るクライアント・コンピューティング・デバイスのブロック図。 本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのユーザが所望の言語翻訳ペアを選択し、オフライン・モードからオンライン・モードへ、およびオンライン・モードからオフライン・モードへ遷移できるグラフィカル・ユーザ・インターフェイスの例示のスクリーンショット。 本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのユーザが所望の言語翻訳ペアを選択し、オフライン・モードからオンライン・モードへ、およびオンライン・モードからオフライン・モードへ遷移できるグラフィカル・ユーザ・インターフェイスの例示のスクリーンショット。 本発明のさまざまな実施形態に依る、オフライン・モードとオンライン・モードとの間で自動的に遷移するためのクライアント・コンピューティング・デバイスの処理を図で示すフローチャート。 本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのオフライン音声翻訳のさまざまなモデルおよびテーブルを更新する処理を図で示すフローチャート。 本発明のさまざまな実施形態に依るオフライン・モードおよびオンライン・モードの音声翻訳処理を図で示すフローチャート。 本発明のさまざまな実施形態に依るハイブリッド型音声翻訳システムのブロック図。
一般的な1つの態様では、本発明は、無線対応のクライアント・コンピューティング・デバイス(例えば、スマートフォンやタブレット・コンピュータ)が、入力語句(例えば、入力音声発話や入力テキスト)をある言語から別の言語にローカルに(例えば、「オフライン」モードで)翻訳することができ、また、無線ネットワーク接続が存在する場合の「オンライン」モードにおいて、リモート・コンピュータ(例えば、バックエンド音声翻訳サーバ・システム)に翻訳を実行させ、その翻訳を無線ネットワークを通じてクライアント・コンピューティング・デバイスに返送させて、クライアント・コンピューティング・デバイスによって(例えば、スピーカを通じて音声で、かつ/またはテキスト表示フィールドを通じて)出力できる、ハイブリッド型音声翻訳システムを対象にする。さまざまな実施形態では、クライアント・コンピューティング・デバイスのユーザは、モード間を遷移することができ、この遷移は、ユーザの選択または設定に基づいて自動的に(ユーザにとって透過的に)行われることも可能である。さらに、バックエンドの音声翻訳サーバ・システムは、経時的なユーザ・データの解析に基づいて、オフライン・モードにおいてクライアント・コンピューティング・デバイスによって使用されるさまざまな音声翻訳モデルに適応することができ、それによって、スケールダウンされているがバックエンド音声翻訳サーバ・システムよりも効率的かつ高速なモデルを用いて、ユーザのドメインに適応させながら、クライアント・コンピューティング・デバイスを構成することができる。
本発明の実施形態は、特に音声翻訳システムおよび音声翻訳方法を対象にする添付の特許請求の範囲において開示され、ある請求項のカテゴリ(例えば、方法)に記載された任意の特徴は、別の請求項のカテゴリ(例えば、システム)において同様に請求されることも可能である。添付の特許請求の範囲および以下で示された実施形態における従属関係および後方参照は、形式的な理由でのみ選択されている。ただし、先行する任意の請求項または実施形態への(特に複数の従属関係における)意図的な後方参照から発生するすべての主題は、同様に請求されることが可能であり、請求項の任意の組み合わせおよびそれらの特徴は、添付の特許請求の範囲において選択された従属関係にかかわらず開示され、請求されることが可能である。以下で示された実施形態の特徴の任意の組み合わせも、それらに記載された後方参照とは無関係に開示される。
本発明の実施形態において、音声翻訳システムは、
− バックエンド音声翻訳サーバ・システムと、
− 無線ネットワークを通じてバックエンド音声翻訳サーバ・システムと通信するように構成されたクライアント・コンピューティング・デバイスとを備え、クライアント・コンピューティング・デバイスは、
− マイクロホンと、
− マイクロホンに接続されたプロセッサと、
− プロセッサに接続され、プロセッサによって実行される命令を記憶するメモリと、
− プロセッサに接続されたスピーカとを備え、
− クライアント・コンピューティング・デバイスは、第1の言語から第2の言語への入力語句の翻訳をスピーカを通じて出力するためのものであり、
− メモリは命令を記憶し、その命令によって、
第1の動作モードにおいて、プロセッサが命令を実行するとき、プロセッサが入力語句をユーザに出力するために第2の言語に翻訳し、
第2の動作モードにおいて、
− クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスが受信した第1の言語の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信し、
− バックエンド音声翻訳サーバ・システムは、無線ネットワークを通じてクライア
ント・コンピューティング・デバイスから受信したデータに基づいて、第1の言語の入力語句の第2の言語への翻訳を決定し、
− バックエンド音声翻訳システムは、第1の言語による入力語句の第2の言語への翻訳に関するデータを、無線ネットワークを通じてクライアント・コンピューティング・デバイスに送信し、クライアント・コンピューティング・デバイスは、第1の言語の入力語句の第2の言語への翻訳を出力する。
クライアント・コンピューティング・デバイスは、ユーザが第1の動作モードと第2の動作モードとの間で切り替えることを可能にするユーザ・インターフェイスを備えることができる。
クライアント・コンピューティング・デバイスは、無線ネットワークへの接続状態に基づいて、第1の動作モードまたは第2の動作モードのどちらを使用するかを自動的に選択できる。
あるいは、クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスのユーザのユーザプリファレンス設定に基づいて、第1の動作モードまたは第2の動作モードのどちらを使用するかを自動的に選択できる。
本発明のさらなる実施形態において、入力語句は、
− クライアント・コンピューティング・デバイスのマイクロホンによって取り込まれた入力音声発話、およびクライアント・コンピューティング・デバイスのユーザ・インターフェイス上のテキスト入力フィールドを通じて入力されたテキストのうちの1つによって、クライアント・コンピューティングに入力される。
クライアント・コンピューティング・デバイスは、スピーカを通じて音声で翻訳を出力できる。
本発明の音声翻訳システムでは、クライアント・コンピューティング・デバイスは、第1の動作モードにおいて、第1の言語による音声発話を認識し、認識した音声発話を第2の言語に翻訳し、クライアント・コンピューティング・デバイスのスピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶できる。
バックエンド音声翻訳サーバ・システムは、第2の動作モードにおいて、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて、第1の言語による音声発話の第2の言語への翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備えることができる。
望ましくは、ローカル音響モデルをバックエンド音響モデルとは異なるものにすることができ、
ローカル言語モデルをバックエンド言語モデルとは異なるものにすることができ、
ローカル翻訳モデルをバックエンド翻訳モデルとは異なるものにすることができ、
ローカル音声合成モデルをバックエンド音声合成モデルとは異なるものにすることができる。
さらに、バックエンド音声翻訳サーバ・システムは、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視し、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話の経時的な監視に基づいて、クライアント・コンピューテ
ィング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを更新するようにプログラムされることが可能であり、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つに対する更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信される。
クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルは、ユーザによる翻訳クエリの解析に基づいて更新される。
クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスの位置を決定するためのGPSシステムを備えることができる。
さらに、バックエンド音声翻訳サーバ・システムは、クライアント・コンピューティング・デバイスの位置に基づいて、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを更新するようにプログラムされることが可能であり、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つ対する更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信される。
さらに、バックエンド音声翻訳サーバ・システムは、複数のバックエンド音声翻訳サーバ・システムのうちの1つであることが可能であり、クライアント・コンピューティング・デバイスは、無線ネットワークを通じて複数のバックエンド音声翻訳サーバ・システムの各々と通信するように構成されることが可能である。
第2の動作モードにおいて、複数のバックエンド音声翻訳サーバ・システムの各々は、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて第1の言語による音声発話の第2の言語への翻訳を決定するためのものであることができ、複数のバックエンド音声翻訳サーバ・システムのうちの1つは、クライアント・コンピューティング・デバイスに送信するために、複数のバックエンド音声翻訳サーバ・システムからの翻訳のうちの1つを選択できる。
あるいは、複数のバックエンド音声翻訳サーバ・システムのうちの1つは、複数のバックエンド音声翻訳サーバ・システムからの2つ以上の翻訳を併合し、クライアント・コンピューティング・デバイスに送信するための併合された翻訳を生成する。
本発明の別の態様では、音声翻訳方法が開示され、音声翻訳方法は、
− 第1の動作モードにおいて、
− クライアント・コンピューティング・デバイスが第1の言語による第1の入力語句を受信する工程と、
− クライアント・コンピューティング・デバイスが第1の入力語句を第2の言語に翻訳する工程と、
− クライアント・コンピューティング・デバイスが第2の言語による第1の入力語句を出力する工程と、を備え、
− クライアント・コンピューティング・デバイスが第1の動作モードから第2の動作モードに遷移する工程とを備え、
− 第2の動作モードにおいて、
− クライアント・コンピューティング・デバイスが第1の言語による第2の入力語
句を受信する工程と、
− クライアント・コンピューティング・デバイスが、第2の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信する工程と、
− クライアント・コンピューティング・デバイスが、バックエンド音声翻訳サーバ・システムによる第1の言語から第2の言語への第2の入力語句の翻訳に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムから受信する工程と、
− クライアント・コンピューティング・デバイスが第2の言語による第2の入力語句を出力する工程とを備える。
本発明のさらなる実施形態では、クライアント・コンピューティング・デバイスは、第1の動作モードにおいて、第1の言語による入力音声発話を認識し、認識した入力音声発話を第2の言語に翻訳し、スピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶し、バックエンド音声翻訳サーバ・システムは、望ましくは、第2の動作モードにおいて、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて第1の言語による入力音声発話の第2の言語への翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備える。
さらに、音声翻訳方法は、
− バックエンド音声翻訳サーバ・システムが、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視する工程と、
− バックエンド音声翻訳サーバ・システムが、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話の経時的な監視に基づいて、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを更新し、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つに対する更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信される工程とを備える。
音声翻訳方法は、第1の言語および第2の言語を含む言語翻訳ペア用のアプリケーション・ソフトウェアをクライアント・コンピューティング・デバイスがダウンロードする工程を備えることができる。
言語翻訳ペア用のアプリケーション・ソフトウェアをダウンロードする工程は、クライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能であるときに、言語翻訳ペア用のアプリケーション・ソフトウェアをダウンロードすることを含むことができる。
本発明のさらなる実施形態では、音声翻訳方法は、
− クライアント・コンピューティング・デバイスがクライアント・コンピューティング・デバイスの位置を決定する工程と、
− クライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能であるときに、クライアント・コンピューティング・デバイスが、決定されたクライアント・コンピューティング・デバイスの位置に基づいて言語翻訳ペア用のアプリケーション・ソフトウェアをダウン
ロードする工程とを備えることができる。
望ましくは、クライアント・コンピューティング・デバイスは、同時に表示される第1の言語表示セクションおよび第2の言語表示セクションを有するグラフィカル・ユーザ・インターフェイスを備えることができ、
− 第1の言語表示セクションおよび第2の言語表示セクションの各々が、ユーザがアクセスできる複数の言語のリスト表示を備えることができる。
音声翻訳方法は、第1の言語表示セクションのリスト表示からの第1の言語の選択と、第2の言語表示セクションの第2の言語の選択を、クライアント・コンピューティング・デバイスがグラフィカル・ユーザ・インターフェイスを通じて受け取る工程をさらに備えることができ、それによってクライアント・コンピューティング・デバイスは、入力音声発話を第1の言語から第2の言語に翻訳するように構成される。
第1の動作モードにおいて使用できる言語は、グラフィカル・ユーザ・インターフェイスの第1の言語表示セクションおよび第2の言語表示セクションにおいて、第1の動作モードにおいて使用できない言語とは異なるように視覚的に示される。
クライアント・コンピューティング・デバイスが第1の動作モードから第2の動作モードに遷移する工程は、クライアント・コンピューティング・デバイスのユーザ・インターフェイスを通じた入力に応答して第1の動作モードから第2の動作モードに遷移することである。
本発明のこれらおよびその他の利点は、以下の説明で明らかになる。
本明細書では、本発明のさまざまな実施形態は、以下の図面に関連する例を用いて説明される。
本発明は、一般に、無線対応のクライアント・コンピューティング・デバイス(例えば、スマートフォンまたはタブレット・コンピュータ)がオンライン機能(例えば、リモート・コンピュータ・システムによる音声翻訳処理)およびオフライン機能(例えば、クライアント・コンピューティング・デバイスに組み込まれた音声翻訳処理)の両方を備える音声翻訳システムを対象にする。図1は、本発明のさまざまな実施形態に記載の音声翻訳システム10の実施例のブロック図である。図1に示すように、システム10は、無線対応のクライアント・コンピューティング・デバイス12、無線ネットワーク14、データ通信ネットワーク15(例えば、インターネット)、バックエンド音声翻訳サーバ・システム16、およびアプリケーション・ストア・サーバ・システム(「アプリストア」)18を備える。クライアント・コンピューティング・デバイス12は、クライアント・コンピューティング・デバイス12が受信した第1の言語の音声発話を第2の言語(または、その他の言語)に翻訳するために、ユーザによって使用される。クライアント・コンピューティング・デバイス12は、デスクトップ・コンピュータまたはラップトップ・コンピュータなどの任意の適切なコンピューティング・デバイスにすることができるが、スマートフォンまたはタブレット・コンピュータなどの携帯用のモバイル・コンピューティング・デバイスにすることが、より望ましい。クライアント・コンピューティング・デバイス12の例に関する詳細は、図3に関連して下で説明される。
また、クライアント・コンピューティング・デバイス12は、無線ネットワーク14を通じた無線データ通信を実行できる(すなわち、クライアント・コンピューティング・デバイス12が「無線対応」である)ことが望ましい。無線ネットワーク14は、IEEE
802.11WLAN規格を使用する無線LAN(WLAN)などの任意の適切な無線ネットワーク(例えば、WiFiネットワーク)にすることができる。無線ネットワーク
14は、3Gまたは4G LTE携帯電話移動体通信ネットワークなどの移動体通信ネットワークを備えることもできるが、その他の適切な無線ネットワークが使用されることも可能である。無線ネットワーク14は、アクセス・ポイントまたは基地局を通じてなど、インターネット15への接続を提供することが望ましい。バックエンド音声翻訳サーバ・システム16およびアプリストア18は、インターネット15に接続され、無線ネットワーク14を通じてクライアント・コンピューティング・デバイス12と通信する。
本明細書に記載されているように、クライアント・コンピューティング・デバイス12には、クライアント・コンピューティング・デバイス12がオフライン音声翻訳を実行できるようにする、あるいはバックエンド音声翻訳サーバ・システム16が計算負荷の大きい音声認識処理工程および/または翻訳処理工程を提供して、クライアント・コンピューティング・デバイス12がオンライン音声翻訳を実行できるようにする、ソフトウェア(モデルを含む)が提供される。したがって、バックエンド音声翻訳サーバ・システム16は、無線ネットワーク14を通じてクライアント・コンピューティング・デバイス12から受信したデータに基づいて音声翻訳を実行する1つまたは複数のネットワーク・コンピュータ・サーバを備えることができる。したがって、バックエンド音声翻訳サーバ・システム16は、例えば、入力された音声発話データ内の第1の言語による音声を認識するための自動音声認識(ASR:Automatic Speech Recognition)モジュール20と、認識した第1の言語の音声を選択された第2の言語に変換/翻訳する機械翻訳(MT:Machine Translation)モジュール22と、第2の言語による音声出力の信号を送信するために翻訳を第2の言語で合成する音声合成モジュール24とを備えることができる。ASRモジュール20は、例えば、(i)単語の大規模なリストと、それらが特定の順序で発生する確率を含む言語モデル、および(ii)言語モデル内の各単語を構成する区別可能な音の統計的表現を含む音響モデルを使用することができる。MTモジュールは、例えば、適切な翻訳テーブル(またはモデル)および言語モデルを使用することができる。音声合成モジュール24は、適切な音声合成モデルを使用できる。同様に、クライアント・コンピューティング・デバイス12の音声翻訳ソフトウェアは、ASRモジュール(言語モデルおよび音響モデルを含む)、MTモジュール(翻訳テーブル/モデルおよび言語モデルを含む)、および音声合成モジュール(音声合成モデルを含む)を備えることができる。オンライン・モードとオフライン・モードのASRモジュール(またはエンジン)、MTモジュール(またはエンジン)、および合成モジュール(またはエンジン)の詳細については、米国特許第8,090,570号明細書および米国特許第8,204,739号明細書に記載されており、これらは全体を本明細書に参照として援用する。
クライアント・コンピューティング・デバイス12のユーザは、アプリストア18を通じて音声翻訳ソフトウェア(あるいは、アプリケーションまたは「アプリ」)を購入できる。さまざまな実施形態では、クライアント・コンピューティング・デバイス12への接続を前提としてバックエンド音声翻訳サーバ・システム16が大部分の音声翻訳処理を実行するオンライン・バージョンの翻訳アプリは、アプリストア18を通じて無料でダウンロードできる。オンライン翻訳アプリは、音声発話(クライアント・コンピューティング・デバイス12上でマイクロホンによって取り込まれる)またはテキスト(ユーザ・インターフェイスによって提供されたテキスト・フィールドを通じて)などの翻訳用の入力語句を収集し、翻訳を(クライアント・コンピューティング・デバイス12のスピーカを通じて、かつ/またはユーザ・インターフェイスを通じてテキストで)出力する機能であるユーザ・インターフェイスをクライアント・コンピューティング・デバイス12に提供する。そのような実施形態では、クライアント・コンピューティング・デバイス12は、クライアント・コンピューティング・デバイス12のマイクロホンによって記録された、またはテキスト入力フィールドを通じて入力された翻訳するべき第1の言語の入力語句に関するデータを、例えば、入力音声を前処理した後のエンコーディングされたデジタルのサ
ンプルまたは特徴ベクトルを含むデータとして、無線ネットワーク14を通じてバックエンド音声翻訳サーバ・システム16に送信できる。バックエンド音声翻訳サーバ・システム16は、受信された入力データに基づいて、音声発話を選択された第2の言語に翻訳し、翻訳のデータ表現を、処理、合成、およびクライアント・コンピューティング・デバイス12のスピーカを通じて音声出力するために、無線ネットワーク14を通じてクライアント・コンピューティング・デバイス12に返送する。
音声翻訳アプリは、オフライン・モードで動作させることもでき、オフライン・モードにおいてクライアント・コンピューティング・デバイス12は、バックエンド音声翻訳サーバ・システム16に接続せずに音声翻訳をローカルに実行する。さまざまな実施形態では、クライアント・コンピューティング・デバイス12のユーザは、ネットワーク接続が中断した状態でオフライン・システムが動作できるようにするために、無線ネットワーク14に接続しながら、選択した言語ペア(例えば、英語−スペイン語など)用のオフライン・アプリ・ソフトウェアをダウンロードする。図2A、図2Bに、ユーザが所望の言語ペアを選択できるようにするアプリを使用するクライアント・コンピューティング・デバイス12上のユーザ・インターフェイスの表示例を示す。図に示されたユーザ・インターフェイスの例では、ユーザがユーザ・コントロールを通じてオンライン・モードまたはオフライン・モードを選択できることも示されている。例えば、図2Aでは、ユーザは、クラウドおよび/または「オンライン翻訳」の説明で示されているようにユーザ・コントロール40をオンラインに切り替えており、図2Bでは、ユーザは、クラウドを通る斜線および「オフライン翻訳」の説明で示されているようにユーザ・コントロール40をオフラインに切り替えている。図2A、図2Bの例では、ユーザは、所望の言語ペアが、ハイライト表示された選択エリア46で第1の列および第2の列内の言語で示されて表示されるまで、第1の列42および第2の列44内の言語を(スクロール・ホイールのように)上下にスクロールできる。図2Aの例では、選択された言語ペアは、英語(インターナショナル・バージョン)およびスペイン語(メキシコ・バージョン)である。図2Bの例では、選択された言語ペアは、英語(インターナショナル・バージョン)およびスペイン語(スペイン・バージョン)である。
オンライン・モードにおいて、ユーザは提供されている任意の言語ペアにアクセスできる。このことは、図2Aに示されるように、使用できる言語の色付きのアイコン(例えば、国旗)を2つの列42、44に表示することによって、ユーザに示されることが可能である。ユーザは、2つの列を上下にスクロールして、所望の言語ペアを選択エリア46内に表示することができる。さまざまな実施形態では、無線ネットワーク接続が使用できない場合(無線ネットワーク接続が、ユーザによってユーザ・コントロール40を通じてオフに切り替えられた場合、または下で説明されるように自動的にオフに切り替えられた場合など)、クライアント・コンピューティング・デバイス12上にすでにインストールされている言語ペアのみが使用可能になる。同様に、オフライン・モードで使用可能な言語は、図2Bに示されるように、インストールされている言語の色付きのアイコン(例えば、旗)を2つの列42、44に表示し、インストールされていない言語をすべてグレーで表示することによって、ユーザに示されることが可能である。
図7は、さまざまな実施形態に記載のハイブリッド型オンライン/オフライン処理を示すフローチャートである。クライアント・コンピューティング・デバイス12は(例えば、それに付属するマイクロホンによって)、第1の言語の入力音声発話を工程70で取り込む。工程72でオンライン・モードが使用されている場合、工程74でクライアント・コンピューティング・デバイス12は入力音声発話に関するデータ(例えば、入力音声発話のサンプルまたは係数)を、無線ネットワーク14を通じてバックエンド音声翻訳サーバ・システム16に送信し、バックエンド音声翻訳サーバ・システム16は工程76で発話を第2の言語に翻訳する。工程77で、バックエンド音声翻訳サーバ・システム16は
無線ネットワーク14を通じて翻訳データをクライアント・コンピューティング・デバイス12に返送し、工程79で、クライアント・コンピューティング・デバイス12(例えば、それのスピーカ)は、入力発話の第2の言語による翻訳を音声出力できる。工程72でオフライン・モードが使用されている場合、工程78でクライアント・コンピューティング・デバイス12は、メモリに記憶されたダウンロード済みのオフライン音声翻訳ソフトウェアを実行して発話を第2の言語に翻訳し、その翻訳が工程79で出力される。
図3は、さまざまな実施形態に記載のクライアント・コンピューティング・デバイス12のブロック図である。図3の例に示されるように、デバイス12は複数のプロセッサ202、204を備えることができる。ベースバンド・プロセッサ202は、任意の適切な通信技術(例えば、3G、4Gなど)に従って、移動体通信ネットワーク(例えば、携帯電話ネットワーク)を経由する通信を処理できる。ベースバンド・プロセッサ202は、専用のランダム・アクセス・メモリ(RAM:Random Access Memory)214を備えることができる。さまざまな実施形態では、ベースバンド・プロセッサ202はトランシーバ206と通信できる。その後、トランシーバ206は1つまたは複数のパワーアンプ208およびアンテナ210と通信できる。移動体通信ネットワークの発信信号は、ベースバンド・プロセッサ202によってベースバンドで処理され、トランシーバ206に供給されることが可能である。トランシーバ206および/またはベースバンド・プロセッサ206は、発信信号を搬送波周波数に変調できる。1つまたは複数のアンプ208は発信信号を増幅することができ、その後、発信信号はアンテナ210を通じて送信されることが可能である。移動体通信ネットワークの受信信号は、アンテナ210によって受信され、1つまたは複数のアンプ208によって増幅され、トランシーバ206に供給されることが可能である。トランシーバ206またはベースバンド・プロセッサ202のどちらかは、受信信号をベースバンドに復調できる。
アプリケーション・プロセッサ204は、オペレーティング・システムおよび、本明細書に記載されたオフラインおよびオンラインの音声認識機能および/または翻訳機能を含むソフトウェア・アプリケーション(例えば、アプリストア18を通じてダウンロードされた)を実行できる。アプリケーション・プロセッサ204は、タッチスクリーン・インターフェイス232用のソフトウェアを実行することもできる。アプリケーション・プロセッサ204は、RAM212および不揮発性データ・ストレージ(例えば、ROM)216のアプリケーションと通信することもできる。RAM212は、特にプロセッサ204によって実行するために、アプリストア18を通じてダウンロードされたオフライン音声翻訳およびオンライン音声翻訳用のアプリケーション・ソフトウェアを、オフライン処理に必要な自動音声認識モジュール、機械翻訳モジュール、および音声合成モジュール、ならびにオンライン処理でバックエンド音声翻訳サーバ・システム16と通信するためのソフトウェアを含めて記憶できる。
さらに、アプリケーション・プロセッサ204は、Wi−Fi/BLUETOOTH(登録商標)トランシーバ218の組み合わせなど、他のハードウェア・デバイスと通信することができる。Wi−Fi/BLUETOOTHトランシーバ218は、LANとの無線周波数(RF:Radio Frequency)通信(例えば、Wi−Fi規格または任意の適切な規格に従う)またはデバイス200と別の無線デバイスとの間のダイレクトRF通信(例えば、BLUETOOTH規格または任意の適切な規格に従う)を処理することができる。さまざまな実施形態では、デバイス200は、デバイス12の地理的位置を表す情報をアプリケーション・プロセッサ204に提供するために、衛星を利用したGPSシステムとGPSアンテナ223を通じて通信する、全地球測位システム(GPS:Global Positioning System)222を備えることもできる。タッチスクリーン232は、デバイス12の出力を視覚的形式でユーザに提供すること、およびユーザから入力を受け取ることの両方を行うことができる。入力は、ユーザによ
るスクリーンのタッチを表す信号の形式にすることができる。音声コーデック・モジュール224は、音声信号をデコーディングおよび再生するためのハードウェアおよび/またはソフトウェアを提供できる。一部の実施形態では、コーデック224はデジタル・アナログ変換器を備えることもできる。音声出力信号は、音声出力信号を再生するために、デバイスのスピーカ16、ならびに/もしくは一連のヘッドホンおよび/またはスピーカを接続できるジャック(図に示されていない)に供給されることが可能である。音声入力信号は、デバイスのマイクロホン18を通じて供給されることが可能である。デバイスは、デジタル・カメラ240を備えることもできる。
特定の実施形態では、その他のさまざまなセンサが含まれることが可能である。磁気センサ226は、デバイスの近くの磁場を検出できる。例えば、磁気センサ226は、コンパスを実装するために、さまざまなアプリおよび/またはシステムの機能によって使用されることが可能である。加速度計228およびジャイロスコープ230は、デバイスの動きを表すデータを提供できる。例えば、加速度計228およびジャイロスコープ230からのデータは、タッチスクリーン232の表示の向き(例えば、縦長と横長)を定めるのに使用されることが可能である。デバイス200は、バッテリ234から電力を供給されることが可能であり、バッテリ234は電源管理集積回路(PMIC:Power Management Integrated Circuit)236によって管理されることが可能である。I/Oトランシーバ238は、例えばユニバーサル・シリアル・バス(USB:Universal Serial Bus)またはその他の適切な規格に従って、本デバイスとその他のデバイスとの間の有線通信を管理できる。コネクタ239は、有線接続を容易にすることができる。一部の実施形態では、コネクタ239およびI/Oトランシーバ238を通じた接続は、バッテリ234を充電するための電力を供給できる。
前述したように、さまざまな実施形態では、ユーザは、図2Aおよび図2Bの例で示されたようにユーザ・コントロール40を操作することなどによって、オンライン・モードとオフライン・モードとの間で切り替えることができる。オンライン処理は、可能な場合、言語モデルにおいてオンライン処理よりも多くの語彙を提供するが、オンライン処理は、ユーザによって入力された発話のデータが無線ネットワーク14およびインターネットを通じて送信されないため、強化されたユーザ・プライバシーおよびユーザ・セキュリティを提供できる。翻訳アプリ・ソフトウェアは、さまざまな実施形態に記載の、クライアント・コンピューティング・デバイス12がオンライン・モードとオフライン・モードとの間で自動的に切り替えることを可能にすることもできる。例えば、ユーザは、無線ネットワーク14(例えば、適切なデータレート/接続速度でのネットワーク接続)が使用可能な場合にはオンライン動作モードが使用され、そうでない場合にはオフライン動作モードが使用されるように、アプリを設定できる。したがって、そのような実施形態では、図5のフローチャートの例に示されるように、クライアント・コンピューティング・デバイス14が無線通信モード(例えば、WiFi、または3Gや4Gなどの携帯電話ネットワーク)である場合(工程50)、クライアント・コンピューティング・デバイス12のプロセッサは、メモリに記憶されたアプリ・ソフトウェアを実行してWiFiネットワークのデータレート/接続速度をチェックすることができ(工程52)、データレート/接続速度がしきい値を上回っている場合はオンライン・モードが使用され(工程54)、そうでない場合はオフライン・モードが使用される(工程56)。このようにして、ユーザは自動化された継続的な翻訳機能を有し、オフライン・モードまたはオンライン・モードのどちらが使用されているかは、ユーザにとって透過的になる。クライアント・コンピューティング・デバイス12は、特定の時間にどのモードが使用されているかを(前述したクラウドおよびクラウド無しのアイコンなどを使用して)視覚的に表示することができる。
その他の実施形態では、クライアント・コンピューティング・デバイス12のプロセッ
サは、メモリに記憶されたアプリ・ソフトウェアを実行し、コスト(例えば、ローミング料金が適用されている場合、またはネットワーク接続が存在しない場合はオフライン動作モードが使用され、そうでない場合はオンライン・モードが使用される)、品質(例えば、話者に固有のオフライン・モデルやドメインに依存しない一般的なオンライン・モデルを使用するなど、より適切な翻訳モデル、音響モデル、または言語モデル)、位置(例えば、GPSシステム222によって決定されるGPS座標に基づく)、プライバシー(例えば、セキュリティで保護された無線ネットワークが使用可能な場合にのみオンライン・モードを使用する)、および/または時間(例えば、指定された時間帯では指定されたモードを使用する)などの、その他の要因に基づいて、オンライン動作モードとオフライン動作モードとの間で自動的に切り替えることができる。さまざまな実施形態では、クライアント・コンピューティング・デバイス14のユーザは、設定することによってアプリを構成し、オンライン動作モードとオフライン動作モードとの間で自動的に遷移するために適用可能な条件を定めることができる。例えば、さまざまな実施形態では、ユーザは、常にオフライン・モードを使用すること(この場合、オンライン・モードは使用されない)、最も速いサービスを優先すること(この場合、無線ネットワークの接続速度がしきい値を超えた場合にのみオンライン・モードが使用される)、最も正確な翻訳(この場合、使用可能であれば必ずオンライン・モードが使用される)、コストを制限すること(この場合、例えば、ローミング料金が適用可され得る場合にオフライン・モードが使用される)を選択できる。そのようなユーザの選択は、プライバシー(データ転送)、品質(音声翻訳モデルのサイズおよび性能)、またはコスト(データ・ローミング)に関する考慮による影響を受ける可能性がある。
ハイブリッド型オフライン/オンライン翻訳システムの別の態様は、オフライン・モードのクライアント・コンピューティング・デバイス12上で使用可能にされる言語ペアである。クライアント・コンピューティング・デバイス12のメモリ・サイズ制限により、使用可能なすべての言語ペアをクライアント・コンピューティング・デバイス12にダウンロードすることは、ほとんどの場合、現実的ではない。そのため、クライアント・コンピューティング・デバイス12のユーザは、ユーザが必要とする選択された言語ペアのみをクライアント・コンピューティング・デバイス12にダウンロードすることが望ましい。例えば、さまざまな実施形態では、ユーザはアプリストア18を通じて使用可能なオフライン言語ペアを選択または購入できる。さまざまな実施形態では、ユーザは複数の言語ペア(例えば、ヨーロッパ、東南アジアなどの地理的領域内の言語、またはスペイン語のメキシコ・バージョンやスペイン・バージョン、ポルトガル語のポルトガル・バージョンやブラジル・バージョンなどの同じ言語のバージョン)を含むパッケージを購入することができ、その場合、パッケージに含まれるすべての言語ペア用のソフトウェア・アプリをクライアント・コンピューティング・デバイス18にダウンロードできる。例えば、図4Aは、ユーザがさまざまな翻訳言語ペアの購入を選択できるスクリーンショットの例を示し、図4Bは翻訳言語ペアのパッケージ(この例では世界パッケージ)のスクリーンショットの例を示している。ユーザがある言語ペアをクライアント・コンピューティング・デバイスから同じメモリに対して削除したい場合、さまざまな実施形態では、ユーザは、その言語ペアおよびそれに対応するモデルを、利用可能性を失うことなく、削除することができる。つまり、ユーザは、後日、それらのモデルを再びダウンロードできる。
一実施形態では、言語ペアをダウンロードするかどうかの選択はユーザに委ねられており、ユーザはオフライン翻訳用にクライアント・コンピューティング・デバイスにインストールされるペアを選択する。ユーザが選択された言語ペアのインストールをユーザが要求したが、十分なネットワーク接続が存在しなかった場合、クライアント・コンピューティング・デバイスはその要求を保存し、次にネットワーク接続が使用可能になったときに、そのペアをダウンロードするためのリマインダ・メッセージをユーザに発行する。リマインダ・メッセージは、選択された言語ペアのオフライン・バージョンをダウンロードす
るかどうかをユーザに尋ね、ユーザによって確認された場合に、ダウンロードを開始する。
別の実施形態では、クライアント・コンピューティング・デバイス12自体が、ユーザ用のオフライン翻訳言語ペアを自動的に管理できる。例えば、クライアント・コンピューティング・デバイス12は、世界各国で使用されている言語に関するデータを管理することができ、ユーザの位置に関係するオフライン言語ペアを自動的にダウンロードできる。例えば、ユーザがスペインにいることをGPSシステム22が示している場合、スペイン語のスペイン・バージョンがダウンロードされることが可能になるなどである。また、オフライン言語ペアは、例えばユーザの(旅行などに関する)カレンダ・データ、またはユーザの興味もしくは世界の特定の地域に移動する飛行機を示すウェブ検索データに基づいて自動的にダウンロードされることが可能である。
ユーザの位置(例えば、GPSデータに基づく)および/または興味(例えば、インターネット検索データおよび/または音声翻訳クエリに基づく)へのアクセスは、音声翻訳システムの言語の動作におけるカスタマイズも提供する。特定の単語、地名、および食品の種類が望ましい場合がある。特に名称(地名、人名)は、多かれ少なかれ位置に関係し、依存している可能性が高い(例えば、日本の場合は「カワサキ」、「ヤマモト」、スペインの場合は「マルチネス」、「ゴンザレス」など)。したがって、認識モデルおよび翻訳モデルのモデリング・パラメータ、最も重要なそれらの語彙および翻訳候補は、ユーザの位置および興味に基づいて調整されることが可能である。オンライン・モードにおいて、この調整は、確立された適応アルゴリズムを用いて、すべて使用中に動的に実行されることが可能である。ただし、オフライン・システムでは、モバイル・デバイスの効率性を実現するために、すべての単語が記憶されないようにする必要があり、メモリは節約されなければならない。したがって、さまざまな実施形態では、システムは、オフライン/組み込みシステムの場合でも、ネットワーク接続が使用可能な場合に、バックエンド音声翻訳システム16からカスタマイズされたパラメータ・モデルをダウンロードし、語彙の項目、言語モデル、および変更された確率的音響パラメータを入れ替えることができる。
音声翻訳システムの最も多くのメモリを消費する側面は、通常、機械翻訳エンジンの翻訳テーブルと言語モデル、認識エンジンの音響モデルと言語モデル、および音声合成エンジンの音声パラメータによって与えられる。クライアント・コンピューティング・デバイス12に展開されるオフライン翻訳アプリのモデルのサイズを減らすために、モデルの種類に応じて異なる手法が使用されることが可能である。音響モデルや言語モデルなど、モデル・パラメータとして確率を含むモデルは、確率の値の範囲が連続的空間から固定数の値の点のみを含む離散的空間にマッピングされるように、確率の値の範囲を量子化することによって、縮小されることが可能である。量子化係数に応じて、ストレージの要件は、1バイトまたは数数ビットだけに縮小されることが可能である。翻訳テーブルや言語モデルなど、語句を記憶するモデルは、効率的に実装されたプレフィックス・ツリーなどの記憶手法を使用できる。さらに、メモリ・マッピング手法が使用されることが可能であり、この手法は、モデルの小さい部分のみを必要に応じて動的にRAM212/214に読み込み、不要な部分を不揮発性ストレージ216にそのまま残す。
オフラインのクライアント・コンピューティング・デバイス上で実行するために、言語モデルおよび/または翻訳モデルを特定のサイズに縮小する別のより高度な手法は、語彙および単語のNグラムを削除するか、または追加情報を加えることによってベース・モデルを拡張する、特殊なトリミング/拡張ヒューリスティック手法を使用することである。削除は、リソースが制限されているにもかかわらずユーザの最も可能性の高い単語や言い回しが依然とし表現されるようにする日和見的(Opportunistic)方式で実行されることが可能であり、例えば、語彙をユーザ固有のサブセットのみに限定し、一般
的モデルのうち、この語彙によってカバーされる部分のみを選択すること、またはユーザ固有の情報をユーザのクエリから自動的に収集し、一般的モデルのうち、ユーザのクエリに密接に関連する部分を選択することによって実行されることが可能である。一方、拡張は、ユーザ固有の情報(例えば、ユーザの話し方に基づく)および/またはドメイン固有の情報(例えば、観光や人道支援での使用)および/または状況固有の情報(例えば、GPS位置に基づく)および/または、サーバ上の上記の固有の情報のいずれにも関連しない一般的な情報を選択し、この(差分)情報のみをサーバからデバイスに転送し、この情報をデバイスに記憶されたベース・モデルに適用することによって、実行されることが可能である。
例えば、図6のフローチャートを参照すると、工程60では、バックエンド音声翻訳サーバ・システム16はユーザ・データを解析し、工程62で、例えば、ユーザによく使用される単語および言い回しを維持したまま、または、よく使用されるサーバ上の翻訳および言い回しを抽出し、それらをクライアント・コンピューティング・デバイスに記憶されたベース・モデルに適用したまま、滅多に使用されない単語または言い回しを削除するように、ユーザのオフライン言語モデルおよび/または翻訳テーブルを更新するかどうかを決定することができる。前述したように、バックエンド音声翻訳サーバ・システム16は、ユーザの翻訳クエリ(例えば、翻訳対象の言い回し)および/またはインターネット閲覧履歴を解析し、よく使用される(および、あまり使用されない)単語および言い回しを決定できる。そのため、さまざまな実施形態では、ユーザの翻訳クエリは、オフライン・モードにおいてクライアント・コンピューティング・デバイス12によって保存および記憶され、バックエンド音声翻訳サーバ・システム16によって解析されることを可能にするために、ネットワークへの接続中にバックエンド音声翻訳サーバ・システム16にアップロードされることが可能である。同様に、ユーザのインターネット閲覧履歴(例えば、クッキー・データ)は、バックエンド音声翻訳サーバ・システム16によって解析され、ユーザによく使用される(および、あまり使用されない)単語および言い回しを決定できるようにするために、ネットワークへの接続中にバックエンド音声翻訳サーバ・システム16にアップロードされることが可能である。バックエンド音声翻訳サーバ・システム16が、ユーザ・データの解析によって、クライアント・コンピューティング・デバイスのオフライン処理ソフトウェアの言語モデルおよび/または翻訳テーブルを更新することを決定した場合、更新されるソフトウェア(例えば、モデル)は、工程64で(例えば、バックエンド音声翻訳サーバ・システム16から)クライアント・コンピューティング・デバイスにダウンロードされる。すべてのモデルをダウンロードするのではなく、クライアント・コンピューティング・デバイス上のモデルを更新するのに必要な(差分)情報のみをダウンロードすることもできる。
同様に、例えばより一般的な音響モデルをより小さいユーザ固有の音響モデルに置き換えることによって、ユーザ固有の情報が音響モデルのサイズの縮小に役立つ場合もある。これは、ユーザ固有のデータの量に応じて、例えばMLLRなどの音響モデル適応技術を使用したり、新しい追加データを使用して音響モデルを完全に再トレーニングしたりすることによって実現できる。したがって、例えば、再び図6を参照すると、工程66でバックエンド音声翻訳サーバ・システム16が、ユーザ・データの解析に基づいてユーザのクライアント・コンピューティング・デバイス12のオフライン・モードの音響モデルを変更することを決定した場合、更新されるソフトウェア(例えば、音響モデル)は、工程68でクライアント・コンピューティング・デバイスに(例えば、バックエンド音声翻訳サーバ・システム16から)ダウンロードされる。
音声間翻訳システムにおいて、最も速度を制限する要素は、音声信号の多くの音響の仮説および多くのタイム・スライスに対して検索を実行する音声認識アルゴリズムである。アルゴリズムの検索速度は、主に設定された音響モデルのサイズに左右される。クライア
ント・コンピューティング・デバイス12上で音声間翻訳を実行する際のオフライン・システムの速度を維持するために、いくつかの手法が使用されることが可能である。例えば、一実施形態では、モデルと入力音声との間のマハラノビス距離を計算するために、必要に応じてこの距離を計算するのではなく、モデルのサイズに応じてルックアップ・テーブルが使用されることが可能である。さらに、オフライン・モードにおいて、評価される必要のあるモデル・パラメータ全体の量を減らすために、ガウス選択手法が使用されることが可能である。図6に関連して前述したように、ユーザ固有の情報が使用可能になるとすぐに、より小さくより効率的なユーザ固有のモデルが代わりに使用されることが可能になる。
さらに、さまざまな実施形態では、バックエンド音声翻訳システム16は、オンライン・モード時に複数の音声認識エンジン(モジュール)および翻訳エンジン(モジュール)を使用し、組み合わせることができる。これらのバックエンドのエンジンは、例えば、同じ音声翻訳プロバイダによって提供されて同じサーバ上で実行されることが可能であり、または、他の実施形態では、3つの別々の独立したバックエンド音声翻訳システム16を表した図8の例に示されるように、独立した音声翻訳プロバイダによってさまざまな位置で提供されることが可能である(ただし、他の実施形態では、さらに少ないか多いバックエンド音声翻訳システム16が使用されることが可能である)。このような実施形態では、各バックエンド音声翻訳システム16は、同時に翻訳を実行するようにインターネット15を通じて要求されることが可能である。そのような実施形態では、各バックエンド音声翻訳システム16が(例えば、インターネット15を通じて)通信し、バックエンド音声翻訳システム16のうちの1つが、各翻訳からより優れた翻訳を選択するか、各翻訳を結合する。複数のシステム/翻訳から決定するために、かつ/または組み合わせ内のどのシステムにどの程度重みを付けるかについて決定するために、ASRにおける信頼性基準およびMTの信頼性基準が使用されることが可能である。これらの信頼性基準は、ASRの仮説またはMTの仮説の信頼性の決定に使用される。このような実施形態で、2つ以上のASRエンジンまたはMTエンジンが併合される場合、ASR出力を組み合わせる「ROVER」手法(例えば、ジェー.ジー.フィスカス、自動音声認識および理解に関するIEEEワークショップ、pp.347〜354、1997年、「単語誤り率を低減するための後処理システム:誤り低減を決定する認識装置出力(ROVER)」(G.Fiscus,“A post−processing system to yield reduced error word rates:Recognizer output voting error reduction(ROVER),”IEEE Workshop on Automatic Speech Recognition and Understanding,pp.347−354,1997)を参照)、1つのシステムのその他のシステムへの交差適応、またはMTシステムの組み合わせ技術(例えば、ロッシ他、NAACL HLTのプロシーディング、pp.228〜235、2007年、「複数の機械翻訳システムからの出力の結合」(Rosti et al,”Combining Outputs from Multiple Machine Translation Systems,”Proc.of NAACL HLT,pp.228−235,2007)およびケイ.ハーフィールド他、数理言語学のプラハ会報、第93号、pp.27〜36、2010年、「機械翻訳出力とオープン・ソースの結合」(K.Heafield et al.,“Combining Machine Translation Output with Open Source,”Prague Bulletin of Mathematical Linguistics,No.93,pp.27−36,2010)を参照)など、システムの組み合わせが使用されることが可能である。このような実施形態では、選択されて組み合わされた仮説は、バックエンドで競い合い、ユーザにとって最適な出力を生成できる。これがオンライン・モードで実行されると、システムは、この方法で達成された最適な選択を、オフライン・システムに導入するために記憶する。結合されたオンライン・システム16は、オフライ
ン・システムの学習用に、複数のASRエンジンの認識の仮説および/または複数のMTエンジンの翻訳の仮説をメモリに保持し、これらの仮説の組み合わせ、またはこれらの仮説のうちのより優れた仮説を使用して、新しいオフライン・システムを適応またはトレーニングする。このように再トレーニングまたは適応されたシステムは、その後、無線ネットワークが使用可能になったときに、オフライン・システムと交換されることが可能である。
したがって、一般的な1つの態様では、本発明は、ハイブリッド型オフライン/オンライン音声翻訳用の音声翻訳システムおよび音声翻訳方法を対象にする。さまざまな実施形態では、システムは、バックエンド音声翻訳サーバ・システムと、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムと通信するように構成されたクライアント・コンピューティング・デバイスとを備えることができる。クライアント・コンピューティング・デバイスは、マイクロホンと、マイクロホンに接続されたプロセッサと、プロセッサに接続され、プロセッサによって実行される命令を記憶するメモリと、プロセッサに接続されたスピーカとを備えることができる。クライアント・コンピューティング・デバイスは、第1の言語から第2の言語に翻訳するための入力語句(例えば、音声発話または入力テキスト)の翻訳を、例えばスピーカまたはテキスト表示フィールドを通じて出力するためのものである。メモリは命令を記憶し、第1の動作モード(オフライン・モード)において、プロセッサが命令を実行した場合、プロセッサは入力語句を第2の言語に翻訳して(例えば、スピーカを通じて)出力する。第2の動作モード(オンライン・モード)において、(i)クライアント・コンピューティング・デバイスは、マイクロホンが受信した第1の言語の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信し、(ii)バックエンド音声翻訳サーバ・システムは、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて、第1の言語による入力語句の第2の言語への翻訳を決定し、(iii)バックエンド音声翻訳システムは、第1の言語による入力語句の第2の言語への翻訳に関するデータを無線ネットワークを通じてクライアント・コンピューティング・デバイスに送信し、クライアント・コンピューティング・デバイスは第1の言語による音声発話の第2の言語への翻訳を出力する。
さまざまな実装では、クライアント・コンピューティング・デバイスは、ユーザが第1の動作モードと第2の動作モードとの間で切り替えることができるようにするユーザ・インターフェイスを備える。あるいは、クライアント・コンピューティング・デバイスは、第1の動作モードまたは第2の動作モードのどちらを使用するかを、クライアント・コンピューティング・デバイスのユーザのユーザプリファレンス設定に基づいて自動的に選択する。さらに、クライアント・コンピューティング・デバイスは、第1の動作モードにおいて、第1の言語による音声発話を認識し、認識した音声発話を第2の言語に翻訳し、スピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶できる。また、バックエンド音声翻訳サーバ・システムは、第2の動作モードにおいて、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて、第1の言語による音声発話の第2の言語への翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備える。ローカル・モデルは、バックエンド・モデルとは異なる(例えば、サブセットまたはその他の変形)。
さらに、バックエンド音声翻訳サーバ・システムは、(i)第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視し、(ii)クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうち
の少なくとも1つを、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話の経時的な監視に基づいて更新するようにプログラムされることが可能である。クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスの位置を決定するためのGPSシステムを備えることもできる。そのような実施形態では、バックエンド音声翻訳サーバ・システムは、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを、クライアント・コンピューティング・デバイスの位置に基づいて更新するようにプログラムされることも可能である。クライアント・コンピューティング・デバイスのモデルのうちの少なくとも1つに対するそのような任意の更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信されることが可能である。
さらに、クライアント・コンピューティング・デバイスは、第1の言語および第2の言語を含む言語翻訳ペア用のアプリケーション・ソフトウェア(モデルを含む)を、特にクライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能である場合に、ダウンロードするように構成されることが可能である。また、クライアント・コンピューティング・デバイスがGPSシステムを備える実施形態では、クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能である場合に、クライアント・コンピューティング・デバイスの決定された位置に基づいて言語翻訳ペア用のアプリケーション・ソフトウェアをダウンロードするように構成されることが可能である。
さらに、クライアント・コンピューティング・デバイスは、第1の言語表示セクションおよび第2の言語表示セクションが同時に表示されるグラフィカル・ユーザ・インターフェイスを備えることができる。第1の言語表示セクションおよび第2の言語表示セクションの各々は、ユーザがアクセスできる複数の言語のリスト表示を備えることができ、クライアント・コンピューティング・デバイスのユーザが第1の言語表示セクションのリスト表示から第1の言語を選択し、第2の言語表示セクションから第2の言語を選択すると、それによってクライアント・コンピューティング・デバイスは、入力音声発話を第1の言語から第2の言語に翻訳するように構成される。第1の(オフライン)動作モードにおいて使用できる言語は、第1の言語表示セクションおよび第2の言語表示セクションにおいて、第1の動作モードにおいて使用できない言語とは異なるように示される。
さらに、さまざまな実施形態では、バックエンド音声翻訳サーバ・システムは、複数のバックエンド音声翻訳サーバ・システムのうちの1つであり、クライアント・コンピューティング・デバイスは、無線ネットワークを通じて複数のバックエンド音声翻訳サーバ・システムの各々と通信するように構成される。第2の(オンライン)動作モードにおいて、複数のバックエンド音声翻訳サーバ・システムの各々は、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて、第1の言語による入力語句の第2の言語への翻訳を決定する。そのような環境では、複数のバックエンド音声翻訳サーバ・システムのうちの1つが、クライアント・コンピューティング・デバイスに送信するために複数のバックエンド音声翻訳サーバ・システムからの翻訳のうちの1つを選択するか、または複数のバックエンド音声翻訳サーバ・システムからの翻訳の2つ以上が併合されて、クライアント・コンピューティング・デバイスに送信するための併合された翻訳が生成される。
一般的な1つの態様では、音声翻訳方法は、第1の(オフライン)動作モードにおいて、(i)クライアント・コンピューティング・デバイスが第1の言語による第1の入力語
句を受信する工程と、(ii)クライアント・コンピューティング・デバイスが第1の入力語句を第2の言語に翻訳する工程と、(iii)クライアント・コンピューティング・デバイスが第2の言語による第1の音声発話を(例えば、スピーカを通じて音声によって、かつ/またはテキスト表示フィールドを通じて視覚的に)出力する工程とを備える。さらに音声翻訳方法は、クライアント・コンピューティング・デバイスが第1の動作モードから第2の動作モードに遷移する工程を備え、第2の(オンライン)動作モードにおいて、(iv)クライアント・コンピューティング・デバイスが第1の言語による第2の入力語句を受信する工程と、(v)クライアント・コンピューティング・デバイスが第2の入力語句に関するデータを無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信する工程と、(vi)クライアント・コンピューティング・デバイスが、バックエンド音声翻訳サーバ・システムによる第1の言語から第2の言語への第2の入力語句の翻訳に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムから受信する工程と、クライアント・コンピューティング・デバイスが第2の言語による第1の音声発話を出力する工程とを備える。
当業者にとっては、本明細書に記載された実施形態の少なくとも一部が、ソフトウェア、ファームウェア、および/またはハードウェアの多くのさまざまな実施形態で実装されることが可能であることは明らかである。ソフトウェアおよびファームウェア・コードは、プロセッサ回路またはその他の任意の同様のコンピューティング・デバイスによって実行されることが可能である。実施形態の実装に使用されることが可能なソフトウェア・コードまたは特殊な制御ハードウェアは、限定されない。例えば、本明細書に記載された実施形態は、従来技術やオブジェクト指向技術などを使用する任意の種類の適切なコンピュータ・ソフトウェア言語を使用して、コンピュータ・ソフトウェアで実装されることが可能である。それらのソフトウェアは、任意の種類の適切なコンピュータ可読媒体(例えば、磁気ストレージ媒体や光ストレージ媒体)に記憶されることが可能である。実施形態の操作および動作は、特定のソフトウェア・コードまたは特殊なハードウェア・構成要素への特定の参照を含まずに記載されることが可能である。当業者であれば、妥当な範囲を超える努力や過度の実験を行わずに、本明細書の記載内容に基づいてソフトウェアを設計し、ハードウェアを制御して、実施形態を実装できるであろうということが明確に理解されるため、そのような特定の参照がないことは適切である。
さらに、本実施形態に関連する処理は、コンピュータまたはコンピュータ・システム、モバイル・デバイス、スマートフォン、および/またはプロセッサなどのプログラム可能な機器によって実行されることが可能である。プログラム可能な機器で処理を実行できるようにするソフトウェアは、コンピュータ・システムの(不揮発性)メモリ、RAM、ROM、フラッシュ・メモリなどの任意のストレージ・デバイスに記憶されることが可能である。さらに、処理の少なくとも一部は、コンピュータ・システムが製造されるとき、または各種のコンピュータ可読媒体に記憶されるときに、プログラムされることが可能である。
「コンピュータ」、「コンピュータ・システム」、「ホスト」、「サーバ」、「プロセッサ」は、例えば、プロセッサ、マイクロコンピュータ、ミニコンピュータ、サーバ、メインフレーム、ラップトップ、携帯情報端末(PDA:Personal Data Assistant)、無線電子メール・デバイス、携帯電話機、スマートフォン、タブレット、モバイル・デバイス、ポケットベル、プロセッサ、ファクス、スキャナ、またはネットワークを経由してデータを送信および/または受信するように構成されたその他の任意のプログラム可能なデバイスにすることができるが、これらに限定されない。本明細書で開示されたコンピュータ・システムおよびコンピュータベース・デバイスは、情報の取得、処理、および通信に使用される特定のソフトウェア・モジュールまたはソフトウェア・エンジンを記憶するために、メモリを含むことができる。そのようなメモリは、開示さ
れた実施形態の動作に対して内部または外部に存在できると理解されることが可能である。メモリは、ハード・ディスク、光ディスク、フロッピー(登録商標)(登録商標)ディスク、ROM(読み取り専用メモリ)、RAM(ランダム・アクセス・メモリ)、PROM(プログラマブルROM)、EEPROM(電気的消去可能PROM)、および/またはその他のコンピュータ可読媒体を含む、ソフトウェアを記憶するための任意の手段も含み得る。本明細書に記載されたソフトウェア・モジュールおよびソフトウェア・エンジンは、モジュールを記憶するメモリにアクセスするコンピュータ・デバイスの1つのプロセッサ(または、場合によっては複数のプロセッサ)によって実行されることが可能である。
本明細書で開示されたさまざまな実施形態において、特定の機能を実行するために、単一の構成要素が複数の構成要素に置き換えられることが可能であり、複数の構成要素が単一の構成要素に置き換えられることが可能である。そのような置き換えが有効でない場合を除き、そのような置き換えは実施形態の意図された範囲に含まれる。本明細書に記載された任意のサーバは、例えば、連携機能用に展開および構成された「サーバ・ファーム」またはその他のネットワーク・サーバのグループ(サーバ・ブレードなど)に置き換えられることが可能である。サーバ・ファームは、ファームの個々の構成要素間で、個々の構成要素にわたって作業負荷を分散し、複数のサーバが連携する全体的能力を利用して計算処理を速める働きをすると理解されることが可能である。そのようなサーバ・ファームは、例えば、異なるマシンからの処理能力に対する要求の追跡、ネットワーク要求に基づくタスクの優先順位付けとスケジューリング、および/または構成要素障害の発生時または操作性の低下時の緊急バックアップの提供などのタスクを実行する、負荷バランシング・ソフトウェアを使用できる。
本明細書にはさまざまな実施形態が記載されているが、当業者が少なくとも一部の利点を実現する際に、それらの実施形態に対するさまざまな修正、変更、および適応が発生する可能性があることは明らかである。したがって、開示された実施形態は、本明細書に記載された実施形態の範囲から逸脱することなく、そのような修正、変更、および適応をすべて含むよう意図されている。

Claims (15)

  1. バックエンド音声翻訳サーバ・システムと、
    無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムと通信するように構成されたクライアント・コンピューティング・デバイスとを備える音声翻訳システムであって、前記クライアント・コンピューティング・デバイスは、
    マイクロホンと、
    前記マイクロホンに接続されたプロセッサと、
    前記プロセッサに接続され、前記プロセッサによって実行される命令を記憶するメモリと、
    前記プロセッサに接続されたスピーカとを備え、
    前記クライアント・コンピューティング・デバイスは、第1の言語から第2の言語への入力語句の翻訳を前記スピーカを通じて出力するためのものであり、
    前記メモリが命令を記憶し、前記命令によって、
    第1の動作モードにおいて、前記プロセッサが前記命令を実行するとき、前記プロセッサが前記入力語句をユーザに出力するために前記第2の言語に翻訳し、
    第2の動作モードにおいて、
    前記クライアント・コンピューティング・デバイスは、前記クライアント・コンピューティング・デバイスが受信した前記第1の言語による前記入力語句に関するデータを、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムに送信し、
    前記バックエンド音声翻訳サーバ・システムは、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスから受信した前記データに基づいて、前記第1の言語による前記入力語句の前記第2の言語への前記翻訳を決定し、
    前記バックエンド音声翻訳サーバ・システムは、前記第1の言語による前記入力語句の前記第2の言語への前記翻訳に関するデータを、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスに送信し、前記クライアント・コンピューティング・デバイスは、前記第1の言語による前記入力語句の前記第2の言語への前記翻訳を出力し、
    前記クライアント・コンピューティング・デバイスは、ユーザが前記第1の動作モードと前記第2の動作モードとの間で切り替えることを可能にするユーザ・インターフェイスを備えるか、
    前記クライアント・コンピューティング・デバイスは、前記無線ネットワークへの接続状態または前記クライアント・コンピューティング・デバイスに対する前記ユーザのユーザプリファレンス設定に基づいて、前記第1の動作モードまたは前記第2の動作モードのどちらを使用するかを自動的に選択するか、またはその両方が行われる、音声翻訳システム。
  2. 前記入力語句は、
    前記クライアント・コンピューティング・デバイスの前記マイクロホンによって取り込まれた入力音声発話、および前記クライアント・コンピューティング・デバイスのユーザ・インターフェイス上のテキスト入力フィールドを通じて入力されたテキストのうちの1つによって、
    前記クライアント・コンピューティングに入力される、請求項1に記載の音声翻訳システム。
  3. 前記クライアント・コンピューティング・デバイスはスピーカを通じて音声で前記翻訳を出力する、請求項1または2に記載の音声翻訳システム。
  4. 前記クライアント・コンピューティング・デバイスは、前記第1の動作モードにおいて
    、前記第1の言語による前記音声発話を認識し、認識した前記音声発話を前記第2の言語に翻訳し、前記クライアント・コンピューティング・デバイスの前記スピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶し、
    前記バックエンド音声翻訳サーバ・システムは、前記第2の動作モードにおいて、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスから受信した前記データに基づいて、前記第1の言語による前記音声発話の前記第2の言語への前記翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備え、
    前記ローカル音響モデルは前記バックエンド音響モデルとは異なっており、
    前記ローカル言語モデルは前記バックエンド言語モデルとは異なっており、
    前記ローカル翻訳モデルは前記バックエンド翻訳モデルとは異なっており、
    前記ローカル音声合成モデルは前記バックエンド音声合成モデルとは異なっている、請求項1〜3のいずれか1項に記載の音声翻訳システム。
  5. 前記バックエンド音声翻訳サーバ・システムは、
    前記第1の言語から前記第2の言語に翻訳するために前記クライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視し、
    前記第1の言語から前記第2の言語に翻訳するために前記クライアント・コンピューティング・デバイスが受信した音声発話の経時的な前記監視に基づいて、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの少なくとも1つを更新するようにプログラムされ、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの前記少なくとも1つに対する更新は、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムから前記クライアント・コンピューティング・デバイスに送信される、請求項1〜4のいずれか1項に記載の音声翻訳システム。
  6. 前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルが、前記ユーザによる翻訳クエリの解析に基づいて更新される、請求項1〜5のいずれか1項に記載の音声翻訳システム。
  7. 前記クライアント・コンピューティング・デバイスは、前記クライアント・コンピューティング・デバイスの位置を決定するためのGPSシステムを備え、
    前記バックエンド音声翻訳サーバ・システムは、前記クライアント・コンピューティング・デバイスの前記位置に基づいて、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの少なくとも1つを更新するようにプログラムされ、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの前記少なくとも1つに対する更新は、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムから前記クライアント・コンピューティング・デバイスに送信される、請求項1〜6のいずれか1項に記載の音声翻訳システム。
  8. 前記バックエンド音声翻訳サーバ・システムは、複数のバックエンド音声翻訳サーバ・システムのうちの1つであり、前記クライアント・コンピューティング・デバイスは、無線ネットワークを通じて前記複数のバックエンド音声翻訳サーバ・システムの各々と通信するように構成され、
    前記第2の動作モードにおいて、
    前記複数のバックエンド音声翻訳サーバ・システムの各々は、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスから受信した前記データに基づいて、前記第1の言語による前記音声発話の前記第2の言語への翻訳を決定するためのものであり、
    前記複数のバックエンド音声翻訳サーバ・システムのうちの1つは、前記クライアント・コンピューティング・デバイスに送信するために前記複数のバックエンド音声翻訳サーバ・システムからの前記翻訳のうちの1つを選択するか、または
    前記複数のバックエンド音声翻訳サーバ・システムからの前記翻訳の2つ以上を併合し、前記クライアント・コンピューティング・デバイスに送信するための併合された翻訳を生成する、請求項1〜7のいずれか1項に記載の音声翻訳システム。
  9. 第1の動作モードにおいて、
    クライアント・コンピューティング・デバイスが第1の言語による第1の入力語句を受信する工程と、
    前記クライアント・コンピューティング・デバイスが前記第1の入力語句を第2の言語に翻訳する工程と、
    前記クライアント・コンピューティング・デバイスが前記第1の入力語句を前記第2の言語で出力する工程と、
    前記クライアント・コンピューティング・デバイスが前記第1の動作モードから前記第2の動作モードに遷移する、遷移工程とを備え、
    前記第2の動作モードにおいて、
    クライアント・コンピューティング・デバイスが第1の言語による第2の入力語句を受信する工程と、
    前記クライアント・コンピューティング・デバイスが、前記第2の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信する工程と、
    前記クライアント・コンピューティング・デバイスが、前記バックエンド音声翻訳サーバ・システムによる前記第1の言語から前記第2の言語への前記第2の入力語句の翻訳に関するデータを、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムから受信する工程と、
    前記クライアント・コンピューティング・デバイスが前記第2の言語による前記第2の入力語句を出力する工程とを備える、音声翻訳方法。
  10. 前記クライアント・コンピューティング・デバイスは、前記第1の動作モードにおいて、前記第1の言語による前記入力音声発話を認識し、認識した前記入力音声発話を前記第2の言語に翻訳し、前記スピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶し、
    前記バックエンド音声翻訳サーバ・システムが、前記第2の動作モードにおいて、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスから受信した前記データに基づいて前記第1の言語による前記入力音声発話の前記第2の言語への前記翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備え、
    前記方法は、
    前記バックエンド音声翻訳サーバ・システムが、前記第1の言語から第2の言語に翻訳するために前記クライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視する工程と、
    前記バックエンド音声翻訳サーバ・システムが、前記第1の言語から前記第2の言語に翻訳するために前記クライアント・コンピューティング・デバイスが受信した音声発話の経時的な前記監視に基づいて、前記クライアント・コンピューティング・デバイスの前記
    ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの少なくとも1つを更新する工程とをさらに備え、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの前記少なくとも1つに対する更新は、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムから前記クライアント・コンピューティング・デバイスに送信される、請求項9に記載の音声翻訳方法。
  11. 前記第1の言語および前記第2の言語を含む言語翻訳ペア用のアプリケーション・ソフトウェアを前記クライアント・コンピューティング・デバイスがダウンロードする、ダウンロード工程をさらに備える音声翻訳方法であって、特に、
    前記ダウンロードする工程は、前記クライアント・コンピューティング・デバイスと前記バックエンド音声翻訳サーバ・システムとの間の適切な接続が前記無線ネットワークを通じて使用可能であるときに、前記言語翻訳ペア用の前記アプリケーション・ソフトウェアをダウンロードすることを含む、請求項1〜10のいずれか1項に記載の音声翻訳方法。
  12. 前記クライアント・コンピューティング・デバイスが前記クライアント・コンピューティング・デバイスの位置を決定する工程と、前記クライアント・コンピューティング・デバイスと前記バックエンド音声翻訳サーバ・システムとの間の適切な接続が前記無線ネットワークを通じて使用可能であるときに、前記クライアント・コンピューティング・デバイスが、前記クライアント・コンピューティング・デバイスの決定された前記位置に基づいて前記言語翻訳ペア用の前記アプリケーション・ソフトウェアをダウンロードする工程とをさらに備える、請求項11に記載の音声翻訳方法。
  13. 前記クライアント・コンピューティング・デバイスが、同時に表示される第1の言語表示セクションおよび第2の言語表示セクションを有するグラフィカル・ユーザ・インターフェイスを備え、
    前記第1の言語表示セクションおよび前記第2の言語表示セクションの各々が、ユーザがアクセスできる複数の言語のリスト表示を備え、
    前記方法は、前記第1の言語表示セクションの前記リスト表示からの前記第1の言語の選択、および前記第2の言語表示セクションの前記第2の言語の選択を、前記クライアント・コンピューティング・デバイスが前記グラフィカル・ユーザ・インターフェイスを通じて受け取る工程をさらに備え、それによって前記クライアント・コンピューティング・デバイスが、前記入力音声発話を前記第1の言語から前記第2の言語に翻訳するように構成される、請求項9〜12のいずれか1項に記載の音声翻訳方法。
  14. 前記第1の動作モードにおいて使用可能な言語は、前記グラフィカル・ユーザ・インターフェイスの前記第1の言語表示セクションおよび前記第2の言語表示セクションにおいて、前記第1の動作モードにおいて使用できない言語とは異なるように視覚的に示される、請求項13に記載の音声翻訳方法。
  15. 前記遷移工程は、前記クライアント・コンピューティング・デバイスのユーザ・インターフェイスを通じた入力に応答して前記第1の動作モードから前記第2の動作モードに遷移することである、請求項9〜14のいずれか1項に記載の音声翻訳方法。
JP2016513973A 2013-05-13 2014-05-01 ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 Active JP6157725B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361822629P 2013-05-13 2013-05-13
US61/822,629 2013-05-13
US13/915,820 2013-06-12
US13/915,820 US9430465B2 (en) 2013-05-13 2013-06-12 Hybrid, offline/online speech translation system
PCT/US2014/036454 WO2014186143A1 (en) 2013-05-13 2014-05-01 Hybrid, offline/online speech translation system

Publications (3)

Publication Number Publication Date
JP2016527587A true JP2016527587A (ja) 2016-09-08
JP2016527587A5 JP2016527587A5 (ja) 2016-11-24
JP6157725B2 JP6157725B2 (ja) 2017-07-05

Family

ID=51865427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016513973A Active JP6157725B2 (ja) 2013-05-13 2014-05-01 ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法

Country Status (10)

Country Link
US (2) US9430465B2 (ja)
JP (1) JP6157725B2 (ja)
KR (1) KR101729154B1 (ja)
CN (1) CN105210056B (ja)
AU (2) AU2014265782B2 (ja)
BR (1) BR112015028622A2 (ja)
CA (1) CA2907775C (ja)
IL (1) IL242230A (ja)
MX (1) MX348169B (ja)
WO (1) WO2014186143A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019111346A1 (ja) * 2017-12-06 2019-06-13 ソースネクスト株式会社 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
USD897307S1 (en) 2018-05-25 2020-09-29 Sourcenext Corporation Translator

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8983825B2 (en) * 2011-11-14 2015-03-17 Amadou Sarr Collaborative language translation system
US20140136295A1 (en) 2012-11-13 2014-05-15 Apptio, Inc. Dynamic recommendations taken over time for reservations of information technology resources
US9342499B2 (en) * 2013-03-19 2016-05-17 Educational Testing Service Round-trip translation for automated grammatical error correction
US20150073790A1 (en) * 2013-09-09 2015-03-12 Advanced Simulation Technology, inc. ("ASTi") Auto transcription of voice networks
US9640173B2 (en) * 2013-09-10 2017-05-02 At&T Intellectual Property I, L.P. System and method for intelligent language switching in automated text-to-speech systems
JP2015060332A (ja) * 2013-09-18 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
JP2015060423A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
KR101740332B1 (ko) * 2013-11-05 2017-06-08 한국전자통신연구원 자동 번역 장치 및 방법
US20150193432A1 (en) * 2014-01-03 2015-07-09 Daniel Beckett System for language translation
US11244364B2 (en) 2014-02-13 2022-02-08 Apptio, Inc. Unified modeling of technology towers
US20150254236A1 (en) * 2014-03-13 2015-09-10 Michael Lewis Moravitz Translation software built into internet
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
KR102292546B1 (ko) * 2014-07-21 2021-08-23 삼성전자주식회사 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
KR102270034B1 (ko) * 2014-09-30 2021-06-28 삼성전자주식회사 다수 개의 무선 억세스 인터페이스들을 지원하는 이동 통신 시스템에서 스트리밍 서비스 데이터 수신 장치 및 방법
US20160098994A1 (en) * 2014-10-03 2016-04-07 Speaktoit, Inc. Cross-platform dialog system
US10503377B2 (en) 2014-11-24 2019-12-10 Facebook, Inc. Dynamic status indicator
US10863354B2 (en) 2014-11-24 2020-12-08 Facebook, Inc. Automated check-ins
US20160150048A1 (en) * 2014-11-24 2016-05-26 Facebook, Inc. Prefetching Location Data
US10397346B2 (en) 2014-11-24 2019-08-27 Facebook, Inc. Prefetching places
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US9864744B2 (en) 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US20160188292A1 (en) * 2014-12-30 2016-06-30 Voicebox Technologies Corporation System and method for interpreting natural language inputs based on storage of the inputs
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
US10067936B2 (en) 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking
CN106901778A (zh) * 2015-02-12 2017-06-30 无锡海斯凯尔医学技术有限公司 弹性检测设备的数据分析处理方法及弹性检测设备
US9477652B2 (en) 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10083697B2 (en) 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US9922138B2 (en) * 2015-05-27 2018-03-20 Google Llc Dynamically updatable offline grammar model for resource-constrained offline device
CN104916283A (zh) * 2015-06-11 2015-09-16 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN104965426A (zh) 2015-06-24 2015-10-07 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人控制系统、方法和装置
US11151493B2 (en) 2015-06-30 2021-10-19 Apptio, Inc. Infrastructure benchmarking based on dynamic cost modeling
CN104992704B (zh) * 2015-07-15 2017-06-20 百度在线网络技术(北京)有限公司 语音合成方法和装置
KR101718987B1 (ko) * 2015-07-21 2017-03-22 김택진 보안기능을 갖는 단말기
WO2017037882A1 (ja) * 2015-09-02 2017-03-09 三菱電機株式会社 リモートコントローラ
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US10185713B1 (en) * 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10268684B1 (en) * 2015-09-28 2019-04-23 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US9959271B1 (en) 2015-09-28 2018-05-01 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10387815B2 (en) 2015-09-29 2019-08-20 Apptio, Inc. Continuously variable resolution of resource allocation
US10133738B2 (en) 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US9734143B2 (en) 2015-12-17 2017-08-15 Facebook, Inc. Multi-media context language processing
US9805029B2 (en) 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
US10726367B2 (en) * 2015-12-28 2020-07-28 Apptio, Inc. Resource allocation forecasting
US10002125B2 (en) 2015-12-28 2018-06-19 Facebook, Inc. Language model personalization
US9747283B2 (en) 2015-12-28 2017-08-29 Facebook, Inc. Predicting future translations
WO2017130795A1 (ja) * 2016-01-26 2017-08-03 ヤマハ株式会社 端末装置、情報提供方法およびプログラム
US9836527B2 (en) * 2016-02-24 2017-12-05 Google Llc Customized query-action mappings for an offline grammar model
CN205644540U (zh) * 2016-02-24 2016-10-12 苏州龙诺法智能科技有限公司 智能会议翻译系统
US10127228B2 (en) * 2016-04-13 2018-11-13 Google Llc Techniques for proactively providing translated text to a traveling user
US10902221B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10902215B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
CN205942689U (zh) * 2016-07-02 2017-02-08 苏州龙诺法智能科技有限公司 智能随身翻译器
US20170039190A1 (en) * 2016-08-05 2017-02-09 Joseph Ricardo Two Way (+) Language Translation Communication Technology
US11115463B2 (en) * 2016-08-17 2021-09-07 Microsoft Technology Licensing, Llc Remote and local predictions
US10474974B2 (en) 2016-09-08 2019-11-12 Apptio, Inc. Reciprocal models for resource allocation
KR101917648B1 (ko) * 2016-09-08 2018-11-13 주식회사 하이퍼커넥트 단말 및 그 제어 방법
US10936978B2 (en) 2016-09-20 2021-03-02 Apptio, Inc. Models for visualizing resource allocation
US9747282B1 (en) * 2016-09-27 2017-08-29 Doppler Labs, Inc. Translation with conversational overlap
US10191903B2 (en) 2016-09-30 2019-01-29 Microsoft Technology Licensing, Llc Customized and contextual translated content for travelers
JP6767046B2 (ja) * 2016-11-08 2020-10-14 国立研究開発法人情報通信研究機構 音声対話システム、音声対話装置、ユーザー端末、および音声対話方法
US10482407B2 (en) 2016-11-14 2019-11-19 Apptio, Inc. Identifying resource allocation discrepancies
KR20180070970A (ko) 2016-12-19 2018-06-27 삼성전자주식회사 음성 인식 방법 및 장치
US10971157B2 (en) * 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
CN107039032A (zh) * 2017-04-19 2017-08-11 上海木爷机器人技术有限公司 一种语音合成处理方法及装置
US10417349B2 (en) * 2017-06-14 2019-09-17 Microsoft Technology Licensing, Llc Customized multi-device translated and transcribed conversations
CN107424607B (zh) * 2017-07-04 2023-06-06 珠海格力电器股份有限公司 语音控制模式切换方法、装置及具有该装置的设备
US20190043509A1 (en) * 2017-08-04 2019-02-07 Cirrus Logic International Semiconductor Ltd. Audio privacy based on user identification
KR101999779B1 (ko) * 2017-09-12 2019-10-21 (주)한컴인터프리 통역방법
KR101959439B1 (ko) * 2017-09-12 2019-03-18 (주)한컴인터프리 통역방법
US10380249B2 (en) 2017-10-02 2019-08-13 Facebook, Inc. Predicting future trending topics
US11328130B2 (en) * 2017-11-06 2022-05-10 Orion Labs, Inc. Translational bot for group communication
DE102017220266B3 (de) 2017-11-14 2018-12-13 Audi Ag Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug
US11775552B2 (en) 2017-12-29 2023-10-03 Apptio, Inc. Binding annotations to data objects
US11170762B2 (en) 2018-01-04 2021-11-09 Google Llc Learning offline voice commands based on usage of online voice commands
CN108304391A (zh) * 2018-01-25 2018-07-20 芜湖应天光电科技有限责任公司 一种基于gps定位的自适应翻译机
US10636423B2 (en) 2018-02-21 2020-04-28 Motorola Solutions, Inc. System and method for managing speech recognition
CN108491397A (zh) * 2018-03-26 2018-09-04 安阳师范学院 一种英语翻译电子系统
CN110648657B (zh) * 2018-06-27 2024-02-02 北京搜狗科技发展有限公司 一种语言模型训练方法、构建方法和装置
US10896675B1 (en) 2018-06-29 2021-01-19 X Development Llc Multi-tiered command processing
CN109036379B (zh) * 2018-09-06 2021-06-11 百度时代网络技术(北京)有限公司 语音识别方法、设备及存储介质
CN109088995B (zh) * 2018-10-17 2020-11-13 永德利硅橡胶科技(深圳)有限公司 支持全球语言翻译的方法及手机
KR20200046188A (ko) * 2018-10-19 2020-05-07 삼성전자주식회사 인공 지능 모델을 재구성하기 위한 전자 장치 및 그의 제어 방법
US11475875B2 (en) * 2018-10-26 2022-10-18 Sriram Chakravarthy Method and system for implementing language neutral virtual assistant
EP3685374B1 (en) * 2018-12-14 2021-04-07 Google LLC Generation of a voice-based interface
CN110021291B (zh) * 2018-12-26 2021-01-29 创新先进技术有限公司 一种语音合成文件的调用方法及装置
KR102182720B1 (ko) * 2019-05-16 2020-11-24 주식회사 포콘스 역할 전환 기능을 갖는 이어셋을 이용한 통역방법
EP3931826A4 (en) 2019-08-13 2022-05-11 Samsung Electronics Co., Ltd. SERVER SUPPORTING VOICE RECOGNITION OF A DEVICE AND METHOD OF OPERATING THE SERVER
WO2021029643A1 (en) 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
EP3980991B1 (en) 2019-08-13 2024-01-03 Samsung Electronics Co., Ltd. System and method for recognizing user's speech
CN111105795B (zh) * 2019-12-16 2022-12-16 青岛海信智慧生活科技股份有限公司 一种智能家居训练离线语音固件的方法及装置
CN111144128B (zh) * 2019-12-26 2023-07-25 北京百度网讯科技有限公司 语义解析方法和装置
WO2021184249A1 (en) * 2020-03-18 2021-09-23 Citrix Systems, Inc. Machine translation of digital content
CN112100352A (zh) * 2020-09-14 2020-12-18 北京百度网讯科技有限公司 与虚拟对象的对话方法、装置、客户端及存储介质
US11568858B2 (en) * 2020-10-17 2023-01-31 International Business Machines Corporation Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings
JP7333371B2 (ja) * 2021-01-05 2023-08-24 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 話者分離基盤の自動通訳方法、話者分離基盤の自動通訳サービスを提供するユーザ端末、及び、話者分離基盤の自動通訳サービス提供システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108555A (ja) * 2001-09-27 2003-04-11 Seiko Epson Corp 機械翻訳端末装置、機械翻訳システム、機械翻訳端末装置の制御方法、機械翻訳システムの制御方法、機械翻訳端末装置の制御プログラム及び記録媒体
JP2006099296A (ja) * 2004-09-29 2006-04-13 Nec Corp 翻訳システム、翻訳通信システム、機械翻訳方法、および、プログラム

Family Cites Families (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3176059B2 (ja) * 1990-11-15 2001-06-11 キヤノン株式会社 翻訳装置
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
JPH10198680A (ja) * 1997-01-07 1998-07-31 Hitachi Ltd 分散辞書管理方法及びそれを用いた機械翻訳方法
US6161082A (en) * 1997-11-18 2000-12-12 At&T Corp Network based language translation system
US6901367B1 (en) * 1999-01-28 2005-05-31 International Business Machines Corporation Front end translation mechanism for received communication
US6385586B1 (en) * 1999-01-28 2002-05-07 International Business Machines Corporation Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6438515B1 (en) * 1999-06-28 2002-08-20 Richard Henry Dana Crawford Bitextual, bifocal language learning system
GB2352933A (en) * 1999-07-31 2001-02-07 Ibm Speech encoding in a client server system
US7110938B1 (en) * 1999-09-17 2006-09-19 Trados, Inc. E-services translation portal system
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6490547B1 (en) * 1999-12-07 2002-12-03 International Business Machines Corporation Just in time localization
AUPQ539700A0 (en) * 2000-02-02 2000-02-24 Worldlingo.Com Pty Ltd Translation ordering system
EP1277332A4 (en) 2000-04-07 2004-06-02 Ilan Cohen PROCEDURE FOR VOICE-ACTIVATED NETWORK ACCESS
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
JP2003010855A (ja) 2001-06-27 2003-01-14 Mamoru Osawa 磁力応用活水器
GB2378275B (en) * 2001-07-31 2005-06-22 Hewlett Packard Co Distributed metadata processing system
JP3980331B2 (ja) * 2001-11-20 2007-09-26 株式会社エビデンス 多言語間会話支援システム
US8498871B2 (en) * 2001-11-27 2013-07-30 Advanced Voice Recognition Systems, Inc. Dynamic speech recognition and transcription among users having heterogeneous protocols
US7272377B2 (en) * 2002-02-07 2007-09-18 At&T Corp. System and method of ubiquitous language translation for wireless devices
GB0204246D0 (en) * 2002-02-22 2002-04-10 Mitel Knowledge Corp System and method for message language translation
JP3959453B2 (ja) * 2002-03-14 2007-08-15 沖電気工業株式会社 翻訳仲介システム及び翻訳仲介サーバ
US7359861B2 (en) * 2002-04-24 2008-04-15 Polyglot Systems, Inc. Inter-language translation device
US7590534B2 (en) * 2002-05-09 2009-09-15 Healthsense, Inc. Method and apparatus for processing voice data
US20030236671A1 (en) * 2002-06-20 2003-12-25 Deere & Company System and method of loadable languages for implement monitoring display
US20040049374A1 (en) * 2002-09-05 2004-03-11 International Business Machines Corporation Translation aid for multilingual Web sites
US20040102957A1 (en) * 2002-11-22 2004-05-27 Levin Robert E. System and method for speech translation using remote devices
US20050227768A1 (en) * 2003-05-27 2005-10-13 Blackburn Christopher W Gaming network environment having a language translation service
US7539619B1 (en) * 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
US7983896B2 (en) * 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US20050234700A1 (en) * 2004-04-15 2005-10-20 International Business Machines Corporation Autonomic method, system and program product for translating content
US7403898B2 (en) * 2004-08-20 2008-07-22 At&T Delaware Intellectual Property, Inc., Methods, systems, and storage mediums for implementing voice-commanded computer functions
US8249854B2 (en) * 2005-05-26 2012-08-21 Microsoft Corporation Integrated native language translation
US7996228B2 (en) * 2005-12-22 2011-08-09 Microsoft Corporation Voice initiated network operations
EP1983445B1 (en) * 2006-02-17 2018-12-26 Google LLC Encoding and adaptive, scalable accessing of distributed models
US20070219782A1 (en) * 2006-03-14 2007-09-20 Qing Li User-supported multi-language online dictionary
US8275602B2 (en) * 2006-04-21 2012-09-25 Scomm, Inc. Interactive conversational speech communicator method and system
US8849653B2 (en) * 2006-05-09 2014-09-30 International Business Machines Corporation Updating dictionary during application installation
US8898052B2 (en) 2006-05-22 2014-11-25 Facebook, Inc. Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer
US20080077384A1 (en) * 2006-09-22 2008-03-27 International Business Machines Corporation Dynamically translating a software application to a user selected target language that is not natively provided by the software application
KR100834549B1 (ko) * 2006-10-19 2008-06-02 한국전자통신연구원 번역 시스템 및 번역 서비스 제공방법
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US8090570B2 (en) 2006-10-26 2012-01-03 Mobile Technologies, Llc Simultaneous translation of open domain lectures and speeches
US9128926B2 (en) 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
WO2008066836A1 (en) 2006-11-28 2008-06-05 Treyex Llc Method and apparatus for translating speech during a call
US8155947B2 (en) * 2006-11-29 2012-04-10 Ubiquity Broadcasting Corporation Multilingual translation system using character set
US8700998B2 (en) * 2006-11-30 2014-04-15 Red Hat, Inc. Foreign language translation tool
US20080221862A1 (en) * 2007-03-09 2008-09-11 Yahoo! Inc. Mobile language interpreter with localization
US7895030B2 (en) * 2007-03-16 2011-02-22 International Business Machines Corporation Visualization method for machine translation
TWI502380B (zh) * 2007-03-29 2015-10-01 Nokia Corp 配合預測式本文輸入使用之方法、裝置、伺服器、系統及電腦程式產品
US8825468B2 (en) * 2007-07-31 2014-09-02 Kopin Corporation Mobile wireless display providing speech to speech translation and avatar simulating human attributes
US20090043562A1 (en) * 2007-08-08 2009-02-12 Vinay Vishwas Peshave Method and apparatus for receiving and displaying a short message in a user preferred language
US20090177462A1 (en) * 2008-01-03 2009-07-09 Sony Ericsson Mobile Communications Ab Wireless terminals, language translation servers, and methods for translating speech between languages
US8473276B2 (en) * 2008-02-19 2013-06-25 Google Inc. Universal language input
WO2009129315A1 (en) 2008-04-15 2009-10-22 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
US20100030549A1 (en) * 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8019608B2 (en) * 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
US9323854B2 (en) * 2008-12-19 2016-04-26 Intel Corporation Method, apparatus and system for location assisted translation
US8868430B2 (en) * 2009-01-16 2014-10-21 Sony Corporation Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US8423353B2 (en) * 2009-03-25 2013-04-16 Microsoft Corporation Sharable distributed dictionary for applications
US8478579B2 (en) * 2009-05-05 2013-07-02 Google Inc. Conditional translation header for translation of web documents
US8892439B2 (en) * 2009-07-15 2014-11-18 Microsoft Corporation Combination and federation of local and remote speech recognition
US8990064B2 (en) * 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US20110030724A1 (en) * 2009-08-04 2011-02-10 Gus Alexander Multifunction Pressure Washer
EP2486852B1 (en) * 2009-10-07 2014-04-09 Asahi Polyslider Company, Limited Lancing device
US20110282647A1 (en) * 2010-05-12 2011-11-17 IQTRANSLATE.COM S.r.l. Translation System and Method
US8386235B2 (en) * 2010-05-20 2013-02-26 Acosys Limited Collaborative translation system and method
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
US8468010B2 (en) 2010-09-24 2013-06-18 Damaka, Inc. System and method for language translation in a hybrid peer-to-peer environment
JP5017441B2 (ja) * 2010-10-28 2012-09-05 株式会社東芝 携帯型電子機器
US10467348B2 (en) * 2010-10-31 2019-11-05 Speech Morphing Systems, Inc. Speech morphing communication system
KR20120050153A (ko) 2010-11-10 2012-05-18 임권세 멀티미디어 플레이어 제공 장치 및 방법
US9002696B2 (en) * 2010-11-30 2015-04-07 International Business Machines Corporation Data security system for natural language translation
US10244500B2 (en) * 2011-03-30 2019-03-26 Wei Lu Open wireless architecture (OWA) mobile cloud infrastructure and method
US9015030B2 (en) * 2011-04-15 2015-04-21 International Business Machines Corporation Translating prompt and user input
US8805672B2 (en) * 2011-06-30 2014-08-12 International Business Machines Corporation Translation cache prediction
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US8983825B2 (en) * 2011-11-14 2015-03-17 Amadou Sarr Collaborative language translation system
US20130138421A1 (en) * 2011-11-28 2013-05-30 Micromass Uk Limited Automatic Human Language Translation
US8903708B2 (en) * 2012-02-10 2014-12-02 Microsoft Corporation Analyzing restaurant menus in view of consumer preferences
US9087046B2 (en) * 2012-09-18 2015-07-21 Abbyy Development Llc Swiping action for displaying a translation of a textual image
US9183198B2 (en) * 2013-03-19 2015-11-10 International Business Machines Corporation Customizable and low-latency interactive computer-aided translation
US20150120296A1 (en) * 2013-10-29 2015-04-30 At&T Intellectual Property I, L.P. System and method for selecting network-based versus embedded speech processing
US10133738B2 (en) * 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108555A (ja) * 2001-09-27 2003-04-11 Seiko Epson Corp 機械翻訳端末装置、機械翻訳システム、機械翻訳端末装置の制御方法、機械翻訳システムの制御方法、機械翻訳端末装置の制御プログラム及び記録媒体
JP2006099296A (ja) * 2004-09-29 2006-04-13 Nec Corp 翻訳システム、翻訳通信システム、機械翻訳方法、および、プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019111346A1 (ja) * 2017-12-06 2019-06-13 ソースネクスト株式会社 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
JPWO2019111346A1 (ja) * 2017-12-06 2020-10-22 ソースネクスト株式会社 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
USD897307S1 (en) 2018-05-25 2020-09-29 Sourcenext Corporation Translator

Also Published As

Publication number Publication date
CN105210056B (zh) 2018-02-09
KR20160006682A (ko) 2016-01-19
CA2907775C (en) 2018-06-12
WO2014186143A1 (en) 2014-11-20
CN105210056A (zh) 2015-12-30
BR112015028622A2 (pt) 2017-07-25
KR101729154B1 (ko) 2017-04-21
US20160364385A1 (en) 2016-12-15
CA2907775A1 (en) 2014-11-20
IL242230A (en) 2017-04-30
MX2015015799A (es) 2016-03-09
AU2014265782A1 (en) 2015-10-15
AU2014265782B2 (en) 2017-05-04
US9430465B2 (en) 2016-08-30
JP6157725B2 (ja) 2017-07-05
AU2017210631A1 (en) 2017-08-24
MX348169B (es) 2017-05-31
AU2017210631B2 (en) 2019-06-13
US20140337007A1 (en) 2014-11-13
US10331794B2 (en) 2019-06-25

Similar Documents

Publication Publication Date Title
JP6157725B2 (ja) ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法
EP3096226B1 (en) Conversation processing method and computer device
EP3754651B1 (en) Dynamic language model adaptation for generating voice-based search queries
US8995972B1 (en) Automatic personal assistance between users devices
EP3477637B1 (en) Integration of embedded and network speech recognizers
EP3385946B1 (en) Dynamically updatable offline grammar model for resource-constrained offline device
CN110858481B (zh) 用于处理用户语音话语的系统和用于操作该系统的方法
KR20190006403A (ko) 음성 처리 방법 및 이를 지원하는 시스템
KR20180121758A (ko) 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법
EP2804113A2 (en) Hybrid, offline/online speech translation system
US10191903B2 (en) Customized and contextual translated content for travelers
US11551676B2 (en) Techniques for dialog processing using contextual data
KR20180113075A (ko) 프레임워크를 이용한 자연어 표현 생성 방법 및 장치
KR20180108321A (ko) 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치
AU2017435621B2 (en) Voice information processing method and device, and terminal
CN109389977B (zh) 一种语音交互方法及装置
WO2013063778A1 (en) Method and apparatus for context sensing inference
JP6281856B2 (ja) ローカル言語資源の補強装置及びサービス提供設備装置
WO2019083602A1 (en) PARTICIPATORY PRODUCTION BASED TRAINING FOR ORDER MATCHING
KR20180116731A (ko) 사용자 발화에 대응하는 태스크를 수행하는 전자 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161005

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20161005

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20161121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170606

R150 Certificate of patent or registration of utility model

Ref document number: 6157725

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250