JP2016527587A

JP2016527587A - ハイブリッド型オフライン／オンライン音声翻訳システム

Info

Publication number: JP2016527587A
Application number: JP2016513973A
Authority: JP
Inventors: アオキワイベル、ナオミ; ワイベル、アレクサンダー; フューゲン、クリスチャン; ロットマン、ケイ
Original assignee: フェイスブック，インク．
Priority date: 2013-05-13
Filing date: 2014-05-01
Publication date: 2016-09-08
Anticipated expiration: 2034-05-01
Also published as: CN105210056B; KR20160006682A; CA2907775C; WO2014186143A1; CN105210056A; BR112015028622A2; KR101729154B1; US20160364385A1; CA2907775A1; IL242230A; MX2015015799A; AU2014265782A1; AU2014265782B2; US9430465B2; JP6157725B2; AU2017210631A1; MX348169B; AU2017210631B2; US20140337007A1; US10331794B2

Abstract

無線対応のクライアント・コンピューティング・デバイスが、オフライン・モードにおいては、入力音声発話をある言語から別の言語にローカルに翻訳し、また、無線ネットワーク接続が存在するオンライン・モードにおいては、リモート・コンピュータに翻訳を実行させ、その翻訳を無線ネットワークを通じてクライアント・コンピューティング・デバイスに返送させ、クライアント・コンピューティング・デバイスが音声で出力することを可能にするハイブリッド型音声翻訳システムである。クライアント・コンピューティング・デバイスのユーザは、モード間を遷移することができ、この遷移は、ユーザの選択またはプリファレンスに基づいて自動的に行われることも可能である。バックエンド音声翻訳サーバ・システムは、経時的なユーザ・データの解析に基づいて、オフライン・モードにおいてクライアント・コンピューティング・デバイスが使用されるさまざまな認識モデルおよび翻訳モデルに適応することができ、それによって、スケールダウンされているがバックエンド音声翻訳サーバ・システムよりも効率的かつ高速なモデルを用いて、ユーザのドメインに適応させながら、クライアント・コンピューティング・デバイスを構成することができる。

Description

ハイブリッド型オフライン／オンライン音声翻訳システムに関する。

音声間翻訳（ＳＴＳ：Ｓｐｅｅｃｈ−Ｔｏ−Ｓｐｅｅｃｈｔｒａｎｓｌａｔｉｏｎ）システムは、通常、２つの異なる形式、インターネットを経由したオンライン形式、またはユーザのデバイス（例えば、スマートフォンまたはその他の適切なコンピューティング・デバイス）に組み込まれたオフライン形式のいずれかで提供される。オンライン・バージョンは、大型サーバ（クラウド）上の豊富な処理リソースを利用できるというメリットを備えており、改良およびカスタマイズを可能にするデータ・フィードをサービス・プロバイダに提供する。しかし、オンライン処理は継続的なネットワーク接続を必要とするため、すべての位置で保証されることが可能であるとは限らず、ローミング・コストやプライバシー／セキュリティの問題のため、望ましくない場合がある。別の展開様式（デプロイ）として、Ｊｉｂｂｉｇｏ音声翻訳アプリなどの音声間翻訳は、スマートフォン自体にローカルに組み込まれて動作するソフトウェアとして提供されることが可能であり、この翻訳アプリケーションを最初にダウンロードした後に、ネットワーク接続は不要である。このようなオフラインの組み込み音声翻訳機能は、ほとんどではないにしても、言語サポートが必要となる多くの実際の状況では、ネットワークが使用できなかったり、不安定であったり、高価であったりする場合があるため、望ましい展開様式である。ほとんどの旅行者は、このような接続の瞬断や喪失を、例えば、飛行機内、遠隔な地理的位置で、建物内にいる場合、あるいは、単純に外国での旅行中に関連付けられたローミング課金を避けるためにデータ・ローミングがオフにされていることによって体験する。

このような音声翻訳サービスまたは音声翻訳ソフトウェアが提供される方法は、ドメインに依存する方法で、またはドメインに依存しない方法で、そのソフトウェアがどの範囲で動作できるのか、または動作する必要があるのかということ、およびそのソフトウェアがユーザによるコンテキストに適応できるのかどうかということにも影響を与える。通常、ＳＴＳシステムは、特定の利用ドメイン向けに綿密に最適化および調整された場合、そのドメインではある程度良好に動作するが、別のドメインではあまりうまく動作せず（ドメイン依存性）、あるいは、すべてのドメインで概ね同じように良好に動作することで、ドメイン非依存性を実現しようとする。これらの解決策は、いずれも、すべての具体的な状況に対して性能を制限する。

一般にユーザは、オンライン・クライアント・プログラムを、自分のコンピューティング・デバイス上で実行する。通常、このデバイスは、音声をデジタル化し、場合によってはエンコードし、その後、通信回線を経由してサンプルまたは係数をサーバに送信する。次にサーバは、計算負荷の大きい音声認識および／または翻訳を実行し、その結果を通信回線を経由してユーザに返送し、その結果はユーザのデバイス上に表示される。処理チェーンのさまざまな部分をサーバに移動させ、多少の計算作業をデバイス上で実行する各種オンライン設計が提案されている。音声認識、翻訳、および翻訳システムにおいて、ユーザのデバイスは、単にマイクロホンまたはアナログ／デジタル変換器である場合もあれば、ノイズ抑制、係数としてのエンコーディング、１つまたは複数の音声認識パス、１つまたは複数の言語処理工程などの、より複雑な機能を提供する場合もある。一方、オフライン設計は、アプリケーション全体をデバイス自体の上で組み込みアプリケーションとして実行する。すべての計算はデバイス上でローカルに実行され、使用時にクライアントとサーバとの間での送信は不要である。

通常、オンライン設計には、極めて単純なクライアントしか必要としないため、アプリケーションを非常に単純なコンピューティング・デバイス、または携帯電話機上で実行できるというメリットがあり、すべての重い計算および処理は大型コンピューティング・サーバ上で実行される。音声翻訳および機械翻訳にとって、これは、より高度な計算負荷の大きいアルゴリズムが使用され得、最新の背景情報が使用され得ることを意味する。オンライン設計には、サービスの開発者またはオペレータがサーバ上のサービスまたは機能を保守／改良することができ、ユーザが新しいシステムのバージョンをダウンロードしたりアップグレードしたりする必要がないというメリットもある。

オンライン設計のデメリットは、ネットワーク接続に決定的に依存しているという点である。ユーザが遠隔な地理的位置に移動したり旅行したりすると、接続は瞬断し、かつ／または非常に高価（ローミング）になる可能性があり、さまざまな理由で使用できなくなる可能性がある。音声翻訳システムでは、多くの場合、このような要件を受け入れることはできない。テキストまたは電子メールの送信とは異なり、音声は、情報やリアルタイム性能を損なわずに、接続の喪失に対応する音声ストリームの中断を許可することができないため、接続の一時的喪失を許容できない。そのため、オンライン設計では、使用時の継続的なリアルタイム送信を保証する必要があり、したがって継続的な接続を保証する必要がある。

本発明のさまざまな実施形態に依るハイブリッド型音声翻訳システムのブロック図。本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのユーザが所望の言語翻訳ペアを選択し、オフライン・モードからオンライン・モードへ、およびオンライン・モードからオフライン・モードへ遷移できるグラフィカル・ユーザ・インターフェイスの例示のスクリーンショット。本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのユーザが所望の言語翻訳ペアを選択し、オフライン・モードからオンライン・モードへ、およびオンライン・モードからオフライン・モードへ遷移できるグラフィカル・ユーザ・インターフェイスの例示のスクリーンショット。本発明のさまざまな実施形態に依るクライアント・コンピューティング・デバイスのブロック図。本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのユーザが所望の言語翻訳ペアを選択し、オフライン・モードからオンライン・モードへ、およびオンライン・モードからオフライン・モードへ遷移できるグラフィカル・ユーザ・インターフェイスの例示のスクリーンショット。本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのユーザが所望の言語翻訳ペアを選択し、オフライン・モードからオンライン・モードへ、およびオンライン・モードからオフライン・モードへ遷移できるグラフィカル・ユーザ・インターフェイスの例示のスクリーンショット。本発明のさまざまな実施形態に依る、オフライン・モードとオンライン・モードとの間で自動的に遷移するためのクライアント・コンピューティング・デバイスの処理を図で示すフローチャート。本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのオフライン音声翻訳のさまざまなモデルおよびテーブルを更新する処理を図で示すフローチャート。本発明のさまざまな実施形態に依るオフライン・モードおよびオンライン・モードの音声翻訳処理を図で示すフローチャート。本発明のさまざまな実施形態に依るハイブリッド型音声翻訳システムのブロック図。

一般的な１つの態様では、本発明は、無線対応のクライアント・コンピューティング・デバイス（例えば、スマートフォンやタブレット・コンピュータ）が、入力語句（例えば、入力音声発話や入力テキスト）をある言語から別の言語にローカルに（例えば、「オフライン」モードで）翻訳することができ、また、無線ネットワーク接続が存在する場合の「オンライン」モードにおいて、リモート・コンピュータ（例えば、バックエンド音声翻訳サーバ・システム）に翻訳を実行させ、その翻訳を無線ネットワークを通じてクライアント・コンピューティング・デバイスに返送させて、クライアント・コンピューティング・デバイスによって（例えば、スピーカを通じて音声で、かつ／またはテキスト表示フィールドを通じて）出力できる、ハイブリッド型音声翻訳システムを対象にする。さまざまな実施形態では、クライアント・コンピューティング・デバイスのユーザは、モード間を遷移することができ、この遷移は、ユーザの選択または設定に基づいて自動的に（ユーザにとって透過的に）行われることも可能である。さらに、バックエンドの音声翻訳サーバ・システムは、経時的なユーザ・データの解析に基づいて、オフライン・モードにおいてクライアント・コンピューティング・デバイスによって使用されるさまざまな音声翻訳モデルに適応することができ、それによって、スケールダウンされているがバックエンド音声翻訳サーバ・システムよりも効率的かつ高速なモデルを用いて、ユーザのドメインに適応させながら、クライアント・コンピューティング・デバイスを構成することができる。

本発明の実施形態は、特に音声翻訳システムおよび音声翻訳方法を対象にする添付の特許請求の範囲において開示され、ある請求項のカテゴリ（例えば、方法）に記載された任意の特徴は、別の請求項のカテゴリ（例えば、システム）において同様に請求されることも可能である。添付の特許請求の範囲および以下で示された実施形態における従属関係および後方参照は、形式的な理由でのみ選択されている。ただし、先行する任意の請求項または実施形態への（特に複数の従属関係における）意図的な後方参照から発生するすべての主題は、同様に請求されることが可能であり、請求項の任意の組み合わせおよびそれらの特徴は、添付の特許請求の範囲において選択された従属関係にかかわらず開示され、請求されることが可能である。以下で示された実施形態の特徴の任意の組み合わせも、それらに記載された後方参照とは無関係に開示される。

本発明の実施形態において、音声翻訳システムは、
− バックエンド音声翻訳サーバ・システムと、
− 無線ネットワークを通じてバックエンド音声翻訳サーバ・システムと通信するように構成されたクライアント・コンピューティング・デバイスとを備え、クライアント・コンピューティング・デバイスは、
− マイクロホンと、
− マイクロホンに接続されたプロセッサと、
− プロセッサに接続され、プロセッサによって実行される命令を記憶するメモリと、
− プロセッサに接続されたスピーカとを備え、
− クライアント・コンピューティング・デバイスは、第１の言語から第２の言語への入力語句の翻訳をスピーカを通じて出力するためのものであり、
− メモリは命令を記憶し、その命令によって、
第１の動作モードにおいて、プロセッサが命令を実行するとき、プロセッサが入力語句をユーザに出力するために第２の言語に翻訳し、
第２の動作モードにおいて、
− クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスが受信した第１の言語の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信し、
− バックエンド音声翻訳サーバ・システムは、無線ネットワークを通じてクライア
ント・コンピューティング・デバイスから受信したデータに基づいて、第１の言語の入力語句の第２の言語への翻訳を決定し、
− バックエンド音声翻訳システムは、第１の言語による入力語句の第２の言語への翻訳に関するデータを、無線ネットワークを通じてクライアント・コンピューティング・デバイスに送信し、クライアント・コンピューティング・デバイスは、第１の言語の入力語句の第２の言語への翻訳を出力する。

クライアント・コンピューティング・デバイスは、ユーザが第１の動作モードと第２の動作モードとの間で切り替えることを可能にするユーザ・インターフェイスを備えることができる。

クライアント・コンピューティング・デバイスは、無線ネットワークへの接続状態に基づいて、第１の動作モードまたは第２の動作モードのどちらを使用するかを自動的に選択できる。

あるいは、クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスのユーザのユーザプリファレンス設定に基づいて、第１の動作モードまたは第２の動作モードのどちらを使用するかを自動的に選択できる。

本発明のさらなる実施形態において、入力語句は、
− クライアント・コンピューティング・デバイスのマイクロホンによって取り込まれた入力音声発話、およびクライアント・コンピューティング・デバイスのユーザ・インターフェイス上のテキスト入力フィールドを通じて入力されたテキストのうちの１つによって、クライアント・コンピューティングに入力される。

クライアント・コンピューティング・デバイスは、スピーカを通じて音声で翻訳を出力できる。
本発明の音声翻訳システムでは、クライアント・コンピューティング・デバイスは、第１の動作モードにおいて、第１の言語による音声発話を認識し、認識した音声発話を第２の言語に翻訳し、クライアント・コンピューティング・デバイスのスピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶できる。

バックエンド音声翻訳サーバ・システムは、第２の動作モードにおいて、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて、第１の言語による音声発話の第２の言語への翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備えることができる。

望ましくは、ローカル音響モデルをバックエンド音響モデルとは異なるものにすることができ、
ローカル言語モデルをバックエンド言語モデルとは異なるものにすることができ、
ローカル翻訳モデルをバックエンド翻訳モデルとは異なるものにすることができ、
ローカル音声合成モデルをバックエンド音声合成モデルとは異なるものにすることができる。

さらに、バックエンド音声翻訳サーバ・システムは、第１の言語から第２の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視し、第１の言語から第２の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話の経時的な監視に基づいて、クライアント・コンピューテ
ィング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも１つを更新するようにプログラムされることが可能であり、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも１つに対する更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信される。

クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルは、ユーザによる翻訳クエリの解析に基づいて更新される。

クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスの位置を決定するためのＧＰＳシステムを備えることができる。
さらに、バックエンド音声翻訳サーバ・システムは、クライアント・コンピューティング・デバイスの位置に基づいて、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも１つを更新するようにプログラムされることが可能であり、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも１つ対する更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信される。

さらに、バックエンド音声翻訳サーバ・システムは、複数のバックエンド音声翻訳サーバ・システムのうちの１つであることが可能であり、クライアント・コンピューティング・デバイスは、無線ネットワークを通じて複数のバックエンド音声翻訳サーバ・システムの各々と通信するように構成されることが可能である。

第２の動作モードにおいて、複数のバックエンド音声翻訳サーバ・システムの各々は、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて第１の言語による音声発話の第２の言語への翻訳を決定するためのものであることができ、複数のバックエンド音声翻訳サーバ・システムのうちの１つは、クライアント・コンピューティング・デバイスに送信するために、複数のバックエンド音声翻訳サーバ・システムからの翻訳のうちの１つを選択できる。

あるいは、複数のバックエンド音声翻訳サーバ・システムのうちの１つは、複数のバックエンド音声翻訳サーバ・システムからの２つ以上の翻訳を併合し、クライアント・コンピューティング・デバイスに送信するための併合された翻訳を生成する。

本発明の別の態様では、音声翻訳方法が開示され、音声翻訳方法は、
− 第１の動作モードにおいて、
− クライアント・コンピューティング・デバイスが第１の言語による第１の入力語句を受信する工程と、
− クライアント・コンピューティング・デバイスが第１の入力語句を第２の言語に翻訳する工程と、
− クライアント・コンピューティング・デバイスが第２の言語による第１の入力語句を出力する工程と、を備え、
− クライアント・コンピューティング・デバイスが第１の動作モードから第２の動作モードに遷移する工程とを備え、
− 第２の動作モードにおいて、
− クライアント・コンピューティング・デバイスが第１の言語による第２の入力語
句を受信する工程と、
− クライアント・コンピューティング・デバイスが、第２の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信する工程と、
− クライアント・コンピューティング・デバイスが、バックエンド音声翻訳サーバ・システムによる第１の言語から第２の言語への第２の入力語句の翻訳に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムから受信する工程と、
− クライアント・コンピューティング・デバイスが第２の言語による第２の入力語句を出力する工程とを備える。

本発明のさらなる実施形態では、クライアント・コンピューティング・デバイスは、第１の動作モードにおいて、第１の言語による入力音声発話を認識し、認識した入力音声発話を第２の言語に翻訳し、スピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶し、バックエンド音声翻訳サーバ・システムは、望ましくは、第２の動作モードにおいて、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて第１の言語による入力音声発話の第２の言語への翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備える。

さらに、音声翻訳方法は、
− バックエンド音声翻訳サーバ・システムが、第１の言語から第２の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視する工程と、
− バックエンド音声翻訳サーバ・システムが、第１の言語から第２の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話の経時的な監視に基づいて、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも１つを更新し、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも１つに対する更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信される工程とを備える。

音声翻訳方法は、第１の言語および第２の言語を含む言語翻訳ペア用のアプリケーション・ソフトウェアをクライアント・コンピューティング・デバイスがダウンロードする工程を備えることができる。

言語翻訳ペア用のアプリケーション・ソフトウェアをダウンロードする工程は、クライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能であるときに、言語翻訳ペア用のアプリケーション・ソフトウェアをダウンロードすることを含むことができる。

本発明のさらなる実施形態では、音声翻訳方法は、
− クライアント・コンピューティング・デバイスがクライアント・コンピューティング・デバイスの位置を決定する工程と、
− クライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能であるときに、クライアント・コンピューティング・デバイスが、決定されたクライアント・コンピューティング・デバイスの位置に基づいて言語翻訳ペア用のアプリケーション・ソフトウェアをダウン
ロードする工程とを備えることができる。

望ましくは、クライアント・コンピューティング・デバイスは、同時に表示される第１の言語表示セクションおよび第２の言語表示セクションを有するグラフィカル・ユーザ・インターフェイスを備えることができ、
− 第１の言語表示セクションおよび第２の言語表示セクションの各々が、ユーザがアクセスできる複数の言語のリスト表示を備えることができる。

音声翻訳方法は、第１の言語表示セクションのリスト表示からの第１の言語の選択と、第２の言語表示セクションの第２の言語の選択を、クライアント・コンピューティング・デバイスがグラフィカル・ユーザ・インターフェイスを通じて受け取る工程をさらに備えることができ、それによってクライアント・コンピューティング・デバイスは、入力音声発話を第１の言語から第２の言語に翻訳するように構成される。

第１の動作モードにおいて使用できる言語は、グラフィカル・ユーザ・インターフェイスの第１の言語表示セクションおよび第２の言語表示セクションにおいて、第１の動作モードにおいて使用できない言語とは異なるように視覚的に示される。

クライアント・コンピューティング・デバイスが第１の動作モードから第２の動作モードに遷移する工程は、クライアント・コンピューティング・デバイスのユーザ・インターフェイスを通じた入力に応答して第１の動作モードから第２の動作モードに遷移することである。

本発明のこれらおよびその他の利点は、以下の説明で明らかになる。
本明細書では、本発明のさまざまな実施形態は、以下の図面に関連する例を用いて説明される。

本発明は、一般に、無線対応のクライアント・コンピューティング・デバイス（例えば、スマートフォンまたはタブレット・コンピュータ）がオンライン機能（例えば、リモート・コンピュータ・システムによる音声翻訳処理）およびオフライン機能（例えば、クライアント・コンピューティング・デバイスに組み込まれた音声翻訳処理）の両方を備える音声翻訳システムを対象にする。図１は、本発明のさまざまな実施形態に記載の音声翻訳システム１０の実施例のブロック図である。図１に示すように、システム１０は、無線対応のクライアント・コンピューティング・デバイス１２、無線ネットワーク１４、データ通信ネットワーク１５（例えば、インターネット）、バックエンド音声翻訳サーバ・システム１６、およびアプリケーション・ストア・サーバ・システム（「アプリストア」）１８を備える。クライアント・コンピューティング・デバイス１２は、クライアント・コンピューティング・デバイス１２が受信した第１の言語の音声発話を第２の言語（または、その他の言語）に翻訳するために、ユーザによって使用される。クライアント・コンピューティング・デバイス１２は、デスクトップ・コンピュータまたはラップトップ・コンピュータなどの任意の適切なコンピューティング・デバイスにすることができるが、スマートフォンまたはタブレット・コンピュータなどの携帯用のモバイル・コンピューティング・デバイスにすることが、より望ましい。クライアント・コンピューティング・デバイス１２の例に関する詳細は、図３に関連して下で説明される。

また、クライアント・コンピューティング・デバイス１２は、無線ネットワーク１４を通じた無線データ通信を実行できる（すなわち、クライアント・コンピューティング・デバイス１２が「無線対応」である）ことが望ましい。無線ネットワーク１４は、ＩＥＥＥ
８０２．１１ＷＬＡＮ規格を使用する無線ＬＡＮ（ＷＬＡＮ）などの任意の適切な無線ネットワーク（例えば、ＷｉＦｉネットワーク）にすることができる。無線ネットワーク
１４は、３Ｇまたは４ＧＬＴＥ携帯電話移動体通信ネットワークなどの移動体通信ネットワークを備えることもできるが、その他の適切な無線ネットワークが使用されることも可能である。無線ネットワーク１４は、アクセス・ポイントまたは基地局を通じてなど、インターネット１５への接続を提供することが望ましい。バックエンド音声翻訳サーバ・システム１６およびアプリストア１８は、インターネット１５に接続され、無線ネットワーク１４を通じてクライアント・コンピューティング・デバイス１２と通信する。

本明細書に記載されているように、クライアント・コンピューティング・デバイス１２には、クライアント・コンピューティング・デバイス１２がオフライン音声翻訳を実行できるようにする、あるいはバックエンド音声翻訳サーバ・システム１６が計算負荷の大きい音声認識処理工程および／または翻訳処理工程を提供して、クライアント・コンピューティング・デバイス１２がオンライン音声翻訳を実行できるようにする、ソフトウェア（モデルを含む）が提供される。したがって、バックエンド音声翻訳サーバ・システム１６は、無線ネットワーク１４を通じてクライアント・コンピューティング・デバイス１２から受信したデータに基づいて音声翻訳を実行する１つまたは複数のネットワーク・コンピュータ・サーバを備えることができる。したがって、バックエンド音声翻訳サーバ・システム１６は、例えば、入力された音声発話データ内の第１の言語による音声を認識するための自動音声認識（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）モジュール２０と、認識した第１の言語の音声を選択された第２の言語に変換／翻訳する機械翻訳（ＭＴ：ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ）モジュール２２と、第２の言語による音声出力の信号を送信するために翻訳を第２の言語で合成する音声合成モジュール２４とを備えることができる。ＡＳＲモジュール２０は、例えば、（ｉ）単語の大規模なリストと、それらが特定の順序で発生する確率を含む言語モデル、および（ｉｉ）言語モデル内の各単語を構成する区別可能な音の統計的表現を含む音響モデルを使用することができる。ＭＴモジュールは、例えば、適切な翻訳テーブル（またはモデル）および言語モデルを使用することができる。音声合成モジュール２４は、適切な音声合成モデルを使用できる。同様に、クライアント・コンピューティング・デバイス１２の音声翻訳ソフトウェアは、ＡＳＲモジュール（言語モデルおよび音響モデルを含む）、ＭＴモジュール（翻訳テーブル／モデルおよび言語モデルを含む）、および音声合成モジュール（音声合成モデルを含む）を備えることができる。オンライン・モードとオフライン・モードのＡＳＲモジュール（またはエンジン）、ＭＴモジュール（またはエンジン）、および合成モジュール（またはエンジン）の詳細については、米国特許第８，０９０，５７０号明細書および米国特許第８，２０４，７３９号明細書に記載されており、これらは全体を本明細書に参照として援用する。

クライアント・コンピューティング・デバイス１２のユーザは、アプリストア１８を通じて音声翻訳ソフトウェア（あるいは、アプリケーションまたは「アプリ」）を購入できる。さまざまな実施形態では、クライアント・コンピューティング・デバイス１２への接続を前提としてバックエンド音声翻訳サーバ・システム１６が大部分の音声翻訳処理を実行するオンライン・バージョンの翻訳アプリは、アプリストア１８を通じて無料でダウンロードできる。オンライン翻訳アプリは、音声発話（クライアント・コンピューティング・デバイス１２上でマイクロホンによって取り込まれる）またはテキスト（ユーザ・インターフェイスによって提供されたテキスト・フィールドを通じて）などの翻訳用の入力語句を収集し、翻訳を（クライアント・コンピューティング・デバイス１２のスピーカを通じて、かつ／またはユーザ・インターフェイスを通じてテキストで）出力する機能であるユーザ・インターフェイスをクライアント・コンピューティング・デバイス１２に提供する。そのような実施形態では、クライアント・コンピューティング・デバイス１２は、クライアント・コンピューティング・デバイス１２のマイクロホンによって記録された、またはテキスト入力フィールドを通じて入力された翻訳するべき第１の言語の入力語句に関するデータを、例えば、入力音声を前処理した後のエンコーディングされたデジタルのサ
ンプルまたは特徴ベクトルを含むデータとして、無線ネットワーク１４を通じてバックエンド音声翻訳サーバ・システム１６に送信できる。バックエンド音声翻訳サーバ・システム１６は、受信された入力データに基づいて、音声発話を選択された第２の言語に翻訳し、翻訳のデータ表現を、処理、合成、およびクライアント・コンピューティング・デバイス１２のスピーカを通じて音声出力するために、無線ネットワーク１４を通じてクライアント・コンピューティング・デバイス１２に返送する。

音声翻訳アプリは、オフライン・モードで動作させることもでき、オフライン・モードにおいてクライアント・コンピューティング・デバイス１２は、バックエンド音声翻訳サーバ・システム１６に接続せずに音声翻訳をローカルに実行する。さまざまな実施形態では、クライアント・コンピューティング・デバイス１２のユーザは、ネットワーク接続が中断した状態でオフライン・システムが動作できるようにするために、無線ネットワーク１４に接続しながら、選択した言語ペア（例えば、英語−スペイン語など）用のオフライン・アプリ・ソフトウェアをダウンロードする。図２Ａ、図２Ｂに、ユーザが所望の言語ペアを選択できるようにするアプリを使用するクライアント・コンピューティング・デバイス１２上のユーザ・インターフェイスの表示例を示す。図に示されたユーザ・インターフェイスの例では、ユーザがユーザ・コントロールを通じてオンライン・モードまたはオフライン・モードを選択できることも示されている。例えば、図２Ａでは、ユーザは、クラウドおよび／または「オンライン翻訳」の説明で示されているようにユーザ・コントロール４０をオンラインに切り替えており、図２Ｂでは、ユーザは、クラウドを通る斜線および「オフライン翻訳」の説明で示されているようにユーザ・コントロール４０をオフラインに切り替えている。図２Ａ、図２Ｂの例では、ユーザは、所望の言語ペアが、ハイライト表示された選択エリア４６で第１の列および第２の列内の言語で示されて表示されるまで、第１の列４２および第２の列４４内の言語を（スクロール・ホイールのように）上下にスクロールできる。図２Ａの例では、選択された言語ペアは、英語（インターナショナル・バージョン）およびスペイン語（メキシコ・バージョン）である。図２Ｂの例では、選択された言語ペアは、英語（インターナショナル・バージョン）およびスペイン語（スペイン・バージョン）である。

オンライン・モードにおいて、ユーザは提供されている任意の言語ペアにアクセスできる。このことは、図２Ａに示されるように、使用できる言語の色付きのアイコン（例えば、国旗）を２つの列４２、４４に表示することによって、ユーザに示されることが可能である。ユーザは、２つの列を上下にスクロールして、所望の言語ペアを選択エリア４６内に表示することができる。さまざまな実施形態では、無線ネットワーク接続が使用できない場合（無線ネットワーク接続が、ユーザによってユーザ・コントロール４０を通じてオフに切り替えられた場合、または下で説明されるように自動的にオフに切り替えられた場合など）、クライアント・コンピューティング・デバイス１２上にすでにインストールされている言語ペアのみが使用可能になる。同様に、オフライン・モードで使用可能な言語は、図２Ｂに示されるように、インストールされている言語の色付きのアイコン（例えば、旗）を２つの列４２、４４に表示し、インストールされていない言語をすべてグレーで表示することによって、ユーザに示されることが可能である。

図７は、さまざまな実施形態に記載のハイブリッド型オンライン／オフライン処理を示すフローチャートである。クライアント・コンピューティング・デバイス１２は（例えば、それに付属するマイクロホンによって）、第１の言語の入力音声発話を工程７０で取り込む。工程７２でオンライン・モードが使用されている場合、工程７４でクライアント・コンピューティング・デバイス１２は入力音声発話に関するデータ（例えば、入力音声発話のサンプルまたは係数）を、無線ネットワーク１４を通じてバックエンド音声翻訳サーバ・システム１６に送信し、バックエンド音声翻訳サーバ・システム１６は工程７６で発話を第２の言語に翻訳する。工程７７で、バックエンド音声翻訳サーバ・システム１６は
無線ネットワーク１４を通じて翻訳データをクライアント・コンピューティング・デバイス１２に返送し、工程７９で、クライアント・コンピューティング・デバイス１２（例えば、それのスピーカ）は、入力発話の第２の言語による翻訳を音声出力できる。工程７２でオフライン・モードが使用されている場合、工程７８でクライアント・コンピューティング・デバイス１２は、メモリに記憶されたダウンロード済みのオフライン音声翻訳ソフトウェアを実行して発話を第２の言語に翻訳し、その翻訳が工程７９で出力される。

図３は、さまざまな実施形態に記載のクライアント・コンピューティング・デバイス１２のブロック図である。図３の例に示されるように、デバイス１２は複数のプロセッサ２０２、２０４を備えることができる。ベースバンド・プロセッサ２０２は、任意の適切な通信技術（例えば、３Ｇ、４Ｇなど）に従って、移動体通信ネットワーク（例えば、携帯電話ネットワーク）を経由する通信を処理できる。ベースバンド・プロセッサ２０２は、専用のランダム・アクセス・メモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２１４を備えることができる。さまざまな実施形態では、ベースバンド・プロセッサ２０２はトランシーバ２０６と通信できる。その後、トランシーバ２０６は１つまたは複数のパワーアンプ２０８およびアンテナ２１０と通信できる。移動体通信ネットワークの発信信号は、ベースバンド・プロセッサ２０２によってベースバンドで処理され、トランシーバ２０６に供給されることが可能である。トランシーバ２０６および／またはベースバンド・プロセッサ２０６は、発信信号を搬送波周波数に変調できる。１つまたは複数のアンプ２０８は発信信号を増幅することができ、その後、発信信号はアンテナ２１０を通じて送信されることが可能である。移動体通信ネットワークの受信信号は、アンテナ２１０によって受信され、１つまたは複数のアンプ２０８によって増幅され、トランシーバ２０６に供給されることが可能である。トランシーバ２０６またはベースバンド・プロセッサ２０２のどちらかは、受信信号をベースバンドに復調できる。

アプリケーション・プロセッサ２０４は、オペレーティング・システムおよび、本明細書に記載されたオフラインおよびオンラインの音声認識機能および／または翻訳機能を含むソフトウェア・アプリケーション（例えば、アプリストア１８を通じてダウンロードされた）を実行できる。アプリケーション・プロセッサ２０４は、タッチスクリーン・インターフェイス２３２用のソフトウェアを実行することもできる。アプリケーション・プロセッサ２０４は、ＲＡＭ２１２および不揮発性データ・ストレージ（例えば、ＲＯＭ）２１６のアプリケーションと通信することもできる。ＲＡＭ２１２は、特にプロセッサ２０４によって実行するために、アプリストア１８を通じてダウンロードされたオフライン音声翻訳およびオンライン音声翻訳用のアプリケーション・ソフトウェアを、オフライン処理に必要な自動音声認識モジュール、機械翻訳モジュール、および音声合成モジュール、ならびにオンライン処理でバックエンド音声翻訳サーバ・システム１６と通信するためのソフトウェアを含めて記憶できる。

さらに、アプリケーション・プロセッサ２０４は、Ｗｉ−Ｆｉ／ＢＬＵＥＴＯＯＴＨ（登録商標）トランシーバ２１８の組み合わせなど、他のハードウェア・デバイスと通信することができる。Ｗｉ−Ｆｉ／ＢＬＵＥＴＯＯＴＨトランシーバ２１８は、ＬＡＮとの無線周波数（ＲＦ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙ）通信（例えば、Ｗｉ−Ｆｉ規格または任意の適切な規格に従う）またはデバイス２００と別の無線デバイスとの間のダイレクトＲＦ通信（例えば、ＢＬＵＥＴＯＯＴＨ規格または任意の適切な規格に従う）を処理することができる。さまざまな実施形態では、デバイス２００は、デバイス１２の地理的位置を表す情報をアプリケーション・プロセッサ２０４に提供するために、衛星を利用したＧＰＳシステムとＧＰＳアンテナ２２３を通じて通信する、全地球測位システム（ＧＰＳ：ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）２２２を備えることもできる。タッチスクリーン２３２は、デバイス１２の出力を視覚的形式でユーザに提供すること、およびユーザから入力を受け取ることの両方を行うことができる。入力は、ユーザによ
るスクリーンのタッチを表す信号の形式にすることができる。音声コーデック・モジュール２２４は、音声信号をデコーディングおよび再生するためのハードウェアおよび／またはソフトウェアを提供できる。一部の実施形態では、コーデック２２４はデジタル・アナログ変換器を備えることもできる。音声出力信号は、音声出力信号を再生するために、デバイスのスピーカ１６、ならびに／もしくは一連のヘッドホンおよび／またはスピーカを接続できるジャック（図に示されていない）に供給されることが可能である。音声入力信号は、デバイスのマイクロホン１８を通じて供給されることが可能である。デバイスは、デジタル・カメラ２４０を備えることもできる。

特定の実施形態では、その他のさまざまなセンサが含まれることが可能である。磁気センサ２２６は、デバイスの近くの磁場を検出できる。例えば、磁気センサ２２６は、コンパスを実装するために、さまざまなアプリおよび／またはシステムの機能によって使用されることが可能である。加速度計２２８およびジャイロスコープ２３０は、デバイスの動きを表すデータを提供できる。例えば、加速度計２２８およびジャイロスコープ２３０からのデータは、タッチスクリーン２３２の表示の向き（例えば、縦長と横長）を定めるのに使用されることが可能である。デバイス２００は、バッテリ２３４から電力を供給されることが可能であり、バッテリ２３４は電源管理集積回路（ＰＭＩＣ：ＰｏｗｅｒＭａｎａｇｅｍｅｎｔＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）２３６によって管理されることが可能である。Ｉ／Ｏトランシーバ２３８は、例えばユニバーサル・シリアル・バス（ＵＳＢ：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）またはその他の適切な規格に従って、本デバイスとその他のデバイスとの間の有線通信を管理できる。コネクタ２３９は、有線接続を容易にすることができる。一部の実施形態では、コネクタ２３９およびＩ／Ｏトランシーバ２３８を通じた接続は、バッテリ２３４を充電するための電力を供給できる。

前述したように、さまざまな実施形態では、ユーザは、図２Ａおよび図２Ｂの例で示されたようにユーザ・コントロール４０を操作することなどによって、オンライン・モードとオフライン・モードとの間で切り替えることができる。オンライン処理は、可能な場合、言語モデルにおいてオンライン処理よりも多くの語彙を提供するが、オンライン処理は、ユーザによって入力された発話のデータが無線ネットワーク１４およびインターネットを通じて送信されないため、強化されたユーザ・プライバシーおよびユーザ・セキュリティを提供できる。翻訳アプリ・ソフトウェアは、さまざまな実施形態に記載の、クライアント・コンピューティング・デバイス１２がオンライン・モードとオフライン・モードとの間で自動的に切り替えることを可能にすることもできる。例えば、ユーザは、無線ネットワーク１４（例えば、適切なデータレート／接続速度でのネットワーク接続）が使用可能な場合にはオンライン動作モードが使用され、そうでない場合にはオフライン動作モードが使用されるように、アプリを設定できる。したがって、そのような実施形態では、図５のフローチャートの例に示されるように、クライアント・コンピューティング・デバイス１４が無線通信モード（例えば、ＷｉＦｉ、または３Ｇや４Ｇなどの携帯電話ネットワーク）である場合（工程５０）、クライアント・コンピューティング・デバイス１２のプロセッサは、メモリに記憶されたアプリ・ソフトウェアを実行してＷｉＦｉネットワークのデータレート／接続速度をチェックすることができ（工程５２）、データレート／接続速度がしきい値を上回っている場合はオンライン・モードが使用され（工程５４）、そうでない場合はオフライン・モードが使用される（工程５６）。このようにして、ユーザは自動化された継続的な翻訳機能を有し、オフライン・モードまたはオンライン・モードのどちらが使用されているかは、ユーザにとって透過的になる。クライアント・コンピューティング・デバイス１２は、特定の時間にどのモードが使用されているかを（前述したクラウドおよびクラウド無しのアイコンなどを使用して）視覚的に表示することができる。

その他の実施形態では、クライアント・コンピューティング・デバイス１２のプロセッ
サは、メモリに記憶されたアプリ・ソフトウェアを実行し、コスト（例えば、ローミング料金が適用されている場合、またはネットワーク接続が存在しない場合はオフライン動作モードが使用され、そうでない場合はオンライン・モードが使用される）、品質（例えば、話者に固有のオフライン・モデルやドメインに依存しない一般的なオンライン・モデルを使用するなど、より適切な翻訳モデル、音響モデル、または言語モデル）、位置（例えば、ＧＰＳシステム２２２によって決定されるＧＰＳ座標に基づく）、プライバシー（例えば、セキュリティで保護された無線ネットワークが使用可能な場合にのみオンライン・モードを使用する）、および／または時間（例えば、指定された時間帯では指定されたモードを使用する）などの、その他の要因に基づいて、オンライン動作モードとオフライン動作モードとの間で自動的に切り替えることができる。さまざまな実施形態では、クライアント・コンピューティング・デバイス１４のユーザは、設定することによってアプリを構成し、オンライン動作モードとオフライン動作モードとの間で自動的に遷移するために適用可能な条件を定めることができる。例えば、さまざまな実施形態では、ユーザは、常にオフライン・モードを使用すること（この場合、オンライン・モードは使用されない）、最も速いサービスを優先すること（この場合、無線ネットワークの接続速度がしきい値を超えた場合にのみオンライン・モードが使用される）、最も正確な翻訳（この場合、使用可能であれば必ずオンライン・モードが使用される）、コストを制限すること（この場合、例えば、ローミング料金が適用可され得る場合にオフライン・モードが使用される）を選択できる。そのようなユーザの選択は、プライバシー（データ転送）、品質（音声翻訳モデルのサイズおよび性能）、またはコスト（データ・ローミング）に関する考慮による影響を受ける可能性がある。

ハイブリッド型オフライン／オンライン翻訳システムの別の態様は、オフライン・モードのクライアント・コンピューティング・デバイス１２上で使用可能にされる言語ペアである。クライアント・コンピューティング・デバイス１２のメモリ・サイズ制限により、使用可能なすべての言語ペアをクライアント・コンピューティング・デバイス１２にダウンロードすることは、ほとんどの場合、現実的ではない。そのため、クライアント・コンピューティング・デバイス１２のユーザは、ユーザが必要とする選択された言語ペアのみをクライアント・コンピューティング・デバイス１２にダウンロードすることが望ましい。例えば、さまざまな実施形態では、ユーザはアプリストア１８を通じて使用可能なオフライン言語ペアを選択または購入できる。さまざまな実施形態では、ユーザは複数の言語ペア（例えば、ヨーロッパ、東南アジアなどの地理的領域内の言語、またはスペイン語のメキシコ・バージョンやスペイン・バージョン、ポルトガル語のポルトガル・バージョンやブラジル・バージョンなどの同じ言語のバージョン）を含むパッケージを購入することができ、その場合、パッケージに含まれるすべての言語ペア用のソフトウェア・アプリをクライアント・コンピューティング・デバイス１８にダウンロードできる。例えば、図４Ａは、ユーザがさまざまな翻訳言語ペアの購入を選択できるスクリーンショットの例を示し、図４Ｂは翻訳言語ペアのパッケージ（この例では世界パッケージ）のスクリーンショットの例を示している。ユーザがある言語ペアをクライアント・コンピューティング・デバイスから同じメモリに対して削除したい場合、さまざまな実施形態では、ユーザは、その言語ペアおよびそれに対応するモデルを、利用可能性を失うことなく、削除することができる。つまり、ユーザは、後日、それらのモデルを再びダウンロードできる。

一実施形態では、言語ペアをダウンロードするかどうかの選択はユーザに委ねられており、ユーザはオフライン翻訳用にクライアント・コンピューティング・デバイスにインストールされるペアを選択する。ユーザが選択された言語ペアのインストールをユーザが要求したが、十分なネットワーク接続が存在しなかった場合、クライアント・コンピューティング・デバイスはその要求を保存し、次にネットワーク接続が使用可能になったときに、そのペアをダウンロードするためのリマインダ・メッセージをユーザに発行する。リマインダ・メッセージは、選択された言語ペアのオフライン・バージョンをダウンロードす
るかどうかをユーザに尋ね、ユーザによって確認された場合に、ダウンロードを開始する。

別の実施形態では、クライアント・コンピューティング・デバイス１２自体が、ユーザ用のオフライン翻訳言語ペアを自動的に管理できる。例えば、クライアント・コンピューティング・デバイス１２は、世界各国で使用されている言語に関するデータを管理することができ、ユーザの位置に関係するオフライン言語ペアを自動的にダウンロードできる。例えば、ユーザがスペインにいることをＧＰＳシステム２２が示している場合、スペイン語のスペイン・バージョンがダウンロードされることが可能になるなどである。また、オフライン言語ペアは、例えばユーザの（旅行などに関する）カレンダ・データ、またはユーザの興味もしくは世界の特定の地域に移動する飛行機を示すウェブ検索データに基づいて自動的にダウンロードされることが可能である。

ユーザの位置（例えば、ＧＰＳデータに基づく）および／または興味（例えば、インターネット検索データおよび／または音声翻訳クエリに基づく）へのアクセスは、音声翻訳システムの言語の動作におけるカスタマイズも提供する。特定の単語、地名、および食品の種類が望ましい場合がある。特に名称（地名、人名）は、多かれ少なかれ位置に関係し、依存している可能性が高い（例えば、日本の場合は「カワサキ」、「ヤマモト」、スペインの場合は「マルチネス」、「ゴンザレス」など）。したがって、認識モデルおよび翻訳モデルのモデリング・パラメータ、最も重要なそれらの語彙および翻訳候補は、ユーザの位置および興味に基づいて調整されることが可能である。オンライン・モードにおいて、この調整は、確立された適応アルゴリズムを用いて、すべて使用中に動的に実行されることが可能である。ただし、オフライン・システムでは、モバイル・デバイスの効率性を実現するために、すべての単語が記憶されないようにする必要があり、メモリは節約されなければならない。したがって、さまざまな実施形態では、システムは、オフライン／組み込みシステムの場合でも、ネットワーク接続が使用可能な場合に、バックエンド音声翻訳システム１６からカスタマイズされたパラメータ・モデルをダウンロードし、語彙の項目、言語モデル、および変更された確率的音響パラメータを入れ替えることができる。

音声翻訳システムの最も多くのメモリを消費する側面は、通常、機械翻訳エンジンの翻訳テーブルと言語モデル、認識エンジンの音響モデルと言語モデル、および音声合成エンジンの音声パラメータによって与えられる。クライアント・コンピューティング・デバイス１２に展開されるオフライン翻訳アプリのモデルのサイズを減らすために、モデルの種類に応じて異なる手法が使用されることが可能である。音響モデルや言語モデルなど、モデル・パラメータとして確率を含むモデルは、確率の値の範囲が連続的空間から固定数の値の点のみを含む離散的空間にマッピングされるように、確率の値の範囲を量子化することによって、縮小されることが可能である。量子化係数に応じて、ストレージの要件は、１バイトまたは数数ビットだけに縮小されることが可能である。翻訳テーブルや言語モデルなど、語句を記憶するモデルは、効率的に実装されたプレフィックス・ツリーなどの記憶手法を使用できる。さらに、メモリ・マッピング手法が使用されることが可能であり、この手法は、モデルの小さい部分のみを必要に応じて動的にＲＡＭ２１２／２１４に読み込み、不要な部分を不揮発性ストレージ２１６にそのまま残す。

オフラインのクライアント・コンピューティング・デバイス上で実行するために、言語モデルおよび／または翻訳モデルを特定のサイズに縮小する別のより高度な手法は、語彙および単語のＮグラムを削除するか、または追加情報を加えることによってベース・モデルを拡張する、特殊なトリミング／拡張ヒューリスティック手法を使用することである。削除は、リソースが制限されているにもかかわらずユーザの最も可能性の高い単語や言い回しが依然とし表現されるようにする日和見的（Ｏｐｐｏｒｔｕｎｉｓｔｉｃ）方式で実行されることが可能であり、例えば、語彙をユーザ固有のサブセットのみに限定し、一般
的モデルのうち、この語彙によってカバーされる部分のみを選択すること、またはユーザ固有の情報をユーザのクエリから自動的に収集し、一般的モデルのうち、ユーザのクエリに密接に関連する部分を選択することによって実行されることが可能である。一方、拡張は、ユーザ固有の情報（例えば、ユーザの話し方に基づく）および／またはドメイン固有の情報（例えば、観光や人道支援での使用）および／または状況固有の情報（例えば、ＧＰＳ位置に基づく）および／または、サーバ上の上記の固有の情報のいずれにも関連しない一般的な情報を選択し、この（差分）情報のみをサーバからデバイスに転送し、この情報をデバイスに記憶されたベース・モデルに適用することによって、実行されることが可能である。

例えば、図６のフローチャートを参照すると、工程６０では、バックエンド音声翻訳サーバ・システム１６はユーザ・データを解析し、工程６２で、例えば、ユーザによく使用される単語および言い回しを維持したまま、または、よく使用されるサーバ上の翻訳および言い回しを抽出し、それらをクライアント・コンピューティング・デバイスに記憶されたベース・モデルに適用したまま、滅多に使用されない単語または言い回しを削除するように、ユーザのオフライン言語モデルおよび／または翻訳テーブルを更新するかどうかを決定することができる。前述したように、バックエンド音声翻訳サーバ・システム１６は、ユーザの翻訳クエリ（例えば、翻訳対象の言い回し）および／またはインターネット閲覧履歴を解析し、よく使用される（および、あまり使用されない）単語および言い回しを決定できる。そのため、さまざまな実施形態では、ユーザの翻訳クエリは、オフライン・モードにおいてクライアント・コンピューティング・デバイス１２によって保存および記憶され、バックエンド音声翻訳サーバ・システム１６によって解析されることを可能にするために、ネットワークへの接続中にバックエンド音声翻訳サーバ・システム１６にアップロードされることが可能である。同様に、ユーザのインターネット閲覧履歴（例えば、クッキー・データ）は、バックエンド音声翻訳サーバ・システム１６によって解析され、ユーザによく使用される（および、あまり使用されない）単語および言い回しを決定できるようにするために、ネットワークへの接続中にバックエンド音声翻訳サーバ・システム１６にアップロードされることが可能である。バックエンド音声翻訳サーバ・システム１６が、ユーザ・データの解析によって、クライアント・コンピューティング・デバイスのオフライン処理ソフトウェアの言語モデルおよび／または翻訳テーブルを更新することを決定した場合、更新されるソフトウェア（例えば、モデル）は、工程６４で（例えば、バックエンド音声翻訳サーバ・システム１６から）クライアント・コンピューティング・デバイスにダウンロードされる。すべてのモデルをダウンロードするのではなく、クライアント・コンピューティング・デバイス上のモデルを更新するのに必要な（差分）情報のみをダウンロードすることもできる。

同様に、例えばより一般的な音響モデルをより小さいユーザ固有の音響モデルに置き換えることによって、ユーザ固有の情報が音響モデルのサイズの縮小に役立つ場合もある。これは、ユーザ固有のデータの量に応じて、例えばＭＬＬＲなどの音響モデル適応技術を使用したり、新しい追加データを使用して音響モデルを完全に再トレーニングしたりすることによって実現できる。したがって、例えば、再び図６を参照すると、工程６６でバックエンド音声翻訳サーバ・システム１６が、ユーザ・データの解析に基づいてユーザのクライアント・コンピューティング・デバイス１２のオフライン・モードの音響モデルを変更することを決定した場合、更新されるソフトウェア（例えば、音響モデル）は、工程６８でクライアント・コンピューティング・デバイスに（例えば、バックエンド音声翻訳サーバ・システム１６から）ダウンロードされる。

音声間翻訳システムにおいて、最も速度を制限する要素は、音声信号の多くの音響の仮説および多くのタイム・スライスに対して検索を実行する音声認識アルゴリズムである。アルゴリズムの検索速度は、主に設定された音響モデルのサイズに左右される。クライア
ント・コンピューティング・デバイス１２上で音声間翻訳を実行する際のオフライン・システムの速度を維持するために、いくつかの手法が使用されることが可能である。例えば、一実施形態では、モデルと入力音声との間のマハラノビス距離を計算するために、必要に応じてこの距離を計算するのではなく、モデルのサイズに応じてルックアップ・テーブルが使用されることが可能である。さらに、オフライン・モードにおいて、評価される必要のあるモデル・パラメータ全体の量を減らすために、ガウス選択手法が使用されることが可能である。図６に関連して前述したように、ユーザ固有の情報が使用可能になるとすぐに、より小さくより効率的なユーザ固有のモデルが代わりに使用されることが可能になる。

さらに、さまざまな実施形態では、バックエンド音声翻訳システム１６は、オンライン・モード時に複数の音声認識エンジン（モジュール）および翻訳エンジン（モジュール）を使用し、組み合わせることができる。これらのバックエンドのエンジンは、例えば、同じ音声翻訳プロバイダによって提供されて同じサーバ上で実行されることが可能であり、または、他の実施形態では、３つの別々の独立したバックエンド音声翻訳システム１６を表した図８の例に示されるように、独立した音声翻訳プロバイダによってさまざまな位置で提供されることが可能である（ただし、他の実施形態では、さらに少ないか多いバックエンド音声翻訳システム１６が使用されることが可能である）。このような実施形態では、各バックエンド音声翻訳システム１６は、同時に翻訳を実行するようにインターネット１５を通じて要求されることが可能である。そのような実施形態では、各バックエンド音声翻訳システム１６が（例えば、インターネット１５を通じて）通信し、バックエンド音声翻訳システム１６のうちの１つが、各翻訳からより優れた翻訳を選択するか、各翻訳を結合する。複数のシステム／翻訳から決定するために、かつ／または組み合わせ内のどのシステムにどの程度重みを付けるかについて決定するために、ＡＳＲにおける信頼性基準およびＭＴの信頼性基準が使用されることが可能である。これらの信頼性基準は、ＡＳＲの仮説またはＭＴの仮説の信頼性の決定に使用される。このような実施形態で、２つ以上のＡＳＲエンジンまたはＭＴエンジンが併合される場合、ＡＳＲ出力を組み合わせる「ＲＯＶＥＲ」手法（例えば、ジェー．ジー．フィスカス、自動音声認識および理解に関するＩＥＥＥワークショップ、ｐｐ．３４７〜３５４、１９９７年、「単語誤り率を低減するための後処理システム：誤り低減を決定する認識装置出力（ＲＯＶＥＲ）」（Ｇ．Ｆｉｓｃｕｓ，“Ａｐｏｓｔ−ｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｔｏｙｉｅｌｄｒｅｄｕｃｅｄｅｒｒｏｒｗｏｒｄｒａｔｅｓ：Ｒｅｃｏｇｎｉｚｅｒｏｕｔｐｕｔｖｏｔｉｎｇｅｒｒｏｒｒｅｄｕｃｔｉｏｎ（ＲＯＶＥＲ），”ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎａｎｄＵｎｄｅｒｓｔａｎｄｉｎｇ，ｐｐ．３４７−３５４，１９９７）を参照）、１つのシステムのその他のシステムへの交差適応、またはＭＴシステムの組み合わせ技術（例えば、ロッシ他、ＮＡＡＣＬＨＬＴのプロシーディング、ｐｐ．２２８〜２３５、２００７年、「複数の機械翻訳システムからの出力の結合」（Ｒｏｓｔｉｅｔａｌ，”ＣｏｍｂｉｎｉｎｇＯｕｔｐｕｔｓｆｒｏｍＭｕｌｔｉｐｌｅＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎＳｙｓｔｅｍｓ，”Ｐｒｏｃ．ｏｆＮＡＡＣＬＨＬＴ，ｐｐ．２２８−２３５，２００７）およびケイ．ハーフィールド他、数理言語学のプラハ会報、第９３号、ｐｐ．２７〜３６、２０１０年、「機械翻訳出力とオープン・ソースの結合」（Ｋ．Ｈｅａｆｉｅｌｄｅｔａｌ．，“ＣｏｍｂｉｎｉｎｇＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎＯｕｔｐｕｔｗｉｔｈＯｐｅｎＳｏｕｒｃｅ，”ＰｒａｇｕｅＢｕｌｌｅｔｉｎｏｆＭａｔｈｅｍａｔｉｃａｌＬｉｎｇｕｉｓｔｉｃｓ，Ｎｏ．９３，ｐｐ．２７−３６，２０１０）を参照）など、システムの組み合わせが使用されることが可能である。このような実施形態では、選択されて組み合わされた仮説は、バックエンドで競い合い、ユーザにとって最適な出力を生成できる。これがオンライン・モードで実行されると、システムは、この方法で達成された最適な選択を、オフライン・システムに導入するために記憶する。結合されたオンライン・システム１６は、オフライ
ン・システムの学習用に、複数のＡＳＲエンジンの認識の仮説および／または複数のＭＴエンジンの翻訳の仮説をメモリに保持し、これらの仮説の組み合わせ、またはこれらの仮説のうちのより優れた仮説を使用して、新しいオフライン・システムを適応またはトレーニングする。このように再トレーニングまたは適応されたシステムは、その後、無線ネットワークが使用可能になったときに、オフライン・システムと交換されることが可能である。

したがって、一般的な１つの態様では、本発明は、ハイブリッド型オフライン／オンライン音声翻訳用の音声翻訳システムおよび音声翻訳方法を対象にする。さまざまな実施形態では、システムは、バックエンド音声翻訳サーバ・システムと、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムと通信するように構成されたクライアント・コンピューティング・デバイスとを備えることができる。クライアント・コンピューティング・デバイスは、マイクロホンと、マイクロホンに接続されたプロセッサと、プロセッサに接続され、プロセッサによって実行される命令を記憶するメモリと、プロセッサに接続されたスピーカとを備えることができる。クライアント・コンピューティング・デバイスは、第１の言語から第２の言語に翻訳するための入力語句（例えば、音声発話または入力テキスト）の翻訳を、例えばスピーカまたはテキスト表示フィールドを通じて出力するためのものである。メモリは命令を記憶し、第１の動作モード（オフライン・モード）において、プロセッサが命令を実行した場合、プロセッサは入力語句を第２の言語に翻訳して（例えば、スピーカを通じて）出力する。第２の動作モード（オンライン・モード）において、（ｉ）クライアント・コンピューティング・デバイスは、マイクロホンが受信した第１の言語の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信し、（ｉｉ）バックエンド音声翻訳サーバ・システムは、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて、第１の言語による入力語句の第２の言語への翻訳を決定し、（ｉｉｉ）バックエンド音声翻訳システムは、第１の言語による入力語句の第２の言語への翻訳に関するデータを無線ネットワークを通じてクライアント・コンピューティング・デバイスに送信し、クライアント・コンピューティング・デバイスは第１の言語による音声発話の第２の言語への翻訳を出力する。

さまざまな実装では、クライアント・コンピューティング・デバイスは、ユーザが第１の動作モードと第２の動作モードとの間で切り替えることができるようにするユーザ・インターフェイスを備える。あるいは、クライアント・コンピューティング・デバイスは、第１の動作モードまたは第２の動作モードのどちらを使用するかを、クライアント・コンピューティング・デバイスのユーザのユーザプリファレンス設定に基づいて自動的に選択する。さらに、クライアント・コンピューティング・デバイスは、第１の動作モードにおいて、第１の言語による音声発話を認識し、認識した音声発話を第２の言語に翻訳し、スピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶できる。また、バックエンド音声翻訳サーバ・システムは、第２の動作モードにおいて、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて、第１の言語による音声発話の第２の言語への翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備える。ローカル・モデルは、バックエンド・モデルとは異なる（例えば、サブセットまたはその他の変形）。

さらに、バックエンド音声翻訳サーバ・システムは、（ｉ）第１の言語から第２の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視し、（ｉｉ）クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうち
の少なくとも１つを、第１の言語から第２の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話の経時的な監視に基づいて更新するようにプログラムされることが可能である。クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスの位置を決定するためのＧＰＳシステムを備えることもできる。そのような実施形態では、バックエンド音声翻訳サーバ・システムは、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも１つを、クライアント・コンピューティング・デバイスの位置に基づいて更新するようにプログラムされることも可能である。クライアント・コンピューティング・デバイスのモデルのうちの少なくとも１つに対するそのような任意の更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信されることが可能である。

さらに、クライアント・コンピューティング・デバイスは、第１の言語および第２の言語を含む言語翻訳ペア用のアプリケーション・ソフトウェア（モデルを含む）を、特にクライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能である場合に、ダウンロードするように構成されることが可能である。また、クライアント・コンピューティング・デバイスがＧＰＳシステムを備える実施形態では、クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能である場合に、クライアント・コンピューティング・デバイスの決定された位置に基づいて言語翻訳ペア用のアプリケーション・ソフトウェアをダウンロードするように構成されることが可能である。

さらに、クライアント・コンピューティング・デバイスは、第１の言語表示セクションおよび第２の言語表示セクションが同時に表示されるグラフィカル・ユーザ・インターフェイスを備えることができる。第１の言語表示セクションおよび第２の言語表示セクションの各々は、ユーザがアクセスできる複数の言語のリスト表示を備えることができ、クライアント・コンピューティング・デバイスのユーザが第１の言語表示セクションのリスト表示から第１の言語を選択し、第２の言語表示セクションから第２の言語を選択すると、それによってクライアント・コンピューティング・デバイスは、入力音声発話を第１の言語から第２の言語に翻訳するように構成される。第１の（オフライン）動作モードにおいて使用できる言語は、第１の言語表示セクションおよび第２の言語表示セクションにおいて、第１の動作モードにおいて使用できない言語とは異なるように示される。

さらに、さまざまな実施形態では、バックエンド音声翻訳サーバ・システムは、複数のバックエンド音声翻訳サーバ・システムのうちの１つであり、クライアント・コンピューティング・デバイスは、無線ネットワークを通じて複数のバックエンド音声翻訳サーバ・システムの各々と通信するように構成される。第２の（オンライン）動作モードにおいて、複数のバックエンド音声翻訳サーバ・システムの各々は、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて、第１の言語による入力語句の第２の言語への翻訳を決定する。そのような環境では、複数のバックエンド音声翻訳サーバ・システムのうちの１つが、クライアント・コンピューティング・デバイスに送信するために複数のバックエンド音声翻訳サーバ・システムからの翻訳のうちの１つを選択するか、または複数のバックエンド音声翻訳サーバ・システムからの翻訳の２つ以上が併合されて、クライアント・コンピューティング・デバイスに送信するための併合された翻訳が生成される。

一般的な１つの態様では、音声翻訳方法は、第１の（オフライン）動作モードにおいて、（ｉ）クライアント・コンピューティング・デバイスが第１の言語による第１の入力語
句を受信する工程と、（ｉｉ）クライアント・コンピューティング・デバイスが第１の入力語句を第２の言語に翻訳する工程と、（ｉｉｉ）クライアント・コンピューティング・デバイスが第２の言語による第１の音声発話を（例えば、スピーカを通じて音声によって、かつ／またはテキスト表示フィールドを通じて視覚的に）出力する工程とを備える。さらに音声翻訳方法は、クライアント・コンピューティング・デバイスが第１の動作モードから第２の動作モードに遷移する工程を備え、第２の（オンライン）動作モードにおいて、（ｉｖ）クライアント・コンピューティング・デバイスが第１の言語による第２の入力語句を受信する工程と、（ｖ）クライアント・コンピューティング・デバイスが第２の入力語句に関するデータを無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信する工程と、（ｖｉ）クライアント・コンピューティング・デバイスが、バックエンド音声翻訳サーバ・システムによる第１の言語から第２の言語への第２の入力語句の翻訳に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムから受信する工程と、クライアント・コンピューティング・デバイスが第２の言語による第１の音声発話を出力する工程とを備える。

当業者にとっては、本明細書に記載された実施形態の少なくとも一部が、ソフトウェア、ファームウェア、および／またはハードウェアの多くのさまざまな実施形態で実装されることが可能であることは明らかである。ソフトウェアおよびファームウェア・コードは、プロセッサ回路またはその他の任意の同様のコンピューティング・デバイスによって実行されることが可能である。実施形態の実装に使用されることが可能なソフトウェア・コードまたは特殊な制御ハードウェアは、限定されない。例えば、本明細書に記載された実施形態は、従来技術やオブジェクト指向技術などを使用する任意の種類の適切なコンピュータ・ソフトウェア言語を使用して、コンピュータ・ソフトウェアで実装されることが可能である。それらのソフトウェアは、任意の種類の適切なコンピュータ可読媒体（例えば、磁気ストレージ媒体や光ストレージ媒体）に記憶されることが可能である。実施形態の操作および動作は、特定のソフトウェア・コードまたは特殊なハードウェア・構成要素への特定の参照を含まずに記載されることが可能である。当業者であれば、妥当な範囲を超える努力や過度の実験を行わずに、本明細書の記載内容に基づいてソフトウェアを設計し、ハードウェアを制御して、実施形態を実装できるであろうということが明確に理解されるため、そのような特定の参照がないことは適切である。

さらに、本実施形態に関連する処理は、コンピュータまたはコンピュータ・システム、モバイル・デバイス、スマートフォン、および／またはプロセッサなどのプログラム可能な機器によって実行されることが可能である。プログラム可能な機器で処理を実行できるようにするソフトウェアは、コンピュータ・システムの（不揮発性）メモリ、ＲＡＭ、ＲＯＭ、フラッシュ・メモリなどの任意のストレージ・デバイスに記憶されることが可能である。さらに、処理の少なくとも一部は、コンピュータ・システムが製造されるとき、または各種のコンピュータ可読媒体に記憶されるときに、プログラムされることが可能である。

「コンピュータ」、「コンピュータ・システム」、「ホスト」、「サーバ」、「プロセッサ」は、例えば、プロセッサ、マイクロコンピュータ、ミニコンピュータ、サーバ、メインフレーム、ラップトップ、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤａｔａＡｓｓｉｓｔａｎｔ）、無線電子メール・デバイス、携帯電話機、スマートフォン、タブレット、モバイル・デバイス、ポケットベル、プロセッサ、ファクス、スキャナ、またはネットワークを経由してデータを送信および／または受信するように構成されたその他の任意のプログラム可能なデバイスにすることができるが、これらに限定されない。本明細書で開示されたコンピュータ・システムおよびコンピュータベース・デバイスは、情報の取得、処理、および通信に使用される特定のソフトウェア・モジュールまたはソフトウェア・エンジンを記憶するために、メモリを含むことができる。そのようなメモリは、開示さ
れた実施形態の動作に対して内部または外部に存在できると理解されることが可能である。メモリは、ハード・ディスク、光ディスク、フロッピー（登録商標）（登録商標）ディスク、ＲＯＭ（読み取り専用メモリ）、ＲＡＭ（ランダム・アクセス・メモリ）、ＰＲＯＭ（プログラマブルＲＯＭ）、ＥＥＰＲＯＭ（電気的消去可能ＰＲＯＭ）、および／またはその他のコンピュータ可読媒体を含む、ソフトウェアを記憶するための任意の手段も含み得る。本明細書に記載されたソフトウェア・モジュールおよびソフトウェア・エンジンは、モジュールを記憶するメモリにアクセスするコンピュータ・デバイスの１つのプロセッサ（または、場合によっては複数のプロセッサ）によって実行されることが可能である。

本明細書で開示されたさまざまな実施形態において、特定の機能を実行するために、単一の構成要素が複数の構成要素に置き換えられることが可能であり、複数の構成要素が単一の構成要素に置き換えられることが可能である。そのような置き換えが有効でない場合を除き、そのような置き換えは実施形態の意図された範囲に含まれる。本明細書に記載された任意のサーバは、例えば、連携機能用に展開および構成された「サーバ・ファーム」またはその他のネットワーク・サーバのグループ（サーバ・ブレードなど）に置き換えられることが可能である。サーバ・ファームは、ファームの個々の構成要素間で、個々の構成要素にわたって作業負荷を分散し、複数のサーバが連携する全体的能力を利用して計算処理を速める働きをすると理解されることが可能である。そのようなサーバ・ファームは、例えば、異なるマシンからの処理能力に対する要求の追跡、ネットワーク要求に基づくタスクの優先順位付けとスケジューリング、および／または構成要素障害の発生時または操作性の低下時の緊急バックアップの提供などのタスクを実行する、負荷バランシング・ソフトウェアを使用できる。

本明細書にはさまざまな実施形態が記載されているが、当業者が少なくとも一部の利点を実現する際に、それらの実施形態に対するさまざまな修正、変更、および適応が発生する可能性があることは明らかである。したがって、開示された実施形態は、本明細書に記載された実施形態の範囲から逸脱することなく、そのような修正、変更、および適応をすべて含むよう意図されている。

Claims

バックエンド音声翻訳サーバ・システムと、
無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムと通信するように構成されたクライアント・コンピューティング・デバイスとを備える音声翻訳システムであって、前記クライアント・コンピューティング・デバイスは、
マイクロホンと、
前記マイクロホンに接続されたプロセッサと、
前記プロセッサに接続され、前記プロセッサによって実行される命令を記憶するメモリと、
前記プロセッサに接続されたスピーカとを備え、
前記クライアント・コンピューティング・デバイスは、第１の言語から第２の言語への入力語句の翻訳を前記スピーカを通じて出力するためのものであり、
前記メモリが命令を記憶し、前記命令によって、
第１の動作モードにおいて、前記プロセッサが前記命令を実行するとき、前記プロセッサが前記入力語句をユーザに出力するために前記第２の言語に翻訳し、
第２の動作モードにおいて、
前記クライアント・コンピューティング・デバイスは、前記クライアント・コンピューティング・デバイスが受信した前記第１の言語による前記入力語句に関するデータを、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムに送信し、
前記バックエンド音声翻訳サーバ・システムは、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスから受信した前記データに基づいて、前記第１の言語による前記入力語句の前記第２の言語への前記翻訳を決定し、
前記バックエンド音声翻訳サーバ・システムは、前記第１の言語による前記入力語句の前記第２の言語への前記翻訳に関するデータを、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスに送信し、前記クライアント・コンピューティング・デバイスは、前記第１の言語による前記入力語句の前記第２の言語への前記翻訳を出力し、
前記クライアント・コンピューティング・デバイスは、ユーザが前記第１の動作モードと前記第２の動作モードとの間で切り替えることを可能にするユーザ・インターフェイスを備えるか、
前記クライアント・コンピューティング・デバイスは、前記無線ネットワークへの接続状態または前記クライアント・コンピューティング・デバイスに対する前記ユーザのユーザプリファレンス設定に基づいて、前記第１の動作モードまたは前記第２の動作モードのどちらを使用するかを自動的に選択するか、またはその両方が行われる、音声翻訳システム。
前記入力語句は、
前記クライアント・コンピューティング・デバイスの前記マイクロホンによって取り込まれた入力音声発話、および前記クライアント・コンピューティング・デバイスのユーザ・インターフェイス上のテキスト入力フィールドを通じて入力されたテキストのうちの１つによって、
前記クライアント・コンピューティングに入力される、請求項１に記載の音声翻訳システム。
前記クライアント・コンピューティング・デバイスはスピーカを通じて音声で前記翻訳を出力する、請求項１または２に記載の音声翻訳システム。
前記クライアント・コンピューティング・デバイスは、前記第１の動作モードにおいて
、前記第１の言語による前記音声発話を認識し、認識した前記音声発話を前記第２の言語に翻訳し、前記クライアント・コンピューティング・デバイスの前記スピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶し、
前記バックエンド音声翻訳サーバ・システムは、前記第２の動作モードにおいて、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスから受信した前記データに基づいて、前記第１の言語による前記音声発話の前記第２の言語への前記翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備え、
前記ローカル音響モデルは前記バックエンド音響モデルとは異なっており、
前記ローカル言語モデルは前記バックエンド言語モデルとは異なっており、
前記ローカル翻訳モデルは前記バックエンド翻訳モデルとは異なっており、
前記ローカル音声合成モデルは前記バックエンド音声合成モデルとは異なっている、請求項１〜３のいずれか１項に記載の音声翻訳システム。
前記バックエンド音声翻訳サーバ・システムは、
前記第１の言語から前記第２の言語に翻訳するために前記クライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視し、
前記第１の言語から前記第２の言語に翻訳するために前記クライアント・コンピューティング・デバイスが受信した音声発話の経時的な前記監視に基づいて、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの少なくとも１つを更新するようにプログラムされ、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの前記少なくとも１つに対する更新は、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムから前記クライアント・コンピューティング・デバイスに送信される、請求項１〜４のいずれか１項に記載の音声翻訳システム。
前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルが、前記ユーザによる翻訳クエリの解析に基づいて更新される、請求項１〜５のいずれか１項に記載の音声翻訳システム。
前記クライアント・コンピューティング・デバイスは、前記クライアント・コンピューティング・デバイスの位置を決定するためのＧＰＳシステムを備え、
前記バックエンド音声翻訳サーバ・システムは、前記クライアント・コンピューティング・デバイスの前記位置に基づいて、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの少なくとも１つを更新するようにプログラムされ、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの前記少なくとも１つに対する更新は、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムから前記クライアント・コンピューティング・デバイスに送信される、請求項１〜６のいずれか１項に記載の音声翻訳システム。
前記バックエンド音声翻訳サーバ・システムは、複数のバックエンド音声翻訳サーバ・システムのうちの１つであり、前記クライアント・コンピューティング・デバイスは、無線ネットワークを通じて前記複数のバックエンド音声翻訳サーバ・システムの各々と通信するように構成され、
前記第２の動作モードにおいて、
前記複数のバックエンド音声翻訳サーバ・システムの各々は、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスから受信した前記データに基づいて、前記第１の言語による前記音声発話の前記第２の言語への翻訳を決定するためのものであり、
前記複数のバックエンド音声翻訳サーバ・システムのうちの１つは、前記クライアント・コンピューティング・デバイスに送信するために前記複数のバックエンド音声翻訳サーバ・システムからの前記翻訳のうちの１つを選択するか、または
前記複数のバックエンド音声翻訳サーバ・システムからの前記翻訳の２つ以上を併合し、前記クライアント・コンピューティング・デバイスに送信するための併合された翻訳を生成する、請求項１〜７のいずれか１項に記載の音声翻訳システム。
第１の動作モードにおいて、
クライアント・コンピューティング・デバイスが第１の言語による第１の入力語句を受信する工程と、
前記クライアント・コンピューティング・デバイスが前記第１の入力語句を第２の言語に翻訳する工程と、
前記クライアント・コンピューティング・デバイスが前記第１の入力語句を前記第２の言語で出力する工程と、
前記クライアント・コンピューティング・デバイスが前記第１の動作モードから前記第２の動作モードに遷移する、遷移工程とを備え、
前記第２の動作モードにおいて、
クライアント・コンピューティング・デバイスが第１の言語による第２の入力語句を受信する工程と、
前記クライアント・コンピューティング・デバイスが、前記第２の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信する工程と、
前記クライアント・コンピューティング・デバイスが、前記バックエンド音声翻訳サーバ・システムによる前記第１の言語から前記第２の言語への前記第２の入力語句の翻訳に関するデータを、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムから受信する工程と、
前記クライアント・コンピューティング・デバイスが前記第２の言語による前記第２の入力語句を出力する工程とを備える、音声翻訳方法。
前記クライアント・コンピューティング・デバイスは、前記第１の動作モードにおいて、前記第１の言語による前記入力音声発話を認識し、認識した前記入力音声発話を前記第２の言語に翻訳し、前記スピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶し、
前記バックエンド音声翻訳サーバ・システムが、前記第２の動作モードにおいて、前記無線ネットワークを通じて前記クライアント・コンピューティング・デバイスから受信した前記データに基づいて前記第１の言語による前記入力音声発話の前記第２の言語への前記翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備え、
前記方法は、
前記バックエンド音声翻訳サーバ・システムが、前記第１の言語から第２の言語に翻訳するために前記クライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視する工程と、
前記バックエンド音声翻訳サーバ・システムが、前記第１の言語から前記第２の言語に翻訳するために前記クライアント・コンピューティング・デバイスが受信した音声発話の経時的な前記監視に基づいて、前記クライアント・コンピューティング・デバイスの前記
ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの少なくとも１つを更新する工程とをさらに備え、前記クライアント・コンピューティング・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの前記少なくとも１つに対する更新は、前記無線ネットワークを通じて前記バックエンド音声翻訳サーバ・システムから前記クライアント・コンピューティング・デバイスに送信される、請求項９に記載の音声翻訳方法。
前記第１の言語および前記第２の言語を含む言語翻訳ペア用のアプリケーション・ソフトウェアを前記クライアント・コンピューティング・デバイスがダウンロードする、ダウンロード工程をさらに備える音声翻訳方法であって、特に、
前記ダウンロードする工程は、前記クライアント・コンピューティング・デバイスと前記バックエンド音声翻訳サーバ・システムとの間の適切な接続が前記無線ネットワークを通じて使用可能であるときに、前記言語翻訳ペア用の前記アプリケーション・ソフトウェアをダウンロードすることを含む、請求項１〜１０のいずれか１項に記載の音声翻訳方法。
前記クライアント・コンピューティング・デバイスが前記クライアント・コンピューティング・デバイスの位置を決定する工程と、前記クライアント・コンピューティング・デバイスと前記バックエンド音声翻訳サーバ・システムとの間の適切な接続が前記無線ネットワークを通じて使用可能であるときに、前記クライアント・コンピューティング・デバイスが、前記クライアント・コンピューティング・デバイスの決定された前記位置に基づいて前記言語翻訳ペア用の前記アプリケーション・ソフトウェアをダウンロードする工程とをさらに備える、請求項１１に記載の音声翻訳方法。
前記クライアント・コンピューティング・デバイスが、同時に表示される第１の言語表示セクションおよび第２の言語表示セクションを有するグラフィカル・ユーザ・インターフェイスを備え、
前記第１の言語表示セクションおよび前記第２の言語表示セクションの各々が、ユーザがアクセスできる複数の言語のリスト表示を備え、
前記方法は、前記第１の言語表示セクションの前記リスト表示からの前記第１の言語の選択、および前記第２の言語表示セクションの前記第２の言語の選択を、前記クライアント・コンピューティング・デバイスが前記グラフィカル・ユーザ・インターフェイスを通じて受け取る工程をさらに備え、それによって前記クライアント・コンピューティング・デバイスが、前記入力音声発話を前記第１の言語から前記第２の言語に翻訳するように構成される、請求項９〜１２のいずれか１項に記載の音声翻訳方法。
前記第１の動作モードにおいて使用可能な言語は、前記グラフィカル・ユーザ・インターフェイスの前記第１の言語表示セクションおよび前記第２の言語表示セクションにおいて、前記第１の動作モードにおいて使用できない言語とは異なるように視覚的に示される、請求項１３に記載の音声翻訳方法。
前記遷移工程は、前記クライアント・コンピューティング・デバイスのユーザ・インターフェイスを通じた入力に応答して前記第１の動作モードから前記第２の動作モードに遷移することである、請求項９〜１４のいずれか１項に記載の音声翻訳方法。