JP5149292B2

JP5149292B2 - 音声およびテキスト通信システム、方法および装置

Info

Publication number: JP5149292B2
Application number: JP2009523030A
Authority: JP
Inventors: モロイ、スティーブン; エル−マレー、クハレド・ヘルミ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2006-07-31
Filing date: 2007-07-31
Publication date: 2013-02-20
Anticipated expiration: 2027-07-31
Also published as: EP2047459A2; US20160111082A1; CN101496096A; WO2008016949A2; JP2010505134A; US20100030557A1; CN101496096B; KR20090036141A; KR101136769B1; WO2008016949A3; US9940923B2

Description

本開示は通信に関し、より特別には、音声およびテキスト通信システム、方法および装置に関する。

セルラ電話は、マイクロホンおよび／あるいはスピーチシンセサイザ（speech synthesizer）のようなオーディオ捕捉デバイス（audio capture device）、およびオーディオパケットあるいはフレームを発生するためのオーディオエンコーダ等を含むことが可能である。電話はパケットを無線通信チャネルを通してネットワークあるいは他の通信デバイスに送信するために通信プロトコルレイヤおよびモジュールを使用することができる。

一つの観点は、ボコーダ（vocoder）、スピーチ−テキスト変換エンジン（speech to text conversion engine）、テキスト−スピーチ変換エンジン（text to speech conversion engine）そしてユーザインタフェースに関する。ボコーダはスピーチ信号をパケットに変換し、そしてパケットをスピーチ信号に変換するように動作可能である。テキスト−スピーチ変換エンジンはテキストをスピーチに変換するように動作可能である。スピーチ−テキスト変換エンジンはスピーチをテキストに変換するように動作可能である。ユーザインタフェースは複数のモードの中からモードのユーザの選択を受信するように動作可能であり、ここで第１のモードはスピーチ−テキスト変換エンジンとして動作することが可能であり、第２のモードはテキスト−スピーチ変換エンジンとして動作することが可能であり、そして第３のモードはスピーチ−テキスト変換エンジンおよびテキスト−スピーチ変換エンジンとして動作することを可能にする。

他の観点は、スピーチ信号をパケットに変換しそしてパケットをスピーチ信号に変換するように動作が可能なボコーダ、スピーチをテキストに変換するように動作可能なスピーチ−テキスト変換エンジン、複数のモードの中からモードのユーザ選定を受信するように動作可能なユーザインタフェースとを含む装置に関係し、ここで第１のモードはボコーダを使用可能にし、そして第２のモードはスピーチ−テキスト変換エンジンを使用可能にし、そしてトランシーバは符号化されたスピーチパケットおよびテキストパケットを通信ネットワークに無線により送信するように動作可能にする。

他の観点は、パケットをスピーチ信号に変換するように動作可能なボコーダと、スピーチからテキストに変換するように動作可能なスピーチ−テキスト変換エンジンと、第１および第２のモード間で切り換えるように動作可能な選択ユニットとを含むネットワーク装置に関するものであり、ここで第１のモードはボコーダを使用可能にし、第２のモードはボコーダおよびスピーチ−テキスト変換エンジンを使用可能にし、そしてトランシーバが符号化されたスピーチパケットおよびテキストパケットを通信ネットワークに無線により送信するように動作可能にする。

方法に関する他の観点は、符号化されたスピーチパケットを受信し、受信され符号化されたスピーチパケットを受信すること、受信された符号化されたスピーチパケットをスピーチ信号に変換すること、そして複数のモードの中からモードのユーザ選択（user selection）を受信することを含む方法に関連し、ここで、第１のモードはスピーチからテキストへ変換を可能とし、第２のモードはテキストからスピーチへの変換を可能とし、そして第３のモードはスピーチからテキストおよびテキストからスピーチへの変換を可能とする。

一つあるいはそれより多くの実施例の詳細は、組み合わされた図面および以下の記述の中に示される。

図1は、第１の通信デバイス、ネットワーク、および第２の通信デバイスを含むシステムを説明している。図２は、図１の第２のデバイスを使用している方法を示している。図３は、図１の第１の通信デバイスの他の構成を示している。図４は、図１のネットワークの他の構成を示している。

［詳細な記述］
会議、航空機、列車、レストラン、教会あるいは他の場所において、移動デバイス上で呼を受信することは、他に対して混乱を生じさせるかも知れない。もしユーザが移動デバイス上の他のモードを選択し呼を受信し／あるいは呼に応答するために他のモードを選択することが可能であれば、混乱を生じさせる程度は大いに少なくなるであろう。一つのモードにおいて、デバイスは呼を受信し、そして他端における発呼者に対しテキストの入力要求することなしにスピーチ／音声信号（speech/voice signal）をテキストに変換する。

図１は、第１の通信デバイス１００、ネットワーク１１０および第２の通信デバイス１２０を含むシステムを示す。システムは他の構成要素を含むことができる。システムは移動通信のためのグローバルシステム（ＧＳＭ）、符号分割多元接続（ＣＤＭＡ）、ＣＤＭＡ２０００、ＣＤＭＡ２００１ｘＥＶ−ＤＯ、広帯域ＣＤＭＡ（ＷＣＤＭＡ）、直交周波数分割多元接続（ＯＦＤＭＡ），ブルートウース、ＷｉＦｉ、Ｗｉｍａｘ等の無線通信の任意の形式を使用することが可能である。

第１の通信デバイス１００は、ボイスコーダ（ボコーダ）（voice coder(vocoder)）１０２およびトランシーバ１０４を含む。第１の通信デバイス１００は図１に示されたコンポーネントに加えてあるいは代りに他のコンポーネントを含むことができる。第１の通信デバイス１００は、ランドライン（無線ではない）電話機（landline phone）、無線通信デバイス、パーソナルデジタルアシスタント（ＰＤＡ;personal digital assistant）、ハンドヘルドデバイス、ラップトップ計算機、デスクトップ計算機、デジタルカメラ、デジタル記録デバイス、地上をもととした無線電話(terrestrial-based radiotelephone)、直接２方向通信デバイス、（時としては、ウォーキートーキー(walkie-talkie)として参照される）カムコーダ(camcorder)、等で表されあるいは実行される。

ボコーダ１０２はスピーチ信号をパケットに符号化するためのエンコーダおよびパケットをスピーチ信号に復号するためのデコーダを含むことができる。ボコーダ１０２は、エンハンスド可変レートコーダ（ＥＶＲＣ;enhanced variable rate coder）、アダプティブマルチレート（ＡＭＲ;Adaptive Multi Rate）、第４世代のボコーダ（４ＧＶ;Fourth Generation vocoder）等の任意の形式のボコーダとすることができる。ボコーダは、ともに出願された米国特許６，３９７，１７５、６，４３４，５１９、６，４３８，５１８、６，４４９，５９２、６，４５６，９６４、６，４４７，５０２、６，５８４，４３８、６，６７８，６４９、６，６９１，０８４、６，８０４，２１８、６，９４７，８８８に記載されており，それらは参照によってこの中に組入れられている、
トランシーバ１０４は符号化された言語を含むパケットを無線により送信し、そして受信することができる。

ネットワーク１１０は１個あるいはそれ以上の基地局、基地局コントローラ（ＢＳＣｓ；base station controller）、移動スイッチングセンタ(ＭＳＣｓ;mobile switching center)等を表す。もしも第１のデバイス１００がランドライン電話機であれば、そこでネットワーク１１０は簡素な古い電話サービス（ＰＯＴＳ;plain old telephone service）ネットワークにおけるコンポーネントを含むことができる。ネットワーク１１０は、ボコーダ１１２およびトランシーバ１１４を含むことができる。ネットワーク１１０は、図１に示したコンポーネントに附加されあるいは代りになる他のコンポーネントを含むことができる。

第２の通信デバイス１２０は、無線通信デバイス、パーソナルデジタルアシスタント（ＰＤＡ；personal digital assistant）、ハンドヘルドデバイス、ラップトップ計算機、デスクトップ計算機、デジタルカメラ、デジタル記録デバイス、ネットワークイネーブルドデジタルテレビジョン、移動電話、セルラ電話機、衛星電話、カメラ電話、地上をもととした無線電話、直接２方向通信デバイス（時としてウォーキートーキーとして参照される）、カムコーダ等を表わしまたは実行することができる。

第２の通信デバイス１２０はトランシーバ１２４、スピーチおよびテキストユニット(speech and text unit)１４０、スピーカ１４２、ディスプレー１２８、ユーザ入力インターフェース、たとえばキーパッド（keypad）、およびマイクロホン１４６を含む。スピーチおよびテキストユニット１４０は、ボコーダ１２２、スピーチ−テキスト変換エンジン１２６、制御器１４４、テキスト−スピーチ変換エンジン１３２、および音声シンセサイザ１３４を含む。スピーチおよびテキストユニット１４０は図１に示されたコンポーネントに加えて、あるいは代りに他のコンポーネントを含むことができる。

スピーチおよびテキストユニット１４０の１個あるいはそれ以上のコンポーネントあるいは機能は、単一のモジュール、ユニット、コンポーネントあるいはソフトウェアに集積することができる。たとえば、スピーチ−テキスト変換エンジン１２６は、ボコーダ１２２と結合することができる。テキスト−スピーチ変換エンジン１３２は、テキストが符号化されたスピーチパケットに変換されるように、ボコーダ１２２と結合されることが可能である。音声シンセサイザー１３４はボコーダ１２２および／またはテキスト−スピーチ変換エンジン１３２と結合することができる。

スピーチ−テキスト変換エンジン１２６は、音声／スピーチをテキストに変換することができる。テキスト−スピーチ変換エンジン１３２は、テキストをスピーチに変換することが可能である。制御器１４４は、スピーチおよびテキストユニット１４０内の１個あるいはそれ以上のコンポーネントの動作やパラメータを制御することが可能である。

デバイス１２０はユーザにとって呼を受信しそして／あるいは呼に応答するため、下表あるいは図２に示されたように、通信のいくつかのモードを与えることができる。

ノーマルモードにおいては（ブロック２０２および２１０）、第２のデバイス１２０のユーザは第１のデバイス１００からの呼を受信し、スピーカ１４２からのスピーチを聞き、そしてマイクロホン１４６に話す。

図２は図１の第２のデバイス１２０を使用する方法を示している。第２のデバイス１２０が第１のデバイス１００から呼を受信するときは、第２のデバイスのユーザ１２０は、ブロック２００内のユーザインタフェース１３０を経由してモードの１個を選択することができる。代りにユーザは第２のデバイス１２０が他のデバイスから呼を受信する前に、ブロック２００内のモード間で切り換えることが可能である。たとえば、もし第２のデバイス１２０のユーザが、会議、航空機、鉄道、劇場、レストラン、教会または他の場所に入った場合、そこでは到来呼が他に比して混乱するかも知れず、ユーザはノーマルモードから他の３つのモードの１つに切り換えることができる。

第２のモードにおいて（ブロック２０４および２１２）、第２のデバイス１３０のユーザは、イヤピース、ヘッドセット、あるいはヘッドホンを使用する等により第１のデバイス１００からのスピーチを聞くことができるが、しかし話はしない。代りに、第２のデバイス１３０のユーザは、キーパッド１３０上でタイプすることができるか、あるいはディスプレイ１２８上の手書きテキスト（handwritten text）に入力するために書き込みペン（writing stylus）を使用することができる。ディスプレイ１２８またはスピーチ変換エンジン１３２は、手書きテキストあるいは文字を認識するモジュール有することができる。デバイス１２０は、（ａ）第１のデバイス１００にテキストを送付しあるいは、（ｂ）テキスト−スピーチ変換エンジン１３２を用いてテキストをスピーチに変換する。

音声シンセサイザ１３４は、ユーザの自然の音声に実質的に適合するように個人的スピーチ信号を生成するためにスピーチを合成することができる。音声シンセサイザ１３４は、ピッチ（pitch）のようなユーザの音声の特性（characteristics）を保存するためにメモリを含むことができる。音声シンセサイザは、共に付与された米国特許６，９５０，７９９に記述され、そしてそれは参照によって組込まれる。他の音声シンセサイザは共に付与された米国特許出願１１/３９８．３６４．に記述されており、そしてそれは参照によって組み込まれる。

ボコーダ１２２はパケット中にスピーチを符号化する。短い遅延があるかもしれず、あるいはないかもしれない。一つの構成において、短時間の遅延以外は、第２のデバイス１２０との通信は、第１のデバイス１００のユーザにとってシームレス（seamless）に見えるかも知れない。もしも第２のデバイス１２０のユーザは会議に参加していれば、会話はシームレスではなくよりメッセージベースであるかもしれない。

第３および第４のモードにおいて（ブロック２０６、２０８、２１４、および２１６）、デバイス１２０は呼を受信し、そしてスピーチ−テキスト変換エンジン１２６は、ディスプレー１２８上へのディスプレーのために、スピーチ／音声信号をテキストに変換する。一つの構成において、第３および第４のモードは、第１のデバイス１００のユーザが会話を継続しそして第１のデバイス１００のユーザがテキスト入力モードに切換えることを要求しないことを可能にすることができる。スピーチ−テキスト変換エンジン１２６は、ワードとサウンド(word and sound)を認識するため、これらをテキストに変換するための音声認識モジュールを含むことができる。

第３のモードにおいては、デバイス１２０はユーザがマイクロホン１４６に話すことを可能にし、そしてそれはスピーチをパケットに符号化するためボコーダ１２２に通す。

第４のモードにおいては、第２のデバイス１３０のユーザはキーパッド１３０の上でタイプすることが可能であり、あるいは、ディスプレー１２８上で手書きのテキストを入力するために書き込みペン（writing stylus）を使用することができる。デバイス１２０は、（ａ）テキストを第１のデバイス１００に送信すること、あるいは（ｂ）テキスト−スピーチ変換エンジン１３２を用いてテキストからスピーチへ変換することができる。音声シンセサイザ１３４は、実質的にユーザの自然な音声に適合するように、個人化されたスピーチ信号を生成するためにスピーチを合成することができる。ボコーダ１２２は、スピーチをパケット内に符号化する。

第２および第４のモードにおいて、第２のデバイス１２０がテキストをスピーチに変更しそしてスピーチを合成するようにセットされている場合、第２のデバイス１２０が第１のデバイス１００から呼を受入れる時と、そして第１のデバイス１００がスピーチパケットを受信するときとの間には遅延時間が存在する。第２のデバイス１２０は、第１のデバイス１００に、第２のデバイス１２０のユーザがミーティング中でありそしてスピーチ変換に対するテキストを使用して応答するであろうことを報告するために、ユーザによって予め記録されたメッセージをプレイするように形成されることが可能である。

第２および第４のモードは、バックグランド雑音のないスピーチを送信すること、エコーキャンセレーションの必要がないかあるいは少ない、雑音圧縮の必要性が無いか少ない、より速い符号化、より少ない処理等の、１個あるいはそれ以上の利点を与えることが可能である。

図１は、変更（新しい機能および／あるいはエレメント）が、第２の通信デバイス１２０のみの、どこで実行され得るかの例を示す。通信の新しいモード（第２、３、および第４のモード）を実現するために、第２の通信デバイス１２０はボコーダ１２２、スピーチからテキストへのエンジン１２６、テキストからスピーチへのエンジン１３２等を有する。このデバイス１２０を用いて、システムは新しいモードを、ネットワーク１１０および従来の電話１００（ランドライン、移動電話等）において、いかなる変更もなしにサポートすることが可能である。デバイス１２０は、ユーザによって選択されたモードに関係なく音声パケットを受信しＳ９おして送信することができる。

図３は、図１の第１の通信デバイス１００の他の配列１００Ａを示す。図３において、第１の通信デバイス１００Ａはスピーチ−テキスト変換エンジン３００、エンコーダ３０２、トランシーバ１０４、デコーダ３０４、およびユーザインタフェース３３０を含む。スピーチ−テキスト変換エンジン３００は、音声／スピーチから、トランシーバ１０４によってネットワーク１１０に送信されるべきテキストに変換することができる。図３の第１の通信デバイス１００Ａは、第２のデバイス１２０が、スピーチ−テキスト変換エンジン１２６なしにデザインされることを可能にする。図３における第１の通信デバイス１００Ａはスピーチの代りにテキストをネットワーク１１０に送ることによって帯域幅を節減することが可能である。ユーザインタフェース３３０は複数のユーザモードの中からモードのユーザ選択を受信するように動作可能であり、ここで第１のモードはボコーダ３０２、３０４を動作可能にし、そして第２のモードはスピーチ−テキスト変換エンジン３００を動作可能にする。

図４は図１のネットワーク１１０の他の構成１１０Ａを示す。図４において、ネットワーク１１０Ａは音声コーダ／デコーダ４００、トランシーバ１１４およびスピーチ−テキスト変換エンジン４０２を含む。他の構成において、ネットワーク１１０Ａはさらにテキスト−スピーチ変換エンジン４０４、ボイスシンセサイザ４０２および制御器４４４を含むことができる。ボコーダ４００は、スピーチ信号を与えるためにスピーチパケットを復号する。スピーチ−テキスト変換エンジン４０２は、トランシーバ１１４によって第２のデバイス１２０に送信されるべき音声／スピーチをテキストに変換することが可能である。図４のネットワーク１１０Ａは、第２のデバイス１２０がスピーチ−テキスト変換エンジン１２６なしに設計されることを可能にし、あるいはスピーチ−テキスト変換エンジン１２６が非活性にされることを可能にする。図４のネットワーク１１０Ａはスピーチの代りに第２のデバイス１２０にテキストを送ることによって帯域幅を節減することが可能である。

図４におけるネットワーク１１０Ａは、受信デバイス１２０の形状(configuration)、状態(situation)および優先性(preference)に関する知識を取得することができる。もしもネットワーク１１０Ａが、受信デバイス１２０が音声パケットを受信することから利益を受けないであろうことを認識するならば、（たとえば、ユーザの呼の優先性または位置を検出し、例えば、過度に雑音の多い環境、および受信されたスピーチを聞くに困難であること）そこでネットワーク１１０Ａは、音声パケットをテキストパケットに変更するであろう。たとえ、受信デバイス１２０が音声パケットをテキストパケットに変更する能力を有しているとしても（音声からテキストへのエンジン１２６を使用して）、このことは、もしもユーザがテキスト受信モード（ミーティング、あるいは一般的に無音の通信）にある場合は、帯域幅の損失およびこの変換をするために(音声からテキストへ）デバイス電力の損失がある。

このようにして図４におけるネットワーク１１０Ａは、変化(新しい特性および/あるいはエレメント）がネットワーク１１０Ａの中でのみ実行されるシステム、すなわち通信デバイスあるいは組立部品においては変化しない、においてに使用されるかもしれない。移動ハンドセットがスピーチ−テキスト変換ユニットを有していない場合、ネットワーク１１０Ａは、音声パケットをテキストに変換しそして反対について注意を払うことができ、あるいは移動ハンドセットがスピーチ−テキスト変換ユニットを有している場合、ハンドセットは変換することを委託しないか、あるいは計算機処理上のリソース、電池の電力等の不足のため変換を行なうことができない。

例えば、図１における第1のデバイス１００が音声パケットを送信しあるいは受信する（すなわち第1のモード）ことが可能であり、他方第２のデバイス１２０はテキスト（すなわち第４モード）を送信する。第２のデバイス１２０はユニット１４０を有することができない（あるいは、ボコーダ１２２のみを有する）か、あるいは不活性にされているユニット１４０を有する。第２のデバイス１２０が第４のモードで動作することを可能にするために、図４におけるネットワーク１１０Ａは、第２のデバイス１２０に送信するために（スピーチ−テキストエンジン４０２を使用して）第１デバイスの音声パケットをテキストパケットに変更し、そして第１のデバイス１００に送信するため（テキスト−スピーチエンジン４０４を使用して）第２のデバイス１２０からのテキストパケットを音声パケットに変換するであろう。

第２のデバイス１２０がユニット１４０を有していない場合、第２のデバイス１２０は必要とするモードをネットワーク１１０Ａに信号により伝え(例えば帯域内で）、そしてその結果ネットワーク１１０Ａにスピーチおよびテキストの間を変換すること、すなわちユニット１４０の機能を実行することを求める。

個性化されたスピーチの合成（personalized speech synthesis）はネットワーク１１０Ａ内で行うことができる。上に記述されたように、図１におけるユニット１４０は、テキスト−スピーチエンジン１３２の出力を個性化されたスピーチ（ユーザの音声）に変換するための音声シンセサイザ１３４を有する。図４のネットワーク１１０Ａを有するシステムにおいて、第２のデバイス１２０のユーザの声紋（voice signature）を運ぶ音声パケットを生成するため、第２のデバイス１２０は(第２あるいは第４のモードを使用する初めに) ネットワーク１１０Ａに対しユーザのスペクトルパラメータおよびピッチ情報（pitch information）を有する記憶された音声パケットを送信することができる。これらのごく少数の送信された音声パケット（テキストパケットに先立つ）は個性化された音声パケットを生成するためにネットワーク１１０Ａにより使用されることができる。

第２のデバイス１２０からネットワーク１１０Ａに対する第２あるいは第４のモードに関する送信パケットの例が記述される。第２のデバイス１２０は、ネットワーク１１０Ａに対し、これらの「テキストモード」(第２あるいは第４のモード)を使用するに先立って、ユーザが予め記憶した音声パケット（Ｎパケット）に加え動作モード（１，２，３あるいは４；変換を行うことの要求）を送信する。第２のデバイス１２０は続いてテキストパケットを送信するであろう。

２つの構成の組み合わせ(図1および図4）がまた可能である。これらのモードの1つを使用する場合、変換を行なう、またはネットワーク１１０Ａにさせる、または受信デバイス１００Ａが変換をおこなう、受信デバイス１２０の能力を判定した後（すなわち信号送信により要求を受信する）、ネットワーク１１０Ａはテキスト／スピーチ変換を動作可能にする。

上に記述した1個あるいはそれ以上のコンポーネントおよび特性は、プッシュツートーク（ＰＴＴ；push to talk）あるいはプッシュツーリード(push to read)通信デバイスによって実行されるであろう。ＰＴＴデバイスはユーザがデバイス上のプッシュボタンを押しそして通話することを可能にし、一方デバイスはスピーチをテキストに変換し、そしてテキストパケットをネットワークにまたは直接に他の通信デバイスに送信する。ＰＴＴ通信は、標準の音声呼のように、連続というよりは「メッセージに基づく”message based”」ものである。ユーザがデバイス上のＰＴＴボタンを押し下げている期間は、続いてテキストその他に変換されるメッセージをうまく組立てることができる。

デバイス１２０は、インストラクションおよびデータを保存するために、専用化されたハードウェア、ソホトウェア、ファームウェアあるいはそれらの組み合わせと同様に、専用のメモリを有することができる。ソフトウェア内で実行される場合は、この技術は、ランダムアクセスメモリ（ＲＡＭ）、読出専用メモリ（ＲＯＭ）、非揮発性ランダムメモリ（ＮＶＲＡＭ）、電気的に消去可能なプログラマブル読出専用メモリ（ＥＰＲＯＭ）、フラッシュメモリ、または同様の、計算機により読出可能な媒体上の命令として具体化することができる。この命令は1個あるいはそれ以上の処理装置に、この開示の中に記述された機能における特定の側面を実行させるようにする。

この開示のなかに記述された技術は、汎用マイクロ処理装置、デジタル信号処理装置（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＭＧＡ）あるいはその他の等価的論理デバイスの中で実行されることが可能である。たとえば、スピーチおよびテキストユニット１４０および組み合わされたコンポーネントおよびモジュールは、デジタルシグナルプロセッサ（ＤＳＰ）または他の処理デバイス上で動作することによってエンコーディングプロセス（encoding process）またはコーディング／デコーディング（coding/decoding）プロセスに関する部品として実行することが可能である。したがって、モジュールとして記述されたコンポーネントは、このようなプロセスまたは分離されたプロセスのプロブラマブル特性を形成することができる。

スピーチおよびテキストユニット１４０は、専用化されたハードウェア、ソフトウェア、ファームウェアあるいはそれらの組み合わせと同様に、インストラクションおよびデータを保存するための専用化されたメモリを有することができる。ソフトウェアによって実行された場合は、この技術は1個あるいはそれ以上のプロセッサによって実行可能な命令として具体化されるであろう。命令は、ランダムアクセスメモリ（ＲＡＭ）、呼び出し専用メモリ（ＲＯＭ）非揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、電気的に読出可能なプログラマブル読出専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気的あるいは光学的データ保存デバイス、または同様のもののような計算機によって読出可能な媒体上に保存されることができる。命令は、1個あるいはそれ以上の処理装置にこの開示の中に記述された特定の側面を実行させるようにする。

種々の実施例について記述した。これらおよび他の実施例はつぎの請求項の範囲内にある。

Claims

装置であって、
送信の場合には、入力スピーチ信号を送信される符号化されたスピーチパケットへ変換し、受信の場合には、受信された符号化されたスピーチパケットを出力スピーチ信号へ変換するボコーダと、
該出力スピーチ信号をテキストに変換するスピーチ−テキスト変換エンジンと、
入力テキストをスピーチに変換するテキスト−スピーチ変換エンジンと、
複数のモードの中からモードのユーザ選択を受信するユーザインタフェースと、
なお、第１のモードが該スピーチ−テキスト変換エンジンを使用可能にし、第２のモードが該テキスト−スピーチ変換エンジンを使用可能にし、そして第３のモードが該スピーチ−テキスト変換エンジンおよび該テキスト−スピーチ変換エンジンを使用可能にし、
第２または第３のモードが選択された場合に、該テキスト−スピーチ変換エンジンの出力から、ユーザの音声の特性に適合するスピーチを生成する音声シンセサイザと、生成されたスピーチは、送信のために該ボコーダに入力される、
を含み、
なお、該符号化されたスピーチパケットは、第１、第２および第３モードが該ユーザ選択により選択されることに関係なく、該装置により送信されそして受信される、装置。
該スピーチ−テキスト変換エンジンからのテキストを表示するディスプレーをさらに含む請求項1記載の装置。
ユーザからの該入力テキストを受信するためのキーパッドをさらに含む請求項1記載の装置。
該ユーザインタフェースは、該装置が他の装置から呼を受信する前に、モードのユーザ選択を受信する請求項1記載の装置。
該ユーザインタフェースは、該装置が他の装置からの呼を受信した後に、モードのユーザ選択を受信する請求項1記載の装置。
無線により送信された符号化されたスピーチパケットおよびテキストパケットを、通信ネットワークに無線により送信するトランシーバをさらに含む請求項1記載の装置。
ネットワーク装置であって、
符号化されたスピーチパケットをスピーチ信号に変換するボコーダと、
該スピーチ信号をテキストに変換するスピーチ−テキスト変換エンジンと、
テキストをスピーチに変換するテキスト−スピーチ変換エンジンと、
第１と第２のモード間で切り換える選択ユニットと、なお該第１のモードは該ボコーダを使用可能にし、そして第２のモードは該ボコーダおよび該スピーチ−テキスト変換エンジンを使用可能にし、
該符号化されたスピーチパケットを無線により受信し、テキストパケットを通信ネットワークに無線により送信するトランシーバと、
該テキスト−スピーチ変換エンジンの出力から、ユーザの音声の特性に適合するスピーチを生成する音声シンセサイザと、
受信装置または該通信ネットワークの少なくとも１つに関連する条件が検知された場合、該条件に基づき、該第１または第２のモードが選択されることに関係なく、該トランシーバに該テキストパケットを送信させる制御器と、ここで該条件は該通信ネットワークの節減帯域幅、計算機処理上のリソースの不足、および電池の電力のうちの１つである、
を含むネットワーク装置。
該選択ユニットは、該ボコーダおよび両方の変換エンジンが使用可能にされる第３のモードに切り換える、請求項７記載のネットワーク装置。
該音声シンセサイザはユーザの音声の音声特性を受信しそして保存する請求項７記載のネットワーク装置。
該制御器はスピーチからテキストに変換するために通信デバイスからの要求を受信する請求項７記載のネットワーク装置。
該制御器はテキストからスピーチに変換のために通信デバイスからの要求を受信する請求項７記載のネットワーク装置。
方法であって、
通信ネットワークから符号化されたスピーチパケットを受信することと、
該受信された符号化されたスピーチパケットをスピーチ信号に変換することと、
ユーザからテキスト入力を受信することと、
複数のモードの中からユーザのモード選択を受信することと、第１のモードはスピーチからテキストへの変換を使用可能にし、第２のモードはテキストからスピーチへの変換を使用可能にし、そして第３のモードはスピーチからテキストへの、そしてテキストからスピーチへの変換を可能にし、
該第２または第３のモードが選択された場合、該ユーザからの入力テキストからスピーチへの変換により得られたスピーチから、ユーザの音声の特性に適合するスピーチを生成することと、
を備え、
該符号化されたスピーチパケットは該ユーザ選択により該第１、第２、そして第３のモードが選択されることに関係なく、該通信ネットワークにおいて通信される方法。
到来する呼を受信する前に、モードに対するユーザ選択を受信することをさらに含む請求項１２記載の方法。
到来する呼を受信した後に、モードに対するユーザ選択を受信することをさらに含む請求項１２記載の方法。
装置であって、
送信の場合には、入力スピーチ信号を送信される符号化されたスピーチパケットへ変換し、受信の場合には、受信された符号化されたスピーチパケットを出力スピーチ信号へ変換する第１の手段と、
該出力スピーチ信号をテキストに変換する第２の手段と、
入力テキストをスピーチに変換する第３の手段と、
複数のモードの中からモードのユーザ選択を受信する第４の手段と、なお、第１のモードは該第２の手段を動作可能にし、第２のモードは該第３の手段を動作可能にし、第３のモードは該第２の手段及び第３の手段を動作可能にし、
該第２または第３モードが選択された場合、該第３の手段の出力から、ユーザの音声の特性に適合するスピーチを生成する第５の手段と、生成されたスピーチは、送信のために該第１の手段に入力される、
を備え、
なお、該符号化されたスピーチパケットは、第１、第２および第３モードが該ユーザ選択により選択されることに関係なく、該装置により送信されそして受信される、装置。
その上に実行可能な命令を記憶するコンピュータ可読記憶媒体であって、
該命令は、
コンピュータに、送信の場合には、入力スピーチ信号を送信される符号化されたスピーチパケットへ変換し、受信の場合には、受信された符号化されたスピーチパケットを出力スピーチ信号へ変換するボコーダとして機能させるコードと、
該コンピュータに、該出力スピーチ信号をテキストに変換するスピーチ−テキスト変換エンジンコードとして機能させるコードと、
該コンピュータに、入力テキストをスピーチに変換するテキスト−スピーチ変換エンジンとして機能させるコードと、
該コンピュータに、複数のモードの中からモードのユーザ選択を受信させるコードと、なお、第１のモードは該スピーチ−テキスト変換エンジンを動作可能にし、第２のモードは該テキスト−スピーチ変換エンジンを動作可能にし、第３のモードは該スピーチ−テキスト変換エンジンおよび該テキスト−スピーチ変換エンジンを動作可能にし、
該コンピュータに、該第２または第３モードが選択された場合、該テキスト−スピーチ変換エンジンの出力から、ユーザの音声の特性に適合するスピーチを生成させるコードと、生成されたスピーチは、送信のために該ボコーダに入力される
を含み、
該符号化されたスピーチパケットは、第１、第２および第３モードが該ユーザ選択により選択されることに関係なく、該コンピュータにより送信されそして受信される、コンピュータ可読記憶媒体。
該ユーザインターフェイスは、第２の装置がテキストからスピーチへのモードで動作することをユーザに通知する予め記憶されたメッセージとしてプレイする、請求項１記載の装置。