JP2010505134A

JP2010505134A - 音声およびテキスト通信システム、方法および装置

Info

Publication number: JP2010505134A
Application number: JP2009523030A
Authority: JP
Inventors: モロイ、スティーブン; エル−マレー、クハレド・ヘルミ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2006-07-31
Filing date: 2007-07-31
Publication date: 2010-02-18
Anticipated expiration: 2027-07-31
Also published as: WO2008016949A3; US9940923B2; JP5149292B2; CN101496096A; US20160111082A1; KR20090036141A; KR101136769B1; EP2047459A2; WO2008016949A2; CN101496096B; US20100030557A1

Abstract

本開示はスピーチをテキストに変換し、およびその逆を行うためのシステム方法および装置に関する。一つの装置はボコーダ、スピーチをテキストに変換するエンジン、テキストからスピーチへの変換エンジン、およびユーザインタフェースを含む。ボコーダはスピーチ信号をパケットの中に変換するように動作可能である。スピーチ−テキスト変換エンジンは、スピーチをテキストに変換するように動作可能である。テキスト−スピーチ変換エンジンはテキストをスピーチに変換することが可能である。ユーザインタフェースは、複数のモードの中からユーザ選択を受信することが可能である。ここで、第１のモードはスピーチ−テキスト変換エンジンを使用可能にし、第２のモードは、テキスト−スピーチ変換エンジンを使用可能にし、そして第３のモードはスピーチ−テキスト変換エンジンおよびテキスト−スピーチ変換エンジンを使用可能にする。

Description

本開示は通信に関し、より特別には、音声およびテキスト通信システム、方法および装置に関する。

セルラ電話は、マイクロホンおよび／あるいはスピーチシンセサイザ（speech synthesizer）のようなオーディオ捕捉デバイス（audio capture device）、およびオーディオパケットあるいはフレームを発生するためのオーディオエンコーダ等を含むことが可能である。電話はパケットを無線通信チャネルを通してネットワークあるいは他の通信デバイスに送信するために通信プロトコルレイヤおよびモジュールを使用することができる。

一つの観点は、ボコーダ（vocoder）、スピーチ−テキスト変換エンジン（speech to text conversion engine）、テキスト−スピーチ変換エンジン（text to speech conversion engine）そしてユーザインタフェースに関する。ボコーダはスピーチ信号をパケットに変換し、そしてパケットをスピーチ信号に変換するように動作可能である。テキスト−スピーチ変換エンジンはテキストをスピーチに変換するように動作可能である。スピーチ−テキスト変換エンジンはスピーチをテキストに変換するように動作可能である。ユーザインタフェースは複数のモードの中からモードのユーザの選択を受信するように動作可能であり、ここで第１のモードはスピーチ−テキスト変換エンジンとして動作することが可能であり、第２のモードはテキスト−スピーチ変換エンジンとして動作することが可能であり、そして第３のモードはスピーチ−テキスト変換エンジンおよびテキスト−スピーチ変換エンジンとして動作することを可能にする。

他の観点は、スピーチ信号をパケットに変換しそしてパケットをスピーチ信号に変換するように動作が可能なボコーダ、スピーチをテキストに変換するように動作可能なスピーチ−テキスト変換エンジン、複数のモードの中からモードのユーザ選定を受信するように動作可能なユーザインタフェースとを含む装置に関係し、ここで第１のモードはボコーダを使用可能にし、そして第２のモードはスピーチ−テキスト変換エンジンを使用可能にし、そしてトランシーバは符号化されたスピーチパケットおよびテキストパケットを通信ネットワークに無線により送信するように動作可能にする。

他の観点は、パケットをスピーチ信号に変換するように動作可能なボコーダと、スピーチからテキストに変換するように動作可能なスピーチ−テキスト変換エンジンと、第１および第２のモード間で切り換えるように動作可能な選択ユニットとを含むネットワーク装置に関するものであり、ここで第１のモードはボコーダを使用可能にし、第２のモードはボコーダおよびスピーチ−テキスト変換エンジンを使用可能にし、そしてトランシーバが符号化されたスピーチパケットおよびテキストパケットを通信ネットワークに無線により送信するように動作可能にする。

方法に関する他の観点は、符号化されたスピーチパケットを受信し、受信され符号化されたスピーチパケットを受信すること、受信された符号化されたスピーチパケットをスピーチ信号に変換すること、そして複数のモードの中からモードのユーザ選択（user selection）を受信することを含む方法に関連し、ここで、第１のモードはスピーチからテキストへ変換を可能とし、第２のモードはテキストからスピーチへの変換を可能とし、そして第３のモードはスピーチからテキストおよびテキストからスピーチへの変換を可能とする。

一つあるいはそれより多くの実施例の詳細は、組み合わされた図面および以下の記述の中に示される。

図1は、第１の通信デバイス、ネットワーク、および第２の通信デバイスを含むシステムを説明している。図２は、図１の第２のデバイスを使用している方法を示している。図３は、図１の第１の通信デバイスの他の構成を示している。図４は、図１のネットワークの他の構成を示している。

［詳細な記述］
会議、航空機、列車、レストラン、教会あるいは他の場所において、移動デバイス上で呼を受信することは、他に対して混乱を生じさせるかも知れない。もしユーザが移動デバイス上の他のモードを選択し呼を受信し／あるいは呼に応答するために他のモードを選択することが可能であれば、混乱を生じさせる程度は大いに少なくなるであろう。一つのモードにおいて、デバイスは呼を受信し、そして他端における発呼者に対しテキストの入力要求することなしにスピーチ／音声信号（speech/voice signal）をテキストに変換する。

図１は、第１の通信デバイス１００、ネットワーク１１０および第２の通信デバイス１２０を含むシステムを示す。システムは他の構成要素を含むことができる。システムは移動通信のためのグローバルシステム（ＧＳＭ）、符号分割多元接続（ＣＤＭＡ）、ＣＤＭＡ２０００、ＣＤＭＡ２００１ｘＥＶ−ＤＯ、広帯域ＣＤＭＡ（ＷＣＤＭＡ）、直交周波数分割多元接続（ＯＦＤＭＡ），ブルートウース、ＷｉＦｉ、Ｗｉｍａｘ等の無線通信の任意の形式を使用することが可能である。

第１の通信デバイス１００は、ボイスコーダ（ボコーダ）（voice coder(vocoder)）１０２およびトランシーバ１０４を含む。第１の通信デバイス１００は図１に示されたコンポーネントに加えてあるいは代りに他のコンポーネントを含むことができる。第１の通信デバイス１００は、ランドライン（無線ではない）電話機（landline phone）、無線通信デバイス、パーソナルデジタルアシスタント（ＰＤＡ;personal digital assistant）、ハンドヘルドデバイス、ラップトップ計算機、デスクトップ計算機、デジタルカメラ、デジタル記録デバイス、地上をもととした無線電話(terrestrial-based radiotelephone)、直接２方向通信デバイス、（時としては、ウォーキートーキー(walkie-talkie)として参照される）カムコーダ(camcorder)、等で表されあるいは実行される。

ボコーダ１０２はスピーチ信号をパケットに符号化するためのエンコーダおよびパケットをスピーチ信号に復号するためのデコーダを含むことができる。ボコーダ１０２は、エンハンスド可変レートコーダ（ＥＶＲＣ;enhanced variable rate coder）、アダプティブマルチレート（ＡＭＲ;Adaptive Multi Rate）、第４世代のボコーダ（４ＧＶ;Fourth Generation vocoder）等の任意の形式のボコーダとすることができる。ボコーダは、ともに出願された米国特許６，３９７，１７５、６，４３４，５１９、６，４３８，５１８、６，４４９，５９２、６，４５６，９６４、６，４４７，５０２、６，５８４，４３８、６，６７８，６４９、６，６９１，０８４、６，８０４，２１８、６，９４７，８８８に記載されており，それらは参照によってこの中に組入れられている、
トランシーバ１０４は符号化された言語を含むパケットを無線により送信し、そして受信することができる。

ネットワーク１１０は１個あるいはそれ以上の基地局、基地局コントローラ（ＢＳＣｓ；base station controller）、移動スイッチングセンタ(ＭＳＣｓ;mobile switching center)等を表す。もしも第１のデバイス１００がランドライン電話機であれば、そこでネットワーク１１０は簡素な古い電話サービス（ＰＯＴＳ;plain old telephone service）ネットワークにおけるコンポーネントを含むことができる。ネットワーク１１０は、ボコーダ１１２およびトランシーバ１１４を含むことができる。ネットワーク１１０は、図１に示したコンポーネントに附加されあるいは代りになる他のコンポーネントを含むことができる。

第２の通信デバイス１２０は、無線通信デバイス、パーソナルデジタルアシスタント（ＰＤＡ；personal digital assistant）、ハンドヘルドデバイス、ラップトップ計算機、デスクトップ計算機、デジタルカメラ、デジタル記録デバイス、ネットワークイネーブルドデジタルテレビジョン、移動電話、セルラ電話機、衛星電話、カメラ電話、地上をもととした無線電話、直接２方向通信デバイス（時としてウォーキートーキーとして参照される）、カムコーダ等を表わしまたは実行することができる。

第２の通信デバイス１２０はトランシーバ１２４、スピーチおよびテキストユニット(speech and text unit)１４０、スピーカ１４２、ディスプレー１２８、ユーザ入力インターフェース、たとえばキーパッド（keypad）、およびマイクロホン１４６を含む。スピーチおよびテキストユニット１４０は、ボコーダ１２２、スピーチ−テキスト変換エンジン１２６、制御器１４４、テキスト−スピーチ変換エンジン１３２、および音声シンセサイザ１３４を含む。スピーチおよびテキストユニット１４０は図１に示されたコンポーネントに加えて、あるいは代りに他のコンポーネントを含むことができる。

スピーチおよびテキストユニット１４０の１個あるいはそれ以上のコンポーネントあるいは機能は、単一のモジュール、ユニット、コンポーネントあるいはソフトウェアに集積することができる。たとえば、スピーチ−テキスト変換エンジン１２６は、ボコーダ１２２と結合することができる。テキスト−スピーチ変換エンジン１３２は、テキストが符号化されたスピーチパケットに変換されるように、ボコーダ１２２と結合されることが可能である。音声シンセサイザー１３４はボコーダ１２２および／またはテキスト−スピーチ変換エンジン１３２と結合することができる。

スピーチ−テキスト変換エンジン１２６は、音声／スピーチをテキストに変換することができる。テキスト−スピーチ変換エンジン１３２は、テキストをスピーチに変換することが可能である。制御器１４４は、スピーチおよびテキストユニット１４０内の１個あるいはそれ以上のコンポーネントの動作やパラメータを制御することが可能である。

デバイス１２０はユーザにとって呼を受信しそして／あるいは呼に応答するため、下表あるいは図２に示されたように、通信のいくつかのモードを与えることができる。

ノーマルモードにおいては（ブロック２０２および２１０）、第２のデバイス１２０のユーザは第１のデバイス１００からの呼を受信し、スピーカ１４２からのスピーチを聞き、そしてマイクロホン１４６に話す。

図２は図１の第２のデバイス１２０を使用する方法を示している。第２のデバイス１２０が第１のデバイス１００から呼を受信するときは、第２のデバイスのユーザ１２０は、ブロック２００内のユーザインタフェース１３０を経由してモードの１個を選択することができる。代りにユーザは第２のデバイス１２０が他のデバイスから呼を受信する前に、ブロック２００内のモード間で切り換えることが可能である。たとえば、もし第２のデバイス１２０のユーザが、会議、航空機、鉄道、劇場、レストラン、教会または他の場所に入った場合、そこでは到来呼が他に比して混乱するかも知れず、ユーザはノーマルモードから他の３つのモードの１つに切り換えることができる。

第２のモードにおいて（ブロック２０４および２１２）、第２のデバイス１３０のユーザは、イヤピース、ヘッドセット、あるいはヘッドホンを使用する等により第１のデバイス１００からのスピーチを聞くことができるが、しかし話はしない。代りに、第２のデバイス１３０のユーザは、キーパッド１３０上でタイプすることができるか、あるいはディスプレイ１２８上の手書きテキスト（handwritten text）に入力するために書き込みペン（writing stylus）を使用することができる。ディスプレイ１２８またはスピーチ変換エンジン１３２は、手書きテキストあるいは文字を認識するモジュール有することができる。デバイス１２０は、（ａ）第１のデバイス１００にテキストを送付しあるいは、（ｂ）テキスト−スピーチ変換エンジン１３２を用いてテキストをスピーチに変換する。

音声シンセサイザ１３４は、ユーザの自然の音声に実質的に適合するように個人的スピーチ信号を生成するためにスピーチを合成することができる。音声シンセサイザ１３４は、ピッチ（pitch）のようなユーザの音声の特性（characteristics）を保存するためにメモリを含むことができる。音声シンセサイザは、共に付与された米国特許６，９５０，７９９に記述され、そしてそれは参照によって組込まれる。他の音声シンセサイザは共に付与された米国特許出願１１/３９８．３６４．に記述されており、そしてそれは参照によって組み込まれる。

ボコーダ１２２はパケット中にスピーチを符号化する。短い遅延があるかもしれず、あるいはないかもしれない。一つの構成において、短時間の遅延以外は、第２のデバイス１２０との通信は、第１のデバイス１００のユーザにとってシームレス（seamless）に見えるかも知れない。もしも第２のデバイス１２０のユーザは会議に参加していれば、会話はシームレスではなくよりメッセージベースであるかもしれない。

第３および第４のモードにおいて（ブロック２０６、２０８、２１４、および２１６）、デバイス１２０は呼を受信し、そしてスピーチ−テキスト変換エンジン１２６は、ディスプレー１２８上へのディスプレーのために、スピーチ／音声信号をテキストに変換する。一つの構成において、第３および第４のモードは、第１のデバイス１００のユーザが会話を継続しそして第１のデバイス１００のユーザがテキスト入力モードに切換えることを要求しないことを可能にすることができる。スピーチ−テキスト変換エンジン１２６は、ワードとサウンド(word and sound)を認識するため、これらをテキストに変換するための音声認識モジュールを含むことができる。

第３のモードにおいては、デバイス１２０はユーザがマイクロホン１４６に話すことを可能にし、そしてそれはスピーチをパケットに符号化するためボコーダ１２２に通す。

第４のモードにおいては、第２のデバイス１３０のユーザはキーパッド１３０の上でタイプすることが可能であり、あるいは、ディスプレー１２８上で手書きのテキストを入力するために書き込みペン（writing stylus）を使用することができる。デバイス１２０は、（ａ）テキストを第１のデバイス１００に送信すること、あるいは（ｂ）テキスト−スピーチ変換エンジン１３２を用いてテキストからスピーチへ変換することができる。音声シンセサイザ１３４は、実質的にユーザの自然な音声に適合するように、個人化されたスピーチ信号を生成するためにスピーチを合成することができる。ボコーダ１２２は、スピーチをパケット内に符号化する。

第２および第４のモードにおいて、第２のデバイス１２０がテキストをスピーチに変更しそしてスピーチを合成するようにセットされている場合、第２のデバイス１２０が第１のデバイス１００から呼を受入れる時と、そして第１のデバイス１００がスピーチパケットを受信するときとの間には遅延時間が存在する。第２のデバイス１２０は、第１のデバイス１００に、第２のデバイス１２０のユーザがミーティング中でありそしてスピーチ変換に対するテキストを使用して応答するであろうことを報告するために、ユーザによって予め記録されたメッセージをプレイするように形成されることが可能である。

第２および第４のモードは、バックグランド雑音のないスピーチを送信すること、エコーキャンセレーションの必要がないかあるいは少ない、雑音圧縮の必要性が無いか少ない、より速い符号化、より少ない処理等の、１個あるいはそれ以上の利点を与えることが可能である。

図１は、変更（新しい機能および／あるいはエレメント）が、第２の通信デバイス１２０のみの、どこで実行され得るかの例を示す。通信の新しいモード（第２、３、および第４のモード）を実現するために、第２の通信デバイス１２０はボコーダ１２２、スピーチからテキストへのエンジン１２６、テキストからスピーチへのエンジン１３２等を有する。このデバイス１２０を用いて、システムは新しいモードを、ネットワーク１１０および従来の電話１００（ランドライン、移動電話等）において、いかなる変更もなしにサポートすることが可能である。デバイス１２０は、ユーザによって選択されたモードに関係なく音声パケットを受信しＳ９おして送信することができる。

図３は、図１の第１の通信デバイス１００の他の配列１００Ａを示す。図３において、第１の通信デバイス１００Ａはスピーチ−テキスト変換エンジン３００、エンコーダ３０２、トランシーバ１０４、デコーダ３０４、およびユーザインタフェース３３０を含む。スピーチ−テキスト変換エンジン３００は、音声／スピーチから、トランシーバ１０４によってネットワーク１１０に送信されるべきテキストに変換することができる。図３の第１の通信デバイス１００Ａは、第２のデバイス１２０が、スピーチ−テキスト変換エンジン１２６なしにデザインされることを可能にする。図３における第１の通信デバイス１００Ａはスピーチの代りにテキストをネットワーク１１０に送ることによって帯域幅を節減することが可能である。ユーザインタフェース３３０は複数のユーザモードの中からモードのユーザ選択を受信するように動作可能であり、ここで第１のモードはボコーダ３０２、３０４を動作可能にし、そして第２のモードはスピーチ−テキスト変換エンジン３００を動作可能にする。

図４は図１のネットワーク１１０の他の構成１１０Ａを示す。図４において、ネットワーク１１０Ａは音声コーダ／デコーダ４００、トランシーバ１１４およびスピーチ−テキスト変換エンジン４０２を含む。他の構成において、ネットワーク１１０Ａはさらにテキスト−スピーチ変換エンジン４０４、ボイスシンセサイザ４０２および制御器４４４を含むことができる。ボコーダ４００は、スピーチ信号を与えるためにスピーチパケットを復号する。スピーチ−テキスト変換エンジン４０２は、トランシーバ１１４によって第２のデバイス１２０に送信されるべき音声／スピーチをテキストに変換することが可能である。図４のネットワーク１１０Ａは、第２のデバイス１２０がスピーチ−テキスト変換エンジン１２６なしに設計されることを可能にし、あるいはスピーチ−テキスト変換エンジン１２６が非活性にされることを可能にする。図４のネットワーク１１０Ａはスピーチの代りに第２のデバイス１２０にテキストを送ることによって帯域幅を節減することが可能である。

図４におけるネットワーク１１０Ａは、受信デバイス１２０の形状(configuration)、状態(situation)および優先性(preference)に関する知識を取得することができる。もしもネットワーク１１０Ａが、受信デバイス１２０が音声パケットを受信することから利益を受けないであろうことを認識するならば、（たとえば、ユーザの呼の優先性または位置を検出し、例えば、過度に雑音の多い環境、および受信されたスピーチを聞くに困難であること）そこでネットワーク１１０Ａは、音声パケットをテキストパケットに変更するであろう。たとえ、受信デバイス１２０が音声パケットをテキストパケットに変更する能力を有しているとしても（音声からテキストへのエンジン１２６を使用して）、このことは、もしもユーザがテキスト受信モード（ミーティング、あるいは一般的に無音の通信）にある場合は、帯域幅の損失およびこの変換をするために(音声からテキストへ）デバイス電力の損失がある。

このようにして図４におけるネットワーク１１０Ａは、変化(新しい特性および/あるいはエレメント）がネットワーク１１０Ａの中でのみ実行されるシステム、すなわち通信デバイスあるいは組立部品においては変化しない、においてに使用されるかもしれない。移動ハンドセットがスピーチ−テキスト変換ユニットを有していない場合、ネットワーク１１０Ａは、音声パケットをテキストに変換しそして反対について注意を払うことができ、あるいは移動ハンドセットがスピーチ−テキスト変換ユニットを有している場合、ハンドセットは変換することを委託しないか、あるいは計算機処理上のリソース、電池の電力等の不足のため変換を行なうことができない。

例えば、図１における第1のデバイス１００が音声パケットを送信しあるいは受信する（すなわち第1のモード）ことが可能であり、他方第２のデバイス１２０はテキスト（すなわち第４モード）を送信する。第２のデバイス１２０はユニット１４０を有することができない（あるいは、ボコーダ１２２のみを有する）か、あるいは不活性にされているユニット１４０を有する。第２のデバイス１２０が第４のモードで動作することを可能にするために、図４におけるネットワーク１１０Ａは、第２のデバイス１２０に送信するために（スピーチ−テキストエンジン４０２を使用して）第１デバイスの音声パケットをテキストパケットに変更し、そして第１のデバイス１００に送信するため（テキスト−スピーチエンジン４０４を使用して）第２のデバイス１２０からのテキストパケットを音声パケットに変換するであろう。

第２のデバイス１２０がユニット１４０を有していない場合、第２のデバイス１２０は必要とするモードをネットワーク１１０Ａに信号により伝え(例えば帯域内で）、そしてその結果ネットワーク１１０Ａにスピーチおよびテキストの間を変換すること、すなわちユニット１４０の機能を実行することを求める。

個性化されたスピーチの合成（personalized speech synthesis）はネットワーク１１０Ａ内で行うことができる。上に記述されたように、図１におけるユニット１４０は、テキスト−スピーチエンジン１３２の出力を個性化されたスピーチ（ユーザの音声）に変換するための音声シンセサイザ１３４を有する。図４のネットワーク１１０Ａを有するシステムにおいて、第２のデバイス１２０のユーザの声紋（voice signature）を運ぶ音声パケットを生成するため、第２のデバイス１２０は(第２あるいは第４のモードを使用する初めに) ネットワーク１１０Ａに対しユーザのスペクトルパラメータおよびピッチ情報（pitch information）を有する記憶された音声パケットを送信することができる。これらのごく少数の送信された音声パケット（テキストパケットに先立つ）は個性化された音声パケットを生成するためにネットワーク１１０Ａにより使用されることができる。

第２のデバイス１２０からネットワーク１１０Ａに対する第２あるいは第４のモードに関する送信パケットの例が記述される。第２のデバイス１２０は、ネットワーク１１０Ａに対し、これらの「テキストモード」(第２あるいは第４のモード)を使用するに先立って、ユーザが予め記憶した音声パケット（Ｎパケット）に加え動作モード（１，２，３あるいは４；変換を行うことの要求）を送信する。第２のデバイス１２０は続いてテキストパケットを送信するであろう。

２つの構成の組み合わせ(図1および図4）がまた可能である。これらのモードの1つを使用する場合、変換を行なう、またはネットワーク１１０Ａにさせる、または受信デバイス１００Ａが変換をおこなう、受信デバイス１２０の能力を判定した後（すなわち信号送信により要求を受信する）、ネットワーク１１０Ａはテキスト／スピーチ変換を動作可能にする。

上に記述した1個あるいはそれ以上のコンポーネントおよび特性は、プッシュツートーク（ＰＴＴ；push to talk）あるいはプッシュツーリード(push to read)通信デバイスによって実行されるであろう。ＰＴＴデバイスはユーザがデバイス上のプッシュボタンを押しそして通話することを可能にし、一方デバイスはスピーチをテキストに変換し、そしてテキストパケットをネットワークにまたは直接に他の通信デバイスに送信する。ＰＴＴ通信は、標準の音声呼のように、連続というよりは「メッセージに基づく”message based”」ものである。ユーザがデバイス上のＰＴＴボタンを押し下げている期間は、続いてテキストその他に変換されるメッセージをうまく組立てることができる。

デバイス１２０は、インストラクションおよびデータを保存するために、専用化されたハードウェア、ソホトウェア、ファームウェアあるいはそれらの組み合わせと同様に、専用のメモリを有することができる。ソフトウェア内で実行される場合は、この技術は、ランダムアクセスメモリ（ＲＡＭ）、読出専用メモリ（ＲＯＭ）、非揮発性ランダムメモリ（ＮＶＲＡＭ）、電気的に消去可能なプログラマブル読出専用メモリ（ＥＰＲＯＭ）、フラッシュメモリ、または同様の、計算機により読出可能な媒体上の命令として具体化することができる。この命令は1個あるいはそれ以上の処理装置に、この開示の中に記述された機能における特定の側面を実行させるようにする。

この開示のなかに記述された技術は、汎用マイクロ処理装置、デジタル信号処理装置（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＭＧＡ）あるいはその他の等価的論理デバイスの中で実行されることが可能である。たとえば、スピーチおよびテキストユニット１４０および組み合わされたコンポーネントおよびモジュールは、デジタルシグナルプロセッサ（ＤＳＰ）または他の処理デバイス上で動作することによってエンコーディングプロセス（encoding process）またはコーディング／デコーディング（coding/decoding）プロセスに関する部品として実行することが可能である。したがって、モジュールとして記述されたコンポーネントは、このようなプロセスまたは分離されたプロセスのプロブラマブル特性を形成することができる。

スピーチおよびテキストユニット１４０は、専用化されたハードウェア、ソフトウェア、ファームウェアあるいはそれらの組み合わせと同様に、インストラクションおよびデータを保存するための専用化されたメモリを有することができる。ソフトウェアによって実行された場合は、この技術は1個あるいはそれ以上のプロセッサによって実行可能な命令として具体化されるであろう。命令は、ランダムアクセスメモリ（ＲＡＭ）、呼び出し専用メモリ（ＲＯＭ）非揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、電気的に読出可能なプログラマブル読出専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気的あるいは光学的データ保存デバイス、または同様のもののような計算機によって読出可能な媒体上に保存されることができる。命令は、1個あるいはそれ以上の処理装置にこの開示の中に記述された特定の側面を実行させるようにする。

種々の実施例について記述した。これらおよび他の実施例はつぎの請求項の範囲内にある。

Claims

装置であって、
スピーチ信号をパケットへ変換し、そしてパケットをスピーチ信号へ変換するように動作することが可能なボコーダと、
スピーチをテキストに変換するように動作可能なスーピーチ−テキスト変換エンジンと、
テキストからスピーチに変換するように動作可能なテキスト−スピーチ変換エンジンと、そして
複数のモードの中からモードのユーザ選択を受信するように動作可能なユーザインタフェースとを含み、なお、第１のモードがスピーチ−テキスト変換エンジンを使用可能にし、第２のモードがテキスト−スピーチ変換エンジンを使用可能にし、そして第３のモードがスピーチ−テキスト変換エンジンおよびテキスト−スピーチ変換エンジンを使用可能にする、
装置。
該スピーチ−テキスト変換エンジンからのテキストを表示するディスプレーをさらに含む請求項1記載の装置。
ユーザからの入力テキストを受信するためのキーパッドを含む請求項1記載の装置。
該ユーザインタフェースは、該装置が他の装置から呼を受信する前に、モードのユーザ選択を受信するように動作可能である請求項1記載の装置。
該ユーザインタフェースは、該装置が他の装置からの呼を受信した後に、モードのユーザ選択を受信するように動作可能である請求項1記載の装置。
ユーザの音声を合成するための音声シンセサイザを含む請求項1記載の装置。
無線により送信された符号化されたスピーチパケットおよびテキストパケットを、通信ネットワークに無線により送信するように動作可能であるトランシーバをさらに含む請求項1記載の装置。
装置であって、
スピーチ信号をパケットに変換し、そしてパケットをスピーチ信号に変換するように動作可能なボコーダと、
スピーチをテキストに変換するように動作可能なスピーチ−テキスト変換エンジンと、
複数のモードの中からモードのユーザ選択を受信するように動作可能なユーザインタフェースとを含み、なお、第１のモードはボコーダを使用可能にし、そして第２のモードは該スピーチ−テキスト変換エンジンを使用可能にし、そして
符号化されたスピーチパケットおよびテキストパケットを通信ネットワークへ無線により送信するように動作可能なトランシーバと
を含む装置。
該スピーチ−テキスト変換エンジンからのテキストを表示するためのディスプレーをさらに含む請求項８記載の装置。
ユーザからの入力テキストを受信するためのキーパッドをさらに含む請求項８記載の装置。
該ユーザインタフェースは該装置が他の装置からの呼を受信する前にモードのユーザ選択を受信するように動作可能である請求項８記載の装置。
該ユーザインタフェースは該装置が他の装置から呼を受信した後にモードのユーザ選択を受信するように動作可能である請求項８記載の装置。
ネットワーク装置であって、
パケットをスピーチ信号に変換するように動作可能なボコーダと、
スピーチをテキストに変換するように動作可能なスピーチ−テキスト変換エンジンと、
第１と第２のモード間で切り換えるように動作可能な選択ユニットと、なお該第１のモードはボコーダを使用可能にし、そして第２のモードは該ボコーダおよび該スピーチ−テキスト変換エンジンを使用可能にし、そして、
符号化されたスピーチパケットおよびテキストパケットを通信ネットワークに無線により送信するように動作可能なトランシーバとを
含むネットワーク装置。
テキストからスピーチへ変換するように動作可能なテキスト−スピーチ変換エンジンをさらに含み、なお該選択ユニットは該ボコーダおよび両方の変換エンジンが使用可能にされる第３のモードに切り換えるように動作可能である請求項１３記載のネットワーク装置。
スピーチへ変換されたテキストからユーザの音声を合成するように動作可能な音声シンセサイザをさらに含む請求項１４記載のネットワーク装置。
該音声シンセサイザはユーザの音声の音声特性を受信しそして保存するように動作可能である請求項１５記載のネットワーク装置。
スピーチからテキストに変換するために通信デバイスからの要求を受信するように動作可能である制御器をさらに含む請求項１３記載のネットワーク装置。
テキストからスピーチに変換のために通信デバイスからの要求を受信するように動作可能である制御器をさらに含む請求項１３記載のネットワーク装置。
方法であって、
符号化されたスピーチパケットを受信し、
該受信された符号化されたスピーチパケットをスピーチ信号に変換し、そして
複数のモードの中からユーザのモード選択を受信することを含み、なお第１のモードはスピーチからテキストへの変換を使用可能にし、第２のモードはテキストからスピーチへの変換を使用可能にし、そして第３のモードはスピーチからテキストへの、そしてテキストからスピーチへの変換を可能にする方法。
到来する呼を受信する前に、モードに対するユーザ選択を受信することをさらに含む請求項１９記載の方法。
到来する呼を受信した後に、モードに対するユーザ選択を受信することをさらに含む請求項１９記載の方法。