JP2007535842A

JP2007535842A - 音声起動通信のための装置および方法

Info

Publication number: JP2007535842A
Application number: JP2007503887A
Authority: JP
Inventors: ロバートザック，
Original assignee: ソニーエリクソンモバイルコミュニケーションズ，エービー
Priority date: 2004-03-16
Filing date: 2004-10-15
Publication date: 2007-12-06
Also published as: WO2005096647A1; CN1926897A; EP1726175A1; US20050209858A1

Abstract

無線通信装置（１２）はプッシュトークモードで通信するためのトランシーバ（６６）を有し、スピーチプロセッサ（６０）は音声認識エンジン（５８）を含む。スピーチプロセッサ（６０）はユーザが入力する音声信号を検出、処理し、ユーザが発する所定の音声コマンドを認識する。トランシーバ（６６）は所定の音声コマンドの検出に応じてプッシュトークモードの音声信号を送信するように制御されうる。

Description

本発明は無線通信装置に関し、特に、音声によって起動する無線通信装置に関する。

幾つかのセルラ網では、無線通信装置はパケットデータのプッシュトーク（push-to-talk : PTT）プロトコルのサポートが可能になる。プライベート無線システムと深く関連するＰＴＴサービスはポイントツーマルチポイント（point-to-multipoint）通信を可能にし、呼の設定に関してより高速なアクセスを提供する。さらに、パケットデータ通信は音声通信より少ない帯域幅を使用するので、パケットデータ網（例えばＧＳＭ）による音声の送信はコストの低減に役立つ。しかしながらＰＴＴ送信では、ユーザはマイクロフォンに向かって話すときに、無線通信装置のボタンを押しこれを保持することが必ず要求される。このため、車の運転中などではユーザは遠隔の相手と通信することは困難であり、州によっては違法となる。

したがって、従来の制約に従う必要なしに移動体装置のユーザにＰＴＴサービスを利用することを可能にする方法が必要である。

一実施形態においては、本発明による無線通信装置は１または２以上の基地局を持つパケットデータ通信システムにおいて動作する。無線通信装置はプッシュトークモードで通信を行うトランシーバ、およびスピーチプロセッサを含む。スピーチプロセッサは、ユーザが入力する音声信号を処理して所定の音声コマンドを認識する音声認識エンジンを含む。トランシーバはユーザが発する所定のキーワードすなわち音声コマンドに応じてプッシュトークモードの音声信号を送信する。一実施形態では、ユーザが発する第１のキーワードすなわちコマンドによって送信機がオン (keys) されて、音声信号の送信が開始される。また、ユーザが発する第２のキーワードすなわちコマンドによって送信機がオフ (unkeys) されて、音声信号の送信が停止される。その他のキーワードすなわちコマンドも同様な動作が可能である。

別の実施形態では、コントローラがトランシーバに動作上接続され、スピーチプロセッサがトランシーバを制御し、１または２以上の受信者宛の予め録音されたメッセージを送信する。以上のように、１つの所定の音声コマンドによってユーザはメッセージを録音することが可能になり、一方、他の所定の音声コマンドによって、ユーザは受信者を選択し、メッセージを送信し、メッセージの送信を停止することが可能になる。

以下、図面を参照して説明する。図１は、本発明において使用することのできる通信ネットワークの論理的構造を示す。図１で、移動通信網１０はパケット交換網２０とインタフェースする。パケット交換網２０は、たとえばＧＳＭ（Global System for Mobile Communications）ネットワークのために開発された汎用パケット無線サービス（General Packet Radio Service : GPRS）規格を実装するが、他の規格も使用することも可能である。さらには、パケット交換網以外のネットワークも使用することもできる。

移動通信網１０は複数の移動端末１２、複数の基地局１４、および１または２以上の移動交換局（ＭＳＣ）１６を含む。移動端末１２は、車両に搭載可能であり、あるいは携帯ハンドヘルド装置として使用することができ、一般的にはトランシーバ、アンテナおよび制御回路を含む。移動端末１２は、無線周波数チャネルを介してサーバである在圏基地局（a serving base station）１４と通信し、通話中に別の基地局１４にハンドオフすることが可能である。後述するように、移動端末１２はまた、パケット交換網２０を介したパケットデータの通信を行うことが可能である。

各基地局１４は、セルと呼ばれる地理的領域に割り当てられ、サービスを提供する。一般には、１つの基地局１４が所与の移動通信網１０内の各セルに存在する。基地局１４は幾つかの送信機、受信機を含み、多くの異なる呼を同時に扱うことができる。基地局１４は電話回線あるいはマイクロ波リンクを介してＭＳＣ１６に接続する。ＭＳＣ１６は移動通信網１０内の基地局１２の動作を調整し、移動通信網１０を公衆交換電話網（Public Switched Telephone Network : PSTN）のような公衆網に接続する。ＭＳＣ１６は適切な基地局１４を通じて移動端末１２へ、および移動端末１２から呼をルーティングし、移動端末１２が移動通信網１０内のセル間を移動する場合のハンドオフを調整する。加入移動端末１２の位置および動作状態に関する情報はホームロケーションレジスタ（Home Location Register : HLR）１８に格納される。ＭＳＣ１６はまた、そのホーム領域外をローミングする移動端末１２に関する情報を含む在圏ロケーション・レジスタ（Visitor Location Register : VLR）を含む。

図１の例示的なパケット交換網２０は、少なくとも１つのサーバの働きをするＧＰＲＳサポートノード（Serving GPRS Support Node : SGSN）２２、１または２以上のゲートウェイＧＰＲＳサポートノード（Gateway GPRS Support Node : GGSN）２４、ＧＰＲＳホーム・ロケーション・レジスタ（GPRS Home Location Register : GPRS-HLR）２６およびショート・メッセージ・サービス・ゲートウェイＭＳＣ（Short Message Service Gateway MSC : SMS-GMSC）２８を含む。パケット交換網２０もまた基地局１４を含む。これは図１で移動通信網１０によって使用されるのと同じ基地局１４である。

ＳＧＳＮ２２はＭＳＣ１６と同じ階層レベルにあり、ＧＰＲＳのサポートに必要な機能を含む。ＳＧＳＮ２２はパケット交換網２０のネットワークアクセス制御を提供する。ＳＧＳＮ２２は基地局１４に、一般にはフレームリレー接続により接続する。パケット交換網２０には複数のＳＧＳＮ２２が存在する。

ＧＧＳＮ２４は、パケットデータ網（ＰＤＮ）３０と呼ばれる外部パケット交換網との相互動作を提供し、典型的にはＸ．２５あるいはＴＣＰ／ＩＰプロトコルを使用するバックボーンネットワークを介してＳＧＳＮ２２に接続される。ＧＧＳＮ２４はまた、パケット交換網２０を他の公衆陸上移動通信網（ＰＬＭＮ）に接続することができる。ＧＧＳＮ２４は外部パケットデータ網３０によりアクセスされるノードであり、データパケットによりアドレス指定された移動端末１２にパケットを配信する。移動端末１２において発生し、外部ＰＤＮ３０のノードをアドレス指定するデータパケットはまたＧＧＳＮ２４を通過する。したがって、ＧＧＳＮ２４はパケット交換網２０のユーザと、例えばインターネットあるいは他のグローバルネットワークでありうる外部ＰＤＮ３０との間のゲートウェイとしての役割を果たす。ＳＧＳＮ２２およびＧＧＳＮ２４の機能は、パケット交換網２０における別々のノードに置くこともできるし、同一のノードに置くこともできる。

ＧＰＲＳ−ＨＬＲ２６は移動通信網１０のＨＬＲ１８に類似の機能を実行する。ＧＰＲＳ−ＨＬＲ２６は加入者情報および加入者の現在位置を記憶する。ＳＭＳ−ＧＭＳＣ２８は、ＧＰＲＳ無線チャネルを介してＳＭＳをサポートするのに必要な機能を有し、ポイントツーポイント（ＰＴＰ）メッセージングサービスへのアクセスを提供する。

パケットデータ通信機能を持つ移動端末１２は、パケットデータサービスを受けるためにＳＧＳＮ２２に登録する必要がある。登録は、移動端末のＩＤをパケット交換網２０のユーザアドレスおよび外部ＰＤＮ３０へのユーザのアクセスポイントと関連付けるプロセスである。登録後、移動端末１２はパケット共通制御チャネル（Packet Common Control Channel : PCCCH）にキャンプオン (camp on) する。同様に、移動端末１２にも音声サービスの能力があれば、ＭＳＣ１６に登録し、音声サービスを受け、ＳＧＳＮ２２に登録後、回線交換網１０のＳＭＳサービスを受けることができる。ＭＳＣ１６の登録はＳＧＳＮ２２とＭＳＣ１６の間のトネリング・プロトコルを使用して行うことができ、国際移動電話加入者ＩＤ（International Mobile Subscriber Identity : IMSI）接続手順を実行する。ＩＭＳＩ接続手順はＳＧＳＮ２２とＭＳＣ１６との間の連結を確立し、ＳＧＳＮ２２とＭＳＣ１６との間の相互作用を提供する。この連結はパケットデータ網２０および移動通信網１０の両方に接続される移動端末１２の動作を調整するのに使用される。

前述したように、一般にＰＴＴサービスはプライベート無線システムと関連するものであるが、一方で、ＧＳＭシステムを介したＰＴＴサービスのプロトコルのサポートが計画されている。ＰＴＴサービスを備える従来の移動端末では、一般にはユーザは発声の際にボタンを押してこれを保持することが必要とされる。しかしこれでは、ユーザが例えば車を運転しＰＴＴを使用して遠隔の相手と通信することは困難である。

図２に、本発明の一実施形態による端末１２の一例を示す。端末１２はユーザインタフェース４０、回路５２およびトランシーバ部７０を含む。ユーザインタフェース部４０はマイクロフォン４２、スピーカ４４、キーパッド４６、ディスプレイ４８およびＰＴＴボタン５０を含む。

マイクロフォン４２はユーザの音声を電気音響信号に変換し、その信号をスピーチプロセッサ６０の音声アクティビティ検出器（voice activity detector : VAD）５４およびスピーチエンコーダ（ＳＰＥ）５６に出力する。スピーカ４４は電気信号をユーザが聴取可能な可聴信号へと変換する。音声の電気信号への変換および電気信号の音声への変換は公知の任意のオーディオ処理回路により実行される。キーパッド４６は端末１２の表面に配置され、英数字キーパッドおよびジョイスティックをはじめ、ボタンあるいはダイヤルのような操作部を含む。このキーパッド４６により、ユーザは電話番号をダイヤルし、コマンドを入力し、メニューの選択肢を選ぶことができる。ディスプレイ４８により、ユーザはダイヤルした数字、画像、呼状態、メニューの選択肢、その他のサービス情報を見ることができる。本発明の実施形態では、ディスプレイ４８は、グラフィックイメージを表示し、ユーザ入力を受け入れるタッチパネルを含む。

ユーザは遠隔の相手とＰＴＴモード（すなわちシンプレックスモード）で通話することを望む場合、ＰＴＴボタン５０を押下する。ユーザは、ＰＴＴボタンを押している間は遠隔の相手の話を聞くことはできない。ユーザは、ＰＴＴボタン６４を押していないときに、遠隔の相手の音声をスピーカ４４を通して聞くことができる。

トランシーバ部７０はアンテナ６８に結合されるトランシーバ６６を含む。トランシーバ６６は完全機能のセル無線送受信器であり、デュープレックスモードあるいはシンプレックスモードで基地局１４との信号の送受信を行うことができる。トランシーバ６６は音声およびパケットデータの両方を送受信することができ、従って移動通信網１０およびパケット交換網２０の両方と動作する。トランシーバ６６はＧＳＭとして一般に知られる規格を含む任意の公知の規格に従い動作することができる。

回路５２はスピーチプロセッサ６０、メモリ６４およびマイクロプロセッサ６２を含む。メモリ６４は移動通信デバイスにおけるメモリの全階層を表し、ランダムアクセスメモリ（ＲＡＭ）と読み出し専用メモリ（ＲＯＭ）の両方を含みうる。実行可能なプログラム命令および端末１２の動作に必要なデータは、ＥＰＲＯＭ、ＥＥＰＲＯＭおよび／またはフラッシュメモリのような不揮発性メモリに格納され、これらメモリは例えば個別、あるいは組み込みデバイスとして実装可能である。以下にさらに詳細に説明されるように、メモリ６４はスピーチプロセッサ６０により認識される所定のキーワードすなわち音声コマンドを記憶することができる。

マイクロプロセッサ６２はメモリ６４に格納されたプログラム命令に従い端末１２の動作を制御する。制御機能は単一のプロセッサあるいは複数のプロセッサに実装可能である。適切なマイクロプロセッサは、例えば汎用および専用の両方のマイクロプロセッサおよびディジタル信号処理プロセッサを含みうる。メモリ６４およびマイクロプロセッサ６２を、専用に設計される特定用途向け集積回路（ＡＳＩＣ）に組み込めることは当業者には容易に理解されよう。

スピーチプロセッサ６０は、マイクロプロセッサ６２とインタフェースし、マイクロフォン４２を介してユーザが入力する音声を検出し、認識する。本発明で使用可能な公知の任意のスピーチプロセッサには、例えばディジタル信号処理プロセッサ（ＤＳＰ）を使用可能である。スピーチプロセッサ６０はＶＡＤ５４、スピーチエンコーダ（ＳＰＥ）５６、音声認識エンジン（ＶＲＥ）５８を含むことができる。ＶＡＤ５４は音声アクティビティの検出を行う回路であり、マイクロフォン４２における音声アクティビティを表す信号をＶＲＥ５８に出力する。したがって、ＶＡＤ５４は音声アクティブまたは音声非アクティブを示す信号を出力することができる。音声アクティビティの検出は当業者には公知であり、従ってＶＡＤ５４は任意の適当なＶＡＤ回路、アルゴリズム、プログラムを含み、実装可能である。

ＳＰＥ５６はスピーチエンコーダであり、音声が存在するときにマイクロフォン４２から入力信号を受信する。あるいは、ＳＰＥ５６はＶＡＤ５４から出力される信号を入力として受信するようにしてもよい。ＶＡＤ５４からの信号は、例えばＶＡＤ５４により出力される音声のアクティブ／非アクティブの指示に従いＳＰＥ５６をイネーブル／ディスイネーブルにすることができる。ＳＰＥ５６はマイクロフォン４２からの入力音声信号を符号化し、符号化音声をＶＲＥ５８に出力する。符号化音声は直接またはマイクロプロセッサ６２を介してＶＲＥ５８に出力されるうる。音声は、当業者には公知の任意の音声符号化規格、例えばＩＴＵＧ．７１１、あるいはＩＴＵＧ．７２ｘに従い符号化することができる。

ＶＲＥ５８は、符号化音声をメモリ６４に格納された複数の所定の音声コマンドと比較する。ＶＲＥ５８は限定されたボキャブラリを認識するものとするが、より精密なものであってもよい。ＶＲＥ５８により受信される符号化音声が所定の音声コマンドの１つとマッチすると、ＶＲＥ５８はマイクロプロセッサ６２にマッチしたコマンドの種類を示す信号を出力する。逆に、マッチが生じなければ、ＶＲＥ５８はマイクロプロセッサ６２に非マッチ状態を示す信号を出力するか、あるいは単に信号を全く送信しない。

実施形態では、所定の音声コマンドはベクトルとしてメモリ６２に格納される。ただし、音声を表す任意の公知の方法を使用してもよい。製造業者は所定の音声コマンドを表すベクトルをメモリ６２にロードすることができる。これらのコマンドは話者非依存コマンドとよばれるものである。このかわりに、ユーザはスピーチプロセッサ６０を「トレーニング」することにより認識対象の所定の音声コマンドをカスタマイズすることができる。これらは発声者依存コマンドとよばれている。一般に、発声者依存コマンドの「トレーニング」には、ユーザがマイクロフォン４２に向かって１または２以上の語句を発する作業を伴う。次に、スピーチプロセッサ６０は、音声信号を基準音声とよばれるベクトル系列に変換し、ベクトルをメモリ６４に保存する。ユーザはその後、保存された音声コマンドを端末１２により提供される特定の機能に割り当てることができる。次に、ユーザがコマンドをマイクロフォン４２に向けて発声すると、ＶＲＥ５８は発声されたコマンドをメモリに格納されたベクトルと比較する。マッチすれば、音声コマンドに割り当てられた機能が動作する。例えば、ユーザはスピーチプロセッサ６０をトレーニングし、音声コマンド「送信開始」および「送信終了」を認識するようにできる。これらコマンドによりそれぞれ、送信機６６がオンしてユーザの音声信号の送信が開始し、送信機６６がオフしてユーザの音声信号の送信が停止するようにすることができる。これらコマンドのマイクロフォン４２に向けた発声は、ユーザが（起動するために）ＰＴＴボタンを手動で押下し、（動作解除するために）離す場合と同じ効果を有する。なお、これらコマンドは例示に過ぎず、他の語句を音声コマンドとして使用可能であることはいうまでもない。

一般的な音声認識システムでは、継続してマイクロフォン４２をモニタし、ユーザの所定の音声コマンドの発声を判断することになる。しかし、マイクロフォン４２からの音のエネルギの多くは音声コマンドではないと考えられるので、スピーチプロセッサ６０が継続的にモニタするのではバッテリ寿命が低下してしまう。これを緩和するために、本発明は、スピーチプロセッサ６０を端末１２のメニューシステムにより手動で「聴取」モードにすることを可能とする。すなわちスピーチプロセッサ６０は、このモードにある場合にのみマイクロフォン４２からの音声信号をモニタする。図３Ａおよび図３Ｂに、ディスプレイ４８でユーザに表示されるメニューシステムの例を示す。その一方で、キーパッド４６によるユーザの誘導を必要とする従来のメニューシステムも可能である。

図３Ａにおいて、ディスプレイ４８には、ショートカット部７２、ドロップダウン部７６、ディスプレイ部７６、スクロールバー７８および１または２以上のメニュー選択８０を含むメイン画面が表示される。ショートカット部７２のアイコンは、ユーザによって選択されるアイコンに関連する予めプログラムされた機能を起動し、一方、ドロップダウン部７６はユーザがメモリ６４に格納されたプログラムとさらに対話することを可能にする。ディスプレイ部７６はサイズに制限があるので、スクロールバー７８はユーザがディスプレイ部７６に収まりきらない任意のメニュー選択８０を見るためにスクロールを上下することを可能にする。スピーチプロセッサ６０を聴取モードにするために、ユーザは関連するメニューを単に選択すればよい。図３Ａで、ユーザは「音声起動聴取モード」を選択する。これにより図３Ｂに示される第２のメニュー画面が起動される。図３Ｂにおいて、ディスプレイ部７６には２つのボタンが示される。ボタン８２が押されると聴取モードが起動し、一方、ボタン８４が押されると聴取モードが解除される。所望により、チェックボックスおよび無線ボタンのようなその他の操作で実現してもよい。したがってユーザは、必要な場合にのみ、例えば車を運転する場合に、スピーチプロセッサ６０の音声認識機能を起動することができるが、その他の場合はＰＴＴボタンを手動で押下する／解放する操作手法を留保することができる。

図４Ａおよび図４Ｂに、本発明の端末１２を使用してＰＴＴモードで音声の通信方法９０の例を示す。図４Ａにおいて、ユーザが聴取モードをアクティブにすると（ボックス９２）、方法９０が開始する。このモードでは、スピーチプロセッサ６０は音声信号を受信し（ボックス９４）、ユーザが発声するとその音声信号を検出する（ボックス９６）。次に、スピーチプロセッサは、音声信号をメモリ６４に格納された所定の音声コマンドと比較し（ボックス９８）、「送信開始」コマンドとのマッチの有無を判断する（ボックス１００）。マッチすれば、マイクロプロセッサ６２は例えば「ビープ」などの音響信号を出力してスピーカ４４によりＰＴＴモードがアクティブであることをユーザに警告するようにし、トランシーバ６６がオンする（ボックス１０２）。その後、ユーザは自由にマイクロフォン４２に向かって話をする。音声信号はネットワークに送信される（ボックス１０４）。パケット交換網では、これらの音声信号はデータパケットに変換され、遠隔の相手に送信される。一方、マッチが生じなければ（ボックス１００）、ユーザが聴取モードを非アクティブ化したかの判断がなされる（ボックス１０６）。聴取モードがなおアクティブであれば、スピーチプロセッサ６０はマイクロフォン４２からの音声信号のモニタを継続し（ボックス９４）、そうでなければ端末１２は通常の動作に戻る。図４Ａおよび図４Ｂでは聴取モードのアクティブ化／非アクティブ化を特定の点でチェックするが、これらのチェックはいつでもなされることができることが注意されるべきである。

図４Ｂに見られるようにスピーチプロセッサ６０は、ユーザが送信の停止を望む時点を判断するために音声信号のモニタを継続する。典型的には、ユーザは発声センテンスの終了後小休止し、その後「送信終了」コマンドを発して、端末１２をＰＴＴモードから外す。このように、スピーチプロセッサ６０は、音声の非アクティブ期間を検出し（ボックス１０８）、非アクティブタイマを開始させる（ボックス１１０）。非アクティブタイマはユーザのスピーチに自然なポーズを許すウインドウを設け、ＰＴＴモードの早計な終了を防止する。これらの休止の間に、端末１２は、公知のコンフォートノイズを生成して通信相手に送信するとともに、スピーチプロセッサ６０はマイクロフォン４２からの音声信号のモニタを継続する（ボックス１１４）。音声信号が検出されなければ、非アクティブタイマが満了したかの判断を行う（ボックス１１６）。タイマが未了であれば、コンフォートノイズは休止期間中生成、送信され続ける（ボックス１１２）。タイマが満了すれば、音響信号（例えば素早く続く２つのビープ）がスピーカ４４を通して出力され（ボックス１１８）、トランシーバ６６がオフする。この音響信号はユーザにＰＴＴモードが終了したことを示すものである。次に、ユーザが聴取モードを非アクティブ化したかを判断する（ボックス１２０）。非アクティブ化していなければ、処理は図４Ａに戻り、後続の音声コマンドあるいは聴取モードのアクティブ化を待機する。

ユーザが音声非アクティブ期間中、タイマの満了前にマイクロフォンに向かって発声することにより、あるいは「送信再開」のような所定の音声コマンドを発することにより音声信号の送信を再開できることに留意されたい。スピーチプロセッサ６０はこれらの音声信号および／またはコマンドを処理し、トランシーバ６６は音声信号の送信を再開する。

一方、スピーチプロセッサ６０がタイマの満了前に音声信号を検出すると（ボックス１１４）、スピーチプロセッサ６０はメモリ６４に格納された所定の音声コマンドと音声信号を比較する（ボックス１２２）。音声コマンド「送信終了」とマッチした場合（ボックス１２４）、送信終了を示す音響信号がスピーカを通してユーザに再生され、トランシーバ６６がオフする（ボックス１１８）。その後、ユーザは遠隔の相手からの送信をスピーカ４４を通して聞くことができる。音声コマンド「送信終了」とマッチしない場合には、非アクティブタイマがリセットされ（ボックス１２６）、遠隔の相手への音声信号の送信が継続される（ボックス１２８）。スピーチプロセッサ６０が非アクティブ期間を検出すると（ボックス１０８）、非アクティブタイマが再び開始される（ボックス１１０）。

本発明はユーザの音声信号をメモリにバッファする、あるいは音声信号の送信を遅らせることができることに留意されたい。これによりスピーチプロセッサ６０あるいはマイクロプロセッサ６２はユーザが話すコマンドを「選別する」ことができる。結果として、遠隔の相手はユーザの通話だけを受信し、ユーザが話したコマンドは聞こえない。

本発明の別の実施形態では、ＰＴＴモードの音声信号の送信に加えて、単に音声コマンドを発することによる１または２以上の受信者への音声信号の送信が可能である。例えば、ユーザはアフィニティ・グループ（affinity group）のメンバーへの配信のためのメッセージを予め録音する。図５の方法１３０により一例を示す。

図５において、ユーザは音声起動聴取モードをアクティブ化する（ボックス１３２）。このモードでは、スピーチプロセッサ６０はユーザが入力する音声信号を受信し、検出する（ボックス１３４、１３６）。次に、スピーチプロセッサ６０は音声信号をメモリ６４に格納された所定の音声コマンドと比較する（ボックス１３８）。「メッセージ送信」コマンドとマッチした場合（ボックス１４０）、ユーザは予め録音された送信メッセージ（ボックス１４４）および１または２以上の指定受信者（ボックス１４６）を確認する。一方、「メッセージ送信」コマンドとしなかった場合（ボックス１４０）、ユーザが聴取モードを非アクティブ化したかを判断する（ボックス１４２）。聴取モードがなおアクティブであれば、スピーチプロセッサ６０はマイクロフォン４２からの音声信号を再び受信し（ボックス１３４）、そうでなければ端末１２は通常の動作に戻る。

受信者を、例えば名前、あるいは関連するグループＩＤのみにより識別することができる。後者の場合、受信者は無線通信装置のアフィニティ・グループＩＤに既に関連するアフィニティ・グループの一部とすることができる。アフィニティ・グループは周知であるため、本明細書では詳細な説明は省略する。予め録音されたメッセージは識別された受信者に送信され（ボックス１４８）、スピーカ４４から出力される音響信号はメッセージが送信されたことを示す（ボックス１５０）。一度メッセージが送信されると、スピーチプロセッサは再び音声起動聴取モードの非アクティブ化を判断し（ボックス１４２）、その結果に応じて動作を継続する。なお、図５に明確に示されてはいないが、ユーザは、例えば「メッセージ停止」と言うことによりいつでもメッセージの送信を終了させることができる。

以上の説明において示された音声コマンドは例示的なものにすぎず、本発明がこれらに限定されるものでないことは当業者には理解されよう。任意の用語を音声コマンドとして使用し端末１２の機能に関連付けることが可能である。図６に、本発明を使用して制御されうるファンクションの例１６０を示す。

本発明は、その本質から逸脱することなしに、本明細書において明示された方法以外の方法で実施可能である。実施形態はあらゆる点で例示にすぎないものであり、限定的なものではない。添付の請求の範囲の意味するところおよび均等の範囲に含まれる全ての変更は本発明の範囲に属する。

本発明の一実施形態による無線通信網の例を示す図である。本発明の一実施形態による無線通信装置の例を示す図である。、本発明の一実施形態に従って動作する無線通信装置により使用されるうるメニューシステムの例を示す図である。、本発明の一実施形態による方法を例示する図である。本発明の一実施形態による別の方法を例示する図である。本発明を使用して制御されうるファンクションを例示する図である。

Claims

無線通信装置（１２）であって、
プッシュトークモードで通信を行うことが可能なトランシーバ（６６）と、
音声信号を処理し所定の音声コマンドを認識する音声認識エンジン（５８）を含むスピーチプロセッサ（６０）と、
を有し、
前記トランシーバ（６６）は、前記所定の音声コマンドの検出に応じて前記プッシュトークモードで音声信号の送信を行うことを特徴とする無線通信装置（１２）。
前記トランシーバ（６６）は、更に、前記所定の音声コマンドの検出に応じて前記音声信号の送信を終了することを特徴とする請求項１に記載の無線通信装置。
前記トランシーバ（６６）は、更に、タイマの満了に応じて前記音声信号の送信を停止することを特徴とする請求項１に記載の無線通信装置。
前記トランシーバを制御するコントローラ（６２）を更に有することを特徴とする請求項１に記載の無線通信装置。
前記コントローラ（６２）は、前記所定の音声コマンドの検出に応じて前記プッシュトークモードをアクティブ化および非アクティブ化を行うことを特徴とする請求項４に記載の無線通信装置。
前記コントローラ（６２）は、ユーザにより入力されたメニューコマンドに応じて前記スピーチプロセッサの聴取モードのアクティブ化および非アクティブ化を行うことを特徴とする請求項４に記載の無線通信装置。
前記スピーチプロセッサ（６０）は、前記音声認識（５８）エンジンに接続され音声信号を検出する音声アクティビティ検出器（５４）を更に含むことを特徴とする請求項１に記載の無線通信装置。
前記音声アクティビティ検出器（５４）は、音声非アクティブ期間をさらに検出することを特徴とする請求項７に記載の無線通信装置。
前記トランシーバ（６６）は、検出された前記音声非アクティブ期間に応じてコンフォートノイズを送信することを特徴とする請求項８に記載の無線通信装置。
前記トランシーバ（６６）は、更に、前記音声非アクティブタイマの満了前に前記音声信号の送信を再開することを特徴とする請求項８に記載の無線通信装置。
前記トランシーバ（６６）は、更に、前記所定の音声コマンドの検出に応じて前記音声信号の送信を再開することを特徴とする請求項７に記載の無線通信装置。
前記スピーチプロセッサ（６０）は、前記音声信号を符号化するスピーチエンコーダ（５６）を更に含むことを特徴とする請求項７に記載の無線通信装置。
前記所定の音声コマンドの表現を格納するメモリ（６４）を更に有し、前記音声認識エンジン（５８）は、前記音声信号を前記所定の音声コマンドの前記表現と比較することを特徴とする請求項１２に記載の無線通信装置。
無線通信装置（１２）からの音声信号をパケットデータとして通信する方法であって、
前記無線通信装置（１２）のユーザが発した音声信号を検出するステップと、
前記無線通信装置（１２）の前記ユーザが発した所定の音声コマンドを認識するステップと、
前記所定の音声コマンドの検出に応じてプッシュトークモードで前記音声信号を送信するステップと、
を有することを特徴とする方法。
前記所定の音声コマンドの検出に応じて前記音声信号の送信を終了するステップを更に有することを特徴とする請求項１４に記載の方法。
前記所定の音声コマンドの検出に応じて前記プッシュトークモードをアクティブ化するステップを更に有することを特徴とする請求項１４に記載の方法。
前記所定の音声コマンドの検出に応じて前記プッシュトークモードを非アクティブ化するステップを更に有することを特徴とする請求項１４に記載の方法。
タイマの満了に応じて前記プッシュトークモードを非アクティブ化するステップを更に有することを特徴とする請求項１４に記載の方法。
検出された音声非アクティブの期間に応じて前記音声信号を送信させるステップを更に有することを特徴とする請求項１４に記載の方法。
前記所定の音声コマンドの検出に応じて前記音声信号の送信を再開するステップを更に有することを特徴とする請求項１９に記載の方法。
前記ユーザが入力する１または２以上のメニューコマンドに応じて聴取モードのアクティブ化および非アクティブ化を行うステップを更に有することを特徴とする請求項１４に記載の方法。
基地局（１４）と、
無線通信装置（１２）と、
を有し、
前記無線通信装置（１２）は、
プッシュトークモードで通信を行うことが可能なトランシーバ（６６）と、
音声信号を処理しユーザにより入力された所定の音声コマンドを認識する音声認識エンジン（５８）を含むスピーチプロセッサ（６０）と、を含み、
前記トランシーバ（６６）は、前記所定の音声コマンドの検出に応じて前記プッシュトークモードで音声信号の送信を行う
ことを特徴とする無線通信システム。
前記無線通信システム（１０）はパケット交換網（２０）を含むことを特徴とする請求項２２に記載の無線通信システム。
前記音声信号はデータパケットとして送信されることを特徴とする請求項２２に記載の無線通信システム。
無線通信ネットワーク（１０）を介して通信するトランシーバ（６６）と、
音声信号を処理し所定の音声コマンドを認識する音声認識エンジン（５８）を含むスピーチプロセッサ（６０）と、
前記所定の音声コマンドの検出に応じて前記音声信号の送信のために前記トランシーバ（６６）の制御を行うべく前記トランシーバ（６６）とスピーチプロセッサ（６０）とに接続されるコントローラ（６２）と、
を有することを特徴とする無線通信装置。
前記音声信号は予め録音されたメッセージを含むことを特徴とする請求項２５に記載の無線通信装置。
前記予め録音されたメッセージを格納するメモリ（６４）を更に有することを特徴とする請求項２６に記載の無線通信装置。
前記コントローラ（６２）は、前記スピーチプロセッサ（６０）を更に制御して前記所定の音声コマンドの検出に応じて記録セッションをアクティブ化することを特徴とする請求項２６に記載の無線通信装置。
前記コントローラ（６２）は、前記スピーチプロセッサ（６０）を更に制御して前記所定の音声コマンドの検出に応じて前記記録セッションを非アクティブ化することを特徴とする請求項２８に記載の無線通信装置。
前記コントローラ（６２）は、前記スピーチプロセッサ（６０）を更に制御して前記所定の音声コマンドの検出に応じて前記記録セッションを休止させることを特徴とする請求項２８に記載の無線通信装置。
前記コントローラ（６２）は、前記スピーチプロセッサ（６０）を更に制御して前記所定の音声コマンドの検出に応じて前記予め記録されたメッセージをリプレイすることを特徴とする請求項２８に記載の無線通信装置。
前記所定の音声コマンドは、前記予め録音されたメッセージの受信者を識別することを特徴とする請求項２６に記載の無線通信装置。
前記受信者は１または２以上のメンバーを有するアフィニティ・グループを含むことを特徴とする請求項３２に記載の無線通信装置。
前記コントローラ（６２）は、前記トランシーバ（６６）を制御して前記予め録音されたメッセージを前記識別された受信者に送信することを特徴とする請求項３２に記載の無線通信装置。
前記コントローラ（６２）は、前記トランシーバ（６６）を更に制御して前記識別された受信者への前記予め記録されたメッセージの送信を終了させる、請求項３４に記載の無線通信装置。
無線通信装置（１２）を介して音声信号の通信を行う方法であって、
前記無線通信装置（１２）のユーザが発した音声信号を検出するステップと、
前記無線通信装置（１２）の前記ユーザが発した所定の音声コマンドを認識するステップと、
前記所定の音声コマンドの検出に応じて前記音声信号を送信するステップと、
を有することを特徴とする方法。
前記所定の音声コマンドの検出に応じて前記音声信号を録音し、予め録音されたメッセージを作成するステップを更に有することを特徴とする請求項３６に記載の方法。
前記所定の音声コマンドの検出に応じて前記メッセージをメモリに保存するステップを更に有することを特徴とする請求項３７に記載の方法。
前記所定の音声コマンドの検出に応じて前記記録を休止するステップを更に有することを特徴とする請求項３７に記載の方法。
前記所定の音声コマンドの検出に応じて前記メッセージをリプレイするステップを更に有することを特徴とする請求項３７に記載の方法。
前記メッセージの受信者を識別するステップを更に有することを特徴とする請求項３７に記載の方法。
前記受信者は、１または２以上のメンバーを有するアフィニティ・グループを含むことを特徴とする請求項４３に記載の方法。
前記音声信号を送信するステップは、前記所定の音声コマンドの検出に応じて前記音声信号をパケットデータとして送信することを特徴とする請求項３６に記載の方法。