JP2003511884A

JP2003511884A - 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置

Info

Publication number: JP2003511884A
Application number: JP2001528975A
Authority: JP
Inventors: アイラ・エイ・ガーソン
Original assignee: オーボ・テクノロジーズ・インコーポレイテッド
Priority date: 1999-10-05
Filing date: 2000-10-04
Publication date: 2003-03-25
Also published as: KR100759473B1; US20030040903A1; WO2001026096A1; JP5306503B2; CN1188834C; US6937977B2; KR20020071850A; CN1408111A; AU7852700A; JP2012137777A

Abstract

(57)【要約】入力音声信号の開始は、決定される（７０１）際の出力オーディオ信号に対する、出力オーディオ信号と入力開始時間との生成の間に検出される。入力開始時間は、次に、入力音声信号に応答するのに使用されるために提供される（７０４）。入力音声信号が、出力オーディオ信号が生ずる間に検出されるとき、出力オーディオ信号の識別は、入力音声信号に応答するのに使用されるために提供される。データおよび／または制御信号を備えている情報の信号（７０５）は、少なくとも提供されるコンテキスト上の情報、すなわち、入力開始時間および／または出力オーディオ信号の識別に応じて提供される。本発明は、基礎をなす通信システムの遅延特性にかかわらず、出力オーディオ信号に対する入力音声信号のコンテキストを精密に確立する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明は、一般に、音声認識を組み込んでいる通信システムに関し、特に、出
力オーディオ信号が生ずる間の入力音声信号を“バージイン”（barge-in）処理
する方法および装置に関する。

【０００２】

【従来の技術】

音声認識システムは、特に電話システムに関して一般的に公知の技術である。
米国特許４，９１４，６９２、５，４７５，７９１、５，７０８，７０４と、ま
た５，７６５，１３０は、音声認識システムを組み込んだ電話網を例示している
。各システムの共通する特徴は、音声認識エレメント（即ち、音声認識を実施す
るデバイス）は、加入者の通信デバイス（即ち、ユーザーの電話）とは逆に、一
般的に、電話網の構成の中心に位置されている。典型的には、音声の合成と音声
認識エレメントとの組み合せは、電話網あるいはインフラストラクチャ内で展開
されている。呼者は、そのシステムにアクセスし、音声合成エレメントを介して
、合成された音声の形での情報のプロンプトあるいはクエリーの提供を受けるこ
とができる。呼者は、一般的に、合成された音声に対して口頭による応答を行い
、音声認識エレメントは、呼者にさらなるサービスを提供するために、呼者の口
頭による応答を処理する。

【０００３】

【発明が解決しようとする課題】

人間性およびいくつかの音声合成／認識システムの設計を所与のものとすれば
、発呼者によって提供される口頭の応答は、出力オーディオ信号、たとえば、合
成された音声プロンプトが生ずる間に生ずることが多い。このような発生セグメ
ントの処理は、“バージイン”処理と呼ぶことが多い。米国特許第４，９１４，
６９２号、第５，１５５，７６０号、第５，４７５，７９１号；第５，７０８，
７０４号および第５，７６５，１３０号すべては、バージイン処理のための技術
について記述している。一般に、これらの特許のそれぞれに記述されている技術
は、バージイン処理の間のエコーキャンセルの必要性と取り組んでいる。すなわ
ち、合成された音声プロンプト（すなわち、出力オーディオ信号）が生ずる間、
音声認識システムは、音声認識分析を効果的に行うために、ユーザによって提供
されるあらゆる口頭の応答（すなわち、入力音声信号）に存在するプロンプトか
らの未処理の作為を説明する必要がある。したがって、これらの従来技術技術は
、一般に、バージイン処理の間の入力音声信号の質に関している。音声電話技術
システムに見出される比較的小さな待ち時間、あるいは、遅延により、これらの
従来技術の技術は、一般に、入力音声信号を特定の出力オーディオ信号や出力オ
ーディオ信号内の特定のモーメントに関連づけるといったバージイン処理のコン
テキスト決定について考慮されてない。

【０００４】従来技術のこの欠点は、無線システムに関していっそう著しい。従来の技術の
主要部が、前記で説明されたシステムに関連して存在してはいるが、無線通信シ
ステムへの音声認識システムの組み込みは、新しく開発されたばかりである。無
線通信環境の中での音声認識の応用の標準化に努めるために、オーロラ・プロジ
ェクトと呼ばれる欧州通信規格協会（ＥＴＳＩ）による取り組みが最近開始され
た。オーロラ・プロジェクトの目標は、音声認識システムの普及のためのグロー
バルな規格である。このプロジェクトは、クライアント／サーバ構成を確立する
ことを提案している。この構成では、特徴抽出あるいはパラメータ化などのフロ
ントエンドの音声認識処理が、加入者ユニット（例えば、セルラ電話のような携
帯無線デバイス）で実施される。その後、フロントエンドにより提供されるデー
タは、サーバに転送され、バックエンドの音声認識処理が行われる。

【０００５】オーロラ・プロジェクトによって提案されるクライアント−サーバ構成が、普
及される音声認識システムのための必要性と適切に取り組んでいることは予測さ
れる。とはいえ、バージイン処理が、オーロラ・プロジェクトによって、なされ
たとしても、取り組まれる方法は、この時には不明確である。これは、無線シス
テムにおいて一般に直面する欠点と、このような欠点が、バージイン処理に関し
てあるという効果とにおけるより広い変化を所与のものとすれば特に懸念される
。たとえば、ユーザの音声に基づく応答の処理が、音声認識プロセッサによって
受けられた特定の時点に一部基づいて行われることは、まれではない。すなわち
、一連の複数の連続しないプロンプトが提供される場合に、ユーザの応答が、所
定の合成プロンプトの特定の部分の間に受信されたのか、あるいは、どのプロン
プトの間に応答が受信されたかどうかによって、相違を生じうる。要するに、ユ
ーザの応答のコンテキストは、ユーザの応答の情報の内容の認識と同じほど重要
である。とはいえ、いくつかの無線システムの不特定の遅延特性は、このような
コンテキストを適切に決定するのに障害となる。したがって、特に、パケットデ
ータ通信を利用するなどの不確実な、および／または広範に変化する遅延特性を
有するシステムにおいて、出力オーディオ信号が生ずる間に入力音声信号のコン
テキストを決定するための技術を提供することは有利なことである。

【０００６】

【課題を解決するための手段】

本発明は、出力オーディオ信号が生ずる間に入力音声信号を処理するための技
術を提供する。主として、無線通信システムに適用可能であるが、本発明の技術
は、有益なことには、不確実な、および／または広範囲に変化する遅延特性を有
するあらゆる通信システム、たとえば、Ｉｎｔｅｒｎｅｔ（インターネット）な
どのパケットデータシステムに適用されることができる。本発明の１つの実施の
形態によれば、入力音声信号の開始は、出力オーディオ信号が生ずる間に検出さ
れ、そして、出力オーディオ信号に対して入力開始時間が、決定される。入力開
始時間は、次に、入力音声信号に応答するのに使用されるために提供される。別
の実施の形態において、出力オーディオ信号は、対応する識別を有している。入
力音声信号が、出力オーディオ信号が生ずる間に検出されるとき、出力オーディ
オ信号の識別は、入力音声信号に応答するのに使用されるために提供される。デ
ータおよび／または制御信号を備えている情報の信号は、少なくとも提供される
コンテキスト情報、すなわち、入力開始時間および／または出力オーディオ信号
の識別に応じて提供される。このように、本発明は、基礎をなす通信システムの
遅延特性にかかわらず、出力オーディオ信号に対して入力音声信号のコンテキス
トを精密に確立するための技術を提供する。

【０００７】

【発明の実施の形態】

本発明は、図１乃至図９を参照すると、いっそう完全に記述されることができ
る。図１は、加入者ユニット１０２−１０３を備える無線通信システム１００の
全体のシステムアーキテクチャを示している。その加入者ユニット１０２−１０
３は、無線システム１１０によってサポートされる無線チャンネルを媒介として
インフラストラクチャと通信する。本発明のインフラストラクチャは、無線シス
テム１１０に加えて、小さなエンティティシステム１２０、コンテンツプロバイ
ダシステム１３０およびデータ網１５０いずれかを媒介として互いに結合される
企業システム１４０を備えている。

【０００８】加入者ユニットは、通信インフラストラクチャと通信することが可能な、ハン
ドヘルドセル電話１０３、自動車１０２内にある無線通信装置などのあらゆる無
線通信装置を備えることができる。図１に示されるもの以外の様々な加入者ユニ
ットが使用されることが可能でることは分かる；本発明は、この点については限
定されるものではない。加入者ユニット１０２−１０３は、ハンドフリー音声通
信と、ローカル音声認識および合成システムと、クライアント−サーバ音声認識
および合成システムのクライアント部分とのためのハンドフリーセルラー電話の
コンポーネントとを含むことが好ましい。これらのコンポーネントは、図２およ
び図３を参照として以下にいっそう詳細に記述されている。

【０００９】加入者ユニット１０２−１０３は、無線チャンネル１０５を媒介として無線シ
ステム１１０と無線で通信する。本発明が音声通信をサポートする無線システム
の他のタイプに有益に適応されることを通常の技量の者が認めているが、無線シ
ステム１１０は、セルラーシステムを備えることが好ましい。無線チャンネル１
０５は、一般に、デジタル送信技術を実施し、かつ、加入者ユニット１０２−１
０３への、また、加入者ユニット１０２−１０３からの音声および／またはデー
タを伝達することが可能な無線周波数（ＲＦ）キャリアである。アナログ技術な
どの別の送信技術も使用されることができることが分かる。好ましい実施の形態
において、無線チャンネル１０５は、ＥｕｒｏｐｅａｎＴｅｌｅｃｏｍｍｕｎ
ｉｃａｔｉｏｎｓＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ（欧州電気通信標
準化協会）（ＰＴＳＩ）によって定義されるＧｅｎｅｒａｌＰａｃｋｅｔＤ
ａｔａＲａｄｉｏＳｅｒｖｉｃｅ（ジェネラルパケットデータ無線サービス
）（ＧＰＲＳ）などの無線パケットデータチャネルである。無線チャンネル１０
５は、クライアント−サーバ音声認識および合成システムのクライアント部分と
、クライアント−サーバ音声認識および合成システムのサーバ部分との間の通信
を促進するために、データを搬送する。ディスプレイ、制御、ロケーション、ス
テータス情報などの他の情報は、さらに、無線チャンネル１０５全域で搬送され
ることが可能である。

【００１０】無線システム１１０は、加入者ユニット１０２−１０３から無線チャンネル１
０５によって伝達される送信を受信するアンテナ１１２を備えている。アンテナ
１１２は、さらに、無線チャンネル１０５を媒介として加入者ユニット１０２−
１０３に伝送する。アンテナ１１２を媒介として受信されるデータは、データ信
号に変換され、そして、無線網１１３に搬送される。逆に、無線網１１３からの
データは、送信用のアンテナ１１２に送信される。本発明のコンテキストにおい
て、無線網１１３は、一般に技術上周知のように、ベースステーション、コント
ローラ、リソース割当装置、インターフェイス、データベースなどの無線システ
ムを実施するのに必要なこれらの装置を備えている。通常の当業者に理解できる
ように、無線網１１３に組み込まれる特定の要素は、使用される無線システム１
１０の特定のタイプ、たとえば、セルラーシステム、中継陸上移動システムなど
によって決まる。

【００１１】クライアント−サーバ音声認識および合成システムのサーバ部分を提供する音
声認識サーバ１１５は、無線網１１３に結合されることができ、それによって、
無線システム１１０のオペレータが加入者ユニット１０２−１０３のユーザに音
声利用サービスを提供することを可能とする。制御エンティティ１１６は、さら
に、無線網１１３に結合されることができる。制御エンティティ１１６は、加入
者ユニット、あるいは、加入者ユニットに相互に接続される装置を制御するため
に、音声認識サーバ１１５によって提供される入力に応答して、制御信号を加入
者ユニット１０２−１０３に送信するのに使用されることが可能である。示され
るように、あらゆる適切にプログラムされた汎用コンピュータを備えることがで
きる制御エンティティ１１６は、無線網１１３を介してか、あるいは、ダッシュ
記号の相互接続によって示されるように、直接的にかのいずれかで、音声認識サ
ーバ１１５に結合されることができる。

【００１２】上記に述べられるように、本発明のインフラストラクチャは、データ網１５０
を媒介として互いに結合される様々なシステム１１０，１２０，１３０，１４０
を備えることが可能である。適切なデータ網１５０は、周知の網テクノロジーを
使用するプライベートデータ網、Ｉｎｔｅｒｎｅｔ（インターネット）などの公
衆網、あるいは、それらの組み合わせを備えることができる。別の方法として、
あるいは、追加として、無線システム１１０内の音声認識サーバ１１５、リモー
ト音声認識サーバ１２３，１３２，１４３，１４５は、音声利用サービスを加入
者ユニット１０２−１０３に提供するために、様々な方法で、データ網１５０に
接続されることができる。リモート音声認識サーバは、提供されるとき、同様に
、データ網１５０およびあらゆる介在通信パスを介して制御エンティティ１１６
と通信することが可能である。

【００１３】デスクトップパーソナルコンピュータ、小さなエンティティシステム１２０（
小規模ビジネス、あるいは、ホームなどの）内の他の汎用処理装置などのコンピ
ュータ１２２は、音声認識サーバ１２３を実施するのに使用されることが可能で
ある。加入者ユニット１０２−１０３へのデータおよび加入者ユニット１０２−
１０３からのデータは、無線システム１１０とデータ網１５０とを介してコンピ
ュータ１２２にルートされる。保存されたソフトウェアアルゴリズムおよびプロ
セスを実行して、コンピュータ１２２は、好ましい実施の形態において、音声認
識システムと音声合成システムとの両方のサーバ部分を含む音声認識サーバ１２
３の機能を提供する。たとえば、コンピュータ１２２が、ユーザのパーソナルコ
ンピュータである所では、そのコンピュータの音声認識サーバソフトウェアは、
ユーザの電子メール、電話帳、カレンダー、他の情報などのコンピュータにある
ユーザの個人情報に結合されることが可能である。この構成により、加入者ユニ
ットのユーザが、音声利用インターフェイスを利用する加入者のパーソナルコン
ピュータの個人情報にアクセスすることを可能とする。本発明によるクライアン
ト−サーバ音声認識および音声合成システムのクライアント部分は、図２および
図３を参照として以下に記述される。本発明によるクライアント−サーバ音声認
識および音声合成システムのサーバ部分は、図４および図５を参照として以下に
記述される。

【００１４】別の方法として、加入者ユニットのユーザに使用可能とさせる情報を有するコ
ンテンツプロバイダ１３０は、音声認識サーバ１３２をデータ網に接続すること
が可能である。特徴、あるいは、特別のサービスとして提案されると、音声認識
サーバ１３２は、コンテンツプロバイダの情報（図示せず）へのアクセスを望む
加入者ユニットのユーザに音声利用インターフェイスを提供する。

【００１５】音声認識サーバのための別の可能なロケーションは、大企業、あるいは、同様
のエンティティなどの企業１４０内にある。Ｉｎｔｒａｎｅｔ（イントラネット
）などの企業の内部網１４６は、セキュリティゲートウェイ１４２を媒介として
データ網１５０に接続される。セキュリティゲートウェイ１４２は、加入者ユニ
ットと関連して、企業の内部網１４６への安全なアクセスを提供する。技術上周
知のように、このように提供される安全なアクセスは、一般に、一部分、認証お
よび暗号化テクノロジに依存にしている。このように、安全にされていないデー
タ網１５０を媒介とする加入者ユニットと内部網１４６との間の安全な通信が行
われる。企業１４０内で、音声認識サーバ１４５を実施するサーバソフトウェア
は、所定の従業員のワークステーションなどのパーソナルコンピュータに提供さ
れることが可能である。小さなエンティティシステムにおける使用について上記
に記述される構成と同様に、ワークステーションアプローチにより、従業員が、
音声利用インターフェイスを介して作業関連情報、あるいは、他の情報にアクセ
スすることを可能とする。さらに、コンテンツプロバイダ１３０モデルと同様に
、企業１４０は、企業データベースへのアクセスを行うために、内部で使用可能
な音声認識サーバ１４３を提供することが可能である。

【００１６】本発明の音声認識サーバが設置される所にかかわらず、それらは、様々な音声
利用サービスを実施するのに使用されることが可能である。たとえば、制御エン
ティティ１１６と関連して操作すると、提供されるとき、音声認識サーバは、加
入者ユニットに結合される加入者ユニット、あるいは、装置の動作制御を可能と
する。本明細書を通じて使用されるように、音声認識サーバという用語は、音声
合成機能をも含むことを意図されるということは留意されるべきである。

【００１７】本発明のインフラストラクチャは、さらに、加入者ユニット１０２−１０３と
通常の電話技術システムとの間の相互接続を提供する。これは、ＰＯＴＳ（プレ
ーンな旧来の電話システム）への無線網１１３の結合により、図１において示さ
れている。技術上周知のように、ＰＯＴＳ網１１８、あるいは、同様な電話網は
、陸上通信線電話受話器、あるいは、他の無線装置などの複数の呼び局１１９へ
の通信アクセスを提供する。このように、加入者ユニット１０２−１０３のユー
ザは、呼び局１１９の別のユーザと音声通信を行うことが可能である。

【００１８】図２は、本発明による加入者ユニットを実施するのに使用されることができる
ハードウェアアーキテクチャを示している。示されるように、２つの無線トラン
シーバ、無線データトランシーバ２０３と無線音声トランシーバ２０４とが、使
用されることができる。技術上周知のように、これらのトランシーバは、データ
および音声の機能の両方を行うことが可能である単一のトランシーバに組み合わ
されることができる。無線データトランシーバ２０３および無線音声トランシー
バ２０４は、両方ともアンテナ２０５に接続される。別の方法として、各トラン
シーバのための独立したアンテナが、さらに、使用されることができる。無線音
声トランシーバ２０４は、無線音声通信を行うために、すべての必要な信号処理
、プロトコル終了、変復調などを行い、そして、好ましい実施の形態において、
セルラートランシーバを備えている。同様な方法で、無線データトランシーバ２
０３は、インフラストラクチャとのデータ連結性を提供する。好ましい実施の形
態において、無線データトランシーバ２０３は、ＥｕｒｏｐｅａｎＴｅｌｅｃ
ｏｍｍｕｎｉｃａｔｉｏｎｓＳｔａｎｄａｒｄａＩｎｓｔｉｔｕｔｅ（欧州
電気通信標準化協会）（ＥＴＳＩ）によって定義されるＧｅｎｅｒａｌＰａｃ
ｋｅｔＤａｔａＲａｄｉｏＳｅｒｖｉｃｅ（ジェネラルパケットデータ無
線サービス）（ＧＰＲＳ）などの無線パケットデータをサポートする。

【００１９】本発明が、以下に論じられるように、自動車システム内に特定の利点を有して
適用されることが可能であることは予測される。自動車内で使用されるとき、本
発明による加入者ユニットは、さらに、一般に、自動車の一部であるか、加入者
ユニットの一部でないと理解される処理コンポーネントを含む。本発明を説明す
るために、このような処理コンポーネントは、加入者ユニットの一部であると想
定する。加入者ユニットの実際の実施は、設計の考慮すべき問題によって指図さ
れるように、このような処理コンポーネントを含んでも、あるいは、含まなくて
もよい。好ましい実施の形態において、処理コンポーネントは、ＩＢＭＣｏｒ
ｐ．，による“ＰＯＷＥＲＰＣなどの”汎用プロセッサ（ＣＰＵ）２０１と、
ＭｏｔｏｒｏｌａＩｎｃ．によるＤＳＰ５６３００シリーズプロセッサなど
のデジタル信号プロセッサ（ＤＳＰ）２０２とを備えている。ＣＰＵ２０１お
よびＤＳＰ２０２は、それらが技術上周知のように、データおよびアドレスバ
スと、他の制御接続とを媒介として互いに結合されることを示すために、図２に
隣接して示されている。別の実施の形態は、ＣＰＵ２０１とＤＳＰ２０２と
の両方の機能を単一のプロセッサに組み合わすか、あるいは、それらをいくつか
のプロセッサに分割することが可能である。ＣＰＵ２０１およびＤＳＰ２０
２は、その関連したプロセッサにプログラムおよびデータストレージを提供する
それぞれのメモリー２４０，２４１に結合される。格納されたソフトウェアルー
チンを使用して、ＣＰＵ２０１および／またはＤＳＰ２０２は、本発明の機
能の少なくとも一部を実施するためにプログラムされることが可能である。ＣＰ
Ｕ２０１およびＤＳＰ２０２のソフトウェア機能は、以下に図３および図７
を参照として少なくとも一部記述されている。

【００２０】好ましい実施の形態において、加入者ユニットは、さらに、アンテナ２０７に
結合される全地球測位システム（ＧＰＳ）受信機２０６を含む。ＧＰＳ受信機２
０６は、受信したＧＰＳ情報を提供するためにＤＳＰ２０２に結合される。Ｄ
ＳＰ２０２は、ＧＰＳ受信機２０６から情報を受け、そして、無線通信装置の
ロケーション座標を計算する。別の方法として、ＧＰＳ受信機２０６は、直接Ｃ
ＰＵ２０１にロケーション情報を提供することができる。

【００２１】ＣＰＵ２０１およびＤＳＰ２０２の様々な入力および出力は、図２に示さ
れている。図２に示されるように、太い実線は、音声関連情報に相当し、そして
、太い鎖線は、制御／データ関連情報に相当する。オプショナル要素および信号
パスは、点線を使用して図示されている。ＤＳＰ２０２は、以下にさらに詳細
に記述されるように、電話（セル電話）会話および音声入力の両方のための音声
入力を、ローカル音声認識装置およびクライアント−サーバ音声認識装置のクラ
イアントサイド部分との両方に提供するマイクロフォン２７０からマイクロフォ
ンオーディオ２２０を受信する。ＤＳＰ２０２は、さらに、電話（セル電話）
会話および音声入力の音声入力を、ローカル音声シンセサイザおよびクライアン
ト−サーバ音声シンセサイザのクライアントサイド部分との両方から提供する少
なくとも１つのスピーカ２７１に向けられる出力オーディオ２１１に結合される
。マイクロフォン２７０およびスピーカ２７１は、ハンドヘルド装置におけるよ
うに、隣接して互いに位置されることができること、あるいは、遮光板取り付け
マイクロフォンおよびダッシュ、または、ドア取り付けスピーカを有する自動車
の適用におけるように、互いに最も近くに位置されることができることに留意し
てください。

【００２２】本発明の１つの実施の形態において、ＣＰＵ２０１は、双方向性インターフ
ェイス２３０を介して自動車内のデータバス２０８に結合されている。このデー
タバス２０８により、制御およびステータス情報が、セル電話、エンターテイメ
ントシステム、環境制御システムなどの自動車内の様々な装置２０９ａ−ｎとＣ
ＰＵ２０１との間に通信されることを可能とする。適切なデータバス２０８は
、一般に、ＳｏｃｉｅｔｙｏｆＡｕｔｏｍｏｔｉｖｅＥｎｇｉｎｅｅｒｓ
（自動車エンジニア協会）によって標準化されるプロセスにおけるＩＴＳＤａ
ｔａＢｕｓ（ＩＴＳデータバス）であることが予期される。Ｂｌｕｅｔｏｏｔ
ｈＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ（ブルートゥース特別利害
グループ）（ＳＩＧ）によって定義される短距離の無線データ通信システムなど
の様々な装置間の制御およびステータス情報を伝える別の手段が使用されること
ができる。データバス２０８により、ＣＰＵ２０１が、ローカル音声認識装置
によって、あるいは、クライアント−サーバ音声認識装置によってかのいずれか
によって認識される音声コマンドに応答して自動車データバスの装置２０９を制
御することを可能とする。

【００２３】ＣＰＵ２０１は、受信データ接続２３１および送信データ接続２３２を媒介
として無線データトランシーバ２０３に結合される。これらの接続２３１−２３
２により、ＣＰＵ２０１が、無線システム１１０から送信される制御情報およ
び音声合成情報を受信することを可能とする。音声合成情報は、無線データチャ
ネル１０５を媒介としてクライアント−サーバ音声合成システムのサーバ部分か
ら受信される。ＣＰＵ２１０は、次に、ＤＳＰ２０２に引き渡される音声合
成情報を復号化する。ＤＳＰ２０２は、次に、出力音声を合成し、そして、そ
れをオーディオ出力２１１に引き渡す。受信データ接続２３１を媒介として受信
されるあらゆる制御情報は、加入者ユニット自体の動作を制御するのに使用され
るか、あるいは、それらの動作を制御するために、１つ以上の装置に送信するの
に使用されることができる。そのうえ、ＣＰＵ２１０は、ステータス情報と、
クライアント−サーバ音声認識システムのクライアント部分からの出力データと
を無線システム１１０に送信することが可能である。クライアント−サーバ音声
認識システムのクライアント部分は、以下にいっそう詳細に記述されるように、
ＤＳＰ２０２およびＣＰＵ２０１のソフトウェアにおいて実施されることが
好ましい。音声認識をサポートするとき、ＤＳＰ２０２は、マイクロフォン入
力２２０から音声を受信し、そして、パラメータで表示された音声信号をＣＰＵ
２０１に提供するために、このオーディオを処理する。ＣＰＵ２０１は、パ
ラメータで表示された音声信号を符号化し、そして、無線データチャネル１０５
全体にインフラストラクチャの音声認識サーバに送信されるべく、送信データ接
続２３２を媒介として、この情報を無線データトランシーバ２０３に送信する。

【００２４】無線音声トランシーバ２０４は、双方向性データバス２３３を媒介としてＣＰ
Ｕ２０１に結合される。このデータバスにより、ＣＰＵ２０１が、無線音声
トランシーバ２０４の動作を制御することを可能とし、そして、無線音声トラン
シーバ２０４からステータス情報を受信する。無線音声トランシーバ２０４は、
さらに、送信オーディオ接続２２１と受信オーディオ接続２１０とを媒介として
ＤＳＰ２０２に結合される。無線音声トランシーバ２０４が、電話（セルラー）
コールを促進するのに使用されるとき、オーディオは、ＤＳＰ２０２によってマ
イクロフォン入力２２０から受信される。マイクロフォンオーディオは、処理さ
れ（たとえば、フィルター、圧縮されるなど）、そして、セルラーインフラスト
ラクチャに伝送されるべく、無線音声トランシーバ２０４に提供される。逆に、
無線音声トランシーバ２０４によって受信されるオーディオは、受信オーディオ
接続２１０を媒介として、オーディオが処理され（たとえば、解凍、フィルター
されるなど）、そして、スピーカ出力２１１に提供されるＤＳＰ２０２に送信さ
れる。ＤＳＰ２０２によって行われる処理は、図３を参照としていっそう詳細に
記述される。

【００２５】図２に示される加入者ユニットは、任意に、音声通信の間に割り込みインジケ
ータ２５１を手動で提供するのに使用される入力装置２５０を備えることができ
る。すなわち、音声会話の間、加入者ユニットのユーザは、割り込みインジケー
タを提供するために、手動で入力装置を始動することが可能であり、それによっ
て、音声認識機能を引き起こすためにユーザの所望を信号する。たとえば、音声
通信の間、加入者ユニットのユーザは、音声利用コマンドを電子付随部に提供す
るために、たとえば、電話をかけて、そして、第三者をコールに加えるために、
会話に割り込むことを希望することができる。入力装置２５０は、特に、たとえ
ば、単一の、あるいは多目的ボタン、マルチ位置決めセレクタ、あるいは入力ケ
イパビリティを有するメニュー駆動ディスプレイなどを含む、あらゆるタイプの
ユーザ始動入力メカニズムを実質的に備えることができる。別の方法として、入
力装置２５０は、双方向性インターフェイス２３０と自動車内データバス２０８
とを媒介としてＣＰＵ２０１に接続されることができる。とにかく、このような
入力装置２５０が提供されるとき、ＣＰＵ２０１は、割り込みインジケータの発
生セグメントを識別するために、検出器として作動する。ＣＰＵ２０１が、入力
装置２５０のための検出器として作動するとき、ＣＰＵ２０１は、参照符号２６
０で識別される信号パスによって図示されるように、ＤＳＰ２０２への割り込み
インジケータの存在を表示する。逆に、別の実施が、割り込みインジケータを提
供するために、検出器アプリケーションに結合されるローカル音声認識装置（Ｄ
ＳＰ２０２および／またはＣＰＵ２０１内で実施されることが好ましい）を使用
する。その場合、ＣＰＵ２０１か、あるいは、ＤＳＰ２０２かのいずれかが、参
照符号２６０ａによって識別される信号パスによって表わされるように、割り込
みインジケータの存在を信号で知らせる。とにかく、割り込みインジケータの存
在が検出されると、音声認識要素の部分（このましくは、加入者ユニットと関連
して、あるいは加入者ユニットの一部として実施されるクライアント部分）は、
音声利用コマンドを処理し始めるために始動される。そのうえ、音声認識要素の
部分が始動されたという表示は、さらに、ユーザと音声認識サーバとに提供され
ることができる。好ましい実施の形態において、このような表示は、音声認識要
素を提供するために、送信データ接続２３２を媒介として、音声認識クライアン
トと協働する音声認識サーバへの送信のための無線データトランシーバ２０３に
搬送される。

【００２６】最後に、加入者ユニットは、音声認識機能が割り込みインジケータに応答して
始動されたというアナンシエータ制御２５６に応答して加入者ユニットのユーザ
に表示を提供するアナンシエータ２５５を装備することが好ましい。アナンシエ
ータ２５５は、割り込みインジケータの検出に応答して始動され、そして、制限
した持続期間のトーン、あるいは、ビーッという音などの音響表示を提供するの
に使用されるスピーカを備えることができる。（もう一度、割り込みインジケー
タの存在は、入力装置利用信号２６０か、あるいは、音声利用信号２６ａのいず
れかを使用して、信号で知らされることが可能である。）別の実施において、ア
ナンシエータの機能は、オーディオをスピーカ出力２１１に向けるＤＳＰ２０２
によって実行されるソフトウェアプログラムを媒介として提供される。スピーカ
は、オーディオ出力２１１を可聴させるのに使用されるスピーカ２７１から独立
しているか、あるいは、同一のものでよい。別の方法として、アナンシエータ２
５５は、可視インジケータを提供する、ＬＥＤ、あるいは、ＬＣＤディスプレイ
などのディスプレイ装置を備えることができる。アナンシエータ２５５の特定の
形状は、設計選択の問題であり、そして、本発明は、この点では限定される必要
はない。さらに、アナンシエータ２５５は、双方向性インターフェイス２３０と
自動車内データバス２０８とを媒介として、ＣＰＵ２０１に接続されることがで
きる。

【００２７】ここでは図３を参照すると、加入者ユニット内で行われる処理の部分（本発明
による動作）が、概略的に図示されている。図３に示される処理は、ＣＰＵ２０
１および／またはＤＳＰ２０２によって実行される格納された機械可読インスト
ラクションを使用して実施される。以下に呈される論議は、自動車の車両内に採
用される加入者ユニットの動作について記述している。とはいえ、図３に全体と
して示され、そして、ここに記述される機能は、同様に、音声認識を使用する、
あるいは、音声認識の使用で利益を得る非自動車利用アプリケーションに適用可
能である。

【００２８】マイクロフォンオーディオ２２０は、加入者ユニットに入力として提供される
。自動車環境において、マイクロフォンは、自動車の遮光板、あるいは、ステア
リングコラムに、または、近くに、一般に取り付けられるハンドフリーマイクロ
フォンである。マイクロフォンオーディオ２２０は、デジタル形状でエコーキャ
ンセルおよび環境処理（ＥＣＥＰ）ブロック３０１に到達することが好ましい。
スピーカオーディオ２１１は、あらゆる必要な処理を行った後、ＥＣＥＰブロッ
ク３０１によって、１つまたは複数のスピーカに引き渡される。自動車内におい
て、このようなスピーカは、ダッシュボードの下に取り付けられることが可能で
ある。別の方法として、スピーカオーディオ２１１は、エンターテインメントシ
ステムのスピーカシステムを介してプレイされるべく、自動車内のエンターテイ
ンメントシステムを介してルートされることが可能である。スピーカオーディオ
２１１は、デジタルフォーマットであることが好ましい。セルラー電話コールが
、たとえば、処理中であるとき、セルラー電話からの受信オーディオは、受信オ
ーディオ接続２１０を媒介としてＥＣＥＰブロック３０１に到達する。同様に、
送信オーディオは、送信オーディオ接続２２１全体にわたりセル電話に引き渡さ
れる。

【００２９】ＥＣＥＰブロック３０１は、送信オーディオ接続２２１を媒介として、無線音
声トランシーバ２０４に引き渡す前に、マイクロフォンオーディオ２２０からス
ピーカオーディオ２１１のエコーキャンセルを行う。エコーキャンセルのこの形
状は、音響エコーキャンセルとして周知であり、そして、技術上周知である。た
とえば、Ａｍａｎｏらに発行され、そして、“Ｓｕｂ−ｂａｎｄＡｄｏｕｓｔ
ｉｃＥｃｈｏＣａｎｃｅｌｌｅｒ（サブバンド音響エコーキャンセラー）”
と題する米国特許第５，１３６，５９９号およびＧｅｎｔｅｒに発行され、そし
て、“ＥｃｈｏＣａｎｃｅｌｅｒｗｉｔｈＳｕｂｂａｎｄＡｔｔｅｎｕ
ａｔｉｏｎａｎｄＮｏｉｓｅＩｎｊｅｃｔｉｏｎＣｏｎｔｒｏｌ（サブ
バンド減衰およびノイズインジェクション制御を有するエコーキャンセル）”と
題する米国特許第５，５６１，６６８号は、音響エコーキャンセルを行うための
適切な技術を教示し、その特許の教示は、この結果、ここに参照として含まれて
いる。

【００３０】ＥＣＥＰブロック３０１が、さらに、エコーキャンセルに加えて、いっそう快
い音声信号を加入者ユニットによって伝送されるオーディオを受信する関係者に
提供するために、環境処理をマイクロフォンオーディオ２２０に提供する。一般
に使用されている１つの技術は、ノイズ抑制と呼ばれる。自動車内のハンドフリ
ーマイクロフォンは、一般に、別の関係者によって聞かされる多くのタイプの音
響ノイズをピックアップする。この技術は、別の関係者が聞く知覚バックグラウ
ンドノイズを減少し、そして、たとえば、Ｖｉｌｍｕｒらに発行された米国特許
第４，８１１，４０４号に記述されており、その特許の教示は、この結果、参照
としてここに含まれている。

【００３１】ＥＣＥＰブロック３０１は、さらに、第１のオーディオパス３１６を媒介とし
て音声合成バックエンド３０４によって提供される合成された音声のエコーキャ
ンセル処理を行い、その合成された音声は、オーディオ出力２１１を媒介として
１つまたは複数のスピーカに引き渡される。１つまたは複数のスピーカにルート
される受信された音声を有するこの場合におけるように、マイクロフォンオーデ
ィオパス２２０に到達するスピーカオーディオ“エコー”は、キャンセルされる
。これにより、アコースティックにマイクロフォンに結合されるスピーカオーデ
ィオが、音声認識フロントエンド３０２に引き渡される前に、マイクロフォンオ
ーディオから削除されることを可能とする。このタイプの処理は、“バージイン
”として技術上周知であることを可能にする。バージインにより、音声認識シス
テムが、出力音声が同時にシステムによって生成される間に、入力音声に応答す
ることを可能とする。“バージイン”実施の実施例は、たとえば、米国特許第４
，９１４，６９２号、第５，４７５，７９１号、第５，７０８，７０４号および
第５，７６５，１３０号に見られる。バージイン処理についての本発明の適用は
、以下にいっそう詳細に記述されている。

【００３２】エコーがキャンセルされたマイクロフォンオーディオは、音声認識処理が行わ
れるたびに、第２のオーディオパス３２６を媒介として音声認識フロントエンド
３０２に提供される。任意に、ＥＣＥＰブロック３０１は、第１のデータパス３
２７を媒介として音声認識フロントエンド３０２にバックグラウンドノイズ情報
を提供する。このバックグラウンドノイズ情報は、ノイズのある環境における音
声認識システムオペレーティングのための認識性能を改善するのに使用されるこ
とが可能である。このような処理を行うための適切な技術は、Ｇｅｒｓｏｎらに
発行された米国特許第４，９１８，７３２号に記述されており、その特許の教示
は、この結果、参照としてここに含まれている。

【００３３】エコーがキャンセルされたマイクロフォンオーディオと、任意に、ＥＣＥＰブ
ロック３０１から受信されるバックグラウンドノイズ情報とに基づき、音声認識
フロントエンド３０２は、パラメータで表示された音声情報を生成する。全体と
して、音声認識フロントエンド３０２および音声合成バックエンド３０４は、ク
ライアント−サーバ利用音声認識および合成システムのクライアントサイド部分
のコア機能を提供する。パラメータで表示された音声情報は、一般に、特徴ベク
トルの形をとり、新しいベクトルは、１０ｍｓｅｃから２０ｍｓｅｃ毎に計算さ
れる。音声信号のパラメータ表示化のための１つの一般に使用される技術は、“
ＣｏｍｐａｒｉｓｏｎＯｆＰａｒａｍｅｔｒｉｃＲｅｐｒｓｅｎｔａｔｉ
ｏｎｓＦｏｒＭｏｎｏｓｙｌｌａｂｉｃＷｏｒｄＲｅｃｏｇｎｉｔｉｏ
ｎＩｎＣｏｎｔｉｎｕｏｕｓｌｙＳｐｏｋｅｎＳｅｎｎｔｅｎｓｅｓ，
”ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎａｃｏｕｓｔｉｃｓＳｐｅｅ
ｃｈａｄｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＡＳＳＰ−２８（４），
ｐｐ．３５７−３６６，１９８０年８月に、Ｄａｖｉｓらによって記述されるよ
うにｍｅｌｃｅｐｓｔｒａであり、その公報の教示は、この結果、参照として
ここに含まれている。

【００３４】音声認識フロントエンド３０２によって計算されるパラメータベクトルは、ロ
ーカル音声認識処理のための第２のデータパス３２５を媒介としてローカル音声
認識ブロック３０３に受け渡される。パラメータベクトルは、さらに、任意に、
第３のデータパス３２３を媒介として、音声適用プロトコルインターフェイス（
ＡＰＩ‘ｓ）およびデータプロトコルとを備えるプロトコル処理ブロック３０６
に受け渡される。周知の技術によれば、処理ブロック３０６は、送信データ接続
２３２を媒介として、パラメータベクトルを無線データトランシーバ２０３に送
信する。順番に、無線データトランシーバ２０３は、クライアント−サーバ利用
音声認識の一部として機能するサーバにパラメータベクトルを搬送する。（加入
者ユニットは、パラメータベクトルを送信するのではなく、その代わりに、無線
データトランシーバ２０３か、あるいは、無線音声トランシーバ２０４のいずれ
かを使用して、サーバーに音声情報を送信することは明らかである。これは、加
入者ユニットから電話網への音声の伝送をサポートするのに使用されるのと類似
の方法で、あるいは、音声信号の他の適切な表現を使用して、行われることがで
きる。すなわち、音声情報は、様々なパラメータで表示されない表現：未使用の
デジタイズされたオーディオ、セルラー音声コーダによって処理されたオーディ
オ、ＩＰ（インターネットプロトコル）などの特定のプロトコルによる伝送に適
切なオーディオデータ等の様々なパラメータで表示されない表現のいずれかを備
えることができる。順番に、サーバは、パラメータで表示されない音声情報を受
信すると、必要なパラメータ表示化を行うことが可能である。）単一の音声認識
フロントエンド３０２が示されるのに対して、ローカル音声認識装置３０３およ
びクライアント−サーバ利用音声認識装置は、実際には、異なる音声認識フロン
トエンドを利用することができる。

【００３５】ローカル音声認識装置３０３は、音声認識フロントエンド３０２からパラメー
タベクトル３２５を受信し、そして、たとえば、パラメータで表示された音声内
に何か認識可能な発話があるかどうかを決定するために、その結果として、音声
認識分析を行う。１つの実施の形態において、認識された発話（一般に、ワード
・言葉）は、第４のデータパス３２４を媒介として、ローカル音声認識装置３０
３からプロトコル処理ブロック３０６に送信され、それは、順番に、さらなる処
理のため様々なアプリケーション３０７に認識された発話を受け渡す。ＣＰＵ２
０１およびＤＳＰ２０２のいずれか、あるいは、両方を使用して実施されること
ができるアプリケーション３０７は、認識された発話に基づき、音声利用割り込
みインジケータが受信されたことを確かめる検出器アプリケーションを含むこと
が可能である。たとえば、検出器は、同一性を検索する予め定められた発話（た
とえば、“ウェークアップ”）のリストに対して、認識された発話を比較する。
同一性が検出されるとき、検出器アプリケーションは、割り込みインジケータの
存在を表わす信号２６０ａを発する。割り込みインジケータの存在は、順番に、
音声利用コマンドを処理し始めるために、音声認識要素の部分を始動するのに使
用される。これは、音声認識フロントエンドに送られる信号２６０ａによって、
図３に概略的に示されている。応答中、音声認識フロントエンド３０２は、パラ
メータで表示されたオーディオを、ローカル音声認識装置にか、あるいは、好ま
しくは、追加の処理のため音声認識サーバへの伝送のためのプロトコル処理ブロ
ック３０６にかのいずれかに、ルーティングし続ける。（さらに、入力装置２５
０によって任意に提供される入力装置利用信号２６０は、さらに、同一の機能を
作用することに留意してください。）そのうえ、割り込みインジケータの存在は
、音声認識装置のインフラストラクチャ利用要素に警告するために、送信データ
接続２３２に送信されることができる。

【００３６】音声合成バックエンド３０４は、音声のパラメトリック表現を入力とみなし、
そして、パラメトリック表現を、次に、第１のオーディオパス３１６を媒介とし
てＥＣＥＰブロック３０１に引き渡される音声信号に変換する。使用される特定
のパラメトリック表現は、設計選択の考慮すべき問題である。１つの一般に使用
されているパラメトリック表現は、Ｋｌａｔｔの“ＳｏｆｔｗａｒｅＦｏｒ
ＡＣａｓｃａｄｅ／ＰａｒａｌｌｅｌＦｏｒｍａｎｔＳｙｎｔｈｅｓｉｚ
ｅｒ”，ＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌｓｏｃｉｅｔ
ｙｏｆＡｍｅｒｉｃａ，Ｖｏｌ．６７，１９８０，ｐｐ．９７１−９９５に
記述されるように、フォルマントパラメータである。線形予測パラメータは、Ｍ
ａｒｋｅｌらのＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎｏｆＳｐｅｅｃｈ，Ｓ
ｐｒｉｎｇｅｒＶｅｒｌａｇ，ＮｅｗＹｏｒｋ，１９７６に記述されるよう
に、別の一般に使用されるパラメトリック表現である。ＫｌａｔｔおよびＭａｒ
ｋｅｌらの公報のそれぞれの教示は、参照としてここに含まれている。

【００３７】クライアント−サーバ利用音声合成の場合、音声のパラメトリック表現は、無
線チャンネル１０５、無線データトランシーバ２０３およびプロトコル処理ブロ
ック３０６を媒介として、回線網から受信され、それは、第５のデータパス３１
３を媒介として音声合成バックエンドに転送される。ローカル音声合成の場合、
アプリケーション３０７は、話されるテキストストリングを生成する。このテキ
ストストリングは、第６のデータパス３１４を媒介としてプロトコル処理ブロッ
ク３０６からローカル音声シンセサイザ３０５に受け渡される。ローカル音声シ
ンセサイザ３０５は、テキストストリングを音声信号のパラメトリック表現に変
換し、そして、第７のデータパスを媒介としてこのパラメトリック表現を音声信
号への変換のため音声合成バックエンド３０４に受け渡す。

【００３８】受信データデータ接続２３１が、音声合成情報に加えて、他の受信された情報
を搬送するのに使用されることが可能であることは留意されるべきである。たと
えば、他の受信された情報は、インフラストラクチャから受信されるデータ（デ
ィスプレイ情報などの）および／または制御情報、およびシステムにダウンロー
ドされるコードを含むことができる。同様に、送信データ接続２３２は、音声認
識フロントエンド３０２によって計算されるパラメータベクトルに加えて、他の
伝送情報を搬送するのに使用されることが可能である。たとえば、他の伝送情報
は、装置ステータス情報、装置可能出力およびバージインタイミングに関連する
情報を含むことができる。

【００３９】ここでは、図４を参照すると、本発明によるクライアント−サーバ音声認識お
よび合成システムのサーバ部分を提供する音声認識サーバのハードウェアの実施
の形態が示されている。このサーバは、図１を参照として上記に記述されるよう
に、いくつかの環境にいることが可能である。加入者ユニット、あるいは、制御
エンティティとのデータ通信は、インフラストラクチャ、あるいは、網接続４１
１を介して可能にされる。この接続４１１は、たとえば、図１に示されるように
、無線システムに局部的であり、および直接無線網に接続されることができる。
別の方法として、接続４１１は、パブリックデータ網にか、あるいは、プライベ
ートデータ網にか、または、なにか他のデータ通信リンクにかである；本発明は
、この点では限定されるものではない。

【００４０】網インターフェイス４０５は、ＣＰＵ４０１と網接続４１１との間の接続を行
う。網インターフェイス４０５は、受信パス４０８を媒介として、網４１１から
ＣＰＵ４０１に、そして、送信パス４１０を媒介として、ＣＰＵ４０１から網接
続４１１にデータをルートする。クライアント−サーバ構成の一部として、ＣＰ
Ｕ４０１は、網インターフェイス４０５と網接続４１１とを媒介として、１つ以
上のクライアント（加入者ユニットにおいて実施されることが好ましい）と通信
する。好ましい実施の形態において、ＣＰＵ４０１は、クライアント−サーバ音
声認識および合成システムのサーバ部分を実施する。図示されていないが、図４
に示されるサーバは、さらに、サーバへのローカルアクセスを可能とするローカ
ルインターフェイスを備えることができ、それによって、たとえば、サーバメン
テナンス、ステータスチェッキングおよび他の同様の機能を促進する。

【００４１】メモリー４０３は、機械可読インストラクション（ソフトウェア）と、クライ
アント−サーバ構成のサーバ部分を実施する際に、ＣＰＵ４０１による実行およ
び使用のためのプログラムデータとを格納する。このソフトウェアの動作および
構造は、さらに、図５を参照として記述される。

【００４２】図５は、音声認識および合成サーバ機能の実施を示している。少なくとも１つ
の音声認識クライアントと協働して、図５に示される音声認識サーバ機能は、音
声認識要素を提供する。加入者ユニットからのデータは、受信パス４０８を媒介
として、受信機（ＲＸ）５０２に到達する。受信機は、データを復号化し、そし
て、音声認識クライアントから音声認識分析器５０４に音声認識データ５０３を
ルートする。装置ステータス情報、装置可能出力、バージインコンテキストに関
連する情報などの加入者ユニットからの他の情報５０６は、受信機５０２によっ
てローカル制御プロセッサ５０８にルートされる。１つの実施の形態において、
他の情報５０６は、音声認識要素（たとえば、音声認識クライアント）の部分が
、始動されたという加入者ユニットからの表示を含む。このような表示は、音声
認識サーバにおける音声認識処理を始動するのに使用されることが可能である。

【００４３】クライアント−サーバ音声認識構成の一部として、音声認識分析器５０４は、
加入者ユニットからの音声認識パラメータベクトルを受け、そして、認識処理を
完了する。認識されたワード、あるいは、発話５０７は、次に、ローカル制御プ
ロセッサ５０８に受け渡される。パラメータベクトルを認識された発話に変換す
るのに必要な処理の記述は、Ｌｅｅらの“自動音声認識：ＴｈｅＤｅｖｅｌｏ
ｐｍｅｎｔｏｆｔｈｅＳｐｈｉｎｘＳｙｓｔｅｍ”，１９８８に見られる
ことが可能であり、その公報の教示は、参照としてここに含まれている。上記に
述べられるように、加入者ユニットからパラメータベクトルを受信するのではな
く、サーバ（すなわち、音声認識分析器５０４）は、パラメータで表示されない
音声情報を受信することができることも分かる。もう一度、音声情報は、上記に
記述されるようにいくつかの形状のいずれかをとる。この場合、音声認識分析器
５０４は、第一に、たとえば、ｍｅｌｃｅｐｓｔｒａ技術を使用して、音声情
報をパラメータで表示する。結果として生ずるパラメータベクトルは、次に、上
記に記述されるように、認識された発話に変換されることができる。

【００４４】ローカル制御プロセッサ５０８は、音声認識分析器５０４と他の情報５０８と
から認識された発話５０７を受信する。一般に、本発明は、認識された発話に作
用し、そして、認識された発話に基づき、制御信号を提供するために、制御プロ
セッサを必要とする。好ましい実施の形態において、これらの制御信号は、加入
者ユニット、あるいは、加入者ユニットに結合される少なくとも１つの装置の動
作を実質的に制御するのに使用される。このために、ローカルコントロープロセ
ッサは、２つの方法の１つで作動されることが好ましい。第一に、ローカル制御
プロセッサ５０８は、アプリケーションプログラムを実施することが可能である
。典型的なアプリケーションの１つの実施例は、米国特許第５，６５２，７８９
号に記述されるように電子アシスタントである。別の方法として、このようなア
プリケーションは、リモート制御プロセッサ５１６でリモート制御によりランす
ることが可能である。たとえば、図１のシステムにおいて、リモート制御プロセ
ッサは、制御エンティティ１１６を備えている。この場合、ローカル制御プロセ
ッサ５０８は、データ網接続５１５を媒介として、リモート制御プロセッサ５１
６と通信することにより、データを受け渡して、受信することによってゲートウ
ェイのように作動する。データ網接続５１５は、公衆（たとえば、インターネッ
ト）、プライベート（たとえば、イントラネット）、他のデータ通信リンクなど
でよい。実際に、ローカル制御プロセッサ５０８は、ユーザによって利用される
アプリケーション／サービスによって異なるが、データ網にある様々なリモート
制御プロセッサと通信することができる。

【００４５】リモート制御プロセッサ５１６か、あるいは、ローカル制御プロセッサ５０８
かのいずれかでランするアプリケーションプログラムは、認識された発話５０７
および／または他の情報５０６への応答を決定する。その応答は、合成されたメ
ッセージおよび／または制御信号を備えることが好ましい。制御信号５１３は、
ローカル制御プロセッサ５０８からトランシーバ（ＴＸ）５１０に中継される。
合成される情報５１４、一般に、テキスト情報は、ローカル制御プロセッサ５０
８から、テキストから音声への分析器５１２に送信される。テキストから音声へ
の分析器５１２は、入力テキストストリングをパラメトリック音声表現に変換す
る。このような変換を行う適切な技術は、Ｓｐｒｏａｔ（編集者）の“Ｍｕｌｔ
ｉｌｉｎｇｕａｌＴｅｘｔ−Ｔｏ−ＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ：Ｔｈ
ｅＢｅｌｌＬａｂｓＡｐｐｒｏａｃｈ”，１９９７に記述され、その公報
の教示は、参照としてここに含まれている。テキストから音声への分析器５１２
からのパラメトリック音声表現は、必要に応じて、加入者ユニットへの伝送のた
めの送信パス４１０全体にわたりパラメトリック音声表現５１１および制御情報
５１３を多重送信するトランスミッタ５１０に提供される。ほんの今記述された
のと同じ方法のオペレーティングで、テキストから音声への分析器５１２は、さ
らに、加入者ユニットで出力オーディオ信号としてプレイされる合成されたプロ
ンプトなどを提供するのに使用されることができる。

【００４６】本発明によるコンテキスト決定は、図６に示されている。図６に示されるアク
ティビティのための基準のポイントは、加入者ユニットのものであることは留意
されるべきである。すなわち、図６は、加入者への、また、加入者からの可聴信
号のタイム進行を示している。特に、出力オーディオ信号６０１のタイムを通じ
ての進行が図示されている。出力オーディオ信号６０１は、出力サイレンス・消
音６０４ａの第１の周期によって分離される先行の出力オーディオ信号６０２に
よって処置されることができ、そして、出力サイレンス６０４ｂの第２の周期に
よって、結果として生ずる出力オーディオ信号が続く。出力オーディオ信号６０
１は、音声信号などのあらゆるオーディオ信号、合成された音声信号、あるいは
、プロンプト、可聴トーン、あるいは、ビーッという音等を備えることができる
。本発明の１つの実施の形態において、各出力オーディオ信号６０１−６０３は
、ちょうどよいあらゆる所定のモーメントで出力される信号を識別するのを促進
するために、それに割り当てられる関連したユニークな識別子を有している。こ
のような識別子は、非リアルタイムで、様々な出力オーディオ信号（たとえば、
合成されたプロンプト、トーンなど）予め割り当てられることができ、あるいは
、リアルタイムで作成され、そして、割り当てられることができる。さらに、識
別子自体は、たとえば、帯域内信号方式、あるいは、帯域外周波信号方式を使用
して、出力オーディオ信号を提供するのに使用される情報とともに伝送されるこ
とができる。別の方法として、予め割り当てられた識別子の場合、識別子自体は
、加入者ユニットに提供されることが可能であり、そして、その識別に基づいて
、加入者ユニットは、出力オーディオ信号を合成することが可能である。通常の
技量の者には、出力オーディオ信号のための識別子を提供し、そして、使用する
様々な技術が、難なく考案され、そして、本発明に適用されることができるとい
うことは認められるであろう。

【００４７】示されるように、入力音声信号６０５は、出力オーディオ信号６０１のプレゼ
ンテーションに対してちょうどよいあるポイントで発生する。これは、たとえば
、出力オーディオ信号６０１−６０３が、一連の合成された音声プロンプトであ
り、そして、入力音声信号６０５が、音声プロンプトのいずれか１つへのユーザ
の応答である場合である。同様に、出力オーディオ信号は、さらに、加入者ユニ
ットに通信される合成されない音声信号でもありうる。とにかく、入力音声信号
が検出され、そして、入力開始時間６０８が、入力音声信号６０５の開始をメモ
リーアリズするために確立される。入力音声信号の開始を決定するための様々な
技術がある。１つのこのような方法は、米国特許第４，８２１，３２５号に記述
されている。入力音声信号の開始を決定するのに使用されるあらゆる方法は、１
／２０秒より多い分解で開始を決定できることが好ましい。

【００４８】入力音声信号の開始は、入力音声信号が出力オーディオ信号に対して検出され
た精密なポイントを表わすインターバル６０９を生じさせると、２つの連続する
出力開始時間６０７，６１０間のあらゆるタイムで検出されることが可能である
。したがって、入力音声信号の開始は、任意に、出力オーディオ信号に続くサイ
レンス・消音の周期（すなわち、出力オーディオ信号が提供されないとき）を含
むことができる出力オーディオ信号が生ずる間のあらゆるポイントで効果的に検
出されることが可能である。別の方法として、出力オーディオ信号の終了に続く
任意の長さのタイムアウト周期６１１は、出力オーディオ信号が生ずる終りを画
定するのに使用されることができる。このように、入力音声信号の開始は、個々
の出力オーディオ信号と関連することが可能である。有効な検出周期を確立する
他のプロトコルが確立されることが可能であることがわかる。たとえば、一連の
出力プロンプトが、互いにすべて関連される所では、有効な検出周期は、一連の
プロンプトのための第１の出力開始時間で開始し、そして、連続した最後のプロ
ンプトの後のタイムアウト周期でか、あるいは、連続に直ぐ続く出力オーディオ
信号のための第１の出力開始時間で終る。

【００４９】入力開始時間を検出するのに使用されるのと同じ方法は、出力開始時間６０７
，６１０を確立するのに使用されることができる。これは、特に、出力オーディ
オ信号がインフラストラクチャから直接提供される音声信号であるこれらの例に
は真実である。出力オーディオ信号が、たとえば、合成されたプロンプト、ある
いは、他の合成された出力である所では、出力開始時間は、以下にいっそう詳細
に記述されるように、クロックサイクル、サンプル、境界、フレーム境界などの
使用によりいっそう直接に確実にされることができる。とにかく、出力オーディ
オ信号は、入力音声信号が処理されることが可能なコンテキストを確立する。

【００５０】上記に述べられるように、各出力オーディオ信号は、識別と関連することがで
き、それによって、出力オーディオ信号間の微分を提供する。したがって、入力
音声信号が、出力オーディオ信号のコンテキストに対して開始したときを決定す
る別の方法として、さらに、入力音声信号のコンテキストを記述する方法として
だけ、出力オーディオ信号の識別を使用することが可能である。これは、たとえ
ば、入力音声信号が、出力オーディオ信号に対して開始する精密な時間を知るの
に重要でない所では、単に、入力音声信号が、実際に、出力オーディオ信号が生
ずる間のある時期に開始した場合である。このような出力オーディオ信号識別は
、除外とは対照的に、入力オーディオ開始時間の決定に関連して使用されること
ができることも分かる。

【００５１】入力開始時間および／または出力オーディオ信号識別が使用されるかどうかに
かかわらず、本発明は、不確実な遅延特性を有するこれらのシステムにおける精
密なコンテキスト決定を可能にする。上記に記述されるコンテキスト決定技術を
実施し、そして、使用する方法は、図７および図８を参照としてさらに示されて
いる。

【００５２】図７は、出力オーディオ信号が生ずる間に入力音声信号を処理するため、加入
者ユニット内で実施されることが好ましい方法を示している。たとえば、図７に
示される方法は、格納されたソフトウェアルーチンおよび図２に示されるＣＰＵ
２０１および／またはＤＳＰ２０２などの適切なプラットフォームによって実行
されるアルゴリズムを使用して実施されることが好ましい。網でカバーされたコ
ンピュータなどの他の装置が、図７に示されるステップを実施するのに使用され
ることが可能であること、そして、図７に示されるステップのいくつか、あるい
は、すべてが、ゲートアレイ、カスタマイズされた集積回路などの特殊化ハード
ウェア装置を使用して実施されることが可能であることが分かる。

【００５３】出力オーディオ信号が生ずる間に、入力音声信号の開始が検出されたかどうか
が、ステップ７０１で、連続して決定される。もう一度、音声信号の開始を決定
するための様々な技術は、技術上周知であり、そして、設計の選択の考慮すべき
問題として本発明によって同時に採用されることができる。好ましい実施の形態
において、入力音声信号の開始を検出する効果的な周期は、出力オーディオ信号
の開始が、結果として生ずる出力オーディオ信号の開始でか、あるいは、カレン
ト出力オーディオ信号の終結で開始されるタイムアウトタイマの終結でかのいず
れかで終了するや否や開始する。入力音声信号の開始が検出されるとき、出力オ
ーディオ信号によって確立されるコンテキストに対する入力開始時間が決定され
る。入力開始時間を決定するための様々な技術のいずれかが採用されることがで
きる。１つの実施の形態において、リアルタイム参照は、ＣＰＵ２０１（秒など
のあらゆる便宜なタイムベース、あるいは、クロックサイクルを使用して）によ
って維持されることができ、それによって、特定の時間のコンテキストを確立す
る。この場合、入力開始時間は、出力オーディオ信号のコンテキストに対するタ
イム特質として表わされる。別の実施の形態において、可聴信号は、サンプル１
つずつのベースで、再構成され、および／または、符号化される。たとえば、８
ｋＨｚオーディオサンプリングレートを使用するシステムにおいて、各オーディ
オサンプルは、オーディオ入力、あるいは、出力の１２５マイクロセカンドに相
当する。したがって、ちょうどよいあらゆるポイント（たとえば、入力開始時間
）は、出力オーディオ信号（サンプルコンテキスト）の開始サンプルに対するオ
ーディオサンプルのインデックスによって表わされることができる。この場合、
入力開始時間は、出力オーディオ信号の第１のサンプルに対するサンプルインデ
ックスとして表わされる。さらに別の実施の形態において、可聴信号は、フレー
ム１つずつのベースで、再構成され、各フレームは、マルチプルサンプル周期を
備えている。この方法において、出力オーディオ信号は、フレームコンテキスト
を確立し、そして、入力開始時間は、フレームコンテキスト内のフレームインデ
ックスとして表わされている。入力開始時間が表わされる方法にかかわらず、入
力開始時間は、入力音声信号が出力オーディオ信号に関して開始したとき、精確
に、分解の変化する程度で、メモライズする。

【００５４】いずれにせよ、入力音声信号の開始の検出から、入力音声信号は、任意に、ス
テップ７０３によって表わされるように、パラメータで表示された音声信号を提
供するために分析されることが可能である。音声信号のパラメータによる表示化
のための特定の技術は、図３に対して上記に論じられた。ステップ７０４で、い
ずれにせよ、入力開始時間は、入力音声信号に対応するために提供される。図７
の方法が、無線電話加入ユニット内で実施されるとき、このステップは、音声認
識／合成サーバへの入力開始時間の無線伝送を含む。

【００５５】最後に、ステップ７０５で、情報信号は、任意に、少なくとも入力開始時間に
応じて、そして、提供されるとき、パラメータで表示された音声信号に応じて、
受信される。本発明のコンテキストにおいて、このような“情報信号”は、加入
者ユニットが操作するデータ信号を含んでいる。たとえば、このようなデータ信
号は、ユーザディスプレイを生成するディスプレイデータ、あるいは、加入者ユ
ニットが自動的にダイヤルすることが可能な電話番号を備えている。他の実施例
は、通常の技量の者によって難なく同一とみなしうる。本発明の“情報信号”は
、さらに、加入者ユニット、あるいは、加入者ユニットに結合されるあらゆる装
置の動作を制御するのに使用される制御信号を備えている。たとえば、制御信号
は、ロケーションデータ、あるいは、ステータスアップデートを提供するために
加入者ユニットに指示することが可能である。もう一度、通常の技量の者は、多
数のタイプの制御信号を考案することができる。音声認識サーバによってこのよ
うな情報信号を提供する方法は、図９を参照としてさらに記述されている。とは
いえ、入力音声信号を処理する別の実施の形態は、図８を参照としてさらに示さ
れている。

【００５６】図８の方法は、図２に示されるＣＰＵ２０１および／またはＤＳＰ２０２など
の適切なプラットフォームによって実行される格納されたソフトウェアルーチン
およびアルゴリズムを使用して、加入者ユニット内で実施されることが好ましい
。網でカバーされたコンピュータなどの他の装置は、図８に示されるステップを
実施するのに使用されることが可能であり、そして、図８に示されるステップの
いくつか、あるいは、すべては、ゲートアレイ、あるいは、カスタマイズされた
集積回路などの特殊化ハードウェア装置を使用して実施されることが可能である
。

【００５７】出力オーディオ信号が生ずる間に、入力音声信号が検出されたかどうかが、ス
テップ８０１で、連続して決定される。音声信号の存在を決定する様々な技術は
、技術上周知であり、そして、設計の選択の考慮すべき問題として本発明によっ
て同時に採用されることができる。図８に示される技術は、このような決定が、
入力音声信号の存在を検出するステップに含まれることができるが、入力音声信
号の開始を検出することに特に関係がないことに留意してください。

【００５８】ステップ８０２において、出力オーディオ信号に対応する識別が決定される。
図６に関して上記に述べられるように、その識別は、出力オーディオ信号から独
立するか、あるいは、出力オーディオ信号に組み込まれることができるかである
。最も重要なことは、出力オーディオ信号識別は、出力オーディオ信号とすべて
の他の出力オーディオ信号とを独特に区別する必要がある。合成されたプロンプ
トなどの場合、これは、各そのような合成されたプロンプトに独特のコードを割
り当てることによって、達成されることが可能である。リアルタイム音声の場合
、インフラストラクチャ利用タイム特質などの反復性のないコードが使用される
ことができる。識別が表わされる方法にかかわらず、それは、加入者ユニットに
よって確かめ得る必要がある。

【００５９】ステップ８０３は、ステップ７０３に相当し、そして、さらに詳細に論じられ
る必要はない。ステップ８０４において、入力音声信号に対応する識別が提供さ
れる。図８の方法が、無線電話加入者ユニット内で実施されるとき、このステッ
プは、音声認識／合成サーバへの識別の無線伝送を含んでいる。ステップ７０５
と本質的に同一である方法で、加入者ユニットは、いずれにせよ、識別に基づき
、ステップ８０５においてインフラストラクチャから情報信号を受信することが
可能である。

【００６０】図９は、音声認識サーバによって情報信号を提供する方法を示している。述べら
れている点を除いては、図９に示される方法は、図４および図５に示されるＣＰ
Ｕ４０１および／またはリモート制御プロセッサ５１６などの適切な１つまた
は複数のプラットフォームによって実行される格納されたソフトウェアルーチン
およびアルゴリズムを使用して実施されることが好ましい。もう一度、他のソフ
トウェアおよび／またはハードウェア利用の実施は、設計の選択の考慮すべき問
題として可能である。

【００６１】ステップ９０１において、音声認識サーバは、加入者ユニットで提供される出
力オーディオ信号を生じさせる。これは、たとえば、独特の識別された音声プロ
ンプトあるいは連続のプロンプトを合成することを加入者ユニットに指示する加
入者ユニットに制御信号を提供することによって達成されることが可能である。
別の方法として、たとえば、テキストから音声への分析器５１２によって提供さ
れるパラメトリック音声表現は、音声信号の結果として生ずる再構成のために加
入者ユニットに送信されることが可能である。本発明の１つの実施の形態におい
て、リアルタイム音声信号は、音声認識サーバが存在する（音声認識サーバの介
入を有して、あるいは、持たないで）インフラストラクチャによって提供される
。これは、たとえば、加入者ユニットがインフラストラクチャを媒介として別の
関係者との音声通信にかかわる場合である。

【００６２】加入者ユニットで出力オーディオ信号を生じさせるのに使用される技術にかか
わらず、上記に記述されるタイプのコンテキスト情報（入力開始時間および／ま
たは出力オーディオ信号識別子）が、ステップ９０２で受信される。好ましい技
術において、入力開始時間および出力オーディオ信号識別子の両方は、入力音声
信号に対応するパラメータで表示された音声信号と共に提供される。

【００６３】ステップ９０３において、少なくともコンテキスト上の情報に基づいて、加入
者ユニットに搬送される制御信号および／またはデータ信号を備える情報信号が
決定される。もう一度、図５を参照すると、これは、ローカル制御プロセッサ５
０８および／またはリモート制御プロセッサ５１６によって遂行されることが好
ましい。最低限度で、コンテキスト上の情報は、出力オーディオ信号に対する入
力音声信号のコンテキストを確立するのに使用される。コンテキストは、入力音
声信号が、間隔を決定するのに使用される出力オーディオ信号に応答したかどう
かを決定するのに使用されることが可能である。特定の出力オーディオ信号に対
応する独特の識別子は、どの特定の出力オーディオ信号が入力音声信号のための
コンテキストを確立したかについて、あいまいさが可能であるコンテキストを確
立するのに使用されることが好ましい。これは、たとえば、ユーザが電話帳のだ
れかに電話をかけようとする場合である。システムは、オーディオ出力を媒介と
して電話をかけるために、いくつか可能な人の名前提供することが可能である。
ユーザは、“呼び出し”などのコマンドで出力オーディオに割り込むことが可能
である。システムは、次に、独特の識別子および／または入力開始時間に基づい
て、ユーザが割り込んだときどの名前が出力されたかを決定し、そして、その名
前に関連する電話番号に電話をかけることが可能である。さらに、コンテキスト
を確立すると、パラメータで表示された音声信号は、提供される場合、認識され
た発話を提供するために分析されることが可能である。認識された発話は、何か
入力音声信号に応答するのに必要とされる場合、順番に、制御信号、あるいは、
データ信号を確かめるのに使用される。あらゆる制御、あるいは、データ信号が
ステップ９０３で決定される場合、それらは、ステップ９０４で、コンテキスト
上の情報のソースに提供される。

【００６４】上記に記述される本発明は、出力オーディオ信号が生ずる間に入力音声信号を
処理する独特の技術を提供する。入力音声信号のための適切なコンテキストは、
入力開始時間および／または出力オーディオ信号識別子の使用により確立される
。このように、加入者ユニットに送信される情報信号は、入力音声信号に適切に
応答するというより大きな確実性が、提供される。上記に記述されたことは、本
発明の原理の応用について単に示しているものである。他の構成および方法は、
本発明の精神と範囲とから逸脱することなく、当業者によって実施されることが
可能である。

【図面の簡単な説明】

【図１】本発明による無線通信システムのブロック図である。

【図２】本発明による加入者ユニットのブロック図である。

【図３】本発明による加入者ユニット内の音声およびデータ処理機能の概略図である。

【図４】本発明による音声認識サーバのブロック図である。

【図５】本発明による音声認識サーバ内の音声およびデータ処理機能の概略図である。

【図６】本発明によるコンテキスト決定を図示している。

【図７】本発明による出力オーディオ信号が生ずる間に入力音声信号を処理する方法を
図示しているフローチャートである。

【図８】本発明による出力オーディオ信号が生ずる間に入力音声信号を処理する別の方
法を図示しているフローチャートである。

【図９】本発明による音声認識サーバ内で実施されることができる方法を図示している
フローチャートである。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｂ 7/26 Ｇ１０Ｌ 3/00 ５５１ＡＨ０４Ｍ 1/00 ５７１Ｋ 3/42 ５１３ＺＨ０４Ｂ 7/26 Ｑ 3/50 Ｆターム(参考） 5D015 KK01 5K015 AA06 AA07 AF06 5K024 AA71 BB01 BB03 CC11 DD01 DD02 EE09 FF06 5K027 AA11 BB05 CC08 DD10 FF28 HH19 HH20 5K067 AA23 BB03 BB04 EE02 EE10 EE16 FF02 FF25 FF26 FF38 HH21 HH23

Claims

【特許請求の範囲】

【請求項１】入力音声信号の開始を検出するステップと、出力オーディオ信号に対して、入力音声信号の開始の入力開始時間を決定する
ステップと、入力音声信号に応答するのに使用される入力開始時間を提供するステップとを
備える、出力オーディオ信号が生ずる間に入力音声信号を処理する方法。
【請求項２】入力開始時間が、出力オーディオ信号の一時的なコンテキス
トに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対す
るサンプルインデックス、および出力オーディオ信号のフレームコンテキストに
対するフレームインデックスのいずれか１つを備える、請求項１に記載の方法。
【請求項３】請求項１に記載のステップを行うコンピュータ実行可能命令
を有するコンピュータ読出し可能媒体。
【請求項４】入力音声信号を検出するステップと、出力オーディオ信号に対応する識別を決定するステップと、入力音声信号に応答するのに使用される識別を提供するステップとを備える、
出力オーディオ信号が生ずる間に入力音声信号を処理する方法。
【請求項５】請求項４に記載のステップを行うコンピュータ実行可能命令
を有するコンピュータ読出し可能媒体。
【請求項６】音声認識サーバを備えるインフラストラクチャとの無線通信
における加入者ユニットにおいて、加入者ユニットがスピーカおよびマイクロフ
ォンを備え、スピーカが出力オーディオ信号を提供し、マイクロフォンが入力音
声信号を提供し、入力音声信号を処理する方法であって、出力音声信号が生ずる間に入力音声信号の開始を検出するステップと、出力オーディオ信号に対して、入力音声信号の開始の入力開始時間を決定する
ステップと、制御パラメータとして音声認識サーバに前記入力開始時間を提供するステップ
とを備える、入力音声信号を処理する方法。
【請求項７】少なくとも一部の入力開始時間に基づき、音声認識サーバか
ら少なくとも１つの情報信号を受信するステップをさらに備える、請求項６に記
載の方法。
【請求項８】オンセットマーカを決定するステップが、出力オーディオ信号の開始より遅く、かつその後の出力オーディオ信号の開始
よりも早い入力開始時間を決定するステップをさらに備える、請求項６に記載の
方法。
【請求項９】入力開始時間が、出力オーディオ信号の一時的なコンテキス
トに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対す
るサンプルインデックス、および出力オーディオ信号のフレームコンテキストに
対するフレームインデックスのいずれか１つである、請求項６に記載の方法。
【請求項１０】出力オーディオ信号が、インフラストラクチャにより提供
された音声信号を備える、請求項６に記載の方法。
【請求項１１】出力オーディオ信号が、インフラストラクチャにより提供
された制御シグナリングに応答して加入者ユニットにより合成された音声信号を
備える、請求項６に記載の方法。
【請求項１２】パラメータで表示された音声信号を提供するために入力音
声信号を分析するステップと、パラメータで表示された音声信号を音声認識サーバに提供するステップと、少なくとも一部の入力開始時間およびパラメータで表示された音声信号に基づ
き音声認識サーバから少なくとも１つの情報信号を受信するステップとをさらに
備える、請求項６に記載の方法。
【請求項１３】音声認識サーバを備えるインフラストラクチャとの無線通
信における加入者ユニットにおいて、加入者ユニットがスピーカおよびマイクロ
フォンを備え、スピーカが出力オーディオ信号を提供し、マイクロフォンが入力
音声信号を提供し、入力音声信号を処理する方法であって、出力オーディオ信号が生ずる間に入力音声信号を検出するステップと、出力オーディオ信号に対応する識別を決定するステップと、制御パラメータとして音声認識サーバに識別を提供するステップとを備える、
入力音声信号を処理する方法。
【請求項１４】少なくとも一部の識別に基づき、音声認識サーバから少な
くとも１つの情報信号を受信するステップをさらに備える、請求項１３に記載の
方法。
【請求項１５】出力オーディオ信号が、インフラストラクチャにより提供
された音声信号を備える、請求項１３に記載の方法。
【請求項１６】出力オーディオ信号が、インフラストラクチャにより提供
された制御シグナリングに応答して加入者ユニットにより合成された音声信号を
備える、請求項１３に記載の方法。
【請求項１７】パラメータで表示された音声信号を提供するために入力音
声信号を分析するステップと、パラメータで表示された音声信号を音声認識サーバに提供するステップと、少なくとも一部の識別およびパラメータで表示された音声信号に基づき、音声
認識サーバから少なくとも１つの情報信号を受信するステップとをさらに備える
、請求項１３に記載の方法。
【請求項１８】１つ以上の加入者ユニットと無線通信するインフラストラ
クチャの一部を形成する音声認識サーバにおいて、１つ以上の加入者ユニットの
加入者ユニットに情報信号を提供する方法であって、加入者ユニットで出力オーディオ信号を生じさせるステップと、加入者ユニットにおける出力オーディオ信号に対する入力音声信号の開始に対
応する少なくとも入力開始時間を加入者ユニットから受信するステップと、少なくとも一部の開始時間に応答して、加入者ユニットに情報信号を提供する
ステップとを備える、１つ以上の加入者ユニットの加入者ユニットに情報信号を
提供する方法。
【請求項１９】入力開始時間が、出力オーディオ信号の一時的なコンテキ
ストに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対
するサンプルインデックス、および出力オーディオ信号のフレームコンテキスト
に対するフレームインデックスのいずれか１つである、請求項１８に記載の方法
。
【請求項２０】出力オーディオ信号を生じさせるステップが、加入者ユニットに音声信号を提供するステップをさらに備える、請求項１８に
記載の方法。
【請求項２１】情報信号を提供するステップが、加入者ユニットに情報信号を向けるステップをさらに備え、情報信号が、前記
加入者ユニットの動作を制御する、請求項１８に記載の方法。
【請求項２２】前記加入者ユニットが、少なくとも１つの装置に結合され
、情報信号を提供するステップが、少なくとも１つの装置に情報を向けるステップをさらに備え、情報信号が、少
なくとも１つの装置の動作を制御する、請求項１８に記載の方法。
【請求項２３】出力オーディオ信号を生じさせるステップが、加入者ユニットに制御シグナリングを提供するステップをさらに備え、制御シ
グナリングが、加入者ユニットに出力オーディオ信号として音声信号を合成させ
る、請求項１８に記載の方法。
【請求項２４】入力音声信号に対応するパラメータで表示された音声信号
を受信するステップと、少なくとも一部の開始時間およびパラメータで表示された音声信号に応答して
、加入者ユニットに情報信号を提供するステップとをさらに備える、請求項１８
に記載の方法。
【請求項２５】１つ以上の加入者ユニットと無線通信するインフラストラ
クチャの一部を形成する音声認識サーバにおいて、１つ以上の加入者ユニットの
加入者ユニットに情報信号を提供する方法であって、加入者ユニットで出力オーディオ信号を生じさせるステップであって、出力オ
ーディオ信号が対応する識別を有する、加入者ユニットで出力オーディオ信号を
生じさせるステップと、出力オーディオ信号が生ずる間に入力音声信号が加入者ユニットで検出される
と、加入者ユニットから少なくとも識別を受信するステップと、少なくとも一部の識別に応答して、加入者ユニットに情報信号を提供するステ
ップとを備える、１つ以上の加入者ユニットの加入者ユニットに情報信号を提供
する方法。
【請求項２６】出力オーディオ信号を生じさせるステップが、加入者ユニットに音声信号を提供するステップを備える、請求項２５に記載の
方法。
【請求項２７】情報信号を提供するステップが、加入者ユニットに情報信号を向けるステップをさらに備え、情報信号が、加入
者ユニットの動作を制御する、請求項２５に記載の方法。
【請求項２８】加入者ユニットが、少なくとも１つの装置に結合され、情
報信号を提供するステップが、少なくとも１つの装置に情報を向けるステップをさらに備え、情報信号が、少
なくとも１つの装置の動作を制御する、請求項２５に記載の方法。
【請求項２９】出力オーディオ信号を生じさせるステップが、加入者ユニットに制御シグナリングを提供するステップをさらに備え、制御シ
グナリングが、加入者ユニットに出力オーディオ信号として音声信号を合成させ
る、請求項２５に記載の方法。
【請求項３０】入力音声信号に対応するパラメータで表示された音声信号
を受信するステップと、少なくとも一部の識別およびパラメータで表示された音声信号に応答して、加
入者ユニットに情報信号を提供するステップとをさらに備える、請求項２５に記
載の方法。
【請求項３１】音声認識サーバを備えるインフラストラクチャと無線通信
する加入者ユニットであって、加入者ユニットがスピーカおよびマイクロフォン
を備え、スピーカが出力オーディオ信号を提供し、マイクロフォンが入力音声信
号を提供し、加入者ユニットが、入力音声信号の開始を検出する手段と、出力オーディオ信号に対して、入力音声信号の開始の入力開始時間を決定する
手段と、制御パラメータとして音声認識サーバに入力開始時間を提供する手段とを備え
る、加入者ユニット。
【請求項３２】少なくとも一部の入力開始時間に基づき、音声認識サーバ
から少なくとも１つの情報信号を受信する手段をさらに備える、請求項３１に記
載の加入者ユニット。
【請求項３３】パラメータで表示された音声信号を提供するために入力音
声信号を分析する手段をさらに備え、提供する手段が、さらに、パラメータで表示された音声信号を音声認識サーバ
に提供するよう機能し、受信する手段が、さらに、少なくとも一部の入力開始時
間およびパラメータで表示された音声信号に基づき音声認識サーバから少なくと
も１つの制御信号を受信するよう機能する、請求項３２に記載の加入者ユニット
。
【請求項３４】入力開始時間を決定する手段が、出力オーディオ信号の開
始より遅く、かつその後の出力オーディオ信号の開始よりも早い入力開始時間を
決定するよう機能する、請求項３１に記載の加入者ユニット。
【請求項３５】入力開始時間が、出力オーディオ信号の一時的なコンテキ
ストに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対
するサンプルインデックス、および出力オーディオ信号のフレームコンテキスト
に対するフレームインデックスのいずれか１つである、請求項３１に記載の加入
者ユニット。
【請求項３６】インフラストラクチャから出力オーディオ信号として提供
される音声信号を受信する手段をさらに備える、請求項３１に記載の加入者ユニ
ット。
【請求項３７】インフラストラクチャから出力オーディオ信号に関する制
御シグナリングを受信する手段と、制御シグナリングに応答して出力オーディオ信号として音声信号を合成する手
段とをさらに備える、請求項３１に記載の加入者ユニット。
【請求項３８】音声認識サーバを備えるインフラストラクチャと無線通信
する加入者ユニットであって、加入者ユニットがスピーカおよびマイクロフォン
とを備え、スピーカが出力オーディオ信号を提供し、マイクロフォンが入力音声
信号を提供し、出力オーディオ信号が生ずる間に入力音声信号を検出する手段と、出力オーディオ信号に対応する識別を決定するする手段と、制御パラメータとして音声認識サーバに識別を提供する手段とをさらに備える
、加入者ユニット。
【請求項３９】少なくとも一部の識別に基づき、音声認識サーバから少な
くとも１つの制御信号を受信する手段をさらに備える、請求項３８に記載の加入
者ユニット。
【請求項４０】パラメータで表示された音声信号を提供するために入力音
声信号を分析する手段をさらに備え、提供する手段が、さらに、パラメータで表示された音声信号を音声認識サーバ
に提供するよう機能し、受信する手段が、さらに、少なくとも一部の識別および
パラメータで表示された音声信号とに基づき音声認識サーバから少なくとも１つ
の制御信号を受信するよう機能する、請求項３９に記載の加入者ユニット。
【請求項４１】インフラストラクチャから出力オーディオ信号として提供
される音声信号を受信する手段をさらに備える、請求項３８に記載の加入者ユニ
ット。
【請求項４２】インフラストラクチャから出力オーディオ信号に関する制
御シグナリングを受信する手段と、制御シグナリングに応答して出力オーディオ信号として音声信号を合成する手
段とをさらに備える、請求項３８に記載の加入者ユニット。
【請求項４３】１つ以上の加入者ユニットと無線通信するインフラストラ
クチャの一部を形成する音声認識サーバであって、１つ以上の加入者ユニットの加入者ユニットで出力オーディオ信号を生じさせ
る手段と、加入者ユニットにおける出力オーディオ信号に対する入力音声信号の開始に対
応する少なくとも入力開始時間を加入者ユニットから受信する手段と、少なくとも一部の入力開始時間に応答して加入者ユニットに情報信号を提供す
る手段とを備える、音声認識サーバ。
【請求項４４】入力開始時間が、出力オーディオ信号の一時的なコンテキ
ストに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対
するサンプルインデックス、および出力オーディオ信号のフレームコンテキスト
に対するフレームインデックスのいずれか１つである、請求項４３に記載の音声
認識サーバ。
【請求項４５】情報信号を提供する手段が、加入者ユニットに情報信号を向けるよう機能し、情報信号が、加入者ユニット
の動作を制御する、請求項４３に記載の音声認識サーバ。
【請求項４６】加入者ユニットが、少なくとも１つの装置に結合され、情
報信号を提供する手段が、さらに、少なくとも１つの装置に情報を向けるよう機
能し、情報信号が、少なくとも１つの装置の動作を制御する、請求項４３に記載
の方法。
【請求項４７】出力オーディオ信号を生じさせる手段が、さらに、出力オ
ーディオ信号として提供される音声信号を提供するよう機能する、請求項４３に
記載の音声認識サーバ。
【請求項４８】出力オーディオ信号を生じさせる手段が、さらに、加入者
ユニットに制御シグナリングを提供するよう機能し、制御シグナリングが、加入
者ユニットに出力オーディオ信号として音声信号を合成させる、請求項４３に記
載の音声認識サーバ。
【請求項４９】受信する手段が、さらに、入力音声信号に対応するパラメ
ータで表示された音声信号を受信するよう機能し、提供する手段が、さらに、少
なくとも一部の入力開始時間およびパラメータで表示された音声信号に応答して
加入者ユニットに情報信号を提供するよう機能する、請求項４３に記載の音声認
識サーバ。
【請求項５０】１つ以上の加入者ユニットと無線通信するインフラストラ
クチャの一部を形成する音声認識サーバであって、１つ以上の加入者ユニットの加入者ユニットで出力オーディオ信号を生じさせ
る手段であって、出力オーディオ信号が対応する識別を有する、１つ以上の加入
者ユニットの加入者ユニットで出力オーディオ信号を生じさせる手段と、入力音声信号が、出力オーディオ信号が生ずる間に加入者ユニットにおいて検
出されると、加入者ユニットから少なくとも識別を受信する手段と、少なくとも一部の識別に応答して、加入者ユニットに情報信号を提供する手段
とをさらに備える、音声認識サーバ。
【請求項５１】出力オーディオ信号を生じさせる手段が、さらに、出力オ
ーディオ信号として提供される音声信号を提供するよう機能する、請求項５０に
記載の音声認識サーバ。
【請求項５２】出力オーディオ信号を生じさせる手段が、さらに、加入者
ユニットに制御シグナリングを提供するよう機能し、制御シグナリングが、加入
者ユニットに出力オーディオ信号として音声信号を合成させる、請求項５０に記
載の音声認識サーバ。
【請求項５３】受信する手段が、さらに、入力音声信号に対応するパラメ
ータで表示された音声信号を受信するよう機能し、提供する手段が、さらに、少
なくとも一部の入力開始時間およびパラメータで表示された音声信号に応答して
加入者ユニットに情報信号を提供するよう機能する、請求項５０に記載の音声認
識サーバ。
【請求項５４】情報信号を提供する手段が、さらに、加入者ユニットに情
報信号を向けるよう機能し、情報信号が、加入者ユニットの動作を制御する、請
求項５０に記載の音声認識サーバ。
【請求項５５】加入者ユニットが、少なくとも１つの装置に結合され、情
報信号を提供する手段が、さらに、少なくとも１つの装置に情報を向けるよう機
能し、情報信号が、少なくとも１つの装置の動作を制御する、請求項５０に記載
の方法。