JP5425945B2

JP5425945B2 - ローカルなインターラプト検出に基づく音声認識技術

Info

Publication number: JP5425945B2
Application number: JP2012048111A
Authority: JP
Inventors: アイラ・エイ・ガーソン
Original assignee: BlackBerry Ltd; Research in Motion Ltd
Current assignee: BlackBerry Ltd
Priority date: 1999-10-05
Filing date: 2012-03-05
Publication date: 2014-02-26
Anticipated expiration: 2020-10-04
Also published as: CN1408182A; JP2003511924A; AU2112601A; US6963759B1; KR100742259B1; CN100433840C; WO2001026394A9; WO2001026394A1; KR20020071851A; JP2012108557A

Description

（発明の属する技術分野）
この発明は、一般的に音声認識が組み込まれている通信システムに関し、またより具体的には、音声通信中のインターラプト検出のための新規の技術に関する。

（従来の技術）
音声認識システムは、特に電話システムに関して一般的に公知の技術である。
米国特許４，９１４，６９２、５，４７５，７９１、５，７０８，７０４と、また５，７６５，１３０は、音声認識システムを組み込んだ電話網を例示している。各システムの共通する特徴は、音声認識エレメント（即ち、音声認識を実施するデバイス）は、加入者の通信デバイス（即ち、ユーザーの電話）とは逆に、一般的に、電話網の構成の中心に位置されている。典型的には、音声の合成と音声認識エレメントとの組み合せは、電話網あるいはインフラストラクチャ内で展開されている。呼者は、そのシステムにアクセスし、音声合成エレメントを介して、合成された音声の形での情報のプロンプトあるいはクエリーの提供を受けることができる。呼者は、一般的に、合成された音声に対して口頭による応答を行い、音声認識エレメントは、呼者にさらなるサービスを提供するために、呼者の口頭による応答を処理する。

このタイプのシステムの特定のアプリケーションは、時には、“仮想アシスタント”あるいは“自動アシスタント”と呼ばれる“電子アシスタント”であった。例えば、米国特許５，６５２，７８９（以下“７８９特許”と称す）は、電子アシスタントを経由して加入者が、個人通話を管理できるサービスを説明している。音声認識技術を使用して、加入者は、命令を発して、出入りする通話とメッセージを管理できる。一般的な、電話をベースとするシステムの中の様に、‘７８９特許の中で説明されている音声認識エレメントは、全て電話インフラ組織の中にある。‘７８９特許の中で説明されている特徴の一つは、電子アシスタントを設けて、加入者が。他の当事者と音声通話中に、バックグラウンド・モードに入ることができる音声認識エレメントの性能である。このバックグラウンド・モード中に、電子アシスタントは、音声をベースとする、特に電子アシスタントが、“フォアグラウンド・モード”にさせる“呼び出しコマンド”の様な所定の発生のセットに対して加入者の音声通話を監視する。フォアグラウンド・モードの中で、電子アシスタントは、引続き音声をベースとするコマンドの大きなセットに対して監視する。この方法で、電子台は、文字どおり“通話中”となり、加入者のニーズに答え、特定の呼び出しあるいは“ウェークアップ”コマンドの検出を通して呼び出される。

前記で説明されているとおり、‘７８９特許の中で説明されている、電子台を呼び出す機能は、電話網の中に展開されている音声認識エレメントを通して動作させることができる。同様の電子アシスタントのサービスを実行する種々の他のシステムは、現在一般に入手可能である。同様に、このようなシステムは、ネットワークをベースとする音声認識エレメントを通して動作させることができる。呼び出し時間あるいは遅延が、大部分の電話網の中で一般的に短いので（約数ミリ秒間）、特に電子アシスタントに対する“ウェークアップ”コマンドが応用されたインフラをベースとする音声認識エレメントが実用的であるが、しかし、現行のシステムは、無線システムに的を絞ることを怠ってきた。例えば、異なるセルラ・システムの中で、無線通信チャンネルの変動する性格（即ち、時間と共に変化する劣化とスループットの遅延）と、また応用される音声の処理の差、があると仮定して、純粋にインフラをベースとする音声認識エレメントの使用は、問題を引き起こす可能性がある。現在の解決として、また完全に音声チャンネルと専用のネットワーク資源を使用して、音声認識機能に“ウェークアップ”を提供する。この方法では、“空白時間”と、ネットワークをベースとする音声認識を利用可能とするサービスのためのネットワーク資源の非効率的な使用につながる。従って、加入者が電子アシスタントサービス、あるいは音声をベースとするサービスを利用して、無線通信の環境の中で“ウェークアップ”音声認識性能を発揮させることができるより効率的な技術を提供することが有利である。

この発明は、一般的に、音声認識機能をウェークアップさせたり呼び出したりするための、主として無線通信環境に応用可能な技術を提供する。特に、この発明は、加入者と他の当事者との間の音声通話の間のインターラプト表示のローカルの検出を組み込んでいる。インターラプト表示に応答して、音声認識エレメントの一部が動作して、音声をベースとするコマンドの処理を開始する。一つの実施例の中では、音声認識エレメントは、インフラの中の少なくとも部分的に実行され、できれば、加入者ユニットの中で実施される音声認識クライアントと、また無線通信システムのインフラの中で実施される音声認識サーバを備えることがこのましい。他方の実施例の中では、加入者ユニットの一部を形成する入力デバイスを使用してインターラプト表示を提供することができる。更にもう一つの実施例の中では、加入者ユニットの中の音声認識装置を使用して、インターラプト表示を提供することができる。加入者ユニットの中で表示信号を検出することで、この発明により、無線通信環境の中でより容易に電子アシスタントあるいは同様のサービスを利用することができる。
本発明は、例えば、以下を提供する。
（項目１）インフラと無線通信して、インフラを経由して、加入者ユニットのユーザーと他の者との間で音声通信を提供できる加入者ユニットの中で、インフラが、音声認識サーバからなるものにおいて、
インフラを経由して、加入者ユニットのユーザーと他の者との間の音声通話を行うことと、
加入者ユニットの中で、音声通話中に、インターラプト表示を検出することと、また、インターラプト表示に応答して、音声認識エレメントを動作させて、音声をベースとするコマンドの処理を開始することにおいて、音声認識エレメントが、少なくとも部分的にインフラの中で実行されることを備えることを特徴とする方法。
（項目２）加入者ユニットの中で検出する方法が、更に、加入者ユニットの一部を形成している入力デバイスを動作させて、インターラプト表示を提供する方法からなることを特徴とする、項目１に記載されている方法。
（項目３）入力デバイスを動作させる方法が、ボタンと、セレクタと、メニューで駆動される入力デバイスの何れかを動作させる方法を備えることを特徴とする、項目２に記載されている方法。
（項目４）加入者ユニットの中で検出する方法において、
加入者ユニットの中で実行されるローカルの音声認識装置を経由して、加入者ユニットの中で音声通信を、少なくとも１個の予め設定された発話に対してモニターすることと、また、
少なくとも１個の予め設定された発話が検出されたら、直ちにインターラプト表示を提供することを備えることを特徴とする、項目１に記載されている方法。
（項目５）音声認識エレメントの一部を動作させる方法において、加入者ユニットの中で実行される音声認識クライアントを動作させる、作用の中で、音声認識クライアントと音声認識サーバが、協働して、音声認識エレメントを提供することを特徴とする、項目１に記載されている方法。
（項目６）音声認識クライアントにより、パラメータ化された音声情報を音声認識サーバに提供することを特徴とする、項目５に記載されている方法。
（項目７）ユーザーに、音声認識エレメントが動作した部分の表示を提供することを特徴とする、項目１に記載されている方法。
（項目８）音声認識サーバに、音声認識エレメントが動作した部分の表示を提供することを特徴とする、項目１に記載されている方法。
（項目９）無線でインフラと通信する加入者ユニットにおいて、
加入者ユニットとインフラとの間の通信中に、加入者ユニットの中でインターラプト表示の存在を検出する検出装置と、また、
入力としてインターラプト表示の存在を取り込んでから、インターラプト表示の存在により動作させられ、音声をベースとするコマンドの処理を開始する音声認識エレメントの部分において、音声認識エレメントが、少なくともインフラの中で実行されるものを備えることを特徴とする加入者ユニット。
（項目１０）更に、動作したときにインターラプト表示を提供する検出装置に接続されている入力デバイスを備えることを特徴とする、項目９に記載されている加入者ユニット。
（項目１１）入力デバイスが、ボタン、セレクタとメニュー駆動入力デバイスを備えることを特徴とする、項目１０に記載されている加入者ユニット。
（項目１２）検出装置が、少なくとも１個の予め設定された発話に対して音声通話をモニターし、また少なくとも１個の予め設定された発話検出したら、直ちにインターラプト表示の存在を検出するローカルの音声認識装置を備えることを特徴とする、項目９に記載されている加入者ユニット。
（項目１３）音声認識エレメントの一部が、音声認識クライアントを備えるものにおいて音声認識クライアントと音声認識サーバが、インフラの中で協働して音声認識エレメントを提供することを特徴とする、項目９に記載されている加入者ユニット。
（項目１４）音声認識エレメント一部が動作したことを示すためのインターラプト表示に対応する表示装置を備えることを特徴とする、項目９に記載されている加入者ユニット。
（項目１５）インフラに対して、音声認識エレメント一部により提供されたパラメータ化された音声情報を送信する無線トランシーバことを特徴とする、項目９に記載されている加入者ユニット。
（項目１６）無線トランシーバが、インフラに、音声認識エレメント一部が動作した表示を送信することを特徴とする、項目１５に記載されている加入者ユニット。
（項目１７）インフラと無線で通信する少なくとも１個の加入者ユニットを備える無線通信システムにおいて、
少なくとも１個の加入者ユニットの中で、
少なくとも１個の加入者装置とインフラとの間の音声通話中に、加入者ユニットの中でインターラプト表示の存在を検出する検出装置と、
入力としてインターラプト表示の存在を取り込んでから、音声をベースとするコマンドの処理を開始する、インターラプト表示の存在により動作させられる音声認識クライアントと、また、
インフラの中で、音声認識クライアントと協働して、音声認識エレメントを提供する音声認識サーバを備えることを特徴とする無線通信システム。
（項目１８）少なくとも１個の加入者ユニットが、無線電話を備えることを特徴とする、項目１７に記載されている無線通信システム。
（項目１９）少なくとも１個の加入者ユニットが、車両搭載無線通信デバイスを備えることを特徴とする、項目１７に記載されている無線通信システム。
（項目２０）インフラの一部と音声認識エレメントの一部を形成する音声認識サーバで、インフラが、少なくとも１個の加入者ユニットと無線で通信することにおいて、
音声通話中に、少なくとも１個の加入者ユニットの加入者ユニットから、ローカルのインターラプト表示の検出に応答して提供された音声情報を受信することと、
音声情報をベースとして音声認識処理を実行することを備えることを特徴とする方法。
（項目２１）加入者ユニットから、音声認識エレメントが動作させられたと言う表示を受信することと、また、
表示をベースとして音声認識処理を開始することを備えることを特徴とする、
項目２０に記載されている方法。
（項目２２）加入者ユニットの所で、入力デバイスを動作させることで、インターラプト表示が提供されることを特徴とする、項目２０に記載されている方法。
（項目２３）加入者ユニットの中で提供されたインターラプト表示が、
少なくとも１個の予め設定された発話に対して音声通話のモニターすることを特徴とする、項目２０に記載されている方法。
（項目２４）音声情報を処理して、パラメータ化された音声情報と提供することにおいて、音声認識の処理がパラメータ化された音声情報をベースとしていることを特徴とする、項目２０に記載されている方法。
（項目２５）少なくとも１個の加入者ユニットと無線通信であるインフラの中で使用される音声認識サーバにおいて、
音声通話中に、インターラプト表示のローカルの検出に応答して入力として受信する受信機と、また、
音声情報をベースとして音声認識処理を実行する音声認識分析装置を備えることを特徴とする音声認識サーバ。
（項目２６）受信機が、加入者ユニットから、音声認識エレメントが動作させられたと言う表示を受信するように動作することと、また表示が、音声認識処理を開始することを特徴とする、項目２５に記載されている音声認識サーバ。
（項目２７）インターラプト表示が、加入者ユニットの所で、入力デバイスを動作させることで提供されることを特徴とする、項目２５に記載されている音声認識サーバ。
（項目２８）インターラプト表示が、加入者ユニットの中で、少なくとも１個の予め設定された発話に対して音声通話をモニターされることで提供されることを特徴とする、項目２５に記載されている音声認識サーバ。
（項目２９）音声認識分析装置が、音声情報を処理して、パラメータ化された音声情報を提供し、音声認識処理が、パラメータ化された音声情報をベースとしていることを特徴とする、項目２５に記載されている音声認識サーバ。

この発明に係る無線通信システムのブロック図である。この発明に係る加入者ユニットのブロック図である。この発明に係る加入者ユニットの中の音声とデータ処理機能の略図である。この発明に係る音声認識サーバのブロック図である。この発明に係る音声認識サーバ内の音声とデータ処理機能の略図である。この発明に係る加入者ユニットの動作を示すフローチャートである。

（発明の実施の形態）
本発明を、図１〜６を引用して、より詳しく説明することができる。図１は、加入者ユニット１０２、１０３を備える無線通信１００のシステム全体のアーキテクチャを示している。加入者の装置１０２、１０３は、無線システム１１０に対応している無線チャンネル１０５を経由してインフラストラクチャと通信する。本発明のインフラストラクチャは、無線システム１１０に加えて、スモール・エンティティ・システム１２０と、コンテンツ・プロバイダ・システム１３０と、企業システム１４０がデータ網１５０を介して相互に接続されているものとすることもできる。

加入者ユニットは、通信インフラストラクチャと通信可能な携帯電話１０３あるいは車両搭載の無線通信デバイス１０２のような無線通信デバイスであってもよい。図１の中に示されている以外の各種の加入者ユニットを使用することができ、本発明はこの点で限定されないものと解釈されるものとする。加入者ユニット１０２、１０３を、ハンズフリーで音声通信するためのハンズフリーセルラ電話と、ローカルの音声認識及び合成システムと、またクライアント−サーバ音声認識及び合成システムのクライアント部分の構成部品を備えるものとすることができる。これらの構成部品は、図２、図３に関して、更に詳しく説明される。

加入者ユニット１０２、１０３は、無線チャンネル１０５を経由して無線システム１１０と無線通信を行う。無線システム１１０は、当業者であれば、本発明を、音声通信に対応しているセルラ以外のタイプの無線システムに有利に応用することが分かるが、好ましくは、セルラ・システムを備えるものとすることが好ましい。無線チャンネル１０５は、一般的に、デジタル搬送技術を実施し、また音声あるいはデータあるいはその双方を、加入者ユニット１０２、１０３へ及びユニットから搬送できる無線周波数（ＲＦ）搬送波である。アナログ技術のような他の伝送技術でも、使用できるものと解釈されるものとする。好ましい実施例の中で、無線チャンネル１０５は、欧州通信規格協会（ＥＴＳＩ）により規定されている一般パケット無線サービス（ＧＰＲＳ）のような無線パケット・データ・チャンネルである。無線チャンネル１０５は、データを転送して、クライアント−サーバ音声認識及び合成システムのクライアント部分と、クライアント−サーバ音声認識及び合成システムのサーバ部分との間の通信を容易にする。表示、制御、あるいは状態情報の様な他の情報も、また無線チャンネル１０５上で転送できる。

無線システム１１０は、加入者ユニット１０２、１０３から無線チャンネル１０５により送信されたものを受信するアンテナ１１２を備える。アンテナ１１２は、またチャンネル１０５を経由して加入者ユニット１０２、１０３に送信する。アンテナ１１２を経由して受信されたデータは、データ信号に転換されて、無線網１１３に転送される。反対に、無線網１１３からのデータは、転送のためにアンテナ１１２に送信される。本発明に関連しては、無線網１１３は、一般的に公知の基地局や、制御装置や、リソース・アロケータ（資源割当装置）や、インターフェースや、データベース等の様な無線システムを実行するのに必要な諸デバイスを備える。当業者であれば分かるとおり、無線網１１３に組み込まれる特定のエレメントは、例えば、セルラ・システム、自動車に搭載された地上移動システムのような無線システム１１０の特定のタイプに応じて異なる。

クライアント−サーバ音声認識及び合成システムのサーバ部分を提供する音声認識サーバ１１５を無線網１１３に連結して、無線システム１１０のオペレータが、音声を基礎とするサービスを、加入者ユニット１０２、１０３に提供することができるようにすることができる。制御エンティティ１１６を、無線網１１３に連結することができる。音声認識サーバ１１５により提供された入力に応答して、制御エンティティ１１６を使用して、制御信号を加入者ユニット１０２、１０３に送って、加入者ユニットあるいは装置に相互接続されているデバイスを制御することができる。図示されているとおり、適切にプログラムされた全ての汎用コンピュータを備えるものとすることができるエンティティ１１６を、無線網１１３を経由するかあるいは図の中の破線で示されているように直接に音声認識サーバ１１５に接続することができる。

前記で指摘されているとおり、本発明のインフラストラクチャを、データ網１５０を経由して互いに接続された種々のシステム１１０、１２０、１３０、１４０を備えるものとすることができる。適切なデータ網１５０は、公知の通信網技術を使用したプライベートデータ網やインターネットなどの公衆ネットワークや、これらの組み合せなどを備えるものとすることができる。無線システム１１０内の音声認識サーバ１１５と選択的に又は付加的に、遠隔音声認識サーバ１２３、１３２、１４３、１４５を、各種の方法でデータ網１５０に接続して、音声を基礎とするサービスを、加入者ユニット１０２、１０３に提供するようにしてもよい。遠隔音声認識サーバが備わっている場合は、同様に、データ網１５０及び全ての介在する通信パス（経路）を経由して、制御エンティティ１１６と通信することができる。

小型のエンティティ・システム１２０（小規模事業所あるいは在宅の様な）内では、デスクトップ・パソコンあるいは他の汎用処理デバイスの様な、コンピュータ１２２を使用して、音声認識サーバ１２３を実行することができる。加入者ユニット１０２、１０３を出入りするデータは、無線システム１１０とデータ網１５０を経由して、コンピュータ１２２に向けられる。保存されたソフトウエアのアルゴリズム及び処理を実行してから、コンピュータ１２２は、音声認識サーバ１２３の機能を提供する。サーバは、好ましい実施例の中で、音声認識システムと音声合成システムの双方のサーバ部分を備える。場合、例えば、コンピュータ１２２がユーザーのパソコンである場合、コンピュータ上の音声認識サーバのソフトウエアを、コンピュータ内のユーザーのＥメールや、電話帖や、カレンダーや、他の情報の様なユーザーの個人情報に接続させることができる。この構成で、加入者ユニットのユーザーは、音声をベースとするインターフェースを利用して、自分のパソコン上の個人情報にアクセスできる。本発明に基づくクライアント−サーバ音声認識と音声合成システムのクライアント部分は、下記の図２と３に関連させて説明される。本発明に基づくクライアント−サーバ音声認識と音声合成システムのサーバ部分は、下記の図４と５に関連させて説明される。

また、加入者ユニットのユーザーが利用可能にしたい情報を有するコンテンツ・プロバイダ１３０は、音声認識サーバ１３２を、データ網に接続させることができる。特集あるいは特別のサービスとしての申出に、音声認識サーバ１３２は、コンテンツのプロバイダの情報（図示されていない）へのアクセスを希望する加入者ユニットのユーザーに、音声をベースとするインターフェースを提供する。

別の音声認識サーバのための可能な場所は、大企業あるいは同様のエンティティなどの企業１４０内である。イントラネットの様な企業内の通信網１４６は、セキュリティ（安全）ゲートウエイ（複数のネット間の接続）１４２を経由してデータ網１５０に接続される。セキュリティ・ゲートウエイ１４２は、加入者ユニットと連動して、企業内通信網１４６に対する安全なアクセスを提供する。公知の技術のとおり、この方法で提供される安全なアクセスは、一般的に、認証と暗号技術に一部依存する。この方法で、安全でないデータ網１５０を介した、加入者ユニットと内部通信網１４６との間の安全な通信が提供される。企業１４０内で、音声認識サーバ１４５を実行するサーバ・ソフトウエアを、所定の従業員のワークステーションのようなパソコン１４４上に提供できる。小規模のエンティティ・システムの中で使用するための前記で説明された構成と同様に、このワークステーションアプローチで、従業員は音声をベースとするインターフェースを経由して、作業に関連の又は他の情報にアクセスできる。また、コンテンツ・プロバイダ１３０モデルと同様に、企業１４０は、内部で利用できる音声認識サーバ１４３を提供して、企業のデータベースへのアクセスを提供することができる。

本発明の音声認識サーバが配置されている場所の如何を問わず、サーバを使用して、各種の音声をベースとするサービスを実行することができる。例えば、制御エンティティ１１６が設けられている場合、これと連動させて、音声認識サーバで、加入者ユニット又は、これに接続されているデバイスの操作の制御をすることができる。この明細書全体を通じて使用されている音声認識サーバと言う用語が、音声合成機能をも同時に含むことに留意しなければならない。

本発明のインフラストラクチャは、また、音声認識サーバ１０２、１０３とまた通常の電話システムとの間の相互接続を提供する。機能は、無線網１１３をＰＯＴＳ（旧式の電話システム）網１１８に接続することで、図１の中に示されている。公知の技術のとおり、ＰＯＴＳ網、あるいは同様の電話網は、陸上通信線あるいは他の無線デバイスのような複数の呼び局への通話アクセスを提供する。この方法で、音声認識サーバ１０２、１０３のユーザーは、他の呼び局１１９との音声通信を続行できる。下記に詳しく説明されているとおり、この発明は、ローカルで、音声通信中に電子アシスタントに対するウェークアップコマンドの様なインターラプト表示を検出する技術を提供する。

図２は、この発明に係る加入者ユニットを実行するのに使用できるハードウエアのアーキテクチュアを示している。図示されているように、２個の無線トランシーバ、即ち無線データ・トランシーバと無線音声トランシーバを使用することができる。公知の技術のように、これらのトランシーバを、データと音声機能の双方を実行することができる単独のトランシーバに結合させることができる。無線データ・トランシーバ２０３と無線音声トランシーバ２０４の双方ともアンテナ２０５に接続されている。また、各々のトランシーバに対して、別個のアンテナを使用することができる。無線音声トランシーバ２０４は、全ての必要な信号処理や、プロトコル終了や、変調／復調等を実行して、無線音声通信を提供し、セルラ・トランシーバを備える。同様の方法で、無線データ・トランシーバー２０３はインフラとのデータ接続性を提供する。好ましい実施例の中では、無線データ・トランシーバ２０３は、欧州通信規格協会（ＥＴＳＩ）により規定されている一般パケット・データ無線サービス（ＧＰＲＳ）のような無線パケットデータに対応している。

この発明を、下記で説明されているとおり、車両搭載システムに有利に応用できることが見込まれる。車両搭載に利用された場合、この発明に係る加入者ユニットは、また、一般的に車両の一部であり、加入者ユニットの一部ではないと見なされる処理構成部品を備える。この発明を説明する目的で、処理構成部品を、加入者ユニットの一部と仮定する。加入者ユニットの実用に当たって、設計面を斟酌して、処理構成部品を含めたり専用とし含めないこともできるものと解釈されるものとする。好ましい実施例の中で、処理構成部品は、ＩＢＭ社の“ＰＯＷＥＲＰＣ”のような汎用プロセッサ（ＣＰＵ）２０１と、また、Ｍｏｔｏｒｏｌａ社のＤＳＰ５６３００シリーズ・プロセッサのようなデジタル信号処理装置（ＤＳＰ）２０２を備える。ＣＰＵ２０１とＤＳＰ２０２は、公知の技術のとおり、データ・バスとアドレス・バスを介して互いに接続されていることと、また他の制御接続を示すために、図２の中で隣接して示されている。また、実施例の中で、ＣＰＵ２０１とＤＳＰ２０２の双方の機能を単独のプロセッサに結合させたり、あるいは複数のプロセッサに分割することができるようになっている。ＣＰＵ２０１とＤＳＰ２０２の双方は、関連するプロセッサに対するプログラムとデータの保存を提供する個々のメモリー２４０、２４１に接続されている。保存されているソフトウエアのルーチンを使用して、ＣＰＵ２０１あるいはＤＳＰ２０２あるいはその双方をプログラム化して、この発明の機能の少なくとも一部を実行することができる。ＣＰＵ２０１とＤＳＰ２０２は、下記の図３と６に関連させて、少なくとも部分的に、下記で説明される。

好ましい実施例の中で、加入者ユニットは、また、アンテナ２０７に接続されている全地球測位衛星（ＧＰＳ）受信機２０６を備える。ＧＰＳ受信機２０６は、ＤＳＰ２０２に接続されて、受信されたＧＰＳ情報を提供している。ＤＳＰ２０２は、ＧＰＳ受信機から情報を取り込んでから、無線通信デバイスの場所の座標を計算する。また、ＧＰＳ受信機２０６を、ＣＰＵ２０１に直接場所の情報を提供するものとすることができる。

ＣＰＵ２０１とＤＳＰ２０２の種々の出入力は、図２の中に示されている。図２の中に示されているとおり、太線は、音声関係情報に対応し、また太い破線は、制御／データ関連情報に対応する。オプションとしてのエレメントと信号パスは、点線で示されている。ＤＳＰ２０２は、下記で更に詳しく説明されているとおり、電話（セル電話）の音声に対する音声入力と、ローカルの音声認識装置とクライアント−サーバ音声認識装置のクライアント側の部分の双方に音声入力を提供するマイク２７０から、マイク音声２２０を受信する。ＤＳＰ２０２は、また、電話（セル電話）の音声に対する音声出力と、ローカルの音声合成装置とクライアント−サーバ音声合成装置のクライアント側の部分の双方からの音声出力の双方を提供する少なくとも１個のスピーカー２７１に向けられている出力音声２１１に接続されている。携帯デバイスの中のように、マイク２７０とスピーカー２７１の位置を互いに近付けたり、あるいは、サンバイザーに取り付けられているマイクとダッシュボードあるいはドアに取り付けられているスピーカーを有する自動車での応用のように、互いに引き離すことができることに留意しなければならない。

この発明のもう一つの実施例の中で、ＣＰＵ２０１は、双方向インターフェース２３０を経由して、車両搭載のデータ・バス２０８に接続されている。データ・バス２０８で、セル電話や、娯楽（ラジオ、カセット・プレーヤー）システムや、車内環境システムのような車に搭載されている種々のデバイス２０９ａ〜nとＣＰＵ２０１との間で通信される状態情報を制御することができる。適切なデータ・バス２０８を、自動車技術者協会により現在標準化作業が進行中のＩＴＳデータ・バス（ＩＤＢ）とすることが見込まれる。ブルーツース・シグ（ＳＩＧ）（意見交換フォーラム）により定義される近距離無線データ通信システムのような種々のデバイス間の制御と状態情報を通信するまたの手段を使用することができる。データ・バス２０８で、ＣＰＵ２０１は、ローカルの認識装置、あるいはクライアント−サーバ認識装置の何れかにより認識された音声命令に応答して、車両搭載のデータ・バス上のデバイス２０９を制御できる。

ＣＰＵ２０１は、データ受信接続線２３１と、またデータ送信接続線２３２を経由して無線データ・トランシーバ２０３に接続されている。接続線２３１、２３２で、ＣＰＵ２０１は、無線システム１１０から送信された制御情報と音声合成情報を受信することができる。音声合成情報は、無線データ・チャンネル１０５を経由して、クライアント−サーバ音声合成システムのサーバ部分から受信される。ＣＰＵ２０１は、音声合成情報を復号してから、ＤＳＰ２０２に届けられる。ＤＳＰ２０２は、出力された音声を合成してから、合成されたものを音声出力２１１に届けられる。受信データ接続線２３１を経由して受信された全ての制御情報を、加入者ユニット自身を操作するために利用したり、１個あるいはそれ以上のデバイスに送信して、デバイスの動作を制御することができる。更に、ＣＰＵ２０１は、状態情報と、またクライアント−サーバ音声認識システムのクライアント部分からの出力データを、無線システム１１０に送信することができる。クライアント−サーバ音声認識システムのクライアント部分は、下記で更に詳しく説明されているとおり、好ましくは、ＤＳＰ２０２とＣＰＵ２０１内のソフトウエアの中で実行されることが好ましい。音声認識に対応させるときに、ＤＳＰ２０２は、マイク入力線２２０を受信してから、音声を処理して、パラメータ化された音声信号を、ＣＰＵ２０１に音声を提供する。ＣＰＵ２０１は、パラメータ化された音声信号を符号化して、情報は、接続線２３２を経由して、無線データ・トランシーバ２０３に送信され、更に、無線データ・チャンネル１０５上で、インフラストラクチャの中の音声認識サーバに向けて送信される。

無線音声トランシーバ２０４は、双方向データ・バス２３３を経由して、ＣＰＵ２０１に接続されている。データ・バスで、音声トランシーバ２０４を操作して、無線音声トランシーバ２０４からの状態情報を受信することができる。無線音声トランシーバ２０４は、音声送信接続線２２１と、また受信音声接続線２１０を経由して、ＤＳＰ２０２に接続されている。電話（セルラ）の通話を活用するために無線音声トランシーバ２０４が使用されているとき、音声は、ＤＳＰ２０２により、マイクの入力線２２０から受信される。マイクの音声は、処理（例えば、フィルター、圧縮等）されてから、無線音声トランシーバ２０４に提供されて、更にセルラ・インフラに送信される。反対に、無線音声トランシーバ２０４により受信された音声は、受信音声接続線２１０を経由して、ＤＳＰ２０２に送信され、ＤＳＰ２０２で、音声は処理（解凍、フィルター等）されてから、スピーカー出力線２１１に提供される。ＤＳＰ２０２により実行される処理は、図３を引用して、更に詳しく説明される。

図２の中に示されている加入者ユニットを、オプションとして、音声通信中に、手動でインターラプト表示線２５１を使用するための入力デバイス２５０を備えるものとすることができる。即ち、音声による通信中に、加入者ユニットのユーザーは、手動で入力デバイスを動作させて、インターラプト表示を提供することで、音声認識機能をウェークアップさせたいと言うユーザーの意思を伝えることができる。例えば、音声による通信中に、加入者ユニットのユーザーが、音声をインターラプトして、音声をベースとするコマンドを電子アシスタントに提供して、ダイヤルして、通話に第三者を加えたくなることがある。入力デバイス２５０を、実質的に如何なるタイプのユーザーにより動作化される入力機構を備えるものとすることができる。例として、特に挙げることができるものは、単一あるいは多目的ボタンや、多重位置セレクタや、あるいは入力機能を有するメニューで駆動されるディスプレーである。また、入力デバイス２５０を、双方向インターフェース２３０と、また車両搭載データ・バス２０８を経由して、ＣＰＵ２０１に接続することができる。入力デバイスが設けられていると否とを問わず、ＣＰＵ２０１は、インターラプト表示があるかないかを識別するための検出装置としての役割を果たす。ＣＰＵ２０１が、入力デバイス２５０に対する検出装置としての役割を果たしているときは、ＣＰＵ２０１は、参照符号２６０がふられている信号パスにより示されているとおり、インターラプト表示の存在をＤＳＰ２０２に指摘する。反対に、インターラプト表示を提供するための検出装置に接続されているローカルの音声認識装置を使用する他の機能（できれば、ＤＳＰ２０２あるいはＣＰＵ２０１あるいはその双方により実行されることが好ましい）を有している。この場合、参照符号２６０ａが振られている信号パスで示されているとおり、ＣＰＵ２０１あるいはＤＳＰ２０２の何れかは、インターラプト表示の存在を指摘する。一旦インターラプト表示の存在が検出されたか否かを問わず、音声認識エレメントの一部（できれば、加入者ユニットに関連してか、あるいは一部として実行されるクライアント部分であることが好ましい）が動作して、コマンドをベースとする音声処理を開始する。更に、音声認識エレメントの一部が動作したと言う表示をユーザーと、また音声認識サーバに提供することができる。好ましい実施例の中で、この表示は、送信データ接続線２３２を経由して、無線データ・トランシーバ２０３に搬送され、更に、音声識別エレメントを提供するために、音声認識クライアントと協動する音声認識サーバに送信される。

最後に、加入者ユニットには、インターラプト表示に応答して音声認識の機能が動作したことを伝える表示器制御線２５６に応答して加入者ユニットのユーザーに表示を提供する表示器２５５が装備されていることが好ましい。表示器２５５は、インターラプト表示装置に応答して動作させられ、一定期間のトーンあるいはビープの様な、音声表示を提供するのに使用されるスピーカーを備えるものとすることができる（ここでも、入力デバイスをベースとする信号２６０、あるいは音声をベースとする信号２６０ａの何れかを使用して、インターラプト表示装置が、表示を受けることができるようになっている。）他の実施例の中で、音声をスピーカー出力線２１１に向ける、ＤＳＰ２０２により実行されるソフトウエア・プログラムを経由して表示器の機能が設けられている。スピーカーを、別々のものにするか、あるいは同じスピーカー２７１を使用して、出力音声線２１１を可聴とすることができる。また、表示器２５５を、可視表示装置を提供するＬＥＤあるいはＬＣＤ表示装置の様な表示装置を備えるものとすることができる。表示器２５５の特定の形態は、設計の選択の問題であり、この発明では、必ずしもこの事項に限定されないものとする。更に、表示器２５５を、双方向インターフェース２３０と、また車両搭載データ・バス２０８を経由して、ＣＰＵ２０１に接続することができる。

ここで、図３を引用して、加入者ユニット（この発明に従って動作する）の中で実行される処理部分は、保存された、ＣＰＵ２０１あるいはＤＳＰ２０２あるいはその双方により実行されるマシンにより読み取り可能な命令を使用して実行される。下記に発表されている解説は、自動車の中に展開されている加入者ユニットの動作を説明しているが、図３の中に一般的に示され、この明細書の中で説明されている機能は、同様に非車両をベースとする使用に応用できるか、あるいは音声認識を使用することで利点を発揮させることができる。

マイクの音声線２２０は、入力として加入者ユニットに提供される。自動車の環境下では、マイクは、一般的にサンバイサあるいは車両のステアリングコラムに直接取り付けられているか隣接した所にある通常ハンズフリーマイクである。できれば、マイクの音声線２２０が、デジタルの形態で、エコー・キャンセラー（２個の信号の伝送遅延による反射の取消）と環境処理（ＥＣＥＰ）ブロック３０１の所まで到達することが好ましい。スピーカーの音声２１１は、全ての必要な処理を受けてから、ＥＣＥＰブロック３０１を経由して、スピーカー（複数を含む）に届けられる。車両の中では、スピーカーは、ダッシュボードの下に取り付けられる。また、スピーカー音声線２１１を、娯楽システムのスピーカー・システムを経由して演奏される車両の中の娯楽システムを経由させることができる。スピーカー音声線２１１は、できれば、デジタル・フォーマットであることが好ましい。例えば、セルラ通話が進行中であるとき、セルラ電話から受信された音声は、受信音声接続線２１０を経由してＥＣＥＰブロック３０１に到達する。同様にして、送信される音声は、送信音声接続線２２１を経由して、セル電話に届けられる。

ＥＣＥＰブロック３０１には、送信音声接続線２２１を経由して、無線トランシーバ２０４に届けられる前に、マイク音声線２２０からのスピーカー音声線２１１のエコー・キャンセルが提供される。エコー・キャンセルは、音声エコー・キャンセルとして知られており、また公知の技術である。例えば、Ａｍａｎｏ他に交付された、“サブ・バンド音声エコー・キャンセラー”の名称の米国特許５，１３６，５９９と、またＧｅｎｔｅｒに交付された、“サブバンド減衰とノイズ除去制御を有するエコー・キャンセラー”の名称の米国特許５，５６１，６６８は、音声エコー・キャンセルを実施するのに適切な技術を教示しており、特許の教示事項は、引用により、この明細書の中に組み込まれている。

ＥＣＥＰブロック３０１は、またエコー・キャンセルの他に、環境処理をマイク音声線２２０に提供して、加入者ユニットにより送信された音声を受信する側により快適な音声信号を提供する。一般的に普及している一つの技術は、ノイズ抑圧と呼ばれている。車両の中のハンズフリーマイクは、一般的に、他人に聞き取られる多数のタイプの音声ノイズを取り込む。他人に聞き取られる知覚されるバックグラウンド・ノイズを減らす技術は、例えば、Ｖｉｌｍｕｒ他に交付された米国特許４，８１１，４０４により説明されており、特許の教示事項は、引用により、この明細書の中に組み込まれている。

ＥＣＥＰブロック３０１は、また、第１音声パス３１６を経由して、音声合成バックエンド３０４により提供された合成された音声のエコー・キャンセル処理を提供する。合成された音声は、音声出力線２１１を経由して、スピーカー（複数を含む）に届けられる。受信された音声がスピーカー（複数を含む）に向けられた場合と同様に、マイクの音声パス２２０上で到達したスピーカーの音声“エコー”は、打ち消される。作用で、音響的にマイクに連結されたスピーカーの音声を、音声が音声認識のフロント・エンド３０２に届く前に、マイクの音声から取り除くことができる。タイプの処理により、公知の技術で“バージイン”として知られている技術を動作させることができる。バージインで、出力音声が同時にシステムで生成されながら、音声認識システムを、音声に対応させることができる。“バージイン”の実施例は、例えば、米国特許４，９１４，６９２と、５，４７５，７９１と、５，７０８，７０４また５，７６５，１３０の中に見い出すことができる。

エコーが打ち消されたマイクの音声は、音声認識処理が事項される度に、第２音声パス３２６を経由して、音声認識フロント・エンド３０２に供給される。オプションとして、ＥＣＥＰブロック３０１は、第１データ・パス３２７を経由して、バックグラウンド・ノイズ情報を音声認識フロント・エンド３０２に提供する。バックグラウンド・ノイズ情報を、ノイズが多い環境の中で動作する音声認識システムに対する認識性能を改善するのに使用できる。処理を実施するのに適する技術は、Ｇｅｒｓｏｎ他に交付された米国特許４，９１８，７３２の中で説明されており、特許の教示事項は、この明細書の中で、引用で組み込まれている。

エコーが打ち消されたマイクの音声と、オプションとして、ＥＣＥＰブロック３０１から受信されたバックグラウンド・ノイズ情報を基礎として、音声認識フロント・エンド３０２は、パラメータ化された音声情報を生成する。音声認識フロント・エンド３０２と、また音声合成バック・エンド３０４は、共に、音声認識及び合成システムをベースとするクライアント−サーバのクライアント側の部分の核となる機能を提供する。パラメータ化された音声情報は、一般的に、特徴ベクトルの形態であり、この場合、１０から２０ミリ秒毎に新しいベクトルが計算される。音声信号のパラメータ化のために普及している一つの技術は、１９８０年８月の、音声音声と信号処理に関する、ＡＳＳＰ−２８（４）の、頁３５７−３６６ＩＥＥＥ（米国電気電子技術者協会の会報の、“連続的に喋られる文の単音節の言葉の認識に対するパラメータによる表示の比較”Ｄａｖｉ他により説明されているとおりの、ｍｅｌｃｅｐｓｔｒａであり、刊行物の教示、引用によりこの明細書の中に組み込まれている。

音声認識フロント・エンド３０２により計算されたパラメータのベクトルは、
ローカルの音声認識処理のために、第２データ・パス３２５を経由して、ローカルの音声認識ブロック３０３に送られる。パラメータのベクトルは、また、オプションとして、第３データ・パス３２３を経由して、音声アプリケーション・プロトコル・インターフェース（ＡＰＩ）（複数）と、またデータ・プロトコル（複数）を備えるプロトコル処理ブロック３０６に送られる。公知の技術に従って、処理ブロック３０６は、送信データ接続線２３２を経由して、パラメータ・ベクトルを無線データトランシーバ２０３に送る。反対に、無線データトランシーバ２０３は、音声認識装置をベースとするクライアント−サーバの一部として機能するパラメータ・ベクトルをサーバに送る。（パラメータ・ベクトルを送信するよりも、加入者ユニットのほうが、無線データトランシーバ２０３または無線音声トランシーバ２０４のいずれかを用いるサーバに音声情報を代わりに送信することができるということが理解される。このことは、加入者ユニットから電話ネットワークへの音声伝送を支持するのに用いられる、または、音声信号を生ずる他の適切な同様の方法で行われてもよい。すなわち音声信号は、生のデジタル化されたオーディオ、セルラー音声コーダで処理したオーディオ、ＩＰ（インターネットプロトコル）等の特定のプロトコルに準ずる伝送に好適なオーディオデータ等の種々のパラメータ化されていない生成物のいずれかを備えてもよい。次いでサーバは、パラメータ化されていない音声情報を受信すると、必要とされるパラメータ化を行うことができる。）単独の音声認識フロント・エンド３０２が示されているが、実際的には、ローカルの音声認識装置３０３と、音声認識装置をベースとするクライアント−サーバは、種々の音声認識フロントエンドを利用することができる。

ローカルの音声認識装置３０３は、音声認識フロント・エンド３０２からパラメータ・ベクトル３２５を受信してから、フロント・エンド上で音声認識分析を実行し、例えば、パラメータ化された音声の中に認識できる発話があるかどうかを決定する。一つの実施例の中で、認識された発話（一般的に単語）は、加入者ユニットの中の音声認識装置３０３から、第４データ・パス３２４を経由して、プロトコル処理ブロック３０６に送られ、パスは、更に処理を行うために、認識された発話を種々のアプリケーション３０７に渡す。ＣＰＵ２０１、あるいはＤＳＰ２０２あるいはその双方を使用して実行することができるアプリケーション３０７は、認識された発話をベースとする検出装置アプリケーションを備えるものとすることができ、音声をベースとするインターラプト指示表示が受信されたことを確かめる。例えば、検出装置は、マッチングのための検索を行いながら、認識された発話を予め設定された発話のリスト（例えば“ウェークアップ”）と比較する。整合が検出されたときは、検出装置アプリケーションは、信号２６０ａを発して、インターラプト表示の存在を知らせる。インターラプト表示の存在は、次に、音声認識エレメントを動作させて、音声をベースとするコマンドの処理を開始させるのに使用される。作用の概略は、音声認識フロント・エンドに送られる信号２６０ａにより図３の中で示されている。この作用に応答して、音声認識フロント・エンド３０２は、引続き、パラメータ化された音声を、加入者ユニットの中の音声認識装置に向けて送るか、あるいは、できれば、追加の処理のために音声認識サーバに送信するために、プロトコル処理ブロック３０６に送ることが好ましい。（また、オプションとして入力デバイス２５０により提供される入力デバイスをベースとする信号２６０が、同じ役割を果たすことができることに留意しなければならない）。更に、インターラプト表示の存在を、送信データ接続線２３２に送信して、音声認識装置のインフラをベースとするエレメントに表示を与えることができる。

音声合成バック・エンド３０４は、入力として音声のパラメータ化された表示を取り込んでから、パラメータ化された表示を、音声信号に転換し、信号は、それから、第１音声パス３１６を経由して、ＥＣＥＰブロック３０１に届けられる。使用される特定のパラメータ化された表示は、設計の選択の問題である。一般的に普及しているパラメータ化された表示は、Ｋｌａｔｔの“縦続接続／並列接続フォルマント合成装置のためのソフトウエア”の題名の米国音声協会の協会誌の、１９８０年の６７卷の頁９７１−９９５の中で説明されている、フォルマント（音色を特徴づける周波数成分）である。直線予測パラメータは、１９７６年のＳｐｒｉｎｇｅｒ書房の、Ｍａｒｋｅｌ他の、音声の直線予測の中で解説されている、もう一つの一般に普及しているパラメータ化された表示である。ＫｌａｔｔとＭａｒｋｅｌ他の関連する教示は、引用で、この明細書の中に組み込まれている。

クライアント−サーバをベースとする音声合成の場合、音声のパラメータ化された表示は、無線チャンネル１０５と、無線データ・トランシーバ２０３と、またプロトコル処理ブロック３０６を経由する通信網から受信され、それから、音声のパラメータ化された表示は、第５パス３１３を経由して、音声合成バック−エンドに送られる。加入者ユニットの中の音声合成の場合は、アプリケーション３０７は、喋られるテキストのストリングを生成する。テキスト・ストリングは、プロトコル処理ブロック３０６を通過してから、第６パス３１４を経由して、ローカルの音声合成装置３０５に送られる。音声合成装置３０５は、テキスト・ストリングを、音声信号のパラメータ化された表示に転換してから、パラメータ化された表示を、第７パス３１５を経由して、音声合成バック−エンド３０４に送って、音声信号に転換する。

受信データ接続線２３１を、音声合成情報以外の受信された情報を、更に転送するのに使用できることに留意しなければならない。例えば、音声合成情報以外の情報を、インフラから受信されたデータ（表示情報の様な）あるいは制御情報あるいはその双方と、またシステムにダウンロードされるべきコードを備えるものとすることができる。同様に、送信データ接続線２３２を、音声認識フロント−エンド３０２により計算されたパラメータ・ベクトル以外の送信情報を転送するのに使用できる。例えば、他の送信情報を、デバイス状態情報と、デバイスの容量と、またバージインのタイミングに関する情報を備えるものとすることができる。

ここで、図４を引用して、音声認識サーバのハードウエアの実施例が示されており、実施例には、この発明に係るクライアント−サーバ音声認識及び合成システムのサーバ部分が設けられている。図１に関連して前記で説明されているとおり、サーバを、複数の環境の中で常駐させることができる。インフラあるいは通信網接続線４１１を経由して、加入者ユニットあるいは制御エンティティとのデータ通信を行うことができる。図１の中で示されているとおり、接続線４１１を、例えば無線システム内に限定して、無線通信網に直接接続させることができる。また、接続線４１１を、公衆あるいは専用通信網、あるいは、他のデータ通信リンクとすることができるが、この発明は、点に限定されない。

通信網インターフェース４０５は、ＣＰＵ４０１と通信網接続線との間の接続性を提供する。通信網インターフェース４０５は、通信網４１１からのデータを、受信パス４０８を経由して、ＣＰＵ４０１に向けて送り、送信パス４１０を経由してＣＰＵ４０１から通信網接続線４１１に向けて送る。クライアント−サーバ構成の一部として、ＣＰＵ４０１は、通信網インターフェースと通信網接続線４１１を経由して、１個あるいはそれ以上のクライアントと通信する（できれば、加入者ユニットの中で実行される）。好ましい実施例の中で、ＣＰＵ４０１は、クライアント−サーバ音声認識及び合成システムのサーバ部分を実行する。図示されていないが、図４の中のサーバを、加入者ユニットの中のインターフェースを備えるものとして、サーバへの装置内のアクセスを行って、例えばサーバの保守と、状態の点検と他の同様の機能を容易にすることができる。

メモリー４０３は、マシンで読み取り可能な命令（ソフトウエア）と、また、クライアント−サーバ構成のサーバ部分を実施するのに当たって、ＣＰＵ４０１による実行と使用のためのプログラム・データを保存する。ソフトウエアの動作と構造は、図５を引用して説明される。

図５は、音声認識及び合成サーバ機能を示している。少なくとも１個の音声認識クライアントと協働して、図５の中に示されている音声認識サーバの機能は、音声認識エレメントを提供する。加入者ユニットからのデータは、受信パス４０８を経由して、受信機（ＲＸ）５０２の所に到達する。受信機は、データを復号してから、音声認識データ５０３を、音声認識クライアントから音声認識分析装置５０４に向ける。デバイスの状態情報と、デバイスの容量、とバージイン・コンテキストに関する情報の様な、加入者ユニットからの他の情報５０６は、受信機５０２により、ローカル制御プロセッサ５０８に向けられる。一つの実施例の中で、他の情報５０６は、音声認識エレメント（例えば、音声認識クライアント）の一部が動作した加入者ユニットからの表示を備える。表示を、音声認識サーバの中の音声認識処理を開始させるのに使用することができる。

クライアント−サーバ構成の一部として、音声認識分析装置５０４は、加入者ユニットから音声認識パラメータ・ベクトルを取り込んでから、認識処理を完了する。認識された単語あるいは発話５０７は、それから、ローカルの制御プロセッサ５０８に送られる。パラメータ・ベクトルを認識された発話に転換するのに必要な処理の説明は、１９８８年の、“自動音声認識：スフィンクス・システム”の中で見ることができ、刊行物の教示事項は、引用でこの明細書の中に組み込まれている。

ローカルの制御プロセッサ５０８は、音声認識分析装置５０４と、他の情報５０８から認識された発話５０７を受信する。一般的に、この発明には、認識された発話を受信したら直ちに動作し、認識された発話が、制御信号を提供する制御プロセッサが必要である。好ましい実施例の中で、諸制御信号が、使用されて、次の加入者ユニット、あるいは加入者ユニットに接続されている少なくとも１個のデバイスの動作を制御する。この目的のために、ローカルの制御プロセッサを、できれば１個あるいはそれ以上の方法で動作するようになっていることが好ましい。第１に、ローカルの制御プロセッサ５０８が、アプリケーション・プログラムを実行することができる。一般的なアプリケーションの一つの例は、米国特許５，６５２，７８９の中で説明されているとおりの電子アシスタントである。また、アプリケーションを、遠隔操作プロセッサ５１６上で操作できる。例えば、図１のシステムの中で、遠隔操作プロセッサは、制御エンティティ１１６を備える。前述の場合、ローカルの制御プロセッサ５０８は、データ通信網接続線５１５を経由して、遠隔操作プロセッサ５１６と通信することで、データを通過させてから受信するゲートウェーとして動作する。データ通信網接続線５１５を、公衆（例えばインターネット）や、専用通信網（例えば、イントラネット）、あるいは他の一部のデータ通信リンクとすることができる。事実、ローカルの制御プロセッサ５０８は、ユーザーにより使用されるアプリケーション又はサービスあるいはその双方次第で、データ通信網上に常駐する種々の遠隔操作プロセッサと通信できる。

遠隔操作プロセッサ５１６あるいはローカルの制御プロセッサ５０８の何れかを実行させるアプリケーション・プログラムは、認識された発話５０７あるいは他の情報５０６あるいはその双方に対する応答を決定する。できれば、応答を、合成されたメッセージあるいは、制御信号あるいはその双方を備えるものとすることができることが好ましい。制御信号５１３は、ローカルの制御プロセッサ５０８から、送信機（ＴＸ）５１０に中継される。一般的にテキスト情報に合成される情報５１４は、ローカルの制御プロセッサ５０８から、テキストから音声への分析装置５１２に送られる。テキストから音声への分析装置５１２は、入力テキスト・ストリングを、パラメータ化された音声表示に転換する。前記に転換を実行するのに適切な技術は、１９９７年の、Ｓｐｒｏａｔ（編集者）の“多言語テキストから音声の合成：ベル社の取り組み”の中に説明されており、刊行物の教示事項は、引用により、この明細書の中に組み込まれている。テキストから音声への分析装置５１２からのパラメータ化された音声表示５１１は、必要に応じて多重化する送信機５１０に、パラメータ化された音声表示５１１と制御情報５１３は、送信パス４１０上で加入者ユニットに提供される。前述で説明されたものと同じ方法で操作して、テキストから音声への分析装置５１２を使用して、合成されたプロンプトを提供するか、あるいは同様に、加入者ユニットの所での出力音声信号としての役割を果たさせることができる。

ここで、図６を引用して、この発明に係る音声認識サーバの動作を説明するフローチャートが示されている。ステップ６０１の所で、音声認識サーバは、加入者ユニットからパラメータ化された音声信号を受信する。実用面では、音声認識サーバは、単独の加入者ユニットからのパラメータ化された音声信号を処理する性能を有しており、利用可能な処理と通信資源によってのみ制約される。ステップ６０２の所で、音声認識サーバは、パラメータ化された音声信号を受信したら、直ちに音声認識分析を実行する。良好な環境を仮定して、音声認識分析は、パラメータ化された信号の中で検出された認識された発話に関する情報を提供する。

インターラプト表示の存在に応答して、音声認識エレメントの部分は、ステップ６０３の所で動作させられる。前記で説明されているとおり、好ましい実施例の中で、動作により、クライアント−サーバ音声認識及び合成システムのクライアント側の部分は、音声をベースとするコマンドの処理が開始される。更に、ステップ６０４の所で、インターラプト表示の存在に応答する表示で、音声認識エレメント、とまた特に加入者ユニットの中に常駐している音声認識エレメントの部分が、動作したことをユーザーに表示することができる。表示を、独特で知覚できる刺激とすることができる。前述の方法で、加入者ユニットのユーザーは、音声通信をインターラプトしたい自己の意向が認識されたことを知り、さらに、音声認識エレメントが動作しているとの認識で継続できること知るのである。更に、ステップ６０４の所で、無線送信のために適切に処理された表示を、音声認識エレメントの一部を形成している音声認識サーバに提供できる。

前記に説明されたこの発明は、音声認識機能をウェークアップしたりあるいは呼び出すための独特の技術を提供する。前述の技術は、例えばウェークアップコマンドの様なインターラプト表示の検出部が、ローカルに加入者ユニットで実行されるので、無線通信環境に対して容易に応用できる。前記で説明されたことは、単にこの発明の原理の応用の例示である。当業者であれば、この発明の精神と範囲を逸脱することなく、他の構成と方法を実行できる。

Claims

インフラと無線で通信する加入者ユニットを動作させる方法であって、該方法は、該インフラを経由して、該加入者ユニットのユーザーと他の者との間で音声通信を提供するためのものであり、該インフラは、音声認識サーバを含み、
該方法は、
該インフラを経由して、該加入者ユニットのユーザーと他の者との間で音声通信を行うことと、
該加入者ユニットに含まれるローカルの音声認識装置を用いて、少なくとも１つの所定の発話に対して該音声通信をローカルにモニターすることと、
該ローカルの音声認識装置を用いて該少なくとも１つの所定の発話が認識されると、インターラプト表示を提供することと、
該インターラプト表示に応答して、該音声通信中に、該加入者ユニットに含まれる音声認識エレメントの一部を動作させることにより、音声ベースのコマンドを処理することによりパラメータ化された音声ベクトルにすることを開始することであって、該音声認識エレメントは、該インフラの中に少なくとも部分的に実装されており、該加入者ユニット内に含まれる該音声認識エレメントの該一部は、ローカルにエコー・キャンセルおよび環境処理が実行された音声通信とバックグラウンド・ノイズ・データとを用いて、該音声ベースのコマンドを処理することにより該パラメータ化された音声ベクトルにする、ことと、
さらなる音声認識処理のために、該加入者ユニットから該音声認識サーバに該パラメータ化された音声ベクトルを無線で送信することと
を含む、方法。
前記ローカルにモニターすることは、前記加入者ユニットの一部を形成している入力デバイスを動作させることにより、前記インターラプト表示を提供することをさらに含む、請求項１に記載の方法。
前記入力デバイスを動作させることは、ボタン、セレクタ、メニューで駆動される入力デバイスのうちの何れかを動作させることを含む、請求項２に記載の方法。
前記音声認識エレメントの一部が動作したことを示すものを前記ユーザーに提供することをさらに含む、請求項１に記載の方法。
前記音声認識エレメントの一部が動作したことを示すものを前記音声認識サーバに提供することをさらに含む、請求項１に記載の方法。
インフラと無線で通信する加入者ユニットであって、
該加入者ユニットは、
該インフラとの音声通信中に、少なくとも１つの所定の発話を検出し、該少なくとも１つの所定の発話が検出されると、インターラプト表示を提供し、該音声通信に対してエコー・キャンセルおよび環境処理をローカルに実行するローカルの音声認識装置と、
該インターラプト表示を入力として、該音声通信中に、音声ベースのコマンドを処理することによりパラメータ化された音声ベクトルにするように、該インターラプト表示によって動作させられる音声認識エレメントの一部であって、該音声認識エレメントの該一部は、該パラメータ化された音声ベクトルを生成するために、エコー・キャンセルが実行された音声通信とバックグラウンド・ノイズ・データとを受信し、該音声認識エレメントは、該インフラの中に少なくとも部分的に実装されている、音声認識エレメントの一部と、
さらなる音声認識処理のために、該パラメータ化された音声ベクトルを該音声認識サーバに送信する無線トランシーバと
を含む、加入者ユニット。
前記ローカルの音声認識装置に結合されている入力デバイスをさらに含み、該入力デバイスは、動作したときにインターラプト表示を提供する、請求項６に記載の加入者ユニット。
前記入力デバイスは、ボタン、セレクタ、メニュー駆動入力デバイスのうちのいずれかを含む、請求項７に記載の加入者ユニット。
前記音声認識エレメントの前記一部は、音声認識クライアントを含み、該音声認識クライアントと前記インフラの中に実装された音声認識サーバとが、協働して該音声認識エレメントを提供する、請求項６に記載の加入者ユニット。
前記インターラプト表示に応答して、前記音声認識エレメントの前記一部が動作したことを示す表示装置をさらに含む、請求項６に記載の加入者ユニット。
前記無線トランシーバは、前記音声認識エレメントの前記一部が動作したことを示すものを前記インフラに送信する、請求項６に記載の加入者ユニット。
インフラと、
該インフラと無線で通信する少なくとも１つの加入者ユニットと
を含む無線通信システムであって、
該少なくとも１つの加入者ユニットのそれぞれは、
該インフラを経由して、該加入者ユニットと他の者との間での音声通信中に、少なくとも１つの所定の発話を検出し、該少なくとも１つの所定の発話が検出されると、インターラプト表示を提供し、該音声通信に対してエコー・キャンセルおよび環境処理をローカルに実行するローカルの音声認識装置と、
該インターラプト表示を入力として、該音声通信中に、音声ベースのコマンドを処理することによりパラメータ化された音声ベクトルにすることを開始するように、該インターラプト表示によって動作させられる音声認識クライアントであって、該音声認識クライアントは、該パラメータ化された音声ベクトルを生成するために、エコー・キャンセルが実行された音声通信とバックグラウンド・ノイズ・データとを受信する、音声認識クライアントと、
さらなる音声認識処理のために、該パラメータ化された音声ベクトルを該音声認識サーバに送信する無線トランシーバと
を含み、
該インフラは、該音声認識クライアントと協働して音声認識エレメントを提供する音声認識サーバを含む、無線通信システム。
少なくとも１つの加入者ユニットは、無線電話を含む、請求項１２に記載の無線通信システム。
少なくとも１つの加入者ユニットは、車両搭載無線通信デバイスを含む、請求項１２に記載の無線通信システム。
インフラの一部と音声認識エレメントの一部とを形成する音声認識サーバを動作させる方法であって、該インフラは、少なくとも１つの加入者ユニットと無線で通信し、
該方法は、
パラメータ化された音声ベクトルを該少なくとも１つの加入者ユニットから受信することであって、該パラメータ化された音声ベクトルは、ローカルにエコー・キャンセルおよび環境処理が実行された他の者との音声通信とバックグラウンド・ノイズ・データに基づいて生成されたものであり、該パラメータ化された音声ベクトルは、他の者との該音声通信中に該少なくとも１つの加入者ユニットにおいてインターラプト表示をローカルに認識したことに応答して、該少なくとも１つの加入者ユニットの音声認識クライアントによって提供され、該インターラプト表示は、少なくとも１つの所定の発話が検出された場合に、該少なくとも１つの加入者ユニットに含まれるローカルな音声認識装置によって提供される、ことと、
該音声通信中に、該パラメータ化された音声ベクトルに基づくさらなる音声認識処理を実行することと
を含む、方法。
前記音声認識エレメントの一部が動作したことを示すものを前記少なくとも１つの加入者ユニットから受信することと、
該示すものに基づいて音声認識処理を開始することと
をさらに含む、請求項１５に記載の方法。
前記インターラプト表示は、前記少なくとも１つの加入者ユニットにおいて、入力デバイスを動作させることによって提供される、請求項１５に記載の方法。
前記インターラプト表示は、前記少なくとも１つの加入者ユニットにおいて、少なくとも１つの所定の発話に対して前記音声通信をローカルにモニターすることによって提供される、請求項１５に記載の方法。
少なくとも１つの加入者ユニットと無線で通信するインフラにおいて用いられる音声認識サーバであって、
該音声認識サーバは、
他の者との音声通信中に、該少なくとも１つの加入者ユニットにおいて、インターラプト表示をローカルに認識したことに応答して、該少なくとも１つの加入者ユニットに含まれる音声認識クライアントから受信されたパラメータ化された音声ベクトルを入力として受信する受信機であって、該インターラプト表示は、少なくとも１つの所定の発話が検出された場合に、該少なくとも１つの加入者ユニットに含まれるローカルな音声認識装置によって提供され、該少なくとも１つの加入者ユニットは、該音声通信に対してエコー・キャンセルおよび環境処理をローカルに実行し、受信されたエコー・キャンセルが実行された音声通信とバックグラウンド・ノイズ・データとに基づいて該パラメータ化された音声ベクトルを生成する、受信機と、
該パラメータ化された音声ベクトルに対するさらなる音声認識処理を実行する音声認識エレメントの一部と
を含む、音声認識サーバ。
前記受信機は、前記音声認識エレメントの一部が動作したことを示すものを前記少なくとも１つの加入者ユニットから受信するようにさらに動作し、該示すものが、音声認識処理を開始する、請求項１９に記載の音声認識サーバ。
前記インターラプト表示は、前記少なくとも１つの加入者ユニットにおいて、入力デバイスを動作させることによって提供される、請求項１９に記載の音声認識サーバ。
前記インターラプト表示は、前記少なくとも１つの加入者ユニットにおいて、少なくとも１つの所定の発話に対して前記音声通信をローカルにモニターすることによって提供される、請求項１９に記載の音声認識サーバ。