JP2003050594A

JP2003050594A - 自動スピーチ認識とスピーチサービス提供方法およびシステム

Info

Publication number: JP2003050594A
Application number: JP2002156302A
Authority: JP
Inventors: Pamela L Dragosh; エルドラゴッシュパメラ; Daid B Roe; ビーロイデビット; Robert D Sharp; ディーシャープロバート
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1997-04-14
Filing date: 2002-05-29
Publication date: 2003-02-21
Also published as: CA2228917C; JP4849894B2; DE69829604T2; MX2007013017A; US6078886A; EP0872827B1; US6366886B1; DE69829604D1; EP0872827A3; JPH10333693A; MX9802754A; US6604077B2; US20020091528A1; CA2228917A1; JP2006146262A; MX2007013015A; EP0872827A2

Abstract

(57)【要約】【課題】自動スピーチ認識（ＡＳＲ）エンジンをホス
トとするシステムから離れた場所にいるユーザがＡＳＲ
を利用できるようにする。【解決手段】クライアント−サーバアーキテクチャを
使用して、主ＡＳＲエンジンの場所から離れたクライア
ントの場所でＡＳＲサービスをアクセス可能にする。す
なわち、パケットネットワーク１２０、たとえばインタ
ーネットまたは無線ネットワークを介してクライアント
ＰＣ１４０とサーバノード１１０が接続される。ＡＳＲ
サーバ１００がＡＳＲクライアント１３０から文法を受
け、または複数の文法からの選択を行い、クライアント
からのスピーチを表す情報を受け、スピーチ認識を実行
し、認識したスピーチに基づくスピーチ応答を提供す
る。このようにして、パケットネットワークを介して、
人間であるユーザとＡＳＲサーバとの対話が行われる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般にスピーチ認識
に関し、より詳細には、パケットネットワークを介して
遠隔アクセス可能な自動スピーチ認識及び文字スピーチ
変換（text-to-speech）サービスを提供する方法に関す
る。

【０００２】

【従来の技術】自動スピーチ認識（ＡＳＲ）を達成する
ための技術は周知である。公知のＡＳＲ技術の中には、
文法を利用するものがある。「文法」とは、所与の文脈
の中で使用または発話されると予想される言語または句
の表現である。そこで、ある意味で、ＡＳＲ文法は通
常、スピーチ認識系を、潜在的に話される語の領域の部
分集合である語彙に制限する。文法はサブグラマを含む
こともある。そして、ＡＳＲ文法規則を使用して、所与
の文脈で予想することができる一つ以上の文法またはサ
ブグラマから「句」または語の組み合わせの集合を表す
ことができる。「文法」はまた、一般に、統計的な言語
モデル（モデルが句を表す）、たとえば言語理解システ
ムに使用されるモデルをいうこともある。

【０００３】最近、何らかの形態の自動スピーチ認識
（「ＡＳＲ」）方法を利用する製品およびサービスが商
業的に導入された。たとえば、ＡＴ＆Ｔは、複雑なＡＳ
Ｒサービスの展開を可能にする、ワトソン（WATSON）と
呼ばれる文法ベースのＡＳＲエンジンを開発した。この
ようなＡＳＲ技術を利用する複雑なＡＳＲサービスに望
まれる属性には、高い認識精度、話者が異なるアクセン
トや方言を有する場合および／またはバッググラウンド
ノイズの存在における認識を可能にする強健性、多大な
語彙を扱う能力ならびに自然な言語理解がある。複雑な
ＡＳＲサービスに必要なこれらの属性を達成するため、
ＡＳＲ技術およびエンジンは通常、所望のスピーチ認識
機能を達成するための有意な処理能力を有するコンピュ
ータベースのシステムを必要とする。本明細書に使用す
る「処理能力」とは、プロセッサ速度、メモリ、ディス
ク空間ならびにアプリケーションデータベースへのアク
セスをいう。このような処理の必要条件が、通常はパー
ソナルコンピュータ（ＰＣ）技術に基づく大部分のデス
クトップシステムの能力を超越してしまうため、デスク
トップで利用可能な複雑なＡＳＲサービスの展開を制限
してきた。

【０００４】パケットネットワークは、スピーチやオー
ディオを含む種々のタイプの記憶データを送るのに好適
である汎用データネットワークである。既存のパケット
ネットワークの中で最大かつもっとも有名なインターネ
ットは、約１４０か国の４００万台を超えるコンピュー
タを接続している。インターネットの全世界的かつ指数
関数的な成長は、今日の一般的知識である。

【０００５】

【発明が解決しようとする課題】通常、インターネット
のようなパケットネットワークには、コンピュータ、た
とえばＰＣ上で動作するクライアントソフトウェアプロ
グラムを介してアクセスするため、パケットネットワー
クは本来、クライアント／サーバ指向である。パケット
ネットワークを介して情報にアクセスする一つの方法
は、クライアントがウェブサーバと対話することを可能
にするウェブブラウザ（たとえばネットスケープコミュ
ニケーションズ社（Netscape Communications, In
c.）から市販されているネットスケープナビゲータ（Ne
tscape Navigator）およびマイクロソフト社（Microso
ft Corp.）から市販されているインターネットエクス
プローラ（Internet Explorer）の使用による方法であ
る。ウェブサーバおよびその中で利用できる情報は通
常、ＵＲＬ（Uniform Resource Locator）互換性のア
ドレスによって識別され、指定される。ＵＲＬアドレス
指定は、インターネットおよびイントラネットアプリケ
ーションで広く使用され、当業者には周知である（「イ
ントラネット」とは、機能性においてインターネットを
モデルにしたパケットネットワークであり、たとえば企
業によって局所的または社内的に使用されている）。こ
れらのネットワークの多くが、周知の通信用インターネ
ットプロトコルを使用している。

【０００６】ＡＳＲエンジンをホストするシステムから
離れた場所、たとえばデスクトップにいるユーザが利用
することのできるＡＳＲサービスを可能にする方法が望
まれている。

【０００７】

【課題を解決するための手段】クライアント−サーバア
ーキテクチャを使用して自動スピーチ認識サービスを運
用するシステムおよび方法を使用して、主ＡＳＲエンジ
ンの場所から離れたクライアントの場所でＡＳＲサービ
スをアクセス可能にする。本発明によると、インターネ
ットのようなパケットネットワークを介するクライアン
ト−サーバ通信を使用して、ＡＳＲサーバはクライアン
トから文法を受け、クライアントからスピーチを表す情
報を受信し、スピーチ認識を実行し、このＡＳＲサーバ
が、認識されたスピーチに基づく情報をクライアントに
返す。ＡＳＲサーバは、ネットワーク内の単一のコンピ
ュータ装置に存在してもよいし、複数の装置に存在して
もよい。したがって、ＡＳＲプロセスが動作するネット
ワーク内の物理的な位置は、本発明にとって重要ではな
い。

【０００８】本発明の一実施形態によれば、本発明は、
パケットネットワークを介してクライアントにより遠隔
アクセス可能な自動スピーチ認識サービスを行う方法に
関する。上記の方法は、複数の文法の１つに関連づけら
れた文法識別子をパケットネットワークを介してクライ
アントから受信するステップと、文法識別子にもとづ
き、複数の文法から文法を選択するステップと、スピー
チを表す情報をパケットネットワークを介してクライア
ントから受信するステップと、選択された文法にしたが
って自動スピーチ認識アルゴリズムを適用することによ
り、受信したスピーチを認識するステップと、認識した
スピーチにもとづく情報をパケットネットワークを介し
てクライアントに送信するステップと、を含む。

【０００９】本発明は、人間であるユーザと、ＡＳＲエ
ンジンを有するコンピュータ装置との対話を、パケット
ネットワークを介して可能にする。これに関し、ＡＳＲ
サーバは、文字またはスピーチの形式でパケットネット
ワークを介して応答を生成し、人間であるユーザとコン
ピュータ装置との対話を可能にし、かつ継続させる。

【００１０】本発明の別の実施形態には、所望の文法に
対するアクセスを得るための多様な方法、及びスピーチ
情報のＡＳＲサーバへの転送に先立つＡＳＲクライアン
トでの処理ステップとしての、情報の圧縮または特徴抽
出の使用を含む。

【００１１】

【発明の実施の形態】本発明は、遠隔利用可能なＡＳＲ
サービスを提供するためのクライアント−サーバベース
のシステムに関する。本発明によると、ユーザが、完全
なＡＳＲ技術を実行するのに要する広範な処理能力を有
するコンピュータハードウェアを取得する必要なく、パ
ケットネットワーク、例えばインターネット、インター
ネットプロトコルネットワークを介して、ＡＳＲサービ
スを、ユーザに対し、例えばユーザのデスクトップで提
供することができる。

【００１２】本発明にしたがって使用される基本的なク
ライアント−サーバアーキテクチャを図１に示す。ＡＳ
Ｒサーバ１００は、パケットネットワーク１２０（たと
えばインターネット）を介して他のコンピュータにリン
クすることができる、サーバノード１１０と指定される
システムの上で動作するＡＳＲソフトウェアエンジンで
ある。サーバノード１１０は、通常、複雑なＡＳＲベー
スのアプリケーション、たとえばＡＴ＆Ｔ社のワトソン
（WATSON）システムを動作させるのに十分な処理能力を
有するコンピュータであってもよい。パケットネットワ
ーク１２０は、例として、インターネットでもよいし、
イントラネットでもよい。また、パケットネットワーク
１２０は、パケットベースの技術が利用されるネットワ
ークの一部を含んでもよい。

【００１３】ＡＳＲクライアント１３０は、クライアン
トＰＣ１４０上で動作する比較的小さなプログラム（Ａ
ＳＲ１００に比較して）である。クライアントＰＣ１４
０は、クライアントアプリケーション、たとえばウェブ
ブラウザを動作させるのに十分な処理能力を有するコン
ピュータ、たとえばパーソナルコンピュータ（ＰＣ）で
ある。クライアントＰＣは、ハードウェア、たとえばマ
イクおよび可聴音、たとえばスピーチの入力および捕捉
のためのソフトウェアを含む。マイクをＰＣに接続し、
ＰＣで可聴音、たとえばスピーチを捕捉する方法は周知
である。ＰＣのスピーチ処理能力の例には、マイクロソ
フト社のスピーチアプリケーションプログラマインタフ
ェース（ＳＡＰＩ）およびＡＴ＆Ｔ社のアドバンストス
ピーチアプリケーションプログラマインタフェース（Ａ
ＳＡＰＩ）がある。マイクロソフト社のＳＡＰＩは、た
とえば、「スピーチＡＰＩデベロッパーズガイド、ウィ
ンドウズ（登録商標）９５版（Speech API Developer
s Guide, Windows（登録商標）−95 Edition）」と
題する出版物（バージョン１．０、マイクロソフト社、
１９９５）に詳細があり、ＡＴ＆Ｔ社のＡＳＡＰＩの詳
細は、「アドバンストスピーチＡＰＩデベロッパーズガ
イド（Advanced Speech API DevelopersGuide）」と
題する出版物（バージョン１．０、ＡＴ＆Ｔ社、１９９
６）に記載されている。これらの出版物をいずれも引用
例として本明細書に含める。本発明の代替態様は、スピ
ーチ入力をマイク以外のオーディオソースによって提供
することができるようなＡＳＲクライアント１３０と一
つ以上の音声チャネルとのインタフェースを利用するこ
とができる。

【００１４】クライアントＰＣ１４０はまた、パケット
ネットワークを介して他のコンピュータと通信する能力
を有する。パケットネットワークを介して他のコンピュ
ータとの通信リンクを確立する方法は周知であり、たと
えば、モデムを使用して電話回線からインターネットサ
ービスプロバイダにダイヤルインする方法がある。

【００１５】ＡＳＲサーバ１００とＡＳＲクライアント
１３０とは、たとえば伝送制御プロトコル／インターネ
ットプロトコル（ＴＣＰ／ＩＰ）ソケットのような標準
通信プロトコルを使用するパケットネットワークを介し
て情報を通信する（データ伝送を含む）のに適した公知
の方法を使用することにより、ＡＳＲサーバ１００がサ
ーバノード１１０を介し、ＡＳＲクライアントがクライ
アントＰＣ１４０を介して、パケットネットワーク１２
０上で互いに通信することができる。ＴＣＰ／ＩＰソケ
ットとは、情報を中に通してパケットネットワークを介
してある地点から別の地点まで伝送することができるパ
イプのようなものである。

【００１６】ＡＳＲサーバ１００とＡＳＲクライアント
１３０との間のＴＣＰ／ＩＰソケットの確立が、本発明
にしたがって遠隔ＡＳＲサービスを可能にするのに必要
な、ＡＳＲサーバ１００とＡＳＲクライアント１３０と
の間の、パケットネットワーク１２０を介するデータの
伝送を可能にする。ＡＳＲクライアント１３０はまた、
クライアントＰＣ１４０のオーディオ／スピーチ入出力
機能およびテキスト／グラフィックス表示機能とインタ
フェースする。オーディオおよびスピーチの入出力を扱
う方法およびインタフェースは周知であり、テキストお
よびグラフィックスの表示を扱う方法およびインタフェ
ースもまた周知である。

【００１７】ＡＳＲクライアント１３０は、クライアン
トＰＣ１４０の中で動作するよう、いくつかの方法でセ
ットアップすることができる。たとえば、ＡＳＲクライ
アント１３０は、永久的なデータ記憶媒体、たとえば磁
気ディスクまたはＣＤ−ＲＯＭからクライアントＰＣ１
４０にロードすることもできる。あるいはまた、ＡＳＲ
クライアント１３０は、パケットネットワーク、たとえ
ばインターネット上で見つけることができる情報または
データのソースからダウンロードしてもよい。ＡＳＲク
ライアント１３０のダウンロードは、たとえば、一度だ
け実施してクライアントＰＣ１４０の中に永久的に常駐
させることもできる。あるいはまた、ＡＳＲクライアン
ト１３０は、一回または限られた回数の使用のためにダ
ウンロードすることもできる。ＡＳＲクライアント１３
０は、たとえば、クライアントＰＣ１４０上で動作する
別のプログラム、たとえばウェブブラウザのための小さ
なプラグインソフトウェアモジュールとして実現しても
よい。これを達成する一つの方法は、ＡＳＲクライアン
ト１３０を、マイクロソフト社のアクティブＸ（Active
-X）規格に準拠するアクティブＸソフトウェアコンポー
ネントにする方法である。このようにして、ＡＳＲクラ
イアント１３０を、たとえば、以下のようなウェブブラ
ウジングセッションとともにクライアントＰＣ１４０に
ロードすることができる。クライアントＰＣ１４０を使
用してワールドワイドウェブをブラウジングするユーザ
が、ＡＳＲ機能を有するウェブサイトに入る。ウェブサ
イトが、署名されたアクティブＸ制御にしたがってＡＳ
ＲクライアントモジュールをクライアントＰＣ１４０に
ダウンロードするためのユーザ許可を問う。ユーザが認
可されると、ＡＳＲクライアント１３０がクライアント
ＰＣ１４０にダウンロードされる。

【００１８】同様に、ＡＳＲサーバ１００を、サーバノ
ード１１０の中で動作するよう、いくつかの方法でセッ
トアップすることができる。たとえば、ＡＳＲサーバ１
００は、永久的なデータ記憶媒体、たとえば磁気ディス
クまたはＣＤ−ＲＯＭからサーバノード１００にロード
することもできるし、あるいはまた、パケットネットワ
ーク上で見つけることができる情報またはデータのソー
スからダウンロードすることもできる。

【００１９】次に、図２〜７を参照しながら、本発明に
したがって遠隔ＡＳＲサービスを提供する詳細をさらに
説明する。これらの各図に関する以下の説明に際し、ク
ライアント−サーバの関係は図１に示すとおりであると
仮定する。セットアップ段階を使用して、ＡＳＲアプリ
ケーションの一部として自動スピーチ認識タスク及びス
ピーチ応答タスクを実行するためにＡＳＲサーバ１００
およびＡＳＲクライアント１３０を準備する。便宜上、
図１に示す項目であって他の図にも見られるものは、図
１の参照番号と同じ参照番号によって識別する。

【００２０】ここで図２を参照して、遠隔ＡＳＲサービ
スを提供するプロセスのセットアップ段階を説明する。
まずステップ２０１で、ＡＳＲクライアント１３０が、
クライアント文法をロードするよう、アプリケーション
から要求を受ける。クライアント文法は、一例として、
特定のＡＳＲアプリケーションの文脈で発話されると予
想される言語を表す情報（たとえば語句）を含むデータ
ファイルである。データファイルは、公知のフォーマッ
ト、たとえばマイクロソフト社ＳＡＰＩの一部である標
準文法フォーマット（ＳＧＦ）であってもよい。

【００２１】例を挙げるため、ピザの注文を受けるため
のＡＳＲアプリケーションを引用して本発明を説明す
る。ＡＳＲサービスアプリケーション、たとえばピザ注
文のアプリケーションは通常、ＡＳＲアプリケーション
のタスクを達成するために使用されるリソースとして、
ＡＳＲクライアント１３０と対話し、それを使用するプ
ログラムを含むであろう。このようなＡＳＲアプリケー
ションは、全部または一部が、クライアントＰＣ１４０
の中に常駐し、その中で動作することができる。

【００２２】ピザ注文の例を考えると、クライアント文
法ＰＩＺＺＡは、ピザを注文する際に使用する可能性の
ある語、たとえば「ピザ」、「ペパロニ」などを表す情
報を含む。実際には、サブグラマを使用して適切な文法
を構成してもよい。ピザ注文の例の場合、ＰＩＺＺＡ文
法のサブグラマは、ＳＩＺＥおよびＴＯＰＰＩＮＧを含
んでもよい。サブグラマＳＩＺＥは、希望のピザのサイ
ズを説明するのに使用される語、たとえば「小」、
「中」および「大」からなることができる。サブグラマ
ＴＯＰＰＩＮＧは、ピザについて注文する可能性のある
種々のトッピング（具）、たとえば「ソーセージ」、
「ペパロニ」、「マッシュルーム」などからなることが
できる。

【００２３】ＡＳＲクライアント１３０は、アプリケー
ションから所望の文法を与えられることもできるし、あ
るいはまた、アプリケーションによって提供される情報
に基づき所定の文法群から文法を選択することもでき
る。いずれの場合も、この文法群がＡＳＲサーバ１００
から離れて位置する際には、ＡＳＲクライアント１３０
は、次にステップ２０２で、所望の文法ファイルをＴＣ
Ｐ／ＩＰソケットを介してＡＳＲサーバ１００に送る。
クライアントＰＣ１４０とサーバノード１１０との間の
新たな通信セッションの確立の一部として新たなＴＣＰ
／ＩＰソケットをセットアップしなければならない可能
性がある。あるいは、クライアントＰＣ１４０と、終端
していないサーバノード１１０との間に確立された通信
セッションの結果としてＴＣＰ／ＩＰソケットがすでに
存在する可能性もある。ピザ注文の例では、ＡＳＲクラ
イアント１３０が、ＰＩＺＺＡ文法を含むファイルをＴ
ＣＰ／ＩＰソケットを介してＡＳＲサーバ１００に伝送
することになる。

【００２４】ＡＳＲサーバ１００は、ステップ２０３
で、ＡＳＲクライアント１３０から送られ、ＡＲＳサー
バ１００において局所的に受信した、あるいは他の遠隔
位置から送られたクライアント文法を受信する。ステッ
プ２０４で、ＡＳＲサーバ１００は、伝送されたクライ
アント文法をロードする。本明細書に使用する、クライ
アント文法の「ロード」とは、たとえば文法をサーバノ
ード１１０のＲＡＭに記憶することにより、その文法を
ＡＳＲサーバ１００による使用のためにアクセス可能に
することをいう。ステップ２０５で、ＡＳＲサーバ１０
０は文法「ハンドル」をＡＳＲクライアント１３０に返
す。文法「ハンドル」とは、通信セッションの残り期間
またはアプリケーション実行の際にＡＳＲクライアント
１３０が文法を容易に参照することを可能にするマー
カ、たとえば、ロードされた文法を含むメモリを指し示
すポインタである。ＡＳＲクライアント１３０は、ステ
ップ２０６で、ＡＳＲサーバ１００から文法ハンドルを
受信し、ステップ２０７で、そのハンドルをアプリケー
ションに返す。ピザ注文の例では、ＡＳＲサーバ１００
は、伝送されたＰＩＺＺＡ文法ファイルを受信してロー
ドし、ロードされたＰＩＺＺＡ文法を指し示すハンドル
をＡＳＲクライアント１３０に返送する。ＡＳＲクライ
アント１３０は次に、ＡＳＲサーバ１００からＰＩＺＺ
Ａハンドルを受信し、そのＰＩＺＺＡハンドルをピザ注
文アプリケーションに返す。この方法で、アプリケーシ
ョンは、ピザ注文アプリケーションの一部としてＡＳＲ
タスクを実行または開始するとき、ＰＩＺＺＡハンドル
を簡単に参照することができる。

【００２５】次に、図３を参照しながら代替のセットア
ップ手法を説明する。本明細書の記載の残り部分につい
て、ＡＳＲサーバ１００とＡＳＲクライアント１３０と
の間の情報またはデータの伝送または通信は、確立され
たＴＣＰ／ＩＰソケットを介して起こるものと仮定す
る。ステップ３０１で、ＡＳＲクライアント１３０が、
クライアント文法をロードするよう、アプリケーション
から要求を受ける。しかしながら、ＡＳＲクライアント
１３０は、ステップ３０２で、クライアント文法をデー
タファイルとしてＡＳＲサーバ１００に送るのではな
く、「缶入り」文法を表す識別子をＡＳＲサーバ１００
に送る。「缶入り文法」とは、たとえば、ＡＳＲサーバ
１００がすでに記憶しているであろう共通の文法、たと
えばＴＩＭＥ−ＯＦ−ＤＡＹまたはＤＡＴＥである。す
なわち、ＡＳＲクライアント１３０は、パケットネット
ワークを介し、データ、例えばＡＳＲサーバ１００に記
憶された複数の文法から特定の文法を選択するようＡＳ
Ｒサーバ１００に指示する文法識別子などを送信しても
よい。あるいは、ＡＳＲクライアント１３０は、ＡＳＲ
サーバ１００に対し、ＩＰアドレス、たとえば遠隔サー
バへのＵＲＬ互換性アドレスを送り、このアドレスにお
いてＡＳＲサーバ１００が所望の文法ファイルを見つけ
ることもできる。

【００２６】この例における遠隔ロケーション（すなわ
ち、ＡＳＲサーバ１００から離れて位置するサーバ）
は、ＡＳＲサーバ１００が利用できる複数の文法ファイ
ルを記憶している。ＡＳＲサーバ１００は、ステップ３
０３で、文法識別子またはＵＲＬ文法アドレスをＡＳＲ
クライアント１３０から受け、ステップ３０４で、要求
されたクライアント文法を見つけ、ロードし、ステップ
３０５で、文法ハンドルをＡＳＲクライアント１３０に
返す。図２に関して上述したステップと同様に、ＡＳＲ
クライアント１３０は、ステップ３０６で、ＡＳＲサー
バ１００から文法ハンドルを受け、ステップ３０７で、
そのハンドルをアプリケーションに返す。ピザ注文の例
の場合、ＡＳＲクライアント１３０が、ＰＩＺＺＡ文法
の文法識別子（「缶入り」文法の場合）またはＰＩＺＺ
Ａ文法を含むファイルの場所のＵＲＬアドレスをＡＳＲ
サーバ１００に送るということを除き、図２に関連して
上述したステップは同である。ＡＳＲサーバ１００が逆
に、その文法識別子またはＵＲＬアドレス（ＡＳＲクラ
イアントによって送られたもの）に基づいてＰＩＺＺＡ
文法のファイルを検索したのち、要求されたＰＩＺＺＡ
文法をロードする。

【００２７】文法をロードし、文法ハンドルをＡＳＲク
ライアント１３０に返したのち、ＡＳＲサービスアプリ
ケーションは、駆動すべき文法規則を選択しなければな
らない。図４は、本発明による文法規則選択のプロセス
を示す。ＡＳＲクライアント１３０が、ステップ４０１
で、文法規則を駆動するよう、アプリケーションから要
求を受ける。ステップ４０２で、ＡＳＲクライアント１
３０は規則駆動要求をＡＳＲサーバ１００に送る。図４
に示すように、ＡＳＲクライアント１３０はステップ４
０２で、前に返された文法ハンドルをＡＳＲサーバ１０
０に送ってもよい（これにより、ＡＳＲサーバが、文法
ハンドルによって識別される特定の文法に適切な文法規
則を駆動することを可能にする）。ＡＳＲサーバ１００
は、ステップ４０３で、規則駆動要求および文法ハンド
ル（送られたならば）を受ける。ステップ４０４で、Ａ
ＳＲサーバ１００は、要求された規則を駆動し、ステッ
プ４０５で、要求された規則が駆動されたという通知を
ＡＳＲクライアント１３０に返す。ＡＳＲクライアント
１３０は、ステップ４０６で、規則駆動の通知を受け、
ステップ４０７で、規則が駆動されたことをアプリケー
ションに通知する。ひとたびアプリケーションが規則駆
動の通知を受けたならば、アプリケーションはスピーチ
の認識を開始することができる。

【００２８】図４に示すプロセスを説明するため、再
び、ピザ注文の例を考えてみる。ピザの注文を認識する
のに使用することができる規則は、注文に望まれる句
を、「ピザ」という語とともにサブグラマＳＩＺＥおよ
びＴＯＰＰＩＮＧＳを含むようにセットすることがで
き、以下のように指定されるかもしれない｛ＯＲＤＥＲ
＝ＳＩＺＥ「ｐｉｚｚａ（ピザ）」「ｗｉｔｈ（入
り）」ＴＯＰＰＩＮＧＳ｝。すなわち、英語では "S
IZE pizza with TOPPING"であり、日本語では「ｘｘ入
り○○ピザ」となる。ｘｘがトッピングで、○○がサイ
ズである。再び図４を参照すると、ＡＳＲクライアント
１３０は、ピザ注文規則を駆動する要求をアプリケーシ
ョンから受け、上述のＯＲＤＥＲ規則をＰＩＺＺＡ文法
ハンドルとともにＡＳＲサーバ１００に送る。ＡＳＲサ
ーバ１００は、規則駆動要求をＰＩＺＺＡ文法ハンドル
とともに受け、ＯＲＤＥＲ規則を駆動して、認識系が、
ＳＩＺＥサブグラマからの語、語「ピザ」、語「入り」
およびサブグラマＴＯＰＰＩＮＧＳからの語のみの認識
に制限されるようにする。ＯＲＤＥＲ規則を駆動したの
ち、ＡＳＲサーバ１００は、規則駆動の通知をＡＳＲク
ライアント１３０に送り、ＡＳＲクライアントが逆にそ
れをアプリケーションに通知する。

【００２９】ひとたび文法規則が駆動されると、規則に
したがって文法の語を認識する目的のスピーチ処理が起
こる。図５を参照すると、ステップ５０１で、ＡＳＲク
ライアント１３０が、スピーチ認識タスクを開始するよ
う、アプリケーションから要求を受ける。ステップ５０
２で、ＡＳＲクライアント１３０は、クライアントＰＣ
１４０のオーディオ入力からストリーム式オーディオを
要求する。「ストリーム式オーディオ」とは、より多く
のオーディオが入ってくるのと同時に、オーディオがオ
ンザフライ（間髪を入れず）式に処理されることをい
う。システムは、オーディオ入力のすべて（すなわち、
スピーチ全体）が入ってきてはいないうちから、デジタ
ル処理のためにオーディオを送り出し始める。ストリー
ム式オーディオはまた、さらなるオーディオが入力され
るのと同時に、オーディオ信号の一部が部分的に伝送さ
れることをいう。例として、ストリーム式オーディオの
要求は、クライアントＰＣ１４０上で動作するオペレー
ティングシステムに対し、マイク入力からのストリーム
式オーディオがクライアントＰＣ１４０の音声プロセッ
サによってデジタル化されるような適切なソフトウェア
呼び出しを実施することによって達成することができ
る。そして、マイク入力からデジタル化されたストリー
ム式オーディオはＡＳＲクライアント１３０に渡され
る。そして、ＡＳＲクライアント１３０が、ステップ５
０３で、ストリーム式デジタル化オーディオをＡＳＲサ
ーバ１００に伝送し始める。マイクからのオーディオ入
力と同様に、デジタル化オーディオもまた、スピーチ入
力が続いているうちから、オンザフライ式にＡＳＲサー
バ１００に送られる。

【００３０】ステップ５０４で、ＡＳＲサーバ１００
は、ストリーム式デジタル化オーディオをＡＳＲクライ
アント１３０から受けるとき、そのオーディオに対して
スピーチ認識を実行する。スピーチ認識は、公知の認識
アルゴリズム、たとえばＡＴ＆Ｔ社のワトソン（WATSO
N）スピーチ認識エンジンによって用いられるアルゴリ
ズムを使用して実行され、駆動された規則によって定義
される選択された文法の制約の範囲内で実行される。ス
テップ５０５で、ＡＳＲサーバ１００は、入力スピーチ
を認識するのと同時に、ストリーム式テキスト（すなわ
ち、部分的に認識したスピーチ）を返す。したがって、
ＡＳＲサーバ１００は、その最初の結果に達すると、Ａ
ＳＲクライアント１３０によって送られてくるさらなる
ストリーム式オーディオを処理し続けているとしても、
その結果をＡＳＲクライアント１３０に返す。認識した
テキストをオンザフライ式に返すこのプロセスが、ＡＳ
Ｒクライアント１３０（またはＡＳＲクライアント１３
０とインタフェースするアプリケーション）が発話者に
フィードバックを提供することを可能にする。ＡＳＲサ
ーバ１００がさらなるストリーム式入力オーディオを処
理し続けるとき、ＡＳＲサーバは、スピーチ認識タスク
の一部として、返されるテキストが、すでにＡＳＲクラ
イアント１３０に返されたテキストの一部を実際に更新
（または修正）することができるような方法で、先のス
ピーチ認識の結果を修正することができる。ひとたびス
トリーム式オーディオのすべてをＡＳＲクライアント１
３０から受けたならば、ＡＳＲサーバは、そのスピーチ
認識処理を完了し、ステップ５０６で、認識したテキス
トの最終版（修正を含むもの）を返す。

【００３１】ステップ５０７で、ＡＳＲクライアント１
３０は、認識されたテキストをＡＳＲサーバ１００から
受け、ステップ５０８で、そのテキストをアプリケーシ
ョンに返す。ここでもまた、これは、認識されたテキス
トが入ってくるのと同時にオンザフライ式に実施するこ
とができ、ＡＳＲクライアント１３０は、ＡＳＲサーバ
１００から受けた認識されたテキストに対する修正があ
ればそれをアプリケーションに渡す。

【００３２】ピザ注文の例を参照すると、ひとたびＯＲ
ＤＥＲ規則が駆動され、アプリケーションが通知を受け
ると、ＡＳＲクライアント１３０は、スピーチ認識を開
始するよう要求を受け、マイク入力からストリーム式オ
ーディオを開始する。ＡＳＲサーバ１００は、ＡＳＲク
ライアント１３０に対し、ユーザとの対話を進めるため
の応答を生成する。ユーザは、ピザの注文を発話するよ
うに促されることができ、スピーチが始まると、ＡＳＲ
クライアント１３０が、デジタル化されたストリーム式
オーディオをＡＳＲサーバ１００に送る。したがって、
発話者が、たとえば「大きいピザ、ソーセージ、ペパロ
ニ入り」を注文したいと述べると、ＡＳＲクライアント
１３０は、その注文の最初の語に対するデジタル化スト
リーム式データを、たとえ第二の語が話されている最中
でも、ＡＳＲサーバ１００に送っている。注文が発され
ているとき、ＡＳＲサーバ１００は、注文の残りが話さ
れているときでも、第一の語をテキスト「大きい」とし
て返す。最後に発話者がスピーチを止めると、その注文
に対して認識された最終的なテキスト「大きいピザ、ソ
ーセージ、ペパロニ入り」をＡＳＲクライアント１３
０、ひいてはアプリケーションに返すことができる。

【００３３】本発明にしたがってスピーチ認識プロセス
を実施するための代替態様を図６に示す。図５に示すス
ピーチ認識プロセスと同様に、ステップ６０１で、ＡＳ
Ｒクライアント１３０が、スピーチ認識タスクを開始す
るよう、アプリケーションから要求を受け、ステップ６
０２で、クライアントＰＣ１４０のオーディオ入力から
ストリーム式オーディオを要求する。そして、マイク入
力からデジタル化されたストリーム式オーディオがＡＳ
Ｒクライアント１３０に渡される。ステップ６０３で、
ＡＳＲクライアント１３０がデジタル化オーディオをオ
ンザフライ式に圧縮したのち、スピーチ入力が続くうち
から、圧縮したストリーム式のデジタル化オーディオを
ＡＳＲサーバ１００に伝送し始める。

【００３４】ステップ６０４で、ＡＳＲサーバ１００が
ＡＳＲクライアント１３０から受けた圧縮オーディオを
圧縮解除したのち、ストリーム式デジタル化オーディオ
に対してスピーチ認識を実行する。図５を参照して上述
したように、スピーチ認識は、駆動された規則によって
定義される選択された文法の制限の範囲で実行される。
ステップ６０５で、ＡＳＲサーバ１００が、入力された
スピーチを認識するのと同時にストリーム式テキスト
（すなわち、部分的に認識されたスピーチ）を返す。し
たがって、ＡＳＲサーバ１００は、ＡＳＲクライアント
１３０から送られてくるさらなる圧縮されたストリーム
式オーディオを処理し続けている間にも、最初の結果を
ＡＳＲクライアント１３０に返し、スピーチ認識タスク
の一部としてＡＳＲクライアント１３０にすでに戻され
たテキストの部分を更新または修正することができる。
ひとたびストリーム式オーディオのすべてをＡＳＲクラ
イアント１３０から受けたならば、ＡＳＲサーバは、そ
のスピーチ認識処理を完了し、ステップ６０６で、認識
したテキストの最終版（修正を含む）を返す。ＡＳＲク
ライアント１３０は、ステップ６０７で、ＡＳＲサーバ
１００から入ってくる認識されたテキストを受け、ステ
ップ６０８で、そのテキストをアプリケーションに返
す。

【００３５】本発明にしたがってスピーチ認識プロセス
を実施するためのもう一つの代替態様を図７に示す。図
５および６に示すスピーチ認識プロセスと同様に、ステ
ップ７０１で、ＡＳＲクライアント１３０が、スピーチ
認識タスクを開始するよう、アプリケーションから要求
を受け、ステップ７０２で、クライアントＰＣ１４０の
オーディオ入力からストリーム式オーディオを要求す
る。そして、マイク入力からデジタル化されたストリー
ム式オーディオがＡＳＲクライアント１３０に渡され
る。ステップ７０３で、ＡＳＲクライアント１３０がデ
ジタル化オーディオをオンザフライ式に処理してスピー
チ認識処理に有用な特徴を抽出したのち、スピーチ入力
が続くうちから、抽出した特徴をＡＳＲサーバ１００に
伝送し始める。スピーチからの適切な特徴の抽出は、通
常はスピーチ認識に用いられるアルゴリズムの一部であ
る文法非依存的処理を伴い、当業者には公知である方
法、たとえば線形予測符号化（ＬＰＣ）またはメル（Me
l）フィルタバンク処理に基づく方法を使用して実施す
ることができる。特徴抽出は、不要な情報、たとえば音
量を除去しながらも、音声信号の特徴から得られる情報
を提供する。

【００３６】抽出された特徴をＡＳＲクライアント１３
０から受けると、ＡＳＲサーバ１００は、ステップ７０
４で、オンザフライ式に（すなわち、ストリーム式オー
ディオの場合と同様に）到着してくる特徴に対してスピ
ーチ認識を実行する。スピーチ認識は、駆動された規則
によって定義される選択された文法の制限の範囲で実行
される。図５および６を参照しながら上記に論じた実施
態様の場合と同様に、ステップ７０５で、ＡＳＲサーバ
１００は、入力された特徴を認識するのと同時にストリ
ーム式テキスト（すなわち、部分的に認識したスピー
チ）をＡＳＲクライアント１３０に返す。ＡＳＲサーバ
１００は、ＡＳＲクライアント１３０から送られてくる
さらなる抽出された特徴を処理し続け、ＡＳＲクライア
ント１３０にすでに返したテキストの部分を更新または
修正することができる。抽出された特徴のすべてをＡＳ
Ｒクライアント１３０から受けると、ＡＳＲサーバは、
そのスピーチ認識処理を完了し、ステップ７０６で、認
識したテキストの最終版（修正を含む）を返す。ＡＳＲ
クライアント１３０は、ステップ７０７で、認識された
テキストがＡＳＲサーバ１００から入力されるのと同時
にそれを受け、ステップ７０８で、そのテキストをアプ
リケーションに返す。

【００３７】図６および７に関して上述した代替態様は
いずれもクライアント側でのさらなる処理を考慮してい
る。図６の実施態様の場合、これは、ストリーム式オー
ディオの圧縮を伴う（サーバ側ではオーディオの圧縮解
除を伴う）。図７の実施態様の場合、これは、特徴抽出
の形態のスピーチ認識処理の一部を含むものであった。
このようなさらなる処理をクライアント側で使用する
と、ＡＳＲクライアント１３０からＡＳＲサーバ１００
に伝送されるデータの量を有意に減らすことができる。
したがって、伝送されるスピーチ信号を表すのに必要な
データが少なくなる。特徴抽出をクライアント側で達成
する場合、そのような利点が潜在的に急増する。理由
は、抽出される特徴が、デジタル化音声信号に比べ、よ
り少ないデータしか要さず、無音期間中には特徴を送る
必要がないからである。データの減少は、二つの望まし
い利点、すなわち（１）特定のレベルの性能を達成する
のに必要なバンド幅を減少することができる利点、およ
び（２）スピーチデータをＴＣＰ／ＩＰソケットを介し
てＡＳＲクライアントからＡＳＲサーバに送る際の伝送
時間を減らす利点を生む。

【００３８】通常は、スピーチ情報がＡＳＲクライアン
ト１３０からＡＳＲサーバ１００に伝送され始める前に
文法規則が駆動されるが、規則の駆動は、認識されるス
ピーチ情報の一部または全部がＡＳＲクライアント１３
０からＡＳＲサーバ１００に送られた後で起こってもよ
い。そのような状況では、ＡＳＲサーバ１００は、文法
規則が駆動されるまでスピーチ認識作業を開始しない。
ＡＳＲサーバ１００は、文法規則の駆動の前にＡＳＲク
ライアント１３０によって送られたスピーチを、認識系
による処理のために一時的に記憶してもよいし、あるい
は、このようなスピーチを無視することもできる。

【００３９】さらには、本発明の技術を使用して、多数
のスピーチ認識タスクを実行することができる。たとえ
ば、ＡＳＲアプリケーションは、ＡＳＲクライアント１
３０に対し、電話番号の缶入り文法（すなわち「ＰＨＯ
ＮＥＮＵＭＢＥＲ）をロードするようＡＳＲサーバ１
００に命令することを要求したのち、発話された番号を
カバーする規則の駆動を要求することもできる。電話番
号が発話され、本発明にしたがって認識されたのち（た
とえば、電話番号を発話せよという入力促進に応答し
て、ＡＳＲクライアント１３０がデジタル化発話番号を
ＡＳＲサーバ１００に送って認識を求める）、ＡＳＲア
プリケーションは、図２〜５を参照して上述した例にし
たがって、ＡＳＲクライアント１３０に対し、ピザ注文
スピーチの認識をセットアップし、開始する（たとえ
ば、ＰＩＺＺＡ文法をロードし、ＯＲＤＥＲ規則を駆動
し、スピーチ認識を開始する）よう、要求することがで
きる。

【００４０】例として上記に使用した簡単なピザ注文例
に加えて、本発明にしたがって、幅広い潜在的なＡＳＲ
サービスをパケットネットワークを介して提供すること
ができる。本発明によって可能になるＡＳＲアプリケー
ションの一例は、用紙の中の多数の空欄それぞれに求め
られる情報に対して発話される答に応じて用紙を完成さ
せるための用紙記入サービスである。本発明によると、
ＡＳＲクライアント１３０が、空欄それぞれに対して可
能な選択を表す文法をＡＳＲサーバ１００に送るような
用紙記入サービスを実現することができる。空欄ごと
に、ＡＳＲクライアント１３０が適切な文法規則の駆動
を要求し、空欄を満たすのに必要な情報を求める要求に
応じて発話された、対応する回答を送る。ＡＳＲサーバ
１００が、選択された文法および規則にしたがって、適
切なスピーチ認識アルゴリズムを適用し、用紙に挿入す
べきテキストを返す。

【００４１】他のＡＳＲサービスは、サーバとクライア
ントとの間の情報交換（たとえば対話）を伴うこともあ
る。たとえば、航空便予約を扱うためのＡＳＲサービス
アプリケーションは、本明細書に記載する本発明による
と、ＡＳＲサーバ１００とＡＳＲクライアント１３０と
の間の対話を利用して、ＡＳＲタスクを達成する。対話
は次のように進行するかもしれない。

【００４２】発話者（ＡＳＲクライアント１３０からＡ
ＳＲサーバ１００に対し）：「ロサンゼルス行きの便を
予約したい」ＡＳＲクライアントに対するＡＳＲサーバの応答（テキ
スト形態、あるいはまた、ＡＳＲサーバ１００によって
ＡＳＲクライアント１３０に返されるスピーチの形
態）：「搭乗地はどこですか」発話者（ＡＳＲクライアントからＡＳＲサーバに対
し）：「ワシントンＤＣ」ＡＳＲクライアントに対するＡＳＲサーバの応答：「何
曜日に出発ですか」発話者（ＡＳＲクライアントからＡＳＲサーバに対
し）：「火曜日」ＡＳＲクライアントに対するＡＳＲサーバの応答：「出
発時刻はいつですか」発話者（ＡＳＲクライアントからＡＳＲサーバに対
し）：「午後４時」ＡＳＲクライアントに対するＡＳＲサーバの応答：「火
曜午後４時のＸＹＺ航空４５６７便をワシントンＤＣか
らロサンゼルスまで予約することができます。この便に
座席を予約しますか」この場合、ＡＳＲサーバ１００から受ける情報は文字ど
おり認識されたスピーチからのテキストではなく、認識
されたスピーチ（アプリケーションに依存する）にもと
づく応答、例えば発話者の質問に対してＡＳＲサーバが
生成した応答である。対話の各区分は、上述したＡＳＲ
クライアント−サーバ方法にしたがって達成することが
できる。この例からわかるように、このようなＡＳＲサ
ービスアプリケーションは、ＡＳＲクライアントおよび
ＡＳＲサーバに対し、自然言語を扱う能力を要求するだ
けでなく、絶えず変化する大きなデータベースにアクセ
スする能力をも要求する。これを達成するためには、Ａ
ＳＲサービスアプリケーションを、実際には、クライア
ントＰＣ１４０の中ではなく、サーバノード１１０の中
にインストールし、そこで動作させることが望ましいか
もしれない。その場合、クライアントＰＣ１４０は、サ
ーバノード１１０で動作するアプリケーションプログラ
ムの制御の下でＡＳＲクライアント１３０を開始し、Ａ
ＳＲクライアント１３０を介したスピーチ入力をＡＳＲ
サーバ１００に対し、かつＡＳＲサーバ１００から誘導
する比較的小さな「代理」プログラムを動作させるだけ
でよい。このような「代理」プログラムの例は、たとえ
ば、クライアントＰＣ１４０の画面上に「語り手」を配
して、クライアントＰＣ１４０でＡＳＲサービスアプリ
ケーションを使用する個人との対話を支援し、ＡＳＲク
ライアント１３０およびＡＳＲサーバ１００を介して、
その人のスピーチ情報を認識のためにＡＳＲサーバ１０
０に送り、スピーチを応答としてその個人に返信するも
のであってもよい。

【００４３】要約すると、本発明は、クライアント−サ
ーバアーキテクチャを使用して、ＡＳＲエンジンをホス
トするシステムから離れた場所で、パケットネットワー
ク、たとえばインターネットを介してユーザに利用可能
にすることができるＡＳＲサービスを提供する方法を提
供する。

【００４４】ここに記載したものは、本発明の原理を適
用した例を示すに過ぎない。当業者であれば、本発明の
真髄および範囲を逸することなく、他の構造および方法
を実施することができる。したがって、本発明の範囲
は、ここに記載した任意の特定例によってではなく、請
求の範囲によって定めるべきである。

【図面の簡単な説明】

【図１】本発明にしたがって遠隔ＡＳＲサービスを提
供するシステムのクライアント−サーバ関係を示す図で
ある。

【図２】本発明にしたがって遠隔ＡＳＲサービスを可
能にするためのセットアッププロセスを示す図である。

【図３】本発明にしたがって遠隔ＡＳＲサービスを可
能にするための代替セットアッププロセスを示す図であ
る。

【図４】本発明の規則選択プロセスを示す図である。

【図５】本発明にしたがって遠隔自動スピーチ認識及
びスピーチ応答を可能にするためのプロセスを示す図で
ある。

【図６】本発明にしたがって遠隔自動スピーチ認識及
びスピーチ応答を可能にするための代替プロセスを示す
図である。

【図７】本発明にしたがって遠隔自動スピーチ認識及
びスピーチ応答を可能にするためのもう一つの代替プロ
セスを示す図である。

【符号の説明】

１００ＡＳＲサーバ、１１０サーバノード、１２０
パケットネットワーク、１３０ＡＳＲクライアン
ト、１４０クライアントＰＣ。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５７１Ｕ (72)発明者デビットビーロイアメリカ合衆国カリフォルニア州サンタバーバラカミノデルリオ 1176 (72)発明者ロバートディーシャープアメリカ合衆国ニュージャージー州モリスタウンワイルドフラワーレーン 31 Ｆターム(参考） 5D015 AA04 KK02 KK04

Claims

【特許請求の範囲】

【請求項１】パケットネットワークを介してクライア
ントにより遠隔アクセス可能な自動スピーチ認識サービ
ス提供方法であって、（ａ）複数の文法の１つに関連づけた文法識別子をクラ
イアントからパケットネットワークを介して受信するス
テップと、（ｂ）前記文法識別子にもとづき、複数の文法から文法
を選択するステップと、（ｃ）スピーチを表す情報をクライアントからパケット
ネットワークを介して受信するステップと、（ｄ）前記選択した文法にしたがって自動スピーチ認識
アルゴリズムを適用することにより、受信したスピーチ
情報を認識するステップと、（ｅ）認識したスピーチに基づく応答をパケットネット
ワークを介してクライアントに送るステップと、を含む
方法。
【請求項２】請求項１に記載の方法において、前記パ
ケットネットワークは、インタネットプロトコルネット
ワークである方法。
【請求項３】請求項１に記載の方法において、前記パ
ケットネットワークは無線ネットワークである方法。
【請求項４】請求項１に記載の方法において、前記文
法識別子は、ユニフォームリソースロケータ互換アドレ
スである方法。
【請求項５】請求項１に記載の方法において、前記複
数の文法は、自動スピーチ認識サービスに対して局所的
に記憶されている方法。
【請求項６】請求項４に記載の方法において、前記複
数の文法は、自動スピーチ認識サービスから離れて記憶
されている方法。
【請求項７】請求項１に記載の方法において、前記ス
テップ（ｃ）、（ｄ）及び（ｅ）を繰り返し、前記クラ
イアントと、自動スピーチ認識サービスを行うサーバと
のあいだで情報を交換する方法。
【請求項８】請求項１に記載の方法において、自動ス
ピーチ認識サービスを使用し、情報をある形式で提供す
る方法。
【請求項９】請求項８に記載の方法において、ある形
式での情報提供が、ユーザの製品購入に関連する方法。
【請求項１０】インターネットプロトコルネットワー
クを介してクライアントにより遠隔アクセス可能な自動
スピーチ認識サービスの提供方法であって、（ａ）スピーチ情報をクライアントから受信するステッ
プと、（ｂ）文法を使用し、自動スピーチ認識アルゴリズムを
適用することにより、受信したスピーチ情報を認識する
ステップと、（ｃ）認識したスピーチに基づく応答をインターネット
プロトコルネットワークを介してクライアントに送るス
テップと、を含む方法。
【請求項１１】請求項１０に記載の方法であって、ス
テップ（ｂ）に先立ち、さらに、文法識別子をクライア
ントから受信するステップと、前記文法識別子を使用
し、前記スピーチ情報の認識に使用する文法を、複数の
文法から選択するステップと、を含む方法。
【請求項１２】請求項１１に記載の方法において、前
記複数の文法は自動スピーチ認識サービスに対して局所
的に記憶されている方法。
【請求項１３】請求項１１に記載の方法において、前
記複数の文法は自動スピーチ認識サービスから離れて記
憶されている方法。
【請求項１４】請求項１３に記載の方法において、前
記文法識別子はユニフォームリソースロケータ互換アド
レスである方法。
【請求項１５】パケットネットワークを介してクライ
アントにより遠隔アクセス可能な自動スピーチ認識サー
ビスを提供する方法であって、自動スピーチ認識サービ
スはスピーチの認識に使用する文法をパケットネットワ
ークを介して受信し、前記方法は、（ａ）パケットネットワークを介してクライアントから
スピーチを表す情報を受信するステップと、（ｂ）前記文法にしたがって自動スピーチ認識アルゴリ
ズムを適用することにより、受信したスピーチ情報を認
識するステップと、（ｃ）認識したスピーチに基づく応答をパケットネット
ワークを介してクライアントに送るステップと、を含む
方法。
【請求項１６】請求項１５に記載の方法において、前
記パケットネットワークは、インターネットプロトコル
ネットワークである方法。
【請求項１７】請求項１６に記載の方法において、前
記インターネットプロトコルネットワークは無線ネット
ワークである方法。
【請求項１８】クライアントとサーバとの間の情報交
換方法であって、サーバは、パケットネットワークを介
してクライアントにより遠隔アクセス可能な自動スピー
チ認識及び文字スピーチ変換サービスを提供し、前記方
法は、サーバにて、（ａ）複数の文法の１つに関連づけた文法識別子をクラ
イアントから受信するステップと、（ｂ）前記文法識別子にもとづき、複数の文法から文法
を選択するステップと、（ｃ）ユーザがクライアントにスピーチを送ると、（ｉ）スピーチに関する情報をクライアントから受信す
るステップと、（ｉｉ）選択された文法を使用し、自動スピーチ認識ア
ルゴリズムを適用することにより前記スピーチに関する
情報を認識するステップと、（ｉｉｉ）認識したスピーチにもとづく応答をクライア
ントに送るステップと、を繰り返すステップと、を含む方法。
【請求項１９】パケットネットワークを介してクライ
アントにより遠隔アクセス可能な文字スピーチ変換サー
ビスの提供方法であって、（ａ）パケットネットワークを介してクライアントから
複数の文法の１つに関連する文法識別子を受信するステ
ップと、（ｂ）前記文法識別子にもとづき、複数の文法から文法
を選択するステップと、（ｃ）パケットネットワークを介してクライアントから
スピーチを表す情報を受信するステップと、（ｄ）選択された文法にしたがって自動スピーチ認識ア
ルゴリズムを適用することにより受信したスピーチ情報
を認識するステップと、（ｅ）認識したスピーチに応答してスピーチを生成する
ステップと、（ｆ）前記スピーチをパケットネットワークを介してク
ライアントに送信するステップと、を含む方法。
【請求項２０】請求項１９に記載の方法において、前
記パケットネットワークは、インタネットプロトコルネ
ットワークである方法。
【請求項２１】請求項２０に記載の方法において、前
記パケットネットワークは無線ネットワークである方
法。
【請求項２２】請求項１９に記載の方法において、前
記文法識別子は、ユニフォームリソースロケータ互換ア
ドレスである方法。
【請求項２３】請求項１９に記載の方法において、前
記複数の文法は、文字スピーチ変換サービスに対して局
所的に記憶されている方法。
【請求項２４】請求項２３に記載の方法において、前
記複数の文法は、文字スピーチ変換サービスから離れて
記憶されている方法。
【請求項２５】請求項１９に記載の方法において、ス
テップ（ｃ），（ｄ），（ｅ）及び（ｆ）を繰り返し、
前記クライアントと、文字スピーチ変換サービスを提供
するサーバとのあいだで情報を交換する方法。
【請求項２６】請求項１９に記載の方法において、文
字スピーチ変換サービスによりユーザが製品またはサー
ビスを購入できる方法。
【請求項２７】インターネットプロトコルネットワー
クを介してクライアントにより遠隔アクセス可能な文字
スピーチ変換サービスの提供方法であって、（ａ）スピーチ情報をクライアントから受信するステッ
プと、（ｂ）文法を使用し、自動スピーチ認識アルゴリズムを
適用することにより、受信したスピーチ情報を認識する
ステップと、（ｃ）認識したスピーチに基づき、クライアントに対し
て、文字スピーチ変換サービスを使用してスピーチをイ
ンターネットプロトコルネットワークを介して生成する
ステップと、を含む方法。
【請求項２８】請求項２７に記載の方法であって、ス
テップ（ｂ）の前に、さらに、クライアントから文法識別子を受信するステップと、前記文法識別子を使用し、前記スピーチ情報の認識に使
用する文法を、複数の文法から選択するステップと、を
含む方法。
【請求項２９】請求項２８に記載の方法において、前
記複数の文法は文字スピーチ変換サービスに対して局所
的に記憶されている方法。
【請求項３０】請求項２８に記載の方法において、前
記複数の文法は文字スピーチ変換サービスから離れて記
憶されている方法。
【請求項３１】請求項３０に記載の方法において、前
記文法識別子はユニフォームリソースロケータ互換アド
レスである方法。
【請求項３２】パケットネットワークを介してクライ
アントにより遠隔アクセス可能な文字スピーチ変換サー
ビスを提供する方法であって、文字スピーチ変換サービ
スはスピーチの認識に使用する文法をパケットネットワ
ークを介して受信し、前記方法は、（ａ）パケットネットワークを介してクライアントから
スピーチを表す情報を受信するステップと、（ｂ）前記文法にしたがって自動スピーチ認識アルゴリ
ズムを適用することにより、受信したスピーチ情報を認
識するステップと、（ｃ）認識したスピーチに基づくスピーチをパケットネ
ットワークを介してクライアントに送るステップと、を
含む方法。
【請求項３３】請求項３２に記載の方法において、前
記パケットネットワークは、インタネットプロトコルネ
ットワークである方法。
【請求項３４】請求項３２に記載の方法において、前
記インターネットプロトコルネットワークは無線ネット
ワークである方法。
【請求項３５】クライアントとサーバとの間の情報交
換方法であって、サーバは、パケットネットワークを介
してクライアントにより遠隔アクセス可能な自動スピー
チ認識及び文字スピーチ変換サービスを提供し、前記方
法は、（ａ）複数の文法の１つに関連する文法識別子をクライ
アントから受信するステップと、（ｂ）前記文法識別子にもとづき、複数の文法から文法
を選択するステップと、（ｃ）ユーザがクライアントにスピーチを送ると、（ｉ）スピーチに関する情報をクライアントから受信す
るステップと、（ｉｉ）選択された文法を使用し、自動スピーチ認識ア
ルゴリズムを適用することにより前記スピーチに関する
情報を認識するステップと、（ｉｉｉ）認識したスピーチ情報にもとづきスピーチを
生成するステップと、（ｉｖ）前記スピーチをクライアントに送るステップ
と、を繰り返すステップと、を含む方法。
【請求項３６】サーバ上でクライアントから離れて作
動する文字スピーチ変換サービスにインターネットプロ
トコルネットワークを介してアクセスする方法であっ
て、（ａ）ユーザからスピーチ情報を受信するステップと、（ｂ）前記スピーチ情報を、スピーチ認識のためにサー
バに送信するステップと、（ｃ）生成されたスピーチをインターネットプロトコル
ネットワークを介してサーバから受信し、ユーザと、文
字スピーチ変換サービスとの間の対話を可能にするステ
ップと、を含む方法。
【請求項３７】請求項３６に記載の方法であって、前
記方法はさらに、サーバによるスピーチ認識に先立ちク
ライアントが、サーバに文法識別子を送信するステップを含み、サーバ
は該文法識別子を使用し、複数の文法から文法を選択可
能である方法。
【請求項３８】請求項３７に記載の方法において、前
記複数の文法はサーバに対して局所的に記憶されている
方法。
【請求項３９】請求項３７に記載の方法において、前
記複数の文法はサーバから離れて記憶されている方法。
【請求項４０】請求項３９に記載の方法において、前
記文法識別子は、ユニフォームリソースロケータ互換ア
ドレスである方法。
【請求項４１】パケットネットワークを介してクライ
アントにより遠隔アクセス可能な文字スピーチ変換サー
ビスの提供方法であって、文字スピーチ変換サービスは
自動スピーチ認識に使用する文法をパケットネットワー
クを介して受信し、クライアントが、（ａ）ユーザスピーチ情報をパケットネットワークを介
して文字スピーチ変換サービスに送信し、文字スピーチ
変換サービスは前記ユーザスピーチ情報を認識し、認識
したスピーチにもとづきスピーチを生成するステップ
と、（ｂ）前記スピーチを、文字スピーチ変換サービスから
パケットネットワークを介して受信するステップと、を
含む方法。
【請求項４２】請求項４１に記載の方法において、パ
ケットネットワークがインターネットプロトコルネット
ワークである方法。
【請求項４３】請求項４２に記載の方法において、パ
ケットネットワークが無線ネットワークである方法。
【請求項４４】請求項４１に記載の方法において、前
記ステップ（ａ）及び（ｂ）を繰り返すことによりユー
ザと、文字スピーチ変換サービスとの対話を可能にする
方法。
【請求項４５】クライアントとサーバとのあいだの情
報交換方法であって、サーバはパケットネットワークを
介してクライアントにより遠隔アクセス可能な自動スピ
ーチ認識及び文字スピーチ変換サービスを提供し、前記
方法は、クライアントが、（ａ）複数の文法の１つに関連する文法識別子を文字ス
ピーチ変換サービスに送信し、該文法識別子にもとづ
き、文字スピーチ変換システムが複数の文法から文法を
選択するステップと、（ｂ）ユーザがクライアントにスピーチを送ると、（ｉ）スピーチに関する情報を文字スピーチ変換サービ
スに送信し、文字スピーチ変換サービスは前記スピーチ
に関する情報を認識するステップと、（ｉｉ）認識したスピーチに関する情報にもとづき生成
されたスピーチを、文字スピーチ変換システムから受信
するステップと、を繰り返すステップと、を含む方法。