JP2006146262A

JP2006146262A - 自動スピーチ認識サービス提供方法及びシステム並びに媒体

Info

Publication number: JP2006146262A
Application number: JP2006010432A
Authority: JP
Inventors: Pamela L Dragosh; エルドラゴッシュパメラ; Daid B Roe; ビーロイデビット; Robert D Sharp; ディーシャープロバート
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1997-04-14
Filing date: 2006-01-18
Publication date: 2006-06-08
Anticipated expiration: 2018-04-08
Also published as: MX9802754A; US20020091528A1; CA2228917A1; DE69829604T2; US6604077B2; DE69829604D1; JP2003050594A; JPH10333693A; JP4849894B2; MX2007013015A; US6366886B1; EP0872827A3; EP0872827B1; CA2228917C; EP0872827A2; MX2007013017A; US6078886A

Abstract

【課題】自動スピーチ認識（ＡＳＲ）エンジンをホストとするシステムから離れた場所にいるユーザがＡＳＲを利用できるようにする。
【解決手段】クライアント−サーバアーキテクチャを使用して、主ＡＳＲエンジンの場所から離れたクライアントの場所でＡＳＲサービスをアクセス可能にする。すなわち、パケットネットワーク１２０、たとえばインターネットまたは無線ネットワークを介してクライアントＰＣ１４０とサーバノード１１０が接続される。ＡＳＲサーバ１００がＡＳＲクライアント１３０から文法を受け、または複数の文法からの選択を行い、クライアントからのスピーチを表す情報を受け、スピーチ認識を実行し、認識したスピーチに基づくスピーチ応答を提供する。このようにして、パケットネットワークを介して、人間であるユーザとＡＳＲサーバとの対話が行われる。
【選択図】図１

Description

本発明は一般にスピーチ認識に関し、より詳細には、パケットネットワークを介して遠隔アクセス可能な自動スピーチ認識及び文字スピーチ変換（text-to-speech）サービスを提供する方法に関する。

自動スピーチ認識（ＡＳＲ）を達成するための技術は周知である。公知のＡＳＲ技術の中には、文法を利用するものがある。「文法」とは、所与の文脈の中で使用または発話されると予想される言語または句の表現である。そこで、ある意味で、ＡＳＲ文法は通常、スピーチ認識系を、潜在的に話される語の領域の部分集合である語彙に制限する。文法はサブグラマを含むこともある。そして、ＡＳＲ文法規則を使用して、所与の文脈で予想することができる一つ以上の文法またはサブグラマから「句」または語の組み合わせの集合を表すことができる。「文法」はまた、一般に、統計的な言語モデル（モデルが句を表す）、たとえば言語理解システムに使用されるモデルをいうこともある。

最近、何らかの形態の自動スピーチ認識（「ＡＳＲ」）方法を利用する製品およびサービスが商業的に導入された。たとえば、ＡＴ＆Ｔは、複雑なＡＳＲサービスの展開を可能にする、ワトソン（WATSON）と呼ばれる文法ベースのＡＳＲエンジンを開発した。このようなＡＳＲ技術を利用する複雑なＡＳＲサービスに望まれる属性には、高い認識精度、話者が異なるアクセントや方言を有する場合および／またはバッググラウンドノイズの存在における認識を可能にする強健性、多大な語彙を扱う能力ならびに自然な言語理解がある。複雑なＡＳＲサービスに必要なこれらの属性を達成するため、ＡＳＲ技術およびエンジンは通常、所望のスピーチ認識機能を達成するための有意な処理能力を有するコンピュータベースのシステムを必要とする。本明細書に使用する「処理能力」とは、プロセッサ速度、メモリ、ディスク空間ならびにアプリケーションデータベースへのアクセスをいう。このような処理の必要条件が、通常はパーソナルコンピュータ（ＰＣ）技術に基づく大部分のデスクトップシステムの能力を超越してしまうため、デスクトップで利用可能な複雑なＡＳＲサービスの展開を制限してきた。

パケットネットワークは、スピーチやオーディオを含む種々のタイプの記憶データを送るのに好適である汎用データネットワークである。既存のパケットネットワークの中で最大かつもっとも有名なインターネットは、約１４０か国の４００万台を超えるコンピュータを接続している。インターネットの全世界的かつ指数関数的な成長は、今日の一般的知識である。

「スピーチＡＰＩデベロッパーズガイド、ウィンドウズ（登録商標）９５版（Speech API Developers Guide, Windows（登録商標）−95 Edition）」「アドバンストスピーチＡＰＩデベロッパーズガイド（Advanced Speech API Developers Guide）」（バージョン１．０、ＡＴ＆Ｔ社、１９９６）

通常、インターネットのようなパケットネットワークには、コンピュータ、たとえばＰＣ上で動作するクライアントソフトウェアプログラムを介してアクセスするため、パケットネットワークは本来、クライアント／サーバ指向である。パケットネットワークを介して情報にアクセスする一つの方法は、クライアントがウェブサーバと対話することを可能にするウェブブラウザ（たとえばネットスケープコミュニケーションズ社（Netscape Communications, Inc.）から市販されているネットスケープナビゲータ（Netscape Navigator）およびマイクロソフト社（Microsoft Corp.）から市販されているインターネットエクスプローラ（Internet Explorer）の使用による方法である。ウェブサーバおよびその中で利用できる情報は通常、ＵＲＬ（Uniform Resource Locator）互換性のアドレスによって識別され、指定される。ＵＲＬアドレス指定は、インターネットおよびイントラネットアプリケーションで広く使用され、当業者には周知である（「イントラネット」とは、機能性においてインターネットをモデルにしたパケットネットワークであり、たとえば企業によって局所的または社内的に使用されている）。これらのネットワークの多くが、周知の通信用インターネットプロトコルを使用している。

ＡＳＲエンジンをホストするシステムから離れた場所、たとえばデスクトップにいるユーザが利用することのできるＡＳＲサービスを可能にする方法が望まれている。

クライアント−サーバアーキテクチャを使用して自動スピーチ認識サービスを運用するシステムおよび方法を使用して、主ＡＳＲエンジンの場所から離れたクライアントの場所でＡＳＲサービスをアクセス可能にする。本発明によると、インターネットのようなパケットネットワークを介するクライアント−サーバ通信を使用して、ＡＳＲサーバはクライアントから文法を受け、クライアントからスピーチを表す情報を受信し、スピーチ認識を実行し、このＡＳＲサーバが、認識されたスピーチに基づく情報をクライアントに返す。ＡＳＲサーバは、ネットワーク内の単一のコンピュータ装置に存在してもよいし、複数の装置に存在してもよい。したがって、ＡＳＲプロセスが動作するネットワーク内の物理的な位置は、本発明にとって重要ではない。

本発明の一実施形態によれば、本発明は、パケットネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識サービスを行う方法に関する。上記の方法は、複数の文法の１つに関連づけられた文法識別子をパケットネットワークを介してクライアントから受信するステップと、文法識別子にもとづき、複数の文法から文法を選択するステップと、スピーチを表す情報をパケットネットワークを介してクライアントから受信するステップと、選択された文法にしたがって自動スピーチ認識アルゴリズムを適用することにより、受信したスピーチを認識するステップと、認識したスピーチにもとづく情報をパケットネットワークを介してクライアントに送信するステップと、を含む。

本発明は、人間であるユーザと、ＡＳＲエンジンを有するコンピュータ装置との対話を、パケットネットワークを介して可能にする。これに関し、ＡＳＲサーバは、文字またはスピーチの形式でパケットネットワークを介して応答を生成し、人間であるユーザとコンピュータ装置との対話を可能にし、かつ継続させる。

本発明の別の実施形態には、所望の文法に対するアクセスを得るための多様な方法、及びスピーチ情報のＡＳＲサーバへの転送に先立つＡＳＲクライアントでの処理ステップとしての、情報の圧縮または特徴抽出の使用を含む。

本発明は、遠隔利用可能なＡＳＲサービスを提供するためのクライアント−サーバベースのシステムに関する。本発明によると、ユーザが、完全なＡＳＲ技術を実行するのに要する広範な処理能力を有するコンピュータハードウェアを取得する必要なく、パケットネットワーク、例えばインターネット、インターネットプロトコルネットワークを介して、ＡＳＲサービスを、ユーザに対し、例えばユーザのデスクトップで提供することができる。

本発明にしたがって使用される基本的なクライアント−サーバアーキテクチャを図１に示す。ＡＳＲサーバ１００は、パケットネットワーク１２０（たとえばインターネット）を介して他のコンピュータにリンクすることができる、サーバノード１１０と指定されるシステムの上で動作するＡＳＲソフトウェアエンジンである。サーバノード１１０は、通常、複雑なＡＳＲベースのアプリケーション、たとえばＡＴ＆Ｔ社のワトソン（WATSON）システムを動作させるのに十分な処理能力を有するコンピュータであってもよい。パケットネットワーク１２０は、例として、インターネットでもよいし、イントラネットでもよい。また、パケットネットワーク１２０は、パケットベースの技術が利用されるネットワークの一部を含んでもよい。

ＡＳＲクライアント１３０は、クライアントＰＣ１４０上で動作する比較的小さなプログラム（ＡＳＲ１００に比較して）である。クライアントＰＣ１４０は、クライアントアプリケーション、たとえばウェブブラウザを動作させるのに十分な処理能力を有するコンピュータ、たとえばパーソナルコンピュータ（ＰＣ）である。クライアントＰＣは、ハードウェア、たとえばマイクおよび可聴音、たとえばスピーチの入力および捕捉のためのソフトウェアを含む。マイクをＰＣに接続し、ＰＣで可聴音、たとえばスピーチを捕捉する方法は周知である。ＰＣのスピーチ処理能力の例には、マイクロソフト社のスピーチアプリケーションプログラマインタフェース（ＳＡＰＩ）およびＡＴ＆Ｔ社のアドバンストスピーチアプリケーションプログラマインタフェース（ＡＳＡＰＩ）がある。マイクロソフト社のＳＡＰＩは、たとえば、「スピーチＡＰＩデベロッパーズガイド、ウィンドウズ（登録商標）９５版（Speech API Developers Guide, Windows（登録商標）−95 Edition）」と題する出版物（バージョン１．０、マイクロソフト社、１９９５）に詳細があり、ＡＴ＆Ｔ社のＡＳＡＰＩの詳細は、「アドバンストスピーチＡＰＩデベロッパーズガイド（Advanced Speech API DevelopersGuide）」と題する出版物（バージョン１．０、ＡＴ＆Ｔ社、１９９６）に記載されている。これらの出版物をいずれも引用例として本明細書に含める。本発明の代替態様は、スピーチ入力をマイク以外のオーディオソースによって提供することができるようなＡＳＲクライアント１３０と一つ以上の音声チャネルとのインタフェースを利用することができる。

クライアントＰＣ１４０はまた、パケットネットワークを介して他のコンピュータと通信する能力を有する。パケットネットワークを介して他のコンピュータとの通信リンクを確立する方法は周知であり、たとえば、モデムを使用して電話回線からインターネットサービスプロバイダにダイヤルインする方法がある。

ＡＳＲサーバ１００とＡＳＲクライアント１３０とは、たとえば伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）ソケットのような標準通信プロトコルを使用するパケットネットワークを介して情報を通信する（データ伝送を含む）のに適した公知の方法を使用することにより、ＡＳＲサーバ１００がサーバノード１１０を介し、ＡＳＲクライアントがクライアントＰＣ１４０を介して、パケットネットワーク１２０上で互いに通信することができる。ＴＣＰ／ＩＰソケットとは、情報を中に通してパケットネットワークを介してある地点から別の地点まで伝送することができるパイプのようなものである。

ＡＳＲサーバ１００とＡＳＲクライアント１３０との間のＴＣＰ／ＩＰソケットの確立が、本発明にしたがって遠隔ＡＳＲサービスを可能にするのに必要な、ＡＳＲサーバ１００とＡＳＲクライアント１３０との間の、パケットネットワーク１２０を介するデータの伝送を可能にする。ＡＳＲクライアント１３０はまた、クライアントＰＣ１４０のオーディオ／スピーチ入出力機能およびテキスト／グラフィックス表示機能とインタフェースする。オーディオおよびスピーチの入出力を扱う方法およびインタフェースは周知であり、テキストおよびグラフィックスの表示を扱う方法およびインタフェースもまた周知である。

ＡＳＲクライアント１３０は、クライアントＰＣ１４０の中で動作するよう、いくつかの方法でセットアップすることができる。たとえば、ＡＳＲクライアント１３０は、永久的なデータ記憶媒体、たとえば磁気ディスクまたはＣＤ−ＲＯＭからクライアントＰＣ１４０にロードすることもできる。あるいはまた、ＡＳＲクライアント１３０は、パケットネットワーク、たとえばインターネット上で見つけることができる情報またはデータのソースからダウンロードしてもよい。ＡＳＲクライアント１３０のダウンロードは、たとえば、一度だけ実施してクライアントＰＣ１４０の中に永久的に常駐させることもできる。あるいはまた、ＡＳＲクライアント１３０は、一回または限られた回数の使用のためにダウンロードすることもできる。ＡＳＲクライアント１３０は、たとえば、クライアントＰＣ１４０上で動作する別のプログラム、たとえばウェブブラウザのための小さなプラグインソフトウェアモジュールとして実現してもよい。これを達成する一つの方法は、ＡＳＲクライアント１３０を、マイクロソフト社のアクティブＸ（Active-X）規格に準拠するアクティブＸソフトウェアコンポーネントにする方法である。このようにして、ＡＳＲクライアント１３０を、たとえば、以下のようなウェブブラウジングセッションとともにクライアントＰＣ１４０にロードすることができる。クライアントＰＣ１４０を使用してワールドワイドウェブをブラウジングするユーザが、ＡＳＲ機能を有するウェブサイトに入る。ウェブサイトが、署名されたアクティブＸ制御にしたがってＡＳＲクライアントモジュールをクライアントＰＣ１４０にダウンロードするためのユーザ許可を問う。ユーザが認可されると、ＡＳＲクライアント１３０がクライアントＰＣ１４０にダウンロードされる。

同様に、ＡＳＲサーバ１００を、サーバノード１１０の中で動作するよう、いくつかの方法でセットアップすることができる。たとえば、ＡＳＲサーバ１００は、永久的なデータ記憶媒体、たとえば磁気ディスクまたはＣＤ−ＲＯＭからサーバノード１００にロードすることもできるし、あるいはまた、パケットネットワーク上で見つけることができる情報またはデータのソースからダウンロードすることもできる。

次に、図２〜図７を参照しながら、本発明にしたがって遠隔ＡＳＲサービスを提供する詳細をさらに説明する。これらの各図に関する以下の説明に際し、クライアント−サーバの関係は図１に示すとおりであると仮定する。セットアップ段階を使用して、ＡＳＲアプリケーションの一部として自動スピーチ認識タスク及びスピーチ応答タスクを実行するためにＡＳＲサーバ１００およびＡＳＲクライアント１３０を準備する。便宜上、図１に示す項目であって他の図にも見られるものは、図１の参照番号と同じ参照番号によって識別する。

ここで図２を参照して、遠隔ＡＳＲサービスを提供するプロセスのセットアップ段階を説明する。まずステップ２０１で、ＡＳＲクライアント１３０が、クライアント文法をロードするよう、アプリケーションから要求を受ける。クライアント文法は、一例として、特定のＡＳＲアプリケーションの文脈で発話されると予想される言語を表す情報（たとえば語句）を含むデータファイルである。データファイルは、公知のフォーマット、たとえばマイクロソフト社ＳＡＰＩの一部である標準文法フォーマット（ＳＧＦ）であってもよい。

例を挙げるため、ピザの注文を受けるためのＡＳＲアプリケーションを引用して本発明を説明する。ＡＳＲサービスアプリケーション、たとえばピザ注文のアプリケーションは通常、ＡＳＲアプリケーションのタスクを達成するために使用されるリソースとして、ＡＳＲクライアント１３０と対話し、それを使用するプログラムを含むであろう。このようなＡＳＲアプリケーションは、全部または一部が、クライアントＰＣ１４０の中に常駐し、その中で動作することができる。

ピザ注文の例を考えると、クライアント文法ＰＩＺＺＡは、ピザを注文する際に使用する可能性のある語、たとえば「ピザ」、「ペパロニ」などを表す情報を含む。実際には、サブグラマを使用して適切な文法を構成してもよい。ピザ注文の例の場合、ＰＩＺＺＡ文法のサブグラマは、ＳＩＺＥおよびＴＯＰＰＩＮＧを含んでもよい。サブグラマＳＩＺＥは、希望のピザのサイズを説明するのに使用される語、たとえば「小」、「中」および「大」からなることができる。サブグラマＴＯＰＰＩＮＧは、ピザについて注文する可能性のある種々のトッピング（具）、たとえば「ソーセージ」、「ペパロニ」、「マッシュルーム」などからなることができる。

ＡＳＲクライアント１３０は、アプリケーションから所望の文法を与えられることもできるし、あるいはまた、アプリケーションによって提供される情報に基づき所定の文法群から文法を選択することもできる。いずれの場合も、この文法群がＡＳＲサーバ１００から離れて位置する際には、ＡＳＲクライアント１３０は、次にステップ２０２で、所望の文法ファイルをＴＣＰ／ＩＰソケットを介してＡＳＲサーバ１００に送る。クライアントＰＣ１４０とサーバノード１１０との間の新たな通信セッションの確立の一部として新たなＴＣＰ／ＩＰソケットをセットアップしなければならない可能性がある。あるいは、クライアントＰＣ１４０と、終端していないサーバノード１１０との間に確立された通信セッションの結果としてＴＣＰ／ＩＰソケットがすでに存在する可能性もある。ピザ注文の例では、ＡＳＲクライアント１３０が、ＰＩＺＺＡ文法を含むファイルをＴＣＰ／ＩＰソケットを介してＡＳＲサーバ１００に伝送することになる。

ＡＳＲサーバ１００は、ステップ２０３で、ＡＳＲクライアント１３０から送られ、ＡＲＳサーバ１００において局所的に受信した、あるいは他の遠隔位置から送られたクライアント文法を受信する。ステップ２０４で、ＡＳＲサーバ１００は、伝送されたクライアント文法をロードする。本明細書に使用する、クライアント文法の「ロード」とは、たとえば文法をサーバノード１１０のＲＡＭに記憶することにより、その文法をＡＳＲサーバ１００による使用のためにアクセス可能にすることをいう。ステップ２０５で、ＡＳＲサーバ１００は文法「ハンドル」をＡＳＲクライアント１３０に返す。文法「ハンドル」とは、通信セッションの残り期間またはアプリケーション実行の際にＡＳＲクライアント１３０が文法を容易に参照することを可能にするマーカ、たとえば、ロードされた文法を含むメモリを指し示すポインタである。ＡＳＲクライアント１３０は、ステップ２０６で、ＡＳＲサーバ１００から文法ハンドルを受信し、ステップ２０７で、そのハンドルをアプリケーションに返す。ピザ注文の例では、ＡＳＲサーバ１００は、伝送されたＰＩＺＺＡ文法ファイルを受信してロードし、ロードされたＰＩＺＺＡ文法を指し示すハンドルをＡＳＲクライアント１３０に返送する。ＡＳＲクライアント１３０は次に、ＡＳＲサーバ１００からＰＩＺＺＡハンドルを受信し、そのＰＩＺＺＡハンドルをピザ注文アプリケーションに返す。この方法で、アプリケーションは、ピザ注文アプリケーションの一部としてＡＳＲタスクを実行または開始するとき、ＰＩＺＺＡハンドルを簡単に参照することができる。

次に、図３を参照しながら代替のセットアップ手法を説明する。本明細書の記載の残り部分について、ＡＳＲサーバ１００とＡＳＲクライアント１３０との間の情報またはデータの伝送または通信は、確立されたＴＣＰ／ＩＰソケットを介して起こるものと仮定する。ステップ３０１で、ＡＳＲクライアント１３０が、クライアント文法をロードするよう、アプリケーションから要求を受ける。しかしながら、ＡＳＲクライアント１３０は、ステップ３０２で、クライアント文法をデータファイルとしてＡＳＲサーバ１００に送るのではなく、「缶入り」文法を表す識別子をＡＳＲサーバ１００に送る。「缶入り文法」とは、たとえば、ＡＳＲサーバ１００がすでに記憶しているであろう共通の文法、たとえばＴＩＭＥ−ＯＦ−ＤＡＹまたはＤＡＴＥである。すなわち、ＡＳＲクライアント１３０は、パケットネットワークを介し、データ、例えばＡＳＲサーバ１００に記憶された複数の文法から特定の文法を選択するようＡＳＲサーバ１００に指示する文法識別子などを送信してもよい。あるいは、ＡＳＲクライアント１３０は、ＡＳＲサーバ１００に対し、ＩＰアドレス、たとえば遠隔サーバへのＵＲＬ互換性アドレスを送り、このアドレスにおいてＡＳＲサーバ１００が所望の文法ファイルを見つけることもできる。

この例における遠隔ロケーション（すなわち、ＡＳＲサーバ１００から離れて位置するサーバ）は、ＡＳＲサーバ１００が利用できる複数の文法ファイルを記憶している。ＡＳＲサーバ１００は、ステップ３０３で、文法識別子またはＵＲＬ文法アドレスをＡＳＲクライアント１３０から受け、ステップ３０４で、要求されたクライアント文法を見つけ、ロードし、ステップ３０５で、文法ハンドルをＡＳＲクライアント１３０に返す。図２に関して上述したステップと同様に、ＡＳＲクライアント１３０は、ステップ３０６で、ＡＳＲサーバ１００から文法ハンドルを受け、ステップ３０７で、そのハンドルをアプリケーションに返す。ピザ注文の例の場合、ＡＳＲクライアント１３０が、ＰＩＺＺＡ文法の文法識別子（「缶入り」文法の場合）またはＰＩＺＺＡ文法を含むファイルの場所のＵＲＬアドレスをＡＳＲサーバ１００に送るということを除き、図２に関連して上述したステップは同である。ＡＳＲサーバ１００が逆に、その文法識別子またはＵＲＬアドレス（ＡＳＲクライアントによって送られたもの）に基づいてＰＩＺＺＡ文法のファイルを検索したのち、要求されたＰＩＺＺＡ文法をロードする。

文法をロードし、文法ハンドルをＡＳＲクライアント１３０に返したのち、ＡＳＲサービスアプリケーションは、駆動すべき文法規則を選択しなければならない。図４は、本発明による文法規則選択のプロセスを示す。ＡＳＲクライアント１３０が、ステップ４０１で、文法規則を駆動するよう、アプリケーションから要求を受ける。ステップ４０２で、ＡＳＲクライアント１３０は規則駆動要求をＡＳＲサーバ１００に送る。図４に示すように、ＡＳＲクライアント１３０はステップ４０２で、前に返された文法ハンドルをＡＳＲサーバ１００に送ってもよい（これにより、ＡＳＲサーバが、文法ハンドルによって識別される特定の文法に適切な文法規則を駆動することを可能にする）。ＡＳＲサーバ１００は、ステップ４０３で、規則駆動要求および文法ハンドル（送られたならば）を受ける。ステップ４０４で、ＡＳＲサーバ１００は、要求された規則を駆動し、ステップ４０５で、要求された規則が駆動されたという通知をＡＳＲクライアント１３０に返す。ＡＳＲクライアント１３０は、ステップ４０６で、規則駆動の通知を受け、ステップ４０７で、規則が駆動されたことをアプリケーションに通知する。ひとたびアプリケーションが規則駆動の通知を受けたならば、アプリケーションはスピーチの認識を開始することができる。

図４に示すプロセスを説明するため、再び、ピザ注文の例を考えてみる。ピザの注文を認識するのに使用することができる規則は、注文に望まれる句を、「ピザ」という語とともにサブグラマＳＩＺＥおよびＴＯＰＰＩＮＧＳを含むようにセットすることができ、以下のように指定されるかもしれない｛ＯＲＤＥＲ＝ＳＩＺＥ「ｐｉｚｚａ（ピザ）」「ｗｉｔｈ（入り）」ＴＯＰＰＩＮＧＳ｝。すなわち、英語では"SIZE pizza with TOPPING"であり、日本語では「ｘｘ入り○○ピザ」となる。ｘｘがトッピングで、○○がサイズである。再び図４を参照すると、ＡＳＲクライアント１３０は、ピザ注文規則を駆動する要求をアプリケーションから受け、上述のＯＲＤＥＲ規則をＰＩＺＺＡ文法ハンドルとともにＡＳＲサーバ１００に送る。ＡＳＲサーバ１００は、規則駆動要求をＰＩＺＺＡ文法ハンドルとともに受け、ＯＲＤＥＲ規則を駆動して、認識系が、ＳＩＺＥサブグラマからの語、語「ピザ」、語「入り」およびサブグラマＴＯＰＰＩＮＧＳからの語のみの認識に制限されるようにする。ＯＲＤＥＲ規則を駆動したのち、ＡＳＲサーバ１００は、規則駆動の通知をＡＳＲクライアント１３０に送り、ＡＳＲクライアントが逆にそれをアプリケーションに通知する。

ひとたび文法規則が駆動されると、規則にしたがって文法の語を認識する目的のスピーチ処理が起こる。図５を参照すると、ステップ５０１で、ＡＳＲクライアント１３０が、スピーチ認識タスクを開始するよう、アプリケーションから要求を受ける。ステップ５０２で、ＡＳＲクライアント１３０は、クライアントＰＣ１４０のオーディオ入力からストリーム式オーディオを要求する。「ストリーム式オーディオ」とは、より多くのオーディオが入ってくるのと同時に、オーディオがオンザフライ（間髪を入れず）式に処理されることをいう。システムは、オーディオ入力のすべて（すなわち、スピーチ全体）が入ってきてはいないうちから、デジタル処理のためにオーディオを送り出し始める。ストリーム式オーディオはまた、さらなるオーディオが入力されるのと同時に、オーディオ信号の一部が部分的に伝送されることをいう。例として、ストリーム式オーディオの要求は、クライアントＰＣ１４０上で動作するオペレーティングシステムに対し、マイク入力からのストリーム式オーディオがクライアントＰＣ１４０の音声プロセッサによってデジタル化されるような適切なソフトウェア呼び出しを実施することによって達成することができる。そして、マイク入力からデジタル化されたストリーム式オーディオはＡＳＲクライアント１３０に渡される。そして、ＡＳＲクライアント１３０が、ステップ５０３で、ストリーム式デジタル化オーディオをＡＳＲサーバ１００に伝送し始める。マイクからのオーディオ入力と同様に、デジタル化オーディオもまた、スピーチ入力が続いているうちから、オンザフライ式にＡＳＲサーバ１００に送られる。

ステップ５０４で、ＡＳＲサーバ１００は、ストリーム式デジタル化オーディオをＡＳＲクライアント１３０から受けるとき、そのオーディオに対してスピーチ認識を実行する。スピーチ認識は、公知の認識アルゴリズム、たとえばＡＴ＆Ｔ社のワトソン（WATSON）スピーチ認識エンジンによって用いられるアルゴリズムを使用して実行され、駆動された規則によって定義される選択された文法の制約の範囲内で実行される。ステップ５０５で、ＡＳＲサーバ１００は、入力スピーチを認識するのと同時に、ストリーム式テキスト（すなわち、部分的に認識したスピーチ）を返す。したがって、ＡＳＲサーバ１００は、その最初の結果に達すると、ＡＳＲクライアント１３０によって送られてくるさらなるストリーム式オーディオを処理し続けているとしても、その結果をＡＳＲクライアント１３０に返す。認識したテキストをオンザフライ式に返すこのプロセスが、ＡＳＲクライアント１３０（またはＡＳＲクライアント１３０とインタフェースするアプリケーション）が発話者にフィードバックを提供することを可能にする。ＡＳＲサーバ１００がさらなるストリーム式入力オーディオを処理し続けるとき、ＡＳＲサーバは、スピーチ認識タスクの一部として、返されるテキストが、すでにＡＳＲクライアント１３０に返されたテキストの一部を実際に更新（または修正）することができるような方法で、先のスピーチ認識の結果を修正することができる。ひとたびストリーム式オーディオのすべてをＡＳＲクライアント１３０から受けたならば、ＡＳＲサーバは、そのスピーチ認識処理を完了し、ステップ５０６で、認識したテキストの最終版（修正を含むもの）を返す。

ステップ５０７で、ＡＳＲクライアント１３０は、認識されたテキストをＡＳＲサーバ１００から受け、ステップ５０８で、そのテキストをアプリケーションに返す。ここでもまた、これは、認識されたテキストが入ってくるのと同時にオンザフライ式に実施することができ、ＡＳＲクライアント１３０は、ＡＳＲサーバ１００から受けた認識されたテキストに対する修正があればそれをアプリケーションに渡す。

ピザ注文の例を参照すると、ひとたびＯＲＤＥＲ規則が駆動され、アプリケーションが通知を受けると、ＡＳＲクライアント１３０は、スピーチ認識を開始するよう要求を受け、マイク入力からストリーム式オーディオを開始する。ＡＳＲサーバ１００は、ＡＳＲクライアント１３０に対し、ユーザとの対話を進めるための応答を生成する。ユーザは、ピザの注文を発話するように促されることができ、スピーチが始まると、ＡＳＲクライアント１３０が、デジタル化されたストリーム式オーディオをＡＳＲサーバ１００に送る。したがって、発話者が、たとえば「大きいピザ、ソーセージ、ペパロニ入り」を注文したいと述べると、ＡＳＲクライアント１３０は、その注文の最初の語に対するデジタル化ストリーム式データを、たとえ第二の語が話されている最中でも、ＡＳＲサーバ１００に送っている。注文が発されているとき、ＡＳＲサーバ１００は、注文の残りが話されているときでも、第一の語をテキスト「大きい」として返す。最後に発話者がスピーチを止めると、その注文に対して認識された最終的なテキスト「大きいピザ、ソーセージ、ペパロニ入り」をＡＳＲクライアント１３０、ひいてはアプリケーションに返すことができる。

本発明にしたがってスピーチ認識プロセスを実施するための代替態様を図６に示す。図５に示すスピーチ認識プロセスと同様に、ステップ６０１で、ＡＳＲクライアント１３０が、スピーチ認識タスクを開始するよう、アプリケーションから要求を受け、ステップ６０２で、クライアントＰＣ１４０のオーディオ入力からストリーム式オーディオを要求する。そして、マイク入力からデジタル化されたストリーム式オーディオがＡＳＲクライアント１３０に渡される。ステップ６０３で、ＡＳＲクライアント１３０がデジタル化オーディオをオンザフライ式に圧縮したのち、スピーチ入力が続くうちから、圧縮したストリーム式のデジタル化オーディオをＡＳＲサーバ１００に伝送し始める。

ステップ６０４で、ＡＳＲサーバ１００がＡＳＲクライアント１３０から受けた圧縮オーディオを圧縮解除したのち、ストリーム式デジタル化オーディオに対してスピーチ認識を実行する。図５を参照して上述したように、スピーチ認識は、駆動された規則によって定義される選択された文法の制限の範囲で実行される。ステップ６０５で、ＡＳＲサーバ１００が、入力されたスピーチを認識するのと同時にストリーム式テキスト（すなわち、部分的に認識されたスピーチ）を返す。したがって、ＡＳＲサーバ１００は、ＡＳＲクライアント１３０から送られてくるさらなる圧縮されたストリーム式オーディオを処理し続けている間にも、最初の結果をＡＳＲクライアント１３０に返し、スピーチ認識タスクの一部としてＡＳＲクライアント１３０にすでに戻されたテキストの部分を更新または修正することができる。ひとたびストリーム式オーディオのすべてをＡＳＲクライアント１３０から受けたならば、ＡＳＲサーバは、そのスピーチ認識処理を完了し、ステップ６０６で、認識したテキストの最終版（修正を含む）を返す。ＡＳＲクライアント１３０は、ステップ６０７で、ＡＳＲサーバ１００から入ってくる認識されたテキストを受け、ステップ６０８で、そのテキストをアプリケーションに返す。

本発明にしたがってスピーチ認識プロセスを実施するためのもう一つの代替態様を図７に示す。図５および図６に示すスピーチ認識プロセスと同様に、ステップ７０１で、ＡＳＲクライアント１３０が、スピーチ認識タスクを開始するよう、アプリケーションから要求を受け、ステップ７０２で、クライアントＰＣ１４０のオーディオ入力からストリーム式オーディオを要求する。そして、マイク入力からデジタル化されたストリーム式オーディオがＡＳＲクライアント１３０に渡される。ステップ７０３で、ＡＳＲクライアント１３０がデジタル化オーディオをオンザフライ式に処理してスピーチ認識処理に有用な特徴を抽出したのち、スピーチ入力が続くうちから、抽出した特徴をＡＳＲサーバ１００に伝送し始める。スピーチからの適切な特徴の抽出は、通常はスピーチ認識に用いられるアルゴリズムの一部である文法非依存的処理を伴い、当業者には公知である方法、たとえば線形予測符号化（ＬＰＣ）またはメル（Mel）フィルタバンク処理に基づく方法を使用して実施することができる。特徴抽出は、不要な情報、たとえば音量を除去しながらも、音声信号の特徴から得られる情報を提供する。

抽出された特徴をＡＳＲクライアント１３０から受けると、ＡＳＲサーバ１００は、ステップ７０４で、オンザフライ式に（すなわち、ストリーム式オーディオの場合と同様に）到着してくる特徴に対してスピーチ認識を実行する。スピーチ認識は、駆動された規則によって定義される選択された文法の制限の範囲で実行される。図５および図６を参照しながら上記に論じた実施態様の場合と同様に、ステップ７０５で、ＡＳＲサーバ１００は、入力された特徴を認識するのと同時にストリーム式テキスト（すなわち、部分的に認識したスピーチ）をＡＳＲクライアント１３０に返す。ＡＳＲサーバ１００は、ＡＳＲクライアント１３０から送られてくるさらなる抽出された特徴を処理し続け、ＡＳＲクライアント１３０にすでに返したテキストの部分を更新または修正することができる。抽出された特徴のすべてをＡＳＲクライアント１３０から受けると、ＡＳＲサーバは、そのスピーチ認識処理を完了し、ステップ７０６で、認識したテキストの最終版（修正を含む）を返す。ＡＳＲクライアント１３０は、ステップ７０７で、認識されたテキストがＡＳＲサーバ１００から入力されるのと同時にそれを受け、ステップ７０８で、そのテキストをアプリケーションに返す。

図６および図７に関して上述した代替態様はいずれもクライアント側でのさらなる処理を考慮している。図６の実施態様の場合、これは、ストリーム式オーディオの圧縮を伴う（サーバ側ではオーディオの圧縮解除を伴う）。図７の実施態様の場合、これは、特徴抽出の形態のスピーチ認識処理の一部を含むものであった。このようなさらなる処理をクライアント側で使用すると、ＡＳＲクライアント１３０からＡＳＲサーバ１００に伝送されるデータの量を有意に減らすことができる。したがって、伝送されるスピーチ信号を表すのに必要なデータが少なくなる。特徴抽出をクライアント側で達成する場合、そのような利点が潜在的に急増する。理由は、抽出される特徴が、デジタル化音声信号に比べ、より少ないデータしか要さず、無音期間中には特徴を送る必要がないからである。データの減少は、二つの望ましい利点、すなわち（１）特定のレベルの性能を達成するのに必要なバンド幅を減少することができる利点、および（２）スピーチデータをＴＣＰ／ＩＰソケットを介してＡＳＲクライアントからＡＳＲサーバに送る際の伝送時間を減らす利点を生む。

通常は、スピーチ情報がＡＳＲクライアント１３０からＡＳＲサーバ１００に伝送され始める前に文法規則が駆動されるが、規則の駆動は、認識されるスピーチ情報の一部または全部がＡＳＲクライアント１３０からＡＳＲサーバ１００に送られた後で起こってもよい。そのような状況では、ＡＳＲサーバ１００は、文法規則が駆動されるまでスピーチ認識作業を開始しない。ＡＳＲサーバ１００は、文法規則の駆動の前にＡＳＲクライアント１３０によって送られたスピーチを、認識系による処理のために一時的に記憶してもよいし、あるいは、このようなスピーチを無視することもできる。

さらには、本発明の技術を使用して、多数のスピーチ認識タスクを実行することができる。たとえば、ＡＳＲアプリケーションは、ＡＳＲクライアント１３０に対し、電話番号の缶入り文法（すなわち「ＰＨＯＮＥＮＵＭＢＥＲ」をロードするようＡＳＲサーバ１００に命令することを要求したのち、発話された番号をカバーする規則の駆動を要求することもできる。電話番号が発話され、本発明にしたがって認識されたのち（たとえば、電話番号を発話せよという入力促進に応答して、ＡＳＲクライアント１３０がデジタル化発話番号をＡＳＲサーバ１００に送って認識を求める）、ＡＳＲアプリケーションは、図２〜図５を参照して上述した例にしたがって、ＡＳＲクライアント１３０に対し、ピザ注文スピーチの認識をセットアップし、開始する（たとえば、ＰＩＺＺＡ文法をロードし、ＯＲＤＥＲ規則を駆動し、スピーチ認識を開始する）よう、要求することができる。

例として上記に使用した簡単なピザ注文例に加えて、本発明にしたがって、幅広い潜在的なＡＳＲサービスをパケットネットワークを介して提供することができる。本発明によって可能になるＡＳＲアプリケーションの一例は、用紙の中の多数の空欄それぞれに求められる情報に対して発話される答に応じて用紙を完成させるための用紙記入サービスである。本発明によると、ＡＳＲクライアント１３０が、空欄それぞれに対して可能な選択を表す文法をＡＳＲサーバ１００に送るような用紙記入サービスを実現することができる。空欄ごとに、ＡＳＲクライアント１３０が適切な文法規則の駆動を要求し、空欄を満たすのに必要な情報を求める要求に応じて発話された、対応する回答を送る。ＡＳＲサーバ１００が、選択された文法および規則にしたがって、適切なスピーチ認識アルゴリズムを適用し、用紙に挿入すべきテキストを返す。

他のＡＳＲサービスは、サーバとクライアントとの間の情報交換（たとえば対話）を伴うこともある。たとえば、航空便予約を扱うためのＡＳＲサービスアプリケーションは、本明細書に記載する本発明によると、ＡＳＲサーバ１００とＡＳＲクライアント１３０との間の対話を利用して、ＡＳＲタスクを達成する。対話は次のように進行するかもしれない。

発話者（ＡＳＲクライアント１３０からＡＳＲサーバ１００に対し）：「ロサンゼルス行きの便を予約したい」
ＡＳＲクライアントに対するＡＳＲサーバの応答（テキスト形態、あるいはまた、ＡＳＲサーバ１００によってＡＳＲクライアント１３０に返されるスピーチの形態）：「搭乗地はどこですか」
発話者（ＡＳＲクライアントからＡＳＲサーバに対し）：「ワシントンＤＣ」
ＡＳＲクライアントに対するＡＳＲサーバの応答：「何曜日に出発ですか」
発話者（ＡＳＲクライアントからＡＳＲサーバに対し）：「火曜日」
ＡＳＲクライアントに対するＡＳＲサーバの応答：「出発時刻はいつですか」
発話者（ＡＳＲクライアントからＡＳＲサーバに対し）：「午後４時」
ＡＳＲクライアントに対するＡＳＲサーバの応答：「火曜午後４時のＸＹＺ航空４５６７便をワシントンＤＣからロサンゼルスまで予約することができます。この便に座席を予約しますか」
この場合、ＡＳＲサーバ１００から受ける情報は文字どおり認識されたスピーチからのテキストではなく、認識されたスピーチ（アプリケーションに依存する）にもとづく応答、例えば発話者の質問に対してＡＳＲサーバが生成した応答である。対話の各区分は、上述したＡＳＲクライアント−サーバ方法にしたがって達成することができる。この例からわかるように、このようなＡＳＲサービスアプリケーションは、ＡＳＲクライアントおよびＡＳＲサーバに対し、自然言語を扱う能力を要求するだけでなく、絶えず変化する大きなデータベースにアクセスする能力をも要求する。これを達成するためには、ＡＳＲサービスアプリケーションを、実際には、クライアントＰＣ１４０の中ではなく、サーバノード１１０の中にインストールし、そこで動作させることが望ましいかもしれない。その場合、クライアントＰＣ１４０は、サーバノード１１０で動作するアプリケーションプログラムの制御の下でＡＳＲクライアント１３０を開始し、ＡＳＲクライアント１３０を介したスピーチ入力をＡＳＲサーバ１００に対し、かつＡＳＲサーバ１００から誘導する比較的小さな「代理」プログラムを動作させるだけでよい。このような「代理」プログラムの例は、たとえば、クライアントＰＣ１４０の画面上に「語り手」を配して、クライアントＰＣ１４０でＡＳＲサービスアプリケーションを使用する個人との対話を支援し、ＡＳＲクライアント１３０およびＡＳＲサーバ１００を介して、その人のスピーチ情報を認識のためにＡＳＲサーバ１００に送り、スピーチを応答としてその個人に返信するものであってもよい。

要約すると、本発明は、クライアント−サーバアーキテクチャを使用して、ＡＳＲエンジンをホストするシステムから離れた場所で、パケットネットワーク、たとえばインターネットを介してユーザに利用可能にすることができるＡＳＲサービスを提供する方法を提供する。

ここに記載したものは、本発明の原理を適用した例を示すに過ぎない。当業者であれば、本発明の真髄および範囲を逸することなく、他の構造および方法を実施することができる。したがって、本発明の範囲は、ここに記載した任意の特定例によってではなく、請求の範囲によって定めるべきである。

本発明にしたがって遠隔ＡＳＲサービスを提供するシステムのクライアント−サーバ関係を示す図である。本発明にしたがって遠隔ＡＳＲサービスを可能にするためのセットアッププロセスを示す図である。本発明にしたがって遠隔ＡＳＲサービスを可能にするための代替セットアッププロセスを示す図である。本発明の規則選択プロセスを示す図である。本発明にしたがって遠隔自動スピーチ認識及びスピーチ応答を可能にするためのプロセスを示す図である。本発明にしたがって遠隔自動スピーチ認識及びスピーチ応答を可能にするための代替プロセスを示す図である。本発明にしたがって遠隔自動スピーチ認識及びスピーチ応答を可能にするためのもう一つの代替プロセスを示す図である。

符号の説明

１００ＡＳＲサーバ、１１０サーバノード、１２０パケットネットワーク、１３０ＡＳＲクライアント、１４０クライアントＰＣ。

Claims

パケットネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識サービス提供方法であって、
（ａ）複数の文法の１つに関連づけた文法識別子をクライアントからパケットネットワークを介して受信するステップと、
（ｂ）前記文法識別子にもとづき、複数の文法から文法を選択するステップと、
（ｃ）スピーチを表す情報をクライアントからパケットネットワークを介して受信するステップと、
（ｄ）前記選択した文法にしたがって自動スピーチ認識アルゴリズムを適用することにより、受信したスピーチ情報を認識するステップと、
（ｅ）認識したスピーチに基づく情報をパケットネットワークを介してクライアントに送るステップと、
を含む方法。
請求項１に記載の、パケットネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識サービス提供方法において、前記パケットネットワークは、インターネットプロトコルネットワークである方法。
請求項２に記載の、パケットネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識サービス提供方法において、前記パケットネットワークは無線ネットワークである方法。
請求項１に記載の、パケットネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識サービス提供方法において、前記文法識別子は、ユニフォームリソースロケータ互換アドレスである方法。
請求項４に記載の、パケットネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識サービス提供方法において、前記複数の文法は、自動スピーチ認識サービスから離れて記憶されている方法。
請求項１に記載の、パケットネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識サービス提供方法において、前記複数の文法は、自動スピーチ認識サービスに対して局所的に記憶されている方法。
請求項１に記載の自動スピーチ認識サービス提供方法において、前記ステップ（ｃ）、（ｄ）及び（ｅ）を繰り返し、前記クライアントと、自動スピーチ認識サービスを行うサーバとのあいだで情報を交換する方法。
請求項１に記載の自動スピーチ認識サービス提供方法において、自動スピーチ認識サービスを使用し、情報をある形式で提供する方法。
請求項８に記載の自動スピーチ認識サービス提供方法において、ある形式での情報提供が、ユーザの製品購入に関連する方法。
クライアントとサーバとの間の情報交換方法であって、サーバは、パケットネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識及び文字スピーチ変換サービスを提供し、前記方法は、サーバにて、
（ａ）複数の文法の１つに関連づけた文法識別子をクライアントから受信するステップと、
（ｂ）前記文法識別子にもとづき、複数の文法から文法を選択するステップと、
（ｃ）ユーザがクライアントにスピーチを送ると、
（ｉ）スピーチに関する情報をクライアントから受信するステップと、
（ｉｉ）選択された文法を使用し、自動スピーチ認識アルゴリズムを適用することにより前記スピーチに関する情報を認識するステップと、
（ｉｉｉ）認識したスピーチにもとづく情報をクライアントに送るステップと、
を繰り返すステップと、
を含む方法。
パケットネットワークを介してクライアントにより遠隔アクセス可能な文字スピーチ変換サービスの提供方法であって、
（ａ）パケットネットワークを介してクライアントから複数の文法の１つに関連する文法識別子を受信するステップと、
（ｂ）前記文法識別子にもとづき、複数の文法から文法を選択するステップと、
（ｃ）パケットネットワークを介してクライアントからスピーチを表す情報を受信するステップと、
（ｄ）選択された文法にしたがって自動スピーチ認識アルゴリズムを適用することにより受信したスピーチ情報を認識するステップと、
（ｅ）認識したスピーチに応答してスピーチを生成するステップと、
（ｆ）前記スピーチをパケットネットワークを介してクライアントに送信するステップと、
を含む方法。
請求項１１に記載の、パケットネットワークを介してクライアントにより遠隔アクセス可能な文字スピーチ変換サービスの提供方法において、前記パケットネットワークは、インターネットプロトコルネットワークである方法。
請求項１２に記載の、パケットネットワークを介してクライアントにより遠隔アクセス可能な文字スピーチ変換サービスの提供方法において、前記パケットネットワークは無線ネットワークである方法。
請求項１１に記載の、パケットネットワークを介してクライアントにより遠隔アクセス可能な文字スピーチ変換サービスの提供方法において、前記文法識別子は、ユニフォームリソースロケータ互換アドレスである方法。
請求項１１に記載の、パケットネットワークを介してクライアントにより遠隔アクセス可能な文字スピーチ変換サービスの提供方法において、前記複数の文法は、文字スピーチ変換サービスに対して局所的に記憶されている方法。
請求項１５に記載の、パケットネットワークを介してクライアントにより遠隔アクセス可能な文字スピーチ変換サービスの提供方法において、前記複数の文法は、文字スピーチ変換サービスから離れて記憶されている方法。
請求項１１に記載の文字スピーチ変換サービスの提供方法において、ステップ（ｃ），（ｄ），（ｅ）及び（ｆ）を繰り返し、前記クライアントと、文字スピーチ変換サービスを提供するサーバとのあいだで情報を交換する方法。
請求項１１に記載の文字スピーチ変換サービスの提供方法において、文字スピーチ変換サービスによりユーザが製品またはサービスを購入できる方法。
クライアントとサーバとの間の情報交換方法であって、サーバは、パケットネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識及び文字スピーチ変換サービスを提供し、前記方法は、
（ａ）複数の文法の１つに関連する文法識別子をクライアントから受信するステップと、
（ｂ）前記文法識別子にもとづき、複数の文法から文法を選択するステップと、
（ｃ）ユーザがクライアントにスピーチを送ると、
（ｉ）スピーチに関する情報をクライアントから受信するステップと、
（ｉｉ）選択された文法を使用し、自動スピーチ認識アルゴリズムを適用することにより前記スピーチに関する情報を認識するステップと、
（ｉｉｉ）認識したスピーチ情報にもとづきスピーチを生成するステップと、
（ｉｖ）前記スピーチをクライアントに送るステップと、
を繰り返すステップと、
を含む方法。
クライアントとサーバとのあいだの情報交換方法であって、サーバはパケットネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識及び文字スピーチ変換サービスを提供し、前記方法は、クライアントが、
（ａ）複数の文法の１つに関連する文法識別子を文字スピーチ変換サービスに送信し、該文法識別子にもとづき、文字スピーチ変換システムが複数の文法から文法を選択するステップと、
（ｂ）ユーザがクライアントにスピーチを送ると、
（ｉ）スピーチに関する情報を文字スピーチ変換サービスに送信し、文字スピーチ変換サービスは前記スピーチに関する情報を認識するステップと、
（ｉｉ）認識したスピーチに関する情報にもとづき生成されたスピーチを、文字スピーチ変換システムから受信するステップと、
を繰り返すステップと、
を含む方法。
インターネットプロトコルネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識サービスの提供方法であって、
（ａ）スピーチ情報をクライアントから受信するステップと、
（ｂ）文法を使用し、自動スピーチ認識アルゴリズムを適用することにより、受信したスピーチ情報を認識するステップと、
（ｃ）認識したスピーチに基づく情報をインターネットプロトコルネットワークを介してクライアントに送るステップと、
を含む方法。
請求項２１に記載の、クライアントにより遠隔アクセス可能な自動スピーチ認識サービスの提供方法であって、ステップ（ａ）に先立ち、さらに、
文法識別子をクライアントから受信するステップと、
前記文法識別子を使用し、前記スピーチ情報の認識に使用する文法を、複数の文法から選択するステップと、
を含む方法。
請求項２２に記載の、クライアントにより遠隔アクセス可能な自動スピーチ認識サービスの提供方法において、前記複数の文法は自動スピーチ認識サービスに対して局所的に記憶されている方法。
請求項２２に記載の、クライアントにより遠隔アクセス可能な自動スピーチ認識サービスの提供方法において、前記複数の文法は自動スピーチ認識サービスから離れて記憶されている方法。
請求項２４に記載の、クライアントにより遠隔アクセス可能な自動スピーチ認識サービスの提供方法において、前記文法識別子はユニフォームリソースロケータ互換アドレスである方法。
パケットネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識サービスを提供する方法であって、自動スピーチ認識サービスはスピーチの認識に使用する文法をパケットネットワークを介して受信し、前記方法は、
（ａ）パケットネットワークを介してクライアントからスピーチを表す情報を受信するステップと、
（ｂ）前記文法にしたがって自動スピーチ認識アルゴリズムを適用することにより、受信したスピーチ情報を認識するステップと、
（ｃ）認識したスピーチに基づく情報をパケットネットワークを介してクライアントに送るステップと、
を含む方法。
請求項２６に記載の自動スピーチ認識サービスを提供する方法において、前記パケットネットワークは、インターネットプロトコルネットワークである方法。
請求項２７に記載の自動スピーチ認識サービスを提供する方法において、前記インターネットプロトコルネットワークは無線ネットワークである方法。
インターネットプロトコルネットワークを介してクライアントにより遠隔アクセス可能な文字スピーチ変換サービスの提供方法であって、
（ａ）スピーチ情報をクライアントから受信するステップと、
（ｂ）文法を使用し、自動スピーチ認識アルゴリズムを適用することにより、受信したスピーチ情報を認識するステップと、
（ｃ）認識したスピーチ情報に基づき文字スピーチ変換サービスで生成されたスピーチを、インターネットプロトコルネットワークを介してクライアントに送るステップと、
を含む方法。
請求項２９に記載の、クライアントにより遠隔アクセス可能な文字スピーチ変換サービスの提供方法であって、ステップ（ａ）の前に、さらに、
クライアントから文法識別子を受信するステップと、
前記文法識別子を使用し、前記スピーチ情報の認識に使用する文法を、複数の文法から選択するステップと、
を含む方法。
請求項３０に記載の、クライアントにより遠隔アクセス可能な文字スピーチ変換サービスの提供方法において、前記複数の文法は文字スピーチ変換サービスに対して局所的に記憶されている方法。
請求項３０に記載の、クライアントにより遠隔アクセス可能な文字スピーチ変換サービスの提供方法において、前記複数の文法は文字スピーチ変換サービスから離れて記憶されている方法。
請求項３２に記載の、クライアントにより遠隔アクセス可能な文字スピーチ変換サービスの提供方法において、前記文法識別子はユニフォームリソースロケータ互換アドレスである方法。
パケットネットワークを介してクライアントにより遠隔アクセス可能な文字スピーチ変換サービスを提供する方法であって、文字スピーチ変換サービスはスピーチの認識に使用する文法をパケットネットワークを介して受信し、前記方法は、
（ａ）パケットネットワークを介してクライアントからスピーチを表す情報を受信するステップと、
（ｂ）前記文法にしたがって自動スピーチ認識アルゴリズムを適用することにより、受信したスピーチ情報を認識するステップと、
（ｃ）認識したスピーチに基づくスピーチをパケットネットワークを介してクライアントに送るステップと、
を含む方法。
請求項３４に記載の文字スピーチ変換サービスを提供する方法において、前記パケットネットワークは、インターネットプロトコルネットワークである方法。
請求項３４に記載の文字スピーチ変換サービスを提供する方法において、前記インターネットプロトコルネットワークは無線ネットワークである方法。
インターネットプロトコルネットワークを介してクライアントにより遠隔アクセス可能な文字スピーチ変換サービスを提供する方法であって、前記方法は、クライアントが、
（ａ）ユーザからスピーチ情報を受信するステップと、
（ｂ）前記スピーチ情報を、スピーチ認識のためにサーバに送信するステップと、
（ｃ）認識したユーザスピーチ情報に応答して生成されたスピーチを、インターネットプロトコルネットワークを介してサーバから受信するステップと、
を含む方法。
請求項３７に記載の、クライアントにより遠隔アクセス可能な文字スピーチ変換サービスを提供する方法であって、前記方法はさらに、サーバによるスピーチ認識に先立ちクライアントが、
サーバに文法識別子を送信するステップを含み、サーバは該文法識別子を使用し、複数の文法から文法を選択可能である方法。
請求項３８に記載の、クライアントにより遠隔アクセス可能な文字スピーチ変換サービスを提供する方法において、前記複数の文法はサーバに対して局所的に記憶されている方法。
請求項３８に記載の、クライアントにより遠隔アクセス可能な文字スピーチ変換サービスを提供する方法において、前記複数の文法はサーバから離れて記憶されている方法。
請求項４０に記載の、クライアントにより遠隔アクセス可能な文字スピーチ変換サービスを提供する方法において、前記文法識別子は、ユニフォームリソースロケータ互換アドレスである方法。
パケットネットワークを介してクライアントにより遠隔アクセス可能な文字スピーチ変換サービスの提供方法であって、文字スピーチ変換サービスは自動スピーチ認識に使用する文法をパケットネットワークを介して受信し、クライアントが、
（ａ）ユーザからのスピーチ情報をパケットネットワークを介して文字スピーチ変換サービスに送信し、文字スピーチ変換サービスは前記スピーチ情報を認識し、認識したスピーチにもとづきスピーチを生成するステップと、
（ｂ）前記スピーチを、文字スピーチ変換サービスからパケットネットワークを介して受信するステップと、
を含む方法。
請求項４２に記載の文字スピーチ変換サービスの提供方法において、パケットネットワークがインターネットプロトコルネットワークである方法。
請求項４３に記載の文字スピーチ変換サービスの提供方法において、前記インターネットプロトコルネットワークが無線ネットワークである方法。
請求項４２に記載の文字スピーチ変換サービスの提供方法において、前記ステップ（ａ）及び（ｂ）を繰り返すことによりユーザと、文字スピーチ変換サービスとの対話を可能にする方法。
インターネットプロトコルネットワークを介して遠隔アクセス可能な自動スピーチ認識アプリケーションの提供方法であって、
インターネットプロトコルネットワークを介して自動スピーチ認識アプリケーションの識別情報を受信するステップと、
識別した自動スピーチ認識アプリケーションにもとづき、複数の文法から文法を選択するステップと、
インターネットプロトコルネットワークを介してスピーチ情報を受信するステップと、
選択された文法を使用し、受信したスピーチ情報を認識するステップと、
を含む方法。
請求項４６に記載の方法において、さらに、認識したスピーチにもとづく情報を、インターネットプロトコルネットワークを介してクライアントに送信するステップを含む方法。
請求項４６に記載の方法において、前記識別した自動スピーチ認識アプリケーションは、該自動スピーチ認識アップリケーションのユニバーサルリソースロケータ（ＵＲＬ）によって識別される方法。
請求項４７に記載の方法において、前記複数の文法は自動スピーチ認識サービスに対して局所的に記憶されている方法。
請求項４７に記載の方法において、前記複数の文法は自動スピーチ認識サービスから離れて記憶されている方法。
請求項４６に記載の方法において、前記自動スピーチ認識アプリケーションは、発話式対話アプリケーションの構成要素である方法。
請求項５１に記載の方法において、前記発話式対話アプリケーションは、インターネットプロトコルネットワークを介してクライアントに合成スピーチを送信して、前記クライアントと通信しているユーザとの対話を実行する方法。
請求項４６に記載の方法において、さらに、
ユーザとの対話のサブ部分を識別するステップと、
識別した対話のサブ部分にしたがってサブグラマを選択するステップと、
選択されたサブグラマを使用し、前記識別した対話のサブ部分に対応するユーザからのスピーチを認識するステップと、
を含む方法。
請求項５３に記載の方法において、前記対話のサブ部分はタスクに関連する方法。
請求項４６に記載の方法において、前記選択された文法は複数のサブグラマを含み、ユーザとの対話の一部分にしたがって、各サブグラマを選択して使用し、ユーザからのスピーチを認識する方法。
請求項５５に記載の方法において、各サブグラマはタスクに関連する方法。
インターネットプロトコルネットワークを介して遠隔アクセス可能なサーバ上で発話式対話サービスを提供する方法であって、前記サーバは、
関連する文法を備える発話式対話アプリケーションの識別情報をインターネットプロトコルネットワークを介して受信するステップと、
ユーザからスピーチ情報を受信するステップと、
前記スピーチ情報をサーバに送信するステップと、
前記関連する文法を使用してスピーチを認識するステップと、
認識したユーザのスピーチ情報に応答して生成されたスピーチを、インターネットプロトコルネットワークを介してサーバから送信するステップと、
を含む方法。
請求項５７に記載の方法において、さらに、
ユーザとの対話のサブ部分を識別するステップと、
識別した対話のサブ部分にしたがってサブグラマを選択するステップと、
選択されたサブグラマを使用し、前記識別した対話のサブ部分に対応するユーザからのスピーチを認識するステップと、
を含む方法。
請求項５８に記載の方法において、各サブグラマはタスクに関連する方法。
請求項５７に記載の方法において、前記関連するグラマは、前記発話式対話アプリケーションに関連付けられたユニバーサルリソースロケータ（ＵＲＬ）互換アドレスによって識別される方法。
インターネットプロトコルネットワークを介して遠隔アクセス可能な自動スピーチ認識アプリケーションを提供するシステムであって、
インターネットプロトコルネットワークを介して、自動スピーチ認識アプリケーションの識別情報を受信する手段と、
識別した自動スピーチ認識アプリケーションにしたがって複数の文法から文法を選択する手段と、
インターネットプロトコルネットワークを介してスピーチ情報を受信する手段と、
選択された文法を使用して、前記受信したスピーチ情報を認識する手段と、
を含むシステム。
インターネットプロトコルネットワークを介して遠隔アクセス可能な自動スピーチ認識アプリケーションの提供システムであって、
インターネットプロトコルネットワークを介して、自動スピーチ認識アプリケーションの識別情報を受信するように構成されたモジュールと、
識別した自動スピーチ認識アプリケーションにしたがって、複数の文法から文法を選択するように構成されたモジュールと、
インターネットプロトコルネットワークを介して、スピーチ情報を受信するように構成されたモジュールと、
選択された文法を使用して、前記受信したスピーチ情報を認識するモジュールと、
を含むシステム。
インターネットプロトコルネットワークを介して遠隔アクセス可能な自動スピーチ認識アプリケーションを提供する演算装置を制御する命令を格納したコンピュータ読み取り可能な媒体であって、前記命令は、
インターネットプロトコルネットワークを介して自動スピーチ認識アプリケーションの識別情報を受信することと、
識別した自動スピーチ認識アプリケーションにしたがって複数の文法から文法を選択することと、
インターネットプロトコルネットワークを介してスピーチ情報を受信することと、
選択された文法を使用して、前記受信したスピーチ情報を認識すること、
を含むコンピュータ読み取り可能な媒体。
インターネットプロトコルネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識サービスの提供方法であって、
（ａ）文法識別子をクライアントから受信するステップと、
（ｂ）前記文法識別子を使用し、スピーチ情報の認識に使用する文法を、複数の文法から選択するステップと、
（ｃ）スピーチ情報をクライアントから受信するステップと、
（ｄ）選択した前記文法を使用し、自動スピーチ認識アルゴリズムを適用することにより、受信したスピーチ情報を認識するステップと、
（ｅ）認識したスピーチに基づく情報をインターネットプロトコルネットワークを介してクライアントに送るステップと、
を含む方法。
請求項６４に記載の、クライアントにより遠隔アクセス可能な自動スピーチ認識サービスの提供方法において、前記複数の文法は自動スピーチ認識サービスに対して局所的に記憶されている方法。
請求項６４に記載の、クライアントにより遠隔アクセス可能な自動スピーチ認識サービスの提供方法において、前記複数の文法は自動スピーチ認識サービスから離れて記憶されている方法。
請求項６６に記載の、クライアントにより遠隔アクセス可能な自動スピーチ認識サービスの提供方法において、前記文法識別子はユニフォームリソースロケータ互換アドレスである方法。
インターネットプロトコルネットワークを介してクライアントにより遠隔アクセス可能な発話された対話認識サービスの提供方法であって、
（ａ）文法識別子をクライアントから受信するステップと、
（ｂ）前記文法識別子を使用し、スピーチ情報の認識に使用する文法を、複数の文法から選択するステップと、
（ｃ）スピーチ情報をクライアントから受信するステップと、
（ｄ）選択した前記文法を使用し、自動スピーチ認識アルゴリズムを適用することにより、受信したスピーチ情報を認識するステップと、
（ｅ）認識したスピーチ情報に基づくスピーチを、インターネットプロトコルネットワークを介して前記発話された対話認識サービスからクライアントに送るステップと、
を含む方法。
請求項６８に記載の、クライアントにより遠隔アクセス可能な発話された対話認識サービスの提供方法において、前記複数の文法は前記発話された対話認識サービスに対して局所的に記憶されている方法。
請求項６８に記載の、クライアントにより遠隔アクセス可能な発話された対話認識サービスの提供方法において、前記複数の文法は前記発話された対話認識サービスから離れて記憶されている方法。
請求項７０に記載の、クライアントにより遠隔アクセス可能な発話された対話認識サービスの提供方法において、前記文法識別子はユニフォームリソースロケータ互換アドレスである方法。
インターネットプロトコルネットワークを介してクライアントにより遠隔アクセス可能な発話された対話認識サービスの提供方法であって、前記方法は、クライアントが、
（ａ）ユーザからスピーチ情報を受信するステップと、
（ｂ）前記スピーチ情報を、スピーチ認識のためにサーバに送信するステップと、
（ｃ）サーバに文法識別子を送信するステップであって、サーバは該文法識別子を使用し、複数の文法から文法を選択できるステップと、
（ｃ）認識したユーザスピーチ情報に応答して生成されたスピーチを、インターネットプロトコルネットワークを介してサーバから受信するステップと、
を含む方法。
請求項７２に記載の、クライアントにより遠隔アクセス可能な発話された対話認識サービスの提供方法において、前記複数の文法はサーバに対して局所的に記憶されている方法。
請求項７２に記載の、クライアントにより遠隔アクセス可能な発話された対話認識サービスの提供方法において、前記複数の文法はサーバから離れて記憶されている方法。
請求項７４に記載の、クライアントにより遠隔アクセス可能な発話された対話認識サービスの提供方法において、前記文法識別子はユニフォームリソースロケータ互換アドレスであり、前記インターネットプロトコルネットワークは無線ネットワークである方法。
インターネットプロトコルネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識サービスの提供システムであって、
（ａ）文法識別子をクライアントから受信するように構成されたモジュールと、
（ｂ）前記文法識別子を使用し、スピーチ情報の認識に使用する文法を、複数の文法から選択するように構成されたモジュールと、
（ｃ）スピーチ情報をクライアントから受信するように構成されたモジュールと、
（ｄ）選択した前記文法を使用し、自動スピーチ認識アルゴリズムを適用することにより、受信したスピーチ情報を認識するように構成されたモジュールと、
（ｅ）認識したスピーチに基づく情報をインターネットプロトコルネットワークを介してクライアントに送るように構成されたモジュールと、
を含むシステム。
インターネットプロトコルネットワークを介してクライアントにより遠隔アクセス可能な自動スピーチ認識サービスを提供するための命令を格納したコンピュータ可読媒体であって、前記命令は、
（ａ）文法識別子をクライアントから受信することと、
（ｂ）前記文法識別子を使用し、スピーチ情報の認識に使用する文法を、複数の文法から選択することと、
（ｃ）スピーチ情報をクライアントから受信することと、
（ｄ）選択した前記文法を使用し、自動スピーチ認識アルゴリズムを適用することにより、受信したスピーチ情報を認識することと、
（ｅ）認識したスピーチに基づく情報をインターネットプロトコルネットワークを介してクライアントに送ることと、
を含む方法。
インターネットプロトコルネットワークを介して遠隔アクセス可能な自動スピーチ認識アプリケーションの提供方法であって、
インターネットプロトコルネットワークを介して自動スピーチ認識アプリケーションの識別情報を受信するステップと、
識別した自動スピーチ認識アプリケーションにもとづき、複数の文法から文法を選択するステップと、
インターネットプロトコルネットワークを介してスピーチ情報を受信するステップと、
選択した文法を使用し、受信したスピーチ情報を認識するステップと、
を含む方法。
請求項７８に記載の方法において、さらに、認識したスピーチにもとづく情報を、インターネットプロトコルネットワークを介してクライアントに送信するステップを含む方法。
請求項７８に記載の方法において、前記識別した自動スピーチ認識アプリケーションは、該自動スピーチ認識アップリケーションのユニバーサルリソースロケータ（ＵＲＬ）互換アドレスによって識別される方法。
請求項７９に記載の方法において、前記複数の文法は自動スピーチ認識サービスに対して局所的に記憶されている方法。
請求項７９に記載の方法において、前記複数の文法は自動スピーチ認識サービスから離れて記憶されている方法。
請求項７８に記載の方法において、前記自動スピーチ認識アプリケーションは、発話された対話認識アプリケーションの構成要素である方法。
請求項８３に記載の方法において、前記発話された対話認識アプリケーションは、インターネットプロトコルネットワークを介してクライアントに合成スピーチを送信して、前記クライアントと通信しているユーザとの対話を実行する方法。
請求項７８に記載の方法において、さらに、
ユーザとの対話のサブ部分を識別するステップと、
識別した対話のサブ部分にしたがってサブグラマを選択するステップと、
選択したサブグラマを使用し、前記識別した対話のサブ部分に対応するユーザからのスピーチを認識するステップと、
を含む方法。
請求項８５に記載の方法において、前記対話のサブ部分はタスクに関連する方法。
請求項７８に記載の方法において、前記選択した文法は複数のサブグラマを含み、ユーザとの対話の一部分にしたがって、各サブグラマを選択して使用し、ユーザからのスピーチを認識する方法。
請求項８７に記載の方法において、各サブグラマはタスクに関連する方法。
インターネットプロトコルネットワークを介して遠隔アクセス可能なサーバにおいて、発話された対話認識サービスを提供する方法であって、前記サーバは、
関連する文法を備える発話された対話アプリケーションの識別情報を、インターネットプロトコルネットワークを介して受信するステップと、
ユーザからスピーチ情報を受信するステップと、
前記スピーチ情報をサーバに送信するステップと、
前記関連する文法を使用してスピーチを認識するステップと、
認識したユーザのスピーチ情報に応答して生成されたスピーチを、インターネットプロトコルネットワークを介してサーバから送信するステップと、
を含む方法。
請求項８９に記載の方法において、さらに、
ユーザとの対話のサブ部分を識別するステップと、
識別した対話のサブ部分にしたがってサブグラマを選択するステップと、
選択したサブグラマを使用し、前記識別した対話のサブ部分に対応するユーザからのスピーチを認識するステップと、
を含む方法。
請求項９０に記載の方法において、各サブグラマはタスクに関連する方法。
請求項８９に記載の方法において、前記関連するグラマは、前記発話された対話認識アプリケーションに関連付けられたユニバーサルリソースロケータ（ＵＲＬ）互換アドレスによって識別される方法。
インターネットプロトコルネットワークを介して遠隔アクセス可能な自動スピーチ認識アプリケーションを提供するシステムであって、
インターネットプロトコルネットワークを介して、自動スピーチ認識アプリケーションの識別情報を受信する手段と、
識別した自動スピーチ認識アプリケーションにしたがって複数の文法から文法を選択する手段と、
インターネットプロトコルネットワークを介してスピーチ情報を受信する手段と、
選択した文法を使用し、前記受信したスピーチ情報を認識する手段と、
を含むシステム。
インターネットプロトコルネットワークを介して遠隔アクセス可能な自動スピーチ認識アプリケーションの提供システムであって、
インターネットプロトコルネットワークを介して、自動スピーチ認識アプリケーションの識別情報を受信するように構成されたモジュールと、
識別した自動スピーチ認識アプリケーションにしたがって、複数の文法から文法を選択するように構成されたモジュールと、
インターネットプロトコルネットワークを介して、スピーチ情報を受信するように構成されたモジュールと、
選択した文法を使用し、前記受信したスピーチ情報を認識するモジュールと、
を含むシステム。
インターネットプロトコルネットワークを介して遠隔アクセス可能な自動スピーチ認識アプリケーションを提供する演算装置を制御する命令を格納したコンピュータ可読媒体であって、前記命令は、
インターネットプロトコルネットワークを介して自動スピーチ認識アプリケーションの識別情報を受信することと、
識別した自動スピーチ認識アプリケーションにしたがって複数の文法から文法を選択することと、
インターネットプロトコルネットワークを介してスピーチ情報を受信することと、
選択した文法を使用して、前記受信したスピーチ情報を認識すること、
を含むコンピュータ可読媒体。