JPH10333693A

JPH10333693A - 自動スピーチ認識サービス提供方法およびシステム

Info

Publication number: JPH10333693A
Application number: JP10095930A
Authority: JP
Inventors: Pamela L Dragosh; エルドラゴッシュパメラ; Daid B Roe; ビーロイデビット; Robert D Sharp; ディーシャープロバート
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1997-04-14
Filing date: 1998-04-08
Publication date: 1998-12-18
Also published as: US6366886B1; JP4849894B2; US6078886A; CA2228917C; US20020091528A1; JP2003050594A; CA2228917A1; EP0872827A2; JP2006146262A; DE69829604T2; MX2007013015A; MX2007013017A; DE69829604D1; EP0872827B1; US6604077B2; EP0872827A3; MX9802754A

Abstract

(57)【要約】【課題】ＡＳＲ（自動スピーチ認識）エンジンをホス
トとするシステムから離れた場所にいるユーザがＡＳＲ
を利用できるようにする。【解決手段】クライアント−サーバアーキテクチャを
使用して、主ＡＳＲエンジンの場所から離れたクライア
ントの場所でＡＳＲサービスをアクセス可能にする。す
なわち、パケットネットワーク１２０、たとえばインタ
ーネットを介してクライアントＰＣ１４０とサーバノー
ド１１０が接続される。ＡＳＲサーバ１００がＡＳＲク
ライアント１３０から文法を受け、クライアントからの
スピーチを表す情報を受け、スピーチ認識を実行し、認
識したスピーチに基づく情報をＡＳＲクライアント１３
０に返す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般にスピーチ認識
に関し、より詳細には、パケットネットワークを介して
遠隔アクセス可能な自動スピーチ認識サービスを提供す
る方法に関する。

【０００２】

【従来の技術】自動スピーチ認識（ＡＳＲ）を達成する
ための技術は周知である。公知のＡＳＲ技術の中には、
文法を利用するものがある。「文法」とは、所与の文脈
の中で使用または発話されると予想される言語または句
の表現である。そこで、ある意味で、ＡＳＲ文法は通
常、スピーチ認識系を、潜在的に話される語の領域の部
分集合である語彙に制限する。文法はサブグラマを含む
こともある。そして、ＡＳＲ文法規則を使用して、所与
の文脈で予想することができる一つ以上の文法またはサ
ブグラマから「句」または語の組み合わせの集合を表す
ことができる。「文法」はまた、一般に、統計的な言語
モデル（モデルが句を表す）、たとえば言語理解システ
ムに使用されるモデルをいうこともある。

【０００３】最近、何らかの形態の自動スピーチ認識
（「ＡＳＲ」）方法を利用する製品およびサービスが商
業的に導入された。たとえば、ＡＴ＆Ｔは、複雑なＡＳ
Ｒサービスの展開を可能にする、ワトソン（WATSON）と
呼ばれる文法ベースのＡＳＲエンジンを開発した。この
ようなＡＳＲ技術を利用する複雑なＡＳＲサービスに望
まれる属性には、高い認識精度、話者が異なるアクセン
トや方言を有する場合および／またはバッググラウンド
ノイズの存在における認識を可能にする強健性、多大な
語彙を扱う能力ならびに自然な言語理解がある。複雑な
ＡＳＲサービスに必要なこれらの属性を達成するため、
ＡＳＲ技術およびエンジンは通常、所望のスピーチ認識
機能を達成するための有意な処理能力を有するコンピュ
ータベースのシステムを必要とする。本明細書に使用す
る「処理能力」とは、プロセッサ速度、メモリ、ディス
ク空間ならびにアプリケーションデータベースへのアク
セスをいう。このような処理の必要条件が、通常はパー
ソナルコンピュータ（ＰＣ）技術に基づく大部分のデス
クトップシステムの能力を超越してしまうため、デスク
トップで利用可能な複雑なＡＳＲサービスの展開を制限
してきた。

【０００４】パケットネットワークは、スピーチやオー
ディオを含む種々のタイプの記憶データを送るのに好適
である汎用データネットワークである。既存のパケット
ネットワークの中で最大かつもっとも有名なインターネ
ットは、約１４０か国の４００万台を超えるコンピュー
タを接続している。インターネットの全世界的かつ指数
関数的な成長は、今日の一般的知識である。

【０００５】

【発明が解決しようとする課題】通常、インターネット
のようなパケットネットワークには、コンピュータ、た
とえばＰＣ上で動作するクライアントソフトウェアプロ
グラムを介してアクセスするため、パケットネットワー
クは本来、クライアント／サーバ指向である。パケット
ネットワークを介して情報にアクセスする一つの方法
は、クライアントがウェブサーバと対話することを可能
にするウェブブラウザ（たとえばネットスケープコミュ
ニケーションズ社（Netscape Communications, In
c.）から市販されているネットスケープナビゲータ（Ne
tscape Navigator）およびマイクロソフト社（Microso
ft Corp.）から市販されているインターネットエクス
プローラ（Internet Explorer）の使用による方法であ
る。ウェブサーバおよびその中で利用できる情報は通
常、ＵＲＬ（Uniform Resource Locator）互換性のア
ドレスによって識別され、指定される。ＵＲＬアドレス
指定は、インターネットおよびイントラネットアプリケ
ーションで広く使用され、当業者には周知である（「イ
ントラネット」とは、機能性においてインターネットを
モデルにしたパケットネットワークであり、たとえば企
業によって局所的または社内的に使用されている）。

【０００６】望まれるものは、ＡＳＲエンジンをホスト
するシステムから離れた場所、たとえばデスクトップに
いるユーザにとって利用可能にすることができるＡＳＲ
サービスを可能にする方法である。

【０００７】

【課題を解決するための手段】クライアント−サーバア
ーキテクチャを使用して自動スピーチ認識サービスを運
用するシステムおよび方法を使用して、主ＡＳＲエンジ
ンの場所から離れたクライアントの場所でＡＳＲサービ
スをアクセス可能にする。本発明によると、インターネ
ットのようなパケットネットワークを介するクライアン
ト−サーバ通信を使用して、ＡＳＲサーバがクライアン
トから文法を受け、クライアントからスピーチを表す情
報を受け、スピーチ認識を実行し、認識したスピーチに
基づく情報をクライアントに返す。本発明の代替態様
は、所望の文法に対するアクセスを得るために多様な方
法、スピーチ情報をＡＳＲサーバに転送する前のＡＳＲ
クライアントでの処理ステップとしての圧縮または特徴
抽出の使用、クライアントとサーバとの間での会話の設
定ならびに用紙記入サービスの運用を含む。

【０００８】より詳細には、第１の発明は、クライアン
トによってパケットネットワークを介してアクセス可能
な自動スピーチ認識サービス提供方法において、ａ．スピーチ認識に使用される文法に対応する情報をク
ライアントからパケットネットワークを介して受けるス
テップと、ｂ．スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、ｃ．文法にしたがって自動スピーチ認識アルゴリズムを
適用することにより、受けたスピーチ情報を認識するス
テップと、ｄ．認識したスピーチに基づく情報をパケットネットワ
ークを介してクライアントに送るステップと、を含むことを特徴とする。

【０００９】また、第２の発明は、第１の発明におい
て、文法に対応する情報が文法の場所に対応するアドレ
スであるならば、対応する文法アドレスに位置する文法
に対するアクセスを得るステップをさらに含むことを特
徴とする。

【００１０】また、第３の発明は、第２の発明におい
て、文法の場所に対応するアドレスがユニフォームリソ
ースロケータ互換性アドレスであることを特徴とする。

【００１１】また、第４の発明は、第１の発明におい
て、スピーチを表す情報がクライアントからストリーム
式に到着することを特徴とする。

【００１２】また、第５の発明は、第１の発明におい
て、クライアントから受けたスピーチを表す情報がデジ
タル化スピーチを含むことを特徴とする。

【００１３】また、第６の発明は、第１の発明におい
て、クライアントから受けたスピーチを表す情報が、圧
縮されたデジタル化スピーチを含むことを特徴とする。

【００１４】また、第７の発明は、第１の発明におい
て、クライアントから受けたスピーチを表す情報が、デ
ジタル化スピーチからクライアントによって抽出された
特徴を含むことを特徴とする。

【００１５】また、第８の発明は、新たなスピーチ情報
をクライアントから受けるたびに、受けたスピーチ情報
を認識するステップを繰り返すことを特徴とする。

【００１６】また、第９の発明は、第１の発明におい
て、認識したスピーチに基づく情報がテキスト情報を含
むことを特徴とする。

【００１７】また、第１０の発明は、第１の発明におい
て、認識したスピーチに基づく情報がさらなるスピーチ
を含むことを特徴とする。

【００１８】また、第１１の発明は、第１の発明におい
て、さらなるスピーチ情報を認識するたびに、認識した
スピーチに基づく情報を送るステップを繰り返すことを
特徴とする。

【００１９】また、第１２の発明は、第１１の発明にお
いて、前にクライアントに送られた認識されたスピーチ
に基づく情報の修正版をクライアントに送るステップを
さらに含むことを特徴とする。

【００２０】また、第１３の発明は、第１の発明におい
て、ステップｂ、ｃおよびｄを繰り返して、クライアン
トとサーバとの間で情報の交換を行うことを特徴とす
る。

【００２１】また、第１４の発明は、第１３の発明にお
いて、認識したスピーチに基づく情報がテキスト情報を
含むことを特徴とする。

【００２２】また、第１５の発明は、第１３の発明にお
いて、認識したスピーチに基づく情報がさらなるスピー
チを含むことを特徴とする。

【００２３】また、第１６の発明は、第１の発明におい
て、クライアントからパケットネットワークを介して受
けた要求に応答して文法規則を駆動するステップをさら
に含むことを特徴とする。

【００２４】また、第１７の発明は、第１の発明におい
て、文法に対応するハンドルをパケットネットワークを
介してクライアントに送るステップをさらに含むことを
特徴とする。

【００２５】また、第１８の発明は、クライアントによ
ってパケットネットワークを介してアクセス可能な自動
スピーチ認識サービス提供システムにおいて、ａ．プログラム可能なプロセッサと、ｂ．メモリと、ｃ．オーディオ入力装置と、ｄ．パケットネットワークを介してクライアントとの通
信リンクを確立するための通信インタフェースと、を含み、前記プロセッサが、ｉ．スピーチ認識に使用される文法に対応する情報をク
ライアントからパケットネットワークを介して受けるス
テップと、 ii．スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、 iii．文法にしたがって自動スピーチ認識アルゴリズム
を適用することにより、受けたスピーチ情報を認識する
ステップと、 iv．認識したスピーチに基づく情報をパケットネットワ
ークを介してクライアントに送るステップと、を実行するようにプログラムされていることを特徴とす
る。

【００２６】また、第１９の発明は、第１８の発明にお
いて、プロセッサがさらに、文法に対応する情報が文法
の場所に対応するアドレスであるならば、対応する文法
アドレスに位置する文法に対するアクセスを得るステッ
プを実行するようにプログラムされていることを特徴と
する。

【００２７】また、第２０の発明は、第１９の発明にお
いて、文法の場所に対応するアドレスがユニフォームリ
ソースロケータ互換性アドレスであることを特徴とす
る。

【００２８】また、第２１の発明は、第１８の発明にお
いて、スピーチを表す情報がクライアントからストリー
ム式に到着することを特徴とする。

【００２９】また、第２２の発明は、第１８の発明にお
いて、クライアントから受けたスピーチを表す情報がデ
ジタル化スピーチを含むことを特徴とする。

【００３０】また、第２３の発明は、第１８の発明にお
いて、クライアントから受けたスピーチを表す情報が、
圧縮されたデジタル化スピーチを含むことを特徴とす
る。

【００３１】また、第２４の発明は、第１８の発明にお
いて、クライアントから受けたスピーチを表す情報が、
デジタル化スピーチからクライアントによって抽出され
た特徴を含むことを特徴とする。

【００３２】また、第２５の発明は、第１８の発明にお
いて、プロセッサがさらに、新たなスピーチ情報をクラ
イアントから受けるたびに、受けたスピーチ情報を認識
するステップを繰り返すようにプログラムされているこ
とを特徴とする。

【００３３】また、第２６の発明は、第１８の発明にお
いて、認識したスピーチに基づく情報がテキスト情報を
含むことを特徴とする。

【００３４】また、第２７の発明は、第１８の発明にお
いて、認識したスピーチに基づく情報がさらなるスピー
チを含むことを特徴とする。

【００３５】また、第２８の発明は、第１８の発明にお
いて、プロセッサがさらに、さらなるスピーチ情報を認
識するたびに、認識したスピーチに基づく情報を送るス
テップを繰り返すようにプログラムされていることを特
徴とする。

【００３６】また、第２９の発明は、第２８の発明にお
いて、プロセッサがさらに、前にクライアントに送られ
た認識されたスピーチに基づく情報の修正版をクライア
ントに送るステップを実行するようにプログラムされて
いることを特徴とする。

【００３７】また、第３０の発明は、第１８の発明にお
いて、プロセッサがさらに、ステップii、iiiおよびiv
を繰り返して、クライアントとサーバとの間で情報の交
換を行わせるようにプログラムされていることを特徴と
する。

【００３８】また、第３１の発明は、第３０の発明にお
いて、認識したスピーチに基づく情報がテキスト情報を
含むことを特徴とする。

【００３９】また、第３２の発明は、第３０の発明にお
いて、認識したスピーチに基づく情報がさらなるスピー
チを含むことを特徴とする。

【００４０】また、第３３の発明は、第１８の発明にお
いて、プロセッサがさらに、クライアントからパケット
ネットワークを介して受けた要求に応答して文法規則を
駆動するステップを実行するようにプログラムされてい
ることを特徴とする。

【００４１】また、第３４の発明は、第１８の発明にお
いて、プロセッサがさらに、文法に対応するハンドルを
パケットネットワークを介してクライアントに送るステ
ップを実行するようにプログラムされていることを特徴
とする。

【００４２】また、第３５の発明は、クライアントによ
ってパケットネットワークを介してアクセス可能な自動
スピーチ認識サービスを提供するための命令を記憶した
コンピュータ読み取り可能な媒体を含む製品において、
前記命令が、プロセッサによって実行されると、プロセ
ッサをして、ａ．スピーチ認識に使用される文法に対応する情報をク
ライアントからパケットネットワークを介して受けるス
テップと、ｂ．スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、ｃ．文法にしたがって自動スピーチ認識アルゴリズムを
適用することにより、受けたスピーチ情報を認識するス
テップと、ｄ．認識したスピーチに基づく情報をパケットネットワ
ークを介してクライアントに送るステップと、を実行させることを特徴とする。

【００４３】また、第３６の発明は、第３５の発明にお
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、文法に対応する情報が文法の場所
に対応するアドレスであるならば、対応する文法アドレ
スに位置する文法に対するアクセスを得るステップを実
行させることを特徴とする。

【００４４】また、第３７の発明は、第３６の発明にお
いて、文法の場所に対応するアドレスがユニフォームリ
ソースロケータ互換性アドレスであることを特徴とす
る。

【００４５】また、第３８の発明は、第３５の発明にお
いて、スピーチを表す情報がクライアントからストリー
ム式に到着することを特徴とする。

【００４６】また、第３９の発明は、第３５の発明にお
いて、クライアントから受けたスピーチを表す情報がデ
ジタル化スピーチを含むことを特徴とする。

【００４７】また、第４０の発明は、第３５の発明にお
いて、クライアントから受けたスピーチを表す情報が、
圧縮されたデジタル化スピーチを含むことを特徴とす
る。

【００４８】また、第４１の発明は、第３５の発明にお
いて、クライアントから受けたスピーチを表す情報が、
デジタル化スピーチからクライアントによって抽出され
た特徴を含むことを特徴とする。

【００４９】また、第４２の発明は、第３５の発明にお
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、新たなスピーチ情報をクライアン
トから受けるたびに、受けたスピーチ情報を認識するス
テップを繰り返させることを特徴とする。

【００５０】また、第４３の発明は、第３５の発明にお
いて、認識したスピーチに基づく情報がテキスト情報を
含むことを特徴とする。

【００５１】また、第４４の発明は、第３５の発明にお
いて、認識したスピーチに基づく情報がさらなるスピー
チを含むことを特徴とする。

【００５２】また、第４５の発明は、第３５の発明にお
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、さらなるスピーチ情報を認識する
たびに、認識したスピーチに基づく情報を送るステップ
を繰り返させることを特徴とする。

【００５３】また、第４６の発明は、第４５の発明にお
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、前にクライアントに送られた認識
されたスピーチに基づく情報の修正版をクライアントに
送るステップを実行させることを特徴とする。

【００５４】また、第４７の発明は、第３５の発明にお
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、ステップｂ、ｃおよびｄを繰り返
させて、クライアントとサーバとの間で情報の交換を行
わせることを特徴とする。

【００５５】また、第４８の発明は、第４７の発明にお
いて、認識したスピーチに基づく情報がテキスト情報を
含むことを特徴とする。

【００５６】また、第４９の発明は、第４７の発明にお
いて、認識したスピーチに基づく情報がさらなるスピー
チを含むことを特徴とする。

【００５７】また、第５０の発明は、第３５の発明にお
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、クライアントからパケットネット
ワークを介して受けた要求に応答して文法規則を駆動す
るステップを実行させることを特徴とする。

【００５８】また、第５１の発明は、第３５の発明にお
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、文法に対応するハンドルをパケッ
トネットワークを介してクライアントに送るステップを
実行させることを特徴とする。

【００５９】また、第５２の発明は、クライアントによ
ってパケットネットワークを介してアクセス可能な自動
用紙記入サービスを提供する方法において、ａ．スピーチ認識に使用される文法であって、用紙に挿
入されるテキスト情報に対応する語に対応する文法に対
応する情報をクライアントからパケットネットワークを
介して受けるステップと、ｂ．スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、ｃ．文法にしたがって自動スピーチ認識アルゴリズムを
適用することにより、受けたスピーチ情報を認識するス
テップと、ｄ．認識したスピーチに対応するテキストを、用紙に挿
入することができるよう、パケットネットワークを介し
てクライアントに送るステップと、を含むことを特徴とする。

【００６０】また、第５３の発明は、第５２の発明にお
いて、文法に対応する情報が文法の場所に対応するアド
レスであるならば、対応する文法アドレスに位置する文
法に対するアクセスを得るステップをさらに含むことを
特徴とする。

【００６１】また、第５４の発明は、第５３の発明にお
いて、文法の場所に対応するアドレスがユニフォームリ
ソースロケータ互換性アドレスであることを特徴とす
る。

【００６２】また、第５５の発明は、第５２の発明にお
いて、クライアントから受けたスピーチを表す情報がデ
ジタル化スピーチを含むことを特徴とする。

【００６３】また、第５６の発明は、第５２の発明にお
いて、クライアントから受けたスピーチを表す情報が、
圧縮されたデジタル化スピーチを含むことを特徴とす
る。

【００６４】また、第５７の発明は、第５２の発明にお
いて、クライアントから受けたスピーチを表す情報が、
デジタル化されたスピーチからクライアントによって抽
出された特徴を含むことを特徴とする。

【００６５】また、第５８の発明は、第５２の発明にお
いて、クライアントからパケットネットワークを介して
受けた要求に応答して文法規則を駆動するステップをさ
らに含むことを特徴とする。

【００６６】また、第５９の発明は、第５２の発明にお
いて、文法に対応するハンドルをパケットネットワーク
を介してクライアントに送るステップをさらに含むこと
を特徴とする。

【００６７】

【発明の実施の形態】本発明は、遠隔利用可能なＡＳＲ
サービスを提供するためのクライアント−サーバベース
のシステムに関する。本発明によると、ユーザが、完全
なＡＳＲ技術を実行するのに要する広範な処理能力を有
するコンピュータハードウェアを取得する必要なく、イ
ンターネットのようなパケットネットワークを介して、
ＡＳＲサービスをユーザに対し、たとえばユーザのデス
クトップで提供することができる。

【００６８】本発明にしたがって使用される基本的なク
ライアント−サーバアーキテクチャを図１に示す。ＡＳ
Ｒサーバ１００は、パケットネットワーク１２０（たと
えばインターネット）を介して他のコンピュータにリン
クすることができる、サーバノード１１０と指定される
システムの上で動作するＡＳＲソフトウェアエンジンで
ある。サーバノード１１０は、通常、複雑なＡＳＲベー
スのアプリケーション、たとえばＡＴ＆Ｔ社のワトソン
（WATSON）システムを動作させるのに十分な処理能力を
有するコンピュータであってもよい。パケットネットワ
ーク１２０は、例として、インターネットでもよいし、
イントラネットでもよい。

【００６９】ＡＳＲクライアント１３０は、クライアン
トＰＣ１４０上で動作する比較的小さなプログラム（Ａ
ＳＲ１００に比較して）である。クライアントＰＣ１４
０は、クライアントアプリケーション、たとえばウェブ
ブラウザを動作させるのに十分な処理能力を有するコン
ピュータ、たとえばパーソナルコンピュータ（ＰＣ）で
ある。クライアントＰＣは、ハードウェア、たとえばマ
イクおよび可聴音、たとえばスピーチの入力および捕捉
のためのソフトウェアを含む。マイクをＰＣに接続し、
ＰＣで可聴音、たとえばスピーチを捕捉する方法は周知
である。ＰＣのスピーチ処理能力の例には、マイクロソ
フト社のスピーチアプリケーションプログラマインタフ
ェース（ＳＡＰＩ）およびＡＴ＆Ｔ社のアドバンストス
ピーチアプリケーションプログラマインタフェース（Ａ
ＳＡＰＩ）がある。マイクロソフト社のＳＡＰＩの詳細
は、たとえば、「スピーチＡＰＩデベロッパーズガイ
ド、ウィンドウズ（商標）９５版（Speech API Devel
opers Guide, WindowsＴＭ95 Edition）」と題する
出版物（バージョン１．０、マイクロソフト社、１９９
５）に見いだされ、ＡＴ＆Ｔ社のＡＳＡＰＩの詳細は、
「アドバンストスピーチＡＰＩデベロッパーズガイド
（Advanced Speech API Developers Guide）」と題
する出版物（バージョン１．０、ＡＴ＆Ｔ社、１９９
６）に記載されている。これらの出版物をいずれも引用
例として本明細書に含める。本発明の代替態様は、スピ
ーチ入力をマイク以外のオーディオソースによって提供
することができるようなＡＳＲクライアント１３０と一
つ以上の音声チャネルとのインタフェースを利用するこ
とができる。

【００７０】クライアントＰＣ１４０はまた、パケット
ネットワーク（たとえばインターネット）を介して他の
コンピュータと通信する能力を有する。パケットネット
ワーク（たとえばインターネット）を介して他のコンピ
ュータとの通信リンクを確立する方法は周知であり、た
とえば、モデムを使用して電話回線からインターネット
サービスプロバイダにダイヤルインする方法がある。

【００７１】ＡＳＲサーバ１００とＡＳＲクライアント
１３０とは、たとえば伝送制御プロトコル／インターネ
ットプロトコル（ＴＣＰ／ＩＰ）ソケットのような標準
通信プロトコルを使用するパケットネットワークを介し
て情報を通信する（データ伝送を含む）のに適した公知
の方法を使用することにより、ＡＳＲサーバ１００がサ
ーバノード１１０を介し、ＡＳＲクライアントがクライ
アントＰＣ１４０を介して、パケットネットワーク１２
０上で互いに通信することができる。ＴＣＰ／ＩＰソケ
ットとは、情報を中に通してパケットネットワークを介
してある地点から別の地点まで伝送することができるパ
イプのようなものである。

【００７２】ＡＳＲサーバ１００とＡＳＲクライアント
１３０との間のＴＣＰ／ＩＰソケットの確立が、本発明
にしたがって遠隔ＡＳＲサービスを可能にするのに必要
な、ＡＳＲサーバ１００とＡＳＲクライアント１３０と
の間の、パケットネットワーク１２０を介するデータの
伝送を可能にする。ＡＳＲクライアント１３０はまた、
クライアントＰＣ１４０のオーディオ／スピーチ入出力
機能およびテキスト／グラフィックス表示機能とインタ
フェースする。オーディオおよびスピーチの入出力を扱
う方法およびインタフェースは周知であり、テキストお
よびグラフィックスの表示を扱う方法およびインタフェ
ースもまた周知である。

【００７３】ＡＳＲクライアント１３０は、クライアン
トＰＣ１４０の中で動作するよう、いくつかの方法でセ
ットアップすることができる。たとえば、ＡＳＲクライ
アント１３０は、永久的なデータ記憶媒体、たとえば磁
気ディスクまたはＣＤ−ＲＯＭからクライアントＰＣ１
４０にロードすることもできる。あるいはまた、ＡＳＲ
クライアント１３０は、パケットネットワーク、たとえ
ばインターネット上で見つけることができる情報または
データのソースからダウンロードしてもよい。ＡＳＲク
ライアント１３０のダウンロードは、たとえば、一度だ
け実施してクライアントＰＣ１４０の中に永久的に常駐
させることもできる。あるいはまた、ＡＳＲクライアン
ト１３０は、一回または限られた回数の使用のためにダ
ウンロードすることもできる。ＡＳＲクライアント１３
０は、たとえば、クライアントＰＣ１４０上で動作する
別のプログラム、たとえばウェブブラウザのための小さ
なプラグインソフトウェアモジュールとして実現しても
よい。これを達成する一つの方法は、ＡＳＲクライアン
ト１３０を、マイクロソフト社のアクティブＸ（Active
-X）規格に準拠するアクティブＸソフトウェアコンポー
ネントにする方法である。このようにして、ＡＳＲクラ
イアント１３０を、たとえば、以下のようなウェブブラ
ウジングセッションとともにクライアントＰＣ１４０に
ロードすることができる。クライアントＰＣ１４０を使
用してワールドワイドウェブをブラウジングするユーザ
が、ＡＳＲ機能を有するウェブサイトに入る。ウェブサ
イトが、署名されたアクティブＸ制御にしたがってＡＳ
ＲクライアントモジュールをクライアントＰＣ１４０に
ダウンロードするためのユーザ許可を問う。ユーザが認
可されると、ＡＳＲクライアント１３０がクライアント
ＰＣ１４０にダウンロードされる。同様に、ＡＳＲサー
バ１００を、サーバノード１１０の中で動作するよう、
いくつかの方法でセットアップすることができる。たと
えば、ＡＳＲサーバ１００は、永久的なデータ記憶媒
体、たとえば磁気ディスクまたはＣＤ−ＲＯＭからサー
バノード１００にロードすることもできるし、あるいは
また、パケットネットワーク、たとえばインターネット
上で見つけることができる情報またはデータのソースか
らダウンロードすることもできる。

【００７４】次に、図２〜７を参照しながら、本発明に
したがって遠隔ＡＳＲサービスを提供する詳細をさらに
説明する。これらの各図に関する以下の説明に際し、ク
ライアント−サーバの関係は図１に示すとおりであると
仮定する。セットアップ段階を使用して、ＡＳＲアプリ
ケーションの一部として自動スピーチ認識タスクを実行
するためにＡＳＲサーバ１００およびＡＳＲクライアン
ト１３０を準備する。便宜上、図１に示す項目であって
他の図にも見られるものは、図１の参照番号と同じ参照
番号によって識別する。

【００７５】ここで図２を参照して、遠隔ＡＳＲサービ
スを提供するプロセスのセットアップ段階を説明する。
まずステップ２０１で、ＡＳＲクライアント１３０が、
クライアント文法をロードするよう、アプリケーション
から要求を受ける。クライアント文法は、一例として、
特定のＡＳＲアプリケーションの文脈で発話されると予
想される言語を表す情報（たとえば語句）を含むデータ
ファイルである。データファイルは、公知のフォーマッ
ト、たとえばマイクロソフト社ＳＡＰＩの一部である標
準文法フォーマット（ＳＧＦ）であることができる。

【００７６】例を挙げるため、ピザの注文を受けるため
のＡＳＲアプリケーションを引用して本発明を説明す
る。ＡＳＲサービスアプリケーション、たとえばピザ注
文のアプリケーションは通常、ＡＳＲアプリケーション
のタスクを達成するために使用されるリソースとして、
ＡＳＲクライアント１３０と対話し、それを使用するプ
ログラムを含むであろう。このようなＡＳＲアプリケー
ションは、全部または一部が、クライアントＰＣ１４０
の中に常駐し、その中で動作することができる。

【００７７】ピザ注文の例を考えると、クライアント文
法ＰＩＺＺＡは、ピザを注文する際に使用するかもしれ
ない語、たとえば「ピザ」、「ペパロニ」などを表す情
報を含むであろう。実際には、サブグラマを使用して適
切な文法を構成するかもしれない。ピザ注文の例の場
合、ＰＩＺＺＡ文法のサブグラマは、ＳＩＺＥおよびＴ
ＯＰＰＩＮＧを含むかもしれない。サブグラマＳＩＺＥ
は、希望のピザのサイズを説明するのに使用される語、
たとえば「小」、「中」および「大」からなることがで
きる。サブグラマＴＯＰＰＩＮＧは、ピザについて注文
するかもしれない種々のトッピング（具）、たとえば
「ソーセージ」、「ペパロニ」、「マッシュルーム」な
どからなることができる。

【００７８】ＡＳＲクライアント１３０は、アプリケー
ションから所望の文法を与えられることもできるし、あ
るいはまた、アプリケーションによって提供される情報
に基づく所定の集合から文法を選択することもできる。
いずれにしても、ＡＳＲクライアント１３０は、次にス
テップ２０２で、所望の文法ファイルをＴＣＰ／ＩＰソ
ケットを介してＡＳＲサーバ１００に送る。クライアン
トＰＣ１４０とサーバノード１１０との間の新たな通信
セッションの確立の一部として新たなＴＣＰ／ＩＰソケ
ットをセットアップしなければならないかもしれない
か、あるいは、クライアントＰＣ１４０と、終端してい
ないサーバノード１１０との間に確立された通信セッシ
ョンの結果としてＴＣＰ／ＩＰソケットがすでに存在す
るかもしれない。ピザ注文の例では、ＡＳＲクライアン
ト１３０が、ＰＩＺＺＡ文法を含むファイルをＴＣＰ／
ＩＰソケットを介してＡＳＲサーバ１００に伝送するこ
とになる。

【００７９】ＡＳＲサーバ１００は、ステップ２０３
で、ＡＳＲクライアント１３０から送られたクライアン
ト文法を受け、ステップ２０４で、伝送されたクライア
ント文法をロードする。本明細書に使用する、クライア
ント文法の「ロード」とは、たとえば文法をサーバノー
ド１１０のＲＡＭに記憶することにより、その文法をＡ
ＳＲサーバ１００による使用のためにアクセス可能にす
ることをいう。ステップ２０５で、ＡＳＲサーバ１００
は文法「ハンドル」をＡＳＲクライアント１３０に返
す。文法「ハンドル」とは、通信セッションの残り期間
またはアプリケーション実行の際にＡＳＲクライアント
が文法を容易に参照することを可能にするマーカ、たと
えば、ロードされた文法を含むメモリを指し示すポイン
タである。ＡＳＲクライアント１３０は、ステップ２０
６で、ＡＳＲサーバ１００から文法ハンドルを受け、ス
テップ２０７で、そのハンドルをアプリケーションに返
す。ピザ注文の例では、ＡＳＲサーバ１００は、伝送さ
れたＰＩＺＺＡ文法ファイルを受け、ロードし、ロード
されたＰＩＺＺＡ文法を指し示すハンドルをＡＳＲクラ
イアント１３０に返送する。ＡＳＲクライアントは逆
に、ＡＳＲサーバ１００からＰＩＺＺＡハンドルを受
け、そのＰＩＺＺＡハンドルをピザ注文アプリケーショ
ンに返す。この方法で、アプリケーションは、ピザ注文
アプリケーションの一部としてＡＳＲタスクを実行また
は開始するとき、ＰＩＺＺＡハンドルを簡単に参照する
ことができる。

【００８０】次に、図３を参照しながら代替のセットア
ップ手法を説明する。本明細書の記載の残り部分につい
て、ＡＳＲサーバ１００とＡＳＲクライアント１３０と
の間の情報またはデータの伝送または通信は、確立され
たＴＣＰ／ＩＰソケットを介して起こるものと仮定す
る。ステップ３０１で、ＡＳＲクライアント１３０が、
クライアント文法をロードするよう、アプリケーション
から要求を受ける。しかし、ＡＳＲクライアント１３０
は、ステップ３０２で、クライアント文法をデータファ
イルとしてＡＳＲサーバ１００に送るのではなく、代わ
りに、「缶入り」文法を表す識別子をＡＳＲサーバ１０
０に送る。「缶入り文法」とは、たとえば、ＡＳＲサー
バ１００がすでに記憶しているであろう共通の文法、た
とえばＴＩＭＥ−ＯＦ−ＤＡＹまたはＤＡＴＥである。
あるいはまた、ＡＳＲクライアント１３０は、ＡＳＲサ
ーバ１００に対し、ＡＳＲサーバ１００が所望の文法フ
ァイルを見つけることができるところのＩＰアドレス、
たとえばＵＲＬ互換性アドレスを送ることもできる。Ａ
ＳＲサーバ１００は、ステップ３０３で、文法識別子ま
たはＵＲＬ文法アドレスをＡＳＲクライアント１３０か
ら受け、ステップ３０４で、要求されたクライアント文
法を見つけ、ロードし、ステップ３０５で、文法ハンド
ルをＡＳＲクライアント１３０に返す。図２に関して上
述したステップと同様に、ＡＳＲクライアント１３０
は、ステップ３０６で、ＡＳＲサーバ１００から文法ハ
ンドルを受け、ステップ３０７で、そのハンドルをアプ
リケーションに返す。ピザ注文の例の場合、ＡＳＲクラ
イアント１３０が、ＰＩＺＺＡ文法の文法識別子（「缶
入り」文法の場合）またはＰＩＺＺＡ文法を含むファイ
ルの場所のＵＲＬアドレスをＡＳＲサーバ１００に送る
ということを除き、図２に関連して上述したステップは
同じになるであろう。ＡＳＲサーバ１００が逆に、その
文法識別子またはＵＲＬアドレス（ＡＳＲクライアント
によって送られたもの）に基づいてＰＩＺＺＡ文法のフ
ァイルを検索したのち、要求されたＰＩＺＺＡ文法をロ
ードするであろう。

【００８１】文法をロードし、文法ハンドルをＡＳＲク
ライアント１３０に返したのち、ＡＳＲサービスアプリ
ケーションは、駆動すべき文法規則を選択しなければな
らない。図４は、本発明による文法規則選択のプロセス
を示す。ＡＳＲクライアント１３０が、ステップ４０１
で、文法規則を駆動するよう、アプリケーションから要
求を受ける。ステップ４０２で、ＡＳＲクライアントは
規則駆動要求をＡＳＲサーバ１００に送る。図４に示す
ように、ＡＳＲクライアント１３０はまた、ステップ４
０２で、前に返された文法ハンドルをＡＳＲサーバ１０
０に送ることもできる（これにより、ＡＳＲサーバが、
文法ハンドルによって識別される特定の文法に適切な文
法規則を駆動することを可能にする）。ＡＳＲサーバ１
００は、ステップ４０３で、規則駆動要求および文法ハ
ンドル（送られたならば）を受ける。ステップ４０４
で、ＡＳＲサーバ１００は、要求された規則を駆動し、
ステップ４０５で、要求された規則が駆動されたという
通知をＡＳＲクライアント１３０に返す。ＡＳＲクライ
アント１３０は、ステップ４０６で、規則駆動の通知を
受け、ステップ４０７で、規則が駆動されたことをアプ
リケーションに通知する。ひとたびアプリケーションが
規則駆動の通知を受けたならば、アプリケーションはス
ピーチの認識を開始することができる。

【００８２】図４に示すプロセスを説明するため、再
び、ピザ注文の例を考えてみる。ピザの注文を認識する
のに使用することができる規則は、注文に望まれる句
を、「ピザ」という語とともにサブグラマＳＩＺＥおよ
びＴＯＰＰＩＮＧＳを含むようにセットすることがで
き、以下のように指定されるかもしれない｛ＯＲＤＥＲ
＝ＳＩＺＥ「ｐｉｚｚａ（ピザ）」「ｗｉｔｈ（入
り）」ＴＯＰＰＩＮＧＳ｝。すなわち、英語では "S
IZE pizza with TOPPING"であり、日本語では「ｘｘ入
り○○ピザ」となる。ｘｘがトッピングで、○○がサイ
ズである。再び図４を参照すると、ＡＳＲクライアント
１３０は、ピザ注文規則を駆動する要求をアプリケーシ
ョンから受け、上述のＯＲＤＥＲ規則をＰＩＺＺＡ文法
ハンドルとともにＡＳＲサーバ１００に送る。ＡＳＲサ
ーバは、規則駆動要求をＰＩＺＺＡ文法ハンドルととも
に受け、ＯＲＤＥＲ規則を駆動して、認識系が、ＳＩＺ
Ｅサブグラマからの語、語「ピザ」、語「入り」および
サブグラマＴＯＰＰＩＮＧＳからの語のみの認識に制限
されるようにする。ＯＲＤＥＲ規則を駆動したのち、Ａ
ＳＲサーバ１００は、規則駆動の通知をＡＳＲクライア
ント１３０に送り、ＡＳＲクライアントが逆にそれをア
プリケーションに通知する。

【００８３】ひとたび文法規則が駆動されると、規則に
したがって文法の語を認識する目的のスピーチ処理が起
こる。図５を参照すると、ステップ５０１で、ＡＳＲク
ライアント１３０が、スピーチ認識タスクを開始するよ
う、アプリケーションから要求を受ける。ステップ５０
２で、ＡＳＲクライアント１３０は、クライアントＰＣ
１４０のオーディオ入力からストリーム式オーディオを
要求する。「ストリーム式オーディオ」とは、より多く
のオーディオが入ってくるのと同時に、オーディオがオ
ンザフライ（間髪を入れず）式に処理されることをい
う。システムは、オーディオ入力のすべて（すなわち、
スピーチ全体）が入ってきてはいないうちから、デジタ
ル処理のためにオーディオを送り出し始める。ストリー
ム式オーディオはまた、さらなるオーディオが入力され
るのと同時に、オーディオ信号の一部が部分的に伝送さ
れることをいう。例として、ストリーム式オーディオの
要求は、クライアントＰＣ１４０上で動作するオペレー
ティングシステムに対し、マイク入力からのストリーム
式オーディオがクライアントＰＣ１４０の音声プロセッ
サによってデジタル化されるような適切なソフトウェア
呼び出しを実施することによって達成することができ
る。そして、マイク入力からデジタル化されたストリー
ム式オーディオはＡＳＲクライアント１３０に渡され
る。そして、ＡＳＲクライアント１３０が、ステップ５
０３で、ストリーム式デジタル化オーディオをＡＳＲサ
ーバ１００に伝送し始める。マイクからのオーディオ入
力と同様に、デジタル化オーディオもまた、スピーチ入
力が続いているうちから、オンザフライ式にＡＳＲサー
バ１００に送られる。

【００８４】ステップ５０４で、ＡＳＲサーバ１００
は、ストリーム式デジタル化オーディオをＡＳＲクライ
アント１３０から受けるとき、そのオーディオに対して
スピーチ認識を実行する。スピーチ認識は、公知の認識
アルゴリズム、たとえばＡＴ＆Ｔ社のワトソン（WATSO
N）スピーチ認識エンジンによって用いられるアルゴリ
ズムを使用して実行され、駆動された規則によって定義
される選択された文法の制約の範囲内で実行される。ス
テップ５０５で、ＡＳＲサーバ１００は、入力スピーチ
を認識するのと同時に、ストリーム式テキスト（すなわ
ち、部分的に認識したスピーチ）を返す。したがって、
ＡＳＲサーバ１００は、その最初の結果に達すると、Ａ
ＳＲクライアント１３０によって送られてくるさらなる
ストリーム式オーディオを処理し続けているとしても、
その結果をＡＳＲクライアント１３０に返す。認識した
テキストをオンザフライ式に返すこのプロセスが、ＡＳ
Ｒクライアント１３０（またはＡＳＲクライアント１３
０とインタフェースするアプリケーション）が発話者に
フィードバックを提供することを可能にする。ＡＳＲサ
ーバ１００がさらなるストリーム式入力オーディオを処
理し続けるとき、ＡＳＲサーバは、スピーチ認識タスク
の一部として、返されるテキストが、すでにＡＳＲクラ
イアント１３０に返されたテキストの一部を実際に更新
（または修正）することができるような方法で、先のス
ピーチ認識の結果を修正することができる。ひとたびス
トリーム式オーディオのすべてをＡＳＲクライアント１
３０から受けたならば、ＡＳＲサーバは、そのスピーチ
認識処理を完了し、ステップ５０６で、認識したテキス
トの最終版（修正を含むもの）を返す。

【００８５】ステップ５０７で、ＡＳＲクライアント１
３０は、認識されたテキストをＡＳＲサーバ１００から
受け、ステップ５０８で、そのテキストをアプリケーシ
ョンに返す。ここでもまた、これは、認識されたテキス
トが入ってくるのと同時にオンザフライ式に実施するこ
とができ、ＡＳＲクライアントは、ＡＳＲサーバ１００
から受けた認識されたテキストに対する修正があればそ
れをアプリケーションに渡す。

【００８６】ピザ注文の例を参照すると、ひとたびＯＲ
ＤＥＲ規則が駆動され、アプリケーションが通知を受け
ると、ＡＳＲクライアント１３０は、スピーチ認識を開
始するよう要求を受け、マイク入力からストリーム式オ
ーディオを開始する。発話者は、ピザの注文を発話する
ように促されることができ、ひとたびスピーチが始まる
と、ＡＳＲクライアント１３０が、デジタル化されたス
トリーム式オーディオをＡＳＲサーバ１００に送る。し
たがって、発話者が、たとえば「大きいピザ、ソーセー
ジ、ペパロニ入り」を注文したいと述べると、ＡＳＲク
ライアント１３０は、その注文の最初の語に対するデジ
タル化ストリーム式データを、たとえ第二の語が話され
ている最中でも、ＡＳＲサーバ１００に送っている。注
文が発されているとき、ＡＳＲサーバ１００は、注文の
残りが話されているときでも、第一の語をテキスト「大
きい」として返す。最後に、ひとたび発話者がスピーチ
を止めると、その注文に対して認識された最終的なテキ
スト「大きいピザ、ソーセージ、ペパロニ入り」をＡＳ
Ｒクライアント１３０、ひいてはアプリケーションに返
すことができる。

【００８７】本発明にしたがってスピーチ認識プロセス
を実施するための代替態様を図６に示す。図５に示すス
ピーチ認識プロセスと同様に、ステップ６０１で、ＡＳ
Ｒクライアント１３０が、スピーチ認識タスクを開始す
るよう、アプリケーションから要求を受け、ステップ６
０２で、クライアントＰＣ１４０のオーディオ入力から
ストリーム式オーディオを要求する。そして、マイク入
力からデジタル化されたストリーム式オーディオがＡＳ
Ｒクライアント１３０に渡される。ステップ６０３で、
ＡＳＲクライアント１３０がデジタル化オーディオをオ
ンザフライ式に圧縮したのち、スピーチ入力が続くうち
から、圧縮したストリーム式のデジタル化オーディオを
ＡＳＲサーバ１００に伝送し始める。

【００８８】ステップ６０４で、ＡＳＲサーバ１００が
ＡＳＲクライアント１３０から受けた圧縮オーディオを
圧縮解除したのち、ストリーム式デジタル化オーディオ
に対してスピーチ認識を実行する。図５を参照して上述
したように、スピーチ認識は、駆動された規則によって
定義される選択された文法の制限の範囲で実行される。
ステップ６０５で、ＡＳＲサーバ１００が、入力された
スピーチを認識するのと同時にストリーム式テキスト
（すなわち、部分的に認識されたスピーチ）を返す。し
たがって、ＡＳＲサーバ１００は、ＡＳＲクライアント
１３０から送られてくるさらなる圧縮されたストリーム
式オーディオを処理し続けている間にも、最初の結果を
ＡＳＲクライアント１３０に返し、スピーチ認識タスク
の一部としてＡＳＲクライアント１３０にすでに戻され
たテキストの部分を更新または修正することができる。
ひとたびストリーム式オーディオのすべてをＡＳＲクラ
イアント１３０から受けたならば、ＡＳＲサーバは、そ
のスピーチ認識処理を完了し、ステップ６０６で、認識
したテキストの最終版（修正を含む）を返す。ＡＳＲク
ライアント１３０は、ステップ６０７で、ＡＳＲサーバ
１００から入ってくる認識されたテキストを受け、ステ
ップ６０８で、そのテキストをアプリケーションに返
す。

【００８９】本発明にしたがってスピーチ認識プロセス
を実施するためのもう一つの代替態様を図７に示す。図
５および６に示すスピーチ認識プロセスと同様に、ステ
ップ７０１で、ＡＳＲクライアント１３０が、スピーチ
認識タスクを開始するよう、アプリケーションから要求
を受け、ステップ７０２で、クライアントＰＣ１４０の
オーディオ入力からストリーム式オーディオを要求す
る。そして、マイク入力からデジタル化されたストリー
ム式オーディオがＡＳＲクライアント１３０に渡され
る。ステップ７０３で、ＡＳＲクライアント１３０がデ
ジタル化オーディオをオンザフライ式に処理してスピー
チ認識処理に有用な特徴を抽出したのち、スピーチ入力
が続くうちから、抽出した特徴をＡＳＲサーバ１００に
伝送し始める。スピーチからの適切な特徴の抽出は、通
常はスピーチ認識に用いられるアルゴリズムの一部であ
る文法非依存的処理を伴い、当業者には公知である方
法、たとえば線形予測符号化（ＬＰＣ）またはメル（Me
l）フィルタバンク処理に基づく方法を使用して実施す
ることができる。特徴抽出は、不要な情報、たとえば音
量を除去しながらも、音声信号の特徴から得られる情報
を提供する。

【００９０】抽出された特徴をＡＳＲクライアント１３
０から受けると、ＡＳＲサーバ１００は、ステップ７０
４で、オンザフライ式に（すなわち、ストリーム式オー
ディオの場合と同様に）到着してくる特徴に対してスピ
ーチ認識を実行する。スピーチ認識は、駆動された規則
によって定義される選択された文法の制限の範囲で実行
される。図５および６を参照しながら上記に論じた実施
態様の場合と同様に、ステップ７０５で、ＡＳＲサーバ
１００は、入力された特徴を認識するのと同時にストリ
ーム式テキスト（すなわち、部分的に認識したスピー
チ）をＡＳＲクライアント１３０に返す。ＡＳＲサーバ
１００は、ＡＳＲクライアント１３０から送られてくる
さらなる抽出された特徴を処理し続け、ＡＳＲクライア
ント１３０にすでに返したテキストの部分を更新または
修正することができる。抽出された特徴のすべてをＡＳ
Ｒクライアント１３０から受けると、ＡＳＲサーバは、
そのスピーチ認識処理を完了し、ステップ７０６で、認
識したテキストの最終版（修正を含む）を返す。ＡＳＲ
クライアント１３０は、ステップ７０７で、認識された
テキストがＡＳＲサーバ１００から入力されるのと同時
にそれを受け、ステップ７０８で、そのテキストをアプ
リケーションに返す。

【００９１】図６および７に関して上述した代替態様は
いずれもクライアント側でのさらなる処理を考慮してい
る。図６の実施態様の場合、これは、ストリーム式オー
ディオの圧縮を伴う（サーバ側ではオーディオの圧縮解
除を伴う）。図７の実施態様の場合、これは、特徴抽出
の形態のスピーチ認識処理の一部を含むものであった。
このようなさらなる処理をクライアント側で使用する
と、ＡＳＲクライアント１３０からＡＳＲサーバ１００
に伝送されるデータの量を有意に減らすことができる。
したがって、伝送されるスピーチ信号を表すのに必要な
データが少なくなる。特徴抽出をクライアント側で達成
する場合、そのような利点が潜在的に急増する。理由
は、抽出される特徴が、デジタル化音声信号に比べ、よ
り少ないデータしか要さず、無音期間中には特徴を送る
必要がないからである。データの減少は、二つの望まし
い利点、すなわち（１）特定のレベルの性能を達成する
のに必要なバンド幅を減少することができる利点、およ
び（２）スピーチデータをＴＣＰ／ＩＰソケットを介し
てＡＳＲクライアントからＡＳＲサーバに送る際の伝送
時間を減らす利点を生む。

【００９２】通常は、スピーチ情報がＡＳＲクライアン
ト１３０からＡＳＲサーバ１００に伝送され始める前に
文法規則が駆動されるが、規則の駆動は、認識されるス
ピーチ情報のいくらかまたは全部がＡＳＲクライアント
１３０からＡＳＲサーバ１００に送られた後で起こって
もよい。そのような状況では、ＡＳＲサーバ１００は、
文法規則が駆動されるまでスピーチ認識作業を開始しな
いであろう。文法規則の駆動の前にＡＳＲクライアント
１３０によって送られたスピーチは、認識系によって処
理されるよう、ＡＳＲサーバ１００によって一時的に記
憶することもできるし、あるいは、無視することもでき
る。

【００９３】さらには、本発明の技術を使用して、多数
のスピーチ認識タスクを実行することができる。たとえ
ば、ＡＳＲアプリケーションは、ＡＳＲクライアント１
３０に対し、電話番号の缶入り文法（すなわち「ＰＨＯ
ＮＥＮＵＭＢＥＲ）をロードするようＡＳＲサーバ１
００に命令することを要求したのち、発話された番号を
カバーする規則の駆動を要求することもできる。電話番
号が発話され、本発明にしたがって認識されたのち（た
とえば、電話番号を発話せよという入力促進に応答し
て、ＡＳＲクライアント１３０がデジタル化発話番号を
ＡＳＲサーバ１００に送って認識を求める）、ＡＳＲア
プリケーションは、図２〜５を参照して上述した例にし
たがって、ＡＳＲクライアント１３０に対し、ピザ注文
スピーチの認識をセットアップし、開始する（たとえ
ば、ＰＩＺＺＡ文法をロードし、ＯＲＤＥＲ規則を駆動
し、スピーチ認識を開始する）よう、要求することがで
きる。

【００９４】例として上記に使用した簡単なピザ注文例
に加えて、本発明にしたがって、幅広い潜在的なＡＳＲ
サービスをパケットネットワークを介して提供すること
ができる。本発明によって可能になるＡＳＲアプリケー
ションの一例は、用紙の中の多数の空欄それぞれに求め
られる情報に対して発話される答に応じて用紙を完成さ
せるための用紙記入サービスである。本発明によると、
ＡＳＲクライアント１３０が、空欄それぞれに対して可
能な選択を表す文法をＡＳＲサーバ１００に送るような
用紙記入サービスを実現することができる。空欄ごと
に、ＡＳＲクライアント１３０が適切な文法規則の駆動
を要求し、空欄を満たすのに必要な情報を求める要求に
応じて発話された、対応する回答を送る。ＡＳＲサーバ
１００が、選択された文法および規則にしたがって、適
切なスピーチ認識アルゴリズムを適用し、用紙に挿入す
べきテキストを返す。

【００９５】他のＡＳＲサービスは、サーバとクライア
ントとの間の情報交換（たとえば対話）を伴うこともあ
る。たとえば、航空便予約を扱うためのＡＳＲサービス
アプリケーションは、本明細書に記載する本発明による
と、ＡＳＲサーバ１００とＡＳＲクライアント１３０と
の間の対話を利用して、ＡＳＲタスクを達成する。対話
は次のように進行するかもしれない。

【００９６】発話者（ＡＳＲクライアント１３０からＡ
ＳＲサーバ１００に対し）：「ロサンゼルス行きの便を予約したい」ＡＳＲクライアントに対するＡＳＲサーバの応答（テキ
スト形態、あるいはまた、ＡＳＲサーバ１００によって
ＡＳＲクライアント１３０に返されるスピーチの形
態）：「搭乗地はどこですか」発話者（ＡＳＲクライアントからＡＳＲサーバに対
し）：「ワシントンＤＣ」ＡＳＲクライアントに対するＡＳＲサーバの応答：「何曜日に出発ですか」発話者（ＡＳＲクライアントからＡＳＲサーバに対
し）：「火曜日」ＡＳＲクライアントに対するＡＳＲサーバの応答：「出発時刻はいつですか」発話者（ＡＳＲクライアントからＡＳＲサーバに対
し）：「午後４時」ＡＳＲクライアントに対するＡＳＲサーバの応答：「火曜午後４時のＸＹＺ航空４５６７便をワシントンＤ
Ｃからロサンゼルスまで予約することができます。この
便に座席を予約しますか」この場合、ＡＳＲサーバ１１０から受ける情報は文字ど
おり認識されたスピーチからのテキストとはいえない
が、認識されたスピーチに基づく情報（アプリケーショ
ンに依存する）である。対話の各区分は、上述したＡＳ
Ｒクライアント−サーバ方法にしたがって達成すること
ができる。この例からわかるように、このようなＡＳＲ
サービスアプリケーションは、ＡＳＲクライアントおよ
びＡＳＲサーバに対し、自然言語を扱う能力を要求する
だけでなく、絶えず変化する大きなデータベースにアク
セスする能力をも要求する。これを達成するためには、
ＡＳＲサービスアプリケーションを、実際には、クライ
アントＰＣ１４０の中ではなく、サーバノード１１０の
中にインストールし、そこで動作させることが望ましい
かもしれない。その場合、クライアントＰＣ１４０は、
サーバノード１１０で動作するアプリケーションプログ
ラムの制御の下でＡＳＲクライアント１３０を開始し、
スピーチ入力をＡＳＲクライアント１３０からＡＳＲサ
ーバ１００に誘導する比較的小さな「代理」プログラム
を動作させるだけでよい。このような「代理」プログラ
ムの例は、たとえば、クライアントＰＣ１４０の画面上
に「語り手」を配して、クライアントＰＣ１４０でＡＳ
Ｒサービスアプリケーションを使用する個人との対話を
支援し、ＡＳＲクライアント１３０およびＡＳＲサーバ
１００を介して、その人のスピーチ情報を認識のために
ＡＳＲサーバ１００に送るものであってもよい。

【００９７】要約すると、本発明は、クライアント−サ
ーバアーキテクチャを使用して、ＡＳＲエンジンをホス
トするシステムから離れた場所で、パケットネットワー
ク、たとえばインターネットを介してユーザに利用可能
にすることができるＡＳＲサービスを提供する方法を提
供する。

【００９８】ここに記載したものは、本発明の原理を適
用した例を示すに過ぎない。当業者であれば、本発明の
真髄および範囲を逸することなく、他の構造および方法
を実現することができる。

【図面の簡単な説明】

【図１】本発明にしたがって遠隔ＡＳＲサービスを提
供するシステムのクライアント−サーバ関係を示す図で
ある。

【図２】本発明にしたがって遠隔ＡＳＲサービスを可
能にするためのセットアッププロセスを示す図である。

【図３】本発明にしたがって遠隔ＡＳＲサービスを可
能にするための代替セットアッププロセスを示す図であ
る。

【図４】本発明の規則選択プロセスを示す図である。

【図５】本発明にしたがって遠隔自動スピーチ認識を
可能にするためのプロセスを示す図である。

【図６】本発明にしたがって遠隔自動スピーチ認識を
可能にするための代替プロセスを示す図である。

【図７】本発明にしたがって遠隔自動スピーチ認識を
可能にするためのもう一つの代替プロセスを示す図であ
る。

【符号の説明】

１００ＡＳＲサーバ、１１０サーバノード、１２０
パケットネットワーク、１３０ＡＳＲクライアン
ト、１４０クライアントＰＣ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者デビットビーロイアメリカ合衆国カリフォルニア州サンタバーバラカミノデルリオ 1176 (72)発明者ロバートディーシャープアメリカ合衆国ニュージャージー州モリスタウンワイルドフラワーレーン 31

Claims

【特許請求の範囲】

【請求項１】クライアントによってパケットネットワ
ークを介してアクセス可能な自動スピーチ認識サービス
提供方法において、ａ．スピーチ認識に使用される文法に対応する情報をク
ライアントからパケットネットワークを介して受けるス
テップと、ｂ．スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、ｃ．文法にしたがって自動スピーチ認識アルゴリズムを
適用することにより、受けたスピーチ情報を認識するス
テップと、ｄ．認識したスピーチに基づく情報をパケットネットワ
ークを介してクライアントに送るステップと、を含むことを特徴とする方法。
【請求項２】文法に対応する情報が文法の場所に対応
するアドレスであるならば、対応する文法アドレスに位
置する文法に対するアクセスを得るステップをさらに含
む請求項１記載の方法。
【請求項３】文法の場所に対応するアドレスがユニフ
ォームリソースロケータ互換性アドレスである請求項２
記載の方法。
【請求項４】スピーチを表す情報がクライアントから
ストリーム式に到着する請求項１記載の方法。
【請求項５】クライアントから受けたスピーチを表す
情報がデジタル化スピーチを含む請求項１記載の方法。
【請求項６】クライアントから受けたスピーチを表す
情報が、圧縮されたデジタル化スピーチを含む請求項１
記載の方法。
【請求項７】クライアントから受けたスピーチを表す
情報が、デジタル化スピーチからクライアントによって
抽出された特徴を含む請求項１記載の方法。
【請求項８】新たなスピーチ情報をクライアントから
受けるたびに、受けたスピーチ情報を認識するステップ
を繰り返す請求項１記載の方法。
【請求項９】認識したスピーチに基づく情報がテキス
ト情報を含む請求項１記載の方法。
【請求項１０】認識したスピーチに基づく情報がさら
なるスピーチを含む請求項１記載の方法。
【請求項１１】さらなるスピーチ情報を認識するたび
に、認識したスピーチに基づく情報を送るステップを繰
り返す請求項１記載の方法。
【請求項１２】前にクライアントに送られた認識され
たスピーチに基づく情報の修正版をクライアントに送る
ステップをさらに含む請求項１１記載の方法。
【請求項１３】ステップｂ、ｃおよびｄを繰り返し
て、クライアントとサーバとの間で情報の交換を行う請
求項１記載の方法。
【請求項１４】認識したスピーチに基づく情報がテキ
スト情報を含む請求項１３記載の方法。
【請求項１５】認識したスピーチに基づく情報がさら
なるスピーチを含む請求項１３記載の方法。
【請求項１６】クライアントからパケットネットワー
クを介して受けた要求に応答して文法規則を駆動するス
テップをさらに含む請求項１記載の方法。
【請求項１７】文法に対応するハンドルをパケットネ
ットワークを介してクライアントに送るステップをさら
に含む請求項１記載の方法。
【請求項１８】クライアントによってパケットネット
ワークを介してアクセス可能な自動スピーチ認識サービ
ス提供システムにおいて、ａ．プログラム可能なプロセッサと、ｂ．メモリと、ｃ．オーディオ入力装置と、ｄ．パケットネットワークを介してクライアントとの通
信リンクを確立するための通信インタフェースと、を含み、前記プロセッサが、ｉ．スピーチ認識に使用される文法に対応する情報をク
ライアントからパケットネットワークを介して受けるス
テップと、 ii．スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、 iii．文法にしたがって自動スピーチ認識アルゴリズム
を適用することにより、受けたスピーチ情報を認識する
ステップと、 iv．認識したスピーチに基づく情報をパケットネットワ
ークを介してクライアントに送るステップと、を実行するようにプログラムされていることを特徴とす
るシステム。
【請求項１９】プロセッサがさらに、文法に対応する
情報が文法の場所に対応するアドレスであるならば、対
応する文法アドレスに位置する文法に対するアクセスを
得るステップを実行するようにプログラムされている請
求項１８記載のシステム。
【請求項２０】文法の場所に対応するアドレスがユニ
フォームリソースロケータ互換性アドレスである請求項
１９記載のシステム。
【請求項２１】スピーチを表す情報がクライアントか
らストリーム式に到着する請求項１８記載のシステム。
【請求項２２】クライアントから受けたスピーチを表
す情報がデジタル化スピーチを含む請求項１８記載のシ
ステム。
【請求項２３】クライアントから受けたスピーチを表
す情報が、圧縮されたデジタル化スピーチを含む請求項
１８記載のシステム。
【請求項２４】クライアントから受けたスピーチを表
す情報が、デジタル化スピーチからクライアントによっ
て抽出された特徴を含む請求項１８記載のシステム。
【請求項２５】プロセッサがさらに、新たなスピーチ
情報をクライアントから受けるたびに、受けたスピーチ
情報を認識するステップを繰り返すようにプログラムさ
れている請求項１８記載のシステム。
【請求項２６】認識したスピーチに基づく情報がテキ
スト情報を含む請求項１８記載のシステム。
【請求項２７】認識したスピーチに基づく情報がさら
なるスピーチを含む請求項１８記載のシステム。
【請求項２８】プロセッサがさらに、さらなるスピー
チ情報を認識するたびに、認識したスピーチに基づく情
報を送るステップを繰り返すようにプログラムされてい
る請求項１８記載のシステム。
【請求項２９】プロセッサがさらに、前にクライアン
トに送られた認識されたスピーチに基づく情報の修正版
をクライアントに送るステップを実行するようにプログ
ラムされている請求項２８記載のシステム。
【請求項３０】プロセッサがさらに、ステップii、ii
iおよびivを繰り返して、クライアントとサーバとの間
で情報の交換を行わせるようにプログラムされている請
求項１８記載のシステム。
【請求項３１】認識したスピーチに基づく情報がテキ
スト情報を含む請求項３０記載のシステム。
【請求項３２】認識したスピーチに基づく情報がさら
なるスピーチを含む請求項３０記載のシステム。
【請求項３３】プロセッサがさらに、クライアントか
らパケットネットワークを介して受けた要求に応答して
文法規則を駆動するステップを実行するようにプログラ
ムされている請求項１８記載のシステム。
【請求項３４】プロセッサがさらに、文法に対応する
ハンドルをパケットネットワークを介してクライアント
に送るステップを実行するようにプログラムされている
請求項１８記載のシステム。
【請求項３５】クライアントによってパケットネット
ワークを介してアクセス可能な自動スピーチ認識サービ
スを提供するための命令を記憶したコンピュータ読み取
り可能な媒体を含む製品において、前記命令が、プロセッサによって実行されると、プロセ
ッサをして、ａ．スピーチ認識に使用される文法に対応する情報をク
ライアントからパケットネットワークを介して受けるス
テップと、ｂ．スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、ｃ．文法にしたがって自動スピーチ認識アルゴリズムを
適用することにより、受けたスピーチ情報を認識するス
テップと、ｄ．認識したスピーチに基づく情報をパケットネットワ
ークを介してクライアントに送るステップと、を実行させることを特徴とする製品。
【請求項３６】命令が、プロセッサによって実行され
ると、さらにプロセッサをして、文法に対応する情報が
文法の場所に対応するアドレスであるならば、対応する
文法アドレスに位置する文法に対するアクセスを得るス
テップを実行させる請求項３５記載の製品。
【請求項３７】文法の場所に対応するアドレスがユニ
フォームリソースロケータ互換性アドレスである請求項
３６記載の製品。
【請求項３８】スピーチを表す情報がクライアントか
らストリーム式に到着する請求項３５記載の製品。
【請求項３９】クライアントから受けたスピーチを表
す情報がデジタル化スピーチを含む請求項３５記載の製
品。
【請求項４０】クライアントから受けたスピーチを表
す情報が、圧縮されたデジタル化スピーチを含む請求項
３５記載の製品。
【請求項４１】クライアントから受けたスピーチを表
す情報が、デジタル化スピーチからクライアントによっ
て抽出された特徴を含む請求項３５記載の製品。
【請求項４２】命令が、プロセッサによって実行され
ると、さらにプロセッサをして、新たなスピーチ情報を
クライアントから受けるたびに、受けたスピーチ情報を
認識するステップを繰り返させる請求項３５記載の製
品。
【請求項４３】認識したスピーチに基づく情報がテキ
スト情報を含む請求項３５記載の製品。
【請求項４４】認識したスピーチに基づく情報がさら
なるスピーチを含む請求項３５記載の製品。
【請求項４５】命令が、プロセッサによって実行され
ると、さらにプロセッサをして、さらなるスピーチ情報
を認識するたびに、認識したスピーチに基づく情報を送
るステップを繰り返させる請求項３５記載の製品。
【請求項４６】命令が、プロセッサによって実行され
ると、さらにプロセッサをして、前にクライアントに送
られた認識されたスピーチに基づく情報の修正版をクラ
イアントに送るステップを実行させる請求項４５記載の
製品。
【請求項４７】命令が、プロセッサによって実行され
ると、さらにプロセッサをして、ステップｂ、ｃおよび
ｄを繰り返させて、クライアントとサーバとの間で情報
の交換を行わせる請求項３５記載の製品。
【請求項４８】認識したスピーチに基づく情報がテキ
スト情報を含む請求項４７記載の製品。
【請求項４９】認識したスピーチに基づく情報がさら
なるスピーチを含む請求項４７記載の製品。
【請求項５０】命令が、プロセッサによって実行され
ると、さらにプロセッサをして、クライアントからパケ
ットネットワークを介して受けた要求に応答して文法規
則を駆動するステップを実行させる請求項３５記載の製
品。
【請求項５１】命令が、プロセッサによって実行され
ると、さらにプロセッサをして、文法に対応するハンド
ルをパケットネットワークを介してクライアントに送る
ステップを実行させる請求項３５記載の製品。
【請求項５２】クライアントによってパケットネット
ワークを介してアクセス可能な自動用紙記入サービスを
提供する方法において、ａ．スピーチ認識に使用される文法であって、用紙に挿
入されるテキスト情報に対応する語に対応する文法に対
応する情報をクライアントからパケットネットワークを
介して受けるステップと、ｂ．スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、ｃ．文法にしたがって自動スピーチ認識アルゴリズムを
適用することにより、受けたスピーチ情報を認識するス
テップと、ｄ．認識したスピーチに対応するテキストを、用紙に挿
入することができるよう、パケットネットワークを介し
てクライアントに送るステップと、を含むことを特徴とする方法。
【請求項５３】文法に対応する情報が文法の場所に対
応するアドレスであるならば、対応する文法アドレスに
位置する文法に対するアクセスを得るステップをさらに
含む請求項５２記載の方法。
【請求項５４】文法の場所に対応するアドレスがユニ
フォームリソースロケータ互換性アドレスである請求項
５３記載の方法。
【請求項５５】クライアントから受けたスピーチを表
す情報がデジタル化スピーチを含む請求項５２記載の方
法。
【請求項５６】クライアントから受けたスピーチを表
す情報が、圧縮されたデジタル化スピーチを含む請求項
５２記載の方法。
【請求項５７】クライアントから受けたスピーチを表
す情報が、デジタル化されたスピーチからクライアント
によって抽出された特徴を含む請求項５２記載の方法。
【請求項５８】クライアントからパケットネットワー
クを介して受けた要求に応答して文法規則を駆動するス
テップをさらに含む請求項５２記載の方法。
【請求項５９】文法に対応するハンドルをパケットネ
ットワークを介してクライアントに送るステップをさら
に含む請求項５２記載の方法。