JP2003050594A - 自動スピーチ認識とスピーチサービス提供方法およびシステム - Google Patents

自動スピーチ認識とスピーチサービス提供方法およびシステム

Info

Publication number
JP2003050594A
JP2003050594A JP2002156302A JP2002156302A JP2003050594A JP 2003050594 A JP2003050594 A JP 2003050594A JP 2002156302 A JP2002156302 A JP 2002156302A JP 2002156302 A JP2002156302 A JP 2002156302A JP 2003050594 A JP2003050594 A JP 2003050594A
Authority
JP
Japan
Prior art keywords
speech
client
grammar
asr
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002156302A
Other languages
English (en)
Inventor
Pamela L Dragosh
エル ドラゴッシュ パメラ
Daid B Roe
ビー ロイ デビット
Robert D Sharp
ディー シャープ ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JP2003050594A publication Critical patent/JP2003050594A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/006Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 自動スピーチ認識(ASR)エンジンをホス
トとするシステムから離れた場所にいるユーザがASR
を利用できるようにする。 【解決手段】 クライアント−サーバアーキテクチャを
使用して、主ASRエンジンの場所から離れたクライア
ントの場所でASRサービスをアクセス可能にする。す
なわち、パケットネットワーク120、たとえばインタ
ーネットまたは無線ネットワークを介してクライアント
PC140とサーバノード110が接続される。ASR
サーバ100がASRクライアント130から文法を受
け、または複数の文法からの選択を行い、クライアント
からのスピーチを表す情報を受け、スピーチ認識を実行
し、認識したスピーチに基づくスピーチ応答を提供す
る。このようにして、パケットネットワークを介して、
人間であるユーザとASRサーバとの対話が行われる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は一般にスピーチ認識
に関し、より詳細には、パケットネットワークを介して
遠隔アクセス可能な自動スピーチ認識及び文字スピーチ
変換(text-to-speech)サービスを提供する方法に関す
る。
【0002】
【従来の技術】自動スピーチ認識(ASR)を達成する
ための技術は周知である。公知のASR技術の中には、
文法を利用するものがある。「文法」とは、所与の文脈
の中で使用または発話されると予想される言語または句
の表現である。そこで、ある意味で、ASR文法は通
常、スピーチ認識系を、潜在的に話される語の領域の部
分集合である語彙に制限する。文法はサブグラマを含む
こともある。そして、ASR文法規則を使用して、所与
の文脈で予想することができる一つ以上の文法またはサ
ブグラマから「句」または語の組み合わせの集合を表す
ことができる。「文法」はまた、一般に、統計的な言語
モデル(モデルが句を表す)、たとえば言語理解システ
ムに使用されるモデルをいうこともある。
【0003】最近、何らかの形態の自動スピーチ認識
(「ASR」)方法を利用する製品およびサービスが商
業的に導入された。たとえば、AT&Tは、複雑なAS
Rサービスの展開を可能にする、ワトソン(WATSON)と
呼ばれる文法ベースのASRエンジンを開発した。この
ようなASR技術を利用する複雑なASRサービスに望
まれる属性には、高い認識精度、話者が異なるアクセン
トや方言を有する場合および/またはバッググラウンド
ノイズの存在における認識を可能にする強健性、多大な
語彙を扱う能力ならびに自然な言語理解がある。複雑な
ASRサービスに必要なこれらの属性を達成するため、
ASR技術およびエンジンは通常、所望のスピーチ認識
機能を達成するための有意な処理能力を有するコンピュ
ータベースのシステムを必要とする。本明細書に使用す
る「処理能力」とは、プロセッサ速度、メモリ、ディス
ク空間ならびにアプリケーションデータベースへのアク
セスをいう。このような処理の必要条件が、通常はパー
ソナルコンピュータ(PC)技術に基づく大部分のデス
クトップシステムの能力を超越してしまうため、デスク
トップで利用可能な複雑なASRサービスの展開を制限
してきた。
【0004】パケットネットワークは、スピーチやオー
ディオを含む種々のタイプの記憶データを送るのに好適
である汎用データネットワークである。既存のパケット
ネットワークの中で最大かつもっとも有名なインターネ
ットは、約140か国の400万台を超えるコンピュー
タを接続している。インターネットの全世界的かつ指数
関数的な成長は、今日の一般的知識である。
【0005】
【発明が解決しようとする課題】通常、インターネット
のようなパケットネットワークには、コンピュータ、た
とえばPC上で動作するクライアントソフトウェアプロ
グラムを介してアクセスするため、パケットネットワー
クは本来、クライアント/サーバ指向である。パケット
ネットワークを介して情報にアクセスする一つの方法
は、クライアントがウェブサーバと対話することを可能
にするウェブブラウザ(たとえばネットスケープコミュ
ニケーションズ社(Netscape Communications, In
c.)から市販されているネットスケープナビゲータ(Ne
tscape Navigator)およびマイクロソフト社(Microso
ft Corp.)から市販されているインターネットエクス
プローラ(Internet Explorer)の使用による方法であ
る。ウェブサーバおよびその中で利用できる情報は通
常、URL(Uniform Resource Locator)互換性のア
ドレスによって識別され、指定される。URLアドレス
指定は、インターネットおよびイントラネットアプリケ
ーションで広く使用され、当業者には周知である(「イ
ントラネット」とは、機能性においてインターネットを
モデルにしたパケットネットワークであり、たとえば企
業によって局所的または社内的に使用されている)。こ
れらのネットワークの多くが、周知の通信用インターネ
ットプロトコルを使用している。
【0006】ASRエンジンをホストするシステムから
離れた場所、たとえばデスクトップにいるユーザが利用
することのできるASRサービスを可能にする方法が望
まれている。
【0007】
【課題を解決するための手段】クライアント−サーバア
ーキテクチャを使用して自動スピーチ認識サービスを運
用するシステムおよび方法を使用して、主ASRエンジ
ンの場所から離れたクライアントの場所でASRサービ
スをアクセス可能にする。本発明によると、インターネ
ットのようなパケットネットワークを介するクライアン
ト−サーバ通信を使用して、ASRサーバはクライアン
トから文法を受け、クライアントからスピーチを表す情
報を受信し、スピーチ認識を実行し、このASRサーバ
が、認識されたスピーチに基づく情報をクライアントに
返す。ASRサーバは、ネットワーク内の単一のコンピ
ュータ装置に存在してもよいし、複数の装置に存在して
もよい。したがって、ASRプロセスが動作するネット
ワーク内の物理的な位置は、本発明にとって重要ではな
い。
【0008】本発明の一実施形態によれば、本発明は、
パケットネットワークを介してクライアントにより遠隔
アクセス可能な自動スピーチ認識サービスを行う方法に
関する。上記の方法は、複数の文法の1つに関連づけら
れた文法識別子をパケットネットワークを介してクライ
アントから受信するステップと、文法識別子にもとづ
き、複数の文法から文法を選択するステップと、スピー
チを表す情報をパケットネットワークを介してクライア
ントから受信するステップと、選択された文法にしたが
って自動スピーチ認識アルゴリズムを適用することによ
り、受信したスピーチを認識するステップと、認識した
スピーチにもとづく情報をパケットネットワークを介し
てクライアントに送信するステップと、を含む。
【0009】本発明は、人間であるユーザと、ASRエ
ンジンを有するコンピュータ装置との対話を、パケット
ネットワークを介して可能にする。これに関し、ASR
サーバは、文字またはスピーチの形式でパケットネット
ワークを介して応答を生成し、人間であるユーザとコン
ピュータ装置との対話を可能にし、かつ継続させる。
【0010】本発明の別の実施形態には、所望の文法に
対するアクセスを得るための多様な方法、及びスピーチ
情報のASRサーバへの転送に先立つASRクライアン
トでの処理ステップとしての、情報の圧縮または特徴抽
出の使用を含む。
【0011】
【発明の実施の形態】本発明は、遠隔利用可能なASR
サービスを提供するためのクライアント−サーバベース
のシステムに関する。本発明によると、ユーザが、完全
なASR技術を実行するのに要する広範な処理能力を有
するコンピュータハードウェアを取得する必要なく、パ
ケットネットワーク、例えばインターネット、インター
ネットプロトコルネットワークを介して、ASRサービ
スを、ユーザに対し、例えばユーザのデスクトップで提
供することができる。
【0012】本発明にしたがって使用される基本的なク
ライアント−サーバアーキテクチャを図1に示す。AS
Rサーバ100は、パケットネットワーク120(たと
えばインターネット)を介して他のコンピュータにリン
クすることができる、サーバノード110と指定される
システムの上で動作するASRソフトウェアエンジンで
ある。サーバノード110は、通常、複雑なASRベー
スのアプリケーション、たとえばAT&T社のワトソン
(WATSON)システムを動作させるのに十分な処理能力を
有するコンピュータであってもよい。パケットネットワ
ーク120は、例として、インターネットでもよいし、
イントラネットでもよい。また、パケットネットワーク
120は、パケットベースの技術が利用されるネットワ
ークの一部を含んでもよい。
【0013】ASRクライアント130は、クライアン
トPC140上で動作する比較的小さなプログラム(A
SR100に比較して)である。クライアントPC14
0は、クライアントアプリケーション、たとえばウェブ
ブラウザを動作させるのに十分な処理能力を有するコン
ピュータ、たとえばパーソナルコンピュータ(PC)で
ある。クライアントPCは、ハードウェア、たとえばマ
イクおよび可聴音、たとえばスピーチの入力および捕捉
のためのソフトウェアを含む。マイクをPCに接続し、
PCで可聴音、たとえばスピーチを捕捉する方法は周知
である。PCのスピーチ処理能力の例には、マイクロソ
フト社のスピーチアプリケーションプログラマインタフ
ェース(SAPI)およびAT&T社のアドバンストス
ピーチアプリケーションプログラマインタフェース(A
SAPI)がある。マイクロソフト社のSAPIは、た
とえば、「スピーチAPIデベロッパーズガイド、ウィ
ンドウズ(登録商標)95版(Speech API Developer
s Guide, Windows(登録商標)−95 Edition)」と
題する出版物(バージョン1.0、マイクロソフト社、
1995)に詳細があり、AT&T社のASAPIの詳
細は、「アドバンストスピーチAPIデベロッパーズガ
イド(Advanced Speech API DevelopersGuide)」と
題する出版物(バージョン1.0、AT&T社、199
6)に記載されている。これらの出版物をいずれも引用
例として本明細書に含める。本発明の代替態様は、スピ
ーチ入力をマイク以外のオーディオソースによって提供
することができるようなASRクライアント130と一
つ以上の音声チャネルとのインタフェースを利用するこ
とができる。
【0014】クライアントPC140はまた、パケット
ネットワークを介して他のコンピュータと通信する能力
を有する。パケットネットワークを介して他のコンピュ
ータとの通信リンクを確立する方法は周知であり、たと
えば、モデムを使用して電話回線からインターネットサ
ービスプロバイダにダイヤルインする方法がある。
【0015】ASRサーバ100とASRクライアント
130とは、たとえば伝送制御プロトコル/インターネ
ットプロトコル(TCP/IP)ソケットのような標準
通信プロトコルを使用するパケットネットワークを介し
て情報を通信する(データ伝送を含む)のに適した公知
の方法を使用することにより、ASRサーバ100がサ
ーバノード110を介し、ASRクライアントがクライ
アントPC140を介して、パケットネットワーク12
0上で互いに通信することができる。TCP/IPソケ
ットとは、情報を中に通してパケットネットワークを介
してある地点から別の地点まで伝送することができるパ
イプのようなものである。
【0016】ASRサーバ100とASRクライアント
130との間のTCP/IPソケットの確立が、本発明
にしたがって遠隔ASRサービスを可能にするのに必要
な、ASRサーバ100とASRクライアント130と
の間の、パケットネットワーク120を介するデータの
伝送を可能にする。ASRクライアント130はまた、
クライアントPC140のオーディオ/スピーチ入出力
機能およびテキスト/グラフィックス表示機能とインタ
フェースする。オーディオおよびスピーチの入出力を扱
う方法およびインタフェースは周知であり、テキストお
よびグラフィックスの表示を扱う方法およびインタフェ
ースもまた周知である。
【0017】ASRクライアント130は、クライアン
トPC140の中で動作するよう、いくつかの方法でセ
ットアップすることができる。たとえば、ASRクライ
アント130は、永久的なデータ記憶媒体、たとえば磁
気ディスクまたはCD−ROMからクライアントPC1
40にロードすることもできる。あるいはまた、ASR
クライアント130は、パケットネットワーク、たとえ
ばインターネット上で見つけることができる情報または
データのソースからダウンロードしてもよい。ASRク
ライアント130のダウンロードは、たとえば、一度だ
け実施してクライアントPC140の中に永久的に常駐
させることもできる。あるいはまた、ASRクライアン
ト130は、一回または限られた回数の使用のためにダ
ウンロードすることもできる。ASRクライアント13
0は、たとえば、クライアントPC140上で動作する
別のプログラム、たとえばウェブブラウザのための小さ
なプラグインソフトウェアモジュールとして実現しても
よい。これを達成する一つの方法は、ASRクライアン
ト130を、マイクロソフト社のアクティブX(Active
-X)規格に準拠するアクティブXソフトウェアコンポー
ネントにする方法である。このようにして、ASRクラ
イアント130を、たとえば、以下のようなウェブブラ
ウジングセッションとともにクライアントPC140に
ロードすることができる。クライアントPC140を使
用してワールドワイドウェブをブラウジングするユーザ
が、ASR機能を有するウェブサイトに入る。ウェブサ
イトが、署名されたアクティブX制御にしたがってAS
RクライアントモジュールをクライアントPC140に
ダウンロードするためのユーザ許可を問う。ユーザが認
可されると、ASRクライアント130がクライアント
PC140にダウンロードされる。
【0018】同様に、ASRサーバ100を、サーバノ
ード110の中で動作するよう、いくつかの方法でセッ
トアップすることができる。たとえば、ASRサーバ1
00は、永久的なデータ記憶媒体、たとえば磁気ディス
クまたはCD−ROMからサーバノード100にロード
することもできるし、あるいはまた、パケットネットワ
ーク上で見つけることができる情報またはデータのソー
スからダウンロードすることもできる。
【0019】次に、図2〜7を参照しながら、本発明に
したがって遠隔ASRサービスを提供する詳細をさらに
説明する。これらの各図に関する以下の説明に際し、ク
ライアント−サーバの関係は図1に示すとおりであると
仮定する。セットアップ段階を使用して、ASRアプリ
ケーションの一部として自動スピーチ認識タスク及びス
ピーチ応答タスクを実行するためにASRサーバ100
およびASRクライアント130を準備する。便宜上、
図1に示す項目であって他の図にも見られるものは、図
1の参照番号と同じ参照番号によって識別する。
【0020】ここで図2を参照して、遠隔ASRサービ
スを提供するプロセスのセットアップ段階を説明する。
まずステップ201で、ASRクライアント130が、
クライアント文法をロードするよう、アプリケーション
から要求を受ける。クライアント文法は、一例として、
特定のASRアプリケーションの文脈で発話されると予
想される言語を表す情報(たとえば語句)を含むデータ
ファイルである。データファイルは、公知のフォーマッ
ト、たとえばマイクロソフト社SAPIの一部である標
準文法フォーマット(SGF)であってもよい。
【0021】例を挙げるため、ピザの注文を受けるため
のASRアプリケーションを引用して本発明を説明す
る。ASRサービスアプリケーション、たとえばピザ注
文のアプリケーションは通常、ASRアプリケーション
のタスクを達成するために使用されるリソースとして、
ASRクライアント130と対話し、それを使用するプ
ログラムを含むであろう。このようなASRアプリケー
ションは、全部または一部が、クライアントPC140
の中に常駐し、その中で動作することができる。
【0022】ピザ注文の例を考えると、クライアント文
法PIZZAは、ピザを注文する際に使用する可能性の
ある語、たとえば「ピザ」、「ペパロニ」などを表す情
報を含む。実際には、サブグラマを使用して適切な文法
を構成してもよい。ピザ注文の例の場合、PIZZA文
法のサブグラマは、SIZEおよびTOPPINGを含
んでもよい。サブグラマSIZEは、希望のピザのサイ
ズを説明するのに使用される語、たとえば「小」、
「中」および「大」からなることができる。サブグラマ
TOPPINGは、ピザについて注文する可能性のある
種々のトッピング(具)、たとえば「ソーセージ」、
「ペパロニ」、「マッシュルーム」などからなることが
できる。
【0023】ASRクライアント130は、アプリケー
ションから所望の文法を与えられることもできるし、あ
るいはまた、アプリケーションによって提供される情報
に基づき所定の文法群から文法を選択することもでき
る。いずれの場合も、この文法群がASRサーバ100
から離れて位置する際には、ASRクライアント130
は、次にステップ202で、所望の文法ファイルをTC
P/IPソケットを介してASRサーバ100に送る。
クライアントPC140とサーバノード110との間の
新たな通信セッションの確立の一部として新たなTCP
/IPソケットをセットアップしなければならない可能
性がある。あるいは、クライアントPC140と、終端
していないサーバノード110との間に確立された通信
セッションの結果としてTCP/IPソケットがすでに
存在する可能性もある。ピザ注文の例では、ASRクラ
イアント130が、PIZZA文法を含むファイルをT
CP/IPソケットを介してASRサーバ100に伝送
することになる。
【0024】ASRサーバ100は、ステップ203
で、ASRクライアント130から送られ、ARSサー
バ100において局所的に受信した、あるいは他の遠隔
位置から送られたクライアント文法を受信する。ステッ
プ204で、ASRサーバ100は、伝送されたクライ
アント文法をロードする。本明細書に使用する、クライ
アント文法の「ロード」とは、たとえば文法をサーバノ
ード110のRAMに記憶することにより、その文法を
ASRサーバ100による使用のためにアクセス可能に
することをいう。ステップ205で、ASRサーバ10
0は文法「ハンドル」をASRクライアント130に返
す。文法「ハンドル」とは、通信セッションの残り期間
またはアプリケーション実行の際にASRクライアント
130が文法を容易に参照することを可能にするマー
カ、たとえば、ロードされた文法を含むメモリを指し示
すポインタである。ASRクライアント130は、ステ
ップ206で、ASRサーバ100から文法ハンドルを
受信し、ステップ207で、そのハンドルをアプリケー
ションに返す。ピザ注文の例では、ASRサーバ100
は、伝送されたPIZZA文法ファイルを受信してロー
ドし、ロードされたPIZZA文法を指し示すハンドル
をASRクライアント130に返送する。ASRクライ
アント130は次に、ASRサーバ100からPIZZ
Aハンドルを受信し、そのPIZZAハンドルをピザ注
文アプリケーションに返す。この方法で、アプリケーシ
ョンは、ピザ注文アプリケーションの一部としてASR
タスクを実行または開始するとき、PIZZAハンドル
を簡単に参照することができる。
【0025】次に、図3を参照しながら代替のセットア
ップ手法を説明する。本明細書の記載の残り部分につい
て、ASRサーバ100とASRクライアント130と
の間の情報またはデータの伝送または通信は、確立され
たTCP/IPソケットを介して起こるものと仮定す
る。ステップ301で、ASRクライアント130が、
クライアント文法をロードするよう、アプリケーション
から要求を受ける。しかしながら、ASRクライアント
130は、ステップ302で、クライアント文法をデー
タファイルとしてASRサーバ100に送るのではな
く、「缶入り」文法を表す識別子をASRサーバ100
に送る。「缶入り文法」とは、たとえば、ASRサーバ
100がすでに記憶しているであろう共通の文法、たと
えばTIME−OF−DAYまたはDATEである。す
なわち、ASRクライアント130は、パケットネット
ワークを介し、データ、例えばASRサーバ100に記
憶された複数の文法から特定の文法を選択するようAS
Rサーバ100に指示する文法識別子などを送信しても
よい。あるいは、ASRクライアント130は、ASR
サーバ100に対し、IPアドレス、たとえば遠隔サー
バへのURL互換性アドレスを送り、このアドレスにお
いてASRサーバ100が所望の文法ファイルを見つけ
ることもできる。
【0026】この例における遠隔ロケーション(すなわ
ち、ASRサーバ100から離れて位置するサーバ)
は、ASRサーバ100が利用できる複数の文法ファイ
ルを記憶している。ASRサーバ100は、ステップ3
03で、文法識別子またはURL文法アドレスをASR
クライアント130から受け、ステップ304で、要求
されたクライアント文法を見つけ、ロードし、ステップ
305で、文法ハンドルをASRクライアント130に
返す。図2に関して上述したステップと同様に、ASR
クライアント130は、ステップ306で、ASRサー
バ100から文法ハンドルを受け、ステップ307で、
そのハンドルをアプリケーションに返す。ピザ注文の例
の場合、ASRクライアント130が、PIZZA文法
の文法識別子(「缶入り」文法の場合)またはPIZZ
A文法を含むファイルの場所のURLアドレスをASR
サーバ100に送るということを除き、図2に関連して
上述したステップは同である。ASRサーバ100が逆
に、その文法識別子またはURLアドレス(ASRクラ
イアントによって送られたもの)に基づいてPIZZA
文法のファイルを検索したのち、要求されたPIZZA
文法をロードする。
【0027】文法をロードし、文法ハンドルをASRク
ライアント130に返したのち、ASRサービスアプリ
ケーションは、駆動すべき文法規則を選択しなければな
らない。図4は、本発明による文法規則選択のプロセス
を示す。ASRクライアント130が、ステップ401
で、文法規則を駆動するよう、アプリケーションから要
求を受ける。ステップ402で、ASRクライアント1
30は規則駆動要求をASRサーバ100に送る。図4
に示すように、ASRクライアント130はステップ4
02で、前に返された文法ハンドルをASRサーバ10
0に送ってもよい(これにより、ASRサーバが、文法
ハンドルによって識別される特定の文法に適切な文法規
則を駆動することを可能にする)。ASRサーバ100
は、ステップ403で、規則駆動要求および文法ハンド
ル(送られたならば)を受ける。ステップ404で、A
SRサーバ100は、要求された規則を駆動し、ステッ
プ405で、要求された規則が駆動されたという通知を
ASRクライアント130に返す。ASRクライアント
130は、ステップ406で、規則駆動の通知を受け、
ステップ407で、規則が駆動されたことをアプリケー
ションに通知する。ひとたびアプリケーションが規則駆
動の通知を受けたならば、アプリケーションはスピーチ
の認識を開始することができる。
【0028】図4に示すプロセスを説明するため、再
び、ピザ注文の例を考えてみる。ピザの注文を認識する
のに使用することができる規則は、注文に望まれる句
を、「ピザ」という語とともにサブグラマSIZEおよ
びTOPPINGSを含むようにセットすることがで
き、以下のように指定されるかもしれない{ORDER
=SIZE 「pizza(ピザ)」 「with(入
り)」 TOPPINGS}。すなわち、英語では "S
IZE pizza with TOPPING"であり、日本語では「xx入
り○○ピザ」となる。xxがトッピングで、○○がサイ
ズである。再び図4を参照すると、ASRクライアント
130は、ピザ注文規則を駆動する要求をアプリケーシ
ョンから受け、上述のORDER規則をPIZZA文法
ハンドルとともにASRサーバ100に送る。ASRサ
ーバ100は、規則駆動要求をPIZZA文法ハンドル
とともに受け、ORDER規則を駆動して、認識系が、
SIZEサブグラマからの語、語「ピザ」、語「入り」
およびサブグラマTOPPINGSからの語のみの認識
に制限されるようにする。ORDER規則を駆動したの
ち、ASRサーバ100は、規則駆動の通知をASRク
ライアント130に送り、ASRクライアントが逆にそ
れをアプリケーションに通知する。
【0029】ひとたび文法規則が駆動されると、規則に
したがって文法の語を認識する目的のスピーチ処理が起
こる。図5を参照すると、ステップ501で、ASRク
ライアント130が、スピーチ認識タスクを開始するよ
う、アプリケーションから要求を受ける。ステップ50
2で、ASRクライアント130は、クライアントPC
140のオーディオ入力からストリーム式オーディオを
要求する。「ストリーム式オーディオ」とは、より多く
のオーディオが入ってくるのと同時に、オーディオがオ
ンザフライ(間髪を入れず)式に処理されることをい
う。システムは、オーディオ入力のすべて(すなわち、
スピーチ全体)が入ってきてはいないうちから、デジタ
ル処理のためにオーディオを送り出し始める。ストリー
ム式オーディオはまた、さらなるオーディオが入力され
るのと同時に、オーディオ信号の一部が部分的に伝送さ
れることをいう。例として、ストリーム式オーディオの
要求は、クライアントPC140上で動作するオペレー
ティングシステムに対し、マイク入力からのストリーム
式オーディオがクライアントPC140の音声プロセッ
サによってデジタル化されるような適切なソフトウェア
呼び出しを実施することによって達成することができ
る。そして、マイク入力からデジタル化されたストリー
ム式オーディオはASRクライアント130に渡され
る。そして、ASRクライアント130が、ステップ5
03で、ストリーム式デジタル化オーディオをASRサ
ーバ100に伝送し始める。マイクからのオーディオ入
力と同様に、デジタル化オーディオもまた、スピーチ入
力が続いているうちから、オンザフライ式にASRサー
バ100に送られる。
【0030】ステップ504で、ASRサーバ100
は、ストリーム式デジタル化オーディオをASRクライ
アント130から受けるとき、そのオーディオに対して
スピーチ認識を実行する。スピーチ認識は、公知の認識
アルゴリズム、たとえばAT&T社のワトソン(WATSO
N)スピーチ認識エンジンによって用いられるアルゴリ
ズムを使用して実行され、駆動された規則によって定義
される選択された文法の制約の範囲内で実行される。ス
テップ505で、ASRサーバ100は、入力スピーチ
を認識するのと同時に、ストリーム式テキスト(すなわ
ち、部分的に認識したスピーチ)を返す。したがって、
ASRサーバ100は、その最初の結果に達すると、A
SRクライアント130によって送られてくるさらなる
ストリーム式オーディオを処理し続けているとしても、
その結果をASRクライアント130に返す。認識した
テキストをオンザフライ式に返すこのプロセスが、AS
Rクライアント130(またはASRクライアント13
0とインタフェースするアプリケーション)が発話者に
フィードバックを提供することを可能にする。ASRサ
ーバ100がさらなるストリーム式入力オーディオを処
理し続けるとき、ASRサーバは、スピーチ認識タスク
の一部として、返されるテキストが、すでにASRクラ
イアント130に返されたテキストの一部を実際に更新
(または修正)することができるような方法で、先のス
ピーチ認識の結果を修正することができる。ひとたびス
トリーム式オーディオのすべてをASRクライアント1
30から受けたならば、ASRサーバは、そのスピーチ
認識処理を完了し、ステップ506で、認識したテキス
トの最終版(修正を含むもの)を返す。
【0031】ステップ507で、ASRクライアント1
30は、認識されたテキストをASRサーバ100から
受け、ステップ508で、そのテキストをアプリケーシ
ョンに返す。ここでもまた、これは、認識されたテキス
トが入ってくるのと同時にオンザフライ式に実施するこ
とができ、ASRクライアント130は、ASRサーバ
100から受けた認識されたテキストに対する修正があ
ればそれをアプリケーションに渡す。
【0032】ピザ注文の例を参照すると、ひとたびOR
DER規則が駆動され、アプリケーションが通知を受け
ると、ASRクライアント130は、スピーチ認識を開
始するよう要求を受け、マイク入力からストリーム式オ
ーディオを開始する。ASRサーバ100は、ASRク
ライアント130に対し、ユーザとの対話を進めるため
の応答を生成する。ユーザは、ピザの注文を発話するよ
うに促されることができ、スピーチが始まると、ASR
クライアント130が、デジタル化されたストリーム式
オーディオをASRサーバ100に送る。したがって、
発話者が、たとえば「大きいピザ、ソーセージ、ペパロ
ニ入り」を注文したいと述べると、ASRクライアント
130は、その注文の最初の語に対するデジタル化スト
リーム式データを、たとえ第二の語が話されている最中
でも、ASRサーバ100に送っている。注文が発され
ているとき、ASRサーバ100は、注文の残りが話さ
れているときでも、第一の語をテキスト「大きい」とし
て返す。最後に発話者がスピーチを止めると、その注文
に対して認識された最終的なテキスト「大きいピザ、ソ
ーセージ、ペパロニ入り」をASRクライアント13
0、ひいてはアプリケーションに返すことができる。
【0033】本発明にしたがってスピーチ認識プロセス
を実施するための代替態様を図6に示す。図5に示すス
ピーチ認識プロセスと同様に、ステップ601で、AS
Rクライアント130が、スピーチ認識タスクを開始す
るよう、アプリケーションから要求を受け、ステップ6
02で、クライアントPC140のオーディオ入力から
ストリーム式オーディオを要求する。そして、マイク入
力からデジタル化されたストリーム式オーディオがAS
Rクライアント130に渡される。ステップ603で、
ASRクライアント130がデジタル化オーディオをオ
ンザフライ式に圧縮したのち、スピーチ入力が続くうち
から、圧縮したストリーム式のデジタル化オーディオを
ASRサーバ100に伝送し始める。
【0034】ステップ604で、ASRサーバ100が
ASRクライアント130から受けた圧縮オーディオを
圧縮解除したのち、ストリーム式デジタル化オーディオ
に対してスピーチ認識を実行する。図5を参照して上述
したように、スピーチ認識は、駆動された規則によって
定義される選択された文法の制限の範囲で実行される。
ステップ605で、ASRサーバ100が、入力された
スピーチを認識するのと同時にストリーム式テキスト
(すなわち、部分的に認識されたスピーチ)を返す。し
たがって、ASRサーバ100は、ASRクライアント
130から送られてくるさらなる圧縮されたストリーム
式オーディオを処理し続けている間にも、最初の結果を
ASRクライアント130に返し、スピーチ認識タスク
の一部としてASRクライアント130にすでに戻され
たテキストの部分を更新または修正することができる。
ひとたびストリーム式オーディオのすべてをASRクラ
イアント130から受けたならば、ASRサーバは、そ
のスピーチ認識処理を完了し、ステップ606で、認識
したテキストの最終版(修正を含む)を返す。ASRク
ライアント130は、ステップ607で、ASRサーバ
100から入ってくる認識されたテキストを受け、ステ
ップ608で、そのテキストをアプリケーションに返
す。
【0035】本発明にしたがってスピーチ認識プロセス
を実施するためのもう一つの代替態様を図7に示す。図
5および6に示すスピーチ認識プロセスと同様に、ステ
ップ701で、ASRクライアント130が、スピーチ
認識タスクを開始するよう、アプリケーションから要求
を受け、ステップ702で、クライアントPC140の
オーディオ入力からストリーム式オーディオを要求す
る。そして、マイク入力からデジタル化されたストリー
ム式オーディオがASRクライアント130に渡され
る。ステップ703で、ASRクライアント130がデ
ジタル化オーディオをオンザフライ式に処理してスピー
チ認識処理に有用な特徴を抽出したのち、スピーチ入力
が続くうちから、抽出した特徴をASRサーバ100に
伝送し始める。スピーチからの適切な特徴の抽出は、通
常はスピーチ認識に用いられるアルゴリズムの一部であ
る文法非依存的処理を伴い、当業者には公知である方
法、たとえば線形予測符号化(LPC)またはメル(Me
l)フィルタバンク処理に基づく方法を使用して実施す
ることができる。特徴抽出は、不要な情報、たとえば音
量を除去しながらも、音声信号の特徴から得られる情報
を提供する。
【0036】抽出された特徴をASRクライアント13
0から受けると、ASRサーバ100は、ステップ70
4で、オンザフライ式に(すなわち、ストリーム式オー
ディオの場合と同様に)到着してくる特徴に対してスピ
ーチ認識を実行する。スピーチ認識は、駆動された規則
によって定義される選択された文法の制限の範囲で実行
される。図5および6を参照しながら上記に論じた実施
態様の場合と同様に、ステップ705で、ASRサーバ
100は、入力された特徴を認識するのと同時にストリ
ーム式テキスト(すなわち、部分的に認識したスピー
チ)をASRクライアント130に返す。ASRサーバ
100は、ASRクライアント130から送られてくる
さらなる抽出された特徴を処理し続け、ASRクライア
ント130にすでに返したテキストの部分を更新または
修正することができる。抽出された特徴のすべてをAS
Rクライアント130から受けると、ASRサーバは、
そのスピーチ認識処理を完了し、ステップ706で、認
識したテキストの最終版(修正を含む)を返す。ASR
クライアント130は、ステップ707で、認識された
テキストがASRサーバ100から入力されるのと同時
にそれを受け、ステップ708で、そのテキストをアプ
リケーションに返す。
【0037】図6および7に関して上述した代替態様は
いずれもクライアント側でのさらなる処理を考慮してい
る。図6の実施態様の場合、これは、ストリーム式オー
ディオの圧縮を伴う(サーバ側ではオーディオの圧縮解
除を伴う)。図7の実施態様の場合、これは、特徴抽出
の形態のスピーチ認識処理の一部を含むものであった。
このようなさらなる処理をクライアント側で使用する
と、ASRクライアント130からASRサーバ100
に伝送されるデータの量を有意に減らすことができる。
したがって、伝送されるスピーチ信号を表すのに必要な
データが少なくなる。特徴抽出をクライアント側で達成
する場合、そのような利点が潜在的に急増する。理由
は、抽出される特徴が、デジタル化音声信号に比べ、よ
り少ないデータしか要さず、無音期間中には特徴を送る
必要がないからである。データの減少は、二つの望まし
い利点、すなわち(1)特定のレベルの性能を達成する
のに必要なバンド幅を減少することができる利点、およ
び(2)スピーチデータをTCP/IPソケットを介し
てASRクライアントからASRサーバに送る際の伝送
時間を減らす利点を生む。
【0038】通常は、スピーチ情報がASRクライアン
ト130からASRサーバ100に伝送され始める前に
文法規則が駆動されるが、規則の駆動は、認識されるス
ピーチ情報の一部または全部がASRクライアント13
0からASRサーバ100に送られた後で起こってもよ
い。そのような状況では、ASRサーバ100は、文法
規則が駆動されるまでスピーチ認識作業を開始しない。
ASRサーバ100は、文法規則の駆動の前にASRク
ライアント130によって送られたスピーチを、認識系
による処理のために一時的に記憶してもよいし、あるい
は、このようなスピーチを無視することもできる。
【0039】さらには、本発明の技術を使用して、多数
のスピーチ認識タスクを実行することができる。たとえ
ば、ASRアプリケーションは、ASRクライアント1
30に対し、電話番号の缶入り文法(すなわち「PHO
NE NUMBER)をロードするようASRサーバ1
00に命令することを要求したのち、発話された番号を
カバーする規則の駆動を要求することもできる。電話番
号が発話され、本発明にしたがって認識されたのち(た
とえば、電話番号を発話せよという入力促進に応答し
て、ASRクライアント130がデジタル化発話番号を
ASRサーバ100に送って認識を求める)、ASRア
プリケーションは、図2〜5を参照して上述した例にし
たがって、ASRクライアント130に対し、ピザ注文
スピーチの認識をセットアップし、開始する(たとえ
ば、PIZZA文法をロードし、ORDER規則を駆動
し、スピーチ認識を開始する)よう、要求することがで
きる。
【0040】例として上記に使用した簡単なピザ注文例
に加えて、本発明にしたがって、幅広い潜在的なASR
サービスをパケットネットワークを介して提供すること
ができる。本発明によって可能になるASRアプリケー
ションの一例は、用紙の中の多数の空欄それぞれに求め
られる情報に対して発話される答に応じて用紙を完成さ
せるための用紙記入サービスである。本発明によると、
ASRクライアント130が、空欄それぞれに対して可
能な選択を表す文法をASRサーバ100に送るような
用紙記入サービスを実現することができる。空欄ごと
に、ASRクライアント130が適切な文法規則の駆動
を要求し、空欄を満たすのに必要な情報を求める要求に
応じて発話された、対応する回答を送る。ASRサーバ
100が、選択された文法および規則にしたがって、適
切なスピーチ認識アルゴリズムを適用し、用紙に挿入す
べきテキストを返す。
【0041】他のASRサービスは、サーバとクライア
ントとの間の情報交換(たとえば対話)を伴うこともあ
る。たとえば、航空便予約を扱うためのASRサービス
アプリケーションは、本明細書に記載する本発明による
と、ASRサーバ100とASRクライアント130と
の間の対話を利用して、ASRタスクを達成する。対話
は次のように進行するかもしれない。
【0042】発話者(ASRクライアント130からA
SRサーバ100に対し):「ロサンゼルス行きの便を
予約したい」 ASRクライアントに対するASRサーバの応答(テキ
スト形態、あるいはまた、ASRサーバ100によって
ASRクライアント130に返されるスピーチの形
態):「搭乗地はどこですか」 発話者(ASRクライアントからASRサーバに対
し):「ワシントンDC」 ASRクライアントに対するASRサーバの応答:「何
曜日に出発ですか」 発話者(ASRクライアントからASRサーバに対
し):「火曜日」 ASRクライアントに対するASRサーバの応答:「出
発時刻はいつですか」 発話者(ASRクライアントからASRサーバに対
し):「午後4時」 ASRクライアントに対するASRサーバの応答:「火
曜午後4時のXYZ航空4567便をワシントンDCか
らロサンゼルスまで予約することができます。この便に
座席を予約しますか」 この場合、ASRサーバ100から受ける情報は文字ど
おり認識されたスピーチからのテキストではなく、認識
されたスピーチ(アプリケーションに依存する)にもと
づく応答、例えば発話者の質問に対してASRサーバが
生成した応答である。対話の各区分は、上述したASR
クライアント−サーバ方法にしたがって達成することが
できる。この例からわかるように、このようなASRサ
ービスアプリケーションは、ASRクライアントおよび
ASRサーバに対し、自然言語を扱う能力を要求するだ
けでなく、絶えず変化する大きなデータベースにアクセ
スする能力をも要求する。これを達成するためには、A
SRサービスアプリケーションを、実際には、クライア
ントPC140の中ではなく、サーバノード110の中
にインストールし、そこで動作させることが望ましいか
もしれない。その場合、クライアントPC140は、サ
ーバノード110で動作するアプリケーションプログラ
ムの制御の下でASRクライアント130を開始し、A
SRクライアント130を介したスピーチ入力をASR
サーバ100に対し、かつASRサーバ100から誘導
する比較的小さな「代理」プログラムを動作させるだけ
でよい。このような「代理」プログラムの例は、たとえ
ば、クライアントPC140の画面上に「語り手」を配
して、クライアントPC140でASRサービスアプリ
ケーションを使用する個人との対話を支援し、ASRク
ライアント130およびASRサーバ100を介して、
その人のスピーチ情報を認識のためにASRサーバ10
0に送り、スピーチを応答としてその個人に返信するも
のであってもよい。
【0043】要約すると、本発明は、クライアント−サ
ーバアーキテクチャを使用して、ASRエンジンをホス
トするシステムから離れた場所で、パケットネットワー
ク、たとえばインターネットを介してユーザに利用可能
にすることができるASRサービスを提供する方法を提
供する。
【0044】ここに記載したものは、本発明の原理を適
用した例を示すに過ぎない。当業者であれば、本発明の
真髄および範囲を逸することなく、他の構造および方法
を実施することができる。したがって、本発明の範囲
は、ここに記載した任意の特定例によってではなく、請
求の範囲によって定めるべきである。
【図面の簡単な説明】
【図1】 本発明にしたがって遠隔ASRサービスを提
供するシステムのクライアント−サーバ関係を示す図で
ある。
【図2】 本発明にしたがって遠隔ASRサービスを可
能にするためのセットアッププロセスを示す図である。
【図3】 本発明にしたがって遠隔ASRサービスを可
能にするための代替セットアッププロセスを示す図であ
る。
【図4】 本発明の規則選択プロセスを示す図である。
【図5】 本発明にしたがって遠隔自動スピーチ認識及
びスピーチ応答を可能にするためのプロセスを示す図で
ある。
【図6】 本発明にしたがって遠隔自動スピーチ認識及
びスピーチ応答を可能にするための代替プロセスを示す
図である。
【図7】 本発明にしたがって遠隔自動スピーチ認識及
びスピーチ応答を可能にするためのもう一つの代替プロ
セスを示す図である。
【符号の説明】
100 ASRサーバ、110 サーバノード、120
パケットネットワーク、130 ASRクライアン
ト、140 クライアントPC。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 571U (72)発明者 デビット ビー ロイ アメリカ合衆国 カリフォルニア州 サン タ バーバラ カミノ デル リオ 1176 (72)発明者 ロバート ディー シャープ アメリカ合衆国 ニュージャージー州 モ リスタウン ワイルドフラワー レーン 31 Fターム(参考) 5D015 AA04 KK02 KK04

Claims (45)

    【特許請求の範囲】
  1. 【請求項1】 パケットネットワークを介してクライア
    ントにより遠隔アクセス可能な自動スピーチ認識サービ
    ス提供方法であって、 (a)複数の文法の1つに関連づけた文法識別子をクラ
    イアントからパケットネットワークを介して受信するス
    テップと、 (b)前記文法識別子にもとづき、複数の文法から文法
    を選択するステップと、 (c)スピーチを表す情報をクライアントからパケット
    ネットワークを介して受信するステップと、 (d)前記選択した文法にしたがって自動スピーチ認識
    アルゴリズムを適用することにより、受信したスピーチ
    情報を認識するステップと、 (e)認識したスピーチに基づく応答をパケットネット
    ワークを介してクライアントに送るステップと、を含む
    方法。
  2. 【請求項2】 請求項1に記載の方法において、前記パ
    ケットネットワークは、インタネットプロトコルネット
    ワークである方法。
  3. 【請求項3】 請求項1に記載の方法において、前記パ
    ケットネットワークは無線ネットワークである方法。
  4. 【請求項4】 請求項1に記載の方法において、前記文
    法識別子は、ユニフォームリソースロケータ互換アドレ
    スである方法。
  5. 【請求項5】 請求項1に記載の方法において、前記複
    数の文法は、自動スピーチ認識サービスに対して局所的
    に記憶されている方法。
  6. 【請求項6】 請求項4に記載の方法において、前記複
    数の文法は、自動スピーチ認識サービスから離れて記憶
    されている方法。
  7. 【請求項7】 請求項1に記載の方法において、前記ス
    テップ(c)、(d)及び(e)を繰り返し、前記クラ
    イアントと、自動スピーチ認識サービスを行うサーバと
    のあいだで情報を交換する方法。
  8. 【請求項8】 請求項1に記載の方法において、自動ス
    ピーチ認識サービスを使用し、情報をある形式で提供す
    る方法。
  9. 【請求項9】 請求項8に記載の方法において、ある形
    式での情報提供が、ユーザの製品購入に関連する方法。
  10. 【請求項10】 インターネットプロトコルネットワー
    クを介してクライアントにより遠隔アクセス可能な自動
    スピーチ認識サービスの提供方法であって、 (a)スピーチ情報をクライアントから受信するステッ
    プと、 (b)文法を使用し、自動スピーチ認識アルゴリズムを
    適用することにより、受信したスピーチ情報を認識する
    ステップと、 (c)認識したスピーチに基づく応答をインターネット
    プロトコルネットワークを介してクライアントに送るス
    テップと、を含む方法。
  11. 【請求項11】 請求項10に記載の方法であって、ス
    テップ(b)に先立ち、さらに、文法識別子をクライア
    ントから受信するステップと、前記文法識別子を使用
    し、前記スピーチ情報の認識に使用する文法を、複数の
    文法から選択するステップと、を含む方法。
  12. 【請求項12】 請求項11に記載の方法において、前
    記複数の文法は自動スピーチ認識サービスに対して局所
    的に記憶されている方法。
  13. 【請求項13】 請求項11に記載の方法において、前
    記複数の文法は自動スピーチ認識サービスから離れて記
    憶されている方法。
  14. 【請求項14】 請求項13に記載の方法において、前
    記文法識別子はユニフォームリソースロケータ互換アド
    レスである方法。
  15. 【請求項15】 パケットネットワークを介してクライ
    アントにより遠隔アクセス可能な自動スピーチ認識サー
    ビスを提供する方法であって、自動スピーチ認識サービ
    スはスピーチの認識に使用する文法をパケットネットワ
    ークを介して受信し、前記方法は、 (a)パケットネットワークを介してクライアントから
    スピーチを表す情報を受信するステップと、 (b)前記文法にしたがって自動スピーチ認識アルゴリ
    ズムを適用することにより、受信したスピーチ情報を認
    識するステップと、 (c)認識したスピーチに基づく応答をパケットネット
    ワークを介してクライアントに送るステップと、を含む
    方法。
  16. 【請求項16】 請求項15に記載の方法において、前
    記パケットネットワークは、インターネットプロトコル
    ネットワークである方法。
  17. 【請求項17】 請求項16に記載の方法において、前
    記インターネットプロトコルネットワークは無線ネット
    ワークである方法。
  18. 【請求項18】 クライアントとサーバとの間の情報交
    換方法であって、サーバは、パケットネットワークを介
    してクライアントにより遠隔アクセス可能な自動スピー
    チ認識及び文字スピーチ変換サービスを提供し、前記方
    法は、サーバにて、 (a)複数の文法の1つに関連づけた文法識別子をクラ
    イアントから受信するステップと、 (b)前記文法識別子にもとづき、複数の文法から文法
    を選択するステップと、 (c)ユーザがクライアントにスピーチを送ると、 (i)スピーチに関する情報をクライアントから受信す
    るステップと、 (ii)選択された文法を使用し、自動スピーチ認識ア
    ルゴリズムを適用することにより前記スピーチに関する
    情報を認識するステップと、 (iii)認識したスピーチにもとづく応答をクライア
    ントに送るステップと、 を繰り返すステップと、を含む方法。
  19. 【請求項19】 パケットネットワークを介してクライ
    アントにより遠隔アクセス可能な文字スピーチ変換サー
    ビスの提供方法であって、 (a)パケットネットワークを介してクライアントから
    複数の文法の1つに関連する文法識別子を受信するステ
    ップと、 (b)前記文法識別子にもとづき、複数の文法から文法
    を選択するステップと、 (c)パケットネットワークを介してクライアントから
    スピーチを表す情報を受信するステップと、 (d)選択された文法にしたがって自動スピーチ認識ア
    ルゴリズムを適用することにより受信したスピーチ情報
    を認識するステップと、 (e)認識したスピーチに応答してスピーチを生成する
    ステップと、 (f)前記スピーチをパケットネットワークを介してク
    ライアントに送信するステップと、を含む方法。
  20. 【請求項20】 請求項19に記載の方法において、前
    記パケットネットワークは、インタネットプロトコルネ
    ットワークである方法。
  21. 【請求項21】 請求項20に記載の方法において、前
    記パケットネットワークは無線ネットワークである方
    法。
  22. 【請求項22】 請求項19に記載の方法において、前
    記文法識別子は、ユニフォームリソースロケータ互換ア
    ドレスである方法。
  23. 【請求項23】 請求項19に記載の方法において、前
    記複数の文法は、文字スピーチ変換サービスに対して局
    所的に記憶されている方法。
  24. 【請求項24】 請求項23に記載の方法において、前
    記複数の文法は、文字スピーチ変換サービスから離れて
    記憶されている方法。
  25. 【請求項25】 請求項19に記載の方法において、ス
    テップ(c),(d),(e)及び(f)を繰り返し、
    前記クライアントと、文字スピーチ変換サービスを提供
    するサーバとのあいだで情報を交換する方法。
  26. 【請求項26】 請求項19に記載の方法において、文
    字スピーチ変換サービスによりユーザが製品またはサー
    ビスを購入できる方法。
  27. 【請求項27】 インターネットプロトコルネットワー
    クを介してクライアントにより遠隔アクセス可能な文字
    スピーチ変換サービスの提供方法であって、 (a)スピーチ情報をクライアントから受信するステッ
    プと、 (b)文法を使用し、自動スピーチ認識アルゴリズムを
    適用することにより、受信したスピーチ情報を認識する
    ステップと、 (c)認識したスピーチに基づき、クライアントに対し
    て、文字スピーチ変換サービスを使用してスピーチをイ
    ンターネットプロトコルネットワークを介して生成する
    ステップと、を含む方法。
  28. 【請求項28】 請求項27に記載の方法であって、ス
    テップ(b)の前に、さらに、 クライアントから文法識別子を受信するステップと、 前記文法識別子を使用し、前記スピーチ情報の認識に使
    用する文法を、複数の文法から選択するステップと、を
    含む方法。
  29. 【請求項29】 請求項28に記載の方法において、前
    記複数の文法は文字スピーチ変換サービスに対して局所
    的に記憶されている方法。
  30. 【請求項30】 請求項28に記載の方法において、前
    記複数の文法は文字スピーチ変換サービスから離れて記
    憶されている方法。
  31. 【請求項31】 請求項30に記載の方法において、前
    記文法識別子はユニフォームリソースロケータ互換アド
    レスである方法。
  32. 【請求項32】 パケットネットワークを介してクライ
    アントにより遠隔アクセス可能な文字スピーチ変換サー
    ビスを提供する方法であって、文字スピーチ変換サービ
    スはスピーチの認識に使用する文法をパケットネットワ
    ークを介して受信し、前記方法は、 (a)パケットネットワークを介してクライアントから
    スピーチを表す情報を受信するステップと、 (b)前記文法にしたがって自動スピーチ認識アルゴリ
    ズムを適用することにより、受信したスピーチ情報を認
    識するステップと、 (c)認識したスピーチに基づくスピーチをパケットネ
    ットワークを介してクライアントに送るステップと、を
    含む方法。
  33. 【請求項33】 請求項32に記載の方法において、前
    記パケットネットワークは、インタネットプロトコルネ
    ットワークである方法。
  34. 【請求項34】 請求項32に記載の方法において、前
    記インターネットプロトコルネットワークは無線ネット
    ワークである方法。
  35. 【請求項35】 クライアントとサーバとの間の情報交
    換方法であって、サーバは、パケットネットワークを介
    してクライアントにより遠隔アクセス可能な自動スピー
    チ認識及び文字スピーチ変換サービスを提供し、前記方
    法は、 (a)複数の文法の1つに関連する文法識別子をクライ
    アントから受信するステップと、 (b)前記文法識別子にもとづき、複数の文法から文法
    を選択するステップと、 (c)ユーザがクライアントにスピーチを送ると、 (i)スピーチに関する情報をクライアントから受信す
    るステップと、 (ii)選択された文法を使用し、自動スピーチ認識ア
    ルゴリズムを適用することにより前記スピーチに関する
    情報を認識するステップと、 (iii)認識したスピーチ情報にもとづきスピーチを
    生成するステップと、 (iv)前記スピーチをクライアントに送るステップ
    と、 を繰り返すステップと、を含む方法。
  36. 【請求項36】 サーバ上でクライアントから離れて作
    動する文字スピーチ変換サービスにインターネットプロ
    トコルネットワークを介してアクセスする方法であっ
    て、 (a)ユーザからスピーチ情報を受信するステップと、 (b)前記スピーチ情報を、スピーチ認識のためにサー
    バに送信するステップと、 (c)生成されたスピーチをインターネットプロトコル
    ネットワークを介してサーバから受信し、ユーザと、文
    字スピーチ変換サービスとの間の対話を可能にするステ
    ップと、を含む方法。
  37. 【請求項37】 請求項36に記載の方法であって、前
    記方法はさらに、サーバによるスピーチ認識に先立ちク
    ライアントが、 サーバに文法識別子を送信するステップを含み、サーバ
    は該文法識別子を使用し、複数の文法から文法を選択可
    能である方法。
  38. 【請求項38】 請求項37に記載の方法において、前
    記複数の文法はサーバに対して局所的に記憶されている
    方法。
  39. 【請求項39】 請求項37に記載の方法において、前
    記複数の文法はサーバから離れて記憶されている方法。
  40. 【請求項40】 請求項39に記載の方法において、前
    記文法識別子は、ユニフォームリソースロケータ互換ア
    ドレスである方法。
  41. 【請求項41】 パケットネットワークを介してクライ
    アントにより遠隔アクセス可能な文字スピーチ変換サー
    ビスの提供方法であって、文字スピーチ変換サービスは
    自動スピーチ認識に使用する文法をパケットネットワー
    クを介して受信し、クライアントが、 (a)ユーザスピーチ情報をパケットネットワークを介
    して文字スピーチ変換サービスに送信し、文字スピーチ
    変換サービスは前記ユーザスピーチ情報を認識し、認識
    したスピーチにもとづきスピーチを生成するステップ
    と、 (b)前記スピーチを、文字スピーチ変換サービスから
    パケットネットワークを介して受信するステップと、を
    含む方法。
  42. 【請求項42】 請求項41に記載の方法において、パ
    ケットネットワークがインターネットプロトコルネット
    ワークである方法。
  43. 【請求項43】 請求項42に記載の方法において、パ
    ケットネットワークが無線ネットワークである方法。
  44. 【請求項44】 請求項41に記載の方法において、前
    記ステップ(a)及び(b)を繰り返すことによりユー
    ザと、文字スピーチ変換サービスとの対話を可能にする
    方法。
  45. 【請求項45】 クライアントとサーバとのあいだの情
    報交換方法であって、サーバはパケットネットワークを
    介してクライアントにより遠隔アクセス可能な自動スピ
    ーチ認識及び文字スピーチ変換サービスを提供し、前記
    方法は、クライアントが、 (a)複数の文法の1つに関連する文法識別子を文字ス
    ピーチ変換サービスに送信し、該文法識別子にもとづ
    き、文字スピーチ変換システムが複数の文法から文法を
    選択するステップと、 (b)ユーザがクライアントにスピーチを送ると、 (i)スピーチに関する情報を文字スピーチ変換サービ
    スに送信し、文字スピーチ変換サービスは前記スピーチ
    に関する情報を認識するステップと、 (ii)認識したスピーチに関する情報にもとづき生成
    されたスピーチを、文字スピーチ変換システムから受信
    するステップと、 を繰り返すステップと、を含む方法。
JP2002156302A 1997-04-14 2002-05-29 自動スピーチ認識とスピーチサービス提供方法およびシステム Pending JP2003050594A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/833,210 1997-04-14
US08/833,210 US6078886A (en) 1997-04-14 1997-04-14 System and method for providing remote automatic speech recognition services via a packet network

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP10095930A Division JPH10333693A (ja) 1997-04-14 1998-04-08 自動スピーチ認識サービス提供方法およびシステム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006010432A Division JP4849894B2 (ja) 1997-04-14 2006-01-18 自動スピーチ認識サービス提供方法及びシステム並びに媒体

Publications (1)

Publication Number Publication Date
JP2003050594A true JP2003050594A (ja) 2003-02-21

Family

ID=25263756

Family Applications (3)

Application Number Title Priority Date Filing Date
JP10095930A Pending JPH10333693A (ja) 1997-04-14 1998-04-08 自動スピーチ認識サービス提供方法およびシステム
JP2002156302A Pending JP2003050594A (ja) 1997-04-14 2002-05-29 自動スピーチ認識とスピーチサービス提供方法およびシステム
JP2006010432A Expired - Lifetime JP4849894B2 (ja) 1997-04-14 2006-01-18 自動スピーチ認識サービス提供方法及びシステム並びに媒体

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP10095930A Pending JPH10333693A (ja) 1997-04-14 1998-04-08 自動スピーチ認識サービス提供方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2006010432A Expired - Lifetime JP4849894B2 (ja) 1997-04-14 2006-01-18 自動スピーチ認識サービス提供方法及びシステム並びに媒体

Country Status (6)

Country Link
US (3) US6078886A (ja)
EP (1) EP0872827B1 (ja)
JP (3) JPH10333693A (ja)
CA (1) CA2228917C (ja)
DE (1) DE69829604T2 (ja)
MX (2) MX2007013017A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP2014056258A (ja) * 2008-08-29 2014-03-27 Mmodal Ip Llc 片方向通信を使用する分散型音声認識

Families Citing this family (296)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7168084B1 (en) 1992-12-09 2007-01-23 Sedna Patent Services, Llc Method and apparatus for targeting virtual objects
US9286294B2 (en) 1992-12-09 2016-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content suggestion engine
US6115427A (en) 1996-04-26 2000-09-05 At&T Corp. Method and apparatus for data transmission using multiple transmit antennas
US8209184B1 (en) 1997-04-14 2012-06-26 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6856960B1 (en) * 1997-04-14 2005-02-15 At & T Corp. System and method for providing remote automatic speech recognition and text-to-speech services via a packet network
JP4562910B2 (ja) * 1998-03-23 2010-10-13 マイクロソフト コーポレーション オペレーティングシステムのアプリケーション・プログラム・インターフェース
US6434526B1 (en) * 1998-06-29 2002-08-13 International Business Machines Corporation Network application software services containing a speech recognition capability
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
AU6292799A (en) * 1998-10-15 2000-05-01 Luther Marvin Shannon Method for computer-aided foreign language instruction
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
DE19910234A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren mit mehreren Spracherkennern
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
US6526380B1 (en) 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
JP2002540479A (ja) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ クライアントサーバ音声認識
WO2000058942A2 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
US20050091057A1 (en) * 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US20050261907A1 (en) * 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
WO2000062222A1 (en) * 1999-04-14 2000-10-19 Syvox Corporation Interactive voice unit for giving instruction to a worker
DE19918382B4 (de) * 1999-04-22 2004-02-05 Siemens Ag Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät
GB9911971D0 (en) 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
WO2000077607A1 (en) * 1999-06-09 2000-12-21 Koninklijke Philips Electronics N.V. Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units.
DE19930407A1 (de) * 1999-06-09 2000-12-14 Philips Corp Intellectual Pty Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten
GB2356318A (en) * 1999-09-04 2001-05-16 Marconi Comm Ltd Server with voice recognition
US7330815B1 (en) 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
EP1098297A1 (en) * 1999-11-02 2001-05-09 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6792405B2 (en) * 1999-12-10 2004-09-14 At&T Corp. Bitstream-based feature extraction method for a front-end speech recognizer
US7110947B2 (en) 1999-12-10 2006-09-19 At&T Corp. Frame erasure concealment technique for a bitstream-based feature extractor
US6424945B1 (en) 1999-12-15 2002-07-23 Nokia Corporation Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection
US6434529B1 (en) * 2000-02-16 2002-08-13 Sun Microsystems, Inc. System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar
AU2001239880A1 (en) 2000-02-25 2001-09-03 Pulsar Communications, Inc. Apparatus and method for providing enhanced telecommunications services
AU2001250050A1 (en) * 2000-03-24 2001-10-08 Eliza Corporation Remote server object architecture for speech recognition
KR20010025230A (ko) * 2000-11-09 2001-04-06 차정만 음성도메인에 의한 인터넷접속 매개장치와 매개방법 및음성도메인의 데이터 베이스 생성방법
US6785653B1 (en) * 2000-05-01 2004-08-31 Nuance Communications Distributed voice web architecture and associated components and methods
US7712024B2 (en) 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7770102B1 (en) 2000-06-06 2010-08-03 Microsoft Corporation Method and system for semantically labeling strings and providing actions based on semantically labeled strings
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
US7716163B2 (en) 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
DE60039076D1 (de) * 2000-06-26 2008-07-10 Mitsubishi Electric Corp System zum Betreiben eines Gerätes
KR100383391B1 (ko) * 2000-06-28 2003-05-12 김지한 음성인식서비스 시스템 및 방법
FI115868B (fi) * 2000-06-30 2005-07-29 Nokia Corp Puhesynteesi
US20030115167A1 (en) * 2000-07-11 2003-06-19 Imran Sharif Web browser implemented in an Internet appliance
US7245291B2 (en) 2000-07-11 2007-07-17 Imran Sharif System and method for internet appliance data entry and navigation
US20020078445A1 (en) * 2000-07-11 2002-06-20 Imran Sharif Internet appliance for interactive audio/video display using a remote control unit for user input
US6980313B2 (en) * 2000-07-11 2005-12-27 Imran Sharif Fax-compatible internet appliance
US7139709B2 (en) * 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
GB2365189A (en) * 2000-07-26 2002-02-13 Canon Kk Voice-controlled machine
DE60128372T2 (de) * 2000-07-31 2008-01-10 Eliza Corp., Beverly Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
WO2002011120A1 (en) * 2000-08-02 2002-02-07 Speaklink, Inc. System and method for voice-activated web content navigation
FI20001918A (fi) 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
EP1376418B1 (en) * 2000-08-31 2006-12-27 Hitachi, Ltd. Service mediating apparatus
US6556563B1 (en) * 2000-09-11 2003-04-29 Yahoo! Inc. Intelligent voice bridging
US6567419B1 (en) 2000-09-11 2003-05-20 Yahoo! Inc. Intelligent voice converter
US7095733B1 (en) 2000-09-11 2006-08-22 Yahoo! Inc. Voice integrated VOIP system
US6580786B1 (en) 2000-09-11 2003-06-17 Yahoo! Inc. Message store architecture
US7454346B1 (en) * 2000-10-04 2008-11-18 Cisco Technology, Inc. Apparatus and methods for converting textual information to audio-based output
GB2368441A (en) * 2000-10-26 2002-05-01 Coles Joseph Tidbold Voice to voice data handling system
US7136814B1 (en) * 2000-11-03 2006-11-14 The Procter & Gamble Company Syntax-driven, operator assisted voice recognition system and methods
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
US6823306B2 (en) 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
ES2391983T3 (es) * 2000-12-01 2012-12-03 The Trustees Of Columbia University In The City Of New York Procedimiento y sistema para la activación por voz de páginas web
US6937986B2 (en) * 2000-12-28 2005-08-30 Comverse, Inc. Automatic dynamic speech recognition vocabulary based on external sources of information
US20020143553A1 (en) * 2001-01-24 2002-10-03 Michael Migdol System, method and computer program product for a voice-enabled universal flight information finder
FR2820872B1 (fr) * 2001-02-13 2003-05-16 Thomson Multimedia Sa Procede, module, dispositif et serveur de reconnaissance vocale
DE10109156C2 (de) * 2001-02-24 2003-01-09 Diehl Ako Stiftung Gmbh & Co Intelligente Haushaltsgrossgeräte
US7805310B2 (en) * 2001-02-26 2010-09-28 Rohwer Elizabeth A Apparatus and methods for implementing voice enabling applications in a converged voice and data network environment
US20020178003A1 (en) * 2001-03-09 2002-11-28 Motorola, Inc. Method and apparatus for providing voice recognition service to a wireless communication device
AU2002238961A1 (en) * 2001-03-22 2002-10-08 Canon Kabushiki Kaisha Information processing apparatus and method, and program
US6985862B2 (en) * 2001-03-22 2006-01-10 Tellme Networks, Inc. Histogram grammar weighting and error corrective training of grammar weights
US7233903B2 (en) * 2001-03-26 2007-06-19 International Business Machines Corporation Systems and methods for marking and later identifying barcoded items using speech
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
US7778816B2 (en) * 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
CN101833952B (zh) * 2001-05-04 2013-02-13 微软公司 客户服务器系统中处理输入数据的方法
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US20020178182A1 (en) * 2001-05-04 2002-11-28 Kuansan Wang Markup language extensions for web enabled recognition
CN1279465C (zh) * 2001-05-04 2006-10-11 微软公司 Web启用的识别体系结构
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203188B1 (en) 2001-05-21 2007-04-10 Estara, Inc. Voice-controlled data/information display for internet telephony and integrated voice and data communications using telephones and computing devices
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
US20030009331A1 (en) * 2001-07-05 2003-01-09 Johan Schalkwyk Grammars for speech recognition
US7194513B2 (en) * 2001-07-08 2007-03-20 Imran Sharif System and method for using an internet appliance to send/receive digital content files as E-mail attachments
US20030014254A1 (en) * 2001-07-11 2003-01-16 You Zhang Load-shared distribution of a speech system
US7793326B2 (en) 2001-08-03 2010-09-07 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator
US7908628B2 (en) 2001-08-03 2011-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content coding and formatting
US7313526B2 (en) 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
US7526431B2 (en) * 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7809574B2 (en) 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7324947B2 (en) 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
US8644475B1 (en) 2001-10-16 2014-02-04 Rockstar Consortium Us Lp Telephony usage derived presence information
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
JP2003143256A (ja) 2001-10-30 2003-05-16 Nec Corp 端末装置と通信制御方法
US7246060B2 (en) * 2001-11-06 2007-07-17 Microsoft Corporation Natural input recognition system and method using a contextual mapping engine and adaptive user bias
US6816578B1 (en) * 2001-11-27 2004-11-09 Nortel Networks Limited Efficient instant messaging using a telephony interface
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US20030135624A1 (en) * 2001-12-27 2003-07-17 Mckinnon Steve J. Dynamic presence management
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
US20030144846A1 (en) * 2002-01-31 2003-07-31 Denenberg Lawrence A. Method and system for modifying the behavior of an application based upon the application's grammar
US7054813B2 (en) * 2002-03-01 2006-05-30 International Business Machines Corporation Automatic generation of efficient grammar for heading selection
US6895379B2 (en) * 2002-03-27 2005-05-17 Sony Corporation Method of and apparatus for configuring and controlling home entertainment systems through natural language and spoken commands using a natural language server
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US20030217149A1 (en) * 2002-05-20 2003-11-20 International Business Machines Corporation Method and apparatus for tunneling TCP/IP over HTTP and HTTPS
US7742048B1 (en) 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7707024B2 (en) 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7356537B2 (en) 2002-06-06 2008-04-08 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
US8073930B2 (en) * 2002-06-14 2011-12-06 Oracle International Corporation Screen reader remote access system
US7716676B2 (en) 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US7209915B1 (en) 2002-06-28 2007-04-24 Microsoft Corporation Method, system and apparatus for routing a query to one or more providers
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7797159B2 (en) * 2002-09-16 2010-09-14 Movius Interactive Corporation Integrated voice navigation system and method
US8392609B2 (en) 2002-09-17 2013-03-05 Apple Inc. Proximity detection for media proxies
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling
US7783614B2 (en) 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US20050049922A1 (en) * 2003-03-24 2005-03-03 Ipdev Co. Method and apparatus for specifying toppings and their placement on a pizza and confirming same
US7013282B2 (en) * 2003-04-18 2006-03-14 At&T Corp. System and method for text-to-speech processing in a portable device
US7260539B2 (en) * 2003-04-25 2007-08-21 At&T Corp. System for low-latency animation of talking heads
US7260535B2 (en) 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US7711550B1 (en) 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
US20050015256A1 (en) * 2003-05-29 2005-01-20 Kargman James B. Method and apparatus for ordering food items, and in particular, pizza
EP1631899A4 (en) * 2003-06-06 2007-07-18 Univ Columbia SYSTEM AND METHOD FOR LANGUAGE ACTIVATION OF WEB SITES
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
JP4267385B2 (ja) 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
US7073203B2 (en) * 2003-08-08 2006-07-11 Simms Fishing Products Corporation Foot-covering component of a stocking foot wader including gravel guard and method for manufacturing
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US7519042B2 (en) 2003-09-12 2009-04-14 Motorola, Inc. Apparatus and method for mixed-media call formatting
US20050065789A1 (en) * 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
US20050102625A1 (en) * 2003-11-07 2005-05-12 Lee Yong C. Audio tag retrieval system and method
US9118574B1 (en) 2003-11-26 2015-08-25 RPX Clearinghouse, LLC Presence reporting using wireless messaging
KR100600522B1 (ko) * 2003-12-16 2006-07-13 에스케이 주식회사 상담원과 음성 인식 엔진을 이용한 품질보장형 콜라우팅시스템 및 그 방법
US20050171781A1 (en) * 2004-01-08 2005-08-04 Poploskie Jon M. Speech information system
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
FR2865846A1 (fr) * 2004-02-02 2005-08-05 France Telecom Systeme de synthese vocale
US7925512B2 (en) * 2004-05-19 2011-04-12 Nuance Communications, Inc. Method, system, and apparatus for a voice markup language interpreter and voice browser
US8036893B2 (en) 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7940746B2 (en) 2004-08-24 2011-05-10 Comcast Cable Holdings, Llc Method and system for locating a voice over internet protocol (VoIP) device connected to a network
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US7783028B2 (en) * 2004-09-30 2010-08-24 International Business Machines Corporation System and method of using speech recognition at call centers to improve their efficiency and customer satisfaction
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US8706501B2 (en) * 2004-12-09 2014-04-22 Nuance Communications, Inc. Method and system for sharing speech processing resources over a communication network
US20060149551A1 (en) * 2004-12-22 2006-07-06 Ganong William F Iii Mobile dictation correction user interface
US7529677B1 (en) 2005-01-21 2009-05-05 Itt Manufacturing Enterprises, Inc. Methods and apparatus for remotely processing locally generated commands to control a local device
DE102005010285A1 (de) * 2005-03-01 2006-09-07 Deutsche Telekom Ag Verfahren und System zur Spracherkennung
US20060247925A1 (en) * 2005-04-27 2006-11-02 International Business Machines Corporation Virtual push-to-talk
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US7788590B2 (en) 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
CA2648617C (en) * 2006-04-05 2017-12-12 Yap, Inc. Hosted voice recognition system for wireless devices
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
JP4859642B2 (ja) * 2006-11-30 2012-01-25 富士通株式会社 音声情報管理装置
US8296139B2 (en) * 2006-12-22 2012-10-23 International Business Machines Corporation Adding real-time dictation capabilities for speech processing operations handled by a networked speech processing system
US8918318B2 (en) * 2007-01-16 2014-12-23 Nec Corporation Extended recognition dictionary learning device and speech recognition system
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
WO2008100518A1 (en) * 2007-02-13 2008-08-21 Ntera Limited Voltage feedback circuit for active matrix reflective display devices
TWI321313B (en) * 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
US8352264B2 (en) 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8086457B2 (en) * 2007-05-30 2011-12-27 Cepstral, LLC System and method for client voice building
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8255224B2 (en) 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US8831950B2 (en) * 2008-04-07 2014-09-09 Nuance Communications, Inc. Automated voice enablement of a web page
US9047869B2 (en) * 2008-04-07 2015-06-02 Nuance Communications, Inc. Free form input field support for automated voice enablement of a web page
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
WO2010075623A1 (en) * 2008-12-31 2010-07-08 Bce Inc. System and method for unlocking a device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
JP5244663B2 (ja) * 2009-03-18 2013-07-24 Kddi株式会社 音声によってテキストを入力する音声認識処理方法及びシステム
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9099087B2 (en) * 2010-09-03 2015-08-04 Canyon IP Holdings, LLC Methods and systems for obtaining language models for transcribing communications
US20120078635A1 (en) * 2010-09-24 2012-03-29 Apple Inc. Voice control system
US8898065B2 (en) 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
KR20130016644A (ko) * 2011-08-08 2013-02-18 삼성전자주식회사 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
US8914288B2 (en) 2011-09-01 2014-12-16 At&T Intellectual Property I, L.P. System and method for advanced turn-taking for interactive spoken dialog systems
CN104769668B (zh) 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US9691377B2 (en) 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
US9275638B2 (en) 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US10811004B2 (en) * 2013-03-28 2020-10-20 Nuance Communications, Inc. Auto-generation of parsing grammars from a concept ontology
US10170114B2 (en) 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9218804B2 (en) 2013-09-12 2015-12-22 At&T Intellectual Property I, L.P. System and method for distributed voice models across cloud and device for embedded text-to-speech
US9558736B2 (en) * 2014-07-02 2017-01-31 Bose Corporation Voice prompt generation combining native and remotely-generated speech data
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
DE112016004863T5 (de) * 2015-10-21 2018-07-19 Google Llc Parametersammlung und automatische Dialogerzeugung in Dialogsystemen
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10192555B2 (en) * 2016-04-28 2019-01-29 Microsoft Technology Licensing, Llc Dynamic speech recognition data evaluation
US11010820B2 (en) * 2016-05-05 2021-05-18 Transform Sr Brands Llc Request fulfillment system, method, and media
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10592611B2 (en) * 2016-10-24 2020-03-17 Conduent Business Services, Llc System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
WO2018144465A1 (en) * 2017-01-31 2018-08-09 Interactive Intelligence Group, Inc. System and method for speech-based interaction resolution
US10757058B2 (en) 2017-02-17 2020-08-25 International Business Machines Corporation Outgoing communication scam prevention
US10102868B2 (en) * 2017-02-17 2018-10-16 International Business Machines Corporation Bot-based honeypot poison resilient data collection
US10810510B2 (en) 2017-02-17 2020-10-20 International Business Machines Corporation Conversation and context aware fraud and abuse prevention agent
US10332505B2 (en) * 2017-03-09 2019-06-25 Capital One Services, Llc Systems and methods for providing automated natural language dialogue with customers
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10796088B2 (en) * 2017-04-21 2020-10-06 International Business Machines Corporation Specifying a conversational computer agent and its outcome with a grammar
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
DE102017213946B4 (de) * 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11343374B1 (en) * 2017-12-14 2022-05-24 Amazon Technologies, Inc. Message aggregation and comparing
US10715470B1 (en) * 2017-12-14 2020-07-14 Amazon Technologies, Inc. Communication account contact ingestion and aggregation
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11145291B2 (en) * 2018-01-31 2021-10-12 Microsoft Technology Licensing, Llc Training natural language system with generated dialogues
US10861440B2 (en) * 2018-02-05 2020-12-08 Microsoft Technology Licensing, Llc Utterance annotation user interface
US11133001B2 (en) * 2018-03-20 2021-09-28 Microsoft Technology Licensing, Llc Generating dialogue events for natural language system
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US10885912B2 (en) * 2018-11-13 2021-01-05 Motorola Solutions, Inc. Methods and systems for providing a corrected voice command
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) * 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111081247A (zh) * 2019-12-24 2020-04-28 腾讯科技(深圳)有限公司 语音识别的方法以及终端、服务器和计算机可读存储介质
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11574622B2 (en) 2020-07-02 2023-02-07 Ford Global Technologies, Llc Joint automatic speech recognition and text to speech conversion using adversarial neural networks
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3088739B2 (ja) * 1989-10-06 2000-09-18 株式会社リコー 音声認識システム
JPH04372037A (ja) * 1991-06-21 1992-12-25 Matsushita Electric Ind Co Ltd システム管理情報設定装置
EP0542628B1 (en) 1991-11-12 2001-10-10 Fujitsu Limited Speech synthesis system
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
CA2105034C (en) * 1992-10-09 1997-12-30 Biing-Hwang Juang Speaker verification with cohort normalized scoring
EP0607615B1 (en) * 1992-12-28 1999-09-15 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
CA2157496C (en) * 1993-03-31 2000-08-15 Samuel Gavin Smyth Connected speech recognition
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
JPH07222248A (ja) * 1994-02-08 1995-08-18 Hitachi Ltd 携帯型情報端末における音声情報の利用方式
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
US5623605A (en) * 1994-08-29 1997-04-22 Lucent Technologies Inc. Methods and systems for interprocess communication and inter-network data transfer
US5752232A (en) * 1994-11-14 1998-05-12 Lucent Technologies Inc. Voice activated device and method for providing access to remotely retrieved data
US5682478A (en) * 1995-01-19 1997-10-28 Microsoft Corporation Method and apparatus for supporting multiple, simultaneous services over multiple, simultaneous connections between a client and network server
US5732219A (en) * 1995-03-17 1998-03-24 Vermeer Technologies, Inc. Computer system and computer-implemented process for remote editing of computer files
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5745754A (en) * 1995-06-07 1998-04-28 International Business Machines Corporation Sub-agent for fulfilling requests of a web browser using an intelligent agent and providing a report
US5745874A (en) * 1996-03-04 1998-04-28 National Semiconductor Corporation Preprocessor for automatic speech recognition system
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP2014056258A (ja) * 2008-08-29 2014-03-27 Mmodal Ip Llc 片方向通信を使用する分散型音声認識
US9502033B2 (en) 2008-08-29 2016-11-22 Mmodal Ip Llc Distributed speech recognition using one way communication

Also Published As

Publication number Publication date
CA2228917C (en) 2002-03-19
JP4849894B2 (ja) 2012-01-11
DE69829604T2 (de) 2006-02-09
MX2007013017A (es) 2009-02-13
US6078886A (en) 2000-06-20
EP0872827B1 (en) 2005-04-06
US6366886B1 (en) 2002-04-02
DE69829604D1 (de) 2005-05-12
EP0872827A3 (en) 1999-04-21
JPH10333693A (ja) 1998-12-18
MX9802754A (es) 1998-12-31
US6604077B2 (en) 2003-08-05
US20020091528A1 (en) 2002-07-11
CA2228917A1 (en) 1998-10-14
JP2006146262A (ja) 2006-06-08
MX2007013015A (es) 2009-02-17
EP0872827A2 (en) 1998-10-21

Similar Documents

Publication Publication Date Title
JP4849894B2 (ja) 自動スピーチ認識サービス提供方法及びシステム並びに媒体
US7139715B2 (en) System and method for providing remote automatic speech recognition and text to speech services via a packet network
US8209184B1 (en) System and method of providing generated speech via a network
US9761241B2 (en) System and method for providing network coordinated conversational services
CA2345660C (en) System and method for providing network coordinated conversational services
EP1588353B1 (en) Voice browser dialog enabler for a communication system
US6192338B1 (en) Natural language knowledge servers as network resources
JP2002528804A (ja) サービスアプリケーションに対するユーザインタフェースの音声制御
WO2002093554A1 (en) Voice application development methodology
MXPA98002754A (en) System and method for providing remote automatic voice recognition services via a network
Demesticha et al. Aspects of design and implementation of a multi-channel and multi-modal information system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050719

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20051019

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20051024

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060718