JPH10333693A - 自動スピーチ認識サービス提供方法およびシステム - Google Patents
自動スピーチ認識サービス提供方法およびシステムInfo
- Publication number
- JPH10333693A JPH10333693A JP10095930A JP9593098A JPH10333693A JP H10333693 A JPH10333693 A JP H10333693A JP 10095930 A JP10095930 A JP 10095930A JP 9593098 A JP9593098 A JP 9593098A JP H10333693 A JPH10333693 A JP H10333693A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- client
- information
- grammar
- asr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 71
- 230000004044 response Effects 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 12
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims 1
- 230000037431 insertion Effects 0.000 claims 1
- 235000013550 pizza Nutrition 0.000 description 40
- 230000008569 process Effects 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 235000013580 sausages Nutrition 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/006—Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99948—Application of database or data structure, e.g. distributed, multimedia, or image
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer And Data Communications (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
Abstract
トとするシステムから離れた場所にいるユーザがASR
を利用できるようにする。 【解決手段】 クライアント−サーバアーキテクチャを
使用して、主ASRエンジンの場所から離れたクライア
ントの場所でASRサービスをアクセス可能にする。す
なわち、パケットネットワーク120、たとえばインタ
ーネットを介してクライアントPC140とサーバノー
ド110が接続される。ASRサーバ100がASRク
ライアント130から文法を受け、クライアントからの
スピーチを表す情報を受け、スピーチ認識を実行し、認
識したスピーチに基づく情報をASRクライアント13
0に返す。
Description
に関し、より詳細には、パケットネットワークを介して
遠隔アクセス可能な自動スピーチ認識サービスを提供す
る方法に関する。
ための技術は周知である。公知のASR技術の中には、
文法を利用するものがある。「文法」とは、所与の文脈
の中で使用または発話されると予想される言語または句
の表現である。そこで、ある意味で、ASR文法は通
常、スピーチ認識系を、潜在的に話される語の領域の部
分集合である語彙に制限する。文法はサブグラマを含む
こともある。そして、ASR文法規則を使用して、所与
の文脈で予想することができる一つ以上の文法またはサ
ブグラマから「句」または語の組み合わせの集合を表す
ことができる。「文法」はまた、一般に、統計的な言語
モデル(モデルが句を表す)、たとえば言語理解システ
ムに使用されるモデルをいうこともある。
(「ASR」)方法を利用する製品およびサービスが商
業的に導入された。たとえば、AT&Tは、複雑なAS
Rサービスの展開を可能にする、ワトソン(WATSON)と
呼ばれる文法ベースのASRエンジンを開発した。この
ようなASR技術を利用する複雑なASRサービスに望
まれる属性には、高い認識精度、話者が異なるアクセン
トや方言を有する場合および/またはバッググラウンド
ノイズの存在における認識を可能にする強健性、多大な
語彙を扱う能力ならびに自然な言語理解がある。複雑な
ASRサービスに必要なこれらの属性を達成するため、
ASR技術およびエンジンは通常、所望のスピーチ認識
機能を達成するための有意な処理能力を有するコンピュ
ータベースのシステムを必要とする。本明細書に使用す
る「処理能力」とは、プロセッサ速度、メモリ、ディス
ク空間ならびにアプリケーションデータベースへのアク
セスをいう。このような処理の必要条件が、通常はパー
ソナルコンピュータ(PC)技術に基づく大部分のデス
クトップシステムの能力を超越してしまうため、デスク
トップで利用可能な複雑なASRサービスの展開を制限
してきた。
ディオを含む種々のタイプの記憶データを送るのに好適
である汎用データネットワークである。既存のパケット
ネットワークの中で最大かつもっとも有名なインターネ
ットは、約140か国の400万台を超えるコンピュー
タを接続している。インターネットの全世界的かつ指数
関数的な成長は、今日の一般的知識である。
のようなパケットネットワークには、コンピュータ、た
とえばPC上で動作するクライアントソフトウェアプロ
グラムを介してアクセスするため、パケットネットワー
クは本来、クライアント/サーバ指向である。パケット
ネットワークを介して情報にアクセスする一つの方法
は、クライアントがウェブサーバと対話することを可能
にするウェブブラウザ(たとえばネットスケープコミュ
ニケーションズ社(Netscape Communications, In
c.)から市販されているネットスケープナビゲータ(Ne
tscape Navigator)およびマイクロソフト社(Microso
ft Corp.)から市販されているインターネットエクス
プローラ(Internet Explorer)の使用による方法であ
る。ウェブサーバおよびその中で利用できる情報は通
常、URL(Uniform Resource Locator)互換性のア
ドレスによって識別され、指定される。URLアドレス
指定は、インターネットおよびイントラネットアプリケ
ーションで広く使用され、当業者には周知である(「イ
ントラネット」とは、機能性においてインターネットを
モデルにしたパケットネットワークであり、たとえば企
業によって局所的または社内的に使用されている)。
するシステムから離れた場所、たとえばデスクトップに
いるユーザにとって利用可能にすることができるASR
サービスを可能にする方法である。
ーキテクチャを使用して自動スピーチ認識サービスを運
用するシステムおよび方法を使用して、主ASRエンジ
ンの場所から離れたクライアントの場所でASRサービ
スをアクセス可能にする。本発明によると、インターネ
ットのようなパケットネットワークを介するクライアン
ト−サーバ通信を使用して、ASRサーバがクライアン
トから文法を受け、クライアントからスピーチを表す情
報を受け、スピーチ認識を実行し、認識したスピーチに
基づく情報をクライアントに返す。本発明の代替態様
は、所望の文法に対するアクセスを得るために多様な方
法、スピーチ情報をASRサーバに転送する前のASR
クライアントでの処理ステップとしての圧縮または特徴
抽出の使用、クライアントとサーバとの間での会話の設
定ならびに用紙記入サービスの運用を含む。
トによってパケットネットワークを介してアクセス可能
な自動スピーチ認識サービス提供方法において、 a.スピーチ認識に使用される文法に対応する情報をク
ライアントからパケットネットワークを介して受けるス
テップと、 b.スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、 c.文法にしたがって自動スピーチ認識アルゴリズムを
適用することにより、受けたスピーチ情報を認識するス
テップと、 d.認識したスピーチに基づく情報をパケットネットワ
ークを介してクライアントに送るステップと、 を含むことを特徴とする。
て、文法に対応する情報が文法の場所に対応するアドレ
スであるならば、対応する文法アドレスに位置する文法
に対するアクセスを得るステップをさらに含むことを特
徴とする。
て、文法の場所に対応するアドレスがユニフォームリソ
ースロケータ互換性アドレスであることを特徴とする。
て、スピーチを表す情報がクライアントからストリーム
式に到着することを特徴とする。
て、クライアントから受けたスピーチを表す情報がデジ
タル化スピーチを含むことを特徴とする。
て、クライアントから受けたスピーチを表す情報が、圧
縮されたデジタル化スピーチを含むことを特徴とする。
て、クライアントから受けたスピーチを表す情報が、デ
ジタル化スピーチからクライアントによって抽出された
特徴を含むことを特徴とする。
をクライアントから受けるたびに、受けたスピーチ情報
を認識するステップを繰り返すことを特徴とする。
て、認識したスピーチに基づく情報がテキスト情報を含
むことを特徴とする。
て、認識したスピーチに基づく情報がさらなるスピーチ
を含むことを特徴とする。
て、さらなるスピーチ情報を認識するたびに、認識した
スピーチに基づく情報を送るステップを繰り返すことを
特徴とする。
いて、前にクライアントに送られた認識されたスピーチ
に基づく情報の修正版をクライアントに送るステップを
さらに含むことを特徴とする。
て、ステップb、cおよびdを繰り返して、クライアン
トとサーバとの間で情報の交換を行うことを特徴とす
る。
いて、認識したスピーチに基づく情報がテキスト情報を
含むことを特徴とする。
いて、認識したスピーチに基づく情報がさらなるスピー
チを含むことを特徴とする。
て、クライアントからパケットネットワークを介して受
けた要求に応答して文法規則を駆動するステップをさら
に含むことを特徴とする。
て、文法に対応するハンドルをパケットネットワークを
介してクライアントに送るステップをさらに含むことを
特徴とする。
ってパケットネットワークを介してアクセス可能な自動
スピーチ認識サービス提供システムにおいて、 a.プログラム可能なプロセッサと、 b.メモリと、 c.オーディオ入力装置と、 d.パケットネットワークを介してクライアントとの通
信リンクを確立するための通信インタフェースと、 を含み、前記プロセッサが、 i.スピーチ認識に使用される文法に対応する情報をク
ライアントからパケットネットワークを介して受けるス
テップと、 ii.スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、 iii.文法にしたがって自動スピーチ認識アルゴリズム
を適用することにより、受けたスピーチ情報を認識する
ステップと、 iv.認識したスピーチに基づく情報をパケットネットワ
ークを介してクライアントに送るステップと、 を実行するようにプログラムされていることを特徴とす
る。
いて、プロセッサがさらに、文法に対応する情報が文法
の場所に対応するアドレスであるならば、対応する文法
アドレスに位置する文法に対するアクセスを得るステッ
プを実行するようにプログラムされていることを特徴と
する。
いて、文法の場所に対応するアドレスがユニフォームリ
ソースロケータ互換性アドレスであることを特徴とす
る。
いて、スピーチを表す情報がクライアントからストリー
ム式に到着することを特徴とする。
いて、クライアントから受けたスピーチを表す情報がデ
ジタル化スピーチを含むことを特徴とする。
いて、クライアントから受けたスピーチを表す情報が、
圧縮されたデジタル化スピーチを含むことを特徴とす
る。
いて、クライアントから受けたスピーチを表す情報が、
デジタル化スピーチからクライアントによって抽出され
た特徴を含むことを特徴とする。
いて、プロセッサがさらに、新たなスピーチ情報をクラ
イアントから受けるたびに、受けたスピーチ情報を認識
するステップを繰り返すようにプログラムされているこ
とを特徴とする。
いて、認識したスピーチに基づく情報がテキスト情報を
含むことを特徴とする。
いて、認識したスピーチに基づく情報がさらなるスピー
チを含むことを特徴とする。
いて、プロセッサがさらに、さらなるスピーチ情報を認
識するたびに、認識したスピーチに基づく情報を送るス
テップを繰り返すようにプログラムされていることを特
徴とする。
いて、プロセッサがさらに、前にクライアントに送られ
た認識されたスピーチに基づく情報の修正版をクライア
ントに送るステップを実行するようにプログラムされて
いることを特徴とする。
いて、プロセッサがさらに、ステップii、iiiおよびiv
を繰り返して、クライアントとサーバとの間で情報の交
換を行わせるようにプログラムされていることを特徴と
する。
いて、認識したスピーチに基づく情報がテキスト情報を
含むことを特徴とする。
いて、認識したスピーチに基づく情報がさらなるスピー
チを含むことを特徴とする。
いて、プロセッサがさらに、クライアントからパケット
ネットワークを介して受けた要求に応答して文法規則を
駆動するステップを実行するようにプログラムされてい
ることを特徴とする。
いて、プロセッサがさらに、文法に対応するハンドルを
パケットネットワークを介してクライアントに送るステ
ップを実行するようにプログラムされていることを特徴
とする。
ってパケットネットワークを介してアクセス可能な自動
スピーチ認識サービスを提供するための命令を記憶した
コンピュータ読み取り可能な媒体を含む製品において、
前記命令が、プロセッサによって実行されると、プロセ
ッサをして、 a.スピーチ認識に使用される文法に対応する情報をク
ライアントからパケットネットワークを介して受けるス
テップと、 b.スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、 c.文法にしたがって自動スピーチ認識アルゴリズムを
適用することにより、受けたスピーチ情報を認識するス
テップと、 d.認識したスピーチに基づく情報をパケットネットワ
ークを介してクライアントに送るステップと、 を実行させることを特徴とする。
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、文法に対応する情報が文法の場所
に対応するアドレスであるならば、対応する文法アドレ
スに位置する文法に対するアクセスを得るステップを実
行させることを特徴とする。
いて、文法の場所に対応するアドレスがユニフォームリ
ソースロケータ互換性アドレスであることを特徴とす
る。
いて、スピーチを表す情報がクライアントからストリー
ム式に到着することを特徴とする。
いて、クライアントから受けたスピーチを表す情報がデ
ジタル化スピーチを含むことを特徴とする。
いて、クライアントから受けたスピーチを表す情報が、
圧縮されたデジタル化スピーチを含むことを特徴とす
る。
いて、クライアントから受けたスピーチを表す情報が、
デジタル化スピーチからクライアントによって抽出され
た特徴を含むことを特徴とする。
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、新たなスピーチ情報をクライアン
トから受けるたびに、受けたスピーチ情報を認識するス
テップを繰り返させることを特徴とする。
いて、認識したスピーチに基づく情報がテキスト情報を
含むことを特徴とする。
いて、認識したスピーチに基づく情報がさらなるスピー
チを含むことを特徴とする。
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、さらなるスピーチ情報を認識する
たびに、認識したスピーチに基づく情報を送るステップ
を繰り返させることを特徴とする。
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、前にクライアントに送られた認識
されたスピーチに基づく情報の修正版をクライアントに
送るステップを実行させることを特徴とする。
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、ステップb、cおよびdを繰り返
させて、クライアントとサーバとの間で情報の交換を行
わせることを特徴とする。
いて、認識したスピーチに基づく情報がテキスト情報を
含むことを特徴とする。
いて、認識したスピーチに基づく情報がさらなるスピー
チを含むことを特徴とする。
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、クライアントからパケットネット
ワークを介して受けた要求に応答して文法規則を駆動す
るステップを実行させることを特徴とする。
いて、命令が、プロセッサによって実行されると、さら
にプロセッサをして、文法に対応するハンドルをパケッ
トネットワークを介してクライアントに送るステップを
実行させることを特徴とする。
ってパケットネットワークを介してアクセス可能な自動
用紙記入サービスを提供する方法において、 a.スピーチ認識に使用される文法であって、用紙に挿
入されるテキスト情報に対応する語に対応する文法に対
応する情報をクライアントからパケットネットワークを
介して受けるステップと、 b.スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、 c.文法にしたがって自動スピーチ認識アルゴリズムを
適用することにより、受けたスピーチ情報を認識するス
テップと、 d.認識したスピーチに対応するテキストを、用紙に挿
入することができるよう、パケットネットワークを介し
てクライアントに送るステップと、 を含むことを特徴とする。
いて、文法に対応する情報が文法の場所に対応するアド
レスであるならば、対応する文法アドレスに位置する文
法に対するアクセスを得るステップをさらに含むことを
特徴とする。
いて、文法の場所に対応するアドレスがユニフォームリ
ソースロケータ互換性アドレスであることを特徴とす
る。
いて、クライアントから受けたスピーチを表す情報がデ
ジタル化スピーチを含むことを特徴とする。
いて、クライアントから受けたスピーチを表す情報が、
圧縮されたデジタル化スピーチを含むことを特徴とす
る。
いて、クライアントから受けたスピーチを表す情報が、
デジタル化されたスピーチからクライアントによって抽
出された特徴を含むことを特徴とする。
いて、クライアントからパケットネットワークを介して
受けた要求に応答して文法規則を駆動するステップをさ
らに含むことを特徴とする。
いて、文法に対応するハンドルをパケットネットワーク
を介してクライアントに送るステップをさらに含むこと
を特徴とする。
サービスを提供するためのクライアント−サーバベース
のシステムに関する。本発明によると、ユーザが、完全
なASR技術を実行するのに要する広範な処理能力を有
するコンピュータハードウェアを取得する必要なく、イ
ンターネットのようなパケットネットワークを介して、
ASRサービスをユーザに対し、たとえばユーザのデス
クトップで提供することができる。
ライアント−サーバアーキテクチャを図1に示す。AS
Rサーバ100は、パケットネットワーク120(たと
えばインターネット)を介して他のコンピュータにリン
クすることができる、サーバノード110と指定される
システムの上で動作するASRソフトウェアエンジンで
ある。サーバノード110は、通常、複雑なASRベー
スのアプリケーション、たとえばAT&T社のワトソン
(WATSON)システムを動作させるのに十分な処理能力を
有するコンピュータであってもよい。パケットネットワ
ーク120は、例として、インターネットでもよいし、
イントラネットでもよい。
トPC140上で動作する比較的小さなプログラム(A
SR100に比較して)である。クライアントPC14
0は、クライアントアプリケーション、たとえばウェブ
ブラウザを動作させるのに十分な処理能力を有するコン
ピュータ、たとえばパーソナルコンピュータ(PC)で
ある。クライアントPCは、ハードウェア、たとえばマ
イクおよび可聴音、たとえばスピーチの入力および捕捉
のためのソフトウェアを含む。マイクをPCに接続し、
PCで可聴音、たとえばスピーチを捕捉する方法は周知
である。PCのスピーチ処理能力の例には、マイクロソ
フト社のスピーチアプリケーションプログラマインタフ
ェース(SAPI)およびAT&T社のアドバンストス
ピーチアプリケーションプログラマインタフェース(A
SAPI)がある。マイクロソフト社のSAPIの詳細
は、たとえば、「スピーチAPIデベロッパーズガイ
ド、ウィンドウズ(商標)95版(Speech API Devel
opers Guide, WindowsTM95 Edition)」と題する
出版物(バージョン1.0、マイクロソフト社、199
5)に見いだされ、AT&T社のASAPIの詳細は、
「アドバンストスピーチAPIデベロッパーズガイド
(Advanced Speech API Developers Guide)」と題
する出版物(バージョン1.0、AT&T社、199
6)に記載されている。これらの出版物をいずれも引用
例として本明細書に含める。本発明の代替態様は、スピ
ーチ入力をマイク以外のオーディオソースによって提供
することができるようなASRクライアント130と一
つ以上の音声チャネルとのインタフェースを利用するこ
とができる。
ネットワーク(たとえばインターネット)を介して他の
コンピュータと通信する能力を有する。パケットネット
ワーク(たとえばインターネット)を介して他のコンピ
ュータとの通信リンクを確立する方法は周知であり、た
とえば、モデムを使用して電話回線からインターネット
サービスプロバイダにダイヤルインする方法がある。
130とは、たとえば伝送制御プロトコル/インターネ
ットプロトコル(TCP/IP)ソケットのような標準
通信プロトコルを使用するパケットネットワークを介し
て情報を通信する(データ伝送を含む)のに適した公知
の方法を使用することにより、ASRサーバ100がサ
ーバノード110を介し、ASRクライアントがクライ
アントPC140を介して、パケットネットワーク12
0上で互いに通信することができる。TCP/IPソケ
ットとは、情報を中に通してパケットネットワークを介
してある地点から別の地点まで伝送することができるパ
イプのようなものである。
130との間のTCP/IPソケットの確立が、本発明
にしたがって遠隔ASRサービスを可能にするのに必要
な、ASRサーバ100とASRクライアント130と
の間の、パケットネットワーク120を介するデータの
伝送を可能にする。ASRクライアント130はまた、
クライアントPC140のオーディオ/スピーチ入出力
機能およびテキスト/グラフィックス表示機能とインタ
フェースする。オーディオおよびスピーチの入出力を扱
う方法およびインタフェースは周知であり、テキストお
よびグラフィックスの表示を扱う方法およびインタフェ
ースもまた周知である。
トPC140の中で動作するよう、いくつかの方法でセ
ットアップすることができる。たとえば、ASRクライ
アント130は、永久的なデータ記憶媒体、たとえば磁
気ディスクまたはCD−ROMからクライアントPC1
40にロードすることもできる。あるいはまた、ASR
クライアント130は、パケットネットワーク、たとえ
ばインターネット上で見つけることができる情報または
データのソースからダウンロードしてもよい。ASRク
ライアント130のダウンロードは、たとえば、一度だ
け実施してクライアントPC140の中に永久的に常駐
させることもできる。あるいはまた、ASRクライアン
ト130は、一回または限られた回数の使用のためにダ
ウンロードすることもできる。ASRクライアント13
0は、たとえば、クライアントPC140上で動作する
別のプログラム、たとえばウェブブラウザのための小さ
なプラグインソフトウェアモジュールとして実現しても
よい。これを達成する一つの方法は、ASRクライアン
ト130を、マイクロソフト社のアクティブX(Active
-X)規格に準拠するアクティブXソフトウェアコンポー
ネントにする方法である。このようにして、ASRクラ
イアント130を、たとえば、以下のようなウェブブラ
ウジングセッションとともにクライアントPC140に
ロードすることができる。クライアントPC140を使
用してワールドワイドウェブをブラウジングするユーザ
が、ASR機能を有するウェブサイトに入る。ウェブサ
イトが、署名されたアクティブX制御にしたがってAS
RクライアントモジュールをクライアントPC140に
ダウンロードするためのユーザ許可を問う。ユーザが認
可されると、ASRクライアント130がクライアント
PC140にダウンロードされる。同様に、ASRサー
バ100を、サーバノード110の中で動作するよう、
いくつかの方法でセットアップすることができる。たと
えば、ASRサーバ100は、永久的なデータ記憶媒
体、たとえば磁気ディスクまたはCD−ROMからサー
バノード100にロードすることもできるし、あるいは
また、パケットネットワーク、たとえばインターネット
上で見つけることができる情報またはデータのソースか
らダウンロードすることもできる。
したがって遠隔ASRサービスを提供する詳細をさらに
説明する。これらの各図に関する以下の説明に際し、ク
ライアント−サーバの関係は図1に示すとおりであると
仮定する。セットアップ段階を使用して、ASRアプリ
ケーションの一部として自動スピーチ認識タスクを実行
するためにASRサーバ100およびASRクライアン
ト130を準備する。便宜上、図1に示す項目であって
他の図にも見られるものは、図1の参照番号と同じ参照
番号によって識別する。
スを提供するプロセスのセットアップ段階を説明する。
まずステップ201で、ASRクライアント130が、
クライアント文法をロードするよう、アプリケーション
から要求を受ける。クライアント文法は、一例として、
特定のASRアプリケーションの文脈で発話されると予
想される言語を表す情報(たとえば語句)を含むデータ
ファイルである。データファイルは、公知のフォーマッ
ト、たとえばマイクロソフト社SAPIの一部である標
準文法フォーマット(SGF)であることができる。
のASRアプリケーションを引用して本発明を説明す
る。ASRサービスアプリケーション、たとえばピザ注
文のアプリケーションは通常、ASRアプリケーション
のタスクを達成するために使用されるリソースとして、
ASRクライアント130と対話し、それを使用するプ
ログラムを含むであろう。このようなASRアプリケー
ションは、全部または一部が、クライアントPC140
の中に常駐し、その中で動作することができる。
法PIZZAは、ピザを注文する際に使用するかもしれ
ない語、たとえば「ピザ」、「ペパロニ」などを表す情
報を含むであろう。実際には、サブグラマを使用して適
切な文法を構成するかもしれない。ピザ注文の例の場
合、PIZZA文法のサブグラマは、SIZEおよびT
OPPINGを含むかもしれない。サブグラマSIZE
は、希望のピザのサイズを説明するのに使用される語、
たとえば「小」、「中」および「大」からなることがで
きる。サブグラマTOPPINGは、ピザについて注文
するかもしれない種々のトッピング(具)、たとえば
「ソーセージ」、「ペパロニ」、「マッシュルーム」な
どからなることができる。
ションから所望の文法を与えられることもできるし、あ
るいはまた、アプリケーションによって提供される情報
に基づく所定の集合から文法を選択することもできる。
いずれにしても、ASRクライアント130は、次にス
テップ202で、所望の文法ファイルをTCP/IPソ
ケットを介してASRサーバ100に送る。クライアン
トPC140とサーバノード110との間の新たな通信
セッションの確立の一部として新たなTCP/IPソケ
ットをセットアップしなければならないかもしれない
か、あるいは、クライアントPC140と、終端してい
ないサーバノード110との間に確立された通信セッシ
ョンの結果としてTCP/IPソケットがすでに存在す
るかもしれない。ピザ注文の例では、ASRクライアン
ト130が、PIZZA文法を含むファイルをTCP/
IPソケットを介してASRサーバ100に伝送するこ
とになる。
で、ASRクライアント130から送られたクライアン
ト文法を受け、ステップ204で、伝送されたクライア
ント文法をロードする。本明細書に使用する、クライア
ント文法の「ロード」とは、たとえば文法をサーバノー
ド110のRAMに記憶することにより、その文法をA
SRサーバ100による使用のためにアクセス可能にす
ることをいう。ステップ205で、ASRサーバ100
は文法「ハンドル」をASRクライアント130に返
す。文法「ハンドル」とは、通信セッションの残り期間
またはアプリケーション実行の際にASRクライアント
が文法を容易に参照することを可能にするマーカ、たと
えば、ロードされた文法を含むメモリを指し示すポイン
タである。ASRクライアント130は、ステップ20
6で、ASRサーバ100から文法ハンドルを受け、ス
テップ207で、そのハンドルをアプリケーションに返
す。ピザ注文の例では、ASRサーバ100は、伝送さ
れたPIZZA文法ファイルを受け、ロードし、ロード
されたPIZZA文法を指し示すハンドルをASRクラ
イアント130に返送する。ASRクライアントは逆
に、ASRサーバ100からPIZZAハンドルを受
け、そのPIZZAハンドルをピザ注文アプリケーショ
ンに返す。この方法で、アプリケーションは、ピザ注文
アプリケーションの一部としてASRタスクを実行また
は開始するとき、PIZZAハンドルを簡単に参照する
ことができる。
ップ手法を説明する。本明細書の記載の残り部分につい
て、ASRサーバ100とASRクライアント130と
の間の情報またはデータの伝送または通信は、確立され
たTCP/IPソケットを介して起こるものと仮定す
る。ステップ301で、ASRクライアント130が、
クライアント文法をロードするよう、アプリケーション
から要求を受ける。しかし、ASRクライアント130
は、ステップ302で、クライアント文法をデータファ
イルとしてASRサーバ100に送るのではなく、代わ
りに、「缶入り」文法を表す識別子をASRサーバ10
0に送る。「缶入り文法」とは、たとえば、ASRサー
バ100がすでに記憶しているであろう共通の文法、た
とえばTIME−OF−DAYまたはDATEである。
あるいはまた、ASRクライアント130は、ASRサ
ーバ100に対し、ASRサーバ100が所望の文法フ
ァイルを見つけることができるところのIPアドレス、
たとえばURL互換性アドレスを送ることもできる。A
SRサーバ100は、ステップ303で、文法識別子ま
たはURL文法アドレスをASRクライアント130か
ら受け、ステップ304で、要求されたクライアント文
法を見つけ、ロードし、ステップ305で、文法ハンド
ルをASRクライアント130に返す。図2に関して上
述したステップと同様に、ASRクライアント130
は、ステップ306で、ASRサーバ100から文法ハ
ンドルを受け、ステップ307で、そのハンドルをアプ
リケーションに返す。ピザ注文の例の場合、ASRクラ
イアント130が、PIZZA文法の文法識別子(「缶
入り」文法の場合)またはPIZZA文法を含むファイ
ルの場所のURLアドレスをASRサーバ100に送る
ということを除き、図2に関連して上述したステップは
同じになるであろう。ASRサーバ100が逆に、その
文法識別子またはURLアドレス(ASRクライアント
によって送られたもの)に基づいてPIZZA文法のフ
ァイルを検索したのち、要求されたPIZZA文法をロ
ードするであろう。
ライアント130に返したのち、ASRサービスアプリ
ケーションは、駆動すべき文法規則を選択しなければな
らない。図4は、本発明による文法規則選択のプロセス
を示す。ASRクライアント130が、ステップ401
で、文法規則を駆動するよう、アプリケーションから要
求を受ける。ステップ402で、ASRクライアントは
規則駆動要求をASRサーバ100に送る。図4に示す
ように、ASRクライアント130はまた、ステップ4
02で、前に返された文法ハンドルをASRサーバ10
0に送ることもできる(これにより、ASRサーバが、
文法ハンドルによって識別される特定の文法に適切な文
法規則を駆動することを可能にする)。ASRサーバ1
00は、ステップ403で、規則駆動要求および文法ハ
ンドル(送られたならば)を受ける。ステップ404
で、ASRサーバ100は、要求された規則を駆動し、
ステップ405で、要求された規則が駆動されたという
通知をASRクライアント130に返す。ASRクライ
アント130は、ステップ406で、規則駆動の通知を
受け、ステップ407で、規則が駆動されたことをアプ
リケーションに通知する。ひとたびアプリケーションが
規則駆動の通知を受けたならば、アプリケーションはス
ピーチの認識を開始することができる。
び、ピザ注文の例を考えてみる。ピザの注文を認識する
のに使用することができる規則は、注文に望まれる句
を、「ピザ」という語とともにサブグラマSIZEおよ
びTOPPINGSを含むようにセットすることがで
き、以下のように指定されるかもしれない{ORDER
=SIZE 「pizza(ピザ)」 「with(入
り)」 TOPPINGS}。すなわち、英語では "S
IZE pizza with TOPPING"であり、日本語では「xx入
り○○ピザ」となる。xxがトッピングで、○○がサイ
ズである。再び図4を参照すると、ASRクライアント
130は、ピザ注文規則を駆動する要求をアプリケーシ
ョンから受け、上述のORDER規則をPIZZA文法
ハンドルとともにASRサーバ100に送る。ASRサ
ーバは、規則駆動要求をPIZZA文法ハンドルととも
に受け、ORDER規則を駆動して、認識系が、SIZ
Eサブグラマからの語、語「ピザ」、語「入り」および
サブグラマTOPPINGSからの語のみの認識に制限
されるようにする。ORDER規則を駆動したのち、A
SRサーバ100は、規則駆動の通知をASRクライア
ント130に送り、ASRクライアントが逆にそれをア
プリケーションに通知する。
したがって文法の語を認識する目的のスピーチ処理が起
こる。図5を参照すると、ステップ501で、ASRク
ライアント130が、スピーチ認識タスクを開始するよ
う、アプリケーションから要求を受ける。ステップ50
2で、ASRクライアント130は、クライアントPC
140のオーディオ入力からストリーム式オーディオを
要求する。「ストリーム式オーディオ」とは、より多く
のオーディオが入ってくるのと同時に、オーディオがオ
ンザフライ(間髪を入れず)式に処理されることをい
う。システムは、オーディオ入力のすべて(すなわち、
スピーチ全体)が入ってきてはいないうちから、デジタ
ル処理のためにオーディオを送り出し始める。ストリー
ム式オーディオはまた、さらなるオーディオが入力され
るのと同時に、オーディオ信号の一部が部分的に伝送さ
れることをいう。例として、ストリーム式オーディオの
要求は、クライアントPC140上で動作するオペレー
ティングシステムに対し、マイク入力からのストリーム
式オーディオがクライアントPC140の音声プロセッ
サによってデジタル化されるような適切なソフトウェア
呼び出しを実施することによって達成することができ
る。そして、マイク入力からデジタル化されたストリー
ム式オーディオはASRクライアント130に渡され
る。そして、ASRクライアント130が、ステップ5
03で、ストリーム式デジタル化オーディオをASRサ
ーバ100に伝送し始める。マイクからのオーディオ入
力と同様に、デジタル化オーディオもまた、スピーチ入
力が続いているうちから、オンザフライ式にASRサー
バ100に送られる。
は、ストリーム式デジタル化オーディオをASRクライ
アント130から受けるとき、そのオーディオに対して
スピーチ認識を実行する。スピーチ認識は、公知の認識
アルゴリズム、たとえばAT&T社のワトソン(WATSO
N)スピーチ認識エンジンによって用いられるアルゴリ
ズムを使用して実行され、駆動された規則によって定義
される選択された文法の制約の範囲内で実行される。ス
テップ505で、ASRサーバ100は、入力スピーチ
を認識するのと同時に、ストリーム式テキスト(すなわ
ち、部分的に認識したスピーチ)を返す。したがって、
ASRサーバ100は、その最初の結果に達すると、A
SRクライアント130によって送られてくるさらなる
ストリーム式オーディオを処理し続けているとしても、
その結果をASRクライアント130に返す。認識した
テキストをオンザフライ式に返すこのプロセスが、AS
Rクライアント130(またはASRクライアント13
0とインタフェースするアプリケーション)が発話者に
フィードバックを提供することを可能にする。ASRサ
ーバ100がさらなるストリーム式入力オーディオを処
理し続けるとき、ASRサーバは、スピーチ認識タスク
の一部として、返されるテキストが、すでにASRクラ
イアント130に返されたテキストの一部を実際に更新
(または修正)することができるような方法で、先のス
ピーチ認識の結果を修正することができる。ひとたびス
トリーム式オーディオのすべてをASRクライアント1
30から受けたならば、ASRサーバは、そのスピーチ
認識処理を完了し、ステップ506で、認識したテキス
トの最終版(修正を含むもの)を返す。
30は、認識されたテキストをASRサーバ100から
受け、ステップ508で、そのテキストをアプリケーシ
ョンに返す。ここでもまた、これは、認識されたテキス
トが入ってくるのと同時にオンザフライ式に実施するこ
とができ、ASRクライアントは、ASRサーバ100
から受けた認識されたテキストに対する修正があればそ
れをアプリケーションに渡す。
DER規則が駆動され、アプリケーションが通知を受け
ると、ASRクライアント130は、スピーチ認識を開
始するよう要求を受け、マイク入力からストリーム式オ
ーディオを開始する。発話者は、ピザの注文を発話する
ように促されることができ、ひとたびスピーチが始まる
と、ASRクライアント130が、デジタル化されたス
トリーム式オーディオをASRサーバ100に送る。し
たがって、発話者が、たとえば「大きいピザ、ソーセー
ジ、ペパロニ入り」を注文したいと述べると、ASRク
ライアント130は、その注文の最初の語に対するデジ
タル化ストリーム式データを、たとえ第二の語が話され
ている最中でも、ASRサーバ100に送っている。注
文が発されているとき、ASRサーバ100は、注文の
残りが話されているときでも、第一の語をテキスト「大
きい」として返す。最後に、ひとたび発話者がスピーチ
を止めると、その注文に対して認識された最終的なテキ
スト「大きいピザ、ソーセージ、ペパロニ入り」をAS
Rクライアント130、ひいてはアプリケーションに返
すことができる。
を実施するための代替態様を図6に示す。図5に示すス
ピーチ認識プロセスと同様に、ステップ601で、AS
Rクライアント130が、スピーチ認識タスクを開始す
るよう、アプリケーションから要求を受け、ステップ6
02で、クライアントPC140のオーディオ入力から
ストリーム式オーディオを要求する。そして、マイク入
力からデジタル化されたストリーム式オーディオがAS
Rクライアント130に渡される。ステップ603で、
ASRクライアント130がデジタル化オーディオをオ
ンザフライ式に圧縮したのち、スピーチ入力が続くうち
から、圧縮したストリーム式のデジタル化オーディオを
ASRサーバ100に伝送し始める。
ASRクライアント130から受けた圧縮オーディオを
圧縮解除したのち、ストリーム式デジタル化オーディオ
に対してスピーチ認識を実行する。図5を参照して上述
したように、スピーチ認識は、駆動された規則によって
定義される選択された文法の制限の範囲で実行される。
ステップ605で、ASRサーバ100が、入力された
スピーチを認識するのと同時にストリーム式テキスト
(すなわち、部分的に認識されたスピーチ)を返す。し
たがって、ASRサーバ100は、ASRクライアント
130から送られてくるさらなる圧縮されたストリーム
式オーディオを処理し続けている間にも、最初の結果を
ASRクライアント130に返し、スピーチ認識タスク
の一部としてASRクライアント130にすでに戻され
たテキストの部分を更新または修正することができる。
ひとたびストリーム式オーディオのすべてをASRクラ
イアント130から受けたならば、ASRサーバは、そ
のスピーチ認識処理を完了し、ステップ606で、認識
したテキストの最終版(修正を含む)を返す。ASRク
ライアント130は、ステップ607で、ASRサーバ
100から入ってくる認識されたテキストを受け、ステ
ップ608で、そのテキストをアプリケーションに返
す。
を実施するためのもう一つの代替態様を図7に示す。図
5および6に示すスピーチ認識プロセスと同様に、ステ
ップ701で、ASRクライアント130が、スピーチ
認識タスクを開始するよう、アプリケーションから要求
を受け、ステップ702で、クライアントPC140の
オーディオ入力からストリーム式オーディオを要求す
る。そして、マイク入力からデジタル化されたストリー
ム式オーディオがASRクライアント130に渡され
る。ステップ703で、ASRクライアント130がデ
ジタル化オーディオをオンザフライ式に処理してスピー
チ認識処理に有用な特徴を抽出したのち、スピーチ入力
が続くうちから、抽出した特徴をASRサーバ100に
伝送し始める。スピーチからの適切な特徴の抽出は、通
常はスピーチ認識に用いられるアルゴリズムの一部であ
る文法非依存的処理を伴い、当業者には公知である方
法、たとえば線形予測符号化(LPC)またはメル(Me
l)フィルタバンク処理に基づく方法を使用して実施す
ることができる。特徴抽出は、不要な情報、たとえば音
量を除去しながらも、音声信号の特徴から得られる情報
を提供する。
0から受けると、ASRサーバ100は、ステップ70
4で、オンザフライ式に(すなわち、ストリーム式オー
ディオの場合と同様に)到着してくる特徴に対してスピ
ーチ認識を実行する。スピーチ認識は、駆動された規則
によって定義される選択された文法の制限の範囲で実行
される。図5および6を参照しながら上記に論じた実施
態様の場合と同様に、ステップ705で、ASRサーバ
100は、入力された特徴を認識するのと同時にストリ
ーム式テキスト(すなわち、部分的に認識したスピー
チ)をASRクライアント130に返す。ASRサーバ
100は、ASRクライアント130から送られてくる
さらなる抽出された特徴を処理し続け、ASRクライア
ント130にすでに返したテキストの部分を更新または
修正することができる。抽出された特徴のすべてをAS
Rクライアント130から受けると、ASRサーバは、
そのスピーチ認識処理を完了し、ステップ706で、認
識したテキストの最終版(修正を含む)を返す。ASR
クライアント130は、ステップ707で、認識された
テキストがASRサーバ100から入力されるのと同時
にそれを受け、ステップ708で、そのテキストをアプ
リケーションに返す。
いずれもクライアント側でのさらなる処理を考慮してい
る。図6の実施態様の場合、これは、ストリーム式オー
ディオの圧縮を伴う(サーバ側ではオーディオの圧縮解
除を伴う)。図7の実施態様の場合、これは、特徴抽出
の形態のスピーチ認識処理の一部を含むものであった。
このようなさらなる処理をクライアント側で使用する
と、ASRクライアント130からASRサーバ100
に伝送されるデータの量を有意に減らすことができる。
したがって、伝送されるスピーチ信号を表すのに必要な
データが少なくなる。特徴抽出をクライアント側で達成
する場合、そのような利点が潜在的に急増する。理由
は、抽出される特徴が、デジタル化音声信号に比べ、よ
り少ないデータしか要さず、無音期間中には特徴を送る
必要がないからである。データの減少は、二つの望まし
い利点、すなわち(1)特定のレベルの性能を達成する
のに必要なバンド幅を減少することができる利点、およ
び(2)スピーチデータをTCP/IPソケットを介し
てASRクライアントからASRサーバに送る際の伝送
時間を減らす利点を生む。
ト130からASRサーバ100に伝送され始める前に
文法規則が駆動されるが、規則の駆動は、認識されるス
ピーチ情報のいくらかまたは全部がASRクライアント
130からASRサーバ100に送られた後で起こって
もよい。そのような状況では、ASRサーバ100は、
文法規則が駆動されるまでスピーチ認識作業を開始しな
いであろう。文法規則の駆動の前にASRクライアント
130によって送られたスピーチは、認識系によって処
理されるよう、ASRサーバ100によって一時的に記
憶することもできるし、あるいは、無視することもでき
る。
のスピーチ認識タスクを実行することができる。たとえ
ば、ASRアプリケーションは、ASRクライアント1
30に対し、電話番号の缶入り文法(すなわち「PHO
NE NUMBER)をロードするようASRサーバ1
00に命令することを要求したのち、発話された番号を
カバーする規則の駆動を要求することもできる。電話番
号が発話され、本発明にしたがって認識されたのち(た
とえば、電話番号を発話せよという入力促進に応答し
て、ASRクライアント130がデジタル化発話番号を
ASRサーバ100に送って認識を求める)、ASRア
プリケーションは、図2〜5を参照して上述した例にし
たがって、ASRクライアント130に対し、ピザ注文
スピーチの認識をセットアップし、開始する(たとえ
ば、PIZZA文法をロードし、ORDER規則を駆動
し、スピーチ認識を開始する)よう、要求することがで
きる。
に加えて、本発明にしたがって、幅広い潜在的なASR
サービスをパケットネットワークを介して提供すること
ができる。本発明によって可能になるASRアプリケー
ションの一例は、用紙の中の多数の空欄それぞれに求め
られる情報に対して発話される答に応じて用紙を完成さ
せるための用紙記入サービスである。本発明によると、
ASRクライアント130が、空欄それぞれに対して可
能な選択を表す文法をASRサーバ100に送るような
用紙記入サービスを実現することができる。空欄ごと
に、ASRクライアント130が適切な文法規則の駆動
を要求し、空欄を満たすのに必要な情報を求める要求に
応じて発話された、対応する回答を送る。ASRサーバ
100が、選択された文法および規則にしたがって、適
切なスピーチ認識アルゴリズムを適用し、用紙に挿入す
べきテキストを返す。
ントとの間の情報交換(たとえば対話)を伴うこともあ
る。たとえば、航空便予約を扱うためのASRサービス
アプリケーションは、本明細書に記載する本発明による
と、ASRサーバ100とASRクライアント130と
の間の対話を利用して、ASRタスクを達成する。対話
は次のように進行するかもしれない。
SRサーバ100に対し): 「ロサンゼルス行きの便を予約したい」 ASRクライアントに対するASRサーバの応答(テキ
スト形態、あるいはまた、ASRサーバ100によって
ASRクライアント130に返されるスピーチの形
態): 「搭乗地はどこですか」 発話者(ASRクライアントからASRサーバに対
し): 「ワシントンDC」 ASRクライアントに対するASRサーバの応答: 「何曜日に出発ですか」 発話者(ASRクライアントからASRサーバに対
し): 「火曜日」 ASRクライアントに対するASRサーバの応答: 「出発時刻はいつですか」 発話者(ASRクライアントからASRサーバに対
し): 「午後4時」 ASRクライアントに対するASRサーバの応答: 「火曜午後4時のXYZ航空4567便をワシントンD
Cからロサンゼルスまで予約することができます。この
便に座席を予約しますか」 この場合、ASRサーバ110から受ける情報は文字ど
おり認識されたスピーチからのテキストとはいえない
が、認識されたスピーチに基づく情報(アプリケーショ
ンに依存する)である。対話の各区分は、上述したAS
Rクライアント−サーバ方法にしたがって達成すること
ができる。この例からわかるように、このようなASR
サービスアプリケーションは、ASRクライアントおよ
びASRサーバに対し、自然言語を扱う能力を要求する
だけでなく、絶えず変化する大きなデータベースにアク
セスする能力をも要求する。これを達成するためには、
ASRサービスアプリケーションを、実際には、クライ
アントPC140の中ではなく、サーバノード110の
中にインストールし、そこで動作させることが望ましい
かもしれない。その場合、クライアントPC140は、
サーバノード110で動作するアプリケーションプログ
ラムの制御の下でASRクライアント130を開始し、
スピーチ入力をASRクライアント130からASRサ
ーバ100に誘導する比較的小さな「代理」プログラム
を動作させるだけでよい。このような「代理」プログラ
ムの例は、たとえば、クライアントPC140の画面上
に「語り手」を配して、クライアントPC140でAS
Rサービスアプリケーションを使用する個人との対話を
支援し、ASRクライアント130およびASRサーバ
100を介して、その人のスピーチ情報を認識のために
ASRサーバ100に送るものであってもよい。
ーバアーキテクチャを使用して、ASRエンジンをホス
トするシステムから離れた場所で、パケットネットワー
ク、たとえばインターネットを介してユーザに利用可能
にすることができるASRサービスを提供する方法を提
供する。
用した例を示すに過ぎない。当業者であれば、本発明の
真髄および範囲を逸することなく、他の構造および方法
を実現することができる。
供するシステムのクライアント−サーバ関係を示す図で
ある。
能にするためのセットアッププロセスを示す図である。
能にするための代替セットアッププロセスを示す図であ
る。
可能にするためのプロセスを示す図である。
可能にするための代替プロセスを示す図である。
可能にするためのもう一つの代替プロセスを示す図であ
る。
パケットネットワーク、130 ASRクライアン
ト、140 クライアントPC。
Claims (59)
- 【請求項1】 クライアントによってパケットネットワ
ークを介してアクセス可能な自動スピーチ認識サービス
提供方法において、 a.スピーチ認識に使用される文法に対応する情報をク
ライアントからパケットネットワークを介して受けるス
テップと、 b.スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、 c.文法にしたがって自動スピーチ認識アルゴリズムを
適用することにより、受けたスピーチ情報を認識するス
テップと、 d.認識したスピーチに基づく情報をパケットネットワ
ークを介してクライアントに送るステップと、 を含むことを特徴とする方法。 - 【請求項2】 文法に対応する情報が文法の場所に対応
するアドレスであるならば、対応する文法アドレスに位
置する文法に対するアクセスを得るステップをさらに含
む請求項1記載の方法。 - 【請求項3】 文法の場所に対応するアドレスがユニフ
ォームリソースロケータ互換性アドレスである請求項2
記載の方法。 - 【請求項4】 スピーチを表す情報がクライアントから
ストリーム式に到着する請求項1記載の方法。 - 【請求項5】 クライアントから受けたスピーチを表す
情報がデジタル化スピーチを含む請求項1記載の方法。 - 【請求項6】 クライアントから受けたスピーチを表す
情報が、圧縮されたデジタル化スピーチを含む請求項1
記載の方法。 - 【請求項7】 クライアントから受けたスピーチを表す
情報が、デジタル化スピーチからクライアントによって
抽出された特徴を含む請求項1記載の方法。 - 【請求項8】 新たなスピーチ情報をクライアントから
受けるたびに、受けたスピーチ情報を認識するステップ
を繰り返す請求項1記載の方法。 - 【請求項9】 認識したスピーチに基づく情報がテキス
ト情報を含む請求項1記載の方法。 - 【請求項10】 認識したスピーチに基づく情報がさら
なるスピーチを含む請求項1記載の方法。 - 【請求項11】 さらなるスピーチ情報を認識するたび
に、認識したスピーチに基づく情報を送るステップを繰
り返す請求項1記載の方法。 - 【請求項12】 前にクライアントに送られた認識され
たスピーチに基づく情報の修正版をクライアントに送る
ステップをさらに含む請求項11記載の方法。 - 【請求項13】 ステップb、cおよびdを繰り返し
て、クライアントとサーバとの間で情報の交換を行う請
求項1記載の方法。 - 【請求項14】 認識したスピーチに基づく情報がテキ
スト情報を含む請求項13記載の方法。 - 【請求項15】 認識したスピーチに基づく情報がさら
なるスピーチを含む請求項13記載の方法。 - 【請求項16】 クライアントからパケットネットワー
クを介して受けた要求に応答して文法規則を駆動するス
テップをさらに含む請求項1記載の方法。 - 【請求項17】 文法に対応するハンドルをパケットネ
ットワークを介してクライアントに送るステップをさら
に含む請求項1記載の方法。 - 【請求項18】 クライアントによってパケットネット
ワークを介してアクセス可能な自動スピーチ認識サービ
ス提供システムにおいて、 a.プログラム可能なプロセッサと、 b.メモリと、 c.オーディオ入力装置と、 d.パケットネットワークを介してクライアントとの通
信リンクを確立するための通信インタフェースと、 を含み、前記プロセッサが、 i.スピーチ認識に使用される文法に対応する情報をク
ライアントからパケットネットワークを介して受けるス
テップと、 ii.スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、 iii.文法にしたがって自動スピーチ認識アルゴリズム
を適用することにより、受けたスピーチ情報を認識する
ステップと、 iv.認識したスピーチに基づく情報をパケットネットワ
ークを介してクライアントに送るステップと、 を実行するようにプログラムされていることを特徴とす
るシステム。 - 【請求項19】 プロセッサがさらに、文法に対応する
情報が文法の場所に対応するアドレスであるならば、対
応する文法アドレスに位置する文法に対するアクセスを
得るステップを実行するようにプログラムされている請
求項18記載のシステム。 - 【請求項20】 文法の場所に対応するアドレスがユニ
フォームリソースロケータ互換性アドレスである請求項
19記載のシステム。 - 【請求項21】 スピーチを表す情報がクライアントか
らストリーム式に到着する請求項18記載のシステム。 - 【請求項22】 クライアントから受けたスピーチを表
す情報がデジタル化スピーチを含む請求項18記載のシ
ステム。 - 【請求項23】 クライアントから受けたスピーチを表
す情報が、圧縮されたデジタル化スピーチを含む請求項
18記載のシステム。 - 【請求項24】 クライアントから受けたスピーチを表
す情報が、デジタル化スピーチからクライアントによっ
て抽出された特徴を含む請求項18記載のシステム。 - 【請求項25】 プロセッサがさらに、新たなスピーチ
情報をクライアントから受けるたびに、受けたスピーチ
情報を認識するステップを繰り返すようにプログラムさ
れている請求項18記載のシステム。 - 【請求項26】 認識したスピーチに基づく情報がテキ
スト情報を含む請求項18記載のシステム。 - 【請求項27】 認識したスピーチに基づく情報がさら
なるスピーチを含む請求項18記載のシステム。 - 【請求項28】 プロセッサがさらに、さらなるスピー
チ情報を認識するたびに、認識したスピーチに基づく情
報を送るステップを繰り返すようにプログラムされてい
る請求項18記載のシステム。 - 【請求項29】 プロセッサがさらに、前にクライアン
トに送られた認識されたスピーチに基づく情報の修正版
をクライアントに送るステップを実行するようにプログ
ラムされている請求項28記載のシステム。 - 【請求項30】 プロセッサがさらに、ステップii、ii
iおよびivを繰り返して、クライアントとサーバとの間
で情報の交換を行わせるようにプログラムされている請
求項18記載のシステム。 - 【請求項31】 認識したスピーチに基づく情報がテキ
スト情報を含む請求項30記載のシステム。 - 【請求項32】 認識したスピーチに基づく情報がさら
なるスピーチを含む請求項30記載のシステム。 - 【請求項33】 プロセッサがさらに、クライアントか
らパケットネットワークを介して受けた要求に応答して
文法規則を駆動するステップを実行するようにプログラ
ムされている請求項18記載のシステム。 - 【請求項34】 プロセッサがさらに、文法に対応する
ハンドルをパケットネットワークを介してクライアント
に送るステップを実行するようにプログラムされている
請求項18記載のシステム。 - 【請求項35】 クライアントによってパケットネット
ワークを介してアクセス可能な自動スピーチ認識サービ
スを提供するための命令を記憶したコンピュータ読み取
り可能な媒体を含む製品において、 前記命令が、プロセッサによって実行されると、プロセ
ッサをして、 a.スピーチ認識に使用される文法に対応する情報をク
ライアントからパケットネットワークを介して受けるス
テップと、 b.スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、 c.文法にしたがって自動スピーチ認識アルゴリズムを
適用することにより、受けたスピーチ情報を認識するス
テップと、 d.認識したスピーチに基づく情報をパケットネットワ
ークを介してクライアントに送るステップと、 を実行させることを特徴とする製品。 - 【請求項36】 命令が、プロセッサによって実行され
ると、さらにプロセッサをして、文法に対応する情報が
文法の場所に対応するアドレスであるならば、対応する
文法アドレスに位置する文法に対するアクセスを得るス
テップを実行させる請求項35記載の製品。 - 【請求項37】 文法の場所に対応するアドレスがユニ
フォームリソースロケータ互換性アドレスである請求項
36記載の製品。 - 【請求項38】 スピーチを表す情報がクライアントか
らストリーム式に到着する請求項35記載の製品。 - 【請求項39】 クライアントから受けたスピーチを表
す情報がデジタル化スピーチを含む請求項35記載の製
品。 - 【請求項40】 クライアントから受けたスピーチを表
す情報が、圧縮されたデジタル化スピーチを含む請求項
35記載の製品。 - 【請求項41】 クライアントから受けたスピーチを表
す情報が、デジタル化スピーチからクライアントによっ
て抽出された特徴を含む請求項35記載の製品。 - 【請求項42】 命令が、プロセッサによって実行され
ると、さらにプロセッサをして、新たなスピーチ情報を
クライアントから受けるたびに、受けたスピーチ情報を
認識するステップを繰り返させる請求項35記載の製
品。 - 【請求項43】 認識したスピーチに基づく情報がテキ
スト情報を含む請求項35記載の製品。 - 【請求項44】 認識したスピーチに基づく情報がさら
なるスピーチを含む請求項35記載の製品。 - 【請求項45】 命令が、プロセッサによって実行され
ると、さらにプロセッサをして、さらなるスピーチ情報
を認識するたびに、認識したスピーチに基づく情報を送
るステップを繰り返させる請求項35記載の製品。 - 【請求項46】 命令が、プロセッサによって実行され
ると、さらにプロセッサをして、前にクライアントに送
られた認識されたスピーチに基づく情報の修正版をクラ
イアントに送るステップを実行させる請求項45記載の
製品。 - 【請求項47】 命令が、プロセッサによって実行され
ると、さらにプロセッサをして、ステップb、cおよび
dを繰り返させて、クライアントとサーバとの間で情報
の交換を行わせる請求項35記載の製品。 - 【請求項48】 認識したスピーチに基づく情報がテキ
スト情報を含む請求項47記載の製品。 - 【請求項49】 認識したスピーチに基づく情報がさら
なるスピーチを含む請求項47記載の製品。 - 【請求項50】 命令が、プロセッサによって実行され
ると、さらにプロセッサをして、クライアントからパケ
ットネットワークを介して受けた要求に応答して文法規
則を駆動するステップを実行させる請求項35記載の製
品。 - 【請求項51】 命令が、プロセッサによって実行され
ると、さらにプロセッサをして、文法に対応するハンド
ルをパケットネットワークを介してクライアントに送る
ステップを実行させる請求項35記載の製品。 - 【請求項52】 クライアントによってパケットネット
ワークを介してアクセス可能な自動用紙記入サービスを
提供する方法において、 a.スピーチ認識に使用される文法であって、用紙に挿
入されるテキスト情報に対応する語に対応する文法に対
応する情報をクライアントからパケットネットワークを
介して受けるステップと、 b.スピーチを表す情報をクライアントからパケットネ
ットワークを介して受けるステップと、 c.文法にしたがって自動スピーチ認識アルゴリズムを
適用することにより、受けたスピーチ情報を認識するス
テップと、 d.認識したスピーチに対応するテキストを、用紙に挿
入することができるよう、パケットネットワークを介し
てクライアントに送るステップと、 を含むことを特徴とする方法。 - 【請求項53】 文法に対応する情報が文法の場所に対
応するアドレスであるならば、対応する文法アドレスに
位置する文法に対するアクセスを得るステップをさらに
含む請求項52記載の方法。 - 【請求項54】 文法の場所に対応するアドレスがユニ
フォームリソースロケータ互換性アドレスである請求項
53記載の方法。 - 【請求項55】 クライアントから受けたスピーチを表
す情報がデジタル化スピーチを含む請求項52記載の方
法。 - 【請求項56】 クライアントから受けたスピーチを表
す情報が、圧縮されたデジタル化スピーチを含む請求項
52記載の方法。 - 【請求項57】 クライアントから受けたスピーチを表
す情報が、デジタル化されたスピーチからクライアント
によって抽出された特徴を含む請求項52記載の方法。 - 【請求項58】 クライアントからパケットネットワー
クを介して受けた要求に応答して文法規則を駆動するス
テップをさらに含む請求項52記載の方法。 - 【請求項59】 文法に対応するハンドルをパケットネ
ットワークを介してクライアントに送るステップをさら
に含む請求項52記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/833,210 | 1997-04-14 | ||
US08/833,210 US6078886A (en) | 1997-04-14 | 1997-04-14 | System and method for providing remote automatic speech recognition services via a packet network |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002156302A Division JP2003050594A (ja) | 1997-04-14 | 2002-05-29 | 自動スピーチ認識とスピーチサービス提供方法およびシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10333693A true JPH10333693A (ja) | 1998-12-18 |
Family
ID=25263756
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10095930A Pending JPH10333693A (ja) | 1997-04-14 | 1998-04-08 | 自動スピーチ認識サービス提供方法およびシステム |
JP2002156302A Pending JP2003050594A (ja) | 1997-04-14 | 2002-05-29 | 自動スピーチ認識とスピーチサービス提供方法およびシステム |
JP2006010432A Expired - Lifetime JP4849894B2 (ja) | 1997-04-14 | 2006-01-18 | 自動スピーチ認識サービス提供方法及びシステム並びに媒体 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002156302A Pending JP2003050594A (ja) | 1997-04-14 | 2002-05-29 | 自動スピーチ認識とスピーチサービス提供方法およびシステム |
JP2006010432A Expired - Lifetime JP4849894B2 (ja) | 1997-04-14 | 2006-01-18 | 自動スピーチ認識サービス提供方法及びシステム並びに媒体 |
Country Status (6)
Country | Link |
---|---|
US (3) | US6078886A (ja) |
EP (1) | EP0872827B1 (ja) |
JP (3) | JPH10333693A (ja) |
CA (1) | CA2228917C (ja) |
DE (1) | DE69829604T2 (ja) |
MX (2) | MX2007013017A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010025230A (ko) * | 2000-11-09 | 2001-04-06 | 차정만 | 음성도메인에 의한 인터넷접속 매개장치와 매개방법 및음성도메인의 데이터 베이스 생성방법 |
JP2002539481A (ja) * | 1999-03-09 | 2002-11-19 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複数の音声認識器を用いる方法 |
JP2002540477A (ja) * | 1999-03-26 | 2002-11-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | クライアント−サーバ音声認識 |
JP2002540479A (ja) * | 1999-03-26 | 2002-11-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | クライアントサーバ音声認識 |
KR100383391B1 (ko) * | 2000-06-28 | 2003-05-12 | 김지한 | 음성인식서비스 시스템 및 방법 |
US7409342B2 (en) | 2003-06-30 | 2008-08-05 | International Business Machines Corporation | Speech recognition device using statistical language model |
JP2010217628A (ja) * | 2009-03-18 | 2010-09-30 | Kddi Corp | 音声によってテキストを入力する音声認識処理方法及びシステム |
JP2013164601A (ja) * | 1998-03-23 | 2013-08-22 | Microsoft Corp | オペレーティング・システムのアプリケーション・プログラム・インターフェース |
JP2017215971A (ja) * | 2015-09-08 | 2017-12-07 | アップル インコーポレイテッド | メディア環境内におけるインテリジェント自動アシスタント |
Families Citing this family (290)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7168084B1 (en) | 1992-12-09 | 2007-01-23 | Sedna Patent Services, Llc | Method and apparatus for targeting virtual objects |
US9286294B2 (en) | 1992-12-09 | 2016-03-15 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator content suggestion engine |
EP2184864A3 (en) | 1996-04-26 | 2011-12-14 | AT & T Corp. | Method and apparatus for data transmission using multiple transmit antennas |
US6856960B1 (en) * | 1997-04-14 | 2005-02-15 | At & T Corp. | System and method for providing remote automatic speech recognition and text-to-speech services via a packet network |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US8209184B1 (en) | 1997-04-14 | 2012-06-26 | At&T Intellectual Property Ii, L.P. | System and method of providing generated speech via a network |
US6434526B1 (en) * | 1998-06-29 | 2002-08-13 | International Business Machines Corporation | Network application software services containing a speech recognition capability |
US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
WO2000022597A1 (en) * | 1998-10-15 | 2000-04-20 | Planetlingo Inc. | Method for computer-aided foreign language instruction |
US6185535B1 (en) * | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
DE19910236A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US20050261907A1 (en) | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US20050091057A1 (en) * | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
WO2000062222A1 (en) * | 1999-04-14 | 2000-10-19 | Syvox Corporation | Interactive voice unit for giving instruction to a worker |
DE19918382B4 (de) * | 1999-04-22 | 2004-02-05 | Siemens Ag | Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät |
GB9911971D0 (en) | 1999-05-21 | 1999-07-21 | Canon Kk | A system, a server for a system and a machine for use in a system |
WO2000077607A1 (en) * | 1999-06-09 | 2000-12-21 | Koninklijke Philips Electronics N.V. | Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units. |
DE19930407A1 (de) * | 1999-06-09 | 2000-12-14 | Philips Corp Intellectual Pty | Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten |
GB2356318A (en) * | 1999-09-04 | 2001-05-16 | Marconi Comm Ltd | Server with voice recognition |
US7330815B1 (en) | 1999-10-04 | 2008-02-12 | Globalenglish Corporation | Method and system for network-based speech recognition |
EP1098297A1 (en) | 1999-11-02 | 2001-05-09 | BRITISH TELECOMMUNICATIONS public limited company | Speech recognition |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7110947B2 (en) | 1999-12-10 | 2006-09-19 | At&T Corp. | Frame erasure concealment technique for a bitstream-based feature extractor |
US6792405B2 (en) | 1999-12-10 | 2004-09-14 | At&T Corp. | Bitstream-based feature extraction method for a front-end speech recognizer |
US6424945B1 (en) | 1999-12-15 | 2002-07-23 | Nokia Corporation | Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection |
US6434529B1 (en) * | 2000-02-16 | 2002-08-13 | Sun Microsystems, Inc. | System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar |
US6853714B2 (en) | 2000-02-25 | 2005-02-08 | Keith A. Liljestrand | Apparatus and method for providing enhanced telecommunications services |
AU2001250975A1 (en) * | 2000-03-24 | 2001-10-08 | Eliza Corporation | Phonetic data processing system and method |
US6785653B1 (en) * | 2000-05-01 | 2004-08-31 | Nuance Communications | Distributed voice web architecture and associated components and methods |
US7716163B2 (en) | 2000-06-06 | 2010-05-11 | Microsoft Corporation | Method and system for defining semantic categories and actions |
US7770102B1 (en) | 2000-06-06 | 2010-08-03 | Microsoft Corporation | Method and system for semantically labeling strings and providing actions based on semantically labeled strings |
US7788602B2 (en) | 2000-06-06 | 2010-08-31 | Microsoft Corporation | Method and system for providing restricted actions for recognized semantic categories |
US7712024B2 (en) | 2000-06-06 | 2010-05-04 | Microsoft Corporation | Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings |
EP1298644B1 (en) * | 2000-06-26 | 2008-05-28 | Mitsubishi Denki Kabushiki Kaisha | Equipment operation system |
FI115868B (fi) * | 2000-06-30 | 2005-07-29 | Nokia Corp | Puhesynteesi |
US20020078445A1 (en) * | 2000-07-11 | 2002-06-20 | Imran Sharif | Internet appliance for interactive audio/video display using a remote control unit for user input |
US7245291B2 (en) | 2000-07-11 | 2007-07-17 | Imran Sharif | System and method for internet appliance data entry and navigation |
US20030115167A1 (en) * | 2000-07-11 | 2003-06-19 | Imran Sharif | Web browser implemented in an Internet appliance |
US6980313B2 (en) * | 2000-07-11 | 2005-12-27 | Imran Sharif | Fax-compatible internet appliance |
US7139709B2 (en) | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
GB2365189A (en) * | 2000-07-26 | 2002-02-13 | Canon Kk | Voice-controlled machine |
DE60128372T2 (de) * | 2000-07-31 | 2008-01-10 | Eliza Corp., Beverly | Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem |
AU2001284713A1 (en) * | 2000-08-02 | 2002-02-13 | Speaklink, Inc. | System and method for voice-activated web content navigation |
FI20001918A (fi) | 2000-08-30 | 2002-03-01 | Nokia Corp | Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä |
DE60125597T2 (de) * | 2000-08-31 | 2007-05-03 | Hitachi, Ltd. | Vorrichtung für die Dienstleistungsvermittlung |
US6567419B1 (en) | 2000-09-11 | 2003-05-20 | Yahoo! Inc. | Intelligent voice converter |
US7095733B1 (en) | 2000-09-11 | 2006-08-22 | Yahoo! Inc. | Voice integrated VOIP system |
US6556563B1 (en) * | 2000-09-11 | 2003-04-29 | Yahoo! Inc. | Intelligent voice bridging |
US6580786B1 (en) | 2000-09-11 | 2003-06-17 | Yahoo! Inc. | Message store architecture |
US7454346B1 (en) * | 2000-10-04 | 2008-11-18 | Cisco Technology, Inc. | Apparatus and methods for converting textual information to audio-based output |
GB2368441A (en) * | 2000-10-26 | 2002-05-01 | Coles Joseph Tidbold | Voice to voice data handling system |
US7136814B1 (en) * | 2000-11-03 | 2006-11-14 | The Procter & Gamble Company | Syntax-driven, operator assisted voice recognition system and methods |
JP3581648B2 (ja) * | 2000-11-27 | 2004-10-27 | キヤノン株式会社 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
US6823306B2 (en) | 2000-11-30 | 2004-11-23 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
US7640163B2 (en) * | 2000-12-01 | 2009-12-29 | The Trustees Of Columbia University In The City Of New York | Method and system for voice activating web pages |
US6937986B2 (en) * | 2000-12-28 | 2005-08-30 | Comverse, Inc. | Automatic dynamic speech recognition vocabulary based on external sources of information |
US20020143553A1 (en) * | 2001-01-24 | 2002-10-03 | Michael Migdol | System, method and computer program product for a voice-enabled universal flight information finder |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
DE10109156C2 (de) * | 2001-02-24 | 2003-01-09 | Diehl Ako Stiftung Gmbh & Co | Intelligente Haushaltsgrossgeräte |
WO2002069325A1 (en) * | 2001-02-26 | 2002-09-06 | Startouch International, Ltd. | Apparatus and methods for implementing voice enabling applications in a coverged voice and data network environment |
US20020178003A1 (en) * | 2001-03-09 | 2002-11-28 | Motorola, Inc. | Method and apparatus for providing voice recognition service to a wireless communication device |
US6985862B2 (en) * | 2001-03-22 | 2006-01-10 | Tellme Networks, Inc. | Histogram grammar weighting and error corrective training of grammar weights |
JP4006338B2 (ja) * | 2001-03-22 | 2007-11-14 | キヤノン株式会社 | 情報処理装置及びその方法、プログラム |
US7233903B2 (en) * | 2001-03-26 | 2007-06-19 | International Business Machines Corporation | Systems and methods for marking and later identifying barcoded items using speech |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
US7778816B2 (en) * | 2001-04-24 | 2010-08-17 | Microsoft Corporation | Method and system for applying input mode bias |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
CN101833952B (zh) * | 2001-05-04 | 2013-02-13 | 微软公司 | 客户服务器系统中处理输入数据的方法 |
CN1279465C (zh) * | 2001-05-04 | 2006-10-11 | 微软公司 | Web启用的识别体系结构 |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US20020178182A1 (en) * | 2001-05-04 | 2002-11-28 | Kuansan Wang | Markup language extensions for web enabled recognition |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203188B1 (en) | 2001-05-21 | 2007-04-10 | Estara, Inc. | Voice-controlled data/information display for internet telephony and integrated voice and data communications using telephones and computing devices |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
JP3885523B2 (ja) | 2001-06-20 | 2007-02-21 | 日本電気株式会社 | サーバ・クライアント型音声認識装置及び方法 |
US20030009331A1 (en) * | 2001-07-05 | 2003-01-09 | Johan Schalkwyk | Grammars for speech recognition |
US7194513B2 (en) * | 2001-07-08 | 2007-03-20 | Imran Sharif | System and method for using an internet appliance to send/receive digital content files as E-mail attachments |
US20030014254A1 (en) * | 2001-07-11 | 2003-01-16 | You Zhang | Load-shared distribution of a speech system |
US7793326B2 (en) | 2001-08-03 | 2010-09-07 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator |
US7908628B2 (en) | 2001-08-03 | 2011-03-15 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator content coding and formatting |
US7444286B2 (en) | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
US7467089B2 (en) * | 2001-09-05 | 2008-12-16 | Roth Daniel L | Combined speech and handwriting recognition |
US7809574B2 (en) | 2001-09-05 | 2010-10-05 | Voice Signal Technologies Inc. | Word recognition using choice lists |
US7526431B2 (en) * | 2001-09-05 | 2009-04-28 | Voice Signal Technologies, Inc. | Speech recognition using ambiguous or phone key spelling and/or filtering |
US7505911B2 (en) * | 2001-09-05 | 2009-03-17 | Roth Daniel L | Combined speech recognition and sound recording |
US7313526B2 (en) | 2001-09-05 | 2007-12-25 | Voice Signal Technologies, Inc. | Speech recognition using selectable recognition modes |
US7324947B2 (en) | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
US8644475B1 (en) | 2001-10-16 | 2014-02-04 | Rockstar Consortium Us Lp | Telephony usage derived presence information |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
JP2003143256A (ja) * | 2001-10-30 | 2003-05-16 | Nec Corp | 端末装置と通信制御方法 |
US7246060B2 (en) * | 2001-11-06 | 2007-07-17 | Microsoft Corporation | Natural input recognition system and method using a contextual mapping engine and adaptive user bias |
US6816578B1 (en) * | 2001-11-27 | 2004-11-09 | Nortel Networks Limited | Efficient instant messaging using a telephony interface |
US7124085B2 (en) * | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
US20030135624A1 (en) * | 2001-12-27 | 2003-07-17 | Mckinnon Steve J. | Dynamic presence management |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US7203644B2 (en) * | 2001-12-31 | 2007-04-10 | Intel Corporation | Automating tuning of speech recognition systems |
US20030144846A1 (en) * | 2002-01-31 | 2003-07-31 | Denenberg Lawrence A. | Method and system for modifying the behavior of an application based upon the application's grammar |
US7054813B2 (en) * | 2002-03-01 | 2006-05-30 | International Business Machines Corporation | Automatic generation of efficient grammar for heading selection |
US6895379B2 (en) | 2002-03-27 | 2005-05-17 | Sony Corporation | Method of and apparatus for configuring and controlling home entertainment systems through natural language and spoken commands using a natural language server |
JP2003295890A (ja) * | 2002-04-04 | 2003-10-15 | Nec Corp | 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム |
US7707496B1 (en) | 2002-05-09 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings |
US20030217149A1 (en) * | 2002-05-20 | 2003-11-20 | International Business Machines Corporation | Method and apparatus for tunneling TCP/IP over HTTP and HTTPS |
US7742048B1 (en) | 2002-05-23 | 2010-06-22 | Microsoft Corporation | Method, system, and apparatus for converting numbers based upon semantically labeled strings |
US7707024B2 (en) | 2002-05-23 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting currency values based upon semantically labeled strings |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7827546B1 (en) | 2002-06-05 | 2010-11-02 | Microsoft Corporation | Mechanism for downloading software components from a remote source for use by a local software application |
US7356537B2 (en) | 2002-06-06 | 2008-04-08 | Microsoft Corporation | Providing contextually sensitive tools and help content in computer-generated documents |
US8073930B2 (en) * | 2002-06-14 | 2011-12-06 | Oracle International Corporation | Screen reader remote access system |
US7716676B2 (en) | 2002-06-25 | 2010-05-11 | Microsoft Corporation | System and method for issuing a message to a program |
US7209915B1 (en) | 2002-06-28 | 2007-04-24 | Microsoft Corporation | Method, system and apparatus for routing a query to one or more providers |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7797159B2 (en) * | 2002-09-16 | 2010-09-14 | Movius Interactive Corporation | Integrated voice navigation system and method |
US8392609B2 (en) | 2002-09-17 | 2013-03-05 | Apple Inc. | Proximity detection for media proxies |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
US7783614B2 (en) | 2003-02-13 | 2010-08-24 | Microsoft Corporation | Linking elements of a document to corresponding fields, queries and/or procedures in a database |
US20050049922A1 (en) * | 2003-03-24 | 2005-03-03 | Ipdev Co. | Method and apparatus for specifying toppings and their placement on a pizza and confirming same |
US7013282B2 (en) * | 2003-04-18 | 2006-03-14 | At&T Corp. | System and method for text-to-speech processing in a portable device |
US7260539B2 (en) * | 2003-04-25 | 2007-08-21 | At&T Corp. | System for low-latency animation of talking heads |
US7260535B2 (en) | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US7711550B1 (en) | 2003-04-29 | 2010-05-04 | Microsoft Corporation | Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names |
US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
US20050015256A1 (en) * | 2003-05-29 | 2005-01-20 | Kargman James B. | Method and apparatus for ordering food items, and in particular, pizza |
EP1631899A4 (en) * | 2003-06-06 | 2007-07-18 | Univ Columbia | SYSTEM AND METHOD FOR LANGUAGE ACTIVATION OF WEB SITES |
US7720683B1 (en) * | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
JP2005031758A (ja) * | 2003-07-07 | 2005-02-03 | Canon Inc | 音声処理装置及び方法 |
US7073203B2 (en) * | 2003-08-08 | 2006-07-11 | Simms Fishing Products Corporation | Foot-covering component of a stocking foot wader including gravel guard and method for manufacturing |
US8311835B2 (en) | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
US7519042B2 (en) | 2003-09-12 | 2009-04-14 | Motorola, Inc. | Apparatus and method for mixed-media call formatting |
US20050065789A1 (en) * | 2003-09-23 | 2005-03-24 | Sherif Yacoub | System and method with automated speech recognition engines |
US20050102625A1 (en) * | 2003-11-07 | 2005-05-12 | Lee Yong C. | Audio tag retrieval system and method |
US9118574B1 (en) | 2003-11-26 | 2015-08-25 | RPX Clearinghouse, LLC | Presence reporting using wireless messaging |
KR100600522B1 (ko) * | 2003-12-16 | 2006-07-13 | 에스케이 주식회사 | 상담원과 음성 인식 엔진을 이용한 품질보장형 콜라우팅시스템 및 그 방법 |
US20050171781A1 (en) * | 2004-01-08 | 2005-08-04 | Poploskie Jon M. | Speech information system |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
FR2865846A1 (fr) * | 2004-02-02 | 2005-08-05 | France Telecom | Systeme de synthese vocale |
US7925512B2 (en) * | 2004-05-19 | 2011-04-12 | Nuance Communications, Inc. | Method, system, and apparatus for a voice markup language interpreter and voice browser |
US8036893B2 (en) | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US7940746B2 (en) | 2004-08-24 | 2011-05-10 | Comcast Cable Holdings, Llc | Method and system for locating a voice over internet protocol (VoIP) device connected to a network |
US7739117B2 (en) * | 2004-09-20 | 2010-06-15 | International Business Machines Corporation | Method and system for voice-enabled autofill |
US7783028B2 (en) * | 2004-09-30 | 2010-08-24 | International Business Machines Corporation | System and method of using speech recognition at call centers to improve their efficiency and customer satisfaction |
KR100695127B1 (ko) * | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
US8706501B2 (en) * | 2004-12-09 | 2014-04-22 | Nuance Communications, Inc. | Method and system for sharing speech processing resources over a communication network |
US20060149551A1 (en) * | 2004-12-22 | 2006-07-06 | Ganong William F Iii | Mobile dictation correction user interface |
US7529677B1 (en) | 2005-01-21 | 2009-05-05 | Itt Manufacturing Enterprises, Inc. | Methods and apparatus for remotely processing locally generated commands to control a local device |
DE102005010285A1 (de) * | 2005-03-01 | 2006-09-07 | Deutsche Telekom Ag | Verfahren und System zur Spracherkennung |
US20060247925A1 (en) * | 2005-04-27 | 2006-11-02 | International Business Machines Corporation | Virtual push-to-talk |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) * | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US7634409B2 (en) * | 2005-08-31 | 2009-12-15 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
US7992085B2 (en) | 2005-09-26 | 2011-08-02 | Microsoft Corporation | Lightweight reference user interface |
US7788590B2 (en) | 2005-09-26 | 2010-08-31 | Microsoft Corporation | Lightweight reference user interface |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8117268B2 (en) * | 2006-04-05 | 2012-02-14 | Jablokov Victor R | Hosted voice recognition system for wireless devices |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
JP4859642B2 (ja) * | 2006-11-30 | 2012-01-25 | 富士通株式会社 | 音声情報管理装置 |
US8296139B2 (en) * | 2006-12-22 | 2012-10-23 | International Business Machines Corporation | Adding real-time dictation capabilities for speech processing operations handled by a networked speech processing system |
JP5240457B2 (ja) * | 2007-01-16 | 2013-07-17 | 日本電気株式会社 | 拡張認識辞書学習装置と音声認識システム |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
EP2118881A1 (en) * | 2007-02-13 | 2009-11-18 | Ntera Limited | Voltage feedback circuit for active matrix reflective display devices |
TWI321313B (en) * | 2007-03-03 | 2010-03-01 | Ind Tech Res Inst | Apparatus and method to reduce recognization errors through context relations among dialogue turns |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8352264B2 (en) | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US8086457B2 (en) * | 2007-05-30 | 2011-12-27 | Cepstral, LLC | System and method for client voice building |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
US8255224B2 (en) * | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US8831950B2 (en) * | 2008-04-07 | 2014-09-09 | Nuance Communications, Inc. | Automated voice enablement of a web page |
US9047869B2 (en) * | 2008-04-07 | 2015-06-02 | Nuance Communications, Inc. | Free form input field support for automated voice enablement of a web page |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8019608B2 (en) | 2008-08-29 | 2011-09-13 | Multimodal Technologies, Inc. | Distributed speech recognition using one way communication |
US9059991B2 (en) | 2008-12-31 | 2015-06-16 | Bce Inc. | System and method for unlocking a device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
WO2011059997A1 (en) | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US9099087B2 (en) * | 2010-09-03 | 2015-08-04 | Canyon IP Holdings, LLC | Methods and systems for obtaining language models for transcribing communications |
US20120078635A1 (en) * | 2010-09-24 | 2012-03-29 | Apple Inc. | Voice control system |
US8898065B2 (en) | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
KR20130016644A (ko) * | 2011-08-08 | 2013-02-18 | 삼성전자주식회사 | 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 |
US8914288B2 (en) | 2011-09-01 | 2014-12-16 | At&T Intellectual Property I, L.P. | System and method for advanced turn-taking for interactive spoken dialog systems |
US9886944B2 (en) | 2012-10-04 | 2018-02-06 | Nuance Communications, Inc. | Hybrid controller for ASR |
US9691377B2 (en) | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
US9275638B2 (en) | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
US10811004B2 (en) * | 2013-03-28 | 2020-10-20 | Nuance Communications, Inc. | Auto-generation of parsing grammars from a concept ontology |
US10170114B2 (en) | 2013-05-30 | 2019-01-01 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9218804B2 (en) | 2013-09-12 | 2015-12-22 | At&T Intellectual Property I, L.P. | System and method for distributed voice models across cloud and device for embedded text-to-speech |
US9558736B2 (en) * | 2014-07-02 | 2017-01-31 | Bose Corporation | Voice prompt generation combining native and remotely-generated speech data |
JP6390264B2 (ja) * | 2014-08-21 | 2018-09-19 | トヨタ自動車株式会社 | 応答生成方法、応答生成装置及び応答生成プログラム |
WO2016044321A1 (en) | 2014-09-16 | 2016-03-24 | Min Tang | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9626703B2 (en) | 2014-09-16 | 2017-04-18 | Voicebox Technologies Corporation | Voice commerce |
CN107003999B (zh) | 2014-10-15 | 2020-08-21 | 声钰科技 | 对用户的在先自然语言输入的后续响应的系统和方法 |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
CN108701454B (zh) * | 2015-10-21 | 2023-05-30 | 谷歌有限责任公司 | 对话系统中的参数收集和自动对话生成 |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10192555B2 (en) * | 2016-04-28 | 2019-01-29 | Microsoft Technology Licensing, Llc | Dynamic speech recognition data evaluation |
US11010820B2 (en) * | 2016-05-05 | 2021-05-18 | Transform Sr Brands Llc | Request fulfillment system, method, and media |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10592611B2 (en) * | 2016-10-24 | 2020-03-17 | Conduent Business Services, Llc | System for automatic extraction of structure from spoken conversation using lexical and acoustic features |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
AU2018216823B2 (en) * | 2017-01-31 | 2020-10-15 | Genesys Cloud Services, Inc. | System and method for speech-based interaction resolution |
US10757058B2 (en) | 2017-02-17 | 2020-08-25 | International Business Machines Corporation | Outgoing communication scam prevention |
US10102868B2 (en) * | 2017-02-17 | 2018-10-16 | International Business Machines Corporation | Bot-based honeypot poison resilient data collection |
US10810510B2 (en) | 2017-02-17 | 2020-10-20 | International Business Machines Corporation | Conversation and context aware fraud and abuse prevention agent |
US10332505B2 (en) * | 2017-03-09 | 2019-06-25 | Capital One Services, Llc | Systems and methods for providing automated natural language dialogue with customers |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10796088B2 (en) * | 2017-04-21 | 2020-10-06 | International Business Machines Corporation | Specifying a conversational computer agent and its outcome with a grammar |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
DE102017213946B4 (de) | 2017-08-10 | 2022-11-10 | Audi Ag | Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US10715470B1 (en) * | 2017-12-14 | 2020-07-14 | Amazon Technologies, Inc. | Communication account contact ingestion and aggregation |
US11343374B1 (en) * | 2017-12-14 | 2022-05-24 | Amazon Technologies, Inc. | Message aggregation and comparing |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11145291B2 (en) * | 2018-01-31 | 2021-10-12 | Microsoft Technology Licensing, Llc | Training natural language system with generated dialogues |
US10861440B2 (en) * | 2018-02-05 | 2020-12-08 | Microsoft Technology Licensing, Llc | Utterance annotation user interface |
US11133001B2 (en) * | 2018-03-20 | 2021-09-28 | Microsoft Technology Licensing, Llc | Generating dialogue events for natural language system |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US10885912B2 (en) * | 2018-11-13 | 2021-01-05 | Motorola Solutions, Inc. | Methods and systems for providing a corrected voice command |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) * | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111081247A (zh) * | 2019-12-24 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 语音识别的方法以及终端、服务器和计算机可读存储介质 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11574622B2 (en) | 2020-07-02 | 2023-02-07 | Ford Global Technologies, Llc | Joint automatic speech recognition and text to speech conversion using adversarial neural networks |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088739B2 (ja) * | 1989-10-06 | 2000-09-18 | 株式会社リコー | 音声認識システム |
JPH04372037A (ja) * | 1991-06-21 | 1992-12-25 | Matsushita Electric Ind Co Ltd | システム管理情報設定装置 |
DE69232112T2 (de) | 1991-11-12 | 2002-03-14 | Fujitsu Ltd., Kawasaki | Vorrichtung zur Sprachsynthese |
US5425128A (en) * | 1992-05-29 | 1995-06-13 | Sunquest Information Systems, Inc. | Automatic management system for speech recognition processes |
JP2818362B2 (ja) * | 1992-09-21 | 1998-10-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識装置のコンテキスト切換えシステムおよび方法 |
JP2524472B2 (ja) * | 1992-09-21 | 1996-08-14 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 電話回線利用の音声認識システムを訓練する方法 |
CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
EP0607615B1 (en) * | 1992-12-28 | 1999-09-15 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
WO1994023425A1 (en) * | 1993-03-31 | 1994-10-13 | British Telecommunications Public Limited Company | Connected speech recognition |
US5524169A (en) * | 1993-12-30 | 1996-06-04 | International Business Machines Incorporated | Method and system for location-specific speech recognition |
JPH07222248A (ja) * | 1994-02-08 | 1995-08-18 | Hitachi Ltd | 携帯型情報端末における音声情報の利用方式 |
US5666400A (en) * | 1994-07-07 | 1997-09-09 | Bell Atlantic Network Services, Inc. | Intelligent recognition |
US5623605A (en) * | 1994-08-29 | 1997-04-22 | Lucent Technologies Inc. | Methods and systems for interprocess communication and inter-network data transfer |
US5752232A (en) * | 1994-11-14 | 1998-05-12 | Lucent Technologies Inc. | Voice activated device and method for providing access to remotely retrieved data |
US5682478A (en) * | 1995-01-19 | 1997-10-28 | Microsoft Corporation | Method and apparatus for supporting multiple, simultaneous services over multiple, simultaneous connections between a client and network server |
US5732219A (en) * | 1995-03-17 | 1998-03-24 | Vermeer Technologies, Inc. | Computer system and computer-implemented process for remote editing of computer files |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5745754A (en) * | 1995-06-07 | 1998-04-28 | International Business Machines Corporation | Sub-agent for fulfilling requests of a web browser using an intelligent agent and providing a report |
US5745874A (en) * | 1996-03-04 | 1998-04-28 | National Semiconductor Corporation | Preprocessor for automatic speech recognition system |
US6456974B1 (en) * | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
-
1997
- 1997-04-14 US US08/833,210 patent/US6078886A/en not_active Expired - Lifetime
-
1998
- 1998-02-05 CA CA002228917A patent/CA2228917C/en not_active Expired - Lifetime
- 1998-04-08 JP JP10095930A patent/JPH10333693A/ja active Pending
- 1998-04-08 EP EP98106446A patent/EP0872827B1/en not_active Expired - Lifetime
- 1998-04-08 DE DE69829604T patent/DE69829604T2/de not_active Expired - Lifetime
-
2000
- 2000-03-24 US US09/533,820 patent/US6366886B1/en not_active Expired - Lifetime
-
2002
- 2002-02-05 US US10/067,464 patent/US6604077B2/en not_active Expired - Lifetime
- 2002-05-29 JP JP2002156302A patent/JP2003050594A/ja active Pending
-
2006
- 2006-01-18 JP JP2006010432A patent/JP4849894B2/ja not_active Expired - Lifetime
-
2007
- 2007-10-18 MX MX2007013017A patent/MX2007013017A/es active IP Right Grant
- 2007-10-18 MX MX2007013015A patent/MX2007013015A/es active IP Right Grant
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013164601A (ja) * | 1998-03-23 | 2013-08-22 | Microsoft Corp | オペレーティング・システムのアプリケーション・プログラム・インターフェース |
JP2002539481A (ja) * | 1999-03-09 | 2002-11-19 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複数の音声認識器を用いる方法 |
JP2002540479A (ja) * | 1999-03-26 | 2002-11-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | クライアントサーバ音声認識 |
JP2002540477A (ja) * | 1999-03-26 | 2002-11-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | クライアント−サーバ音声認識 |
KR100383391B1 (ko) * | 2000-06-28 | 2003-05-12 | 김지한 | 음성인식서비스 시스템 및 방법 |
KR20010025230A (ko) * | 2000-11-09 | 2001-04-06 | 차정만 | 음성도메인에 의한 인터넷접속 매개장치와 매개방법 및음성도메인의 데이터 베이스 생성방법 |
US7409342B2 (en) | 2003-06-30 | 2008-08-05 | International Business Machines Corporation | Speech recognition device using statistical language model |
US7603277B2 (en) | 2003-06-30 | 2009-10-13 | Nuance Communications, Inc. | Speech recognition device using statistical language model |
US7698137B2 (en) | 2003-06-30 | 2010-04-13 | Nuance Communications, Inc. | Speech recognition device using statistical language model |
JP2010217628A (ja) * | 2009-03-18 | 2010-09-30 | Kddi Corp | 音声によってテキストを入力する音声認識処理方法及びシステム |
JP2017215971A (ja) * | 2015-09-08 | 2017-12-07 | アップル インコーポレイテッド | メディア環境内におけるインテリジェント自動アシスタント |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10379715B2 (en) | 2015-09-08 | 2019-08-13 | Apple Inc. | Intelligent automated assistant in a media environment |
US10956006B2 (en) | 2015-09-08 | 2021-03-23 | Apple Inc. | Intelligent automated assistant in a media environment |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
Also Published As
Publication number | Publication date |
---|---|
US6366886B1 (en) | 2002-04-02 |
JP4849894B2 (ja) | 2012-01-11 |
US6078886A (en) | 2000-06-20 |
CA2228917C (en) | 2002-03-19 |
US20020091528A1 (en) | 2002-07-11 |
JP2003050594A (ja) | 2003-02-21 |
CA2228917A1 (en) | 1998-10-14 |
EP0872827A2 (en) | 1998-10-21 |
JP2006146262A (ja) | 2006-06-08 |
DE69829604T2 (de) | 2006-02-09 |
MX2007013015A (es) | 2009-02-17 |
MX2007013017A (es) | 2009-02-13 |
DE69829604D1 (de) | 2005-05-12 |
EP0872827B1 (en) | 2005-04-06 |
US6604077B2 (en) | 2003-08-05 |
EP0872827A3 (en) | 1999-04-21 |
MX9802754A (es) | 1998-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH10333693A (ja) | 自動スピーチ認識サービス提供方法およびシステム | |
US8209184B1 (en) | System and method of providing generated speech via a network | |
US7139715B2 (en) | System and method for providing remote automatic speech recognition and text to speech services via a packet network | |
US11468889B1 (en) | Speech recognition services | |
US8670987B2 (en) | Automatic speech recognition with dynamic grammar rules | |
US8909532B2 (en) | Supporting multi-lingual user interaction with a multimodal application | |
US8744861B2 (en) | Invoking tapered prompts in a multimodal application | |
KR101027548B1 (ko) | 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러 | |
US7899675B1 (en) | System, method and computer program product for transferring unregistered callers to a registration process | |
US8862475B2 (en) | Speech-enabled content navigation and control of a distributed multimodal browser | |
US7260530B2 (en) | Enhanced go-back feature system and method for use in a voice portal | |
US20020173961A1 (en) | System, method and computer program product for dynamic, robust and fault tolerant audio output in a speech recognition framework | |
US20080208586A1 (en) | Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application | |
US20080195393A1 (en) | Dynamically defining a voicexml grammar in an x+v page of a multimodal application | |
JP2002528804A (ja) | サービスアプリケーションに対するユーザインタフェースの音声制御 | |
US20020169613A1 (en) | System, method and computer program product for reduced data collection in a speech recognition tuning process | |
EP1676265B1 (en) | Speech animation | |
US7451086B2 (en) | Method and apparatus for voice recognition | |
JP4082249B2 (ja) | コンテンツ配信システム | |
MXPA98002754A (en) | System and method for providing remote automatic voice recognition services via a network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050719 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20051019 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051019 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20051025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060718 |