JP4597383B2 - 音声認識方法 - Google Patents
音声認識方法 Download PDFInfo
- Publication number
- JP4597383B2 JP4597383B2 JP2000604399A JP2000604399A JP4597383B2 JP 4597383 B2 JP4597383 B2 JP 4597383B2 JP 2000604399 A JP2000604399 A JP 2000604399A JP 2000604399 A JP2000604399 A JP 2000604399A JP 4597383 B2 JP4597383 B2 JP 4597383B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- client
- additional information
- server
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000004891 communication Methods 0.000 claims abstract description 14
- 230000006978 adaptation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims 3
- 238000010586 diagram Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer And Data Communications (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
- Navigation (AREA)
- Electric Clocks (AREA)
Description
本発明は、音声入力可能な情報ユニットが、サーバ上に格納されると共に、通信ネットワークを通じて音声認識器に接続されることが可能なクライアントによって取り出され得る方法に関する。
【0002】
キーボード若しくはマウスの代わりに音声入力によってコンピュータとの通信を実行する可能性は、ユーザにコンピュータでの作業を楽にさせると共に、入力スピードもしばしば向上させる。音声認識は、近年キーボードによって入力されてきた多くの分野において、用いられ得る。この論点は、ほとんどの様々な性質を有し得ることは明らかである。他方、音声認識中、計算力上に厳しい要求が作られ、これはしばしばローカル・コンピュータ(クライアント)上では十分に使用可能ではない。特に多くの語彙を有する話者から独立した音声認識にとって、クライアントの計算力はしばしば不十分である。音声入力の高信頼且つ高速の音声認識を可能にするために、パワのあるコンピュータ上で動く専用音声認識器上で音声認識を実行することが賢明である。
【0003】
EP0872827は、音声認識方法及びシステムを開示している。音声認識用圧縮ソフトウェアが実行されるクライアントは、ネットワークを通じて音声認識サーバへ接続される。クライアントは、音声認識グラマ及び音声入力データを音声認識サーバへ送信する。音声認識サーバは、音声認識を実行し、認識結果をクライアントへ返す。
【0004】
冒頭段落に開示されたクライアント/サーバ音声認識システムにおける欠点は、HTML(Hyper−Text Markup−Language)ページは多くのユーザによって同時にアクセスされ、結果として起こる多くの音声入力によってフル荷重が掛かるため、音声認識は許容し得ない処理時間を要求することである。
【0005】
よって、本発明の目的は、音声入力の認識について高認識品質を保ちつつ、処理時間を許容し得るものとすることである。
【0006】
この目的は、クライアントが複数の音声認識器へ接続されることが可能であって、クライアントの入力された音声信号を認識する少なくとも1つの音声認識器との組み合わせを決定するために用いられる追加情報が情報ユニットに割り当てられることによって、実現される。
【0007】
クライアントは、例えばインターネットなどの通信ネットワークを通じて接続されたサーバから、情報ユニットをダウンロードする。この情報ユニットは、サーバ上に格納され、ユーザに音声入力の可能性を提供する。サーバは、その上にクライアントによって取り出され得る提供者からの情報を格納した、例えばインターネットなどの通信ネットワークにおけるコンピュータである。クライアントは、インターネットから情報を取り出し、ソフトウェアによって情報ユニットを表示するためにサーバ上に格納された該情報ユニットをダウンロードするコンピュータである。クライアントは計算力が限定されているため、音声認識はクライアント上では為されず、代わりに通信ネットワークを通じてクライアントに接続された音声認識器上で為される。クライアントと専用音声認識器とを組み合わせるために、サーバは、該サーバ上に格納された情報ユニットに追加情報を割り当てる。この追加情報は、情報ユニットと組み合わせられ、ダウンロード中にクライアントへ同時に転送される。該追加情報によって、情報ユニットには、このダウンロードされた情報ユニットに特化して調和された音声認識器が割り当てられ、この音声認識器が音声認識を実行する。
【0008】
追加情報は、例えば、テーマ分野、音声認識器の種類、若しくは音声認識器の完全利用などの所定の基準に従って、サーバによって発行される。結果として、専用音声認識器は、ダウンロードされた情報ユニット毎に選択され、高い品質及び短い処理時間を有する音声入力の音声認識を実行する。
【0009】
これは、期待されている語彙を知っている情報ユニットの提供者が、音声認識器を選択し、この音声認識器と上記情報ユニットとを組み合わせる、という利点を有する。音声入力の認識品質は、該提供者によって制御される音声認識器の割当によって大幅に向上させ得る。なぜなら、該提供者によってサーバ上に格納された個々の情報ユニットに関して常に同様の音声入力が予期され得るからである。ユーザによって決定された音声認識器に関しては、これら音声認識器は非常に幅広い用途分野からの音声入力を認識しなければならない。例えばウェブ・ブラウザなどの上記固定された音声認識器の接続に関して、音声認識器は、幅広いレンジの用途分野に対して十分に専用化されていないため、この固定された接続は、認識結果の品質に悪影響を与える。
【0010】
上記追加情報は、通信ネットワークにおける専用音声認識器のアドレスを含むことが好ましい。更に、該追加情報は、認識結果の適合に関する選択表示を含む。最も簡素な場合、認識結果は、クライアントに返され、そこでテキスト若しくは音声として生成される。それに加えて、上記追加情報は、用いられる音声認識器の種類が正確に指定された選択表示を含む。該追加情報は、更に、例えば、該音声入力に対して該音声認識器を適合させるための語彙若しくはパラメータを含み得ると共に、上記音声認識器に対する適合化を実行し得る。別のパラメータの任意的転送は、音声認識のスピード及び/若しくは品質を向上させる。
【0011】
本発明の有益な実施形態においては、分配器のアドレスが追加情報において示される。この分配器は、複数の音声認識器を制御する。例えば、同じ種類の複数の音声認識器、又は、数字若しくは「Yes/No」などの単純な発声の認識のみに供される音声認識器群、が一分配器に属する。追加情報によって指定された分配器は、複数のクライアントからの音声信号を、それらに対して有効な音声認識器へ割り当てる。結果として、音声入力のより迅速な処理が実現されるだけでなく、音声認識器への負荷を均一にすることができる。
【0012】
本発明の別の実施形態として、クライアントがサーバからHTMLページの形式で情報ユニットをダウンロードすることが提案される。これらHTMLページは、クライアント上でウェブ・ブラウザによって、若しくはそれらを表示するのに適した別のアプリケーションによって、示される。上記情報ユニットは、更に、ウェブ・ページとしても実現され得る。このHTMLページをダウンロードするために、クライアントは該HTMLページが格納されたサーバへの接続をセットアップする。ダウンロード中、データはHTMLコードの形式でクライアントへ送信される。このHTMLコードは、例えばHTMLタグとして実現される追加情報を含む。このダウンロードされたHTMLページは、ウェブ・ブラウザによって示され、ユーザは音声を入力し得る。同時に送信されたHTMLタグは、該音声入力を認識するために設けられた音声認識器を定義する。音声入力の認識のために、クライアントは、通信ネットワークを通じて、音声認識器への接続をセットアップする。音声入力は、音声認識器へ送信され、そこで認識され、認識結果が、例えばクライアントへ、返される。
【0013】
本発明の有益な実施形態において、複数のクライアントがHTMLページにアクセスする場合、個別のHTMLタグが各個別のクライアントに割り当てられる。このため、サーバは、複数のクライアントがアクセスするHTMLページ毎に異なる音声認識器のアドレスを割り当てる。これにより、一HTMLページに多くのアクセスがある場合に、複数の音声認識器が音声入力を処理することができ、よってより迅速な認識を可能にすることができる。異なるタイム・ゾーンからのユーザがアクセスを実行する場合、タイム・ゾーン毎に音声認識器が割り当てられ得る。前述の分配器が音声認識器を割り当てるのに用いられる場合であって、複数のクライアントが一HTMLページにアクセスし、且つ分配器によって制御される音声認識器が音声認識中の品質要求を満たさない場合、HTMLタグは異なる分配器のアドレスを示す。
【0014】
本発明の好ましい別の実施形態においては、音声入力は、クライアント上で追加ソフトウェアによって前処理される。この追加ソフトウェアは、音声入力に基づいたHTMLページがダウンロードされるときに個々のサーバからダウンロードされ得る。別の方法として、該追加ソフトウェアはウェブ・ブラウザにオプションとして統合されてもよく、クライアント上にローカルにインストールされてもよい。この追加ソフトウェアは、個々のHTMLページがダウンロードされ、ユーザが音声を入力し、音声入力の特徴が抽出されたときに、開始される。電気信号として有効な音声入力は、ディジタル化され、量子化され、特徴ベクトルへ割り当てられる成分を生成する個々の分析を受ける。クライアントがHTMLタグに書かれた音声認識器若しくは分配器への接続をセットアップすると、特徴ベクトルは、通信ネットワークを通じて、音声認識器若しくは分配器へ送信される。音声認識器は、計算集約認識を実行する。クライアント上で実行された特徴の抽出の結果として、音声入力は圧縮され、コード化されるため、送信されるべきデータ数が低減される。更に、クライアント側での特徴抽出に掛かる時間が低減されるため、音声認識器はそこに適用された特徴ベクトルの認識のみを行う。この低減は、頻繁に用いられる音声認識器にとって有益となり得る。
【0015】
本発明の別の実施形態において、認識結果がいかに用いられるべきであるかについて音声認識器若しくは分配器に伝達するHTMLタグ表示を与えることが提供される。これらの表示は、認識された音声入力がクライアントへ返されるか、若しくはサーバへ返されるかを決定し得る。サーバへ返される場合、例えば、別のHTMLページがサーバからクライアントへ送信され得る。クライアントへ返される認識結果は、更に、ある基準に従って認識されたテキストから導かれ得る。
【0016】
本発明は、更に、1以上の音声認識器へ接続され得るクライアントによって取り出され得る情報ユニットが格納されたサーバに関し、該情報ユニットには、クライアントと入力された音声信号を認識する音声認識器との間の組み合わせを確立するために、追加情報が割り当てられる。
【0017】
更に、本発明は、通信ネットワークを通じて1以上の音声認識機に接続されることが可能で、サーバ上に格納された情報ユニットを検索するために設けられたクライアントにも関し、該情報ユニットには、クライアントと入力された音声信号を認識する音声認識器との間の組み合わせを確立するために、追加情報が割り当てられる。
【0018】
本発明の実施形態の例は、図面を参照して、以下において更に説明される。
【0019】
図1は、音声認識方法を実施する装置を示す。クライアント1、2、及び3は、通信ネットワーク6を通じて、サーバ5へ接続されている。このサーバ5から、クライアント1、2、及び3は、HTMLページ4の形式で、情報ユニット4をダウンロードする。これらHTMLページ4は、ウェブ・ブラウザ13によって、クライアント1、2、及び3上に表示される。クライアント1〜3によってリクエストされたHTMLページ4は、サーバ5上に格納されている。サービス事業者がユーザに伝達したいと思っている情報ユニット4の内容は、HTMLコードによって、サーバ5からクライアント1、2、若しくは3へ送信される。このHTMLコード化されたデータ・ストリームは、表示されるべき内容に加えて、例えばHTMLタグ12の形式のフォーマット命令及び追加情報12を含む。
【0020】
表示されたHTMLページ4の内容必ずしも音声入力の内容につながっている必要はないが、HTMLページ4は、ユーザに、音声を入力する可能性を提供する。
【0021】
クライアントは、リンクを通じて個々のHTMLページを呼び出す若しくはリクエストするサーバ5への接続をセットアップする。クライアントへのHTMLページの送信に先立ち、サーバ5は、このHTMLページ4に、指定されたHTMLタグ12における専用音声認識器のアドレスを割り当てる。用いられる音声認識器18の種類や音声認識器の適合化についてのパラメータなどの他の詳細や認識結果についての詳細に関する割当は、要求されたようにHTMLタグへ割り当てられる。
【0022】
HTMLタグ12を含むHTMLページ4が読み出されると、追加ソフトウェア14が起動する。この追加ソフトウェア14は、電気信号として有効な音声入力の特徴の抽出を実行する。追加ソフトウェア14は、ウェブ・ブラウザ13の一部でもよく、クライアント1、2、若しくは3上にローカルにインストールされてもよい。
【0023】
クライアントは、HTMLタグ12にアドレスが示された音声認識器7、8、若しくは9への接続をセットアップする。この音声認識器は、追加ソフトウェア14によって生成された特徴ストリームを受信し、音声入力の音声認識を実行する。音声認識器7、8、若しくは9が音声入力を認識すると、それは音声認識器7、8、若しくは9からクライアント1、2、若しくは3へ返され、そこでテキスト若しくは音声として発行される。
【0024】
別の実施形態において、認識結果がいかに用いられるべきかが、HTMLタグ12における任意的成分を用いて、判断され得る。クライアント1〜3への返しに加えて、認識結果をサーバ5へ送信し、その後、別のHTMLページ4を例えばクライアント1〜3へ送信する(ライン16によって示される)可能性もある。例えば、クライアント1のユーザが、HTMLページ4として表示されている日刊新聞を読んでいる間、「現在の温度」と言ったとする。この音声入力は、次いで、音声認識を実行するために、HTMLタグ12において指定された音声認識器7〜9へ送信される。音声認識結果の利用に関する表示において、認識されたテキストは、クライアント1へ返されず、代わりにサーバ5へ返される。サーバ5は、次いで、クライアント1へ、テキストとして挿入されるか或いは音声として出力される現在の温度に関する表示を送信する。
【0025】
図2は、別の実施形態例を示す。各クライアント1〜3は、サーバ5から異なる内容のHTMLページ4をダウンロードする。これらHTMLページ4は、それぞれHTMLタグ12を有する。このHTMLタグ12は、分配器10のアドレス17を含む。分配器10のアドレス17に加えて、このHTMLラグ12は、更に、認識結果の利用、用いられるべき音声認識器18の種類、および/若しくはその適合を有する音声認識器に対するパラメータ、に関する詳細を含む。
【0026】
分配器10は、多様な音声認識器群を制御する。これら音声認識器は、更に、異なる種類であってもよい。群7は、種類Raの多様な音声認識器Ra,nを有する。群8は、別の種類Rbの音声認識器Rb,nを有する。種類Raの音声認識器Ra,nの群7は、例えば数字の認識に特化されている。種類Rbの音声認識器Rb,nの群8は、「Yes/No」の認識に特化されている。分配器10は、多様なクライアント1〜3からの到来音声入力を、個々のHTMLラグ12に書かれた音声認識器の種類に応じて、分配する。
【0027】
クライアント1及び2によって呼び出され、分配器10に割り当てられたHTMLページ4は、用いられるべき音声認識器18の種類に応じて、種類Raの音声認識器によって参照され得る。クライアント1及び2のユーザによって為された音声入力は、群7の分配器10によって、音声認識器Ra,nへ割り当てられる。クライアント3によって呼び出されたHTMLページ4は、音声認識器18に応じて、種類Rbの音声認識器を有する必要がある。クライアント3のユーザによって為された音声入力は、群8の分配器10によって、種類Rb,nの音声認識器へ割り当てられる。
【0028】
音声認識器Ra,1が音声入力の処理でビジー状態のとき、分配器10は同じ種類の音声認識器Raに対する次の音声入力を次の音声認識器Ra,2へ導く。ここの認識結果は、音声認識器R,nによってクライアント1〜3へ返され、そこで処理される。
【0029】
図3は、複数のクライアント1〜3が同じHTMLページ4にアクセスする場合を示す。HTMLページ4がウェブ・ブラウザ13によって表示される場合、それらは同じ内容を示す。
各HTMLタグ12は、アドレス・フィールド17に、IPアドレス、及び、クライアント1、2、若しくは3から音声認識器7、8、若しくは9へのTCP/IPリンク要のソケット・ポートを含む。このようにして、HTMLページ4のサービス事業者は、サーバ5における音声認識器7、8、若しくは9、すなわちユーザによって発せられた音声を処理するための音声認識器7、8、若しくは9、を決定する。クライアント1、2、若しくは3がインターネットを通じて個々のHTMLページ4を呼び出すたびに、HTMLページ4には、個々の音声認識器7、8、若しくは9のアドレス17を判断するHTMLタグ12がサーバ5によって割り当てられる。該HTMLページ4に対して単一の音声認識器7、8、若しくは9が固定的に規定されていると、HTMLページ4が同時に多数のクライアント1〜3によって呼び出された場合に多くの音声入力の迅速な処理が保証されない。よって、このような場合、個々のHTMLページ4を呼び出した各クライアント1、2、若しくは3には、HTMLタグ12毎に異なるアドレス17によって、別の音声認識器7、8、若しくは9が割り当てられる。例えば、音声認識器7は、HTMLページ4がクライアント1によってダウンロードされたときに、HTMLタグ12へ割り当てられる。音声認識器8は、音声入力の音声認識のために、クライアント2へ割り当てられ、音声認識器9は、クライアント3へ割り当てられる。これは、3人のユーザ全員に対する音声入力の迅速且つ高信頼な音声認識を実現する。
【0030】
音声認識器の特殊な割当の一適用例を以下に示す。クライアント1が演劇番組に関するHTMLページ4を呼び出す。クライアント2がサッカー番組に関するHTMLページ4を呼び出し、クライアント3が航空機の接続に関するHTMLページ4を呼び出す。これら3つのHTMLページ4すべてが異なる音声入力を有することは明らかである。HTMLページ4のサービス事業者は、期待される語彙を知っており、関連付けられたHTMLタグ12を用いて、各HTMLページ4に専用の音声認識器7、8、若しくは9を割り当てる。
【0031】
複数の音声入力が可能なHTMLページ4の場合、例えばフォームに記入するために、1以上のHTMLタグ12にも書かれた、異なる音声認識器7、8、若しくは9が個々の音声入力フィールドに割り当てられ得る。いずれの音声入力が現在処理されているかは、キーワードによって、ユーザの見ている方向を確立することによって、マウスがどれだけ近いかによって、又は、優先度若しくはシーケンシャル順によって、区別され得る。
【図面の簡単な説明】
【図1】 音声認識器の割当を概略的に示す図である。
【図2】 分配器を用いた場合の音声認識器の割当を概略的に示す図である。
【図3】 多くのクライアントのHTMLページへのアクセス及び音声認識器の割当を概略的に示す図である。
Claims (13)
- 通信ネットワークを通じて音声認識器に接続されることが可能なクライアントによって取り出され得、ユーザが音声を入力することを可能にする情報ユニットをサーバが記憶しており、
その情報ユニットについて入力された音声信号を認識する少なくとも1つの音声認識器とクライアントとの組み合わせを指定する追加情報を前記サーバが該情報ユニットに割り当てることを特徴とする方法。 - 請求項1記載の方法であって、
前記追加情報は、音声認識器を指定するアドレスに加えて、認識結果の処理及び/若しくは音声認識器の種類及び/若しくはその適合のために音声認識器へ転送されるべきパラメータに関する指標を含むことを特徴とする方法。 - 請求項1または2記載の方法であって、
前記追加情報は、クライアントによって前記情報ユニットが要求されたときに前記サーバによって前記情報ユニットへ割り当てられることを特徴とする方法。 - 請求項1乃至3のいずれか一記載の方法であって、
前記割り当てられた追加情報を有する情報ユニットは、クライアントによって読み出されることを特徴とする方法。 - 請求項1乃至4のいずれか一記載の方法であって、
入力音声信号は、認識のため、クライアントから、前記追加情報において示されたアドレスの音声認識器へ転送されることを特徴とする方法。 - 請求項1記載の方法であって、
前記追加情報は分配器のアドレスを含み、前記入力信号はそのアドレスにある分配器に運ばれ、その分配器によって複数の音声認識器の一に割り当てられることを特徴とする方法。 - 請求項1乃至6のいずれか一記載の方法であって、
前記情報ユニットは、HTMLページとして実現され、前記追加情報は、HTMLタグとして実現されることを特徴とする方法。 - 請求項1乃至7のいずれか一記載の方法であって、
一情報ユニットに異なるクライアントから複数のアクセスがある場合に、前記サーバは各クライアントに、前記追加情報において異なる音声認識器のアドレスを割り当てることを特徴とする方法。 - 請求項1乃至7のいずれか一記載の方法であって、
クライアントは、前記追加情報を含む前記情報ユニットが該クライアントにダウンロードされたときに起動し、該クライアントにおいて入力された音声信号の特徴を抽出する追加ソフトウェアを有することを特徴とする方法。 - 請求項9記載の方法であって、
音声信号に関する特徴の抽出中に生成された特徴ストリームは、前記追加情報において規定された、音声認識を実行し認識結果を前記追加情報に含まれる指標に応じてクライアントに返す音声認識器に適用されることを特徴とする方法。 - 請求項10記載の方法であって、
前記認識結果は、前記追加情報に含まれる指標に応じてサーバに送られることを特徴とする方法。 - 1以上の音声認識器に接続され得るクライアントによって検索されることが可能な情報ユニットが格納されたサーバであって、クライアントと前記情報ユニットについて入力音声信号を認識する音声認識器との間の組み合わせを指定する追加情報を前記情報ユニットに割り当てるよう構成されている、サーバ。
- 通信ネットワークを通じて1以上の音声認識器に接続されることが可能なクライアントであって、サーバ上に格納された情報ユニットであって、クライアントと前記情報ユニットについて入力音声信号を認識する音声認識器との間の組み合わせを指定する追加情報が割り当てられている情報ユニットを検索するように設けられるクライアント。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19910236.8 | 1999-03-09 | ||
DE19910236A DE19910236A1 (de) | 1999-03-09 | 1999-03-09 | Verfahren zur Spracherkennung |
PCT/EP2000/001143 WO2000054251A2 (en) | 1999-03-09 | 2000-02-10 | Method of speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002539480A JP2002539480A (ja) | 2002-11-19 |
JP4597383B2 true JP4597383B2 (ja) | 2010-12-15 |
Family
ID=7900179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000604399A Expired - Lifetime JP4597383B2 (ja) | 1999-03-09 | 2000-02-10 | 音声認識方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US6757655B1 (ja) |
EP (1) | EP1163661B1 (ja) |
JP (1) | JP4597383B2 (ja) |
KR (1) | KR20020003865A (ja) |
CN (1) | CN1343351A (ja) |
AT (1) | ATE257616T1 (ja) |
AU (1) | AU3153700A (ja) |
DE (2) | DE19910236A1 (ja) |
WO (1) | WO2000054251A2 (ja) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9911971D0 (en) * | 1999-05-21 | 1999-07-21 | Canon Kk | A system, a server for a system and a machine for use in a system |
US7330815B1 (en) | 1999-10-04 | 2008-02-12 | Globalenglish Corporation | Method and system for network-based speech recognition |
US6931376B2 (en) * | 2000-07-20 | 2005-08-16 | Microsoft Corporation | Speech-related event notification system |
FI20001918A (fi) * | 2000-08-30 | 2002-03-01 | Nokia Corp | Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä |
EP1376418B1 (en) * | 2000-08-31 | 2006-12-27 | Hitachi, Ltd. | Service mediating apparatus |
EP1377965A1 (en) * | 2000-09-07 | 2004-01-07 | Koninklijke Philips Electronics N.V. | Voice control and uploadable user control information |
JP2002116796A (ja) * | 2000-10-11 | 2002-04-19 | Canon Inc | 音声処理装置、音声処理方法及び記憶媒体 |
JP3326424B2 (ja) | 2000-10-23 | 2002-09-24 | 株式会社ジー・エフ | 電話応答装置、及び電話応答装置で実現する各種の応答機能を記述した各手順ファイルを取得して電話応答する方法 |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7133829B2 (en) * | 2001-10-31 | 2006-11-07 | Dictaphone Corporation | Dynamic insertion of a speech recognition engine within a distributed speech recognition system |
US7146321B2 (en) * | 2001-10-31 | 2006-12-05 | Dictaphone Corporation | Distributed speech recognition system |
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
US7292975B2 (en) * | 2002-05-01 | 2007-11-06 | Nuance Communications, Inc. | Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription |
US7260535B2 (en) * | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US7571102B2 (en) * | 2003-04-29 | 2009-08-04 | Ford Motor Company | Controller for use with a motor vehicle |
US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
JP2005031758A (ja) * | 2003-07-07 | 2005-02-03 | Canon Inc | 音声処理装置及び方法 |
US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
ATE373380T1 (de) * | 2004-05-18 | 2007-09-15 | Alcatel Lucent | Verfahren und server zur bereitstellung eines multi-modalen dialogs |
KR100695127B1 (ko) | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
GB2424560B (en) * | 2005-02-15 | 2009-04-29 | David Llewellyn Rees | User interface for systems with automatic conversion from text to an acoustic representation |
CA2618623C (en) * | 2005-08-09 | 2015-01-06 | Mobilevoicecontrol, Inc. | Control center for a voice controlled wireless communication device system |
US8032372B1 (en) | 2005-09-13 | 2011-10-04 | Escription, Inc. | Dictation selection |
CN101326571B (zh) * | 2005-12-07 | 2012-05-23 | 三菱电机株式会社 | 声音识别装置 |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8886540B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8949130B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US8996379B2 (en) | 2007-03-07 | 2015-03-31 | Vlingo Corporation | Speech recognition text entry for software applications |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US20080228493A1 (en) * | 2007-03-12 | 2008-09-18 | Chih-Lin Hu | Determining voice commands with cooperative voice recognition |
US8180641B2 (en) * | 2008-09-29 | 2012-05-15 | Microsoft Corporation | Sequential speech recognition with two unequal ASR systems |
TWI411981B (zh) * | 2008-11-10 | 2013-10-11 | Inventec Corp | 提供真人引導發音之語言學習系統、伺服器及其方法 |
US8515762B2 (en) * | 2009-01-22 | 2013-08-20 | Microsoft Corporation | Markup language-based selection and utilization of recognizers for utterance processing |
US8346549B2 (en) | 2009-12-04 | 2013-01-01 | At&T Intellectual Property I, L.P. | System and method for supplemental speech recognition by identified idle resources |
CN102571882A (zh) * | 2010-12-31 | 2012-07-11 | 上海博泰悦臻电子设备制造有限公司 | 基于网络的语音提醒的方法和系统 |
EP2678861B1 (en) * | 2011-02-22 | 2018-07-11 | Speak With Me, Inc. | Hybridized client-server speech recognition |
JP5637131B2 (ja) * | 2011-12-26 | 2014-12-10 | 株式会社デンソー | 音声認識装置 |
JP6050171B2 (ja) * | 2013-03-28 | 2016-12-21 | 日本電気株式会社 | 認識処理制御装置、認識処理制御方法および認識処理制御プログラム |
FR3045909B1 (fr) * | 2015-12-17 | 2017-12-29 | Delta Dore | Procede et dispositif d'analyse et de repartition de commandes vocales |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
CN110444196B (zh) * | 2018-05-10 | 2023-04-07 | 腾讯科技(北京)有限公司 | 基于同声传译的数据处理方法、装置、系统和存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2818362B2 (ja) * | 1992-09-21 | 1998-10-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識装置のコンテキスト切換えシステムおよび方法 |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
JPH0863478A (ja) | 1994-08-26 | 1996-03-08 | Toshiba Corp | 言語処理方法及び言語処理装置 |
US5745776A (en) * | 1995-04-19 | 1998-04-28 | Sheppard, Ii; Charles Bradford | Enhanced electronic dictionary |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5710918A (en) * | 1995-06-07 | 1998-01-20 | International Business Machines Corporation | Method for distributed task fulfillment of web browser requests |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
JPH10177468A (ja) * | 1996-12-16 | 1998-06-30 | Casio Comput Co Ltd | 移動端末音声認識/データベース検索通信システム |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US6122613A (en) | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US6173259B1 (en) * | 1997-03-27 | 2001-01-09 | Speech Machines Plc | Speech to text conversion |
GB2323693B (en) | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
US5884266A (en) * | 1997-04-02 | 1999-03-16 | Motorola, Inc. | Audio interface for document based information resource navigation and method therefor |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US6112176A (en) * | 1997-05-16 | 2000-08-29 | Compaq Computer Corporation | Speech data collection over the world wide web |
US6157705A (en) * | 1997-12-05 | 2000-12-05 | E*Trade Group, Inc. | Voice control of a server |
US6233559B1 (en) * | 1998-04-01 | 2001-05-15 | Motorola, Inc. | Speech control of multiple applications using applets |
US6115686A (en) * | 1998-04-02 | 2000-09-05 | Industrial Technology Research Institute | Hyper text mark up language document to speech converter |
GB2343777B (en) * | 1998-11-13 | 2003-07-02 | Motorola Ltd | Mitigating errors in a distributed speech recognition process |
-
1999
- 1999-03-09 DE DE19910236A patent/DE19910236A1/de not_active Withdrawn
- 1999-08-27 US US09/385,634 patent/US6757655B1/en not_active Expired - Lifetime
-
2000
- 2000-02-10 EP EP00909156A patent/EP1163661B1/en not_active Expired - Lifetime
- 2000-02-10 KR KR1020017011365A patent/KR20020003865A/ko not_active Application Discontinuation
- 2000-02-10 AU AU31537/00A patent/AU3153700A/en not_active Abandoned
- 2000-02-10 DE DE2000607620 patent/DE60007620T2/de not_active Expired - Lifetime
- 2000-02-10 JP JP2000604399A patent/JP4597383B2/ja not_active Expired - Lifetime
- 2000-02-10 AT AT00909156T patent/ATE257616T1/de not_active IP Right Cessation
- 2000-02-10 WO PCT/EP2000/001143 patent/WO2000054251A2/en not_active Application Discontinuation
- 2000-02-10 CN CN00804827A patent/CN1343351A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
AU3153700A (en) | 2000-09-28 |
JP2002539480A (ja) | 2002-11-19 |
CN1343351A (zh) | 2002-04-03 |
WO2000054251A3 (en) | 2000-12-28 |
DE60007620D1 (de) | 2004-02-12 |
ATE257616T1 (de) | 2004-01-15 |
EP1163661B1 (en) | 2004-01-07 |
WO2000054251A2 (en) | 2000-09-14 |
KR20020003865A (ko) | 2002-01-15 |
DE19910236A1 (de) | 2000-09-21 |
US6757655B1 (en) | 2004-06-29 |
EP1163661A2 (en) | 2001-12-19 |
DE60007620T2 (de) | 2004-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4597383B2 (ja) | 音声認識方法 | |
US9819744B1 (en) | Multi-modal communication | |
US7003464B2 (en) | Dialog recognition and control in a voice browser | |
US7016848B2 (en) | Voice site personality setting | |
US20080133215A1 (en) | Method and system of interpreting and presenting web content using a voice browser | |
US20100005187A1 (en) | Enhanced Streaming Operations in Distributed Communication Systems | |
US20070143307A1 (en) | Communication system employing a context engine | |
US20110282672A1 (en) | Distributed voice browser | |
MX2007013015A (es) | Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. | |
EP1139335B1 (en) | Voice browser system | |
WO2000054252A2 (en) | Method with a plurality of speech recognizers | |
JP3141833B2 (ja) | ネットワークアクセスシステム | |
GB2330429A (en) | Data stream enhancement | |
US20020188698A1 (en) | Method and apparatus to retrieve information in a network | |
JP2002132646A (ja) | コンテンツインタポレーティングウェブプロキシサーバ | |
CN1489856A (zh) | 具有交互式语音功能的通信系统用的通信装置和方法 | |
JP2002245078A (ja) | 音声利用型情報検索装置および音声利用型情報検索プログラムと該プログラムを記録した記録媒体 | |
US20030236666A1 (en) | System for accessing a database using human speech | |
CN1868203A (zh) | 具有应用传送标记的语音标记语言及其翻译器 | |
TW479429B (en) | System and method for distributing telephone audio data via a computer network | |
JP2000138757A (ja) | ボイス・メ―ル・システム | |
EP1192530A1 (en) | Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units. | |
JP2003271376A (ja) | 情報提供システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100112 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100409 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100416 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100831 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100922 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4597383 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131001 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |