JP2002539480A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JP2002539480A JP2002539480A JP2000604399A JP2000604399A JP2002539480A JP 2002539480 A JP2002539480 A JP 2002539480A JP 2000604399 A JP2000604399 A JP 2000604399A JP 2000604399 A JP2000604399 A JP 2000604399A JP 2002539480 A JP2002539480 A JP 2002539480A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- client
- speech recognizer
- html
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000004891 communication Methods 0.000 claims abstract description 14
- 230000006978 adaptation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer And Data Communications (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
- Electric Clocks (AREA)
- Navigation (AREA)
Abstract
Description
信ネットワークを通じて音声認識器に接続されることが可能なクライアントによ
って取り出され得る方法に関する。
を実行する可能性は、ユーザにコンピュータでの作業を楽にさせると共に、入力
スピードもしばしば向上させる。音声認識は、近年キーボードによって入力され
てきた多くの分野において、用いられ得る。この論点は、ほとんどの様々な性質
を有し得ることは明らかである。他方、音声認識中、計算力上に厳しい要求が作
られ、これはしばしばローカル・コンピュータ(クライアント)上では十分に使
用可能ではない。特に多くの語彙を有する話者から独立した音声認識にとって、
クライアントの計算力はしばしば不十分である。音声入力の高信頼且つ高速の音
声認識を可能にするために、パワのあるコンピュータ上で動く専用音声認識器上
で音声認識を実行することが賢明である。
用圧縮ソフトウェアが実行されるクライアントは、ネットワークを通じて音声認
識サーバへ接続される。クライアントは、音声認識グラマ及び音声入力データを
音声認識サーバへ送信する。音声認識サーバは、音声認識を実行し、認識結果を
クライアントへ返す。
、HTML(Hyper−Text Markup−Language)ページ
は多くのユーザによって同時にアクセスされ、結果として起こる多くの音声入力
によってフル荷重が掛かるため、音声認識は許容し得ない処理時間を要求するこ
とである。
理時間を許容し得るものとすることである。
て、クライアントの入力された音声信号を認識する少なくとも1つの音声認識器
との組み合わせを決定するために用いられる追加情報が情報ユニットに割り当て
られることによって、実現される。
されたサーバから、情報ユニットをダウンロードする。この情報ユニットは、サ
ーバ上に格納され、ユーザに音声入力の可能性を提供する。サーバは、その上に
クライアントによって取り出され得る提供者からの情報を格納した、例えばイン
ターネットなどの通信ネットワークにおけるコンピュータである。クライアント
は、インターネットから情報を取り出し、ソフトウェアによって情報ユニットを
表示するためにサーバ上に格納された該情報ユニットをダウンロードするコンピ
ュータである。クライアントは計算力が限定されているため、音声認識はクライ
アント上では為されず、代わりに通信ネットワークを通じてクライアントに接続
された音声認識器上で為される。クライアントと専用音声認識器とを組み合わせ
るために、サーバは、該サーバ上に格納された情報ユニットに追加情報を割り当
てる。この追加情報は、情報ユニットと組み合わせられ、ダウンロード中にクラ
イアントへ同時に転送される。該追加情報によって、情報ユニットには、このダ
ウンロードされた情報ユニットに特化して調和された音声認識器が割り当てられ
、この音声認識器が音声認識を実行する。
完全利用などの所定の基準に従って、サーバによって発行される。結果として、
専用音声認識器は、ダウンロードされた情報ユニット毎に選択され、高い品質及
び短い処理時間を有する音声入力の音声認識を実行する。
器を選択し、この音声認識器と上記情報ユニットとを組み合わせる、という利点
を有する。音声入力の認識品質は、該提供者によって制御される音声認識器の割
当によって大幅に向上させ得る。なぜなら、該提供者によってサーバ上に格納さ
れた個々の情報ユニットに関して常に同様の音声入力が予期され得るからである
。ユーザによって決定された音声認識器に関しては、これら音声認識器は非常に
幅広い用途分野からの音声入力を認識しなければならない。例えばウェブ・ブラ
ウザなどの上記固定された音声認識器の接続に関して、音声認識器は、幅広いレ
ンジの用途分野に対して十分に専用化されていないため、この固定された接続は
、認識結果の品質に悪影響を与える。
ことが好ましい。更に、該追加情報は、認識結果の適合に関する選択表示を含む
。最も簡素な場合、認識結果は、クライアントに返され、そこでテキスト若しく
は音声として生成される。それに加えて、上記追加情報は、用いられる音声認識
器の種類が正確に指定された選択表示を含む。該追加情報は、更に、例えば、該
音声入力に対して該音声認識器を適合させるための語彙若しくはパラメータを含
み得ると共に、上記音声認識器に対する適合化を実行し得る。別のパラメータの
任意的転送は、音声認識のスピード及び/若しくは品質を向上させる。
される。この分配器は、複数の音声認識器を制御する。例えば、同じ種類の複数
の音声認識器、又は、数字若しくは「Yes/No」などの単純な発声の認識の
みに供される音声認識器群、が一分配器に属する。追加情報によって指定された
分配器は、複数のクライアントからの音声信号を、それらに対して有効な音声認
識器へ割り当てる。結果として、音声入力のより迅速な処理が実現されるだけで
なく、音声認識器への負荷を均一にすることができる。
式で情報ユニットをダウンロードすることが提案される。これらHTMLページ
は、クライアント上でウェブ・ブラウザによって、若しくはそれらを表示するの
に適した別のアプリケーションによって、示される。上記情報ユニットは、更に
、ウェブ・ページとしても実現され得る。このHTMLページをダウンロードす
るために、クライアントは該HTMLページが格納されたサーバへの接続をセッ
トアップする。ダウンロード中、データはHTMLコードの形式でクライアント
へ送信される。このHTMLコードは、例えばHTMLタグとして実現される追
加情報を含む。このダウンロードされたHTMLページは、ウェブ・ブラウザに
よって示され、ユーザは音声を入力し得る。同時に送信されたHTMLタグは、
該音声入力を認識するために設けられた音声認識器を定義する。音声入力の認識
のために、クライアントは、通信ネットワークを通じて、音声認識器への接続を
セットアップする。音声入力は、音声認識器へ送信され、そこで認識され、認識
結果が、例えばクライアントへ、返される。
クセスする場合、個別のHTMLタグが各個別のクライアントに割り当てられる
。このため、サーバは、複数のクライアントがアクセスするHTMLページ毎に
異なる音声認識器のアドレスを割り当てる。これにより、一HTMLページに多
くのアクセスがある場合に、複数の音声認識器が音声入力を処理することができ
、よってより迅速な認識を可能にすることができる。異なるタイム・ゾーンから
のユーザがアクセスを実行する場合、タイム・ゾーン毎に音声認識器が割り当て
られ得る。前述の分配器が音声認識器を割り当てるのに用いられる場合であって
、複数のクライアントが一HTMLページにアクセスし、且つ分配器によって制
御される音声認識器が音声認識中の品質要求を満たさない場合、HTMLタグは
異なる分配器のアドレスを示す。
加ソフトウェアによって前処理される。この追加ソフトウェアは、音声入力に基
づいたHTMLページがダウンロードされるときに個々のサーバからダウンロー
ドされ得る。別の方法として、該追加ソフトウェアはウェブ・ブラウザにオプシ
ョンとして統合されてもよく、クライアント上にローカルにインストールされて
もよい。この追加ソフトウェアは、個々のHTMLページがダウンロードされ、
ユーザが音声を入力し、音声入力の特徴が抽出されたときに、開始される。電気
信号として有効な音声入力は、ディジタル化され、量子化され、特徴ベクトルへ
割り当てられる成分を生成する個々の分析を受ける。クライアントがHTMLタ
グに書かれた音声認識器若しくは分配器への接続をセットアップすると、特徴ベ
クトルは、通信ネットワークを通じて、音声認識器若しくは分配器へ送信される
。音声認識器は、計算集約認識を実行する。クライアント上で実行された特徴の
抽出の結果として、音声入力は圧縮され、コード化されるため、送信されるべき
データ数が低減される。更に、クライアント側での特徴抽出に掛かる時間が低減
されるため、音声認識器はそこに適用された特徴ベクトルの認識のみを行う。こ
の低減は、頻繁に用いられる音声認識器にとって有益となり得る。
ついて音声認識器若しくは分配器に伝達するHTMLタグ表示を与えることが提
供される。これらの表示は、認識された音声入力がクライアントへ返されるか、
若しくはサーバへ返されるかを決定し得る。サーバへ返される場合、例えば、別
のHTMLページがサーバからクライアントへ送信され得る。クライアントへ返
される認識結果は、更に、ある基準に従って認識されたテキストから導かれ得る
。
り出され得る情報ユニットが格納されたサーバに関し、該情報ユニットには、ク
ライアントと入力された音声信号を認識する音声認識器との間の組み合わせを確
立するために、追加情報が割り当てられる。
ことが可能で、サーバ上に格納された情報ユニットを検索するために設けられた
クライアントにも関し、該情報ユニットには、クライアントと入力された音声信
号を認識する音声認識器との間の組み合わせを確立するために、追加情報が割り
当てられる。
、通信ネットワーク6を通じて、サーバ5へ接続されている。このサーバ5から
、クライアント1、2、及び3は、HTMLページ4の形式で、情報ユニット4
をダウンロードする。これらHTMLページ4は、ウェブ・ブラウザ13によっ
て、クライアント1、2、及び3上に表示される。クライアント1〜3によって
リクエストされたHTMLページ4は、サーバ5上に格納されている。サービス
事業者がユーザに伝達したいと思っている情報ユニット4の内容は、HTMLコ
ードによって、サーバ5からクライアント1、2、若しくは3へ送信される。こ
のHTMLコード化されたデータ・ストリームは、表示されるべき内容に加えて
、例えばHTMLタグ12の形式のフォーマット命令及び追加情報12を含む。
必要はないが、HTMLページ4は、ユーザに、音声を入力する可能性を提供す
る。
クエストするサーバ5への接続をセットアップする。クライアントへのHTML
ページの送信に先立ち、サーバ5は、このHTMLページ4に、指定されたHT
MLタグ12における専用音声認識器のアドレスを割り当てる。用いられる音声
認識器18の種類や音声認識器の適合化についてのパラメータなどの他の詳細や
認識結果についての詳細に関する割当は、要求されたようにHTMLタグへ割り
当てられる。
ア14が起動する。この追加ソフトウェア14は、電気信号として有効な音声入
力の特徴の抽出を実行する。追加ソフトウェア14は、ウェブ・ブラウザ13の
一部でもよく、クライアント1、2、若しくは3上にローカルにインストールさ
れてもよい。
若しくは9への接続をセットアップする。この音声認識器は、追加ソフトウェア
14によって生成された特徴ストリームを受信し、音声入力の音声認識を実行す
る。音声認識器7、8、若しくは9が音声入力を認識すると、それは音声認識器
7、8、若しくは9からクライアント1、2、若しくは3へ返され、そこでテキ
スト若しくは音声として発行される。
12における任意的成分を用いて、判断され得る。クライアント1〜3への返し
に加えて、認識結果をサーバ5へ送信し、その後、別のHTMLページ4を例え
ばクライアント1〜3へ送信する(ライン16によって示される)可能性もある
。例えば、クライアント1のユーザが、HTMLページ4として表示されている
日刊新聞を読んでいる間、「現在の温度」と言ったとする。この音声入力は、次
いで、音声認識を実行するために、HTMLタグ12において指定された音声認
識器7〜9へ送信される。音声認識結果の利用に関する表示において、認識され
たテキストは、クライアント1へ返されず、代わりにサーバ5へ返される。サー
バ5は、次いで、クライアント1へ、テキストとして挿入されるか或いは音声と
して出力される現在の温度に関する表示を送信する。
る内容のHTMLページ4をダウンロードする。これらHTMLページ4は、そ
れぞれHTMLタグ12を有する。このHTMLタグ12は、分配器10のアド
レス17を含む。分配器10のアドレス17に加えて、このHTMLラグ12は
、更に、認識結果の利用、用いられるべき音声認識器18の種類、および/若し
くはその適合を有する音声認識器に対するパラメータ、に関する詳細を含む。
異なる種類であってもよい。群7は、種類Raの多様な音声認識器Ra,nを有
する。群8は、別の種類Rbの音声認識器Rb,nを有する。種類Raの音声認
識器Ra,nの群7は、例えば数字の認識に特化されている。種類Rbの音声認
識器Rb,nの群8は、「Yes/No」の認識に特化されている。分配器10
は、多様なクライアント1〜3からの到来音声入力を、個々のHTMLラグ12
に書かれた音声認識器の種類に応じて、分配する。
MLページ4は、用いられるべき音声認識器18の種類に応じて、種類Raの音
声認識器によって参照され得る。クライアント1及び2のユーザによって為され
た音声入力は、群7の分配器10によって、音声認識器Ra,nへ割り当てられ
る。クライアント3によって呼び出されたHTMLページ4は、音声認識器18
に応じて、種類Rbの音声認識器を有する必要がある。クライアント3のユーザ
によって為された音声入力は、群8の分配器10によって、種類Rb,nの音声
認識器へ割り当てられる。
種類の音声認識器Raに対する次の音声入力を次の音声認識器Ra,2へ導く。
ここの認識結果は、音声認識器R,nによってクライアント1〜3へ返され、そ
こで処理される。
合を示す。HTMLページ4がウェブ・ブラウザ13によって表示される場合、
それらは同じ内容を示す。 各HTMLタグ12は、アドレス・フィールド17に、IPアドレス、及び、ク
ライアント1、2、若しくは3から音声認識器7、8、若しくは9へのTCP/
IPリンク要のソケット・ポートを含む。このようにして、HTMLページ4の
サービス事業者は、サーバ5における音声認識器7、8、若しくは9、すなわち
ユーザによって発せられた音声を処理するための音声認識器7、8、若しくは9
、を決定する。クライアント1、2、若しくは3がインターネットを通じて個々
のHTMLページ4を呼び出すたびに、HTMLページ4には、個々の音声認識
器7、8、若しくは9のアドレス17を判断するHTMLタグ12がサーバ5に
よって割り当てられる。該HTMLページ4に対して単一の音声認識器7、8、
若しくは9が固定的に規定されていると、HTMLページ4が同時に多数のクラ
イアント1〜3によって呼び出された場合に多くの音声入力の迅速な処理が保証
されない。よって、このような場合、個々のHTMLページ4を呼び出した各ク
ライアント1、2、若しくは3には、HTMLタグ12毎に異なるアドレス17
によって、別の音声認識器7、8、若しくは9が割り当てられる。例えば、音声
認識器7は、HTMLページ4がクライアント1によってダウンロードされたと
きに、HTMLタグ12へ割り当てられる。音声認識器8は、音声入力の音声認
識のために、クライアント2へ割り当てられ、音声認識器9は、クライアント3
へ割り当てられる。これは、3人のユーザ全員に対する音声入力の迅速且つ高信
頼な音声認識を実現する。
に関するHTMLページ4を呼び出す。クライアント2がサッカー番組に関する
HTMLページ4を呼び出し、クライアント3が航空機の接続に関するHTML
ページ4を呼び出す。これら3つのHTMLページ4すべてが異なる音声入力を
有することは明らかである。HTMLページ4のサービス事業者は、期待される
語彙を知っており、関連付けられたHTMLタグ12を用いて、各HTMLペー
ジ4に専用の音声認識器7、8、若しくは9を割り当てる。
ために、1以上のHTMLタグ12にも書かれた、異なる音声認識器7、8、若
しくは9が個々の音声入力フィールドに割り当てられ得る。いずれの音声入力が
現在処理されているかは、キーワードによって、ユーザの見ている方向を確立す
ることによって、マウスがどれだけ近いかによって、又は、優先度若しくはシー
ケンシャル順によって、区別され得る。
略的に示す図である。
Claims (13)
- 【請求項1】 音声入力可能な情報ユニットが、サーバ上に格納されると共
に、通信ネットワークを通じて音声認識器に接続されることが可能なクライアン
トによって取り出され得る方法において、 入力された信号を認識する少なくとも1つの音声認識器とクライアントとの組
み合わせを決定するために用いられる追加情報が該情報ユニットに割り当てられ
ることを特徴とする方法。 - 【請求項2】 請求項1記載の方法であって、 前記追加情報は、音声認識器を指定するアドレスに加えて、認識結果の処理及
び/若しくは音声認識器の種類及び/若しくはその適合のために音声認識器へ転
送されるべきパラメータに関する表示を含むことを特徴とする方法。 - 【請求項3】 請求項1記載の方法であって、 前記追加情報は、サーバによって前記情報ユニットへ割り当てられることを特
徴とする方法。 - 【請求項4】 請求項1記載の方法であって、 前記割り当てられた追加情報を有する情報ユニットは、クライアントによって
読み出されることを特徴とする方法。 - 【請求項5】 請求項1乃至4のいずれか一記載の方法であって、 入力音声信号は、認識のため、クライアントから、前記追加情報において示さ
れたアドレスの音声認識器へ転送されることを特徴とする方法。 - 【請求項6】 請求項1記載の方法であって、 前記追加情報は、入力音声信号が運ばれる分配器のアドレスを含み、複数の音
声認識器の一へ割り当てられることを特徴とする方法。 - 【請求項7】 請求項1記載の方法であって、 前記情報ユニットは、HTMLページとして実現され、前記追加情報は、HT
MLタグとして実現されることを特徴とする方法。 - 【請求項8】 請求項1乃至7のいずれか一記載の方法であって、 一HTMLページに異なるクライアントから複数のアクセスがある場合に、各
クライアントには、HTMLタグにおいて音声認識器の多様なアドレスが割り当
てられることを特徴とする方法。 - 【請求項9】 請求項1乃至7のいずれか一記載の方法であって、 クライアントは、HTMLタグを含むHTMLページがダウンロードされたと
きに起動し、該クライアントに適用された音声信号の特徴を抽出する追加ソフト
ウェアを有することを特徴とする方法。 - 【請求項10】 請求項1乃至9のいずれか一記載の方法であって、 音声信号に関する特徴の抽出中に生成された特徴ストリームは、HTMLタグ
において規定された、音声認識を実行し、認識結果をHTMLタグに含まれる表
示に応じてクライアントに返す音声認識器へ適用されることを特徴とする方法。 - 【請求項11】 請求項10記載の方法であって、 前記認識結果は、HTMLタグに含まれる表示に応じてサーバへ返されること
を特徴とする方法。 - 【請求項12】 1以上の音声認識器に接続され得るクライアントによって
検索されることが可能であって、クライアントと入力音声信号を認識する音声認
識器との間の組み合わせを決定する追加情報が割り当てられる情報ユニットが格
納されたサーバ。 - 【請求項13】 通信ネットワークを通じて1以上の音声認識器へ接続され
ることが可能であって、サーバ上に格納され、クライアントと入力音声信号を認
識する音声認識器との間の組み合わせを決定する追加情報が割り当てられる情報
ユニットを検索するように設けられるクライアント。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19910236A DE19910236A1 (de) | 1999-03-09 | 1999-03-09 | Verfahren zur Spracherkennung |
DE19910236.8 | 1999-03-09 | ||
PCT/EP2000/001143 WO2000054251A2 (en) | 1999-03-09 | 2000-02-10 | Method of speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002539480A true JP2002539480A (ja) | 2002-11-19 |
JP4597383B2 JP4597383B2 (ja) | 2010-12-15 |
Family
ID=7900179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000604399A Expired - Lifetime JP4597383B2 (ja) | 1999-03-09 | 2000-02-10 | 音声認識方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US6757655B1 (ja) |
EP (1) | EP1163661B1 (ja) |
JP (1) | JP4597383B2 (ja) |
KR (1) | KR20020003865A (ja) |
CN (1) | CN1343351A (ja) |
AT (1) | ATE257616T1 (ja) |
AU (1) | AU3153700A (ja) |
DE (2) | DE19910236A1 (ja) |
WO (1) | WO2000054251A2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012515946A (ja) * | 2009-01-22 | 2012-07-12 | マイクロソフト コーポレーション | 発話処理のための認識器のマークアップ言語ベースの選択及び利用 |
JP2014510942A (ja) * | 2011-02-22 | 2014-05-01 | スピーク・ウィズ・ミー・インコーポレイテッド | ハイブリッド型クライアントサーバ音声認識 |
JP2014191246A (ja) * | 2013-03-28 | 2014-10-06 | Nec Corp | 認識処理制御装置、認識処理制御方法および認識処理制御プログラム |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9911971D0 (en) * | 1999-05-21 | 1999-07-21 | Canon Kk | A system, a server for a system and a machine for use in a system |
US7330815B1 (en) | 1999-10-04 | 2008-02-12 | Globalenglish Corporation | Method and system for network-based speech recognition |
US6931376B2 (en) * | 2000-07-20 | 2005-08-16 | Microsoft Corporation | Speech-related event notification system |
FI20001918A (fi) * | 2000-08-30 | 2002-03-01 | Nokia Corp | Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä |
DE60125597T2 (de) * | 2000-08-31 | 2007-05-03 | Hitachi, Ltd. | Vorrichtung für die Dienstleistungsvermittlung |
EP1377965A1 (en) * | 2000-09-07 | 2004-01-07 | Koninklijke Philips Electronics N.V. | Voice control and uploadable user control information |
JP2002116796A (ja) * | 2000-10-11 | 2002-04-19 | Canon Inc | 音声処理装置、音声処理方法及び記憶媒体 |
JP3326424B2 (ja) | 2000-10-23 | 2002-09-24 | 株式会社ジー・エフ | 電話応答装置、及び電話応答装置で実現する各種の応答機能を記述した各手順ファイルを取得して電話応答する方法 |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US7146321B2 (en) * | 2001-10-31 | 2006-12-05 | Dictaphone Corporation | Distributed speech recognition system |
US7133829B2 (en) * | 2001-10-31 | 2006-11-07 | Dictaphone Corporation | Dynamic insertion of a speech recognition engine within a distributed speech recognition system |
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
US7292975B2 (en) * | 2002-05-01 | 2007-11-06 | Nuance Communications, Inc. | Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription |
US7260535B2 (en) * | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US7571102B2 (en) * | 2003-04-29 | 2009-08-04 | Ford Motor Company | Controller for use with a motor vehicle |
US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
JP2005031758A (ja) * | 2003-07-07 | 2005-02-03 | Canon Inc | 音声処理装置及び方法 |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
ATE373380T1 (de) * | 2004-05-18 | 2007-09-15 | Alcatel Lucent | Verfahren und server zur bereitstellung eines multi-modalen dialogs |
KR100695127B1 (ko) | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
GB2424560B (en) * | 2005-02-15 | 2009-04-29 | David Llewellyn Rees | User interface for systems with automatic conversion from text to an acoustic representation |
CA2618626C (en) * | 2005-08-09 | 2016-10-18 | Stephen S. Burns | A voice controlled wireless communication device system |
US8032372B1 (en) | 2005-09-13 | 2011-10-04 | Escription, Inc. | Dictation selection |
CN101326571B (zh) * | 2005-12-07 | 2012-05-23 | 三菱电机株式会社 | 声音识别装置 |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8949130B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8886540B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8996379B2 (en) | 2007-03-07 | 2015-03-31 | Vlingo Corporation | Speech recognition text entry for software applications |
US20080228493A1 (en) * | 2007-03-12 | 2008-09-18 | Chih-Lin Hu | Determining voice commands with cooperative voice recognition |
US8180641B2 (en) * | 2008-09-29 | 2012-05-15 | Microsoft Corporation | Sequential speech recognition with two unequal ASR systems |
TWI411981B (zh) * | 2008-11-10 | 2013-10-11 | Inventec Corp | 提供真人引導發音之語言學習系統、伺服器及其方法 |
US8346549B2 (en) | 2009-12-04 | 2013-01-01 | At&T Intellectual Property I, L.P. | System and method for supplemental speech recognition by identified idle resources |
CN102571882A (zh) * | 2010-12-31 | 2012-07-11 | 上海博泰悦臻电子设备制造有限公司 | 基于网络的语音提醒的方法和系统 |
JP5637131B2 (ja) * | 2011-12-26 | 2014-12-10 | 株式会社デンソー | 音声認識装置 |
FR3045909B1 (fr) * | 2015-12-17 | 2017-12-29 | Delta Dore | Procede et dispositif d'analyse et de repartition de commandes vocales |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
CN108615527B (zh) * | 2018-05-10 | 2021-10-15 | 腾讯科技(北京)有限公司 | 基于同声传译的数据处理方法、装置和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10177468A (ja) * | 1996-12-16 | 1998-06-30 | Casio Comput Co Ltd | 移動端末音声認識/データベース検索通信システム |
WO2000030072A1 (en) * | 1998-11-13 | 2000-05-25 | Motorola Limited | Mitigating errors in a distributed speech recognition process |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2818362B2 (ja) * | 1992-09-21 | 1998-10-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識装置のコンテキスト切換えシステムおよび方法 |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
JPH0863478A (ja) | 1994-08-26 | 1996-03-08 | Toshiba Corp | 言語処理方法及び言語処理装置 |
US5745776A (en) * | 1995-04-19 | 1998-04-28 | Sheppard, Ii; Charles Bradford | Enhanced electronic dictionary |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5710918A (en) * | 1995-06-07 | 1998-01-20 | International Business Machines Corporation | Method for distributed task fulfillment of web browser requests |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US6122613A (en) | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
GB2323693B (en) | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
US6173259B1 (en) * | 1997-03-27 | 2001-01-09 | Speech Machines Plc | Speech to text conversion |
US5884266A (en) * | 1997-04-02 | 1999-03-16 | Motorola, Inc. | Audio interface for document based information resource navigation and method therefor |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US6112176A (en) * | 1997-05-16 | 2000-08-29 | Compaq Computer Corporation | Speech data collection over the world wide web |
US6157705A (en) * | 1997-12-05 | 2000-12-05 | E*Trade Group, Inc. | Voice control of a server |
US6233559B1 (en) * | 1998-04-01 | 2001-05-15 | Motorola, Inc. | Speech control of multiple applications using applets |
US6115686A (en) * | 1998-04-02 | 2000-09-05 | Industrial Technology Research Institute | Hyper text mark up language document to speech converter |
-
1999
- 1999-03-09 DE DE19910236A patent/DE19910236A1/de not_active Withdrawn
- 1999-08-27 US US09/385,634 patent/US6757655B1/en not_active Expired - Lifetime
-
2000
- 2000-02-10 CN CN00804827A patent/CN1343351A/zh active Pending
- 2000-02-10 WO PCT/EP2000/001143 patent/WO2000054251A2/en not_active Application Discontinuation
- 2000-02-10 KR KR1020017011365A patent/KR20020003865A/ko not_active Application Discontinuation
- 2000-02-10 DE DE2000607620 patent/DE60007620T2/de not_active Expired - Lifetime
- 2000-02-10 AT AT00909156T patent/ATE257616T1/de not_active IP Right Cessation
- 2000-02-10 JP JP2000604399A patent/JP4597383B2/ja not_active Expired - Lifetime
- 2000-02-10 AU AU31537/00A patent/AU3153700A/en not_active Abandoned
- 2000-02-10 EP EP00909156A patent/EP1163661B1/en not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10177468A (ja) * | 1996-12-16 | 1998-06-30 | Casio Comput Co Ltd | 移動端末音声認識/データベース検索通信システム |
WO2000030072A1 (en) * | 1998-11-13 | 2000-05-25 | Motorola Limited | Mitigating errors in a distributed speech recognition process |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012515946A (ja) * | 2009-01-22 | 2012-07-12 | マイクロソフト コーポレーション | 発話処理のための認識器のマークアップ言語ベースの選択及び利用 |
US8515762B2 (en) | 2009-01-22 | 2013-08-20 | Microsoft Corporation | Markup language-based selection and utilization of recognizers for utterance processing |
JP2014510942A (ja) * | 2011-02-22 | 2014-05-01 | スピーク・ウィズ・ミー・インコーポレイテッド | ハイブリッド型クライアントサーバ音声認識 |
US9674328B2 (en) | 2011-02-22 | 2017-06-06 | Speak With Me, Inc. | Hybridized client-server speech recognition |
US10217463B2 (en) | 2011-02-22 | 2019-02-26 | Speak With Me, Inc. | Hybridized client-server speech recognition |
JP2014191246A (ja) * | 2013-03-28 | 2014-10-06 | Nec Corp | 認識処理制御装置、認識処理制御方法および認識処理制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2000054251A3 (en) | 2000-12-28 |
WO2000054251A2 (en) | 2000-09-14 |
KR20020003865A (ko) | 2002-01-15 |
DE60007620D1 (de) | 2004-02-12 |
EP1163661A2 (en) | 2001-12-19 |
DE19910236A1 (de) | 2000-09-21 |
US6757655B1 (en) | 2004-06-29 |
ATE257616T1 (de) | 2004-01-15 |
CN1343351A (zh) | 2002-04-03 |
AU3153700A (en) | 2000-09-28 |
EP1163661B1 (en) | 2004-01-07 |
JP4597383B2 (ja) | 2010-12-15 |
DE60007620T2 (de) | 2004-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002539480A (ja) | 音声認識方法 | |
US7003464B2 (en) | Dialog recognition and control in a voice browser | |
US7536454B2 (en) | Multi-modal communication using a session specific proxy server | |
US6708153B2 (en) | Voice site personality setting | |
EP0477688B1 (en) | Voice recognition telephone dialing | |
EP1125279B1 (en) | System and method for providing network coordinated conversational services | |
US6941273B1 (en) | Telephony-data application interface apparatus and method for multi-modal access to data applications | |
US8463608B2 (en) | Interactive speech recognition model | |
US20090287477A1 (en) | System and method for providing network coordinated conversational services | |
JP2002525689A (ja) | スピーチ認識システムを構成する方法及びシステム | |
MX2007013015A (es) | Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. | |
US20040037401A1 (en) | Interactive voice response system and a method for use in interactive voice response system | |
JP2003520983A (ja) | 改良されたテキスト−音声変換 | |
JP2002539481A (ja) | 複数の音声認識器を用いる方法 | |
CN107808007A (zh) | 信息处理方法和装置 | |
US20030233238A1 (en) | Distributed voice browser | |
US8583437B2 (en) | Speech synthesis with incremental databases of speech waveforms on user terminals over a communications network | |
CN107103899A (zh) | 输出语音消息的方法和装置 | |
WO2002052831A1 (fr) | Systeme de terminal mobile de radiocommunications | |
JP2002132646A (ja) | コンテンツインタポレーティングウェブプロキシサーバ | |
KR20090076318A (ko) | 실시간 대화 서비스 시스템 및 그 방법 | |
GB2263042A (en) | Voice activated system and method | |
US20050102147A1 (en) | Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units | |
JP2003502752A (ja) | 通信ネットワークにおける音声ナビゲーションおよび情報部分における音声入力機能を実行するための方法 | |
JP2003259009A (ja) | 音声入力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100112 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100409 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100416 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100831 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100922 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4597383 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131001 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |