JP4597383B2 - 音声認識方法 - Google Patents

音声認識方法 Download PDF

Info

Publication number
JP4597383B2
JP4597383B2 JP2000604399A JP2000604399A JP4597383B2 JP 4597383 B2 JP4597383 B2 JP 4597383B2 JP 2000604399 A JP2000604399 A JP 2000604399A JP 2000604399 A JP2000604399 A JP 2000604399A JP 4597383 B2 JP4597383 B2 JP 4597383B2
Authority
JP
Japan
Prior art keywords
speech
client
additional information
server
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000604399A
Other languages
English (en)
Other versions
JP2002539480A (ja
Inventor
ベスリンク,シュテファン
テレン,エリク
ウルリヒ,マインハルト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2002539480A publication Critical patent/JP2002539480A/ja
Application granted granted Critical
Publication of JP4597383B2 publication Critical patent/JP4597383B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)
  • Electric Clocks (AREA)

Description

【0001】
本発明は、音声入力可能な情報ユニットが、サーバ上に格納されると共に、通信ネットワークを通じて音声認識器に接続されることが可能なクライアントによって取り出され得る方法に関する。
【0002】
キーボード若しくはマウスの代わりに音声入力によってコンピュータとの通信を実行する可能性は、ユーザにコンピュータでの作業を楽にさせると共に、入力スピードもしばしば向上させる。音声認識は、近年キーボードによって入力されてきた多くの分野において、用いられ得る。この論点は、ほとんどの様々な性質を有し得ることは明らかである。他方、音声認識中、計算力上に厳しい要求が作られ、これはしばしばローカル・コンピュータ(クライアント)上では十分に使用可能ではない。特に多くの語彙を有する話者から独立した音声認識にとって、クライアントの計算力はしばしば不十分である。音声入力の高信頼且つ高速の音声認識を可能にするために、パワのあるコンピュータ上で動く専用音声認識器上で音声認識を実行することが賢明である。
【0003】
EP0872827は、音声認識方法及びシステムを開示している。音声認識用圧縮ソフトウェアが実行されるクライアントは、ネットワークを通じて音声認識サーバへ接続される。クライアントは、音声認識グラマ及び音声入力データを音声認識サーバへ送信する。音声認識サーバは、音声認識を実行し、認識結果をクライアントへ返す。
【0004】
冒頭段落に開示されたクライアント/サーバ音声認識システムにおける欠点は、HTML(Hyper−Text Markup−Language)ページは多くのユーザによって同時にアクセスされ、結果として起こる多くの音声入力によってフル荷重が掛かるため、音声認識は許容し得ない処理時間を要求することである。
【0005】
よって、本発明の目的は、音声入力の認識について高認識品質を保ちつつ、処理時間を許容し得るものとすることである。
【0006】
この目的は、クライアントが複数の音声認識器へ接続されることが可能であって、クライアントの入力された音声信号を認識する少なくとも1つの音声認識器との組み合わせを決定するために用いられる追加情報が情報ユニットに割り当てられることによって、実現される。
【0007】
クライアントは、例えばインターネットなどの通信ネットワークを通じて接続されたサーバから、情報ユニットをダウンロードする。この情報ユニットは、サーバ上に格納され、ユーザに音声入力の可能性を提供する。サーバは、その上にクライアントによって取り出され得る提供者からの情報を格納した、例えばインターネットなどの通信ネットワークにおけるコンピュータである。クライアントは、インターネットから情報を取り出し、ソフトウェアによって情報ユニットを表示するためにサーバ上に格納された該情報ユニットをダウンロードするコンピュータである。クライアントは計算力が限定されているため、音声認識はクライアント上では為されず、代わりに通信ネットワークを通じてクライアントに接続された音声認識器上で為される。クライアントと専用音声認識器とを組み合わせるために、サーバは、該サーバ上に格納された情報ユニットに追加情報を割り当てる。この追加情報は、情報ユニットと組み合わせられ、ダウンロード中にクライアントへ同時に転送される。該追加情報によって、情報ユニットには、このダウンロードされた情報ユニットに特化して調和された音声認識器が割り当てられ、この音声認識器が音声認識を実行する。
【0008】
追加情報は、例えば、テーマ分野、音声認識器の種類、若しくは音声認識器の完全利用などの所定の基準に従って、サーバによって発行される。結果として、専用音声認識器は、ダウンロードされた情報ユニット毎に選択され、高い品質及び短い処理時間を有する音声入力の音声認識を実行する。
【0009】
これは、期待されている語彙を知っている情報ユニットの提供者が、音声認識器を選択し、この音声認識器と上記情報ユニットとを組み合わせる、という利点を有する。音声入力の認識品質は、該提供者によって制御される音声認識器の割当によって大幅に向上させ得る。なぜなら、該提供者によってサーバ上に格納された個々の情報ユニットに関して常に同様の音声入力が予期され得るからである。ユーザによって決定された音声認識器に関しては、これら音声認識器は非常に幅広い用途分野からの音声入力を認識しなければならない。例えばウェブ・ブラウザなどの上記固定された音声認識器の接続に関して、音声認識器は、幅広いレンジの用途分野に対して十分に専用化されていないため、この固定された接続は、認識結果の品質に悪影響を与える。
【0010】
上記追加情報は、通信ネットワークにおける専用音声認識器のアドレスを含むことが好ましい。更に、該追加情報は、認識結果の適合に関する選択表示を含む。最も簡素な場合、認識結果は、クライアントに返され、そこでテキスト若しくは音声として生成される。それに加えて、上記追加情報は、用いられる音声認識器の種類が正確に指定された選択表示を含む。該追加情報は、更に、例えば、該音声入力に対して該音声認識器を適合させるための語彙若しくはパラメータを含み得ると共に、上記音声認識器に対する適合化を実行し得る。別のパラメータの任意的転送は、音声認識のスピード及び/若しくは品質を向上させる。
【0011】
本発明の有益な実施形態においては、分配器のアドレスが追加情報において示される。この分配器は、複数の音声認識器を制御する。例えば、同じ種類の複数の音声認識器、又は、数字若しくは「Yes/No」などの単純な発声の認識のみに供される音声認識器群、が一分配器に属する。追加情報によって指定された分配器は、複数のクライアントからの音声信号を、それらに対して有効な音声認識器へ割り当てる。結果として、音声入力のより迅速な処理が実現されるだけでなく、音声認識器への負荷を均一にすることができる。
【0012】
本発明の別の実施形態として、クライアントがサーバからHTMLページの形式で情報ユニットをダウンロードすることが提案される。これらHTMLページは、クライアント上でウェブ・ブラウザによって、若しくはそれらを表示するのに適した別のアプリケーションによって、示される。上記情報ユニットは、更に、ウェブ・ページとしても実現され得る。このHTMLページをダウンロードするために、クライアントは該HTMLページが格納されたサーバへの接続をセットアップする。ダウンロード中、データはHTMLコードの形式でクライアントへ送信される。このHTMLコードは、例えばHTMLタグとして実現される追加情報を含む。このダウンロードされたHTMLページは、ウェブ・ブラウザによって示され、ユーザは音声を入力し得る。同時に送信されたHTMLタグは、該音声入力を認識するために設けられた音声認識器を定義する。音声入力の認識のために、クライアントは、通信ネットワークを通じて、音声認識器への接続をセットアップする。音声入力は、音声認識器へ送信され、そこで認識され、認識結果が、例えばクライアントへ、返される。
【0013】
本発明の有益な実施形態において、複数のクライアントがHTMLページにアクセスする場合、個別のHTMLタグが各個別のクライアントに割り当てられる。このため、サーバは、複数のクライアントがアクセスするHTMLページ毎に異なる音声認識器のアドレスを割り当てる。これにより、一HTMLページに多くのアクセスがある場合に、複数の音声認識器が音声入力を処理することができ、よってより迅速な認識を可能にすることができる。異なるタイム・ゾーンからのユーザがアクセスを実行する場合、タイム・ゾーン毎に音声認識器が割り当てられ得る。前述の分配器が音声認識器を割り当てるのに用いられる場合であって、複数のクライアントが一HTMLページにアクセスし、且つ分配器によって制御される音声認識器が音声認識中の品質要求を満たさない場合、HTMLタグは異なる分配器のアドレスを示す。
【0014】
本発明の好ましい別の実施形態においては、音声入力は、クライアント上で追加ソフトウェアによって前処理される。この追加ソフトウェアは、音声入力に基づいたHTMLページがダウンロードされるときに個々のサーバからダウンロードされ得る。別の方法として、該追加ソフトウェアはウェブ・ブラウザにオプションとして統合されてもよく、クライアント上にローカルにインストールされてもよい。この追加ソフトウェアは、個々のHTMLページがダウンロードされ、ユーザが音声を入力し、音声入力の特徴が抽出されたときに、開始される。電気信号として有効な音声入力は、ディジタル化され、量子化され、特徴ベクトルへ割り当てられる成分を生成する個々の分析を受ける。クライアントがHTMLタグに書かれた音声認識器若しくは分配器への接続をセットアップすると、特徴ベクトルは、通信ネットワークを通じて、音声認識器若しくは分配器へ送信される。音声認識器は、計算集約認識を実行する。クライアント上で実行された特徴の抽出の結果として、音声入力は圧縮され、コード化されるため、送信されるべきデータ数が低減される。更に、クライアント側での特徴抽出に掛かる時間が低減されるため、音声認識器はそこに適用された特徴ベクトルの認識のみを行う。この低減は、頻繁に用いられる音声認識器にとって有益となり得る。
【0015】
本発明の別の実施形態において、認識結果がいかに用いられるべきであるかについて音声認識器若しくは分配器に伝達するHTMLタグ表示を与えることが提供される。これらの表示は、認識された音声入力がクライアントへ返されるか、若しくはサーバへ返されるかを決定し得る。サーバへ返される場合、例えば、別のHTMLページがサーバからクライアントへ送信され得る。クライアントへ返される認識結果は、更に、ある基準に従って認識されたテキストから導かれ得る。
【0016】
本発明は、更に、1以上の音声認識器へ接続され得るクライアントによって取り出され得る情報ユニットが格納されたサーバに関し、該情報ユニットには、クライアントと入力された音声信号を認識する音声認識器との間の組み合わせを確立するために、追加情報が割り当てられる。
【0017】
更に、本発明は、通信ネットワークを通じて1以上の音声認識機に接続されることが可能で、サーバ上に格納された情報ユニットを検索するために設けられたクライアントにも関し、該情報ユニットには、クライアントと入力された音声信号を認識する音声認識器との間の組み合わせを確立するために、追加情報が割り当てられる。
【0018】
本発明の実施形態の例は、図面を参照して、以下において更に説明される。
【0019】
図1は、音声認識方法を実施する装置を示す。クライアント1、2、及び3は、通信ネットワーク6を通じて、サーバ5へ接続されている。このサーバ5から、クライアント1、2、及び3は、HTMLページ4の形式で、情報ユニット4をダウンロードする。これらHTMLページ4は、ウェブ・ブラウザ13によって、クライアント1、2、及び3上に表示される。クライアント1〜3によってリクエストされたHTMLページ4は、サーバ5上に格納されている。サービス事業者がユーザに伝達したいと思っている情報ユニット4の内容は、HTMLコードによって、サーバ5からクライアント1、2、若しくは3へ送信される。このHTMLコード化されたデータ・ストリームは、表示されるべき内容に加えて、例えばHTMLタグ12の形式のフォーマット命令及び追加情報12を含む。
【0020】
表示されたHTMLページ4の内容必ずしも音声入力の内容につながっている必要はないが、HTMLページ4は、ユーザに、音声を入力する可能性を提供する。
【0021】
クライアントは、リンクを通じて個々のHTMLページを呼び出す若しくはリクエストするサーバ5への接続をセットアップする。クライアントへのHTMLページの送信に先立ち、サーバ5は、このHTMLページ4に、指定されたHTMLタグ12における専用音声認識器のアドレスを割り当てる。用いられる音声認識器18の種類や音声認識器の適合化についてのパラメータなどの他の詳細や認識結果についての詳細に関する割当は、要求されたようにHTMLタグへ割り当てられる。
【0022】
HTMLタグ12を含むHTMLページ4が読み出されると、追加ソフトウェア14が起動する。この追加ソフトウェア14は、電気信号として有効な音声入力の特徴の抽出を実行する。追加ソフトウェア14は、ウェブ・ブラウザ13の一部でもよく、クライアント1、2、若しくは3上にローカルにインストールされてもよい。
【0023】
クライアントは、HTMLタグ12にアドレスが示された音声認識器7、8、若しくは9への接続をセットアップする。この音声認識器は、追加ソフトウェア14によって生成された特徴ストリームを受信し、音声入力の音声認識を実行する。音声認識器7、8、若しくは9が音声入力を認識すると、それは音声認識器7、8、若しくは9からクライアント1、2、若しくは3へ返され、そこでテキスト若しくは音声として発行される。
【0024】
別の実施形態において、認識結果がいかに用いられるべきかが、HTMLタグ12における任意的成分を用いて、判断され得る。クライアント1〜3への返しに加えて、認識結果をサーバ5へ送信し、その後、別のHTMLページ4を例えばクライアント1〜3へ送信する(ライン16によって示される)可能性もある。例えば、クライアント1のユーザが、HTMLページ4として表示されている日刊新聞を読んでいる間、「現在の温度」と言ったとする。この音声入力は、次いで、音声認識を実行するために、HTMLタグ12において指定された音声認識器7〜9へ送信される。音声認識結果の利用に関する表示において、認識されたテキストは、クライアント1へ返されず、代わりにサーバ5へ返される。サーバ5は、次いで、クライアント1へ、テキストとして挿入されるか或いは音声として出力される現在の温度に関する表示を送信する。
【0025】
図2は、別の実施形態例を示す。各クライアント1〜3は、サーバ5から異なる内容のHTMLページ4をダウンロードする。これらHTMLページ4は、それぞれHTMLタグ12を有する。このHTMLタグ12は、分配器10のアドレス17を含む。分配器10のアドレス17に加えて、このHTMLラグ12は、更に、認識結果の利用、用いられるべき音声認識器18の種類、および/若しくはその適合を有する音声認識器に対するパラメータ、に関する詳細を含む。
【0026】
分配器10は、多様な音声認識器群を制御する。これら音声認識器は、更に、異なる種類であってもよい。群7は、種類Raの多様な音声認識器Ra,nを有する。群8は、別の種類Rbの音声認識器Rb,nを有する。種類Raの音声認識器Ra,nの群7は、例えば数字の認識に特化されている。種類Rbの音声認識器Rb,nの群8は、「Yes/No」の認識に特化されている。分配器10は、多様なクライアント1〜3からの到来音声入力を、個々のHTMLラグ12に書かれた音声認識器の種類に応じて、分配する。
【0027】
クライアント1及び2によって呼び出され、分配器10に割り当てられたHTMLページ4は、用いられるべき音声認識器18の種類に応じて、種類Raの音声認識器によって参照され得る。クライアント1及び2のユーザによって為された音声入力は、群7の分配器10によって、音声認識器Ra,nへ割り当てられる。クライアント3によって呼び出されたHTMLページ4は、音声認識器18に応じて、種類Rbの音声認識器を有する必要がある。クライアント3のユーザによって為された音声入力は、群8の分配器10によって、種類Rb,nの音声認識器へ割り当てられる。
【0028】
音声認識器Ra,1が音声入力の処理でビジー状態のとき、分配器10は同じ種類の音声認識器Raに対する次の音声入力を次の音声認識器Ra,2へ導く。ここの認識結果は、音声認識器R,nによってクライアント1〜3へ返され、そこで処理される。
【0029】
図3は、複数のクライアント1〜3が同じHTMLページ4にアクセスする場合を示す。HTMLページ4がウェブ・ブラウザ13によって表示される場合、それらは同じ内容を示す。
各HTMLタグ12は、アドレス・フィールド17に、IPアドレス、及び、クライアント1、2、若しくは3から音声認識器7、8、若しくは9へのTCP/IPリンク要のソケット・ポートを含む。このようにして、HTMLページ4のサービス事業者は、サーバ5における音声認識器7、8、若しくは9、すなわちユーザによって発せられた音声を処理するための音声認識器7、8、若しくは9、を決定する。クライアント1、2、若しくは3がインターネットを通じて個々のHTMLページ4を呼び出すたびに、HTMLページ4には、個々の音声認識器7、8、若しくは9のアドレス17を判断するHTMLタグ12がサーバ5によって割り当てられる。該HTMLページ4に対して単一の音声認識器7、8、若しくは9が固定的に規定されていると、HTMLページ4が同時に多数のクライアント1〜3によって呼び出された場合に多くの音声入力の迅速な処理が保証されない。よって、このような場合、個々のHTMLページ4を呼び出した各クライアント1、2、若しくは3には、HTMLタグ12毎に異なるアドレス17によって、別の音声認識器7、8、若しくは9が割り当てられる。例えば、音声認識器7は、HTMLページ4がクライアント1によってダウンロードされたときに、HTMLタグ12へ割り当てられる。音声認識器8は、音声入力の音声認識のために、クライアント2へ割り当てられ、音声認識器9は、クライアント3へ割り当てられる。これは、3人のユーザ全員に対する音声入力の迅速且つ高信頼な音声認識を実現する。
【0030】
音声認識器の特殊な割当の一適用例を以下に示す。クライアント1が演劇番組に関するHTMLページ4を呼び出す。クライアント2がサッカー番組に関するHTMLページ4を呼び出し、クライアント3が航空機の接続に関するHTMLページ4を呼び出す。これら3つのHTMLページ4すべてが異なる音声入力を有することは明らかである。HTMLページ4のサービス事業者は、期待される語彙を知っており、関連付けられたHTMLタグ12を用いて、各HTMLページ4に専用の音声認識器7、8、若しくは9を割り当てる。
【0031】
複数の音声入力が可能なHTMLページ4の場合、例えばフォームに記入するために、1以上のHTMLタグ12にも書かれた、異なる音声認識器7、8、若しくは9が個々の音声入力フィールドに割り当てられ得る。いずれの音声入力が現在処理されているかは、キーワードによって、ユーザの見ている方向を確立することによって、マウスがどれだけ近いかによって、又は、優先度若しくはシーケンシャル順によって、区別され得る。
【図面の簡単な説明】
【図1】 音声認識器の割当を概略的に示す図である。
【図2】 分配器を用いた場合の音声認識器の割当を概略的に示す図である。
【図3】 多くのクライアントのHTMLページへのアクセス及び音声認識器の割当を概略的に示す図である。

Claims (13)

  1. 信ネットワークを通じて音声認識器に接続されることが可能なクライアントによって取り出され得、ユーザが音声を入力することを可能にする情報ユニットをサーバが記憶しており
    その情報ユニットについて入力された音声信号を認識する少なくとも1つの音声認識器とクライアントとの組み合わせを指定る追加情報を前記サーバが該情報ユニットに割り当てることを特徴とする方法。
  2. 請求項1記載の方法であって、
    前記追加情報は、音声認識器を指定するアドレスに加えて、認識結果の処理及び/若しくは音声認識器の種類及び/若しくはその適合のために音声認識器へ転送されるべきパラメータに関する指標を含むことを特徴とする方法。
  3. 請求項1または2記載の方法であって、
    前記追加情報は、クライアントによって前記情報ユニットが要求されたときに前記サーバによって前記情報ユニットへ割り当てられることを特徴とする方法。
  4. 請求項1乃至3のいずれか一記載の方法であって、
    前記割り当てられた追加情報を有する情報ユニットは、クライアントによって読み出されることを特徴とする方法。
  5. 請求項1乃至4のいずれか一記載の方法であって、
    入力音声信号は、認識のため、クライアントから、前記追加情報において示されたアドレスの音声認識器へ転送されることを特徴とする方法。
  6. 請求項1記載の方法であって、
    前記追加情報は分配器のアドレスを含み、前記入力信号はそのアドレスにある分配器に運ばれ、その分配器によって複数の音声認識器の一割り当てられることを特徴とする方法。
  7. 請求項1乃至6のいずれか一記載の方法であって、
    前記情報ユニットは、HTMLページとして実現され、前記追加情報は、HTMLタグとして実現されることを特徴とする方法。
  8. 請求項1乃至7のいずれか一記載の方法であって、
    情報ユニットに異なるクライアントから複数のアクセスがある場合に、前記サーバは各クライアントに、前記追加情報において異なる音声認識器のアドレス割り当てることを特徴とする方法。
  9. 請求項1乃至7のいずれか一記載の方法であって、
    クライアントは、前記追加情報を含む前記情報ユニット該クライアントにダウンロードされたときに起動し、該クライアントにおいて入力された音声信号の特徴を抽出する追加ソフトウェアを有することを特徴とする方法。
  10. 請求項記載の方法であって、
    音声信号に関する特徴の抽出中に生成された特徴ストリームは、前記追加情報において規定された、音声認識を実行し認識結果を前記追加情報に含まれる指標に応じてクライアントに返す音声認識器適用されることを特徴とする方法。
  11. 請求項10記載の方法であって、
    前記認識結果は、前記追加情報に含まれる指標に応じてサーバに送られることを特徴とする方法。
  12. 1以上の音声認識器に接続され得るクライアントによって検索されることが可能な情報ユニットが格納されたサーバであって、クライアントと前記情報ユニットについて入力音声信号を認識する音声認識器との間の組み合わせを指定する追加情報を前記情報ユニットに割り当てるよう構成されている、サーバ。
  13. 通信ネットワークを通じて1以上の音声認識器接続されることが可能なクライアントであって、サーバ上に格納された情報ユニットであって、クライアントと前記情報ユニットについて入力音声信号を認識する音声認識器との間の組み合わせを指定する追加情報が割り当てられている情報ユニットを検索するように設けられるクライアント。
JP2000604399A 1999-03-09 2000-02-10 音声認識方法 Expired - Lifetime JP4597383B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19910236.8 1999-03-09
DE19910236A DE19910236A1 (de) 1999-03-09 1999-03-09 Verfahren zur Spracherkennung
PCT/EP2000/001143 WO2000054251A2 (en) 1999-03-09 2000-02-10 Method of speech recognition

Publications (2)

Publication Number Publication Date
JP2002539480A JP2002539480A (ja) 2002-11-19
JP4597383B2 true JP4597383B2 (ja) 2010-12-15

Family

ID=7900179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000604399A Expired - Lifetime JP4597383B2 (ja) 1999-03-09 2000-02-10 音声認識方法

Country Status (9)

Country Link
US (1) US6757655B1 (ja)
EP (1) EP1163661B1 (ja)
JP (1) JP4597383B2 (ja)
KR (1) KR20020003865A (ja)
CN (1) CN1343351A (ja)
AT (1) ATE257616T1 (ja)
AU (1) AU3153700A (ja)
DE (2) DE19910236A1 (ja)
WO (1) WO2000054251A2 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9911971D0 (en) * 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
US7330815B1 (en) 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US6931376B2 (en) * 2000-07-20 2005-08-16 Microsoft Corporation Speech-related event notification system
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
EP1376418B1 (en) * 2000-08-31 2006-12-27 Hitachi, Ltd. Service mediating apparatus
EP1377965A1 (en) * 2000-09-07 2004-01-07 Koninklijke Philips Electronics N.V. Voice control and uploadable user control information
JP2002116796A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
JP3326424B2 (ja) 2000-10-23 2002-09-24 株式会社ジー・エフ 電話応答装置、及び電話応答装置で実現する各種の応答機能を記述した各手順ファイルを取得して電話応答する方法
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US7571102B2 (en) * 2003-04-29 2009-08-04 Ford Motor Company Controller for use with a motor vehicle
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
ATE373380T1 (de) * 2004-05-18 2007-09-15 Alcatel Lucent Verfahren und server zur bereitstellung eines multi-modalen dialogs
KR100695127B1 (ko) 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
GB2424560B (en) * 2005-02-15 2009-04-29 David Llewellyn Rees User interface for systems with automatic conversion from text to an acoustic representation
CA2618623C (en) * 2005-08-09 2015-01-06 Mobilevoicecontrol, Inc. Control center for a voice controlled wireless communication device system
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
CN101326571B (zh) * 2005-12-07 2012-05-23 三菱电机株式会社 声音识别装置
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8996379B2 (en) 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20080228493A1 (en) * 2007-03-12 2008-09-18 Chih-Lin Hu Determining voice commands with cooperative voice recognition
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
TWI411981B (zh) * 2008-11-10 2013-10-11 Inventec Corp 提供真人引導發音之語言學習系統、伺服器及其方法
US8515762B2 (en) * 2009-01-22 2013-08-20 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing
US8346549B2 (en) 2009-12-04 2013-01-01 At&T Intellectual Property I, L.P. System and method for supplemental speech recognition by identified idle resources
CN102571882A (zh) * 2010-12-31 2012-07-11 上海博泰悦臻电子设备制造有限公司 基于网络的语音提醒的方法和系统
EP2678861B1 (en) * 2011-02-22 2018-07-11 Speak With Me, Inc. Hybridized client-server speech recognition
JP5637131B2 (ja) * 2011-12-26 2014-12-10 株式会社デンソー 音声認識装置
JP6050171B2 (ja) * 2013-03-28 2016-12-21 日本電気株式会社 認識処理制御装置、認識処理制御方法および認識処理制御プログラム
FR3045909B1 (fr) * 2015-12-17 2017-12-29 Delta Dore Procede et dispositif d'analyse et de repartition de commandes vocales
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
CN110444196B (zh) * 2018-05-10 2023-04-07 腾讯科技(北京)有限公司 基于同声传译的数据处理方法、装置、系统和存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
JPH0863478A (ja) 1994-08-26 1996-03-08 Toshiba Corp 言語処理方法及び言語処理装置
US5745776A (en) * 1995-04-19 1998-04-28 Sheppard, Ii; Charles Bradford Enhanced electronic dictionary
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5710918A (en) * 1995-06-07 1998-01-20 International Business Machines Corporation Method for distributed task fulfillment of web browser requests
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
JPH10177468A (ja) * 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索通信システム
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6122613A (en) 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
GB2323693B (en) 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6112176A (en) * 1997-05-16 2000-08-29 Compaq Computer Corporation Speech data collection over the world wide web
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6233559B1 (en) * 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
US6115686A (en) * 1998-04-02 2000-09-05 Industrial Technology Research Institute Hyper text mark up language document to speech converter
GB2343777B (en) * 1998-11-13 2003-07-02 Motorola Ltd Mitigating errors in a distributed speech recognition process

Also Published As

Publication number Publication date
AU3153700A (en) 2000-09-28
JP2002539480A (ja) 2002-11-19
CN1343351A (zh) 2002-04-03
WO2000054251A3 (en) 2000-12-28
DE60007620D1 (de) 2004-02-12
ATE257616T1 (de) 2004-01-15
EP1163661B1 (en) 2004-01-07
WO2000054251A2 (en) 2000-09-14
KR20020003865A (ko) 2002-01-15
DE19910236A1 (de) 2000-09-21
US6757655B1 (en) 2004-06-29
EP1163661A2 (en) 2001-12-19
DE60007620T2 (de) 2004-11-18

Similar Documents

Publication Publication Date Title
JP4597383B2 (ja) 音声認識方法
US9819744B1 (en) Multi-modal communication
US7003464B2 (en) Dialog recognition and control in a voice browser
US7016848B2 (en) Voice site personality setting
US20080133215A1 (en) Method and system of interpreting and presenting web content using a voice browser
US20100005187A1 (en) Enhanced Streaming Operations in Distributed Communication Systems
US20070143307A1 (en) Communication system employing a context engine
US20110282672A1 (en) Distributed voice browser
MX2007013015A (es) Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes.
EP1139335B1 (en) Voice browser system
WO2000054252A2 (en) Method with a plurality of speech recognizers
JP3141833B2 (ja) ネットワークアクセスシステム
GB2330429A (en) Data stream enhancement
US20020188698A1 (en) Method and apparatus to retrieve information in a network
JP2002132646A (ja) コンテンツインタポレーティングウェブプロキシサーバ
CN1489856A (zh) 具有交互式语音功能的通信系统用的通信装置和方法
JP2002245078A (ja) 音声利用型情報検索装置および音声利用型情報検索プログラムと該プログラムを記録した記録媒体
US20030236666A1 (en) System for accessing a database using human speech
CN1868203A (zh) 具有应用传送标记的语音标记语言及其翻译器
TW479429B (en) System and method for distributing telephone audio data via a computer network
JP2000138757A (ja) ボイス・メ―ル・システム
EP1192530A1 (en) Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units.
JP2003271376A (ja) 情報提供システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100409

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100831

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100922

R150 Certificate of patent or registration of utility model

Ref document number: 4597383

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term