JP2002539480A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2002539480A
JP2002539480A JP2000604399A JP2000604399A JP2002539480A JP 2002539480 A JP2002539480 A JP 2002539480A JP 2000604399 A JP2000604399 A JP 2000604399A JP 2000604399 A JP2000604399 A JP 2000604399A JP 2002539480 A JP2002539480 A JP 2002539480A
Authority
JP
Japan
Prior art keywords
speech
client
speech recognizer
html
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000604399A
Other languages
English (en)
Other versions
JP4597383B2 (ja
Inventor
ベスリンク,シュテファン
テレン,エリク
ウルリヒ,マインハルト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2002539480A publication Critical patent/JP2002539480A/ja
Application granted granted Critical
Publication of JP4597383B2 publication Critical patent/JP4597383B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Electric Clocks (AREA)
  • Navigation (AREA)

Abstract

(57)【要約】 音声入力可能な情報ユニット(4)が、サーバ(5)上に格納されると共に、通信ネットワーク(6)を通じて1以上の音声認識器(7、8、9)に接続されることが可能なクライアント(1、2、3)によって取り出され得る方法において、通信ネットワーク(6)における音声認識器(7、8、9)を情報ユニット(4)へ動的に割り当て、よって音声入力の認識について高認識品質を保ちつつ、処理時間を許容し得るものとするために、発せられた音声信号を認識する少なくとも1つの音声認識器(7、8、9)とクライアント(1、2、3)との組み合わせを決定するために設けられた追加情報(12)が情報ユニット(4)に割り当てられる。

Description

【発明の詳細な説明】
【0001】 本発明は、音声入力可能な情報ユニットが、サーバ上に格納されると共に、通
信ネットワークを通じて音声認識器に接続されることが可能なクライアントによ
って取り出され得る方法に関する。
【0002】 キーボード若しくはマウスの代わりに音声入力によってコンピュータとの通信
を実行する可能性は、ユーザにコンピュータでの作業を楽にさせると共に、入力
スピードもしばしば向上させる。音声認識は、近年キーボードによって入力され
てきた多くの分野において、用いられ得る。この論点は、ほとんどの様々な性質
を有し得ることは明らかである。他方、音声認識中、計算力上に厳しい要求が作
られ、これはしばしばローカル・コンピュータ(クライアント)上では十分に使
用可能ではない。特に多くの語彙を有する話者から独立した音声認識にとって、
クライアントの計算力はしばしば不十分である。音声入力の高信頼且つ高速の音
声認識を可能にするために、パワのあるコンピュータ上で動く専用音声認識器上
で音声認識を実行することが賢明である。
【0003】 EP0872827は、音声認識方法及びシステムを開示している。音声認識
用圧縮ソフトウェアが実行されるクライアントは、ネットワークを通じて音声認
識サーバへ接続される。クライアントは、音声認識グラマ及び音声入力データを
音声認識サーバへ送信する。音声認識サーバは、音声認識を実行し、認識結果を
クライアントへ返す。
【0004】 冒頭段落に開示されたクライアント/サーバ音声認識システムにおける欠点は
、HTML(Hyper−Text Markup−Language)ページ
は多くのユーザによって同時にアクセスされ、結果として起こる多くの音声入力
によってフル荷重が掛かるため、音声認識は許容し得ない処理時間を要求するこ
とである。
【0005】 よって、本発明の目的は、音声入力の認識について高認識品質を保ちつつ、処
理時間を許容し得るものとすることである。
【0006】 この目的は、クライアントが複数の音声認識器へ接続されることが可能であっ
て、クライアントの入力された音声信号を認識する少なくとも1つの音声認識器
との組み合わせを決定するために用いられる追加情報が情報ユニットに割り当て
られることによって、実現される。
【0007】 クライアントは、例えばインターネットなどの通信ネットワークを通じて接続
されたサーバから、情報ユニットをダウンロードする。この情報ユニットは、サ
ーバ上に格納され、ユーザに音声入力の可能性を提供する。サーバは、その上に
クライアントによって取り出され得る提供者からの情報を格納した、例えばイン
ターネットなどの通信ネットワークにおけるコンピュータである。クライアント
は、インターネットから情報を取り出し、ソフトウェアによって情報ユニットを
表示するためにサーバ上に格納された該情報ユニットをダウンロードするコンピ
ュータである。クライアントは計算力が限定されているため、音声認識はクライ
アント上では為されず、代わりに通信ネットワークを通じてクライアントに接続
された音声認識器上で為される。クライアントと専用音声認識器とを組み合わせ
るために、サーバは、該サーバ上に格納された情報ユニットに追加情報を割り当
てる。この追加情報は、情報ユニットと組み合わせられ、ダウンロード中にクラ
イアントへ同時に転送される。該追加情報によって、情報ユニットには、このダ
ウンロードされた情報ユニットに特化して調和された音声認識器が割り当てられ
、この音声認識器が音声認識を実行する。
【0008】 追加情報は、例えば、テーマ分野、音声認識器の種類、若しくは音声認識器の
完全利用などの所定の基準に従って、サーバによって発行される。結果として、
専用音声認識器は、ダウンロードされた情報ユニット毎に選択され、高い品質及
び短い処理時間を有する音声入力の音声認識を実行する。
【0009】 これは、期待されている語彙を知っている情報ユニットの提供者が、音声認識
器を選択し、この音声認識器と上記情報ユニットとを組み合わせる、という利点
を有する。音声入力の認識品質は、該提供者によって制御される音声認識器の割
当によって大幅に向上させ得る。なぜなら、該提供者によってサーバ上に格納さ
れた個々の情報ユニットに関して常に同様の音声入力が予期され得るからである
。ユーザによって決定された音声認識器に関しては、これら音声認識器は非常に
幅広い用途分野からの音声入力を認識しなければならない。例えばウェブ・ブラ
ウザなどの上記固定された音声認識器の接続に関して、音声認識器は、幅広いレ
ンジの用途分野に対して十分に専用化されていないため、この固定された接続は
、認識結果の品質に悪影響を与える。
【0010】 上記追加情報は、通信ネットワークにおける専用音声認識器のアドレスを含む
ことが好ましい。更に、該追加情報は、認識結果の適合に関する選択表示を含む
。最も簡素な場合、認識結果は、クライアントに返され、そこでテキスト若しく
は音声として生成される。それに加えて、上記追加情報は、用いられる音声認識
器の種類が正確に指定された選択表示を含む。該追加情報は、更に、例えば、該
音声入力に対して該音声認識器を適合させるための語彙若しくはパラメータを含
み得ると共に、上記音声認識器に対する適合化を実行し得る。別のパラメータの
任意的転送は、音声認識のスピード及び/若しくは品質を向上させる。
【0011】 本発明の有益な実施形態においては、分配器のアドレスが追加情報において示
される。この分配器は、複数の音声認識器を制御する。例えば、同じ種類の複数
の音声認識器、又は、数字若しくは「Yes/No」などの単純な発声の認識の
みに供される音声認識器群、が一分配器に属する。追加情報によって指定された
分配器は、複数のクライアントからの音声信号を、それらに対して有効な音声認
識器へ割り当てる。結果として、音声入力のより迅速な処理が実現されるだけで
なく、音声認識器への負荷を均一にすることができる。
【0012】 本発明の別の実施形態として、クライアントがサーバからHTMLページの形
式で情報ユニットをダウンロードすることが提案される。これらHTMLページ
は、クライアント上でウェブ・ブラウザによって、若しくはそれらを表示するの
に適した別のアプリケーションによって、示される。上記情報ユニットは、更に
、ウェブ・ページとしても実現され得る。このHTMLページをダウンロードす
るために、クライアントは該HTMLページが格納されたサーバへの接続をセッ
トアップする。ダウンロード中、データはHTMLコードの形式でクライアント
へ送信される。このHTMLコードは、例えばHTMLタグとして実現される追
加情報を含む。このダウンロードされたHTMLページは、ウェブ・ブラウザに
よって示され、ユーザは音声を入力し得る。同時に送信されたHTMLタグは、
該音声入力を認識するために設けられた音声認識器を定義する。音声入力の認識
のために、クライアントは、通信ネットワークを通じて、音声認識器への接続を
セットアップする。音声入力は、音声認識器へ送信され、そこで認識され、認識
結果が、例えばクライアントへ、返される。
【0013】 本発明の有益な実施形態において、複数のクライアントがHTMLページにア
クセスする場合、個別のHTMLタグが各個別のクライアントに割り当てられる
。このため、サーバは、複数のクライアントがアクセスするHTMLページ毎に
異なる音声認識器のアドレスを割り当てる。これにより、一HTMLページに多
くのアクセスがある場合に、複数の音声認識器が音声入力を処理することができ
、よってより迅速な認識を可能にすることができる。異なるタイム・ゾーンから
のユーザがアクセスを実行する場合、タイム・ゾーン毎に音声認識器が割り当て
られ得る。前述の分配器が音声認識器を割り当てるのに用いられる場合であって
、複数のクライアントが一HTMLページにアクセスし、且つ分配器によって制
御される音声認識器が音声認識中の品質要求を満たさない場合、HTMLタグは
異なる分配器のアドレスを示す。
【0014】 本発明の好ましい別の実施形態においては、音声入力は、クライアント上で追
加ソフトウェアによって前処理される。この追加ソフトウェアは、音声入力に基
づいたHTMLページがダウンロードされるときに個々のサーバからダウンロー
ドされ得る。別の方法として、該追加ソフトウェアはウェブ・ブラウザにオプシ
ョンとして統合されてもよく、クライアント上にローカルにインストールされて
もよい。この追加ソフトウェアは、個々のHTMLページがダウンロードされ、
ユーザが音声を入力し、音声入力の特徴が抽出されたときに、開始される。電気
信号として有効な音声入力は、ディジタル化され、量子化され、特徴ベクトルへ
割り当てられる成分を生成する個々の分析を受ける。クライアントがHTMLタ
グに書かれた音声認識器若しくは分配器への接続をセットアップすると、特徴ベ
クトルは、通信ネットワークを通じて、音声認識器若しくは分配器へ送信される
。音声認識器は、計算集約認識を実行する。クライアント上で実行された特徴の
抽出の結果として、音声入力は圧縮され、コード化されるため、送信されるべき
データ数が低減される。更に、クライアント側での特徴抽出に掛かる時間が低減
されるため、音声認識器はそこに適用された特徴ベクトルの認識のみを行う。こ
の低減は、頻繁に用いられる音声認識器にとって有益となり得る。
【0015】 本発明の別の実施形態において、認識結果がいかに用いられるべきであるかに
ついて音声認識器若しくは分配器に伝達するHTMLタグ表示を与えることが提
供される。これらの表示は、認識された音声入力がクライアントへ返されるか、
若しくはサーバへ返されるかを決定し得る。サーバへ返される場合、例えば、別
のHTMLページがサーバからクライアントへ送信され得る。クライアントへ返
される認識結果は、更に、ある基準に従って認識されたテキストから導かれ得る
【0016】 本発明は、更に、1以上の音声認識器へ接続され得るクライアントによって取
り出され得る情報ユニットが格納されたサーバに関し、該情報ユニットには、ク
ライアントと入力された音声信号を認識する音声認識器との間の組み合わせを確
立するために、追加情報が割り当てられる。
【0017】 更に、本発明は、通信ネットワークを通じて1以上の音声認識機に接続される
ことが可能で、サーバ上に格納された情報ユニットを検索するために設けられた
クライアントにも関し、該情報ユニットには、クライアントと入力された音声信
号を認識する音声認識器との間の組み合わせを確立するために、追加情報が割り
当てられる。
【0018】 本発明の実施形態の例は、図面を参照して、以下において更に説明される。
【0019】 図1は、音声認識方法を実施する装置を示す。クライアント1、2、及び3は
、通信ネットワーク6を通じて、サーバ5へ接続されている。このサーバ5から
、クライアント1、2、及び3は、HTMLページ4の形式で、情報ユニット4
をダウンロードする。これらHTMLページ4は、ウェブ・ブラウザ13によっ
て、クライアント1、2、及び3上に表示される。クライアント1〜3によって
リクエストされたHTMLページ4は、サーバ5上に格納されている。サービス
事業者がユーザに伝達したいと思っている情報ユニット4の内容は、HTMLコ
ードによって、サーバ5からクライアント1、2、若しくは3へ送信される。こ
のHTMLコード化されたデータ・ストリームは、表示されるべき内容に加えて
、例えばHTMLタグ12の形式のフォーマット命令及び追加情報12を含む。
【0020】 表示されたHTMLページ4の内容必ずしも音声入力の内容につながっている
必要はないが、HTMLページ4は、ユーザに、音声を入力する可能性を提供す
る。
【0021】 クライアントは、リンクを通じて個々のHTMLページを呼び出す若しくはリ
クエストするサーバ5への接続をセットアップする。クライアントへのHTML
ページの送信に先立ち、サーバ5は、このHTMLページ4に、指定されたHT
MLタグ12における専用音声認識器のアドレスを割り当てる。用いられる音声
認識器18の種類や音声認識器の適合化についてのパラメータなどの他の詳細や
認識結果についての詳細に関する割当は、要求されたようにHTMLタグへ割り
当てられる。
【0022】 HTMLタグ12を含むHTMLページ4が読み出されると、追加ソフトウェ
ア14が起動する。この追加ソフトウェア14は、電気信号として有効な音声入
力の特徴の抽出を実行する。追加ソフトウェア14は、ウェブ・ブラウザ13の
一部でもよく、クライアント1、2、若しくは3上にローカルにインストールさ
れてもよい。
【0023】 クライアントは、HTMLタグ12にアドレスが示された音声認識器7、8、
若しくは9への接続をセットアップする。この音声認識器は、追加ソフトウェア
14によって生成された特徴ストリームを受信し、音声入力の音声認識を実行す
る。音声認識器7、8、若しくは9が音声入力を認識すると、それは音声認識器
7、8、若しくは9からクライアント1、2、若しくは3へ返され、そこでテキ
スト若しくは音声として発行される。
【0024】 別の実施形態において、認識結果がいかに用いられるべきかが、HTMLタグ
12における任意的成分を用いて、判断され得る。クライアント1〜3への返し
に加えて、認識結果をサーバ5へ送信し、その後、別のHTMLページ4を例え
ばクライアント1〜3へ送信する(ライン16によって示される)可能性もある
。例えば、クライアント1のユーザが、HTMLページ4として表示されている
日刊新聞を読んでいる間、「現在の温度」と言ったとする。この音声入力は、次
いで、音声認識を実行するために、HTMLタグ12において指定された音声認
識器7〜9へ送信される。音声認識結果の利用に関する表示において、認識され
たテキストは、クライアント1へ返されず、代わりにサーバ5へ返される。サー
バ5は、次いで、クライアント1へ、テキストとして挿入されるか或いは音声と
して出力される現在の温度に関する表示を送信する。
【0025】 図2は、別の実施形態例を示す。各クライアント1〜3は、サーバ5から異な
る内容のHTMLページ4をダウンロードする。これらHTMLページ4は、そ
れぞれHTMLタグ12を有する。このHTMLタグ12は、分配器10のアド
レス17を含む。分配器10のアドレス17に加えて、このHTMLラグ12は
、更に、認識結果の利用、用いられるべき音声認識器18の種類、および/若し
くはその適合を有する音声認識器に対するパラメータ、に関する詳細を含む。
【0026】 分配器10は、多様な音声認識器群を制御する。これら音声認識器は、更に、
異なる種類であってもよい。群7は、種類Raの多様な音声認識器Ra,nを有
する。群8は、別の種類Rbの音声認識器Rb,nを有する。種類Raの音声認
識器Ra,nの群7は、例えば数字の認識に特化されている。種類Rbの音声認
識器Rb,nの群8は、「Yes/No」の認識に特化されている。分配器10
は、多様なクライアント1〜3からの到来音声入力を、個々のHTMLラグ12
に書かれた音声認識器の種類に応じて、分配する。
【0027】 クライアント1及び2によって呼び出され、分配器10に割り当てられたHT
MLページ4は、用いられるべき音声認識器18の種類に応じて、種類Raの音
声認識器によって参照され得る。クライアント1及び2のユーザによって為され
た音声入力は、群7の分配器10によって、音声認識器Ra,nへ割り当てられ
る。クライアント3によって呼び出されたHTMLページ4は、音声認識器18
に応じて、種類Rbの音声認識器を有する必要がある。クライアント3のユーザ
によって為された音声入力は、群8の分配器10によって、種類Rb,nの音声
認識器へ割り当てられる。
【0028】 音声認識器Ra,1が音声入力の処理でビジー状態のとき、分配器10は同じ
種類の音声認識器Raに対する次の音声入力を次の音声認識器Ra,2へ導く。
ここの認識結果は、音声認識器R,nによってクライアント1〜3へ返され、そ
こで処理される。
【0029】 図3は、複数のクライアント1〜3が同じHTMLページ4にアクセスする場
合を示す。HTMLページ4がウェブ・ブラウザ13によって表示される場合、
それらは同じ内容を示す。 各HTMLタグ12は、アドレス・フィールド17に、IPアドレス、及び、ク
ライアント1、2、若しくは3から音声認識器7、8、若しくは9へのTCP/
IPリンク要のソケット・ポートを含む。このようにして、HTMLページ4の
サービス事業者は、サーバ5における音声認識器7、8、若しくは9、すなわち
ユーザによって発せられた音声を処理するための音声認識器7、8、若しくは9
、を決定する。クライアント1、2、若しくは3がインターネットを通じて個々
のHTMLページ4を呼び出すたびに、HTMLページ4には、個々の音声認識
器7、8、若しくは9のアドレス17を判断するHTMLタグ12がサーバ5に
よって割り当てられる。該HTMLページ4に対して単一の音声認識器7、8、
若しくは9が固定的に規定されていると、HTMLページ4が同時に多数のクラ
イアント1〜3によって呼び出された場合に多くの音声入力の迅速な処理が保証
されない。よって、このような場合、個々のHTMLページ4を呼び出した各ク
ライアント1、2、若しくは3には、HTMLタグ12毎に異なるアドレス17
によって、別の音声認識器7、8、若しくは9が割り当てられる。例えば、音声
認識器7は、HTMLページ4がクライアント1によってダウンロードされたと
きに、HTMLタグ12へ割り当てられる。音声認識器8は、音声入力の音声認
識のために、クライアント2へ割り当てられ、音声認識器9は、クライアント3
へ割り当てられる。これは、3人のユーザ全員に対する音声入力の迅速且つ高信
頼な音声認識を実現する。
【0030】 音声認識器の特殊な割当の一適用例を以下に示す。クライアント1が演劇番組
に関するHTMLページ4を呼び出す。クライアント2がサッカー番組に関する
HTMLページ4を呼び出し、クライアント3が航空機の接続に関するHTML
ページ4を呼び出す。これら3つのHTMLページ4すべてが異なる音声入力を
有することは明らかである。HTMLページ4のサービス事業者は、期待される
語彙を知っており、関連付けられたHTMLタグ12を用いて、各HTMLペー
ジ4に専用の音声認識器7、8、若しくは9を割り当てる。
【0031】 複数の音声入力が可能なHTMLページ4の場合、例えばフォームに記入する
ために、1以上のHTMLタグ12にも書かれた、異なる音声認識器7、8、若
しくは9が個々の音声入力フィールドに割り当てられ得る。いずれの音声入力が
現在処理されているかは、キーワードによって、ユーザの見ている方向を確立す
ることによって、マウスがどれだけ近いかによって、又は、優先度若しくはシー
ケンシャル順によって、区別され得る。
【図面の簡単な説明】
【図1】 音声認識器の割当を概略的に示す図である。
【図2】 分配器を用いた場合の音声認識器の割当を概略的に示す図である。
【図3】 多くのクライアントのHTMLページへのアクセス及び音声認識器の割当を概
略的に示す図である。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,UZ,VN,YU,ZA,ZW (72)発明者 テレン,エリク オランダ国,5656 アーアー アインドー フェン,プロフ・ホルストラーン 6 (72)発明者 ウルリヒ,マインハルト オランダ国,5656 アーアー アインドー フェン,プロフ・ホルストラーン 6 Fターム(参考) 5D015 KK02 LL10 LL12

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 音声入力可能な情報ユニットが、サーバ上に格納されると共
    に、通信ネットワークを通じて音声認識器に接続されることが可能なクライアン
    トによって取り出され得る方法において、 入力された信号を認識する少なくとも1つの音声認識器とクライアントとの組
    み合わせを決定するために用いられる追加情報が該情報ユニットに割り当てられ
    ることを特徴とする方法。
  2. 【請求項2】 請求項1記載の方法であって、 前記追加情報は、音声認識器を指定するアドレスに加えて、認識結果の処理及
    び/若しくは音声認識器の種類及び/若しくはその適合のために音声認識器へ転
    送されるべきパラメータに関する表示を含むことを特徴とする方法。
  3. 【請求項3】 請求項1記載の方法であって、 前記追加情報は、サーバによって前記情報ユニットへ割り当てられることを特
    徴とする方法。
  4. 【請求項4】 請求項1記載の方法であって、 前記割り当てられた追加情報を有する情報ユニットは、クライアントによって
    読み出されることを特徴とする方法。
  5. 【請求項5】 請求項1乃至4のいずれか一記載の方法であって、 入力音声信号は、認識のため、クライアントから、前記追加情報において示さ
    れたアドレスの音声認識器へ転送されることを特徴とする方法。
  6. 【請求項6】 請求項1記載の方法であって、 前記追加情報は、入力音声信号が運ばれる分配器のアドレスを含み、複数の音
    声認識器の一へ割り当てられることを特徴とする方法。
  7. 【請求項7】 請求項1記載の方法であって、 前記情報ユニットは、HTMLページとして実現され、前記追加情報は、HT
    MLタグとして実現されることを特徴とする方法。
  8. 【請求項8】 請求項1乃至7のいずれか一記載の方法であって、 一HTMLページに異なるクライアントから複数のアクセスがある場合に、各
    クライアントには、HTMLタグにおいて音声認識器の多様なアドレスが割り当
    てられることを特徴とする方法。
  9. 【請求項9】 請求項1乃至7のいずれか一記載の方法であって、 クライアントは、HTMLタグを含むHTMLページがダウンロードされたと
    きに起動し、該クライアントに適用された音声信号の特徴を抽出する追加ソフト
    ウェアを有することを特徴とする方法。
  10. 【請求項10】 請求項1乃至9のいずれか一記載の方法であって、 音声信号に関する特徴の抽出中に生成された特徴ストリームは、HTMLタグ
    において規定された、音声認識を実行し、認識結果をHTMLタグに含まれる表
    示に応じてクライアントに返す音声認識器へ適用されることを特徴とする方法。
  11. 【請求項11】 請求項10記載の方法であって、 前記認識結果は、HTMLタグに含まれる表示に応じてサーバへ返されること
    を特徴とする方法。
  12. 【請求項12】 1以上の音声認識器に接続され得るクライアントによって
    検索されることが可能であって、クライアントと入力音声信号を認識する音声認
    識器との間の組み合わせを決定する追加情報が割り当てられる情報ユニットが格
    納されたサーバ。
  13. 【請求項13】 通信ネットワークを通じて1以上の音声認識器へ接続され
    ることが可能であって、サーバ上に格納され、クライアントと入力音声信号を認
    識する音声認識器との間の組み合わせを決定する追加情報が割り当てられる情報
    ユニットを検索するように設けられるクライアント。
JP2000604399A 1999-03-09 2000-02-10 音声認識方法 Expired - Lifetime JP4597383B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19910236A DE19910236A1 (de) 1999-03-09 1999-03-09 Verfahren zur Spracherkennung
DE19910236.8 1999-03-09
PCT/EP2000/001143 WO2000054251A2 (en) 1999-03-09 2000-02-10 Method of speech recognition

Publications (2)

Publication Number Publication Date
JP2002539480A true JP2002539480A (ja) 2002-11-19
JP4597383B2 JP4597383B2 (ja) 2010-12-15

Family

ID=7900179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000604399A Expired - Lifetime JP4597383B2 (ja) 1999-03-09 2000-02-10 音声認識方法

Country Status (9)

Country Link
US (1) US6757655B1 (ja)
EP (1) EP1163661B1 (ja)
JP (1) JP4597383B2 (ja)
KR (1) KR20020003865A (ja)
CN (1) CN1343351A (ja)
AT (1) ATE257616T1 (ja)
AU (1) AU3153700A (ja)
DE (2) DE19910236A1 (ja)
WO (1) WO2000054251A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012515946A (ja) * 2009-01-22 2012-07-12 マイクロソフト コーポレーション 発話処理のための認識器のマークアップ言語ベースの選択及び利用
JP2014510942A (ja) * 2011-02-22 2014-05-01 スピーク・ウィズ・ミー・インコーポレイテッド ハイブリッド型クライアントサーバ音声認識
JP2014191246A (ja) * 2013-03-28 2014-10-06 Nec Corp 認識処理制御装置、認識処理制御方法および認識処理制御プログラム

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9911971D0 (en) * 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
US7330815B1 (en) 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US6931376B2 (en) * 2000-07-20 2005-08-16 Microsoft Corporation Speech-related event notification system
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
DE60125597T2 (de) * 2000-08-31 2007-05-03 Hitachi, Ltd. Vorrichtung für die Dienstleistungsvermittlung
EP1377965A1 (en) * 2000-09-07 2004-01-07 Koninklijke Philips Electronics N.V. Voice control and uploadable user control information
JP2002116796A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
JP3326424B2 (ja) 2000-10-23 2002-09-24 株式会社ジー・エフ 電話応答装置、及び電話応答装置で実現する各種の応答機能を記述した各手順ファイルを取得して電話応答する方法
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US7571102B2 (en) * 2003-04-29 2009-08-04 Ford Motor Company Controller for use with a motor vehicle
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
ATE373380T1 (de) * 2004-05-18 2007-09-15 Alcatel Lucent Verfahren und server zur bereitstellung eines multi-modalen dialogs
KR100695127B1 (ko) 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
GB2424560B (en) * 2005-02-15 2009-04-29 David Llewellyn Rees User interface for systems with automatic conversion from text to an acoustic representation
CA2618626C (en) * 2005-08-09 2016-10-18 Stephen S. Burns A voice controlled wireless communication device system
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
CN101326571B (zh) * 2005-12-07 2012-05-23 三菱电机株式会社 声音识别装置
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8996379B2 (en) 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US20080228493A1 (en) * 2007-03-12 2008-09-18 Chih-Lin Hu Determining voice commands with cooperative voice recognition
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
TWI411981B (zh) * 2008-11-10 2013-10-11 Inventec Corp 提供真人引導發音之語言學習系統、伺服器及其方法
US8346549B2 (en) 2009-12-04 2013-01-01 At&T Intellectual Property I, L.P. System and method for supplemental speech recognition by identified idle resources
CN102571882A (zh) * 2010-12-31 2012-07-11 上海博泰悦臻电子设备制造有限公司 基于网络的语音提醒的方法和系统
JP5637131B2 (ja) * 2011-12-26 2014-12-10 株式会社デンソー 音声認識装置
FR3045909B1 (fr) * 2015-12-17 2017-12-29 Delta Dore Procede et dispositif d'analyse et de repartition de commandes vocales
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
CN108615527B (zh) * 2018-05-10 2021-10-15 腾讯科技(北京)有限公司 基于同声传译的数据处理方法、装置和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10177468A (ja) * 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索通信システム
WO2000030072A1 (en) * 1998-11-13 2000-05-25 Motorola Limited Mitigating errors in a distributed speech recognition process

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
JPH0863478A (ja) 1994-08-26 1996-03-08 Toshiba Corp 言語処理方法及び言語処理装置
US5745776A (en) * 1995-04-19 1998-04-28 Sheppard, Ii; Charles Bradford Enhanced electronic dictionary
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5710918A (en) * 1995-06-07 1998-01-20 International Business Machines Corporation Method for distributed task fulfillment of web browser requests
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6122613A (en) 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
GB2323693B (en) 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6112176A (en) * 1997-05-16 2000-08-29 Compaq Computer Corporation Speech data collection over the world wide web
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6233559B1 (en) * 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
US6115686A (en) * 1998-04-02 2000-09-05 Industrial Technology Research Institute Hyper text mark up language document to speech converter

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10177468A (ja) * 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索通信システム
WO2000030072A1 (en) * 1998-11-13 2000-05-25 Motorola Limited Mitigating errors in a distributed speech recognition process

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012515946A (ja) * 2009-01-22 2012-07-12 マイクロソフト コーポレーション 発話処理のための認識器のマークアップ言語ベースの選択及び利用
US8515762B2 (en) 2009-01-22 2013-08-20 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing
JP2014510942A (ja) * 2011-02-22 2014-05-01 スピーク・ウィズ・ミー・インコーポレイテッド ハイブリッド型クライアントサーバ音声認識
US9674328B2 (en) 2011-02-22 2017-06-06 Speak With Me, Inc. Hybridized client-server speech recognition
US10217463B2 (en) 2011-02-22 2019-02-26 Speak With Me, Inc. Hybridized client-server speech recognition
JP2014191246A (ja) * 2013-03-28 2014-10-06 Nec Corp 認識処理制御装置、認識処理制御方法および認識処理制御プログラム

Also Published As

Publication number Publication date
WO2000054251A3 (en) 2000-12-28
WO2000054251A2 (en) 2000-09-14
KR20020003865A (ko) 2002-01-15
DE60007620D1 (de) 2004-02-12
EP1163661A2 (en) 2001-12-19
DE19910236A1 (de) 2000-09-21
US6757655B1 (en) 2004-06-29
ATE257616T1 (de) 2004-01-15
CN1343351A (zh) 2002-04-03
AU3153700A (en) 2000-09-28
EP1163661B1 (en) 2004-01-07
JP4597383B2 (ja) 2010-12-15
DE60007620T2 (de) 2004-11-18

Similar Documents

Publication Publication Date Title
JP2002539480A (ja) 音声認識方法
US7003464B2 (en) Dialog recognition and control in a voice browser
US7536454B2 (en) Multi-modal communication using a session specific proxy server
US6708153B2 (en) Voice site personality setting
EP0477688B1 (en) Voice recognition telephone dialing
EP1125279B1 (en) System and method for providing network coordinated conversational services
US6941273B1 (en) Telephony-data application interface apparatus and method for multi-modal access to data applications
US8463608B2 (en) Interactive speech recognition model
US20090287477A1 (en) System and method for providing network coordinated conversational services
JP2002525689A (ja) スピーチ認識システムを構成する方法及びシステム
MX2007013015A (es) Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes.
US20040037401A1 (en) Interactive voice response system and a method for use in interactive voice response system
JP2003520983A (ja) 改良されたテキスト−音声変換
JP2002539481A (ja) 複数の音声認識器を用いる方法
CN107808007A (zh) 信息处理方法和装置
US20030233238A1 (en) Distributed voice browser
US8583437B2 (en) Speech synthesis with incremental databases of speech waveforms on user terminals over a communications network
CN107103899A (zh) 输出语音消息的方法和装置
WO2002052831A1 (fr) Systeme de terminal mobile de radiocommunications
JP2002132646A (ja) コンテンツインタポレーティングウェブプロキシサーバ
KR20090076318A (ko) 실시간 대화 서비스 시스템 및 그 방법
GB2263042A (en) Voice activated system and method
US20050102147A1 (en) Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units
JP2003502752A (ja) 通信ネットワークにおける音声ナビゲーションおよび情報部分における音声入力機能を実行するための方法
JP2003259009A (ja) 音声入力装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100409

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100831

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100922

R150 Certificate of patent or registration of utility model

Ref document number: 4597383

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term