JP4597383B2

JP4597383B2 - 音声認識方法

Info

Publication number: JP4597383B2
Application number: JP2000604399A
Authority: JP
Inventors: ベスリンク，シュテファン; テレン，エリク; ウルリヒ，マインハルト
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-03-09
Filing date: 2000-02-10
Publication date: 2010-12-15
Anticipated expiration: 2020-02-10
Also published as: AU3153700A; JP2002539480A; CN1343351A; WO2000054251A3; DE60007620D1; ATE257616T1; EP1163661B1; WO2000054251A2; KR20020003865A; DE19910236A1; US6757655B1; EP1163661A2; DE60007620T2

Description

【０００１】
本発明は、音声入力可能な情報ユニットが、サーバ上に格納されると共に、通信ネットワークを通じて音声認識器に接続されることが可能なクライアントによって取り出され得る方法に関する。
【０００２】
キーボード若しくはマウスの代わりに音声入力によってコンピュータとの通信を実行する可能性は、ユーザにコンピュータでの作業を楽にさせると共に、入力スピードもしばしば向上させる。音声認識は、近年キーボードによって入力されてきた多くの分野において、用いられ得る。この論点は、ほとんどの様々な性質を有し得ることは明らかである。他方、音声認識中、計算力上に厳しい要求が作られ、これはしばしばローカル・コンピュータ（クライアント）上では十分に使用可能ではない。特に多くの語彙を有する話者から独立した音声認識にとって、クライアントの計算力はしばしば不十分である。音声入力の高信頼且つ高速の音声認識を可能にするために、パワのあるコンピュータ上で動く専用音声認識器上で音声認識を実行することが賢明である。
【０００３】
ＥＰ０８７２８２７は、音声認識方法及びシステムを開示している。音声認識用圧縮ソフトウェアが実行されるクライアントは、ネットワークを通じて音声認識サーバへ接続される。クライアントは、音声認識グラマ及び音声入力データを音声認識サーバへ送信する。音声認識サーバは、音声認識を実行し、認識結果をクライアントへ返す。
【０００４】
冒頭段落に開示されたクライアント／サーバ音声認識システムにおける欠点は、ＨＴＭＬ（Ｈｙｐｅｒ−ＴｅｘｔＭａｒｋｕｐ−Ｌａｎｇｕａｇｅ）ページは多くのユーザによって同時にアクセスされ、結果として起こる多くの音声入力によってフル荷重が掛かるため、音声認識は許容し得ない処理時間を要求することである。
【０００５】
よって、本発明の目的は、音声入力の認識について高認識品質を保ちつつ、処理時間を許容し得るものとすることである。
【０００６】
この目的は、クライアントが複数の音声認識器へ接続されることが可能であって、クライアントの入力された音声信号を認識する少なくとも１つの音声認識器との組み合わせを決定するために用いられる追加情報が情報ユニットに割り当てられることによって、実現される。
【０００７】
クライアントは、例えばインターネットなどの通信ネットワークを通じて接続されたサーバから、情報ユニットをダウンロードする。この情報ユニットは、サーバ上に格納され、ユーザに音声入力の可能性を提供する。サーバは、その上にクライアントによって取り出され得る提供者からの情報を格納した、例えばインターネットなどの通信ネットワークにおけるコンピュータである。クライアントは、インターネットから情報を取り出し、ソフトウェアによって情報ユニットを表示するためにサーバ上に格納された該情報ユニットをダウンロードするコンピュータである。クライアントは計算力が限定されているため、音声認識はクライアント上では為されず、代わりに通信ネットワークを通じてクライアントに接続された音声認識器上で為される。クライアントと専用音声認識器とを組み合わせるために、サーバは、該サーバ上に格納された情報ユニットに追加情報を割り当てる。この追加情報は、情報ユニットと組み合わせられ、ダウンロード中にクライアントへ同時に転送される。該追加情報によって、情報ユニットには、このダウンロードされた情報ユニットに特化して調和された音声認識器が割り当てられ、この音声認識器が音声認識を実行する。
【０００８】
追加情報は、例えば、テーマ分野、音声認識器の種類、若しくは音声認識器の完全利用などの所定の基準に従って、サーバによって発行される。結果として、専用音声認識器は、ダウンロードされた情報ユニット毎に選択され、高い品質及び短い処理時間を有する音声入力の音声認識を実行する。
【０００９】
これは、期待されている語彙を知っている情報ユニットの提供者が、音声認識器を選択し、この音声認識器と上記情報ユニットとを組み合わせる、という利点を有する。音声入力の認識品質は、該提供者によって制御される音声認識器の割当によって大幅に向上させ得る。なぜなら、該提供者によってサーバ上に格納された個々の情報ユニットに関して常に同様の音声入力が予期され得るからである。ユーザによって決定された音声認識器に関しては、これら音声認識器は非常に幅広い用途分野からの音声入力を認識しなければならない。例えばウェブ・ブラウザなどの上記固定された音声認識器の接続に関して、音声認識器は、幅広いレンジの用途分野に対して十分に専用化されていないため、この固定された接続は、認識結果の品質に悪影響を与える。
【００１０】
上記追加情報は、通信ネットワークにおける専用音声認識器のアドレスを含むことが好ましい。更に、該追加情報は、認識結果の適合に関する選択表示を含む。最も簡素な場合、認識結果は、クライアントに返され、そこでテキスト若しくは音声として生成される。それに加えて、上記追加情報は、用いられる音声認識器の種類が正確に指定された選択表示を含む。該追加情報は、更に、例えば、該音声入力に対して該音声認識器を適合させるための語彙若しくはパラメータを含み得ると共に、上記音声認識器に対する適合化を実行し得る。別のパラメータの任意的転送は、音声認識のスピード及び／若しくは品質を向上させる。
【００１１】
本発明の有益な実施形態においては、分配器のアドレスが追加情報において示される。この分配器は、複数の音声認識器を制御する。例えば、同じ種類の複数の音声認識器、又は、数字若しくは「Ｙｅｓ／Ｎｏ」などの単純な発声の認識のみに供される音声認識器群、が一分配器に属する。追加情報によって指定された分配器は、複数のクライアントからの音声信号を、それらに対して有効な音声認識器へ割り当てる。結果として、音声入力のより迅速な処理が実現されるだけでなく、音声認識器への負荷を均一にすることができる。
【００１２】
本発明の別の実施形態として、クライアントがサーバからＨＴＭＬページの形式で情報ユニットをダウンロードすることが提案される。これらＨＴＭＬページは、クライアント上でウェブ・ブラウザによって、若しくはそれらを表示するのに適した別のアプリケーションによって、示される。上記情報ユニットは、更に、ウェブ・ページとしても実現され得る。このＨＴＭＬページをダウンロードするために、クライアントは該ＨＴＭＬページが格納されたサーバへの接続をセットアップする。ダウンロード中、データはＨＴＭＬコードの形式でクライアントへ送信される。このＨＴＭＬコードは、例えばＨＴＭＬタグとして実現される追加情報を含む。このダウンロードされたＨＴＭＬページは、ウェブ・ブラウザによって示され、ユーザは音声を入力し得る。同時に送信されたＨＴＭＬタグは、該音声入力を認識するために設けられた音声認識器を定義する。音声入力の認識のために、クライアントは、通信ネットワークを通じて、音声認識器への接続をセットアップする。音声入力は、音声認識器へ送信され、そこで認識され、認識結果が、例えばクライアントへ、返される。
【００１３】
本発明の有益な実施形態において、複数のクライアントがＨＴＭＬページにアクセスする場合、個別のＨＴＭＬタグが各個別のクライアントに割り当てられる。このため、サーバは、複数のクライアントがアクセスするＨＴＭＬページ毎に異なる音声認識器のアドレスを割り当てる。これにより、一ＨＴＭＬページに多くのアクセスがある場合に、複数の音声認識器が音声入力を処理することができ、よってより迅速な認識を可能にすることができる。異なるタイム・ゾーンからのユーザがアクセスを実行する場合、タイム・ゾーン毎に音声認識器が割り当てられ得る。前述の分配器が音声認識器を割り当てるのに用いられる場合であって、複数のクライアントが一ＨＴＭＬページにアクセスし、且つ分配器によって制御される音声認識器が音声認識中の品質要求を満たさない場合、ＨＴＭＬタグは異なる分配器のアドレスを示す。
【００１４】
本発明の好ましい別の実施形態においては、音声入力は、クライアント上で追加ソフトウェアによって前処理される。この追加ソフトウェアは、音声入力に基づいたＨＴＭＬページがダウンロードされるときに個々のサーバからダウンロードされ得る。別の方法として、該追加ソフトウェアはウェブ・ブラウザにオプションとして統合されてもよく、クライアント上にローカルにインストールされてもよい。この追加ソフトウェアは、個々のＨＴＭＬページがダウンロードされ、ユーザが音声を入力し、音声入力の特徴が抽出されたときに、開始される。電気信号として有効な音声入力は、ディジタル化され、量子化され、特徴ベクトルへ割り当てられる成分を生成する個々の分析を受ける。クライアントがＨＴＭＬタグに書かれた音声認識器若しくは分配器への接続をセットアップすると、特徴ベクトルは、通信ネットワークを通じて、音声認識器若しくは分配器へ送信される。音声認識器は、計算集約認識を実行する。クライアント上で実行された特徴の抽出の結果として、音声入力は圧縮され、コード化されるため、送信されるべきデータ数が低減される。更に、クライアント側での特徴抽出に掛かる時間が低減されるため、音声認識器はそこに適用された特徴ベクトルの認識のみを行う。この低減は、頻繁に用いられる音声認識器にとって有益となり得る。
【００１５】
本発明の別の実施形態において、認識結果がいかに用いられるべきであるかについて音声認識器若しくは分配器に伝達するＨＴＭＬタグ表示を与えることが提供される。これらの表示は、認識された音声入力がクライアントへ返されるか、若しくはサーバへ返されるかを決定し得る。サーバへ返される場合、例えば、別のＨＴＭＬページがサーバからクライアントへ送信され得る。クライアントへ返される認識結果は、更に、ある基準に従って認識されたテキストから導かれ得る。
【００１６】
本発明は、更に、１以上の音声認識器へ接続され得るクライアントによって取り出され得る情報ユニットが格納されたサーバに関し、該情報ユニットには、クライアントと入力された音声信号を認識する音声認識器との間の組み合わせを確立するために、追加情報が割り当てられる。
【００１７】
更に、本発明は、通信ネットワークを通じて１以上の音声認識機に接続されることが可能で、サーバ上に格納された情報ユニットを検索するために設けられたクライアントにも関し、該情報ユニットには、クライアントと入力された音声信号を認識する音声認識器との間の組み合わせを確立するために、追加情報が割り当てられる。
【００１８】
本発明の実施形態の例は、図面を参照して、以下において更に説明される。
【００１９】
図１は、音声認識方法を実施する装置を示す。クライアント１、２、及び３は、通信ネットワーク６を通じて、サーバ５へ接続されている。このサーバ５から、クライアント１、２、及び３は、ＨＴＭＬページ４の形式で、情報ユニット４をダウンロードする。これらＨＴＭＬページ４は、ウェブ・ブラウザ１３によって、クライアント１、２、及び３上に表示される。クライアント１〜３によってリクエストされたＨＴＭＬページ４は、サーバ５上に格納されている。サービス事業者がユーザに伝達したいと思っている情報ユニット４の内容は、ＨＴＭＬコードによって、サーバ５からクライアント１、２、若しくは３へ送信される。このＨＴＭＬコード化されたデータ・ストリームは、表示されるべき内容に加えて、例えばＨＴＭＬタグ１２の形式のフォーマット命令及び追加情報１２を含む。
【００２０】
表示されたＨＴＭＬページ４の内容必ずしも音声入力の内容につながっている必要はないが、ＨＴＭＬページ４は、ユーザに、音声を入力する可能性を提供する。
【００２１】
クライアントは、リンクを通じて個々のＨＴＭＬページを呼び出す若しくはリクエストするサーバ５への接続をセットアップする。クライアントへのＨＴＭＬページの送信に先立ち、サーバ５は、このＨＴＭＬページ４に、指定されたＨＴＭＬタグ１２における専用音声認識器のアドレスを割り当てる。用いられる音声認識器１８の種類や音声認識器の適合化についてのパラメータなどの他の詳細や認識結果についての詳細に関する割当は、要求されたようにＨＴＭＬタグへ割り当てられる。
【００２２】
ＨＴＭＬタグ１２を含むＨＴＭＬページ４が読み出されると、追加ソフトウェア１４が起動する。この追加ソフトウェア１４は、電気信号として有効な音声入力の特徴の抽出を実行する。追加ソフトウェア１４は、ウェブ・ブラウザ１３の一部でもよく、クライアント１、２、若しくは３上にローカルにインストールされてもよい。
【００２３】
クライアントは、ＨＴＭＬタグ１２にアドレスが示された音声認識器７、８、若しくは９への接続をセットアップする。この音声認識器は、追加ソフトウェア１４によって生成された特徴ストリームを受信し、音声入力の音声認識を実行する。音声認識器７、８、若しくは９が音声入力を認識すると、それは音声認識器７、８、若しくは９からクライアント１、２、若しくは３へ返され、そこでテキスト若しくは音声として発行される。
【００２４】
別の実施形態において、認識結果がいかに用いられるべきかが、ＨＴＭＬタグ１２における任意的成分を用いて、判断され得る。クライアント１〜３への返しに加えて、認識結果をサーバ５へ送信し、その後、別のＨＴＭＬページ４を例えばクライアント１〜３へ送信する（ライン１６によって示される）可能性もある。例えば、クライアント１のユーザが、ＨＴＭＬページ４として表示されている日刊新聞を読んでいる間、「現在の温度」と言ったとする。この音声入力は、次いで、音声認識を実行するために、ＨＴＭＬタグ１２において指定された音声認識器７〜９へ送信される。音声認識結果の利用に関する表示において、認識されたテキストは、クライアント１へ返されず、代わりにサーバ５へ返される。サーバ５は、次いで、クライアント１へ、テキストとして挿入されるか或いは音声として出力される現在の温度に関する表示を送信する。
【００２５】
図２は、別の実施形態例を示す。各クライアント１〜３は、サーバ５から異なる内容のＨＴＭＬページ４をダウンロードする。これらＨＴＭＬページ４は、それぞれＨＴＭＬタグ１２を有する。このＨＴＭＬタグ１２は、分配器１０のアドレス１７を含む。分配器１０のアドレス１７に加えて、このＨＴＭＬラグ１２は、更に、認識結果の利用、用いられるべき音声認識器１８の種類、および／若しくはその適合を有する音声認識器に対するパラメータ、に関する詳細を含む。
【００２６】
分配器１０は、多様な音声認識器群を制御する。これら音声認識器は、更に、異なる種類であってもよい。群７は、種類Ｒａの多様な音声認識器Ｒａ，ｎを有する。群８は、別の種類Ｒｂの音声認識器Ｒｂ，ｎを有する。種類Ｒａの音声認識器Ｒａ，ｎの群７は、例えば数字の認識に特化されている。種類Ｒｂの音声認識器Ｒｂ，ｎの群８は、「Ｙｅｓ／Ｎｏ」の認識に特化されている。分配器１０は、多様なクライアント１〜３からの到来音声入力を、個々のＨＴＭＬラグ１２に書かれた音声認識器の種類に応じて、分配する。
【００２７】
クライアント１及び２によって呼び出され、分配器１０に割り当てられたＨＴＭＬページ４は、用いられるべき音声認識器１８の種類に応じて、種類Ｒａの音声認識器によって参照され得る。クライアント１及び２のユーザによって為された音声入力は、群７の分配器１０によって、音声認識器Ｒａ，ｎへ割り当てられる。クライアント３によって呼び出されたＨＴＭＬページ４は、音声認識器１８に応じて、種類Ｒｂの音声認識器を有する必要がある。クライアント３のユーザによって為された音声入力は、群８の分配器１０によって、種類Ｒｂ，ｎの音声認識器へ割り当てられる。
【００２８】
音声認識器Ｒａ，１が音声入力の処理でビジー状態のとき、分配器１０は同じ種類の音声認識器Ｒａに対する次の音声入力を次の音声認識器Ｒａ，２へ導く。ここの認識結果は、音声認識器Ｒ，ｎによってクライアント１〜３へ返され、そこで処理される。
【００２９】
図３は、複数のクライアント１〜３が同じＨＴＭＬページ４にアクセスする場合を示す。ＨＴＭＬページ４がウェブ・ブラウザ１３によって表示される場合、それらは同じ内容を示す。
各ＨＴＭＬタグ１２は、アドレス・フィールド１７に、ＩＰアドレス、及び、クライアント１、２、若しくは３から音声認識器７、８、若しくは９へのＴＣＰ／ＩＰリンク要のソケット・ポートを含む。このようにして、ＨＴＭＬページ４のサービス事業者は、サーバ５における音声認識器７、８、若しくは９、すなわちユーザによって発せられた音声を処理するための音声認識器７、８、若しくは９、を決定する。クライアント１、２、若しくは３がインターネットを通じて個々のＨＴＭＬページ４を呼び出すたびに、ＨＴＭＬページ４には、個々の音声認識器７、８、若しくは９のアドレス１７を判断するＨＴＭＬタグ１２がサーバ５によって割り当てられる。該ＨＴＭＬページ４に対して単一の音声認識器７、８、若しくは９が固定的に規定されていると、ＨＴＭＬページ４が同時に多数のクライアント１〜３によって呼び出された場合に多くの音声入力の迅速な処理が保証されない。よって、このような場合、個々のＨＴＭＬページ４を呼び出した各クライアント１、２、若しくは３には、ＨＴＭＬタグ１２毎に異なるアドレス１７によって、別の音声認識器７、８、若しくは９が割り当てられる。例えば、音声認識器７は、ＨＴＭＬページ４がクライアント１によってダウンロードされたときに、ＨＴＭＬタグ１２へ割り当てられる。音声認識器８は、音声入力の音声認識のために、クライアント２へ割り当てられ、音声認識器９は、クライアント３へ割り当てられる。これは、３人のユーザ全員に対する音声入力の迅速且つ高信頼な音声認識を実現する。
【００３０】
音声認識器の特殊な割当の一適用例を以下に示す。クライアント１が演劇番組に関するＨＴＭＬページ４を呼び出す。クライアント２がサッカー番組に関するＨＴＭＬページ４を呼び出し、クライアント３が航空機の接続に関するＨＴＭＬページ４を呼び出す。これら３つのＨＴＭＬページ４すべてが異なる音声入力を有することは明らかである。ＨＴＭＬページ４のサービス事業者は、期待される語彙を知っており、関連付けられたＨＴＭＬタグ１２を用いて、各ＨＴＭＬページ４に専用の音声認識器７、８、若しくは９を割り当てる。
【００３１】
複数の音声入力が可能なＨＴＭＬページ４の場合、例えばフォームに記入するために、１以上のＨＴＭＬタグ１２にも書かれた、異なる音声認識器７、８、若しくは９が個々の音声入力フィールドに割り当てられ得る。いずれの音声入力が現在処理されているかは、キーワードによって、ユーザの見ている方向を確立することによって、マウスがどれだけ近いかによって、又は、優先度若しくはシーケンシャル順によって、区別され得る。
【図面の簡単な説明】
【図１】音声認識器の割当を概略的に示す図である。
【図２】分配器を用いた場合の音声認識器の割当を概略的に示す図である。
【図３】多くのクライアントのＨＴＭＬページへのアクセス及び音声認識器の割当を概略的に示す図である。

Claims

通信ネットワークを通じて音声認識器に接続されることが可能なクライアントによって取り出され得、ユーザが音声を入力することを可能にする情報ユニットをサーバが記憶しており、
その情報ユニットについて入力された音声信号を認識する少なくとも１つの音声認識器とクライアントとの組み合わせを指定する追加情報を前記サーバが該情報ユニットに割り当てることを特徴とする方法。
請求項１記載の方法であって、
前記追加情報は、音声認識器を指定するアドレスに加えて、認識結果の処理及び／若しくは音声認識器の種類及び／若しくはその適合のために音声認識器へ転送されるべきパラメータに関する指標を含むことを特徴とする方法。
請求項１または２記載の方法であって、
前記追加情報は、クライアントによって前記情報ユニットが要求されたときに前記サーバによって前記情報ユニットへ割り当てられることを特徴とする方法。
請求項１乃至３のいずれか一記載の方法であって、
前記割り当てられた追加情報を有する情報ユニットは、クライアントによって読み出されることを特徴とする方法。
請求項１乃至４のいずれか一記載の方法であって、
入力音声信号は、認識のため、クライアントから、前記追加情報において示されたアドレスの音声認識器へ転送されることを特徴とする方法。
請求項１記載の方法であって、
前記追加情報は分配器のアドレスを含み、前記入力信号はそのアドレスにある分配器に運ばれ、その分配器によって複数の音声認識器の一に割り当てられることを特徴とする方法。
請求項１乃至６のいずれか一記載の方法であって、
前記情報ユニットは、ＨＴＭＬページとして実現され、前記追加情報は、ＨＴＭＬタグとして実現されることを特徴とする方法。
請求項１乃至７のいずれか一記載の方法であって、
一情報ユニットに異なるクライアントから複数のアクセスがある場合に、前記サーバは各クライアントに、前記追加情報において異なる音声認識器のアドレスを割り当てることを特徴とする方法。
請求項１乃至７のいずれか一記載の方法であって、
クライアントは、前記追加情報を含む前記情報ユニットが該クライアントにダウンロードされたときに起動し、該クライアントにおいて入力された音声信号の特徴を抽出する追加ソフトウェアを有することを特徴とする方法。
請求項９記載の方法であって、
音声信号に関する特徴の抽出中に生成された特徴ストリームは、前記追加情報において規定された、音声認識を実行し認識結果を前記追加情報に含まれる指標に応じてクライアントに返す音声認識器に適用されることを特徴とする方法。
請求項１０記載の方法であって、
前記認識結果は、前記追加情報に含まれる指標に応じてサーバに送られることを特徴とする方法。
１以上の音声認識器に接続され得るクライアントによって検索されることが可能な情報ユニットが格納されたサーバであって、クライアントと前記情報ユニットについて入力音声信号を認識する音声認識器との間の組み合わせを指定する追加情報を前記情報ユニットに割り当てるよう構成されている、サーバ。
通信ネットワークを通じて１以上の音声認識器に接続されることが可能なクライアントであって、サーバ上に格納された情報ユニットであって、クライアントと前記情報ユニットについて入力音声信号を認識する音声認識器との間の組み合わせを指定する追加情報が割り当てられている情報ユニットを検索するように設けられるクライアント。