JP2005510771A

JP2005510771A - バージイン対話システムの操作方法

Info

Publication number: JP2005510771A
Application number: JP2003548230A
Authority: JP
Inventors: ヘルビンク，マルク; ベネケン，フランク
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-11-29
Filing date: 2002-11-26
Publication date: 2005-04-21
Anticipated expiration: 2022-11-26
Also published as: DE60217902D1; US20050038659A1; EP1451808A1; DE60217902T2; DE10158583A1; WO2003046887A1; AU2002365496A1; JP4469176B2; ATE352835T1; EP1451808B1

Abstract

バージイン対話システムの複数ユーザ処理のための方法が開示される。本対話システムは、複数のユーザのための複数のアクセスチャンネルを有するフロントエンドコンピュータユニットと、各自が複数の音声処理ユニットを有する複数のサーバとを有する。各音声処理ユニットは、音声行動検出器と音声認識ユニットを有する。システムとユーザとの対話中、可能な限りサーバの利用を一様にするため、様々な時点において、新しい音声処理ユニットがユーザにより配置されたアクセスチャンネルに繰り返し割り当てられる。音声行動検出器は、この時点で音声処理ユニットが割り当てられているチャンネルにアクセスチャンネル上の入力音声信号を検出し、音声認識ユニットを起動する。さらに、対応するバージイン対話システムが説明される。

Description

発明の詳細な説明

本発明は、複数のユーザによる並行利用、すなわち、いわゆる「マルチユーザ操作」での利用のためのバージイン対話システム（ｂａｒｇｅ−ｉｎｄｉａｌｏｇｕｅｓｙｓｙｔｅｍ）の操作方法に関する。さらに、本発明は、対応するバージイン対話システムに関する。バージイン対話システムは、ユーザによる実行中のシステム出力の中断が可能な音声対話システムとして理解されるものである。

音声認識及び/または音声出力装置を利用しながらユーザと通信する音声対話システムは、以前からよく知られていた。このような例として、特に、自動電話応答機や照会システムは、発信者に所望の情報をできる限り早くかつ便利な方法により提供し、発信者の特定の要望に適した場所に接続するため、いくつかの大企業や事務所により利用されてきた。さらなるこのような例として、自動電話番号案内システム、自動時刻表システム、映画や劇場のプログラムのような特定地域におけるイベントの一般情報による情報サービス、あるいはこれら様々な照会システムを組み合わせたものなどがあげられる。このような音声制御自動対話システムは、ボイスポータル（ｖｏｉｃｅｐｏｒｔａｌ）または言語アプリケーションとしてしばしば呼ばれる。

様々なユーザに同時に役立つように、対話システムはこれらユーザのための複数のアクセスチャンネルを備える必要がある。これらは、ユーザが音声コマンドを対話システムに入力するためのマイクロフォンとの音響ユーザインタフェース、ユーザに音響システムの出力を提供するためのスピーカ（ｌｏｕｄｓｐｅａｋｅｒ）やヘッドフォンなどを備えたユーザの適当な端末への接続のためのアクセスチャンネルであってもよい。例えば、この端末は電話、携帯無線装置やユーザのＰＣであってもよく、アクセスチャンネルは対応する電話及び/またはインターネット接続であってもよい。定置式対話システムは、例えば、駅、空港、博物館などの公共の場所にある端末であるかもしれない、アクセスチャンネルは、例えば、ユーザと端末との通信を可能にするヘッドフォンなどであってもよい。さらに、音声対話システムは一般に、各アクセスチャンネルに対してソフトウェアモジュールの形態での対話制御機能を備えている。この対話制御機能は、各アクセスチャンネルを介しユーザとの対話処理を制御し、例えば、対話処理のある位置で、システム出力を各アクセスチャンネルを介しユーザに与える。

システム出力−一般にはプロンプト（ｐｒｏｍｐｔ）と呼ばれる−は、例えば、ユーザへの入力の要求やユーザから要求された情報であってもよい。そのような音響プロンプトを生成するため、音声対話システムは、例えば、対話システムのテキスト情報をユーザのための音声に変換し、アクセスチャンネルを介して出力するテキスト音声変換器のような適当な音声出力装置を有する必要がある。しかしながら、音声出力装置はまた、適当な時点でユーザに再生される格納されている既製の音声ファイルを備えていてもよい。概して、音声対話システムは、各アクセスチャンネルに対してそれ自身の音声出力装置を備えている。しかしながら、より多くのアクセスチャンネルが共通の音声出力装置を共有することも可能である。

アクセスチャンネルに入力される音声信号、すなわち、単語、単語が結合したもの、文などのユーザが発する任意の音声を認識し、それに応じた反応ができるように、音声認識ユニット−通常ソフトウェアモジュール−が利用される。音声信号の音声データはこの目的のため音声認識ユニットに送られ、音声認識ユニットは、例えば、対話制御機能に認識結果を送出する。

音声認識には比較的大規模なコンピュータが必要とされるため、複数のユーザを処理する対話システムはしばしば複数のコンピュータユニットから物理的に構築される。このとき、システムは、複数のアクセスチャンネル（ポート）を有するいわゆる１以上のフロントエンドコンピュータユニットから構成される。通常、フロントエンドコンピュータユニットは、アクセスチャンネルを介しユーザと直接通信するシステムのコンピュータユニットである。アクセスチャンネルに固定的に割り当てられた対話制御機能が、各フロントエンドコンピュータユニットに配置されている。また、音声出力装置がフロントエンドコンピュータユニットに配置されてもよい。他方、単独あるいは複数の音声認識ユニットが、音声認識に利用可能な必要となる計算パワーを提供することができる、以下においてサーバと呼ばれる別のコンピュータユニットに配置される。大規模システムでは、実際上システムでは複数のサーバが利用され、１以上の音声認識ユニットが各サーバにおいて実現されることが多い。

各アクセスチャンネルにための対話制御機能は、例えば、プロンプトの終わりのような適当な時点において利用可能な音声認識ユニットを選択し、ユーザから入力された音声信号が即座に処理及び認識できるようアクセスチャンネルに割り当てることができる。音声認識ユニットを有するサーバに均等に負荷がかけられるように、利用可能な音声認識ユニットの選択が可能であることが望ましい。この結果、システムの能力の最適な利用と最大処理スピードを達成することができる。このような手続きは、対話システムまたは対話制御機能がそれぞれ予め音声認識ユニットが各アクセスチャンネルに対していつ必要かわかっている場合にのみ通常可能である。ある時点でのみ、すなわち、プロンプトの終了後のみユーザによる入力を可能にする対話システムでは、これは問題とはならない。しかしながら、そのようなシステムはユーザに対する行動という点ではやや不自然なものである。周知のように、ユーザは対話システムが入力を要求する前に応答する傾向がある。このようなケースは、特にシステムがユーザにどのような入力を要求しているか、当該部分の対話でユーザにどのような可能性が利用可能かについてユーザがすでに性格に知っているかあるいは推測できる場合に起こる。さらに、このようなシステム出力の中断は、ユーザが中断を望む情報が出力されるたびに発生する。実行中のシステム出力のユーザによる中断を可能にするバージイン対話システムは、ユーザ行動の観点からより自然なものである。さらに、このようなシステムは、常にユーザによる介入を可能にし、プロンプトの終了を待つ必要がなく、対話ルーチンにおける所望の情報が出力される位置により早く到達することができるため、ユーザにより高い快適性を提供することができる。

バージイン対話システムに必要である、任意の時点においてユーザの音声信号が認識されることを保証するため、様々な可能性が存在する。

１つの可能性は、各アクセスチャンネルにそれ自身の音声処理ユニットが固定的に割り当てられる事実から構成される。アクセスチャンネル数が多数の場合、それに応じて音声認識ユニットも多数備えられる必要がある。システムは関連付けされた音声認識ユニットが同時に必要となるアクセスチャンネルの何れかに影響を及ぼさないため、ある時点においてサーバに過大な負荷が与えられることになる。そのような状況においても対話システムが依然として適切に動作することを保証するため、サーバに配置されたすべての音声認識ユニットが問題なく同時に動作することができるよう、個々のサーバの計算パワーは十分大きく設計されるべきである。

複数ユーザのためのバージイン対話システムを構成するさらなる可能性は、各アクセスチャンネルにちょうど１つの音声行動検出器（ＳＡＤ）が割り当てられる音声行動検出器の利用からなる。ユーザが入力音声信号を与える場合、システムが実行中のシステム出力を即座に中断することができるためには、音声行動の検出はバージイン対話システムでは
実践的なものである。もしそれがない場合、ユーザと対話システムは同時に発話することになってしまい、ユーザをいらだたせることになる一方で、システム出力の入力信号へのエコーにより、音声認識ユニットによるユーザの音声信号の認識を困難にしてしまう可能性もある。このような音声行動検出器は、比較的少ない計算パワーしか必要としないアクセスチャンネルのシンプルなエネルギー検出により実現される。従って、１：１の割り当ての問題なく、１つのＳＡＤが各アクセスチャンネルに対し利用可能とされ、ＳＡＤは各フロントエンドコンピュータユニットの関連付けされたアクセスチャンネルと共に実現される。上記割り込みが可能でない対話システムと同様に、そのようなシステム構成は、音声認識ユニットが各アクセスチャンネルで必要となるときはいつでも、音声認識ユニットのアクセスチャンネルへの割り当てを可能にする。従って、音声認識ユニットがアクセスチャンネルに割り当てられるとき、可能な限りサーバ負荷に留意することが、そのようなシステムにおいて問題なく可能である。特に、多数のチャンネルと多数の音声認識ユニットを備えた大規模システムでは、１つの音声認識ユニットが同時にすべてのアクセスチャンネルに必要とされる確率は統計的に低いため、利用可能な音声認識ユニットの数は、アクセスチャンネルの数より小さくすることができる。

しかしながら、そのようなシステムの大きな問題点は、ＳＡＤによる音声検出とアクセスチャンネルの音声認識ユニットへの実際の物理的割り当てとの間に、ユーザが発話を続ける時間が存在してしまうという点にある。従って、まずユーザの音声信号、すなわち、大量の音声データがバッファされ、音声認識ユニットの動作準備ができ次第音声認識ユニットにスイッチされる必要がある。一方でこのような音声データのバッファ処理はコストがかかるものであり、他方でシステムの効率性を低減させてしまう。

本発明の課題は、バージイン対話システムのマルチユーザ処理方法、あるいは必要とされるトータルの計算パワーが最小化される一方、シンプルな方法でユーザの入力音声信号を常に高速処理するとこができるバージイン対話システムを提供することである。

この課題は、複数のユーザのための複数のアクセスチャンネルを有する１以上のフロントエンドコンピュータユニットと、各自が音声認識ユニットと音声行動検出器を有する複数の音声処理ユニットを有する複数のサーバとを有する対話システムであって、様々な特定時点において、前記複数のサーバができる限り均等に負荷が与えられ、前記音声行動検出器が前記現在割り当てられているアクセスチャンネルに入力される音声信号を検出し、前記音声認識ユニットを起動するように、前記複数のサーバの１つで新しい音声処理ユニットがユーザとの対話中前記ユーザにより利用されたフロントエンドコンピュータユニットのアクセスチャンネルに割り当てられる対話システムにより実現される。本装置に従属して、本課題は、各自が音声認識ユニットと入力音声信号を検出し、前記音声認識ユニットを起動する音声行動検出器とを有する複数のサーバ上で構成される対応する数の音声処理ユニットと、ユーザとの繰り返しの対話中、様々な特定時点において、前記複数のサーバができる限り均等に負荷が与えられるように、前記複数のサーバの１つにおける新しい音声処理ユニットを前記ユーザにより利用されているフロントエンドコンピュータユニットアクセスチャンネルに割り当てるアクセス調整ユニットとを有するバージイン対話システムにより実現される。従属クレームは本発明の効果的な実施例とさらなる特徴をそれぞれ含む。

本発明によると、一方で音声行動検出器と、他方で音声認識ユニットを有するサーバ上の音声処理ユニットであり、すなわち、入力音声信号を検出し、前記音声認識ユニットを起動する音声行動検出器は、音声認識ユニットと組み合わせて音声処理ユニットを形成する。音声行動検出器と音声認識ユニットは実際組み合わされた別々のユニットであり、すなわち、１つの音声処理ユニットにグループ化されてもよい。しかしながら、音声行動検出器と音声認識ユニットは、音声処理ユニットの別々の動作モードとみなされ、例えば、共通のソフトウェアルーチンやメモリ領域を利用することができるよう、音声処理ユニットに一体化することが可能である。

本発明によるバージイン対話システムは、ユーザとの繰り返しの対話中、様々な特定時点において、１つのサーバにおける新しい音声処理ユニットがフロントエンドコンピュータユニットのユーザにより使用されるアクセスチャンネルに割り当てられるよう動作する。この新たな割り当ては、サーバができる限り均等な負荷が与えられるよう実行される。このことは、音声処理ユニットのアクティブ状態のアクセスチャンネルへの継続的な再割り当てがある一方、音声処理ユニットのシステムの特定のアクセスチャンネルへの再割り当てのための瞬間が、音声処理ユニットがアクセスチャンネルへの再割り当て中特に必要とされる少ない機会が存在するよう決定される。

本発明によるバージイン対話システムは、サーバへの一様な負荷が保証されるよう、所望の時点で様々なサーバの音声処理ユニットをアクセスチャンネルに繰り返し割り当てる適当なアクセス調整ユニット（リソースマネージャ）を有する必要がある。

一方で、フロントエンドコンピュータユニットは音声行動検出器により負荷をかけられていないという点で、サーバ上の音声行動検出器と音声認識ユニットの音声処理ユニットへのグループ化は効果的である。ある音声行動検出器に到達する音声データストリームは、関連付けされた音声認識ユニットにより直接処理され、様々なコンピュータ間で再び物理的に転送される必要はなく、追加的な時間と音声データのバッファ処理を回避することができる。

音声処理ユニットのアクセスチャンネルへの継続的な実際的再割り当てと、サーバのリンクされた均等な負荷に基づき、多数の音声処理ユニットは１つのサーバに物理的に構成される一方、サーバ上のすべての音声処理ユニットがフルパワーで同時に機能することができるようサーバの物理的計算パワーが設計される必要はない。従って、サーバ上のより小さい計算パワーにもかかわらず、アクセスチャンネルと同じだけの各自が音声行動検出器と音声認識ユニットを有する音声処理ユニットを問題なく論理的に構成することが可能である。

好ましくは、等しい数の音声処理ユニットをアクセスチャンネルとして利用可能とすることができ、それによって音声処理ユニットのアクセスチャンネルへの再割り当ての場合、より高い柔軟性を達成することができる。音声処理ユニットのこのような「容量オーバー」の効果は、極めて多数のユーザがある時点において対話システムを同時に利用し、実質的にすべてのアクセスチャンネルが把握されるときに特に示され、これにより、音声処理ユニットの大部分がすでにアクセスチャンネルに割り当てられる。しかしながら、概して、音声処理ユニットの一部とともに、音声認識ユニットは特定の時点においてアクティブ状態であり、音声認識ユニットはサーバからより大きな計算パワーを利用する。他方、音声処理ユニットの大部分において、わずかな計算パワーしか必要としない音声行動検出器のみがアクティブ状態とされる。しかしながら、呼び出し数が多いと、サーバが計算パワーに関してほんのわずかしか負荷が与えられていないにもかかわらず、どの音声処理ユニットも利用不可能となる事態が生じる。極端なケースでは、アクセスチャンネルの音声処理ユニットへの１：１の割り当てと、多数のユーザによるすべてのアクセスチャンネルの古利用により、どんな再割り当ても不可能となる。しかしながら、アクセスチャンネル数以上の音声処理ユニットがサーバに論理的に構成される場合、常に少なくとも１つの再割り当てが可能であり、その一方、空いている音声処理ユニットの数が増えることにより、いつでも各サーバにおいて少なくとも１つの依然として把握されていない音声処理ユニットが、サーバ負荷に関して最適な割り当てを常に実行するため利用可能となる確率が高くなる。

対話システムが好ましく動作するか、あるいはシステムとユーザとの間の対話が行われる各アクティブ状態のアクセスチャンネルに対して、本質的に継続的に、音声処理ユニットの１つが割り当てられるよう割り当てが実行される。このことは、対話中の各アクセスチャンネルに対して−すなわち、音声処理ユニットのアクセスチャンネルへの割り当てが実行される短い期間を除いて−、音声処理ユニットの１つがほとんど常に利用可能である一方、それらは通常常に音声処理ユニットを変更する。例えば、システム出力の中断が望まれないとき、対話ルーチンの伸長に与えられた時間がある限り、明らかに音声処理ユニットはこの期間中アクセスチャンネルに割り当てられる必要はない。

効果的な実施例において、本システムは、アクセス調整ユニットにアクセスチャンネルに以前に入力された音声認識ユニットの音声信号の認識が終了するとき、及び/あるいはユーザへの新しいシステム出力がこのアクセスチャンネルを介し可能となるときを合図するための手段を有する。例えば、これは認識が終了したことを通知する音声処理ユニットの信号により実行される。あるいは、音声認識ユニットから必要な情報を受信し、ユーザの受信音声信号に従って対話を継続し、ユーザにシステム出力を与える対話制御機能から信号が取得されてもよい。音声処理ユニットのアクセスチャンネルへの再割り当ては、音声信号の認識直後、あるいはユーザへの次のシステム出力の開始後所定の短い期間内に実行されることが好ましい。これは適切な再割り当てのための時間的スペースである。なぜなら、典型的にシステム出力は最初の２、３ミリ秒間ユーザにより中断されず、このとき、アクセスチャンネルの音声認識装置はおそらく不要となる。このように、音声認識装置が利用されるときは実質的にいつでも、この認識装置は即座に利用可能である。従って、音声データがときどきバッファ処理される確率は無視することができる。

本発明によると、音声行動検出器はフロントエンドコンピュータユニットにおいて利用されていないため、音声検出がフロントエンドコンピュータユニットのプロセッサを介し音声データストリームをガイドする必要はない。結果的に、音声データは、プロセッサを介しガイドされることなく、アクセスチャンネルによって現在割り当てられている音声処理ユニットに伝送されることが好ましい。例えば、いわゆるスイッチマトリックスのような真のハードウェア回路が、音声データストリームをアクセスチャンネルからサーバに伝送するため利用されることにより、これは可能となる。音声データストリームのボトルネックとなるプロセッサがこのように完全に迂回されることにより、このようなハードウェア的解法によって、より多くのチャンネルがフロントエンドコンピュータユニットに到達可能となる。このように、ハードウェア的解法により、例えば、約１２０のアクセスチャンネルがソフトウェア的解法を介し実現されるシステムにおいて、５００〜１００以上のアクセスチャンネルを提供することが問題なく可能になる。

アクセスチャンネルが再割り当ての場合にサーバの均等な負荷を得ることができるよう音声処理ユニットが選択される選択方法では、非バージインシステムの既知の選択方法が変更可能である。

例えば、１つのサーバから次のサーバに循環的に変更が行われるラウンドロビン（ｒｏｕｎｄ−Ｒｏｂｉｎ）として知られる方法が利用可能である。この方法は極めて低いコストで利用可能である。しかしながら、統計的に予測された一様性に基づき、均等な負荷は達せられるため、個々のケースにおいて、一時的に相対的な非一様性が生じるかもしれない。

最近利用されていないコンピュータが常に選ばれる同様の方法は、いわゆるリーストユーズ（Ｌｅａｓｔ−Ｕｓｅ）法である。

均等な負荷に関してややコストを要するが信頼性の高い方法は、現在最も少ない負荷を有するサーバが常に選ばれる、いわゆるロードバランス（ＬｏａｄＢａｌａｎｃｉｎｇ）法である。極端なケースでも均等な負荷が達成されるため、この方法は好ましい。このため、システムは、個々の音声処理ユニットまたはサーバに対して負荷値を決定する手段と、個々のユニットまたはサーバの負荷値に基づき、音声処理ユニットのアクセスチャンネルへの再割り当てを判断するアクセス調整ユニットにこの負荷値を送る手段を有することが好ましい。

以下において、本発明は実施例と共に添付された図面を参照することにより詳細に説明される。ここでは、１枚のみの図面が、本発明に本質的な構成要素の構成を表すことにより、本発明によるバージイン対話システム１のが略的なブロック図を示す。

バージイン対話システム１は、本質的に、フロントエンドコンピュータユニット２と複数のサーバ１８、１９、２０及び２１を備える。フロントエンドコンピュータユニット２は、ユーザのためのアクセスチャンネル６を有する。本実施例では、アクセスチャンネル６は、例えば、ＩＳＤＮチャンネルのような電話アクセスチャンネルである。各サーバ１８、１９、２０及び２１には、複数の音声処理ユニット２２が配置されている。各音声処理ユニット２２は、音声行動検出器２３と音声認識ユニット２４を有する。

示される実施例は、フロントエンドコンピュータユニット２のアクセスチャンネル６より多くの音声処理ユニット２２を備えている。本ケースでは、簡単化のため、対話システム１は８つのみのアクセスチャンネル６を備えている。他方、ここで対話システム１は、論理的にそれぞれ３つの音声処理ユニット２２が割り当てられている４つのサーバ１８、１９、２０及び２１を備えている。このことは、８つのアクセスチャンネル６に対して、１２個の音声処理ユニット２２が利用可能であるということを意味する。しかしながら、対話システム１は、より多くあるいはより少ないサーバを備えていてもよいが、サーバ１８、１９、２０及び２１あたりの音声処理ユニットの個数は、ランダムであり、かつ各サーバ１８、１９、２０及び２１の計算パワー及び記憶容量により制限される。サーバ１８〜２１はまた、異なる計算パワーと異なる個数の音声処理ユニット２２を備えていてもよい。

実際、フロントエンドコンピュータユニット２２は、１２０、５００あるいは１０００以上のかなり多数のアクセスチャンネルを有する。例えば、１２０のアクセスチャンネルを有するフロントエンドコンピュータユニットの実際の対話システムでは、１２の音声処理ユニットが１０個のサーバに配置され、全体として各アクセスチャンネルに対して少なくとも１つの音声処理ユニットが利用可能である。

フロントエンドコンピュータユニット２は、適当な音声データライン２５を介しサーバ１８、１９、２０及び２１に接続されている。図面では、各サーバ１８、１９、２０及び２１に１つのみの音声データチャンネル２５が示されている。しかしながら、各音声処理ユニット２２の音声データのそれ自身のチャンネル２５を介した高速送信が提供できるように、例えば、音声処理ユニット２２あたり１つの音声データチャンネル２５のように、サーバ１８、１９、２０及び２１あたりより多くの音声データチャンネル２５を与えることが可能である。

フロントエンドコンピュータユニット２では、各アクセスチャンネル６に対して、各自のアクセスチャンネルを介して行われるユーザによる対話を制御する対話制御機能と、ユーザへのシステム出力に適した音声出力ユニットが備えられる。簡単化のため、これらのユニットは図示されない。

バージイン可能な対話システムであるため、音声信号の受信に即座に応答して、音声信号からの情報を処理、すなわち、認識することができるよう、常に１つの音声処理ユニット２２がユーザとの対話中各自のアクセスチャンネル６に利用可能とされる。このため、サーバ１８、１９、２０及び２１の１つにおける音声処理ユニット２２は各アクセスチャンネル６にユーザとの対話が当該アクセスチャンネルを介し開始されるとき割り当てられる。アクセスチャンネル６を介し到達する音声データは、フロントエンドコンピュータユニット２により、現在割り当てられている音声処理ユニット２２、または音声処理ユニット２２が配置されているサーバ１８、１９、２０及び２１に直接伝送される。

音声データはまず、常にアクティブ状態であり、ユーザの音声信号が音声処理ユニット２２に現在割り当てられているアクセスチャンネル６に到達したか擬似的に「聴取」する音声処理ユニット２２の音声行動検出器２３に到達する。音声処理ユニット２２または音声行動検出器２３の「聴取」は、それほど大きな計算パワーを要さない。音声行動検出器２３が音声信号を検出すると、音声認識ユニット２４はアクティブ状態となり、音声信号の認識が開始可能となる。このとき、音声信号ストリームを１つのコンピュータユニットから他のコンピュータユニットに送る必要はなく、特に音声データをバッファ処理する必要性はキャンセルされる。音声認識ユニット２４は、音声行動検出器２３により音声データが検出されるまで、アクティブ状態とされないため、音声処理ユニット２２の必要な計算パワーは対話の大部分において比較的低くすることができる。

本発明によると、１つそして同一の音声処理ユニット２２がユーザとの対話中、各自のアクセスチャンネル６に固定的に割り当てられるが、繰り返しの対話の実行中、他のアクセスチャンネル６により利用されていない、利用可能な新しい音声処理ユニット２２が異なる特定時点で各自のアクセスチャンネル６に割り当てられる。

この割り当ては、ユーザにより入力された音声信号の認識が終了するとき、あるいはユーザへの新しいプロンプトの後の短い間に、常に行われる。このとき、ユーザは新たな音声コマンドを入力するため対話システムを中断する必要はない。通常、ユーザによる中断は、プロンプトの開始後最も速くて２、３ミリ秒である。このように、ここの音声処理ユニット２２のアクティブ状態のアクセスチャンネル６への再割り当ては、例えば、対話システムのより長い反応時間により、これがユーザに通知されることなく、固定的に実行される。

ユーザが対話システムにすでに応答し、音声信号を入力したにもかかわらずシステム出力が実行する事態を回避するため、音声行動検出器２３はさらに、例えば、フロントエンドコンピュータユニット２に接続されるサーバ１８〜２１が接続されるローカルエリアネットワークリンク５または同様のデータチャンネルを介し、アクセスチャンネル６のための対話制御機能に信号を送信する。その後、対話制御機能は現在のシステム出力を中断する。

サーバ１８〜２１上の音声処理ユニット２２のアクティブ状態のアクセスチャンネル６への割り当ては、フロントエンドコンピュータユニット２に配置されたアクセス調整ユニット（リソースマネージャ）３により有効とされる。このアクセス調整ユニット３は、音声データチャンネル２５を有するアクセスチャンネル６を所望の音声処理ユニット２２にハードウェアとして純粋にスイッチする、いわゆる、音声マトリックス４を備える。スイッチのハードウェアによる実現は、フロントエンドコンピュータユニットのプロセッサが音声データによりロードされないという効果を有している。

また、音声行動検出器２３はフロントエンドコンピュータユニット２でなく、音声認識ユニット２２のサーバ１８、１９、２０及び２１に直接配置されるので、システム全体の効率を低下させるコンピュータユニット２が音声データストリームに対してボトルネックを示すような、アクセスチャンネル６を介し到達する音声データが本発明の説明された実施例におけるフロントエンドコンピュータユニット２のプロセッサを介しガイドされる必要な全くない。

新たな音声処理ユニット２２がアクティブ状態のアクセスチャンネル６に割り当てられるとき、アクセス調整ユニット３は、個々のサーバ１８、１９、２０及び２１が必要とされる計算パワー及び現在の記憶要求に関してできるだけ均等にロードされるようにする。このため、容量利用の基準値は、アクセス調整ユニット３が個々のサーバ１８、１９、２０及び２１の負荷を検出することが可能な容量利用値に基づき、個々のサーバ１８、１９、２０及び２１から、例えば、ローカルエリアネットワークリンク５を介しフロントエンドコンピュータユニット２のアクセス調整ユニット３に送信される。この負荷値に基づき、値が調整されるよう再割り当てが実行される。以下で、バージイン対話システム１の動作中の「ランダムな指示」により、このような手続きが再び説明される。

このため、ある時点において、ユーザは８つすべてのアクセスチャンネル６を介しサービスを受けると考えられる。すなわち、すべてのアクセスチャンネル６がアクティブ状態となる。アクセスチャンネル６上で実行される対話は、互いに完全に独立したものとなる。このことは、ある時点において、複数のアクセスチャンネル６上でシステム出力が行われる一方、ユーザはそれ以外のアクセスチャンネル６で音声信号を発する、すなわち、音声信号が到達するということを意味している。音声信号の処理の必要性に応じて、アクティブ状態のアクセスチャンネルに割り当てられた音声処理ユニット２２から異なる計算パワーが要求され、各サーバ１８、１９、２０及び２１に異なる負荷が与えられる。

さらに、特定時点において、音声処理ユニット２２のアクセスチャンネル６への現在の割り当ては、たまたま各サーバ１８、１９、２０及び２１からの音声処理ユニット２２の２つが１つのアクセスチャンネル６に割り当てられるようになっていて、第３の音声処理ユニット２２はまだ取得されていないと考えられる。さらに、アクセスチャンネル６の１つで、特定時点において、ユーザにより入力された音声信号の認識が実行され、プロンプトがユーザに与えられると考えられる。同時に、アクセス調整ユニット３により、利用値を使って、このアクセスチャンネル６に現在割り当てられている音声処理ユニット２２が配置されているサーバ１８は比較的高い利用度数を有するようにされる。なぜなら、同一のサーバ１８の第２の音声処理ユニット２２に割り当てられた他のアクセスチャンネル６において、ユーザはこの音声処理ユニット２２の音声認識ユニット２４により処理される音声信号を入力する。他方、４つのサーバ１８、１９、２０及び２１からの他のサーバ１９は、２つの関連付けされた現在割り当てられているアクセスチャンネル６でシステム出力が行われ、ユーザがこれ以上音声信号を入力しないため、比較的低い利用値を有する。他方、残りの２つのサーバ２０及び２１は、音声処理ユニット２２の１つが音声信号の認識に忙しいため、平均的な利用値を有する。フロントエンドコンピュータ２のアクセス調整ユニット３は、各自のアクセスチャンネル６に現在割り当てられている音声処理ユニット２２が配置されるサーバ１８をロード解除するため、プロンプトがちょうど出力されているアクセスチャンネル６に新たな音声処理ユニット２２を割り当てる機会を利用する。利用値に基づき、その時点で最も少ない負荷を有するサーバ上の第３の利用可能な音声処理ユニット２２が選ばれる。

ユーザの音声入力は継続的に認識され、以降対話中にプロンプトが発せられるため、対話が行われるアクセスチャンネル６に新しい音声処理ユニット２２を割り当てる多くの機会が対話中に存在する。音声処理ユニット２２のアクセスチャンネル６への頻繁な再割り当ての結果として、多数の音声処理ユニットがサーバ上に論理的に構成されているにもかかわらず、サーバのトータルの計算パワーが低下するよう、すべてのサーバの均等な負荷を観察することができる。再構成のインスタンスの適切な選択に基づき、アクセスチャンネルが音声処理ユニットを必要とする時点で、当該ユニットが利用可能でない恐れを考える必要はない。全体として、本発明は、ネットワークにある多数のサーバを介し、音声行動検出器と音声認識ユニットの効果的な分散を可能にし、これらリソースの効果的分散は、割り込みを可能にする対話アプリケーションにおいて与えられる。さらに、フロントエンドコンピュータユニットのシステムの複雑さは極めて小さくすることができ、純粋にハードウェアによる個々の音声認識ユニットへの音声データの効率的な分散が可能となる。しかしながら、フロントエンドコンピュータユニットが音声データを、例えば、メインプロセッサを利用するすべてのもののような、適切なソフトウェアにより分散させる場合において、本発明は意義あるものとなる。このような場合のメインプロセッサは分散により比較的大きな負荷がかけられているため、音声行動検出器がサーバに配置され、メインプロセッサに追加的な負荷が形成されないという効果が顕著となる。

示された実施例は本システムを実現する１つの可能性に過ぎないということが強調される。より詳細には、そのような対話システムが、例えば、複数のアクセスチャンネルを有する複数のフロントエンドコンピュータユニット２を有することを可能にする。同様に、各アクセスチャンネルに対して、それ自身のフロントエンドコンピュータユニットが利用されてもよい。これの例として、ユーザのＰＣがフロントエンドコンピュータユニットを形成し、例えば、アプリケーションのための対話制御機能がこのＰＣ上に配置され、音声処理ユニットによるサーバへのアクセスがインターネット接続を介し行われる対話システムがある。これらのフロントエンドコンピュータユニットは、例えば、本質的にスイッチセンタとしての機能し、例えば、リソースマネージャとスイッチマトリックスを有する中央コンピュータユニットに接続されてもよい。

図１は、本発明の一実施例によるバージイン対話システムのブロック図である。

Claims

複数のユーザによる並行利用のためのバージイン対話システムの処理方法であって、前記対話システムは、
前記複数のユーザに対し複数のアクセスチャンネルを有する１以上のフロントエンドコンピュータユニットと、
各自が音声行動検出器と音声認識ユニットを有する複数の音声処理ユニットを有する複数のサーバを有し、ユーザとの繰り返しの対話中、様々な特定の時点で、前記複数のサーバの１つにおいて新たな音声処理ユニットが前記ユーザにより利用されるフロントエンドコンピュータユニットのアクセスチャンネルに割り当てられ、それによって、前記複数のサーバにできる限り均等に負荷が与えられ、前記音声行動検出器が前記現在割り当てられているアクセスチャンネルに入力される音声信号を検出し、前記音声認識ユニットを起動させることを特徴とする方法。
請求項１記載の方法であって、前記音声処理ユニットのアクセスチャンネルへの再割り当ては、前記ユーザにより入力された音声信号の認識直後、あるいは前記ユーザへのシステム出力の開始から所定の短期間内に行われることを特徴とする方法。
請求項１または２記載の方法であって、前記複数のアクセスチャンネルの各々に対し、本質的にユーザとの対話中継続的に、音声処理ユニットが割り当てられることを特徴とする方法。
請求項１乃至３何れか一項記載の方法であって、前記個々のサーバに対し、常に負荷値が決定され、前記個々のサーバの負荷値の利用に対し割り当てが行われることを特徴とする方法。
請求項１乃至４何れか一項記載の方法であって、前記音声処理ユニットのアクセスチャンネルへの割り当ては、各自のアクセスチャンネルに入力される音声データを各自の音声処理ユニットを有するサーバに直接送るハードウェア回路により行われることを特徴とする方法。
複数のユーザによる並行利用のためのバージイン対話システムであって、
前記複数のユーザのための複数のアクセスチャンネルを有する１以上のフロントエンドコンピュータユニットと、
各自が音声認識ユニットと、入力音声信号を検出し、前記音声認識ユニットを起動する音声行動検出器を有する複数の音声処理ユニットを有する複数のサーバと、
ユーザとの繰り返しの対話中、様々な特定時点において、前記複数のサーバにできる限り均等に負荷が与えられるように、前記複数のサーバの１つにおける新しい音声処理ユニットをフロントエンドコンピュータユニットのユーザが配置したアクセスチャンネルに割り当てるアクセス調整ユニットとを有することを特徴とする対話システム。
請求項６記載の対話システムであって、
前記アクセス調整ユニットへのアクセスチャンネルに以前に入力された音声信号の認識の終了及び/または前記アクセスチャンネルを介したユーザへのシステム出力の開始を合図する手段を有することを特徴とする対話システム。
請求項６または７記載の対話システムであって、
前記個々のサーバの利用値を決定する手段と、
前記利用値を前記アクセス調整ユニットに転送する手段とを有することを特徴とする対話システム。
請求項６乃至８何れか一項記載の対話システムであって、前記アクセス調整ユニットは前記フロントエンドコンピュータユニットと一体化されることを特徴とする対話システム。
請求項６乃至９何れか一項記載の対話システムであって、アクセスチャンネルに入力される音声データをこの時点で前記アクセスチャンネルに割り当てられた音声処理ユニットを有するサーバに直接送るハードウェア回路を有することを特徴とする対話システム。