JP2005510771A - バージイン対話システムの操作方法 - Google Patents

バージイン対話システムの操作方法 Download PDF

Info

Publication number
JP2005510771A
JP2005510771A JP2003548230A JP2003548230A JP2005510771A JP 2005510771 A JP2005510771 A JP 2005510771A JP 2003548230 A JP2003548230 A JP 2003548230A JP 2003548230 A JP2003548230 A JP 2003548230A JP 2005510771 A JP2005510771 A JP 2005510771A
Authority
JP
Japan
Prior art keywords
voice
user
access channel
unit
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003548230A
Other languages
English (en)
Other versions
JP4469176B2 (ja
Inventor
ヘルビンク,マルク
ベネケン,フランク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2005510771A publication Critical patent/JP2005510771A/ja
Application granted granted Critical
Publication of JP4469176B2 publication Critical patent/JP4469176B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Bus Control (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Machine Translation (AREA)
  • Underground Or Underwater Handling Of Building Materials (AREA)

Abstract

バージイン対話システムの複数ユーザ処理のための方法が開示される。本対話システムは、複数のユーザのための複数のアクセスチャンネルを有するフロントエンドコンピュータユニットと、各自が複数の音声処理ユニットを有する複数のサーバとを有する。各音声処理ユニットは、音声行動検出器と音声認識ユニットを有する。システムとユーザとの対話中、可能な限りサーバの利用を一様にするため、様々な時点において、新しい音声処理ユニットがユーザにより配置されたアクセスチャンネルに繰り返し割り当てられる。音声行動検出器は、この時点で音声処理ユニットが割り当てられているチャンネルにアクセスチャンネル上の入力音声信号を検出し、音声認識ユニットを起動する。さらに、対応するバージイン対話システムが説明される。

Description

発明の詳細な説明
本発明は、複数のユーザによる並行利用、すなわち、いわゆる「マルチユーザ操作」での利用のためのバージイン対話システム(barge−in dialogue sysytem)の操作方法に関する。さらに、本発明は、対応するバージイン対話システムに関する。バージイン対話システムは、ユーザによる実行中のシステム出力の中断が可能な音声対話システムとして理解されるものである。
音声認識及び/または音声出力装置を利用しながらユーザと通信する音声対話システムは、以前からよく知られていた。このような例として、特に、自動電話応答機や照会システムは、発信者に所望の情報をできる限り早くかつ便利な方法により提供し、発信者の特定の要望に適した場所に接続するため、いくつかの大企業や事務所により利用されてきた。さらなるこのような例として、自動電話番号案内システム、自動時刻表システム、映画や劇場のプログラムのような特定地域におけるイベントの一般情報による情報サービス、あるいはこれら様々な照会システムを組み合わせたものなどがあげられる。このような音声制御自動対話システムは、ボイスポータル(voice portal)または言語アプリケーションとしてしばしば呼ばれる。
様々なユーザに同時に役立つように、対話システムはこれらユーザのための複数のアクセスチャンネルを備える必要がある。これらは、ユーザが音声コマンドを対話システムに入力するためのマイクロフォンとの音響ユーザインタフェース、ユーザに音響システムの出力を提供するためのスピーカ(loudspeaker)やヘッドフォンなどを備えたユーザの適当な端末への接続のためのアクセスチャンネルであってもよい。例えば、この端末は電話、携帯無線装置やユーザのPCであってもよく、アクセスチャンネルは対応する電話及び/またはインターネット接続であってもよい。定置式対話システムは、例えば、駅、空港、博物館などの公共の場所にある端末であるかもしれない、アクセスチャンネルは、例えば、ユーザと端末との通信を可能にするヘッドフォンなどであってもよい。さらに、音声対話システムは一般に、各アクセスチャンネルに対してソフトウェアモジュールの形態での対話制御機能を備えている。この対話制御機能は、各アクセスチャンネルを介しユーザとの対話処理を制御し、例えば、対話処理のある位置で、システム出力を各アクセスチャンネルを介しユーザに与える。
システム出力−一般にはプロンプト(prompt)と呼ばれる−は、例えば、ユーザへの入力の要求やユーザから要求された情報であってもよい。そのような音響プロンプトを生成するため、音声対話システムは、例えば、対話システムのテキスト情報をユーザのための音声に変換し、アクセスチャンネルを介して出力するテキスト音声変換器のような適当な音声出力装置を有する必要がある。しかしながら、音声出力装置はまた、適当な時点でユーザに再生される格納されている既製の音声ファイルを備えていてもよい。概して、音声対話システムは、各アクセスチャンネルに対してそれ自身の音声出力装置を備えている。しかしながら、より多くのアクセスチャンネルが共通の音声出力装置を共有することも可能である。
アクセスチャンネルに入力される音声信号、すなわち、単語、単語が結合したもの、文などのユーザが発する任意の音声を認識し、それに応じた反応ができるように、音声認識ユニット−通常ソフトウェアモジュール−が利用される。音声信号の音声データはこの目的のため音声認識ユニットに送られ、音声認識ユニットは、例えば、対話制御機能に認識結果を送出する。
音声認識には比較的大規模なコンピュータが必要とされるため、複数のユーザを処理する対話システムはしばしば複数のコンピュータユニットから物理的に構築される。このとき、システムは、複数のアクセスチャンネル(ポート)を有するいわゆる1以上のフロントエンドコンピュータユニットから構成される。通常、フロントエンドコンピュータユニットは、アクセスチャンネルを介しユーザと直接通信するシステムのコンピュータユニットである。アクセスチャンネルに固定的に割り当てられた対話制御機能が、各フロントエンドコンピュータユニットに配置されている。また、音声出力装置がフロントエンドコンピュータユニットに配置されてもよい。他方、単独あるいは複数の音声認識ユニットが、音声認識に利用可能な必要となる計算パワーを提供することができる、以下においてサーバと呼ばれる別のコンピュータユニットに配置される。大規模システムでは、実際上システムでは複数のサーバが利用され、1以上の音声認識ユニットが各サーバにおいて実現されることが多い。
各アクセスチャンネルにための対話制御機能は、例えば、プロンプトの終わりのような適当な時点において利用可能な音声認識ユニットを選択し、ユーザから入力された音声信号が即座に処理及び認識できるようアクセスチャンネルに割り当てることができる。音声認識ユニットを有するサーバに均等に負荷がかけられるように、利用可能な音声認識ユニットの選択が可能であることが望ましい。この結果、システムの能力の最適な利用と最大処理スピードを達成することができる。このような手続きは、対話システムまたは対話制御機能がそれぞれ予め音声認識ユニットが各アクセスチャンネルに対していつ必要かわかっている場合にのみ通常可能である。ある時点でのみ、すなわち、プロンプトの終了後のみユーザによる入力を可能にする対話システムでは、これは問題とはならない。しかしながら、そのようなシステムはユーザに対する行動という点ではやや不自然なものである。周知のように、ユーザは対話システムが入力を要求する前に応答する傾向がある。このようなケースは、特にシステムがユーザにどのような入力を要求しているか、当該部分の対話でユーザにどのような可能性が利用可能かについてユーザがすでに性格に知っているかあるいは推測できる場合に起こる。さらに、このようなシステム出力の中断は、ユーザが中断を望む情報が出力されるたびに発生する。実行中のシステム出力のユーザによる中断を可能にするバージイン対話システムは、ユーザ行動の観点からより自然なものである。さらに、このようなシステムは、常にユーザによる介入を可能にし、プロンプトの終了を待つ必要がなく、対話ルーチンにおける所望の情報が出力される位置により早く到達することができるため、ユーザにより高い快適性を提供することができる。
バージイン対話システムに必要である、任意の時点においてユーザの音声信号が認識されることを保証するため、様々な可能性が存在する。
1つの可能性は、各アクセスチャンネルにそれ自身の音声処理ユニットが固定的に割り当てられる事実から構成される。アクセスチャンネル数が多数の場合、それに応じて音声認識ユニットも多数備えられる必要がある。システムは関連付けされた音声認識ユニットが同時に必要となるアクセスチャンネルの何れかに影響を及ぼさないため、ある時点においてサーバに過大な負荷が与えられることになる。そのような状況においても対話システムが依然として適切に動作することを保証するため、サーバに配置されたすべての音声認識ユニットが問題なく同時に動作することができるよう、個々のサーバの計算パワーは十分大きく設計されるべきである。
複数ユーザのためのバージイン対話システムを構成するさらなる可能性は、各アクセスチャンネルにちょうど1つの音声行動検出器(SAD)が割り当てられる音声行動検出器の利用からなる。ユーザが入力音声信号を与える場合、システムが実行中のシステム出力を即座に中断することができるためには、音声行動の検出はバージイン対話システムでは
実践的なものである。もしそれがない場合、ユーザと対話システムは同時に発話することになってしまい、ユーザをいらだたせることになる一方で、システム出力の入力信号へのエコーにより、音声認識ユニットによるユーザの音声信号の認識を困難にしてしまう可能性もある。このような音声行動検出器は、比較的少ない計算パワーしか必要としないアクセスチャンネルのシンプルなエネルギー検出により実現される。従って、1:1の割り当ての問題なく、1つのSADが各アクセスチャンネルに対し利用可能とされ、SADは各フロントエンドコンピュータユニットの関連付けされたアクセスチャンネルと共に実現される。上記割り込みが可能でない対話システムと同様に、そのようなシステム構成は、音声認識ユニットが各アクセスチャンネルで必要となるときはいつでも、音声認識ユニットのアクセスチャンネルへの割り当てを可能にする。従って、音声認識ユニットがアクセスチャンネルに割り当てられるとき、可能な限りサーバ負荷に留意することが、そのようなシステムにおいて問題なく可能である。特に、多数のチャンネルと多数の音声認識ユニットを備えた大規模システムでは、1つの音声認識ユニットが同時にすべてのアクセスチャンネルに必要とされる確率は統計的に低いため、利用可能な音声認識ユニットの数は、アクセスチャンネルの数より小さくすることができる。
しかしながら、そのようなシステムの大きな問題点は、SADによる音声検出とアクセスチャンネルの音声認識ユニットへの実際の物理的割り当てとの間に、ユーザが発話を続ける時間が存在してしまうという点にある。従って、まずユーザの音声信号、すなわち、大量の音声データがバッファされ、音声認識ユニットの動作準備ができ次第音声認識ユニットにスイッチされる必要がある。一方でこのような音声データのバッファ処理はコストがかかるものであり、他方でシステムの効率性を低減させてしまう。
本発明の課題は、バージイン対話システムのマルチユーザ処理方法、あるいは必要とされるトータルの計算パワーが最小化される一方、シンプルな方法でユーザの入力音声信号を常に高速処理するとこができるバージイン対話システムを提供することである。
この課題は、複数のユーザのための複数のアクセスチャンネルを有する1以上のフロントエンドコンピュータユニットと、各自が音声認識ユニットと音声行動検出器を有する複数の音声処理ユニットを有する複数のサーバとを有する対話システムであって、様々な特定時点において、前記複数のサーバができる限り均等に負荷が与えられ、前記音声行動検出器が前記現在割り当てられているアクセスチャンネルに入力される音声信号を検出し、前記音声認識ユニットを起動するように、前記複数のサーバの1つで新しい音声処理ユニットがユーザとの対話中前記ユーザにより利用されたフロントエンドコンピュータユニットのアクセスチャンネルに割り当てられる対話システムにより実現される。本装置に従属して、本課題は、各自が音声認識ユニットと入力音声信号を検出し、前記音声認識ユニットを起動する音声行動検出器とを有する複数のサーバ上で構成される対応する数の音声処理ユニットと、ユーザとの繰り返しの対話中、様々な特定時点において、前記複数のサーバができる限り均等に負荷が与えられるように、前記複数のサーバの1つにおける新しい音声処理ユニットを前記ユーザにより利用されているフロントエンドコンピュータユニットアクセスチャンネルに割り当てるアクセス調整ユニットとを有するバージイン対話システムにより実現される。従属クレームは本発明の効果的な実施例とさらなる特徴をそれぞれ含む。
本発明によると、一方で音声行動検出器と、他方で音声認識ユニットを有するサーバ上の音声処理ユニットであり、すなわち、入力音声信号を検出し、前記音声認識ユニットを起動する音声行動検出器は、音声認識ユニットと組み合わせて音声処理ユニットを形成する。音声行動検出器と音声認識ユニットは実際組み合わされた別々のユニットであり、すなわち、1つの音声処理ユニットにグループ化されてもよい。しかしながら、音声行動検出器と音声認識ユニットは、音声処理ユニットの別々の動作モードとみなされ、例えば、共通のソフトウェアルーチンやメモリ領域を利用することができるよう、音声処理ユニットに一体化することが可能である。
本発明によるバージイン対話システムは、ユーザとの繰り返しの対話中、様々な特定時点において、1つのサーバにおける新しい音声処理ユニットがフロントエンドコンピュータユニットのユーザにより使用されるアクセスチャンネルに割り当てられるよう動作する。この新たな割り当ては、サーバができる限り均等な負荷が与えられるよう実行される。このことは、音声処理ユニットのアクティブ状態のアクセスチャンネルへの継続的な再割り当てがある一方、音声処理ユニットのシステムの特定のアクセスチャンネルへの再割り当てのための瞬間が、音声処理ユニットがアクセスチャンネルへの再割り当て中特に必要とされる少ない機会が存在するよう決定される。
本発明によるバージイン対話システムは、サーバへの一様な負荷が保証されるよう、所望の時点で様々なサーバの音声処理ユニットをアクセスチャンネルに繰り返し割り当てる適当なアクセス調整ユニット(リソースマネージャ)を有する必要がある。
一方で、フロントエンドコンピュータユニットは音声行動検出器により負荷をかけられていないという点で、サーバ上の音声行動検出器と音声認識ユニットの音声処理ユニットへのグループ化は効果的である。ある音声行動検出器に到達する音声データストリームは、関連付けされた音声認識ユニットにより直接処理され、様々なコンピュータ間で再び物理的に転送される必要はなく、追加的な時間と音声データのバッファ処理を回避することができる。
音声処理ユニットのアクセスチャンネルへの継続的な実際的再割り当てと、サーバのリンクされた均等な負荷に基づき、多数の音声処理ユニットは1つのサーバに物理的に構成される一方、サーバ上のすべての音声処理ユニットがフルパワーで同時に機能することができるようサーバの物理的計算パワーが設計される必要はない。従って、サーバ上のより小さい計算パワーにもかかわらず、アクセスチャンネルと同じだけの各自が音声行動検出器と音声認識ユニットを有する音声処理ユニットを問題なく論理的に構成することが可能である。
好ましくは、等しい数の音声処理ユニットをアクセスチャンネルとして利用可能とすることができ、それによって音声処理ユニットのアクセスチャンネルへの再割り当ての場合、より高い柔軟性を達成することができる。音声処理ユニットのこのような「容量オーバー」の効果は、極めて多数のユーザがある時点において対話システムを同時に利用し、実質的にすべてのアクセスチャンネルが把握されるときに特に示され、これにより、音声処理ユニットの大部分がすでにアクセスチャンネルに割り当てられる。しかしながら、概して、音声処理ユニットの一部とともに、音声認識ユニットは特定の時点においてアクティブ状態であり、音声認識ユニットはサーバからより大きな計算パワーを利用する。他方、音声処理ユニットの大部分において、わずかな計算パワーしか必要としない音声行動検出器のみがアクティブ状態とされる。しかしながら、呼び出し数が多いと、サーバが計算パワーに関してほんのわずかしか負荷が与えられていないにもかかわらず、どの音声処理ユニットも利用不可能となる事態が生じる。極端なケースでは、アクセスチャンネルの音声処理ユニットへの1:1の割り当てと、多数のユーザによるすべてのアクセスチャンネルの古利用により、どんな再割り当ても不可能となる。しかしながら、アクセスチャンネル数以上の音声処理ユニットがサーバに論理的に構成される場合、常に少なくとも1つの再割り当てが可能であり、その一方、空いている音声処理ユニットの数が増えることにより、いつでも各サーバにおいて少なくとも1つの依然として把握されていない音声処理ユニットが、サーバ負荷に関して最適な割り当てを常に実行するため利用可能となる確率が高くなる。
対話システムが好ましく動作するか、あるいはシステムとユーザとの間の対話が行われる各アクティブ状態のアクセスチャンネルに対して、本質的に継続的に、音声処理ユニットの1つが割り当てられるよう割り当てが実行される。このことは、対話中の各アクセスチャンネルに対して−すなわち、音声処理ユニットのアクセスチャンネルへの割り当てが実行される短い期間を除いて−、音声処理ユニットの1つがほとんど常に利用可能である一方、それらは通常常に音声処理ユニットを変更する。例えば、システム出力の中断が望まれないとき、対話ルーチンの伸長に与えられた時間がある限り、明らかに音声処理ユニットはこの期間中アクセスチャンネルに割り当てられる必要はない。
効果的な実施例において、本システムは、アクセス調整ユニットにアクセスチャンネルに以前に入力された音声認識ユニットの音声信号の認識が終了するとき、及び/あるいはユーザへの新しいシステム出力がこのアクセスチャンネルを介し可能となるときを合図するための手段を有する。例えば、これは認識が終了したことを通知する音声処理ユニットの信号により実行される。あるいは、音声認識ユニットから必要な情報を受信し、ユーザの受信音声信号に従って対話を継続し、ユーザにシステム出力を与える対話制御機能から信号が取得されてもよい。音声処理ユニットのアクセスチャンネルへの再割り当ては、音声信号の認識直後、あるいはユーザへの次のシステム出力の開始後所定の短い期間内に実行されることが好ましい。これは適切な再割り当てのための時間的スペースである。なぜなら、典型的にシステム出力は最初の2、3ミリ秒間ユーザにより中断されず、このとき、アクセスチャンネルの音声認識装置はおそらく不要となる。このように、音声認識装置が利用されるときは実質的にいつでも、この認識装置は即座に利用可能である。従って、音声データがときどきバッファ処理される確率は無視することができる。
本発明によると、音声行動検出器はフロントエンドコンピュータユニットにおいて利用されていないため、音声検出がフロントエンドコンピュータユニットのプロセッサを介し音声データストリームをガイドする必要はない。結果的に、音声データは、プロセッサを介しガイドされることなく、アクセスチャンネルによって現在割り当てられている音声処理ユニットに伝送されることが好ましい。例えば、いわゆるスイッチマトリックスのような真のハードウェア回路が、音声データストリームをアクセスチャンネルからサーバに伝送するため利用されることにより、これは可能となる。音声データストリームのボトルネックとなるプロセッサがこのように完全に迂回されることにより、このようなハードウェア的解法によって、より多くのチャンネルがフロントエンドコンピュータユニットに到達可能となる。このように、ハードウェア的解法により、例えば、約120のアクセスチャンネルがソフトウェア的解法を介し実現されるシステムにおいて、500〜100以上のアクセスチャンネルを提供することが問題なく可能になる。
アクセスチャンネルが再割り当ての場合にサーバの均等な負荷を得ることができるよう音声処理ユニットが選択される選択方法では、非バージインシステムの既知の選択方法が変更可能である。
例えば、1つのサーバから次のサーバに循環的に変更が行われるラウンドロビン(round−Robin)として知られる方法が利用可能である。この方法は極めて低いコストで利用可能である。しかしながら、統計的に予測された一様性に基づき、均等な負荷は達せられるため、個々のケースにおいて、一時的に相対的な非一様性が生じるかもしれない。
最近利用されていないコンピュータが常に選ばれる同様の方法は、いわゆるリーストユーズ(Least−Use)法である。
均等な負荷に関してややコストを要するが信頼性の高い方法は、現在最も少ない負荷を有するサーバが常に選ばれる、いわゆるロードバランス(Load Balancing)法である。極端なケースでも均等な負荷が達成されるため、この方法は好ましい。このため、システムは、個々の音声処理ユニットまたはサーバに対して負荷値を決定する手段と、個々のユニットまたはサーバの負荷値に基づき、音声処理ユニットのアクセスチャンネルへの再割り当てを判断するアクセス調整ユニットにこの負荷値を送る手段を有することが好ましい。
以下において、本発明は実施例と共に添付された図面を参照することにより詳細に説明される。ここでは、1枚のみの図面が、本発明に本質的な構成要素の構成を表すことにより、本発明によるバージイン対話システム1のが略的なブロック図を示す。
バージイン対話システム1は、本質的に、フロントエンドコンピュータユニット2と複数のサーバ18、19、20及び21を備える。フロントエンドコンピュータユニット2は、ユーザのためのアクセスチャンネル6を有する。本実施例では、アクセスチャンネル6は、例えば、ISDNチャンネルのような電話アクセスチャンネルである。各サーバ18、19、20及び21には、複数の音声処理ユニット22が配置されている。各音声処理ユニット22は、音声行動検出器23と音声認識ユニット24を有する。
示される実施例は、フロントエンドコンピュータユニット2のアクセスチャンネル6より多くの音声処理ユニット22を備えている。本ケースでは、簡単化のため、対話システム1は8つのみのアクセスチャンネル6を備えている。他方、ここで対話システム1は、論理的にそれぞれ3つの音声処理ユニット22が割り当てられている4つのサーバ18、19、20及び21を備えている。このことは、8つのアクセスチャンネル6に対して、12個の音声処理ユニット22が利用可能であるということを意味する。しかしながら、対話システム1は、より多くあるいはより少ないサーバを備えていてもよいが、サーバ18、19、20及び21あたりの音声処理ユニットの個数は、ランダムであり、かつ各サーバ18、19、20及び21の計算パワー及び記憶容量により制限される。サーバ18〜21はまた、異なる計算パワーと異なる個数の音声処理ユニット22を備えていてもよい。
実際、フロントエンドコンピュータユニット22は、120、500あるいは1000以上のかなり多数のアクセスチャンネルを有する。例えば、120のアクセスチャンネルを有するフロントエンドコンピュータユニットの実際の対話システムでは、12の音声処理ユニットが10個のサーバに配置され、全体として各アクセスチャンネルに対して少なくとも1つの音声処理ユニットが利用可能である。
フロントエンドコンピュータユニット2は、適当な音声データライン25を介しサーバ18、19、20及び21に接続されている。図面では、各サーバ18、19、20及び21に1つのみの音声データチャンネル25が示されている。しかしながら、各音声処理ユニット22の音声データのそれ自身のチャンネル25を介した高速送信が提供できるように、例えば、音声処理ユニット22あたり1つの音声データチャンネル25のように、サーバ18、19、20及び21あたりより多くの音声データチャンネル25を与えることが可能である。
フロントエンドコンピュータユニット2では、各アクセスチャンネル6に対して、各自のアクセスチャンネルを介して行われるユーザによる対話を制御する対話制御機能と、ユーザへのシステム出力に適した音声出力ユニットが備えられる。簡単化のため、これらのユニットは図示されない。
バージイン可能な対話システムであるため、音声信号の受信に即座に応答して、音声信号からの情報を処理、すなわち、認識することができるよう、常に1つの音声処理ユニット22がユーザとの対話中各自のアクセスチャンネル6に利用可能とされる。このため、サーバ18、19、20及び21の1つにおける音声処理ユニット22は各アクセスチャンネル6にユーザとの対話が当該アクセスチャンネルを介し開始されるとき割り当てられる。アクセスチャンネル6を介し到達する音声データは、フロントエンドコンピュータユニット2により、現在割り当てられている音声処理ユニット22、または音声処理ユニット22が配置されているサーバ18、19、20及び21に直接伝送される。
音声データはまず、常にアクティブ状態であり、ユーザの音声信号が音声処理ユニット22に現在割り当てられているアクセスチャンネル6に到達したか擬似的に「聴取」する音声処理ユニット22の音声行動検出器23に到達する。音声処理ユニット22または音声行動検出器23の「聴取」は、それほど大きな計算パワーを要さない。音声行動検出器23が音声信号を検出すると、音声認識ユニット24はアクティブ状態となり、音声信号の認識が開始可能となる。このとき、音声信号ストリームを1つのコンピュータユニットから他のコンピュータユニットに送る必要はなく、特に音声データをバッファ処理する必要性はキャンセルされる。音声認識ユニット24は、音声行動検出器23により音声データが検出されるまで、アクティブ状態とされないため、音声処理ユニット22の必要な計算パワーは対話の大部分において比較的低くすることができる。
本発明によると、1つそして同一の音声処理ユニット22がユーザとの対話中、各自のアクセスチャンネル6に固定的に割り当てられるが、繰り返しの対話の実行中、他のアクセスチャンネル6により利用されていない、利用可能な新しい音声処理ユニット22が異なる特定時点で各自のアクセスチャンネル6に割り当てられる。
この割り当ては、ユーザにより入力された音声信号の認識が終了するとき、あるいはユーザへの新しいプロンプトの後の短い間に、常に行われる。このとき、ユーザは新たな音声コマンドを入力するため対話システムを中断する必要はない。通常、ユーザによる中断は、プロンプトの開始後最も速くて2、3ミリ秒である。このように、ここの音声処理ユニット22のアクティブ状態のアクセスチャンネル6への再割り当ては、例えば、対話システムのより長い反応時間により、これがユーザに通知されることなく、固定的に実行される。
ユーザが対話システムにすでに応答し、音声信号を入力したにもかかわらずシステム出力が実行する事態を回避するため、音声行動検出器23はさらに、例えば、フロントエンドコンピュータユニット2に接続されるサーバ18〜21が接続されるローカルエリアネットワークリンク5または同様のデータチャンネルを介し、アクセスチャンネル6のための対話制御機能に信号を送信する。その後、対話制御機能は現在のシステム出力を中断する。
サーバ18〜21上の音声処理ユニット22のアクティブ状態のアクセスチャンネル6への割り当ては、フロントエンドコンピュータユニット2に配置されたアクセス調整ユニット(リソースマネージャ)3により有効とされる。このアクセス調整ユニット3は、音声データチャンネル25を有するアクセスチャンネル6を所望の音声処理ユニット22にハードウェアとして純粋にスイッチする、いわゆる、音声マトリックス4を備える。スイッチのハードウェアによる実現は、フロントエンドコンピュータユニットのプロセッサが音声データによりロードされないという効果を有している。
また、音声行動検出器23はフロントエンドコンピュータユニット2でなく、音声認識ユニット22のサーバ18、19、20及び21に直接配置されるので、システム全体の効率を低下させるコンピュータユニット2が音声データストリームに対してボトルネックを示すような、アクセスチャンネル6を介し到達する音声データが本発明の説明された実施例におけるフロントエンドコンピュータユニット2のプロセッサを介しガイドされる必要な全くない。
新たな音声処理ユニット22がアクティブ状態のアクセスチャンネル6に割り当てられるとき、アクセス調整ユニット3は、個々のサーバ18、19、20及び21が必要とされる計算パワー及び現在の記憶要求に関してできるだけ均等にロードされるようにする。このため、容量利用の基準値は、アクセス調整ユニット3が個々のサーバ18、19、20及び21の負荷を検出することが可能な容量利用値に基づき、個々のサーバ18、19、20及び21から、例えば、ローカルエリアネットワークリンク5を介しフロントエンドコンピュータユニット2のアクセス調整ユニット3に送信される。この負荷値に基づき、値が調整されるよう再割り当てが実行される。以下で、バージイン対話システム1の動作中の「ランダムな指示」により、このような手続きが再び説明される。
このため、ある時点において、ユーザは8つすべてのアクセスチャンネル6を介しサービスを受けると考えられる。すなわち、すべてのアクセスチャンネル6がアクティブ状態となる。アクセスチャンネル6上で実行される対話は、互いに完全に独立したものとなる。このことは、ある時点において、複数のアクセスチャンネル6上でシステム出力が行われる一方、ユーザはそれ以外のアクセスチャンネル6で音声信号を発する、すなわち、音声信号が到達するということを意味している。音声信号の処理の必要性に応じて、アクティブ状態のアクセスチャンネルに割り当てられた音声処理ユニット22から異なる計算パワーが要求され、各サーバ18、19、20及び21に異なる負荷が与えられる。
さらに、特定時点において、音声処理ユニット22のアクセスチャンネル6への現在の割り当ては、たまたま各サーバ18、19、20及び21からの音声処理ユニット22の2つが1つのアクセスチャンネル6に割り当てられるようになっていて、第3の音声処理ユニット22はまだ取得されていないと考えられる。さらに、アクセスチャンネル6の1つで、特定時点において、ユーザにより入力された音声信号の認識が実行され、プロンプトがユーザに与えられると考えられる。同時に、アクセス調整ユニット3により、利用値を使って、このアクセスチャンネル6に現在割り当てられている音声処理ユニット22が配置されているサーバ18は比較的高い利用度数を有するようにされる。なぜなら、同一のサーバ18の第2の音声処理ユニット22に割り当てられた他のアクセスチャンネル6において、ユーザはこの音声処理ユニット22の音声認識ユニット24により処理される音声信号を入力する。他方、4つのサーバ18、19、20及び21からの他のサーバ19は、2つの関連付けされた現在割り当てられているアクセスチャンネル6でシステム出力が行われ、ユーザがこれ以上音声信号を入力しないため、比較的低い利用値を有する。他方、残りの2つのサーバ20及び21は、音声処理ユニット22の1つが音声信号の認識に忙しいため、平均的な利用値を有する。フロントエンドコンピュータ2のアクセス調整ユニット3は、各自のアクセスチャンネル6に現在割り当てられている音声処理ユニット22が配置されるサーバ18をロード解除するため、プロンプトがちょうど出力されているアクセスチャンネル6に新たな音声処理ユニット22を割り当てる機会を利用する。利用値に基づき、その時点で最も少ない負荷を有するサーバ上の第3の利用可能な音声処理ユニット22が選ばれる。
ユーザの音声入力は継続的に認識され、以降対話中にプロンプトが発せられるため、対話が行われるアクセスチャンネル6に新しい音声処理ユニット22を割り当てる多くの機会が対話中に存在する。音声処理ユニット22のアクセスチャンネル6への頻繁な再割り当ての結果として、多数の音声処理ユニットがサーバ上に論理的に構成されているにもかかわらず、サーバのトータルの計算パワーが低下するよう、すべてのサーバの均等な負荷を観察することができる。再構成のインスタンスの適切な選択に基づき、アクセスチャンネルが音声処理ユニットを必要とする時点で、当該ユニットが利用可能でない恐れを考える必要はない。全体として、本発明は、ネットワークにある多数のサーバを介し、音声行動検出器と音声認識ユニットの効果的な分散を可能にし、これらリソースの効果的分散は、割り込みを可能にする対話アプリケーションにおいて与えられる。さらに、フロントエンドコンピュータユニットのシステムの複雑さは極めて小さくすることができ、純粋にハードウェアによる個々の音声認識ユニットへの音声データの効率的な分散が可能となる。しかしながら、フロントエンドコンピュータユニットが音声データを、例えば、メインプロセッサを利用するすべてのもののような、適切なソフトウェアにより分散させる場合において、本発明は意義あるものとなる。このような場合のメインプロセッサは分散により比較的大きな負荷がかけられているため、音声行動検出器がサーバに配置され、メインプロセッサに追加的な負荷が形成されないという効果が顕著となる。
示された実施例は本システムを実現する1つの可能性に過ぎないということが強調される。より詳細には、そのような対話システムが、例えば、複数のアクセスチャンネルを有する複数のフロントエンドコンピュータユニット2を有することを可能にする。同様に、各アクセスチャンネルに対して、それ自身のフロントエンドコンピュータユニットが利用されてもよい。これの例として、ユーザのPCがフロントエンドコンピュータユニットを形成し、例えば、アプリケーションのための対話制御機能がこのPC上に配置され、音声処理ユニットによるサーバへのアクセスがインターネット接続を介し行われる対話システムがある。これらのフロントエンドコンピュータユニットは、例えば、本質的にスイッチセンタとしての機能し、例えば、リソースマネージャとスイッチマトリックスを有する中央コンピュータユニットに接続されてもよい。
図1は、本発明の一実施例によるバージイン対話システムのブロック図である。

Claims (10)

  1. 複数のユーザによる並行利用のためのバージイン対話システムの処理方法であって、前記対話システムは、
    前記複数のユーザに対し複数のアクセスチャンネルを有する1以上のフロントエンドコンピュータユニットと、
    各自が音声行動検出器と音声認識ユニットを有する複数の音声処理ユニットを有する複数のサーバを有し、ユーザとの繰り返しの対話中、様々な特定の時点で、前記複数のサーバの1つにおいて新たな音声処理ユニットが前記ユーザにより利用されるフロントエンドコンピュータユニットのアクセスチャンネルに割り当てられ、それによって、前記複数のサーバにできる限り均等に負荷が与えられ、前記音声行動検出器が前記現在割り当てられているアクセスチャンネルに入力される音声信号を検出し、前記音声認識ユニットを起動させることを特徴とする方法。
  2. 請求項1記載の方法であって、前記音声処理ユニットのアクセスチャンネルへの再割り当ては、前記ユーザにより入力された音声信号の認識直後、あるいは前記ユーザへのシステム出力の開始から所定の短期間内に行われることを特徴とする方法。
  3. 請求項1または2記載の方法であって、前記複数のアクセスチャンネルの各々に対し、本質的にユーザとの対話中継続的に、音声処理ユニットが割り当てられることを特徴とする方法。
  4. 請求項1乃至3何れか一項記載の方法であって、前記個々のサーバに対し、常に負荷値が決定され、前記個々のサーバの負荷値の利用に対し割り当てが行われることを特徴とする方法。
  5. 請求項1乃至4何れか一項記載の方法であって、前記音声処理ユニットのアクセスチャンネルへの割り当ては、各自のアクセスチャンネルに入力される音声データを各自の音声処理ユニットを有するサーバに直接送るハードウェア回路により行われることを特徴とする方法。
  6. 複数のユーザによる並行利用のためのバージイン対話システムであって、
    前記複数のユーザのための複数のアクセスチャンネルを有する1以上のフロントエンドコンピュータユニットと、
    各自が音声認識ユニットと、入力音声信号を検出し、前記音声認識ユニットを起動する音声行動検出器を有する複数の音声処理ユニットを有する複数のサーバと、
    ユーザとの繰り返しの対話中、様々な特定時点において、前記複数のサーバにできる限り均等に負荷が与えられるように、前記複数のサーバの1つにおける新しい音声処理ユニットをフロントエンドコンピュータユニットのユーザが配置したアクセスチャンネルに割り当てるアクセス調整ユニットとを有することを特徴とする対話システム。
  7. 請求項6記載の対話システムであって、
    前記アクセス調整ユニットへのアクセスチャンネルに以前に入力された音声信号の認識の終了及び/または前記アクセスチャンネルを介したユーザへのシステム出力の開始を合図する手段を有することを特徴とする対話システム。
  8. 請求項6または7記載の対話システムであって、
    前記個々のサーバの利用値を決定する手段と、
    前記利用値を前記アクセス調整ユニットに転送する手段とを有することを特徴とする対話システム。
  9. 請求項6乃至8何れか一項記載の対話システムであって、前記アクセス調整ユニットは前記フロントエンドコンピュータユニットと一体化されることを特徴とする対話システム。
  10. 請求項6乃至9何れか一項記載の対話システムであって、アクセスチャンネルに入力される音声データをこの時点で前記アクセスチャンネルに割り当てられた音声処理ユニットを有するサーバに直接送るハードウェア回路を有することを特徴とする対話システム。
JP2003548230A 2001-11-29 2002-11-26 バージイン対話システムの処理方法及びバージイン対話システム Expired - Lifetime JP4469176B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10158583A DE10158583A1 (de) 2001-11-29 2001-11-29 Verfahren zum Betrieb eines Barge-In-Dialogsystems
PCT/IB2002/005006 WO2003046887A1 (en) 2001-11-29 2002-11-26 Method of operating a barge-in dialogue system

Publications (2)

Publication Number Publication Date
JP2005510771A true JP2005510771A (ja) 2005-04-21
JP4469176B2 JP4469176B2 (ja) 2010-05-26

Family

ID=7707384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003548230A Expired - Lifetime JP4469176B2 (ja) 2001-11-29 2002-11-26 バージイン対話システムの処理方法及びバージイン対話システム

Country Status (7)

Country Link
US (1) US20050038659A1 (ja)
EP (1) EP1451808B1 (ja)
JP (1) JP4469176B2 (ja)
AT (1) ATE352835T1 (ja)
AU (1) AU2002365496A1 (ja)
DE (2) DE10158583A1 (ja)
WO (1) WO2003046887A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323827A (ja) * 2005-04-18 2006-11-30 Ricoh Co Ltd 音楽フォント出力装置、フォントデータベース及び言語入力フロントエンドプロセッサ
KR101304112B1 (ko) * 2011-12-27 2013-09-05 현대캐피탈 주식회사 음성 분리를 이용한 실시간 화자인식 시스템 및 방법
KR101361724B1 (ko) * 2007-12-28 2014-02-12 제네시스 텔레커뮤니케이션즈 래버러토리즈 인코포레이티드 재귀적 적응형 상호작용 관리 시스템
JP2016180914A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 音声認識システム、音声認識方法、プログラム
JP2017151210A (ja) * 2016-02-23 2017-08-31 Nttテクノクロス株式会社 情報処理装置、音声認識方法及びプログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050033571A1 (en) * 2003-08-07 2005-02-10 Microsoft Corporation Head mounted multi-sensory audio input system
US7383181B2 (en) 2003-07-29 2008-06-03 Microsoft Corporation Multi-sensory speech detection system
US7392188B2 (en) * 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in
DE10342541A1 (de) * 2003-09-15 2005-05-12 Daimler Chrysler Ag Arbeitsbelastungsabhängige Dialogführung
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US20050177371A1 (en) * 2004-02-06 2005-08-11 Sherif Yacoub Automated speech recognition
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7346504B2 (en) * 2005-06-20 2008-03-18 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
TWI321313B (en) * 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
US8346549B2 (en) * 2009-12-04 2013-01-01 At&T Intellectual Property I, L.P. System and method for supplemental speech recognition by identified idle resources
JP5431282B2 (ja) * 2010-09-28 2014-03-05 株式会社東芝 音声対話装置、方法、プログラム
JP2013019958A (ja) * 2011-07-07 2013-01-31 Denso Corp 音声認識装置
CN103971687B (zh) * 2013-02-01 2016-06-29 腾讯科技(深圳)有限公司 一种语音识别系统中的负载均衡实现方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5155760A (en) * 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
US5459781A (en) * 1994-01-12 1995-10-17 Dialogic Corporation Selectively activated dual tone multi-frequency detector
GB2325112B (en) * 1997-05-06 2002-07-31 Ibm Voice processing system
US6119087A (en) * 1998-03-13 2000-09-12 Nuance Communications System architecture for and method of voice processing
US6314402B1 (en) * 1999-04-23 2001-11-06 Nuance Communications Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system
US6785653B1 (en) * 2000-05-01 2004-08-31 Nuance Communications Distributed voice web architecture and associated components and methods
US6728677B1 (en) * 2001-01-31 2004-04-27 Nuance Communications Method and system for dynamically improving performance of speech recognition or other speech processing systems
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323827A (ja) * 2005-04-18 2006-11-30 Ricoh Co Ltd 音楽フォント出力装置、フォントデータベース及び言語入力フロントエンドプロセッサ
KR101361724B1 (ko) * 2007-12-28 2014-02-12 제네시스 텔레커뮤니케이션즈 래버러토리즈 인코포레이티드 재귀적 적응형 상호작용 관리 시스템
US9092733B2 (en) 2007-12-28 2015-07-28 Genesys Telecommunications Laboratories, Inc. Recursive adaptive interaction management system
US9384446B2 (en) 2007-12-28 2016-07-05 Genesys Telecommunications Laboratories Inc. Recursive adaptive interaction management system
US10552743B2 (en) 2007-12-28 2020-02-04 Genesys Telecommunications Laboratories, Inc. Recursive adaptive interaction management system
KR101304112B1 (ko) * 2011-12-27 2013-09-05 현대캐피탈 주식회사 음성 분리를 이용한 실시간 화자인식 시스템 및 방법
JP2016180914A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 音声認識システム、音声認識方法、プログラム
JP2017151210A (ja) * 2016-02-23 2017-08-31 Nttテクノクロス株式会社 情報処理装置、音声認識方法及びプログラム

Also Published As

Publication number Publication date
DE60217902D1 (de) 2007-03-15
US20050038659A1 (en) 2005-02-17
EP1451808A1 (en) 2004-09-01
DE60217902T2 (de) 2007-10-18
DE10158583A1 (de) 2003-06-12
WO2003046887A1 (en) 2003-06-05
AU2002365496A1 (en) 2003-06-10
JP4469176B2 (ja) 2010-05-26
ATE352835T1 (de) 2007-02-15
EP1451808B1 (en) 2007-01-24

Similar Documents

Publication Publication Date Title
JP4469176B2 (ja) バージイン対話システムの処理方法及びバージイン対話システム
US6453020B1 (en) Voice processing system
US6282268B1 (en) Voice processing system
EP1503286B1 (en) Multiple operating system networking
US8543704B2 (en) Method and apparatus for multimodal voice and web services
US6098043A (en) Method and apparatus for providing an improved user interface in speech recognition systems
US20060104293A1 (en) Method of performing a communication service
CA2712272A1 (en) Headset and audio gateway system for execution of voice input driven applications
EP0954855A2 (en) Method and system arranged for selective hardware sharing in a speech-based intercommunication system with speech processing on plural levels of relative complexity
JP2002141955A (ja) ローカライズされたVoIPを利用するための装置及び方法
CN111770131A (zh) 负载平衡的持久连接技术
US8886542B2 (en) Voice interactive service system and method for providing different speech-based services
US9060060B2 (en) Efficient utilization of IVR resources supplied to switching systems
US8019607B2 (en) Establishing call-based audio sockets within a componentized voice server
CN114851210A (zh) 基于云平台的机器人调度方法及调度云平台
US20040002339A1 (en) Method and apparatus for allocating bandwidth resources
CN102917027B (zh) 网页聊天室的访问方法、装置及系统
EP1309220B1 (en) Data processing system and method
KR20030013154A (ko) 다채널로 입력되는 실시간 음성인식 방법
KR100388065B1 (ko) 유닉스를 사용하는 분산 시스템 상에서 공유 라이브러리 지원방법 및 장치
JPH09139769A (ja) 通信システムで資源割当を提供するための回路、システム、および方法
KR20230047261A (ko) 영상 회의 지원 방법과 이를 지원하는 서버 장치
WO2020103065A1 (zh) 对讲通信方法和对讲终端
KR20010002983A (ko) 이동 통신 시스템 제어국에서의 호 처리 장치 및 방법
JPS61250698A (ja) 音声認識応答装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100226

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3