JP2001508200A

JP2001508200A - 音声に基づいた相互通信システムにおいて、比較的複雑な複数のレベルでの音声処理を共有する選択ハードウェアのための方法及びシステム

Info

Publication number: JP2001508200A
Application number: JP52798499A
Authority: JP
Inventors: ミカエルジョースト
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1997-11-14
Filing date: 1998-10-19
Publication date: 2001-06-19
Also published as: WO1999026233A2; DE69814819T2; EP0954855B1; EP0954855A2; US6327568B1; WO1999026233A3; DE69814819D1

Abstract

(57)【要約】多局相互通信システムにおいて、人間の音声は一般的複雑さの少なくとも２つのそれぞれのレベルで処理される。音声は１つ以上の基準局で並列に受信され、音声を理解にするために必要なものが関連するアプリケーション環境の中で検出される。相互通信は分散された形態において制御され、認識すべき時間的な音声項目を検出し、上記音声項目を、複数の分散した音声認識機能のうちの１つ以上の音声認識機能に動的に割り当てることにより、最終的に、認識された項目を生成する。さらに、該当するアプリケーションの内容において認識された項目を理解するために、認識された項目を複数の音声理解機能のうちの１つ以上の音声理解機能に割り当てて理解された音声項目を生成して相互通信は制御される。割当ては、偶然性と統計的方法の組合せに基づいて、分散した形態で行われる。

Description

【発明の詳細な説明】音声に基づいた相互通信システムにおいて、比較的複雑な複数のレベルでの音声処理を共有する選択ハードウェアのための方法及びシステム背景技術本発明は、人間の音声を認識する多局相互通信システムの動作方法に関する。米国特許５，４７１，５２１には、第１のコンピュータが入ってくる電話の呼出音を処理し、第２のコンピュータが所望のテクニカルプロセスを行うシステムが記載されている。様々なサーバが存在している。本発明者は分散している多くの加入者に提供する多くの通信システムの中で、音声処理の複雑さを様々なレベルで認識するとともに、そのような様々なレベル間の動きを処理するときの頻繁な変化を短い通知で認識している間に、役立つ機能を効率的な方法で分配する必要性を認識していた。さらに、そのシステムは高い信頼性を提供すべきであり、そのために、そのトポロジを自動的に再構成することができるべきである。発明の開示従って、相互のサーバ間で、本発明の目的は、コンピュータに集中するタスクが、動的な基礎に基づいてもっとも適した機能に即座に分散されるように、分散型音声処理方法を改善することであり、その結果、全てを処理する処理能力が最大限効果的に使用され、局所的な過負荷は、限られたオーバヘッド量に対してのみかかるだけで、かなりの割合で避けられる。それ故に、本発明の態様の１つによれば、本発明は、請求項１の特徴部分に示されているように特徴づけられる。また、本発明は、請求項１に記載された方法を実施するために構成されたシステムに関する。また、本発明は、請求項１に記載された内容の方法、及び／又は請求項２に記載されたシステムの部分を動作するサブシステム機能に関する。さらに、本発明の好ましい態様は、従属項に記載されている。本発明の上記のシステム、サブシステム機能、及び好ましい態様は、以下に示されている好ましい実施例、特に添付されている第１図〜第５図を参照しながらさらに詳細に言及される。図面の簡単な説明図１は、本発明のシステム図である。図２は、リクエスタ局のブロック図である。図３は、システムの対話形式図である。図４は、局とサーバ局との結合を示す図である。図５は、分配されたネットワークブローカ装置を示す図である。発明を実施するための最良の形態図１は、本発明のシステム図である。この図には、リング形状の物理的ネットワーク２２が示されている。しかしながら、本発明では、そのネットワークの構造を問うものではない。また、ネットワークプロトコルも問うものでもない。この実施例では、多数のユーザ局が存在するが、そのうちの符号２４−３２が付されたユーザ局のみが示されている。ユーザ局はユーザの音声を受信するのに適しており、もし必要ならば、テープレコーダから発せられるような、機械が生成した音声あるいは他のシミュレートされたタイプの人間音声を出力するのに適合させることができる。ユーザ局を電話網の中の無人ゲートウェイとしてもよい。また、システム出力を文字表示の形態にしてもよい。実際は、全ての局の数は、１００万のオーダにまで達し、そのうちの数千の局はいつでも、実際の対話に使用されている。対話は情報システムに適合しており、そのシステムでは、ユーザが、大容量のデータベース２０へのアクセスを行っている。他の分野での使用として、電車の切符のような項目のサービスのオーダに使用したり、あるいは、認識内容について質問したり答えをチェックしたりする大規模な面接システムに使用したりしてもよい。対話は、双方のそれぞれの側からもう一方の側に向けて、不確定な内容あるいは構成を有する情報に関していてもよく、対話の結果に基づいて、そのシステムは関連する選択をする。アナログ音声は適切な前置装置あるいは受信局で受信され、ネットワーク２２を簡単に伝送するデジタルコードのストリームに変換される。代わりに、局は、直接的に、例えばＩＳＤＮ電話網からのデジタルコード音声を受信してもよい。受信された音声の処理は、様々な異なったレベルでの分析が要求される。開示するという目的のため、実施例では、２つの異なったサーバの組のみが示されている。第１に、音声認識局３６−４０は、デジタルコードのストリングを受信するように構成され、また、単語、音素、あるいは他の項目のシーケンスの行先に音声のストリームを作成するために、単語モデル、言語モデル、及び他の可能なモデルを使用するように構成されている。最後に、音声理解サブシステム４２− ４６は、その他の認識される単語のストリングを受信するように構成され、また、認識された単語のストリームを、実際の対話の進行に関係するような内容を有する列情報に作成するために、１つ以上の対話モデルを使用するように構成されている。このシステムは、何かの”故障中”の指示を示すかもしれないし、早口で発音された言葉を繰り返したりあるいは明確にするようなやり方に変更するようにユーザに勧告するかもしれない。おそらく、ユーザは、結局、いくつか理解しやすい音声情報を提供し、システム２０は対話の内容に合うような出力をする。その出力は、当意即妙なユーザの文、問題の解答、システムにより確かに理解されたということをユーザに指示するようなもっともありそうな項目、あるいは別の興味本位の文かもしれない。原則として、別のタイプの答えも可能である。上述したように、分散した機能への様々なタスクの割当ては、全体としてシステムにより実行され、この分散させた形態では、この点で、特別なレベルの複雑さあるいは機能にいくつかの助けが必要である信号方式は別にして、ユーザのアプリケーションは受身的である。特別な処理機能が該当するアプリケーションに割り当てられた後、ユーザ局は処理されるべき情報を転送するかもしれない。図２は、特別なユーザ局あるいは前置局に親密に関係しているリクエスタ局６０のブロック図である。ユーザは、そのリクエスタ局に、双方向音声チャンネル５０により連結されている。音声は音声入力サブシステム５２及び音声出力サブシステム５４により、双方向に変換される。その変換された音声情報は音声認識サーバ６２に伝送される。認識された音声は地方局６０に戻され、その後部分的に音声理解モジュール５６で処理される。その処理された音声はブロック５８に伝送される。そのブロック５８は、実際のアプリケーションを表しており、接続５０の出力線を制御する。音声認識は、しばしば、音声理解のような大部分の他の処理項目と比較してコンピュータに集中し、そのため、対話の動きは、地方音声理解モジュール５６に対し、高速で遠隔の音声認識サブシステム６２の使用に適していることがわかる。図１において、音声理解は、それを遠くで実行するためかなり複雑だと思われている。このようなことは、基本的な情報変換機能の複雑さ、音声が実際に正しく理解しているかどうかのチェックに要求される確実性の程度、侵入から安全でなければならない正味の転送についての確実な安全の状況、及び、多くのコンピュータ機能の使用が必要であるその他の状況により、引き起こされる。図２において、音声認識サーバはこのようなサーバの一例である。実際、サーバマシーンは、複数の音声認識器の役割を果たしており、それ故に、多数のクライアントに同時にサービスを提供し、リアルタイムという制限で実行することができる。さらに、ユーザは全対話時間のうちのわずかしか話さないため、１つの認識サーバを、多数のクライアントと共有することができる。ユーザの発音にリアルタイムで反応すると、１／１０秒オーダ程度の、人間の主観的な期待に相当する遅延を生じる。さらに、示されたクライアントシステムは、多重電話回線の音声データ、データベースアクセス、及びアプリケーションプログラムのようなＩ／Ｏのトラフィックを取り扱うのに専念している。図３は、両側対話に基づいたシステムの相互作用図である。下部線は、受話器を取るユーザ等による対話の開始の検出を示しており、そのシステムは、挨拶文、あるいは、最初の質問あるいは勧告文を出力する。上部線は、ユーザが音声で最初の質問あるいは最初の答えを提供することを示す。さらに、下部線は、上部線に示した反応に対して、システムがユーザに対し、別の文章、質問、あるいは他の音声項目を提供することを示す。これは、上部線におけるユーザからの別の発音によって続けられる。結局、そのシステムは、最終的な情報量を提供し、あるいはユーザの要求を確認する。そしてユーザから離れる。システムが音声を出力する限りは、認識機能は、該当する対話に関しては動作していない。このことはまた、ユーザが発した音声については中止に当てはまる。さらに、人間が発した音声が受信されると、マシンの音声の生成は中断される。図４は、セレクタ９６，９８によりネットワーク１００に接続される、９２で示すユーザ局と９４で示すサーバ局との結合を示す。もし、音声認識機能がネットワーク環境に受け入れられると、他の対話が中止の間、コンピュータのパワーを利用するために、その機能が異なった対話間で共有されることが可能である。このようなシナリオで、ハードウェアあるいはソフトウェアで実現される音声認識器の数は、リアルタイムで認識するという制限を破らずに、同時に行われる対話の実際の数よりも少ない。音声認識器は、発音に基づいたアプリケーション対話に割り当てられるが、一般的には、特別な対話には決して割り当てられない。音声データストリームは、使用可能な音声認識器で経路が定められる。その認識器は、また、新しい発音がある特定のサーバに割り当てられているたびに、言語モデル及び語彙のような特定の認識内容を活性化する。この実施例では、多数の音声認識サーバ及び多数のクライアントシステムで、各発音は異なったサーバで評価され、各音声認識サーバは、様々な異なるクライアントシステム及び／又は対話から連続的に続く発音を受信する。サーバのコンピュータパワーに依存して、それらサーバは、各々いくつかの音声認識処理を並列に提供し、リアルタイムという限定で実行する。また、クライアントは、多くの対話を並列に提供する。このシナリオでは、発音に基づいた経路を定めることにより、有効なコンピュータ機能を使用するときに、最高のフレキシブルが提供される。図５は、ネットワーク１１０に関する、分配されたブローカ装置を示す図である。自然な言語音声対話により制御された情報システムでは、音声認識器は、そのネットワークを経由してアプリケーションクライアントシステム１１２，１１４と接続されているサーバシステム１１６，１１８に集められる。ネットワーク構造は、示された４つのシステムそれぞれにローカルネットワークブローカを有しており、それら４つのシステムはリクエスタと資源とを同数にする。もし、特定のクライアントシステムの特定の対話に音声認識が必要の場合、話し手が発音し始めるため、該当するブローカは、ネットワークの任意のサーバシステムに配置された使用可能な音声認識器を発見する。そのブローカは音声データストリームの経路を特定の音声認識器に定め、クライアントシステムの対話アプリケーションにワードグラフの結果を戻す。マシンの依存性と、手動で動かす努力を減らすため、ネットワークブローカは、完全な分散構造である。それは、現在存在するクライアントシステムとサーバシステムの形態に適合する、自動で動的な形態構造を使用する。付加的なサーバ局及びクライアント局は、既に存在しているシステムを分散させたりあるいは変化させたりしなくても、環境に加えられることができる。加えられるクライアントは使いたいサーバをすぐに使用することができ、加えられるサーバは、クライアントによりすぐに使用されるサーバとして考えられる。もし、クライアントシステムあるいはサーバシステムが、故障あるいはスイッチオフされた場合、この特定のマシンにより取り扱われる対話のみに影響がある。残りのシステムは、遠隔の要素なしで実行するために自動的に再構成される。ネットワークブローカは、２種類の要素から成る。１つはクライアント側に属する要素であり、もう１つは音声認識サーバ側に属する要素である。このような各要素は、そのもう一方の要素の各部分に作用しているため、ブローカ部分間は大いに関係がある。各ネットワークブローカは多くの対話あるいは音声認識を処理している。音声認識器はサーバシステム内に構成され、その音声認識器はネットワークを経由してアプリケーションクライアントシステムに接続されている。そのネットワークブローカは、リクエスタと資源とを同数にする部分である。もし、クライアントシステムの対話に音声認識器が必要ならば、そのブローカは、そのネットワークに存在するどのサーバシステムについても、有効な音声認識器を見つける。簡単な統計的方法は特定の資源の割当てに使用される。音声認識はリアルタイムという限定で行われており、つまり、同時にされた発音が１つの認識サーバシステムに割り当てられないということは、リアルタイムで評価できないということと同じであるということが負荷分散の方法により確かとなる。多くのクライアントが衝突するというリスクはランダム選択方法により最小となる。多様な発音に対してそれぞれ異なるプロセッサ資源を要求するならば、予測の計算が不要である負荷分散により取り扱われる。この方法は以下に示す利点を有している。・構成が簡単である。・認識器の有効性、認識器それぞれの認識力、言語モデルや語彙等の関連する文脈といった分散した資源情報に基づいて処理できる。・選択手続きが簡単である。クライアントは全サーバの中の利用したい資源のテーブルを使用することができ、利用したい認識器を探すために各サーバそれぞれを訪れる必要がない。それ故に、割当ては、リアルタイムという制限で素早く行われる。・多数のクライアントから同じサーバへの同時に行われるアクセスは該当するサーバの処理により解決される。その処理により、どのクライアントが使用可能な認識器に接続できるかが決定される。・たとえ、輻輳の状況でのサーバの割当てが特定のサーバについてリアルタイムで行われることを侵害しても、用意された認識器は、輻輳の状況に割り当てられるサーバに構成される。用意された資源は、他のリアルタイムで使用される認識器はネットワークでは利用できないか、あるいは、同時の要求が最終的にリアルタイムで使用できるサーバの資源で生じるかのどちらかの異常事態のときにのみ割り当てらるということが、負荷分散アルゴリズムにより確実となる。本発明による、遠隔および分配された処理の特別な利点は、構成をセットアップする必要がないためシステムが十分保証されているということである。

Claims

【特許請求の範囲】１．多数の並列的に共存する局に受信される音声に関して、一般的複雑さの少なくとも２つのそれぞれのレベルで音声処理が行われる多局相互通信システムの動作方法において、１つ以上の基準局で人間音声を受信し、そのような音声を理解にするために必要なものを関連するアプリケーション環境の中で検出するステップと、認識すべき時間的な音声項目を検出し、前記音声項目を、複数の分散した音声認識機能のうちの１つ以上の音声認識機能に動的に割り当てることにより、最終的に、認識された項目を生成する、分散された形態における実際の相互通信を制御するステップと、該当するアプリケーションの文脈において前記認識された項目を理解するために、前記認識された項目を複数の音声理解機能のうちの１つ以上の音声理解機能に割り当てて理解された音声項目を生成して実際の通信を制御する別のステップと、偶然性と統計的方法の組合せに基づいて、分散した形態での前記割当てを行うステップとを備えたことを特徴とする方法。２．前記音声理解は該当する基準局に割り当て戻されることを特徴とする請求項１に記載の方法。３．前記音声理解は動的形態に割り当てられることを特徴とする請求項１に記載の方法。４．請求項１に記載した方法を実行するように構成されたシステム。５．請求項１に記載したような内容の方法で動作するように構成されたサブシステム機能。