JP2005184852A

JP2005184852A - 音声対話システム

Info

Publication number: JP2005184852A
Application number: JP2005001734A
Authority: JP
Inventors: Naohisa Kawaguchi; 尚久川口; Kazuki Matsui; 一樹松井; Takashi Ono; 敬史大野; Akinori Iwakawa; 明則岩川; Hiroaki Harada; 裕明原田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-01-06
Filing date: 2005-01-06
Publication date: 2005-07-07

Abstract

【課題】本発明は、ネットワークを介して音声によって複数のユーザが対話する音声対話システムに関し、グループ内で会話を共有する。
【解決手段】各受信グループ毎の受信グループテーブルと各発信グループ毎の発信グループテーブルとからなるグループ管理テーブル３３を設けて、各グループごとの受信グループテーブルに、そのグループに所属しているすべてのユーザのユーザＩＤを記述しておく。さらに、各グループごとの発信グループテーブルに、そのグループに所属しているユーザのグループＩＤを記述しておく。各端末Ａ，Ｂから送信されてきた発言は、サーバ２０内のバッファメモリ２１Ａ，２１Ｂに記憶され、スケジューラ２２によって適当に順序付けがなされて、同一グループに所属するすべての端末に順次配信される。
【選択図】図１１

Description

本発明は、コンピュータおよびコンピュータネットワークを利用したオンラインチャットシステムにおける、音声によって複数のユーザが対話する音声対話システムに関する。

コンピュータネットワークの普及により、ネットワーク上で複数のユーザが会話することで、作業を進めたり、ゲームを行なったり、生活情報を交換するということが容易になってきた。

このため、一般ユーザでもこのような、ネットワーク会話システム（チャットシステム）に参加できるように、キーボードに換わる、もっと簡単な入力手段が求められている。

従来のチャットシステムにおいては、キーボードを操作することで、文章を入力し、これを送信することで会話を行なっていた。

ところが、一般ユーザにとっては、かな漢字変換などのキーボード操作は非常に難しいことであり、このため入力速度が遅くなり、会話の流れについていけないという問題点があった。この問題を解決するために、音声により会話するシステムも開発されている。

図６１は、従来の音声対話システムの構成図である。ここでは簡単のため、端末は端末Ａと端末Ｂとの２台のみ示されており、これらの端末Ａ，Ｂ間で対話が行なわれるものとする。

各端末Ａ，Ｂには、音声を音声信号に変換する、マイクロホン等の音声入力手段１１Ａ，１１Ｂ、および音声信号を音声に変換する、スピーカ等の音声出力手段１２Ａ，１２Ｂが備えられており、通信回線１を介して、ルータ２の制御に基づいて端末Ａと端末Ｂが接続され、音声信号を送受信することにより端末Ａ，Ｂ間での対話が行なわれる。

しかしながら、従来のこのような音声対話システムでは、通信路のバンド幅が不足することから、２者〜４者間で対話を行なうことのできるシステムしか存在しない。

従って、複数のユーザがネットワークを通して会話するためには、ユーザの増加に従って増える音声データをどのようにして削減するかが課題である。

本発明は、上記事情に鑑み、ユーザ間の通信量を適切に制御するのに好適な音声対話システムを提供することを目的とする。

上記目的を達成する本発明の音声対話システムは、音声を音声信号に変換する音声入力手段および音声信号を音声に変換する音声出力手段を備えた、通信回線に接続される複数の端末と、通信回線を介してこれら複数の端末と接続され、これらの端末との間で音声信号の収集および配信を行なうサーバとを備え、これら複数の端末間で音声を用いて対話を行なう音声対話システムにおいて、上記サーバが、端末から送信されてきた音声信号をバッファリングするメモリと、そのメモリにバッファリングされた音声信号の配信を制御するスケジューラとを備えたことを特徴とする。

ここで、上記スケジューラは、音声信号の配信順序を制御するものであってもよい。

図１は、この態様の原理図である。

この図、および、一部の図を除き以下の各図においても、端末は代表的に２台のみ図示する。

ここでは、図１に示すように、それぞれの端末Ａ，Ｂより送信されて来た発言を、制御部２３を用いて、サーバ２０内のバッファメモリ２１Ａ，２１Ｂに記憶し、それぞれの発言をスケジューラ２２により適当に順序付けし、順に、各端末Ａ，Ｂに配信する。ここでは、解りやすさのため、バッファメモリは、各端末Ａ，Ｂに対応させて端末数と同数図示してある。

これにより、複数の端末Ａ，Ｂより同時に発言が行われた場合に、各端末Ａ，Ｂにそれらの発言が並行して着信することで回線１のバンド幅を越えてしまい、発言が不自然に途切れたりするという問題点を回避することができる。また、各端末Ａ，Ｂにおいて複数の発言が平行して着信する、あるいは各端末Ａ，Ｂにおいて複数の発言をミキシングするという処理の手間も省くことができる。尚、この図１には、各端末Ａ，Ｂを制御する制御部１３Ａ，１３Ｂも図示されている。

本発明の音声対話システムにおいて、上記サーバが、音声を同時に送信する同時発言者数管理手段を備え、上記端末からの、所定の数を越える音声信号の同時送信を禁止するものであることが好ましい。

図２は、この態様を示す原理図である。

ここには、図２に示すように、それぞれの端末Ａ，Ｂより発言を行う場合、まず、発言要求手段１４Ａ，１４Ｂにより、サーバ２０に対して発言したいという要求を伝える。サーバ２０では、同時発言者数管理手段２４に、予め、同時に発言できる人数を回線１のバンド幅などを考慮して設定しておく。例えば、３人までなら、同時発言者数管理手段２４に３を設定しておく。端末より発言要求が来たならば、この同時発言者数管理手段２４に保持されている数値を確認し、１以上なら、その端末Ａ，Ｂに許可通知を与えるとともに、数値を−１する。もし、数値が既に０となっていたならば、どれかの端末から発言終了通知が来るまで待つ。

端末側では、許可通知を受信したら、発言許可表示手段１５Ａ，１５Ｂにより、ユーザに発言を行っても良いことを知らせる。ユーザはこの表示を確認の後、発言を開始し、発言完了後に、発言終了通知手段１６Ａ，１６Ｂにより、サーバ２０に対し発音終了を通知する。

サーバ側では、発言終了通知を受信したならば、同時発言者管理手段２４に保持されている数値を＋１する。

本発明の音声対話システムでは、サーバもしくは端末が、端末から送信されてきた音声信号の無音部分を検出する無音部分検出手段を備え、スケジューラが、音声信号が無音部分により分離されてなる各発言単位毎に配信順序を制御するものであることが好ましい。

図３は、この態様を示す原理図である。

図３に示すように、それぞれの端末より送信されてきた発言を、制御部２３を用いて、サーバ２０内のバッファメモリ２１Ａ，２１Ｂに記憶し、無音部検出手段に２５により、バッファメモリ２１Ａ，２１Ｂ内のＰＣＭデータを調べることにより、音量の大きさを計測し、音量が予め設定された値より小さい期間が、予め設定された時間より長ければ、この部分で発言を分割し、それぞれの発言をスケジューラにより適当に順序付けし、順に、すべての端末に配信する。

これにより、本発明の基本的な利点に加え、発言の切れ目を見付けて、その切れ目で他の発言に切り替えることができるので、無音部分で無駄に占有されることを防ぐことが可能となる。

本発明の音声対話システムでは、上記スケジューラが、音声信号がサーバに到着した時刻順に音声信号がサーバから配信されるように、音声信号の配信順序を制御するものであることも好ましい態様である。

図４は、この態様を示す原理図である。

図４に示すように、それぞれの端末より送信されてきた発言を、制御部２３を用いてサーバ２０内のバッファメモリ２１Ａ，２１Ｂに記憶し、さらに、発言の受信開始時の時刻を、各バッファメモリ２１Ａ，２１Ｂに記憶しておく。スケジューラ２２においては、もし、現在、送信中の発言があれば、それを続行する。もし、送信完了していれば、全てのバッファメモリ２１Ａ，２１Ｂの中で、受信開始時刻の早いものを、発言の区切りまで、すべての端末に送信する。

これにより、本発明の基本的な利点に加え、さらに、時間軸に沿った会話が可能になるという利点がある。

本発明の音声対話システムでは、上記サーバが、端末の内部時刻の送信を指示するコマンドを端末に送信する手段を備え、端末が、そのコマンドに応答して自分の内部時刻をサーバに送信する手段と、音声信号をサーバに送信するに際して、その音声信号に送信時の自分の内部時刻を付して送信する手段とを備え、上記スケジューラが、音声信号が端末から発信された時刻順に音声信号がサーバから配信されるように、音声信号の配信順序を制御するものであることも好ましい態様である。

図５は、この態様を示す原理図である。

図５に示すように、端末Ａ，Ｂがサーバ２０に接続された時点で、サーバ２０内の内部時間補正値計算部２７が起動され、まず、サーバ２０より、端末Ａ，Ｂに向かって、端末Ａ，Ｂのローカルな時刻を内部時計１７Ａ，１７Ｂより読み取り、その時刻をサーバ２０に対して送信するよう指示する。この指示を出した時刻をＴｓとする。サーバ２０では、この指示に応答して、端末Ａ，Ｂのローカルな時刻が端末Ａ，Ｂより報告されるのを待つ。端末Ａ，Ｂから報告が得られたら、この時刻をＴｅとし、報告された端末Ａ，Ｂのローカルな時刻をＴ１とすると、サーバ２０の内部時計２６とある端末Ａ，Ｂの内部時計１７Ａ，１７Ｂの差分は、内部時間補正値Ｔｄ＝Ｔｓ＋（Ｔｅ−Ｔｓ）／２−Ｔ１となる。

この値をすべての端末Ａ，Ｂについて計算して、各バッファ２１Ａ，２１Ｂの内部時間補正値メモリに記録する。

各端末Ａ，Ｂにおいて、発言が行なわれた時刻Ｔｘを内部時計１７Ａ，１７Ｂにより計測し、その時刻を付加してサーバ２０に送信する。これにより、サーバ２０において、各端末Ａ，Ｂから送信されてきた発言の実際に行われた時刻を、Ｔｘ−Ｔｄにより、サーバ内部時計の時刻に補正することができる。

各端末Ａ，Ｂからの発言をバッファ２１Ａ，２１Ｂに格納するときには、端末Ａ，Ｂより送信された内部時刻を、内部時間補正値を用いて、サーバ内部時刻に補正し、補正済受信開始時刻メモリに記憶する。スケジューラ２２は、発言が実際に行われた順に従って、各発言を順次、すべての端末Ａ，Ｂに送信することができる。

これにより、本発明の基本的な利点に加え、より厳密に誰が最初に発言を行なったかを決定することができるので、早いもの順で行なうサービス、例えば、クイズのようなサービスも公正に行なうことが可能になる。

本発明の音声対話システムでは、上記サーバが音声信号をミキシングするミキサを備えることが好ましい。

図６は、この態様を示す原理図である。

図６に示すように、それぞれの端末Ａ，Ｂより送信されてきた発言を、サーバ２０内のバッファメモリ２１Ａ，２１Ｂに記憶し、それぞれの発言をミキサ２９により、１つの音声にミキシングして一旦出力バッファエリア２８に格納した後、すべての端末Ａ，Ｂに配信する。

これにより、複数の端末Ａ，Ｂより同時に発言が行なわれた場合に、各端末Ａ，Ｂに、それらの発言が並行して着信することで、回線１のバンド幅を越えてしまい、発言が不自然に途切れたりするという問題を回避することができる。また、各端末Ａ，Ｂにおいて、並行して着信する、あるいは、複数の発言をミキシングするという処理の手間も省くことができる。

本発明の音声対話システムでは、上記スケジューラが、音声信号がサーバに到達した時刻に基づいて、音声信号の配信時刻を制御するものであることも好ましい態様である。

図７は、この態様を示す原理図である。

図７に示すように、それぞれの端末Ａ，Ｂより送信されてきた発言を、サーバ２０内のバッファメモリ２１Ａ，２１Ｂに記憶し、さらに発言の受信開始時の時刻を、各バッファ２１Ａ，２１Ｂに記憶しておく。ミキサ２９は、受信開始時刻を参照して各発言を時系列に揃え、同時刻の音をミキシングして出力バッファエリア２８に一旦格納する。スケジューラ２２は、同時刻の発言はミキシングされて、各発言を時刻順に配信する。

これにより、本発明の基本的な利点に加え、各発言を時刻順に揃えてミキシングすることが可能になる。

本発明の音声対話システムでは、上記サーバが、端末の内部時刻の送信を指示するコマンドを端末に送信する手段を備え、端末が、そのコマンドに応答して自分の内部時刻をサーバに送信する手段と、音声信号をサーバに送信するに際して、音声信号に送信時の自分の内部時刻を付して送信する手段とを備え、上記スケジューラが、音声信号が端末から発信された時刻に基づいて、音声信号の配信時刻を制御するものであることも好ましい態様である。

図８は、この態様を示す原理図である。

図８に示すように、端末Ａ，Ｂがサーバ２０に接続された時点で、まず、サーバ２０より、端末Ａ，Ｂに向かって、端末Ａ，Ｂのローカルな時刻を内部時計１７Ａ，１７Ｂより読み取り、その時刻をサーバ２０に対して送信するように指示する。この指示を出した時刻をＴｓとする。サーバ２０では、この指示に応答して、端末Ａ，Ｂのローカルな時刻が端末Ａ，Ｂより報告されるのを待つ。端末Ａ，Ｂから報告が得られたら、この時刻をＴｅとし、報告された端末Ａ，Ｂのローカルな時刻をＴ１とすると、サーバ２０の内部時計２６とある端末Ａ，Ｂの内部時計の差分は、Ｔｄ＝Ｔｓ＋（Ｔｅ−Ｔｓ）／２−Ｔ１となる。この初期設定処理を各端末Ａ，Ｂについてまず行なう。

各端末Ａ，Ｂにおいて、発言が行なわれた時刻Ｔｘを内部時計１７Ａ，１７Ｂにより計測し、その時刻を付加してサーバ２０に送信する。これにより、サーバ２０において、各端末Ａ，Ｂから送信されてきた発言の実際に行なわれた時刻を、Ｔｘ−Ｔｄにより、サーバ内部時計の時刻に補正することができる。

このようにすることで、各端末Ａ，Ｂからの発言をバッファ２１Ａ，２１Ｂに格納するときに、サーバ内部時計に補正した発言開始時刻を付加して記憶する。これにより、ミキサ２９は、発言が実際に行なわれた時刻に従って、各発言をミキシングすることができる。スケジューラ２２は発言が実際に行われた時刻に基づいて配信時刻を制御する。

これにより、図６を参照して説明した実施形態の利点に加え、より厳密に誰が最初に発言を行なったかを決定することができるので、早いもの順で行なうサービス、例えばクイズのようなサービスも公正に行うことが可能になる。

本発明の音声対話システムは、上記端末それぞれが、論理上の人物像（いわゆるアバタ）を有し、上記スケジューラが、論理上の人物像空間内における該人物像の論理上の位置関係、距離、周囲環境、視線方向、視界、姿勢のうちの少なくとも１つに基づいて音声信号の配信を制御するものであってもよい。

図９は、この態様を示す原理図である。

図９に示すように、それぞれの端末Ａ，Ｂには、それら各端末Ａ，Ｂのユーザ（すなわち各発言者）を表わす論理上の人物像（いわゆるアバタ）の位置、視線方向、視界等を管理するアバタ管理情報が格納されるアバタ管理情報メモリ１７Ａ，１７Ｂ、端末Ａ，Ｂのアバタが共有する論理上の世界を管理する世界管理情報メモリ１８Ａ，１８Ｂが備えられている。各端末Ａ，Ｂのユーザは、自分自身を表わすアバタの位置、視線方向等を制御することができる。

各端末Ａ，Ｂは、発言を送信するとともに、自分自身のアバタの移動方向、視線の移動方向等を送信し、サーバ２０は、発言はサーバ２０内のバッファメモリ２１Ａ，２１Ｂに記憶し、さらに、そのアバタの論理的な位置、視線方向、視界等を管理するアバタ管理情報メモリの内容を逐次更新する。サーバ２０には、各端末Ａ，Ｂと同様の世界管理情報メモリ３０と、アバタどうしがどこまで離れていても話ができるかを示す最大到達距離を格納する最大到達距離メモリ３１が備えられている。スケジューラ２２において、各端末Ａ，Ｂに発言を順次送信する際に、ある発言者（＝アバタ）から見えない（視界外にいる）アバタからの発言は送信しない、もしくは、優先順位を落としてい送信するなどのスケジューリングを行なう。

これにより、本発明の基本的な利点に加え、さらに、見えてない発言者から話し掛けられるという不都合や、あまりに距離の離れている発言者からの発言は聞こえなくするなどの制御を行なうことが可能となる。さらに、このように、聞く必要のない発言の配信を制限することで、不必要な通信量を削減することも可能となる。

本発明の音声対話システムは、上記端末それぞれが論理上の人物像（アバタ）を有し前記論理上の人物像空間内における、該人物像の位置関係、距離、周囲環境、視線方向、視界、姿勢のうちの少なくとも１つに基づいて音声信号に変更を加えるエフェクタ手段を備えたものであることが好ましい。

図１０は、この態様を示す原理図である。

図１０に示すように、それぞれの端末Ａ，Ｂより発言を送信するとともに、各発言者（各アバタ）の移動方向、視線の移動方向等を送信し、発言はサーバ２０内のバッファメモリ２１Ａ，２１Ｂに記憶し、さらに、各アバタの論理的な位置、視線方向、視線等を管理するアバタ管理情報メモリの内容を逐次更新する。バッファリングされた発言を、それぞれの端末に配信する際に、論理的に非常に離れた発言者からの発言は配信しないようにし、それ以外の場合は、エフェクタ３２により、発言者と聴取者との論理的な位置関係、それぞれの視線方向を考慮し、距離が離れるに従い音量を小さくして加工する。また、方位に従って、左右の音量比、位相、音質（フィルタの特性）を変化させる。さらに、発言者と聴取者の間に障害物がある場合には、間接的に音が伝わっていることを表現するために、反響音を付加したり、音質（フィルタの特性）を変更する。このようにして変更した音声信号は、ステレオ音声信号として各出力バッファエリアＬ，Ｒに一旦格納する。

このように加工した、各端末からの発言を適当にスケジューリングを行い、順次各端末に配信し、あるいは同時刻の各発言をミキシングして、各端末に配信する。

これにより、発言者に距離に対応した音量、発言者のいる方位に対応した方向から音がしているように聞こえるなど、より現実感を増すことができる。

本発明の音声対話システムにおいて、上記サーバが、前記複数の端末のうち対話を行なう対話グループに属する端末を登録する１以上のグループ管理テーブルを備え、上記スケジューラが、受信した音声信号が該音声信号を発信した端末と同一の対話グループに属する端末に配信されるように、音声信号の配信を制御するものであることも好ましい態様である。

図１１は、この態様を示す原理図である。

図１１に示すように、各受信グループ毎の受信グループテーブルと各発信グループ毎の発信グループテーブルとからなるグループ管理テーブル３３を設けて、各グループごとの受信グループテーブルに、そのグループに所属しているすべてのユーザのユーザＩＤを記述しておく。さらに、各グループごとの発信グループテーブルに、そのグループに所属しているユーザのグループＩＤを記述しておく。各端末Ａ，Ｂから送信されてきた発言は、サーバ２０内のバッファメモリ２１Ａ，２１Ｂに記憶され、スケジューラ２２によって適当に順序付けがなされて、同一グループに所属するすべての端末に順次配信される。あるいは、前述したように、ミキサによって同一グループに所属するそれぞれの端末用に時刻を揃えてミキシングして、それぞれの端末に配信してもよい。

本発明の音声対話システムにおいて、上記端末が、自分が送信する音声信号を受信する受信先の端末を指定する複数の発信モードのうちのいずれか１つの発信モードを選択する発信モード選択手段を備えたものであることが好ましい。

図１２は、この態様を示す原理図である。

図１２に示すように、あらかじめ、発信モード選択手段１９Ａ，１９Ｂによって、発言する対象を、同一グループ、または、複数のグループに対する同報、または、特定のユーザ（ないしユーザ群）の中から選択しておく。

もし、同一グループのみならば、通常の会話モードであり、図１１を参照して説明した処理を行なう。

もし、複数グループに対する同報が、サーバ２０に指示されたなら、グループ管理テーブル３３のそのユーザの発信グループテーブル３５に同報したい受信グループＩＤを追加しておく。各端末Ａ，Ｂから送信されてきた発言は、そのユーザの発信グループテーブル３５を参照することで受信グループＩＤが決定できるので、これに従って、各受信グループの全ての所属ユーザに、発言を配信する。

もし、特定のユーザ（ないしユーザ群）に対しての発言がサーバ２０に指示されたなら、指定されたユーザＩＤ（ないしユーザ群のＩＤ）を、グループ管理テーブル３３の、そのユーザの発信グループテーブルに追加する。各端末Ａ，Ｂから送信されてきた発言は、そのユーザの発信グループテーブル３５を参照することで受信グループＩＤとユーザＩＤが決定できるので、これに従って、各受信グループの全ての所属ユーザと、すべてのユーザ（ないしユーザ群）に発言を配信する。

本発明の音声対話システムにおいて、上記端末が、自分が受信する音声信号の送信元の端末を指定する複数の聴取モードのうちのいずれか１つの聴取モードを選択する聴取モード選択手段を備えることも好ましい態様である。

図１３は、この態様の原理図である。

図１３に示すように、あらかじめ、聴取モード選択手段１０１Ｂによって、聴取する対象を同一グループ、または、複数のグループを同時に聴取するか、または、特定のユーザの発言も聴取するのかを選択しておく。

もし、複数グループ同時の聴取がサーバ２０に指示されたなら、グループ管理テーブル３３の、聴取したいグループの受信グループテーブル３４のエントリに自分のユーザＩＤを追加しておく。各端末Ａ，Ｂから送信されてきた発言は、そのユーザの発信グループテーブル３５を参照することで受信グループＩＤを決定する。これに従って、受信グループテーブル３４に登録されている全ての所属ユーザに発言を配信する。この結果、受信グループテーブル３４に追加されたユーザＩＤにも発言が配信される。

もし、特定のユーザ（ないしユーザ群）に対しての聴取がサーバ２０に指示されたなら、指定されたユーザ（ないしユーザ群）の発信グループテーブル３０に自分のユーザＩＤを追加する。各端末Ａ，Ｂから送信されてきた発言は、そのユーザの発信グループテーブル３５を参照することで受信グループＩＤおよびユーザＩＤを決定する。これに従って、受信グループテーブル３４に登録されている全ての所属ユーザおよび指定されたユーザに、発言を配信する。この結果、発信グループテーブル３５に追加されたユーザＩＤにも発言が発信される。

本発明の音声対話システムにおいて、上記端末が、サーバに向けて、音声信号の発信元である端末のうちの、自分あてに送信される音声信号の受信を拒否する端末を指定する割込禁止通知を行なう割込禁止通知手段を備え、上記サーバが、割込禁止通知により指定された送信元の端末から受信した音声信号の送信先が割込禁止通知を行なった端末であった場合に、その送信先の端末へのその音声信号の転送を取り止めるものであることも好ましい態様である。

図１４は、この態様の原理図である。

図１４に示すように、それぞれの端末において、割込禁止をサーバ２０に通知することで、ユーザの指定したグループ、ユーザから以外の発言をサーバより発信しないようにする。

サーバ２０では、端末より割込禁止が通知されたなら、受信グループに対する割込禁止ならば、受信ループテーブル３４の該当グループの割込禁止フラグをＯＮにし、自端末に対する割込禁止ならば、発信グループテーブル３５の該当端末ＩＤの割込禁止フラグをＯＮにする。あるユーザから発言モードの指定があった場合、受信グループテーブル３４の割込禁止フラグ、発信グループテーブル３５の該当する端末ＩＤの割込禁止フラグを確認し、フラグがＯＮならば、発信グループテーブル３５への登録を拒否する。

本発明の音声対話システムにおいて、上記対話グループに対応してパスワードが付されており、上記端末が、パスワードを入力して前記サーバに送るパスワード入力手段を備え、上記サーバが、端末から送られてきたパスワードを検査して正しいパスワードを送信してきた端末を、該パスワードに対応する対話グループに加入させるものであることも好ましい態様である。

図１５は、この態様を示す原理図である。

図１５に示すように各端末には、パスワード入力手段１０２Ａ，１０２Ｂが備えられており、サーバ２０には、セキュリティ検査手段３７、ユーザごとの特権レベルテーブル３６、受信グループテーブル３４、発信グループテーブル３５の各エントリに、特権レベルメモリ、パスワードメモリが付加されている。特権レベルは、各ユーザがどのレベルのグループの対話に参加が許されるかを示す指標であり、パスワードは、そのパスワードを知っているユーザのみ対話に参加できるようにするためのものである。

ここでは、ユーザからの要求に従って、ユーザの所属しない他のグループの発言を聴取するために他のユーザの発信グループテーブル３４や、他のグループの受信グループテーブル３５を書き換えようとする際に、そのユーザの特権レベル、および、パスワードをセキュリティ検査手段３９によって検査し、それが正当な要求である場合のみに、書き換えが行なわれる。

本発明の音声対話システムにおいて、上記端末が、話者と聴取者を表示する表示手段を備えることも好ましい態様である。

図１６は、この態様を示す原理図である。

各端末Ａ，Ｂには、表示手段１０５Ａ，１０５Ｂ、表示手段１０５Ａ，１０５Ｂに表示されている複数のユーザ（アバタ）の中の話しかけようとするユーザを指定する座標入力手段１０４Ａ，１０４Ｂ、表示手段１０５Ａ，１０５Ｂに描画するための描画手段１０３Ａ，１０３Ｂが備えられている。表示手段１０５Ａ，１０５Ｂには、誰が誰に話しかけているかが明示される。

このように、話し掛ける相手を指示する手段と、誰が誰に話し掛けているかを明示する手段を付加することで、話し掛けるときに、話し掛けたい相手を指示しながら発言することで、発言に相手のユーザＩＤも付加してサーバ２０に送信し、サーバ２０はそのデータに、話者のユーザＩＤも付加して、各端末に配信する。

これにより、各端末Ａ，Ｂでは、サーバ２０から配信された発言に付加されている、話者のユーザＩＤ、相手のユーザＩＤを読み取り、話者のイラスト（アバタ）、および、相手のイラストを変化させる。

本発明の音声対話システムにおいて、上記サーバが、音声信号の音質を変化させるエフェクタを備えることも好ましい態様である。

図１７は、この態様を示す原理図である。

図１７に示すように、ユーザが希望がする場合は、音質を変化させるか否かのモードを設定するモード設定手段１０６Ａ，１０６Ｂにより発言に匿名フラグを付加してサーバ２０に送信する。サーバ２０では、匿名フラグの付加された発言を受信した場合は、発言をエフェクタ３８に通すことで、音響を変化させて、話者を特定できないようにした後、各端末に配信する。

本発明の音声対話システムにおいて、上記サーバが、所定の効果音を表わす効果音信号を格納する効果音バッファを備え、上記スケジューラが、送信されてきた音声信号の配信を制御するとともに、前記効果音バッファに格納された効果音信号の配信を制御するものであることも好ましい態様である。

図１８は、この態様を示す原理図である。

サーバ２０には、効果音を格納する効果音バッファ３９、その効果音を管理する効果音管理情報メモリ、その効果音の反復間隔を格納する反復間隔メモリ４１が備えられている。

ここでは、ユーザの発言以外の、例えば、商店の店内放送や、駅のアナウンスなどの効果音のＰＣＭデータと、その論理的位置、反復間隔をサーバ２０に登録すると、サーバ２０では、これらの効果音を、指定された間隔をおいて反復して配信するように、スケジューリング、または、ミキシングを行なう。これにより、効果音も、発言と同様に、発言の合間に、各端末に配信される。

本発明の音声対話システムにおいて、上記サーバもしくは端末が、音声信号をテキストデータに変換する音声認識手段を備えることも好ましい態様である。

図１９は、この態様を示す原理図である。

図１９に示すように、端末から送られてきた発言を各端末に配信する際に、音声出力手段を持たない端末に対して発言を配信する場合は、サーバ２０に付加した音声認識手段４２を用いることで、バッファリングされている音声のＰＣＭデータを、テキストに変換する。これにより、音声出力手段を持たない端末においては、テキストにて発言を表示することができる。端末側に音声認識手段１０７Ｂをもってもよい。

図２０は、もう１つの態様を示す原理図である。

図２０に示すように、音声入力手段を持たない端末から、テキストにより受信した発言を、サーバ２０に付加した音声合成手段４３を用いてＰＣＭデータに変換し、音声出力手段を持つ端末に対しては、音声によってデータを配信する。音声出力手段を持たない端末に対しては、テキストにより端末より受信した発言はそのまま配信し、音声により端末より受信した発言は、音声認識手段４２によってテキストに変換されて配信される。

図２１は、さらにもう１つの態様を示す原理図である。

図２１に示すように、ユーザの使用言語をあらかじめサーバ２０に通知し使用言語テーブル４５に格納しておき、端末より受信した発言の使用言語と、配信する端末の使用言語が不一致の場合、発言を音声認識手段４２によりテキストに変換したのち、翻訳手段４４により、言語の翻訳を行い、さらに、翻訳結果のテキストを音声合成手段４３によって音声に変換する。これにより、使用言語の違いを気にすることなく会話することができる。

図２２は、もう１つの態様を示す原理図である。

図２２に示すように、受信した発言を音声認識手段４３によりテキストに変換し、変換されたテキストと語句テーブル４７にあらかじめ登録されている指定語句とを、サーバ２０に付加された検索手段４６により検索し、もし、指定語句が存在したら、これを削除する。

これにより不適切な表現が聴取者に送信されるのを避けることができる。

本発明の音声対話システムにおいて、上記サーバと端末がアナログ回線で接続され、アナログ信号としての音声信号の始端および終端に音声信号の始端、終端を識別するためのトーン音を発生させるとともに、受信したトーン音を検出する、それぞれ、トーン音発生手段およびトーン音検出手段を備えたことも好ましい態様である。

この態様では、図２３に示す様に、端末、サーバに図示の各手段が備えられており、この図２３に示すように、回線１から送られて来たデータがアナログの音声データならば、そのままスピーカに出力し、デジタルデータならばスピーカへの出力を禁止する、データスイッチ手段を端末に付加する。サーバ２０よりアナログデータ開始コードが送られてきたならば、データスイッチを切り替えてスピーカ出力をＯＮにし、データ通信モードをアナログにする。この状態で、あらかじめ定められた時間以上の無音期間に続いて識別音が入力されたら、データスイッチを切り替えてスピーカスイッチをｏｆｆにし、データ通信モードをデジタルに設定する。

これにより、音声情報はアナログにより伝送するので、電話回線のような低速な回線でも利用できる。

本発明の音声対話システムにおいて、上記サーバが、前記端末どうしの対話を記憶する記憶手段を備えることも好ましい態様である。その場合に、上記サーバが、端末どうしの対話を記憶手段に記憶するにあたりその対話に付属する付属情報を付加して記憶するものであるものであることがさらに好ましい。

図２４は、この態様を示す原理図である。

図２４に示すように、各端末からの発言を、各端末に配信するとともに、大容量記憶装置５０に、発言時刻、発言者、発言相手の情報を付加して記憶する。そして、端末からの要求により、会話中、および、会話終了後に、その会話を再生できる。

図２４に示す態様において、上記サーバが、上記付属情報に基づいて、記憶手段に記憶された対話中の、所望の対話部分を検索する検索手段を備えることがさらに好ましい。

図２５は、この態様を示す原理図である。

図２５に示すように、サーバに検索手段５１を付加することにより、発言時刻、発言者、発言相手をキーワードとして、会話の記録された大容量記憶装置より検索することにより、該当する発言のみを再生することができる。

さらに、対話の話速を変換する話速変換手段を備えることが好ましい。

図２６は、この態様を示す原理図である。

図２６に示すように、大容量記憶装置５０に記録された会話を再生する際に、実際に発言が行なわれた時間タイミングで再生しても良いが、好ましくは、話速変換手段５２によって、空白部分を省略して発言を時間順に連続して再生しても良いし、発言を実際の時間より短縮して再生しても良い。

以上説明したように、本発明の音声対話システムによれば、通信量を適正なレベルに制御することができる。

以下、本発明の実施形態について説明する。

図２７は、本発明の第１実施形態を示すブロック図である。

本実施形態においては、マウスを用いて、発言の開始と終了を指示する。つまり、マウスボタンを押している期間中、マイクロホン（以下、マイクと略称する）からの入力をサンプリングして、Ａ／Ｄ変換を行い、このデジタルデータを、例えば２５６バイトづつパケットにし、ユーザＩＤと端末ＩＤを付加して、サーバに送信する。マウスボタンを放したなら、データ終了フラグを付加したパケットをサーバに送信する。サーバより配信される他の端末からの発言は、受信しだい、Ｄ／Ａ変換器に通して、これを音声に変換し、スピーカより鳴らす。

サーバ制御部はＣＰＵによって実現され、各端末から送信されてきたデータの端末ＩＤを参照して、発言をそれぞれの端末用のバッファメモリ（メモリＡ，メモリＢ）に保持する。バッファメモリは、接続されている端末数と同数用意される。また、制御部は、スケジューラにより指示されたバッファメモリ上の発言を各端末に配信する。

スケジューラはＣＰＵにより実現され、適当な方針により、バッファメモリに保持されている発言データを、各端末に配信する順序を決定する。例えば、各端末からの発言の先頭パケットを受信した時刻をバッファメモリに記録しておく。端末から送信されてきて、まだ配信されていない発言があれば、それを各端末に配信するよう制御部に指示する。ここで、もし、まだ配信されていない発言が複数ある場合は、それらの内、受信時刻のもっとも古いものを選択し、それを送信するよう制御部に指示する。

図２８は、本発明の第２実施形態を示すブロック図である。

本実施形態は、図２７に示す第１実施形態と同様に構成されるが、サーバに同時発言者数メモリが付加される。本実施形態においては、マウスを用いて、発言要求と発言終了を通知する。また、発言許可通知手段はディスプレイにより実現される。つまり、マウスにより発言要求ボタンをクリックすることで、サーバに対して発言要求を行う。サーバから許可が与えられたら、発言要求ボタンの表示を、「発言許可」に切り替える。これ以降は、第１実施形態と同様に、マウスボタンを押している期間中、マイクからの入力をサンプリングして、Ａ／Ｄ変換を行ない、このデジタルデータを、例えば２５６バイトづつパケットにし、ユーザＩＤと端末ＩＤを付加して、サーバに送信する。マウスボタンを放したなら、データ終了フラグを付加したパケットをサーバに送信するとともに、発言終了通知をサーバに送信する。サーバより配信される他の端末からの発言は、受信しだい、Ｄ／Ａ変換器に通して、これを音声に変換し、スピーカより鳴らす。

サーバ制御部はＣＰＵによって実現され、各端末から送信されてきたデータの端末ＩＤを参照して、発言をそれぞれの端末用のバッファメモリに保持する。バッファメモリは、接続されている端末数と同数用意される。また、制御部は、スケジューラにより指示されたバッファメモリ上の発言を各端末に配信する。

スケジューラはＣＰＵにより実現され、適当な方針により、バッファメモリに保持されている発言データを、各端末に配信する順序を決定する。例えば、各端末からの発言の先頭バケットを受信した時刻をバッファメモリに記録しておく。端末から送信されてきて、まだ配信されていない発言があれば、それを各端末に配信するよう制御部に指示する。ここで、もし、まだ配信されていない発言が複数ある場合は、それらの内、受信時刻のもっとも古いものを選択し、それを送信するよう制御部に指示する。

同時発言者数管理手段はＣＰＵと同時発言者数メモリによって実現され、端末より、発言要求がきたならば、この同時発言者数メモリに保持されている数値を確認し、１以上なら、その端末に許可通知を与えるとともに、数値を−１とする。もし、数値が既に０となっていたならば、どれかの端末から発言終了通知が来るまで待つ。

端末側では、許可通知を受信したなら、ディスプレイに発言が許可されたことを表示し、ユーザに発言を行っても良いことを知らせる。ユーザはこの表示を確認の後、マウスボタンを押しながら発言を開始し、発言完了後にマウスボタンを放すことで、発言終了通知をサーバに対して行う。

サーバ側では、発言終了通知を受信したならば、同時発言者数メモリに保持されている数値を＋１する。

図２９は、本発明の第３実施形態を示すブロック図である。

本実施形態は、図２７に示す第１実施形態と同様に構成されるが、無音部検出手段、最大無音量メモリ、最短無音時間メモリが付加される。無音部検出手段は、ＣＰＵによって実現され、バッファメモリ内のＰＣＭデータの絶対値を調べることにより、音量の大きさを計測し、音量が予め設定された値”最大無音量”より小さい期間が、予め設定された時間”最短無音時間”より長ければ、最初に最大無音量を下回った部分で、発言を分割する。

サーバ制御部は、スケジューラにより指示されたバッファメモリ上の発言を、各端末に配信するが、このとき、無音部検出手段を呼び出し、無音部と判定されたら、発言の配信をそこでいったん打ち切り、次に最大無音量を越える部分（無音区間をスキップする）を発言の先頭とし、その対応する時刻をバッファメモリに記録する。

その他の処理は、第１実施形態と同様である。

端末側のもう一つの実施形態を、図２９のＰＣ−Ｂの端末に示す。この実施形態では、マウスボタンにより、発言の開始と終了を指示するのではなく、上記無音部の検出法と同様に、マイクからの入力に対して常時Ａ／Ｄ変換を行ない、そのＰＣＭ出力データによって、発言の開始点、終了点を検出する。

ＣＰＵによって無音検出手段を実現し、Ａ／Ｄ変換結果のＰＣＭ出力データの絶対値を調べることにより、音量の大きさを計測し、音量が予め設定された値”最大無音量”より大きくなったなら、そこから発言がはじまったものとして、サーバに順次データを送信する。そして、ＰＣＭ出力データの音量が、”最大無音量”より小さい期間が、予め設定された時間”最短無音時間”より長ければ、最初に最大無音量を下回った部分が発言の終了点とみなし、サーバへデータ終了フラグを付加したパケットを送信する。そして、引き続き、Ａ／Ｄ変換結果のＰＣＭ出力結果を監視して、次の発言の開始点を待つ。

図３０は、本発明の第４実施形態を示すブロック図である。

本実施形態は、図２７に示す第１実施形態と同様に構成されるが、各バッファメモリに受信開始時刻メモリが付加される。

サーバ制御部はＣＰＵによって実現され、各端末から送信されてきたデータの端末ＩＤを参照して、発言をそれぞれの端末用のバッファメモリに保持する。このとき、各端末からの発言の先頭パケットを受信した時刻を受信開始時刻メモリに記録しておく。バッファメモリは、接続されている端末数と同数用意される。また、制御部は、スケジューラにより指示されたバッファメモリ上の発言を各端末に配信する。

スケジューラはＣＰＵにより実現され、端末から送信されてきて、まだ配信されていない発言があれば、それを各端末に配信するよう制御部に指示する。ここで、もし、まだ配信されていない発言が複数ある場合は、それらの内、受信開始時刻のもっとも古いものを選択し、それを送信するよう制御部に指示する。

もちろん、図２９に示す実施形態と同様に、サーバ側に、無音部検出手段を付加しても良いし、端末側もマウスを使わず、無音部検出手段によって、発言の開始点、終了点を検出しても良い。

図３１は、本発明の第５実施形態を示すブロック図である。

本実施形態は、図３０に示す第４実施形態と同様に構成されるが、端末が接続されたとき最初に実行される内部時間補正値計算部と、内部時間補正値メモリが付加されることと、受信開始時刻メモリに代わって、補正済受信開始時刻メモリを持つことが異なる。

内部時間補正値計算部は、ＣＰＵにより実現される。端末が新たに接続されると、まず、端末に対して、端末のローカルな時刻を内部時計より読み取り、その時刻Ｔｌをサーバに対して送信するよう指示する。この指示を出した時刻をＴｓとする。サーバでは、この指示に応答して、端末のローカルな時刻が端末より報告されるのを待つ。端末から報告が得られたら、この時刻をＴｅとする。報告された端末の内部時計とサーバの内部時計との差分は、内部時間補正値Ｔｄ＝Ｔｓ＋（Ｔｅ−Ｔｓ）／２−Ｔｌとなる。この値をすべての端末について計算して、各端末用バッファの内部時間補正値メモリに記録する。

各端末の制御部はＣＰＵにより実現され、発言が開始された内部時刻Ｔｘを内部時計により計測し、その時刻を発言データパケットに付加してサーバに送信する。

サーバ制御部はＣＰＵによって実現され、各端末から送信されてきたデータの端末ＩＤを参照して、発言をそれぞれの端末用のバッファメモリに保持する。このとき、各端末からの発言に付加されている内部時刻Ｔｘを読み取り、補正済受信開始時刻＝内部時刻Ｔｘ−内部時間補正値Ｔｄを計算し、この時刻を補正済受信開始時刻メモリに記録する。

スケジューラはＣＰＵにより実現され、端末から送信されてきて、まだ配信されていない発言があれば、それを各端末に配信するよう制御部に指示する。ここで、もし、まだ配信されていない発言が複数ある場合は、それらの内、補正済受信開始時刻のもっとも古いものを選択し、それを送信するよう制御部に指示する。これにより、スケジューラは、発言が実際に行なわれた順に従って、各発言を順次、すべての端末に送信することができる。

図３２は、本発明の第６実施形態を示すブロック図である。

本実施形態においては、マウスを用いて、発言の開始と終了を指示する。つまり、マウスボタンを押している期間中、マイクからの入力をサンプリングして、Ａ／Ｄ変換を行い、このデジタルデータを、例えば２５６バイトづつパケットにし、ユーザＩＤと端末ＩＤを付加して、サーバに送信する。サーバより配信される他の端末からの発言は、受信しだい、Ｄ／Ａ変換器に通して、これを音声に変換し、スピーカより鳴らす。

サーバ制御部はＣＰＵによって実現され、各端末から送信されてきたデータの端末ＩＤを参照して、発言をそれぞれの端末用のバッファメモリに一時保持する。バッファメモリは、接続されている端末数と同数用意される。また、制御部は、出力バッファメモリ上のミキシングされた発言を各端末に配信する。

ミキサーはサーバのＣＰＵにより実現され、各バッファメモリに保持されている発言データの時刻の同じ部分を加算することでミキシングし、ゲイン調整をしたのち出力バッファメモリに保持する。もちろん、ＤＳＰなどにより実現しても良い。

同時刻の決定方法としては、例えば、各端末からの発言の先頭パケットを受信した時刻をバッファメモリに記録しておき、処理しようとする時刻のデータを、バッファの先頭位置からのオフセットより求めることで、各バッファ内の同時刻のデータを取り出すことができる。

ゲイン調整の方法としては、例えば、加算結果がＰＣＭの最大値を越えたならば、ＰＣＭの最大値にクリッピングする。または、加算結果がＰＣＭの最大値を越えたなら、ＰＣＭの最大値になるよう正規化し、その時の係数をゲイン係数として保持し、以降の加算結果に対しても適用する。ゲイン係数は、時定数により１に減衰するように制御する。

また、端末は、図２９に示す実施形態で示したように、無音部検出手段を設けることで、マウスを用いずに、マイク入力のシグナルレベルにより、自動的に発言の開始、終了を検出するよう構成しても良い。

図３３は、本発明の第７実施形態を示すブロック図である。

本実施形態は、図３２に示す第６実施形態と同様に構成されるが、各バッファメモリに受信開始時刻メモリが付加される。この例においては、マウスを用いて、発言の開始と終了を指示する。つまり、マウスボタンを押している期間中、マイクからの入力をサンプリングして、Ａ／Ｄ変換を行い、このデジタルデータを、例えば２５６バイトづつパケットにし、ユーザＩＤと端末ＩＤを付加して、サーバに送信する。サーバより配信される他の端末からの発言は、受信しだい、Ｄ／Ａ変換器に通して、これを音声に変換し、スピーカより鳴らす。

サーバ制御部はＣＰＵによって実現され、各端末から送信されてきたデータの端末ＩＤを参照して、発言をそれぞれの端末用のバッファメモリに一時保持する。このとき、各端末からの発言の先頭パケットを受信した時刻をバッファメモリに記録する。バッファメモリは、接続されている端末数と同数用意される。また、制御部は、出力バッファメモリ上のミキシングされた発言を各端末に配信する。

ミキサーはＣＰＵにより実現され、各バッファメモリに保持されている発言データのバッファの先頭からのオフセットと発言の受信時刻より、処理したい時刻のデータを取り出すことができる。各バッファの同時刻のデータを加算することでミキシングし、ゲイン調整をしたのち出力バッファメモリに保持する。

これらの、加算処理、ゲイン調整処理は、ＤＳＰなどにより実現しても良い。

また、端末は、図２９に示す第３実施形態で示したように、無音部検出手段を設けることで、マウスを用いずに、マイク入力のシグナルレベルにより、自動的に発言の開始、終了を検出するよう構成しても良い。

図３４は、本発明の第８実施形態を示すブロック図である。

本実施形態は、第７実施形態と同様に構成されるが、端末が接続されたとき最初に実行される内部時間補正値計算部と、内部時間補正値メモリが付加されることと、受信開始時刻メモリに代わって、補正済受信開始時刻メモリを持つことが異なる。

ミキサーはＣＰＵにより実現され、各バッファメモリに保持されている発言データのバッファの先頭からのオフセットと発言の補正済受信時刻より、処理したい時刻のデータを取り出すことができる。各バッファの同時刻のデータを加算することでミキシングし、ゲイン調整をしたのち出力バッファメモリに保持する。

また、端末は、図２９の実施形態で示したように、無音部検出手段を設けることで、マウスを用いずに、マイク入力のシグナルレベルにより、自動的に発言の開始、終了を検出するよう構成しても良い。

図３５は、本発明の第９実施形態を示すブロック図である。

本実施形態は、図３０を参照して説明した実施形態と同様に構成されるが、サーバと端末にアバタ管理情報メモリと世界管理情報メモリが、サーバに最大到達距離メモリが付加されることが異なる。

本実施形態では、各端末のユーザは、仮想的に３次元座標と、視線方向、視界を持ち、これらの情報が、アバタ管理情報として、各端末と、サーバの両方で保持される。ユーザがマウス、キーボードなどにより、移動や視線の移動を指示すると、端末のアバタ管理情報の該当する情報が更新される。また、これらのアバタ管理情報が変更されると、端末より変更通知がサーバに送信され、サーバ側の該当する情報も同様に更新される。世界管理情報は、仮想的な３次元世界の中に、どのような建物がどこにあるかを示す情報であり、ポリゴンデータである。

サーバ制御部はＣＰＵによって実現され、各端末から送信されてきたデータの端末ＩＤを参照して、発言をそれぞれの端末用のバッファメモリに保持する。このとき、各端末からの発言の先頭パケットを受信した時刻を受信開始時刻メモリに記録しておく。バッファメモリは、接続されている端末数と同数用意される。また、制御部は、スケジューラにより指示されたバッファメモリ上の発言を各端末に配信する。さらに、制御部は、端末よりアバタ情報更新通知があったなら、該当するアバタ情報を通知に従って更新する。

スケジューラはＣＰＵにより実現され、各端末ごとに配信すべき発言とその順序を検討する。他の端末から送信されてきて、まだ配信されていない発言があれば、その端末のアバタ管理情報とある発言者のアバタ管理情報と、世界管理情報から、位置関係と視界を計算し、２者間の距離が、あらかじめ設定された最大到達距離以上ならば、その発言は聞こえないものとして送信しない。また、視界内に入っていないユーザからの発言も、その発言は聞こえないものとして送信しない。それ以外の発言については、図３０を参照して説明した実施形態と同様に、古いものから順に配信するよう制御部に指示する。

もちろん、図２９を参照して説明した実施形態と同様に、サーバ側に、無音部検出手段を付加しても良いし、端末側もマウスを使わず、無音部検出手段によって、発言の開始点、終了点を検出しても良い。

図３６は、本発明の第１０実施形態を示すブロック図である。

本実施形態は、図３２を参照して説明した実施形態と同様に構成されるが、出力バッファエリアがＬＲの２チャンネルとなり、サーバと端末にアバタ管理情報メモリと世界管理情報メモリが、サーバにエフェクタと最大到達距離メモリが付加されることが異なる。

サーバ制御部はＣＰＵによって実現され、各端末から送信されてきたデータの端末ＩＤを参照して、発言をそれぞれの端末用のバッファメモリに保持する。このとき、各端末からの発言の先頭パケットを受信した時刻を受信開始時刻メモリに記録しておく。バッファメモリは、接続されている端末数と同数用意される。また、制御部は、端末よりアバタ情報更新通知があったなら、該当するアバタ情報を通知に従って更新する。さらに、制御部は他の端末から送信されてきて、まだ配信されていない発言があれば、その端末のアバタ管理情報とある発言者のアバタ管理情報と、世界管理情報から、位置関係と視界を計算し、２者間の距離が、あらかじめ設定された最大到達距離以上ならば、その発言は聞こえないものとして配信しない。また、視界内に入っていないユーザからの発言も、その発言は聞こえないものとして送信しない。

エフェクタはＣＰＵにより実現され、上記以外の発言について、発言者と聴取者との論理的な位置関係、それぞれの視線方向を考慮し、距離が離れるに従い音量を小さくしく加工する。また、方位に従って、左右の音量比、位相、音質（フィルタの特性）を変化させる。さらに、発言者と聴取者の間に障害物がある場合には、間接的に音が伝わっていることを表現するために、反響音を付加したり、音質（フィルタの特性）を変更する。

このようにして加工した、各端末からの発言を、適当にスケジューリングを行って、順次各端末に配信し、あるいは同時刻の各発言をミキシングして、各端末に配信する。

図３７は、本発明の第１１実施形態を示すブロック図、図３８は、グループ管理テーブルの一例を示す図である。

本実施形態は、例えば、図２７に示す実施形態と同様に構成されるが、サーバにグループ管理テーブルが付加されることが異なる。

この例においては、マウスを用いて、発言の開始と終了を指示する。つまり、マウスボタンを押している期間中、マイクからの入力をサンプリングして、Ａ／Ｄ変換を行い、このデジタルデータを、例えば２５６バイトづつパケットにし、ユーザＩＤと端末ＩＤを付加して、サーバに送信する。マウスボタンを放したなら、データ終了フラグを付加したパケットをサーバに送信する。サーバより配信される他の端末からの発言は、受信しだい、Ｄ／Ａ変換器に通して、これを音声に変換し、スピーカより鳴らす。

サーバ制御部はＣＰＵによって実現され、各端末から送信されてきたデータの端末ＩＤを参照して、発言をそれぞれの端末用のバッファメモリに保持する。バッファメモリは、接続されている端末数と同数用意される。また、制御部は、スケジューラにより指示されたバッファメモリ上の発言を、グループ管理テーブルに登録されている端末ＩＤが示す各端末に配信する。

ここでは、図２７と同様のスケジューラを用いた実施形態を示したが、図３２と同様のミキサを用いた実施形態も同様に構成できる。

図３９は、本発明の第１２実施形態を示すブロック図、図４０は、発信グループテーブル及び受信グループテーブルの一例を示す図である。

本実施形態は、例えば、図３７に示す実施形態と同様に構成されるが、端末に発言モード選択手段が、サーバに発信グループテーブルと受信グループデーブルが付加されることが異なる。

この例においては、マウスを用いて、発言の開始と終了を指示する。つまり、マウスボタンを押している期間中、マイクからの入力をサンプリングして、Ａ／Ｄ変換を行い、このデジタルデータを、例えば２５６バイトづつパケットにし、ユーザＩＤと発信端末ＩＤを付加して、サーバに送信する。マウスボタンを放したなら、データ終了フラグを付加したパケットをサーバに送信する。サーバより配信される他の端末からの発言は、受信しだい、Ｄ／Ａ変換器に通して、これを音声に変換し、スピーカより鳴らす。

サーバ制御部はＣＰＵによって実現され、各端末から送信されてきたデータの発信端末ＩＤを参照して、発言をそれぞれの端末用のバッファメモリに保持する。バッファメモリは、接続されている端末数と同数用意される。また、制御部は、スケジューラにより指示されたバッファメモリ上の発言を、その発信端末ＩＤを参照して、発信グループに登録されている端末ＩＤおよび受信グループＩＤが示す受信グループに登録されている端末ＩＤが示す各端末に配信する。

発言モード選択手段は、ＣＰＵとマウスによって構成され、ユーザの希望するモードを示すアイコンをクリックすることで、モードを指示することができる。

ここでは、図２７と同様のスケジューラを用いた実施形態を示したが、図３２と同様のミキサーを用いた実施形態も同様に構成できる。

図４１は、本発明の第１３実施形態を示すブロック図、図４２は、発信グループテーブル及び受信グループテーブルの一例を示す図である。

本実施形態は、例えば、図３７に示す実施形態と同様に構成されるが、端末に聴取モード選択手段が、サーバに発信グループテーブルと受信グループテーブルが付加されることが異なる。

聴取モード選択手段は、ＣＰＵとマウスによって構成され、ユーザの希望するモードを示すアイコンをクリックすることで、モードを指示することができる。

図４３は、本発明の第１４実施形態を示すブロック図、図４４は、発信グループテーブル及び受信グループテーブルの一例を示す図である。

本実施形態は、図４１に示す実施形態と同様に構成されるが、サーバの受信グループテーブルと発信グループテーブルに割込禁止フラグが付加される。サーバでは、端末より割込み禁止が通知されたなら、受信グループに対する割込禁止ならば、受信グループテーブルの該当グループの割込禁止フラグをＯＮにし、自端末に対する割込禁止ならば、受信グループテーブルの自端末ＩＤの割込禁止フラグをＯＮにする。あるユーザから、発言モードの指定があった場合、受信グループテーブルの割込禁止フラグ、受信グループテーブルの該当する端末ＩＤの割込禁止フラグを確認し、フラグがＯＮならば、発信グループテーブルへの登録を拒否する。

また、これと、後述する、図４７に示す実施形態を組合せて、発信モードの指定を行う場合に、特権レベル値が、受信グループの値、または、端末ＩＤの値より高ければ、割込禁止フラグの如何に拘らず、その受信グループ、または、その端末に対して、発言を行えるようにしても良い。

このように構成された、本発明の第１５実施形態を、図４５，図４６に示す。詳細説明は省略する。

図４７は、本発明の第１６実施形態を示すブロック図、図４８は、発信グループテーブル及び受信グループテーブルの一例を示す図である。

本実施形態は、例えば、図４１に示す実施形態と同様に構成されるが、端末にパスワード入力手段が、サーバにセキュリティ検査手段、ユーザごとの特権レベルテーブル、受信グループテーブル、発信グループテーブルの各エントリに特権レベルメモリ、パスワードメモリが付加されることが異なる。

セキュリティ検査手段は、ＣＰＵによって実現され、ユーザからの受信テーブル及び発信テーブルの書き換え要求を受けたときに、そのユーザの特権レベル値が、各テーブルのエントリの特権レベル値より小さければ、書き換えを無条件に許す。しかし、特権レベル値が大きい場合は、端末よりパスワードを入力させ、これが、テーブルのエントリと一致した場合のみ、書き換えを許す。

図４９は、本発明の第１７実施形態を示すブロック図、図５０は、ディスプレイ上に表示されたイラストの例を示す図である。

本実施形態は、図２７に示す第１実施形態と同様に構成されるが、端末に制御部と表示手段と座標入力手段と描画手段が付加される。

本実施形態では、対話を行なっている相手のユーザは、ディスプレイ上に人間のイラストとして表示され、このイラストをマウス等でクリックしながら話すことで、話す相手を指定する。

端末の制御部はＣＰＵによって実現され、マウスの動きを監視して、マウスによってディスプレイ上のどの人間のイラストがクリックされたかを検査し、話す相手特定する。

描画手段もＣＰＵによって実現され、発言しているユーザに対応するディスプレイ上のイラストに、吹き出しのイラストを付加することで、誰が発言しているかを明示することができる。また、話し掛けられている人のイラストには、呼出音のイラストを付加することで、誰に話しているかを明示できる。自分に対して話し掛けられた場合は、ピッという音とともに、画面左上に呼出音のイラストが表示される。

その他の処理は、図２７に示す第１実施形態と同様である。

図５１は、本発明の第１８実施形態を示すブロック図である。

本実施形態は、図２７に示す第１実施形態と同様に構成されるが、サーバにエフェクタが、端末に制御部とモード設定手段が付加される。

モード設定手段および制御部はＣＰＵにより実現され、ユーザがアイコンをクリックすることで発言を匿名モードに設定した場合、制御部は発言に匿名フラグを付加して、サーバに送信する。

サーバの制御部は、ＣＰＵにより実現され、端末からの発言に匿名フラグが設定されていたならば、エフェクタを用いて、音声波形にフィルタリングを行い、音質を変化させる。

エフェクタもＣＰＵにより実現され、ＦＦＴ，ＩＦＦＴなどにより音声のスペクトラムを変化させる。

その他の処理は、第１実施形態と同様である。

図５２は、本発明の第１９実施形態を示すブロック図である。

本実施形態は、図３０に示す第４実施形態と同様に構成されるが、サーバに効果音メモリと効果音管理情報メモリと反復間隔メモリと受信開始時刻メモリが付加される。

スケジューラはＣＰＵにより実現され、各端末ごとに配信すべき発言とその順序を検討する。他の端末から送信されてきて、まだ配信されていない発言があれば、古いものから順に配信するよう制御部に指示する。このとき、効果音メモリの内容も、反復間隔ごとに、各端末に配信するように、スケジューリングを行なう。つまり、反復間隔ごとに、端末より届いた発言と同様に受信開始時刻を設定し、スケジューラにより他の発言と同様に配信する。

その他の処理は、図３０の実施形態と同様である。

図５３は、本発明の第２０実施形態を示すブロック図である。

本実施形態は、図２７に示す第１実施形態と同様に構成されるが、サーバに音声認識手段が、端末に文字表示手段が付加される。

サーバ制御部はＣＰＵによって実現され、スケジューラにより指示されたバッファメモリ上の発言を各端末に配信する。このとき、配信しようとする端末が音声出力手段を持たないならば、音声認識手段を用いて、これをテキストに変換した後、配信する。

音声認識手段はＣＰＵによって実現され、例えば、ＷｉｎｄｏｗｓＳｏｕｎｄＳｙｓｔｅｍに付属する音声認識プログラムである。

文字表示手段はフレームバッファとディスプレイによって実現され、受信したテキストをディスプレイに表示する。

その他の処理は、図２７の実施形態と同様である。

また、音声認識手段を、端末に付加して、端末側でテキストに変換しても良い。

図５４は、本発明の第２１実施形態を示すブロック図である。

本実施形態は、図５３に示す第２０実施形態と同様に構成されるが、サーバに音声合成手段が付加される。

サーバ制御部はＣＰＵによって実現され、スケジューラにより指示されたバッファメモリ上の発言を各端末に配信する。このとき、配信しようとする発言がテキストで、かつ、配信しようとする端末は音声出力手段を持つならば、音声合成手段を用いて、これをＰＣＭ音声に変換した後、配信する。

音声合成手段はＣＰＵによって実現され、例えば、ＷｉｎｄｏｗｓＳｏｕｎｄＳｙｓｔｅｍに付属する音声合成プログラムである。

その他の処理は、図５３に示す実施形態と同様である。

図５５は、本発明の第２２実施形態を示すブロック図である。

本実施形態は、図５４に示す実施形態と同様に構成されるが、サーバに翻訳手段、使用言語テーブルが付加される。

端末は、発言をサーバに送信するさいに、その使用言語コードを付加して送信する。

サーバ制御部はＣＰＵにより実現され、スケジューラにより指示されたバッファメモリ上の発言を各端末に配信する。このとき、発言の使用言語コードと、使用言語コードに記述されている各端末の使用言語コードが一致しなければ、発言を音声認識手段によりテキストに変換したのち、翻訳手段により翻訳し、さらに、音声合成手段によりＰＣＭ音声に変換してのち、端末に配信する。

翻訳手段はＣＰＵにより実現され、例えば、ＡＴＬＡＳ翻訳システムである。

その他の処理は、図５４に示す実施形態と同様である。

図５６は、本発明の第２３実施形態を示すブロック図である。

本実施形態は、図５４に示す実施形態と同様に構成されるが、サーバに検索手段と、語句テーブルが付加される。

サーバ制御部はＣＰＵにより実現され、各端末から送信されてきたデータの端末ＩＤを参照して、発言をそれぞれの端末用のバッファメモリに保持する。このＰＣＭ音声データを音声認識手段を用いてテキストデータに変換する。さらに、検索手段を用いて、このテキスト中に語句テーブルに登録されている語句があるかどうかを検索する。もし、あれば、これを削除または編集する。そして、このテキストデータを音声合成手段を用いてＰＣＭ音声データに変換する。そして、スケジューラの指示に従って、この発言を各端末に配信する。

その他の処理は、図５４の実施形態と同様である。

図５７は、本発明の第２４実施形態を示すブロック図である。

本実施形態においては、端末からの発言はアナログ音声のまま、サーバに送信され、サーバから各端末に発言を配信する際も、アナログ音声のまま配信される。

端末とサーバをアナログの電話回線によって接続し、モデムを用いてデジタルデータを送受信するような構成において、発言のようなアナログデータは、デジタル化しないで、アナログのまま通す。アナログデータの終了を通知、検知するために、トーン音検出手段、トーン音発生手段、無音区間検出手段と電話回線とスピーカを接続するかどうかを切り替えるための、スピーカスイッチ手段とマイクと電話回線を接続するかどうかを切り替えるマイクスイッチ手段を端末に備える。

端末制御部において、マウスが押されたことを検知すると、これ以降のデータがアナログとなることを通知するアナログデータ開始コードを、サーバに送信する。そして、マイク入力を電話回線に流すようにマイクスイッチをＯＮにする。そして、マウスが放されて、発言が終了したなら、マイクスイッチをＯＦＦにし、規定時間の無音期間をおいた後、予め定められたトーン音を、トーン音発生手段によって発生させる。これ以降は、モデムを通してのデジタルデータのやりとりに復帰する。また、サーバからアナログデータ開始コードが送信されてきたら、スピーカスイッチをＯＮにして、アナログ音声をスピーカに出力する。このとき、無音区間検出手段によりアナログ音声を監視し、無音区間が発見されてかつ、その直後の音が、予め定められたトーン音であることがトーン音検出手段によって確認されたなら、スピーカスイッチをＯＦＦにして、それ以降のデータをデジタルデータとして、モデムを通して受信する。

サーバ制御部において、端末よりアナログデータ開始コードが送信されてきたなら、それ以降のデータをＡ／Ｄ変換してＰＣＭデータに変換した後、それぞれの端末用のバッファエリアに保持する。このとき、無音区間検出手段によりアナログ音声を監視し、無音区間が発見されて、かつ、その直後の音が、予め定められたトーン音であることが確認されたなら、Ａ／Ｄ変換によるデータ入力を終了する。また、スケジューラの指示に従って、発言を端末に配信する場合は、まず、アナログデータ開始コードを送信したのち、バッファエリアの内容をＤ／Ａ変換しながら、電話回線にアナログとして出力する。出力終了後、規定の無音区間をおいたあと、予め定められたトーン音をトーン音発生手段により発生させる。これ以降は、モデムを通してのデジタルデータのやりとりに復帰する。

信号変換手段は、デジタル情報を変調されたアナログ信号に変換し、またその逆に、変調されたアナログ信号をデジタル信号に変換するものである。

スケジューラ、その他の処理は、図２７に示す第１実施形態と同様である。

図５８は、本発明の第２５実施形態を示すブロック図である。

本実施形態は、図２７に示す第１実施形態と同様に構成されるが、サーバにハードディスクが付加される。

サーバ制御部は、各端末から送信されてきた発言を、バッファエリアに保持するとともに、ハードディスクに、発言データ、発言時刻、発言者、発言相手の情報を記録する。また、端末からの要求により、ハードディスクより、記録されている発言を読みだし、端末に配信する。

その他の処理は、図２７の実施形態と同様である。

また、ここでは、発言をＰＣＭデータのまま記録しているが、音声認識手段、音声合成手段を用いることで、テキストに変換してから記録し、再生時に音声に戻すこともできるし、テキストのまま見ることも容易に実現できる。

図５９は、本発明の第２６実施形態を示すブロック図である。

本実施形態は、図５８に示す実施形態と同様に構成されるが、サーバに検索手段が付加される。

サーバ制御部は、端末からの要求に応じて、ハードディスクに記録されている発言を検索手段によって検索することで、特定の発言時刻、発言者、発言相手をキーワードにして、該当する発言のみを端末に配信することができる。

検索手段は、ＣＰＵによって実現される。

その他の処理は、図５８の実施形態と同様である。

また、音声認識手段をサーバに付加することで、ハードディスクに記録されている発言を、テキストに変換し、これを検索手段で検索することで、発言内容を特定のキーワードで検索することができ、特定の話題についての発言のみを、端末に配信することもできる。

図６０は、本発明の第２７実施形態を示すブロック図である。

本実施形態は、図５８に示す実施形態と同様に構成されるが、サーバに話速変換手段が付加される。

サーバ制御部は、端末からの要求に応じて会話を再現する際に、実際に発言が行なわれた時間タイミングで発言を配信するか、もしくは、時間タイミングは無視して、発生順に空白時間は無視して、次々と発言を配信していくか、もしくは、話速変換手段により、１つの発言内の空白時間（息継ぎの時間）などを削除してのち端末に配信することにより、発言を実際の時間より短縮して聞けるようにする。

話速変換手段は、無音区間検出器とＣＰＵにより実現され、発言中の無音部を検出し、これを削除することで、発言時間を短縮することができる。

その他の処理は、図５８に示す実施形態と同様である。

本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の一態様を示す原理図である。本発明の第１実施形態を示すブロック図である。本発明の第２実施形態を示すブロック図である。本発明の第３実施形態を示すブロック図である。本発明の第４実施形態を示すブロック図である。本発明の第５実施形態を示すブロック図である。本発明の第６実施形態を示すブロック図である。本発明の第７実施形態を示すブロック図である。本発明の第８実施形態を示すブロック図である。本発明の第９実施形態を示すブロック図である。本発明の第１０実施形態を示すブロック図である。本発明の第１１実施形態を示すブロック図である。グループ管理テーブルの一例を示す図である。本発明の第１２実施形態を示すブロック図である。発信グループテーブル及び受信グループテーブルの一例を示す図である。本発明の第１３実施形態を示すブロック図である。発信グループテーブル及び受信グループテーブルの一例を示す図である。本発明の第１４実施形態を示すブロック図である。発信グループテーブル及び受信グループテーブルの一例を示す図である。本発明の第１５実施形態を示すブロック図である。本発明の第１５実施形態を示すブロック図である。本発明の第１６実施形態を示すブロック図である。発信グループテーブル及び受信グループテーブルの一例を示す図である。本発明の第１７実施形態を示すブロック図である。ディスプレイ上に表示されたイラストの例を示す図である。本発明の第１８実施形態を示すブロック図である。本発明の第１９実施形態を示すブロック図である。本発明の第２０実施形態を示すブロック図である。本発明の第２１実施形態を示すブロック図である。本発明の第２２実施形態を示すブロック図である。本発明の第２３実施形態を示すブロック図である。本発明の第２４実施形態を示すブロック図である。本発明の第２５実施形態を示すブロック図である。本発明の第２６実施形態を示すブロック図である。本発明の第２７実施形態を示すブロック図である。従来の音声対話システムの構成図である。

符号の説明

１回線
１１Ａ，１１Ｂ音声入力手段
１２Ａ，１２Ｂ音声出力手段
１３Ａ，１３Ｂ制御部
１４Ａ，１４Ｂ発言要求手段
１５Ａ，１５Ｂ発言許可表示手段
１６Ａ，１６Ｂ発言終了通知手段
１７Ａ，１７Ｂアバタ管理情報メモリ
１８Ａ，１８Ｂ世界管理情報メモリ
１９Ａ，１９Ｂ発信モード選択手段
２０サーバ
２１Ａ，２１Ｂバッファメモリ
２２スケジューラ
２３制御部
２４同時発言者数管理手段
２５無音部検出手段
２６内部時計
２７内部時間補正値計算部
２８出力バッファエリア
２９ミキサ
３０世界管理情報メモリ
３１最大到達距離メモリ
３２エフェクタ
３３グループ管理テーブル
３４受信グループテーブル
３５発信グループテーブル
３６特権レベルテーブル
３７セキュリティ検査手段
３８エフェクタ
３９効果バッファ
４０効果音管理情報メモリ
４１反復間隔メモリ
４２音声認識手段
４３音声合成手段
４４翻訳手段
４５使用言語テーブル
４６検索手段
４７語句テーブル
５０ハードディスク
５１検索手段
５２話速変換手段
１０１Ｂ聴取モード選択手段
１０２Ａ，１０２Ｂパスワード入力手段
１０３Ａ，１０３Ｂ描画手段
１０４Ａ，１０４Ｂ座標入力手段
１０５Ａ，１０５Ｂ表示手段
１０６Ａ，１０６Ｂモード設定手段
１０７Ｂ音声認識手段

Claims

音声を音声信号に変換する音声入力手段および音声信号を音声に変換する音声出力手段を備えた、通信回線に接続される複数の端末と、通信回線を介してこれら複数の端末と接続され、該端末との間で音声信号の収集および配信を行なうサーバとを備え、これら複数の端末間で音声を用いて対話を行なう音声対話システムにおいて、
前記サーバが、前記端末から送信されてきた音声信号をバッファリングするメモリと、該メモリにバッファリングされた音声信号の配信を制御するスケジューラと、
前記複数の端末のうち対話を行なう対話グループに属する端末を登録する１以上のグループ管理テーブルとを備え、
前記スケジューラが、受信した音声信号が、該音声信号を発信した端末と同一の対話グループに属する端末に配信されるように、音声信号の配信を制御するものであることを特徴とする音声対話システム。
前記端末が、自分が送信する音声信号を受信する受信先の端末を指定する複数の発信モードのうちのいずれか１つの発信モードを選択する発信モード選択手段を備えたことを特徴とする請求項１記載の音声対話システム。
前記端末が、自分が受信する音声信号の送信元の端末を指定する複数の聴取モードのうちのいずれか１つの聴取モードを選択する聴取モード選択手段を備えたことを特徴とする請求項１記載の音声対話システム。
前記端末が、前記サーバに向けて、音声信号の発信元である端末のうちの、自分あてに送信される音声信号の受信を拒否する端末を指定する割込禁止通知を行なう割込禁止通知手段を備え、
前記サーバが、割込禁止通知により指定された送信元の端末から受信した音声信号の送信先が該割込禁止通知を行なった端末であった場合に、該送信先の端末への該音声信号の転送を取り止めるものであることを特徴とする請求項１記載の音声対話システム。
前記対話グループに対応してパスワードが付されており、前記端末が、パスワードを入力して前記サーバに送るパスワード入力手段を備え、
前記サーバが、端末から送られてきたパスワードを検査して正しいパスワードを送信してきた端末を、該パスワードに対応する対話グループに加入させるものであることを特徴とする請求項１記載の音声対話システム。