JPH0983655A

JPH0983655A - 音声対話システム

Info

Publication number: JPH0983655A
Application number: JP7237079A
Authority: JP
Inventors: Naohisa Kawaguchi; 尚久川口; Kazuki Matsui; 一樹松井; Takashi Ono; 敬史大野; Akinori Iwakawa; 明則岩川; Hiroaki Harada; 裕明原田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-09-14
Filing date: 1995-09-14
Publication date: 1997-03-28
Also published as: US5930752A

Abstract

(57)【要約】【課題】本発明は、コンピュータおよびコンピュータ
ネットワークを利用したオンラインチャットシステムに
おける、音声によって複数のユーザが対話する音声対話
システムに関し、ユーザ間の通信量を適切に制御する。【解決手段】音声を音声信号に変換する音声入力手段
および音声信号を音声に変換する音声出力手段を備え
た、通信回線に接続される複数の端末と、通信回線を介
してこれら複数の端末と接続され、該端末との間で音声
信号の収集、配信を行なうサーバとを備え、前記サーバ
が、前記端末から送信されてきた音声信号をバッファリ
ングするメモリと、該メモリにバッファリングされた音
声信号の配信を制御するスケジューラとを備えた。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータおよ
びコンピュータネットワークを利用したオンラインチャ
ットシステムにおける、音声によって複数のユーザが対
話する音声対話システムに関する。

【０００２】

【従来の技術】コンピュータネットワークの普及によ
り、ネットワーク上で複数のユーザが会話することで、
作業を進めたり、ゲームを行なったり、生活情報を交換
するということが容易になってきた。このため、一般ユ
ーザでもこのような、ネットワーク会話システム（チャ
ットシステム）に参加できるように、キーボードに換わ
る、もっと簡単な入力手段が求められている。

【０００３】従来のチャットシステムにおいては、キー
ボードを操作することで、文章を入力し、これを送信す
ることで会話を行なっていた。ところが、一般ユーザに
とっては、かな漢字変換などのキーボード操作は非常に
難しいことであり、このため入力速度が遅くなり、会話
の流れについていけないという問題点があった。この問
題を解決するために、音声により会話するシステムも開
発されている。

【０００４】図６１は、従来の音声対話システムの構成
図である。ここでは簡単のため、端末は端末Ａと端末Ｂ
との２台のみ示されており、これらの端末Ａ，Ｂ間で対
話が行なわれるものとする。各端末Ａ，Ｂには、音声を
音声信号に変換する、マイクロホン等の音声入力手段１
１Ａ，１１Ｂ、および音声信号を音声に変換する、スピ
ーカ等の音声出力手段１２Ａ，１２Ｂが備えられてお
り、通信回線１を介して、ルータ２の制御に基づいて端
末Ａと端末Ｂが接続され、音声信号を送受信することに
より端末Ａ，Ｂ間での対話が行なわれる。

【０００５】しかしながら、従来のこのような音声対話
システムでは、通信路のバンド幅が不足することから、
２者〜４者間で対話を行なうことのできるシステムしか
存在しない。

【０００６】

【発明が解決しようとする課題】従って、複数のユーザ
がネットワークを通して会話するためには、ユーザの増
加に従って増える音声データをどのようにして削減する
かが課題である。本発明は、上記事情に鑑み、ユーザ間
の通信量を適切に制御するのに好適な音声対話システム
を提供することを目的とする。

【０００７】

【課題を解決するための手段】上記目的を達成する本発
明の音声対話システムは、音声を音声信号に変換する音
声入力手段および音声信号を音声に変換する音声出力手
段を備えた、通信回線に接続される複数の端末と、通信
回線を介してこれら複数の端末と接続され、これらの端
末との間で音声信号の収集および配信を行なうサーバと
を備え、これら複数の端末間で音声を用いて対話を行な
う音声対話システムにおいて、上記サーバが、端末から
送信されてきた音声信号をバッファリングするメモリ
と、そのメモリにバッファリングされた音声信号の配信
を制御するスケジューラとを備えたことを特徴とする。

【０００８】ここで、上記スケジューラは、音声信号の
配信順序を制御するものであってもよい。図１は、この
態様の原理図である。この図、および、一部の図を除き
以下の各図においても、端末は代表的に２台のみ図示す
る。

【０００９】ここでは、図１に示すように、それぞれの
端末Ａ，Ｂより送信されて来た発言を、制御部２３を用
いて、サーバ２０内のバッファメモリ２１Ａ，２１Ｂに
記憶し、それぞれの発言をスケジューラ２２により適当
に順序付けし、順に、各端末Ａ，Ｂに配信する。ここで
は、解りやすさのため、バッファメモリは、各端末Ａ，
Ｂに対応させて端末数と同数図示してある。

【００１０】これにより、複数の端末Ａ，Ｂより同時に
発言が行われた場合に、各端末Ａ，Ｂにそれらの発言が
並行して着信することで回線１のバンド幅を越えてしま
い、発言が不自然に途切れたりするという問題点を回避
することができる。また、各端末Ａ，Ｂにおいて複数の
発言が平行して着信する、あるいは各端末Ａ，Ｂにおい
て複数の発言をミキシングするという処理の手間も省く
ことができる。尚、この図１には、各端末Ａ，Ｂを制御
する制御部１３Ａ，１３Ｂも図示されている。

【００１１】本発明の音声対話システムにおいて、上記
サーバが、音声を同時に送信する同時発言者数管理手段
を備え、上記端末からの、所定の数を越える音声信号の
同時送信を禁止するものであることが好ましい。図２
は、この態様を示す原理図である。ここには、図２に示
すように、それぞれの端末Ａ，Ｂより発言を行う場合、
まず、発言要求手段１４Ａ，１４Ｂにより、サーバ２０
に対して発言したいという要求を伝える。サーバ２０で
は、同時発言者数管理手段２４に、予め、同時に発言で
きる人数を回線１のバンド幅などを考慮して設定してお
く。例えば、３人までなら、同時発言者数管理手段２４
に３を設定しておく。端末より発言要求が来たならば、
この同時発言者数管理手段２４に保持されている数値を
確認し、１以上なら、その端末Ａ，Ｂに許可通知を与え
るとともに、数値を−１する。もし、数値が既に０とな
っていたならば、どれかの端末から発言終了通知が来る
まで待つ。

【００１２】端末側では、許可通知を受信したら、発言
許可表示手段１５Ａ，１５Ｂにより、ユーザに発言を行
っても良いことを知らせる。ユーザはこの表示を確認の
後、発言を開始し、発言完了後に、発言終了通知手段１
６Ａ，１６Ｂにより、サーバ２０に対し発音終了を通知
する。サーバ側では、発言終了通知を受信したならば、
同時発言者管理手段２４に保持されている数値を＋１す
る。

【００１３】本発明の音声対話システムでは、サーバも
しくは端末が、端末から送信されてきた音声信号の無音
部分を検出する無音部分検出手段を備え、スケジューラ
が、音声信号が無音部分により分離されてなる各発言単
位毎に配信順序を制御するものであることが好ましい。
図３は、この態様を示す原理図である。

【００１４】図３に示すように、それぞれの端末より送
信されてきた発言を、制御部２３を用いて、サーバ２０
内のバッファメモリ２１Ａ，２１Ｂに記憶し、無音部検
出手段に２５により、バッファメモリ２１Ａ，２１Ｂ内
のＰＣＭデータを調べることにより、音量の大きさを計
測し、音量が予め設定された値より小さい期間が、予め
設定された時間より長ければ、この部分で発言を分割
し、それぞれの発言をスケジューラにより適当に順序付
けし、順に、すべての端末に配信する。

【００１５】これにより、本発明の基本的な利点に加
え、発言の切れ目を見付けて、その切れ目で他の発言に
切り替えることができるので、無音部分で無駄に占有さ
れることを防ぐことが可能となる。本発明の音声対話シ
ステムでは、上記スケジューラが、音声信号がサーバに
到着した時刻順に音声信号がサーバから配信されるよう
に、音声信号の配信順序を制御するものであることも好
ましい態様である。

【００１６】図４は、この態様を示す原理図である。図
４に示すように、それぞれの端末より送信されてきた発
言を、制御部２３を用いてサーバ２０内のバッファメモ
リ２１Ａ，２１Ｂに記憶し、さらに、発言の受信開始時
の時刻を、各バッファメモリ２１Ａ，２１Ｂに記憶して
おく。スケジューラ２２においては、もし、現在、送信
中の発言があれば、それを続行する。もし、送信完了し
ていれば、全てのバッファメモリ２１Ａ，２１Ｂの中
で、受信開始時刻の早いものを、発言の区切りまで、す
べての端末に送信する。

【００１７】これにより、本発明の基本的な利点に加
え、さらに、時間軸に沿った会話が可能になるという利
点がある。本発明の音声対話システムでは、上記サーバ
が、端末の内部時刻の送信を指示するコマンドを端末に
送信する手段を備え、端末が、そのコマンドに応答して
自分の内部時刻をサーバに送信する手段と、音声信号を
サーバに送信するに際して、その音声信号に送信時の自
分の内部時刻を付して送信する手段とを備え、上記スケ
ジューラが、音声信号が端末から発信された時刻順に音
声信号がサーバから配信されるように、音声信号の配信
順序を制御するものであることも好ましい態様である。

【００１８】図５は、この態様を示す原理図である。図
５に示すように、端末Ａ，Ｂがサーバ２０に接続された
時点で、サーバ２０内の内部時間補正値計算部２７が起
動され、まず、サーバ２０より、端末Ａ，Ｂに向かっ
て、端末Ａ，Ｂのローカルな時刻を内部時計１７Ａ，１
７Ｂより読み取り、その時刻をサーバ２０に対して送信
するよう指示する。この指示を出した時刻をＴｓとす
る。サーバ２０では、この指示に応答して、端末Ａ，Ｂ
のローカルな時刻が端末Ａ，Ｂより報告されるのを待
つ。端末Ａ，Ｂから報告が得られたら、この時刻をＴｅ
とし、報告された端末Ａ，Ｂのローカルな時刻をＴ１と
すると、サーバ２０の内部時計２６とある端末Ａ，Ｂの
内部時計１７Ａ，１７Ｂの差分は、内部時間補正値Ｔｄ
＝Ｔｓ＋（Ｔｅ−Ｔｓ）／２−Ｔ１となる。この値をす
べての端末Ａ，Ｂについて計算して、各バッファ２１
Ａ，２１Ｂの内部時間補正値メモリに記録する。

【００１９】各端末Ａ，Ｂにおいて、発言が行なわれた
時刻Ｔｘを内部時計１７Ａ，１７Ｂにより計測し、その
時刻を付加してサーバ２０に送信する。これにより、サ
ーバ２０において、各端末Ａ，Ｂから送信されてきた発
言の実際に行われた時刻を、Ｔｘ−Ｔｄにより、サーバ
内部時計の時刻に補正することができる。各端末Ａ，Ｂ
からの発言をバッファ２１Ａ，２１Ｂに格納するときに
は、端末Ａ，Ｂより送信された内部時刻を、内部時間補
正値を用いて、サーバ内部時刻に補正し、補正済受信開
始時刻メモリに記憶する。スケジューラ２２は、発言が
実際に行われた順に従って、各発言を順次、すべての端
末Ａ，Ｂに送信することができる。

【００２０】これにより、本発明の基本的な利点に加
え、より厳密に誰が最初に発言を行なったかを決定する
ことができるので、早いもの順で行なうサービス、例え
ば、クイズのようなサービスも公正に行なうことが可能
になる。本発明の音声対話システムでは、上記サーバが
音声信号をミキシングするミキサを備えることが好まし
い。

【００２１】図６は、この態様を示す原理図である。図
６に示すように、それぞれの端末Ａ，Ｂより送信されて
きた発言を、サーバ２０内のバッファメモリ２１Ａ，２
１Ｂに記憶し、それぞれの発言をミキサ２９により、１
つの音声にミキシングして一旦出力バッファエリア２８
に格納した後、すべての端末Ａ，Ｂに配信する。

【００２２】これにより、複数の端末Ａ，Ｂより同時に
発言が行なわれた場合に、各端末Ａ，Ｂに、それらの発
言が並行して着信することで、回線１のバンド幅を越え
てしまい、発言が不自然に途切れたりするという問題を
回避することができる。また、各端末Ａ，Ｂにおいて、
並行して着信する、あるいは、複数の発言をミキシング
するという処理の手間も省くことができる。

【００２３】本発明の音声対話システムでは、上記スケ
ジューラが、音声信号がサーバに到達した時刻に基づい
て、音声信号の配信時刻を制御するものであることも好
ましい態様である。図７は、この態様を示す原理図であ
る。図７に示すように、それぞれの端末Ａ，Ｂより送信
されてきた発言を、サーバ２０内のバッファメモリ２１
Ａ，２１Ｂに記憶し、さらに発言の受信開始時の時刻
を、各バッファ２１Ａ，２１Ｂに記憶しておく。ミキサ
２９は、受信開始時刻を参照して各発言を時系列に揃
え、同時刻の音をミキシングして出力バッファエリア２
８に一旦格納する。スケジューラ２２は、同時刻の発言
はミキシングされて、各発言を時刻順に配信する。

【００２４】これにより、本発明の基本的な利点に加
え、各発言を時刻順に揃えてミキシングすることが可能
になる。本発明の音声対話システムでは、上記サーバ
が、端末の内部時刻の送信を指示するコマンドを端末に
送信する手段を備え、端末が、そのコマンドに応答して
自分の内部時刻をサーバに送信する手段と、音声信号を
サーバに送信するに際して、音声信号に送信時の自分の
内部時刻を付して送信する手段とを備え、上記スケジュ
ーラが、音声信号が端末から発信された時刻に基づい
て、音声信号の配信時刻を制御するものであることも好
ましい態様である。

【００２５】図８は、この態様を示す原理図である。図
８に示すように、端末Ａ，Ｂがサーバ２０に接続された
時点で、まず、サーバ２０より、端末Ａ，Ｂに向かっ
て、端末Ａ，Ｂのローカルな時刻を内部時計１７Ａ，１
７Ｂより読み取り、その時刻をサーバ２０に対して送信
するように指示する。この指示を出した時刻をＴｓとす
る。サーバ２０では、この指示に応答して、端末Ａ，Ｂ
のローカルな時刻が端末Ａ，Ｂより報告されるのを待
つ。端末Ａ，Ｂから報告が得られたら、この時刻をＴｅ
とし、報告された端末Ａ，Ｂのローカルな時刻をＴ１と
すると、サーバ２０の内部時計２６とある端末Ａ，Ｂの
内部時計の差分は、Ｔｄ＝Ｔｓ＋（Ｔｅ−Ｔｓ）／２−
Ｔ１となる。この初期設定処理を各端末Ａ，Ｂについて
まず行なう。

【００２６】各端末Ａ，Ｂにおいて、発言が行なわれた
時刻Ｔｘを内部時計１７Ａ，１７Ｂにより計測し、その
時刻を付加してサーバ２０に送信する。これにより、サ
ーバ２０において、各端末Ａ，Ｂから送信されてきた発
言の実際に行なわれた時刻を、Ｔｘ−Ｔｄにより、サー
バ内部時計の時刻に補正することができる。このように
することで、各端末Ａ，Ｂからの発言をバッファ２１
Ａ，２１Ｂに格納するときに、サーバ内部時計に補正し
た発言開始時刻を付加して記憶する。これにより、ミキ
サ２９は、発言が実際に行なわれた時刻に従って、各発
言をミキシングすることができる。スケジューラ２２は
発言が実際に行われた時刻に基づいて配信時刻を制御す
る。

【００２７】これにより、図６を参照して説明した実施
形態の利点に加え、より厳密に誰が最初に発言を行なっ
たかを決定することができるので、早いもの順で行なう
サービス、例えばクイズのようなサービスも公正に行う
ことが可能になる。本発明の音声対話システムは、上記
端末それぞれが、論理上の人物像（いわゆるアバタ）を
有し、上記スケジューラが、論理上の人物像空間内にお
ける該人物像の論理上の位置関係、距離、周囲環境、視
線方向、視界、姿勢のうちの少なくとも１つに基づいて
音声信号の配信を制御するものであってもよい。

【００２８】図９は、この態様を示す原理図である。図
９に示すように、それぞれの端末Ａ，Ｂには、それら各
端末Ａ，Ｂのユーザ（すなわち各発言者）を表わす論理
上の人物像（いわゆるアバタ）の位置、視線方向、視界
等を管理するアバタ管理情報が格納されるアバタ管理情
報メモリ１７Ａ，１７Ｂ、端末Ａ，Ｂのアバタが共有す
る論理上の世界を管理する世界管理情報メモリ１８Ａ，
１８Ｂが備えられている。各端末Ａ，Ｂのユーザは、自
分自身を表わすアバタの位置、視線方向等を制御するこ
とができる。

【００２９】各端末Ａ，Ｂは、発言を送信するととも
に、自分自身のアバタの移動方向、視線の移動方向等を
送信し、サーバ２０は、発言はサーバ２０内のバッファ
メモリ２１Ａ，２１Ｂに記憶し、さらに、そのアバタの
論理的な位置、視線方向、視界等を管理するアバタ管理
情報メモリの内容を逐次更新する。サーバ２０には、各
端末Ａ，Ｂと同様の世界管理情報メモリ３０と、アバタ
どうしがどこまで離れていても話ができるかを示す最大
到達距離を格納する最大到達距離メモリ３１が備えられ
ている。スケジューラ２２において、各端末Ａ，Ｂに発
言を順次送信する際に、ある発言者（＝アバタ）から見
えない（視界外にいる）アバタからの発言は送信しな
い、もしくは、優先順位を落としてい送信するなどのス
ケジューリングを行なう。

【００３０】これにより、本発明の基本的な利点に加
え、さらに、見えてない発言者から話し掛けられるとい
う不都合や、あまりに距離の離れている発言者からの発
言は聞こえなくするなどの制御を行なうことが可能とな
る。さらに、このように、聞く必要のない発言の配信を
制限することで、不必要な通信量を削減することも可能
となる。

【００３１】本発明の音声対話システムは、上記端末そ
れぞれが論理上の人物像（アバタ）を有し前記論理上の
人物像空間内における、該人物像の位置関係、距離、周
囲環境、視線方向、視界、姿勢のうちの少なくとも１つ
に基づいて音声信号に変更を加えるエフェクタ手段を備
えたものであることが好ましい。図１０は、この態様を
示す原理図である。

【００３２】図１０に示すように、それぞれの端末Ａ，
Ｂより発言を送信するとともに、各発言者（各アバタ）
の移動方向、視線の移動方向等を送信し、発言はサーバ
２０内のバッファメモリ２１Ａ，２１Ｂに記憶し、さら
に、各アバタの論理的な位置、視線方向、視線等を管理
するアバタ管理情報メモリの内容を逐次更新する。バッ
ファリングされた発言を、それぞれの端末に配信する際
に、論理的に非常に離れた発言者からの発言は配信しな
いようにし、それ以外の場合は、エフェクタ３２によ
り、発言者と聴取者との論理的な位置関係、それぞれの
視線方向を考慮し、距離が離れるに従い音量を小さくし
て加工する。また、方位に従って、左右の音量比、位
相、音質（フィルタの特性）を変化させる。さらに、発
言者と聴取者の間に障害物がある場合には、間接的に音
が伝わっていることを表現するために、反響音を付加し
たり、音質（フィルタの特性）を変更する。このように
して変更した音声信号は、ステレオ音声信号として各出
力バッファエリアＬ，Ｒに一旦格納する。

【００３３】このように加工した、各端末からの発言を
適当にスケジューリングを行い、順次各端末に配信し、
あるいは同時刻の各発言をミキシングして、各端末に配
信する。これにより、発言者に距離に対応した音量、発
言者のいる方位に対応した方向から音がしているように
聞こえるなど、より現実感を増すことができる。

【００３４】本発明の音声対話システムにおいて、上記
サーバが、前記複数の端末のうち対話を行なう対話グル
ープに属する端末を登録する１以上のグループ管理テー
ブルを備え、上記スケジューラが、受信した音声信号が
該音声信号を発信した端末と同一の対話グループに属す
る端末に配信されるように、音声信号の配信を制御する
ものであることも好ましい態様である。

【００３５】図１１は、この態様を示す原理図である。
図１１に示すように、各受信グループ毎の受信グループ
テーブルと各発信グループ毎の発信グループテーブルと
からなるグループ管理テーブル３３を設けて、各グルー
プごとの受信グループテーブルに、そのグループに所属
しているすべてのユーザのユーザＩＤを記述しておく。
さらに、各グループごとの発信グループテーブルに、そ
のグループに所属しているユーザのグループＩＤを記述
しておく。各端末Ａ，Ｂから送信されてきた発言は、サ
ーバ２０内のバッファメモリ２１Ａ，２１Ｂに記憶さ
れ、スケジューラ２２によって適当に順序付けがなされ
て、同一グループに所属するすべての端末に順次配信さ
れる。あるいは、前述したように、ミキサによって同一
グループに所属するそれぞれの端末用に時刻を揃えてミ
キシングして、それぞれの端末に配信してもよい。

【００３６】本発明の音声対話システムにおいて、上記
端末が、自分が送信する音声信号を受信する受信先の端
末を指定する複数の発信モードのうちのいずれか１つの
発信モードを選択する発信モード選択手段を備えたもの
であることが好ましい。図１２は、この態様を示す原理
図である。図１２に示すように、あらかじめ、発信モー
ド選択手段１９Ａ，１９Ｂによって、発言する対象を、
同一グループ、または、複数のグループに対する同報、
または、特定のユーザ（ないしユーザ群）の中から選択
しておく。

【００３７】もし、同一グループのみならば、通常の会
話モードであり、図１１を参照して説明した処理を行な
う。もし、複数グループに対する同報が、サーバ２０に
指示されたなら、グループ管理テーブル３３のそのユー
ザの発信グループテーブル３５に同報したい受信グルー
プＩＤを追加しておく。各端末Ａ，Ｂから送信されてき
た発言は、そのユーザの発信グループテーブル３５を参
照することで受信グループＩＤが決定できるので、これ
に従って、各受信グループの全ての所属ユーザに、発言
を配信する。

【００３８】もし、特定のユーザ（ないしユーザ群）に
対しての発言がサーバ２０に指示されたなら、指定され
たユーザＩＤ（ないしユーザ群のＩＤ）を、グループ管
理テーブル３３の、そのユーザの発信グループテーブル
に追加する。各端末Ａ，Ｂから送信されてきた発言は、
そのユーザの発信グループテーブル３５を参照すること
で受信グループＩＤとユーザＩＤが決定できるので、こ
れに従って、各受信グループの全ての所属ユーザと、す
べてのユーザ（ないしユーザ群）に発言を配信する。

【００３９】本発明の音声対話システムにおいて、上記
端末が、自分が受信する音声信号の送信元の端末を指定
する複数の聴取モードのうちのいずれか１つの聴取モー
ドを選択する聴取モード選択手段を備えることも好まし
い態様である。図１３は、この態様の原理図である。図
１３に示すように、あらかじめ、聴取モード選択手段１
０１Ｂによって、聴取する対象を同一グループ、また
は、複数のグループを同時に聴取するか、または、特定
のユーザの発言も聴取するのかを選択しておく。

【００４０】もし、同一グループのみならば、通常の会
話モードであり、図１１を参照して説明した処理を行な
う。もし、複数グループ同時の聴取がサーバ２０に指示
されたなら、グループ管理テーブル３３の、聴取したい
グループの受信グループテーブル３４のエントリに自分
のユーザＩＤを追加しておく。各端末Ａ，Ｂから送信さ
れてきた発言は、そのユーザの発信グループテーブル３
５を参照することで受信グループＩＤを決定する。これ
に従って、受信グループテーブル３４に登録されている
全ての所属ユーザに発言を配信する。この結果、受信グ
ループテーブル３４に追加されたユーザＩＤにも発言が
配信される。

【００４１】もし、特定のユーザ（ないしユーザ群）に
対しての聴取がサーバ２０に指示されたなら、指定され
たユーザ（ないしユーザ群）の発信グループテーブル３
０に自分のユーザＩＤを追加する。各端末Ａ，Ｂから送
信されてきた発言は、そのユーザの発信グループテーブ
ル３５を参照することで受信グループＩＤおよびユーザ
ＩＤを決定する。これに従って、受信グループテーブル
３４に登録されている全ての所属ユーザおよび指定され
たユーザに、発言を配信する。この結果、発信グループ
テーブル３５に追加されたユーザＩＤにも発言が発信さ
れる。

【００４２】本発明の音声対話システムにおいて、上記
端末が、サーバに向けて、音声信号の発信元である端末
のうちの、自分あてに送信される音声信号の受信を拒否
する端末を指定する割込禁止通知を行なう割込禁止通知
手段を備え、上記サーバが、割込禁止通知により指定さ
れた送信元の端末から受信した音声信号の送信先が割込
禁止通知を行なった端末であった場合に、その送信先の
端末へのその音声信号の転送を取り止めるものであるこ
とも好ましい態様である。

【００４３】図１４は、この態様の原理図である。図１
４に示すように、それぞれの端末において、割込禁止を
サーバ２０に通知することで、ユーザの指定したグルー
プ、ユーザから以外の発言をサーバより発信しないよう
にする。サーバ２０では、端末より割込禁止が通知され
たなら、受信グループに対する割込禁止ならば、受信ル
ープテーブル３４の該当グループの割込禁止フラグをＯ
Ｎにし、自端末に対する割込禁止ならば、発信グループ
テーブル３５の該当端末ＩＤの割込禁止フラグをＯＮに
する。あるユーザから発言モードの指定があった場合、
受信グループテーブル３４の割込禁止フラグ、発信グル
ープテーブル３５の該当する端末ＩＤの割込禁止フラグ
を確認し、フラグがＯＮならば、発信グループテーブル
３５への登録を拒否する。

【００４４】本発明の音声対話システムにおいて、上記
対話グループに対応してパスワードが付されており、上
記端末が、パスワードを入力して前記サーバに送るパス
ワード入力手段を備え、上記サーバが、端末から送られ
てきたパスワードを検査して正しいパスワードを送信し
てきた端末を、該パスワードに対応する対話グループに
加入させるものであることも好ましい態様である。

【００４５】図１５は、この態様を示す原理図である。
図１５に示すように各端末には、パスワード入力手段１
０２Ａ，１０２Ｂが備えられており、サーバ２０には、
セキュリティ検査手段３７、ユーザごとの特権レベルテ
ーブル３６、受信グループテーブル３４、発信グループ
テーブル３５の各エントリに、特権レベルメモリ、パス
ワードメモリが付加されている。特権レベルは、各ユー
ザがどのレベルのグループの対話に参加が許されるかを
示す指標であり、パスワードは、そのパスワードを知っ
ているユーザのみ対話に参加できるようにするためのも
のである。

【００４６】ここでは、ユーザからの要求に従って、ユ
ーザの所属しない他のグループの発言を聴取するために
他のユーザの発信グループテーブル３４や、他のグルー
プの受信グループテーブル３５を書き換えようとする際
に、そのユーザの特権レベル、および、パスワードをセ
キュリティ検査手段３９によって検査し、それが正当な
要求である場合のみに、書き換えが行なわれる。

【００４７】本発明の音声対話システムにおいて、上記
端末が、話者と聴取者を表示する表示手段を備えること
も好ましい態様である。図１６は、この態様を示す原理
図である。各端末Ａ，Ｂには、表示手段１０５Ａ，１０
５Ｂ、表示手段１０５Ａ，１０５Ｂに表示されている複
数のユーザ（アバタ）の中の話しかけようとするユーザ
を指定する座標入力手段１０４Ａ，１０４Ｂ、表示手段
１０５Ａ，１０５Ｂに描画するための描画手段１０３
Ａ，１０３Ｂが備えられている。表示手段１０５Ａ，１
０５Ｂには、誰が誰に話しかけているかが明示される。

【００４８】このように、話し掛ける相手を指示する手
段と、誰が誰に話し掛けているかを明示する手段を付加
することで、話し掛けるときに、話し掛けたい相手を指
示しながら発言することで、発言に相手のユーザＩＤも
付加してサーバ２０に送信し、サーバ２０はそのデータ
に、話者のユーザＩＤも付加して、各端末に配信する。

【００４９】これにより、各端末Ａ，Ｂでは、サーバ２
０から配信された発言に付加されている、話者のユーザ
ＩＤ、相手のユーザＩＤを読み取り、話者のイラスト
（アバタ）、および、相手のイラストを変化させる。本
発明の音声対話システムにおいて、上記サーバが、音声
信号の音質を変化させるエフェクタを備えることも好ま
しい態様である。

【００５０】図１７は、この態様を示す原理図である。
図１７に示すように、ユーザが希望がする場合は、音質
を変化させるか否かのモードを設定するモード設定手段
１０６Ａ，１０６Ｂにより発言に匿名フラグを付加して
サーバ２０に送信する。サーバ２０では、匿名フラグの
付加された発言を受信した場合は、発言をエフェクタ３
８に通すことで、音響を変化させて、話者を特定できな
いようにした後、各端末に配信する。

【００５１】本発明の音声対話システムにおいて、上記
サーバが、所定の効果音を表わす効果音信号を格納する
効果音バッファを備え、上記スケジューラが、送信され
てきた音声信号の配信を制御するとともに、前記効果音
バッファに格納された効果音信号の配信を制御するもの
であることも好ましい態様である。図１８は、この態様
を示す原理図である。

【００５２】サーバ２０には、効果音を格納する効果音
バッファ３９、その効果音を管理する効果音管理情報メ
モリ、その効果音の反復間隔を格納する反復間隔メモリ
４１が備えられている。ここでは、ユーザの発言以外
の、例えば、商店の店内放送や、駅のアナウンスなどの
効果音のＰＣＭデータと、その論理的位置、反復間隔を
サーバ２０に登録すると、サーバ２０では、これらの効
果音を、指定された間隔をおいて反復して配信するよう
に、スケジューリング、または、ミキシングを行なう。
これにより、効果音も、発言と同様に、発言の合間に、
各端末に配信される。

【００５３】本発明の音声対話システムにおいて、上記
サーバもしくは端末が、音声信号をテキストデータに変
換する音声認識手段を備えることも好ましい態様であ
る。図１９は、この態様を示す原理図である。図１９に
示すように、端末から送られてきた発言を各端末に配信
する際に、音声出力手段を持たない端末に対して発言を
配信する場合は、サーバ２０に付加した音声認識手段４
２を用いることで、バッファリングされている音声のＰ
ＣＭデータを、テキストに変換する。これにより、音声
出力手段を持たない端末においては、テキストにて発言
を表示することができる。端末側に音声認識手段１０７
Ｂをもってもよい。

【００５４】図２０は、もう１つの態様を示す原理図で
ある。図２０に示すように、音声入力手段を持たない端
末から、テキストにより受信した発言を、サーバ２０に
付加した音声合成手段４３を用いてＰＣＭデータに変換
し、音声出力手段を持つ端末に対しては、音声によって
データを配信する。音声出力手段を持たない端末に対し
ては、テキストにより端末より受信した発言はそのまま
配信し、音声により端末より受信した発言は、音声認識
手段４２によってテキストに変換されて配信される。

【００５５】図２１は、さらにもう１つの態様を示す原
理図である。図２１に示すように、ユーザの使用言語を
あらかじめサーバ２０に通知し使用言語テーブル４５に
格納しておき、端末より受信した発言の使用言語と、配
信する端末の使用言語が不一致の場合、発言を音声認識
手段４２によりテキストに変換したのち、翻訳手段４４
により、言語の翻訳を行い、さらに、翻訳結果のテキス
トを音声合成手段４３によって音声に変換する。これに
より、使用言語の違いを気にすることなく会話すること
ができる。

【００５６】図２２は、もう１つの態様を示す原理図で
ある。図２２に示すように、受信した発言を音声認識手
段４３によりテキストに変換し、変換されたテキストと
語句テーブル４７にあらかじめ登録されている指定語句
とを、サーバ２０に付加された検索手段４６により検索
し、もし、指定語句が存在したら、これを削除する。

【００５７】これにより不適切な表現が聴取者に送信さ
れるのを避けることができる。本発明の音声対話システ
ムにおいて、上記サーバと端末がアナログ回線で接続さ
れ、アナログ信号としての音声信号の始端および終端に
音声信号の始端、終端を識別するためのトーン音を発生
させるとともに、受信したトーン音を検出する、それぞ
れ、トーン音発生手段およびトーン音検出手段を備えた
ことも好ましい態様である。この態様では、図２３に示
す様に、端末、サーバに図示の各手段が備えられてお
り、この図２３に示すように、回線１から送られて来た
データがアナログの音声データならば、そのままスピー
カに出力し、デジタルデータならばスピーカへの出力を
禁止する、データスイッチ手段を端末に付加する。サー
バ２０よりアナログデータ開始コードが送られてきたな
らば、データスイッチを切り替えてスピーカ出力をＯＮ
にし、データ通信モードをアナログにする。この状態
で、あらかじめ定められた時間以上の無音期間に続いて
識別音が入力されたら、データスイッチを切り替えてス
ピーカスイッチをｏｆｆにし、データ通信モードをデジ
タルに設定する。

【００５８】これにより、音声情報はアナログにより伝
送するので、電話回線のような低速な回線でも利用でき
る。本発明の音声対話システムにおいて、上記サーバ
が、前記端末どうしの対話を記憶する記憶手段を備える
ことも好ましい態様である。その場合に、上記サーバ
が、端末どうしの対話を記憶手段に記憶するにあたりそ
の対話に付属する付属情報を付加して記憶するものであ
るものであることがさらに好ましい。

【００５９】図２４は、この態様を示す原理図である。
図２４に示すように、各端末からの発言を、各端末に配
信するとともに、大容量記憶装置５０に、発言時刻、発
言者、発言相手の情報を付加して記憶する。そして、端
末からの要求により、会話中、および、会話終了後に、
その会話を再生できる。

【００６０】図２４に示す態様において、上記サーバ
が、上記付属情報に基づいて、記憶手段に記憶された対
話中の、所望の対話部分を検索する検索手段を備えるこ
とがさらに好ましい。図２５は、この態様を示す原理図
である。図２５に示すように、サーバに検索手段５１を
付加することにより、発言時刻、発言者、発言相手をキ
ーワードとして、会話の記録された大容量記憶装置より
検索することにより、該当する発言のみを再生すること
ができる。

【００６１】さらに、対話の話速を変換する話速変換手
段を備えることが好ましい。図２６は、この態様を示す
原理図である。図２６に示すように、大容量記憶装置５
０に記録された会話を再生する際に、実際に発言が行な
われた時間タイミングで再生しても良いが、好ましく
は、話速変換手段５２によって、空白部分を省略して発
言を時間順に連続して再生しても良いし、発言を実際の
時間より短縮して再生しても良い。

【００６２】

【発明の実施の形態】以下、本発明の実施形態について
説明する。図２７は、本発明の第１実施形態を示すブロ
ック図である。本実施形態においては、マウスを用い
て、発言の開始と終了を指示する。つまり、マウスボタ
ンを押している期間中、マイクロホン（以下、マイクと
略称する）からの入力をサンプリングして、Ａ／Ｄ変換
を行い、このデジタルデータを、例えば２５６バイトづ
つパケットにし、ユーザＩＤと端末ＩＤを付加して、サ
ーバに送信する。マウスボタンを放したなら、データ終
了フラグを付加したパケットをサーバに送信する。サー
バより配信される他の端末からの発言は、受信しだい、
Ｄ／Ａ変換器に通して、これを音声に変換し、スピーカ
より鳴らす。

【００６３】サーバ制御部はＣＰＵによって実現され、
各端末から送信されてきたデータの端末ＩＤを参照し
て、発言をそれぞれの端末用のバッファメモリ（メモリ
Ａ，メモリＢ）に保持する。バッファメモリは、接続さ
れている端末数と同数用意される。また、制御部は、ス
ケジューラにより指示されたバッファメモリ上の発言を
各端末に配信する。

【００６４】スケジューラはＣＰＵにより実現され、適
当な方針により、バッファメモリに保持されている発言
データを、各端末に配信する順序を決定する。例えば、
各端末からの発言の先頭パケットを受信した時刻をバッ
ファメモリに記録しておく。端末から送信されてきて、
まだ配信されていない発言があれば、それを各端末に配
信するよう制御部に指示する。ここで、もし、まだ配信
されていない発言が複数ある場合は、それらの内、受信
時刻のもっとも古いものを選択し、それを送信するよう
制御部に指示する。

【００６５】図２８は、本発明の第２実施形態を示すブ
ロック図である。本実施形態は、図２７に示す第１実施
形態と同様に構成されるが、サーバに同時発言者数メモ
リが付加される。本実施形態においては、マウスを用い
て、発言要求と発言終了を通知する。また、発言許可通
知手段はディスプレイにより実現される。つまり、マウ
スにより発言要求ボタンをクリックすることで、サーバ
に対して発言要求を行う。サーバから許可が与えられた
ら、発言要求ボタンの表示を、「発言許可」に切り替え
る。これ以降は、第１実施形態と同様に、マウスボタン
を押している期間中、マイクからの入力をサンプリング
して、Ａ／Ｄ変換を行ない、このデジタルデータを、例
えば２５６バイトづつパケットにし、ユーザＩＤと端末
ＩＤを付加して、サーバに送信する。マウスボタンを放
したなら、データ終了フラグを付加したパケットをサー
バに送信するとともに、発言終了通知をサーバに送信す
る。サーバより配信される他の端末からの発言は、受信
しだい、Ｄ／Ａ変換器に通して、これを音声に変換し、
スピーカより鳴らす。

【００６６】サーバ制御部はＣＰＵによって実現され、
各端末から送信されてきたデータの端末ＩＤを参照し
て、発言をそれぞれの端末用のバッファメモリに保持す
る。バッファメモリは、接続されている端末数と同数用
意される。また、制御部は、スケジューラにより指示さ
れたバッファメモリ上の発言を各端末に配信する。スケ
ジューラはＣＰＵにより実現され、適当な方針により、
バッファメモリに保持されている発言データを、各端末
に配信する順序を決定する。例えば、各端末からの発言
の先頭バケットを受信した時刻をバッファメモリに記録
しておく。端末から送信されてきて、まだ配信されてい
ない発言があれば、それを各端末に配信するよう制御部
に指示する。ここで、もし、まだ配信されていない発言
が複数ある場合は、それらの内、受信時刻のもっとも古
いものを選択し、それを送信するよう制御部に指示す
る。

【００６７】同時発言者数管理手段はＣＰＵと同時発言
者数メモリによって実現され、端末より、発言要求がき
たならば、この同時発言者数メモリに保持されている数
値を確認し、１以上なら、その端末に許可通知を与える
とともに、数値を−１とする。もし、数値が既に０とな
っていたならば、どれかの端末から発言終了通知が来る
まで待つ。

【００６８】端末側では、許可通知を受信したなら、デ
ィスプレイに発言が許可されたことを表示し、ユーザに
発言を行っても良いことを知らせる。ユーザはこの表示
を確認の後、マウスボタンを押しながら発言を開始し、
発言完了後にマウスボタンを放すことで、発言終了通知
をサーバに対して行う。サーバ側では、発言終了通知を
受信したならば、同時発言者数メモリに保持されている
数値を＋１する。

【００６９】図２９は、本発明の第３実施形態を示すブ
ロック図である。本実施形態は、図２７に示す第１実施
形態と同様に構成されるが、無音部検出手段、最大無音
量メモリ、最短無音時間メモリが付加される。無音部検
出手段は、ＣＰＵによって実現され、バッファメモリ内
のＰＣＭデータの絶対値を調べることにより、音量の大
きさを計測し、音量が予め設定された値”最大無音量”
より小さい期間が、予め設定された時間”最短無音時
間”より長ければ、最初に最大無音量を下回った部分
で、発言を分割する。

【００７０】サーバ制御部は、スケジューラにより指示
されたバッファメモリ上の発言を、各端末に配信する
が、このとき、無音部検出手段を呼び出し、無音部と判
定されたら、発言の配信をそこでいったん打ち切り、次
に最大無音量を越える部分（無音区間をスキップする）
を発言の先頭とし、その対応する時刻をバッファメモリ
に記録する。

【００７１】その他の処理は、第１実施形態と同様であ
る。端末側のもう一つの実施形態を、図２９のＰＣ−Ｂ
の端末に示す。この実施形態では、マウスボタンによ
り、発言の開始と終了を指示するのではなく、上記無音
部の検出法と同様に、マイクからの入力に対して常時Ａ
／Ｄ変換を行ない、そのＰＣＭ出力データによって、発
言の開始点、終了点を検出する。

【００７２】ＣＰＵによって無音検出手段を実現し、Ａ
／Ｄ変換結果のＰＣＭ出力データの絶対値を調べること
により、音量の大きさを計測し、音量が予め設定された
値”最大無音量”より大きくなったなら、そこから発言
がはじまったものとして、サーバに順次データを送信す
る。そして、ＰＣＭ出力データの音量が、”最大無音
量”より小さい期間が、予め設定された時間”最短無音
時間”より長ければ、最初に最大無音量を下回った部分
が発言の終了点とみなし、サーバへデータ終了フラグを
付加したパケットを送信する。そして、引き続き、Ａ／
Ｄ変換結果のＰＣＭ出力結果を監視して、次の発言の開
始点を待つ。

【００７３】図３０は、本発明の第４実施形態を示すブ
ロック図である。本実施形態は、図２７に示す第１実施
形態と同様に構成されるが、各バッファメモリに受信開
始時刻メモリが付加される。サーバ制御部はＣＰＵによ
って実現され、各端末から送信されてきたデータの端末
ＩＤを参照して、発言をそれぞれの端末用のバッファメ
モリに保持する。このとき、各端末からの発言の先頭パ
ケットを受信した時刻を受信開始時刻メモリに記録して
おく。バッファメモリは、接続されている端末数と同数
用意される。また、制御部は、スケジューラにより指示
されたバッファメモリ上の発言を各端末に配信する。

【００７４】スケジューラはＣＰＵにより実現され、端
末から送信されてきて、まだ配信されていない発言があ
れば、それを各端末に配信するよう制御部に指示する。
ここで、もし、まだ配信されていない発言が複数ある場
合は、それらの内、受信開始時刻のもっとも古いものを
選択し、それを送信するよう制御部に指示する。もちろ
ん、図２９に示す実施形態と同様に、サーバ側に、無音
部検出手段を付加しても良いし、端末側もマウスを使わ
ず、無音部検出手段によって、発言の開始点、終了点を
検出しても良い。

【００７５】図３１は、本発明の第５実施形態を示すブ
ロック図である。本実施形態は、図３０に示す第４実施
形態と同様に構成されるが、端末が接続されたとき最初
に実行される内部時間補正値計算部と、内部時間補正値
メモリが付加されることと、受信開始時刻メモリに代わ
って、補正済受信開始時刻メモリを持つことが異なる。

【００７６】内部時間補正値計算部は、ＣＰＵにより実
現される。端末が新たに接続されると、まず、端末に対
して、端末のローカルな時刻を内部時計より読み取り、
その時刻Ｔｌをサーバに対して送信するよう指示する。
この指示を出した時刻をＴｓとする。サーバでは、この
指示に応答して、端末のローカルな時刻が端末より報告
されるのを待つ。端末から報告が得られたら、この時刻
をＴｅとする。報告された端末の内部時計とサーバの内
部時計との差分は、内部時間補正値Ｔｄ＝Ｔｓ＋（Ｔｅ
−Ｔｓ）／２−Ｔｌとなる。この値をすべての端末につ
いて計算して、各端末用バッファの内部時間補正値メモ
リに記録する。

【００７７】各端末の制御部はＣＰＵにより実現され、
発言が開始された内部時刻Ｔｘを内部時計により計測
し、その時刻を発言データパケットに付加してサーバに
送信する。サーバ制御部はＣＰＵによって実現され、各
端末から送信されてきたデータの端末ＩＤを参照して、
発言をそれぞれの端末用のバッファメモリに保持する。
このとき、各端末からの発言に付加されている内部時刻
Ｔｘを読み取り、補正済受信開始時刻＝内部時刻Ｔｘ−
内部時間補正値Ｔｄを計算し、この時刻を補正済受信開
始時刻メモリに記録する。

【００７８】スケジューラはＣＰＵにより実現され、端
末から送信されてきて、まだ配信されていない発言があ
れば、それを各端末に配信するよう制御部に指示する。
ここで、もし、まだ配信されていない発言が複数ある場
合は、それらの内、補正済受信開始時刻のもっとも古い
ものを選択し、それを送信するよう制御部に指示する。
これにより、スケジューラは、発言が実際に行なわれた
順に従って、各発言を順次、すべての端末に送信するこ
とができる。

【００７９】もちろん、図２９に示す実施形態と同様
に、サーバ側に、無音部検出手段を付加しても良いし、
端末側もマウスを使わず、無音部検出手段によって、発
言の開始点、終了点を検出しても良い。図３２は、本発
明の第６実施形態を示すブロック図である。本実施形態
においては、マウスを用いて、発言の開始と終了を指示
する。つまり、マウスボタンを押している期間中、マイ
クからの入力をサンプリングして、Ａ／Ｄ変換を行い、
このデジタルデータを、例えば２５６バイトづつパケッ
トにし、ユーザＩＤと端末ＩＤを付加して、サーバに送
信する。サーバより配信される他の端末からの発言は、
受信しだい、Ｄ／Ａ変換器に通して、これを音声に変換
し、スピーカより鳴らす。

【００８０】サーバ制御部はＣＰＵによって実現され、
各端末から送信されてきたデータの端末ＩＤを参照し
て、発言をそれぞれの端末用のバッファメモリに一時保
持する。バッファメモリは、接続されている端末数と同
数用意される。また、制御部は、出力バッファメモリ上
のミキシングされた発言を各端末に配信する。ミキサー
はサーバのＣＰＵにより実現され、各バッファメモリに
保持されている発言データの時刻の同じ部分を加算する
ことでミキシングし、ゲイン調整をしたのち出力バッフ
ァメモリに保持する。もちろん、ＤＳＰなどにより実現
しても良い。

【００８１】同時刻の決定方法としては、例えば、各端
末からの発言の先頭パケットを受信した時刻をバッファ
メモリに記録しておき、処理しようとする時刻のデータ
を、バッファの先頭位置からのオフセットより求めるこ
とで、各バッファ内の同時刻のデータを取り出すことが
できる。ゲイン調整の方法としては、例えば、加算結果
がＰＣＭの最大値を越えたならば、ＰＣＭの最大値にク
リッピングする。または、加算結果がＰＣＭの最大値を
越えたなら、ＰＣＭの最大値になるよう正規化し、その
時の係数をゲイン係数として保持し、以降の加算結果に
対しても適用する。ゲイン係数は、時定数により１に減
衰するように制御する。

【００８２】また、端末は、図２９に示す実施形態で示
したように、無音部検出手段を設けることで、マウスを
用いずに、マイク入力のシグナルレベルにより、自動的
に発言の開始、終了を検出するよう構成しても良い。図
３３は、本発明の第７実施形態を示すブロック図であ
る。本実施形態は、図３２に示す第６実施形態と同様に
構成されるが、各バッファメモリに受信開始時刻メモリ
が付加される。この例においては、マウスを用いて、発
言の開始と終了を指示する。つまり、マウスボタンを押
している期間中、マイクからの入力をサンプリングし
て、Ａ／Ｄ変換を行い、このデジタルデータを、例えば
２５６バイトづつパケットにし、ユーザＩＤと端末ＩＤ
を付加して、サーバに送信する。サーバより配信される
他の端末からの発言は、受信しだい、Ｄ／Ａ変換器に通
して、これを音声に変換し、スピーカより鳴らす。

【００８３】サーバ制御部はＣＰＵによって実現され、
各端末から送信されてきたデータの端末ＩＤを参照し
て、発言をそれぞれの端末用のバッファメモリに一時保
持する。このとき、各端末からの発言の先頭パケットを
受信した時刻をバッファメモリに記録する。バッファメ
モリは、接続されている端末数と同数用意される。ま
た、制御部は、出力バッファメモリ上のミキシングされ
た発言を各端末に配信する。

【００８４】ミキサーはＣＰＵにより実現され、各バッ
ファメモリに保持されている発言データのバッファの先
頭からのオフセットと発言の受信時刻より、処理したい
時刻のデータを取り出すことができる。各バッファの同
時刻のデータを加算することでミキシングし、ゲイン調
整をしたのち出力バッファメモリに保持する。ゲイン調
整の方法としては、例えば、加算結果がＰＣＭの最大値
を越えたならば、ＰＣＭの最大値にクリッピングする。
または、加算結果がＰＣＭの最大値を越えたなら、ＰＣ
Ｍの最大値になるよう正規化し、その時の係数をゲイン
係数として保持し、以降の加算結果に対しても適用す
る。ゲイン係数は、時定数により１に減衰するように制
御する。

【００８５】これらの、加算処理、ゲイン調整処理は、
ＤＳＰなどにより実現しても良い。また、端末は、図２
９に示す第３実施形態で示したように、無音部検出手段
を設けることで、マウスを用いずに、マイク入力のシグ
ナルレベルにより、自動的に発言の開始、終了を検出す
るよう構成しても良い。図３４は、本発明の第８実施形
態を示すブロック図である。

【００８６】本実施形態は、第７実施形態と同様に構成
されるが、端末が接続されたとき最初に実行される内部
時間補正値計算部と、内部時間補正値メモリが付加され
ることと、受信開始時刻メモリに代わって、補正済受信
開始時刻メモリを持つことが異なる。内部時間補正値計
算部は、ＣＰＵにより実現される。端末が新たに接続さ
れると、まず、端末に対して、端末のローカルな時刻を
内部時計より読み取り、その時刻Ｔｌをサーバに対して
送信するよう指示する。この指示を出した時刻をＴｓと
する。サーバでは、この指示に応答して、端末のローカ
ルな時刻が端末より報告されるのを待つ。端末から報告
が得られたら、この時刻をＴｅとする。報告された端末
の内部時計とサーバの内部時計との差分は、内部時間補
正値Ｔｄ＝Ｔｓ＋（Ｔｅ−Ｔｓ）／２−Ｔｌとなる。こ
の値をすべての端末について計算して、各端末用バッフ
ァの内部時間補正値メモリに記録する。

【００８７】各端末の制御部はＣＰＵにより実現され、
発言が開始された内部時刻Ｔｘを内部時計により計測
し、その時刻を発言データパケットに付加してサーバに
送信する。サーバ制御部はＣＰＵによって実現され、各
端末から送信されてきたデータの端末ＩＤを参照して、
発言をそれぞれの端末用のバッファメモリに保持する。
このとき、各端末からの発言に付加されている内部時刻
Ｔｘを読み取り、補正済受信開始時刻＝内部時刻Ｔｘ−
内部時間補正値Ｔｄを計算し、この時刻を補正済受信開
始時刻メモリに記録する。

【００８８】ミキサーはＣＰＵにより実現され、各バッ
ファメモリに保持されている発言データのバッファの先
頭からのオフセットと発言の補正済受信時刻より、処理
したい時刻のデータを取り出すことができる。各バッフ
ァの同時刻のデータを加算することでミキシングし、ゲ
イン調整をしたのち出力バッファメモリに保持する。ゲ
イン調整の方法としては、例えば、加算結果がＰＣＭの
最大値を越えたならば、ＰＣＭの最大値にクリッピング
する。または、加算結果がＰＣＭの最大値を越えたな
ら、ＰＣＭの最大値になるよう正規化し、その時の係数
をゲイン係数として保持し、以降の加算結果に対しても
適用する。ゲイン係数は、時定数により１に減衰するよ
うに制御する。

【００８９】これらの、加算処理、ゲイン調整処理は、
ＤＳＰなどにより実現しても良い。また、端末は、図２
９の実施形態で示したように、無音部検出手段を設ける
ことで、マウスを用いずに、マイク入力のシグナルレベ
ルにより、自動的に発言の開始、終了を検出するよう構
成しても良い。図３５は、本発明の第９実施形態を示す
ブロック図である。

【００９０】本実施形態は、図３０を参照して説明した
実施形態と同様に構成されるが、サーバと端末にアバタ
管理情報メモリと世界管理情報メモリが、サーバに最大
到達距離メモリが付加されることが異なる。本実施形態
では、各端末のユーザは、仮想的に３次元座標と、視線
方向、視界を持ち、これらの情報が、アバタ管理情報と
して、各端末と、サーバの両方で保持される。ユーザが
マウス、キーボードなどにより、移動や視線の移動を指
示すると、端末のアバタ管理情報の該当する情報が更新
される。また、これらのアバタ管理情報が変更される
と、端末より変更通知がサーバに送信され、サーバ側の
該当する情報も同様に更新される。世界管理情報は、仮
想的な３次元世界の中に、どのような建物がどこにある
かを示す情報であり、ポリゴンデータである。

【００９１】サーバ制御部はＣＰＵによって実現され、
各端末から送信されてきたデータの端末ＩＤを参照し
て、発言をそれぞれの端末用のバッファメモリに保持す
る。このとき、各端末からの発言の先頭パケットを受信
した時刻を受信開始時刻メモリに記録しておく。バッフ
ァメモリは、接続されている端末数と同数用意される。
また、制御部は、スケジューラにより指示されたバッフ
ァメモリ上の発言を各端末に配信する。さらに、制御部
は、端末よりアバタ情報更新通知があったなら、該当す
るアバタ情報を通知に従って更新する。

【００９２】スケジューラはＣＰＵにより実現され、各
端末ごとに配信すべき発言とその順序を検討する。他の
端末から送信されてきて、まだ配信されていない発言が
あれば、その端末のアバタ管理情報とある発言者のアバ
タ管理情報と、世界管理情報から、位置関係と視界を計
算し、２者間の距離が、あらかじめ設定された最大到達
距離以上ならば、その発言は聞こえないものとして送信
しない。また、視界内に入っていないユーザからの発言
も、その発言は聞こえないものとして送信しない。それ
以外の発言については、図３０を参照して説明した実施
形態と同様に、古いものから順に配信するよう制御部に
指示する。

【００９３】もちろん、図２９を参照して説明した実施
形態と同様に、サーバ側に、無音部検出手段を付加して
も良いし、端末側もマウスを使わず、無音部検出手段に
よって、発言の開始点、終了点を検出しても良い。図３
６は、本発明の第１０実施形態を示すブロック図であ
る。本実施形態は、図３２を参照して説明した実施形態
と同様に構成されるが、出力バッファエリアがＬＲの２
チャンネルとなり、サーバと端末にアバタ管理情報メモ
リと世界管理情報メモリが、サーバにエフェクタと最大
到達距離メモリが付加されることが異なる。

【００９４】本実施形態では、各端末のユーザは、仮想
的に３次元座標と、視線方向、視界を持ち、これらの情
報が、アバタ管理情報として、各端末と、サーバの両方
で保持される。ユーザがマウス、キーボードなどによ
り、移動や視線の移動を指示すると、端末のアバタ管理
情報の該当する情報が更新される。また、これらのアバ
タ管理情報が変更されると、端末より変更通知がサーバ
に送信され、サーバ側の該当する情報も同様に更新され
る。世界管理情報は、仮想的な３次元世界の中に、どの
ような建物がどこにあるかを示す情報であり、ポリゴン
データである。

【００９５】サーバ制御部はＣＰＵによって実現され、
各端末から送信されてきたデータの端末ＩＤを参照し
て、発言をそれぞれの端末用のバッファメモリに保持す
る。このとき、各端末からの発言の先頭パケットを受信
した時刻を受信開始時刻メモリに記録しておく。バッフ
ァメモリは、接続されている端末数と同数用意される。
また、制御部は、端末よりアバタ情報更新通知があった
なら、該当するアバタ情報を通知に従って更新する。さ
らに、制御部は他の端末から送信されてきて、まだ配信
されていない発言があれば、その端末のアバタ管理情報
とある発言者のアバタ管理情報と、世界管理情報から、
位置関係と視界を計算し、２者間の距離が、あらかじめ
設定された最大到達距離以上ならば、その発言は聞こえ
ないものとして配信しない。また、視界内に入っていな
いユーザからの発言も、その発言は聞こえないものとし
て送信しない。

【００９６】エフェクタはＣＰＵにより実現され、上記
以外の発言について、発言者と聴取者との論理的な位置
関係、それぞれの視線方向を考慮し、距離が離れるに従
い音量を小さくしく加工する。また、方位に従って、左
右の音量比、位相、音質（フィルタの特性）を変化させ
る。さらに、発言者と聴取者の間に障害物がある場合に
は、間接的に音が伝わっていることを表現するために、
反響音を付加したり、音質（フィルタの特性）を変更す
る。

【００９７】このようにして加工した、各端末からの発
言を、適当にスケジューリングを行って、順次各端末に
配信し、あるいは同時刻の各発言をミキシングして、各
端末に配信する。もちろん、図２９を参照して説明した
実施形態と同様に、サーバ側に、無音部検出手段を付加
しても良いし、端末側もマウスを使わず、無音部検出手
段によって、発言の開始点、終了点を検出しても良い。

【００９８】図３７は、本発明の第１１実施形態を示す
ブロック図、図３８は、グループ管理テーブルの一例を
示す図である。本実施形態は、例えば、図２７に示す実
施形態と同様に構成されるが、サーバにグループ管理テ
ーブルが付加されることが異なる。この例においては、
マウスを用いて、発言の開始と終了を指示する。つま
り、マウスボタンを押している期間中、マイクからの入
力をサンプリングして、Ａ／Ｄ変換を行い、このデジタ
ルデータを、例えば２５６バイトづつパケットにし、ユ
ーザＩＤと端末ＩＤを付加して、サーバに送信する。マ
ウスボタンを放したなら、データ終了フラグを付加した
パケットをサーバに送信する。サーバより配信される他
の端末からの発言は、受信しだい、Ｄ／Ａ変換器に通し
て、これを音声に変換し、スピーカより鳴らす。

【００９９】サーバ制御部はＣＰＵによって実現され、
各端末から送信されてきたデータの端末ＩＤを参照し
て、発言をそれぞれの端末用のバッファメモリに保持す
る。バッファメモリは、接続されている端末数と同数用
意される。また、制御部は、スケジューラにより指示さ
れたバッファメモリ上の発言を、グループ管理テーブル
に登録されている端末ＩＤが示す各端末に配信する。

【０１００】スケジューラはＣＰＵにより実現され、適
当な方針により、バッファメモリに保持されている発言
データを、各端末に配信する順序を決定する。例えば、
各端末からの発言の先頭パケットを受信した時刻をバッ
ファメモリに記録しておく。端末から送信されてきて、
まだ配信されていない発言があれば、それを各端末に配
信するよう制御部に指示する。ここで、もし、まだ配信
されていない発言が複数ある場合は、それらの内、受信
時刻のもっとも古いものを選択し、それを送信するよう
制御部に指示する。

【０１０１】ここでは、図２７と同様のスケジューラを
用いた実施形態を示したが、図３２と同様のミキサを用
いた実施形態も同様に構成できる。図３９は、本発明の
第１２実施形態を示すブロック図、図４０は、発信グル
ープテーブル及び受信グループテーブルの一例を示す図
である。本実施形態は、例えば、図３７に示す実施形態
と同様に構成されるが、端末に発言モード選択手段が、
サーバに発信グループテーブルと受信グループデーブル
が付加されることが異なる。

【０１０２】この例においては、マウスを用いて、発言
の開始と終了を指示する。つまり、マウスボタンを押し
ている期間中、マイクからの入力をサンプリングして、
Ａ／Ｄ変換を行い、このデジタルデータを、例えば２５
６バイトづつパケットにし、ユーザＩＤと発信端末ＩＤ
を付加して、サーバに送信する。マウスボタンを放した
なら、データ終了フラグを付加したパケットをサーバに
送信する。サーバより配信される他の端末からの発言
は、受信しだい、Ｄ／Ａ変換器に通して、これを音声に
変換し、スピーカより鳴らす。

【０１０３】サーバ制御部はＣＰＵによって実現され、
各端末から送信されてきたデータの発信端末ＩＤを参照
して、発言をそれぞれの端末用のバッファメモリに保持
する。バッファメモリは、接続されている端末数と同数
用意される。また、制御部は、スケジューラにより指示
されたバッファメモリ上の発言を、その発信端末ＩＤを
参照して、発信グループに登録されている端末ＩＤおよ
び受信グループＩＤが示す受信グループに登録されてい
る端末ＩＤが示す各端末に配信する。

【０１０４】スケジューラはＣＰＵにより実現され、適
当な方針により、バッファメモリに保持されている発言
データを、各端末に配信する順序を決定する。例えば、
各端末からの発言の先頭パケットを受信した時刻をバッ
ファメモリに記録しておく。端末から送信されてきて、
まだ配信されていない発言があれば、それを各端末に配
信するよう制御部に指示する。ここで、もし、まだ配信
されていない発言が複数ある場合は、それらの内、受信
時刻のもっとも古いものを選択し、それを送信するよう
制御部に指示する。

【０１０５】発言モード選択手段は、ＣＰＵとマウスに
よって構成され、ユーザの希望するモードを示すアイコ
ンをクリックすることで、モードを指示することができ
る。ここでは、図２７と同様のスケジューラを用いた実
施形態を示したが、図３２と同様のミキサーを用いた実
施形態も同様に構成できる。図４１は、本発明の第１３
実施形態を示すブロック図、図４２は、発信グループテ
ーブル及び受信グループテーブルの一例を示す図であ
る。

【０１０６】本実施形態は、例えば、図３７に示す実施
形態と同様に構成されるが、端末に聴取モード選択手段
が、サーバに発信グループテーブルと受信グループテー
ブルが付加されることが異なる。この例においては、マ
ウスを用いて、発言の開始と終了を指示する。つまり、
マウスボタンを押している期間中、マイクからの入力を
サンプリングして、Ａ／Ｄ変換を行い、このデジタルデ
ータを、例えば２５６バイトづつパケットにし、ユーザ
ＩＤと発信端末ＩＤを付加して、サーバに送信する。マ
ウスボタンを放したなら、データ終了フラグを付加した
パケットをサーバに送信する。サーバより配信される他
の端末からの発言は、受信しだい、Ｄ／Ａ変換器に通し
て、これを音声に変換し、スピーカより鳴らす。

【０１０７】サーバ制御部はＣＰＵによって実現され、
各端末から送信されてきたデータの発信端末ＩＤを参照
して、発言をそれぞれの端末用のバッファメモリに保持
する。バッファメモリは、接続されている端末数と同数
用意される。また、制御部は、スケジューラにより指示
されたバッファメモリ上の発言を、その発信端末ＩＤを
参照して、発信グループに登録されている端末ＩＤおよ
び受信グループＩＤが示す受信グループに登録されてい
る端末ＩＤが示す各端末に配信する。

【０１０８】スケジューラはＣＰＵにより実現され、適
当な方針により、バッファメモリに保持されている発言
データを、各端末に配信する順序を決定する。例えば、
各端末からの発言の先頭パケットを受信した時刻をバッ
ファメモリに記録しておく。端末から送信されてきて、
まだ配信されていない発言があれば、それを各端末に配
信するよう制御部に指示する。ここで、もし、まだ配信
されていない発言が複数ある場合は、それらの内、受信
時刻のもっとも古いものを選択し、それを送信するよう
制御部に指示する。

【０１０９】聴取モード選択手段は、ＣＰＵとマウスに
よって構成され、ユーザの希望するモードを示すアイコ
ンをクリックすることで、モードを指示することができ
る。ここでは、図２７と同様のスケジューラを用いた実
施形態を示したが、図３２と同様のミキサーを用いた実
施形態も同様に構成できる。図４３は、本発明の第１４
実施形態を示すブロック図、図４４は、発信グループテ
ーブル及び受信グループテーブルの一例を示す図であ
る。

【０１１０】本実施形態は、図４１に示す実施形態と同
様に構成されるが、サーバの受信グループテーブルと発
信グループテーブルに割込禁止フラグが付加される。サ
ーバでは、端末より割込み禁止が通知されたなら、受信
グループに対する割込禁止ならば、受信グループテーブ
ルの該当グループの割込禁止フラグをＯＮにし、自端末
に対する割込禁止ならば、受信グループテーブルの自端
末ＩＤの割込禁止フラグをＯＮにする。あるユーザか
ら、発言モードの指定があった場合、受信グループテー
ブルの割込禁止フラグ、受信グループテーブルの該当す
る端末ＩＤの割込禁止フラグを確認し、フラグがＯＮな
らば、発信グループテーブルへの登録を拒否する。

【０１１１】また、これと、後述する、図４７に示す実
施形態を組合せて、発信モードの指定を行う場合に、特
権レベル値が、受信グループの値、または、端末ＩＤの
値より高ければ、割込禁止フラグの如何に拘らず、その
受信グループ、または、その端末に対して、発言を行え
るようにしても良い。このように構成された、本発明の
第１５実施形態を、図４５，図４６に示す。詳細説明は
省略する。

【０１１２】図４７は、本発明の第１６実施形態を示す
ブロック図、図４８は、発信グループテーブル及び受信
グループテーブルの一例を示す図である。本実施形態
は、例えば、図４１に示す実施形態と同様に構成される
が、端末にパスワード入力手段が、サーバにセキュリテ
ィ検査手段、ユーザごとの特権レベルテーブル、受信グ
ループテーブル、発信グループテーブルの各エントリに
特権レベルメモリ、パスワードメモリが付加されること
が異なる。

【０１１３】この例においては、マウスを用いて、発言
の開始と終了を指示する。つまり、マウスボタンを押し
ている期間中、マイクからの入力をサンプリングして、
Ａ／Ｄ変換を行い、このデジタルデータを、例えば２５
６バイトづつパケットにし、ユーザＩＤと発信端末ＩＤ
を付加して、サーバに送信する。マウスボタンを放した
なら、データ終了フラグを付加したパケットをサーバに
送信する。サーバより配信される他の端末からの発言
は、受信しだい、Ｄ／Ａ変換器に通して、これを音声に
変換し、スピーカより鳴らす。

【０１１４】サーバ制御部はＣＰＵによって実現され、
各端末から送信されてきたデータの発信端末ＩＤを参照
して、発言をそれぞれの端末用のバッファメモリに保持
する。バッファメモリは、接続されている端末数と同数
用意される。また、制御部は、スケジューラにより指示
されたバッファメモリ上の発言を、その発信端末ＩＤを
参照して、発信グループに登録されている端末ＩＤおよ
び受信グループＩＤが示す受信グループに登録されてい
る端末ＩＤが示す各端末に配信する。

【０１１５】スケジューラはＣＰＵにより実現され、適
当な方針により、バッファメモリに保持されている発言
データを、各端末に配信する順序を決定する。例えば、
各端末からの発言の先頭パケットを受信した時刻をバッ
ファメモリに記録しておく。端末から送信されてきて、
まだ配信されていない発言があれば、それを各端末に配
信するよう制御部に指示する。ここで、もし、まだ配信
されていない発言が複数ある場合は、それらの内、受信
時刻のもっとも古いものを選択し、それを送信するよう
制御部に指示する。

【０１１６】聴取モード選択手段は、ＣＰＵとマウスに
よって構成され、ユーザの希望するモードを示すアイコ
ンをクリックすることで、モードを指示することができ
る。セキュリティ検査手段は、ＣＰＵによって実現さ
れ、ユーザからの受信テーブル及び発信テーブルの書き
換え要求を受けたときに、そのユーザの特権レベル値
が、各テーブルのエントリの特権レベル値より小さけれ
ば、書き換えを無条件に許す。しかし、特権レベル値が
大きい場合は、端末よりパスワードを入力させ、これ
が、テーブルのエントリと一致した場合のみ、書き換え
を許す。

【０１１７】ここでは、図２７と同様のスケジューラを
用いた実施形態を示したが、図３２と同様のミキサーを
用いた実施形態も同様に構成できる。図４９は、本発明
の第１７実施形態を示すブロック図、図５０は、ディス
プレイ上に表示されたイラストの例を示す図である。本
実施形態は、図２７に示す第１実施形態と同様に構成さ
れるが、端末に制御部と表示手段と座標入力手段と描画
手段が付加される。

【０１１８】本実施形態では、対話を行なっている相手
のユーザは、ディスプレイ上に人間のイラストとして表
示され、このイラストをマウス等でクリックしながら話
すことで、話す相手を指定する。端末の制御部はＣＰＵ
によって実現され、マウスの動きを監視して、マウスに
よってディスプレイ上のどの人間のイラストがクリック
されたかを検査し、話す相手特定する。

【０１１９】描画手段もＣＰＵによって実現され、発言
しているユーザに対応するディスプレイ上のイラスト
に、吹き出しのイラストを付加することで、誰が発言し
ているかを明示することができる。また、話し掛けられ
ている人のイラストには、呼出音のイラストを付加する
ことで、誰に話しているかを明示できる。自分に対して
話し掛けられた場合は、ピッという音とともに、画面左
上に呼出音のイラストが表示される。

【０１２０】その他の処理は、図２７に示す第１実施形
態と同様である。図５１は、本発明の第１８実施形態を
示すブロック図である。本実施形態は、図２７に示す第
１実施形態と同様に構成されるが、サーバにエフェクタ
が、端末に制御部とモード設定手段が付加される。モー
ド設定手段および制御部はＣＰＵにより実現され、ユー
ザがアイコンをクリックすることで発言を匿名モードに
設定した場合、制御部は発言に匿名フラグを付加して、
サーバに送信する。

【０１２１】サーバの制御部は、ＣＰＵにより実現さ
れ、端末からの発言に匿名フラグが設定されていたなら
ば、エフェクタを用いて、音声波形にフィルタリングを
行い、音質を変化させる。エフェクタもＣＰＵにより実
現され、ＦＦＴ，ＩＦＦＴなどにより音声のスペクトラ
ムを変化させる。

【０１２２】その他の処理は、第１実施形態と同様であ
る。図５２は、本発明の第１９実施形態を示すブロック
図である。本実施形態は、図３０に示す第４実施形態と
同様に構成されるが、サーバに効果音メモリと効果音管
理情報メモリと反復間隔メモリと受信開始時刻メモリが
付加される。

【０１２３】スケジューラはＣＰＵにより実現され、各
端末ごとに配信すべき発言とその順序を検討する。他の
端末から送信されてきて、まだ配信されていない発言が
あれば、古いものから順に配信するよう制御部に指示す
る。このとき、効果音メモリの内容も、反復間隔ごと
に、各端末に配信するように、スケジューリングを行な
う。つまり、反復間隔ごとに、端末より届いた発言と同
様に受信開始時刻を設定し、スケジューラにより他の発
言と同様に配信する。

【０１２４】その他の処理は、図３０の実施形態と同様
である。図５３は、本発明の第２０実施形態を示すブロ
ック図である。本実施形態は、図２７に示す第１実施形
態と同様に構成されるが、サーバに音声認識手段が、端
末に文字表示手段が付加される。サーバ制御部はＣＰＵ
によって実現され、スケジューラにより指示されたバッ
ファメモリ上の発言を各端末に配信する。このとき、配
信しようとする端末が音声出力手段を持たないならば、
音声認識手段を用いて、これをテキストに変換した後、
配信する。

【０１２５】音声認識手段はＣＰＵによって実現され、
例えば、Windows Sound Systemに付属する音声認識プロ
グラムである。文字表示手段はフレームバッファとディ
スプレイによって実現され、受信したテキストをディス
プレイに表示する。その他の処理は、図２７の実施形態
と同様である。また、音声認識手段を、端末に付加し
て、端末側でテキストに変換しても良い。

【０１２６】図５４は、本発明の第２１実施形態を示す
ブロック図である。本実施形態は、図５３に示す第２０
実施形態と同様に構成されるが、サーバに音声合成手段
が付加される。サーバ制御部はＣＰＵによって実現さ
れ、スケジューラにより指示されたバッファメモリ上の
発言を各端末に配信する。このとき、配信しようとする
発言がテキストで、かつ、配信しようとする端末は音声
出力手段を持つならば、音声合成手段を用いて、これを
ＰＣＭ音声に変換した後、配信する。

【０１２７】音声合成手段はＣＰＵによって実現され、
例えば、Windows Sound Systemに付属する音声合成プロ
グラムである。その他の処理は、図５３に示す実施形態
と同様である。図５５は、本発明の第２２実施形態を示
すブロック図である。本実施形態は、図５４に示す実施
形態と同様に構成されるが、サーバに翻訳手段、使用言
語テーブルが付加される。

【０１２８】端末は、発言をサーバに送信するさいに、
その使用言語コードを付加して送信する。サーバ制御部
はＣＰＵにより実現され、スケジューラにより指示され
たバッファメモリ上の発言を各端末に配信する。このと
き、発言の使用言語コードと、使用言語コードに記述さ
れている各端末の使用言語コードが一致しなければ、発
言を音声認識手段によりテキストに変換したのち、翻訳
手段により翻訳し、さらに、音声合成手段によりＰＣＭ
音声に変換してのち、端末に配信する。

【０１２９】翻訳手段はＣＰＵにより実現され、例え
ば、ＡＴＬＡＳ翻訳システムである。その他の処理は、
図５４に示す実施形態と同様である。図５６は、本発明
の第２３実施形態を示すブロック図である。本実施形態
は、図５４に示す実施形態と同様に構成されるが、サー
バに検索手段と、語句テーブルが付加される。

【０１３０】サーバ制御部はＣＰＵにより実現され、各
端末から送信されてきたデータの端末ＩＤを参照して、
発言をそれぞれの端末用のバッファメモリに保持する。
このＰＣＭ音声データを音声認識手段を用いてテキスト
データに変換する。さらに、検索手段を用いて、このテ
キスト中に語句テーブルに登録されている語句があるか
どうかを検索する。もし、あれば、これを削除または編
集する。そして、このテキストデータを音声合成手段を
用いてＰＣＭ音声データに変換する。そして、スケジュ
ーラの指示に従って、この発言を各端末に配信する。

【０１３１】その他の処理は、図５４の実施形態と同様
である。図５７は、本発明の第２４実施形態を示すブロ
ック図である。本実施形態においては、端末からの発言
はアナログ音声のまま、サーバに送信され、サーバから
各端末に発言を配信する際も、アナログ音声のまま配信
される。

【０１３２】端末とサーバをアナログの電話回線によっ
て接続し、モデムを用いてデジタルデータを送受信する
ような構成において、発言のようなアナログデータは、
デジタル化しないで、アナログのまま通す。アナログデ
ータの終了を通知、検知するために、トーン音検出手
段、トーン音発生手段、無音区間検出手段と電話回線と
スピーカを接続するかどうかを切り替えるための、スピ
ーカスイッチ手段とマイクと電話回線を接続するかどう
かを切り替えるマイクスイッチ手段を端末に備える。

【０１３３】端末制御部において、マウスが押されたこ
とを検知すると、これ以降のデータがアナログとなるこ
とを通知するアナログデータ開始コードを、サーバに送
信する。そして、マイク入力を電話回線に流すようにマ
イクスイッチをＯＮにする。そして、マウスが放され
て、発言が終了したなら、マイクスイッチをＯＦＦに
し、規定時間の無音期間をおいた後、予め定められたト
ーン音を、トーン音発生手段によって発生させる。これ
以降は、モデムを通してのデジタルデータのやりとりに
復帰する。また、サーバからアナログデータ開始コード
が送信されてきたら、スピーカスイッチをＯＮにして、
アナログ音声をスピーカに出力する。このとき、無音区
間検出手段によりアナログ音声を監視し、無音区間が発
見されてかつ、その直後の音が、予め定められたトーン
音であることがトーン音検出手段によって確認されたな
ら、スピーカスイッチをＯＦＦにして、それ以降のデー
タをデジタルデータとして、モデムを通して受信する。

【０１３４】サーバ制御部において、端末よりアナログ
データ開始コードが送信されてきたなら、それ以降のデ
ータをＡ／Ｄ変換してＰＣＭデータに変換した後、それ
ぞれの端末用のバッファエリアに保持する。このとき、
無音区間検出手段によりアナログ音声を監視し、無音区
間が発見されて、かつ、その直後の音が、予め定められ
たトーン音であることが確認されたなら、Ａ／Ｄ変換に
よるデータ入力を終了する。また、スケジューラの指示
に従って、発言を端末に配信する場合は、まず、アナロ
グデータ開始コードを送信したのち、バッファエリアの
内容をＤ／Ａ変換しながら、電話回線にアナログとして
出力する。出力終了後、規定の無音区間をおいたあと、
予め定められたトーン音をトーン音発生手段により発生
させる。これ以降は、モデムを通してのデジタルデータ
のやりとりに復帰する。

【０１３５】信号変換手段は、デジタル情報を変調され
たアナログ信号に変換し、またその逆に、変調されたア
ナログ信号をデジタル信号に変換するものである。スケ
ジューラ、その他の処理は、図２７に示す第１実施形態
と同様である。図５８は、本発明の第２５実施形態を示
すブロック図である。本実施形態は、図２７に示す第１
実施形態と同様に構成されるが、サーバにハードディス
クが付加される。

【０１３６】サーバ制御部は、各端末から送信されてき
た発言を、バッファエリアに保持するとともに、ハード
ディスクに、発言データ、発言時刻、発言者、発言相手
の情報を記録する。また、端末からの要求により、ハー
ドディスクより、記録されている発言を読みだし、端末
に配信する。その他の処理は、図２７の実施形態と同様
である。

【０１３７】また、ここでは、発言をＰＣＭデータのま
ま記録しているが、音声認識手段、音声合成手段を用い
ることで、テキストに変換してから記録し、再生時に音
声に戻すこともできるし、テキストのまま見ることも容
易に実現できる。図５９は、本発明の第２６実施形態を
示すブロック図である。本実施形態は、図５８に示す実
施形態と同様に構成されるが、サーバに検索手段が付加
される。

【０１３８】サーバ制御部は、端末からの要求に応じ
て、ハードディスクに記録されている発言を検索手段に
よって検索することで、特定の発言時刻、発言者、発言
相手をキーワードにして、該当する発言のみを端末に配
信することができる。検索手段は、ＣＰＵによって実現
される。その他の処理は、図５８の実施形態と同様であ
る。

【０１３９】また、音声認識手段をサーバに付加するこ
とで、ハードディスクに記録されている発言を、テキス
トに変換し、これを検索手段で検索することで、発言内
容を特定のキーワードで検索することができ、特定の話
題についての発言のみを、端末に配信することもでき
る。図６０は、本発明の第２７実施形態を示すブロック
図である。

【０１４０】本実施形態は、図５８に示す実施形態と同
様に構成されるが、サーバに話速変換手段が付加され
る。サーバ制御部は、端末からの要求に応じて会話を再
現する際に、実際に発言が行なわれた時間タイミングで
発言を配信するか、もしくは、時間タイミングは無視し
て、発生順に空白時間は無視して、次々と発言を配信し
ていくか、もしくは、話速変換手段により、１つの発言
内の空白時間（息継ぎの時間）などを削除してのち端末
に配信することにより、発言を実際の時間より短縮して
聞けるようにする。

【０１４１】話速変換手段は、無音区間検出器とＣＰＵ
により実現され、発言中の無音部を検出し、これを削除
することで、発言時間を短縮することができる。その他
の処理は、図５８に示す実施形態と同様である。

【０１４２】

【発明の効果】以上説明したように、本発明の音声対話
システムによれば、通信量を適正なレベルに制御するこ
とができる。

【図面の簡単な説明】

【図１】本発明の一態様を示す原理図である。

【図２】本発明の一態様を示す原理図である。

【図３】本発明の一態様を示す原理図である。

【図４】本発明の一態様を示す原理図である。

【図５】本発明の一態様を示す原理図である。

【図６】本発明の一態様を示す原理図である。

【図７】本発明の一態様を示す原理図である。

【図８】本発明の一態様を示す原理図である。

【図９】本発明の一態様を示す原理図である。

【図１０】本発明の一態様を示す原理図である。

【図１１】本発明の一態様を示す原理図である。

【図１２】本発明の一態様を示す原理図である。

【図１３】本発明の一態様を示す原理図である。

【図１４】本発明の一態様を示す原理図である。

【図１５】本発明の一態様を示す原理図である。

【図１６】本発明の一態様を示す原理図である。

【図１７】本発明の一態様を示す原理図である。

【図１８】本発明の一態様を示す原理図である。

【図１９】本発明の一態様を示す原理図である。

【図２０】本発明の一態様を示す原理図である。

【図２１】本発明の一態様を示す原理図である。

【図２２】本発明の一態様を示す原理図である。

【図２３】本発明の一態様を示す原理図である。

【図２４】本発明の一態様を示す原理図である。

【図２５】本発明の一態様を示す原理図である。

【図２６】本発明の一態様を示す原理図である。

【図２７】本発明の第１実施形態を示すブロック図であ
る。

【図２８】本発明の第２実施形態を示すブロック図であ
る。

【図２９】本発明の第３実施形態を示すブロック図であ
る。

【図３０】本発明の第４実施形態を示すブロック図であ
る。

【図３１】本発明の第５実施形態を示すブロック図であ
る。

【図３２】本発明の第６実施形態を示すブロック図であ
る。

【図３３】本発明の第７実施形態を示すブロック図であ
る。

【図３４】本発明の第８実施形態を示すブロック図であ
る。

【図３５】本発明の第９実施形態を示すブロック図であ
る。

【図３６】本発明の第１０実施形態を示すブロック図で
ある。

【図３７】本発明の第１１実施形態を示すブロック図で
ある。

【図３８】グループ管理テーブルの一例を示す図であ
る。

【図３９】本発明の第１２実施形態を示すブロック図で
ある。

【図４０】発信グループテーブル及び受信グループテー
ブルの一例を示す図である。

【図４１】本発明の第１３実施形態を示すブロック図で
ある。

【図４２】発信グループテーブル及び受信グループテー
ブルの一例を示す図である。

【図４３】本発明の第１４実施形態を示すブロック図で
ある。

【図４４】発信グループテーブル及び受信グループテー
ブルの一例を示す図である。

【図４５】本発明の第１５実施形態を示すブロック図で
ある。

【図４６】本発明の第１５実施形態を示すブロック図で
ある。

【図４７】本発明の第１６実施形態を示すブロック図で
ある。

【図４８】発信グループテーブル及び受信グループテー
ブルの一例を示す図である。

【図４９】本発明の第１７実施形態を示すブロック図で
ある。

【図５０】ディスプレイ上に表示されたイラストの例を
示す図である。

【図５１】本発明の第１８実施形態を示すブロック図で
ある。

【図５２】本発明の第１９実施形態を示すブロック図で
ある。

【図５３】本発明の第２０実施形態を示すブロック図で
ある。

【図５４】本発明の第２１実施形態を示すブロック図で
ある。

【図５５】本発明の第２２実施形態を示すブロック図で
ある。

【図５６】本発明の第２３実施形態を示すブロック図で
ある。

【図５７】本発明の第２４実施形態を示すブロック図で
ある。

【図５８】本発明の第２５実施形態を示すブロック図で
ある。

【図５９】本発明の第２６実施形態を示すブロック図で
ある。

【図６０】図６０は、本発明の第２７実施形態を示すブ
ロック図である。

【図６１】図６１は、従来の音声対話システムの構成図
である。

【符号の説明】

１回線１１Ａ，１１Ｂ音声入力手段１２Ａ，１２Ｂ音声出力手段１３Ａ，１３Ｂ制御部１４Ａ，１４Ｂ発言要求手段１５Ａ，１５Ｂ発言許可表示手段１６Ａ，１６Ｂ発言終了通知手段１７Ａ，１７Ｂアバタ管理情報メモリ１８Ａ，１８Ｂ世界管理情報メモリ１９Ａ，１９Ｂ発信モード選択手段２０サーバ２１Ａ，２１Ｂバッファメモリ２２スケジューラ２３制御部２４同時発言者数管理手段２５無音部検出手段２６内部時計２７内部時間補正値計算部２８出力バッファエリア２９ミキサ３０世界管理情報メモリ３１最大到達距離メモリ３２エフェクタ３３グループ管理テーブル３４受信グループテーブル３５発信グループテーブル３６特権レベルテーブル３７セキュリティ検査手段３８エフェクタ３９効果バッファ４０効果音管理情報メモリ４１反復間隔メモリ４２音声認識手段４３音声合成手段４４翻訳手段４５使用言語テーブル４６検索手段４７語句テーブル５０ハードディスク５１検索手段５２話速変換手段１０１Ｂ聴取モード選択手段１０２Ａ，１０２Ｂパスワード入力手段１０３Ａ，１０３Ｂ描画手段１０４Ａ，１０４Ｂ座標入力手段１０５Ａ，１０５Ｂ表示手段１０６Ａ，１０６Ｂモード設定手段１０７Ｂ音声認識手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者大野敬史神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (72)発明者岩川明則神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (72)発明者原田裕明神奈川県川崎市中原区上小田中1015番地富士通株式会社内

Claims

【特許請求の範囲】

【請求項１】音声を音声信号に変換する音声入力手段
および音声信号を音声に変換する音声出力手段を備え
た、通信回線に接続される複数の端末と、通信回線を介
してこれら複数の端末と接続され、該端末との間で音声
信号の収集および配信を行なうサーバとを備え、これら
複数の端末間で音声を用いて対話を行なう音声対話シス
テムにおいて、前記サーバが、前記端末から送信されてきた音声信号を
バッファリングするメモリと、該メモリにバッファリン
グされた音声信号の配信を制御するスケジューラとを備
えたことを特徴とする音声対話システム。
【請求項２】前記スケジューラが前記メモリにバッフ
ァリングされた各音声信号の配信順序を制御するもので
あることを特徴とする請求項１記載の音声対話システ
ム。
【請求項３】前記サーバが、音声を同時に送信する同
時発言者数管理手段を備え、前記端末からの、所定の数を越える音声信号の同時送信
を禁止するものであることを特徴とする請求項１記載の
音声対話システム。
【請求項４】前記サーバもしくは前記端末が、音声信
号の無音部分を検出する無音部分検出手段を備え、前記スケジューラが、音声信号が無音部分により分離さ
れてなる各発言単位毎に配信順序を制御するものである
ことを特徴とする請求項１記載の音声対話システム。
【請求項５】前記スケジューラが、音声信号が前記サ
ーバに到着した時刻順に該音声信号が該サーバから配信
されるように、音声信号の配信順序を制御するものであ
ることを特徴とする請求項１記載の音声対話システム。
【請求項６】前記サーバが、前記端末の内部時刻の送
信を指示するコマンドを該端末に送信する手段を備え、前記端末が、前記コマンドに応答して自分の内部時刻を
前記サーバに送信する手段と、前記音声信号を前記サー
バに送信するに際して、該音声信号に送信時の自分の内
部時刻を付して送信する手段とを備え、前記スケジューラが、音声信号が前記端末から発信され
た時刻順に該音声信号が前記サーバから配信されるよう
に、音声信号の配信順序を制御するものであることを特
徴とする請求項１記載の音声対話システム。
【請求項７】前記サーバが音声信号をミキシングする
ミキサを備えたことを特徴とする請求項１記載の音声対
話システム。
【請求項８】前記スケジューラが、音声信号が前記サ
ーバに到達した時刻に基づいて、音声信号の配信時刻を
制御するものであることを特徴とする請求項７記載の音
声対話システム。
【請求項９】前記サーバが、前記端末の内部時刻の送
信を指示するコマンドを該端末に送信する手段を備え、前記端末が、前記コマンドに応答して自分の内部時刻を
前記サーバに送信する手段と、前記音声信号を前記サー
バに送信するに際して、該音声信号に送信時の自分の内
部時刻を付して送信する手段とを備え、前記スケジューラが、音声信号が前記端末から発信され
た時刻に基づいて、音声信号の配信時刻を制御するもの
であることを特徴とする請求項７記載の音声対話システ
ム。
【請求項１０】前記端末それぞれが論理上の人物像を
有し、前記スケジューラが、前記論理上の人物像空間内
における該人物像の論理上の位置関係、距離、周囲環
境、視線方向、視界、姿勢のうちの少なくとも１つに基
づいて音声信号の配信を制御するものであることを特徴
とする請求項１記載の音声対話システム。
【請求項１１】前記端末それぞれが論理上の人物像を
有し、前記論理上の人物像空間内における、該人物像の
位置関係、距離、周囲環境、視線方向、視界、姿勢のう
ちの少なくとも１つに基づいて音声信号に変更を加える
エフェクタを備えたことを特徴とする請求項１記載の音
声対話システム。
【請求項１２】前記サーバが、前記複数の端末のうち
対話を行なう対話グループに属する端末を登録する１以
上のグループ管理テーブルを備え、前記スケジューラが、受信した音声信号が、該音声信号
を発信した端末と同一の対話グループに属する端末に配
信されるように、音声信号の配信を制御するものである
ことを特徴とする請求項１記載の音声対話システム。
【請求項１３】前記端末が、自分が送信する音声信号
を受信する受信先の端末を指定する複数の発信モードの
うちのいずれか１つの発信モードを選択する発信モード
選択手段を備えたことを特徴とする請求項１記載の音声
対話システム。
【請求項１４】前記端末が、自分が受信する音声信号
の送信元の端末を指定する複数の聴取モードのうちのい
ずれか１つの聴取モードを選択する聴取モード選択手段
を備えたことを特徴とする請求項１記載の音声対話シス
テム。
【請求項１５】前記端末が、前記サーバに向けて、音
声信号の発信元である端末のうちの、自分あてに送信さ
れる音声信号の受信を拒否する端末を指定する割込禁止
通知を行なう割込禁止通知手段を備え、前記サーバが、割込禁止通知により指定された送信元の
端末から受信した音声信号の送信先が該割込禁止通知を
行なった端末であった場合に、該送信先の端末への該音
声信号の転送を取り止めるものであることを特徴とする
請求項１記載の音声対話システム。
【請求項１６】前記対話グループに対応してパスワー
ドが付されており、前記端末が、パスワードを入力して
前記サーバに送るパスワード入力手段を備え、前記サーバが、端末から送られてきたパスワードを検査
して正しいパスワードを送信してきた端末を、該パスワ
ードに対応する対話グループに加入させるものであるこ
とを特徴とする請求項１記載の音声対話システム。
【請求項１７】前記端末が、話者と、聴取者を表示す
る表示手段を備えたことを特徴とする請求項１記載の音
声対話システム。
【請求項１８】前記サーバが、音声信号の音質を変化
させるエフェクタを備えたことを特徴とする請求項１記
載の音声対話システム。
【請求項１９】前記サーバが、所定の効果音を表わす
効果音信号を格納する効果音バッファを備え、前記スケジューラが、送信されてきた音声信号の配信を
制御するとともに、前記効果音バッファに格納された効
果音信号の配信を制御するものであることを特徴とする
請求項１記載の音声対話システム。
【請求項２０】前記サーバもしくは前記端末が、音声
信号をテキストデータに変換する音声認識手段を備えた
ことを特徴とする請求項１記載の音声対話システム。
【請求項２１】前記サーバと前記端末がアナログ回線
で接続され、アナログ信号としての音声信号の始端およ
び終端に音声信号の始端、終端を識別するためのトーン
音を発生させるとともに受信したトーン音を検出する、
それぞれトーン音発生手段およびトーン音検出手段を備
えたことを特徴とする請求項１記載の音声対話システ
ム。
【請求項２２】前記サーバが、前記端末どうしの対話
を記憶する記憶手段を備えたことを特徴とする請求項１
記載の音声対話システム。
【請求項２３】前記サーバが、前記端末どうしの対話
を前記記憶手段に記憶するにあたり、該対話に付属する
付属情報を付加して記憶するものであることを特徴とす
る請求項２２記載の音声対話システム。
【請求項２４】前記サーバが、前記付属情報に基づい
て前記記憶手段に記憶された対話中の、所望の対話部分
を検索する検索手段を備えたことを特徴とする請求項２
３記載の音声対話システム。
【請求項２５】対話の話速を変換する話速変換手段を
備えたことを特徴とする請求項２２記載の音声対話シス
テム。