JP6385150B2

JP6385150B2 - 管理装置、会話システム、会話管理方法及びプログラム

Info

Publication number: JP6385150B2
Application number: JP2014122332A
Authority: JP
Inventors: 秀行窪田
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2014-06-13
Filing date: 2014-06-13
Publication date: 2018-09-05
Anticipated expiration: 2034-06-13
Also published as: JP2016004066A

Description

本発明は、ヘッドセット等の音声の入出力を行う通信機器を介して複数のユーザが会話するための技術に関する。

複数の人物が集まる会合や講演会等のイベントの会場では、ヘッドセット等の音声の入出力を行う通信機器を介して、イベントの参加者同士が会話する会話システムが使用されることがある。この種の会話システムでは、各参加者が使用する言語が異なっていても会話が不自由とならないように、通訳者（翻訳者）又は翻訳エンジンによって参加者の発話内容が翻訳されることがある（例えば、特許文献１，２）。同一の仮想空間に居る者同士が会話するシステムとして、特許文献３は、多地点音声通信システム（チャットシステム）において、一の音声コミュニケーション端末のユーザが、他の音声コミュニケーション端末のユーザに話し掛けたことを条件に、会話グループを構成することを開示している。

特開２０１２−１７００５９号公報特開２００５−１９７５９５号公報特開２０１２−１０８５８７号公報

特許文献１に記載された技術では、自分自身或いは所属するグループを特定する情報を、ヘッドセットのユーザが予め入力しておく必要がある。特許文献２に記載された技術では、予め定められた通信端末を介して、通信端末のユーザ同士が会話する。即ち、特許文献１，２に記載された技術では、各ユーザの発話内容は、事前に設定された会話の相手にのみ聴取される。このため、特許文献１，２に記載された技術では、例えば、通りすがりに出会ったユーザ同士が会話する場合にも、会話の相手の設定をユーザが都度行わなければならない。

特許文献３に記載された技術では、ユーザが、会話の相手の名称や所定のキーワードを発話することによって、会話の相手が特定される。よって、特許文献３に記載された技術では、会話の相手を指定する明示的な動作を、ユーザが意識して行わなければならない。
これに対し、本発明の目的は、ユーザが行った会話に基づいて会話のグループを管理することである。

上述した課題を解決するため、本発明の管理装置は、音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する第１のユーザ及び第２のユーザを含む複数のユーザを、グループ分けし、同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話システムの管理装置であって、前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得する取得手段と、取得された前記音声データ又は前記キーワードに基づいて、前記第１のユーザの入力音声から認識された前記キーワードと、前記第２のユーザの入力音声から認識された前記キーワードとの文脈の類似度合いを評価する評価手段と、前記文脈が類似すると評価された場合に、前記第１のユーザ及び前記第２のユーザを、前記同一のグループに分類するグループ管理手段と備える。

本発明の管理装置において、前記評価手段は、前記第１のユーザの発話内容と、当該発話内容に対する前記第２のユーザの応答を特定し、前記文脈の類似度合いを評価してもよい。
この管理装置において、前記グループ管理手段は、前記第１のユーザの発話内容に対して前記第２のユーザが応答したタイミングに応じて、前記第１のユーザ及び前記第２のユーザを、前記同一のグループに分類するかどうかを管理してもよい。
更に、前記グループ管理手段は、前記第１のユーザ及び前記第２のユーザを前記同一のグループに分類した後、前記第１のユーザの発話内容に対して前記第２のユーザが応答したタイミングに応じて、当該グループから前記第１のユーザ又は前記第２のユーザを除外してもよい。

本発明の管理装置において、前記複数のユーザの位置又はユーザ間の距離を特定する特定手段を備え、前記グループ管理手段は、前記第１のユーザ及び前記第２のユーザについて特定された前記位置又は前記距離が所定条件を満たした場合に、当該第１のユーザ及び当該第２のユーザを、前記同一のグループに分類してもよい。
本発明の管理装置において、前記グループ管理手段は、前記特定された前記位置又は前記距離と、前記第１のユーザの入力音声のレベルとに基づいて、前記第１のユーザ及び前記第２のユーザを、前記同一のグループに分類するかどうかを管理してもよい。
本発明の管理装置において前記第１のユーザ及び前記第２のユーザの移動状態を示す状態データを取得する状態データ取得手段を備え、前記グループ管理手段は、前記第１のユーザ及び前記第２のユーザを前記同一のグループに分類した後、取得された前記状態データに応じて、当該グループから前記第１のユーザ又は前記第２のユーザを除外してもよい。

本発明の会話システムは、第１のユーザ及び第２のユーザを含む複数のユーザの各々に使用され、音声データを送受信して音声の入出力を行う複数の通信機器と、前記複数のユーザをグループ分けし、同一のグループに属する前記ユーザ間で前記音声の入出力による会話を実現させる管理サーバとを備える会話システムであって、前記複数の通信機器の各々は、自機を使用する前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを、前記管理サーバへ送信する送信手段を有し、前記管理サーバは、前記送信手段により送信された前記音声データ、又は、前記キーワードを取得する取得手段と、取得された前記音声データ又は前記キーワードに基づいて、前記第１のユーザの入力音声から認識された前記キーワードと、前記第２のユーザの入力音声から認識された前記キーワードとの文脈の類似度合いを評価する評価手段と、前記文脈が類似すると評価された場合に、前記第１のユーザ及び前記第２のユーザを、前記同一のグループに分類するグループ管理手段とを有する。

本発明の会話管理方法は、音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する第１のユーザ及び第２のユーザを含む複数のユーザを、グループ分けし、同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話システムの管理方法であって、前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得するステップと、取得した前記音声データ又は前記キーワードに基づいて、前記第１のユーザの入力音声から認識された前記キーワードと、前記第２のユーザの入力音声から認識された前記キーワードとの文脈の類似度合いを評価するステップと、前記文脈が類似すると評価した場合に、前記第１のユーザ及び前記第２のユーザを、前記同一のグループに分類するステップとを備える。

本発明のプログラムは、音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する複数のユーザを、グループ分けし、同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話システムを管理するコンピュータに、前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得するステップと、取得した前記音声データ又は前記キーワードに基づいて、前記第１のユーザの入力音声から認識された前記キーワードと、前記第２のユーザの入力音声から認識された前記キーワードとの文脈の類似度合いを評価するステップと、前記文脈が類似すると評価した場合に、前記第１のユーザ及び前記第２のユーザを、前記同一のグループに分類するステップとを実行させるためのプログラムである。

本発明によれば、ユーザが行った会話に基づいて会話のグループを管理することができる。

本発明の一実施形態に係る会話システムの全体構成を示す図。同実施形態に係る会話システムの構成を示すブロック図。同実施形態に係るグループＤＢに格納される情報の説明図。同会話システムの会話グループを形成する処理を示すシーケンス図。同実施形態に係る会話グループの具体例の説明図。同会話システムの会話グループにユーザを追加する処理を示すシーケンス図。同会話グループにユーザを追加する処理の具体例の説明図。同会話システムのユーザの移動状態に基づく会話グループを管理する処理のシーケンス図。同会話システムのユーザの移動状態に基づく会話グループの管理の説明図。本発明の変形例１に係る会話システムの会話グループを形成する処理を示すシーケンス図。同会話システムの会話グループを形成する処理の具体例の説明図。本発明の変形例３に係る会話システムの会話グループを形成する処理を示すシーケンス図。

以下、図面を参照して本発明の一実施形態を説明する。
図１は、本実施形態に係る会話システムの全体構成を示す図である。会話システム１は、管理サーバ１０と、複数のヘッドセット２０（２０Ａ，２０Ｂ，２０Ｃ，２０Ｄ，２０Ｅ）と、翻訳装置３０とを備える。ヘッドセット２０Ａ，２０Ｂ，２０Ｃ，２０Ｄ，２０Ｅの各々を使用するユーザを、順にユーザＡ，Ｂ，Ｃ，Ｄ，Ｅと表す。管理サーバ１０及び複数のヘッドセット２０の各々は、ネットワーク１００に接続する。ヘッドセット２０は、ネットワーク１００へのゲートウェイとなる無線通信端末Ｐ（例えばスマートフォン又はタブレット端末）を介して、ネットワーク１００に接続する。図１には、ユーザＡが使用（携帯）する無線通信端末Ｐのみが示されているが、ユーザＢ，Ｃ，Ｄ，Ｅの各ユーザも、ユーザＡと同様に、無線通信端末Ｐを使用（携帯）する。ネットワーク１００は、例えば、移動体通信網、ゲートウェイ装置及びインターネットを含む公衆通信回線である。
なお、会話システム１に含まれるヘッドセット２０は５台に限られず、２台以上４台以下又は６台以上であってもよい。

管理サーバ１０は、複数のヘッドセット２０を介して複数のユーザ間で行われる会話を実現させるサーバ装置である。管理サーバ１０は、ヘッドセット２０を使用する複数のユーザをグループ分けし、同一のグループ（以下「会話グループ」という。）に属するユーザ間で会話を実現させるためのデータの管理を行う管理装置として機能する。
ヘッドセット２０は、ユーザの頭又は耳に装着（固定）して使用され、音声データの送受信を行って音声の入出力を行う通信機器である。ヘッドセット２０は、いわゆるウェアラブルコンピュータの一種である。

翻訳装置３０は、ヘッドセット２０が送信した音声データに基づいて音声認識を行うことにより、当該音声データを文字コード（テキストデータ）に変換して、他言語に翻訳する翻訳処理を行う。翻訳装置３０が行う翻訳処理は、公知の翻訳エンジンで行われる翻訳処理と同じでよい。
なお、翻訳装置３０は、ここでは管理サーバ１０とは別に設けられた装置（例えば翻訳サーバ）により実現されるが、管理サーバ１０に組み込まれる形態の装置であってもよい。また、翻訳装置３０は、ここでは管理サーバ１０を介してヘッドセット２０との間で音声データの送受信を行う。ただし、翻訳装置３０は、ネットワーク１００に接続する場合、管理サーバ１０を介さずに、ヘッドセット２０との間で音声データの送受信を行ってもよい。

図２は、会話システム１の構成を示すブロック図である。図２において実線の矢印は、信号が流れる方向を意味する。
ヘッドセット２０は、ハードウェア構成として、制御部２１と、音声入力部２２と、音声出力部２３と、通信部２４と、センサ部２５と、測位部２６と、発光部２７と、操作部２８とを備える。
制御部２１は、演算処理装置としてのＣＰＵ（Central Processing Unit）と、ＲＯＭ(Read Only Memory)及びＲＡＭ（Random Access Memory）を含むメモリを備えたマイクロコンピュータである。ＣＰＵは、ＲＯＭに記憶された制御プログラムをＲＡＭに読み出して実行することにより、ヘッドセット２０の各部を制御する。

音声入力部２２は、例えばマイクロホン及びＡ／Ｄ（Analog to Digital）変換回路を有し、入力された音声を示す音声データを生成する。音声入力部２２は、マイクロホンに入力された音声を示すアナログ形式の音声信号を、Ａ／Ｄ変換回路を用いてデジタル形式に変換する。
音声出力部２３は、例えばスピーカ及びＤ／Ａ（Digital to Analog）変換回路を有し、音声データに基づいて音声を出力する。音声出力部２３は、Ｄ／Ａ変換回路を用いてデジタル形式の音声データをアナログ形式に変換し、変換後の音声信号に基づいてスピーカから音声を出力する。

通信部２４は、例えば無線通信回路及びアンテナを有し、ネットワーク１００に接続して無線通信を行う通信手段である。通信部２４は、無線通信端末Ｐと近距離無線通信を行うことにより、無線通信端末Ｐを介してネットワーク１００に接続する。近距離無線通信は、例えばＢｌｕｅｔｏｏｔｈ（登録商標）に準拠した無線通信であるが、Ｚｉｇｂｅｅ（登録商標）等の他方式に準拠した無線通信であってもよい。

センサ部２５は、ヘッドセット２０の状態を検知するセンサを含む。センサ部２５は、例えば２軸又は３軸の加速度センサを有する。センサ部２５は、加速度センサを用いてヘッドセット２０を使用するユーザの移動状態を検知する状態検知手段として機能する。ユーザの移動状態は、例えば、ユーザの移動の有無、及び、ユーザが移動する場合の移動方向並びに移動速度の状態である。
なお、センサ部２５は、例えば３軸加速度、３軸角速度及び３軸地磁気の９軸モーションセンサを用いて、ユーザの移動状態を検知してもよい。

測位部２６は、ヘッドセット２０のユーザの位置を測定（測位）する手段である。測位部２６は、公知の屋内測位技術を用いて、屋内におけるユーザの現在位置を測位する。具体的な屋内測位技術については特に問わないが、測位部２６は、例えば、複数の無線アクセスポイントから受信した電波の強度及び到達時間に基づいて三点測量を行うことにより、ユーザの位置を測位する。

発光部２７は、例えば発光ダイオード（ＬＥＤ：Light Emitting Diode）を有し、所定の光を発する手段である。発光部２７は、ヘッドセット２０を使用するユーザ以外の人物が発光を知覚可能な位置に設けられる。
操作部２８は、例えば各種の物理キー（例えば押下ボタン）を有し、ユーザの操作を受け付ける操作手段である。

管理サーバ１０は、ハードウェア構成として、制御部１１と、通信部１２と、グループＤＢ（Data Base）１３とを備える。
制御部１１は、演算処理装置としてのＣＰＵと、ＲＯＭ及びＲＡＭを含むメモリとを備えたマイクロコンピュータである。ＣＰＵは、ＲＯＭに記憶された制御プログラムをＲＡＭに読み出して実行することにより、管理サーバ１０の各部を制御する。通信部１２は、ネットワーク１００に接続するためのインタフェースである。

グループＤＢ１３は、例えばハードディスク装置等の記憶装置で実現され、会話グループの管理に関する情報が格納（蓄積）されるデータベースである。本実施形態では、管理サーバ１０が、グループＤＢ１３を備えているが、外部装置としてのグループＤＢ１３にアクセスしてもよい。

図３は、グループＤＢ１３に格納される情報を説明する図である。
図３に示すように、グループＤＢ１３は、ヘッドセット２０のユーザ毎に、「ユーザＩＤ」と、「端末ＩＤ」と、「言語情報」と、「状態データ」と、「位置情報」と、「グループ情報」との各情報を対応付けて格納したデータベースである。
ユーザＩＤは、ヘッドセット２０のユーザを識別するユーザ識別子である。端末ＩＤは、ユーザが使用するヘッドセット２０を識別する端末識別子である。端末ＩＤは、例えば電話番号又は個体識別番号であるが、ヘッドセット２０へ情報を送信するために使用される通信アドレス（宛先情報）であってもよい。
なお、図３に示すユーザＩＤ及び端末ＩＤの末尾のアルファベット「Ａ」〜「Ｅ」は、図１で説明したヘッドセット２０Ａ〜２０Ｅ、及び、ユーザＡ〜Ｅのアルファベットと対応している。例えば、ユーザＩＤ「ＵＩＤ−Ａ」はユーザＡのユーザＩＤであり、端末ＩＤ「ＭＩＤ−Ａ」は、ヘッドセット２０Ａの端末ＩＤである。

言語情報は、ヘッドセット２０のユーザが使用する言語の情報であり、例えば、ユーザが日常的に使用する言語（例えば母国語）又はユーザが理解可能な言語である。言語情報は、例えば、ヘッドセット２０又は無線通信端末Ｐを用いて、予めユーザによって指定されている。状態データは、ヘッドセット２０のユーザの移動状態を示すデータである。位置情報は、ヘッドセット２０のユーザの位置を示す。グループ情報は、ヘッドセット２０のユーザが属する会話グループを示す情報である。グループＤＢ１３が図３に示す状態のとき、ユーザＡ〜Ｅの各々は、どの会話グループにも属していない。
なお、言語情報、状態データ、位置情報及びグループ情報の各々は、例えば、ユーザ毎に最新の情報がグループＤＢ１３に格納される。

図２に戻り、ヘッドセット２０及び管理サーバ１０の機能構成を説明する。
ヘッドセット２０の制御部２１は、制御プログラムを実行することにより、音声データ送信手段２１１と、音声データ取得手段２１２と、報知手段２１３と、状態データ送信手段２１４と、位置情報送信手段２１５とに相当する機能を実現する。
音声データ送信手段２１１は、音声入力部２２への入力音声（例えばユーザの会話の音声）を示す音声データを、通信部２４を介して管理サーバ１０へ送信する手段である。
音声データ取得手段２１２は、通信部２４により管理サーバ１０から音声データが受信されると、受信された音声データを取得する手段である。この音声データは、例えば、他のヘッドセット２０の音声データ送信手段２１１により送信された音声データに対し、翻訳装置３０により翻訳処理が行われた後の音声データである。音声出力部２３は、音声データ取得手段２１２が取得した音声データに基づいて、音声を出力する。
報知手段２１３は、発光部２７を制御して、音声データ取得手段２１２により取得された音声データに基づいて音声出力部２３が音声出力したことを報知する手段である。

状態データ送信手段２１４は、センサ部２５により検知されたユーザの移動状態を示す状態データを、通信部２４を介して管理サーバ１０へ送信する手段である。
位置情報送信手段２１５は、測位部２６により測定されたユーザの位置を示す位置情報を、通信部２４を介して管理サーバ１０へ送信する手段である。

管理サーバ１０は、制御プログラムを実行することにより、音声データ取得手段１１１と、翻訳制御手段１１２と、音声データ送信手段１１３と、認識手段１１４と、評価手段１１５と、特定手段１１６と、状態データ取得手段１１７と、グループ管理手段１１８とに相当する機能を実現する。
音声データ取得手段１１１は、通信部１２によりヘッドセット２０から音声データが受信されると、受信された音声データを取得する手段である。音声データ取得手段１１１は、音声データ送信手段２１１により送信された音声データを取得する。
翻訳制御手段１１２は、音声データ取得手段１１１が取得した音声データに基づいて、翻訳装置３０に翻訳処理を行わせる手段である。翻訳制御手段１１２は、グループＤＢ１３に格納された言語情報に基づいて翻訳処理を行うように、翻訳装置３０を制御する。
音声データ送信手段１１３は、翻訳装置３０により翻訳処理が行われた後の音声データを、通信部１２を介してヘッドセット２０へ送信する手段である。ただし、送受信側のヘッドセット２０のユーザの言語情報が同じの場合、音声データ送信手段１１３は、翻訳処理を行うことなく、音声データを送信する。

認識手段１１４は、音声データ取得手段１１１が取得した音声データに基づいて、キーワードを認識する認識処理を行う。認識手段１１４は、周知の音声認識を行って音声データを文字コード（テキストデータ）に変換し、更に、当該文字データに対し形態素解析を施して、キーワードの列に分割する。認識されるキーワードは、ここでは単語である。

評価手段１１５は、認識手段１１４により認識されたキーワードに基づいて、第１のユーザの入力音声から認識されたキーワードと、第２のユーザの入力音声から認識されたキーワードとの文脈の類似度合いを評価する手段である。評価手段１１５は、ここでは第１のユーザの入力音声から認識されたキーワードと、第２のユーザの入力音声から認識されたキーワードとのキーワードペアが共起する頻度（共起頻度）に基づいて、文脈の類似度合いを数値化した類似度（以下「文脈類似度」という。）を算出する。文脈類似度は、例えば共起ベース類似度で、認識されたキーワードペアが会話中に同時に出現する可能性が高いほど高い値を示す。文脈類似度は、例えば、キーワード毎に、共起語及び共起頻度を定めた辞書ファイルを参照して算出される。文脈の類似度合いの評価は、例えば、複数の単語で構成された文をキーワードとして行われてもよい。この場合、第１のユーザの入力音声から認識された文と、第２のユーザの入力音声から認識された文との文脈の類似度が算出される。また、文脈の類似度合いの評価のアルゴルズムは、更に別のアルゴリズムであってもよい。
評価手段１１５は、算出した文脈類似度が閾値以上である場合、第１のユーザの発話の内容と第２のユーザの発話の内容との文脈が類似すると評価する。即ち、評価手段１１５は、発話内容に含まれるキーワード同士の概念としてのつながりの程度を評価し、会話をする第１のユーザ及び第２のユーザを特定（推定）する。

特定手段１１６は、ヘッドセット２０を使用する複数のユーザの位置又はユーザ間の距離を特定する手段である。本実施形態では、特定手段１１６は、位置情報送信手段２１５により送信された位置情報が通信部１２により受信されると、受信された位置情報に基づいてユーザの位置を特定する。
状態データ取得手段１１７は、状態データ送信手段２１４により送信された状態データが通信部１２により受信されると、当該状態データを取得する手段である。

グループ管理手段１１８は、グループＤＢ１３に基づいて、ヘッドセット２０のユーザが属する会話グループを管理する手段である。グループ管理手段１１８は、評価手段１１５により文脈が類似すると評価された場合に、第１のユーザ及び第２のユーザを、同一の会話グループに分類することがある。グループ管理手段１１８は、特定手段１１６が特定した複数のユーザの位置又はユーザ間の距離や、状態データ取得手段１１７が取得した状態データが示す移動状態に基づいて、第１のユーザ及び第２のユーザを、同一の会話グループに分類するかどうかを管理する。

次に、本実施形態の動作を説明する。
＜Ａ：会話グループの形成＞
図４は、会話システム１の会話グループを形成する処理を示すシーケンス図である。図５は、会話グループを形成する処理の具体例を説明する図である。
ヘッドセット２０Ａ〜２０Ｅの各々は、ユーザが発話すると、その発話内容を示す会話の音声が入力される（ステップＳ１）。次に、ヘッドセット２０Ａ〜２０Ｅの各々は、自機のユーザの位置を、測位部２６を用いて測位する（ステップＳ２）。ヘッドセット２０Ａ〜２０Ｅの各々は、ユーザの入力音声を示す音声データ及び測位したユーザの位置を示す位置情報を、通信部２４を介して管理サーバ１０へ送信する（ステップＳ３）。
ヘッドセット２０Ａ〜２０Ｅの各々は、ステップＳ１〜Ｓ３の処理を、例えば所定間隔で（例えば５秒毎に）繰り返し実行する。ただし、ヘッドセット２０Ａ〜２０Ｅの各々で、ステップＳ１〜Ｓ３の処理の実行タイミングが一致（同期）している必要はない。

管理サーバ１０は、ステップＳ３の処理で送信された音声データ及び位置情報を、通信部１２を介して取得すると、取得した音声データに基づいて音声認識を行う（ステップＳ４）。そして、管理サーバ１０は、ユーザの入力音声からキーワードを認識する。次に、管理サーバ１０は、第１のユーザの入力音声から認識したキーワードと、第２のユーザの入力音声から認識したキーワードとの文脈類似度を算出する（ステップＳ５）。類似度の算出に際して、管理サーバ１０は、第１のユーザ及び第２のユーザの入力音声を、翻訳装置３０により同一の言語への翻訳処理を行わせた後で、文脈の類似度を算出してもよい。そして、管理サーバ１０は、算出した文脈類似度に応じて、グループＤＢ１３を更新する（ステップＳ６）。

図５（ａ）に示す例では、ユーザＡが「はじめまして。」という言葉を発し、ユーザＢがこれに応答して、「こちらこそ、はじめまして。」という言葉を発している。ここでは、ユーザＡは日本語で発話しているが、ユーザＢも挨拶程度の簡単な日本語は理解し、発話可能とする。この場合、ユーザＡの発話内容と、ユーザＢの応答とが同じ文脈上にあると推測される。また、図５（ａ）に示すように、ユーザＡとユーザＢとのユーザ間距離は、所定距離以下である。この場合、管理サーバ１０は、ヘッドセット２０Ａ，２０Ｂから取得した音声データ及び位置情報に基づいて、ユーザＡとユーザＢを同じ会話グループＧ１に分類するように、グループＤＢ１３を更新する（図５（ｂ）参照）。
他方、ユーザＣ，Ｄ，Ｅが、ユーザＡが発話した直後に、ユーザＡの近くで、ユーザＡの発話に対する応答を示す発話をする可能性は低いと考えられる。このため、管理サーバ１０が、ユーザＣ，Ｄ，ＥをユーザＡと同一の会話グループに分類しないで済む。

なお、管理サーバ１０は、どの会話グループにも属していないユーザのみを対象として会話グループに分類してもよいし、既にいずれかの会話グループにも属しているユーザを他の会話グループに分類してもよい。後者の場合、管理サーバ１０は、先に属していた会話グループから除外することで、いずれか１の会話グループにユーザを分類する。また、図５では、ユーザＡとユーザＢが同じ言語で挨拶する場合を説明したが、互いの言語が異なっていてもよい。この場合、管理サーバ１０は、翻訳装置３０により同じ言語に翻訳してから文脈類似度を算出してもよいし、翻訳せずに文脈類似度を算出してもよい。

会話グループを形成した後、ヘッドセット２０ＡにユーザＡの会話の音声が入力されたとする（ステップＳ７）。ここでは、ユーザＡの日本語の会話の音声が入力される。この場合、ヘッドセット２０Ａは、会話の音声を示す音声データを、通信部２４を介して管理サーバ１０へ送信する（ステップＳ８）。管理サーバ１０は、通信部１２により音声データを受信（取得）すると、翻訳装置３０に翻訳処理を実行させる翻訳制御を行う（ステップＳ９）。具体的には、管理サーバ１０は、グループＤＢ１３に基づいて、ユーザＡと同じ会話グループに属する他のユーザ（ここではユーザＢ）の言語情報を特定する。ユーザＢの言語情報は、図３に示すように「英語」である。このため、管理サーバ１０は、受信した音声データに基づいて、会話の音声を「日本語」から「英語」へ翻訳する翻訳処理を、翻訳装置３０に実行させる。

管理サーバ１０は、翻訳処理後の音声データを翻訳装置３０から受信（取得）すると、ユーザＡと同じ会話グループに属するユーザＢのヘッドセット２０Ｂへ、当該音声データを通信部１２を介して送信する（ステップＳ１０）。ヘッドセット２０Ｂは、通信部２４を介して取得した音声データに基づいて、音声出力する（ステップＳ１１）。更に、ヘッドセット２０Ｂは、音声データに基づいて音声出力したことを、発光部２７に発光させることにより、ユーザへ報知する（ステップＳ１２）。ヘッドセット２０Ｂは、例えば、音声出力されている期間中、又は、音声出力の開始時若しくは終了時において、発光部２７を発光させる。
ステップＳ１２の報知は、発話者であるユーザＡに対して、ユーザＢによって会話の音声が聴取されたことを通知するために行われる。ユーザＡは、自身が発話した後タイミングで、ヘッドセット２０Ｂの発光部２７の発光を知覚すれば、自身の発話内容がユーザＢに聴取されたことが分かる。反対に、発光部２７の発光がなければ、ユーザＡは発話内容が聴取されていない可能性があることが分かるので、再び同じ内容を発話する等の対処を採ることができる。
ステップＳ１２の報知において、ヘッドセット２０は、発話者側であるユーザ又は当該ユーザが属する会話グループによって発光の方法（例えば色や発光のパターン）を異ならせてもよい。これにより、ヘッドセット２０は、発話者又はどの会話グループでの会話が行われたかを他者に把握させることができる。

ユーザＢが発話した場合の会話システム１の動作は、ステップＳ７〜Ｓ１２で説明した処理と同じ流れで実行される。この動作を簡単に説明すると、ヘッドセット２０Ｂは、英語の会話の音声を示す音声データを管理サーバ１０へ送信する。ヘッドセット２０Ｂは、グループＤＢ１３に基づいて、ユーザＡの会話の音声を日本語に翻訳する翻訳処理を、翻訳装置３０に実行させる。そして、管理サーバ１０は、翻訳処理後の音声データをヘッドセット２０Ａへ送信する。ヘッドセット２０Ａは、翻訳処理後の音声データに基づいて音声出力するとともに、発光部２７に発光させる。

会話グループを形成した後も、会話システム１においては、会話グループ内における会話の継続の有無を、文脈類似度に基づいて判断する。
図５（ｂ）に示すように、ユーザＣとユーザＤが同一の会話グループＧ２に属する場合において、図５（ａ）に示すように、ユーザＣが「どこか旅行に行きたいな。」を意味する発話（ここではドイツ語）をし、ユーザＤが「京都が良いと思うよ。」を意味する発話（ここでは仏語）をしたとする。この場合、ユーザＣの「旅行」というキーワードと、ユーザＤの「京都」というキーワードとの共起頻度が高く、文脈類似度は高くなるはずである。この場合、管理サーバ１０は、ユーザＣ，Ｄの会話が継続しているものとして、会話グループＧ２を維持する。ここにおいて、管理サーバ１０は、翻訳装置３０により同じ言語に翻訳してから文脈類似度を算出してもよいし、翻訳せずに文脈類似度を算出してもよい。
他方、管理サーバ１０は、ユーザＣ，Ｄの発話内容に基づいて算出した文脈類似度が閾値以下になった場合に、会話が終了したものとして、会話グループＧ２を解除してもよい。例えば、管理サーバ１０は、設定時間継続して文脈類似度が閾値以上にならなかった場合には、会話グループＧ２を解除する。

＜Ｂ：会話グループの更新／ユーザの追加＞
会話システム１では、会話グループを形成した後、この会話グループに新たなユーザを追加する機能を有する。例えば、図５で説明した会話グループＧ１が形成された後、ユーザＥがこの会話に途中から参加する場合がある。以下、会話システム１において、会話グループＧ１に、ユーザＥを追加するときの動作を説明する。

図６は、会話システム１の会話グループにユーザを追加する処理を示すシーケンス図である。図６の処理ステップのうち、図５と同じ処理ステップについては同じ符号を付して表す。図７は、会話グループにユーザを追加する処理の具体例を説明する図である。
会話グループＧ１，Ｇ２が形成された後も、ヘッドセット２０Ａ〜２０Ｅの各々は、ステップＳ１〜Ｓ３の処理を実行する。そして、管理サーバ１０は、ステップＳ３の処理で送信された音声データ及び位置情報を通信部１２を介して取得すると、ステップＳ４〜Ｓ６の処理を行う。ここで、ユーザＥが発したキーワードが、会話グループＧ１に属するユーザＡ又はユーザＢの発したキーワードとの文脈類似度が閾値以上であり、且つ、ユーザＥとユーザＡ又はユーザＢとの間の距離が所定距離以下である場合、管理サーバ１０は、会話グループＧ１にユーザＥを追加するようにグループＤＢ１３を更新する。この更新により、図７（ａ）に示すように、会話グループＧ１がユーザＡ，Ｂ，Ｅの３者で構成される。即ち、グループＤＢ１３においては、図７（ｂ）に示すように、ユーザＥのユーザＩＤ「ＵＩＤ−Ｅ」に対応付けて、グループ情報として「Ｇ１」が格納される。

会話グループを形成した後の会話システム１の動作は、大略、＜Ａ：会話グループの形成＞の項で説明したとおりである。ただし、ヘッドセット２０ＡにユーザＡの会話の音声が入力された場合、管理サーバ１０は、翻訳処理により生成された翻訳処理後の音声データをヘッドセット２０Ａへ送信する一方で（ステップＳ１０ａ）、ユーザＥのヘッドセット２０Ｅにも音声データを送信する（ステップＳ１０ｂ）。図７（ｂ）に示すように、ユーザＥの言語情報は、ユーザＡと同じく日本語である。このため、管理サーバ１０は、翻訳装置３０に翻訳処理を行わせることなく、ヘッドセット２０Ａから受信した音声データを、ヘッドセット２０Ｅへ送信する。そして、ヘッドセット２０Ｂ，２０Ｅの各々は、取得した音声データに基づいて音声出力するとともに、発光部２７に発光させる（ステップＳ１１，Ｓ１２）。
なお、会話グループＧ１におけるユーザＢ又はユーザＥが発話したときの会話システム１の動作は、以上の説明から容易に類推できるので、説明を省略する。

会話グループにユーザを追加するときの条件は、当該ユーザと、当該会話グループに属するいずれか一のユーザとの文脈類似度の条件を満たすこと以外であってもよい。会話グループにユーザを追加するときの条件は、当該ユーザと、当該会話グループに属する全てのユーザとについて、文脈類似度が閾値以上となるという条件であってもよい。同様に、会話グループにユーザを追加するときの条件は、当該ユーザと、当該会話グループに属する全てのユーザとについて、ユーザ間の距離が所定距離以下になることであってもよい。

＜Ｃ：会話グループからのユーザの除外／移動状態＞
会話システム１では、会話グループを形成した後、当該会話グループから一部のユーザを除外する機能を有する。複数ユーザからなる会話グループにおいて、一部のユーザが立ち去る等した場合に、会話システム１では当該ユーザを会話グループから除外する。
なお、２人のユーザからなる会話グループからユーザが除外された場合、当該会話グループが解除（消滅）されることとなる。

図８は、会話システム１のユーザの移動状態に基づいて会話グループからユーザを除外するときの処理を示すシーケンス図である。以下、ユーザＡとユーザＢからなる会話グループＧ１から、ユーザＡ又はユーザＢを除外するときの動作を説明する。
会話グループに属するヘッドセット２０Ａ，２０Ｂの各々は、センサ部２５により検知された加速度に基づいて、ユーザの移動状態を検知する（ステップＳ１１）。ユーザの移動状態は、前述のとおり、ユーザの移動の有無と、移動する場合の移動方向や移動速度を含む。次に、ヘッドセット２０Ａ，２０Ｂの各々は、検知したユーザの移動状態を示す状態データを、通信部２４を介して管理サーバ１０へ送信する（ステップＳ１２）。
ヘッドセット２０Ａ，２０Ｂの各々は、ただし、ステップＳ１１，Ｓ１２の処理を、例えば所定間隔で（例えば５秒毎に）繰り返し実行する。ただし、ヘッドセット２０Ａ，２０Ｂの各々で、ステップＳ１１，Ｓ１２の処理の実行タイミングが一致（同期）している必要はない。
管理サーバ１０は、状態データが受信されると、受信された状態データを取得して、グループＤＢ１３を更新する（ステップＳ１３）。

次に、管理サーバ１０は、グループＤＢ１３の更新後の状態データに基づいて、ユーザの移動状態が会話グループからの除外条件を満たすかどうかを判断する（ステップＳ１４）。除外条件は、複数のユーザで行われている会話に参加しなくなったことを示すユーザの移動状態を示す。除外条件は、例えば、ユーザの移動の有無と、移動する場合の移動方向及び移動速度で特定される移動状態が、一のユーザと、同じ会話グループの他のユーザとで異なることを示す。管理サーバ１０は、例えば、移動の有無、移動方向又は移動速度のうちの１つ以上が異なる場合に、除外条件を満たすと判断する。管理サーバ１０は、ユーザの移動状態が除外条件を満たすと判断した場合（ステップＳ１４；ＹＥＳ）、当該ユーザを会話グループから除外する（ステップＳ１５）。会話グループＧ１に属するユーザＡとユーザＢの移動状態が異なる場合、管理サーバ１０は、ユーザＡ及びユーザＢの各々を、会話グループＧ１から除外する。

図９に示すように、同じ会話グループに属するユーザＡとユーザＢが歩きながら会話している場合、両者は移動しているものの、会話が行われていると推測される。この場合、管理サーバ１０は、ステップＳ１４の処理で「ＮＯ」と判断し、会話グループＧ１を維持する。

以上説明した会話システム１によれば、ヘッドセット２０を使用するユーザ同士が発話した内容が文脈類似の関係にある場合に、会話グループが形成されるので、会話の相手の情報を入力する手間がユーザに強いられない。また、通りすがりのユーザ同士が会話する場合であっても、ユーザが都度、会話の相手の情報を入力する必要がない。
また、会話システム１では、ユーザ同士が発話した内容が文脈類似の関係にあるかどうかに応じて、会話グループの形成や更新、維持又は解除するので、会話の相手を指定する明示的な動作をユーザが意識して行わなくとも、会話のグループの柔軟な管理を実現することができる。

本発明は、上述した実施形態と異なる形態で実施することが可能である。本発明は、例えば、以下のような形態で実施することも可能である。また、以下に示す変形例は、各々を適宜に組み合わせてもよい。
（変形例１）
会話システム１では、ヘッドセット２０の入力音声のレベル（例えば声の大きさ）に基づいて、会話グループの管理を行ってもよい。入力音声のレベルは、ここでは音量レベルであるが、所定の周波数帯域（例えば可聴域）の音圧レベルであってもよく、入力音声のレベルの大小の指標となるものであればよい。

図１０は、会話システム１のキーワードに基づいて会話グループを形成する処理を示すシーケンス図である。図１１は、キーワードに基づいて、ユーザＡ，Ｂ，Ｃが会話グループを形成する処理の具体例を説明する図である。以下、ユーザＡ，Ｂ，Ｃが使用するヘッドセット２０Ａ，２０Ｂ，２０Ｃの動作を例に挙げて説明する。ここでは、図１１（ａ）に示すように、ユーザＡから見て、ユーザＢの方がより近い位置に居て、ユーザＣの方がより遠い位置に居るものとする。

ここで、ヘッドセット２０Ａにおいて、音声入力部２２にユーザによるキーワードが入力されると（ステップＳ１）、入力されたキーワードを認識する（ステップＳ２１）。ヘッドセット２０Ａは、キーワードを認識すると、このキーワードを示す入力音声のレベルを検知する（ステップＳ２２）。そして、ヘッドセット２０Ａは、検出したレベルを示すレベル情報を、キーワードを認識したことを通知する通知信号とともに、管理サーバ１０へ送信する（ステップＳ２３）。

管理サーバ１０は、通知信号及びレベル情報が受信されると、レベル情報が示す入力音声のレベルに基づいて、会話の相手を決定する（ステップＳ２４）。ここで、管理サーバ１０は、入力音声のレベルが低いほどユーザから見て近い位置のユーザを会話の相手に決定し、入力音声のレベルが高いほどユーザから見て遠い位置のユーザを会話の相手に決定する。例えば、管理サーバ１０は、入力音声のレベルが閾値未満である場合、図１１（ｂ−１）に示すように、ユーザＢを会話の相手に決定し、ユーザＡとユーザＢを同じ会話グループに分類する。他方、管理サーバ１０は、入力音声のレベルが閾値以上である場合、図１１（ｂ−２）に示すように、ユーザＣを会話の相手に決定し、ユーザＡとユーザＣを同じ会話グループに分類する。一般に、人物が他人に声を掛けるとき、近くに居る人物に対してはさほど大きくない声で話し、遠くに居る人物に対しては大きな声で話す。会話システム１では、このような人物の習慣に基づいて会話グループを形成するので、仮に多数のユーザが存在する場所であっても、ユーザの意図した相手と会話グループを形成しやすくなる。
なお、ヘッドセット２０が入力音声のレベルを検知するのではなく、管理サーバ１０が、ヘッドセット２０から取得した音声データに基づいて、入力音声のレベルを検知してもよい。

（変形例２）
上述した変形例１に係る構成を変形し、管理サーバ１０は、ユーザＡとユーザＢとからなる会話グループと、ユーザＡとユーザＣとからなる会話グループとの両方を形成してもよい。そして、管理サーバ１０は、各会話グループを形成した後に、音声入力部２２にユーザＡの入力音声のレベルに基づいて、どちらの会話グループのユーザに会話の音声を聴取させるかを決定する。このとき、管理サーバ１０は、入力音声のレベルが低いほどユーザから見て近い位置のユーザが属する会話グループを選択し、入力音声のレベルが高いほどユーザから見て遠い位置のユーザが属する会話グループを選択する。例えば、管理サーバ１０は、入力音声のレベルが閾値未満である場合、ユーザＢの居る会話グループの会話を実現させ、入力音声のレベルが閾値以上である場合、ユーザＣの居る会話グループの会話を実現させる。ユーザは近い場所に居るユーザに対しては小さな声で話し、遠くに居るユーザに対しては大きな声で話すことが一般的である。よって、ユーザに会話グループを選択させることなく、管理サーバ１０は、どの会話グループで会話させるかを決定することができる。

（変形例３）
上述した実施形態では、ヘッドセット２０が管理サーバ１０に音声データを送信し、管理サーバ１０が受信した音声データに基づいて音声認識を行っていた。これに代えて、図１２に示すように、ヘッドセット２０が、入力音声を示す音声データに基づいて音声認識を行う（ステップＳ４Ａ）。そして、ヘッドセット２０は、音声認識により得られたキーワードを、位置情報とともに管理サーバ１０へ送信してもよい（ステップＳ３Ａ）。この場合、管理サーバ１０は、受信したキーワードに基づいて文脈類似度を算出し（ステップＳ５）、以降の処理ステップを実行する。即ち、この変形例では、認識手段１１４に相当する機能を、管理サーバ１０ではなく、ヘッドセット２０が実現する。また、制御部１１は、音声データ送信手段２１１に代えてキーワードを送信する手段を実現し、制御部２１は、キーワードを取得する手段を実現する。

（変形例４）
会話システム１では、第１のユーザの発話内容に対して第２のユーザが応答したタイミングに応じて、第１のユーザ及び第２のユーザを同一のグループに分類するかどうかを管理してもよい。以下、ユーザＡ，Ｂを例に挙げて、本変形例の具体例を説明する。
会話グループを形成する場合、ユーザＡが例えば挨拶の言葉を発した後、その直後の所定時間（例えば５秒間）以下にユーザＢが応答する可能性が高い。そこで、管理サーバ１０は、ユーザＡとユーザＢが発したキーワードの文脈類似度が閾値以上の場合で、且つ、発話から応答までの時間が設定時間未満である場合に、ユーザＡとユーザＢを同一の会話グループに分類してもよい。即ち、管理サーバ１０は、ユーザＡとユーザＢが発したキーワードの文脈類似度が閾値以上の場合であっても、発話から応答までの時間が設定時間以上のときには、ユーザＡとユーザＢを同一の会話グループに分類しない。
この会話システム１により、各ユーザの会話の流れからより精度良く会話グループを形成することができる。

（変形例５）
上記変形例４を変形し、会話システム１では、第１のユーザと第２のユーザを同一の会話グループに分類した後、第１のユーザの発話内容に対して第２のユーザが応答したタイミングに応じて、この会話グループから第１のユーザ又は第２のユーザを除外するかどうかを管理してもよい。以下、ユーザＡ，Ｂを例に挙げて、本変形例の具体例を説明する。
会話グループが形成された後であっても、ユーザＡが何らかの言葉を発した後、その直後の所定時間（例えば５秒間）以下にユーザＢが応答する可能性が高い。そこで、管理サーバ１０は、ユーザＡとユーザＢが発したキーワードの文脈類似度が閾値以上の場合で、且つ、発話から応答までの時間が設定時間未満である場合に、ユーザＡとユーザＢを同一の会話グループに分類したままとする。他方、管理サーバ１０は、ユーザＡとユーザＢが発したキーワードの文脈類似度が閾値以上の場合であっても、発話から応答までの時間が設定時間以上のときには、ユーザＡ又はユーザＢを会話グループから除外してもよい。管理サーバ１０は、例えば、発話から応答までの時間が設定時間以上となった回数が閾値以上、又は頻度が閾値以上になった場合に、ユーザＡ又はユーザＢを会話グループから除外してもよい。
この会話システム１により、各ユーザの会話の流れからより精度良く、会話グループの維持又は解除を制御することができる。

（変形例６）
会話グループの形成（更新）の方法は、上述した実施形態で説明した例に限られない。会話システム１において、管理サーバ１０（グループ管理手段１１８）は、ヘッドセット２０のユーザの顔が向く方向を示す方向データを取得し、取得した方向データに基づいて、顔が互いに向き合った２以上のユーザを、同一の会話グループに分類してもよい。２人のユーザの顔が互いに向き合った場合とは、これら２人のユーザの顔の向きが正反対を向く。即ち、これら２人のユーザの方向データが示す顔の方向をベクトル化した場合、両ベクトルの成す角は１８０度である。ただし、方向データが示す方向が正反対でなくても、正反対に近ければ、２人のユーザの顔が互いに向き合ったとみなされる。このとき、両ベクトルの成す角は１８０±α（αは定数）度の範囲内に収まる。３人以上のユーザの顔が互いに向き合った場合とは、各ユーザの顔が、他の少なくとも１人のユーザの顔と向き合ったことをいう。
この場合、ヘッドセット２０は、センサ部２５にユーザの顔が向く方向を検知するためのセンサを有し、このセンサにより検知された方向を示す方向データを、管理サーバ１０へ送信する。かかるセンサとしては、３軸加速度、３軸角速度及び３軸地磁気の９軸モーションセンサや、ジャイロセンサ（角速度センサ）、地磁気センサ等を用いることができる。
なお、ここでは、２以上のユーザの顔が同時に向き合う場合を想定するが、同時に限られず、或る程度の時間差があってもよい。

（変形例７）
会話システム１において、ユーザ属性が所定の関係を満たすユーザ同士を、同一の会話グループに分類してもよい。ユーザ属性は、例えば、言語情報、年齢、性別、出身地、職業及び趣味等のユーザの属性であるが、他の属性であってもよい。ユーザ属性については、予めグループＤＢ１３に情報を格納しておき、管理サーバ１０はこれに従えばよい。

（変形例８）
上述した実施形態で説明した構成又は動作の一部が省略されてもよい。
例えば、会話システム１において、＜Ｂ：会話グループの更新／ユーザの追加＞及び＜Ｃ：会話グループからのユーザの除外／移動状態＞１つ以上が省略されてもよい。
会話システム１において、発光部２７の発光以外の方法（例えば、音声出力）でユーザへの報知が行われてもよいし、ユーザへの報知が省略されてもよい。
会話システム１において、測位部２６の測位結果に基づいて会話グループを形成する構成が省略されてもよい。この場合に、管理サーバ１０は、ユーザ同士の位置関係やユーザ間の距離に関係なく、文脈類似度に基づいて会話グループを管理してもよい。
会話システム１において、各ユーザの使用する言語が同じである場合には、翻訳処理に係る構成（例えば翻訳装置３０や翻訳制御手段１１２）が省略されてもよい。また、会話システム１において、翻訳装置３０ではなく、通訳者によって翻訳が行われてもよい。
会話システム１において、ヘッドセット２０は、ユーザの移動状態を検知する機能、又は、ユーザの位置を測定する機能を有しなくてもよい。この場合、無線通信端末Ｐがユーザの移動状態を検知する機能、又は、ユーザの位置を測定する機能を有していれば、管理サーバ１０は、上述した実施形態と同じ方法で会話グループを管理することができる。

（変形例９）
上述した実施形態の会話システム１では、複数の無線アクセスポイントから受信した電波の強度及び到達時間に基づいて三点測量を行うことにより、ユーザの位置を測定していたが、適用可能な屋内測位技術はこの例に限られない。会話システム１では、例えば、出発点の位置を確定後、加速度センサやジャイロセンサ等を組み合わせて現在位置を測定する自律航法を採用してもよいし、Ｂｌｕｅｔｏｏｔｈ発信機からの電波を受信して、受信した電波に含まれる発信機の識別情報及び受信した電波の強度に基づいて、現在位置を測定してもよい。また、測位部２６は、超音波等の音波や可視光又は赤外光等の光を用いて測位してもよい。
会話システム１において、ユーザが他のユーザと対面したときに操作部２８を操作した場合に、会話グループを形成する処理が行われてもよい。これにより、より高い精度でユーザの意図する相手と会話グループを形成しやすくなる。

（変形例１０）
会話システム１において、複数のヘッドセット２０の各々を使用するユーザの頭部の動き（動作）に基づいて、会話する２以上のユーザを特定してもよい。ユーザの頭部の動きについては、例えば、センサ部２５が備える加速度センサの検知結果に基づいて制御部２１が特定する。そして、制御部２１は、ユーザの発話内容を示す音声データを送信する際には、この音声データとともに、発話したタイミング（例えば、発話前又は／及び発話後）でのユーザの頭部の動きの検知結果を、管理サーバ１０へ送信する。管理サーバ１０の制御部１１は、上述した実施形態で説明した文脈の類似度合いの評価の結果に加えて、ユーザの頭部の動きの検知結果に基づいて、各ユーザが属する会話グループの管理を行う。例えば、発話側のユーザは、発話した直後に会話の相手の方向を見るために、頭部を動かすことがある。他方、聞き手側のユーザは、相手方の発話中（即ち、自身の発話前）に、発話内容への同意や相槌によるうなずき等の、相手方の発話内容への応答を示す動作をすることがある。そこで、制御部１１は、文脈の類似度合いに加えて、発話前又は／及び発話後の動きが所定の条件を満たす２以上のユーザを、同一のグループに分類する。この変形例によれば、実際に会話している２以上のユーザを、より高い精度で同じ会話グループに分類しやすくなる。

（変形例１１）
ヘッドセット２０は、ユーザの頭又は耳に装着して使用される通信機器であったが、本発明の通信機器は、他の形態の通信端末で実現されてもよい。本発明の通信機器は、頭部又は顔に装着されるヘッドマウントディスプレイで例示される眼鏡型の各種のウェアラブルコンピュータ）であってもよいし、本発明の通信機器は、ユーザが手に持って使用するスマートフォンやタブレット端末、フィーチャーフォン、ハンドセット等により実現されてもよい。

また、通信機器が情報を表示する機能を有する場合、当該通信機器は、会話グループに属するユーザの情報を表示してもよい。このユーザの情報は、例えば同じ会話グループに属するユーザの言語情報であるが、氏名等の情報を含んでもよい。報知手段２１３による報知も、情報の表示によって行われてもよい。更に、報知手段２１３は、会話グループの人数や、会話グループを構成するユーザが変化したことを報知してもよい。また、報知手段２１３は、音声出力部２３を介した音声出力により、ユーザに情報を報知してもよい。
ヘッドセット２０は、自機の機能によりネットワーク１００に接続（無線接続）可能である場合には、無線通信端末Ｐを介さずに、ネットワーク１００に接続してもよい。

また、管理サーバ１０は、ヘッドセット２０のユーザ同士の位置関係に応じて音声データを加工してから、ヘッドセット２０へ送信してもよい。管理サーバ１０は、例えば、ユーザ間の距離が大きいほど出力音声のレベル（音量レベル）を低くし、ユーザ間の距離が小さいほど出力音声のレベルを高くする。また、ヘッドセット２０がユーザの左右の耳にステレオ音声を出力可能な場合、当該ユーザから見た会話の相手の居る方向に基づいて、ステレオ音声の出力を制御してもよい。この場合、右に居るユーザからは右耳から音声が聞こえるというようなサラウンド効果を、管理サーバ１０が与えるとよい。
また、無線通信端末Ｐは、ヘッドセット２０から受信した音声データに基づいて音声認識を行うことにより、当該音声データを文字コードに変換してから送信してもよい。この場合、翻訳装置３０は、無線通信端末Ｐから受信した文字コードに基づいて翻訳処理を行う。

（変形例１２）
上述した実施形態で管理サーバ１０が実現していた会話システムの管理装置としての機能を、ユーザが使用するヘッドセット２０又は無線通信端末Ｐが実現してもよい。この場合に、ヘッドセット２０又は無線通信端末Ｐが、翻訳処理を実行する機能を有してもよい。この場合、会話システム１において、管理サーバ１０が不要である。例えば、マスタとなるヘッドセット２０は自機のユーザの入力音声を示す音声データと、他のヘッドセットのユーザの入力音声を示す音声データとを取得し、文脈類似度に基づいて会話グループを形成する。ヘッドセット２０又は無線通信端末Ｐの各々が、マスタ又はスレーブのいずれとなるかについては、ユーザにより設定されてもよいし、自動で設定されてもよい。

（変形例１３）
上述した実施形態において、管理サーバ１０の制御部１１やヘッドセット２０の制御部２１が実現する各機能は、複数のプログラムの組み合わせによって実現され、又は、複数のハードウェア資源の連係によって実現されうる。制御部１１，２１の機能がプログラムを用いて実現される場合、このプログラムは、磁気記録媒体（磁気テープ、磁気ディスク（ＨＤＤ（Hard Disk Drive）、ＦＤ（Flexible Disk））等）、光記録媒体（光ディスク等）、光磁気記録媒体、半導体メモリ等のコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよいし、ネットワークを介して配信されてもよい。また、本発明は、クラウドコンピューティングを用いて実現されてもよい。また、本発明は、会話システムの管理方法として把握することも可能である。

１…会話システム、１０…管理サーバ、１１…制御部、１１１…音声データ取得手段、１１２…翻訳制御手段、１１３…音声データ送信手段、１１４…認識手段、１１５…評価手段、１１６…特定手段、１１７…状態データ取得手段、１１８…グループ管理手段、１２…通信部、１３…グループＤＢ、２０，２０Ａ〜２０Ｅ…ヘッドセット、２１…制御部、２１１…音声デ―タ送信手段、２１２…音声データ取得手段、２１３…報知手段、２１４…状態データ送信手段、２１５…位置情報送信手段、２２…音声入力部、２３…音声出力部、２４…通信部、２５…センサ部、２６…測位部、２７…発光部、２８…操作部、３０…翻訳装置、１００…ネットワーク

Claims

音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する第１のユーザ及び第２のユーザを含む複数のユーザを、グループ分けし、
同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話システムの管理装置であって、
前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得する取得手段と、
取得された前記音声データ又は前記キーワードに基づいて、前記第１のユーザの入力音声から認識された前記キーワードと、前記第２のユーザの入力音声から認識された前記キーワードの共起頻度に基づく値である文脈類似度を算出する評価手段と、
前記算出された文脈類似度が閾値以上である場合に、前記第１のユーザ及び前記第２のユーザを、前記同一のグループに分類するグループ管理手段と
を備える管理装置。
前記評価手段は、
前記第１のユーザの発話内容と、当該発話内容に対する前記第２のユーザの応答を特定し、前記文脈類似度を算出する
ことを特徴とする請求項１に記載の管理装置。
前記グループ管理手段は、
前記第１のユーザの発話内容に対して前記第２のユーザが応答したタイミングに応じて、前記第１のユーザ及び前記第２のユーザを、前記同一のグループに分類するかどうかを管理する
ことを特徴とする請求項２に記載の管理装置。
前記グループ管理手段は、
前記第１のユーザ及び前記第２のユーザを前記同一のグループに分類した後、前記第１のユーザの発話内容に対して前記第２のユーザが応答したタイミングに応じて、当該グループから前記第１のユーザ又は前記第２のユーザを除外する
ことを特徴とする請求項２又は請求項３に記載の管理装置。
前記複数のユーザの位置又はユーザ間の距離を特定する特定手段を備え、
前記グループ管理手段は、
前記第１のユーザ及び前記第２のユーザについて特定された前記位置又は前記距離が所定条件を満たした場合に、当該第１のユーザ及び当該第２のユーザを、前記同一のグループに分類する
ことを特徴とする請求項１から請求項４のいずれか１項に記載の管理装置。
前記グループ管理手段は、
前記特定された前記位置又は前記距離と、前記第１のユーザの入力音声のレベルとに基づいて、前記第１のユーザ及び前記第２のユーザを、前記同一のグループに分類するかどうかを管理する
ことを特徴とする請求項５に記載の管理装置。
前記第１のユーザ及び前記第２のユーザの移動状態を示す状態データを取得する状態データ取得手段を備え、
前記グループ管理手段は、
前記第１のユーザ及び前記第２のユーザを前記同一のグループに分類した後、取得された前記状態データに応じて、当該グループから前記第１のユーザ又は前記第２のユーザを除外する
ことを特徴とする請求項１から請求項６のいずれか１項に記載の管理装置。
第１のユーザ及び第２のユーザを含む複数のユーザの各々に使用され、音声データを送受信して音声の入出力を行う複数の通信機器と、
前記複数のユーザをグループ分けし、同一のグループに属する前記ユーザ間で前記音声の入出力による会話を実現させる管理サーバと
を備える会話システムであって、
前記複数の通信機器の各々は、
自機を使用する前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを、前記管理サーバへ送信する送信手段
を有し、
前記管理サーバは、
前記送信手段により送信された前記音声データ、又は、前記キーワードを取得する取得手段と、
取得された前記音声データ又は前記キーワードに基づいて、前記第１のユーザの入力音声から認識された前記キーワードと、前記第２のユーザの入力音声から認識された前記キーワードの共起頻度に基づく値である文脈類似度を算出する評価手段と、
前記算出された文脈類似度が閾値以上である場合に、前記第１のユーザ及び前記第２のユーザを、前記同一のグループに分類するグループ管理手段と
を有する会話システム。
音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する第１のユーザ及び第２のユーザを含む複数のユーザを、グループ分けし、
同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話管理方法であって、
前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得手段が取得するステップと、
取得した前記音声データ又は前記キーワードに基づいて、前記第１のユーザの入力音声から認識された前記キーワードと、前記第２のユーザの入力音声から認識された前記キーワードの共起頻度に基づく値である文脈類似度を評価手段が算出するステップと、
前記算出された文脈類似度が閾値以上である場合に、前記第１のユーザ及び前記第２のユーザを、前記同一のグループにグループ管理手段が分類するステップと
を備える会話管理方法。
音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する複数のユーザを、グループ分けし、
同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話システムを管理するコンピュータに、
前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得するステップと、
取得した前記音声データ又は前記キーワードに基づいて、第１のユーザの入力音声から認識された前記キーワードと、第２のユーザの入力音声から認識された前記キーワードの共起頻度に基づく値である文脈類似度を算出するステップと、
前記算出された文脈類似度が閾値以上である場合に、前記第１のユーザ及び前記第２のユーザを、前記同一のグループに分類するステップと
を実行させるためのプログラム。