JP6385150B2 - 管理装置、会話システム、会話管理方法及びプログラム - Google Patents

管理装置、会話システム、会話管理方法及びプログラム Download PDF

Info

Publication number
JP6385150B2
JP6385150B2 JP2014122332A JP2014122332A JP6385150B2 JP 6385150 B2 JP6385150 B2 JP 6385150B2 JP 2014122332 A JP2014122332 A JP 2014122332A JP 2014122332 A JP2014122332 A JP 2014122332A JP 6385150 B2 JP6385150 B2 JP 6385150B2
Authority
JP
Japan
Prior art keywords
user
conversation
voice
group
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014122332A
Other languages
English (en)
Other versions
JP2016004066A (ja
Inventor
秀行 窪田
秀行 窪田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2014122332A priority Critical patent/JP6385150B2/ja
Publication of JP2016004066A publication Critical patent/JP2016004066A/ja
Application granted granted Critical
Publication of JP6385150B2 publication Critical patent/JP6385150B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ヘッドセット等の音声の入出力を行う通信機器を介して複数のユーザが会話するための技術に関する。
複数の人物が集まる会合や講演会等のイベントの会場では、ヘッドセット等の音声の入出力を行う通信機器を介して、イベントの参加者同士が会話する会話システムが使用されることがある。この種の会話システムでは、各参加者が使用する言語が異なっていても会話が不自由とならないように、通訳者(翻訳者)又は翻訳エンジンによって参加者の発話内容が翻訳されることがある(例えば、特許文献1,2)。同一の仮想空間に居る者同士が会話するシステムとして、特許文献3は、多地点音声通信システム(チャットシステム)において、一の音声コミュニケーション端末のユーザが、他の音声コミュニケーション端末のユーザに話し掛けたことを条件に、会話グループを構成することを開示している。
特開2012−170059号公報 特開2005−197595号公報 特開2012−108587号公報
特許文献1に記載された技術では、自分自身或いは所属するグループを特定する情報を、ヘッドセットのユーザが予め入力しておく必要がある。特許文献2に記載された技術では、予め定められた通信端末を介して、通信端末のユーザ同士が会話する。即ち、特許文献1,2に記載された技術では、各ユーザの発話内容は、事前に設定された会話の相手にのみ聴取される。このため、特許文献1,2に記載された技術では、例えば、通りすがりに出会ったユーザ同士が会話する場合にも、会話の相手の設定をユーザが都度行わなければならない。
特許文献3に記載された技術では、ユーザが、会話の相手の名称や所定のキーワードを発話することによって、会話の相手が特定される。よって、特許文献3に記載された技術では、会話の相手を指定する明示的な動作を、ユーザが意識して行わなければならない。
これに対し、本発明の目的は、ユーザが行った会話に基づいて会話のグループを管理することである。
上述した課題を解決するため、本発明の管理装置は、音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する第1のユーザ及び第2のユーザを含む複数のユーザを、グループ分けし、同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話システムの管理装置であって、前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得する取得手段と、取得された前記音声データ又は前記キーワードに基づいて、前記第1のユーザの入力音声から認識された前記キーワードと、前記第2のユーザの入力音声から認識された前記キーワードとの文脈の類似度合いを評価する評価手段と、前記文脈が類似すると評価された場合に、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するグループ管理手段と備える。
本発明の管理装置において、前記評価手段は、前記第1のユーザの発話内容と、当該発話内容に対する前記第2のユーザの応答を特定し、前記文脈の類似度合いを評価してもよい。
この管理装置において、前記グループ管理手段は、前記第1のユーザの発話内容に対して前記第2のユーザが応答したタイミングに応じて、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するかどうかを管理してもよい。
更に、前記グループ管理手段は、前記第1のユーザ及び前記第2のユーザを前記同一のグループに分類した後、前記第1のユーザの発話内容に対して前記第2のユーザが応答したタイミングに応じて、当該グループから前記第1のユーザ又は前記第2のユーザを除外してもよい。
本発明の管理装置において、前記複数のユーザの位置又はユーザ間の距離を特定する特定手段を備え、前記グループ管理手段は、前記第1のユーザ及び前記第2のユーザについて特定された前記位置又は前記距離が所定条件を満たした場合に、当該第1のユーザ及び当該第2のユーザを、前記同一のグループに分類してもよい。
本発明の管理装置において、前記グループ管理手段は、前記特定された前記位置又は前記距離と、前記第1のユーザの入力音声のレベルとに基づいて、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するかどうかを管理してもよい。
本発明の管理装置において前記第1のユーザ及び前記第2のユーザの移動状態を示す状態データを取得する状態データ取得手段を備え、前記グループ管理手段は、前記第1のユーザ及び前記第2のユーザを前記同一のグループに分類した後、取得された前記状態データに応じて、当該グループから前記第1のユーザ又は前記第2のユーザを除外してもよい。
本発明の会話システムは、第1のユーザ及び第2のユーザを含む複数のユーザの各々に使用され、音声データを送受信して音声の入出力を行う複数の通信機器と、前記複数のユーザをグループ分けし、同一のグループに属する前記ユーザ間で前記音声の入出力による会話を実現させる管理サーバとを備える会話システムであって、前記複数の通信機器の各々は、自機を使用する前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを、前記管理サーバへ送信する送信手段を有し、前記管理サーバは、前記送信手段により送信された前記音声データ、又は、前記キーワードを取得する取得手段と、取得された前記音声データ又は前記キーワードに基づいて、前記第1のユーザの入力音声から認識された前記キーワードと、前記第2のユーザの入力音声から認識された前記キーワードとの文脈の類似度合いを評価する評価手段と、前記文脈が類似すると評価された場合に、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するグループ管理手段とを有する。
本発明の会話管理方法は、音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する第1のユーザ及び第2のユーザを含む複数のユーザを、グループ分けし、同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話システムの管理方法であって、前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得するステップと、取得した前記音声データ又は前記キーワードに基づいて、前記第1のユーザの入力音声から認識された前記キーワードと、前記第2のユーザの入力音声から認識された前記キーワードとの文脈の類似度合いを評価するステップと、前記文脈が類似すると評価した場合に、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するステップとを備える。
本発明のプログラムは、音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する複数のユーザを、グループ分けし、同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話システムを管理するコンピュータに、前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得するステップと、取得した前記音声データ又は前記キーワードに基づいて、前記第1のユーザの入力音声から認識された前記キーワードと、前記第2のユーザの入力音声から認識された前記キーワードとの文脈の類似度合いを評価するステップと、前記文脈が類似すると評価した場合に、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するステップとを実行させるためのプログラムである。
本発明によれば、ユーザが行った会話に基づいて会話のグループを管理することができる。
本発明の一実施形態に係る会話システムの全体構成を示す図。 同実施形態に係る会話システムの構成を示すブロック図。 同実施形態に係るグループDBに格納される情報の説明図。 同会話システムの会話グループを形成する処理を示すシーケンス図。 同実施形態に係る会話グループの具体例の説明図。 同会話システムの会話グループにユーザを追加する処理を示すシーケンス図。 同会話グループにユーザを追加する処理の具体例の説明図。 同会話システムのユーザの移動状態に基づく会話グループを管理する処理のシーケンス図。 同会話システムのユーザの移動状態に基づく会話グループの管理の説明図。 本発明の変形例1に係る会話システムの会話グループを形成する処理を示すシーケンス図。 同会話システムの会話グループを形成する処理の具体例の説明図。 本発明の変形例3に係る会話システムの会話グループを形成する処理を示すシーケンス図。
以下、図面を参照して本発明の一実施形態を説明する。
図1は、本実施形態に係る会話システムの全体構成を示す図である。会話システム1は、管理サーバ10と、複数のヘッドセット20(20A,20B,20C,20D,20E)と、翻訳装置30とを備える。ヘッドセット20A,20B,20C,20D,20Eの各々を使用するユーザを、順にユーザA,B,C,D,Eと表す。管理サーバ10及び複数のヘッドセット20の各々は、ネットワーク100に接続する。ヘッドセット20は、ネットワーク100へのゲートウェイとなる無線通信端末P(例えばスマートフォン又はタブレット端末)を介して、ネットワーク100に接続する。図1には、ユーザAが使用(携帯)する無線通信端末Pのみが示されているが、ユーザB,C,D,Eの各ユーザも、ユーザAと同様に、無線通信端末Pを使用(携帯)する。ネットワーク100は、例えば、移動体通信網、ゲートウェイ装置及びインターネットを含む公衆通信回線である。
なお、会話システム1に含まれるヘッドセット20は5台に限られず、2台以上4台以下又は6台以上であってもよい。
管理サーバ10は、複数のヘッドセット20を介して複数のユーザ間で行われる会話を実現させるサーバ装置である。管理サーバ10は、ヘッドセット20を使用する複数のユーザをグループ分けし、同一のグループ(以下「会話グループ」という。)に属するユーザ間で会話を実現させるためのデータの管理を行う管理装置として機能する。
ヘッドセット20は、ユーザの頭又は耳に装着(固定)して使用され、音声データの送受信を行って音声の入出力を行う通信機器である。ヘッドセット20は、いわゆるウェアラブルコンピュータの一種である。
翻訳装置30は、ヘッドセット20が送信した音声データに基づいて音声認識を行うことにより、当該音声データを文字コード(テキストデータ)に変換して、他言語に翻訳する翻訳処理を行う。翻訳装置30が行う翻訳処理は、公知の翻訳エンジンで行われる翻訳処理と同じでよい。
なお、翻訳装置30は、ここでは管理サーバ10とは別に設けられた装置(例えば翻訳サーバ)により実現されるが、管理サーバ10に組み込まれる形態の装置であってもよい。また、翻訳装置30は、ここでは管理サーバ10を介してヘッドセット20との間で音声データの送受信を行う。ただし、翻訳装置30は、ネットワーク100に接続する場合、管理サーバ10を介さずに、ヘッドセット20との間で音声データの送受信を行ってもよい。
図2は、会話システム1の構成を示すブロック図である。図2において実線の矢印は、信号が流れる方向を意味する。
ヘッドセット20は、ハードウェア構成として、制御部21と、音声入力部22と、音声出力部23と、通信部24と、センサ部25と、測位部26と、発光部27と、操作部28とを備える。
制御部21は、演算処理装置としてのCPU(Central Processing Unit)と、ROM(Read Only Memory)及びRAM(Random Access Memory)を含むメモリを備えたマイクロコンピュータである。CPUは、ROMに記憶された制御プログラムをRAMに読み出して実行することにより、ヘッドセット20の各部を制御する。
音声入力部22は、例えばマイクロホン及びA/D(Analog to Digital)変換回路を有し、入力された音声を示す音声データを生成する。音声入力部22は、マイクロホンに入力された音声を示すアナログ形式の音声信号を、A/D変換回路を用いてデジタル形式に変換する。
音声出力部23は、例えばスピーカ及びD/A(Digital to Analog)変換回路を有し、音声データに基づいて音声を出力する。音声出力部23は、D/A変換回路を用いてデジタル形式の音声データをアナログ形式に変換し、変換後の音声信号に基づいてスピーカから音声を出力する。
通信部24は、例えば無線通信回路及びアンテナを有し、ネットワーク100に接続して無線通信を行う通信手段である。通信部24は、無線通信端末Pと近距離無線通信を行うことにより、無線通信端末Pを介してネットワーク100に接続する。近距離無線通信は、例えばBluetooth(登録商標)に準拠した無線通信であるが、Zigbee(登録商標)等の他方式に準拠した無線通信であってもよい。
センサ部25は、ヘッドセット20の状態を検知するセンサを含む。センサ部25は、例えば2軸又は3軸の加速度センサを有する。センサ部25は、加速度センサを用いてヘッドセット20を使用するユーザの移動状態を検知する状態検知手段として機能する。ユーザの移動状態は、例えば、ユーザの移動の有無、及び、ユーザが移動する場合の移動方向並びに移動速度の状態である。
なお、センサ部25は、例えば3軸加速度、3軸角速度及び3軸地磁気の9軸モーションセンサを用いて、ユーザの移動状態を検知してもよい。
測位部26は、ヘッドセット20のユーザの位置を測定(測位)する手段である。測位部26は、公知の屋内測位技術を用いて、屋内におけるユーザの現在位置を測位する。具体的な屋内測位技術については特に問わないが、測位部26は、例えば、複数の無線アクセスポイントから受信した電波の強度及び到達時間に基づいて三点測量を行うことにより、ユーザの位置を測位する。
発光部27は、例えば発光ダイオード(LED:Light Emitting Diode)を有し、所定の光を発する手段である。発光部27は、ヘッドセット20を使用するユーザ以外の人物が発光を知覚可能な位置に設けられる。
操作部28は、例えば各種の物理キー(例えば押下ボタン)を有し、ユーザの操作を受け付ける操作手段である。
管理サーバ10は、ハードウェア構成として、制御部11と、通信部12と、グループDB(Data Base)13とを備える。
制御部11は、演算処理装置としてのCPUと、ROM及びRAMを含むメモリとを備えたマイクロコンピュータである。CPUは、ROMに記憶された制御プログラムをRAMに読み出して実行することにより、管理サーバ10の各部を制御する。通信部12は、ネットワーク100に接続するためのインタフェースである。
グループDB13は、例えばハードディスク装置等の記憶装置で実現され、会話グループの管理に関する情報が格納(蓄積)されるデータベースである。本実施形態では、管理サーバ10が、グループDB13を備えているが、外部装置としてのグループDB13にアクセスしてもよい。
図3は、グループDB13に格納される情報を説明する図である。
図3に示すように、グループDB13は、ヘッドセット20のユーザ毎に、「ユーザID」と、「端末ID」と、「言語情報」と、「状態データ」と、「位置情報」と、「グループ情報」との各情報を対応付けて格納したデータベースである。
ユーザIDは、ヘッドセット20のユーザを識別するユーザ識別子である。端末IDは、ユーザが使用するヘッドセット20を識別する端末識別子である。端末IDは、例えば電話番号又は個体識別番号であるが、ヘッドセット20へ情報を送信するために使用される通信アドレス(宛先情報)であってもよい。
なお、図3に示すユーザID及び端末IDの末尾のアルファベット「A」〜「E」は、図1で説明したヘッドセット20A〜20E、及び、ユーザA〜Eのアルファベットと対応している。例えば、ユーザID「UID−A」はユーザAのユーザIDであり、端末ID「MID−A」は、ヘッドセット20Aの端末IDである。
言語情報は、ヘッドセット20のユーザが使用する言語の情報であり、例えば、ユーザが日常的に使用する言語(例えば母国語)又はユーザが理解可能な言語である。言語情報は、例えば、ヘッドセット20又は無線通信端末Pを用いて、予めユーザによって指定されている。状態データは、ヘッドセット20のユーザの移動状態を示すデータである。位置情報は、ヘッドセット20のユーザの位置を示す。グループ情報は、ヘッドセット20のユーザが属する会話グループを示す情報である。グループDB13が図3に示す状態のとき、ユーザA〜Eの各々は、どの会話グループにも属していない。
なお、言語情報、状態データ、位置情報及びグループ情報の各々は、例えば、ユーザ毎に最新の情報がグループDB13に格納される。
図2に戻り、ヘッドセット20及び管理サーバ10の機能構成を説明する。
ヘッドセット20の制御部21は、制御プログラムを実行することにより、音声データ送信手段211と、音声データ取得手段212と、報知手段213と、状態データ送信手段214と、位置情報送信手段215とに相当する機能を実現する。
音声データ送信手段211は、音声入力部22への入力音声(例えばユーザの会話の音声)を示す音声データを、通信部24を介して管理サーバ10へ送信する手段である。
音声データ取得手段212は、通信部24により管理サーバ10から音声データが受信されると、受信された音声データを取得する手段である。この音声データは、例えば、他のヘッドセット20の音声データ送信手段211により送信された音声データに対し、翻訳装置30により翻訳処理が行われた後の音声データである。音声出力部23は、音声データ取得手段212が取得した音声データに基づいて、音声を出力する。
報知手段213は、発光部27を制御して、音声データ取得手段212により取得された音声データに基づいて音声出力部23が音声出力したことを報知する手段である。
状態データ送信手段214は、センサ部25により検知されたユーザの移動状態を示す状態データを、通信部24を介して管理サーバ10へ送信する手段である。
位置情報送信手段215は、測位部26により測定されたユーザの位置を示す位置情報を、通信部24を介して管理サーバ10へ送信する手段である。
管理サーバ10は、制御プログラムを実行することにより、音声データ取得手段111と、翻訳制御手段112と、音声データ送信手段113と、認識手段114と、評価手段115と、特定手段116と、状態データ取得手段117と、グループ管理手段118とに相当する機能を実現する。
音声データ取得手段111は、通信部12によりヘッドセット20から音声データが受信されると、受信された音声データを取得する手段である。音声データ取得手段111は、音声データ送信手段211により送信された音声データを取得する。
翻訳制御手段112は、音声データ取得手段111が取得した音声データに基づいて、翻訳装置30に翻訳処理を行わせる手段である。翻訳制御手段112は、グループDB13に格納された言語情報に基づいて翻訳処理を行うように、翻訳装置30を制御する。
音声データ送信手段113は、翻訳装置30により翻訳処理が行われた後の音声データを、通信部12を介してヘッドセット20へ送信する手段である。ただし、送受信側のヘッドセット20のユーザの言語情報が同じの場合、音声データ送信手段113は、翻訳処理を行うことなく、音声データを送信する。
認識手段114は、音声データ取得手段111が取得した音声データに基づいて、キーワードを認識する認識処理を行う。認識手段114は、周知の音声認識を行って音声データを文字コード(テキストデータ)に変換し、更に、当該文字データに対し形態素解析を施して、キーワードの列に分割する。認識されるキーワードは、ここでは単語である。
評価手段115は、認識手段114により認識されたキーワードに基づいて、第1のユーザの入力音声から認識されたキーワードと、第2のユーザの入力音声から認識されたキーワードとの文脈の類似度合いを評価する手段である。評価手段115は、ここでは第1のユーザの入力音声から認識されたキーワードと、第2のユーザの入力音声から認識されたキーワードとのキーワードペアが共起する頻度(共起頻度)に基づいて、文脈の類似度合いを数値化した類似度(以下「文脈類似度」という。)を算出する。文脈類似度は、例えば共起ベース類似度で、認識されたキーワードペアが会話中に同時に出現する可能性が高いほど高い値を示す。文脈類似度は、例えば、キーワード毎に、共起語及び共起頻度を定めた辞書ファイルを参照して算出される。文脈の類似度合いの評価は、例えば、複数の単語で構成された文をキーワードとして行われてもよい。この場合、第1のユーザの入力音声から認識された文と、第2のユーザの入力音声から認識された文との文脈の類似度が算出される。また、文脈の類似度合いの評価のアルゴルズムは、更に別のアルゴリズムであってもよい。
評価手段115は、算出した文脈類似度が閾値以上である場合、第1のユーザの発話の内容と第2のユーザの発話の内容との文脈が類似すると評価する。即ち、評価手段115は、発話内容に含まれるキーワード同士の概念としてのつながりの程度を評価し、会話をする第1のユーザ及び第2のユーザを特定(推定)する。
特定手段116は、ヘッドセット20を使用する複数のユーザの位置又はユーザ間の距離を特定する手段である。本実施形態では、特定手段116は、位置情報送信手段215により送信された位置情報が通信部12により受信されると、受信された位置情報に基づいてユーザの位置を特定する。
状態データ取得手段117は、状態データ送信手段214により送信された状態データが通信部12により受信されると、当該状態データを取得する手段である。
グループ管理手段118は、グループDB13に基づいて、ヘッドセット20のユーザが属する会話グループを管理する手段である。グループ管理手段118は、評価手段115により文脈が類似すると評価された場合に、第1のユーザ及び第2のユーザを、同一の会話グループに分類することがある。グループ管理手段118は、特定手段116が特定した複数のユーザの位置又はユーザ間の距離や、状態データ取得手段117が取得した状態データが示す移動状態に基づいて、第1のユーザ及び第2のユーザを、同一の会話グループに分類するかどうかを管理する。
次に、本実施形態の動作を説明する。
<A:会話グループの形成>
図4は、会話システム1の会話グループを形成する処理を示すシーケンス図である。図5は、会話グループを形成する処理の具体例を説明する図である。
ヘッドセット20A〜20Eの各々は、ユーザが発話すると、その発話内容を示す会話の音声が入力される(ステップS1)。次に、ヘッドセット20A〜20Eの各々は、自機のユーザの位置を、測位部26を用いて測位する(ステップS2)。ヘッドセット20A〜20Eの各々は、ユーザの入力音声を示す音声データ及び測位したユーザの位置を示す位置情報を、通信部24を介して管理サーバ10へ送信する(ステップS3)。
ヘッドセット20A〜20Eの各々は、ステップS1〜S3の処理を、例えば所定間隔で(例えば5秒毎に)繰り返し実行する。ただし、ヘッドセット20A〜20Eの各々で、ステップS1〜S3の処理の実行タイミングが一致(同期)している必要はない。
管理サーバ10は、ステップS3の処理で送信された音声データ及び位置情報を、通信部12を介して取得すると、取得した音声データに基づいて音声認識を行う(ステップS4)。そして、管理サーバ10は、ユーザの入力音声からキーワードを認識する。次に、管理サーバ10は、第1のユーザの入力音声から認識したキーワードと、第2のユーザの入力音声から認識したキーワードとの文脈類似度を算出する(ステップS5)。類似度の算出に際して、管理サーバ10は、第1のユーザ及び第2のユーザの入力音声を、翻訳装置30により同一の言語への翻訳処理を行わせた後で、文脈の類似度を算出してもよい。そして、管理サーバ10は、算出した文脈類似度に応じて、グループDB13を更新する(ステップS6)。
図5(a)に示す例では、ユーザAが「はじめまして。」という言葉を発し、ユーザBがこれに応答して、「こちらこそ、はじめまして。」という言葉を発している。ここでは、ユーザAは日本語で発話しているが、ユーザBも挨拶程度の簡単な日本語は理解し、発話可能とする。この場合、ユーザAの発話内容と、ユーザBの応答とが同じ文脈上にあると推測される。また、図5(a)に示すように、ユーザAとユーザBとのユーザ間距離は、所定距離以下である。この場合、管理サーバ10は、ヘッドセット20A,20Bから取得した音声データ及び位置情報に基づいて、ユーザAとユーザBを同じ会話グループG1に分類するように、グループDB13を更新する(図5(b)参照)。
他方、ユーザC,D,Eが、ユーザAが発話した直後に、ユーザAの近くで、ユーザAの発話に対する応答を示す発話をする可能性は低いと考えられる。このため、管理サーバ10が、ユーザC,D,EをユーザAと同一の会話グループに分類しないで済む。
なお、管理サーバ10は、どの会話グループにも属していないユーザのみを対象として会話グループに分類してもよいし、既にいずれかの会話グループにも属しているユーザを他の会話グループに分類してもよい。後者の場合、管理サーバ10は、先に属していた会話グループから除外することで、いずれか1の会話グループにユーザを分類する。また、図5では、ユーザAとユーザBが同じ言語で挨拶する場合を説明したが、互いの言語が異なっていてもよい。この場合、管理サーバ10は、翻訳装置30により同じ言語に翻訳してから文脈類似度を算出してもよいし、翻訳せずに文脈類似度を算出してもよい。
会話グループを形成した後、ヘッドセット20AにユーザAの会話の音声が入力されたとする(ステップS7)。ここでは、ユーザAの日本語の会話の音声が入力される。この場合、ヘッドセット20Aは、会話の音声を示す音声データを、通信部24を介して管理サーバ10へ送信する(ステップS8)。管理サーバ10は、通信部12により音声データを受信(取得)すると、翻訳装置30に翻訳処理を実行させる翻訳制御を行う(ステップS9)。具体的には、管理サーバ10は、グループDB13に基づいて、ユーザAと同じ会話グループに属する他のユーザ(ここではユーザB)の言語情報を特定する。ユーザBの言語情報は、図3に示すように「英語」である。このため、管理サーバ10は、受信した音声データに基づいて、会話の音声を「日本語」から「英語」へ翻訳する翻訳処理を、翻訳装置30に実行させる。
管理サーバ10は、翻訳処理後の音声データを翻訳装置30から受信(取得)すると、ユーザAと同じ会話グループに属するユーザBのヘッドセット20Bへ、当該音声データを通信部12を介して送信する(ステップS10)。ヘッドセット20Bは、通信部24を介して取得した音声データに基づいて、音声出力する(ステップS11)。更に、ヘッドセット20Bは、音声データに基づいて音声出力したことを、発光部27に発光させることにより、ユーザへ報知する(ステップS12)。ヘッドセット20Bは、例えば、音声出力されている期間中、又は、音声出力の開始時若しくは終了時において、発光部27を発光させる。
ステップS12の報知は、発話者であるユーザAに対して、ユーザBによって会話の音声が聴取されたことを通知するために行われる。ユーザAは、自身が発話した後タイミングで、ヘッドセット20Bの発光部27の発光を知覚すれば、自身の発話内容がユーザBに聴取されたことが分かる。反対に、発光部27の発光がなければ、ユーザAは発話内容が聴取されていない可能性があることが分かるので、再び同じ内容を発話する等の対処を採ることができる。
ステップS12の報知において、ヘッドセット20は、発話者側であるユーザ又は当該ユーザが属する会話グループによって発光の方法(例えば色や発光のパターン)を異ならせてもよい。これにより、ヘッドセット20は、発話者又はどの会話グループでの会話が行われたかを他者に把握させることができる。
ユーザBが発話した場合の会話システム1の動作は、ステップS7〜S12で説明した処理と同じ流れで実行される。この動作を簡単に説明すると、ヘッドセット20Bは、英語の会話の音声を示す音声データを管理サーバ10へ送信する。ヘッドセット20Bは、グループDB13に基づいて、ユーザAの会話の音声を日本語に翻訳する翻訳処理を、翻訳装置30に実行させる。そして、管理サーバ10は、翻訳処理後の音声データをヘッドセット20Aへ送信する。ヘッドセット20Aは、翻訳処理後の音声データに基づいて音声出力するとともに、発光部27に発光させる。
会話グループを形成した後も、会話システム1においては、会話グループ内における会話の継続の有無を、文脈類似度に基づいて判断する。
図5(b)に示すように、ユーザCとユーザDが同一の会話グループG2に属する場合において、図5(a)に示すように、ユーザCが「どこか旅行に行きたいな。」を意味する発話(ここではドイツ語)をし、ユーザDが「京都が良いと思うよ。」を意味する発話(ここでは仏語)をしたとする。この場合、ユーザCの「旅行」というキーワードと、ユーザDの「京都」というキーワードとの共起頻度が高く、文脈類似度は高くなるはずである。この場合、管理サーバ10は、ユーザC,Dの会話が継続しているものとして、会話グループG2を維持する。ここにおいて、管理サーバ10は、翻訳装置30により同じ言語に翻訳してから文脈類似度を算出してもよいし、翻訳せずに文脈類似度を算出してもよい。
他方、管理サーバ10は、ユーザC,Dの発話内容に基づいて算出した文脈類似度が閾値以下になった場合に、会話が終了したものとして、会話グループG2を解除してもよい。例えば、管理サーバ10は、設定時間継続して文脈類似度が閾値以上にならなかった場合には、会話グループG2を解除する。
<B:会話グループの更新/ユーザの追加>
会話システム1では、会話グループを形成した後、この会話グループに新たなユーザを追加する機能を有する。例えば、図5で説明した会話グループG1が形成された後、ユーザEがこの会話に途中から参加する場合がある。以下、会話システム1において、会話グループG1に、ユーザEを追加するときの動作を説明する。
図6は、会話システム1の会話グループにユーザを追加する処理を示すシーケンス図である。図6の処理ステップのうち、図5と同じ処理ステップについては同じ符号を付して表す。図7は、会話グループにユーザを追加する処理の具体例を説明する図である。
会話グループG1,G2が形成された後も、ヘッドセット20A〜20Eの各々は、ステップS1〜S3の処理を実行する。そして、管理サーバ10は、ステップS3の処理で送信された音声データ及び位置情報を通信部12を介して取得すると、ステップS4〜S6の処理を行う。ここで、ユーザEが発したキーワードが、会話グループG1に属するユーザA又はユーザBの発したキーワードとの文脈類似度が閾値以上であり、且つ、ユーザEとユーザA又はユーザBとの間の距離が所定距離以下である場合、管理サーバ10は、会話グループG1にユーザEを追加するようにグループDB13を更新する。この更新により、図7(a)に示すように、会話グループG1がユーザA,B,Eの3者で構成される。即ち、グループDB13においては、図7(b)に示すように、ユーザEのユーザID「UID−E」に対応付けて、グループ情報として「G1」が格納される。
会話グループを形成した後の会話システム1の動作は、大略、<A:会話グループの形成>の項で説明したとおりである。ただし、ヘッドセット20AにユーザAの会話の音声が入力された場合、管理サーバ10は、翻訳処理により生成された翻訳処理後の音声データをヘッドセット20Aへ送信する一方で(ステップS10a)、ユーザEのヘッドセット20Eにも音声データを送信する(ステップS10b)。図7(b)に示すように、ユーザEの言語情報は、ユーザAと同じく日本語である。このため、管理サーバ10は、翻訳装置30に翻訳処理を行わせることなく、ヘッドセット20Aから受信した音声データを、ヘッドセット20Eへ送信する。そして、ヘッドセット20B,20Eの各々は、取得した音声データに基づいて音声出力するとともに、発光部27に発光させる(ステップS11,S12)。
なお、会話グループG1におけるユーザB又はユーザEが発話したときの会話システム1の動作は、以上の説明から容易に類推できるので、説明を省略する。
会話グループにユーザを追加するときの条件は、当該ユーザと、当該会話グループに属するいずれか一のユーザとの文脈類似度の条件を満たすこと以外であってもよい。会話グループにユーザを追加するときの条件は、当該ユーザと、当該会話グループに属する全てのユーザとについて、文脈類似度が閾値以上となるという条件であってもよい。同様に、会話グループにユーザを追加するときの条件は、当該ユーザと、当該会話グループに属する全てのユーザとについて、ユーザ間の距離が所定距離以下になることであってもよい。
<C:会話グループからのユーザの除外/移動状態>
会話システム1では、会話グループを形成した後、当該会話グループから一部のユーザを除外する機能を有する。複数ユーザからなる会話グループにおいて、一部のユーザが立ち去る等した場合に、会話システム1では当該ユーザを会話グループから除外する。
なお、2人のユーザからなる会話グループからユーザが除外された場合、当該会話グループが解除(消滅)されることとなる。
図8は、会話システム1のユーザの移動状態に基づいて会話グループからユーザを除外するときの処理を示すシーケンス図である。以下、ユーザAとユーザBからなる会話グループG1から、ユーザA又はユーザBを除外するときの動作を説明する。
会話グループに属するヘッドセット20A,20Bの各々は、センサ部25により検知された加速度に基づいて、ユーザの移動状態を検知する(ステップS11)。ユーザの移動状態は、前述のとおり、ユーザの移動の有無と、移動する場合の移動方向や移動速度を含む。次に、ヘッドセット20A,20Bの各々は、検知したユーザの移動状態を示す状態データを、通信部24を介して管理サーバ10へ送信する(ステップS12)。
ヘッドセット20A,20Bの各々は、ただし、ステップS11,S12の処理を、例えば所定間隔で(例えば5秒毎に)繰り返し実行する。ただし、ヘッドセット20A,20Bの各々で、ステップS11,S12の処理の実行タイミングが一致(同期)している必要はない。
管理サーバ10は、状態データが受信されると、受信された状態データを取得して、グループDB13を更新する(ステップS13)。
次に、管理サーバ10は、グループDB13の更新後の状態データに基づいて、ユーザの移動状態が会話グループからの除外条件を満たすかどうかを判断する(ステップS14)。除外条件は、複数のユーザで行われている会話に参加しなくなったことを示すユーザの移動状態を示す。除外条件は、例えば、ユーザの移動の有無と、移動する場合の移動方向及び移動速度で特定される移動状態が、一のユーザと、同じ会話グループの他のユーザとで異なることを示す。管理サーバ10は、例えば、移動の有無、移動方向又は移動速度のうちの1つ以上が異なる場合に、除外条件を満たすと判断する。管理サーバ10は、ユーザの移動状態が除外条件を満たすと判断した場合(ステップS14;YES)、当該ユーザを会話グループから除外する(ステップS15)。会話グループG1に属するユーザAとユーザBの移動状態が異なる場合、管理サーバ10は、ユーザA及びユーザBの各々を、会話グループG1から除外する。
図9に示すように、同じ会話グループに属するユーザAとユーザBが歩きながら会話している場合、両者は移動しているものの、会話が行われていると推測される。この場合、管理サーバ10は、ステップS14の処理で「NO」と判断し、会話グループG1を維持する。
以上説明した会話システム1によれば、ヘッドセット20を使用するユーザ同士が発話した内容が文脈類似の関係にある場合に、会話グループが形成されるので、会話の相手の情報を入力する手間がユーザに強いられない。また、通りすがりのユーザ同士が会話する場合であっても、ユーザが都度、会話の相手の情報を入力する必要がない。
また、会話システム1では、ユーザ同士が発話した内容が文脈類似の関係にあるかどうかに応じて、会話グループの形成や更新、維持又は解除するので、会話の相手を指定する明示的な動作をユーザが意識して行わなくとも、会話のグループの柔軟な管理を実現することができる。
本発明は、上述した実施形態と異なる形態で実施することが可能である。本発明は、例えば、以下のような形態で実施することも可能である。また、以下に示す変形例は、各々を適宜に組み合わせてもよい。
(変形例1)
会話システム1では、ヘッドセット20の入力音声のレベル(例えば声の大きさ)に基づいて、会話グループの管理を行ってもよい。入力音声のレベルは、ここでは音量レベルであるが、所定の周波数帯域(例えば可聴域)の音圧レベルであってもよく、入力音声のレベルの大小の指標となるものであればよい。
図10は、会話システム1のキーワードに基づいて会話グループを形成する処理を示すシーケンス図である。図11は、キーワードに基づいて、ユーザA,B,Cが会話グループを形成する処理の具体例を説明する図である。以下、ユーザA,B,Cが使用するヘッドセット20A,20B,20Cの動作を例に挙げて説明する。ここでは、図11(a)に示すように、ユーザAから見て、ユーザBの方がより近い位置に居て、ユーザCの方がより遠い位置に居るものとする。
ここで、ヘッドセット20Aにおいて、音声入力部22にユーザによるキーワードが入力されると(ステップS1)、入力されたキーワードを認識する(ステップS21)。ヘッドセット20Aは、キーワードを認識すると、このキーワードを示す入力音声のレベルを検知する(ステップS22)。そして、ヘッドセット20Aは、検出したレベルを示すレベル情報を、キーワードを認識したことを通知する通知信号とともに、管理サーバ10へ送信する(ステップS23)。
管理サーバ10は、通知信号及びレベル情報が受信されると、レベル情報が示す入力音声のレベルに基づいて、会話の相手を決定する(ステップS24)。ここで、管理サーバ10は、入力音声のレベルが低いほどユーザから見て近い位置のユーザを会話の相手に決定し、入力音声のレベルが高いほどユーザから見て遠い位置のユーザを会話の相手に決定する。例えば、管理サーバ10は、入力音声のレベルが閾値未満である場合、図11(b−1)に示すように、ユーザBを会話の相手に決定し、ユーザAとユーザBを同じ会話グループに分類する。他方、管理サーバ10は、入力音声のレベルが閾値以上である場合、図11(b−2)に示すように、ユーザCを会話の相手に決定し、ユーザAとユーザCを同じ会話グループに分類する。一般に、人物が他人に声を掛けるとき、近くに居る人物に対してはさほど大きくない声で話し、遠くに居る人物に対しては大きな声で話す。会話システム1では、このような人物の習慣に基づいて会話グループを形成するので、仮に多数のユーザが存在する場所であっても、ユーザの意図した相手と会話グループを形成しやすくなる。
なお、ヘッドセット20が入力音声のレベルを検知するのではなく、管理サーバ10が、ヘッドセット20から取得した音声データに基づいて、入力音声のレベルを検知してもよい。
(変形例2)
上述した変形例1に係る構成を変形し、管理サーバ10は、ユーザAとユーザBとからなる会話グループと、ユーザAとユーザCとからなる会話グループとの両方を形成してもよい。そして、管理サーバ10は、各会話グループを形成した後に、音声入力部22にユーザAの入力音声のレベルに基づいて、どちらの会話グループのユーザに会話の音声を聴取させるかを決定する。このとき、管理サーバ10は、入力音声のレベルが低いほどユーザから見て近い位置のユーザが属する会話グループを選択し、入力音声のレベルが高いほどユーザから見て遠い位置のユーザが属する会話グループを選択する。例えば、管理サーバ10は、入力音声のレベルが閾値未満である場合、ユーザBの居る会話グループの会話を実現させ、入力音声のレベルが閾値以上である場合、ユーザCの居る会話グループの会話を実現させる。ユーザは近い場所に居るユーザに対しては小さな声で話し、遠くに居るユーザに対しては大きな声で話すことが一般的である。よって、ユーザに会話グループを選択させることなく、管理サーバ10は、どの会話グループで会話させるかを決定することができる。
(変形例3)
上述した実施形態では、ヘッドセット20が管理サーバ10に音声データを送信し、管理サーバ10が受信した音声データに基づいて音声認識を行っていた。これに代えて、図12に示すように、ヘッドセット20が、入力音声を示す音声データに基づいて音声認識を行う(ステップS4A)。そして、ヘッドセット20は、音声認識により得られたキーワードを、位置情報とともに管理サーバ10へ送信してもよい(ステップS3A)。この場合、管理サーバ10は、受信したキーワードに基づいて文脈類似度を算出し(ステップS5)、以降の処理ステップを実行する。即ち、この変形例では、認識手段114に相当する機能を、管理サーバ10ではなく、ヘッドセット20が実現する。また、制御部11は、音声データ送信手段211に代えてキーワードを送信する手段を実現し、制御部21は、キーワードを取得する手段を実現する。
(変形例4)
会話システム1では、第1のユーザの発話内容に対して第2のユーザが応答したタイミングに応じて、第1のユーザ及び第2のユーザを同一のグループに分類するかどうかを管理してもよい。以下、ユーザA,Bを例に挙げて、本変形例の具体例を説明する。
会話グループを形成する場合、ユーザAが例えば挨拶の言葉を発した後、その直後の所定時間(例えば5秒間)以下にユーザBが応答する可能性が高い。そこで、管理サーバ10は、ユーザAとユーザBが発したキーワードの文脈類似度が閾値以上の場合で、且つ、発話から応答までの時間が設定時間未満である場合に、ユーザAとユーザBを同一の会話グループに分類してもよい。即ち、管理サーバ10は、ユーザAとユーザBが発したキーワードの文脈類似度が閾値以上の場合であっても、発話から応答までの時間が設定時間以上のときには、ユーザAとユーザBを同一の会話グループに分類しない。
この会話システム1により、各ユーザの会話の流れからより精度良く会話グループを形成することができる。
(変形例5)
上記変形例4を変形し、会話システム1では、第1のユーザと第2のユーザを同一の会話グループに分類した後、第1のユーザの発話内容に対して第2のユーザが応答したタイミングに応じて、この会話グループから第1のユーザ又は第2のユーザを除外するかどうかを管理してもよい。以下、ユーザA,Bを例に挙げて、本変形例の具体例を説明する。
会話グループが形成された後であっても、ユーザAが何らかの言葉を発した後、その直後の所定時間(例えば5秒間)以下にユーザBが応答する可能性が高い。そこで、管理サーバ10は、ユーザAとユーザBが発したキーワードの文脈類似度が閾値以上の場合で、且つ、発話から応答までの時間が設定時間未満である場合に、ユーザAとユーザBを同一の会話グループに分類したままとする。他方、管理サーバ10は、ユーザAとユーザBが発したキーワードの文脈類似度が閾値以上の場合であっても、発話から応答までの時間が設定時間以上のときには、ユーザA又はユーザBを会話グループから除外してもよい。管理サーバ10は、例えば、発話から応答までの時間が設定時間以上となった回数が閾値以上、又は頻度が閾値以上になった場合に、ユーザA又はユーザBを会話グループから除外してもよい。
この会話システム1により、各ユーザの会話の流れからより精度良く、会話グループの維持又は解除を制御することができる。
(変形例6)
会話グループの形成(更新)の方法は、上述した実施形態で説明した例に限られない。会話システム1において、管理サーバ10(グループ管理手段118)は、ヘッドセット20のユーザの顔が向く方向を示す方向データを取得し、取得した方向データに基づいて、顔が互いに向き合った2以上のユーザを、同一の会話グループに分類してもよい。2人のユーザの顔が互いに向き合った場合とは、これら2人のユーザの顔の向きが正反対を向く。即ち、これら2人のユーザの方向データが示す顔の方向をベクトル化した場合、両ベクトルの成す角は180度である。ただし、方向データが示す方向が正反対でなくても、正反対に近ければ、2人のユーザの顔が互いに向き合ったとみなされる。このとき、両ベクトルの成す角は180±α(αは定数)度の範囲内に収まる。3人以上のユーザの顔が互いに向き合った場合とは、各ユーザの顔が、他の少なくとも1人のユーザの顔と向き合ったことをいう。
この場合、ヘッドセット20は、センサ部25にユーザの顔が向く方向を検知するためのセンサを有し、このセンサにより検知された方向を示す方向データを、管理サーバ10へ送信する。かかるセンサとしては、3軸加速度、3軸角速度及び3軸地磁気の9軸モーションセンサや、ジャイロセンサ(角速度センサ)、地磁気センサ等を用いることができる。
なお、ここでは、2以上のユーザの顔が同時に向き合う場合を想定するが、同時に限られず、或る程度の時間差があってもよい。
(変形例7)
会話システム1において、ユーザ属性が所定の関係を満たすユーザ同士を、同一の会話グループに分類してもよい。ユーザ属性は、例えば、言語情報、年齢、性別、出身地、職業及び趣味等のユーザの属性であるが、他の属性であってもよい。ユーザ属性については、予めグループDB13に情報を格納しておき、管理サーバ10はこれに従えばよい。
(変形例8)
上述した実施形態で説明した構成又は動作の一部が省略されてもよい。
例えば、会話システム1において、<B:会話グループの更新/ユーザの追加>及び<C:会話グループからのユーザの除外/移動状態>1つ以上が省略されてもよい。
会話システム1において、発光部27の発光以外の方法(例えば、音声出力)でユーザへの報知が行われてもよいし、ユーザへの報知が省略されてもよい。
会話システム1において、測位部26の測位結果に基づいて会話グループを形成する構成が省略されてもよい。この場合に、管理サーバ10は、ユーザ同士の位置関係やユーザ間の距離に関係なく、文脈類似度に基づいて会話グループを管理してもよい。
会話システム1において、各ユーザの使用する言語が同じである場合には、翻訳処理に係る構成(例えば翻訳装置30や翻訳制御手段112)が省略されてもよい。また、会話システム1において、翻訳装置30ではなく、通訳者によって翻訳が行われてもよい。
会話システム1において、ヘッドセット20は、ユーザの移動状態を検知する機能、又は、ユーザの位置を測定する機能を有しなくてもよい。この場合、無線通信端末Pがユーザの移動状態を検知する機能、又は、ユーザの位置を測定する機能を有していれば、管理サーバ10は、上述した実施形態と同じ方法で会話グループを管理することができる。
(変形例9)
上述した実施形態の会話システム1では、複数の無線アクセスポイントから受信した電波の強度及び到達時間に基づいて三点測量を行うことにより、ユーザの位置を測定していたが、適用可能な屋内測位技術はこの例に限られない。会話システム1では、例えば、出発点の位置を確定後、加速度センサやジャイロセンサ等を組み合わせて現在位置を測定する自律航法を採用してもよいし、Bluetooth発信機からの電波を受信して、受信した電波に含まれる発信機の識別情報及び受信した電波の強度に基づいて、現在位置を測定してもよい。また、測位部26は、超音波等の音波や可視光又は赤外光等の光を用いて測位してもよい。
会話システム1において、ユーザが他のユーザと対面したときに操作部28を操作した場合に、会話グループを形成する処理が行われてもよい。これにより、より高い精度でユーザの意図する相手と会話グループを形成しやすくなる。
(変形例10)
会話システム1において、複数のヘッドセット20の各々を使用するユーザの頭部の動き(動作)に基づいて、会話する2以上のユーザを特定してもよい。ユーザの頭部の動きについては、例えば、センサ部25が備える加速度センサの検知結果に基づいて制御部21が特定する。そして、制御部21は、ユーザの発話内容を示す音声データを送信する際には、この音声データとともに、発話したタイミング(例えば、発話前又は/及び発話後)でのユーザの頭部の動きの検知結果を、管理サーバ10へ送信する。管理サーバ10の制御部11は、上述した実施形態で説明した文脈の類似度合いの評価の結果に加えて、ユーザの頭部の動きの検知結果に基づいて、各ユーザが属する会話グループの管理を行う。例えば、発話側のユーザは、発話した直後に会話の相手の方向を見るために、頭部を動かすことがある。他方、聞き手側のユーザは、相手方の発話中(即ち、自身の発話前)に、発話内容への同意や相槌によるうなずき等の、相手方の発話内容への応答を示す動作をすることがある。そこで、制御部11は、文脈の類似度合いに加えて、発話前又は/及び発話後の動きが所定の条件を満たす2以上のユーザを、同一のグループに分類する。この変形例によれば、実際に会話している2以上のユーザを、より高い精度で同じ会話グループに分類しやすくなる。
(変形例11)
ヘッドセット20は、ユーザの頭又は耳に装着して使用される通信機器であったが、本発明の通信機器は、他の形態の通信端末で実現されてもよい。本発明の通信機器は、頭部又は顔に装着されるヘッドマウントディスプレイで例示される眼鏡型の各種のウェアラブルコンピュータ)であってもよいし、本発明の通信機器は、ユーザが手に持って使用するスマートフォンやタブレット端末、フィーチャーフォン、ハンドセット等により実現されてもよい。
また、通信機器が情報を表示する機能を有する場合、当該通信機器は、会話グループに属するユーザの情報を表示してもよい。このユーザの情報は、例えば同じ会話グループに属するユーザの言語情報であるが、氏名等の情報を含んでもよい。報知手段213による報知も、情報の表示によって行われてもよい。更に、報知手段213は、会話グループの人数や、会話グループを構成するユーザが変化したことを報知してもよい。また、報知手段213は、音声出力部23を介した音声出力により、ユーザに情報を報知してもよい。
ヘッドセット20は、自機の機能によりネットワーク100に接続(無線接続)可能である場合には、無線通信端末Pを介さずに、ネットワーク100に接続してもよい。
また、管理サーバ10は、ヘッドセット20のユーザ同士の位置関係に応じて音声データを加工してから、ヘッドセット20へ送信してもよい。管理サーバ10は、例えば、ユーザ間の距離が大きいほど出力音声のレベル(音量レベル)を低くし、ユーザ間の距離が小さいほど出力音声のレベルを高くする。また、ヘッドセット20がユーザの左右の耳にステレオ音声を出力可能な場合、当該ユーザから見た会話の相手の居る方向に基づいて、ステレオ音声の出力を制御してもよい。この場合、右に居るユーザからは右耳から音声が聞こえるというようなサラウンド効果を、管理サーバ10が与えるとよい。
また、無線通信端末Pは、ヘッドセット20から受信した音声データに基づいて音声認識を行うことにより、当該音声データを文字コードに変換してから送信してもよい。この場合、翻訳装置30は、無線通信端末Pから受信した文字コードに基づいて翻訳処理を行う。
(変形例12)
上述した実施形態で管理サーバ10が実現していた会話システムの管理装置としての機能を、ユーザが使用するヘッドセット20又は無線通信端末Pが実現してもよい。この場合に、ヘッドセット20又は無線通信端末Pが、翻訳処理を実行する機能を有してもよい。この場合、会話システム1において、管理サーバ10が不要である。例えば、マスタとなるヘッドセット20は自機のユーザの入力音声を示す音声データと、他のヘッドセットのユーザの入力音声を示す音声データとを取得し、文脈類似度に基づいて会話グループを形成する。ヘッドセット20又は無線通信端末Pの各々が、マスタ又はスレーブのいずれとなるかについては、ユーザにより設定されてもよいし、自動で設定されてもよい。
(変形例13)
上述した実施形態において、管理サーバ10の制御部11やヘッドセット20の制御部21が実現する各機能は、複数のプログラムの組み合わせによって実現され、又は、複数のハードウェア資源の連係によって実現されうる。制御部11,21の機能がプログラムを用いて実現される場合、このプログラムは、磁気記録媒体(磁気テープ、磁気ディスク(HDD(Hard Disk Drive)、FD(Flexible Disk))等)、光記録媒体(光ディスク等)、光磁気記録媒体、半導体メモリ等のコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよいし、ネットワークを介して配信されてもよい。また、本発明は、クラウドコンピューティングを用いて実現されてもよい。また、本発明は、会話システムの管理方法として把握することも可能である。
1…会話システム、10…管理サーバ、11…制御部、111…音声データ取得手段、112…翻訳制御手段、113…音声データ送信手段、114…認識手段、115…評価手段、116…特定手段、117…状態データ取得手段、118…グループ管理手段、12…通信部、13…グループDB、20,20A〜20E…ヘッドセット、21…制御部、211…音声デ―タ送信手段、212…音声データ取得手段、213…報知手段、214…状態データ送信手段、215…位置情報送信手段、22…音声入力部、23…音声出力部、24…通信部、25…センサ部、26…測位部、27…発光部、28…操作部、30…翻訳装置、100…ネットワーク

Claims (10)

  1. 音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する第1のユーザ及び第2のユーザを含む複数のユーザを、グループ分けし、
    同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話システムの管理装置であって、
    前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得する取得手段と、
    取得された前記音声データ又は前記キーワードに基づいて、前記第1のユーザの入力音声から認識された前記キーワードと、前記第2のユーザの入力音声から認識された前記キーワードの共起頻度に基づく値である文脈類似度を算出する評価手段と、
    前記算出された文脈類似度が閾値以上である場合に、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するグループ管理手段と
    を備える管理装置。
  2. 前記評価手段は、
    前記第1のユーザの発話内容と、当該発話内容に対する前記第2のユーザの応答を特定し、前記文脈類似度を算出する
    ことを特徴とする請求項1に記載の管理装置。
  3. 前記グループ管理手段は、
    前記第1のユーザの発話内容に対して前記第2のユーザが応答したタイミングに応じて、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するかどうかを管理する
    ことを特徴とする請求項2に記載の管理装置。
  4. 前記グループ管理手段は、
    前記第1のユーザ及び前記第2のユーザを前記同一のグループに分類した後、前記第1のユーザの発話内容に対して前記第2のユーザが応答したタイミングに応じて、当該グループから前記第1のユーザ又は前記第2のユーザを除外する
    ことを特徴とする請求項2又は請求項3に記載の管理装置。
  5. 前記複数のユーザの位置又はユーザ間の距離を特定する特定手段を備え、
    前記グループ管理手段は、
    前記第1のユーザ及び前記第2のユーザについて特定された前記位置又は前記距離が所定条件を満たした場合に、当該第1のユーザ及び当該第2のユーザを、前記同一のグループに分類する
    ことを特徴とする請求項1から請求項4のいずれか1項に記載の管理装置。
  6. 前記グループ管理手段は、
    前記特定された前記位置又は前記距離と、前記第1のユーザの入力音声のレベルとに基づいて、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するかどうかを管理する
    ことを特徴とする請求項5に記載の管理装置。
  7. 前記第1のユーザ及び前記第2のユーザの移動状態を示す状態データを取得する状態データ取得手段を備え、
    前記グループ管理手段は、
    前記第1のユーザ及び前記第2のユーザを前記同一のグループに分類した後、取得された前記状態データに応じて、当該グループから前記第1のユーザ又は前記第2のユーザを除外する
    ことを特徴とする請求項1から請求項6のいずれか1項に記載の管理装置。
  8. 第1のユーザ及び第2のユーザを含む複数のユーザの各々に使用され、音声データを送受信して音声の入出力を行う複数の通信機器と、
    前記複数のユーザをグループ分けし、同一のグループに属する前記ユーザ間で前記音声の入出力による会話を実現させる管理サーバと
    を備える会話システムであって、
    前記複数の通信機器の各々は、
    自機を使用する前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを、前記管理サーバへ送信する送信手段
    を有し、
    前記管理サーバは、
    前記送信手段により送信された前記音声データ、又は、前記キーワードを取得する取得手段と、
    取得された前記音声データ又は前記キーワードに基づいて、前記第1のユーザの入力音声から認識された前記キーワードと、前記第2のユーザの入力音声から認識された前記キーワードの共起頻度に基づく値である文脈類似度を算出する評価手段と、
    前記算出された文脈類似度が閾値以上である場合に、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するグループ管理手段と
    を有する会話システム。
  9. 音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する第1のユーザ及び第2のユーザを含む複数のユーザを、グループ分けし、
    同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話管理方法であって、
    前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得手段が取得するステップと、
    取得した前記音声データ又は前記キーワードに基づいて、前記第1のユーザの入力音声から認識された前記キーワードと、前記第2のユーザの入力音声から認識された前記キーワードの共起頻度に基づく値である文脈類似度を評価手段が算出するステップと、
    前記算出された文脈類似度が閾値以上である場合に、前記第1のユーザ及び前記第2のユーザを、前記同一のグループにグループ管理手段が分類するステップと
    を備える会話管理方法。
  10. 音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する複数のユーザを、グループ分けし、
    同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話システムを管理するコンピュータに、
    前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得するステップと、
    取得した前記音声データ又は前記キーワードに基づいて、第1のユーザの入力音声から認識された前記キーワードと、第2のユーザの入力音声から認識された前記キーワードの共起頻度に基づく値である文脈類似度を算出するステップと、
    前記算出された文脈類似度が閾値以上である場合に、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するステップと
    を実行させるためのプログラム。
JP2014122332A 2014-06-13 2014-06-13 管理装置、会話システム、会話管理方法及びプログラム Active JP6385150B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014122332A JP6385150B2 (ja) 2014-06-13 2014-06-13 管理装置、会話システム、会話管理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014122332A JP6385150B2 (ja) 2014-06-13 2014-06-13 管理装置、会話システム、会話管理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016004066A JP2016004066A (ja) 2016-01-12
JP6385150B2 true JP6385150B2 (ja) 2018-09-05

Family

ID=55223401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014122332A Active JP6385150B2 (ja) 2014-06-13 2014-06-13 管理装置、会話システム、会話管理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6385150B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6927318B2 (ja) * 2017-10-13 2021-08-25 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
JP7006176B2 (ja) * 2017-11-22 2022-01-24 株式会社ぐるなび 情報処理装置、情報処理方法及びプログラム
WO2019139101A1 (ja) * 2018-01-12 2019-07-18 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN111798848A (zh) * 2020-06-30 2020-10-20 联想(北京)有限公司 语音同步输出方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4442007B2 (ja) * 2000-03-30 2010-03-31 Kddi株式会社 移動端末にグループ通信を提供するシステム
JP4853001B2 (ja) * 2005-11-30 2012-01-11 日本電気株式会社 情報交換システム、情報交換方法、及び、情報交換プログラムとその記録媒体
WO2008078555A1 (ja) * 2006-12-22 2008-07-03 Nec Corporation 会議制御方法、システム及びプログラム
JP5034111B2 (ja) * 2008-02-04 2012-09-26 日本電気株式会社 データ蓄積システム、データ蓄積再生方法及びプログラム
JP5912456B2 (ja) * 2011-11-28 2016-04-27 富士通テン株式会社 グループ通信システムおよび通信装置

Also Published As

Publication number Publication date
JP2016004066A (ja) 2016-01-12

Similar Documents

Publication Publication Date Title
US11792577B2 (en) Differential amplification relative to voice of speakerphone user
US11153678B1 (en) Two-way wireless headphones
US11979716B2 (en) Selectively conditioning audio signals based on an audioprint of an object
JP6402748B2 (ja) 音声対話装置および発話制御方法
US20200012724A1 (en) Bidirectional speech translation system, bidirectional speech translation method and program
WO2017034736A2 (en) Personal translator
US20190138603A1 (en) Coordinating Translation Request Metadata between Devices
JP6385150B2 (ja) 管理装置、会話システム、会話管理方法及びプログラム
CN104604250A (zh) 用于耳机的智能通知工具
WO2019213443A1 (en) Audio analytics for natural language processing
US11367443B2 (en) Electronic device and method for controlling electronic device
AU2018277650B2 (en) Adaptation of the auditory output of an electronic digital assistant in accordance with an indication of the acoustic environment
JP6286289B2 (ja) 管理装置、会話システム、会話管理方法及びプログラム
US20160366528A1 (en) Communication system, audio server, and method for operating a communication system
US9832587B1 (en) Assisted near-distance communication using binaural cues
WO2016206646A1 (zh) 使机器装置产生动作的方法及系统
CN112823047A (zh) 用于控制网络应用程序的系统和设备
JP2018185372A (ja) 情報処理装置、情報処理プログラム、および建物
KR20200003529A (ko) 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법
US11935557B2 (en) Techniques for detecting and processing domain-specific terminology
US20170024184A1 (en) Control method and control device
US20230035531A1 (en) Audio event data processing
WO2023010012A1 (en) Audio event data processing
WO2023010011A1 (en) Processing of audio signals from multiple microphones

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180807

R150 Certificate of patent or registration of utility model

Ref document number: 6385150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250