JP6385150B2 - 管理装置、会話システム、会話管理方法及びプログラム - Google Patents
管理装置、会話システム、会話管理方法及びプログラム Download PDFInfo
- Publication number
- JP6385150B2 JP6385150B2 JP2014122332A JP2014122332A JP6385150B2 JP 6385150 B2 JP6385150 B2 JP 6385150B2 JP 2014122332 A JP2014122332 A JP 2014122332A JP 2014122332 A JP2014122332 A JP 2014122332A JP 6385150 B2 JP6385150 B2 JP 6385150B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- conversation
- voice
- group
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
これに対し、本発明の目的は、ユーザが行った会話に基づいて会話のグループを管理することである。
この管理装置において、前記グループ管理手段は、前記第1のユーザの発話内容に対して前記第2のユーザが応答したタイミングに応じて、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するかどうかを管理してもよい。
更に、前記グループ管理手段は、前記第1のユーザ及び前記第2のユーザを前記同一のグループに分類した後、前記第1のユーザの発話内容に対して前記第2のユーザが応答したタイミングに応じて、当該グループから前記第1のユーザ又は前記第2のユーザを除外してもよい。
本発明の管理装置において、前記グループ管理手段は、前記特定された前記位置又は前記距離と、前記第1のユーザの入力音声のレベルとに基づいて、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するかどうかを管理してもよい。
本発明の管理装置において前記第1のユーザ及び前記第2のユーザの移動状態を示す状態データを取得する状態データ取得手段を備え、前記グループ管理手段は、前記第1のユーザ及び前記第2のユーザを前記同一のグループに分類した後、取得された前記状態データに応じて、当該グループから前記第1のユーザ又は前記第2のユーザを除外してもよい。
図1は、本実施形態に係る会話システムの全体構成を示す図である。会話システム1は、管理サーバ10と、複数のヘッドセット20(20A,20B,20C,20D,20E)と、翻訳装置30とを備える。ヘッドセット20A,20B,20C,20D,20Eの各々を使用するユーザを、順にユーザA,B,C,D,Eと表す。管理サーバ10及び複数のヘッドセット20の各々は、ネットワーク100に接続する。ヘッドセット20は、ネットワーク100へのゲートウェイとなる無線通信端末P(例えばスマートフォン又はタブレット端末)を介して、ネットワーク100に接続する。図1には、ユーザAが使用(携帯)する無線通信端末Pのみが示されているが、ユーザB,C,D,Eの各ユーザも、ユーザAと同様に、無線通信端末Pを使用(携帯)する。ネットワーク100は、例えば、移動体通信網、ゲートウェイ装置及びインターネットを含む公衆通信回線である。
なお、会話システム1に含まれるヘッドセット20は5台に限られず、2台以上4台以下又は6台以上であってもよい。
ヘッドセット20は、ユーザの頭又は耳に装着(固定)して使用され、音声データの送受信を行って音声の入出力を行う通信機器である。ヘッドセット20は、いわゆるウェアラブルコンピュータの一種である。
なお、翻訳装置30は、ここでは管理サーバ10とは別に設けられた装置(例えば翻訳サーバ)により実現されるが、管理サーバ10に組み込まれる形態の装置であってもよい。また、翻訳装置30は、ここでは管理サーバ10を介してヘッドセット20との間で音声データの送受信を行う。ただし、翻訳装置30は、ネットワーク100に接続する場合、管理サーバ10を介さずに、ヘッドセット20との間で音声データの送受信を行ってもよい。
ヘッドセット20は、ハードウェア構成として、制御部21と、音声入力部22と、音声出力部23と、通信部24と、センサ部25と、測位部26と、発光部27と、操作部28とを備える。
制御部21は、演算処理装置としてのCPU(Central Processing Unit)と、ROM(Read Only Memory)及びRAM(Random Access Memory)を含むメモリを備えたマイクロコンピュータである。CPUは、ROMに記憶された制御プログラムをRAMに読み出して実行することにより、ヘッドセット20の各部を制御する。
音声出力部23は、例えばスピーカ及びD/A(Digital to Analog)変換回路を有し、音声データに基づいて音声を出力する。音声出力部23は、D/A変換回路を用いてデジタル形式の音声データをアナログ形式に変換し、変換後の音声信号に基づいてスピーカから音声を出力する。
なお、センサ部25は、例えば3軸加速度、3軸角速度及び3軸地磁気の9軸モーションセンサを用いて、ユーザの移動状態を検知してもよい。
操作部28は、例えば各種の物理キー(例えば押下ボタン)を有し、ユーザの操作を受け付ける操作手段である。
制御部11は、演算処理装置としてのCPUと、ROM及びRAMを含むメモリとを備えたマイクロコンピュータである。CPUは、ROMに記憶された制御プログラムをRAMに読み出して実行することにより、管理サーバ10の各部を制御する。通信部12は、ネットワーク100に接続するためのインタフェースである。
図3に示すように、グループDB13は、ヘッドセット20のユーザ毎に、「ユーザID」と、「端末ID」と、「言語情報」と、「状態データ」と、「位置情報」と、「グループ情報」との各情報を対応付けて格納したデータベースである。
ユーザIDは、ヘッドセット20のユーザを識別するユーザ識別子である。端末IDは、ユーザが使用するヘッドセット20を識別する端末識別子である。端末IDは、例えば電話番号又は個体識別番号であるが、ヘッドセット20へ情報を送信するために使用される通信アドレス(宛先情報)であってもよい。
なお、図3に示すユーザID及び端末IDの末尾のアルファベット「A」〜「E」は、図1で説明したヘッドセット20A〜20E、及び、ユーザA〜Eのアルファベットと対応している。例えば、ユーザID「UID−A」はユーザAのユーザIDであり、端末ID「MID−A」は、ヘッドセット20Aの端末IDである。
なお、言語情報、状態データ、位置情報及びグループ情報の各々は、例えば、ユーザ毎に最新の情報がグループDB13に格納される。
ヘッドセット20の制御部21は、制御プログラムを実行することにより、音声データ送信手段211と、音声データ取得手段212と、報知手段213と、状態データ送信手段214と、位置情報送信手段215とに相当する機能を実現する。
音声データ送信手段211は、音声入力部22への入力音声(例えばユーザの会話の音声)を示す音声データを、通信部24を介して管理サーバ10へ送信する手段である。
音声データ取得手段212は、通信部24により管理サーバ10から音声データが受信されると、受信された音声データを取得する手段である。この音声データは、例えば、他のヘッドセット20の音声データ送信手段211により送信された音声データに対し、翻訳装置30により翻訳処理が行われた後の音声データである。音声出力部23は、音声データ取得手段212が取得した音声データに基づいて、音声を出力する。
報知手段213は、発光部27を制御して、音声データ取得手段212により取得された音声データに基づいて音声出力部23が音声出力したことを報知する手段である。
位置情報送信手段215は、測位部26により測定されたユーザの位置を示す位置情報を、通信部24を介して管理サーバ10へ送信する手段である。
音声データ取得手段111は、通信部12によりヘッドセット20から音声データが受信されると、受信された音声データを取得する手段である。音声データ取得手段111は、音声データ送信手段211により送信された音声データを取得する。
翻訳制御手段112は、音声データ取得手段111が取得した音声データに基づいて、翻訳装置30に翻訳処理を行わせる手段である。翻訳制御手段112は、グループDB13に格納された言語情報に基づいて翻訳処理を行うように、翻訳装置30を制御する。
音声データ送信手段113は、翻訳装置30により翻訳処理が行われた後の音声データを、通信部12を介してヘッドセット20へ送信する手段である。ただし、送受信側のヘッドセット20のユーザの言語情報が同じの場合、音声データ送信手段113は、翻訳処理を行うことなく、音声データを送信する。
評価手段115は、算出した文脈類似度が閾値以上である場合、第1のユーザの発話の内容と第2のユーザの発話の内容との文脈が類似すると評価する。即ち、評価手段115は、発話内容に含まれるキーワード同士の概念としてのつながりの程度を評価し、会話をする第1のユーザ及び第2のユーザを特定(推定)する。
状態データ取得手段117は、状態データ送信手段214により送信された状態データが通信部12により受信されると、当該状態データを取得する手段である。
<A:会話グループの形成>
図4は、会話システム1の会話グループを形成する処理を示すシーケンス図である。図5は、会話グループを形成する処理の具体例を説明する図である。
ヘッドセット20A〜20Eの各々は、ユーザが発話すると、その発話内容を示す会話の音声が入力される(ステップS1)。次に、ヘッドセット20A〜20Eの各々は、自機のユーザの位置を、測位部26を用いて測位する(ステップS2)。ヘッドセット20A〜20Eの各々は、ユーザの入力音声を示す音声データ及び測位したユーザの位置を示す位置情報を、通信部24を介して管理サーバ10へ送信する(ステップS3)。
ヘッドセット20A〜20Eの各々は、ステップS1〜S3の処理を、例えば所定間隔で(例えば5秒毎に)繰り返し実行する。ただし、ヘッドセット20A〜20Eの各々で、ステップS1〜S3の処理の実行タイミングが一致(同期)している必要はない。
他方、ユーザC,D,Eが、ユーザAが発話した直後に、ユーザAの近くで、ユーザAの発話に対する応答を示す発話をする可能性は低いと考えられる。このため、管理サーバ10が、ユーザC,D,EをユーザAと同一の会話グループに分類しないで済む。
ステップS12の報知は、発話者であるユーザAに対して、ユーザBによって会話の音声が聴取されたことを通知するために行われる。ユーザAは、自身が発話した後タイミングで、ヘッドセット20Bの発光部27の発光を知覚すれば、自身の発話内容がユーザBに聴取されたことが分かる。反対に、発光部27の発光がなければ、ユーザAは発話内容が聴取されていない可能性があることが分かるので、再び同じ内容を発話する等の対処を採ることができる。
ステップS12の報知において、ヘッドセット20は、発話者側であるユーザ又は当該ユーザが属する会話グループによって発光の方法(例えば色や発光のパターン)を異ならせてもよい。これにより、ヘッドセット20は、発話者又はどの会話グループでの会話が行われたかを他者に把握させることができる。
図5(b)に示すように、ユーザCとユーザDが同一の会話グループG2に属する場合において、図5(a)に示すように、ユーザCが「どこか旅行に行きたいな。」を意味する発話(ここではドイツ語)をし、ユーザDが「京都が良いと思うよ。」を意味する発話(ここでは仏語)をしたとする。この場合、ユーザCの「旅行」というキーワードと、ユーザDの「京都」というキーワードとの共起頻度が高く、文脈類似度は高くなるはずである。この場合、管理サーバ10は、ユーザC,Dの会話が継続しているものとして、会話グループG2を維持する。ここにおいて、管理サーバ10は、翻訳装置30により同じ言語に翻訳してから文脈類似度を算出してもよいし、翻訳せずに文脈類似度を算出してもよい。
他方、管理サーバ10は、ユーザC,Dの発話内容に基づいて算出した文脈類似度が閾値以下になった場合に、会話が終了したものとして、会話グループG2を解除してもよい。例えば、管理サーバ10は、設定時間継続して文脈類似度が閾値以上にならなかった場合には、会話グループG2を解除する。
会話システム1では、会話グループを形成した後、この会話グループに新たなユーザを追加する機能を有する。例えば、図5で説明した会話グループG1が形成された後、ユーザEがこの会話に途中から参加する場合がある。以下、会話システム1において、会話グループG1に、ユーザEを追加するときの動作を説明する。
会話グループG1,G2が形成された後も、ヘッドセット20A〜20Eの各々は、ステップS1〜S3の処理を実行する。そして、管理サーバ10は、ステップS3の処理で送信された音声データ及び位置情報を通信部12を介して取得すると、ステップS4〜S6の処理を行う。ここで、ユーザEが発したキーワードが、会話グループG1に属するユーザA又はユーザBの発したキーワードとの文脈類似度が閾値以上であり、且つ、ユーザEとユーザA又はユーザBとの間の距離が所定距離以下である場合、管理サーバ10は、会話グループG1にユーザEを追加するようにグループDB13を更新する。この更新により、図7(a)に示すように、会話グループG1がユーザA,B,Eの3者で構成される。即ち、グループDB13においては、図7(b)に示すように、ユーザEのユーザID「UID−E」に対応付けて、グループ情報として「G1」が格納される。
なお、会話グループG1におけるユーザB又はユーザEが発話したときの会話システム1の動作は、以上の説明から容易に類推できるので、説明を省略する。
会話システム1では、会話グループを形成した後、当該会話グループから一部のユーザを除外する機能を有する。複数ユーザからなる会話グループにおいて、一部のユーザが立ち去る等した場合に、会話システム1では当該ユーザを会話グループから除外する。
なお、2人のユーザからなる会話グループからユーザが除外された場合、当該会話グループが解除(消滅)されることとなる。
会話グループに属するヘッドセット20A,20Bの各々は、センサ部25により検知された加速度に基づいて、ユーザの移動状態を検知する(ステップS11)。ユーザの移動状態は、前述のとおり、ユーザの移動の有無と、移動する場合の移動方向や移動速度を含む。次に、ヘッドセット20A,20Bの各々は、検知したユーザの移動状態を示す状態データを、通信部24を介して管理サーバ10へ送信する(ステップS12)。
ヘッドセット20A,20Bの各々は、ただし、ステップS11,S12の処理を、例えば所定間隔で(例えば5秒毎に)繰り返し実行する。ただし、ヘッドセット20A,20Bの各々で、ステップS11,S12の処理の実行タイミングが一致(同期)している必要はない。
管理サーバ10は、状態データが受信されると、受信された状態データを取得して、グループDB13を更新する(ステップS13)。
また、会話システム1では、ユーザ同士が発話した内容が文脈類似の関係にあるかどうかに応じて、会話グループの形成や更新、維持又は解除するので、会話の相手を指定する明示的な動作をユーザが意識して行わなくとも、会話のグループの柔軟な管理を実現することができる。
(変形例1)
会話システム1では、ヘッドセット20の入力音声のレベル(例えば声の大きさ)に基づいて、会話グループの管理を行ってもよい。入力音声のレベルは、ここでは音量レベルであるが、所定の周波数帯域(例えば可聴域)の音圧レベルであってもよく、入力音声のレベルの大小の指標となるものであればよい。
なお、ヘッドセット20が入力音声のレベルを検知するのではなく、管理サーバ10が、ヘッドセット20から取得した音声データに基づいて、入力音声のレベルを検知してもよい。
上述した変形例1に係る構成を変形し、管理サーバ10は、ユーザAとユーザBとからなる会話グループと、ユーザAとユーザCとからなる会話グループとの両方を形成してもよい。そして、管理サーバ10は、各会話グループを形成した後に、音声入力部22にユーザAの入力音声のレベルに基づいて、どちらの会話グループのユーザに会話の音声を聴取させるかを決定する。このとき、管理サーバ10は、入力音声のレベルが低いほどユーザから見て近い位置のユーザが属する会話グループを選択し、入力音声のレベルが高いほどユーザから見て遠い位置のユーザが属する会話グループを選択する。例えば、管理サーバ10は、入力音声のレベルが閾値未満である場合、ユーザBの居る会話グループの会話を実現させ、入力音声のレベルが閾値以上である場合、ユーザCの居る会話グループの会話を実現させる。ユーザは近い場所に居るユーザに対しては小さな声で話し、遠くに居るユーザに対しては大きな声で話すことが一般的である。よって、ユーザに会話グループを選択させることなく、管理サーバ10は、どの会話グループで会話させるかを決定することができる。
上述した実施形態では、ヘッドセット20が管理サーバ10に音声データを送信し、管理サーバ10が受信した音声データに基づいて音声認識を行っていた。これに代えて、図12に示すように、ヘッドセット20が、入力音声を示す音声データに基づいて音声認識を行う(ステップS4A)。そして、ヘッドセット20は、音声認識により得られたキーワードを、位置情報とともに管理サーバ10へ送信してもよい(ステップS3A)。この場合、管理サーバ10は、受信したキーワードに基づいて文脈類似度を算出し(ステップS5)、以降の処理ステップを実行する。即ち、この変形例では、認識手段114に相当する機能を、管理サーバ10ではなく、ヘッドセット20が実現する。また、制御部11は、音声データ送信手段211に代えてキーワードを送信する手段を実現し、制御部21は、キーワードを取得する手段を実現する。
会話システム1では、第1のユーザの発話内容に対して第2のユーザが応答したタイミングに応じて、第1のユーザ及び第2のユーザを同一のグループに分類するかどうかを管理してもよい。以下、ユーザA,Bを例に挙げて、本変形例の具体例を説明する。
会話グループを形成する場合、ユーザAが例えば挨拶の言葉を発した後、その直後の所定時間(例えば5秒間)以下にユーザBが応答する可能性が高い。そこで、管理サーバ10は、ユーザAとユーザBが発したキーワードの文脈類似度が閾値以上の場合で、且つ、発話から応答までの時間が設定時間未満である場合に、ユーザAとユーザBを同一の会話グループに分類してもよい。即ち、管理サーバ10は、ユーザAとユーザBが発したキーワードの文脈類似度が閾値以上の場合であっても、発話から応答までの時間が設定時間以上のときには、ユーザAとユーザBを同一の会話グループに分類しない。
この会話システム1により、各ユーザの会話の流れからより精度良く会話グループを形成することができる。
上記変形例4を変形し、会話システム1では、第1のユーザと第2のユーザを同一の会話グループに分類した後、第1のユーザの発話内容に対して第2のユーザが応答したタイミングに応じて、この会話グループから第1のユーザ又は第2のユーザを除外するかどうかを管理してもよい。以下、ユーザA,Bを例に挙げて、本変形例の具体例を説明する。
会話グループが形成された後であっても、ユーザAが何らかの言葉を発した後、その直後の所定時間(例えば5秒間)以下にユーザBが応答する可能性が高い。そこで、管理サーバ10は、ユーザAとユーザBが発したキーワードの文脈類似度が閾値以上の場合で、且つ、発話から応答までの時間が設定時間未満である場合に、ユーザAとユーザBを同一の会話グループに分類したままとする。他方、管理サーバ10は、ユーザAとユーザBが発したキーワードの文脈類似度が閾値以上の場合であっても、発話から応答までの時間が設定時間以上のときには、ユーザA又はユーザBを会話グループから除外してもよい。管理サーバ10は、例えば、発話から応答までの時間が設定時間以上となった回数が閾値以上、又は頻度が閾値以上になった場合に、ユーザA又はユーザBを会話グループから除外してもよい。
この会話システム1により、各ユーザの会話の流れからより精度良く、会話グループの維持又は解除を制御することができる。
会話グループの形成(更新)の方法は、上述した実施形態で説明した例に限られない。会話システム1において、管理サーバ10(グループ管理手段118)は、ヘッドセット20のユーザの顔が向く方向を示す方向データを取得し、取得した方向データに基づいて、顔が互いに向き合った2以上のユーザを、同一の会話グループに分類してもよい。2人のユーザの顔が互いに向き合った場合とは、これら2人のユーザの顔の向きが正反対を向く。即ち、これら2人のユーザの方向データが示す顔の方向をベクトル化した場合、両ベクトルの成す角は180度である。ただし、方向データが示す方向が正反対でなくても、正反対に近ければ、2人のユーザの顔が互いに向き合ったとみなされる。このとき、両ベクトルの成す角は180±α(αは定数)度の範囲内に収まる。3人以上のユーザの顔が互いに向き合った場合とは、各ユーザの顔が、他の少なくとも1人のユーザの顔と向き合ったことをいう。
この場合、ヘッドセット20は、センサ部25にユーザの顔が向く方向を検知するためのセンサを有し、このセンサにより検知された方向を示す方向データを、管理サーバ10へ送信する。かかるセンサとしては、3軸加速度、3軸角速度及び3軸地磁気の9軸モーションセンサや、ジャイロセンサ(角速度センサ)、地磁気センサ等を用いることができる。
なお、ここでは、2以上のユーザの顔が同時に向き合う場合を想定するが、同時に限られず、或る程度の時間差があってもよい。
会話システム1において、ユーザ属性が所定の関係を満たすユーザ同士を、同一の会話グループに分類してもよい。ユーザ属性は、例えば、言語情報、年齢、性別、出身地、職業及び趣味等のユーザの属性であるが、他の属性であってもよい。ユーザ属性については、予めグループDB13に情報を格納しておき、管理サーバ10はこれに従えばよい。
上述した実施形態で説明した構成又は動作の一部が省略されてもよい。
例えば、会話システム1において、<B:会話グループの更新/ユーザの追加>及び<C:会話グループからのユーザの除外/移動状態>1つ以上が省略されてもよい。
会話システム1において、発光部27の発光以外の方法(例えば、音声出力)でユーザへの報知が行われてもよいし、ユーザへの報知が省略されてもよい。
会話システム1において、測位部26の測位結果に基づいて会話グループを形成する構成が省略されてもよい。この場合に、管理サーバ10は、ユーザ同士の位置関係やユーザ間の距離に関係なく、文脈類似度に基づいて会話グループを管理してもよい。
会話システム1において、各ユーザの使用する言語が同じである場合には、翻訳処理に係る構成(例えば翻訳装置30や翻訳制御手段112)が省略されてもよい。また、会話システム1において、翻訳装置30ではなく、通訳者によって翻訳が行われてもよい。
会話システム1において、ヘッドセット20は、ユーザの移動状態を検知する機能、又は、ユーザの位置を測定する機能を有しなくてもよい。この場合、無線通信端末Pがユーザの移動状態を検知する機能、又は、ユーザの位置を測定する機能を有していれば、管理サーバ10は、上述した実施形態と同じ方法で会話グループを管理することができる。
上述した実施形態の会話システム1では、複数の無線アクセスポイントから受信した電波の強度及び到達時間に基づいて三点測量を行うことにより、ユーザの位置を測定していたが、適用可能な屋内測位技術はこの例に限られない。会話システム1では、例えば、出発点の位置を確定後、加速度センサやジャイロセンサ等を組み合わせて現在位置を測定する自律航法を採用してもよいし、Bluetooth発信機からの電波を受信して、受信した電波に含まれる発信機の識別情報及び受信した電波の強度に基づいて、現在位置を測定してもよい。また、測位部26は、超音波等の音波や可視光又は赤外光等の光を用いて測位してもよい。
会話システム1において、ユーザが他のユーザと対面したときに操作部28を操作した場合に、会話グループを形成する処理が行われてもよい。これにより、より高い精度でユーザの意図する相手と会話グループを形成しやすくなる。
会話システム1において、複数のヘッドセット20の各々を使用するユーザの頭部の動き(動作)に基づいて、会話する2以上のユーザを特定してもよい。ユーザの頭部の動きについては、例えば、センサ部25が備える加速度センサの検知結果に基づいて制御部21が特定する。そして、制御部21は、ユーザの発話内容を示す音声データを送信する際には、この音声データとともに、発話したタイミング(例えば、発話前又は/及び発話後)でのユーザの頭部の動きの検知結果を、管理サーバ10へ送信する。管理サーバ10の制御部11は、上述した実施形態で説明した文脈の類似度合いの評価の結果に加えて、ユーザの頭部の動きの検知結果に基づいて、各ユーザが属する会話グループの管理を行う。例えば、発話側のユーザは、発話した直後に会話の相手の方向を見るために、頭部を動かすことがある。他方、聞き手側のユーザは、相手方の発話中(即ち、自身の発話前)に、発話内容への同意や相槌によるうなずき等の、相手方の発話内容への応答を示す動作をすることがある。そこで、制御部11は、文脈の類似度合いに加えて、発話前又は/及び発話後の動きが所定の条件を満たす2以上のユーザを、同一のグループに分類する。この変形例によれば、実際に会話している2以上のユーザを、より高い精度で同じ会話グループに分類しやすくなる。
ヘッドセット20は、ユーザの頭又は耳に装着して使用される通信機器であったが、本発明の通信機器は、他の形態の通信端末で実現されてもよい。本発明の通信機器は、頭部又は顔に装着されるヘッドマウントディスプレイで例示される眼鏡型の各種のウェアラブルコンピュータ)であってもよいし、本発明の通信機器は、ユーザが手に持って使用するスマートフォンやタブレット端末、フィーチャーフォン、ハンドセット等により実現されてもよい。
ヘッドセット20は、自機の機能によりネットワーク100に接続(無線接続)可能である場合には、無線通信端末Pを介さずに、ネットワーク100に接続してもよい。
また、無線通信端末Pは、ヘッドセット20から受信した音声データに基づいて音声認識を行うことにより、当該音声データを文字コードに変換してから送信してもよい。この場合、翻訳装置30は、無線通信端末Pから受信した文字コードに基づいて翻訳処理を行う。
上述した実施形態で管理サーバ10が実現していた会話システムの管理装置としての機能を、ユーザが使用するヘッドセット20又は無線通信端末Pが実現してもよい。この場合に、ヘッドセット20又は無線通信端末Pが、翻訳処理を実行する機能を有してもよい。この場合、会話システム1において、管理サーバ10が不要である。例えば、マスタとなるヘッドセット20は自機のユーザの入力音声を示す音声データと、他のヘッドセットのユーザの入力音声を示す音声データとを取得し、文脈類似度に基づいて会話グループを形成する。ヘッドセット20又は無線通信端末Pの各々が、マスタ又はスレーブのいずれとなるかについては、ユーザにより設定されてもよいし、自動で設定されてもよい。
上述した実施形態において、管理サーバ10の制御部11やヘッドセット20の制御部21が実現する各機能は、複数のプログラムの組み合わせによって実現され、又は、複数のハードウェア資源の連係によって実現されうる。制御部11,21の機能がプログラムを用いて実現される場合、このプログラムは、磁気記録媒体(磁気テープ、磁気ディスク(HDD(Hard Disk Drive)、FD(Flexible Disk))等)、光記録媒体(光ディスク等)、光磁気記録媒体、半導体メモリ等のコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよいし、ネットワークを介して配信されてもよい。また、本発明は、クラウドコンピューティングを用いて実現されてもよい。また、本発明は、会話システムの管理方法として把握することも可能である。
Claims (10)
- 音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する第1のユーザ及び第2のユーザを含む複数のユーザを、グループ分けし、
同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話システムの管理装置であって、
前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得する取得手段と、
取得された前記音声データ又は前記キーワードに基づいて、前記第1のユーザの入力音声から認識された前記キーワードと、前記第2のユーザの入力音声から認識された前記キーワードの共起頻度に基づく値である文脈類似度を算出する評価手段と、
前記算出された文脈類似度が閾値以上である場合に、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するグループ管理手段と
を備える管理装置。 - 前記評価手段は、
前記第1のユーザの発話内容と、当該発話内容に対する前記第2のユーザの応答を特定し、前記文脈類似度を算出する
ことを特徴とする請求項1に記載の管理装置。 - 前記グループ管理手段は、
前記第1のユーザの発話内容に対して前記第2のユーザが応答したタイミングに応じて、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するかどうかを管理する
ことを特徴とする請求項2に記載の管理装置。 - 前記グループ管理手段は、
前記第1のユーザ及び前記第2のユーザを前記同一のグループに分類した後、前記第1のユーザの発話内容に対して前記第2のユーザが応答したタイミングに応じて、当該グループから前記第1のユーザ又は前記第2のユーザを除外する
ことを特徴とする請求項2又は請求項3に記載の管理装置。 - 前記複数のユーザの位置又はユーザ間の距離を特定する特定手段を備え、
前記グループ管理手段は、
前記第1のユーザ及び前記第2のユーザについて特定された前記位置又は前記距離が所定条件を満たした場合に、当該第1のユーザ及び当該第2のユーザを、前記同一のグループに分類する
ことを特徴とする請求項1から請求項4のいずれか1項に記載の管理装置。 - 前記グループ管理手段は、
前記特定された前記位置又は前記距離と、前記第1のユーザの入力音声のレベルとに基づいて、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するかどうかを管理する
ことを特徴とする請求項5に記載の管理装置。 - 前記第1のユーザ及び前記第2のユーザの移動状態を示す状態データを取得する状態データ取得手段を備え、
前記グループ管理手段は、
前記第1のユーザ及び前記第2のユーザを前記同一のグループに分類した後、取得された前記状態データに応じて、当該グループから前記第1のユーザ又は前記第2のユーザを除外する
ことを特徴とする請求項1から請求項6のいずれか1項に記載の管理装置。 - 第1のユーザ及び第2のユーザを含む複数のユーザの各々に使用され、音声データを送受信して音声の入出力を行う複数の通信機器と、
前記複数のユーザをグループ分けし、同一のグループに属する前記ユーザ間で前記音声の入出力による会話を実現させる管理サーバと
を備える会話システムであって、
前記複数の通信機器の各々は、
自機を使用する前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを、前記管理サーバへ送信する送信手段
を有し、
前記管理サーバは、
前記送信手段により送信された前記音声データ、又は、前記キーワードを取得する取得手段と、
取得された前記音声データ又は前記キーワードに基づいて、前記第1のユーザの入力音声から認識された前記キーワードと、前記第2のユーザの入力音声から認識された前記キーワードの共起頻度に基づく値である文脈類似度を算出する評価手段と、
前記算出された文脈類似度が閾値以上である場合に、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するグループ管理手段と
を有する会話システム。 - 音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する第1のユーザ及び第2のユーザを含む複数のユーザを、グループ分けし、
同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話管理方法であって、
前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得手段が取得するステップと、
取得した前記音声データ又は前記キーワードに基づいて、前記第1のユーザの入力音声から認識された前記キーワードと、前記第2のユーザの入力音声から認識された前記キーワードの共起頻度に基づく値である文脈類似度を評価手段が算出するステップと、
前記算出された文脈類似度が閾値以上である場合に、前記第1のユーザ及び前記第2のユーザを、前記同一のグループにグループ管理手段が分類するステップと
を備える会話管理方法。 - 音声データを送受信して音声の入出力を行う複数の通信機器の各々を使用する複数のユーザを、グループ分けし、
同一のグループに属する前記ユーザ間で、前記音声の入出力による会話を実現させる会話システムを管理するコンピュータに、
前記複数の通信機器の各々に入力された前記ユーザの入力音声を示す音声データ、又は、当該入力音声から認識されたキーワードを取得するステップと、
取得した前記音声データ又は前記キーワードに基づいて、第1のユーザの入力音声から認識された前記キーワードと、第2のユーザの入力音声から認識された前記キーワードの共起頻度に基づく値である文脈類似度を算出するステップと、
前記算出された文脈類似度が閾値以上である場合に、前記第1のユーザ及び前記第2のユーザを、前記同一のグループに分類するステップと
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014122332A JP6385150B2 (ja) | 2014-06-13 | 2014-06-13 | 管理装置、会話システム、会話管理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014122332A JP6385150B2 (ja) | 2014-06-13 | 2014-06-13 | 管理装置、会話システム、会話管理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016004066A JP2016004066A (ja) | 2016-01-12 |
JP6385150B2 true JP6385150B2 (ja) | 2018-09-05 |
Family
ID=55223401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014122332A Active JP6385150B2 (ja) | 2014-06-13 | 2014-06-13 | 管理装置、会話システム、会話管理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6385150B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6927318B2 (ja) * | 2017-10-13 | 2021-08-25 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7006176B2 (ja) * | 2017-11-22 | 2022-01-24 | 株式会社ぐるなび | 情報処理装置、情報処理方法及びプログラム |
WO2019139101A1 (ja) * | 2018-01-12 | 2019-07-18 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN111798848A (zh) * | 2020-06-30 | 2020-10-20 | 联想(北京)有限公司 | 语音同步输出方法、装置及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4442007B2 (ja) * | 2000-03-30 | 2010-03-31 | Kddi株式会社 | 移動端末にグループ通信を提供するシステム |
JP4853001B2 (ja) * | 2005-11-30 | 2012-01-11 | 日本電気株式会社 | 情報交換システム、情報交換方法、及び、情報交換プログラムとその記録媒体 |
WO2008078555A1 (ja) * | 2006-12-22 | 2008-07-03 | Nec Corporation | 会議制御方法、システム及びプログラム |
JP5034111B2 (ja) * | 2008-02-04 | 2012-09-26 | 日本電気株式会社 | データ蓄積システム、データ蓄積再生方法及びプログラム |
JP5912456B2 (ja) * | 2011-11-28 | 2016-04-27 | 富士通テン株式会社 | グループ通信システムおよび通信装置 |
-
2014
- 2014-06-13 JP JP2014122332A patent/JP6385150B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016004066A (ja) | 2016-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11792577B2 (en) | Differential amplification relative to voice of speakerphone user | |
US11153678B1 (en) | Two-way wireless headphones | |
US11979716B2 (en) | Selectively conditioning audio signals based on an audioprint of an object | |
JP6402748B2 (ja) | 音声対話装置および発話制御方法 | |
US20200012724A1 (en) | Bidirectional speech translation system, bidirectional speech translation method and program | |
WO2017034736A2 (en) | Personal translator | |
US20190138603A1 (en) | Coordinating Translation Request Metadata between Devices | |
JP6385150B2 (ja) | 管理装置、会話システム、会話管理方法及びプログラム | |
CN104604250A (zh) | 用于耳机的智能通知工具 | |
WO2019213443A1 (en) | Audio analytics for natural language processing | |
US11367443B2 (en) | Electronic device and method for controlling electronic device | |
AU2018277650B2 (en) | Adaptation of the auditory output of an electronic digital assistant in accordance with an indication of the acoustic environment | |
JP6286289B2 (ja) | 管理装置、会話システム、会話管理方法及びプログラム | |
US20160366528A1 (en) | Communication system, audio server, and method for operating a communication system | |
US9832587B1 (en) | Assisted near-distance communication using binaural cues | |
WO2016206646A1 (zh) | 使机器装置产生动作的方法及系统 | |
CN112823047A (zh) | 用于控制网络应用程序的系统和设备 | |
JP2018185372A (ja) | 情報処理装置、情報処理プログラム、および建物 | |
KR20200003529A (ko) | 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법 | |
US11935557B2 (en) | Techniques for detecting and processing domain-specific terminology | |
US20170024184A1 (en) | Control method and control device | |
US20230035531A1 (en) | Audio event data processing | |
WO2023010012A1 (en) | Audio event data processing | |
WO2023010011A1 (en) | Processing of audio signals from multiple microphones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180329 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180724 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6385150 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |