JP2017118364A - コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム - Google Patents

コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム Download PDF

Info

Publication number
JP2017118364A
JP2017118364A JP2015252585A JP2015252585A JP2017118364A JP 2017118364 A JP2017118364 A JP 2017118364A JP 2015252585 A JP2015252585 A JP 2015252585A JP 2015252585 A JP2015252585 A JP 2015252585A JP 2017118364 A JP2017118364 A JP 2017118364A
Authority
JP
Japan
Prior art keywords
speaker
participant
unit
information
next speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015252585A
Other languages
English (en)
Inventor
亮 石井
Akira Ishii
亮 石井
和弘 大塚
Kazuhiro Otsuka
和弘 大塚
史朗 熊野
Shiro Kumano
史朗 熊野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015252585A priority Critical patent/JP2017118364A/ja
Publication of JP2017118364A publication Critical patent/JP2017118364A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】ネットワークを介して受信する音声信号および映像信号が遅延している場合でも円滑なコミュニケーションを実現することができるコミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラムを提供する。
【解決手段】会話に参加する複数の参加者を撮影した映像信号に基づいて表示する表示部103と、参加者の呼吸情報、参加者の頭部の動きに関する情報である頭部情報および参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、参加者の音声を集音した音信号とに基づいて、次話者を推定した次話者情報を出力する次話者推定部107と、次話者情報に基づいて、表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を表示部に表示させる映像制御部109とを備える。
【選択図】図2

Description

本発明は、コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラムに関する。
従来、テレビ会議システム等を用いることで、遠隔地にいる複数の参加者が、会話を行うことができる。一般的なテレビ会議システムは、参加者の音声を集音するマイクと、参加者を撮影するカメラと、表示装置と、スピーカと、通信部とを備えるテレビ会議端末を用いて構成される。通信部はネットワークを介して他のテレビ会議端末と通信を行い、他のテレビ会議端末から音声信号及び映像信号を受信する。表示装置は、カメラからの映像信号および通信部が他のテレビ会議端末から受信した映像信号を合成または切り換えて表示する。スピーカは、通信部が他のテレビ会議端末から受信した音声信号に基づいて発音する。
特開2001−268563号公報
従来、遠隔地にそれぞれ設置された複数のテレビ会議端末をネットワークで接続したテレビ会議システムがある。テレビ会議端末は、例えば、カメラと、マイクと、スピーカと、ディスプレイとを備えた構成である。テレビ会議端末は、テレビ会議端末の前に座っているテレビ会議の参加者の姿をカメラで撮影し、参加者の音声をマイクで集音して、カメラからの映像信号及びマイクからの音声信号を、ネットワークを介して他のテレビ会議端末へ送信する機能を有する。テレビ会議端末は、ネットワークを介して他のテレビ会議端末から受信した音声信号をスピーカから出力し、ネットワークを介して他のテレビ会議端末から受信した映像信号をディスプレイに表示する機能を有する。
このように、従来のテレビ会議システムは、ネットワークを介して音声信号および映像信号を伝送しているので、他のテレビ会議端末からの音声信号をスピーカから出力するタイミングおよび他のテレビ会議端末からの映像信号をディスプレイに表示するタイミングは、遅延が生じている。この遅延のため、あるテレビ会議端末の前にいる参加者は、他のテレビ会議端末の前にいる他の参加者が話を始めたことに気付かずに、話始めてしまうことがある。このように、テレビ会議において複数の参加者の発話が重なってしまうことを発話衝突という。このような発話衝突の発生は、円滑なコミュニケーションを阻害するという問題がある。また、参加者は、上述した遅延のため自分の発言に対する他の参加者からの応答が遅いと感じることで、ストレスを感じたり、違和感を覚えたりする。このようなストレスや違和感も円滑なコミュニケーションを阻害する原因となる。
上記事情に鑑み、本発明は、ネットワークを介して受信する音声信号および映像信号が遅延している場合でも円滑なコミュニケーションを実現することができるコミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラムを提供することを目的としている。
本発明の一態様は、会話に参加する複数の参加者の音声を含む音を集音して第1の音信号を出力する集音部と、前記参加者を撮影して第1の映像信号を出力する撮像部と、前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、前記集音部からの前記第1の音信号とに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した第1の次話者情報を出力する次話者推定部と、前記撮像部が出力する前記第1の映像信号に基づいて前記参加者の映像を表示する表示部と、前記次話者推定部が出力した前記第1の次話者情報に基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる映像制御部と、を備えるコミュニケーションシステムである。
本発明の一態様は、前記のコミュニケーションシステムであって、前記集音部からの前記第1の音信号に基づいて前記参加者の中で発話中である現話者を特定して現話者情報を出力する現話者特定部を更に備え、前記映像制御部は、前記現話者特定部が出力した前記現話者情報に基づいて、前記表示部に表示される参加者が現話者であると判断された場合に、現話者であることを示す表示態様で現話者と判断された参加者を前記表示部に表示させる。
本発明の一態様は、前記のコミュニケーションシステムであって、前記集音部からの前記第1の音信号と前記撮像部からの前記第1の映像信号とに基づいて、前記参加者の中で発話中である現話者の話の受け手である受話者を推定して受話者情報を出力する受話者推定部を更に備え、前記映像制御部は、前記受話者推定部が出力した前記受話者情報に基づいて、前記表示部に表示される参加者が受話者であると判断された場合に、受話者であることを示す表示態様で受話者と判断された参加者を前記表示部に表示させる。
本発明の一態様は、前記のコミュニケーションシステムであって、前記次話者、前記現話者または前記受話者であることを示す前記表示態様は、前記次話者、前記現話者または前記受話者である参加者の表示領域を強調する枠で囲うことである。
本発明の一態様は、前記のコミュニケーションシステムであって、前記参加者の内の少なくとも1人は遠隔地にいる場合に、遠隔地にいる前記参加者を撮影した第2の映像信号と、遠隔地にいる前記参加者の音声を含む第2の音信号と、遠隔地にいる前記参加者における次話者を推定した第2の次話者情報とを受信する受信部と、前記集音部からの前記第1の音信号および前記受信部が受信した前記第2の音信号に応じて発音する発音部とをさらに備え、前記表示部は、前記撮像部が出力する前記第1の映像信号と、前記受信部が受信した前記第2の映像信号とに基づいて前記参加者の映像を表示し、前記映像制御部は、前記次話者推定部が出力した前記第1の次話者情報と、前記受信部が受信した第2の次話者情報とに基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる。
本発明の一態様は、会話に参加する複数の参加者の音声を含む音を集音して音信号を出力する集音部からの前記音信号が入力される音声入力部と、前記参加者を撮影して映像信号を出力する撮像部からの前記映像信号が入力される映像入力部と、前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、前記集音部からの前記音信号とに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、前記映像入力部に入力された前記映像信号に基づいて前記参加者の映像を表示する表示部と、前記次話者推定部が出力した前記次話者情報に基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる映像制御部と、を備えるコミュニケーション装置である。
本発明の一態様は、表示部を備え、会話に参加する複数の参加者の音声を含む音を集音して音信号を出力する集音部と前記参加者を撮影して映像信号を出力する撮像部とに接続されたコミュニケーション装置で実行されるコミュニケーションプログラムであって、前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、前記集音部からの前記音信号とに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定ステップと、前記撮像部が出力した前記映像信号に基づいて前記参加者の映像を前記表示部に表示させる表示ステップと、前記次話者推定ステップにおいて出力した前記次話者情報に基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる映像制御ステップと、をコンピュータに実行させるためのコミュニケーションプログラムである。
本発明により、ネットワークを介して受信する音声信号および映像信号が遅延している場合でも円滑なコミュニケーションを実現することができる。
第1の実施形態における複数のテレビ会議システムを含む通信システムの全体構成の概略を示す図である。 第1の実施形態におけるテレビ会議システム1の詳細な構成例を示す図である。 第1の実施形態における次話者確率Pns (t)の算出例を示す図である。 第1の実施形態における映像制御部109の制御により現話者と次話者を強調表示した例を示す図である。 第1の実施形態におけるテレビ会議システム1の動作を示すフロー図である。 第1の実施形態の変形例における表示部103に表示される画面例を示す図である。 第2の実施形態におけるテレビ会議システム1aの構成例を示す図である。 第2の実施形態における表示部103に表示される画面例1を示す図である。 第2の実施形態における表示部103に表示される画面例2を示す図である。 第2の実施形態におけるテレビ会議システム1aの動作を示すフロー図である。 息の吸い込み区間の例を示す図である。 注視対象ラベルの具体例を示す図である。 話者である参加者P1(R=S)の注視対象ラベルL1についての時間構造情報を示す図である。
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1は、第1の実施形態における複数のテレビ会議システム(コミュニケーションシステム)を含む通信システムの全体構成の概略を示す図である。
図1に示すように、テレビ会議システム1−1、1−2、1−3、…は、専用通信網またはインターネット等であるネットワーク13を介して接続されている。各テレビ会議システム1−1、1−2、1−3、…は、それぞれテレビ会議端末(コミュニケーション装置)10−1、10−2、10−3、…と、各テレビ会議端末10−1、10−2、10−3、…に接続されている参加者の声を集音するためのマイク(集音部)11−1、11−2、11−3、…と、各テレビ会議端末10−1、10−2、10−3、…に接続されている参加者を撮影するためのカメラ12−1、12−2、12−3、…とを備える。
以下の説明において、テレビ会議システム1−1、1−2、1−3、…内のいずれかのテレビ会議システム、テレビ会議端末10−1、10−2、10−3、…内のいずれかのテレビ会議端末、マイク11−1、11−2、11−3、…内のいずれかのマイク、カメラ12−1、12−2、12−3、…内のいずれかのカメラを特に区別する必要がない場合は、単に、テレビ会議システム1、テレビ会議端末10、マイク11、カメラ12と称する。
テレビ会議システム1は、テレビ会議端末10の前に座っているテレビ会議の参加者の映像および音声を他のテレビ会議端末10と送受信を行う機能を有する。これにより、テレビ会議システム1は、複数の参加者がテレビ会議を行うことができる環境をテレビ会議の参加者に提供することができる。
テレビ会議端末10は、カメラ12で撮影した参加者の映像信号と、マイク11で集音した参加者の音声信号とを、ネットワーク13を介して、他のテレビ会議端末10へ送信する機能を有する。テレビ会議端末10は、他のテレビ会議端末10から他のテレビ会議端末10の前に座っている参加者の映像信号および音声信号を受信する機能を有する。1台のテレビ会議端末10の前には、1人または複数人の参加者が座っている。
1台のテレビ会議端末10に対して複数人の参加者がいる場合は、その人数分のマイク11及びカメラ12が設置されており、各参加者の音声が各マイク11に入力され、各参加者の映像が各カメラ12で撮影される。マイク11とカメラ12は、参加者別に一組ずつ設置される構成であり、マイク11を特定すると、カメラ12も特定することができる。例えば、一組のマイク11及びカメラ12からの音声信号及び映像信号に同じ識別情報を関連付けて、音声信号及び映像信号の処理を行う構成とする。
テレビ会議端末10は、マイク11からの音声信号を含む音信号(以下の説明では単に音声信号という)が入力される音声入力部101と、カメラ12からの映像信号が入力される映像入力部102と、映像入力部102に入力された映像信号および他のテレビ会議端末10から受信した映像信号を合成して表示する液晶ディスプレイ等の表示部103と、他のテレビ会議端末10から受信した音声信号に基づいた音声を出力するスピーカ(発音部)104とを備える。
以上の構成により、テレビ会議システム1は、遠隔地にいる複数の参加者がお互いに発話する映像および音声を確認することができるテレビ会議可能な環境を提供する。また、第1の実施形態のテレビ会議システム1は、テレビ会議に参加している参加者の中から、現在発話を行っている参加者である現話者を特定する機能と、現話者が話しかけている参加者である受話者を推定する機能と、次に話を行う参加者である次話者を推定する機能とを有する。第1の実施形態のテレビ会議システム1は、特定した現話者の音声及び映像と、推定した受話者の音声及び映像と、推定した次話者の音声及び映像とを優先的に出力及び表示する機能を備える点が特徴の一つである。以下、テレビ会議システム1の特徴となる構成例の詳細について説明する。
テレビ会議システム1は、音声信号から発話区間を自動で検出するVAD(Voice Activity Detection)機能を有し、推定した次話者の情報に基づいて精度良く発話区間を検出する機能をさらに備えてもよい。
図2は、第1の実施形態におけるテレビ会議システム1の詳細な構成例を示す図である。図2に示すように、テレビ会議システム1は、テレビ会議端末10と、マイク11と、カメラ12と、呼吸動作計測装置14と、注視対象検出装置15と、頭部動作計測装置16とを備える。テレビ会議端末10は、テレビ会議の各参加者に装着された呼吸動作計測装置14および注視対象検出装置15から、それぞれ呼吸情報および注視対象情報を受信する機能を有する。呼吸動作計測装置14は、参加者の呼吸動作を計測し、各離散時刻tでの計測結果を表す呼吸情報を出力する装置であり、その詳細については後述する。注視対象検出装置15は、参加者の視線を検出し、各離散時刻tでの参加者が注視している対象に関する情報である注視対象情報を出力する装置であり、その詳細については後述する。頭部動作計測装置16は、参加者の頭部の動きを計測し、各離散時刻tでの計測結果を表す頭部動作情報を出力する装置であり、その詳細については後述する。
テレビ会議端末10は、音声入力部101と、映像入力部102と、表示部103と、スピーカ104と、現話者特定部105と、受話者推定部106と、次話者推定部107と、通信部108と、映像制御部109と、音声制御部110とを備える。
音声入力部101は、マイク11からの音声信号を入力とし、現話者特定部105、受話者推定部106、次話者推定部107、通信部108および音声制御部110へ音声信号を出力する。音声入力部101は、マイク11からの音声信号を、テレビ会議端末10内で処理可能な信号形式の音声信号に変換する等の処理を行う。映像入力部102は、カメラ12からの映像信号を入力とし、現話者特定部105、受話者推定部106、次話者推定部107、通信部108および映像制御部109へ映像信号を出力する。映像入力部102は、カメラ12からの映像信号を、テレビ会議端末10内で処理可能な信号形式の映像信号に変換する等の処理を行う。
現話者特定部105は、音声入力部101からの音声信号および映像入力部102からの映像信号を入力とし、その音声信号に基づいて現話者を特定し、現話者情報を出力する。現話者特定部105は、例えば、音声入力部101からの音声信号に基づいて、音声信号の信号レベルについて所定期間の平均値を求め、その平均値が閾値以上であれば、当該音声信号を出力したマイク11に対応する参加者を現話者として特定する。現話者特定部105は、映像信号を用いて、参加者の口の動きを検出して、上記平均値と閾値の比較結果に加えて、口の動きの検出結果も考慮して現話者か否かの判断を行うようにしてもよい。現話者特定部105は、現話者情報を、受話者推定部106、通信部108、映像制御部109および音声制御部110へ出力する。
現話者を特定する他の方法として、現話者特定部105は、マイク11からの音声信号において、音声の存在する区間(発話区間)と音声の存在しない区間(非発話区間)を自動的に検出するVAD(Voice Activity Detection)技術を用いて、発話区間が検出されたマイク11に対応する参加者を現話者として特定してもよい。多人数の多マイクにおけるVAD技術については、例えば、以下の参考文献1に記載されている。
参考文献1:澤田 宏、外4名、"多人数多マイクでの発話区間検出〜ピンマイクでの事例〜"、日本音響学会 春季研究発表会、pp.679−680、2007年3月
受話者推定部106は、音声入力部101からの音声信号と、映像入力部102からの映像信号と、現話者特定部105からの現話者情報とを入力とし、現話者が話しかけている参加者である受話者を推定する。受話者推定部106は、音声入力部101からの音声信号に基づいて、発話のピッチ、発話のパワー、話速等の韻律特徴量を解析して解析結果を音声特徴量として取得する。受話者推定部106は、現話者情報に基づいて現話者を特定し、特定した現話者の顔の向きを映像入力部102からの映像信号に基づいて判定する。この顔の向きを判定する処理は、話者が発話時に受話者の方向に顔を向けることが多いという経験に基づいて行っている。受話者推定部106は、音声特徴量と現話者の顔の向きとに基づいて受話者を推定する。受話者推定部106は、推定した受話者情報を、通信部108、映像制御部109および音声制御部110へ出力する。
上述した受話者を推定する技術は、公知の技術であり、例えば、以下の参考文献2に記載されている。
参考文献2:中野 有紀子、外3名、“非言語情報に基づく受話者推定機構を用いた多人数会話システム”、人工知能学会論文誌 29巻1号、pp.69−79、2014年
上述した受話者を推定する方法では、現話者の顔の向きから受話者を推定していたが、本実施形態のテレビ会議端末10には、各参加者に装着された注視対象検出装置15が接続されているので、現話者に装着された注視対象検出装置15からの注視対象情報に基づいて、現話者の注視対象である受話者を特定してもよい。
次話者推定部107は、音声入力部101からの音声信号と、映像入力部102からの映像信号と、呼吸動作計測装置14からの呼吸情報と、注視対象検出装置15からの注視対象情報と、頭部動作計測装置16からの頭部動作情報とを入力とし、各参加者が時刻tに次話者となる確率である次話者確率を求めて、その次話者確率に基づいて推定した次話者に関する情報である次話者情報を出力する。次話者推定部107は、音声入力部101からの音声信号、映像入力部102からの映像信号、呼吸動作計測装置14からの呼吸情報、注視対象検出装置15からの注視対象情報および頭部動作計測装置16からの頭部動作情報に基づいて、各参加者iが時刻tに次話者となる確率である次話者確率Pns (t)を算出する。次話者推定部107は、算出した次話者確率Pns (t)を閾値と比較して次話者を推定し、推定した次話者を示す次話者情報を通信部108、映像制御部109および音声制御部110へ出力する。次話者推定部107は、閾値を超える次話者確率Pns (t)の参加者が複数いるのであれば、複数の参加者を次話者として推定してもよい。
図3は、第1の実施形態における次話者確率Pns (t)の算出例を示す図である。図3においては、4名の参加者A〜Dについて参加者Aの発話の切れ目となる時刻tbue以降における次話者確率Pns (t)の変化例を示している。符号31を付与した矩形は、参加者Aの発話区間を示している。発話区間31は、発話終了時刻tbueで終了している。次話者確率Pns (t)32で示す点線は、参加者Aにおける発話終了時刻tbue以降の時刻tにおける次話者確率の変化を示している。次話者確率Pns (t)33で示す点線は、参加者Bにおける発話終了時刻tbue以降の時刻tにおける次話者確率の変化を示している。次話者確率Pns (t)34で示す点線は、参加者Cにおける発話終了時刻tbue以降の時刻tにおける次話者確率の変化を示している。次話者確率Pns (t)35で示す点線は、参加者Dにおける発話終了時刻tbue以降の時刻tにおける次話者確率の変化を示している。このように、次話者推定部107は、参加者iの発話終了時刻tbue以降の時刻tにおける次話者確率Pns (t)の変化を算出する。なお、次話者推定部107における次話者の推定処理の詳細については後述する。
通信部108は、他のテレビ会議端末10とネットワーク13を介して通信を行う。通信部108は、他のテレビ会議端末10から他のテレビ会議端末10に接続されたマイク11で集音された音声信号および他のテレビ会議端末10に接続されたカメラ12で撮影された映像信号を受信する。通信部108は、他のテレビ会議端末10から話者情報を受信する。通信部108は、他のテレビ会議端末10から受信した、映像信号および話者情報を映像制御部109へ出力する。通信部108は、他のテレビ会議端末10から受信した、音声信号および話者情報を音声制御部110へ出力する。
通信部108は、音声入力部101からの音声信号、映像入力部102からの映像信号、現話者特定部105からの現話者情報、受話者推定部106からの受話者情報および次話者推定部107からの次話者情報が入力され、入力された音声信号、映像信号、現話者情報、受話者情報及び次話者情報を所定の信号形式でネットワーク13を介して他のテレビ会議端末10へ送信する。以下の説明において、現話者情報、受話者情報及び次話者情報をまとめて話者情報という。
映像制御部109は、映像入力部102からの映像信号、現話者特定部105からの現話者情報、受話者推定部106からの受話者情報および次話者推定部107からの次話者情報を入力とし、かつ、通信部108からの通信部108が他のテレビ会議端末10から受信した映像信号および話者情報を入力とする。映像制御部109は、映像入力部102からの映像信号と、通信部108が受信した他のテレビ会議端末10からの映像信号とを処理して、全参加者の映像、他のテレビ会議端末10の前にいる全参加者の映像または全参加者の内の一部の参加者の映像を表示部103に表示する制御を行う。
映像制御部109は、現話者特定部105からの現話者情報、受話者推定部106からの受話者情報および次話者推定部107からの次話者情報に基づいて、映像入力部102からの映像信号の中に、現話者、受話者、次話者である参加者が映っているか否かを判断する機能をする。映像制御部109は、映像入力部102からの映像信号の中に、現話者、受話者および次話者のいずれかである参加者が映っていると判断したものがある場合は、その現話者、受話者および次話者のいずれかの映像を表示部103に表示する。
映像制御部109は、通信部108が受信した他のテレビ会議端末10からの現話者情報、受話者情報および次話者情報に基づいて、通信部108が受信した他のテレビ会議端末10からの映像信号の中に、現話者、受話者、次話者である参加者が映っているか否かを判断する機能をする。映像制御部109は、通信部108が受信した他のテレビ会議端末10からの映像信号の中に、現話者、受話者および次話者のいずれかである参加者が映っていると判断したものがある場合は、その参加者が現話者、受話者および次話者のいずれかであることが分かるように表示部103に表示する。
図4は、第1の実施形態における映像制御部109の制御により現話者と次話者を強調表示した例を示す図である。図4において、テレビ会議への参加者は、参加者A〜Dの4人であり、各参加者A〜Dはそれぞれ遠隔地にいてテレビ会議端末10の前に座っているものとする。そして、映像制御部109は、表示部103の画面40において、表示領域41〜44に、それぞれ4人の参加者A〜Dの映像を常時表示させている。
参加者Aの前にあるテレビ会議端末10内の映像制御部109は、映像入力部102からの映像信号を表示領域41に表示して、通信部108が受信した参加者B〜Dの映っている映像信号をそれぞれ表示領域42〜44に表示する。また、映像制御部109は、話者情報に基づいて、現話者、受話者および次話者を表示する場合には、該当する参加者の映像に対して、現話者、受話者および次話者のいずれであるのか分かるように表示する。
図4では、映像制御部109は、話者情報に基づいて参加者Aが現話者であるとした場合に、表示領域41の上部に「現話者」と表示する現話者示唆部45と、表示領域41の周囲に現話者を示す色(例えば青色)の強調枠46とを表示する。映像制御部109は、話者情報に基づいて参加者Cを次話者であるとした場合に、表示領域43の上部に「次話者」と表示する次話者示唆部47と、表示領域43の周囲に次話者を示す色(例えば赤色)の強調枠48とを表示する。なお、図4にいて受話者は示していないが、受話者情報に基づいて受話者となる参加者がいれば、現話者および次話者と同様の表示を行う。例えば、受話者となる参加者の表示領域の上に、受話者示唆部として「受話者」を表示して、受話者となる参加者の表示領域の周囲を受話者を示す色の強調枠で囲って表示する。
映像制御部109が図4のような画面40を表示部103に表示させることで、現話者、受話者、次話者が誰であるのか一目で分かるので、テレビ会議の参加者は、円滑なコミュニケーションをとることができる。特に、次話者が発話を行う前のタイミングで推定した次話者を明示することができるので、次話者と推定されなかった参加者が発話することを防ぎ、発話衝突が起こることを回避することができる。また、ネットワーク13を介して伝送される映像信号および音声信号に伝送遅延があっても、次話者が発話を行う前のタイミング(遅延した音声信号が発音されるタイミングよりも速いタイミング)で推定した次話者を明示することができる。これにより、遅延した音声信号よりも早く発話者は自分の発言に対する応答があったと感じることができるので、伝送遅延によるストレスを感じたり、違和感を覚えたりすることを防ぐことができる。
なお、図4に示す現話者示唆部45、強調枠46、次話者示唆部47および強調枠48等の表示態様は、一例である。映像制御部109は、表示中の参加者が現話者、受話者および次話者のいずれであるのか分かる表示態様であればどのような表示態様で表示させてもよい。映像制御部109は、例えば、図4において現話者示唆部45および強調枠46のいずれか一方のみを表示してもよく、次話者示唆部47および強調枠48のいずれか一方のみを表示してもよい。
音声制御部110は、音声入力部101からの音声信号、現話者特定部105からの現話者情報、受話者推定部106からの受話者情報および次話者推定部107からの次話者情報を入力とし、かつ、通信部108からの通信部108が他のテレビ会議端末10から受信した音声信号および話者情報を入力とする。音声制御部110は、音声入力部101からの音声信号と、通信部108が受信した他のテレビ会議端末10からの音声信号とを処理して、現話者の音声、受話者の音声および次話者の音声をスピーカ104から発音するよう制御する。
音声制御部110は、現話者特定部105からの現話者情報、受話者推定部106からの受話者情報および次話者推定部107からの次話者情報に基づいて、音声入力部101からの音声信号が、現話者、受話者、次話者である参加者の音声信号であるか否かを判断する機能をする。音声制御部110は、音声入力部101からの音声信号が、現話者、受話者および次話者のいずれかである参加者の音声信号であると判断したものがある場合は、例えば、その音声信号に対して信号増幅処理(音量増幅処理)を行ってスピーカ104へ出力する。
音声制御部110は、通信部108が受信した他のテレビ会議端末10からの話者情報に基づいて、通信部108が受信した他のテレビ会議端末10からの音声信号の中に、現話者、受話者、次話者である参加者の音声信号であるか否かを判断する機能をする。音声制御部110は、通信部108が受信した他のテレビ会議端末10からの音声信号の中に、現話者、受話者および次話者のいずれかである参加者の音声信号と判断したものがある場合は、その現話者、受話者および次話者のいずれかの音声信号に対して信号増幅処理を行ってスピーカ104へ出力する。これにより、現話者の音声、受話者の返事の音声および次話者の発話の音声を聞き取りやすい音量でスピーカ104から発音することができる。
また、人は話を始める前に音がするくらいの勢いで息を吸い込み吸気音を出すことで、次話者が自分であることを周囲に知らせることがある。本実施形態のテレビ会議端末10は、次話者が発話する前に次話者を推定して、その次話者の音声信号の音量を大きくすることができる。これにより、本実施形態のテレビ会議端末10は、上記吸気音が他の参加者にはっきりと聞こえるようにスピーカ104から発音することができる。これにより、テレビ会議の参加者同士における発話衝突を防ぐことができる。
第1の実施形態におけるテレビ会議システム1は、テレビ会議端末10が表示部103およびスピーカ104を備える構成としたが、これに限定されるものではない。テレビ会議端末10は、表示部103およびスピーカ104を備えず、表示部およびスピーカを有する表示装置と接続する構成であってもよい。また、テレビ会議端末10は、マイク11およびカメラ12を備える構成であってもよい。第1の実施形態におけるテレビ会議システム1は、一般的なテレビ会議システムが具備している機能(スピーカの音量の調整機能や、画面の切り替え機能等)を備えていてもよい。
次に、第1の実施形態におけるテレビ会議システム1の動作について説明する。
図5は、第1の実施形態におけるテレビ会議システム1の動作を示すフロー図である。図5において、参加者が各テレビ会議システム1の各装置(テレビ会議端末10等)の電源を入れる等を行うことにより、各テレビ会議システム1が備える各装置が起動する(ステップS101)。
テレビ会議システム1のテレビ会議端末10は、音声入力部101における音声信号の入力および映像入力部102における映像信号の入力を行う(ステップS102)。現話者特定部105は、音声入力部101からの音声信号に基づいて、現話者を特定し現話者情報を出力する。受話者推定部106は、音声入力部101からの音声信号と、映像入力部102からの映像信号と、現話者特定部105からの現話者情報とに基づいて、現話者が話しかけている参加者である受話者を推定する。次話者推定部107は、音声入力部101からの音声信号と、映像入力部102からの映像信号と、呼吸動作計測装置14からの呼吸情報と、注視対象検出装置15からの注視対象情報と、頭部動作計測装置16からの頭部動作情報とに基づいて推定した次話者に関する情報である次話者情報を出力する。このように、現話者特定部105、受話者推定部106および次話者推定部107は、現話者、受話者および次話者に関する話者情報を出力する(ステップS103)。
通信部108は、他のテレビ会議端末10からネットワーク13を介して音声信号、映像信号および話者情報を受信し、ステップS102で得た音声信号および映像信号とステップS103で得た話者情報とを他のテレビ会議端末10へ送信する(ステップS104)。映像制御部109は、話者情報に基づいて、映像入力部102からの映像信号と、通信部108が受信した他のテレビ会議端末10からの映像信号とを処理して、図4に示した画面40のように現話者、受話者および次話者が明示された映像信号を表示部103へ出力する。音声制御部110は、話者情報に基づいて、音声入力部101からの音声信号と、通信部108が受信した他のテレビ会議端末10からの音声信号とを処理して、処理後の現話者、受話者および次話者の音声が増幅された音声信号をスピーカ104へ出力する(ステップS105)。
表示部103は、映像制御部109において処理された現話者、受話者および次話者が明示された映像を表示し、スピーカ104は、音声制御部110において処理された現話者、受話者および次話者の音声が増幅された音声信号に基づいた発音を行う(ステップS106)。
次に、参加者が各テレビ会議システム1の各装置(テレビ会議端末10等)の電源を切る等を行うことにより、各テレビ会議システム1の各装置は、動作を終了するか否かを判断する(ステップS107)。ここで動作を終了すると判断した場合には(ステップS107のYES)、各テレビ会議システム1の各装置が電源オフしてテレビ会議システム1の動作が終了する。ここで動作を終了しないと判断した場合には(ステップS107のNO)、各テレビ会議システム1は、ステップS102の処理に移行する。
以上に説明した動作により、第1の実施形態におけるテレビ会議システム1は、現話者、受話者、次話者が誰であるのか一目で分かるような映像を表示部103に表示することができる。これにより、テレビ会議の参加者は、円滑なコミュニケーションをとることができる。第1の実施形態におけるテレビ会議システム1は、現話者の音声、受話者の返事の音声および次話者の発話の音声が聞き取りやすい音量となるよう、それらの音声の音声信号を増幅してスピーカ104から発音することができる。また、次話者推定部107は、参加者の呼吸、視線及び頭部動作等の非言語行動に基づいて次話者確率Pns (t)を算出している。すなわち、次話者推定部107は、次話者確率Pns (t)を算出する際に、参加者の発話内容を解析等して参加者の言語行動に関する情報を取得しなくてもよい。
(第1の実施形態の変形例)
上述した第1の実施形態では、1台のテレビ会議端末10に対して複数人の参加者がいる場合は、その人数分のマイク11およびカメラ12を設置する構成としたが、この構成に限られるものではなく、種々の構成が考えられる。例えば、参加者の人数に関係なく1台のテレビ会議端末10に対して、1つのマイク11および1つのカメラ12を設置する構成であってもよい。この場合は、例えば、カメラ12は、参加者全員を撮影可能な位置に設置する。映像制御部109は、現話者情報、受話者情報、次話者確率に基づいて、映像入力部102からの映像信号の中に映っている複数の参加者の中から、現話者、受話者および次話者に該当する参加者がいれば、その参加者に対して現話者、受話者又は次話者と分かる指標等を表示部103に表示する。
図6は、第1の実施形態の変形例における表示部103に表示される画面例を示す図である。図6において、表示部103に表示される画面60は、参加者A〜D全員を含む映像である。また、現話者である参加者Aには、現話者を示す枠61が付与されている。また、次話者である参加者Dには、次話者を示す枠62が付与されている。
また、次話者推定部107は、次話者を推定すると同時に次話者が発話するタイミングである発話タイミングを推定することができる(発話タイミングの推定の詳細については後述する)。この発話タイミングに関する情報を用いて、次話者を示す枠62の付近に、次話者の発話開始までのカウントダウンの数字を表示するようにしてもよい。これにより、次話者となる参加者は、適切なタイミングで発話を行うことができる。
(第2の実施形態)
第2の実施形態におけるテレビ会議システム(コミュニケーションシステム)1aの構成例について説明する。第2の実施形態におけるテレビ会議システム1aは、1台のテレビ会議端末10aの前に複数の参加者がいることが前提となる。テレビ会議システム1aは、話者情報に基づいて、現話者、受話者および次話者の少なくとも一人をカメラ12aでズームアップして撮影することができるという特徴を有する。
図7は、第2の実施形態におけるテレビ会議システム1aの構成例を示す図である。図7に示すとおり、第2の実施形態におけるテレビ会議システム1aは、図2に示した第1の実施形態におけるテレビ会議システム1とほぼ同じ構成であり、図2と同じ構成については同じ符号を付与しており、その説明を省略する。なお、複数のテレビ会議システム1aを含む通信システムの全体構成は、図1におけるテレビ会議システム1をテレビ会議システム1aに置き換え、カメラ12をカメラ12aに置き換えた構成である。
テレビ会議システム1aは、テレビ会議端末10aと、マイク11と、カメラ12aと、呼吸動作計測装置14と、注視対象検出装置15と、頭部動作計測装置16とを備える。テレビ会議端末10aは、音声入力部101と、映像入力部102と、表示部103と、スピーカ104と、現話者特定部105と、受話者推定部106と、次話者推定部107と、通信部108と、映像制御部109と、音声制御部110と、カメラ制御部111とを備える。
カメラ12aは、現話者、受話者および次話者をそれぞれ撮影できるように3台のカメラ(以下、第1〜第3のカメラという)を少なくとも含む構成である。カメラ12aが含む各カメラは、撮影方向を変更するためのパンチルト機構と、撮影画角を変更するためのズーム機構とを有する。カメラ制御部111は、現話者特定部105からの現話者情報、受話者推定部106からの受話者情報および次話者推定部107からの次話者情報を入力とし、入力された話者情報に基づいてカメラ12aに含まれる各第1〜第3のカメラの撮影方向および撮影画角を制御する。
第2の実施形態において表示部103に表示する画面例として図8、図9を用いて説明する。図8、図9に示す具体例においては、少なくとも4人の参加者A〜Dが1つのテレビ会議端末10aの前に座っており、他のテレビ会議端末10aの前に座っている複数の参加者とテレビ会議を行っている場合を想定している。
図8は、第2の実施形態における表示部103に表示される画面例1を示す図である。図8において、表示部103に表示される画面80は、現話者である参加者Bを表示する表示領域81と、次話者と推定された参加者Aおよび参加者Dをそれぞれ表示する表示領域82および表示領域83とから構成されている。
このような画面80を表示部103に表示させるためには、例えば、以下の処理が必要である。まず、カメラ12aの内の第1のカメラが現話者である参加者Bを撮影方向として参加者Bをズームアップした撮影を行い、カメラ12aの内の第2のカメラが次話者である参加者Aを撮影方向として参加者Aをズームアップした撮影を行い、カメラ12aの内の第3のカメラが次話者である参加者Dを撮影方向として参加者Dをズームアップした撮影を行う。そして、映像制御部109は、映像入力部102から第1のカメラ〜第3のカメラが出力した映像信号を受信し、第1のカメラから出力された映像信号を表示領域81に表示させ、第2のカメラから出力された映像信号を表示領域82に表示させ、第3のカメラから出力された映像信号を表示領域83に表示させた画面80の映像信号を生成し、表示部103へ出力する。
図9は、第2の実施形態における表示部103に表示される画面例2を示す図である。図9において、表示部103に表示される画面90は、現話者を表示する表示領域91と、受話者を表示する表示領域92と、次話者を表示する表示領域93と、現話者、受話者および次話者以外の参加者を表示する表示領域94とを含む構成である。画面90は、表示領域91の上部に「現話者」と表示する現話者示唆部95と、表示領域92の上部に「受話者」と表示する受話者示唆部96と、表示領域93の上部に「次話者」と表示する次話者示唆部97と、表示領域94の上部に「それ以外」と表示する現話者、受話者および次話者以外の参加者を示唆する示唆部98とを備える。
このような画面90を表示部103に表示させるためには、例えば、以下の処理が必要である。まず、カメラ12aの内の第1のカメラが現話者である参加者Aを撮影方向として参加者Aをズームアップした撮影を行い、カメラ12aの内の第2のカメラが受話者である参加者Bを撮影方向として参加者Bをズームアップした撮影を行い、カメラ12aの内の第3のカメラが次話者である参加者Dを撮影方向として参加者Dをズームアップした撮影を行い、カメラ12aの内の第4のカメラが現話者、受話者および次話者以外の参加者である参加者Cを撮影方向として参加者Cをズームアップした撮影を行う。そして、映像制御部109は、映像入力部102から第1のカメラ〜第4のカメラが出力した映像信号を受信し、第1のカメラから出力された映像信号を表示領域91に表示させ、第2のカメラから出力された映像信号を表示領域92に表示させ、第3のカメラから出力された映像信号を表示領域93に表示させ、第4のカメラから出力された映像信号を表示領域94に表示させた画面90の映像信号を生成し、表示部103へ出力する。
次に、第2の実施形態におけるテレビ会議システム1aの動作について説明する。
図10は、第2の実施形態におけるテレビ会議システム1aの動作を示すフロー図である。図10に示すとおりステップS101〜S103、S104〜S107は、図5に示した第1の実施形態におけるテレビ会議システム1の動作と同じ処理であり、その説明を省略する。
ステップS103の次に、カメラ制御部111は、現話者特定部105、受話者推定部106および次話者推定部107からの話者情報に基づいて、カメラ12aに含まれる各第1〜第3のカメラの撮影方向および撮影画角を制御する(ステップS108)。ステップS108の次は、ステップS104へ進む。
以上に説明したように、第2の実施形態におけるテレビ会議システム1aは、現話者、受話者および次話者をズームアップすることができるので、1台のテレビ会議端末10aの前に多人数の参加者がいる場合に、第1の実施形態におけるテレビ会議システム1と比べてカメラの数を少なくして、第1の実施形態におけるテレビ会議システム1と同等の効果を得ることができる。
なお、テレビ会議端末10aの前に複数の参加者がいて、カメラ制御部111が、音声信号から発話区間が検出された参加者をズームアップした画像を出力するようカメラ12aを制御する場合について説明する。発話区間を検出する際に、誰が発話を行ったのかを特定する話者特定を行う必要がある。従来の技術では、発話区間を検出する際の発話開始の検出精度が良くないため、話者が発話を開始したタイミングで、話者を特定することは困難であった。しかし、第2の実施形態におけるテレビ会議システム1aでは、次話者が発話を開始する前に次話者を推定することができるので、カメラ制御部111は、次話者として発話を開始した参加者のズームアップした画像を、発話開始のタイミングで出力するようカメラ12aを制御することができる。
(第1、第2の実施形態に共通の次話者を推定する処理の具体例)
次に、上述した第1の実施形態におけるテレビ会議システム1および第2の実施形態におけるテレビ会議システム1aに共通である次話者を推定する処理の具体例について説明する。テレビ会議システム1およびテレビ会議システム1aにおける次話者推定には、例えば、以下の参考文献3、4の技術などを適用することができるが、任意の既存の技術を利用してもよい。参考文献3、4記載の技術を利用した場合は、注視対象検出装置15が出力する注視対象情報に基づく発話者と非発話者の注視行動の遷移パターンを用いて、次話者推定部107は、次発話者および発話のタイミングを予測する。
参考文献3:特開2014−238525号公報
参考文献4:石井亮、外4名、“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”、人工知能学会研究会資料、SIG-SLUD-B301-06、pp.27-34、2013年
以下に、本実施形態に適用可能な参考文献3、4以外の次話者推定技術の例を示す。
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際(発話者継続時)には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際(発話者交替時)には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。
以下では、A人の参加者P,…,Pが対面コミュニケーションを行う状況を想定する。参加者P(ただし、a=1,…,A、A≧2)には呼吸動作計測装置14およびマイク11が装着される。呼吸動作計測装置14は、参加者Pの呼吸動作を計測し、各離散時刻tでの計測結果を表す呼吸情報Ba,tを得て、次話者推定部107に出力する。呼吸動作計測装置14が、バンド式の呼吸装置を備える構成について説明する。バンド式の呼吸装置は、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる(バンドの伸びが小さくなる)。以降、この値をRSP値と呼ぶ。なお、RSP値は、バンドの伸縮の強さに応じて参加者Pごとに異なる大きさを取る。そこで、これに起因するPごとのRSP値の相違を排除するために、各参加者PのRSP値の平均値μと標準偏差値δを用いて、μが1、μ−δが−1になるように参加者PごとにRSP値を正規化する。これによって、すべての参加者Pの呼吸動作データを同一に分析することが可能となる。各呼吸動作計測装置14は、正規化されたRSP値を呼吸情報Ba,tとして次話者推定部107に送る。
さらに、マイク11は、参加者Pの音声を取得し、各離散時刻tでの参加者Pの音声を表す音声信号Va,tを得て、次話者推定部107に出力する。次話者推定部107は、入力された音声信号Va,t(ただし、a=1,…,A)から雑音を除去し、さらに発話区間U(ただし、kは発話区間Uの識別子)とその発話者Pukとを抽出する。ただし、「Puk」の下付き添え字はu=1,…,Aを表す。1つの発話区間UをTd[ms]連続した無音区間で囲まれた区間と定義し、この発話区間Uを発話の一つの単位と規定する。これにより、次話者推定部107は、各発話区間Uを表す発話区間情報、およびその発話者Pukを表す発話者情報(参加者P,…,Pのうち何れが発話区間Uでの発話者Pukであるかを表す発話者情報)を得る。
次話者推定部107は、各参加者Pの呼吸情報Ba,tを用いて、各参加者Pの息の吸い込み区間Ia,kを抽出し、さらに息の吸い込みに関するパラメータλa,kを取得する。息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す。
図11は、息の吸い込み区間の例を示す図である。図11を用いて、息の吸い込み区間Ia,kの算出方法を例示する。ここで参加者Pの離散時刻tでのRSP値をRa,tと表記する。RSP値Ra,tは呼吸情報Ba,tに相当する。図11に例示するように、例えば、以下の(式1)が成り立つとき、
Figure 2017118364
離散時刻t=ts(k)の前2フレームでRSP値Ra,tが連続して減少し、その後2フレームでRSP値Ra,tが連続して上昇しているから、離散時刻ts(k)を息の吸い込みの開始位置とする。さらに、以下の(式2)が成り立つとき、
Figure 2017118364
離散時刻t=te(k)の前2フレームのRSP値Ra,tが連続して上昇し、その後2フレームのRSP値Ra,tが連続して減少しているから、離散時刻te(k)を息の吸い込みの終了位置とする。このとき、参加者Pの息の吸い込み区間Ia,kはts(k)からte(k)までの区間となり、息の吸い込み区間の長さはte(k)−ts(k)となる。
次話者推定部107は、息の吸い込み区間Ia,kが抽出されると、息の吸い込み区間Ia,k、呼吸情報Ba,t、および発話区間Uの少なくとも一部を用い、息の吸い込みに関するパラメータλ’a,kを抽出する。パラメータλ’a,kは、参加者Pの吸い込み区間Ia,kでの息の吸い込みの量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部を表す。パラメータλ’a,kは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’a,kは、例えば以下のパラメータMINa,k,MAXa,k,AMPa,k,DURa,k,SLOa,k,INT1a,kの少なくとも一部を含む。パラメータλ’a,kは、これらの1つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・MINa,k:参加者Pの息の吸い込み開始時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最小値。
・MAXa,k:参加者Pの息の吸い込み終了時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最大値。
・AMPa,k:参加者Pの息の吸い込み区間Ia,kのRSP値Ra,tの振幅、すなわち、MAXa,k−MINa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量を表す。
・DURa,k:参加者Pの息の吸い込み区間Ia,kの長さ、すなわち、息の吸い込み区間Ia,kの終了位置の離散時刻te(k)から開始位置の離散時刻ts(k)を減じて得られる値te(k)−ts(k)
・SLOa,k:参加者Pの息の吸い込み区間Ia,kにおけるRSP値Ra,tの単位時間当たりの傾きの平均値、すなわち、AMPa,k/DURa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量の時間変化を表す。
・INT1a,k:手前の発話区間Uの終了時刻tue(k)(発話区間末)から参加者Pの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ia,kの開始位置の離散時刻ts(k)から発話区間Uの終了時刻tue(k)を減じて得られる値ts(k)−tue(k)。発話区間Uと吸い込み区間Ia,kとの時間関係を表す。
次話者推定部107は、さらに以下のパラメータINT2a,kを生成してもよい。
・INT2a,k:参加者Pの息の吸い込み終了時から次発話者の発話区間Uk+1が開始されるまでの間隔、すなわち、次発話者の発話区間Uk+1の開始時刻tus(k+1)から息の吸い込み区間Ia,kの終了位置の離散時刻te(k)を減じて得られる値tus(k+1)−te(k)。発話区間Uk+1と吸い込み区間Ia,kとの時間関係を表す。パラメータλ’a,kにINT2a,kを加えたものをパラメータλa,kと表記する。
次話者推定部107は、例えば発話区間Uk+1を表す情報が得られ、さらに、パラメータλa,kが得られた以降(発話区間Uk+1が開始された後)に、発話区間Uおよびその発話者Puk、発話区間Uk+1およびその発話者Puk+1とその発話開始タイミングTuk+1を表す情報とともにデータベースに記録する。次発話者Puk+1の発話タイミングとは、発話区間Uk+1の何れかの時点またはそれに対応する時点であればよい。発話タイミングTuk+1は、発話区間Uk+1の開始時刻tus(k+1)であってもよいし、時刻tus(k+1)+γ(ただし、γは正または負の定数)であってもよいし、発話区間Uk+1の終了時刻tue(k+1)であってもよいし、時刻tue(k+1)+γであってもよいし、発話区間Uk+1の中心時刻tus(k+1)+(tue(k+1)−tus(k+1))/2であってもよい。λa,k,U,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持され、次話者推定部107が発話区間Uk+1よりも後の次発話者とその発話タイミングを予測するために使用される。
次話者推定部107は、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に基づき、参加者P,…,Pのうち何れが次発話者Puk+1であるか、および次発話者Puk+1の発話タイミングの少なくとも一方を表す推定情報を得る。ただし、「Puk+1」の下付き添え字「uk+1」はuk+1を表す。発話区間Uの発話者Pukが発話区間Uk+1でも発話を行う場合(発話継続する場合)、次発話者は発話区間Uの発話者Pukと同一である。一方、発話区間Uの発話者Puk以外の参加者が発話区間Uk+1でも発話を行う場合(すなわち発話交替する場合)、次発話者は発話区間Uの発話者Puk以外の参加者である。
次話者推定部107は、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、このモデルを用いて特徴量に対する推定情報を得る。特徴量fa,kは、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の1つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ia,i(ただし、i<k)での息の吸い込み量、吸い込み区間Ia,iの長さ、吸い込み区間Ia,iでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,iとの時間関係の少なくとも一部に対応する特徴量fa,k、ならびに発話区間U,Ui+1およびそれらの発話者Puk,Puk+1の情報が学習データとして用いられる。
次話者推定部107による次発話者/発話タイミング推定処理を例示する。この例では、次発話者Puk+1を推定するモデルである次発話者推定モデルと、次発話者Puk+1の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Puk+1とその発話タイミングが推定される。
次発話者推定モデルを学習する場合、次話者推定部107は、学習データとして、データベースから過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、および発話区間U,Ui+1およびそれらの発話者Pui,Pui+1を表す情報を読み出す。次話者推定部107は、パラメータλa,iの少なくとも一部に対応する特徴量F1a,iおよびU,Ui+1,Pui,Pui+1を学習データとして、次発話者推定モデルを機械学習する。次発話者推定モデルには、例えば、SVM(Support Vector Machine)、GMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)等を用いることができる。
次話者推定部107は、パラメータλ’a,kの少なくとも一部に対応する特徴量F1a,kを次発話者推定モデルに適用し、それによって推定された次発話Puk+1を表す情報を「推定情報」の一部とする。なお、次発話Puk+1を表す情報は、何れかの参加者Pを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Pが次話者になる確率を、P1とする。
発話タイミング推定モデルを学習する場合、次話者推定部107は、学習データとして、データベースから過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、発話区間U,Ui+1およびそれらの発話者Pui,Pui+1、および発話区間Ui+1の発話開始タイミングTui+1を表す情報を読み出す。次話者推定部107は、パラメータλa,iの少なくとも一部に対応する特徴量F2a,iおよびU,Ui+1,Pui,Pui+1,Tui+1を学習データとして、発話タイミング推定モデルを機械学習する。次発話者推定モデルには、例えば、SVM、GMM、HMM等を用いることができる。
次話者推定部107は、発話者Puk、パラメータλ’a,kの少なくとも一部、および次発話者推定モデルにより推定された次発話者Puk+1が得られると、パラメータλ’a,kの少なくとも一部に対応する特徴量F2a,kを発話タイミング推定モデルに適用する。次話者推定部107は、特徴量F2a,kを発話タイミング推定モデルに適用して推定された次の発話区間Uk+1の発話タイミングTuk+1(例えば、発話区間Uk+1の開始時刻)を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Pが時刻tに発話を開始する確率(時刻tが参加者Pの発話タイミングである確率)を、P2(t)とする。
上述した実施形態の次話者推定部107が推定する参加者iの時刻tにおける次話者確率Pns (t)は、参加者iが本次話者推定技術における参加者Pである場合、確率P1×確率P2(t)により算出される。
上述の次話者推定部107は、呼吸動作の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、視線の観測値を用いてもよい。
視線行動をさらに利用する場合、各参加者P(ただし、a=1,…,A)には注視対象検出装置15がさらに装着される。注視対象検出装置15は、参加者Pが誰を注視しているか(注視対象)を検出し、参加者Pおよび各離散時刻tでの注視対象Ga,tを表す情報を次話者推定部107に送る。次話者推定部107は、注視対象情報G1,t,…,GA,t、発話区間U、および話者情報Pukを入力とし、発話区間終了前後における注視対象ラベル情報θv,k(ただし、v=1,…,V、Vは注視対象ラベルの総数)を生成する。注視対象ラベル情報は、発話区間Uの終了時点Tseに対応する時間区間における参加者の注視対象を表す情報である。ここでは、終了時点Tseを含む有限の時間区間における参加者Pの注視対象をラベル付けした注視対象ラベル情報θv,kを例示する。この場合、例えば、発話区間Uの終了時点Tseよりも前の時点Tse−Tから終了時点Tseよりも後の時点Tse+Tまでの区間に出現した注視行動を扱う。T,Tは0以上の任意の値でよいが、目安として、Tは0秒〜2.0秒、Tは0秒〜3.0秒程度にするのが適当である。
次話者推定部107は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルS:話者(すなわち、話者である参加者Pukを表す)
・ラベルLξ:非話者(ただし、ξは互いに異なる非話者である参加者を識別し、ξ=1,…,A−1である。例えば、ある参加者が、非話者P、非話者P、の順に注視をしていたとき、非話者PにLというラベル、非話者PにLというラベルが割り当てられる。)
・ラベルX:誰も見ていない
ラベルがSまたはLξのときには、相互注視(視線交差)が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、S,LξM(下付き添え字の「ξM」はξを表す)のように、ラベルS,Lξの末尾にMラベルを付与する。
図12は、注視対象ラベルの具体例を示す図である。図12はA=4の例であり、発話区間U,Uk+1と各参加者の注視対象が時系列に示されている。図12の例では、参加者Pが発話した後、発話交替が起き、新たに参加者Pが発話をした際の様子を示している。ここでは、話者である参加者Pが参加者Pを注視した後、参加者Pを注視している。Tse−Tの時点からTse+Tの時点までの区間では、参加者Pが参加者Pを見ていたとき、参加者Pは参加者Pを見ている。これは、参加者Pと参加者Pとで相互注視が起きていることを表す。この場合、参加者Pの注視対象情報G1,tから生成される注視対象ラベルはLとL2Mの2つとなる。上述の区間では、参加者Pは参加者Pを注視した後、話者である参加者Pを注視している。この場合、参加者Pの注視対象ラベルはLとSの2つとなる。また、上述の区間では、参加者Pは話者である参加者Pを注視している。この場合、参加者Pの注視対象ラベルはSとなる。また、上述の区間では、参加者Pは誰も見ていない。この場合、参加者Pの注視対象ラベルはXとなる。したがって、図12の例では、V=6である。
次話者推定部107は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰(R∈{S,L})のどの注視対象ラベル(GL∈{S,S,L,L1M,L,L2M,…})であるかを示す記号としてRGL、その開始時刻をST_RGL、終了時刻をET_RGLと定義する。ただし、Rは参加者の発話状態(話者か非話者か)を表し、Sは話者、Lは非話者である。例えば、図12の例において、参加者Pの最初の注視対象ラベルはSL1であり、その開始時刻はST_SL1、終了時刻はET_SL1である。注視対象ラベル情報θv,kは注視対象ラベルRGL、開始時刻ST_RGL、および終了時刻ET_RGLを含む情報である。
次話者推定部107は、注視対象ラベル情報θv,kを用いて、各参加者Pの注視対象遷移パターンEa,kを生成する。注視対象遷移パターンの生成は、注視対象ラベルRGLを構成要素として、時間的な順序を考慮した遷移n−gramを生成して行う。ここで、nは正の整数である。例えば、図12の例を考えると、参加者P1の注視対象ラベルから生成される注視対象遷移パターンE1,kはL−L2Mである。同様にして、参加者Pの注視対象遷移パターンE2,kはL−S、参加者Pの注視対象遷移パターンE3,kはS、参加者Pの注視対象遷移パターンE4,kはXとなる。
注視対象遷移パターンEa,kは、例えば発話区間Uk+1が開始された後に、発話区間Uおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベースに送られる。データベースでは、注視対象遷移パターンEa,kが、パラメータλa,kと併合され、Ea,k,λa,k,U,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持される。
次話者推定部107は、注視対象ラベル情報θv,kを入力とし、注視対象ラベルごとの時間構造情報Θv,kを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、(1)注視対象ラベルの時間長、(2)注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、(3)注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。
具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をST_U、発話区間の終了時刻をET_Uと定義する。
・INT1(=ET_RGL−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLと終了時刻ET_RGLの間隔
・INT2(=ST_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の開始時刻ST_Uよりもどれくらい前であったか
・INT3(=ET_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT4(=ET_RGL−ST_U):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の開始時刻ST_Uよりもどれくらい後であったか
・INT5(=ET_U−ET_RGL):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT6(=ST_RGL−ST_RGL’):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT7(=ET_RGL’−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい前であったか
・INT8(=ET_RGL−ST_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT9(=ET_RGL−ET_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい後であったか
なお、INT6〜INT9については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図12の例では、注視対象ラベル情報は全部で6つ(L,L2M,L,S,S,X)あるため、INT6〜INT9は、それぞれ6×5=30個のデータが生成される。
時間構造情報Θv,kは注視対象ラベル情報θv,kについてのパラメータINT1〜INT9からなる情報である。時間構造情報Θv,kを構成する上記の各パラメータについて、図13を用いて具体的に示す。図13は、話者である参加者P1(R=S)の注視対象ラベルL1についての時間構造情報を示す図である。すなわち、RGL=SL1における時間構造情報である。なお、INT6〜INT9については、図示を簡略化するために、参加者P2の注視対象ラベルL1、すなわちRGL=LL1との関係のみを示す。図13の例では、INT1〜INT9は以下のように求められることがわかる。
・INT1=ET_SL1−ST_SL1
・INT2=ST_U−ST_SL1
・INT3=ET_U−ST_SL1
・INT4=ET_SL1−ST_U
・INT5=ET_U−ET_SL1
・INT6=ST_SL1−ST_LL1
・INT7=ET_LL1−ST_SL1
・INT8=ET_SL1−ST_LL1
・INT9=ET_SL1−ET_LL1
時間構造情報Θv,kは、例えば発話区間Uk+1が開始された後に、発話区間Uおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベースに送られる。データベースでは、時間構造情報Θv,kが、パラメータλa,kと併合され、Θv,k,λa,k,U,Puk,Uk+1,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持される。
次話者推定部107は、注視対象遷移パターンEa,k、時間構造情報Θv,k、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報である次話者確率Pns (t)を得て出力する。
上述の次話者推定部107は、呼吸動作の観測値および視線の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、頭部動作計測装置16からの参加者の頭部の動きに関する情報である頭部動作情報を用いてもよい。頭部動作計測装置16は、各参加者の頭部に装着され、頭部の位置の座標値及び回転角度を含む頭部動作情報を所定周期(例えば30Hz)で出力する。これは、人は発話の直前に大きく頷く傾向があることを利用するものである。次話者推定部107は、映像入力部102からの各参加者の画像データを解析して、頭部が上下に動いたか否かにより参加者が頷いたか否かを判定する。次話者推定部107は、頭部動作情報に基づいて参加者iが時刻tの数秒前に頷いたと判定した場合には、参加者iの時刻tにおける次話者確率Pns (t)に所定値を加算する処理等を行う。また、次話者推定部107は、呼吸動作の観測値、視線の観測値および、参加者の頭部の動きに関する情報の少なくとも一つに基づいて次話者確率Pns (t)を算出してもよい。
上述したように参加者の頭部の動きに関する情報を用いて次話者を推定する技術として、以下の参考文献5に記載の技術がある。
参考文献5:石井 亮、外3名、“複数人対話での話者交替に関する頭部動作の分析 〜次話者と発話開始タイミングの予測モデルの構築に向けて〜”,HCGシンポジウム、2014年
次話者推定部107は、参考文献5に記載の技術を用いて頭部動作情報に基づく次話者の推定を行う構成であってもよい。また、次話者推定部107は、頭部動作計測装置16からの頭部動作情報に基づいて参加者の頭の動きを判断したが、映像入力部102からの各参加者の画像データを解析して、参加者の頭部の動きを特定してもよい。
上述した第1の実施形態におけるテレビ会議端末10または第2の実施形態におけるテレビ会議端末10aの備える各機能部は、例えば、コンピュータで実現することができる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
遠隔地にいる複数の参加者による会議や討論会を行う場合に適用可能である。
1、1a、1−1、1−2、1−3…テレビ会議システム, 10、10a、10−1、10−2、10−3…テレビ会議端末, 11、11−1、11−2、11−3…マイク,12、12a、12−1、12−2、12−3…カメラ, 13…ネットワーク, 101…音声入力部, 102…映像入力部, 103…表示部, 104…スピーカ, 105…現話者特定部, 106…受話者推定部, 107…次話者推定部, 108…通信部, 109…映像制御部, 110…音声制御部, 111…カメラ制御部

Claims (7)

  1. 会話に参加する複数の参加者の音声を含む音を集音して第1の音信号を出力する集音部と、
    前記参加者を撮影して第1の映像信号を出力する撮像部と、
    前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、前記集音部からの前記第1の音信号とに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した第1の次話者情報を出力する次話者推定部と、
    前記撮像部が出力する前記第1の映像信号に基づいて前記参加者の映像を表示する表示部と、
    前記次話者推定部が出力した前記第1の次話者情報に基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる映像制御部と、
    を備えるコミュニケーションシステム。
  2. 前記集音部からの前記第1の音信号に基づいて前記参加者の中で発話中である現話者を特定して現話者情報を出力する現話者特定部を更に備え、
    前記映像制御部は、前記現話者特定部が出力した前記現話者情報に基づいて、前記表示部に表示される参加者が現話者であると判断された場合に、現話者であることを示す表示態様で現話者と判断された参加者を前記表示部に表示させる請求項1に記載のコミュニケーションシステム。
  3. 前記集音部からの前記第1の音信号と前記撮像部からの前記第1の映像信号とに基づいて、前記参加者の中で発話中である現話者の話の受け手である受話者を推定して受話者情報を出力する受話者推定部を更に備え、
    前記映像制御部は、前記受話者推定部が出力した前記受話者情報に基づいて、前記表示部に表示される参加者が受話者であると判断された場合に、受話者であることを示す表示態様で受話者と判断された参加者を前記表示部に表示させる請求項1または請求項2に記載のコミュニケーションシステム。
  4. 前記次話者、前記現話者または前記受話者であることを示す前記表示態様は、前記次話者、前記現話者または前記受話者である参加者の表示領域を強調する枠で囲うことである請求項1から請求項3のいずれか一項に記載のコミュニケーションシステム。
  5. 前記参加者の内の少なくとも1人は遠隔地にいる場合に、遠隔地にいる前記参加者を撮影した第2の映像信号と、遠隔地にいる前記参加者の音声を含む第2の音信号と、遠隔地にいる前記参加者における次話者を推定した第2の次話者情報とを受信する受信部と、
    前記集音部からの前記第1の音信号および前記受信部が受信した前記第2の音信号に応じて発音する発音部とをさらに備え、
    前記表示部は、前記撮像部が出力する前記第1の映像信号と、前記受信部が受信した前記第2の映像信号とに基づいて前記参加者の映像を表示し、
    前記映像制御部は、前記次話者推定部が出力した前記第1の次話者情報と、前記受信部が受信した第2の次話者情報とに基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる請求項1から請求項4のいずれか一項に記載のコミュニケーションシステム。
  6. 会話に参加する複数の参加者の音声を含む音を集音して音信号を出力する集音部からの前記音信号が入力される音声入力部と、
    前記参加者を撮影して映像信号を出力する撮像部からの前記映像信号が入力される映像入力部と、
    前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、前記集音部からの前記音信号とに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、
    前記映像入力部に入力された前記映像信号に基づいて前記参加者の映像を表示する表示部と、
    前記次話者推定部が出力した前記次話者情報に基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる映像制御部と、
    を備えるコミュニケーション装置。
  7. 表示部を備え、会話に参加する複数の参加者の音声を含む音を集音して音信号を出力する集音部と前記参加者を撮影して映像信号を出力する撮像部とに接続されたコミュニケーション装置で実行されるコミュニケーションプログラムであって、
    前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、前記集音部からの前記音信号とに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定ステップと、
    前記撮像部が出力した前記映像信号に基づいて前記参加者の映像を前記表示部に表示させる表示ステップと、
    前記次話者推定ステップにおいて出力した前記次話者情報に基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる映像制御ステップと、
    をコンピュータに実行させるためのコミュニケーションプログラム。
JP2015252585A 2015-12-24 2015-12-24 コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム Pending JP2017118364A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015252585A JP2017118364A (ja) 2015-12-24 2015-12-24 コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015252585A JP2017118364A (ja) 2015-12-24 2015-12-24 コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム

Publications (1)

Publication Number Publication Date
JP2017118364A true JP2017118364A (ja) 2017-06-29

Family

ID=59232211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015252585A Pending JP2017118364A (ja) 2015-12-24 2015-12-24 コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム

Country Status (1)

Country Link
JP (1) JP2017118364A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019156079A1 (ja) * 2018-02-07 2019-08-15 日本電信電話株式会社 推定装置、推定方法、およびプログラム
WO2019203528A1 (en) 2018-04-17 2019-10-24 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
JP7150114B1 (ja) 2021-09-02 2022-10-07 株式会社ドワンゴ コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム
WO2022230081A1 (ja) * 2021-04-28 2022-11-03 三菱電機株式会社 映像伝送システム、映像伝送方法及び映像受信装置
WO2023084570A1 (ja) * 2021-11-09 2023-05-19 日本電信電話株式会社 発話推定装置、発話推定方法及び発話推定プログラム
WO2023162073A1 (ja) * 2022-02-24 2023-08-31 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
WO2024070550A1 (ja) * 2022-09-29 2024-04-04 京セラ株式会社 システム、電子機器、システムの制御方法、及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030220971A1 (en) * 2002-05-23 2003-11-27 International Business Machines Corporation Method and apparatus for video conferencing with audio redirection within a 360 degree view
JP2004515982A (ja) * 2000-12-05 2004-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テレビ会議及び他の適用においてイベントを予測する方法及び装置
JP2007147762A (ja) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd 発話者予測装置および発話者予測方法
JP2011061450A (ja) * 2009-09-09 2011-03-24 Nippon Telegr & Teleph Corp <Ntt> 会議通信システム、会議通信方法及びプログラム
JP2011118632A (ja) * 2009-12-02 2011-06-16 Nippon Telegr & Teleph Corp <Ntt> 発話の予備動作検出及び伝達方法及び装置及びプログラム
JP2014238525A (ja) * 2013-06-10 2014-12-18 日本電信電話株式会社 推定装置、推定方法、およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004515982A (ja) * 2000-12-05 2004-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テレビ会議及び他の適用においてイベントを予測する方法及び装置
US20030220971A1 (en) * 2002-05-23 2003-11-27 International Business Machines Corporation Method and apparatus for video conferencing with audio redirection within a 360 degree view
JP2007147762A (ja) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd 発話者予測装置および発話者予測方法
JP2011061450A (ja) * 2009-09-09 2011-03-24 Nippon Telegr & Teleph Corp <Ntt> 会議通信システム、会議通信方法及びプログラム
JP2011118632A (ja) * 2009-12-02 2011-06-16 Nippon Telegr & Teleph Corp <Ntt> 発話の予備動作検出及び伝達方法及び装置及びプログラム
JP2014238525A (ja) * 2013-06-10 2014-12-18 日本電信電話株式会社 推定装置、推定方法、およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ISHII ET AL.: "Predicting who will be the next speaker and when in multi-party meeting", NTT TECHNICAL REVIEW, vol. 13, no. 7, JPN6018016622, July 2015 (2015-07-01), JP, ISSN: 0003904550 *
中野 有紀子, 外3名: "非言語情報に基づく受話者推定機構を用いた多人数会話システム", 人口知能学会論文誌, vol. 29巻1号, JPN6018016625, 30 April 2013 (2013-04-30), pages 69 - 79, ISSN: 0003904549 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019156079A1 (ja) * 2018-02-07 2019-08-15 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP2019139387A (ja) * 2018-02-07 2019-08-22 日本電信電話株式会社 推定装置、推定方法、およびプログラム
US11475911B2 (en) 2018-02-07 2022-10-18 Nippon Telegraph And Telephone Corporation Estimation device, estimation method and program
KR102453084B1 (ko) * 2018-04-17 2022-10-12 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111937376A (zh) * 2018-04-17 2020-11-13 三星电子株式会社 电子设备及其控制方法
EP3701715A4 (en) * 2018-04-17 2020-12-02 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND METHOD OF CONTROLLING IT
CN111937376B (zh) * 2018-04-17 2022-08-09 三星电子株式会社 电子设备及其控制方法、可读记录介质
KR20190121016A (ko) * 2018-04-17 2019-10-25 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2019203528A1 (en) 2018-04-17 2019-10-24 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
WO2022230081A1 (ja) * 2021-04-28 2022-11-03 三菱電機株式会社 映像伝送システム、映像伝送方法及び映像受信装置
JP7150114B1 (ja) 2021-09-02 2022-10-07 株式会社ドワンゴ コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム
WO2023032736A1 (ja) * 2021-09-02 2023-03-09 株式会社ドワンゴ コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム
JP2023036147A (ja) * 2021-09-02 2023-03-14 株式会社ドワンゴ コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム
WO2023084570A1 (ja) * 2021-11-09 2023-05-19 日本電信電話株式会社 発話推定装置、発話推定方法及び発話推定プログラム
WO2023162073A1 (ja) * 2022-02-24 2023-08-31 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
WO2024070550A1 (ja) * 2022-09-29 2024-04-04 京セラ株式会社 システム、電子機器、システムの制御方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP2017118364A (ja) コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
JP6651989B2 (ja) 映像処理装置、映像処理方法、及び映像処理システム
JP4212274B2 (ja) 発言者識別装置及び該発言者識別装置を備えたテレビ会議システム
JP5458027B2 (ja) 次発話者誘導装置、次発話者誘導方法および次発話者誘導プログラム
JP7036046B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2008139762A (ja) プレゼンテーション支援装置および方法並びにプログラム
JP2007213282A (ja) 講演者支援装置および講演者支援方法
WO2017191711A1 (ja) 制御装置、制御方法およびコンピュータプログラム
WO2017191713A1 (ja) 制御装置、制御方法及びコンピュータプログラム
WO2011027475A1 (ja) テレビ会議装置
JP6363987B2 (ja) 音声処理システム、音声処理装置および音声処理プログラム
JP6445473B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム
JP6480351B2 (ja) 発話制御システム、発話制御装置及び発話制御プログラム
WO2018135304A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP6383349B2 (ja) コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
CN113924542B (zh) 用于确定情绪状态的头戴式耳机信号
JP5143114B2 (ja) 発話の予備動作検出及び伝達方法及び装置及びプログラム
JP7197957B2 (ja) 反応解析システムおよび反応解析装置
JP4585380B2 (ja) 次発言者検出方法、装置、およびプログラム
JP6502865B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム
JP2016042345A (ja) 推定装置、その方法およびプログラム
JP6550951B2 (ja) 端末、ビデオ会議システム、及びプログラム
JP6335157B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム
KR20160028868A (ko) 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법
JP2004248125A (ja) 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180515

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181030