JP2017118364A

JP2017118364A - コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム

Info

Publication number: JP2017118364A
Application number: JP2015252585A
Authority: JP
Inventors: 亮石井; Akira Ishii; 和弘大塚; Kazuhiro Otsuka; 史朗熊野; Shiro Kumano
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2017-06-29

Abstract

【課題】ネットワークを介して受信する音声信号および映像信号が遅延している場合でも円滑なコミュニケーションを実現することができるコミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラムを提供する。
【解決手段】会話に参加する複数の参加者を撮影した映像信号に基づいて表示する表示部１０３と、参加者の呼吸情報、参加者の頭部の動きに関する情報である頭部情報および参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、参加者の音声を集音した音信号とに基づいて、次話者を推定した次話者情報を出力する次話者推定部１０７と、次話者情報に基づいて、表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を表示部に表示させる映像制御部１０９とを備える。
【選択図】図２

Description

本発明は、コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラムに関する。

従来、テレビ会議システム等を用いることで、遠隔地にいる複数の参加者が、会話を行うことができる。一般的なテレビ会議システムは、参加者の音声を集音するマイクと、参加者を撮影するカメラと、表示装置と、スピーカと、通信部とを備えるテレビ会議端末を用いて構成される。通信部はネットワークを介して他のテレビ会議端末と通信を行い、他のテレビ会議端末から音声信号及び映像信号を受信する。表示装置は、カメラからの映像信号および通信部が他のテレビ会議端末から受信した映像信号を合成または切り換えて表示する。スピーカは、通信部が他のテレビ会議端末から受信した音声信号に基づいて発音する。

特開２００１−２６８５６３号公報

従来、遠隔地にそれぞれ設置された複数のテレビ会議端末をネットワークで接続したテレビ会議システムがある。テレビ会議端末は、例えば、カメラと、マイクと、スピーカと、ディスプレイとを備えた構成である。テレビ会議端末は、テレビ会議端末の前に座っているテレビ会議の参加者の姿をカメラで撮影し、参加者の音声をマイクで集音して、カメラからの映像信号及びマイクからの音声信号を、ネットワークを介して他のテレビ会議端末へ送信する機能を有する。テレビ会議端末は、ネットワークを介して他のテレビ会議端末から受信した音声信号をスピーカから出力し、ネットワークを介して他のテレビ会議端末から受信した映像信号をディスプレイに表示する機能を有する。

このように、従来のテレビ会議システムは、ネットワークを介して音声信号および映像信号を伝送しているので、他のテレビ会議端末からの音声信号をスピーカから出力するタイミングおよび他のテレビ会議端末からの映像信号をディスプレイに表示するタイミングは、遅延が生じている。この遅延のため、あるテレビ会議端末の前にいる参加者は、他のテレビ会議端末の前にいる他の参加者が話を始めたことに気付かずに、話始めてしまうことがある。このように、テレビ会議において複数の参加者の発話が重なってしまうことを発話衝突という。このような発話衝突の発生は、円滑なコミュニケーションを阻害するという問題がある。また、参加者は、上述した遅延のため自分の発言に対する他の参加者からの応答が遅いと感じることで、ストレスを感じたり、違和感を覚えたりする。このようなストレスや違和感も円滑なコミュニケーションを阻害する原因となる。

上記事情に鑑み、本発明は、ネットワークを介して受信する音声信号および映像信号が遅延している場合でも円滑なコミュニケーションを実現することができるコミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラムを提供することを目的としている。

本発明の一態様は、会話に参加する複数の参加者の音声を含む音を集音して第１の音信号を出力する集音部と、前記参加者を撮影して第１の映像信号を出力する撮像部と、前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、前記集音部からの前記第１の音信号とに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した第１の次話者情報を出力する次話者推定部と、前記撮像部が出力する前記第１の映像信号に基づいて前記参加者の映像を表示する表示部と、前記次話者推定部が出力した前記第１の次話者情報に基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる映像制御部と、を備えるコミュニケーションシステムである。

本発明の一態様は、前記のコミュニケーションシステムであって、前記集音部からの前記第１の音信号に基づいて前記参加者の中で発話中である現話者を特定して現話者情報を出力する現話者特定部を更に備え、前記映像制御部は、前記現話者特定部が出力した前記現話者情報に基づいて、前記表示部に表示される参加者が現話者であると判断された場合に、現話者であることを示す表示態様で現話者と判断された参加者を前記表示部に表示させる。

本発明の一態様は、前記のコミュニケーションシステムであって、前記集音部からの前記第１の音信号と前記撮像部からの前記第１の映像信号とに基づいて、前記参加者の中で発話中である現話者の話の受け手である受話者を推定して受話者情報を出力する受話者推定部を更に備え、前記映像制御部は、前記受話者推定部が出力した前記受話者情報に基づいて、前記表示部に表示される参加者が受話者であると判断された場合に、受話者であることを示す表示態様で受話者と判断された参加者を前記表示部に表示させる。

本発明の一態様は、前記のコミュニケーションシステムであって、前記次話者、前記現話者または前記受話者であることを示す前記表示態様は、前記次話者、前記現話者または前記受話者である参加者の表示領域を強調する枠で囲うことである。

本発明の一態様は、前記のコミュニケーションシステムであって、前記参加者の内の少なくとも１人は遠隔地にいる場合に、遠隔地にいる前記参加者を撮影した第２の映像信号と、遠隔地にいる前記参加者の音声を含む第２の音信号と、遠隔地にいる前記参加者における次話者を推定した第２の次話者情報とを受信する受信部と、前記集音部からの前記第１の音信号および前記受信部が受信した前記第２の音信号に応じて発音する発音部とをさらに備え、前記表示部は、前記撮像部が出力する前記第１の映像信号と、前記受信部が受信した前記第２の映像信号とに基づいて前記参加者の映像を表示し、前記映像制御部は、前記次話者推定部が出力した前記第１の次話者情報と、前記受信部が受信した第２の次話者情報とに基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる。

本発明の一態様は、会話に参加する複数の参加者の音声を含む音を集音して音信号を出力する集音部からの前記音信号が入力される音声入力部と、前記参加者を撮影して映像信号を出力する撮像部からの前記映像信号が入力される映像入力部と、前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、前記集音部からの前記音信号とに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、前記映像入力部に入力された前記映像信号に基づいて前記参加者の映像を表示する表示部と、前記次話者推定部が出力した前記次話者情報に基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる映像制御部と、を備えるコミュニケーション装置である。

本発明の一態様は、表示部を備え、会話に参加する複数の参加者の音声を含む音を集音して音信号を出力する集音部と前記参加者を撮影して映像信号を出力する撮像部とに接続されたコミュニケーション装置で実行されるコミュニケーションプログラムであって、前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、前記集音部からの前記音信号とに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定ステップと、前記撮像部が出力した前記映像信号に基づいて前記参加者の映像を前記表示部に表示させる表示ステップと、前記次話者推定ステップにおいて出力した前記次話者情報に基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる映像制御ステップと、をコンピュータに実行させるためのコミュニケーションプログラムである。

本発明により、ネットワークを介して受信する音声信号および映像信号が遅延している場合でも円滑なコミュニケーションを実現することができる。

第１の実施形態における複数のテレビ会議システムを含む通信システムの全体構成の概略を示す図である。第１の実施形態におけるテレビ会議システム１の詳細な構成例を示す図である。第１の実施形態における次話者確率Ｐ^ｎｓ _ｉ（ｔ）の算出例を示す図である。第１の実施形態における映像制御部１０９の制御により現話者と次話者を強調表示した例を示す図である。第１の実施形態におけるテレビ会議システム１の動作を示すフロー図である。第１の実施形態の変形例における表示部１０３に表示される画面例を示す図である。第２の実施形態におけるテレビ会議システム１ａの構成例を示す図である。第２の実施形態における表示部１０３に表示される画面例１を示す図である。第２の実施形態における表示部１０３に表示される画面例２を示す図である。第２の実施形態におけるテレビ会議システム１ａの動作を示すフロー図である。息の吸い込み区間の例を示す図である。注視対象ラベルの具体例を示す図である。話者である参加者Ｐ１（Ｒ＝Ｓ）の注視対象ラベルＬ１についての時間構造情報を示す図である。

以下、図面を参照して、本発明の実施形態について説明する。
（第１の実施形態）
図１は、第１の実施形態における複数のテレビ会議システム（コミュニケーションシステム）を含む通信システムの全体構成の概略を示す図である。

図１に示すように、テレビ会議システム１−１、１−２、１−３、…は、専用通信網またはインターネット等であるネットワーク１３を介して接続されている。各テレビ会議システム１−１、１−２、１−３、…は、それぞれテレビ会議端末（コミュニケーション装置）１０−１、１０−２、１０−３、…と、各テレビ会議端末１０−１、１０−２、１０−３、…に接続されている参加者の声を集音するためのマイク（集音部）１１−１、１１−２、１１−３、…と、各テレビ会議端末１０−１、１０−２、１０−３、…に接続されている参加者を撮影するためのカメラ１２−１、１２−２、１２−３、…とを備える。

以下の説明において、テレビ会議システム１−１、１−２、１−３、…内のいずれかのテレビ会議システム、テレビ会議端末１０−１、１０−２、１０−３、…内のいずれかのテレビ会議端末、マイク１１−１、１１−２、１１−３、…内のいずれかのマイク、カメラ１２−１、１２−２、１２−３、…内のいずれかのカメラを特に区別する必要がない場合は、単に、テレビ会議システム１、テレビ会議端末１０、マイク１１、カメラ１２と称する。

テレビ会議システム１は、テレビ会議端末１０の前に座っているテレビ会議の参加者の映像および音声を他のテレビ会議端末１０と送受信を行う機能を有する。これにより、テレビ会議システム１は、複数の参加者がテレビ会議を行うことができる環境をテレビ会議の参加者に提供することができる。

テレビ会議端末１０は、カメラ１２で撮影した参加者の映像信号と、マイク１１で集音した参加者の音声信号とを、ネットワーク１３を介して、他のテレビ会議端末１０へ送信する機能を有する。テレビ会議端末１０は、他のテレビ会議端末１０から他のテレビ会議端末１０の前に座っている参加者の映像信号および音声信号を受信する機能を有する。１台のテレビ会議端末１０の前には、１人または複数人の参加者が座っている。

１台のテレビ会議端末１０に対して複数人の参加者がいる場合は、その人数分のマイク１１及びカメラ１２が設置されており、各参加者の音声が各マイク１１に入力され、各参加者の映像が各カメラ１２で撮影される。マイク１１とカメラ１２は、参加者別に一組ずつ設置される構成であり、マイク１１を特定すると、カメラ１２も特定することができる。例えば、一組のマイク１１及びカメラ１２からの音声信号及び映像信号に同じ識別情報を関連付けて、音声信号及び映像信号の処理を行う構成とする。

テレビ会議端末１０は、マイク１１からの音声信号を含む音信号（以下の説明では単に音声信号という）が入力される音声入力部１０１と、カメラ１２からの映像信号が入力される映像入力部１０２と、映像入力部１０２に入力された映像信号および他のテレビ会議端末１０から受信した映像信号を合成して表示する液晶ディスプレイ等の表示部１０３と、他のテレビ会議端末１０から受信した音声信号に基づいた音声を出力するスピーカ（発音部）１０４とを備える。

以上の構成により、テレビ会議システム１は、遠隔地にいる複数の参加者がお互いに発話する映像および音声を確認することができるテレビ会議可能な環境を提供する。また、第１の実施形態のテレビ会議システム１は、テレビ会議に参加している参加者の中から、現在発話を行っている参加者である現話者を特定する機能と、現話者が話しかけている参加者である受話者を推定する機能と、次に話を行う参加者である次話者を推定する機能とを有する。第１の実施形態のテレビ会議システム１は、特定した現話者の音声及び映像と、推定した受話者の音声及び映像と、推定した次話者の音声及び映像とを優先的に出力及び表示する機能を備える点が特徴の一つである。以下、テレビ会議システム１の特徴となる構成例の詳細について説明する。

テレビ会議システム１は、音声信号から発話区間を自動で検出するＶＡＤ（Voice Activity Detection）機能を有し、推定した次話者の情報に基づいて精度良く発話区間を検出する機能をさらに備えてもよい。

図２は、第１の実施形態におけるテレビ会議システム１の詳細な構成例を示す図である。図２に示すように、テレビ会議システム１は、テレビ会議端末１０と、マイク１１と、カメラ１２と、呼吸動作計測装置１４と、注視対象検出装置１５と、頭部動作計測装置１６とを備える。テレビ会議端末１０は、テレビ会議の各参加者に装着された呼吸動作計測装置１４および注視対象検出装置１５から、それぞれ呼吸情報および注視対象情報を受信する機能を有する。呼吸動作計測装置１４は、参加者の呼吸動作を計測し、各離散時刻ｔでの計測結果を表す呼吸情報を出力する装置であり、その詳細については後述する。注視対象検出装置１５は、参加者の視線を検出し、各離散時刻ｔでの参加者が注視している対象に関する情報である注視対象情報を出力する装置であり、その詳細については後述する。頭部動作計測装置１６は、参加者の頭部の動きを計測し、各離散時刻ｔでの計測結果を表す頭部動作情報を出力する装置であり、その詳細については後述する。

テレビ会議端末１０は、音声入力部１０１と、映像入力部１０２と、表示部１０３と、スピーカ１０４と、現話者特定部１０５と、受話者推定部１０６と、次話者推定部１０７と、通信部１０８と、映像制御部１０９と、音声制御部１１０とを備える。

音声入力部１０１は、マイク１１からの音声信号を入力とし、現話者特定部１０５、受話者推定部１０６、次話者推定部１０７、通信部１０８および音声制御部１１０へ音声信号を出力する。音声入力部１０１は、マイク１１からの音声信号を、テレビ会議端末１０内で処理可能な信号形式の音声信号に変換する等の処理を行う。映像入力部１０２は、カメラ１２からの映像信号を入力とし、現話者特定部１０５、受話者推定部１０６、次話者推定部１０７、通信部１０８および映像制御部１０９へ映像信号を出力する。映像入力部１０２は、カメラ１２からの映像信号を、テレビ会議端末１０内で処理可能な信号形式の映像信号に変換する等の処理を行う。

現話者特定部１０５は、音声入力部１０１からの音声信号および映像入力部１０２からの映像信号を入力とし、その音声信号に基づいて現話者を特定し、現話者情報を出力する。現話者特定部１０５は、例えば、音声入力部１０１からの音声信号に基づいて、音声信号の信号レベルについて所定期間の平均値を求め、その平均値が閾値以上であれば、当該音声信号を出力したマイク１１に対応する参加者を現話者として特定する。現話者特定部１０５は、映像信号を用いて、参加者の口の動きを検出して、上記平均値と閾値の比較結果に加えて、口の動きの検出結果も考慮して現話者か否かの判断を行うようにしてもよい。現話者特定部１０５は、現話者情報を、受話者推定部１０６、通信部１０８、映像制御部１０９および音声制御部１１０へ出力する。

現話者を特定する他の方法として、現話者特定部１０５は、マイク１１からの音声信号において、音声の存在する区間（発話区間）と音声の存在しない区間（非発話区間）を自動的に検出するＶＡＤ（Voice Activity Detection）技術を用いて、発話区間が検出されたマイク１１に対応する参加者を現話者として特定してもよい。多人数の多マイクにおけるＶＡＤ技術については、例えば、以下の参考文献１に記載されている。
参考文献１：澤田宏、外４名、"多人数多マイクでの発話区間検出〜ピンマイクでの事例〜"、日本音響学会春季研究発表会、ｐｐ．６７９−６８０、２００７年３月

受話者推定部１０６は、音声入力部１０１からの音声信号と、映像入力部１０２からの映像信号と、現話者特定部１０５からの現話者情報とを入力とし、現話者が話しかけている参加者である受話者を推定する。受話者推定部１０６は、音声入力部１０１からの音声信号に基づいて、発話のピッチ、発話のパワー、話速等の韻律特徴量を解析して解析結果を音声特徴量として取得する。受話者推定部１０６は、現話者情報に基づいて現話者を特定し、特定した現話者の顔の向きを映像入力部１０２からの映像信号に基づいて判定する。この顔の向きを判定する処理は、話者が発話時に受話者の方向に顔を向けることが多いという経験に基づいて行っている。受話者推定部１０６は、音声特徴量と現話者の顔の向きとに基づいて受話者を推定する。受話者推定部１０６は、推定した受話者情報を、通信部１０８、映像制御部１０９および音声制御部１１０へ出力する。

上述した受話者を推定する技術は、公知の技術であり、例えば、以下の参考文献２に記載されている。
参考文献２：中野有紀子、外３名、“非言語情報に基づく受話者推定機構を用いた多人数会話システム”、人工知能学会論文誌２９巻１号、ｐｐ．６９−７９、２０１４年
上述した受話者を推定する方法では、現話者の顔の向きから受話者を推定していたが、本実施形態のテレビ会議端末１０には、各参加者に装着された注視対象検出装置１５が接続されているので、現話者に装着された注視対象検出装置１５からの注視対象情報に基づいて、現話者の注視対象である受話者を特定してもよい。

次話者推定部１０７は、音声入力部１０１からの音声信号と、映像入力部１０２からの映像信号と、呼吸動作計測装置１４からの呼吸情報と、注視対象検出装置１５からの注視対象情報と、頭部動作計測装置１６からの頭部動作情報とを入力とし、各参加者が時刻ｔに次話者となる確率である次話者確率を求めて、その次話者確率に基づいて推定した次話者に関する情報である次話者情報を出力する。次話者推定部１０７は、音声入力部１０１からの音声信号、映像入力部１０２からの映像信号、呼吸動作計測装置１４からの呼吸情報、注視対象検出装置１５からの注視対象情報および頭部動作計測装置１６からの頭部動作情報に基づいて、各参加者ｉが時刻ｔに次話者となる確率である次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出する。次話者推定部１０７は、算出した次話者確率Ｐ^ｎｓ _ｉ（ｔ）を閾値と比較して次話者を推定し、推定した次話者を示す次話者情報を通信部１０８、映像制御部１０９および音声制御部１１０へ出力する。次話者推定部１０７は、閾値を超える次話者確率Ｐ^ｎｓ _ｉ（ｔ）の参加者が複数いるのであれば、複数の参加者を次話者として推定してもよい。

図３は、第１の実施形態における次話者確率Ｐ^ｎｓ _ｉ（ｔ）の算出例を示す図である。図３においては、４名の参加者Ａ〜Ｄについて参加者Ａの発話の切れ目となる時刻ｔ_ｂｕｅ以降における次話者確率Ｐ^ｎｓ _ｉ（ｔ）の変化例を示している。符号３１を付与した矩形は、参加者Ａの発話区間を示している。発話区間３１は、発話終了時刻ｔ_ｂｕｅで終了している。次話者確率Ｐ^ｎｓ _Ａ（ｔ）３２で示す点線は、参加者Ａにおける発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける次話者確率の変化を示している。次話者確率Ｐ^ｎｓ _Ｂ（ｔ）３３で示す点線は、参加者Ｂにおける発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける次話者確率の変化を示している。次話者確率Ｐ^ｎｓ _Ｃ（ｔ）３４で示す点線は、参加者Ｃにおける発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける次話者確率の変化を示している。次話者確率Ｐ^ｎｓ _Ｄ（ｔ）３５で示す点線は、参加者Ｄにおける発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける次話者確率の変化を示している。このように、次話者推定部１０７は、参加者ｉの発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）の変化を算出する。なお、次話者推定部１０７における次話者の推定処理の詳細については後述する。

通信部１０８は、他のテレビ会議端末１０とネットワーク１３を介して通信を行う。通信部１０８は、他のテレビ会議端末１０から他のテレビ会議端末１０に接続されたマイク１１で集音された音声信号および他のテレビ会議端末１０に接続されたカメラ１２で撮影された映像信号を受信する。通信部１０８は、他のテレビ会議端末１０から話者情報を受信する。通信部１０８は、他のテレビ会議端末１０から受信した、映像信号および話者情報を映像制御部１０９へ出力する。通信部１０８は、他のテレビ会議端末１０から受信した、音声信号および話者情報を音声制御部１１０へ出力する。

通信部１０８は、音声入力部１０１からの音声信号、映像入力部１０２からの映像信号、現話者特定部１０５からの現話者情報、受話者推定部１０６からの受話者情報および次話者推定部１０７からの次話者情報が入力され、入力された音声信号、映像信号、現話者情報、受話者情報及び次話者情報を所定の信号形式でネットワーク１３を介して他のテレビ会議端末１０へ送信する。以下の説明において、現話者情報、受話者情報及び次話者情報をまとめて話者情報という。

映像制御部１０９は、映像入力部１０２からの映像信号、現話者特定部１０５からの現話者情報、受話者推定部１０６からの受話者情報および次話者推定部１０７からの次話者情報を入力とし、かつ、通信部１０８からの通信部１０８が他のテレビ会議端末１０から受信した映像信号および話者情報を入力とする。映像制御部１０９は、映像入力部１０２からの映像信号と、通信部１０８が受信した他のテレビ会議端末１０からの映像信号とを処理して、全参加者の映像、他のテレビ会議端末１０の前にいる全参加者の映像または全参加者の内の一部の参加者の映像を表示部１０３に表示する制御を行う。

映像制御部１０９は、現話者特定部１０５からの現話者情報、受話者推定部１０６からの受話者情報および次話者推定部１０７からの次話者情報に基づいて、映像入力部１０２からの映像信号の中に、現話者、受話者、次話者である参加者が映っているか否かを判断する機能をする。映像制御部１０９は、映像入力部１０２からの映像信号の中に、現話者、受話者および次話者のいずれかである参加者が映っていると判断したものがある場合は、その現話者、受話者および次話者のいずれかの映像を表示部１０３に表示する。

映像制御部１０９は、通信部１０８が受信した他のテレビ会議端末１０からの現話者情報、受話者情報および次話者情報に基づいて、通信部１０８が受信した他のテレビ会議端末１０からの映像信号の中に、現話者、受話者、次話者である参加者が映っているか否かを判断する機能をする。映像制御部１０９は、通信部１０８が受信した他のテレビ会議端末１０からの映像信号の中に、現話者、受話者および次話者のいずれかである参加者が映っていると判断したものがある場合は、その参加者が現話者、受話者および次話者のいずれかであることが分かるように表示部１０３に表示する。

図４は、第１の実施形態における映像制御部１０９の制御により現話者と次話者を強調表示した例を示す図である。図４において、テレビ会議への参加者は、参加者Ａ〜Ｄの４人であり、各参加者Ａ〜Ｄはそれぞれ遠隔地にいてテレビ会議端末１０の前に座っているものとする。そして、映像制御部１０９は、表示部１０３の画面４０において、表示領域４１〜４４に、それぞれ４人の参加者Ａ〜Ｄの映像を常時表示させている。

参加者Ａの前にあるテレビ会議端末１０内の映像制御部１０９は、映像入力部１０２からの映像信号を表示領域４１に表示して、通信部１０８が受信した参加者Ｂ〜Ｄの映っている映像信号をそれぞれ表示領域４２〜４４に表示する。また、映像制御部１０９は、話者情報に基づいて、現話者、受話者および次話者を表示する場合には、該当する参加者の映像に対して、現話者、受話者および次話者のいずれであるのか分かるように表示する。

図４では、映像制御部１０９は、話者情報に基づいて参加者Ａが現話者であるとした場合に、表示領域４１の上部に「現話者」と表示する現話者示唆部４５と、表示領域４１の周囲に現話者を示す色（例えば青色）の強調枠４６とを表示する。映像制御部１０９は、話者情報に基づいて参加者Ｃを次話者であるとした場合に、表示領域４３の上部に「次話者」と表示する次話者示唆部４７と、表示領域４３の周囲に次話者を示す色（例えば赤色）の強調枠４８とを表示する。なお、図４にいて受話者は示していないが、受話者情報に基づいて受話者となる参加者がいれば、現話者および次話者と同様の表示を行う。例えば、受話者となる参加者の表示領域の上に、受話者示唆部として「受話者」を表示して、受話者となる参加者の表示領域の周囲を受話者を示す色の強調枠で囲って表示する。

映像制御部１０９が図４のような画面４０を表示部１０３に表示させることで、現話者、受話者、次話者が誰であるのか一目で分かるので、テレビ会議の参加者は、円滑なコミュニケーションをとることができる。特に、次話者が発話を行う前のタイミングで推定した次話者を明示することができるので、次話者と推定されなかった参加者が発話することを防ぎ、発話衝突が起こることを回避することができる。また、ネットワーク１３を介して伝送される映像信号および音声信号に伝送遅延があっても、次話者が発話を行う前のタイミング（遅延した音声信号が発音されるタイミングよりも速いタイミング）で推定した次話者を明示することができる。これにより、遅延した音声信号よりも早く発話者は自分の発言に対する応答があったと感じることができるので、伝送遅延によるストレスを感じたり、違和感を覚えたりすることを防ぐことができる。

なお、図４に示す現話者示唆部４５、強調枠４６、次話者示唆部４７および強調枠４８等の表示態様は、一例である。映像制御部１０９は、表示中の参加者が現話者、受話者および次話者のいずれであるのか分かる表示態様であればどのような表示態様で表示させてもよい。映像制御部１０９は、例えば、図４において現話者示唆部４５および強調枠４６のいずれか一方のみを表示してもよく、次話者示唆部４７および強調枠４８のいずれか一方のみを表示してもよい。

音声制御部１１０は、音声入力部１０１からの音声信号、現話者特定部１０５からの現話者情報、受話者推定部１０６からの受話者情報および次話者推定部１０７からの次話者情報を入力とし、かつ、通信部１０８からの通信部１０８が他のテレビ会議端末１０から受信した音声信号および話者情報を入力とする。音声制御部１１０は、音声入力部１０１からの音声信号と、通信部１０８が受信した他のテレビ会議端末１０からの音声信号とを処理して、現話者の音声、受話者の音声および次話者の音声をスピーカ１０４から発音するよう制御する。

音声制御部１１０は、現話者特定部１０５からの現話者情報、受話者推定部１０６からの受話者情報および次話者推定部１０７からの次話者情報に基づいて、音声入力部１０１からの音声信号が、現話者、受話者、次話者である参加者の音声信号であるか否かを判断する機能をする。音声制御部１１０は、音声入力部１０１からの音声信号が、現話者、受話者および次話者のいずれかである参加者の音声信号であると判断したものがある場合は、例えば、その音声信号に対して信号増幅処理（音量増幅処理）を行ってスピーカ１０４へ出力する。

音声制御部１１０は、通信部１０８が受信した他のテレビ会議端末１０からの話者情報に基づいて、通信部１０８が受信した他のテレビ会議端末１０からの音声信号の中に、現話者、受話者、次話者である参加者の音声信号であるか否かを判断する機能をする。音声制御部１１０は、通信部１０８が受信した他のテレビ会議端末１０からの音声信号の中に、現話者、受話者および次話者のいずれかである参加者の音声信号と判断したものがある場合は、その現話者、受話者および次話者のいずれかの音声信号に対して信号増幅処理を行ってスピーカ１０４へ出力する。これにより、現話者の音声、受話者の返事の音声および次話者の発話の音声を聞き取りやすい音量でスピーカ１０４から発音することができる。

また、人は話を始める前に音がするくらいの勢いで息を吸い込み吸気音を出すことで、次話者が自分であることを周囲に知らせることがある。本実施形態のテレビ会議端末１０は、次話者が発話する前に次話者を推定して、その次話者の音声信号の音量を大きくすることができる。これにより、本実施形態のテレビ会議端末１０は、上記吸気音が他の参加者にはっきりと聞こえるようにスピーカ１０４から発音することができる。これにより、テレビ会議の参加者同士における発話衝突を防ぐことができる。

第１の実施形態におけるテレビ会議システム１は、テレビ会議端末１０が表示部１０３およびスピーカ１０４を備える構成としたが、これに限定されるものではない。テレビ会議端末１０は、表示部１０３およびスピーカ１０４を備えず、表示部およびスピーカを有する表示装置と接続する構成であってもよい。また、テレビ会議端末１０は、マイク１１およびカメラ１２を備える構成であってもよい。第１の実施形態におけるテレビ会議システム１は、一般的なテレビ会議システムが具備している機能（スピーカの音量の調整機能や、画面の切り替え機能等）を備えていてもよい。

次に、第１の実施形態におけるテレビ会議システム１の動作について説明する。
図５は、第１の実施形態におけるテレビ会議システム１の動作を示すフロー図である。図５において、参加者が各テレビ会議システム１の各装置（テレビ会議端末１０等）の電源を入れる等を行うことにより、各テレビ会議システム１が備える各装置が起動する（ステップＳ１０１）。

テレビ会議システム１のテレビ会議端末１０は、音声入力部１０１における音声信号の入力および映像入力部１０２における映像信号の入力を行う（ステップＳ１０２）。現話者特定部１０５は、音声入力部１０１からの音声信号に基づいて、現話者を特定し現話者情報を出力する。受話者推定部１０６は、音声入力部１０１からの音声信号と、映像入力部１０２からの映像信号と、現話者特定部１０５からの現話者情報とに基づいて、現話者が話しかけている参加者である受話者を推定する。次話者推定部１０７は、音声入力部１０１からの音声信号と、映像入力部１０２からの映像信号と、呼吸動作計測装置１４からの呼吸情報と、注視対象検出装置１５からの注視対象情報と、頭部動作計測装置１６からの頭部動作情報とに基づいて推定した次話者に関する情報である次話者情報を出力する。このように、現話者特定部１０５、受話者推定部１０６および次話者推定部１０７は、現話者、受話者および次話者に関する話者情報を出力する（ステップＳ１０３）。

通信部１０８は、他のテレビ会議端末１０からネットワーク１３を介して音声信号、映像信号および話者情報を受信し、ステップＳ１０２で得た音声信号および映像信号とステップＳ１０３で得た話者情報とを他のテレビ会議端末１０へ送信する（ステップＳ１０４）。映像制御部１０９は、話者情報に基づいて、映像入力部１０２からの映像信号と、通信部１０８が受信した他のテレビ会議端末１０からの映像信号とを処理して、図４に示した画面４０のように現話者、受話者および次話者が明示された映像信号を表示部１０３へ出力する。音声制御部１１０は、話者情報に基づいて、音声入力部１０１からの音声信号と、通信部１０８が受信した他のテレビ会議端末１０からの音声信号とを処理して、処理後の現話者、受話者および次話者の音声が増幅された音声信号をスピーカ１０４へ出力する（ステップＳ１０５）。

表示部１０３は、映像制御部１０９において処理された現話者、受話者および次話者が明示された映像を表示し、スピーカ１０４は、音声制御部１１０において処理された現話者、受話者および次話者の音声が増幅された音声信号に基づいた発音を行う（ステップＳ１０６）。

次に、参加者が各テレビ会議システム１の各装置（テレビ会議端末１０等）の電源を切る等を行うことにより、各テレビ会議システム１の各装置は、動作を終了するか否かを判断する（ステップＳ１０７）。ここで動作を終了すると判断した場合には（ステップＳ１０７のＹＥＳ）、各テレビ会議システム１の各装置が電源オフしてテレビ会議システム１の動作が終了する。ここで動作を終了しないと判断した場合には（ステップＳ１０７のＮＯ）、各テレビ会議システム１は、ステップＳ１０２の処理に移行する。

以上に説明した動作により、第１の実施形態におけるテレビ会議システム１は、現話者、受話者、次話者が誰であるのか一目で分かるような映像を表示部１０３に表示することができる。これにより、テレビ会議の参加者は、円滑なコミュニケーションをとることができる。第１の実施形態におけるテレビ会議システム１は、現話者の音声、受話者の返事の音声および次話者の発話の音声が聞き取りやすい音量となるよう、それらの音声の音声信号を増幅してスピーカ１０４から発音することができる。また、次話者推定部１０７は、参加者の呼吸、視線及び頭部動作等の非言語行動に基づいて次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出している。すなわち、次話者推定部１０７は、次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出する際に、参加者の発話内容を解析等して参加者の言語行動に関する情報を取得しなくてもよい。

（第１の実施形態の変形例）
上述した第１の実施形態では、１台のテレビ会議端末１０に対して複数人の参加者がいる場合は、その人数分のマイク１１およびカメラ１２を設置する構成としたが、この構成に限られるものではなく、種々の構成が考えられる。例えば、参加者の人数に関係なく１台のテレビ会議端末１０に対して、１つのマイク１１および１つのカメラ１２を設置する構成であってもよい。この場合は、例えば、カメラ１２は、参加者全員を撮影可能な位置に設置する。映像制御部１０９は、現話者情報、受話者情報、次話者確率に基づいて、映像入力部１０２からの映像信号の中に映っている複数の参加者の中から、現話者、受話者および次話者に該当する参加者がいれば、その参加者に対して現話者、受話者又は次話者と分かる指標等を表示部１０３に表示する。

図６は、第１の実施形態の変形例における表示部１０３に表示される画面例を示す図である。図６において、表示部１０３に表示される画面６０は、参加者Ａ〜Ｄ全員を含む映像である。また、現話者である参加者Ａには、現話者を示す枠６１が付与されている。また、次話者である参加者Ｄには、次話者を示す枠６２が付与されている。

また、次話者推定部１０７は、次話者を推定すると同時に次話者が発話するタイミングである発話タイミングを推定することができる（発話タイミングの推定の詳細については後述する）。この発話タイミングに関する情報を用いて、次話者を示す枠６２の付近に、次話者の発話開始までのカウントダウンの数字を表示するようにしてもよい。これにより、次話者となる参加者は、適切なタイミングで発話を行うことができる。

（第２の実施形態）
第２の実施形態におけるテレビ会議システム（コミュニケーションシステム）１ａの構成例について説明する。第２の実施形態におけるテレビ会議システム１ａは、１台のテレビ会議端末１０ａの前に複数の参加者がいることが前提となる。テレビ会議システム１ａは、話者情報に基づいて、現話者、受話者および次話者の少なくとも一人をカメラ１２ａでズームアップして撮影することができるという特徴を有する。

図７は、第２の実施形態におけるテレビ会議システム１ａの構成例を示す図である。図７に示すとおり、第２の実施形態におけるテレビ会議システム１ａは、図２に示した第１の実施形態におけるテレビ会議システム１とほぼ同じ構成であり、図２と同じ構成については同じ符号を付与しており、その説明を省略する。なお、複数のテレビ会議システム１ａを含む通信システムの全体構成は、図１におけるテレビ会議システム１をテレビ会議システム１ａに置き換え、カメラ１２をカメラ１２ａに置き換えた構成である。

テレビ会議システム１ａは、テレビ会議端末１０ａと、マイク１１と、カメラ１２ａと、呼吸動作計測装置１４と、注視対象検出装置１５と、頭部動作計測装置１６とを備える。テレビ会議端末１０ａは、音声入力部１０１と、映像入力部１０２と、表示部１０３と、スピーカ１０４と、現話者特定部１０５と、受話者推定部１０６と、次話者推定部１０７と、通信部１０８と、映像制御部１０９と、音声制御部１１０と、カメラ制御部１１１とを備える。

カメラ１２ａは、現話者、受話者および次話者をそれぞれ撮影できるように３台のカメラ（以下、第１〜第３のカメラという）を少なくとも含む構成である。カメラ１２ａが含む各カメラは、撮影方向を変更するためのパンチルト機構と、撮影画角を変更するためのズーム機構とを有する。カメラ制御部１１１は、現話者特定部１０５からの現話者情報、受話者推定部１０６からの受話者情報および次話者推定部１０７からの次話者情報を入力とし、入力された話者情報に基づいてカメラ１２ａに含まれる各第１〜第３のカメラの撮影方向および撮影画角を制御する。

第２の実施形態において表示部１０３に表示する画面例として図８、図９を用いて説明する。図８、図９に示す具体例においては、少なくとも４人の参加者Ａ〜Ｄが１つのテレビ会議端末１０ａの前に座っており、他のテレビ会議端末１０ａの前に座っている複数の参加者とテレビ会議を行っている場合を想定している。

図８は、第２の実施形態における表示部１０３に表示される画面例１を示す図である。図８において、表示部１０３に表示される画面８０は、現話者である参加者Ｂを表示する表示領域８１と、次話者と推定された参加者Ａおよび参加者Ｄをそれぞれ表示する表示領域８２および表示領域８３とから構成されている。

このような画面８０を表示部１０３に表示させるためには、例えば、以下の処理が必要である。まず、カメラ１２ａの内の第１のカメラが現話者である参加者Ｂを撮影方向として参加者Ｂをズームアップした撮影を行い、カメラ１２ａの内の第２のカメラが次話者である参加者Ａを撮影方向として参加者Ａをズームアップした撮影を行い、カメラ１２ａの内の第３のカメラが次話者である参加者Ｄを撮影方向として参加者Ｄをズームアップした撮影を行う。そして、映像制御部１０９は、映像入力部１０２から第１のカメラ〜第３のカメラが出力した映像信号を受信し、第１のカメラから出力された映像信号を表示領域８１に表示させ、第２のカメラから出力された映像信号を表示領域８２に表示させ、第３のカメラから出力された映像信号を表示領域８３に表示させた画面８０の映像信号を生成し、表示部１０３へ出力する。

図９は、第２の実施形態における表示部１０３に表示される画面例２を示す図である。図９において、表示部１０３に表示される画面９０は、現話者を表示する表示領域９１と、受話者を表示する表示領域９２と、次話者を表示する表示領域９３と、現話者、受話者および次話者以外の参加者を表示する表示領域９４とを含む構成である。画面９０は、表示領域９１の上部に「現話者」と表示する現話者示唆部９５と、表示領域９２の上部に「受話者」と表示する受話者示唆部９６と、表示領域９３の上部に「次話者」と表示する次話者示唆部９７と、表示領域９４の上部に「それ以外」と表示する現話者、受話者および次話者以外の参加者を示唆する示唆部９８とを備える。

このような画面９０を表示部１０３に表示させるためには、例えば、以下の処理が必要である。まず、カメラ１２ａの内の第１のカメラが現話者である参加者Ａを撮影方向として参加者Ａをズームアップした撮影を行い、カメラ１２ａの内の第２のカメラが受話者である参加者Ｂを撮影方向として参加者Ｂをズームアップした撮影を行い、カメラ１２ａの内の第３のカメラが次話者である参加者Ｄを撮影方向として参加者Ｄをズームアップした撮影を行い、カメラ１２ａの内の第４のカメラが現話者、受話者および次話者以外の参加者である参加者Ｃを撮影方向として参加者Ｃをズームアップした撮影を行う。そして、映像制御部１０９は、映像入力部１０２から第１のカメラ〜第４のカメラが出力した映像信号を受信し、第１のカメラから出力された映像信号を表示領域９１に表示させ、第２のカメラから出力された映像信号を表示領域９２に表示させ、第３のカメラから出力された映像信号を表示領域９３に表示させ、第４のカメラから出力された映像信号を表示領域９４に表示させた画面９０の映像信号を生成し、表示部１０３へ出力する。

次に、第２の実施形態におけるテレビ会議システム１ａの動作について説明する。
図１０は、第２の実施形態におけるテレビ会議システム１ａの動作を示すフロー図である。図１０に示すとおりステップＳ１０１〜Ｓ１０３、Ｓ１０４〜Ｓ１０７は、図５に示した第１の実施形態におけるテレビ会議システム１の動作と同じ処理であり、その説明を省略する。

ステップＳ１０３の次に、カメラ制御部１１１は、現話者特定部１０５、受話者推定部１０６および次話者推定部１０７からの話者情報に基づいて、カメラ１２ａに含まれる各第１〜第３のカメラの撮影方向および撮影画角を制御する（ステップＳ１０８）。ステップＳ１０８の次は、ステップＳ１０４へ進む。

以上に説明したように、第２の実施形態におけるテレビ会議システム１ａは、現話者、受話者および次話者をズームアップすることができるので、１台のテレビ会議端末１０ａの前に多人数の参加者がいる場合に、第１の実施形態におけるテレビ会議システム１と比べてカメラの数を少なくして、第１の実施形態におけるテレビ会議システム１と同等の効果を得ることができる。

なお、テレビ会議端末１０ａの前に複数の参加者がいて、カメラ制御部１１１が、音声信号から発話区間が検出された参加者をズームアップした画像を出力するようカメラ１２ａを制御する場合について説明する。発話区間を検出する際に、誰が発話を行ったのかを特定する話者特定を行う必要がある。従来の技術では、発話区間を検出する際の発話開始の検出精度が良くないため、話者が発話を開始したタイミングで、話者を特定することは困難であった。しかし、第２の実施形態におけるテレビ会議システム１ａでは、次話者が発話を開始する前に次話者を推定することができるので、カメラ制御部１１１は、次話者として発話を開始した参加者のズームアップした画像を、発話開始のタイミングで出力するようカメラ１２ａを制御することができる。

（第１、第２の実施形態に共通の次話者を推定する処理の具体例）
次に、上述した第１の実施形態におけるテレビ会議システム１および第２の実施形態におけるテレビ会議システム１ａに共通である次話者を推定する処理の具体例について説明する。テレビ会議システム１およびテレビ会議システム１ａにおける次話者推定には、例えば、以下の参考文献３、４の技術などを適用することができるが、任意の既存の技術を利用してもよい。参考文献３、４記載の技術を利用した場合は、注視対象検出装置１５が出力する注視対象情報に基づく発話者と非発話者の注視行動の遷移パターンを用いて、次話者推定部１０７は、次発話者および発話のタイミングを予測する。

参考文献３：特開２０１４−２３８５２５号公報
参考文献４：石井亮、外４名、“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”、人工知能学会研究会資料、SIG-SLUD-B301-06、pp.27-34、2013年

以下に、本実施形態に適用可能な参考文献３、４以外の次話者推定技術の例を示す。
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際（発話者継続時）には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際（発話者交替時）には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。

以下では、Ａ人の参加者Ｐ_１，…，Ｐ_Ａが対面コミュニケーションを行う状況を想定する。参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ、Ａ≧２）には呼吸動作計測装置１４およびマイク１１が装着される。呼吸動作計測装置１４は、参加者Ｐ_ａの呼吸動作を計測し、各離散時刻ｔでの計測結果を表す呼吸情報Ｂ_ａ，ｔを得て、次話者推定部１０７に出力する。呼吸動作計測装置１４が、バンド式の呼吸装置を備える構成について説明する。バンド式の呼吸装置は、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる（バンドの伸びが小さくなる）。以降、この値をＲＳＰ値と呼ぶ。なお、ＲＳＰ値は、バンドの伸縮の強さに応じて参加者Ｐ_ａごとに異なる大きさを取る。そこで、これに起因するＰ_ａごとのＲＳＰ値の相違を排除するために、各参加者Ｐ_ａのＲＳＰ値の平均値μ_ａと標準偏差値δ_ａを用いて、μ_ａ+δ_ａが１、μ_ａ−δ_ａが−１になるように参加者Ｐ_ａごとにＲＳＰ値を正規化する。これによって、すべての参加者Ｐ_ａの呼吸動作データを同一に分析することが可能となる。各呼吸動作計測装置１４は、正規化されたＲＳＰ値を呼吸情報Ｂ_ａ，ｔとして次話者推定部１０７に送る。

さらに、マイク１１は、参加者Ｐ_ａの音声を取得し、各離散時刻ｔでの参加者Ｐ_ａの音声を表す音声信号Ｖ_ａ，ｔを得て、次話者推定部１０７に出力する。次話者推定部１０７は、入力された音声信号Ｖ_ａ，ｔ（ただし、ａ＝１，…，Ａ）から雑音を除去し、さらに発話区間Ｕ_ｋ（ただし、ｋは発話区間Ｕ_ｋの識別子）とその発話者Ｐ_ｕｋとを抽出する。ただし、「Ｐ_ｕｋ」の下付き添え字はｕ_ｋ＝１，…，Ａを表す。１つの発話区間Ｕ_ｋをＴｄ［ｍｓ］連続した無音区間で囲まれた区間と定義し、この発話区間Ｕ_ｋを発話の一つの単位と規定する。これにより、次話者推定部１０７は、各発話区間Ｕ_ｋを表す発話区間情報、およびその発話者Ｐ_ｕｋを表す発話者情報（参加者Ｐ_１，…，Ｐ_Ａのうち何れが発話区間Ｕ_ｋでの発話者Ｐ_ｕｋであるかを表す発話者情報）を得る。

次話者推定部１０７は、各参加者Ｐ_ａの呼吸情報Ｂ_ａ，ｔを用いて、各参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋを抽出し、さらに息の吸い込みに関するパラメータλ_ａ，ｋを取得する。息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す。

図１１は、息の吸い込み区間の例を示す図である。図１１を用いて、息の吸い込み区間Ｉ_ａ，ｋの算出方法を例示する。ここで参加者Ｐ_ａの離散時刻ｔでのＲＳＰ値をＲ_ａ，ｔと表記する。ＲＳＰ値Ｒ_ａ，ｔは呼吸情報Ｂ_ａ，ｔに相当する。図１１に例示するように、例えば、以下の（式１）が成り立つとき、

離散時刻ｔ＝ｔ_ｓ（ｋ）の前２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して減少し、その後２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して上昇しているから、離散時刻ｔ_ｓ（ｋ）を息の吸い込みの開始位置とする。さらに、以下の（式２）が成り立つとき、

離散時刻ｔ＝ｔ_ｅ（ｋ）の前２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して上昇し、その後２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して減少しているから、離散時刻ｔ_ｅ（ｋ）を息の吸い込みの終了位置とする。このとき、参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋはｔ_ｓ（ｋ）からｔ_ｅ（ｋ）までの区間となり、息の吸い込み区間の長さはｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）となる。

次話者推定部１０７は、息の吸い込み区間Ｉ_ａ，ｋが抽出されると、息の吸い込み区間Ｉ_ａ，ｋ、呼吸情報Ｂ_ａ，ｔ、および発話区間Ｕ_ｋの少なくとも一部を用い、息の吸い込みに関するパラメータλ’_ａ，ｋを抽出する。パラメータλ’_ａ，ｋは、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込みの量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部を表す。パラメータλ’_ａ，ｋは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’_ａ，ｋは、例えば以下のパラメータＭＩＮ_ａ，ｋ，ＭＡＸ_ａ，ｋ，ＡＭＰ_ａ，ｋ，ＤＵＲ_ａ，ｋ，ＳＬＯ_ａ，ｋ，ＩＮＴ１_ａ，ｋの少なくとも一部を含む。パラメータλ’_ａ，ｋは、これらの１つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・ＭＩＮ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み開始時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最小値。
・ＭＡＸ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最大値。
・ＡＭＰ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの振幅、すなわち、ＭＡＸ_ａ，ｋ−ＭＩＮ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量を表す。
・ＤＵＲ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋの長さ、すなわち、息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）から開始位置の離散時刻ｔ_ｓ（ｋ）を減じて得られる値ｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）。
・ＳＬＯ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋにおけるＲＳＰ値Ｒ_ａ，ｔの単位時間当たりの傾きの平均値、すなわち、ＡＭＰ_ａ，ｋ／ＤＵＲ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化を表す。
・ＩＮＴ１_ａ，ｋ：手前の発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}（発話区間末）から参加者Ｐ_ａの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ｉ_ａ，ｋの開始位置の離散時刻ｔ_ｓ（ｋ）から発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}を減じて得られる値ｔ_ｓ（ｋ）−ｔ_{ｕｅ（ｋ）}。発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。

次話者推定部１０７は、さらに以下のパラメータＩＮＴ２_ａ，ｋを生成してもよい。
・ＩＮＴ２_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時から次発話者の発話区間Ｕ_ｋ＋１が開始されるまでの間隔、すなわち、次発話者の発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}から息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）を減じて得られる値ｔ_{ｕｓ（ｋ＋１）}−ｔ_ｅ（ｋ）。発話区間Ｕ_ｋ＋１と吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。パラメータλ’_ａ，ｋにＩＮＴ２_ａ，ｋを加えたものをパラメータλ_ａ，ｋと表記する。

次話者推定部１０７は、例えば発話区間Ｕ_ｋ＋１を表す情報が得られ、さらに、パラメータλ_ａ，ｋが得られた以降（発話区間Ｕ_ｋ＋１が開始された後）に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１およびその発話者Ｐ_ｕｋ＋１とその発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに記録する。次発話者Ｐ_ｕｋ＋１の発話タイミングとは、発話区間Ｕ_ｋ＋１の何れかの時点またはそれに対応する時点であればよい。発話タイミングＴ_ｕｋ＋１は、発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｓ（ｋ＋１）}＋γ（ただし、γは正または負の定数）であってもよいし、発話区間Ｕ_ｋ＋１の終了時刻ｔ_{ｕｅ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｅ（ｋ＋１）}＋γであってもよいし、発話区間Ｕ_ｋ＋１の中心時刻ｔ_{ｕｓ（ｋ＋１）}＋（ｔ_{ｕｅ（ｋ＋１）}−ｔ_{ｕｓ（ｋ＋１）}）／２であってもよい。λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持され、次話者推定部１０７が発話区間Ｕ_ｋ＋１よりも後の次発話者とその発話タイミングを予測するために使用される。

次話者推定部１０７は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に基づき、参加者Ｐ_１，…，Ｐ_Ａのうち何れが次発話者Ｐ_ｕｋ＋１であるか、および次発話者Ｐ_ｕｋ＋１の発話タイミングの少なくとも一方を表す推定情報を得る。ただし、「Ｐ_ｕｋ＋１」の下付き添え字「ｕｋ＋１」はｕ_ｋ＋１を表す。発話区間Ｕ_ｋの発話者Ｐ_ｕｋが発話区間Ｕ_ｋ＋１でも発話を行う場合（発話継続する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋと同一である。一方、発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者が発話区間Ｕ_ｋ＋１でも発話を行う場合（すなわち発話交替する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者である。

次話者推定部１０７は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、このモデルを用いて特徴量に対する推定情報を得る。特徴量ｆ_ａ，ｋは、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の１つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ｉ_ａ，ｉ（ただし、ｉ＜ｋ）での息の吸い込み量、吸い込み区間Ｉ_ａ，ｉの長さ、吸い込み区間Ｉ_ａ，ｉでの息の吸い込み量の時間変化、および発話区間Ｕ_ｉと吸い込み区間Ｉ_ａ，ｉとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋ、ならびに発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｋ，Ｐ_ｕｋ＋１の情報が学習データとして用いられる。

次話者推定部１０７による次発話者／発話タイミング推定処理を例示する。この例では、次発話者Ｐ_ｕｋ＋１を推定するモデルである次発話者推定モデルと、次発話者Ｐ_ｕｋ＋１の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Ｐ_ｕｋ＋１とその発話タイミングが推定される。

次発話者推定モデルを学習する場合、次話者推定部１０７は、学習データとして、データベースから過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、および発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１を表す情報を読み出す。次話者推定部１０７は、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ１_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１を学習データとして、次発話者推定モデルを機械学習する。次発話者推定モデルには、例えば、ＳＶＭ（Support Vector Machine）、ＧＭＭ（Gaussian Mixture Model）、ＨＭＭ（Hidden Markov Model）等を用いることができる。

次話者推定部１０７は、パラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ１_ａ，ｋを次発話者推定モデルに適用し、それによって推定された次発話Ｐ_ｕｋ＋１を表す情報を「推定情報」の一部とする。なお、次発話Ｐ_ｕｋ＋１を表す情報は、何れかの参加者Ｐ_ａを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Ｐ_ａが次話者になる確率を、Ｐ１_ａとする。

発話タイミング推定モデルを学習する場合、次話者推定部１０７は、学習データとして、データベースから過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１、および発話区間Ｕ_ｉ＋１の発話開始タイミングＴ_ｕｉ＋１を表す情報を読み出す。次話者推定部１０７は、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ２_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１，Ｔ_ｕｉ＋１を学習データとして、発話タイミング推定モデルを機械学習する。次発話者推定モデルには、例えば、ＳＶＭ、ＧＭＭ、ＨＭＭ等を用いることができる。

次話者推定部１０７は、発話者Ｐ_ｕｋ、パラメータλ’_ａ，ｋの少なくとも一部、および次発話者推定モデルにより推定された次発話者Ｐ_ｕｋ＋１が得られると、パラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用する。次話者推定部１０７は、特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用して推定された次の発話区間Ｕ_ｋ＋１の発話タイミングＴ_ｕｋ＋１（例えば、発話区間Ｕ_ｋ＋１の開始時刻）を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Ｐ_ａが時刻ｔに発話を開始する確率（時刻ｔが参加者Ｐ_ａの発話タイミングである確率）を、Ｐ２_ａ（ｔ）とする。
上述した実施形態の次話者推定部１０７が推定する参加者ｉの時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）は、参加者ｉが本次話者推定技術における参加者Ｐ_ａである場合、確率Ｐ１_ａ×確率Ｐ２_ａ（ｔ）により算出される。

上述の次話者推定部１０７は、呼吸動作の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、視線の観測値を用いてもよい。
視線行動をさらに利用する場合、各参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ）には注視対象検出装置１５がさらに装着される。注視対象検出装置１５は、参加者Ｐ_ａが誰を注視しているか（注視対象）を検出し、参加者Ｐ_ａおよび各離散時刻ｔでの注視対象Ｇ_ａ，ｔを表す情報を次話者推定部１０７に送る。次話者推定部１０７は、注視対象情報Ｇ_１，ｔ，…，Ｇ_Ａ，ｔ、発話区間Ｕ_ｋ、および話者情報Ｐ_ｕｋを入力とし、発話区間終了前後における注視対象ラベル情報θ_ｖ，ｋ（ただし、ｖ＝１，…，Ｖ、Ｖは注視対象ラベルの総数）を生成する。注視対象ラベル情報は、発話区間Ｕ_ｋの終了時点Ｔ_ｓｅに対応する時間区間における参加者の注視対象を表す情報である。ここでは、終了時点Ｔ_ｓｅを含む有限の時間区間における参加者Ｐ_ａの注視対象をラベル付けした注視対象ラベル情報θ_ｖ，ｋを例示する。この場合、例えば、発話区間Ｕ_ｋの終了時点Ｔ_ｓｅよりも前の時点Ｔ_ｓｅ−Ｔ_ｂから終了時点Ｔ_ｓｅよりも後の時点Ｔ_ｓｅ＋Ｔ_ａまでの区間に出現した注視行動を扱う。Ｔ_ｂ，Ｔ_ａは０以上の任意の値でよいが、目安として、Ｔ_ｂは０秒〜２．０秒、Ｔ_ａは０秒〜３．０秒程度にするのが適当である。

次話者推定部１０７は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルＳ：話者（すなわち、話者である参加者Ｐ_ｕｋを表す）
・ラベルＬ_ξ：非話者（ただし、ξは互いに異なる非話者である参加者を識別し、ξ＝１，…，Ａ−１である。例えば、ある参加者が、非話者Ｐ_２、非話者Ｐ_３、の順に注視をしていたとき、非話者Ｐ_２にＬ_１というラベル、非話者Ｐ_３にＬ_２というラベルが割り当てられる。）
・ラベルＸ：誰も見ていない

ラベルがＳまたはＬ_ξのときには、相互注視（視線交差）が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、Ｓ_Ｍ，Ｌ_ξＭ（下付き添え字の「_ξＭ」はξ_Ｍを表す）のように、ラベルＳ，Ｌ_ξの末尾にＭラベルを付与する。

図１２は、注視対象ラベルの具体例を示す図である。図１２はＡ＝４の例であり、発話区間Ｕ_ｋ，Ｕ_ｋ＋１と各参加者の注視対象が時系列に示されている。図１２の例では、参加者Ｐ_１が発話した後、発話交替が起き、新たに参加者Ｐ_２が発話をした際の様子を示している。ここでは、話者である参加者Ｐ_１が参加者Ｐ_４を注視した後、参加者Ｐ_２を注視している。Ｔ_ｓｅ−Ｔ_ｂの時点からＴ_ｓｅ＋Ｔ_ａの時点までの区間では、参加者Ｐ_１が参加者Ｐ_２を見ていたとき、参加者Ｐ_２は参加者Ｐ_１を見ている。これは、参加者Ｐ_１と参加者Ｐ_２とで相互注視が起きていることを表す。この場合、参加者Ｐ_１の注視対象情報Ｇ_１，ｔから生成される注視対象ラベルはＬ_１とＬ_２Ｍの２つとなる。上述の区間では、参加者Ｐ_２は参加者Ｐ_４を注視した後、話者である参加者Ｐ_１を注視している。この場合、参加者Ｐ_２の注視対象ラベルはＬ_１とＳ_Ｍの２つとなる。また、上述の区間では、参加者Ｐ_３は話者である参加者Ｐ_１を注視している。この場合、参加者Ｐ_３の注視対象ラベルはＳとなる。また、上述の区間では、参加者Ｐ_４は誰も見ていない。この場合、参加者Ｐ_４の注視対象ラベルはＸとなる。したがって、図１２の例では、Ｖ＝６である。

次話者推定部１０７は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰（Ｒ∈｛Ｓ，Ｌ｝）のどの注視対象ラベル（ＧＬ∈｛Ｓ，Ｓ_Ｍ，Ｌ_１，Ｌ_１Ｍ，Ｌ_２，Ｌ_２Ｍ，…｝）であるかを示す記号としてＲ_ＧＬ、その開始時刻をＳＴ＿Ｒ_ＧＬ、終了時刻をＥＴ＿Ｒ_ＧＬと定義する。ただし、Ｒは参加者の発話状態（話者か非話者か）を表し、Ｓは話者、Ｌは非話者である。例えば、図１２の例において、参加者Ｐ_１の最初の注視対象ラベルはＳ_Ｌ１であり、その開始時刻はＳＴ＿Ｓ_Ｌ１、終了時刻はＥＴ＿Ｓ_Ｌ１である。注視対象ラベル情報θ_ｖ，ｋは注視対象ラベルＲ_ＧＬ、開始時刻ＳＴ＿Ｒ_ＧＬ、および終了時刻ＥＴ＿Ｒ_ＧＬを含む情報である。

次話者推定部１０７は、注視対象ラベル情報θ_ｖ，ｋを用いて、各参加者Ｐ_ａの注視対象遷移パターンＥ_ａ，ｋを生成する。注視対象遷移パターンの生成は、注視対象ラベルＲ_ＧＬを構成要素として、時間的な順序を考慮した遷移ｎ−ｇｒａｍを生成して行う。ここで、ｎは正の整数である。例えば、図１２の例を考えると、参加者Ｐ１の注視対象ラベルから生成される注視対象遷移パターンＥ_１，ｋはＬ_１−Ｌ_２Ｍである。同様にして、参加者Ｐ_２の注視対象遷移パターンＥ_２，ｋはＬ_１−Ｓ_Ｍ、参加者Ｐ_３の注視対象遷移パターンＥ_３，ｋはＳ、参加者Ｐ_４の注視対象遷移パターンＥ_４，ｋはＸとなる。

注視対象遷移パターンＥ_ａ，ｋは、例えば発話区間Ｕ_ｋ＋１が開始された後に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１に該当する発話を行う次発話者Ｐ_ｕｋ＋１および次発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに送られる。データベースでは、注視対象遷移パターンＥ_ａ，ｋが、パラメータλａ，ｋと併合され、Ｅ_ａ，ｋ，λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持される。

次話者推定部１０７は、注視対象ラベル情報θ_ｖ，ｋを入力とし、注視対象ラベルごとの時間構造情報Θ_ｖ，ｋを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、（１）注視対象ラベルの時間長、（２）注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、（３）注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。

具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をＳＴ＿Ｕ、発話区間の終了時刻をＥＴ＿Ｕと定義する。
・ＩＮＴ１（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬと終了時刻ＥＴ＿Ｒ_ＧＬの間隔
・ＩＮＴ２（＝ＳＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ３（＝ＥＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ４（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｕ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい後であったか
・ＩＮＴ５（＝ＥＴ＿Ｕ−ＥＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ６（＝ＳＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ７（＝ＥＴ＿Ｒ_ＧＬ’−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい前であったか
・ＩＮＴ８（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ９（＝ＥＴ＿Ｒ_ＧＬ−ＥＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか

なお、ＩＮＴ６〜ＩＮＴ９については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図１２の例では、注視対象ラベル情報は全部で６つ（Ｌ_１，Ｌ_２Ｍ，Ｌ_１，Ｓ_Ｍ，Ｓ，Ｘ）あるため、ＩＮＴ６〜ＩＮＴ９は、それぞれ６×５＝３０個のデータが生成される。

時間構造情報Θ_ｖ，ｋは注視対象ラベル情報θ_ｖ，ｋについてのパラメータＩＮＴ１〜ＩＮＴ９からなる情報である。時間構造情報Θ_ｖ，ｋを構成する上記の各パラメータについて、図１３を用いて具体的に示す。図１３は、話者である参加者Ｐ１（Ｒ＝Ｓ）の注視対象ラベルＬ１についての時間構造情報を示す図である。すなわち、Ｒ_ＧＬ＝Ｓ_Ｌ１における時間構造情報である。なお、ＩＮＴ６〜ＩＮＴ９については、図示を簡略化するために、参加者Ｐ２の注視対象ラベルＬ１、すなわちＲ_ＧＬ＝Ｌ_Ｌ１との関係のみを示す。図１３の例では、ＩＮＴ１〜ＩＮＴ９は以下のように求められることがわかる。
・ＩＮＴ１＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ２＝ＳＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ３＝ＥＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ４＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｕ
・ＩＮＴ５＝ＥＴ＿Ｕ−ＥＴ＿Ｓ_Ｌ１
・ＩＮＴ６＝ＳＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ７＝ＥＴ＿Ｌ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ８＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ９＝ＥＴ＿Ｓ_Ｌ１−ＥＴ＿Ｌ_Ｌ１

時間構造情報Θ_ｖ，ｋは、例えば発話区間Ｕ_ｋ＋１が開始された後に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１に該当する発話を行う次発話者Ｐ_ｕｋ＋１および次発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに送られる。データベースでは、時間構造情報Θ_ｖ，ｋが、パラメータλ_ａ，ｋと併合され、Θ_ｖ，ｋ，λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｕ_ｋ＋１，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持される。

次話者推定部１０７は、注視対象遷移パターンＥ_ａ，ｋ、時間構造情報Θ_ｖ，ｋ、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報である次話者確率Ｐ^ｎｓ _ｉ（ｔ）を得て出力する。

上述の次話者推定部１０７は、呼吸動作の観測値および視線の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、頭部動作計測装置１６からの参加者の頭部の動きに関する情報である頭部動作情報を用いてもよい。頭部動作計測装置１６は、各参加者の頭部に装着され、頭部の位置の座標値及び回転角度を含む頭部動作情報を所定周期（例えば３０Ｈｚ）で出力する。これは、人は発話の直前に大きく頷く傾向があることを利用するものである。次話者推定部１０７は、映像入力部１０２からの各参加者の画像データを解析して、頭部が上下に動いたか否かにより参加者が頷いたか否かを判定する。次話者推定部１０７は、頭部動作情報に基づいて参加者ｉが時刻ｔの数秒前に頷いたと判定した場合には、参加者ｉの時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）に所定値を加算する処理等を行う。また、次話者推定部１０７は、呼吸動作の観測値、視線の観測値および、参加者の頭部の動きに関する情報の少なくとも一つに基づいて次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出してもよい。

上述したように参加者の頭部の動きに関する情報を用いて次話者を推定する技術として、以下の参考文献５に記載の技術がある。
参考文献５：石井亮、外３名、“複数人対話での話者交替に関する頭部動作の分析〜次話者と発話開始タイミングの予測モデルの構築に向けて〜”，ＨＣＧシンポジウム、２０１４年
次話者推定部１０７は、参考文献５に記載の技術を用いて頭部動作情報に基づく次話者の推定を行う構成であってもよい。また、次話者推定部１０７は、頭部動作計測装置１６からの頭部動作情報に基づいて参加者の頭の動きを判断したが、映像入力部１０２からの各参加者の画像データを解析して、参加者の頭部の動きを特定してもよい。

上述した第１の実施形態におけるテレビ会議端末１０または第２の実施形態におけるテレビ会議端末１０ａの備える各機能部は、例えば、コンピュータで実現することができる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

遠隔地にいる複数の参加者による会議や討論会を行う場合に適用可能である。

１、１ａ、１−１、１−２、１−３…テレビ会議システム，１０、１０ａ、１０−１、１０−２、１０−３…テレビ会議端末，１１、１１−１、１１−２、１１−３…マイク，１２、１２ａ、１２−１、１２−２、１２−３…カメラ，１３…ネットワーク，１０１…音声入力部，１０２…映像入力部，１０３…表示部，１０４…スピーカ，１０５…現話者特定部，１０６…受話者推定部，１０７…次話者推定部，１０８…通信部，１０９…映像制御部，１１０…音声制御部，１１１…カメラ制御部

Claims

会話に参加する複数の参加者の音声を含む音を集音して第１の音信号を出力する集音部と、
前記参加者を撮影して第１の映像信号を出力する撮像部と、
前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、前記集音部からの前記第１の音信号とに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した第１の次話者情報を出力する次話者推定部と、
前記撮像部が出力する前記第１の映像信号に基づいて前記参加者の映像を表示する表示部と、
前記次話者推定部が出力した前記第１の次話者情報に基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる映像制御部と、
を備えるコミュニケーションシステム。
前記集音部からの前記第１の音信号に基づいて前記参加者の中で発話中である現話者を特定して現話者情報を出力する現話者特定部を更に備え、
前記映像制御部は、前記現話者特定部が出力した前記現話者情報に基づいて、前記表示部に表示される参加者が現話者であると判断された場合に、現話者であることを示す表示態様で現話者と判断された参加者を前記表示部に表示させる請求項１に記載のコミュニケーションシステム。
前記集音部からの前記第１の音信号と前記撮像部からの前記第１の映像信号とに基づいて、前記参加者の中で発話中である現話者の話の受け手である受話者を推定して受話者情報を出力する受話者推定部を更に備え、
前記映像制御部は、前記受話者推定部が出力した前記受話者情報に基づいて、前記表示部に表示される参加者が受話者であると判断された場合に、受話者であることを示す表示態様で受話者と判断された参加者を前記表示部に表示させる請求項１または請求項２に記載のコミュニケーションシステム。
前記次話者、前記現話者または前記受話者であることを示す前記表示態様は、前記次話者、前記現話者または前記受話者である参加者の表示領域を強調する枠で囲うことである請求項１から請求項３のいずれか一項に記載のコミュニケーションシステム。
前記参加者の内の少なくとも１人は遠隔地にいる場合に、遠隔地にいる前記参加者を撮影した第２の映像信号と、遠隔地にいる前記参加者の音声を含む第２の音信号と、遠隔地にいる前記参加者における次話者を推定した第２の次話者情報とを受信する受信部と、
前記集音部からの前記第１の音信号および前記受信部が受信した前記第２の音信号に応じて発音する発音部とをさらに備え、
前記表示部は、前記撮像部が出力する前記第１の映像信号と、前記受信部が受信した前記第２の映像信号とに基づいて前記参加者の映像を表示し、
前記映像制御部は、前記次話者推定部が出力した前記第１の次話者情報と、前記受信部が受信した第２の次話者情報とに基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる請求項１から請求項４のいずれか一項に記載のコミュニケーションシステム。
会話に参加する複数の参加者の音声を含む音を集音して音信号を出力する集音部からの前記音信号が入力される音声入力部と、
前記参加者を撮影して映像信号を出力する撮像部からの前記映像信号が入力される映像入力部と、
前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、前記集音部からの前記音信号とに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、
前記映像入力部に入力された前記映像信号に基づいて前記参加者の映像を表示する表示部と、
前記次話者推定部が出力した前記次話者情報に基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる映像制御部と、
を備えるコミュニケーション装置。
表示部を備え、会話に参加する複数の参加者の音声を含む音を集音して音信号を出力する集音部と前記参加者を撮影して映像信号を出力する撮像部とに接続されたコミュニケーション装置で実行されるコミュニケーションプログラムであって、
前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つと、前記集音部からの前記音信号とに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定ステップと、
前記撮像部が出力した前記映像信号に基づいて前記参加者の映像を前記表示部に表示させる表示ステップと、
前記次話者推定ステップにおいて出力した前記次話者情報に基づいて、前記表示部に表示される参加者が次話者であると判断された場合に、次話者であることを示す表示態様で次話者と判断された参加者を前記表示部に表示させる映像制御ステップと、
をコンピュータに実行させるためのコミュニケーションプログラム。