JP2023044901A

JP2023044901A - 通信システム、管理サーバ、通信方法及び通信プログラム

Info

Publication number: JP2023044901A
Application number: JP2021153013A
Authority: JP
Inventors: 渉片瀬; Wataru Katase
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2021-09-21
Filing date: 2021-09-21
Publication date: 2023-04-03

Abstract

【課題】発話者が発言をしたときに、この発言を聞いた参加者による音声を他の参加者に伝達することが可能な通信システム、管理サーバ、通信方法、通信プログラムを提供する。【解決手段】ユーザ端末１００は、カメラ２と、マイクロフォン３と、ユーザが笑顔であるか否かを判定する笑顔検出部１１を備える。また、マイクロフォン３で検出された音声データを記録するリングバッファ４と、記録されている音声データの一部を抽出する音声抽出部１２と、音声抽出部１２で抽出された音声データを他のユーザ端末に送信する音声送信部１７を備える。管理サーバ３００は、複数のユーザ端末のユーザのうち、発話者を特定する発話者特定部３２を備える。一のユーザ端末の音声抽出部１２は、発話者の笑顔が検出され、且つ、一のユーザ端末のユーザの笑顔が検出された際に、一のユーザ端末のユーザの笑顔が検出された時刻以前の時刻を開始時刻とした音声データを抽出する。【選択図】図２

Description

本提案は、通信システム、管理サーバ、通信方法及び通信プログラムに関する。

複数のユーザが一つの場所に集まることなく会議を行う目的で、従来より通信システムを用いたオンライン会議が行われている。オンライン会議では、複数のユーザ端末をネットワークに接続して、各ユーザ端末のユーザ（以下、「参加者」という）による会議が行われる。

オンライン会議では、各ユーザ端末に搭載されている表示画面上に、会議に参加する参加者の顔が表示される。また、複数の参加者のうち発話した参加者の音声が、他の参加者のユーザ端末に搭載されるスピーカから出力される。従って、各参加者は、オンライン会議に参加している他の参加者の表情を見ることができ、且つ、発話者が発話した音声を聞き取ることができる。

このような通信システムにおいて、オンライン会議中に発話者がジョーク、頓智、諧謔のある発言（以下、「ユーモア発言」という）をすることが多々ある。例えば、発話者がユーモア発言をすると、この発言を聞いた他の参加者が笑うことにより会議の場が和むという効果が有る。

しかし、オンライン会議中においては、発話者以外の参加者は、例えば子供の泣き声などの生活音がマイクロフォンで検出されることを避けるために、発話するとき以外はマイクロフォンをオフとしていることが多い。このため、発話者のユーモア発言に同調した参加者が笑った場合には、この参加者が笑顔であることを各ユーザ端末の画面上で認識できるものの、この参加者の笑い声は伝達されない。従って、ユーモア発言した発話者は、このユーモア発言に対する参加者の反応が判らないことが多い。

即ち、発話者によるユーモア発言に対して、これを聞いた参加者が関心を持って笑っているか否かが判り難く、会議の場を和ませることが難しい。

特許文献１には、電子会議システムにおいて、利用者の映像或いは音声から利用者の感情を抽出し、例えば利用者が声を荒げた発言をしている場合に、音声を補正して不適切な音声の通信を回避することが開示されている。

しかし、特許文献１に開示された技術は、不適切な発言を補正することにより、他の利用者に不快感を与えないようにするという内容であり、ユーモア発言をしたときに会議の場を和ませることについて言及されていない。

特開２０１０－１８３４４４号公報

上述したように、従来における通信システムでは、発話者がユーモア発言をしたときに、この発言を聞いた参加者の笑い声が伝達されないので、会議の場を和ませることが難しいという問題があり、特許文献１に開示された技術においても、笑い声を伝達することについて言及されていない。

本提案は、このような従来の課題を解決するためになされたものであり、その目的とするところは、発話者が発言をしたときに、この発言を聞いた参加者による音声を他の参加者に伝達することが可能な通信システム、管理サーバ、通信方法及び通信プログラムを提供することにある。

上記目的を達成するため、本提案に係る通信システムは、複数のユーザ端末と、ネットワークを介して前記各ユーザ端末に接続された管理サーバと、を備えた通信システムであって、前記ユーザ端末は、ユーザの顔画像を撮像する撮像部と、前記ユーザが発話した音声データを検出する音声検出部と、前記ユーザの顔画像に基づき、前記ユーザが所定の表情であるか否かを判定する表情検出部と、前記音声検出部で検出された音声データを記録する音声記録部と、前記音声記録部に記録されている音声データの一部を抽出する音声抽出部と、前記音声抽出部で抽出された音声データを他のユーザ端末に送信する音声送信部と、を備え、前記管理サーバは、各ユーザ端末に設けられている前記音声検出部で検出された音声データに基づき、前記複数のユーザ端末のユーザのうち、発話者を特定する発話者特定部を備え、前記発話者特定部で特定された発話者以外のユーザのユーザ端末のうち、一のユーザ端末の前記音声抽出部は、前記発話者の所定の表情が検出され、且つ、前記一のユーザ端末のユーザの所定の表情が検出された際に、前記音声記録部に記録されている音声データから、前記一のユーザ端末のユーザの所定の表情が検出された時刻以前の時刻を開始時刻とした音声データを抽出する。

本提案に係る管理サーバは、ネットワークを介して複数のユーザ端末に接続された管理サーバであって、各ユーザ端末に設けられている音声検出部で検出された音声データに基づき、複数のユーザ端末のユーザのうち、発話者を特定する発話者特定部と、前記発話者特定部で特定された前記発話者にて所定の表情が検出され、且つ、前記発話者特定部で特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて前記所定の表情が検出された際に、前記一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットするフラグセット部と、を備える。

本提案に係る通信方法は、ネットワークを介して接続された複数のユーザ端末との間で通信を行う通信方法であって、前記各ユーザ端末に設けられている音声検出部で検出された音声データに基づき、複数のユーザ端末のユーザのうち、発話者を特定するステップと、前記特定された発話者にて所定の表情が検出され、且つ、前記特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて前記所定の表情が検出された際に、前記一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットするステップと、を備える。

本提案に係る通信プログラムは、ネットワークを介して接続された複数のユーザ端末との間で通信を行う通信プログラムであって、前記各ユーザ端末に設けられている音声検出部で検出された音声データに基づき、複数のユーザ端末のユーザのうち、発話者を特定する機能と、前記特定された発話者にて所定の表情が検出され、且つ、前記特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて前記所定の表情が検出された際に、前記一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットする機能と、をコンピュータに実現させることを特徴とする。

本提案によれば、発話者が発言をしたときに、この発言を聞いた参加者による音声を他の参加者に伝達することが可能になる。

図１は、実施形態に係る通信システムの構成を示すブロック図である。図２は、実施形態に係るユーザ端末及び管理サーバの詳細な構成を示すブロック図である。図３は、第１実施形態に係る通信システムによる処理手順を示すフローチャートである。図４は、第１実施形態に係る通信システムによる処理手順を示すタイミングチャートである。図５は、第２実施形態に係る通信システムによる処理手順を示すフローチャートである。図６は、各ユーザ端末に表示される参加者の顔の画像を示す説明図である。図７は、通信システムの他の構成を示すブロック図である。

以下、本提案の実施形態について図面を参照して説明する。

［第１実施形態の構成］
図１は、第１実施形態に係る通信システムの概略構成を示す説明図である。図１に示すように、本実施形態に係る通信システムは、複数のユーザ端末１００と、ネットワーク２００を介して各ユーザ端末１００に接続された管理サーバ３００を備えている。

管理サーバ３００は、ＣＰＵ（中央処理装置）、メモリ、及び入出力部を備えるマイクロコンピュータを用いて実現可能である。マイクロコンピュータを複数の情報処理部（後述するフラグセット部３１及び発話者特定部３２）として機能させるためのコンピュータプログラムを、マイクロコンピュータにインストールして実行する。これにより、マイクロコンピュータは、管理サーバ３００が備える複数の情報処理部として機能する。また、ここではソフトウェアによって管理サーバ３００を実現する例を示すが、各情報処理を実行するための専用のハードウェアを用意して、管理サーバ３００を構成してもよい。また、管理サーバ３００に含まれる各情報処理部が実行する情報処理を個別のハードウェアにより構成してもよい。

図２は、ユーザ端末１００、及び管理サーバ３００の詳細な構成を示すブロック図である。図２では一つのユーザ端末１００を示している。ユーザ端末１００は、例えばユーザ（参加者）が自宅に所有するパーソナルコンピュータである。複数の参加者がそれぞれのユーザ端末１００を操作することにより、ネットワーク２００を経由したオンライン会議を実行することができる。

図２に示すようにユーザ端末１００は、制御部１と、カメラ２（撮像部）と、マイクロフォン３（音声検出部）と、リングバッファ４（音声記録部）と、スピーカ５を備えている。管理サーバ３００は、フラグセット部３１と、発話者特定部３２を備えている。

カメラ２は、ユーザ端末１００を操作する参加者の顔を撮像する。カメラ２は、ユーザの顔画像を撮像する撮像部の一例である。カメラ２は、撮像した画像を制御部１に出力する。

マイクロフォン３は、参加者が発話した音声を含む、ユーザ端末１００の周囲で発生する音声を検出し、検出した音声データをリングバッファ４及び制御部１に出力する。マイクロフォン３は、ユーザが発話した音声データを検出する音声検出部の一例である。

リングバッファ４は、マイクロフォン３で検出された音声データを循環的に記録する。リングバッファ４は、メモリに入力される音声データの書き込みを制御する書き込み制御部（図示省略）、及びメモリに書き込まれた音声データの読み出しを制御する読み出し制御部（図示省略）を備えている。リングバッファ４は、先頭から最後尾までのアドレスに、順次音声データを書き込む。リングバッファ４は、メモリ内の書き込みエリアが満杯である場合には、先頭から順次データを消去して、新規に入力された音声データをメモリに書き込む。

リングバッファ４は、例えば録音可能時間が１０分間とされており、１０分間の録音時間が経過すると、その後に入力される音声データを上書きして記憶する。即ち、リングバッファ４には、直近の過去１０分間の音声データが記録されている。リングバッファ４は、マイクロフォン３で検出された音声データを記録する音声記録部の一例である。なお、参加者が発話した音声を継続的に記録できれば、リングバッファ４以外の機器を使用してもよい。

制御部１は、笑顔検出部１１（表情検出部）と、音声抽出部１２と、発話検出部１３と、リセット部１４と、フラグ設定部１５と、タイマ１６と、音声送信部１７と、音声受信部１８と、を備えている。制御部１は、ＣＰＵ（中央処理装置）、メモリ、及び入出力部を備えるマイクロコンピュータを用いて実現可能である。マイクロコンピュータを複数の情報処理部（後述する笑顔検出部１１、音声抽出部１２、発話検出部１３、リセット部１４、フラグ設定部１５、タイマ１６、音声送信部１７、音声受信部１８）として機能させるためのコンピュータプログラムを、マイクロコンピュータにインストールして実行する。これにより、マイクロコンピュータは、制御部１が備える複数の情報処理部として機能する。また、ここではソフトウェアによって制御部１を実現する例を示すが、各情報処理を実行するための専用のハードウェアを用意して、制御部１を構成してもよい。また、制御部１に含まれる各情報処理部が実行する情報処理を個別のハードウェアにより構成してもよい。

笑顔検出部１１は、カメラ２で撮像された参加者の顔画像を取得する。笑顔検出部１１は、参加者の顔画像に基づき、この参加者が所定の表情（本実施例では笑顔とするがこれに限定されない）であるか否かを判定する。笑顔検出部１１は、笑顔であるか否かの判定結果を、リセット部１４及び管理サーバ３００のフラグセット部３１に出力する。笑顔を判定する処理は、周知の画像処理技術で実施することが可能であり、詳細な処理についての説明を省略する。

音声抽出部１２は、笑顔検出部１１において参加者（発話者以外の参加者）が笑顔であることが検出され、且つ、フラグ設定部１５に設定されているフラグが「１」である場合に、リングバッファ４に記憶されている音声データのうち、所定期間の音声データを抽出する。「所定期間」とは、例えば参加者の笑顔が検出された時刻以前の時刻を開始時刻とし、この開始時刻から設定される期間である。所定期間は、例えば、参加者の笑顔が検出されなくなった時刻を終了時刻とすることができる。また、所定期間は、開始時刻から予め設定した一定時間が経過した時刻を終了時刻とすることができる。一例として、後述する図４（ｂ）に示す時刻ｔ３～ｔ８の期間とすることができる。

発話検出部１３は、マイクロフォン３で検出された音声データを取得する。発話検出部１３は、マイクロフォン３で検出された音声データに基づき、この参加者が発話したか否かを判定する。発話検出部１３は、参加者が発話したと判定された際に、この判定結果を管理サーバ３００の発話者特定部３２に出力する。

フラグ設定部１５は、管理サーバ３００のフラグセット部３１からフラグセット信号（詳細は後述する）が送信された際に、フラグを「１」にセットする。「フラグ」とは、発話者が笑顔であることを示す指標である。フラグ設定部１５は、リセット部１４からリセット信号が出力された際に、フラグを「０」にリセットする。フラグ設定部１５は、タイマ１６により、フラグがセットされた時刻からの経過時間が予め設定した閾値時間に達したことを示す信号が入力された際に、フラグを「０」にリセットする。フラグ設定部１５は、現在のフラグ「１」または「０」のデータを音声抽出部１２に出力する。

リセット部１４は、笑顔検出部１１にて参加者の顔が笑顔であると判定された際に、フラグ設定部１５にリセット信号を出力する。従って、フラグ設定部１５に設定されているフラグが「１」であるときに、参加者の笑顔が検出された場合には、フラグは「０」にリセットされる。

タイマ１６は、管理サーバ３００に設けられるフラグセット部３１でフラグがセットされた時刻からの経過時間を計時し、経過時間が閾値時間に達した際にフラグ設定部１５にリセット信号を出力する。

音声送信部１７は、笑顔検出部１１において参加者が笑顔であることが検出され、且つ、フラグ設定部１５に設定されているフラグが「１」である場合に、音声抽出部１２で抽出された所定期間の音声データを、他のユーザ端末に送信する。一のユーザ端末１００の音声抽出部で抽出された音声データに笑い声が含まれている場合には、他の全てのユーザ端末１００にて笑い声が含まれている音声データが送信される。

音声受信部１８は、他のユーザ端末１００の音声送信部１７から送信される音声データを受信する。音声受信部１８は、受信した音声データをスピーカ５に出力する。

スピーカ５は、音声受信部１８で受信された音声データを出力する。スピーカ５は、音声受信部１８にて発話者が発話した音声データが受信された際に、この音声データを出力する。スピーカ５は、音声受信部１８にて、他のユーザ端末１００の音声抽出部１２で抽出された音声データが受信された際に、この音声データを出力する。

管理サーバ３００に設けられる発話者特定部３２は、複数のユーザ端末１００のうち、発話検出部１３で発話が検出されたユーザ端末１００の参加者を発話者として特定する。

フラグセット部３１は、各ユーザ端末１００の笑顔検出部１１にて笑顔が検出されたことを示す検出信号を、ネットワーク２００を経由して取得する。フラグセット部３１は、発話者特定部３２で特定された発話者のユーザ端末１００における笑顔検出部１１にて笑顔が検出された際に、各ユーザ端末１００のフラグ設定部１５にフラグセット信号を出力する。即ち、複数の参加者のうち、発話を開始している発話者が笑顔になった場合に、各ユーザ端末１００のフラグ設定部１５のフラグは「１」に設定される。即ち、フラグセット部３１は、発話者特定部３２で特定された発話者にて笑顔（所定の表情）が検出され、且つ、発話者特定部３２で特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて笑顔が検出された際に、一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットする。

［第１実施形態の動作］
次に、図３に示すフローチャート、及び図４に示すタイミングチャートを参照して、第１実施形態に係る通信システムの動作について説明する。本実施形態では、各ユーザ端末１００を操作する複数の参加者が、オンライン会議を実施する場合を例に挙げて説明する。

初めに、図３のステップＳ１１において、各ユーザ端末１００における、カメラ２、マイクロフォン３、及びリングバッファ４を作動させる。その結果、カメラ２により参加者の顔が撮像される。マイクロフォン３により、参加者が発話した音声が検出される。リングバッファ４により、マイクロフォン３で検出された音声が記録される。

ステップＳ１２において、各ユーザ端末１００の発話検出部１３は、マイクロフォン３で検出された音声データに基づき、このユーザ端末１００を使用する参加者が発話しているか否かを判定する。発話検出部１３は、この判定結果を管理サーバ３００の発話者特定部３２に送信する。

ステップＳ１３において、発話者特定部３２は、複数の参加者の中から発話者を特定する。即ち、複数の参加者のうち、発話を開始した参加者の音声データがこの発話者のユーザ端末１００のマイクロフォン３で検出されると、発話検出部１３は、この参加者は発話しているものと判定する。発話者特定部３２は、この参加者を発話者として特定する。例えば、図４（ａ）に示すように、時刻ｔ０において複数の参加者のうちの一人が発話を開始すると、この参加者を発話者として特定する。

ステップＳ１４において、発話者のユーザ端末１００（以下、「発話者端末」という）の笑顔検出部１１にて、発話者が笑顔であるか否かを判定する。笑顔であれば（Ｓ１４；ＹＥＳ）、ステップＳ１５に処理を進め、そうでなければ（Ｓ１４；ＮＯ）、ステップＳ１２に処理を戻す。図４（ａ）に示す例では、時刻ｔ０において発話者の音声が検出され、且つ笑顔が検出されている。発話者は、時刻ｔ０においてジョークなどのユーモア発言をしているものと考えられる。

ステップＳ１５において、フラグセット部３１は、各ユーザ端末１００のフラグ設定部１５に設定されるフラグを「１」にセットする。具体的には、図４（ａ）の発話者の笑顔が検出された時刻ｔ０からデータ伝送に要する遅延時間だけ遅れた時刻、即ち、図４（ｂ）に示す参加者Ｍ１のユーザ端末１００の場合には時刻ｔ１において、フラグ設定部１５に設定されるフラグを「１」にセットする。また、図４（ｃ）に示す参加者Ｍ２のユーザ端末１００の場合には時刻ｔ１１、図４（ｄ）に示す参加者Ｍ３のユーザ端末１００の場合には時刻ｔ２１において、フラグ設定部１５に設定されるフラグを「１」にセットする。

ステップＳ１６において、各ユーザ端末１００のタイマ１６は、発話者の笑顔が検出されてからの経過時間の計時を開始する。具体的には、タイマ１６は、図４（ｂ）、（ｃ）、（ｄ）に示す時刻ｔ１、ｔ１１、ｔ２１からの経過時間を計時する。

ステップＳ１７において、発話者端末以外のユーザ端末１００の笑顔検出部１１にて、参加者の笑顔が検出されているか否かを判定する。

笑顔が検出されたユーザ端末１００が有る場合には（Ｓ１７；ＹＥＳ）、ステップＳ１８に処理を進め、そうでなければ（Ｓ１７；ＮＯ）、ステップＳ１７の処理を繰り返す。例えば、図４（ｂ）に示す参加者Ｍ１のユーザ端末１００では、発話者がユーモア発言をした時刻ｔ０から少し遅れた時刻ｔ２にてユーモア発言がスピーカ５にて音声出力される。即ち、時刻ｔ２において、発話者が発話したユーモア発言が参加者Ｍ１に聞き取られる。その後、時刻ｔ４において参加者Ｍ１はユーモア発言に同調して笑顔になり、且つ笑い始める。例えば、時刻ｔ７まで笑いが継続される。

また、参加者Ｍ１のユーザ端末１００よりも遅延時間が大きい参加者Ｍ２のユーザ端末では、図４（ｃ）に示すように、時刻ｔ０から少し遅れた時刻ｔ１２にてユーモア発言がスピーカ５にて音声出力される。即ち、時刻ｔ１２において、発話者が発話したユーモア発言が参加者Ｍ２に聞き取られる。その後、時刻ｔ１４において参加者Ｍ２はユーモア発言に同調して笑顔になり、且つ笑い始める。例えば、時刻ｔ１７まで笑いが継続される。

図４（ｄ）は、参加者Ｍ３が発話者によるユーモア発言に同調せずに、笑わない場合の例を示している。参加者Ｍ３のユーザ端末１００における笑顔検出部１１では、参加者Ｍ３の笑顔が検出されない。参加者Ｍ３のユーザ端末１００では、時刻ｔ２１にてフラグ設定部１５のフラグが「１」に設定されるものの、参加者Ｍ３の笑顔が検出されないので、参加者Ｍ３の音声データは送信されない。また、タイマ１６による計時時間が閾値時間に達した時刻ｔ２２において、フラグは「０」にリセットされる。

ステップＳ１８において、笑顔が検出されたユーザ端末１００の音声抽出部１２は、リングバッファ４に記憶されている音声データから、このユーザ端末１００の参加者の笑顔が検出された時刻以前の時刻、例えば、笑顔が検出された時刻から０．５秒だけ遡った時刻を開始時刻とした音声データを抽出する。参加者の笑顔が検出されなくなった時刻を音声データの抽出の終了時刻とする。従って、参加者の笑顔が検出される以前の時刻から、笑顔が検出されなくなった時刻までの期間の音声データを抽出する。

具体的には、図４（ｂ）に示す参加者Ｍ１のユーザ端末１００では、時刻ｔ４にて参加者Ｍ１の笑顔が検出されると、この時刻ｔ４よりも前の時刻ｔ３を開始時刻として、リングバッファ４に記録されている音声データの抽出を開始する。また、笑顔が検出されなくなった時刻ｔ７から遅延時間だけ経過した時刻ｔ８において、音声データの抽出を終了する。即ち、時刻ｔ３からｔ８までの期間の音声データを、リングバッファ４から抽出する。なお、音声データの抽出の開始時刻から一定時間（例えば、１０秒）が経過した時刻を終了時刻としてもよい。

図４（ｃ）に示す参加者Ｍ２のユーザ端末１００では、時刻ｔ１４にて参加者Ｍ２の笑顔が検出されると、この時刻ｔ１４よりも前の時刻ｔ１３を開始時刻として、リングバッファ４に記録されている音声データの抽出を開始する。また、笑顔が検出されなくなった時刻ｔ１７から遅延時間だけ経過した時刻ｔ１８において、音声データの抽出を終了する。即ち、時刻ｔ１３からｔ１８までの期間の音声データを、リングバッファ４から抽出する。

図４（ｄ）に示す参加者Ｍ３は、ユーモア発言に対して笑っていないので、音声データは抽出されない。

図３のステップＳ１９において、笑顔が検出されたユーザ端末１００のリセット部１４は、フラグ設定部１５に設定されているフラグを「０」にリセットする。具体的には、図４（ｂ）に示す参加者Ｍ１のユーザ端末１００では、時刻ｔ６にてフラグを「０」にリセットする。図４（ｃ）に示す参加者Ｍ２のユーザ端末１００では、時刻ｔ１６にてフラグを「０」にリセットする。

ステップＳ２０において、音声送信部１７は、ステップＳ１８の処理で抽出した音声データを、他のユーザ端末１００に送信する。具体的には、図４（ｂ）に示す参加者Ｍ１のユーザ端末１００では、抽出した音声データを時刻ｔ５～ｔ９の期間に、他のユーザ端末１００に送信する。図４（ｃ）に示す参加者Ｍ２のユーザ端末１００では、抽出した音声データを時刻ｔ１５～ｔ１９の期間に、他のユーザ端末１００に送信する。

ステップＳ２１において、各ユーザ端末１００において、音声受信部１８で受信された音声データをスピーカ５にて出力する。例えば、音声データに参加者の笑い声が含まれている場合には、この笑い声は、各ユーザ端末１００のスピーカ５から出力されることになる。

ステップＳ２２において、フラグ設定部１５は、ステップＳ１５の処理で計時を開始したタイマ１６による計時時間が閾値時間に達したか否かを判定する。閾値時間に達した場合には（Ｓ２２；ＹＥＳ）、ステップＳ２３に処理を進める。

ステップＳ２３において、フラグ設定部１５は、フラグを「０」にリセットする。例えば、図４（ｄ）の時刻ｔ２２において、フラグを「０」にリセットする。その後、本処理を終了する。

即ち、発話者の笑顔が検出されたということは、この発話者がユーモア発言をしている可能性が高く、この場合に各ユーザ端末１００のフラグ設定部１５のフラグを「１」にセットする。更に、参加者の笑顔が検出されたということは、発話者のユーモア発言に同調してこの参加者が笑っている可能性が高い。この場合に、参加者の笑顔が検出された時刻以前の時刻（例えば、０．５秒だけ遡った時刻）を開始時刻として、参加者の音声データを抽出する。この音声データには、笑い声が含まれている可能性が高い。従って、この音声データを各ユーザ端末１００に送信し、各ユーザ端末１００のスピーカ５から出力させることにより、各参加者に笑い声を伝達することができる。

笑い声が伝達されることで、オンライン会議に参加している各参加者を和ませることができる。図６は、各ユーザ端末１００の表示画面の表示例を示す説明図である。図６に示すように、発言者Ｍ１０の表情が笑顔であり、複数の参加者のうち５人の参加者Ｍ１１、Ｍ１２、Ｍ１３、Ｍ１４、Ｍ１５の表情が笑顔になっている。従って、これらの参加者Ｍ１１～Ｍ１５の音声が全てのユーザ端末１００にて音声出力されることになる。

［第１実施形態の効果］
このように、本実施形態に係る通信システムでは、複数の参加者のうち発話者の笑顔が検出され、更に、他の参加者の笑顔が検出された場合には、この参加者の笑顔が検出された時刻以前の時刻を開始時刻とし、笑顔が検出されなくなった時刻を終了時刻とした期間の音声データを抽出する。そして、抽出した音声データを各ユーザ端末１００に送信し、各ユーザ端末１００のスピーカ５にて出力する。

従って、発話者がユーモア発言をした後、笑顔が検出された参加者の笑い声を各参加者のユーザ端末１００に伝達することができる。このため、マイクロフォン３をオフとしているユーザ端末１００においても、ユーモア発言に対する笑い声を検出し、各参加者はこの笑い声を聞き取ることができる。従って、発話者がユーモア発言をした場合には、発話者はユーモア発言に対する各参加者の反応を確認することができ、オンライン会議を行っている際に、会議の場を和ませることができる。

更に、リングバッファ４を用いて参加者の音声を循環的に記憶しており、参加者の笑顔が検出された際には、笑顔が検出された時刻以前の時刻、例えば、０．５秒遡った時刻からの音声データ抽出できるので、笑い出しの音声が途切れることなく、自然な態様で笑い声を出力することが可能になる。

また、発話者の笑顔が検出されているときに、参加者の笑い声を含む音声データが他のユーザ端末１００に送信されるので、発話者のユーモア発言とは関係なく参加者が笑顔になっているような場合に、このときの参加者の音声が他のユーザ端末１００に送信されることを回避することができる。

更に、参加者の笑顔が検出されなくなった時刻、即ち、図４（ａ）に示す時刻ｔ７から遅延時間だけ経過した時刻ｔ８を、音声データの抽出を終了する時刻するので、参加者が笑っている期間の音声を抽出して、他のユーザ端末１００に送信することができる。

また、音声データの抽出の開始時刻から一定時間（例えば、１０秒）を設定し、開始時刻から一定時間が経過した時刻を、音声データの抽出の終了時刻とすることも可能である。

［第２実施形態］
次に、第２実施形態について説明する。システムの構成は前述した第１実施形態と同様であるので説明を省略する。

第２実施形態に係る通信システムでは、発話者の笑顔が検出され、且つ、複数の参加者のうちの少なくとも一人の笑顔が検出された際に、全てのユーザ端末１００で検出された音声データを各ユーザ端末１００に送信して、各ユーザ端末１００のスピーカ５から音声を出力する。

即ち、第１実施形態では、発話者のユーモア発言に対して笑顔となった参加者の音声データを各ユーザ端末１００にて音声出力する例を示したが、第２実施形態では、少なくとも一人の参加者が笑顔になった場合には、全ての参加者のマイクロフォン３をオンとして各参加者の音声データを抽出し、各ユーザ端末１００にて音声出力する。

図５は、第２実施形態に係る通信システムの処理手順を示すフローチャートである。図５に示すフローチャートにおいて、ステップＳ１１～Ｓ１７の処理、及びステップＳ１９～Ｓ２３の処理は、前述した図３に示したフローチャートと同一であり、ステップＳ１８ａのみが相違している。

図５のステップＳ１８ａにおいて、全てのユーザ端末１００の音声抽出部１２は、それぞれのユーザの笑顔が検出されるか否かに関係なく、リングバッファ４に記憶されている音声データから、一定時間の音声データを抽出する。そして、ステップＳ２０において、抽出した音声データを各ユーザ端末１００に送信する。その結果、全てのユーザ端末１００で抽出された音声データが各ユーザ端末１００のスピーカ５から出力される。

このように、第２実施形態に係る通信システムでは、複数の参加者のうち少なくとも一人の参加者が笑顔になった際に、全ての参加者の音声を抽出して各参加者のユーザ端末１００にて音声出力する。従って、より多く参加者の笑い声を出力することが可能になり、発話者がユーモア発言をした場合に、より一層会議の場を和ませることができる。

例えば、図５に示したように、参加者Ｍ１１～Ｍ１５が笑顔になった場合には、全ての参加者の音声データが各ユーザ端末１００にて音声出力されることになる。

また、前述した第１、第２実施形態では、図１に示したように、管理サーバ３００がネットワーク２００に接続されている例について説明したが、例えば、図６に示すように、複数のユーザ端末１００のうちの一つが、管理サーバ３００の機能を備える構成としてもよい。更に、管理サーバ３００をクラウド上に設ける構成としてもよい。第１、第２実施形態では、所定の表情の一例として笑顔を例に挙げて説明したが、本発明はこれに限定されるものではなく、笑顔以外の表情としてもよい。

以上、実施形態を記載したが、この開示の一部をなす論述及び図面はこの提案を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。

１制御部
２カメラ（撮像部）
３マイクロフォン（音声検出部）
４リングバッファ（音声記録部）
５スピーカ
１１笑顔検出部
１２音声抽出部
１３発話検出部
１４リセット部
１５フラグ設定部
１６タイマ
１７音声送信部
１８音声受信部
３１フラグセット部
３２発話者特定部
１００ユーザ端末
２００ネットワーク
３００管理サーバ

Claims

複数のユーザ端末と、ネットワークを介して前記各ユーザ端末に接続された管理サーバと、を備えた通信システムであって、
前記ユーザ端末は、
ユーザの顔画像を撮像する撮像部と、
前記ユーザが発話した音声データを検出する音声検出部と、
前記ユーザの顔画像に基づき、前記ユーザが所定の表情であるか否かを判定する表情検出部と、
前記音声検出部で検出された音声データを記録する音声記録部と、
前記音声記録部に記録されている音声データの一部を抽出する音声抽出部と、
前記音声抽出部で抽出された音声データを他のユーザ端末に送信する音声送信部と、
を備え、
前記管理サーバは、
各ユーザ端末に設けられている前記音声検出部で検出された音声データに基づき、前記複数のユーザ端末のユーザのうち、発話者を特定する発話者特定部を備え、
前記発話者特定部で特定された発話者以外のユーザのユーザ端末のうち、一のユーザ端末の前記音声抽出部は、
前記発話者の所定の表情が検出され、且つ、前記一のユーザ端末のユーザの所定の表情が検出された際に、前記音声記録部に記録されている音声データから、前記一のユーザ端末のユーザの所定の表情が検出された時刻以前の時刻を開始時刻とした音声データを抽出すること
を特徴とする通信システム。
前記音声抽出部は、前記一のユーザ端末のユーザの所定の表情が検出されなくなった時刻を前記音声データの抽出を終了する終了時刻とすること
を特徴とする請求項１に記載の通信システム。
前記発話者の所定の表情が検出され、且つ、前記一のユーザ端末のユーザの所定の表情が検出された際に、
全てのユーザ端末の前記音声抽出部は、前記音声記録部から一定時間の音声データを抽出し、抽出した音声データを他のユーザ端末に送信すること
を特徴とする請求項１または２に記載の通信システム。
ネットワークを介して複数のユーザ端末に接続された管理サーバであって、
各ユーザ端末に設けられている音声検出部で検出された音声データに基づき、複数のユーザ端末のユーザのうち、発話者を特定する発話者特定部と、
前記発話者特定部で特定された前記発話者にて所定の表情が検出され、且つ、前記発話者特定部で特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて前記所定の表情が検出された際に、前記一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットするフラグセット部と、
を備えたことを特徴とする管理サーバ。
ネットワークを介して接続された複数のユーザ端末との間で通信を行う通信方法であって、
前記各ユーザ端末に設けられている音声検出部で検出された音声データに基づき、複数のユーザ端末のユーザのうち、発話者を特定するステップと、
前記特定された発話者にて所定の表情が検出され、且つ、前記特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて前記所定の表情が検出された際に、前記一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットするステップと、
を備えたことを特徴とする通信方法。
ネットワークを介して接続された複数のユーザ端末との間で通信を行う通信プログラムであって、
前記各ユーザ端末に設けられている音声検出部で検出された音声データに基づき、複数のユーザ端末のユーザのうち、発話者を特定する機能と、
前記特定された発話者にて所定の表情が検出され、且つ、前記特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて前記所定の表情が検出された際に、前記一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットする機能と、
をコンピュータに実現させることを特徴とする通信プログラム。