JP2023044901A - 通信システム、管理サーバ、通信方法及び通信プログラム - Google Patents

通信システム、管理サーバ、通信方法及び通信プログラム Download PDF

Info

Publication number
JP2023044901A
JP2023044901A JP2021153013A JP2021153013A JP2023044901A JP 2023044901 A JP2023044901 A JP 2023044901A JP 2021153013 A JP2021153013 A JP 2021153013A JP 2021153013 A JP2021153013 A JP 2021153013A JP 2023044901 A JP2023044901 A JP 2023044901A
Authority
JP
Japan
Prior art keywords
user
speaker
detected
user terminal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021153013A
Other languages
English (en)
Inventor
渉 片瀬
Wataru Katase
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2021153013A priority Critical patent/JP2023044901A/ja
Publication of JP2023044901A publication Critical patent/JP2023044901A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Closed-Circuit Television Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】発話者が発言をしたときに、この発言を聞いた参加者による音声を他の参加者に伝達することが可能な通信システム、管理サーバ、通信方法、通信プログラムを提供する。【解決手段】ユーザ端末100は、カメラ2と、マイクロフォン3と、ユーザが笑顔であるか否かを判定する笑顔検出部11を備える。また、マイクロフォン3で検出された音声データを記録するリングバッファ4と、記録されている音声データの一部を抽出する音声抽出部12と、音声抽出部12で抽出された音声データを他のユーザ端末に送信する音声送信部17を備える。管理サーバ300は、複数のユーザ端末のユーザのうち、発話者を特定する発話者特定部32を備える。一のユーザ端末の音声抽出部12は、発話者の笑顔が検出され、且つ、一のユーザ端末のユーザの笑顔が検出された際に、一のユーザ端末のユーザの笑顔が検出された時刻以前の時刻を開始時刻とした音声データを抽出する。【選択図】 図2

Description

本提案は、通信システム、管理サーバ、通信方法及び通信プログラムに関する。
複数のユーザが一つの場所に集まることなく会議を行う目的で、従来より通信システムを用いたオンライン会議が行われている。オンライン会議では、複数のユーザ端末をネットワークに接続して、各ユーザ端末のユーザ(以下、「参加者」という)による会議が行われる。
オンライン会議では、各ユーザ端末に搭載されている表示画面上に、会議に参加する参加者の顔が表示される。また、複数の参加者のうち発話した参加者の音声が、他の参加者のユーザ端末に搭載されるスピーカから出力される。従って、各参加者は、オンライン会議に参加している他の参加者の表情を見ることができ、且つ、発話者が発話した音声を聞き取ることができる。
このような通信システムにおいて、オンライン会議中に発話者がジョーク、頓智、諧謔のある発言(以下、「ユーモア発言」という)をすることが多々ある。例えば、発話者がユーモア発言をすると、この発言を聞いた他の参加者が笑うことにより会議の場が和むという効果が有る。
しかし、オンライン会議中においては、発話者以外の参加者は、例えば子供の泣き声などの生活音がマイクロフォンで検出されることを避けるために、発話するとき以外はマイクロフォンをオフとしていることが多い。このため、発話者のユーモア発言に同調した参加者が笑った場合には、この参加者が笑顔であることを各ユーザ端末の画面上で認識できるものの、この参加者の笑い声は伝達されない。従って、ユーモア発言した発話者は、このユーモア発言に対する参加者の反応が判らないことが多い。
即ち、発話者によるユーモア発言に対して、これを聞いた参加者が関心を持って笑っているか否かが判り難く、会議の場を和ませることが難しい。
特許文献1には、電子会議システムにおいて、利用者の映像或いは音声から利用者の感情を抽出し、例えば利用者が声を荒げた発言をしている場合に、音声を補正して不適切な音声の通信を回避することが開示されている。
しかし、特許文献1に開示された技術は、不適切な発言を補正することにより、他の利用者に不快感を与えないようにするという内容であり、ユーモア発言をしたときに会議の場を和ませることについて言及されていない。
特開2010-183444号公報
上述したように、従来における通信システムでは、発話者がユーモア発言をしたときに、この発言を聞いた参加者の笑い声が伝達されないので、会議の場を和ませることが難しいという問題があり、特許文献1に開示された技術においても、笑い声を伝達することについて言及されていない。
本提案は、このような従来の課題を解決するためになされたものであり、その目的とするところは、発話者が発言をしたときに、この発言を聞いた参加者による音声を他の参加者に伝達することが可能な通信システム、管理サーバ、通信方法及び通信プログラムを提供することにある。
上記目的を達成するため、本提案に係る通信システムは、複数のユーザ端末と、ネットワークを介して前記各ユーザ端末に接続された管理サーバと、を備えた通信システムであって、前記ユーザ端末は、ユーザの顔画像を撮像する撮像部と、前記ユーザが発話した音声データを検出する音声検出部と、前記ユーザの顔画像に基づき、前記ユーザが所定の表情であるか否かを判定する表情検出部と、前記音声検出部で検出された音声データを記録する音声記録部と、前記音声記録部に記録されている音声データの一部を抽出する音声抽出部と、前記音声抽出部で抽出された音声データを他のユーザ端末に送信する音声送信部と、を備え、前記管理サーバは、各ユーザ端末に設けられている前記音声検出部で検出された音声データに基づき、前記複数のユーザ端末のユーザのうち、発話者を特定する発話者特定部を備え、前記発話者特定部で特定された発話者以外のユーザのユーザ端末のうち、一のユーザ端末の前記音声抽出部は、前記発話者の所定の表情が検出され、且つ、前記一のユーザ端末のユーザの所定の表情が検出された際に、前記音声記録部に記録されている音声データから、前記一のユーザ端末のユーザの所定の表情が検出された時刻以前の時刻を開始時刻とした音声データを抽出する。
本提案に係る管理サーバは、ネットワークを介して複数のユーザ端末に接続された管理サーバであって、各ユーザ端末に設けられている音声検出部で検出された音声データに基づき、複数のユーザ端末のユーザのうち、発話者を特定する発話者特定部と、前記発話者特定部で特定された前記発話者にて所定の表情が検出され、且つ、前記発話者特定部で特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて前記所定の表情が検出された際に、前記一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットするフラグセット部と、を備える。
本提案に係る通信方法は、ネットワークを介して接続された複数のユーザ端末との間で通信を行う通信方法であって、前記各ユーザ端末に設けられている音声検出部で検出された音声データに基づき、複数のユーザ端末のユーザのうち、発話者を特定するステップと、前記特定された発話者にて所定の表情が検出され、且つ、前記特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて前記所定の表情が検出された際に、前記一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットするステップと、を備える。
本提案に係る通信プログラムは、ネットワークを介して接続された複数のユーザ端末との間で通信を行う通信プログラムであって、前記各ユーザ端末に設けられている音声検出部で検出された音声データに基づき、複数のユーザ端末のユーザのうち、発話者を特定する機能と、前記特定された発話者にて所定の表情が検出され、且つ、前記特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて前記所定の表情が検出された際に、前記一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットする機能と、をコンピュータに実現させることを特徴とする。
本提案によれば、発話者が発言をしたときに、この発言を聞いた参加者による音声を他の参加者に伝達することが可能になる。
図1は、実施形態に係る通信システムの構成を示すブロック図である。 図2は、実施形態に係るユーザ端末及び管理サーバの詳細な構成を示すブロック図である。 図3は、第1実施形態に係る通信システムによる処理手順を示すフローチャートである。 図4は、第1実施形態に係る通信システムによる処理手順を示すタイミングチャートである。 図5は、第2実施形態に係る通信システムによる処理手順を示すフローチャートである。 図6は、各ユーザ端末に表示される参加者の顔の画像を示す説明図である。 図7は、通信システムの他の構成を示すブロック図である。
以下、本提案の実施形態について図面を参照して説明する。
[第1実施形態の構成]
図1は、第1実施形態に係る通信システムの概略構成を示す説明図である。図1に示すように、本実施形態に係る通信システムは、複数のユーザ端末100と、ネットワーク200を介して各ユーザ端末100に接続された管理サーバ300を備えている。
管理サーバ300は、CPU(中央処理装置)、メモリ、及び入出力部を備えるマイクロコンピュータを用いて実現可能である。マイクロコンピュータを複数の情報処理部(後述するフラグセット部31及び発話者特定部32)として機能させるためのコンピュータプログラムを、マイクロコンピュータにインストールして実行する。これにより、マイクロコンピュータは、管理サーバ300が備える複数の情報処理部として機能する。また、ここではソフトウェアによって管理サーバ300を実現する例を示すが、各情報処理を実行するための専用のハードウェアを用意して、管理サーバ300を構成してもよい。また、管理サーバ300に含まれる各情報処理部が実行する情報処理を個別のハードウェアにより構成してもよい。
図2は、ユーザ端末100、及び管理サーバ300の詳細な構成を示すブロック図である。図2では一つのユーザ端末100を示している。ユーザ端末100は、例えばユーザ(参加者)が自宅に所有するパーソナルコンピュータである。複数の参加者がそれぞれのユーザ端末100を操作することにより、ネットワーク200を経由したオンライン会議を実行することができる。
図2に示すようにユーザ端末100は、制御部1と、カメラ2(撮像部)と、マイクロフォン3(音声検出部)と、リングバッファ4(音声記録部)と、スピーカ5を備えている。管理サーバ300は、フラグセット部31と、発話者特定部32を備えている。
カメラ2は、ユーザ端末100を操作する参加者の顔を撮像する。カメラ2は、ユーザの顔画像を撮像する撮像部の一例である。カメラ2は、撮像した画像を制御部1に出力する。
マイクロフォン3は、参加者が発話した音声を含む、ユーザ端末100の周囲で発生する音声を検出し、検出した音声データをリングバッファ4及び制御部1に出力する。マイクロフォン3は、ユーザが発話した音声データを検出する音声検出部の一例である。
リングバッファ4は、マイクロフォン3で検出された音声データを循環的に記録する。リングバッファ4は、メモリに入力される音声データの書き込みを制御する書き込み制御部(図示省略)、及びメモリに書き込まれた音声データの読み出しを制御する読み出し制御部(図示省略)を備えている。リングバッファ4は、先頭から最後尾までのアドレスに、順次音声データを書き込む。リングバッファ4は、メモリ内の書き込みエリアが満杯である場合には、先頭から順次データを消去して、新規に入力された音声データをメモリに書き込む。
リングバッファ4は、例えば録音可能時間が10分間とされており、10分間の録音時間が経過すると、その後に入力される音声データを上書きして記憶する。即ち、リングバッファ4には、直近の過去10分間の音声データが記録されている。リングバッファ4は、マイクロフォン3で検出された音声データを記録する音声記録部の一例である。なお、参加者が発話した音声を継続的に記録できれば、リングバッファ4以外の機器を使用してもよい。
制御部1は、笑顔検出部11(表情検出部)と、音声抽出部12と、発話検出部13と、リセット部14と、フラグ設定部15と、タイマ16と、音声送信部17と、音声受信部18と、を備えている。制御部1は、CPU(中央処理装置)、メモリ、及び入出力部を備えるマイクロコンピュータを用いて実現可能である。マイクロコンピュータを複数の情報処理部(後述する笑顔検出部11、音声抽出部12、発話検出部13、リセット部14、フラグ設定部15、タイマ16、音声送信部17、音声受信部18)として機能させるためのコンピュータプログラムを、マイクロコンピュータにインストールして実行する。これにより、マイクロコンピュータは、制御部1が備える複数の情報処理部として機能する。また、ここではソフトウェアによって制御部1を実現する例を示すが、各情報処理を実行するための専用のハードウェアを用意して、制御部1を構成してもよい。また、制御部1に含まれる各情報処理部が実行する情報処理を個別のハードウェアにより構成してもよい。
笑顔検出部11は、カメラ2で撮像された参加者の顔画像を取得する。笑顔検出部11は、参加者の顔画像に基づき、この参加者が所定の表情(本実施例では笑顔とするがこれに限定されない)であるか否かを判定する。笑顔検出部11は、笑顔であるか否かの判定結果を、リセット部14及び管理サーバ300のフラグセット部31に出力する。笑顔を判定する処理は、周知の画像処理技術で実施することが可能であり、詳細な処理についての説明を省略する。
音声抽出部12は、笑顔検出部11において参加者(発話者以外の参加者)が笑顔であることが検出され、且つ、フラグ設定部15に設定されているフラグが「1」である場合に、リングバッファ4に記憶されている音声データのうち、所定期間の音声データを抽出する。「所定期間」とは、例えば参加者の笑顔が検出された時刻以前の時刻を開始時刻とし、この開始時刻から設定される期間である。所定期間は、例えば、参加者の笑顔が検出されなくなった時刻を終了時刻とすることができる。また、所定期間は、開始時刻から予め設定した一定時間が経過した時刻を終了時刻とすることができる。一例として、後述する図4(b)に示す時刻t3~t8の期間とすることができる。
発話検出部13は、マイクロフォン3で検出された音声データを取得する。発話検出部13は、マイクロフォン3で検出された音声データに基づき、この参加者が発話したか否かを判定する。発話検出部13は、参加者が発話したと判定された際に、この判定結果を管理サーバ300の発話者特定部32に出力する。
フラグ設定部15は、管理サーバ300のフラグセット部31からフラグセット信号(詳細は後述する)が送信された際に、フラグを「1」にセットする。「フラグ」とは、発話者が笑顔であることを示す指標である。フラグ設定部15は、リセット部14からリセット信号が出力された際に、フラグを「0」にリセットする。フラグ設定部15は、タイマ16により、フラグがセットされた時刻からの経過時間が予め設定した閾値時間に達したことを示す信号が入力された際に、フラグを「0」にリセットする。フラグ設定部15は、現在のフラグ「1」または「0」のデータを音声抽出部12に出力する。
リセット部14は、笑顔検出部11にて参加者の顔が笑顔であると判定された際に、フラグ設定部15にリセット信号を出力する。従って、フラグ設定部15に設定されているフラグが「1」であるときに、参加者の笑顔が検出された場合には、フラグは「0」にリセットされる。
タイマ16は、管理サーバ300に設けられるフラグセット部31でフラグがセットされた時刻からの経過時間を計時し、経過時間が閾値時間に達した際にフラグ設定部15にリセット信号を出力する。
音声送信部17は、笑顔検出部11において参加者が笑顔であることが検出され、且つ、フラグ設定部15に設定されているフラグが「1」である場合に、音声抽出部12で抽出された所定期間の音声データを、他のユーザ端末に送信する。一のユーザ端末100の音声抽出部で抽出された音声データに笑い声が含まれている場合には、他の全てのユーザ端末100にて笑い声が含まれている音声データが送信される。
音声受信部18は、他のユーザ端末100の音声送信部17から送信される音声データを受信する。音声受信部18は、受信した音声データをスピーカ5に出力する。
スピーカ5は、音声受信部18で受信された音声データを出力する。スピーカ5は、音声受信部18にて発話者が発話した音声データが受信された際に、この音声データを出力する。スピーカ5は、音声受信部18にて、他のユーザ端末100の音声抽出部12で抽出された音声データが受信された際に、この音声データを出力する。
管理サーバ300に設けられる発話者特定部32は、複数のユーザ端末100のうち、発話検出部13で発話が検出されたユーザ端末100の参加者を発話者として特定する。
フラグセット部31は、各ユーザ端末100の笑顔検出部11にて笑顔が検出されたことを示す検出信号を、ネットワーク200を経由して取得する。フラグセット部31は、発話者特定部32で特定された発話者のユーザ端末100における笑顔検出部11にて笑顔が検出された際に、各ユーザ端末100のフラグ設定部15にフラグセット信号を出力する。即ち、複数の参加者のうち、発話を開始している発話者が笑顔になった場合に、各ユーザ端末100のフラグ設定部15のフラグは「1」に設定される。即ち、フラグセット部31は、発話者特定部32で特定された発話者にて笑顔(所定の表情)が検出され、且つ、発話者特定部32で特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて笑顔が検出された際に、一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットする。
[第1実施形態の動作]
次に、図3に示すフローチャート、及び図4に示すタイミングチャートを参照して、第1実施形態に係る通信システムの動作について説明する。本実施形態では、各ユーザ端末100を操作する複数の参加者が、オンライン会議を実施する場合を例に挙げて説明する。
初めに、図3のステップS11において、各ユーザ端末100における、カメラ2、マイクロフォン3、及びリングバッファ4を作動させる。その結果、カメラ2により参加者の顔が撮像される。マイクロフォン3により、参加者が発話した音声が検出される。リングバッファ4により、マイクロフォン3で検出された音声が記録される。
ステップS12において、各ユーザ端末100の発話検出部13は、マイクロフォン3で検出された音声データに基づき、このユーザ端末100を使用する参加者が発話しているか否かを判定する。発話検出部13は、この判定結果を管理サーバ300の発話者特定部32に送信する。
ステップS13において、発話者特定部32は、複数の参加者の中から発話者を特定する。即ち、複数の参加者のうち、発話を開始した参加者の音声データがこの発話者のユーザ端末100のマイクロフォン3で検出されると、発話検出部13は、この参加者は発話しているものと判定する。発話者特定部32は、この参加者を発話者として特定する。例えば、図4(a)に示すように、時刻t0において複数の参加者のうちの一人が発話を開始すると、この参加者を発話者として特定する。
ステップS14において、発話者のユーザ端末100(以下、「発話者端末」という)の笑顔検出部11にて、発話者が笑顔であるか否かを判定する。笑顔であれば(S14;YES)、ステップS15に処理を進め、そうでなければ(S14;NO)、ステップS12に処理を戻す。図4(a)に示す例では、時刻t0において発話者の音声が検出され、且つ笑顔が検出されている。発話者は、時刻t0においてジョークなどのユーモア発言をしているものと考えられる。
ステップS15において、フラグセット部31は、各ユーザ端末100のフラグ設定部15に設定されるフラグを「1」にセットする。具体的には、図4(a)の発話者の笑顔が検出された時刻t0からデータ伝送に要する遅延時間だけ遅れた時刻、即ち、図4(b)に示す参加者M1のユーザ端末100の場合には時刻t1において、フラグ設定部15に設定されるフラグを「1」にセットする。また、図4(c)に示す参加者M2のユーザ端末100の場合には時刻t11、図4(d)に示す参加者M3のユーザ端末100の場合には時刻t21において、フラグ設定部15に設定されるフラグを「1」にセットする。
ステップS16において、各ユーザ端末100のタイマ16は、発話者の笑顔が検出されてからの経過時間の計時を開始する。具体的には、タイマ16は、図4(b)、(c)、(d)に示す時刻t1、t11、t21からの経過時間を計時する。
ステップS17において、発話者端末以外のユーザ端末100の笑顔検出部11にて、参加者の笑顔が検出されているか否かを判定する。
笑顔が検出されたユーザ端末100が有る場合には(S17;YES)、ステップS18に処理を進め、そうでなければ(S17;NO)、ステップS17の処理を繰り返す。例えば、図4(b)に示す参加者M1のユーザ端末100では、発話者がユーモア発言をした時刻t0から少し遅れた時刻t2にてユーモア発言がスピーカ5にて音声出力される。即ち、時刻t2において、発話者が発話したユーモア発言が参加者M1に聞き取られる。その後、時刻t4において参加者M1はユーモア発言に同調して笑顔になり、且つ笑い始める。例えば、時刻t7まで笑いが継続される。
また、参加者M1のユーザ端末100よりも遅延時間が大きい参加者M2のユーザ端末では、図4(c)に示すように、時刻t0から少し遅れた時刻t12にてユーモア発言がスピーカ5にて音声出力される。即ち、時刻t12において、発話者が発話したユーモア発言が参加者M2に聞き取られる。その後、時刻t14において参加者M2はユーモア発言に同調して笑顔になり、且つ笑い始める。例えば、時刻t17まで笑いが継続される。
図4(d)は、参加者M3が発話者によるユーモア発言に同調せずに、笑わない場合の例を示している。参加者M3のユーザ端末100における笑顔検出部11では、参加者M3の笑顔が検出されない。参加者M3のユーザ端末100では、時刻t21にてフラグ設定部15のフラグが「1」に設定されるものの、参加者M3の笑顔が検出されないので、参加者M3の音声データは送信されない。また、タイマ16による計時時間が閾値時間に達した時刻t22において、フラグは「0」にリセットされる。
ステップS18において、笑顔が検出されたユーザ端末100の音声抽出部12は、リングバッファ4に記憶されている音声データから、このユーザ端末100の参加者の笑顔が検出された時刻以前の時刻、例えば、笑顔が検出された時刻から0.5秒だけ遡った時刻を開始時刻とした音声データを抽出する。参加者の笑顔が検出されなくなった時刻を音声データの抽出の終了時刻とする。従って、参加者の笑顔が検出される以前の時刻から、笑顔が検出されなくなった時刻までの期間の音声データを抽出する。
具体的には、図4(b)に示す参加者M1のユーザ端末100では、時刻t4にて参加者M1の笑顔が検出されると、この時刻t4よりも前の時刻t3を開始時刻として、リングバッファ4に記録されている音声データの抽出を開始する。また、笑顔が検出されなくなった時刻t7から遅延時間だけ経過した時刻t8において、音声データの抽出を終了する。即ち、時刻t3からt8までの期間の音声データを、リングバッファ4から抽出する。なお、音声データの抽出の開始時刻から一定時間(例えば、10秒)が経過した時刻を終了時刻としてもよい。
図4(c)に示す参加者M2のユーザ端末100では、時刻t14にて参加者M2の笑顔が検出されると、この時刻t14よりも前の時刻t13を開始時刻として、リングバッファ4に記録されている音声データの抽出を開始する。また、笑顔が検出されなくなった時刻t17から遅延時間だけ経過した時刻t18において、音声データの抽出を終了する。即ち、時刻t13からt18までの期間の音声データを、リングバッファ4から抽出する。
図4(d)に示す参加者M3は、ユーモア発言に対して笑っていないので、音声データは抽出されない。
図3のステップS19において、笑顔が検出されたユーザ端末100のリセット部14は、フラグ設定部15に設定されているフラグを「0」にリセットする。具体的には、図4(b)に示す参加者M1のユーザ端末100では、時刻t6にてフラグを「0」にリセットする。図4(c)に示す参加者M2のユーザ端末100では、時刻t16にてフラグを「0」にリセットする。
ステップS20において、音声送信部17は、ステップS18の処理で抽出した音声データを、他のユーザ端末100に送信する。具体的には、図4(b)に示す参加者M1のユーザ端末100では、抽出した音声データを時刻t5~t9の期間に、他のユーザ端末100に送信する。図4(c)に示す参加者M2のユーザ端末100では、抽出した音声データを時刻t15~t19の期間に、他のユーザ端末100に送信する。
ステップS21において、各ユーザ端末100において、音声受信部18で受信された音声データをスピーカ5にて出力する。例えば、音声データに参加者の笑い声が含まれている場合には、この笑い声は、各ユーザ端末100のスピーカ5から出力されることになる。
ステップS22において、フラグ設定部15は、ステップS15の処理で計時を開始したタイマ16による計時時間が閾値時間に達したか否かを判定する。閾値時間に達した場合には(S22;YES)、ステップS23に処理を進める。
ステップS23において、フラグ設定部15は、フラグを「0」にリセットする。例えば、図4(d)の時刻t22において、フラグを「0」にリセットする。その後、本処理を終了する。
即ち、発話者の笑顔が検出されたということは、この発話者がユーモア発言をしている可能性が高く、この場合に各ユーザ端末100のフラグ設定部15のフラグを「1」にセットする。更に、参加者の笑顔が検出されたということは、発話者のユーモア発言に同調してこの参加者が笑っている可能性が高い。この場合に、参加者の笑顔が検出された時刻以前の時刻(例えば、0.5秒だけ遡った時刻)を開始時刻として、参加者の音声データを抽出する。この音声データには、笑い声が含まれている可能性が高い。従って、この音声データを各ユーザ端末100に送信し、各ユーザ端末100のスピーカ5から出力させることにより、各参加者に笑い声を伝達することができる。
笑い声が伝達されることで、オンライン会議に参加している各参加者を和ませることができる。図6は、各ユーザ端末100の表示画面の表示例を示す説明図である。図6に示すように、発言者M10の表情が笑顔であり、複数の参加者のうち5人の参加者M11、M12、M13、M14、M15の表情が笑顔になっている。従って、これらの参加者M11~M15の音声が全てのユーザ端末100にて音声出力されることになる。
[第1実施形態の効果]
このように、本実施形態に係る通信システムでは、複数の参加者のうち発話者の笑顔が検出され、更に、他の参加者の笑顔が検出された場合には、この参加者の笑顔が検出された時刻以前の時刻を開始時刻とし、笑顔が検出されなくなった時刻を終了時刻とした期間の音声データを抽出する。そして、抽出した音声データを各ユーザ端末100に送信し、各ユーザ端末100のスピーカ5にて出力する。
従って、発話者がユーモア発言をした後、笑顔が検出された参加者の笑い声を各参加者のユーザ端末100に伝達することができる。このため、マイクロフォン3をオフとしているユーザ端末100においても、ユーモア発言に対する笑い声を検出し、各参加者はこの笑い声を聞き取ることができる。従って、発話者がユーモア発言をした場合には、発話者はユーモア発言に対する各参加者の反応を確認することができ、オンライン会議を行っている際に、会議の場を和ませることができる。
更に、リングバッファ4を用いて参加者の音声を循環的に記憶しており、参加者の笑顔が検出された際には、笑顔が検出された時刻以前の時刻、例えば、0.5秒遡った時刻からの音声データ抽出できるので、笑い出しの音声が途切れることなく、自然な態様で笑い声を出力することが可能になる。
また、発話者の笑顔が検出されているときに、参加者の笑い声を含む音声データが他のユーザ端末100に送信されるので、発話者のユーモア発言とは関係なく参加者が笑顔になっているような場合に、このときの参加者の音声が他のユーザ端末100に送信されることを回避することができる。
更に、参加者の笑顔が検出されなくなった時刻、即ち、図4(a)に示す時刻t7から遅延時間だけ経過した時刻t8を、音声データの抽出を終了する時刻するので、参加者が笑っている期間の音声を抽出して、他のユーザ端末100に送信することができる。
また、音声データの抽出の開始時刻から一定時間(例えば、10秒)を設定し、開始時刻から一定時間が経過した時刻を、音声データの抽出の終了時刻とすることも可能である。
[第2実施形態]
次に、第2実施形態について説明する。システムの構成は前述した第1実施形態と同様であるので説明を省略する。
第2実施形態に係る通信システムでは、発話者の笑顔が検出され、且つ、複数の参加者のうちの少なくとも一人の笑顔が検出された際に、全てのユーザ端末100で検出された音声データを各ユーザ端末100に送信して、各ユーザ端末100のスピーカ5から音声を出力する。
即ち、第1実施形態では、発話者のユーモア発言に対して笑顔となった参加者の音声データを各ユーザ端末100にて音声出力する例を示したが、第2実施形態では、少なくとも一人の参加者が笑顔になった場合には、全ての参加者のマイクロフォン3をオンとして各参加者の音声データを抽出し、各ユーザ端末100にて音声出力する。
図5は、第2実施形態に係る通信システムの処理手順を示すフローチャートである。図5に示すフローチャートにおいて、ステップS11~S17の処理、及びステップS19~S23の処理は、前述した図3に示したフローチャートと同一であり、ステップS18aのみが相違している。
図5のステップS18aにおいて、全てのユーザ端末100の音声抽出部12は、それぞれのユーザの笑顔が検出されるか否かに関係なく、リングバッファ4に記憶されている音声データから、一定時間の音声データを抽出する。そして、ステップS20において、抽出した音声データを各ユーザ端末100に送信する。その結果、全てのユーザ端末100で抽出された音声データが各ユーザ端末100のスピーカ5から出力される。
このように、第2実施形態に係る通信システムでは、複数の参加者のうち少なくとも一人の参加者が笑顔になった際に、全ての参加者の音声を抽出して各参加者のユーザ端末100にて音声出力する。従って、より多く参加者の笑い声を出力することが可能になり、発話者がユーモア発言をした場合に、より一層会議の場を和ませることができる。
例えば、図5に示したように、参加者M11~M15が笑顔になった場合には、全ての参加者の音声データが各ユーザ端末100にて音声出力されることになる。
また、前述した第1、第2実施形態では、図1に示したように、管理サーバ300がネットワーク200に接続されている例について説明したが、例えば、図6に示すように、複数のユーザ端末100のうちの一つが、管理サーバ300の機能を備える構成としてもよい。更に、管理サーバ300をクラウド上に設ける構成としてもよい。第1、第2実施形態では、所定の表情の一例として笑顔を例に挙げて説明したが、本発明はこれに限定されるものではなく、笑顔以外の表情としてもよい。
以上、実施形態を記載したが、この開示の一部をなす論述及び図面はこの提案を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。
1 制御部
2 カメラ(撮像部)
3 マイクロフォン(音声検出部)
4 リングバッファ(音声記録部)
5 スピーカ
11 笑顔検出部
12 音声抽出部
13 発話検出部
14 リセット部
15 フラグ設定部
16 タイマ
17 音声送信部
18 音声受信部
31 フラグセット部
32 発話者特定部
100 ユーザ端末
200 ネットワーク
300 管理サーバ

Claims (6)

  1. 複数のユーザ端末と、ネットワークを介して前記各ユーザ端末に接続された管理サーバと、を備えた通信システムであって、
    前記ユーザ端末は、
    ユーザの顔画像を撮像する撮像部と、
    前記ユーザが発話した音声データを検出する音声検出部と、
    前記ユーザの顔画像に基づき、前記ユーザが所定の表情であるか否かを判定する表情検出部と、
    前記音声検出部で検出された音声データを記録する音声記録部と、
    前記音声記録部に記録されている音声データの一部を抽出する音声抽出部と、
    前記音声抽出部で抽出された音声データを他のユーザ端末に送信する音声送信部と、
    を備え、
    前記管理サーバは、
    各ユーザ端末に設けられている前記音声検出部で検出された音声データに基づき、前記複数のユーザ端末のユーザのうち、発話者を特定する発話者特定部を備え、
    前記発話者特定部で特定された発話者以外のユーザのユーザ端末のうち、一のユーザ端末の前記音声抽出部は、
    前記発話者の所定の表情が検出され、且つ、前記一のユーザ端末のユーザの所定の表情が検出された際に、前記音声記録部に記録されている音声データから、前記一のユーザ端末のユーザの所定の表情が検出された時刻以前の時刻を開始時刻とした音声データを抽出すること
    を特徴とする通信システム。
  2. 前記音声抽出部は、前記一のユーザ端末のユーザの所定の表情が検出されなくなった時刻を前記音声データの抽出を終了する終了時刻とすること
    を特徴とする請求項1に記載の通信システム。
  3. 前記発話者の所定の表情が検出され、且つ、前記一のユーザ端末のユーザの所定の表情が検出された際に、
    全てのユーザ端末の前記音声抽出部は、前記音声記録部から一定時間の音声データを抽出し、抽出した音声データを他のユーザ端末に送信すること
    を特徴とする請求項1または2に記載の通信システム。
  4. ネットワークを介して複数のユーザ端末に接続された管理サーバであって、
    各ユーザ端末に設けられている音声検出部で検出された音声データに基づき、複数のユーザ端末のユーザのうち、発話者を特定する発話者特定部と、
    前記発話者特定部で特定された前記発話者にて所定の表情が検出され、且つ、前記発話者特定部で特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて前記所定の表情が検出された際に、前記一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットするフラグセット部と、
    を備えたことを特徴とする管理サーバ。
  5. ネットワークを介して接続された複数のユーザ端末との間で通信を行う通信方法であって、
    前記各ユーザ端末に設けられている音声検出部で検出された音声データに基づき、複数のユーザ端末のユーザのうち、発話者を特定するステップと、
    前記特定された発話者にて所定の表情が検出され、且つ、前記特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて前記所定の表情が検出された際に、前記一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットするステップと、
    を備えたことを特徴とする通信方法。
  6. ネットワークを介して接続された複数のユーザ端末との間で通信を行う通信プログラムであって、
    前記各ユーザ端末に設けられている音声検出部で検出された音声データに基づき、複数のユーザ端末のユーザのうち、発話者を特定する機能と、
    前記特定された発話者にて所定の表情が検出され、且つ、前記特定された発話者以外のユーザ端末のうちの一のユーザ端末のユーザにて前記所定の表情が検出された際に、前記一のユーザ端末に対して、ユーザが発話する音声の出力を許可するためのフラグをセットする機能と、
    をコンピュータに実現させることを特徴とする通信プログラム。
JP2021153013A 2021-09-21 2021-09-21 通信システム、管理サーバ、通信方法及び通信プログラム Pending JP2023044901A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021153013A JP2023044901A (ja) 2021-09-21 2021-09-21 通信システム、管理サーバ、通信方法及び通信プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021153013A JP2023044901A (ja) 2021-09-21 2021-09-21 通信システム、管理サーバ、通信方法及び通信プログラム

Publications (1)

Publication Number Publication Date
JP2023044901A true JP2023044901A (ja) 2023-04-03

Family

ID=85776813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021153013A Pending JP2023044901A (ja) 2021-09-21 2021-09-21 通信システム、管理サーバ、通信方法及び通信プログラム

Country Status (1)

Country Link
JP (1) JP2023044901A (ja)

Similar Documents

Publication Publication Date Title
US10732924B2 (en) Teleconference recording management system
US11650790B2 (en) Centrally controlling communication at a venue
US11200899B2 (en) Voice processing method, apparatus and device
JP7427408B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US11405584B1 (en) Smart audio muting in a videoconferencing system
US8615153B2 (en) Multi-media data editing system, method and electronic device using same
EP4289129A1 (en) Systems and methods of handling speech audio stream interruptions
JP2019215449A (ja) 会話補助装置、会話補助方法及びプログラム
JP2023044901A (ja) 通信システム、管理サーバ、通信方法及び通信プログラム
JP2009053342A (ja) 議事録作成装置
JP2019176375A (ja) 動画出力装置、動画出力方法および動画出力プログラム
US11089164B2 (en) Teleconference recording management system
KR101892268B1 (ko) 영상 회의 시 단말기를 제어하기 위한 방법, 장치 및 기록 매체
US20190333517A1 (en) Transcription of communications
CN113096674B (zh) 一种音频处理方法、装置及电子设备
CN111816183B (zh) 基于音视频录制的语音识别方法、装置、设备及存储介质
JP7017755B2 (ja) 放送波受信装置、放送受信方法、及び、放送受信プログラム
JP2024057730A (ja) 情報処理装置
CN114401384A (zh) 一种智能设备音频工作模式提示方法及装置
JP2023025464A (ja) 遠隔会議システム、方法及びプログラム
JP2023118335A (ja) 通信端末、通信システム、及び通信サーバ
JP2023103287A (ja) 音声処理装置、会議システム、及び音声処理方法
CN114501085A (zh) 一种多音频播放控制方法、智能终端及存储介质