JP2022016997A - 情報処理方法、情報処理装置及び情報処理プログラム - Google Patents

情報処理方法、情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2022016997A
JP2022016997A JP2020120025A JP2020120025A JP2022016997A JP 2022016997 A JP2022016997 A JP 2022016997A JP 2020120025 A JP2020120025 A JP 2020120025A JP 2020120025 A JP2020120025 A JP 2020120025A JP 2022016997 A JP2022016997 A JP 2022016997A
Authority
JP
Japan
Prior art keywords
user
information processing
unit
voice data
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020120025A
Other languages
English (en)
Inventor
賢一 山下
Kenichi Yamashita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2020120025A priority Critical patent/JP2022016997A/ja
Publication of JP2022016997A publication Critical patent/JP2022016997A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】グループ通話サービスにおけるユーザビリティを向上させる。【解決手段】本願に係る情報処理方法は、コンピュータが実行する情報処理方法であって、グループ通話サービスの利用者に関する利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する判定工程と、判定工程による判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御する音声出力制御工程と、を含むことを特徴とする。【選択図】図1

Description

本発明は、情報処理方法、情報処理装置及び情報処理プログラムに関する。
従来、複数人で通話することを可能にするグループ通話サービスに関する種々の技術が知られている。例えば、それぞれ別の拠点にいる者同士がネットワークを介して会議を行うWeb会議システムに関する技術が知られている。Web会議システムでは、PC(Personal Computer)やタブレット型端末などの情報処理装置に、カメラ、マイク、スピーカーなどの機能を有するデバイスを接続し、それぞれのデバイスから入力された映像や音声を複数の拠点間で送受信する。
特開2018-93315号公報
しかしながら、上記の従来技術では、グループ通話サービスにおけるユーザビリティを向上させることができるとは限らない。例えば、上記の従来技術では、情報処理装置に、カメラ、マイク、スピーカーなどの機能を有するデバイスを接続し、それぞれのデバイスから入力された映像や音声を複数の拠点間で送受信するにすぎない。このため、グループ通話サービスにおけるユーザビリティが高いとはいえない。
本願は、上記に鑑みてなされたものであって、グループ通話サービスにおけるユーザビリティを向上させることができる情報処理方法、情報処理装置及び情報処理プログラムを提案する。
本願に係る情報処理方法は、コンピュータが実行する情報処理方法であって、グループ通話サービスの利用者に関する利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する判定工程と、前記判定工程による判定結果に基づいて、前記グループ通話サービスの他の利用者に対する前記利用者の音声データの出力を制御する音声出力制御工程と、を含むことを特徴とすることを特徴とする。
実施形態の一態様によれば、グループ通話サービスにおけるユーザビリティを向上させることができるといった効果を奏する。
図1は、第1の実施形態に係る情報処理の概要を説明するための図である。 図2は、同実施形態に係る情報処理システムの構成例を示す図である。 図3は、同実施形態に係る情報処理装置の構成例を示す図である。 図4は、同実施形態に係る画面の一例について説明するための図である。 図5は、同実施形態に係る情報処理手順の概要を示す図である。 図6は、同実施形態に係る情報処理手順を示す図である。 図7は、同実施形態の変形例に係る情報処理手順を示す図である。 図8は、同実施形態の変形例に係る情報処理手順を示す図である。 図9は、第2の実施形態に係る情報処理システムの構成例を示す図である。 図10は、第2の実施形態に係る情報処理装置の構成例を示す図である。 図11は、第2の実施形態に係るサーバ装置の構成例を示す図である。 図12は、第2の実施形態に係る情報処理手順を示す図である。 図13は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る情報処理方法、情報処理装置及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理方法、情報処理装置及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.はじめに〕
近年、Web会議システム等のグループ通話サービスが普及している。Web会議は、主に職場の会議室同士を接続するために用いられることが多く、会議中にマイクを常時オンにしたままで利用されることが一般的である。ところが近年、多様な働き方を選択できる社会を実現する「働き方改革」の推進等により、在宅勤務をする社員の自宅同士を接続するWeb会議が増加している。このような自宅におけるWeb会議では、会議中に子どもの声やキーボードを叩く音がマイクに入力されるのを防ぐため、発言者以外の利用者はミュート機能をオンにするのが一般的になっている。ここで、ミュート機能とは、利用者の音声データを他の利用者に対して出力しないようにする機能を指す。
ここで、Web会議において発言者以外の利用者がミュート機能をオンにする場合、様々な問題が生じる可能性がある。例えば、発言の度にミュート機能を解除する必要があるため、操作が煩雑となる。また、ミュート機能を解除する操作により、発言のタイミングが遅れるため、会議が円滑に進められないおそれがある。また、ミュート機能を解除するのを忘れたまま発言を行った場合、話がかみ合わず、会議そのものが成立しないおそれがある。
そこで、本願に係る情報処理方法は、グループ通話サービス(例えば、Web会議システム)の利用者に関する発話情報に基づいて、利用者が発言状態であるか否かを判定するようコンピュータに実行させる。また、情報処理方法は、判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御するようコンピュータに実行させる。このように、情報処理方法は、利用者の発言状態に応じて、自動的にグループ通話サービスの他の利用者に対する利用者の音声データの出力を制御するようコンピュータに実行させる。これにより、情報処理方法は、利用者が発言の度にミュート機能を解除する手間を省くことができる。また、情報処理方法は、利用者がミュート機能を解除するのを忘れたまま発言するのを防ぐことができる。したがって、情報処理方法は、グループ通話サービスにおけるユーザビリティを向上させることができる。
(第1の実施形態)
〔2‐1.情報処理の概要〕
まず、図1を用いて、第1の実施形態に係る情報処理の概要について説明する。図1は、第1の実施形態に係る情報処理の概要を説明するための図である。図1に示す情報処理は、情報処理システム1によって実現される。情報処理システム1は、Web会議サービスの利用者によって利用される情報処理装置100と、Web会議サービスを提供するサーバ装置200とを備える。
以下では、利用者ID「U1」により特定される利用者を「利用者U1」とする場合がある。このように、以下では、「利用者U*(*は任意の数値)」と記載した場合、その利用者は利用者ID「U*」により特定される利用者であることを示す。例えば、「利用者U2」と記載した場合、その利用者は利用者ID「U2」により特定される利用者である。
また、以下では、情報処理装置100を利用する利用者に応じて、情報処理装置100を情報処理装置100、100として説明する。例えば、情報処理装置100は、利用者U1により使用される情報処理装置100である。また、例えば、情報処理装置100は、利用者U2により使用される情報処理装置100である。また、以下では、情報処理装置100、100について、特に区別なく説明する場合には、情報処理装置100と記載する。
図1に示す例では、4人の利用者U1~利用者U4が、Web会議サービスを利用してWeb会議をしている。また、図1では、利用者U1が発言し始め、他の3人の利用者U2~利用者U4は黙って利用者U1の発言を聞いている状況である。なお、利用者U1が発言を開始する前は、利用者U1の情報処理装置100はミュート状態(ミュート機能が有効な状態)であったとする。
ここで、ミュート機能とは、利用者の音声データを他の利用者に対して出力しないようにする機能を指す。例えば、ミュート機能は、マイクに入力された利用者の音声データを出力しないことによって実現される。また、ミュート機能は、マイクに入力された利用者の音声データの音量をゼロにすることによって実現されてもよい。また、ミュート機能は、そもそもマイクに入力される音声データを拾わない(マイクをオフにする)ことによって実現されてもよい。
ここで、利用者U1が発言を開始したとする。この場合、情報処理装置100は、マイクに入力される利用者U1の音声に基づいて、利用者U1が発言している状態(以下、発言状態ともいう)であると判定する(ステップS11)。続いて、情報処理装置100は、利用者U1が発言状態であると判定すると、利用者U1の音声データが出力されるよう制御する。具体的には、情報処理装置100は、利用者U1が発言状態であると判定すると、情報処理装置100のミュート機能を自動的に無効にする(以下、ミュート機能を解除するともいう)(ステップS12)。また、情報処理装置100は、ミュートが解除された状態であることを示す画像を画面に表示する。そして、情報処理装置100は、利用者U1の音声データをサーバ装置200に送信する(ステップS13)。
また、利用者U2が発話していないものとする。この場合、情報処理装置100は、マイクに入力される利用者U2の音声(この場合は無音声)に基づいて、利用者U2が発言状態でない(以下、無言状態であるともいう)と判定する(ステップS21)。続いて、情報処理装置100は、利用者U2が無言状態であると判定すると、利用者U2の音声データを他の利用者に対して出力しないよう制御する。具体的には、情報処理装置100は、利用者U2が無言状態であると判定すると、情報処理装置100のミュート機能を自動的に有効にする(以下、ミュートにするともいう)(ステップS22)。また、情報処理装置100は、情報処理装置100により自動的にミュートにされた状態であることを示す画像を画面に表示する。また、情報処理装置100は、利用者U1の音声データをサーバ装置200から受信する(ステップS23)。続いて、情報処理装置100は、受信した利用者U1の音声データをスピーカーから出力する。
また、利用者U3が発話していないものとする。この場合、情報処理装置100は、上記情報処理装置100と同様の処理を行う。具体的には、情報処理装置100は、利用者U3が無言状態であると判定すると、情報処理装置100のミュート機能を自動的に有効にする(ステップS31~S32)。また、情報処理装置100は、利用者U1の音声データをサーバ装置200から受信してスピーカーから出力する(ステップS33)。
また、利用者U4が発話していないものとする。この場合、情報処理装置100は、上記情報処理装置100と同様の処理を行う。具体的には、情報処理装置100は、利用者U4が無言状態であると判定すると、情報処理装置100のミュート機能を自動的に有効にする(ステップS41~S42)。また、情報処理装置100は、利用者U1の音声データをサーバ装置200から受信してスピーカーから出力する(ステップS43)。
〔2‐2.情報処理システムの構成例〕
次に、図2を用いて、第1の実施形態に係る情報処理システムの構成について説明する。図2は、第1の実施形態に係る情報処理システムの構成例を示す図である。図2に示すように、情報処理システム1は、情報処理装置100とサーバ装置200とを備える。情報処理装置100とサーバ装置200とは所定のネットワークNを介して、有線または無線により通信可能に接続される。なお、図2に示す情報処理システム1には、任意の数の情報処理装置100と任意の数のサーバ装置200とが含まれてもよい。
情報処理装置100は、グループ通話サービスの利用者によって利用される情報処理装置である。情報処理装置100は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。
また、情報処理装置100には、グループ通話サービスを利用するためのアプリケーションがインストールされている。図1に示す例では、情報処理装置100には、Web会議システムを利用するためのアプリケーション(以下、Web会議アプリともいう)がインストールされている。
また、情報処理装置100は、図1に示す情報処理を実行する。具体的には、情報処理装置100は、グループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。また、情報処理装置100は、判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御する。
サーバ装置200は、グループ通話サービスを提供するサーバ装置である。例えば、サーバ装置200は、Web会議システム、多人数参加型オンラインゲーム、または電話会議システムであるグループ通話サービスを提供する。図1に示す例では、サーバ装置200は、Web会議サービスを提供する。具体的には、サーバ装置200は、利用者の音声データを情報処理装置100から受信する。続いて、サーバ装置200は、受信した音声データを利用者以外の他の利用者の情報処理装置100に送信する。また、サーバ装置200は、利用者の画像データを情報処理装置100から受信する。続いて、サーバ装置200は、受信した画像データを利用者以外の他の利用者の情報処理装置100に送信する。
〔2‐3.情報処理装置の構成例〕
次に、図3を用いて、第1の実施形態に係る情報処理装置の構成について説明する。図3は、第1の実施形態に係る情報処理装置の構成例を示す図である。図3に示すように、情報処理装置100は、通信部110と、音声入力部120と、撮像部130と、記憶部140と、音声出力部150と、表示部160と、制御部170とを有する。なお、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)を有してもよい。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、例えば、サーバ装置200との間で情報の送受信を行う。
(音声入力部120)
音声入力部120は、マイク等の集音デバイスによって実現される。音声入力部120は、利用者の音声などを集音し、集音した音声データを制御部170に出力する。また、以下の説明では、音声入力部120をマイクと記載する場合がある。
(撮像部130)
撮像部130は、カメラ等の撮像デバイスによって実現される。撮像部130は、利用者などの画像を撮影し、撮影した画像データを制御部170に出力する。また、以下の説明では、撮像部130をカメラと記載する場合がある。
(記憶部140)
記憶部140は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部140は、各種プログラム(情報処理プログラムの一例に相当)を記憶する。例えば、記憶部140は、Web会議アプリのプログラムを記憶する。また、記憶部140は、各種データを記憶する。例えば、記憶部140は、音声入力部120に入力された利用者の音声データを記憶する。また、記憶部140は、撮像部130によって撮影された利用者の画像データを記憶する。また、以下の説明では、記憶部140をメモリと記載する場合がある。
(音声出力部150)
音声出力部150は、スピーカー等の音声出力デバイスによって実現される。音声出力部150は、サーバ装置200から受信した他の利用者の音声データを出力する。具体的には、音声出力部150は、受信部177から他の利用者の音声データを受信する。続いて、音声出力部150は、受信した他の利用者の音声データを出力する。また、以下の説明では、音声出力部150をスピーカーと記載する場合がある。
(表示部160)
表示部160は、ディスプレイ等の画像出力デバイスによって実現される。表示部160は、表示制御部171の制御に従って、各種情報を表示する。なお、情報処理装置100にタッチパネルが採用される場合には、入力部と表示部160とは一体化される。
また、表示部160は、サーバ装置200から受信した他の利用者の画像データを表示する。具体的には、表示部160は、受信部177から他の利用者の画像データを受信する。続いて、表示部160は、受信した他の利用者の画像データを表示する。また、以下の説明では、表示部160を画面と記載する場合がある。
(制御部170)
図3の説明に戻って、制御部170は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部170は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
制御部170は、入力部を介して利用者の操作を受け付けると、Web会議アプリを起動する。また、制御部170は、Web会議アプリを起動すると、カメラおよびマイクを起動する。
図3に示すように、制御部170は、表示制御部171と、バッファリング部172と、判定部173と、音声出力制御部174と、画像出力制御部175と、送信部176と、受信部177とを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部170の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(表示制御部171)
表示制御部171は、Web会議アプリに対する操作を行うための各種画像(例えば、ツールバーやアイコン等)を画面に表示するよう制御する。図4を用いて説明する。図4に示す例では、表示制御部171は、他の情報処理装置100から送信される他の利用者の画像データを領域R1に表示する。また、表示制御部171は、情報処理装置100の撮像部130によって撮像された利用者の画像データを領域R2に表示する。例えば、図4の例では、表示制御部171は、領域R1に他の利用者の顔を含む画像データを表示し、領域R2の利用者の顔を含む画像データを表示する。このように、利用者は、Web会議アプリを利用して遠隔にいる他の利用者とWeb会議を行うことができる。
ここで、図4を用いて、第1の実施形態に係る画面の一例について説明する。図4の左側の図において、表示制御部171は、ミュート状態であることを示すアイコン画像G1を画面に表示するよう制御する。制御部170は、利用者からアイコン画像G1を長押しする操作を受け付けた場合、通常ミュートモードを解除して自動ミュートモードに設定を切り替える。制御部170が自動ミュートモードに設定を切り替えると、図4の右側の図に示すように、表示制御部171は、自動ミュートモードに設定されたことを示すアイコン画像G2を画面に表示するよう制御する。ここで、通常ミュートモードとは、利用者が手動的にミュート機能の有効/無効を切り替えるモードを指す。また、自動ミュートモードとは、情報処理装置100が利用者の発話状態に基づいて自動的にミュート機能の有効/無効を切り替えるモードを指す。
なお、利用者が手動によりミュート機能を無効にした場合に表示されるアイコン画像G3(図示略)が画面に表示されている場合は、制御部170は、利用者から画像G3を長押しする操作を受け付けた場合、自動ミュートモードを解除して通常ミュートモードに設定を切り替える。
これにより、情報処理装置100は、従来の画面レイアウトを損なうことなく、自動ミュート状態であることを利用者に対して視認させることができる。また、情報処理装置100は、従来の画面レイアウトを損なうことなく、利用者が自動ミュート状態の設定操作および自動ミュート状態の解除操作を行うことができるようにする。
(バッファリング部172)
バッファリング部172は、音声入力部120に入力された利用者の音声データをバッファリングする。具体的には、バッファリング部172は、音声入力部120から出力された利用者の音声データを受信する。続いて、バッファリング部172は、利用者を識別する識別情報(例えば、利用者ID)と受信した音声データとを対応付けて記憶部140に格納する。
また、バッファリング部172は、撮像部130によって撮影された利用者の画像データをバッファリングする。具体的には、バッファリング部172は、撮像部130から出力された利用者の画像データを受信する。続いて、バッファリング部172は、利用者を識別する識別情報(例えば、利用者ID)と受信した画像データとを対応付けて記憶部140に格納する。
(判定部173)
判定部173は、Web会議システム等のグループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。具体的には、判定部173は、利用者情報の一例として、音声入力部120に入力された利用者の音声データに基づいて、利用者が発言状態であるか否かを判定する。より具体的には、判定部173は、バッファリング部172によって音声データのバッファリングが開始されると、記憶部140を参照して、利用者の音声データを取得する。続いて、判定部173は、音声データの音量が音量閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部173は、音声データの音量が音量閾値を超える場合、利用者が発言状態であると判定する。一方、判定部173は、音声データの音量が音量閾値以下である場合、利用者が発言状態ではない(無言状態である)と判定する。
また、判定部173は、音声データの持続時間が時間閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定してもよい。例えば、判定部173は、音声データの持続時間が時間閾値を超える場合、利用者が発言状態であると判定する。一方、判定部173は、音声データの持続時間が時間閾値以下である場合、利用者が発言状態ではない(無言状態である)と判定する。
また、判定部173は、音声データの音量が音量閾値を超え、かつ、音声データの持続時間が時間閾値を超える場合に、利用者が発言状態であると判定してもよい。一方、判定部173は、音声データの音量が音量閾値以下であるか、または、音声データの持続時間が時間閾値以下である場合には、利用者が発言状態でないと判定してもよい。
(音声出力制御部174)
音声出力制御部174は、判定部173による判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御する。具体的には、音声出力制御部174は、判定部173による判定結果に基づいて、利用者の音声データを他の利用者に対して出力しないようにするミュート機能を制御する。
より具体的には、音声出力制御部174は、判定部173によって利用者が発言状態でないと判定された場合、利用者の音声データを他の利用者に対して出力しないように、ミュート機能を有効にする。
また、音声出力制御部174は、判定部173によって利用者が発言状態であると判定された場合、利用者の音声データを他の利用者に対して出力するように、ミュート機能を無効にする。また、音声出力制御部174は、判定部173によって利用者が発言状態であると判定された場合、利用者の音声データを送信部176に出力する。
また、利用者が発話することで、判定部173によって利用者が発言状態であると判定された場合、利用者が発話してから、音声出力制御部174によってミュート機能を有効から無効にされるまでの間に利用者によって発話された音声データは他の情報処理装置100へ送信されていない。このため、音声出力制御部174は、判定部173によって利用者が発言状態であると判定された場合、バッファリング部172によってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。具体的には、音声出力制御部174は、判定部173によって利用者が発言状態であると判定された時から所定時間前からの利用者の音声データを早送りした早送り音声データを生成する。続いて、音声出力制御部174は、生成した利用者の早送り音声データを送信部176に出力する。
例えば、音声出力制御部174は、バッファリング部172によって音声データのバッファリングが開始されてから判定部173によって利用者が発言状態であると判定されるまでの時間前からの利用者の音声データを早送りした利用者の早送り音声データを送信部176に出力する。あるいは、音声出力制御部174は、固定の所定時間(例えば、0.5秒など)前からの利用者の音声データを早送りした利用者の早送り音声データを送信部176に出力してもよい。これにより、情報処理装置100は、ミュート機能が有効から無効になるまでに利用者によって発話された音声を他の情報処理装置100へ送信することができる。
また、音声出力制御部174は、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達するまでは、利用者の音声データを他の利用者に対して出力しないように、ミュート機能を有効にする。
また、音声出力制御部174は、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者の音声データを他の利用者に対して出力するように、ミュート機能を無効にする。また、音声出力制御部174は、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者の音声データを送信部176に出力する。
(画像出力制御部175)
画像出力制御部175は、グループ通話サービスの他の利用者に対する利用者の画像データの出力を制御する。具体的には、画像出力制御部175は、バッファリング部172によって利用者の画像データのバッファリングが開始されると、記憶部140を参照して、利用者の画像データを取得する。続いて、画像出力制御部175は、利用者の画像データを取得すると、取得した画像データを送信部176に出力する。
画像出力制御部175は、判定部173によって利用者が発言状態であると判定された場合、バッファリング部172によってバッファリングされた画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する。具体的には、画像出力制御部175は、判定部173によって利用者が発言状態であると判定された時から所定時間前からの利用者の画像データを早送りした早送り画像データを生成する。続いて、画像出力制御部175は、生成した利用者の早送り画像データを送信部176に出力する。
例えば、画像出力制御部175は、バッファリング部172によって画像データのバッファリングが開始されてから判定部173によって利用者が発言状態であると判定されるまでの時間前からの利用者の画像データを早送りした利用者の早送り画像データを送信部176に出力する。あるいは、例えば、画像出力制御部175は、固定の所定時間(例えば、0.5秒など)前からの利用者の画像データを早送りした利用者の早送り画像データを送信部176に出力してもよい。これにより、情報処理装置100は、早送りされた音声と早送りされた画像をシンクロさせることができるので、受信側で音声と画像のずれがないようにすることができる。
(送信部176)
送信部176は、音声出力制御部174の制御に従って、利用者の音声データをサーバ装置200に送信する。具体的には、送信部176は、音声出力制御部174から利用者の音声データを受信すると、受信した利用者の音声データをサーバ装置200に送信する。
また、送信部176は、画像出力制御部175の制御に従って、利用者の画像データをサーバ装置200に送信する。具体的には、送信部176は、画像出力制御部175から利用者の画像データを受信すると、受信した利用者の画像データをサーバ装置200に送信する。
また、送信部176は、音声出力制御部174から利用者の早送り音声データを受信すると、受信した利用者の早送り音声データをサーバ装置200に送信する。また、送信部176は、画像出力制御部175から利用者の早送り画像データを受信すると、受信した利用者の早送り画像データをサーバ装置200に送信する。具体的には、送信部176は、早送り音声データと早送り画像データとを同じタイミングでサーバ装置200に送信する。
(受信部177)
受信部177は、サーバ装置200から他の利用者の音声データを受信する。続いて、受信部177は、他の利用者の音声データを受信すると、受信した他の利用者の音声データを音声出力部150に出力する。
また、受信部177は、サーバ装置200から他の利用者の画像データを受信する。続いて、受信部177は、他の利用者の画像データを受信すると、受信した他の利用者の画像データを表示部160に出力する。
また、受信部177は、サーバ装置200から他の利用者の早送り音声データを受信する。続いて、受信部177は、受信した他の利用者の早送り音声データを音声出力部150に出力する。また、音声出力部150は、受信部177から他の利用者の早送り音声データを受信する。続いて、音声出力部150は、受信した他の利用者の早送り音声データを出力する。また、受信部177は、受信部177は、サーバ装置200から他の利用者の早送り画像データを受信する。続いて、受信部177は、受信した他の利用者の早送り画像データを表示部160に出力する。また、表示部160は、受信部177から他の利用者の早送り画像データを受信する。続いて、表示部160は、受信した他の利用者の早送り画像データを表示する。
〔2‐4.情報処理手順〕
次に、図5を用いて、第1の実施形態に係る情報処理手順の概要について説明する。図5は、第1の実施形態に係る情報処理手順の概要を示す図である。図5では、図1で説明した情報処理の概要の手順について説明する。
図5に示すように、制御部170は、Web会議アプリを起動する(ステップS101)。また、バッファリング部172は、制御部170によってWeb会議アプリが起動されると、カメラやマイクによって利用者に関する利用者情報を取得する(ステップS102)。また、判定部173は、バッファリング部172によって取得された利用者情報に基づいて、利用者が発言状態であるか否かを判定する(ステップS103)。
また、音声出力制御部174は、判定部173によって利用者が発言状態であると判定された場合(ステップS103;Yes)、利用者の音声データを他の利用者に対して出力するよう制御する(ステップS104)。例えば、音声出力制御部174は、判定部173によって利用者が発言状態であると判定された場合、利用者の音声データを他の利用者に対して出力するように、ミュート機能を自動的に解除する。続いて、音声出力制御部174は、利用者の音声データを他の利用者に対して出力するよう制御すると、再びステップS102に戻る。
一方、音声出力制御部174は、判定部173によって利用者が発言状態でないと判定された場合(ステップS103;No)、利用者の音声データを他の利用者に対して出力しないよう制御する(ステップS105)。例えば、音声出力制御部174は、判定部173によって利用者が発言状態でないと判定された場合、利用者の音声データを他の利用者に対して出力しないように、自動的にミュート機能を有効にする。続いて、音声出力制御部174が利用者の音声データを他の利用者に対して出力しないよう制御すると、再びステップS102に戻る。
次に、図6を用いて、第1の実施形態に係る情報処理手順について説明する。図6は、第1の実施形態に係る情報処理手順を示す図である。図6に示す例では、情報処理装置100が音声入力部120に入力された利用者の音声データである利用者情報に基づいて、利用者が発言状態であるか否かを判定する。
図6に示すように、制御部170は、Web会議アプリを起動する(ステップS201)。続いて、制御部170は、Web会議アプリを起動すると、カメラとマイクを起動する(ステップS202)。また、バッファリング部172は、制御部170によってカメラが起動されると、カメラによって撮影された利用者の画像データ(以下、カメラ画像ともいう)のバッファリングを開始する。また、バッファリング部172は、制御部170によってマイクが起動されると、マイクに入力された利用者の音声データ(以下、マイク音声ともいう)のバッファリングを開始する(ステップS203)。続いて、バッファリング部172は、メモリにカメラ画像とマイク音声を蓄積する(ステップS204)。また、判定部173は、マイク音声の音量が音量閾値を超えるか否かを判定する。また、判定部173は、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する(ステップS205)。
判定部173は、マイク音声の持続時間が時間閾値を超えたと判定した場合(ステップS205;Yes)、利用者が発言状態であると判定する(ステップS206)。次に、音声出力制御部174は、判定部173によって利用者が発言状態であると判定された場合、バッファリング部172によってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。また、画像出力制御部175は、判定部173によって利用者が発言状態であると判定された場合、バッファリング部172によってバッファリングされた画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する(ステップS207)。また、音声出力制御部174は、早送りして再生された利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、ミュート機能を解除する(ステップS208)。音声出力制御部174がミュート機能を解除すると、再びステップS205に戻る。
一方、判定部173は、マイク音声の音量が音量閾値を超えていないと判定した場合、またはマイク音声の持続時間が時間閾値を超えていないと判定した場合(ステップS205;No)、利用者が無言状態であると判定する(ステップS209)。また、音声出力制御部174は、判定部173によって利用者が無言状態であると判定された場合、ミュート機能を有効にする(ステップS210)。音声出力制御部174がミュート機能を有効にすると、再びステップS205に戻る。
なお、図6では、判定部173が、マイク音声の音量が音量閾値を超えるか否かを判定した後に、マイク音声の持続時間が時間閾値を超えるか否かをする例について説明したが、これに限られない。具体的には、判定部173は、マイク音声の持続時間が時間閾値を超えるか否かを判定する。続いて、判定部173は、マイク音声の持続時間が時間閾値を超えたと判定した場合、マイク音声の音量が音量閾値を超えるか否かを判定する。続いて、判定部173は、マイク音声の音量が音量閾値を超えたと判定した場合、利用者が発言状態であると判定する。
また、判定部173は、マイク音声の音量が音量閾値を超えるか否か、またはマイク音声の持続時間が時間閾値を超えるか否かのいずれか一方だけに基づいて、利用者が発言状態であるか否かを判定してもよい。例えば、判定部173は、マイク音声の音量が音量閾値を超えたと判定した場合、利用者が発言状態であると判定する。あるいは、判定部173は、マイク音声の持続時間が時間閾値を超えたと判定した場合、利用者が発言状態であると判定する。
〔2‐5.変形例〕
上述した第1の実施形態に係る情報処理システム1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理システム1の他の実施形態について説明する。なお、実施形態と同一部分には、同一符号を付して説明を省略する。
〔2‐5‐1.口の動きの変化に基づく発言判定〕
判定部173は、利用者情報の一例として、撮像部130によって撮影された利用者の画像データから認識される利用者の口の動きの変化に基づいて、利用者が発言状態であるか否かを判定してもよい。より具体的には、判定部173は、バッファリング部172によって画像データのバッファリングが開始されると、記憶部140を参照して、利用者の画像データを取得する。続いて、判定部173は、口の動きの変化量が変化閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部173は、一般的な画像認識処理によって、利用者の画像データから利用者の口の形を認識する。続いて、判定部173は、認識した利用者の口の形の変化量に基づいて、利用者の口の動きの変化量を認識する。続いて、判定部173は、口の動きの変化量が変化閾値を超えると判定した場合、利用者が発言状態であると判定する。一方、判定部173は、口の動きの変化量が変化閾値以下であると判定した場合、利用者が発言状態ではない(無言状態である)と判定する。この点について、図7を用いて詳しく説明する。
次に、図7を用いて、第1の実施形態の変形例に係る情報処理手順について説明する。図7は、第1の実施形態の変形例に係る情報処理手順を示す図である。図7に示すように、制御部170は、Web会議アプリを起動する(ステップS301)。続いて、制御部170は、Web会議アプリを起動すると、カメラとマイクを起動する(ステップS302)。また、バッファリング部172は、制御部170によってカメラが起動されると、カメラ画像のバッファリングを開始する。また、バッファリング部172は、制御部170によってマイクが起動されると、マイク音声のバッファリングを開始する(ステップS303)。続いて、バッファリング部172は、メモリにカメラ画像とマイク音声を蓄積する(ステップS304)。また、判定部173は、カメラ画像から認識される利用者の口の動きの変化量が変化閾値を超えるか否かを判定する(ステップS305)。
判定部173は、利用者の口の動きの変化量が変化閾値を超えたと判定した場合(ステップS305;Yes)、利用者が発言状態であると判定する(ステップS306)。次に、音声出力制御部174は、判定部173によって利用者が発言状態であると判定された場合、バッファリング部172によってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。また、画像出力制御部175は、判定部173によって利用者が発言状態であると判定された場合、バッファリング部172によってバッファリングされた画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する(ステップS307)。また、音声出力制御部174は、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、ミュート機能を解除する(ステップS308)。音声出力制御部174がミュート機能を解除すると、再びステップS305に戻る。
一方、判定部173は、利用者の口の動きの変化量が変化閾値を超えていないと判定した場合(ステップS305;No)、利用者が無言状態であると判定する(ステップS309)。また、音声出力制御部174は、判定部173によって利用者が無言状態であると判定された場合、ミュート機能を有効にする(ステップS310)。音声出力制御部174がミュート機能を有効にすると、再びステップS305に戻る。
〔2‐5‐2.音声と口の動きの変化を組み合わせた発言判定〕
判定部173は、利用者の音声データおよび利用者の口の動きの変化の両方に基づいて、利用者が発言状態であるか否かを判定してもよい。より具体的には、判定部173は、カメラ画像から認識される利用者の口の動きの変化量が変化閾値を超えるか否かを判定する。続いて、判定部173は、利用者の口の動きの変化量が変化閾値を超えると判定した場合、マイク音声の音量が音量閾値を超えるか否かを判定する。また、判定部173は、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する。続いて、判定部173は、マイク音声の持続時間が時間閾値を超えると判定した場合、利用者が発言状態であると判定する。この点について、図8を用いて詳しく説明する。
次に、図8を用いて、第1の実施形態の変形例に係る情報処理手順について説明する。図8は、第1の実施形態の変形例に係る情報処理手順を示す図である。図8に示すように、制御部170は、Web会議アプリを起動する(ステップS401)。続いて、制御部170は、Web会議アプリを起動すると、カメラとマイクを起動する(ステップS402)。また、バッファリング部172は、制御部170によってカメラが起動されると、カメラ画像のバッファリングを開始する。また、バッファリング部172は、制御部170によってマイクが起動されると、マイク音声のバッファリングを開始する(ステップS403)。続いて、バッファリング部172は、メモリにカメラ画像とマイク音声を蓄積する(ステップS404)。また、判定部173は、カメラ画像から認識される利用者の口の動きの変化量が変化閾値を超えるか否かを判定する(ステップS405)。
判定部173は、利用者の口の動きの変化量が変化閾値を超えたと判定した場合(ステップS405;Yes)、マイク音声の音量が音量閾値を超えるか否かを判定する。また、判定部173は、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する(ステップS406)。
判定部173は、マイク音声の持続時間が時間閾値を超えたと判定した場合(ステップS406;Yes)、利用者が発言状態であると判定する(ステップS407)。次に、音声出力制御部174は、判定部173によって利用者が発言状態であると判定された場合、バッファリング部172によってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。また、画像出力制御部175は、判定部173によって利用者が発言状態であると判定された場合、バッファリング部172によってバッファリングされた画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する(ステップS408)。また、音声出力制御部174は、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、ミュート機能を解除する(ステップS409)。音声出力制御部174がミュート機能を解除すると、再びステップS405に戻る。
一方、判定部173は、マイク音声の音量が音量閾値を超えていないと判定した場合、またはマイク音声の持続時間が時間閾値を超えていないと判定した場合(ステップS406;No)、利用者が無言状態であると判定する(ステップS410)。また、音声出力制御部174は、判定部173によって利用者が無言状態であると判定された場合、ミュート機能を有効にする(ステップS411)。音声出力制御部174がミュート機能を有効にすると、再びステップS405に戻る。
また、一方、判定部173は、利用者の口の動きの変化量が変化閾値を超えていないと判定した場合(ステップS405;No)、利用者が無言状態であると判定する(ステップS410)。また、音声出力制御部174は、判定部173によって利用者が無言状態であると判定された場合、ミュート機能を有効にする(ステップS411)。音声出力制御部174がミュート機能を有効にすると、再びステップS405に戻る。
なお、図8では、判定部173が、利用者の口の動きの変化量が変化閾値を超えるか否かを判定した後に、マイク音声の音量が音量閾値を超えるか否かを判定する例について説明したが、これに限られない。具体的には、判定部173は、マイク音声の音量が音量閾値を超えるか否かを判定する。続いて、判定部173は、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する。続いて、判定部173は、マイク音声の持続時間が時間閾値を超えたと判定した場合、利用者の口の動きの変化量が変化閾値を超えるか否かを判定する。続いて、判定部173は、利用者の口の動きの変化量が変化閾値を超えたと判定した場合、利用者が発言状態であると判定する。
〔2‐5‐3.画面データ(HTML形式)〕
上述した例では、情報処理装置100にWeb会議アプリがインストールされており、Web会議アプリが上述した情報処理を実施する例について説明したが、これに限られない。具体的には、サーバ装置200がWeb会議の画面データ(HTML形式)を情報処理装置100に送信する。また、情報処理装置100は、Web会議の画面データをブラウザ等により表示する。この場合、上述した情報処理は、画面データ(HTML形式)に埋め込まれているプログラムによって実現されてもよい。例えば、自動ミュートモードの処理は、画面データ(HTML形式)に埋め込まれているプログラムによって実現されてもよい。
(第2の実施形態)
〔3‐1.情報処理の概要〕
次に、第2の実施形態に係る情報処理の概要について説明する。第2の実施形態に係る情報処理は、後述する図9に示す情報処理システム1Aによって実現される。第2の実施形態に係る情報処理は、サーバ装置200Aが、情報処理装置100Aそれぞれから取得した利用者情報に基づいて、情報処理装置100Aそれぞれの利用者が発言状態であるか否かを判定する。また、サーバ装置200Aが、それぞれの判定結果に基づいて、グループ通話サービスの他の利用者に対するそれぞれの利用者の音声データの出力を制御する。
〔3‐2.情報処理システムの構成例〕
次に、図9を用いて、第2の実施形態に係る情報処理システムの構成について説明する。図9は、第2の実施形態に係る情報処理システムの構成例を示す図である。図9に示すように、情報処理システム1Aは、情報処理装置100Aとサーバ装置200Aとを備える。情報処理装置100Aとサーバ装置200Aとは所定のネットワークNを介して、有線または無線により通信可能に接続される。なお、図9に示す情報処理システム1Aには、任意の数の情報処理装置100Aと任意の数のサーバ装置200Aとが含まれてもよい。なお、以下では、情報処理システム1と重複する内容については説明を省略する。
情報処理装置100Aは、グループ通話サービスの利用者によって利用される情報処理装置である。情報処理装置100Aは、例えば、スマートフォンや、タブレット型端末や、ノート型PCや、デスクトップPCや、携帯電話機や、PDA等により実現される。なお、図9では、情報処理装置100Aを利用する利用者に応じて、情報処理装置100Aを情報処理装置100A、100Aとして説明する。例えば、情報処理装置100Aは、利用者U1により使用される情報処理装置100Aである。また、例えば、情報処理装置100Aは、利用者U2により使用される情報処理装置100Aである。また、以下では、情報処理装置100A、100Aについて、特に区別なく説明する場合には、情報処理装置100Aと記載する。
また、情報処理装置100Aには、グループ通話サービスを利用するためのアプリケーションがインストールされている。例えば、情報処理装置100Aには、Web会議アプリがインストールされている。
サーバ装置200Aは、グループ通話サービスを提供するサーバ装置である。例えば、サーバ装置200Aは、Web会議システム、多人数参加型オンラインゲーム、または電話会議システムであるグループ通話サービスを提供する。
また、サーバ装置200Aは、グループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。また、サーバ装置200Aは、判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御する。
〔3‐3.情報処理装置の構成例〕
次に、図10を用いて、第2の実施形態に係る情報処理装置の構成について説明する。図10は、第2の実施形態に係る情報処理装置の構成例を示す図である。図10に示すように、情報処理装置100Aは、通信部110と、音声入力部120と、撮像部130と、記憶部140と、音声出力部150と、表示部160と、制御部170Aとを有する。なお、情報処理装置100Aは、情報処理装置100Aの管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)を有してもよい。
第2の実施形態にかかる情報処理装置100Aは、第1の実施形態で説明した情報処理装置100が表示制御部171と、バッファリング部172と、判定部173と、音声出力制御部174と、画像出力制御部175と、を有しないものである。したがって、図3で説明した各処理部については説明を省略する。
(制御部170A)
制御部170Aは、コントローラであり、例えば、CPUやMPU等によって、情報処理装置100A内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部170Aは、コントローラであり、例えば、ASICやFPGA等の集積回路により実現される。
図10に示すように、制御部170Aは、送信部176Aと受信部177Aとを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部170Aの内部構成は、図10に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(送信部176A)
送信部176Aは、音声入力部120によって集音された利用者の音声データをサーバ装置200Aに送信する。また、送信部176Aは、撮像部130によって撮像された利用者の画像データをサーバ装置200Aに送信する。
(受信部177A)
受信部177Aは、他の利用者の音声データをサーバ装置200Aから受信する。また、受信部177Aは、他の利用者の画像データをサーバ装置200Aから受信する。
〔3‐4.サーバ装置の構成例〕
次に、図11を用いて、第2の実施形態に係るサーバ装置の構成について説明する。図11は、第2の実施形態に係るサーバ装置の構成例を示す図である。図11に示すように、サーバ装置200Aは、通信部210と、記憶部220と、制御部230Aとを有する。なお、サーバ装置200Aは、サーバ装置200Aの管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)を有してもよい。
(通信部210)
通信部210は、例えば、NIC等によって実現される。そして、通信部210は、ネットワークと有線または無線で接続され、例えば、情報処理装置100Aとの間で情報の送受信を行う。
(記憶部220)
記憶部220は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部220は、各種プログラム(情報処理プログラムの一例に相当)を記憶する。また、記憶部220は、各種データを記憶する。例えば、記憶部220は、利用者を識別する識別情報(例えば、利用者ID)と情報処理装置100Aから受信した利用者の音声データとを対応付けて記憶する。また、記憶部220は、利用者を識別する識別情報(例えば、利用者ID)と情報処理装置100Aから受信した利用者の画像データとを対応付けて記憶する。また、以下の説明では、記憶部220をメモリと記載する場合がある。
(制御部230A)
制御部230Aは、コントローラであり、例えば、CPUやMPU等によって、サーバ装置200A内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部230Aは、コントローラであり、例えば、ASICやFPGA等の集積回路により実現される。
図11に示すように、制御部230Aは、受信部231Aと、表示制御部232Aと、バッファリング部233Aと、判定部234Aと、音声出力制御部235Aと、画像出力制御部236Aと、送信部237Aとを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部230Aの内部構成は、図11に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(受信部231A)
受信部231Aは、情報処理装置100Aから利用者の音声データを受信する。受信部231Aは、利用者の音声データを受信すると、受信した利用者の音声データをバッファリング部233Aに出力する。
また、受信部231Aは、情報処理装置100Aから利用者の画像データを受信する。受信部231Aは、利用者の画像データを受信すると、受信した利用者の画像データをバッファリング部233Aに出力する。
また、受信部231Aは、ミュート機能が解除された状態であることを示す画像G1または利用者が手動によりミュート機能を有効にした場合に表示される画像G3(図示略)を利用者が長押しする操作を受け付けたという情報を情報処理装置100Aから受信する。受信部231Aは、利用者が長押しする操作を受け付けたという情報を受信すると、受信した情報を音声出力制御部235Aに出力する。
(表示制御部232A)
表示制御部232Aは、Web会議アプリに対する操作を行うための各種画像(例えば、ツールバーやアイコン等)を画面に表示するよう制御する。具体的には、表示制御部232Aは、第1の実施形態に係る表示制御部171と同様、ミュート機能が解除された状態であることを示すアイコン画像G1、自動ミュートモードに設定されたことを示すアイコン画像G2、または利用者が手動によりミュート機能を有効にした場合に表示されるアイコン画像G3(図示略)を表示するよう制御する。
(バッファリング部233A)
バッファリング部233Aは、音声入力部120に入力された利用者の音声データをバッファリングする。具体的には、バッファリング部233Aは、受信部231Aから出力された利用者の音声データを受信する。続いて、バッファリング部233Aは、利用者を識別する識別情報(例えば、利用者ID)と受信した音声データとを対応付けて記憶部220に格納する。
また、バッファリング部233Aは、撮像部130によって撮影された利用者の画像データをバッファリングする。具体的には、バッファリング部233Aは、受信部231Aから出力された利用者の画像データを受信する。続いて、バッファリング部233Aは、利用者を識別する識別情報(例えば、利用者ID)と受信した画像データとを対応付けて記憶部220に格納する。
(判定部234A)
判定部234Aは、グループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。判定部234Aは、Web会議システム、多人数参加型オンラインゲーム、または電話会議システムであるグループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。
具体的には、判定部234Aは、音声入力部120に入力された利用者の音声データである利用者情報に基づいて、利用者が発言状態であるか否かを判定する。より具体的には、判定部234Aは、バッファリング部233Aによって音声データのバッファリングが開始されると、記憶部220を参照して、利用者の音声データを取得する。続いて、判定部234Aは、音声データの音量が音量閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部234Aは、音声データの音量が音量閾値を超えると判定した場合、利用者が発言状態であると判定する。一方、判定部234Aは、音声データの音量が音量閾値以下であると判定した場合、利用者が発言状態ではない(無言状態である)と判定する。
また、判定部234Aは、音声データの持続時間が時間閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部234Aは、音声データの音量が音量閾値を超えると判定した場合、音声データの持続時間が時間閾値を超えるか否かを判定してもよい。例えば、判定部234Aは、音声データの持続時間が時間閾値を超えると判定した場合、利用者が発言状態であると判定する。一方、判定部234Aは、音声データの持続時間が時間閾値以下であると判定した場合、利用者が発言状態ではない(無言状態である)と判定する。
また、判定部234Aは、撮像部130によって撮影された利用者の画像データである利用者情報から認識される利用者の口の動きの変化に基づいて、利用者が発言状態であるか否かを判定する。より具体的には、判定部234Aは、バッファリング部233Aによって画像データのバッファリングが開始されると、記憶部220を参照して、利用者の画像データを取得する。続いて、判定部234Aは、口の動きの変化量が変化閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部234Aは、一般的な画像認識処理によって、利用者の画像データから利用者の口の形を認識する。続いて、判定部234Aは、認識した利用者の口の形の変化量に基づいて、利用者の口の動きの変化量を認識する。続いて、判定部234Aは、口の動きの変化量が変化閾値を超えると判定した場合、利用者が発言状態であると判定する。一方、判定部234Aは、口の動きの変化量が変化閾値以下であると判定した場合、利用者が発言状態ではない(無言状態である)と判定する。
(音声出力制御部235A)
音声出力制御部235Aは、判定部234Aによる判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御する。具体的には、音声出力制御部235Aは、判定部234Aによって利用者が発言状態でないと判定された場合、利用者の音声データを他の利用者に対して出力しないよう制御する。例えば、音声出力制御部235Aは、判定部234Aによって利用者が発言状態でないと判定された場合、利用者の音声データを利用者以外の他の利用者の情報処理装置100Aに送信しないよう制御する。また、音声出力制御部235Aは、判定部234Aによって利用者が発言状態でないと判定された場合、情報処理装置100Aに対して、ミュート機能を有効にするよう指示する制御情報を送信してもよい。
また、音声出力制御部235Aは、判定部234Aによって利用者が発言状態であると判定された場合、利用者の音声データを他の利用者に対して出力するよう制御する。例えば、音声出力制御部235Aは、判定部234Aによって利用者が発言状態であると判定された場合、利用者の音声データを利用者以外の他の利用者の情報処理装置100Aに送信する。また、音声出力制御部235Aは、判定部234Aによって利用者が発言状態であると判定された場合、情報処理装置100Aに対して、ミュート機能を無効にするよう指示する制御情報を送信してもよい。
また、利用者が発話することで、判定部234Aによって利用者が発言状態であると判定された場合、利用者が発話してから、音声出力制御部235Aによってミュート機能を有効から無効にされるまでの間に利用者によって発話された音声データは他の情報処理装置100へ送信されていない。このため、音声出力制御部235Aは、判定部234Aによって利用者が発言状態であると判定された場合、バッファリング部233Aによってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。具体的には、音声出力制御部235Aは、判定部234Aによって利用者が発言状態であると判定された時から所定時間前からの利用者の音声データを早送りした早送り音声データを生成する。続いて、音声出力制御部235Aは、生成した利用者の早送り音声データを送信部237Aに出力する。
例えば、音声出力制御部235Aは、バッファリング部233Aによって音声データのバッファリングが開始されてから判定部234Aによって利用者が発言状態であると判定されるまでの時間前からの利用者の音声データを早送りして生成した利用者の早送り音声データを送信部237Aに出力する。あるいは、音声出力制御部235Aは、固定の所定時間(例えば、0.5秒など)前からの利用者の音声データを早送りして生成した利用者の早送り音声データを送信部237Aに出力してもよい。これにより、サーバ装置200Aは、ミュート機能が有効から無効になるまでに利用者によって発話された音声を他の情報処理装置100へ送信することができる。
また、音声出力制御部235Aは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達するまでは、利用者の音声データを他の利用者に対して出力しないよう制御する。例えば、音声出力制御部235Aは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達するまでは、利用者の音声データを送信部237Aに出力しないよう制御する。また、音声出力制御部235Aは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達するまでは、情報処理装置100Aに対してミュート機能を無効にするよう指示する制御情報を送信部237Aに出力してもよい。
また、音声出力制御部235Aは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者の音声データを他の利用者に対して出力するよう制御する。例えば、音声出力制御部235Aは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者の音声データを送信部237Aに出力する。また、音声出力制御部235Aは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、情報処理装置100Aに対してミュート機能を無効にするよう指示する制御情報を送信部237Aに出力してもよい。
(画像出力制御部236A)
画像出力制御部236Aは、グループ通話サービスの他の利用者に対する利用者の画像データの出力を制御する。具体的には、画像出力制御部236Aは、バッファリング部233Aによって利用者の画像データのバッファリングが開始されると、記憶部220を参照して、利用者の画像データを取得する。続いて、画像出力制御部236Aは、利用者の画像データを取得すると、利用者の画像データを送信部237Aに出力する。
画像出力制御部236Aは、判定部234Aによって利用者が発言状態であると判定された場合、バッファリング部233Aによってバッファリングされた画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する。具体的には、画像出力制御部236Aは、判定部234Aによって利用者が発言状態であると判定された時から所定時間前からの利用者の画像データを早送りした早送り画像データを生成する。続いて、画像出力制御部236Aは、生成した利用者の早送り画像データを送信部237Aに出力する。
例えば、画像出力制御部236Aは、バッファリング部233Aによって画像データのバッファリングが開始されてから判定部234Aによって利用者が発言状態であると判定されるまでの時間前からの利用者の画像データを早送りして生成した利用者の早送り画像データを送信部237Aに出力する。あるいは、例えば、画像出力制御部236Aは、固定の所定時間(例えば、0.5秒など)前からの利用者の画像データを早送りして生成した利用者の早送り画像データを送信部237Aに出力してもよい。これにより、サーバ装置200Aは、早送りされた音声と早送りされた画像をシンクロさせることができるので、受信側で音声と画像のずれがないようにすることができる。
(送信部237A)
送信部237Aは、音声出力制御部235Aの制御に従って、利用者の音声データを他の利用者の他の情報処理装置100Aに送信する。具体的には、送信部237Aは、音声出力制御部235Aから利用者の音声データを受信すると、受信した利用者の音声データを他の利用者の他の情報処理装置100Aに送信する。
また、送信部237Aは、画像出力制御部236Aの制御に従って、利用者の画像データを他の利用者の他の情報処理装置100Aに送信する。具体的には、送信部237Aは、画像出力制御部236Aから利用者の画像データを受信すると、受信した利用者の画像データを他の利用者の他の情報処理装置100Aに送信する。
また、送信部237Aは、音声出力制御部235Aから利用者の早送り音声データを受信すると、受信した利用者の早送り音声データを他の利用者の他の情報処理装置100Aに送信する。また、送信部237Aは、画像出力制御部236Aから利用者の早送り画像データを受信すると、受信した利用者の早送り画像データを他の利用者の他の情報処理装置100Aに送信する。具体的には、送信部237Aは、早送り音声データと早送り画像データとを同じタイミングで他の利用者の他の情報処理装置100Aに送信する。
〔3‐5.情報処理手順〕
次に、図12を用いて、第2の実施形態に係る情報処理手順について説明する。まず、図12を用いて、第2の実施形態に係る情報処理手順について説明する。図12は、第2の実施形態に係る情報処理手順を示す図である。図12に示す例では、サーバ装置200Aが、情報処理装置100Aそれぞれから取得した利用者情報に基づいて、情報処理装置100Aそれぞれの利用者が発言状態であるか否かを判定する。また、サーバ装置200Aが、それぞれの判定結果に基づいて、グループ通話サービスの他の利用者に対するそれぞれの利用者の音声データの出力を制御する。
図12に示すように、受信部231Aは、情報処理装置100Aそれぞれからカメラ画像とマイク音声を受信する(ステップS501)。また、バッファリング部233Aは、受信部231Aによって受信されたカメラ画像とマイク音声のバッファリングを開始する(ステップS502)。また、バッファリング部233Aは、受信部231Aによって受信されたカメラ画像とマイク音声をメモリに蓄積する(ステップS503)。また、判定部234Aは、それぞれカメラ画像から認識される利用者それぞれの口の動きの変化量が変化閾値を超えるか否かを判定する(ステップS504)。
判定部234Aは、利用者の口の動きの変化量が変化閾値を超えたと判定した場合(ステップS504;Yes)、利用者のマイク音声の音量が音量閾値を超えるか否かを判定する。また、判定部234Aは、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する(ステップS505)。
判定部234Aは、マイク音声の持続時間が時間閾値を超えたと判定した場合(ステップS505;Yes)、利用者が発言状態であると判定する(ステップS506)。次に、音声出力制御部235Aは、判定部234Aによって利用者が発言状態であると判定された場合、バッファリング部233Aによってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。また、画像出力制御部236Aは、判定部234Aによって利用者が発言状態であると判定された場合、バッファリング部233Aによってバッファリングされた画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する(ステップS507)。また、音声出力制御部235Aは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者のリアルタイムの音声データを利用者以外の他の利用者の情報処理装置100Aへ送信するよう制御する(ステップS508)。音声出力制御部235Aが利用者のリアルタイムの音声データを利用者以外の他の利用者の情報処理装置100Aへ送信するよう制御すると、再びステップS504に戻る。
一方、判定部234Aは、マイク音声の音量が音量閾値を超えていないと判定した場合、またはマイク音声の持続時間が時間閾値を超えていないと判定した場合(ステップS505;No)、利用者が無言状態であると判定する(ステップS509)。また、音声出力制御部235Aは、判定部234Aによって利用者が無言状態であると判定された場合、利用者の音声データを利用者以外の他の利用者の情報処理装置100Aへ送信しないよう制御する(ステップS510)。音声出力制御部235Aが利用者の音声データを利用者以外の他の利用者の情報処理装置100Aへ送信しないよう制御すると、再びステップS504に戻る。
また、一方、判定部234Aは、利用者の口の動きの変化量が変化閾値を超えていないと判定した場合(ステップS504;No)、利用者が無言状態であると判定する(ステップS509)。また、音声出力制御部235Aは、判定部234Aによって利用者が無言状態であると判定された場合、利用者の音声データを利用者以外の他の利用者の情報処理装置100Aへ送信しないよう制御する(ステップS510)。音声出力制御部235Aが利用者の音声データを利用者以外の他の利用者の情報処理装置100Aへ送信しないよう制御すると、再びステップS504に戻る。
なお、図12では、判定部234Aが、利用者の口の動きの変化量が変化閾値を超えるか否かを判定した後に、マイク音声の音量が音量閾値を超えるか否かを判定する例について説明したが、これに限られない。具体的には、判定部234Aは、マイク音声の音量が音量閾値を超えるか否かを判定する。続いて、判定部234Aは、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する。続いて、判定部234Aは、マイク音声の持続時間が時間閾値を超えたと判定した場合、利用者の口の動きの変化量が変化閾値を超えるか否かを判定する。続いて、判定部234Aは、利用者の口の動きの変化量が変化閾値を超えたと判定した場合、利用者が発言状態であると判定する。
また、判定部234Aは、利用者の口の動きの変化量が変化閾値を超えるか否か、またはマイク音声の音量が音量閾値を超えるか否かおよびマイク音声の持続時間が時間閾値を超えるか否かのいずれか一方だけに基づいて、利用者が発言状態であるか否かを判定してもよい。例えば、判定部234Aは、利用者の口の動きの変化量が変化閾値を超えたと判定した場合、利用者が発言状態であると判定する。あるいは、判定部234Aは、マイク音声の音量が音量閾値を超えるか否かを判定する。続いて、判定部234Aは、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する。続いて、判定部234Aは、マイク音声の持続時間が時間閾値を超えたと判定した場合、利用者が発言状態であると判定する。
また、判定部234Aは、マイク音声の音量が音量閾値を超えるか否か、またはマイク音声の持続時間が時間閾値を超えるか否かのいずれか一方だけに基づいて、利用者が発言状態であるか否かを判定してもよい。例えば、判定部234Aは、マイク音声の音量が音量閾値を超えたと判定した場合、利用者が発言状態であると判定する。あるいは、判定部234Aは、マイク音声の持続時間が時間閾値を超えたと判定した場合、利用者が発言状態であると判定する。
〔4.効果〕
上述してきたように、実施形態に係る情報処理装置(第1の実施形態では情報処理装置100、第2の実施形態ではサーバ装置200Aに相当)は、判定部と音声出力制御部を備える。判定部は、グループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。音声出力制御部は、判定部による判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御する。例えば、音声出力制御部は、判定部による判定結果に基づいて、利用者の音声データを他の利用者に対して出力しないようにするミュート機能を制御する。
これにより、情報処理装置は、利用者の発言状態に応じて、自動的にグループ通話サービスの他の利用者に対する利用者の音声データの出力を制御することができるため、発言の度にミュート機能を解除する必要がなくなる。また、情報処理装置は、ミュート機能を解除するのを忘れたまま発言が行われることを防ぐことができる。したがって、情報処理装置は、グループ通話サービスにおけるユーザビリティを向上させることができる。
また、音声出力制御部は、判定部によって利用者が発言状態でないと判定された場合、利用者の音声データを他の利用者に対して出力しないよう制御する。例えば、音声出力制御部は、判定部によって利用者が発言状態でないと判定された場合、ミュート機能を有効にする。
これにより、情報処理装置は、利用者が発言していないときにその都度ミュートにする手間を省くことができる。また、情報処理装置100は、利用者が発言していないときにミュートにすることを忘れることを防ぐことができる。したがって、情報処理装置100は、グループ通話サービスにおけるユーザビリティを向上させることができる。
また、音声出力制御部は、判定部によって利用者が発言状態であると判定された場合、利用者の音声データを他の利用者に対して出力するよう制御する。例えば、音声出力制御部は、判定部によって利用者が発言状態であると判定された場合、ミュート機能を無効にする。
これにより、情報処理装置は、利用者が発言するときにその都度ミュートを解除する手間を省くことができる。また、情報処理装置100は、利用者が発言するときにミュートを解除し忘れることを防ぐことができる。したがって、情報処理装置100は、グループ通話サービスにおけるユーザビリティを向上させることができる。
また、判定部は、音声入力部120に入力された利用者の音声データである利用者情報に基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部は、音声データの音量が音量閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。また、例えば、判定部は、音声データの持続時間が時間閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。
これにより、情報処理装置は、利用者の音声データの音量や持続時間に基づいて、利用者が発言状態であるか否かを自動的に判定することができる。
また、判定部は、撮像部によって撮影された利用者の画像データである利用者情報から認識される利用者の口の動きの変化に基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部は、口の動きの変化量が変化閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。
これにより、情報処理装置は、利用者の口の動きの変化に基づいて、利用者が発言状態であるか否かを自動的に判定することができる。
また、情報処理装置は、バッファリング部をさらに備える。バッファリング部は、音声入力部120に入力された利用者の音声データをバッファリングする。音声出力制御部は、判定部によって利用者が発言状態であると判定された場合、バッファリング部によってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。
これにより、情報処理装置は、発言の判定までの間の音声データが欠けるのを防ぐことができる。すなわち、情報処理装置は、発言の冒頭の音声データが欠けるのを防ぐことができる。したがって、情報処理装置は、Web会議等のグループ通話を円滑に進めることができる。
また、音声出力制御部は、利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達するまでは、利用者の音声データを他の利用者に対して出力しないよう制御する。例えば、音声出力制御部は、利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達するまでは、利用者の音声データを他の利用者に対して出力しないようにするミュート機能を有効にする。
これにより、情報処理装置は、早送り再生されている音声データと利用者がリアルタイムに発言している音声データとが重複して聞こえないようにすることができる。
また、音声出力制御部は、利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者の音声データを他の利用者に対して出力するよう制御する。例えば、音声出力制御部は、利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者の音声データを他の利用者に対して出力しないようにするミュート機能を無効にする。
これにより、情報処理装置は、利用者の早送り音声データが利用者によるリアルタイムの発言に追いついた後は、通常の速度で利用者の音声データが聞こえるようにすることができる。
また、情報処理装置は、他の利用者に対する利用者の画像データの出力を制御する画像出力制御部をさらに備える。バッファリング部は、撮像部によって撮影された利用者の画像データをバッファリングする。画像出力制御部は、判定部によって利用者が発言状態であると判定された場合、バッファリング部によってバッファリングされた判定の画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する。
これにより、情報処理装置は、画像と音声をシンクロさせているので、受信側で音声と画像のずれがないようにすることができる。
また、判定部は、Web会議システム、多人数参加型オンラインゲーム、または電話会議システムであるグループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。
これにより、情報処理装置は、Web会議システムに限らず、多人数参加型オンラインゲームや電話会議システムといった種々のグループ通話サービスにおけるユーザビリティを向上させることができる。
〔5.ハードウェア構成〕
また、上述してきた第1の実施形態に係る情報処理装置100や第2の実施形態に係るサーバ装置200Aは、例えば図13に示すような構成のコンピュータ1000によって実現される。図13は、情報処理装置100またはサーバ装置200Aの機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が第1の実施形態に係る情報処理装置100または第2の実施形態に係るサーバ装置200Aとして機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部170または制御部230Aの機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
〔6.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、判定部は、判定手段や判定回路に読み替えることができる。
1 情報処理システム
100 情報処理装置
110 通信部
120 音声入力部
130 撮像部
140 記憶部
150 音声出力部
160 表示部
170 制御部
171 表示制御部
172 バッファリング部
173 判定部
174 音声出力制御部
175 画像出力制御部
176 送信部
177 受信部
200 サーバ装置
1A 情報処理システム
100A 情報処理装置
200A サーバ装置
210 通信部
220 記憶部
230A 制御部
231A 受信部
232A 表示制御部
233A バッファリング部
234A 判定部
235A 音声出力制御部
236A 画像出力制御部
237A 送信部

Claims (20)

  1. コンピュータが実行する情報処理方法であって、
    グループ通話サービスの利用者に関する利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する判定工程と、
    前記判定工程による判定結果に基づいて、前記グループ通話サービスの他の利用者に対する前記利用者の音声データの出力を制御する音声出力制御工程と、
    を含むことを特徴とする情報処理方法。
  2. 前記音声出力制御工程は、
    前記判定工程によって前記利用者が発言状態でないと判定された場合、前記利用者の音声データを前記他の利用者に対して出力しないよう制御する、
    ことを特徴とする請求項1に記載の情報処理方法。
  3. 前記音声出力制御工程は、
    前記判定工程によって前記利用者が発言状態であると判定された場合、前記利用者の音声データを前記他の利用者に対して出力するよう制御する、
    ことを特徴とする請求項1に記載の情報処理方法。
  4. 前記音声出力制御工程は、
    前記判定工程による判定結果に基づいて、前記利用者の音声データを前記他の利用者に対して出力しないようにするミュート機能を制御する、
    ことを特徴とする請求項1~3のいずれか1つに記載の情報処理方法。
  5. 前記音声出力制御工程は、
    前記判定工程によって前記利用者が発言状態でないと判定された場合、前記ミュート機能を有効にする、
    ことを特徴とする請求項4に記載の情報処理方法。
  6. 前記音声出力制御工程は、
    前記判定工程によって前記利用者が発言状態であると判定された場合、前記ミュート機能を無効にする、
    ことを特徴とする請求項4に記載の情報処理方法。
  7. 前記判定工程は、
    音声入力部に入力された前記利用者の音声データである前記利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する、
    ことを特徴とする請求項1~6のいずれか1つに記載の情報処理方法。
  8. 前記判定工程は、
    前記音声データの音量が音量閾値を超えるか否かに基づいて、前記利用者が発言状態であるか否かを判定する、
    ことを特徴とする請求項7に記載の情報処理方法。
  9. 前記判定工程は、
    前記音声データの持続時間が時間閾値を超えるか否かに基づいて、前記利用者が発言状態であるか否かを判定する、
    ことを特徴とする請求項7または8に記載の情報処理方法。
  10. 前記判定工程は、
    撮像部によって撮影された前記利用者の画像データである前記利用者情報から認識される前記利用者の口の動きの変化に基づいて、前記利用者が発言状態であるか否かを判定する、
    ことを特徴とする請求項1~9のいずれか1つに記載の情報処理方法。
  11. 前記判定工程は、
    前記口の動きの変化量が変化閾値を超えるか否かに基づいて、前記利用者が発言状態であるか否かを判定する、
    ことを特徴とする請求項10に記載の情報処理方法。
  12. 音声入力部に入力された前記利用者の音声データをバッファリングするバッファリング工程をさらに含み、
    前記音声出力制御工程は、
    前記判定工程によって前記利用者が発言状態であると判定された場合、前記バッファリング工程によってバッファリングされた音声データのうち、所定時間前からの前記利用者の音声データを早送りした前記利用者の早送り音声データを前記他の利用者に対して出力するよう制御する、
    ことを特徴とする請求項1~11のいずれか1つに記載の情報処理方法。
  13. 前記音声出力制御工程は、
    前記利用者の前記早送り音声データの時刻が前記利用者によるリアルタイムの発言時刻に到達するまでは、前記利用者の音声データを前記他の利用者に対して出力しないよう制御する、
    ことを特徴とする請求項12に記載の情報処理方法。
  14. 前記音声出力制御工程は、
    前記利用者の前記早送り音声データの時刻が前記利用者によるリアルタイムの発言時刻に到達するまでは、前記利用者の音声データを前記他の利用者に対して出力しないようにするミュート機能を有効にする、
    ことを特徴とする請求項13に記載の情報処理方法。
  15. 前記音声出力制御工程は、
    前記利用者の前記早送り音声データの時刻が前記利用者によるリアルタイムの発言時刻に到達した後は、前記利用者の音声データを前記他の利用者に対して出力するよう制御する、
    ことを特徴とする請求項12または13に記載の情報処理方法。
  16. 前記音声出力制御工程は、
    前記利用者の前記早送り音声データの時刻が前記利用者によるリアルタイムの発言時刻に到達した後は、前記利用者の音声データを前記他の利用者に対して出力しないようにするミュート機能を無効にする、
    ことを特徴とする請求項15に記載の情報処理方法。
  17. 前記他の利用者に対する前記利用者の画像データの出力を制御する画像出力制御工程をさらに含み、
    前記バッファリング工程は、
    撮像部によって撮影された前記利用者の画像データをバッファリングし、
    前記画像出力制御工程は、
    前記判定工程によって前記利用者が発言状態であると判定された場合、前記バッファリング工程によってバッファリングされた画像データのうち、所定時間前からの前記利用者の画像データを早送りした前記利用者の早送り画像データを前記他の利用者に対して出力するよう制御する、
    ことを特徴とする請求項12~16のいずれか1つに記載の情報処理方法。
  18. 前記判定工程は、
    Web会議システム、多人数参加型オンラインゲーム、または電話会議システムである前記グループ通話サービスの利用者に関する利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する、
    ことを特徴とする請求項1~15のいずれか1つに記載の情報処理方法。
  19. グループ通話サービスの利用者に関する利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する判定部と、
    前記判定部による判定結果に基づいて、前記グループ通話サービスの他の利用者に対する前記利用者の音声データの出力を制御する音声出力制御部と、
    を備えることを特徴とする情報処理装置。
  20. グループ通話サービスの利用者に関する利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する判定手順と、
    前記判定手順による判定結果に基づいて、前記グループ通話サービスの他の利用者に対する前記利用者の音声データの出力を制御する音声出力制御手順と、
    をコンピュータに実行させることを特徴とする情報処理プログラム。
JP2020120025A 2020-07-13 2020-07-13 情報処理方法、情報処理装置及び情報処理プログラム Pending JP2022016997A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020120025A JP2022016997A (ja) 2020-07-13 2020-07-13 情報処理方法、情報処理装置及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020120025A JP2022016997A (ja) 2020-07-13 2020-07-13 情報処理方法、情報処理装置及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2022016997A true JP2022016997A (ja) 2022-01-25

Family

ID=80185696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020120025A Pending JP2022016997A (ja) 2020-07-13 2020-07-13 情報処理方法、情報処理装置及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2022016997A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7404568B1 (ja) 2023-01-18 2023-12-25 Kddi株式会社 プログラム、情報処理装置、及び情報処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010088097A (ja) * 2008-09-29 2010-04-15 Avaya Inc マルチパーティ・テレカンファレンスにおける背景ノイズ源を識別し除去するための方法および機器
JP2011087074A (ja) * 2009-10-14 2011-04-28 Lenovo Singapore Pte Ltd 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム
JP2014053890A (ja) * 2012-09-10 2014-03-20 Polycom Inc 望ましくないノイズに対する自動的マイクロホンミューティング
JP2020092424A (ja) * 2018-12-08 2020-06-11 富士ゼロックス株式会社 同一場所及び遠隔の両方の周囲に適合する個人用カメラを実装するシステム、方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010088097A (ja) * 2008-09-29 2010-04-15 Avaya Inc マルチパーティ・テレカンファレンスにおける背景ノイズ源を識別し除去するための方法および機器
JP2011087074A (ja) * 2009-10-14 2011-04-28 Lenovo Singapore Pte Ltd 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム
JP2014053890A (ja) * 2012-09-10 2014-03-20 Polycom Inc 望ましくないノイズに対する自動的マイクロホンミューティング
JP2020092424A (ja) * 2018-12-08 2020-06-11 富士ゼロックス株式会社 同一場所及び遠隔の両方の周囲に適合する個人用カメラを実装するシステム、方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7404568B1 (ja) 2023-01-18 2023-12-25 Kddi株式会社 プログラム、情報処理装置、及び情報処理方法

Similar Documents

Publication Publication Date Title
US10499136B2 (en) Providing isolation from distractions
CN105513596B (zh) 一种语音控制方法和控制设备
US8520821B2 (en) Systems and methods for switching between computer and presenter audio transmission during conference call
US10085102B2 (en) Detection of device configuration
KR101685466B1 (ko) 다자간 영상 회의 서비스의 참여자 확장 방법
US7965826B2 (en) Apparatus and method for collaborating between a video device and a telephonic device
US8265240B2 (en) Selectively-expandable speakerphone system and method
US8704872B2 (en) Method and device for switching video pictures
CN104539871B (zh) 多媒体通话方法及装置
EP1657894A1 (en) Multi-spot call system, sound volume adjustment device, portable terminal device, and sound volume adjustment method used therefor and program thereof
US8891740B2 (en) Voice input state identification
CN114845144B (zh) 一种投屏方法、辅助投屏装置及存储介质
WO2012034329A1 (zh) 视频通话中视频录制的方法及装置
JP2022016997A (ja) 情報処理方法、情報処理装置及び情報処理プログラム
JP7095356B2 (ja) 通信端末及び会議システム
JP5340880B2 (ja) 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム
US20120300126A1 (en) Electronic apparatus and tv phone method
JP5391175B2 (ja) 遠隔会議方法、遠隔会議システム及び遠隔会議プログラム
JP5803132B2 (ja) 音声切替装置、プログラム及び方法
WO2022204861A1 (zh) 通话方法及终端、非瞬态计算机可读存储介质
US20200098363A1 (en) Electronic device
JP2024072688A (ja) 音声再生制御システム、音声再生制御方法および音声再生制御プログラム
KR20100010151A (ko) 음원 재생 기능을 갖는 휴대용 촬영 장치 및 그 제어 방법
JP2019041225A (ja) 音声処理装置、音声処理プログラム、及び音声処理方法
JP2018165904A (ja) 情報処理システム、情報処理装置、クライアント端末、その制御方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220913