JP2022016997A

JP2022016997A - 情報処理方法、情報処理装置及び情報処理プログラム

Info

Publication number: JP2022016997A
Application number: JP2020120025A
Authority: JP
Inventors: 賢一山下; Kenichi Yamashita
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2022-01-25

Abstract

【課題】グループ通話サービスにおけるユーザビリティを向上させる。【解決手段】本願に係る情報処理方法は、コンピュータが実行する情報処理方法であって、グループ通話サービスの利用者に関する利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する判定工程と、判定工程による判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御する音声出力制御工程と、を含むことを特徴とする。【選択図】図１

Description

本発明は、情報処理方法、情報処理装置及び情報処理プログラムに関する。

従来、複数人で通話することを可能にするグループ通話サービスに関する種々の技術が知られている。例えば、それぞれ別の拠点にいる者同士がネットワークを介して会議を行うＷｅｂ会議システムに関する技術が知られている。Ｗｅｂ会議システムでは、ＰＣ（Personal Computer）やタブレット型端末などの情報処理装置に、カメラ、マイク、スピーカーなどの機能を有するデバイスを接続し、それぞれのデバイスから入力された映像や音声を複数の拠点間で送受信する。

特開２０１８－９３３１５号公報

しかしながら、上記の従来技術では、グループ通話サービスにおけるユーザビリティを向上させることができるとは限らない。例えば、上記の従来技術では、情報処理装置に、カメラ、マイク、スピーカーなどの機能を有するデバイスを接続し、それぞれのデバイスから入力された映像や音声を複数の拠点間で送受信するにすぎない。このため、グループ通話サービスにおけるユーザビリティが高いとはいえない。

本願は、上記に鑑みてなされたものであって、グループ通話サービスにおけるユーザビリティを向上させることができる情報処理方法、情報処理装置及び情報処理プログラムを提案する。

本願に係る情報処理方法は、コンピュータが実行する情報処理方法であって、グループ通話サービスの利用者に関する利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する判定工程と、前記判定工程による判定結果に基づいて、前記グループ通話サービスの他の利用者に対する前記利用者の音声データの出力を制御する音声出力制御工程と、を含むことを特徴とすることを特徴とする。

実施形態の一態様によれば、グループ通話サービスにおけるユーザビリティを向上させることができるといった効果を奏する。

図１は、第１の実施形態に係る情報処理の概要を説明するための図である。図２は、同実施形態に係る情報処理システムの構成例を示す図である。図３は、同実施形態に係る情報処理装置の構成例を示す図である。図４は、同実施形態に係る画面の一例について説明するための図である。図５は、同実施形態に係る情報処理手順の概要を示す図である。図６は、同実施形態に係る情報処理手順を示す図である。図７は、同実施形態の変形例に係る情報処理手順を示す図である。図８は、同実施形態の変形例に係る情報処理手順を示す図である。図９は、第２の実施形態に係る情報処理システムの構成例を示す図である。図１０は、第２の実施形態に係る情報処理装置の構成例を示す図である。図１１は、第２の実施形態に係るサーバ装置の構成例を示す図である。図１２は、第２の実施形態に係る情報処理手順を示す図である。図１３は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理方法、情報処理装置及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理方法、情報処理装置及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．はじめに〕
近年、Ｗｅｂ会議システム等のグループ通話サービスが普及している。Ｗｅｂ会議は、主に職場の会議室同士を接続するために用いられることが多く、会議中にマイクを常時オンにしたままで利用されることが一般的である。ところが近年、多様な働き方を選択できる社会を実現する「働き方改革」の推進等により、在宅勤務をする社員の自宅同士を接続するＷｅｂ会議が増加している。このような自宅におけるＷｅｂ会議では、会議中に子どもの声やキーボードを叩く音がマイクに入力されるのを防ぐため、発言者以外の利用者はミュート機能をオンにするのが一般的になっている。ここで、ミュート機能とは、利用者の音声データを他の利用者に対して出力しないようにする機能を指す。

ここで、Ｗｅｂ会議において発言者以外の利用者がミュート機能をオンにする場合、様々な問題が生じる可能性がある。例えば、発言の度にミュート機能を解除する必要があるため、操作が煩雑となる。また、ミュート機能を解除する操作により、発言のタイミングが遅れるため、会議が円滑に進められないおそれがある。また、ミュート機能を解除するのを忘れたまま発言を行った場合、話がかみ合わず、会議そのものが成立しないおそれがある。

そこで、本願に係る情報処理方法は、グループ通話サービス（例えば、Ｗｅｂ会議システム）の利用者に関する発話情報に基づいて、利用者が発言状態であるか否かを判定するようコンピュータに実行させる。また、情報処理方法は、判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御するようコンピュータに実行させる。このように、情報処理方法は、利用者の発言状態に応じて、自動的にグループ通話サービスの他の利用者に対する利用者の音声データの出力を制御するようコンピュータに実行させる。これにより、情報処理方法は、利用者が発言の度にミュート機能を解除する手間を省くことができる。また、情報処理方法は、利用者がミュート機能を解除するのを忘れたまま発言するのを防ぐことができる。したがって、情報処理方法は、グループ通話サービスにおけるユーザビリティを向上させることができる。

（第１の実施形態）
〔２‐１．情報処理の概要〕
まず、図１を用いて、第１の実施形態に係る情報処理の概要について説明する。図１は、第１の実施形態に係る情報処理の概要を説明するための図である。図１に示す情報処理は、情報処理システム１によって実現される。情報処理システム１は、Ｗｅｂ会議サービスの利用者によって利用される情報処理装置１００と、Ｗｅｂ会議サービスを提供するサーバ装置２００とを備える。

以下では、利用者ＩＤ「Ｕ１」により特定される利用者を「利用者Ｕ１」とする場合がある。このように、以下では、「利用者Ｕ＊（＊は任意の数値）」と記載した場合、その利用者は利用者ＩＤ「Ｕ＊」により特定される利用者であることを示す。例えば、「利用者Ｕ２」と記載した場合、その利用者は利用者ＩＤ「Ｕ２」により特定される利用者である。

また、以下では、情報処理装置１００を利用する利用者に応じて、情報処理装置１００を情報処理装置１００_１、１００_２として説明する。例えば、情報処理装置１００_１は、利用者Ｕ１により使用される情報処理装置１００である。また、例えば、情報処理装置１００_２は、利用者Ｕ２により使用される情報処理装置１００である。また、以下では、情報処理装置１００_１、１００_２について、特に区別なく説明する場合には、情報処理装置１００と記載する。

図１に示す例では、４人の利用者Ｕ１～利用者Ｕ４が、Ｗｅｂ会議サービスを利用してＷｅｂ会議をしている。また、図１では、利用者Ｕ１が発言し始め、他の３人の利用者Ｕ２～利用者Ｕ４は黙って利用者Ｕ１の発言を聞いている状況である。なお、利用者Ｕ１が発言を開始する前は、利用者Ｕ１の情報処理装置１００_１はミュート状態（ミュート機能が有効な状態）であったとする。

ここで、ミュート機能とは、利用者の音声データを他の利用者に対して出力しないようにする機能を指す。例えば、ミュート機能は、マイクに入力された利用者の音声データを出力しないことによって実現される。また、ミュート機能は、マイクに入力された利用者の音声データの音量をゼロにすることによって実現されてもよい。また、ミュート機能は、そもそもマイクに入力される音声データを拾わない（マイクをオフにする）ことによって実現されてもよい。

ここで、利用者Ｕ１が発言を開始したとする。この場合、情報処理装置１００_１は、マイクに入力される利用者Ｕ１の音声に基づいて、利用者Ｕ１が発言している状態（以下、発言状態ともいう）であると判定する（ステップＳ１１）。続いて、情報処理装置１００_１は、利用者Ｕ１が発言状態であると判定すると、利用者Ｕ１の音声データが出力されるよう制御する。具体的には、情報処理装置１００_１は、利用者Ｕ１が発言状態であると判定すると、情報処理装置１００_１のミュート機能を自動的に無効にする（以下、ミュート機能を解除するともいう）（ステップＳ１２）。また、情報処理装置１００_１は、ミュートが解除された状態であることを示す画像を画面に表示する。そして、情報処理装置１００_１は、利用者Ｕ１の音声データをサーバ装置２００に送信する（ステップＳ１３）。

また、利用者Ｕ２が発話していないものとする。この場合、情報処理装置１００_２は、マイクに入力される利用者Ｕ２の音声（この場合は無音声）に基づいて、利用者Ｕ２が発言状態でない（以下、無言状態であるともいう）と判定する（ステップＳ２１）。続いて、情報処理装置１００_２は、利用者Ｕ２が無言状態であると判定すると、利用者Ｕ２の音声データを他の利用者に対して出力しないよう制御する。具体的には、情報処理装置１００_２は、利用者Ｕ２が無言状態であると判定すると、情報処理装置１００_２のミュート機能を自動的に有効にする（以下、ミュートにするともいう）（ステップＳ２２）。また、情報処理装置１００_２は、情報処理装置１００_２により自動的にミュートにされた状態であることを示す画像を画面に表示する。また、情報処理装置１００_２は、利用者Ｕ１の音声データをサーバ装置２００から受信する（ステップＳ２３）。続いて、情報処理装置１００_２は、受信した利用者Ｕ１の音声データをスピーカーから出力する。

また、利用者Ｕ３が発話していないものとする。この場合、情報処理装置１００_３は、上記情報処理装置１００_２と同様の処理を行う。具体的には、情報処理装置１００_３は、利用者Ｕ３が無言状態であると判定すると、情報処理装置１００_３のミュート機能を自動的に有効にする（ステップＳ３１～Ｓ３２）。また、情報処理装置１００_３は、利用者Ｕ１の音声データをサーバ装置２００から受信してスピーカーから出力する（ステップＳ３３）。

また、利用者Ｕ４が発話していないものとする。この場合、情報処理装置１００_４は、上記情報処理装置１００_２と同様の処理を行う。具体的には、情報処理装置１００_４は、利用者Ｕ４が無言状態であると判定すると、情報処理装置１００_４のミュート機能を自動的に有効にする（ステップＳ４１～Ｓ４２）。また、情報処理装置１００_４は、利用者Ｕ１の音声データをサーバ装置２００から受信してスピーカーから出力する（ステップＳ４３）。

〔２‐２．情報処理システムの構成例〕
次に、図２を用いて、第１の実施形態に係る情報処理システムの構成について説明する。図２は、第１の実施形態に係る情報処理システムの構成例を示す図である。図２に示すように、情報処理システム１は、情報処理装置１００とサーバ装置２００とを備える。情報処理装置１００とサーバ装置２００とは所定のネットワークＮを介して、有線または無線により通信可能に接続される。なお、図２に示す情報処理システム１には、任意の数の情報処理装置１００と任意の数のサーバ装置２００とが含まれてもよい。

情報処理装置１００は、グループ通話サービスの利用者によって利用される情報処理装置である。情報処理装置１００は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等により実現される。

また、情報処理装置１００には、グループ通話サービスを利用するためのアプリケーションがインストールされている。図１に示す例では、情報処理装置１００には、Ｗｅｂ会議システムを利用するためのアプリケーション（以下、Ｗｅｂ会議アプリともいう）がインストールされている。

また、情報処理装置１００は、図１に示す情報処理を実行する。具体的には、情報処理装置１００は、グループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。また、情報処理装置１００は、判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御する。

サーバ装置２００は、グループ通話サービスを提供するサーバ装置である。例えば、サーバ装置２００は、Ｗｅｂ会議システム、多人数参加型オンラインゲーム、または電話会議システムであるグループ通話サービスを提供する。図１に示す例では、サーバ装置２００は、Ｗｅｂ会議サービスを提供する。具体的には、サーバ装置２００は、利用者の音声データを情報処理装置１００から受信する。続いて、サーバ装置２００は、受信した音声データを利用者以外の他の利用者の情報処理装置１００に送信する。また、サーバ装置２００は、利用者の画像データを情報処理装置１００から受信する。続いて、サーバ装置２００は、受信した画像データを利用者以外の他の利用者の情報処理装置１００に送信する。

〔２‐３．情報処理装置の構成例〕
次に、図３を用いて、第１の実施形態に係る情報処理装置の構成について説明する。図３は、第１の実施形態に係る情報処理装置の構成例を示す図である。図３に示すように、情報処理装置１００は、通信部１１０と、音声入力部１２０と、撮像部１３０と、記憶部１４０と、音声出力部１５０と、表示部１６０と、制御部１７０とを有する。なお、情報処理装置１００は、情報処理装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）を有してもよい。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークと有線または無線で接続され、例えば、サーバ装置２００との間で情報の送受信を行う。

（音声入力部１２０）
音声入力部１２０は、マイク等の集音デバイスによって実現される。音声入力部１２０は、利用者の音声などを集音し、集音した音声データを制御部１７０に出力する。また、以下の説明では、音声入力部１２０をマイクと記載する場合がある。

（撮像部１３０）
撮像部１３０は、カメラ等の撮像デバイスによって実現される。撮像部１３０は、利用者などの画像を撮影し、撮影した画像データを制御部１７０に出力する。また、以下の説明では、撮像部１３０をカメラと記載する場合がある。

（記憶部１４０）
記憶部１４０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４０は、各種プログラム（情報処理プログラムの一例に相当）を記憶する。例えば、記憶部１４０は、Ｗｅｂ会議アプリのプログラムを記憶する。また、記憶部１４０は、各種データを記憶する。例えば、記憶部１４０は、音声入力部１２０に入力された利用者の音声データを記憶する。また、記憶部１４０は、撮像部１３０によって撮影された利用者の画像データを記憶する。また、以下の説明では、記憶部１４０をメモリと記載する場合がある。

（音声出力部１５０）
音声出力部１５０は、スピーカー等の音声出力デバイスによって実現される。音声出力部１５０は、サーバ装置２００から受信した他の利用者の音声データを出力する。具体的には、音声出力部１５０は、受信部１７７から他の利用者の音声データを受信する。続いて、音声出力部１５０は、受信した他の利用者の音声データを出力する。また、以下の説明では、音声出力部１５０をスピーカーと記載する場合がある。

（表示部１６０）
表示部１６０は、ディスプレイ等の画像出力デバイスによって実現される。表示部１６０は、表示制御部１７１の制御に従って、各種情報を表示する。なお、情報処理装置１００にタッチパネルが採用される場合には、入力部と表示部１６０とは一体化される。

また、表示部１６０は、サーバ装置２００から受信した他の利用者の画像データを表示する。具体的には、表示部１６０は、受信部１７７から他の利用者の画像データを受信する。続いて、表示部１６０は、受信した他の利用者の画像データを表示する。また、以下の説明では、表示部１６０を画面と記載する場合がある。

（制御部１７０）
図３の説明に戻って、制御部１７０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１７０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

制御部１７０は、入力部を介して利用者の操作を受け付けると、Ｗｅｂ会議アプリを起動する。また、制御部１７０は、Ｗｅｂ会議アプリを起動すると、カメラおよびマイクを起動する。

図３に示すように、制御部１７０は、表示制御部１７１と、バッファリング部１７２と、判定部１７３と、音声出力制御部１７４と、画像出力制御部１７５と、送信部１７６と、受信部１７７とを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部１７０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

（表示制御部１７１）
表示制御部１７１は、Ｗｅｂ会議アプリに対する操作を行うための各種画像（例えば、ツールバーやアイコン等）を画面に表示するよう制御する。図４を用いて説明する。図４に示す例では、表示制御部１７１は、他の情報処理装置１００から送信される他の利用者の画像データを領域Ｒ１に表示する。また、表示制御部１７１は、情報処理装置１００の撮像部１３０によって撮像された利用者の画像データを領域Ｒ２に表示する。例えば、図４の例では、表示制御部１７１は、領域Ｒ１に他の利用者の顔を含む画像データを表示し、領域Ｒ２の利用者の顔を含む画像データを表示する。このように、利用者は、Ｗｅｂ会議アプリを利用して遠隔にいる他の利用者とＷｅｂ会議を行うことができる。

ここで、図４を用いて、第１の実施形態に係る画面の一例について説明する。図４の左側の図において、表示制御部１７１は、ミュート状態であることを示すアイコン画像Ｇ１を画面に表示するよう制御する。制御部１７０は、利用者からアイコン画像Ｇ１を長押しする操作を受け付けた場合、通常ミュートモードを解除して自動ミュートモードに設定を切り替える。制御部１７０が自動ミュートモードに設定を切り替えると、図４の右側の図に示すように、表示制御部１７１は、自動ミュートモードに設定されたことを示すアイコン画像Ｇ２を画面に表示するよう制御する。ここで、通常ミュートモードとは、利用者が手動的にミュート機能の有効／無効を切り替えるモードを指す。また、自動ミュートモードとは、情報処理装置１００が利用者の発話状態に基づいて自動的にミュート機能の有効／無効を切り替えるモードを指す。

なお、利用者が手動によりミュート機能を無効にした場合に表示されるアイコン画像Ｇ３（図示略）が画面に表示されている場合は、制御部１７０は、利用者から画像Ｇ３を長押しする操作を受け付けた場合、自動ミュートモードを解除して通常ミュートモードに設定を切り替える。

これにより、情報処理装置１００は、従来の画面レイアウトを損なうことなく、自動ミュート状態であることを利用者に対して視認させることができる。また、情報処理装置１００は、従来の画面レイアウトを損なうことなく、利用者が自動ミュート状態の設定操作および自動ミュート状態の解除操作を行うことができるようにする。

（バッファリング部１７２）
バッファリング部１７２は、音声入力部１２０に入力された利用者の音声データをバッファリングする。具体的には、バッファリング部１７２は、音声入力部１２０から出力された利用者の音声データを受信する。続いて、バッファリング部１７２は、利用者を識別する識別情報（例えば、利用者ＩＤ）と受信した音声データとを対応付けて記憶部１４０に格納する。

また、バッファリング部１７２は、撮像部１３０によって撮影された利用者の画像データをバッファリングする。具体的には、バッファリング部１７２は、撮像部１３０から出力された利用者の画像データを受信する。続いて、バッファリング部１７２は、利用者を識別する識別情報（例えば、利用者ＩＤ）と受信した画像データとを対応付けて記憶部１４０に格納する。

（判定部１７３）
判定部１７３は、Ｗｅｂ会議システム等のグループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。具体的には、判定部１７３は、利用者情報の一例として、音声入力部１２０に入力された利用者の音声データに基づいて、利用者が発言状態であるか否かを判定する。より具体的には、判定部１７３は、バッファリング部１７２によって音声データのバッファリングが開始されると、記憶部１４０を参照して、利用者の音声データを取得する。続いて、判定部１７３は、音声データの音量が音量閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部１７３は、音声データの音量が音量閾値を超える場合、利用者が発言状態であると判定する。一方、判定部１７３は、音声データの音量が音量閾値以下である場合、利用者が発言状態ではない（無言状態である）と判定する。

また、判定部１７３は、音声データの持続時間が時間閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定してもよい。例えば、判定部１７３は、音声データの持続時間が時間閾値を超える場合、利用者が発言状態であると判定する。一方、判定部１７３は、音声データの持続時間が時間閾値以下である場合、利用者が発言状態ではない（無言状態である）と判定する。

また、判定部１７３は、音声データの音量が音量閾値を超え、かつ、音声データの持続時間が時間閾値を超える場合に、利用者が発言状態であると判定してもよい。一方、判定部１７３は、音声データの音量が音量閾値以下であるか、または、音声データの持続時間が時間閾値以下である場合には、利用者が発言状態でないと判定してもよい。

（音声出力制御部１７４）
音声出力制御部１７４は、判定部１７３による判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御する。具体的には、音声出力制御部１７４は、判定部１７３による判定結果に基づいて、利用者の音声データを他の利用者に対して出力しないようにするミュート機能を制御する。

より具体的には、音声出力制御部１７４は、判定部１７３によって利用者が発言状態でないと判定された場合、利用者の音声データを他の利用者に対して出力しないように、ミュート機能を有効にする。

また、音声出力制御部１７４は、判定部１７３によって利用者が発言状態であると判定された場合、利用者の音声データを他の利用者に対して出力するように、ミュート機能を無効にする。また、音声出力制御部１７４は、判定部１７３によって利用者が発言状態であると判定された場合、利用者の音声データを送信部１７６に出力する。

また、利用者が発話することで、判定部１７３によって利用者が発言状態であると判定された場合、利用者が発話してから、音声出力制御部１７４によってミュート機能を有効から無効にされるまでの間に利用者によって発話された音声データは他の情報処理装置１００へ送信されていない。このため、音声出力制御部１７４は、判定部１７３によって利用者が発言状態であると判定された場合、バッファリング部１７２によってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。具体的には、音声出力制御部１７４は、判定部１７３によって利用者が発言状態であると判定された時から所定時間前からの利用者の音声データを早送りした早送り音声データを生成する。続いて、音声出力制御部１７４は、生成した利用者の早送り音声データを送信部１７６に出力する。

例えば、音声出力制御部１７４は、バッファリング部１７２によって音声データのバッファリングが開始されてから判定部１７３によって利用者が発言状態であると判定されるまでの時間前からの利用者の音声データを早送りした利用者の早送り音声データを送信部１７６に出力する。あるいは、音声出力制御部１７４は、固定の所定時間（例えば、０．５秒など）前からの利用者の音声データを早送りした利用者の早送り音声データを送信部１７６に出力してもよい。これにより、情報処理装置１００は、ミュート機能が有効から無効になるまでに利用者によって発話された音声を他の情報処理装置１００へ送信することができる。

また、音声出力制御部１７４は、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達するまでは、利用者の音声データを他の利用者に対して出力しないように、ミュート機能を有効にする。

また、音声出力制御部１７４は、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者の音声データを他の利用者に対して出力するように、ミュート機能を無効にする。また、音声出力制御部１７４は、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者の音声データを送信部１７６に出力する。

（画像出力制御部１７５）
画像出力制御部１７５は、グループ通話サービスの他の利用者に対する利用者の画像データの出力を制御する。具体的には、画像出力制御部１７５は、バッファリング部１７２によって利用者の画像データのバッファリングが開始されると、記憶部１４０を参照して、利用者の画像データを取得する。続いて、画像出力制御部１７５は、利用者の画像データを取得すると、取得した画像データを送信部１７６に出力する。

画像出力制御部１７５は、判定部１７３によって利用者が発言状態であると判定された場合、バッファリング部１７２によってバッファリングされた画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する。具体的には、画像出力制御部１７５は、判定部１７３によって利用者が発言状態であると判定された時から所定時間前からの利用者の画像データを早送りした早送り画像データを生成する。続いて、画像出力制御部１７５は、生成した利用者の早送り画像データを送信部１７６に出力する。

例えば、画像出力制御部１７５は、バッファリング部１７２によって画像データのバッファリングが開始されてから判定部１７３によって利用者が発言状態であると判定されるまでの時間前からの利用者の画像データを早送りした利用者の早送り画像データを送信部１７６に出力する。あるいは、例えば、画像出力制御部１７５は、固定の所定時間（例えば、０．５秒など）前からの利用者の画像データを早送りした利用者の早送り画像データを送信部１７６に出力してもよい。これにより、情報処理装置１００は、早送りされた音声と早送りされた画像をシンクロさせることができるので、受信側で音声と画像のずれがないようにすることができる。

（送信部１７６）
送信部１７６は、音声出力制御部１７４の制御に従って、利用者の音声データをサーバ装置２００に送信する。具体的には、送信部１７６は、音声出力制御部１７４から利用者の音声データを受信すると、受信した利用者の音声データをサーバ装置２００に送信する。

また、送信部１７６は、画像出力制御部１７５の制御に従って、利用者の画像データをサーバ装置２００に送信する。具体的には、送信部１７６は、画像出力制御部１７５から利用者の画像データを受信すると、受信した利用者の画像データをサーバ装置２００に送信する。

また、送信部１７６は、音声出力制御部１７４から利用者の早送り音声データを受信すると、受信した利用者の早送り音声データをサーバ装置２００に送信する。また、送信部１７６は、画像出力制御部１７５から利用者の早送り画像データを受信すると、受信した利用者の早送り画像データをサーバ装置２００に送信する。具体的には、送信部１７６は、早送り音声データと早送り画像データとを同じタイミングでサーバ装置２００に送信する。

（受信部１７７）
受信部１７７は、サーバ装置２００から他の利用者の音声データを受信する。続いて、受信部１７７は、他の利用者の音声データを受信すると、受信した他の利用者の音声データを音声出力部１５０に出力する。

また、受信部１７７は、サーバ装置２００から他の利用者の画像データを受信する。続いて、受信部１７７は、他の利用者の画像データを受信すると、受信した他の利用者の画像データを表示部１６０に出力する。

また、受信部１７７は、サーバ装置２００から他の利用者の早送り音声データを受信する。続いて、受信部１７７は、受信した他の利用者の早送り音声データを音声出力部１５０に出力する。また、音声出力部１５０は、受信部１７７から他の利用者の早送り音声データを受信する。続いて、音声出力部１５０は、受信した他の利用者の早送り音声データを出力する。また、受信部１７７は、受信部１７７は、サーバ装置２００から他の利用者の早送り画像データを受信する。続いて、受信部１７７は、受信した他の利用者の早送り画像データを表示部１６０に出力する。また、表示部１６０は、受信部１７７から他の利用者の早送り画像データを受信する。続いて、表示部１６０は、受信した他の利用者の早送り画像データを表示する。

〔２‐４．情報処理手順〕
次に、図５を用いて、第１の実施形態に係る情報処理手順の概要について説明する。図５は、第１の実施形態に係る情報処理手順の概要を示す図である。図５では、図１で説明した情報処理の概要の手順について説明する。

図５に示すように、制御部１７０は、Ｗｅｂ会議アプリを起動する（ステップＳ１０１）。また、バッファリング部１７２は、制御部１７０によってＷｅｂ会議アプリが起動されると、カメラやマイクによって利用者に関する利用者情報を取得する（ステップＳ１０２）。また、判定部１７３は、バッファリング部１７２によって取得された利用者情報に基づいて、利用者が発言状態であるか否かを判定する（ステップＳ１０３）。

また、音声出力制御部１７４は、判定部１７３によって利用者が発言状態であると判定された場合（ステップＳ１０３；Ｙｅｓ）、利用者の音声データを他の利用者に対して出力するよう制御する（ステップＳ１０４）。例えば、音声出力制御部１７４は、判定部１７３によって利用者が発言状態であると判定された場合、利用者の音声データを他の利用者に対して出力するように、ミュート機能を自動的に解除する。続いて、音声出力制御部１７４は、利用者の音声データを他の利用者に対して出力するよう制御すると、再びステップＳ１０２に戻る。

一方、音声出力制御部１７４は、判定部１７３によって利用者が発言状態でないと判定された場合（ステップＳ１０３；Ｎｏ）、利用者の音声データを他の利用者に対して出力しないよう制御する（ステップＳ１０５）。例えば、音声出力制御部１７４は、判定部１７３によって利用者が発言状態でないと判定された場合、利用者の音声データを他の利用者に対して出力しないように、自動的にミュート機能を有効にする。続いて、音声出力制御部１７４が利用者の音声データを他の利用者に対して出力しないよう制御すると、再びステップＳ１０２に戻る。

次に、図６を用いて、第１の実施形態に係る情報処理手順について説明する。図６は、第１の実施形態に係る情報処理手順を示す図である。図６に示す例では、情報処理装置１００が音声入力部１２０に入力された利用者の音声データである利用者情報に基づいて、利用者が発言状態であるか否かを判定する。

図６に示すように、制御部１７０は、Ｗｅｂ会議アプリを起動する（ステップＳ２０１）。続いて、制御部１７０は、Ｗｅｂ会議アプリを起動すると、カメラとマイクを起動する（ステップＳ２０２）。また、バッファリング部１７２は、制御部１７０によってカメラが起動されると、カメラによって撮影された利用者の画像データ（以下、カメラ画像ともいう）のバッファリングを開始する。また、バッファリング部１７２は、制御部１７０によってマイクが起動されると、マイクに入力された利用者の音声データ（以下、マイク音声ともいう）のバッファリングを開始する（ステップＳ２０３）。続いて、バッファリング部１７２は、メモリにカメラ画像とマイク音声を蓄積する（ステップＳ２０４）。また、判定部１７３は、マイク音声の音量が音量閾値を超えるか否かを判定する。また、判定部１７３は、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する（ステップＳ２０５）。

判定部１７３は、マイク音声の持続時間が時間閾値を超えたと判定した場合（ステップＳ２０５；Ｙｅｓ）、利用者が発言状態であると判定する（ステップＳ２０６）。次に、音声出力制御部１７４は、判定部１７３によって利用者が発言状態であると判定された場合、バッファリング部１７２によってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。また、画像出力制御部１７５は、判定部１７３によって利用者が発言状態であると判定された場合、バッファリング部１７２によってバッファリングされた画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する（ステップＳ２０７）。また、音声出力制御部１７４は、早送りして再生された利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、ミュート機能を解除する（ステップＳ２０８）。音声出力制御部１７４がミュート機能を解除すると、再びステップＳ２０５に戻る。

一方、判定部１７３は、マイク音声の音量が音量閾値を超えていないと判定した場合、またはマイク音声の持続時間が時間閾値を超えていないと判定した場合（ステップＳ２０５；Ｎｏ）、利用者が無言状態であると判定する（ステップＳ２０９）。また、音声出力制御部１７４は、判定部１７３によって利用者が無言状態であると判定された場合、ミュート機能を有効にする（ステップＳ２１０）。音声出力制御部１７４がミュート機能を有効にすると、再びステップＳ２０５に戻る。

なお、図６では、判定部１７３が、マイク音声の音量が音量閾値を超えるか否かを判定した後に、マイク音声の持続時間が時間閾値を超えるか否かをする例について説明したが、これに限られない。具体的には、判定部１７３は、マイク音声の持続時間が時間閾値を超えるか否かを判定する。続いて、判定部１７３は、マイク音声の持続時間が時間閾値を超えたと判定した場合、マイク音声の音量が音量閾値を超えるか否かを判定する。続いて、判定部１７３は、マイク音声の音量が音量閾値を超えたと判定した場合、利用者が発言状態であると判定する。

また、判定部１７３は、マイク音声の音量が音量閾値を超えるか否か、またはマイク音声の持続時間が時間閾値を超えるか否かのいずれか一方だけに基づいて、利用者が発言状態であるか否かを判定してもよい。例えば、判定部１７３は、マイク音声の音量が音量閾値を超えたと判定した場合、利用者が発言状態であると判定する。あるいは、判定部１７３は、マイク音声の持続時間が時間閾値を超えたと判定した場合、利用者が発言状態であると判定する。

〔２‐５．変形例〕
上述した第１の実施形態に係る情報処理システム１は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理システム１の他の実施形態について説明する。なお、実施形態と同一部分には、同一符号を付して説明を省略する。

〔２‐５‐１．口の動きの変化に基づく発言判定〕
判定部１７３は、利用者情報の一例として、撮像部１３０によって撮影された利用者の画像データから認識される利用者の口の動きの変化に基づいて、利用者が発言状態であるか否かを判定してもよい。より具体的には、判定部１７３は、バッファリング部１７２によって画像データのバッファリングが開始されると、記憶部１４０を参照して、利用者の画像データを取得する。続いて、判定部１７３は、口の動きの変化量が変化閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部１７３は、一般的な画像認識処理によって、利用者の画像データから利用者の口の形を認識する。続いて、判定部１７３は、認識した利用者の口の形の変化量に基づいて、利用者の口の動きの変化量を認識する。続いて、判定部１７３は、口の動きの変化量が変化閾値を超えると判定した場合、利用者が発言状態であると判定する。一方、判定部１７３は、口の動きの変化量が変化閾値以下であると判定した場合、利用者が発言状態ではない（無言状態である）と判定する。この点について、図７を用いて詳しく説明する。

次に、図７を用いて、第１の実施形態の変形例に係る情報処理手順について説明する。図７は、第１の実施形態の変形例に係る情報処理手順を示す図である。図７に示すように、制御部１７０は、Ｗｅｂ会議アプリを起動する（ステップＳ３０１）。続いて、制御部１７０は、Ｗｅｂ会議アプリを起動すると、カメラとマイクを起動する（ステップＳ３０２）。また、バッファリング部１７２は、制御部１７０によってカメラが起動されると、カメラ画像のバッファリングを開始する。また、バッファリング部１７２は、制御部１７０によってマイクが起動されると、マイク音声のバッファリングを開始する（ステップＳ３０３）。続いて、バッファリング部１７２は、メモリにカメラ画像とマイク音声を蓄積する（ステップＳ３０４）。また、判定部１７３は、カメラ画像から認識される利用者の口の動きの変化量が変化閾値を超えるか否かを判定する（ステップＳ３０５）。

判定部１７３は、利用者の口の動きの変化量が変化閾値を超えたと判定した場合（ステップＳ３０５；Ｙｅｓ）、利用者が発言状態であると判定する（ステップＳ３０６）。次に、音声出力制御部１７４は、判定部１７３によって利用者が発言状態であると判定された場合、バッファリング部１７２によってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。また、画像出力制御部１７５は、判定部１７３によって利用者が発言状態であると判定された場合、バッファリング部１７２によってバッファリングされた画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する（ステップＳ３０７）。また、音声出力制御部１７４は、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、ミュート機能を解除する（ステップＳ３０８）。音声出力制御部１７４がミュート機能を解除すると、再びステップＳ３０５に戻る。

一方、判定部１７３は、利用者の口の動きの変化量が変化閾値を超えていないと判定した場合（ステップＳ３０５；Ｎｏ）、利用者が無言状態であると判定する（ステップＳ３０９）。また、音声出力制御部１７４は、判定部１７３によって利用者が無言状態であると判定された場合、ミュート機能を有効にする（ステップＳ３１０）。音声出力制御部１７４がミュート機能を有効にすると、再びステップＳ３０５に戻る。

〔２‐５‐２．音声と口の動きの変化を組み合わせた発言判定〕
判定部１７３は、利用者の音声データおよび利用者の口の動きの変化の両方に基づいて、利用者が発言状態であるか否かを判定してもよい。より具体的には、判定部１７３は、カメラ画像から認識される利用者の口の動きの変化量が変化閾値を超えるか否かを判定する。続いて、判定部１７３は、利用者の口の動きの変化量が変化閾値を超えると判定した場合、マイク音声の音量が音量閾値を超えるか否かを判定する。また、判定部１７３は、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する。続いて、判定部１７３は、マイク音声の持続時間が時間閾値を超えると判定した場合、利用者が発言状態であると判定する。この点について、図８を用いて詳しく説明する。

次に、図８を用いて、第１の実施形態の変形例に係る情報処理手順について説明する。図８は、第１の実施形態の変形例に係る情報処理手順を示す図である。図８に示すように、制御部１７０は、Ｗｅｂ会議アプリを起動する（ステップＳ４０１）。続いて、制御部１７０は、Ｗｅｂ会議アプリを起動すると、カメラとマイクを起動する（ステップＳ４０２）。また、バッファリング部１７２は、制御部１７０によってカメラが起動されると、カメラ画像のバッファリングを開始する。また、バッファリング部１７２は、制御部１７０によってマイクが起動されると、マイク音声のバッファリングを開始する（ステップＳ４０３）。続いて、バッファリング部１７２は、メモリにカメラ画像とマイク音声を蓄積する（ステップＳ４０４）。また、判定部１７３は、カメラ画像から認識される利用者の口の動きの変化量が変化閾値を超えるか否かを判定する（ステップＳ４０５）。

判定部１７３は、利用者の口の動きの変化量が変化閾値を超えたと判定した場合（ステップＳ４０５；Ｙｅｓ）、マイク音声の音量が音量閾値を超えるか否かを判定する。また、判定部１７３は、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する（ステップＳ４０６）。

判定部１７３は、マイク音声の持続時間が時間閾値を超えたと判定した場合（ステップＳ４０６；Ｙｅｓ）、利用者が発言状態であると判定する（ステップＳ４０７）。次に、音声出力制御部１７４は、判定部１７３によって利用者が発言状態であると判定された場合、バッファリング部１７２によってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。また、画像出力制御部１７５は、判定部１７３によって利用者が発言状態であると判定された場合、バッファリング部１７２によってバッファリングされた画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する（ステップＳ４０８）。また、音声出力制御部１７４は、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、ミュート機能を解除する（ステップＳ４０９）。音声出力制御部１７４がミュート機能を解除すると、再びステップＳ４０５に戻る。

一方、判定部１７３は、マイク音声の音量が音量閾値を超えていないと判定した場合、またはマイク音声の持続時間が時間閾値を超えていないと判定した場合（ステップＳ４０６；Ｎｏ）、利用者が無言状態であると判定する（ステップＳ４１０）。また、音声出力制御部１７４は、判定部１７３によって利用者が無言状態であると判定された場合、ミュート機能を有効にする（ステップＳ４１１）。音声出力制御部１７４がミュート機能を有効にすると、再びステップＳ４０５に戻る。

また、一方、判定部１７３は、利用者の口の動きの変化量が変化閾値を超えていないと判定した場合（ステップＳ４０５；Ｎｏ）、利用者が無言状態であると判定する（ステップＳ４１０）。また、音声出力制御部１７４は、判定部１７３によって利用者が無言状態であると判定された場合、ミュート機能を有効にする（ステップＳ４１１）。音声出力制御部１７４がミュート機能を有効にすると、再びステップＳ４０５に戻る。

なお、図８では、判定部１７３が、利用者の口の動きの変化量が変化閾値を超えるか否かを判定した後に、マイク音声の音量が音量閾値を超えるか否かを判定する例について説明したが、これに限られない。具体的には、判定部１７３は、マイク音声の音量が音量閾値を超えるか否かを判定する。続いて、判定部１７３は、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する。続いて、判定部１７３は、マイク音声の持続時間が時間閾値を超えたと判定した場合、利用者の口の動きの変化量が変化閾値を超えるか否かを判定する。続いて、判定部１７３は、利用者の口の動きの変化量が変化閾値を超えたと判定した場合、利用者が発言状態であると判定する。

〔２‐５‐３．画面データ（ＨＴＭＬ形式）〕
上述した例では、情報処理装置１００にＷｅｂ会議アプリがインストールされており、Ｗｅｂ会議アプリが上述した情報処理を実施する例について説明したが、これに限られない。具体的には、サーバ装置２００がＷｅｂ会議の画面データ（ＨＴＭＬ形式）を情報処理装置１００に送信する。また、情報処理装置１００は、Ｗｅｂ会議の画面データをブラウザ等により表示する。この場合、上述した情報処理は、画面データ（ＨＴＭＬ形式）に埋め込まれているプログラムによって実現されてもよい。例えば、自動ミュートモードの処理は、画面データ（ＨＴＭＬ形式）に埋め込まれているプログラムによって実現されてもよい。

（第２の実施形態）
〔３‐１．情報処理の概要〕
次に、第２の実施形態に係る情報処理の概要について説明する。第２の実施形態に係る情報処理は、後述する図９に示す情報処理システム１Ａによって実現される。第２の実施形態に係る情報処理は、サーバ装置２００Ａが、情報処理装置１００Ａそれぞれから取得した利用者情報に基づいて、情報処理装置１００Ａそれぞれの利用者が発言状態であるか否かを判定する。また、サーバ装置２００Ａが、それぞれの判定結果に基づいて、グループ通話サービスの他の利用者に対するそれぞれの利用者の音声データの出力を制御する。

〔３‐２．情報処理システムの構成例〕
次に、図９を用いて、第２の実施形態に係る情報処理システムの構成について説明する。図９は、第２の実施形態に係る情報処理システムの構成例を示す図である。図９に示すように、情報処理システム１Ａは、情報処理装置１００Ａとサーバ装置２００Ａとを備える。情報処理装置１００Ａとサーバ装置２００Ａとは所定のネットワークＮを介して、有線または無線により通信可能に接続される。なお、図９に示す情報処理システム１Ａには、任意の数の情報処理装置１００Ａと任意の数のサーバ装置２００Ａとが含まれてもよい。なお、以下では、情報処理システム１と重複する内容については説明を省略する。

情報処理装置１００Ａは、グループ通話サービスの利用者によって利用される情報処理装置である。情報処理装置１００Ａは、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣや、デスクトップＰＣや、携帯電話機や、ＰＤＡ等により実現される。なお、図９では、情報処理装置１００Ａを利用する利用者に応じて、情報処理装置１００Ａを情報処理装置１００Ａ_１、１００Ａ_２として説明する。例えば、情報処理装置１００Ａ_１は、利用者Ｕ１により使用される情報処理装置１００Ａである。また、例えば、情報処理装置１００Ａ_２は、利用者Ｕ２により使用される情報処理装置１００Ａである。また、以下では、情報処理装置１００Ａ_１、１００Ａ_２について、特に区別なく説明する場合には、情報処理装置１００Ａと記載する。

また、情報処理装置１００Ａには、グループ通話サービスを利用するためのアプリケーションがインストールされている。例えば、情報処理装置１００Ａには、Ｗｅｂ会議アプリがインストールされている。

サーバ装置２００Ａは、グループ通話サービスを提供するサーバ装置である。例えば、サーバ装置２００Ａは、Ｗｅｂ会議システム、多人数参加型オンラインゲーム、または電話会議システムであるグループ通話サービスを提供する。

また、サーバ装置２００Ａは、グループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。また、サーバ装置２００Ａは、判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御する。

〔３‐３．情報処理装置の構成例〕
次に、図１０を用いて、第２の実施形態に係る情報処理装置の構成について説明する。図１０は、第２の実施形態に係る情報処理装置の構成例を示す図である。図１０に示すように、情報処理装置１００Ａは、通信部１１０と、音声入力部１２０と、撮像部１３０と、記憶部１４０と、音声出力部１５０と、表示部１６０と、制御部１７０Ａとを有する。なお、情報処理装置１００Ａは、情報処理装置１００Ａの管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）を有してもよい。

第２の実施形態にかかる情報処理装置１００Ａは、第１の実施形態で説明した情報処理装置１００が表示制御部１７１と、バッファリング部１７２と、判定部１７３と、音声出力制御部１７４と、画像出力制御部１７５と、を有しないものである。したがって、図３で説明した各処理部については説明を省略する。

（制御部１７０Ａ）
制御部１７０Ａは、コントローラであり、例えば、ＣＰＵやＭＰＵ等によって、情報処理装置１００Ａ内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１７０Ａは、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

図１０に示すように、制御部１７０Ａは、送信部１７６Ａと受信部１７７Ａとを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部１７０Ａの内部構成は、図１０に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

（送信部１７６Ａ）
送信部１７６Ａは、音声入力部１２０によって集音された利用者の音声データをサーバ装置２００Ａに送信する。また、送信部１７６Ａは、撮像部１３０によって撮像された利用者の画像データをサーバ装置２００Ａに送信する。

（受信部１７７Ａ）
受信部１７７Ａは、他の利用者の音声データをサーバ装置２００Ａから受信する。また、受信部１７７Ａは、他の利用者の画像データをサーバ装置２００Ａから受信する。

〔３‐４．サーバ装置の構成例〕
次に、図１１を用いて、第２の実施形態に係るサーバ装置の構成について説明する。図１１は、第２の実施形態に係るサーバ装置の構成例を示す図である。図１１に示すように、サーバ装置２００Ａは、通信部２１０と、記憶部２２０と、制御部２３０Ａとを有する。なお、サーバ装置２００Ａは、サーバ装置２００Ａの管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）を有してもよい。

（通信部２１０）
通信部２１０は、例えば、ＮＩＣ等によって実現される。そして、通信部２１０は、ネットワークと有線または無線で接続され、例えば、情報処理装置１００Ａとの間で情報の送受信を行う。

（記憶部２２０）
記憶部２２０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部２２０は、各種プログラム（情報処理プログラムの一例に相当）を記憶する。また、記憶部２２０は、各種データを記憶する。例えば、記憶部２２０は、利用者を識別する識別情報（例えば、利用者ＩＤ）と情報処理装置１００Ａから受信した利用者の音声データとを対応付けて記憶する。また、記憶部２２０は、利用者を識別する識別情報（例えば、利用者ＩＤ）と情報処理装置１００Ａから受信した利用者の画像データとを対応付けて記憶する。また、以下の説明では、記憶部２２０をメモリと記載する場合がある。

（制御部２３０Ａ）
制御部２３０Ａは、コントローラであり、例えば、ＣＰＵやＭＰＵ等によって、サーバ装置２００Ａ内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部２３０Ａは、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

図１１に示すように、制御部２３０Ａは、受信部２３１Ａと、表示制御部２３２Ａと、バッファリング部２３３Ａと、判定部２３４Ａと、音声出力制御部２３５Ａと、画像出力制御部２３６Ａと、送信部２３７Ａとを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部２３０Ａの内部構成は、図１１に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

（受信部２３１Ａ）
受信部２３１Ａは、情報処理装置１００Ａから利用者の音声データを受信する。受信部２３１Ａは、利用者の音声データを受信すると、受信した利用者の音声データをバッファリング部２３３Ａに出力する。

また、受信部２３１Ａは、情報処理装置１００Ａから利用者の画像データを受信する。受信部２３１Ａは、利用者の画像データを受信すると、受信した利用者の画像データをバッファリング部２３３Ａに出力する。

また、受信部２３１Ａは、ミュート機能が解除された状態であることを示す画像Ｇ１または利用者が手動によりミュート機能を有効にした場合に表示される画像Ｇ３（図示略）を利用者が長押しする操作を受け付けたという情報を情報処理装置１００Ａから受信する。受信部２３１Ａは、利用者が長押しする操作を受け付けたという情報を受信すると、受信した情報を音声出力制御部２３５Ａに出力する。

（表示制御部２３２Ａ）
表示制御部２３２Ａは、Ｗｅｂ会議アプリに対する操作を行うための各種画像（例えば、ツールバーやアイコン等）を画面に表示するよう制御する。具体的には、表示制御部２３２Ａは、第１の実施形態に係る表示制御部１７１と同様、ミュート機能が解除された状態であることを示すアイコン画像Ｇ１、自動ミュートモードに設定されたことを示すアイコン画像Ｇ２、または利用者が手動によりミュート機能を有効にした場合に表示されるアイコン画像Ｇ３（図示略）を表示するよう制御する。

（バッファリング部２３３Ａ）
バッファリング部２３３Ａは、音声入力部１２０に入力された利用者の音声データをバッファリングする。具体的には、バッファリング部２３３Ａは、受信部２３１Ａから出力された利用者の音声データを受信する。続いて、バッファリング部２３３Ａは、利用者を識別する識別情報（例えば、利用者ＩＤ）と受信した音声データとを対応付けて記憶部２２０に格納する。

また、バッファリング部２３３Ａは、撮像部１３０によって撮影された利用者の画像データをバッファリングする。具体的には、バッファリング部２３３Ａは、受信部２３１Ａから出力された利用者の画像データを受信する。続いて、バッファリング部２３３Ａは、利用者を識別する識別情報（例えば、利用者ＩＤ）と受信した画像データとを対応付けて記憶部２２０に格納する。

（判定部２３４Ａ）
判定部２３４Ａは、グループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。判定部２３４Ａは、Ｗｅｂ会議システム、多人数参加型オンラインゲーム、または電話会議システムであるグループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。

具体的には、判定部２３４Ａは、音声入力部１２０に入力された利用者の音声データである利用者情報に基づいて、利用者が発言状態であるか否かを判定する。より具体的には、判定部２３４Ａは、バッファリング部２３３Ａによって音声データのバッファリングが開始されると、記憶部２２０を参照して、利用者の音声データを取得する。続いて、判定部２３４Ａは、音声データの音量が音量閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部２３４Ａは、音声データの音量が音量閾値を超えると判定した場合、利用者が発言状態であると判定する。一方、判定部２３４Ａは、音声データの音量が音量閾値以下であると判定した場合、利用者が発言状態ではない（無言状態である）と判定する。

また、判定部２３４Ａは、音声データの持続時間が時間閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部２３４Ａは、音声データの音量が音量閾値を超えると判定した場合、音声データの持続時間が時間閾値を超えるか否かを判定してもよい。例えば、判定部２３４Ａは、音声データの持続時間が時間閾値を超えると判定した場合、利用者が発言状態であると判定する。一方、判定部２３４Ａは、音声データの持続時間が時間閾値以下であると判定した場合、利用者が発言状態ではない（無言状態である）と判定する。

また、判定部２３４Ａは、撮像部１３０によって撮影された利用者の画像データである利用者情報から認識される利用者の口の動きの変化に基づいて、利用者が発言状態であるか否かを判定する。より具体的には、判定部２３４Ａは、バッファリング部２３３Ａによって画像データのバッファリングが開始されると、記憶部２２０を参照して、利用者の画像データを取得する。続いて、判定部２３４Ａは、口の動きの変化量が変化閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部２３４Ａは、一般的な画像認識処理によって、利用者の画像データから利用者の口の形を認識する。続いて、判定部２３４Ａは、認識した利用者の口の形の変化量に基づいて、利用者の口の動きの変化量を認識する。続いて、判定部２３４Ａは、口の動きの変化量が変化閾値を超えると判定した場合、利用者が発言状態であると判定する。一方、判定部２３４Ａは、口の動きの変化量が変化閾値以下であると判定した場合、利用者が発言状態ではない（無言状態である）と判定する。

（音声出力制御部２３５Ａ）
音声出力制御部２３５Ａは、判定部２３４Ａによる判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御する。具体的には、音声出力制御部２３５Ａは、判定部２３４Ａによって利用者が発言状態でないと判定された場合、利用者の音声データを他の利用者に対して出力しないよう制御する。例えば、音声出力制御部２３５Ａは、判定部２３４Ａによって利用者が発言状態でないと判定された場合、利用者の音声データを利用者以外の他の利用者の情報処理装置１００Ａに送信しないよう制御する。また、音声出力制御部２３５Ａは、判定部２３４Ａによって利用者が発言状態でないと判定された場合、情報処理装置１００Ａに対して、ミュート機能を有効にするよう指示する制御情報を送信してもよい。

また、音声出力制御部２３５Ａは、判定部２３４Ａによって利用者が発言状態であると判定された場合、利用者の音声データを他の利用者に対して出力するよう制御する。例えば、音声出力制御部２３５Ａは、判定部２３４Ａによって利用者が発言状態であると判定された場合、利用者の音声データを利用者以外の他の利用者の情報処理装置１００Ａに送信する。また、音声出力制御部２３５Ａは、判定部２３４Ａによって利用者が発言状態であると判定された場合、情報処理装置１００Ａに対して、ミュート機能を無効にするよう指示する制御情報を送信してもよい。

また、利用者が発話することで、判定部２３４Ａによって利用者が発言状態であると判定された場合、利用者が発話してから、音声出力制御部２３５Ａによってミュート機能を有効から無効にされるまでの間に利用者によって発話された音声データは他の情報処理装置１００へ送信されていない。このため、音声出力制御部２３５Ａは、判定部２３４Ａによって利用者が発言状態であると判定された場合、バッファリング部２３３Ａによってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。具体的には、音声出力制御部２３５Ａは、判定部２３４Ａによって利用者が発言状態であると判定された時から所定時間前からの利用者の音声データを早送りした早送り音声データを生成する。続いて、音声出力制御部２３５Ａは、生成した利用者の早送り音声データを送信部２３７Ａに出力する。

例えば、音声出力制御部２３５Ａは、バッファリング部２３３Ａによって音声データのバッファリングが開始されてから判定部２３４Ａによって利用者が発言状態であると判定されるまでの時間前からの利用者の音声データを早送りして生成した利用者の早送り音声データを送信部２３７Ａに出力する。あるいは、音声出力制御部２３５Ａは、固定の所定時間（例えば、０．５秒など）前からの利用者の音声データを早送りして生成した利用者の早送り音声データを送信部２３７Ａに出力してもよい。これにより、サーバ装置２００Ａは、ミュート機能が有効から無効になるまでに利用者によって発話された音声を他の情報処理装置１００へ送信することができる。

また、音声出力制御部２３５Ａは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達するまでは、利用者の音声データを他の利用者に対して出力しないよう制御する。例えば、音声出力制御部２３５Ａは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達するまでは、利用者の音声データを送信部２３７Ａに出力しないよう制御する。また、音声出力制御部２３５Ａは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達するまでは、情報処理装置１００Ａに対してミュート機能を無効にするよう指示する制御情報を送信部２３７Ａに出力してもよい。

また、音声出力制御部２３５Ａは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者の音声データを他の利用者に対して出力するよう制御する。例えば、音声出力制御部２３５Ａは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者の音声データを送信部２３７Ａに出力する。また、音声出力制御部２３５Ａは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、情報処理装置１００Ａに対してミュート機能を無効にするよう指示する制御情報を送信部２３７Ａに出力してもよい。

（画像出力制御部２３６Ａ）
画像出力制御部２３６Ａは、グループ通話サービスの他の利用者に対する利用者の画像データの出力を制御する。具体的には、画像出力制御部２３６Ａは、バッファリング部２３３Ａによって利用者の画像データのバッファリングが開始されると、記憶部２２０を参照して、利用者の画像データを取得する。続いて、画像出力制御部２３６Ａは、利用者の画像データを取得すると、利用者の画像データを送信部２３７Ａに出力する。

画像出力制御部２３６Ａは、判定部２３４Ａによって利用者が発言状態であると判定された場合、バッファリング部２３３Ａによってバッファリングされた画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する。具体的には、画像出力制御部２３６Ａは、判定部２３４Ａによって利用者が発言状態であると判定された時から所定時間前からの利用者の画像データを早送りした早送り画像データを生成する。続いて、画像出力制御部２３６Ａは、生成した利用者の早送り画像データを送信部２３７Ａに出力する。

例えば、画像出力制御部２３６Ａは、バッファリング部２３３Ａによって画像データのバッファリングが開始されてから判定部２３４Ａによって利用者が発言状態であると判定されるまでの時間前からの利用者の画像データを早送りして生成した利用者の早送り画像データを送信部２３７Ａに出力する。あるいは、例えば、画像出力制御部２３６Ａは、固定の所定時間（例えば、０．５秒など）前からの利用者の画像データを早送りして生成した利用者の早送り画像データを送信部２３７Ａに出力してもよい。これにより、サーバ装置２００Ａは、早送りされた音声と早送りされた画像をシンクロさせることができるので、受信側で音声と画像のずれがないようにすることができる。

（送信部２３７Ａ）
送信部２３７Ａは、音声出力制御部２３５Ａの制御に従って、利用者の音声データを他の利用者の他の情報処理装置１００Ａに送信する。具体的には、送信部２３７Ａは、音声出力制御部２３５Ａから利用者の音声データを受信すると、受信した利用者の音声データを他の利用者の他の情報処理装置１００Ａに送信する。

また、送信部２３７Ａは、画像出力制御部２３６Ａの制御に従って、利用者の画像データを他の利用者の他の情報処理装置１００Ａに送信する。具体的には、送信部２３７Ａは、画像出力制御部２３６Ａから利用者の画像データを受信すると、受信した利用者の画像データを他の利用者の他の情報処理装置１００Ａに送信する。

また、送信部２３７Ａは、音声出力制御部２３５Ａから利用者の早送り音声データを受信すると、受信した利用者の早送り音声データを他の利用者の他の情報処理装置１００Ａに送信する。また、送信部２３７Ａは、画像出力制御部２３６Ａから利用者の早送り画像データを受信すると、受信した利用者の早送り画像データを他の利用者の他の情報処理装置１００Ａに送信する。具体的には、送信部２３７Ａは、早送り音声データと早送り画像データとを同じタイミングで他の利用者の他の情報処理装置１００Ａに送信する。

〔３‐５．情報処理手順〕
次に、図１２を用いて、第２の実施形態に係る情報処理手順について説明する。まず、図１２を用いて、第２の実施形態に係る情報処理手順について説明する。図１２は、第２の実施形態に係る情報処理手順を示す図である。図１２に示す例では、サーバ装置２００Ａが、情報処理装置１００Ａそれぞれから取得した利用者情報に基づいて、情報処理装置１００Ａそれぞれの利用者が発言状態であるか否かを判定する。また、サーバ装置２００Ａが、それぞれの判定結果に基づいて、グループ通話サービスの他の利用者に対するそれぞれの利用者の音声データの出力を制御する。

図１２に示すように、受信部２３１Ａは、情報処理装置１００Ａそれぞれからカメラ画像とマイク音声を受信する（ステップＳ５０１）。また、バッファリング部２３３Ａは、受信部２３１Ａによって受信されたカメラ画像とマイク音声のバッファリングを開始する（ステップＳ５０２）。また、バッファリング部２３３Ａは、受信部２３１Ａによって受信されたカメラ画像とマイク音声をメモリに蓄積する（ステップＳ５０３）。また、判定部２３４Ａは、それぞれカメラ画像から認識される利用者それぞれの口の動きの変化量が変化閾値を超えるか否かを判定する（ステップＳ５０４）。

判定部２３４Ａは、利用者の口の動きの変化量が変化閾値を超えたと判定した場合（ステップＳ５０４；Ｙｅｓ）、利用者のマイク音声の音量が音量閾値を超えるか否かを判定する。また、判定部２３４Ａは、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する（ステップＳ５０５）。

判定部２３４Ａは、マイク音声の持続時間が時間閾値を超えたと判定した場合（ステップＳ５０５；Ｙｅｓ）、利用者が発言状態であると判定する（ステップＳ５０６）。次に、音声出力制御部２３５Ａは、判定部２３４Ａによって利用者が発言状態であると判定された場合、バッファリング部２３３Ａによってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。また、画像出力制御部２３６Ａは、判定部２３４Ａによって利用者が発言状態であると判定された場合、バッファリング部２３３Ａによってバッファリングされた画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する（ステップＳ５０７）。また、音声出力制御部２３５Ａは、早送りされた利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者のリアルタイムの音声データを利用者以外の他の利用者の情報処理装置１００Ａへ送信するよう制御する（ステップＳ５０８）。音声出力制御部２３５Ａが利用者のリアルタイムの音声データを利用者以外の他の利用者の情報処理装置１００Ａへ送信するよう制御すると、再びステップＳ５０４に戻る。

一方、判定部２３４Ａは、マイク音声の音量が音量閾値を超えていないと判定した場合、またはマイク音声の持続時間が時間閾値を超えていないと判定した場合（ステップＳ５０５；Ｎｏ）、利用者が無言状態であると判定する（ステップＳ５０９）。また、音声出力制御部２３５Ａは、判定部２３４Ａによって利用者が無言状態であると判定された場合、利用者の音声データを利用者以外の他の利用者の情報処理装置１００Ａへ送信しないよう制御する（ステップＳ５１０）。音声出力制御部２３５Ａが利用者の音声データを利用者以外の他の利用者の情報処理装置１００Ａへ送信しないよう制御すると、再びステップＳ５０４に戻る。

また、一方、判定部２３４Ａは、利用者の口の動きの変化量が変化閾値を超えていないと判定した場合（ステップＳ５０４；Ｎｏ）、利用者が無言状態であると判定する（ステップＳ５０９）。また、音声出力制御部２３５Ａは、判定部２３４Ａによって利用者が無言状態であると判定された場合、利用者の音声データを利用者以外の他の利用者の情報処理装置１００Ａへ送信しないよう制御する（ステップＳ５１０）。音声出力制御部２３５Ａが利用者の音声データを利用者以外の他の利用者の情報処理装置１００Ａへ送信しないよう制御すると、再びステップＳ５０４に戻る。

なお、図１２では、判定部２３４Ａが、利用者の口の動きの変化量が変化閾値を超えるか否かを判定した後に、マイク音声の音量が音量閾値を超えるか否かを判定する例について説明したが、これに限られない。具体的には、判定部２３４Ａは、マイク音声の音量が音量閾値を超えるか否かを判定する。続いて、判定部２３４Ａは、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する。続いて、判定部２３４Ａは、マイク音声の持続時間が時間閾値を超えたと判定した場合、利用者の口の動きの変化量が変化閾値を超えるか否かを判定する。続いて、判定部２３４Ａは、利用者の口の動きの変化量が変化閾値を超えたと判定した場合、利用者が発言状態であると判定する。

また、判定部２３４Ａは、利用者の口の動きの変化量が変化閾値を超えるか否か、またはマイク音声の音量が音量閾値を超えるか否かおよびマイク音声の持続時間が時間閾値を超えるか否かのいずれか一方だけに基づいて、利用者が発言状態であるか否かを判定してもよい。例えば、判定部２３４Ａは、利用者の口の動きの変化量が変化閾値を超えたと判定した場合、利用者が発言状態であると判定する。あるいは、判定部２３４Ａは、マイク音声の音量が音量閾値を超えるか否かを判定する。続いて、判定部２３４Ａは、マイク音声の音量が音量閾値を超えたと判定した場合、マイク音声の持続時間が時間閾値を超えるか否かを判定する。続いて、判定部２３４Ａは、マイク音声の持続時間が時間閾値を超えたと判定した場合、利用者が発言状態であると判定する。

また、判定部２３４Ａは、マイク音声の音量が音量閾値を超えるか否か、またはマイク音声の持続時間が時間閾値を超えるか否かのいずれか一方だけに基づいて、利用者が発言状態であるか否かを判定してもよい。例えば、判定部２３４Ａは、マイク音声の音量が音量閾値を超えたと判定した場合、利用者が発言状態であると判定する。あるいは、判定部２３４Ａは、マイク音声の持続時間が時間閾値を超えたと判定した場合、利用者が発言状態であると判定する。

〔４．効果〕
上述してきたように、実施形態に係る情報処理装置（第１の実施形態では情報処理装置１００、第２の実施形態ではサーバ装置２００Ａに相当）は、判定部と音声出力制御部を備える。判定部は、グループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。音声出力制御部は、判定部による判定結果に基づいて、グループ通話サービスの他の利用者に対する利用者の音声データの出力を制御する。例えば、音声出力制御部は、判定部による判定結果に基づいて、利用者の音声データを他の利用者に対して出力しないようにするミュート機能を制御する。

これにより、情報処理装置は、利用者の発言状態に応じて、自動的にグループ通話サービスの他の利用者に対する利用者の音声データの出力を制御することができるため、発言の度にミュート機能を解除する必要がなくなる。また、情報処理装置は、ミュート機能を解除するのを忘れたまま発言が行われることを防ぐことができる。したがって、情報処理装置は、グループ通話サービスにおけるユーザビリティを向上させることができる。

また、音声出力制御部は、判定部によって利用者が発言状態でないと判定された場合、利用者の音声データを他の利用者に対して出力しないよう制御する。例えば、音声出力制御部は、判定部によって利用者が発言状態でないと判定された場合、ミュート機能を有効にする。

これにより、情報処理装置は、利用者が発言していないときにその都度ミュートにする手間を省くことができる。また、情報処理装置１００は、利用者が発言していないときにミュートにすることを忘れることを防ぐことができる。したがって、情報処理装置１００は、グループ通話サービスにおけるユーザビリティを向上させることができる。

また、音声出力制御部は、判定部によって利用者が発言状態であると判定された場合、利用者の音声データを他の利用者に対して出力するよう制御する。例えば、音声出力制御部は、判定部によって利用者が発言状態であると判定された場合、ミュート機能を無効にする。

これにより、情報処理装置は、利用者が発言するときにその都度ミュートを解除する手間を省くことができる。また、情報処理装置１００は、利用者が発言するときにミュートを解除し忘れることを防ぐことができる。したがって、情報処理装置１００は、グループ通話サービスにおけるユーザビリティを向上させることができる。

また、判定部は、音声入力部１２０に入力された利用者の音声データである利用者情報に基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部は、音声データの音量が音量閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。また、例えば、判定部は、音声データの持続時間が時間閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。

これにより、情報処理装置は、利用者の音声データの音量や持続時間に基づいて、利用者が発言状態であるか否かを自動的に判定することができる。

また、判定部は、撮像部によって撮影された利用者の画像データである利用者情報から認識される利用者の口の動きの変化に基づいて、利用者が発言状態であるか否かを判定する。例えば、判定部は、口の動きの変化量が変化閾値を超えるか否かに基づいて、利用者が発言状態であるか否かを判定する。

これにより、情報処理装置は、利用者の口の動きの変化に基づいて、利用者が発言状態であるか否かを自動的に判定することができる。

また、情報処理装置は、バッファリング部をさらに備える。バッファリング部は、音声入力部１２０に入力された利用者の音声データをバッファリングする。音声出力制御部は、判定部によって利用者が発言状態であると判定された場合、バッファリング部によってバッファリングされた音声データのうち、所定時間前からの利用者の音声データを早送りした利用者の早送り音声データを他の利用者に対して出力するよう制御する。

これにより、情報処理装置は、発言の判定までの間の音声データが欠けるのを防ぐことができる。すなわち、情報処理装置は、発言の冒頭の音声データが欠けるのを防ぐことができる。したがって、情報処理装置は、Ｗｅｂ会議等のグループ通話を円滑に進めることができる。

また、音声出力制御部は、利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達するまでは、利用者の音声データを他の利用者に対して出力しないよう制御する。例えば、音声出力制御部は、利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達するまでは、利用者の音声データを他の利用者に対して出力しないようにするミュート機能を有効にする。

これにより、情報処理装置は、早送り再生されている音声データと利用者がリアルタイムに発言している音声データとが重複して聞こえないようにすることができる。

また、音声出力制御部は、利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者の音声データを他の利用者に対して出力するよう制御する。例えば、音声出力制御部は、利用者の早送り音声データの時刻が利用者によるリアルタイムの発言時刻に到達した後は、利用者の音声データを他の利用者に対して出力しないようにするミュート機能を無効にする。

これにより、情報処理装置は、利用者の早送り音声データが利用者によるリアルタイムの発言に追いついた後は、通常の速度で利用者の音声データが聞こえるようにすることができる。

また、情報処理装置は、他の利用者に対する利用者の画像データの出力を制御する画像出力制御部をさらに備える。バッファリング部は、撮像部によって撮影された利用者の画像データをバッファリングする。画像出力制御部は、判定部によって利用者が発言状態であると判定された場合、バッファリング部によってバッファリングされた判定の画像データのうち、所定時間前からの利用者の画像データを早送りした利用者の早送り画像データを他の利用者に対して出力するよう制御する。

これにより、情報処理装置は、画像と音声をシンクロさせているので、受信側で音声と画像のずれがないようにすることができる。

また、判定部は、Ｗｅｂ会議システム、多人数参加型オンラインゲーム、または電話会議システムであるグループ通話サービスの利用者に関する利用者情報に基づいて、利用者が発言状態であるか否かを判定する。

これにより、情報処理装置は、Ｗｅｂ会議システムに限らず、多人数参加型オンラインゲームや電話会議システムといった種々のグループ通話サービスにおけるユーザビリティを向上させることができる。

〔５．ハードウェア構成〕
また、上述してきた第１の実施形態に係る情報処理装置１００や第２の実施形態に係るサーバ装置２００Ａは、例えば図１３に示すような構成のコンピュータ１０００によって実現される。図１３は、情報処理装置１００またはサーバ装置２００Ａの機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が第１の実施形態に係る情報処理装置１００または第２の実施形態に係るサーバ装置２００Ａとして機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１７０または制御部２３０Ａの機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

〔６．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、判定部は、判定手段や判定回路に読み替えることができる。

１情報処理システム
１００情報処理装置
１１０通信部
１２０音声入力部
１３０撮像部
１４０記憶部
１５０音声出力部
１６０表示部
１７０制御部
１７１表示制御部
１７２バッファリング部
１７３判定部
１７４音声出力制御部
１７５画像出力制御部
１７６送信部
１７７受信部
２００サーバ装置
１Ａ情報処理システム
１００Ａ情報処理装置
２００Ａサーバ装置
２１０通信部
２２０記憶部
２３０Ａ制御部
２３１Ａ受信部
２３２Ａ表示制御部
２３３Ａバッファリング部
２３４Ａ判定部
２３５Ａ音声出力制御部
２３６Ａ画像出力制御部
２３７Ａ送信部

Claims

コンピュータが実行する情報処理方法であって、
グループ通話サービスの利用者に関する利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する判定工程と、
前記判定工程による判定結果に基づいて、前記グループ通話サービスの他の利用者に対する前記利用者の音声データの出力を制御する音声出力制御工程と、
を含むことを特徴とする情報処理方法。
前記音声出力制御工程は、
前記判定工程によって前記利用者が発言状態でないと判定された場合、前記利用者の音声データを前記他の利用者に対して出力しないよう制御する、
ことを特徴とする請求項１に記載の情報処理方法。
前記音声出力制御工程は、
前記判定工程によって前記利用者が発言状態であると判定された場合、前記利用者の音声データを前記他の利用者に対して出力するよう制御する、
ことを特徴とする請求項１に記載の情報処理方法。
前記音声出力制御工程は、
前記判定工程による判定結果に基づいて、前記利用者の音声データを前記他の利用者に対して出力しないようにするミュート機能を制御する、
ことを特徴とする請求項１～３のいずれか１つに記載の情報処理方法。
前記音声出力制御工程は、
前記判定工程によって前記利用者が発言状態でないと判定された場合、前記ミュート機能を有効にする、
ことを特徴とする請求項４に記載の情報処理方法。
前記音声出力制御工程は、
前記判定工程によって前記利用者が発言状態であると判定された場合、前記ミュート機能を無効にする、
ことを特徴とする請求項４に記載の情報処理方法。
前記判定工程は、
音声入力部に入力された前記利用者の音声データである前記利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する、
ことを特徴とする請求項１～６のいずれか１つに記載の情報処理方法。
前記判定工程は、
前記音声データの音量が音量閾値を超えるか否かに基づいて、前記利用者が発言状態であるか否かを判定する、
ことを特徴とする請求項７に記載の情報処理方法。
前記判定工程は、
前記音声データの持続時間が時間閾値を超えるか否かに基づいて、前記利用者が発言状態であるか否かを判定する、
ことを特徴とする請求項７または８に記載の情報処理方法。
前記判定工程は、
撮像部によって撮影された前記利用者の画像データである前記利用者情報から認識される前記利用者の口の動きの変化に基づいて、前記利用者が発言状態であるか否かを判定する、
ことを特徴とする請求項１～９のいずれか１つに記載の情報処理方法。
前記判定工程は、
前記口の動きの変化量が変化閾値を超えるか否かに基づいて、前記利用者が発言状態であるか否かを判定する、
ことを特徴とする請求項１０に記載の情報処理方法。
音声入力部に入力された前記利用者の音声データをバッファリングするバッファリング工程をさらに含み、
前記音声出力制御工程は、
前記判定工程によって前記利用者が発言状態であると判定された場合、前記バッファリング工程によってバッファリングされた音声データのうち、所定時間前からの前記利用者の音声データを早送りした前記利用者の早送り音声データを前記他の利用者に対して出力するよう制御する、
ことを特徴とする請求項１～１１のいずれか１つに記載の情報処理方法。
前記音声出力制御工程は、
前記利用者の前記早送り音声データの時刻が前記利用者によるリアルタイムの発言時刻に到達するまでは、前記利用者の音声データを前記他の利用者に対して出力しないよう制御する、
ことを特徴とする請求項１２に記載の情報処理方法。
前記音声出力制御工程は、
前記利用者の前記早送り音声データの時刻が前記利用者によるリアルタイムの発言時刻に到達するまでは、前記利用者の音声データを前記他の利用者に対して出力しないようにするミュート機能を有効にする、
ことを特徴とする請求項１３に記載の情報処理方法。
前記音声出力制御工程は、
前記利用者の前記早送り音声データの時刻が前記利用者によるリアルタイムの発言時刻に到達した後は、前記利用者の音声データを前記他の利用者に対して出力するよう制御する、
ことを特徴とする請求項１２または１３に記載の情報処理方法。
前記音声出力制御工程は、
前記利用者の前記早送り音声データの時刻が前記利用者によるリアルタイムの発言時刻に到達した後は、前記利用者の音声データを前記他の利用者に対して出力しないようにするミュート機能を無効にする、
ことを特徴とする請求項１５に記載の情報処理方法。
前記他の利用者に対する前記利用者の画像データの出力を制御する画像出力制御工程をさらに含み、
前記バッファリング工程は、
撮像部によって撮影された前記利用者の画像データをバッファリングし、
前記画像出力制御工程は、
前記判定工程によって前記利用者が発言状態であると判定された場合、前記バッファリング工程によってバッファリングされた画像データのうち、所定時間前からの前記利用者の画像データを早送りした前記利用者の早送り画像データを前記他の利用者に対して出力するよう制御する、
ことを特徴とする請求項１２～１６のいずれか１つに記載の情報処理方法。
前記判定工程は、
Ｗｅｂ会議システム、多人数参加型オンラインゲーム、または電話会議システムである前記グループ通話サービスの利用者に関する利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する、
ことを特徴とする請求項１～１５のいずれか１つに記載の情報処理方法。
グループ通話サービスの利用者に関する利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する判定部と、
前記判定部による判定結果に基づいて、前記グループ通話サービスの他の利用者に対する前記利用者の音声データの出力を制御する音声出力制御部と、
を備えることを特徴とする情報処理装置。
グループ通話サービスの利用者に関する利用者情報に基づいて、前記利用者が発言状態であるか否かを判定する判定手順と、
前記判定手順による判定結果に基づいて、前記グループ通話サービスの他の利用者に対する前記利用者の音声データの出力を制御する音声出力制御手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。