JP5967848B1

JP5967848B1 - 会議システム

Info

Publication number: JP5967848B1
Application number: JP2015062109A
Authority: JP
Inventors: 和雄西村
Original assignee: 株式会社アルブレイン
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2016-08-10
Anticipated expiration: 2035-03-25
Also published as: JP2016181856A

Abstract

【課題】低コストで良好な音声品質を実現する会議システムを提供する。【解決手段】本実施形態に係る会議システムは、会議ロボットと端末とを含む。会議ロボットは、メモリと、判断部と、送信部とを含む。メモリは、ステレオ方式又はバイノーラル方式の音声データと、音声データに対応し頭部に備えられた映像入力部によって入力された映像データとを格納する。判断部は、音声データの通信が正常か否か判断する。送信部は、メモリに格納されている音声データと音声データに対応する映像データとを順次送信し、判断部によって通信が正常でないと判断された場合に、メモリに格納されており通信が正常でないと判断された音声データに対応する再送音声データを順次送信する。【選択図】図１

Description

本実施形態は、会議システムに関する。

会議システムは、例えばインターネットなどの通信ネットワークを介して、複数の拠点間で映像データ及び音声データを通信するシステムである。会議システムは、遠隔地のユーザが会議に参加することを可能とし、例えば会議参加者の会議の経済的及び時間的コストを削減可能である。

会議システムの通信端末として、例えば人型のロボットが利用される場合がある。ロボットには、例えば頭部にカメラが設けられており、ロボットを遠隔地のユーザが操作することで、カメラの向き、すなわちロボットの視線が調整される。

一般に、会議システムで送受信される音声データの品質及び映像データの品質は、通信ネットワークの状態の影響を受ける。例えば、通信ネットワークに輻輳が生じると、ストリーミング再生中の映像及び音声が途切れ、会議内容を正確に把握することが困難になる場合がある。

リアルタイム性を確保しつつ、音声及び映像の途切れを抑制する方法の一つとして、データの品質を落とし、データ量を下げることで通信ネットワークへの負荷を軽減する方法がある。

一方、リアルタイム性を最優先としないことで音声の途切れを抑制する方法としては、例えば特開２０１３−２０７４６５号公報に開示されているように、通信ネットワークの状態が悪いと判断された場合に、例えば１０秒程度の所定量の音声データを録音し、録音した音声データを送信する方法がある。

特開２０１３−２０７４６５号公報

上記のように、通信ネットワークの状態が変化する場合に、音声データ及び映像データを確実に送信するための方法が開発されている。しかしながら、通信ネットワークへの負荷を軽減するためにデータ品質を落とす場合、例えば音声の明瞭性が失われかねない。また、データ量を下げた場合であっても、通信ネットワークの状態によっては音声が途切れる場合がある。

さらに、特開２０１３−２０７４６５号公報に開示された会議システムでは、通信状態が悪いと判断された後に、音声を録音する必要があるため、円滑な会議の進行が妨げられる場合がある。

さらに、ロボットを使用した会議システムにおいては、目線を合わせること以外にノンバーバルコミュニケーションをロボットによって表現することは未だ十分になされていない。例えば、モータ等を用いて人と同じようにロボットを駆動させることは、構造的及びコスト的に困難である。

本発明は、以上のような事情に鑑みてなされており、ロボットを用い、低コストで良好な音声品質を実現する会議システムの提供を目的とする。

本実施形態の会議システムは、会議ロボットと端末とを含む。

会議ロボットは、頭部、胴部、第１の音声入力部、映像入力部、メモリ、判断部、第１の送信部、制御部、第１の音声出力部を含む。

頭部は、垂直方向の回転軸を持つ。胴部は、頭部を水平方向に回転可能に支持する。第１の音声入力部は、ステレオ方式又はバイノーラル方式の第１の音声データを入力する。映像入力部は、頭部に備えられ、第１の音声データに対応する映像データを入力する。メモリは、第１の音声データと映像データとを格納する。判断部は、第１の音声データの通信が正常か否か判断する。第１の送信部は、メモリに格納されている第１の音声データと第１の音声データに対応する映像データとを端末へ順次送信し、判断部によって通信が正常でないと判断された場合に、メモリに格納されており通信が正常でないと判断された第１の音声データに対応する再送音声データを端末へ順次送信する。制御部は、第１の音声入力部に入力された第１の音声データに基づいて音声発生方向を認識し、映像入力部を音声発生方向へ向ける制御を実行する。第１の音声出力部は、受信された端末のユーザの第２の音声データを出力する。

端末は、第２の音声出力部、映像処理部、映像出力部、第２の音声入力部、第２の送信部を含む。

第２の音声出力部は、受信された第１の音声データを出力し、再送音声データが受信された場合に再送音声データを出力する。映像処理部は、会議の経過時間を表示し、再送音声データが第２の音声出力部によって出力されている場合に会議において再送音声データの生成された時間を表示するタイムゲージを生成する。映像出力部は、映像データとタイムゲージとを出力する。第２の音声入力部は、ユーザの第２の音声データを入力する。第２の送信部は、第２の音声データを会議ロボットへ送信する。

本実施形態においては、ロボットを用いて低コストで良好な音声品質を実現する会議システムを提供することができる。

第１の実施形態に係る会議システムの構成の一例を示すブロック図。第１の実施形態に係るストリーミングと再送ストリーミングとの一例を示す図である。第１の実施形態に係る会議ロボットのデータ送信処理の一例を示すフローチャート。第１の実施形態に係るストリーミングの一例を示すフローチャート。第１の実施形態に係る遠隔者端末の映像出力部における表示画面の一例を示す図。第２の実施形態に係る会議システムの構成の一例を示すブロック図。第２の実施形態に係る会議ロボットの映像データ受信処理の一例を示すフローチャート。

以下、実施形態について、図面を参照して説明する。なお、以下の説明において、同一又は実質的に同一の機能及び構成要素については、同一符号を付し、必要に応じて説明を行う。

［第１の実施形態］
本実施形態では、ステレオ方式又はバイノーラル方式の音声データと、映像データのストリーミングを実行する。本実施形態のストリーミングでは、映像データの品質を意図的に落とし、音声データの品質を優先させる。

本実施形態では、音声データと映像データとが同期する場合もあり、映像データよりも音声データの品質を優先させる場合には音声データと映像データとが非同期となる場合もある。

本実施形態では、ストリーミングのリアルタイム性を低下させて、音声データの品質を優先させる場合がある。音声品質が所定のレベルを下回った場合には、例えば自動で、又は、ユーザの操作に基づいて、所定のレベル以上の音声品質の音声データを再生する。この音声品質の高い音声データの再生は、会議ロボット側及び遠隔地端末側の双方で実行可能である。

本実施形態においては、音声品質を所定のレベル以上とするために、映像データの画質を可変とする。例えば、会議ロボットと遠隔地端末との間で音声データが通信されている場合に、映像データの解像度を落とし、フレームレートを解像度よりも優先させてもよい。ここで、フレームレートとは、映像データにおいて、単位時間当たりに処理されるフレーム数である。例えば、会議ロボットと遠隔地端末との間で音声データが通信されていない場合に、映像データの解像度を高くする。例えば、会議ロボットによって撮影された映像データのうち、静止部分については静止画データとして会議ロボットから遠隔地端末へ送信し、動く部分については動画データとして会議ロボットから遠隔地端末へ送信する。そして、遠隔地端末は、静止画データと動画データとを合成する。静止画データは、送信回数を少なくし、その代わりに解像度は高くてもよい。例えば、会議場のホワイトボードの映像データは、重要度が高いため、解像度を高くし、静止画データとして会議ロボットから遠隔地端末へ送信されてもよい。映像データは、更新された場合に解像度が高く、その後解像度が低くなるように変更されてもよい。

例えば、会議ロボットは、音の指向性を検出可能であり、会議場の音声発生方向を検出し、音声発生方向が映像データの中央部分になるように頭部の水平方向の回転を制御してもよい。このように、映像入力部４が音声発生方向を自動で向くように頭部の水平方向回転が制御されることにより、遠隔地端末のユーザの操作負荷を抑制することができる。例えば、会議ロボットは、映像データのうちの音声発生方向に相当する領域の解像度又はフレームレートを高くし、音声発生方向から外れている領域の解像度又はフレームレートを低くしてもよい。また、会議ロボットは、音声発生方向から外れている領域を静止画データとしてもよい。

本実施形態において、会議ロボットは、映像データから会議の参加者の映像領域を検出し、この参加者の映像領域を、解像度よりもフレームレートを優先させて（解像度を所定のレベル以下とし、フレームレートを所定のレベル以上として）送信してもよい。

本実施形態において、会議ロボットは、映像データから会議場におけるプレゼンテーションデータの表示部分、ホワイトボード等の映像領域（以下、資料データという）を検出し、この資料データをフレームレートよりも解像度を優先させて（フレームレートを所定のレベル以下とし、解像度を所定のレベル以上として）、送信してもよい。資料データの検出は、ユーザが手動で映像データに対してキャプチャ操作をすることで実現してもよく、画像認識処理によって実現してもよい。遠隔地端末のユーザは、資料データを自由に閲覧可能としてもよい。

会議ロボットは、会議前に会議場に固定的に設置され、会議場の映像データに基づいて、例えば、参加者の位置、ホワイトボードの位置など、会議前に必要なデータを画像認識により生成する。

本実施形態において、会議ロボットは、会議中は所定の位置に設置される。会議ロボットの頭部は、垂直方向の回転軸を持ち、水平方向に回転する。会議ロボットの頭部は、駆動機構の単純化とコスト低減のために、上下には回転しないが、頭部に搭載されている映像入力部は上下に回転可能としてもよい。この結果、会議ロボットは、会議場を球状に認識可能である。

図１は、第１の実施形態に係る会議システム１００の構成の一例を示すブロック図である。図１において、会議場に設置された会議ロボット１０１と遠隔地に設置された遠隔地端末１０２とは、通信ネットワークＮＷを介して通信可能に接続されている。以下では、遠隔地端末１０２は例えばパーソナルコンピュータであるとして説明する。しかしながら、遠隔地端末１０２は、例えばタブレット型端末、スマートフォン等の情報処理装置であってもよい。通信ネットワークＮＷには、電話回線、インターネットなどの各種の無線又は有線の通信回線を適用可能である。

会議ロボット１０１は、会議場の映像データのデータ量、会議場の音声データのデータ量、遠隔地端末１０２から受信した音声データのデータ量を検出し、検出された各種のデータ量に基づいて、会議ロボット１０１と遠隔地端末１０２との間で通信される音声データ及び映像データのプロトコルを切り替え、インジケータの発光を制御し、音声データの品質を維持するための通信状態の変更を行う。

例えば、会議ロボット１０１は、データ量が多くなった場合（所定のレベル以上になった場合）には、インジケータにより警告を表す所定の色を発光してその旨を会議の参加者に通知し、映像データの解像度又はフレームレートを削減し、音声データの品質を維持する。会議ロボット１０１は、音声データが正常に通信されなかった場合には、自動で、又は、手動で、正常に通信されていない音声データに対応する再送のための音声データ（以下、再送音声データという）を送信する。

会議ロボット１０１は、再送音声データの再送ストリーミングにおいて、それぞれの再送音声データについて会議場の参加者の音声が含まれているか否か判断し、会議場の参加者の音声が含まれていない再送音声データの送信を飛ばす（スキップする）。これにより、音声の巻き戻しが発生した後に、会話のない部分で自動で早送りが実現され、現在の会議場の音声データまで音声の再生を進めることができる。

本実施形態において、会議ロボット１０１と遠隔地端末１０２との間の通信状態は、会議場の参加者が理解可能となるように会議ロボット１０１が音声又はインジケータの表示により出力する。また、通信状態は、遠隔地端末１０１のユーザが理解可能となるように遠隔地端末１２０が音声出力又は表示する。

会議ロボット１０１は、例えば人型を模した頭部１と胴部２とを含む。頭部１と胴部２とは、例えば垂直方向の軸を中心として回転可能に接続されている。頭部１は、例えばモータにより駆動される。

会議ロボット１０１は、さらに、音声入力部（マイクロフォン）３、映像入力部（カメラ）４、音声出力部（スピーカ）５、音声バッファメモリ６、映像バッファメモリ７、コントローラ８、送信部１６、受信部１７、作業メモリ２５を含む。

音声入力部３、映像入力部４、音声出力部５は、例えば頭部１に設けられる。音声入力部３は、例えば、頭部１の２か所に設けられているとしてもよく、ステレオマイクロフォンが頭部１に設けられているとしてもよい。

映像入力部４は、会議ロボット１０１の目に相当する部分に配置される。映像入力部４は、例えば、頭部１の正面で、２つの音声入力部３の間に設けられる。本実施形態では、頭部１は、水平方向に回転可能であるが、垂直方向には回転しない。しかしながら、頭部１に搭載されている映像入力部４は、撮影方向を上下に変更可能としてもよい。

音声出力部５は、例えば、映像入力部４の下方に設けられる。

音声バッファメモリ６、映像バッファメモリ７、コントローラ８、送信部１６、受信部１７、作業メモリ２５のうちの一部又は全部は、例えば頭部１又は胴部２内に設けられていてもよく、頭部１及び胴部２の外部に設けられていてもよい。

音声入力部３は、ステレオ方式又はバイノーラル方式の音声データを生成し、音声データを音声バッファメモリ６に格納する。

映像入力部４は、映像データを生成し、映像データを映像バッファメモリ７に格納する。

音声出力部５は、遠隔地端末１０２から通信ネットワークＮＷ経由で会議ロボット１０１に受信された音声データを再生する。

コントローラ８は、設定部９、データ管理部１０、映像処理部１１、ストリーミング部１２、判断部１３、再送指示部１４、ロボット制御部１５を備える。コントローラ８Ａは、図示せぬメモリ内のプログラムを実行することにより、設定部９、データ管理部１０、映像処理部１１、ストリーミング部１２、判断部１３、再送指示部１４、ロボット制御部１５として機能するとしてもよい。

設定部９は、会議ロボット１０１と通信ネットワークＮＷとの接続設定を行う。

また、設定部９は、会議場の映像データに基づいて、例えば、参加者の位置、ホワイトボードの位置など、会議前に必要なデータを画像認識により生成し、作業メモリ２５に格納してもよい。

データ管理部１０は、音声バッファメモリ６、映像バッファメモリ７、作業メモリ２５のデータを管理する。例えば、データ管理部１０は、音声バッファメモリ６に格納された音声データを分割し、分割された音声データにデータ識別情報、会議名、データ種別、再生順序、時間データ等の情報を含む音声データ情報を付加し、会議ロボット１０１からの送信及び遠隔地端末１０２での受信が正常に行われたか判断する送信単位の音声データを生成し、生成された音声データを作業メモリ２５に格納する。また、データ管理部１０は、映像バッファメモリ７に格納された映像データを、音声データの送信単位に対応するように分割し、分割された映像データにデータ識別情報、会議名、データ種別、再生順序、時間データ等の情報を含む映像データ情報を付加した送信単位の映像データを生成し、生成された映像データを作業メモリ２５に格納する。音声データ情報及び映像データ情報を参照することで、音声データと対応する映像データを特定することが可能となる。

本実施形態において、データ管理部１０は、判断部１３から音声データが正常に通信されたことを示す通知を受けた場合に、正常に通信された音声データを作業メモリ２５から削除する。また、データ管理部１０は、正常に通信された音声データの音声データ情報と対応する映像データ情報を有する映像データを、作業メモリ２５から削除する。しかしながら、データ管理部１０は、例えばバックアップ又は証拠用として、正常に通信された音声データ及び対応する映像データを削除することなく作業メモリ２５に維持してもよい。また、データ管理部１０は、音声バッファメモリ６及び映像バッファメモリ７を適宜解放する。

データ管理部１０は、再送指示部１４から削除停止の指示を受けた場合に、作業メモリ２５から音声データ及び映像データが削除されることを停止する。データ管理部１０は、再送指示部１４から削除処理の再開の指示を受けた場合に、削除処理を再開する。

本実施形態において、データ管理部１０は、音声バッファメモリ６に格納されたハイレゾリューション音声データを分割し、分割されたハイレゾリューション音声データに音声データ情報を付加し、生成されたハイレゾリューション音声データを作業メモリ２５に格納する。

また、データ管理部１０は、映像バッファメモリ７に格納されたハイレゾリューション映像データを分割し、分割されたハイレゾリューション映像データに映像データ情報を付加し、生成されたハイレゾリューション映像データを作業メモリ２５に格納してもよい。このハイレゾリューション映像データは、ハイレゾリューション音声データとともに会議議事録データとして会議ロボット１０１と遠隔地端末とのうちの少なくとも一方に保存される。ハイレゾリューション映像データは、例えば、会議終了後又は会議中であるが通信されるデータ量が少ない場合に、送信部１６によって会議ロボット１０１から遠隔地端末１０２へ送信されてもよい。

例えば、データ管理部１０は、音声データに基づいて、音声発生方向を検出してもよい。さらに、データ管理部１０は、会議場の映像データのデータ量、会議場の音声データのデータ量、遠隔地端末１０２から受信した音声データのデータ量を検出してもよい。

映像処理部１１は、作業メモリ２５に格納された映像データの処理を行う。例えば、映像処理部１１は、作業メモリ２５の映像データを変換し、変換後の映像データによって作業メモリ２５の映像データを更新する。

例えば、映像処理部１１は、音声入力部３への音声入力の有無に基づいて、映像データの解像度を調整する。具体的には、映像処理部１１は、音声データ情報及び映像データ情報に基づいて音声データに対応する映像データを作業メモリ２５から読み出し、音声データに基づく音声認識を実行し、音声データが会話（会議において意味のある音声）のある状態の場合に、当該音声データと対応する映像データの解像度を落とし、映像データのデータ量を下げる。

例えば、映像処理部１１は、映像データに対して画像解析を実行し、映像データが静止画領域と動画領域とに分離できると判断した場合に、映像データを静止画データと動画データとに分離する。例えば、映像処理部１１は、映像データに対して画像解析を実行し、会議室の映像のうちの背景と人物とを識別し、背景の映像データを静止画データに変換し、人物の映像データを動画データに変換する。例えば、映像処理部１１は、映像データからホワイトボード、スライド、配布資料、ディスプレイの画面等の資料データを検出した場合に、検出された資料データを解像度の高い静止画データに変換してもよい。

例えば、映像処理部１１は、映像データと、この映像データから検出された資料データとを区別可能な状態としてもよい。これにより、遠隔地端末１０２では、映像データと資料データとを、並べて、又は、選択的に表示することができる。

例えば、映像処理部１１は、映像データのうち背景を検出し、検出された背景を静止画データとし、背景が更新された場合にのみ背景の静止画データを高解像度としてもよい。

例えば、映像処理部１１は、映像データのうちデータ管理部１０で検出された音声発生方向の領域のフレームレートと解像度とのうちの少なくとも一方を、他の領域よりも高くしてもよい。

映像処理部１１は、データ管理部１０によって検出された会議場の映像データのデータ量、会議場の音声データのデータ量、遠隔地端末１０２から受信した音声データのデータ量に基づいて、映像データのデータ量を適宜調整する。これにより、音声データの品質を高く維持した状態で、スムーズに、音声データを会議ロボット１０１から通信ネットワークＮＷ経由で遠隔地端末１０２へ順次送信することができる。

ストリーミング部１２は、作業メモリ２５に格納されている音声データと、当該音声データに対応する映像データとを読み出し、当該音声データと映像データとを、順次又は所定の時間間隔で送信部１６へ送る。

ストリーミング部１２は、再送指示部１４からの指示を受けるまで、この処理を継続する。ストリーミング部１２は、再送指示部１４から、正常に送信又は受信されなかった音声データの再送信の指示を受けた場合に、それまでのストリーミングを停止し、正常に送信又は受信されなかった音声データとそれ以降の音声データを、再送音声データとして、順次又は所定の時間間隔で送信部１６へ送る再送ストリーミングを実行する。また、ストリーミング部１２は、再送ストリーミングにおいて、再送音声データに対応する映像データを送信可能であれば、当該映像データも再送ストリーミングに含める。

判断部１３は、音声データが、会議ロボット１０１から正常に送信されたか、及び、当該音声データが遠隔地端末１０２によって正常に受信されたか、を判断する。

例えば、判断部１３は、送信部１６が送信を完了した場合に、送信部１６から送信を完了したことを示す送信完了信号を受信する。所定時間内に送信部１６より送信完了信号を受信しない場合、判断部１３は、音声データが正常に送信されなかったと判断する。

例えば、判断部１３は、会議ロボット１０１から通信ネットワークＮＷ経由で遠隔地端末１０２に送信された音声データに対応する応答信号を、所定時間内に、会議ロボット１０１が通信ネットワークＮＷ経由で遠隔地端末１０２から受信していない場合、判断部１３は、音声データが正常に受信されなかったと判断する。

例えば、判断部１３は、送信部１６から送信完了信号を受け、受信部１７から応答信号を受けた場合に、送信完了信号の受付タイミングと応答信号の受付タイミングとの時間差を算出する。算出した時間差が所定の値を越える場合に、判断部１３は、音声データの送通信に遅延が生じ、当該音声データが正常に通信されなかったと判断する。算出した時間差が所定の値以下である場合に、判断部１３は、音声データが正常に通信されたと判断する。

判断部１３は、音声データが正常に通信されたと判断した場合に、正常に通信された音声データの音声データ情報をデータ管理部１０へ通知する。

判断部１３は、音声データが正常に通信されなかったと判断した場合に、エラー通知と正常に通信されなかった音声データの音声データ情報とを、再送指示部１４へ通知する。

再送指示部１４は、判断部１３からエラー通知を受けた場合に、データ管理部１０によるデータ削除処理を停止するための指示をデータ管理部１０に送り、正常に通信されなかった音声データに対応する再送音声データを順次再送するための指示をストリーミング部１２に送る。

すなわち、再送指示部１４は、判断部１３からの通知に基づいて、正常に通信されなかった音声データの音声データ情報をストリーミング部１２に通知し、再送音声データの再送ストリーミングを指示する。

これにより、通信エラーの生じた音声データまで遡って、正常に通信されなかった音声データと、正常に通信されなかった音声データよりも後に送信されるべき音声データとが再送信される。

再送指示部１４は、映像データの送信が可能であると判断した場合に、音声データと同期した映像データの送信の再開を指示する。例えば、再送指示部１４は、音声データが所定の回数正常に通信された場合に、映像データの送信が可能であると判断する。

映像データの送信が可能であると判断した場合に、再送指示部１４は、音声データの音声データ情報と対応する映像データ情報を有する映像データを送信部１６へ送るようにストリーミング部１２に指示する。

なお、本実施形態において、再送指示部１４は、再送ストリーミングの指示の前に、テスト用データを用いて通信状態のエラー（通信エラー）が解消されたか否かを判断するとしてもよい。この場合、例えば、再送指示部１４は、ストリーミング部１２、及び送信部１６を介してテスト用データを送信し、判断部１３が受信したテスト用データの送信完了信号と応答信号との時間差が所定の値以下であるか否かを判断する。再送指示部１４は、判断部１３による判断の結果、テスト用データの送信完了信号と応答信号との時間差が所定の値以下であると判断された場合に、通信エラーが解消されたと判断する。

本実施形態において、再送指示部１４は、再送音声データの再送ストリーミングの開始後、再送音声データに会議場の参加者の音声が含まれているか否か判断し、会議場の参加者の音声が含まれていない再送音声データの送信を飛ばす。これにより、音声の巻き戻しが発生した後に、会話のない部分で早送りが実現され、現在の会議場の音声データまで音声の再生を進めることができる。

加えて、再送指示部１４は、音声データ及び映像データの送信においてデータ量が所定の値以下であり、通信に余裕がある場合に、作業メモリ２５に格納されているハイレゾリューション音声データを送信部１６へ送るようにストリーミング部１２に指示する。

会議は、緩急があるため、通信ネットワークＮＷの通信負荷の軽い時間がある。この通信ネットワークＮＷの通信負荷の軽い時間に、ハイレゾリューション音声データを会議ロボット１０１から遠隔地端末１０２に送る。例えば、再送指示部１４は、バックグラウンドの処理で、事後的にハイレゾリューション音声データを送信させる。これにより、遠隔地端末１０２では、ある程度の時間が経過すると、ハイレゾリューション音声データで会議場の音声を再生することができる。

ロボット制御部１５は、受信部１７が受信したロボット制御情報に基づいてロボットを制御する。例えば、ロボット制御部１５は、遠隔地ユーザが遠隔地端末１０２の後述の操作部を操作し、遠隔地端末１０２の後述のロボット制御部で生成されたロボット制御情報に基づいて、モータによる会議ロボット１０１の頭部１、及び頭部１に設けられた映像入力部４の角度を制御する。

また、ロボット制御部１５は、音声データの品質、映像データの品質、データ管理部１０によって検出された各種のデータ量に基づいて、通信状態が会議場の参加者に理解可能なように、会議ロボット１０１のインジケータを制御し、又は、音声出力部５から音を出力する。

さらに、ロボット制御部１５は、音声データの品質、映像データの品質、データ管理部１０によって検出された各種のデータ量に基づいて、遠隔地端末のユーザが通信状態を理解可能なように、状態データを送信部１６経由で、遠隔地端末１０２に送信する。

本実施形態において、ロボット制御部１５は、自動で頭部１の横方向の角度を制御可能とする。例えば、ロボット制御部１５は、会議の開始前又は会議中に、映像データに基づいて顔認識技術などにより会議の参加者の位置を認識し、ホワイトボードの位置を認識し、会議ロボット１０１の頭部１の映像入力部４が認識された位置を自動で向くように制御する。例えば、ロボット制御部１５は、音声発生方向が映像データの中央部分になるように頭部１の水平方向の回転を制御する。これにより、通信ネットワークＮＷの遅延が発生する中で遠隔地ユーザが手動で映像入力部４の向きを微調整するよりも適切かつ迅速に、映像入力部４の向きを変えることができる。

例えば、ロボット制御部１５は、通信される各種データのデータ量が多くなった場合（所定のレベル以上になった場合）には、インジケータにより警告を表す所定の色を発光する（例えば頭部１を赤くする）。

送信部１６は、ストリーミング部１２からの音声データ及び映像データを、受け付けた順に、送信先の遠隔地端末１０２に送信する。

送信部１６は、音声データの送信が完了した場合に、送信が完了した音声データの音声データ情報とともに送信完了信号を判断部１３に送る。

送信部１６は、受信部１７が遠隔地端末１０２から音声データを受信した場合に、当該音声データを受信したことを示す応答信号を遠隔地端末１０２へ送信する。

受信部１７は、遠隔地端末１０２から通信ネットワークＮＷ経由で音声データを受信する。

受信部１７は、送信部１６が送信した音声データが遠隔地端末１０２によって受信されたことを示す応答信号を受信し、応答信号を判断部１３に送る。

遠隔地端末１０２は、音声入力部３Ａ、音声出力部５Ａ、音声バッファメモリ６Ａ、コントローラ８Ａ、ロボット制御部１５Ａ、送信部１６Ａ、受信部１７Ａ、操作部１８Ａ、映像出力部１９Ａ、作業メモリ２５Ａを備える。

コントローラ８Ａは、例えばＣＰＵ（Central Processing Unit）などのプロセッサに相当する。コントローラ８Ａは、設定部９Ａ、データ管理部１０Ａ、映像処理部１１Ａ、ストリーミング部１２Ａ、判断部１３Ａ、再送指示部１４Ａ、を備える。

コントローラ８Ａは、図示せぬメモリ内のプログラムを実行することにより、設定部９Ａ、データ管理部１０Ａ、映像処理部１１Ａ、ストリーミング部１２Ａ、判断部１３Ａ、再送指示部１４Ａ、として機能するとしてもよい。

映像処理部１１Ａは、受信部１７Ａが受信した映像データを加工する。例えば、映像処理部１１Ａは、受信部１７Ａが受信した静止画データと動画データとを合成し、合成した映像データを映像出力部１９Ａにより出力する。

例えば、映像処理部１１Ａは、映像データ、資料データを表示するための画面データを生成し、画面データを映像出力部１９Ａにより出力する。

例えば、映像処理部１１Ａは、会議の経過時間、再生中の再送音声データの生成時間、受信されたハイレゾリューション音声データの生成時間を示すタイムゲージを、映像出力部１９Ａにより出力する。タイムゲージは、再生中の音声データ又は再送音声データの再生状態、再生可能なハイレゾリューション音声データの受信状態を示す。

例えば、映像処理部１１Ａは、状態データに基づいて、音声データの品質、映像データの品質、通信状態を、遠隔地端末１０２のユーザが理解可能なように、表示する。

音声出力部５Ａは、会議ロボット１０１から通信ネットワークＮＷ経由で遠隔地端末１０２に受信された音声データを再生する。

また、音声出力部５Ａは、状態データに基づいて、音声データの品質、映像データの品質、通信状態を、遠隔地端末１０２のユーザが理解可能なように、音を出力する。

操作部１８Ａは、例えばキーボード、マウス等を介して遠隔地ユーザの操作を受け付ける。

例えば、判断部１３Ａは、音声品質が乱れたと判断した場合に、リトライマークを映像出力部１９Ａに表示してもよい。操作部１８Ａは、遠隔地ユーザからリトライ指示を受けた場合に、再送ストリーミングを開始する指示を、再送指示部１４Ａ、及び、会議ロボット１０１の再送指示部１４に送る。

ロボット制御部１５Ａは、遠隔地ユーザの操作部１８Ａの操作に基づいて、ロボット制御情報を生成し、ロボット制御情報を会議ロボット１０１に送信することを送信部１６Ａに指示する。

映像出力部１９Ａは、映像処理部１１Ａにより加工された映像データを出力する。

遠隔地端末１０２のその他の構成及び機能は、会議ロボット１０１における音声データに対する構成及び機能と同様であるため、説明を省略する。

図２は、第１の実施形態に係るストリーミングと再送ストリーミングとの一例を示す図である。

音声データＳＤ₀〜ＳＤ_Nと映像データＤＤ₀〜ＤＤ_Nとは、互いに対応付けられている。本実施形態において、映像データＤＤ₀〜ＤＤ_Nは、データ量を削減するための加工がなされていてもよい。

まず、音声データＳＤ₀及び映像データＤＤ₀から順に、ストリーミングが実行される。ここで、音声データＳＤ_Kまで送信された時点で、音声データＳＤ_Kより前に送信された音声データＳＤ₁に品質低下（エラー）が検出されたとする。この場合、本実施形態では、このエラーの発生した音声データＳＤ₁から再送ストリーミングが開始される。再送ストリーミングでは、映像データＤＤ₁以降の映像データの送信の優先度は、音声データＳＤ₁の優先度より低い。例えば、再送ストリーミングにおいて、映像データＤＤ₁以降の映像データの送信は、停止されてもよく、間引かれてもよい。通信状態が正常に戻った場合には、映像データの送信が通常の状態に戻される。

図３は、本実施形態に係る会議ロボット１０１のデータ送信処理の一例を示すフローチャートである。

ステップ３０１において、設定部９は、会議ロボット１０１と通信ネットワークＮＷとの接続設定を行う。

ステップ３０２において、音声入力部３は、音声入力を開始し、データ管理部１０は、音声データ情報を含む音声データを生成し、音声データを作業メモリ２５に格納し、映像入力部４は、映像入力を開始し、データ管理部１０は、映像データ情報を含む映像データを生成し、映像データを作業メモリ２５に格納する。

ステップ３０３において、映像処理部１１は、作業メモリ２５から映像データを読み出す。

ステップ３０４において、映像処理部１１は、読み出した映像データの映像データ情報を参照し、読み出した映像データに対応する音声データを作業メモリ２５から読み出し、読み出された音声データに会話、すなわち意味のある音声が含まれているか否かを判断する。読み出した映像データに会話が含まれていない場合、処理はステップ３０８へ進む。

読み出した映像データに会話が含まれている場合、処理はステップ３０５へ進む。

ステップ３０５において、映像処理部１１は、映像データの各フレームに基づいて、静止画領域と動画領域とを分離する。

ステップ３０６において、映像処理部１１は、静止画領域に基づいて、静止画データを生成する。例えば、映像処理部１１は、単位時間当たりのフレーム数を削減する。例えば、映像処理部１１は、各フレームの解像度を落とす。尚、フレームの解像度は、例えば映像が更新されたときは高いままでもよい。

ステップ３０７において、映像処理部１１は、動画領域に基づいて、動画データを生成する。例えば、映像処理部１１は、静止画領域のフレーム数よりも多いフレーム数の範囲で、動画データの単位時間当たりのフレーム数を削減する。例えば、映像処理部１１は、動画データの各フレームの解像度を落とす。

ステップ３０８において、映像処理部１１は、映像データを作業メモリ２５に格納する。

ステップ３０９において、会議が継続される場合、処理はステップ３０３へ戻る。会議が継続されない場合、処理は終了する。

尚、ステップ３０６とステップ３０７とは、順序が入れ替えられてもよく、並列に処理されてもよく、どちらか一方のみが処理されてもよい。

図４は、第１の実施形態に係るストリーミングの一例を示すフローチャートである。

ステップ４０１において、ストリーミング部１２は、作業メモリ２５の音声データと映像データの送信部１６への送信（ストリーミング送信）を開始する。

送信部１６は、ストリーミング部１２より高品質の音声データ及びデータ量の調整された映像データを送信する。送信部１６は、音声データの送信が完了した場合に、送信が完了したことを示す送信完了信号を判断部１３へ送る。

受信部１７は、遠隔地端末１０２から音声データを受信したことを示す応答信号を受信した場合に、応答信号を判断部１３へ送る。

ステップ４０２において、判断部１３は、通信状態を判断する。例えば、判断部１３は、送信部１６から送信完了信号を受けたか否かを判断する。例えば、判断部１３は、受信部１７から応答信号を受けたか否かを判断する。例えば、判断部１３は、送信完了信号を受けてから応答信号を受けるまでの時間差が、所定の値以下であるか否かを判断する。

送信部１６より送信完了信号を受けない場合、受信部１７より応答信号を受けない場合、又は、送信完了信号の受付時刻と応答信号の受付時刻との時間差が所定の値を越える場合に、判断部１３は、音声データが正常に通信されなかったと判断する。

送信完了信号の受付時刻と応答信号の受付時刻との時間差が所定の値以下である場合に、判断部１３は、音声データが正常に通信されたと判断する。

音声データが正常に通信されたと判断された場合、処理はステップ４１０に進む。

音声データが正常に通信されなかったと判断された場合、ステップ４０３において、判断部１３は、エラー通知と正常に通信されなかった音声データの音声データ情報とを再送指示部１４へ送信する。

ステップ４０４において、再送指示部１４は、データ管理部１０による音声データのデータ削除処理を停止する。

ステップ４０５において、再送指示部１４は、エラーデータの音声データ情報をストリーミング部１２に通知する。

ステップ４０６において、再送指示部１４は、通信エラーが解消されたか否かを判断する。例えば、再送指示部１４は、ストリーミング部１２、及び送信部１６を介してテスト用データを送信し、判断部１３が受けたテスト用データの送信完了信号と応答信号との時間差が所定の値以下であるか否かを判断する。再送指示部１４は、テスト用データの送信完了信号と応答信号との時間差が所定の値以下である場合に、通信エラーが解消されたと判断する。

通信状態のエラーが解消されていない場合、ステップ４０６の判断は繰り返される。

通信状態のエラーが解消されたと判断した場合、ステップ４０７において、再送指示部１４は、通信エラーの生じた音声データまで遡って、音声データの送信部１６への送信を再開するようにストリーミング部１２に指示する。

ステップ４０８において、再送指示部１４は、映像データの通信が可能であるか否かを判断する。例えば、再送指示部１４は、音声データが所定の回数正常に通信された場合に、通信ネットワークＮＷの状態が良好であり、映像データの通信が可能であると判断する。

映像データの通信が可能でないと判断された場合、ステップ４０８の判断は繰り返される。

映像データの通信が可能であると判断された場合、ステップ４０９において、再送指示部１４は、音声データ情報及び映像データ情報に基づいて、音声データと同期した映像データの送信を開始する。

すなわち、再送指示部１４は、ストリーミング部１２により、音声データの音声データ情報と対応する映像データ情報を有する映像データの送信部１６への送信を開始する。

また、再送指示部１４は、データ管理部１０によるデータ削除処理を開始する。

ステップ４１０において、会議が終了される場合、処理は終了する。会議が終了されない場合、処理はステップ４０２へ戻る。

尚、音声データが正常に通信されなかった場合に、再送指示部１４は、正常に通信されなかった音声データより所定の時間だけ前の音声データから再送信するように指示してもよい。

上記ステップ４０２における判断部１３による通信状態の判断結果に基づいて、図３のステップ３０５〜３０７における映像データ加工（データ量の削減）が実行されるか否か決定されてもよい。例えば、ステップ４０２において、判断部１３が所定の時間内に所定数以上の通信エラーを確認した場合に、映像処理部１１は、映像データの圧縮率を上げてもよい。

図５は、第１の実施形態に係る遠隔者端末１０２の映像出力部１９Ａにおける表示画面の一例を示す図である。

画面２６は、映像データの表示領域２７と、キャプチャされた資料データの表示領域２８と、再生タイムゲージ２９とを含む。

映像データの中央部２７ａには、会議場で発言している参加者が移されており、この中央部２７ａの解像度とフレームレートとのうちの少なくとも一方は、映像データの他の部分２７ｂよりも高い。中央部２７ａは、音声発生方向に相当する領域である。

表示領域２に表示される資料データは、映像データの中央部２７ａ及び他の部分２７ｂよりも高解像度であることが好ましく、フレームレートは低くてよい。

再生タイムケージ２９は、会議が始まってから経過した時間２９ａ、現在の音声再生中の時間２９ｂ、ハイレゾリューション音声データの受信済みの時間２９ｃを表示する。

例えば、音声データが巻き戻されることなく通常状態でストリーミングされており、再送ストリーミングが発生していない場合には、会議が始まってから経過した時間２９ａと現在の音声再生中の時間２９ｂとは一致する。

例えば、音声データの再送ストリーミングが発生した場合には、会議が始まってから経過した時間２９ａより前の時間を表す位置に、現在の音声再生中の時間２９ｂが表示される。再送ストリーミングが音声のない再送音声データを飛ばしながら進むと、会議が始まってから経過した時間２９ａと現在の音声再生中の時間２９ｂとは再び一致する。

ハイレゾリューション音声データは、会議ロボット１０１と遠隔地端末１０２との間のデータ通信量が所定値より少なく、無理なくハイレゾリューション音声データが通信可能な時間に、会議ロボット１０１から遠隔地端末１０２へ送信される。このため、ハイレゾリューション音声データの受信済みの時間２９ｃは、会議が始まってから経過した時間２９ａ及び現在の音声再生中の時間より前の時間を示す位置に表示される。

以上説明した第１の実施形態においては、会議ロボット１０１の目に相当する位置に、映像入力部４が配置される。このため、会議の参加者が会議ロボット１０１の頭部１を見て話した場合に、遠隔地端末１０２のユーザは、自分が話しかけられたことを違和感なく容易に理解することができる。また、会議参加者は、会議場に設置された会議ロボットの向きから遠隔地のユーザの注目箇所を把握することができる。

第１の実施形態によれば、判断部１３により、音声データが正常に通信されたか否かが判断され、音声データが正常に通信されなかった場合に、正常に通信されなかったエラーデータを特定し、通信エラーの解消された後、エラーデータまで遡って音声データが再送信される。したがって、通信ネットワークＮＷに例えば輻輳が生じた場合であっても、音声を途切れさせることなく、品質の高い音声データを確実に送信することができる。

さらに、第１の実施形態によれば、再送信の指示に応じて、又は、自動的に、既に作業メモリ２５に格納されている音声データの中から、正常に通信されなかった音声データが読み出され、再送信されるので、例えば、通信エラーが確認されてから送信用の音声データを録音し、送信する場合と比較して、音声データの発信者（発言者）の負担を軽くすることができ、円滑な会議を実現することができる。

さらに、第１の実施形態によれば、映像データは、映像データに含まれる領域の重要度、映像データの種類、音声の有無、通信ネットワークＮＷの状態に応じて映像処理部１１により適宜にデータ量が削減される。したがって、映像データの通信によって通信ネットワークＮＷの負荷が増すことを防止することができ、映像データの品質よりも音声データの品質を優先してステレオ方式又はバイノーラル方式の音声データを送信することができる。

第１の実施形態において、例えば、ロボットの頭部１は水平方向にのみ回転可能とする。本実施形態において、映像入力部４の撮影方向を上下に変更する必要がある場合には、例えば、頭部１を上下に回転させるのではなく、頭部１に備えられている映像入力部４の撮影方向を上下に変更する。これにより、ロボットの駆動及び操作を簡略化することができ、製造及びメンテナンスのコストを抑制することができる。

［第２の実施形態］
本実施形態においては、上記第１の実施形態の変形例について説明する。

図６は、第２の実施形態に係る会議システム１１０の構成の一例を示すブロック図である。上記の第１の実施形態では、会議ロボット１０１は、音声データのみを受信したが、第２の実施形態では、会議ロボット１１１は、音声データと映像データとを受信する。

本実施形態では、遠隔地端末１１２は、映像入力部４Ａ及び映像バッファメモリ７Ａをさらに備える。

会議ロボット１１１は、インジケータ２０ａ，２０ｂ，２０ｃ，２０ｄ、モーションキャプチャ部２１、インジケータ制御部２２、動作モデル記憶部２３、映像出力端子２４をさらに備える。

インジケータ２０ａ，２０ｂ，２０ｃ，２０ｄは、例えばＬＥＤ等の複数の発光素子を含む。インジケータ２０ａは、例えば垂直方向（縦方向）に配置された発光素子を含む。インジケータ２０ｂは、例えば水平方向（横方向）に配置された発光素子を含む。インジケータ２０ｃは、例えば楕円状又は円状に配置された発光素子を含む。インジケータ２０ｄは、例えば垂直方向（縦方向）に配置された発光素子を含む。

動作モデル記憶部２３は、例えば、「頷き」、「首振り」、「考え中」等の動作をインジケータ２０ａ，２０ｂ，２０ｃ，２０ｄを用いて表現する動作モデルデータを記憶する。「頷き」は、例えば首を縦に振る動作を示す。「首振り」は、例えば首を横に振る動作を示す。「考え中」は、例えば首を傾げる動作を示す。

動作モデルデータは、特定の動作に対し、例えば人体の所定の位置に付されたマーカーの典型的な変位を示す情報（マーカー変位情報）を含む。

例えば、「頷き」を示す動作モデルデータは、人体の頭部に付されたマーカーが垂直方向（縦方向）に反復動作することを示すマーカー変位情報を含む。

例えば、「首振り（横振り）」を示す動作モデルデータは、人体の頭部に付されたマーカーが水平方向（横方向）に反復動作することを示すマーカー変位情報を含む。

例えば、「考え中」を示す動作モデルデータは、人体の頭部に付されたマーカーが所定の点を中心として円弧を描く動作を示すマーカー変位情報を含む。

モーションキャプチャ部２１は、受信部１７が受信した遠隔地端末１１２のユーザの映像データを解析し、遠隔地ユーザの動作情報を検出する。例えば、モーションキャプチャ部２１は、受信した映像データから遠隔地ユーザの動作を検出し、検出された動作と動作モデル記憶部２３に格納されている動作モデルデータが示す動作（「頷き」、「首振り」、「考え中」）とを比較する。

映像データから検出された動作が、動作モデルデータが示す動作のいずれかと類似している場合、モーションキャプチャ部２１は、抽出された動作と類似した動作を示す動作モデルデータの情報を、動作情報としてインジケータ制御部２２に通知する。

インジケータ制御部２２は、モーションキャプチャ部２１から送信された動作情報に基づいて、インジケータ２０ａ，２０ｂ，２０ｃ，２０ｄを制御する。

例えば、インジケータ制御部２２は、モーションキャプチャ部２１から「頷き」の動作情報を受信した場合に、インジケータ２０ａの発光素子に青色の光を点灯し、「頷き」の動作を表現する。例えば、インジケータ制御部２２は、発光素子の配置にそって発光素子を順次点滅させ、青色の光が縦方向に振動する様子を表現する。

例えば、インジケータ制御部２２は、モーションキャプチャ部２１から「首振り」の動作情報を受信した場合に、インジケータ２０ｂの発光素子に赤色の光を点灯し、「首振り」の動作を表現する。例えば、インジケータ制御部２２は、発光素子の配置にそって発光素子を順次点滅させ、赤色の光が横方向に振動する様子を表現する。

例えば、インジケータ制御部２２は、モーションキャプチャ部２１から「考え中」の動作情報を受信した場合に、インジケータ２０ｃの発光素子に黄色の光を点灯し、「考え中」の動作を表現する。例えば、インジケータ制御部２２は、発光素子の配置にそって発光素子を順次点滅させ、黄色の光が周回する様子を表現する。

また、インジケータ制御部２２は、音声データの通信状態に応じて、インジケータ２０ｄを制御する。

例えば、インジケータ制御部２２は、会議ロボット１１１が音声データを受信した場合に、インジケータ２０ｄの発光素子を点灯する。インジケータ制御部２２は、例えば音声の大きさに応じてインジケータ２０ｄの発光強度を制御してもよい。

例えば、インジケータ制御部２２は、会議場の参加者が話をしており、会議ロボット１１１の映像入力部４がその話をしている参加者の方向を向いている場合に、音声入力に応じて、自動で頷きを表現するインジケータ２０ａを発光させる。

尚、インジケータ２０ａ，２０ｂ，２０ｃ，２０ｄの形状、配置、表示方法は、適宜に変更可能である。

図７は、第２の実施形態に係る会議ロボット１１１の映像データ受信処理の一例を示すフローチャートである。

ステップ７０１において、受信部１７は、映像データを受信し、受信した映像データを映像処理部１１に送る。

ステップ７０２において、映像処理部１１は、受信した映像データが静止画データか否かを判断する。

受信した映像データが静止画データであると判断した場合、ステップ７０３において、映像処理部１１は、映像出力端子２４に接続されたディスプレイ装置によって静止画データを出力する。その後、処理はステップ７０８に進む。

受信した映像データが静止画データでないと判断した場合、ステップ７０４において、映像処理部１１は、映像データ（動画データ）をモーションキャプチャ部２１に送信し、モーションキャプチャ部２１は、映像データから動作情報を抽出する。

ステップ７０５において、モーションキャプチャ部２１は、映像データから抽出した動作が、動作モデル記憶部２３に格納されている動作モデルデータが示す動作のいずれかと類似しているか否かを判断する。

映像データから抽出した動作が、動作モデルデータが示す動作のいずれかとも類似していない場合、処理はステップ７０８に進む。

映像データから抽出した動作が、動作モデルデータが示す動作のいずれかと類似している場合、ステップ７０６において、モーションキャプチャ部２１は、抽出した動作と類似した動作を示す動作モデルデータの情報を動作情報としてインジケータ制御部２２に通知する。

ステップ７０７において、インジケータ制御部２２は、通知された動作情報に基づいて、インジケータ２０ａ，２０ｂ，２０ｃ，２０ｄの表示を制御する。

ステップ７０８において、映像データの受信が終了している場合、処理は終了する。映像データの受信が終了していない場合、処理はステップ７０２に戻る。

第２の実施形態によれば、会議ロボット１１１が受信した映像データから例えば遠隔地ユーザの動作情報が抽出され、動作情報と音声データとに基づいてインジケータ２０ａ，２０ｂ，２０ｃ，２０ｄの表示が制御される。したがって、会議場の会議参加者は、会議ロボット１１１の視線のみならず、インジケータ２０ａ，２０ｂ，２０ｃ，２０ｄの表示からも遠隔地ユーザのノンバーバルな表現を把握することができる。

さらに、第２の実施形態によれば、例えばモータにより会議ロボットを実際に駆動させる場合と比較して、低コスト且つ容易に遠隔地ユーザの動作及び表情を表現することができる。

さらに、第２の実施形態においては、会議ロボット１１１が、遠隔地端末１０２のユーザの操作及び動作に基づく動作に加えて、自動で頭部１の方向、インジケータ２０ａ，２０ｂ，２０ｃ，２０ｄの発光を制御する。このように、手動の動作及び自動の動作を融合させることで、遠隔地端末１０２のユーザの操作負担を軽減するとともに、会議ロボット１１１の迅速かつ自然な挙動を実現できる。

尚、モーションキャプチャ部２１、インジケータ制御部２２、及び動作モデル記憶部２３は、遠隔地端末１１２に備えられていてもよい。この場合、インジケータ制御部２２は、インジケータ２０ａ，２０ｂ，２０ｃ，２０ｄの制御情報を、送信部１６Ａ経由で会議ロボット１１１に送信する。これにより、会議ロボット１１１の製造コスト及び動作負荷を低減することができる。

また、インジケータ制御部２２は、例えば、遠隔地端末１１２の操作部１８Ａを介して遠隔地ユーザにより入力されたロボット制御情報に基づいてインジケータ２０ａ，２０ｂ，２０ｃ，２０ｄを制御してもよい。

インジケータ制御部２２は、ロボット制御部１５に含まれているとしてもよい。

また、インジケータ２０ａ，２０ｂ，２０ｃ，２０ｄは、遠隔地ユーザの動作に加えて、遠隔地ユーザの表情に基づいて、制御されてもよい。例えば、モーションキャプチャ部２１は、受信した映像データから、遠隔地ユーザの表情を抽出し、表情情報をインジケータ制御部２２に送り、インジケータ制御部２２は、受けた表情情報に基づいて、インジケータインジケータ２０ａ，２０ｂ，２０ｃ，２０ｄを制御してもよい。

上記の各実施形態は、発明の趣旨が変わらない範囲で様々に変更して適用することができる。例えば、各構成要素は、適宜、組み合わされてもよく、分離されてもよい。

１…頭部、２…胴部、３，３Ａ…音声入力部、４，４Ａ…映像入力部、５，５Ａ…音声出力部、６，６Ａ…音声バッファメモリ、７，７Ａ…映像バッファメモリ、８，８Ａ…コントローラ、９，９Ａ…設定部、１０，１０Ａ…データ管理部、１１，１１Ａ…映像処理部、１２，１２Ａ…ストリーミング部、１３，１３Ａ…判断部、１４，１４Ａ…再送指示部、１５，１５Ａ…ロボット制御部、１６，１６Ａ…送信部、１７，１７Ａ…受信部、１８Ａ…操作部、１９Ａ…映像出力部、２０ａ，２０ｂ，２０ｃ，２０ｄ…インジケータ、２１…モーションキャプチャ部、２２…インジケータ制御部、２３…動作モデル制御部、２４…映像出力端子。

Claims

会議ロボットと、
前記会議ロボットと通信可能に接続されている端末と、
を具備し、
前記会議ロボットは、
垂直方向の回転軸を持つ頭部と、
前記頭部を水平方向に回転可能に支持する胴部と、
ステレオ方式又はバイノーラル方式の第１の音声データを入力する第１の音声入力部と、
前記頭部に備えられ、前記第１の音声データに対応する映像データを入力する映像入力部と、
前記第１の音声データと前記映像データとを格納するメモリと、
前記第１の音声データの通信が正常か否か判断する判断部と、
前記メモリに格納されている前記第１の音声データと前記第１の音声データに対応する前記映像データとを前記端末へ順次送信し、前記判断部によって前記通信が正常でないと判断された場合に、前記メモリに格納されており前記通信が正常でないと判断された前記第１の音声データに対応する再送音声データを前記端末へ順次送信する第１の送信部と、
前記第１の音声入力部に入力された前記第１の音声データに基づいて音声発生方向を認識し、前記映像入力部を前記音声発生方向へ向ける制御を実行する制御部と、
受信された前記端末のユーザの第２の音声データを出力する第１の音声出力部と、
を具備し、
前記端末は、
受信された前記第１の音声データを出力し、前記再送音声データが受信された場合に前記再送音声データを出力する第２の音声出力部と、
会議の経過時間を表示し、前記再送音声データが前記第２の音声出力部によって出力されている場合に前記再送音声データの生成された時間を表示するタイムゲージを生成する映像処理部と、
前記映像データと前記タイムゲージとを出力する映像出力部と、
前記ユーザの前記第２の音声データを入力する第２の音声入力部と、
前記第２の音声データを前記会議ロボットへ送信する第２の送信部と、
を具備する、
会議システム。
前記第１の送信部は、前記判断部によって前記通信が正常と判断された場合に、前記第１の音声データと前記第１の音声データに対応する前記映像データとを同期して送信し、前記判断部によって前記通信が正常でないと判断された場合に、前記再送音声データを、前記映像データと非同期で送信する、
請求項１に記載の会議システム。
前記第１の送信部は、前記再送音声データに会話が含まれていないと判断された場合に、前記再送音声データの送信を飛ばす、
請求項１又は請求項２に記載の会議システム。
前記会議ロボットは、前記映像データのデータ量を削減する第２の映像処理部をさらに具備し、
前記第１の送信部は、前記第１の音声データと、前記第１の音声データに対応するデータ量の削減された前記映像データとを順次送信する、
請求項１乃至請求項３のいずれか１項に記載の会議システム。
前記第２の映像処理部は、前記第１の音声データに会話が含まれている場合に、前記第１の音声データに対応する前記映像データの解像度を削減する、
請求項４に記載の会議システム。
前記第２の映像処理部は、前記映像データを動画領域と静止画領域とに分離し、前記動画領域のデータ量を削減し、前記静止画領域の解像度を所定値以上にする、
請求項４又は請求項５に記載の会議システム。
会議場に設置するための第１の端末と、
前記第１の端末と通信可能に接続される第２の端末と、
を具備し、
前記第１の端末は、
第１の音声データを入力する第１の音声入力部と、
前記第１の音声データに対応する映像データを入力する映像入力部と、
前記第１の音声データと前記映像データとを格納するメモリと、
前記第１の音声データの通信が正常か否か判断する判断部と、
前記メモリに格納されている前記第１の音声データと前記第１の音声データに対応する前記映像データとを前記第２の端末へ順次送信し、前記判断部によって前記通信が正常でないと判断された場合に、前記メモリに格納されており前記通信が正常でないと判断された前記第１の音声データに対応する再送音声データを前記第２の端末へ順次送信する第１の送信部と、
前記第２の端末から受信された前記第２の端末のユーザの第２の音声データを出力する第１の音声出力部と、
を具備し、
前記第２の端末は、
受信された前記第１の音声データを出力し、前記再送音声データが受信された場合に前記再送音声データを出力する第２の音声出力部と、
会議の経過時間を表示し、前記再送音声データが前記第２の音声出力部によって出力されている場合に前記再送音声データの生成された時間を表示するタイムゲージを生成する映像処理部と、
前記映像データと前記タイムゲージとを出力する映像出力部と、
前記ユーザの前記第２の音声データを入力する第２の音声入力部と、
前記第２の音声データを前記第１の端末へ送信する第２の送信部と、
を具備する、
会議システム。