JP2009232054A

JP2009232054A - 会議支援システム

Info

Publication number: JP2009232054A
Application number: JP2008073580A
Authority: JP
Inventors: Yusuke Suzuki; 雄介鈴木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2008-03-21
Filing date: 2008-03-21
Publication date: 2009-10-08

Abstract

【課題】音声や映像などの複数の指標を用いて、会議の盛り上がり等の進行状況を確実に判断することのできる会議支援システムを得る。
【解決手段】クライアント端末１００は、会議参加者の音声入力を受け付けてその音声データを出力する音声入力部１２０と、会議参加者の映像を撮像してその映像データを出力する撮像部１１０と、音声入力部１２０および撮像部１１０からの出力を加算して当該会議参加者の積極度を表す第１積極度データを算出する演算部１６０と、クライアント端末同士でデータを送受信する通信部１３０と、情報を画面表示する表示部１４０と、を備え、通信部１３０は、第１積極度データを他クライアント端末に送信するとともに、他クライアント端末から当該他クライアント端末を使用している会議参加者の積極度を表す第２積極度データを受信し、表示部１４０は、第２積極度データを画面表示する。
【選択図】図１

Description

本発明は、遠隔会議の進行を支援するシステムに関するものである。

近年のブロードバンド化の流れから、会議参加者がインターネットなどのネットワークを介して、音声や映像を双方向に送受信して行う遠隔会議システムが一般化している。
このような遠隔地を通信技術で接続する会議においては、参加者が会議室などの実空間を共有して行う通常の会議では顕在化しづらい課題が顕著に現れる。
例えば、表情や姿勢などの言語化しづらい情報が共有されづらいため、会議参加者が話者の発言内容に対してどの程度興味を持っているのか、遠隔地で行われている会議がどのような盛り上がり方をしているのか、等が分かりづらい。

上記のような点に鑑み、『複数の会議場間で行われる遠隔会議において、遠隔地の会議場の盛り上がりの度合いを把握することを容易化する。』ことを目的とした技術として、『会議支援装置１０は、会議場Ａにおける参加者の動作を表す動作情報を取得し、取得された動作情報に基づき会議場Ａにおける発言動作を認識し、この認識結果に基づいて会議場Ａの盛り上がりの度合いを示す会議場活性度を算出し、算出された会議場活性度を会議場Ｂの参加者に提示する。』というものが提案されている（特許文献１）。

特開２００６−３０２０４７号公報（要約）

上記特許文献１に記載の技術では、会議における音声や映像などを指標として会議の盛り上がり具合などの進行状況を判断するが、これらの指標のうちいずれを重点的に用いるかによって進行状況に関する判断が異なる上、各指標には一定のノイズ等が含まれていることがあるため、進行状況を確実に判断することが難しい場合があった。

そのため、音声や映像などの複数の指標を用いて、会議の盛り上がり等の進行状況を確実に判断することのできる会議支援システムが望まれていた。

本発明に係る会議支援システムは、会議参加者の映像と音声を相互に送受信する複数のクライアント端末を有し、前記クライアント端末は、会議参加者の音声入力を受け付けてその音声データを出力する音声入力部と、会議参加者の映像を撮像してその映像データを出力する撮像部と、前記音声入力部および前記撮像部からの出力を加算して当該会議参加者の積極度を表す第１積極度データを算出する演算部と、クライアント端末同士でデータを送受信する通信部と、情報を画面表示する表示部と、を備え、前記通信部は、前記第１積極度データを他クライアント端末に送信するとともに、他クライアント端末から当該他クライアント端末を使用している会議参加者の積極度を表す第２積極度データを受信し、前記表示部は、前記第２積極度データを画面表示するものである。

本発明に係る会議支援システムによれば、クライアント端末の演算部は、会議参加者の音声データと映像データを加算して、当該会議参加者の積極度を求めるので、音声や映像にノイズ等が含まれている場合であっても、これらが平滑化されて総合的に精度良く積極度を求めることができる。
また、他クライアント端末との間で積極度データを互いに送受信することにより、遠隔地との間でも会議の盛り上がり具合などの進行状況を、相互に把握することができる。

実施の形態１．
図１は、本発明の実施の形態１に係る会議支援システムの構成図である。
図１において、クライアント端末１００ａと１００ｂは、同様の構成を備え、ネットワーク２００を介して接続されており、相互に音声や映像を送受信することで、会議参加者同士が遠隔会議を行うことを支援する端末である。以下、クライアント端末１００ａと１００ｂを総称するときは、単にクライアント端末１００とする。
クライアント端末１００ａや１００ｂを利用して遠隔会議に参加する会議参加者は、各クライアント端末が設置されている空間において、１ないし複数存在するものとする。即ち、複数の会議参加者が存在する空間にクライアント端末１００を設置し、同一のクライアント端末１００を複数の会議参加者が利用する場合もある。

クライアント端末１００は、撮像部１１０、音声入力部１２０、通信部１３０、表示部１４０、音声出力部１５０、演算部１６０を備える。

撮像部１１０は、例えばデジタル式カメラなどの映像撮像デバイスで構成され、クライアント端末１００を利用する会議参加者の映像を撮像してその撮像データを演算部１６０と通信部１３０に出力する。
音声入力部１２０は、例えばマイクなどの音声入力デバイスで構成され、クライアント端末１００を利用する会議参加者の発話音声を取得してその音声データを演算部１６０と通信部１３０に出力する。

通信部１３０は、撮像部１１０、音声入力部１２０、演算部１６０が出力するデータを他の会議参加者が使用するクライアント端末（図１ではクライアント端末１００ｂ、以下同様）に送信する。
また、通信部１３０は、クライアント端末１００ｂが送信する音声データ、映像データ、会議データを受信し、音声データは音声出力部１５０へ、映像データと会議データは表示部１４０へ、それぞれ出力する。会議データの内容については、後述する。

なお、図１では、通信部１３０が受信したデータをそのまま表示部１４０や音声出力部１５０に出力するように記載したが、演算部１６０が一旦データを受け付けて、適当な形式に適宜変換するなどしてから各部に出力するようにしてもよい。
同様に、撮像部１１０や音声入力部１２０が取得した映像データや音声データを一旦演算部１６０に出力し、適当な形式に適宜変換するなどしてから通信部１３０に出力するようにしてもよい。

表示部１４０は、ディスプレイ等の画面表示デバイスで構成され、クライアント端末１００ｂから送信された映像データや会議データを画面表示する。
音声出力部１５０は、スピーカ等の音声出力デバイスで構成され、クライアント端末１００ｂから送信された音声データを音声出力する。

演算部１６０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の演算装置で構成され、クライアント端末１００の全体動作の制御と、後述する会議データの生成や受信に関する処理を実行する。
演算部１６０は、差分検出部１６１、画像保持部１６２、動作推定部１６３、音源推定部１６４、平均出力部１６５、会議データ生成部１６６を備える。これら各部は、演算部１６０の一部を構成する回路デバイス等のハードウェアとして構成してもよいし、演算部１６０の動作を規定するソフトウェアとして構成してもよい。

差分検出部１６１は、撮像部１１０より映像データを受け取り、その１コマ分（例えば３０コマ／秒の映像データであれば３０分の１秒相当の静止画像）の画像データと、画像保持部１６２が保持している１コマ分の画像データとの差分を求め、動作推定部１６３に差分データとして出力する。差分検出の具体動作は、後述の図６で説明する。
画像保持部１６２は、撮像部１１０より映像データを受け取り、その映像データを各コマ毎に分割して得た複数の静止画像データを、図示しないメモリ等の記憶装置内に保持する。保持する画像データの数は、メモリの記憶容量等に応じて適宜定める。

動作推定部１６３は、差分検出部１６１が出力する差分に基づき、当該差分の元となった映像データ内で動いている人物や物体の動きを推定し、その推定結果を平均出力部１６５に出力する。動作推定の具体例は、後述の図７で説明する。

音源推定部１６４は、音声入力部１２０より音声データを受け取り、公知の音源推定アルゴリズム等を用いて、クライアント端末１００が設置されている空間における当該音声データの発生源（音源位置）を推定し、推定結果を平均出力部１６５に出力する。

平均出力部１６５は、動作推定部１６３と音源推定部１６４の推定結果データを受け取り、両者の重み付き加算値を求める。これにより、発話を行ったり、身振り手振りを激しく行ったりして、当該クライアント端末１００が設置されている空間で会議に積極的に参加している参加者の当該空間における存在位置を、精度良く推定することができる。
平均出力部１６５は、上述の重み付き加算値を求めた後、その結果データを、２次元平面上の起伏データの形式で生成する。
即ち、クライアント端末１００を設置している空間の２次元座標と、その各座標において積極的な会議参加者が存在している可能性の高さを起伏値で表したデータを、上述の結果データとして生成する。
この結果、後述の図５で説明するように、積極的な会議参加者が存在している可能性が高い座標は山状の盛り上がりが高く、そうでない座標は平坦に表現した、凹凸データを含む２次元平面データが生成される。

会議データ生成部１６６は、平均出力部１６５が出力する２次元平面データを、後述の図５で説明するような画像データに変換し、通信部１３０に出力する。

以上、本実施の形態１に係る会議支援システム、およびクライアント端末１００の構成を説明した。次に、クライアント端末１００による会議支援動作について説明する。
なお、遠隔会議に関する動作は、音声と映像をクライアント端末間で相互に送受信する一般的なものであるため、説明を省略する。

図２は、クライアント端末１００を設置した会議空間のイメージ図である。ここでは、会議空間を天井から見た図を示した。なお、クライアント端末１００の記載は省略した。
図２において、会議参加者３００は、クライアント端末１００を使用して遠隔会議に参加している。遠隔の会議参加者にとっては、図２の会議空間の状況が直接には把握できないため、会議参加者３００がどの程度積極的に会議に参加しているかが分かりにくい。
そこで、クライアント端末１００は、以下に説明するような手法により、会議参加者３００の積極度を求め、他クライアント端末に送信して、遠隔の会議参加者が会議参加者３００の積極度を把握できるように支援する。

図３は、動作推定部１６３の推定結果を視覚的に表したものである。ここでは、撮像部１１０を図２の会議空間の天井に配設してクライアント端末１００と接続した例を示す。
図３において、山状の盛り上がりが高くなっている部分は、その高さに比例する映像上の大きな動きがあったことを示している。即ち、盛り上がりが高い部分に会議参加者３００が存在し、その盛り上がりが高いほど、会議参加者３００が身振り手振りを大きくするなどして積極的に会議へ参加しているものと推測される。
なお、動作推定部１６３の推定動作については、後述の図７で説明する。

図４は、音源推定部１６４の推定結果を視覚的に表したものである。
図４において、山状の盛り上がりが高くなっている部分は、その高さに比例する大きな音声入力があったことを示している。即ち、盛り上がりが高い部分に会議参加者３００が存在し、その盛り上がりが高いほど、会議参加者３００が大きな声で発話するなどして積極的に会議へ参加しているものと推測される。

ところが、音声の反響などの影響により、図２の会議空間における音源が会議参加者３００の発話音声による１箇所のみであっても、音源推定部１６４は複数の箇所に音源が存在するものと誤って推定してしまう場合がある。
動作推定の結果についても、例えば会議空間内に会議参加者以外の移動物体等が存在することにより、音源推定と同様にノイズや検出誤差等が発生する可能性がある。

このような推定誤りは、会議参加者３００の積極度を推測する妨げとなるため、遠隔会議を支援する観点から好ましくない。そこで、動作推定部１６３の推定結果と音源推定部１６４の推定結果を足し合わせ、両者を総合的に評価することで、より正確に会議参加者３００の積極度を求めることを考える。

図５は、平均出力部１６５の算出結果を視覚的に表したものである。
平均出力部１６５は、図３〜図４で説明したような各部の推定結果を、重み付けをした上で足し合わせ、図５に示すような凹凸データを含む２次元平面データを出力する。
各部の推定結果を足し合わせることにより、各部の推定誤り等が平滑化され、推定結果の精度が向上する。また、重み付けの配分を調整することにより、映像と音声のいずれを重視して会議参加者３００の積極度を推測するかを調整することができる。
平均出力部１６５の動作については、後述の図８で説明する。

図６は、差分抽出部１６１の動作フローを説明するものである。以下、図６の各ステップについて説明する。

（Ｓ６０１）
差分抽出部１６１は、撮像部１１０が取得した映像データから、１コマ分の画像データを取得する。即ち、ここで取得する画像データは、静止画像データである。
（Ｓ６０２）
差分抽出部１６１は、画像保持部１６２が画像データを保持しているか否かを確認する。保持していればステップＳ６０３へ進み、保持していなければＳ６０８へ進む。
なお、画像保持部１６２が保持している画像データは、後述のステップＳ６０８で説明する通り、１コマ前の画像データである。
（Ｓ６０３）
差分抽出部１６１は、以下のステップＳ６０４〜Ｓ６０６を、ステップＳ６０１で取得した画像データの全ての画素について実行する。

（Ｓ６０４）
差分抽出部１６１は、画像保持部１６２が保持している画像データと、ステップＳ６０１で取得した画像データとの、画像上の同じ位置における画素値の差分を求める。
なお、説明の簡易のため、画像データは２次元平面上の画素毎に画素値を１つのみ持つものとする。色表現のため画素毎に複数の画素値を持つ場合でも、減色処理を行うなどして、本ステップと同様の処理を行うことができる。

（Ｓ６０５）
差分抽出部１６１は、ステップＳ６０４で求めた差分が、所定閾値以上であるか否かを判定する。閾値以上であればステップＳ６０６へ進み、閾値未満であればステップＳ６０３へ戻って次の画素について同様の処理を繰り返す。

（Ｓ６０６）
差分抽出部１６１は、メモリ等の記憶装置に、動作推定部１６３へ出力するための差分データを格納する領域を確保しておき、現在の画素に相当する位置に、現在の画素値をコピーする。
本ステップの処理により、１コマ前の画像データと比較して動きの大きい部分の画素のみが、差分データとして保持されることになる。

（Ｓ６０７）
差分抽出部１６１は、メモリ等の記憶装置に格納している差分データを、動作推定部１６３へ出力する。動作推定部１６３は、メモリ等の記憶装置に、受け取った差分データを格納する。
（Ｓ６０８）
差分抽出部１６１は、ステップＳ６０１で取得した画像データを、画像保持部１６２に格納する。
以後、本処理フローを再度実行するときは、ステップＳ６０１で次の１コマ分の画像データを取得し、本ステップで画像保持部１６２に格納した現在の画像データとの差分を求めることになる。

以上の図６の処理により、撮像部１１０が取得した映像データのなかで動きの大きい部分のみを抽出した複数の静止画像データが抽出されることになる。

図７は、動作推定部１６３の動作フローを説明するものである。以下、図７の各ステップについて説明する。

（Ｓ７０１）
動作推定部１６３は、一定時間処理を行わずに待機する。
（Ｓ７０２）
動作推定部１６３は、差分抽出部１６１が出力した差分データを、メモリ等の記憶装置上にｎ個（所定の基準値）以上保持しているか否かを判定する。ｎ個以上保持していなければステップＳ７０１へ戻って一定時間待機し、ｎ個以上保持していればステップＳ７０３へ進む。
ここでの基準値ｎは、何コマ分の静止画像データを用いて動作推定を行うかの基準に相当する。

（Ｓ７０３）
動作推定部１６３は、差分データの全画素について、以下のステップＳ７０４〜Ｓ７０５を実行する。
（Ｓ７０４）
動作推定部１６３は、保持しているｎ個の差分データの全てについて、以下のステップＳ７０５を実行する。ここでいうｎ個の差分データとは、差分抽出部１６１の処理によって、１コマずつ時間を進めたｎコマの静止画像のうち動きが大きい部分を抽出したものに相当する。

（Ｓ７０５）
動作推定部１６３は、下記（式１）を用いて、差分データの平均値を求める。

上記（式１）により、ｎ個の差分データの時間的な平均値が得られる。

（Ｓ７０６）
動作推定部１６３は、以上のステップにより得られたデータを、平均出力部１６５に出力する。本ステップで出力するデータは、図３で説明したようなデータを含む２次元平面データとなる。
即ち、会議空間の２次元平面座標のうち、動きの大きい部分が高く、動きの少ない部分が平坦に表された２次元平面データが出力される。

以上の図７の処理により、差分データの時間平均を用いて、大きな動きがあった部分の座標を高くした２次元平面データが、動作推定データとして平均出力部１６５に出力される。

次に、音源推定部１６４の動作について簡単に説明する。
（１）音源推定部１６４は、音声入力部１２０より音声データを受け取る。
（２）次に、音源推定部１６４は、例えばマイクロホンとＭＵＳＩＣ法（サブスペース法）等の公知の音源推定アルゴリズム等を用いて、クライアント端末１００が設置されている空間において発声が行われている可能性が高い位置（音源位置）を推定する。
（３）音源推定部１６４は、音源が存在している可能性が高い部分を高く盛り上げた２次元平面データを、音源推定データとして平均出力部１６５に出力する。

図８は、平均出力部１６５の動作フローを説明するものである。以下、図８の各ステップについて説明する。

（Ｓ８０１）
平均出力部１６５は、動作推定部１６３が出力した動作推定データと、音源推定部１６４が出力した音源推定データを取得する。
（Ｓ８０２）
平均出力部１６５は、ステップＳ８０１で取得した動作推定データと音源推定データの全座標について、以下のステップＳ８０３を実行する。
なお、説明の簡易のため、動作推定データと音源推定データの次元は等しく、縦幅・横幅ともに一致しているものとする。これらが異なる場合は、座標変換やサンプリングの変更などを行って、本ステップと同様に処理することができる。

（Ｓ８０３）
平均出力部１６５は、ステップＳ８０１で取得した動作推定データと音源推定データの１つの座標について、データ値を下記（式２）のような演算式により重み付き加算する。

各重みを０．５とすると、両者の単純平均が求められるが、適宜重み付けを変更することにより、動作推定データと音源推定データのいずれを優先するかなどを調整することができる。

（Ｓ８０４）
平均出力部１６５は、以上のステップで得られた重み付き加算データを、会議データ生成部１６６に出力する。本ステップで出力する重み付き加算データは、本実施の形態１における「第１積極度データ」に相当する。

以上の図８の処理により、動作推定データと音源推定データが重み付きで加算され、図５で説明したような、ノイズや検出誤り等が平滑化されたデータが出力される。
会議データ生成部１６６は、同データに基づき図５で説明したような画像を会議データとして生成し、通信部１３０を介して他クライアント端末に送信する。他クライアント端末を使用している遠隔の会議参加者は、これを閲覧することにより、会議参加者３００の積極度を把握することができる。

以上のように、本実施の形態１によれば、動作推定データと音源推定データの双方を加算することにより、いずれか単体の推定データのみではノイズや検出誤り等を含んでいる場合であっても、会議に積極的に参加している参加者を精度良く推定することができる。
また、得られた推定結果を時系列で見ることにより、会議の盛り上がり等の状況を把握することもできる。

実施の形態２．
実施の形態１では、会議参加者３００の積極度を表す会議データを他クライアント端末に送信することにより、遠隔側の会議参加者が、会議参加者３００の積極度を把握できるようにすることを説明した。
本発明の実施の形態２では、会議参加者３００が存在している側の会議空間内で、新たに会議の進行を支援するロボット４００を設け、会議進行を補助させる構成と動作について説明する。

図９は、本実施の形態２に係る会議支援システムの構成図である。
図９において、実施の形態１で説明した図１の構成に加えて、新たにロボット４００を設けた。その他の構成は図１と同様であるため、説明を省略する。
ロボット４００は、クライアント端末１００ａを設置している会議空間で会議の進行を支援する自律移動式ロボットであり、制御部４１０、位置センサ４２０、マイク４３０、駆動部４４０を備える。

制御部４１０は、クライアント端末１００ａの会議データ生成部１６６より、適当な通信手段等（図示せず）を介して会議データ、またはその元となった重み付き加算データを受信し、これに基づきロボット４００の動作を制御する。
以下の説明では、制御部４１０は会議データを受信してロボット４００の動作制御に用いることとするが、その元となった重み付き加算データを受信して動作制御に用いるように構成してもよい。
制御部４１０は、その機能を実現する回路デバイス等のハードウェアで構成することもできるし、マイコンやＣＰＵ等の演算装置と、その動作を規定するソフトウェアとで構成することもできる。また、必要な通信インターフェース等を適宜備える。

位置センサ４２０は、少なくともロボット４００を設置している会議空間内におけるロボット４００の位置を検出することのできるセンサであり、検出結果を制御部４１０に出力する。
マイク４３０は、ロボット４００周辺からの音声入力を受け付けて、音声データとして制御部４１０に出力する。この音声データは、クライアント端末１００ａへ、適当な通信手段等（図示せず）を介して送信される。クライアント端末１００ａはこれを受信し、音源推定部１６４に入力する。
駆動部４４０は、車輪や脚部などで構成され、制御部４１０の指示に基づきロボット４００が自律的に移動することのできる機能を提供する。車輪や脚部以外の移動手段（例えばプロペラ等の飛行手段）を用いて構成することもできる。

図１０は、ロボット４００の設置イメージを示すものである。ここでは図２と同様に、会議空間を天井から見た図を示した。
ロボット４００は、後述の図１３で説明する動作フローにしたがい、発話や身振り手振りなどを行って会議に積極的に参加している会議参加者（図１０では会議参加者３００）の方向に向かって移動する。

図１１は、ロボット４００が会議空間内の進行方向を決定する際の周辺座標を表したものである。ロボット４００は、後述の図１３で説明する動作フローにしたがい、自己を中心として９区画に区切った自己周辺８座標のうち、会議データの値が最も高い方向に進行方向を決定する。
例えば、図１１の右側の座標の会議データが最も値が高ければ、ロボット４００は右側の座標に向かって移動する。

図１２は、ロボット４００が移動方向を決定する際に使用する会議データのイメージである。ここでは、直感的に理解できるように、実施の形態１と異なり、会議参加者３００が存在している可能性が高い座標をより低く表した例を示した。なお、実施の形態１と同様に表しても構わないことは言うまでもない。
ロボット４００は、図１２における高さが低い谷間部分の座標方向へ向かって下がっていくようなイメージで移動する。具体的な動作フローは、次の図１３で説明する。

図１３は、ロボット４００の動作フローである。以下、図１３の各ステップについて説明する。

（Ｓ１３０１）
制御部４１０は、位置センサ４２０が取得したロボット４００の位置と、クライアント端末１００ａより取得した会議データ上の座標における位置とが合致するように、両者の対応付けを行う。対応付けは、例えば基準となる座標を重ね合わせるといった適当な手法で行えばよい。
（Ｓ１３０２）
制御部４１０は、図１１で説明したような、会議データ内におけるロボット４００周辺の８座標について、データ値の高低を調べる。本ステップは、８座標のいずれの方向に会議参加者３００が存在している可能性が最も高いかを調べることに相当する。

（Ｓ１３０３）
制御部４１０は、ステップＳ１３０２で調べた８座標のデータ値の高低が全て同じであるか否かを判定する。全て同じであればステップＳ１３０５へ進み、全て同じでなければステップＳ１３０４へ進む。
（Ｓ１３０４）
制御部４１０は、ステップＳ１３０２で調べた８座標のデータ値のうち最小値の方向を選択する。
（Ｓ１３０５）
制御部４１０は、ステップＳ１３０２で調べた８座標からランダムに１つの方向を選択する。

（Ｓ１３０６）
制御部４１０は、ステップＳ１３０４またはＳ１３０５で選択した方向に移動するように駆動部４４０を制御する。本ステップにより、ロボット４００は図１２で説明したような谷間方向に向かって移動することになる。
（Ｓ１３０７）
制御部４１０は、ロボット４００に対する動作終了指示がなされたか否かを判定する。終了指示があれば動作を終了し、なければステップＳ１３０１に戻って同様の動作を継続する。

以上、図１０〜図１３を用いて、ロボット４００の動作について説明した。
これらの動作により、ロボット４００は、会議に積極的に参加している会議参加者３００の方向へ向かって移動し、マイク４３０により発話音声を取得してクライアント端末１００ａへ送信する。
そのため、発話を積極的に行う会議参加者の近傍で発話音声を取得することができ、会議進行の円滑に資する。

なお、本実施の形態２では、ロボット４００にマイク４３０を搭載した例を示したが、マイク４３０の他にカメラ等の撮像手段を搭載し、音声と映像をともに取得できるように構成してもよい。

クライアント端末１００ａにも撮像部１１０と音声入力部１２０が備えられており、ロボット４００にカメラやマイク４３０を搭載すると、これらの機能と重複が生じる。
そこで、ロボット４００にマイク４３０やカメラを搭載し、撮像部１１０と音声入力部１２０に代えてもよい。
また、ロボット４００に搭載するマイク４３０やカメラと、クライアント端末１００ａに備える撮像部１１０や音声入力部１２０とを併用し、より確実に音声や映像を取得できるように構成してもよい。

以上のように、本実施の形態２によれば、ロボット４００にマイク４３０やカメラを搭載することにより、会議に積極的に参加している会議参加者の近傍で会議参加者の発話音声や映像を取得し、積極的な会議参加者の明瞭な音声や映像が得られるので、会議進行の円滑に資する。

また、本実施の形態２によれば、クライアント端末１００ａを設置している会議空間内で複数人が会議に積極的に参加している場合、ロボット４００が積極度の高い会議参加者の間を移動することになる。
これによれば、当該会議空間内における会議参加者の積極度を視覚的に把握することができるので、実施の形態１で説明したような会議データを画面表示等することなく、当該会議空間内の会議の盛り上がり等の進行状況を容易に把握することができ、会議の円滑な進行に資する。

実施の形態３．
実施の形態１〜２では、遠隔会議の進行中に会議支援システムを使用する例を説明したが、本発明の実施の形態３では、会議の終了後に会議支援システムが蓄積しているデータを活用する例について説明する。

図１４は、本実施の形態３に係る会議支援システムの構成図である。
図１４において、実施の形態１の図１で説明した構成に加えて、新たにデータ蓄積部１７０と閲覧部１８０を設けた。その他の構成は図１と同様であるため、説明を省略する。なお、実施の形態２の図９で説明した構成に加えて、データ蓄積部１７０と閲覧部１８０を設けてもよい。

データ蓄積部１７０は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）のような書き込み可能な記憶装置で構成され、撮像部１１０、音声入力部１２０、会議データ生成部１６６より、それぞれ映像データ、音声データ、会議データを受け取って格納する。
閲覧部１８０は、データ蓄積部１７０に格納されている上述の各データを読み出し、後述の図１５で説明するような閲覧画面を画面表示して、音声とともに出力する。
閲覧画面を画面表示するための画面表示デバイスは、表示部１４０と兼用してもよいし、新たに画面表示デバイスを設けてもよい。同様に、音声出力デバイスは、音声出力部１５０と兼用してもよいし、新たに設けてもよい。

閲覧部１８０は、その機能を実現する回路デバイスのようなハードウェアで構成することもできるし、マイコンやＣＰＵのような演算装置と、その動作を規定するソフトウェアとで構成することもできる。また、演算部１６０の１構成部として構成してもよい。

図１５は、閲覧部１８０が画面表示する閲覧画面の構成例である。
閲覧画面は、映像表示部１５０１、会議データ表示部１５０２、音量調整部１５０３、操作ボタン１５０４、スライドバー１５０５、時間表示部１５０６を備える。

映像表示部１５０１は、データ蓄積部１７０に格納されている映像データを画面表示する部分である。
会議データ表示部１５０２は、データ蓄積部１７０に格納されている会議データを画面表示する部分である。
音量調整部１５０３は、音量を調整するためのスライドバーである。
操作ボタン１５０４は、映像データ、音声データ、会議データの再生、一時停止、停止などの操作を指示するための操作部である。
スライドバー１５０５は、会議全体時間に占める現在の再生位置を表示するとともに、バーのドラッグにより再生位置を進めたり戻したりするための操作部である。
時間表示部１５０６は、会議全体時間における現在の再生位置を数値で示す表示部である。図１５の例では、会議全体時間が１５：００であるのに対し、現在の再生時刻は０３：４２であることを表示している。

以上、図１４〜図１５に示す各構成部について説明した。
次に、閲覧部１８０に係る動作について、以下のステップ（１）〜（４）で説明する。

（１）撮像部１１０、音声入力部１２０、会議データ生成部１６６は、それぞれ映像データ、音声データ、会議データを取得ないし生成した際に、これらのデータをデータ蓄積部１７０に格納しておく。格納の際、各データを時間軸上で関連付けておく。
また、通信部１３０が他クライアント端末から受信した会議データも、同様に時間軸上で関連付けてデータ蓄積部１７０に格納しておく。

（２）クライアント端末１００ａのユーザは、図示しないマウスやキーボード等を操作して、図１５で説明した画面を画面表示するよう、閲覧部１８０に指示を出す。

（３）閲覧部１８０は、データ蓄積部１７０より映像データ、音声データ、会議データを取得し、それぞれを時間同期させて再生する。
これにより、会議進行に伴う各会議参加者の発話音声、映像、およびその時の会議の状況を表した会議データが同期表示され、会議をリードしているのが誰であるのか、といった会議の進行状況を、会議終了後に分析することができる。

（４）クライアント端末１００ａのユーザが、操作ボタン１５０４を押下したり、スライドバー１５０５を移動させるなどした際は、閲覧部１８０は、これにともなって再生停止や再生位置の変更などを行う。

以上、閲覧部１８０に係る動作について簡単に説明した。
以上の動作によれば、撮像部１１０、音声入力部１２０、会議データ生成部１６６は、各データを時間軸上で対応付けてデータ蓄積部１７０に格納し、閲覧部１８０がこれらのデータを読み出すときは、それぞれを同期させて再生することができる。

本実施の形態３では、全ての映像データ、音声データ、および会議データをデータ蓄積部１７０に格納することとしたが、会議データは一定時間間隔でサンプリングして格納するようにしてもよい。
映像データや音声データは会議の内容そのものであるため、全てデータ蓄積部１７０に格納する必要があるが、会議データは会議の進行状況を把握するための指標として用いるものであるため、サンプリングしたデータでも十分に役割を果たすことができる。

また、本実施の形態３では、閲覧部１８０はクライアント端末１００ａの１構成部として説明したが、クライアント端末１００ａとは別の閲覧端末として構成してもよい。データ蓄積部１８０についても同様である。
この場合、閲覧端末は、データ蓄積部１８０に適当なインターフェースを介してアクセスし、格納されている各データを読み取って、本実施の形態３で説明したものと同様の動作を行う。

以上のように、本実施の形態３によれば、会議データを会議の進行状況の指標として用い、これと同期させながら映像データと音声データを出力することにより、例えば「ＡさんとＢさんが会議で中心的に発言していた時」のように、あいまいな印象を条件として、該当する映像データや音声データを読み出すことができる。

また、本実施の形態３によれば、映像や音声のみでは分かりづらい、発言の支持状況のような状況データも、会議データとして提示されるため、会議におけるキーパーソンを抽出することが可能となる。
即ち、会議中により多くの発言をした人、またその発言が、多くの参加者の支持を集めていることなどが、会議データとして提示されるので、会議内で重要な役割を果たした人物（キーパーソン）が誰であるかを可視化して見ることができる。

実施の形態１に係る会議支援システムの構成図である。クライアント端末１００を設置した会議空間のイメージ図である。動作推定部１６３の推定結果を視覚的に表したものである。音源推定部１６４の推定結果を視覚的に表したものである。平均出力部１６５の算出結果を視覚的に表したものである。差分抽出部１６１の動作フローを説明するものである。動作推定部１６３の動作フローを説明するものである。平均出力部１６５の動作フローを説明するものである。実施の形態２に係る会議支援システムの構成図である。ロボット４００の設置イメージを示すものである。ロボット４００が会議空間内の進行方向を決定する際の周辺座標を表したものである。ロボット４００が移動方向を決定する際に使用する会議データのイメージである。ロボット４００の動作フローである。実施の形態３に係る会議支援システムの構成図である。閲覧部１８０が画面表示する閲覧画面の構成例である。

符号の説明

１００クライアント端末、１１０撮像部、１２０音声入力部、１３０通信部、１４０表示部、１５０音声出力部、１６０演算部、１６１差分検出部、１６２画像保持部、１６３動作推定部、１６４音源推定部、１６５平均出力部、１６６会議データ生成部、１７０データ蓄積部、１８０閲覧部、２００ネットワーク、３００会議参加者、４００ロボット、４１０制御部、４２０位置センサ、４３０マイク、４４０駆動部、１５０１映像表示部、１５０２会議データ表示部、１５０３音量調整部、１５０４操作ボタン、１５０５スライドバー、１５０６時間表示部。

Claims

会議参加者の映像と音声を相互に送受信する複数のクライアント端末を有し、
前記クライアント端末は、
会議参加者の音声入力を受け付けてその音声データを出力する音声入力部と、
会議参加者の映像を撮像してその映像データを出力する撮像部と、
前記音声入力部および前記撮像部からの出力を加算して当該会議参加者の積極度を表す第１積極度データを算出する演算部と、
クライアント端末同士でデータを送受信する通信部と、
情報を画面表示する表示部と、
を備え、
前記通信部は、
前記第１積極度データを他クライアント端末に送信するとともに、
他クライアント端末から当該他クライアント端末を使用している会議参加者の積極度を表す第２積極度データを受信し、
前記表示部は、前記第２積極度データを画面表示する
ことを特徴とする会議支援システム。
前記演算部は、
前記音声データに基づき当該会議参加者の位置を表す音源位置を算出するとともに、
前記映像データに基づき当該会議参加者の動作を算出し、
算出した音源位置と動作を、会議が行われている空間の２次元座標上で重み付きで加算して前記第１積極度データを算出する
ことを特徴とする請求項１に記載の会議支援システム。
前記演算部は、
前記第１積極度データを、
会議が行われている空間を表す２次元座標と、
その各座標における当該会議参加者の積極度を表す高さと、
で構成される３次元データ形式で算出する
ことを特徴とする請求項２に記載の会議支援システム。
前記クライアント端末と通信して会議を支援する自律移動式ロボットを設け、
前記自律移動式ロボットは、
当該自律移動式ロボットの位置を検出する位置センサと、
前記第１積極度データを受信する手段と、
当該自律移動式ロボットが移動するための駆動部と、
当該自律移動式ロボットの動作を制御する制御部と、
前記クライアント端末と通信する通信部と、
を備え、
前記制御部は、
前記第１積極度データにおいて、当該自律移動式ロボットを設置している会議空間で最も積極度の高い会議参加者が存在している旨が表されている方向へ、当該自律移動式ロボットが移動するよう、前記駆動部の動作を制御する
ことを特徴とする請求項１ないし請求項３のいずれかに記載の会議支援システム。
前記自律移動式ロボットは、
会議参加者の音声入力を受け付けてその音声データを出力する第２音声入力部と、
会議参加者の映像を撮像してその映像データを出力する第２撮像部と、
の少なくともいずれか一方を備え、
前記通信部は、
前記第２音声入力部または前記第２撮像部が出力したデータを前記クライアント端末に送信する
ことを特徴とする請求項４に記載の会議支援システム。
前記クライアント端末は、
会議の進行時間と関連付けられた前記音声データ、前記映像データ、前記第１積極度データ、および前記第２積極度データを格納する記憶部を備えた
ことを特徴とする請求項１ないし請求項５のいずれかに記載の会議支援システム。
前記記憶手段に格納されている音声データ、映像データ、および会議の進行時間を同期表示する閲覧部を備えた
ことを特徴とする請求項６に記載の会議支援システム。
前記閲覧部は、
前記第１積極度データまたは第２積極度データの少なくとも一方を、
音声データ、映像データ、および会議の進行時間とともに同期表示する
ことを特徴とする請求項７に記載の会議支援システム。