JP6312345B2

JP6312345B2 - テレビ会議システム

Info

Publication number: JP6312345B2
Application number: JP2016523436A
Authority: JP
Inventors: 成樹向井; 保孝若林; 田中　誠一; 誠一田中
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2014-05-29
Filing date: 2015-05-19
Publication date: 2018-04-18
Anticipated expiration: 2035-05-19
Also published as: WO2015182440A1; JPWO2015182440A1; US9967518B2; US20170187987A1

Description

本発明は、テレビ会議システムに関する。
本願は、２０１４年５月２９日に、日本に出願された特願２０１４−１１１４１９号に基づき優先権を主張し、その内容をここに援用する。

近年、光通信や高速無線通信などを使った高速インターネットの普及により、テレビやカメラを接続して双方向通信を行うテレビ会議システムが利用されている。このテレビ会議システムでは、双方で資料を共有し、資料映像と相手側のカメラの映像（相手側の出席者の顔の映像）を同一のディスプレイで同時に見たいというニーズがある。
例えば、資料映像と相手側のカメラの映像を同一のディスプレイで同時に見るシステムでは、資料映像を親画面、カメラ映像を子画面として分け、２つの画面を並べて表示する方法が考えられるが、ディスプレイ画面の限られた表示領域内で親画面と子画面とを単に並べて表示してしまうと、資料映像の表示サイズが小さくなってしまうため、文字が読みづらくなってしまう等の問題がある。

この問題を解決する方法として、例えば、特許文献１では、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示するため、資料映像の表示サイズを変えずに相手側の出席者の顔を把握することが可能になる。また、特許文献２では、複数拠点でのカメラ映像をアイコンとして資料の周囲に表示し、それらのアイコンがユーザによって選択されると、その拠点にいる出席者の顔が資料映像に重畳されて表示されるため、出席者を把握しながら資料を見ることが可能になる。

特開２０１３−１１５５２７号公報特開２０１０−９３５８３号公報

しかしながら、特許文献１に記載の方法では、相手側に複数の出席者がいた場合には、出席者のうちの話者のみの映像しか資料映像に重畳されないため、話者の発言内容に対する他の出席者の反応や状況が分からず、コミュニケーションが取りづらくなる可能性がある。また、資料映像の一部に人物の顔が重畳されてしまうため、資料の内容によっては文字や画像が隠れてしまい視認性が悪くなることがある。また、特許文献２に記載の方法では、選択された拠点の出席者の映像が資料映像の一部に重畳されるため、選択する拠点が増えるほど、又は出席者が多いほど資料が隠れてしまう。このように、資料映像の視認性と、相手側の出席者の状況を把握すること、との両立が困難であった。
本発明の一態様は、上述した事情に鑑みてなされたもので、会議の資料映像の視認性を保ちつつ、相手側の出席者の状況を把握することができるテレビ会議システムを提供する。

本発明の一態様は、少なくとも一組以上の端末装置がネットワークを介して映像を送受信するテレビ会議システムであって、前記端末装置は、カメラにより撮影された映像である第一の映像から顔を検出する顔検出部と、会議で使用する資料の映像である第二の映像の映像領域の周囲に、前記顔検出部が検出した顔の映像を前記第一の映像における当該顔の相対位置に応じて配置した映像を生成する生成部と、を備えるテレビ会議システムである。

本発明の一態様によれば、会議の資料映像の視認性を保ちつつ、相手側の出席者の状況を把握することができる。

第１の実施形態によるテレビ会議システムの概略構成の一例を示すブロック図である。第１の実施形態によるテレビ会議システムの使用環境の一例を示す模式図である。第１の実施形態によるテレビ会議システムにおける処理の流れを示すフローチャートである。第１の実施形態によるカメラ映像の一例を示す図である。第１の実施形態によるカメラ映像に対する顔検出結果の一例を示す図である。顔の回転方向の角度の説明図である。カメラ映像から検出された顔に対する回転処理の説明図である。背景画像の一例を示す図である。資料映像に対する縮小処理の説明図である。背景映像に資料映像を貼りつけた映像の一例を示す図である。カメラ映像における顔の相対位置を示す図である。資料映像と顔映像とを合成した合成映像を示す図である。第２の実施形態によるテレビ会議システムの概略構成の一例を示すブロック図である。第２の施形態によるテレビ会議システムの使用環境の一例を示す模式図である。第２の実施形態によるテレビ会議システムにおける処理の流れを示すフローチャートである。第２の実施形態によるカメラＡが撮影した映像の一例を示す図である。ディスプレイＡに表示させるパターンの一例を示す図である。パターンをディスプレイＡに表示させた場合のカメラ映像の一例を示す図である。テンプレートの例を示す図である。テンプレートマッチングによる位置検出の説明図である。第２の実施形態による回転処理の一例を説明する説明図である。回転処理後のカメラ映像において顔が検出された状態を示す図である。第３の実施形態によるテレビ会議システムの概略構成の一例を示すブロック図である。第３の実施形態によるテレビ会議システムにおける処理の流れを示すフローチャートである。送受信端末Ｂの第一映像取得部ＢがカメラＢから取得したカメラ映像を示す図である。合成映像にアイコンを重畳した映像を示す図である。第４の実施形態によるテレビ会議システムの概略構成の一例を示すブロック図である。カメラ映像３０１ｂにおける顔の相対位置及び顔方向を示す図である。部屋を天井側から見下ろしたときの状態を示す模式図である。顔方向に応じたアイコンを配置した合成映像の一例を示す図である。

以下、図面を参照して、本発明の実施の形態について説明する。なお、各図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。また、各図面における各部の大きさ等は理解を容易にするため大小関係を誇張して描いており、実際の大きさとは異なる。

＜第１の実施形態＞
まず、本発明の第１の実施形態について説明する。
図１は、本発明の第１の実施形態によるテレビ会議システム１の概略構成の一例を示すブロック図である。

テレビ会議システム１は、送信端末１００と、この送信端末１００に接続される情報端末４、カメラ１２、及びマイク１３と、受信端末２００と、この受信端末２００に接続されるディスプレイ５、及びスピーカー１４と、を備える。

カメラ１２は、送信端末１００の周辺にいる会議の出席者を撮影するための撮像装置であり、撮影した映像をケーブル等で接続された送信端末１００に供給する。マイク１３は、送信端末１００の周辺の音声を集音し、音声信号をケーブル等で接続された送信端末１００に供給する。なお、音声は、人の声に限定されるものではなく、様々な音又は声を指すものとする。

ディスプレイ５は、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、又は有機ＥＬ（Electro-Luminescence）ディスプレイ等を備える表示装置やプロジェクタなどの映像投射装置であり、映像や情報を表示する装置であればどのようなものであってもよい。例えば、ディスプレイ５は、受信端末２００から出力される映像を表示する。スピーカー１４は、受信端末２００から出力される音声信号を音声に変換して出力する。なお、スピーカー１４は、１チャンネルの音声を出力するものであってもよいし、左右２チャンネルの音声を出力するものであってもよい。

情報端末４は、例えばパーソナルコンピュータのような固定式の情報端末装置、又はデジタルカメラ等、会議で使用する資料映像を生成する装置であればどのような情報装置であってもよい。ここでは、情報端末４がノート型のパーソナルコンピュータであるものとして説明する。情報端末４は、データ記憶部４ａと、端末ディスプレイ４ｂとを備えている。データ記憶部４ａは、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリ、又はＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）といった半導体記憶装置や磁気記憶装置を備えている。このデータ記憶部４ａには、会議で使用される資料（文書、画像、又は映像による資料、プレゼンテーション資料等）のデータが記憶されている。例えば、情報端末４は、データ記憶部４ａから読み出したデータに基づいて、会議で使用される資料の映像（以下、資料映像とも称する）を出力する。端末ディスプレイ４ｂは、上述したディスプレイ５と同様に、映像や情報を表示する。

送信端末１００及び受信端末２００は、ネットワークを介して互いに通信する端末装置であり、例えば、セットトップボックスやパーソナルコンピュータのような固定情報端末や、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）やスマートフォンのような移動体通信端末、あるいはテレビ会議専用の通信装置である。

送信端末１００は、テレビ会議システム１における送信側の端末装置の一例である。図示する送信端末１００は、第一映像取得部１０１と、顔検出部１０２と、第二映像取得部１０３と、合成映像生成部１０４（生成部）と、音声取得部１０５と、データ混合部１０６と、データ送信部１０７と、を備えている。

第一映像取得部１０１は、カメラ１２が撮影した映像（以下、カメラ映像とも称する）を取得する。顔検出部１０２は、第一映像取得部１０１が取得したカメラ映像から顔を検出する。例えば、顔検出部１０２は、第一映像取得部１０１が取得したカメラ映像から顔の領域を検出するとともに、検出した顔の回転方向の角度を検出する。ここで、顔の回転方向の角度とは、顔を正面から見たときの中心を回転中心とする顔の回転方向の角度である。第二映像取得部１０３は、情報端末４が備えるデータ記憶部４ａから会議で使用する資料映像データを読み出し、資料映像として取得する。

合成映像生成部１０４は、顔検出部１０２が検出した顔の領域を第一映像取得部１０１が取得した映像から切り取り、切り取った顔の映像（以下、顔映像とも称する）と、第二映像取得部１０３が取得した資料映像とを合成する。また、合成映像生成部１０４は、合成した合成映像データをデータ混合部１０６に供給する。

音声取得部１０５は、マイク１３から供給された音声信号を取得し、取得した音声信号に基づく音声データをデータ混合部１０６に供給する。

データ混合部１０６は、合成映像生成部１０４が生成した合成映像データと、音声取得部１０５が取得した音声データとを混合し、混合した混合データをデータ送信部１０７に供給する。データ送信部１０７は、データ混合部１０６から供給された混合データを受信端末２００に送信する。

受信端末２００は、テレビ会議システム１における受信側の端末装置の一例である。図示する受信端末２００は、データ受信部２０８と、データ分離部２０９と、音声出力部２１０と、映像出力部２１１と、を備えている。

データ受信部２０８は、送信端末１００から送信された混合データを受信する。データ分離部２０９は、データ受信部２０８が受信した混合データを、音声データと映像データとに分離する。そして、データ分離部２０９は、音声データを音声出力部２１０に供給し、映像データを映像出力部２１１に供給する。

音声出力部２１０は、データ分離部２０９が混合データから分離した音声データを所定の音声信号に変換してスピーカー１４に出力する。映像出力部２１１は、データ分離部２０９が混合データから分離した映像データを所定の映像信号に変換してディスプレイ５に出力する。これにより、映像データに基づく映像がディスプレイ５に表示される。

このように、受信端末２００では、送信端末１００から混合データにより送信された資料映像と顔映像（送信端末１００側の会議の出席者の顔映像）との合成映像がディスプレイ５に表示され、送信端末１００から混合データにより送信された音声（送信端末１００側の会議の出席者の音声）がスピーカー１４から出力される。

なお、受信端末２００は、さらに送信端末１００の各部を備えた構成としてもよく、送信端末１００の機能も実行可能な端末装置としてもよい。また、送信端末１００は、さらに受信端末２００の各部を備えた構成としてもよく、受信端末２００の機能も実行可能な端末装置としてもよい。

（テレビ会議システム１の使用環境の具体例）
次に、図２を参照して、本実施形態によるテレビ会議システム１の使用環境の一例を説明する。
図２は、本実施形態によるテレビ会議システム１の使用環境の一例を示す模式図である。図示するテレビ会議システム１は、少なくとも一組の端末装置として、送信端末１００と受信端末２００とを備えている。部屋５００に設置されている送信端末１００と、部屋５０１に設置されている受信端末２００とがネットワーク３を介して互いに通信を行い、テレビ会議が行われる。ネットワーク３は、インターネットや公衆回線網等であり、いずれか一方を用いて接続される場合も、両方が組み合わされて接続される場合もある。なお、送信端末１００及び受信端末２００のそれぞれは、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）１５ａ、ＬＡＮ１５ｂを介してネットワーク３に接続される。なお、ＬＡＮ１５ａ、１５ｂは、有線ＬＡＮでもよいし無線ＬＡＮでもよい。

部屋５００のテーブル２０の略中央には、送信端末１００が設置されている。また、テーブル２０には、情報端末４、カメラ１２、及びマイク１３が設置されており、それぞれ送信端末１００に接続されている。また、部屋５００では、出席者Ａ１６、出席者Ｂ１７、及び出席者Ｃ１８の３名がテレビ会議に出席（参加）している。その３名の出席者は、テーブル２０に設置された送信端末１００を挟んで情報端末４の設置場所の反対側にいるものとする。つまり、出席者Ａ１６、出席者Ｂ１７、及び出席者Ｃ１８と、情報端末４とが、送信端末１００をとり囲むような位置関係となっている。また、出席者Ａ１６、出席者Ｂ１７、及び出席者Ｃ１８は、情報端末４の端末ディスプレイ４ｂを視認できる位置におり、情報端末４の端末ディスプレイ４ｂの表示映像を見ながらテレビ会議を行うことができる。

カメラ１２は、テーブル２０の略中央（ここでは、送信端末１００の上）に設置されている。例えば、カメラ１２は、画角１８０度の円の中心からの距離が入射角に比例している等距離射影方式を採用している魚眼カメラであり、画角が広く、光軸が部屋５００の天井面に対して垂直に交わるように、上向きに設置されている。なお、部屋５００の天井面はテーブル２０のテーブル面と平行であるものとする。これにより、カメラ１２は、送信端末１００をとり囲むような位置関係にある情報端末４、出席者Ａ１６、出席者Ｂ１７、及び出席者Ｃ１８を、同時に一つの映像として撮影することができる。また、マイク１３は、無指向性のマイクを採用しており、カメラ１２の周囲で発せられた音声を集音することができる。

一方、部屋５０１のテーブル２１には、受信端末２００が設置されている。また、テーブル２１には、ディスプレイ５、及びスピーカー１４が設置されており、それぞれ受信端末２００に接続されている。また、部屋５０１では、出席者Ｄ１９がテレビ会議に出席している。出席者Ｄ１９は、テーブル２１に設置された受信端末２００を挟んで、ディスプレイ５の設置場所の反対側にいるものとする。つまり、出席者Ｄ１９は、ディスプレイ５を視認できる位置におり、ディスプレイ５の表示映像を見ながらテレビ会議を行うことができる。

（テレビ会議システム１の処理）
次に、図３から図１２を参照して、本実施形態によるテレビ会議システム１における処理を詳しく説明する。
図３は、本実施形態によるテレビ会議システム１における処理の流れを示すフローチャートである。また、図４から図８は、テレビ会議システム１における処理に従って各部が実行する機能を説明するための説明図である。

まず、第一映像取得部１０１は、カメラ１２が撮影したカメラ映像（第一の映像）を取得する（ステップＳ１００）。図４は、カメラ１２が撮影したカメラ映像１０１ａの一例を示す図である。図示するように、カメラ映像１０１ａには、情報端末４、出席者Ａ１６、出席者Ｂ１７、及び出席者Ｃ１８が撮影されている。また、音声取得部１０５は、出席者Ａ１６、出席者Ｂ１７、及び出席者Ｃ１８の発言に応じて、音声信号をマイク１３から取得する（ステップＳ１１０）。

第二映像取得部１０３は、情報端末４のデータ記憶部４ａに記憶されているデータに基づいて資料映像（第二の映像）を取得する（ステップＳ１２０）。ここで、データ記憶部４ａに記憶されているデータには、例えば、ｊｐｅｇ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）形式やＰＮＧ（ＰｏｒｔａｂｌｅＮｅｔｗｏｒｋＧｒａｐｈｉｃ）形式等の画像データ、ＰＤＦ（登録商標）形式やＰｏｗｅｒＰｏｉｎｔ（登録商標）形式等のデータ等が含まれる。なお、データ記憶部４ａに記憶されているデータは、上記以外の形式の各種データであってもよい。

第一映像取得部１０１は、カメラ１２から取得したカメラ映像１０１ａを、顔検出部１０２に供給する。顔検出部１０２は、第一映像取得部１０１から供給されたカメラ映像１０１ａから顔を検出する顔検出処理を行う。例えば、顔検出処理では、顔検出を行う映像に対して探索窓（例えば８ピクセル×８ピクセルのような判定領域)を左上から走査して順番に動かし、探索窓の領域毎に顔と認識できる特徴点を持つ領域があるか否かを判定することによって顔を検出する。この顔検出の方法としては、例えば、Ｖｉｏｌａ−Ｊｏｎｅｓ法など、様々なアルゴリズムが提案されており、いずれの顔検出方法を用いてもよい。

上述の顔検出処理において、顔検出部１０２は、カメラ映像１０１ａから顔が検出されたか否かを判定する（ステップＳ１３０）。カメラ映像１０１ａから顔が検出されなかった場合（ステップＳ１３０：Ｎｏ）、顔検出部１０２は、顔検出処理を終了して、ステップＳ１５０に処理を進める。一方、カメラ映像１０１ａから顔が検出された場合（ステップＳ１３０：Ｙｅｓ）、顔検出部１０２は、検出した顔の領域の座標と、検出した際の顔の回転方向の角度を合成映像生成部１０４に供給する。

図５は、カメラ映像１０１ａに対する顔検出結果の一例を示す図である。例えば、顔検出部１０２は、図４に示すカメラ映像１０１ａに対して顔検出処理を行った場合、図５に示すように、それぞれ出席者Ａ１６の顔領域４０、出席者Ｂ１７の顔領域４１、及び出席者Ｃ１８の顔領域４２を検出するとともに、それぞれ検出された顔の回転方向の角度を検出する。なお、顔の回転方向とは、顔を正面から見たときの中心を回転中心とする顔の回転方向である。

図６は、顔の回転方向の角度の説明図である。この図を参照して、顔の回転方向の角度について説明する。図示するように、カメラ映像１０１ａの映像領域の中心座標４３とカメラ映像１０１ａの下辺４６ａとを結ぶ直線４４が下辺４６ａと直交するとき、中心座標４３を回転中心とする直線４４の回転方向の角度を０度とする。この直線４４と、顔を左半分と右半分とに分ける境界線となる顔の中心線４５とが平行な関係にあるときに、顔の回転方向の角度を０度とする。顔検出部１０２は、顔の回転方向の角度を、反時計回りに０度から３５９度までの範囲で検出できるものとする。

例えば、中心座標４３を回転中心として直線４４を回転させたとき、カメラ映像１０１ａの右辺４６ｂと直交するときの直線４４の回転方向の角度が９０度、上辺４６ｃと直交するときの直線４４の回転方向の角度が１８０度、直線４４が左辺４６ｄと直交するときの直線４４の回転方向の角度が２７０度となる。回転方向の角度が９０度、１８０度、２７０度になるそれぞれの直線４４と顔の中心線４５とが平行な関係にあるとき、それぞれの顔の回転方向の角度が９０度、１８０度、２７０度となる。

次に、合成映像生成部１０４は、顔検出部１０２が検出した顔領域の座標情報に基づいて、第一映像取得部１０１が取得したカメラ映像１０１ａから顔の領域を切り出すとともに、検出した顔の回転方向の角度に基づいて、それぞれの顔の回転方向の角度が０度になるように、切り出した顔映像の回転処理を行う（ステップＳ１４０）。また、合成映像生成部１０４は、第二映像取得部１０３が取得した資料映像に対し、映像のサイズを変換（縮小）する処理を行う（ステップＳ１５０）。

続いて、合成映像生成部１０４は、サイズを変換した資料映像の映像領域の周囲に、当該資料映像に重ならないように、切り出して回転処理を行った顔映像を配置する。例えば、合成映像生成部１０４は、資料映像の映像領域の周囲に、切り出して回転処理を行った顔映像をカメラ映像１０１ａにおける顔の相対位置に応じて配置した合成映像を生成する。具体的には、合成映像生成部１０４は、まず黒で塗りつぶされた背景映像を生成して、その背景映像の中央に、サイズ変換後（縮小後）の資料映像を貼りつける。次に、合成映像生成部１０４は、サイズ変換後（縮小後）の資料映像の映像領域の周囲の背景映像の領域に、切り出して回転処理を行った顔映像を、カメラ映像１０１ａにおいて検出された顔領域の中心座標を基に顔領域の相対位置関係を保持したまま貼りつけ、合成映像を生成する（ステップＳ１６０）。

以下、図７から図１２を参照して、ステップＳ１４０からステップＳ１６０の合成映像生成部１０４の処理を具体的に説明する。なお、ステップＳ１００において第一映像取得部１０１が取得したカメラ映像１０１ａ（図４参照）の解像度を横１２８０×縦７２０画素とする。また、ステップＳ１３０において、顔検出部１０２が、出席者Ａ１６の顔領域４０（横１００×縦１００画素）、出席者Ｂ１７の顔領域４１（横１００×縦１００画素）、出席者Ｃ１８の顔領域４２（横１００×縦１００画素）のそれぞれの領域を顔領域として検出するものとする（図５参照）。

ステップＳ１４０において、合成映像生成部１０４は、第一映像取得部１０１が取得したカメラ映像１０１ａから、顔検出部１０２が検出した顔の領域を切り出すとともに、切り出した顔映像の回転処理を行う。
図７は、カメラ映像１０１ａから検出された顔に対する回転処理の説明図である。図７（ａ）は、カメラ映像１０１ａから切り出された顔映像を示している。ここでは、検出された顔領域４０、顔領域４１、及び顔領域４２のそれぞれの顔の回転方向の角度が、２７０度、１０度、８０度である場合の顔映像の例を示している。合成映像生成部１０４は、それぞれの顔の回転方向が０度になるように回転処理を行う。図７（ｂ）は、回転処理後の顔領域４０、顔領域４１、及び顔領域４２のそれぞれの顔映像を示している。

次に、ステップＳ１５０において、合成映像生成部１０４は、第二映像取得部１０３が取得した資料映像を縮小して、背景映像に貼りつける。図８は、背景画像の一例を示す図である。例えば、合成映像生成部１０４は、図示するような黒色で塗られた映像（横１２８０×縦７２０画素）を背景映像１０１ｂとして生成する。なお、ここでは、黒色で塗られた映像を背景映像１０１ｂとしたが、他の色の映像、模様のある映像、又は写真映像等のようにいずれの映像を背景映像としてもよい。符号４７は、背景映像１０１ｂの映像領域の中心座標を示す。

また、第二映像取得部１０３が取得した資料映像が横１２８０×縦７２０画素であったとする。この場合、合成映像生成部１０４は、この資料映像を横１０８０×縦５２０画素となるように縮小処理を行う。図９は、資料映像に対する縮小処理の説明図である。この図では、第二映像取得部１０３が取得した資料映像１０１ｃ（縮小処理前）が、資料映像１０１ｄに縮小されることを示している。符号４８は、縮小処理後の資料映像１０１ｄの映像領域の中心座標を示す。

ここで、縮小処理には、ニアレストネイバー法、バイリニア法、バイキュービック法等どのような手法が用いられてもよい。また、縮小処理は、アスペクト比を固定したまま縮小させる処理としてもよい。アスペクト比を固定した縮小処理とする場合、横と縦の長さのうち短い方を基準に縮小させる必要があり、上述した解像度の場合には横９４４×縦５２０画素となるように縮小させてもよい。

次に、合成映像生成部１０４は、背景映像１０１ｂの中心座標４７（図８参照）と、縮小処理後の資料映像１０１ｄの中心座標４８（図９参照）とが一致するように、背景映像１０１ｂに資料映像１０１ｄを貼りつける。図１０は、背景映像１０１ｂに資料映像１０１ｄを貼りつけた映像の一例を示す図である。

そして、ステップＳ１６０において、合成映像生成部１０４は、図７（ｂ）に示す回転処理後の顔映像を、図１０に示す背景映像１０１ｂに資料映像１０１ｄを貼りつけた映像の、資料映像１０１ｄの周囲（外側）に貼りつけた合成映像を生成する。このとき、合成映像生成部１０４は、カメラ映像１０１ａにおいて検出された顔領域の中心座標を基に顔領域の相対位置関係を保持したまま、顔映像を貼りつける。

図１１は、カメラ映像１０１ａにおける顔の相対位置を示す図である。カメラ映像１０１ａから検出された顔領域４０、顔領域４１、及び顔領域４２のそれぞれの中心の座標を、座標５０、座標５１、及び座標５２とする。また、カメラ映像１０１ａの中心座標４３と、座標５０、座標５１、及び座標５２のそれぞれとを結んだ直線を、直線５３、直線５４、及び直線５５とする。この場合、カメラ映像１０１ａにおいて検出されたそれぞれの顔の相対位置は、カメラ映像１０１ａの中心座標４３を基準として、直線５３、直線５４、及び直線５５のそれぞれの線上の位置として表すことができる。

図１２は、資料映像１０１ｄと顔映像とを合成した合成映像１０１ｅの一例を示す図である。合成映像生成部１０４は、図１０に示す背景映像１０１ｂに資料映像１０１ｄを貼りつけた映像に対して顔映像を貼りつけて合成映像１０１ｅを生成する。このとき、合成映像生成部１０４は、図１１に示すカメラ映像１０１ａの中心座標４３に代えて資料映像１０１ｄの中心座標４８を基準とし、中心座標４８を基準としたときの直線５３、直線５４、及び直線５５のそれぞれの直線上、且つ資料映像１０１ｄの周囲（外側）に、図７（ｂ）に示す回転処理後の顔領域４０、顔領域４１、及び顔領域４２のそれぞれの顔映像を貼りつける。

このようにすることで、合成映像１０１ｅ上に表示される顔映像が、カメラ映像１０１ａにおいて検出された顔の相対位置関係を保持したまま表示されることになる。なお、上述したカメラ映像１０１ａ、顔領域４０、顔領域４１、顔領域４２、背景映像１０１ｂ、資料映像１０１ｃ、及び資料映像１０１dのそれぞれの画素は、一例であってこれに限定されるものではない。

図３に戻り、ステップＳ１７０以降の処理を説明する。
データ混合部１０６は、合成映像生成部１０４が生成した合成映像データと、音声取得部１０５が取得した音声データとの同期を取り、多重化したストリームに変換することで混合を行う（ステップＳ１７０）。そして、データ混合部１０６は、混合した混合データをデータ送信部１０７に供給する。

データ送信部１０７は、データ混合部１０６から供給された混合データをＬＡＮ１５経由で、受信端末２００に送信する（ステップＳ１８０）。ここで、混合データの送受信の一例として、Ｈ．３２０の通信プロトコルを用いた通信が行われるものとするが、これに限られるものではなく、Ｈ．３２３、Ｈ．３２４等のようにいずれの通信プロトコルを用いた通信が行われてもよい。

一方、受信端末２００は、送信端末１００から送信された、混合データを受信する。例えば、受信端末２００のデータ受信部２０８は、送信端末１００から送信された混合データを受信し、データ分離部２０９に供給する（ステップＳ１９０）。データ分離部２０９は、混合データの多重化されたストリームを映像データと音声データとに分離する。そして、データ分離部２０９は、分離した映像データを映像出力部２１１に供給し、分離した音声データを音声出力部２１０に供給する（ステップＳ２００）。

映像出力部２１１は、映像データに基づく映像をディスプレイ５に表示させる。つまり、映像出力部２１１は、送信端末１００で合成された合成映像１０１ｅ（図１２参照）をディスプレイ５に表示させる。（ステップＳ２１０）。また、音声出力部２１０は、音声データに基づく音声をスピーカー１４から出力させる（ステップＳ２２０）。

以上説明したように、本実施形態によるテレビ会議システム１は、少なくとも一組以上の端末装置（例えば、送信端末１００及び受信端末２００）がネットワーク３を介して映像を送受信する。送信端末１００は、顔検出部１０２と、合成映像生成部１０４（生成部）と、を備えている。顔検出部１０２は、カメラ１２により撮影されたカメラ映像１０１ａ（第一の映像）から顔を検出する。そして、合成映像生成部１０４は、会議で使用する資料の資料映像１０１ｄ（第二の映像）の映像領域の周囲に、顔検出部１０２が検出した顔映像をカメラ映像１０１ａにおける当該顔の相対位置に応じて配置した合成映像を生成する。

このように、本実施形態によるテレビ会議システム１は、顔を検出した座標の相対位置関係を保持したまま、顔映像を資料映像の周囲に表示させるため、会議の資料映像と相手側の出席者の顔映像との両方を、視認性を保ちつつ同時に見ながらテレビ会議を行うことができる。また、テレビ会議システム１は、相手側の出席者同士の相対位置関係を保持して表示することができるため、相手側の会議の状況や出席者の反応を限られた表示領域の中だけで、直観的に把握することができる。よって、本実施形態によれば、会議の資料映像の視認性を保ちつつ、相手側の出席者の状況を把握することができる。

なお、合成映像生成部１０４が、顔映像を資料映像の周囲に配置する場合、顔映像が資料映像に重ならないよう資料映像の外側に配置するのが望ましいが、資料映像の視認性を著しく損なわない程度に、資料映像の一部に重なるように配置してもよい。

また、カメラ１２に画角１８０度の魚眼カメラを用いた例を説明したが、カメラ１２が設置された部屋５００で会議に出席している出席者のほぼ全員を映すための画角のカメラであれば、画角１８０度の魚眼カメラに限られるものではない。ここで、ほぼ全員と記述しているのは、出席者のいる場所によっては、画角１８０度の魚眼カメラを用いたとしても出席者の全員が映ることが保障されるものではないためである。例えば、カメラ１２は、テーブル２０の周囲近傍にいる出席者の全員を映すことが可能な程度の画角を有するカメラであることが望ましい。また、カメラ１２は、複数のカメラを組み合わせて、パノラマ映像、全周囲映像を生成して映像を出力するカメラであってもよい。

また、マイク１３に無指向性のマイクを用いた例を説明したが、カメラ１２の周囲で発せられた音声を入力することができれば、いずれのマイクを用いてもよい。

＜第２の実施形態＞
次に、本発明の第２の実施形態について説明する。
第１の実施形態では、縮小後の資料映像１０１ｄの映像領域の周囲に、図４に示すカメラ映像１０１ａから検出した顔映像を合成することにより、図１２に示す合成映像１０１ｅを生成する例を説明した。この例の場合には、カメラ１２の設置方向によって、カメラ映像１０１ａ内の情報端末４の端末ディスプレイ４ｂの位置が変わり、検出される出席者の位置も変化する。したがって、第１の実施形態では、合成映像において、出席者の顔映像どうしの相対位置関係が保持されたとしても、カメラ１２の設置方向によって、いずれの方向から見たときの出席者の位置になるかが変化することになる。例えば、図４に示すように情報端末４の端末ディスプレイ４ｂの位置が垂直方向で上部且つ水平方向で中央となるようなカメラ映像１０１ａから検出された顔映像の相対位置関係が保持されれば、送信側の出席者と受信側の出席者とが向かい合った関係で合成映像を見ながら会議を行うことができる。そのためには、第１の実施形態では、カメラ１２を設置する際にカメラ１２の向きを合わせておく必要があるが、本実施形態では、向きを合わせなくてもよい形態について説明する。

図１３は、本実施形態によるテレビ会議システム１ａの概略構成の一例を示すブロック図である。テレビ会議システム１ａは、送受信端末Ａ３００と、この送受信端末Ａ３００に接続されるカメラＡ６０、マイクＡ６１、スピーカーＡ６２、ディスプレイＡ６３、及び情報端末Ａ６８と、送受信端末Ｂ４００と、この送受信端末Ｂ４００に接続されるカメラＢ６４、マイクＢ６５、ディスプレイＢ６６、及びスピーカーＢ６７を備える。

カメラＡ６０及びカメラＢ６４は、図１のカメラ１２に相当し、マイクＡ６１及びマイクＢ６５は、図１のマイク１３に相当する。また、スピーカーＡ６２及びスピーカーＢ６７は、図１のスピーカー１４に相当し、ディスプレイＡ６３及びディスプレイＢ６６は、図１のディスプレイ５に相当する。また、情報端末Ａ６８は、図１の情報端末４に相当し、会議で使用される資料や情報等のデータが記憶されるデータ記憶部Ａ６８ａを備えている。なお、ディスプレイＡ６３は、図１の情報端末４が備える端末ディスプレイ４ｂに相当する構成としてもよく、ここでは、情報端末Ａ６８に備えられているものとして説明する。

送受信端末Ａ３００及び送受信端末Ｂ４００は、図１の送信端末１００及び受信端末２００と同様にネットワーク３を介して互いに通信する端末装置である。
送受信端末Ａ３００は、第一映像取得部Ａ３０１と、ディスプレイ検出部Ａ３０２（位置検出部）と、回転処理部Ａ３０３と、顔検出部Ａ３０４と、第二映像取得部Ａ３０５と、合成映像生成部Ａ３０６（生成部）と、音声取得部Ａ３０７と、データ混合部Ａ３０８と、データ送信部Ａ３０９と、データ受信部Ａ３１０と、データ分離部Ａ３１１と、音声出力部Ａ３１２と、映像出力部Ａ３１４と、を備えている。

第一映像取得部Ａ３０１は、カメラＡ６０が撮影した映像を取得する。ディスプレイ検出部Ａ３０２は、第一映像取得部Ａ３０１が取得した映像からディスプレイＡ６３の位置を検出する。回転処理部Ａ３０３は、ディスプレイ検出部Ａ３０２が検出したディスプレイＡ６３の位置に応じて、第一映像取得部Ａ３０１が取得した映像に回転処理を行う。

顔検出部Ａ３０４は、回転処理部Ａ３０３が回転処理を行った映像から顔の領域と、顔の回転方向の角度を検出する。第二映像取得部Ａ３０５は、情報端末Ａ６８が備えるデータ記憶部Ａ６８ａから会議で使用する資料映像データを読み出し、資料映像として取得する。

合成映像生成部Ａ３０６は、顔検出部Ａ３０４が検出した顔の領域を第一映像取得部Ａ３０１が取得した映像から切り取り、切り取った顔映像と、第二映像取得部Ａ３０５が取得した資料映像とを合成する。また、合成映像生成部Ａ３０６は、合成した合成映像データをデータ混合部Ａ３０８に供給する。音声取得部Ａ３０７は、マイクＡ６１から供給された音声信号を取得し、取得した音声信号に基づく音声データをデータ混合部Ａ３０８に供給する。

データ混合部Ａ３０８は、合成映像生成部Ａ３０６が生成した合成映像データと、音声取得部Ａ３０７が取得した音声データとを混合し、混合した混合データをデータ送信部Ａ３０９に供給する。データ送信部Ａ３０９は、データ混合部Ａ３０８から供給された混合データを送受信端末Ｂ４００に送信する。

次に受信側の機能として、データ受信部Ａ３１０は、送受信端末Ｂ４００から送信された混合データを受信する。データ分離部Ａ３１１は、データ受信部Ａ３１０が受信した混合データを、音声データと映像データとに分離する。そして、データ分離部Ａ３１１は、音声データを音声出力部Ａ３１２に供給し、映像データを映像出力部Ａ３１４に供給する。

音声出力部Ａ３１２は、データ分離部Ａ３１１が混合データから分離した音声データを所定の音声信号に変換してスピーカーＡ６２に出力する。映像出力部Ａ３１４は、データ分離部Ａ３１１が混合データから分離した映像データを所定の映像信号に変換してディスプレイＡ６３に出力する。これにより、映像データに基づく映像が情報端末Ａ６８のディスプレイＡ６３に表示される。

なお、送受信端末Ｂ４００は、送受信端末Ａ３００の各部と同様の構成を備え、同様の機能を有しているものとする。例えば、送受信端末Ｂ４００は、第一映像取得部Ｂ４０１と、ディスプレイ検出部Ｂ４０２（位置検出部）と、回転処理部Ｂ４０３と、顔検出部Ｂ４０４と、第二映像取得部Ｂ４０５と、合成映像生成部Ｂ４０６（生成部）と、音声取得部Ｂ４０７と、データ混合部Ｂ４０８と、データ送信部Ｂ４０９と、データ受信部Ｂ４１０と、データ分離部Ｂ４１１と、音声出力部Ｂ４１２と、映像出力部Ｂ４１４と、を備えており、これらの各部が送受信端末Ａ３００の各部に対応する。なお、この図１３では、送受信端末Ｂ４００に情報端末Ａ６８に相当する情報端末の図示を省略しているが、送受信端末Ｂ４００には情報端末が接続されてもよいし接続されなくてもよい。

（テレビ会議システム１ａの使用環境の具体例）
次に、図１４を参照して、本実施形態によるテレビ会議システム１ａの使用環境の一例を説明する。図１４は、本実施形態によるテレビ会議システム１ａの使用環境の一例を示す模式図である。
図示するテレビ会議システム１ａは、少なくとも一組の端末装置として、送受信端末Ａ３００と送受信端末Ｂ４００とを備えている。部屋５１０に設置されている送受信端末Ａ３００と、部屋５１１に設置されている送受信端末Ｂ４００とがネットワーク３を介して互いに通信を行い、テレビ会議が行われる。本例では、送受信端末Ａ３００及び送受信端末Ｂ４００のそれぞれは、Ｗｉ-Ｆｉ（登録商標：ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）７３、Ｗｉ−Ｆｉ７５を介してネットワーク３に接続される。なお、送受信端末Ａ３００及び送受信端末Ｂ４００のそれぞれは、有線ＬＡＮを介してネットワーク３に接続されてもよい。

部屋５１０のテーブル７０の略中央には、送受信端末Ａ３００が設置されている。また、テーブル７０には、情報端末Ａ６８、カメラＡ６０、マイクＡ６１、及びスピーカーＡ６２が設置されており、それぞれ送受信端末Ａ３００に接続されている。また、部屋５１０では、出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２の３名がテレビ会議に出席（参加）している。その３名の出席者は、テーブル７０に設置された送受信端末Ａ３００を挟んで情報端末Ａ６８の設置場所の反対側にいるものとする。つまり、出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２と、情報端末Ａ６８とが、送受信端末Ａ３００をとり囲むような位置関係となっている。また、出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２は、情報端末Ａ６８のディスプレイＡ６３を視認できる位置におり、情報端末Ａ６８のディスプレイＡ６３の表示映像を見ながらテレビ会議を行うことができる。

一方、部屋５１１のテーブル７１には、送受信端末Ｂ４００が設置されている。また、テーブル７１には、カメラＢ６４、マイクＢ６５、ディスプレイＢ６６、及びスピーカーＢ６７が設置されており、それぞれ送受信端末Ｂ４００に接続されている。また、部屋５１１では、出席者Ｈ８３がテレビ会議に出席している。出席者Ｈ８３は、テーブル７１に設置された送受信端末Ｂ４００を挟んで、ディスプレイＢ６６の設置場所の反対側にいるものとする。つまり、出席者Ｈ８３は、ディスプレイＢ６６を視認できる位置におり、ディスプレイＢ６６の表示映像を見ながらテレビ会議を行うことができる。

カメラＡ６０は、送受信端末Ａ３００の上に設置されている。一方、カメラＢ６４は、送受信端末Ｂ４００の上に設置されている。例えば、カメラＡ６０及びカメラＢ６４は、画角１８０度の映像上の面積が立体角に比例する等立体角射影方式を採用している魚眼カメラであり、画角が広く、それぞれの光軸が部屋５１０の天井面と部屋５１１の天井面とのそれぞれに対して垂直に交わるように、上向きに設置されている。なお、部屋５１０及び部屋５１１の天井面のそれぞれは、テーブル７０及びテーブル７１のそれぞれのテーブル面と平行であるものとする。例えば、カメラＡ６０は、送受信端末Ａ３００をとり囲むような位置関係にある情報端末Ａ６８、出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２を、同時に一つの映像として撮影することができる。また、カメラＢ６４は、ディスプレイＢ６６及び出席者Ｈ８３を、同時に一つの映像として撮影することができる。また、マイクＡ６１及びマイクＢ６５のそれぞれは、無指向性のマイクを採用しており、カメラＡ６０とカメラＢ６４とのそれぞれの周囲で発せられた音声を集音することができる。

（テレビ会議システム１ａの処理）
次に、図１５から図２２を参照して、本実施形態によるテレビ会議システム１ａにおける処理を詳しく説明する。
図１５は、本実施形態によるテレビ会議システム１ａにおける処理の流れを示すフローチャートである。また、図１６から図２２は、テレビ会議システム１ａにおける処理に従って各部が実行する機能を説明するための説明図である。

なお、図１５に示す処理の流れにおいて、ステップＳ３００からステップＳ３２０までの各処理は、図３に示すステップＳ１００からステップＳ１２０までの各処理と同様の処理であり、適宜説明を省略する。また、図１５に示す処理の流れにおいて、ステップＳ３３０からステップＳ４２０までの各処理は、図３に示すステップＳ１３０からステップＳ４２０までの各処理と同様の処理であり、適宜説明を省略する。

まず、第一映像取得部Ａ３０１は、カメラＡ６０が撮影したカメラ映像（第一の映像）を取得する（ステップＳ３００）。図１６は、カメラＡ６０が撮影したカメラ映像３０１ａの一例を示す図である。本例のカメラ映像３０１ａには、情報端末Ａ６８、出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２が撮影されているが、それらの被写体が撮影されている位置が図４に示す例と異なる。例えば、図４に示すように情報端末４の端末ディスプレイ４ｂ（図１６では情報端末Ａ６８のディスプレイＡ６３）の位置が垂直方向で上部且つ水平方向で中央となるような映像を得るためには、カメラＡ６０を設置する際にカメラＡ６０の向きを合わせておく必要がある。この図１６に示すカメラ映像３０１ａの例は、カメラＡ６０を設置する際にカメラＡ６０の向きを合わせていない場合の例であり、情報端末Ａ６８のディスプレイＡ６３の位置が垂直方向で上部且つ水平方向で中央となる位置にない。

また、音声取得部Ａ３０７は、出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２の発言に応じて、音声信号をマイクＡ６１から取得する（ステップＳ３１０）。第二映像取得部Ａ３０５は、情報端末Ａ６８のデータ記憶部Ａ６８ａに記憶されているデータに基づいて資料映像（第二の映像）を取得する（ステップＳ３２０）。

次に、ディスプレイ検出部Ａ３０２は、第一映像取得部Ａ３０１が取得したカメラ映像３０１ａからディスプレイＡ６３を検出する。例えば、ディスプレイ検出部Ａ３０２は、ディスプレイＡ６３に一定のパターンを表示させることにより、そのパターンを認識してディスプレイＡ６３の位置を検出する。図１７は、ディスプレイＡ６３に表示させるパターン９０の一例を示す図である。図示するパターン９０は、横２×縦２の白黒の市松模様のパターンである。図１８は、図１７のパターン９０（例えば、横１２８０×縦７２０画素）をディスプレイＡ６３に表示させた場合に、第一映像取得部Ａ３０１が取得するカメラ映像３０１ａの一例を示す図である。

ディスプレイ検出部Ａ３０２は、パターン９０を縮小させた画像をテンプレート９１（例えば、横８０×縦４５画素）として、テンプレートマッチングを行うことによりカメラ映像３０１ａからディスプレイＡ６３の位置を検出する。図１９は、テンプレート９１の例を示す図である。例えば、パターン９０の縮小画像を、縮小画像の中央を回転中心として０度、４５度（２２５度）、９０度（２７０度）、１３５度（３１５度）のそれぞれの回転角度に回転させた４種類の画像をテンプレート９１として用いる。

図２０は、テンプレートマッチングによる位置検出の説明図である。ディスプレイ検出部Ａ３０２は、４種類の回転方向のテンプレート９１を順番に用いて４方向探索のテンプレートマッチングを行い、最も一致度が高くなったときのテンプレート９１の中心座標を、カメラ映像３０１ａにおけるディスプレイＡ６３の位置として検出する。

なお、ディスプレイ検出部Ａ３０２は、図１７に示すパターン９０に限らず、赤や青色等の単色のパターンをディスプレイＡ６３に表示させ、表示させたパターンと同様な色の領域の面積が最も大きくなる領域の中心座標をディスプレイＡ６３の位置として検出してもよい。

次に、回転処理部Ａ３０３は、ディスプレイ検出部Ａ３０２によりカメラ映像３０１ａからディスプレイＡ６３が検出されたか否かを判定する（ステップＳ３２２）。カメラ映像３０１ａからディスプレイＡ６３が検出されなかったと判定された場合（ステップＳ３２２：Ｎｏ）、回転処理部Ａ３０３は、回転処理を行わず、ステップＳ３００に処理を戻す。

一方、カメラ映像３０１ａからディスプレイＡ６３が検出されたと判定された場合（ステップＳ３２２：Ｙｅｓ）、回転処理部Ａ３０３は、ディスプレイ検出部Ａ３０２が検出したディスプレイＡ６３の位置に応じて、カメラ映像３０１ａの回転処理を行う。例えば、回転処理部Ａ３０３は、ディスプレイ検出部Ａ３０２が検出したディスプレイＡ６３（表示部）の位置が垂直方向で上部且つ水平方向で中央となるようにカメラ映像３０１ａを回転させる（ステップＳ３２４）。

図２１は、本実施形態による回転処理の一例を説明する説明図である。図２１（ａ）は回転処理前のカメラ映像３０１ａを示しており、図２１（ｂ）は回転処理後のカメラ映像３０１ｂを示している。図２１（ａ）において、ディスプレイＡ６３の画面の中心座標９３とカメラ映像３０１ａの映像領域の中心座標９２とを結ぶ直線を直線９４とする。回転処理部Ａ３０３は、直線９４がカメラ映像３０１ａの上辺９５と直交するように、中心座標９２を回転中心としてカメラ映像３０１ａを回転させる。図２１（ｂ）に示すように、回転処理後のカメラ映像３０１ｂでは、直線９４がカメラ映像３０１ｂの上辺９５と直交するように回転された映像となる。即ち、図２１（ｂ）に示すカメラ映像３０１ｂは、ディスプレイＡ６３の位置が垂直方向で上部且つ水平方向で中央となるように回転された映像である。

次に、顔検出部Ａ３０４は、回転処理部Ａ３０３が回転処理を行ったカメラ映像３０１ｂに対して顔検出処理を行い、顔が検出されたか否かを判定する（ステップＳ３３０）。

顔が検出されなかった場合（ステップＳ３３０：Ｎｏ）、顔検出部Ａ３０４は、顔検出処理を終了して、ステップＳ３５０に処理を進める。一方、顔が検出された場合（ステップＳ３３０：Ｙｅｓ）、顔検出部Ａ３０４は、検出した顔の領域の座標と、検出した際の顔の回転方向の角度を合成映像生成部Ａ３０６に供給する。図２２は、回転処理後のカメラ映像３０１ｂにおいて顔が検出された状態を示す図である。顔検出部Ａ３０４は、出席者Ｅ８０の顔領域９６、出席者Ｆ８１の顔領域９７、出席者Ｇ８２の顔領域９８のそれぞれの領域を顔領域として検出する。この図に示す顔が検出された状態は、図５に示す顔が検出された状態と同様である。そのため、ステップＳ３３０より後の各処理は、第１の実施形態で説明した、図３のステップＳ１３０より後の各処理と基本的に同様の処理とすることができる。以下、ステップＳ３３０以降について詳細を省略して説明する。

合成映像生成部Ａ３０６は、顔検出部Ａ３０４が検出した顔領域の座標情報に基づいて、回転処理部Ａ３０３が回転処理を行ったカメラ映像３０１ｂから顔の領域を切り出すとともに、検出した顔の回転方向の角度に基づいて、それぞれの顔の回転方向の角度が０度になるように、切り出した顔映像の回転処理を行う（ステップＳ３４０：図７参照）。また、合成映像生成部Ａ３０６は、第二映像取得部Ａ３０５が取得した資料映像に対し、映像のサイズを変換（縮小）する処理を行う（ステップＳ３５０：図９参照）。

次に、合成映像生成部Ａ３０６は、サイズを変換した資料映像の映像領域の周囲に、切り出して回転処理を行った顔映像を、回転処理後のカメラ映像３０１ｂにおける顔の相対位置に応じて配置した合成映像を生成する（ステップＳ３６０：図１２の合成映像１０１ｅ参照）。

データ混合部Ａ３０８は、合成映像生成部Ａ３０６が生成した合成映像データと、音声取得部Ａ３０７が取得した音声データとを混合し、混合した混合データをデータ送信部Ａ３０９に供給する（ステップＳ３７０）。データ送信部Ａ３０９は、データ混合部Ａ３０８から供給された混合データを、送受信端末Ｂ４００に送信する（ステップＳ３８０）。

一方、送受信端末Ｂ４００は、送受信端末Ａ３００から送信された、混合データを受信する。例えば、送受信端末Ｂ４００のデータ受信部Ｂ４１０は、送受信端末Ａ３００から送信された混合データを受信し、データ分離部Ｂ４１１に供給する（ステップＳ３９０）。データ分離部Ｂ４１１は、混合データを映像データと音声データとに分離する。そして、データ分離部Ｂ４１１は、分離した映像データを映像出力部Ｂ４１４に供給し、分離した音声データを音声出力部Ｂ４１２に供給する（ステップＳ４００）。

映像出力部Ｂ４１４は、映像データに基づく映像をディスプレイＢ６６に表示させる（ステップＳ４１０）。また、音声出力部Ｂ４１２は、音声データに基づく音声をスピーカーＢ６７から出力させる（ステップＳ４２０）。

なお、本実施形態では、送受信端末Ａ３００と送受信端末Ｂ４００とが同様の機能を持ち互いに映像を送受信することができる。そのため、上述した送受信端末Ａ３００がステップＳ３００からステップＳ３８０の処理を行うのと平行して送受信端末Ｂ４００も同様の処理を行い、送受信端末Ｂ４００がステップＳ３９０からステップＳ４２０の処理を行うのと平行して送受信端末Ａ３００も同様の処理を行うことができる。

以上説明したように、本実施形態によるテレビ会議システム１ａは、少なくとも一組以上の端末装置（例えば、送受信端末Ａ３００及び送受信端末Ｂ４００）がネットワーク３を介して映像を送受信する。
例えば、送受信端末Ａ３００が備えるカメラＡ６０は、送受信端末Ａ３００を利用して会議に出席している出席者と、送受信端末４００（他の端末装置）から取得した映像を表示可能なディスプレイＡ６３（表示部）と、を含むカメラ映像３０１ａ（第一の映像）を撮影する。また、送受信端末Ａ３００は、ディスプレイ検出部Ａ３０２（位置検出部）と、回転処理部Ａ３０３と、顔検出部Ａ３０４と、合成映像生成部Ａ３０６（生成部）と、を備えている。
ディスプレイ検出部Ａ３０２は、カメラＡ６０により撮影されたカメラ映像３０１ａからディスプレイＡ６３の位置を検出する。回転処理部Ａ３０３は、ディスプレイ検出部Ａ３０２が検出したディスプレイＡ６３の位置が垂直方向で上部且つ水平方向で中央となるようにカメラ映像３０１ａを回転させる。顔検出部Ａ３０４は、回転処理部Ａ３０３が回転させたカメラ映像３０１ｂから顔を検出する。そして、合成映像生成部Ａ３０６は、顔検出部Ａ３０４が検出した顔の映像を、会議で使用する資料の資料映像（第二の映像）の映像領域の周囲に配置する際に、回転処理部Ａ３０３が回転させたカメラ映像３０１ｂにおける当該顔の相対位置に応じて配置する。

このように、本実施形態によるテレビ会議システム１ａは、画角の広いカメラＡ６０を天井上部方向に向けて設置し、ディスプレイＡ６３の位置が垂直方向で上部且つ水平方向で中央となるようにカメラＡ６０により撮影されたカメラ映像３０１ａを回転させ、顔の相対位置関係を保持したまま顔映像を資料映像の周囲に表示させる。これにより、送受信端末Ａ３００と送受信端末Ｂ４００とが向かい合った関係の映像を送受できるため、会議の出席者が相手側の出席者との位置関係を直観的に認識して対話することが可能となるとともに、会議の資料映像の視認性も確保できる。よって、本実施形態によれば、会議の資料映像の視認性を保ちつつ、相手側の出席者の状況を把握することができる。

また、本実施形態では、送受信端末Ａ３００及び送受信端末Ｂ４００が、ディスプレイＡ６３の位置が垂直方向で上部且つ水平方向で中央となるようにカメラ映像３０１ａを回転させるため、カメラＡ６０を設置する際にカメラＡ６０の向きを合わせる必要がなく、設置の際の手間を省くことができる。

なお、本実施形態では、送信側の機能と受信側の機能との両方を有する送受信端末Ａ３００及び送受信端末Ｂ４００がネットワーク３を介して映像を送受信するテレビ会議システム１ａについて説明したが、これに限られるものではなく、第１の実施形態で説明したような送信側の機能を有する端末装置と受信側の機能を有する端末装置とによるテレビ会議システム１ａとしてもよい。例えば、送受信端末Ａ３００は、図１３に示す送受信端末Ａ３００が備える構成のうちの送信側の機能を有する構成のみを備えてもよいし、受信側の機能を有する構成のみを備えてもよい。一方、送受信端末Ｂ４００は、受信側の機能を有する構成のみを備えてもよいし、送信側の機能を有する構成のみを備えてもよい。

また、カメラＡ６０に画角１８０度の魚眼カメラを用いた例を説明したが、カメラＡ６０が設置された部屋で、ディスプレイＡ６３と、会議に出席している出席者のほぼ全員とを映すための画角のカメラであれば、画角１８０度の魚眼カメラに限られるものではない。ここで、ほぼ全員と記述しているのは、出席者のいる場所によっては、画角１８０度の魚眼カメラを用いたとしても出席者の全員が映ることが保障されるものではないためである。例えば、カメラＡ６０は、テーブル７０に設置されているディスプレイＡ６３と、テーブル７０の周囲近傍にいる出席者の全員を映すことが可能な程度の画角を有するカメラであることが望ましい。また、複数のカメラを組み合わせて、パノラマ映像、全周囲映像を生成して映像を出力するカメラであってもよい。また、カメラＢ６４もカメラＡ６０と同様である。

また、マイクＡ６１に無指向性のマイクを用いた例を説明したが、カメラＡ６０の周囲で発せられた音声を入力することができれば、いずれのマイクを用いてもよい。また、マイクＢ６５マイクＡ６１と同様である。

＜第３の実施形態＞
次に、本発明の第３の実施形態について説明する。
本実施形態では、テレビ会議の出席者自身が顔検出されているか否かを容易に判断できるようにする形態を説明する。

図２３は、本実施形態によるテレビ会議システム１ｂの概略構成の一例を示すブロック図である。この図に示すテレビ会議システム１ｂの構成は、図８に示すテレビ会議システム１ａの送受信端末Ａ３００及び送受信端末Ｂ４００に代えて、送受信端末Ａ３５０及び送受信端末Ｂ４５０を備えている。送受信端末Ａ３５０は、図８の送受信端末Ａ３００の構成に加えて、アイコン重畳部Ａ３１３を備えている。また、送受信端末Ｂ４５０は、図８の送受信端末Ｂ４００の構成に加えて、アイコン重畳部Ｂ４１３を備えている。

アイコン重畳部Ａ３１３は、データ分離部Ａ３１１が分離した映像データの映像に対して、顔検出部Ａ３０４が検出した顔の位置にアイコンを重畳する。そして、映像出力部Ａ３１４は、アイコン重畳部Ａ３１３がアイコンを重畳した映像をディスプレイＡ６３に表示させる。同様に、アイコン重畳部Ｂ４１３は、データ分離部Ｂ４１１が分離した映像データの映像に対して、顔検出部Ｂ４０４が検出した顔の位置にアイコンを重畳する。そして、映像出力部Ｂ４１４は、アイコン重畳部Ｂ４１３がアイコンを重畳した映像をディスプレイＢ６６に表示させる。つまり、アイコン重畳部Ａ３１３及びアイコン重畳部Ｂ４１３は、テレビ会議に出席している出席者が見ている映像に、その出席者自身が顔検出されている場合にはアイコンが表示されるようにする。

（テレビ会議システム１ｂの処理）
次に、図２４から図２６を参照して、本実施形態によるテレビ会議システム１ｂにおける処理を詳しく説明する。なお、本実施形態のテレビ会議システム１ｂの使用環境は、第２の実施形態で説明した図１４に示す例と同様であるものとして説明する。

図２４は、本実施形態によるテレビ会議システム１ｂにおける処理の流れを示すフローチャートである。図２４に示す処理は、図１５に示す処理に対して、ステップＳ４０５の処理が追加された点が異なる。なお、図２４において、図１５の各処理に対応する処理には同一の符号を付けており、その説明を省略し、ここでは、相違点であるステップＳ４０５の処理について説明する。

送受信端末Ｂ４５０のアイコン重畳部Ｂ４１３は、データ分離部Ｂ４１１が分離した映像データの映像に対して、送受信端末Ｂ４５０の顔検出部Ｂ４０４が検出した出席者Ｈ８３の顔に対応するアイコンを重畳する（ステップＳ４０５）。このアイコンを重畳する処理について、以下に詳しく説明する。

図２５は、送受信端末Ｂ４５０の第一映像取得部Ｂ４０１がカメラＢ６４から取得したカメラ映像４０１ａを示す図である。このカメラ映像４０１ａは、データ分離部Ｂ４１１が分離した映像データの映像である。カメラ映像４０１ａには、ディスプレイＢ６６と、出席者Ｈ８３とが撮影されており、顔検出部Ｂ４０４により出席者Ｈ８３の顔領域６００が検出されている。

なお、このカメラ映像４０１ａでは、ディスプレイＢ６６の位置が垂直方向で上部且つ水平方向で中央となっている。ディスプレイＢ６６の位置が垂直方向で上部且つ水平方向で中央となっていない場合には、回転処理部Ｂ４０３が回転処理を行った後のカメラ映像４０１ｂを用いて顔検出部Ｂ４０４による顔検出処理が行われてもよい。

ここで、カメラ映像４０１ａ（４０１ｂ）の中心座標６０２から出席者Ｈ８３の顔領域６００の中心座標６０１を通る直線６０５を、中心座標６０２を通るカメラ映像４０１ａ（４０１ｂ）の上辺６０３に直交する直線６０４を基準に左右反転させた直線を直線６０６とする。この場合、カメラＢ６４のレンズ中心を基準とした実際の出席者Ｈ８３の顔の相対位置は、カメラ映像４０１ａ（４０１ｂ）の中心座標６０２を基準とした直線６０６の線上の位置として表すことができる。

図２６は、資料映像と顔映像とを合成した合成映像にアイコン９９を重畳した映像を示す図である。アイコン重畳部Ｂ４１３は、資料映像１０１ｄと顔映像とを合成した合成映像（図１０の合成映像１０１ｅ参照）に対して、出席者Ｈ８３の顔に対応するアイコン９９を重畳する。この場合、アイコン重畳部Ｂ４１３は、図２５に示すカメラ映像４０１ａ（４０１ｂ）の中心座標６０２に代えて資料映像１０１ｄの映像領域の中心座標４８を基準とし、中心座標４８を基準としたときの直線６０６の線上、且つ資料映像１０１ｄの周囲（外側）に、出席者Ｈ８３の顔に対応するアイコン９９を重畳する。

ここで、アイコン重畳部Ｂ４１３が重畳するアイコン９９は、送受信端末Ｂ４５０の合成映像生成部Ｂ４０６が切り出して回転させた顔映像をアイコンとしたものでもよいし、顔映像のアイコン以外に、絵柄、記号、印等のアイコンとしてもよい。また、出席者が予め作成して登録しておいたアイコンを用いるようにしてもよい。

以上説明したように、本実施形態によるテレビ会議システム１ｂおいて、送受信端末Ｂ４５０は、顔検出部Ｂ４０４と、データ受信部Ｂ４１０（受信部）と、アイコン重畳部Ｂ４１３（重畳部）と、を備えている。顔検出部Ｂ４０４は、カメラＢ６４が撮影したカメラ映像４０１ａ（又は回転処理後のカメラ映像４０１ｂ）から顔を検出する。データ受信部Ｂ４１０は、送受信端末Ａ３５０（他の端末装置）の合成映像生成部Ａ３０６（生成部）が生成した映像を受信する。そして、アイコン重畳部Ｂ４１３は、データ受信部Ｂ４１０が受信した映像に、顔検出部Ｂ４０４が検出した顔に応じてアイコン９９（第一情報）を重畳する。

このように、本実施形態によるテレビ会議システム１ｂは、会議の出席者の顔が検出されているか否かを示すアイコン９９を、出席者自身が見るディスプレイに表示するため、出席者が確認画面に表示を切り替えることなく、資料映像及び相手側の出席者の顔映像が表示されている限られた表示領域の中で、出席者自身の顔検出の状態を容易に確認することができる。

また、アイコン重畳部Ｂ４１３は、データ受信部Ｂ４１０が受信した映像に、顔検出部Ｂ４０４が検出した顔の位置に応じてアイコン９９を重畳してもよい。これにより、テレビ会議システム１ｂは、会議の出席者が複数人の場合であっても、各出席者が自身のアイコン９９を区別することができるため、出席者自身の顔検出の状態を容易に確認することができる。

また、アイコン重畳部Ｂ４１３は、アイコン９９に用いる映像および作成した映像のαチャンネルを設定し、アイコン９９の透明度をデータ分離部Ｂ４１１が分離した映像データより、下げて重畳してもよい。
これにより、アイコン９９が顔映像の合成位置と重なってしまった場合でも、顔映像の視認性低下を抑制することができる。

なお、本実施形態では、送受信端末Ａ３５０と送受信端末Ｂ４５０とが同様の機能を持ち互いに映像を送受信することができる。そのため、上述した送受信端末Ｂ４５０のアイコン重畳部Ｂ４１３行う処理と同様の処理を、送受信端末Ａ３５０のアイコン重畳部Ａ１１３も行うことができる。

＜第４の実施形態＞
次に、本発明の第４の実施形態について説明する。
本実施形態では、テレビ会議において、相手側の出席者がディスプレイに表示されている資料を見ている否かを容易に判断できるようにする形態を説明する。

図２７は、本実施形態によるテレビ会議システム１ｃの概略構成の一例を示すブロック図である。この図において、図２３の各部に対応する構成には同一の符号を付け、その説明を省略する。

図２７に示すテレビ会議システム１ｃの構成は、図２３に示すテレビ会議システム１ｂの送受信端末Ａ３５０及び送受信端末Ｂ４５０に代えて、送受信端末Ａ３６０及び送受信端末Ｂ４６０を備えている。送受信端末Ａ３６０は、図２３の送受信端末Ａ３５０の構成に対して、顔方向推定部Ａ３６１を更に備えている点と、合成映像生成部Ａ３６２が合成映像生成部Ａ３０６の機能に加えて出席者の顔方向に応じた情報を合成する点とが異なる。同様に、送受信端末Ｂ４６０は、図２３の送受信端末Ｂ４５０の構成に対して、顔方向推定部Ｂ４６１を更に備えている点と、合成映像生成部Ｂ４６２が合成映像生成部Ｂ４０６の機能に加えて出席者の顔方向に応じた情報を合成する点とが異なる。

顔方向推定部Ａ３６１は、顔検出部Ａ３０４が検出した顔領域の映像に基づいて、顔が向いている方向（顔方向）を推定する。例えば、顔方向推定部Ａ３６１は、顔検出部Ａ３０４が検出した顔領域から顔の特徴点である鼻や目、口の位置を抽出し、抽出した特徴点から求めた特徴量に基づいて、顔方向が顔正面から左右方向に何度の方向に向いているかの角度を推定する。

ここで特徴点とは、鼻の頂点、目の端点、口の端点等の座標のことを指し、特徴量とは、これらの座標を基に算出した距離や面積等を指す。例えば、顔方向推定部Ａ３６１は、抽出した複数の特徴点から、特徴点間の距離、３つの特徴点で囲まれる面積、輝度分布等の特徴量を求める。そして、顔方向推定部Ａ３６１は、予め複数人の顔を用いて取得しておいた、顔方向の角度に対応する特徴点から求めた特徴量が集約されたデータベースを参照することにより、顔方向の角度を推定する。

合成映像生成部Ａ３６２は、顔検出部１０２が検出した顔の領域を第一映像取得部１０１が取得した映像から切り取り、切り取った顔映像と、第二映像取得部Ａ３０５が取得した資料映像とを合成するとともに、合成した顔映像に対応する位置に、顔方向推定部Ａ３６１が推定した当該顔の顔方向に応じたアイコンを重畳した合成映像を生成する。

なお、送受信端末Ｂ４６０の顔方向推定部Ｂ４６１及び合成映像生成部Ｂ４６２のそれぞれは、送受信端末Ａ３６０の顔方向推定部Ａ３６１及び合成映像生成部Ａ３６２のそれぞれと同様の機能を有している。

（テレビ会議システム１ｃの処理）
次に、本実施形態によるテレビ会議システム１ｃにおける処理について詳しく説明する。なお、本実施形態のテレビ会議システム１ｃの使用環境は、第２の実施形態で説明した図１４に示す例と同様であるものとして説明する。

本実施形態による処理の流れは、図１５又は図２４に示す処理において以下の処理を変更すればよい。例えば、図１５又は図２４のステップＳ３４０において、合成映像生成部Ａ３６２がカメラ映像３０１ｂから顔の領域を切り出して回転を行うとともに、顔方向推定部Ａ３６１が当該顔の顔方向を推定すればよい。また、図１５又は図２４のステップＳ３６０において、合成映像生成部Ａ３６２が、顔映像と資料映像とを合成するとともに、顔方向に応じたアイコンを重畳した合成映像を生成すればよい。

例えば、合成映像生成部Ａ３６２は、検出された顔からディスプレイＡ６３への方向と、顔方向推定部Ａ３６１が推定した当該顔の顔方向とが一致している場合、その旨を示すアイコンを当該顔映像に対応する位置に配置する。即ち、合成映像生成部Ａ３６２は、検出された顔がディスプレイＡ６３の方向を向いているか否かを示す情報としてのアイコンを重畳した映像を生成する。

以下、図２８及び図２９を参照して検出された顔からディスプレイＡ６３への方向と、顔方向推定部Ａ３６１が推定した当該顔の顔方向との関係をについて説明する。

図２８は、カメラ映像３０１ｂにおける顔の相対位置及び顔方向を示す図である。この図において、回転処理部Ａ３０３による回転処理後のカメラ映像３０１ｂから検出されたディスプレイＡ６３の画面の中心座標を座標７０１とする。また、カメラ映像３０１ｂから検出された顔領域９６、顔領域９７、及び顔領域９８のそれぞれの中心の座標を、座標７０２、座標７０３、及び座標７０４とする。そして、カメラ映像３０１ｂの映像領域の中心座標９２から、座標７０１、座標７０２、座標７０３、及び座標７０４のそれぞれを通る直線を、直線７０５、直線７０６、直線７０７、及び直線７０８とする。

例えば、顔検出部Ａ３０４により、出席者Ｅ８０、出席者Ｆ８１、出席者Ｇ８２のそれぞれの顔が、中心座標９２を回転中心とした回転方向の角度が２７０度、１０度、８０度の位置に検出されたとする。また、中心座標９２を回転中心としたディスプレイＡ６３の回転方向の角度は１８０度である。この場合、直線７０５、直線７０６、直線７０７、及び直線７０８のそれぞれの回転方向の角度は、１８０度、２７０度、１０度、８０度となる。なお、カメラ映像３０１ｂにおける回転方向の角度は、中心座標９２からカメラ映像３０１ｂの下辺７０９に直交する直線上の位置を回転方向の角度を０度とし、反時計まわりに０度から３５９度まで検出されるものとする。

また、顔方向については、カメラ映像３０１ｂにおいて顔正面に向かって右向き（出席者自身からみて左向き）を正（＋）の角度、左向き（出席者からみて右向き）を負（−）の角度で表す。例えば、顔方向推定部Ａ３６１は、正負それぞれ６０度までの角度範囲まで推定できるものとする。ここでは、顔方向推定部Ａ３６１により、出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２のそれぞれの顔方向が、０度、３０度、４０度であると推定されたとする。

図２９は、部屋５０１を天井側から見下ろしたときの状態を示す模式図である。この図には、図２８に示すカメラ映像３０１ｂに撮影されている各位置関係を対応させて、同一の符号を用いて表している。なお、説明を容易にするため、カメラＡ６０から、ディスプレイＡ６３、出席者Ｅ８０の顔、出席者Ｆ８１の顔、及び出席者Ｇ８２の顔のそれぞれまでの距離が等しいものとして説明する。

図２９のカメラＡ６０のレンズの中心座標９２は、図２８のカメラ映像３０１ｂの映像領域の中心座標９２に対応する。この図２９では、出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２のそれぞれの顔の回転方向の角度は、時計回りでそれぞれ２７０度、１０度、８０度となる位置になる。また、ディスプレイＡ６３の回転方向の角度は、時計回りで１８０度となる位置になる。座標７０２、座標７０３、及び座標７０４のそれぞれは、出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２のそれぞれの顔中心に対応する。

出席者Ｅ８０の顔中心の座標７０２と中心座標９２とを結ぶ直線７０６は、ディスプレイＡ６３の中心の座標７０１と中心座標９２とを結ぶ直線７０５に直交する。また、ディスプレイＡ６３の画面の中心座標７０１と出席者Ｅ８０の顔中心の座標７０２とを結ぶ直線を直線７１１とすると、直線７１１と直線７０６とのなす角（鋭角側）は４５度（出席者Ｅ８０の顔方向としては負方向に４５度）である。よって、出席者Ｅ８０の顔方向が−４５度の場合に、出席者Ｅ８０の顔がディスプレイＡ６３の方向を向いていることになる。ここで、顔方向推定部Ａ３６１により、出席者Ｅ８０の顔方向が０度であると推定されたため、出席者Ｅ８０の顔がディスプレイＡ６３の方向を向いていないと判断できる。

また、出席者Ｆ８１の顔中心の座標７０３と中心座標９２とを結ぶ直線７０７と、ディスプレイＡ６３の中心の座標７０１と中心座標９２とを結ぶ直線７０５と、のなす角（鋭角側）は１７０度である。また、ディスプレイＡ６３の画面の中心座標７０１と出席者Ｆ８１の顔中心の座標７０３とを結ぶ直線を直線７１２とすると、直線７１２と直線７０７とのなす角（鋭角側）は５度（出席者Ｆ８１の顔方向として正方向に５度）である。よって、出席者Ｆ８１の顔方向が５度の場合に、出席者Ｆ８１の顔がディスプレイＡ６３の方向を向いていることになる。ここで、顔方向推定部Ａ３６１により、出席者Ｆ８１の顔方向が３０度であると推定されたため、出席者Ｆ８１の顔がディスプレイＡ６３の方向を向いていないと判断できる。

また、出席者Ｇ８２の顔中心の座標７０４と中心座標９２とを結ぶ直線７０８と、ディスプレイＡ６３の中心の座標７０１と中心座標９２とを結ぶ直線７０５とのなす角（鋭角側）は１００度である。また、ディスプレイＡ６３の画面の中心座標７０１と出席者Ｇ８２の顔中心の座標７０４とを結ぶ直線を直線７１３とすると、直線７１３と直線７０８とのなす角（鋭角側）は４０度（出席者Ｇ８２の顔方向として正方向に４０度）である。よって、出席者Ｇ８２の顔方向が４０度の場合に、出席者Ｇ８２の顔がディスプレイＡ６３の方向を向いていることになる。ここで、顔方向推定部Ａ３６１により、出席者Ｇ８２の顔方向が４０度であると推定されたため、推定された顔方向と出席者Ｇ８２の顔からディスプレイＡ６３への方向とが一致し、出席者Ｇ８２の顔がディスプレイＡ６３の方向を向いていると判断できる。

例えば、合成映像生成部Ａ３６２は、検出された顔からディスプレイＡ６３への方向と、顔方向推定部Ａ３６１が推定した当該顔の顔方向とが一致している出席者Ｇ８２の顔映像に対応する位置に、顔方向がディスプレイＡ６３の方向を向いていることを示すアイコンを重畳する。一方、合成映像生成部Ａ３６２は、検出された顔からディスプレイＡ６３への方向と、顔方向推定部Ａ３６１が推定した当該顔の顔方向とが一致していない出席者Ｅ８０及び出席者Ｆ８１の顔映像に対応する位置には、顔方向がディスプレイＡ６３の方向を向いていないことを示すアイコンを重畳する。

図３０は、顔方向に応じたアイコンを配置した合成映像３０１ｄの一例を示す図である。図示する例では、アイコン８００、アイコン８０１、アイコン８０２のそれぞれが、出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２のそれぞれの顔領域（横１００×縦１００画素）に対応する位置に重畳される。例えば、資料映像１０１ｄと、顔領域９６、顔領域９７、及び顔領域９８のそれぞれとが接している辺上にそれぞれのアイコンが重畳される。

例えば、出席者の顔方向がディスプレイＡ６３の方向と一致している場合と一致していない場合とで、色又は濃度の異なるアイコンが表示される。ここでは、出席者Ｇ８２の顔方向がディスプレイＡ６３の方向と一致しており、アイコン８０２は、一致していることを示すアイコン（例えば、黒丸）である。一方、アイコン８００及びアイコン８０１は、出席者の顔方向がディスプレイＡ６３の方向と一致していないことを示すアイコン（例えば、白丸）である。

なお、出席者の顔方向がディスプレイＡ６３の方向と一致している場合と一致していない場合とで、アイコンの種類を変えてもよい。

また、出席者の顔方向に応じてアイコンの位置を変えてもよい。図３０において、合成映像３０１ｄの映像領域の中心座標８０３は、図２９のカメラＡ６０のレンズの中心座標９２に対応する。また、この中心座標８０３を基準としたときの直線７０５の１８０度側の直線上、且つ資料映像１０１ｄの周囲（外側）にある座標８０４を、図２９のディスプレイＡ６３の画面の中心座標７０１に対応する位置とする。

つまり、図３０に示す例では、各出席者の顔領域からディスプレイＡ６３の中心座標に相当する座標８０４への方向が、各出席者の顔に対するディスプレイＡ６３の方向（顔方向０度）となる。そして、資料映像１０１ｄと各顔領域とが接している辺上において、各出席者の顔方向と各出席者の顔からディスプレイＡ６３への方向との差分に応じた位置にそれぞれのアイコンが重畳される。

例えば、出席者Ｇ８２の顔方向がディスプレイＡ６３の方向と一致しているため、資料映像１０１ｄと出席者Ｇ８２の顔領域９８とが接する辺上において、顔領域９８の中心と座標８０４とを結ぶ直線７１３に交わる位置に、アイコン８０２が重畳される。

一方、出席者Ｅ８０の顔方向はディスプレイＡ６３の方向と一致していない。そのため、アイコン８００は、資料映像１０１ｄと出席者Ｅ８０の顔領域９６とが接する辺上において、顔領域９６の中心と座標８０４とを結ぶ直線７１１に交わる位置に対して、顔方向に応じて離れた位置に重畳される。例えば、図示するように、アイコン８００は、資料映像１０１ｄと顔領域９６とが接する辺上において、直線７１１に交わる位置から出席者Ｆ８０の顔の向いている側に離れた位置に重畳される。なお、直線７１１に交わる位置からアイコン８００が重畳される位置までの距離は、例えば、顔方向とディスプレイＡ６３の方向との差の大きさに応じて定まる。

同様に、出席者Ｆ８１の顔方向はディスプレイＡ６３の方向と一致していない。そのため、アイコン８０１は、資料映像１０１ｄと出席者Ｆ８１の顔領域９７とが接する辺上において、顔領域９７の中心と座標８０４とを結ぶ直線７１２に交わる位置に対して、顔方向に応じて離れた位置に重畳される。

以上説明したように、本実施形態によるテレビ会議システム１ｃにおいて、例えば、送受信端末Ａ３６０が備えるカメラＡ６０は、送受信端末Ａ３６０を利用して会議に出席している出席者と、送受信端末Ｂ４６０（他の端末装置）から取得した映像を表示可能なディスプレイＡ６３（表示部）と、を含むカメラ映像３０１ａ（第一の映像）を撮影する。
送受信端末Ａ３６０は、ディスプレイ検出部Ａ３０２（位置検出部）と、顔検出部Ａ３０４と、顔方向推定部Ａ３６１と、合成映像生成部Ａ３６２（生成部）と、を備えている。ディスプレイ検出部Ａ３０２は、カメラＡ６０により撮影されたカメラ映像３０１ａからディスプレイＡ６３の位置を検出する。顔検出部Ａ３０４は、カメラＡ６０により撮影されたカメラ映像３０１ａ（又は、回転処理部Ａ３０３が回転させたカメラ映像３０１ｂでもよい）から顔を検出する。顔方向推定部Ａ３６１は、顔検出部Ａ３０４が検出した顔に基づいて、当該顔の顔方向を推定する。そして、合成映像生成部Ａ３６２は、顔検出部Ａ３０４が検出した顔の位置からディスプレイ検出部Ａ３０２が検出したディスプレイＡ６３の位置への方向と、顔方向推定部Ａ３６１が推定した顔方向との関係に応じて、顔検出部Ａ３０４が検出した顔の映像に対応する位置にアイコン（第二情報）を重畳した映像を生成する。

このように、本実施形態によるテレビ会議システム１ｃは、例えば、送受信端末Ａ３６０を利用して会議に出席している出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２がディスプレイＡ６３の方向を向いているか否かを示すアイコンを、送受信端末Ｂ４６０を利用して会議に出席している出席者Ｈ８３が見るディスプレイＢ６６に表示させる。これにより、送受信端末Ｂ４６０のディスプレイＢ６６を見ている出席者Ｈ８３は、相手側の出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２が資料を見ているか否かがわかるため、より相手側の出席者の状況を知ることができる。また、出席者Ｈ８３が資料を使用して説明している際に、相手側の出席者Ｅ８０、出席者Ｆ８１、及び出席者Ｇ８２から注目されているか否かを知ることができる。よって、本実施形態によれば、相手側の出席者の状況を詳しく把握することができる。

なお、上記説明では、各出席者の顔方向がディスプレイＡ６３の方向と一致している場合と一致していない場合とで、アイコンの色又は種類を変えてもよいことを説明したが、完全一致の場合に限られるものではなく、一定範囲内（例えば、−１０度〜１０度の範囲）であれば一致していると判定されてもよい。また、合成映像生成部Ａ３６２は、顔方向がディスプレイＡ６３の方向と一致している場合のみ、アイコンを描画するようにしてもよい。

以上、この発明の第１から第４の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態によって限定的に解釈されるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれ種々の変更が可能である。例えば、上述の第１から第４の実施形態において説明した各機能は、任意に組み合わせることができる。また、上記実施形態の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する形態も本発明に含まれるものである。

なお、上述した実施形態における送信端末１００、受信端末２００、送受信端末Ａ３００（Ａ３５０、Ａ３６０）、又は送受信端末Ｂ４００（４５０、４６０）の一部または全部の機能をコンピュータで実現するようにしてもよい。その場合、上述の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって上述の機能を実現してもよい。なお、ここでいう「コンピュータシステム」とは、送信端末１００、受信端末２００、送受信端末Ａ３００（Ａ３５０、Ａ３６０）、又は送受信端末Ｂ４００（４５０、４６０）に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

また、上述した実施形態における送信端末１００、受信端末２００、送受信端末Ａ３００（Ａ３５０、Ａ３６０）、又は送受信端末Ｂ４００（４５０、４６０）の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。送信端末１００、受信端末２００、送受信端末Ａ３００（Ａ３５０、Ａ３６０）、又は送受信端末Ｂ４００（４５０、４６０）の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

本発明の一態様は、会議の資料映像の視認性を保ちつつ、相手側の出席者の状況を把握することが必要なテレビ会議システムなどに適用することができる。

１、１ａ、１ｂ、１ｃテレビ会議システム、３、ネットワーク、４情報端末、４ａデータ記憶部、４ｂ端末ディスプレイ、５ディスプレイ、１２カメラ、１３マイク、１４スピーカー、６０カメラＡ、６１マイクＡ、６２スピーカーＡ、６３ディスプレイＡ、６４カメラＢ、６５マイクＢ、６６ディスプレイＢ、６７スピーカーＢ、６８情報端末Ａ、６８ａデータ記憶部Ａ、１００送信端末、１０１第一映像取得部、１０２顔検出部、１０３第二映像取得部、１０４合成映像生成部（生成部）、１０５音声取得部、１０６データ混合部、１０７データ送信部、２００受信端末、２０８データ受信部、２０９データ分離部、２１０音声出力部、２１１映像出力部、３００、３５０、３６０送受信端末Ａ、３０１第一映像取得部Ａ、３０２ディスプレイ検出部Ａ（位置検出部）、３０３回転処理部Ａ、３０４顔検出部Ａ、３０５第二映像取得部Ａ、３０６、３６２合成映像生成部Ａ（生成部）、３０７音声取得部Ａ、３０８データ混合部Ａ、３０９データ送信部Ａ、３１０データ受信部Ａ、３１１データ分離部Ａ、３１２音声出力部Ａ、３１３アイコン重畳部Ａ、３１４映像出力部Ａ、３６１顔方向推定部Ａ、４００、４５０、４６０送受信端末Ｂ、４０１第一映像取得部Ｂ、４０２ディスプレイ検出部Ｂ（位置検出部）、４０３回転処理部Ｂ、４０４顔検出部Ｂ、４０５第二映像取得部Ｂ、４０６、４６２合成映像生成部Ｂ（生成部）、４０７音声取得部Ｂ、４０８データ混合部Ｂ、４０９データ送信部Ｂ、４１０データ受信部Ｂ、４１１データ分離部Ｂ、４１２音声出力部Ｂ、４１３アイコン重畳部Ｂ、４１４映像出力部Ｂ、４６１顔方向推定部Ｂ

Claims

少なくとも一組以上の端末装置がネットワークを介して映像を送受信するテレビ会議システムであって、
前記端末装置は、
カメラにより撮影された映像である第一の映像から顔を検出する顔検出部と、
前記第一の画像から映像を表示可能な表示部の位置を検出する位置検出部と、
会議で使用する資料の映像である第二の映像の映像領域の周囲に、
前記顔検出部が検出した顔の映像を、前記顔検出部で検出した前記顔の相対位置、および、前記位置検出部で検出した前記表示部の位置に応じて配置した映像を生成する生成部と、
を備えるテレビ会議システム。
少なくとも一組以上の端末装置がネットワークを介して映像を送受信するテレビ会議システムであって、
前記端末装置は、
カメラにより撮影された映像であって、前記端末装置を利用して会議に出席している出席者と、映像を表示可能な表示部と、を含む第一の映像から顔を検出する顔検出部と、
前記会議で使用する資料の映像である第二の映像の映像領域の周囲に、前記顔検出部が検出した顔の映像を前記第一の映像における当該顔の相対位置に応じて配置した映像を生成する生成部と、
前記カメラにより撮影された前記第一の映像から前記表示部の位置を検出する位置検出部と、
前記位置検出部が検出した前記表示部の位置が垂直方向で上部且つ水平方向で中央となるように前記第一の映像を回転させる回転処理部と、
を備え、
前記生成部は、
前記顔検出部が検出した顔の映像を、前記回転処理部が回転させた前記第一の映像における当該顔の相対位置に応じて配置する、
テレビ会議システム。
前記端末装置は、
他の端末装置の前記生成部が生成した映像を受信する受信部と、
前記受信部が受信した映像に、前記顔検出部が検出した顔に応じて第一情報を重畳する重畳部と、
を備える請求項２に記載のテレビ会議システム。
前記重畳部は、
重畳する第一情報の透明度を、前記受信部が受信した映像より下げて重畳する
請求項３に記載のテレビ会議システム。
少なくとも一組以上の端末装置がネットワークを介して映像を送受信するテレビ会議システムであって、
前記端末装置は、
カメラにより撮影された映像であって、前記端末装置を利用して会議に出席している出席者と、映像を表示可能な表示部と、を含む第一の映像から顔を検出する顔検出部と、
会議で使用する資料の映像である第二の映像の映像領域の周囲に、前記顔検出部が検出した顔の映像を前記第一の映像における当該顔の相対位置に応じて配置した映像を生成する生成部と、
前記カメラにより撮影された前記第一の映像から前記表示部の位置を検出する位置検出部と、
前記顔検出部が検出した顔に基づいて、当該顔の顔方向を推定する顔方向推定部と、
を備え、
前記生成部は、
前記顔検出部が検出した顔の位置から前記位置検出部が検出した前記表示部の位置への方向と、前記顔方向推定部が推定した前記顔方向との関係に応じて、前記顔検出部が検出した顔の映像に対応する位置に第二情報を重畳した映像を生成する、
を備えるテレビ会議システム。