JP2004193661A

JP2004193661A - 双方向コミュニケーションシステム，映像通信装置，および映像通信装置の撮影処理制御方法

Info

Publication number: JP2004193661A
Application number: JP2002355510A
Authority: JP
Inventors: Ryohei Okada; 良平岡田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-12-06
Filing date: 2002-12-06
Publication date: 2004-07-08

Abstract

【課題】特徴領域を的確に判断し，追尾撮影させ，画像フレーム内の画面所定位置に特徴領域を収めることが可能な，双方向コミュニケーションシステム，映像通信装置，および映像通信装置の撮影処理制御方法を提供する。
【解決手段】ネットワークに接続された１又は２以上の映像配信ユニット（１０１）に備わる映像通信装置（１０４）は，音声データから対象体の発する音源を検出し，音源情報データを生成する音源検出部（２０４）と；画像データから対象体にかかる特徴領域を検出し，特徴領域情報データを生成する特徴検出部（２０３）と；少なくとも音源情報データもしくは特徴領域情報データのうちいずれか一方または双方と，撮像装置（１０２）の特性情報データとに基づき，撮像装置の撮影処理を制御する撮影制御部（２０５）とを備える。
【選択図】図３

Description

【０００１】
【発明の属する技術分野】
本発明は，映像配信ユニット間において映像データを送受信可能なシステムにかかり，特に双方向コミュニケーションシステム，映像通信装置，映像通信装置の撮影処理制御方法に関する。
【０００２】
【従来の技術】
近年，コンピュータなどの情報処理装置の高機能・低価格化による広範な普及と，ディジタル回線を始めとするネットワークのブロードバンド化に伴い，例えばデータ，音声，または映像などをやり取りするマルチメディア通信環境が急速に整備され始めている。
【０００３】
マルチメディア通信環境は，代表的な例として，音声及び画像を双方向でやり取りすることによりコミュニケーションを図るための，例えばテレビ電話／テレビ会議システムなどの双方向コミュニケーションシステムのサービスがある。
【０００４】
上記双方向コミュニケーションシステムにおいて，より円滑なコミュニケーションを図るために，撮影対象（対象体），例えば発言者である話者を，テレビカメラにより追尾撮影し，モニタなどのディスプレイ装置の画面内に表示させているものがある（例えば，特許文献１参照）。なお，本願発明に関連する技術文献情報には，次のものがある。
【０００５】
【特許文献１】
特開平１０−４２２６４号公報
【発明が解決しようとする課題】
しかしながら，上記話者を追尾する場合において，話者以外のちょっとした発言に対してもテレビカメラにより追尾撮影されてしまい，話者を的確に判断し，ディスプレイ装置の画面所定位置に表示させることが困難であった。
【０００６】
また，話者の発言により話者の存在位置を把握し，テレビカメラにより話者を追尾撮影しても，特徴を有する領域（特徴領域）を撮影対象とする場合，例えば話者の顔を撮影する場合など，テレビカメラの画枠内に話者の顔を収め，ピントを合わせるためにカメラのパン（Ｐａｎ），チルト（Ｔｉｌｔ），ズーム（Ｚｏｏｍ）などの微調整を自動的に処理することが困難であった。
【０００７】
本発明は，上記のような従来の問題点に鑑みてなされたものであり，特徴を有する領域を的確に判断し，上記特徴領域を撮像装置により追尾させ，画像フレーム内の画面所定位置に特徴領域を収めることが可能な，新規かつ改良された双方向コミュニケーションシステム，映像通信装置，および映像通信装置の撮影処理制御方法を提供することを目的としている。
【０００８】
【課題を解決するための手段】
上記課題を解決するため，本発明の第１の観点によれば，１又は２以上の映像配信ユニット間を双方向通信可能に相互接続するネットワークを備えた双方向コミュニケーションシステムが提供される。この双方向コミュニケーションシステムの映像配信ユニットは，少なくとも画像データもしくは音声データのうちいずれか一方，または双方からなる映像データを生成する撮像装置と；映像データを伝送データに圧縮符号化するエンコーダ部及び伝送データを伸長するデコーダ部を少なくとも有する映像通信装置と；映像データを表示する出力装置とを備え，送り手側の一の映像配信ユニットは，対象体にかかる特徴領域を出力装置の画面所定位置に表示させる映像データを，受け手側の他の映像配信ユニットに配信することを特徴としている。
【０００９】
本発明によれば，映像配信ユニットは，撮像装置により撮影される対象（対象体）として，映像の認識を助長する特徴を有する領域（特徴領域）を検出し，撮像装置により撮影された画像フレーム内の所定位置に特徴領域を配置させた映像データを，送信先の他の映像配信ユニットに常に配信することにより，他の映像配信ユニットの出力装置に上記画像フレーム内の所定位置と，ほぼ同一位置に特徴領域が表示され，常に特徴領域を把握することが可能となり，円滑なコミュニケーションが図れる。なお，本発明にかかる所定位置は，例えば，画像フレームにおける中心部などが例示される。
【００１０】
対象体にかかる特徴領域は，少なくとも話者にかかる顔領域であるように構成することができる。かかる構成により，特徴領域を話者の顔領域にすることにより，発言内容の理解を助長することが可能となり，対象体相互間の円滑なコミュニケーションが図れる。なお，本発明にかかる対象体は，本実施の形態にかかる使用者などが例示される。
【００１１】
映像通信装置は，さらに少なくともパン，チルト，もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成する撮影制御部を備えるように構成することができる。かかる構成により，撮像装置のカメラのパン，チルト，もしくはズームを調整する制御パラメータを生成することにより，撮像装置の撮影を制御し，特徴領域を追尾撮影することが可能となる。
【００１２】
映像通信装置は，画像データから対象体にかかる特徴領域を検出し，特徴領域情報データを生成する特徴検出部をさらに備えるように構成することができる。かかる構成により，画像データに含まれる対象体から映像の認識の助長となる特徴領域を検出することが可能となり，視認性の高い映像データを常に配信することができる。
【００１３】
特徴領域情報データは，少なくとも特徴領域の面積データ，特徴領域の位置データ，および特徴領域の信頼度データが含まれるように構成することができる。かかる構成により，特徴領域の位置，面積として特徴領域の大きさ，特徴領域であることの確からしさとして信頼度を把握することが可能となり，より精度の高い特徴領域を，的確に検出することができる。
【００１４】
特徴領域情報データは，少なくとも顔領域にかかる顔領域情報データであるように構成してもよい。かかる構成により，より精度の高い話者などの顔領域を，的確に検出することができる。
【００１５】
映像通信装置は，音声データから対象体の発する音源を検出し，音源情報データを生成する音源検出部をさらに備えるように構成することができる。かかる構成により，対象体の発する音源の方向に撮像装置による撮影対象を向けることができ，対象体相互間のコミュニケーションを図るために，認識の容易な映像データを配信することが可能となる。
【００１６】
音源情報データは，少なくとも音源の位置データ，音源の検出時間データ，もしくは音源の音量データのうちいずれか一つ，または任意の組み合わせを含むように構成することができる。かかる構成により，音源を発する話者などの対象体の位置，例えば５秒以上検出されたら話者などの音源として判断する，または例えば所定音量以下の場合は音源として判断しないなど，音源を的確に検出することが可能となる。
【００１７】
撮影制御部は，少なくとも音源情報データもしくは特徴領域情報データのうちいずれか一方，または双方と撮像装置の特性情報データとに基づき，撮像装置の撮影処理を制御するように構成することができる。かかる構成により，検出された特徴領域のうちから，対象体相互間の円滑なコミュニケーションを促すことが可能な，映像の認識を助長する特徴領域を的確に選択し，上記特徴領域が所定位置に配置された映像データを配信することができる。
【００１８】
撮影制御部は，特徴領域情報データが生成された場合，少なくとも１つ前のフレームにて生成された又はフィールドの特徴領域情報データに基づき，当該映像データの特徴領域情報データを補正するように構成することができる。かかる構成により，１の画像フレーム内に複数の特徴領域が検出された場合など，少なくとも１フレーム前の画像フレーム（前フレーム）で検出された特徴領域情報データと，生成された特徴領域情報データとを比較判断し，過去に追尾撮影された，より適切な顔領域が選択され得る特徴領域情報データに補正することができる。
【００１９】
撮影制御部は，特徴領域情報データのうち面積データおよび位置データと，映像データの少なくとも１つ前後するフレームで生成された特徴領域情報データの面積データおよび位置データとを，それぞれ比較し，所定の閾値を超えた場合，撮影処理の制御をするように構成することができる。かかる構成により，不必要なまでの特徴領域の追尾撮影を防ぐことが可能となり，視認性の高い映像データを配信できる。なお，本発明にかかるフレームは，かかる例に限定されず，例えば，フィールド，または複数のフレームから構成されるシーンなどでもよい。
【００２０】
撮影制御部は，特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方と，少なくとも１つ前のフレームの前後にかかる特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方とを比較し，所定の閾値を超えた場合，制御パラメータを生成するように構成してもよい。かかる構成により，所定の閾値を超えた場合のみ，制御パラメータが生成されることで，対象体の特徴領域が必要以上に追尾撮影される場合など，不自然な撮像装置の撮影処理を防ぐことが可能となる。なお，本発明にかかるフレームは，かかる例に限定されず，例えば，フィールド，または複数のフレームから構成されるシーンなどでもよい。
【００２１】
特徴検出部は，撮像装置により生成された全方位からの映像データに基づき，全方位特徴領域情報データを生成するように構成することができる。かかる構成により，撮像装置周辺に存在する特徴領域の全体の位置，各特徴領域の大きさ，各特徴領域の信頼度を把握することが可能となり，撮像装置により上記存在する特徴領域全体を画像フレーム内に収まるよう撮影することができ，全体像が撮影された映像データを配信できる。
【００２２】
音源検出部は，少なくとも第一の所定時間，略同一位置から一の音源を検出した場合，一の音源を対象体の音源と判断するように構成することができる。かかる構成により，第一の所定時間，継続して同位置で発生した音声データを音源とみなすことにより，撮像装置による過度に不自然な撮影処理を防げる。
【００２３】
音源検出部は，少なくとも第一の所定時間，一の音源とは別の略同一位置から他の音源を検出した場合，対象体の音源として一の音源から他の音源に変更するように構成することができる。かかる構成により，第一の所定時間，継続して略同一位置で検出された音声データが音源と一旦は判断されて，さらに別の位置で上記第一の所定時間，継続して別の略同一位置で音声データが検出された場合は，新たに音源として判断する。したがって，一の音源の発生が終了し，他の音源の発生が開始されても，撮像装置は一の特徴領域を有する対象体の音源から上記他の特徴領域を有する対象体の音源に追尾することが可能となる。
【００２４】
第一の所定時間は，略５秒であるように構成することができる。なお，本発明の第一の所定時間は，かかる例に限定されない。
【００２５】
撮影制御部は，少なくとも第二の所定時間，対象体の音源として一の音源から他の音源に，所定回数続けて変更された場合，全方位特徴領域情報データに基づき，撮影処理を制御するように構成することができる。かかる構成により，第二の所定時間の間，所定回数続けて音源の変更がされ，音源として固定されない場合，１又は２以上存在する対象体の全体が画像フレームに収まるように，撮像装置により撮影される。したがって，対象体の全体を視認することが容易となり，発生する音源を把握できる。
【００２６】
第二の所定時間は，略１０秒であるように構成することができる。なお，本発明の第一の所定時間は，かかる例に限定されない。
【００２７】
撮影制御部は，一の音源から他の音源に変更された場合，新たに生成された音源情報データに基づき，制御パラメータを生成するように構成することができる。かかる構成により，一の対象体から発する音源が終了し，他の対象体からの音源の発生が開始されても，撮像装置は音源の位置に基づき一の対象体から上記他の対象体に追尾撮影し，さらに上記他の対象体に含まれる特徴領域を検出し，上記特徴領域が画像フレームの所定位置に配置されるよう撮像装置の撮影を制御することができる。したがって，映像の認識を助長する特徴領域が常に，出力装置の画面上の目に留まる位置に映し出される。
【００２８】
特性情報データは，予め生成されるように構成することができる。かかる構成により，撮像装置の特性として撮影におけるカメラのパン，チルト，またはズームが予め把握でき，撮影された対象体の大きさ又は位置に応じて，画像フレームにおける所定位置および所定大きさに収めるための制御パラメータを生成することができる。
【００２９】
エンコーダ部は，少なくともＨ．２６３又はＭＰＥＧ−４の圧縮符号化方式により，映像データを圧縮符号化するように構成することができる。かかる構成により，低ビットレートのネットワークにおいても，映像データを容易に伝送することができる。
【００３０】
さらに，上記課題を解決するための本発明の別の観点によれば，ネットワークに接続された１又は２以上の映像配信ユニットに備わる映像通信装置が提供される。上記映像配信ユニットは，少なくとも画像データもしくは音声データのうちいずれか一方，または双方からなる映像データを生成する撮像装置と；映像データを表示する出力装置とをさらに備えており，映像通信装置は，音声データから対象体の発する音源を検出し，音源情報データを生成する音源検出部と；画像データから対象体にかかる特徴領域を検出し，特徴領域情報データを生成する特徴検出部と；少なくとも音源情報データもしくは特徴領域情報データのうちいずれか一方または双方と，撮像装置の特性情報データとに基づき，撮像装置の撮影処理を制御する撮影制御部とを備えることを特徴としている。
【００３１】
本発明によれば，映像配信ユニットに含まれる映像通信装置は，映像配信ユニットの使用者間の円滑なコミュニケーションを図るべく映像の認識を助長させるため，常に撮像装置により対象体に有する特徴領域を画像フレームの所定位置に撮影させるため音声データとして音源が発せられる対象体の位置を検出し，発せられる音源が別の対象体からに変更されれば当該別の対象体の位置を検出し，上記対象体に含まれる特徴領域を画像データから検出することにより，特徴領域が配置されるべき適当な画像フレームの所定位置を算出している。かかる構成により，撮像装置により撮影された画像フレーム内の所定位置に特徴領域が配置された映像データを，送信先の他の映像配信ユニットに常に配信することにより，他の映像配信ユニットの出力装置にも上記画像フレーム内の所定位置と，ほぼ同一位置に特徴領域が表示され，常に特徴領域を把握することが可能となり，円滑なコミュニケーションが図れる。なお，本発明にかかる所定位置は，例えば，画像フレームにおける中心部などが例示され，本発明にかかる特徴領域検出部は，例えば，本実施の形態にかかる顔検出ブロックなどが例示される。
【００３２】
対象体にかかる特徴領域は，少なくとも話者にかかる顔領域であるように構成することができる。かかる構成により，特徴領域を話者の顔領域にすることにより，発言内容の理解を助長することが可能となり，対象体相互間の円滑なコミュニケーションが図れる。なお，本発明にかかる対象体は，本実施の形態にかかる使用者などが例示される。
【００３３】
撮影制御部は，少なくともパン，チルト，もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成するように構成することができる。かかる構成により，撮像装置のカメラのパン，チルト，もしくはズームを調整する制御パラメータを生成することにより，撮像装置の撮影を制御し，特徴領域を追尾撮影することが可能となる。
【００３４】
特徴領域情報データは，少なくともフレーム又はフィールド内における特徴領域の面積データ，特徴領域の位置データ，および特徴領域の信頼度データが含まれるように構成することができる。かかる構成により，特徴領域の位置，面積として特徴領域の大きさ，および特徴領域であることの確からしさとして信頼度を把握することが可能となり，より精度の高い特徴領域を，的確に検出することができる。
【００３５】
特徴領域情報データは，少なくとも顔領域にかかる顔領域情報データであるように構成してもよい。かかる構成により，より精度の高い話者などの顔領域を，的確に検出することができる。
【００３６】
音源情報データは，少なくとも音源の位置データ，音源の検出時間データ，もしくは音源の音量データのうちいずれか一つ，または任意の組み合わせを含むように構成することができる。かかる構成により，音源を発する話者などの対象体の位置，例えば５秒以上検出されたら話者などの音源として判断する，または例えば所定音量以下の場合は音源として判断しないなど，音源を的確に検出することが可能となる。
【００３７】
撮影制御部は，特徴領域情報データが生成された場合，少なくとも１つ前のフレームにて生成された又はフィールドの特徴領域情報データに基づき，当該映像データの特徴領域情報データを補正するように構成することができる。かかる構成により，１の画像フレーム内に複数の特徴領域が検出された場合など，少なくとも１フレーム前の画像フレーム（前フレーム）で検出された特徴領域情報データと，生成された特徴領域情報データとを比較判断し，過去に追尾撮影された，より適切な顔領域が選択され得る特徴領域情報データに補正することができる。
【００３８】
撮影制御部は，特徴領域情報データのうち面積データおよび位置データと，映像データの少なくとも１つ前後するフレームで生成された特徴領域情報データの面積データおよび位置データとを，それぞれ比較し，所定の閾値を超えた場合，撮影処理の制御をするように構成することができる。かかる構成により，不必要なまでの特徴領域の追尾撮影を防ぐことが可能となり，視認性の高い映像データを配信できる。なお，本発明にかかるフレームは，かかる例に限定されず，例えば，フィールド，または複数のフレームから構成されるシーンなどでもよい。
【００３９】
撮影制御部は，特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方と，少なくとも１つ前のフレームの前後にかかる特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方とを比較し，所定の閾値を超えた場合，制御パラメータを生成するように構成してもよい。かかる構成により，所定の閾値を超えた場合のみ，制御パラメータが生成されることで，対象体の特徴領域が必要以上に追尾撮影される場合など，不自然な撮像装置の撮影処理を防ぐことが可能となる。なお，本発明にかかるフレームは，かかる例に限定されず，例えば，フィールド，または複数のフレームから構成されるシーンなどでもよい。
【００４０】
特徴検出部は，撮像装置により生成された全方位からの映像データに基づき，全方位特徴領域情報データを生成するように構成することができる。かかる構成により，撮像装置周辺に存在する特徴領域の全体の位置，各特徴領域の大きさ，各特徴領域の信頼度を把握することが可能となり，撮像装置により上記存在する特徴領域全体を画像フレーム内に収まるよう撮影することができ，全体像が撮影された映像データを配信できる。
【００４１】
音源検出部は，少なくとも第一の所定時間，略同一位置から一の音源を検出した場合，一の音源を対象体の音源と判断するように構成することができる。かかる構成により，第一の所定時間，継続して同位置で発生した音声データを音源とみなすことにより，撮像装置による過度に不自然な撮影処理を防げる。
【００４２】
音源検出部は，少なくとも第一の所定時間，一の音源とは別の略同一位置から他の音源を検出した場合，対象体の音源として一の音源から他の音源に変更するように構成することができる。かかる構成により，第一の所定時間，継続して略同一位置で検出された音声データが音源と一旦は判断されて，さらに別の位置で上記第一の所定時間，継続して別の略同一位置で音声データが検出された場合は，新たに音源として判断する。したがって，一の音源の発生が終了し，他の音源の発生が開始されても，撮像装置は一の特徴領域を有する対象体の音源から上記他の特徴領域を有する対象体の音源に追尾することが可能となる。
【００４３】
第一の所定時間は，略５秒であるように構成することができる。なお，本発明の第一の所定時間は，かかる例に限定されない。
【００４４】
撮影制御部は，少なくとも第二の所定時間，対象体の音源として一の音源から他の音源に，所定回数続けて変更された場合，全方位特徴領域情報データに基づき，撮影処理を制御するように構成することができる。かかる構成により，第二の所定時間の間，所定回数続けて音源の変更がされ，音源として固定されない場合，１又は２以上存在する対象体の全体が画像フレームに収まるように，撮像装置により撮影される。したがって，対象体の全体を視認することが容易となり，発生する音源を把握できる。
【００４５】
第二の所定時間は，略１０秒であるように構成することができる。なお，本発明の第一の所定時間は，かかる例に限定されない。
【００４６】
撮影制御部は，一の音源から他の音源に変更された場合，新たに生成された音源情報データに基づき，制御パラメータを生成するように構成することができる。かかる構成により，一の対象体から発する音源が終了し，他の対象体からの音源の発生が開始されても，撮像装置は音源の位置に基づき一の対象体から上記他の対象体に追尾撮影し，さらに上記他の対象体に含まれる特徴領域を検出し，上記特徴領域が画像フレームの所定位置に配置されるよう撮像装置の撮影を制御することができる。したがって，映像の認識を助長する特徴領域が常に，出力装置の画面上の目に留まる位置に映し出される。
【００４７】
特性情報データは，予め生成されるように構成することができる。かかる構成により，撮像装置の特性として撮影におけるカメラのパン，チルト，またはズームが予め把握でき，撮影された対象体の大きさ又は位置に応じて，画像フレームにおける所定位置および所定大きさに収めるための制御パラメータを生成することができる。
【００４８】
エンコーダ部は，少なくともＨ．２６３又はＭＰＥＧ−４の圧縮符号化方式により，映像データを圧縮符号化するように構成することができる。かかる構成により，低ビットレートのネットワークにおいても，映像データを容易に伝送することができる。
【００４９】
映像通信装置は，映像データを伝送データに圧縮符号化するエンコーダ部をさらに備えるように構成してもよく，伝送データを映像データに伸長するデコーダ部をさらに備えるように構成してもよい。
【００５０】
音源検出部は，少なくとも２又は３台のマイクロフォンにより生成された音声データを受信するように構成してもよい。なお，本発明にかかるマイクロフォンは，例えば，本実施の形態にかかるマイク部などが例示される。
【００５１】
さらに，上記課題を解決するための本発明の別の観点によれば，ネットワークに接続され，少なくとも画像データもしくは音声データのうちいずれか一方，または双方からなる映像データの生成および表示可能な１又は２以上の映像配信ユニットに備わる映像通信装置の撮影処理制御方法が提供される。この映像通信装置の撮影処理制御方法における映像通信装置は，音声データから対象体の発する音源を検出し；検出された音源に基づき，音源情報データを生成し；画像データから対象体にかかる特徴領域を検出し；検出された特徴領域に基づき，特徴領域情報データを生成し；少なくとも音源情報データもしくは特徴領域情報データのうちいずれか一方または双方と，撮像装置の特性情報データとに基づき，撮影処理を制御することを特徴としている。
【００５２】
対象体にかかる特徴領域は，少なくとも話者にかかる顔領域であるように構成してもよい。
【００５３】
また，映像通信装置は，少なくともパン，チルト，もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成するように構成することができる。
【００５４】
特徴領域情報データは，少なくともフレーム又はフィールド内における特徴領域の面積データ，特徴領域の位置データ，および前記特徴領域の信頼度データが含まれるように構成してもよく，さらに少なくとも顔領域にかかる顔領域情報データであるように構成してもよい。
【００５５】
音源情報データは，少なくとも音源の位置データ，音源の検出時間データ，もしくは音源の音量データのうちいずれか一つ，または任意の組み合わせを含むように構成してもよい。
【００５６】
映像通信装置は，特徴領域情報データが生成された場合，少なくとも１つ前のフレーム又はフィールドにて生成された特徴領域情報データに基づき，当該映像データの特徴領域情報データを補正するように構成してもよい。
【００５７】
映像通信装置は，特徴領域情報データのうち面積データおよび位置データと，映像データの少なくとも１つ前後するフレームで生成された特徴領域情報データの面積データおよび位置データとをそれぞれ比較し，所定の閾値を超えた場合，撮影処理の制御をするように構成してもよい。
【００５８】
映像通信装置は，特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方と，少なくとも１つ前のフレームの前後にかかる特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方とを比較し，所定の閾値を超えた場合，制御パラメータを生成するように構成してもよい。なお，本発明にかかるフレームは，かかる例に限定されず，例えば，フィールド，または複数のフレームから構成されるシーンなどでもよい。
【００５９】
映像通信装置は，撮像装置により生成された全方位からの映像データに基づき，全方位特徴領域情報データを生成するように構成してもよい。かかる構成により，予め，例えば会議室全体などの全方位を撮影することにより，顔領域などの特徴領域の存在位置を把握し，会議室全体の映像を画像フレームに収めることにより出力装置に表示することができる。
【００６０】
映像通信装置は，少なくとも第一の所定時間，略同一位置から一の音源を検出した場合，一の音源を前記対象体の音源と判断するように構成してもよく，少なくとも第一の所定時間，一の音源とは別の略同一位置から他の音源を検出した場合，対象体の音源として一の音源から他の音源に変更するように構成してもよい。
【００６１】
第一の所定時間は，略５秒であるように構成することができるが，かかる例に限定されない。
【００６２】
映像通信装置は，少なくとも第二の所定時間，対象体の音源として一の音源から他の音源に，所定回数続けて変更された場合，全方位特徴領域情報データに基づき，撮影処理を制御するように構成してもよい。
【００６３】
第二の所定時間は，略１０秒であるように構成することができるが，かかる例に限定されない。
【００６４】
映像通信装置は，前記一の音源から前記他の音源に変更された場合，新たに生成された前記音源情報データに基づき，前記制御パラメータを生成するように構成してもよい。
【００６５】
特性情報データは，予め生成されるように構成してもよく，映像通信装置は，少なくともＨ．２６３又はＭＰＥＧ−４の圧縮符号化方式により，映像データを圧縮符号化するように構成してもよい。
【００６６】
【発明の実施の形態】
以下，本発明の好適な実施の形態について，添付図面を参照しながら詳細に説明する。なお，以下の説明及び添付図面において，略同一の機能及び構成を有する構成要素については，同一符号を付することにより，重複説明を省略する。
【００６７】
（１．システム構成）
まず，図１を参照しながら，本実施の形態にかかる双方向コミュニケーションシステムについて説明する。図１は，本実施の形態にかかる双方向コミュニケーションシステムの概略的な構成を示すブロック図である。
【００６８】
図１に示すように，双方向コミュニケーションシステムは，１又は２以上の映像配信ユニット１０１（１０１ａ，１０１ｂ，…，１０１ｎ）がネットワーク１０５に接続されている。
【００６９】
上記映像配信ユニット１０１（１０１ａ，１０１ｂ，…，１０１ｎ）により，使用者１０６（１０６ａ，１０６ｂ，…，１０６ｎ）は，ネットワーク１０５を介して，お互いの画像又は音声をやりとりすることで例えばテレビ会議システムなどのサービスを受けることができる。
【００７０】
映像配信ユニット１０１（１０１ａ，１０１ｂ，…，１０１ｎ）は，ビデオカメラなどの撮像装置１０２（１０２ａ，１０２ｂ，…，１０２ｎ）と，マイクロフォンなどから構成される音源受信装置１０７（１０７ａ，１０７ｂ，…，１０７ｎ）と，上記撮像装置１０２の撮影により生成された画像データ又は音源受信装置１０７から送出された音声データからなる映像データを，ネットワーク１０５を介して送受信する映像通信装置１０４（１０４ａ，１０４ｂ，…，１０４ｎ）と，上記映像データを表示する出力装置１０３（１０３ａ，１０３ｂ，…，１０３ｎ）とが備えられている。なお，本実施の形態にかかる映像データは，少なくとも音声データ又は画像データのうちいずれか一方又は双方からなる。
【００７１】
撮像装置１０２は，画像データを生成可能なビデオカメラであり，例えば，テレビ会議，監視・モニタリングなどに適用される低ビットレート通信用のビデオカメラであるが，かかる例に限定されず，本実施の形態にかかる撮像装置１０２は，放送用のニュース番組の取材や，スポーツなどの試合の模様などを撮影するカムコーダなどの場合であっても実施可能である。
【００７２】
音源受信装置１０７は，音源から発せられる例えば風の音や人の声などの音声データを生成する装置であり，例えばマイクロフォンなどが例示される。さらに音源受信装置１０７は，複数のマイクロフォンを配列したマイクアレーで構成されるのが好ましく，その場合は後述のように音声方向検出が可能になる。
【００７３】
出力装置１０３は，映像データを表示することが可能な例えば，ＴＶ装置又は液晶ディスプレイ装置などが例示され，さらにスピーカを備えることにより，音声および画像を出力することが可能な装置である。
【００７４】
映像通信装置１０４は，上記音源受信装置１０７から送出される音声データまたは上記撮像装置１０２から送出される画像データから，音源情報データまたは特徴領域として顔領域にかかる顔領域情報データを生成し，上記音源情報データ又は顔領域情報データ，さらには上記撮像装置１０２の特性情報データに基づき，１又は２以上の使用者１０６から話者を識別し，上記話者の顔領域を追尾するため撮像装置１０２の撮影処理を制御する。なお，本実施の形態にかかる特徴領域は顔領域である場合を例に説明するが，かかる例に限定されず，例えば，使用者１０６が常備している社員証，駐車場などに駐車された乗用車や自動二輪車などのナンバープレートの場合などであってもよい。なお本実施の形態にかかる特性情報データについては後程詳述する。また後程詳述するが，上記顔領域については，以下，図１２等に示す顔領域１２０１とほぼ同様な構成である。
【００７５】
映像通信装置１０４は，制御パラメータを生成することにより，上記撮像装置１０２の撮影処理にかかるカメラのＰＴＺを制御している。なおＰＴＺとは，パン（Ｐａｎ），チルト（Ｔｉｌｔ），およびズーム（Ｚｏｏｍ）のことを示すが，詳細については後程説明する。
【００７６】
さらに映像通信装置１０４は，制御パラメータにより制御された撮像装置１０２により送出された映像データを圧縮符号化し，上記圧縮符号化された伝送データを，ネットワーク１０５を介して送信する。またネットワーク１０５を介して送出されてくる伝送データを受信し，上記伝送データを伸長する。上記伸長された映像データは，出力装置１０３に送信される。なお，本実施の形態にかかる顔領域に基づく圧縮符号化は，少なくともＨ．２６３，またはＭＰＥＧ−４に基づき行われる。
【００７７】
次に，本システムの典型的な動作例について説明する。
【００７８】
ある使用者１０６との間で，例えば，使用者１０６ａと使用者１０６ｂとの間で，テレビ会議をする場合，まず映像配信ユニット１０１ｂに備わる撮像装置１０２ｂにより，撮影される対象体としての使用者１０６ｂの画像データが生成され，音源が使用者１０６ｂである音声データが音源受信装置１０７により生成される。
【００７９】
まず初めに上記使用者１０６ｂの画像データを生成する場合，予め撮像装置１０２ｂにより全方位（例えば，会議室全体など）の撮影による画像データから生成された全使用者１０６ｂの顔領域の存在位置が把握可能な全方位顔領域情報データに基づき，参加された使用者１０６ｂの全体が収まるような画像データが生成される。
【００８０】
なお上記使用者１０６ｂが複数により全体が出力装置１０３ｂの画面上に収まりきれない場合は，使用者１０６ｂの複数ある顔領域が最大となるように出力装置１０３ｂの画面に収められる。本実施の形態にかかる全方位顔領域情報データは，特徴を有する領域であれば，かかる例に限定されない。全方位顔領域情報データについては後程詳述する。
【００８１】
生成された音声データまたは画像データからなる映像データは，逐次，映像通信装置１０４ｂにより圧縮符号化され，ネットワーク１０５を介して映像配信ユニット１０１ａに送信される。
【００８２】
つぎに映像通信装置１０６ｂは，使用者１０６ｂのうちから話者を識別し，使用者１０６ｂのうち話者の顔領域が出力装置１０３の画面の所定位置に表示されるように，撮像装置１０２ｂのＰＴＺなどの撮影処理を制御パラメータにより制御する。なお，本実施の形態にかかる話者の識別および制御パラメータによる撮像装置１０２の撮影制御は後程詳述する。
【００８３】
したがって映像配信ユニット１０１ａに備わる出力装置１０３ａは，ネットワーク１０５を介して送出される使用者１０６ｂの話者の顔領域が所定位置に撮影された映像データを表示する。なお本実施の形態にかかる所定位置は，出力装置１０３の画面の略中心を指すが，かかる例に限定されず，他のいかなる位置である場合であったとしても実施可能である。
【００８４】
また映像配信ユニット１０１ａに備わる撮像装置１０２ａにより生成される映像データに関しても，上記映像配信ユニット１０１ｂに備わる撮像装置１０２ｂにより，使用者１０６ｂの話者の顔領域が所定位置に映るように映像データが生成される場合と同様である。
【００８５】
したがって，映像配信ユニット１０１ｂにも，ネットワーク１０５を介して映像配信ユニット１０１ａから使用者１０６ａの話者の顔領域が所定位置に撮影された映像データが送出される。
【００８６】
映像配信ユニット１０１ａと映像配信ユニット１０１ｂとの間で，発言をする話者を捉えた映像データを，遠隔地であってもネットワーク１０５を介して映像データを送受信することで，お互いの使用者１０６ａと使用者１０６ｂとの間で円滑なコミュニケーションを図ることができる。
【００８７】
なお，本実施の形態にかかる映像配信ユニット１０１には，撮像装置１０２，出力装置１０３，および映像通信装置１０４とがそれぞれ備わっている場合を例にあげて説明したが，かかる例に限定されず，例えば，１の映像配信ユニット１０１には，撮像装置１０２及び映像通信装置１０４を備え，他の映像配信ユニット１０１には，映像通信装置１０４及び出力装置１０３を備える場合であっても実施可能である。この場合，例えば，１の映像配信ユニット１０１に属す使用者１０６である話者により例えば商品の説明などプレゼンテーションが実施される場合，他の映像配信ユニット１０１に属す使用者１０６は，上記話者が出力装置１０３の所定位置に表示されるためコミュニケーションが促進され上記商品などの理解を深めることが可能である。
【００８８】
（２双方向コミュニケーションシステムの各コンポーネントの構成）
次に，本実施の形態にかかる双方向コミュニケーションシステムの各コンポーネントの構成について説明する。
【００８９】
（２．１ネットワーク１０５）
ネットワーク１０５は，映像配信ユニット１０１（１０１ａ，１０１ｂ，…，１０１ｎ）に備わる映像通信装置１０４（１０４ａ，１０４ｂ，…，１０４ｎ）を相互に双方向通信可能に接続するものであり，典型的にはインターネットなどの公衆回線網であるが，ＷＡＮ，ＬＡＮ，ＩＰ−ＶＰＮなどの閉鎖回線網も含む。また接続媒体は，ＦＤＤＩ（ＦｉｂｅｒＤｉｓｔｒｉｂｕｔｅｄＤａｔａＩｎｔｅｒｆａｃｅ）などによる光ファイバケーブル，Ｅｔｈｅｒｎｅｔ（登録商標）による同軸ケーブル又はツイストペアケーブル，もしくはＩＥＥＥ８０２．１１ｂなど，有線無線を問わず，衛星通信網なども含む。なお本実施の形態にかかるネットワーク１０５は，かかる例に限定されず，単方向のみ通信可能な場合であっても実施可能である。
【００９０】
（２．２映像配信ユニット１０１）
映像配信ユニット１０１（１０１ａ，１０１ｂ，…，１０１ｎ）は，撮像装置１０２（１０２ａ，１０２ｂ，…，１０２ｎ），音声データを生成する音源受信装置１０７（１０７ａ，１０７ｂ，…，１０７ｎ），上記撮像装置１０２または音源受信装置１０７により生成されてなる映像データを送受信する映像通信装置１０４（１０４ａ，１０４ｂ，…，１０４ｎ），もしくは映像データを表示する出力装置１０３（１０３ａ，１０３ｂ，…，１０３ｎ）のうちいずれか一つ又は任意の組み合わせとが備えられている。
【００９１】
（２．２．１撮像装置１０２）
図１に示す撮像装置１０２は，少なくとも１又は２以上の撮像素子（撮像デバイス）が備わる撮像部（図示せず。）と，映像通信装置１０４に画像入力信号として画像データを出力する出力部（図示せず。）とを備えている。
【００９２】
上記撮像素子は，受光面に２次元的に設けられた光電変換素子からなる複数の画素により，被写体から受光した光学像を光電変換して画像データとして出力することが可能である。例えば，撮像素子は，多種からなるＣＣＤなどの固体撮像デバイスが挙げられる。
【００９３】
出力部は，撮像部により生成された画像データを，映像通信装置１０４に画像入力信号として出力する。
【００９４】
なお，本実施の形態にかかる撮像装置１０２に備わる出力部は，画像データを映像通信装置１０４にアナログデータとして出力するが，かかる例に限定されず，Ａ／Ｄ変換部（Ａ／Ｄコンバータ）を備えることにより，ディジタルデータとして出力する場合であっても実施可能である。
【００９５】
（２．２．２音源受信装置１０７）
次に，図１及び図２を参照しながら，本実施の形態にかかる音源受信装置１０７について説明する。図２は，本実施の形態にかかる音源受信装置の概略的な構成を示す説明図である。
【００９６】
図２に示すように，音源受信装置１０７は，Ｘ地点，Ｙ地点，Ｚ地点のそれぞれに，例えば無指向性マイクロフォンなどの複数のマイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）を配列したマイクアレーで構成されており，マイク部１０８は所定高さを有する。なお，各マイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）は平面上，垂直に設置されている。上記マイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）は，各マイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）を頂点とし，１辺を１０ｃｍとする正三角形の形状となるように備えられており，撮影の対象体となる話者からの音声がそれぞれのマイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）に到達されることとなる。
【００９７】
音源受信装置１０７に備えられるマイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）は，図１に示すように映像通信装置１０４に接続されおり，マイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）に音声が入力されることにより生成される音声データを上記映像通信装置１０４に送出している。
【００９８】
上記マイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）に，例えば音源である話者からの音声が到達する際，マイク部１０８ａ，マイク部１０８ｂ，マイク部１０８ｃのそれぞれに音声が到達する時間等を検出し，各マイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）間の時間差等を検出することにより音源の位置などを把握することが可能となる。なお，音源検出については，後程詳述する。
【００９９】
なお，本実施の形態にかかるマイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）が備えられている位置は，正三角形状である場合を例に挙げて説明したが，かかる例に限定されない。基本的にマイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）の設定位置は，設定間隔が広い方が時間差の精度が得られ，狭い方が近接音源の検出誤差が小さいという特徴がある。
【０１００】
（２．２．３出力装置１０３）
出力装置１０３は，図３に示すように，変換部２０９によりＤ／Ａ（ディジタル／アナログ）変換された映像データを表示する。また，出力装置１０３は，上記説明の通り，例えば，ＴＶ装置又は液晶ディスプレイ装置などが例示され，音声又は画像を出力することが可能な装置である。
【０１０１】
なお，本実施の形態にかかる出力装置１０３は，Ｄ／Ａ変換された映像データを表示する場合を例に挙げて説明したが，かかる例に限定されず，例えば，Ｄ／Ａ変換せずに，ディジタルデータのまま映像データを表示する場合でも実施可能である。
【０１０２】
（２．２．４映像通信装置１０４）
次に，図３を参照しながら，本実施の形態にかかる映像通信装置１０４について説明する。図３は，本実施の形態にかかる映像通信装置の概略的な構成を示すブロック図である。
【０１０３】
図３に示すように，映像通信装置１０４は，撮像装置１０２により送出された画像データをＡ／Ｄ変換する変換部２０１と，ディジタル化された画像データを一時的に記憶保持するメモリ部２０２と，画像データから顔領域を検出し，顔領域情報データを生成する顔検出ブロック２０３と，音源受信装置１０７から送出される音声データから音源を検出し，音源情報データを生成する音源検出部２０４と，上記顔領域情報データ及び／又は上記音源情報データと，上記撮像装置１０２の特性情報データとから制御パラメータを生成する撮影制御部２０５と，画像データおよび音声データとからなる映像データを圧縮符号化するエンコーダ部２０６と，上記伝送データを送受信する通信部２０７と，通信部２０７により受信された伝送データを伸長するデコーダ部２０８と，上記でコーダ部２０８から送出される映像データをＤ／Ａ変換し，出力装置１０３に送出する変換部２０９とを備える。なお，上記顔検出ブロック２０３，音源検出部２０４，特性情報データ，および撮像制御部２０５の制御パラメータの生成については，後程詳述する。
【０１０４】
（２．２．５音源検出部２０４）
次に，図４を参照しながら，本実施の形態にかかる音源検出部２０４について説明する。図４は，本実施の形態にかかる音源検出部の概略的な構成を示すブロック図である。
【０１０５】
図４に示すように，音源検出部２０４は，音源受信装置１０７に備わる各マイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）から送出されてくる音声データをＡ／Ｄ変換する変換部４０１（４０１ａ，４０１ｂ，４０１ｃ）と，水平方向に対する時間差を検出する水平時間差検出部４０３と，検出された水平方向の時間差に基づき，水平方向の角度を算出する水平角度算出器４０５と，垂直方向に対する時間差を検出する垂直時間差検出部４０７と，検出された垂直方向の時間差に基づき，垂直方向の角度を算出する垂直角度算出器４０８と，少なくとも算出された垂直方向及び水平方向の角度等に基づき音源情報データを生成する音源情報送出部４０９とを備えている。
【０１０６】
変換部４０１は，図４に示すように，各マイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）から送出されてくる音声データをＡ／Ｄ変換し，上記水平時間差検出器４０３及び垂直時間差検出器４０７にそれぞれ送出するとともに，各マイク部１０８（１０８ａ，１０８ｂ，１０８ｃ）から送出される音声データは，まとめて映像通信装置１０４に備わるエンコーダ部２０６に送出される。
【０１０７】
水平時間差検出器４０５は，変換部４０１ａ及び変換部４０１ｂから入力される音声データに基づき，例えば入力される音声データのピークポイントを抽出するピーク抽出処理，ロバスト性を確保可能な変動閾値等を用いる立ち上がり検出処理，および上記検出処理により検出された結果に基づき時間差を求める時間差検出処理等を経ることにより水平方向に対する時間差を検出する。水平方向に対する時間差は，３次元空間のうち水平方向の平面にかかる時間差である。なお，本実施の形態にかかる水平時間差検出器４０５は，水平方向に対する時間差の他に，例えば，水平方向の音声データの検出時間，音量などを検出することも実施可能である。
【０１０８】
垂直時間差検出器４０７は，変換部４０１ｂ及び変換部４０１ｃから入力される音声データに基づき，上記説明の水平時間差検出器４０５とほぼ同様に，入力される音声データのピークポイントを抽出するピーク抽出処理，ロバスト性を確保可能な変動閾値等を用いる立ち上がり検出処理，および上記検出処理により検出された結果に基づき時間差を求める時間差検出処理等を実行することにより垂直方向に対する時間差を検出する。垂直方向に対する時間差は，３次元空間のうち垂直方向の平面にかかる時間差である。なお，本実施の形態にかかる垂直時間差検出器４０７は，垂直方向に対する時間差の他に，例えば，垂直方向の音声データの検出時間，音量なども検出することが実施可能である。
【０１０９】
水平角度算出器４０５及び垂直角度算出器４０８は，上記水平時間差検出器４０５及び上記垂直時間差検出器４０７により検出された水平方向の時間差と垂直方向の時間差とに基づき，それぞれ水平方向及び垂直方向に対する角度を算出する。上記角度の算出は，時間差と角度情報とが対応付けられたテーブル（図示せず。）を予め生成しておくことにより算出される。
【０１１０】
音源情報送出部４０９は，上記水平角度算出器４０５及び垂直角度算出器４０８により算出された水平方向及び垂直方向に対する角度から，音源受信装置１０７により受信された音源の方向推定を行うことにより，音源の位置を検出することが可能となる。
【０１１１】
また音源情報送出部４０９は，音源の位置を検出し，上記水平時間差検出器４０３及び垂直時間差検出器４０７において検出された水平／垂直方向の音声データの検出時間，音量に基づき，音源情報データを生成する。
【０１１２】
上記音源情報データは，検出された音源の位置を示す位置データ，音源の検出時間を示す検出時間データ，または音源の音量を示す音量データのうち少なくとも一方または任意の組み合わせから構成されている。
【０１１３】
生成された音源情報データが，音源情報送出部４０９により映像通信装置１０４に備わる撮影制御部２０５に送出されることにより，撮影制御部２０５は制御パラメータを生成し，音源である話者の存在位置に撮影対象を向けるため撮像装置１０２のＰＴＺを制御することができる。なお撮影制御部２０５による制御パラメータの生成については後程詳述する。
【０１１４】
なお，本実施の形態にかかる検出された音源に基づき音源情報データが生成されるタイミングは，例えば音源検出部２０４に入力される音声データの検出時間（上記音源の検出時間。）が５秒を超えた場合，つまり音源として話者から発せられる音声が５秒を超えた場合，音源情報送出部４０９は音源情報データを生成するが，かかる例に限定されない。
【０１１５】
（２．２．６顔検出ブロック２０３）
次に，図３を参照しながら，メモリ部２０２に記憶された画像データに含まれる顔領域を検出する顔検出ブロック２０３及び顔領域検出処理について説明する。
【０１１６】
顔検出ブロック２０３は，メモリ部２０２に記憶された画像データをフレーム単位に，画像データから人間の顔画像である顔領域を検出する。したがって，顔検出ブロック２０３には，複数の工程により上記顔領域を検出するために，各部がそれぞれ備わっている。
【０１１７】
なお，本実施の形態にかかる顔検出ブロック２０３は，人間の顔領域を検出する場合を例に挙げて説明したが，画像データのうち特徴的な領域を有する場合であれば，かかる例に限定されず，例えば，乗用車のナンバープレート，時計，またはパソコンなどの画像領域を検出する場合であっても実施可能である。
【０１１８】
顔検出ブロック２０３は，図３に示すように，リサイズ部２３０と，ウィンドウ切出部２３１と，テンプレートマッチング部２３２と，前処理部２３３と，ＳＶＭ（サポートベクタマシン；ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）識別部２３４と，結果判定部２３５とが備わる。
【０１１９】
リサイズ部２３０は，撮像装置１０２により生成された映像データを，メモリ部２０２からフレーム単位に読み出して，当該フレーム単位に読み出された映像データ（以下，フレーム画像）を縮小率が相異なる複数のスケール画像に変換する。
【０１２０】
例えば，本実施の形態にかかるフレーム画像が，ＮＴＳＣ方式（ＮａｔｉｏｎａｌＴｅｌｅｖｉｓｉｏｎＳｙｓｔｅｍＣｏｍｍｉｔｔｅｅ方式）の７０４×４８０画素（横×縦）からなる場合，０．８倍ずつ順次縮小して５段階（１．０倍，０．８倍，０．６４倍，０．５１倍，０．４１倍）のスケール画像に変換する。なお以下，上記複数のスケール画像は，１．０倍のスケール画像を第１のスケール画像とし，順次縮小するごとに，第２〜第５のスケール画像とする。
【０１２１】
ウィンドウ切出部２３１は，まず第１のスケール画像に対して，画像左上を起点として順にフレーム画像の右下まで，例えば２画素ずつなど，適当な画素ずつ右側又は下側にずらしながらスキャンするようにして，２０×２０画素の矩形領域（以下，ウィンドウ画像と呼ぶ）を順次切出す。なお，本実施の形態にかかるスケール画像の起点は，画像左上である場合に限らず，例えば画像右上などであっても実施可能である。
【０１２２】
上記第１のスケール画像から切出された複数のウィンドウ画像は，順次，ウィンドウ切出部２３１により，後続のテンプレートマッチング部２３２に送出される。
【０１２３】
テンプレートマッチング部２３２は，ウィンドウ切出部２３１により送出されたウィンドウ画像について，例えば正規化相関法，誤差二乗法などの演算処理を実行してピーク値をもつ関数曲線に変換した後，当該関数曲線に対して認識性能が落ちない程度に十分に低い閾値を設定し，当該閾値を基準として当該ウィンドウ画像の領域が顔領域であるか否かを判断する。
【０１２４】
上記テンプレートマッチング部２３２には，予め，例えば１００人程度の人間の顔画像の平均から生成される平均的な人間の顔領域をテンプレートデータとして登録されている。
【０１２５】
ウィンドウ画像の領域が顔領域であるか否かの判断は，上記テンプレートマッチング部２３２に顔領域のテンプレートデータとして登録することにより，かかる顔領域か否かの判断基準となる閾値が設定され，当該ウィンドウ画像について，テンプレートデータとなる平均的な顔領域との簡単なマッチングをすることにより判断される。
【０１２６】
テンプレートマッチング部２３２は，ウィンドウ切出部２３１により送出されたウィンドウ画像について，テンプレートデータによるマッチング処理を行い，テンプレートデータとマッチングし，顔領域であると判断された場合には，当該ウィンドウ画像をスコア画像（顔領域と判断されたウィンドウ画像。）として後続の前処理部２３３に送出する。
【０１２７】
また，上記ウィンドウ画像について，顔領域でないと判断された場合には，当該ウィンドウ画像そのまま結果判定部２３５に送出する。なお，上記スコア画像には，顔領域と判断された度合いがどの程度確からしいのかを示す信頼度情報が含まれる。例えば，信頼度情報は，スコア値が“００”〜“９９”の範囲内の数値を表し，数値が高いほど，より顔領域であることが確からしいことを表す。なお，信頼度情報は，例えば結果判定部２３５に備わるキャッシュ（図示せず。）などに格納される場合でもよい。
【０１２８】
上記説明の正規化相関法，誤差二乗法などの演算処理は，後続の前処理部２３３およびＳＶＭ識別部２３４における演算処理と比較すると，演算処理量が１０分の１から１００分の１程度で済むとともに，テンプレートマッチング部２３２によるマッチング処理時点で，８０（％）以上の確率で顔領域であるウィンドウ画像を検出することが可能である。つまり，明らかに顔領域でないウィンドウ画像を，この時点で除去することが可能となる。
【０１２９】
前処理部２３３は，テンプレートマッチング部２３２から得られたスコア画像について，矩形領域でなる当該スコア画像から人間の顔領域とは無関係な背景に相当する４隅の領域を抽出するべく，当該４隅の領域を切り取ったマスクを用いて，２０×２０画素あるスコア画像から３６０画素分を抽出する。なお本実施の形態にかかるスコア画像は４隅を切り取った３６０画素分を抽出する場合を例に挙げて説明したが，かかる例に限定されず，例えば，４隅を抽出しない場合であっても実施可能である。
【０１３０】
さらに前処理部２３３は，撮像時の照明などにより濃淡で表される被写体の傾き条件を解消するために，例えば平均二乗誤差（ＲＳＭ：ＲｏｏｔＭｅａｎＳｑｕａｒｅ）などによる算出方法を用いて当該抽出された３６０画素のスコア画像の濃淡値に補正をかける。
【０１３１】
続いて，前処理部２３３は，当該３６０画素のスコア画像のコントラストが強調された結果のスコア画像を，ヒストグラム平滑化処理を行うことにより，撮像装置１０２の撮像素子のゲイン又は照明の強弱に左右されないスコア画像を検出させることが可能となる。
【０１３２】
またさらに，前処理部２３３は，例えばスコア画像をベクトル変換し，得られたベクトル群をさらに１本のパターンベクトルに変換するため，ガボア・フィルタリング（ＧａｂｏｒＦｉｌｔｅｒｉｎｇ）処理を行う。なお，ガボア・フィルタリングにおけるフィルタの種類は必要に応じて変更可能である。
【０１３３】
ＳＶＭ識別部２３４は，前処理部２３３からパターンベクトルとして得られたスコア画像に対して顔領域の検出を行う。そして検出された場合，顔領域検出データとして出力する。検出されない場合は，顔領域未検出データとして追加され，さらに学習する。
【０１３４】
ＳＶＭ識別部２３４は，前処理部２３３により送出されたスコア画像に基づいて生成されたパターンベクトルについて，当該スコア画像内に顔領域が存在するか否かを判断し，顔領域が検出された場合，当該スコア画像における顔領域の左上位置（座標位置），顔領域の面積（縦×横の画素数），顔領域であることの確からしさを表す信頼度情報，当該スコア画像の切出しの元となるスケール画像の縮小率（第１〜第５のスケール画像に該当する縮小率のうちのいずれか一つ。）とからなる顔領域情報を，例えば結果判定部２３５に備わるキャッシュ（図示せず。）に格納することにより，スコア画像ごとにリスト化する。なお，本実施の形態にかかる顔領域の位置（起点）は，画像左上である場合に限らず，例えば画像右上などであっても実施可能である。
【０１３５】
ＳＶＭ識別部２３４により，例えば，第１のスケール画像のうち最初のウィンドウ画像の顔領域の検出が終了すると，ウィンドウ切出部２３１により第１のスケール画像の中の次にスキャンされたウィンドウ画像がテンプレートマッチング部２３２に送出される。
【０１３６】
次にテンプレートマッチング部２３２は，当該ウィンドウ画像がテンプレートデータにマッチングした場合のみスコア画像として，前処理部２３３に送出する。前処理部２３３は，上記スコア画像をパターンベクトルに変換してＳＶＭ識別部２３４に送出する。ＳＶＭ識別部２３４は，パターンベクトルに基づき顔領域を検出した場合，上記スケール画像に関する顔領域情報を生成し，上記結果判定部２３５に備わるキャッシュに格納する。
【０１３７】
上記記載のように，第１のスケール画像について，ウィンドウ切出部２３１により順次スキャンされたウィンドウ画像について，以降後続のテンプレートマッチング部２３２，前処理部２３３，及びＳＶＭ識別部２３４による各処理が実行され，当該第１のスケール画像から顔領域が含まれるスコア画像を複数検出することが可能となる。
【０１３８】
さらに，ウィンドウ切出部２３１による第１のスケール画像のスキャンが全て終了し，後続のテンプレートマッチング部２３２，前処理部２３３，及びＳＶＭ識別部２３４による各処理についても終了すると，第２のスケール画像について，上記説明の第１のスケール画像とほぼ同様に顔領域の検出するための各処理が実行される。第３〜第５のスケール画像についても，第１のスケール画像とほぼ同様にして顔領域の検出処理が実行される。
【０１３９】
ＳＶＭ識別部２３４は，メモリ部２０２から読み出した映像データであるフレーム画像を５段階の相異なる縮小率から構成される第１〜第５のスケール画像について，顔領域が検出されたスコア画像をそれぞれ複数検出し，その結果，生成される顔領域情報を，上記結果判定部２３５に備わるキャッシュ（図示せず。）に格納する。なお，本実施の形態にかかるキャッシュは，結果判定部２３５に備わる場合を例に挙げて説明したが，かかる例に限定されず，例えば，顔検出ブロック２０３内に単独で備わる場合などであっても実施可能である。さらに，顔領域が検出されずスコア画像が全く得られない場合もあるが，少なくとも１個など，所定の個数だけスコア画像が得られれば，顔検出処理は続行される。
【０１４０】
上記第１〜第５のスケール画像において顔領域が検出されたスコア画像は，ウィンドウ切出部２３１におけるスキャンが所定画素（例えば，２画素など。）ずつ移動しながら実行されているため，前後のスコア画像の間では，近傍領域において高い相関性があり，相互に重なり合う領域を有する場合が多い。
【０１４１】
結果判定部２３５は，上記重複する領域を除去するため，２つのスコア画像の位置，スコア画像の画素数，および所定の数式に基づき，重複しているか否かを判定する。
【０１４２】
例えば，上記２つのスコア画像の位置として左上角の位置を，Ｘ．Ｙ座標により（Ｘ_Ａ，Ｙ_Ａ），（Ｘ_Ｂ，Ｙ_Ｂ）とそれぞれ表し，スコア画像の画素数（縦×横）を，それぞれＨ_Ａ×Ｌ_Ａ，Ｈ_Ｂ×Ｌ_Ｂ，ｄＸ（＝Ｘ_Ｂ−Ｘ_Ａ），ｄＸ（＝Ｘ_Ｂ−Ｘ_Ａ）とすると，以下に示す（１）式および（２）の関係が同時に成り立つ場合，２つのスコア画像は重なり合うと判定される。
【０１４３】
（Ｌ_Ａ−ｄＸ）×（Ｌ_Ｂ＋ｄＸ）＞０・・・・・（１）
【０１４４】
（Ｈ_Ａ−ｄＹ）×（Ｈ_Ｂ＋ｄＹ）＞０・・・・・（２）
【０１４５】
結果判定部２３５は，当該判定結果に基づいて，複数のスコア画像のうち重なり合う領域を除くことにより，重なり合わない最終的な顔領域を取得し，最終的に確定となる顔領域情報を生成し，上記キャッシュに格納されていた顔領域情報を更新する。なお，本実施形態にかかる格納されていた顔領域情報は，確定された顔領域情報に更新される場合を例に挙げて説明したが，かかる場合に限らず，別途新規に確定された顔領域情報を格納する場合であっても実施可能である。
【０１４６】
重なり合う領域が存在する場合，結果判定部２３５は，キャッシュ（図示せず。）に格納されたスコア画像に対応する信頼度情報に基づき，信頼度の高い，つまり顔領域である確からしさが高いスコア画像の方の顔領域情報を生成し，上記キャッシュに格納された当該顔領域情報を信頼度の高い顔領域情報に更新する。
【０１４７】
結果判定部２３５は，上記顔領域が検出されない場合，キャッシュに格納処理を行わず，さらに重なり合う顔領域が存在しない場合は，顔領域情報の更新は行わない。
【０１４８】
以上から，顔検出ブロック２０３は，撮像装置１０２により撮影された画像データから，信頼性の高い顔領域に対して顔領域情報を生成することが可能となる。したがって，複数の顔領域が検出されても，より確実に，例えば撮影の対象体である使用者１０６の顔領域を検出することが可能となる。
【０１４９】
上記生成された顔領域情報データは，図３に示す撮影制御部２０５に送信されて，少なくとも顔領域情報データ等に基づき，制御パラメータが生成される。なお，撮影制御部２０５による制御パラメータの生成については後程詳述する。
【０１５０】
また，本実施の形態にかかる結果判定部２３５による重複領域の判定処理は，（１）式に定められた場合を例に挙げて説明したが，かかる例に限定されず，他の数式を用いた場合であっても実施可能である。
【０１５１】
また，本実施の形態にかかるスケール画像をはじめとする画像の位置は，左上隅を基準に表される場合を例に挙げて説明したが，かかる例に限定されず，他の位置を基準とした場合であっても実施可能である。
【０１５２】
また，本実施の形態にかかる顔領域の検出される画像データは，フレーム単位に読み込まれて，顔領域が検出処理される場合を例に挙げて説明したが，かかる例に限定されず，例えば，フィールド単位又は複数フレームからなるシーンごとに顔領域の検出処理を行う場合などであっても実施可能である。
【０１５３】
また，本実施の形態にかかるテンプレートマッチング２３２に登録されるテンプレートデータは，平均的な人間の顔を示す顔領域が登録される場合を例にあげて説明したが，かかる例に限定されず，例えばテンプレートデータとして，乗用車のナンバープレート，時計，またはペットなどの動物の顔の画像領域が登録される場合であっても実施可能である。
【０１５４】
通信部２０７は，ネットワーク１０５と接続され，ネットワーク１０５を介して圧縮符号化された伝送データを送信，またはネットワーク１０５を介して，映像配信ユニットから配信される伝送データを受信する。
【０１５５】
（３．双方向コミュニケーションシステムの動作）
次に，図５を参照しながら，上記のように構成された双方向コミュニケーションシステムの動作の実施形態について説明する。図５は，本実施の形態にかかる双方向コミュニケーションシステムの動作の概略を示すフローチャートである。
【０１５６】
まず，図５に示すように，例えばテレビ会議等の双方向コミュニケーションシステムの動作を実施する際に，予め撮像装置１０２の撮影処理にかかる特性情報データを生成する（Ｓ５０１）。特性情報データは，撮像装置１０２のＰＴＺ（パン，チルト，ズーム）の特性を示すもので，パン，チルト，またはズームの各パラメータによりどの程度，撮像装置１０２のカメラ動作が行われるか示すデータである。以下，上記特性情報データについて説明する。
【０１５７】
（３．１特性情報データ）
図６を参照しながら，本実施の形態にかかる特性情報データについて説明する。図６は，本実施の形態にかかる特性情報データを生成するために用いられるプレートの概略を示す説明図である。
【０１５８】
図６に示すように，撮像装置１０２の特性情報データを調べるために，白領域と黒領域とを格子状に有するプレート６０１が使用される。上記プレート６０１の実際の大きさは，撮影される対象体に応じて変更されることが好ましい。例えば，対象体が話者の顔である場合，プレート６０１の縦×横が，略３０ｃｍ×３０ｃｍの大きさのプレート６０１を用いる。なお，本実施の形態にかかるプレート６０１は，かかる例に限定されず，例えばプレート６０１の縦×横が，１０ｃｍ×４０ｃｍなどである場合でも実施可能である。
【０１５９】
したがって，上記略３０ｃｍ×３０ｃｍの大きさのプレート６０１の場合，白領域及び黒領域の大きさはともに，略５ｃｍ×５ｃｍの大きさとなる。このことから各白領域又は黒領域に対応する，例えば話者の顔領域の細部（鼻，目など。）をマーキングすることが可能となり，ＰＴＺの制御をする際に，話者の顔領域を追従することが容易となる。
【０１６０】
上記プレート６０１を，図７に示すように，まずＡ地点に所定距離だけ撮像装置１０２から離して設置し，Ａ地点におけるプレート６０１を撮像装置１０２によりパン，チルト，およびズームの値を変化させて，それぞれ値を変化させて撮影された画像フレームに写るプレート６０１がどのように変化するかを記録する。
【０１６１】
ここで，図８を参照しながらズーム値を変化させた場合を例に挙げて説明すると，図８（ａ）では，画像フレーム８０１内にプレート６０１が非常に小さく収まっているが，この時の，プレート６０１が画像フレーム８０１全体に占める大きさ，またはその時のズーム値等を記録する。なお本実施の形態にかかる大きさの単位は，画素であるが，かかる例に限定されない。
【０１６２】
図８（ｂ）でも，上記図８（ａ）と同様に，プレート６０１が画像フレーム８０１全体に占める大きさ，各白領域／黒領域が画像フレーム８０１全体に占める大きさ，またはその時のズーム値等を記録する。図８（ｃ）においても，プレート６０１が画像フレーム８０１全体に占める大きさ，各白領域／黒領域が画像フレーム８０１全体に占める大きさ，またはその時のズーム値等を記録する。図８（ｃ）では，プレート６０１と画像フレーム８０１が同程度の大きさであるから，プレート６０１の大きさが例えば３０ｃｍ×３０ｃｍの場合，図８（ｃ）におけるズーム値を設定することにより，画像フレーム一杯に収まる画像データを撮影することができる。
【０１６３】
図８（ｄ）及び図８（ｅ）の場合においても，上記とほぼ同様に，プレート６０１が画像フレーム８０１全体に占める大きさ，各白領域／黒領域が画像フレーム８０１全体に占める大きさ，またはその時のズーム値等を記録する。なお，図８（ｄ）の場合では，プレート６０１全体が画像フレーム８０１に収まりきれず，一部の黒領域又は白領域が収まっている。図８（ｅ）については，プレート６０１の中心部である１の黒領域が画像フレーム８０１一杯に収まっている。
【０１６４】
上記プレート６０１の大きさ又は各白領域／黒領域の大きさと，その時のズーム値とをテーブル化して記録することにより，撮像装置１０２のズームにおける特性情報データが生成される。
【０１６５】
上記プレート６０１は，撮像装置１０２から所定距離だけ離れたＡ地点に設置された場合のズーム値の変化についてテーブル化したが，さらに，所定距離を変化させ，各所定距離についてズーム値の変化についてプレート６０１の大きさ又は各白領域／黒領域の大きさと，その時のズーム値とをテーブル化して記録することにより，さまざまな距離から撮像装置１０２の撮影処理の制御が対応できる。
【０１６６】
また，ズーム値の変化だけでなく，パン値及びチルト値の変化についても図７に示すように，例えば，Ａ地点からＢ地点にプレート６０１を水平移動させた場合は，画像フレームの中心に撮影されたＡ地点の矢印方向の黒領域について，Ｂ地点でのプレート６０１にある上記黒領域が画像フレームの中心に撮影されるまでのパン値の変化を記録することで，Ａ地点からＢ地点までの移動距離と，その時のパン値とをテーブル化して記録する。さらに，水平移動の距離をさらに変化させて，その時のパン値とをテーブル化して記録することで，撮像装置１０２のパンにおける特性情報データが生成される。なお，撮像装置１０２のチルトにおける特性情報データにおいても，パンにおける特性情報データとほぼ同様な構成により生成される。なお生成された特性情報データは，撮影制御部２０５に備えられたメモリ部（図示せず。）に記録される。
【０１６７】
ここで，撮像装置１０２のＰＴＺ（パン，チルト，ズーム）にかかるパラメータについて，図９を参照しながら説明する。図９は，本実施の形態にかかるＰＴＺのパラメータの範囲を示す説明図である。
【０１６８】
図９に示すように，パン（Ｐａｎ；Ｐ）のパン値の範囲は，１６進数表示で，“０ＸＦＣ９０”〜“０Ｘ０３７０”となり，中心（Ｃｅｎｔｅｒ）は“００００”である。１０進数表示では，“−８７９”〜“８８０”となる。
【０１６９】
チルト（Ｔｉｌｔ；Ｔ）のチルト値の範囲は，１６進数表示で，“０ＸＦＥ０４”〜“０Ｘ０１２Ｃ”となり，中心（Ｃｅｎｔｅｒ）は“００００”である。１０進数表示では，“−５０７”〜“３００”となる。
【０１７０】
さらに，ズーム（Ｚｏｏｍ；Ｚ）のズーム値の範囲は，１６進数表示で，“０Ｘ００００”（Ｗｉｄｅ；ワイド）〜“０Ｘ０３ＦＦ”（Ｔｅｌｅ；テレ）となり，１０進数表示では，“０”〜“１０２３”となる。
【０１７１】
次に，図５に示すように，上記ＰＴＺ（パン，チルト，ズーム）における特性情報データが生成される（Ｓ５０１）と，撮像装置１０２の開始前処理が行われる（Ｓ５０２）。
【０１７２】
開始前処理（Ｓ５０２）は，撮像装置１０２の電源を入れ，もしくはスタンバイモードの場合はそのままの状態から，例えば撮像装置１０２に備わる撮影開始ボタン（図示せず。）が押下されると，全方位に対する顔領域を検出し，全方位顔領域情報データを生成する。生成された全方位顔領域情報データは，撮影制御部２０５に備えられたメモリ部（図示せず。）に記録される。
【０１７３】
全方位顔領域情報データは，例えば打ち合わせが行われる会議室内に参加する全ての使用者１０６にかかる顔領域の位置データ，面積データ，および信頼度データから構成されている。
【０１７４】
したがって，全方位顔領域情報データに基づいて，撮像装置１０２を使用者１０６全体が画像フレーム内に収まるように撮影させることが可能となる。この際に，画像フレーム内に収まらない場合，顔領域の個数が最大もしくは顔領域の面積が最大になるように画像フレーム内に収めることも実施可能である。
【０１７５】
図５に示すように，本実施の形態にかかる双方向コミュニケーションシステムにおいて，例えばテレビ会議などにより複数の使用者１０６が打ち合わせをする場合，打ち合わせされる時間内は絶えず複数の映像配信ユニット１０１間で，相互に映像データをやりとりし，双方向コミュニケーションシステムの動作が継続される。
【０１７６】
したがって，会議の打ち合わせが終了（撮像装置１０２による撮影処理が終了。）するまで，各映像配信ユニット１０１に備わる映像通信装置１０４は，撮像装置１０２の撮影処理を制御する処理（Ｓ５０３）が続行（配信ループ）される。
【０１７７】
次に，図１０を参照しながら，本実施の形態にかかる撮像装置の撮影の制御処理について説明する。図１０は，本実施の形態にかかる撮影の制御処理の概略を示すフローチャートである。
【０１７８】
上記撮像装置１０２の撮影の制御処理（Ｓ５０３）は，映像通信装置１０４により行われるが，まず撮像装置１０２により撮影が開始されると映像通信装置１０４に備わる撮影制御部２０５は，予め開始前処理（Ｓ５０２）において記録された全方位顔領域情報データに基づき，画像フレーム内に使用者１０６全体が収まるように，パン，チルト，およびズーム（以下，ＰＴＺ）の値を定め，撮像装置１０２に対し制御パラメータを送信する。
【０１７９】
上記制御パラメータには，画像フレーム内に使用者１０６全体が収まるパン，チルト，およびズーム（以下，ＰＴＺ）の値が設定されており，撮像装置１０２は，上記制御パラメータに基づき，カメラを回動またはズームイン・ズームアウトし，撮影する。したがって，出力装置１０３の画面上の所定位置には，例えば中心部には，使用者１０６全体が表示される。
【０１８０】
図１０に示すように，撮影処理が開始され，使用者１０６のうち話者として発言されると，音源受信装置１０７から音声データが送出され，音源検出部２０４により音源検出処理（Ｓ１０００）されるが，かかる音源検出処理（Ｓ１０００）により所定時間以上，音源受信装置１０７により音声データが送出されない場合，映像通信装置１０４は，スタンバイモードとなり撮影処理が中断される。この際，映像通信装置１０４は，撮像装置１０２のカメラを正面に向かせるための制御パラメータを送信してもよい。
【０１８１】
上記音源検出処理（Ｓ１０００）は，上記説明した通りであるため詳細な説明は省略するが，本実施の形態にかかる音源検出処理は，話者の発言により生成される音声データが，所定の閾値を超えず，ほぼ同位置から５秒を超えて検出された場合，当該話者を音源と判断し，音源情報データが生成される。したがって，少なくとも１フレーム以上前に生成された音源情報データの音源の位置とは相違する別の位置から５秒以上超えて検出された場合，別の話者に切替わったと判断し，当該別の話者の音源情報データが生成される。
【０１８２】
さらに，音源検出部２０４は，別の話者の音源と判断し，音源情報データを生成する回数が，例えば，１０秒間に所定回数を超えた場合，音源情報データを生成せずに，撮影制御部２０５に対して，使用者１０６全体を画像フレームに収める画面に切替えるための指示データを送信する。なお，本実施の形態にかかる所定回数は，予め任意に設定可能であり，時間の範囲は１０秒間に限定されない。なお，生成された音源情報データは，音源検出部２０４に備わるメモリ部（図示せず）に記憶される。
【０１８３】
したがって，撮影制御部２０５は，音源検出部２０４から上記指示データを受信すると，撮影制御部２０５に備わるメモリ部（図示せず。）に記録された全方位顔領域情報データに基づき，制御パラメータを生成し，撮像装置１０２に送信する。
【０１８４】
なお，本実施の形態にかかる音源は，音声データが同位置から５秒を超えて検出された場合，判断されるが，かかる例に限定されない。例えば，音声データが同位置から１０秒を超えて検出された場合であっても実施可能である。
【０１８５】
音源検出部２０４は，上記音源情報データが生成されると，当該音源情報データを撮影制御部２０５に送信する。
【０１８６】
撮影制御部２０５は，上記音源情報データを受信すると，撮影制御部２０５に備えられたメモリ部に記録された少なくとも１フレーム前にて生成された音源情報データを読み込み，受信した音源情報データと比較する。
【０１８７】
上記受信した音源情報データと少なくとも１フレーム前にて生成された音源情報データとが，ほぼ同位置にて検出された音源であると判断された場合は，制御パラメータを生成せず，後続処理へと続くが，別の音源であった場合，カメラの撮影する対象体を変更させるため，受信した音源情報データのうち音源の位置データ等に基づき，ＰＴＺの値を算出し，制御パラメータを生成処理（Ｓ１００２）をし，撮像装置１０２に送信する。
【０１８８】
なお，本実施の形態にかかる撮像制御部２０５は，上記音源情報データを受信した場合，画像データから生成される顔領域情報データよりも音源情報データに重み付けをおいて制御パラメータを生成しているが，かかる例に限定されない。
【０１８９】
撮像装置１０２は，上記制御パラメータを受信すると，制御パラメータに設定されているＰＴＺの値に基づき，カメラのＰＴＺ調整をする。ＰＴＺ調整により，話者の発する音源の近傍の画像が画像フレームに収まるよう撮影される。
【０１９０】
次に，撮像装置１０２の撮影により話者の発する音源の近傍が映された画像データは，例えば，ＲＳ−２３２ＣまたはＲＳ−４２２などを介して，映像通信装置１０４の変換部２０１に送出される。
【０１９１】
変換部２０１は，上記画像データをＡ／Ｄ変換し，メモリ部２０２に送出する。画像データが，メモリ部２０２に送出されると，話者の顔領域を出力装置１０３の所定位置に表示するため，図３に示すように，顔検出ブロック２０３により顔領域の検出処理（Ｓ１００４）が行われる。なお，本実施の形態にかかる顔検出処理は，上記説明したのとほぼ同様の構成であるため省略する。
【０１９２】
顔検出処理（Ｓ１００４）は，メモリ部２０２に送出される画像データのフレーム単位に行われるが，かかる例に限らず，フィールド単位の場合でもよい。また，フレーム単位の映像データであるフレーム画像（ピクチャ）内に顔領域が存在しない，検出されない（Ｓ１００６）場合は，再度音源検出処理（Ｓ１０００）から実行される。
【０１９３】
顔検出処理（Ｓ１００４）の結果，顔領域が検出された（Ｓ１００６）場合は，映像通信装置１０４に備わる結果判定部２３５のキャッシュに格納された顔領域情報データが撮影制御部２０５に送信される（Ｓ１００８）。
【０１９４】
撮影制御部２０５は，上記顔領域情報データを受信すると，撮影制御部２０５内に備わるメモリ部（図示せず。）に格納された少なくとも１フレーム前にて生成されたフレームにかかる顔領域情報データの有無を検索する（Ｓ１０１０）上記顔領域情報データが存在した場合は，顔領域情報データを取得する。なお，検索対象となるフレームは，１フレーム前に限らず，例えば，複数フレーム前，または１フィールド前などであってもよい。
【０１９５】
上記１フレーム前の画像フレーム（前フレーム）にかかる顔領域情報データが存在している場合（Ｓ１０１０）は，上記受信した画像データのフレーム（現フレーム）の顔領域情報データと，前フレームにかかる顔領域情報データとを比較し，補正処理を行う（Ｓ１０１２）。本実施の形態にかかる前フレームは，画像データの少なくとも１フレーム前の画像フレーム８０１を示すが，かかる例に限定されず，フレームのほかに，フィールド，または複数フレームから構成されるシーンの場合であってもよい。
【０１９６】
なお検索結果，該当する顔領域情報データが存在しない場合は，後続処理の顔領域情報データの補正処理（Ｓ１０１２）を行わず，受信した顔領域情報データのうち，顔領域情報データのうちの面積データが最大の顔領域のものが選択されるよう，上記顔領域情報データを補正する。なお，本実施の形態にかかる顔領域データの補正は，かかる例に限定されず，例えば，顔領域情報データのうち信頼度データが最大の顔領域を選択されるよう補正する場合であっても実施可能である。
【０１９７】
上記補正処理（Ｓ１０１２）は，前フレームおよび現フレームにかかる顔領域情報データの顔領域の面積データ，位置データ，または信頼度データのうち少なくとも一つを比較することにより現フレーム画像にかかる顔領域情報データを補正する。
【０１９８】
本実施の形態にかかる補正処理（Ｓ１０１２）は，例えば，前フレームにおいて１の顔領域のみ存在し，現フレーム画像において２の顔領域が存在し，現フレームにおいても前フレームで検出された顔領域を選択する場合，現フレームの画像データに含まれる前フレームにかかる顔領域情報データを，選択するため正確に顔領域情報データを判別する必要がある。
【０１９９】
前フレームおよび現フレーム間の時間差は極めて短く，人間の動作によりフレーム内を移動可能な範囲は極めて限られているため，撮影制御部２０５は，顔領域情報データの面積データと位置データとに基づき，現フレームにかかる顔領域のうち，前フレームにかかる顔領域の近傍に存在する顔領域の顔領域情報データを選択する。
【０２００】
選択された顔領域情報データのうち信頼度データが，現フレームの他の信頼度データまたは前フレームの信頼度データに比べて低い場合，前フレームの信頼度データと同程度もしくは現フレームにかかる他の信頼度データ以上の値に補正する（Ｓ１０１２）。したがって，例えば，信頼度データが最も高い顔領域情報データを選択すれば，前フレームの顔領域を現フレーム画像においても正確に選択することが可能となり，的確な追尾撮影ができる。なお，本実施の形態にかかる補正処理は，かかる例に限定されない。
【０２０１】
撮影制御部２０５は，補正された現フレームにかかる顔領域情報データの顔領域の位置データ，面積データ，および予め記録された特性情報データに基づき，撮影の対象体となる話者の顔領域が画像フレーム８０１に収まるように，ＰＴＺの値をそれぞれ算出する（Ｓ１０１４）。
【０２０２】
ＰＴＺの値の算出は，上記説明した通り，上記位置データと，領域の大きさを示す面積データとに対応する各ＰＴＺの値（パン値，チルト値，ズーム値）を撮影制御部２０５のメモリ部（図示せず。）に保有されるテーブル化された特性情報データに基づいて，算出される。
【０２０３】
さらに，撮影制御部２０５は，算出された各ＰＴＺの値（パン値，チルト値，ズーム値）が，直近に生成された制御パラメータにおける各ＰＴＺの値（パン値，チルト値，ズーム値）とを所定の閾値以上異なるか比較する（Ｓ１０１６）。
【０２０４】
比較した結果，所定の閾値以上異なる場合，撮影制御部２０５は算出された算出値と，予め記録された特性情報データとに基づき，制御パラメータを生成し，撮像装置１０２に送信する。なお本実施の形態にかかる閾値は，現フレーム及び前フレームにおける検出された顔領域の位置（座標）と，顔領域の大きさとの差分値から設定される値であるが，かかる例に限定されない。
【０２０５】
上記所定の閾値を超えるまでの範囲については，制御パラメータを生成せず撮像装置１０２の撮影制御を実行しない，いわゆる「遊び」を設ける。したがって，上記所定の閾値以上異なる場合に限り，制御パラメータを生成する（制御パラメータの生成条件を設定する。）ことにより，例えば，対象体の必要以上の追尾撮影など，頻繁に，過度に撮像装置１０２のカメラの動作が制御されず，不自然な撮像装置１０２の動きを防ぐことが可能となる。
【０２０６】
ここで，図１１を参照しながら，本実施の形態にかかる制御パラメータの生成条件について説明する。図１１は，本実施の形態にかかる制御パラメータの生成条件の概略的な構成を示す説明図である。
【０２０７】
図１１に示すように，前フレームにおいて顔領域が検出され，フレーム座標（Ｘ，Ｙ）が，（２３０，１６０）であり，大きさ“２４０”の場合に，閾値を前フレームおよび現フレームにおいて検出された値の座標差分閾値を，例えば“（±１００，±８０）”と，大きさ差分閾値を“（±５０）”と設定すると，現フレームにおいて図１１に示すような顔領域が検出された場合，撮影制御部２０５の制御パラメータの生成の有無は以下の通りとなる。
【０２０８】
現フレームの顔領域の検出値が，図１１に示すように，“（Ｘ，Ｙ）＝（２４０，２１０），大きさ「２００」”である場合，現フレームと前フレームとの座標差分閾値および大きさ差分閾値は，“（Ｘ，Ｙ）＝（１０，５０），大きさ「−４０」”と算出される。算出された座標差分閾値および大きさ差分閾値は，設定された座標差分閾値および大きさ差分閾値の範囲内であるため，撮影制御部２０５により制御パラメータは生成されない。
【０２０９】
また，図１１に示すように，現フレームの顔領域の検出値が，“（Ｘ，Ｙ）＝（２００，１８０），大きさ「１７０」”である場合，現フレームと前フレームとの座標差分閾値および大きさ差分閾値は，“（Ｘ，Ｙ）＝（−３０，２０），大きさ「−７０」”と算出される。ここで両差分閾値のうち，算出された大きさ差分閾値は，設定された大きさ差分閾値の範囲を超えたため，撮影制御部２０５によりＺｏｏｍ値（ズーム値）を変更するための制御パラメータが生成される。
【０２１０】
さらに，図１１に示すように，現フレームの顔領域の検出値が，“（Ｘ，Ｙ）＝（３５０，１００），大きさ「３００」”である場合，現フレームと前フレームとの座標差分閾値および大きさ差分閾値は，“（Ｘ，Ｙ）＝（１２０，−６０），大きさ「−６０」”と算出される。ここで両差分閾値のうち，算出された座標差分閾値の“Ｘ＝１２０”と，算出された大きさ差分閾値の“大きさ「−６０」”とが，設定された差分閾値の範囲を超えたため，撮影制御部２０５により，Ｐａｎ値（パン値）およびＺｏｏｍ値（ズーム値）を変更するための制御パラメータが生成される。
【０２１１】
なお，本実施の形態にかかる閾値は，座標差分閾値を，例えば“（±１００，±８０）”と，大きさ差分閾値を“（±５０）”として設定された場合を例に挙げて説明したが，かかる例に限定されず，いかなる値で設定された場合であっても実施可能である。
【０２１２】
次に，撮影制御部２０５は，所定の閾値以上異なるか比較（Ｓ１０１６）し，所定の閾値以上異なる場合，算出されたＰＴＺ値（パン値，チルト値，ズーム値）と，特性情報データとに基づき，制御パラメータを生成する（Ｓ１０１８）。
【０２１３】
なお，本実施の形態にかかる撮像制御部２０５は，上記顔領域情報データを受信した場合，重点対象として，画像データから生成される顔領域情報データに重み付けをおいて制御パラメータを生成しているが，かかる例に限定されず，例えば，生成された音源情報データと上記顔領域情報データとの位置データの平均値を算出することにより，上記ＰＴＺ値を求め，制御パラメータを生成する場合であっても実施可能である。
【０２１４】
生成された制御パラメータは，撮影制御部２０５により，撮像装置１０２に送信する（Ｓ１０２０）。
【０２１５】
撮像装置１０２は，受信した制御パラメータに基づき，カメラのＰＴＺ（パン，チルト，ズーム）の調整を実行する。上記ＰＴＺの調整により，映像通信装置１０４は，撮像装置１０２の撮影の制御処理（Ｓ１０２２）をすることができる。
【０２１６】
ここで，図１２〜図１４を参照しながら，本実施の形態にかかる撮影の制御処理について説明する。図１２は，本実施の形態にかかる前フレームにおける顔領域の概略的な構成を示す説明図であり，図１３は，本実施の形態にかかる現フレームにおける顔領域の概略的な構成を示す説明図であり，図１４は，本実施の形態にかかる撮影の制御処理後の現フレームにおける顔領域の概略的な構成を示す説明図である。
【０２１７】
まず，図１２に示すように，画像データの少なくとも１フレーム前のフレーム（前フレーム）の画像フレーム８０１における顔領域１２０１の位置（位置座標）は，生成された顔領域情報データの位置データから示されるように，“（Ｘ，Ｙ）＝（２３０，１６０）”であり，顔領域１２０１の大きさは，上記顔領域情報データの面積データから示されるように“２４０”である。なお，本実施の形態にかかる画像フレーム８０１の大きさは，７０４画素×４８０画素とする。
【０２１８】
顔領域１２０１は，顔検出ブロック２０３により検出され，図１２に示すように，対象体の話者の顔を含む長方形の形状である。なお，本実施の形態にかかる顔領域１２０１は，かかる例に限定されず，検出対象である顔領域の大きさに応じて変動する。
【０２１９】
次に，図１３に示すように，リアルタイムに撮像装置１０２により撮影され，映像通信装置１０４に入力された画像データであるフレーム（現フレーム）の画像フレーム８０１における顔領域１２０１の位置は，話者である使用者１０６の移動などにより，“（Ｘ，Ｙ）＝（３５０，１００）”であり，顔領域１２０１の大きさは，“３００”となる。
【０２２０】
現フレームにおける当該顔領域１２０１の位置および大きさと，上記前フレームにおける顔領域１２０１の位置および大きさとを比較し，所定の閾値を超えている場合は，撮影制御部２０５により，各ＰＴＺの値を算出し，画像フレーム８０１の所定位置，例えば中央部に上記顔領域１２０１を配置するための制御パラメータを生成する。
【０２２１】
現フレームの顔領域１２０１では，撮像装置１０２の追尾撮影が実行されず，画像フレーム８０１の中心部よりも離れた個所に配置されており，顔領域１２０１の大きさも画像フレームの大きさの半分近くまで占められていたため，接続先の使用者１０６は，例えば圧迫感を受けるなど，視認性の低い，コミュニケーションを図り難い映像データが配信されていた。
【０２２２】
制御パラメータの生成により，顔領域１２０１の追尾撮影するため，撮像装置１０２の撮影の制御処理（Ｓ１０２２）が実行されると，図１４に示すように，ＰＴＺの制御後の画像フレーム８０１における顔領域１２０１の位置は，“（Ｘ，Ｙ）＝（２３５，１５０）”であり，顔領域１２０１の大きさは，“２５０”となり，図１３に示す現フレームの顔領域１２０１よりも画像フレーム８０１の中心部に移動し，画像フレーム８０１に占める顔領域１２０１の割合が減少した。
【０２２３】
したがって，図１３に示す現フレームの顔領域１２０１は，視認性の低い映像データとして配信されていたが，撮影の制御処理（Ｓ１０２２）により，図１４に示すように，制御後の画像フレーム８０１における顔領域１２０１を映像データとして，各映像配信ユニット１０１に配信することにより，使用者１０６間のコミュニケーションを活性化し，出力画面の視認性を高めることが可能となる。さらに，映像通信装置１０４により，自動的に話者の追尾撮影を制御し，話者の判断が困難な場合は，使用者１０６全体の画像データに切替えることが可能となり，使用者１０６が自ら操作する負担が軽減される。
【０２２４】
次に，図１０に示す撮像装置１０２の制御処理（Ｓ１０２２）とともに，画像データおよび音声データは，映像データとして逐次エンコーダ部２０６に送出される。上記エンコーダ部２０６は，映像データを受信すると，伝送データに圧縮符号化する（Ｓ１０２４）。なお，本実施の形態にかかる圧縮符号化は，ＩＴＵ−Ｔ勧告Ｈ．２６３またはＩＳＯ／ＩＥＣ１４４９６に定めるＭＰＥＧ−４に従い圧縮符号化されるが，かかる例に限定されず，例えば，Ｈ．２６１などの場合であっても実施可能である。
【０２２５】
圧縮符号化（Ｓ１０２４）された伝送データは，通信部２０７に送出される。通信部２０７は，伝送データを，多重化し，ネットワーク１０５を介して，接続先の映像配信ユニット１０１に配信する（Ｓ１０２６）。以上から構成される撮影制御処理（Ｓ１０００〜Ｓ１０２６）は，撮影処理が終了するまで継続される。
【０２２６】
また，撮影処理が終了または中断すると，撮像装置１０２，映像通信装置１０４，および出力装置１０３の電源は，スタンバイモードになる。この場合，撮像装置１０２のカメラは真正面に向き，ズーム値が最大となるように，撮影制御部２０５により制御パラメータが生成されてもよい。撮影開始時に，画像フレーム８０１内の撮影対象体が広角に捕えらえ，新たな顔領域を検出することが容易となる。
【０２２７】
なお，本実施の形態にかかる配信後の映像データについては，ネットワーク１０５を介して送信された伝送データが，接続先の映像配信ユニット１０１に備わる通信部２０７により受信され，デコーダ部２０８により伸長されるとメモリ部２０２に順次，映像データが格納される。
【０２２８】
さらにメモリ部２０２に映像データが格納されると，変換部２０９によりＤ／Ａ変換され，出力装置１０３に上記映像データが画面表示される。なお，本実施の形態にかかる変換部２０９は，Ｄ／Ａ変換するが，かかる例に限定されず，ディジタルの映像データのまま出力装置１０３に出力してもよい。さらに，変換部２０９からディジタルの映像データを，例えば，フラッシュメモリ，メモリスティックなどの記憶媒体（図示せず。）に出力する場合であっても実施可能である。
【０２２９】
以上，添付図面を参照しながら本発明の好適な実施形態について説明したが，本発明はかかる例に限定されない。当業者であれば，特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例を想定し得ることは明らかであり，それらについても当然に本発明の技術的範囲に属するものと了解される。
【０２３０】
上記実施形態においては，特徴領域は顔領域である場合を例にあげて説明したが，特徴を有する領域であれば，本発明はかかる例に限定されない。例えば，特徴領域が，使用者１０６が常備している社員証，駐車場などに駐車された乗用車や自動二輪車などのナンバープレートの場合などであっても実施することができる。
【０２３１】
また，上記実施の形態においては，映像配信ユニットは，テレビ会議に用いられる場合を例にあげて説明したが，本発明は，かかる例に限定されない。例えば，映像配信ユニットを携帯電話，携帯端末，またはパソコン（Ｐｅｒｓｏｎａｌ
Ｃｏｍｐｕｔｅｒ）などに用いる場合であっても実施可能である。
【０２３２】
また，上記実施の形態においては，特徴領域として顔領域の検出処理，撮像装置の撮影の制御処理は，フレーム単位である場合を例にあげて説明したが，本発明は，かかる例に限定されない。例えば，フィールド単位，または複数フレームから構成されるシーン単位などの場合であっても実施することができる。
【０２３３】
また，上記実施の形態においては，音源情報データまたは特徴領域情報データは，フレームを単位として生成される場合を例にあげて説明したが，本発明は，かかる例に限定されない。フィールド，または複数フレームから構成されるシーンなどを単位とする場合であっても実施することができる。
【０２３４】
【発明の効果】
以上説明したように，本発明によれば，対象体の特徴領域を精度高く，的確に追尾撮影することが可能となる。したがって，使用者の操作負担が軽減され，撮影処理効率を向上させることができる。さらに的確に追尾撮影された視認性の高い映像データを配信することにより，使用者相互間の円滑なコミュニケーションを図れ，通信時間の短縮化が図れる。
【図面の簡単な説明】
【図１】図１は，本実施の形態にかかる双方向コミュニケーションシステムの概略的な構成を示すブロック図である。
【図２】図２は，本実施の形態にかかる音源受信装置の概略的な構成を示す説明図である。
【図３】図３は，本実施の形態にかかる映像通信装置の概略的な構成を示すブロック図である。
【図４】図４は，本実施の形態にかかる音源検出部の概略的な構成を示すブロック図である。
【図５】図５は，本実施の形態にかかる双方向コミュニケーションシステムの動作の概略を示すフローチャートである。
【図６】図６は，本実施の形態にかかる特性情報データを生成するために用いられるプレートの概略を示す説明図である。
【図７】図７は，本実施の形態にかかる特性情報データの生成処理の概略的な構成を示す説明図である。
【図８】図８（ａ）〜（ｅ）は，本実施の形態にかかる画像フレームに撮影されたプレートの概略的構成を示す説明図である。
【図９】図９は，本実施の形態にかかるＰＴＺのパラメータの範囲を示す説明図である。
【図１０】図１０は，本実施の形態にかかる撮影の制御処理の概略を示すフローチャートである。
【図１１】図１１は，本実施の形態にかかる制御パラメータの生成条件の概略的な構成を示す説明図である。
【図１２】図１２は，本実施の形態にかかる前フレームにおける顔領域の概略的な構成を示す説明図である。
【図１３】図１３は，本実施の形態にかかる現フレームにおける顔領域の概略的な構成を示す説明図である。
【図１４】図１４は，本実施の形態にかかる撮影の制御処理後の現フレームにおける顔領域の概略的な構成を示す説明図である。
【符号の説明】
１０１：映像配信ユニット
１０２：撮像装置
１０３：出力装置
１０４：映像通信装置
１０５：ネットワーク
１０６：使用者
１０７：音源受信装置
２０１：変換部
２０２：メモリ部
２０３：顔検出ブロック
２０４：音源検出部
２０５：撮影制御部
２０６：エンコーダ部
２０７：通信部
２０８：デコーダ部
２０９：変換部

Claims

１又は２以上の映像配信ユニット間を双方向通信可能に相互接続するネットワークを備えた双方向コミュニケーションシステムであって：
前記映像配信ユニットは，少なくとも画像データもしくは音声データのうちいずれか一方，または双方からなる映像データを生成する撮像装置と；
前記映像データを伝送データに圧縮符号化するエンコーダ部及び前記伝送データを伸長するデコーダ部を少なくとも有する映像通信装置と；
前記映像データを表示する出力装置と；
を備え，
送り手側の前記一の映像配信ユニットは，対象体にかかる特徴領域を前記出力装置の画面所定位置に表示させる前記映像データを，受け手側の他の映像配信ユニットに配信することを特徴とする，双方向コミュニケーションシステム。
前記対象体にかかる特徴領域は，少なくとも話者にかかる顔領域であることを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記映像通信装置は，さらに少なくともパン，チルト，もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成する撮影制御部を備えることを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記映像通信装置は，前記画像データから前記対象体にかかる特徴領域を検出し，特徴領域情報データを生成する特徴検出部をさらに備えることを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記特徴領域情報データは，少なくとも前記特徴領域の面積データ，前記特徴領域の位置データ，および前記特徴領域の信頼度データが含まれることを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記特徴領域情報データは，少なくとも前記顔領域にかかる顔領域情報データであることを特徴とする，請求項５に記載の双方向コミュニケーションシステム。
前記映像通信装置は，前記音声データから前記対象体の発する音源を検出し，音源情報データを生成する音源検出部をさらに備えることを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記音源情報データは，少なくとも音源の位置データ，前記音源の検出時間データ，もしくは前記音源の音量データのうちいずれか一つ，または任意の組み合わせを含むとを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記撮影制御部は，少なくとも前記音源情報データもしくは前記特徴領域情報データのうちいずれか一方，または双方と前記撮像装置の特性情報データとに基づき，前記撮像装置の撮影処理を制御することを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記撮影制御部は，前記特徴領域情報データが生成された場合，少なくとも１つ前のフレームにて生成された前記特徴領域情報データに基づき，当該前記映像データの前記特徴領域情報データを補正することを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記撮影制御部は，前記特徴領域情報データのうち前記面積データおよび前記位置データと，前記映像データの少なくとも１つ前後する前記フレームで生成された特徴領域情報データの前記面積データおよび前記位置データとを比較し，所定の閾値を超えた場合，前記撮影処理の制御をすることを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記特徴検出部は，前記撮像装置により生成された全方位からの前記映像データに基づき，全方位特徴領域情報データを生成することを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記音源検出部は，少なくとも第一の所定時間，略同一位置から一の音源を検出した場合，前記一の音源を前記対象体の音源と判断することを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記音源検出部は，少なくとも前記第一の所定時間，前記一の音源とは別の略同一位置から他の音源を検出した場合，前記対象体の音源として前記一の音源から前記他の音源に変更することを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記撮影制御部は，少なくとも第二の所定時間，前記対象体の音源として前記一の音源から前記他の音源に，所定回数続けて変更された場合，前記全方位特徴領域情報データに基づき，前記撮影処理を制御することを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
前記撮影制御部は，前記一の音源から前記他の音源に変更された場合，生成された前記音源情報データに基づき，前記制御パラメータを生成することを特徴とする，請求項１に記載の双方向コミュニケーションシステム。
ネットワークに接続された１又は２以上の映像配信ユニットに備わる映像通信装置であって：
前記映像配信ユニットは，少なくとも画像データもしくは音声データのうちいずれか一方，または双方からなる映像データを生成する撮像装置と；
前記映像データを表示する出力装置とをさらに備え，
前記映像通信装置は，
前記音声データから対象体の発する音源を検出し，音源情報データを生成する音源検出部と；
前記画像データから前記対象体にかかる特徴領域を検出し，特徴領域情報データを生成する特徴検出部と；
少なくとも前記音源情報データもしくは前記特徴領域情報データのうちいずれか一方または双方と，前記撮像装置の特性情報データとに基づき，前記撮像装置の撮影処理を制御する撮影制御部と；
を備えることを特徴とする，映像通信装置。
前記対象体にかかる特徴領域は，少なくとも話者にかかる顔領域であることを特徴とする，請求項１７に記載の映像通信装置。
前記撮影制御部は，少なくともパン，チルト，もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成することを特徴とする，請求項１７に記載の映像通信装置。
前記特徴領域情報データは，少なくとも前記特徴領域の面積データ，前記特徴領域の位置データ，および前記特徴領域の信頼度データが含まれることを特徴とする，請求項１７に記載の映像通信装置。
前記特徴領域情報データは，少なくとも前記顔領域にかかる顔領域情報データであることを特徴とする，請求項２０に記載の映像通信装置。
前記音源情報データは，少なくとも音源の位置データ，前記音源の検出時間データ，もしくは前記音源の音量データのうちいずれか一つ，または任意の組み合わせを含むとを特徴とする，請求項１７に記載の映像通信装置。
前記撮影制御部は，前記特徴領域情報データが生成された場合，少なくとも前記映像データの１つ前のフレームで生成された前記特徴領域情報データに基づき，当該前記映像データの前記特徴領域情報データを補正することを特徴とする，請求項１７に記載の映像通信装置。
前記撮影制御部は，前記特徴領域情報データのうち前記面積データおよび前記位置データと，前記映像データの少なくとも１つ前後する前記フレームで生成された特徴領域情報データの前記面積データおよび前記位置データとを比較し，所定の閾値を超えた場合，前記撮影処理の制御をすることを特徴とする，請求項１７に記載の映像通信装置。
前記特徴検出部は，前記撮像装置により生成された全方位からの前記映像データに基づき，全方位特徴領域情報データを生成することを特徴とする，請求項１７に記載の映像通信装置。
前記音源検出部は，少なくとも第一の所定時間，略同一位置から一の音源を検出した場合，前記一の音源を前記対象体の音源と判断することを特徴とする，請求項１７に記載の映像通信装置。
前記音源検出部は，少なくとも前記第一の所定時間，前記一の音源とは別の略同一位置から他の音源を検出した場合，前記対象体の音源として前記一の音源から前記他の音源に変更することを特徴とする，請求項１７に記載の映像通信装置。
前記撮影制御部は，少なくとも第二の所定時間，前記対象体の音源として前記一の音源から前記他の音源に，所定回数続けて変更された場合，前記全方位特徴領域情報データに基づき，前記撮影処理を制御することを特徴とする，請求項１７に記載の映像通信装置。
前記撮影制御部は，前記一の音源から前記他の音源に変更された場合，生成された前記音源情報データに基づき，前記制御パラメータを生成することを特徴とする，請求項１７に記載の映像通信装置。
ネットワークに接続され，少なくとも画像データもしくは音声データのうちいずれか一方，または双方からなる映像データの生成および表示可能な１又は２以上の映像配信ユニットに備わる映像通信装置の撮影処理制御方法であって：
前記映像通信装置は，
前記音声データから対象体の発する音源を検出し；
前記検出された音源に基づき，音源情報データを生成し；
前記画像データから前記対象体にかかる特徴領域を検出し；
前記検出された特徴領域に基づき，特徴領域情報データを生成し；
少なくとも前記音源情報データもしくは前記特徴領域情報データのうちいずれか一方または双方と，前記撮像装置の特性情報データとに基づき，撮影処理を制御することを特徴とする，映像通信装置の撮影処理制御方法。
前記対象体にかかる特徴領域は，少なくとも話者にかかる顔領域であることを特徴とする，請求項３０に記載の映像通信装置の撮影処理制御方法。
前記映像通信装置は，少なくともパン，チルト，もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成することを特徴とする，請求項３０に記載の映像通信装置の撮影処理制御方法。
前記特徴領域情報データは，少なくとも前記特徴領域の面積データ，前記特徴領域の位置データ，および前記特徴領域の信頼度データが含まれることを特徴とする，請求項３０に記載の映像通信装置の撮影処理制御方法。
前記特徴領域情報データは，少なくとも前記顔領域にかかる顔領域情報データであることを特徴とする，請求項３３に記載の映像通信装置の撮影処理制御方法。
前記音源情報データは，少なくとも音源の位置データ，前記音源の検出時間データ，もしくは前記音源の音量データのうちいずれか一つ，または任意の組み合わせを含むとを特徴とする，請求項３０に記載の映像通信装置の撮影処理制御方法。
前記映像通信装置は，前記特徴領域情報データが生成された場合，少なくとも１つ前のフレームにて生成された前記特徴領域情報データに基づき，当該前記映像データの前記特徴領域情報データを補正することを特徴とする，請求項３０に記載の映像通信装置の撮影処理制御方法。
前記映像通信装置は，前記特徴領域情報データのうち前記面積データおよび前記位置データと，前記映像データの少なくとも１つ前後する前記フレームで生成された特徴領域情報データの前記面積データおよび前記位置データとを比較し，所定の閾値を超えた場合，前記撮影処理の制御をすることを特徴とする，請求項３０に記載の映像通信装置の撮影処理制御方法。
前記映像通信装置は，前記撮像装置により生成された全方位からの前記映像データに基づき，全方位特徴領域情報データを生成することを特徴とする，請求項３０に記載の映像通信装置の撮影処理制御方法。
前記映像通信装置は，少なくとも第一の所定時間，略同一位置から一の音源を検出した場合，前記一の音源を前記対象体の音源と判断することを特徴とする，請求項３０に記載の映像通信装置の撮影処理制御方法。
前記映像通信装置は，少なくとも前記第一の所定時間，前記一の音源とは別の略同一位置から他の音源を検出した場合，前記対象体の音源として前記一の音源から前記他の音源に変更することを特徴とする，請求項３０に記載の映像通信装置の撮影処理制御方法。
前記映像通信装置は，少なくとも第二の所定時間，前記対象体の音源として前記一の音源から前記他の音源に，所定回数続けて変更された場合，前記全方位特徴領域情報データに基づき，前記撮影処理を制御することを特徴とする，請求項３０に記載の映像通信装置の撮影処理制御方法。
前記映像通信装置は，前記一の音源から前記他の音源に変更された場合，新たに生成された前記音源情報データに基づき，前記制御パラメータを生成することを特徴とする，請求項３０に記載の映像通信装置の撮影処理制御方法。