JP2004193661A - 双方向コミュニケーションシステム,映像通信装置,および映像通信装置の撮影処理制御方法 - Google Patents
双方向コミュニケーションシステム,映像通信装置,および映像通信装置の撮影処理制御方法 Download PDFInfo
- Publication number
- JP2004193661A JP2004193661A JP2002355510A JP2002355510A JP2004193661A JP 2004193661 A JP2004193661 A JP 2004193661A JP 2002355510 A JP2002355510 A JP 2002355510A JP 2002355510 A JP2002355510 A JP 2002355510A JP 2004193661 A JP2004193661 A JP 2004193661A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- data
- information data
- video
- characteristic region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】特徴領域を的確に判断し,追尾撮影させ,画像フレーム内の画面所定位置に特徴領域を収めることが可能な,双方向コミュニケーションシステム,映像通信装置,および映像通信装置の撮影処理制御方法を提供する。
【解決手段】ネットワークに接続された1又は2以上の映像配信ユニット(101)に備わる映像通信装置(104)は,音声データから対象体の発する音源を検出し,音源情報データを生成する音源検出部(204)と;画像データから対象体にかかる特徴領域を検出し,特徴領域情報データを生成する特徴検出部(203)と;少なくとも音源情報データもしくは特徴領域情報データのうちいずれか一方または双方と,撮像装置(102)の特性情報データとに基づき,撮像装置の撮影処理を制御する撮影制御部(205)とを備える。
【選択図】 図3
【解決手段】ネットワークに接続された1又は2以上の映像配信ユニット(101)に備わる映像通信装置(104)は,音声データから対象体の発する音源を検出し,音源情報データを生成する音源検出部(204)と;画像データから対象体にかかる特徴領域を検出し,特徴領域情報データを生成する特徴検出部(203)と;少なくとも音源情報データもしくは特徴領域情報データのうちいずれか一方または双方と,撮像装置(102)の特性情報データとに基づき,撮像装置の撮影処理を制御する撮影制御部(205)とを備える。
【選択図】 図3
Description
【0001】
【発明の属する技術分野】
本発明は,映像配信ユニット間において映像データを送受信可能なシステムにかかり,特に双方向コミュニケーションシステム,映像通信装置,映像通信装置の撮影処理制御方法に関する。
【0002】
【従来の技術】
近年,コンピュータなどの情報処理装置の高機能・低価格化による広範な普及と,ディジタル回線を始めとするネットワークのブロードバンド化に伴い,例えばデータ,音声,または映像などをやり取りするマルチメディア通信環境が急速に整備され始めている。
【0003】
マルチメディア通信環境は,代表的な例として,音声及び画像を双方向でやり取りすることによりコミュニケーションを図るための,例えばテレビ電話/テレビ会議システムなどの双方向コミュニケーションシステムのサービスがある。
【0004】
上記双方向コミュニケーションシステムにおいて,より円滑なコミュニケーションを図るために,撮影対象(対象体),例えば発言者である話者を,テレビカメラにより追尾撮影し,モニタなどのディスプレイ装置の画面内に表示させているものがある(例えば,特許文献1参照)。なお,本願発明に関連する技術文献情報には,次のものがある。
【0005】
【特許文献1】
特開平10−42264号公報
【発明が解決しようとする課題】
しかしながら,上記話者を追尾する場合において,話者以外のちょっとした発言に対してもテレビカメラにより追尾撮影されてしまい,話者を的確に判断し,ディスプレイ装置の画面所定位置に表示させることが困難であった。
【0006】
また,話者の発言により話者の存在位置を把握し,テレビカメラにより話者を追尾撮影しても,特徴を有する領域(特徴領域)を撮影対象とする場合,例えば話者の顔を撮影する場合など,テレビカメラの画枠内に話者の顔を収め,ピントを合わせるためにカメラのパン(Pan),チルト(Tilt),ズーム(Zoom)などの微調整を自動的に処理することが困難であった。
【0007】
本発明は,上記のような従来の問題点に鑑みてなされたものであり,特徴を有する領域を的確に判断し,上記特徴領域を撮像装置により追尾させ,画像フレーム内の画面所定位置に特徴領域を収めることが可能な,新規かつ改良された双方向コミュニケーションシステム,映像通信装置,および映像通信装置の撮影処理制御方法を提供することを目的としている。
【0008】
【課題を解決するための手段】
上記課題を解決するため,本発明の第1の観点によれば,1又は2以上の映像配信ユニット間を双方向通信可能に相互接続するネットワークを備えた双方向コミュニケーションシステムが提供される。この双方向コミュニケーションシステムの映像配信ユニットは,少なくとも画像データもしくは音声データのうちいずれか一方,または双方からなる映像データを生成する撮像装置と;映像データを伝送データに圧縮符号化するエンコーダ部及び伝送データを伸長するデコーダ部を少なくとも有する映像通信装置と;映像データを表示する出力装置とを備え,送り手側の一の映像配信ユニットは,対象体にかかる特徴領域を出力装置の画面所定位置に表示させる映像データを,受け手側の他の映像配信ユニットに配信することを特徴としている。
【0009】
本発明によれば,映像配信ユニットは,撮像装置により撮影される対象(対象体)として,映像の認識を助長する特徴を有する領域(特徴領域)を検出し,撮像装置により撮影された画像フレーム内の所定位置に特徴領域を配置させた映像データを,送信先の他の映像配信ユニットに常に配信することにより,他の映像配信ユニットの出力装置に上記画像フレーム内の所定位置と,ほぼ同一位置に特徴領域が表示され,常に特徴領域を把握することが可能となり,円滑なコミュニケーションが図れる。なお,本発明にかかる所定位置は,例えば,画像フレームにおける中心部などが例示される。
【0010】
対象体にかかる特徴領域は,少なくとも話者にかかる顔領域であるように構成することができる。かかる構成により,特徴領域を話者の顔領域にすることにより,発言内容の理解を助長することが可能となり,対象体相互間の円滑なコミュニケーションが図れる。なお,本発明にかかる対象体は,本実施の形態にかかる使用者などが例示される。
【0011】
映像通信装置は,さらに少なくともパン,チルト,もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成する撮影制御部を備えるように構成することができる。かかる構成により,撮像装置のカメラのパン,チルト,もしくはズームを調整する制御パラメータを生成することにより,撮像装置の撮影を制御し,特徴領域を追尾撮影することが可能となる。
【0012】
映像通信装置は,画像データから対象体にかかる特徴領域を検出し,特徴領域情報データを生成する特徴検出部をさらに備えるように構成することができる。かかる構成により,画像データに含まれる対象体から映像の認識の助長となる特徴領域を検出することが可能となり,視認性の高い映像データを常に配信することができる。
【0013】
特徴領域情報データは,少なくとも特徴領域の面積データ,特徴領域の位置データ,および特徴領域の信頼度データが含まれるように構成することができる。かかる構成により,特徴領域の位置,面積として特徴領域の大きさ,特徴領域であることの確からしさとして信頼度を把握することが可能となり,より精度の高い特徴領域を,的確に検出することができる。
【0014】
特徴領域情報データは,少なくとも顔領域にかかる顔領域情報データであるように構成してもよい。かかる構成により,より精度の高い話者などの顔領域を,的確に検出することができる。
【0015】
映像通信装置は,音声データから対象体の発する音源を検出し,音源情報データを生成する音源検出部をさらに備えるように構成することができる。かかる構成により,対象体の発する音源の方向に撮像装置による撮影対象を向けることができ,対象体相互間のコミュニケーションを図るために,認識の容易な映像データを配信することが可能となる。
【0016】
音源情報データは,少なくとも音源の位置データ,音源の検出時間データ,もしくは音源の音量データのうちいずれか一つ,または任意の組み合わせを含むように構成することができる。かかる構成により,音源を発する話者などの対象体の位置,例えば5秒以上検出されたら話者などの音源として判断する,または例えば所定音量以下の場合は音源として判断しないなど,音源を的確に検出することが可能となる。
【0017】
撮影制御部は,少なくとも音源情報データもしくは特徴領域情報データのうちいずれか一方,または双方と撮像装置の特性情報データとに基づき,撮像装置の撮影処理を制御するように構成することができる。かかる構成により,検出された特徴領域のうちから,対象体相互間の円滑なコミュニケーションを促すことが可能な,映像の認識を助長する特徴領域を的確に選択し,上記特徴領域が所定位置に配置された映像データを配信することができる。
【0018】
撮影制御部は,特徴領域情報データが生成された場合,少なくとも1つ前のフレームにて生成された又はフィールドの特徴領域情報データに基づき,当該映像データの特徴領域情報データを補正するように構成することができる。かかる構成により,1の画像フレーム内に複数の特徴領域が検出された場合など,少なくとも1フレーム前の画像フレーム(前フレーム)で検出された特徴領域情報データと,生成された特徴領域情報データとを比較判断し,過去に追尾撮影された,より適切な顔領域が選択され得る特徴領域情報データに補正することができる。
【0019】
撮影制御部は,特徴領域情報データのうち面積データおよび位置データと,映像データの少なくとも1つ前後するフレームで生成された特徴領域情報データの面積データおよび位置データとを,それぞれ比較し,所定の閾値を超えた場合,撮影処理の制御をするように構成することができる。かかる構成により,不必要なまでの特徴領域の追尾撮影を防ぐことが可能となり,視認性の高い映像データを配信できる。なお,本発明にかかるフレームは,かかる例に限定されず,例えば,フィールド,または複数のフレームから構成されるシーンなどでもよい。
【0020】
撮影制御部は,特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方と,少なくとも1つ前のフレームの前後にかかる特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方とを比較し,所定の閾値を超えた場合,制御パラメータを生成するように構成してもよい。かかる構成により,所定の閾値を超えた場合のみ,制御パラメータが生成されることで,対象体の特徴領域が必要以上に追尾撮影される場合など,不自然な撮像装置の撮影処理を防ぐことが可能となる。なお,本発明にかかるフレームは,かかる例に限定されず,例えば,フィールド,または複数のフレームから構成されるシーンなどでもよい。
【0021】
特徴検出部は,撮像装置により生成された全方位からの映像データに基づき,全方位特徴領域情報データを生成するように構成することができる。かかる構成により,撮像装置周辺に存在する特徴領域の全体の位置,各特徴領域の大きさ,各特徴領域の信頼度を把握することが可能となり,撮像装置により上記存在する特徴領域全体を画像フレーム内に収まるよう撮影することができ,全体像が撮影された映像データを配信できる。
【0022】
音源検出部は,少なくとも第一の所定時間,略同一位置から一の音源を検出した場合,一の音源を対象体の音源と判断するように構成することができる。かかる構成により,第一の所定時間,継続して同位置で発生した音声データを音源とみなすことにより,撮像装置による過度に不自然な撮影処理を防げる。
【0023】
音源検出部は,少なくとも第一の所定時間,一の音源とは別の略同一位置から他の音源を検出した場合,対象体の音源として一の音源から他の音源に変更するように構成することができる。かかる構成により,第一の所定時間,継続して略同一位置で検出された音声データが音源と一旦は判断されて,さらに別の位置で上記第一の所定時間,継続して別の略同一位置で音声データが検出された場合は,新たに音源として判断する。したがって,一の音源の発生が終了し,他の音源の発生が開始されても,撮像装置は一の特徴領域を有する対象体の音源から上記他の特徴領域を有する対象体の音源に追尾することが可能となる。
【0024】
第一の所定時間は,略5秒であるように構成することができる。なお,本発明の第一の所定時間は,かかる例に限定されない。
【0025】
撮影制御部は,少なくとも第二の所定時間,対象体の音源として一の音源から他の音源に,所定回数続けて変更された場合,全方位特徴領域情報データに基づき,撮影処理を制御するように構成することができる。かかる構成により,第二の所定時間の間,所定回数続けて音源の変更がされ,音源として固定されない場合,1又は2以上存在する対象体の全体が画像フレームに収まるように,撮像装置により撮影される。したがって,対象体の全体を視認することが容易となり,発生する音源を把握できる。
【0026】
第二の所定時間は,略10秒であるように構成することができる。なお,本発明の第一の所定時間は,かかる例に限定されない。
【0027】
撮影制御部は,一の音源から他の音源に変更された場合,新たに生成された音源情報データに基づき,制御パラメータを生成するように構成することができる。かかる構成により,一の対象体から発する音源が終了し,他の対象体からの音源の発生が開始されても,撮像装置は音源の位置に基づき一の対象体から上記他の対象体に追尾撮影し,さらに上記他の対象体に含まれる特徴領域を検出し,上記特徴領域が画像フレームの所定位置に配置されるよう撮像装置の撮影を制御することができる。したがって,映像の認識を助長する特徴領域が常に,出力装置の画面上の目に留まる位置に映し出される。
【0028】
特性情報データは,予め生成されるように構成することができる。かかる構成により,撮像装置の特性として撮影におけるカメラのパン,チルト,またはズームが予め把握でき,撮影された対象体の大きさ又は位置に応じて,画像フレームにおける所定位置および所定大きさに収めるための制御パラメータを生成することができる。
【0029】
エンコーダ部は,少なくともH.263又はMPEG−4の圧縮符号化方式により,映像データを圧縮符号化するように構成することができる。かかる構成により,低ビットレートのネットワークにおいても,映像データを容易に伝送することができる。
【0030】
さらに,上記課題を解決するための本発明の別の観点によれば,ネットワークに接続された1又は2以上の映像配信ユニットに備わる映像通信装置が提供される。上記映像配信ユニットは,少なくとも画像データもしくは音声データのうちいずれか一方,または双方からなる映像データを生成する撮像装置と;映像データを表示する出力装置とをさらに備えており,映像通信装置は,音声データから対象体の発する音源を検出し,音源情報データを生成する音源検出部と;画像データから対象体にかかる特徴領域を検出し,特徴領域情報データを生成する特徴検出部と;少なくとも音源情報データもしくは特徴領域情報データのうちいずれか一方または双方と,撮像装置の特性情報データとに基づき,撮像装置の撮影処理を制御する撮影制御部とを備えることを特徴としている。
【0031】
本発明によれば,映像配信ユニットに含まれる映像通信装置は,映像配信ユニットの使用者間の円滑なコミュニケーションを図るべく映像の認識を助長させるため,常に撮像装置により対象体に有する特徴領域を画像フレームの所定位置に撮影させるため音声データとして音源が発せられる対象体の位置を検出し,発せられる音源が別の対象体からに変更されれば当該別の対象体の位置を検出し,上記対象体に含まれる特徴領域を画像データから検出することにより,特徴領域が配置されるべき適当な画像フレームの所定位置を算出している。かかる構成により,撮像装置により撮影された画像フレーム内の所定位置に特徴領域が配置された映像データを,送信先の他の映像配信ユニットに常に配信することにより,他の映像配信ユニットの出力装置にも上記画像フレーム内の所定位置と,ほぼ同一位置に特徴領域が表示され,常に特徴領域を把握することが可能となり,円滑なコミュニケーションが図れる。なお,本発明にかかる所定位置は,例えば,画像フレームにおける中心部などが例示され,本発明にかかる特徴領域検出部は,例えば,本実施の形態にかかる顔検出ブロックなどが例示される。
【0032】
対象体にかかる特徴領域は,少なくとも話者にかかる顔領域であるように構成することができる。かかる構成により,特徴領域を話者の顔領域にすることにより,発言内容の理解を助長することが可能となり,対象体相互間の円滑なコミュニケーションが図れる。なお,本発明にかかる対象体は,本実施の形態にかかる使用者などが例示される。
【0033】
撮影制御部は,少なくともパン,チルト,もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成するように構成することができる。かかる構成により,撮像装置のカメラのパン,チルト,もしくはズームを調整する制御パラメータを生成することにより,撮像装置の撮影を制御し,特徴領域を追尾撮影することが可能となる。
【0034】
特徴領域情報データは,少なくともフレーム又はフィールド内における特徴領域の面積データ,特徴領域の位置データ,および特徴領域の信頼度データが含まれるように構成することができる。かかる構成により,特徴領域の位置,面積として特徴領域の大きさ,および特徴領域であることの確からしさとして信頼度を把握することが可能となり,より精度の高い特徴領域を,的確に検出することができる。
【0035】
特徴領域情報データは,少なくとも顔領域にかかる顔領域情報データであるように構成してもよい。かかる構成により,より精度の高い話者などの顔領域を,的確に検出することができる。
【0036】
音源情報データは,少なくとも音源の位置データ,音源の検出時間データ,もしくは音源の音量データのうちいずれか一つ,または任意の組み合わせを含むように構成することができる。かかる構成により,音源を発する話者などの対象体の位置,例えば5秒以上検出されたら話者などの音源として判断する,または例えば所定音量以下の場合は音源として判断しないなど,音源を的確に検出することが可能となる。
【0037】
撮影制御部は,特徴領域情報データが生成された場合,少なくとも1つ前のフレームにて生成された又はフィールドの特徴領域情報データに基づき,当該映像データの特徴領域情報データを補正するように構成することができる。かかる構成により,1の画像フレーム内に複数の特徴領域が検出された場合など,少なくとも1フレーム前の画像フレーム(前フレーム)で検出された特徴領域情報データと,生成された特徴領域情報データとを比較判断し,過去に追尾撮影された,より適切な顔領域が選択され得る特徴領域情報データに補正することができる。
【0038】
撮影制御部は,特徴領域情報データのうち面積データおよび位置データと,映像データの少なくとも1つ前後するフレームで生成された特徴領域情報データの面積データおよび位置データとを,それぞれ比較し,所定の閾値を超えた場合,撮影処理の制御をするように構成することができる。かかる構成により,不必要なまでの特徴領域の追尾撮影を防ぐことが可能となり,視認性の高い映像データを配信できる。なお,本発明にかかるフレームは,かかる例に限定されず,例えば,フィールド,または複数のフレームから構成されるシーンなどでもよい。
【0039】
撮影制御部は,特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方と,少なくとも1つ前のフレームの前後にかかる特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方とを比較し,所定の閾値を超えた場合,制御パラメータを生成するように構成してもよい。かかる構成により,所定の閾値を超えた場合のみ,制御パラメータが生成されることで,対象体の特徴領域が必要以上に追尾撮影される場合など,不自然な撮像装置の撮影処理を防ぐことが可能となる。なお,本発明にかかるフレームは,かかる例に限定されず,例えば,フィールド,または複数のフレームから構成されるシーンなどでもよい。
【0040】
特徴検出部は,撮像装置により生成された全方位からの映像データに基づき,全方位特徴領域情報データを生成するように構成することができる。かかる構成により,撮像装置周辺に存在する特徴領域の全体の位置,各特徴領域の大きさ,各特徴領域の信頼度を把握することが可能となり,撮像装置により上記存在する特徴領域全体を画像フレーム内に収まるよう撮影することができ,全体像が撮影された映像データを配信できる。
【0041】
音源検出部は,少なくとも第一の所定時間,略同一位置から一の音源を検出した場合,一の音源を対象体の音源と判断するように構成することができる。かかる構成により,第一の所定時間,継続して同位置で発生した音声データを音源とみなすことにより,撮像装置による過度に不自然な撮影処理を防げる。
【0042】
音源検出部は,少なくとも第一の所定時間,一の音源とは別の略同一位置から他の音源を検出した場合,対象体の音源として一の音源から他の音源に変更するように構成することができる。かかる構成により,第一の所定時間,継続して略同一位置で検出された音声データが音源と一旦は判断されて,さらに別の位置で上記第一の所定時間,継続して別の略同一位置で音声データが検出された場合は,新たに音源として判断する。したがって,一の音源の発生が終了し,他の音源の発生が開始されても,撮像装置は一の特徴領域を有する対象体の音源から上記他の特徴領域を有する対象体の音源に追尾することが可能となる。
【0043】
第一の所定時間は,略5秒であるように構成することができる。なお,本発明の第一の所定時間は,かかる例に限定されない。
【0044】
撮影制御部は,少なくとも第二の所定時間,対象体の音源として一の音源から他の音源に,所定回数続けて変更された場合,全方位特徴領域情報データに基づき,撮影処理を制御するように構成することができる。かかる構成により,第二の所定時間の間,所定回数続けて音源の変更がされ,音源として固定されない場合,1又は2以上存在する対象体の全体が画像フレームに収まるように,撮像装置により撮影される。したがって,対象体の全体を視認することが容易となり,発生する音源を把握できる。
【0045】
第二の所定時間は,略10秒であるように構成することができる。なお,本発明の第一の所定時間は,かかる例に限定されない。
【0046】
撮影制御部は,一の音源から他の音源に変更された場合,新たに生成された音源情報データに基づき,制御パラメータを生成するように構成することができる。かかる構成により,一の対象体から発する音源が終了し,他の対象体からの音源の発生が開始されても,撮像装置は音源の位置に基づき一の対象体から上記他の対象体に追尾撮影し,さらに上記他の対象体に含まれる特徴領域を検出し,上記特徴領域が画像フレームの所定位置に配置されるよう撮像装置の撮影を制御することができる。したがって,映像の認識を助長する特徴領域が常に,出力装置の画面上の目に留まる位置に映し出される。
【0047】
特性情報データは,予め生成されるように構成することができる。かかる構成により,撮像装置の特性として撮影におけるカメラのパン,チルト,またはズームが予め把握でき,撮影された対象体の大きさ又は位置に応じて,画像フレームにおける所定位置および所定大きさに収めるための制御パラメータを生成することができる。
【0048】
エンコーダ部は,少なくともH.263又はMPEG−4の圧縮符号化方式により,映像データを圧縮符号化するように構成することができる。かかる構成により,低ビットレートのネットワークにおいても,映像データを容易に伝送することができる。
【0049】
映像通信装置は,映像データを伝送データに圧縮符号化するエンコーダ部をさらに備えるように構成してもよく,伝送データを映像データに伸長するデコーダ部をさらに備えるように構成してもよい。
【0050】
音源検出部は,少なくとも2又は3台のマイクロフォンにより生成された音声データを受信するように構成してもよい。なお,本発明にかかるマイクロフォンは,例えば,本実施の形態にかかるマイク部などが例示される。
【0051】
さらに,上記課題を解決するための本発明の別の観点によれば,ネットワークに接続され,少なくとも画像データもしくは音声データのうちいずれか一方,または双方からなる映像データの生成および表示可能な1又は2以上の映像配信ユニットに備わる映像通信装置の撮影処理制御方法が提供される。この映像通信装置の撮影処理制御方法における映像通信装置は,音声データから対象体の発する音源を検出し;検出された音源に基づき,音源情報データを生成し;画像データから対象体にかかる特徴領域を検出し;検出された特徴領域に基づき,特徴領域情報データを生成し;少なくとも音源情報データもしくは特徴領域情報データのうちいずれか一方または双方と,撮像装置の特性情報データとに基づき,撮影処理を制御することを特徴としている。
【0052】
対象体にかかる特徴領域は,少なくとも話者にかかる顔領域であるように構成してもよい。
【0053】
また,映像通信装置は,少なくともパン,チルト,もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成するように構成することができる。
【0054】
特徴領域情報データは,少なくともフレーム又はフィールド内における特徴領域の面積データ,特徴領域の位置データ,および前記特徴領域の信頼度データが含まれるように構成してもよく,さらに少なくとも顔領域にかかる顔領域情報データであるように構成してもよい。
【0055】
音源情報データは,少なくとも音源の位置データ,音源の検出時間データ,もしくは音源の音量データのうちいずれか一つ,または任意の組み合わせを含むように構成してもよい。
【0056】
映像通信装置は,特徴領域情報データが生成された場合,少なくとも1つ前のフレーム又はフィールドにて生成された特徴領域情報データに基づき,当該映像データの特徴領域情報データを補正するように構成してもよい。
【0057】
映像通信装置は,特徴領域情報データのうち面積データおよび位置データと,映像データの少なくとも1つ前後するフレームで生成された特徴領域情報データの面積データおよび位置データとをそれぞれ比較し,所定の閾値を超えた場合,撮影処理の制御をするように構成してもよい。
【0058】
映像通信装置は,特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方と,少なくとも1つ前のフレームの前後にかかる特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方とを比較し,所定の閾値を超えた場合,制御パラメータを生成するように構成してもよい。なお,本発明にかかるフレームは,かかる例に限定されず,例えば,フィールド,または複数のフレームから構成されるシーンなどでもよい。
【0059】
映像通信装置は,撮像装置により生成された全方位からの映像データに基づき,全方位特徴領域情報データを生成するように構成してもよい。かかる構成により,予め,例えば会議室全体などの全方位を撮影することにより,顔領域などの特徴領域の存在位置を把握し,会議室全体の映像を画像フレームに収めることにより出力装置に表示することができる。
【0060】
映像通信装置は,少なくとも第一の所定時間,略同一位置から一の音源を検出した場合,一の音源を前記対象体の音源と判断するように構成してもよく,少なくとも第一の所定時間,一の音源とは別の略同一位置から他の音源を検出した場合,対象体の音源として一の音源から他の音源に変更するように構成してもよい。
【0061】
第一の所定時間は,略5秒であるように構成することができるが,かかる例に限定されない。
【0062】
映像通信装置は,少なくとも第二の所定時間,対象体の音源として一の音源から他の音源に,所定回数続けて変更された場合,全方位特徴領域情報データに基づき,撮影処理を制御するように構成してもよい。
【0063】
第二の所定時間は,略10秒であるように構成することができるが,かかる例に限定されない。
【0064】
映像通信装置は,前記一の音源から前記他の音源に変更された場合,新たに生成された前記音源情報データに基づき,前記制御パラメータを生成するように構成してもよい。
【0065】
特性情報データは,予め生成されるように構成してもよく,映像通信装置は,少なくともH.263又はMPEG−4の圧縮符号化方式により,映像データを圧縮符号化するように構成してもよい。
【0066】
【発明の実施の形態】
以下,本発明の好適な実施の形態について,添付図面を参照しながら詳細に説明する。なお,以下の説明及び添付図面において,略同一の機能及び構成を有する構成要素については,同一符号を付することにより,重複説明を省略する。
【0067】
(1. システム構成)
まず,図1を参照しながら,本実施の形態にかかる双方向コミュニケーションシステムについて説明する。図1は,本実施の形態にかかる双方向コミュニケーションシステムの概略的な構成を示すブロック図である。
【0068】
図1に示すように,双方向コミュニケーションシステムは,1又は2以上の映像配信ユニット101(101a,101b,…,101n)がネットワーク105に接続されている。
【0069】
上記映像配信ユニット101(101a,101b,…,101n)により,使用者106(106a,106b,…,106n)は,ネットワーク105を介して,お互いの画像又は音声をやりとりすることで例えばテレビ会議システムなどのサービスを受けることができる。
【0070】
映像配信ユニット101(101a,101b,…,101n)は,ビデオカメラなどの撮像装置102(102a,102b,…,102n)と,マイクロフォンなどから構成される音源受信装置107(107a,107b,…,107n)と,上記撮像装置102の撮影により生成された画像データ又は音源受信装置107から送出された音声データからなる映像データを,ネットワーク105を介して送受信する映像通信装置104(104a,104b,…,104n)と,上記映像データを表示する出力装置103(103a,103b,…,103n)とが備えられている。なお,本実施の形態にかかる映像データは,少なくとも音声データ又は画像データのうちいずれか一方又は双方からなる。
【0071】
撮像装置102は,画像データを生成可能なビデオカメラであり,例えば,テレビ会議,監視・モニタリングなどに適用される低ビットレート通信用のビデオカメラであるが,かかる例に限定されず,本実施の形態にかかる撮像装置102は,放送用のニュース番組の取材や,スポーツなどの試合の模様などを撮影するカムコーダなどの場合であっても実施可能である。
【0072】
音源受信装置107は,音源から発せられる例えば風の音や人の声などの音声データを生成する装置であり,例えばマイクロフォンなどが例示される。さらに音源受信装置107は,複数のマイクロフォンを配列したマイクアレーで構成されるのが好ましく,その場合は後述のように音声方向検出が可能になる。
【0073】
出力装置103は,映像データを表示することが可能な例えば,TV装置又は液晶ディスプレイ装置などが例示され,さらにスピーカを備えることにより,音声および画像を出力することが可能な装置である。
【0074】
映像通信装置104は,上記音源受信装置107から送出される音声データまたは上記撮像装置102から送出される画像データから,音源情報データまたは特徴領域として顔領域にかかる顔領域情報データを生成し,上記音源情報データ又は顔領域情報データ,さらには上記撮像装置102の特性情報データに基づき,1又は2以上の使用者106から話者を識別し,上記話者の顔領域を追尾するため撮像装置102の撮影処理を制御する。なお,本実施の形態にかかる特徴領域は顔領域である場合を例に説明するが,かかる例に限定されず,例えば,使用者106が常備している社員証,駐車場などに駐車された乗用車や自動二輪車などのナンバープレートの場合などであってもよい。なお本実施の形態にかかる特性情報データについては後程詳述する。また後程詳述するが,上記顔領域については,以下,図12等に示す顔領域1201とほぼ同様な構成である。
【0075】
映像通信装置104は,制御パラメータを生成することにより,上記撮像装置102の撮影処理にかかるカメラのPTZを制御している。なおPTZとは,パン(Pan),チルト(Tilt),およびズーム(Zoom)のことを示すが,詳細については後程説明する。
【0076】
さらに映像通信装置104は,制御パラメータにより制御された撮像装置102により送出された映像データを圧縮符号化し,上記圧縮符号化された伝送データを,ネットワーク105を介して送信する。またネットワーク105を介して送出されてくる伝送データを受信し,上記伝送データを伸長する。上記伸長された映像データは,出力装置103に送信される。なお,本実施の形態にかかる顔領域に基づく圧縮符号化は,少なくともH.263,またはMPEG−4に基づき行われる。
【0077】
次に,本システムの典型的な動作例について説明する。
【0078】
ある使用者106との間で,例えば,使用者106aと使用者106bとの間で,テレビ会議をする場合,まず映像配信ユニット101bに備わる撮像装置102bにより,撮影される対象体としての使用者106bの画像データが生成され,音源が使用者106bである音声データが音源受信装置107により生成される。
【0079】
まず初めに上記使用者106bの画像データを生成する場合,予め撮像装置102bにより全方位(例えば,会議室全体など)の撮影による画像データから生成された全使用者106bの顔領域の存在位置が把握可能な全方位顔領域情報データに基づき,参加された使用者106bの全体が収まるような画像データが生成される。
【0080】
なお上記使用者106bが複数により全体が出力装置103bの画面上に収まりきれない場合は,使用者106bの複数ある顔領域が最大となるように出力装置103bの画面に収められる。本実施の形態にかかる全方位顔領域情報データは,特徴を有する領域であれば,かかる例に限定されない。全方位顔領域情報データについては後程詳述する。
【0081】
生成された音声データまたは画像データからなる映像データは,逐次,映像通信装置104bにより圧縮符号化され,ネットワーク105を介して映像配信ユニット101aに送信される。
【0082】
つぎに映像通信装置106bは,使用者106bのうちから話者を識別し,使用者106bのうち話者の顔領域が出力装置103の画面の所定位置に表示されるように,撮像装置102bのPTZなどの撮影処理を制御パラメータにより制御する。なお,本実施の形態にかかる話者の識別および制御パラメータによる撮像装置102の撮影制御は後程詳述する。
【0083】
したがって映像配信ユニット101aに備わる出力装置103aは,ネットワーク105を介して送出される使用者106bの話者の顔領域が所定位置に撮影された映像データを表示する。なお本実施の形態にかかる所定位置は,出力装置103の画面の略中心を指すが,かかる例に限定されず,他のいかなる位置である場合であったとしても実施可能である。
【0084】
また映像配信ユニット101aに備わる撮像装置102aにより生成される映像データに関しても,上記映像配信ユニット101bに備わる撮像装置102bにより,使用者106bの話者の顔領域が所定位置に映るように映像データが生成される場合と同様である。
【0085】
したがって,映像配信ユニット101bにも,ネットワーク105を介して映像配信ユニット101aから使用者106aの話者の顔領域が所定位置に撮影された映像データが送出される。
【0086】
映像配信ユニット101aと映像配信ユニット101bとの間で,発言をする話者を捉えた映像データを,遠隔地であってもネットワーク105を介して映像データを送受信することで,お互いの使用者106aと使用者106bとの間で円滑なコミュニケーションを図ることができる。
【0087】
なお,本実施の形態にかかる映像配信ユニット101には,撮像装置102,出力装置103,および映像通信装置104とがそれぞれ備わっている場合を例にあげて説明したが,かかる例に限定されず,例えば,1の映像配信ユニット101には,撮像装置102及び映像通信装置104を備え,他の映像配信ユニット101には,映像通信装置104及び出力装置103を備える場合であっても実施可能である。この場合,例えば,1の映像配信ユニット101に属す使用者106である話者により例えば商品の説明などプレゼンテーションが実施される場合,他の映像配信ユニット101に属す使用者106は,上記話者が出力装置103の所定位置に表示されるためコミュニケーションが促進され上記商品などの理解を深めることが可能である。
【0088】
(2 双方向コミュニケーションシステムの各コンポーネントの構成)
次に,本実施の形態にかかる双方向コミュニケーションシステムの各コンポーネントの構成について説明する。
【0089】
(2.1 ネットワーク105)
ネットワーク105は,映像配信ユニット101(101a,101b,…,101n)に備わる映像通信装置104(104a,104b,…,104n)を相互に双方向通信可能に接続するものであり,典型的にはインターネットなどの公衆回線網であるが,WAN,LAN,IP−VPNなどの閉鎖回線網も含む。また接続媒体は,FDDI(Fiber Distributed DataInterface)などによる光ファイバケーブル,Ethernet(登録商標)による同軸ケーブル又はツイストペアケーブル,もしくはIEEE802.11bなど,有線無線を問わず,衛星通信網なども含む。なお本実施の形態にかかるネットワーク105は,かかる例に限定されず,単方向のみ通信可能な場合であっても実施可能である。
【0090】
(2.2 映像配信ユニット101)
映像配信ユニット101(101a,101b,…,101n)は,撮像装置102(102a,102b,…,102n),音声データを生成する音源受信装置107(107a,107b,…,107n),上記撮像装置102または音源受信装置107により生成されてなる映像データを送受信する映像通信装置104(104a,104b,…,104n),もしくは映像データを表示する出力装置103(103a,103b,…,103n)のうちいずれか一つ又は任意の組み合わせとが備えられている。
【0091】
(2.2.1 撮像装置102)
図1に示す撮像装置102は,少なくとも1又は2以上の撮像素子(撮像デバイス)が備わる撮像部(図示せず。)と,映像通信装置104に画像入力信号として画像データを出力する出力部(図示せず。)とを備えている。
【0092】
上記撮像素子は,受光面に2次元的に設けられた光電変換素子からなる複数の画素により,被写体から受光した光学像を光電変換して画像データとして出力することが可能である。例えば,撮像素子は,多種からなるCCDなどの固体撮像デバイスが挙げられる。
【0093】
出力部は,撮像部により生成された画像データを,映像通信装置104に画像入力信号として出力する。
【0094】
なお,本実施の形態にかかる撮像装置102に備わる出力部は,画像データを映像通信装置104にアナログデータとして出力するが,かかる例に限定されず,A/D変換部(A/Dコンバータ)を備えることにより,ディジタルデータとして出力する場合であっても実施可能である。
【0095】
(2.2.2 音源受信装置107)
次に,図1及び図2を参照しながら,本実施の形態にかかる音源受信装置107について説明する。図2は,本実施の形態にかかる音源受信装置の概略的な構成を示す説明図である。
【0096】
図2に示すように,音源受信装置107は,X地点,Y地点,Z地点のそれぞれに,例えば無指向性マイクロフォンなどの複数のマイク部108(108a,108b,108c)を配列したマイクアレーで構成されており,マイク部108は所定高さを有する。なお,各マイク部108(108a,108b,108c)は平面上,垂直に設置されている。上記マイク部108(108a,108b,108c)は,各マイク部108(108a,108b,108c)を頂点とし,1辺を10cmとする正三角形の形状となるように備えられており,撮影の対象体となる話者からの音声がそれぞれのマイク部108(108a,108b,108c)に到達されることとなる。
【0097】
音源受信装置107に備えられるマイク部108(108a,108b,108c)は,図1に示すように映像通信装置104に接続されおり,マイク部108(108a,108b,108c)に音声が入力されることにより生成される音声データを上記映像通信装置104に送出している。
【0098】
上記マイク部108(108a,108b,108c)に,例えば音源である話者からの音声が到達する際,マイク部108a,マイク部108b,マイク部108cのそれぞれに音声が到達する時間等を検出し,各マイク部108(108a,108b,108c)間の時間差等を検出することにより音源の位置などを把握することが可能となる。なお,音源検出については,後程詳述する。
【0099】
なお,本実施の形態にかかるマイク部108(108a,108b,108c)が備えられている位置は,正三角形状である場合を例に挙げて説明したが,かかる例に限定されない。基本的にマイク部108(108a,108b,108c)の設定位置は,設定間隔が広い方が時間差の精度が得られ,狭い方が近接音源の検出誤差が小さいという特徴がある。
【0100】
(2.2.3 出力装置103)
出力装置103は,図3に示すように,変換部209によりD/A(ディジタル/アナログ)変換された映像データを表示する。また,出力装置103は,上記説明の通り,例えば,TV装置又は液晶ディスプレイ装置などが例示され,音声又は画像を出力することが可能な装置である。
【0101】
なお,本実施の形態にかかる出力装置103は,D/A変換された映像データを表示する場合を例に挙げて説明したが,かかる例に限定されず,例えば,D/A変換せずに,ディジタルデータのまま映像データを表示する場合でも実施可能である。
【0102】
(2.2.4 映像通信装置104)
次に,図3を参照しながら,本実施の形態にかかる映像通信装置104について説明する。図3は,本実施の形態にかかる映像通信装置の概略的な構成を示すブロック図である。
【0103】
図3に示すように,映像通信装置104は,撮像装置102により送出された画像データをA/D変換する変換部201と,ディジタル化された画像データを一時的に記憶保持するメモリ部202と,画像データから顔領域を検出し,顔領域情報データを生成する顔検出ブロック203と,音源受信装置107から送出される音声データから音源を検出し,音源情報データを生成する音源検出部204と,上記顔領域情報データ及び/又は上記音源情報データと,上記撮像装置102の特性情報データとから制御パラメータを生成する撮影制御部205と,画像データおよび音声データとからなる映像データを圧縮符号化するエンコーダ部206と,上記伝送データを送受信する通信部207と,通信部207により受信された伝送データを伸長するデコーダ部208と,上記でコーダ部208から送出される映像データをD/A変換し,出力装置103に送出する変換部209とを備える。なお,上記顔検出ブロック203,音源検出部204,特性情報データ,および撮像制御部205の制御パラメータの生成については,後程詳述する。
【0104】
(2.2.5 音源検出部204)
次に,図4を参照しながら,本実施の形態にかかる音源検出部204について説明する。図4は,本実施の形態にかかる音源検出部の概略的な構成を示すブロック図である。
【0105】
図4に示すように,音源検出部204は,音源受信装置107に備わる各マイク部108(108a,108b,108c)から送出されてくる音声データをA/D変換する変換部401(401a,401b,401c)と,水平方向に対する時間差を検出する水平時間差検出部403と,検出された水平方向の時間差に基づき,水平方向の角度を算出する水平角度算出器405と,垂直方向に対する時間差を検出する垂直時間差検出部407と,検出された垂直方向の時間差に基づき,垂直方向の角度を算出する垂直角度算出器408と,少なくとも算出された垂直方向及び水平方向の角度等に基づき音源情報データを生成する音源情報送出部409とを備えている。
【0106】
変換部401は,図4に示すように,各マイク部108(108a,108b,108c)から送出されてくる音声データをA/D変換し,上記水平時間差検出器403及び垂直時間差検出器407にそれぞれ送出するとともに,各マイク部108(108a,108b,108c)から送出される音声データは,まとめて映像通信装置104に備わるエンコーダ部206に送出される。
【0107】
水平時間差検出器405は,変換部401a及び変換部401bから入力される音声データに基づき,例えば入力される音声データのピークポイントを抽出するピーク抽出処理,ロバスト性を確保可能な変動閾値等を用いる立ち上がり検出処理,および上記検出処理により検出された結果に基づき時間差を求める時間差検出処理等を経ることにより水平方向に対する時間差を検出する。水平方向に対する時間差は,3次元空間のうち水平方向の平面にかかる時間差である。なお,本実施の形態にかかる水平時間差検出器405は,水平方向に対する時間差の他に,例えば,水平方向の音声データの検出時間,音量などを検出することも実施可能である。
【0108】
垂直時間差検出器407は,変換部401b及び変換部401cから入力される音声データに基づき,上記説明の水平時間差検出器405とほぼ同様に,入力される音声データのピークポイントを抽出するピーク抽出処理,ロバスト性を確保可能な変動閾値等を用いる立ち上がり検出処理,および上記検出処理により検出された結果に基づき時間差を求める時間差検出処理等を実行することにより垂直方向に対する時間差を検出する。垂直方向に対する時間差は,3次元空間のうち垂直方向の平面にかかる時間差である。なお,本実施の形態にかかる垂直時間差検出器407は,垂直方向に対する時間差の他に,例えば,垂直方向の音声データの検出時間,音量なども検出することが実施可能である。
【0109】
水平角度算出器405及び垂直角度算出器408は,上記水平時間差検出器405及び上記垂直時間差検出器407により検出された水平方向の時間差と垂直方向の時間差とに基づき,それぞれ水平方向及び垂直方向に対する角度を算出する。上記角度の算出は,時間差と角度情報とが対応付けられたテーブル(図示せず。)を予め生成しておくことにより算出される。
【0110】
音源情報送出部409は,上記水平角度算出器405及び垂直角度算出器408により算出された水平方向及び垂直方向に対する角度から,音源受信装置107により受信された音源の方向推定を行うことにより,音源の位置を検出することが可能となる。
【0111】
また音源情報送出部409は,音源の位置を検出し,上記水平時間差検出器403及び垂直時間差検出器407において検出された水平/垂直方向の音声データの検出時間,音量に基づき,音源情報データを生成する。
【0112】
上記音源情報データは,検出された音源の位置を示す位置データ,音源の検出時間を示す検出時間データ,または音源の音量を示す音量データのうち少なくとも一方または任意の組み合わせから構成されている。
【0113】
生成された音源情報データが,音源情報送出部409により映像通信装置104に備わる撮影制御部205に送出されることにより,撮影制御部205は制御パラメータを生成し,音源である話者の存在位置に撮影対象を向けるため撮像装置102のPTZを制御することができる。なお撮影制御部205による制御パラメータの生成については後程詳述する。
【0114】
なお,本実施の形態にかかる検出された音源に基づき音源情報データが生成されるタイミングは,例えば音源検出部204に入力される音声データの検出時間(上記音源の検出時間。)が5秒を超えた場合,つまり音源として話者から発せられる音声が5秒を超えた場合,音源情報送出部409は音源情報データを生成するが,かかる例に限定されない。
【0115】
(2.2.6 顔検出ブロック203)
次に,図3を参照しながら,メモリ部202に記憶された画像データに含まれる顔領域を検出する顔検出ブロック203及び顔領域検出処理について説明する。
【0116】
顔検出ブロック203は,メモリ部202に記憶された画像データをフレーム単位に,画像データから人間の顔画像である顔領域を検出する。したがって,顔検出ブロック203には,複数の工程により上記顔領域を検出するために,各部がそれぞれ備わっている。
【0117】
なお,本実施の形態にかかる顔検出ブロック203は,人間の顔領域を検出する場合を例に挙げて説明したが,画像データのうち特徴的な領域を有する場合であれば,かかる例に限定されず,例えば,乗用車のナンバープレート,時計,またはパソコンなどの画像領域を検出する場合であっても実施可能である。
【0118】
顔検出ブロック203は,図3に示すように,リサイズ部230と,ウィンドウ切出部231と,テンプレートマッチング部232と,前処理部233と,SVM(サポートベクタマシン;Support Vector Machine)識別部234と,結果判定部235とが備わる。
【0119】
リサイズ部230は,撮像装置102により生成された映像データを,メモリ部202からフレーム単位に読み出して,当該フレーム単位に読み出された映像データ(以下,フレーム画像)を縮小率が相異なる複数のスケール画像に変換する。
【0120】
例えば,本実施の形態にかかるフレーム画像が,NTSC方式(National Television System Committee方式)の704×480画素(横×縦)からなる場合,0.8倍ずつ順次縮小して5段階(1.0倍,0.8倍,0.64倍,0.51倍,0.41倍)のスケール画像に変換する。なお以下,上記複数のスケール画像は,1.0倍のスケール画像を第1のスケール画像とし,順次縮小するごとに,第2〜第5のスケール画像とする。
【0121】
ウィンドウ切出部231は,まず第1のスケール画像に対して,画像左上を起点として順にフレーム画像の右下まで,例えば2画素ずつなど,適当な画素ずつ右側又は下側にずらしながらスキャンするようにして,20×20画素の矩形領域(以下,ウィンドウ画像と呼ぶ)を順次切出す。なお,本実施の形態にかかるスケール画像の起点は,画像左上である場合に限らず,例えば画像右上などであっても実施可能である。
【0122】
上記第1のスケール画像から切出された複数のウィンドウ画像は,順次,ウィンドウ切出部231により,後続のテンプレートマッチング部232に送出される。
【0123】
テンプレートマッチング部232は,ウィンドウ切出部231により送出されたウィンドウ画像について,例えば正規化相関法,誤差二乗法などの演算処理を実行してピーク値をもつ関数曲線に変換した後,当該関数曲線に対して認識性能が落ちない程度に十分に低い閾値を設定し,当該閾値を基準として当該ウィンドウ画像の領域が顔領域であるか否かを判断する。
【0124】
上記テンプレートマッチング部232には,予め,例えば100人程度の人間の顔画像の平均から生成される平均的な人間の顔領域をテンプレートデータとして登録されている。
【0125】
ウィンドウ画像の領域が顔領域であるか否かの判断は,上記テンプレートマッチング部232に顔領域のテンプレートデータとして登録することにより,かかる顔領域か否かの判断基準となる閾値が設定され,当該ウィンドウ画像について,テンプレートデータとなる平均的な顔領域との簡単なマッチングをすることにより判断される。
【0126】
テンプレートマッチング部232は,ウィンドウ切出部231により送出されたウィンドウ画像について,テンプレートデータによるマッチング処理を行い,テンプレートデータとマッチングし,顔領域であると判断された場合には,当該ウィンドウ画像をスコア画像(顔領域と判断されたウィンドウ画像。)として後続の前処理部233に送出する。
【0127】
また,上記ウィンドウ画像について,顔領域でないと判断された場合には,当該ウィンドウ画像そのまま結果判定部235に送出する。なお,上記スコア画像には,顔領域と判断された度合いがどの程度確からしいのかを示す信頼度情報が含まれる。例えば,信頼度情報は,スコア値が“00”〜“99”の範囲内の数値を表し,数値が高いほど,より顔領域であることが確からしいことを表す。なお,信頼度情報は,例えば結果判定部235に備わるキャッシュ(図示せず。)などに格納される場合でもよい。
【0128】
上記説明の正規化相関法,誤差二乗法などの演算処理は,後続の前処理部233およびSVM識別部234における演算処理と比較すると,演算処理量が10分の1から100分の1程度で済むとともに,テンプレートマッチング部232によるマッチング処理時点で,80(%)以上の確率で顔領域であるウィンドウ画像を検出することが可能である。つまり,明らかに顔領域でないウィンドウ画像を,この時点で除去することが可能となる。
【0129】
前処理部233は,テンプレートマッチング部232から得られたスコア画像について,矩形領域でなる当該スコア画像から人間の顔領域とは無関係な背景に相当する4隅の領域を抽出するべく,当該4隅の領域を切り取ったマスクを用いて,20×20画素あるスコア画像から360画素分を抽出する。なお本実施の形態にかかるスコア画像は4隅を切り取った360画素分を抽出する場合を例に挙げて説明したが,かかる例に限定されず,例えば,4隅を抽出しない場合であっても実施可能である。
【0130】
さらに前処理部233は,撮像時の照明などにより濃淡で表される被写体の傾き条件を解消するために,例えば平均二乗誤差(RSM:Root Mean Square)などによる算出方法を用いて当該抽出された360画素のスコア画像の濃淡値に補正をかける。
【0131】
続いて,前処理部233は,当該360画素のスコア画像のコントラストが強調された結果のスコア画像を,ヒストグラム平滑化処理を行うことにより,撮像装置102の撮像素子のゲイン又は照明の強弱に左右されないスコア画像を検出させることが可能となる。
【0132】
またさらに,前処理部233は,例えばスコア画像をベクトル変換し,得られたベクトル群をさらに1本のパターンベクトルに変換するため,ガボア・フィルタリング(Gabor Filtering)処理を行う。なお,ガボア・フィルタリングにおけるフィルタの種類は必要に応じて変更可能である。
【0133】
SVM識別部234は,前処理部233からパターンベクトルとして得られたスコア画像に対して顔領域の検出を行う。そして検出された場合,顔領域検出データとして出力する。検出されない場合は,顔領域未検出データとして追加され,さらに学習する。
【0134】
SVM識別部234は,前処理部233により送出されたスコア画像に基づいて生成されたパターンベクトルについて,当該スコア画像内に顔領域が存在するか否かを判断し,顔領域が検出された場合,当該スコア画像における顔領域の左上位置(座標位置),顔領域の面積(縦×横の画素数),顔領域であることの確からしさを表す信頼度情報,当該スコア画像の切出しの元となるスケール画像の縮小率(第1〜第5のスケール画像に該当する縮小率のうちのいずれか一つ。)とからなる顔領域情報を,例えば結果判定部235に備わるキャッシュ(図示せず。)に格納することにより,スコア画像ごとにリスト化する。なお,本実施の形態にかかる顔領域の位置(起点)は,画像左上である場合に限らず,例えば画像右上などであっても実施可能である。
【0135】
SVM識別部234により,例えば,第1のスケール画像のうち最初のウィンドウ画像の顔領域の検出が終了すると,ウィンドウ切出部231により第1のスケール画像の中の次にスキャンされたウィンドウ画像がテンプレートマッチング部232に送出される。
【0136】
次にテンプレートマッチング部232は,当該ウィンドウ画像がテンプレートデータにマッチングした場合のみスコア画像として,前処理部233に送出する。前処理部233は,上記スコア画像をパターンベクトルに変換してSVM識別部234に送出する。SVM識別部234は,パターンベクトルに基づき顔領域を検出した場合,上記スケール画像に関する顔領域情報を生成し,上記結果判定部235に備わるキャッシュに格納する。
【0137】
上記記載のように,第1のスケール画像について,ウィンドウ切出部231により順次スキャンされたウィンドウ画像について,以降後続のテンプレートマッチング部232,前処理部233,及びSVM識別部234による各処理が実行され,当該第1のスケール画像から顔領域が含まれるスコア画像を複数検出することが可能となる。
【0138】
さらに,ウィンドウ切出部231による第1のスケール画像のスキャンが全て終了し,後続のテンプレートマッチング部232,前処理部233,及びSVM識別部234による各処理についても終了すると,第2のスケール画像について,上記説明の第1のスケール画像とほぼ同様に顔領域の検出するための各処理が実行される。第3〜第5のスケール画像についても,第1のスケール画像とほぼ同様にして顔領域の検出処理が実行される。
【0139】
SVM識別部234は,メモリ部202から読み出した映像データであるフレーム画像を5段階の相異なる縮小率から構成される第1〜第5のスケール画像について,顔領域が検出されたスコア画像をそれぞれ複数検出し,その結果,生成される顔領域情報を,上記結果判定部235に備わるキャッシュ(図示せず。)に格納する。なお,本実施の形態にかかるキャッシュは,結果判定部235に備わる場合を例に挙げて説明したが,かかる例に限定されず,例えば,顔検出ブロック203内に単独で備わる場合などであっても実施可能である。さらに,顔領域が検出されずスコア画像が全く得られない場合もあるが,少なくとも1個など,所定の個数だけスコア画像が得られれば,顔検出処理は続行される。
【0140】
上記第1〜第5のスケール画像において顔領域が検出されたスコア画像は,ウィンドウ切出部231におけるスキャンが所定画素(例えば,2画素など。)ずつ移動しながら実行されているため,前後のスコア画像の間では,近傍領域において高い相関性があり,相互に重なり合う領域を有する場合が多い。
【0141】
結果判定部235は,上記重複する領域を除去するため,2つのスコア画像の位置,スコア画像の画素数,および所定の数式に基づき,重複しているか否かを判定する。
【0142】
例えば,上記2つのスコア画像の位置として左上角の位置を,X.Y座標により(XA,YA),(XB,YB)とそれぞれ表し,スコア画像の画素数(縦×横)を,それぞれHA×LA,HB×LB,dX(=XB−XA),dX(=XB−XA)とすると,以下に示す(1)式および(2)の関係が同時に成り立つ場合,2つのスコア画像は重なり合うと判定される。
【0143】
(LA−dX)×(LB+dX)>0・・・・・(1)
【0144】
(HA−dY)×(HB+dY)>0・・・・・(2)
【0145】
結果判定部235は,当該判定結果に基づいて,複数のスコア画像のうち重なり合う領域を除くことにより,重なり合わない最終的な顔領域を取得し,最終的に確定となる顔領域情報を生成し,上記キャッシュに格納されていた顔領域情報を更新する。なお,本実施形態にかかる格納されていた顔領域情報は,確定された顔領域情報に更新される場合を例に挙げて説明したが,かかる場合に限らず,別途新規に確定された顔領域情報を格納する場合であっても実施可能である。
【0146】
重なり合う領域が存在する場合,結果判定部235は,キャッシュ(図示せず。)に格納されたスコア画像に対応する信頼度情報に基づき,信頼度の高い,つまり顔領域である確からしさが高いスコア画像の方の顔領域情報を生成し,上記キャッシュに格納された当該顔領域情報を信頼度の高い顔領域情報に更新する。
【0147】
結果判定部235は,上記顔領域が検出されない場合,キャッシュに格納処理を行わず,さらに重なり合う顔領域が存在しない場合は,顔領域情報の更新は行わない。
【0148】
以上から,顔検出ブロック203は,撮像装置102により撮影された画像データから,信頼性の高い顔領域に対して顔領域情報を生成することが可能となる。したがって,複数の顔領域が検出されても,より確実に,例えば撮影の対象体である使用者106の顔領域を検出することが可能となる。
【0149】
上記生成された顔領域情報データは,図3に示す撮影制御部205に送信されて,少なくとも顔領域情報データ等に基づき,制御パラメータが生成される。なお,撮影制御部205による制御パラメータの生成については後程詳述する。
【0150】
また,本実施の形態にかかる結果判定部235による重複領域の判定処理は,(1)式に定められた場合を例に挙げて説明したが,かかる例に限定されず,他の数式を用いた場合であっても実施可能である。
【0151】
また,本実施の形態にかかるスケール画像をはじめとする画像の位置は,左上隅を基準に表される場合を例に挙げて説明したが,かかる例に限定されず,他の位置を基準とした場合であっても実施可能である。
【0152】
また,本実施の形態にかかる顔領域の検出される画像データは,フレーム単位に読み込まれて,顔領域が検出処理される場合を例に挙げて説明したが,かかる例に限定されず,例えば,フィールド単位又は複数フレームからなるシーンごとに顔領域の検出処理を行う場合などであっても実施可能である。
【0153】
また,本実施の形態にかかるテンプレートマッチング232に登録されるテンプレートデータは,平均的な人間の顔を示す顔領域が登録される場合を例にあげて説明したが,かかる例に限定されず,例えばテンプレートデータとして,乗用車のナンバープレート,時計,またはペットなどの動物の顔の画像領域が登録される場合であっても実施可能である。
【0154】
通信部207は,ネットワーク105と接続され,ネットワーク105を介して圧縮符号化された伝送データを送信,またはネットワーク105を介して,映像配信ユニットから配信される伝送データを受信する。
【0155】
(3. 双方向コミュニケーションシステムの動作)
次に,図5を参照しながら,上記のように構成された双方向コミュニケーションシステムの動作の実施形態について説明する。図5は,本実施の形態にかかる双方向コミュニケーションシステムの動作の概略を示すフローチャートである。
【0156】
まず,図5に示すように,例えばテレビ会議等の双方向コミュニケーションシステムの動作を実施する際に,予め撮像装置102の撮影処理にかかる特性情報データを生成する(S501)。特性情報データは,撮像装置102のPTZ(パン,チルト,ズーム)の特性を示すもので,パン,チルト,またはズームの各パラメータによりどの程度,撮像装置102のカメラ動作が行われるか示すデータである。以下,上記特性情報データについて説明する。
【0157】
(3.1 特性情報データ)
図6を参照しながら,本実施の形態にかかる特性情報データについて説明する。図6は,本実施の形態にかかる特性情報データを生成するために用いられるプレートの概略を示す説明図である。
【0158】
図6に示すように,撮像装置102の特性情報データを調べるために,白領域と黒領域とを格子状に有するプレート601が使用される。上記プレート601の実際の大きさは,撮影される対象体に応じて変更されることが好ましい。例えば,対象体が話者の顔である場合,プレート601の縦×横が,略30cm×30cmの大きさのプレート601を用いる。なお,本実施の形態にかかるプレート601は,かかる例に限定されず,例えばプレート601の縦×横が,10cm×40cmなどである場合でも実施可能である。
【0159】
したがって,上記略30cm×30cmの大きさのプレート601の場合,白領域及び黒領域の大きさはともに,略5cm×5cmの大きさとなる。このことから各白領域又は黒領域に対応する,例えば話者の顔領域の細部(鼻,目など。)をマーキングすることが可能となり,PTZの制御をする際に,話者の顔領域を追従することが容易となる。
【0160】
上記プレート601を,図7に示すように,まずA地点に所定距離だけ撮像装置102から離して設置し,A地点におけるプレート601を撮像装置102によりパン,チルト,およびズームの値を変化させて,それぞれ値を変化させて撮影された画像フレームに写るプレート601がどのように変化するかを記録する。
【0161】
ここで,図8を参照しながらズーム値を変化させた場合を例に挙げて説明すると,図8(a)では,画像フレーム801内にプレート601が非常に小さく収まっているが,この時の,プレート601が画像フレーム801全体に占める大きさ,またはその時のズーム値等を記録する。なお本実施の形態にかかる大きさの単位は,画素であるが,かかる例に限定されない。
【0162】
図8(b)でも,上記図8(a)と同様に,プレート601が画像フレーム801全体に占める大きさ,各白領域/黒領域が画像フレーム801全体に占める大きさ,またはその時のズーム値等を記録する。図8(c)においても,プレート601が画像フレーム801全体に占める大きさ,各白領域/黒領域が画像フレーム801全体に占める大きさ,またはその時のズーム値等を記録する。図8(c)では,プレート601と画像フレーム801が同程度の大きさであるから,プレート601の大きさが例えば30cm×30cmの場合,図8(c)におけるズーム値を設定することにより,画像フレーム一杯に収まる画像データを撮影することができる。
【0163】
図8(d)及び図8(e)の場合においても,上記とほぼ同様に,プレート601が画像フレーム801全体に占める大きさ,各白領域/黒領域が画像フレーム801全体に占める大きさ,またはその時のズーム値等を記録する。なお,図8(d)の場合では,プレート601全体が画像フレーム801に収まりきれず,一部の黒領域又は白領域が収まっている。図8(e)については,プレート601の中心部である1の黒領域が画像フレーム801一杯に収まっている。
【0164】
上記プレート601の大きさ又は各白領域/黒領域の大きさと,その時のズーム値とをテーブル化して記録することにより,撮像装置102のズームにおける特性情報データが生成される。
【0165】
上記プレート601は,撮像装置102から所定距離だけ離れたA地点に設置された場合のズーム値の変化についてテーブル化したが,さらに,所定距離を変化させ,各所定距離についてズーム値の変化についてプレート601の大きさ又は各白領域/黒領域の大きさと,その時のズーム値とをテーブル化して記録することにより,さまざまな距離から撮像装置102の撮影処理の制御が対応できる。
【0166】
また,ズーム値の変化だけでなく,パン値及びチルト値の変化についても図7に示すように,例えば,A地点からB地点にプレート601を水平移動させた場合は,画像フレームの中心に撮影されたA地点の矢印方向の黒領域について,B地点でのプレート601にある上記黒領域が画像フレームの中心に撮影されるまでのパン値の変化を記録することで,A地点からB地点までの移動距離と,その時のパン値とをテーブル化して記録する。さらに,水平移動の距離をさらに変化させて,その時のパン値とをテーブル化して記録することで,撮像装置102のパンにおける特性情報データが生成される。なお,撮像装置102のチルトにおける特性情報データにおいても,パンにおける特性情報データとほぼ同様な構成により生成される。なお生成された特性情報データは,撮影制御部205に備えられたメモリ部(図示せず。)に記録される。
【0167】
ここで,撮像装置102のPTZ(パン,チルト,ズーム)にかかるパラメータについて,図9を参照しながら説明する。図9は,本実施の形態にかかるPTZのパラメータの範囲を示す説明図である。
【0168】
図9に示すように,パン(Pan;P)のパン値の範囲は,16進数表示で,“0XFC90”〜“0X0370”となり,中心(Center)は“0000”である。10進数表示では,“−879”〜“880”となる。
【0169】
チルト(Tilt;T)のチルト値の範囲は,16進数表示で,“0XFE04”〜“0X012C”となり,中心(Center)は“0000”である。10進数表示では,“−507”〜“300”となる。
【0170】
さらに,ズーム(Zoom;Z)のズーム値の範囲は,16進数表示で,“0X0000”(Wide;ワイド)〜“0X03FF”(Tele;テレ)となり,10進数表示では,“0”〜“1023”となる。
【0171】
次に,図5に示すように,上記PTZ(パン,チルト,ズーム)における特性情報データが生成される(S501)と,撮像装置102の開始前処理が行われる(S502)。
【0172】
開始前処理(S502)は,撮像装置102の電源を入れ,もしくはスタンバイモードの場合はそのままの状態から,例えば撮像装置102に備わる撮影開始ボタン(図示せず。)が押下されると,全方位に対する顔領域を検出し,全方位顔領域情報データを生成する。生成された全方位顔領域情報データは,撮影制御部205に備えられたメモリ部(図示せず。)に記録される。
【0173】
全方位顔領域情報データは,例えば打ち合わせが行われる会議室内に参加する全ての使用者106にかかる顔領域の位置データ,面積データ,および信頼度データから構成されている。
【0174】
したがって,全方位顔領域情報データに基づいて,撮像装置102を使用者106全体が画像フレーム内に収まるように撮影させることが可能となる。この際に,画像フレーム内に収まらない場合,顔領域の個数が最大もしくは顔領域の面積が最大になるように画像フレーム内に収めることも実施可能である。
【0175】
図5に示すように,本実施の形態にかかる双方向コミュニケーションシステムにおいて,例えばテレビ会議などにより複数の使用者106が打ち合わせをする場合,打ち合わせされる時間内は絶えず複数の映像配信ユニット101間で,相互に映像データをやりとりし,双方向コミュニケーションシステムの動作が継続される。
【0176】
したがって,会議の打ち合わせが終了(撮像装置102による撮影処理が終了。)するまで,各映像配信ユニット101に備わる映像通信装置104は,撮像装置102の撮影処理を制御する処理(S503)が続行(配信ループ)される。
【0177】
次に,図10を参照しながら,本実施の形態にかかる撮像装置の撮影の制御処理について説明する。図10は,本実施の形態にかかる撮影の制御処理の概略を示すフローチャートである。
【0178】
上記撮像装置102の撮影の制御処理(S503)は,映像通信装置104により行われるが,まず撮像装置102により撮影が開始されると映像通信装置104に備わる撮影制御部205は,予め開始前処理(S502)において記録された全方位顔領域情報データに基づき,画像フレーム内に使用者106全体が収まるように,パン,チルト,およびズーム(以下,PTZ)の値を定め,撮像装置102に対し制御パラメータを送信する。
【0179】
上記制御パラメータには,画像フレーム内に使用者106全体が収まるパン,チルト,およびズーム(以下,PTZ)の値が設定されており,撮像装置102は,上記制御パラメータに基づき,カメラを回動またはズームイン・ズームアウトし,撮影する。したがって,出力装置103の画面上の所定位置には,例えば中心部には,使用者106全体が表示される。
【0180】
図10に示すように,撮影処理が開始され,使用者106のうち話者として発言されると,音源受信装置107から音声データが送出され,音源検出部204により音源検出処理(S1000)されるが,かかる音源検出処理(S1000)により所定時間以上,音源受信装置107により音声データが送出されない場合,映像通信装置104は,スタンバイモードとなり撮影処理が中断される。この際,映像通信装置104は,撮像装置102のカメラを正面に向かせるための制御パラメータを送信してもよい。
【0181】
上記音源検出処理(S1000)は,上記説明した通りであるため詳細な説明は省略するが,本実施の形態にかかる音源検出処理は,話者の発言により生成される音声データが,所定の閾値を超えず,ほぼ同位置から5秒を超えて検出された場合,当該話者を音源と判断し,音源情報データが生成される。したがって,少なくとも1フレーム以上前に生成された音源情報データの音源の位置とは相違する別の位置から5秒以上超えて検出された場合,別の話者に切替わったと判断し,当該別の話者の音源情報データが生成される。
【0182】
さらに,音源検出部204は,別の話者の音源と判断し,音源情報データを生成する回数が,例えば,10秒間に所定回数を超えた場合,音源情報データを生成せずに,撮影制御部205に対して,使用者106全体を画像フレームに収める画面に切替えるための指示データを送信する。なお,本実施の形態にかかる所定回数は,予め任意に設定可能であり,時間の範囲は10秒間に限定されない。なお,生成された音源情報データは,音源検出部204に備わるメモリ部(図示せず)に記憶される。
【0183】
したがって,撮影制御部205は,音源検出部204から上記指示データを受信すると,撮影制御部205に備わるメモリ部(図示せず。)に記録された全方位顔領域情報データに基づき,制御パラメータを生成し,撮像装置102に送信する。
【0184】
なお,本実施の形態にかかる音源は,音声データが同位置から5秒を超えて検出された場合,判断されるが,かかる例に限定されない。例えば,音声データが同位置から10秒を超えて検出された場合であっても実施可能である。
【0185】
音源検出部204は,上記音源情報データが生成されると,当該音源情報データを撮影制御部205に送信する。
【0186】
撮影制御部205は,上記音源情報データを受信すると,撮影制御部205に備えられたメモリ部に記録された少なくとも1フレーム前にて生成された音源情報データを読み込み,受信した音源情報データと比較する。
【0187】
上記受信した音源情報データと少なくとも1フレーム前にて生成された音源情報データとが,ほぼ同位置にて検出された音源であると判断された場合は,制御パラメータを生成せず,後続処理へと続くが,別の音源であった場合,カメラの撮影する対象体を変更させるため,受信した音源情報データのうち音源の位置データ等に基づき,PTZの値を算出し,制御パラメータを生成処理(S1002)をし,撮像装置102に送信する。
【0188】
なお,本実施の形態にかかる撮像制御部205は,上記音源情報データを受信した場合,画像データから生成される顔領域情報データよりも音源情報データに重み付けをおいて制御パラメータを生成しているが,かかる例に限定されない。
【0189】
撮像装置102は,上記制御パラメータを受信すると,制御パラメータに設定されているPTZの値に基づき,カメラのPTZ調整をする。PTZ調整により,話者の発する音源の近傍の画像が画像フレームに収まるよう撮影される。
【0190】
次に,撮像装置102の撮影により話者の発する音源の近傍が映された画像データは,例えば,RS−232CまたはRS−422などを介して,映像通信装置104の変換部201に送出される。
【0191】
変換部201は,上記画像データをA/D変換し,メモリ部202に送出する。画像データが,メモリ部202に送出されると,話者の顔領域を出力装置103の所定位置に表示するため,図3に示すように,顔検出ブロック203により顔領域の検出処理(S1004)が行われる。なお,本実施の形態にかかる顔検出処理は,上記説明したのとほぼ同様の構成であるため省略する。
【0192】
顔検出処理(S1004)は,メモリ部202に送出される画像データのフレーム単位に行われるが,かかる例に限らず,フィールド単位の場合でもよい。また,フレーム単位の映像データであるフレーム画像(ピクチャ)内に顔領域が存在しない,検出されない(S1006)場合は,再度音源検出処理(S1000)から実行される。
【0193】
顔検出処理(S1004)の結果,顔領域が検出された(S1006)場合は,映像通信装置104に備わる結果判定部235のキャッシュに格納された顔領域情報データが撮影制御部205に送信される(S1008)。
【0194】
撮影制御部205は,上記顔領域情報データを受信すると,撮影制御部205内に備わるメモリ部(図示せず。)に格納された少なくとも1フレーム前にて生成されたフレームにかかる顔領域情報データの有無を検索する(S1010)上記顔領域情報データが存在した場合は,顔領域情報データを取得する。なお,検索対象となるフレームは,1フレーム前に限らず,例えば,複数フレーム前,または1フィールド前などであってもよい。
【0195】
上記1フレーム前の画像フレーム(前フレーム)にかかる顔領域情報データが存在している場合(S1010)は,上記受信した画像データのフレーム(現フレーム)の顔領域情報データと,前フレームにかかる顔領域情報データとを比較し,補正処理を行う(S1012)。本実施の形態にかかる前フレームは,画像データの少なくとも1フレーム前の画像フレーム801を示すが,かかる例に限定されず,フレームのほかに,フィールド,または複数フレームから構成されるシーンの場合であってもよい。
【0196】
なお検索結果,該当する顔領域情報データが存在しない場合は,後続処理の顔領域情報データの補正処理(S1012)を行わず,受信した顔領域情報データのうち,顔領域情報データのうちの面積データが最大の顔領域のものが選択されるよう,上記顔領域情報データを補正する。なお,本実施の形態にかかる顔領域データの補正は,かかる例に限定されず,例えば,顔領域情報データのうち信頼度データが最大の顔領域を選択されるよう補正する場合であっても実施可能である。
【0197】
上記補正処理(S1012)は,前フレームおよび現フレームにかかる顔領域情報データの顔領域の面積データ,位置データ,または信頼度データのうち少なくとも一つを比較することにより現フレーム画像にかかる顔領域情報データを補正する。
【0198】
本実施の形態にかかる補正処理(S1012)は,例えば,前フレームにおいて1の顔領域のみ存在し,現フレーム画像において2の顔領域が存在し,現フレームにおいても前フレームで検出された顔領域を選択する場合,現フレームの画像データに含まれる前フレームにかかる顔領域情報データを,選択するため正確に顔領域情報データを判別する必要がある。
【0199】
前フレームおよび現フレーム間の時間差は極めて短く,人間の動作によりフレーム内を移動可能な範囲は極めて限られているため,撮影制御部205は,顔領域情報データの面積データと位置データとに基づき,現フレームにかかる顔領域のうち,前フレームにかかる顔領域の近傍に存在する顔領域の顔領域情報データを選択する。
【0200】
選択された顔領域情報データのうち信頼度データが,現フレームの他の信頼度データまたは前フレームの信頼度データに比べて低い場合,前フレームの信頼度データと同程度もしくは現フレームにかかる他の信頼度データ以上の値に補正する(S1012)。したがって,例えば,信頼度データが最も高い顔領域情報データを選択すれば,前フレームの顔領域を現フレーム画像においても正確に選択することが可能となり,的確な追尾撮影ができる。なお,本実施の形態にかかる補正処理は,かかる例に限定されない。
【0201】
撮影制御部205は,補正された現フレームにかかる顔領域情報データの顔領域の位置データ,面積データ,および予め記録された特性情報データに基づき,撮影の対象体となる話者の顔領域が画像フレーム801に収まるように,PTZの値をそれぞれ算出する(S1014)。
【0202】
PTZの値の算出は,上記説明した通り,上記位置データと,領域の大きさを示す面積データとに対応する各PTZの値(パン値,チルト値,ズーム値)を撮影制御部205のメモリ部(図示せず。)に保有されるテーブル化された特性情報データに基づいて,算出される。
【0203】
さらに,撮影制御部205は,算出された各PTZの値(パン値,チルト値,ズーム値)が,直近に生成された制御パラメータにおける各PTZの値(パン値,チルト値,ズーム値)とを所定の閾値以上異なるか比較する(S1016)。
【0204】
比較した結果,所定の閾値以上異なる場合,撮影制御部205は算出された算出値と,予め記録された特性情報データとに基づき,制御パラメータを生成し,撮像装置102に送信する。なお本実施の形態にかかる閾値は,現フレーム及び前フレームにおける検出された顔領域の位置(座標)と,顔領域の大きさとの差分値から設定される値であるが,かかる例に限定されない。
【0205】
上記所定の閾値を超えるまでの範囲については,制御パラメータを生成せず撮像装置102の撮影制御を実行しない,いわゆる「遊び」を設ける。したがって,上記所定の閾値以上異なる場合に限り,制御パラメータを生成する(制御パラメータの生成条件を設定する。)ことにより,例えば,対象体の必要以上の追尾撮影など,頻繁に,過度に撮像装置102のカメラの動作が制御されず,不自然な撮像装置102の動きを防ぐことが可能となる。
【0206】
ここで,図11を参照しながら,本実施の形態にかかる制御パラメータの生成条件について説明する。図11は,本実施の形態にかかる制御パラメータの生成条件の概略的な構成を示す説明図である。
【0207】
図11に示すように,前フレームにおいて顔領域が検出され,フレーム座標(X,Y)が,(230,160)であり,大きさ“240”の場合に,閾値を前フレームおよび現フレームにおいて検出された値の座標差分閾値を,例えば“(±100,±80)”と,大きさ差分閾値を“(±50)”と設定すると,現フレームにおいて図11に示すような顔領域が検出された場合,撮影制御部205の制御パラメータの生成の有無は以下の通りとなる。
【0208】
現フレームの顔領域の検出値が,図11に示すように,“(X,Y)=(240,210),大きさ「200」”である場合,現フレームと前フレームとの座標差分閾値および大きさ差分閾値は,“(X,Y)=(10,50),大きさ「−40」”と算出される。算出された座標差分閾値および大きさ差分閾値は,設定された座標差分閾値および大きさ差分閾値の範囲内であるため,撮影制御部205により制御パラメータは生成されない。
【0209】
また,図11に示すように,現フレームの顔領域の検出値が,“(X,Y)=(200,180),大きさ「170」”である場合,現フレームと前フレームとの座標差分閾値および大きさ差分閾値は,“(X,Y)=(−30,20),大きさ「−70」”と算出される。ここで両差分閾値のうち,算出された大きさ差分閾値は,設定された大きさ差分閾値の範囲を超えたため,撮影制御部205によりZoom値(ズーム値)を変更するための制御パラメータが生成される。
【0210】
さらに,図11に示すように,現フレームの顔領域の検出値が,“(X,Y)=(350,100),大きさ「300」”である場合,現フレームと前フレームとの座標差分閾値および大きさ差分閾値は,“(X,Y)=(120,−60),大きさ「−60」”と算出される。ここで両差分閾値のうち,算出された座標差分閾値の“X=120”と,算出された大きさ差分閾値の“大きさ「−60」”とが,設定された差分閾値の範囲を超えたため,撮影制御部205により,Pan値(パン値)およびZoom値(ズーム値)を変更するための制御パラメータが生成される。
【0211】
なお,本実施の形態にかかる閾値は,座標差分閾値を,例えば“(±100,±80)”と,大きさ差分閾値を“(±50)”として設定された場合を例に挙げて説明したが,かかる例に限定されず,いかなる値で設定された場合であっても実施可能である。
【0212】
次に,撮影制御部205は,所定の閾値以上異なるか比較(S1016)し,所定の閾値以上異なる場合,算出されたPTZ値(パン値,チルト値,ズーム値)と,特性情報データとに基づき,制御パラメータを生成する(S1018)。
【0213】
なお,本実施の形態にかかる撮像制御部205は,上記顔領域情報データを受信した場合,重点対象として,画像データから生成される顔領域情報データに重み付けをおいて制御パラメータを生成しているが,かかる例に限定されず,例えば,生成された音源情報データと上記顔領域情報データとの位置データの平均値を算出することにより,上記PTZ値を求め,制御パラメータを生成する場合であっても実施可能である。
【0214】
生成された制御パラメータは,撮影制御部205により,撮像装置102に送信する(S1020)。
【0215】
撮像装置102は,受信した制御パラメータに基づき,カメラのPTZ(パン,チルト,ズーム)の調整を実行する。上記PTZの調整により,映像通信装置104は,撮像装置102の撮影の制御処理(S1022)をすることができる。
【0216】
ここで,図12〜図14を参照しながら,本実施の形態にかかる撮影の制御処理について説明する。図12は,本実施の形態にかかる前フレームにおける顔領域の概略的な構成を示す説明図であり,図13は,本実施の形態にかかる現フレームにおける顔領域の概略的な構成を示す説明図であり,図14は,本実施の形態にかかる撮影の制御処理後の現フレームにおける顔領域の概略的な構成を示す説明図である。
【0217】
まず,図12に示すように,画像データの少なくとも1フレーム前のフレーム(前フレーム)の画像フレーム801における顔領域1201の位置(位置座標)は,生成された顔領域情報データの位置データから示されるように,“(X,Y)=(230,160)”であり,顔領域1201の大きさは,上記顔領域情報データの面積データから示されるように“240”である。なお,本実施の形態にかかる画像フレーム801の大きさは,704画素×480画素とする。
【0218】
顔領域1201は,顔検出ブロック203により検出され,図12に示すように,対象体の話者の顔を含む長方形の形状である。なお,本実施の形態にかかる顔領域1201は,かかる例に限定されず,検出対象である顔領域の大きさに応じて変動する。
【0219】
次に,図13に示すように,リアルタイムに撮像装置102により撮影され,映像通信装置104に入力された画像データであるフレーム(現フレーム)の画像フレーム801における顔領域1201の位置は,話者である使用者106の移動などにより,“(X,Y)=(350,100)”であり,顔領域1201の大きさは,“300”となる。
【0220】
現フレームにおける当該顔領域1201の位置および大きさと,上記前フレームにおける顔領域1201の位置および大きさとを比較し,所定の閾値を超えている場合は,撮影制御部205により,各PTZの値を算出し,画像フレーム801の所定位置,例えば中央部に上記顔領域1201を配置するための制御パラメータを生成する。
【0221】
現フレームの顔領域1201では,撮像装置102の追尾撮影が実行されず,画像フレーム801の中心部よりも離れた個所に配置されており,顔領域1201の大きさも画像フレームの大きさの半分近くまで占められていたため,接続先の使用者106は,例えば圧迫感を受けるなど,視認性の低い,コミュニケーションを図り難い映像データが配信されていた。
【0222】
制御パラメータの生成により,顔領域1201の追尾撮影するため,撮像装置102の撮影の制御処理(S1022)が実行されると,図14に示すように,PTZの制御後の画像フレーム801における顔領域1201の位置は,“(X,Y)=(235,150)”であり,顔領域1201の大きさは,“250”となり,図13に示す現フレームの顔領域1201よりも画像フレーム801の中心部に移動し,画像フレーム801に占める顔領域1201の割合が減少した。
【0223】
したがって,図13に示す現フレームの顔領域1201は,視認性の低い映像データとして配信されていたが,撮影の制御処理(S1022)により,図14に示すように,制御後の画像フレーム801における顔領域1201を映像データとして,各映像配信ユニット101に配信することにより,使用者106間のコミュニケーションを活性化し,出力画面の視認性を高めることが可能となる。さらに,映像通信装置104により,自動的に話者の追尾撮影を制御し,話者の判断が困難な場合は,使用者106全体の画像データに切替えることが可能となり,使用者106が自ら操作する負担が軽減される。
【0224】
次に,図10に示す撮像装置102の制御処理(S1022)とともに,画像データおよび音声データは,映像データとして逐次エンコーダ部206に送出される。上記エンコーダ部206は,映像データを受信すると,伝送データに圧縮符号化する(S1024)。なお,本実施の形態にかかる圧縮符号化は,ITU−T勧告 H.263またはISO/IEC 14496に定めるMPEG−4に従い圧縮符号化されるが,かかる例に限定されず,例えば,H.261などの場合であっても実施可能である。
【0225】
圧縮符号化(S1024)された伝送データは,通信部207に送出される。通信部207は,伝送データを,多重化し,ネットワーク105を介して,接続先の映像配信ユニット101に配信する(S1026)。以上から構成される撮影制御処理(S1000〜S1026)は,撮影処理が終了するまで継続される。
【0226】
また,撮影処理が終了または中断すると,撮像装置102,映像通信装置104,および出力装置103の電源は,スタンバイモードになる。この場合,撮像装置102のカメラは真正面に向き,ズーム値が最大となるように,撮影制御部205により制御パラメータが生成されてもよい。撮影開始時に,画像フレーム801内の撮影対象体が広角に捕えらえ,新たな顔領域を検出することが容易となる。
【0227】
なお,本実施の形態にかかる配信後の映像データについては,ネットワーク105を介して送信された伝送データが,接続先の映像配信ユニット101に備わる通信部207により受信され,デコーダ部208により伸長されるとメモリ部202に順次,映像データが格納される。
【0228】
さらにメモリ部202に映像データが格納されると,変換部209によりD/A変換され,出力装置103に上記映像データが画面表示される。なお,本実施の形態にかかる変換部209は,D/A変換するが,かかる例に限定されず,ディジタルの映像データのまま出力装置103に出力してもよい。さらに,変換部209からディジタルの映像データを,例えば,フラッシュメモリ,メモリスティックなどの記憶媒体(図示せず。)に出力する場合であっても実施可能である。
【0229】
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明はかかる例に限定されない。当業者であれば,特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例を想定し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
【0230】
上記実施形態においては,特徴領域は顔領域である場合を例にあげて説明したが,特徴を有する領域であれば,本発明はかかる例に限定されない。例えば,特徴領域が,使用者106が常備している社員証,駐車場などに駐車された乗用車や自動二輪車などのナンバープレートの場合などであっても実施することができる。
【0231】
また,上記実施の形態においては,映像配信ユニットは,テレビ会議に用いられる場合を例にあげて説明したが,本発明は,かかる例に限定されない。例えば,映像配信ユニットを携帯電話,携帯端末,またはパソコン(Personal
Computer)などに用いる場合であっても実施可能である。
【0232】
また,上記実施の形態においては,特徴領域として顔領域の検出処理,撮像装置の撮影の制御処理は,フレーム単位である場合を例にあげて説明したが,本発明は,かかる例に限定されない。例えば,フィールド単位,または複数フレームから構成されるシーン単位などの場合であっても実施することができる。
【0233】
また,上記実施の形態においては,音源情報データまたは特徴領域情報データは,フレームを単位として生成される場合を例にあげて説明したが,本発明は,かかる例に限定されない。フィールド,または複数フレームから構成されるシーンなどを単位とする場合であっても実施することができる。
【0234】
【発明の効果】
以上説明したように,本発明によれば,対象体の特徴領域を精度高く,的確に追尾撮影することが可能となる。したがって,使用者の操作負担が軽減され,撮影処理効率を向上させることができる。さらに的確に追尾撮影された視認性の高い映像データを配信することにより,使用者相互間の円滑なコミュニケーションを図れ,通信時間の短縮化が図れる。
【図面の簡単な説明】
【図1】図1は,本実施の形態にかかる双方向コミュニケーションシステムの概略的な構成を示すブロック図である。
【図2】図2は,本実施の形態にかかる音源受信装置の概略的な構成を示す説明図である。
【図3】図3は,本実施の形態にかかる映像通信装置の概略的な構成を示すブロック図である。
【図4】図4は,本実施の形態にかかる音源検出部の概略的な構成を示すブロック図である。
【図5】図5は,本実施の形態にかかる双方向コミュニケーションシステムの動作の概略を示すフローチャートである。
【図6】図6は,本実施の形態にかかる特性情報データを生成するために用いられるプレートの概略を示す説明図である。
【図7】図7は,本実施の形態にかかる特性情報データの生成処理の概略的な構成を示す説明図である。
【図8】図8(a)〜(e)は,本実施の形態にかかる画像フレームに撮影されたプレートの概略的構成を示す説明図である。
【図9】図9は,本実施の形態にかかるPTZのパラメータの範囲を示す説明図である。
【図10】図10は,本実施の形態にかかる撮影の制御処理の概略を示すフローチャートである。
【図11】図11は,本実施の形態にかかる制御パラメータの生成条件の概略的な構成を示す説明図である。
【図12】図12は,本実施の形態にかかる前フレームにおける顔領域の概略的な構成を示す説明図である。
【図13】図13は,本実施の形態にかかる現フレームにおける顔領域の概略的な構成を示す説明図である。
【図14】図14は,本実施の形態にかかる撮影の制御処理後の現フレームにおける顔領域の概略的な構成を示す説明図である。
【符号の説明】
101 :映像配信ユニット
102 :撮像装置
103 :出力装置
104 :映像通信装置
105 :ネットワーク
106 :使用者
107 :音源受信装置
201 :変換部
202 :メモリ部
203 :顔検出ブロック
204 :音源検出部
205 :撮影制御部
206 :エンコーダ部
207 :通信部
208 :デコーダ部
209 :変換部
【発明の属する技術分野】
本発明は,映像配信ユニット間において映像データを送受信可能なシステムにかかり,特に双方向コミュニケーションシステム,映像通信装置,映像通信装置の撮影処理制御方法に関する。
【0002】
【従来の技術】
近年,コンピュータなどの情報処理装置の高機能・低価格化による広範な普及と,ディジタル回線を始めとするネットワークのブロードバンド化に伴い,例えばデータ,音声,または映像などをやり取りするマルチメディア通信環境が急速に整備され始めている。
【0003】
マルチメディア通信環境は,代表的な例として,音声及び画像を双方向でやり取りすることによりコミュニケーションを図るための,例えばテレビ電話/テレビ会議システムなどの双方向コミュニケーションシステムのサービスがある。
【0004】
上記双方向コミュニケーションシステムにおいて,より円滑なコミュニケーションを図るために,撮影対象(対象体),例えば発言者である話者を,テレビカメラにより追尾撮影し,モニタなどのディスプレイ装置の画面内に表示させているものがある(例えば,特許文献1参照)。なお,本願発明に関連する技術文献情報には,次のものがある。
【0005】
【特許文献1】
特開平10−42264号公報
【発明が解決しようとする課題】
しかしながら,上記話者を追尾する場合において,話者以外のちょっとした発言に対してもテレビカメラにより追尾撮影されてしまい,話者を的確に判断し,ディスプレイ装置の画面所定位置に表示させることが困難であった。
【0006】
また,話者の発言により話者の存在位置を把握し,テレビカメラにより話者を追尾撮影しても,特徴を有する領域(特徴領域)を撮影対象とする場合,例えば話者の顔を撮影する場合など,テレビカメラの画枠内に話者の顔を収め,ピントを合わせるためにカメラのパン(Pan),チルト(Tilt),ズーム(Zoom)などの微調整を自動的に処理することが困難であった。
【0007】
本発明は,上記のような従来の問題点に鑑みてなされたものであり,特徴を有する領域を的確に判断し,上記特徴領域を撮像装置により追尾させ,画像フレーム内の画面所定位置に特徴領域を収めることが可能な,新規かつ改良された双方向コミュニケーションシステム,映像通信装置,および映像通信装置の撮影処理制御方法を提供することを目的としている。
【0008】
【課題を解決するための手段】
上記課題を解決するため,本発明の第1の観点によれば,1又は2以上の映像配信ユニット間を双方向通信可能に相互接続するネットワークを備えた双方向コミュニケーションシステムが提供される。この双方向コミュニケーションシステムの映像配信ユニットは,少なくとも画像データもしくは音声データのうちいずれか一方,または双方からなる映像データを生成する撮像装置と;映像データを伝送データに圧縮符号化するエンコーダ部及び伝送データを伸長するデコーダ部を少なくとも有する映像通信装置と;映像データを表示する出力装置とを備え,送り手側の一の映像配信ユニットは,対象体にかかる特徴領域を出力装置の画面所定位置に表示させる映像データを,受け手側の他の映像配信ユニットに配信することを特徴としている。
【0009】
本発明によれば,映像配信ユニットは,撮像装置により撮影される対象(対象体)として,映像の認識を助長する特徴を有する領域(特徴領域)を検出し,撮像装置により撮影された画像フレーム内の所定位置に特徴領域を配置させた映像データを,送信先の他の映像配信ユニットに常に配信することにより,他の映像配信ユニットの出力装置に上記画像フレーム内の所定位置と,ほぼ同一位置に特徴領域が表示され,常に特徴領域を把握することが可能となり,円滑なコミュニケーションが図れる。なお,本発明にかかる所定位置は,例えば,画像フレームにおける中心部などが例示される。
【0010】
対象体にかかる特徴領域は,少なくとも話者にかかる顔領域であるように構成することができる。かかる構成により,特徴領域を話者の顔領域にすることにより,発言内容の理解を助長することが可能となり,対象体相互間の円滑なコミュニケーションが図れる。なお,本発明にかかる対象体は,本実施の形態にかかる使用者などが例示される。
【0011】
映像通信装置は,さらに少なくともパン,チルト,もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成する撮影制御部を備えるように構成することができる。かかる構成により,撮像装置のカメラのパン,チルト,もしくはズームを調整する制御パラメータを生成することにより,撮像装置の撮影を制御し,特徴領域を追尾撮影することが可能となる。
【0012】
映像通信装置は,画像データから対象体にかかる特徴領域を検出し,特徴領域情報データを生成する特徴検出部をさらに備えるように構成することができる。かかる構成により,画像データに含まれる対象体から映像の認識の助長となる特徴領域を検出することが可能となり,視認性の高い映像データを常に配信することができる。
【0013】
特徴領域情報データは,少なくとも特徴領域の面積データ,特徴領域の位置データ,および特徴領域の信頼度データが含まれるように構成することができる。かかる構成により,特徴領域の位置,面積として特徴領域の大きさ,特徴領域であることの確からしさとして信頼度を把握することが可能となり,より精度の高い特徴領域を,的確に検出することができる。
【0014】
特徴領域情報データは,少なくとも顔領域にかかる顔領域情報データであるように構成してもよい。かかる構成により,より精度の高い話者などの顔領域を,的確に検出することができる。
【0015】
映像通信装置は,音声データから対象体の発する音源を検出し,音源情報データを生成する音源検出部をさらに備えるように構成することができる。かかる構成により,対象体の発する音源の方向に撮像装置による撮影対象を向けることができ,対象体相互間のコミュニケーションを図るために,認識の容易な映像データを配信することが可能となる。
【0016】
音源情報データは,少なくとも音源の位置データ,音源の検出時間データ,もしくは音源の音量データのうちいずれか一つ,または任意の組み合わせを含むように構成することができる。かかる構成により,音源を発する話者などの対象体の位置,例えば5秒以上検出されたら話者などの音源として判断する,または例えば所定音量以下の場合は音源として判断しないなど,音源を的確に検出することが可能となる。
【0017】
撮影制御部は,少なくとも音源情報データもしくは特徴領域情報データのうちいずれか一方,または双方と撮像装置の特性情報データとに基づき,撮像装置の撮影処理を制御するように構成することができる。かかる構成により,検出された特徴領域のうちから,対象体相互間の円滑なコミュニケーションを促すことが可能な,映像の認識を助長する特徴領域を的確に選択し,上記特徴領域が所定位置に配置された映像データを配信することができる。
【0018】
撮影制御部は,特徴領域情報データが生成された場合,少なくとも1つ前のフレームにて生成された又はフィールドの特徴領域情報データに基づき,当該映像データの特徴領域情報データを補正するように構成することができる。かかる構成により,1の画像フレーム内に複数の特徴領域が検出された場合など,少なくとも1フレーム前の画像フレーム(前フレーム)で検出された特徴領域情報データと,生成された特徴領域情報データとを比較判断し,過去に追尾撮影された,より適切な顔領域が選択され得る特徴領域情報データに補正することができる。
【0019】
撮影制御部は,特徴領域情報データのうち面積データおよび位置データと,映像データの少なくとも1つ前後するフレームで生成された特徴領域情報データの面積データおよび位置データとを,それぞれ比較し,所定の閾値を超えた場合,撮影処理の制御をするように構成することができる。かかる構成により,不必要なまでの特徴領域の追尾撮影を防ぐことが可能となり,視認性の高い映像データを配信できる。なお,本発明にかかるフレームは,かかる例に限定されず,例えば,フィールド,または複数のフレームから構成されるシーンなどでもよい。
【0020】
撮影制御部は,特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方と,少なくとも1つ前のフレームの前後にかかる特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方とを比較し,所定の閾値を超えた場合,制御パラメータを生成するように構成してもよい。かかる構成により,所定の閾値を超えた場合のみ,制御パラメータが生成されることで,対象体の特徴領域が必要以上に追尾撮影される場合など,不自然な撮像装置の撮影処理を防ぐことが可能となる。なお,本発明にかかるフレームは,かかる例に限定されず,例えば,フィールド,または複数のフレームから構成されるシーンなどでもよい。
【0021】
特徴検出部は,撮像装置により生成された全方位からの映像データに基づき,全方位特徴領域情報データを生成するように構成することができる。かかる構成により,撮像装置周辺に存在する特徴領域の全体の位置,各特徴領域の大きさ,各特徴領域の信頼度を把握することが可能となり,撮像装置により上記存在する特徴領域全体を画像フレーム内に収まるよう撮影することができ,全体像が撮影された映像データを配信できる。
【0022】
音源検出部は,少なくとも第一の所定時間,略同一位置から一の音源を検出した場合,一の音源を対象体の音源と判断するように構成することができる。かかる構成により,第一の所定時間,継続して同位置で発生した音声データを音源とみなすことにより,撮像装置による過度に不自然な撮影処理を防げる。
【0023】
音源検出部は,少なくとも第一の所定時間,一の音源とは別の略同一位置から他の音源を検出した場合,対象体の音源として一の音源から他の音源に変更するように構成することができる。かかる構成により,第一の所定時間,継続して略同一位置で検出された音声データが音源と一旦は判断されて,さらに別の位置で上記第一の所定時間,継続して別の略同一位置で音声データが検出された場合は,新たに音源として判断する。したがって,一の音源の発生が終了し,他の音源の発生が開始されても,撮像装置は一の特徴領域を有する対象体の音源から上記他の特徴領域を有する対象体の音源に追尾することが可能となる。
【0024】
第一の所定時間は,略5秒であるように構成することができる。なお,本発明の第一の所定時間は,かかる例に限定されない。
【0025】
撮影制御部は,少なくとも第二の所定時間,対象体の音源として一の音源から他の音源に,所定回数続けて変更された場合,全方位特徴領域情報データに基づき,撮影処理を制御するように構成することができる。かかる構成により,第二の所定時間の間,所定回数続けて音源の変更がされ,音源として固定されない場合,1又は2以上存在する対象体の全体が画像フレームに収まるように,撮像装置により撮影される。したがって,対象体の全体を視認することが容易となり,発生する音源を把握できる。
【0026】
第二の所定時間は,略10秒であるように構成することができる。なお,本発明の第一の所定時間は,かかる例に限定されない。
【0027】
撮影制御部は,一の音源から他の音源に変更された場合,新たに生成された音源情報データに基づき,制御パラメータを生成するように構成することができる。かかる構成により,一の対象体から発する音源が終了し,他の対象体からの音源の発生が開始されても,撮像装置は音源の位置に基づき一の対象体から上記他の対象体に追尾撮影し,さらに上記他の対象体に含まれる特徴領域を検出し,上記特徴領域が画像フレームの所定位置に配置されるよう撮像装置の撮影を制御することができる。したがって,映像の認識を助長する特徴領域が常に,出力装置の画面上の目に留まる位置に映し出される。
【0028】
特性情報データは,予め生成されるように構成することができる。かかる構成により,撮像装置の特性として撮影におけるカメラのパン,チルト,またはズームが予め把握でき,撮影された対象体の大きさ又は位置に応じて,画像フレームにおける所定位置および所定大きさに収めるための制御パラメータを生成することができる。
【0029】
エンコーダ部は,少なくともH.263又はMPEG−4の圧縮符号化方式により,映像データを圧縮符号化するように構成することができる。かかる構成により,低ビットレートのネットワークにおいても,映像データを容易に伝送することができる。
【0030】
さらに,上記課題を解決するための本発明の別の観点によれば,ネットワークに接続された1又は2以上の映像配信ユニットに備わる映像通信装置が提供される。上記映像配信ユニットは,少なくとも画像データもしくは音声データのうちいずれか一方,または双方からなる映像データを生成する撮像装置と;映像データを表示する出力装置とをさらに備えており,映像通信装置は,音声データから対象体の発する音源を検出し,音源情報データを生成する音源検出部と;画像データから対象体にかかる特徴領域を検出し,特徴領域情報データを生成する特徴検出部と;少なくとも音源情報データもしくは特徴領域情報データのうちいずれか一方または双方と,撮像装置の特性情報データとに基づき,撮像装置の撮影処理を制御する撮影制御部とを備えることを特徴としている。
【0031】
本発明によれば,映像配信ユニットに含まれる映像通信装置は,映像配信ユニットの使用者間の円滑なコミュニケーションを図るべく映像の認識を助長させるため,常に撮像装置により対象体に有する特徴領域を画像フレームの所定位置に撮影させるため音声データとして音源が発せられる対象体の位置を検出し,発せられる音源が別の対象体からに変更されれば当該別の対象体の位置を検出し,上記対象体に含まれる特徴領域を画像データから検出することにより,特徴領域が配置されるべき適当な画像フレームの所定位置を算出している。かかる構成により,撮像装置により撮影された画像フレーム内の所定位置に特徴領域が配置された映像データを,送信先の他の映像配信ユニットに常に配信することにより,他の映像配信ユニットの出力装置にも上記画像フレーム内の所定位置と,ほぼ同一位置に特徴領域が表示され,常に特徴領域を把握することが可能となり,円滑なコミュニケーションが図れる。なお,本発明にかかる所定位置は,例えば,画像フレームにおける中心部などが例示され,本発明にかかる特徴領域検出部は,例えば,本実施の形態にかかる顔検出ブロックなどが例示される。
【0032】
対象体にかかる特徴領域は,少なくとも話者にかかる顔領域であるように構成することができる。かかる構成により,特徴領域を話者の顔領域にすることにより,発言内容の理解を助長することが可能となり,対象体相互間の円滑なコミュニケーションが図れる。なお,本発明にかかる対象体は,本実施の形態にかかる使用者などが例示される。
【0033】
撮影制御部は,少なくともパン,チルト,もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成するように構成することができる。かかる構成により,撮像装置のカメラのパン,チルト,もしくはズームを調整する制御パラメータを生成することにより,撮像装置の撮影を制御し,特徴領域を追尾撮影することが可能となる。
【0034】
特徴領域情報データは,少なくともフレーム又はフィールド内における特徴領域の面積データ,特徴領域の位置データ,および特徴領域の信頼度データが含まれるように構成することができる。かかる構成により,特徴領域の位置,面積として特徴領域の大きさ,および特徴領域であることの確からしさとして信頼度を把握することが可能となり,より精度の高い特徴領域を,的確に検出することができる。
【0035】
特徴領域情報データは,少なくとも顔領域にかかる顔領域情報データであるように構成してもよい。かかる構成により,より精度の高い話者などの顔領域を,的確に検出することができる。
【0036】
音源情報データは,少なくとも音源の位置データ,音源の検出時間データ,もしくは音源の音量データのうちいずれか一つ,または任意の組み合わせを含むように構成することができる。かかる構成により,音源を発する話者などの対象体の位置,例えば5秒以上検出されたら話者などの音源として判断する,または例えば所定音量以下の場合は音源として判断しないなど,音源を的確に検出することが可能となる。
【0037】
撮影制御部は,特徴領域情報データが生成された場合,少なくとも1つ前のフレームにて生成された又はフィールドの特徴領域情報データに基づき,当該映像データの特徴領域情報データを補正するように構成することができる。かかる構成により,1の画像フレーム内に複数の特徴領域が検出された場合など,少なくとも1フレーム前の画像フレーム(前フレーム)で検出された特徴領域情報データと,生成された特徴領域情報データとを比較判断し,過去に追尾撮影された,より適切な顔領域が選択され得る特徴領域情報データに補正することができる。
【0038】
撮影制御部は,特徴領域情報データのうち面積データおよび位置データと,映像データの少なくとも1つ前後するフレームで生成された特徴領域情報データの面積データおよび位置データとを,それぞれ比較し,所定の閾値を超えた場合,撮影処理の制御をするように構成することができる。かかる構成により,不必要なまでの特徴領域の追尾撮影を防ぐことが可能となり,視認性の高い映像データを配信できる。なお,本発明にかかるフレームは,かかる例に限定されず,例えば,フィールド,または複数のフレームから構成されるシーンなどでもよい。
【0039】
撮影制御部は,特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方と,少なくとも1つ前のフレームの前後にかかる特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方とを比較し,所定の閾値を超えた場合,制御パラメータを生成するように構成してもよい。かかる構成により,所定の閾値を超えた場合のみ,制御パラメータが生成されることで,対象体の特徴領域が必要以上に追尾撮影される場合など,不自然な撮像装置の撮影処理を防ぐことが可能となる。なお,本発明にかかるフレームは,かかる例に限定されず,例えば,フィールド,または複数のフレームから構成されるシーンなどでもよい。
【0040】
特徴検出部は,撮像装置により生成された全方位からの映像データに基づき,全方位特徴領域情報データを生成するように構成することができる。かかる構成により,撮像装置周辺に存在する特徴領域の全体の位置,各特徴領域の大きさ,各特徴領域の信頼度を把握することが可能となり,撮像装置により上記存在する特徴領域全体を画像フレーム内に収まるよう撮影することができ,全体像が撮影された映像データを配信できる。
【0041】
音源検出部は,少なくとも第一の所定時間,略同一位置から一の音源を検出した場合,一の音源を対象体の音源と判断するように構成することができる。かかる構成により,第一の所定時間,継続して同位置で発生した音声データを音源とみなすことにより,撮像装置による過度に不自然な撮影処理を防げる。
【0042】
音源検出部は,少なくとも第一の所定時間,一の音源とは別の略同一位置から他の音源を検出した場合,対象体の音源として一の音源から他の音源に変更するように構成することができる。かかる構成により,第一の所定時間,継続して略同一位置で検出された音声データが音源と一旦は判断されて,さらに別の位置で上記第一の所定時間,継続して別の略同一位置で音声データが検出された場合は,新たに音源として判断する。したがって,一の音源の発生が終了し,他の音源の発生が開始されても,撮像装置は一の特徴領域を有する対象体の音源から上記他の特徴領域を有する対象体の音源に追尾することが可能となる。
【0043】
第一の所定時間は,略5秒であるように構成することができる。なお,本発明の第一の所定時間は,かかる例に限定されない。
【0044】
撮影制御部は,少なくとも第二の所定時間,対象体の音源として一の音源から他の音源に,所定回数続けて変更された場合,全方位特徴領域情報データに基づき,撮影処理を制御するように構成することができる。かかる構成により,第二の所定時間の間,所定回数続けて音源の変更がされ,音源として固定されない場合,1又は2以上存在する対象体の全体が画像フレームに収まるように,撮像装置により撮影される。したがって,対象体の全体を視認することが容易となり,発生する音源を把握できる。
【0045】
第二の所定時間は,略10秒であるように構成することができる。なお,本発明の第一の所定時間は,かかる例に限定されない。
【0046】
撮影制御部は,一の音源から他の音源に変更された場合,新たに生成された音源情報データに基づき,制御パラメータを生成するように構成することができる。かかる構成により,一の対象体から発する音源が終了し,他の対象体からの音源の発生が開始されても,撮像装置は音源の位置に基づき一の対象体から上記他の対象体に追尾撮影し,さらに上記他の対象体に含まれる特徴領域を検出し,上記特徴領域が画像フレームの所定位置に配置されるよう撮像装置の撮影を制御することができる。したがって,映像の認識を助長する特徴領域が常に,出力装置の画面上の目に留まる位置に映し出される。
【0047】
特性情報データは,予め生成されるように構成することができる。かかる構成により,撮像装置の特性として撮影におけるカメラのパン,チルト,またはズームが予め把握でき,撮影された対象体の大きさ又は位置に応じて,画像フレームにおける所定位置および所定大きさに収めるための制御パラメータを生成することができる。
【0048】
エンコーダ部は,少なくともH.263又はMPEG−4の圧縮符号化方式により,映像データを圧縮符号化するように構成することができる。かかる構成により,低ビットレートのネットワークにおいても,映像データを容易に伝送することができる。
【0049】
映像通信装置は,映像データを伝送データに圧縮符号化するエンコーダ部をさらに備えるように構成してもよく,伝送データを映像データに伸長するデコーダ部をさらに備えるように構成してもよい。
【0050】
音源検出部は,少なくとも2又は3台のマイクロフォンにより生成された音声データを受信するように構成してもよい。なお,本発明にかかるマイクロフォンは,例えば,本実施の形態にかかるマイク部などが例示される。
【0051】
さらに,上記課題を解決するための本発明の別の観点によれば,ネットワークに接続され,少なくとも画像データもしくは音声データのうちいずれか一方,または双方からなる映像データの生成および表示可能な1又は2以上の映像配信ユニットに備わる映像通信装置の撮影処理制御方法が提供される。この映像通信装置の撮影処理制御方法における映像通信装置は,音声データから対象体の発する音源を検出し;検出された音源に基づき,音源情報データを生成し;画像データから対象体にかかる特徴領域を検出し;検出された特徴領域に基づき,特徴領域情報データを生成し;少なくとも音源情報データもしくは特徴領域情報データのうちいずれか一方または双方と,撮像装置の特性情報データとに基づき,撮影処理を制御することを特徴としている。
【0052】
対象体にかかる特徴領域は,少なくとも話者にかかる顔領域であるように構成してもよい。
【0053】
また,映像通信装置は,少なくともパン,チルト,もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成するように構成することができる。
【0054】
特徴領域情報データは,少なくともフレーム又はフィールド内における特徴領域の面積データ,特徴領域の位置データ,および前記特徴領域の信頼度データが含まれるように構成してもよく,さらに少なくとも顔領域にかかる顔領域情報データであるように構成してもよい。
【0055】
音源情報データは,少なくとも音源の位置データ,音源の検出時間データ,もしくは音源の音量データのうちいずれか一つ,または任意の組み合わせを含むように構成してもよい。
【0056】
映像通信装置は,特徴領域情報データが生成された場合,少なくとも1つ前のフレーム又はフィールドにて生成された特徴領域情報データに基づき,当該映像データの特徴領域情報データを補正するように構成してもよい。
【0057】
映像通信装置は,特徴領域情報データのうち面積データおよび位置データと,映像データの少なくとも1つ前後するフレームで生成された特徴領域情報データの面積データおよび位置データとをそれぞれ比較し,所定の閾値を超えた場合,撮影処理の制御をするように構成してもよい。
【0058】
映像通信装置は,特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方と,少なくとも1つ前のフレームの前後にかかる特徴領域情報データのうち少なくとも面積データもしくは位置データのうちいずれか一方または双方とを比較し,所定の閾値を超えた場合,制御パラメータを生成するように構成してもよい。なお,本発明にかかるフレームは,かかる例に限定されず,例えば,フィールド,または複数のフレームから構成されるシーンなどでもよい。
【0059】
映像通信装置は,撮像装置により生成された全方位からの映像データに基づき,全方位特徴領域情報データを生成するように構成してもよい。かかる構成により,予め,例えば会議室全体などの全方位を撮影することにより,顔領域などの特徴領域の存在位置を把握し,会議室全体の映像を画像フレームに収めることにより出力装置に表示することができる。
【0060】
映像通信装置は,少なくとも第一の所定時間,略同一位置から一の音源を検出した場合,一の音源を前記対象体の音源と判断するように構成してもよく,少なくとも第一の所定時間,一の音源とは別の略同一位置から他の音源を検出した場合,対象体の音源として一の音源から他の音源に変更するように構成してもよい。
【0061】
第一の所定時間は,略5秒であるように構成することができるが,かかる例に限定されない。
【0062】
映像通信装置は,少なくとも第二の所定時間,対象体の音源として一の音源から他の音源に,所定回数続けて変更された場合,全方位特徴領域情報データに基づき,撮影処理を制御するように構成してもよい。
【0063】
第二の所定時間は,略10秒であるように構成することができるが,かかる例に限定されない。
【0064】
映像通信装置は,前記一の音源から前記他の音源に変更された場合,新たに生成された前記音源情報データに基づき,前記制御パラメータを生成するように構成してもよい。
【0065】
特性情報データは,予め生成されるように構成してもよく,映像通信装置は,少なくともH.263又はMPEG−4の圧縮符号化方式により,映像データを圧縮符号化するように構成してもよい。
【0066】
【発明の実施の形態】
以下,本発明の好適な実施の形態について,添付図面を参照しながら詳細に説明する。なお,以下の説明及び添付図面において,略同一の機能及び構成を有する構成要素については,同一符号を付することにより,重複説明を省略する。
【0067】
(1. システム構成)
まず,図1を参照しながら,本実施の形態にかかる双方向コミュニケーションシステムについて説明する。図1は,本実施の形態にかかる双方向コミュニケーションシステムの概略的な構成を示すブロック図である。
【0068】
図1に示すように,双方向コミュニケーションシステムは,1又は2以上の映像配信ユニット101(101a,101b,…,101n)がネットワーク105に接続されている。
【0069】
上記映像配信ユニット101(101a,101b,…,101n)により,使用者106(106a,106b,…,106n)は,ネットワーク105を介して,お互いの画像又は音声をやりとりすることで例えばテレビ会議システムなどのサービスを受けることができる。
【0070】
映像配信ユニット101(101a,101b,…,101n)は,ビデオカメラなどの撮像装置102(102a,102b,…,102n)と,マイクロフォンなどから構成される音源受信装置107(107a,107b,…,107n)と,上記撮像装置102の撮影により生成された画像データ又は音源受信装置107から送出された音声データからなる映像データを,ネットワーク105を介して送受信する映像通信装置104(104a,104b,…,104n)と,上記映像データを表示する出力装置103(103a,103b,…,103n)とが備えられている。なお,本実施の形態にかかる映像データは,少なくとも音声データ又は画像データのうちいずれか一方又は双方からなる。
【0071】
撮像装置102は,画像データを生成可能なビデオカメラであり,例えば,テレビ会議,監視・モニタリングなどに適用される低ビットレート通信用のビデオカメラであるが,かかる例に限定されず,本実施の形態にかかる撮像装置102は,放送用のニュース番組の取材や,スポーツなどの試合の模様などを撮影するカムコーダなどの場合であっても実施可能である。
【0072】
音源受信装置107は,音源から発せられる例えば風の音や人の声などの音声データを生成する装置であり,例えばマイクロフォンなどが例示される。さらに音源受信装置107は,複数のマイクロフォンを配列したマイクアレーで構成されるのが好ましく,その場合は後述のように音声方向検出が可能になる。
【0073】
出力装置103は,映像データを表示することが可能な例えば,TV装置又は液晶ディスプレイ装置などが例示され,さらにスピーカを備えることにより,音声および画像を出力することが可能な装置である。
【0074】
映像通信装置104は,上記音源受信装置107から送出される音声データまたは上記撮像装置102から送出される画像データから,音源情報データまたは特徴領域として顔領域にかかる顔領域情報データを生成し,上記音源情報データ又は顔領域情報データ,さらには上記撮像装置102の特性情報データに基づき,1又は2以上の使用者106から話者を識別し,上記話者の顔領域を追尾するため撮像装置102の撮影処理を制御する。なお,本実施の形態にかかる特徴領域は顔領域である場合を例に説明するが,かかる例に限定されず,例えば,使用者106が常備している社員証,駐車場などに駐車された乗用車や自動二輪車などのナンバープレートの場合などであってもよい。なお本実施の形態にかかる特性情報データについては後程詳述する。また後程詳述するが,上記顔領域については,以下,図12等に示す顔領域1201とほぼ同様な構成である。
【0075】
映像通信装置104は,制御パラメータを生成することにより,上記撮像装置102の撮影処理にかかるカメラのPTZを制御している。なおPTZとは,パン(Pan),チルト(Tilt),およびズーム(Zoom)のことを示すが,詳細については後程説明する。
【0076】
さらに映像通信装置104は,制御パラメータにより制御された撮像装置102により送出された映像データを圧縮符号化し,上記圧縮符号化された伝送データを,ネットワーク105を介して送信する。またネットワーク105を介して送出されてくる伝送データを受信し,上記伝送データを伸長する。上記伸長された映像データは,出力装置103に送信される。なお,本実施の形態にかかる顔領域に基づく圧縮符号化は,少なくともH.263,またはMPEG−4に基づき行われる。
【0077】
次に,本システムの典型的な動作例について説明する。
【0078】
ある使用者106との間で,例えば,使用者106aと使用者106bとの間で,テレビ会議をする場合,まず映像配信ユニット101bに備わる撮像装置102bにより,撮影される対象体としての使用者106bの画像データが生成され,音源が使用者106bである音声データが音源受信装置107により生成される。
【0079】
まず初めに上記使用者106bの画像データを生成する場合,予め撮像装置102bにより全方位(例えば,会議室全体など)の撮影による画像データから生成された全使用者106bの顔領域の存在位置が把握可能な全方位顔領域情報データに基づき,参加された使用者106bの全体が収まるような画像データが生成される。
【0080】
なお上記使用者106bが複数により全体が出力装置103bの画面上に収まりきれない場合は,使用者106bの複数ある顔領域が最大となるように出力装置103bの画面に収められる。本実施の形態にかかる全方位顔領域情報データは,特徴を有する領域であれば,かかる例に限定されない。全方位顔領域情報データについては後程詳述する。
【0081】
生成された音声データまたは画像データからなる映像データは,逐次,映像通信装置104bにより圧縮符号化され,ネットワーク105を介して映像配信ユニット101aに送信される。
【0082】
つぎに映像通信装置106bは,使用者106bのうちから話者を識別し,使用者106bのうち話者の顔領域が出力装置103の画面の所定位置に表示されるように,撮像装置102bのPTZなどの撮影処理を制御パラメータにより制御する。なお,本実施の形態にかかる話者の識別および制御パラメータによる撮像装置102の撮影制御は後程詳述する。
【0083】
したがって映像配信ユニット101aに備わる出力装置103aは,ネットワーク105を介して送出される使用者106bの話者の顔領域が所定位置に撮影された映像データを表示する。なお本実施の形態にかかる所定位置は,出力装置103の画面の略中心を指すが,かかる例に限定されず,他のいかなる位置である場合であったとしても実施可能である。
【0084】
また映像配信ユニット101aに備わる撮像装置102aにより生成される映像データに関しても,上記映像配信ユニット101bに備わる撮像装置102bにより,使用者106bの話者の顔領域が所定位置に映るように映像データが生成される場合と同様である。
【0085】
したがって,映像配信ユニット101bにも,ネットワーク105を介して映像配信ユニット101aから使用者106aの話者の顔領域が所定位置に撮影された映像データが送出される。
【0086】
映像配信ユニット101aと映像配信ユニット101bとの間で,発言をする話者を捉えた映像データを,遠隔地であってもネットワーク105を介して映像データを送受信することで,お互いの使用者106aと使用者106bとの間で円滑なコミュニケーションを図ることができる。
【0087】
なお,本実施の形態にかかる映像配信ユニット101には,撮像装置102,出力装置103,および映像通信装置104とがそれぞれ備わっている場合を例にあげて説明したが,かかる例に限定されず,例えば,1の映像配信ユニット101には,撮像装置102及び映像通信装置104を備え,他の映像配信ユニット101には,映像通信装置104及び出力装置103を備える場合であっても実施可能である。この場合,例えば,1の映像配信ユニット101に属す使用者106である話者により例えば商品の説明などプレゼンテーションが実施される場合,他の映像配信ユニット101に属す使用者106は,上記話者が出力装置103の所定位置に表示されるためコミュニケーションが促進され上記商品などの理解を深めることが可能である。
【0088】
(2 双方向コミュニケーションシステムの各コンポーネントの構成)
次に,本実施の形態にかかる双方向コミュニケーションシステムの各コンポーネントの構成について説明する。
【0089】
(2.1 ネットワーク105)
ネットワーク105は,映像配信ユニット101(101a,101b,…,101n)に備わる映像通信装置104(104a,104b,…,104n)を相互に双方向通信可能に接続するものであり,典型的にはインターネットなどの公衆回線網であるが,WAN,LAN,IP−VPNなどの閉鎖回線網も含む。また接続媒体は,FDDI(Fiber Distributed DataInterface)などによる光ファイバケーブル,Ethernet(登録商標)による同軸ケーブル又はツイストペアケーブル,もしくはIEEE802.11bなど,有線無線を問わず,衛星通信網なども含む。なお本実施の形態にかかるネットワーク105は,かかる例に限定されず,単方向のみ通信可能な場合であっても実施可能である。
【0090】
(2.2 映像配信ユニット101)
映像配信ユニット101(101a,101b,…,101n)は,撮像装置102(102a,102b,…,102n),音声データを生成する音源受信装置107(107a,107b,…,107n),上記撮像装置102または音源受信装置107により生成されてなる映像データを送受信する映像通信装置104(104a,104b,…,104n),もしくは映像データを表示する出力装置103(103a,103b,…,103n)のうちいずれか一つ又は任意の組み合わせとが備えられている。
【0091】
(2.2.1 撮像装置102)
図1に示す撮像装置102は,少なくとも1又は2以上の撮像素子(撮像デバイス)が備わる撮像部(図示せず。)と,映像通信装置104に画像入力信号として画像データを出力する出力部(図示せず。)とを備えている。
【0092】
上記撮像素子は,受光面に2次元的に設けられた光電変換素子からなる複数の画素により,被写体から受光した光学像を光電変換して画像データとして出力することが可能である。例えば,撮像素子は,多種からなるCCDなどの固体撮像デバイスが挙げられる。
【0093】
出力部は,撮像部により生成された画像データを,映像通信装置104に画像入力信号として出力する。
【0094】
なお,本実施の形態にかかる撮像装置102に備わる出力部は,画像データを映像通信装置104にアナログデータとして出力するが,かかる例に限定されず,A/D変換部(A/Dコンバータ)を備えることにより,ディジタルデータとして出力する場合であっても実施可能である。
【0095】
(2.2.2 音源受信装置107)
次に,図1及び図2を参照しながら,本実施の形態にかかる音源受信装置107について説明する。図2は,本実施の形態にかかる音源受信装置の概略的な構成を示す説明図である。
【0096】
図2に示すように,音源受信装置107は,X地点,Y地点,Z地点のそれぞれに,例えば無指向性マイクロフォンなどの複数のマイク部108(108a,108b,108c)を配列したマイクアレーで構成されており,マイク部108は所定高さを有する。なお,各マイク部108(108a,108b,108c)は平面上,垂直に設置されている。上記マイク部108(108a,108b,108c)は,各マイク部108(108a,108b,108c)を頂点とし,1辺を10cmとする正三角形の形状となるように備えられており,撮影の対象体となる話者からの音声がそれぞれのマイク部108(108a,108b,108c)に到達されることとなる。
【0097】
音源受信装置107に備えられるマイク部108(108a,108b,108c)は,図1に示すように映像通信装置104に接続されおり,マイク部108(108a,108b,108c)に音声が入力されることにより生成される音声データを上記映像通信装置104に送出している。
【0098】
上記マイク部108(108a,108b,108c)に,例えば音源である話者からの音声が到達する際,マイク部108a,マイク部108b,マイク部108cのそれぞれに音声が到達する時間等を検出し,各マイク部108(108a,108b,108c)間の時間差等を検出することにより音源の位置などを把握することが可能となる。なお,音源検出については,後程詳述する。
【0099】
なお,本実施の形態にかかるマイク部108(108a,108b,108c)が備えられている位置は,正三角形状である場合を例に挙げて説明したが,かかる例に限定されない。基本的にマイク部108(108a,108b,108c)の設定位置は,設定間隔が広い方が時間差の精度が得られ,狭い方が近接音源の検出誤差が小さいという特徴がある。
【0100】
(2.2.3 出力装置103)
出力装置103は,図3に示すように,変換部209によりD/A(ディジタル/アナログ)変換された映像データを表示する。また,出力装置103は,上記説明の通り,例えば,TV装置又は液晶ディスプレイ装置などが例示され,音声又は画像を出力することが可能な装置である。
【0101】
なお,本実施の形態にかかる出力装置103は,D/A変換された映像データを表示する場合を例に挙げて説明したが,かかる例に限定されず,例えば,D/A変換せずに,ディジタルデータのまま映像データを表示する場合でも実施可能である。
【0102】
(2.2.4 映像通信装置104)
次に,図3を参照しながら,本実施の形態にかかる映像通信装置104について説明する。図3は,本実施の形態にかかる映像通信装置の概略的な構成を示すブロック図である。
【0103】
図3に示すように,映像通信装置104は,撮像装置102により送出された画像データをA/D変換する変換部201と,ディジタル化された画像データを一時的に記憶保持するメモリ部202と,画像データから顔領域を検出し,顔領域情報データを生成する顔検出ブロック203と,音源受信装置107から送出される音声データから音源を検出し,音源情報データを生成する音源検出部204と,上記顔領域情報データ及び/又は上記音源情報データと,上記撮像装置102の特性情報データとから制御パラメータを生成する撮影制御部205と,画像データおよび音声データとからなる映像データを圧縮符号化するエンコーダ部206と,上記伝送データを送受信する通信部207と,通信部207により受信された伝送データを伸長するデコーダ部208と,上記でコーダ部208から送出される映像データをD/A変換し,出力装置103に送出する変換部209とを備える。なお,上記顔検出ブロック203,音源検出部204,特性情報データ,および撮像制御部205の制御パラメータの生成については,後程詳述する。
【0104】
(2.2.5 音源検出部204)
次に,図4を参照しながら,本実施の形態にかかる音源検出部204について説明する。図4は,本実施の形態にかかる音源検出部の概略的な構成を示すブロック図である。
【0105】
図4に示すように,音源検出部204は,音源受信装置107に備わる各マイク部108(108a,108b,108c)から送出されてくる音声データをA/D変換する変換部401(401a,401b,401c)と,水平方向に対する時間差を検出する水平時間差検出部403と,検出された水平方向の時間差に基づき,水平方向の角度を算出する水平角度算出器405と,垂直方向に対する時間差を検出する垂直時間差検出部407と,検出された垂直方向の時間差に基づき,垂直方向の角度を算出する垂直角度算出器408と,少なくとも算出された垂直方向及び水平方向の角度等に基づき音源情報データを生成する音源情報送出部409とを備えている。
【0106】
変換部401は,図4に示すように,各マイク部108(108a,108b,108c)から送出されてくる音声データをA/D変換し,上記水平時間差検出器403及び垂直時間差検出器407にそれぞれ送出するとともに,各マイク部108(108a,108b,108c)から送出される音声データは,まとめて映像通信装置104に備わるエンコーダ部206に送出される。
【0107】
水平時間差検出器405は,変換部401a及び変換部401bから入力される音声データに基づき,例えば入力される音声データのピークポイントを抽出するピーク抽出処理,ロバスト性を確保可能な変動閾値等を用いる立ち上がり検出処理,および上記検出処理により検出された結果に基づき時間差を求める時間差検出処理等を経ることにより水平方向に対する時間差を検出する。水平方向に対する時間差は,3次元空間のうち水平方向の平面にかかる時間差である。なお,本実施の形態にかかる水平時間差検出器405は,水平方向に対する時間差の他に,例えば,水平方向の音声データの検出時間,音量などを検出することも実施可能である。
【0108】
垂直時間差検出器407は,変換部401b及び変換部401cから入力される音声データに基づき,上記説明の水平時間差検出器405とほぼ同様に,入力される音声データのピークポイントを抽出するピーク抽出処理,ロバスト性を確保可能な変動閾値等を用いる立ち上がり検出処理,および上記検出処理により検出された結果に基づき時間差を求める時間差検出処理等を実行することにより垂直方向に対する時間差を検出する。垂直方向に対する時間差は,3次元空間のうち垂直方向の平面にかかる時間差である。なお,本実施の形態にかかる垂直時間差検出器407は,垂直方向に対する時間差の他に,例えば,垂直方向の音声データの検出時間,音量なども検出することが実施可能である。
【0109】
水平角度算出器405及び垂直角度算出器408は,上記水平時間差検出器405及び上記垂直時間差検出器407により検出された水平方向の時間差と垂直方向の時間差とに基づき,それぞれ水平方向及び垂直方向に対する角度を算出する。上記角度の算出は,時間差と角度情報とが対応付けられたテーブル(図示せず。)を予め生成しておくことにより算出される。
【0110】
音源情報送出部409は,上記水平角度算出器405及び垂直角度算出器408により算出された水平方向及び垂直方向に対する角度から,音源受信装置107により受信された音源の方向推定を行うことにより,音源の位置を検出することが可能となる。
【0111】
また音源情報送出部409は,音源の位置を検出し,上記水平時間差検出器403及び垂直時間差検出器407において検出された水平/垂直方向の音声データの検出時間,音量に基づき,音源情報データを生成する。
【0112】
上記音源情報データは,検出された音源の位置を示す位置データ,音源の検出時間を示す検出時間データ,または音源の音量を示す音量データのうち少なくとも一方または任意の組み合わせから構成されている。
【0113】
生成された音源情報データが,音源情報送出部409により映像通信装置104に備わる撮影制御部205に送出されることにより,撮影制御部205は制御パラメータを生成し,音源である話者の存在位置に撮影対象を向けるため撮像装置102のPTZを制御することができる。なお撮影制御部205による制御パラメータの生成については後程詳述する。
【0114】
なお,本実施の形態にかかる検出された音源に基づき音源情報データが生成されるタイミングは,例えば音源検出部204に入力される音声データの検出時間(上記音源の検出時間。)が5秒を超えた場合,つまり音源として話者から発せられる音声が5秒を超えた場合,音源情報送出部409は音源情報データを生成するが,かかる例に限定されない。
【0115】
(2.2.6 顔検出ブロック203)
次に,図3を参照しながら,メモリ部202に記憶された画像データに含まれる顔領域を検出する顔検出ブロック203及び顔領域検出処理について説明する。
【0116】
顔検出ブロック203は,メモリ部202に記憶された画像データをフレーム単位に,画像データから人間の顔画像である顔領域を検出する。したがって,顔検出ブロック203には,複数の工程により上記顔領域を検出するために,各部がそれぞれ備わっている。
【0117】
なお,本実施の形態にかかる顔検出ブロック203は,人間の顔領域を検出する場合を例に挙げて説明したが,画像データのうち特徴的な領域を有する場合であれば,かかる例に限定されず,例えば,乗用車のナンバープレート,時計,またはパソコンなどの画像領域を検出する場合であっても実施可能である。
【0118】
顔検出ブロック203は,図3に示すように,リサイズ部230と,ウィンドウ切出部231と,テンプレートマッチング部232と,前処理部233と,SVM(サポートベクタマシン;Support Vector Machine)識別部234と,結果判定部235とが備わる。
【0119】
リサイズ部230は,撮像装置102により生成された映像データを,メモリ部202からフレーム単位に読み出して,当該フレーム単位に読み出された映像データ(以下,フレーム画像)を縮小率が相異なる複数のスケール画像に変換する。
【0120】
例えば,本実施の形態にかかるフレーム画像が,NTSC方式(National Television System Committee方式)の704×480画素(横×縦)からなる場合,0.8倍ずつ順次縮小して5段階(1.0倍,0.8倍,0.64倍,0.51倍,0.41倍)のスケール画像に変換する。なお以下,上記複数のスケール画像は,1.0倍のスケール画像を第1のスケール画像とし,順次縮小するごとに,第2〜第5のスケール画像とする。
【0121】
ウィンドウ切出部231は,まず第1のスケール画像に対して,画像左上を起点として順にフレーム画像の右下まで,例えば2画素ずつなど,適当な画素ずつ右側又は下側にずらしながらスキャンするようにして,20×20画素の矩形領域(以下,ウィンドウ画像と呼ぶ)を順次切出す。なお,本実施の形態にかかるスケール画像の起点は,画像左上である場合に限らず,例えば画像右上などであっても実施可能である。
【0122】
上記第1のスケール画像から切出された複数のウィンドウ画像は,順次,ウィンドウ切出部231により,後続のテンプレートマッチング部232に送出される。
【0123】
テンプレートマッチング部232は,ウィンドウ切出部231により送出されたウィンドウ画像について,例えば正規化相関法,誤差二乗法などの演算処理を実行してピーク値をもつ関数曲線に変換した後,当該関数曲線に対して認識性能が落ちない程度に十分に低い閾値を設定し,当該閾値を基準として当該ウィンドウ画像の領域が顔領域であるか否かを判断する。
【0124】
上記テンプレートマッチング部232には,予め,例えば100人程度の人間の顔画像の平均から生成される平均的な人間の顔領域をテンプレートデータとして登録されている。
【0125】
ウィンドウ画像の領域が顔領域であるか否かの判断は,上記テンプレートマッチング部232に顔領域のテンプレートデータとして登録することにより,かかる顔領域か否かの判断基準となる閾値が設定され,当該ウィンドウ画像について,テンプレートデータとなる平均的な顔領域との簡単なマッチングをすることにより判断される。
【0126】
テンプレートマッチング部232は,ウィンドウ切出部231により送出されたウィンドウ画像について,テンプレートデータによるマッチング処理を行い,テンプレートデータとマッチングし,顔領域であると判断された場合には,当該ウィンドウ画像をスコア画像(顔領域と判断されたウィンドウ画像。)として後続の前処理部233に送出する。
【0127】
また,上記ウィンドウ画像について,顔領域でないと判断された場合には,当該ウィンドウ画像そのまま結果判定部235に送出する。なお,上記スコア画像には,顔領域と判断された度合いがどの程度確からしいのかを示す信頼度情報が含まれる。例えば,信頼度情報は,スコア値が“00”〜“99”の範囲内の数値を表し,数値が高いほど,より顔領域であることが確からしいことを表す。なお,信頼度情報は,例えば結果判定部235に備わるキャッシュ(図示せず。)などに格納される場合でもよい。
【0128】
上記説明の正規化相関法,誤差二乗法などの演算処理は,後続の前処理部233およびSVM識別部234における演算処理と比較すると,演算処理量が10分の1から100分の1程度で済むとともに,テンプレートマッチング部232によるマッチング処理時点で,80(%)以上の確率で顔領域であるウィンドウ画像を検出することが可能である。つまり,明らかに顔領域でないウィンドウ画像を,この時点で除去することが可能となる。
【0129】
前処理部233は,テンプレートマッチング部232から得られたスコア画像について,矩形領域でなる当該スコア画像から人間の顔領域とは無関係な背景に相当する4隅の領域を抽出するべく,当該4隅の領域を切り取ったマスクを用いて,20×20画素あるスコア画像から360画素分を抽出する。なお本実施の形態にかかるスコア画像は4隅を切り取った360画素分を抽出する場合を例に挙げて説明したが,かかる例に限定されず,例えば,4隅を抽出しない場合であっても実施可能である。
【0130】
さらに前処理部233は,撮像時の照明などにより濃淡で表される被写体の傾き条件を解消するために,例えば平均二乗誤差(RSM:Root Mean Square)などによる算出方法を用いて当該抽出された360画素のスコア画像の濃淡値に補正をかける。
【0131】
続いて,前処理部233は,当該360画素のスコア画像のコントラストが強調された結果のスコア画像を,ヒストグラム平滑化処理を行うことにより,撮像装置102の撮像素子のゲイン又は照明の強弱に左右されないスコア画像を検出させることが可能となる。
【0132】
またさらに,前処理部233は,例えばスコア画像をベクトル変換し,得られたベクトル群をさらに1本のパターンベクトルに変換するため,ガボア・フィルタリング(Gabor Filtering)処理を行う。なお,ガボア・フィルタリングにおけるフィルタの種類は必要に応じて変更可能である。
【0133】
SVM識別部234は,前処理部233からパターンベクトルとして得られたスコア画像に対して顔領域の検出を行う。そして検出された場合,顔領域検出データとして出力する。検出されない場合は,顔領域未検出データとして追加され,さらに学習する。
【0134】
SVM識別部234は,前処理部233により送出されたスコア画像に基づいて生成されたパターンベクトルについて,当該スコア画像内に顔領域が存在するか否かを判断し,顔領域が検出された場合,当該スコア画像における顔領域の左上位置(座標位置),顔領域の面積(縦×横の画素数),顔領域であることの確からしさを表す信頼度情報,当該スコア画像の切出しの元となるスケール画像の縮小率(第1〜第5のスケール画像に該当する縮小率のうちのいずれか一つ。)とからなる顔領域情報を,例えば結果判定部235に備わるキャッシュ(図示せず。)に格納することにより,スコア画像ごとにリスト化する。なお,本実施の形態にかかる顔領域の位置(起点)は,画像左上である場合に限らず,例えば画像右上などであっても実施可能である。
【0135】
SVM識別部234により,例えば,第1のスケール画像のうち最初のウィンドウ画像の顔領域の検出が終了すると,ウィンドウ切出部231により第1のスケール画像の中の次にスキャンされたウィンドウ画像がテンプレートマッチング部232に送出される。
【0136】
次にテンプレートマッチング部232は,当該ウィンドウ画像がテンプレートデータにマッチングした場合のみスコア画像として,前処理部233に送出する。前処理部233は,上記スコア画像をパターンベクトルに変換してSVM識別部234に送出する。SVM識別部234は,パターンベクトルに基づき顔領域を検出した場合,上記スケール画像に関する顔領域情報を生成し,上記結果判定部235に備わるキャッシュに格納する。
【0137】
上記記載のように,第1のスケール画像について,ウィンドウ切出部231により順次スキャンされたウィンドウ画像について,以降後続のテンプレートマッチング部232,前処理部233,及びSVM識別部234による各処理が実行され,当該第1のスケール画像から顔領域が含まれるスコア画像を複数検出することが可能となる。
【0138】
さらに,ウィンドウ切出部231による第1のスケール画像のスキャンが全て終了し,後続のテンプレートマッチング部232,前処理部233,及びSVM識別部234による各処理についても終了すると,第2のスケール画像について,上記説明の第1のスケール画像とほぼ同様に顔領域の検出するための各処理が実行される。第3〜第5のスケール画像についても,第1のスケール画像とほぼ同様にして顔領域の検出処理が実行される。
【0139】
SVM識別部234は,メモリ部202から読み出した映像データであるフレーム画像を5段階の相異なる縮小率から構成される第1〜第5のスケール画像について,顔領域が検出されたスコア画像をそれぞれ複数検出し,その結果,生成される顔領域情報を,上記結果判定部235に備わるキャッシュ(図示せず。)に格納する。なお,本実施の形態にかかるキャッシュは,結果判定部235に備わる場合を例に挙げて説明したが,かかる例に限定されず,例えば,顔検出ブロック203内に単独で備わる場合などであっても実施可能である。さらに,顔領域が検出されずスコア画像が全く得られない場合もあるが,少なくとも1個など,所定の個数だけスコア画像が得られれば,顔検出処理は続行される。
【0140】
上記第1〜第5のスケール画像において顔領域が検出されたスコア画像は,ウィンドウ切出部231におけるスキャンが所定画素(例えば,2画素など。)ずつ移動しながら実行されているため,前後のスコア画像の間では,近傍領域において高い相関性があり,相互に重なり合う領域を有する場合が多い。
【0141】
結果判定部235は,上記重複する領域を除去するため,2つのスコア画像の位置,スコア画像の画素数,および所定の数式に基づき,重複しているか否かを判定する。
【0142】
例えば,上記2つのスコア画像の位置として左上角の位置を,X.Y座標により(XA,YA),(XB,YB)とそれぞれ表し,スコア画像の画素数(縦×横)を,それぞれHA×LA,HB×LB,dX(=XB−XA),dX(=XB−XA)とすると,以下に示す(1)式および(2)の関係が同時に成り立つ場合,2つのスコア画像は重なり合うと判定される。
【0143】
(LA−dX)×(LB+dX)>0・・・・・(1)
【0144】
(HA−dY)×(HB+dY)>0・・・・・(2)
【0145】
結果判定部235は,当該判定結果に基づいて,複数のスコア画像のうち重なり合う領域を除くことにより,重なり合わない最終的な顔領域を取得し,最終的に確定となる顔領域情報を生成し,上記キャッシュに格納されていた顔領域情報を更新する。なお,本実施形態にかかる格納されていた顔領域情報は,確定された顔領域情報に更新される場合を例に挙げて説明したが,かかる場合に限らず,別途新規に確定された顔領域情報を格納する場合であっても実施可能である。
【0146】
重なり合う領域が存在する場合,結果判定部235は,キャッシュ(図示せず。)に格納されたスコア画像に対応する信頼度情報に基づき,信頼度の高い,つまり顔領域である確からしさが高いスコア画像の方の顔領域情報を生成し,上記キャッシュに格納された当該顔領域情報を信頼度の高い顔領域情報に更新する。
【0147】
結果判定部235は,上記顔領域が検出されない場合,キャッシュに格納処理を行わず,さらに重なり合う顔領域が存在しない場合は,顔領域情報の更新は行わない。
【0148】
以上から,顔検出ブロック203は,撮像装置102により撮影された画像データから,信頼性の高い顔領域に対して顔領域情報を生成することが可能となる。したがって,複数の顔領域が検出されても,より確実に,例えば撮影の対象体である使用者106の顔領域を検出することが可能となる。
【0149】
上記生成された顔領域情報データは,図3に示す撮影制御部205に送信されて,少なくとも顔領域情報データ等に基づき,制御パラメータが生成される。なお,撮影制御部205による制御パラメータの生成については後程詳述する。
【0150】
また,本実施の形態にかかる結果判定部235による重複領域の判定処理は,(1)式に定められた場合を例に挙げて説明したが,かかる例に限定されず,他の数式を用いた場合であっても実施可能である。
【0151】
また,本実施の形態にかかるスケール画像をはじめとする画像の位置は,左上隅を基準に表される場合を例に挙げて説明したが,かかる例に限定されず,他の位置を基準とした場合であっても実施可能である。
【0152】
また,本実施の形態にかかる顔領域の検出される画像データは,フレーム単位に読み込まれて,顔領域が検出処理される場合を例に挙げて説明したが,かかる例に限定されず,例えば,フィールド単位又は複数フレームからなるシーンごとに顔領域の検出処理を行う場合などであっても実施可能である。
【0153】
また,本実施の形態にかかるテンプレートマッチング232に登録されるテンプレートデータは,平均的な人間の顔を示す顔領域が登録される場合を例にあげて説明したが,かかる例に限定されず,例えばテンプレートデータとして,乗用車のナンバープレート,時計,またはペットなどの動物の顔の画像領域が登録される場合であっても実施可能である。
【0154】
通信部207は,ネットワーク105と接続され,ネットワーク105を介して圧縮符号化された伝送データを送信,またはネットワーク105を介して,映像配信ユニットから配信される伝送データを受信する。
【0155】
(3. 双方向コミュニケーションシステムの動作)
次に,図5を参照しながら,上記のように構成された双方向コミュニケーションシステムの動作の実施形態について説明する。図5は,本実施の形態にかかる双方向コミュニケーションシステムの動作の概略を示すフローチャートである。
【0156】
まず,図5に示すように,例えばテレビ会議等の双方向コミュニケーションシステムの動作を実施する際に,予め撮像装置102の撮影処理にかかる特性情報データを生成する(S501)。特性情報データは,撮像装置102のPTZ(パン,チルト,ズーム)の特性を示すもので,パン,チルト,またはズームの各パラメータによりどの程度,撮像装置102のカメラ動作が行われるか示すデータである。以下,上記特性情報データについて説明する。
【0157】
(3.1 特性情報データ)
図6を参照しながら,本実施の形態にかかる特性情報データについて説明する。図6は,本実施の形態にかかる特性情報データを生成するために用いられるプレートの概略を示す説明図である。
【0158】
図6に示すように,撮像装置102の特性情報データを調べるために,白領域と黒領域とを格子状に有するプレート601が使用される。上記プレート601の実際の大きさは,撮影される対象体に応じて変更されることが好ましい。例えば,対象体が話者の顔である場合,プレート601の縦×横が,略30cm×30cmの大きさのプレート601を用いる。なお,本実施の形態にかかるプレート601は,かかる例に限定されず,例えばプレート601の縦×横が,10cm×40cmなどである場合でも実施可能である。
【0159】
したがって,上記略30cm×30cmの大きさのプレート601の場合,白領域及び黒領域の大きさはともに,略5cm×5cmの大きさとなる。このことから各白領域又は黒領域に対応する,例えば話者の顔領域の細部(鼻,目など。)をマーキングすることが可能となり,PTZの制御をする際に,話者の顔領域を追従することが容易となる。
【0160】
上記プレート601を,図7に示すように,まずA地点に所定距離だけ撮像装置102から離して設置し,A地点におけるプレート601を撮像装置102によりパン,チルト,およびズームの値を変化させて,それぞれ値を変化させて撮影された画像フレームに写るプレート601がどのように変化するかを記録する。
【0161】
ここで,図8を参照しながらズーム値を変化させた場合を例に挙げて説明すると,図8(a)では,画像フレーム801内にプレート601が非常に小さく収まっているが,この時の,プレート601が画像フレーム801全体に占める大きさ,またはその時のズーム値等を記録する。なお本実施の形態にかかる大きさの単位は,画素であるが,かかる例に限定されない。
【0162】
図8(b)でも,上記図8(a)と同様に,プレート601が画像フレーム801全体に占める大きさ,各白領域/黒領域が画像フレーム801全体に占める大きさ,またはその時のズーム値等を記録する。図8(c)においても,プレート601が画像フレーム801全体に占める大きさ,各白領域/黒領域が画像フレーム801全体に占める大きさ,またはその時のズーム値等を記録する。図8(c)では,プレート601と画像フレーム801が同程度の大きさであるから,プレート601の大きさが例えば30cm×30cmの場合,図8(c)におけるズーム値を設定することにより,画像フレーム一杯に収まる画像データを撮影することができる。
【0163】
図8(d)及び図8(e)の場合においても,上記とほぼ同様に,プレート601が画像フレーム801全体に占める大きさ,各白領域/黒領域が画像フレーム801全体に占める大きさ,またはその時のズーム値等を記録する。なお,図8(d)の場合では,プレート601全体が画像フレーム801に収まりきれず,一部の黒領域又は白領域が収まっている。図8(e)については,プレート601の中心部である1の黒領域が画像フレーム801一杯に収まっている。
【0164】
上記プレート601の大きさ又は各白領域/黒領域の大きさと,その時のズーム値とをテーブル化して記録することにより,撮像装置102のズームにおける特性情報データが生成される。
【0165】
上記プレート601は,撮像装置102から所定距離だけ離れたA地点に設置された場合のズーム値の変化についてテーブル化したが,さらに,所定距離を変化させ,各所定距離についてズーム値の変化についてプレート601の大きさ又は各白領域/黒領域の大きさと,その時のズーム値とをテーブル化して記録することにより,さまざまな距離から撮像装置102の撮影処理の制御が対応できる。
【0166】
また,ズーム値の変化だけでなく,パン値及びチルト値の変化についても図7に示すように,例えば,A地点からB地点にプレート601を水平移動させた場合は,画像フレームの中心に撮影されたA地点の矢印方向の黒領域について,B地点でのプレート601にある上記黒領域が画像フレームの中心に撮影されるまでのパン値の変化を記録することで,A地点からB地点までの移動距離と,その時のパン値とをテーブル化して記録する。さらに,水平移動の距離をさらに変化させて,その時のパン値とをテーブル化して記録することで,撮像装置102のパンにおける特性情報データが生成される。なお,撮像装置102のチルトにおける特性情報データにおいても,パンにおける特性情報データとほぼ同様な構成により生成される。なお生成された特性情報データは,撮影制御部205に備えられたメモリ部(図示せず。)に記録される。
【0167】
ここで,撮像装置102のPTZ(パン,チルト,ズーム)にかかるパラメータについて,図9を参照しながら説明する。図9は,本実施の形態にかかるPTZのパラメータの範囲を示す説明図である。
【0168】
図9に示すように,パン(Pan;P)のパン値の範囲は,16進数表示で,“0XFC90”〜“0X0370”となり,中心(Center)は“0000”である。10進数表示では,“−879”〜“880”となる。
【0169】
チルト(Tilt;T)のチルト値の範囲は,16進数表示で,“0XFE04”〜“0X012C”となり,中心(Center)は“0000”である。10進数表示では,“−507”〜“300”となる。
【0170】
さらに,ズーム(Zoom;Z)のズーム値の範囲は,16進数表示で,“0X0000”(Wide;ワイド)〜“0X03FF”(Tele;テレ)となり,10進数表示では,“0”〜“1023”となる。
【0171】
次に,図5に示すように,上記PTZ(パン,チルト,ズーム)における特性情報データが生成される(S501)と,撮像装置102の開始前処理が行われる(S502)。
【0172】
開始前処理(S502)は,撮像装置102の電源を入れ,もしくはスタンバイモードの場合はそのままの状態から,例えば撮像装置102に備わる撮影開始ボタン(図示せず。)が押下されると,全方位に対する顔領域を検出し,全方位顔領域情報データを生成する。生成された全方位顔領域情報データは,撮影制御部205に備えられたメモリ部(図示せず。)に記録される。
【0173】
全方位顔領域情報データは,例えば打ち合わせが行われる会議室内に参加する全ての使用者106にかかる顔領域の位置データ,面積データ,および信頼度データから構成されている。
【0174】
したがって,全方位顔領域情報データに基づいて,撮像装置102を使用者106全体が画像フレーム内に収まるように撮影させることが可能となる。この際に,画像フレーム内に収まらない場合,顔領域の個数が最大もしくは顔領域の面積が最大になるように画像フレーム内に収めることも実施可能である。
【0175】
図5に示すように,本実施の形態にかかる双方向コミュニケーションシステムにおいて,例えばテレビ会議などにより複数の使用者106が打ち合わせをする場合,打ち合わせされる時間内は絶えず複数の映像配信ユニット101間で,相互に映像データをやりとりし,双方向コミュニケーションシステムの動作が継続される。
【0176】
したがって,会議の打ち合わせが終了(撮像装置102による撮影処理が終了。)するまで,各映像配信ユニット101に備わる映像通信装置104は,撮像装置102の撮影処理を制御する処理(S503)が続行(配信ループ)される。
【0177】
次に,図10を参照しながら,本実施の形態にかかる撮像装置の撮影の制御処理について説明する。図10は,本実施の形態にかかる撮影の制御処理の概略を示すフローチャートである。
【0178】
上記撮像装置102の撮影の制御処理(S503)は,映像通信装置104により行われるが,まず撮像装置102により撮影が開始されると映像通信装置104に備わる撮影制御部205は,予め開始前処理(S502)において記録された全方位顔領域情報データに基づき,画像フレーム内に使用者106全体が収まるように,パン,チルト,およびズーム(以下,PTZ)の値を定め,撮像装置102に対し制御パラメータを送信する。
【0179】
上記制御パラメータには,画像フレーム内に使用者106全体が収まるパン,チルト,およびズーム(以下,PTZ)の値が設定されており,撮像装置102は,上記制御パラメータに基づき,カメラを回動またはズームイン・ズームアウトし,撮影する。したがって,出力装置103の画面上の所定位置には,例えば中心部には,使用者106全体が表示される。
【0180】
図10に示すように,撮影処理が開始され,使用者106のうち話者として発言されると,音源受信装置107から音声データが送出され,音源検出部204により音源検出処理(S1000)されるが,かかる音源検出処理(S1000)により所定時間以上,音源受信装置107により音声データが送出されない場合,映像通信装置104は,スタンバイモードとなり撮影処理が中断される。この際,映像通信装置104は,撮像装置102のカメラを正面に向かせるための制御パラメータを送信してもよい。
【0181】
上記音源検出処理(S1000)は,上記説明した通りであるため詳細な説明は省略するが,本実施の形態にかかる音源検出処理は,話者の発言により生成される音声データが,所定の閾値を超えず,ほぼ同位置から5秒を超えて検出された場合,当該話者を音源と判断し,音源情報データが生成される。したがって,少なくとも1フレーム以上前に生成された音源情報データの音源の位置とは相違する別の位置から5秒以上超えて検出された場合,別の話者に切替わったと判断し,当該別の話者の音源情報データが生成される。
【0182】
さらに,音源検出部204は,別の話者の音源と判断し,音源情報データを生成する回数が,例えば,10秒間に所定回数を超えた場合,音源情報データを生成せずに,撮影制御部205に対して,使用者106全体を画像フレームに収める画面に切替えるための指示データを送信する。なお,本実施の形態にかかる所定回数は,予め任意に設定可能であり,時間の範囲は10秒間に限定されない。なお,生成された音源情報データは,音源検出部204に備わるメモリ部(図示せず)に記憶される。
【0183】
したがって,撮影制御部205は,音源検出部204から上記指示データを受信すると,撮影制御部205に備わるメモリ部(図示せず。)に記録された全方位顔領域情報データに基づき,制御パラメータを生成し,撮像装置102に送信する。
【0184】
なお,本実施の形態にかかる音源は,音声データが同位置から5秒を超えて検出された場合,判断されるが,かかる例に限定されない。例えば,音声データが同位置から10秒を超えて検出された場合であっても実施可能である。
【0185】
音源検出部204は,上記音源情報データが生成されると,当該音源情報データを撮影制御部205に送信する。
【0186】
撮影制御部205は,上記音源情報データを受信すると,撮影制御部205に備えられたメモリ部に記録された少なくとも1フレーム前にて生成された音源情報データを読み込み,受信した音源情報データと比較する。
【0187】
上記受信した音源情報データと少なくとも1フレーム前にて生成された音源情報データとが,ほぼ同位置にて検出された音源であると判断された場合は,制御パラメータを生成せず,後続処理へと続くが,別の音源であった場合,カメラの撮影する対象体を変更させるため,受信した音源情報データのうち音源の位置データ等に基づき,PTZの値を算出し,制御パラメータを生成処理(S1002)をし,撮像装置102に送信する。
【0188】
なお,本実施の形態にかかる撮像制御部205は,上記音源情報データを受信した場合,画像データから生成される顔領域情報データよりも音源情報データに重み付けをおいて制御パラメータを生成しているが,かかる例に限定されない。
【0189】
撮像装置102は,上記制御パラメータを受信すると,制御パラメータに設定されているPTZの値に基づき,カメラのPTZ調整をする。PTZ調整により,話者の発する音源の近傍の画像が画像フレームに収まるよう撮影される。
【0190】
次に,撮像装置102の撮影により話者の発する音源の近傍が映された画像データは,例えば,RS−232CまたはRS−422などを介して,映像通信装置104の変換部201に送出される。
【0191】
変換部201は,上記画像データをA/D変換し,メモリ部202に送出する。画像データが,メモリ部202に送出されると,話者の顔領域を出力装置103の所定位置に表示するため,図3に示すように,顔検出ブロック203により顔領域の検出処理(S1004)が行われる。なお,本実施の形態にかかる顔検出処理は,上記説明したのとほぼ同様の構成であるため省略する。
【0192】
顔検出処理(S1004)は,メモリ部202に送出される画像データのフレーム単位に行われるが,かかる例に限らず,フィールド単位の場合でもよい。また,フレーム単位の映像データであるフレーム画像(ピクチャ)内に顔領域が存在しない,検出されない(S1006)場合は,再度音源検出処理(S1000)から実行される。
【0193】
顔検出処理(S1004)の結果,顔領域が検出された(S1006)場合は,映像通信装置104に備わる結果判定部235のキャッシュに格納された顔領域情報データが撮影制御部205に送信される(S1008)。
【0194】
撮影制御部205は,上記顔領域情報データを受信すると,撮影制御部205内に備わるメモリ部(図示せず。)に格納された少なくとも1フレーム前にて生成されたフレームにかかる顔領域情報データの有無を検索する(S1010)上記顔領域情報データが存在した場合は,顔領域情報データを取得する。なお,検索対象となるフレームは,1フレーム前に限らず,例えば,複数フレーム前,または1フィールド前などであってもよい。
【0195】
上記1フレーム前の画像フレーム(前フレーム)にかかる顔領域情報データが存在している場合(S1010)は,上記受信した画像データのフレーム(現フレーム)の顔領域情報データと,前フレームにかかる顔領域情報データとを比較し,補正処理を行う(S1012)。本実施の形態にかかる前フレームは,画像データの少なくとも1フレーム前の画像フレーム801を示すが,かかる例に限定されず,フレームのほかに,フィールド,または複数フレームから構成されるシーンの場合であってもよい。
【0196】
なお検索結果,該当する顔領域情報データが存在しない場合は,後続処理の顔領域情報データの補正処理(S1012)を行わず,受信した顔領域情報データのうち,顔領域情報データのうちの面積データが最大の顔領域のものが選択されるよう,上記顔領域情報データを補正する。なお,本実施の形態にかかる顔領域データの補正は,かかる例に限定されず,例えば,顔領域情報データのうち信頼度データが最大の顔領域を選択されるよう補正する場合であっても実施可能である。
【0197】
上記補正処理(S1012)は,前フレームおよび現フレームにかかる顔領域情報データの顔領域の面積データ,位置データ,または信頼度データのうち少なくとも一つを比較することにより現フレーム画像にかかる顔領域情報データを補正する。
【0198】
本実施の形態にかかる補正処理(S1012)は,例えば,前フレームにおいて1の顔領域のみ存在し,現フレーム画像において2の顔領域が存在し,現フレームにおいても前フレームで検出された顔領域を選択する場合,現フレームの画像データに含まれる前フレームにかかる顔領域情報データを,選択するため正確に顔領域情報データを判別する必要がある。
【0199】
前フレームおよび現フレーム間の時間差は極めて短く,人間の動作によりフレーム内を移動可能な範囲は極めて限られているため,撮影制御部205は,顔領域情報データの面積データと位置データとに基づき,現フレームにかかる顔領域のうち,前フレームにかかる顔領域の近傍に存在する顔領域の顔領域情報データを選択する。
【0200】
選択された顔領域情報データのうち信頼度データが,現フレームの他の信頼度データまたは前フレームの信頼度データに比べて低い場合,前フレームの信頼度データと同程度もしくは現フレームにかかる他の信頼度データ以上の値に補正する(S1012)。したがって,例えば,信頼度データが最も高い顔領域情報データを選択すれば,前フレームの顔領域を現フレーム画像においても正確に選択することが可能となり,的確な追尾撮影ができる。なお,本実施の形態にかかる補正処理は,かかる例に限定されない。
【0201】
撮影制御部205は,補正された現フレームにかかる顔領域情報データの顔領域の位置データ,面積データ,および予め記録された特性情報データに基づき,撮影の対象体となる話者の顔領域が画像フレーム801に収まるように,PTZの値をそれぞれ算出する(S1014)。
【0202】
PTZの値の算出は,上記説明した通り,上記位置データと,領域の大きさを示す面積データとに対応する各PTZの値(パン値,チルト値,ズーム値)を撮影制御部205のメモリ部(図示せず。)に保有されるテーブル化された特性情報データに基づいて,算出される。
【0203】
さらに,撮影制御部205は,算出された各PTZの値(パン値,チルト値,ズーム値)が,直近に生成された制御パラメータにおける各PTZの値(パン値,チルト値,ズーム値)とを所定の閾値以上異なるか比較する(S1016)。
【0204】
比較した結果,所定の閾値以上異なる場合,撮影制御部205は算出された算出値と,予め記録された特性情報データとに基づき,制御パラメータを生成し,撮像装置102に送信する。なお本実施の形態にかかる閾値は,現フレーム及び前フレームにおける検出された顔領域の位置(座標)と,顔領域の大きさとの差分値から設定される値であるが,かかる例に限定されない。
【0205】
上記所定の閾値を超えるまでの範囲については,制御パラメータを生成せず撮像装置102の撮影制御を実行しない,いわゆる「遊び」を設ける。したがって,上記所定の閾値以上異なる場合に限り,制御パラメータを生成する(制御パラメータの生成条件を設定する。)ことにより,例えば,対象体の必要以上の追尾撮影など,頻繁に,過度に撮像装置102のカメラの動作が制御されず,不自然な撮像装置102の動きを防ぐことが可能となる。
【0206】
ここで,図11を参照しながら,本実施の形態にかかる制御パラメータの生成条件について説明する。図11は,本実施の形態にかかる制御パラメータの生成条件の概略的な構成を示す説明図である。
【0207】
図11に示すように,前フレームにおいて顔領域が検出され,フレーム座標(X,Y)が,(230,160)であり,大きさ“240”の場合に,閾値を前フレームおよび現フレームにおいて検出された値の座標差分閾値を,例えば“(±100,±80)”と,大きさ差分閾値を“(±50)”と設定すると,現フレームにおいて図11に示すような顔領域が検出された場合,撮影制御部205の制御パラメータの生成の有無は以下の通りとなる。
【0208】
現フレームの顔領域の検出値が,図11に示すように,“(X,Y)=(240,210),大きさ「200」”である場合,現フレームと前フレームとの座標差分閾値および大きさ差分閾値は,“(X,Y)=(10,50),大きさ「−40」”と算出される。算出された座標差分閾値および大きさ差分閾値は,設定された座標差分閾値および大きさ差分閾値の範囲内であるため,撮影制御部205により制御パラメータは生成されない。
【0209】
また,図11に示すように,現フレームの顔領域の検出値が,“(X,Y)=(200,180),大きさ「170」”である場合,現フレームと前フレームとの座標差分閾値および大きさ差分閾値は,“(X,Y)=(−30,20),大きさ「−70」”と算出される。ここで両差分閾値のうち,算出された大きさ差分閾値は,設定された大きさ差分閾値の範囲を超えたため,撮影制御部205によりZoom値(ズーム値)を変更するための制御パラメータが生成される。
【0210】
さらに,図11に示すように,現フレームの顔領域の検出値が,“(X,Y)=(350,100),大きさ「300」”である場合,現フレームと前フレームとの座標差分閾値および大きさ差分閾値は,“(X,Y)=(120,−60),大きさ「−60」”と算出される。ここで両差分閾値のうち,算出された座標差分閾値の“X=120”と,算出された大きさ差分閾値の“大きさ「−60」”とが,設定された差分閾値の範囲を超えたため,撮影制御部205により,Pan値(パン値)およびZoom値(ズーム値)を変更するための制御パラメータが生成される。
【0211】
なお,本実施の形態にかかる閾値は,座標差分閾値を,例えば“(±100,±80)”と,大きさ差分閾値を“(±50)”として設定された場合を例に挙げて説明したが,かかる例に限定されず,いかなる値で設定された場合であっても実施可能である。
【0212】
次に,撮影制御部205は,所定の閾値以上異なるか比較(S1016)し,所定の閾値以上異なる場合,算出されたPTZ値(パン値,チルト値,ズーム値)と,特性情報データとに基づき,制御パラメータを生成する(S1018)。
【0213】
なお,本実施の形態にかかる撮像制御部205は,上記顔領域情報データを受信した場合,重点対象として,画像データから生成される顔領域情報データに重み付けをおいて制御パラメータを生成しているが,かかる例に限定されず,例えば,生成された音源情報データと上記顔領域情報データとの位置データの平均値を算出することにより,上記PTZ値を求め,制御パラメータを生成する場合であっても実施可能である。
【0214】
生成された制御パラメータは,撮影制御部205により,撮像装置102に送信する(S1020)。
【0215】
撮像装置102は,受信した制御パラメータに基づき,カメラのPTZ(パン,チルト,ズーム)の調整を実行する。上記PTZの調整により,映像通信装置104は,撮像装置102の撮影の制御処理(S1022)をすることができる。
【0216】
ここで,図12〜図14を参照しながら,本実施の形態にかかる撮影の制御処理について説明する。図12は,本実施の形態にかかる前フレームにおける顔領域の概略的な構成を示す説明図であり,図13は,本実施の形態にかかる現フレームにおける顔領域の概略的な構成を示す説明図であり,図14は,本実施の形態にかかる撮影の制御処理後の現フレームにおける顔領域の概略的な構成を示す説明図である。
【0217】
まず,図12に示すように,画像データの少なくとも1フレーム前のフレーム(前フレーム)の画像フレーム801における顔領域1201の位置(位置座標)は,生成された顔領域情報データの位置データから示されるように,“(X,Y)=(230,160)”であり,顔領域1201の大きさは,上記顔領域情報データの面積データから示されるように“240”である。なお,本実施の形態にかかる画像フレーム801の大きさは,704画素×480画素とする。
【0218】
顔領域1201は,顔検出ブロック203により検出され,図12に示すように,対象体の話者の顔を含む長方形の形状である。なお,本実施の形態にかかる顔領域1201は,かかる例に限定されず,検出対象である顔領域の大きさに応じて変動する。
【0219】
次に,図13に示すように,リアルタイムに撮像装置102により撮影され,映像通信装置104に入力された画像データであるフレーム(現フレーム)の画像フレーム801における顔領域1201の位置は,話者である使用者106の移動などにより,“(X,Y)=(350,100)”であり,顔領域1201の大きさは,“300”となる。
【0220】
現フレームにおける当該顔領域1201の位置および大きさと,上記前フレームにおける顔領域1201の位置および大きさとを比較し,所定の閾値を超えている場合は,撮影制御部205により,各PTZの値を算出し,画像フレーム801の所定位置,例えば中央部に上記顔領域1201を配置するための制御パラメータを生成する。
【0221】
現フレームの顔領域1201では,撮像装置102の追尾撮影が実行されず,画像フレーム801の中心部よりも離れた個所に配置されており,顔領域1201の大きさも画像フレームの大きさの半分近くまで占められていたため,接続先の使用者106は,例えば圧迫感を受けるなど,視認性の低い,コミュニケーションを図り難い映像データが配信されていた。
【0222】
制御パラメータの生成により,顔領域1201の追尾撮影するため,撮像装置102の撮影の制御処理(S1022)が実行されると,図14に示すように,PTZの制御後の画像フレーム801における顔領域1201の位置は,“(X,Y)=(235,150)”であり,顔領域1201の大きさは,“250”となり,図13に示す現フレームの顔領域1201よりも画像フレーム801の中心部に移動し,画像フレーム801に占める顔領域1201の割合が減少した。
【0223】
したがって,図13に示す現フレームの顔領域1201は,視認性の低い映像データとして配信されていたが,撮影の制御処理(S1022)により,図14に示すように,制御後の画像フレーム801における顔領域1201を映像データとして,各映像配信ユニット101に配信することにより,使用者106間のコミュニケーションを活性化し,出力画面の視認性を高めることが可能となる。さらに,映像通信装置104により,自動的に話者の追尾撮影を制御し,話者の判断が困難な場合は,使用者106全体の画像データに切替えることが可能となり,使用者106が自ら操作する負担が軽減される。
【0224】
次に,図10に示す撮像装置102の制御処理(S1022)とともに,画像データおよび音声データは,映像データとして逐次エンコーダ部206に送出される。上記エンコーダ部206は,映像データを受信すると,伝送データに圧縮符号化する(S1024)。なお,本実施の形態にかかる圧縮符号化は,ITU−T勧告 H.263またはISO/IEC 14496に定めるMPEG−4に従い圧縮符号化されるが,かかる例に限定されず,例えば,H.261などの場合であっても実施可能である。
【0225】
圧縮符号化(S1024)された伝送データは,通信部207に送出される。通信部207は,伝送データを,多重化し,ネットワーク105を介して,接続先の映像配信ユニット101に配信する(S1026)。以上から構成される撮影制御処理(S1000〜S1026)は,撮影処理が終了するまで継続される。
【0226】
また,撮影処理が終了または中断すると,撮像装置102,映像通信装置104,および出力装置103の電源は,スタンバイモードになる。この場合,撮像装置102のカメラは真正面に向き,ズーム値が最大となるように,撮影制御部205により制御パラメータが生成されてもよい。撮影開始時に,画像フレーム801内の撮影対象体が広角に捕えらえ,新たな顔領域を検出することが容易となる。
【0227】
なお,本実施の形態にかかる配信後の映像データについては,ネットワーク105を介して送信された伝送データが,接続先の映像配信ユニット101に備わる通信部207により受信され,デコーダ部208により伸長されるとメモリ部202に順次,映像データが格納される。
【0228】
さらにメモリ部202に映像データが格納されると,変換部209によりD/A変換され,出力装置103に上記映像データが画面表示される。なお,本実施の形態にかかる変換部209は,D/A変換するが,かかる例に限定されず,ディジタルの映像データのまま出力装置103に出力してもよい。さらに,変換部209からディジタルの映像データを,例えば,フラッシュメモリ,メモリスティックなどの記憶媒体(図示せず。)に出力する場合であっても実施可能である。
【0229】
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明はかかる例に限定されない。当業者であれば,特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例を想定し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
【0230】
上記実施形態においては,特徴領域は顔領域である場合を例にあげて説明したが,特徴を有する領域であれば,本発明はかかる例に限定されない。例えば,特徴領域が,使用者106が常備している社員証,駐車場などに駐車された乗用車や自動二輪車などのナンバープレートの場合などであっても実施することができる。
【0231】
また,上記実施の形態においては,映像配信ユニットは,テレビ会議に用いられる場合を例にあげて説明したが,本発明は,かかる例に限定されない。例えば,映像配信ユニットを携帯電話,携帯端末,またはパソコン(Personal
Computer)などに用いる場合であっても実施可能である。
【0232】
また,上記実施の形態においては,特徴領域として顔領域の検出処理,撮像装置の撮影の制御処理は,フレーム単位である場合を例にあげて説明したが,本発明は,かかる例に限定されない。例えば,フィールド単位,または複数フレームから構成されるシーン単位などの場合であっても実施することができる。
【0233】
また,上記実施の形態においては,音源情報データまたは特徴領域情報データは,フレームを単位として生成される場合を例にあげて説明したが,本発明は,かかる例に限定されない。フィールド,または複数フレームから構成されるシーンなどを単位とする場合であっても実施することができる。
【0234】
【発明の効果】
以上説明したように,本発明によれば,対象体の特徴領域を精度高く,的確に追尾撮影することが可能となる。したがって,使用者の操作負担が軽減され,撮影処理効率を向上させることができる。さらに的確に追尾撮影された視認性の高い映像データを配信することにより,使用者相互間の円滑なコミュニケーションを図れ,通信時間の短縮化が図れる。
【図面の簡単な説明】
【図1】図1は,本実施の形態にかかる双方向コミュニケーションシステムの概略的な構成を示すブロック図である。
【図2】図2は,本実施の形態にかかる音源受信装置の概略的な構成を示す説明図である。
【図3】図3は,本実施の形態にかかる映像通信装置の概略的な構成を示すブロック図である。
【図4】図4は,本実施の形態にかかる音源検出部の概略的な構成を示すブロック図である。
【図5】図5は,本実施の形態にかかる双方向コミュニケーションシステムの動作の概略を示すフローチャートである。
【図6】図6は,本実施の形態にかかる特性情報データを生成するために用いられるプレートの概略を示す説明図である。
【図7】図7は,本実施の形態にかかる特性情報データの生成処理の概略的な構成を示す説明図である。
【図8】図8(a)〜(e)は,本実施の形態にかかる画像フレームに撮影されたプレートの概略的構成を示す説明図である。
【図9】図9は,本実施の形態にかかるPTZのパラメータの範囲を示す説明図である。
【図10】図10は,本実施の形態にかかる撮影の制御処理の概略を示すフローチャートである。
【図11】図11は,本実施の形態にかかる制御パラメータの生成条件の概略的な構成を示す説明図である。
【図12】図12は,本実施の形態にかかる前フレームにおける顔領域の概略的な構成を示す説明図である。
【図13】図13は,本実施の形態にかかる現フレームにおける顔領域の概略的な構成を示す説明図である。
【図14】図14は,本実施の形態にかかる撮影の制御処理後の現フレームにおける顔領域の概略的な構成を示す説明図である。
【符号の説明】
101 :映像配信ユニット
102 :撮像装置
103 :出力装置
104 :映像通信装置
105 :ネットワーク
106 :使用者
107 :音源受信装置
201 :変換部
202 :メモリ部
203 :顔検出ブロック
204 :音源検出部
205 :撮影制御部
206 :エンコーダ部
207 :通信部
208 :デコーダ部
209 :変換部
Claims (42)
- 1又は2以上の映像配信ユニット間を双方向通信可能に相互接続するネットワークを備えた双方向コミュニケーションシステムであって:
前記映像配信ユニットは,少なくとも画像データもしくは音声データのうちいずれか一方,または双方からなる映像データを生成する撮像装置と;
前記映像データを伝送データに圧縮符号化するエンコーダ部及び前記伝送データを伸長するデコーダ部を少なくとも有する映像通信装置と;
前記映像データを表示する出力装置と;
を備え,
送り手側の前記一の映像配信ユニットは,対象体にかかる特徴領域を前記出力装置の画面所定位置に表示させる前記映像データを,受け手側の他の映像配信ユニットに配信することを特徴とする,双方向コミュニケーションシステム。 - 前記対象体にかかる特徴領域は,少なくとも話者にかかる顔領域であることを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記映像通信装置は,さらに少なくともパン,チルト,もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成する撮影制御部を備えることを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記映像通信装置は,前記画像データから前記対象体にかかる特徴領域を検出し,特徴領域情報データを生成する特徴検出部をさらに備えることを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記特徴領域情報データは,少なくとも前記特徴領域の面積データ,前記特徴領域の位置データ,および前記特徴領域の信頼度データが含まれることを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記特徴領域情報データは,少なくとも前記顔領域にかかる顔領域情報データであることを特徴とする,請求項5に記載の双方向コミュニケーションシステム。
- 前記映像通信装置は,前記音声データから前記対象体の発する音源を検出し,音源情報データを生成する音源検出部をさらに備えることを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記音源情報データは,少なくとも音源の位置データ,前記音源の検出時間データ,もしくは前記音源の音量データのうちいずれか一つ,または任意の組み合わせを含むとを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記撮影制御部は,少なくとも前記音源情報データもしくは前記特徴領域情報データのうちいずれか一方,または双方と前記撮像装置の特性情報データとに基づき,前記撮像装置の撮影処理を制御することを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記撮影制御部は,前記特徴領域情報データが生成された場合,少なくとも1つ前のフレームにて生成された前記特徴領域情報データに基づき,当該前記映像データの前記特徴領域情報データを補正することを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記撮影制御部は,前記特徴領域情報データのうち前記面積データおよび前記位置データと,前記映像データの少なくとも1つ前後する前記フレームで生成された特徴領域情報データの前記面積データおよび前記位置データとを比較し,所定の閾値を超えた場合,前記撮影処理の制御をすることを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記特徴検出部は,前記撮像装置により生成された全方位からの前記映像データに基づき,全方位特徴領域情報データを生成することを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記音源検出部は,少なくとも第一の所定時間,略同一位置から一の音源を検出した場合,前記一の音源を前記対象体の音源と判断することを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記音源検出部は,少なくとも前記第一の所定時間,前記一の音源とは別の略同一位置から他の音源を検出した場合,前記対象体の音源として前記一の音源から前記他の音源に変更することを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記撮影制御部は,少なくとも第二の所定時間,前記対象体の音源として前記一の音源から前記他の音源に,所定回数続けて変更された場合,前記全方位特徴領域情報データに基づき,前記撮影処理を制御することを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- 前記撮影制御部は,前記一の音源から前記他の音源に変更された場合,生成された前記音源情報データに基づき,前記制御パラメータを生成することを特徴とする,請求項1に記載の双方向コミュニケーションシステム。
- ネットワークに接続された1又は2以上の映像配信ユニットに備わる映像通信装置であって:
前記映像配信ユニットは,少なくとも画像データもしくは音声データのうちいずれか一方,または双方からなる映像データを生成する撮像装置と;
前記映像データを表示する出力装置とをさらに備え,
前記映像通信装置は,
前記音声データから対象体の発する音源を検出し,音源情報データを生成する音源検出部と;
前記画像データから前記対象体にかかる特徴領域を検出し,特徴領域情報データを生成する特徴検出部と;
少なくとも前記音源情報データもしくは前記特徴領域情報データのうちいずれか一方または双方と,前記撮像装置の特性情報データとに基づき,前記撮像装置の撮影処理を制御する撮影制御部と;
を備えることを特徴とする,映像通信装置。 - 前記対象体にかかる特徴領域は,少なくとも話者にかかる顔領域であることを特徴とする,請求項17に記載の映像通信装置。
- 前記撮影制御部は,少なくともパン,チルト,もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成することを特徴とする,請求項17に記載の映像通信装置。
- 前記特徴領域情報データは,少なくとも前記特徴領域の面積データ,前記特徴領域の位置データ,および前記特徴領域の信頼度データが含まれることを特徴とする,請求項17に記載の映像通信装置。
- 前記特徴領域情報データは,少なくとも前記顔領域にかかる顔領域情報データであることを特徴とする,請求項20に記載の映像通信装置。
- 前記音源情報データは,少なくとも音源の位置データ,前記音源の検出時間データ,もしくは前記音源の音量データのうちいずれか一つ,または任意の組み合わせを含むとを特徴とする,請求項17に記載の映像通信装置。
- 前記撮影制御部は,前記特徴領域情報データが生成された場合,少なくとも前記映像データの1つ前のフレームで生成された前記特徴領域情報データに基づき,当該前記映像データの前記特徴領域情報データを補正することを特徴とする,請求項17に記載の映像通信装置。
- 前記撮影制御部は,前記特徴領域情報データのうち前記面積データおよび前記位置データと,前記映像データの少なくとも1つ前後する前記フレームで生成された特徴領域情報データの前記面積データおよび前記位置データとを比較し,所定の閾値を超えた場合,前記撮影処理の制御をすることを特徴とする,請求項17に記載の映像通信装置。
- 前記特徴検出部は,前記撮像装置により生成された全方位からの前記映像データに基づき,全方位特徴領域情報データを生成することを特徴とする,請求項17に記載の映像通信装置。
- 前記音源検出部は,少なくとも第一の所定時間,略同一位置から一の音源を検出した場合,前記一の音源を前記対象体の音源と判断することを特徴とする,請求項17に記載の映像通信装置。
- 前記音源検出部は,少なくとも前記第一の所定時間,前記一の音源とは別の略同一位置から他の音源を検出した場合,前記対象体の音源として前記一の音源から前記他の音源に変更することを特徴とする,請求項17に記載の映像通信装置。
- 前記撮影制御部は,少なくとも第二の所定時間,前記対象体の音源として前記一の音源から前記他の音源に,所定回数続けて変更された場合,前記全方位特徴領域情報データに基づき,前記撮影処理を制御することを特徴とする,請求項17に記載の映像通信装置。
- 前記撮影制御部は,前記一の音源から前記他の音源に変更された場合,生成された前記音源情報データに基づき,前記制御パラメータを生成することを特徴とする,請求項17に記載の映像通信装置。
- ネットワークに接続され,少なくとも画像データもしくは音声データのうちいずれか一方,または双方からなる映像データの生成および表示可能な1又は2以上の映像配信ユニットに備わる映像通信装置の撮影処理制御方法であって:
前記映像通信装置は,
前記音声データから対象体の発する音源を検出し;
前記検出された音源に基づき,音源情報データを生成し;
前記画像データから前記対象体にかかる特徴領域を検出し;
前記検出された特徴領域に基づき,特徴領域情報データを生成し;
少なくとも前記音源情報データもしくは前記特徴領域情報データのうちいずれか一方または双方と,前記撮像装置の特性情報データとに基づき,撮影処理を制御することを特徴とする,映像通信装置の撮影処理制御方法。 - 前記対象体にかかる特徴領域は,少なくとも話者にかかる顔領域であることを特徴とする,請求項30に記載の映像通信装置の撮影処理制御方法。
- 前記映像通信装置は,少なくともパン,チルト,もしくはズームのうちいずれか一つ又は任意の組み合わせからなる制御パラメータを生成することを特徴とする,請求項30に記載の映像通信装置の撮影処理制御方法。
- 前記特徴領域情報データは,少なくとも前記特徴領域の面積データ,前記特徴領域の位置データ,および前記特徴領域の信頼度データが含まれることを特徴とする,請求項30に記載の映像通信装置の撮影処理制御方法。
- 前記特徴領域情報データは,少なくとも前記顔領域にかかる顔領域情報データであることを特徴とする,請求項33に記載の映像通信装置の撮影処理制御方法。
- 前記音源情報データは,少なくとも音源の位置データ,前記音源の検出時間データ,もしくは前記音源の音量データのうちいずれか一つ,または任意の組み合わせを含むとを特徴とする,請求項30に記載の映像通信装置の撮影処理制御方法。
- 前記映像通信装置は,前記特徴領域情報データが生成された場合,少なくとも1つ前のフレームにて生成された前記特徴領域情報データに基づき,当該前記映像データの前記特徴領域情報データを補正することを特徴とする,請求項30に記載の映像通信装置の撮影処理制御方法。
- 前記映像通信装置は,前記特徴領域情報データのうち前記面積データおよび前記位置データと,前記映像データの少なくとも1つ前後する前記フレームで生成された特徴領域情報データの前記面積データおよび前記位置データとを比較し,所定の閾値を超えた場合,前記撮影処理の制御をすることを特徴とする,請求項30に記載の映像通信装置の撮影処理制御方法。
- 前記映像通信装置は,前記撮像装置により生成された全方位からの前記映像データに基づき,全方位特徴領域情報データを生成することを特徴とする,請求項30に記載の映像通信装置の撮影処理制御方法。
- 前記映像通信装置は,少なくとも第一の所定時間,略同一位置から一の音源を検出した場合,前記一の音源を前記対象体の音源と判断することを特徴とする,請求項30に記載の映像通信装置の撮影処理制御方法。
- 前記映像通信装置は,少なくとも前記第一の所定時間,前記一の音源とは別の略同一位置から他の音源を検出した場合,前記対象体の音源として前記一の音源から前記他の音源に変更することを特徴とする,請求項30に記載の映像通信装置の撮影処理制御方法。
- 前記映像通信装置は,少なくとも第二の所定時間,前記対象体の音源として前記一の音源から前記他の音源に,所定回数続けて変更された場合,前記全方位特徴領域情報データに基づき,前記撮影処理を制御することを特徴とする,請求項30に記載の映像通信装置の撮影処理制御方法。
- 前記映像通信装置は,前記一の音源から前記他の音源に変更された場合,新たに生成された前記音源情報データに基づき,前記制御パラメータを生成することを特徴とする,請求項30に記載の映像通信装置の撮影処理制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002355510A JP2004193661A (ja) | 2002-12-06 | 2002-12-06 | 双方向コミュニケーションシステム,映像通信装置,および映像通信装置の撮影処理制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002355510A JP2004193661A (ja) | 2002-12-06 | 2002-12-06 | 双方向コミュニケーションシステム,映像通信装置,および映像通信装置の撮影処理制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004193661A true JP2004193661A (ja) | 2004-07-08 |
Family
ID=32756186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002355510A Pending JP2004193661A (ja) | 2002-12-06 | 2002-12-06 | 双方向コミュニケーションシステム,映像通信装置,および映像通信装置の撮影処理制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004193661A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008278433A (ja) * | 2007-05-07 | 2008-11-13 | Casio Hitachi Mobile Communications Co Ltd | 情報処理装置、プログラム |
JP2013167986A (ja) * | 2012-02-15 | 2013-08-29 | Hitachi Ltd | 画像認識システム、画像認識方法 |
CN111724793A (zh) * | 2019-03-18 | 2020-09-29 | 上海汽车集团股份有限公司 | 一种车载视频通话方法与系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05122689A (ja) * | 1991-10-25 | 1993-05-18 | Seiko Epson Corp | テレビ会議システム |
JPH05244587A (ja) * | 1992-02-26 | 1993-09-21 | Mitsubishi Electric Corp | テレビ会議用カメラ制御装置 |
JPH0646414A (ja) * | 1992-07-23 | 1994-02-18 | Matsushita Electric Ind Co Ltd | テレビ電話 |
JPH08223551A (ja) * | 1995-02-13 | 1996-08-30 | Nec Corp | テレビ会議システム |
JPH09307868A (ja) * | 1996-03-15 | 1997-11-28 | Toshiba Corp | コミュニケーション装置及びコミュニケーション方法 |
JPH1051755A (ja) * | 1996-05-30 | 1998-02-20 | Fujitsu Ltd | テレビ会議端末の画面表示制御装置 |
JPH10126757A (ja) * | 1996-10-23 | 1998-05-15 | Nec Corp | ビデオ会議システム |
JPH11331827A (ja) * | 1998-05-12 | 1999-11-30 | Fujitsu Ltd | テレビカメラ装置 |
JP2001145101A (ja) * | 1999-11-12 | 2001-05-25 | Mega Chips Corp | 人物画像圧縮装置 |
JP2001339703A (ja) * | 2000-05-26 | 2001-12-07 | Nec Corp | テレビ会議システム及びテレビ会議システムに於けるカメラの制御装置並びにカメラの制御方法 |
JP2001352530A (ja) * | 2000-06-09 | 2001-12-21 | Nippon Telegr & Teleph Corp <Ntt> | 通信会議装置 |
-
2002
- 2002-12-06 JP JP2002355510A patent/JP2004193661A/ja active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05122689A (ja) * | 1991-10-25 | 1993-05-18 | Seiko Epson Corp | テレビ会議システム |
JPH05244587A (ja) * | 1992-02-26 | 1993-09-21 | Mitsubishi Electric Corp | テレビ会議用カメラ制御装置 |
JPH0646414A (ja) * | 1992-07-23 | 1994-02-18 | Matsushita Electric Ind Co Ltd | テレビ電話 |
JPH08223551A (ja) * | 1995-02-13 | 1996-08-30 | Nec Corp | テレビ会議システム |
JPH09307868A (ja) * | 1996-03-15 | 1997-11-28 | Toshiba Corp | コミュニケーション装置及びコミュニケーション方法 |
JPH1051755A (ja) * | 1996-05-30 | 1998-02-20 | Fujitsu Ltd | テレビ会議端末の画面表示制御装置 |
JPH10126757A (ja) * | 1996-10-23 | 1998-05-15 | Nec Corp | ビデオ会議システム |
JPH11331827A (ja) * | 1998-05-12 | 1999-11-30 | Fujitsu Ltd | テレビカメラ装置 |
JP2001145101A (ja) * | 1999-11-12 | 2001-05-25 | Mega Chips Corp | 人物画像圧縮装置 |
JP2001339703A (ja) * | 2000-05-26 | 2001-12-07 | Nec Corp | テレビ会議システム及びテレビ会議システムに於けるカメラの制御装置並びにカメラの制御方法 |
JP2001352530A (ja) * | 2000-06-09 | 2001-12-21 | Nippon Telegr & Teleph Corp <Ntt> | 通信会議装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008278433A (ja) * | 2007-05-07 | 2008-11-13 | Casio Hitachi Mobile Communications Co Ltd | 情報処理装置、プログラム |
JP2013167986A (ja) * | 2012-02-15 | 2013-08-29 | Hitachi Ltd | 画像認識システム、画像認識方法 |
CN111724793A (zh) * | 2019-03-18 | 2020-09-29 | 上海汽车集团股份有限公司 | 一种车载视频通话方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101231518B1 (ko) | 카메라 제어 장치, 카메라 시스템, 전자 회의 시스템 및카메라 제어 방법 | |
US8773498B2 (en) | Background compression and resolution enhancement technique for video telephony and video conferencing | |
US8379074B2 (en) | Method and system of tracking and stabilizing an image transmitted using video telephony | |
JP4448177B2 (ja) | Tv電話機能の撮影画像処理切り替え装置 | |
US20080235724A1 (en) | Face Annotation In Streaming Video | |
US20100118112A1 (en) | Group table top videoconferencing device | |
US11076127B1 (en) | System and method for automatically framing conversations in a meeting or a video conference | |
JP2004023373A (ja) | 画像処理装置及びその方法、並びにコンピュータプログラム及びコンピュータ可読記憶媒体 | |
US9531910B2 (en) | Non-transitory computer-readable storage medium storing program, terminal device and method | |
CN102113319A (zh) | 具有周边观看装置的通信设备 | |
JP2005033570A (ja) | 移動体画像提供方法、移動体画像提供システム | |
JP4100146B2 (ja) | 双方向コミュニケーションシステム,映像通信装置 | |
JP2003111041A (ja) | 画像処理装置、画像処理システム、画像処理方法、記憶媒体、及びプログラム | |
EP3884461B1 (en) | Selective distortion or deformation correction in images from a camera with a wide angle lens | |
JP6004978B2 (ja) | 被写体画像抽出装置および被写体画像抽出・合成装置 | |
JP2004193661A (ja) | 双方向コミュニケーションシステム,映像通信装置,および映像通信装置の撮影処理制御方法 | |
JP2002051315A (ja) | データ伝送方法およびその装置、並びにデータ伝送システム | |
KR101393147B1 (ko) | 이동단말기 및 그 촬영방법 | |
JP2010004480A (ja) | 撮像装置、その制御方法及びプログラム | |
WO2021200184A1 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
US20030052962A1 (en) | Video communications device and associated method | |
JP5004680B2 (ja) | 画像処理装置、画像処理方法、テレビ会議システム、テレビ会議方法、プログラムおよび記録媒体 | |
JP2005110160A (ja) | 撮像装置 | |
JP2002262138A (ja) | 撮像システム、テレビ会議システム、監視システムおよび撮像機能を有した情報端末機器 | |
JPH0244885A (ja) | 画像伝送方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050909 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071120 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080311 |