以下、図面を参照しながら、この発明の実施の形態について説明する。図1は、実施の形態としてのビデオカメラ(カムコーダ)100の構成例を示している。このビデオカメラレコーダ100は、USB(Universal Serial Bus)ビデオストリーミング画像の出力を可能とするものである。
このビデオカメラ100は、制御部101と、ユーザ操作部102とを有している。また、このビデオカメラ100は、イメージャ111と、撮像処理部112と、ベースバンド処理部113と、マイクロホン115と、A/D変換器116と、圧縮/伸長部117と、記録/再生部118とを有している。
また、ビデオカメラ100は、インタフェース121と、D端子122と、D/A変換器123と、音声出力端子124とを有している。また、ビデオカメラ100は、重畳部131と、LCDドライバ132と、LCDパネル133と、OSD部134と、タッチパネル135と、座標検出部136とを有している。さらに、ビデオカメラ100は、画像圧縮部141と、USB制御部142と、USBインタフェース143と、特徴エリア検出部144とを有している。
制御部101は、ビデオカメラ100の各部を制御する。制御部101は、CPU103、フラッシュROM104およびSDRAM105を備えている。フラッシュROM104は、CPU103の制御プログラム等を記憶している。SDRAM105は、CPU220の制御処理に必要なデータの一時記憶等に用いられる。CPU103は、フラッシュROM104から読み出したプログラムやデータをSDRAM105上に展開してプログラムを起動し、ビデオカメラ100の各部を制御する。
また、制御部101は、切り出し範囲決定部106および話者音声検出部107を備えている。切り出し範囲決定部106は、例えば、USBインタフェース143がUSBケーブルを介して外部機器に接続されており、ビデオミーティングモードにあるとき、特徴エリア検出部140で検出された特徴エリアの位置情報に基づいて、この検出された特徴エリアを含むように切り出し範囲を決定する。この切り出し範囲決定部106の処理の詳細については後述する。
話者音声検出部107は、A/D変換器116から出力される音声データ(音声情報)に基づいて音声レベルを検出し、この音声レベルが閾値以上であるか否かを判断する。この意味で、話者音声検出部107は、音声レベル検出部およびレベル判断部を構成している。この話者音声検出部107の処理の詳細については後述する。
後述するように、話者音声検出部107の検出結果は、特徴エリアに含まれる顔が発声者の顔であると判断される際に、その判断を補完するために使用される。すなわち、特徴エリアに含まれる顔が発声者の顔であると判断され、かつ、音声レベルが閾値以上であると判断される場合に、特徴エリアに含まれる顔が発声者の顔であるとの判断が確定し、それに基づいて、上述の切り出し範囲決定部106では、発声者の顔が含まれる特徴エリアを含むように、切り出し範囲が決定される。
ユーザ操作部102は、ユーザインタフェースを構成し、制御部101に接続されている。このユーザ操作部102は、ビデオカメラ100の図示しない筐体面に配置されたキー、釦、ダイアル等で構成される。ユーザは、ユーザ操作部102を用いて、ビデオカメラ100の記録、再生等を操作できる。
イメージャ111は、例えば、C−MOS(Complementary Metal Oxide Semiconductor)撮像素子、あるいはCCD(Charge Coupled Device)撮像素子により構成される。撮像処理部112は、イメージャ111で得られる撮像信号を処理して、被写体の撮像画像に対応した画像データ(画像情報)を生成する。撮像処理部112では、例えば、イメージャ111から出力される撮像信号(アナログ信号)に対し、サンプルホールドおよび利得制御、アナログ信号からデジタル信号への変換、さらにホワイトバランス調整、ガンマ補正等の処理が行われる。A/D変換器116は、マイクロホン115で得られた音声信号をアナログ信号からデジタル信号に変換して、上述の撮像処理部112で得られる撮像画像データに対応した音声データを得る。
ベースバンド処理部113は、撮像処理部112で生成された画像データを一時的に蓄積するためのSDRAM114を備えている。ベースバンド処理部113は、撮像処理部112で生成された画像データを、重畳部131を通じてLCDドライバ132に供給する。また、ベースバンド処理部113は、記録時に、撮像処理部112で生成された画像データおよびA/D変換器116で得られた音声データを、圧縮/伸長部117に供給する。
また、ベースバンド処理部113は、再生時に、圧縮/伸長部117で得られた再生画像データを、重畳部131を通じてLCDドライバ132に供給すると共に、インタフェース121を通じてD端子122に出力する。インタフェース121は、ベースバンド処理部113からの画像データを、デジタル信号からアナログ信号に変換する。また、ベースバンド処理部113は、再生時に、圧縮/伸長部117で得られた再生音声データを、D/A変換器123を通じて音声出力端子124に出力する。D/A変換器123は、ベースバンド処理部113からの音声データを、デジタル信号からアナログ信号に変換する。
また、ベースバンド処理部113は、例えば、USBインタフェース143がUSBケーブルを介して外部機器に接続されており、ビデオミーティングモードにあるとき、以下の処理を行う。すなわち、撮像処理部112で生成された画像データから、切り出し範囲決定部106で決定された切り出し範囲の画像データを切り出す。この意味で、ベースバンド処理部113は、画像切り出し部を構成する。また、この切り出し範囲の画像データを、ストリーミングサイズ、例えば、640×480画素(VGA:Video Graphics Array)、あるいは320×240画素(QVGA:QuarterVideo Graphics Array)に解像度変換(スケーリング処理)して、画像圧縮部141に供給する。
圧縮/伸長部117は、記録時には、画像データと音声データを、例えば、MPEG(Moving Picture Experts Group)方式でデータ圧縮し、データ圧縮した画像データと音声データとを多重化する。また、圧縮/伸長部117は、再生時には、記録/再生部118から供給されるMPEG信号から画像データと音声データを分離し、さらに伸長処理を施してデータ圧縮処理前の画像データと音声データを復元して、ベースバンド処理部113に供給する。
記録/再生部118は、記録時には、圧縮/伸長部117で生成されたMPEG信号を、記録メディア119に記録する。また、記録再生部118は、再生時には、記録メディア119から読み出し、MPEG信号を得る。例えば、記録メディア119は、光ディスク、ハードディスク、磁気テープ、半導体メモリなどである。
OSD(On Screen Display)回路134は、制御部101の制御のもと、GUI画面用の表示信号を発生する。この表示信号としては、特徴エリア検出部140で検出された特徴エリアを示す表示信号、切り出し範囲決定部106で決定された切り出し範囲を示す表示信号等がある。ここで、制御部101およびOSD部134は、グラフィック表示部を構成している。
重畳部131は、ベースバンド処理部113から供給される画像データ(撮像画像データ、再生画像データ)に、OSD部134からの画面表示信号を重畳して、LCDドライバ132に供給する。LCDドライバ132は、重畳部131から供給される画像データに基づいて、LCDパネル133を駆動し、このLCDパネル133に撮像画像または再生画像を表示する。
上述したように、重畳部131で画像データにGUI画面用の表示信号が重畳されることで、LCDパネル133に表示される撮像画像、あるいは再生画像は、GUI画面が重畳されたものとなる。タッチパネル135は、LCDパネル133の画面上の位置を指定する位置指定部を構成しており、LCDパネル133の画面上に配置されている。ユーザは、LCDパネル133上に配置されたタッチパネル135を用いて、撮像時においては撮像動作、記録動作等、再生時においては再生動作等を操作可能となる。
このタッチパネル135は、座標検出部136を介して制御部101に接続されている。ユーザは、タッチパネル135を、指で直接触れるか、あるいはペンで触れるかして、画面上の位置を指定できる。
画像圧縮部141は、例えば、USBインタフェース143がUSBケーブルを介して外部機器に接続されており、ビデオミーティングモードにあるとき、ベースバンド処理部113から供給されるストリーミングサイズの画像データに対してデータ圧縮の処理を行う。画像圧縮部141は、例えば、モーションJPEG(Joint Photographic Experts Group)等の圧縮方式を用いる。
USB制御部142は、USBインタフェース143を介した通信の制御を行う。USBインタフェース143は、通信ケーブル(USBケーブル)を装着するための図示しないコネクタ等により構成される。USB制御部142およびUSBインタフェース143は、画像伝送部を構成している。USBインタフェース143は、USBケーブルを通じて、外部機器、例えばPC(Personal Computer)等とのデータの送受信を行う。
特徴エリア検出部144は、例えば、USBインタフェース143がUSBケーブルを介して外部機器に接続されており、ビデオミーティングモードにあるとき、以下の処理を行う。すなわち、特徴エリア検出部144は、ベースバンド処理部113のSDRAM114に一時的に蓄積された撮像画像データに基づいて、被写体の特徴的な部分を含む矩形領域としての特徴エリアを検出する。この実施の形態において、被写体の特徴的な部分は、人間の顔とされる。この特徴エリア検出部144の処理の詳細については後述する。
図1に示すビデオカメラ100の動作を説明する。
最初に、撮像時、記録時の動作を説明する。
イメージャ111で得られた撮像信号は撮像処理部112に供給されて処理され、この撮像処理部112からは被写体の撮像画像に対応した画像データ(画像情報)が得られる。また、マイクロホン115で得られた音声信号はA/D変換器116に供給され、アナログ信号からデジタル信号に変換されて、撮像画像データに対応した撮像音声データが得られる。撮像処理部112で得られた撮像画像データおよびA/D変換器116で得られた撮像音声データは、ベースバンド処理部113に供給される。
ベースバンド処理部113に供給された撮像画像データは、重畳部131を通じて、LCDドライバ132に供給される。これにより、LCDパネル133には撮像画像が表示され、ユーザはその表示により撮像画像の確認が可能となる。
この状態で、制御部101の制御のもと、OSD部134では、撮像動作、記録動作等をユーザが操作するために使用されるGUI画面用の表示信号が発生される。この表示信号は、重畳部131に供給されて、ベースバンド処理部113から供給される撮像画像データに重畳される。
これにより、LCDパネル133に表示される撮像画像には、撮像動作、記録動作等をユーザが操作するために使用されるGUI画面が重ねて表示される。そのため、ユーザは、LCDパネル133上に配置されたタッチパネル135を用いて、撮像動作、記録動作等を操作できる。なお、ユーザは、ユーザ操作部102を構成するキー等を用いても同様に撮像動作、記録動作等を操作できる。
上述の撮像状態において、ユーザの記録指示があると、撮像画像データおよび撮像音声データの記録動作が開始される。すなわち、ベースバンド処理部113から撮像画像データおよび撮像音声データが圧縮/伸長部117に供給される。そして、圧縮/伸長部117では、画像データと音声データがそれぞれ例えばMPEG方式でデータ圧縮され、その後に双方が多重化されてMPEG信号が得られる。このMPEG信号は記録/再生部118に供給され、記録メディア119に記録される。
次に、再生時の動作について説明する。
記録/再生部118では、記録メディア119からMPEG信号が読み出される。このMPEG信号は圧縮/伸長部117に供給される。この圧縮/伸長部117では、記録/再生部118から供給されるMPEG信号から画像データおよび音声データが分離され、さらに伸長処理が施されて、データ圧縮処理前の画像データと音声データが得られる。これら再生画像データおよび再生音声データはベースバンド処理部113に供給される。
ベースバンド処理部131に供給された再生画像データは、重畳部131を通じて、LCDドライバ132に供給される。これにより、LCDパネル133には再生画像が表示され、ユーザはその表示により再生画像の確認が可能となる。
この状態で、制御部101の制御のもと、OSD部134では、再生動作等をユーザが操作するために使用されるGUI画面用の表示信号が発生される。この表示信号は、重畳部131に供給されて、ベースバンド処理部113から供給される再生画像データに重畳される。
これにより、LCDパネル133に表示される再生画像には、再生動作等をユーザが操作するために使用されるGUI画面が重ねて表示される。そのため、ユーザは、LCDパネル133上に配置されたタッチパネル135を用いて、再生動作等を操作できる。なお、ユーザは、ユーザ操作部102を構成するキー等を用いても同様に再生動作等を操作できる。
また、圧縮/伸長部117からベースバンド処理部113に供給される再生画像データは、インタフェース121でデジタル信号からアナログ信号に変換され、D端子122に出力される。同様に、圧縮/伸長部117からベースバンド処理部113に供給される再生音声データは、D/A変換器123でデジタル信号からアナログ信号に変換され、音声出力端子124に出力される。
次に、例えば、USBインタフェース143がUSBケーブルを介して外部機器、例えばPC(Personal Computer)等に接続されており、ビデオミーティングモードにあるときの各部の動作について説明する。
ビデオミーティングモードにあるとき、ビデオカメラ100の特徴エリア検出部144、制御部106、ベースバンド処理部113およびUSB制御部142は、1フレーム毎に、図2のフローチャートに沿って処理を行う。
まず、ステップST1において、特徴エリア検出部144は、被写体の撮像画像に対応した画像データ(画像情報)に基づいて、被写体の特徴的な部分、この実施の形態においては顔を含む特徴エリアを検出する。特徴エリア検出部144は、検出した特徴エリアの領域座標(領域情報)を制御部101に供給する。
次に、ステップST2において、制御部101の切り出し範囲決定部106は、特徴エリア検出部144で検出された特徴エリアの領域座標に基づいて、この検出された特徴エリアを含む切り出し範囲を決定する。切り出し範囲決定部106は、決定した切り出し範囲の領域座標(領域情報)をベースバンド処理部113に供給する。
次に、ステップST3において、ベースバンド処理部113は、切り出し範囲決定部106で決定された切り出し範囲の領域座標に基づいて、被写体の撮像画像に対応した画像情報から切り出し範囲の画像情報を切り出す。さらに、ベースバンド処理部113は、切り出された画像情報に対して、ストリーミングサイズ(例えば、640×480画素、320×240画素等)に解像度変換して、画像圧縮部141に供給する。
次に、ステップST4において、USB制御部142は、画像圧縮部141でデータ圧縮処理が施された切り出し範囲の画像データを伝送情報としてUSBインタフェース143に出力する。
ここで、ビデオミーティングモードの選択操作について説明する。ビデオカメラ100においては、USBインタフェース143がUSBケーブルを介して外部機器に接続されるとき、どのUSBデバイス(プロトコル)を使用して通信するかを、予めビデオカメラ100のセットアップメニューから選択できるようになっている。図3は、ビデオカメラ100のLCDパネル133に表示される、セットアップメニューの選択例を示している。
この選択例で「マスストレージ」、「PictBridge」、「ビデオストリーミング」または「ビデオミーティング」のいずれかのモードの選択が可能とされている。ユーザは、例えば、タッチパネル135の各モードの表示箇所を押圧操作することで、所望のモードを選択できる。図3の選択例では、カーソルCAが「ビデオミーティング」の表示位置に移動した状態にあり、「ビデオミーティング」が選択されていることが分かる。
上述したようにセットアップメニューで「ビデオミーティング」を選択し、USBインタフェース143をUSBケーブルで外部機器と接続することで、ビデオストリーム画像を伝送するビデオミーティングモードとなる。図4は、USBケーブルで外部機器と接続する過程におけるLCDパネル133の画像表示例を示している。
図4(a)は、接続前の状態、すなわち通常モードの表示状態を示している。この表示状態では、撮像画像が表示されている。図4(b)は、接続直後の状態を示しており、USB接続準備画面(黒画面)が表示された状態となる。図4(c)は、接続されて所定時間が経過した後の状態、すなわちビデオミーティングモードの表示状態を示している。この表示状態では、撮像画像が表示され、さらにそれに重ねて、検出された特徴エリアを示す枠ARaと、決定された切り出し範囲を示す枠ARbが表示される。
また、ビデオミーティングモードのサブモードとして、ロックモードと話者検出モードが用意されている。ロックモードは、現在伝送しているビデオストリーム画像の切り出し範囲(画枠)をロックするモードである。話者検出モードは、発声者の顔が含まれている特徴エリアがあるとき、その特徴エリアを含むように切り出し範囲を決定するモードである。
図4(c)に示すように、ビデオミーティングモードの表示状態では、GUI表示として、上述した枠ARa,ARbの表示の他に、ロックモードのオン(ロック)またはオフ(アンロック)の設定ボタンBTaおよび話者検出モードのオンまたはオフを設定する設定ボタンBTbも表示される。なお、枠ARa,ARbおよび設定ボタンBTa,BTbの表示信号は、制御部101の制御により、OSD部134で発生されて、重畳部131で撮像画像データに重畳される。
ユーザは、LCDパネル133上に配置されたタッチパネル135の設定ボタンBTaに対応した部分を押圧操作することで、ロックモードを、オンからオフへ、さらにオフからオンへと、トグル的に切り替えることができる。この場合、設定ボタンBTaの文字表示は、ロックモードオンのときは「ロック」となり、ロックモードオフのときは「アンロック」となる。図4(c)の設定ボタンBTaの文字表示は、ロックモードがオン(ロック)であることを示している。
また、ユーザは、LCDパネル133上に配置されたタッチパネル135の設定ボタンBTbに対応した部分を押圧操作することで、話者検出モードを、オンからオフへ、さらにオフからオンへと、トグル的に切り替えることができる。この場合、設定ボタンBTbの文字表示は、話者検出モードオンのときは「話者検出オン」となり、話者検出モードオフのときは「話者検出オフ」となる。図4(c)の設定ボタンBTbの文字表示は、話者検出モードがオンであることを示している。
次に、特徴エリア検出部144における特徴エリアの検出動作について説明する。特徴エリア検出部144は、周期的に、この実施の形態においては1フレーム毎に、被写体の撮像画像に対応した画像データ(画像情報)に基づいて、被写体の特徴的な部分として人間の顔を含む特徴エリアを検出する。
最初、特徴エリア検出部144は、撮像画像から顔画像特有の輝度値の分布パターンを検索することで顔画像を検出する。図5は、顔画像特有の輝度値の分布パターン例を示している。この分布パターン例は、ハッチングを付して示すように、輝度値が高い部分の分布パターンを示している。
次に、特徴エリア検出部144は、検出された顔画像から、図6に示すように、目、口の位置を検出する。この場合、特徴エリア検出部144は、例えば、検出された顔画像を暗い部分と明るい部分にパターン分けすることで、目、口の位置を検出する。
次に、特徴エリア検出部144は、図7(a)に示すように、目、口の位置からなる矩形エリアを用いて、特徴エリアの矩形領域座標(Left,Top,Right,Bottom)を算出する。すなわち、特徴エリア検出部144は、目、口の位置から、縦の長さがaで横の長さがbの矩形エリアを形成する。
そして、特徴エリア検出部144は、矩形エリアの左端からさらにbだけ左側の位置をLeftとして求め、矩形エリアの右端からさらにbだけ右側に移動した位置をRightとして求める。また、特徴エリア検出部144は、矩形エリアの上端からさらに2aだけ上側の位置をTopとして求め、矩形エリアの下端からさらにaだけ下側の位置をBottomとして求める。
図7(b)は、上述したように検出された特徴エリア内に含まれる顔画像の一例を示している。
特徴エリア検出部144では、上述したように1フレーム毎に、被写体の撮像画像に対応した画像データ(画像情報)に基づいて、撮像画像の特徴エリアを検出する。この場合、検出精度にもよるが、撮像状態の変化が影響する等して、同一の特徴エリアが各フレームで必ずしも連続して検出されるとは限らない。そのため、各フレームで検出される特徴エリアをそのまま用いて切り出し範囲を決定する場合には、切り出し範囲の変化が激しく、極めて安定性に欠けるものとなる。
そこで、特徴エリア検出部144は、特徴エリアの有効化処理を行い、有効化された特徴エリアの情報のみを制御部101に送り、切り出し範囲の安定性を図る。特徴エリア検出部144における特徴エリアの有効化処理について説明する。
特徴エリア検出部144は、有効化処理を行うために、SDRAM114に、メインバッファおよび一時バッファを確保する。メインバッファには、前フレームの時点で特徴エリア番号が付与されている各特徴エリアの特徴エリア情報(図14(b)参照)が記憶される。この特徴エリア情報には、特徴エリアを示す座表情報が含まれている。
また、一時バッファには、現フレームで検出された各特徴エリアの特徴エリア情報(図14(b)参照)が記憶される。
特徴エリア検出部144は、メインバッファの記憶に係る特徴エリア番号が付与されている各特徴エリアを順次処理対象とする。特徴エリア検出部144は、メインバッファおよび一時バッファに記憶された特徴エリア情報に基づいて、処理対象の特徴エリアと一部または全部が重複する特徴エリアが現フレームで検出された特徴エリアの中にあるか否かを判断する。
特徴エリア検出部144は、重複する特徴エリアがある場合には、その重複する特徴エリアが処理対象の特徴エリアと同じ特徴エリア番号の特徴エリアであると判断し、処理対象の特徴エリアの検出カウントをインクリメントし、検出カウントが規定値(例えば、30フレーム)以上であるとき、未だ有効な特徴エリアとして登録されていない場合には、登録する。また、特徴エリア検出部144は、重複する特徴エリアがある場合には、この処理対象の特徴エリアの矩形領域座標を重複している現フレームで検出された特徴エリアの矩形領域座標に更新する。
また、特徴エリア検出部144は、重複する特徴エリアがない場合には、処理対象の特徴エリアの検出カウントをデクリメントする。特徴エリア検出部144は、検出カウントが規定値(例えば、0フレーム)に達するとき、当該処理対象の特徴エリアを、特徴エリア番号の付与対象から削除する。特徴エリア検出部144は、この削除に伴って、メインバッファから当該処理対象の特徴エリアの特徴エリア情報(図14(b)参照)を削除し、さらには登録されている場合にはその登録を削除して、無効化する。
また、特徴エリア検出部144は、全ての特徴エリアに対して上述の処理を行った後に、処理対象の特徴エリアのいずれとも重複しない特徴エリア(未処理特徴エリア)が現フレームで検出された特徴エリアの中にあるか場合には、以下の処理を行う。すなわち、特徴エリア検出部144は、現フレームの未処理特徴エリアに、特徴エリア番号を新規に割り当て、その検出カウントを1フレームとする。また、特徴エリア検出部144は、メインバッファに、当該現フレームの未処理特徴エリアの特徴エリア情報(図14(b)参照)を追加記憶する。
ここで、メインバッファに、図8(a)に示すように、特徴エリア番号が付与されている特徴エリアARa1,ARa2が記憶されており、一時バッファに、図8(b)に
示すように、現フレームで検出された特徴エリアARa1,ARa2が記憶されている場合を考える。
最初に、メインバッファの特徴エリアARa1が処理対象とされる。この特徴エリアARa1は、図9に示すように、一時バッファの特徴エリアARa3と重複している。そのため、特徴エリア検出部144は、一時バッファの特徴エリアARa3が処理対象のメインバッファの特徴エリアARa1と同じ特徴エリア番号の特徴エリアであると判断し、処理対象の特徴エリアARa1の検出カウントをインクリメントし、検出カウントが規定値(例えば、30フレーム)以上であるとき、未だ有効な特徴エリアとして登録されていない場合には、登録する。また、特徴エリア検出部144は、メインバッファの特徴エリアARa1の矩形領域座標を一時バッファの特徴エリアARa3の矩形領域座標に更新する。
次に、メインバッファの特徴エリアARa2が処理対象とされる。図9に示すように、一時バッファには、この特徴エリアARa2と重複する特徴エリアはない。そのため、特徴エリア検出部144は、処理対象のメインバッファの特徴エリアARa2の検出カウントをデクリメントし、検出カウントが規定値(例えば、0フレーム)に達するとき、この特徴エリアARa2を特徴エリア番号の付与対象から削除する。
メインバッファの特徴エリアARa1,ARa2に対して上述の処理を行った後、一時バッファには、図9に示すように、処理対象の特徴エリアARa1,ARa2のいずれとも重複しない特徴エリアARa4が存在する。特徴エリア検出部144は、この特徴エリアARa4に特徴エリア番号を新規に割り当て、その検出カウントを1フレームとする。また、特徴エリア検出部144は、メインバッファに、この特徴エリアARa4の特徴エリア情報(図14(b)参照)を追加記憶する。
図10のフローチャートは、上述の特徴エリア検出部144における有効化処理の手順を示している。
特徴エリア検出部144は、ステップST11において、有効化処理を開始し、その後にステップST12の処理に移る。このステップST12において、特徴エリア検出部144は、メインバッファに未処理の特徴エリアがあるか否かを判断する。未処理の特徴エリアがある場合、特徴エリア検出部144は、ステップST13において、一時バッファに記憶されている各特徴エリアの特徴エリア情報(座表情報)を検索する。つまり、特徴エリア検出部144は、処理対象の特徴エリアと重複する特徴エリアが現フレームで検出された特徴エリアの中にあるか調べる。
次に、特徴エリア検出部144は、ステップST14において、ステップST13の調査結果に基づいて、処理対象の特徴エリアと重複する特徴エリアが、現フレームで検出された特徴エリアの中にあるか否かを判断する。
重複する特徴エリアがあるとき、特徴エリア検出部144は、ステップST15において、処理対象の特徴エリアに割り当てられている特徴エリア番号の検出カウントをインクリメントする。そして、特徴エリア検出部144は、ステップST16において、検出カウントが規定値(例えば、30フレーム)以上であるか否かを判断する。
規定値以上であるとき、特徴エリア検出部144は、ステップST17において、登録済みの特徴エリアであるか否かを判断する。登録済みでないときは、特徴エリア検出部144は、ステップST18において、当該処理対象の特徴エリアを登録して有効化する。
特徴エリア検出部144は、ステップST18の処理の後、ステップST19の処理に移る。なお、ステップST16で検出カウントが規定値以上でないとき、およびステップST17で登録済みであるとき、特徴エリア検出部144は、直ちに、ステップST19の処理に移る。
このステップST19において、特徴エリア検出部144は、処理対象の特徴エリアの矩形領域座標を、重複している現フレームで検出された特徴エリアの矩形領域座標に更新する。特徴エリア検出部144は、ステップST19の処理の後、上述のステップST12の処理に戻り、次の処理対象の処理に移る。
また、ステップST14で重複する特徴エリアがないとき、特徴エリア検出部144は、ステップST20において、処理対象の特徴エリアに割り当てられている特徴エリア番号の検出カウントをデクリメントする。そして、特徴エリア検出部144は、ステップST21において、検出カウントが規定値(例えば、0フレーム)に達したか否かを判断する。
検出カウントが規定値に達したとき、特徴エリア検出部144は、ステップST22において、当該処理対象の特徴エリアを、特徴エリア番号の付与対象から削除する。特徴エリア検出部144は、この削除に伴って、メインバッファから当該処理対象の特徴エリアの特徴エリア情報(図14(b)参照)を削除し、さらには登録されている場合にはその登録を削除して、無効化する。
特徴エリア検出部144は、ステップST22の処理の後、ステップST12に戻り、次の処理対象の処理に移る。また、ステップST21で検出カウントが規定値に達していないとき、特徴エリア検出部144は、直ちに、ステップST12に戻り、次の処理対象の処理に移る。
また、ステップST12で未処理の特徴エリアがないとき、特徴エリア検出部144は、ステップST23の処理に移る。このステップST23において、特徴エリア検出部144は、処理対象の特徴エリアのいずれとも重複しない特徴エリア(未処理特徴エリア)が、一時バッファに記憶された現フレームで検出された特徴エリアの中にあるか否かを判断する。
未処理特徴エリアがあるとき、特徴エリア検出部144は、ステップST24において、現フレームの未処理特徴エリアに、特徴エリア番号を新規に割り当て、その検出カウントを1フレームとする。そして、特徴エリア検出部144は、メインバッファに、当該現フレームの未処理特徴エリアの特徴エリア情報(図14(b)参照)を追加記憶する。一方、未処理特徴エリアがないとき、特徴エリア検出部144は、直ちに、ステップST25の処理に移り、有効化の処理を終了する。
次に、特徴エリア検出部144における話者(発声者)の判断動作について説明する。特徴エリア検出部144は、被写体の撮像画像に対応した画像データ(画像情報)に基づいて、検出された各特徴エリア(登録されている有効化された特徴エリア)を順次判断対象の特徴エリアとし、判断対象の特徴エリアに含まれる顔が話者(発声者)の顔か否かを判断する。この意味で、特徴エリア検出部144は発声者判断部を構成する。
最初、特徴エリア検出部144は、判断対象の特徴エリアの撮像画像の口のエリアに着目し、図11(a)に示すように、口の動きを検出する矩形領域ARmを決定する。すなわち、特徴エリア検出部144は、口の上下方向の中心位置からa/2だけ上側の位置を矩形領域ARmの上端として求め、口の上下方向の中心位置からa/2だけ下側の位置を矩形領域ARmの下端として求める。また、特徴エリア検出部144は、口の左右方向の中心位置からbだけ左側の位置を矩形領域ARmの左端として求め、口の左右方向の中心位置からbだけ右側の位置を矩形領域ARmの右端として求める。
ここで、aは、判断対象の特徴エリアの検出時に目、口の位置から形成された矩形エリア(図7(a)参照)の縦(上下方向)の長さである。同様に、bは、判断対象の特徴エリアの検出時に目、口の位置から形成された矩形エリア(図7(a)参照)の横(左右方向)の長さである。図11(b)は、上述したように特徴エリアの撮像画像上に決定された矩形領域ARmの一例を示している。
次に、特徴エリア検出部144は、上述したように決定された矩形領域ARmに対して、オプティカルフローにより口の動きを示す動きベクトルを検出する。そして、特徴エリア検出部144は、口の動き(動きベクトル)から声を出しているか推定できるとき、判断対象の特徴エリアに含まれる顔が話者(発声者)の顔であると判断する。この場合、判断対象の特徴エリアは、話者の発声が検出された特徴エリアとなる。
次に、特徴エリア検出部144における除外エリアの判断動作について説明する。上述したように、ビデオミーティングモードの表示状態では、GUI表示として、検出された特徴エリアを示す枠ARaが表示される(図4(c)参照)。ユーザは、LCDパネル133上に配置されたタッチパネル135の所定の特徴エリアの部分を押圧操作することで、この所定の特徴エリアを切り出し対象から除外することを設定でき、またその設定を解除できる。なお、この設定および解除の操作は、LCDパネル133に表示された特徴エリアの表示を用いて、ユーザ操作部102を操作して行うこともできる。
上述したように、ユーザの操作によって所定の特徴エリアが除外設定された場合、この所定の特徴エリアの特徴エリア番号が制御部101から特徴エリア検出部144に通知される。特徴エリア検出部144は、内蔵されたSDRAM145に、通知された特徴エリア番号に基づいて、除外設定された所定の特徴エリアの画像データ(画像情報)をストアする。
ここで、所定の特徴エリアが除外設定されるとき、制御部101の制御により、OSD部134で発生される表示信号が変化し、この所定の特徴エリアの表示態様が変化する。図12(a)は除外設定された特徴エリアがない場合の表示状態を示しており、図12(b)は右側の特徴エリアが除外設定された場合の表示状態の一例を示している。
特徴エリア検出部144は、SDRAM145に除外設定された特徴エリアの画像データがストアされているとき、検出された各特徴エリア(登録されている有効化された特徴エリア)を順次判断対象の特徴エリアとし、判断対象の特徴エリアが除外設定された特徴エリアであるか否かを判断する。この意味で、特徴エリア検出部144は、除外判断部を構成する。
この場合、特徴エリア検出部144は、判断対象の特徴エリアの画像データとSDRAM145にストアされている特徴エリア画像データとを用いて、判断対象の特徴エリア画像と除外設定された特徴エリア画像との間で従来周知のマッチング演算を行う。特徴エリア検出部144は、マッチング演算結果により双方の画像が一致すると判断するとき、判断対象の特徴エリアは除外設定された特徴エリアであると判断する。
図13のフローチャートは、上述した特徴エリア検出部144のビデオミーティングモード時の処理手順を示している。特徴エリア検出部144は、1フレーム毎に、図13のフローチャートの処理を行う。
特徴エリア検出部144は、ステップST31において、処理を開始し、その後に、ステップST32の処理に移る。このステップST32において、特徴エリア検出部144は、ビデオミーティングモードであるか否かを判断する。ビデオミーティングモードでないとき、特徴エリア検出部144は、直ちにステップST45に移り、処理を終了する。一方、ビデオミーティングモードであるとき、特徴エリア検出部144は、ステップST33の処理に移る。
このステップST33において、特徴エリア検出部144は、被写体の撮像画像に対応した画像データ(画像情報)に基づいて、被写体の特徴的な部分として人間の顔を含む特徴エリアを検出する(図5〜図7参照)。そして、特徴エリア検出部144は、ステップST34において、ステップST33で検出された特徴エリアと、前のフレームの時点で特徴エリア番号が付与されている特徴エリアとに基づいて、特徴エリアの有効化処理を行う(図8〜図10参照)。
次に、特徴エリア検出部144は、ステップST35において、話者(発声者)判断および除外エリア判断に関して、未処理の特徴エリア(登録されている有効化された特徴エリア)があるか否かを判断する。未処理の特徴エリアがあるときは、ステップST36において、特徴エリア検出部144は、SDRAM145に除外設定された特徴エリアの画像データ(画像情報)がストアされているか否かを判断する。
除外設定された特徴エリアの画像データがストアされているとき、特徴エリア検出部144は、ステップST37において、判断対象の特徴エリアの画像データとSDRAM145にストアされている特徴エリア画像データとを用いて、判断対象の特徴エリア画像と除外設定された特徴エリア画像との間で従来周知のマッチング演算を行う。
次に、特徴エリア検出部144は、ステップST38において、ステップST37で得られたマッチング演算結果に基づいて、判断対象の特徴エリア画像と除外設定された特徴エリア画像とが一致するか否かを判断する。
一致すると判断するとき、特徴エリア検出部144は、ステップST39において、判断対象の特徴エリア情報の「特徴エリアマッチング結果」の項目の値として、除外設定された特徴エリアにマッチすることを示す「true」を設定する。一方、一致しないと判断するとき、特徴エリア検出部144は、ステップST40において、判断対象の特徴エリア情報の「特徴エリアマッチング結果」の項目の値として、除外設定された特徴エリアにマッチしないことを示す「false」を設定する。
特徴エリア検出部144は、ステップST39またはステップST40の処理の後、ステップST41の処理に移る。このステップST41において、特徴エリア検出部144は、口の動きを検出する矩形領域ARm決定し(図11参照)、その矩形領域ARmに対して、オプティカルフローにより口の動きを示す動きベクトルを検出する。そして、特徴エリア検出部144は、ステップST42において、口の動き(動きベクトル)から声を出しているか否か、つまり判断対象の特徴エリアに含まれる顔が話者(発声者)の顔であるか否かを判断する。
話者の顔であると判断するとき、特徴エリア検出部144は、ステップST43において、判断対象の特徴エリア情報の「話者の発声検出結果」の項目の値として、特徴エリア内の顔は発声していることを示す「true」を設定する。一方、話者の顔でないと判断するとき、特徴エリア検出部144は、ステップST44において、判断対象の特徴エリア情報の「話者の発声検出結果」の項目の値として、特徴エリア内の顔は発声していないことを示す「false」を設定する。
特徴エリア検出部144は、ステップST43またはステップST44の処理をした後、ステップST35に戻り、次の処理対象の処理に移る。また、ステップST35で未処理の特徴エリアがないとき、特徴エリア検出部144は、直ちにステップST45に進み、処理を終了する。
特徴エリア検出部144から制御部101には、フレーム毎に、上述した特徴エリア検出処理の結果として、登録されている有効化された特徴エリアの情報が供給される。図14(b)は、特徴エリア情報の一例を示している。この特徴エリア情報には、その特徴エリアに付与された特徴エリア番号の値が含まれる。図示のように、この実施の形態においては、特徴エリア番号として、0〜20の間の番号が付与される。
また、特徴エリア情報には、特徴エリアを示す矩形領域座標(Left,Top,Right,Bottom)の値が含まれる。この座標では、例えば、図14(a)に示すように、左上の位置が原点(0ピクセル,0ピクセル)とされる。図示のように、この実施の形態においては、左端座標Leftおよび右端座標Rightは、0〜3200ピクセルの間の値となる。また、図示のように、この実施の形態においては、上端座標Topおよび下端座標Bottomは、0〜2400ピクセルの間の値となる。
また、特徴エリア情報には、除外設定された特徴エリアにマッチするか否かを示す「特徴エリアマッチング結果」、および特徴エリア内の顔が発声しているか否かを示す「話者の発声検出結果」が含まれる。
次に、制御部106の切り出し範囲決定部106における切り出し範囲の決定動作について説明する。
切り出し範囲決定部106は、特徴エリア検出部144で検出された特徴エリア(登録されている有効化された特徴エリア)の情報に基づいて、基本的には、全ての特徴エリアを含むように、切り出し範囲ARbを決定する。この実施の形態において、切り出し範囲決定部106は、さらに、ビデオストリーム画像のアスペクト比となるように切り出し範囲ARbを調整する。
ここで、検出された特徴エリア(一個または複数個の特徴エリア)の、最左端の値をL、最上端の値をT、最右端の値をR、最下端の値をBとする。また、検出された特徴エリアの最上端から切り出し範囲ARbの上端までの距離および検出された特徴エリアの最下端から切り出し範囲ARbの下端までの距離をaとする。また、検出された特徴エリアの最左端から切り出し範囲ARbの左端までの距離および検出された特徴エリアの最右端から切り出し範囲ARbの右端までの距離をbとする。さらに、ビデオストリーム画像のアスペクト比をh:vとする。
切り出し範囲決定部106は、(1)式を満たすように、距離aおよび距離bを求めて、切り出し範囲ARbを決定する。
{|R−L|+2b}:{|B−T|+2a}=h:v ・・・(1)
例えば、図15に示すように、特徴エリア検出部144で、特徴エリア1〜3の3個の特徴エリア(登録されている有効化された特徴エリア)が検出された場合を考える。なお、ビデオストリーミング画像のサイズ(ストリーミングサイズ)は640×480画素であるとし、そのアスペクト比は4:3であるとする。
この場合、特徴エリアの最左端は特徴エリア1の左端L1であり、特徴エリアの最上端は特徴エリア2の上端T2であり、特徴エリアの最右端は特徴エリア3の右端R3であり、特徴エリアの最下端は特徴エリア1の下端B1である。そのため、距離aおよび距離bは、(2)式を満たすように、求められる。
{|R3−L1|+2b}:{|B1−T2|+2a}=4:3 ・・・(2)
この場合、切り出し範囲ARbの、左端は(L1−b)に決定され、上端は(T2−a)に決定され、右端は(R3+b)に決定され、下端は(B1+a)に決定される。
制御部101の切り出し範囲決定部106は、上述したように、基本的には、特徴エリア検出部144で検出された特徴エリアが全て含まれるように、切り出し範囲ARbを決定する。
切り出し範囲決定部106は、特徴エリア検出部144で検出された特徴エリアであっても、除外設定された特徴エリアに関しては、当該特徴エリアが含まれないように、切り出し範囲を決定する。切り出し範囲決定部106は、除外設定された特徴エリアであるか否かを、特徴エリア検出部144から送られてくる特徴エリア情報の「特徴エリアのマッチング結果」の項目の値で認識できる(図14(b)参照)。すなわち、切り出し範囲決定部106は、「特徴エリアのマッチング結果」の項目の値が「true」である特徴エリアは、除外設定された特徴エリアであると認識する。
例えば、特徴エリア検出部144で特徴エリア1〜3の3個の特徴エリアが検出された場合を考える。図16(a)は、特徴エリア1〜3のいずれも除外設定された特徴エリアでない場合を示しており、切り出し範囲決定部106では、特徴エリア1〜3の全てを含むように、切り出し範囲ARbが決定される。これに対して、図16(b)は、特徴エリア1,2は除外設定された特徴エリアでないが、特徴エリア3は除外設定された特徴エリアである場合を示しており、切り出し範囲決定部106では、特徴エリア3を除いて、特徴エリア1,2を含むように、切り出し範囲ARbが決定される。
また、切り出し範囲決定部106は、話者検出モードオンに設定されており、特徴エリア検出部144で検出された特徴エリアの中に話者(発声者)の顔が含まれている特徴エリアがあり、かつ実際に音声入力がある場合には、以下の処理をする。すなわち、切り出し範囲決定部106は、話者(発声者)の顔が含まれている特徴エリア(一個または複数個)を含むように、切り出し範囲ARbを設定する。
切り出し範囲決定部106は、話者(発声者)の顔が含まれている特徴エリアであるか否かを、特徴エリア検出部144から送られてくる特徴エリア情報の「話者の発声検出結果」の項目の値で認識できる(図14(b)参照)。すなわち、切り出し範囲決定部106は、「話者の発声検出結果」の項目の値が「true」である特徴エリアは、話者(発声者)の顔が含まれている特徴エリアであると認識する。
また、切り出し範囲決定部106は、実際に音声入力があるか否かの判断を、話者音声検出部107のレベル判断結果に基づいて行う。話者音声検出部107は、上述したように、A/D変換器116から出力される音声データ(音声情報)のレベルを検出し、この音声レベルが閾値以上であるか否かを判断する。切り出し範囲決定部106は、話者音声検出部107で音声レベルが閾値以上であると判断するとき、実際に音声入力があると判断する。
なお、実際に音声入力があることを条件とすることは必ずしも必要としない。しかし、この条件を加えることで、上述の特徴エリア検出部144における話者(発声者)の判断動作の判断誤りを補完することができる。
ところで、この実施の形態において、話者音声検出部107における音声レベルの閾値は、処理対象の特徴エリアの面積が大きくなるほど大きくされる。図17(a)は処理対象の特徴エリアの面積が大きい場合を示しており、閾値は−THa,+THaとされている。これに対して、図17(b)は処理対象の特徴エリアの面積が小さい場合を示しており、閾値は−THb,+THbとされている。ここで、|THa|>|THb|の関係となる。このように処理対象の特徴エリアの面積に応じて音声レベルの閾値を変化させることで、安定した発声者の検出が可能となる。
また、切り出し範囲決定部106は、ロックモードオンに設定されている場合、切り出し範囲を更新せず、前回のままとする。
図18のフローチャートは、上述の制御部101の切り出し範囲決定部106の処理手順を示している。切り出し範囲決定部106は、1フレーム毎に、図18のフローチャートの処理を行う。
切り出し範囲決定部106は、ステップST51において、処理を開始し、その後に、ステップST52の処理に移る。このステップST52において、切り出し範囲決定部106は、ビデオミーティングモードであるか否かを判断する。ビデオミーティングモードでないとき、切り出し範囲決定部106は、直ちにステップST66に移り、処理を終了する。
ビデオミーティングモードであるとき、切り出し範囲決定部106は、ステップST53の処理に移る。このステップST53において、切り出し範囲決定部106は、ロックモードオンにあるか否かを判断する。ロックモードオンにあるとき、切り出し範囲決定部106は、直ちにステップST66に移り、処理を終了する。一方、ロックモードオンにないとき、切り出し範囲決定部106は、ステップST54の処理に移る。
このステップST54において、切り出し範囲決定部106は、特徴エリア検出部144から、特徴エリア(登録されている有効化された特徴エリア)の情報(図14(b)参照)を取得する。そして、切り出し範囲決定部106は、ステップST55において、未処理の特徴エリアがあるか否か、つまりステップST54で取得した特徴エリア情報で示される全ての特徴エリアについて処理をしたか否かを判断する。
未処理の特徴エリアがあるとき、切り出し範囲決定部106は、ステップST56において、処理対象の特徴エリアが切り出し対象の特徴エリアであるか否か、つまり処理対象の特徴エリアが除外設定された特徴エリアであるか否かを判断する。切り出し範囲決定部106は、この判断を、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値で判断できる(図14(b)参照)。すなわち、切り出し範囲決定部106は、「特徴エリアのマッチング結果」の項目の値が「true」であるとき、処理対象の特徴エリアは除外設定された特徴エリア(切り出し対象でない特徴エリア)であると判断する。
処理対象の特徴エリアが切り出し対象の特徴エリアでないとき、切り出し範囲決定部106は、ステップST55に戻り、次の処理対象の特徴エリアの処理に移る。一方、処理対象の特徴エリアが切り出し対象の特徴エリアであるとき、切り出し範囲決定部106は、ステップST57において、話者の検出フラグが設定済みであるか否かを判断する。
話者の検出フラグは、後述するように、話者検出モードオンに設定されており、処理対象の特徴エリアで話者の発声が検出されており、しかも音声入力がある場合に設定され、話者の特徴エリアで切り出し範囲が更新される状態となる。上述したようにステップST57で話者の検出フラグが設定済みか否かを判断するのは、話者の検出フラグが設定済みである場合、直ちに、処理対象の特徴エリアが話者(発声者)の特徴エリアであるか否かの判断処理に移るためである。
ステップST57で話者の検出フラグが設定済みでない場合、切り出し範囲決定部106は、ステップST58において、処理対象の特徴エリアで切り出し範囲を更新する。すなわち、切り出し範囲決定部106は、現在処理対象の特徴エリアをさらに含むように、切り出し範囲((1)式におけるL,T,R,Bの値)を更新する。一方、ステップST57で話者の検出フラグが設定済みである場合、切り出し範囲決定部106は、ステップST59の処理に移る。
このステップST59において、切り出し範囲決定部106は、話者検出モードオンにあるか否かを判断する。話者検出モードオンにないとき、切り出し範囲決定部106は、ステップST55に戻り、次の処理対象の特徴エリアの処理に移る。一方、話者検出モードにあるとき、切り出し範囲決定部106は、ステップST60の処理に移る。
このステップST60において、切り出し範囲決定部106は、処理対象の特徴エリアで話者の発声が検出されているか否かを判断する。切り出し範囲決定部106は、この判断を、特徴エリア情報の「話者の発声検出結果」の項目の値で判断できる(図14(b)参照)。すなわち、切り出し範囲決定部106は、「話者の発声検出結果」の項目の値が「true」であるとき、処理対象の特徴エリアでは話者の発声が検出されていると判断する。
処理対象の特徴エリアが話者の発声が検出されたものでないとき、切り出し範囲決定部106は、ステップST55に戻り、次の処理対象の特徴エリアの処理に移る。一方、処理対象の特徴エリアが話者の発声が検出されたものであるとき、切り出し範囲決定部106は、ステップST61において、音声入力があるか否かを判断する。切り出し範囲決定部106は、この判断を、話者音声検出部107における、入力音声レベルの判断結果に基づいて行う。
音声入力がないとき、切り出し範囲決定部106は、ステップST55に戻り、次の処理対象の特徴エリアの処理に移る。一方、音声入力があるとき、切り出し範囲決定部106は、ステップST62において、話者の検出フラグを設定し、ステップST63において、処理対象の特徴エリア(話者の特徴エリア)で切り出し範囲を更新する。すなわち、切り出し範囲決定部106は、現在処理対象の特徴エリアを含む、話者の特徴エリアを含むように、切り出し範囲((1)式におけるL,T,R,Bの値)を更新する。切り出し範囲決定部106は、ステップST63の処理の後、ステップST55に戻り、次の処理対象の特徴エリアの処理に移る。
ステップST55で未処理の特徴エリアがないとき、切り出し範囲決定部106は、ステップST64の処理に移る。このステップST64において、切り出し範囲決定部106は、上述の特徴エリアの処理で更新された切り出し範囲を用いて、ビデオストリーム画像のアスペクト比となるように切り出し範囲ARbを調整する(図15参照)。
次に、切り出し範囲決定部106は、ステップST65において、ベースバンド処理部113に、切り出し範囲を、ステップST64で調整した切り出し範囲に変更するように指示し、その後、ステップST66において、処理を終了する。
図18のフローチャートにおいて、ロックモードオンの状態にあるときには、切り出し範囲決定部106は直ちに処理を終了し、この切り出し範囲決定部106からベースバンド処理部113に切り出し範囲の変更指示は行われない。その場合、ベースバンド処理部113は、前のフレームと同じ切り出し範囲の矩形領域座標に基づいて、被写体の撮像画像に対応した画像データ(画像情報)から切り出し範囲の画像データを切り出す。
次に、ビデオミーティングモードにおける具体的な動作例について説明する。なお、ロックモードオフに設定されており、また話者検出モードオンに設定されているものとする。
[動作例1]
特徴エリア検出部144で、撮像画像から、図19に示すように、特徴エリア1〜3が検出され、特徴エリア検出部144から制御部101に、図20(a)〜(c)に示すように、各特徴エリアの情報が供給されるものとする。
ここで、特徴エリア1は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア1は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
また、特徴エリア2は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア2は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
また、また、特徴エリア3は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア3は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
この場合、切り出し範囲決定部106では、特徴エリア1〜3の全てを含むように、切り出し範囲が決定される。そして、切り出し範囲決定部106からベースバンド処理部113に、その切り出し範囲への変更が指示される。
図21(b)は、LCDパネル133の表示状態を示しており、撮像画像上に特徴エリア1〜3を示す枠ARaと、切り出し範囲を示す枠ARbが表示されている。この場合、切り出し範囲には特徴エリア1〜3の全てが含まれている。
図21(c)は、図21(a)に示すように、ビデオカメラ100にUSBケーブル400を介して接続されたPC300の表示パネル310の表示状態を示している。この表示パネル310には、ビデオカメラ100から伝送される切り出し範囲のストリーミング画像(特徴エリア1〜3を含む)が表示されている。
[動作例2]
特徴エリア検出部144で、撮像画像から、図19に示すように、特徴エリア1〜3が検出され、特徴エリア検出部144から制御部101に、図22(a)〜(c)に示すように、各特徴エリアの情報が供給されるものとする。
ここで、特徴エリア1は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア1は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
また、特徴エリア2は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア2は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
また、また、特徴エリア3は、除外設定された特徴エリアであり、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「true」となっている。また、この特徴エリア3は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
この場合、切り出し範囲決定部106では、特徴エリア3を除き、特徴エリア1,2を含むように、切り出し範囲が決定される。そして、切り出し範囲決定部106からベースバンド処理部113に、その切り出し範囲への変更が指示される。
図23(b)は、LCDパネル133の表示状態を示しており、撮像画像上に特徴エリア1〜3を示す枠ARaと、切り出し範囲を示す枠ARbが表示されている。この場合、切り出し範囲には特徴エリア1,2だけが含まれている。
図23(c)は、図23(a)に示すように、ビデオカメラ100にUSBケーブル400を介して接続されたPC300の表示パネル310の表示状態を示している。この表示パネル310には、ビデオカメラ100から伝送される切り出し範囲のストリーミング画像(特徴エリア1,2を含む)が表示されている。
[動作例3]
特徴エリア検出部144で、撮像画像から、図19に示すように、特徴エリア1〜3が検出され、特徴エリア検出部144から制御部101に、図24(a)〜(c)に示すように、各特徴エリアの情報が供給されるものとする。
ここで、特徴エリア1は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア1は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
また、特徴エリア2は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア2は、話者の発声が検出された特徴エリアであり、特徴エリア情報の「話者の発声検出結果」の項目の値は「true」となっている。
また、また、特徴エリア3は、除外設定された特徴エリアであり、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「true」となっている。また、この特徴エリア3は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
この場合、音声入力があるときには、切り出し範囲決定部106では、話者の特徴エリアである特徴エリア2を中心に含むように、切り出し範囲が決定される。そして、切り出し範囲決定部106からベースバンド処理部113に、その切り出し範囲への変更が指示される。
図25(b)は、LCDパネル133の表示状態を示しており、撮像画像上に特徴エリア1〜3を示す枠ARaと、切り出し範囲を示す枠ARbが表示されている。この場合、切り出し範囲には話者の特徴エリアである特徴エリア2が中心に含まれている。なお、話者の特徴エリアである特徴エリア2は、他の特徴エリアとは異なる態様で表示されている。
図25(c)は、図25(a)に示すように、ビデオカメラ100にUSBケーブル400を介して接続されたPC300の表示パネル310の表示状態を示している。この表示パネル310には、ビデオカメラ100から伝送される切り出し範囲のストリーミング画像(特徴エリア2を中心に含む)が表示されている。
以上説明したように、図1に示すビデオカメラ100においては、ビデオミーティングモードにあるとき、特徴エリア検出部144では被写体の撮像画像に対応した画像データ(画像情報)に基づいて顔を含む特徴エリアが検出され、制御部101の切り出し範囲決定部106では特徴エリア検出部144で検出された特徴エリアを含むように切り出し範囲が決定され、ベースバンド処理部113では撮像画像データから切り出し範囲決定部106で決定された切り出し範囲の画像データが切り出され、USB制御部142によりビデオストリーム画像の伝送が行われる。
すなわち、図1に示すビデオカメラ100においては、ビデオミーティングモードにあるとき、撮像画像の特徴エリア(一個または複数個)が含まれるように切り出し範囲が自動的に決定され、この切り出し範囲の画像データが伝送されるものであり、ユーザは、撮像画像の特徴エリアを含むように切り出し範囲を手動で調整する必要がなく、使い勝手が向上する。
また、図1に示すビデオカメラ100においては、ユーザはタッチパネル135またはユーザ操作部102を操作することで、特徴エリア検出部144で検出された特徴エリアのうち所定の特徴エリアを切り出し対象から除外することを設定し、またこの設定を解除できる。そのため、ユーザは、所定の特徴エリアの画像情報を伝送するか否かの選択を容易に行うことができる。
この場合、ユーザは、LCDパネル(表示パネル)133の特徴エリアの表示を用いて設定および解除を行うことでき、設定および解除の操作を容易に行うことができる。また、この場合、グラフィック表示部により、切り出し対象から除外された所定の特徴エリアの表示態様が変化するようにされているので、ユーザは、所定の特徴エリアが切り出し対象から除外されたことを容易に確認できる。
また、図1に示すビデオカメラ100においては、特徴エリア検出部144では、切り出し対象から除外することが設定された所定の特徴エリアの画像データ(画像情報)をSDRAM(記憶部)145に記憶しておき、周期的(1フレーム毎)に検出された特徴エリアの画像データを、SDRAM145に記憶された画像データと比較して、当該検出された特徴エリアが切り出し対象から除外されたものであるかを判断する構成となっている。そのため、切り出し対象から除外された特徴エリアが一旦撮像画像から外れた後再び撮像画像内に入ってきた場合にあっても、当該特徴エリアに対しては切り出し対象から除外されたものであるとの取り扱いを継続できる。
また、図1に示すビデオカメラ100においては、話者検出モードオンに設定されるとき、発声者の顔が含まれる特徴エリア(話者の検出エリア)を中心に含むように切り出し範囲が決定される。そのため、発声者の顔を中心とした画像情報を切り出して伝送できる。ユーザは、タッチパネル135あるいはユーザ操作部102の操作により、話者検出モードのオンオフを設定できるので、切り出し範囲に、検出された全ての特徴エリアを含ませるか、あるいは発声者の顔が含まれる特徴エリアを中心として含ませるかを、容易に選択できる。
また、図1に示すビデオカメラ100においては、ロックモードオンに設定されるとき、切り出し範囲決定部106では、特徴エリア検出部144で検出された特徴エリアの情報による切り出し範囲の更新処理を行わず、ベースバンド処理部113における切り出し範囲はロックされる。したがって、ユーザは、タッチパネル135あるいはユーザ操作部102の操作でロックモードをオンまたはオフに設定することで、切り出し範囲を固定するか、あるいは特徴エリアの検出結果に応じて切り出し範囲を変化させるかを、容易に選択できる。
なお、上述実施の形態においては、特徴エリアに含まれる被写体の特徴的な部分が人間の顔である例を示したが、これに限定されるものではなく、特徴エリアに含まれる被写体の特徴的な部分は、特定の物体、特定の生物等の一部あるいは全部であってもよい。
また、上述実施の形態においては、ビデオストリーミング画像を伝送する手段としてUSB規格の通信手段を用いたが、これに限定されるものではなく、IEEE1394(Institute of Electrical and Electronic Engineers 1394)等の有線手段、あるいはWiFi等の無線手段であってもよい。
また、上述実施の形態においては、切り出し範囲決定部106では、ビデオミーティングモードにおける最終的な切り出し範囲をビデオストリーミング画像のアスペクト比となるように調整しているが、この調整を行わない構成とすることもできる。
100・・・ビデオカメラ、101・・・制御部、102・・・ユーザ操作部、103・・・CPU、104・・・フラッシュROM、105・・・SDAM、106・・・切り出し範囲決定部、107・・・話者音声検出部、111・・・イメージャ、112・・・撮像処理部、113・・・ベースバンド処理部、114・・・SDRAM、115・・・マイクロホン、116・・・A/D変換器、117・・・圧縮/伸長部、118・・・記録/再生部、119・・・記録メディア、121・・・インタフェース、122・・・D端子、123・・・D/A変換器、124・・・音声出力端子、131・・・重畳部、132・・・LCDドライバ、133・・・LCDパネル、134・・・OSD部、135・・・タッチパネル、136・・・座標検出部、141・・・画像圧縮部、142・・・USB制御部、143・・・USBインタフェース、144・・・特徴エリア検出部、145・・・SDRAM