JP2009278568A

JP2009278568A - 画像処理装置および画像処理方法

Info

Publication number: JP2009278568A
Application number: JP2008130173A
Authority: JP
Inventors: Daiki Chiba; 大樹千葉
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-05-16
Filing date: 2008-05-16
Publication date: 2009-11-26
Anticipated expiration: 2028-05-16
Also published as: JP5092888B2

Abstract

【課題】特徴エリアを含む切り出し範囲が自動的に決定されるようにして、ユーザの使い勝手の向上を図る．
【解決手段】特徴エリア検出部１４４は、被写体の撮像画像に対応した画像データに基づいて、被写体の特徴的な部分（顔）を含む特徴エリアを検出する。制御部１０６の切り出し範囲決定部１０６は、特徴エリア検出部１４４で検出された特徴エリアの領域座標に基づいて、検出された特徴エリアを含む切り出し範囲を決定する。ベースバンド処理部１１３は、切り出し範囲決定部１０６で決定された切り出し範囲の領域座標に基づいて撮像画像データから切り出し範囲の画像情報を切り出し、さらにストリーミングサイズに解像度変換して、画像圧縮部１４１に供給する。ＵＳＢ制御部１４２は、画像圧縮部１４１でデータ圧縮処理が施された切り出し範囲の画像データを伝送情報としてＵＳＢインタフェース１４３に出力する。
【選択図】図１

Description

この発明は、画像処理装置および画像処理方法に関する。詳しくは、被写体の特徴的な部分を含む特徴エリアが含まれるように切り出し範囲を決定し、この切り出し範囲の画像情報を伝送することにより、特徴エリアの検出個数が変化する場合であってもユーザは手動で切り出し範囲を調整する必要がなく、ユーザの使い勝手の向上を図るようにした画像処理装置等に係るものである。

従来のＰＣ（Personal Computer）あるいは携帯端末を利用したテレビ電話では、通常話者は１人である。例えば、特許文献１には、話者１人の顔画像を最適な画枠に調整して伝送する技術が記載されている。

この特許文献１に記載される技術では、例えば、図２６（ａ）に示すように、ビデオカメラ２００とＰＣ（Personal Computer）３００がＵＳＢケーブル４００を介して接続された通信ステムにおいては、以下のようなビデオストリーム伝送が可能となる。なお、図２６（ｂ）はビデオカメラ２００の表示パネル２１０の画像表示例を示し、図２６（ｃ）はＰＣ３００の表示パネルの画像表示例を示している。

この場合、ビデオカメラ２００では、図２６（ｂ）に示すように撮像画像から顔を含む検出枠ＦＬａが決定される。そして、ビデオカメラ２００では、撮像画像データから検出枠ＦＬａの画像データが切り出されてＰＣ３００にストリーミング伝送される。そのため、ＰＣ３００の表示パネル３１０には、図２６（ｃ）に示すように、撮像画像のうち上述の検出枠ＦＬａに対応した画像が表示される。
特開２００２−５１３１５号公報

上述の特許文献１に記載の技術は、話者が複数人である場合のテレビ会議には適用できない。この場合、全ての話者が画枠に入るようにカメラの画枠調整を手動で行う必要があり、ユーザの使い勝手がよくない。

この発明の目的は、ユーザの使い勝手の向上を図ることにある。

この発明の概念は、
被写体の撮像画像に対応した画像情報に基づいて、上記被写体の特徴的な部分を含む上記撮像画像の特徴エリアを検出する特徴エリア検出部と、
上記特徴エリア検出部で検出された特徴エリアの領域情報に基づいて、該検出された特徴エリアを含む切り出し範囲を決定する切り出し範囲決定部と、
上記切り出し範囲決定部で決定された切り出し範囲の領域情報に基づいて、上記被写体の撮像画像に対応した画像情報から該切り出し範囲の画像情報を切り出す画像切り出し部と、
上記画像切り出し部で切り出された画像情報を伝送する画像伝送部と
を備える画像処理装置にある。

この発明においては、特徴エリア検出部により、被写体の撮像画像に対応した画像情報に基づいて、撮像画像の特徴エリアが検出される。特徴エリアは、被写体の特徴的な部分、例えば、人間の顔、特定の物体、特定の動物等の一部または全部を含むエリアである。例えば、人間の顔を含む特徴エリアを検出する場合には、従来周知の顔検出の手法が利用される。

切り出し範囲決定部により、特徴エリア検出部で検出された特徴エリアの位置情報に基づいて、この検出された特徴エリアを含む切り出し範囲が決定される。この場合、検出された特徴エリアが複数個ある場合には、その全てを含むように切り出し範囲が決定される。

切り出し範囲は、例えば、受信側における利用便宜のために、所定のアスペクト比となるように決定される。例えば、検出特徴エリアの、最左端の値をＬ、最上端の値をＴ、最右端の値をＲ、最下端の値をＢとし、最上端から切り出し範囲の上端までの距離および最下端から切り出し範囲の下端までの距離をａとし、最左端から切り出し範囲の左端までの距離および最右端から切り出し範囲の右端までの距離をｂとし、アスペクト比をｈ：ｖとするとき、｛｜Ｒ−Ｌ｜＋２ｂ｝：｛｜Ｂ−Ｔ｜＋２ａ｝＝ｈ：ｖの式を満たすように、距離ａおよび距離ｂが求められて、切り出し範囲が決定される。ここで、距離ａおよび距離ｂの領域は、切り出し範囲のアスペクト比をｈ：ｖとするための「のりしろ領域」である。

上述の検出された特徴エリア、および決定された切り出し範囲は、例えば、グラフィック表示部により、撮像画像を表示する表示パネルに、撮像画像に重ねて表示される。この表示により、ユーザは、検出された特徴エリアと、それによって決定された切り出し範囲を容易に認識できるようになる。

画像切り出し部により、切り出し範囲決定部で決定された切り出し範囲の位置情報に基づいて、被写体の撮像画像に対応した画像情報から切り出し範囲の画像情報が切り出される。そして、画像伝送部により、画像切り出し部で切り出された画像情報が伝送される。この場合、画像切り出し部で切り出された画像情報は、直接、あるいは圧縮符号化されて、伝送される。例えば、ＵＳＢケーブルで接続されたＰＣ等の外部機器に送信される。

上述したように、この発明においては、検出された特徴エリアが含まれるように切り出し範囲が自動的に決定され、この切り出し範囲の画像情報が伝送されるものであり、ユーザは、切り出し範囲を調整する必要がなく、使い勝手が向上する。

この発明において、例えば、特徴エリア検出部で検出された特徴エリアから所定の特徴エリアを切り出し対象から除外することを設定し、またこの設定を解除するユーザ操作部をさらに備え、切り出し範囲決定部は、特徴エリア検出部で検出された特徴エリアのうち、ユーザ操作部で切り出し対象から除外された特徴エリアを除く他の特徴エリアを含む切り出し範囲を決定する、ようにされてもよい。ユーザは、ユーザ操作部を操作することで、所定の特徴エリアを切り出し対象から除外し、あるいはその除外を解除することが可能となり、所定の特徴エリアの画像情報を伝送するか否かの選択が可能となる。

この場合、ユーザ操作部は、上述したように、グラフィック表示部により表示パネルに表示された特徴エリアの表示を用い、例えば表示パネル上に配置されたタッチパネルの押圧操作により、設定および解除を行うように、構成されてもよい。ユーザは、このように表示パネルの特徴エリアの表示を用いて設定および解除を行うことで、設定および解除の操作を容易に行うことができる。また、この場合、グラフィック表示部により、切り出し対象から除外された所定の特徴エリアの表示態様が変化するようにされることで、ユーザは、所定の特徴エリアが切り出し対象から除外されたことを容易に確認することが可能となる。

また、この発明において、例えば、特徴エリア検出部は、周期的に、被写体の撮像画像に対応した画像情報に基づいて特徴エリアを検出し、特徴エリア検出部は、ユーザ操作部により切り出し対象から除外することが設定された所定の特徴エリアの画像情報を記憶する記憶部と、特徴エリア検出部で検出された特徴エリアの画像情報と記憶部に記憶されている画像情報とを比較して、特徴エリア検出部で検出された特徴エリアが、切り出し対象から除外することが設定された所定の特徴エリアに対応した特徴エリアであるか否かの判断を行う除外判断部とを有し、切り出し範囲決定部は、特徴エリア検出部で検出された特徴エリアの位置情報および除外判断部の判断結果に基づいて、特徴エリア検出部で検出された特徴エリアのうち、ユーザ操作部で上記切り出し対象から除外された特徴エリアを除く他の特徴エリアを含む切り出し範囲を決定する、ようにされてもよい。

このように切り出し対象から除外することが設定された所定の特徴エリアの画像情報を記憶部に記憶しておき、周期的に検出された特徴エリアの画像情報を記憶部に記憶された画像情報と比較して、当該検出された特徴エリアが切り出し対象から除外されたものであるかを判断する構成とすることで、切り出し対象から除外された特徴エリアが一旦撮像画像から外れた後再び撮像画像内に入ってきた場合にあっても、当該特徴エリアに対しては切り出し対象から除外されたものであるとの取り扱いを継続できる。

また、この発明において、例えば、特徴エリアに含まれる上記被写体の特徴的な部分は人間の顔であり、特徴エリア検出部は、被写体の撮像画像に対応した画像情報に基づいて検出された特徴エリア内の顔が発声者の顔か否かの判断を行う発声者判断部を有し、切り出し範囲決定部は、特徴エリア検出部で検出された特徴エリアの位置情報および発声者判断部の判断結果に基づいて、特徴エリア検出部で検出された特徴エリアに発声者の顔が含まれている特徴エリアがあるとき、この発声者の顔が含まれる特徴エリアを含む切り出し範囲を決定する、ようにされてもよい。この場合、発声者の顔が含まれる特徴エリアを含むように切り出し範囲が決定されるため、発声者の顔を中心とした画像情報を切り出して伝送することが可能となる。

例えば、音声レベル検出部で検出された音声レベルが閾値以上であるときのみ、上述したように発声者の顔の特徴エリアを含むように切り出し範囲が決定されてもよい。この場合、発声者判断部による判断誤りを補完することが可能となる。つまり、発声者判断部において発声者の顔であるとの判断に誤りがある場合、音声レベルが閾値より小さくなることが予想され、発声者判断部による判断が誤りであることがわかる。なお、この場合、発声者の顔が含まれる特徴エリアの大きさが大きくなる程閾値が大きくされることで、安定した発声者の検出が可能となる。

また、この発明において、例えば、話者検出モードのオンまたはオフを設定するユーザ設定部をさらに備え、切り出し範囲決定部は、ユーザ設定部で話者検出モードオンに設定されている場合、特徴エリア検出部で検出された特徴エリアに発声者の顔が含まれる特徴エリアがあるとき、この発声者の顔が含まれる特徴エリアを含む切り出し範囲を決定する、ようにされてもよい。この場合、ユーザは、ユーザ設定部により、切り出し範囲に、検出された全ての特徴エリアを含ませるか、あるいは発声者の顔が含まれる特徴エリアを中心に含ませるかを、選択できる。

例えば、話者検出モードの設定状態は、グラフィック表示部により、表示パネルに表示される。これにより、ユーザは、話者検出モードがオンにあるかオフにあるかを容易に確認できる。この場合、ユーザ設定部は、上述の話者検出モードの設定状態の表示を用い、例えば表示パネル上に配置されたタッチパネルの押圧操作により、オンまたはオフを設定する、構成とされてもよい。ユーザは、このように表示パネルの話者検出モードの設定状態の表示を用いてオンまたはオフの設定を行うことで、設定操作を容易に行うことができる。

また、この発明において、例えば、特徴エリア検出部は、周期的に、被写体の撮像画像に対応した画像情報に基づいて特徴エリアを検出し、切り出し範囲決定部は、周期的に、特徴エリア検出部で検出された特徴エリアの位置情報に基づいて、この検出された特徴エリアを含む切り出し範囲を決定し、切り出し範囲のロックモードのオンまたはオフを設定するユーザ設定部をさらに備え、切り出し範囲決定部は、ユーザ設定部でロックモードオンに設定される場合、切り出し範囲を前回に決定された切り出し範囲にロックする、ようにされてもよい。この場合、ユーザは、ユーザ設定部により、切り出し範囲を固定するか、あるいは特徴エリアの検出結果に応じて切り出し範囲を変化させるかを、選択できる。

例えば、ロックモードの設定状態は、グラフィック表示部により、表示パネルに表示される。これにより、ユーザは、ロックモードがオンにあるかオフにあるかを容易に確認できる。この場合、ユーザ設定部は、上述のロックモードの設定状態の表示を用い、例えば表示パネル上に配置されたタッチパネルの押圧操作により、オンまたはオフを設定する、構成とされてもよい。ユーザは、このように表示パネルのロックモードの設定状態の表示を用いてオンまたはオフの設定を行うことで、設定操作を容易に行うことができる。

この発明によれば、被写体の特徴的な部分を含む特徴エリアが含まれるように切り出し範囲を決定し、この切り出し範囲の画像情報を伝送するものであり、特徴エリアの検出個数が変化する場合であってもユーザは手動で切り出し範囲を調整する必要がなく、ユーザの使い勝手の向上を図ることができる。

以下、図面を参照しながら、この発明の実施の形態について説明する。図１は、実施の形態としてのビデオカメラ（カムコーダ）１００の構成例を示している。このビデオカメラレコーダ１００は、ＵＳＢ（Universal Serial Bus）ビデオストリーミング画像の出力を可能とするものである。

このビデオカメラ１００は、制御部１０１と、ユーザ操作部１０２とを有している。また、このビデオカメラ１００は、イメージャ１１１と、撮像処理部１１２と、ベースバンド処理部１１３と、マイクロホン１１５と、Ａ／Ｄ変換器１１６と、圧縮／伸長部１１７と、記録／再生部１１８とを有している。

また、ビデオカメラ１００は、インタフェース１２１と、Ｄ端子１２２と、Ｄ／Ａ変換器１２３と、音声出力端子１２４とを有している。また、ビデオカメラ１００は、重畳部１３１と、ＬＣＤドライバ１３２と、ＬＣＤパネル１３３と、ＯＳＤ部１３４と、タッチパネル１３５と、座標検出部１３６とを有している。さらに、ビデオカメラ１００は、画像圧縮部１４１と、ＵＳＢ制御部１４２と、ＵＳＢインタフェース１４３と、特徴エリア検出部１４４とを有している。

制御部１０１は、ビデオカメラ１００の各部を制御する。制御部１０１は、ＣＰＵ１０３、フラッシュＲＯＭ１０４およびＳＤＲＡＭ１０５を備えている。フラッシュＲＯＭ１０４は、ＣＰＵ１０３の制御プログラム等を記憶している。ＳＤＲＡＭ１０５は、ＣＰＵ２２０の制御処理に必要なデータの一時記憶等に用いられる。ＣＰＵ１０３は、フラッシュＲＯＭ１０４から読み出したプログラムやデータをＳＤＲＡＭ１０５上に展開してプログラムを起動し、ビデオカメラ１００の各部を制御する。

また、制御部１０１は、切り出し範囲決定部１０６および話者音声検出部１０７を備えている。切り出し範囲決定部１０６は、例えば、ＵＳＢインタフェース１４３がＵＳＢケーブルを介して外部機器に接続されており、ビデオミーティングモードにあるとき、特徴エリア検出部１４０で検出された特徴エリアの位置情報に基づいて、この検出された特徴エリアを含むように切り出し範囲を決定する。この切り出し範囲決定部１０６の処理の詳細については後述する。

話者音声検出部１０７は、Ａ／Ｄ変換器１１６から出力される音声データ（音声情報）に基づいて音声レベルを検出し、この音声レベルが閾値以上であるか否かを判断する。この意味で、話者音声検出部１０７は、音声レベル検出部およびレベル判断部を構成している。この話者音声検出部１０７の処理の詳細については後述する。

後述するように、話者音声検出部１０７の検出結果は、特徴エリアに含まれる顔が発声者の顔であると判断される際に、その判断を補完するために使用される。すなわち、特徴エリアに含まれる顔が発声者の顔であると判断され、かつ、音声レベルが閾値以上であると判断される場合に、特徴エリアに含まれる顔が発声者の顔であるとの判断が確定し、それに基づいて、上述の切り出し範囲決定部１０６では、発声者の顔が含まれる特徴エリアを含むように、切り出し範囲が決定される。

ユーザ操作部１０２は、ユーザインタフェースを構成し、制御部１０１に接続されている。このユーザ操作部１０２は、ビデオカメラ１００の図示しない筐体面に配置されたキー、釦、ダイアル等で構成される。ユーザは、ユーザ操作部１０２を用いて、ビデオカメラ１００の記録、再生等を操作できる。

イメージャ１１１は、例えば、Ｃ−ＭＯＳ(Complementary Metal Oxide Semiconductor）撮像素子、あるいはＣＣＤ(Charge Coupled Device)撮像素子により構成される。撮像処理部１１２は、イメージャ１１１で得られる撮像信号を処理して、被写体の撮像画像に対応した画像データ（画像情報）を生成する。撮像処理部１１２では、例えば、イメージャ１１１から出力される撮像信号（アナログ信号）に対し、サンプルホールドおよび利得制御、アナログ信号からデジタル信号への変換、さらにホワイトバランス調整、ガンマ補正等の処理が行われる。Ａ／Ｄ変換器１１６は、マイクロホン１１５で得られた音声信号をアナログ信号からデジタル信号に変換して、上述の撮像処理部１１２で得られる撮像画像データに対応した音声データを得る。

ベースバンド処理部１１３は、撮像処理部１１２で生成された画像データを一時的に蓄積するためのＳＤＲＡＭ１１４を備えている。ベースバンド処理部１１３は、撮像処理部１１２で生成された画像データを、重畳部１３１を通じてＬＣＤドライバ１３２に供給する。また、ベースバンド処理部１１３は、記録時に、撮像処理部１１２で生成された画像データおよびＡ／Ｄ変換器１１６で得られた音声データを、圧縮／伸長部１１７に供給する。

また、ベースバンド処理部１１３は、再生時に、圧縮／伸長部１１７で得られた再生画像データを、重畳部１３１を通じてＬＣＤドライバ１３２に供給すると共に、インタフェース１２１を通じてＤ端子１２２に出力する。インタフェース１２１は、ベースバンド処理部１１３からの画像データを、デジタル信号からアナログ信号に変換する。また、ベースバンド処理部１１３は、再生時に、圧縮／伸長部１１７で得られた再生音声データを、Ｄ／Ａ変換器１２３を通じて音声出力端子１２４に出力する。Ｄ／Ａ変換器１２３は、ベースバンド処理部１１３からの音声データを、デジタル信号からアナログ信号に変換する。

また、ベースバンド処理部１１３は、例えば、ＵＳＢインタフェース１４３がＵＳＢケーブルを介して外部機器に接続されており、ビデオミーティングモードにあるとき、以下の処理を行う。すなわち、撮像処理部１１２で生成された画像データから、切り出し範囲決定部１０６で決定された切り出し範囲の画像データを切り出す。この意味で、ベースバンド処理部１１３は、画像切り出し部を構成する。また、この切り出し範囲の画像データを、ストリーミングサイズ、例えば、６４０×４８０画素（ＶＧＡ：Video Graphics Array）、あるいは３２０×２４０画素（ＱＶＧＡ：QuarterVideo Graphics Array）に解像度変換（スケーリング処理）して、画像圧縮部１４１に供給する。

圧縮／伸長部１１７は、記録時には、画像データと音声データを、例えば、ＭＰＥＧ（Moving Picture Experts Group）方式でデータ圧縮し、データ圧縮した画像データと音声データとを多重化する。また、圧縮／伸長部１１７は、再生時には、記録／再生部１１８から供給されるＭＰＥＧ信号から画像データと音声データを分離し、さらに伸長処理を施してデータ圧縮処理前の画像データと音声データを復元して、ベースバンド処理部１１３に供給する。

記録／再生部１１８は、記録時には、圧縮／伸長部１１７で生成されたＭＰＥＧ信号を、記録メディア１１９に記録する。また、記録再生部１１８は、再生時には、記録メディア１１９から読み出し、ＭＰＥＧ信号を得る。例えば、記録メディア１１９は、光ディスク、ハードディスク、磁気テープ、半導体メモリなどである。

ＯＳＤ（On Screen Display）回路１３４は、制御部１０１の制御のもと、ＧＵＩ画面用の表示信号を発生する。この表示信号としては、特徴エリア検出部１４０で検出された特徴エリアを示す表示信号、切り出し範囲決定部１０６で決定された切り出し範囲を示す表示信号等がある。ここで、制御部１０１およびＯＳＤ部１３４は、グラフィック表示部を構成している。

重畳部１３１は、ベースバンド処理部１１３から供給される画像データ（撮像画像データ、再生画像データ）に、ＯＳＤ部１３４からの画面表示信号を重畳して、ＬＣＤドライバ１３２に供給する。ＬＣＤドライバ１３２は、重畳部１３１から供給される画像データに基づいて、ＬＣＤパネル１３３を駆動し、このＬＣＤパネル１３３に撮像画像または再生画像を表示する。

上述したように、重畳部１３１で画像データにＧＵＩ画面用の表示信号が重畳されることで、ＬＣＤパネル１３３に表示される撮像画像、あるいは再生画像は、ＧＵＩ画面が重畳されたものとなる。タッチパネル１３５は、ＬＣＤパネル１３３の画面上の位置を指定する位置指定部を構成しており、ＬＣＤパネル１３３の画面上に配置されている。ユーザは、ＬＣＤパネル１３３上に配置されたタッチパネル１３５を用いて、撮像時においては撮像動作、記録動作等、再生時においては再生動作等を操作可能となる。

このタッチパネル１３５は、座標検出部１３６を介して制御部１０１に接続されている。ユーザは、タッチパネル１３５を、指で直接触れるか、あるいはペンで触れるかして、画面上の位置を指定できる。

画像圧縮部１４１は、例えば、ＵＳＢインタフェース１４３がＵＳＢケーブルを介して外部機器に接続されており、ビデオミーティングモードにあるとき、ベースバンド処理部１１３から供給されるストリーミングサイズの画像データに対してデータ圧縮の処理を行う。画像圧縮部１４１は、例えば、モーションＪＰＥＧ（Joint Photographic Experts Group）等の圧縮方式を用いる。

ＵＳＢ制御部１４２は、ＵＳＢインタフェース１４３を介した通信の制御を行う。ＵＳＢインタフェース１４３は、通信ケーブル（ＵＳＢケーブル）を装着するための図示しないコネクタ等により構成される。ＵＳＢ制御部１４２およびＵＳＢインタフェース１４３は、画像伝送部を構成している。ＵＳＢインタフェース１４３は、ＵＳＢケーブルを通じて、外部機器、例えばＰＣ（Personal Computer）等とのデータの送受信を行う。

特徴エリア検出部１４４は、例えば、ＵＳＢインタフェース１４３がＵＳＢケーブルを介して外部機器に接続されており、ビデオミーティングモードにあるとき、以下の処理を行う。すなわち、特徴エリア検出部１４４は、ベースバンド処理部１１３のＳＤＲＡＭ１１４に一時的に蓄積された撮像画像データに基づいて、被写体の特徴的な部分を含む矩形領域としての特徴エリアを検出する。この実施の形態において、被写体の特徴的な部分は、人間の顔とされる。この特徴エリア検出部１４４の処理の詳細については後述する。

図１に示すビデオカメラ１００の動作を説明する。

最初に、撮像時、記録時の動作を説明する。

イメージャ１１１で得られた撮像信号は撮像処理部１１２に供給されて処理され、この撮像処理部１１２からは被写体の撮像画像に対応した画像データ（画像情報）が得られる。また、マイクロホン１１５で得られた音声信号はＡ／Ｄ変換器１１６に供給され、アナログ信号からデジタル信号に変換されて、撮像画像データに対応した撮像音声データが得られる。撮像処理部１１２で得られた撮像画像データおよびＡ／Ｄ変換器１１６で得られた撮像音声データは、ベースバンド処理部１１３に供給される。

ベースバンド処理部１１３に供給された撮像画像データは、重畳部１３１を通じて、ＬＣＤドライバ１３２に供給される。これにより、ＬＣＤパネル１３３には撮像画像が表示され、ユーザはその表示により撮像画像の確認が可能となる。

この状態で、制御部１０１の制御のもと、ＯＳＤ部１３４では、撮像動作、記録動作等をユーザが操作するために使用されるＧＵＩ画面用の表示信号が発生される。この表示信号は、重畳部１３１に供給されて、ベースバンド処理部１１３から供給される撮像画像データに重畳される。

これにより、ＬＣＤパネル１３３に表示される撮像画像には、撮像動作、記録動作等をユーザが操作するために使用されるＧＵＩ画面が重ねて表示される。そのため、ユーザは、ＬＣＤパネル１３３上に配置されたタッチパネル１３５を用いて、撮像動作、記録動作等を操作できる。なお、ユーザは、ユーザ操作部１０２を構成するキー等を用いても同様に撮像動作、記録動作等を操作できる。

上述の撮像状態において、ユーザの記録指示があると、撮像画像データおよび撮像音声データの記録動作が開始される。すなわち、ベースバンド処理部１１３から撮像画像データおよび撮像音声データが圧縮／伸長部１１７に供給される。そして、圧縮／伸長部１１７では、画像データと音声データがそれぞれ例えばＭＰＥＧ方式でデータ圧縮され、その後に双方が多重化されてＭＰＥＧ信号が得られる。このＭＰＥＧ信号は記録／再生部１１８に供給され、記録メディア１１９に記録される。

次に、再生時の動作について説明する。

記録／再生部１１８では、記録メディア１１９からＭＰＥＧ信号が読み出される。このＭＰＥＧ信号は圧縮／伸長部１１７に供給される。この圧縮／伸長部１１７では、記録／再生部１１８から供給されるＭＰＥＧ信号から画像データおよび音声データが分離され、さらに伸長処理が施されて、データ圧縮処理前の画像データと音声データが得られる。これら再生画像データおよび再生音声データはベースバンド処理部１１３に供給される。

ベースバンド処理部１３１に供給された再生画像データは、重畳部１３１を通じて、ＬＣＤドライバ１３２に供給される。これにより、ＬＣＤパネル１３３には再生画像が表示され、ユーザはその表示により再生画像の確認が可能となる。

この状態で、制御部１０１の制御のもと、ＯＳＤ部１３４では、再生動作等をユーザが操作するために使用されるＧＵＩ画面用の表示信号が発生される。この表示信号は、重畳部１３１に供給されて、ベースバンド処理部１１３から供給される再生画像データに重畳される。

これにより、ＬＣＤパネル１３３に表示される再生画像には、再生動作等をユーザが操作するために使用されるＧＵＩ画面が重ねて表示される。そのため、ユーザは、ＬＣＤパネル１３３上に配置されたタッチパネル１３５を用いて、再生動作等を操作できる。なお、ユーザは、ユーザ操作部１０２を構成するキー等を用いても同様に再生動作等を操作できる。

また、圧縮／伸長部１１７からベースバンド処理部１１３に供給される再生画像データは、インタフェース１２１でデジタル信号からアナログ信号に変換され、Ｄ端子１２２に出力される。同様に、圧縮／伸長部１１７からベースバンド処理部１１３に供給される再生音声データは、Ｄ／Ａ変換器１２３でデジタル信号からアナログ信号に変換され、音声出力端子１２４に出力される。

次に、例えば、ＵＳＢインタフェース１４３がＵＳＢケーブルを介して外部機器、例えばＰＣ（Personal Computer）等に接続されており、ビデオミーティングモードにあるときの各部の動作について説明する。

ビデオミーティングモードにあるとき、ビデオカメラ１００の特徴エリア検出部１４４、制御部１０６、ベースバンド処理部１１３およびＵＳＢ制御部１４２は、１フレーム毎に、図２のフローチャートに沿って処理を行う。

まず、ステップＳＴ１において、特徴エリア検出部１４４は、被写体の撮像画像に対応した画像データ（画像情報）に基づいて、被写体の特徴的な部分、この実施の形態においては顔を含む特徴エリアを検出する。特徴エリア検出部１４４は、検出した特徴エリアの領域座標（領域情報）を制御部１０１に供給する。

次に、ステップＳＴ２において、制御部１０１の切り出し範囲決定部１０６は、特徴エリア検出部１４４で検出された特徴エリアの領域座標に基づいて、この検出された特徴エリアを含む切り出し範囲を決定する。切り出し範囲決定部１０６は、決定した切り出し範囲の領域座標（領域情報）をベースバンド処理部１１３に供給する。

次に、ステップＳＴ３において、ベースバンド処理部１１３は、切り出し範囲決定部１０６で決定された切り出し範囲の領域座標に基づいて、被写体の撮像画像に対応した画像情報から切り出し範囲の画像情報を切り出す。さらに、ベースバンド処理部１１３は、切り出された画像情報に対して、ストリーミングサイズ（例えば、６４０×４８０画素、３２０×２４０画素等）に解像度変換して、画像圧縮部１４１に供給する。

次に、ステップＳＴ４において、ＵＳＢ制御部１４２は、画像圧縮部１４１でデータ圧縮処理が施された切り出し範囲の画像データを伝送情報としてＵＳＢインタフェース１４３に出力する。

ここで、ビデオミーティングモードの選択操作について説明する。ビデオカメラ１００においては、ＵＳＢインタフェース１４３がＵＳＢケーブルを介して外部機器に接続されるとき、どのＵＳＢデバイス（プロトコル）を使用して通信するかを、予めビデオカメラ１００のセットアップメニューから選択できるようになっている。図３は、ビデオカメラ１００のＬＣＤパネル１３３に表示される、セットアップメニューの選択例を示している。

この選択例で「マスストレージ」、「PictBridge」、「ビデオストリーミング」または「ビデオミーティング」のいずれかのモードの選択が可能とされている。ユーザは、例えば、タッチパネル１３５の各モードの表示箇所を押圧操作することで、所望のモードを選択できる。図３の選択例では、カーソルＣＡが「ビデオミーティング」の表示位置に移動した状態にあり、「ビデオミーティング」が選択されていることが分かる。

上述したようにセットアップメニューで「ビデオミーティング」を選択し、ＵＳＢインタフェース１４３をＵＳＢケーブルで外部機器と接続することで、ビデオストリーム画像を伝送するビデオミーティングモードとなる。図４は、ＵＳＢケーブルで外部機器と接続する過程におけるＬＣＤパネル１３３の画像表示例を示している。

図４（ａ）は、接続前の状態、すなわち通常モードの表示状態を示している。この表示状態では、撮像画像が表示されている。図４（ｂ）は、接続直後の状態を示しており、ＵＳＢ接続準備画面（黒画面）が表示された状態となる。図４（ｃ）は、接続されて所定時間が経過した後の状態、すなわちビデオミーティングモードの表示状態を示している。この表示状態では、撮像画像が表示され、さらにそれに重ねて、検出された特徴エリアを示す枠ＡＲａと、決定された切り出し範囲を示す枠ＡＲｂが表示される。

また、ビデオミーティングモードのサブモードとして、ロックモードと話者検出モードが用意されている。ロックモードは、現在伝送しているビデオストリーム画像の切り出し範囲（画枠）をロックするモードである。話者検出モードは、発声者の顔が含まれている特徴エリアがあるとき、その特徴エリアを含むように切り出し範囲を決定するモードである。

図４（ｃ）に示すように、ビデオミーティングモードの表示状態では、ＧＵＩ表示として、上述した枠ＡＲａ，ＡＲｂの表示の他に、ロックモードのオン（ロック）またはオフ（アンロック）の設定ボタンＢＴａおよび話者検出モードのオンまたはオフを設定する設定ボタンＢＴｂも表示される。なお、枠ＡＲａ，ＡＲｂおよび設定ボタンＢＴａ，ＢＴｂの表示信号は、制御部１０１の制御により、ＯＳＤ部１３４で発生されて、重畳部１３１で撮像画像データに重畳される。

ユーザは、ＬＣＤパネル１３３上に配置されたタッチパネル１３５の設定ボタンＢＴａに対応した部分を押圧操作することで、ロックモードを、オンからオフへ、さらにオフからオンへと、トグル的に切り替えることができる。この場合、設定ボタンＢＴａの文字表示は、ロックモードオンのときは「ロック」となり、ロックモードオフのときは「アンロック」となる。図４（ｃ）の設定ボタンＢＴａの文字表示は、ロックモードがオン（ロック）であることを示している。

また、ユーザは、ＬＣＤパネル１３３上に配置されたタッチパネル１３５の設定ボタンＢＴｂに対応した部分を押圧操作することで、話者検出モードを、オンからオフへ、さらにオフからオンへと、トグル的に切り替えることができる。この場合、設定ボタンＢＴｂの文字表示は、話者検出モードオンのときは「話者検出オン」となり、話者検出モードオフのときは「話者検出オフ」となる。図４（ｃ）の設定ボタンＢＴｂの文字表示は、話者検出モードがオンであることを示している。

次に、特徴エリア検出部１４４における特徴エリアの検出動作について説明する。特徴エリア検出部１４４は、周期的に、この実施の形態においては１フレーム毎に、被写体の撮像画像に対応した画像データ（画像情報）に基づいて、被写体の特徴的な部分として人間の顔を含む特徴エリアを検出する。

最初、特徴エリア検出部１４４は、撮像画像から顔画像特有の輝度値の分布パターンを検索することで顔画像を検出する。図５は、顔画像特有の輝度値の分布パターン例を示している。この分布パターン例は、ハッチングを付して示すように、輝度値が高い部分の分布パターンを示している。

次に、特徴エリア検出部１４４は、検出された顔画像から、図６に示すように、目、口の位置を検出する。この場合、特徴エリア検出部１４４は、例えば、検出された顔画像を暗い部分と明るい部分にパターン分けすることで、目、口の位置を検出する。

次に、特徴エリア検出部１４４は、図７（ａ）に示すように、目、口の位置からなる矩形エリアを用いて、特徴エリアの矩形領域座標（Ｌｅｆｔ，Ｔｏｐ，Ｒｉｇｈｔ，Ｂｏｔｔｏｍ）を算出する。すなわち、特徴エリア検出部１４４は、目、口の位置から、縦の長さがａで横の長さがｂの矩形エリアを形成する。

そして、特徴エリア検出部１４４は、矩形エリアの左端からさらにｂだけ左側の位置をＬｅｆｔとして求め、矩形エリアの右端からさらにｂだけ右側に移動した位置をＲｉｇｈｔとして求める。また、特徴エリア検出部１４４は、矩形エリアの上端からさらに２ａだけ上側の位置をＴｏｐとして求め、矩形エリアの下端からさらにａだけ下側の位置をＢｏｔｔｏｍとして求める。

図７（ｂ）は、上述したように検出された特徴エリア内に含まれる顔画像の一例を示している。

特徴エリア検出部１４４では、上述したように１フレーム毎に、被写体の撮像画像に対応した画像データ（画像情報）に基づいて、撮像画像の特徴エリアを検出する。この場合、検出精度にもよるが、撮像状態の変化が影響する等して、同一の特徴エリアが各フレームで必ずしも連続して検出されるとは限らない。そのため、各フレームで検出される特徴エリアをそのまま用いて切り出し範囲を決定する場合には、切り出し範囲の変化が激しく、極めて安定性に欠けるものとなる。

そこで、特徴エリア検出部１４４は、特徴エリアの有効化処理を行い、有効化された特徴エリアの情報のみを制御部１０１に送り、切り出し範囲の安定性を図る。特徴エリア検出部１４４における特徴エリアの有効化処理について説明する。

特徴エリア検出部１４４は、有効化処理を行うために、ＳＤＲＡＭ１１４に、メインバッファおよび一時バッファを確保する。メインバッファには、前フレームの時点で特徴エリア番号が付与されている各特徴エリアの特徴エリア情報（図１４（ｂ）参照）が記憶される。この特徴エリア情報には、特徴エリアを示す座表情報が含まれている。

また、一時バッファには、現フレームで検出された各特徴エリアの特徴エリア情報（図１４（ｂ）参照）が記憶される。

特徴エリア検出部１４４は、メインバッファの記憶に係る特徴エリア番号が付与されている各特徴エリアを順次処理対象とする。特徴エリア検出部１４４は、メインバッファおよび一時バッファに記憶された特徴エリア情報に基づいて、処理対象の特徴エリアと一部または全部が重複する特徴エリアが現フレームで検出された特徴エリアの中にあるか否かを判断する。

特徴エリア検出部１４４は、重複する特徴エリアがある場合には、その重複する特徴エリアが処理対象の特徴エリアと同じ特徴エリア番号の特徴エリアであると判断し、処理対象の特徴エリアの検出カウントをインクリメントし、検出カウントが規定値（例えば、３０フレーム）以上であるとき、未だ有効な特徴エリアとして登録されていない場合には、登録する。また、特徴エリア検出部１４４は、重複する特徴エリアがある場合には、この処理対象の特徴エリアの矩形領域座標を重複している現フレームで検出された特徴エリアの矩形領域座標に更新する。

また、特徴エリア検出部１４４は、重複する特徴エリアがない場合には、処理対象の特徴エリアの検出カウントをデクリメントする。特徴エリア検出部１４４は、検出カウントが規定値（例えば、０フレーム）に達するとき、当該処理対象の特徴エリアを、特徴エリア番号の付与対象から削除する。特徴エリア検出部１４４は、この削除に伴って、メインバッファから当該処理対象の特徴エリアの特徴エリア情報（図１４（ｂ）参照）を削除し、さらには登録されている場合にはその登録を削除して、無効化する。

また、特徴エリア検出部１４４は、全ての特徴エリアに対して上述の処理を行った後に、処理対象の特徴エリアのいずれとも重複しない特徴エリア（未処理特徴エリア）が現フレームで検出された特徴エリアの中にあるか場合には、以下の処理を行う。すなわち、特徴エリア検出部１４４は、現フレームの未処理特徴エリアに、特徴エリア番号を新規に割り当て、その検出カウントを１フレームとする。また、特徴エリア検出部１４４は、メインバッファに、当該現フレームの未処理特徴エリアの特徴エリア情報（図１４（ｂ）参照）を追加記憶する。

ここで、メインバッファに、図８（ａ）に示すように、特徴エリア番号が付与されている特徴エリアＡＲａ１，ＡＲａ２が記憶されており、一時バッファに、図８（ｂ）に
示すように、現フレームで検出された特徴エリアＡＲａ１，ＡＲａ２が記憶されている場合を考える。

最初に、メインバッファの特徴エリアＡＲａ１が処理対象とされる。この特徴エリアＡＲａ１は、図９に示すように、一時バッファの特徴エリアＡＲａ３と重複している。そのため、特徴エリア検出部１４４は、一時バッファの特徴エリアＡＲａ３が処理対象のメインバッファの特徴エリアＡＲａ１と同じ特徴エリア番号の特徴エリアであると判断し、処理対象の特徴エリアＡＲａ１の検出カウントをインクリメントし、検出カウントが規定値（例えば、３０フレーム）以上であるとき、未だ有効な特徴エリアとして登録されていない場合には、登録する。また、特徴エリア検出部１４４は、メインバッファの特徴エリアＡＲａ１の矩形領域座標を一時バッファの特徴エリアＡＲａ３の矩形領域座標に更新する。

次に、メインバッファの特徴エリアＡＲａ２が処理対象とされる。図９に示すように、一時バッファには、この特徴エリアＡＲａ２と重複する特徴エリアはない。そのため、特徴エリア検出部１４４は、処理対象のメインバッファの特徴エリアＡＲａ２の検出カウントをデクリメントし、検出カウントが規定値（例えば、０フレーム）に達するとき、この特徴エリアＡＲａ２を特徴エリア番号の付与対象から削除する。

メインバッファの特徴エリアＡＲａ１，ＡＲａ２に対して上述の処理を行った後、一時バッファには、図９に示すように、処理対象の特徴エリアＡＲａ１，ＡＲａ２のいずれとも重複しない特徴エリアＡＲａ４が存在する。特徴エリア検出部１４４は、この特徴エリアＡＲａ４に特徴エリア番号を新規に割り当て、その検出カウントを１フレームとする。また、特徴エリア検出部１４４は、メインバッファに、この特徴エリアＡＲａ４の特徴エリア情報（図１４（ｂ）参照）を追加記憶する。

図１０のフローチャートは、上述の特徴エリア検出部１４４における有効化処理の手順を示している。

特徴エリア検出部１４４は、ステップＳＴ１１において、有効化処理を開始し、その後にステップＳＴ１２の処理に移る。このステップＳＴ１２において、特徴エリア検出部１４４は、メインバッファに未処理の特徴エリアがあるか否かを判断する。未処理の特徴エリアがある場合、特徴エリア検出部１４４は、ステップＳＴ１３において、一時バッファに記憶されている各特徴エリアの特徴エリア情報（座表情報）を検索する。つまり、特徴エリア検出部１４４は、処理対象の特徴エリアと重複する特徴エリアが現フレームで検出された特徴エリアの中にあるか調べる。

次に、特徴エリア検出部１４４は、ステップＳＴ１４において、ステップＳＴ１３の調査結果に基づいて、処理対象の特徴エリアと重複する特徴エリアが、現フレームで検出された特徴エリアの中にあるか否かを判断する。

重複する特徴エリアがあるとき、特徴エリア検出部１４４は、ステップＳＴ１５において、処理対象の特徴エリアに割り当てられている特徴エリア番号の検出カウントをインクリメントする。そして、特徴エリア検出部１４４は、ステップＳＴ１６において、検出カウントが規定値（例えば、３０フレーム）以上であるか否かを判断する。

規定値以上であるとき、特徴エリア検出部１４４は、ステップＳＴ１７において、登録済みの特徴エリアであるか否かを判断する。登録済みでないときは、特徴エリア検出部１４４は、ステップＳＴ１８において、当該処理対象の特徴エリアを登録して有効化する。

特徴エリア検出部１４４は、ステップＳＴ１８の処理の後、ステップＳＴ１９の処理に移る。なお、ステップＳＴ１６で検出カウントが規定値以上でないとき、およびステップＳＴ１７で登録済みであるとき、特徴エリア検出部１４４は、直ちに、ステップＳＴ１９の処理に移る。

このステップＳＴ１９において、特徴エリア検出部１４４は、処理対象の特徴エリアの矩形領域座標を、重複している現フレームで検出された特徴エリアの矩形領域座標に更新する。特徴エリア検出部１４４は、ステップＳＴ１９の処理の後、上述のステップＳＴ１２の処理に戻り、次の処理対象の処理に移る。

また、ステップＳＴ１４で重複する特徴エリアがないとき、特徴エリア検出部１４４は、ステップＳＴ２０において、処理対象の特徴エリアに割り当てられている特徴エリア番号の検出カウントをデクリメントする。そして、特徴エリア検出部１４４は、ステップＳＴ２１において、検出カウントが規定値（例えば、０フレーム）に達したか否かを判断する。

検出カウントが規定値に達したとき、特徴エリア検出部１４４は、ステップＳＴ２２において、当該処理対象の特徴エリアを、特徴エリア番号の付与対象から削除する。特徴エリア検出部１４４は、この削除に伴って、メインバッファから当該処理対象の特徴エリアの特徴エリア情報（図１４（ｂ）参照）を削除し、さらには登録されている場合にはその登録を削除して、無効化する。

特徴エリア検出部１４４は、ステップＳＴ２２の処理の後、ステップＳＴ１２に戻り、次の処理対象の処理に移る。また、ステップＳＴ２１で検出カウントが規定値に達していないとき、特徴エリア検出部１４４は、直ちに、ステップＳＴ１２に戻り、次の処理対象の処理に移る。

また、ステップＳＴ１２で未処理の特徴エリアがないとき、特徴エリア検出部１４４は、ステップＳＴ２３の処理に移る。このステップＳＴ２３において、特徴エリア検出部１４４は、処理対象の特徴エリアのいずれとも重複しない特徴エリア（未処理特徴エリア）が、一時バッファに記憶された現フレームで検出された特徴エリアの中にあるか否かを判断する。

未処理特徴エリアがあるとき、特徴エリア検出部１４４は、ステップＳＴ２４において、現フレームの未処理特徴エリアに、特徴エリア番号を新規に割り当て、その検出カウントを１フレームとする。そして、特徴エリア検出部１４４は、メインバッファに、当該現フレームの未処理特徴エリアの特徴エリア情報（図１４（ｂ）参照）を追加記憶する。一方、未処理特徴エリアがないとき、特徴エリア検出部１４４は、直ちに、ステップＳＴ２５の処理に移り、有効化の処理を終了する。

次に、特徴エリア検出部１４４における話者（発声者）の判断動作について説明する。特徴エリア検出部１４４は、被写体の撮像画像に対応した画像データ（画像情報）に基づいて、検出された各特徴エリア（登録されている有効化された特徴エリア）を順次判断対象の特徴エリアとし、判断対象の特徴エリアに含まれる顔が話者（発声者）の顔か否かを判断する。この意味で、特徴エリア検出部１４４は発声者判断部を構成する。

最初、特徴エリア検出部１４４は、判断対象の特徴エリアの撮像画像の口のエリアに着目し、図１１（ａ）に示すように、口の動きを検出する矩形領域ＡＲｍを決定する。すなわち、特徴エリア検出部１４４は、口の上下方向の中心位置からａ／２だけ上側の位置を矩形領域ＡＲｍの上端として求め、口の上下方向の中心位置からａ／２だけ下側の位置を矩形領域ＡＲｍの下端として求める。また、特徴エリア検出部１４４は、口の左右方向の中心位置からｂだけ左側の位置を矩形領域ＡＲｍの左端として求め、口の左右方向の中心位置からｂだけ右側の位置を矩形領域ＡＲｍの右端として求める。

ここで、ａは、判断対象の特徴エリアの検出時に目、口の位置から形成された矩形エリア（図７（ａ）参照）の縦（上下方向）の長さである。同様に、ｂは、判断対象の特徴エリアの検出時に目、口の位置から形成された矩形エリア（図７（ａ）参照）の横（左右方向）の長さである。図１１（ｂ）は、上述したように特徴エリアの撮像画像上に決定された矩形領域ＡＲｍの一例を示している。

次に、特徴エリア検出部１４４は、上述したように決定された矩形領域ＡＲｍに対して、オプティカルフローにより口の動きを示す動きベクトルを検出する。そして、特徴エリア検出部１４４は、口の動き（動きベクトル）から声を出しているか推定できるとき、判断対象の特徴エリアに含まれる顔が話者（発声者）の顔であると判断する。この場合、判断対象の特徴エリアは、話者の発声が検出された特徴エリアとなる。

次に、特徴エリア検出部１４４における除外エリアの判断動作について説明する。上述したように、ビデオミーティングモードの表示状態では、ＧＵＩ表示として、検出された特徴エリアを示す枠ＡＲａが表示される（図４（ｃ）参照）。ユーザは、ＬＣＤパネル１３３上に配置されたタッチパネル１３５の所定の特徴エリアの部分を押圧操作することで、この所定の特徴エリアを切り出し対象から除外することを設定でき、またその設定を解除できる。なお、この設定および解除の操作は、ＬＣＤパネル１３３に表示された特徴エリアの表示を用いて、ユーザ操作部１０２を操作して行うこともできる。

上述したように、ユーザの操作によって所定の特徴エリアが除外設定された場合、この所定の特徴エリアの特徴エリア番号が制御部１０１から特徴エリア検出部１４４に通知される。特徴エリア検出部１４４は、内蔵されたＳＤＲＡＭ１４５に、通知された特徴エリア番号に基づいて、除外設定された所定の特徴エリアの画像データ（画像情報）をストアする。

ここで、所定の特徴エリアが除外設定されるとき、制御部１０１の制御により、ＯＳＤ部１３４で発生される表示信号が変化し、この所定の特徴エリアの表示態様が変化する。図１２（ａ）は除外設定された特徴エリアがない場合の表示状態を示しており、図１２（ｂ）は右側の特徴エリアが除外設定された場合の表示状態の一例を示している。

特徴エリア検出部１４４は、ＳＤＲＡＭ１４５に除外設定された特徴エリアの画像データがストアされているとき、検出された各特徴エリア（登録されている有効化された特徴エリア）を順次判断対象の特徴エリアとし、判断対象の特徴エリアが除外設定された特徴エリアであるか否かを判断する。この意味で、特徴エリア検出部１４４は、除外判断部を構成する。

この場合、特徴エリア検出部１４４は、判断対象の特徴エリアの画像データとＳＤＲＡＭ１４５にストアされている特徴エリア画像データとを用いて、判断対象の特徴エリア画像と除外設定された特徴エリア画像との間で従来周知のマッチング演算を行う。特徴エリア検出部１４４は、マッチング演算結果により双方の画像が一致すると判断するとき、判断対象の特徴エリアは除外設定された特徴エリアであると判断する。

図１３のフローチャートは、上述した特徴エリア検出部１４４のビデオミーティングモード時の処理手順を示している。特徴エリア検出部１４４は、１フレーム毎に、図１３のフローチャートの処理を行う。

特徴エリア検出部１４４は、ステップＳＴ３１において、処理を開始し、その後に、ステップＳＴ３２の処理に移る。このステップＳＴ３２において、特徴エリア検出部１４４は、ビデオミーティングモードであるか否かを判断する。ビデオミーティングモードでないとき、特徴エリア検出部１４４は、直ちにステップＳＴ４５に移り、処理を終了する。一方、ビデオミーティングモードであるとき、特徴エリア検出部１４４は、ステップＳＴ３３の処理に移る。

このステップＳＴ３３において、特徴エリア検出部１４４は、被写体の撮像画像に対応した画像データ（画像情報）に基づいて、被写体の特徴的な部分として人間の顔を含む特徴エリアを検出する（図５〜図７参照）。そして、特徴エリア検出部１４４は、ステップＳＴ３４において、ステップＳＴ３３で検出された特徴エリアと、前のフレームの時点で特徴エリア番号が付与されている特徴エリアとに基づいて、特徴エリアの有効化処理を行う（図８〜図１０参照）。

次に、特徴エリア検出部１４４は、ステップＳＴ３５において、話者（発声者）判断および除外エリア判断に関して、未処理の特徴エリア（登録されている有効化された特徴エリア）があるか否かを判断する。未処理の特徴エリアがあるときは、ステップＳＴ３６において、特徴エリア検出部１４４は、ＳＤＲＡＭ１４５に除外設定された特徴エリアの画像データ（画像情報）がストアされているか否かを判断する。

除外設定された特徴エリアの画像データがストアされているとき、特徴エリア検出部１４４は、ステップＳＴ３７において、判断対象の特徴エリアの画像データとＳＤＲＡＭ１４５にストアされている特徴エリア画像データとを用いて、判断対象の特徴エリア画像と除外設定された特徴エリア画像との間で従来周知のマッチング演算を行う。

次に、特徴エリア検出部１４４は、ステップＳＴ３８において、ステップＳＴ３７で得られたマッチング演算結果に基づいて、判断対象の特徴エリア画像と除外設定された特徴エリア画像とが一致するか否かを判断する。

一致すると判断するとき、特徴エリア検出部１４４は、ステップＳＴ３９において、判断対象の特徴エリア情報の「特徴エリアマッチング結果」の項目の値として、除外設定された特徴エリアにマッチすることを示す「true」を設定する。一方、一致しないと判断するとき、特徴エリア検出部１４４は、ステップＳＴ４０において、判断対象の特徴エリア情報の「特徴エリアマッチング結果」の項目の値として、除外設定された特徴エリアにマッチしないことを示す「false」を設定する。

特徴エリア検出部１４４は、ステップＳＴ３９またはステップＳＴ４０の処理の後、ステップＳＴ４１の処理に移る。このステップＳＴ４１において、特徴エリア検出部１４４は、口の動きを検出する矩形領域ＡＲｍ決定し（図１１参照）、その矩形領域ＡＲｍに対して、オプティカルフローにより口の動きを示す動きベクトルを検出する。そして、特徴エリア検出部１４４は、ステップＳＴ４２において、口の動き（動きベクトル）から声を出しているか否か、つまり判断対象の特徴エリアに含まれる顔が話者（発声者）の顔であるか否かを判断する。

話者の顔であると判断するとき、特徴エリア検出部１４４は、ステップＳＴ４３において、判断対象の特徴エリア情報の「話者の発声検出結果」の項目の値として、特徴エリア内の顔は発声していることを示す「true」を設定する。一方、話者の顔でないと判断するとき、特徴エリア検出部１４４は、ステップＳＴ４４において、判断対象の特徴エリア情報の「話者の発声検出結果」の項目の値として、特徴エリア内の顔は発声していないことを示す「false」を設定する。

特徴エリア検出部１４４は、ステップＳＴ４３またはステップＳＴ４４の処理をした後、ステップＳＴ３５に戻り、次の処理対象の処理に移る。また、ステップＳＴ３５で未処理の特徴エリアがないとき、特徴エリア検出部１４４は、直ちにステップＳＴ４５に進み、処理を終了する。

特徴エリア検出部１４４から制御部１０１には、フレーム毎に、上述した特徴エリア検出処理の結果として、登録されている有効化された特徴エリアの情報が供給される。図１４（ｂ）は、特徴エリア情報の一例を示している。この特徴エリア情報には、その特徴エリアに付与された特徴エリア番号の値が含まれる。図示のように、この実施の形態においては、特徴エリア番号として、０〜２０の間の番号が付与される。

また、特徴エリア情報には、特徴エリアを示す矩形領域座標（Ｌｅｆｔ，Ｔｏｐ，Ｒｉｇｈｔ，Ｂｏｔｔｏｍ）の値が含まれる。この座標では、例えば、図１４（ａ）に示すように、左上の位置が原点（０ピクセル，０ピクセル）とされる。図示のように、この実施の形態においては、左端座標Leftおよび右端座標Rightは、０〜３２００ピクセルの間の値となる。また、図示のように、この実施の形態においては、上端座標Topおよび下端座標Bottomは、０〜２４００ピクセルの間の値となる。

また、特徴エリア情報には、除外設定された特徴エリアにマッチするか否かを示す「特徴エリアマッチング結果」、および特徴エリア内の顔が発声しているか否かを示す「話者の発声検出結果」が含まれる。

次に、制御部１０６の切り出し範囲決定部１０６における切り出し範囲の決定動作について説明する。

切り出し範囲決定部１０６は、特徴エリア検出部１４４で検出された特徴エリア（登録されている有効化された特徴エリア）の情報に基づいて、基本的には、全ての特徴エリアを含むように、切り出し範囲ＡＲｂを決定する。この実施の形態において、切り出し範囲決定部１０６は、さらに、ビデオストリーム画像のアスペクト比となるように切り出し範囲ＡＲｂを調整する。

ここで、検出された特徴エリア（一個または複数個の特徴エリア）の、最左端の値をＬ、最上端の値をＴ、最右端の値をＲ、最下端の値をＢとする。また、検出された特徴エリアの最上端から切り出し範囲ＡＲｂの上端までの距離および検出された特徴エリアの最下端から切り出し範囲ＡＲｂの下端までの距離をａとする。また、検出された特徴エリアの最左端から切り出し範囲ＡＲｂの左端までの距離および検出された特徴エリアの最右端から切り出し範囲ＡＲｂの右端までの距離をｂとする。さらに、ビデオストリーム画像のアスペクト比をｈ：ｖとする。

切り出し範囲決定部１０６は、（１）式を満たすように、距離ａおよび距離ｂを求めて、切り出し範囲ＡＲｂを決定する。

｛｜Ｒ−Ｌ｜＋２ｂ｝：｛｜Ｂ−Ｔ｜＋２ａ｝＝ｈ：ｖ・・・（１）

例えば、図１５に示すように、特徴エリア検出部１４４で、特徴エリア１〜３の３個の特徴エリア（登録されている有効化された特徴エリア）が検出された場合を考える。なお、ビデオストリーミング画像のサイズ（ストリーミングサイズ）は６４０×４８０画素であるとし、そのアスペクト比は４：３であるとする。

この場合、特徴エリアの最左端は特徴エリア１の左端Ｌ１であり、特徴エリアの最上端は特徴エリア２の上端Ｔ２であり、特徴エリアの最右端は特徴エリア３の右端Ｒ３であり、特徴エリアの最下端は特徴エリア１の下端Ｂ１である。そのため、距離ａおよび距離ｂは、（２）式を満たすように、求められる。

｛｜Ｒ３−Ｌ１｜＋２ｂ｝：｛｜Ｂ１−Ｔ２｜＋２ａ｝＝４：３・・・（２）

この場合、切り出し範囲ＡＲｂの、左端は（Ｌ１−ｂ）に決定され、上端は（Ｔ２−ａ）に決定され、右端は（Ｒ３＋ｂ）に決定され、下端は（Ｂ１＋ａ）に決定される。

制御部１０１の切り出し範囲決定部１０６は、上述したように、基本的には、特徴エリア検出部１４４で検出された特徴エリアが全て含まれるように、切り出し範囲ＡＲｂを決定する。

切り出し範囲決定部１０６は、特徴エリア検出部１４４で検出された特徴エリアであっても、除外設定された特徴エリアに関しては、当該特徴エリアが含まれないように、切り出し範囲を決定する。切り出し範囲決定部１０６は、除外設定された特徴エリアであるか否かを、特徴エリア検出部１４４から送られてくる特徴エリア情報の「特徴エリアのマッチング結果」の項目の値で認識できる（図１４（ｂ）参照）。すなわち、切り出し範囲決定部１０６は、「特徴エリアのマッチング結果」の項目の値が「true」である特徴エリアは、除外設定された特徴エリアであると認識する。

例えば、特徴エリア検出部１４４で特徴エリア１〜３の３個の特徴エリアが検出された場合を考える。図１６(ａ)は、特徴エリア１〜３のいずれも除外設定された特徴エリアでない場合を示しており、切り出し範囲決定部１０６では、特徴エリア１〜３の全てを含むように、切り出し範囲ＡＲｂが決定される。これに対して、図１６（ｂ）は、特徴エリア１，２は除外設定された特徴エリアでないが、特徴エリア３は除外設定された特徴エリアである場合を示しており、切り出し範囲決定部１０６では、特徴エリア３を除いて、特徴エリア１，２を含むように、切り出し範囲ＡＲｂが決定される。

また、切り出し範囲決定部１０６は、話者検出モードオンに設定されており、特徴エリア検出部１４４で検出された特徴エリアの中に話者（発声者）の顔が含まれている特徴エリアがあり、かつ実際に音声入力がある場合には、以下の処理をする。すなわち、切り出し範囲決定部１０６は、話者（発声者）の顔が含まれている特徴エリア（一個または複数個）を含むように、切り出し範囲ＡＲｂを設定する。

切り出し範囲決定部１０６は、話者（発声者）の顔が含まれている特徴エリアであるか否かを、特徴エリア検出部１４４から送られてくる特徴エリア情報の「話者の発声検出結果」の項目の値で認識できる（図１４（ｂ）参照）。すなわち、切り出し範囲決定部１０６は、「話者の発声検出結果」の項目の値が「true」である特徴エリアは、話者（発声者）の顔が含まれている特徴エリアであると認識する。

また、切り出し範囲決定部１０６は、実際に音声入力があるか否かの判断を、話者音声検出部１０７のレベル判断結果に基づいて行う。話者音声検出部１０７は、上述したように、Ａ／Ｄ変換器１１６から出力される音声データ（音声情報）のレベルを検出し、この音声レベルが閾値以上であるか否かを判断する。切り出し範囲決定部１０６は、話者音声検出部１０７で音声レベルが閾値以上であると判断するとき、実際に音声入力があると判断する。

なお、実際に音声入力があることを条件とすることは必ずしも必要としない。しかし、この条件を加えることで、上述の特徴エリア検出部１４４における話者（発声者）の判断動作の判断誤りを補完することができる。

ところで、この実施の形態において、話者音声検出部１０７における音声レベルの閾値は、処理対象の特徴エリアの面積が大きくなるほど大きくされる。図１７（ａ）は処理対象の特徴エリアの面積が大きい場合を示しており、閾値は−ＴＨａ，＋ＴＨａとされている。これに対して、図１７（ｂ）は処理対象の特徴エリアの面積が小さい場合を示しており、閾値は−ＴＨｂ，＋ＴＨｂとされている。ここで、｜ＴＨａ｜＞｜ＴＨｂ｜の関係となる。このように処理対象の特徴エリアの面積に応じて音声レベルの閾値を変化させることで、安定した発声者の検出が可能となる。

また、切り出し範囲決定部１０６は、ロックモードオンに設定されている場合、切り出し範囲を更新せず、前回のままとする。

図１８のフローチャートは、上述の制御部１０１の切り出し範囲決定部１０６の処理手順を示している。切り出し範囲決定部１０６は、１フレーム毎に、図１８のフローチャートの処理を行う。

切り出し範囲決定部１０６は、ステップＳＴ５１において、処理を開始し、その後に、ステップＳＴ５２の処理に移る。このステップＳＴ５２において、切り出し範囲決定部１０６は、ビデオミーティングモードであるか否かを判断する。ビデオミーティングモードでないとき、切り出し範囲決定部１０６は、直ちにステップＳＴ６６に移り、処理を終了する。

ビデオミーティングモードであるとき、切り出し範囲決定部１０６は、ステップＳＴ５３の処理に移る。このステップＳＴ５３において、切り出し範囲決定部１０６は、ロックモードオンにあるか否かを判断する。ロックモードオンにあるとき、切り出し範囲決定部１０６は、直ちにステップＳＴ６６に移り、処理を終了する。一方、ロックモードオンにないとき、切り出し範囲決定部１０６は、ステップＳＴ５４の処理に移る。

このステップＳＴ５４において、切り出し範囲決定部１０６は、特徴エリア検出部１４４から、特徴エリア（登録されている有効化された特徴エリア）の情報（図１４（ｂ）参照）を取得する。そして、切り出し範囲決定部１０６は、ステップＳＴ５５において、未処理の特徴エリアがあるか否か、つまりステップＳＴ５４で取得した特徴エリア情報で示される全ての特徴エリアについて処理をしたか否かを判断する。

未処理の特徴エリアがあるとき、切り出し範囲決定部１０６は、ステップＳＴ５６において、処理対象の特徴エリアが切り出し対象の特徴エリアであるか否か、つまり処理対象の特徴エリアが除外設定された特徴エリアであるか否かを判断する。切り出し範囲決定部１０６は、この判断を、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値で判断できる（図１４（ｂ）参照）。すなわち、切り出し範囲決定部１０６は、「特徴エリアのマッチング結果」の項目の値が「true」であるとき、処理対象の特徴エリアは除外設定された特徴エリア（切り出し対象でない特徴エリア）であると判断する。

処理対象の特徴エリアが切り出し対象の特徴エリアでないとき、切り出し範囲決定部１０６は、ステップＳＴ５５に戻り、次の処理対象の特徴エリアの処理に移る。一方、処理対象の特徴エリアが切り出し対象の特徴エリアであるとき、切り出し範囲決定部１０６は、ステップＳＴ５７において、話者の検出フラグが設定済みであるか否かを判断する。

話者の検出フラグは、後述するように、話者検出モードオンに設定されており、処理対象の特徴エリアで話者の発声が検出されており、しかも音声入力がある場合に設定され、話者の特徴エリアで切り出し範囲が更新される状態となる。上述したようにステップＳＴ５７で話者の検出フラグが設定済みか否かを判断するのは、話者の検出フラグが設定済みである場合、直ちに、処理対象の特徴エリアが話者（発声者）の特徴エリアであるか否かの判断処理に移るためである。

ステップＳＴ５７で話者の検出フラグが設定済みでない場合、切り出し範囲決定部１０６は、ステップＳＴ５８において、処理対象の特徴エリアで切り出し範囲を更新する。すなわち、切り出し範囲決定部１０６は、現在処理対象の特徴エリアをさらに含むように、切り出し範囲（（１）式におけるＬ，Ｔ，Ｒ，Ｂの値）を更新する。一方、ステップＳＴ５７で話者の検出フラグが設定済みである場合、切り出し範囲決定部１０６は、ステップＳＴ５９の処理に移る。

このステップＳＴ５９において、切り出し範囲決定部１０６は、話者検出モードオンにあるか否かを判断する。話者検出モードオンにないとき、切り出し範囲決定部１０６は、ステップＳＴ５５に戻り、次の処理対象の特徴エリアの処理に移る。一方、話者検出モードにあるとき、切り出し範囲決定部１０６は、ステップＳＴ６０の処理に移る。

このステップＳＴ６０において、切り出し範囲決定部１０６は、処理対象の特徴エリアで話者の発声が検出されているか否かを判断する。切り出し範囲決定部１０６は、この判断を、特徴エリア情報の「話者の発声検出結果」の項目の値で判断できる（図１４（ｂ）参照）。すなわち、切り出し範囲決定部１０６は、「話者の発声検出結果」の項目の値が「true」であるとき、処理対象の特徴エリアでは話者の発声が検出されていると判断する。

処理対象の特徴エリアが話者の発声が検出されたものでないとき、切り出し範囲決定部１０６は、ステップＳＴ５５に戻り、次の処理対象の特徴エリアの処理に移る。一方、処理対象の特徴エリアが話者の発声が検出されたものであるとき、切り出し範囲決定部１０６は、ステップＳＴ６１において、音声入力があるか否かを判断する。切り出し範囲決定部１０６は、この判断を、話者音声検出部１０７における、入力音声レベルの判断結果に基づいて行う。

音声入力がないとき、切り出し範囲決定部１０６は、ステップＳＴ５５に戻り、次の処理対象の特徴エリアの処理に移る。一方、音声入力があるとき、切り出し範囲決定部１０６は、ステップＳＴ６２において、話者の検出フラグを設定し、ステップＳＴ６３において、処理対象の特徴エリア（話者の特徴エリア）で切り出し範囲を更新する。すなわち、切り出し範囲決定部１０６は、現在処理対象の特徴エリアを含む、話者の特徴エリアを含むように、切り出し範囲（（１）式におけるＬ，Ｔ，Ｒ，Ｂの値）を更新する。切り出し範囲決定部１０６は、ステップＳＴ６３の処理の後、ステップＳＴ５５に戻り、次の処理対象の特徴エリアの処理に移る。

ステップＳＴ５５で未処理の特徴エリアがないとき、切り出し範囲決定部１０６は、ステップＳＴ６４の処理に移る。このステップＳＴ６４において、切り出し範囲決定部１０６は、上述の特徴エリアの処理で更新された切り出し範囲を用いて、ビデオストリーム画像のアスペクト比となるように切り出し範囲ＡＲｂを調整する（図１５参照）。

次に、切り出し範囲決定部１０６は、ステップＳＴ６５において、ベースバンド処理部１１３に、切り出し範囲を、ステップＳＴ６４で調整した切り出し範囲に変更するように指示し、その後、ステップＳＴ６６において、処理を終了する。

図１８のフローチャートにおいて、ロックモードオンの状態にあるときには、切り出し範囲決定部１０６は直ちに処理を終了し、この切り出し範囲決定部１０６からベースバンド処理部１１３に切り出し範囲の変更指示は行われない。その場合、ベースバンド処理部１１３は、前のフレームと同じ切り出し範囲の矩形領域座標に基づいて、被写体の撮像画像に対応した画像データ（画像情報）から切り出し範囲の画像データを切り出す。

次に、ビデオミーティングモードにおける具体的な動作例について説明する。なお、ロックモードオフに設定されており、また話者検出モードオンに設定されているものとする。

［動作例１］

特徴エリア検出部１４４で、撮像画像から、図１９に示すように、特徴エリア１〜３が検出され、特徴エリア検出部１４４から制御部１０１に、図２０（ａ）〜（ｃ）に示すように、各特徴エリアの情報が供給されるものとする。

ここで、特徴エリア１は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア１は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。

また、特徴エリア２は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア２は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。

また、また、特徴エリア３は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア３は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。

この場合、切り出し範囲決定部１０６では、特徴エリア１〜３の全てを含むように、切り出し範囲が決定される。そして、切り出し範囲決定部１０６からベースバンド処理部１１３に、その切り出し範囲への変更が指示される。

図２１（ｂ）は、ＬＣＤパネル１３３の表示状態を示しており、撮像画像上に特徴エリア１〜３を示す枠ＡＲａと、切り出し範囲を示す枠ＡＲｂが表示されている。この場合、切り出し範囲には特徴エリア１〜３の全てが含まれている。

図２１（ｃ）は、図２１（ａ）に示すように、ビデオカメラ１００にＵＳＢケーブル４００を介して接続されたＰＣ３００の表示パネル３１０の表示状態を示している。この表示パネル３１０には、ビデオカメラ１００から伝送される切り出し範囲のストリーミング画像（特徴エリア１〜３を含む）が表示されている。

［動作例２］

特徴エリア検出部１４４で、撮像画像から、図１９に示すように、特徴エリア１〜３が検出され、特徴エリア検出部１４４から制御部１０１に、図２２（ａ）〜（ｃ）に示すように、各特徴エリアの情報が供給されるものとする。

また、また、特徴エリア３は、除外設定された特徴エリアであり、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「true」となっている。また、この特徴エリア３は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。

この場合、切り出し範囲決定部１０６では、特徴エリア３を除き、特徴エリア１，２を含むように、切り出し範囲が決定される。そして、切り出し範囲決定部１０６からベースバンド処理部１１３に、その切り出し範囲への変更が指示される。

図２３（ｂ）は、ＬＣＤパネル１３３の表示状態を示しており、撮像画像上に特徴エリア１〜３を示す枠ＡＲａと、切り出し範囲を示す枠ＡＲｂが表示されている。この場合、切り出し範囲には特徴エリア１，２だけが含まれている。

図２３（ｃ）は、図２３（ａ）に示すように、ビデオカメラ１００にＵＳＢケーブル４００を介して接続されたＰＣ３００の表示パネル３１０の表示状態を示している。この表示パネル３１０には、ビデオカメラ１００から伝送される切り出し範囲のストリーミング画像（特徴エリア１，２を含む）が表示されている。

［動作例３］

特徴エリア検出部１４４で、撮像画像から、図１９に示すように、特徴エリア１〜３が検出され、特徴エリア検出部１４４から制御部１０１に、図２４（ａ）〜（ｃ）に示すように、各特徴エリアの情報が供給されるものとする。

また、特徴エリア２は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア２は、話者の発声が検出された特徴エリアであり、特徴エリア情報の「話者の発声検出結果」の項目の値は「true」となっている。

この場合、音声入力があるときには、切り出し範囲決定部１０６では、話者の特徴エリアである特徴エリア２を中心に含むように、切り出し範囲が決定される。そして、切り出し範囲決定部１０６からベースバンド処理部１１３に、その切り出し範囲への変更が指示される。

図２５（ｂ）は、ＬＣＤパネル１３３の表示状態を示しており、撮像画像上に特徴エリア１〜３を示す枠ＡＲａと、切り出し範囲を示す枠ＡＲｂが表示されている。この場合、切り出し範囲には話者の特徴エリアである特徴エリア２が中心に含まれている。なお、話者の特徴エリアである特徴エリア２は、他の特徴エリアとは異なる態様で表示されている。

図２５（ｃ）は、図２５（ａ）に示すように、ビデオカメラ１００にＵＳＢケーブル４００を介して接続されたＰＣ３００の表示パネル３１０の表示状態を示している。この表示パネル３１０には、ビデオカメラ１００から伝送される切り出し範囲のストリーミング画像（特徴エリア２を中心に含む）が表示されている。

以上説明したように、図１に示すビデオカメラ１００においては、ビデオミーティングモードにあるとき、特徴エリア検出部１４４では被写体の撮像画像に対応した画像データ（画像情報）に基づいて顔を含む特徴エリアが検出され、制御部１０１の切り出し範囲決定部１０６では特徴エリア検出部１４４で検出された特徴エリアを含むように切り出し範囲が決定され、ベースバンド処理部１１３では撮像画像データから切り出し範囲決定部１０６で決定された切り出し範囲の画像データが切り出され、ＵＳＢ制御部１４２によりビデオストリーム画像の伝送が行われる。

すなわち、図１に示すビデオカメラ１００においては、ビデオミーティングモードにあるとき、撮像画像の特徴エリア（一個または複数個）が含まれるように切り出し範囲が自動的に決定され、この切り出し範囲の画像データが伝送されるものであり、ユーザは、撮像画像の特徴エリアを含むように切り出し範囲を手動で調整する必要がなく、使い勝手が向上する。

また、図１に示すビデオカメラ１００においては、ユーザはタッチパネル１３５またはユーザ操作部１０２を操作することで、特徴エリア検出部１４４で検出された特徴エリアのうち所定の特徴エリアを切り出し対象から除外することを設定し、またこの設定を解除できる。そのため、ユーザは、所定の特徴エリアの画像情報を伝送するか否かの選択を容易に行うことができる。

この場合、ユーザは、ＬＣＤパネル（表示パネル）１３３の特徴エリアの表示を用いて設定および解除を行うことでき、設定および解除の操作を容易に行うことができる。また、この場合、グラフィック表示部により、切り出し対象から除外された所定の特徴エリアの表示態様が変化するようにされているので、ユーザは、所定の特徴エリアが切り出し対象から除外されたことを容易に確認できる。

また、図１に示すビデオカメラ１００においては、特徴エリア検出部１４４では、切り出し対象から除外することが設定された所定の特徴エリアの画像データ（画像情報）をＳＤＲＡＭ（記憶部）１４５に記憶しておき、周期的（１フレーム毎）に検出された特徴エリアの画像データを、ＳＤＲＡＭ１４５に記憶された画像データと比較して、当該検出された特徴エリアが切り出し対象から除外されたものであるかを判断する構成となっている。そのため、切り出し対象から除外された特徴エリアが一旦撮像画像から外れた後再び撮像画像内に入ってきた場合にあっても、当該特徴エリアに対しては切り出し対象から除外されたものであるとの取り扱いを継続できる。

また、図１に示すビデオカメラ１００においては、話者検出モードオンに設定されるとき、発声者の顔が含まれる特徴エリア（話者の検出エリア）を中心に含むように切り出し範囲が決定される。そのため、発声者の顔を中心とした画像情報を切り出して伝送できる。ユーザは、タッチパネル１３５あるいはユーザ操作部１０２の操作により、話者検出モードのオンオフを設定できるので、切り出し範囲に、検出された全ての特徴エリアを含ませるか、あるいは発声者の顔が含まれる特徴エリアを中心として含ませるかを、容易に選択できる。

また、図１に示すビデオカメラ１００においては、ロックモードオンに設定されるとき、切り出し範囲決定部１０６では、特徴エリア検出部１４４で検出された特徴エリアの情報による切り出し範囲の更新処理を行わず、ベースバンド処理部１１３における切り出し範囲はロックされる。したがって、ユーザは、タッチパネル１３５あるいはユーザ操作部１０２の操作でロックモードをオンまたはオフに設定することで、切り出し範囲を固定するか、あるいは特徴エリアの検出結果に応じて切り出し範囲を変化させるかを、容易に選択できる。

なお、上述実施の形態においては、特徴エリアに含まれる被写体の特徴的な部分が人間の顔である例を示したが、これに限定されるものではなく、特徴エリアに含まれる被写体の特徴的な部分は、特定の物体、特定の生物等の一部あるいは全部であってもよい。

また、上述実施の形態においては、ビデオストリーミング画像を伝送する手段としてＵＳＢ規格の通信手段を用いたが、これに限定されるものではなく、ＩＥＥＥ１３９４（Institute of Electrical and Electronic Engineers 1394）等の有線手段、あるいはＷｉＦｉ等の無線手段であってもよい。

また、上述実施の形態においては、切り出し範囲決定部１０６では、ビデオミーティングモードにおける最終的な切り出し範囲をビデオストリーミング画像のアスペクト比となるように調整しているが、この調整を行わない構成とすることもできる。

この発明は、ＰＣあるいは携帯端末を利用したテレビ電話、テレビ会議等のコミュニケーションシステム等に適用できる。

この発明の実施の形態としてのビデオカメラの構成例を示すブロック図である。ビデオミーティングモードにおける、ビデオカメラの特徴エリア検出部、制御部、ベースバンド処理部およびＵＳＢ制御部の処理を説明するためのフローチャートである。ビデオカメラのＬＣＤパネルに表示される、セットアップメニューの選択例を示す図である。ＵＳＢケーブルで外部機器と接続する過程におけるＬＣＤパネルの画像表示例を示す図である。顔画像を検出する際に使用される顔画像特有の輝度値（高輝度値）の分布パターンを示す図である。顔画像を暗い部分と明るい部分にパターン分けすることで検出される目、口の位置を示す図である。目、口の位置からなる矩形エリアを用いて、特徴エリアの矩形領域座標（Left,Top,Right,Bottom）を算出することを説明するための図である。特徴エリア検出部における特徴エリアの有効化処理で使用されるメインバッファおよび一時バッファのデータ格納例を示す図である。特徴エリア検出部における特徴エリアの有効化処理の動作を説明するための図である。特徴エリア検出部における有効化処理の手順を説明するためのフローチャートである。特徴エリア検出部における話者（発声者）の判断動作において使用される、口の動きを検出する矩形領域の決定方法を説明するための図である。除外設定された特徴エリアがない場合、および除外設定された特徴エリアがある場合の表示状態の一例を示す図である。特徴エリア検出部のビデオミーティングモード時の処理手順を説明するためのフローチャートである。特徴エリア検出部から制御部に供給される特徴エリア情報を説明するための図である。切り出し範囲決定部におけるビデオストリーム画像のアスペクト比を考慮した切り出し範囲の決定方法を説明するための図である。特徴エリア検出部で特徴エリア１〜３の３個の特徴エリアが検出された場合における表示例を示す図である。話者音声検出部における音声レベルの閾値と処理対象の特徴エリアの面積との関係を説明するための図である。制御部の切り出し範囲決定部の処理手順を説明するためのフローチャートである。特徴エリア検出部における、撮像画像からの特徴エリアの検出例を示す図である。検出された特徴エリアに除外設定された特徴エリアおよび話者発声が検出された特徴エリアのいずれも含まない場合における、特徴エリア検出部から制御部に供給される特徴エリア情報の一例を示す図である。検出された特徴エリアに除外設定された特徴エリアおよび話者発声が検出された特徴エリアのいずれも含まない場合における、ビデオカメラのＬＣＤパネルおよびＰＣの表示パネルの表示例を示す図である。特徴エリア検出部で検出された特徴エリアに除外設定された特徴エリアを含む場合における、特徴エリア検出部から制御部に供給される特徴エリア情報の一例を示す図である。特徴エリア検出部で検出された特徴エリアに除外設定された特徴エリアを含む場合における、ビデオカメラのＬＣＤパネルおよびＰＣの表示パネルの表示例を示す図である。特徴エリア検出部で検出された特徴エリアに除外設定された特徴エリアおよび話者発声が検出された特徴エリアの双方を含む場合における、特徴エリア検出部から制御部に供給される特徴エリア情報の一例を示す図である。特徴エリア検出部で検出された特徴エリアに除外設定された特徴エリアおよび話者発声が検出された特徴エリアの双方を含む場合における、ビデオカメラのＬＣＤパネルおよびＰＣの表示パネルの表示例を示す図である。ビデオカメラとＰＣがＵＳＢケーブルを介して接続された従来の通信ステムにおける、ビデオカメラの表示パネルおよびＰＣの表示パネルの表示例を示す図である。

符号の説明

１００・・・ビデオカメラ、１０１・・・制御部、１０２・・・ユーザ操作部、１０３・・・ＣＰＵ、１０４・・・フラッシュＲＯＭ、１０５・・・ＳＤＡＭ、１０６・・・切り出し範囲決定部、１０７・・・話者音声検出部、１１１・・・イメージャ、１１２・・・撮像処理部、１１３・・・ベースバンド処理部、１１４・・・ＳＤＲＡＭ、１１５・・・マイクロホン、１１６・・・Ａ／Ｄ変換器、１１７・・・圧縮／伸長部、１１８・・・記録／再生部、１１９・・・記録メディア、１２１・・・インタフェース、１２２・・・Ｄ端子、１２３・・・Ｄ／Ａ変換器、１２４・・・音声出力端子、１３１・・・重畳部、１３２・・・ＬＣＤドライバ、１３３・・・ＬＣＤパネル、１３４・・・ＯＳＤ部、１３５・・・タッチパネル、１３６・・・座標検出部、１４１・・・画像圧縮部、１４２・・・ＵＳＢ制御部、１４３・・・ＵＳＢインタフェース、１４４・・・特徴エリア検出部、１４５・・・ＳＤＲＡＭ

Claims

被写体の撮像画像に対応した画像情報に基づいて、上記被写体の特徴的な部分を含む上記撮像画像の特徴エリアを検出する特徴エリア検出部と、
上記特徴エリア検出部で検出された特徴エリアの領域情報に基づいて、該検出された特徴エリアを含む切り出し範囲を決定する切り出し範囲決定部と、
上記切り出し範囲決定部で決定された切り出し範囲の領域情報に基づいて、上記被写体の撮像画像に対応した画像情報から該切り出し範囲の画像情報を切り出す画像切り出し部と、
上記画像切り出し部で切り出された画像情報を伝送する画像伝送部と
を備える画像処理装置。
被写体を撮像して上記被写体の撮像画像に対応した画像情報を得る撮像部をさらに備える
請求項１に記載の画像処理装置。
上記画像切り出し部で切り出された画像情報に対して圧縮符号化処理を行う画像圧縮部をさらに備え、
上記画像伝送部は、上記画像圧縮部で圧縮符号化された画像情報を伝送する
請求項１に記載の画像処理装置。
上記被写体の撮像画像に対応した画像情報に基づいて、上記撮像画像を表示する表示パネルと、
上記表示パネルに、上記撮像画像に重ねて、上記特徴エリア検出部で検出された特徴エリアおよび上記切り出し範囲決定部で決定された切り出し範囲を表示するグラフィック表示部とをさらに備える
請求項１に記載の画像処理装置。
上記特徴エリアに含まれる上記被写体の特徴的な部分は、人間の顔である
請求項１に記載の画像処理装置。
上記切り出し範囲決定部は、上記特徴エリア検出部で検出された特徴エリアを含み、かつ所定のアスペクト比となるように、上記切り出し範囲を決定する
請求項１に記載の画像処理装置。
上記切り出し範囲決定部は、
上記特徴エリア検出部で検出された特徴エリアの、最左端の値をＬ、最上端の値をＴ、最右端の値をＲ、最下端の値をＢとし、
上記最上端から上記切り出し範囲の上端までの距離および上記最下端から上記切り出し範囲の下端までの距離をａとし、
上記最左端から上記切り出し範囲の左端までの距離および上記最右端から上記切り出し範囲の右端までの距離をｂとし、
上記アスペクト比をｈ：ｖとするとき、
｛｜Ｒ−Ｌ｜＋２ｂ｝：｛｜Ｂ−Ｔ｜＋２ａ｝＝ｈ：ｖ
の式を満たすように、距離ａおよび距離ｂを求めて、上記切り出し範囲を決定する
請求項６に記載の画像処理装置。
上記特徴エリア検出部で検出された特徴エリアから所定の特徴エリアを切り出し対象から除外することを設定し、また該設定を解除するユーザ操作部をさらに備え、
上記切り出し範囲決定部は、上記特徴エリア検出部で検出された特徴エリアのうち、上記ユーザ操作部で上記切り出し対象から除外された特徴エリアを除く他の特徴エリアを含む切り出し範囲を決定する
請求項１に記載の画像処理装置。
上記被写体の撮像画像に対応した画像情報に基づいて、上記撮像画像を表示する表示パネルと、
上記表示パネルに、上記撮像画像に重ねて、上記特徴エリア検出部で検出された特徴エリアおよび上記切り出し範囲決定部で決定された切り出し範囲を表示するグラフィック表示部とをさらに備え、
上記ユーザ操作部は、上記表示パネルに表示された上記特徴エリア検出部で検出された特徴エリアの表示を用いて、上記設定および上記解除を行う
請求項８に記載の画像処理装置。
上記グラフィック表示部は、上記ユーザ操作部で所定の特徴エリアの上記切り出し対象からの除外が設定されるとき、該所定の特徴エリアの上記表示パネルにおける表示の態様を変化させる
請求項９に記載の画像処理装置。
上記ユーザ操作部は、上記表示パネル上に配置されたタッチパネルにより構成され、
ユーザは、上記表示パネルに表示されている所定の特徴エリアに対応した上記タッチパネル上の位置を押圧操作することで、該所定の特徴エリアに対する上記設定および上記解除を行う
請求項９に記載の画像処理装置。
上記特徴エリア検出部は、周期的に、上記被写体の撮像画像に対応した画像情報に基づいて、上記特徴エリアを検出し、
上記特徴エリア検出部は、上記ユーザ操作部により上記切り出し対象から除外することが設定された上記所定の特徴エリアの画像情報を記憶する記憶部と、
上記特徴エリア検出部で検出された特徴エリアの画像情報と上記記憶部に記憶されている画像情報とを比較して、上記特徴エリア検出部で検出された特徴エリアが、切り出し対象から除外することが設定された上記所定の特徴エリアに対応した特徴エリアであるか否かの判断を行う除外判断部とを有し、
上記切り出し範囲決定部は、上記特徴エリア検出部で検出された特徴エリアの領域情報および上記除外判断部の判断結果に基づいて、上記特徴エリア検出部で検出された特徴エリアのうち、上記ユーザ操作部で上記切り出し対象から除外された特徴エリアを除く他の特徴エリアを含む切り出し範囲を決定する
請求項８に記載の画像処理装置。
上記特徴エリアに含まれる上記被写体の特徴的な部分は人間の顔であり、
上記特徴エリア検出部は、上記被写体の撮像画像に対応した画像情報に基づいて検出された特徴エリア内の顔が発声者の顔か否かの判断を行う発声者判断部を有し、
上記切り出し範囲決定部は、上記特徴エリア検出部で検出された特徴エリアの領域情報および上記発声者判断部の判断結果に基づいて、上記特徴エリア検出部で検出された特徴エリアに発声者の顔が含まれている特徴エリアがあるとき、該発声者の顔が含まれる特徴エリアを含む切り出し範囲を決定する
請求項１に記載の画像処理装置。
上記画像情報に対応した音声情報に基づいて音声レベルを検出する音声レベル検出部と、
上記音声レベル検出部で検出された音声レベルが閾値以上であるか否かを判断するレベル判断部とをさらに備え、
上記切り出し範囲決定部は、上記特徴エリア検出部で検出された特徴エリアに発声者の顔が含まれる特徴エリアがあると共に、上記音声レベル検出部で検出された音声レベルが上記レベル判断部で閾値以上であると判断されるとき、該発声者の顔が含まれる特徴エリアを含む切り出し範囲を決定する
請求項１３に記載の画像処理装置。
上記レベル判断部で使用される閾値は、上記発声者の顔が含まれる特徴エリアの大きさが大きくなる程大きくされる
請求項１４に記載の画像処理装置。
話者検出モードのオンまたはオフを設定するユーザ設定部をさらに備え、
上記切り出し範囲決定部は、上記ユーザ設定部で話者検出モードオンに設定されている場合、
上記特徴エリア検出部で検出された特徴エリアに発声者の顔が含まれる特徴エリアがあるとき、該発声者の顔が含まれる特徴エリアを含む切り出し範囲を決定する
請求項１３に記載の画像処理装置。
上記被写体の撮像画像に対応した画像情報に基づいて、上記撮像画像を表示する表示パネルと、
上記表示パネルに、上記話者検出モードの設定状態を表示するグラフィック表示部とをさらに有する
請求項１６に記載の画像処理装置。
上記ユーザ設定部は、上記表示パネルに表示された上記話者検出モードの設定状態の表示を用いて、上記話者検出モードのオンまたはオフを設定する
請求項１７に記載の画像処理装置。
上記特徴エリア検出部は、周期的に、上記被写体の撮像画像に対応した画像情報に基づいて上記特徴エリアを検出し、
上記切り出し範囲決定部は、上記周期的に、上記特徴エリア検出部で検出された特徴エリアの位置情報に基づいて、該検出された特徴エリアを含む切り出し範囲を決定し、
切り出し範囲のロックモードのオンまたはオフを設定するユーザ設定部をさらに備え、
上記切り出し範囲決定部は、上記ユーザ設定部でロックモードオンに設定される場合、上記切り出し範囲を前回に決定された切り出し範囲にロックする
請求項１に記載の画像処理装置。
上記被写体の撮像画像に対応した画像情報に基づいて、上記撮像画像を表示する表示パネルと、
上記表示パネルに、上記ロックモードの設定状態を表示するグラフィック表示部とをさらに有する
請求項１９に記載の画像処理装置。
上記ユーザ設定部は、上記表示パネルに表示された上記ロックモードの設定状態の表示を用いて、上記ロックモードのオンまたはオフを設定する
請求項２０に記載の画像処理装置。
被写体の撮像画像に対応した画像情報に基づいて、上記被写体の特徴的な部分を含む上記撮像画像の特徴エリアを検出する特徴エリア検出ステップと、
上記特徴エリア検出ステップで検出された特徴エリアの領域情報に基づいて、該検出された特徴エリアを含む切り出し範囲を決定する切り出し範囲決定ステップと、
上記切り出し範囲決定ステップで決定された切り出し範囲の領域情報に基づいて、上記被写体の撮像画像に対応した画像情報から該切り出し範囲の画像情報を切り出す画像切り出しステップと、
上記画像切り出しステップで切り出された画像情報を伝送する画像伝送ステップと
を有する画像処理方法。