JP2009278568A - 画像処理装置および画像処理方法 - Google Patents

画像処理装置および画像処理方法 Download PDF

Info

Publication number
JP2009278568A
JP2009278568A JP2008130173A JP2008130173A JP2009278568A JP 2009278568 A JP2009278568 A JP 2009278568A JP 2008130173 A JP2008130173 A JP 2008130173A JP 2008130173 A JP2008130173 A JP 2008130173A JP 2009278568 A JP2009278568 A JP 2009278568A
Authority
JP
Japan
Prior art keywords
feature area
unit
image
cutout range
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008130173A
Other languages
English (en)
Other versions
JP5092888B2 (ja
Inventor
Daiki Chiba
大樹 千葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008130173A priority Critical patent/JP5092888B2/ja
Publication of JP2009278568A publication Critical patent/JP2009278568A/ja
Application granted granted Critical
Publication of JP5092888B2 publication Critical patent/JP5092888B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

【課題】特徴エリアを含む切り出し範囲が自動的に決定されるようにして、ユーザの使い勝手の向上を図る.
【解決手段】特徴エリア検出部144は、被写体の撮像画像に対応した画像データに基づいて、被写体の特徴的な部分(顔)を含む特徴エリアを検出する。制御部106の切り出し範囲決定部106は、特徴エリア検出部144で検出された特徴エリアの領域座標に基づいて、検出された特徴エリアを含む切り出し範囲を決定する。ベースバンド処理部113は、切り出し範囲決定部106で決定された切り出し範囲の領域座標に基づいて撮像画像データから切り出し範囲の画像情報を切り出し、さらにストリーミングサイズに解像度変換して、画像圧縮部141に供給する。USB制御部142は、画像圧縮部141でデータ圧縮処理が施された切り出し範囲の画像データを伝送情報としてUSBインタフェース143に出力する。
【選択図】図1

Description

この発明は、画像処理装置および画像処理方法に関する。詳しくは、被写体の特徴的な部分を含む特徴エリアが含まれるように切り出し範囲を決定し、この切り出し範囲の画像情報を伝送することにより、特徴エリアの検出個数が変化する場合であってもユーザは手動で切り出し範囲を調整する必要がなく、ユーザの使い勝手の向上を図るようにした画像処理装置等に係るものである。
従来のPC(Personal Computer)あるいは携帯端末を利用したテレビ電話では、通常話者は1人である。例えば、特許文献1には、話者1人の顔画像を最適な画枠に調整して伝送する技術が記載されている。
この特許文献1に記載される技術では、例えば、図26(a)に示すように、ビデオカメラ200とPC(Personal Computer)300がUSBケーブル400を介して接続された通信ステムにおいては、以下のようなビデオストリーム伝送が可能となる。なお、図26(b)はビデオカメラ200の表示パネル210の画像表示例を示し、図26(c)はPC300の表示パネルの画像表示例を示している。
この場合、ビデオカメラ200では、図26(b)に示すように撮像画像から顔を含む検出枠FLaが決定される。そして、ビデオカメラ200では、撮像画像データから検出枠FLaの画像データが切り出されてPC300にストリーミング伝送される。そのため、PC300の表示パネル310には、図26(c)に示すように、撮像画像のうち上述の検出枠FLaに対応した画像が表示される。
特開2002−51315号公報
上述の特許文献1に記載の技術は、話者が複数人である場合のテレビ会議には適用できない。この場合、全ての話者が画枠に入るようにカメラの画枠調整を手動で行う必要があり、ユーザの使い勝手がよくない。
この発明の目的は、ユーザの使い勝手の向上を図ることにある。
この発明の概念は、
被写体の撮像画像に対応した画像情報に基づいて、上記被写体の特徴的な部分を含む上記撮像画像の特徴エリアを検出する特徴エリア検出部と、
上記特徴エリア検出部で検出された特徴エリアの領域情報に基づいて、該検出された特徴エリアを含む切り出し範囲を決定する切り出し範囲決定部と、
上記切り出し範囲決定部で決定された切り出し範囲の領域情報に基づいて、上記被写体の撮像画像に対応した画像情報から該切り出し範囲の画像情報を切り出す画像切り出し部と、
上記画像切り出し部で切り出された画像情報を伝送する画像伝送部と
を備える画像処理装置にある。
この発明においては、特徴エリア検出部により、被写体の撮像画像に対応した画像情報に基づいて、撮像画像の特徴エリアが検出される。特徴エリアは、被写体の特徴的な部分、例えば、人間の顔、特定の物体、特定の動物等の一部または全部を含むエリアである。例えば、人間の顔を含む特徴エリアを検出する場合には、従来周知の顔検出の手法が利用される。
切り出し範囲決定部により、特徴エリア検出部で検出された特徴エリアの位置情報に基づいて、この検出された特徴エリアを含む切り出し範囲が決定される。この場合、検出された特徴エリアが複数個ある場合には、その全てを含むように切り出し範囲が決定される。
切り出し範囲は、例えば、受信側における利用便宜のために、所定のアスペクト比となるように決定される。例えば、検出特徴エリアの、最左端の値をL、最上端の値をT、最右端の値をR、最下端の値をBとし、最上端から切り出し範囲の上端までの距離および最下端から切り出し範囲の下端までの距離をaとし、最左端から切り出し範囲の左端までの距離および最右端から切り出し範囲の右端までの距離をbとし、アスペクト比をh:vとするとき、{|R−L|+2b}:{|B−T|+2a}=h:vの式を満たすように、距離aおよび距離bが求められて、切り出し範囲が決定される。ここで、距離aおよび距離bの領域は、切り出し範囲のアスペクト比をh:vとするための「のりしろ領域」である。
上述の検出された特徴エリア、および決定された切り出し範囲は、例えば、グラフィック表示部により、撮像画像を表示する表示パネルに、撮像画像に重ねて表示される。この表示により、ユーザは、検出された特徴エリアと、それによって決定された切り出し範囲を容易に認識できるようになる。
画像切り出し部により、切り出し範囲決定部で決定された切り出し範囲の位置情報に基づいて、被写体の撮像画像に対応した画像情報から切り出し範囲の画像情報が切り出される。そして、画像伝送部により、画像切り出し部で切り出された画像情報が伝送される。この場合、画像切り出し部で切り出された画像情報は、直接、あるいは圧縮符号化されて、伝送される。例えば、USBケーブルで接続されたPC等の外部機器に送信される。
上述したように、この発明においては、検出された特徴エリアが含まれるように切り出し範囲が自動的に決定され、この切り出し範囲の画像情報が伝送されるものであり、ユーザは、切り出し範囲を調整する必要がなく、使い勝手が向上する。
この発明において、例えば、特徴エリア検出部で検出された特徴エリアから所定の特徴エリアを切り出し対象から除外することを設定し、またこの設定を解除するユーザ操作部をさらに備え、切り出し範囲決定部は、特徴エリア検出部で検出された特徴エリアのうち、ユーザ操作部で切り出し対象から除外された特徴エリアを除く他の特徴エリアを含む切り出し範囲を決定する、ようにされてもよい。ユーザは、ユーザ操作部を操作することで、所定の特徴エリアを切り出し対象から除外し、あるいはその除外を解除することが可能となり、所定の特徴エリアの画像情報を伝送するか否かの選択が可能となる。
この場合、ユーザ操作部は、上述したように、グラフィック表示部により表示パネルに表示された特徴エリアの表示を用い、例えば表示パネル上に配置されたタッチパネルの押圧操作により、設定および解除を行うように、構成されてもよい。ユーザは、このように表示パネルの特徴エリアの表示を用いて設定および解除を行うことで、設定および解除の操作を容易に行うことができる。また、この場合、グラフィック表示部により、切り出し対象から除外された所定の特徴エリアの表示態様が変化するようにされることで、ユーザは、所定の特徴エリアが切り出し対象から除外されたことを容易に確認することが可能となる。
また、この発明において、例えば、特徴エリア検出部は、周期的に、被写体の撮像画像に対応した画像情報に基づいて特徴エリアを検出し、特徴エリア検出部は、ユーザ操作部により切り出し対象から除外することが設定された所定の特徴エリアの画像情報を記憶する記憶部と、特徴エリア検出部で検出された特徴エリアの画像情報と記憶部に記憶されている画像情報とを比較して、特徴エリア検出部で検出された特徴エリアが、切り出し対象から除外することが設定された所定の特徴エリアに対応した特徴エリアであるか否かの判断を行う除外判断部とを有し、切り出し範囲決定部は、特徴エリア検出部で検出された特徴エリアの位置情報および除外判断部の判断結果に基づいて、特徴エリア検出部で検出された特徴エリアのうち、ユーザ操作部で上記切り出し対象から除外された特徴エリアを除く他の特徴エリアを含む切り出し範囲を決定する、ようにされてもよい。
このように切り出し対象から除外することが設定された所定の特徴エリアの画像情報を記憶部に記憶しておき、周期的に検出された特徴エリアの画像情報を記憶部に記憶された画像情報と比較して、当該検出された特徴エリアが切り出し対象から除外されたものであるかを判断する構成とすることで、切り出し対象から除外された特徴エリアが一旦撮像画像から外れた後再び撮像画像内に入ってきた場合にあっても、当該特徴エリアに対しては切り出し対象から除外されたものであるとの取り扱いを継続できる。
また、この発明において、例えば、特徴エリアに含まれる上記被写体の特徴的な部分は人間の顔であり、特徴エリア検出部は、被写体の撮像画像に対応した画像情報に基づいて検出された特徴エリア内の顔が発声者の顔か否かの判断を行う発声者判断部を有し、切り出し範囲決定部は、特徴エリア検出部で検出された特徴エリアの位置情報および発声者判断部の判断結果に基づいて、特徴エリア検出部で検出された特徴エリアに発声者の顔が含まれている特徴エリアがあるとき、この発声者の顔が含まれる特徴エリアを含む切り出し範囲を決定する、ようにされてもよい。この場合、発声者の顔が含まれる特徴エリアを含むように切り出し範囲が決定されるため、発声者の顔を中心とした画像情報を切り出して伝送することが可能となる。
例えば、音声レベル検出部で検出された音声レベルが閾値以上であるときのみ、上述したように発声者の顔の特徴エリアを含むように切り出し範囲が決定されてもよい。この場合、発声者判断部による判断誤りを補完することが可能となる。つまり、発声者判断部において発声者の顔であるとの判断に誤りがある場合、音声レベルが閾値より小さくなることが予想され、発声者判断部による判断が誤りであることがわかる。なお、この場合、発声者の顔が含まれる特徴エリアの大きさが大きくなる程閾値が大きくされることで、安定した発声者の検出が可能となる。
また、この発明において、例えば、話者検出モードのオンまたはオフを設定するユーザ設定部をさらに備え、切り出し範囲決定部は、ユーザ設定部で話者検出モードオンに設定されている場合、特徴エリア検出部で検出された特徴エリアに発声者の顔が含まれる特徴エリアがあるとき、この発声者の顔が含まれる特徴エリアを含む切り出し範囲を決定する、ようにされてもよい。この場合、ユーザは、ユーザ設定部により、切り出し範囲に、検出された全ての特徴エリアを含ませるか、あるいは発声者の顔が含まれる特徴エリアを中心に含ませるかを、選択できる。
例えば、話者検出モードの設定状態は、グラフィック表示部により、表示パネルに表示される。これにより、ユーザは、話者検出モードがオンにあるかオフにあるかを容易に確認できる。この場合、ユーザ設定部は、上述の話者検出モードの設定状態の表示を用い、例えば表示パネル上に配置されたタッチパネルの押圧操作により、オンまたはオフを設定する、構成とされてもよい。ユーザは、このように表示パネルの話者検出モードの設定状態の表示を用いてオンまたはオフの設定を行うことで、設定操作を容易に行うことができる。
また、この発明において、例えば、特徴エリア検出部は、周期的に、被写体の撮像画像に対応した画像情報に基づいて特徴エリアを検出し、切り出し範囲決定部は、周期的に、特徴エリア検出部で検出された特徴エリアの位置情報に基づいて、この検出された特徴エリアを含む切り出し範囲を決定し、切り出し範囲のロックモードのオンまたはオフを設定するユーザ設定部をさらに備え、切り出し範囲決定部は、ユーザ設定部でロックモードオンに設定される場合、切り出し範囲を前回に決定された切り出し範囲にロックする、ようにされてもよい。この場合、ユーザは、ユーザ設定部により、切り出し範囲を固定するか、あるいは特徴エリアの検出結果に応じて切り出し範囲を変化させるかを、選択できる。
例えば、ロックモードの設定状態は、グラフィック表示部により、表示パネルに表示される。これにより、ユーザは、ロックモードがオンにあるかオフにあるかを容易に確認できる。この場合、ユーザ設定部は、上述のロックモードの設定状態の表示を用い、例えば表示パネル上に配置されたタッチパネルの押圧操作により、オンまたはオフを設定する、構成とされてもよい。ユーザは、このように表示パネルのロックモードの設定状態の表示を用いてオンまたはオフの設定を行うことで、設定操作を容易に行うことができる。
この発明によれば、被写体の特徴的な部分を含む特徴エリアが含まれるように切り出し範囲を決定し、この切り出し範囲の画像情報を伝送するものであり、特徴エリアの検出個数が変化する場合であってもユーザは手動で切り出し範囲を調整する必要がなく、ユーザの使い勝手の向上を図ることができる。
以下、図面を参照しながら、この発明の実施の形態について説明する。図1は、実施の形態としてのビデオカメラ(カムコーダ)100の構成例を示している。このビデオカメラレコーダ100は、USB(Universal Serial Bus)ビデオストリーミング画像の出力を可能とするものである。
このビデオカメラ100は、制御部101と、ユーザ操作部102とを有している。また、このビデオカメラ100は、イメージャ111と、撮像処理部112と、ベースバンド処理部113と、マイクロホン115と、A/D変換器116と、圧縮/伸長部117と、記録/再生部118とを有している。
また、ビデオカメラ100は、インタフェース121と、D端子122と、D/A変換器123と、音声出力端子124とを有している。また、ビデオカメラ100は、重畳部131と、LCDドライバ132と、LCDパネル133と、OSD部134と、タッチパネル135と、座標検出部136とを有している。さらに、ビデオカメラ100は、画像圧縮部141と、USB制御部142と、USBインタフェース143と、特徴エリア検出部144とを有している。
制御部101は、ビデオカメラ100の各部を制御する。制御部101は、CPU103、フラッシュROM104およびSDRAM105を備えている。フラッシュROM104は、CPU103の制御プログラム等を記憶している。SDRAM105は、CPU220の制御処理に必要なデータの一時記憶等に用いられる。CPU103は、フラッシュROM104から読み出したプログラムやデータをSDRAM105上に展開してプログラムを起動し、ビデオカメラ100の各部を制御する。
また、制御部101は、切り出し範囲決定部106および話者音声検出部107を備えている。切り出し範囲決定部106は、例えば、USBインタフェース143がUSBケーブルを介して外部機器に接続されており、ビデオミーティングモードにあるとき、特徴エリア検出部140で検出された特徴エリアの位置情報に基づいて、この検出された特徴エリアを含むように切り出し範囲を決定する。この切り出し範囲決定部106の処理の詳細については後述する。
話者音声検出部107は、A/D変換器116から出力される音声データ(音声情報)に基づいて音声レベルを検出し、この音声レベルが閾値以上であるか否かを判断する。この意味で、話者音声検出部107は、音声レベル検出部およびレベル判断部を構成している。この話者音声検出部107の処理の詳細については後述する。
後述するように、話者音声検出部107の検出結果は、特徴エリアに含まれる顔が発声者の顔であると判断される際に、その判断を補完するために使用される。すなわち、特徴エリアに含まれる顔が発声者の顔であると判断され、かつ、音声レベルが閾値以上であると判断される場合に、特徴エリアに含まれる顔が発声者の顔であるとの判断が確定し、それに基づいて、上述の切り出し範囲決定部106では、発声者の顔が含まれる特徴エリアを含むように、切り出し範囲が決定される。
ユーザ操作部102は、ユーザインタフェースを構成し、制御部101に接続されている。このユーザ操作部102は、ビデオカメラ100の図示しない筐体面に配置されたキー、釦、ダイアル等で構成される。ユーザは、ユーザ操作部102を用いて、ビデオカメラ100の記録、再生等を操作できる。
イメージャ111は、例えば、C−MOS(Complementary Metal Oxide Semiconductor)撮像素子、あるいはCCD(Charge Coupled Device)撮像素子により構成される。撮像処理部112は、イメージャ111で得られる撮像信号を処理して、被写体の撮像画像に対応した画像データ(画像情報)を生成する。撮像処理部112では、例えば、イメージャ111から出力される撮像信号(アナログ信号)に対し、サンプルホールドおよび利得制御、アナログ信号からデジタル信号への変換、さらにホワイトバランス調整、ガンマ補正等の処理が行われる。A/D変換器116は、マイクロホン115で得られた音声信号をアナログ信号からデジタル信号に変換して、上述の撮像処理部112で得られる撮像画像データに対応した音声データを得る。
ベースバンド処理部113は、撮像処理部112で生成された画像データを一時的に蓄積するためのSDRAM114を備えている。ベースバンド処理部113は、撮像処理部112で生成された画像データを、重畳部131を通じてLCDドライバ132に供給する。また、ベースバンド処理部113は、記録時に、撮像処理部112で生成された画像データおよびA/D変換器116で得られた音声データを、圧縮/伸長部117に供給する。
また、ベースバンド処理部113は、再生時に、圧縮/伸長部117で得られた再生画像データを、重畳部131を通じてLCDドライバ132に供給すると共に、インタフェース121を通じてD端子122に出力する。インタフェース121は、ベースバンド処理部113からの画像データを、デジタル信号からアナログ信号に変換する。また、ベースバンド処理部113は、再生時に、圧縮/伸長部117で得られた再生音声データを、D/A変換器123を通じて音声出力端子124に出力する。D/A変換器123は、ベースバンド処理部113からの音声データを、デジタル信号からアナログ信号に変換する。
また、ベースバンド処理部113は、例えば、USBインタフェース143がUSBケーブルを介して外部機器に接続されており、ビデオミーティングモードにあるとき、以下の処理を行う。すなわち、撮像処理部112で生成された画像データから、切り出し範囲決定部106で決定された切り出し範囲の画像データを切り出す。この意味で、ベースバンド処理部113は、画像切り出し部を構成する。また、この切り出し範囲の画像データを、ストリーミングサイズ、例えば、640×480画素(VGA:Video Graphics Array)、あるいは320×240画素(QVGA:QuarterVideo Graphics Array)に解像度変換(スケーリング処理)して、画像圧縮部141に供給する。
圧縮/伸長部117は、記録時には、画像データと音声データを、例えば、MPEG(Moving Picture Experts Group)方式でデータ圧縮し、データ圧縮した画像データと音声データとを多重化する。また、圧縮/伸長部117は、再生時には、記録/再生部118から供給されるMPEG信号から画像データと音声データを分離し、さらに伸長処理を施してデータ圧縮処理前の画像データと音声データを復元して、ベースバンド処理部113に供給する。
記録/再生部118は、記録時には、圧縮/伸長部117で生成されたMPEG信号を、記録メディア119に記録する。また、記録再生部118は、再生時には、記録メディア119から読み出し、MPEG信号を得る。例えば、記録メディア119は、光ディスク、ハードディスク、磁気テープ、半導体メモリなどである。
OSD(On Screen Display)回路134は、制御部101の制御のもと、GUI画面用の表示信号を発生する。この表示信号としては、特徴エリア検出部140で検出された特徴エリアを示す表示信号、切り出し範囲決定部106で決定された切り出し範囲を示す表示信号等がある。ここで、制御部101およびOSD部134は、グラフィック表示部を構成している。
重畳部131は、ベースバンド処理部113から供給される画像データ(撮像画像データ、再生画像データ)に、OSD部134からの画面表示信号を重畳して、LCDドライバ132に供給する。LCDドライバ132は、重畳部131から供給される画像データに基づいて、LCDパネル133を駆動し、このLCDパネル133に撮像画像または再生画像を表示する。
上述したように、重畳部131で画像データにGUI画面用の表示信号が重畳されることで、LCDパネル133に表示される撮像画像、あるいは再生画像は、GUI画面が重畳されたものとなる。タッチパネル135は、LCDパネル133の画面上の位置を指定する位置指定部を構成しており、LCDパネル133の画面上に配置されている。ユーザは、LCDパネル133上に配置されたタッチパネル135を用いて、撮像時においては撮像動作、記録動作等、再生時においては再生動作等を操作可能となる。
このタッチパネル135は、座標検出部136を介して制御部101に接続されている。ユーザは、タッチパネル135を、指で直接触れるか、あるいはペンで触れるかして、画面上の位置を指定できる。
画像圧縮部141は、例えば、USBインタフェース143がUSBケーブルを介して外部機器に接続されており、ビデオミーティングモードにあるとき、ベースバンド処理部113から供給されるストリーミングサイズの画像データに対してデータ圧縮の処理を行う。画像圧縮部141は、例えば、モーションJPEG(Joint Photographic Experts Group)等の圧縮方式を用いる。
USB制御部142は、USBインタフェース143を介した通信の制御を行う。USBインタフェース143は、通信ケーブル(USBケーブル)を装着するための図示しないコネクタ等により構成される。USB制御部142およびUSBインタフェース143は、画像伝送部を構成している。USBインタフェース143は、USBケーブルを通じて、外部機器、例えばPC(Personal Computer)等とのデータの送受信を行う。
特徴エリア検出部144は、例えば、USBインタフェース143がUSBケーブルを介して外部機器に接続されており、ビデオミーティングモードにあるとき、以下の処理を行う。すなわち、特徴エリア検出部144は、ベースバンド処理部113のSDRAM114に一時的に蓄積された撮像画像データに基づいて、被写体の特徴的な部分を含む矩形領域としての特徴エリアを検出する。この実施の形態において、被写体の特徴的な部分は、人間の顔とされる。この特徴エリア検出部144の処理の詳細については後述する。
図1に示すビデオカメラ100の動作を説明する。
最初に、撮像時、記録時の動作を説明する。
イメージャ111で得られた撮像信号は撮像処理部112に供給されて処理され、この撮像処理部112からは被写体の撮像画像に対応した画像データ(画像情報)が得られる。また、マイクロホン115で得られた音声信号はA/D変換器116に供給され、アナログ信号からデジタル信号に変換されて、撮像画像データに対応した撮像音声データが得られる。撮像処理部112で得られた撮像画像データおよびA/D変換器116で得られた撮像音声データは、ベースバンド処理部113に供給される。
ベースバンド処理部113に供給された撮像画像データは、重畳部131を通じて、LCDドライバ132に供給される。これにより、LCDパネル133には撮像画像が表示され、ユーザはその表示により撮像画像の確認が可能となる。
この状態で、制御部101の制御のもと、OSD部134では、撮像動作、記録動作等をユーザが操作するために使用されるGUI画面用の表示信号が発生される。この表示信号は、重畳部131に供給されて、ベースバンド処理部113から供給される撮像画像データに重畳される。
これにより、LCDパネル133に表示される撮像画像には、撮像動作、記録動作等をユーザが操作するために使用されるGUI画面が重ねて表示される。そのため、ユーザは、LCDパネル133上に配置されたタッチパネル135を用いて、撮像動作、記録動作等を操作できる。なお、ユーザは、ユーザ操作部102を構成するキー等を用いても同様に撮像動作、記録動作等を操作できる。
上述の撮像状態において、ユーザの記録指示があると、撮像画像データおよび撮像音声データの記録動作が開始される。すなわち、ベースバンド処理部113から撮像画像データおよび撮像音声データが圧縮/伸長部117に供給される。そして、圧縮/伸長部117では、画像データと音声データがそれぞれ例えばMPEG方式でデータ圧縮され、その後に双方が多重化されてMPEG信号が得られる。このMPEG信号は記録/再生部118に供給され、記録メディア119に記録される。
次に、再生時の動作について説明する。
記録/再生部118では、記録メディア119からMPEG信号が読み出される。このMPEG信号は圧縮/伸長部117に供給される。この圧縮/伸長部117では、記録/再生部118から供給されるMPEG信号から画像データおよび音声データが分離され、さらに伸長処理が施されて、データ圧縮処理前の画像データと音声データが得られる。これら再生画像データおよび再生音声データはベースバンド処理部113に供給される。
ベースバンド処理部131に供給された再生画像データは、重畳部131を通じて、LCDドライバ132に供給される。これにより、LCDパネル133には再生画像が表示され、ユーザはその表示により再生画像の確認が可能となる。
この状態で、制御部101の制御のもと、OSD部134では、再生動作等をユーザが操作するために使用されるGUI画面用の表示信号が発生される。この表示信号は、重畳部131に供給されて、ベースバンド処理部113から供給される再生画像データに重畳される。
これにより、LCDパネル133に表示される再生画像には、再生動作等をユーザが操作するために使用されるGUI画面が重ねて表示される。そのため、ユーザは、LCDパネル133上に配置されたタッチパネル135を用いて、再生動作等を操作できる。なお、ユーザは、ユーザ操作部102を構成するキー等を用いても同様に再生動作等を操作できる。
また、圧縮/伸長部117からベースバンド処理部113に供給される再生画像データは、インタフェース121でデジタル信号からアナログ信号に変換され、D端子122に出力される。同様に、圧縮/伸長部117からベースバンド処理部113に供給される再生音声データは、D/A変換器123でデジタル信号からアナログ信号に変換され、音声出力端子124に出力される。
次に、例えば、USBインタフェース143がUSBケーブルを介して外部機器、例えばPC(Personal Computer)等に接続されており、ビデオミーティングモードにあるときの各部の動作について説明する。
ビデオミーティングモードにあるとき、ビデオカメラ100の特徴エリア検出部144、制御部106、ベースバンド処理部113およびUSB制御部142は、1フレーム毎に、図2のフローチャートに沿って処理を行う。
まず、ステップST1において、特徴エリア検出部144は、被写体の撮像画像に対応した画像データ(画像情報)に基づいて、被写体の特徴的な部分、この実施の形態においては顔を含む特徴エリアを検出する。特徴エリア検出部144は、検出した特徴エリアの領域座標(領域情報)を制御部101に供給する。
次に、ステップST2において、制御部101の切り出し範囲決定部106は、特徴エリア検出部144で検出された特徴エリアの領域座標に基づいて、この検出された特徴エリアを含む切り出し範囲を決定する。切り出し範囲決定部106は、決定した切り出し範囲の領域座標(領域情報)をベースバンド処理部113に供給する。
次に、ステップST3において、ベースバンド処理部113は、切り出し範囲決定部106で決定された切り出し範囲の領域座標に基づいて、被写体の撮像画像に対応した画像情報から切り出し範囲の画像情報を切り出す。さらに、ベースバンド処理部113は、切り出された画像情報に対して、ストリーミングサイズ(例えば、640×480画素、320×240画素等)に解像度変換して、画像圧縮部141に供給する。
次に、ステップST4において、USB制御部142は、画像圧縮部141でデータ圧縮処理が施された切り出し範囲の画像データを伝送情報としてUSBインタフェース143に出力する。
ここで、ビデオミーティングモードの選択操作について説明する。ビデオカメラ100においては、USBインタフェース143がUSBケーブルを介して外部機器に接続されるとき、どのUSBデバイス(プロトコル)を使用して通信するかを、予めビデオカメラ100のセットアップメニューから選択できるようになっている。図3は、ビデオカメラ100のLCDパネル133に表示される、セットアップメニューの選択例を示している。
この選択例で「マスストレージ」、「PictBridge」、「ビデオストリーミング」または「ビデオミーティング」のいずれかのモードの選択が可能とされている。ユーザは、例えば、タッチパネル135の各モードの表示箇所を押圧操作することで、所望のモードを選択できる。図3の選択例では、カーソルCAが「ビデオミーティング」の表示位置に移動した状態にあり、「ビデオミーティング」が選択されていることが分かる。
上述したようにセットアップメニューで「ビデオミーティング」を選択し、USBインタフェース143をUSBケーブルで外部機器と接続することで、ビデオストリーム画像を伝送するビデオミーティングモードとなる。図4は、USBケーブルで外部機器と接続する過程におけるLCDパネル133の画像表示例を示している。
図4(a)は、接続前の状態、すなわち通常モードの表示状態を示している。この表示状態では、撮像画像が表示されている。図4(b)は、接続直後の状態を示しており、USB接続準備画面(黒画面)が表示された状態となる。図4(c)は、接続されて所定時間が経過した後の状態、すなわちビデオミーティングモードの表示状態を示している。この表示状態では、撮像画像が表示され、さらにそれに重ねて、検出された特徴エリアを示す枠ARaと、決定された切り出し範囲を示す枠ARbが表示される。
また、ビデオミーティングモードのサブモードとして、ロックモードと話者検出モードが用意されている。ロックモードは、現在伝送しているビデオストリーム画像の切り出し範囲(画枠)をロックするモードである。話者検出モードは、発声者の顔が含まれている特徴エリアがあるとき、その特徴エリアを含むように切り出し範囲を決定するモードである。
図4(c)に示すように、ビデオミーティングモードの表示状態では、GUI表示として、上述した枠ARa,ARbの表示の他に、ロックモードのオン(ロック)またはオフ(アンロック)の設定ボタンBTaおよび話者検出モードのオンまたはオフを設定する設定ボタンBTbも表示される。なお、枠ARa,ARbおよび設定ボタンBTa,BTbの表示信号は、制御部101の制御により、OSD部134で発生されて、重畳部131で撮像画像データに重畳される。
ユーザは、LCDパネル133上に配置されたタッチパネル135の設定ボタンBTaに対応した部分を押圧操作することで、ロックモードを、オンからオフへ、さらにオフからオンへと、トグル的に切り替えることができる。この場合、設定ボタンBTaの文字表示は、ロックモードオンのときは「ロック」となり、ロックモードオフのときは「アンロック」となる。図4(c)の設定ボタンBTaの文字表示は、ロックモードがオン(ロック)であることを示している。
また、ユーザは、LCDパネル133上に配置されたタッチパネル135の設定ボタンBTbに対応した部分を押圧操作することで、話者検出モードを、オンからオフへ、さらにオフからオンへと、トグル的に切り替えることができる。この場合、設定ボタンBTbの文字表示は、話者検出モードオンのときは「話者検出オン」となり、話者検出モードオフのときは「話者検出オフ」となる。図4(c)の設定ボタンBTbの文字表示は、話者検出モードがオンであることを示している。
次に、特徴エリア検出部144における特徴エリアの検出動作について説明する。特徴エリア検出部144は、周期的に、この実施の形態においては1フレーム毎に、被写体の撮像画像に対応した画像データ(画像情報)に基づいて、被写体の特徴的な部分として人間の顔を含む特徴エリアを検出する。
最初、特徴エリア検出部144は、撮像画像から顔画像特有の輝度値の分布パターンを検索することで顔画像を検出する。図5は、顔画像特有の輝度値の分布パターン例を示している。この分布パターン例は、ハッチングを付して示すように、輝度値が高い部分の分布パターンを示している。
次に、特徴エリア検出部144は、検出された顔画像から、図6に示すように、目、口の位置を検出する。この場合、特徴エリア検出部144は、例えば、検出された顔画像を暗い部分と明るい部分にパターン分けすることで、目、口の位置を検出する。
次に、特徴エリア検出部144は、図7(a)に示すように、目、口の位置からなる矩形エリアを用いて、特徴エリアの矩形領域座標(Left,Top,Right,Bottom)を算出する。すなわち、特徴エリア検出部144は、目、口の位置から、縦の長さがaで横の長さがbの矩形エリアを形成する。
そして、特徴エリア検出部144は、矩形エリアの左端からさらにbだけ左側の位置をLeftとして求め、矩形エリアの右端からさらにbだけ右側に移動した位置をRightとして求める。また、特徴エリア検出部144は、矩形エリアの上端からさらに2aだけ上側の位置をTopとして求め、矩形エリアの下端からさらにaだけ下側の位置をBottomとして求める。
図7(b)は、上述したように検出された特徴エリア内に含まれる顔画像の一例を示している。
特徴エリア検出部144では、上述したように1フレーム毎に、被写体の撮像画像に対応した画像データ(画像情報)に基づいて、撮像画像の特徴エリアを検出する。この場合、検出精度にもよるが、撮像状態の変化が影響する等して、同一の特徴エリアが各フレームで必ずしも連続して検出されるとは限らない。そのため、各フレームで検出される特徴エリアをそのまま用いて切り出し範囲を決定する場合には、切り出し範囲の変化が激しく、極めて安定性に欠けるものとなる。
そこで、特徴エリア検出部144は、特徴エリアの有効化処理を行い、有効化された特徴エリアの情報のみを制御部101に送り、切り出し範囲の安定性を図る。特徴エリア検出部144における特徴エリアの有効化処理について説明する。
特徴エリア検出部144は、有効化処理を行うために、SDRAM114に、メインバッファおよび一時バッファを確保する。メインバッファには、前フレームの時点で特徴エリア番号が付与されている各特徴エリアの特徴エリア情報(図14(b)参照)が記憶される。この特徴エリア情報には、特徴エリアを示す座表情報が含まれている。
また、一時バッファには、現フレームで検出された各特徴エリアの特徴エリア情報(図14(b)参照)が記憶される。
特徴エリア検出部144は、メインバッファの記憶に係る特徴エリア番号が付与されている各特徴エリアを順次処理対象とする。特徴エリア検出部144は、メインバッファおよび一時バッファに記憶された特徴エリア情報に基づいて、処理対象の特徴エリアと一部または全部が重複する特徴エリアが現フレームで検出された特徴エリアの中にあるか否かを判断する。
特徴エリア検出部144は、重複する特徴エリアがある場合には、その重複する特徴エリアが処理対象の特徴エリアと同じ特徴エリア番号の特徴エリアであると判断し、処理対象の特徴エリアの検出カウントをインクリメントし、検出カウントが規定値(例えば、30フレーム)以上であるとき、未だ有効な特徴エリアとして登録されていない場合には、登録する。また、特徴エリア検出部144は、重複する特徴エリアがある場合には、この処理対象の特徴エリアの矩形領域座標を重複している現フレームで検出された特徴エリアの矩形領域座標に更新する。
また、特徴エリア検出部144は、重複する特徴エリアがない場合には、処理対象の特徴エリアの検出カウントをデクリメントする。特徴エリア検出部144は、検出カウントが規定値(例えば、0フレーム)に達するとき、当該処理対象の特徴エリアを、特徴エリア番号の付与対象から削除する。特徴エリア検出部144は、この削除に伴って、メインバッファから当該処理対象の特徴エリアの特徴エリア情報(図14(b)参照)を削除し、さらには登録されている場合にはその登録を削除して、無効化する。
また、特徴エリア検出部144は、全ての特徴エリアに対して上述の処理を行った後に、処理対象の特徴エリアのいずれとも重複しない特徴エリア(未処理特徴エリア)が現フレームで検出された特徴エリアの中にあるか場合には、以下の処理を行う。すなわち、特徴エリア検出部144は、現フレームの未処理特徴エリアに、特徴エリア番号を新規に割り当て、その検出カウントを1フレームとする。また、特徴エリア検出部144は、メインバッファに、当該現フレームの未処理特徴エリアの特徴エリア情報(図14(b)参照)を追加記憶する。
ここで、メインバッファに、図8(a)に示すように、特徴エリア番号が付与されている特徴エリアARa1,ARa2が記憶されており、一時バッファに、図8(b)に
示すように、現フレームで検出された特徴エリアARa1,ARa2が記憶されている場合を考える。
最初に、メインバッファの特徴エリアARa1が処理対象とされる。この特徴エリアARa1は、図9に示すように、一時バッファの特徴エリアARa3と重複している。そのため、特徴エリア検出部144は、一時バッファの特徴エリアARa3が処理対象のメインバッファの特徴エリアARa1と同じ特徴エリア番号の特徴エリアであると判断し、処理対象の特徴エリアARa1の検出カウントをインクリメントし、検出カウントが規定値(例えば、30フレーム)以上であるとき、未だ有効な特徴エリアとして登録されていない場合には、登録する。また、特徴エリア検出部144は、メインバッファの特徴エリアARa1の矩形領域座標を一時バッファの特徴エリアARa3の矩形領域座標に更新する。
次に、メインバッファの特徴エリアARa2が処理対象とされる。図9に示すように、一時バッファには、この特徴エリアARa2と重複する特徴エリアはない。そのため、特徴エリア検出部144は、処理対象のメインバッファの特徴エリアARa2の検出カウントをデクリメントし、検出カウントが規定値(例えば、0フレーム)に達するとき、この特徴エリアARa2を特徴エリア番号の付与対象から削除する。
メインバッファの特徴エリアARa1,ARa2に対して上述の処理を行った後、一時バッファには、図9に示すように、処理対象の特徴エリアARa1,ARa2のいずれとも重複しない特徴エリアARa4が存在する。特徴エリア検出部144は、この特徴エリアARa4に特徴エリア番号を新規に割り当て、その検出カウントを1フレームとする。また、特徴エリア検出部144は、メインバッファに、この特徴エリアARa4の特徴エリア情報(図14(b)参照)を追加記憶する。
図10のフローチャートは、上述の特徴エリア検出部144における有効化処理の手順を示している。
特徴エリア検出部144は、ステップST11において、有効化処理を開始し、その後にステップST12の処理に移る。このステップST12において、特徴エリア検出部144は、メインバッファに未処理の特徴エリアがあるか否かを判断する。未処理の特徴エリアがある場合、特徴エリア検出部144は、ステップST13において、一時バッファに記憶されている各特徴エリアの特徴エリア情報(座表情報)を検索する。つまり、特徴エリア検出部144は、処理対象の特徴エリアと重複する特徴エリアが現フレームで検出された特徴エリアの中にあるか調べる。
次に、特徴エリア検出部144は、ステップST14において、ステップST13の調査結果に基づいて、処理対象の特徴エリアと重複する特徴エリアが、現フレームで検出された特徴エリアの中にあるか否かを判断する。
重複する特徴エリアがあるとき、特徴エリア検出部144は、ステップST15において、処理対象の特徴エリアに割り当てられている特徴エリア番号の検出カウントをインクリメントする。そして、特徴エリア検出部144は、ステップST16において、検出カウントが規定値(例えば、30フレーム)以上であるか否かを判断する。
規定値以上であるとき、特徴エリア検出部144は、ステップST17において、登録済みの特徴エリアであるか否かを判断する。登録済みでないときは、特徴エリア検出部144は、ステップST18において、当該処理対象の特徴エリアを登録して有効化する。
特徴エリア検出部144は、ステップST18の処理の後、ステップST19の処理に移る。なお、ステップST16で検出カウントが規定値以上でないとき、およびステップST17で登録済みであるとき、特徴エリア検出部144は、直ちに、ステップST19の処理に移る。
このステップST19において、特徴エリア検出部144は、処理対象の特徴エリアの矩形領域座標を、重複している現フレームで検出された特徴エリアの矩形領域座標に更新する。特徴エリア検出部144は、ステップST19の処理の後、上述のステップST12の処理に戻り、次の処理対象の処理に移る。
また、ステップST14で重複する特徴エリアがないとき、特徴エリア検出部144は、ステップST20において、処理対象の特徴エリアに割り当てられている特徴エリア番号の検出カウントをデクリメントする。そして、特徴エリア検出部144は、ステップST21において、検出カウントが規定値(例えば、0フレーム)に達したか否かを判断する。
検出カウントが規定値に達したとき、特徴エリア検出部144は、ステップST22において、当該処理対象の特徴エリアを、特徴エリア番号の付与対象から削除する。特徴エリア検出部144は、この削除に伴って、メインバッファから当該処理対象の特徴エリアの特徴エリア情報(図14(b)参照)を削除し、さらには登録されている場合にはその登録を削除して、無効化する。
特徴エリア検出部144は、ステップST22の処理の後、ステップST12に戻り、次の処理対象の処理に移る。また、ステップST21で検出カウントが規定値に達していないとき、特徴エリア検出部144は、直ちに、ステップST12に戻り、次の処理対象の処理に移る。
また、ステップST12で未処理の特徴エリアがないとき、特徴エリア検出部144は、ステップST23の処理に移る。このステップST23において、特徴エリア検出部144は、処理対象の特徴エリアのいずれとも重複しない特徴エリア(未処理特徴エリア)が、一時バッファに記憶された現フレームで検出された特徴エリアの中にあるか否かを判断する。
未処理特徴エリアがあるとき、特徴エリア検出部144は、ステップST24において、現フレームの未処理特徴エリアに、特徴エリア番号を新規に割り当て、その検出カウントを1フレームとする。そして、特徴エリア検出部144は、メインバッファに、当該現フレームの未処理特徴エリアの特徴エリア情報(図14(b)参照)を追加記憶する。一方、未処理特徴エリアがないとき、特徴エリア検出部144は、直ちに、ステップST25の処理に移り、有効化の処理を終了する。
次に、特徴エリア検出部144における話者(発声者)の判断動作について説明する。特徴エリア検出部144は、被写体の撮像画像に対応した画像データ(画像情報)に基づいて、検出された各特徴エリア(登録されている有効化された特徴エリア)を順次判断対象の特徴エリアとし、判断対象の特徴エリアに含まれる顔が話者(発声者)の顔か否かを判断する。この意味で、特徴エリア検出部144は発声者判断部を構成する。
最初、特徴エリア検出部144は、判断対象の特徴エリアの撮像画像の口のエリアに着目し、図11(a)に示すように、口の動きを検出する矩形領域ARmを決定する。すなわち、特徴エリア検出部144は、口の上下方向の中心位置からa/2だけ上側の位置を矩形領域ARmの上端として求め、口の上下方向の中心位置からa/2だけ下側の位置を矩形領域ARmの下端として求める。また、特徴エリア検出部144は、口の左右方向の中心位置からbだけ左側の位置を矩形領域ARmの左端として求め、口の左右方向の中心位置からbだけ右側の位置を矩形領域ARmの右端として求める。
ここで、aは、判断対象の特徴エリアの検出時に目、口の位置から形成された矩形エリア(図7(a)参照)の縦(上下方向)の長さである。同様に、bは、判断対象の特徴エリアの検出時に目、口の位置から形成された矩形エリア(図7(a)参照)の横(左右方向)の長さである。図11(b)は、上述したように特徴エリアの撮像画像上に決定された矩形領域ARmの一例を示している。
次に、特徴エリア検出部144は、上述したように決定された矩形領域ARmに対して、オプティカルフローにより口の動きを示す動きベクトルを検出する。そして、特徴エリア検出部144は、口の動き(動きベクトル)から声を出しているか推定できるとき、判断対象の特徴エリアに含まれる顔が話者(発声者)の顔であると判断する。この場合、判断対象の特徴エリアは、話者の発声が検出された特徴エリアとなる。
次に、特徴エリア検出部144における除外エリアの判断動作について説明する。上述したように、ビデオミーティングモードの表示状態では、GUI表示として、検出された特徴エリアを示す枠ARaが表示される(図4(c)参照)。ユーザは、LCDパネル133上に配置されたタッチパネル135の所定の特徴エリアの部分を押圧操作することで、この所定の特徴エリアを切り出し対象から除外することを設定でき、またその設定を解除できる。なお、この設定および解除の操作は、LCDパネル133に表示された特徴エリアの表示を用いて、ユーザ操作部102を操作して行うこともできる。
上述したように、ユーザの操作によって所定の特徴エリアが除外設定された場合、この所定の特徴エリアの特徴エリア番号が制御部101から特徴エリア検出部144に通知される。特徴エリア検出部144は、内蔵されたSDRAM145に、通知された特徴エリア番号に基づいて、除外設定された所定の特徴エリアの画像データ(画像情報)をストアする。
ここで、所定の特徴エリアが除外設定されるとき、制御部101の制御により、OSD部134で発生される表示信号が変化し、この所定の特徴エリアの表示態様が変化する。図12(a)は除外設定された特徴エリアがない場合の表示状態を示しており、図12(b)は右側の特徴エリアが除外設定された場合の表示状態の一例を示している。
特徴エリア検出部144は、SDRAM145に除外設定された特徴エリアの画像データがストアされているとき、検出された各特徴エリア(登録されている有効化された特徴エリア)を順次判断対象の特徴エリアとし、判断対象の特徴エリアが除外設定された特徴エリアであるか否かを判断する。この意味で、特徴エリア検出部144は、除外判断部を構成する。
この場合、特徴エリア検出部144は、判断対象の特徴エリアの画像データとSDRAM145にストアされている特徴エリア画像データとを用いて、判断対象の特徴エリア画像と除外設定された特徴エリア画像との間で従来周知のマッチング演算を行う。特徴エリア検出部144は、マッチング演算結果により双方の画像が一致すると判断するとき、判断対象の特徴エリアは除外設定された特徴エリアであると判断する。
図13のフローチャートは、上述した特徴エリア検出部144のビデオミーティングモード時の処理手順を示している。特徴エリア検出部144は、1フレーム毎に、図13のフローチャートの処理を行う。
特徴エリア検出部144は、ステップST31において、処理を開始し、その後に、ステップST32の処理に移る。このステップST32において、特徴エリア検出部144は、ビデオミーティングモードであるか否かを判断する。ビデオミーティングモードでないとき、特徴エリア検出部144は、直ちにステップST45に移り、処理を終了する。一方、ビデオミーティングモードであるとき、特徴エリア検出部144は、ステップST33の処理に移る。
このステップST33において、特徴エリア検出部144は、被写体の撮像画像に対応した画像データ(画像情報)に基づいて、被写体の特徴的な部分として人間の顔を含む特徴エリアを検出する(図5〜図7参照)。そして、特徴エリア検出部144は、ステップST34において、ステップST33で検出された特徴エリアと、前のフレームの時点で特徴エリア番号が付与されている特徴エリアとに基づいて、特徴エリアの有効化処理を行う(図8〜図10参照)。
次に、特徴エリア検出部144は、ステップST35において、話者(発声者)判断および除外エリア判断に関して、未処理の特徴エリア(登録されている有効化された特徴エリア)があるか否かを判断する。未処理の特徴エリアがあるときは、ステップST36において、特徴エリア検出部144は、SDRAM145に除外設定された特徴エリアの画像データ(画像情報)がストアされているか否かを判断する。
除外設定された特徴エリアの画像データがストアされているとき、特徴エリア検出部144は、ステップST37において、判断対象の特徴エリアの画像データとSDRAM145にストアされている特徴エリア画像データとを用いて、判断対象の特徴エリア画像と除外設定された特徴エリア画像との間で従来周知のマッチング演算を行う。
次に、特徴エリア検出部144は、ステップST38において、ステップST37で得られたマッチング演算結果に基づいて、判断対象の特徴エリア画像と除外設定された特徴エリア画像とが一致するか否かを判断する。
一致すると判断するとき、特徴エリア検出部144は、ステップST39において、判断対象の特徴エリア情報の「特徴エリアマッチング結果」の項目の値として、除外設定された特徴エリアにマッチすることを示す「true」を設定する。一方、一致しないと判断するとき、特徴エリア検出部144は、ステップST40において、判断対象の特徴エリア情報の「特徴エリアマッチング結果」の項目の値として、除外設定された特徴エリアにマッチしないことを示す「false」を設定する。
特徴エリア検出部144は、ステップST39またはステップST40の処理の後、ステップST41の処理に移る。このステップST41において、特徴エリア検出部144は、口の動きを検出する矩形領域ARm決定し(図11参照)、その矩形領域ARmに対して、オプティカルフローにより口の動きを示す動きベクトルを検出する。そして、特徴エリア検出部144は、ステップST42において、口の動き(動きベクトル)から声を出しているか否か、つまり判断対象の特徴エリアに含まれる顔が話者(発声者)の顔であるか否かを判断する。
話者の顔であると判断するとき、特徴エリア検出部144は、ステップST43において、判断対象の特徴エリア情報の「話者の発声検出結果」の項目の値として、特徴エリア内の顔は発声していることを示す「true」を設定する。一方、話者の顔でないと判断するとき、特徴エリア検出部144は、ステップST44において、判断対象の特徴エリア情報の「話者の発声検出結果」の項目の値として、特徴エリア内の顔は発声していないことを示す「false」を設定する。
特徴エリア検出部144は、ステップST43またはステップST44の処理をした後、ステップST35に戻り、次の処理対象の処理に移る。また、ステップST35で未処理の特徴エリアがないとき、特徴エリア検出部144は、直ちにステップST45に進み、処理を終了する。
特徴エリア検出部144から制御部101には、フレーム毎に、上述した特徴エリア検出処理の結果として、登録されている有効化された特徴エリアの情報が供給される。図14(b)は、特徴エリア情報の一例を示している。この特徴エリア情報には、その特徴エリアに付与された特徴エリア番号の値が含まれる。図示のように、この実施の形態においては、特徴エリア番号として、0〜20の間の番号が付与される。
また、特徴エリア情報には、特徴エリアを示す矩形領域座標(Left,Top,Right,Bottom)の値が含まれる。この座標では、例えば、図14(a)に示すように、左上の位置が原点(0ピクセル,0ピクセル)とされる。図示のように、この実施の形態においては、左端座標Leftおよび右端座標Rightは、0〜3200ピクセルの間の値となる。また、図示のように、この実施の形態においては、上端座標Topおよび下端座標Bottomは、0〜2400ピクセルの間の値となる。
また、特徴エリア情報には、除外設定された特徴エリアにマッチするか否かを示す「特徴エリアマッチング結果」、および特徴エリア内の顔が発声しているか否かを示す「話者の発声検出結果」が含まれる。
次に、制御部106の切り出し範囲決定部106における切り出し範囲の決定動作について説明する。
切り出し範囲決定部106は、特徴エリア検出部144で検出された特徴エリア(登録されている有効化された特徴エリア)の情報に基づいて、基本的には、全ての特徴エリアを含むように、切り出し範囲ARbを決定する。この実施の形態において、切り出し範囲決定部106は、さらに、ビデオストリーム画像のアスペクト比となるように切り出し範囲ARbを調整する。
ここで、検出された特徴エリア(一個または複数個の特徴エリア)の、最左端の値をL、最上端の値をT、最右端の値をR、最下端の値をBとする。また、検出された特徴エリアの最上端から切り出し範囲ARbの上端までの距離および検出された特徴エリアの最下端から切り出し範囲ARbの下端までの距離をaとする。また、検出された特徴エリアの最左端から切り出し範囲ARbの左端までの距離および検出された特徴エリアの最右端から切り出し範囲ARbの右端までの距離をbとする。さらに、ビデオストリーム画像のアスペクト比をh:vとする。
切り出し範囲決定部106は、(1)式を満たすように、距離aおよび距離bを求めて、切り出し範囲ARbを決定する。
{|R−L|+2b}:{|B−T|+2a}=h:v ・・・(1)
例えば、図15に示すように、特徴エリア検出部144で、特徴エリア1〜3の3個の特徴エリア(登録されている有効化された特徴エリア)が検出された場合を考える。なお、ビデオストリーミング画像のサイズ(ストリーミングサイズ)は640×480画素であるとし、そのアスペクト比は4:3であるとする。
この場合、特徴エリアの最左端は特徴エリア1の左端L1であり、特徴エリアの最上端は特徴エリア2の上端T2であり、特徴エリアの最右端は特徴エリア3の右端R3であり、特徴エリアの最下端は特徴エリア1の下端B1である。そのため、距離aおよび距離bは、(2)式を満たすように、求められる。
{|R3−L1|+2b}:{|B1−T2|+2a}=4:3 ・・・(2)
この場合、切り出し範囲ARbの、左端は(L1−b)に決定され、上端は(T2−a)に決定され、右端は(R3+b)に決定され、下端は(B1+a)に決定される。
制御部101の切り出し範囲決定部106は、上述したように、基本的には、特徴エリア検出部144で検出された特徴エリアが全て含まれるように、切り出し範囲ARbを決定する。
切り出し範囲決定部106は、特徴エリア検出部144で検出された特徴エリアであっても、除外設定された特徴エリアに関しては、当該特徴エリアが含まれないように、切り出し範囲を決定する。切り出し範囲決定部106は、除外設定された特徴エリアであるか否かを、特徴エリア検出部144から送られてくる特徴エリア情報の「特徴エリアのマッチング結果」の項目の値で認識できる(図14(b)参照)。すなわち、切り出し範囲決定部106は、「特徴エリアのマッチング結果」の項目の値が「true」である特徴エリアは、除外設定された特徴エリアであると認識する。
例えば、特徴エリア検出部144で特徴エリア1〜3の3個の特徴エリアが検出された場合を考える。図16(a)は、特徴エリア1〜3のいずれも除外設定された特徴エリアでない場合を示しており、切り出し範囲決定部106では、特徴エリア1〜3の全てを含むように、切り出し範囲ARbが決定される。これに対して、図16(b)は、特徴エリア1,2は除外設定された特徴エリアでないが、特徴エリア3は除外設定された特徴エリアである場合を示しており、切り出し範囲決定部106では、特徴エリア3を除いて、特徴エリア1,2を含むように、切り出し範囲ARbが決定される。
また、切り出し範囲決定部106は、話者検出モードオンに設定されており、特徴エリア検出部144で検出された特徴エリアの中に話者(発声者)の顔が含まれている特徴エリアがあり、かつ実際に音声入力がある場合には、以下の処理をする。すなわち、切り出し範囲決定部106は、話者(発声者)の顔が含まれている特徴エリア(一個または複数個)を含むように、切り出し範囲ARbを設定する。
切り出し範囲決定部106は、話者(発声者)の顔が含まれている特徴エリアであるか否かを、特徴エリア検出部144から送られてくる特徴エリア情報の「話者の発声検出結果」の項目の値で認識できる(図14(b)参照)。すなわち、切り出し範囲決定部106は、「話者の発声検出結果」の項目の値が「true」である特徴エリアは、話者(発声者)の顔が含まれている特徴エリアであると認識する。
また、切り出し範囲決定部106は、実際に音声入力があるか否かの判断を、話者音声検出部107のレベル判断結果に基づいて行う。話者音声検出部107は、上述したように、A/D変換器116から出力される音声データ(音声情報)のレベルを検出し、この音声レベルが閾値以上であるか否かを判断する。切り出し範囲決定部106は、話者音声検出部107で音声レベルが閾値以上であると判断するとき、実際に音声入力があると判断する。
なお、実際に音声入力があることを条件とすることは必ずしも必要としない。しかし、この条件を加えることで、上述の特徴エリア検出部144における話者(発声者)の判断動作の判断誤りを補完することができる。
ところで、この実施の形態において、話者音声検出部107における音声レベルの閾値は、処理対象の特徴エリアの面積が大きくなるほど大きくされる。図17(a)は処理対象の特徴エリアの面積が大きい場合を示しており、閾値は−THa,+THaとされている。これに対して、図17(b)は処理対象の特徴エリアの面積が小さい場合を示しており、閾値は−THb,+THbとされている。ここで、|THa|>|THb|の関係となる。このように処理対象の特徴エリアの面積に応じて音声レベルの閾値を変化させることで、安定した発声者の検出が可能となる。
また、切り出し範囲決定部106は、ロックモードオンに設定されている場合、切り出し範囲を更新せず、前回のままとする。
図18のフローチャートは、上述の制御部101の切り出し範囲決定部106の処理手順を示している。切り出し範囲決定部106は、1フレーム毎に、図18のフローチャートの処理を行う。
切り出し範囲決定部106は、ステップST51において、処理を開始し、その後に、ステップST52の処理に移る。このステップST52において、切り出し範囲決定部106は、ビデオミーティングモードであるか否かを判断する。ビデオミーティングモードでないとき、切り出し範囲決定部106は、直ちにステップST66に移り、処理を終了する。
ビデオミーティングモードであるとき、切り出し範囲決定部106は、ステップST53の処理に移る。このステップST53において、切り出し範囲決定部106は、ロックモードオンにあるか否かを判断する。ロックモードオンにあるとき、切り出し範囲決定部106は、直ちにステップST66に移り、処理を終了する。一方、ロックモードオンにないとき、切り出し範囲決定部106は、ステップST54の処理に移る。
このステップST54において、切り出し範囲決定部106は、特徴エリア検出部144から、特徴エリア(登録されている有効化された特徴エリア)の情報(図14(b)参照)を取得する。そして、切り出し範囲決定部106は、ステップST55において、未処理の特徴エリアがあるか否か、つまりステップST54で取得した特徴エリア情報で示される全ての特徴エリアについて処理をしたか否かを判断する。
未処理の特徴エリアがあるとき、切り出し範囲決定部106は、ステップST56において、処理対象の特徴エリアが切り出し対象の特徴エリアであるか否か、つまり処理対象の特徴エリアが除外設定された特徴エリアであるか否かを判断する。切り出し範囲決定部106は、この判断を、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値で判断できる(図14(b)参照)。すなわち、切り出し範囲決定部106は、「特徴エリアのマッチング結果」の項目の値が「true」であるとき、処理対象の特徴エリアは除外設定された特徴エリア(切り出し対象でない特徴エリア)であると判断する。
処理対象の特徴エリアが切り出し対象の特徴エリアでないとき、切り出し範囲決定部106は、ステップST55に戻り、次の処理対象の特徴エリアの処理に移る。一方、処理対象の特徴エリアが切り出し対象の特徴エリアであるとき、切り出し範囲決定部106は、ステップST57において、話者の検出フラグが設定済みであるか否かを判断する。
話者の検出フラグは、後述するように、話者検出モードオンに設定されており、処理対象の特徴エリアで話者の発声が検出されており、しかも音声入力がある場合に設定され、話者の特徴エリアで切り出し範囲が更新される状態となる。上述したようにステップST57で話者の検出フラグが設定済みか否かを判断するのは、話者の検出フラグが設定済みである場合、直ちに、処理対象の特徴エリアが話者(発声者)の特徴エリアであるか否かの判断処理に移るためである。
ステップST57で話者の検出フラグが設定済みでない場合、切り出し範囲決定部106は、ステップST58において、処理対象の特徴エリアで切り出し範囲を更新する。すなわち、切り出し範囲決定部106は、現在処理対象の特徴エリアをさらに含むように、切り出し範囲((1)式におけるL,T,R,Bの値)を更新する。一方、ステップST57で話者の検出フラグが設定済みである場合、切り出し範囲決定部106は、ステップST59の処理に移る。
このステップST59において、切り出し範囲決定部106は、話者検出モードオンにあるか否かを判断する。話者検出モードオンにないとき、切り出し範囲決定部106は、ステップST55に戻り、次の処理対象の特徴エリアの処理に移る。一方、話者検出モードにあるとき、切り出し範囲決定部106は、ステップST60の処理に移る。
このステップST60において、切り出し範囲決定部106は、処理対象の特徴エリアで話者の発声が検出されているか否かを判断する。切り出し範囲決定部106は、この判断を、特徴エリア情報の「話者の発声検出結果」の項目の値で判断できる(図14(b)参照)。すなわち、切り出し範囲決定部106は、「話者の発声検出結果」の項目の値が「true」であるとき、処理対象の特徴エリアでは話者の発声が検出されていると判断する。
処理対象の特徴エリアが話者の発声が検出されたものでないとき、切り出し範囲決定部106は、ステップST55に戻り、次の処理対象の特徴エリアの処理に移る。一方、処理対象の特徴エリアが話者の発声が検出されたものであるとき、切り出し範囲決定部106は、ステップST61において、音声入力があるか否かを判断する。切り出し範囲決定部106は、この判断を、話者音声検出部107における、入力音声レベルの判断結果に基づいて行う。
音声入力がないとき、切り出し範囲決定部106は、ステップST55に戻り、次の処理対象の特徴エリアの処理に移る。一方、音声入力があるとき、切り出し範囲決定部106は、ステップST62において、話者の検出フラグを設定し、ステップST63において、処理対象の特徴エリア(話者の特徴エリア)で切り出し範囲を更新する。すなわち、切り出し範囲決定部106は、現在処理対象の特徴エリアを含む、話者の特徴エリアを含むように、切り出し範囲((1)式におけるL,T,R,Bの値)を更新する。切り出し範囲決定部106は、ステップST63の処理の後、ステップST55に戻り、次の処理対象の特徴エリアの処理に移る。
ステップST55で未処理の特徴エリアがないとき、切り出し範囲決定部106は、ステップST64の処理に移る。このステップST64において、切り出し範囲決定部106は、上述の特徴エリアの処理で更新された切り出し範囲を用いて、ビデオストリーム画像のアスペクト比となるように切り出し範囲ARbを調整する(図15参照)。
次に、切り出し範囲決定部106は、ステップST65において、ベースバンド処理部113に、切り出し範囲を、ステップST64で調整した切り出し範囲に変更するように指示し、その後、ステップST66において、処理を終了する。
図18のフローチャートにおいて、ロックモードオンの状態にあるときには、切り出し範囲決定部106は直ちに処理を終了し、この切り出し範囲決定部106からベースバンド処理部113に切り出し範囲の変更指示は行われない。その場合、ベースバンド処理部113は、前のフレームと同じ切り出し範囲の矩形領域座標に基づいて、被写体の撮像画像に対応した画像データ(画像情報)から切り出し範囲の画像データを切り出す。
次に、ビデオミーティングモードにおける具体的な動作例について説明する。なお、ロックモードオフに設定されており、また話者検出モードオンに設定されているものとする。
[動作例1]
特徴エリア検出部144で、撮像画像から、図19に示すように、特徴エリア1〜3が検出され、特徴エリア検出部144から制御部101に、図20(a)〜(c)に示すように、各特徴エリアの情報が供給されるものとする。
ここで、特徴エリア1は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア1は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
また、特徴エリア2は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア2は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
また、また、特徴エリア3は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア3は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
この場合、切り出し範囲決定部106では、特徴エリア1〜3の全てを含むように、切り出し範囲が決定される。そして、切り出し範囲決定部106からベースバンド処理部113に、その切り出し範囲への変更が指示される。
図21(b)は、LCDパネル133の表示状態を示しており、撮像画像上に特徴エリア1〜3を示す枠ARaと、切り出し範囲を示す枠ARbが表示されている。この場合、切り出し範囲には特徴エリア1〜3の全てが含まれている。
図21(c)は、図21(a)に示すように、ビデオカメラ100にUSBケーブル400を介して接続されたPC300の表示パネル310の表示状態を示している。この表示パネル310には、ビデオカメラ100から伝送される切り出し範囲のストリーミング画像(特徴エリア1〜3を含む)が表示されている。
[動作例2]
特徴エリア検出部144で、撮像画像から、図19に示すように、特徴エリア1〜3が検出され、特徴エリア検出部144から制御部101に、図22(a)〜(c)に示すように、各特徴エリアの情報が供給されるものとする。
ここで、特徴エリア1は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア1は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
また、特徴エリア2は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア2は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
また、また、特徴エリア3は、除外設定された特徴エリアであり、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「true」となっている。また、この特徴エリア3は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
この場合、切り出し範囲決定部106では、特徴エリア3を除き、特徴エリア1,2を含むように、切り出し範囲が決定される。そして、切り出し範囲決定部106からベースバンド処理部113に、その切り出し範囲への変更が指示される。
図23(b)は、LCDパネル133の表示状態を示しており、撮像画像上に特徴エリア1〜3を示す枠ARaと、切り出し範囲を示す枠ARbが表示されている。この場合、切り出し範囲には特徴エリア1,2だけが含まれている。
図23(c)は、図23(a)に示すように、ビデオカメラ100にUSBケーブル400を介して接続されたPC300の表示パネル310の表示状態を示している。この表示パネル310には、ビデオカメラ100から伝送される切り出し範囲のストリーミング画像(特徴エリア1,2を含む)が表示されている。
[動作例3]
特徴エリア検出部144で、撮像画像から、図19に示すように、特徴エリア1〜3が検出され、特徴エリア検出部144から制御部101に、図24(a)〜(c)に示すように、各特徴エリアの情報が供給されるものとする。
ここで、特徴エリア1は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア1は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
また、特徴エリア2は、除外設定された特徴エリアではなく、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「false」となっている。また、この特徴エリア2は、話者の発声が検出された特徴エリアであり、特徴エリア情報の「話者の発声検出結果」の項目の値は「true」となっている。
また、また、特徴エリア3は、除外設定された特徴エリアであり、特徴エリア情報の「特徴エリアのマッチング結果」の項目の値は「true」となっている。また、この特徴エリア3は、話者の発声が検出された特徴エリアではなく、特徴エリア情報の「話者の発声検出結果」の項目の値は「false」となっている。
この場合、音声入力があるときには、切り出し範囲決定部106では、話者の特徴エリアである特徴エリア2を中心に含むように、切り出し範囲が決定される。そして、切り出し範囲決定部106からベースバンド処理部113に、その切り出し範囲への変更が指示される。
図25(b)は、LCDパネル133の表示状態を示しており、撮像画像上に特徴エリア1〜3を示す枠ARaと、切り出し範囲を示す枠ARbが表示されている。この場合、切り出し範囲には話者の特徴エリアである特徴エリア2が中心に含まれている。なお、話者の特徴エリアである特徴エリア2は、他の特徴エリアとは異なる態様で表示されている。
図25(c)は、図25(a)に示すように、ビデオカメラ100にUSBケーブル400を介して接続されたPC300の表示パネル310の表示状態を示している。この表示パネル310には、ビデオカメラ100から伝送される切り出し範囲のストリーミング画像(特徴エリア2を中心に含む)が表示されている。
以上説明したように、図1に示すビデオカメラ100においては、ビデオミーティングモードにあるとき、特徴エリア検出部144では被写体の撮像画像に対応した画像データ(画像情報)に基づいて顔を含む特徴エリアが検出され、制御部101の切り出し範囲決定部106では特徴エリア検出部144で検出された特徴エリアを含むように切り出し範囲が決定され、ベースバンド処理部113では撮像画像データから切り出し範囲決定部106で決定された切り出し範囲の画像データが切り出され、USB制御部142によりビデオストリーム画像の伝送が行われる。
すなわち、図1に示すビデオカメラ100においては、ビデオミーティングモードにあるとき、撮像画像の特徴エリア(一個または複数個)が含まれるように切り出し範囲が自動的に決定され、この切り出し範囲の画像データが伝送されるものであり、ユーザは、撮像画像の特徴エリアを含むように切り出し範囲を手動で調整する必要がなく、使い勝手が向上する。
また、図1に示すビデオカメラ100においては、ユーザはタッチパネル135またはユーザ操作部102を操作することで、特徴エリア検出部144で検出された特徴エリアのうち所定の特徴エリアを切り出し対象から除外することを設定し、またこの設定を解除できる。そのため、ユーザは、所定の特徴エリアの画像情報を伝送するか否かの選択を容易に行うことができる。
この場合、ユーザは、LCDパネル(表示パネル)133の特徴エリアの表示を用いて設定および解除を行うことでき、設定および解除の操作を容易に行うことができる。また、この場合、グラフィック表示部により、切り出し対象から除外された所定の特徴エリアの表示態様が変化するようにされているので、ユーザは、所定の特徴エリアが切り出し対象から除外されたことを容易に確認できる。
また、図1に示すビデオカメラ100においては、特徴エリア検出部144では、切り出し対象から除外することが設定された所定の特徴エリアの画像データ(画像情報)をSDRAM(記憶部)145に記憶しておき、周期的(1フレーム毎)に検出された特徴エリアの画像データを、SDRAM145に記憶された画像データと比較して、当該検出された特徴エリアが切り出し対象から除外されたものであるかを判断する構成となっている。そのため、切り出し対象から除外された特徴エリアが一旦撮像画像から外れた後再び撮像画像内に入ってきた場合にあっても、当該特徴エリアに対しては切り出し対象から除外されたものであるとの取り扱いを継続できる。
また、図1に示すビデオカメラ100においては、話者検出モードオンに設定されるとき、発声者の顔が含まれる特徴エリア(話者の検出エリア)を中心に含むように切り出し範囲が決定される。そのため、発声者の顔を中心とした画像情報を切り出して伝送できる。ユーザは、タッチパネル135あるいはユーザ操作部102の操作により、話者検出モードのオンオフを設定できるので、切り出し範囲に、検出された全ての特徴エリアを含ませるか、あるいは発声者の顔が含まれる特徴エリアを中心として含ませるかを、容易に選択できる。
また、図1に示すビデオカメラ100においては、ロックモードオンに設定されるとき、切り出し範囲決定部106では、特徴エリア検出部144で検出された特徴エリアの情報による切り出し範囲の更新処理を行わず、ベースバンド処理部113における切り出し範囲はロックされる。したがって、ユーザは、タッチパネル135あるいはユーザ操作部102の操作でロックモードをオンまたはオフに設定することで、切り出し範囲を固定するか、あるいは特徴エリアの検出結果に応じて切り出し範囲を変化させるかを、容易に選択できる。
なお、上述実施の形態においては、特徴エリアに含まれる被写体の特徴的な部分が人間の顔である例を示したが、これに限定されるものではなく、特徴エリアに含まれる被写体の特徴的な部分は、特定の物体、特定の生物等の一部あるいは全部であってもよい。
また、上述実施の形態においては、ビデオストリーミング画像を伝送する手段としてUSB規格の通信手段を用いたが、これに限定されるものではなく、IEEE1394(Institute of Electrical and Electronic Engineers 1394)等の有線手段、あるいはWiFi等の無線手段であってもよい。
また、上述実施の形態においては、切り出し範囲決定部106では、ビデオミーティングモードにおける最終的な切り出し範囲をビデオストリーミング画像のアスペクト比となるように調整しているが、この調整を行わない構成とすることもできる。
この発明は、PCあるいは携帯端末を利用したテレビ電話、テレビ会議等のコミュニケーションシステム等に適用できる。
この発明の実施の形態としてのビデオカメラの構成例を示すブロック図である。 ビデオミーティングモードにおける、ビデオカメラの特徴エリア検出部、制御部、ベースバンド処理部およびUSB制御部の処理を説明するためのフローチャートである。 ビデオカメラのLCDパネルに表示される、セットアップメニューの選択例を示す図である。 USBケーブルで外部機器と接続する過程におけるLCDパネルの画像表示例を示す図である。 顔画像を検出する際に使用される顔画像特有の輝度値(高輝度値)の分布パターンを示す図である。 顔画像を暗い部分と明るい部分にパターン分けすることで検出される目、口の位置を示す図である。 目、口の位置からなる矩形エリアを用いて、特徴エリアの矩形領域座標(Left,Top,Right,Bottom)を算出することを説明するための図である。 特徴エリア検出部における特徴エリアの有効化処理で使用されるメインバッファおよび一時バッファのデータ格納例を示す図である。 特徴エリア検出部における特徴エリアの有効化処理の動作を説明するための図である。 特徴エリア検出部における有効化処理の手順を説明するためのフローチャートである。 特徴エリア検出部における話者(発声者)の判断動作において使用される、口の動きを検出する矩形領域の決定方法を説明するための図である。 除外設定された特徴エリアがない場合、および除外設定された特徴エリアがある場合の表示状態の一例を示す図である。 特徴エリア検出部のビデオミーティングモード時の処理手順を説明するためのフローチャートである。 特徴エリア検出部から制御部に供給される特徴エリア情報を説明するための図である。 切り出し範囲決定部におけるビデオストリーム画像のアスペクト比を考慮した切り出し範囲の決定方法を説明するための図である。 特徴エリア検出部で特徴エリア1〜3の3個の特徴エリアが検出された場合における表示例を示す図である。 話者音声検出部における音声レベルの閾値と処理対象の特徴エリアの面積との関係を説明するための図である。 制御部の切り出し範囲決定部の処理手順を説明するためのフローチャートである。 特徴エリア検出部における、撮像画像からの特徴エリアの検出例を示す図である。 検出された特徴エリアに除外設定された特徴エリアおよび話者発声が検出された特徴エリアのいずれも含まない場合における、特徴エリア検出部から制御部に供給される特徴エリア情報の一例を示す図である。 検出された特徴エリアに除外設定された特徴エリアおよび話者発声が検出された特徴エリアのいずれも含まない場合における、ビデオカメラのLCDパネルおよびPCの表示パネルの表示例を示す図である。 特徴エリア検出部で検出された特徴エリアに除外設定された特徴エリアを含む場合における、特徴エリア検出部から制御部に供給される特徴エリア情報の一例を示す図である。 特徴エリア検出部で検出された特徴エリアに除外設定された特徴エリアを含む場合における、ビデオカメラのLCDパネルおよびPCの表示パネルの表示例を示す図である。 特徴エリア検出部で検出された特徴エリアに除外設定された特徴エリアおよび話者発声が検出された特徴エリアの双方を含む場合における、特徴エリア検出部から制御部に供給される特徴エリア情報の一例を示す図である。 特徴エリア検出部で検出された特徴エリアに除外設定された特徴エリアおよび話者発声が検出された特徴エリアの双方を含む場合における、ビデオカメラのLCDパネルおよびPCの表示パネルの表示例を示す図である。 ビデオカメラとPCがUSBケーブルを介して接続された従来の通信ステムにおける、ビデオカメラの表示パネルおよびPCの表示パネルの表示例を示す図である。
符号の説明
100・・・ビデオカメラ、101・・・制御部、102・・・ユーザ操作部、103・・・CPU、104・・・フラッシュROM、105・・・SDAM、106・・・切り出し範囲決定部、107・・・話者音声検出部、111・・・イメージャ、112・・・撮像処理部、113・・・ベースバンド処理部、114・・・SDRAM、115・・・マイクロホン、116・・・A/D変換器、117・・・圧縮/伸長部、118・・・記録/再生部、119・・・記録メディア、121・・・インタフェース、122・・・D端子、123・・・D/A変換器、124・・・音声出力端子、131・・・重畳部、132・・・LCDドライバ、133・・・LCDパネル、134・・・OSD部、135・・・タッチパネル、136・・・座標検出部、141・・・画像圧縮部、142・・・USB制御部、143・・・USBインタフェース、144・・・特徴エリア検出部、145・・・SDRAM

Claims (22)

  1. 被写体の撮像画像に対応した画像情報に基づいて、上記被写体の特徴的な部分を含む上記撮像画像の特徴エリアを検出する特徴エリア検出部と、
    上記特徴エリア検出部で検出された特徴エリアの領域情報に基づいて、該検出された特徴エリアを含む切り出し範囲を決定する切り出し範囲決定部と、
    上記切り出し範囲決定部で決定された切り出し範囲の領域情報に基づいて、上記被写体の撮像画像に対応した画像情報から該切り出し範囲の画像情報を切り出す画像切り出し部と、
    上記画像切り出し部で切り出された画像情報を伝送する画像伝送部と
    を備える画像処理装置。
  2. 被写体を撮像して上記被写体の撮像画像に対応した画像情報を得る撮像部をさらに備える
    請求項1に記載の画像処理装置。
  3. 上記画像切り出し部で切り出された画像情報に対して圧縮符号化処理を行う画像圧縮部をさらに備え、
    上記画像伝送部は、上記画像圧縮部で圧縮符号化された画像情報を伝送する
    請求項1に記載の画像処理装置。
  4. 上記被写体の撮像画像に対応した画像情報に基づいて、上記撮像画像を表示する表示パネルと、
    上記表示パネルに、上記撮像画像に重ねて、上記特徴エリア検出部で検出された特徴エリアおよび上記切り出し範囲決定部で決定された切り出し範囲を表示するグラフィック表示部とをさらに備える
    請求項1に記載の画像処理装置。
  5. 上記特徴エリアに含まれる上記被写体の特徴的な部分は、人間の顔である
    請求項1に記載の画像処理装置。
  6. 上記切り出し範囲決定部は、上記特徴エリア検出部で検出された特徴エリアを含み、かつ所定のアスペクト比となるように、上記切り出し範囲を決定する
    請求項1に記載の画像処理装置。
  7. 上記切り出し範囲決定部は、
    上記特徴エリア検出部で検出された特徴エリアの、最左端の値をL、最上端の値をT、最右端の値をR、最下端の値をBとし、
    上記最上端から上記切り出し範囲の上端までの距離および上記最下端から上記切り出し範囲の下端までの距離をaとし、
    上記最左端から上記切り出し範囲の左端までの距離および上記最右端から上記切り出し範囲の右端までの距離をbとし、
    上記アスペクト比をh:vとするとき、
    {|R−L|+2b}:{|B−T|+2a}=h:v
    の式を満たすように、距離aおよび距離bを求めて、上記切り出し範囲を決定する
    請求項6に記載の画像処理装置。
  8. 上記特徴エリア検出部で検出された特徴エリアから所定の特徴エリアを切り出し対象から除外することを設定し、また該設定を解除するユーザ操作部をさらに備え、
    上記切り出し範囲決定部は、上記特徴エリア検出部で検出された特徴エリアのうち、上記ユーザ操作部で上記切り出し対象から除外された特徴エリアを除く他の特徴エリアを含む切り出し範囲を決定する
    請求項1に記載の画像処理装置。
  9. 上記被写体の撮像画像に対応した画像情報に基づいて、上記撮像画像を表示する表示パネルと、
    上記表示パネルに、上記撮像画像に重ねて、上記特徴エリア検出部で検出された特徴エリアおよび上記切り出し範囲決定部で決定された切り出し範囲を表示するグラフィック表示部とをさらに備え、
    上記ユーザ操作部は、上記表示パネルに表示された上記特徴エリア検出部で検出された特徴エリアの表示を用いて、上記設定および上記解除を行う
    請求項8に記載の画像処理装置。
  10. 上記グラフィック表示部は、上記ユーザ操作部で所定の特徴エリアの上記切り出し対象からの除外が設定されるとき、該所定の特徴エリアの上記表示パネルにおける表示の態様を変化させる
    請求項9に記載の画像処理装置。
  11. 上記ユーザ操作部は、上記表示パネル上に配置されたタッチパネルにより構成され、
    ユーザは、上記表示パネルに表示されている所定の特徴エリアに対応した上記タッチパネル上の位置を押圧操作することで、該所定の特徴エリアに対する上記設定および上記解除を行う
    請求項9に記載の画像処理装置。
  12. 上記特徴エリア検出部は、周期的に、上記被写体の撮像画像に対応した画像情報に基づいて、上記特徴エリアを検出し、
    上記特徴エリア検出部は、上記ユーザ操作部により上記切り出し対象から除外することが設定された上記所定の特徴エリアの画像情報を記憶する記憶部と、
    上記特徴エリア検出部で検出された特徴エリアの画像情報と上記記憶部に記憶されている画像情報とを比較して、上記特徴エリア検出部で検出された特徴エリアが、切り出し対象から除外することが設定された上記所定の特徴エリアに対応した特徴エリアであるか否かの判断を行う除外判断部とを有し、
    上記切り出し範囲決定部は、上記特徴エリア検出部で検出された特徴エリアの領域情報および上記除外判断部の判断結果に基づいて、上記特徴エリア検出部で検出された特徴エリアのうち、上記ユーザ操作部で上記切り出し対象から除外された特徴エリアを除く他の特徴エリアを含む切り出し範囲を決定する
    請求項8に記載の画像処理装置。
  13. 上記特徴エリアに含まれる上記被写体の特徴的な部分は人間の顔であり、
    上記特徴エリア検出部は、上記被写体の撮像画像に対応した画像情報に基づいて検出された特徴エリア内の顔が発声者の顔か否かの判断を行う発声者判断部を有し、
    上記切り出し範囲決定部は、上記特徴エリア検出部で検出された特徴エリアの領域情報および上記発声者判断部の判断結果に基づいて、上記特徴エリア検出部で検出された特徴エリアに発声者の顔が含まれている特徴エリアがあるとき、該発声者の顔が含まれる特徴エリアを含む切り出し範囲を決定する
    請求項1に記載の画像処理装置。
  14. 上記画像情報に対応した音声情報に基づいて音声レベルを検出する音声レベル検出部と、
    上記音声レベル検出部で検出された音声レベルが閾値以上であるか否かを判断するレベル判断部とをさらに備え、
    上記切り出し範囲決定部は、上記特徴エリア検出部で検出された特徴エリアに発声者の顔が含まれる特徴エリアがあると共に、上記音声レベル検出部で検出された音声レベルが上記レベル判断部で閾値以上であると判断されるとき、該発声者の顔が含まれる特徴エリアを含む切り出し範囲を決定する
    請求項13に記載の画像処理装置。
  15. 上記レベル判断部で使用される閾値は、上記発声者の顔が含まれる特徴エリアの大きさが大きくなる程大きくされる
    請求項14に記載の画像処理装置。
  16. 話者検出モードのオンまたはオフを設定するユーザ設定部をさらに備え、
    上記切り出し範囲決定部は、上記ユーザ設定部で話者検出モードオンに設定されている場合、
    上記特徴エリア検出部で検出された特徴エリアに発声者の顔が含まれる特徴エリアがあるとき、該発声者の顔が含まれる特徴エリアを含む切り出し範囲を決定する
    請求項13に記載の画像処理装置。
  17. 上記被写体の撮像画像に対応した画像情報に基づいて、上記撮像画像を表示する表示パネルと、
    上記表示パネルに、上記話者検出モードの設定状態を表示するグラフィック表示部とをさらに有する
    請求項16に記載の画像処理装置。
  18. 上記ユーザ設定部は、上記表示パネルに表示された上記話者検出モードの設定状態の表示を用いて、上記話者検出モードのオンまたはオフを設定する
    請求項17に記載の画像処理装置。
  19. 上記特徴エリア検出部は、周期的に、上記被写体の撮像画像に対応した画像情報に基づいて上記特徴エリアを検出し、
    上記切り出し範囲決定部は、上記周期的に、上記特徴エリア検出部で検出された特徴エリアの位置情報に基づいて、該検出された特徴エリアを含む切り出し範囲を決定し、
    切り出し範囲のロックモードのオンまたはオフを設定するユーザ設定部をさらに備え、
    上記切り出し範囲決定部は、上記ユーザ設定部でロックモードオンに設定される場合、上記切り出し範囲を前回に決定された切り出し範囲にロックする
    請求項1に記載の画像処理装置。
  20. 上記被写体の撮像画像に対応した画像情報に基づいて、上記撮像画像を表示する表示パネルと、
    上記表示パネルに、上記ロックモードの設定状態を表示するグラフィック表示部とをさらに有する
    請求項19に記載の画像処理装置。
  21. 上記ユーザ設定部は、上記表示パネルに表示された上記ロックモードの設定状態の表示を用いて、上記ロックモードのオンまたはオフを設定する
    請求項20に記載の画像処理装置。
  22. 被写体の撮像画像に対応した画像情報に基づいて、上記被写体の特徴的な部分を含む上記撮像画像の特徴エリアを検出する特徴エリア検出ステップと、
    上記特徴エリア検出ステップで検出された特徴エリアの領域情報に基づいて、該検出された特徴エリアを含む切り出し範囲を決定する切り出し範囲決定ステップと、
    上記切り出し範囲決定ステップで決定された切り出し範囲の領域情報に基づいて、上記被写体の撮像画像に対応した画像情報から該切り出し範囲の画像情報を切り出す画像切り出しステップと、
    上記画像切り出しステップで切り出された画像情報を伝送する画像伝送ステップと
    を有する画像処理方法。
JP2008130173A 2008-05-16 2008-05-16 画像処理装置および画像処理方法 Expired - Fee Related JP5092888B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008130173A JP5092888B2 (ja) 2008-05-16 2008-05-16 画像処理装置および画像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008130173A JP5092888B2 (ja) 2008-05-16 2008-05-16 画像処理装置および画像処理方法

Publications (2)

Publication Number Publication Date
JP2009278568A true JP2009278568A (ja) 2009-11-26
JP5092888B2 JP5092888B2 (ja) 2012-12-05

Family

ID=41443539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008130173A Expired - Fee Related JP5092888B2 (ja) 2008-05-16 2008-05-16 画像処理装置および画像処理方法

Country Status (1)

Country Link
JP (1) JP5092888B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010226594A (ja) * 2009-03-25 2010-10-07 Sanyo Electric Co Ltd 画像送信装置、およびそれを搭載した撮像装置
JP2012205053A (ja) * 2011-03-25 2012-10-22 Toshiba Corp 画像処理装置、画像符号化システム及び画像復号システム
JP2019219968A (ja) * 2018-06-20 2019-12-26 Zホールディングス株式会社 画像加工装置、画像加工方法および画像加工プログラム
JP2022017369A (ja) * 2015-04-01 2022-01-25 オウル・ラブズ・インコーポレイテッド 角度分離されたサブシーンの合成およびスケーリング
US11729342B2 (en) 2020-08-04 2023-08-15 Owl Labs Inc. Designated view within a multi-view composited webcam signal
US11736801B2 (en) 2020-08-24 2023-08-22 Owl Labs Inc. Merging webcam signals from multiple cameras

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09322136A (ja) * 1996-05-29 1997-12-12 Sharp Corp 画像伝送装置
JPH1051755A (ja) * 1996-05-30 1998-02-20 Fujitsu Ltd テレビ会議端末の画面表示制御装置
JP2005102175A (ja) * 2003-08-25 2005-04-14 Fuji Photo Film Co Ltd デジタルカメラ
JP2005277476A (ja) * 2004-03-22 2005-10-06 Omron Entertainment Kk 写真撮影プリント装置、写真撮影プリント装置の制御方法、写真撮影プリント装置の制御プログラム、およびコンピュータ読み取り可能な記録媒体
JP2007228070A (ja) * 2006-02-21 2007-09-06 Yamaha Corp テレビ会議装置
JP2008085737A (ja) * 2006-09-28 2008-04-10 Nikon Corp 電子カメラ

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09322136A (ja) * 1996-05-29 1997-12-12 Sharp Corp 画像伝送装置
JPH1051755A (ja) * 1996-05-30 1998-02-20 Fujitsu Ltd テレビ会議端末の画面表示制御装置
JP2005102175A (ja) * 2003-08-25 2005-04-14 Fuji Photo Film Co Ltd デジタルカメラ
JP2005277476A (ja) * 2004-03-22 2005-10-06 Omron Entertainment Kk 写真撮影プリント装置、写真撮影プリント装置の制御方法、写真撮影プリント装置の制御プログラム、およびコンピュータ読み取り可能な記録媒体
JP2007228070A (ja) * 2006-02-21 2007-09-06 Yamaha Corp テレビ会議装置
JP2008085737A (ja) * 2006-09-28 2008-04-10 Nikon Corp 電子カメラ

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010226594A (ja) * 2009-03-25 2010-10-07 Sanyo Electric Co Ltd 画像送信装置、およびそれを搭載した撮像装置
JP2012205053A (ja) * 2011-03-25 2012-10-22 Toshiba Corp 画像処理装置、画像符号化システム及び画像復号システム
JP2022017369A (ja) * 2015-04-01 2022-01-25 オウル・ラブズ・インコーポレイテッド 角度分離されたサブシーンの合成およびスケーリング
JP2019219968A (ja) * 2018-06-20 2019-12-26 Zホールディングス株式会社 画像加工装置、画像加工方法および画像加工プログラム
US11729342B2 (en) 2020-08-04 2023-08-15 Owl Labs Inc. Designated view within a multi-view composited webcam signal
US11736801B2 (en) 2020-08-24 2023-08-22 Owl Labs Inc. Merging webcam signals from multiple cameras

Also Published As

Publication number Publication date
JP5092888B2 (ja) 2012-12-05

Similar Documents

Publication Publication Date Title
US7493571B2 (en) Electronic apparatus with display unit, information-processing method, and computer product
US8045850B2 (en) Image pickup apparatus, image recording apparatus and image recording method
JP4730663B2 (ja) 遠隔制御装置、遠隔制御システムおよび遠隔制御方法
JP5092888B2 (ja) 画像処理装置および画像処理方法
US20070075970A1 (en) Method for controlling display of image according to movement of mobile terminal
US20120078619A1 (en) Control apparatus and control method
JP2009077228A (ja) 撮像装置とその制御方法
JP4372040B2 (ja) 表示処理装置及び表示処理方法
JP6319491B2 (ja) 撮像装置及び制御方法
JP5111343B2 (ja) 再生装置
JP6583458B2 (ja) 撮像装置及び制御方法
JP6583457B2 (ja) 撮像装置及び制御方法
JP6119447B2 (ja) 撮像システム、及び制御方法
JP2011130134A (ja) 撮像装置、撮像システム
JP2005176272A (ja) 撮像方法及びその装置
JP4371170B2 (ja) 撮像装置、画像記録装置および画像記録方法
JP2009071729A (ja) 画像蓄積システム、画像蓄積装置及び画像蓄積装置の制御方法
JP6332963B2 (ja) 画像処理装置及び画像処理装置の制御方法
JP4111688B2 (ja) 動画レコーダ付きメール端末装置
JP2006086870A (ja) 動画像再生装置
WO2012070534A1 (ja) 映像音声出力装置、および映像音声出力方法、ならびに該映像音声出力装置を備えたテレビジョン受像機
JP2015036748A (ja) 撮像装置、撮像装置の制御方法、プログラム
JP2017098682A (ja) 表示制御装置および表示システム
WO2011122683A1 (ja) 記録装置、記録システム、表示装置、テレビジョン受像機、記録方法、プログラム、および、記録媒体
JP2017028638A (ja) 撮像システム、撮像装置、撮像システムの制御方法、プログラムおよび記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120903

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees