JP5004876B2 - Imaging device - Google Patents
Imaging device Download PDFInfo
- Publication number
- JP5004876B2 JP5004876B2 JP2008145845A JP2008145845A JP5004876B2 JP 5004876 B2 JP5004876 B2 JP 5004876B2 JP 2008145845 A JP2008145845 A JP 2008145845A JP 2008145845 A JP2008145845 A JP 2008145845A JP 5004876 B2 JP5004876 B2 JP 5004876B2
- Authority
- JP
- Japan
- Prior art keywords
- face
- sound
- detecting
- imaging
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003384 imaging method Methods 0.000 title claims description 43
- 238000001514 detection method Methods 0.000 claims description 78
- 238000000034 method Methods 0.000 claims description 58
- 238000011156 evaluation Methods 0.000 claims description 27
- 230000001755 vocal effect Effects 0.000 claims 2
- 238000012545 processing Methods 0.000 description 42
- 230000008569 process Effects 0.000 description 40
- 230000006870 function Effects 0.000 description 9
- 230000006854 communication Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000006837 decompression Effects 0.000 description 5
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 1
- 229910005580 NiCd Inorganic materials 0.000 description 1
- 229910005813 NiMH Inorganic materials 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 229910052744 lithium Inorganic materials 0.000 description 1
- 238000005375 photometry Methods 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
Description
本発明は、入射した光を電気信号に変換する撮像素子の出力をデジタル値に変換して画像データを得る撮像装置に関する。特に、被写体の顔を検出する機能を備える撮像装置に関する。 The present invention relates to an imaging apparatus that obtains image data by converting an output of an imaging device that converts incident light into an electrical signal into a digital value. In particular, the present invention relates to an imaging apparatus having a function of detecting the face of a subject.
従来、人物撮影を行う場合において、主被写体である人物とその背景のコントラストの関係から焦点が人物に合わずに、背景に合ってしまうという問題があった。このような問題を解決するために、画面内の顔を検出し、検出した顔の位置に合焦させることで、人物に焦点を合わせる撮像装置が開発されている(特許文献1参照)。 Conventionally, when taking a picture of a person, there is a problem that the focus is not on the person but on the background because of the contrast between the person who is the main subject and the background. In order to solve such a problem, an imaging apparatus that focuses on a person by detecting a face in the screen and focusing on the position of the detected face has been developed (see Patent Document 1).
しかし特許文献1によると、撮影画面内に人物がいるかいないかに関わらず顔検出処理を実行するため、撮影に時間がかかるという問題があった。
However, according to
この問題を解決するために、撮像装置に設けられているマイクで撮影者の音声を検出すると、顔検出を実行する撮像装置が提案されている(特許文献2参照)。 In order to solve this problem, there has been proposed an imaging device that performs face detection when a photographer's voice is detected by a microphone provided in the imaging device (see Patent Document 2).
特許文献2によると、撮像装置が風景撮影モードのときは顔検出処理を実行せず、人物撮影モードのときは顔検出処理を実行し、どちらのモードでもないときは撮影者の音声を検出したときだけ顔検出処理を実行する。
According to
尚、画像データからの顔検出については、非特許文献1、2に記載されたものが知られている。更に、特許文献3〜6に記載されている手法で目を検出することにより、顔の位置や大きさを推定することもできる。
しかしながら、上記従来の撮像装置では、確実に人物撮影である場合の顔検出処理と、人物撮影であるかどうか撮像装置が判定できない場合の顔検出処理に違いが無く、状況に応じて、顔検出処理が最適化されていなかった。 However, in the above conventional imaging device, there is no difference between the face detection processing in the case of reliably taking a person and the face detection processing in the case where the imaging device cannot determine whether or not the person has been taken. Processing was not optimized.
本発明の目的は、顔検出処理の精度を向上させることができる撮像装置を提供することにある。 The objective of this invention is providing the imaging device which can improve the precision of a face detection process.
上記目的を達成するために、本発明による撮像装置は、被写体像を光電変換することにより画像データを取得する撮像手段と、前記撮像手段によって得られた撮影画像から、顔を検出するための評価値を演算し、前記評価値をしきい値と比較して顔判定を行い、評価値がしきい値より大きければ顔であると判定する顔検出手段と、音声を検出する音声検出手段とを備え、前記顔検出手段は、前記音声検出手段の検出結果に応じて、前記しきい値を変更することを特徴とする。 In order to achieve the above object, an imaging apparatus according to the present invention includes an imaging unit that acquires image data by photoelectrically converting a subject image, and an evaluation for detecting a face from the captured image obtained by the imaging unit. A face detection unit that calculates a value, compares the evaluation value with a threshold value to perform face determination, and determines that the face is a face if the evaluation value is greater than the threshold value; and a voice detection unit that detects voice The face detection means changes the threshold value according to a detection result of the voice detection means.
本発明の撮像装置によれば、顔検出処理の精度を向上させることができる。 According to the imaging apparatus of the present invention, it is possible to improve the accuracy of face detection processing.
以下、本発明の実施の形態を図面を参照しながら詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明の実施の形態に係る撮像装置としてのデジタルカメラの外観斜視図である。 FIG. 1 is an external perspective view of a digital camera as an imaging device according to an embodiment of the present invention.
装置本体1は、光学ファインダ2、電源スイッチ(ボタン)3、静止画または動画を撮影する際に押下するレリーズスイッチ4、撮影の画角を変更するためのズームレバー5、モード切替スイッチ6を備える。
The apparatus
モード切替スイッチ6は、装置本体1における各種モードを切り替える。より具体的には、装置本体1の背面に印刷されたアイコンマーク1aにモード切替スイッチ6を合わせると、静止画記録モードへの切り替えが可能である。また、アイコンマーク1bにモード切替スイッチ6を合わせると、動画記録モードへの切り替えが可能である。また、アイコンマーク1cにモード切替スイッチ6を合わせると、再生モードにモードの切り替えが可能である。
The
液晶パネル7は、装置本体1の背面に備えられた表示手段であり、撮影レンズを介して撮像素子の受光面に結像した撮影前の被写体像をスルー画像として表示し、あるいは、撮影後記録された画像を再生して表示する。
The
操作部8は、操作者が各種操作を行う操作スイッチであり、具体的には、液晶パネル7上の表示を切り替える表示スイッチや、メニュースイッチ、印刷スイッチ、SETスイッチである。
The
十字スイッチ9は、十字に配置された4方向スイッチ(上スイッチ、下スイッチ、右スイッチ、左スイッチ)である。
The
図2は、図1のデジタルカメラのブロック図である。 FIG. 2 is a block diagram of the digital camera of FIG.
以下、その構成を動作(機能)と併せて説明する。 Hereinafter, the configuration will be described together with the operation (function).
図2において、バリア101は、装置本体1の、撮影レンズ102を含む撮像系を覆うことにより、撮像系の汚れや破損を防止する。撮影レンズ102、絞り機能を備えるシャッター103、光学像を電気信号に変換(光電変換)するCCDやCMOS素子等で構成される撮像部(撮像素子)104がある。
In FIG. 2, the
A/D変換器105は、アナログ信号をデジタル信号に変換する。A/D変換器105は、撮像部104から出力されるアナログ信号をデジタル信号に変換する場合や、音声制御部106から出力されるアナログ信号をデジタル信号に変換する場合に用いられる。
The A /
タイミング発生部107は、撮像部104、A/D変換器105、音声制御部106、D/A変換器108にクロック信号や制御信号を供給する。タイミング発生部107は、メモリ制御部109及びシステム制御部110により制御される。
The
画像処理部111は、A/D変換器105からのデータ、または、メモリ制御部109からのデータに対し所定の画素補間、縮小といったリサイズ処理や色変換処理を行う。
The
また、画像処理部111では、撮影した画像データを用いて所定の演算処理が行われ、得られた演算結果に基づいてシステム制御部110が露光制御、測距制御を行う。これにより、TTL(スルー・ザ・レンズ)方式のAF(オートフォーカス)処理、AE(自動露出)処理、EF(フラッシュプリ発光)処理が行われる。
The
システム制御部110は、撮像手段としての撮像部104によって得られた撮影画像から、顔を検出するための評価値を演算し、評価値をしきい値と比較して顔判定を行い、評価値がしきい値より大きければ顔であると判定する顔検出手段として機能する。その詳細については、後述する図3のステップS301で説明する。
The
画像処理部111では更に、撮影した画像データを用いて所定の演算処理を行い、得られた演算結果に基づいてTTL方式のAWB(オートホワイトバランス)処理も行っている。
The
A/D変換器105からの出力データは、画像処理部111及びメモリ制御部109を介して、あるいは、直接メモリ制御部109を介して、メモリ112に書き込まれる。メモリ112は、撮像部104によって得られ、A/D変換器105によりデジタルデータに変換された画像データや、液晶パネル7を含む画像表示部23に表示するための画像データを格納する。
Output data from the A /
尚、メモリ112は、マイク21(21a、21b)において録音された音声データ、静止画像、動画像及び画像ファイルを構成する場合のファイルヘッダを格納するのにも用いられる。従って、メモリ112は、所定枚数の静止画像や所定時間の動画像及び音声を格納するのに十分な記憶容量を備えている。
Note that the
圧縮/伸張部113は、適応離散コサイン変換(ADCT)等により画像データを圧縮、伸張する。圧縮/伸張部113は、シャッター103をトリガにしてメモリ112に格納された撮影画像を読み込んで圧縮処理を行い、処理を終えたデータをメモリ112に書き込む。
The compression /
また、圧縮/伸張部113は、記録媒体200の記録部201等からメモリ112に読み込まれた圧縮画像に対して伸張処理を行い、処理を終えたデータをメモリ112に書き込む。
The compression /
圧縮/伸張部113によりメモリ112に書き込まれた画像データは、システム制御部110のファイル部においてファイル化される。そして、インターフェース(I/F)114、コネクタ115、記録媒体200側のコネクタ203、インターフェース(I/F)202を介して、記録部201に記録される。また、メモリ112は、画像表示用のメモリ(ビデオメモリ)を兼ねている。
The image data written to the
D/A変換器108は、メモリ112に格納されている画像表示用のデータをアナログ信号に変換して画像表示部23に供給する。画像表示部23は、液晶パネル7等の表示器上に、メモリ112に書き込まれた表示用の画像データをD/A変換器108を介してアナログ信号に変換して表示を行う。
The D /
マイク21から出力された音声信号は、アンプ等で構成される音声制御部106を介してA/D変換器105に供給され、A/D変換器105においてデジタル信号に変換された後、メモリ制御部109によってメモリ112に格納される。
The audio signal output from the microphone 21 is supplied to the A /
一方、記録媒体200に記録されている音声データは、メモリ112に読み込まれた後、D/A変換器108によりアナログ信号に変換される。音声制御部106は、このアナログ信号によりスピーカ22を駆動し、音声出力する。
On the other hand, the audio data recorded on the
不揮発性メモリ116は、電気的に消去・記録可能なメモリであり、例えばEEPROM等が用いられる。不揮発性メモリ116には、システム制御部110の動作用の定数、プログラム等が記憶(記録)される。ここでいう、プログラムとは、本実施の形態にて後述する各種フローチャートを実行するためのプログラムのことである。
The
システム制御部110は、不揮発性メモリ116に記憶されたプログラムを実行することで、後述する本実施の形態の各処理を実現する。システムメモリ117は、RAMが用いられる。システムメモリ117には、システム制御部110の動作用の定数、変数、不揮発性メモリ116から読み出したプログラム等を展開(記憶)する。
The
ズームレバー5、モード切替スイッチ6、第1シャッタースイッチ51、第2シャッタースイッチ52、操作部8及び十字スイッチ9はシステム制御部110に各種の動作指示を入力するための操作手段である。
The
モード切替スイッチ6は、システム制御部110の動作モードを静止画記録モード、動画記録モード、再生モード等のいずれかに切り替えることができる。第1シャッタースイッチ51は、装置本体1に設けられたレリーズスイッチ4の操作途中(半押し)でオンとなり第1シャッタースイッチ信号SW1を発生する。
The
システム制御部110は、第1シャッタースイッチ信号SW1により、AF処理、AE処理、AWB処理、EF処理等の動作を開始する。
The
第2シャッタースイッチ52は、レリーズスイッチ4の操作完了(全押し)でオンとなり、第2シャッタースイッチ信号SW2を発生する。システム制御部110は、第2シャッタースイッチ信号SW2により、撮像部104からの信号読み出しから記録媒体200に画像データを書き込むまでの一連の撮影処理の動作を開始する。
The
操作部8の各操作部材は、画像表示部23に表示される種々の機能アイコンを選択操作すること等により、場面毎に適宜機能が割り当てられ、各種機能スイッチとして作用する。機能スイッチとしては、例えば、終了スイッチ、戻るスイッチ、画像送りスイッチ、ジャンプスイッチ、絞込みスイッチ、属性変更スイッチ等がある。
Each operation member of the
例えば、メニュースイッチが押されると各種設定が可能なメニュー画面が画像表示部23に表示される。操作者は、画像表示部23に表示されたメニュー画面と、十字スイッチ9やSETスイッチとを用いて直感的に各種設定を行うことができる。電源スイッチ3は、電源オン、電源オフを切り替える。
For example, when the menu switch is pressed, a menu screen on which various settings can be made is displayed on the
電源制御部118は、電池検出回路、DC−DCコンバータ、通電するブロックを切り替えるスイッチ回路等により構成され、電池の装着の有無、電池の種類、電池残量の検出を行う。また、電源制御部118は、その検出結果及びシステム制御部110の指示に基づいてDC−DCコンバータを制御し、必要な電圧を必要な期間、記録媒体200を含む各部へ供給する。
The power
電源部119は、アルカリ電池やリチウム電池等の一次電池やNiCd電池やNiMH電池、Li電池等の二次電池、ACアダプター等からなる。コネクタ54及び55は電源部119と電源制御部118とを接続する。
The
RTC(Real Time Clock)120は、日付及び時刻を計時する。RTC120は、電源制御部118とは別に内部に電源部を保持しており、電源部119が落ちた状態であっても、計時状態を続ける。システム制御部110は、起動時にRTC120より取得した日時を用いてシステムタイマを設定し、タイマ制御を実行する。
An RTC (Real Time Clock) 120 measures the date and time. The
インターフェース114は、メモリカードやハードディスク等の記録媒体200またはチューナーカードと、装置本体1とのインターフェースを司る。コネクタ115は、記録媒体200やチューナーカードとインターフェース114との接続を行う。記録媒体着脱検出部121は、コネクタ115に記録媒体200やチューナーカードが装着されているか否かを検出する。
The
記録媒体200は、図2においてはメモリカードやハードディスク等である。記録媒体200は、半導体メモリや磁気ディスク等から構成される記録部201、装置本体1とのインターフェース202、及び、記録媒体200と装置本体1とを接続するためのコネクタ203を備えている。
The
また、コネクタ115、203はSDI/Oカードの拡張規格に準拠しており、先述の記録媒体の他、SDI/Oカードの拡張規格に準拠したチューナーカードが着脱可能となっている。
The
通信部122は、RS232CやUSB、IEEE1394、P1284、SCSI、モデム、LAN、無線通信等の各種通信処理を行う。コネクタ(無線通信の場合はアンテナ)123は、通信部122を介して装置本体1を他の機器と接続する。
The
図3は、図2のデジタルカメラによって実行される撮影(撮像)処理の手順を示すフローチャートである。 FIG. 3 is a flowchart showing a procedure of photographing (imaging) processing executed by the digital camera of FIG.
図3に示される処理は、システム制御部110により実行される。例えば、システム制御部110は不図示のCPUを備え、例えば、システムメモリ117に格納された制御プログラムを実行することにより図3に示される処理を実現する。
The process shown in FIG. 3 is executed by the
図3において撮影動作が開始されると、ステップS301において、システム制御部110は、スルー表示される画像信号中に人の顔が存在するか否かを検出する顔検出処理を行う。この顔検出処理については図4を用いて後述する。
When the shooting operation is started in FIG. 3, in step S <b> 301, the
システム制御部110は、顔検出処理において人の顔が検出された場合、画像信号中において検出した顔の位置座標、サイズ(幅、高さ)、検出個数、信頼性係数等を顔情報としてシステムメモリ117に記憶する。顔検出処理において顔が検出されなかった場合は、システムメモリ117内の位置座標、サイズ(幅、高さ)、検出個数、信頼性係数等の領域に0を設定する。
When a human face is detected in the face detection process, the
続いてステップS302において、第1シャッタースイッチ信号SW1がONされたか否か判定される。第1シャッタースイッチ信号SW1がOFFであれば、再度ステップS301の顔検出処理が実行され、ONであれば、次のステップS303に進む。 Subsequently, in step S302, it is determined whether or not the first shutter switch signal SW1 is turned on. If the first shutter switch signal SW1 is OFF, the face detection process in step S301 is executed again, and if it is ON, the process proceeds to the next step S303.
ステップS303において、システム制御部110は、測距処理を行って撮影レンズ102の焦点を被写体に合わせるとともに、測光処理を行って絞り値及びシャッター時間(シャッタースピード)を決定する。
In step S303, the
尚、測光処理において、必要であればフラッシュの設定も行われる。このとき、ステップS301において顔が検出されていれば、検出した顔の範囲で測距を行うようにすることも可能である。 In the photometric process, a flash is set if necessary. At this time, if a face is detected in step S301, it is possible to perform distance measurement within the detected face range.
次に、ステップS304では、第2シャッタースイッチ信号SW2のON/OFF状態を判定する。第1シャッタースイッチ信号SW1がONした状態で、第2シャッタースイッチ信号SW2がONになると、処理はステップS304からステップS306へ進む。 Next, in step S304, the ON / OFF state of the second shutter switch signal SW2 is determined. If the second shutter switch signal SW2 is turned on while the first shutter switch signal SW1 is turned on, the process proceeds from step S304 to step S306.
第2シャッタースイッチ信号SW2がONせずに、更に第1シャッタースイッチ信号SW1も解除された場合(ステップS305)、処理はステップS305からステップS301へ戻る。 When the second shutter switch signal SW2 is not turned on and the first shutter switch signal SW1 is also canceled (step S305), the process returns from step S305 to step S301.
また、第1シャッタースイッチ信号SW1がON、第2シャッタースイッチ信号SW2がOFFの間は、ステップS303〜S305の処理が繰り返される。 Further, while the first shutter switch signal SW1 is ON and the second shutter switch signal SW2 is OFF, the processes in steps S303 to S305 are repeated.
第2シャッタースイッチSW2が押されると(第2シャッタースイッチ信号SW2がONされると)、ステップS306において、システム制御部110は、露光処理や現像処理を含む撮影処理(露光処理)を実行する。
When the second shutter switch SW2 is pressed (when the second shutter switch signal SW2 is turned on), in step S306, the
尚、露光処理では、撮像部104、A/D変換器105を経て得られた画像データが、画像処理部111及びメモリ制御部109を介して、或いはA/D変換器105から直接メモリ制御部109を介して、メモリ112に書き込まれる。
In the exposure process, the image data obtained through the
また、現像処理では、システム制御部110が、メモリ制御部109そして必要に応じて画像処理部111を用いて、メモリ112に書き込まれた画像データを読み出して各種処理を行う。
In the development process, the
撮影後、ステップS307において、システム制御部110は、撮影処理で得られた画像データを画像ファイルとして記録媒体200に対して書き込む記録処理を実行する。
After shooting, in step S307, the
(第1の実施の形態)
図4は、図3のステップS301で実行される顔検出処理の第1の実施の形態の手順を示すフローチャートである。
(First embodiment)
FIG. 4 is a flowchart showing the procedure of the first embodiment of the face detection process executed in step S301 of FIG.
顔検出処理がスタートすると、ステップS401で、画像の顔評価値を算出する。顔評価値とは、画像に含まれる領域の顔らしさを表す数値であり、例えば、パターンマッチング法における顔テンプレートとのマッチング度であり、目・鼻・口等の特徴点のレイアウトから演算される特徴量である。 When the face detection process starts, the face evaluation value of the image is calculated in step S401. The face evaluation value is a numerical value representing the face-likeness of the area included in the image, for example, the degree of matching with the face template in the pattern matching method, and is calculated from the layout of feature points such as eyes, nose, and mouth. It is a feature quantity.
顔テンプレートとのマッチング度を求める場合、画像の内、顔検出処理を行う領域内でエッジ抽出を行い、予め決められた顔テンプレートを、抽出したエッジと比較し、顔テンプレートとの類似度を算出する。 When finding the degree of matching with a face template, edge extraction is performed within the area of the image where face detection processing is performed, a predetermined face template is compared with the extracted edge, and the degree of similarity with the face template is calculated. To do.
顔テンプレートは、顔検出処理を行う領域内で走査され、顔テンプレートとの類似度が対象画素ごとに順次算出される。これらの顔評価値を求める技術は公知であり、例えば、特開平8−63597号公報等に開示されている。 The face template is scanned within a region where face detection processing is performed, and the similarity with the face template is sequentially calculated for each target pixel. Techniques for obtaining these face evaluation values are known and disclosed in, for example, Japanese Patent Laid-Open No. 8-63597.
次に、ステップS402で、ステップS401で算出した顔評価値を、予め決められていたしきい値と比較する。 Next, in step S402, the face evaluation value calculated in step S401 is compared with a predetermined threshold value.
顔検出処理を行う画像内に、顔評価値がしきい値以上となる領域が含まれていれば、ステップS403に進み、対象領域は顔であると判定し、顔検出処理を終了する。ステップS402で、顔評価値がしきい値以上となる領域が存在しなければ、ステップS404に進む。 If the image to be subjected to the face detection process includes an area where the face evaluation value is equal to or greater than the threshold value, the process proceeds to step S403, where the target area is determined to be a face, and the face detection process is terminated. If there is no region where the face evaluation value is equal to or greater than the threshold value in step S402, the process proceeds to step S404.
ステップS404では、装置本体1に備えられたマイク21を用いて、音声検出が行われる。
In step S <b> 404, voice detection is performed using the microphone 21 provided in the apparatus
ステップS405では、音声の有無が判定され、音声が検出されれば、ステップS406に進む。 In step S405, the presence / absence of sound is determined. If sound is detected, the process proceeds to step S406.
ステップS406では、顔評価値と比較するしきい値を下げる。これは音声が検出されていることから、撮影範囲内に人物が存在すると想定されるためである。 In step S406, the threshold value to be compared with the face evaluation value is lowered. This is because it is assumed that a person is present within the shooting range since the sound is detected.
しきい値を変更した後、ステップS407において、改めてステップS401で求めた顔評価値としきい値を比較する。ここで顔評価値がしきい値以上であれば、ステップS403に進み、対象領域は顔であると判定される。 After changing the threshold value, in step S407, the face evaluation value obtained in step S401 is compared with the threshold value. If the face evaluation value is greater than or equal to the threshold value, the process proceeds to step S403, where it is determined that the target area is a face.
一方、ステップS405で音声が検出されなかった場合、またはステップS407で顔評価値がしきい値以上となる領域が存在しなかった場合は、顔を検出することなく顔検出処理を終了する。 On the other hand, if no sound is detected in step S405, or if there is no region where the face evaluation value is equal to or greater than the threshold value in step S407, the face detection process is terminated without detecting a face.
以上説明したように、第1の実施の形態では、音声を検出した場合に顔判定の基準となるしきい値を下げる。そのため、例えば、暗がりでの撮影や、横向き、目瞑り等の、通常の顔検出処理では検出できない対象物も検出可能となり、顔検出率の向上に寄与する。 As described above, in the first embodiment, the threshold value used as a criterion for face determination is lowered when voice is detected. For this reason, for example, it is possible to detect an object that cannot be detected by normal face detection processing, such as shooting in the dark, sideways, and eye meditation, which contributes to an improvement in the face detection rate.
尚、第1の実施の形態では、顔評価値がしきい値以上か否かで顔判定の基準としたが、例えば、顔評価値が上限と下限の間の一定範囲内に入っていれば顔であると判定する技術も公知である。その場合、音声を検出した際に顔であると判定する範囲の上限と下限をそれぞれ変更して、範囲を広げることで、顔検出率の向上を図ることができる。 In the first embodiment, the face determination criterion is based on whether or not the face evaluation value is greater than or equal to the threshold value. For example, if the face evaluation value falls within a certain range between the upper limit and the lower limit. A technique for determining a face is also known. In that case, it is possible to improve the face detection rate by changing the upper and lower limits of the range that is determined to be a face when speech is detected to widen the range.
(第2の実施の形態)
第2の実施の形態では、人物の発声音を検出することで、しきい値を下げるものとする。また音源位置を検出して、音源位置を含む一部の領域のみのしきい値を下げるものとする。
(Second Embodiment)
In the second embodiment, it is assumed that the threshold value is lowered by detecting the voice of a person. Further, the sound source position is detected, and the threshold value of only a part of the region including the sound source position is lowered.
図5は、図3のステップS301で実行される顔検出処理の第2の実施の形態の手順を示すフローチャートである。 FIG. 5 is a flowchart showing the procedure of the second embodiment of the face detection process executed in step S301 of FIG.
顔検出処理がスタートすると、ステップS501で、音声検出処理を実行し、ステップS502で音声の有無を判定する。音声ありと判定されれば、次にステップS503で、音声が人物の発声音であるか否かを判定する。人物の発声音であると判定された場合には、ステップS504で、撮影画角内であるかどうかを判定する。 When the face detection process starts, a voice detection process is executed in step S501, and the presence or absence of voice is determined in step S502. If it is determined that there is sound, it is then determined in step S503 whether the sound is a person's voice. If it is determined that the sound is a person's voice, it is determined in step S504 whether the sound is within the shooting angle of view.
これら一連の音声・音源判定技術は公知であり、例えば特開平05−215833号公報にて開示されている。 A series of these voice / sound source determination techniques are known and disclosed in, for example, Japanese Patent Application Laid-Open No. 05-215833.
図6は、図5のステップS501で実行される音源方向検出処理に用いられる音源方向検出手段の構成例を示す図である。 FIG. 6 is a diagram illustrating a configuration example of a sound source direction detecting unit used in the sound source direction detecting process executed in step S501 of FIG.
図6において、指向性の高いマイク21(21a、21b)の出力信号は、バンドパスフィルタ602(602a、602b)によって、特定周波数のみ減衰無く通過する。音圧差検出回路603では、各マイク21a、21bが出力した音圧レベルを比較し、音圧レベルの差値がシステム制御部110へ出力される。
In FIG. 6, the output signal of the microphone 21 (21a, 21b) having high directivity passes only a specific frequency without attenuation by the band-pass filter 602 (602a, 602b). The sound pressure
音源601がマイク21の指向特性パターンから離れる程、マイク21の出力する音圧レベルは下がる。このため、各マイク21a、21bの出力する音圧レベルに差があれば、高いレベルを出力するマイク側に音声信号を発する音源601があることが検出でき、両出力レベルの差が小さい程音源が真正面にあることが検出できる。
The sound pressure level output by the microphone 21 decreases as the sound source 601 moves away from the directional characteristic pattern of the microphone 21. For this reason, if there is a difference in the sound pressure levels output from the
ここで、バンドパスフィルタ602が減衰無く通過させる特定帯域の周波数を、例えば、人の発声する周波数帯域である2KHz前後とすることで、人の発声音の音源位置を検出することが可能となる。 Here, it is possible to detect the sound source position of a person's uttered sound by setting the frequency of the specific band that the bandpass filter 602 passes without attenuation to, for example, around 2 KHz that is a frequency band uttered by a person. .
また、指向性のマイク21を、装置本体1の左右に1個ずつ計2個を用いることにより、装置本体1に対して左右方向の音源位置を検出することができる。更に、上下方向において異なる位置に更にもう1つ、マイク21を備えることにより、装置本体1に対して上下方向についても音源位置を検出することができる。マイク21の数を増やせば音源位置の検出精度は更に高まる。
Further, by using two directional microphones 21, one for each of the left and right sides of the apparatus
音源位置を検出する他の技術として、装置本体1に設けられた複数のマイク21a、21bの出力する音声信号の位相差を利用する技術も知られている。これは、音源601から各マイク21a、21bまでの距離に差があると、マイク21の出力信号に位相差が生じるため、既知のマイク間距離と音速から、音源の方向を演算によって特定する技術である。詳しくは、特開平07−140527号公報に開示されている。
As another technique for detecting the position of the sound source, a technique using a phase difference between audio signals output from a plurality of
更に、撮影レンズ102の焦点距離によって上記の音源位置検出方法を使い分けても良い。
Furthermore, the above-described sound source position detection method may be properly used depending on the focal length of the photographing
音源601が装置本体1の正面から横に寄るほど、音源601から各マイク21a、21bまでの距離に差が生じるため、位相差が大きくなる。そのため、広角寄りでは位相差方式での音源位置検出が好適である。
The closer the sound source 601 is to the side from the front of the
一方、音源601が装置本体1の正面付近の場合、音声検出範囲の狭い指向性のマイク21であれば、音源位置のわずかな違いでも音圧差が生じる。そのため、望遠寄りでは指向性のマイク21による音圧差方式での音源位置検出が好適である。
On the other hand, when the sound source 601 is in the vicinity of the front of the apparatus
図5に戻り、ステップS504で、音源601が画角内であると判定されたら、ステップS505に進む。ステップS505では、音源方向を含む撮影範囲の一部領域を設定し、次のステップS506では、ステップS505で設定した音源位置を含む領域内のみ顔判定の基準となるしきい値を下げる処理を行う。 Returning to FIG. 5, if it is determined in step S504 that the sound source 601 is within the angle of view, the process proceeds to step S505. In step S505, a partial region of the shooting range including the sound source direction is set, and in the next step S506, processing for lowering a threshold value used as a face determination reference is performed only in the region including the sound source position set in step S505. .
顔検出の基準となるしきい値を下げる処理を行うか、あるいはステップS502からステップS504において、音源601を検出できない、音声は人物の発声音ではない、音源601は撮影画各内ではない等の判定がなされると、ステップS507に進む。 Processing to lower the threshold value used as a reference for face detection is performed, or in step S502 to step S504, the sound source 601 cannot be detected, the sound is not a person's uttered sound, the sound source 601 is not in each captured image, etc. When the determination is made, the process proceeds to step S507.
ステップS507では、第1の実施の形態のステップS401と同様に、撮影領域の顔評価値の算出が行われる。 In step S507, as in step S401 of the first embodiment, the face evaluation value of the shooting area is calculated.
ステップS508では、算出された顔評価値としきい値の比較が行われる。顔評価値がしきい値以上となる領域があれば、ステップS509において、顔であると判定された上で顔検出処理は終了し、顔評価値がしきい値以上となる領域が無ければ、顔を検出することなく顔検出処理は終了する。 In step S508, the calculated face evaluation value is compared with a threshold value. If there is an area where the face evaluation value is equal to or greater than the threshold value, the face detection process ends after it is determined in step S509 that the face evaluation value is equal to or greater than the threshold value. The face detection process ends without detecting a face.
以上説明した通り、第2の実施の形態では、音声の種類を人物の発声音か否かで区別する。そのため、撮影画角内に人物が存在する場合のみ、しきい値を下げて顔検出率を向上することが可能となり、人物が存在しない場合には、不必要にしきい値を下げることが無いため、誤検出の増加を抑えることができる。 As described above, in the second embodiment, the type of voice is distinguished based on whether it is a person's voice. Therefore, it is possible to improve the face detection rate by lowering the threshold only when there is a person within the shooting angle of view. If there is no person, the threshold will not be lowered unnecessarily. , Increase in false detection can be suppressed.
また、音源方向を検出し、音源を含む一部領域のみしきい値を下げるため、人物が存在しない領域では誤検出の増加を抑えることができる。 Further, since the sound source direction is detected and the threshold value is lowered only in a partial region including the sound source, it is possible to suppress an increase in false detection in a region where no person exists.
更に、撮影レンズ102の焦点距離によって音源方向検出方法を変えるため、音源方向の検出精度をより高めることができる。
Furthermore, since the sound source direction detection method is changed depending on the focal length of the photographing
1 装置本体
21 マイク
104 撮像部
106 音声制御部
110 システム制御部
111 画像処理部
603 音圧差検出回路
1 Device body 21 Microphone
104
Claims (11)
前記撮像手段によって得られた撮影画像から、顔を検出するための評価値を演算し、前記評価値をしきい値と比較して顔判定を行い、評価値がしきい値より大きければ顔であると判定する顔検出手段と、
音声を検出する音声検出手段とを備え、
前記顔検出手段は、前記音声検出手段の検出結果に応じて、前記しきい値を変更することを特徴とする撮像装置。 Imaging means for acquiring image data by photoelectrically converting a subject image;
An evaluation value for detecting a face is calculated from the photographed image obtained by the imaging means, and the face is determined by comparing the evaluation value with a threshold value. Face detection means for determining that there is,
Voice detection means for detecting voice,
The imaging apparatus according to claim 1, wherein the face detection unit changes the threshold value in accordance with a detection result of the voice detection unit.
前記撮像手段によって得られた撮影画像から、顔を検出するための評価値を演算し、前記評価値が所定の範囲内であれば顔であると判定する顔検出手段と、
音声を検出する音声検出手段とを備え、
前記顔検出手段は、前記音声検出手段の検出結果に応じて、前記所定の範囲を変更することを特徴とする撮像装置。 Imaging means for acquiring image data by photoelectrically converting a subject image;
A face detection unit that calculates an evaluation value for detecting a face from the captured image obtained by the imaging unit, and determines that the face is a face if the evaluation value is within a predetermined range;
Voice detection means for detecting voice,
The imaging apparatus according to claim 1, wherein the face detection unit changes the predetermined range according to a detection result of the voice detection unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008145845A JP5004876B2 (en) | 2008-06-03 | 2008-06-03 | Imaging device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008145845A JP5004876B2 (en) | 2008-06-03 | 2008-06-03 | Imaging device |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2009296142A JP2009296142A (en) | 2009-12-17 |
JP2009296142A5 JP2009296142A5 (en) | 2011-07-21 |
JP5004876B2 true JP5004876B2 (en) | 2012-08-22 |
Family
ID=41543954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008145845A Expired - Fee Related JP5004876B2 (en) | 2008-06-03 | 2008-06-03 | Imaging device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5004876B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10979669B2 (en) * | 2018-04-10 | 2021-04-13 | Facebook, Inc. | Automated cinematic decisions based on descriptive models |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2737682B2 (en) * | 1995-02-13 | 1998-04-08 | 日本電気株式会社 | Video conference system |
JPH1079877A (en) * | 1996-09-04 | 1998-03-24 | Hitachi Ltd | Camera integrated vcr |
JP2002252805A (en) * | 2001-02-22 | 2002-09-06 | Ricoh Co Ltd | Imaging apparatus and method, program, and recording medium |
JP2003122394A (en) * | 2001-10-16 | 2003-04-25 | Yamatake Corp | Method and device for recognizing discrimination object and robot mounted with the same device |
JP2003348425A (en) * | 2002-05-28 | 2003-12-05 | Fuji Photo Film Co Ltd | Photographing apparatus |
JP4127521B2 (en) * | 2003-05-20 | 2008-07-30 | 富士フイルム株式会社 | Digital camera and control method thereof |
JP2007052547A (en) * | 2005-08-16 | 2007-03-01 | Kddi Corp | Face detector |
JP2007165947A (en) * | 2005-12-09 | 2007-06-28 | Fujifilm Corp | Imaging device, backlight correcting device for object image, target image detecting device, and control method of these |
JP4864502B2 (en) * | 2006-03-23 | 2012-02-01 | 富士フイルム株式会社 | Imaging apparatus and imaging condition guide method |
JP4686406B2 (en) * | 2006-06-14 | 2011-05-25 | 富士フイルム株式会社 | Imaging apparatus and control method thereof |
JP4197019B2 (en) * | 2006-08-02 | 2008-12-17 | ソニー株式会社 | Imaging apparatus and facial expression evaluation apparatus |
-
2008
- 2008-06-03 JP JP2008145845A patent/JP5004876B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10979669B2 (en) * | 2018-04-10 | 2021-04-13 | Facebook, Inc. | Automated cinematic decisions based on descriptive models |
Also Published As
Publication number | Publication date |
---|---|
JP2009296142A (en) | 2009-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7791668B2 (en) | Digital camera | |
JP5046788B2 (en) | Imaging apparatus and control method thereof | |
JP4574459B2 (en) | Image capturing apparatus, control method therefor, program, and storage medium | |
JP5005570B2 (en) | Image processing apparatus and program | |
US8760568B2 (en) | Image pickup and focus detection apparatus, control method, and storage medium | |
JP6148431B2 (en) | Imaging apparatus and control method thereof | |
JP2010288240A (en) | Imaging apparatus, control method of the same, and program | |
JP2011182252A (en) | Imaging device, and image imaging method | |
JP2007281647A (en) | Electronic camera and image processing apparatus | |
JP2007081732A (en) | Imaging apparatus | |
JP2005266784A (en) | Imaging apparatus, its control method, its control program, and storage medium | |
JP5043787B2 (en) | Imaging apparatus and control method thereof | |
KR20110090610A (en) | A digital photographing apparatus, a method for controlling the same, and a computer-readable medium | |
JP2009038749A (en) | Image processor, control method of image processor, and program for implementing the same | |
JP5004876B2 (en) | Imaging device | |
JP2010008711A (en) | Imaging apparatus, imaging method, and program | |
JP5116494B2 (en) | Imaging device | |
JP2009296143A (en) | Imaging device | |
JP5075288B2 (en) | Imaging apparatus and control method thereof | |
JP5264426B2 (en) | Imaging apparatus, control method therefor, and program | |
JP2008219367A (en) | Imaging apparatus and imaging method | |
JP5968386B2 (en) | Imaging apparatus and control method thereof | |
JP2016167088A (en) | Imaging device and control method of the same | |
JP5245604B2 (en) | Image processing apparatus and program | |
JP4909009B2 (en) | Imaging apparatus, image processing method, program, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110602 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110602 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120424 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120522 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150601 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5004876 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150601 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |