JP2023127983A - 撮像装置およびその制御方法、プログラム - Google Patents
撮像装置およびその制御方法、プログラム Download PDFInfo
- Publication number
- JP2023127983A JP2023127983A JP2022031994A JP2022031994A JP2023127983A JP 2023127983 A JP2023127983 A JP 2023127983A JP 2022031994 A JP2022031994 A JP 2022031994A JP 2022031994 A JP2022031994 A JP 2022031994A JP 2023127983 A JP2023127983 A JP 2023127983A
- Authority
- JP
- Japan
- Prior art keywords
- subject
- information
- photographing
- automatic
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003384 imaging method Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims description 419
- 238000012545 processing Methods 0.000 claims abstract description 234
- 230000008859 change Effects 0.000 claims abstract description 45
- 230000008569 process Effects 0.000 claims description 364
- 238000001514 detection method Methods 0.000 claims description 156
- 238000003860 storage Methods 0.000 claims description 19
- 230000007704 transition Effects 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000004091 panning Methods 0.000 abstract description 59
- 238000004891 communication Methods 0.000 description 80
- 238000013528 artificial neural network Methods 0.000 description 55
- 238000010586 diagram Methods 0.000 description 39
- 230000033001 locomotion Effects 0.000 description 33
- 230000005236 sound signal Effects 0.000 description 27
- 239000000203 mixture Substances 0.000 description 22
- 230000001133 acceleration Effects 0.000 description 21
- 238000012937 correction Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 18
- 238000000605 extraction Methods 0.000 description 17
- 238000012546 transfer Methods 0.000 description 15
- 238000012217 deletion Methods 0.000 description 14
- 230000037430 deletion Effects 0.000 description 14
- 230000007613 environmental effect Effects 0.000 description 14
- 230000001815 facial effect Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 238000012804 iterative process Methods 0.000 description 12
- 230000004913 activation Effects 0.000 description 11
- 239000000284 extract Substances 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 7
- 210000000887 face Anatomy 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 7
- 230000000737 periodic effect Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000008921 facial expression Effects 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000017531 blood circulation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241000135164 Timea Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000007562 laser obscuration time method Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 229920001940 conductive polymer Polymers 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000001678 irradiating effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Studio Devices (AREA)
Abstract
【課題】 自動撮影が可能な撮像装置において被写体の自動認証登録を行うタイミングを制御する。【解決手段】 撮像装置は被写体の自動撮影および自動認証登録が可能である。撮像装置は鏡筒102をパンニング方向およびチルティング方向に回動させる駆動部を備え、駆動部の制御によって撮影方向の変更が可能である。撮像装置は、撮像された画像データから検出される被写体の探索を行い、被写体を認証して記憶する自動認証登録が可能である。撮像装置の第1制御部223は自動認証登録を行う条件を満たすか否かの判定と、自動撮影を行う条件を満たすか否かの判定を行う。第1制御部223は、自動撮影のための探索を行いつつ、自動認証判定処理と自動撮影判定処理を実行し、判定結果に基づいて自動認証登録を行うタイミングを決定する。【選択図】 図2
Description
本発明は、撮像装置における自動撮影技術に関する。
撮像装置による静止画や動画の撮影においては、撮影者がファインダーなどを通して撮影対象を決定し、撮影状況を自ら確認して撮影画像のフレーミングを調整することが一般的である。従来の技術として、ユーザの操作ミスや外部環境の検知を行い、撮影に適していないことをユーザに通知し、または撮影に適した状態になるようにカメラを制御する仕組みがある。
ユーザの操作により撮影を実行する撮像装置に対し、特許文献1ではユーザが撮影指示を与えることなく定期的および継続的に撮影を行うライフログカメラが開示されている。ライフログカメラは、ストラップなどでユーザの身体に装着された状態で使用され、ユーザが日常生活で目にする光景を一定時間間隔で映像として記録する。ライフログカメラによる撮影では、ユーザがシャッターボタンの押下などの意図したタイミングで撮影するのではなく、一定の時間間隔で撮影が行われる。よって、ユーザが普段撮影しないような不意な瞬間の映像を記録可能である。また、対象物の撮影を自動的に行う撮像装置が知られている。特許文献2には所定条件を満す場合に自動的に撮影を行う装置が開示されている。
従来の技術では、自動撮影に求められる要件と自動認証登録に求められる要件とが異なる場合、1度の撮影で2つの要件を両立させることが困難である。
本発明の目的は、自動撮影が可能な撮像装置において被写体の自動認証登録を行うタイミングを制御することである。
本発明の実施形態の撮像装置は、自動撮影および自動認証登録が可能な撮像装置であって、被写体を撮像する撮像手段と、前記撮像手段により取得された画像データから検出される被写体の探索を行う探索手段と、検出された被写体を認証して記憶する認証登録手段と、前記認証登録手段により前記自動認証登録を行う第1の条件を満たすか否かの認証登録判定、および、前記自動撮影を行う第2の条件を満たすか否かの撮影判定を行い、前記自動撮影および自動認証登録のタイミングを制御する制御手段と、を備え、前記制御手段は、前記探索手段による探索の制御を行いつつ、検出された被写体に係る前記認証登録判定と前記撮影判定を実行することにより、前記自動認証登録のタイミングを決定することを特徴とする。
本発明の撮像装置によれば、自動撮影が可能な撮像装置において被写体の自動認証登録を行うタイミングを制御することができる。
以下、本発明の実施形態について、添付図面を参照して詳細に説明する。まず、本発明に関する技術的背景について説明する。例えば、ライフログを目的とした撮影では定期的および継続的に撮影が行われるので、ユーザにとっては面白みに欠ける画像情報が記録される可能性がある。そこで、自動で撮像装置のパンニング動作やチルティング動作を行って、周辺の被写体を探索し、検出した被写体を含む画角で撮影する方法がある。これにより、ユーザにとって好ましい画像情報を記録できる可能性を高めることができる。
撮影方向を自動制御可能な撮像装置では、撮影対象となる被写体を探索すると同時に、撮影タイミングを逃さないようにすることが求められる。被写体の人数や移動方向と背景を考慮してパンニングおよびチルティング機構、ズーム機構により撮影構図の調節を行いつつ、撮影タイミングを捉えたら速やかに撮影動作を行うことが必要である。
さらには個人認証情報を用いることで、探索において優先して撮影するべき被写体を検知することができ、撮影においては画角に収めるべき被写体の判定に用いることができる。そのため、ユーザにとってより好ましい画像を記録できる可能性を高めることができる。
ところで、自動撮影が可能な撮像装置において、個人認証の登録が自動で実行されない場合、著しく利便性が低下する可能性がある。個人認証における個人の特定処理は顔の画像から得られる特徴量を数値化することで行われる。しかし人物の成長に伴う変化、顔の僅かな角度変化や顔に照射される僅かな光の加減などで数値が変化すると、本来同一の人物とすべき場合に同一人物とはみなされなくなる可能性がある。この場合、被写体追尾制御で誤認証により別の人物と誤認識されると、撮像装置が別の人物を追尾する結果、本来撮影したい人物の撮影機会を逃してしまうという問題が発生する。従って自動撮影が可能な撮像装置において、個人認証の信頼性は自動撮影への信頼性に直結する。同一人物に対する個人認証の登録情報に関して、その登録情報を随時追加してゆくことで複数の登録情報を用いて認証精度の維持向上を図っていくことが重要であり、且つ登録情報の更新は自動で行われるべきである。より高性能で、且つ利便性の高い自動撮影を実現するためには、個人認証の自動登録が非常に重要になってくる。
より正確な個人認証の登録には、高精度な顔画像データを必要とする。つまり、光学レンズの収差の影響を最も受けにくい光学中心に配置された構図配置を前提とする。その上で顔の領域を大きく捉えた画像が必要であり、且つ被写体に焦点の合った高解像度画像を得るために撮像装置が持つ静止画撮影の機能を利用することが必要である。しかしながら、自動撮影においては、シャッターチャンスを逃さぬように複数人の被写体と背景を考慮した構図調節が行われる。そのため、自動撮影に求められる条件と、個人認証登録で求められる構図調節の条件とを同時に満たすことができない場合がありうる。そこで本実施形態では、自動撮影の撮影機会を阻害せずに、個人認証の自動登録を行うようにタイミングを制御可能とする撮像装置の例を説明する。
図1(A)は、本実施形態の撮像装置の外観を模式的に示す図である。カメラ101には、電源スイッチのほかに、カメラ操作用の操作部材が設けられている。鏡筒102は、被写体の撮像を行う撮像光学系としての撮影レンズ群や撮像素子を一体的に含んでおり、カメラ101の固定部103に対して移動可能に取り付けられている。具体的には、鏡筒102は、固定部103に対して回転駆動できる機構である第1の回転ユニット104と第2の回転ユニット105とを介して固定部103に取り付けられており、撮影方向の変更が可能である。第1の回転ユニット104は鏡筒102のチルティング方向の駆動を行うユニット(以下、チルト回転ユニットという)である。第2の回転ユニット104は鏡筒102のパンニング方向の駆動を行うユニット(以下、パン回転ユニットという)である。角速度計106および加速度計107は、カメラ101の固定部103に配置されている。例えば、角速度計106はジャイロセンサを有し、加速度計107は加速度センサを有する。
図1(B)は、3次元直交座標系(X軸、Y軸、Z軸)と3方向(ピッチ、ヨー、ロール)との関係を示す模式図である。X軸(水平軸)、Y軸(垂直軸)、Z軸(奥行き方向の軸)は固定部103の位置に対してそれぞれ定義されている。X軸回り方向をピッチ方向とし、Y軸回り方向をヨー方向とし、Z軸回り方向をロール方向とする。
チルト回転ユニット104は、鏡筒102を図1(B)に示すピッチ方向に回転駆動することができるモーター駆動機構を備える。パン回転ユニット105は、鏡筒102を図1(B)に示すヨー方向に回転駆動することができるモーター駆動機構を備える。すなわちカメラ101は、鏡筒102を2軸方向に回転駆動する機構を有する。
角速度計106、加速度計107は角速度検出信号、加速度検出信号をそれぞれ出力する。角速度計106や加速度計107の出力信号に基づいて、カメラ101の振動が検出され、チルト回転ユニット104とパン回転ユニット105を回転駆動が行われる。これによって、鏡筒102の振れの補正や、傾きの補正が行われる。また、角速度計106や加速度計107の出力信号に基づき、一定の期間の計測結果に基づいて、カメラ101の移動検出が行われる。
図2はカメラ101の全体構成を示すブロック図である。第1制御部223は、演算処理部を備える。演算処理部はCPU(Central Processing Unit)やMPU(Micro-Processing Unit)などである。メモリ215はDRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)などを備える。第1制御部223は、不揮発性メモリ(EEPROM)216に記憶されたプログラムに従って、各種処理を実行してカメラ101の各ブロックの制御や、各ブロック間でのデータ転送の制御を行う。不揮発性メモリ216は、電気的に消去および記憶が可能なメモリであり、第1制御部223の動作用の定数、プログラムなどが記憶される。
ズームユニット201は、変倍(結像された被写体像の拡大・縮小)を行うズームレンズを含む。ズーム駆動制御部202は、ズームユニット201を駆動制御するとともに、駆動制御時の焦点距離を検出する。フォーカスユニット203は、焦点調節を行うフォーカスレンズを含む。フォーカス駆動制御部204は、フォーカスユニット203を駆動制御する。撮像部206は撮像素子を備え、各レンズ群を通して入射する光を受け、その光量に応じた電荷の情報をアナログ画像信号として画像処理部207に出力する。尚、ズームユニット201、フォーカスユニット203、撮像部206は、鏡筒102内に配置されている。
画像処理部207はアナログ画像信号をA/D変換して得られたデジタル画像データに対して画像処理を行う。画像処理とは、歪曲補正、ホワイトバランス調整、色補間処理などであり、画像処理部207は画像処理後のデジタル画像データを出力する。画像記録部208は、画像処理部207から出力されるデジタル画像データを取得する。デジタル画像データはJPEG(Joint Photographic Experts Group)形式などの記録用フォーマットに変換される。変換後のデータはメモリ215に記憶され、また後述する映像出力部217に送信される。
鏡筒回転駆動部205はチルト回転ユニット104とパン回転ユニット105を駆動し、鏡筒102をチルティング方向とパンニング方向に回動させる。装置揺れ検出部209は、カメラ101の3軸方向の角速度を検出する角速度計106と、カメラ101の3軸方向の加速度を検出する加速度計107を備える。第1制御部223は、装置揺れ検出部209による検出信号に基づいて、装置の回転角度や装置のシフト量などを算出する。
音声入力部213は、カメラ101に設けられたマイクロホンによりカメラ101の周辺の音声信号を取得し、デジタル音声信号に変換して音声処理部214に送信する。音声処理部214は、入力されたデジタル音声信号の適正化処理などの、音声に関する処理を行う。音声処理部214で処理された音声信号は、第1制御部223によりメモリ215に送信される。メモリ215は、画像処理部207および音声処理部214により得られた画像信号および音声信号を一時的に記憶する。
画像処理部207および音声処理部214は、メモリ215に一時的に記憶された画像信号および音声信号を読み出して画像信号の符号化、音声信号の符号化などを行い、圧縮画像信号および圧縮音声信号を生成する。第1制御部223は、生成後の圧縮画像信号、圧縮音声信号を記録再生部220に送信する。
記録再生部220は、記録媒体221に対して画像処理部207および音声処理部214で生成された圧縮画像信号および圧縮音声信号、撮影に関する制御データなどを記録する。また、音声信号を圧縮符号化しない場合には、第1制御部223は、音声処理部214により生成された音声信号と画像処理部207により生成された圧縮画像信号とを、記録再生部220に送信して記録媒体221に記録させる。
記録媒体221は、カメラ101に内蔵された記録媒体、または取外し可能な記録媒体である。記録媒体221はカメラ101で生成された圧縮画像信号、圧縮音声信号、音声信号などの各種データを記録することができる。一般的には、記録媒体221には不揮発性メモリ216よりも大容量の媒体が使用される。例えば、記録媒体221には、ハードディスク、光ディスク、光磁気ディスク、CD-R、DVD-R、磁気テープ、不揮発性の半導体メモリ、フラッシュメモリなどの、あらゆる方式の記録媒体を使用することができる。
記録再生部220は、記録媒体221に記録された圧縮画像信号、圧縮音声信号、音声信号、各種データ、プログラムを読み出して再生する。第1制御部223は、読み出された圧縮画像信号および圧縮音声信号を、画像処理部207および音声処理部214にそれぞれ送信する。画像処理部207および音声処理部214は、圧縮画像信号、圧縮音声信号を一時的にメモリ215に記憶させ、所定の手順で復号し、復号された信号を映像出力部217に送信する。
カメラ101の音声入力部213には複数のマイクロホンが配置されている。音声処理部214は複数のマイクロホンが設置された平面に対する音の方向を検出することができ、検出情報は後述する被写体の探索や自動撮影に用いられる。音声処理部214は特定の音声コマンドを検出する。音声コマンドは、例えば事前に登録された、いくつかのコマンドや、ユーザが特定音声をカメラに登録できるようにした実施形態では、登録音声に基づくコマンドである。また音声処理部214は音シーン認識も行う。音シーン認識では、予め大量の音声データに基づいて機械学習が行われたネットワークにより音シーンの判定処理が実行される。例えば、「歓声が上がっている」、「拍手している」、「声を発している」などの特定シーンを検出するためのネットワークが音声処理部214に設定されており、特定音シーンや特定音声コマンドが検出される。音声処理部214は特定音シーンや特定音声コマンドを検出すると、第1制御部223や第2制御部211に検出トリガー信号を出力する。
第2制御部211は、カメラシステム全体を制御する第1制御部223とは別に設けられており、第1制御部223への供給電源を制御する。第1電源部210、第2電源部212はそれぞれ、第1制御部223、第2制御部211を動作させるための電力を供給する。カメラ101に設けられた電源ボタンの押下により、まず第1制御部223と第2制御部211の両方に電源が供給される。後述するように、第1制御部223は、第1電源部210へ自らの電源供給をOFFする制御も行う。第1制御部223が動作していない間であっても第2制御部211は動作しており、第2制御部211には装置揺れ検出部209および音声処理部214からの情報が入力される。第2制御部211は、各種入力情報に基づいて、第1制御部223を起動するか否かの判定を行う。第1制御部223を起動させることが判定された場合、第2制御部211は第1電源部210に対して、第1制御部223へ電力の供給を指示する。
音声出力部218はカメラ101に内蔵されたスピーカーを有しており、例えば撮影時などにスピーカーから予め設定されたパターンの音声を出力する。LED制御部224はカメラ101に設けられたLED(発光ダイオード)を制御する。また撮影時などに、予め設定された点灯パターンや点滅パターンに基づいてLEDの制御が行われる。
映像出力部217は、例えば映像出力端子を有しており、接続された外部ディスプレイなどに映像を表示させるために画像信号を出力する。尚、音声出力部218、映像出力部217は、結合された1つの端子、例えばHDMI(登録商標:High-Definition Multimedia Interface)端子であってもよい。
通信部222は、カメラ101と外部装置との間で通信を行う処理部である。例えば、通信部222は音声信号、画像信号、圧縮音声信号、圧縮画像信号などのデータを送受信する。通信部222は撮影開始や終了のコマンド、パン・チルト、ズーム駆動などの撮影にかかわる制御信号を受信して第1制御部223に出力する。これにより外部装置の指示に基づいてカメラ101を駆動することができる。また通信部222は、カメラ101と外部装置との間で、後述する学習処理部219で処理される学習にかかわる各種パラメータなどの情報を送受信する。通信部222は、例えば、赤外線通信モジュール、Bluetooth(登録商標)通信モジュール、無線LAN通信モジュール、WirelessUSB(登録商標)、GPS受信機などの無線通信モジュールを備える。
環境センサ226は、カメラ101の周辺環境の状態を所定の周期で検出する。環境センサ226は、例えば以下に示すセンサを用いて構成される。
・カメラ101の周辺の温度を検出する温度センサ。
・カメラ101の周辺の気圧を検出する気圧センサ。
・カメラ101の周辺の明るさを検出する照度センサ。
・カメラ101の周辺の湿度を検出する湿度センサ。
・カメラ101の周辺の紫外線量を検出するUVセンサ。
・カメラ101の周辺の温度を検出する温度センサ。
・カメラ101の周辺の気圧を検出する気圧センサ。
・カメラ101の周辺の明るさを検出する照度センサ。
・カメラ101の周辺の湿度を検出する湿度センサ。
・カメラ101の周辺の紫外線量を検出するUVセンサ。
検出された各種情報(温度情報、気圧情報、照度情報、湿度情報、UV情報)に加え、各種情報から所定時間間隔での変化率を算出することができる。つまり、温度変化量、気圧変化量、照度変化量、湿度変化量、紫外線変化量を自動撮影などの判定に使用することができる。
図3を参照して、カメラ101と外部装置301との通信について説明する。図3は、カメラ101と外部装置301との無線通信システムの構成例を示す図である。カメラ101は撮影機能を有するデジタルカメラであり、外部装置301はBluetooth(登録商標)通信モジュール、無線LAN通信モジュールを含むスマートデバイスである。
図3ではカメラ101と外部装置301との通信を第1の通信302(実線の矢印参照)、第2の通信303(点線の矢印参照)として示す。例えば第1の通信302は、IEEE802.11規格シリーズに準拠した無線LAN(Local Area Network)による通信である。第2の通信303は、例えばBluetooth(登録商標) Low Energy(以下、「BLE」と呼ぶ)などのように、制御局と従属局などの主従関係を有する通信である。尚、無線LANおよびBLEは通信方法の一例である。各通信装置は、2つ以上の通信機能を有し、例えば制御局と従属局との関係の中で通信を行う一方の通信機能によって、他方の通信機能の制御を行うことが可能であれば、他の通信方法が用いられてもよい。ただし、無線LANなどによる第1の通信302は、BLEなどによる第2の通信303より高速な通信が可能である。また、第2の通信303は、第1の通信302よりも消費電力が少ないか、または通信可能距離が短いかの少なくともいずれかであるものとする。
次に図4を参照して、外部装置301の構成を説明する。外部装置301は、例えば、無線LAN用の無線LAN制御部401、および、BLE用のBLE制御部402、および、公衆無線通信用の公衆無線制御部406を有する。
無線LAN制御部401は、無線LANのRF制御、通信処理、IEEE802.11規格シリーズに準拠した無線LANによる通信の各種制御を行うドライバ処理や無線LANによる通信に関するプロトコル処理を行う。BLE制御部402は、BLEのRF制御、通信処理、BLEによる通信の各種制御を行うドライバ処理やBLEによる通信に関するプロトコル処理を行う。公衆無線制御部406は、公衆無線通信のRF制御、通信処理、公衆無線通信の各種制御を行うドライバ処理や公衆無線通信関連のプロトコル処理を行う。公衆無線通信は、例えばIMT(International Multimedia Telecommunications)規格やLTE(Long Term Evolution)規格などに準拠した通信である。
外部装置301はさらに、パケット送受信部403を有する。パケット送受信部403は、無線LAN並びにBLEによる通信および公衆無線通信に関するパケットの送信と受信との少なくともいずれかを実行するための処理を行う。尚、本実施形態の外部装置301は、通信においてパケットの送信と受信との少なくともいずれかを行うものとして説明するが、パケット交換以外に、例えば回線交換などの、他の通信形式が用いられてもよい。
外部装置301が備える制御部411はCPUなどを備え、記憶部404に記憶された制御プログラムを実行することにより、外部装置301全体を制御する。記憶部404は、例えば制御部411が実行する制御プログラムと、通信に必要なパラメータなどの各種情報を記憶する。後述する各種動作は、記憶部404に記憶された制御プログラムを制御部411が実行することによって実現される。
GPS(Global positioning system)受信部405は、人工衛星から通知されるGPS信号を受信し、GPS信号を解析し、外部装置301の現在位置(経度・緯度情報)を推定する。あるいは、WPS(Wi-Fi Positioning System)などを利用して、周囲に存在する無線ネットワークの情報に基づいて、外部装置301の現在位置を推定する実施形態がある。例えばGPS受信部405により取得した現在のGPS位置情報が予め設定されている位置範囲(検出位置を中心として所定半径の範囲以内)に位置している場合や、GPS位置情報に所定以上の位置変化があった場合を想定する。これらの場合、BLE制御部402を介してカメラ101へ移動情報が通知されて、後述する自動撮影や自動編集のためのパラメータとして使用される。
表示部407は、例えば、LCD(液晶表示装置)やLEDのように視覚で認知可能な情報の出力、またはスピーカーなどの音出力が可能な機能を有し、各種情報を提示する。操作部408は、例えばユーザによる外部装置301の操作を受け付けるボタンなどを含む。尚、表示部407および操作部408については、例えばタッチパネルなどで構成されてよい。
音声入力音声処理部409は、例えば外部装置301に内蔵された汎用的なマイクロホンにより、ユーザが発した音声の情報を取得する。音声認識処理により、ユーザの操作命令を識別する構成にしてもよい。また、外部装置301内の専用のアプリケーションを用いて、ユーザの発音により音声コマンドを取得する方法がある。この場合、無線LANによる第1の通信302を介して、カメラ101の音声処理部214に認識させるための特定音声コマンドを登録することができる。電源部410は、外部装置301の各部に必要な電力を供給する。
カメラ101と外部装置301は、無線LAN制御部401およびBLE制御部402を用いた通信により、データの送受信を行う。例えば、音声信号、画像信号、圧縮音声信号、圧縮画像信号などのデータの送受信が行われる。また、外部装置301からカメラ101への撮影指示などの送信、音声コマンド登録データの送信、GPS位置情報に基づいた所定位置検出通知の送信、場所移動通知の送信などが行われる。また、外部装置301内の専用のアプリケーションを用いて学習用データの送受信が行われる。
図5は、カメラ101と通信可能である外部装置501の構成例を模式的に示す図である。例えばカメラ101は撮影機能を有するデジタルカメラである。外部装置501は、Bluetooth(登録商標)通信モジュールなどにより、カメラ101と通信可能である各種センシング部を含むウエアラブルデバイスである。
外部装置501は、ユーザの腕などに装着が可能な構成である。外部装置501には、所定の周期でユーザの脈拍、心拍、血流などの生体情報を検出するセンサやユーザの運動状態を検出可能な加速度センサなどが搭載されている。
外部装置501が備える生体情報検出部602は、例えばユーザの脈拍、心拍、血流をそれぞれ検出する脈拍センサ、心拍センサ、血流センサと、導電性高分子を用いた皮膚の接触によって電位の変化を検出するセンサを備える。本実施形態では、生体情報検出部602が備える心拍センサを用いて説明する。心拍センサは、例えばLEDなどを用いて皮膚に赤外光を照射し、体組織を透過した赤外光を受光センサで検出して信号処理することによりユーザの心拍を検出する。生体情報検出部602は、検出した生体情報の信号を制御部607(図6参照)へ出力する。
外部装置501が備える揺れ検出部603は、ユーザの運動状態を検出する。揺れ検出部603は、例えば加速度センサやジャイロセンサを備えており、移動情報およびモーション検出情報を取得する。移動情報は、加速度情報に基づいた、ユーザが移動しているか否かを示す情報、移動速度などである。モーション検出情報は、ユーザが腕を振り回してアクションをしているかなどのモーションの検出情報である。
外部装置501は表示部604、操作部605を備える。表示部604はLCDやLEDのように視覚で認知可能な情報を出力する。操作部605は、ユーザによる外部装置501の操作指示を受け付ける。
図6は、外部装置501の構成を示すブロック図である。外部装置501は、制御部607、通信部601、生体情報検出部602、揺れ検出部603、表示部604、操作部605、電源部606、記憶部608を備える。
制御部607はCPUなどを備え、記憶部608に記憶された制御プログラムを実行することにより、外部装置501全体を制御する。記憶部608は、例えば制御部607が実行する制御プログラムと、通信に必要なパラメータなどの各種情報を記憶している。後述する各種動作は、記憶部608に記憶された制御プログラムを制御部607が実行することによって実現される。電源部606は外部装置501の各部に電力を供給する。
操作部605は、ユーザによる外部装置501の操作指示を受け付けて制御部607に通知する。また操作部605は、例えば外部装置501に内蔵された汎用的なマイクロホンによりユーザが発した音声を取得し、音声認識処理により、ユーザの操作命令を識別して制御部607に通知する。表示部604は、視覚で認知可能な情報の出力、またはスピーカーなどの音出力によって、各種情報をユーザに提示する。
制御部607は生体情報検出部602、揺れ検出部603から検出情報を取得して処理を行う。制御部607で処理された各種検出情報は、通信部601により、カメラ101へ送信される。例えば外部装置501は、ユーザの心拍の変化が検出されたタイミングで検出情報をカメラ101に送信し、また歩行移動、走行移動、立ち止まりなどの移動状態の変化のタイミングで検出情報が送信することができる。また外部装置501は、予め設定された腕ふりのモーションが検出されたタイミングで検出情報をカメラ101に送信し、また予め設定された距離の移動が検出されたタイミングで検出情報を送信することもできる。
図7を参照して、カメラ101の動作シーケンスについて説明する。図7は、カメラ101の第1制御部223(MainCPU)が行う処理例を説明するフローチャートである。ユーザがカメラ101に設けられた電源ボタンを操作すると、第1電源部210から第1制御部223およびカメラ101の各構成部に電力が供給される。また、第2電源部212から第2制御部211に電力が供給される。第2制御部211の動作の詳細については、図8のフローチャートを用いて後述する。
装置に電力が供給されてから図7の処理が開始し、S701では、起動条件の読み込みが行われる。本実施形態にて電源が起動される条件に関し、以下の3つの場合がある。
(1)電源ボタンが手動で押下されて電源が起動される場合。
(2)外部装置(例えば外部装置301)から外部通信(例えばBLE通信)により起動指示が送られ、電源が起動される場合。
(3)第2制御部211の指示により、電源が起動される場合。
(1)電源ボタンが手動で押下されて電源が起動される場合。
(2)外部装置(例えば外部装置301)から外部通信(例えばBLE通信)により起動指示が送られ、電源が起動される場合。
(3)第2制御部211の指示により、電源が起動される場合。
ここで、(3)の場合、つまり第2制御部211の指示により電源が起動される場合には、第2制御部211内で演算された起動条件が読み込まれることになる。その詳細については図8を用いて後述する。また、ここで読み込まれた起動条件は、被写体探索や自動撮影時の1つのパラメータ要素として用いられるが、それについても後述する。S701での起動条件の読み込みが終了するとS702の処理に進む。
S702では、各種センサの検出信号の読み込みが行われる。ここで読み込まれるセンサの信号は、以下のとおりである。
・装置揺れ検出部209におけるジャイロセンサや加速度センサなどの、振動を検出するセンサの信号
・チルト回転ユニット104およびパン回転ユニット105の、各回転位置の信号
・音声処理部214で検出される音声信号、特定音声認識の検出トリガー信号、音方向検出信号
・環境センサ226による環境情報の検出信号
S702で各種センサの検出信号の読み込みが行われた後、S703の処理に進む。
・装置揺れ検出部209におけるジャイロセンサや加速度センサなどの、振動を検出するセンサの信号
・チルト回転ユニット104およびパン回転ユニット105の、各回転位置の信号
・音声処理部214で検出される音声信号、特定音声認識の検出トリガー信号、音方向検出信号
・環境センサ226による環境情報の検出信号
S702で各種センサの検出信号の読み込みが行われた後、S703の処理に進む。
S703で第1制御部223は、外部装置から通信指示が送信されているかを検出し、通信指示があった場合、外部装置との通信の制御を行う。例えば、外部装置301からの各種情報の読み込み処理が実行される。各種情報には無線LANやBLEを介したリモート操作、音声信号、画像信号、圧縮音声信号、圧縮画像信号などの送受信、外部装置301からの撮影などの操作指示、音声コマンド登録データの送信の情報がある。またGPS位置情報に基づいた所定位置検出通知、場所移動通知、学習用データの送受信の情報などがある。また、外部装置501からの、ユーザの運動情報、腕のアクション情報、心拍などの生体情報の更新が必要である場合には、BLEを介した情報の読み込み処理が実行される。尚、環境センサ226がカメラ101に搭載された例を説明したが、外部装置301または外部装置501に搭載されていてもよい。その場合、S703では、BLEを介した環境情報の読み込み処理が行われる。S703での通信読み込みが行われたのち、S704の処理に進む。
S704では、モード設定判定が行われる。「自動撮影モード」(S710)、「自動編集モード」(S712)、「画像自動転送モード」(S714)、「学習モード」(S716)、「ファイル自動削除モード」(S718)の例を説明する。次のS705では、S704で動作モードが低消費電力モードに設定されているか否かについて判定処理が行われる。低消費電力モードは、「自動撮影モード」、「自動編集モード」、「画像自動転送モード」、「学習モード」、「ファイル自動削除モード」、の何れのモードでもない場合に設定されるモードである。S705で、低消費電力モードであると判定された場合、S706の処理に進み、S705で、低消費電力モードでないと判定された場合にはS709の処理に進む。
S706では、第2制御部211(SubCPU)へ、第2制御部211内で判定する起動要因に係る各種パラメータを通知する処理が行われる。各種パラメータとは揺れ検出判定用パラメータ、音検出用パラメータ、時間経過検出用パラメータであり、後述する学習処理で学習されることによってパラメータ値が変化する。S706の処理を終了すると、S707の処理に進み、第1制御部223(MainCPU)の電源がOFFにされて、一連の処理を終了する。
S709では、S704におけるモード設定が自動撮影モードか否かについて判定処理が行われる。続いてS711、S713、S715、S717ではそれぞれに対応するモードごとの判定処理が行われる。ここで、S704でのモード設定判定処理について説明する。モード設定判定では、以下の(1)から(5)に示すモードから、モード選択が行われる。
(1)自動撮影モード
<モード判定条件>
学習設定された各検出情報、自動撮影モードに移行してからの経過時間、過去の撮影情報および撮影枚数などの情報から、自動撮影を行うべきと判定されることを条件とする。各検出情報とは、画像、音、時間、振動、場所、身体の変化、環境変化などの情報である。
<モード判定条件>
学習設定された各検出情報、自動撮影モードに移行してからの経過時間、過去の撮影情報および撮影枚数などの情報から、自動撮影を行うべきと判定されることを条件とする。各検出情報とは、画像、音、時間、振動、場所、身体の変化、環境変化などの情報である。
<モード内処理>
S709で自動撮影モードと判定された場合、自動撮影モード処理(S710)に進む。学習設定された前記の各検出情報に基づいて、パン・チルトやズームの駆動が行われ、被写体の自動探索が実行される。撮影者の好みの撮影が行えるタイミングであると判定されると自動で撮影が行われる。
S709で自動撮影モードと判定された場合、自動撮影モード処理(S710)に進む。学習設定された前記の各検出情報に基づいて、パン・チルトやズームの駆動が行われ、被写体の自動探索が実行される。撮影者の好みの撮影が行えるタイミングであると判定されると自動で撮影が行われる。
(2)自動編集モード
<モード判定条件>
前回の自動編集が行われた時点からの経過時間、過去の撮影画像情報から、自動編集を行うべきと判定されることを条件とする。
<モード判定条件>
前回の自動編集が行われた時点からの経過時間、過去の撮影画像情報から、自動編集を行うべきと判定されることを条件とする。
<モード内処理>
S711で自動編集モードと判定された場合、自動編集モード処理(S712)に進む。学習に基づいた静止画像や動画像の選抜処理が行われ、学習に基づいて、画像効果や編集後動画の時間などにより、一つの動画にまとめたハイライト動画を作成する自動編集処理が行われる。
S711で自動編集モードと判定された場合、自動編集モード処理(S712)に進む。学習に基づいた静止画像や動画像の選抜処理が行われ、学習に基づいて、画像効果や編集後動画の時間などにより、一つの動画にまとめたハイライト動画を作成する自動編集処理が行われる。
(3)画像自動転送モード
<モード判定条件>
外部装置301内の専用のアプリケーションを用いた指示により、画像自動転送モードに設定されている場合、前回の画像転送が行われた時点からの経過時間と過去の撮影画像情報から、自動転送を行うべきと判定されることを条件とする。
<モード判定条件>
外部装置301内の専用のアプリケーションを用いた指示により、画像自動転送モードに設定されている場合、前回の画像転送が行われた時点からの経過時間と過去の撮影画像情報から、自動転送を行うべきと判定されることを条件とする。
<モード内処理>
S713で画像自動転送モードと判定された場合、画像自動転送モード処理(S714)に進む。カメラ101は、ユーザの好みに合うであろう画像を自動で抽出し、外部装置301にユーザの好みと思われる画像を自動で転送する。ユーザの好みの画像抽出は、後述する各画像に付加されたユーザの好みを判定したスコアに基づいて行われる。
S713で画像自動転送モードと判定された場合、画像自動転送モード処理(S714)に進む。カメラ101は、ユーザの好みに合うであろう画像を自動で抽出し、外部装置301にユーザの好みと思われる画像を自動で転送する。ユーザの好みの画像抽出は、後述する各画像に付加されたユーザの好みを判定したスコアに基づいて行われる。
(4)学習モード
<モード判定条件>
前回学習処理が行われた時点からの経過時間と、学習に使用することのできる画像に一体となった情報や学習データの数などから、自動学習を行うべきと判定されることを条件とする。または、外部装置301からの通信を介して学習モードが設定されるように指示があった場合にも学習モードに設定される。
<モード判定条件>
前回学習処理が行われた時点からの経過時間と、学習に使用することのできる画像に一体となった情報や学習データの数などから、自動学習を行うべきと判定されることを条件とする。または、外部装置301からの通信を介して学習モードが設定されるように指示があった場合にも学習モードに設定される。
<モード内処理>
S715で学習モードと判定された場合、学習モード処理(S716)に進む。外部装置301での各操作情報、外部装置301からの学習情報の通知などに基づいて、ニューラルネットワークを用いて、ユーザの好みに合わせた学習が行われる。各操作情報とは、カメラからの画像取得情報、専用アプリケーションを介して手動編集した情報、カメラ内の画像に対してユーザが入力した判定値情報などである。また、個人認証の登録、音声登録、音シーン登録、一般物体の認識登録などの、検出に関する学習や、上述した低消費電力モードの条件などの学習も同時に行われる。
S715で学習モードと判定された場合、学習モード処理(S716)に進む。外部装置301での各操作情報、外部装置301からの学習情報の通知などに基づいて、ニューラルネットワークを用いて、ユーザの好みに合わせた学習が行われる。各操作情報とは、カメラからの画像取得情報、専用アプリケーションを介して手動編集した情報、カメラ内の画像に対してユーザが入力した判定値情報などである。また、個人認証の登録、音声登録、音シーン登録、一般物体の認識登録などの、検出に関する学習や、上述した低消費電力モードの条件などの学習も同時に行われる。
(5)ファイル自動削除モード
<モード判定条件>
前回のファイル自動削除が行われた時点からの経過時間と、画像データを記録している不揮発性メモリ216の残容量とに基づいて、ファイル自動削除を行うべきと判定されることを条件とする。
<モード判定条件>
前回のファイル自動削除が行われた時点からの経過時間と、画像データを記録している不揮発性メモリ216の残容量とに基づいて、ファイル自動削除を行うべきと判定されることを条件とする。
<モード内処理>
S717でファイル自動削除モードと判定された場合、ファイル自動削除モード処理(S718)に進む。不揮発性メモリ216内の画像の中から、各画像のタグ情報と撮影された日時などに基づいて自動削除されるべきファイルを指定して削除する処理が実行される。
S717でファイル自動削除モードと判定された場合、ファイル自動削除モード処理(S718)に進む。不揮発性メモリ216内の画像の中から、各画像のタグ情報と撮影された日時などに基づいて自動削除されるべきファイルを指定して削除する処理が実行される。
図7のS710、S712、S714、S716、S718の処理を終えると、S702に戻って処理を続行する。各モードにおける処理(S710、S716)の詳細については後述する。図7のS709にて自動撮影モードでないと判定された場合、S711の処理に進む。S711で自動編集モードでないと判定された場合、S713の処理に進む。S713で画像自動転送モードでないと判定された場合、S715の処理に進む。S715で学習モードでないと判定された場合、S717の処理に進む。S717でファイル自動削除モードでないと判定された場合、S702に戻って処理を繰り返す。尚、自動編集モード、画像自動転送モード、ファイル自動削除モードについては、本発明の主旨に直接関係しないため、詳細な説明を省略する。
図8は、カメラ101の第2制御部211が行う処理例を説明するフローチャートである。ユーザがカメラ101に設けられた電源ボタンを操作すると、第1電源部210から第1制御部223およびカメラ101の各構成部に電力が供給される。また、第2電源部212から第2制御部211に電力が供給される。
電力が供給されてから、第2制御部(SubCPU)211が起動し、図8の処理が開始する。S801では、所定サンプリング周期が経過したか否かについての判定処理が行われる。所定サンプリング周期は、例えば10msec(ミリ秒)に設定され、10msecの周期の判定結果にしたがって(所定サンプリング周期が経過したとき)、S802の処理に進む。また所定サンプリング周期が経過していないと判定された場合、第2制御部211はS801の判定処理が再び実行されるまでの間、待機する。
S802では、学習情報の読み込みが行われる。学習情報は、図7のS706での第2制御部211へ情報を通信する際に転送された情報であり、例えば以下の判定に用いられる情報が含まれる。
(1)特定揺れ状態検出(後述するS804)の判定用情報。
(2)特定音検出(後述するS805)の判定用情報。
(3)時間経過検出(後述するS807)の判定用情報。
(1)特定揺れ状態検出(後述するS804)の判定用情報。
(2)特定音検出(後述するS805)の判定用情報。
(3)時間経過検出(後述するS807)の判定用情報。
S802の処理後、S803に進み、揺れ検出値が取得される。揺れ検出値は、装置揺れ検出部209におけるジャイロセンサや加速度センサなどの出力値である。つぎに、S804に進み、予め設定された特定の揺れ状態の検出処理が行われる。ここでは、S802で読み込まれた学習情報によって判定処理を変更する、いくつかの例について説明する。
<タップ検出>
タップ状態は、例えばユーザがカメラ101を指先などで叩いた状態であり、カメラ101に取り付けられた加速度センサの出力値から検出することが可能である。3軸の加速度センサの出力は、所定サンプリング周期で、特定の周波数領域に設定されたバンドパスフィルタ(BPF)に通すことで処理され、タップによる加速度変化の信号領域の成分が抽出される。BPFを通過した後の加速度信号が、所定時間(TimeAと記す)の間に、所定閾値(ThreshAと記す)を超えた回数の計測が行われる。計測された回数が所定回数(CountAと記す)であるか否かにより、タップ判定が行われる。例えば、ダブルタップの場合、CountAの値が2に設定され、トリプルタップの場合、CountAの値が3に設定される。TimeAやThreshAの各値についても、学習情報によって変化させることができる。
タップ状態は、例えばユーザがカメラ101を指先などで叩いた状態であり、カメラ101に取り付けられた加速度センサの出力値から検出することが可能である。3軸の加速度センサの出力は、所定サンプリング周期で、特定の周波数領域に設定されたバンドパスフィルタ(BPF)に通すことで処理され、タップによる加速度変化の信号領域の成分が抽出される。BPFを通過した後の加速度信号が、所定時間(TimeAと記す)の間に、所定閾値(ThreshAと記す)を超えた回数の計測が行われる。計測された回数が所定回数(CountAと記す)であるか否かにより、タップ判定が行われる。例えば、ダブルタップの場合、CountAの値が2に設定され、トリプルタップの場合、CountAの値が3に設定される。TimeAやThreshAの各値についても、学習情報によって変化させることができる。
<揺れ状態の検出>
カメラ101の揺れ状態は、カメラ101に取り付けられたジャイロセンサや加速度センサの出力値から検出することが可能である。ジャイロセンサや加速度センサの出力は、その高周波成分がハイパスフィルタ(HPF)でカットされ、低周波成分がローパスフィルタ(LPF)でカットされた後で、絶対値変換が行われる。算出された絶対値が、所定時間(TimeBと記す)の間に、所定閾値(ThreshBと記す)を超えた回数の計測が行われる。計測された回数が所定回数(CountBと記す)以上であるか否かにより、振動検出が行われる。例えばカメラ101を机などに置いた状態、つまり揺れが小さい状態であるか、またはカメラ101をウェアラブルカメラとしてユーザが身体に装着して歩いている状態、つまり揺れが大きい状態であるかを判定することが可能である。また、判定閾値や判定のカウント数の条件に関し、複数の条件を設定することにより、揺れレベルに応じた詳細な揺れ状態を検出することも可能である。TimeB、ThreshB、CountBの各値については、学習情報によって変化させることができる。
カメラ101の揺れ状態は、カメラ101に取り付けられたジャイロセンサや加速度センサの出力値から検出することが可能である。ジャイロセンサや加速度センサの出力は、その高周波成分がハイパスフィルタ(HPF)でカットされ、低周波成分がローパスフィルタ(LPF)でカットされた後で、絶対値変換が行われる。算出された絶対値が、所定時間(TimeBと記す)の間に、所定閾値(ThreshBと記す)を超えた回数の計測が行われる。計測された回数が所定回数(CountBと記す)以上であるか否かにより、振動検出が行われる。例えばカメラ101を机などに置いた状態、つまり揺れが小さい状態であるか、またはカメラ101をウェアラブルカメラとしてユーザが身体に装着して歩いている状態、つまり揺れが大きい状態であるかを判定することが可能である。また、判定閾値や判定のカウント数の条件に関し、複数の条件を設定することにより、揺れレベルに応じた詳細な揺れ状態を検出することも可能である。TimeB、ThreshB、CountBの各値については、学習情報によって変化させることができる。
上記の例では、揺れ検出センサの検出値を判定することにより、特定の揺れ状態を検出する方法について説明した。その他、所定時間内でサンプリングされた揺れ検出センサのデータを、ニューラルネットワーク(NNとも記す)を用いた揺れ状態判定器に入力することで、学習させたNNにより、事前に登録しておいた特定の揺れ状態を検出する方法がある。その場合、S802(学習情報の読み込み)ではNNの重みパラメータの読み込みが行われる。
S804での検出処理が行われた後、S805の処理に進み、予め設定された特定の音の検出処理が行われる。ここでは、S802で読み込まれた学習情報によって、検出判定処理を変更する、いくつかの例について説明する。
<特定音声コマンド検出>
特定の音声コマンドを検出する処理において、特定の音声コマンドには、事前に登録された、いくつかのコマンドと、ユーザがカメラに登録した特定音声に基づくコマンドがある。
特定の音声コマンドを検出する処理において、特定の音声コマンドには、事前に登録された、いくつかのコマンドと、ユーザがカメラに登録した特定音声に基づくコマンドがある。
<特定音シーン認識>
予め大量の音声データに基づいて、機械学習が行われたネットワークにより音シーンの判定が行われる。例えば、「歓声が上がっている」、「拍手している」、「声を発している」などの特定シーンを検出することが可能である。検出対象とするシーンは学習によって変化する。
予め大量の音声データに基づいて、機械学習が行われたネットワークにより音シーンの判定が行われる。例えば、「歓声が上がっている」、「拍手している」、「声を発している」などの特定シーンを検出することが可能である。検出対象とするシーンは学習によって変化する。
<音レベル判定>
音声レベルの大きさが所定時間(閾値時間)に亘って、所定の大きさ(閾値)を超えているかどうかを判定することよって、音レベルの検出が行われる。閾値時間や閾値などが学習によって変化する。
音声レベルの大きさが所定時間(閾値時間)に亘って、所定の大きさ(閾値)を超えているかどうかを判定することよって、音レベルの検出が行われる。閾値時間や閾値などが学習によって変化する。
<音方向判定>
平面上に配置された複数のマイクロホンにより、所定の大きさの音について、音の方向が検出される。
平面上に配置された複数のマイクロホンにより、所定の大きさの音について、音の方向が検出される。
音声処理部214内では上記の判定処理が行われ、事前に学習された各設定により、特定の音の検出がされたかどうかについてS805で判定される。
S805の検出処理が行われた後、S806の処理に進み、第2制御部211は、第1制御部223の電源がOFF状態であるか否かを判定する。第1制御部223(MainCPU)がOFF状態であると判定された場合、S807の処理に進み、第1制御部223(MainCPU)がON状態であると判定された場合にはS811の処理に進む。S807では、予め設定された時間の経過検出処理が行われる。ここでは、S802で読み込まれた学習情報によって、検出判定処理が変更される。学習情報は、図7で説明したS706での第2制御部211へ情報を通信する際に転送された情報である。第1制御部223がON状態からOFF状態へ遷移したときからの経過時間が計測される。計測された経過時間が所定の時間(TimeCと記す)以上である場合、所定時間が経過したと判定される。また計測された経過時間がTimeCより短い場合、所定時間が経過していないと判定される。TimeCは、学習情報によって変化するパラメータである。
S807の検出処理が行われた後、S808の処理に進み、低消費電力モードを解除する条件が成立したか否かについて判定処理が行われる。低消費電力モードの解除については、以下の条件によって判定される。
(1)特定の揺れが検出されたこと。
(2)特定の音が検出されたこと。
(3)所定の時間が経過したこと。
(1)特定の揺れが検出されたこと。
(2)特定の音が検出されたこと。
(3)所定の時間が経過したこと。
(1)については、S804(特定揺れ状態検出処理)により、特定の揺れが検出されたか否かが判定されている。(2)については、S805(特定音検出処理)により、特定の音が検出されたか否かが判定されている。(3)については、S807(時間経過検出処理)により、所定時間が経過したか否かが判定されている。(1)~(3)に示す条件のうち、少なくとも1つが満たされる場合、低消費電力モードの解除を行うように判定される。S808で低消費電力モードの解除が判定された場合、S809の処理に進み、低消費電力モード解除の条件を満たしていないと判定された場合、S801に戻って処理を続行する。
S809で第2制御部211は、第1制御部223の電源をONし、S810では、低消費電力モードの解除が判定された条件(揺れ、音、時間のいずれか)を第1制御部223に通知する。そして、S801に戻って処理を続行する。
一方、S806からS811に移行する場合(第1制御部223がON状態であると判定された場合)、S811の処理に進む。S811では、S803~S805にて取得された情報を第1制御部223に通知する処理が行われた後、S801に戻って処理を続行する。
本実施形態においては、第1制御部223がON状態である場合でも、揺れ検出や特定音の検出を第2制御部211が行い、その検出結果を第1制御部223に通知する構成である。この例に限らず、第1制御部223がON状態である場合にS803~S805の処理を行わず、第1制御部223内の処理(図7のS702)で揺れ検出や特定音の検出を行う構成にしてもよい。
上述したように、図7のS704~S707や、図8の処理を行うことにより、低消費電力モードに移行する条件や低消費電力モードを解除する条件が、ユーザの操作に基づいて学習される。つまりカメラ101を所有するユーザの使い勝手に合わせたカメラ動作を行うことが可能となる。学習の方法については後述する。
上記の例では、揺れ検出、音検出、時間経過に基づいて低消費電力モードを解除する方法について詳しく説明したが、環境情報により低消費電力モードの解除を行ってもよい。環境情報として温度、気圧、照度、湿度、紫外線量の絶対量や変化量が所定閾値を超えたか否かにより、解除の判定を行うことができ、後述する学習により閾値を変化させることもできる。また、揺れ検出、音検出、時間経過の検出情報や、各環境情報の絶対値や変化量をニューラルネットワークに基づいて判断し、低消費電力モードを解除する判定を行ってもよい。この判定処理では、後述する学習によって判定条件を変更することができる。
図9を参照して、図7のS710について説明する。まず、S901(画像認識処理)で画像処理部207は、撮像部206により取り込まれた信号に対して画像処理を行い、被写体検出用の画像を生成する。生成された画像に対して、人物や物体などを検出する被写体検出処理が行われる。
被写体である人物を検出する場合、被写体の顔や人体が検出される。顔検出処理では、人物の顔を判断するためのパターンが予め定められており、撮像された画像内にてそのパターンに一致する箇所を、人物の顔領域として検出することができる。また、被写体の顔としての確からしさを示す信頼度が同時に算出される。信頼度は、例えば撮像された画像内における顔領域の大きさや、顔パターンとの一致の程度を表す一致度から算出される。物体認識についても同様に行われ、予め登録されたパターンに一致する物体を認識することができる。
また、撮像された画像内の色相や彩度などのヒストグラムを用いて特徴被写体を抽出する方法がある。撮影画角内に捉えられている被写体の画像に関し、その色相や彩度などのヒストグラムから導出される分布を複数の区間に分け、区間ごとに撮像された画像を分類する処理が実行される。例えば、撮像された画像について複数の色成分のヒストグラムが作成され、その山型の分布範囲で区分けされる。同一の区間の組み合わせに属する領域において撮像された画像が分類されて、被写体の画像領域が認識される。認識された被写体の画像領域ごとに評価値を算出することで、その評価値が最も高い被写体の画像領域を主被写体領域として判定することができる。以上の方法で、撮像情報から各被写体情報を得ることができる。
S902では像ブレ補正量の算出処理が行われる。具体的には、まず装置揺れ検出部209にて取得された角速度および加速度の情報に基づいてカメラの揺れの絶対角度が算出される。その絶対角度を打ち消す角度方向にチルト回転ユニット104およびパン回転ユニット105を駆動して像ブレを補正する角度を求めることで、像ブレ補正量が取得される。尚、ここでの像ブレ補正量算出処理は、後述する学習処理によって算出方法を変更することができる。
S903では、カメラの状態判定が行われる。角速度情報および加速度情報、GPS位置情報などに基づいて検出されるカメラ角度やカメラ移動量などにより、現在のカメラがどのような振動/動き状態であるかが判定される。例えば、車両にカメラ101を装着して撮影する場合を想定する。この場合、車両の移動距離によって周囲の風景などの被写体情報が大きく変化する。そのため、カメラ101が装着されて高速で移動している「乗り物移動状態」であるか否かについて判定され、その判定結果は後に説明する自動被写体探索に使用される。また、カメラ101の角度の変化が大きいか否かについて判定される。カメラ101の揺れがほとんどない「置き撮り状態」であるか否かについて判定され、「置き撮り状態」である場合、カメラ101自体の位置変化はないと判断できる。この場合には置き撮り用の被写体探索を行うことができる。また、カメラ101の角度変化が比較的大きい場合には「手持ち状態」と判定される。この場合、手持ち撮影用の被写体探索を行うことができる。
また第1制御部223は、図4の操作部408のボタン操作、タッチパネル上での被写体へのタッチ操作、及び音声入力音声処理部409の音声コマンドのいずれかによる、被写体指定の指示或いは単なる状態遷移の指示を受信すると人物登録専用の状態に遷移する。ことで、人物の登録専用の状態に遷移することも可能である。人物の登録専用の状態に遷移した場合の処理については、図36を用いて後述する。
S904では、被写体探索処理が行われる。被写体探索は、以下の処理によって構成される。
(1)エリア分割。
(2)エリアごとの重要度レベルの算出。
(3)探索対象エリアの決定。
(1)エリア分割。
(2)エリアごとの重要度レベルの算出。
(3)探索対象エリアの決定。
以下、各処理について順次説明する。
(1)エリア分割
図10を参照して、エリア分割について説明する。3次元直交座標の原点Oをカメラ位置とする。図10(A)は、カメラ位置(原点O)を中心として、全周囲でエリア分割を行う例を示す模式図である。図10(A)の例では、チルティング方向、パンニング方向についてそれぞれ22.5度ごとのエリアに分割されている。このような分割の場合、チルティング角度が0度から離れるにつれて、水平方向の円周が小さくなり、エリア領域が小さくなる。これに対し、図10(B)は、チルティング角度が45度以上である場合、水平方向のエリア範囲を22.5度よりも大きく設定した例を示す模式図である。図10(C)および(D)は、撮影画角内でのエリア分割された領域の例を示す模式図である。図10(C)に示される軸1301は、初期化時のカメラ101の向きを表し、軸1301の方向を基準方向としてエリア分割が行われる。撮像画像の画角エリア1302を示しており、当該エリアに対応する画像例を図10(D)に示す。撮像画角の画像内では、エリア分割に基づいて、図10(D)で示されるように画像が分割される。複数の分割領域1303~1318の例を示す。
図10を参照して、エリア分割について説明する。3次元直交座標の原点Oをカメラ位置とする。図10(A)は、カメラ位置(原点O)を中心として、全周囲でエリア分割を行う例を示す模式図である。図10(A)の例では、チルティング方向、パンニング方向についてそれぞれ22.5度ごとのエリアに分割されている。このような分割の場合、チルティング角度が0度から離れるにつれて、水平方向の円周が小さくなり、エリア領域が小さくなる。これに対し、図10(B)は、チルティング角度が45度以上である場合、水平方向のエリア範囲を22.5度よりも大きく設定した例を示す模式図である。図10(C)および(D)は、撮影画角内でのエリア分割された領域の例を示す模式図である。図10(C)に示される軸1301は、初期化時のカメラ101の向きを表し、軸1301の方向を基準方向としてエリア分割が行われる。撮像画像の画角エリア1302を示しており、当該エリアに対応する画像例を図10(D)に示す。撮像画角の画像内では、エリア分割に基づいて、図10(D)で示されるように画像が分割される。複数の分割領域1303~1318の例を示す。
(2)エリアごとの重要度レベルの算出
分割された各エリアについて、エリア内に存在する被写体の状況やシーンの状況に応じて、探索を行う優先順位を示す重要度レベルが算出される。被写体の状況に基づく重要度レベルは、例えば、エリア内に存在する人物の数、人物の顔の大きさ、顔の向き、顔検出の確からしさ、人物の表情、人物の個人認証結果などに基づいて算出される。また、シーンの状況に応じた重要度レベルは、例えば、一般物体認識結果、シーン判別結果(青空、逆光、夕景など)、エリアの方向から検出される音のレベルや音声認識結果、エリア内の動き検知情報などに基づいて算出される。
分割された各エリアについて、エリア内に存在する被写体の状況やシーンの状況に応じて、探索を行う優先順位を示す重要度レベルが算出される。被写体の状況に基づく重要度レベルは、例えば、エリア内に存在する人物の数、人物の顔の大きさ、顔の向き、顔検出の確からしさ、人物の表情、人物の個人認証結果などに基づいて算出される。また、シーンの状況に応じた重要度レベルは、例えば、一般物体認識結果、シーン判別結果(青空、逆光、夕景など)、エリアの方向から検出される音のレベルや音声認識結果、エリア内の動き検知情報などに基づいて算出される。
また、図9のカメラ状態判定(S903)においてカメラの振動が検出されている場合、振動状態に応じても重要度レベルが変化するように構成することもできる。例えば、「置き撮り状態」と判定された場合を想定する。この場合、顔認証で登録されている中で優先度の高い被写体(例えばカメラの所有者)を中心に被写体探索が行われるように判定される。また後述する自動撮影についても、例えばカメラの所有者の顔を優先して撮影が行われる。これにより、カメラの所有者がカメラを身に着けて持ち歩き撮影を行っている時間が長いとしても、カメラを取り外して机の上などに置くことで、所有者が写った画像も多く記録することができる。このとき、パンニングやチルティングにより顔の探索が可能であるため、ユーザはカメラの置き角度などを考えなくても、適当に設置するだけで所有者が写った画像や多くの顔が写った集合写真などを記録することができる。
尚、上記の条件だけでは、各エリアに変化がない限り、最も重要度レベルが高いエリアが同じとなる可能性がある。その結果、探索されるエリアがずっと変わらないことになってしまう。そこで、過去の撮影情報に応じて重要度レベルを変化させる処理が行われる。具体的には、所定時間にわたって継続して探索エリアに指定され続けたエリアに対して、重要度レベルを下げる処理や、後述するS910において撮影を行ったエリアに対して、所定時間の間、重要度レベルを下げる処理が行われる。
(3)探索対象エリアの決定
上記のように算出された各エリアの重要度レベルに基づき、重要度レベルが高いエリアを探索対象エリアとして決定する処理が実行される。そして、探索対象エリアを画角に捉えるために必要なパンニングおよびチルティングの探索目標角度が算出される。
上記のように算出された各エリアの重要度レベルに基づき、重要度レベルが高いエリアを探索対象エリアとして決定する処理が実行される。そして、探索対象エリアを画角に捉えるために必要なパンニングおよびチルティングの探索目標角度が算出される。
図9のS905では、パンニングおよびチルティングの駆動が行われる。具体的には、制御サンプリング周波数での、像ブレ補正量と、パンニングおよびチルティングの探索目標角度に基づいた駆動角度とを加算することにより、パンニング駆動量およびチルティング駆動量が算出される。鏡筒回転駆動部205によって、チルト回転ユニット104およびパン回転ユニット105が駆動制御される。
S906ではズームユニット201を制御することによって、ズーム駆動が行われる。具体的には、S904で決定された探索対象被写体の状態に応じてズーム駆動が行われる。例えば、探索対象の被写体が人物の顔である場合を想定する。この場合、画像上の顔サイズが小さすぎると検出可能な最小サイズを下回ることで検出が出来ず、被写体を見失ってしまう可能性がある。そのような場合、望遠側へのズーム制御により、画像上の顔のサイズを大きくする制御が行われる。一方、画像上の顔サイズが大きすぎる場合、被写体やカメラ自体の動きによって被写体が画角から外れやすくなってしまう可能性がある。そのような場合、広角側へのズーム制御により、画面上の顔のサイズを小さくする制御が行われる。このようにズーム制御を行うことで、被写体の追跡に適した状態を保つことができる。尚、ズーム制御には、レンズの駆動によって行う光学ズーム制御と、画像処理によって画角変更を行う電子ズーム制御がある。いずれか一方の制御を行う形態と、両方の制御を組み合わせた形態がある。
S907は自動認証登録の判定処理である。被写体の検出状況により、個人認証の自動登録が可能であるか否かについて判定される。顔としての検出信頼度が高く、且つ、顔検出信頼度が高い状態を維持している場合、さらに詳細な判定が行われる。すなわち、顔が横顔ではなくカメラに向かって正面を向いている状態であること、また、顔の大きさが所定値以上の大きさである場合には、個人認証の自動登録に適した状態にあると判定される。
続くS908は自動撮影の判定処理である。自動撮影判定では、自動撮影を行うか否かの判定と、撮影方法の判定(静止画撮影、動画撮影、連写、パノラマ撮影などのうち、どれを実行するかの判定)が行われる。自動撮影を行うか否かの判定については後述する。
S909では、手動による撮影指示があったか否かについて判定される。手動による撮影指示には、シャッターボタンの押下による指示、カメラ筺体を指などで軽く叩くこと(タップ)による指示、音声コマンド入力による指示、外部装置からの指示などがある。例えばタップ操作をトリガーとする撮影指示については、ユーザがカメラ筺体をタップした際、装置揺れ検出部209によって短期間に連続した高周波の加速度を検知することにより判定される。また音声コマンド入力方法は、ユーザが所定の撮影を指示する合言葉(例えば「写真とって」)を発声した場合、音声処理部214が音声を認識し、撮影のトリガーとする撮影指示方法である。外部装置からの指示方法は、例えばカメラとBlueTooth(登録商標)接続したスマートフォンなどから、専用のアプリケーションを用いて送信されたシャッター指示信号をトリガーとする撮影指示方法である。
S909にて手動による撮影指示があったと判定された場合、S910の処理に進む。また、S909で手動による撮影指示がなかったと判定された場合には、S914の処理に進む。S914では自動認証登録の実行について判断される。S907での自動認証登録の可否判定結果と、S908での自動撮影の可否判定結果を用いて、自動認証登録を実行するか否かが判断される。S914にて自動認証登録を実行することが判定された場合、S915の処理に進み、自動認証登録を実行しないことが判定された場合、S916の処理に進む。図11を参照して、具体例を説明する。
図11は自動認証登録と自動撮影の実行判断を説明するための表である。自動認証登録判定結果については「登録可」および「登録不可」のいずれかとし、自動撮影判定結果については「撮影可」および「撮影不可」のいずれかとする。個人認証の登録に適していることが判定された場合、自動撮影の判定結果に依らずに、個人認証の登録が行われるものとする。個人認証の登録に適していないことが判定された場合であって、自動撮影の条件が満たされている場合(「撮影可」)には、自動撮影が行われるものとする。
自動認証登録の可否を優位に扱う理由は、自動認証登録のためには安定した正面顔の情報を必要とするためである。自動撮影では、被写体が横顔の状態であるときや、一時的な笑顔や、前回の撮影からの経過時間などの要素によっても撮影を行うと判定される場合があり得る。しかし、自動認証登録に適した条件が成立することは低頻度である。そのため、本実施形態では、自動認証登録に適した条件が得られた場合を優先するアルゴリズムとなっている。
自動認証登録を優先すると自動撮影の機会を阻害するという見方も可能である。しかし、それが誤りである理由は、自動認証登録を行うことで個人認証の精度が高まり、優先被写体の探索および追尾の精度がより良くなることによって自動撮影における撮影機会の発見に大いに役立つからである。また、本実施形態では個人認証の登録に適していると判定された場合、常に自動撮影の可否結果よりも優先して扱っている。これに限らず、自動撮影による所定時間内での撮影回数または撮影間隔に応じて優先度を変化させてもよい。例えば、自動撮影による撮影頻度が低い場合には一時的に自動撮影を優先して扱うように制御することも可能である。
図9のS915は個人認証の登録処理である。個人認証に適した撮影状態に制御して撮影処理を行い、顔の特徴量を数値化して記憶する一連の処理が実行される。図12を参照して、具体的に説明する。
図12は構図調節における被写体配置を説明するための模式図である。図12(A)は静止画の自動撮影時の構図を表し、図12(B)は個人認証用の撮影時の構図を表している。構図調節により、図12(B)に示されるような個人認証に適した状態となる。顔の特徴量をより精度良く得るためには、光学収差の影響を受けにくい画像中心に被写体を配置し、顔を大きく捉えられるように構図調節することが重要である。他方、後述するS910において静止画の自動撮影を行う場合には、図12(A)のように主要被写体と背景が収まる構図調節を行う方が、より満足度の高い写真が得られる。
個人認証の登録処理においてユーザからの手動撮影指示が発生した場合には、S915の処理を一時中断して撮影モード処理を終了し、再び撮影モード処理を実行することも可能である。構図調節の制御は、パンニング、チルティング、およびズームレンズ駆動と、顔検出による顔位置の確認を繰り返す動作である。この繰り返し動作のなかで手動撮影指示を随時確認し、割り込みが確認された場合に個人認証登録処理を中断することで、ユーザの意図を速やかに反映させることができる。
自動撮影は、撮像部によって出力された画像データを自動的に記録する撮影である。図9のS916にて自動撮影を行うか否かの判定は以下のように行われる。具体的には、以下の2つの場合に、自動撮影を実行することが判定される。第1の場合は、S904にて得られたエリア別の重要度レベルに基づき、重要度レベルが所定値を超えている場合である。第2の場合は、ニューラルネットワークに基づく判定結果を利用する場合であり、これについては後述する。尚、自動撮影における記録は、メモリ215への画像データの記録、あるいは不揮発性メモリ216への画像データの記録である。また、外部装置301に画像データを自動で転送し、外部装置301に画像データを記録することも含まれるものとする。
本実施形態では、ニューラルネットワークに基づく自動撮影判定処理により、撮影を自動的に行うように制御が行われる。撮影場所の状況やカメラの状況によっては、自動撮影の判定パラメータを変更した方がよい場合もある。一定時間間隔での撮影とは異なり、状況判断に基づく自動撮影制御は、以下のような要望に応える形態が好まれる傾向にある。
(1)人や物を含めて、多めの枚数の画像を撮影したい。
(2)思い出に残るシーンを撮り逃したくない。
(3)バッテリーの残量、記録メディアの残量を考慮し、省電力で撮影を行いたい。
(1)人や物を含めて、多めの枚数の画像を撮影したい。
(2)思い出に残るシーンを撮り逃したくない。
(3)バッテリーの残量、記録メディアの残量を考慮し、省電力で撮影を行いたい。
自動撮影は、被写体の状態から評価値を算出し、評価値と閾値を比較して、評価値が閾値を超える場合に実施される。自動撮影の評価値はニューラルネットワークを用いた判定により決定される。
次にニューラルネットワーク(NN)に基づく判定について説明する。NNの一例として、多層パーセプトロンによるネットワークの例を図13に示す。NNは、入力値から出力値を予測することに使用される。予め入力値と、その入力に対して模範となる出力値とを学習しておくことで、新たな入力値に対して、学習した模範に倣った出力値を推定することができる。尚、学習の方法については後述する。
図13のノード1201およびその縦に並ぶ丸印で示す複数のノードは入力層のニューロンを示す。ノード1203およびその縦に並ぶ丸印で示す複数のノードは中間層のニューロンを示す。ノード1204は出力層のニューロンを示す。矢印1202は各ニューロンを繋ぐ結合を示している。NNに基づく判定では、入力層のニューロンに対して、現在の画角中に写る被写体や、シーンやカメラの状態に基づいた特徴量が入力として与えられる。多層パーセプトロンの順伝播則に基づく演算を経て出力層から出力された値が取得される。出力値が閾値以上であれば、自動撮影を実施する判定が下される。
被写体の特徴としては、例えば以下の情報が用いられる。
・現在のズーム倍率、現在の画角における一般物体の認識結果の情報。
・顔検出結果、現在の画角に写る顔の数、顔の笑顔度、目瞑り度、顔角度、顔認証ID番号、被写体人物の視線角度。
・シーン判別結果、前回撮影時からの経過時間、現在時刻、GPS位置情報および前回撮影位置からの変化量。
・現在の音声レベル、声を発している人物、拍手、歓声が上がっているか否かの情報。
・振動情報(加速度情報、カメラ状態)、環境情報(温度、気圧、照度、湿度、紫外線量)など。
・現在のズーム倍率、現在の画角における一般物体の認識結果の情報。
・顔検出結果、現在の画角に写る顔の数、顔の笑顔度、目瞑り度、顔角度、顔認証ID番号、被写体人物の視線角度。
・シーン判別結果、前回撮影時からの経過時間、現在時刻、GPS位置情報および前回撮影位置からの変化量。
・現在の音声レベル、声を発している人物、拍手、歓声が上がっているか否かの情報。
・振動情報(加速度情報、カメラ状態)、環境情報(温度、気圧、照度、湿度、紫外線量)など。
更に、外部装置501からの情報通知がある場合には、通知情報(ユーザの運動情報、腕のアクション情報、心拍などの生体情報など)も特徴情報として使用される。特徴情報は所定の範囲の数値に変換され、特徴量として入力層の各ニューロンに与えられる。そのため、入力層の各ニューロンは使用する特徴量の数だけ必要となる。
ニューラルネットワークに基づく判断では、後述する学習処理で各ニューロン間の結合重みを変化させることによって、出力値を変化させることができ、判断の結果を学習結果に適応させることができる。
また、図7のS702で読み込まれた第1制御部223の起動条件によって、自動撮影の判定も変化する。例えば、タップ検出による起動や特定音声コマンドによる起動の場合には、ユーザの意図として現在撮影を指示する操作である可能性が非常に高い。そこで、撮影頻度が多くなるように設定される。
撮影方法の判定では、S901~S904にて検出された、カメラの状態や周辺の被写体の状態に基づいて決定される撮影の実行が判定される。静止画撮影、動画撮影、連写撮影、パノラマ撮影などのうち、どれを実行するかが判定される。例えば、被写体である人物が静止している場合、静止画撮影が選択されて実行される。当該被写体が動いている場合には動画撮影または連写撮影が実行される。また、複数の被写体がカメラを取り囲むように存在している場合や、GPS情報に基づいて景勝地であることが判断されている場合には、パノラマ撮影処理が実行される。パノラマ撮影処理は、カメラのパンニングおよびチルティングの駆動を行いながら順次撮影した画像を合成してパノラマ画像を生成する処理である。尚、自動撮影を行うか否かの判定方法と同様に、撮影前に検出された各種情報をニューラルネットワークに基づいて判断し、撮影方法を決定することもできる。また、この判定処理では、後述する学習処理によって判定条件を変更することもできる。
図9のS916において、S908の自動撮影判定処理により自動撮影を行うことが判定された場合、S910の処理に進む。S916にて自動撮影を行わないことが判定された場合、撮影モード処理を終了する。またS915(自動認証登録処理)の後、撮影モード処理を終了する。
S910では自動撮影が開始される。つまりS908にて判定された撮影方法による撮影を開始する。その際、フォーカス駆動制御部204はオートフォーカス制御を行う。また、不図示の絞り制御部およびセンサゲイン制御部、シャッター制御部を用いて露出制御が行われることで、被写体が適切な明るさになるように調節される。撮影後に画像処理部207は、オートホワイトバランス処理、ノイズリダクション処理、ガンマ補正処理など、種々の公知の画像処理を行い、画像データが生成される。
S910での自動撮影の際、所定の条件を満たした場合、カメラが撮影対象となる人物に対し撮影を行う旨を報知した上で撮影が行われてもよい。所定の条件は、例えば以下の情報に基づいて設定される。
・画角内における顔の数、顔の笑顔度、目瞑り度、被写体人物の視線角度や顔角度、顔認証ID番号。
・個人認証登録されている人物の数、撮影時の一般物体の認識結果。
・シーン判別結果、前回撮影時からの経過時間、撮影時刻、GPS情報に基づく現在位置が景勝地であるか否かの情報。
・撮影時の音声レベル、声を発している人物の有無、拍手、歓声が上がっているか否かの情報。
・振動情報(加速度情報、カメラ状態)、環境情報(温度、気圧、照度、湿度、紫外線量)など。
・画角内における顔の数、顔の笑顔度、目瞑り度、被写体人物の視線角度や顔角度、顔認証ID番号。
・個人認証登録されている人物の数、撮影時の一般物体の認識結果。
・シーン判別結果、前回撮影時からの経過時間、撮影時刻、GPS情報に基づく現在位置が景勝地であるか否かの情報。
・撮影時の音声レベル、声を発している人物の有無、拍手、歓声が上がっているか否かの情報。
・振動情報(加速度情報、カメラ状態)、環境情報(温度、気圧、照度、湿度、紫外線量)など。
報知方法として、例えば、音声出力部218からの発音やLED制御部224によるLED点灯などを使用する方法がある。これらの条件に基づいて報知を伴う撮影を行うことによって、重要性が高いシーンにおいて好ましいカメラ目線の画像を記録することができる。撮影前の報知についても、撮影画像の情報、あるいは撮影前に検出された各種情報をニューラルネットワークに基づいて判断し、報知方法やタイミングを決定することができる。また、この判定処理では、後述する学習処理によって、判定条件を変更することもできる。
S911では、S910にて生成された画像を加工し、動画に追加するなどの編集処理が実行される。具体的には、画像加工については人物の顔や合焦位置に基づくトリミング処理、画像の回転処理、HDR(ハイダイナミックレンジ)効果処理、ボケ効果処理、色変換フィルタ効果処理などがある。画像加工では、S910にて生成された画像データに基づいて、上記の処理の組み合わせによって複数の加工画像が生成される。S910において生成された画像データとは別に上記画像データを保存する処理を行ってもよい。また動画処理については、撮影された動画または静止画を、生成済みの編集動画にスライド、ズーム、フェードの特殊効果処理を施しながら追加する処理などが行われる。S911での編集処理に関しても、撮影画像の情報、あるいは撮影前に検出された各種情報をニューラルネットワークに基づいて判断し、画像加工の方法を決定することができる。また、この判定処理では、後述する学習処理によって、判定条件を変更することもできる。
S912では、撮影画像の学習情報生成処理が行われる。この処理は、後述する学習処理に使用する情報を生成して記録する処理である。具体的には、例えば以下の情報がある。
・今回の撮影画像における、撮影時のズーム倍率、撮影時の一般物体認識結果、顔検出結果、撮影画像に写る顔の数、顔の笑顔度、目瞑り度、顔角度、顔認証ID番号、被写体人物の視線角度。
・シーン判別結果、前回撮影時からの経過時間、撮影時刻、GPS位置情報および前回撮影位置からの変化量。
・撮影時の音声レベル、声を発している人物、拍手、歓声が上がっているか否かの情報。
・振動情報(加速度情報、カメラ状態)、環境情報(温度、気圧、照度、湿度、紫外線量)
・動画撮影時間、手動撮影指示によるものか否かの情報など。
・今回の撮影画像における、撮影時のズーム倍率、撮影時の一般物体認識結果、顔検出結果、撮影画像に写る顔の数、顔の笑顔度、目瞑り度、顔角度、顔認証ID番号、被写体人物の視線角度。
・シーン判別結果、前回撮影時からの経過時間、撮影時刻、GPS位置情報および前回撮影位置からの変化量。
・撮影時の音声レベル、声を発している人物、拍手、歓声が上がっているか否かの情報。
・振動情報(加速度情報、カメラ状態)、環境情報(温度、気圧、照度、湿度、紫外線量)
・動画撮影時間、手動撮影指示によるものか否かの情報など。
更には、ユーザの画像の好みを数値化したニューラルネットワークの出力であるスコアの演算が行われる。これらの情報を生成し、撮影画像ファイルへタグ情報として記録する処理が実行される。あるいは不揮発性メモリ216へ記憶するか、記録媒体221内に、所謂カタログデータとして各々の撮影画像の情報をリスト化した形式で保存する方法がある。
S913では過去の撮影情報を更新する処理が行われる。具体的には、S908で説明したエリアごとの撮影枚数、個人認証登録された人物ごとの撮影枚数、一般物体認識で認識された被写体ごとの撮影枚数、シーン判別のシーンごとの撮影枚数についての更新処理である。つまり今回撮影された画像が該当する枚数のカウント数を1つ増やす処理が行われる。また同時に、今回の撮影時刻、自動撮影の評価値を記憶し、撮影履歴情報として保持する処理が行われる。S913の後、一連の処理を終了する。
次に、ユーザの好みに合わせた学習について説明する。本実施形態では、図13に示すようなニューラルネットワーク(NN)を用い、機械学習アルゴリズムを使用して、学習処理部219がユーザの好みに合わせた学習を行う。NNは入力値から出力値を予測することに使用され、予め入力値の実績値と出力値の実績値を学習しておくことで、新たな入力値に対して出力値を推定することができる。NNを用いることにより、前述の自動撮影や自動編集、被写体探索に対して、ユーザの好みに合わせた学習を行うことができる。また、NNに入力する特徴データともなる被写体情報(顔認証や一般物体認識などの結果)の登録や、撮影報知制御や低消費電力モード制御やファイル自動削除を学習により変更することも行われる。
本実施形態において、学習処理が適用される動作の例を、以下に示す。
(1)自動撮影
(2)自動編集
(3)被写体探索
(4)被写体登録
(5)撮影報知制御
(6)低消費電力モード制御
(7)ファイル自動削除
(8)像ブレ補正
(9)画像自動転送
(1)自動撮影
(2)自動編集
(3)被写体探索
(4)被写体登録
(5)撮影報知制御
(6)低消費電力モード制御
(7)ファイル自動削除
(8)像ブレ補正
(9)画像自動転送
学習処理が適用される動作のうち、(2)自動編集、(7)ファイル自動削除、(9)画像自動転送については、本発明の主旨と直接関係しないので説明を省略する。
<自動撮影>
自動撮影に対する学習について説明する。自動撮影では、ユーザの好みに合った画像の撮影を自動で行うための学習が行われる。図9を用いて説明したように、撮影後(S910の後)に学習用情報生成処理(S912)が行われる。これは、後述する方法により学習させる画像を選択し、画像に含まれる学習情報に基づいて、NNの重みを変化させることにより学習を行わせる処理である。学習は、自動撮影タイミングの判定を行うNNの変更と、撮影方法(静止画撮影、動画撮影、連写、パノラマ撮影など)の判定を行うNNの変更により行われる。
自動撮影に対する学習について説明する。自動撮影では、ユーザの好みに合った画像の撮影を自動で行うための学習が行われる。図9を用いて説明したように、撮影後(S910の後)に学習用情報生成処理(S912)が行われる。これは、後述する方法により学習させる画像を選択し、画像に含まれる学習情報に基づいて、NNの重みを変化させることにより学習を行わせる処理である。学習は、自動撮影タイミングの判定を行うNNの変更と、撮影方法(静止画撮影、動画撮影、連写、パノラマ撮影など)の判定を行うNNの変更により行われる。
<被写体探索>
被写体探索に対する学習について説明する。被写体探索では、ユーザの好みに合った被写体の探索を自動的に行うための学習が行われる。図9の被写体探索処理(S904)において、各エリアの重要度レベルが算出されて、パンニングおよびチルティング、ズームの駆動により、被写体探索が行われる。学習は撮影画像や探索中の検出情報に基づいて行われ、NNの重みを変化させることで学習結果として反映される。探索動作中の各種検出情報をNNに入力し、重要度レベルの判定を行うことにより、学習結果を反映させた被写体探索を行うことができる。また重要度レベルの算出以外にも、パンニングおよびチルティングによる探索方法(速度、動かす頻度)の制御などが行われる。
被写体探索に対する学習について説明する。被写体探索では、ユーザの好みに合った被写体の探索を自動的に行うための学習が行われる。図9の被写体探索処理(S904)において、各エリアの重要度レベルが算出されて、パンニングおよびチルティング、ズームの駆動により、被写体探索が行われる。学習は撮影画像や探索中の検出情報に基づいて行われ、NNの重みを変化させることで学習結果として反映される。探索動作中の各種検出情報をNNに入力し、重要度レベルの判定を行うことにより、学習結果を反映させた被写体探索を行うことができる。また重要度レベルの算出以外にも、パンニングおよびチルティングによる探索方法(速度、動かす頻度)の制御などが行われる。
<被写体登録>
被写体登録に対する学習について説明する。被写体登録では、ユーザの好みに合った被写体の登録やランク付けを自動的に行うための学習が行われる。学習として、例えば、顔認証登録や一般物体認識の登録、ジェスチャーや音声の認識、音によるシーン認識の登録が行われる。人と物体に対する認証登録が行われ、画像の取得される回数や頻度、手動撮影される回数や頻度、探索中の被写体の現れる頻度からランク付けの設定が行われる。各情報については、各々ニューラルネットワークを用いた判定のための入力として登録されることになる。
被写体登録に対する学習について説明する。被写体登録では、ユーザの好みに合った被写体の登録やランク付けを自動的に行うための学習が行われる。学習として、例えば、顔認証登録や一般物体認識の登録、ジェスチャーや音声の認識、音によるシーン認識の登録が行われる。人と物体に対する認証登録が行われ、画像の取得される回数や頻度、手動撮影される回数や頻度、探索中の被写体の現れる頻度からランク付けの設定が行われる。各情報については、各々ニューラルネットワークを用いた判定のための入力として登録されることになる。
<撮影報知制御>
撮影報知に対する学習について説明する。図9のS910で説明したように、撮影直前に、所定の条件を満たしたとき、カメラが撮影対象となる人物に対して撮影を行う旨を報知した上で撮影が行われる。例えば、パンニングおよびチルティングの駆動により視覚的に被写体の視線を誘導したり、音声出力部218から発するスピーカー音や、LED制御部224によるLED点灯光を使用して被写体の注意を促したりする処理が実行される。報知の直後に、被写体の検出情報(例えば、笑顔度、目線検出、ジェスチャー)が取得されたか否かに基づいて、検出情報を学習に使用するか否かが判定され、NNの重みを変化させることで学習が行われる。
撮影報知に対する学習について説明する。図9のS910で説明したように、撮影直前に、所定の条件を満たしたとき、カメラが撮影対象となる人物に対して撮影を行う旨を報知した上で撮影が行われる。例えば、パンニングおよびチルティングの駆動により視覚的に被写体の視線を誘導したり、音声出力部218から発するスピーカー音や、LED制御部224によるLED点灯光を使用して被写体の注意を促したりする処理が実行される。報知の直後に、被写体の検出情報(例えば、笑顔度、目線検出、ジェスチャー)が取得されたか否かに基づいて、検出情報を学習に使用するか否かが判定され、NNの重みを変化させることで学習が行われる。
撮影直前の各検出情報はNNに入力され、報知を行うか否かが判定される。報知音の場合の音レベル、音の種類とタイミング、また報知用の光については点灯時間、スピード、そしてカメラの向き(パンニング・チルティングモーション)の判定が行われる。
<低消費電力モード制御>
図7、図8を用いて説明したように、第1制御部223(MainCPU)への電源供給をON/OFFする制御が行われる。低消費電力モードからの復帰条件や、低消費電力状態への遷移条件の学習が行われる。まず、低消費電力モードを解除する条件の学習について説明する。
図7、図8を用いて説明したように、第1制御部223(MainCPU)への電源供給をON/OFFする制御が行われる。低消費電力モードからの復帰条件や、低消費電力状態への遷移条件の学習が行われる。まず、低消費電力モードを解除する条件の学習について説明する。
・音検出
ユーザの特定音声や検出したい特定音シーンや特定音レベルを、例えば外部装置301の専用アプリケーションを用いた通信により、手動で設定することで学習を行うことができる。また、複数の検出方法を音声処理部に予め設定しておき、後述する方法により学習させる画像を選択させる方法がある。選択された画像に含まれる前後音の情報を学習し、起動要因とする音判定(特定音コマンドや、「歓声」、「拍手」などの音シーン)を設定することで学習を行うことができる。
ユーザの特定音声や検出したい特定音シーンや特定音レベルを、例えば外部装置301の専用アプリケーションを用いた通信により、手動で設定することで学習を行うことができる。また、複数の検出方法を音声処理部に予め設定しておき、後述する方法により学習させる画像を選択させる方法がある。選択された画像に含まれる前後音の情報を学習し、起動要因とする音判定(特定音コマンドや、「歓声」、「拍手」などの音シーン)を設定することで学習を行うことができる。
・環境情報検出
ユーザが起動条件としたい環境情報変化を、例えば外部装置301の専用アプリケーションを用いた通信により、手動で設定することで学習を行うことができる。例えば、温度、気圧、照度、湿度、紫外線量の絶対量や変化量などの特定条件が設定され、条件を満たす場合に撮像装置を起動させることができる。各環境情報に基づく判定閾値を学習することもできる。環境情報に基づく起動後のカメラ検出情報から、起動要因ではなかったと判定される場合には、各判定閾値のパラメータが環境変化を検出し難いように設定される。
ユーザが起動条件としたい環境情報変化を、例えば外部装置301の専用アプリケーションを用いた通信により、手動で設定することで学習を行うことができる。例えば、温度、気圧、照度、湿度、紫外線量の絶対量や変化量などの特定条件が設定され、条件を満たす場合に撮像装置を起動させることができる。各環境情報に基づく判定閾値を学習することもできる。環境情報に基づく起動後のカメラ検出情報から、起動要因ではなかったと判定される場合には、各判定閾値のパラメータが環境変化を検出し難いように設定される。
また上記の各パラメータは電池の残容量によっても変化する。例えば、電池残量が少ないときは各種判定に移行し難くなり、電池残量が多いときは各種判定に移行し易くなる。具体的には、ユーザがカメラの起動を意図するときの要因ではない揺れ状態検出結果や音シーン検出結果でも、電池残量が多い場合にはカメラを起動することが判定される場合もある。
また、低消費電力モードの解除条件の判定は、揺れ検出情報、音検出情報、時間経過の検出情報、各環境情報、電池残量などからニューラルネットワークに基づいて行うこともできる。その場合、後述する方法により学習させる画像が選択されて、画像に含まれる学習情報に基づいて、NNの重みを変化させることにより学習が行われる。
次に、低消費電力状態への遷移条件の学習について説明する。図7に示したとおり、S704のモード設定判定では、「自動撮影モード」、「自動編集モード」、「画像自動転送モード」、「学習モード」、「ファイル自動削除モード」の何れでもないと判定された場合に低消費電力モードに遷移する。各モードの判定条件については、上述したとおりであるが、各モードが判定される条件についても学習によって変化する。
<自動撮影モード>
エリアごとの重要度レベルを判定し、パンニングおよびチルティングで被写体を探索しつつ自動撮影が行われる。撮影対象とされる被写体が存在しないことが判定された場合には自動撮影モードが解除される。例えば、全てのエリアの重要度レベルや、各エリアの重要度レベルを加算した値が、所定閾値以下になった場合、自動撮影モードが解除される。このとき、自動撮影モードに遷移した時点からの経過時間によって所定閾値を下げていく設定が行われる。自動撮影モードに遷移した時点からの経過時間が長くなるにつれて低消費電力モードへ移行し易くなる。
エリアごとの重要度レベルを判定し、パンニングおよびチルティングで被写体を探索しつつ自動撮影が行われる。撮影対象とされる被写体が存在しないことが判定された場合には自動撮影モードが解除される。例えば、全てのエリアの重要度レベルや、各エリアの重要度レベルを加算した値が、所定閾値以下になった場合、自動撮影モードが解除される。このとき、自動撮影モードに遷移した時点からの経過時間によって所定閾値を下げていく設定が行われる。自動撮影モードに遷移した時点からの経過時間が長くなるにつれて低消費電力モードへ移行し易くなる。
また、電池の残容量によって所定閾値を変化させることにより、電池の使用可能時間を考慮した低消費電力モード制御を行うことができる。例えば、電池残量が少ないときには閾値を大きくして低消費電力モードに移行し易くし、電池残量が多いときには閾値を小さくして低消費電力モードに移行し難くする処理が行われる。ここで、前回自動撮影モードに遷移した時点からの経過時間と撮影枚数によって、第2制御部211に対して、次回の低消費電力モード解除条件のパラメータ(経過時間閾値TimeC)が設定される。上記の各閾値は学習によって変化する。学習は、例えば外部装置301の専用アプリケーションを用いた通信により、手動で撮影頻度や起動頻度などを設定することで行われる。
また、カメラ101の電源ボタンがON操作された時点から、電源ボタンがOFF操作される時点までの経過時間の平均値や、時間帯ごとの分布データを蓄積し、各パラメータを学習する構成にしてもよい。その場合、電源ON時点からOFF時点までの経過時間が短い時間であるユーザに対しては低消費電力モードからの復帰や、低消費電力状態への遷移の時間間隔が学習によって短くなる。逆に、電源ON時点からOFF時点までの経過時間が長い時間であるユーザに対しては前記時間間隔が学習によって長くなる。
被写体探索中の検出情報によっても学習が行われる。設定された重要な被写体が多いと判断されている間、低消費電力モードからの復帰や、低消費電力状態への遷移の時間間隔は学習によって短くなる。逆に、重要な被写体が少ないと判断されている間、前記時間間隔は学習によって長くなる。
<像ブレ補正>
像ブレ補正に対する学習について説明する。図9のS902で像ブレ補正量が算出され、像ブレ補正量に基づいてS905でパンニングおよびチルティングの駆動により行われる。像ブレ補正では、ユーザの揺れの特徴に合わせた補正を行うための学習が行われる。撮影画像に対して、例えばPSF(Point Spread Function)を用いることにより、ブレの方向および大きさを推定することが可能である。図9のS912の学習用情報生成では、推定されたブレの方向および大きさの情報が画像データに対して付加される。
像ブレ補正に対する学習について説明する。図9のS902で像ブレ補正量が算出され、像ブレ補正量に基づいてS905でパンニングおよびチルティングの駆動により行われる。像ブレ補正では、ユーザの揺れの特徴に合わせた補正を行うための学習が行われる。撮影画像に対して、例えばPSF(Point Spread Function)を用いることにより、ブレの方向および大きさを推定することが可能である。図9のS912の学習用情報生成では、推定されたブレの方向および大きさの情報が画像データに対して付加される。
図7のS716での学習モード処理内では、所定の入力情報、および出力(推定されたブレの方向と大きさ)について像ブレ補正用のNNの重みを学習させる処理が行われる。所定の入力情報とは、例えば撮影時の各検出情報(撮影前の所定時間における画像の動きベクトル情報、検出した被写体(人や物体)の動き情報、振動情報(ジャイロ出力、加速度出力、カメラ状態)である。さらに環境情報(温度、気圧、照度、湿度)、音情報(音シーン判定、特定音声検出、音レベル変化)、時間情報(起動からの経過時間、前回撮影時からの経過時間)、場所情報(GPS位置情報、位置移動変化量)などを入力に加えてもよい。
図9のS902での像ブレ補正量の算出時には、上記の各検出情報をニューラルネットワークに入力することにより、その瞬間に撮影したときのブレの大きさを推定することができる。推定されたブレの大きさが閾値より大きいときには、シャッター速度を速くするなどの制御が可能となる。また、推定されたブレの大きさが閾値より大きい場合には像ブレ画像が取得される可能性があるので、その撮影を禁止する方法などがある。
また、パンニングやチルティングの駆動角度には制限があるので、駆動端への到達後には、それ以上の像ブレ補正を行うことができない。本実施形態では撮影時のブレの大きさと方向を推定することにより、露光中の像ブレを補正するためのパンニングやチルティングの駆動に必要な範囲の推定が可能である。パンニングやチルティングの駆動角度に関し、露光中の可動範囲に余裕がない場合には、像ブレ補正量を算出するフィルタのカットオフ周波数を大きくして、駆動角度が可動範囲を超えないように設定する処理が実行される。これにより、大きなブレを抑制可能である。また駆動角度が可動範囲を超えることが予測される場合には、露光直前に駆動角度を変更し、駆動角度が可動範囲を超える方向とは逆の方向への回転を行ってして露光を開始する。これにより、可動範囲を確保しつつ、像ブレが抑制された撮影を行うことができる。ユーザの撮影時の特徴や使い方に合わせて像ブレ補正に係る学習を行うことにより、撮影画像の像ブレを抑制し、または防止できる。
本実施形態の撮影方法の判定において、流し撮りの判定処理が行われてもよい。流し撮りでは、動体である被写体に対して像ブレがなく、動いていない背景に対して画像が流れるように撮影が行われる。流し撮りを行うか否かの判定処理では、撮影前までの検出情報から、被写体をブレなく撮影するためのパンニングおよびチルティングの駆動速度が推定されて、被写体の像ブレ補正が行われる。この時、上記の各検出情報を既に学習させているニューラルネットワークに対する情報の入力によって、駆動速度を推定することができる。画像を複数のブロックに分割して、各ブロックのPSFを推定することにより、主被写体が位置するブロックでのブレの方向および大きさが推定される。それらの情報に基づいて学習が行われる。
また、ユーザが選択した画像の情報から背景流し量を学習することもできる。その場合、主被写体が位置しないブロック(画像領域)でのブレの大きさが推定され、その情報に基づいてユーザの好みを学習することができる。学習された好みの背景流し量に基づいて、撮影時のシャッター速度を設定することにより、ユーザの好みに合った流し撮り効果が得られる撮影を自動で行うことができる。
次に、学習方法について説明する。学習方法としては、「カメラ内の学習」と「通信機器などの外部装置との連携による学習」がある。まず、前者の学習方法について説明する。本実施形態におけるカメラ内の学習には、以下の方法がある。
(1)手動撮影時の検出情報による学習
図9のS907~S913で説明したとおり、カメラ101は手動撮影と自動撮影を行うことができる。S907で手動撮影指示があった場合、S912において、撮影画像には手動で撮影された画像であることを示す情報が付加される。また、S916において自動撮影ONと判定されて撮影された場合、S912において、撮影画像には自動で撮影された画像であることを示す情報が付加される。手動撮影の場合、ユーザの好みの被写体、好みのシーン、好みの場所や時間間隔に基づいて撮影が行われた可能性が非常に高い。よって、手動撮影時に得られた各特徴データや撮影画像の学習データに基づいて学習が行われる。また、手動撮影時の検出情報から、撮影画像における特徴量の抽出や個人認証の登録、個人ごとの表情の登録、人の組み合わせの登録に関して学習が行われる。また、被写体探索時の検出情報からは、例えば、個人登録された被写体の表情から、その近くの人や物体の重要度を変更する学習が行われる。
図9のS907~S913で説明したとおり、カメラ101は手動撮影と自動撮影を行うことができる。S907で手動撮影指示があった場合、S912において、撮影画像には手動で撮影された画像であることを示す情報が付加される。また、S916において自動撮影ONと判定されて撮影された場合、S912において、撮影画像には自動で撮影された画像であることを示す情報が付加される。手動撮影の場合、ユーザの好みの被写体、好みのシーン、好みの場所や時間間隔に基づいて撮影が行われた可能性が非常に高い。よって、手動撮影時に得られた各特徴データや撮影画像の学習データに基づいて学習が行われる。また、手動撮影時の検出情報から、撮影画像における特徴量の抽出や個人認証の登録、個人ごとの表情の登録、人の組み合わせの登録に関して学習が行われる。また、被写体探索時の検出情報からは、例えば、個人登録された被写体の表情から、その近くの人や物体の重要度を変更する学習が行われる。
(2)被写体探索時の検出情報による学習
被写体探索中には、個人認証登録されている被写体が、どんな人物、物体、シーンと同時に写っているかが判定され、同時に画角内に被写体が写っている時間比率が算出される。例えば、個人認証登録された被写体の人物Aが、個人認証登録された被写体の人物Bと同時に写っている時間比率が計算される。人物Aと人物Bが画角内に入る場合には、自動撮影判定の点数(スコア)が高くなるように、各種検出情報が学習データとして保存されて、学習モード処理(図7:S716)で学習が行われる。他の例では、個人認証登録された被写体の人物Aが、一般物体認識により判定された被写体である「猫」と同時に写っている時間比率が計算される。人物Aと「猫」が画角内に入る場合には、自動撮影判定の点数が高くなるように、各種検出情報が学習データとして保存されて、学習モード処理(図7:S716)で学習が行われる。
被写体探索中には、個人認証登録されている被写体が、どんな人物、物体、シーンと同時に写っているかが判定され、同時に画角内に被写体が写っている時間比率が算出される。例えば、個人認証登録された被写体の人物Aが、個人認証登録された被写体の人物Bと同時に写っている時間比率が計算される。人物Aと人物Bが画角内に入る場合には、自動撮影判定の点数(スコア)が高くなるように、各種検出情報が学習データとして保存されて、学習モード処理(図7:S716)で学習が行われる。他の例では、個人認証登録された被写体の人物Aが、一般物体認識により判定された被写体である「猫」と同時に写っている時間比率が計算される。人物Aと「猫」が画角内に入る場合には、自動撮影判定の点数が高くなるように、各種検出情報が学習データとして保存されて、学習モード処理(図7:S716)で学習が行われる。
また、個人認証登録された被写体の人物Aの高い笑顔度が検出された場合や、「喜び」、「驚き」などの表情が検出された場合、同時に写っている被写体は重要であると学習される。あるいは、人物Aにて「怒り」、「真顔」などの表情が検出された場合、同時に写っている被写体は重要である可能性が低いと判断され、学習は行われない。
次に、本実施形態における外部装置との連携による、以下の学習について説明する。
(1)外部装置で画像を取得したことによる学習。
(2)外部装置を介して画像に判定値を入力することによる学習。
(3)外部装置内に保存されている画像を解析することによる学習。
(4)外部装置でSNS(Social Networking Service)のサーバにアップロードされた情報からの学習。
(5)外部装置でカメラパラメータを変更することによる学習。
(6)外部装置で画像が手動編集された情報からの学習。
(1)外部装置で画像を取得したことによる学習。
(2)外部装置を介して画像に判定値を入力することによる学習。
(3)外部装置内に保存されている画像を解析することによる学習。
(4)外部装置でSNS(Social Networking Service)のサーバにアップロードされた情報からの学習。
(5)外部装置でカメラパラメータを変更することによる学習。
(6)外部装置で画像が手動編集された情報からの学習。
付与番号に沿って順に説明を行う。
<外部装置で画像を取得したことによる学習>
図3で説明したとおり、カメラ101と外部装置301は、第1および第2の通信302,303を行う通信手段を有する。主に第1の通信302によって画像データの送受信が行われ、外部装置301内の専用のアプリケーションを介して、カメラ101内の画像を外部装置301に送信することができる。また、カメラ101内に保存されている画像データのサムネイル画像は、外部装置301内の専用のアプリケーションを用いて、閲覧可能である。ユーザは、サムネイル画像の中から、自分が気に入った画像を選んで確認することや、画像取得指示の操作を行うことで外部装置301に画像データを送信させることができる。ユーザが画像を選んで取得された画像は、ユーザの好みの画像である可能性が非常に高い。よって取得された画像は、学習すべき画像であると判定される。取得された画像の学習情報に基づいて、ユーザの好みの各種学習を行うことができる。
図3で説明したとおり、カメラ101と外部装置301は、第1および第2の通信302,303を行う通信手段を有する。主に第1の通信302によって画像データの送受信が行われ、外部装置301内の専用のアプリケーションを介して、カメラ101内の画像を外部装置301に送信することができる。また、カメラ101内に保存されている画像データのサムネイル画像は、外部装置301内の専用のアプリケーションを用いて、閲覧可能である。ユーザは、サムネイル画像の中から、自分が気に入った画像を選んで確認することや、画像取得指示の操作を行うことで外部装置301に画像データを送信させることができる。ユーザが画像を選んで取得された画像は、ユーザの好みの画像である可能性が非常に高い。よって取得された画像は、学習すべき画像であると判定される。取得された画像の学習情報に基づいて、ユーザの好みの各種学習を行うことができる。
図14を参照して、操作例について説明する。図14は、外部装置301の専用のアプリケーションを用いて、ユーザがカメラ101内の画像の閲覧を行う例を説明する図である。表示部407にはカメラ内に保存されている画像データのサムネイル画像1604~1609が表示される。ユーザは自分が気に入った画像を選択して取得することができる。ボタン1601~1603は表示方法を変更するときに操作され、表示方法変更部を構成する。
第1のボタン1601が押下されると日時優先表示モードに変更され、カメラ101内の画像の撮影日時の順番で表示部407に画像が表示される。例えば、サムネイル画像1604で示される位置には日時の新しい画像が表示され、サムネイル画像1609で示される位置には日時の古い画像が表示される。また第2のボタン1602が押下されると、おすすめ画像優先表示モードに変更される。図9のS912で演算された各画像に対するユーザの好みを判定したスコアに基づいて、カメラ101内の画像が、スコアの高い順番で表示部407に表示される。例えば、サムネイル画像1604で示される位置にはスコアの高い画像が表示され、サムネイル画像1609で示される位置にはスコアの低い画像が表示される。またユーザが第3のボタン1603を押下すると、人物や物体の被写体を指定でき、続いて特定の人物や物体の被写体を指定すると特定の被写体のみを表示することもできる。
ボタン1601~1603は同時に設定をONすることもできる。例えばすべての設定がONされている場合、指定された被写体のみを表示し、且つ、撮影日時が新しい画像が優先され、且つ、スコアの高い画像が優先されて表示される。このように、撮影画像に対してもユーザの好みが学習されているので、撮影された大量の画像の中から簡単な確認作業でユーザの好みの画像のみを抽出することが可能である。
<外部装置を介して画像に判定値を入力することによる学習>
カメラ101内に保存されている画像の閲覧に関し、ユーザは各画像に対して点数付けを行うことができる。ユーザが好みと思った画像に対して高い点数(例えば5点)を付けたり、好みでないと思った画像に対して低い点数(例えば1点)を付けたりすることができる。ユーザ操作に応じてカメラが画像の判定値を学習していく構成である。各画像に対する点数は、カメラ内で学習情報と共に再学習に使用される。指定した画像情報からの特徴データを入力にした、ニューラルネットワークの出力は、ユーザが指定した点数に近づくように学習される。
カメラ101内に保存されている画像の閲覧に関し、ユーザは各画像に対して点数付けを行うことができる。ユーザが好みと思った画像に対して高い点数(例えば5点)を付けたり、好みでないと思った画像に対して低い点数(例えば1点)を付けたりすることができる。ユーザ操作に応じてカメラが画像の判定値を学習していく構成である。各画像に対する点数は、カメラ内で学習情報と共に再学習に使用される。指定した画像情報からの特徴データを入力にした、ニューラルネットワークの出力は、ユーザが指定した点数に近づくように学習される。
外部装置301を介して、撮影済み画像にユーザが判定値を入力する構成の他に、ユーザがカメラ101を操作して、画像に対して判定値を直接入力する構成がある。その場合、例えば、カメラ101はタッチパネルディスプレイを備える。ユーザはタッチパネルディスプレイの画面表示部に表示されたGUI(Graphical User Interface)ボタンを操作して、撮影済み画像を表示するモードに設定する。そして、ユーザが撮影済み画像を確認しながら、各画像に対して判定値を入力することにより、上記と同様の学習を行うことができる。
<外部装置内に保存されている画像を解析することによる学習>
外部装置301が有する記憶部404には、カメラ101で撮影された画像以外の画像も記録される。外部装置301内に保存されている画像は、ユーザが閲覧し易く、公衆無線制御部406を介して、共有サーバに画像をアップロードすることも容易であるため、ユーザの好みの画像が多く含まれる可能性が非常に高い。
外部装置301が有する記憶部404には、カメラ101で撮影された画像以外の画像も記録される。外部装置301内に保存されている画像は、ユーザが閲覧し易く、公衆無線制御部406を介して、共有サーバに画像をアップロードすることも容易であるため、ユーザの好みの画像が多く含まれる可能性が非常に高い。
外部装置301の制御部411は、専用のアプリケーションを用いて、記憶部404に保存されている画像を、カメラ101内の学習処理部219と同等の能力で処理可能であるものとする。処理された学習用データをカメラ101に通信することにより、学習が行われる。あるいは、カメラ101に学習させたい画像やデータを送信して、カメラ101内で学習を行う構成にしてもよい。また、専用のアプリケーションを用いて、記憶部404に保存されている画像の中から、学習させたい画像をユーザが選択して学習する構成にすることもできる。
<外部装置でSNSのサーバにアップロードされた情報からの学習>
人と人の繋がりに主眼をおいた社会的なネットワークを構築できるサービスやウェブサイトであるソーシャル・ネットワーキング・サービス(SNS)における情報を学習に使用する方法について説明する。画像をSNSにアップロードする際に、外部装置301から画像に関するタグを入力した上で、画像と共に送信する技術がある。また、他のユーザがアップロードした画像に対して好き嫌いの情報を入力する技術もある。他のユーザがアップロードした画像が、外部装置301を所有するユーザの好みの写真であるかどうかも判定できる。
人と人の繋がりに主眼をおいた社会的なネットワークを構築できるサービスやウェブサイトであるソーシャル・ネットワーキング・サービス(SNS)における情報を学習に使用する方法について説明する。画像をSNSにアップロードする際に、外部装置301から画像に関するタグを入力した上で、画像と共に送信する技術がある。また、他のユーザがアップロードした画像に対して好き嫌いの情報を入力する技術もある。他のユーザがアップロードした画像が、外部装置301を所有するユーザの好みの写真であるかどうかも判定できる。
外部装置301内にダウンロードされた専用のSNSアプリケーションで、ユーザが自らアップロードした画像と、その画像についての情報を取得することができる。また、ユーザが他のユーザがアップロードした画像に対して好きか否かのデータを入力することにより、ユーザの好みの画像やタグ情報を取得することもできる。それらの画像やタグ情報を解析して、カメラ101内で学習が行われる。
外部装置301の制御部411は、ユーザがアップロードした画像や、ユーザが好きと判定した画像を取得し、カメラ101内の学習処理部219と同等の能力で処理が可能である。処理された学習用データをカメラ101に通信することで学習が行われる。あるいは、カメラ101に学習させたい画像データを送信してカメラ101内で学習する構成にしてもよい。
タグ情報に設定された被写体情報(例えば、犬、猫などの物体情報、ビーチなどのシーン情報、スマイルなどの表情情報など)から、ユーザが好みであろう被写体情報を推定可能である。ニューラルネットワークに入力する検出すべき被写体として登録することによる学習が行われる。また、SNSでのタグ情報(画像フィルタ情報や被写体情報)の統計値から、世の中で現在流行している画像情報を推定し、カメラ101内で学習可能な構成にすることもできる。
<外部装置でカメラパラメータを変更することによる学習>
カメラ101内に現在設定されている学習パラメータ(NNの重みや、NNに入力する被写体の選択など)を外部装置301に送信して、外部装置301の記憶部404に保存することができる。また、外部装置301内の専用のアプリケーションを用いて、専用のサーバにセットされた学習パラメータが公衆無線制御部406を介して取得される。これをカメラ101内の学習パラメータに設定することもできる。ある時点でのパラメータを外部装置301に保存しておいて、カメラ101に設定することで、学習パラメータを戻すこともできる。また、他のユーザが持つ学習パラメータは専用サーバを介して取得されて、所有者自身のカメラ101に設定することもできる。
カメラ101内に現在設定されている学習パラメータ(NNの重みや、NNに入力する被写体の選択など)を外部装置301に送信して、外部装置301の記憶部404に保存することができる。また、外部装置301内の専用のアプリケーションを用いて、専用のサーバにセットされた学習パラメータが公衆無線制御部406を介して取得される。これをカメラ101内の学習パラメータに設定することもできる。ある時点でのパラメータを外部装置301に保存しておいて、カメラ101に設定することで、学習パラメータを戻すこともできる。また、他のユーザが持つ学習パラメータは専用サーバを介して取得されて、所有者自身のカメラ101に設定することもできる。
また、外部装置301の専用のアプリケーションを用いて、ユーザが登録した音声コマンドや認証登録、ジェスチャーを登録できる構成としてもよいし、重要な場所を登録してもよい。これらの情報は、撮影モード処理(図9)で説明した撮影トリガーや自動撮影判定の入力データとして扱われる。また、撮影頻度や起動間隔、静止画と動画の割合や好みの画像などを設定することができる構成とし、前記の低消費電力モード制御で説明した起動間隔などの設定が行われる構成としてもよい。
<外部装置で画像が手動編集された情報からの学習>
外部装置301の専用のアプリケーションにより、ユーザの操作にしたがって手動で編集できる機能を実現し、編集作業の内容を学習にフィードバックすることもできる。例えば、画像効果付与(トリミング処理、回転処理、スライド、ズーム、フェード、色変換フィルタ効果、時間、静止画動画比率、BGM)の編集が可能である。画像の学習情報に対して、手動で編集された画像効果付与が判定されるように、自動編集のニューラルネットワークの学習が行われる。
外部装置301の専用のアプリケーションにより、ユーザの操作にしたがって手動で編集できる機能を実現し、編集作業の内容を学習にフィードバックすることもできる。例えば、画像効果付与(トリミング処理、回転処理、スライド、ズーム、フェード、色変換フィルタ効果、時間、静止画動画比率、BGM)の編集が可能である。画像の学習情報に対して、手動で編集された画像効果付与が判定されるように、自動編集のニューラルネットワークの学習が行われる。
次に、学習処理シーケンスについて説明する。図7のS704のモード設定判定において、学習処理を行うべきか否かが判定される。学習処理を行うべきであると判定された場合、S716の学習モード処理が実行される。学習モードの判定条件について説明する。学習モードに移行するか否かの判定は、前回の学習処理が行われた時点からの経過時間と、学習に使用できる情報の数、通信機器を介して学習処理の指示があったかなどの情報に基づいて行われる。図15を参照して、学習モード判定処理について説明する。
図15は、図7のS704(モード設定判定処理)内で実行される、学習モードに移行すべきか否かの判定処理を説明するフローチャートである。S704のモード設定判定処理内で学習モード判定の開始指示がなされると、図15の処理が開始する。S1401では、外部装置301からの登録指示があるか否かについて判定される。この登録指示は、上記の<外部装置で画像を取得したことによる学習>、<外部装置を介して画像に判定値を入力することによる学習>、<外部装置内に保存されている画像を解析することによる学習>などの、学習するための登録指示である。
S1401で、外部装置301からの登録指示があったと判定された場合、S1408の処理に進む。S1408では学習モード判定のフラグがTRUEに設定され、S716の処理を行うように設定されてから、学習モード判定処理を終了する。また、S1401で外部装置301からの登録指示がないと判定された場合には、S1402の処理に進む。
S1402では、外部装置301からの学習指示があるか否かについて判定される。この学習指示は、<外部装置でカメラパラメータを変更することによる学習>のように、学習パラメータをセットする指示である。S1402で外部装置301からの学習指示があったと判定された場合、S1408の処理に進む。また、S1402で外部装置301からの学習指示がないと判定された場合、S1403の処理に進む。
S1403では、前回の学習処理(NNの重みの再計算)が行われた時点からの経過時間(TimeNと記す)が取得される。そしてS1404に進み、学習する新規のデータ数(DNと記す)が取得される。データ数DNは、前回の学習処理が行われた時点からの経過時間TimeNの間で、学習するように指定された画像の数に相当する。
次にS1405に進み、経過時間TimeNに基づき、学習モードに移行するか否かを判定する閾値DTが演算される。閾値DTの値が小さいほど学習モードに移行しやすくなるように設定される。例えば、TimeNが所定値よりも小さい場合の閾値DTの値をDTaと表記し、TimeNが所定値よりも大きい場合の閾値DTの値をDTbと表記する。DTaはDTbよりも大きく設定されており、時間の経過とともに、閾値が小さくなるように設定されている。これにより、学習データが少ない場合であっても、経過時間が長いと学習モードに移行し易くなり、再度の学習が行われる。つまり使用時間に応じてカメラが学習モードへの移行し易さおよび移行し難さの設定変更が行われる。
S1405の処理後、S1406に進み、学習するデータ数DNが、閾値DTよりも大きいか否かについて判定される。データ数DNが閾値DTよりも大きいと判定された場合、S1407の処理に進み、データ数DNが閾値DT以下であると判定された場合には、S1409の処理に進む。S1407ではデータ数DNがゼロに設定される。その後、S1408の処理が実行されてから、学習モード判定処理を終了する。
S1409に進む場合、外部装置301からの登録指示も学習指示もなく、且つ学習データ数DNが閾値DT以下であるので、学習モード判定のフラグがFALSEに設定される。S716の処理を行わないように設定されてから、学習モード判定処理を終了する。
次に、学習モード処理(図7:S716)内の処理について説明する。図16は学習モード処理の例を示すフローチャートである。図7のS715で学習モードであると判定され、S716に進むと、図16の処理が開始する。S1501では、外部装置301からの登録指示があるか否かについて判定される。S1501で、外部装置301からの登録指示があったと判定された場合、S1502の処理に進む。また、S1501で外部装置301からの登録指示がないと判定された場合には、S1504の処理に進む。
S1502では、各種登録処理が実行される。各種登録は、ニューラルネットワークに入力する特徴の登録であり、例えば顔認証の登録、一般物体認識の登録、音情報の登録、場所情報の登録などである。登録処理の終了後にS1503の処理に進む。S1503では、S1502で登録された情報から、ニューラルネットワークへ入力する要素を変更する処理が行われる。S1503の処理を終了すると、S1507の処理に進む。
S1504では、外部装置301からの学習指示があるか否かについて判定される。外部装置301からの学習指示があったと判定された場合、S1505の処理に進み、当該学習指示がないと判定された場合には、S1506の処理に進む。
S1505では、外部装置301から通信された学習パラメータが各判定器(NNの重みなど)に設定された後、S1507の処理に進む。また、S1506では学習(NNの重みの再計算)が行われる。S1506の処理に遷移する場合は、図15を用いて説明したように、データ数DNが閾値DTを超えていて、各判定器の再学習を行う場合である。誤差逆伝搬法、勾配降下法などを使った再学習によって、NNの重みが再計算されることで、各判定器のパラメータが変更される。学習パラメータが設定されると、S1507の処理に進む。
S1507で、ファイル内の画像に対する再スコア付けの処理が実行される。本実施形態では、学習結果に基づいて記録媒体221のファイル内に保存されている全ての撮影画像にスコアを付けておき、付けられたスコアに応じて、自動編集や自動ファイル削除を行う構成となっている。よって、再学習や外部装置からの学習パラメータのセットが行われた場合には、撮影済み画像のスコアについても更新を行う必要がある。S1507では、ファイル内に保存されている撮影画像に対して新たなスコアを付ける再計算が行われ、処理が終了すると学習モード処理を終了する。
以上、ユーザが好むと推定されるシーンを抽出し、その特徴を学習して自動撮影や自動編集といったカメラ動作に反映させることにより、ユーザの好みの映像を提案する方法を説明した。本発明の実施形態はこの用途に限定されるものではない。例えば以下のように、あえてユーザ自身の好みとは異なる映像を提案する用途への適用も可能である。
<好みを学習させたニューラルネットワークを用いる方法>
上記に説明した方法により、ユーザの好みの学習が行われる。そして、図9のS908において自動撮影判定処理が実行される。NNの出力値が、教師データであるユーザの好みとは異なることを示す値であるときに、自動撮影が行われる。例えば、ユーザの好む画像を教師画像とし、教師画像と類似する特徴を示すときに高い値が出力されように学習が行われた場合を想定する。この場合、逆に出力値が所定の閾値より低いことを条件として自動撮影が行われる。同様に、被写体探索処理や自動編集処理においても、NNの出力値が、教師データであるユーザの好みとは異なることを示す値となる処理が実行される。
上記に説明した方法により、ユーザの好みの学習が行われる。そして、図9のS908において自動撮影判定処理が実行される。NNの出力値が、教師データであるユーザの好みとは異なることを示す値であるときに、自動撮影が行われる。例えば、ユーザの好む画像を教師画像とし、教師画像と類似する特徴を示すときに高い値が出力されように学習が行われた場合を想定する。この場合、逆に出力値が所定の閾値より低いことを条件として自動撮影が行われる。同様に、被写体探索処理や自動編集処理においても、NNの出力値が、教師データであるユーザの好みとは異なることを示す値となる処理が実行される。
<好みとは異なる状況を学習させたニューラルネットワークを用いる方法>
学習処理の時点で、ユーザの好みとは異なる状況を教師データとして学習する処理が実行される。前記の例では、手動で撮影した画像はユーザが好んで撮影したシーンであるとして、これを教師データとする学習方法について説明した。これに対し、手動撮影した画像は教師データとして使用せず、所定時間以上に亘って手動撮影が行われなかったシーンを教師データとして追加する処理が行われる。あるいは、教師データの中に手動撮影した画像と特徴が類似するシーンのデータがある場合、このデータを教師データから削除する処理が行われる。また、外部装置で取得された画像と特徴が異なる画像を教師データに追加する処理や、取得された画像と特徴が似た画像を教師データから削除する処理が行われる。このようにすることで、教師データには、ユーザの好みと異なるデータが集積されるので、学習の結果、NNはユーザの好みと異なる状況を判別することができるようになる。自動撮影ではそのNNの出力値に応じて撮影が行われるので、ユーザの好みとは異なるシーンを撮影することができる。
学習処理の時点で、ユーザの好みとは異なる状況を教師データとして学習する処理が実行される。前記の例では、手動で撮影した画像はユーザが好んで撮影したシーンであるとして、これを教師データとする学習方法について説明した。これに対し、手動撮影した画像は教師データとして使用せず、所定時間以上に亘って手動撮影が行われなかったシーンを教師データとして追加する処理が行われる。あるいは、教師データの中に手動撮影した画像と特徴が類似するシーンのデータがある場合、このデータを教師データから削除する処理が行われる。また、外部装置で取得された画像と特徴が異なる画像を教師データに追加する処理や、取得された画像と特徴が似た画像を教師データから削除する処理が行われる。このようにすることで、教師データには、ユーザの好みと異なるデータが集積されるので、学習の結果、NNはユーザの好みと異なる状況を判別することができるようになる。自動撮影ではそのNNの出力値に応じて撮影が行われるので、ユーザの好みとは異なるシーンを撮影することができる。
あえてユーザの好みとは異なる映像を提案する方法により、ユーザが手動で撮影をしないであろうシーンが撮影され、撮り逃し回数を減少させることができる。また、ユーザ自身の発想にないシーンでの撮影を提案することにより、ユーザへの気付きを促したり、嗜好の幅を広げたりする効果を奏する。
上記の方法を組み合わせることにより、ユーザの好みと多少似てはいるが一部では違う状況の提案を行うことや、ユーザの好みに対する適合度合いを調節することも容易である。ユーザの好みに対する適合度合いについては、モード設定や、各種センサの状態、検出情報の状態に応じて変更可能である。
本実施形態においては、カメラ101内で学習する構成について説明した。一方で、外部装置301が学習機能を有する場合には、学習に必要なデータが外部装置301に送信されて、外部装置301でのみ学習が実行される。このような構成でも上記と同様の学習効果を実現可能である。例えば、<外部装置でカメラパラメータを変更することによる学習>で説明したように、外部装置301が学習したNNの重みなどのパラメータを、カメラ101に通信により設定することで学習を行う構成にしてもよい。
その他にはカメラ101および外部装置301が、それぞれ学習機能を有する実施形態がある。例えばカメラ101内で学習モード処理(図7:S716)が行われるタイミングで外部装置301が持つ学習情報がカメラ101に送信されて、学習パラメータのマージが行われ、マージ後のパラメータを使用して学習が行われる。
本実施形態によれば、単一の撮像装置を用いて自動撮影と自動認証登録を行う場合において、自動撮影のための撮影と自動認証登録のための撮影との両立が可能となる。特に、自動認証登録によって自動撮影の精度を向上しつつ、自動撮影の機会を阻害することのない制御を実現できる。
以下、図17乃至図35を参照して、撮影対象となる被写体人物を判定して追尾制御を行う実施例について説明する。
自動撮影において、例えば、ユーザが主要な人物の特徴情報をカメラに登録し、登録された人物に対して、優先的に追尾および撮影を行うように指定することで、その人物(優先人物)を中心とした撮影が可能となる。優先人物が検出されなかった場合、あるいは優先人物が検出されたにも関わらず優先人物として認識されなかった場合などにおいても、できるだけ主要な人物が撮影されることが望まれる。また、優先人物が検出されている場合であっても、家族や友人といった別の主要な人物が同時に検出されていた場合には、それらの人物も画角内に収め、無関係の人物はなるべく画角内に入らないような制御が望まれる。
被写体の識別技術として、フレーム単位で画像データを解析して検出された被写体を識別し、識別された被写体の出現頻度を抽出し、出現頻度に基づいて被写体の内から主要被写体を選択する技術がある。この技術では出現頻度の多い順に特定数の被写体が必ず選別される。そのため、人物の絶対数が少ない場合などにおいては、本来の主要人物よりも出現頻度が大幅に少なかったとしても主要人物と判定される可能性がある。また、被写体と撮像装置との間の距離などが考慮されていないので、撮像装置から遠くにいる無関係の人物までもが主要人物に含まれてしまう可能性がある。
以下では、ユーザが撮影指示を与えることなく定期的および継続的に撮影を行う自動撮影カメラにおいて、主要な人物を撮影画角内に収めつつ、無関係の人物が撮影画角内に収まる頻度を低減するための技術を説明する。具体的には、検出された人物の顔サイズ、顔位置、顔信頼度および検出頻度、ユーザ設定に基づき、人物の撮影優先度を判定し、各人物の撮影優先度に応じて撮影対象とする人物を判定する例を示す。撮影優先度の高い人物が検出された場合、その人物および撮影優先度の近い人物を撮影対象として決定し、撮影優先度が一定以上離れた人物を撮影の対象外とする制御が行われる。撮影対象を選別することで、ユーザおよび撮影優先度がユーザに近い人物が撮影される可能性を増やし、無関係の人物が撮影される可能性を低減することができる。
図17は、鏡筒102、チルト回転ユニット104、パン回転ユニット105、制御ボックス1100で構成される撮像装置を示すブロック図である。制御ボックス1100は、鏡筒102に含まれる撮影レンズ群および、チルト回転ユニット104、パン回転ユニット105を制御するためのマイクロコンピュータなどを備える。制御ボックス1100は撮像装置の固定部103内に配置されている。鏡筒102のパンニング駆動やチルティング駆動が行われても制御ボックス1100は固定されている。
鏡筒102は、撮像光学系を構成するレンズユニット1021と、撮像素子を有する撮像部1022とを備える。鏡筒102は、チルト回転ユニット104、パン回転ユニット105によって、チルティング方向、パンニング方向にそれぞれ回転駆動するように制御される。レンズユニット1021は、変倍を行うズームレンズやピント調節を行うフォーカスレンズなどで構成され、制御ボックス1100内のレンズ駆動部1113によって駆動制御される。ズーム機構部はズームレンズおよび該レンズを駆動するレンズ駆動部1113により構成される。ズームレンズがレンズ駆動部1113により光軸方向に移動することにより、ズーム機能が実現される。
撮像部1022は撮像素子を有し、レンズユニット1021を構成する各レンズ群を通して入射する光を受け、その光量に応じた電荷の情報をデジタル画像データとして画像処理部1103に出力する。チルト回転ユニット104およびパン回転ユニット105は、制御ボックス1100内の鏡筒回転駆動部1112から入力される駆動指示によって鏡筒102を回転駆動する。
次に制御ボックス1100内の構成を説明する。自動撮影における撮影方向は、仮登録判定部1108、撮影対象判定部1110、駆動制御部1111、鏡筒回転駆動部1112により制御される。
画像処理部1103は、撮像部1022より出力されたデジタル画像データを取得する。取得されたデジタル画像データに対して、歪曲補正やホワイトバランス調整、色補間処理などの画像処理が適用される。適用後のデジタル画像データは画像記録部1104および被写体検出部1107に出力される。また、画像処理部1103は仮登録判定部1108からの指示に応じて、デジタル画像データを特徴情報抽出部1105に出力する。
画像記録部1104は、画像処理部1103から出力されたデジタル画像データをJPEG形式などの記録用フォーマットに変換し、記録媒体(不揮発性メモリなど)に記録する。特徴情報抽出部1105は、画像処理部1103から出力されたデジタル画像データの中央に位置する顔の画像を取得する。特徴情報抽出部1105は、取得した顔画像から特徴情報を抽出して、顔画像および特徴情報を人物情報管理部1106へ出力する。特徴情報とは、顔の目や鼻、口などの部位に位置する複数の顔特徴点を示す情報であり、検出された被写体の人物判別に用いられる。特徴情報は、顔の輪郭、顔の色情報、顔の深度情報など、顔の特徴を示す別の情報であってもよい。
人物情報管理部1106は、人物ごとに紐づけられた人物情報を記憶部に記憶して管理する処理を行う。図18を参照して、人物情報の例について説明する。人物情報は、人物ID、顔画像、特徴情報、登録状態、優先設定、名前によって構成される。人物IDは、複数の人物情報を識別するためのID(識別情報)であり、同一のIDは発行されず、1以上の値が設定される。顔画像データは、特徴情報抽出部1105より入力される顔画像のデータである。特徴情報は、特徴情報抽出部1105より入力される情報である。登録状態については、「仮登録」と「本登録」の2つの状態が定義されているものとする。「仮登録」は仮登録判定によって主要な人物の可能性があると判断された状態を示す。「本登録」は本登録判定、あるいはユーザ操作の有無によって主要な人物であると判断された状態を示す。仮登録判定および本登録判定の処理の詳細については後述する。優先設定は、ユーザ操作によって、優先的に撮影するかどうかを示す設定である。名前は、ユーザ操作によって人物ごとに付けられた名称である。
人物情報管理部1106は、特徴情報抽出部1105より顔画像および特徴情報を取得すると、新たに人物IDを発行し、該人物IDと入力された顔画像と特徴情報とを紐づけ、人物情報を新規に追加する。人物情報の新規追加時における登録状態の初期値は「仮登録」、優先設定の初期値は「無し」、名前の初期値は空欄とする。人物情報管理部1106は、本登録判定部1109より、本登録判定結果(本登録すべき人物ID)を取得すると、当該人物IDに対応する人物情報の登録状態を「本登録」に変更する。また人物情報管理部1106は、ユーザ操作によって通信部1114から人物情報(優先設定あるいは名前)の変更指示が入力された場合、指示に従い人物情報を変更する。また人物情報管理部1106は、登録状態が「仮登録」である人物に対して、優先設定または名前のいずれかの変更があった場合、主要な人物であると判断し、当該人物の登録状態を「本登録」に変更する。尚、重要度判定部1514については後述する。
図19は、カメラ101と通信する携帯端末装置(外部装置)の画面例を示す模式図である。携帯端末装置は、カメラ101の通信部1114を介して人物情報を取得し、画面上に一覧表示する。図19に示す例では顔画像、名前、優先設定が画面上に表示される。名前、優先設定に関しては、ユーザからの変更が可能である。名前または優先設定が変更された場合、携帯端末装置は、人物IDに紐づけられた名前または優先設定の変更指示を、通信部1114に対して出力する。
被写体検出部1107(図17)は、画像処理部1103から入力されるデジタル画像データから被写体検出を行い、検出した被写体の情報(被写体情報)を抽出する。被写体検出部1107が人物の顔を被写体として検出する例を示す。被写体情報とは、例えば、検出された被写体の数、顔の位置、顔のサイズ、顔の向き、検出の確からしさを示す顔信頼度などである。また被写体検出部1107は人物情報管理部1106より取得した各人物の特徴情報と、検出された被写体の特徴情報とを照合して類似度を算出する。類似度が閾値以上であった場合、検出された人物の人物ID、登録状態および優先設定を被写体情報に追加する処理が実行される。被写体検出部1107は、被写体情報を仮登録判定部1108、本登録判定部1109、および撮影対象判定部1110に出力する。被写体情報の例については、図20を用いて後述する。
仮登録判定部1108は、被写体検出部1107で検出された被写体に対して、主要な人物の可能性があるかどうか、すなわち仮登録すべきかどうかを判定する。いずれかの被写体が仮登録すべき人物であると判断された場合、仮登録判定部1108は仮登録すべき人物を指定のサイズで画面中央に配置するために必要な、パンニング駆動角度、チルティング駆動角度、目標ズーム位置を算出する。算出結果に基づく指令信号は駆動制御部1111に出力される。仮登録判定処理の詳細については、図22を用いて後述する。
本登録判定部1109は、被写体検出部1107から取得される被写体情報に基づいて、ユーザと近しい人物、すなわち本登録すべき人物を判定する。いずれかの人物が本登録すべき人物であると判断された場合、本登録すべき人物の人物IDは人物情報管理部1106に出力される。本登録判定処理の詳細については、図24から図26を用いて後述する。
撮影対象判定部1110は、被写体検出部1107から取得される被写体情報に基づいて、撮影対象とする被写体を判定する。更に撮影対象判定部1110は撮影対象とすべき人物の判定結果に基づき、撮影対象とすべき人物を指定のサイズで画角内に収めるための、パンニング駆動角度、チルティング駆動角度、目標ズーム位置を算出する。算出結果に基づく指令信号は駆動制御部1111に出力される。撮影対象判定処理の詳細については、図27を用いて後述する。
駆動制御部1111は、仮登録判定部1108または撮影対象判定部1110からの指令信号を取得すると、レンズ駆動部1113および、鏡筒回転駆動部1112に制御パラメータの情報を出力する。目標ズーム位置に基づくパラメータはレンズ駆動部1113に出力される。パンニング駆動角度およびチルティング駆動角度に基づく目標位置に対応するパラメータは鏡筒回転駆動部1112に出力される。
駆動制御部1111は、仮登録判定部1108から入力があった場合、撮影対象判定部1110からの入力は参照せず、仮登録判定部1108からの入力値に基づいて各目標位置(目標ズーム位置、前記駆動角度に基づく目標位置)を決定する。鏡筒回転駆動部1112は、駆動制御部1111からの目標位置と駆動速度に基づいてチルト回転ユニット104およびパン回転ユニット105に駆動指令を出力する。レンズ駆動部1113は、レンズユニット1021を構成するズームレンズやフォーカスレンズなどを駆動するためのモーターとドライバ部を有する。レンズ駆動部1113は駆動制御部1111からの目標位置に基づいて各レンズを駆動させる。
通信部1114は、人物情報管理部1106に記憶されている人物情報を携帯端末装置などの外部装置へ送信する。また通信部1114は、外部装置からの人物情報の変更指示を受信すると、指示信号を人物情報管理部1106へ出力する。本実施例にて外部装置からの変更指示は人物情報の優先設定および名前の変更指示であるものとする。
図20は、画像データ例および被写体検出部1107にて取得される被写体情報の例を示す図である。図20(A)は、被写体検出部1107に入力される画像データの一例を示す模式図である。例えば、画像データは水平解像度960ピクセル、垂直解像度540ピクセルで構成される。図20(B)は、図20(A)に示す画像のデータが被写体検出部1107に入力された場合に抽出される被写体情報の例を示す表である。例示した被写体情報は、被写体数および、各被写体の被写体ID、顔サイズ、顔位置、顔の向き、顔信頼度、人物ID、登録状態、優先設定によって構成される。
被写体数は検出された顔の数を示す。図20(B)の例では、被写体数は4であり、4被写体分の顔のサイズ、顔の位置、顔の向き、顔信頼度、人物ID、登録状態、優先設定が含まれることを示す。被写体IDは、被写体を識別するための数値であり、新たに被写体が検出されると発行される。同一の被写体IDは発行されず、被写体が検出される度に新しい値で発行される。例えば特定の被写体が一度画角の外に移動したことで検出できなくなり、その後画角内に戻ってきて再検出された場合、たとえ同じ被写体であっても新規に別の値が発行される。
顔サイズ(w,h)は、検出された顔の大きさを示す数値であって、顔の幅(w)と高さ(h)のピクセル数が入力される。本実施例では、幅と高さは同一の値であるとする。顔位置(x、y)は、撮影範囲内における検出された顔の相対位置を示す数値である。画像データの左上隅を始点(0,0)とし、画面右下隅を終点(960,540)として定義した場合の、始点から顔の中心座標までの水平ピクセル数および垂直ピクセル数が入力される。顔向きは、検出された顔の向きを示す情報であって、正面、右向き45度、右向き90度、左向き45度、左向き90度、不明のうち、いずれかの情報が入力される。顔信頼度は、検出された人物顔の確からしさを示す情報であって、0~100のいずれかの値が入力される。顔信頼度については、予め記憶されている複数の標準的な顔テンプレートの特徴情報との類似度から算出されるものとする。
人物IDは、人物情報管理部1106で管理する人物IDと同一である。被写体が検出されると、被写体検出部1107は人物情報管理部1106より取得した各人物の特徴情報と、被写体の特徴情報との類似度を算出する。類似度が閾値以上であった人物の人物IDが入力される。人物情報管理部1106より取得された、どの人物とも特徴情報が類似しなかった場合には、ID値としてゼロが入力される。登録状態および優先設定の情報は、人物情報管理部1106で管理される登録状態および優先設定の情報と同一である。人物IDがゼロではない場合、すなわち人物情報管理部1106で管理するいずれかの人物であると判断された場合に、人物情報管理部1106より取得された該当人物の登録状態および優先設定の情報が入力される。
図21を参照して、本実施例にて周期的に実行される処理を説明する。図21は、撮影および人物情報の登録、更新の全体の流れを示すフローチャートである。撮像装置の電源がONされると、撮像装置の撮像部1022は各種判定(撮影対象判定、仮登録判定および本登録判定)の判断に用いる画像データを取得するために、周期的な撮影(動画撮影)を開始する。S500で反復処理が開始する。
撮影により取得された画像データは画像処理部1103に出力され、S501では、各種画像処理を施した画像データが取得される。取得された画像データは各種判定のための画像データであるため、この画像データは画像処理部1103から被写体検出部1107に対して出力される。言い換えると、ここで取得される画像データは、ユーザが構図の調整およびシャッター操作をして撮影する撮像装置におけるライブビュー表示用の画像データに対応しており、この画像データを取得するための周期的な撮影は、ライブビュー撮影に対応する。取得された画像データを使って、制御ボックス1100が構図の調整や自動撮影タイミングの判断を行う。
次にS502で被写体検出部1107は、画像データに基づいて被写体検出を行い、被写体情報を取得する(図20(B)参照)。被写体の検出および被写体情報の取得の後、S503で本登録判定が行われる。本登録判定では、検出された被写体の情報を用いて、本登録すべき人物の判定が行われる。この判定では、人物情報管理部1106の人物情報は更新されるが、パンニング駆動、チルティング駆動、ズーム駆動は実行されない。
S504で仮登録判定が行われる。仮登録判定では、検出された被写体のうちで仮登録すべき被写体を決定し、仮登録すべき被写体の顔の位置に基づいてパンニング駆動角度とチルティング駆動角度が取得される。また、顔の位置とサイズに基づいて目標ズーム位置が取得される。仮登録判定部1108は、画像処理部1103に対して、特徴情報抽出部1105へ画像データを出力するように指示する。仮登録判定において、パンニング駆動角度、チルティング駆動角度、目標ズーム位置が取得されると、これらの情報に基づいてパンニング駆動、チルティング駆動、ズーム駆動が実行されることで、仮登録用の構図が調整される。
S504の処理後、S505に進み、仮登録用の構図調整処理の実行中であるか否かが判定される。S505にて、仮登録用の構図調整処理が実行されている場合、S506へ移行し、仮登録用の構図調整処理が実行されていない場合にはS507へ移行する。
S506で特徴情報抽出部1105は、画像データの中央に位置する被写体の特徴情報を抽出し、抽出された特徴情報を人物情報管理部1106へ出力する。またS507では、撮影対象判定が実行される。撮影対象判定部1110は、検出された被写体のうち、撮影対象とする被写体を決定する。撮影対象とする被写体の顔の位置に基づいてパンニング駆動角度とチルティング駆動角度が取得される。また、顔の位置とサイズに基づいて目標ズーム位置が取得される。撮影対象判定により、パンニング駆動角度、チルティング駆動角度、目標ズーム位置が取得されると、これらの情報に基づいてパンニング駆動、チルティング駆動、ズーム駆動が実行されることで、撮影構図が調整される。
S506、S507の後、S508に進み、反復処理の終了判定が行われる。処理を継続する場合には、S500に戻って処理を続行する。S501~S507に示す処理は、撮像部1022の撮像周期に合わせて繰り返し実行される。
<仮登録処理>
図22を参照し、図21のS504に示した仮登録判定処理について説明する。図22(A)は、仮登録判定部1108が行う仮登録判定処理を説明するフローチャートである。本処理は周期的に実行され、主要な人物の可能性があるかどうかについて判定が行われる。図22(B)は、仮登録カウントを示した表である。仮登録カウントは、被写体IDに紐づいており、仮登録カウントが50以上になった場合に、該当する被写体は仮登録の対象人物であると判定される。仮登録判定は、複数周期にわたって実行されるため、今回の周期での判定時に現在の仮登録カウントを記憶し、次回の周期において前回周期までに加算された仮登録カウントを参照して引き継ぐ処理が行われるものとする。
図22を参照し、図21のS504に示した仮登録判定処理について説明する。図22(A)は、仮登録判定部1108が行う仮登録判定処理を説明するフローチャートである。本処理は周期的に実行され、主要な人物の可能性があるかどうかについて判定が行われる。図22(B)は、仮登録カウントを示した表である。仮登録カウントは、被写体IDに紐づいており、仮登録カウントが50以上になった場合に、該当する被写体は仮登録の対象人物であると判定される。仮登録判定は、複数周期にわたって実行されるため、今回の周期での判定時に現在の仮登録カウントを記憶し、次回の周期において前回周期までに加算された仮登録カウントを参照して引き継ぐ処理が行われるものとする。
S600で検出被写体数に対応する反復処理が開始される。仮登録判定部1108は、被写体検出部1107から被写体情報を取得すると、各被写体に対し、S601~S609の処理を実行し、いずれかの被写体が仮登録対象として判定されると、S610~S613の処理を実行する。S601では未登録の判定処理が実行される。仮登録判定部1108は、被写体情報の人物IDを参照し、未登録の状態(人物IDがゼロ)であると判定した場合、S602の処理に移行させる。また人物IDの値が1以上、すなわち既に登録済であると判定された場合、次の被写体の判定処理に移行する。
S602で仮登録判定部1108は、保存しておいた前回フレームまでの仮登録カウントを参照し、同一の被写体IDの仮登録カウントが存在する場合には、その仮登録カウントを引き継ぐ。次にS603で仮登録判定部1108は、顔向きが正面であるかどうかを判定する。顔向きが正面であると判定された場合、S604の処理に進み、顔向きが正面でないと判定された場合、S607の処理に進む。
S604は、ズームワイド時の顔サイズが100~200の範囲であるか否かの判定処理である。この条件を満たす場合、S605の処理に進み、条件を満たさない場合にはS607に進む。S605は、顔信頼度が閾値80以上であるか否かの判定処理である。この条件を満たす場合、S606の処理に進み、条件を満たさない場合にはS607に進む。
S603からS605に示される全ての条件を満たす場合には、S606の処理に進む。S606で仮登録判定部1108は、ユーザに近しい主要な人物である可能性があると判断して、仮登録カウントに1を加算する(インクリメント)。他方、S603からS605に示される各条件のうち、1つでも条件が満たされない場合にはS607の処理に進む。S607で仮登録判定部1108は、対象人物が主要な人物である可能性は低いと判断して、仮登録カウントをゼロに設定する。
S606、S607の処理後、S608で仮登録判定部1108は、被写体の仮登録カウントの値を閾値50と比較する。仮登録カウントの値が50未満であると判定された場合、S609に移行する。また、仮登録カウントの値が50以上であると判定された場合には、S611に移行する。
S609で仮登録判定部1108は、仮登録カウントの値がゼロより大きいか否かを判定する。仮登録カウントの値がゼロより大きいと判定された場合、S610に移行し、条件を満たさない場合(仮登録カウントの値がゼロである)には仮登録カウントを保存せずにS614に移行する。また、S610で仮登録判定部1108は仮登録カウントを保存してから、S614の判定処理に進む。S614で反復処理の終了判定が行われ、処理を続行する場合には、S600に戻って、次の被写体の判定処理に移行する。
S611で仮登録判定部1108は、該当する被写体を主要な人物の可能性があると判断して仮登録の対象に設定する。S612で仮登録判定部1108は、仮登録対象の被写体の顔が画面中央に適切な顔サイズで配置されるようにパンニング駆動角度、チルティング駆動角度およびズーム移動位置を算出し、算出結果に基づく指令を駆動制御部1111に出力する。例えば、顔の中心位置が画面中央5%以内に収まり、且つ顔サイズが100~200となった場合に、特徴情報抽出部1105において特徴情報の取得が可能になるものとする。
本実施例では特徴情報の取得のために、撮影対象とする被写体が画面中央に配置されるように制御が行われる。これに限らず、被写体の位置を変更せずに、対象とする被写体の顔を含む画像データの一部を切り出すなどの画像処理を行って、特徴情報を抽出してもよい。
S613で仮登録判定部1108は、画像処理部1103に対し、特徴情報抽出部1105へ画像データを出力するように指示する。特徴情報抽出部1105は、入力された画像データの中央に位置する顔画像を切り出し、特徴情報を抽出して人物情報管理部1106に出力する。人物情報管理部1106は、入力された顔画像および特徴情報に基づいて人物情報を新規に追加する。S613の処理後に、一連の処理を終了する。
本実施例の撮像装置におけるズーム位置は0~100まで設定可能であるものとする。ズーム位置は、その値が小さいほどワイド側であり、その値が大きいほどテレ側であることを意味する。すなわちS604に示されるズームワイドとは、ズーム位置がゼロであって、最も画角が広い状態を意味する。撮像装置において、ズームワイド時の顔サイズが100~200であれば、被写体と撮像装置との距離が約50cm~150cmであると予測可能と判断される。つまり被写体が撮像装置に近すぎず、遠すぎない距離に位置している場合、主要な人物の可能性があると判定される。図22の例では、被写体と撮像装置との距離を顔サイズから算出する処理を説明したが、深度センサや、複眼レンズなどを使用した別の方法によって被写体までの距離を測定してもよい。
続いて、図20(B)に示す被写体情報が入力された場合の仮登録判定の具体例について説明する。尚、ここでズーム位置をゼロとする。図20(B)の被写体1、被写体2は、図22(A)のS601でそれぞれ登録済であること(人物IDがゼロではないこと)から、S602以降の処理は実行されない。
図20(B)の被写体3は、図22(A)のS601で人物IDがゼロである(未登録)ことから、S602以降の処理が実行される。図22(B)に示すように、前回周期までの被写体ID3の仮登録カウントは30とする。図22(A)のS602で、前回周期までの仮登録カウントが参照され、被写体IDが3の仮登録カウントが存在した場合、その情報の引き継ぎが行われる。図20(B)の被写体3は顔向きが正面であるので、図22(A)のS603からS604に移行する。S604ではズームワイド時の顔サイズが120であるのでS605に移行し、S605では顔信頼度が80であるのでS606に移行する。図22のS606で仮登録カウントに1が加算され、31となる。S608では仮登録カウントが50未満であるので、S609で仮登録カウントが保存された後、次の被写体の判定へと移行する。
図20(B)の被写体4は、図22(A)のS601で人物IDがゼロであることから、S602以降の処理が実行される。S602で、前回周期までの仮登録カウントが参照され、被写体IDが4の仮登録カウントが存在した場合、その情報の引き継ぎが行われる。ここでは、前回周期までの被写体IDの仮登録カウントは存在しないとする。図22(A)のS603では顔向きが左90度であるので、S607に移行し、仮登録カウントはゼロに設定される。S608では仮登録カウントが50未満であるのでS609に移行し、S609では仮登録カウントがゼロであるため、仮登録カウントは保存されずに処理を終了する。
続いて、図22(A)のS608にて仮登録カウントが50以上となり、パンニング駆動、チルティング駆動、ズーム駆動によって、仮登録の対象となる被写体を画角の中央に配置する例について説明する。図20(B)の被写体3が仮登録対象となった場合、被写体の顔位置が所定範囲となるように、パンニング駆動角度、チルティング駆動角度が算出される。所定範囲とは、被写体の顔位置が画面中央5%以内の範囲、すなわちx位置座標値が432~528の範囲でy位置座標値が513~567の範囲である。被写体3の顔サイズは100~200に収まっているので、ズーム位置の変更は行われない。
図23(A)は、図20(A)に対してパンニング位置、チルティング位置が変更された場合の画像データの例を示す図である。図23(B)は、被写体検出部1107に図23(A)に示す画像データが入力された場合に、抽出される被写体情報の例を示す表である。本実施例では、画面の中央に適切なサイズで顔を配置することで、特徴情報抽出部1105において特徴情報の取得が可能になる。仮登録判定処理においては、複数周期にわたり特定の条件を満たす未登録の人物は、主要な人物の可能性があると判断されて、人物情報管理部1106に追加される。
<本登録>
次に図24を参照し、図21のS503に示した本登録判定処理について説明する。図24(A)は、本登録判定部1109が行う本登録判定処理を説明するフローチャートである。本判定処理は仮登録判定と同様に、複数周期にわたって実行され、既に仮登録されている人物の中から、主要な人物が判定される。
次に図24を参照し、図21のS503に示した本登録判定処理について説明する。図24(A)は、本登録判定部1109が行う本登録判定処理を説明するフローチャートである。本判定処理は仮登録判定と同様に、複数周期にわたって実行され、既に仮登録されている人物の中から、主要な人物が判定される。
図24(B)は、人物IDに紐づいたカウントA、カウントB、本登録カウントを示した表である。カウントAとカウントBはそれぞれ異なる条件で加算され、カウントAの値が50以上、あるいはカウントBの値が50以上であると、本登録カウントが加算される。本登録カウントが100に到達した場合、該当する被写体は本登録の対象人物として判定される。周期ごとの判定時に現在のカウントA、カウントB、本登録カウントを記憶し、次回の周期において前回周期までに加算された各種カウントを参照して引き継ぐ処理が行われるものとする。
S1700で検出被写体数に対応する反復処理が開始される。本登録判定部1109は、被写体検出部1107から被写体情報を取得すると、各被写体に対し、図24(A)のS1701~S1707の処理を実行する。S1701で本登録判定部1109は、「仮登録」の判定を行う。被写体情報の登録状態の参照が行われ、「仮登録」であると判定された場合、S1702に移行する。「仮登録」でないと判定された場合には次の被写体の判定処理に移行する。
S1702で本登録判定部1109は、記憶しておいた前回フレームまでの各種カウントを参照し、同一の人物IDの各種カウントが存在する場合には、その各種カウントを引き継ぐ。そして本登録判定部1109は、第1の本登録カウント判定を実行し(S1703)、さらに第2の本登録カウント判定を実行する(S1704)。第1の本登録カウント判定は、人物単体の被写体情報による判定である。対象人物と撮像装置との距離および信頼度に応じてカウントAを加算し、本登録カウントを加算する処理が実行される。また、第2の本登録カウント判定は、既に主要な人物と判定されている「本登録」済み人物との関連度に基づく判定である。具体的には複数の「本登録人物」が同時に検出されており、撮像装置からの距離が同等かどうかに応じてカウントBを加算し、本登録カウントを加算する処理が実行される。尚、第1および第2の本登録カウント判定処理の詳細については後述する。
S1704の次のS1705で本登録判定部1109は、該当人物の本登録カウントの値を閾値100と比較する。本登録カウントの値が100以上であると判定された場合、S1706に移行し、本登録カウントの値が100未満であると判定された場合にはS1707に移行する。S1706で本登録判定部1109は該当人物の登録状態を「本登録」に変更するように、人物情報管理部1106に指示する。またS1707で本登録判定部1109は現在の各種カウントを保存する。S1706、S1707の後、S1708に進み、反復処理の終了判定が行われる。処理を継続する場合、S1700に戻って次の検出被写体に対する処理を続行する。
続いて、図25のフローチャートを参照し、図24のS1703(第1の本登録カウント判定)の処理について説明する。S1801で本登録判定部1109は、ズームワイド時の顔サイズが100~200の範囲内であるか否かを判定する。この条件を満たす場合、S1802に移行し、条件を満たさない場合にはS1804に移行する。
S1802で本登録判定部1109は、顔信頼度が閾値80以上であるか否かを判定する。この条件を満たす場合、S1803に移行し、条件を満たさない場合にはS1804に移行する。S1801およびS1802の各条件をすべて満たす場合、S1803に移行して、カウントAに対して、「ズームワイド時の顔サイズ/10」に相当する値を加算する処理が行われる。またS1804で本登録判定部1109は、カウントAをゼロに設定してから、処理を終了する。
S1803の次にS1805で本登録判定部1109は、カウントAの値を閾値50と比較する。カウントAの値が50以上であると判定された場合、S1806に移行し、カウントAが50未満であると判定された場合には処理を終了する。S1806で本登録判定部1109は、本登録カウントに1を加算し、S1807でカウントAをゼロに設定する。S1807の後、処理を終了する。
図26のフローチャートを参照し、図24のS1704(第2の本登録カウント判定)の処理について説明する。S1901で本登録判定部1109は、被写体情報を参照し、登録状態が「本登録」である人物、すなわち既に主要であると判断されている複数の人物が同時に検出されているかどうかを判定する。本登録人物が同時に検出されていると判定された場合、S1902へ移行する。本登録人物が同時に検出されていないと判定された場合、S1905へ移行する。
S1902で本登録判定部1109は、被写体情報の顔サイズを参照し、同時に検出されているいずれかの本登録人物と、顔サイズが近いかどうかを判定する。具体的には、例えば判定条件として被写体情報の顔サイズが「本登録人物の顔サイズ±10%」の範囲内である場合、顔サイズが近いとみなされる。S1902の条件を満たす場合、S1903に移行し、条件を満たさない場合にはS1905に移行する。
S1903で本登録判定部1109は、顔信頼度を閾値80と比較する。顔信頼度が80以上であると判定された場合、S1904へ移行し、顔信頼度が80未満であると判定された場合にはS1905に移行する。S1904で本登録判定部1109は、カウントBに対して「ズームワイド時の顔サイズ/10」に相当する値を加算する。またS1905で本登録判定部1109は、カウントBをゼロに設定してから処理を終了する。
S1904の次にS1906で本登録判定部1109は、カウントBの値を閾値50と比較する。カウントBの値が閾値50以上であると判定された場合、S1907に移行する。カウントBの値が閾値50未満であると判定された場合には処理を終了する。S1907で本登録判定部1109は、本登録カウントに1を加算し、S1908でカウントBをゼロに設定してから処理を終了する。
続いて、本登録判定部1109が、図20(B)に示す被写体情報を取得した場合の本登録判定の具体例について説明する。尚、ズーム位置をゼロとする。図20(B)の被写体1、被写体3、被写体4は、図24(A)のS1701でそれぞれ登録状態が「仮登録」ではないので、S1702以降の処理は実行されない。図20(B)の被写体2は、図24(A)のS1701で登録状態が「仮登録」であることから、S1702以降の処理が実行される。
図24(A)のS1702で、前回周期までのカウントA、カウントBおよび本登録カウントが参照され、人物IDが4の各種カウントが存在した場合、その情報の引き継ぎが行われる。図24(B)に示すように、前回周期までの人物IDが4のカウントA、カウントB、本登録カウントを、それぞれ30、40、70とする。カウントAとカウントBの各値の和が本登録カウントの値である。図24(A)のS1703で、第1の本登録カウント判定が実行される。図25のS1801ではズームワイド時の顔サイズが110であるのでS1802に移行し、S1802では顔信頼度が90であるのでS1803に移行する。図25のS1803では、ズームワイド時の顔サイズが110であることから、カウントAは11(=110/10)だけ加算されて、41(=30+11)となる。図25のS1805では、カウントAの値が閾値50未満であるので、第1の本登録カウント判定処理を終了する。
続いて、図24(A)のS1704で、第2の本登録カウント判定が実行される。図26のS1901で、被写体情報の参照が行われて、同時に検出されている被写体1の登録状態が「本登録」であることが判明する。本登録人物が同時に検出されていると判断され、S1902へ移行する。図26のS1902では、本登録人物である被写体1と、被写体2との間で顔サイズが比較される。被写体1の顔サイズが120であることから、顔サイズが120±10%すなわち、108~132である場合には、顔サイズが近いと判断される。被写体2の顔サイズは110であることから、本登録人物と顔サイズが近いと判断されてS1903へ移行する。S1903では顔信頼度が90であるので、S1904に移行する。
図26のS1904では、ズームワイド時の顔サイズが110であることから、カウントBは11(=110/10)だけ加算されて、51(=40+11)となる。図26のS1906では、カウントBが50以上であるので、S1907に移行する。S1907で本登録カウントの値70に1が加算されて71となる。S1908ではカウントBがゼロに設定されてから、第2の本登録カウント判定処理を終了する。続いて、図24(A)のS1705では、本登録カウントの値が閾値100未満であるので、S1707に移行する。人物IDが4のカウントAを41、カウントBを0、本登録カウントを71として各種カウントの保存処理が実行される。
本登録判定処理によって、撮像装置との距離が所定範囲以内であるか、あるいは既に主要な人物であると判断されている人物との距離が近い、という条件が複数周期にわたり満たし続けた仮登録人物は、主要な人物であると判断される。この判断結果に基づいて人物情報管理部1106は更新を行うことができる。
<撮影対象判定>
図27を参照し、図21のS507に示した撮影対象判定処理の詳細を説明する。図27(A)は、撮影対象判定部1110が行う処理を説明するフローチャートである。本処理は、周期ごとに実行され、検出されている人物の中から撮影対象となる人物が判定される。撮影対象判定部1110は、被写体検出部1107から被写体情報を取得すると、S1001~S1008の処理を実行し、撮影対象となる被写体を判定する。その判定結果に基づきS1009、S1010の処理にてパンニング駆動角度、チルティング駆動角度、ズーム移動位置が算出される。
図27を参照し、図21のS507に示した撮影対象判定処理の詳細を説明する。図27(A)は、撮影対象判定部1110が行う処理を説明するフローチャートである。本処理は、周期ごとに実行され、検出されている人物の中から撮影対象となる人物が判定される。撮影対象判定部1110は、被写体検出部1107から被写体情報を取得すると、S1001~S1008の処理を実行し、撮影対象となる被写体を判定する。その判定結果に基づきS1009、S1010の処理にてパンニング駆動角度、チルティング駆動角度、ズーム移動位置が算出される。
S1001で撮影対象判定部1110は、被写体情報を参照し、優先設定が「有り」の人物が検出されているかどうかを判定する。該当人物が検出されている場合、S1002へ移行し、該当人物が検出されていない場合にはS1005へ移行する。
S1002で撮影対象判定部1110は、優先設定が「有り」の人物を撮影対象人物に追加し、S1003に移行する。S1003で撮影対象判定部1110は、被写体情報を参照し、登録状態が「本登録」である人物が検出されているかどうかを判定する。該当人物が検出されている場合、S1004へ移行し、該当人物が検出されていない場合にはS1009へ移行する。S1004で撮影対象判定部1110は、登録状態が「本登録」の人物を撮影対象人物に追加し、S1009に移行する。
優先設定「有り」の人物が検出されている場合には、S1001~S1004の処理によって、優先設定「有り」の人物と登録状態が「本登録」の人物が、撮影対象人物であると判定される。S1005で撮影対象判定部1110は、被写体情報を参照し、登録状態が「本登録」である人物が検出されているかどうかを判定する。該当人物が検出されている場合、S1006へ移行し、該当人物が検出されていない場合にはS1009へ移行する。S1006で撮影対象判定部1110は、登録状態が「本登録」である人物を撮影対象人物に追加し、S1007に移行する。
S1007で撮影対象判定部1110は、被写体情報を参照し、登録状態が「仮登録」である人物が検出されているかどうかを判定する。該当人物が検出されている場合はS1008へ移行し、該当人物が検出されていない場合にはS1009へ移行する。S1008で撮影対象判定部1110は、登録状態が「仮登録」である人物を撮影対象人物に追加し、S1009に移行する。
優先設定「有り」の人物が検出されておらず、登録状態が「本登録」である人物が検出されている場合には、S1006~S1008の処理によって撮影対象の人物が判定される。つまり、登録状態が「本登録」である人物および登録状態が「仮登録」である人物が、撮影対象の人物であると判定される。
S1009で撮影対象判定部1110は、撮影対象となる人物の数を判定する。撮影対象となる人物が1人以上であると判定された場合、S1010に移行し、撮影対象となる人物の数がゼロであると判定された場合には処理を終了する。S1010で撮影対象判定部1110は、撮影対象が画角内に収まるようにパンニング駆動角度、チルティング駆動角度、およびズーム移動位置を算出し、駆動制御部1111に出力する。
図27(B)は、被写体情報の登録状態および優先設定に応じた人物の重要度を例示した表である。撮影優先度は1~4の数値で表され、1が最も撮影優先度が高く、4が最も撮影優先度が低いものとする。
・撮影優先度が1の人物は、登録状態が「本登録」で、優先設定が「有り」の人物である。
・撮影優先度が2の人物は、登録状態が「本登録」で、優先設定が「無し」の人物である。
・撮影優先度が3の人物は、登録状態が「仮登録」の人物である。
・撮影優先度が4の人物は、未登録の人物である。
・撮影優先度が1の人物は、登録状態が「本登録」で、優先設定が「有り」の人物である。
・撮影優先度が2の人物は、登録状態が「本登録」で、優先設定が「無し」の人物である。
・撮影優先度が3の人物は、登録状態が「仮登録」の人物である。
・撮影優先度が4の人物は、未登録の人物である。
図27(A)の処理によれば、撮影優先度が1の人物が検出された場合、撮影対象判定部1110は撮影優先度1~2の人物を撮影対象とし、撮影優先度3~4の人物は撮影対象としない。また、撮影優先度が1の人物が検出されず、撮影優先度が2の人物が検出された場合、撮影対象判定部1110は撮影優先度2~3の人物を撮影対象とし、撮影優先度が4の人物は撮影対象としない。さらに、撮影優先度が1または2の人物が検出されなかった場合には、どの被写体も撮影対象としないという判定結果となる。
図28は、画像データと被写体情報の例を示す図である。図28(A)は、被写体検出部1107に入力される画像データの一例を示す模式図である。図28(B)は、被写体検出部1107に、図28(A)に示す画像データが入力された場合、抽出される被写体情報の例を示す表である。図28(B)の例では、被写体数は6であり、6被写体分の被写体ID、顔のサイズ、顔の位置、顔の向き、顔信頼度、人物ID、登録状態、優先設定の情報を示す。撮影対象判定部1110が、図28(B)に示す被写体情報を取得した場合の撮影対象判定の具体例について説明する。尚、ズーム位置はゼロとする。
図27のS1001にて、図28(B)の被写体情報が参照されて、被写体2の優先設定が「有り」であることからS1002へ移行し、被写体2が撮影対象として追加される。S1003では、図28(B)の被写体情報が参照されて、被写体1の登録状態が「本登録」であることからS1004へ移行し、被写体1が撮影対象として追加される。
図27のS1009では、撮影対象人数が2であるのでS1010に移行する。S1010では、被写体1と被写体2が画角内に収まるようにパンニング駆動角度、チルティング駆動角度、ズーム移動位置が算出される。角度や位置の具体的な数値の算出方法については説明を割愛する。絶対値で指定する方法や、指定可能な駆動角度や位置の最小値を設けて、複数周期にまたがり目標の角度や位置に徐々に変化させる方法などがある。
図29は、算出されたパンニング駆動角度、チルティング駆動角度、ズーム移動位置の入力にしたがって、駆動制御部1111が各駆動部を制御した結果である画像データ例を示す模式図である。図29の例では、右側の被写体1と左側の被写体2の顔位置の重心が画面の中央部に配置され、且つそれぞれの被写体の顔サイズが150~200に収まるようなパンニング駆動、チルティング駆動、ズーム位置移動の制御が行われている。
上記の制御によって、撮影対象である、撮影優先度が高いと判断された被写体1と被写体2を画角内に収めつつ、撮影対象外である、撮影優先度が低いと判断された被写体3~6を画角の入れない撮影を行うことができる。撮影優先度が一定以上の人物が検出された場合、撮影優先度が近い人物を撮影対象とし、主要な人物から撮影優先度が離れた人物を撮影対象としない処理が実行される。その結果として、主要な人物を撮影対象としつつ、関係度の低い人物を極力撮影対象から除外した撮影を実施することができる。
次に、図17、図30乃至図34を参照して、重要度判定部1514が追加された実施例について説明する。本実施例では、撮影優先度を判断するための人物情報をさらに細分化し、各人物の検出間隔に応じて重要度を増減させることで、主要な人物の判別精度を向上させる例を示す。
図17を参照して、制御ボックス1100による処理の詳細について前記実施例との相違点を主に説明する。人物情報管理部1106は、人物ごとに紐づけられた人物情報の記憶および管理を行う。図30を用いて人物情報について以下に説明する。
図30は、重要度を含む人物情報の例を示す表である。重要度以外の項目は、前記例と同様であるため、それらの説明を省略する。重要度は1~10の10段階の数値が設定され、1が最も重要度が低く、10が最も重要度が高いとする。尚、重要度の下限値については、名前が空欄の場合に「0」であり、名前が入力されている場合に「5」であるとする。
人物情報管理部1106は、特徴情報抽出部1105より顔画像および特徴情報を取得すると、新たに人物IDを発行し、該人物IDと入力された顔画像と特徴情報とを紐づけ、人物情報を新規に追加する。人物情報の新規追加時における登録状態の初期値は「仮登録」、重要度は「0」(未設定)、優先設定の初期値は「無し」、名前の初期値は空欄とする。人物情報管理部1106は、本登録判定部1109より、本登録判定結果(本登録すべき人物ID)を取得すると、該当人物の人物IDに対応する人物情報の登録状態を「本登録」に変更し、重要度を「1」に設定する。また、ユーザ操作によって通信部1114から人物情報(優先設定の情報または名前)の変更指示が入力され場合、人物情報管理部1106は指示に従い人物情報を変更する。また人物情報管理部1106は、登録状態が「仮登録」である人物に対して、優先設定または名前のいずれかの変更があった場合、該当人物の登録状態を「本登録」に変更し、名前の変更があった場合には、重要度を「5」に設定する。
人物情報管理部1106は、重要度判定部1514より、人物IDに対する重要度の加算指示または減算指示を受けると、該当人物の人物IDに対応する人物情報の重要度の加算または減算を行う。被写体検出部1107は、画像処理部1103からのデジタル画像データから被写体検出を行い、検出された被写体の情報を抽出する。例えば、被写体検出部1107が人物の顔を被写体として検出する例について説明する。被写体の情報とは、例えば、検出された被写体の数、顔の位置、顔のサイズ、顔の向き、検出の確からしさを示す顔信頼度などである。被写体の情報の例については、図31を用いて後述する。
被写体検出部1107は、人物情報管理部1106より取得した各人物の特徴情報と、検出した被写体の特徴情報とを照合して類似度を算出する。類似度が閾値以上である場合、被写体検出部1107は検出した人物の人物ID、登録状態、重要度および優先設定を被写体の情報に追加する。被写体検出部1107は、被写体の情報を仮登録判定部1108、本登録判定部1109、撮影対象判定部1110、および重要度判定部1514に出力する。
撮影対象判定部1110は、被写体検出部1107から取得した被写体の情報に基づいて、撮影対象とする被写体を判定する。撮影対象判定部1110は更に、撮影対象とすべき人物の判定結果に基づき、撮影対象とすべき人物を指定のサイズで画角内に収めるための、パンニング駆動角度、チルティング駆動角度、目標ズーム位置を算出する。算出結果に基づく指令は駆動制御部1111に出力される。撮影対象判定処理の詳細については、図34を用いて後述する。
図31は、画像データおよび被写体情報の例を示す図である。図31(A)は、被写体検出部1107に入力される画像データの一例を示す模式図である。図31(B)は、被写体検出部1107に図31(A)に示す画像データが入力された場合、抽出される被写体情報の例を示す表である。被写体情報が、被写体数、各被写体の被写体ID、顔サイズ、顔位置、顔の向き、顔信頼度、人物ID、登録状態、重要度、優先設定によって構成される例を示す。重要度以外の項目に関しては、前記例と同様であるため、それらの説明を省略する。
重要度は、人物情報管理部1106が管理する重要度と同一である。人物IDがゼロでない場合、すなわち人物情報管理部1106が管理するいずれかの人物であると判断された場合、人物情報管理部1106より取得した該当人物の重要度が取得される。
図32は、本実施例における撮影および人物情報の登録、更新の全体の流れを示すフローチャートであり、以下の処理は周期的な処理として実行される。撮像装置の電源がONされると、撮像部1022は各種判定に用いる画像データを取得するために、周期的な撮影(動画撮影)を開始する。各種判定とは撮影対象判定、仮登録判定、本登録判定、および重要度判定である。S2800で反復処理が開始される。
S2801では、撮影により取得された画像データは画像処理部1103に出力され、各種画像処理を施した画像データが取得される。S2802にて被写体が検出され、被写体情報が取得されると、S2803で本登録判定、S2804で重要度判定、S2805で仮登録判定が行われる。仮登録判定処理および本登録判定処理については説明を省略する。S2804で重要度判定部1514は、検出された被写体の情報を用いて、人物の重要度を判定する。重要度判定では、人物情報管理部1106の人物情報が更新されるが、パンニング駆動、チルティング駆動、ズーム駆動は実行されない。
S2806は、仮登録用の構図調整処理が実行中であるか否かの判定処理である。仮登録用の構図調整処理が実行中であると判定された場合、S2807に移行し、仮登録用の構図調整処理が実行中でないと判定された場合にはS2808に移行する。S2807で特徴情報抽出部1105は、画像データの中央に位置する被写体の特徴情報を抽出し、人物情報管理部1106へ出力する。またS2807では撮影対象判定が実行される。
S2807、S2808の後、S2809に進み、反復処理の終了判定が行われ、処理を続行する場合、S2800へ戻る。S2801~S2808の処理は撮像部1022の撮像周期に合わせて繰り返し実行される。
次に図33を参照し、図32のS2804に示した重要度判定処理について説明する。図33(A)は、重要度判定部1514が行う処理を説明するフローチャートである。重要度判定処理は複数周期にわたって実行され、既に本登録されている人物の重要度の判定と更新が行われる。図33(B)は、人物IDに紐づいた最終検出日時および最終更新日時を示した表である。最終検出日時は、最後に本登録人物が検出された日時である。最終更新日時は、最後に本登録人物の重要度が更新された日時である。最終検出日時および最終更新日時は、本登録人物の人数分のデータがメモリに記憶されており、周期ごとの判定時に参照されるものとする。
重要度判定部1514は、被写体検出部1107から被写体情報を取得すると、S2901の処理を実行後、検出被写体に対しS2902~S2906の処理を実行し、また本登録人物に対してS2907~S2909の処理を実行する。S2901で重要度判定部1514は、カメラ101のシステム時刻より現在日時を取得する。そしてSTAで検出被写体数に対応する反復処理が開始される。S2902で重要度判定部1514は、被写体情報を参照し、登録状態が「本登録」であるか否かを判定する。「本登録」と判定された場合、S2903へ移行し、「本登録」以外であると判定された場合には、STBへ移行する。
S2903で重要度判定部1514は、検出された人物に対し、最終検出日時に現在日時を設定する。S2904で重要度判定部1514は、現在日時が最終更新日時から30分以上経過しており、且つ24時間以内であるか否かを判定する。この条件を満たす場合、S2905に移行し、条件を満たさない場合には、STBへ移行する。
S2905で重要度判定部1514は、重要度に1を加算するように、人物情報管理部1106へ指示し、S2906では最終更新日時に現在日時を設定する。そしてSTBで反復処理の終了判定が行われ、処理を続行する場合、STAへ戻って、次の被写体の処理へと移行する。
次に、本登録の各人物に対して、以下の処理が実行される。STCで本登録被写体の人数に対応する反復処理が開始される。S2907で重要度判定部1514は、現在日時を参照し、最終検出日時および最終更新日時ともに1週間以上間隔が空いているか否かを判定する。1週間以上の未検出および未更新と判定された場合、S2908に移行し、1週間内に検出または更新が行われたと判定された場合には、STDへ移行する。
S2908で重要度判定部1514は、重要度から1を減算するように人物情報管理部1106へ指示し、S2906では最終更新日時に現在日時を設定する。そしてSTDで反復処理の終了判定が行われ、処理を続行する場合、STCに戻って、次の本登録被写体に対する処理に移行する。
重要度判定処理によって、1日以内おきに再検出された人物の重要度が増加していき、また、1週間以上検出されない被写体に関しては重要度が減少していく。つまり、頻繁に現れる主要な人物の重要度を上げることができるとともに、めったに見かけないか、あるいは本登録されてしまった無関係の人物の重要度を下げることができる。
図34を参照して、図32のS2808に示した撮影対象判定処理について説明する。図34(A)は、撮影対象判定部1110が行う処理を説明するフローチャートである。本処理は、周期ごとに実行され、検出されている人物の中から撮影対象となる人物が判定される。図34(B)は、被写体情報の登録状態、重要度および優先設定に応じた人物の撮影優先度を示す表(撮影優先度テーブル)である。撮影優先度は1~13の数値で表され、1が最も撮影優先度が高く、13が最も撮影優先度が低いものとする。
・撮影優先度が1の人物は、登録状態が「本登録」で、優先設定が「有り」の人物である。
・撮影優先度が2~11の人物は、登録状態が「本登録」で、優先設定が「無し」の人物であり、重要度が高いほど撮影優先度が高い。
・撮影優先度が12の人物は、登録状態が「仮登録」の人物である。
・撮影優先度が13の人物は、未登録の人物である。
・撮影優先度が1の人物は、登録状態が「本登録」で、優先設定が「有り」の人物である。
・撮影優先度が2~11の人物は、登録状態が「本登録」で、優先設定が「無し」の人物であり、重要度が高いほど撮影優先度が高い。
・撮影優先度が12の人物は、登録状態が「仮登録」の人物である。
・撮影優先度が13の人物は、未登録の人物である。
撮影対象判定部1110は、被写体検出部1107から被写体情報を取得すると、S3001~S3004の処理を実行し、撮影対象となる被写体を判定する。その判定結果に基づきS3005、S3006の処理にてパンニング駆動角度、チルティング駆動角度、ズーム移動位置を算出する処理が行われる。
S3001で撮影対象判定部1110は、被写体情報および図34(B)に示した撮影優先度テーブルを参照し、各被写体の撮影優先度を取得する。S3002で撮影対象判定部1110は、検出された全被写体のうちで最も撮影優先度の高い被写体の撮影優先度が、閾値10以下であるか否かを判定する。この条件を満たす場合、STEへ移行し、条件を満たさない場合には撮影対象がいないと判断されて処理を終了する。STEで検出被写体数に対応する反復処理が開始される。S3003で撮影対象判定部1110は、各被写体の撮影優先度が、全被写体のうち最も高い撮影優先度に2を加算した値未満であるか否かを判定する。この条件を満たす場合、S3004に移行し、条件を満たさない場合には、STFに移行する。STFで反復処理の終了判定が行われ、処理を続行する場合、STEに戻って、次の検出被写体の処理に移行する。
S3004で撮影対象判定部1110は、判定した検出被写体を撮影対象として追加する。例えば、最も撮影優先度の高い被写体の撮影優先度が「4」であれば、撮影優先度が「4」、「5」、「6」の被写体が撮影対象として判定される。また最も撮影優先度の高い被写体の撮影優先度が「7」であれば、撮影優先度が「7」、「8」、「9」の被写体が撮影対象として判定される。S3004の次にSTFに移行し、反復処理の終了判定が行われ、処理を続行する場合、STEに戻って、次の検出被写体の処理に移行する。反復処理を終了すると、S3005に進む。
S3005で撮影対象判定部1110は、撮影対象となる人物が1人以上いるか否かを判定する。この条件を満たす場合、S3006に移行し、条件を満たさない場合には処理を終了する。S3006で撮影対象判定部1110は、撮影対象が画角内に収まるようにパンニング駆動角度、チルティング駆動角度、およびズーム移動位置を算出し、駆動制御部1111に出力する。その後、一連の処理を終了する。
上記制御によって、撮影対象である被写体、すなわち撮影優先度が高いと判断された被写体を画角内に収めつつ、撮影対象ではない被写体、すなわち撮影優先度が低いと判断された被写体は画角に入れない撮影を行うことができる。撮影優先度が相対的に高い人物が検出された場合には、撮影優先度が近い複数の人物は撮影対象と判断され、また撮影優先度が離れた人物は撮影対象と判断されない。主要な人物を撮影対象としつつ、関係度の低い人物を極力撮影対象から除外した撮影を行うことができる。
図36を参照して、図9のS903で人物の登録専用状態に遷移した場合の処理について説明する。本処理は、人物の登録専用の状態とすることで、ユーザ自らが撮像装置を被写体人物に向けて人物登録を容易にするものである。
S3600では、探索追尾処理を停止する。ユーザが撮像装置を被写体人物に向け易くするためにパンニング駆動及びチルティング駆動及びズーム駆動を停止する。
S3601では、自動撮影処理を停止する。撮影処理による割り込みによって登録の機会を逸しないように自動撮影の判定及び撮影処理を停止する。
S3602では、被写体検出処理である。図17の被写体検出部1107を用いて被写体人物を検出する。
S3603では、S3602での被写体検出結果を参照し、被写体人物が存在する場合にはS3604へ移行する。被写体人物が存在しない場合はS3608に移行する。
S3604では、画角調節処理である。図12(B)を用いて説明した方法を用いて人物登録に適した画角に調節する。
S3605では、特徴情報抽出処理である。画像データから被写体人物の特徴情報を抽出する。
S3606では、S3605で抽出した特徴情報を評価し、正常に特徴情報が取得できた場合にはS3607に移行し、特徴を捉えることができなかった場合にはS3611に移行する。
S3607では、S3605及びS3606によって特徴情報が正しく取得できた場合の処理であり、人物登録が成功したことをユーザに通知する。音声出力部218及びLED制御部224を用いて、所定の登録成功時の音声パターンと発光パターンを実行する。
S3608では、S3603において被写体人物が発見できなかった場合の処理である。被写体人物が検出できるのを所定時間待つためのカウンタを加算する。
S3609では、S3608で加算したカウンタが所定回数を超えたか否か判定し、カウンタが所定回数以上に達した場合はS3611に移行する。カウンタが所定回数未満の場合にはS3610に移行する。
S3610では、画角振り処理である。S3603で被写体人物が発見できず、S3609でカウンタが所定回数未満である場合は、所定時間のあいだ、被写体人物が検出できるまで待機する。このとき、ズーム駆動制御部202を用いてズーム駆動をおこなうことで被写体人物の検出を試みる。具体的には、ズーム駆動をワイド端からミドル領域まで動かすことで、被写体人物が撮影画角の外側に存在する場合や被写体人物が遠いために検出できない場合に対応することが可能である。ズーム駆動をおこないS3602に復帰して被写体人物の検出を試みる。
S3611では、被写体登録に失敗した場合の通知処理である。音声出力部218及びLED制御部224を用いて、所定の登録失敗時の音声パターンと発光パターンを実行する。
S3612では、S3600で停止した探索追尾処理を再開する。
S3613では、S3601で停止した自動撮影処理を再開する。
以上で人物の登録専用状態に遷移した場合の処理についての説明を終了する。
(変形例)
以下に前記実施例の変形例を説明する。前記実施例では、被写体情報を人物の顔の特徴に関わる情報とした。変形例では、被写体情報として、動物、物体などの人物以外の被写体に関する特徴情報を用いることができる。
以下に前記実施例の変形例を説明する。前記実施例では、被写体情報を人物の顔の特徴に関わる情報とした。変形例では、被写体情報として、動物、物体などの人物以外の被写体に関する特徴情報を用いることができる。
図35は、人物に加えて動物の顔情報を検出可能とする例を示す。図35(A)は被写体検出部1107に入力される画像データの一例を示す模式図である。図35(B)は、図35(A)の画像データに対応する被写体情報を示す表である。動物や物体を撮影する場合、仮登録判定および本登録判定は人物とは別の処理として実行される。あるいは、動物または物体と人物とが混在している場合には、被写体の種別に応じて重要度を重み付けして撮影対象を判定する処理などが実行される。
また前記実施例では、撮像部1022を含む鏡筒102がX軸およびY軸の両方を中心に回転することにより、パンニング駆動およびチルティング駆動が可能な例である。X軸とY軸と両方を中心に回転可能でなくても、いずれか一方の軸を中心に回転可能であれば本発明を適用可能である。例えば、Y軸を中心に回転可能な構成の場合、被写体の向きに基づいてパンニング駆動が行われる。
また前記実施例では、撮像光学系と撮像素子とを備える鏡筒と、鏡筒による撮像方向を制御する撮像制御装置とが一体化された撮像装置を説明した。本発明はこれに限定されない。例えば、撮像装置はレンズ装置を交換可能な構成としてもよい。また、パンニング方向およびチルティング方向に駆動する回転機構を備える雲台に、撮像装置が取り付けられた構成がある。撮像装置は撮像機能と、その他の機能を有していてもよい。例えば、撮像機能を有するスマートフォンを固定することができる雲台とスマートフォンとを組み合わせる構成がある。また、鏡筒およびその回転機構(チルト回転ユニットとパン回転ユニット)と、制御ボックスとは、物理的に接続されている必要はない。例えば、Wi-Fi(登録商標)などの無線通信を介して回転機構やズーム機能の制御が行われてもよい。
また、人物の特徴情報を撮像装置で取得する実施例について説明した。これに限らず、例えば別の顔登録用の撮像装置、あるいは携帯端末装置などの外部機器から人物情報における顔画像や特徴情報を取得して登録または追加を行う構成としてもよい。
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形および変更が可能である。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
101 カメラ
301,501 外部装置
301,501 外部装置
Claims (31)
- 撮像手段により取得された画像データから検出される被写体の探索を行う探索手段と、
検出された被写体を認証して記憶する認証登録手段と、
前記認証登録手段により自動認証登録を行う第1の条件を満たすか否かの認証登録判定、および、前記撮像手段により自動撮影を行う第2の条件を満たすか否かの撮影判定を行い、前記自動撮影および自動認証登録のタイミングを制御する制御手段と、を備え、
前記制御手段は、
前記探索手段による探索の制御を行いつつ、検出された被写体に係る前記認証登録判定と前記撮影判定を実行することにより、前記自動認証登録のタイミングを決定し、
前記探索手段による探索及び前記制御手段による自動撮影を停止し、前記認証登録手段による被写体の認証のみを行う状態をさらに有する
ことを特徴とする画像処理装置。 - 前記制御手段は、前記認証登録判定を前記撮影判定よりも優先する
ことを特徴とする請求項1に記載の画像処理装置。 - 前記認証登録判定および撮影判定の結果、前記第1の条件を満たしている場合、前記認証登録手段は検出された被写体の登録を行い、前記第1の条件を満たしておらず、かつ前記第2の条件を満たしている場合、前記制御手段は前記自動撮影の制御を行う
ことを特徴とする請求項2に記載の画像処理装置。 - 撮影方向を変更する第1の変更手段と、
撮影画角を変更する第2の変更手段と、を備え、
前記制御手段は前記第1または第2の変更手段により、前記自動撮影および自動認証登録にて、前記撮影方向または前記撮影画角を変更するタイミングを制御する
ことを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。 - 前記第1の変更手段は、前記撮像手段を複数の方向に回動させる駆動手段を備え、
前記第2の変更手段は、レンズの駆動または画像処理によって前記自動撮影の画角を変更する
ことを特徴とする請求項4に記載の画像処理装置。 - 前記制御手段は、前記第1の条件を満たしていると判定した場合、前記第1の変更手段により、被写体の顔を撮影画角の中央に配置させる制御を行う
ことを特徴とする請求項4または請求項5に記載の画像処理装置。 - 前記制御手段は、前記第1の条件を満たしていると判定した場合、前記第2の変更手段により、被写体の顔の大きさを、予め設定された大きさに変更する制御を行う
ことを特徴とする請求項4または請求項5に記載の画像処理装置。 - 前記制御手段は、前記第2の条件を満たしており、かつ検出された被写体が人物であると判定した場合、前記第2の変更手段により、撮影画角内に前記被写体が収まる画角に変更する制御を行う
ことを特徴とする請求項4または請求項5に記載の画像処理装置。 - 前記制御手段は、撮影の回数または撮影の時間間隔によって、前記認証登録判定の結果を前記撮影判定の結果よりも優位に設定する
ことを特徴とする請求項2に記載の画像処理装置。 - 前記制御手段は、前記第1の条件を満たしていると判定し、かつ外部装置から撮影指示が行われた場合、前記自動認証登録の処理を中断する制御を行う
ことを特徴とする請求項1乃至9のいずれか1項に記載の画像処理装置。 - 前記第1の条件は、被写体の顔情報を取得し、顔検出の信頼度が閾値より高いこと、もしくは前記信頼度が前記閾値より高い状態が継続していること、または、前記撮像手段に対して被写体の顔が正面の顔を向いていることである
ことを特徴とする請求項1乃至10のいずれか1項に記載の画像処理装置。 - 前記制御手段は、検出された被写体の情報および撮影の履歴情報を取得して撮影のスコアの計算および判定用の閾値の算出を行い、
前記第2の条件は前記スコアが前記閾値を超えることである
ことを特徴とする請求項1乃至11のいずれか1項に記載の画像処理装置。 - 前記制御手段は、前記第1の条件を満たしていると判定した場合、前記自動認証登録の前に前記第2の変更手段によって撮影画角を調節する制御を行う
ことを特徴とする請求項4または請求項5に記載の画像処理装置。 - 前記画像データの機械学習によって算出または変更される情報を取得する取得手段を備え、
前記制御手段は、前記取得手段によって取得された情報を用いて、前記被写体の登録判定、または前記第2の条件に基づく撮影判定を行う
ことを特徴とする請求項1乃至13のいずれか1項に記載の画像処理装置。 - 前記制御手段は、前記取得手段によって取得された情報を用いて、低消費電力状態への遷移条件または低消費電力状態を解除する条件を満たすか否かの判定を行い、判定の結果に基づく電源供給の制御を行う
ことを特徴とする請求項14に記載の画像処理装置。 - 前記制御手段は前記自動撮影にて、被写体の距離と検出の頻度の情報を取得して各被写体の撮影の優先度を判定し、検出された複数の被写体のうち、前記優先度が予め設定された範囲内である優先度の被写体を撮影対象の被写体として決定する
ことを特徴とする請求項1乃至15のいずれか1項に記載の画像処理装置。 - 前記制御手段は、前記優先度が第1の優先度である第1の被写体、および前記優先度が前記第1の優先度から予め設定された範囲内である第2の優先度をもつ第2の被写体を撮影対象の被写体として決定する
ことを特徴とする請求項16に記載の画像処理装置。 - 前記制御手段は、前記優先度が前記第2の優先度より低い被写体を撮影対象に含めないで前記自動撮影の制御を行う
ことを特徴とする請求項17に記載の画像処理装置。 - 前記制御手段は、前記撮像手段から前記第1および第2の被写体までの距離の情報を用いて各被写体の撮影の優先度を判定する
ことを特徴とする請求項17または請求項18に記載の画像処理装置。 - 前記制御手段は、被写体の特徴情報を記憶手段に記憶して管理する処理を行い、検出された被写体の特徴情報と前記記憶手段に記憶されている特徴情報とが一致するかどうかを判断する
ことを特徴とする請求項16乃至19のいずれか1項に記載の画像処理装置。 - 前記記憶手段は、前記被写体の特徴情報と前記優先度とを紐づけて記憶する
ことを特徴とする請求項20に記載の画像処理装置。 - 前記制御手段は、前記記憶手段に記憶されている特徴情報に対応する被写体が検出された場合、検出された被写体の優先度により、前記記憶手段に記憶されている優先度を更新する処理を行う
ことを特徴とする請求項21に記載の画像処理装置。 - 検出された被写体の特徴情報が取得された場合、前記制御手段は、前記優先度が予め設定された値または範囲内である被写体の特徴情報を、前記記憶手段に記憶させる処理を行う
ことを特徴とする請求項20または請求項21に記載の画像処理装置。 - 前記制御手段は、検出された被写体の最終検出日時から経過した時間により、前記被写体の優先度を判定する
ことを特徴とする請求項16乃至23のいずれか1項に記載の画像処理装置。 - 前記撮像手段と、
前記撮像手段の撮影方向を変更する変更手段を備え、
前記制御手段は前記変更手段を制御し、決定された前記撮影対象の被写体に対する撮影の制御を行う
ことを特徴とする請求項16乃至24のいずれか1項に記載の画像処理装置。 - 前記撮像手段と、
前記撮像手段の撮影画角を変更する変更手段を備え、
前記制御手段は前記変更手段を制御し、決定された前記撮影対象の被写体を撮影画角内に収めた状態で撮影の制御を行う
ことを特徴とする請求項16乃至24のいずれか1項に記載の画像処理装置。 - 前記制御手段は、前記被写体の顔の向きの情報または顔の確からしさを表す信頼度を用いて前記被写体の優先度を判定する
ことを特徴とする請求項26に記載の画像処理装置。 - 前記制御手段は、前記被写体の顔の画像データ、および前記優先度を出力する制御を行う
ことを特徴とする請求項27に記載の画像処理装置。 - 前記制御手段は、ユーザーからの指示に基づいて外部装置から受信する被写体指定の指示に応じて、前記探索手段による探索及び前記制御手段による自動撮影を停止し、前記認証登録手段による被写体の認証のみを行う状態へと遷移することを特徴とする請求項1乃至28のいずれか1項に記載の画像処理装置。
- 撮像手段により取得された画像データから検出される被写体の探索を行う探索工程と、
検出された被写体を認証して記憶する認証登録工程と、
自動認証登録を行う第1の条件を満たすか否かの認証登録判定、および、前記撮像手段による自動撮影を行う第2の条件を満たすか否かの撮影判定を行い、前記自動撮影および自動認証登録のタイミングを制御する制御工程と、を有し、
前記制御工程では、前記被写体の探索の制御を行いつつ、検出された被写体に係る前記認証登録判定と前記撮影判定を実行することにより、前記自動認証登録のタイミングを決定する処理が行われる
ことを特徴とする画像処理装置の制御方法。 - 請求項30に記載の各工程をコンピュータに実行させる
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022031994A JP2023127983A (ja) | 2022-03-02 | 2022-03-02 | 撮像装置およびその制御方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022031994A JP2023127983A (ja) | 2022-03-02 | 2022-03-02 | 撮像装置およびその制御方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023127983A true JP2023127983A (ja) | 2023-09-14 |
Family
ID=87972912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022031994A Pending JP2023127983A (ja) | 2022-03-02 | 2022-03-02 | 撮像装置およびその制御方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023127983A (ja) |
-
2022
- 2022-03-02 JP JP2022031994A patent/JP2023127983A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7423685B2 (ja) | 画像処理装置およびその制御方法 | |
JP2022070684A (ja) | 撮像装置およびその制御方法、プログラム | |
JP6799660B2 (ja) | 画像処理装置、画像処理方法、プログラム | |
CN111294488B (zh) | 摄像设备及其控制方法和存储介质 | |
CN109981976B (zh) | 摄像设备及其控制方法和存储介质 | |
JP7233162B2 (ja) | 撮像装置及びその制御方法、プログラム、記憶媒体 | |
KR102475999B1 (ko) | 화상 처리장치 및 그 제어방법 | |
WO2019124055A1 (ja) | 撮像装置及びその制御方法、プログラム、記憶媒体 | |
JP7348754B2 (ja) | 画像処理装置及びその制御方法、プログラム、記憶媒体 | |
CN110557560B (zh) | 摄像设备及其控制方法和存储介质 | |
JP2019118097A (ja) | 画像処理方法、画像処理装置、撮像装置、プログラム、記憶媒体 | |
JP7403218B2 (ja) | 撮像装置及びその制御方法、プログラム、記憶媒体 | |
JP2023057157A (ja) | 撮像装置及びその制御方法、プログラム | |
CN111105039A (zh) | 信息处理设备及其控制方法和存储器 | |
JP2023127983A (ja) | 撮像装置およびその制御方法、プログラム | |
JP2021057815A (ja) | 撮像装置及びその制御方法、プログラム、記憶媒体 | |
JP2020071873A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
JP7393133B2 (ja) | 画像処理装置及び画像処理方法、撮像装置、プログラム、記憶媒体 | |
JP2019121855A (ja) | 撮像装置およびその制御方法 | |
JP2020145556A (ja) | 撮像装置及びその制御方法、プログラム、記憶媒体 | |
JP2024001639A (ja) | 制御装置、撮像装置、制御方法、プログラム及び撮像システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230921 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20231213 |