JP6818798B2 - 画像処理装置および画像処理方法、ならびに撮像装置 - Google Patents

画像処理装置および画像処理方法、ならびに撮像装置 Download PDF

Info

Publication number
JP6818798B2
JP6818798B2 JP2019055199A JP2019055199A JP6818798B2 JP 6818798 B2 JP6818798 B2 JP 6818798B2 JP 2019055199 A JP2019055199 A JP 2019055199A JP 2019055199 A JP2019055199 A JP 2019055199A JP 6818798 B2 JP6818798 B2 JP 6818798B2
Authority
JP
Japan
Prior art keywords
image
learning model
subject detection
learning
image sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019055199A
Other languages
English (en)
Other versions
JP2019186918A (ja
Inventor
良介 辻
良介 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to US16/373,824 priority Critical patent/US10896350B2/en
Publication of JP2019186918A publication Critical patent/JP2019186918A/ja
Application granted granted Critical
Publication of JP6818798B2 publication Critical patent/JP6818798B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Exposure Control For Cameras (AREA)
  • Automatic Focus Adjustment (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理装置および画像処理方法、ならびに撮像装置に関し、特に被写体検出技術に関する。
画像から特定の被写体パターンを自動的に検出する被写体検出技術は非常に有用である。特許文献1には、撮影した画像から人物の顔のような特定の被写体パターンに該当する領域を検出し、検出した領域に焦点や露出を最適化させる撮像装置が開示されている。
また、深層学習と呼ばれる手法を用いて、画像中の被写体を学習、認識することが知られている(非特許文献1)。コンボリューショナル・ニューラル・ネットワーク(CNN)は、深層学習の代表的な手法である。一般的にCNNは、画像の局所の特徴を空間的に統合する畳み込み層、特徴量を空間方向へ圧縮するプーリング層またはサブサンプリング層、さらに、全結合層、出力層などが組み合わされた多層構造を有する。CNNは多層構造による段階的な特徴変換を通じて、複雑な特徴表現を獲得することができるため、特徴表現に基づいて画像中の被写体のカテゴリ認識や被写体検出を高精度に行うことができる。
特開2005−318554号公報
Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, "ImageNet classification with deep convolutional neural networks", NIPS'12 Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1, PP.1097-1105
教師あり学習によって画像から被写体を検出するための特徴を機械学習させる場合、装置に、学習用の画像信号と、対になる教師信号とを与える。そして、学習の結果、被写体検出に用いる学習モデルが生成される。撮影によって得られた画像信号は、解像感、色調、ボケ度合など、撮像装置の光学系の特性の影響を受ける。そのため、学習時と、学習結果(学習モデル)を利用した被写体検出時とで光学系の特性が異なると、検出に失敗する場合がある。
本発明はこのような従来技術の課題に鑑みてなされたものであり、画像信号に対する被写体検出精度を向上させることが可能な画像処理装置および画像処理方法、ならびに撮像装置を提供することを目的とする。
上述の目的は、機械学習に基づいて生成されたパラメータを用いて、画像に対して被写体検出処理を適用する被写体検出手段と、被写体検出処理に用いるパラメータを複数記憶する記憶手段と、記憶手段が記憶するパラメータから、被写体検出処理を適用する画像の特性に応じて、被写体検出手段で用いるパラメータを選択する選択手段と、を有し、選択手段は、画像を生成した撮像素子に応じて被写体検出手段で用いる学習モデルを選択することを特徴とする画像処理装置によって達成される。
本発明によれば、画像信号に対する被写体検出精度を向上させることが可能な画像処理装置および画像処理方法、ならびに撮像装置を提供することができる。
本発明の実施形態に係る画像処理装置の一例としてのデジタル一眼レフカメラの模式的な垂直断面図。 実施形態に係るデジタル一眼レフカメラの機能構成例を示すブロック図。 実施形態に係る撮影動作の概要に関するフローチャート。 実施形態に係る静止画撮影動作に関するフローチャート。 実施形態に係る動画撮影動作に関するフローチャート。 実施形態に係る被写体検出回路が用いるCNNの構成例を示す模式図。 図6のCNNの一部の構成の示す模式図。
以下、添付図面を参照して、本発明の例示的な実施形態について詳細に説明する。なお、以下の実施形態では、本発明をデジタル一眼レフカメラ(DSLR)で実施する場合に関して説明する。しかし、本発明は画像データを取り扱うことの可能な任意の電子機器で実施可能であり、デジタル一眼レフカメラは本発明に係る画像処理装置の一例に過ぎない。本発明を実施可能な電子機器には例えばパーソナルコンピュータ、スマートフォン、タブレット端末、ゲーム機、ロボットなどが含まれるが、これらに限定されない。
●(撮像装置の構成)
図1は本実施形態に係るデジタル一眼レフカメラ(DSLR)100の垂直断面図である。また、図2はDSLR100の機能構成例を示すブロック図である。全図を通じて同じ参照番号は同じ構成要素を指す。
DSLR100は、本体101と、本体101に着脱可能な撮影レンズ102(交換レンズ)とを有する。本体101と撮影レンズ102の着脱部(マウント)にはそれぞれマウント接点群115が設けられている。撮影レンズ102を本体101に装着すると、マウント接点群115が接触し、撮影レンズ102と本体101との電気的な接続が確立する。
システム制御回路201は、1つ以上のプログラマブルプロセッサと、ROM2011、RAM2012を有し、ROM2011に記憶されているプログラムをRAM2012に読み込んで実行することにより、本体101および撮影レンズ102の動作を制御する。ROM2011には、システム制御回路201が実行するプログラムのほか、各種の設定値、GUIデータなどが記憶されている。
撮影レンズ102には合焦距離を調節するフォーカスレンズ113と、本体101に入射する光量を調整する絞り114(およびこれらを駆動するモータやアクチュエータなど)が設けられる。フォーカスレンズ113や絞り114の駆動は、マウント接点群115を通じてカメラ本体101が制御する。
メインミラー103およびサブミラー104は、クイックリターンミラーを構成する。メインミラー103の一部は、撮影レンズ102から入射する光束をファインダー光学系(図の上方)に向かう光束と、サブミラー104に向かう光束に分離するために反射率(透過率)が制御されている。
図1は光学ファインダー使用時(非撮影時)の状態を示しており、メインミラー103が撮影レンズ102から入射する光束の光路中に位置している。この状態では、メインミラー103の反射光がファインダー光学系に入射し、ペンタプリズム107によって屈曲された光束はアイピース109から出射する。したがって、ユーザはアイピース109を覗くことにより、光学被写体像を見ることができる。
また、メインミラー103の透過光はサブミラー104で反射されてAFセンサ105(第1の撮像素子)に入射する。AFセンサ105は、撮影レンズ102の二次結像面をラインセンサー上に形成し、位相差検出方式による焦点検出に利用可能な1対の像信号(焦点検出用信号)を生成する。生成された焦点検出用信号はシステム制御回路201へ送信される。システム制御回路201は、焦点検出用信号を用いてフォーカスレンズ113のデフォーカス量を求め、デフォーカス量に基づいてフォーカスレンズ113の駆動方向および駆動量を制御する。
ピント板106は、ファインダー光学系内の撮影レンズ102の予定結像面に配置される。アイピース109を覗いたユーザは、ピント板106に形成された光学像を観察する。なお、光学像のほか、シャッタースピード、絞り値などの撮影情報も併せて提供することができる。
測光センサー108は、入射する光束から像信号(露出制御用信号)を生成し、システム制御回路201へ送信する。システム制御回路201は、受信した露出制御用信号を用いて自動露出制御を行ったり、後述する被写体検出回路204による被写体検出を制御したりする。測光センサー108は、光電変換部を備える画素が2次元状に配置された撮像素子である。
撮像素子111の露光時、メインミラー103およびサブミラー104は、撮影レンズ102から入射する光束の光路の外に移動する。また、フォーカルプレーンシャッター110(以下、単にシャッターという)が開く。
撮像素子111(第2の撮像素子)には、光電変換部を備える画素が2次元状に配置されており、撮影レンズ102が形成する被写体光学像を各画素で光電変換し、画像信号をシステム制御回路201に送信する。システム制御回路201は、受信した画像信号から画像データを生成して画像記憶用メモリ202へ保存するとともに、LCD等のモニター112に表示する。また、撮像素子111で生成された画像データは、被写体検出のために被写体検出回路204にも供給される。なお、システム制御回路201は、画像データを用い、コントラスト方式による焦点検出を行ってもよい。
また、本実施形態では、撮像素子111の各画素が2つの光電変換部(光電変換部Aと光電変換部Bとする)を備え、個々の光電変換部から独立して画像信号を読み出し可能な構成を有するものとする。つまり、撮像素子111は、1回の露光により、
・光電変換部A群から得られる画像信号(A像とする)と、
・光電変換部B群から得られる画像信号(B像とする)と、
・画素ごとに光電変換部Aから得られる画像信号と光電変換部Bから得られる画像信号とを加算した画像信号(A+B像とする)と、
を生成することができる。
A像とB像とは1対の視差画像であるため、A像とB像に基づいて位相差検出方式の焦点検出を行うことができる。本実施形態では、静止画撮影時にはA+B像を取得し、AFセンサ105を用いて焦点検出を行うものとする。一方、動画撮影時には、AFセンサ105から像信号を得ることができないため、A+B像と、A像とを取得するものとする。B像は、A+B像からA像を減じることによって生成する。なお、A像の代わりにB像を取得するようにしてもよい。
操作部材203は、本体101および撮影レンズ102が備え、ユーザが操作可能な入力デバイス群である。レリーズボタン、電源スイッチ、方向キー、決定ボタン、メニューボタン、動作モードの選択ダイヤルなどが操作部材203に含まれる入力デバイスの具体例であるが、これらに限定されない。操作部材203の操作は、システム制御回路201が検知する。
例えば、レリーズボタンの半押し操作が検出されると、システム制御回路201は、静止画撮影準備動作を開始する。撮影準備動作は例えば自動焦点検出(AF)や自動露出制御(AE)に関する動作である。また、レリーズボタンの全押し操作を検出すると、システム制御回路201は、静止画の撮影および記録動作を実行する。システム制御回路201は、撮影によって得られた画像を、モニター112に一定時間表示する。
また、動画撮影時(撮影スタンバイ状態や動画記録中)、システム制御回路201は、撮影によって得られた動画を、モニター112にリアルタイムに表示することにより、モニター112を電子ビューファインダー(EVF)として機能させる。モニター112をEVFとして機能させる際に表示する動画像およびそのフレーム画像を、ライブビュー画像もしくはスルー画像と呼ぶ。静止画と動画の何れを撮影するかは操作部材203を通じて選択可能であり、システム制御回路201は、静止画撮影時と動画撮影時とで、カメラ本体101および撮影レンズ102の制御方法を切り替える。
被写体検出回路204は、GPU(Graphic Processing Unit)で構成される。GPUは、元々は画像処理用のプロセッサであるが、複数の積和演算器を有し、行列計算を得意としているため、学習用の処理を行うプロセッサとしても用いられることが多い。そして、深層学習を行う処理においても、GPUが用いられることが一般的である。例えば、被写体検出回路204として、NVIDIA社のJetson TX2 moduleを用いることができる。なお、被写体検出回路204として、FPGA(field−programmable gate array)やASIC(application specific integrated circuit)などを用いてもよい。
被写体検出回路204は、学習モデル用メモリ205が複数記憶する学習モデルのうち、システム制御回路201が選択した1つの学習モデルを用いて、供給される画像データに対して被写体検出処理を適用する。被写体検出処理の詳細については後述する。学習モデル用メモリ205は例えば書き換え可能な不揮発性メモリであってよく、ROM2011の一部であってもよい。本実施形態において学習モデル用メモリ205は、被写体検出処理の対象となる画像データの元になる画像信号を生成する撮像素子(イメージセンサ)ごとに用意された学習モデル206,207を記憶する。
(被写体検出における学習モデル切り替え)
本実施形態のDSLR100は、異なる経路で光が入射する測光センサー108と撮像素子111のそれぞれで生成される画像信号に基づく画像データについて被写体検出を適用する。被写体検出の詳細は後述するが、予め機械学習を通じて生成された学習モデルが用いられる。
測光センサー108と撮像素子111はいずれも2次元配列された複数の画素によって光学像を光電変換して画像信号を生成する点において共通するが、生成される画像信号の特性(画質)は異なる。画質に差異が発生するのは、光路、センサーの構造、信号処理などが、測光センサー108と撮像素子111とで異なるからである。また、システム制御回路201によって画像データを生成する際の処理も異なる場合がある。一般的には、撮像素子111で生成される画像信号よりも、測光センサー108で生成される画像信号の方が、解像感や色再現性が低い。これは、撮像素子111は鑑賞を目的とした画像信号の生成を目的としているのに対し、測光センサ108は露出制御用の画像信号の生成を目的としていることに起因するものが大きい。ただし、仮に測光センサー108と撮像素子111とが全く同じデバイスを用いているとしても、入射光路や画像データ生成時の処理の違いなどに起因した画質の差は生じる。
したがって、測光センサー108で生成された画像信号に基づく機械学習によって生成された学習モデルを撮像素子111によって生成された画像信号に対する被写体検出に用いると、検出精度が低下する可能性がある。逆も又しかりである。そのため、本実施形態では、画像信号を生成する撮像素子(もしくは、特性の異なる画像)ごとに異なる学習モデルを用意する。そして、被写体検出処理を適用する画像信号を生成したセンサーに対応した学習モデルを用いて、被写体検出処理を適用する。
具体的には、被写体検出回路204は、測光センサー108で生成された画像信号に基づく画像データに対しては、測光センサー用の学習モデル206を用いる。また、被写体検出回路204は、撮像素子111で生成された画像信号に基づく画像データに対しては、撮像素子用の学習モデル207を用いる。
(撮影動作)
次に、図3〜図5を参照して、本実施形態のDSLR100の撮影動作について説明する。
図3は撮影動作の概要に関するフローチャートであり、各ステップの処理はシステム制御回路201のプログラマブルプロセッサがROM2011からRAM2012に読み込まれたプログラムを実行することによって実現される。
S301でシステム制御回路201は本体101の電源がONかどうか判定し、ONと判定されなければ処理を終了し、ONと判定されれば処理をS302に進む。判定は例えば操作部材203の電源スイッチの状態や、電源のON、OFFを示すフラグなどの参照に基づくことができる。
S302でシステム制御回路201は撮影モードを判定する。ここでは撮影モードが静止画撮影モードか動画撮影モードかの判定とするが、他の撮影モードが設定可能であってもよい。撮影モードは操作部材203のユーザー操作によって変更可能である。システム制御回路201は、静止画撮影モードと判定されれば処理をS303へ進め、動画撮影モードと判定されれば処理をS304に進める。
S303でシステム制御回路201は静止画撮影処理を行い、処理をS301に戻す。また、S304でシステム制御回路201は動画撮影処理を行い、処理をS301に戻す。静止画撮影処理については図4を用いて、動画撮影処理については図5を用いてそれぞれ後述する。
(静止画撮影処理)
図4は、図3のS303に示した静止画撮影処理の詳細に関するフローチャートである。
S401でシステム制御回路201は、レリーズボタンの半押し操作でオンするスイッチSW1と、レリーズボタンの全押し操作でオンするスイッチSW2の状態を検出する。そして、システム制御回路201は、スイッチSW1とSW2のいずれかがオンであれば、処理をS402へ進め、スイッチSW1とSW2がいずれもオフであれば、処理を終了する。
S402でシステム制御回路201は、測光センサー108の露光処理(電荷蓄積)を行う。測光センサー108の露光処理は所謂電子シャッターによって所定時間電荷蓄積を行うことによって実現される。システム制御回路201は、測光センサー108の動作を制御して、所定時間電荷蓄積を行い、測光センサー108から画像信号(露出制御用信号)を読み出す。また、システム制御回路201は、AFセンサー105についても露光処理(電荷蓄積)を行い、画像信号(焦点検出用信号)を読み出す。
S403でシステム制御回路201(選択手段)は、学習モデル用メモリ205に複数記憶されている学習モデルのうち、測光センサー用の学習モデル206を選択し、被写体検出処理用のパラメータとして被写体検出回路204に設定する。また、システム制御回路201は、S402で読み出した露出制御用信号に対してA/D変換やノイズ低減処理などを行って生成した画像データを被写体検出回路204に供給する。
なお、ここでは静止画撮影時には光学ファインダーを使用中であるものとしているが、例えばEVF(モニター112)を使用中であるか、光学ファインダーを使用中であるかを判別してもよい。光学ファインダーを使用しない静止画撮影時には、システム制御回路201は、学習モデル用メモリ205に複数記憶されている学習モデルのうち、撮像素子用の学習モデル207を選択し、被写体検出処理用のパラメータとして被写体検出回路204に設定する。光学ファインダーを使用中か否かは、アイピース109近傍に設けた近接センサを用いる方法など、公知の方法によって判定することができる。
S404で被写体検出回路204は、露出制御用信号に基づく画像データに対して、S403で設定された測光センサー用の学習モデル206を用いて被写体検出処理を適用する。被写体検出処理の詳細については後述する。被写体検出回路204は、検出結果を表す情報をシステム制御回路201に供給する。検出結果を表す情報には、被写体が検出されたか否か(検出数)や、検出した被写体領域に関する情報(例えば位置や大きさ)が含まれてよい。
S405でシステム制御回路201は、S404における被写体検出の結果、被写体が1つ以上検出されていれば、検出された被写体の位置に最も近い焦点検出領域を選択する。なお、被写体が複数検出された場合、システム制御回路201は例えば、被写体領域の大きさや位置などに基づいて代表被写体を決定し、代表被写体の位置に最も近い焦点検出領域を選択する。そして、システム制御回路201は、選択した焦点検出領域についての焦点状態(デフォーカス量および方向)を、焦点検出用信号に基づいて求める。
なお、S404で被写体が検出されなかった場合、システム制御回路201は、選択可能な全ての焦点検出領域についての焦点状態(デフォーカス量および方向)を、焦点検出用信号に基づいて求める。そして、最も近い距離に被写体が存在する焦点検出領域を選択する。
S406でシステム制御回路201は、S405で選択した焦点検出領域の焦点状態に基づいてフォーカスレンズ113の位置を制御することにより、撮影レンズ102の合焦距離を調節する。
S407でシステム制御回路201は、S402で読み出した露出制御用信号を用いて撮影条件(絞り値(AV値)、シャッタスピード(TV値)、ISO感度(ISO値))を決定する。撮影条件の決定方法に特に制限は無いが、ここでは、露出制御用信号に基づいて得られる輝度(Bv値)に対応する撮影条件を、予め記憶されたプログラム線図を参照して決定するものとする。なお、被写体検出処理によって検出された被写体領域の輝度を用いて撮影条件を決定するようにしてもよい。
S408でシステム制御回路201は、スイッチSW2の状態を検出し、スイッチSW2がオンであれば処理をS409へ進め、スイッチSW2がオフであれば処理を終了する。
S409でシステム制御回路201は、静止画の撮影処理を実行する。システム制御回路201は、撮影レンズ102からの光束と交差しない位置にメインミラー103およびサブミラー104を移動させるとともに、S407で決定したシャッタースピードに従ってシャッター110を駆動する。これにより、撮影レンズ102が形成する光学像によって撮像素子111が露光される。撮像素子111は各画素が露光期間に蓄積した電荷を電圧に変換した画像信号を生成する。システム制御回路201は撮像素子111から画像信号を読み出し、A/D変換、ノイズ低減、ホワイトバランス調整、色補間など、予め定められた画像処理を適用することにより画像データを生成する。システム制御回路201は、生成した画像データを画像データファイルとして画像記憶用メモリ202に保存したり、画像データに基づく表示用画像信号を生成してモニター112に表示したりする。
(動画撮影処理)
次に、図5に示すフローチャートを用いて、図3のS304における動画撮影処理の詳細について説明する。動画撮影動作は、撮影スタンバイ時や、動画記録の開始指示の検出に応じて実行される。なお、撮影スタンバイ時の動画撮影は表示用のスルー画像生成を目的としているため、記録を目的とした動画撮影時とは解像度(画素数)などにおいて異なる。しかしながら、被写体検出処理の内容は基本的に変わらないため、以下では特に動画の撮影目的を意識することなく説明する。
S501でシステム制御回路201は、動画の1フレーム分の処理を実行し、画像データを生成する。動画撮影では予め定められたフレームレートで連続的に撮影を行うため、シャッター110を全開し、メインミラー103およびサブミラー104を移動させた状態とする。また、撮像素子111の露光時間は電荷蓄積時間を制御することにより調整する。システム制御回路201は、電荷蓄積、画像信号の読み出し、蓄積電荷のリセットを1フレームの撮影ごとに繰り返す。システム制御回路201は、撮像素子111から読み出した画像信号(A+B像とA像)に画像処理を適用して画像データを生成し、A+B像を画像記憶用メモリ202に保存する。また、A+B像に相当する表示用画像を生成し、モニター112にスルー画像として表示する。また、システム制御回路201は、焦点検出を行うために、A像と、A+B像とA像とから生成したB像とを、例えばRAM2012に格納しておく。
S502でシステム制御回路201は、撮像素子用の学習モデル207を被写体検出処理用のパラメータとして被写体検出回路204に設定する。また、システム制御回路201は、画像記憶用メモリ202に格納した画像データを被写体検出回路204に供給する。
S503で被写体検出回路204は、システム制御回路201から供給される画像データに対して、S502で設定された撮像素子用の学習モデル207を用いて被写体検出処理を適用する。被写体検出処理の詳細については後述する。被写体検出回路204は、検出結果を表す情報をシステム制御回路201に供給する。検出結果を表す情報には、被写体が検出されたか否か(検出数)や、検出した被写体領域に関する情報(例えば位置や大きさ)が含まれてよい。
S504でシステム制御回路201は、S503における被写体検出の結果、被写体が1つ以上検出されていれば、検出された被写体の位置に最も近い焦点検出領域を選択する。なお、被写体が複数検出された場合、システム制御回路201は例えば、被写体領域の大きさや位置などに基づいて代表被写体を決定し、代表被写体の位置に最も近い焦点検出領域を選択する。
そして、システム制御回路201は、RAM2012に格納したA像とB像のそれぞれについて、選択した焦点検出領域に対応する領域に含まれる複数の画素データを繋ぎ合わせて1対の像信号(焦点検出用信号)を生成する。例えば、各画素が水平方向に並んだ2つの光電変換部を有する場合、システム制御回路201は、水平方向に並んだ複数の画素データを繋ぎ合わせて像信号を生成する。システム制御回路201は、A像とB像とから生成した1対の像信号を、AFセンサ105から得られる1対の像信号と同様に取り扱い、焦点状態(デフォーカス量および方向)を求める。
S505でシステム制御回路201は、S504で求めたデフォーカス量およびデフォーカス方向に対応するレンズ駆動量および駆動方向に従って、フォーカスレンズ113の位置を制御することにより、撮影レンズ102の合焦距離を調節する。
S506でシステム制御回路201は、S501で読み出した画像信号(A+B像)を用いて撮影条件(絞り値(AV値)、シャッタスピード(TV値)、ISO感度(ISO値))を決定する。撮影条件の決定方法に特に制限は無いが、ここでは、画像信号に基づいて得られる輝度(Bv値)に対応する撮影条件を、予め記憶されたプログラム線図を参照して決定するものとする。なお、被写体検出処理によって検出された被写体領域の輝度を用いて撮影条件を決定するようにしてもよい。
S502からS506までの処理は、次フレームの処理(S501の次回実行)を対象としている。図3のS301で電源スイッチがONであると判定されなくなるまで、S302で撮影モードが動画撮影モードと判定されている期間は、S304においてS501からS505の処理を繰り返し実行する。
(被写体検出の詳細)
次に、被写体検出回路204および被写体検出処理について説明する。本実施形態では、被写体検出回路204をCNN(コンボリューショナル・ニューラル・ネットワーク)の1種であるネオコグニトロンで構成する。被写体検出回路204の基本的な構成について、図6および図7を用いて説明する。図6に入力された2次元画像データから被写体を検出するCNNの基本的な構成を示す。処理の流れは、左端を入力とし、右方向に処理が進んでいく。CNNは、特徴検出層(S層)と特徴統合層(C層)と呼ばれる2つの層をひとつのセットとし、それが階層的に構成されている。なお、S層は従来技術で説明した畳み込み層に、C層は同プーリング層またはサブサンプリング層に対応する。
CNNでは、まずS層において1つ前の階層で検出された特徴をもとに次の特徴を検出する。またS層において検出した特徴をC層で統合し、その階層における検出結果として次の階層に伝える構成を有する。
S層は特徴検出細胞面からなり、特徴検出細胞面ごとに異なる特徴を検出する。また、C層は特徴統合細胞面からなり、1つ前の階層の特徴検出細胞面での検出結果をプーリングもしくはサブサンプリングする。以下では、特に区別する必要がない場合、特徴検出細胞面および特徴統合細胞面を総称して特徴面と呼ぶ。本実施形態では、最終階層である出力層(n階層目)ではC層は用いずS層のみで構成している。
特徴検出細胞面での特徴検出処理、および特徴統合細胞面での特徴統合処理の詳細について、図7を用いて説明する。1つの特徴検出細胞面は複数の特徴検出ニューロンにより構成され、個々の特徴検出ニューロンは1つ前の階層のC層に所定の構造で結合している。また1つの特徴統合細胞面は、複数の特徴統合ニューロンにより構成され、個々の特徴統合ニューロンは同じ階層のS層に所定の構造で結合している。
図7に示した、L階層目のS層のM番目の細胞面内において、位置(ξ, ζ)の特徴検出ニューロンの出力値を
Figure 0006818798
と表記する。また、L階層目のC層のM番目の細胞面内において、位置(ξ, ζ)の特徴統合ニューロンの出力値を
Figure 0006818798
と表記する。その時、それぞれのニューロンの結合係数を
Figure 0006818798
とすると、各出力値は以下のように表すことができる。
[数式1]
Figure 0006818798
[数式2]
Figure 0006818798
ここで、数式1におけるfは活性化関数であり、例えばロジスティック関数や双曲正接関数などのシグモイド関数である。また、
Figure 0006818798
は、L階層目のS層のM番目の細胞面における、位置(ξ, ζ)の特徴検出ニューロンの内部状態を表す。数式2は活性化関数を用いておらず、単純な線形和で表されている。
数式2のように活性化関数を用いない場合、ニューロンの内部状態
Figure 0006818798
と出力値
Figure 0006818798
とは等しい。また、数式1の
Figure 0006818798
を特徴検出ニューロンの結合先出力値と呼び、数式2の
Figure 0006818798
を特徴統合ニューロンの結合先出力値と呼ぶ。
ここで、数式1及び数式2におけるξ,ζ,u,v,nについて説明する。位置(ξ, ζ)は入力画像における位置座標に対応しており、例えば出力値
Figure 0006818798
が大きい場合、入力画像の画素位置(ξ, ζ)に、L階層目のS層のM番目の細胞面が検出する特徴が存在する可能性が高いことを意味する。またnは数式1において、L−1階層目のC層のn番目の細胞面を意味しており、統合先特徴番号と呼ぶ。基本的にL−1階層目のC層に存在する全ての細胞面について積和演算を行う。(u, v)は、結合係数の相対位置座標であり、検出する特徴のサイズに応じて有限の範囲(u, v)において積和演算を行う。このような有限な(u, v)の範囲を受容野と呼ぶ。また受容野の大きさを、以下では受容野サイズと呼び、結合している範囲の横画素数×縦画素数で表す。
また数式1において、L=1つまり最初の階層のS層では、数式1中の
Figure 0006818798
は、入力画像
Figure 0006818798
である。ちなみにニューロンや画素の分布は離散的であり、結合先特徴番号も離散的なので、ξ,ζ,u,v,nは離散的な値をとる。ここでは、ξ,ζは非負整数、nは自然数、u,vは整数とし、何れも有限な範囲を有する。
数式1中の
Figure 0006818798
は、所定の特徴を検出するための結合係数であり、結合係数を適切な値に調整することによって、所定の特徴を検出可能になる。この結合係数の調整が学習であり、CNNの構築においては、さまざまなテストパターンを用いて、
Figure 0006818798
が適切な出力値になるように、結合係数を繰り返し徐々に修正していくことで結合係数を調整する。
次に、数式2中の
Figure 0006818798
は、2次元のガウシアン関数を用いており、以下の数式3のように表すことができる。
[数式3]
Figure 0006818798
ここでも、(u,v)は有限の範囲を有し、特徴検出ニューロンの場合と同様、範囲を受容野、範囲の大きさを受容野サイズと呼ぶ。ここではL階層目のS層のM番目の特徴のサイズに従って、受容野サイズの値を適宜設定することができる。数式3中のσは特徴サイズ因子であり、受容野サイズに応じて適宜定めることができる定数であってよい。例えば、受容野の一番外側の値がほぼ0とみなせるような値になるように特徴サイズ因子σを設定することができる。このように、本実施形態の被写体検出回路204は、上述した演算を各階層で行い、最終階層(n階層目)のS層において被写体検出を行うCNNによって構成される。
(被写体検出の学習方法)
結合係数
Figure 0006818798
の具体的な調整(学習)方法について説明する。学習は、CNNに特定の入力画像(テストパターン)を与えて得られるニューロンの出力値と、教師信号(そのニューロンが出力すべき出力値)との関係に基づいて、結合係数
Figure 0006818798
を修正することである。本実施形態の学習では、最終階層(n階層目)の特徴検出層Sについては最小二乗法を用いて結合係数を修正する。また、他の階層(1〜n−1階層目)の特徴検出層Sについては、誤差逆伝搬法を用いて結合係数を修正する。最小二乗法や誤差逆伝搬法を用いた結合係数の修正手法は例えば非特許文献1に記載されるような公知技術を用いることができるため、詳細についての説明は省略する。
検出すべきパターンと、検出すべきでないパターンとを、学習用のテストパターンとして多数用意する。各テストパターンは、画像データと、対応する教師信号とを有する。検出すべきパターンに該当する画像データについては、最終階層の特徴検出細胞面において、検出対象のパターンが存在する領域に対応するニューロンの出力が1となるような教師信号とする。一方、検出すべきでないパターンに該当する画像データについては、検出すべきでないパターンが存在する領域に対応するニューロンの出力が−1となるような教師信号を与える。
本実施形態では、測光センサー108で得られる画像信号に基づく画像データを用いたテストパターンによる学習により、測光センサー用の学習モデル206を用意する。また、撮像素子111で得られる画像信号に基づく画像データを用いたテストパターンによる学習により、撮像素子用の学習モデル207を用意する。このように、測光センサー108で得られる画像信号での学習と、撮像素子111で得られる画像信号での学習とを別個に行うことで、光路、素子、画像処理などの差異が反映された、個々の撮像素子の画像信号に適した学習モデルを生成できる。
なお、撮像素子111用の学習モデルを生成するための画像データは、静止画撮影処理や動画撮影処理を実行することにより容易に取得することができる一方、測光センサー108用の学習モデルを生成するための画像データの取得は必ずしも容易でない。これは、測光センサー108で得られる画像データは画像記憶用メモリ202に記憶されないからである。
そのため、撮像素子111で得られる画像信号から、測光センサー108で得られた画像信号に基づく画像データに相当する画像データを生成してもよい。例えば、同一の被写体を撮像素子111と測光センサー108で撮影して生成した画像データに基づいて、画像データに反映されている光路、素子、画像処理などの差異を検出する。そして、システム制御回路201が、検出した差異に相当する補正を撮像素子111で得られる画像信号に基づく画像データに適用することで、測光センサー108で得られた画像信号に基づく画像データに相当する画像データを生成することができる。補正方法に制限は無いが、例えば、鮮鋭度の差はローパスフィルタの適用やコントラスト補正によって実現し、色味の差はルックアップテーブルの適用による色変換によって実現することができる。これらの、補正に必要な情報は、例えばROM2011に記憶しておくことができる。これにより、撮像素子111用の学習モデルを生成するための画像データと同様にして、測光センサー108用の学習モデルを生成するための画像データを取得することができる。なお、学習モデルの生成は他の装置で行うことも可能である。
以上説明したように、本実施形態によれば、異なる撮像素子で得られる画像信号に対して被写体検出を行いうる装置において、画像の特性に応じた被写体検出用のパラメータを用いることにより、被写体検出精度を向上させることができる。
(その他の実施形態)
上述した実施形態では、1つの撮像装置が光学経路の異なる2つの撮像素子(測光センサー108と撮像素子111)を有する場合に、被写体検出時に使用している撮像素子ごとに被写体検出用の学習モデルを切替える構成を例示した。しかし、本発明の本質は、被写体検出を行う画像信号または画像データに反映されている撮影光学系(光路やレンズの収差など)、撮像素子、信号処理などの特性を考慮した被写体検出処理用のパラメータを用いることにある。したがって、1つの撮像素子を有する撮像装置において、撮影に用いられる撮影レンズに応じて異なる被写体検出用のパラメータを用いる構成や、撮像装置に応じて異なる被写体検出用のパラメータを用いる構成も本発明に含まれる。
例えば、RGBイメージセンサーと赤外センサーといった、受光感度の異なる複数の撮像素子を備えたスマートフォンやタブレット端末が存在する。あるいは、標準、広角、および、望遠といった光学倍率の異なる複数の撮像光学系を備えたスマートフォンやタブレット端末が存在する。これらのスマートフォンやタブレット端末においても、本発明を適用することができる。
また、スマートフォンやタブレット端末が、撮影光学系、撮像素子、あるいは、信号処理などの特性を考慮した被写体検出処理用の学習モデルを、無線通信あるいは有線通信を介して、ネットワーク上からダウンロードやアップデートする構成としてもよい。このとき、スマートフォンやタブレット端末は、同一の被写体に対して、撮影光学系、撮像素子、あるいは、信号処理などに基づく画像の特性ごとに、複数の学習モデルを入手することとなる。
あるいは、サーバやエッジコンピュータが被写体検出回路と、画像の特性を考慮した複数の被写体検出処理用の学習モデルを備えるように構成してもよい。サーバやエッジコンピュータが、撮像装置やスマートフォンなどから送信された画像を受信し、受信した画像の特性に応じた学習モデルを選択して被写体検出処理を行い、検出結果を、画像を送信してきた撮像装置やスマートフォンに送信するようにしてもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又はコンピュータ読み取り可能な記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータの1以上のプロセッサがプログラムを実行することでも実現できる。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
上述の実施形態は本発明の理解を助けることを目的とした具体例に過ぎず、いかなる意味においても本発明を上述の実施形態に限定する意図はない。特許請求の範囲に規定される範囲に含まれる全ての実施形態は本発明に包含される。
100…デジタル一眼レフカメラ、101…本体、102…ンズ、108…測光センサー、111…撮像素子、204…被写体検出回路、206…測光センサー用の学習モデル、207…撮像素子用の学習モデル

Claims (18)

  1. 機械学習に基づいて生成されたパラメータを用いて、画像に対して被写体検出処理を適用する被写体検出手段と、
    前記被写体検出処理に用いるパラメータを複数記憶する記憶手段と、
    前記記憶手段が記憶するパラメータから、被写体検出処理を適用する画像の特性に応じて、前記被写体検出手段で用いるパラメータを選択する選択手段と、
    を有し、
    前記選択手段は、前記画像を生成した撮像素子に応じて前記被写体検出手段で用いる学習モデルを選択することを特徴とする画像処理装置。
  2. 第1の撮像素子で生成された画像に対して前記被写体検出処理を適用するときに用いられる第1の学習モデルは、前記第1の撮像素子に対応する画像を用いて機械学習が行われた学習モデルであり、
    第2の撮像素子で生成された画像に対して前記被写体検出処理を適用するときに用いられる第2の学習モデルは、前記第2の撮像素子に対応する画像を用いた機械学習が行われた学習モデルであることを特徴とする請求項に記載の画像処理装置。
  3. 前記第1の学習モデルは、前記第1の撮像素子で生成された画像を用いて機械学習が行われた学習モデルであり、
    前記第2の学習モデルは、前記第2の撮像素子で生成された画像を用いて機械学習が行われた学習モデルであることを特徴とする請求項に記載の画像処理装置。
  4. 前記第1の学習モデルは、前記第1の撮像素子で生成された画像を用いて機械学習が行われた学習モデルであり、
    前記第2の学習モデルは、前記第1の撮像素子で生成された画像を補正した画像を用いて機械学習が行われた学習モデルであることを特徴とする請求項に記載の画像処理装置。
  5. 機械学習に基づいて生成されたパラメータを用いて、画像に対して被写体検出処理を適用する被写体検出手段と、
    前記被写体検出処理に用いるパラメータを複数記憶する記憶手段と、
    前記記憶手段が記憶するパラメータから、被写体検出処理を適用する画像の特性に応じて、前記被写体検出手段で用いるパラメータを選択する選択手段と、
    を有し、
    前記選択手段は、前記画像の撮影に用いられた光学系に応じて前記被写体検出手段で用いるパラメータを選択することを特徴とする画像処理装置。
  6. 第1の光学系を用いて撮影された画像に対して前記被写体検出処理を適用するときに用いられる第1の学習モデルは、前記第1の光学系に対応する画像を用いて機械学習が行われた学習モデルであり、
    第2の光学系を用いて撮影された画像に対して前記被写体検出処理を適用するときに用いられる第2の学習モデルは、前記第2の光学系に対応する画像を用いた機械学習が行われた学習モデルであることを特徴とする請求項に記載の画像処理装置。
  7. 前記第1の学習モデルは、前記第1の光学系を用いて撮影された画像を用いて機械学習が行われた学習モデルであり、
    前記第2の学習モデルは、前記第2の光学系を用いて撮影された画像を用いて機械学習が行われた学習モデルであることを特徴とする請求項に記載の画像処理装置。
  8. 前記第1の学習モデルは、前記第1の光学系を用いて撮影された画像を用いて機械学習が行われた学習モデルであり、
    前記第2の学習モデルは、前記第1の光学系を用いて撮影された画像を補正した画像を用いて機械学習が行われた学習モデルであることを特徴とする請求項に記載の画像処理装置。
  9. 前記記憶手段から、ネットワークを介して、前記被写体検出手段で用いる学習モデルを取得する通信手段をさらに有することを特徴とする請求項1からのいずれか1項に記載の画像処理装置。
  10. 前記機械学習が、コンボリューショナル・ニューラル・ネットワーク(CNN)を用いることを特徴とする請求項1からのいずれか1項に記載の画像処理装置。
  11. 第1の撮像素子と、
    第2の撮像素子と、
    請求項1から10のいずれか1項に記載の画像処理装置と、を有する撮像装置であって、
    前記選択手段は、撮影モードに応じて前記被写体検出手段で用いる学習モデルを選択し、
    前記撮影モードが動画撮影モードまたは静止画撮影モードのいずれかであることを特徴とする撮像装置。
  12. 第1の撮像素子と、
    第2の撮像素子と、
    請求項1から10のいずれか1項に記載の画像処理装置と、を有する撮像装置であって、
    前記選択手段は、撮影モードに応じて前記被写体検出手段で用いる学習モデルを選択し、
    前記撮影モードが、前記第1の撮像素子を用い、前記第2の撮像素子を用いない撮影モードと、前記第2の撮像素子を用い、前記第1の撮像素子を用いない撮影モードとのいずれかであることを特徴とする撮像装置。
  13. 前記第1の撮像素子を用い、前記第2の撮像素子を用いない撮影モードが、光学ファインダーを使用中の撮影モードであり、
    前記第2の撮像素子を用い、前記第1の撮像素子を用いない撮影モードが、光学ファインダーを使用しない撮影モードである、
    ことを特徴とする請求項12に記載の撮像装置。
  14. 前記第1の撮像素子が、露出制御用の画像を取得するための撮像素子であることを特徴とする請求項11から13のいずれか1項に記載の撮像装置。
  15. 画像処理装置が実行する画像処理方法であって、
    機械学習に基づいて生成された学習モデルを用いて、画像に対して被写体検出処理を適用する被写体検出工程と、
    前記被写体検出処理に用いる学習モデルを複数記憶する記憶手段から、被写体検出処理を適用する画像の特性に応じて、前記被写体検出工程で用いる学習モデルを選択する選択工程と、
    を有し、
    前記選択工程では、前記画像を生成した撮像素子に応じて前記被写体検出工程で用いる学習モデルを選択することを特徴とする画像処理方法。
  16. 画像処理装置が実行する画像処理方法であって、
    機械学習に基づいて生成された学習モデルを用いて、画像に対して被写体検出処理を適用する被写体検出工程と、
    前記被写体検出処理に用いる学習モデルを複数記憶する記憶手段から、被写体検出処理を適用する画像の特性に応じて、前記被写体検出工程で用いる学習モデルを選択する選択工程と、
    を有し、
    前記選択工程では、前記画像の撮影に用いられた光学系に応じて前記被写体検出工程で用いるパラメータを選択することを特徴とする画像処理方法。
  17. コンピュータを、請求項1から10のいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラム。
  18. 撮像装置が有するコンピュータを、請求項11から14のいずれか1項に記載の撮像装置が有する画像処理装置として機能させるためのプログラム。
JP2019055199A 2018-04-10 2019-03-22 画像処理装置および画像処理方法、ならびに撮像装置 Active JP6818798B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/373,824 US10896350B2 (en) 2018-04-10 2019-04-03 Image processing apparatus, image processing method, and image capture apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018075616 2018-04-10
JP2018075616 2018-04-10

Publications (2)

Publication Number Publication Date
JP2019186918A JP2019186918A (ja) 2019-10-24
JP6818798B2 true JP6818798B2 (ja) 2021-01-20

Family

ID=68337745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019055199A Active JP6818798B2 (ja) 2018-04-10 2019-03-22 画像処理装置および画像処理方法、ならびに撮像装置

Country Status (1)

Country Link
JP (1) JP6818798B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005160122A (ja) * 2005-03-04 2005-06-16 Canon Inc 撮像装置及びコンピュータ読み取り可能な記憶媒体
JP4931218B2 (ja) * 2007-02-22 2012-05-16 キヤノン株式会社 撮像装置、物体検出方法及び姿勢パラメータの算出方法
JP5423631B2 (ja) * 2010-09-24 2014-02-19 株式会社デンソー 画像認識装置
JP6077785B2 (ja) * 2012-08-21 2017-02-08 株式会社豊田中央研究所 対象物検出装置及びプログラム
JP2015035704A (ja) * 2013-08-08 2015-02-19 株式会社東芝 検出装置、検出方法および検出プログラム
JP2015165377A (ja) * 2014-02-07 2015-09-17 株式会社フジクラ 入力装置

Also Published As

Publication number Publication date
JP2019186918A (ja) 2019-10-24

Similar Documents

Publication Publication Date Title
JP6931369B2 (ja) 画像処理装置および画像処理方法、ならびに撮像装置
CN102457681B (zh) 图像处理设备和图像处理方法
JP6405243B2 (ja) 焦点検出装置及びその制御方法
JP6512810B2 (ja) 撮像装置および制御方法とプログラム
JP5676988B2 (ja) 焦点調節装置
US10187564B2 (en) Focus adjustment apparatus, imaging apparatus, focus adjustment method, and recording medium storing a focus adjustment program thereon
JP2020095069A (ja) 撮像装置
JP2011217103A (ja) 複眼撮影方法および装置
US9602716B2 (en) Focus-detection device, method for controlling the same, and image capture apparatus
US7805068B2 (en) Imaging apparatus
JP2000196953A (ja) カメラシステム
JP6812387B2 (ja) 画像処理装置及び画像処理方法、プログラム、記憶媒体
JP2017067857A (ja) 焦点検出装置、予測方法、プログラム及び記憶媒体
US10896350B2 (en) Image processing apparatus, image processing method, and image capture apparatus
JP6529387B2 (ja) 撮像装置及びその制御方法、プログラム、記憶媒体
JP2020107956A (ja) 撮像装置、撮像方法およびプログラム
JP2021136555A (ja) 画像処理装置および画像処理方法
JP2009058762A (ja) 撮像装置
JP6818798B2 (ja) 画像処理装置および画像処理方法、ならびに撮像装置
JP5930683B2 (ja) 撮像装置、その制御方法及びプログラム
JP2016142924A (ja) 撮像装置及びその制御方法、プログラム、記憶媒体
JP2014194502A (ja) 撮像装置および撮像システム
JP6234094B2 (ja) 焦点検出装置および撮像装置
JP6515962B2 (ja) 制御装置、制御方法および露光制御システム
JP2016099432A (ja) 焦点検出装置及び方法、プログラム、記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190415

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201228

R151 Written notification of patent or utility model registration

Ref document number: 6818798

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151