JP2023155650A - 撮像装置及びその制御方法並びにプログラム - Google Patents

撮像装置及びその制御方法並びにプログラム Download PDF

Info

Publication number
JP2023155650A
JP2023155650A JP2022065101A JP2022065101A JP2023155650A JP 2023155650 A JP2023155650 A JP 2023155650A JP 2022065101 A JP2022065101 A JP 2022065101A JP 2022065101 A JP2022065101 A JP 2022065101A JP 2023155650 A JP2023155650 A JP 2023155650A
Authority
JP
Japan
Prior art keywords
recognition
image
section
unit
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022065101A
Other languages
English (en)
Inventor
尊志 小林
Takashi Kobayashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2022065101A priority Critical patent/JP2023155650A/ja
Priority to US18/193,987 priority patent/US20230326164A1/en
Publication of JP2023155650A publication Critical patent/JP2023155650A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/955Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/617Upgrading or updating of programs or applications for camera control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/65Control of camera operation in relation to power supply
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/667Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/81Camera processing pipelines; Components thereof for suppressing or minimising disturbance in the image signal generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Vascular Medicine (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

【課題】撮像素子部での認識対象を、撮像素子部からの画像を処理する信号処理部において高精度に認識させることができる撮像装置、制御方法、並びにプログラムを提供する。【解決手段】デジタルカメラ100は、撮像部20及びセンサー認識部32を備える撮像素子部11と、撮像素子部11から信号線を介して入力された画像を処理する信号処理部12と、信号処理部12を認識モード及び学習モードの一方に切り替える制御演算部16とを備える。信号処理部12は、認識モードにおいて、撮像部20からの画像を学習モデルに入力することで認識処理を行う認識部25と、学習モードにおいて、センサー認識部32における認識結果及び撮像部20から入力された画像に基づいて、学習モデルの機械学習を行う学習部43とを備える。【選択図】図5

Description

本発明は、撮像装置及びその制御方法並びにプログラムに関し、特に、撮像素子部と信号処理部を内部に配置する撮像装置及びその制御方法並びにプログラムに関する。
近年のデジタルカメラに代表される撮像装置では、画像処理の多様化・高速化などのニーズから、信号処理部において、DNN(DeepNeuralNetwork)等の機械学習に基づくニューラルネットワークによる高度な認識処理が行われる場合がある。また、かかる撮像装置では、単一の撮像素子部において撮像部と認識部を配置し、その単一の撮像素子部において画像の生成と画像の認識を実施する場合もある。
例えば、特許文献1には、撮像部とディープラーニングを用いた認識部とが基板上に積層される撮像素子部が提案されている。
また、特許文献2には、かかる撮像素子部における認識部の認識精度を評価し、その認識精度に応じて認識部で用いる学習モデルを変更する技術が開示されている。特許文献2における学習モデルは予め記憶部に記憶されており、評価された認識精度に応じて検出対象とする物体検知の種類の数や、クラス分類の種類の数が変更される。
特許6937443号公報 特許6697042号公報
ところで、冒頭に述べた通り、近年のデジタルカメラに代表される撮像装置では、後段の信号処理部だけでなく、前段の撮像素子部においても高度な認識処理を行う認識部が搭載されている場合がある。つまり、撮像装置は、前段の撮像素子部と後段の信号処理部とに1つずつ、2つの認識部を有することになる。2つの認識部があれば、条件に応じて使い分けることが可能である。しかし、撮像素子部と信号処理部は別の回路であり、2つの認識部が同じ認識対象に対応しているとは限らない。
そこで本発明は、撮像素子部での認識対象を、撮像素子部からの画像を処理する信号処理部において高精度に認識させることができる撮像装置及びその制御方法並びにプログラムを提供することを目的とする。
上記課題を解決するため、本発明に係る撮像装置は、撮像素子部と、前記撮像素子部から信号線を介して入力された画像を処理する信号処理部とを有する撮像装置において、前記信号処理部を、認識モード及び学習モードの一方に切り替える切替手段を更に備え、前記撮像素子部は、前記画像を生成する撮像手段と、前記画像に基づいて認識処理を行う第1の認識手段とを備え、前記信号処理部は、前記認識モードにおいて、前記撮像素子部から入力された前記画像を学習モデルに入力することで認識処理を行う第2の認識手段と、前記学習モードにおいて、前記第1の認識手段における認識結果及び前記撮像素子部から入力された前記画像に基づいて、前記学習モデルの機械学習を行う学習手段とを備えることを特徴とする。
本発明によれば、撮像素子部での認識対象を、撮像素子部からの画像を処理する信号処理部において高精度に認識させることができる。
本発明の第1の実施形態に係る撮像装置としてのデジタルカメラの概略構成を示す図である。 従来の撮像素子部と信号処理部の内部のデータの流れを示す図である。 本発明の第1の実施形態での認識モードにおける撮像素子部と信号処理部内部のデータの流れを示す図である。 撮像素子部で認識処理を行うセンサー認識部と信号処理部で認識処理を行う認識部を比較した図である。 本発明の第1の実施形態での学習モードにおける撮像素子部と信号処理部の内部のデータの流れを示す図である。 本発明の第1の実施形態に係るモード切替処理のフローチャートである。 本発明の第1の実施形態における学習モードへの移行を促すUIの例を表す図である。 本発明の第1の実施形態に係るセンサー認識部及び認識部の認識性能を比較する例を示す表である。 本発明の第1の実施形態に係るセンサー認識部及び認識部の認識性能を比較する例を示す表である。 本発明の第2の実施形態での学習モードにおける撮像素子部と信号処理部の内部のデータの流れを示す図である。
<第1の実施形態>
以下、本発明の第1の実施形態について説明する。
図1は、本実施形態に係る撮像装置としてのデジタルカメラ100の概略構成を示す図である。
図1において、デジタルカメラ100は、レンズ群10、撮像素子部11、信号処理部12、記録処理部13、記録媒体14、操作部15、及び制御演算部16を備える。
レンズ群10は、デジタルカメラ100で画像が撮影される際に、好ましい画質を実現するために制御可能なレンズ群を表している。ズームレンズ、フォーカスレンズ、防振レンズ、絞り、ND(NeutralDesity)フィルターなどを含んでいる。
撮像素子部11は、レンズ群10を通過した光線を受光し、その撮像面上の各画素部で光を電気信号に変換する光電変換が行う。さらに撮像素子部11は、光電変換により得られた電気信号をアナログ信号からデジタル信号に変換し、デジタル画像を生成する。
信号処理部12は、撮像素子部11で生成されたデジタル画像に対して様々な画像処理を施す。ここでの画像処理とは、高画質化のために様々な補正処理である。例えば、固定パターンノイズの除去や、デモザイキング処理、現像処理、明るさ補正処理、色補正処理、幾何変形処理、輪郭強調処理、ガンマ補正処理、コントラスト補正処理、収差補正処理、ノイズリダクション処理などが挙げられる。また、信号処理部12は、かかる画像処理だけでなく、フォーカスや絞り制御などのレンズ制御のために主被写体領域を画像から検出する認識処理も実施される。撮像素子部11及び信号処理部12の夫々の内部での具体的な処理内容については後で詳細に述べる。信号処理部12で画像処理がされた画像は、記録処理部13に伝達される。
記録処理部13は、信号処理部12から受け取った画像に対して符号化処理を行い、符号化された画像を記録媒体14に伝達する。
記録媒体14は、デジタルカメラ100の持つ汎用的なIF(不図示)に装着/取り外し可能な汎用記録メディアでも構わないし、デジタルカメラ100内部に備え付けられ取り外し不可能な固定記憶容量を持つ記憶装置でも構わない。記録媒体14は、伝達された符号化された画像を不揮発な記憶領域に書き込み、画像データを記憶する。
操作部15は、ユーザからのデジタルカメラ100への操作を受け付ける受付手段、及び受け付けた操作の内容を示す操作信号を制御演算部16に送信する送信手段を有する。受付手段は、機械的なボタンでも構わないし、液晶などの表示部材と一体化された静電受付方式のタッチパネルであってもかまわない。また、受付手段は、汎用端子に接続された外部のリモートコントローラーでもよいし、デジタルカメラ100に無線接続されたスマートフォンなどの外部端末からの通信機器であってもかまわない。
制御演算部16は、操作部15の送信手段から送信された操作信号を受け付け、各ブロックへの制御情報を生成して、レンズ群10、撮像素子部11、信号処理部12、記録処理部13、記録媒体14に伝達する。操作部15の受付手段が上記表示部材と一体化されたタッチパネルの場合、制御演算部16は、操作部15に対する、表示部材への画像表示の制御情報の伝達も行う。
例えば、デジタルカメラ100で静止画撮影をする場合に、前段階としてSW1でオートフォーカスを合わせる動作について、デジタルカメラ100のシステム全体の信号の流れを説明する。尚、以下の例では、操作部15の受付手段にレリーズボタンが含まれる。
操作部15は、レリーズボタンの半押しを検知すると、半押し情報を制御演算部16へ送信する。制御演算部16は、操作部15から半押し情報が送信されると、デジタルカメラ100がSW1状態(Switch 1状態)であると判断する。SW1状態では、被写体に最速で合焦動作を行うため、合焦動作に適した明るさにする必要がある。このため制御演算部16は、合焦動作に適した明るさになるように、絞りの制御位置・露光時間・明るさ補正の補正値を算出し、対応する補正値をレンズ群10、撮像素子部11、信号処理部12に伝達する。
信号処理部12は、順次撮影されている画像の中から主被写体の位置を検出し、被写体座標とその周辺座標のコントラスト情報(以下「被写体付近のコントラスト情報」という)を算出し、制御演算部16に送信する。
制御演算部16は、信号処理部12から送信された被写体付近のコントラスト情報から被写体座標の合焦度合いを判断し、その合焦度合いに応じたフォーカス制御情報を生成し、レンズ群10に複数回にわたって送信する。制御演算部16は、このフォーカス制御情報の送信によりレンズ群10に含まれるフォーカスレンズを駆動させる毎に撮影を行い、撮影された画像毎に信号処理部12で被写体付近のコントラスト情報を算出させる。制御演算部16は、信号処理部12で算出された被写体付近のコントラスト情報に基づき、合焦に達したかどうかを判断する。合焦に達したと判断した場合、制御演算部16は、レンズ群10にフォーカスレンズの停止命令を発行し、SW1状態からSW2への動作への遷移に備える。さらに、制御演算部16は、合焦動作用の明るさから、静止画撮影用の明るさになるようにレンズ群10、撮像素子部11、信号処理部12に制御情報を生成する。
以上、デジタルカメラ100の概略構成及びその動作について説明した。ここからは、撮像素子部11と信号処理部12の内部動作について説明する。
まず、図1の撮像素子部11と信号処理部12と同様の位置に配置される、従来の撮像素子部11aと信号処理部12aについて、図2を用いて説明する。図2には、従来の撮像素子部11aと信号処理部12aの内部のデータの流れが示されている。
撮像素子部11aは、撮像部20及びIF(Interface)部21を備える。また、信号処理部12aは、IF部22,本線画像処理部23、認識用画像処理部24、認識部25を備える。
撮像素子部11aにおける撮像部20(撮像手段)は、受光した光を光電変換し、さらにデジタル変換してデジタル画像を生成する。撮像部20から出力されたデジタル画像は、IF部21を通じて、信号処理部12a内のIF部22に伝達される。ここで、IF部21,22はLVDS(LowVoltageDifferentialSignal)やsubLVDSなどの一般的な通信形式でもよいし、その他構成要素に特化した特別な通信形式でも構わない。また、図2ではIF部21,22間の通信は、1本の信号線を通して行われる例を示しているが、複数の信号線を通して画像信号を並列に高速で通信してもかまわない。
信号処理部12aにおける本線画像処理部23は、記録処理部13に出力する画像を生成するため、撮像素子部11aから出力された画像に画像処理を施す。ここで画像処理とは、Bayer配列の画像を一般的に記録・視聴可能な画像へと変換するための様々な画像処理が含まれる。例えば、固定パターンノイズを除去する処理や、デモザイキング処理、RGBのバランスを調整する色補正処理や、表示機器のガンマ特性に合わせたガンマ補正処理が含まれる。また、レンズ群10を通して撮影された被写体はそのレンズ部の特性により画質の劣化が発生する場合がある。一般的には、周辺部が歪曲する歪曲収差や、放射軸方向に色ずれが発生する色収差、レンズの口径食の影響を受けた周辺部光量落ちなどがある。ここでの画像処理には、撮影時のレンズ状態に応じてこれらの画質劣化を補正する処理も含まれる。歪曲収差については幾何変形をかけることで、色収差についてはズレ量分だけ各画素の戻すことで、周辺部光量落ちについては同心円方向に画像信号を増幅することで補正が可能である。また、ここでの画像処理には、画像としての品位を向上するため、被写体の輪郭部を強調する補正処理や、ランダムノイズを低減するノイズリダクション処理なども含まれうる。こうして処理された画像は、後段の記録処理部13へと画像が出力される。
一方、本線画像処理部23とは並列に配置された認識用画像処理部24(画像加工手段)は、認識処理を行う認識部25に出力する画像を生成するため、本線画像処理部23と同様の画像処理を撮像素子部11aから出力された画像に施し、画像を加工する。ただし、認識処理において認識される被写体やシーンには、認識しやすい明るさや階調が存在する場合がある。例えば、黒い動物などはある程度明るさ補正をした方が認識精度が向上する傾向がある一方、人間の顔などでは明暗のコントラストが小さいと認識率が落ちる傾向がある。そのため、認識用画像処理部24では、認識対象に応じて本線画像処理部23とは異なる画像処理を施すことが好ましい。認識用画像処理部24で処理された画像は、認識部25に入力される。
認識部25(第2の認識手段)では、様々な認識処理が行われる。認識部25での認識処理は、ルールベースの認識機能を用いてもよいし、弱識別機を直列につないで順次認識するカスケード型の認識機能を用いてもよいし、特徴空間における識別境界を機械学習により訓練した認識機能を用いてもよい。また、認識部25での認識処理は、機械学習によりプーリング層の係数を深層学習により獲得したニューラルネットワークによる識別機能を用いてもよい。認識部25が被写体認識を行う場合、その認識対象としては、人や動物、人工物、空、道路、信号などの特定被写体や、手足や骨格、頭部、瞳など被写体の一部の器官が例示される。また、認識部25により画像内のシーンがどのようなシーンかを判断するシーン認識がされる場合もある。例えば、シーン認識により認識されるシーンとしては、昼夜、屋内・屋外、夕焼け、スポーツ、ポートレートなど、使用頻度の高い特定のシーンが挙げられる。さらに、被写体が人か動物か、被写体が男性か女性か、被写体は子供か大人か、などの被写体の性質を分類するクラス分類を認識部25の認識処理として行うケースも近年増えている。このクラス分類には、画像内の主被写体が、人物、動物、風景、道路、空、車両など、どの種類に分類されるかを判断する画像分類も含まれる。これらの認識結果として、認識部25は、被写体の位置(画像の内の座標)や被写体の有無、判定されたシーンのID、被写体のクラスのID、画像の種類のIDなどを制御演算部16に出力する。
以下、認識モードと学習モードを切り替え可能である、本実施形態に係るデジタルカメラ100について説明する。つまり、認識モードでは認識機能を利用して認識結果を得ることができ、学習モードでは信号処理部の認識機能の更新を行うことができる。
まずは、認識モードについて、図3に示す撮像素子部11と信号処理部12の内部のデータの流れに触れながら説明する。尚、図2の従来の撮像素子部11aと信号処理部12aと同様の内部構成については、同様の付番を付し、重複した説明は省略する。すなわち、図3に示す構成のうち、図2と付番が共通する撮像部20、IF部21、IF部22、本線画像処理部23、認識用画像処理部24、認識部25の説明は省略する。
図3で示す通り、撮像素子部11は、さらにセンサー画像処理部31及びセンサー認識部32が設けられている。また、信号処理部12は、認識部25と接続する学習モデル33がさらに設けられている。つまり、本実施形態では、撮像素子部11内のセンサー認識部32と、信号処理部12内の認識部25とで、2つの認識部を有することになる。
センサー認識部32と、認識部25の差について、図4を用いて説明する。撮像素子部11に設置された認識部であるセンサー認識部32(第1の認識手段)は、信号処理部12に設置された認識部である認識部25と比べ、その処理の直前の認識用の画像処理は簡易的であり、また認識用の回路規模も小さい。このため、センサー認識部32は、認識部25より認識性能は低い。一方、撮像素子部11では、認識に必要なラインだけ先に読出して認識を行ったり、画像の途中で認識結果を出力することができるため、センサー認識部32は、間引き画像や部分画像での認識を行ったり、全画像を使用せずに認識を行える。このため、センサー認識部32での認識結果を得るまでの時間は、認識部25より早い。また、撮像素子部11から外部に出力される全画像に対して、センサー認識部32による認識結果が遅延せず、同時に出力することができる。また、センサー認識部32では、認識部25と異なり全画像でなく部分画像での認識を行うことができ、且つ認識部25より小さな回路規模で認識処理を行うため、認識部25より消費電力を抑えることができる。さらに、認識部25とセンサー認識部32とでは、回路の設置されている場所が、撮像素子部11上と信号処理部12上という差があるため、認識処理を動作させた場合に発熱が発生する箇所が異なるのも特徴的な差である。このように撮像素子部11と信号処理部12が個別に認識部を有する時、これらの特徴を生かして夫々の認識部を使い分けることが可能である。例えば、センサー認識部32と認識部25を、認識対象を別のものに設定して、同時に並行して使用する並行認識モードを設けることもできる。また、認識性能を重視する場合は認識部25を使用し、認識結果の遅延を重要視する場合はセンサー認識部32を使用してもよい。撮像素子部11の発熱を抑えたいときは信号処理部12の認識部を使用し、デジタルカメラ100全体としての消費電力を抑えたい場合はセンサー認識部32を使用してもよい。このように、認識部25とセンサー認識部32の使い分けは様々な方法が考えられるが、本実施形態において特に限定はされない。
図3の説明に戻る。撮像部20から出力された画像信号が、センサー画像処理部31に入力されると、センサー画像処理部31では、センサー認識部32で認識機能を動作できる形式の画像へと画像処理を行う。具体的には、撮像部20から出力される画像はRAW画像であるため、それをYUV画像に変換したり、ガンマ変換を行ったりする。センサー画像処理部31で行われる画像処理は、基本的には信号処理部12内の認識用画像処理部24と同様であるが、撮像素子部11内に配置できる回路規模には制限があるため、認識用画像処理部24よりもより簡易的な画像処理に制限される。そして、センサー画像処理部31から出力された画像がセンサー認識部32に入力される。センサー認識部32では認識処理を行う。認識処理に関しては信号処理部12の認識部25と同様で何ら制限はない。センサー認識部32で認識処理を行い、認識結果をIF部21,22を通じて制御演算部16に出力する。図3では、認識結果は、信号処理部12を介して制御演算部16に出力されているが、IF部21を介して制御演算部16に直接出力されるようにしても問題はない。
図2との差として、信号処理部12の内部に学習モデル33が用意されている。認識部25は、信号処理部12内部のメモリ(不図示)に置かれた学習モデル33に基づいて認識処理を行う。学習モデル33を保持するメモリは、不揮発性のメモリであってもよいし、信号処理部12の通電開始時に、不揮発性のメモリから展開され通電時間中は揮発性のメモリに保持されるデータであってもかまわない。
続いて、学習モードについて、図5に示す撮像素子部11と信号処理部12の内部のデータに触れながら説明する。
学習モードにおいても撮像素子部11は、図3に示す認識モードにおける構成と同様の構成を有する。一方、信号処理部12は、学習モードでは、図3に示す認識モードと同様にIF部22、本線画像処理部23、及び学習モデル33を有する。但し、図5に示すように、信号処理部12は、学習モードでは、認識用画像処理部24の代わりに学習用画像処理部42、認識部25の代わりに学習部43を有し、また、認識結果補正部40、及び認識結果バッファ41を有する。
センサー認識部32の認識結果は、IF部21,22を通じて信号処理部12に入力され、認識結果補正部40を経由し、認識結果バッファ41に入る。一方、撮像部20から出力された画像は、IF部21,22を通じて信号処理部12に入力され、学習用画像処理部42での画像処理を経て、学習部43に入力される。センサー画像処理部31では、上述の通り歪曲補正が施されないため、撮像素子部11内では歪曲した画像を使用することになる。一方、信号処理部12内の学習用画像処理部42では複雑な画像処理が可能であり歪曲収差に対応した幾何変形処理が可能である。つまり、学習用画像処理部42からの画像を入力した場合の認識部25の認識結果と、センサー認識部32の認識結果の間には、幾何変形の分だけ差が生じることになる。そこで、認識結果補正部40(補正手段)では、センサー認識部32で得られた認識結果のうち、幾何変形により変わりうる画像内の位置に関する認識結果を、幾何変形後の状態に変更する補正を行う。つまり、認識結果補正部40は、学習用画像処理部42における処理に相当する補正として、所定の座標のみ幾何変形を行う。これにより、幾何変形される前の画像からの認識結果を、幾何変形された後の画像に当てはめて認識結果を得ることができる。
つづいて、信号処理部12における学習用画像処理部42について述べる。一般的に、認識工学の分野では、認識精度を向上させる手法の一つとして、生成型学習が利用されてきた。これは、教師有り学習において、学習用の画像にわざとノイズ付与などの認識精度が低下する画像処理(画像劣化処理)を施した画像を用いることで、劣化した画像を考慮した識別機が構築され、認識精度の高い学習結果を得るという学習法である。本実施形態でも学習用画像処理部42では、わざと劣化した画像処理を施す。例えば、学習用画像処理部42は、WB(WhiteBalance)をわざと適正からシフトさせて、視認性を落とした色画像を生成する色変更処理をしてもよい。学習用画像処理部42は、適正な明るさからアンダーまたはオーバーな明るさにシフトさせた画像を生成する画像処理(明るさ変更処理)をしてもよい。また、学習用画像処理部42は、画像にブラー処理を施して解像感を落とす画像処理や、画像の階調の割り当てを変更しコントラストを低下させる画像処理(コントラスト低下処理)をしてもよい。また、レンズ収差が目立つ方向に画像処理を施す、つまり、周辺部をより歪ませる幾何変形処理、輪郭部の色収差が目立つように各画素の色を変える収差付与処理、口径食が目立つように画像周辺部の光量を低下させる画像処理(光量低下処理)等をしてもよい。もちろんランダムノイズを想定して画像全体にノイズ成分を付与する画像処理(ノイズ付与処理)をしてもよい。これらの画像処理により認識精度が低下した画像が学習用画像処理部42から出力され学習部43に入力される。
次に、認識結果バッファ41について述べる。認識結果バッファ41(同期手段)は、学習用画像処理部42から出力される画像が、センサー認識部32がその認識結果を得るために用いた画像と相関のある画像となるよう、同期をとって学習部43に入力するために用いられる。すなわち、学習用画像処理部42では、幾何変形を含む複雑な画像処理が施されるため、画像入力と画像出力の間に実行される画像処理の時間がかかり、遅延が発生する。そのため、認識結果補正部40で補正された、センサー認識部32からの認識結果をそのまま学習部43に入力すると、その入力タイミングが学習用画像処理部42による画像処理後の画像の学習部43への入力タイミングに対して先行してしまう。そこで、認識結果バッファ41は、認識結果補正部40から順次入力される複数フレームの画像の認識結果をFIFOで保持する。これにより、認識結果バッファ41は、現フレームの画像から学習用画像処理部42で発生する上記遅延分だけ前のフレームの画像の認識結果を、学習用画像処理部42から入力される画像と同期して学習部43に入力する。尚、ここでは、現フレームとは、前記撮像素子部11より信号処理部12に現在入力されているフレームを指す。そして、学習部43(学習手段)では、認識結果バッファ41からの認識結果を教師データとして、学習用画像処理部42からの画像と同期をとって紐づけて機械学習を行い、学習の結果取得された識別機を学習モデル33に記憶する。ここで、学習用画像処理部42(画像加工手段)は、認識モードにおける認識用画像処理部24と兼用でもよいし、認識用画像処理部24の一部として構成されていてもよいし、全く別の画像処理回路として構成されていてもよい。また、学習部43についても、認識モードにおける認識部25と兼用の回路でもよいし、認識部25の一部として構成されていてもよいし、全く別の回路として構成されていてもよい。
また、学習方法に関しても、認識部25で利用可能な学習モデル33を更新できる手法であればどんな手法であってもよい。例えば、最尤推定法、k-meansクラスタリング法、評価関数等を利用したニューラルネットワークのプーリング層の重みの更新であってもよい。このようにして学習モードを使用することで、デジタルカメラ100を通常使用しつつ、撮像素子部11で撮像された画像の認識性能を向上させることができる。
次に、認識モードと学習モードの切り替え方法について、図6のフローチャートを参照しながら説明する。
図6は、本実施形態に係るモード切替処理のフローチャートである。本処理は、制御演算部16(切替手段)が、デジタルカメラ100内のROM(不図示)に保持されるプログラムを、同じくデジタルカメラ100内にあるRAM(不図示)に展開することより実行される。本処理は、デジタルカメラ100が起動すると開始する。
まずカメラ起動時は、認識モードで動作を開始する(ステップS600)。認識モードとしてデジタルカメラ100を動作させながら、順次撮影される画像の中に、センサー認識部32で認識可能であるが、認識部25で認識可能でない被写体があるかどうかを判定する(ステップS601)。認識部25で認識可能でない被写体がない場合(ステップS601でYES)、ステップS600に戻る。一方、認識部25で認識可能でない被写体がある場合(ステップS601でNO)、その被写体を認識部25で認識可能な対象として追加するために、信号処理部12を学習モードに切り替え、学習モードでの動作を開始する(ステップS602)。その後、その被写体に対して一定の認識精度を獲得するまで、学習モードで学習を繰り返し(ステップS603でNO)、一定の認識精度を獲得したときに(ステップS603でYES)、ステップS600に戻り、認識モードでの動作を再開する。認識精度への到達の判断は後ほど述べる。
図6のフローチャートでは、デジタルカメラ100が自動で認識モードと学習モードを切り替える処理について説明したがかかる構成に限定されない。例えば、図7に示す学習モードへの移行を促すUIを操作部15と一体化した表示部に表示し、ユーザが操作部15で図7のUI上の「はい」を選択した時に、認識モードと学習モードの切り替えてもよい。
ステップS603における、信号処理部12の認識部25が一定の認識精度を獲得したかどうかの判断について詳細に述べる。この判断の方法は特に限定されないが、例えば、学習部43が、対象とする被写体が含まれる画像を一定数以上含む入力画像について学習した際、一定の認識精を獲得したと判断してもよい。また別の方法として、認識モードに移行し、認識モードでのセンサー認識部32の認識結果と、認識部25での認識結果を比較して、その比較結果に基づき、一定の認識精度を獲得したかどうかを判断してもよい。図8と図9には、それぞれ、認識部25とセンサー認識部32の認識性能を比較した表が示されている。ここで、通常画質と書かれた列には、撮像部20で撮影された画像をそのままそれぞれの認識部に入力した場合の認識結果を示している。明るさアンダーと書かれた列は、撮像部20で撮影された画像を、センサー画像処理部31で明るさをアンダーに画像処理し、認識用画像処理部24で同じ量だけ明るさをアンダーに画像処理した場合の、それぞれの認識部の認識結果を示している。明るさオーバーと書かれた列は、撮像部20で撮影された画像を、センサー画像処理部31で明るさをオーバーに画像処理し、認識用画像処理部24で同じ量だけ明るさをオーバーに画像処理した場合の、それぞれの認識部の認識結果を示している。図8では明るさアンダーの画像は、センサー認識部32では正しく(一定の認識精度で)認識できているが、認識部25では正しく認識できなかったことが比較でわかる。つまり、センサー認識部32の認識精度の方が認識部25の認識精度よりも高い、すなわち学習部43での学習がまだ進んでおらず、認識部25の認識精度が一定の水準に達していないことが分かる。図9では、明るさアンダーの画像だけでなく、センサー認識部32でも正しく認識できていない、明るさオーバーの画像も、認識部25では正しく認識できたことが比較でわかる。つまり、認識部25の認識精度が、センサー認識部32の認識精度を超え、一定の水準に達していると判断することができる。このようにして、認識部25の認識精度の到達度を判定して、学習モードから認識モードへの移行を判断してもよい。
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。学習部43での学習が進み、認識部25の認識精度がセンサー認識部32の認識精度を超え、この2つの認識部に性能差が出ると、認識部25とセンサー認識部32を使い分けようとした際に使い分けにくい場合が発生する。そこで、本実施形態では、図10に示すように、性能向上を果たした認識部25で使用している学習モデル33を、センサー認識部32でも用いることを可能としている。
尚、以下の説明において、図5に示す第1の実施形態と同様の内部構成については、同様の付番を付し、重複した説明は省略する。
図10に示すように、撮像素子部11’は、その内部のメモリ領域に学習モデルをもつセンサー学習モデル60を備え、センサー認識部32はセンサー学習モデル60に基づいて認識を行う。そして、センサー学習モデル60は、IF部21,22を通して信号処理部12内の学習モデル33と接続されており、学習モデル33に構築された一定の認識精度に達した識別パラメータをセンサー学習モデル60にインポート可能な構成を持つ。ここで、認識部25及びセンサー認識部32は、ルールベースの認識機能を用いてもよいし、弱識別機を直列につないで順次認識するカスケード型の認識機能を用いてもよいし、特徴空間における識別境界を機械学習により訓練した認識機能を用いてもよい。ただし、学習モデル33をセンサー学習モデル60にインポート可能な、互換性のある構成である必要がある。例えば、センサー認識部32と認識部25が同じ構成の持つ識別機とする。このような場合、学習モデル33をセンサー学習モデル60にインポートすることで、センサー認識部32の性能を認識部25に近い水準まで向上させることが可能である。
以上、第1及び第2の実施形態では、本発明に係る撮像装置として、レンズ群10と一体的に構成されるデジタルカメラ100を例として説明したが、かかる構成に限定されない。例えば、レンズ群10はデジタルカメラ100の本体に対して着脱式の別装置であっても問題ない。また、デジタルカメラ100は、カメラ以外の機能を有するスマートフォンなどの形態でも構わない。
以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。上述の実施形態の一部を適宜組み合わせてもよい。
また、上述の実施形態の機能を実現するソフトウェアのプログラムを、記録媒体から直接、或いは有線/無線通信を用いてプログラムを実行可能なコンピュータを有するシステム又は装置に供給し、そのプログラムを実行する場合も本発明に含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータに供給、インストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の機能処理を実現するためのコンピュータプログラム自体も本発明に含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記録媒体としては、例えば、ハードディスク、磁気テープ等の磁気記録媒体、光/光磁気記憶媒体、不揮発性の半導体メモリでもよい。
また、プログラムの供給方法は、コンピュータネットワーク上のサーバに本発明を形成するコンピュータプログラムを記憶し、接続のあったクライアントコンピュータはがコンピュータプログラムをダウンロードしてプログラムするような方法も考えられる。
(その他の実施形態)
尚、本実施形態では、1つ以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置のコンピュータに供給し、そのシステムまたは装置のシステム制御部がプログラムを読出し実行する処理でも実現可能である。システム制御部は、1つまたは複数のプロセッサーまたは回路を有し、実行可能命令を読み出し実行するために、分離した複数のシステム制御部または分離した複数のプロセッサーまたは回路のネットワークを含みうる。
プロセッサーまたは回路は、中央演算処理装置(CPU)、マイクロプロセッシングユニット(MPU)、グラフィクスプロセッシングユニット(GPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)を含みうる。また、プロセッサーまたは回路は、デジタルシグナルプロセッサ(DSP)、データフロープロセッサ(DFP)、またはニューラルプロセッシングユニット(NPU)を含みうる。
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
100 デジタルカメラ
11 撮像素子部
12 信号処理部
16 制御演算部
20 撮像部
24 認識用画像処理部
25 認識部
32 センサー認識部
41 認識結果バッファ
43 学習部

Claims (17)

  1. 撮像素子部と、前記撮像素子部から信号線を介して入力された画像を処理する信号処理部とを有する撮像装置において、
    前記信号処理部を、認識モード及び学習モードの一方に切り替える切替手段を更に備え、
    前記撮像素子部は、
    前記画像を生成する撮像手段と、
    前記画像に基づいて認識処理を行う第1の認識手段とを備え、
    前記信号処理部は、
    前記認識モードにおいて、前記撮像素子部から入力された前記画像を学習モデルに入力することで認識処理を行う第2の認識手段と、
    前記学習モードにおいて、前記第1の認識手段における認識結果及び前記撮像素子部から入力された前記画像に基づいて、前記学習モデルの機械学習を行う学習手段とを備えることを特徴とする撮像装置。
  2. 前記切替手段は、
    前記撮像装置の起動時に、前記信号処理部を前記認識モードで動作させ、その際、前記撮像素子部から入力された前記画像が前記第2の認識手段により認識可能な被写体を含まない場合、前記第2の認識手段が前記被写体に対して一定の認識精度を獲得するまで、前記信号処理部を前記学習モードとして動作させることを特徴とする請求項1記載の撮像装置。
  3. 前記信号処理部は、前記撮像素子部から入力された前記画像を加工する画像加工手段を更に備え、前記認識モードの際、前記画像加工手段で加工された画像を前記第2の認識手段に入力することを特徴とする請求項2記載の撮像装置。
  4. 前記信号処理部は、前記学習モードの際、前記画像加工手段で加工された画像を前記学習手段に入力することを特徴とする請求項3記載の撮像装置。
  5. 前記学習モードでは、前記信号処理部において、前記画像加工手段で加工された画像と、前記第1の認識手段が前記認識結果を得るために用いた画像とを、相関のある画像となるよう、同期をとって紐づけて前記学習手段に入力することを可能とする同期手段を有することを特徴とする請求項4記載の撮像装置。
  6. 前記同期手段は、前記撮像素子部より順次入力される複数フレームの画像の前記認識結果をFIFOで保持し、前記撮像素子部より前記信号処理部に現在入力されているフレームの画像より前記画像加工手段による画像処理により生じる遅延分だけ前のフレームの画像の前記認識結果を、前記画像加工手段から入力される画像と同期して、前記学習手段に入力することを特徴とする請求項5記載の撮像装置。
  7. 前記画像加工手段は、前記撮像素子部から入力された前記画像に対して、デモザイキング処理、現像処理、明るさ補正処理、色補正処理、輪郭強調処理、コントラスト補正処理、幾何変形処理、収差補正処理、口径食による周辺部の明るさ補正処理、ガンマ補正処理、のうち少なくとも一つの画像処理を施すことを特徴とする請求項3記載の撮像装置。
  8. 前記画像加工手段は、前記学習モードの際、前記撮像素子部から入力された前記画像に対して、WBを適正からシフトさせる色変更処理、明るさを適正からシフトさせる明るさ変更処理、ブラー処理、コントラスト低下処理、幾何変形処理、収差付与処理、画像周辺部の光量低下処理、ノイズ付与処理、のうち少なくとも一つの画像劣化処理を更に施すことを特徴とする請求項4記載の撮像装置。
  9. 前記信号処理部は、前記第1の認識手段の認識結果を補正する補正手段を更に備え、前記学習モードの際、前記第1の認識手段における認識結果は、前記補正手段により補正された後に前記学習手段へ入力されることを特徴とする請求項4記載の撮像装置。
  10. 前記補正手段は、前記画像加工手段における少なくとも一つの画像処理に相当することを特徴とする請求項9記載の撮像装置。
  11. 前記補正手段は、前記画像加工手段における幾何変形処理に相当する変換であることを特徴とする請求項9記載の撮像装置。
  12. 回路規模、及び消費電力の少なくとも一つについて、前記第1の認識手段は前記第2の認識手段よりも小さいことを特徴とする請求項1記載の撮像装置。
  13. 前記切替手段は、前記撮像素子部の前記第1の認識手段により認識結果を出力させるのと並行して、前記信号処理部を認識モードとして動作させ前記第2の認識手段により認識結果を出力させる、並行認識モードをさらに有することを特徴とする請求項1記載の撮像装置。
  14. 前記第1の認識手段、及び前記第2の認識手段における認識処理とは、被写体認識、シーン認識、被写体のクラス分類、画像分類のうち少なくとも一つを含むことを特徴とする請求項1記載の撮像装置。
  15. 前記撮像素子部は、前記第2の認識手段の学習モデルで、前記第1の認識手段の学習モデルを更新することを特徴とする請求項1記載の撮像装置。
  16. 撮像素子部と、前記撮像素子部から信号線を介して入力された画像を処理する信号処理部とを有する撮像装置の制御方法において、
    前記信号処理部を、認識モード及び学習モードの一方に切り替える切替ステップと、
    前記撮像素子部にて、前記画像を生成する撮像ステップと、
    前記撮像素子部にて、前記画像に基づいて認識処理を行う第1の認識ステップと、
    前記信号処理部にて、前記認識モードにおいて、前記撮像素子部から入力された前記画像を学習モデルに入力することで認識処理を行う第2の認識ステップと、
    前記信号処理部にて、前記学習モードにおいて、前記第1の認識ステップでの認識結果及び前記撮像素子部から入力された前記画像に基づいて、前記学習モデルの機械学習を行う学習ステップとを有することを特徴とする制御方法。
  17. コンピュータを、請求項1記載の撮像装置の各ステップとして機能させる、コンピュータにより実行可能なプログラム。
JP2022065101A 2022-04-11 2022-04-11 撮像装置及びその制御方法並びにプログラム Pending JP2023155650A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022065101A JP2023155650A (ja) 2022-04-11 2022-04-11 撮像装置及びその制御方法並びにプログラム
US18/193,987 US20230326164A1 (en) 2022-04-11 2023-03-31 Image capturing apparatus capable of recognizing recognition target with high accuracy, method of controlling same, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022065101A JP2023155650A (ja) 2022-04-11 2022-04-11 撮像装置及びその制御方法並びにプログラム

Publications (1)

Publication Number Publication Date
JP2023155650A true JP2023155650A (ja) 2023-10-23

Family

ID=88239627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022065101A Pending JP2023155650A (ja) 2022-04-11 2022-04-11 撮像装置及びその制御方法並びにプログラム

Country Status (2)

Country Link
US (1) US20230326164A1 (ja)
JP (1) JP2023155650A (ja)

Also Published As

Publication number Publication date
US20230326164A1 (en) 2023-10-12

Similar Documents

Publication Publication Date Title
JP7362284B2 (ja) 画像処理方法、画像処理装置、プログラム、画像処理システム、および、学習済みモデルの製造方法
US10634830B2 (en) Imaging device, image processing method and program for imaging device
US11508038B2 (en) Image processing method, storage medium, image processing apparatus, learned model manufacturing method, and image processing system
KR102266649B1 (ko) 이미지 처리 방법 및 장치
US8605999B2 (en) Signal processing apparatus and method, noise reduction apparatus and method, and program therefor
US20080074441A1 (en) Image processing apparatus, image processing method, image processing program, and image pickup apparatus
JP6460721B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2009212853A (ja) ホワイトバランス制御装置およびその制御方法並びに撮像装置
CN111667416A (zh) 图像处理方法、装置、学习模型制造方法和图像处理系统
CN103685968A (zh) 图像处理装置及图像处理方法
US11546553B2 (en) Image capturing apparatus using learned model, information processing apparatus, methods of controlling respective apparatuses, learned model selection system, and storage medium
JP2018117288A (ja) 画像処理装置及び画像処理方法
CN116438804A (zh) 帧处理和/或捕获指令系统及技术
US10600170B2 (en) Method and device for producing a digital image
JP6108680B2 (ja) 撮像装置及びその制御方法、プログラム、並びに記憶媒体
JP2014179920A (ja) 撮像装置及びその制御方法、プログラム、並びに記憶媒体
JP3985005B2 (ja) 撮像装置、画像処理装置、撮像装置の制御方法、およびこの制御方法をコンピュータに実行させるためのプログラム
JP2013135410A (ja) 撮像装置および評価値生成装置
US11659275B2 (en) Information processing apparatus that performs arithmetic processing of neural network, and image pickup apparatus, control method, and storage medium
JP2023155650A (ja) 撮像装置及びその制御方法並びにプログラム
TW202307791A (zh) 選擇性地增加具有多個感興趣區域的場景中的景深
JP2009033289A (ja) 撮像装置及び撮像方法
JP2023155714A (ja) 撮像装置及びその制御方法並びにプログラム
JP2002330335A (ja) 静止画像撮像装置
US20240221367A1 (en) Image generation method, processor, and program